CN113628696A - 基于双图卷积融合模型的药物连接图分数预测方法及装置 - Google Patents

基于双图卷积融合模型的药物连接图分数预测方法及装置 Download PDF

Info

Publication number
CN113628696A
CN113628696A CN202110815049.2A CN202110815049A CN113628696A CN 113628696 A CN113628696 A CN 113628696A CN 202110815049 A CN202110815049 A CN 202110815049A CN 113628696 A CN113628696 A CN 113628696A
Authority
CN
China
Prior art keywords
drug
graph
connection
diagram
molecular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110815049.2A
Other languages
English (en)
Other versions
CN113628696B (zh
Inventor
洪程之
章文
刘峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110815049.2A priority Critical patent/CN113628696B/zh
Publication of CN113628696A publication Critical patent/CN113628696A/zh
Application granted granted Critical
Publication of CN113628696B publication Critical patent/CN113628696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种基于双图卷积融合模型的药物连接图分数预测方法及装置。该方法中对药物关联图使用符号图卷积网络层进行训练后,将含有全局信息的结点特征通过全连接层的变换,分别融合到每一个药物的药物分子图中,再对融合了全局特征的药物分子图使用图注意力网络层进行训练并进行池化操作,获取药物的融合特征,实现了全局信息和局部信息的交流融合,针对这些融合特征,采取计算余弦相似度的方式进行解码,将预测值与真实值对比并计算误差,通过反向传播,不断迭代,得到用于预测药物对的药物连接图分数的药物连接图分数预测网络。通过本发明能够快速准确地预测出药物对的连接图分数,帮助筛选候选药物,能够降低时间和资金成本。

Description

基于双图卷积融合模型的药物连接图分数预测方法及装置
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种基于双图卷积融合模型的药物连接图分数预测方法及装置。
背景技术
药物性质的研究是现代医学最重要的挑战之一,发现新药物以及现有药物的新特性一直是药理学领域的热点问题。然而,由于化合物非常复杂,药物研究通常需要消耗大量时间和金钱。
当研究人员试图寻找具有某种生物活性的新化合物时,首先使用高通量筛选技术(HTS),由于HTS使用暴力穷举方法在庞大的搜索空间中筛选大量候选化合物,这一步骤非常耗时且成本高昂。下一步是优化候选化合物以获得所需的生物活性。大多数时候,候选化合物的潜在作用机制(MOA)是未知的。研究人员通常使用计算机辅助药物设计(CADD)方法进行药物研发,以改进HTS步骤并预测候选化合物的MOA。利用化合物的相似性寻找可能的新药一直是新药设计的重要方法。根据已知药物的性质推断其他类似化合物的性质,有助于筛选可能有效的候选药物,缩小候选化合物的搜索空间,从而大大提高药物设计效率,降低成本。
目前计算机辅助设计中常用的策略有基于配体的药物发现方法和基于结构的药物发现方法。它们的核心思想是化合物之间的某种相似性(结构或靶蛋白等)对应于功能或特性的相似性。
药物连接图分数(Connectivity Map score)是一种基于连通图(CMap)概念的方法产生的衡量两个药物的转录相似性的分数值。这种方法认为经过药物治疗后,细胞的基因表达发生了变化,因此细胞中的基因表达特征也可以用来衡量不同药物是否能诱导相似的药理反应。CMap概念是一种新的数据驱动的药物表达范式。药物之间的药物连接图分数表达了一对药物的功能相似性,与其他两种策略相比,药物连接图分数能够发现结构不太相似但是功能相似的候选药物,因此对于新药物的发现和候补药物的筛选有着重要的意义。
目前,获取药物之间的连接图分数的方法是实验分析上调和下调差异表达基因列表,然后利用CMap将差异基因列表与数据库参考数据集比对,最后计算得到相关性分数。传统方法需要进行实验分析,耗费时间和资金,效率也相对较低。
发明内容
本发明的主要目的在于提供一种基于双图卷积融合模型的药物连接图分数预测方法及装置,旨在解决现有技术中获取药物之间的连接图分数的方法需要进行实验分析,耗费时间和资金以及效率低的技术问题。
第一方面,本发明提供一种基于双图卷积融合模型的药物连接图分数预测方法,所述基于双图卷积融合模型的药物连接图分数预测方法包括:
构建训练网络,训练网络由编码器和解码器构成,编码器由符号图卷积网络层、特征融合层以及图注意力网络层构成;
获取药物数据集,所述药物数据集包括每个药物的简化分子线性输入规范、ECFP4特征以及每对药物的连接图分数;
将数据集分为训练集以及测试集,通过训练集构建药物关联图和药物分子图;
通过符号图卷积网络层对药物关联图进行特征提取,通过特征融合层将从药物关联图中提取出来的特征融合到对应药物的药物分子图中,通过图注意力网络层对融合特征后的每个药物分子图进行特征提取,得到每个药物的高维特征;
基于每个药物的高维特征,通过解码器计算每对药物的高维特征的余弦相似度;
计算每对药物对应的余弦相似度与连接图分数的均方误差,以均方误差为损失值更新训练网络的参数,并返回所述通过符号图卷积网络层对药物关联图进行特征提取的步骤,直至满足结束条件时,以最新的训练网络为药物连接图分数预测网络;
通过测试集对药物连接图分数预测网络进行测试,测试通过后,通过药物连接图分数预测网络对待预测药物对的药物连接图分数进行预测。
可选的,药物关联图以药物作为结点,不同药物间的连接图分数作为边的权重,药物关联图以二维邻接矩阵的形式构建和保存,矩阵的行和列表示对应的药物,矩阵元素值表示经过预处理后的两个药物的连接图分数,药物关联图中每个药物结点的初始特征是药物的ECFP4特征;药物分子图通过RDKit工具包转换而来,药物分子图以构成药物的原子为结点,原子间的连接为边,药物分子图以二维邻接矩阵的形式构建和存储,矩阵的行和列表示原子,矩阵的值表示两个原子间是否存在连接,每个结点的特征是78位向量编码,其中11位表示原子的类型,11位表示原子结点的度,11位表示在化合物中该原子与氢原子的连接的总数,11位表示与原子相连的隐藏氢原子数量,剩下1位表示原子是否在芳环上。
可选的,所述通过符号图卷积网络层对药物关联图进行特征提取的步骤包括:
通过符号图卷积网络层计算药物关联图中每个结点的平衡集和非平衡集,计算每个结点的平衡集的特征和非平衡集的特征,将每个结点对应的两种特征拼接融合,得到每个结点的全局特征。
可选的,所述通过特征融合层将从药物关联图中提取出来的特征融合到对应药物的药物分子图中的步骤包括:
特征融合层中的一层全连接层对每个结点的全局特征进行如下变换:
Hi=Whi
其中W∈Rin×out是可学习的权重矩阵,根据权重矩阵维度调整全局特征hi的维度;
通过融合公式,将经过维度调整的全局特征与对应药物的药物分子图中每个结点的特征向量相加,融合公式为:
Figure BDA0003169853400000031
其中,Mi表示药物分子图中所有结点特征构成的特征矩阵,Hi是经过维度调整后与药物分子图的特征等长的全局特征。
可选的,所述通过图注意力网络层对融合特征后的每个药物分子图进行特征提取,得到每个药物的高维特征的步骤包括:
通过图注意力网络层对每个药物经过融合特征后的分子图进行特征提取,得到每个药物的新的分子图特征矩阵,使用全局池化层,对每个药物的新的分子图特征矩阵进行池化操作,得到每个药物的高维特征,高维特征融合了药物关联图结构信息和药物自身的分子图结构信息。
第二方面,本发明还提供一种基于双图卷积融合模型的药物连接图分数预测装置,所述基于双图卷积融合模型的药物连接图分数预测装置包括:
构建模块,用于构建训练网络,训练网络由编码器和解码器构成,编码器由符号图卷积网络层、特征融合层以及图注意力网络层构成;
获取模块,用于获取药物数据集,所述药物数据集包括每个药物的简化分子线性输入规范、ECFP4特征以及每对药物的连接图分数;
划分模块,用于将数据集分为训练集以及测试集,通过训练集构建药物关联图和药物分子图;
训练模块,用于通过符号图卷积网络层对药物关联图进行特征提取,通过特征融合层将从药物关联图中提取出来的特征融合到对应药物的药物分子图中,通过图注意力网络层对融合特征后的每个药物分子图进行特征提取,得到每个药物的高维特征;基于每个药物的高维特征,通过解码器计算每对药物的高维特征的余弦相似度;计算每对药物对应的余弦相似度与连接图分数的均方误差,以均方误差为损失值更新训练网络的参数,并返回所述通过符号图卷积网络层对药物关联图进行特征提取的步骤,直至满足结束条件时,以最新的训练网络为药物连接图分数预测网络;
预测模块,用于通过测试集对药物连接图分数预测网络进行测试,测试通过后,通过药物连接图分数预测网络对待预测药物对的药物连接图分数进行预测。
可选的,药物关联图以药物作为结点,不同药物间的连接图分数作为边的权重,药物关联图以二维邻接矩阵的形式构建和保存,矩阵的行和列表示对应的药物,矩阵元素值表示经过预处理后的两个药物的连接图分数,药物关联图中每个药物结点的初始特征是药物的ECFP4特征;药物分子图通过RDKit工具包转换而来,药物分子图以构成药物的原子为结点,原子间的连接为边,药物分子图以二维邻接矩阵的形式构建和存储,矩阵的行和列表示原子,矩阵的值表示两个原子间是否存在连接,每个结点的特征是78位向量编码,其中11位表示原子的类型,11位表示原子结点的度,11位表示在化合物中该原子与氢原子的连接的总数,11位表示与原子相连的隐藏氢原子数量,剩下1位表示原子是否在芳环上。
可选的,所述训练模块,用于:
通过符号图卷积网络层计算药物关联图中每个结点的平衡集和非平衡集,计算每个结点的平衡集的特征和非平衡集的特征,将每个结点对应的两种特征拼接融合,得到每个结点的全局特征。
可选的,所述训练模块,用于:
特征融合层中的一层全连接层对每个结点的全局特征进行如下变换:
Hi=Whi
其中W∈Rin×out是可学习的权重矩阵,根据权重矩阵维度调整全局特征hi的维度;
通过融合公式,将经过维度调整的全局特征与对应药物的药物分子图中每个结点的特征向量相加,融合公式为:
Figure BDA0003169853400000051
其中,Mi表示药物分子图中所有结点特征构成的特征矩阵,Hi是经过维度调整后与药物分子图的特征等长的全局特征。
可选的,所述训练模块,用于:
通过图注意力网络层对每个药物经过融合特征后的分子图进行特征提取,得到每个药物的新的分子图特征矩阵,使用全局池化层,对每个药物的新的分子图特征矩阵进行池化操作,得到每个药物的高维特征,高维特征融合了药物关联图结构信息和药物自身的分子图结构信息。
本发明中,对药物关联图使用符号图卷积网络层进行训练后,将含有全局信息的结点特征通过全连接层的变换,分别融合到每一个药物的药物分子图中,再对融合了全局特征的药物分子图使用图注意力网络层进行训练并进行池化操作,获取药物的融合特征,实现了全局信息和局部信息的交流融合,针对这些融合特征,采取计算余弦相似度的方式进行解码,将预测值与真实值对比并计算误差,通过反向传播,不断迭代,优化模型的参数,得到用于预测药物对的药物连接图分数的药物连接图分数预测网络。通过本发明能够快速准确地预测出药物对的连接图分数,帮助筛选候选药物,能够降低时间和资金成本。
附图说明
图1为本发明基于双图卷积融合模型的药物连接图分数预测方法一实施例的流程示意图;
图2为一实施例中通过符号图卷积网络层对药物关联图进行特征提取的示意图;
图3为本发明基于双图卷积融合模型的药物连接图分数预测装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
第一方面,本发明实施例提供了一种基于双图卷积融合模型的药物连接图分数预测方法。
一实施例中,参照图1,图1为本发明基于双图卷积融合模型的药物连接图分数预测方法一实施例的流程示意图。如图1所示,基于双图卷积融合模型的药物连接图分数预测方法包括:
步骤S10,构建训练网络,训练网络由编码器和解码器构成,编码器由符号图卷积网络层、特征融合层以及图注意力网络层构成;
本实施例中,训练网络由进行特征编码的编码器和负责计算预测的解码器构成。编码器由负责提取全局特征的符号图卷积网络层、负责全局特征和局部特征融合的特征融合层以及负责提取局部特征的图注意力网络层构成。解码器实质上是针对每一对药物的特征计算cosine相似度。
步骤S20,获取药物数据集,所述药物数据集包括每个药物的简化分子线性输入规范、ECFP4特征以及每对药物的连接图分数;
本实施例中,不对步骤S10与步骤S20的执行先后顺序做限制,可根据实际需要设置步骤S10与步骤S20的执行先后顺序。数据集包括的每对药物的连接图分数作为标签数据集,且对标签数据集中每对药物的连接图分数进行预处理,将分数值放缩到-1至1之间。
步骤S30,将数据集分为训练集以及测试集,通过训练集构建药物关联图和药物分子图;
本实施例中,将数据集随机均分为5份,取4份合并为训练集,剩余1份作为测试集。其中,药物关联图以药物作为结点,不同药物间的连接图分数作为边的权重,药物关联图以二维邻接矩阵的形式构建和保存,矩阵的行和列表示对应的药物,矩阵元素值表示经过预处理后的两个药物的连接图分数,药物关联图中每个药物结点的初始特征是药物的ECFP4特征;药物分子图通过RDKit工具包转换而来,药物分子图以构成药物的原子为结点,原子间的连接为边,药物分子图以二维邻接矩阵的形式构建和存储,矩阵的行和列表示原子,矩阵的值表示两个原子间是否存在连接,每个结点的特征是78位向量编码,其中11位表示原子的类型,11位表示原子结点的度,11位表示在化合物中该原子与氢原子的连接的总数,11位表示与原子相连的隐藏氢原子数量,剩下1位表示原子是否在芳环上。
步骤S40,通过符号图卷积网络层对药物关联图进行特征提取,通过特征融合层将从药物关联图中提取出来的特征融合到对应药物的药物分子图中,通过图注意力网络层对融合特征后的每个药物分子图进行特征提取,得到每个药物的高维特征;
本实施例中,由于药物关联图的边有两种类型,边的权重值有正值和负值,因此需要用符号图卷积网络层进行关联图的特征提取。特征融合层负责将关联图的特征融合到分子图中,实现全局特征和局部特征的融合。图注意力网络层负责针对融合特征后的分子图进行特征提取,以生成药物的高维表达。
进一步地,一实施例中,通过符号图卷积网络层对药物关联图进行特征提取的步骤包括:
通过符号图卷积网络层计算药物关联图中每个结点的平衡集和非平衡集,计算每个结点的平衡集的特征和非平衡集的特征,将每个结点对应的两类特征拼接融合,得到每个结点的全局特征。
本实施例中,参照图2,图2为一实施例中通过符号图卷积网络层对药物关联图进行特征提取的示意图。如图2所示,符号图卷积网络提取药物关联图结构特征有三步,首先计算结点的平衡集和非平衡集,然后计算每个结点的平衡集对应的特征和非平衡集对应的特征,最后将每个结点的两个特征拼接融合。具体方式为:
定义符号图Φ=(d,ε+,ε-),d={d1,d2,d3,...,dn}表示n个药物结点的集合,
Figure BDA0003169853400000081
表示药物间的正连接和负连接。A∈Rn×n表示符号图的邻接矩阵,Aij=1表示两个药物结点间有一条正连接,Aij=-1表示两个结点间存在负连接,Aij=0表示两个结点间没有连接。
结点di的平衡集是指与di之间有边互相连通的所有结点,且这些边中权重值为负值的边的数量为偶数。同理,结点di的非平衡集是指与di之间有边互相连通的结点组成的集合,且这些边中权重值为负值的边的数量为奇数。通过融合平衡集中的结点得到了特征向量称之为该结点的正向特征,融合非平衡集中的结点得到的特征向量称之为该结点的负向特征。
在上述定义的基础上,首先对每个符号图中的结点计算平衡集Bi(1)和非平衡集Ui(1),l表示符号图卷积网络层的层数。
当l=1时,
Figure BDA0003169853400000082
当l>1时,
Figure BDA0003169853400000083
Figure BDA0003169853400000084
其中
Figure BDA0003169853400000085
表示与结点di有权重值为正的边相连的结点集合,
Figure BDA0003169853400000086
表示与结点di有权重值为负的边相连的结点集合,然后针对每个结点的平衡集和非平衡集中的结点,进行特征融合,融合函数如下:
当l=1时,
Figure BDA0003169853400000087
Figure BDA0003169853400000088
当l>1时,
Figure BDA0003169853400000089
Figure BDA00031698534000000810
其中,
Figure BDA0003169853400000091
Figure BDA0003169853400000092
分别表示结点在平衡集上和非平衡集上的融合特征(正向特征和负向特征),σ表示激活函数,WB(l)和WU(l)都是可训练的参数矩阵。最后,通过如下公式:
Figure BDA0003169853400000093
将结点的正向特征和负向特征融合,即获得了结点经过符号图卷积网络层提取的全局特征。
进一步地,一实施例中,通过特征融合层将从药物关联图中提取出来的特征融合到对应药物的药物分子图中的步骤包括:
特征融合层中的一层全连接层对每个结点的全局特征进行如下变换:
Hi=Whi
其中W∈Rin×out是可学习的权重矩阵,根据权重矩阵维度调整全局特征hi的维度;
通过融合公式,将经过维度调整的全局特征与对应药物的药物分子图中每个结点的特征向量相加,融合公式为:
Figure BDA0003169853400000094
其中,Mi表示药物分子图中所有结点特征构成的特征矩阵,Hi是经过维度调整后与药物分子图的特征等长的全局特征。
本实施例中,首先,通过一层全连接层对关联图中提取的全局特征进行如下变换:
Hi=Whi
其中W∈Rin×out是可学习的权重矩阵,根据权重矩阵维度调整药物全局特征的维度。然后,将全局特征与分子图中结点的局部特征进行融合,融合方式是将全局特征直接与分子图中每个结点的特征向量相加,即认为药物的全局特征是分子图的超结点的特征,超结点与分子图中每个结点都有一条边相连,融合公式如下:
Figure BDA0003169853400000095
其中,Mi表示药物分子图中所有结点特征构成的特征矩阵,Hi是经过特征转换后与分子图的特征等长的药物全局特征。
进一步地,一实施例中,通过图注意力网络层对融合特征后的每个药物分子图进行特征提取,得到每个药物的高维特征的步骤包括:
通过图注意力网络层对每个药物经过融合特征后的分子图进行特征提取,得到每个药物的新的分子图特征矩阵,使用全局池化层,对每个药物的新的分子图特征矩阵进行池化操作,得到每个药物的高维特征,高维特征融合了药物关联图结构信息和药物自身的分子图结构信息。
本实施例中,进行特征融合后,使用图注意力层对每个药物的药物分子图进行特征提取。图注意力网络是在对图的结构特征提取过程中增加了注意力机制。使用图注意力层提取出的是药物的分子图特征矩阵,最后使用全局池化层,对分子图特征矩阵进行池化操作,提取出分子图的图特征。分子图的图特征就是药物最终的高维特征,高维特征融合了药物关联图结构信息(即全局信息)和药物自身的分子图结构信息(即局部信息)。
步骤S50,基于每个药物的高维特征,通过解码器计算每对药物的高维特征的余弦相似度;
本实施例中,在使用编码器对药物进行编码后,需要使用解码器进行解码预测。解码器是对每一对药物的特征向量计算cosine相似度,以cosine相似度作为模型的预测值。实际操作上,先对药物的高维特征矩阵进行L2正则,然后进行特征矩阵的自乘,之后即可得到预测值矩阵,矩阵的行和列都表示药物,元素表示两个药物之间的连接图分数。
步骤S60,计算每对药物对应的余弦相似度与连接图分数的均方误差,以均方误差为损失值更新训练网络的参数,并返回所述通过符号图卷积网络层对药物关联图进行特征提取的步骤,直至满足结束条件时,以最新的训练网络为药物连接图分数预测网络;
本实施例中,计算每对药物对应的余弦相似度与连接图分数的均方误差,并作为损失值,反向传播,更新训练模型的权重参数,并重复步骤S40至步骤S60,直至训练网络收敛,以最新的训练网络为药物连接图分数预测网络。
步骤S70,通过测试集对药物连接图分数预测网络进行测试,测试通过后,通过药物连接图分数预测网络对待预测药物对的药物连接图分数进行预测。
本实施例中,通过测试集对药物连接图分数预测网络的效果进行测试,测试通过后,即可通过药物连接图分数预测网络对待预测药物对的药物连接图分数进行预测。使用药物连接图分数预测网络预测时,需要对预测值进行放大操作,即将预测值放大100倍,使其还原到原本的范围空间中。
本实施例中,对药物关联图使用符号图卷积网络层进行训练后,将含有全局信息的结点特征通过全连接层的变换,分别融合到每一个药物的药物分子图中,再对融合了全局特征的药物分子图使用图注意力网络层进行训练并进行池化操作,获取药物的融合特征,实现了全局信息和局部信息的交流融合,针对这些融合特征,采取计算余弦相似度的方式进行解码,将预测值与真实值对比并计算误差,通过反向传播,不断迭代,优化模型的参数,得到用于预测药物对的药物连接图分数的药物连接图分数预测网络。通过本实施例能够快速准确地预测出药物对的连接图分数,帮助筛选候选药物,能够降低时间和资金成本。
第二方面,本发明实施例还提供一种基于双图卷积融合模型的药物连接图分数预测装置。
一实施例中,参照图3,图3为本发明基于双图卷积融合模型的药物连接图分数预测装置一实施例的功能模块示意图。如图3所示,基于双图卷积融合模型的药物连接图分数预测装置包括:
构建模块10,用于构建训练网络,训练网络由编码器和解码器构成,编码器由符号图卷积网络层、特征融合层以及图注意力网络层构成;
获取模块20,用于获取药物数据集,所述药物数据集包括每个药物的简化分子线性输入规范、ECFP4特征以及每对药物的连接图分数;
划分模块30,用于将数据集分为训练集以及测试集,通过训练集构建药物关联图和药物分子图;
训练模块40,用于通过符号图卷积网络层对药物关联图进行特征提取,通过特征融合层将从药物关联图中提取出来的特征融合到对应药物的药物分子图中,通过图注意力网络层对融合特征后的每个药物分子图进行特征提取,得到每个药物的高维特征;基于每个药物的高维特征,通过解码器计算每对药物的高维特征的余弦相似度;计算每对药物对应的余弦相似度与连接图分数的均方误差,以均方误差为损失值更新训练网络的参数,并返回所述通过符号图卷积网络层对药物关联图进行特征提取的步骤,直至满足结束条件时,以最新的训练网络为药物连接图分数预测网络;
预测模块50,用于通过测试集对药物连接图分数预测网络进行测试,测试通过后,通过药物连接图分数预测网络对待预测药物对的药物连接图分数进行预测。
进一步地,一实施例中,药物关联图以药物作为结点,不同药物间的连接图分数作为边的权重,药物关联图以二维邻接矩阵的形式构建和保存,矩阵的行和列表示对应的药物,矩阵元素值表示经过预处理后的两个药物的连接图分数,药物关联图中每个药物结点的初始特征是药物的ECFP4特征;药物分子图通过RDKit工具包转换而来,药物分子图以构成药物的原子为结点,原子间的连接为边,药物分子图以二维邻接矩阵的形式构建和存储,矩阵的行和列表示原子,矩阵的值表示两个原子间是否存在连接,每个结点的特征是78位向量编码,其中11位表示原子的类型,11位表示原子结点的度,11位表示在化合物中该原子与氢原子的连接的总数,11位表示与原子相连的隐藏氢原子数量,剩下1位表示原子是否在芳环上。
进一步地,一实施例中,训练模块40,用于:
通过符号图卷积网络层计算药物关联图中每个结点的平衡集和非平衡集,计算每个结点的平衡集的特征和非平衡集的特征,将每个结点对应的两种特征拼接融合,得到每个结点的全局特征。
进一步地,一实施例中,训练模块40,用于:
特征融合层中的一层全连接层对每个结点的全局特征进行如下变换:
Hi=Whi
其中W∈Rin×out是可学习的权重矩阵,根据权重矩阵维度调整全局特征hi的维度;
通过融合公式,将经过维度调整的全局特征与对应药物的药物分子图中每个结点的特征向量相加,融合公式为:
Figure BDA0003169853400000121
其中,Mi表示药物分子图中所有结点特征构成的特征矩阵,Hi是经过维度调整后与药物分子图的特征等长的全局特征。
进一步地,一实施例中,训练模块40,用于:
通过图注意力网络层对每个药物经过融合特征后的分子图进行特征提取,得到每个药物的新的分子图特征矩阵,使用全局池化层,对每个药物的新的分子图特征矩阵进行池化操作,得到每个药物的高维特征,高维特征融合了药物关联图结构信息和药物自身的分子图结构信息。
其中,上述基于双图卷积融合模型的药物连接图分数预测装置中各个模块的功能实现与上述基于双图卷积融合模型的药物连接图分数预测方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于双图卷积融合模型的药物连接图分数预测方法,其特征在于,所述基于双图卷积融合模型的药物连接图分数预测方法包括:
构建训练网络,训练网络由编码器和解码器构成,编码器由符号图卷积网络层、特征融合层以及图注意力网络层构成;
获取药物数据集,所述药物数据集包括每个药物的简化分子线性输入规范、ECFP4特征以及每对药物的连接图分数;
将数据集分为训练集以及测试集,通过训练集构建药物关联图和药物分子图;
通过符号图卷积网络层对药物关联图进行特征提取,通过特征融合层将从药物关联图中提取出来的特征融合到对应药物的药物分子图中,通过图注意力网络层对融合特征后的每个药物分子图进行特征提取,得到每个药物的高维特征;
基于每个药物的高维特征,通过解码器计算每对药物的高维特征的余弦相似度;
计算每对药物对应的余弦相似度与连接图分数的均方误差,以均方误差为损失值更新训练网络的参数,并返回所述通过符号图卷积网络层对药物关联图进行特征提取的步骤,直至满足结束条件时,以最新的训练网络为药物连接图分数预测网络;
通过测试集对药物连接图分数预测网络进行测试,测试通过后,通过药物连接图分数预测网络对待预测药物对的药物连接图分数进行预测。
2.如权利要求1所述的基于双图卷积融合模型的药物连接图分数预测方法,其特征在于,药物关联图以药物作为结点,不同药物间的连接图分数作为边的权重,药物关联图以二维邻接矩阵的形式构建和保存,矩阵的行和列表示对应的药物,矩阵元素值表示经过预处理后的两个药物的连接图分数,药物关联图中每个药物结点的初始特征是药物的ECFP4特征;药物分子图通过RDKit工具包转换而来,药物分子图以构成药物的原子为结点,原子间的连接为边,药物分子图以二维邻接矩阵的形式构建和存储,矩阵的行和列表示原子,矩阵的值表示两个原子间是否存在连接,每个结点的特征是78位向量编码,其中11位表示原子的类型,11位表示原子结点的度,11位表示在化合物中该原子与氢原子的连接的总数,11位表示与原子相连的隐藏氢原子数量,剩下1位表示原子是否在芳环上。
3.如权利要求2所述的基于双图卷积融合模型的药物连接图分数预测方法,其特征在于,所述通过符号图卷积网络层对药物关联图进行特征提取的步骤包括:
通过符号图卷积网络层计算药物关联图中每个结点的平衡集和非平衡集,计算每个结点的平衡集的特征和非平衡集的特征,将每个结点对应的两种特征拼接融合,得到每个结点的全局特征。
4.如权利要求3所述的基于双图卷积融合模型的药物连接图分数预测方法,其特征在于,所述通过特征融合层将从药物关联图中提取出来的特征融合到对应药物的药物分子图中的步骤包括:
特征融合层中的一层全连接层对每个结点的全局特征进行如下变换:
Hi=Whi
其中W∈Rin×out是可学习的权重矩阵,根据权重矩阵维度调整全局特征hi的维度;
通过融合公式,将经过维度调整的全局特征与对应药物的药物分子图中每个结点的特征向量相加,融合公式为:
Figure FDA0003169853390000021
其中,Mi表示药物分子图中所有结点特征构成的特征矩阵,Hi是经过维度调整后与药物分子图的特征等长的全局特征。
5.如权利要求4所述的基于双图卷积融合模型的药物连接图分数预测方法,其特征在于,所述通过图注意力网络层对融合特征后的每个药物分子图进行特征提取,得到每个药物的高维特征的步骤包括:
通过图注意力网络层对每个药物经过融合特征后的分子图进行特征提取,得到每个药物的新的分子图特征矩阵,使用全局池化层,对每个药物的新的分子图特征矩阵进行池化操作,得到每个药物的高维特征,高维特征融合了药物关联图结构信息和药物自身的分子图结构信息。
6.一种基于双图卷积融合模型的药物连接图分数预测装置,其特征在于,所述基于双图卷积融合模型的药物连接图分数预测装置包括:
构建模块,用于构建训练网络,训练网络由编码器和解码器构成,编码器由符号图卷积网络层、特征融合层以及图注意力网络层构成;
获取模块,用于获取药物数据集,所述药物数据集包括每个药物的简化分子线性输入规范、ECFP4特征以及每对药物的连接图分数;
划分模块,用于将数据集分为训练集以及测试集,通过训练集构建药物关联图和药物分子图;
训练模块,用于通过符号图卷积网络层对药物关联图进行特征提取,通过特征融合层将从药物关联图中提取出来的特征融合到对应药物的药物分子图中,通过图注意力网络层对融合特征后的每个药物分子图进行特征提取,得到每个药物的高维特征;基于每个药物的高维特征,通过解码器计算每对药物的高维特征的余弦相似度;计算每对药物对应的余弦相似度与连接图分数的均方误差,以均方误差为损失值更新训练网络的参数,并返回所述通过符号图卷积网络层对药物关联图进行特征提取的步骤,直至满足结束条件时,以最新的训练网络为药物连接图分数预测网络;
预测模块,用于通过测试集对药物连接图分数预测网络进行测试,测试通过后,通过药物连接图分数预测网络对待预测药物对的药物连接图分数进行预测。
7.如权利要求6所述的基于双图卷积融合模型的药物连接图分数预测装置,其特征在于,药物关联图以药物作为结点,不同药物间的连接图分数作为边的权重,药物关联图以二维邻接矩阵的形式构建和保存,矩阵的行和列表示对应的药物,矩阵元素值表示经过预处理后的两个药物的连接图分数,药物关联图中每个药物结点的初始特征是药物的ECFP4特征;药物分子图通过RDKit工具包转换而来,药物分子图以构成药物的原子为结点,原子间的连接为边,药物分子图以二维邻接矩阵的形式构建和存储,矩阵的行和列表示原子,矩阵的值表示两个原子间是否存在连接,每个结点的特征是78位向量编码,其中11位表示原子的类型,11位表示原子结点的度,11位表示在化合物中该原子与氢原子的连接的总数,11位表示与原子相连的隐藏氢原子数量,剩下1位表示原子是否在芳环上。
8.如权利要求7所述的基于双图卷积融合模型的药物连接图分数预测装置,其特征在于,所述训练模块,用于:
通过符号图卷积网络层计算药物关联图中每个结点的平衡集和非平衡集,计算每个结点的平衡集的特征和非平衡集的特征,将每个结点对应的两种特征拼接融合,得到每个结点的全局特征。
9.如权利要求8所述的基于双图卷积融合模型的药物连接图分数预测装置,其特征在于,所述训练模块,用于:
特征融合层中的一层全连接层对每个结点的全局特征进行如下变换:
Hi=Whi
其中W∈Rin×out是可学习的权重矩阵,根据权重矩阵维度调整全局特征hi的维度;
通过融合公式,将经过维度调整的全局特征与对应药物的药物分子图中每个结点的特征向量相加,融合公式为:
Figure FDA0003169853390000041
其中,Mi表示药物分子图中所有结点特征构成的特征矩阵,Hi是经过维度调整后与药物分子图的特征等长的全局特征。
10.如权利要求9所述的基于双图卷积融合模型的药物连接图分数预测装置,其特征在于,所述训练模块,用于:
通过图注意力网络层对每个药物经过融合特征后的分子图进行特征提取,得到每个药物的新的分子图特征矩阵,使用全局池化层,对每个药物的新的分子图特征矩阵进行池化操作,得到每个药物的高维特征,高维特征融合了药物关联图结构信息和药物自身的分子图结构信息。
CN202110815049.2A 2021-07-19 2021-07-19 基于双图卷积融合模型的药物连接图分数预测方法及装置 Active CN113628696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110815049.2A CN113628696B (zh) 2021-07-19 2021-07-19 基于双图卷积融合模型的药物连接图分数预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110815049.2A CN113628696B (zh) 2021-07-19 2021-07-19 基于双图卷积融合模型的药物连接图分数预测方法及装置

Publications (2)

Publication Number Publication Date
CN113628696A true CN113628696A (zh) 2021-11-09
CN113628696B CN113628696B (zh) 2023-10-31

Family

ID=78380208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110815049.2A Active CN113628696B (zh) 2021-07-19 2021-07-19 基于双图卷积融合模型的药物连接图分数预测方法及装置

Country Status (1)

Country Link
CN (1) CN113628696B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818948A (zh) * 2022-05-05 2022-07-29 北京科技大学 一种图神经网络的数据-机理驱动的材料属性预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033738A (zh) * 2018-07-09 2018-12-18 湖南大学 一种基于深度学习的药物活性预测方法
WO2021035807A1 (zh) * 2019-08-23 2021-03-04 深圳大学 一种融合光流信息和Siamese框架的目标跟踪方法及装置
US20210201147A1 (en) * 2018-11-28 2021-07-01 Tencent Technology (Shenzhen) Company Limited Model training method, machine translation method, computer device, and storage medium
CN113066526A (zh) * 2021-04-08 2021-07-02 北京大学 一种基于超图的药物-靶标-疾病相互作用预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033738A (zh) * 2018-07-09 2018-12-18 湖南大学 一种基于深度学习的药物活性预测方法
US20210201147A1 (en) * 2018-11-28 2021-07-01 Tencent Technology (Shenzhen) Company Limited Model training method, machine translation method, computer device, and storage medium
WO2021035807A1 (zh) * 2019-08-23 2021-03-04 深圳大学 一种融合光流信息和Siamese框架的目标跟踪方法及装置
CN113066526A (zh) * 2021-04-08 2021-07-02 北京大学 一种基于超图的药物-靶标-疾病相互作用预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
汪岿;费晨杰;刘柏嵩;: "融合LDA的卷积神经网络主题爬虫研究", 计算机工程与应用, no. 11 *
谢倩倩;李订芳;章文;: "基于集成学习的离子通道药物靶点预测", 计算机科学, no. 04 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818948A (zh) * 2022-05-05 2022-07-29 北京科技大学 一种图神经网络的数据-机理驱动的材料属性预测方法

Also Published As

Publication number Publication date
CN113628696B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN113327644B (zh) 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
Fukuda et al. DeepECA: an end-to-end learning framework for protein contact prediction from a multiple sequence alignment
Sharma et al. AE-LGBM: Sequence-based novel approach to detect interacting protein pairs via ensemble of autoencoder and LightGBM
CN114503203A (zh) 使用自注意力神经网络的由氨基酸序列的蛋白质结构预测
Li et al. Protein contact map prediction based on ResNet and DenseNet
Cheng et al. IIFDTI: predicting drug–target interactions through interactive and independent features based on attention mechanism
Hong et al. An in silico ensemble method for lead discovery: decision forest
Kim et al. Bayesian neural network with pretrained protein embedding enhances prediction accuracy of drug-protein interaction
Ghadiri et al. BigFCM: Fast, precise and scalable FCM on hadoop
Wang et al. Predicting Protein Interactions Using a Deep Learning Method‐Stacked Sparse Autoencoder Combined with a Probabilistic Classification Vector Machine
Sarkar et al. An algorithm for DNA read alignment on quantum accelerators
CN116206688A (zh) 一种用于dta预测的多模态信息融合模型及方法
Song et al. AC-caps: attention based capsule network for predicting RBP binding sites of LncRNA
CN113628696B (zh) 基于双图卷积融合模型的药物连接图分数预测方法及装置
CN118038995B (zh) 非编码rna中小开放阅读窗编码多肽能力预测方法及系统
CN118095341A (zh) 一种基于深度神经网络的SimRank相似度计算方法
Mu et al. iPseU-Layer: identifying RNA pseudouridine sites using layered ensemble model
Befort et al. Machine Learning-Enabled Optimization of Force Fields for Hydrofluorocarbons
Zhou et al. Accurate and definite mutational effect prediction with lightweight equivariant graph neural networks
Geethu et al. Protein secondary structure prediction using cascaded feature learning model
Ngo et al. Multimodal protein representation learning and target-aware variational auto-encoders for protein-binding ligand generation
CN116705196A (zh) 基于符号图神经网络的药物靶标互作用预测方法及装置
CN112085245A (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
Wu et al. State-space model with time delays for gene regulatory networks
Sokolova et al. Deep Learning Sequence Models for Transcriptional Regulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant