CN114927173A - 基于标签相关性和图表示学习的代谢路径预测方法 - Google Patents
基于标签相关性和图表示学习的代谢路径预测方法 Download PDFInfo
- Publication number
- CN114927173A CN114927173A CN202210355201.8A CN202210355201A CN114927173A CN 114927173 A CN114927173 A CN 114927173A CN 202210355201 A CN202210355201 A CN 202210355201A CN 114927173 A CN114927173 A CN 114927173A
- Authority
- CN
- China
- Prior art keywords
- label
- matrix
- metabolic pathway
- metabolic
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000002503 metabolic effect Effects 0.000 title claims description 10
- 230000037353 metabolic pathway Effects 0.000 claims abstract description 68
- 150000001875 compounds Chemical class 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 41
- 229940079593 drug Drugs 0.000 claims description 39
- 239000003814 drug Substances 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 125000004429 atom Chemical group 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 125000003118 aryl group Chemical group 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 125000004435 hydrogen atom Chemical group [H]* 0.000 claims description 2
- 230000009125 negative feedback regulation Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000036267 drug metabolism Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000009509 drug development Methods 0.000 description 4
- 230000037361 pathway Effects 0.000 description 4
- 230000037354 amino acid metabolism Effects 0.000 description 3
- 238000007876 drug discovery Methods 0.000 description 3
- 230000004060 metabolic process Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000023852 carbohydrate metabolic process Effects 0.000 description 2
- 235000021256 carbohydrate metabolism Nutrition 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009510 drug design Methods 0.000 description 2
- 230000037149 energy metabolism Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006065 biodegradation reaction Methods 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000036983 biotransformation Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000857 drug effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002687 intercalation Effects 0.000 description 1
- 238000009830 intercalation Methods 0.000 description 1
- 239000000543 intermediate Substances 0.000 description 1
- 230000037356 lipid metabolism Effects 0.000 description 1
- 230000037340 metabolism of cofactors and vitamins Effects 0.000 description 1
- 230000037344 metabolism of terpenoids and polyketides Effects 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000037360 nucleotide metabolism Effects 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 229930000044 secondary metabolite Natural products 0.000 description 1
- 229940126586 small molecule drug Drugs 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 239000002676 xenobiotic agent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开了一种基于标签相关性和图表示学习的代谢路径预测方法,提出一个基于标签相关性的可解释模型,即MP‑GNN,利用代谢路径之间的相关关系,通过标签嵌入表示方法构建标签之间的依赖关系,设计基于标签依赖性的图神经网络,研究基于标签依赖性的代谢路径类型预测方法,探索化合物子结构与其多种代谢路径的关联规律。
Description
技术领域
本发明属于计算机辅助药物研发技术领域,具体涉及为一种基于标签相关性和图表示学习的代谢路径预测方法。
背景技术
小分子药物的发现与发展,需要花费很长的时间和大量的成本。一种好的药物不仅要具有良好的药效,还要具备较佳的物化性质及药代动力学性质。在过去药物研发的过程中,科研人员通常在后期才考虑药物的药代动力学性质,这导致了药物研发失败的风险几率增加。
药物代谢是复杂的生物转化,它可以产生具有与母体药物明显不同的理化和药理特性的代谢产物。完成一个代谢过程的一组连锁的酶促反应被称为代谢路径。药物代谢路径的研究是药物发现与发展的重要任务。识别分子的代谢路径对于理解生物功能、合成新化合物以及减少药物发现中的化合物毒性至关重要。然而,通过生物化学实验确定药物代谢路径的过程既费时又费力。
近年来,基于计算方法预测化合物代谢路径取得了很大的进展。总的来说,大多数方法,特别是机器学习和深度学习模型,已经被证明可以有效地分析当前大量的代谢路径数据,并对新化合物进行预测。传统机器学习方法的效果通常依赖所提取特征的质量,需要较多的领域知识。近几年来,得益于深度学习算法的快速发展及其在其它领域成功应用,通过药物代谢路径的研究积累也促进了深度学习在药物设计领域的应用前景,诸如药物此类的结构型数据可以被图神经网络进行自动特征提取。这些结构化的深度学习模型结合多层神经网络被成功应用在药物设计领域中。然而,尽管在代谢路径预测方面科研人员做出了非常大的努力,取得了显著的成就,但是在实际工作中仍然存在着不小的挑战,主要表现在以下几方面:
1)对药物代谢路径标签依赖性考虑不够充分,目前的方法中没有考虑标签之间的依赖性。
2)可解释性不足,深度学习或图表示学习到的药物嵌入表示总是很难解释,缺乏化合物官能团与代谢路径的关系,不能通过药物本身的官能团去解释为什么属于这种代谢路径。
鉴于此,有必要设计一种新的预测方法。
发明内容
本发明的目的在于解决现有技术所存在的不足之处,而提供了一种基于标签相关性和图表示学习的代谢路径预测方法。
本发明的构思:
提出一个基于标签相关性的可解释模型,即MP-GNN。利用代谢路径之间的相关关系,通过标签嵌入表示方法构建标签之间的依赖关系,设计基于标签依赖性的图神经网络,研究基于标签依赖性的代谢路径类型预测方法,探索化合物子结构与其多种代谢路径的关联规律。
MP-GNN模型为双分支预测模型,其中一个分支采用图注意力层神经网络(GAT-GCN),首先从KEGG数据库中获取药物代谢路径数据,包括碳水化合物代谢、能量代谢等11种典型代谢路径类型。根据每个药物参与的一种或多种代谢路径类型,构造多标签数据数据集。由于代谢路径数据的标签之间存在相关性,可从标签统计信息中获取额外的知识。所以另一个分支采用图卷积网络提取包含相互依赖关系的药物代谢通路类别特征,并采用图卷积网络构建标签的相关性,节点为标签的特征表示,边为标签之间的相关性矩阵。最后,联合两个分支构建多标签分类器以预测代谢路径类型。
鉴于上述发明构思,本发明为实现发明目的所提供的技术解决方案是:
基于标签相关性和图表示学习的代谢路径预测方法,其特殊之处在于,包括以下步骤:
1)构建代谢路径预测模型MP-GNN;
所述代谢路径预测模型MP-GNN由标签语义关系嵌入模块和分子结构图嵌入模块构成,并将二者进行点积融合,进行标签的预测;
所述标签语义关系嵌入模块包括GloVe词向量预训练层和两个堆叠的图卷积网络层GCN;
所述分子结构图嵌入模块包括一个图注意力网络层、一个图卷积网络层以及两个全连接层神经网络;
2)采集样本数据,对步骤1)构建的代谢路径模型进行训练;
2.1)采集药物分子的结构信息以及其对应的代谢路径的类型信息,构建训练数据集和测试数据集,并根据GloVe词库构建词向量与训练数据集;
2.2)采用RDKit工具对步骤2.1)获得数据中涉及药物分子的SMILES(简化分子线性输入规范,Simplified molecular input line entry specification)序列信息转换为化合物图,得到化合物结构数据;
2.3)根据GloVe词向量算法对代谢路经标签信息进行预训练,得到标签间的依赖关系;
2.4)针对步骤2.1)中所采集得到的代谢路径的类型信息(代谢路径标签信息),采用GloVe词向量的方法计算所有标签词向量两两之间的相关性;
2.5)利用步骤2.1)中所采集得到的药物分子对应的代谢路径的类型信息(药物代谢路径类型的多标签数据)及步骤2.2)中得到的化合物图(化合物结构数据)作为输入,通过图注意力网络层、图卷积网络层及全局最大池化层得到所有药物分子的特征向量m1,m2,…,mn;
2.6)采用两层全连接层神经网络对步骤2.5)中得到的药物分子的特征向量进行规范;
2.7)利用步骤2.1)代谢路径的类型信息构建标签关联矩阵,并结合步骤2.4)中计算得到的标签词向量两两之间的相关性构建两个堆叠的图卷积网络层进行特征提取并输出特征矩阵E;
2.8)将步骤2.5)中得到的向量m1,m2,…,mn分别和步骤2.7)得到的特征矩阵E进行点积得到带有标签信息的药物分子的特征向量f1,f2,…,fn;
2.9)使用步骤2.8)中得到的药物分子的特征向量f1,f2,…,fn与其原始标签计算损失函数,并根据损失残差通过负反馈调节来训练步骤2.6)中所提到的两层全连接层神经网络的权重;
2.10)训练完成之后最终得到药物分子代谢路径的预测模型;
3)利用步骤2)训练好的代谢路径预测模型,对药物分子的代谢路径进行预测。
进一步地,所述步骤2.2)具体为:
使用开源化学工具箱RDKit将SMILES序列转换为原子之间的相互作用图;在这里,每个节点是一个多维的二进制特征向量,表达了原子符号、相邻原子的数量、相邻氢的数量、原子的隐含值以及该原子是否在芳香族结构中的信息。
进一步地,所述步骤2.3)具体为:
GloVe预训练数据来自语料库的全球“词-词”共现统计数据,所得的特征展示了词向量空间的线性子结构;对于包括多个词类别的代谢路径,采用所有词的平均嵌入作为标签特征。
进一步地,所述步骤2.4)具体为:
对于标签特征表示,采用GloVe算法来获取高维词向量,从而编码11种代谢路径名称;接着,根据训练集中代谢路径出现频次采用条件概率矩阵构建标签之间的相关性矩阵。
进一步地,所述步骤2.5)中构建GAT-GCN模块的步骤,具体如下:
化合物图被表示为G=(V,E),其中V是N个节点的集合,E是边的集合;A∈RN×N是表示E的邻接矩阵。GCN模型为半监督节点分类设计的,其基本思想是通过节点之间的信息传播来更新节点的表示;多层图GCN的层级传播规则如下:
GAT通过注意机制对邻居节点进行聚合操作,实现了不同邻居权值的自适应分配,大大提高了图神经网络模型的表达能力。为了获得足够的表达能力,将图的输入节点特征转换为更高层次的特征,并对每个具有权值矩阵的节点进行线性变换,然后在节点上执行自我注意--共享注意机制a:
表示节点j的特征对节点i的重要性;然后利用softmax函数对注意系数进行归一化,计算节点的输出特征为;
其中,σ(·)为非线性激活函数,αij为归一化注意力系数。
进一步地,所述步骤2.7)中构建堆叠的两层GCN模块并输出矩阵E,具体如下:
设计一个新的基于标签共现模式的标签关联矩阵,通过GCN对标签依赖关系进行显式建模,通过该矩阵,节点特征的更新将吸收相关节点(标签)的信息;GCN对于标签的词嵌入与化合物图不同;不仅要把每个GCN节点的最终输出设计给相应标签的分类器,而且图的结构(即相关矩阵)也没有提供多标签的代谢途径任务;因此,需要构建相关矩阵;通过数据驱动的方法来构建这个相关矩阵;也就是说,通过挖掘数据集中标签的共同出现模式来定义标签之间的相关性;以条件概率的形式对标签相关性进行建模,即P(Lj|Li),它表示当标签Li出现时,标签Lj出现的概率,并且P(Lj|Li)不等于P(Li|Lj);为了构建相关矩阵,首先,计算标签对在训练集中出现的次数,得到矩阵N∈RC×C,其中C表示类别的数量,Nij表示Li和Lj的共现次数;然后,通过应用这个标签共现矩阵,可以得到条件概率矩阵;接着,对相关性Pij=P(Lj|Li)进行二值化处理,并使用阈值τ来过滤噪声边缘,操作可写为
为了避免过拟合问题,又进行重新加权:
进一步地,所述步骤2.9)中构建损失函数的方法,具体如下:
同时,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于:所述计算机程序被处理器执行时实现上述方法的步骤。
一种电子设备,其特殊之处在于:包括处理器和计算机可读存储介质;
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时执行上述方法的步骤。
本发明的优点是:
1.本发明提出了一种基于图表示学习的预测模型,即MP-GNN,通过构建代谢路径标签依赖性表示来解决这些问题,MP-GNN由标签语义关系嵌入模块和分子结构图嵌入模块构成,并将二者进行点积融合,最后通过神经网络层进行标签的预测。这个模型可以挖掘标签修正的隐藏特征来提高模型的性能,同时也使得药物代谢路径分类具有可解释性。此外,MP-GNN提供了一种基于注意力的关键特征选择,以便更准确地预测代谢路径类型。在基准数据集上对MP-GNN的评价表明,MP-GNN具有较好的药物代谢路径预测性能,本发明可以提供一个计算预测工具,推动药物发现与发展。
2.本发明利用标签之间的全局相关性,可从标签统计信息中获取额外的知识;由于增加了标签的依赖性,模型的性能也能得到很好的改善。
附图说明
图1是本发明所提出的方法MP-GNN的总体架构;
图2是本发明的化合物重要子结构与代谢路径类型关系。
具体实施方式
以下结合附图和具体实施例对本发明的内容作进一步的详细描述:
依据本发明提出的基于标签相关性的代谢路径分类的图表示预测方法的一个实施例具体如下:
本实施例使用来自KEGG的代谢路径数据集:该数据集有6669个化合物,属于11个途径类中的一个或多个:碳水化合物代谢、能量代谢、脂质代谢、核苷酸代谢、氨基酸代谢、其他氨基酸代谢、糖的生物合成与代谢、辅助因子与维生素的代谢、萜类化合物和聚酮化合物的代谢、其他次级代谢产物的生物合成、异生物质的生物降解与代谢。6669个化合物中,4545个化合物仅属于一个成分代谢途径,2124个化合物属于一个以上代谢途径。一些化合物作为多个通路的中间体,出现在多个KEGG路径中。将药物分子的数据按照8:2的比例分为训练集和测试集。
针对数据集中药物分子的SMILES序列信息,采用RDKit算法将药物分子的SMILES序列转换为化合物图(即原子间相互作用图)。
构建标签词向量间的依赖关系。
将所有采集得到的11个代谢路径标签信息,采用GloVe词向量的方法计算所有标签词向量两两之间的相关性。
利用转换后的原子间相互作用图数据通过图注意力网络层、图卷积网络层及全局最大池化层得到得到所有药物分子的特征向量m1,m2,…,mn。
采用两层全连接层神经网络对得到的药物分子的特征向量m1,m2,…,mn进行规范。
利用代谢路径的类型信息构建标签关联矩阵,并结合前述计算得到的标签词向量两两之间的相关性构建堆叠的两层GCN进行特征提取并输出矩阵E。
使用药物分子的特征向量m1,m2,…,mn分别和矩阵E进行点积得到带有标签信息的药物分子的特征向量f1,f2,…,fn。
使用药物分子的特征向量f1,f2,…,fn与其原始标签计算损失函数,并根据损失残差通过负反馈调节来训练两层神经网络的权重。
训练完成得到化合物分子代谢路径的分类模型,即预测模型。
为了评价预测性能,本发明选择了准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1_score作为基础评价指标。这些指标数值越高,性能越好。首先使用一个sigmoid函数将输出限制在0到1之间,并且给定的阈值为0.5。这些指标的计算采用python中的scikit-learn包进行计算。
使用测试集数据对训练完成的模型进行测试,同时,本发明在同一数据集中将本发明与其他先进的方法进行了比较,测试结果在表1中所示。
表1 MLDG-MP在KEGG数据集上代谢路径预测的性能展示
选择具有氨基酸代谢标签的化合物,并通过图网络的GAT层提取化合物的不同化学键的权重如图2所示。
综上,本发明可用于药物代谢路径分类的预测,以上所述的方案中所公知的实施方法和特性常识在此未作过多的描述。应当指出对于本技术领域人员来说,在不脱离本发明的前提下还可以进行若干改进,这些也应视为本发明的保护范围,这些都不会影响到本发明的实施效果和专利的实用性。本申请要求的保护范围应当以权利要求的内容为准,说明书中的具体实施方式等记载用于解释权利要求的内容。
Claims (9)
1.基于标签相关性和图表示学习的代谢路径预测方法,其特征在于,包括以下步骤:
1)构建代谢路径预测模型MP-GNN:
所述代谢路径预测模型MP-GNN由标签语义关系嵌入模块和分子结构图嵌入模块构成,并将二者进行点积融合,进行标签的预测;
所述标签语义关系嵌入模块包括GloVe词向量预训练层和两个堆叠的图卷积网络层;
所述分子结构图嵌入模块包括一个图注意力网络层、一个图卷积网络层一个全局最大池化层以及两个全连接层神经网络;
2)采集样本数据,对步骤1)构建的代谢路径模型进行训练:
2.1)采集药物分子的结构信息以及其对应的代谢路径的类型信息,构建训练数据集和测试数据集,并根据GloVe词库构建词向量与训练数据集;
2.2)采用RDKit工具将步骤2.1)获得数据中涉及药物分子的SMILES序列信息转换为化合物图;
2.3)根据GloVe词向量算法对代谢路经标签信息进行预训练,得到标签间的依赖关系;
2.4)针对步骤2.1)中所采集得到的代谢路径的类型信息,采用GloVe词向量的方法计算所有标签词向量两两之间的相关性;
2.5)利用步骤2.1)中所采集得到的药物分子对应的代谢路径的类型信息及步骤2.2)中得到的化合物图作为输入,通过图注意力网络层、图卷积网络层及全局最大池化层得到所有药物分子的特征向量m1,m2,…,mn;
2.6)采用两个全连接层神经网络对步骤2.5)中得到的药物分子的特征向量进行规范;
2.7)利用步骤2.1)代谢路径的类型信息构建标签关联矩阵,并结合步骤2.4)中计算得到的标签词向量两两之间的相关性构建两个堆叠的图卷积网络层进行特征提取并输出特征矩阵E;
2.8)将步骤2.5)中得到的向量m1,m2,…,mn分别和步骤2.7)得到的特征矩阵E进行点积得到带有标签信息的药物分子的特征向量f1,f2,…,fn;
2.9)使用步骤2.8)中得到的药物分子的特征向量f1,f2,…,fn与其原始标签计算损失函数,并根据损失残差通过负反馈调节来训练步骤2.6)中所提到的两层全连接层神经网络的权重;
2.10)训练完成之后最终得到药物分子代谢路径的预测模型;
3)利用步骤2)训练好的代谢路径预测模型,对药物分子的代谢路径进行预测。
2.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法,其特征在于,所述步骤2.2)具体为:
使用开源化学工具箱RDKit将SMILES序列转换为原子之间的相互作用图;在这里,每个节点是一个多维的二进制特征向量,表达了原子符号、相邻原子的数量、相邻氢的数量、原子的隐含值以及该原子是否在芳香族结构中的信息。
3.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法,其特征在于,所述步骤2.3)具体为:
GloVe预训练数据来自语料库的全球“词-词”共现统计数据,所得的特征展示了词向量空间的线性子结构;对于包括多个词类别的代谢路径,采用所有词的平均嵌入作为标签特征。
4.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法,其特征在于,所述步骤2.4)具体为:
对于标签特征表示,采用GloVe算法来获取高维词向量,从而编码11种代谢路径名称;接着,根据训练集中代谢路径出现频次采用条件概率矩阵构建标签之间的相关性矩阵。
5.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法,其特征在于,所述步骤2.5)中构建GAT-GCN模块的步骤,具体如下:
化合物图被表示为G=(V,E),其中V是N个节点的集合,E是边的集合;A∈RN×N是表示E的邻接矩阵;GCN模型的基本思想是通过节点之间的信息传播来更新节点的表示;多层图GCN的层级传播规则如下:
表示节点j的特征对节点i的重要性;然后利用softmax函数对注意系数进行归一化,计算节点的输出特征为;
其中,σ(·)为非线性激活函数,αij为归一化注意力系数。
6.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法,其特征在于,所述步骤2.7)中构建堆叠的两层GCN模块并输出矩阵E,具体如下:
设计一个新的基于标签共现模式的标签关联矩阵,通过GCN对标签依赖关系进行显式建模,通过该矩阵,节点特征的更新将吸收相关节点的信息;以条件概率的形式对标签相关性进行建模,即P(Lj|Li),P(Lj|Li)不等于P(Li|Lj);为了构建相关矩阵,首先,计算标签对在训练集中出现的次数,得到矩阵N∈RC×C,其中C表示类别的数量,Nij表示Li和Lj的共现次数;然后,通过应用这个标签共现矩阵,可以得到条件概率矩阵;接着,对相关性Pij=P(Lj|Li)进行二值化处理,并使用阈值τ来过滤噪声边缘,操作可写为
为了避免过拟合问题,又进行重新加权:
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。
9.一种电子设备,其特征在于:包括处理器和计算机可读存储介质;
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时执行权利要求1至7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210355201.8A CN114927173B (zh) | 2022-04-06 | 2022-04-06 | 基于标签相关性和图表示学习的代谢路径预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210355201.8A CN114927173B (zh) | 2022-04-06 | 2022-04-06 | 基于标签相关性和图表示学习的代谢路径预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114927173A true CN114927173A (zh) | 2022-08-19 |
CN114927173B CN114927173B (zh) | 2024-03-05 |
Family
ID=82804506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210355201.8A Active CN114927173B (zh) | 2022-04-06 | 2022-04-06 | 基于标签相关性和图表示学习的代谢路径预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114927173B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665763A (zh) * | 2023-05-18 | 2023-08-29 | 中南大学 | 一种基于多视图多标签学习的代谢途径推断方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213000A1 (en) * | 2016-01-25 | 2017-07-27 | Shenzhen University | Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof |
US20180181702A1 (en) * | 2016-12-27 | 2018-06-28 | Tata Consultancy Services Limited | System and method for improved estimation of functional potential of genomes and metagenomes |
US20190228130A1 (en) * | 2018-01-22 | 2019-07-25 | X Development Llc | Method for analyzing and optimizing metabolic networks |
CN110904140A (zh) * | 2019-12-20 | 2020-03-24 | 台州职业技术学院 | 一种蛋白动态表达调控系统及其在莽草酸生产中的应用 |
EP3825872A1 (en) * | 2019-11-21 | 2021-05-26 | Hitachi, Ltd. | Information processing system and search method |
US20210192370A1 (en) * | 2018-05-16 | 2021-06-24 | B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University | Identification and prediction of metabolic pathways from correlation-based metabolite networks |
-
2022
- 2022-04-06 CN CN202210355201.8A patent/CN114927173B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213000A1 (en) * | 2016-01-25 | 2017-07-27 | Shenzhen University | Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof |
US20180181702A1 (en) * | 2016-12-27 | 2018-06-28 | Tata Consultancy Services Limited | System and method for improved estimation of functional potential of genomes and metagenomes |
US20190228130A1 (en) * | 2018-01-22 | 2019-07-25 | X Development Llc | Method for analyzing and optimizing metabolic networks |
US20210192370A1 (en) * | 2018-05-16 | 2021-06-24 | B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University | Identification and prediction of metabolic pathways from correlation-based metabolite networks |
EP3825872A1 (en) * | 2019-11-21 | 2021-05-26 | Hitachi, Ltd. | Information processing system and search method |
CN110904140A (zh) * | 2019-12-20 | 2020-03-24 | 台州职业技术学院 | 一种蛋白动态表达调控系统及其在莽草酸生产中的应用 |
Non-Patent Citations (2)
Title |
---|
宋攀;景丽萍;: "基于神经网络探究标签依赖关系的多标签分类", 计算机研究与发展, no. 08, 15 August 2018 (2018-08-15), pages 157 - 165 * |
李连伟;张阿梅;马占山;: "代谢组研究的生物信息学方法", 中国生物工程杂志, no. 01, 15 January 2017 (2017-01-15), pages 96 - 103 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665763A (zh) * | 2023-05-18 | 2023-08-29 | 中南大学 | 一种基于多视图多标签学习的代谢途径推断方法 |
CN116665763B (zh) * | 2023-05-18 | 2024-05-03 | 中南大学 | 一种基于多视图多标签学习的代谢途径推断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114927173B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | Artificial intelligence in drug discovery: applications and techniques | |
Zhang et al. | A three-way selective ensemble model for multi-label classification | |
Whalen | Holophrasm: a neural automated theorem prover for higher-order logic | |
CN112861936B (zh) | 一种基于图神经网络知识蒸馏的图节点分类方法及装置 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
Karimi et al. | A learning-based ontology alignment approach using inductive logic programming | |
Ekbal et al. | Joint model for feature selection and parameter optimization coupled with classifier ensemble in chemical mention recognition | |
Ma et al. | MIDIA: exploring denoising autoencoders for missing data imputation | |
Rastogi et al. | Multi-label classification with missing labels using label correlation and robust structural learning | |
Nural et al. | Using meta-learning for model type selection in predictive big data analytics | |
Fang et al. | Patent2Vec: Multi-view representation learning on patent-graphs for patent classification | |
CN114927173A (zh) | 基于标签相关性和图表示学习的代谢路径预测方法 | |
CN111581466A (zh) | 特征信息存在噪声的偏多标记学习方法 | |
Kakisim | Enhancing attributed network embedding via enriched attribute representations | |
Zhang et al. | Dep-tsp meta: A multiple criteria dynamic ensemble pruning technique ad-hoc for time series prediction | |
CN111309849B (zh) | 一种基于联合学习模型的细粒度数值信息抽取方法 | |
Payne et al. | Auto-categorization methods for digital archives | |
He et al. | End-to-end relation extraction based on bootstrapped multi-level distant supervision | |
CN117349494A (zh) | 空间图卷积神经网络的图分类方法、系统、介质及设备 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
Pan et al. | Ontology-driven scientific literature classification using clustering and self-supervised learning | |
Pan et al. | An ensemble learning based hierarchical multi-label classification approach to identify impacts of engineering changes | |
Maes et al. | Simulated iterative classification a new learning procedure for graph labeling | |
Yuan et al. | Joint self-expression with adaptive graph for unsupervised feature selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |