CN114927173A - 基于标签相关性和图表示学习的代谢路径预测方法 - Google Patents

基于标签相关性和图表示学习的代谢路径预测方法 Download PDF

Info

Publication number
CN114927173A
CN114927173A CN202210355201.8A CN202210355201A CN114927173A CN 114927173 A CN114927173 A CN 114927173A CN 202210355201 A CN202210355201 A CN 202210355201A CN 114927173 A CN114927173 A CN 114927173A
Authority
CN
China
Prior art keywords
label
matrix
metabolic pathway
metabolic
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210355201.8A
Other languages
English (en)
Other versions
CN114927173B (zh
Inventor
施建宇
杜冰雪
赵鹏程
朱蓓
徐意
杨光
秦媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210355201.8A priority Critical patent/CN114927173B/zh
Publication of CN114927173A publication Critical patent/CN114927173A/zh
Application granted granted Critical
Publication of CN114927173B publication Critical patent/CN114927173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种基于标签相关性和图表示学习的代谢路径预测方法,提出一个基于标签相关性的可解释模型,即MP‑GNN,利用代谢路径之间的相关关系,通过标签嵌入表示方法构建标签之间的依赖关系,设计基于标签依赖性的图神经网络,研究基于标签依赖性的代谢路径类型预测方法,探索化合物子结构与其多种代谢路径的关联规律。

Description

基于标签相关性和图表示学习的代谢路径预测方法
技术领域
本发明属于计算机辅助药物研发技术领域,具体涉及为一种基于标签相关性和图表示学习的代谢路径预测方法。
背景技术
小分子药物的发现与发展,需要花费很长的时间和大量的成本。一种好的药物不仅要具有良好的药效,还要具备较佳的物化性质及药代动力学性质。在过去药物研发的过程中,科研人员通常在后期才考虑药物的药代动力学性质,这导致了药物研发失败的风险几率增加。
药物代谢是复杂的生物转化,它可以产生具有与母体药物明显不同的理化和药理特性的代谢产物。完成一个代谢过程的一组连锁的酶促反应被称为代谢路径。药物代谢路径的研究是药物发现与发展的重要任务。识别分子的代谢路径对于理解生物功能、合成新化合物以及减少药物发现中的化合物毒性至关重要。然而,通过生物化学实验确定药物代谢路径的过程既费时又费力。
近年来,基于计算方法预测化合物代谢路径取得了很大的进展。总的来说,大多数方法,特别是机器学习和深度学习模型,已经被证明可以有效地分析当前大量的代谢路径数据,并对新化合物进行预测。传统机器学习方法的效果通常依赖所提取特征的质量,需要较多的领域知识。近几年来,得益于深度学习算法的快速发展及其在其它领域成功应用,通过药物代谢路径的研究积累也促进了深度学习在药物设计领域的应用前景,诸如药物此类的结构型数据可以被图神经网络进行自动特征提取。这些结构化的深度学习模型结合多层神经网络被成功应用在药物设计领域中。然而,尽管在代谢路径预测方面科研人员做出了非常大的努力,取得了显著的成就,但是在实际工作中仍然存在着不小的挑战,主要表现在以下几方面:
1)对药物代谢路径标签依赖性考虑不够充分,目前的方法中没有考虑标签之间的依赖性。
2)可解释性不足,深度学习或图表示学习到的药物嵌入表示总是很难解释,缺乏化合物官能团与代谢路径的关系,不能通过药物本身的官能团去解释为什么属于这种代谢路径。
鉴于此,有必要设计一种新的预测方法。
发明内容
本发明的目的在于解决现有技术所存在的不足之处,而提供了一种基于标签相关性和图表示学习的代谢路径预测方法。
本发明的构思:
提出一个基于标签相关性的可解释模型,即MP-GNN。利用代谢路径之间的相关关系,通过标签嵌入表示方法构建标签之间的依赖关系,设计基于标签依赖性的图神经网络,研究基于标签依赖性的代谢路径类型预测方法,探索化合物子结构与其多种代谢路径的关联规律。
MP-GNN模型为双分支预测模型,其中一个分支采用图注意力层神经网络(GAT-GCN),首先从KEGG数据库中获取药物代谢路径数据,包括碳水化合物代谢、能量代谢等11种典型代谢路径类型。根据每个药物参与的一种或多种代谢路径类型,构造多标签数据数据集。由于代谢路径数据的标签之间存在相关性,可从标签统计信息中获取额外的知识。所以另一个分支采用图卷积网络提取包含相互依赖关系的药物代谢通路类别特征,并采用图卷积网络构建标签的相关性,节点为标签的特征表示,边为标签之间的相关性矩阵。最后,联合两个分支构建多标签分类器以预测代谢路径类型。
鉴于上述发明构思,本发明为实现发明目的所提供的技术解决方案是:
基于标签相关性和图表示学习的代谢路径预测方法,其特殊之处在于,包括以下步骤:
1)构建代谢路径预测模型MP-GNN;
所述代谢路径预测模型MP-GNN由标签语义关系嵌入模块和分子结构图嵌入模块构成,并将二者进行点积融合,进行标签的预测;
所述标签语义关系嵌入模块包括GloVe词向量预训练层和两个堆叠的图卷积网络层GCN;
所述分子结构图嵌入模块包括一个图注意力网络层、一个图卷积网络层以及两个全连接层神经网络;
2)采集样本数据,对步骤1)构建的代谢路径模型进行训练;
2.1)采集药物分子的结构信息以及其对应的代谢路径的类型信息,构建训练数据集和测试数据集,并根据GloVe词库构建词向量与训练数据集;
2.2)采用RDKit工具对步骤2.1)获得数据中涉及药物分子的SMILES(简化分子线性输入规范,Simplified molecular input line entry specification)序列信息转换为化合物图,得到化合物结构数据;
2.3)根据GloVe词向量算法对代谢路经标签信息进行预训练,得到标签间的依赖关系;
2.4)针对步骤2.1)中所采集得到的代谢路径的类型信息(代谢路径标签信息),采用GloVe词向量的方法计算所有标签词向量两两之间的相关性;
2.5)利用步骤2.1)中所采集得到的药物分子对应的代谢路径的类型信息(药物代谢路径类型的多标签数据)及步骤2.2)中得到的化合物图(化合物结构数据)作为输入,通过图注意力网络层、图卷积网络层及全局最大池化层得到所有药物分子的特征向量m1,m2,…,mn;
2.6)采用两层全连接层神经网络对步骤2.5)中得到的药物分子的特征向量进行规范;
2.7)利用步骤2.1)代谢路径的类型信息构建标签关联矩阵,并结合步骤2.4)中计算得到的标签词向量两两之间的相关性构建两个堆叠的图卷积网络层进行特征提取并输出特征矩阵E;
2.8)将步骤2.5)中得到的向量m1,m2,…,mn分别和步骤2.7)得到的特征矩阵E进行点积得到带有标签信息的药物分子的特征向量f1,f2,…,fn;
2.9)使用步骤2.8)中得到的药物分子的特征向量f1,f2,…,fn与其原始标签计算损失函数,并根据损失残差通过负反馈调节来训练步骤2.6)中所提到的两层全连接层神经网络的权重;
2.10)训练完成之后最终得到药物分子代谢路径的预测模型;
3)利用步骤2)训练好的代谢路径预测模型,对药物分子的代谢路径进行预测。
进一步地,所述步骤2.2)具体为:
使用开源化学工具箱RDKit将SMILES序列转换为原子之间的相互作用图;在这里,每个节点是一个多维的二进制特征向量,表达了原子符号、相邻原子的数量、相邻氢的数量、原子的隐含值以及该原子是否在芳香族结构中的信息。
进一步地,所述步骤2.3)具体为:
GloVe预训练数据来自语料库的全球“词-词”共现统计数据,所得的特征展示了词向量空间的线性子结构;对于包括多个词类别的代谢路径,采用所有词的平均嵌入作为标签特征。
进一步地,所述步骤2.4)具体为:
对于标签特征表示,采用GloVe算法来获取高维词向量,从而编码11种代谢路径名称;接着,根据训练集中代谢路径出现频次采用条件概率矩阵构建标签之间的相关性矩阵。
进一步地,所述步骤2.5)中构建GAT-GCN模块的步骤,具体如下:
化合物图被表示为G=(V,E),其中V是N个节点的集合,E是边的集合;A∈RN×N是表示E的邻接矩阵。GCN模型为半监督节点分类设计的,其基本思想是通过节点之间的信息传播来更新节点的表示;多层图GCN的层级传播规则如下:
Figure BDA0003582223930000061
其中,
Figure BDA0003582223930000062
为添加自连接的无向图的邻接矩阵,IN是单位矩阵,σ(·)为激活函数,
Figure BDA0003582223930000063
和W(l)是一层特定的可训练权矩阵;分层卷积操作可以近似如下:
Figure BDA0003582223930000064
其中,
Figure BDA0003582223930000065
F为过滤器或特征映射,C为代谢路径类别,
Figure BDA0003582223930000066
为节点输出;
GAT通过注意机制对邻居节点进行聚合操作,实现了不同邻居权值的自适应分配,大大提高了图神经网络模型的表达能力。为了获得足够的表达能力,将图的输入节点特征转换为更高层次的特征,并对每个具有权值矩阵的节点进行线性变换,
Figure BDA0003582223930000067
然后在节点上执行自我注意--共享注意机制a:
Figure BDA0003582223930000068
Figure BDA0003582223930000069
表示节点j的特征对节点i的重要性;然后利用softmax函数对注意系数进行归一化,计算节点的输出特征为;
Figure BDA0003582223930000071
其中,σ(·)为非线性激活函数,αij为归一化注意力系数。
进一步地,所述步骤2.7)中构建堆叠的两层GCN模块并输出矩阵E,具体如下:
设计一个新的基于标签共现模式的标签关联矩阵,通过GCN对标签依赖关系进行显式建模,通过该矩阵,节点特征的更新将吸收相关节点(标签)的信息;GCN对于标签的词嵌入与化合物图不同;不仅要把每个GCN节点的最终输出设计给相应标签的分类器,而且图的结构(即相关矩阵)也没有提供多标签的代谢途径任务;因此,需要构建相关矩阵;通过数据驱动的方法来构建这个相关矩阵;也就是说,通过挖掘数据集中标签的共同出现模式来定义标签之间的相关性;以条件概率的形式对标签相关性进行建模,即P(Lj|Li),它表示当标签Li出现时,标签Lj出现的概率,并且P(Lj|Li)不等于P(Li|Lj);为了构建相关矩阵,首先,计算标签对在训练集中出现的次数,得到矩阵N∈RC×C,其中C表示类别的数量,Nij表示Li和Lj的共现次数;然后,通过应用这个标签共现矩阵,可以得到条件概率矩阵;接着,对相关性Pij=P(Lj|Li)进行二值化处理,并使用阈值τ来过滤噪声边缘,操作可写为
Figure BDA0003582223930000072
为了避免过拟合问题,又进行重新加权:
Figure BDA0003582223930000081
其中
Figure BDA0003582223930000082
X=[1,1,1…1];
Figure BDA0003582223930000083
是单位矩阵。
进一步地,所述步骤2.9)中构建损失函数的方法,具体如下:
Figure BDA0003582223930000084
其中i∈(0,1,2…,C),y[i]∈[0,1]表示标签i是否属于化合物,并且
Figure BDA0003582223930000085
同时,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于:所述计算机程序被处理器执行时实现上述方法的步骤。
一种电子设备,其特殊之处在于:包括处理器和计算机可读存储介质;
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时执行上述方法的步骤。
本发明的优点是:
1.本发明提出了一种基于图表示学习的预测模型,即MP-GNN,通过构建代谢路径标签依赖性表示来解决这些问题,MP-GNN由标签语义关系嵌入模块和分子结构图嵌入模块构成,并将二者进行点积融合,最后通过神经网络层进行标签的预测。这个模型可以挖掘标签修正的隐藏特征来提高模型的性能,同时也使得药物代谢路径分类具有可解释性。此外,MP-GNN提供了一种基于注意力的关键特征选择,以便更准确地预测代谢路径类型。在基准数据集上对MP-GNN的评价表明,MP-GNN具有较好的药物代谢路径预测性能,本发明可以提供一个计算预测工具,推动药物发现与发展。
2.本发明利用标签之间的全局相关性,可从标签统计信息中获取额外的知识;由于增加了标签的依赖性,模型的性能也能得到很好的改善。
附图说明
图1是本发明所提出的方法MP-GNN的总体架构;
图2是本发明的化合物重要子结构与代谢路径类型关系。
具体实施方式
以下结合附图和具体实施例对本发明的内容作进一步的详细描述:
依据本发明提出的基于标签相关性的代谢路径分类的图表示预测方法的一个实施例具体如下:
本实施例使用来自KEGG的代谢路径数据集:该数据集有6669个化合物,属于11个途径类中的一个或多个:碳水化合物代谢、能量代谢、脂质代谢、核苷酸代谢、氨基酸代谢、其他氨基酸代谢、糖的生物合成与代谢、辅助因子与维生素的代谢、萜类化合物和聚酮化合物的代谢、其他次级代谢产物的生物合成、异生物质的生物降解与代谢。6669个化合物中,4545个化合物仅属于一个成分代谢途径,2124个化合物属于一个以上代谢途径。一些化合物作为多个通路的中间体,出现在多个KEGG路径中。将药物分子的数据按照8:2的比例分为训练集和测试集。
针对数据集中药物分子的SMILES序列信息,采用RDKit算法将药物分子的SMILES序列转换为化合物图(即原子间相互作用图)。
构建标签词向量间的依赖关系。
将所有采集得到的11个代谢路径标签信息,采用GloVe词向量的方法计算所有标签词向量两两之间的相关性。
利用转换后的原子间相互作用图数据通过图注意力网络层、图卷积网络层及全局最大池化层得到得到所有药物分子的特征向量m1,m2,…,mn。
采用两层全连接层神经网络对得到的药物分子的特征向量m1,m2,…,mn进行规范。
利用代谢路径的类型信息构建标签关联矩阵,并结合前述计算得到的标签词向量两两之间的相关性构建堆叠的两层GCN进行特征提取并输出矩阵E。
使用药物分子的特征向量m1,m2,…,mn分别和矩阵E进行点积得到带有标签信息的药物分子的特征向量f1,f2,…,fn。
使用药物分子的特征向量f1,f2,…,fn与其原始标签计算损失函数,并根据损失残差通过负反馈调节来训练两层神经网络的权重。
训练完成得到化合物分子代谢路径的分类模型,即预测模型。
为了评价预测性能,本发明选择了准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1_score作为基础评价指标。这些指标数值越高,性能越好。首先使用一个sigmoid函数将输出限制在0到1之间,并且给定的阈值为0.5。这些指标的计算采用python中的scikit-learn包进行计算。
使用测试集数据对训练完成的模型进行测试,同时,本发明在同一数据集中将本发明与其他先进的方法进行了比较,测试结果在表1中所示。
表1 MLDG-MP在KEGG数据集上代谢路径预测的性能展示
Figure BDA0003582223930000111
选择具有氨基酸代谢标签的化合物,并通过图网络的GAT层提取化合物的不同化学键的权重如图2所示。
综上,本发明可用于药物代谢路径分类的预测,以上所述的方案中所公知的实施方法和特性常识在此未作过多的描述。应当指出对于本技术领域人员来说,在不脱离本发明的前提下还可以进行若干改进,这些也应视为本发明的保护范围,这些都不会影响到本发明的实施效果和专利的实用性。本申请要求的保护范围应当以权利要求的内容为准,说明书中的具体实施方式等记载用于解释权利要求的内容。

Claims (9)

1.基于标签相关性和图表示学习的代谢路径预测方法,其特征在于,包括以下步骤:
1)构建代谢路径预测模型MP-GNN:
所述代谢路径预测模型MP-GNN由标签语义关系嵌入模块和分子结构图嵌入模块构成,并将二者进行点积融合,进行标签的预测;
所述标签语义关系嵌入模块包括GloVe词向量预训练层和两个堆叠的图卷积网络层;
所述分子结构图嵌入模块包括一个图注意力网络层、一个图卷积网络层一个全局最大池化层以及两个全连接层神经网络;
2)采集样本数据,对步骤1)构建的代谢路径模型进行训练:
2.1)采集药物分子的结构信息以及其对应的代谢路径的类型信息,构建训练数据集和测试数据集,并根据GloVe词库构建词向量与训练数据集;
2.2)采用RDKit工具将步骤2.1)获得数据中涉及药物分子的SMILES序列信息转换为化合物图;
2.3)根据GloVe词向量算法对代谢路经标签信息进行预训练,得到标签间的依赖关系;
2.4)针对步骤2.1)中所采集得到的代谢路径的类型信息,采用GloVe词向量的方法计算所有标签词向量两两之间的相关性;
2.5)利用步骤2.1)中所采集得到的药物分子对应的代谢路径的类型信息及步骤2.2)中得到的化合物图作为输入,通过图注意力网络层、图卷积网络层及全局最大池化层得到所有药物分子的特征向量m1,m2,…,mn;
2.6)采用两个全连接层神经网络对步骤2.5)中得到的药物分子的特征向量进行规范;
2.7)利用步骤2.1)代谢路径的类型信息构建标签关联矩阵,并结合步骤2.4)中计算得到的标签词向量两两之间的相关性构建两个堆叠的图卷积网络层进行特征提取并输出特征矩阵E;
2.8)将步骤2.5)中得到的向量m1,m2,…,mn分别和步骤2.7)得到的特征矩阵E进行点积得到带有标签信息的药物分子的特征向量f1,f2,…,fn;
2.9)使用步骤2.8)中得到的药物分子的特征向量f1,f2,…,fn与其原始标签计算损失函数,并根据损失残差通过负反馈调节来训练步骤2.6)中所提到的两层全连接层神经网络的权重;
2.10)训练完成之后最终得到药物分子代谢路径的预测模型;
3)利用步骤2)训练好的代谢路径预测模型,对药物分子的代谢路径进行预测。
2.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法,其特征在于,所述步骤2.2)具体为:
使用开源化学工具箱RDKit将SMILES序列转换为原子之间的相互作用图;在这里,每个节点是一个多维的二进制特征向量,表达了原子符号、相邻原子的数量、相邻氢的数量、原子的隐含值以及该原子是否在芳香族结构中的信息。
3.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法,其特征在于,所述步骤2.3)具体为:
GloVe预训练数据来自语料库的全球“词-词”共现统计数据,所得的特征展示了词向量空间的线性子结构;对于包括多个词类别的代谢路径,采用所有词的平均嵌入作为标签特征。
4.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法,其特征在于,所述步骤2.4)具体为:
对于标签特征表示,采用GloVe算法来获取高维词向量,从而编码11种代谢路径名称;接着,根据训练集中代谢路径出现频次采用条件概率矩阵构建标签之间的相关性矩阵。
5.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法,其特征在于,所述步骤2.5)中构建GAT-GCN模块的步骤,具体如下:
化合物图被表示为G=(V,E),其中V是N个节点的集合,E是边的集合;A∈RN×N是表示E的邻接矩阵;GCN模型的基本思想是通过节点之间的信息传播来更新节点的表示;多层图GCN的层级传播规则如下:
Figure FDA0003582223920000031
其中,
Figure FDA0003582223920000032
为添加自连接的无向图的邻接矩阵,IN是单位矩阵,σ(·)为激活函数,
Figure FDA0003582223920000033
和W(l)是一层特定的可训练权矩阵;分层卷积操作可以近似如下:
Figure FDA0003582223920000041
其中,
Figure FDA0003582223920000042
F为过滤器或特征映射,C为代谢路径类别,
Figure FDA0003582223920000043
为节点输出;
GAT通过注意机制对邻居节点进行聚合操作,实现了不同邻居权值的自适应分配,将图的输入节点特征转换为更高层次的特征,并对每个具有权值矩阵的节点进行线性变换,
Figure FDA0003582223920000044
然后在节点上执行自我注意--共享注意机制a:
Figure FDA0003582223920000045
Figure FDA0003582223920000046
表示节点j的特征对节点i的重要性;然后利用softmax函数对注意系数进行归一化,计算节点的输出特征为;
Figure FDA0003582223920000047
其中,σ(·)为非线性激活函数,αij为归一化注意力系数。
6.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法,其特征在于,所述步骤2.7)中构建堆叠的两层GCN模块并输出矩阵E,具体如下:
设计一个新的基于标签共现模式的标签关联矩阵,通过GCN对标签依赖关系进行显式建模,通过该矩阵,节点特征的更新将吸收相关节点的信息;以条件概率的形式对标签相关性进行建模,即P(Lj|Li),P(Lj|Li)不等于P(Li|Lj);为了构建相关矩阵,首先,计算标签对在训练集中出现的次数,得到矩阵N∈RC×C,其中C表示类别的数量,Nij表示Li和Lj的共现次数;然后,通过应用这个标签共现矩阵,可以得到条件概率矩阵;接着,对相关性Pij=P(Lj|Li)进行二值化处理,并使用阈值τ来过滤噪声边缘,操作可写为
Figure FDA0003582223920000051
为了避免过拟合问题,又进行重新加权:
Figure FDA0003582223920000052
其中
Figure FDA0003582223920000053
X=[1,1,1…1];
Figure FDA0003582223920000054
是单位矩阵。
7.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法,其特征在于,所述步骤2.9)中构建损失函数的方法,具体如下:
Figure FDA0003582223920000055
其中i∈(0,1,2…,C),y[i]∈[0,1]表示标签i是否属于化合物,并且
Figure FDA0003582223920000056
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。
9.一种电子设备,其特征在于:包括处理器和计算机可读存储介质;
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时执行权利要求1至7任一所述方法的步骤。
CN202210355201.8A 2022-04-06 2022-04-06 基于标签相关性和图表示学习的代谢路径预测方法 Active CN114927173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210355201.8A CN114927173B (zh) 2022-04-06 2022-04-06 基于标签相关性和图表示学习的代谢路径预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210355201.8A CN114927173B (zh) 2022-04-06 2022-04-06 基于标签相关性和图表示学习的代谢路径预测方法

Publications (2)

Publication Number Publication Date
CN114927173A true CN114927173A (zh) 2022-08-19
CN114927173B CN114927173B (zh) 2024-03-05

Family

ID=82804506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210355201.8A Active CN114927173B (zh) 2022-04-06 2022-04-06 基于标签相关性和图表示学习的代谢路径预测方法

Country Status (1)

Country Link
CN (1) CN114927173B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665763A (zh) * 2023-05-18 2023-08-29 中南大学 一种基于多视图多标签学习的代谢途径推断方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213000A1 (en) * 2016-01-25 2017-07-27 Shenzhen University Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof
US20180181702A1 (en) * 2016-12-27 2018-06-28 Tata Consultancy Services Limited System and method for improved estimation of functional potential of genomes and metagenomes
US20190228130A1 (en) * 2018-01-22 2019-07-25 X Development Llc Method for analyzing and optimizing metabolic networks
CN110904140A (zh) * 2019-12-20 2020-03-24 台州职业技术学院 一种蛋白动态表达调控系统及其在莽草酸生产中的应用
EP3825872A1 (en) * 2019-11-21 2021-05-26 Hitachi, Ltd. Information processing system and search method
US20210192370A1 (en) * 2018-05-16 2021-06-24 B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University Identification and prediction of metabolic pathways from correlation-based metabolite networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213000A1 (en) * 2016-01-25 2017-07-27 Shenzhen University Metabolic mass spectrometry screening method for diseases based on deep learning and the system thereof
US20180181702A1 (en) * 2016-12-27 2018-06-28 Tata Consultancy Services Limited System and method for improved estimation of functional potential of genomes and metagenomes
US20190228130A1 (en) * 2018-01-22 2019-07-25 X Development Llc Method for analyzing and optimizing metabolic networks
US20210192370A1 (en) * 2018-05-16 2021-06-24 B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University Identification and prediction of metabolic pathways from correlation-based metabolite networks
EP3825872A1 (en) * 2019-11-21 2021-05-26 Hitachi, Ltd. Information processing system and search method
CN110904140A (zh) * 2019-12-20 2020-03-24 台州职业技术学院 一种蛋白动态表达调控系统及其在莽草酸生产中的应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋攀;景丽萍;: "基于神经网络探究标签依赖关系的多标签分类", 计算机研究与发展, no. 08, 15 August 2018 (2018-08-15), pages 157 - 165 *
李连伟;张阿梅;马占山;: "代谢组研究的生物信息学方法", 中国生物工程杂志, no. 01, 15 January 2017 (2017-01-15), pages 96 - 103 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665763A (zh) * 2023-05-18 2023-08-29 中南大学 一种基于多视图多标签学习的代谢途径推断方法
CN116665763B (zh) * 2023-05-18 2024-05-03 中南大学 一种基于多视图多标签学习的代谢途径推断方法

Also Published As

Publication number Publication date
CN114927173B (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
Deng et al. Artificial intelligence in drug discovery: applications and techniques
Zhang et al. A three-way selective ensemble model for multi-label classification
Whalen Holophrasm: a neural automated theorem prover for higher-order logic
CN112861936B (zh) 一种基于图神经网络知识蒸馏的图节点分类方法及装置
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
Karimi et al. A learning-based ontology alignment approach using inductive logic programming
Ekbal et al. Joint model for feature selection and parameter optimization coupled with classifier ensemble in chemical mention recognition
Ma et al. MIDIA: exploring denoising autoencoders for missing data imputation
Rastogi et al. Multi-label classification with missing labels using label correlation and robust structural learning
Nural et al. Using meta-learning for model type selection in predictive big data analytics
Fang et al. Patent2Vec: Multi-view representation learning on patent-graphs for patent classification
CN114927173A (zh) 基于标签相关性和图表示学习的代谢路径预测方法
CN111581466A (zh) 特征信息存在噪声的偏多标记学习方法
Kakisim Enhancing attributed network embedding via enriched attribute representations
Zhang et al. Dep-tsp meta: A multiple criteria dynamic ensemble pruning technique ad-hoc for time series prediction
CN111309849B (zh) 一种基于联合学习模型的细粒度数值信息抽取方法
Payne et al. Auto-categorization methods for digital archives
He et al. End-to-end relation extraction based on bootstrapped multi-level distant supervision
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
Pan et al. Ontology-driven scientific literature classification using clustering and self-supervised learning
Pan et al. An ensemble learning based hierarchical multi-label classification approach to identify impacts of engineering changes
Maes et al. Simulated iterative classification a new learning procedure for graph labeling
Yuan et al. Joint self-expression with adaptive graph for unsupervised feature selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant