CN115938490B - 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 - Google Patents
一种基于图表示学习算法的代谢物鉴定方法、系统和设备 Download PDFInfo
- Publication number
- CN115938490B CN115938490B CN202310230140.7A CN202310230140A CN115938490B CN 115938490 B CN115938490 B CN 115938490B CN 202310230140 A CN202310230140 A CN 202310230140A CN 115938490 B CN115938490 B CN 115938490B
- Authority
- CN
- China
- Prior art keywords
- metabolite
- node
- mass spectrum
- nodes
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000002207 metabolite Substances 0.000 title claims abstract description 345
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 46
- 238000001819 mass spectrum Methods 0.000 claims abstract description 149
- 230000007704 transition Effects 0.000 claims abstract description 34
- 238000010586 diagram Methods 0.000 claims abstract description 18
- 238000005295 random walk Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 13
- 239000000126 substance Substances 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 abstract description 2
- 238000004949 mass spectrometry Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 230000002503 metabolic effect Effects 0.000 description 6
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000002705 metabolomic analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 125000004429 atom Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000010504 bond cleavage reaction Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 125000003636 chemical group Chemical group 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000006241 metabolic reaction Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 125000004430 oxygen atom Chemical group O* 0.000 description 1
- 230000001991 pathophysiological effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000004885 tandem mass spectrometry Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种基于图表示学习算法的代谢物鉴定方法、系统和设备。该方法包括:从代谢物数据库中获取代谢物质谱数据和代谢物分子指纹,将质谱数据进行转换,构建代谢物节点、代谢物结构节点、一级质谱节点、二级质谱节点的关系图;计算各节点转移概率作为随机游走概率,使用deepwalk图表示学习算法生成一级质谱节点、二级质谱节点和代谢物结构节点的嵌入表示;对于每一个代谢物结构,用一级质谱的嵌入表示和二级质谱的嵌入表示作为输入迭代训练一个感知器模型;使用训练完成的一系列感知器模型进行代谢物分子指纹的预测;使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
Description
技术领域
本发明涉及代谢组学数据分析技术领域,具体涉及一种基于图表示学习算法的代谢物鉴定方法、系统和设备。
背景技术
代谢物能够反应细胞和机体代谢的活动和状态,涉及内源性和外源性分子,是生物系统内化学反应的产物和底物。而代谢组学实验直接反映了导致这些代谢物产生的代谢网络活动,并产生了有关系统潜在生物状态的基本信息,可描述生理学和病理生理学的终点,为疾病临床生物标志物和治疗靶点的研究提供重要见解。
近年来,代谢组学已被应用于多个领域,以获得新的发现和假说的验证。非靶向代谢物组学分析,是目前代谢组学分析最为常用的方法,其能够鉴定出海量的代谢物。而代谢物的准确鉴定是非靶向代谢组分析最为关键的步骤,直接影响下游重要分析,包括代谢通路富集和潜在生物标志物发现等。
尽管现在已经开发了各种方法来提高代谢物鉴定的准确度,但仍然具有较大的挑战性。只有进行代谢物鉴定之后,才能进行下游的生物学功能研究。
公开号为CN113554176A的专利说明书公开了一种代谢特征谱推断方法,包括将目标样本数据进行LC-MS技术处理以获得LC-MS原始数据;将所述LC-MS原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述LC-MS原始数据的保留时间、质荷比及离子强度;将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。对LC-MS数据而言,保留时间、质荷比是鉴定具体物质的标签。该专利技术利用深度学习技术,以计算类激活热力图的方法获取样本特征后,可以使用映射函数推断出组成样本特征的具体物质,从而进一步挖掘样本特征标志代谢物质、代谢网络模式,推断样本的代谢特征谱。
公开号为CN107729721A的专利说明书公开了一种代谢物鉴定方法,利用代谢反应网络中的具有反应关系的第一代谢物、第二代谢物之间结构类似的特点以及反应关系,使用已鉴定出来第一代谢物的二级谱图对与其有反应关系的第二代谢物进行鉴定,进一步使用已鉴定出来的第二代谢物的二级谱图对与其有反应关系的新的第二代谢物进行鉴定,该方法循环进行直到无法鉴定新的第二代谢物,从而扩大代谢物的鉴定覆盖范围。
此外,现有的代谢物鉴定还有的是通过将样本的二级质谱图与标准品数据库(例如HMDB 数据库)中已经注释的标准品的二级质谱图进行相似度计算,相似度高于一定阈值则可进行注释。这种方法除了无法鉴定到标准品数据库之外的代谢物外,还由于仅使用二级质谱信息,没有使用代谢物结构信息,仅通过质谱数据之间的相似度鉴定的代谢物,准确度有限。
发明内容
针对上述技术问题以及本领域存在的不足之处,本发明提供了一种基于图表示学习算法的代谢物鉴定方法,通过构建代谢物结构同质谱的关系图,使用deepwalk图表示算法,生成质谱节点、代谢物结构节点的嵌入表示(所述嵌入表示能够在高纬度抽象表示代谢物结构节点同质谱节点的关系信息),并使用该嵌入表示预测代谢物的指纹信息,最终,将预测的指纹信息与代谢物结构数据库中代谢物分子指纹进行匹配,从而可以鉴定出代谢物结构数据库中不具有二级质谱信息的潜在的代谢物。
具体技术方案如下:
一种基于图表示学习算法的代谢物鉴定方法,包括:
S1、从预先构建的代谢物数据库中,获取代谢物的质谱数据(包括一级质谱数据和二级质谱数据)以及代谢物分子指纹(所述代谢物分子指纹记录了代谢物的结构特征),将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图;
S2、完成关系图中各节点转移概率的计算;
S3、以S2计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;
S4、对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
S5、使用训练完成的一系列感知器模型进行代谢物分子指纹的预测;使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S1中:
将代谢物作为代谢物节点;
将代谢物分子指纹中所具有的代谢物结构的集合作为代谢物结构节点集合。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S1中,对代谢物一级质谱对应的质荷比进行分箱处理,将其所属的箱体作为一级质谱节点。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S1中,对代谢物二级质谱数据按质荷比进行分箱处理,使用平均值池化函数或最大值池化函数,对分到同一个箱体的质谱峰面积数据进行池化处理,并通过设定的阈值进行过滤,取阈值以上对应的箱体集合作为二级质谱节点集合。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S1中,一级质谱节点同代谢物节点构建一条边,代谢物节点同每一个代谢物结构节点构建一条边,每一个代谢物结构节点同每一个二级质谱节点构建一条边,构建得到所述关系图。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S2中,将代谢物、代谢物结构断裂化学键的过程视为马尔可夫过程,以此构建似然函数,完成关系图中代谢物节点、代谢物结构节点转移至自身或断裂化学键后的代谢物结构节点的转移概率的计算。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S2中,采用高斯分布计算代谢物节点转移至一级质谱节点以及代谢物结构节点转移至二级质谱节点的概率。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S3具体为:
将关系图节点映射至向量空间,得到初始的节点嵌入表示;
对于所述关系图中所有的节点,每次选择图中一个节点作为初始点,进行随机游走,节点之间游走概率即为S2计算的概率,生成随机游走序列;
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S5中,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹计算余弦相似度,选择相似度最高的代谢物作为鉴定的代谢物。
本发明还提供了一种基于人工智能的代谢物鉴定系统,具体讲是一种基于图表示学习算法的代谢物鉴定系统,其中各模块关系如图1所示,具体的,该系统包括:
预处理模块,用于从预先构建的代谢物数据库中,获取代谢物的质谱数据(包括一级质谱数据和二级质谱数据)以及代谢物分子指纹,将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图;
转移概率计算模块,用于完成关系图中各节点转移概率的计算;
模型训练模块,用于以所述转移概率计算模块计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示,并且,对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
代谢物鉴定模块,用于使用训练完成的一系列感知器模型进行代谢物分子指纹的预测,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
上述各模块在执行过程中所用到的具体手段可参照上述基于图表示学习算法的代谢物鉴定方法中的一些具体限定。
作为一个总的发明构思,本发明又提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行所述的基于图表示学习算法的代谢物鉴定方法。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储程序或指令,在程序或指令被计算机设备执行的情况下,使得计算机设备执行所述的基于图表示学习算法的代谢物鉴定方法。
本发明还提供了一种计算机程序产品,包括计算机程序,在计算机程序被计算机设备执行的情况下,使得计算机设备执行所述的基于图表示学习算法的代谢物鉴定方法。
本发明的创新点有:
1)将代谢物断裂化学键的过程视为马尔可夫过程,以此构建似然函数,并完成关系图节点之间转移概率的计算。
2)使用代谢物分子指纹以及质谱数据构建代谢物结构同质谱的关系图,并使用图表示算法deepwalk,将节点转换成嵌入表示。
3)使用节点嵌入表示对代谢物的指纹信息进行预测,并使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物进行比对,从而完成代谢物的鉴定。
本发明与现有技术相比,有益效果有:
(1)同时利用代谢物结构信息以及质谱数据进行代谢物的鉴定,提升鉴定的准确率。
(2)利用代谢物分子指纹对代谢物结构数据库的代谢物进行匹配,能够鉴定出标准品数据库以外的潜在代谢物。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于图表示学习算法的代谢物鉴定系统中的模块关系图。
图2为代谢物断裂化学键的过程示意图。
图3为实施例模型训练模块的模型结构示意图。
图4为本发明的一种基于图表示学习算法的代谢物鉴定方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
如图1所示,本实施例采用的基于图表示学习算法的代谢物鉴定系统包括:
预处理模块,用于从预先构建的代谢物数据库中,获取代谢物的质谱数据(包括一级质谱数据和二级质谱数据)以及代谢物分子指纹,将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图;
转移概率计算模块,用于完成关系图中各节点转移概率的计算;
模型训练模块,用于以所述转移概率计算模块计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示,并且,对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
代谢物鉴定模块,用于使用训练完成的一系列感知器模型进行代谢物分子指纹的预测,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
本实施例使用上述系统进行基于图表示学习算法的代谢物鉴定,具体方法包括:
S1、从预先构建的代谢物数据库中,获取代谢物的质谱数据(包括一级质谱数据和二级质谱数据)以及代谢物分子指纹。所述代谢物分子指纹记录了代谢物的结构特征。一级质谱数据以及二级质谱数据可以来自实验室采集以及公开数据集。代谢物分子指纹可来自公开数据库,例如PubChem数据库。
利用预处理模块将质谱数据进行转换,完成质谱数据特征构建,并构建代谢物节点、代谢物结构节点同一级质谱节点以及二级质谱节点的关系图。
将代谢物作为代谢物节点。将代谢物分子指纹中所具有的代谢物结构的集合作为代谢物结构节点集合。
对于已知代谢物j(下文或称之为第j个代谢物)有代谢物分子指纹,当代谢物j具有第z个代谢物结构,,否则。其中Z表示代谢物分子指纹长度。示例的,代谢物,作为代谢物节点,其具有代谢物分子指纹。取代谢物分子指纹中值为1的代谢物结构,得到代谢物结构节点集合。
对代谢物一级质谱对应的质荷比进行分箱处理,将其所属的箱体作为一级质谱节点。
对于已知代谢物j,一级质谱的质荷比记为,将其划分至箱体 = 中,其中表示所有代谢物的一级质谱以及二级质谱数据中的最小质荷比,表示质荷比的间隔,并将作为一级质谱节点。示例的,代谢物,具有一级质谱对应的质荷比178,将代谢物一级质谱对应的质荷比进行分箱处理,最小质荷比为91,最大质荷比为178,间隔为10,得到一级质谱节点。
对代谢物二级质谱数据进行分箱处理,使用平均值池化函数或最大值池化函数,对分到同一个箱体的质谱峰面积数据进行池化处理,并通过设定的阈值进行过滤,取阈值以上对应的箱体集合作为二级质谱节点集合。
示例的,代谢物,二级质谱数据,对二级质谱数据进行分箱处理,质荷比间隔为10,最小质荷比为91,最大质荷比为178,总共得到9个箱体,并使用平均值池化函数,对分到同一个箱体的质谱峰面积数据进行池化处理,得到向量。以阈值25为例,将池化后的向量转换成向量,取该向量中值为1的箱体对应的编号集合,将得到的编号集合作为代谢物二级质谱节点集合。
构建代谢物节点、代谢物结构节点同一级质谱节点以及二级质谱节点的关系图,具体为:一级质谱节点同代谢物节点构建一条边,代谢物节点同代谢物结构节点集合中中的每一个代谢物结构节点构建一条边,代谢物结构节点集合中的每一个代谢物结构节点同二级质谱节点集合的每一个二级质谱节点构建一条边,构建得到所述关系图。
示例的,代谢物,一级质谱节点同代谢物连接一条边,代谢物同代谢物结构节点集合中的每一个代谢物结构节点构建一条边,代谢物结构节点集合中的每一个代谢物结构节点同二级质谱节点集合的每一个二级质谱节点构建一条边。构建得到质谱数据同代谢物结构的关系图。以上述数据为例,得到关系图。
S2、利用转移概率计算模块完成关系图中各节点转移概率的计算。将代谢物断裂化学键的过程视为马尔可夫过程,以此构建似然函数,完成关系图中各节点转移概率的计算。
代谢物断裂化学键的过程如图2所示,假定每次断裂仅断裂一个化学键,并假定断裂后的代谢物碎片仅由断裂前的代谢物碎片决定,即将该过程视为一个马尔可夫过程。
具体的,关系图中各节点转移概率可分别按照以下方法计算:
由于化学键能难以获取,本实施例利用断裂特征向量使用线性函数来拟合化学键能,公式如下:
其中:
其中:,,…,分别代表代谢物或代谢物结构,…,经过打碎至多一个化学键产生的代谢物碎片所构成的集合,代表经过马尔可夫过程的轮数,代表代谢物或代谢物结构断裂至多一个化学键变为代谢物碎片的转移概率,若,按式(1)计算,若,按下式(3)计算:
5)代谢物节点转移至一级质谱节点以及代谢物结构节点转移至二级质谱节点的概率按式(4)计算。
其中表示以代谢物作为起点,作为代谢物结构终点的所有路线集合,,表示中的一个路线,其中表示该路线的起始节点,为,表示该路线的终点节点,为,表示路线的长度,表示终点节点转移至自身的概率,按式(1)计算,表示路线上的节点断裂一个化学键转移至节点的概率,按式(3)计算,表示终点节点转移至自身的次数,表示节点转移至自身的次数,计算了由线路,经过轮马尔可夫过程,以作为起点,作为终点代谢物碎片的概率。
S3、以S2计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;具体为:
将关系图节点映射至向量空间,得到初始的节点嵌入表示;
S4、对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型。
S5、使用训练完成的一系列感知器模型进行代谢物分子指纹的预测。
将待鉴定的代谢物的一级质谱数据以及二级质谱数据,按照上述方法将一级质谱数据以及二级质谱数据转换成一级质谱嵌入表示以及二级质谱嵌入表示,并使用该嵌入表示作为个机器学习模型(感知器模型)的输入,输出得到待预测代谢物的代谢物分子指纹。
对于所有余弦相似度,按照从高到低排序,相似度最高的代谢物作为鉴定的代谢物。
示例的,图4展示了本发明的一种具体的基于图表示学习算法的代谢物鉴定方法的流程,其包括了上述流程步骤。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (9)
1.一种基于图表示学习算法的代谢物鉴定方法,其特征在于,包括:
S1、从预先构建的代谢物数据库中,获取代谢物的质谱数据以及代谢物分子指纹,将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图,具体为:一级质谱节点同代谢物节点构建一条边,代谢物节点同每一个代谢物结构节点构建一条边,每一个代谢物结构节点同每一个二级质谱节点构建一条边,构建得到所述关系图;
S2、完成关系图中各节点转移概率的计算;
S3、以S2计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;具体为:将关系图节点映射至向量空间,得到初始的节点嵌入表示;对于所述关系图中所有的节点,每次选择图中一个节点作为初始点,进行随机游走,节点之间游走概率即为S2计算的概率,生成随机游走序列;使用生成的随机游走序列以及初始的节点嵌入表示,使用模型利用梯度下降的方法对初始的节点嵌入表示进行迭代更新,最终得到更新后的一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;
S4、对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
S5、使用训练完成的一系列感知器模型进行代谢物分子指纹的预测;使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
2.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S1中:
将代谢物作为代谢物节点;
将代谢物分子指纹中所具有的代谢物结构的集合作为代谢物结构节点集合。
3.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S1中,对代谢物一级质谱对应的质荷比进行分箱处理,将其所属的箱体作为一级质谱节点。
4.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S1中,对代谢物二级质谱数据按质荷比进行分箱处理,使用平均值池化函数或最大值池化函数,对分到同一个箱体的质谱峰面积数据进行池化处理,并通过设定的阈值进行过滤,取阈值以上对应的箱体集合作为二级质谱节点集合。
5.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S2中:
将代谢物、代谢物结构断裂化学键的过程视为马尔可夫过程,以此构建似然函数,完成关系图中代谢物节点、代谢物结构节点转移至自身或断裂化学键后的代谢物结构节点的转移概率的计算;
采用高斯分布计算代谢物节点转移至一级质谱节点以及代谢物结构节点转移至二级质谱节点的概率。
6.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S5中,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹计算余弦相似度,选择相似度最高的代谢物作为鉴定的代谢物。
7.一种基于图表示学习算法的代谢物鉴定系统,其特征在于,包括:
预处理模块,用于从预先构建的代谢物数据库中,获取代谢物的质谱数据以及代谢物分子指纹,将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图,具体为:一级质谱节点同代谢物节点构建一条边,代谢物节点同每一个代谢物结构节点构建一条边,每一个代谢物结构节点同每一个二级质谱节点构建一条边,构建得到所述关系图;
转移概率计算模块,用于完成关系图中各节点转移概率的计算;
模型训练模块,用于以所述转移概率计算模块计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示,具体为:将关系图节点映射至向量空间,得到初始的节点嵌入表示;对于所述关系图中所有的节点,每次选择图中一个节点作为初始点,进行随机游走,节点之间游走概率即为所述转移概率计算模块计算的概率,生成随机游走序列;使用生成的随机游走序列以及初始的节点嵌入表示,使用模型利用梯度下降的方法对初始的节点嵌入表示进行迭代更新,最终得到更新后的一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;并且,对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
代谢物鉴定模块,用于使用训练完成的一系列感知器模型进行代谢物分子指纹的预测,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
8.一种计算机设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,其特征在于,所述计算机程序运行时使得所述处理器执行权利要求1-6任一项所述的基于图表示学习算法的代谢物鉴定方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储程序或指令,在程序或指令被计算机设备执行的情况下,使得计算机设备执行权利要求1-6任一项所述的基于图表示学习算法的代谢物鉴定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310230140.7A CN115938490B (zh) | 2023-03-07 | 2023-03-07 | 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310230140.7A CN115938490B (zh) | 2023-03-07 | 2023-03-07 | 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115938490A CN115938490A (zh) | 2023-04-07 |
CN115938490B true CN115938490B (zh) | 2023-06-06 |
Family
ID=85835801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310230140.7A Active CN115938490B (zh) | 2023-03-07 | 2023-03-07 | 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115938490B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825198B (zh) * | 2023-07-14 | 2024-05-10 | 湖南工商大学 | 基于图注意机制的肽序列标签鉴定方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106714556A (zh) * | 2014-04-11 | 2017-05-24 | 美国控股实验室公司 | 用于测定自闭症谱系病症风险的方法和系统 |
CN107635478A (zh) * | 2015-03-06 | 2018-01-26 | 英国质谱公司 | 通过质谱或离子迁移谱进行的组织分析 |
CN107729721A (zh) * | 2017-10-17 | 2018-02-23 | 中国科学院上海有机化学研究所 | 一种代谢物鉴定及紊乱通路分析方法 |
CN112509702A (zh) * | 2020-11-30 | 2021-03-16 | 质美(北京)生物科技有限公司 | 基于医疗大数据的疾病预测方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070061084A1 (en) * | 2002-01-24 | 2007-03-15 | Ecopia Biosciences, Inc. | Method, system, and knowledge repository for identifying a secondary metabolite from a microorganism |
US20080120041A1 (en) * | 2006-11-13 | 2008-05-22 | N.V. Organon | System and method to identify the metabolites of a drug |
CA3004504A1 (en) * | 2015-11-06 | 2017-05-11 | Ventana Medical Systems, Inc. | Tissue homogenisation for representative diagnostics |
CN112735532B (zh) * | 2020-10-15 | 2023-08-22 | 华南理工大学 | 基于分子指纹预测的代谢物识别系统及其应用方法 |
US20220208540A1 (en) * | 2020-12-17 | 2022-06-30 | Carnegie Mellon University | System for Identifying Structures of Molecular Compounds from Mass Spectrometry Data |
CN113554176B (zh) * | 2021-06-24 | 2023-09-05 | 中山大学 | 代谢特征谱推断方法、系统、计算机设备及存储介质 |
CN114923992B (zh) * | 2022-03-29 | 2023-05-26 | 中国科学院上海有机化学研究所 | 鉴定已知和未知代谢物的分析方法、装置和设备 |
CN115691702A (zh) * | 2022-11-15 | 2023-02-03 | 浙江中医药大学 | 一种化合物可视化分类方法及系统 |
-
2023
- 2023-03-07 CN CN202310230140.7A patent/CN115938490B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106714556A (zh) * | 2014-04-11 | 2017-05-24 | 美国控股实验室公司 | 用于测定自闭症谱系病症风险的方法和系统 |
CN107635478A (zh) * | 2015-03-06 | 2018-01-26 | 英国质谱公司 | 通过质谱或离子迁移谱进行的组织分析 |
CN107729721A (zh) * | 2017-10-17 | 2018-02-23 | 中国科学院上海有机化学研究所 | 一种代谢物鉴定及紊乱通路分析方法 |
CN112509702A (zh) * | 2020-11-30 | 2021-03-16 | 质美(北京)生物科技有限公司 | 基于医疗大数据的疾病预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115938490A (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7125544B2 (ja) | 品質スコアの勾配を使用した反復的なタンパク質構造予測 | |
US20230238081A1 (en) | Artificial intelligence analysis of rna transcriptome for drug discovery | |
JP2021524099A (ja) | 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法 | |
CN113705772A (zh) | 一种模型训练方法、装置、设备及可读存储介质 | |
Li et al. | Sparse representation approaches for the classification of high-dimensional biological data | |
CN109036577B (zh) | 糖尿病并发症分析方法及装置 | |
CN113744799B (zh) | 一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法 | |
Chu et al. | Deep generative models for weakly-supervised multi-label classification | |
CN115938490B (zh) | 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 | |
CN105718999B (zh) | 一种启发式代谢共表达网络的构建方法及系统 | |
CN107092812B (zh) | 一种在ppi网络中基于遗传算法识别关键蛋白质的方法 | |
Yu et al. | Predicting protein complex in protein interaction network-a supervised learning based method | |
Abd-Alsabour et al. | Feature selection for classification using an ant colony system | |
CN111026877A (zh) | 基于概率软逻辑的知识验证模型构建与分析方法 | |
US20210231449A1 (en) | Deep User Modeling by Behavior | |
Zhong et al. | Recent advances on the semi-supervised learning for long non-coding RNA-protein interactions prediction: A review | |
CN115881211B (zh) | 蛋白质序列比对方法、装置、计算机设备以及存储介质 | |
CN113192562B (zh) | 融合多尺度模块结构信息的致病基因识别方法及系统 | |
CN115240782A (zh) | 药物属性预测方法、装置、电子设备及存储介质 | |
Hoksza et al. | Exploration of protein sequence embeddings for protein-ligand binding site detection | |
Feinauer et al. | Mean Dimension of Generative Models for Protein Sequences | |
Sicking et al. | DenseHMM: Learning hidden markov models by learning dense representations | |
CN117976047B (zh) | 基于深度学习的关键蛋白质预测方法 | |
Zhu et al. | PPSNO: A Feature-Rich SNO Sites Predictor by Stacking Ensemble Strategy from Protein Sequence-Derived Information | |
Chajewska et al. | Knowledge propagation over conditional independence graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |