CN115938490A - 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 - Google Patents

一种基于图表示学习算法的代谢物鉴定方法、系统和设备 Download PDF

Info

Publication number
CN115938490A
CN115938490A CN202310230140.7A CN202310230140A CN115938490A CN 115938490 A CN115938490 A CN 115938490A CN 202310230140 A CN202310230140 A CN 202310230140A CN 115938490 A CN115938490 A CN 115938490A
Authority
CN
China
Prior art keywords
metabolite
mass spectrum
node
nodes
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310230140.7A
Other languages
English (en)
Other versions
CN115938490B (zh
Inventor
李劲松
张航
马静
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310230140.7A priority Critical patent/CN115938490B/zh
Publication of CN115938490A publication Critical patent/CN115938490A/zh
Application granted granted Critical
Publication of CN115938490B publication Critical patent/CN115938490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种基于图表示学习算法的代谢物鉴定方法、系统和设备。该方法包括:从代谢物数据库中获取代谢物质谱数据和代谢物分子指纹,将质谱数据进行转换,构建代谢物节点、代谢物结构节点、一级质谱节点、二级质谱节点的关系图;计算各节点转移概率作为随机游走概率,使用deepwalk图表示学习算法生成一级质谱节点、二级质谱节点和代谢物结构节点的嵌入表示;对于每一个代谢物结构,用一级质谱的嵌入表示和二级质谱的嵌入表示作为输入迭代训练一个感知器模型;使用训练完成的一系列感知器模型进行代谢物分子指纹的预测;使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。

Description

一种基于图表示学习算法的代谢物鉴定方法、系统和设备
技术领域
本发明涉及代谢组学数据分析技术领域,具体涉及一种基于图表示学习算法的代谢物鉴定方法、系统和设备。
背景技术
代谢物能够反应细胞和机体代谢的活动和状态,涉及内源性和外源性分子,是生物系统内化学反应的产物和底物。而代谢组学实验直接反映了导致这些代谢物产生的代谢网络活动,并产生了有关系统潜在生物状态的基本信息,可描述生理学和病理生理学的终点,为疾病临床生物标志物和治疗靶点的研究提供重要见解。
近年来,代谢组学已被应用于多个领域,以获得新的发现和假说的验证。非靶向代谢物组学分析,是目前代谢组学分析最为常用的方法,其能够鉴定出海量的代谢物。而代谢物的准确鉴定是非靶向代谢组分析最为关键的步骤,直接影响下游重要分析,包括代谢通路富集和潜在生物标志物发现等。
尽管现在已经开发了各种方法来提高代谢物鉴定的准确度,但仍然具有较大的挑战性。只有进行代谢物鉴定之后,才能进行下游的生物学功能研究。
公开号为CN113554176A的专利说明书公开了一种代谢特征谱推断方法,包括将目标样本数据进行LC-MS技术处理以获得LC-MS原始数据;将所述LC-MS原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述LC-MS原始数据的保留时间、质荷比及离子强度;将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。对LC-MS数据而言,保留时间、质荷比是鉴定具体物质的标签。该专利技术利用深度学习技术,以计算类激活热力图的方法获取样本特征后,可以使用映射函数推断出组成样本特征的具体物质,从而进一步挖掘样本特征标志代谢物质、代谢网络模式,推断样本的代谢特征谱。
公开号为CN107729721A的专利说明书公开了一种代谢物鉴定方法,利用代谢反应网络中的具有反应关系的第一代谢物、第二代谢物之间结构类似的特点以及反应关系,使用已鉴定出来第一代谢物的二级谱图对与其有反应关系的第二代谢物进行鉴定,进一步使用已鉴定出来的第二代谢物的二级谱图对与其有反应关系的新的第二代谢物进行鉴定,该方法循环进行直到无法鉴定新的第二代谢物,从而扩大代谢物的鉴定覆盖范围。
此外,现有的代谢物鉴定还有的是通过将样本的二级质谱图与标准品数据库(例如HMDB 数据库)中已经注释的标准品的二级质谱图进行相似度计算,相似度高于一定阈值则可进行注释。这种方法除了无法鉴定到标准品数据库之外的代谢物外,还由于仅使用二级质谱信息,没有使用代谢物结构信息,仅通过质谱数据之间的相似度鉴定的代谢物,准确度有限。
发明内容
针对上述技术问题以及本领域存在的不足之处,本发明提供了一种基于图表示学习算法的代谢物鉴定方法,通过构建代谢物结构同质谱的关系图,使用deepwalk图表示算法,生成质谱节点、代谢物结构节点的嵌入表示(所述嵌入表示能够在高纬度抽象表示代谢物结构节点同质谱节点的关系信息),并使用该嵌入表示预测代谢物的指纹信息,最终,将预测的指纹信息与代谢物结构数据库中代谢物分子指纹进行匹配,从而可以鉴定出代谢物结构数据库中不具有二级质谱信息的潜在的代谢物。
具体技术方案如下:
一种基于图表示学习算法的代谢物鉴定方法,包括:
S1、从预先构建的代谢物数据库中,获取代谢物的质谱数据(包括一级质谱数据和二级质谱数据)以及代谢物分子指纹(所述代谢物分子指纹记录了代谢物的结构特征),将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图;
S2、完成关系图中各节点转移概率的计算;
S3、以S2计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;
S4、对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
S5、使用训练完成的一系列感知器模型进行代谢物分子指纹的预测;使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S1中:
将代谢物作为代谢物节点;
将代谢物分子指纹中所具有的代谢物结构的集合作为代谢物结构节点集合。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S1中,对代谢物一级质谱对应的质荷比进行分箱处理,将其所属的箱体作为一级质谱节点。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S1中,对代谢物二级质谱数据按质荷比进行分箱处理,使用平均值池化函数或最大值池化函数,对分到同一个箱体的质谱峰面积数据进行池化处理,并通过设定的阈值进行过滤,取阈值以上对应的箱体集合作为二级质谱节点集合。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S1中,一级质谱节点同代谢物节点构建一条边,代谢物节点同每一个代谢物结构节点构建一条边,每一个代谢物结构节点同每一个二级质谱节点构建一条边,构建得到所述关系图。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S2中,将代谢物、代谢物结构断裂化学键的过程视为马尔可夫过程,以此构建似然函数,完成关系图中代谢物节点、代谢物结构节点转移至自身或断裂化学键后的代谢物结构节点的转移概率的计算。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S2中,采用高斯分布计算代谢物节点转移至一级质谱节点以及代谢物结构节点转移至二级质谱节点的概率。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S2中,代谢物结构节点转移至代谢物节点的概率为,其中为同该代谢物结构节点相连的代谢物节点个数。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S2中,二级质谱节点转移至代谢物结构节点或自身的概率为,其中为同该二级质谱节点相连的代谢物结构节点个数。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S2中,一级质谱节点转移至代谢物节点或自身的概率为,其中为同该一级质谱节点相连的代谢物节点个数。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S3具体为:
将关系图节点映射至向量空间,得到初始的节点嵌入表示;
对于所述关系图中所有的节点,每次选择图中一个节点作为初始点,进行随机游走,节点之间游走概率即为S2计算的概率,生成随机游走序列;
使用生成的随机游走序列以及初始的节点嵌入表示,使用模型利用梯度下降的方法对初始的节点嵌入表示进行迭代更新,最终得到更新后的一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S5中,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹计算余弦相似度,选择相似度最高的代谢物作为鉴定的代谢物。
本发明还提供了一种基于人工智能的代谢物鉴定系统,具体讲是一种基于图表示学习算法的代谢物鉴定系统,其中各模块关系如图1所示,具体的,该系统包括:
预处理模块,用于从预先构建的代谢物数据库中,获取代谢物的质谱数据(包括一级质谱数据和二级质谱数据)以及代谢物分子指纹,将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图;
转移概率计算模块,用于完成关系图中各节点转移概率的计算;
模型训练模块,用于以所述转移概率计算模块计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示,并且,对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
代谢物鉴定模块,用于使用训练完成的一系列感知器模型进行代谢物分子指纹的预测,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
上述各模块在执行过程中所用到的具体手段可参照上述基于图表示学习算法的代谢物鉴定方法中的一些具体限定。
作为一个总的发明构思,本发明又提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行所述的基于图表示学习算法的代谢物鉴定方法。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储程序或指令,在程序或指令被计算机设备执行的情况下,使得计算机设备执行所述的基于图表示学习算法的代谢物鉴定方法。
本发明还提供了一种计算机程序产品,包括计算机程序,在计算机程序被计算机设备执行的情况下,使得计算机设备执行所述的基于图表示学习算法的代谢物鉴定方法。
本发明的创新点有:
1)将代谢物断裂化学键的过程视为马尔可夫过程,以此构建似然函数,并完成关系图节点之间转移概率的计算。
2)使用代谢物分子指纹以及质谱数据构建代谢物结构同质谱的关系图,并使用图表示算法deepwalk,将节点转换成嵌入表示。
3)使用节点嵌入表示对代谢物的指纹信息进行预测,并使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物进行比对,从而完成代谢物的鉴定。
本发明与现有技术相比,有益效果有:
(1)同时利用代谢物结构信息以及质谱数据进行代谢物的鉴定,提升鉴定的准确率。
(2)利用代谢物分子指纹对代谢物结构数据库的代谢物进行匹配,能够鉴定出标准品数据库以外的潜在代谢物。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于图表示学习算法的代谢物鉴定系统中的模块关系图。
图2为代谢物断裂化学键的过程示意图。
图3为实施例模型训练模块的模型结构示意图。
图4为本发明的一种基于图表示学习算法的代谢物鉴定方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
如图1所示,本实施例采用的基于图表示学习算法的代谢物鉴定系统包括:
预处理模块,用于从预先构建的代谢物数据库中,获取代谢物的质谱数据(包括一级质谱数据和二级质谱数据)以及代谢物分子指纹,将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图;
转移概率计算模块,用于完成关系图中各节点转移概率的计算;
模型训练模块,用于以所述转移概率计算模块计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示,并且,对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
代谢物鉴定模块,用于使用训练完成的一系列感知器模型进行代谢物分子指纹的预测,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
本实施例使用上述系统进行基于图表示学习算法的代谢物鉴定,具体方法包括:
S1、从预先构建的代谢物数据库中,获取代谢物的质谱数据(包括一级质谱数据和二级质谱数据)以及代谢物分子指纹。所述代谢物分子指纹记录了代谢物的结构特征。一级质谱数据以及二级质谱数据可以来自实验室采集以及公开数据集。代谢物分子指纹可来自公开数据库,例如PubChem数据库。
利用预处理模块将质谱数据进行转换,完成质谱数据特征构建,并构建代谢物节点、代谢物结构节点同一级质谱节点以及二级质谱节点的关系图。
将代谢物作为代谢物节点。将代谢物分子指纹中所具有的代谢物结构的集合作为代谢物结构节点集合。
对于已知代谢物 j(下文或称之为第 j个代谢物)有代谢物分子指纹,当代谢物 j具有第 z个代谢物结构,,否则。其中 Z表示代谢物分子指纹长度。示例的,代谢物作为代谢物节点,其具有代谢物分子指纹。取代谢物分子指纹中值为1的代谢物结构,得到代谢物结构节点集合
对代谢物一级质谱对应的质荷比进行分箱处理,将其所属的箱体作为一级质谱节点。
对于已知代谢物 j,一级质谱的质荷比记为,将其划分至箱体 = 中,其中表示所有代谢物的一级质谱以及二级质谱数据中的最小质荷比,表示质荷比的间隔,并将作为一级质谱节点。示例的,代谢物,具有一级质谱对应的质荷比178,将代谢物一级质谱对应的质荷比进行分箱处理,最小质荷比为91,最大质荷比为178,间隔为10,得到一级质谱节点
对代谢物二级质谱数据进行分箱处理,使用平均值池化函数或最大值池化函数,对分到同一个箱体的质谱峰面积数据进行池化处理,并通过设定的阈值进行过滤,取阈值以上对应的箱体集合作为二级质谱节点集合。
对于已知代谢物 j,二级质谱数据,其中表示二级质谱各峰对应的质荷比,表示二级质谱各峰的峰面积,表示代谢物 j的二级质谱的总质谱峰个数。
对二级质谱数据每隔质荷比间隔进行分箱构建特征。对于一共可以得到总共个箱体,其中表示所有代谢物的一级质谱以及二级质谱数据中的最小质荷比,表示所有代谢物的一级质谱以及二级质谱数据中的最大质荷比。
将二级质谱数据中每个质荷比-质谱峰面积键值对(其中表示质荷比,表示质谱峰面积),按照以下公式划分到对应的第个箱体中:。箱体,其中表示箱体中含有的质荷比-质谱峰面积键值对的总个数。
使用平均值池化函数或最大值池化函数对第个箱体进行池化操作,得到该箱体对应的特征,其中,平均值池化公式:,最大值池化公式:
最后,按照以下公式将池化后的组成的特征矩阵进行转换,其中 j表示第 j个代谢物,表示特征构建之后的第个箱体,表示可人为设定的过滤阈值,转换后的特征矩阵记为,由组成:
箱体所表示的质荷比
对于值为1的所有箱体对应的质荷比构成集合
对于已知代谢物 j,其二级质谱特征,其中表示分箱操作得到的箱体总个数,取二级质谱特征中值为1的箱体作为二级质谱节点,这些值为1的箱体的集合即为代谢物 j二级质谱节点集合
示例的,代谢物,二级质谱数据,对二级质谱数据进行分箱处理,质荷比间隔为10,最小质荷比为91,最大质荷比为178,总共得到9个箱体,并使用平均值池化函数,对分到同一个箱体的质谱峰面积数据进行池化处理,得到向量。以阈值25为例,将池化后的向量转换成向量,取该向量中值为1的箱体对应的编号集合,将得到的编号集合作为代谢物二级质谱节点集合。
构建代谢物节点、代谢物结构节点同一级质谱节点以及二级质谱节点的关系图,具体为:一级质谱节点同代谢物节点构建一条边,代谢物节点同代谢物结构节点集合中中的每一个代谢物结构节点构建一条边,代谢物结构节点集合中的每一个代谢物结构节点同二级质谱节点集合的每一个二级质谱节点构建一条边,构建得到所述关系图。
示例的,代谢物,一级质谱节点同代谢物连接一条边,代谢物同代谢物结构节点集合中的每一个代谢物结构节点构建一条边,代谢物结构节点集合中的每一个代谢物结构节点同二级质谱节点集合的每一个二级质谱节点构建一条边。构建得到质谱数据同代谢物结构的关系图。以上述数据为例,得到关系图
S2、利用转移概率计算模块完成关系图中各节点转移概率的计算。将代谢物断裂化学键的过程视为马尔可夫过程,以此构建似然函数,完成关系图中各节点转移概率的计算。
代谢物断裂化学键的过程如图2所示,假定每次断裂仅断裂一个化学键,并假定断裂后的代谢物碎片仅由断裂前的代谢物碎片决定,即将该过程视为一个马尔可夫过程。
具体的,关系图中各节点转移概率可分别按照以下方法计算:
1)由任一代谢物结构节点转移至代谢物节点的概率为,其中为同该代谢物结构节点相连的代谢物节点个数。
2)由任一二级质谱节点转移至代谢物结构节点或自身的概率为,其中为同该二级质谱节点相连的代谢物结构节点个数。
3)由任一一级质谱节点转移至代谢物节点或自身的概率为,其中为同该一级质谱节点相连的代谢物节点个数。
4)通过下式(1)计算任一代谢物节点或代谢物结构节点转移至自身的概率
(1)
其中:表示的长度,为代谢物或代谢物结构经过打碎至多一个化学键产生的代谢物碎片所构成的集合,=1,2…,为代谢物或代谢物结构断裂至多一个化学键变为代谢物碎片所需要的化学键能。
由于化学键能难以获取,本实施例利用断裂特征向量使用线性函数来拟合化学键能,公式如下:
(2)
其中:
为代谢物或代谢物结构断裂化学键得到代谢物碎片的化学键断裂特征向量,其记录了断裂的化学键两端的原子或者化学基团信息,例如对于O-H化学键,特征向量中O原子以及H原子对应的值为1;
为参数,可通过使用算法对代谢物的二级质谱数据的似然函数进行参数优化得到,所述似然函数如下:
其中:,,…,分别代表代谢物或代谢物结构,…,经过打碎至多一个化学键产生的代谢物碎片所构成的集合,代表经过马尔可夫过程的轮数,代表代谢物或代谢物结构断裂至多一个化学键变为代谢物碎片的转移概率,若,按式(1)计算,若,按下式(3)计算:
    (3)
其中:表示的长度,为代谢物或代谢物结构经过打碎至多一个化学键产生的代谢物碎片所构成的集合,=1,2…,为代谢物或代谢物结构断裂至多一个化学键变为代谢物碎片所需要的化学键能,按式(2)计算;
代表代谢物碎片在质荷比处出现质谱峰的概率,采用高斯分布计算,具体公式如下式(4)所示:
   (4)
其中表示代谢物碎片的质荷比,表示高斯分布的标准差,作为超参数由人为设定,通常设为1。
5)代谢物节点转移至一级质谱节点以及代谢物结构节点转移至二级质谱节点的概率按式(4)计算。
6)通过下式计算代谢物节点转移至代谢物结构节点的概率
其中表示以代谢物作为起点,作为代谢物结构终点的所有路线集合,,表示中的一个路线,其中表示该路线的起始节点,为表示该路线的终点节点,为表示路线的长度,表示终点节点转移至自身的概率,按式(1)计算,表示路线上的节点断裂一个化学键转移至节点的概率,按式(3)计算,表示终点节点转移至自身的次数,表示节点转移至自身的次数,计算了由线路,经过轮马尔可夫过程,以作为起点,作为终点代谢物碎片的概率。
至此,关系图所有节点之间的转移概率计算完毕。
S3、以S2计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;具体为:
将关系图节点映射至向量空间,得到初始的节点嵌入表示;
对于所述关系图中所有的节点,每次选择图中一个节点作为初始点,进行次随机游走,节点之间游走概率即为S2计算的概率,生成长度为的随机游走序列
使用生成的随机游走序列以及初始的节点嵌入表示,使用模型利用梯度下降的方法对初始的节点嵌入表示进行迭代更新,最终得到更新后的一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示。
S4、对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型。
训练感知器模型的损失函数为,公式如下:
其中表示第个代谢物的第个代谢物结构标签,表示感知器模型对第个代谢物的第个代谢物结构的预测结果,表示用于训练模型的代谢物总数。
对于长度为的代谢物分子指纹,总共训练个感知器模型。具体一个示例如图3所示。
S5、使用训练完成的一系列感知器模型进行代谢物分子指纹的预测。
将待鉴定的代谢物的一级质谱数据以及二级质谱数据,按照上述方法将一级质谱数据以及二级质谱数据转换成一级质谱嵌入表示以及二级质谱嵌入表示,并使用该嵌入表示作为个机器学习模型(感知器模型)的输入,输出得到待预测代谢物的代谢物分子指纹。
使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹计算余弦相似度。余弦相似度计算公式如下:
其中表示代谢物分子指纹长度,表示第个代谢物结构预测结果,表示代谢物结构数据库中代谢物分子指纹第个代谢物结构的结果。
为例。计算得到余弦相似度为0.43。
对于所有余弦相似度,按照从高到低排序,相似度最高的代谢物作为鉴定的代谢物。
示例的,图4展示了本发明的一种具体的基于图表示学习算法的代谢物鉴定方法的流程,其包括了上述流程步骤。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (12)

1.一种基于图表示学习算法的代谢物鉴定方法,其特征在于,包括:
S1、从预先构建的代谢物数据库中,获取代谢物的质谱数据以及代谢物分子指纹,将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图;
S2、完成关系图中各节点转移概率的计算;
S3、以S2计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;
S4、对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
S5、使用训练完成的一系列感知器模型进行代谢物分子指纹的预测;使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
2.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S1中:
将代谢物作为代谢物节点;
将代谢物分子指纹中所具有的代谢物结构的集合作为代谢物结构节点集合。
3.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S1中,对代谢物一级质谱对应的质荷比进行分箱处理,将其所属的箱体作为一级质谱节点。
4.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S1中,对代谢物二级质谱数据按质荷比进行分箱处理,使用平均值池化函数或最大值池化函数,对分到同一个箱体的质谱峰面积数据进行池化处理,并通过设定的阈值进行过滤,取阈值以上对应的箱体集合作为二级质谱节点集合。
5.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S1中,一级质谱节点同代谢物节点构建一条边,代谢物节点同每一个代谢物结构节点构建一条边,每一个代谢物结构节点同每一个二级质谱节点构建一条边,构建得到所述关系图。
6.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S2中:
将代谢物、代谢物结构断裂化学键的过程视为马尔可夫过程,以此构建似然函数,完成关系图中代谢物节点、代谢物结构节点转移至自身或断裂化学键后的代谢物结构节点的转移概率的计算;
采用高斯分布计算代谢物节点转移至一级质谱节点以及代谢物结构节点转移至二级质谱节点的概率。
7.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S3具体为:
将关系图节点映射至向量空间,得到初始的节点嵌入表示;
对于所述关系图中所有的节点,每次选择图中一个节点作为初始点,进行随机游走,节点之间游走概率即为S2计算的概率,生成随机游走序列;
使用生成的随机游走序列以及初始的节点嵌入表示,使用模型利用梯度下降的方法对初始的节点嵌入表示进行迭代更新,最终得到更新后的一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示。
8.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S5中,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹计算余弦相似度,选择相似度最高的代谢物作为鉴定的代谢物。
9.一种基于图表示学习算法的代谢物鉴定系统,其特征在于,包括:
预处理模块,用于从预先构建的代谢物数据库中,获取代谢物的质谱数据以及代谢物分子指纹,将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图;
转移概率计算模块,用于完成关系图中各节点转移概率的计算;
模型训练模块,用于以所述转移概率计算模块计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示,并且,对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
代谢物鉴定模块,用于使用训练完成的一系列感知器模型进行代谢物分子指纹的预测,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
10.一种计算机设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,其特征在于,所述计算机程序运行时使得所述处理器执行权利要求1-8任一项所述的基于图表示学习算法的代谢物鉴定方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储程序或指令,在程序或指令被计算机设备执行的情况下,使得计算机设备执行权利要求1-8任一项所述的基于图表示学习算法的代谢物鉴定方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,在计算机程序被计算机设备执行的情况下,使得计算机设备执行权利要求1-8任一项所述的基于图表示学习算法的代谢物鉴定方法。
CN202310230140.7A 2023-03-07 2023-03-07 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 Active CN115938490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310230140.7A CN115938490B (zh) 2023-03-07 2023-03-07 一种基于图表示学习算法的代谢物鉴定方法、系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310230140.7A CN115938490B (zh) 2023-03-07 2023-03-07 一种基于图表示学习算法的代谢物鉴定方法、系统和设备

Publications (2)

Publication Number Publication Date
CN115938490A true CN115938490A (zh) 2023-04-07
CN115938490B CN115938490B (zh) 2023-06-06

Family

ID=85835801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310230140.7A Active CN115938490B (zh) 2023-03-07 2023-03-07 一种基于图表示学习算法的代谢物鉴定方法、系统和设备

Country Status (1)

Country Link
CN (1) CN115938490B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825198A (zh) * 2023-07-14 2023-09-29 湖南工商大学 基于图注意机制的肽序列标签鉴定方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070061084A1 (en) * 2002-01-24 2007-03-15 Ecopia Biosciences, Inc. Method, system, and knowledge repository for identifying a secondary metabolite from a microorganism
US20080120041A1 (en) * 2006-11-13 2008-05-22 N.V. Organon System and method to identify the metabolites of a drug
CN106714556A (zh) * 2014-04-11 2017-05-24 美国控股实验室公司 用于测定自闭症谱系病症风险的方法和系统
CN107635478A (zh) * 2015-03-06 2018-01-26 英国质谱公司 通过质谱或离子迁移谱进行的组织分析
CN107729721A (zh) * 2017-10-17 2018-02-23 中国科学院上海有机化学研究所 一种代谢物鉴定及紊乱通路分析方法
CN112509702A (zh) * 2020-11-30 2021-03-16 质美(北京)生物科技有限公司 基于医疗大数据的疾病预测方法及系统
CN112735532A (zh) * 2020-10-15 2021-04-30 华南理工大学 基于分子指纹预测的代谢物识别系统及其应用方法
CN113554176A (zh) * 2021-06-24 2021-10-26 中山大学 代谢特征谱推断方法、系统、计算机设备及存储介质
CN114480574A (zh) * 2015-11-06 2022-05-13 文塔纳医疗系统公司 代表性诊断
US20220208540A1 (en) * 2020-12-17 2022-06-30 Carnegie Mellon University System for Identifying Structures of Molecular Compounds from Mass Spectrometry Data
CN114923992A (zh) * 2022-03-29 2022-08-19 中国科学院上海有机化学研究所 鉴定已知和未知代谢物的分析方法、装置和设备
CN115691702A (zh) * 2022-11-15 2023-02-03 浙江中医药大学 一种化合物可视化分类方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070061084A1 (en) * 2002-01-24 2007-03-15 Ecopia Biosciences, Inc. Method, system, and knowledge repository for identifying a secondary metabolite from a microorganism
US20080120041A1 (en) * 2006-11-13 2008-05-22 N.V. Organon System and method to identify the metabolites of a drug
CN106714556A (zh) * 2014-04-11 2017-05-24 美国控股实验室公司 用于测定自闭症谱系病症风险的方法和系统
CN107635478A (zh) * 2015-03-06 2018-01-26 英国质谱公司 通过质谱或离子迁移谱进行的组织分析
CN114480574A (zh) * 2015-11-06 2022-05-13 文塔纳医疗系统公司 代表性诊断
CN107729721A (zh) * 2017-10-17 2018-02-23 中国科学院上海有机化学研究所 一种代谢物鉴定及紊乱通路分析方法
CN112735532A (zh) * 2020-10-15 2021-04-30 华南理工大学 基于分子指纹预测的代谢物识别系统及其应用方法
CN112509702A (zh) * 2020-11-30 2021-03-16 质美(北京)生物科技有限公司 基于医疗大数据的疾病预测方法及系统
US20220208540A1 (en) * 2020-12-17 2022-06-30 Carnegie Mellon University System for Identifying Structures of Molecular Compounds from Mass Spectrometry Data
CN113554176A (zh) * 2021-06-24 2021-10-26 中山大学 代谢特征谱推断方法、系统、计算机设备及存储介质
CN114923992A (zh) * 2022-03-29 2022-08-19 中国科学院上海有机化学研究所 鉴定已知和未知代谢物的分析方法、装置和设备
CN115691702A (zh) * 2022-11-15 2023-02-03 浙江中医药大学 一种化合物可视化分类方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"《科学技术与工程》总目录及索引", 科学技术与工程 *
"2010年国家自然科学基金批准项目一览表(地球科学部分)", 地球科学进展 *
"国家自然科学基金委员会生命科学部2019年度青年科学基金项目", 生命科学 *
吕秀霞;祁佳;: "2012年度与昆虫学相关的国家自然科学基金资助项目统计与分析", 应用昆虫学报 *
吴兴泉;申美顿;陈士华;刘岩;: "特级初榨橄榄油的溯源及掺伪鉴定技术研究进展", 粮食与油脂 *
谷建钟;郑贤炳;李妍;王浩浩;郭勇;滕理送;: "胃癌根治术前肝胃不和证患者中医证候的血清代谢组学研究", 浙江中医杂志 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825198A (zh) * 2023-07-14 2023-09-29 湖南工商大学 基于图注意机制的肽序列标签鉴定方法
CN116825198B (zh) * 2023-07-14 2024-05-10 湖南工商大学 基于图注意机制的肽序列标签鉴定方法

Also Published As

Publication number Publication date
CN115938490B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN113327644B (zh) 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
US11587646B2 (en) Method for simultaneous characterization and expansion of reference libraries for small molecule identification
Li et al. Sparse representation approaches for the classification of high-dimensional biological data
CN111210871A (zh) 基于深度森林的蛋白质-蛋白质相互作用预测方法
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
CN113903409B (zh) 一种分子数据处理方法、模型构建与预测方法及相关装置
CN113488104A (zh) 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统
CN112151127A (zh) 基于分子语义向量的无监督学习药物虚拟筛选方法和系统
CN115938490A (zh) 一种基于图表示学习算法的代谢物鉴定方法、系统和设备
CN115798730A (zh) 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质
Wu et al. AAE-SC: A scRNA-seq clustering framework based on adversarial autoencoder
Zhang et al. Prediction of electron ionization mass spectra based on graph convolutional networks
Saraswathi et al. Fast learning optimized prediction methodology (FLOPRED) for protein secondary structure prediction
CN111048145B (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN112085245A (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
CN110610765A (zh) 采用双随机游走预测疾病相关代谢物的方法
CN113192562B (zh) 融合多尺度模块结构信息的致病基因识别方法及系统
Zhang et al. Multimodal deep representation learning for protein-protein interaction networks
WO2022084696A1 (en) Drug optimisation by active learning
Wibowo et al. XGB5hmC: Identifier based on XGB model for RNA 5-hydroxymethylcytosine detection
Shamima et al. Protein secondary structure prediction using a fully complex-valued relaxation network
Zhang et al. Application of machine learning techniques to predict protein phosphorylation sites
Settelmeier Theoretical Fundamentals of Computational Proteomics and Deep Learning-Based Identification of Chimeric Mass Spectrometry Data
Kamdem et al. A Computational Exploration of Emerging Methods of Variable Importance Estimation
Bao et al. ILSES: Identification lysine succinylation-sites with ensemble classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant