CN115938490B - 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 - Google Patents

一种基于图表示学习算法的代谢物鉴定方法、系统和设备 Download PDF

Info

Publication number
CN115938490B
CN115938490B CN202310230140.7A CN202310230140A CN115938490B CN 115938490 B CN115938490 B CN 115938490B CN 202310230140 A CN202310230140 A CN 202310230140A CN 115938490 B CN115938490 B CN 115938490B
Authority
CN
China
Prior art keywords
metabolite
node
mass spectrum
nodes
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310230140.7A
Other languages
English (en)
Other versions
CN115938490A (zh
Inventor
李劲松
张航
马静
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310230140.7A priority Critical patent/CN115938490B/zh
Publication of CN115938490A publication Critical patent/CN115938490A/zh
Application granted granted Critical
Publication of CN115938490B publication Critical patent/CN115938490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种基于图表示学习算法的代谢物鉴定方法、系统和设备。该方法包括:从代谢物数据库中获取代谢物质谱数据和代谢物分子指纹,将质谱数据进行转换,构建代谢物节点、代谢物结构节点、一级质谱节点、二级质谱节点的关系图;计算各节点转移概率作为随机游走概率,使用deepwalk图表示学习算法生成一级质谱节点、二级质谱节点和代谢物结构节点的嵌入表示;对于每一个代谢物结构,用一级质谱的嵌入表示和二级质谱的嵌入表示作为输入迭代训练一个感知器模型;使用训练完成的一系列感知器模型进行代谢物分子指纹的预测;使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。

Description

一种基于图表示学习算法的代谢物鉴定方法、系统和设备
技术领域
本发明涉及代谢组学数据分析技术领域,具体涉及一种基于图表示学习算法的代谢物鉴定方法、系统和设备。
背景技术
代谢物能够反应细胞和机体代谢的活动和状态,涉及内源性和外源性分子,是生物系统内化学反应的产物和底物。而代谢组学实验直接反映了导致这些代谢物产生的代谢网络活动,并产生了有关系统潜在生物状态的基本信息,可描述生理学和病理生理学的终点,为疾病临床生物标志物和治疗靶点的研究提供重要见解。
近年来,代谢组学已被应用于多个领域,以获得新的发现和假说的验证。非靶向代谢物组学分析,是目前代谢组学分析最为常用的方法,其能够鉴定出海量的代谢物。而代谢物的准确鉴定是非靶向代谢组分析最为关键的步骤,直接影响下游重要分析,包括代谢通路富集和潜在生物标志物发现等。
尽管现在已经开发了各种方法来提高代谢物鉴定的准确度,但仍然具有较大的挑战性。只有进行代谢物鉴定之后,才能进行下游的生物学功能研究。
公开号为CN113554176A的专利说明书公开了一种代谢特征谱推断方法,包括将目标样本数据进行LC-MS技术处理以获得LC-MS原始数据;将所述LC-MS原始数据进行降维转换处理以获得二维矩阵,所述二维矩阵保留所述LC-MS原始数据的保留时间、质荷比及离子强度;将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。对LC-MS数据而言,保留时间、质荷比是鉴定具体物质的标签。该专利技术利用深度学习技术,以计算类激活热力图的方法获取样本特征后,可以使用映射函数推断出组成样本特征的具体物质,从而进一步挖掘样本特征标志代谢物质、代谢网络模式,推断样本的代谢特征谱。
公开号为CN107729721A的专利说明书公开了一种代谢物鉴定方法,利用代谢反应网络中的具有反应关系的第一代谢物、第二代谢物之间结构类似的特点以及反应关系,使用已鉴定出来第一代谢物的二级谱图对与其有反应关系的第二代谢物进行鉴定,进一步使用已鉴定出来的第二代谢物的二级谱图对与其有反应关系的新的第二代谢物进行鉴定,该方法循环进行直到无法鉴定新的第二代谢物,从而扩大代谢物的鉴定覆盖范围。
此外,现有的代谢物鉴定还有的是通过将样本的二级质谱图与标准品数据库(例如HMDB 数据库)中已经注释的标准品的二级质谱图进行相似度计算,相似度高于一定阈值则可进行注释。这种方法除了无法鉴定到标准品数据库之外的代谢物外,还由于仅使用二级质谱信息,没有使用代谢物结构信息,仅通过质谱数据之间的相似度鉴定的代谢物,准确度有限。
发明内容
针对上述技术问题以及本领域存在的不足之处,本发明提供了一种基于图表示学习算法的代谢物鉴定方法,通过构建代谢物结构同质谱的关系图,使用deepwalk图表示算法,生成质谱节点、代谢物结构节点的嵌入表示(所述嵌入表示能够在高纬度抽象表示代谢物结构节点同质谱节点的关系信息),并使用该嵌入表示预测代谢物的指纹信息,最终,将预测的指纹信息与代谢物结构数据库中代谢物分子指纹进行匹配,从而可以鉴定出代谢物结构数据库中不具有二级质谱信息的潜在的代谢物。
具体技术方案如下:
一种基于图表示学习算法的代谢物鉴定方法,包括:
S1、从预先构建的代谢物数据库中,获取代谢物的质谱数据(包括一级质谱数据和二级质谱数据)以及代谢物分子指纹(所述代谢物分子指纹记录了代谢物的结构特征),将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图;
S2、完成关系图中各节点转移概率的计算;
S3、以S2计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;
S4、对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
S5、使用训练完成的一系列感知器模型进行代谢物分子指纹的预测;使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S1中:
将代谢物作为代谢物节点;
将代谢物分子指纹中所具有的代谢物结构的集合作为代谢物结构节点集合。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S1中,对代谢物一级质谱对应的质荷比进行分箱处理,将其所属的箱体作为一级质谱节点。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S1中,对代谢物二级质谱数据按质荷比进行分箱处理,使用平均值池化函数或最大值池化函数,对分到同一个箱体的质谱峰面积数据进行池化处理,并通过设定的阈值进行过滤,取阈值以上对应的箱体集合作为二级质谱节点集合。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S1中,一级质谱节点同代谢物节点构建一条边,代谢物节点同每一个代谢物结构节点构建一条边,每一个代谢物结构节点同每一个二级质谱节点构建一条边,构建得到所述关系图。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S2中,将代谢物、代谢物结构断裂化学键的过程视为马尔可夫过程,以此构建似然函数,完成关系图中代谢物节点、代谢物结构节点转移至自身或断裂化学键后的代谢物结构节点的转移概率的计算。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S2中,采用高斯分布计算代谢物节点转移至一级质谱节点以及代谢物结构节点转移至二级质谱节点的概率。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S2中,代谢物结构节点转移至代谢物节点的概率为
Figure SMS_1
,其中
Figure SMS_2
为同该代谢物结构节点相连的代谢物节点个数。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S2中,二级质谱节点转移至代谢物结构节点或自身的概率为
Figure SMS_3
,其中
Figure SMS_4
为同该二级质谱节点相连的代谢物结构节点个数。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S2中,一级质谱节点转移至代谢物节点或自身的概率为
Figure SMS_5
,其中
Figure SMS_6
为同该一级质谱节点相连的代谢物节点个数。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S3具体为:
将关系图节点映射至向量空间,得到初始的节点嵌入表示;
对于所述关系图中所有的节点,每次选择图中一个节点作为初始点,进行随机游走,节点之间游走概率即为S2计算的概率,生成随机游走序列;
使用生成的随机游走序列以及初始的节点嵌入表示,使用
Figure SMS_7
模型利用梯度下降的方法对初始的节点嵌入表示进行迭代更新,最终得到更新后的一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示。
在一实施例中,所述的基于图表示学习算法的代谢物鉴定方法,S5中,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹计算余弦相似度,选择相似度最高的代谢物作为鉴定的代谢物。
本发明还提供了一种基于人工智能的代谢物鉴定系统,具体讲是一种基于图表示学习算法的代谢物鉴定系统,其中各模块关系如图1所示,具体的,该系统包括:
预处理模块,用于从预先构建的代谢物数据库中,获取代谢物的质谱数据(包括一级质谱数据和二级质谱数据)以及代谢物分子指纹,将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图;
转移概率计算模块,用于完成关系图中各节点转移概率的计算;
模型训练模块,用于以所述转移概率计算模块计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示,并且,对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
代谢物鉴定模块,用于使用训练完成的一系列感知器模型进行代谢物分子指纹的预测,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
上述各模块在执行过程中所用到的具体手段可参照上述基于图表示学习算法的代谢物鉴定方法中的一些具体限定。
作为一个总的发明构思,本发明又提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行所述的基于图表示学习算法的代谢物鉴定方法。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储程序或指令,在程序或指令被计算机设备执行的情况下,使得计算机设备执行所述的基于图表示学习算法的代谢物鉴定方法。
本发明还提供了一种计算机程序产品,包括计算机程序,在计算机程序被计算机设备执行的情况下,使得计算机设备执行所述的基于图表示学习算法的代谢物鉴定方法。
本发明的创新点有:
1)将代谢物断裂化学键的过程视为马尔可夫过程,以此构建似然函数,并完成关系图节点之间转移概率的计算。
2)使用代谢物分子指纹以及质谱数据构建代谢物结构同质谱的关系图,并使用图表示算法deepwalk,将节点转换成嵌入表示。
3)使用节点嵌入表示对代谢物的指纹信息进行预测,并使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物进行比对,从而完成代谢物的鉴定。
本发明与现有技术相比,有益效果有:
(1)同时利用代谢物结构信息以及质谱数据进行代谢物的鉴定,提升鉴定的准确率。
(2)利用代谢物分子指纹对代谢物结构数据库的代谢物进行匹配,能够鉴定出标准品数据库以外的潜在代谢物。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于图表示学习算法的代谢物鉴定系统中的模块关系图。
图2为代谢物断裂化学键的过程示意图。
图3为实施例模型训练模块的模型结构示意图。
图4为本发明的一种基于图表示学习算法的代谢物鉴定方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
如图1所示,本实施例采用的基于图表示学习算法的代谢物鉴定系统包括:
预处理模块,用于从预先构建的代谢物数据库中,获取代谢物的质谱数据(包括一级质谱数据和二级质谱数据)以及代谢物分子指纹,将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图;
转移概率计算模块,用于完成关系图中各节点转移概率的计算;
模型训练模块,用于以所述转移概率计算模块计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示,并且,对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
代谢物鉴定模块,用于使用训练完成的一系列感知器模型进行代谢物分子指纹的预测,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
本实施例使用上述系统进行基于图表示学习算法的代谢物鉴定,具体方法包括:
S1、从预先构建的代谢物数据库中,获取代谢物的质谱数据(包括一级质谱数据和二级质谱数据)以及代谢物分子指纹。所述代谢物分子指纹记录了代谢物的结构特征。一级质谱数据以及二级质谱数据可以来自实验室采集以及公开数据集。代谢物分子指纹可来自公开数据库,例如PubChem数据库。
利用预处理模块将质谱数据进行转换,完成质谱数据特征构建,并构建代谢物节点、代谢物结构节点同一级质谱节点以及二级质谱节点的关系图。
将代谢物作为代谢物节点。将代谢物分子指纹中所具有的代谢物结构的集合作为代谢物结构节点集合。
对于已知代谢物j(下文或称之为第j个代谢物)有代谢物分子指纹
Figure SMS_8
,当代谢物j具有第z个代谢物结构,
Figure SMS_9
,否则
Figure SMS_10
。其中Z表示代谢物分子指纹长度。示例的,代谢物
Figure SMS_11
Figure SMS_12
作为代谢物节点,其具有代谢物分子指纹
Figure SMS_13
。取代谢物分子指纹中值为1的代谢物结构,得到代谢物结构节点集合
Figure SMS_14
对代谢物一级质谱对应的质荷比进行分箱处理,将其所属的箱体作为一级质谱节点。
对于已知代谢物j,一级质谱的质荷比记为
Figure SMS_16
,将其划分至箱体
Figure SMS_20
=
Figure SMS_22
中,其中
Figure SMS_17
表示所有代谢物的一级质谱以及二级质谱数据中的最小质荷比,
Figure SMS_19
表示质荷比的间隔,并将
Figure SMS_23
作为一级质谱节点。示例的,代谢物
Figure SMS_25
,具有一级质谱对应的质荷比178,将代谢物一级质谱对应的质荷比进行分箱处理,最小质荷比
Figure SMS_15
为91,最大质荷比
Figure SMS_18
为178,间隔
Figure SMS_21
为10,得到一级质谱节点
Figure SMS_24
对代谢物二级质谱数据进行分箱处理,使用平均值池化函数或最大值池化函数,对分到同一个箱体的质谱峰面积数据进行池化处理,并通过设定的阈值进行过滤,取阈值以上对应的箱体集合作为二级质谱节点集合。
对于已知代谢物j,二级质谱数据
Figure SMS_26
,其中
Figure SMS_27
表示二级质谱各峰对应的质荷比,
Figure SMS_28
表示二级质谱各峰的峰面积,
Figure SMS_29
表示代谢物j的二级质谱的总质谱峰个数。
对二级质谱数据
Figure SMS_30
每隔
Figure SMS_31
质荷比间隔进行分箱构建特征。对于
Figure SMS_32
Figure SMS_33
一共可以得到总共
Figure SMS_34
个箱体,其中
Figure SMS_35
表示所有代谢物的一级质谱以及二级质谱数据中的最小质荷比,
Figure SMS_36
表示所有代谢物的一级质谱以及二级质谱数据中的最大质荷比。
将二级质谱数据
Figure SMS_39
中每个质荷比-质谱峰面积键值对
Figure SMS_40
(其中
Figure SMS_44
表示质荷比,
Figure SMS_38
表示质谱峰面积),按照以下公式划分到对应的第
Figure SMS_41
个箱体
Figure SMS_43
中:
Figure SMS_46
。箱体
Figure SMS_37
,其中
Figure SMS_42
表示箱体
Figure SMS_45
中含有的质荷比-质谱峰面积键值对的总个数。
使用平均值池化函数或最大值池化函数对第
Figure SMS_47
个箱体
Figure SMS_48
进行池化操作,得到该箱体对应的特征
Figure SMS_49
,其中,平均值池化公式:
Figure SMS_50
Figure SMS_51
,最大值池化公式:
Figure SMS_52
最后,按照以下公式将池化后的
Figure SMS_53
组成的特征矩阵进行转换,其中j表示第j个代谢物,
Figure SMS_54
表示特征构建之后的第
Figure SMS_55
个箱体,
Figure SMS_56
表示可人为设定的过滤阈值,转换后的特征矩阵记为
Figure SMS_57
,由
Figure SMS_58
组成:
Figure SMS_59
箱体
Figure SMS_60
所表示的质荷比
Figure SMS_61
Figure SMS_62
对于
Figure SMS_63
值为1的所有箱体对应的质荷比构成集合
Figure SMS_64
对于已知代谢物j,其二级质谱特征
Figure SMS_65
,其中
Figure SMS_66
表示分箱操作得到的箱体总个数,取二级质谱特征
Figure SMS_67
中值
Figure SMS_68
为1的箱体作为二级质谱节点,这些值为1的箱体的集合即为代谢物j二级质谱节点集合
Figure SMS_69
示例的,代谢物
Figure SMS_71
,二级质谱数据
Figure SMS_73
,对二级质谱数据进行分箱处理,质荷比间隔
Figure SMS_76
为10,最小质荷比
Figure SMS_72
为91,最大质荷比
Figure SMS_75
为178,总共得到9个箱体,并使用平均值池化函数,对分到同一个箱体的质谱峰面积数据进行池化处理,得到向量
Figure SMS_77
。以阈值25为例,将池化后的向量转换成向量
Figure SMS_78
,取该向量中值为1的箱体对应的编号集合
Figure SMS_70
,将得到的编号集合
Figure SMS_74
作为代谢物二级质谱节点集合。
构建代谢物节点、代谢物结构节点同一级质谱节点以及二级质谱节点的关系图,具体为:一级质谱节点同代谢物节点构建一条边,代谢物节点同代谢物结构节点集合中
Figure SMS_79
中的每一个代谢物结构节点构建一条边,代谢物结构节点集合
Figure SMS_80
中的每一个代谢物结构节点同二级质谱节点集合
Figure SMS_81
的每一个二级质谱节点构建一条边,构建得到所述关系图。
示例的,代谢物
Figure SMS_82
,一级质谱节点同代谢物
Figure SMS_83
连接一条边,代谢物
Figure SMS_84
同代谢物结构节点集合
Figure SMS_85
中的每一个代谢物结构节点构建一条边,代谢物结构节点集合
Figure SMS_86
中的每一个代谢物结构节点同二级质谱节点集合
Figure SMS_87
的每一个二级质谱节点构建一条边。构建得到质谱数据同代谢物结构的关系图。以上述数据为例,得到关系图
Figure SMS_88
S2、利用转移概率计算模块完成关系图中各节点转移概率的计算。将代谢物断裂化学键的过程视为马尔可夫过程,以此构建似然函数,完成关系图中各节点转移概率的计算。
代谢物断裂化学键的过程如图2所示,假定每次断裂仅断裂一个化学键,并假定断裂后的代谢物碎片仅由断裂前的代谢物碎片决定,即将该过程视为一个马尔可夫过程。
具体的,关系图中各节点转移概率可分别按照以下方法计算:
1)由任一代谢物结构节点转移至代谢物节点的概率为
Figure SMS_89
,其中
Figure SMS_90
为同该代谢物结构节点相连的代谢物节点个数。
2)由任一二级质谱节点转移至代谢物结构节点或自身的概率为
Figure SMS_91
,其中
Figure SMS_92
为同该二级质谱节点相连的代谢物结构节点个数。
3)由任一一级质谱节点转移至代谢物节点或自身的概率为
Figure SMS_93
,其中
Figure SMS_94
为同该一级质谱节点相连的代谢物节点个数。
4)通过下式(1)计算任一代谢物节点或代谢物结构节点
Figure SMS_95
转移至自身的概率
Figure SMS_96
Figure SMS_97
(1)
其中:
Figure SMS_100
表示
Figure SMS_102
的长度,
Figure SMS_105
为代谢物或代谢物结构
Figure SMS_99
经过打碎至多一个化学键产生的代谢物碎片
Figure SMS_103
所构成的集合,
Figure SMS_106
=1,2…,
Figure SMS_107
Figure SMS_98
为代谢物或代谢物结构
Figure SMS_101
断裂至多一个化学键变为代谢物碎片
Figure SMS_104
所需要的化学键能。
由于化学键能难以获取,本实施例利用断裂特征向量使用线性函数来拟合化学键能,公式如下:
Figure SMS_108
(2)
其中:
Figure SMS_109
为代谢物或代谢物结构
Figure SMS_110
断裂化学键得到代谢物碎片
Figure SMS_111
的化学键断裂特征向量,其记录了断裂的化学键两端的原子或者化学基团信息,例如对于O-H化学键,特征向量中O原子以及H原子对应的值为1;
Figure SMS_112
为参数,可通过使用
Figure SMS_113
算法对代谢物的二级质谱数据
Figure SMS_114
的似然函数进行参数优化得到,所述似然函数如下:
Figure SMS_115
其中:
Figure SMS_118
,
Figure SMS_121
,…,
Figure SMS_123
分别代表代谢物
Figure SMS_117
或代谢物结构
Figure SMS_120
,…,
Figure SMS_124
经过打碎至多一个化学键产生的代谢物碎片所构成的集合,
Figure SMS_126
代表经过马尔可夫过程的轮数,
Figure SMS_116
代表代谢物或代谢物结构
Figure SMS_122
断裂至多一个化学键变为代谢物碎片
Figure SMS_125
的转移概率,若
Figure SMS_127
,按式(1)计算,若
Figure SMS_119
,按下式(3)计算:
Figure SMS_128
(3)
其中:
Figure SMS_131
表示
Figure SMS_133
的长度,
Figure SMS_137
为代谢物或代谢物结构
Figure SMS_130
经过打碎至多一个化学键产生的代谢物碎片
Figure SMS_134
所构成的集合,
Figure SMS_136
=1,2…,
Figure SMS_138
Figure SMS_129
为代谢物或代谢物结构
Figure SMS_132
断裂至多一个化学键变为代谢物碎片
Figure SMS_135
所需要的化学键能,按式(2)计算;
Figure SMS_139
代表代谢物碎片
Figure SMS_140
在质荷比
Figure SMS_141
处出现质谱峰的概率,采用高斯分布计算,具体公式如下式(4)所示:
Figure SMS_142
(4)
其中
Figure SMS_143
表示代谢物碎片
Figure SMS_144
的质荷比,
Figure SMS_145
表示高斯分布的标准差,作为超参数由人为设定,通常设为1。
5)代谢物节点转移至一级质谱节点以及代谢物结构节点转移至二级质谱节点的概率按式(4)计算。
6)通过下式计算代谢物节点
Figure SMS_146
转移至代谢物结构节点
Figure SMS_147
的概率
Figure SMS_148
Figure SMS_149
Figure SMS_150
其中
Figure SMS_154
表示以代谢物
Figure SMS_161
作为起点,
Figure SMS_168
作为代谢物结构终点的所有路线集合,
Figure SMS_152
,表示
Figure SMS_160
中的一个路线,其中
Figure SMS_166
表示该路线的起始节点,为
Figure SMS_172
Figure SMS_153
表示该路线的终点节点,为
Figure SMS_159
Figure SMS_165
表示路线
Figure SMS_171
的长度,
Figure SMS_155
表示终点节点
Figure SMS_158
转移至自身的概率,按式(1)计算,
Figure SMS_164
表示路线
Figure SMS_170
上的节点
Figure SMS_173
断裂一个化学键转移至节点
Figure SMS_174
的概率,按式(3)计算,
Figure SMS_175
表示终点节点
Figure SMS_176
转移至自身的次数,
Figure SMS_151
表示节点
Figure SMS_157
转移至自身的次数,
Figure SMS_163
计算了由线路
Figure SMS_169
,经过
Figure SMS_156
轮马尔可夫过程,以
Figure SMS_162
作为起点,
Figure SMS_167
作为终点代谢物碎片的概率。
至此,关系图
Figure SMS_177
所有节点之间的转移概率计算完毕。
S3、以S2计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;具体为:
将关系图节点映射至向量空间,得到初始的节点嵌入表示;
对于所述关系图中所有的节点,每次选择图中一个节点作为初始点,进行
Figure SMS_178
次随机游走,节点之间游走概率即为S2计算的概率,生成长度为
Figure SMS_179
的随机游走序列
Figure SMS_180
使用生成的随机游走序列以及初始的节点嵌入表示,使用
Figure SMS_181
模型利用梯度下降的方法对初始的节点嵌入表示进行迭代更新,最终得到更新后的一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示。
S4、对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型。
训练感知器模型的损失函数为
Figure SMS_182
,公式如下:
Figure SMS_183
其中
Figure SMS_184
表示第
Figure SMS_185
个代谢物的第
Figure SMS_186
个代谢物结构标签,
Figure SMS_187
表示感知器模型对第
Figure SMS_188
个代谢物的第
Figure SMS_189
个代谢物结构的预测结果,
Figure SMS_190
表示用于训练模型的代谢物总数。
对于长度为
Figure SMS_191
的代谢物分子指纹,总共训练
Figure SMS_192
个感知器模型。具体一个示例如图3所示。
S5、使用训练完成的一系列感知器模型进行代谢物分子指纹的预测。
将待鉴定的代谢物的一级质谱数据以及二级质谱数据,按照上述方法将一级质谱数据以及二级质谱数据转换成一级质谱嵌入表示以及二级质谱嵌入表示,并使用该嵌入表示作为
Figure SMS_193
个机器学习模型(感知器模型)的输入,输出得到待预测代谢物的代谢物分子指纹。
使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹计算余弦相似度。余弦相似度计算公式如下:
Figure SMS_194
其中
Figure SMS_195
表示代谢物分子指纹长度,
Figure SMS_196
表示第
Figure SMS_197
个代谢物结构预测结果,
Figure SMS_198
表示代谢物结构数据库中代谢物分子指纹第
Figure SMS_199
个代谢物结构的结果。
Figure SMS_200
,
Figure SMS_201
为例。计算得到余弦相似度为0.43。
对于所有余弦相似度,按照从高到低排序,相似度最高的代谢物作为鉴定的代谢物。
示例的,图4展示了本发明的一种具体的基于图表示学习算法的代谢物鉴定方法的流程,其包括了上述流程步骤。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (9)

1.一种基于图表示学习算法的代谢物鉴定方法,其特征在于,包括:
S1、从预先构建的代谢物数据库中,获取代谢物的质谱数据以及代谢物分子指纹,将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图,具体为:一级质谱节点同代谢物节点构建一条边,代谢物节点同每一个代谢物结构节点构建一条边,每一个代谢物结构节点同每一个二级质谱节点构建一条边,构建得到所述关系图;
S2、完成关系图中各节点转移概率的计算;
S3、以S2计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;具体为:将关系图节点映射至向量空间,得到初始的节点嵌入表示;对于所述关系图中所有的节点,每次选择图中一个节点作为初始点,进行随机游走,节点之间游走概率即为S2计算的概率,生成随机游走序列;使用生成的随机游走序列以及初始的节点嵌入表示,使用
Figure QLYQS_1
模型利用梯度下降的方法对初始的节点嵌入表示进行迭代更新,最终得到更新后的一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;
S4、对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
S5、使用训练完成的一系列感知器模型进行代谢物分子指纹的预测;使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
2.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S1中:
将代谢物作为代谢物节点;
将代谢物分子指纹中所具有的代谢物结构的集合作为代谢物结构节点集合。
3.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S1中,对代谢物一级质谱对应的质荷比进行分箱处理,将其所属的箱体作为一级质谱节点。
4.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S1中,对代谢物二级质谱数据按质荷比进行分箱处理,使用平均值池化函数或最大值池化函数,对分到同一个箱体的质谱峰面积数据进行池化处理,并通过设定的阈值进行过滤,取阈值以上对应的箱体集合作为二级质谱节点集合。
5.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S2中:
将代谢物、代谢物结构断裂化学键的过程视为马尔可夫过程,以此构建似然函数,完成关系图中代谢物节点、代谢物结构节点转移至自身或断裂化学键后的代谢物结构节点的转移概率的计算;
采用高斯分布计算代谢物节点转移至一级质谱节点以及代谢物结构节点转移至二级质谱节点的概率。
6.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法,其特征在于,S5中,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹计算余弦相似度,选择相似度最高的代谢物作为鉴定的代谢物。
7.一种基于图表示学习算法的代谢物鉴定系统,其特征在于,包括:
预处理模块,用于从预先构建的代谢物数据库中,获取代谢物的质谱数据以及代谢物分子指纹,将质谱数据进行转换,并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图,具体为:一级质谱节点同代谢物节点构建一条边,代谢物节点同每一个代谢物结构节点构建一条边,每一个代谢物结构节点同每一个二级质谱节点构建一条边,构建得到所述关系图;
转移概率计算模块,用于完成关系图中各节点转移概率的计算;
模型训练模块,用于以所述转移概率计算模块计算的概率作为随机游走的转移概率,使用deepwalk图表示学习算法,生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示,具体为:将关系图节点映射至向量空间,得到初始的节点嵌入表示;对于所述关系图中所有的节点,每次选择图中一个节点作为初始点,进行随机游走,节点之间游走概率即为所述转移概率计算模块计算的概率,生成随机游走序列;使用生成的随机游走序列以及初始的节点嵌入表示,使用
Figure QLYQS_2
模型利用梯度下降的方法对初始的节点嵌入表示进行迭代更新,最终得到更新后的一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示;并且,对于代谢物分子指纹中的每一个代谢物结构,使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型;
代谢物鉴定模块,用于使用训练完成的一系列感知器模型进行代谢物分子指纹的预测,使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配,完成代谢物鉴定。
8.一种计算机设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,其特征在于,所述计算机程序运行时使得所述处理器执行权利要求1-6任一项所述的基于图表示学习算法的代谢物鉴定方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储程序或指令,在程序或指令被计算机设备执行的情况下,使得计算机设备执行权利要求1-6任一项所述的基于图表示学习算法的代谢物鉴定方法。
CN202310230140.7A 2023-03-07 2023-03-07 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 Active CN115938490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310230140.7A CN115938490B (zh) 2023-03-07 2023-03-07 一种基于图表示学习算法的代谢物鉴定方法、系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310230140.7A CN115938490B (zh) 2023-03-07 2023-03-07 一种基于图表示学习算法的代谢物鉴定方法、系统和设备

Publications (2)

Publication Number Publication Date
CN115938490A CN115938490A (zh) 2023-04-07
CN115938490B true CN115938490B (zh) 2023-06-06

Family

ID=85835801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310230140.7A Active CN115938490B (zh) 2023-03-07 2023-03-07 一种基于图表示学习算法的代谢物鉴定方法、系统和设备

Country Status (1)

Country Link
CN (1) CN115938490B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825198B (zh) * 2023-07-14 2024-05-10 湖南工商大学 基于图注意机制的肽序列标签鉴定方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106714556A (zh) * 2014-04-11 2017-05-24 美国控股实验室公司 用于测定自闭症谱系病症风险的方法和系统
CN107635478A (zh) * 2015-03-06 2018-01-26 英国质谱公司 通过质谱或离子迁移谱进行的组织分析
CN107729721A (zh) * 2017-10-17 2018-02-23 中国科学院上海有机化学研究所 一种代谢物鉴定及紊乱通路分析方法
CN112509702A (zh) * 2020-11-30 2021-03-16 质美(北京)生物科技有限公司 基于医疗大数据的疾病预测方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070061084A1 (en) * 2002-01-24 2007-03-15 Ecopia Biosciences, Inc. Method, system, and knowledge repository for identifying a secondary metabolite from a microorganism
US20080120041A1 (en) * 2006-11-13 2008-05-22 N.V. Organon System and method to identify the metabolites of a drug
CA3004504A1 (en) * 2015-11-06 2017-05-11 Ventana Medical Systems, Inc. Tissue homogenisation for representative diagnostics
CN112735532B (zh) * 2020-10-15 2023-08-22 华南理工大学 基于分子指纹预测的代谢物识别系统及其应用方法
US20220208540A1 (en) * 2020-12-17 2022-06-30 Carnegie Mellon University System for Identifying Structures of Molecular Compounds from Mass Spectrometry Data
CN113554176B (zh) * 2021-06-24 2023-09-05 中山大学 代谢特征谱推断方法、系统、计算机设备及存储介质
CN114923992B (zh) * 2022-03-29 2023-05-26 中国科学院上海有机化学研究所 鉴定已知和未知代谢物的分析方法、装置和设备
CN115691702A (zh) * 2022-11-15 2023-02-03 浙江中医药大学 一种化合物可视化分类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106714556A (zh) * 2014-04-11 2017-05-24 美国控股实验室公司 用于测定自闭症谱系病症风险的方法和系统
CN107635478A (zh) * 2015-03-06 2018-01-26 英国质谱公司 通过质谱或离子迁移谱进行的组织分析
CN107729721A (zh) * 2017-10-17 2018-02-23 中国科学院上海有机化学研究所 一种代谢物鉴定及紊乱通路分析方法
CN112509702A (zh) * 2020-11-30 2021-03-16 质美(北京)生物科技有限公司 基于医疗大数据的疾病预测方法及系统

Also Published As

Publication number Publication date
CN115938490A (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
JP7125544B2 (ja) 品質スコアの勾配を使用した反復的なタンパク質構造予測
US20230238081A1 (en) Artificial intelligence analysis of rna transcriptome for drug discovery
JP2021524099A (ja) 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法
CN113705772A (zh) 一种模型训练方法、装置、设备及可读存储介质
Li et al. Sparse representation approaches for the classification of high-dimensional biological data
CN109036577B (zh) 糖尿病并发症分析方法及装置
CN113744799B (zh) 一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法
Chu et al. Deep generative models for weakly-supervised multi-label classification
CN115938490B (zh) 一种基于图表示学习算法的代谢物鉴定方法、系统和设备
CN105718999B (zh) 一种启发式代谢共表达网络的构建方法及系统
CN107092812B (zh) 一种在ppi网络中基于遗传算法识别关键蛋白质的方法
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
Abd-Alsabour et al. Feature selection for classification using an ant colony system
CN111026877A (zh) 基于概率软逻辑的知识验证模型构建与分析方法
US20210231449A1 (en) Deep User Modeling by Behavior
Zhong et al. Recent advances on the semi-supervised learning for long non-coding RNA-protein interactions prediction: A review
CN115881211B (zh) 蛋白质序列比对方法、装置、计算机设备以及存储介质
CN113192562B (zh) 融合多尺度模块结构信息的致病基因识别方法及系统
CN115240782A (zh) 药物属性预测方法、装置、电子设备及存储介质
Hoksza et al. Exploration of protein sequence embeddings for protein-ligand binding site detection
Feinauer et al. Mean Dimension of Generative Models for Protein Sequences
Sicking et al. DenseHMM: Learning hidden markov models by learning dense representations
CN117976047B (zh) 基于深度学习的关键蛋白质预测方法
Zhu et al. PPSNO: A Feature-Rich SNO Sites Predictor by Stacking Ensemble Strategy from Protein Sequence-Derived Information
Chajewska et al. Knowledge propagation over conditional independence graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant