CN115938490B

CN115938490B - 一种基于图表示学习算法的代谢物鉴定方法、系统和设备

Info

Publication number: CN115938490B
Application number: CN202310230140.7A
Authority: CN
Inventors: 李劲松; 张航; 马静; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-06
Anticipated expiration: 2043-03-07
Also published as: CN115938490A

Abstract

本发明公开了一种基于图表示学习算法的代谢物鉴定方法、系统和设备。该方法包括：从代谢物数据库中获取代谢物质谱数据和代谢物分子指纹，将质谱数据进行转换，构建代谢物节点、代谢物结构节点、一级质谱节点、二级质谱节点的关系图；计算各节点转移概率作为随机游走概率，使用deepwalk图表示学习算法生成一级质谱节点、二级质谱节点和代谢物结构节点的嵌入表示；对于每一个代谢物结构，用一级质谱的嵌入表示和二级质谱的嵌入表示作为输入迭代训练一个感知器模型；使用训练完成的一系列感知器模型进行代谢物分子指纹的预测；使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配，完成代谢物鉴定。

Description

一种基于图表示学习算法的代谢物鉴定方法、系统和设备

技术领域

本发明涉及代谢组学数据分析技术领域，具体涉及一种基于图表示学习算法的代谢物鉴定方法、系统和设备。

背景技术

代谢物能够反应细胞和机体代谢的活动和状态，涉及内源性和外源性分子，是生物系统内化学反应的产物和底物。而代谢组学实验直接反映了导致这些代谢物产生的代谢网络活动，并产生了有关系统潜在生物状态的基本信息，可描述生理学和病理生理学的终点，为疾病临床生物标志物和治疗靶点的研究提供重要见解。

近年来，代谢组学已被应用于多个领域，以获得新的发现和假说的验证。非靶向代谢物组学分析，是目前代谢组学分析最为常用的方法，其能够鉴定出海量的代谢物。而代谢物的准确鉴定是非靶向代谢组分析最为关键的步骤，直接影响下游重要分析，包括代谢通路富集和潜在生物标志物发现等。

尽管现在已经开发了各种方法来提高代谢物鉴定的准确度，但仍然具有较大的挑战性。只有进行代谢物鉴定之后，才能进行下游的生物学功能研究。

公开号为CN113554176A的专利说明书公开了一种代谢特征谱推断方法，包括将目标样本数据进行LC-MS技术处理以获得LC-MS原始数据；将所述LC-MS原始数据进行降维转换处理以获得二维矩阵，所述二维矩阵保留所述LC-MS原始数据的保留时间、质荷比及离子强度；将所述二维矩阵输入卷积神经网络模型以推断出所述目标样本数据的代谢物质特征谱。对LC-MS数据而言，保留时间、质荷比是鉴定具体物质的标签。该专利技术利用深度学习技术，以计算类激活热力图的方法获取样本特征后，可以使用映射函数推断出组成样本特征的具体物质，从而进一步挖掘样本特征标志代谢物质、代谢网络模式，推断样本的代谢特征谱。

公开号为CN107729721A的专利说明书公开了一种代谢物鉴定方法，利用代谢反应网络中的具有反应关系的第一代谢物、第二代谢物之间结构类似的特点以及反应关系，使用已鉴定出来第一代谢物的二级谱图对与其有反应关系的第二代谢物进行鉴定，进一步使用已鉴定出来的第二代谢物的二级谱图对与其有反应关系的新的第二代谢物进行鉴定，该方法循环进行直到无法鉴定新的第二代谢物，从而扩大代谢物的鉴定覆盖范围。

此外，现有的代谢物鉴定还有的是通过将样本的二级质谱图与标准品数据库（例如HMDB 数据库）中已经注释的标准品的二级质谱图进行相似度计算，相似度高于一定阈值则可进行注释。这种方法除了无法鉴定到标准品数据库之外的代谢物外，还由于仅使用二级质谱信息，没有使用代谢物结构信息，仅通过质谱数据之间的相似度鉴定的代谢物，准确度有限。

发明内容

针对上述技术问题以及本领域存在的不足之处，本发明提供了一种基于图表示学习算法的代谢物鉴定方法，通过构建代谢物结构同质谱的关系图，使用deepwalk图表示算法，生成质谱节点、代谢物结构节点的嵌入表示（所述嵌入表示能够在高纬度抽象表示代谢物结构节点同质谱节点的关系信息），并使用该嵌入表示预测代谢物的指纹信息，最终，将预测的指纹信息与代谢物结构数据库中代谢物分子指纹进行匹配，从而可以鉴定出代谢物结构数据库中不具有二级质谱信息的潜在的代谢物。

具体技术方案如下：

一种基于图表示学习算法的代谢物鉴定方法，包括：

S1、从预先构建的代谢物数据库中，获取代谢物的质谱数据（包括一级质谱数据和二级质谱数据）以及代谢物分子指纹（所述代谢物分子指纹记录了代谢物的结构特征），将质谱数据进行转换，并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图；

S2、完成关系图中各节点转移概率的计算；

S3、以S2计算的概率作为随机游走的转移概率，使用deepwalk图表示学习算法，生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示；

S4、对于代谢物分子指纹中的每一个代谢物结构，使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型；

S5、使用训练完成的一系列感知器模型进行代谢物分子指纹的预测；使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配，完成代谢物鉴定。

在一实施例中，所述的基于图表示学习算法的代谢物鉴定方法，S1中：

将代谢物作为代谢物节点；

将代谢物分子指纹中所具有的代谢物结构的集合作为代谢物结构节点集合。

在一实施例中，所述的基于图表示学习算法的代谢物鉴定方法，S1中，对代谢物一级质谱对应的质荷比进行分箱处理，将其所属的箱体作为一级质谱节点。

在一实施例中，所述的基于图表示学习算法的代谢物鉴定方法，S1中，对代谢物二级质谱数据按质荷比进行分箱处理，使用平均值池化函数或最大值池化函数，对分到同一个箱体的质谱峰面积数据进行池化处理，并通过设定的阈值进行过滤，取阈值以上对应的箱体集合作为二级质谱节点集合。

在一实施例中，所述的基于图表示学习算法的代谢物鉴定方法，S1中，一级质谱节点同代谢物节点构建一条边，代谢物节点同每一个代谢物结构节点构建一条边，每一个代谢物结构节点同每一个二级质谱节点构建一条边，构建得到所述关系图。

在一实施例中，所述的基于图表示学习算法的代谢物鉴定方法，S2中，将代谢物、代谢物结构断裂化学键的过程视为马尔可夫过程，以此构建似然函数，完成关系图中代谢物节点、代谢物结构节点转移至自身或断裂化学键后的代谢物结构节点的转移概率的计算。

在一实施例中，所述的基于图表示学习算法的代谢物鉴定方法，S2中，采用高斯分布计算代谢物节点转移至一级质谱节点以及代谢物结构节点转移至二级质谱节点的概率。

在一实施例中，所述的基于图表示学习算法的代谢物鉴定方法，S2中，代谢物结构节点转移至代谢物节点的概率为

，其中

为同该代谢物结构节点相连的代谢物节点个数。

在一实施例中，所述的基于图表示学习算法的代谢物鉴定方法，S2中，二级质谱节点转移至代谢物结构节点或自身的概率为

，其中

为同该二级质谱节点相连的代谢物结构节点个数。

在一实施例中，所述的基于图表示学习算法的代谢物鉴定方法，S2中，一级质谱节点转移至代谢物节点或自身的概率为

，其中

为同该一级质谱节点相连的代谢物节点个数。

在一实施例中，所述的基于图表示学习算法的代谢物鉴定方法，S3具体为：

将关系图节点映射至向量空间，得到初始的节点嵌入表示；

对于所述关系图中所有的节点，每次选择图中一个节点作为初始点，进行随机游走，节点之间游走概率即为S2计算的概率，生成随机游走序列；

使用生成的随机游走序列以及初始的节点嵌入表示，使用

模型利用梯度下降的方法对初始的节点嵌入表示进行迭代更新，最终得到更新后的一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示。

在一实施例中，所述的基于图表示学习算法的代谢物鉴定方法，S5中，使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹计算余弦相似度，选择相似度最高的代谢物作为鉴定的代谢物。

本发明还提供了一种基于人工智能的代谢物鉴定系统，具体讲是一种基于图表示学习算法的代谢物鉴定系统，其中各模块关系如图1所示，具体的，该系统包括：

预处理模块，用于从预先构建的代谢物数据库中，获取代谢物的质谱数据（包括一级质谱数据和二级质谱数据）以及代谢物分子指纹，将质谱数据进行转换，并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图；

转移概率计算模块，用于完成关系图中各节点转移概率的计算；

模型训练模块，用于以所述转移概率计算模块计算的概率作为随机游走的转移概率，使用deepwalk图表示学习算法，生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示，并且，对于代谢物分子指纹中的每一个代谢物结构，使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型；

代谢物鉴定模块，用于使用训练完成的一系列感知器模型进行代谢物分子指纹的预测，使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹进行匹配，完成代谢物鉴定。

上述各模块在执行过程中所用到的具体手段可参照上述基于图表示学习算法的代谢物鉴定方法中的一些具体限定。

作为一个总的发明构思，本发明又提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行所述的基于图表示学习算法的代谢物鉴定方法。

本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储程序或指令，在程序或指令被计算机设备执行的情况下，使得计算机设备执行所述的基于图表示学习算法的代谢物鉴定方法。

本发明还提供了一种计算机程序产品，包括计算机程序，在计算机程序被计算机设备执行的情况下，使得计算机设备执行所述的基于图表示学习算法的代谢物鉴定方法。

本发明的创新点有：

1）将代谢物断裂化学键的过程视为马尔可夫过程，以此构建似然函数，并完成关系图节点之间转移概率的计算。

2）使用代谢物分子指纹以及质谱数据构建代谢物结构同质谱的关系图，并使用图表示算法deepwalk，将节点转换成嵌入表示。

3）使用节点嵌入表示对代谢物的指纹信息进行预测，并使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物进行比对，从而完成代谢物的鉴定。

本发明与现有技术相比，有益效果有：

（1）同时利用代谢物结构信息以及质谱数据进行代谢物的鉴定，提升鉴定的准确率。

（2）利用代谢物分子指纹对代谢物结构数据库的代谢物进行匹配，能够鉴定出标准品数据库以外的潜在代谢物。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于图表示学习算法的代谢物鉴定系统中的模块关系图。

图2为代谢物断裂化学键的过程示意图。

图3为实施例模型训练模块的模型结构示意图。

图4为本发明的一种基于图表示学习算法的代谢物鉴定方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

如图1所示，本实施例采用的基于图表示学习算法的代谢物鉴定系统包括：

本实施例使用上述系统进行基于图表示学习算法的代谢物鉴定，具体方法包括：

S1、从预先构建的代谢物数据库中，获取代谢物的质谱数据（包括一级质谱数据和二级质谱数据）以及代谢物分子指纹。所述代谢物分子指纹记录了代谢物的结构特征。一级质谱数据以及二级质谱数据可以来自实验室采集以及公开数据集。代谢物分子指纹可来自公开数据库，例如PubChem数据库。

利用预处理模块将质谱数据进行转换，完成质谱数据特征构建，并构建代谢物节点、代谢物结构节点同一级质谱节点以及二级质谱节点的关系图。

将代谢物作为代谢物节点。将代谢物分子指纹中所具有的代谢物结构的集合作为代谢物结构节点集合。

对于已知代谢物j（下文或称之为第j个代谢物）有代谢物分子指纹

，当代谢物j具有第z个代谢物结构，

，否则

。其中Z表示代谢物分子指纹长度。示例的，代谢物

，

作为代谢物节点，其具有代谢物分子指纹

。取代谢物分子指纹中值为1的代谢物结构，得到代谢物结构节点集合

。

对代谢物一级质谱对应的质荷比进行分箱处理，将其所属的箱体作为一级质谱节点。

对于已知代谢物j，一级质谱的质荷比记为

，将其划分至箱体

=

中，其中

表示所有代谢物的一级质谱以及二级质谱数据中的最小质荷比，

表示质荷比的间隔，并将

作为一级质谱节点。示例的，代谢物

，具有一级质谱对应的质荷比178，将代谢物一级质谱对应的质荷比进行分箱处理，最小质荷比

为91，最大质荷比

为178，间隔

为10，得到一级质谱节点

。

对代谢物二级质谱数据进行分箱处理，使用平均值池化函数或最大值池化函数，对分到同一个箱体的质谱峰面积数据进行池化处理，并通过设定的阈值进行过滤，取阈值以上对应的箱体集合作为二级质谱节点集合。

对于已知代谢物j，二级质谱数据

，其中

表示二级质谱各峰对应的质荷比，

表示二级质谱各峰的峰面积，

表示代谢物j的二级质谱的总质谱峰个数。

对二级质谱数据

每隔

质荷比间隔进行分箱构建特征。对于

到

一共可以得到总共

个箱体，其中

表示所有代谢物的一级质谱以及二级质谱数据中的最大质荷比。

将二级质谱数据

中每个质荷比-质谱峰面积键值对

（其中

表示质荷比，

表示质谱峰面积），按照以下公式划分到对应的第

个箱体

中：

。箱体

，其中

表示箱体

中含有的质荷比-质谱峰面积键值对的总个数。

使用平均值池化函数或最大值池化函数对第

个箱体

进行池化操作，得到该箱体对应的特征

，其中，平均值池化公式：

，

，最大值池化公式：

。

最后，按照以下公式将池化后的

组成的特征矩阵进行转换，其中j表示第j个代谢物，

表示特征构建之后的第

个箱体，

表示可人为设定的过滤阈值，转换后的特征矩阵记为

，由

组成：

。

箱体

所表示的质荷比

，

。

对于

值为1的所有箱体对应的质荷比构成集合

。

对于已知代谢物j，其二级质谱特征

，其中

表示分箱操作得到的箱体总个数，取二级质谱特征

中值

为1的箱体作为二级质谱节点，这些值为1的箱体的集合即为代谢物j二级质谱节点集合

。

示例的，代谢物

，二级质谱数据

，对二级质谱数据进行分箱处理，质荷比间隔

为10，最小质荷比

为91，最大质荷比

为178，总共得到9个箱体，并使用平均值池化函数，对分到同一个箱体的质谱峰面积数据进行池化处理，得到向量

。以阈值25为例，将池化后的向量转换成向量

，取该向量中值为1的箱体对应的编号集合

，将得到的编号集合

作为代谢物二级质谱节点集合。

构建代谢物节点、代谢物结构节点同一级质谱节点以及二级质谱节点的关系图，具体为：一级质谱节点同代谢物节点构建一条边，代谢物节点同代谢物结构节点集合中

中的每一个代谢物结构节点构建一条边，代谢物结构节点集合

中的每一个代谢物结构节点同二级质谱节点集合

的每一个二级质谱节点构建一条边，构建得到所述关系图。

示例的，代谢物

，一级质谱节点同代谢物

连接一条边，代谢物

同代谢物结构节点集合

中的每一个代谢物结构节点同二级质谱节点集合

的每一个二级质谱节点构建一条边。构建得到质谱数据同代谢物结构的关系图。以上述数据为例，得到关系图

。

S2、利用转移概率计算模块完成关系图中各节点转移概率的计算。将代谢物断裂化学键的过程视为马尔可夫过程，以此构建似然函数，完成关系图中各节点转移概率的计算。

代谢物断裂化学键的过程如图2所示，假定每次断裂仅断裂一个化学键，并假定断裂后的代谢物碎片仅由断裂前的代谢物碎片决定，即将该过程视为一个马尔可夫过程。

具体的，关系图中各节点转移概率可分别按照以下方法计算：

1）由任一代谢物结构节点转移至代谢物节点的概率为

，其中

为同该代谢物结构节点相连的代谢物节点个数。

2）由任一二级质谱节点转移至代谢物结构节点或自身的概率为

，其中

为同该二级质谱节点相连的代谢物结构节点个数。

3）由任一一级质谱节点转移至代谢物节点或自身的概率为

，其中

为同该一级质谱节点相连的代谢物节点个数。

4）通过下式（1）计算任一代谢物节点或代谢物结构节点

转移至自身的概率

：

（1）

其中：

表示

的长度，

为代谢物或代谢物结构

经过打碎至多一个化学键产生的代谢物碎片

所构成的集合，

=1,2…,

，

为代谢物或代谢物结构

断裂至多一个化学键变为代谢物碎片

所需要的化学键能。

由于化学键能难以获取，本实施例利用断裂特征向量使用线性函数来拟合化学键能，公式如下：

（2）

其中：

为代谢物或代谢物结构

断裂化学键得到代谢物碎片

的化学键断裂特征向量，其记录了断裂的化学键两端的原子或者化学基团信息，例如对于O-H化学键，特征向量中O原子以及H原子对应的值为1；

为参数，可通过使用

算法对代谢物的二级质谱数据

的似然函数进行参数优化得到，所述似然函数如下：

其中：

,

,…,

分别代表代谢物

或代谢物结构

,…,

经过打碎至多一个化学键产生的代谢物碎片所构成的集合，

代表经过马尔可夫过程的轮数，

代表代谢物或代谢物结构

断裂至多一个化学键变为代谢物碎片

的转移概率，若

，按式（1）计算，若

，按下式（3）计算：

（3）

其中：

表示

的长度，

为代谢物或代谢物结构

经过打碎至多一个化学键产生的代谢物碎片

所构成的集合，

=1,2…,

，

为代谢物或代谢物结构

断裂至多一个化学键变为代谢物碎片

所需要的化学键能，按式（2）计算；

代表代谢物碎片

在质荷比

处出现质谱峰的概率，采用高斯分布计算，具体公式如下式（4）所示：

（4）

其中

表示代谢物碎片

的质荷比，

表示高斯分布的标准差，作为超参数由人为设定，通常设为1。

5）代谢物节点转移至一级质谱节点以及代谢物结构节点转移至二级质谱节点的概率按式（4）计算。

6）通过下式计算代谢物节点

转移至代谢物结构节点

的概率

：

其中

表示以代谢物

作为起点，

作为代谢物结构终点的所有路线集合，

，表示

中的一个路线，其中

表示该路线的起始节点，为

，

表示该路线的终点节点，为

，

表示路线

的长度，

表示终点节点

转移至自身的概率，按式（1）计算，

表示路线

上的节点

断裂一个化学键转移至节点

的概率，按式（3）计算，

表示终点节点

转移至自身的次数，

表示节点

转移至自身的次数，

计算了由线路

，经过

轮马尔可夫过程，以

作为起点，

作为终点代谢物碎片的概率。

至此，关系图

所有节点之间的转移概率计算完毕。

S3、以S2计算的概率作为随机游走的转移概率，使用deepwalk图表示学习算法，生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示；具体为：

将关系图节点映射至向量空间，得到初始的节点嵌入表示；

对于所述关系图中所有的节点，每次选择图中一个节点作为初始点，进行

次随机游走，节点之间游走概率即为S2计算的概率，生成长度为

的随机游走序列

；

使用生成的随机游走序列以及初始的节点嵌入表示，使用

S4、对于代谢物分子指纹中的每一个代谢物结构，使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型。

训练感知器模型的损失函数为

，公式如下：

其中

表示第

个代谢物的第

个代谢物结构标签，

表示感知器模型对第

个代谢物的第

个代谢物结构的预测结果，

表示用于训练模型的代谢物总数。

对于长度为

的代谢物分子指纹，总共训练

个感知器模型。具体一个示例如图3所示。

S5、使用训练完成的一系列感知器模型进行代谢物分子指纹的预测。

将待鉴定的代谢物的一级质谱数据以及二级质谱数据，按照上述方法将一级质谱数据以及二级质谱数据转换成一级质谱嵌入表示以及二级质谱嵌入表示，并使用该嵌入表示作为

个机器学习模型（感知器模型）的输入，输出得到待预测代谢物的代谢物分子指纹。

使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹计算余弦相似度。余弦相似度计算公式如下：

其中

表示代谢物分子指纹长度，

表示第

个代谢物结构预测结果，

表示代谢物结构数据库中代谢物分子指纹第

个代谢物结构的结果。

以

,

为例。计算得到余弦相似度为0.43。

对于所有余弦相似度，按照从高到低排序，相似度最高的代谢物作为鉴定的代谢物。

示例的，图4展示了本发明的一种具体的基于图表示学习算法的代谢物鉴定方法的流程，其包括了上述流程步骤。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于图表示学习算法的代谢物鉴定方法，其特征在于，包括：

S1、从预先构建的代谢物数据库中，获取代谢物的质谱数据以及代谢物分子指纹，将质谱数据进行转换，并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图，具体为：一级质谱节点同代谢物节点构建一条边，代谢物节点同每一个代谢物结构节点构建一条边，每一个代谢物结构节点同每一个二级质谱节点构建一条边，构建得到所述关系图；

S2、完成关系图中各节点转移概率的计算；

S3、以S2计算的概率作为随机游走的转移概率，使用deepwalk图表示学习算法，生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示；具体为：将关系图节点映射至向量空间，得到初始的节点嵌入表示；对于所述关系图中所有的节点，每次选择图中一个节点作为初始点，进行随机游走，节点之间游走概率即为S2计算的概率，生成随机游走序列；使用生成的随机游走序列以及初始的节点嵌入表示，使用

模型利用梯度下降的方法对初始的节点嵌入表示进行迭代更新，最终得到更新后的一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示；

2.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法，其特征在于，S1中：

将代谢物作为代谢物节点；

3.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法，其特征在于，S1中，对代谢物一级质谱对应的质荷比进行分箱处理，将其所属的箱体作为一级质谱节点。

4.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法，其特征在于，S1中，对代谢物二级质谱数据按质荷比进行分箱处理，使用平均值池化函数或最大值池化函数，对分到同一个箱体的质谱峰面积数据进行池化处理，并通过设定的阈值进行过滤，取阈值以上对应的箱体集合作为二级质谱节点集合。

5.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法，其特征在于，S2中：

将代谢物、代谢物结构断裂化学键的过程视为马尔可夫过程，以此构建似然函数，完成关系图中代谢物节点、代谢物结构节点转移至自身或断裂化学键后的代谢物结构节点的转移概率的计算；

采用高斯分布计算代谢物节点转移至一级质谱节点以及代谢物结构节点转移至二级质谱节点的概率。

6.根据权利要求1所述的基于图表示学习算法的代谢物鉴定方法，其特征在于，S5中，使用预测的代谢物分子指纹同代谢物结构数据库中的代谢物分子指纹计算余弦相似度，选择相似度最高的代谢物作为鉴定的代谢物。

7.一种基于图表示学习算法的代谢物鉴定系统，其特征在于，包括：

预处理模块，用于从预先构建的代谢物数据库中，获取代谢物的质谱数据以及代谢物分子指纹，将质谱数据进行转换，并构建代谢物节点、代谢物结构节点、一级质谱节点以及二级质谱节点的关系图，具体为：一级质谱节点同代谢物节点构建一条边，代谢物节点同每一个代谢物结构节点构建一条边，每一个代谢物结构节点同每一个二级质谱节点构建一条边，构建得到所述关系图；

模型训练模块，用于以所述转移概率计算模块计算的概率作为随机游走的转移概率，使用deepwalk图表示学习算法，生成一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示，具体为：将关系图节点映射至向量空间，得到初始的节点嵌入表示；对于所述关系图中所有的节点，每次选择图中一个节点作为初始点，进行随机游走，节点之间游走概率即为所述转移概率计算模块计算的概率，生成随机游走序列；使用生成的随机游走序列以及初始的节点嵌入表示，使用

模型利用梯度下降的方法对初始的节点嵌入表示进行迭代更新，最终得到更新后的一级质谱节点、二级质谱节点以及代谢物结构节点的嵌入表示；并且，对于代谢物分子指纹中的每一个代谢物结构，使用一级质谱的嵌入表示以及二级质谱的嵌入表示作为输入迭代训练一个感知器模型；

8.一种计算机设备，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，其特征在于，所述计算机程序运行时使得所述处理器执行权利要求1-6任一项所述的基于图表示学习算法的代谢物鉴定方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储程序或指令，在程序或指令被计算机设备执行的情况下，使得计算机设备执行权利要求1-6任一项所述的基于图表示学习算法的代谢物鉴定方法。