CN111710363B

CN111710363B - 确定代谢物配对关系的方法及装置

Info

Publication number: CN111710363B
Application number: CN202010566826.XA
Authority: CN
Inventors: 谢桂纲; 甘俊蔼; 任彦菲; 任建洪
Original assignee: Suzhou Bionovogene Biomedical Technology Co ltd
Current assignee: Suzhou Bionovogene Biomedical Technology Co ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2023-08-01
Anticipated expiration: 2040-06-19
Also published as: CN111710363A

Abstract

本公开涉及一种确定代谢物配对关系的方法及装置。所述方法包括从预先构建的代谢物数据库中，获取第一代谢物对应的第一特征向量和第二代谢物对应的第二特征向量；根据所述第一特征向量和所述第二特征向量，确定所述第一代谢物和所述第二代谢物的相似度向量；在所述相似度向量满足预设的代谢物配对关系构成条件时，确定所述第一代谢物和所述第二代谢物构成配对关系。通过上述方法可以从代谢物数据库未构成配对关系的代谢物中确定能够构成配对关系的代谢物，增加了代谢物数据库中配对代谢物的数量，克服了现有数据库中化合物配对数量有限导致小分子代谢物鉴定结果数量较少的问题。

Description

确定代谢物配对关系的方法及装置

技术领域

本公开涉及代谢组学技术领域，尤其涉及一种确定代谢物配对关系的方法及装置。

背景技术

目前在生物代谢领域，对样本数据内的小分子代谢物进行鉴定分析具有十分重要的作用。通过对代谢物进行鉴定，才能对下游的生物学的功能进行分析，例如代谢途径的功能富集程度分析等。

现有的代谢物鉴定分析途径主要包括：第一，基于标准品数据库的DDA(datadependent analysis，数据依赖分析)鉴定方法，将样本数据中未知特征的二级质谱图与标准品数据库中已经注释的标准品的二级质谱图进行相似度计算，若相似度大于一定阈值，则可以实现代谢物分子注释；第二，无需依赖标准品数据库的DIA(data independentanalysis)鉴定方法，通过代谢物的结构特性进行代谢物分子注释。

其中，第一种鉴定分析途径需要花费较高的费用购买标准品，并且只能鉴定出现有已经分离纯化的代谢物；而第二种鉴定分析途径中的代谢物的结构特性数据来源于人工定义的代谢反应定义，只能基于已有的代谢反应推断出数量有限的化合物。

发明内容

有鉴于此，本公开提出了一种确定代谢物配对关系的方法，用于解决现有数据库中化合物配对数量有限导致小分子代谢物鉴定结果数量较少的问题。

根据本公开的一方面，提供了一种确定代谢物配对关系的方法，包括：

从预先构建的代谢物数据库中，获取第一代谢物对应的第一特征向量和第二代谢物对应的第二特征向量，其中，所述代谢物数据库包括多对已配对的代谢物，所述已配对的代谢物之间具有直接的反应关系，所述第一代谢物和所述第二代谢物包括所述代谢物数据库中未构成配对关系的代谢物，所述第一代谢物和所述第二代谢物包括多个原子基团；

根据所述第一特征向量和所述第二特征向量，确定所述第一代谢物和所述第二代谢物的相似度向量，其中，所述相似度向量表示所述第一代谢物和所述第二代谢物中相同类型的原子基团之间的相似程度；

在所述相似度向量满足预设的代谢物配对关系构成条件时，确定所述第一代谢物和所述第二代谢物构成配对关系。

在一种可能的实现方式中，从预先构建的代谢物数据库中，获取第一代谢物对应的第一特征向量和第二代谢物对应的第二特征向量，包括：

基于所述第一代谢物的分子结构和所述第二代谢物的分子结构，将所述第一代谢物转换为第一节点图，将所述第二代谢物转换为第二节点图，其中，所述第一节点图和所述第二节点图包括节点和由节点连接形成的边，所述节点表示所述代谢物的原子基团；

根据所述第一节点图获取所述第一代谢物对应的第一特征向量，根据所述第二节点图获取所述第二代谢物对应的第二特征向量，其中，所述第一特征向量表示所述第一节点图中的原子基团之间的连接关系，所述第二特征向量表示所述第二节点图中的原子基团之间的连接关系。

在一种可能的实现方式中，根据所述第一特征向量和所述第二特征向量，确定所述第一代谢物和所述第二代谢物的相似度向量，包括：

根据所述第一特征向量和所述第二特征向量，确定所述第一代谢物和所述第二代谢物中相同类型的原子基团之间的余弦相似度；

根据多个所述余弦相似度，确定所述第一代谢物和所述第二代谢物的相似度向量。

在一种可能的实现方式中，在所述相似度向量满足预设的代谢物配对关系构成条件时，确定所述第一代谢物和所述第二代谢物构成配对关系，包括：

根据所述相似度向量以及预设的判别模型，获取配对关系分类结果向量，其中，所述配对关系分类结果向量表示所述第一代谢物和第二代谢物所属的预设分类类别；

在所述配对关系分类结果向量的多个元素中，存在至少一个大于或者等于预设阈值的元素时，确定所述第一代谢物和所述第二代谢物构成配对关系。

在一种可能的实现方式中，所述方法还包括：

根据由所述第一代谢物和所述第二代谢物构成的配对代谢物更新所述代谢物数据库，生成模型训练数据库；

基于所述模型训练库训练判别模型，所述判别模型用于判别待处理的第三代谢物和第四代谢物是否构成配对关系。

根据本公开的另一方面，提供了一种确定代谢物配对关系的装置，包括：

特征向量获取模块，用于从预先构建的代谢物数据库中，获取第一代谢物对应的第一特征向量和第二代谢物对应的第二特征向量，其中，所述代谢物数据库包括多对已配对的代谢物，所述已配对的代谢物之间具有直接的反应关系，所述第一代谢物和所述第二代谢物包括所述代谢物数据库中未构成配对关系的代谢物，所述第一代谢物和所述第二代谢物包括多个原子基团；

相似度向量确定模块，用于根据所述第一特征向量和所述第二特征向量，确定所述第一代谢物和所述第二代谢物的相似度向量，其中，所述相似度向量表示所述第一代谢物和所述第二代谢物中相同类型的原子基团之间的相似程度；

配对关系确定模块，用于在所述相似度向量满足预设的代谢物配对关系构成条件时，确定所述第一代谢物和所述第二代谢物构成配对关系。

在一种可能的实现方式中，所述特征向量获取模块用于：

在一种可能的实现方式中，所述相似度向量确定模块用于：

在一种可能的实现方式中，所述配对关系确定模块用于：

在一种可能的实现方式中，所述装置还包括模型训练模块，所述模型训练模块用于：

根据本公开的实施例，可以从代谢物数据库未构成配对关系的代谢物中确定能够构成配对关系的代谢物，增加了代谢物数据库中配对代谢物的数量，克服了现有数据库中化合物配对数量有限导致小分子代谢物鉴定结果数量较少的问题。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开实施例的确定代谢物配对关系的方法的流程示意图。

图2a示出第一代谢物对应节点图的结构示意图。

图2b示出第二代谢物对应节点图的结构示意图。

图3示出根据原子基团确定代谢物余弦相似度的结构示意图。

图4示出根据本公开实施例的确定代谢物配对关系的装置的结构示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

代谢组学主要是通过解析体内小分子的含量和种类的变化来研究生命系统的生理和病理状态。其中，代谢组学的分析技术主要以质谱(Mass Spectrometry，MS)为核心。基于质谱的代谢组学，关键内容在于对代谢物的结构进行鉴定(或者称为注释)，以及如何从质谱数据中获取有效的生物学信息，其中，常用的技术手段为使用代谢物标准二级质谱图数据库进行代谢物鉴定。

然而现有的代谢物鉴定方法需要大量的代谢物标准品采集标准二级质谱图，但是标准品的购买以及标准质谱图库的建立十分耗时耗力，并且部分代谢物的标准品并不能通过商业购买得到。另外，不同质谱平台采集的二级质谱图并不完全一致，为了精确的鉴定代谢物，每个用户需要在自己的实验室质谱平台上采集标准品的二级质谱图，建立标准品二级质谱图数据库，可是通过实验方法建立标准品二级质谱图数据库十分困难并且数目也十分有限。

为克服上述问题，本公开实施例提出了一种确定代谢物配对关系的方法，可以从代谢物数据库未构成配对关系的代谢物中确定能够构成配对关系的代谢物，增加代谢物数据库中配对代谢物的数量，克服现有数据库中化合物配对数量有限导致小分子代谢物鉴定结果数量较少的问题。

图1示出根据本公开实施例的确定代谢物配对关系的方法的流程示意图。如图1所示，所述方法包括：

步骤S101，从预先构建的代谢物数据库中，获取第一代谢物对应的第一特征向量和第二代谢物对应的第二特征向量；

步骤S102，根据所述第一特征向量和所述第二特征向量，确定所述第一代谢物和所述第二代谢物的相似度向量；

步骤S103，在所述相似度向量满足预设的代谢物配对关系构成条件时，确定所述第一代谢物和所述第二代谢物构成配对关系。

在一种可能的实现方式中，所述代谢物数据库包括多对已配对的代谢物，所述已配对的代谢物之间具有直接的反应关系，所述第一代谢物和所述第二代谢物包括所述代谢物数据库中未构成配对关系的代谢物，所述第一代谢物和所述第二代谢物包括多个原子基团。

在一种可能的实现方式中，所述相似度向量表示所述第一代谢物和所述第二代谢物中相同类型的原子基团之间的相似程度。

示例性地，预先构建的代谢物数据库可以来自于实验室采集、开源数据库商业购买数据库中的一种或者多种，代谢物数据库可以包括二级谱图数据库，可选地，代谢物数据库可以包括KEGG(Kyoto Encyclopedia of Genes and Genomes，京都基因与基因组百科全书)数据库、PUBCHEM(有机小分子生物活性数据)数据库中的一种或者多种。

需要说明的是，预先构建的代谢物数据库可以包括多对已配对的代谢物，还可以包括多个未构成配对关系的代谢物。其中，已配对的代谢物之间具有直接的反应关系。

示例性地，以代谢物A和代谢物B为例，若A和B是具有直接反应关系的代谢物，且代谢物A是代谢物B的上游代谢物，代谢物B是代谢物A的下游代谢物，则代谢物A的分子结构在经过反应转变为代谢物B后，代谢物A和代谢物B的分子结构较为相似，代谢物A的二级质谱碎片很可能与代谢物B的二级质谱碎片相似，则可以通过代谢物A的二级质谱碎片从代谢物数据库中注释出代谢物B。

因此，若两个代谢物构成配对关系，则可以通过其中一个代谢物的二级质谱碎片，根据二级质谱碎片相似度注释另一个代谢物的二级质谱碎片，可以无需同时建立获取两个代谢物的标准品数据库的数据，降低了代谢物二级质谱碎片进行物质注释的成本和时间。

图2a示例性地示出了第一代谢物对应节点图的结构示意图，图2b示例性地示出了第二代谢物对应节点图的结构示意图。如图2a和图2b所示，节点图中的节点可以表示代谢物中的原子基团，两个节点之间的连线可以表示两个节点对应的原子基团具有连接关系。需要说明的是，本公开实施例虽然以图2a和图2b分别示例性地给出了第一代谢物和第二代谢物对应节点图的结构示意图，但是本公开实施例对代谢物的结构、代谢物所包括的原子基团的数量以及类型均不作限制。

示例性地，图2a和图2b中不同形状的图形可以表示不同类型的原子基团，例如，图2a和图2b中三角形、圆形和长方形可以分别表示代谢物中不同类型的原子基团。需要说明的是，不同形状的图形只是示例性地表示不同类型的原子基团，并非是对原子基团结构和类型的限制。

在一种可能的实现方式中，步骤S101，从预先构建的代谢物数据库中，获取第一代谢物对应的第一特征向量和第二代谢物对应的第二特征向量，包括：

基于代谢物的分子结构，将代谢物转换为对应的节点图，并且根据节点图确定代谢物对应的特征向量，可以减少确定代谢物配对关系所需的计算量，并且根据代谢物的分子结构可以准确地确定代谢物之间是否构成配对关系。

结合图2a和图2b，可以根据代谢物包含的原子基团以及原子基团之间的连接关系，确定代谢物对应的向量。

示例性地，以图2b为第二代谢物为例，第二代谢物可以包括三种类型的原子基团，分别为三角形原子基团、圆形原子基团和长方形原子基团，长方形原子基团的数量为两个。

其中，三角形原子基团分别与圆形原子基团和长方形原子基团连接，并且三角形原子基团连接了两个长方形原子基团，则三角形原子基团对应的第一向量可以表示为(2,1)，同理，圆形原子基团对应的第一向量可以表示为(1,1)，两个长方形原子基团对应的第一向量可以分别表示为(1,0)和(1,1)。同理，根据第一节点图获取第一代谢物对应的三角形原子基团对应的第二向量为(1,1)，圆形原子基团对应的第二向量为(1,1)，以及长方形原子基团对应的第二向量为(1,1)。

在一种可能的实现方式中，步骤S102，根据所述第一特征向量和所述第二特征向量，确定所述第一代谢物和所述第二代谢物的相似度向量，包括：

示例性地，以三角形原子基团对应的第一特征向量为(1,1)、第二特征向量为(2,1)为例，可以根据第一特征向量和第二特征向量，确定第一代谢物和第二代谢物中相同类型的原子基团之间的余弦相似度。以三角形原子基团为例，可以通过如下公式(1)所示的方法，计算第一代谢物和第二代谢物中三角形原子基团之间的余弦相似度：

公式(1)：

其中，Δ₁表示第一代谢物的三角形原子基团，Δ₂表示第二代谢物的三角形原子基团，x表示第一代谢物的三角形原子基团对应的向量，y表示第二代谢物的三角形原子基团对应的向量。

图3示例性地示出了根据原子基团确定代谢物余弦相似度的结构示意图。图3左侧可以表示第一代谢物的长方形原子基团与另外两个原子基团具有连接关系，图3右侧可以表示第二代谢物的两个长方形原子基团分别与另外两个原子基团具有连接关系。结合图2a和图2b，以第一代谢物和第二代谢物的长方形原子基团为例，第一代谢物的长方形原子基团对应的向量可以表示为x＝[1,1]，第二代谢物的第一长方形原子基团对应的向量y₁＝[1,0]、第二代谢物的第二长方形原子基团对应的向量y₂＝[1,1]。

通过上述公式(1)可以确定第一代谢物的长方形原子基团与第二代谢物的第一长方形原子基团的余弦相似度cos(x,y₁)＝0.7071，第一代谢物的长方形原子基团与第二代谢物的第二长方形原子基团的余弦相似度cos(x,y₂)＝1.0000。可以将第二代谢物的两个长方形原子基团对应的余弦相似度求平均值，将其结果作为第一代谢物的长方形原子基团与第二代谢物的长方形原子基团的余弦相似度。通过分别计算第一代谢物和第二代谢物中相同类型的原子基团之间的余弦相似度，可以根据多个余弦相似度确定第一代谢物和第二代谢物的相似度向量。

需要说明的是，可以根据代谢物包含的原子基团，按照固定的顺序确定第一代谢物和第二代谢物中相同类型的原子基团之间的余弦相似度。示例性地，以第一代谢物和第二代谢物包括三种类型的原子基团，分别为三角形原子基团、圆形原子基团和长方形原子基团为例，可以按照先计算第一代谢物和第二代谢物中三角形原子基团之间的余弦相似度、再计算圆形原子基团之间的余弦相似度，最后计算长方形原子基团的余弦相似度的方式，确定第一代谢物和第二代谢物的相似度向量。

在一种可能的实现方式中，步骤S103，在所述相似度向量满足预设的代谢物配对关系构成条件时，确定所述第一代谢物和所述第二代谢物构成配对关系，包括：

示例性地，可以通过多对已经构成配对关系的代谢物，确定多对构成配对关系的代谢物的相似度向量，将多对构成配对关系的代谢物的相似度向量作为训练集，训练用于判断代谢物是否构成配对关系的判别模型。将相似度向量输入判别模型后，能够得到与之对应的配对关系分类结果向量，若配对关系分类结果向量的多个元素中，存在至少一个大于或者等于预设阈值的元素时，则可以确定相应的代谢物之间构成配对关系。

示例性地，相似度向量可以包括多个元素，以第一特征向量为{(1,1),(1,1),(1,1)}、第二特征向量为{(2,1),(1,1),[(1,1),(1,0)]}为例，相似度向量可以为(0.9486833,1,(1+0.7071068)/2)。

示例性地，可以设定预设阈值的值为1，若配对关系分类结果向量中存在至少一个大于或者等于预设阈值的元素时，则可以确定第一代谢物和第二代谢物构成配对关系。

通过分别计算第一代谢物和第二代谢物中相同类型的原子基团之间的余弦相似度，可以有效地提高判断第一代谢物和第二代谢物是否构成配对关系的准确度。

在一种可能的实现方式中，配对关系可以分为多个类别，以配对关系分为7个类别为例，7个类别可以分别是：氧化还原反应(Oxidoreductase reactions)、基因转移反应(Transferase reactions)、水解反应(Hydrolase reactions)、裂解反应(Lyasereactions)、异构反应(Isomerase reactions)、联结反应(Ligase reactions)、转位反应(Translocase reactions)。其中，每个类别可以分别用对应的向量表示，示例性地，上述7个类别对应的向量可以分别表示为：(1000000)、(0100000)、(0010000)、(0001000)、(0000100)、(0000010)、(0000001)。

示例性地，以相似度向量为长度为7个元素的向量为例，可以根据相似度向量以及预设的判别模型，获取配对关系结果向量，其中，配对关系分类结果向量表示所述第一代谢物和第二代谢物所属的预设分类类别，若配对关系分类结果向量中存在至少一个为1的元素，则可以确定相似度向量对应的第一代谢物和第二代谢物构成配对关系；相应地，若配对关系分类结果向量中不存在为1的元素，则可以确定第一代谢物和第二代谢物不构成配对关系；若配对关系分类结果向量中存在多个为1的元素，则可以确定配对关系分类结果向量对应的第一代谢物和第二代谢物构成配对关系并且可以属于多个配对关系类别。

在一种可能的实现方式中，本公开实施例的确定代谢物配对关系的方法还可以包括：

示例性地，以第一代谢物为a，第二代谢物为b，第一代谢物和第二代谢物的相似度向量为[0.9486,0.8535,……,1.0000]为例，基于第一代谢物和第二代谢物的相似度向量以及预设的判别模型，可以获取配对关系分类结果向量。示例性地，配对关系分类结果向量可以表示为(1000001)；通过相同的方法可以依次计算出代谢数据库中已存在的配对关系，并用以更新代谢物数据库，生成模型训练库，训练判别模型。可以理解的是，本公开实施例的判别模型可以是基于机器学习、人工智能构建的神经网络模型。

示例性地，可以根据由第一代谢物和第二代谢物构成的配对代谢物更新代谢物数据库。例如，代谢物数据库中原先包含6000对构成配对关系的代谢物，通过第一代谢物和第二代谢物构成的配对代谢物更新代谢物数据库所生成的模拟训练数据库中，可以包含远多于代谢物数据库中所包含的构成配对关系的代谢物的数量，例如8000对构成配对关系的代谢物。

需要说明的是，本公开实施例代谢物数据库中所包含构成配对关系的代谢物的数量只是示例性说明，本公开实施例对代谢物数据库中所包含构成配对关系的代谢物的数量不作限制。

基于模型训练数据库，可以训练判别模型，其中，判别模型用于判别待处理的第三代谢物和第四代谢物是否构成配对关系，判别模型可以是基于机器学习构建的模型。

通过模型训练库训练判别模型，有助于提高判别模型判别两种代谢物是否构成配对关系的准确率。

图4示出根据本公开实施例的确定代谢物配对关系的装置的结构示意图。如图4所示，所述装置包括：

特征向量获取模块41，用于从预先构建的代谢物数据库中，获取第一代谢物对应的第一特征向量和第二代谢物对应的第二特征向量，其中，所述代谢物数据库包括多对已配对的代谢物，所述已配对的代谢物之间具有直接的反应关系，所述第一代谢物和所述第二代谢物包括所述代谢物数据库中未构成配对关系的代谢物，所述第一代谢物和所述第二代谢物包括多个原子基团；

相似度向量确定模块42，用于根据所述第一特征向量和所述第二特征向量，确定所述第一代谢物和所述第二代谢物的相似度向量，其中，所述相似度向量表示所述第一代谢物和所述第二代谢物中相同类型的原子基团之间的相似程度；

配对关系确定模块43，用于在所述相似度向量满足预设的代谢物配对关系构成条件时，确定所述第一代谢物和所述第二代谢物构成配对关系。

在一种可能的实现方式中，所述特征向量获取模块41用于：

在一种可能的实现方式中，所述相似度向量确定模块42用于：

在一种可能的实现方式中，所述配对关系确定模块43用于：

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种确定代谢物配对关系的方法，其特征在于，包括：

在所述相似度向量满足预设的代谢物配对关系构成条件时，确定所述第一代谢物和所述第二代谢物构成配对关系；

从预先构建的代谢物数据库中，获取第一代谢物对应的第一特征向量和第二代谢物对应的第二特征向量，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述第一特征向量和所述第二特征向量，确定所述第一代谢物和所述第二代谢物的相似度向量，包括：

3.根据权利要求1所述的方法，其特征在于，在所述相似度向量满足预设的代谢物配对关系构成条件时，确定所述第一代谢物和所述第二代谢物构成配对关系，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.一种确定代谢物配对关系的装置，其特征在于，包括：

配对关系确定模块，用于在所述相似度向量满足预设的代谢物配对关系构成条件时，确定所述第一代谢物和所述第二代谢物构成配对关系；

所述特征向量获取模块用于：

6.根据权利要求5所述的装置，其特征在于，所述相似度向量确定模块用于：

7.根据权利要求5所述的装置，其特征在于，所述配对关系确定模块用于：

8.根据权利要求5所述的装置，其特征在于，所述装置还包括模型训练模块，所述模型训练模块用于：