CN114923992A - 鉴定已知和未知代谢物的分析方法、装置和设备 - Google Patents

鉴定已知和未知代谢物的分析方法、装置和设备 Download PDF

Info

Publication number
CN114923992A
CN114923992A CN202210318586.0A CN202210318586A CN114923992A CN 114923992 A CN114923992 A CN 114923992A CN 202210318586 A CN202210318586 A CN 202210318586A CN 114923992 A CN114923992 A CN 114923992A
Authority
CN
China
Prior art keywords
metabolites
metabolite
network
seed
mass spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210318586.0A
Other languages
English (en)
Other versions
CN114923992B (zh
Inventor
朱正江
周智伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Organic Chemistry of CAS
Original Assignee
Shanghai Institute of Organic Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Organic Chemistry of CAS filed Critical Shanghai Institute of Organic Chemistry of CAS
Priority to CN202210318586.0A priority Critical patent/CN114923992B/zh
Publication of CN114923992A publication Critical patent/CN114923992A/zh
Application granted granted Critical
Publication of CN114923992B publication Critical patent/CN114923992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本申请公开了一种鉴定已知和未知代谢物的分析方法、装置和设备。该方法包括基于已知代谢物及其代谢反应数据库中的已知代谢物,构建基于生物知识的未知代谢反应网络;获取待鉴定生物样本中的种子代谢物;将种子代谢物映射到基于生物知识的未知代谢反应网络,得到MS/MS相似性网络,MS/MS相似性网络包括种子代谢物对应的种子节点和与种子节点具有边关系的目标节点,种子节点对应种子代谢物;基于MS/MS相似性网络中每个节点对应的相关子网络,构建全局非生物相关的质谱干扰特征峰网络;通过对全局非生物相关的质谱干扰特征峰网络的优化,将其中核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的鉴定结果,可以提高已知和未知代谢物的鉴定效率和准确度。

Description

鉴定已知和未知代谢物的分析方法、装置和设备
技术领域
本申请涉及代谢组学数据分析技术领域,尤其涉及一种鉴定已知和未知代谢物的分析方法、装置和设备。
背景技术
代谢组是指某个生物体中所有小分子代谢物的集合,不仅包括细胞代谢中内源性产生的已知代谢物,还包括来自于微生物群、植物、食物和污染物的未知(未报道)代谢物。当前,通过液相色谱-高分辨质谱(Liquid chromatography-tandem mass spectrometry,LC-MS)可以从一个生物样本中检测到数千个至数万个代谢特征峰。这些代谢特征峰可能来自于目前已知代谢物、未知代谢物、以及这些代谢物在质谱分析离子化过程中产生的非生物相关的质谱干扰峰(abiotic peaks)如加合物(adduct)、同位素(isotope)、中性损失(neutral loss)和源内碎裂产生的其他离子(in-source fragment)。
相关技术中,针对这些代谢特征峰鉴定最为常见的方式,是将采集到的代谢特征峰的一级质谱质荷比(MS1)和对应的二级质谱谱图(MS/MS)与标准谱图数据库进行比对。但是,该方式一方面受限于可以获取的标准谱图数目,无法覆盖所有的已知代谢物,造成鉴定的覆盖度有限,另一方面对于未知化合物而言,由于缺乏已知的化学结构信息,导致无法用于发现新的未知代谢物,再者,质谱数据中存在的大量非生物相关的质谱干扰特征峰也会进一步影响这些已知和未知代谢物的鉴定。
发明内容
本申请实施例提供一种鉴定已知和未知代谢物的分析方法、装置、设备和存储介质,可以提高已知和未知代谢物的鉴定效率和准确度。
根据本申请实施例的第一方面,提供一种鉴定已知和未知代谢物的分析方法,该方法可以包括:
基于已知代谢物及其代谢反应数据库中的已知代谢物,构建基于生物知识的未知代谢反应网络;其中,基于生物知识的未知代谢反应网络包括多个节点和边关系,多个节点包括第一节点和第二节点,第一节点对应已知代谢物,第二节点对应未知代谢物,未知代谢物由已知代谢物基于酶转化反应确定,边关系用于表征多个节点中每两个节点之间的代谢物的已知代谢反应关系和/或预测理论代谢反应关系;
获取待鉴定生物样本,并注释待鉴定生物样本代谢物,得到种子代谢物;
将种子代谢物映射到基于生物知识的未知代谢反应网络,得到MS/MS相似性网络,MS/MS相似性网络包括种子节点和与种子节点具有边关系的目标节点,种子节点对应种子代谢物,目标节点对应与种子代谢物具有代谢反应关系的已知代谢物或未知代谢物;
基于MS/MS相似性网络中每个节点对应的相关子网络,构建全局非生物相关的质谱干扰特征峰网络;
对全局非生物相关的质谱干扰特征峰网络进行优化,将全局非生物相关的质谱干扰特征峰网络中的核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果。
根据本申请实施例的第二方面,提供一种鉴定已知和未知代谢物的分析装置,该装置可以包括:
第一构建模块,用于基于已知代谢物及其代谢反应数据库中的已知代谢物,构建基于生物知识的未知代谢反应网络;其中,基于生物知识的未知代谢反应网络包括多个节点和边关系,多个节点包括第一节点和第二节点,第一节点对应已知代谢物,第二节点对应未知代谢物,未知代谢物由已知代谢物基于酶转化反应确定,边关系用于表征多个节点中每两个节点之间的代谢物的已知代谢反应关系和预测理论代谢反应关系;
获取模块,用于获取待鉴定生物样本,并注释待鉴定生物样本代谢物,得到种子代谢物;
处理模块,用于将种子代谢物映射到基于生物知识的未知代谢反应网络,得到MS/MS相似性网络,MS/MS相似性网络包括种子节点和与种子节点具有边关系的目标节点,种子节点对应种子代谢物,目标节点对应与种子代谢物具有代谢反应关系的已知代谢物或未知代谢物;
第二构建模块,基于MS/MS相似性网络中每个节点对应的相关子网络,构建全局非生物相关的质谱干扰特征峰网络;
确定模块,对全局非生物相关的质谱干扰特征峰网络进行优化,将全局非生物相关的质谱干扰特征峰网络中的核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果。
根据本申请实施例的第三方面,提供一种计算机设备,包括:存储器和处理器;
存储器,用于存储有计算机程序;
处理器,用于执行存储器中存储的计算机程序,计算机程序运行时使得处理器执行如第一方面所示的鉴定已知和未知代谢物的分析方法的步骤。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储程序或指令,在程序或指令被计算机设备执行的情况下,使得计算机设备执行如第一方面所示的鉴定已知和未知代谢物的分析方法的步骤。
根据本申请实施例的第五方面,提供一种计算机程序产品,包括计算机程序,在计算机程序被计算机设备执行的情况下,使得计算机设备执行如第一方面所示的鉴定已知和未知代谢物的分析方法的步骤。
根据本申请实施例中的鉴定已知和未知代谢物的分析方法、装置和设备,通过已知代谢物及其代谢反应数据库中的已知代谢物,构建基于生物知识的未知代谢反应网络;其中,基于生物知识的未知代谢反应网络包括多个节点和边关系,多个节点包括第一节点和第二节点,第一节点对应已知代谢物,第二节点对应未知代谢物,未知代谢物由已知代谢物基于计算机预测的酶转化反应确定,边关系用于表征多个节点中每两个节点之间的代谢物的已知代谢反应关系和/或预测理论代谢反应关系,这样,利用理论预测的代谢反应扩展已知代谢反应网络,建立已知代谢物和未知代谢物的连接关系,使得可以从少量代谢物出发利用迭代策略鉴定更多的未知代谢物,不限于可以获取的标准谱图数目,鉴定覆盖度大,在提高注释新的未知代谢物的效率的同时,以便进一步确定未知代谢物的化学结构。接着,获取待鉴定生物样本,并注释待鉴定生物样本代谢物,得到种子代谢物,并将种子代谢物映射到基于生物知识的未知代谢反应网络,得到MS/MS相似性网络,MS/MS相似性网络包括种子节点和与种子节点具有边关系的目标节点,种子节点对应种子代谢物,目标节点对应与种子代谢物具有代谢反应关系的已知代谢物或未知代谢物;基于MS/MS相似性网络中每个节点进一步构建对应的相关子网络,得到全局非生物相关的质谱干扰特征峰网络,这样,通过构建每个节点对应的质谱干扰特征峰网络,以优化MS/MS相似性网络非生物来源的质谱干扰峰。然后,将对全局非生物相关的质谱干扰特征峰网络进行优化,将其中核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果。由此,本申请实施例提供的方法,可以无需专业背景的质谱技术人员手动推断可能的未知代谢物化学结构,提高了在复杂数据集中已知和未知代谢物的鉴定效率和准确度。
附图说明
从下面结合附图对本申请的具体实施方式的描述中可以更好地理解本申请其中,相同或相似的附图标记表示相同或相似的特征。
图1是示出根据一个实施例的一种鉴定已知和未知代谢物的分析方法的流程图;
图2是示出根据一个实施例的一种鉴定已知和未知代谢物的分析的流程示意图;
图3是示出根据一个实施例的一种优化全局非生物相关的质谱干扰特征峰网络的示意图;
图4是示出根据一个实施例的一种鉴定已知和未知代谢物的分析装置的结构示意图;
图5是示出根据一个实施例的计算机设备的硬件结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
相关技术中,对于大规模的已知和未知代谢物的鉴定,通常需要借助额外的实验手段或计算机工具。例如,实验手段上,有研究通过稳定同位素标记(法)对某些的生物样本进行完全标记,然后,通过识别标记和未标记的代谢峰的质荷比差值,确定未知代谢物的分子式。但此方式过于繁琐,需要进行大量的实验,且只适用于少量能够进行完全标记的生物(如植物,菌类等)。另外,可以使用开发的理论MS/MS谱图预测工具(例如MetFrag、CFM-ID、MS-FINDER、SIRIUS等),预测计算机MS/MS或MS/MS对应的分子指纹图谱,以鉴定未知代谢物。然而,这些理论MS/MS谱图预测工具主要依赖于从现有的代谢物结构数据库(例如人类代谢组数据库(HMDB)和有机小分子生物活性数据库(PubChem))中检索获得可能的化学结构。因此,这些工具不适用于鉴别未包含在已知代谢物数据库中的未知代谢物。此外,还可以通过小分子鉴定可靠性(Confidence of Small Molecule IdentifiCation,COSMIC)算法,即通过结构组合的方式理论构建所有可能的胆汁酸衍生物结构,替代已知代谢物数据库,进而帮助鉴定未知的胆汁酸。总的来说,上述所示的方式,大多利用单个代谢特征峰和它的MS/MS谱图来鉴定代谢物,导致在应用于一个完整的非靶向代谢组学数据集时存在较大的假阳性,不适用于大规模已知和未知化合物的鉴定。相比之下,与理论MS/MS谱图预测工具不同,基于分子网络的方法越来越多地用于代谢物鉴定,例如The Global NaturalProduct Social Molecular Networking(GNPS)、代谢物鉴定和紊乱代谢通路分析方法(MetDNA)和全局网络优化算法(NetID)。其中,GNPS将数据集中具有相似的MS/MS谱图连接起来形成网络,进而帮助缺乏标准MS/MS谱图的代谢特征峰推断其结果。在此基础上,一些联合GNPS和理论MS/MS谱图的方法,进一步增强了已知和未知代谢物结构的能力,比如网络注释传播算法(Network Annotation Propagation,NAP)、MS2LDA和MolNetEnhancer。最近,NetID使用常见的代谢分子式差别和质荷比差别,将代谢峰进行连接形成网络,进而使用整数线性规划方法来优化该网络,最后提供了代谢特征峰之间分子式差别。虽然这些方法已经证明了对未知代谢物发现的有效性,但以上两种方法仍然需要拥有专业背景的质谱技术人员手动推断可能的未知代谢物化学结构,这限制了在复杂数据集中未知代谢物的鉴定效率。
由此,综上所示的基于谱图数据库比对的方法受限于可以获取的标准谱图数目,鉴定覆盖度小,无法用于发现新的未知代谢物。基于实验的方法如稳定同位素标记需要大量的实验辅助,成本高,规模小,且只能用于部分能够实验培养的生物体系。基于理论MS/MS谱图预测工具的方法主要针对单个代谢特征峰和MS/MS谱图来鉴定代谢物,需要基于已知的代谢物结构数据库,无法用于发现新的未知代谢物,无法消除非生物来源的质谱干扰峰。基于分子网络的方法,需要专业背景人员人工推断已知和未知代谢物结构,鉴定效率很低,且不能有效排除非生物来源质谱干扰峰的影响。
基于此,本申请实施例提供了一种鉴定已知和未知代谢物的分析方法,通过利用理论预测的代谢反应扩展已知代谢反应网络,建立已知代谢物和未知代谢物的连接关系,以及确定未知代谢物化学结构。接着,利用代谢反应网络从已知到未知的关系,从少量代谢物出发利用迭代策略鉴定更多的代谢物。然后,从初步鉴定的代谢物出发,注释非生物相关的质谱干扰峰,并利用相互关系优化鉴定结果,由此,可以无需专业背景的质谱技术人员手动推断可能的未知代谢物化学结构,提高了在复杂数据集中已知和未知代谢物的鉴定效率和准确度。
为了更好的理解本申请实施例提供的鉴定已知和未知代谢物的分析方法,下面分别结合图1对本申请实施例提供的鉴定已知和未知代谢物的分析方法进行详细说明。
图1是示出根据一个实施例的一种鉴定已知和未知代谢物的分析方法的流程图。
如图1所示,鉴定已知和未知代谢物的分析方法可以应用于计算设备,具体可以包括:
步骤110,基于已知代谢物及其代谢反应数据库中的已知代谢物,构建基于生物知识的未知代谢反应网络;步骤120,获取待鉴定生物样本,并注释待鉴定生物样本代谢物,得到种子代谢物;步骤130,将种子代谢物映射到基于生物知识的未知代谢反应网络,得到MS/MS相似性网络,MS/MS相似性网络包括种子节点和与种子节点具有边关系的目标节点,种子节点对应种子代谢物,目标节点对应与种子代谢物具有代谢反应关系的已知代谢物或未知代谢物;步骤140,基于MS/MS相似性网络中每个节点对应的相关子网络,构建全局非生物相关的质谱干扰特征峰网络;步骤150,对全局非生物相关的质谱干扰特征峰网络进行优化,将全局非生物相关的质谱干扰特征峰网络中的核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果。
由此,可以无需专业背景的质谱技术人员手动推断可能的未知代谢物化学结构,提高了在复杂数据集中已知和未知代谢物的鉴定效率和准确度。
下面对上述步骤进行详细说明,具体如下所示。
涉及步骤110,基于生物知识的未知代谢反应网络(KMRN)包括多个节点和多个节点中每两个节点的边关系,多个节点包括第一节点和第二节点,第一节点对应已知代谢物,第二节点对应未知代谢物,未知代谢物由已知代谢物基于酶转化反应确定,边关系用于表征每两个节点之间的代谢物的已知代谢反应关系和预测理论代谢反应关系。其中,本申请实施例中的酶转化反应为基于计算机预测的酶转化反应。
需要说明的是,已知代谢物及其代谢反应数据库可以包括从京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)下载的数据库。该已知代谢物及其代谢反应数据库包含6397种已知代谢物和8129个已知反应对。本申请实施例中的未知代谢物是从与6397种已知KEGG代谢物的基于计算机预测的酶转化反应中挑选出来的。未知代谢物定义为未包含在已知代谢物及其代谢反应数据库中的计算机策划代谢物,即未知代谢物为除已知代谢物外的新代谢物。
基于此,在一种可能的实施例中,该步骤110具体可以包括步骤1101-步骤1105,具体分别对其说明。
步骤1101,将已知代谢物进行基于计算机预测的酶的转化反应,得到初始策划代谢物,初始策划代谢物包括一轮或者多轮转换反应中每轮转换反应产生的产物。
示例性地,可以通过生物转换反应预测应用程序(BioTransformer)用于理论内基于计算机预测的酶转化反应,该基于计算机预测的酶转化反应可以进行一轮或者多反应,而每轮转换反应中每轮转换反应产生的产物都可以被称为初始策划代谢物。
步骤1102,通过国际化合物标识的第一层,从初始策划代谢物中筛选满足预设化学元素的未知代谢物。
示例性地,可以将初始策划代谢物与国际化合物标识的主层即第一层InChIKey(14个字符)合并以去除初始策划代谢物中的立体异构体,以将未知代谢物的化学元素被限制在碳、氢、氧、氮、磷、硫和氯及“CHONPS”内。
由此,本申请实施例通过基于计算机预测的酶转化反应中的193种化学反应和114种酶对已知代谢物进行处理,可以得到50471种未知代谢物。这些初始策划代谢物具有比代谢物结构数据库(PubChem)中更高的天然产物相似性,使得可以从少量代谢物出发利用迭代策略鉴定更多的未知代谢物,不限于可以获取的标准谱图数目,鉴定覆盖度大,以提高注释新的未知代谢物的效率。
步骤1103,比对未知代谢物和已知代谢物,根据酶转化反应得到反应配对代谢物。
步骤1104,计算反应配对代谢物之间的谷本结构相似度值,并从谷本结构相似度值中筛选满足预设结构相似度值的目标谷本结构相似度值。
示例性地,在基于计算机预测的酶转化反应中,未知代谢物与其已知代谢物进一步配对,得到反应配对代谢物,并计算反应配对代谢物之间的谷本结构相似度值(Tanimoto)。本申请实施例中的预设结构相似度值可以设为0.7,即保留谷本结构相似度值大于或者等于0.7的目标谷本结构相似度值,未配对的代谢物以及谷本结构相似度值小于0.7被丢弃。
步骤1105,基于目标谷本结构相似度值对应的目标反应配对代谢物,构建基于生物知识的未知代谢反应网络。
示例性地,仍以上述例子为例,基于生物知识的未知代谢反应网络可以包括:41336个节点(其中,6478个第一节点、34858个第二节点)以及52137个边关系。
由此,利用理论预测的代谢反应扩展已知代谢反应网络,建立已知代谢物和未知代谢物的连接关系,使得可以从少量代谢物出发利用迭代策略鉴定更多的未知代谢物,不限于可以获取的标准谱图数目,鉴定覆盖度大,在提高注释新的未知代谢物的效率的同时,以便进一步确定未知代谢物的化学结构。
接着,涉及步骤120,在一种或者多种可能的实施例中,该步骤120具体可以包括:
根据预设阈值比较偏差大小,通过预设标准二级质谱谱图MS/MS和色谱保留时间RT数据库,注释待鉴定生物样本代谢物,得到种子代谢物。
示例性地,使用标准MS/MS和RT数据库对种子代谢物进行注释。预设阈值比较偏差大小可以包括:MS1注释预设阈值比较偏差大小为15百万分率(ppm);预测RT注释预设阈值比较偏差大小为20秒;MS/MS相似度注释预设阈值比较偏差大小为0.8。
需要说明的是,本申请实施例除了可以通过上述方式注释鉴定生物样本,也可以通过质子化和去质子化的加合物方式,分别以正和负模式注释待鉴定生物样本代谢物,得到注释后的种子代谢物,可以理解的是种子代谢物被注释的结果可以包括种子代谢物的MS1、RT和MS/MS相似度。
再者,涉及步骤130,在一种或者多种可能的实施例中,待鉴定生物样本包括液相色谱-串联质谱数据,液相色谱-串联质谱数据包括代谢物特征峰列表和二级质谱谱图MS/MS,代谢物特征峰列表包括代谢特征峰的实验一级质谱质荷比和实验色谱保留时间,二级质谱谱图MS/MS包括代谢特征峰的实验二级质谱谱图,基于此,该步骤130具体可以包括:
从基于生物知识的未知代谢反应网络中获取与种子代谢物具有边关系的边节点,边节点包括下述中的至少一种:第一节点、第二节点;
基于种子代谢物,确定边节点对应的第一代谢物的第一代谢物结构,并基于第一代谢物结构,确定第一代谢物的第一一级质谱质荷比以及第一预测色谱保留时间;
基于实验一级质谱质荷比,从第一一级质谱质荷比中筛选满足预设一级质谱质荷比的目标一级质谱质荷比;以及,基于实验色谱保留时间,从第一预测色谱保留时间中筛选满足预设色谱保留时间偏差的预测色谱保留时间;
确定满足预设一级质谱质荷比偏差的一级质谱质荷比和满足预设色谱保留时间偏差的预测色谱保留时间对应的代谢物特征峰为合格峰,合格峰与第二代谢物对应;
根据种子代谢物的二级质谱谱图,确定第二代谢物的替代二级质谱谱图;
计算合格峰的二级质谱谱图与替代二级质谱谱图的谱图相似性;
在谱图相似性中筛选满足预设条件的目标谱图相似性,并将目标谱图相似性对应的第三代谢物确定为与种子节点具有边关系的目标节点;
连接种子节点和目标节点,得到MS/MS相似性网络。
示例性地,如图2所示,MS/MS相似性网络为第二层的网络,下面具体说明得到第二层的MS/MS相似性网络的步骤。
首先,如图2中从第一层网络到第二层网络过程,即将种子代谢物1、2……N(N为大于2的整数)映射到KMRN(即图2中的第一层网络),以便构建具有四维信息(如MS1、预测RT、MS/MS相似性和与种子代谢物具有边关系的节点的信息)的MS/MS相似性网络(即图2中的第二层网络)。这里,可以从KMRN中检索种子节点1(种子节点对应种子代谢物)对应的种子代谢物1具有变关系的节点即配对的已知代谢物和/或未知代谢物。如图2所示,以与种子节点1配对的边节点,边节点包括下述中的至少一种:第一节点、第二节点,这里,以边节点包括第一节点和第二节点为例进行说明,其中,第一节点即已知代谢物a、b和c,第二节点即未知代谢物x、y和z。
接着,基于KMRN,可以得到与种子代谢物1配对的已知代谢物a、b和c、未知代谢物x、y和z的结构,并基于该结构分别提取已知代谢物a、b和c,未知代谢物x、y和z的第一一级质谱标准质荷比以及第一预测色谱保留时间。
再者,将每个已知代谢物a、b和c,未知代谢物a、b和c的第一一级质谱标准质荷比以及第一预测色谱保留时间,分别与代谢特征峰的实验一级质谱质荷比和实验色谱保留时间进行比对,保留预设一级质谱质荷比偏差为15百万分率(ppm)、预设色谱保留时间偏差为30%的代谢物特征峰,并将其确定为合格峰,该合格峰可以为第二代谢物的代谢峰,其中第二代谢物可以包括已知代谢物a和b、未知代谢物y和z。
然后,根据种子代谢物1的二级质谱谱图,确定第二代谢物的替代二级质谱谱图,分别计算合格峰的二级质谱谱图与替代二级质谱谱图的谱图相似性,由此,可以将谱图相似性得分大于或者等于0.5或比对片段大于4的合格峰与种子代谢物相关联,其推定结构是从种子中分配,仍接上述例子,可以从第二代谢物中确定与种子代谢物连接的已知代谢物a、b和未知代谢物y、z,从而得到MS/MS相似性网络,上述步骤可以提高确定MS/MS相似性网络的准确度。
这里,经过上述过程,如图2所示的第二层网络所示,与种子节点具有连接关系的目标节点即已知代谢物a、b和未知代谢物y、z均被注释,该注释的结果可以包括该目标节点对应的已知和/或未知代谢物的MS1、预测RT和MS/MS相似性。
进一步地,为了更精确的得到MS/MS相似性网络,本申请实施例在连接种子节点和目标节点,得到MS/MS相似性网络的过程中,还可以采用递归方式传播,基于此,该过程具体可以包括:
将目标节点作为下一个种子节点,重复执行目标步骤,直至没有新的目标节点被连接,得到MS/MS相似性网络,被连接的代谢物特征峰为初步鉴定的代谢物;
其中,目标步骤包括:
从基于生物知识的未知代谢反应网络中获取与种子代谢物具有边关系的第一节点;
基于种子代谢物,确定第一节点对应的第一代谢物的第一代谢物结构,并基于第一代谢物结构,确定第一代谢物的第一一级质谱标准质荷比以及第一预测色谱保留时间;
基于实验一级质谱质荷比,从第一一级质谱标准质荷比中筛选满足预设一级质谱质荷比偏差的一级质谱质荷比;以及,基于实验色谱保留时间,从第一预测色谱保留时间中筛选满足预设色谱保留时间偏差的预测色谱保留时间;
确定满足预设一级质谱质荷比偏差的一级质谱质荷比和满足预设色谱保留时间偏差的预测色谱保留时间对应的代谢物特征峰为合格峰,合格峰与第二代谢物对应;
根据种子代谢物的二级质谱谱图,确定第二代谢物的替代二级质谱谱图;
计算合格峰的二级质谱谱图与替代二级质谱谱图的谱图相似性;
在谱图相似性中筛选满足预设条件的目标谱图相似性,并将目标谱图相似性对应的第三代谢物确定为与种子节点具有边关系的目标节点;
连接种子节点和目标节点。
示例性地,上述注释过程可以被称为递归方式传播,其中新注释的代谢物如已知代谢物a和未知代谢物y和z也被用作种子节点,以在LC-MS/MS数据中注释其相邻代谢物,注释被终止,直到没有新的代谢物被注释,从而得到MS/MS相似性网络。
需要说明的是,此时MS/MS相似性网络中每个被注释的节点,可以包括每个节点对应的代谢物的MS1、预测RT、MS/MS相似性和代谢生物转化即与该代谢物具有连接关系的节点的信息。
再者,涉及步骤140,如图2所示,全局非生物相关的质谱干扰特征峰网络为第三层网络,下面具体说明构建全局非生物相关的质谱干扰特征峰网络的过程。
在一种或者多种可能的实施例中,待鉴定生物样本包括代谢特征峰列表和代谢特征峰实验二级质谱谱图,基于此,该步骤140具体可以包括步骤1401至步骤1405,具体通过下述步骤进行详细说明。
步骤1401,确定MS/MS相似性网络中每个节点对应的代谢物特征峰为基峰。
示例性的,从上面一层的MS/MS相似性网络中注释到的所有代谢物的代谢物特征峰作为基峰。
步骤1402,在预设色谱保留时间的偏差范围内,从代谢特征峰列表中提取与基峰对应的共洗脱峰,并基于共洗脱峰和基峰,生成目标节点的峰组。
示例性地,预设色谱保留时间的偏差范围可以为±3秒,从代谢特征峰列表中提取基峰的共洗脱峰,以形成一峰组(组峰)。
步骤1403,通过预设注释算法,对峰组内的每个峰进行非生物相关的质谱干扰峰的注释,得到全局非生物相关的质谱干扰特征峰网络,全局非生物相关的质谱干扰特征峰网络包括至少一种非生物来源的质谱干扰峰。
示例性地,在每个峰组内进行非生物相关的质谱干扰峰的注释并建立子网络,该注释的结果可以包括该峰组内的代谢物特征峰为下述中的至少一种可能:同位素、加合物、中性损失峰和源内裂解碎片。
需要说明的是,本申请实施例中的预设注释算法包括下述中的至少一种:加合物和中性丢失峰注释算法、源内碎裂碎片注释、多层网络汇总及注释优化,下面针对不同的预设注释算法分别对其进行举例说明。
(1)同位素峰(isotope)注释:
同位素峰的识别包括质量偏差和强度比的评价,首先计算每个峰组内的代谢物特征峰的质荷比(m/z)距离矩阵以进行偏差检查,这里,可以通过下述公式(1)计算同位素的理论m/z:
mzisotope=mzbase_feature+1.003355×N (1)
其中,mzisotope和mzbase_feature是同位素峰和基峰的m/z值,N为所考虑的同位素数量,具有从1到3的一组值(即[M+1]到[M+3]),质量偏差的公差设置为25ppm,这里,可以通过下述公式(2)计算同位素比的偏差:
Figure BDA0003570664630000141
其中,IntE和IntT分别是实验和理论相对强度,同位素比值(△ratio)的最大偏差默认为500%。
(2)加合物(adduct)和中性丢失峰(neutral loss)注释:
根据每个峰组内间的质量偏差和特征丰度相关性识别加合物和中性损失特征,计算加合物和中性损失的理论质荷比并在每个峰组内进行比对。质量偏差的公差设定为25ppm。在识别特征和基础特征之间计算样本间的特征丰度相关性,默认保留皮尔逊相关系数大于0.3的特征对。加合物和中性损失峰的同位素也在“同位素峰”中使用相同的方法进行鉴定。
(3)源内碎裂碎片(in-source fragments)注释:
从基峰和共洗脱峰MS1特征的MS/MS谱图中检索到源内片段。基峰的MS/MS谱图中的前5个强碎片被认为是可能的源内碎片,并与一个特征组中的特征比对。m/z容差设置为25ppm。源内碎片特征的同位素也按照“同位素峰”中的相同方法注释。
基于此,上述通过预设注释算法注释的过程可以理解为连接基峰和非生物来源的质谱干扰峰,构建节点对应的相关子网络。然后,连接多个基峰的相关子网络,得到全局非生物相关的质谱干扰特征峰网络。
然后,涉及步骤150,如图2所示,优化第三层的全局非生物相关的质谱干扰特征峰网络,以得到优化后的全局非生物相关的质谱干扰特征峰网络,即虚线框中的网络,以确定优化后的全局非生物相关的质谱干扰特征峰网络中的核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果。
具体可以包括:
根据预设优化算法,调整多个基峰的相关子网络中每两个具有重合关系的相关子网络,得到调整后的全局非生物相关的质谱干扰特征峰网络;
确定全局非生物相关的质谱干扰特征峰网络中的核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果。
需要说明的是,本申请实施例中的预设优化算法包括下述中的至少一项:
移除未满足预设基峰与基峰对应的非生物峰之间条件的相关子网络、存在不一致的代谢峰注释的相关子网络之间仅保留其中规模最大的相关子网络、将来源于的同一代谢物的多个相关子网络合并至多个相关子网络中规模最大的相关子网络。
示例性地,如图2所示,通过连接基峰和上述注释到的不同非生物来源的质谱干扰峰,构建了一个基峰的相关子网络。与之类似,对于所有上面一层的MS/MS注释到的所有代谢物,均会得到类似的相关子网络,这些子网络共同组成了第三层的全局非生物相关的质谱干扰特征峰网络,此时全局非生物相关的质谱干扰特征峰网络中的核心节点可以为能够衍生出最多分枝,且这些分枝构成满足预设规模网络的节点。
最后,比较和优化不同子网络之间的注释结果,进一步消除相关网络中的注释冲突。下面针对不同的预设优化算法分别对其进行举例说明。
示例性地,(1)移除未满足预设基峰与基峰对应的非生物峰之间条件的相关子网络,即基于经验规则的核对。
如果相关子网络不满足基峰与其非生物峰之间关系的经验规则,则将其删除。例如,如图3所示,经验规则可知在具有[M+2Na-H]+加合物类型的基峰时,需要在其相关子网络中存在非生物峰[M+Na]+,这样,在出现具有[M+2Na-H]+加合物类型的基峰,且在其相关子网络中存在非生物峰[M+Na]+时,则保留其相关子网络;反之,在出现具有[M+2Na-H]+加合物类型的基峰时,在其相关子网络中不存在非生物峰[M+Na]+,则删除该相关子网络。(2)存在不一致的代谢峰注释的相关子网络之间仅保留其中规模最大的相关子网络,即去除冲突的峰。
检查具有不同加合物或中性丢失的峰组,在存在不一致的代谢峰注释的相关子网络之间仅保留其中规模最大的相关子网络。
(3)将来源于的同一代谢物的多个相关子网络合并至多个相关子网络中规模最大的相关子网络,即冗余的质谱信号干扰峰合并。
对于来自同一代谢物的多个非生物来源的质谱干扰峰被合并到具有最大规模的相关子网络。
综上,通过已知代谢物及其代谢反应数据库中的已知代谢物,构建基于生物知识的未知代谢反应网络;其中,基于生物知识的未知代谢反应网络包括多个节点和边关系,多个节点包括第一节点和第二节点,第一节点对应已知代谢物,第二节点对应未知代谢物,未知代谢物由已知代谢物基于计算机预测的酶转化反应确定,边关系用于表征多个节点中每两个节点之间的代谢物的已知代谢反应关系和/或预测理论代谢反应关系,这样,利用理论预测的代谢反应扩展已知代谢反应网络,建立已知代谢物和未知代谢物的连接关系,使得可以从少量代谢物出发利用迭代策略鉴定更多的未知代谢物,不限于可以获取的标准谱图数目,鉴定覆盖度大,在提高注释新的未知代谢物的效率的同时,以便进一步确定未知代谢物的化学结构。接着,获取待鉴定生物样本,并注释待鉴定生物样本代谢物,得到种子代谢物,并将种子代谢物映射到基于生物知识的未知代谢反应网络,得到MS/MS相似性网络,MS/MS相似性网络包括种子节点和与种子节点具有边关系的目标节点,种子节点对应种子代谢物,目标节点对应与种子代谢物具有代谢反应关系的已知代谢物或未知代谢物;基于MS/MS相似性网络中每个节点进一步构建对应的相关子网络,得到全局非生物相关的质谱干扰特征峰网络,这样,通过包含已知代谢物和未知代谢物的基于生物知识的未知代谢反应网络,构建每个节点对应的质谱干扰特征峰网络,以优化MS/MS相似性网络非生物来源的质谱干扰峰。然后,将对全局非生物相关的质谱干扰特征峰网络进行优化,将其中核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果。由此,本申请实施例提供的方法,可以无需专业背景的质谱技术人员手动推断可能的未知代谢物化学结构,提高了在复杂数据集中已知和未知代谢物的鉴定效率和准确度。
需要明确的是,本申请并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁,这里省略了对已知方法的详细描述,并且上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
基于相同的发明构思,本申请提供了与上述涉及的鉴定已知和未知代谢物的分析方法对应的鉴定已知和未知代谢物的分析装置。具体结合图3进行详细说明。
图3是示出根据一个实施例的一种鉴定已知和未知代谢物的分析方法装置的结构示意图。
如图4所示,鉴定已知和未知代谢物的分析装置40应用于计算机设备,鉴定已知和未知代谢物的分析装置40具体可以包括:
第一构建模块401,用于基于已知代谢物及其代谢反应数据库中的已知代谢物,构建基于生物知识的未知代谢反应网络;其中,基于生物知识的未知代谢反应网络包括多个节点和边关系,多个节点包括第一节点和第二节点,第一节点对应已知代谢物,第二节点对应未知代谢物,未知代谢物由已知代谢物基于酶转化反应确定,边关系用于表征多个节点中每两个节点之间的代谢物的已知反应代谢反应关系和/或预测理论代谢反应关系;
获取模块402,用于获取待鉴定生物样本,并注释待鉴定生物样本代谢物,得到种子代谢物;
处理模块403,用于将种子代谢物映射到基于生物知识的未知代谢反应网络,得到MS/MS相似性网络,MS/MS相似性网络包括种子节点和与种子节点具有边关系的目标节点,种子节点对应种子代谢物,目标节点对应与种子代谢物具有代谢反应关系的已知代谢物或未知代谢物;
第二构建模块404,基于MS/MS相似性网络中每个节点对应的相关子网络,构建全局非生物相关的质谱干扰特征峰网络;
确定模块405,用于对全局非生物相关的质谱干扰特征峰网络进行优化,将全局非生物相关的质谱干扰特征峰网络中的核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果。
基于此,下面对本申请实施例提供的鉴定已知和未知代谢物的分析装置40进行详细说明:
在一种或者多种可能的实施例中,第一构建模块401具体可以用于,将已知代谢物进行基于酶转化反应,得到初始策划代谢物,初始策划代谢物包括一轮或者多轮转换反应中每轮转换反应产生的产物;
通过国际化合物标识的第一层,从初始策划代谢物中筛选满足预设化学元素条件的未知代谢物;
比对未知代谢物和已知代谢物,根据酶转化反应得到反应配对代谢物;
计算反应配对代谢物之间的谷本结构相似度值,并从谷本结构相似度值中筛选满足预设结构相似度值的目标谷本结构相似度值;
基于目标谷本结构相似度值对应的目标反应配对代谢物,构建基于生物知识的未知代谢反应网络。
在另一种或者多种可能的实施例中,获取模块402具体可以用于,根据预设阈值比较偏差大小,通过预设标准二级质谱谱图MS/MS和色谱保留时间RT数据库,注释待鉴定生物样本代谢物,得到种子代谢物。
在又一种或者多种可能的实施例中,处理模块403具体可以用于,在待鉴定生物样本包括液相色谱-串联质谱数据,液相色谱-串联质谱数据包括代谢物特征峰列表和二级质谱谱图MS/MS,代谢物特征峰列表包括代谢特征峰的实验一级质谱质荷比和实验色谱保留时间,二级质谱谱图MS/MS包括代谢特征峰的实验二级质谱谱图的情况下,从基于生物知识的未知代谢反应网络中获取与种子代谢物具有边关系的边节点,边节点包括下述中的至少一种:第一节点、第二节点;
基于种子代谢物,确定边节点对应的第一代谢物的第一代谢物结构,并基于第一代谢物结构,确定第一代谢物的第一一级质谱标准质荷比以及第一预测色谱保留时间;
基于实验一级质谱质荷比,从第一一级质谱标准质荷比中筛选满足预设一级质谱质荷比偏差的一级质谱质荷比;以及,基于实验色谱保留时间,从第一预测色谱保留时间中筛选满足预设色谱保留时间偏差的预测色谱保留时间;
确定满足预设一级质谱质荷比偏差的一级质谱质荷比和满足预设色谱保留时间偏差的预测色谱保留时间对应的代谢物特征峰为合格峰,合格峰与第二代谢物对应;
根据种子代谢物的二级质谱谱图,确定第二代谢物的替代二级质谱谱图;
计算合格峰的二级质谱谱图与替代二级质谱谱图的谱图相似性;
在谱图相似性中筛选满足预设条件的目标谱图相似性,并将目标谱图相似性对应的第三代谢物确定为与种子节点具有边关系的目标节点;
连接种子节点和目标节点,得到MS/MS相似性网络。
在再一种或者多种可能的实施例中,处理模块403具体可以用于,将目标节点作为下一个种子节点,重复执行目标步骤,直至没有新的目标节点被连接,得到MS/MS相似性网络,被连接的代谢物特征峰为初步鉴定的代谢物;
其中,目标步骤包括:
从基于生物知识的未知代谢反应网络中获取与种子代谢物具有边关系的第一节点;
基于种子代谢物,确定第一节点对应的第一代谢物的第一代谢物结构,并基于第一代谢物结构,确定第一代谢物的第一一级质谱标准质荷比以及第一预测色谱保留时间;
基于实验一级质谱质荷比,从第一一级质谱标准质荷比中筛选满足预设一级质谱质荷比偏差的一级质谱质荷比;以及,基于实验色谱保留时间,从第一预测色谱保留时间中筛选满足预设色谱保留时间偏差的预测色谱保留时间;
确定满足预设一级质谱质荷比偏差的一级质谱质荷比和满足预设色谱保留时间偏差的预测色谱保留时间对应的代谢物特征峰为合格峰,合格峰与第二代谢物对应;
根据种子代谢物的二级质谱谱图,确定第二代谢物的替代二级质谱谱图;
计算合格峰的二级质谱谱图与替代二级质谱谱图的谱图相似性;
在谱图相似性中筛选满足预设条件的目标谱图相似性,并将目标谱图相似性对应的第三代谢物确定为与种子节点具有边关系的目标节点;
连接种子节点和目标节点。
在再一种或者多种可能的实施例中,第二构建模块404具体用于,在待鉴定生物样本包括代谢特征峰列表和代谢特征峰实验二级质谱谱图的情况下,确定MS/MS相似性网络中每个节点对应的代谢物特征峰为基峰;
在预设色谱保留时间的偏差范围内,从代谢特征峰列表中提取与基峰对应的共洗脱峰,并基于共洗脱峰和基峰,生成目标节点的峰组;
通过预设注释算法,对峰组内的每个峰进行非生物相关的质谱干扰峰的注释,得到全局非生物相关的质谱干扰特征峰网络。
需要说明的是,本申请实施例中的预设注释算法包括下述中的至少一种:
同位素峰注释、加合物和中性丢失峰注释、源内碎裂碎片注释、多层网络汇总及注释优化。
在一种或者多种可能的实施例中,确定模块405具体可以用于,根据预设优化算法,调整多个基峰的相关子网络中每两个具有重合关系的相关子网络,得到调整后的全局非生物相关的质谱干扰特征峰网络;
确定全局非生物相关的质谱干扰特征峰网络中的核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果;其中,预设优化算法包括下述中的至少一项:
移除未满足预设基峰与基峰对应的非生物峰之间条件的相关子网络、存在不一致的代谢峰注释的相关子网络之间仅保留其中规模最大的相关子网络、将来源于的同一代谢物的多个相关子网络合并至多个相关子网络中规模最大的相关子网络。
由此,通过已知代谢物及其代谢反应数据库中的已知代谢物,构建基于生物知识的未知代谢反应网络;其中,基于生物知识的未知代谢反应网络包括多个节点和边关系,多个节点包括第一节点和第二节点,第一节点对应已知代谢物,第二节点对应未知代谢物,未知代谢物由已知代谢物基于计算机预测的酶转化反应确定,边关系用于表征多个节点中每两个节点之间的代谢物的已知代谢反应关系和/或预测理论代谢反应关系,这样,利用理论预测的代谢反应扩展已知代谢反应网络,建立已知代谢物和未知代谢物的连接关系,使得可以从少量代谢物出发利用迭代策略鉴定更多的未知代谢物,不限于可以获取的标准谱图数目,鉴定覆盖度大,在提高注释新的未知代谢物的效率的同时,以便进一步确定未知代谢物的化学结构。接着,获取待鉴定生物样本,并注释待鉴定生物样本代谢物,得到种子代谢物,并将种子代谢物映射到基于生物知识的未知代谢反应网络,得到MS/MS相似性网络,MS/MS相似性网络包括种子节点和与种子节点具有边关系的目标节点,种子节点对应种子代谢物,目标节点对应与种子代谢物具有代谢反应关系的已知代谢物或未知代谢物;基于MS/MS相似性网络中每个节点进一步构建对应的相关子网络,得到全局非生物相关的质谱干扰特征峰网络,这样,通过包含已知代谢物和未知代谢物的基于生物知识的未知代谢反应网络,构建每个节点对应的质谱干扰特征峰网络,以优化MS/MS相似性网络非生物来源的质谱干扰峰。然后,将对全局非生物相关的质谱干扰特征峰网络进行优化,将其中核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果。由此,本申请实施例提供的方法,可以无需专业背景的质谱技术人员手动推断可能的未知代谢物化学结构,提高了在复杂数据集中已知和未知代谢物的鉴定效率和准确度。
图5是示出根据一个实施例的计算机设备的硬件结构示意图。
如图5所示,计算机设备500包括输入设备501、输入接口502、处理器503、存储器504、输出接口505、以及输出设备506。
输入接口502、处理器503、存储器504、以及输出接口505通过总线510相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线510连接,进而与计算机设备500的其他组件连接。具体地,输入设备501接收来自外部的输入信息,并通过输入接口502将输入信息传送到处理器503;处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到计算机设备500的外部供用户使用。
在一个实施例中,图5所示的计算机设备500可以被实现为一种鉴定已知和未知代谢物的分析设备,该鉴定已知和未知代谢物的分析设备可以包括:存储器,被配置为存储程序;处理器,被配置为运行存储器中存储的程序,以执行上述实施例描述的鉴定已知和未知代谢物的分析方法。
根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机可读存储介质。例如,本申请的实施例包括一种计算机可读存储介质,其包括在计算机可读存储介质上存储程序或指令,在程序或指令被计算机设备执行的情况下,使得计算机设备执行上述方法的步骤。
根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以从网络上被下载和安装,和/或从可拆卸存储介质被安装。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令,当其在计算机上运行时,使得计算机执行上述各个实施例中描述的方法。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种鉴定已知和未知代谢物的分析方法,其特征在于,包括:
基于已知代谢物及其代谢反应数据库中的已知代谢物,构建基于生物知识的未知代谢反应网络;其中,所述基于生物知识的未知代谢反应网络包括多个节点和边关系,所述多个节点包括第一节点和第二节点,所述第一节点对应所述已知代谢物,所述第二节点对应未知代谢物,所述未知代谢物由所述已知代谢物基于酶转化反应确定,所述边关系用于表征所述多个节点中每两个节点之间的代谢物的已知反应代谢反应关系和/或预测理论代谢反应关系;
获取待鉴定生物样本,并注释待鉴定生物样本代谢物,得到种子代谢物;
将所述种子代谢物映射到所述基于生物知识的未知代谢反应网络,得到MS/MS相似性网络,所述MS/MS相似性网络包括种子节点和与所述种子节点具有边关系的目标节点,所述种子节点对应所述种子代谢物,所述目标节点对应与所述种子代谢物具有代谢反应关系的已知代谢物或未知代谢物;
基于所述MS/MS相似性网络中每个节点对应的相关子网络,构建全局非生物相关的质谱干扰特征峰网络;
对所述全局非生物相关的质谱干扰特征峰网络进行优化,将所述全局非生物相关的质谱干扰特征峰网络中的核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果。
2.根据权利要求1所述的方法,其特征在于,所述基于已知代谢物及其代谢反应数据库中的已知代谢物,构建基于生物知识的未知代谢反应网络,包括:
将所述已知代谢物进行基于酶转化反应,得到初始策划代谢物,所述初始策划代谢物包括一轮或者多轮转换反应中每轮转换反应产生的产物;
通过国际化合物标识的第一层,从所述初始策划代谢物中筛选满足预设化学元素条件的未知代谢物;
比对所述未知代谢物和所述已知代谢物,根据所述酶转化反应得到反应配对代谢物;
计算所述反应配对代谢物之间的谷本结构相似度值,并从所述谷本结构相似度值中筛选满足预设结构相似度值的目标谷本结构相似度值;
基于所述目标谷本结构相似度值对应的目标反应配对代谢物,构建基于生物知识的未知代谢反应网络。
3.根据权利要求1所述的方法,其特征在于,所述注释所述待鉴定生物样本代谢物,得到种子代谢物,包括:
根据预设阈值比较偏差大小,通过预设标准二级质谱谱图MS/MS和色谱保留时间RT数据库,注释待鉴定生物样本代谢物,得到种子代谢物。
4.根据权利要求1所述的方法,其特征在于,所述待鉴定生物样本包括液相色谱-串联质谱数据,所述液相色谱-串联质谱数据包括代谢物特征峰列表和二级质谱谱图MS/MS,所述代谢物特征峰列表包括代谢特征峰的实验一级质谱质荷比和实验色谱保留时间,所述二级质谱谱图MS/MS包括代谢特征峰的实验二级质谱谱图;
所述将所述种子代谢物映射到所述基于生物知识的未知代谢反应网络,得到MS/MS相似性网络,包括:
从所述基于生物知识的未知代谢反应网络中获取与所述种子代谢物具有边关系的边节点,所述边节点包括下述中的至少一种:第一节点、第二节点;
基于所述种子代谢物,确定所述边节点对应的第一代谢物的第一代谢物结构,并基于所述第一代谢物结构,确定所述第一代谢物的第一一级质谱标准质荷比以及第一预测色谱保留时间;
基于所述实验一级质谱质荷比,从所述第一一级质谱标准质荷比中筛选满足预设一级质谱质荷比偏差的一级质谱质荷比;以及,基于所述实验色谱保留时间,从所述第一预测色谱保留时间中筛选满足预设色谱保留时间偏差的预测色谱保留时间;
确定所述满足预设一级质谱质荷比偏差的一级质谱质荷比和所述满足预设色谱保留时间偏差的预测色谱保留时间对应的代谢物特征峰为合格峰,所述合格峰与所述第二代谢物对应;
根据所述种子代谢物的二级质谱谱图,确定所述第二代谢物的替代二级质谱谱图;
计算所述合格峰的二级质谱谱图与所述替代二级质谱谱图的谱图相似性;
在所述谱图相似性中筛选满足预设条件的目标谱图相似性,并将所述目标谱图相似性对应的第三代谢物确定为与所述种子节点具有边关系的目标节点;
连接所述种子节点和所述目标节点,得到所述MS/MS相似性网络。
5.根据权利要求4所述的方法,其特征在于,所述连接所述种子节点和所述目标节点,得到所述MS/MS相似性网络,包括:
将所述目标节点作为下一个种子节点,重复执行目标步骤,直至没有新的目标节点被连接,得到所述MS/MS相似性网络,所述被连接的代谢物特征峰为初步鉴定的代谢物;
其中,所述目标步骤包括:
从所述基于生物知识的未知代谢反应网络中获取与所述种子代谢物具有边关系的第一节点;
基于所述种子代谢物,确定所述第一节点对应的第一代谢物的第一代谢物结构,并基于所述第一代谢物结构,确定所述第一代谢物的第一一级质谱标准质荷比以及第一预测色谱保留时间;
基于所述实验一级质谱质荷比,从所述第一一级质谱标准质荷比中筛选满足预设一级质谱质荷比偏差的一级质谱质荷比;以及,基于所述实验色谱保留时间,从所述第一预测色谱保留时间中筛选满足预设色谱保留时间偏差的预测色谱保留时间;
确定所述满足预设一级质谱质荷比偏差的一级质谱质荷比和所述满足预设色谱保留时间偏差的预测色谱保留时间对应的代谢物特征峰为合格峰,所述合格峰与所述第二代谢物对应;
根据所述种子代谢物的二级质谱谱图,确定所述第二代谢物的替代二级质谱谱图;
计算所述合格峰的二级质谱谱图与所述替代二级质谱谱图的谱图相似性;
在所述谱图相似性中筛选满足预设条件的目标谱图相似性,并将所述目标谱图相似性对应的第三代谢物确定为与所述种子节点具有边关系的目标节点;
连接所述种子节点和所述目标节点。
6.根据权利要求1所述的方法,其特征在于,所述待鉴定生物样本包括代谢特征峰列表和代谢特征峰实验二级质谱谱图;
所述基于所述MS/MS相似性网络中每个节点对应的相关子网络,构建全局非生物相关的质谱干扰特征峰网络,包括:
确定所述MS/MS相似性网络中每个节点对应的代谢物特征峰为基峰;
在预设色谱保留时间的偏差范围内,从所述代谢特征峰列表中提取与所述基峰对应的共洗脱峰,并基于所述共洗脱峰和所述基峰,生成所述目标节点的峰组;
通过预设注释算法,对所述峰组内的每个峰进行非生物相关的质谱干扰峰的注释,得到全局非生物相关的质谱干扰特征峰网络。
7.根据权利要求1或6所述的方法,其特征在于,所述对所述全局非生物相关的质谱干扰特征峰网络进行优化,将所述全局非生物相关的质谱干扰特征峰网络中的核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果,包括:
根据预设优化算法,调整所述多个基峰的相关子网络中每两个具有重合关系的相关子网络,得到调整后的全局非生物相关的质谱干扰特征峰网络;
确定所述全局非生物相关的质谱干扰特征峰网络中的核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果;其中,所述预设优化算法包括下述中的至少一项:
移除未满足预设基峰与基峰对应的非生物峰之间条件的相关子网络、存在不一致的代谢峰注释的相关子网络之间仅保留其中规模最大的相关子网络、将来源于同一代谢物的多个相关子网络合并至所述多个相关子网络中规模最大的相关子网络。
8.根据权利要求6所述的方法,其特征在于,所述预设注释算法包括下述中的至少一种:
同位素峰注释、加合物和中性丢失峰注释、源内碎裂碎片注释、多层网络汇总及注释优化。
9.一种鉴定已知和未知代谢物的分析装置,其特征在于,包括:
第一构建模块,用于基于已知代谢物及其代谢反应数据库中的已知代谢物,构建基于生物知识的未知代谢反应网络;其中,所述基于生物知识的未知代谢反应网络包括多个节点和边关系,所述多个节点包括第一节点和第二节点,所述第一节点对应所述已知代谢物,所述第二节点对应未知代谢物,所述未知代谢物由所述已知代谢物基于酶转化反应确定,所述边关系用于表征所述多个节点中每两个节点代谢物之间的已知代谢反应关系和预测理论代谢反应关系;
获取模块,用于获取待鉴定生物样本,并注释待鉴定生物样本代谢物,得到种子代谢物;
处理模块,用于将所述种子代谢物映射到所述基于生物知识的未知代谢反应网络,得到MS/MS相似性网络,所述MS/MS相似性网络包括种子节点和与所述种子节点具有边关系的目标节点,所述种子节点对应所述种子代谢物,所述目标节点对应与所述种子代谢物具有代谢反应关系的已知代谢物或未知代谢物;
第二构建模块,基于所述MS/MS相似性网络中每个节点对应的相关子网络,构建全局非生物相关的质谱干扰特征峰网络;
确定模块,对所述全局非生物相关的质谱干扰特征峰网络进行优化,将所述全局非生物相关的质谱干扰特征峰网络中的核心节点对应的代谢物确定为待检测生物样本中代谢物特征峰的最终鉴定结果。
10.一种计算机设备,包括:存储器和处理器,
所述存储器,用于存储有计算机程序;
所述处理器,用于执行所述存储器中存储的计算机程序,所述计算机程序运行时使得所述处理器执行权利要求1至8中任意一项所述的鉴定已知和未知代谢物的分析方法的步骤。
CN202210318586.0A 2022-03-29 2022-03-29 鉴定已知和未知代谢物的分析方法、装置和设备 Active CN114923992B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210318586.0A CN114923992B (zh) 2022-03-29 2022-03-29 鉴定已知和未知代谢物的分析方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210318586.0A CN114923992B (zh) 2022-03-29 2022-03-29 鉴定已知和未知代谢物的分析方法、装置和设备

Publications (2)

Publication Number Publication Date
CN114923992A true CN114923992A (zh) 2022-08-19
CN114923992B CN114923992B (zh) 2023-05-26

Family

ID=82805654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210318586.0A Active CN114923992B (zh) 2022-03-29 2022-03-29 鉴定已知和未知代谢物的分析方法、装置和设备

Country Status (1)

Country Link
CN (1) CN114923992B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115389689A (zh) * 2022-08-26 2022-11-25 江南大学 一种处理代谢组学质谱数据鉴定化合物结构的方法
CN115938490A (zh) * 2023-03-07 2023-04-07 之江实验室 一种基于图表示学习算法的代谢物鉴定方法、系统和设备
CN116665764A (zh) * 2023-05-18 2023-08-29 中南大学 一种预测代谢网络中的缺失反应的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622532A (zh) * 2012-02-27 2012-08-01 中国药科大学 一种复杂药物体内外物质组关联构建代谢网络的方法
US20140212872A1 (en) * 2011-07-01 2014-07-31 Michael Milburn Identity Elucidation of Unknown Metabolites
CN104458983A (zh) * 2013-09-16 2015-03-25 中国科学院大连化学物理研究所 一种有效获取血清小分子代谢物信息的方法
US20170046476A1 (en) * 2015-08-10 2017-02-16 Leila Pirhaji Systems, apparatus, and methods for analyzing and predicting cellular pathways
US20170227545A1 (en) * 2014-06-10 2017-08-10 The Board Of Trustees Of The University Of Illinois Reactivity-based screening for natural product discovery
US20180011990A1 (en) * 2016-07-05 2018-01-11 University Of Kentucky Research Foundation Method and system for identification of metabolites
CN107729721A (zh) * 2017-10-17 2018-02-23 中国科学院上海有机化学研究所 一种代谢物鉴定及紊乱通路分析方法
CN109920473A (zh) * 2019-04-02 2019-06-21 中国科学院城市环境研究所 一种代谢组学标志物权重分析通用方法
US20210192370A1 (en) * 2018-05-16 2021-06-24 B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University Identification and prediction of metabolic pathways from correlation-based metabolite networks

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140212872A1 (en) * 2011-07-01 2014-07-31 Michael Milburn Identity Elucidation of Unknown Metabolites
CN102622532A (zh) * 2012-02-27 2012-08-01 中国药科大学 一种复杂药物体内外物质组关联构建代谢网络的方法
CN104458983A (zh) * 2013-09-16 2015-03-25 中国科学院大连化学物理研究所 一种有效获取血清小分子代谢物信息的方法
US20170227545A1 (en) * 2014-06-10 2017-08-10 The Board Of Trustees Of The University Of Illinois Reactivity-based screening for natural product discovery
US20170046476A1 (en) * 2015-08-10 2017-02-16 Leila Pirhaji Systems, apparatus, and methods for analyzing and predicting cellular pathways
US20180011990A1 (en) * 2016-07-05 2018-01-11 University Of Kentucky Research Foundation Method and system for identification of metabolites
CN107729721A (zh) * 2017-10-17 2018-02-23 中国科学院上海有机化学研究所 一种代谢物鉴定及紊乱通路分析方法
US20210192370A1 (en) * 2018-05-16 2021-06-24 B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University Identification and prediction of metabolic pathways from correlation-based metabolite networks
CN109920473A (zh) * 2019-04-02 2019-06-21 中国科学院城市环境研究所 一种代谢组学标志物权重分析通用方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JI HONGCHAO 等: "Deep MS/MS-Aided Structural-Similarity Scoring for Unknown Metabolite Identification", ANALYTICAL CHEMISTRY *
刘彦伯 等: "基于质谱信号的代谢物鉴定:生物信息学的机遇与挑战", 生命的化学 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115389689A (zh) * 2022-08-26 2022-11-25 江南大学 一种处理代谢组学质谱数据鉴定化合物结构的方法
CN115389689B (zh) * 2022-08-26 2023-11-28 江南大学 一种处理代谢组学质谱数据鉴定化合物结构的方法
CN115938490A (zh) * 2023-03-07 2023-04-07 之江实验室 一种基于图表示学习算法的代谢物鉴定方法、系统和设备
CN116665764A (zh) * 2023-05-18 2023-08-29 中南大学 一种预测代谢网络中的缺失反应的方法
CN116665764B (zh) * 2023-05-18 2024-03-15 中南大学 一种预测代谢网络中的缺失反应的方法

Also Published As

Publication number Publication date
CN114923992B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
Verheggen et al. Anatomy and evolution of database search engines—a central component of mass spectrometry based proteomic workflows
CN114923992B (zh) 鉴定已知和未知代谢物的分析方法、装置和设备
Senan et al. CliqueMS: a computational tool for annotating in-source metabolite ions from LC-MS untargeted metabolomics data based on a coelution similarity network
Blaženović et al. Comprehensive comparison of in silico MS/MS fragmentation tools of the CASMI contest: database boosting is needed to achieve 93% accuracy
Allard et al. Deep metabolome annotation in natural products research: towards a virtuous cycle in metabolite identification
Draper et al. Metabolite signal identification in accurate mass metabolomics data with MZedDB, an interactive m/z annotation tool utilising predicted ionisation behaviour'rules'
Böcker et al. Fragmentation trees reloaded
Wang et al. pFind 2.0: a software package for peptide and protein identification via tandem mass spectrometry
Hufsky et al. Computational mass spectrometry for small-molecule fragmentation
Jaitly et al. Decon2LS: An open-source software package for automated processing and visualization of high resolution mass spectrometry data
CN107729721B (zh) 一种代谢物鉴定及紊乱通路分析方法
Rogers et al. Probabilistic assignment of formulas to mass peaks in metabolomics experiments
Hummel et al. ProMEX: a mass spectral reference database for proteins and protein phosphorylation sites
Hummel et al. The Golm Metabolome Database: a database for GC-MS based metabolite profiling
Lam Building and searching tandem mass spectral libraries for peptide identification
Yu et al. SeqOthello: querying RNA-seq experiments at scale
EP3544016B1 (en) Methods for combining predicted and observed mass spectral fragmentation data
Ludwig et al. De novo molecular formula annotation and structure elucidation using SIRIUS 4
Xing et al. BUDDY: molecular formula discovery via bottom-up MS/MS interrogation
Godzien et al. Metabolite annotation and identification
LAZAR et al. Bioinformatics Tools for Metabolomic Data Processing and Analysis Using Untargeted Liquid Chromatography Coupled With Mass Spectrometry.
Yu et al. Reproducible untargeted metabolomics workflow for exhaustive MS2 data acquisition of MS1 features
Wu et al. Network-based integrative analysis of single-cell transcriptomic and epigenomic data for cell types
US20240347141A1 (en) Chemical peak finder model for unknown compound detection and identification
CN115938490A (zh) 一种基于图表示学习算法的代谢物鉴定方法、系统和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant