CN107729721B - 一种代谢物鉴定及紊乱通路分析方法 - Google Patents

一种代谢物鉴定及紊乱通路分析方法 Download PDF

Info

Publication number
CN107729721B
CN107729721B CN201710967016.3A CN201710967016A CN107729721B CN 107729721 B CN107729721 B CN 107729721B CN 201710967016 A CN201710967016 A CN 201710967016A CN 107729721 B CN107729721 B CN 107729721B
Authority
CN
China
Prior art keywords
metabolite
peak
metabolites
retention time
identification result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710967016.3A
Other languages
English (en)
Other versions
CN107729721A (zh
Inventor
朱正江
申小涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Organic Chemistry of CAS
Original Assignee
Shanghai Institute of Organic Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Organic Chemistry of CAS filed Critical Shanghai Institute of Organic Chemistry of CAS
Priority to CN201710967016.3A priority Critical patent/CN107729721B/zh
Publication of CN107729721A publication Critical patent/CN107729721A/zh
Application granted granted Critical
Publication of CN107729721B publication Critical patent/CN107729721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Electrochemistry (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种代谢物鉴定和紊乱代谢通路分析方法。本发明的代谢物鉴定方法利用代谢反应网络中的具有反应关系的第一代谢物、第二代谢物之间结构类似的特点以及反应关系,使用已鉴定出来第一代谢物的二级谱图对与其有反应关系的第二代谢物进行鉴定,进一步使用已鉴定出来的第二代谢物的二级谱图对与其有反应关系的新的第二代谢物进行鉴定,该方法循环进行直到无法鉴定新的第二代谢物,从而扩大代谢物的鉴定覆盖范围;紊乱代谢通路分析方法利用具有反应关系的代谢物在代谢反应网络中聚集的特点,避免错误注释对通路分析的影响,直接得到紊乱网络和紊乱代谢通路信息。

Description

一种代谢物鉴定及紊乱通路分析方法
技术领域
本发明涉及代谢组学数据分析技术领域,尤其涉及一种基于代谢反应网络的代谢物鉴定和紊乱代谢通路分析方法。
背景技术
代谢组学主要是通过解析体内小分子的含量和种类的变化来研究生命系统的生理和病理状态。近年来,代谢组学因为其简便、快速、信息量丰富的特点,在生物标志物研究、精准医学等领域得到了广泛的重视和应用。
目前,代谢组学的分析技术主要以核磁共振谱(Nuclear magnetic resonance,NMR)和质谱(Mass spectrometry,MS)为核心。近年来,质谱技术因为其高灵敏度、高分辨率和宽检测动态范围等特点,在代谢组学领域应用越来越广泛。
基于质谱的代谢组学领域,最为重要的便是代谢物的结构鉴定(或者称为注释)以及如何从质谱数据中获取有效的生物学信息。对于代谢物的注释,最为直接并且简单的便是使用一级质谱数据-质核比(Mass to charge ratio,m/z)在数据库中进行匹配。然而这种方式却并不可靠,同一个m/z经常对应着多达数十个代谢物。为了解决这个问题,现在更为常用并为大家所公认的就是使用代谢物标准二级谱图(MS/MS spectrum)数据库以及色谱保留时间(Retention time,RT)进行代谢物鉴定。这种方法大大提高了代谢物鉴定的精确度和可靠性。
然而,这样的方法仍然存在着以下缺点。首先,需要大量的代谢物标准品采集标准二级谱图,标准品的购买以及标准谱图库的建立非常的费时、费力以及费钱,并且有些代谢物的标准品并不能通过商业购买得到。另外,不同质谱平台采集的二级谱图并不完全一致,为了精确的鉴定代谢物,每个用户需要在自己实验室质谱平台上采集标准品的二级谱图,建立标准品二级谱图数据库。因此,通过实验方法建立标准品二级谱图数据库非常困难并且数目也极其有限。其次,不同实验室、不同样品需要不同的流动相体系,同一个实验室的流动相体系可能就多达十种以上,因此对每一种流动相体系都采集代谢物标准品的保留时间也是不现实的。所以,在代谢组学领域,代谢物的结构鉴定已经成为其发展的最大瓶颈之一。
针对上述的现有的代谢物的结构鉴定方法存在的问题,需要提供一种成本低、准确性高的代谢物鉴定和紊乱代谢通路分析方法,并且能够克服代谢物标准二级谱图库数量不足的限制。
发明内容
为解决上述问题,本发明提供一种代谢物鉴定和紊乱代谢通路分析方法,利用代谢反应网络中的一个反应对的两个相邻代谢物的结构类似的特点,根据标准二级谱图库中的已知二级谱图的第一代谢物确定未知二级谱图的第二代谢物,从而克服代谢物标准二级谱图库数量不足的限制。
为实现上述目的,本发明的一种代谢物鉴定方法,包括如下步骤:
S11、建立二级谱图数据库和代谢反应网络数据库,所述二级谱图数据库包括多个第一代谢物对应的多个第一二级谱图,所述代谢反应网络数据库包括由所述第一代谢物以及分别与所述第一代谢物之间具有直接或者间接反应关系的多个第二代谢物构成的代谢反应网络;
S12、获取待测生物样品中的多个代谢物峰及各个所述代谢物峰对应的保留时间和实验二级谱图;
S13、确定各个所述实验二级谱图与所述第一二级谱图的相似度,将所述代谢物峰确定为与其相似度大于预设匹配值的所述第一二级谱图对应的第一代谢物,并将其作为所述代谢物峰的第一二级谱图鉴定结果;
S14、根据所述第一二级谱图鉴定结果对应的代谢物峰的所述保留时间建立保留时间预测模型,并且根据所述保留时间预测模型预测所述代谢反应网络数据库中的各个所述第一代谢物和各个所述第二代谢物的理论保留时间;
S15、根据各个所述理论保留时间和各个所述代谢物峰对应的保留时间,将所述代谢物峰确定为与其保留时间的误差在设定误差范围内的理论保留时间所对应的第一代谢物,并将其作为所述代谢物峰的第二二级谱图鉴定结果;
S16、根据所述第二二级谱图鉴定结果和所述代谢反应网络数据库,对各个所述代谢物峰进行循环代谢物鉴定,并根据鉴定结果确定所述待测生物样品内各个代谢物峰的最终鉴定结果。
进一步地,在所述步骤S14中,建立所述保留时间预测模型之前,先对所述第一二级谱图鉴定结果内的所述代谢物峰进行筛选,得到与所述第一代谢物一一对应匹配的所述代谢物峰,再根据其建立所述保留时间预测模型。
进一步地,所述保留时间预测模型采用多元线性模型、随机森林模型、偏最小二乘法、支持向量机模型、人工神经网络中任意一种方法建立。
进一步地,在所述步骤S16中,所述循环代谢物鉴定的方法为:
将所述第二二级谱图鉴定结果内的各个代谢物峰作为种子,并根据所述第二二级谱图鉴定结果在所述代谢反应网络中寻找第二二级谱图鉴定结果的临近代谢物,与所述待测生物样品中的所述代谢物峰进行匹配,匹配上的第一代谢物或第二代谢物作为匹配上的所述代谢物峰的最终鉴定结果;然后再将鉴定出来的代谢物峰作为新的种子,重复上述鉴定过程,直至没有新的代谢物峰被鉴定出来。
进一步地,在所述步骤S16中,还包括,对所述鉴定结果打分,根据打分结果去除冗余数据,得到所述待测生物样品内各个代谢物峰的最终鉴定结果。
本发明还提供一种基于上述的代谢物鉴定方法的紊乱代谢通路分析方法,包括如下步骤:
S21、对待检测的代谢物组进行统计分析,根据分析结果获取多个差异代谢物峰;
S22、对所述差异代谢物峰进行紊乱模块分析,确定所述差异代谢物峰对应的紊乱模块和紊乱网络;
S23、对所述差异代谢物峰进行紊乱代谢通路分析,确定所述差异代谢物峰对应的紊乱代谢通路;
S24、根据所述差异代谢物峰的所述紊乱模块和所述紊乱代谢通路,确定所述紊乱代谢通路中包含的所述代谢物峰的定量数据。
进一步地,所述步骤S22中,先通过单变量分析和/或多变量分析对所述差异代谢物峰进行筛选,并对筛选后的所述差异代谢物峰进行紊乱模块分析;其中,被筛选掉的所述差异代谢物峰包括:无所述鉴定结果且不满足设定规则的所述差异代谢物峰。
进一步地,所述步骤S22中,所述紊乱模块分析的方法为:使用所述差异代谢物峰所对应的所有鉴定结果从所述代谢反应网络数据库中提取对应的第一代谢物和第二代谢物,构建一个次级网络,利用社群分析算法确定所述次级网络中的所述紊乱模块,对各个所述紊乱模块进行打分并筛选所述紊乱模块,根据筛选后的紊乱模块生成所述紊乱网络。
进一步地,所述步骤S23中,确定所述差异代谢物峰对应的所述紊乱代谢通路后,利用代谢通路富集分析方法,校正所述紊乱代谢通路。
进一步地,所述定量数据包括所述代谢物的强度的中位值、平均值或者总和。
本发明的代谢物鉴定和紊乱代谢通路分析方法,能够提供一种新的代谢物鉴定以及紊乱代谢通路分析的方法。本发明的代谢物鉴定方法利用代谢反应网络中的具有反应关系的第一代谢物和第二代谢物之间结构类似的特点以及反应关系,使用已鉴定出来第一代谢物的二级谱图对与其有反应关系的第二代谢物进行鉴定,从而扩大代谢物的鉴定覆盖范围。本发明的紊乱代谢通路分析方法利用具有反应关系的代谢物在代谢反应网络中聚集的特点,避免错误注释对通路分析的影响,直接得到紊乱网络和紊乱代谢通路信息。
附图说明
图1为本发明实施例代谢物鉴定方法的流程图;
图2为本发明实施例中的代谢物反应关系示意图;
图3为本发明实施例紊乱代谢通路分析方法的流程图。
具体实施方式
下面,结合附图,对本发明的结构以及工作原理等作进一步的说明。
如图1所示,本发明一个实施例的一种代谢物鉴定方法,包括如下步骤:
S11、建立二级谱图数据库和代谢反应网络数据库。其中,二级谱图数据库包括多个第一代谢物对应的多个第一二级谱图,代谢反应网络数据库包括第一代谢物以及分别与第一代谢物之间具有直接或者间接反应关系的多个第二代谢物构成的代谢反应网络。
具体地,二级谱图数据库可以来自于实验室采集、开源数据库、商业购买数据库中的一种或者多种,其中,开源的数据库包括如MassBank,HMDB等数据库。二级谱图数据库的实验室采集平台可以是液相-质谱联用仪、气相-质谱联用仪、基质辅助激光解离质谱中的一种或者多种。标准二级普通数据库中的全部第一代谢物都是在上述数据库中能够获得第一二级谱图的数据库。
代谢反应网络数据库中的第一代谢物、第二代谢物及其之间的反应关系,可以来自于开源的数据库或者已发表文献,如京都基因与基因组百科全书数据库。从上述数据库或者文献中下载所有代谢物反应对数据,将所有代谢反应对数据合并到一起,组成代谢反应网络数据库数据库。代谢反应网络包括第一代谢物和第二代谢物以及其反应关系,第二代谢物是无法通过开源的数据库直接获得二级谱图的代谢物。如图2所示,一个节点(图2中的圆形)代表一个代谢物,两个节点之间的连线(图2中两个圆形之间的连线)代表这两个代谢物可以通过反应相互转化,这样的两个代谢物称之为临近代谢物。
S12、利用质谱获取待测生物样品中的多个代谢物峰及各个代谢物峰对应的保留时间,并且根据各个代谢物峰分别确定其对应的实验二级谱图。
具体地,获取待测生物样品中的多个代谢物峰及各个代谢物峰对应的保留时间,需要获取待检测生物样品中的多个代谢物峰的一级质谱数据,代谢物峰的一级质谱数据可以来源于任何数据处理软件,如XCMS,mzMine或者MS-DIAL等,包括多个样品和与各个样品对应的一个或者多个代谢物峰。其中每个代谢物峰由质核比和保留时间定义。
而根据各个代谢物峰分别确定其对应的实验二级谱图,需要采集各个代谢物峰的二级质谱数据,二级质谱数据的采集可以是使用数据依赖性(Data Dependent orInformation Dependent)、数据非依赖性(Data Independent)或者靶向采集的一级质谱数据中的各个代谢物峰对应的二级谱图数据。二级质谱数据包含了通过实验获得的代谢物峰的实验二级谱图,可以用来与二级谱图数据库中的各个第一代谢物的第一二级谱图进行对比,从而对代谢物峰进行鉴定。
S13、确定各个实验二级谱图与第一二级谱图的相似度,将代谢物峰确定为与其相似度大于预设匹配值的第一二级谱图对应的第一代谢物,并将其作为代谢物峰的第一二级谱图鉴定结果。
确定各个实验二级谱图与第一二级谱图的相似度可以采用不同的匹配算法,在本发明实施例中可以采用dotproduct算法,并且分别进行正向匹配和反向匹配分别计算出匹配分数,其计算公式如下:
Figure GDA0002691009540000081
其中,Expi为实验二级谱图中第i个碎片离子的离子强度,Libi为二级谱图数据库中的第i个碎片离子的离子强度,dotproduct为匹配分数。
对于正向匹配,以实验二级谱图作为基准,如果某个离子在实验二级谱图中存在,而在第一二级谱图中不存在,则该离子在第一二级谱图中离子强度设置为0;反之,如果某个离子在第一二级谱图中存在,而在实验二级谱图中不存在,则该离子在实验二级谱图中的离子强度设置为0;
对于反向匹配,以第一二级谱图为基准,如果某个离子在第一二级谱图中存在,而在实验二级谱图中不存在,则该离子在实验二级谱图中的离子强度设置为0;反之,如果某个离子在实验二级谱图中存在,而在第一二级谱图中不存在,则将该离子从实验二级谱图中去除掉。为了最大限度的得到可靠的鉴定结果,在本发明实施例中,可以设置只有dotproduct≥0.8的鉴定结果才保留下来。
需要说明的是,鉴定结果除了通过与第一二级谱图对比相似度以外,还可以从外部导入通过各种方法鉴定出来的结果,如多级碎片谱图鉴定、人工鉴定得到的代谢物、理论从头鉴定(De Novo)、理论谱图匹配鉴定等。
S14、根据第一二级谱图鉴定结果对应的代谢物峰的保留时间建立保留时间预测模型,并且根据保留时间预测模型预测代谢反应网络数据库中的各个第一代谢物和各个第二代谢物的理论保留时间。
进一步地,在步骤S14中,建立保留时间预测模型之前,先对第一二级谱图鉴定结果内的代谢物峰进行筛选,得到与第一代谢物一一对应的代谢物峰,再根据其建立保留时间预测模型。具体的筛选方法为:如果代谢物峰有正向匹配鉴定结果,鉴定结果以正向匹配鉴定结果为准;如果没有正向匹配鉴定结果,则以反向匹配鉴定结果为准;为了选择更加可靠的鉴定结果,可以只使用可靠的加合物形式的鉴定结果,如正离子模式下使用M+H,负离子模式下使用M-H;如果一个代谢物峰对应着多个鉴定结果,则以dotproduct最高的鉴定结果为准;如果一个鉴定结果对应着多个代谢物峰,则以峰强度最高的代谢物峰为准。
建立保留时间预测模型可以使用自变量分子描述符方法,从鉴定结果中选取最为可靠的鉴定结果,如正离子模式为M+H加合物形式,负离子模式为M-H加合物形式,然后使用多元线性模型、随机森林模型、偏最小二乘法、支持向量机模型、人工神经网络中任意一种方法建立保留时间预测模型。
下面以随机森林模型进行说明,随机森林模型公式如下:
RT=f(ntree*MDs+mtry*MDs);
其中,RT为保留时间,f为随机森林模型,MD为自变量分子描述符,ntree和mtry分别为随机森林的参数,ntree是每个树节点预选的变量个数,mtry为随机森林中树的个数;
建立保留时间预测模型需要选取最优的分子描述符组合,可以使用默认的(文献和实验验证)分子描述符,也可以使用训练样本集进行优化得到最优的分子描述符组合。
获取最优分子描述符之后,对随机森林模型的ntree和mtry进行优化,ntree可以分别设置为如300,500,700,900等数值,mtry也设置一定范围,如从1:最优分子描述符的长度(1,2,3,4,5…n;n是最优分子描述符的长度),拿到两个参数的组合,使用每一组组合进行建模,并选取68%作为训练集,32%作为验证集,以均方差(Mean squared error,MSE)作为指标,选择最优的参数组合;以最优参数组合建立最终的RT预测模型;
然后再使用保留时间预测模型对二级谱图数据库和代谢反应网络数据库的所有代谢物进行保留时间的预测,获得二级谱图数据库和代谢反应网络数据库中的各个代谢物的理论保留时间。
S15、根据各个理论保留时间和各个代谢物峰对应的保留时间,将代谢物峰确定为与其保留时间的误差在设定误差范围内的理论保留时间所对应的第一代谢物,并将其作为第二二级谱图鉴定结果。在本发明实施例中,可以设置误差范围小于等于30%的各个代谢物峰具备第二二级谱图鉴定结果。
S16、根据第二二级谱图鉴定结果和代谢反应网络数据库,对各个代谢物峰进行循环代谢物鉴定,并根据鉴定结果确定待测生物样品内各个代谢物峰的最终鉴定结果。
在步骤S16中,循环代谢物鉴定的方法为:
将第二二级谱图鉴定结果内的各个代谢物峰作为种子,在代谢反应网络数据库中确定与种子有反应关系的第二代谢物为临近代谢物,并寻找待测生物样品中与其匹配的代谢物峰,使该代谢物峰被鉴定为临近代谢物,同时更新所述种子,并循环鉴定待测生物样品中的其他代谢物峰,直至没有新的代谢物峰被鉴定出来。
具体地,首先选取具有第二二级谱图鉴定结果的各个代谢物峰,以代谢物峰-鉴定结果作为第一轮代谢物注释的种子,进行基于代谢反应网络数据库的代谢物注释。比如,如果代谢物峰M100T200有两个鉴定结果A和B,则M100T200-A和M100T200-B分别作为两个第一轮代谢物注释的种子用于第一轮的注释。
其中,在第一轮的注释中,代谢物注释的具体方法为:
S161、对于每个种子计算其理论的同位素峰分布,从所有的代谢物峰中,寻找可以和理论同位素峰匹配的代谢物峰,如果符合所设定的条件,则代谢物峰即被注释为同位素峰;
S162、对于每个种子计算其理论的加合物峰的质核比,然后从所有的代谢物峰中,寻找可以和理论加合物峰匹配的代谢物峰,如果符合所设定的条件,则代谢物峰被注释为加合物峰;
S163、对于每个种子寻找其在代谢反应网络数据库中的临近代谢物,计算临近代谢物的不同加合物形式的质核比,寻找可以和其匹配的代谢物峰(包括质核比,保留时间以及二级谱图相似性),如果符合所设定的条件,则代谢物峰被注释为该代谢物;其中二级谱图的相似性是指候选代谢物峰与种子的二级谱图之间的相似性。
第一轮注释结束之后,寻找新的被注释出来的代谢物作为新一轮注释的种子,重复上述代谢物注释的步骤;如果没有新的代谢物被选为下一轮注释的种子,则注释过程结束。
然后,再对鉴定结果打分,根据打分结果去除冗余数据,得到待测生物样品内各个代谢物峰的最终鉴定结果,具体方法包括:
按照注释的代谢物和保留时间对代谢物峰进行分组,含有同样注释结果(代谢物)的所有代谢物峰被归纳为一组代谢物峰组,一组代谢物峰组中的代谢物峰有着同样的注释(被注释为同一个代谢物)且保留时间处于一个区域内,如M100T200,M101T201,M102T201,M100T400,M101T401,M102T399都含有同样的注释结果A,则他们会被归纳为一组代谢物峰组,然后上述代谢物峰又根据保留时间被归纳为两个代谢物峰组,分别命名为A1,M100T200,M101T201,M102T201;A2,M100T400,M101T401,M102T399。
分组后,再根据设置好的打分规则对各组代谢物峰组进行打分,比如,如果一个代谢物峰组中含有的代谢物峰中包含是通过标准二级谱图匹配鉴定得到的,则该代谢物峰组的得分为grade 1(最为可靠);其次,对于临近代谢物注释的代谢物峰组,如果含有同位素峰,则该代谢物峰组的得分是grade 2;如果代谢物峰组不符合上述的条件,但却含有比较可靠的加合物峰(正离子为M+H,M+Na,M+NH4等;负离子为M-H,M+CH3COO,M+Cl等),则该代谢物峰组的得分为grade 3;如果以上条件都不符合,则该代谢物峰组的得分为grade 4。
然后,可以先对注释冗余进行筛选。
以metabolite redundancy定义代谢物峰组的数目除以注释代谢物的数目,代表一个代谢物平均有几个代谢物峰组,计算公式如下:
Figure GDA0002691009540000121
如果一个代谢物对应着多个代谢物峰组,则打分最低(grade 4)的代谢物峰组会被剔除掉。
Peak redundancy定义为含有注释的代谢物峰的注释代谢物的总数目除以含有注释的代谢物峰的数目,代表着一个代谢物峰平均含有几个注释,计算公式如下:
Figure GDA0002691009540000131
如果一个代谢物峰对应着多个注释,只保留打分最高的注释,其余注释被剔除掉。
根据第一轮的打分结果对冗余筛选过之后,由于代谢物峰组中代谢物峰的组成发生了变化,因此,还需要再次对每个代谢物峰组重新进行打分,重复上述打分步骤,直到peak redundancy和metabolite redundancy不再变化为止。
如图3所示,本发明还提供一种基于上述的代谢物鉴定方法的紊乱代谢通路分析方法,包括如下步骤:
S21、对待检测的代谢物组进行统计分析,根据分析结果获取多个差异代谢物峰。
其中,选取差异代谢物峰可以使用不同的规则,例如对两组数据进行单变量分析,选取p值小于设定阈值(默认为矫正p≤0.01,其中,p即错误发现的概率)的代谢物峰作为差异代谢物峰。
S22、对差异代谢物峰进行紊乱模块分析,确定差异代谢物峰对应的紊乱模块和紊乱网络;
在进行紊乱模块分析之前,需要先通过单变量分析和/或多变量分析对差异代谢物峰进行筛选,并对筛选后的差异代谢物峰进行紊乱模块分析。其中,被筛选掉的差异代谢物峰包括:无鉴定结果且不满足设定规则的差异代谢物峰,具体的筛选方法为:
对于没有注释结果的差异代谢物峰,使用核质比和保留时间在代谢反应网络数据库中进行匹配注释,例如核质比误差范围小于或者等于25ppm和保留时间误差范围小于或者等于30%,将仍然没有注释结果的差异代谢物峰剔除掉。
对于筛选后的差异代谢物峰进行紊乱模块分析,紊乱模块分析的方法为:使用差异代谢物峰所对应的所有鉴定结果从代谢反应网络数据库中提取对应的第一代谢物和第二代谢物,构建一个次级网络,利用社群分析算法确定次级网络中的紊乱模块,对各个紊乱模块进行打分并筛选紊乱模块,根据筛选后的紊乱模块生成紊乱网络,具体步骤包括:
S221、使用差异代谢物峰的所有鉴定结果,从代谢物反应网络中将提取对应的第一代谢物、第二代谢物及其之间的关系,作为一个次级网络;
S222、寻找隐藏代谢物,将这些隐藏代谢物加入到次级网络中形成包含隐藏代谢物的次级网络,其中,隐藏代谢物为可以在代谢反应网络数据库中通过一步或者两步反应将次级网络中任意两个代谢物连接起来的代谢物;
S223、通过社群分析方法,可以从次级网络中找到聚集紧密的模块;
S224、对找到的模块进行打分,该得分用来反映模块内部代谢物之间的连接紧密程度,以及每个模块检测到代谢物的比例。模块得分Activity score的计算公式如下:
Figure GDA0002691009540000141
Figure GDA0002691009540000151
其中,NI,G为模块中检测到代谢物的数目,NG为模块总的代谢物数目,NI为次级网络中检测到代谢物的总数目,EG为模块中两个节点之间的连线的数目,m是指次级网络中两个节点之间的连线的总数目,Ki为代谢物i在次级网络中与其他节点之间的连线的数目,Kj是指代谢物j在次级网络中与其他节点之间的连线的数目;
S225、为了去除掉随机生成的模块,需要有随机生成的模块作为对照。因此,在所有代谢物峰中随机选取和差异代谢物峰相同数目的代谢物峰作为参考峰,然后重复进行紊乱模块分析并进行打分(在本发明实施例中,可以重复20次),即可得到许多随机生成的随机模块的模块得分,这些模块得分符合伽马分布(gamma distribution),利用最大似然法可以得到该gamma分布的理论参数,从而建立其理论分布模型,对模块进行假设检验分析,得到每个模块的p值;
S226、将p值小于设定阈值(在本发明实施例中设置为0-0.05)的模块作为紊乱模块,将所有的紊乱模块合并起来作为紊乱网络。
S23、对差异代谢物峰进行紊乱代谢通路分析,确定差异代谢物峰对应的紊乱代谢通路。确定差异代谢物峰对应的紊乱代谢通路后,利用代谢通路富集分析方法,校正紊乱代谢通路。
具体地,得到差异代谢物峰之后,对其进行紊乱代谢通路分析,得到每条通路的富集p值以及富集到代谢物的比例。为了计算每条通路富集得到的p值和每条通路富集到代谢物的比例值是否是由于差异代谢物峰的错误注释造成的,在从所有代谢物峰中随机选取和差异代谢物峰数目相同的参考峰,重复对其进行紊乱代谢通路分析(在本发明实施例中,可以设置为重复100次),得到每条通路的一系列的随机富集p值和每条通路富集到代谢物的比例值,利用其分布,计算使用差异代谢物峰进行通路分析得到的p值和通路富集到代谢物的比例值是否显著,从而得到紊乱代谢通路。
S24、根据差异代谢物峰的紊乱模块和紊乱代谢通路,确定每个紊乱模块和紊乱代谢通路在待检测样品中包含的代谢物峰的定量数据。其中,定量数据包括代谢物的强度的中位值、平均值或者总和。
下面以通路为例描述获得定量数据的方法,具体如下:
首先,对于某个紊乱代谢通路,寻找其检测到的代谢物对应的代谢物峰组,如果只对应着一个代谢物峰组,则该代谢物的强度使用其中一个代谢物峰进行作为代表。选择代谢物峰有两种方式,一种是选取峰强度最大的峰,另外是将加合物峰形式按照出现的频率从大到小进行排列,选择出现在排位最靠前的代谢物峰。如果代谢物对应着多个代谢物峰组,则按照同样的方法选择出每个代谢物峰组的代表代谢物峰,然后计算该代谢物的多个代表代谢物峰与其直接连接的且只有一个代谢物峰组的代谢物的相关性,选择相关性大的代表代谢物峰作为该代谢物的代表;
然后,对紊乱代谢通路中的所有代谢物,计算他们的强度的中位值、平均值或者总和作为其定量数据。
以上,仅为本发明的示意性描述,本领域技术人员应该知道,在不偏离本发明的工作原理的基础上,可以对本发明作出多种改进,这均属于本发明的保护范围。

Claims (10)

1.一种代谢物鉴定方法,其特征在于,包括如下步骤:
S11、建立二级谱图数据库和代谢反应网络数据库,所述二级谱图数据库包括多个第一代谢物对应的多个第一二级谱图,所述代谢反应网络数据库包括由所述第一代谢物以及分别与所述第一代谢物之间具有直接或者间接反应关系的多个第二代谢物构成的代谢反应网络;
S12、获取待测生物样品中的多个代谢物峰及各个所述代谢物峰对应的保留时间和实验二级谱图;
S13、确定各个所述实验二级谱图与所述第一二级谱图的相似度,将所述代谢物峰确定为与其相似度大于预设匹配值的所述第一二级谱图对应的第一代谢物,并将其作为所述代谢物峰的第一二级谱图鉴定结果;
S14、根据所述第一二级谱图鉴定结果对应的代谢物峰的所述保留时间建立保留时间预测模型,并且根据所述保留时间预测模型预测所述代谢反应网络数据库中的各个所述第一代谢物和各个所述第二代谢物的理论保留时间;
S15、根据各个所述理论保留时间和各个所述代谢物峰对应的保留时间,将所述代谢物峰确定为与其保留时间的误差在设定误差范围内的理论保留时间所对应的第一代谢物,并将其作为所述代谢物峰的第二二级谱图鉴定结果;
S16、根据所述第二二级谱图鉴定结果和所述代谢反应网络数据库,对各个所述代谢物峰进行循环代谢物鉴定,并根据鉴定结果确定所述待测生物样品内各个代谢物峰的最终鉴定结果。
2.如权利要求1所述的代谢物鉴定方法,其特征在于,在所述步骤S14中,建立所述保留时间预测模型之前,先对所述第一二级谱图鉴定结果内的所述代谢物峰进行筛选,得到与所述第一代谢物一一对应匹配的所述代谢物峰,再根据其建立所述保留时间预测模型。
3.如权利要求1所述的代谢物鉴定方法,其特征在于,所述保留时间预测模型采用多元线性模型、随机森林模型、偏最小二乘法、支持向量机模型、人工神经网络中任意一种方法建立。
4.如权利要求1所述的代谢物鉴定方法,其特征在于,在所述步骤S16中,所述循环代谢物鉴定的方法为:
将所述第二二级谱图鉴定结果内的各个代谢物峰作为种子,并根据所述第二二级谱图鉴定结果在所述代谢反应网络中寻找第二二级谱图鉴定结果的临近代谢物,与所述待测生物样品中的所述代谢物峰进行匹配,匹配上的第一代谢物或第二代谢物作为匹配上的所述代谢物峰的最终鉴定结果;然后再将鉴定出来的代谢物峰作为新的种子,重复上述鉴定过程,直至没有新的代谢物峰被鉴定出来。
5.如权利要求4所述的代谢物鉴定方法,其特征在于,在所述步骤S16中,还包括,对所述鉴定结果打分,根据打分结果去除冗余数据,得到所述待测生物样品内各个代谢物峰的最终鉴定结果。
6.一种基于权利要求1-4中任一项所述的代谢物鉴定方法的紊乱代谢通路分析方法,其特征在于,包括如下步骤:
S21、对待检测的代谢物组进行统计分析,根据分析结果获取多个差异代谢物峰;
S22、对所述差异代谢物峰进行紊乱模块分析,确定所述差异代谢物峰对应的紊乱模块和紊乱网络;
S23、对所述差异代谢物峰进行紊乱代谢通路分析,确定所述差异代谢物峰对应的紊乱代谢通路;
S24、根据所述差异代谢物峰的所述紊乱模块和所述紊乱代谢通路,确定所述紊乱代谢通路中包含的所述代谢物峰的定量数据。
7.如权利要求6所述的紊乱代谢通路分析方法,其特征在于,所述步骤S22中,先通过单变量分析和/或多变量分析对所述差异代谢物峰进行筛选,并对筛选后的所述差异代谢物峰进行紊乱模块分析;其中,被筛选掉的所述差异代谢物峰包括:无所述鉴定结果且不满足设定规则的所述差异代谢物峰。
8.如权利要求6所述的紊乱代谢通路分析方法,其特征在于,所述步骤S22中,所述紊乱模块分析的方法为:使用所述差异代谢物峰所对应的所有鉴定结果从所述代谢反应网络数据库中提取对应的第一代谢物和第二代谢物,构建一个次级网络,利用社群分析算法确定所述次级网络中的所述紊乱模块,对各个所述紊乱模块进行打分并筛选所述紊乱模块,根据筛选后的紊乱模块生成所述紊乱网络。
9.如权利要求6所述的紊乱代谢通路分析方法,其特征在于,所述步骤S23中,确定所述差异代谢物峰对应的所述紊乱代谢通路后,利用代谢通路富集分析方法,校正所述紊乱代谢通路。
10.如权利要求6所述的紊乱代谢通路分析方法,其特征在于,所述定量数据包括所述代谢物的强度的中位值、平均值或者总和。
CN201710967016.3A 2017-10-17 2017-10-17 一种代谢物鉴定及紊乱通路分析方法 Active CN107729721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710967016.3A CN107729721B (zh) 2017-10-17 2017-10-17 一种代谢物鉴定及紊乱通路分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710967016.3A CN107729721B (zh) 2017-10-17 2017-10-17 一种代谢物鉴定及紊乱通路分析方法

Publications (2)

Publication Number Publication Date
CN107729721A CN107729721A (zh) 2018-02-23
CN107729721B true CN107729721B (zh) 2021-01-19

Family

ID=61211730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710967016.3A Active CN107729721B (zh) 2017-10-17 2017-10-17 一种代谢物鉴定及紊乱通路分析方法

Country Status (1)

Country Link
CN (1) CN107729721B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735532B (zh) * 2020-10-15 2023-08-22 华南理工大学 基于分子指纹预测的代谢物识别系统及其应用方法
CN114594171B (zh) * 2020-12-03 2023-12-15 中国科学院大连化学物理研究所 一种代谢组深度注释方法
CN114609318B (zh) * 2020-12-03 2024-03-12 中国科学院大连化学物理研究所 一种基于分子结构关联网络的规模化代谢组定性方法
CN114624340B (zh) * 2020-12-08 2022-11-08 中国科学院大连化学物理研究所 一种植物中病虫害介导的植物抗性相关次生代谢物的鉴定方法
CN113049664B (zh) * 2021-03-15 2022-11-22 东华理工大学 一种基于质谱代谢组学的通路分析建模方法
CN113295759B (zh) * 2021-05-31 2022-08-05 西南大学 一种筛选代谢组中差异代谢物的方法
CN114295766B (zh) * 2021-12-24 2022-12-02 中国科学院上海有机化学研究所 基于稳定同位素标记的代谢组学数据的处理方法和装置
CN114923992B (zh) * 2022-03-29 2023-05-26 中国科学院上海有机化学研究所 鉴定已知和未知代谢物的分析方法、装置和设备
CN115876929B (zh) * 2023-02-27 2023-05-30 北京师范大学 新烟碱类杀虫剂及其转化产物的筛选和鉴定方法及系统
CN115938490B (zh) * 2023-03-07 2023-06-06 之江实验室 一种基于图表示学习算法的代谢物鉴定方法、系统和设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102305802A (zh) * 2011-08-26 2012-01-04 重庆医科大学 Hbv感染性与酒精性肝硬化差异表达图谱模型及其构建方法
CN102323363A (zh) * 2011-06-13 2012-01-18 中国科学院计算机网络信息中心 化合物的色谱-质谱联用鉴定方法
CN102622532A (zh) * 2012-02-27 2012-08-01 中国药科大学 一种复杂药物体内外物质组关联构建代谢网络的方法
CN103235073A (zh) * 2013-04-15 2013-08-07 湖南省食品药品检验研究院 一种基于急性过敏反应的代谢组学分析方法
CN104076115A (zh) * 2014-06-26 2014-10-01 云南民族大学 基于峰强度识别能力的蛋白质二级质谱鉴定方法
CN104483409A (zh) * 2014-12-12 2015-04-01 河北农业大学 一种基于指纹图谱的金黄色葡萄球菌鉴别方法
CN106370739A (zh) * 2016-08-18 2017-02-01 四川好医生攀西药业有限责任公司 康复新液制剂指纹图谱的质量测定方法及标准指纹图谱

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITUD20130021A1 (it) * 2013-02-20 2014-08-21 Alifax Holding S P A Procedimento per l'identificazione di classi batteriche tramite gas cromatografia/spettrometria di massa in campioni biologici

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102323363A (zh) * 2011-06-13 2012-01-18 中国科学院计算机网络信息中心 化合物的色谱-质谱联用鉴定方法
CN102305802A (zh) * 2011-08-26 2012-01-04 重庆医科大学 Hbv感染性与酒精性肝硬化差异表达图谱模型及其构建方法
CN102622532A (zh) * 2012-02-27 2012-08-01 中国药科大学 一种复杂药物体内外物质组关联构建代谢网络的方法
CN103235073A (zh) * 2013-04-15 2013-08-07 湖南省食品药品检验研究院 一种基于急性过敏反应的代谢组学分析方法
CN104076115A (zh) * 2014-06-26 2014-10-01 云南民族大学 基于峰强度识别能力的蛋白质二级质谱鉴定方法
CN104483409A (zh) * 2014-12-12 2015-04-01 河北农业大学 一种基于指纹图谱的金黄色葡萄球菌鉴别方法
CN106370739A (zh) * 2016-08-18 2017-02-01 四川好医生攀西药业有限责任公司 康复新液制剂指纹图谱的质量测定方法及标准指纹图谱

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Data, information, knowledge and principle: back to metabolism in KEGG;Minoru Kanehisa 等;《Nucleic Acids Research》;20131107;第42卷;第D199-D205页 *
Metabolite identification and quantitation in LC-MS/MS-based metabolomics;Jun Feng Xiao 等;《Trends Analyt Chem》;20120201;第32卷;第1-14页 *
MIDAS: A Database-Searching Algorithm for Metabolite Identfication in Metabolomics;Yingfeng Wang 等;《Analysis Chemistry》;20140826(第86期);第9496-9503页 *
当归挥发油干预大鼠LPS炎症模型的相关代谢物及代谢通路;华永丽;《中国博士学位论文全文数据库 医药卫生科技辑》;20150515;第2015年卷(第05期);第E057-49页 *
微生物代谢通量及代谢途径分析;桑萍;《中国优秀硕士学位论文全文数据库 基础科学辑》;20140615;第2014年卷(第06期);第A006-108页 *

Also Published As

Publication number Publication date
CN107729721A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107729721B (zh) 一种代谢物鉴定及紊乱通路分析方法
Böcker et al. Fragmentation trees reloaded
US11681778B2 (en) Analysis data processing method and analysis data processing device
US8543625B2 (en) Methods and systems for analysis of multi-sample, two-dimensional data
CN114923992B (zh) 鉴定已知和未知代谢物的分析方法、装置和设备
CN110544047A (zh) 一种不良数据辨识方法
Habchi et al. An innovative chemometric method for processing direct introduction high resolution mass spectrometry metabolomic data: Independent component–discriminant analysis (IC–DA)
CN114283884A (zh) 原始谱图处理方法、装置、计算机设备及存储介质
KR101311412B1 (ko) 당 동정을 위한 새로운 생물정보처리 분석 방법
CN115810409A (zh) VOCs污染物分析方法及其装置、电子设备、存储介质
WO2011123837A2 (en) Method and system using computer simulation for the quantitative analysis of glycan biosynthesis
Yu et al. Label-free quantification with FDR-controlled match-between-runs
CN114783539A (zh) 一种基于光谱聚类的中药成分分析方法及系统
CN114067169A (zh) 一种基于卷积神经网络的拉曼光谱分析方法
Kim et al. An ensemble regularization method for feature selection in mass spectral fingerprints
Zeng A Machine-Learning-Based Algorithm for Peptide Feature Detection from Protein Mass Spectrometry Data
WO2023037293A2 (en) Ion type tailored library search pre-processing, constraints and spectral database building
US20230288384A1 (en) Method for determining small molecule components of a complex mixture, and associated apparatus and computer program product
WO2023037306A2 (en) Three-dimensional chemical peak finder for qualitative and quantitative analytical workflows
WO2023037295A2 (en) Chemical peak finder model for unknown compound detection and identification
Nikolikj et al. Sensitivity Analysis of RF+ clust for Leave-one-problem-out Performance Prediction
CN116106464B (zh) 质谱数据质量程度或概率的控制系统、评估系统及方法
CN113744814B (zh) 基于贝叶斯后验概率模型的质谱数据搜库方法及系统
CN116313155A (zh) 一种基于脂质组学方法的疾病关联演化系统与方法
LaMarche Methods for comparing metaproteomic data in the absence of metagenomic information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant