CN111210876B - 一种受扰动代谢通路确定方法及系统 - Google Patents

一种受扰动代谢通路确定方法及系统 Download PDF

Info

Publication number
CN111210876B
CN111210876B CN202010008409.3A CN202010008409A CN111210876B CN 111210876 B CN111210876 B CN 111210876B CN 202010008409 A CN202010008409 A CN 202010008409A CN 111210876 B CN111210876 B CN 111210876B
Authority
CN
China
Prior art keywords
metabolite
biological sample
metabolites
matrix
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010008409.3A
Other languages
English (en)
Other versions
CN111210876A (zh
Inventor
董继扬
张璇
邓伶莉
许晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202010008409.3A priority Critical patent/CN111210876B/zh
Publication of CN111210876A publication Critical patent/CN111210876A/zh
Application granted granted Critical
Publication of CN111210876B publication Critical patent/CN111210876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明涉及一种受扰动代谢通路确定方法及系统,包括:获取待测生物样本;采用高通量分析技术和谱数据处理方法对生物样本进行分析和处理,得健康和异常生物样本代谢物的浓度集合;计算健康生物样本代谢物集合中任意两种代谢物的健康生物样本浓度比值对数,得健康生物样本浓度比值对数集;同理得异常生物样本浓度比值对数集;根据上述浓度比值对数集确定偏离系数集;根据偏离系数集确定代谢物的扰动矩阵;获取通路隶属矩阵;根据代谢物的扰动矩阵和通路隶属矩阵确定代谢通路扰动矩阵;采用单边T检验对代谢通路扰动矩阵分析,确定受扰动代谢通路。通过本发明上述方法能准确获取显著受扰动的疾病代谢通路,降低生物样品的个体间差异对于通路识别的影响。

Description

一种受扰动代谢通路确定方法及系统
技术领域
本发明涉及代谢通路分析技术领域,特别是涉及一种受扰动代谢通路确定方法及系统。
背景技术
代谢组学方法是一种借助高通量、高灵敏度与高精度的现代分析技术,通过研究代谢系统复杂的、动态的变化规律,对研究对象的生理病理状态进行较为详尽的分析。近年来,随着代谢组学技术和相应的数据分析技术的飞速发展,对生物代谢通路的研究以及对其与疾病相关的代谢组学研究也取得了快速的发展。在疾病的发展过程中,通常伴随着一些重要代谢通路的扰动受损,鉴定与特定疾病相关的受扰动代谢通路,对研究疾病的发生过程具有重要意义,且由于受扰动代谢通路可作为药物作用靶点,进而对疾病进行有效的治疗,因此对代谢通路的研究是发展个性化疾病诊疗的关键之一,同时可为探索疾病的发病机制和药物作用靶点提供重要线索。
近年来,研究者提出一些代谢通路分析方法,如代谢组学领域常用软件MetaboAnalyst(http://www.metaboanalyst.ca)中的通路分析模块MPEA(metabolitepathway enrichment analysis)。这些代谢通路分析方法通常包括如下三个步骤:首先,利用多变量或单变量统计方法,筛选对照组和疾病组之间的显著差异(如,均值差异)代谢物;其次,根据代谢通路数据库(如,KEGG和HMDB)得到显著差异代谢物的代谢通路隶属关系;最后,根据各代谢通路上显著差异代谢物的数量,利用统计方法计算各通路的富集指数,判断受扰动的代谢通路。然而,在疾病研究中,由于生物个体间的差异以及疾病严重程度的不同,代谢物水平在同一研究组内的不同个体之间可能存在差异。例如,某些代谢物的扰动可能只出现在部分疾病样本中;代谢水平在部分疾病样本中出现上调,而在另一部分疾病样本中可能保持平稳或者出现下调。传统基于组间差异的统计方法(如均值差异)很难识别这类代谢物的作用,因此很难对显著差异代谢物进行准确界定。此外,由于实验样品获取困难,以及样品分析费用高等限制,目前大多数代谢组学研究的样本量都很少,而当样本量较小时,离群样本点也将对基于组间差异的统计结果产生较大影响,进而影响后续通路分析的鲁棒性和准确性。
发明内容
基于此,本发明的目的是提供一种受扰动代谢通路确定方法及系统,以降低生物样本的个体差异对于受扰动通路识别的影响。
为实现上述目的,本发明提供了如下方案:
一种受扰动代谢通路确定方法,所述受扰动代谢通路确定方法包括:
获取待测生物样本;所述待测生物样本包括多个异常生物样本和多个健康生物样本;
采用高通量分析技术和谱数据处理方法分别对所述健康生物样本和所述异常生物样本进行分析,得到健康生物样本代谢物的浓度集合以及异常生物样本代谢物的浓度集合;所述健康生物样本代谢物的浓度集合以及所述异常生物样本代谢物的浓度集合中均包括多种代谢物的浓度;
计算所述健康生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到健康生物样本中代谢物浓度比值对数集;
计算所述异常生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到异常生物样本中代谢物浓度比值对数集;
根据所述健康生物样本中代谢物浓度比值对数集和所述异常生物样本中代谢物浓度比值对数集确定偏离系数集;所述偏离系数集中包括多个偏离系数;
根据所述偏离系数集确定代谢物的扰动矩阵;所述代谢物的扰动矩阵包括每个所述异常生物样本中每种代谢物的扰动以及每个所述健康生物样本中每种代谢物的扰动;
获取生物样本代谢物集合中每种代谢物的通路隶属矩阵;所述生物样本代谢物集合包括所述健康生物样本代谢物集合以及所述异常生物样本代谢物集合;
根据所述代谢物的扰动矩阵和所述代谢物的通路隶属矩阵确定代谢通路扰动矩阵;
采用单边T检验对所述代谢通路扰动矩阵进行分析,确定所述异常生物样本相对于所述健康生物样本的受扰动代谢通路。
可选的,所述根据所述健康生物样本中代谢物浓度比值对数集和所述异常生物样本中代谢物浓度比值对数集确定偏离系数集,具体包括:
根据所述健康生物样本中代谢物浓度比值对数集中的健康生物样本的代谢物浓度比值对数计算生物样本代谢物集合中任意两种代谢物浓度比值的平均值和标准差值;
根据所述平均值、所述标准差值以及生物样本浓度比值对数,采用公式
Figure BDA0002356173590000031
确定偏离系数;其中,Zi,(a,b)表示生物样本i中代谢物a和代谢物b的偏离系数,ri,(a,b)表示生物样本i中代谢物a和代谢物b的浓度比值对数,rj,(a,b)表示健康生物样本j中代谢物a和代谢物b的浓度比值对数,mean(·)表示平均值运算符,std(·)表示标准差值运算符,G2表示健康生物样本集。
可选的,所述根据所述偏离系数集确定代谢物的扰动矩阵,具体包括:
获取偏离系数阈值;
确定所述偏离系数集中大于所述偏离系数阈值的偏离系数的个数作为扰动强度;
根据代谢物的类别数量、所述健康生物样本的样本个数、所述异常生物样本的样本个数以及所述偏离系数确定扰动强度阈值;
将所述扰动强度和所述扰动强度阈值进行比较,根据比较结果确定代谢物的扰动矩阵。
可选的,所述根据所述代谢物的扰动矩阵和所述代谢物的通路隶属矩阵确定代谢通路扰动矩阵,具体包括:
采用公式QN*P=CN*MHM*P确定代谢通路扰动矩阵,其中,QN*P表示所述代谢通路扰动矩阵,CN*M表示所述代谢物的扰动矩阵,HM*P表示所述代谢物的通路隶属矩阵,N表示生物样本的个数,M表示代谢物的类别个数,P表示代谢通路个数。
一种受扰动代谢通路确定系统,所述受扰动代谢通路确定系统包括:
待测生物样本获取模块,用于获取待测生物样本;所述待测生物样本包括多个异常生物样本和多个健康生物样本;
代谢物集合获取模块,用于采用高通量分析技术和谱数据处理方法分别对所述健康生物样本和所述异常生物样本进行分析,得到健康生物样本代谢物的浓度集合以及异常生物样本代谢物的浓度集合;所述健康生物样本代谢物的浓度集合以及所述异常生物样本代谢物的浓度集合中均包括多种代谢物的浓度;
健康生物样本代谢物的浓度比值对数集计算模块,用于计算所述健康生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到健康生物样本中代谢物浓度比值对数集;
异常生物样本代谢物的浓度比值对数集计算模块,用于计算所述异常生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到异常生物样本中代谢物浓度比值对数集;
偏离系数集确定模块,用于根据所述健康生物样本中代谢物浓度比值对数集和所述异常生物样本中代谢物浓度比值对数集确定偏离系数集;所述偏离系数集中包括多个偏离系数;
代谢物的扰动矩阵确定模块,用于根据所述偏离系数集确定代谢物的扰动矩阵;所述代谢物的扰动矩阵包括每个所述异常生物样本中每种代谢物的扰动以及每个所述健康生物样本中每种代谢物的扰动;
代谢物通路隶属矩阵获取模块,用于获取生物样本代谢物集合中的每种代谢物的通路隶属矩阵;所述生物样本代谢物集合包括所述健康生物样本代谢物集合以及所述异常生物样本代谢物集合;
代谢通路扰动矩阵确定模块,用于根据所述代谢物的扰动矩阵和所述代谢物的通路隶属矩阵确定代谢通路扰动矩阵;
受扰动代谢通路确定模块,用于采用单边T检验对所述代谢通路扰动矩阵进行分析,确定所述异常生物样本相对于所述健康生物样本的受扰动代谢通路。
可选的,所述偏离系数集确定模块,具体包括:
平均值和标准差值计算单元,用于根据所述健康生物样本中代谢物浓度比值对数集中的健康生物样本中代谢物浓度比值对数计算生物样本代谢物集合中任意两种代谢物浓度比值的平均值和标准差值;
偏离系数确定单元,用于根据所述平均值、所述标准差值以及生物样本浓度比值对数,采用公式
Figure BDA0002356173590000051
确定偏离系数;其中,Zi,(a,b)表示生物样本i中代谢物a和代谢物b的偏离系数,ri,(a,b)表示生物样本i中代谢物a和代谢物b的浓度比值对数,rj,(a,b)表示健康生物样本j中代谢物a和代谢物b的浓度比值对数,mean(·)表示平均值运算符,std(·)表示标准差值运算符,G2表示健康生物样本集。
可选的,所述代谢物的扰动矩阵确定模块,具体包括:
偏离系数阈值获取单元,用于获取偏离系数阈值;
扰动强度确定单元,用于确定所述偏离系数集中大于所述偏离系数阈值的偏离系数的个数作为扰动强度;
扰动强度阈值确定单元,用于根据代谢物的类别数量、所述健康生物样本的样本个数、所述异常生物样本的样本个数以及所述偏离系数确定扰动强度阈值;
代谢物的扰动矩阵确定单元,用于将所述扰动强度和所述扰动强度阈值进行比较,根据比较结果确定代谢物的扰动矩阵。
可选的,所述代谢通路扰动矩阵确定模块,具体包括:
代谢通路扰动矩阵确定单元,用于采用公式QN*P=CN*MHM*P确定代谢通路扰动矩阵,其中,QN*P表示所述代谢通路扰动矩阵,CN*M表示所述代谢物的扰动矩阵,HM*P表示所述代谢物的通路隶属矩阵,N表示生物样本的个数,M表示代谢物的类别个数,P表示代谢通路个数。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种受扰动代谢通路确定方法及系统,主要根据第一设定阈值来确定代谢物的扰动矩阵,并根据KEGG数据库中通路隶属矩阵,计算得到代谢通路扰动矩阵,最后利用单边T检验对代谢通路扰动矩阵进行统计分析,得到异常生物样本相对于健康生物样本的受扰动代谢通路,通过本发明上述方法能有效识别显著受扰动的代谢通路。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种受扰动代谢通路确定方法流程图;
图2为本发明实施例健康样本与结直肠癌样本的通路扰动矩阵热图;
图3为本发明实施例对健康样本和结直肠癌样本进行排序检验得到的扰动通路分布直方图;
图4为本发明实施例一种受扰动代谢通路确定系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种受扰动代谢通路确定方法及系统,以降低样品个体间的差异对于扰动通路识别的影响。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例一种受扰动代谢通路确定方法流程图,如图1所示,本发明一种受扰动代谢通路确定方法,所述受扰动代谢通路确定方法包括:
S1:获取待测生物样本;所述待测生物样本包括多个异常生物样本和多个健康生物样本;
S2:采用高通量分析技术和谱数据处理方法分别对所述健康生物样本和所述异常生物样本进行分析,得到健康生物样本代谢物的浓度集合以及异常生物样本代谢物的浓度集合;所述健康生物样本代谢物的浓度集合以及所述异常生物样本代谢物的浓度集合中均包括多种代谢物的浓度;
S3:计算所述健康生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到健康生物样本中代谢物浓度比值对数集;
S4:计算所述异常生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到异常生物样本中代谢物浓度比值对数集;
S5:根据所述健康生物样本中代谢物浓度比值对数集和所述异常生物样本中代谢物浓度比值对数集确定偏离系数集;所述偏离系数集中包括多个偏离系数;
S6:根据所述偏离系数集确定代谢物的扰动矩阵;所述代谢物的扰动矩阵包括每个所述异常生物样本中每种代谢物的扰动以及每个所述健康生物样本中每种代谢物的扰动;
S7:获取所述生物样本代谢物集合中每种代谢物的通路隶属矩阵;所述生物样本代谢物集合包括所述健康生物样本代谢物集合以及所述异常生物样本代谢物集合;
S8:根据所述代谢物的扰动矩阵和所述代谢物的通路隶属矩阵确定代谢通路扰动矩阵;
S9:采用单边T检验对所述代谢通路扰动矩阵进行分析,确定所述异常生物样本相对于所述健康生物样本的受扰动代谢通路。
下面对各步骤进行详细论述:
S1:获取待测生物样本;所述待测生物样本包括多个异常生物样本和多个健康生物样本。
具体的,待测生物样本中异常生物样本即疾病生物样本记为G1,其中样本数量为N1,健康生物样本记为G2,其中样本数量为N2,且N=N1+N2代表所有生物样本数量。
S2:采用高通量分析技术和谱数据处理方法分别对所述健康生物样本和所述异常生物样本进行分析,得到健康生物样本代谢物的浓度集合以及异常生物样本代谢物的浓度集合;所述健康生物样本代谢物集合以及所述异常生物样本代谢物集合中均包括多种代谢物的浓度。
具体的,通过高通量分析技术以及相关谱数据处理技术,得到样本的代谢物的浓度集合,异常生物样本代谢物集合为
Figure BDA0002356173590000071
其中,M表示代谢物的类别个数,e=1,2,3…N1表示异常生物样本,k=1,2,3…M表示代谢物。
健康生物样本代谢物集合为
Figure BDA0002356173590000072
其中,M表示代谢物的类别个数,j=1,2,3…N2表示健康生物样本,k=1,2,3…M表示代谢物。
所述高通量分析技术包括液相色谱质谱联用技术(LC-MS)、核磁共振氢谱技术(1H-NMR)等。谱数据处理方法包括谱峰归属与积分、浓度校正等。
S3:计算所述健康生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到健康生物样本浓度比值对数集;
S4:计算所述异常生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到异常生物样本浓度比值对数集。
具体的,用如下公式计算样本中代谢物a和b之间的浓度比值对数:
Figure BDA0002356173590000081
其中,ri,(a,b)表示生物样本i中代谢物a和代谢物b的浓度比值对数,rj,(a,b)表示健康生物样本j中代谢物a和代谢物b的浓度比值对数,xi,a表示生物样本i中代谢物a的浓度,xi,b表示生物样本i中代谢物b的浓度,xj,a表示健康生物样本j中代谢物a的浓度,xj,b表示健康物样本j中代谢物b的浓度。
S5:根据所述健康生物样本中代谢物浓度比值对数集和所述异常生物样本中代谢物浓度比值对数集确定偏离系数集;所述偏离系数集中包括多个偏离系数,具体包括:
根据所述健康生物样本中代谢物浓度比值对数集中的健康生物样本的代谢物浓度比值对数计算所述健康生物样本代谢物集合中任意两种代谢物的平均值和标准差值;
根据所述平均值、所述标准差值以及生物样本浓度比值对数,采用公式
Figure BDA0002356173590000082
确定偏离系数即绝对值z-score;其中,Zi,(a,b)表示生物样本i中代谢物a和代谢物b的偏离系数,ri,(a,b)表示生物样本i中代谢物a和代谢物b的浓度比值对数,rj,(a,b)表示健康生物样本j中代谢物a和代谢物b的浓度比值对数,mean(·)表示平均值运算符,std(·)表示标准差值运算符,G2表示健康生物样本集,|·|表示绝对值运算符。
S6:根据所述偏离系数集确定代谢物的扰动矩阵;所述代谢物的扰动矩阵包括每个所述异常生物样本中每种代谢物的扰动以及每个所述健康生物样本中每种代谢物的扰动,具体包括:
获取偏离系数阈值Zthresh
确定所述偏离系数集中大于所述偏离系数阈值的偏离系数的个数作为扰动强度;
具体的,计算偏离系数集Z中满足Zi,(a,b)>Zthresh的元素个数,用以度量样本i中代谢物a的受扰动程度,即
di,a=num(zi,(a,k)>Zthresh|k=1,2,3…M),其中num(·)表示满足条件的元素个数。
根据代谢物的类别数量、所述健康生物样本的样本个数、所述异常生物样本的样本个数以及所述偏离系数确定扰动强度阈值dthresh
将所述扰动强度和所述扰动强度阈值进行比较,根据比较结果确定代谢物的扰动矩阵。
Figure BDA0002356173590000091
其中,ci,a表示样本i中代谢物a扰动值,由各值确定代谢物的扰动矩阵,dthresh∈[1,M-1],根据η=num(ci,a≠0)/(N*M),若η取0.2,dthresh值作为最终的阈值。
S7:获取所述生物样本代谢物集合中每种代谢物的通路隶属矩阵;所述生物样本代谢物集合包括所述健康生物样本代谢物集合以及所述异常生物样本代谢物集合;
根据KEGG的代谢通路数据库(http://www.kegg.jp),计算代谢物的通路隶属矩阵H=(hm,p)M*P
Figure BDA0002356173590000092
其中,m∈p表示代谢物m隶属于代谢通路p,
Figure BDA0002356173590000093
S8:根据所述代谢物的扰动矩阵和所述代谢物的通路隶属矩阵确定代谢通路扰动矩阵,具体包括:
采用公式QN*P=CN*MHM*P确定代谢通路扰动矩阵,其中,QN*P表示所述代谢通路扰动矩阵,CN*M表示所述代谢物的扰动矩阵,HM*P表示所述代谢物的通路隶属矩阵,N表示生物样本的个数,M表示代谢物的类别个数,P表示代谢通路个数。
S9:采用单边T检验对所述代谢通路扰动矩阵进行分析,确定所述异常生物样本相对于所述健康生物样本的受扰动代谢通路。
筛选出异常生物样本G1相对于健康生物样本G2有显著扰动的通路。T检验的零假设H0为:
Figure BDA0002356173590000094
其中,
Figure BDA0002356173590000095
表示通路p在异常生物样本G1中的扰动均值,
Figure BDA0002356173590000096
表示通路p在健康生物样本G2中的扰动均值。若实验数据符合正态分布,根据正态分布的2-sigma原则,2-sigma区间涵盖的范围是95%,故此处把5%作为检验实验结果是否显著性的依据,即显著性水平α=0.05。
举例说明:基于血清LC-MS数据的结直肠癌人群受扰动代谢通路确定方法
人血清样本收集与预处理
158例人体血清样本。其中,结直肠癌样本(CRC)66例,健康对照样本(Control)92例。对收集的血清样本进行一系列实验操作,如样品上清液提取、基于液相色谱质谱(LC-MS)的代谢轮廓分析等,并对各样品的代谢轮廓谱进行代谢物归属和定量等数据分析,得到各样品的代谢物浓度信息。
质谱数据预处理
MultiQuant 2.1软件(AB Sciex,Toronto,Canada)对代谢物进行分析,每个样本获取113个代谢物。利用质量控制(QC)样本对各代谢物的水平进行校正处理,最终每个样本的代谢物浓度信息。
结直肠癌样本代谢物浓度矩阵为
Figure BDA0002356173590000101
健康生物样本代谢物浓度矩阵为
Figure BDA0002356173590000102
采用浓度比值对数公式计算健康生物样本的代谢物浓度比值对数集以及结直肠癌样本的代谢物浓度比值对数,然后再计算样本相对于健康生物样本的偏离系数。根据所述偏离系数集确定代谢物的扰动矩阵,一般情况下,偏离系数阈值Zthresh取值范围在2-3之间,本实施例中偏离系数阈值Zthresh=2.5。
根据KEGG数据库,检测到的113个代谢物涉及30条代谢通路,建立代谢物的通路隶属矩阵H=(hm,p)113*30
根据所述代谢物的扰动矩阵和所述代谢物的通路隶属矩阵确定代谢通路扰动矩阵,对所述代谢通路扰动矩阵进行分析,使用单边T检验筛选出结直肠癌组中显著扰动的代谢通路。图2是通路受扰动矩阵Q,表一是筛选出的扰动通路,图2中纵坐标代表样本包括疾病CRC组(样本范围0-65)和健康对照组(样本范围66-157),横坐标代表代谢通路(共30条),表1表示T检验结果,由表1得出,当T检验假设检验的p值选取0.05时,从30条代谢通路中,使用本发明所提出的方法可以筛选出4条代谢通路,分别为丁酸酯代谢、精氨酸生物合成、淀粉和蔗糖代谢以及果糖和甘露糖代谢。相对于其他代谢通路,上述4条代谢通路疾病组的扰动明显大于健康样本的扰动,因此,有理由认为上述组间显著差异的代谢通路可能跟结直肠癌的发病机理有很大的关联。
表1:T检验结果
Figure BDA0002356173590000103
Figure BDA0002356173590000111
采用排序检验验证该方法的有效性
将上述血清数据随机分成两组(G1和G2)样本个数分别为66和92。采用上述计算方法对数据进行通路分析,筛选出G1组中较G2组有显著扰动的通路(显著性水平α取0.05)。统计显著扰动通路条数。重复10000次,统计这10000次随机分组中,显著扰动通路条数的频率分布(图3)。如图3所示,在随机实验中,扰动通路数为0出现的频率为0.8456,这是由于随机打乱类别信息,G1和G2两组间是没有显著差异的,通路间也不存在扰动差异;此外,原始数据分析获取了4条与CRC有关的扰动通路,但是当打乱样本类别后,扰动通路条数N大于等于4的概率仅为0.0017,这说明该通路分析方法获取的扰动通路不是随机的,是有生物学意义的。对于不存在组间差异的两组,该通路分析方法无法或很难提取到扰动通路。
虽然疾病个体间扰动代谢物的存在差异,但是这些差异的扰动可能与同一种代谢功能有关,即涉及相同的代谢通路。代谢物作为生物标志物易受个体异质性以及数据中噪声等因素的影响,而基于通路的代谢组学特征作为生物标志物更加鲁棒,因此,本发明提出一种有效方法能有效解释个体之间的代谢模式特异性,并从功能的角度挖掘其潜在功能关系。首先,对于仪器获取的单个样本的代谢物水平信息,分析其受扰动的代谢物;根据KEGG数据库中代谢物与代谢通路的映射关系,将代谢物的扰动特征转化为代谢通路的扰动特征,从功能角度挖掘每个样本代谢通路受扰动情况;最后,整合单样本分析结果,统计得到疾病扰动通路。到目前为止,还没有基于单样本代谢通路受扰动情况来进行通路分析的方法公开,该方法用于结直肠癌对于研究,取得了很好的效果。
本发明还提供了一种受扰动代谢通路确定系统,如图4所示,所述受扰动代谢通路确定系统包括:
待测生物样本获取模块401,用于获取待测生物样本;所述待测生物样本包括多个异常生物样本和多个健康生物样本;
代谢物集合获取模块402,用于采用高通量分析技术和谱数据处理方法分别对所述健康生物样本和所述异常生物样本进行处理,得到健康生物样本代谢物的浓度集合以及异常生物样本代谢物的浓度集合;所述健康生物样本代谢物的浓度集合以及所述异常生物样本代谢物的浓度集合中均包括多种代谢物的浓度;
健康生物样本代谢物的浓度比值对数集计算模块403,用于计算所述健康生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到健康生物样本中代谢物浓度比值对数集;
异常生物样本代谢物的浓度比值对数集计算模块404,用于计算所述异常生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到异常生物样本中代谢物浓度比值对数集;
偏离系数集确定模块405,用于根据所述健康生物样本中代谢物浓度比值对数集和所述异常生物样本中代谢物浓度比值对数集确定偏离系数集;所述偏离系数集中包括多个偏离系数;
代谢物的扰动矩阵确定模块406,用于根据所述偏离系数集确定代谢物的扰动矩阵;所述代谢物的扰动矩阵包括每个所述异常生物样本中每种代谢物的扰动以及每个所述健康生物样本中每种代谢物的扰动;
代谢物通路隶属矩阵获取模块407,用于获取生物样本代谢物集合中每种代谢物的通路隶属矩阵;所述生物样本代谢物集合包括所述健康生物样本代谢物集合以及所述异常生物样本代谢物集合;
代谢通路扰动矩阵确定模块408,用于根据所述代谢物的扰动矩阵和所述代谢物的通路隶属矩阵确定代谢通路扰动矩阵;
受扰动代谢通路确定模块409,用于采用单边T检验对所述代谢通路扰动矩阵进行分析,确定所述异常生物样本相对于所述健康生物样本的受扰动代谢通路。
优选的,所述偏离系数集确定模块405,具体包括:
平均值和标准差值计算单元,用于根据所述健康生物样本中代谢物浓度比值对数集中的健康生物样本中代谢物浓度比值对数计算生物样本代谢物集合中任意两种代谢物浓度比值的平均值和标准差值;
偏离系数确定单元,用于根据所述平均值、所述标准差值以及生物样本浓度比值对数,采用公式
Figure BDA0002356173590000131
确定偏离系数;其中,Zi,(a,b)表示生物样本i中代谢物a和代谢物b的偏离系数,ri,(a,b)表示生物样本i中代谢物a和代谢物b的浓度比值对数,rj,(a,b)表示健康生物样本j中代谢物a和代谢物b的浓度比值对数,mean(·)表示平均值运算符,std(·)表示标准差值运算符,G2表示健康生物样本集。
优选的,所述代谢物的扰动矩阵确定模块406,具体包括:
偏离系数阈值获取单元,用于获取偏离系数阈值;
扰动强度确定单元,用于确定所述偏离系数集中大于所述偏离系数阈值的偏离系数的个数作为扰动强度;
扰动强度阈值确定单元,用于根据代谢物的类别数量、所述健康生物样本的样本个数、所述异常生物样本的样本个数以及所述偏离系数确定扰动强度阈值;
代谢物的扰动矩阵确定单元,用于将所述扰动强度和所述扰动强度阈值进行比较,根据比较结果确定代谢物的扰动矩阵。
优选的,所述代谢通路扰动矩阵确定模块408,具体包括:
代谢通路扰动矩阵确定单元,用于采用公式QN*P=CN*MHM*P确定代谢通路扰动矩阵,其中,QN*P表示所述代谢通路扰动矩阵,CN*M表示所述代谢物的扰动矩阵,HM*P表示所述代谢物的通路隶属矩阵,N表示生物样本的个数,M表示代谢物的类别个数,P表示代谢通路个数。
本发明公开了一种受扰动代谢通路确定方法及系统,该方法包括:对生物样品的代谢轮廓谱进行半定量(或定量)分析,得到样品中各代谢物的半定量(或定量)浓度信息;计算各样品中两两代谢物之间的浓度比值,并以浓度比值作为代谢物之间的关联特征,筛选单样本的受扰动代谢物集合;然后利用KEGG的代谢通路数据库进行通路检测,获得单样本的受扰动代谢通路;最后,结合单变量统计方法,对所有样品的受扰动代谢通路进行整合分析,识别与疾病相关的受扰动代谢通路。本发明方法可以更灵敏地筛选出与疾病相关的受扰动代谢通路,为疾病的诊断和分子机制研究提供可靠的依据。
本发明的原理是:主要根据z-score来衡量个体代谢受扰动水平,并根据KEGG通路-代谢物映射关系,得到代谢通路受扰动矩阵,通过对通路受扰动矩阵进行统计分析,得到与疾病关联的扰动通路。
与现有技术相比,本发明具有如下优点及有益效果:
传统的基于组间差异代谢物的通路分析方法需要先利用统计分析方法提取组间差异代谢物,再将提取到的差异代谢物映射到通路数据库,计算差异代谢物在各通路中的富集度。在疾病研究中,由于生物个体差异以及疾病严重程度的不同,疾病个体间代谢物浓度可能存在很大差异,当代谢物组内差异远大于组间差异时,组间差异代谢物可能无法准确获取到,从而影响后续通路分析结果。但是疾病的发生和发展与代谢功能紧密关联,虽然疾病个体在代谢水平上存在很大异质性,但是在通路水平上存在一定共通性。为此本发明提出了一种基于个体通路扰动水平的代谢通路确定方法,从功能的角度挖掘个体间代谢模式之间的潜在关系。相对于传统通路分析方法该方法受个体差异性以及数据噪声影响小。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种受扰动代谢通路确定方法,其特征在于,所述受扰动代谢通路确定方法包括:
获取待测生物样本;所述待测生物样本包括多个异常生物样本和多个健康生物样本;
采用高通量分析技术和谱数据处理方法分别对所述健康生物样本和所述异常生物样本进行分析,得到健康生物样本代谢物集合以及异常生物样本代谢物集合;所述健康生物样本代谢物集合以及所述异常生物样本代谢物集合中均包括多种代谢物的浓度;
计算所述健康生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到健康生物样本中代谢物浓度比值对数集;
计算所述异常生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到异常生物样本中代谢物浓度比值对数集;
根据所述健康生物样本中代谢物浓度比值对数集和所述异常生物样本中代谢物浓度比值对数集确定偏离系数集;所述偏离系数集中包括多个偏离系数;
根据所述偏离系数集确定代谢物的扰动矩阵;所述代谢物的扰动矩阵包括每个所述异常生物样本中每种代谢物的扰动以及每个所述健康生物样本中每种代谢物的扰动,具体包括:
获取偏离系数阈值;
确定所述偏离系数集中大于所述偏离系数阈值的偏离系数的个数作为扰动强度;
根据代谢物的类别数量、所述健康生物样本的样本个数、所述异常生物样本的样本个数以及所述偏离系数确定扰动强度阈值;
将所述扰动强度和所述扰动强度阈值进行比较,根据比较结果确定代谢物的扰动矩阵;
获取生物样本代谢物集合中每种代谢物的通路隶属矩阵;所述生物样本代谢物集合包括所述健康生物样本代谢物集合以及所述异常生物样本代谢物集合;
根据所述代谢物的扰动矩阵和所述代谢物的通路隶属矩阵确定代谢通路扰动矩阵;
采用单边T检验对所述代谢通路扰动矩阵进行分析,确定所述异常生物样本相对于所述健康生物样本的受扰动代谢通路。
2.根据权利要求1所述的受扰动代谢通路确定方法,其特征在于,所述根据所述健康生物样本中代谢物浓度比值对数集和所述异常生物样本中代谢物浓度比值对数集确定偏离系数集,具体包括:
根据所述健康生物样本中代谢物浓度比值对数集中的健康生物样本的代谢物浓度比值对数计算生物样本代谢物集合中任意两种代谢物浓度比值的平均值和标准差值;
根据所述平均值、所述标准差值以及生物样本浓度比值对数,采用公式
Figure FDA0004055961630000021
确定偏离系数;其中,Zi,(a,b)表示生物样本i中代谢物a和代谢物b的偏离系数,ri,(a,b)表示生物样本i中代谢物a和代谢物b的浓度比值对数,rj,(a,b)表示健康生物样本j中代谢物a和代谢物b的浓度比值对数,mean(·)表示平均值运算符,std(·)表示标准差值运算符,G2表示健康生物样本集。
3.根据权利要求1所述的受扰动代谢通路确定方法,其特征在于,所述根据所述代谢物的扰动矩阵和所述代谢物的通路隶属矩阵确定代谢通路扰动矩阵,具体包括:
采用公式QN*P=CN*MHM*P确定代谢通路扰动矩阵,其中,QN*P表示所述代谢通路扰动矩阵,CN*M表示所述代谢物的扰动矩阵,HM*P表示所述代谢物的通路隶属矩阵,N表示生物样本的个数,M表示代谢物的类别个数,P表示代谢通路个数。
4.一种受扰动代谢通路确定系统,其特征在于,所述受扰动代谢通路确定系统包括:
待测生物样本获取模块,用于获取待测生物样本;所述待测生物样本包括多个异常生物样本和多个健康生物样本;
代谢物集合获取模块,用于采用高通量分析技术和谱数据处理方法分别对所述健康生物样本和所述异常生物样本进行分析,得到健康生物样本代谢物集合以及异常生物样本代谢物集合;所述健康生物样本代谢物集合以及所述异常生物样本代谢物集合中均包括多种代谢物的浓度;
健康生物样本代谢物的浓度比值对数集计算模块,用于计算所述健康生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到健康生物样本中代谢物浓度比值对数集;
异常生物样本代谢物的浓度比值对数集计算模块,用于计算所述异常生物样本代谢物集合中任意两种代谢物的浓度比值对数,得到异常生物样本中代谢物浓度比值对数集;
偏离系数集确定模块,用于根据所述健康生物样本中代谢物浓度比值对数集和所述异常生物样本中代谢物浓度比值对数集确定偏离系数集;所述偏离系数集中包括多个偏离系数;
代谢物的扰动矩阵确定模块,用于根据所述偏离系数集确定代谢物的扰动矩阵;所述代谢物的扰动矩阵包括每个所述异常生物样本中每种代谢物的扰动以及每个所述健康生物样本中每种代谢物的扰动,具体包括:
偏离系数阈值获取单元,用于获取偏离系数阈值;
扰动强度确定单元,用于确定所述偏离系数集中大于所述偏离系数阈值的偏离系数的个数作为扰动强度;
扰动强度阈值确定单元,用于根据代谢物的类别数量、所述健康生物样本的样本个数、所述异常生物样本的样本个数以及所述偏离系数确定扰动强度阈值;
代谢物的扰动矩阵确定单元,用于将所述扰动强度和所述扰动强度阈值进行比较,根据比较结果确定代谢物的扰动矩阵;
代谢物通路隶属矩阵获取模块,用于获取生物样本代谢物集合中每种代谢物的通路隶属矩阵;所述生物样本代谢物集合包括所述健康生物样本代谢物集合以及所述异常生物样本代谢物集合;
代谢通路扰动矩阵确定模块,用于根据所述代谢物的扰动矩阵和所述代谢物的通路隶属矩阵确定代谢通路扰动矩阵;
受扰动代谢通路确定模块,用于采用单边T检验对所述代谢通路扰动矩阵进行分析,确定所述异常生物样本相对于所述健康生物样本的受扰动代谢通路。
5.根据权利要求4所述的受扰动代谢通路确定系统,其特征在于,所述偏离系数集确定模块,具体包括:
平均值和标准差值计算单元,用于根据所述健康生物样本中代谢物浓度比值对数集中的健康生物样本的代谢物浓度比值对数计算生物样本代谢物集合中任意两种代谢物浓度比值的平均值和标准差值;
偏离系数确定单元,用于根据所述平均值、所述标准差值以及生物样本浓度比值对数,采用公式
Figure FDA0004055961630000041
确定偏离系数;其中,Zi,(a,b)表示生物样本i中代谢物a和代谢物b的偏离系数,ri,(a,b)表示生物样本i中代谢物a和代谢物b的浓度比值对数,rj,(a,b)表示健康生物样本j中代谢物a和代谢物b的浓度比值对数,mean(·)表示平均值运算符,std(·)表示标准差值运算符,G2表示健康生物样本集。
6.根据权利要求4所述的受扰动代谢通路确定系统,其特征在于,所述代谢通路扰动矩阵确定模块,具体包括:
代谢通路扰动矩阵确定单元,用于采用公式QN*P=CN*MHM*P确定代谢通路扰动矩阵,其中,QN*P表示所述代谢通路扰动矩阵,CN*M表示所述代谢物的扰动矩阵,HM*P表示所述代谢物的通路隶属矩阵,N表示生物样本的个数,M表示代谢物的类别个数,P表示代谢通路个数。
CN202010008409.3A 2020-01-06 2020-01-06 一种受扰动代谢通路确定方法及系统 Active CN111210876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010008409.3A CN111210876B (zh) 2020-01-06 2020-01-06 一种受扰动代谢通路确定方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010008409.3A CN111210876B (zh) 2020-01-06 2020-01-06 一种受扰动代谢通路确定方法及系统

Publications (2)

Publication Number Publication Date
CN111210876A CN111210876A (zh) 2020-05-29
CN111210876B true CN111210876B (zh) 2023-03-14

Family

ID=70789594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010008409.3A Active CN111210876B (zh) 2020-01-06 2020-01-06 一种受扰动代谢通路确定方法及系统

Country Status (1)

Country Link
CN (1) CN111210876B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113049664B (zh) * 2021-03-15 2022-11-22 东华理工大学 一种基于质谱代谢组学的通路分析建模方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630376B (zh) * 2009-08-12 2012-06-20 江苏大学 多模型神经网络的生物发酵过程软测量建模方法及软仪表
JP5522365B2 (ja) * 2009-10-13 2014-06-18 とみ子 久原 代謝物の異常度の取得方法、代謝異常の判定方法、及びそのプログラム、並びに、代謝物の異常度の取得装置、及び代謝異常の判定に基づく診断プログラム
CN107109461A (zh) * 2014-11-05 2017-08-29 梅塔博隆股份有限公司 用于确定遗传变体的作用的系统、方法和装置
CN106706692A (zh) * 2016-12-30 2017-05-24 南京理工大学 一种基于代谢组学技术的农药毒性评价方法

Also Published As

Publication number Publication date
CN111210876A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
Chen et al. Random forest in clinical metabolomics for phenotypic discrimination and biomarker selection
Ibrahim et al. Breath metabolomic profiling by nuclear magnetic resonance spectroscopy in asthma
CN104820873A (zh) 一种基于金属定量构效关系的淡水急性基准预测方法
CN111122757B (zh) 一种基于代谢组学的枣花花蜜致蜜蜂毒性效应的研究方法
CN109920473B (zh) 一种代谢组学标志物权重分析通用方法
Gu et al. Metabolomic analysis reveals altered metabolic pathways in a rat model of gastric carcinogenesis
CN111210876B (zh) 一种受扰动代谢通路确定方法及系统
CN110097920B (zh) 一种基于近邻稳定性的代谢组学数据缺失值填充方法
CN110231328B (zh) 一种基于半峰高距离法的拉曼光谱定量分析方法
Yu et al. Comprehensive assessment of the diminished statistical power caused by nonlinear electrospray ionization responses in mass spectrometry-based metabolomics
CN116106534B (zh) 生物标志物组合在制备肺癌预测产品中的应用
Ji et al. Pure ion chromatogram extraction via optimal k-means clustering
CN114944208B (zh) 质量控制方法、装置、电子设备及存储介质
CN115684451A (zh) 基于代谢组学的食管鳞癌淋巴结转移诊断标志物及其应用
CN115112877A (zh) 血清代谢标志物及其评估颅内动脉斑块稳定性的应用
CN114783539A (zh) 一种基于光谱聚类的中药成分分析方法及系统
CN114184599A (zh) 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置
Ferrari The validation of dietary biomarkers
CN114324713B (zh) Uhplc-hrms数据依赖性采集的信息解析方法
AU2012202251B2 (en) Method and system for mass spectrometry analysis
CN115060685A (zh) 基于光谱数据的多指标协同预测方法
CN117976193A (zh) 代谢组学为肝豆状核变性中医证型提供小分子代谢标志物证据的试验方法
JP2007240326A (ja) 波形解析装置
Bartels et al. Knowledge discovery processing and data mining in karyometry
Rinta‐aho et al. Stochastic search variable selection based on two mixture components and continuous‐scale weighting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant