CN103336914B

CN103336914B - 一种提取荟萃生物标志物的方法及装置

Info

Publication number: CN103336914B
Application number: CN201310213816.8A
Authority: CN
Inventors: 刘伟; 谢红卫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2016-05-25
Anticipated expiration: 2033-05-31
Also published as: CN103336914A

Abstract

本发明公开了一种提取荟萃生物标志物的方法及装置，该方法包括：取与同一疾病相关的n个疾病质谱数据集，并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量，得到n个蛋白质定量结果，n为正整数；将每个蛋白质定量结果分别与对应的基准对照组进行比较，得到每个蛋白质定量结果中蛋白的统计差异概率值，将统计差异概率值小于预设显著阈值的蛋白作为候选生物标志物，得到m个候选生物标志物；将m个候选生物标志物进行荟萃分析，提取在n个疾病质谱数据集中统计数量大于预设统计值的候选生物标志物的集合作为荟萃生物标志物。本发明可利用不同实验室产出的不同来源的多个疾病相关质谱数据集进行分析，所得荟萃生物标志物更具有通用性和鲁棒性。

Description

一种提取荟萃生物标志物的方法及装置

技术领域

本发明涉及生物标志物提取领域，特别地，涉及一种提取荟萃生物标志物的方法及装置。

背景技术

生物标志物，是指可以标记系统、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标，其主要功能是指明疾病的病理状况和应当采行的治疗方法及效果。生物标志物通常从病人的离体的肿瘤、血液、血浆或体液等组织中获得。生物标志物在临床上具有重要的应用价值，可用于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。

蛋白质组学是研究特定时空条件下细胞、组织等所含蛋白表达谱的有效手段，也是寻找生物标志物的重要方法。其基本思想是通过蛋白质组学的方法比较疾病状态和正常生理状态下蛋白质表达的差异，寻找有效的生物标志物，其中应用较多的是二维凝胶电泳和质谱分析技术。在二维凝胶电泳中，蛋白质样品根据其等电点和相对分子质量的不同而分离，在得到的电泳图谱中，疾病状态和正常生理状态的蛋白质染色斑点的分布会出现差异，以此为线索，可以发现新的生物标志物。

现有技术中针对不同来源数据的分析方法是对数据集进行简单的平均化处理，分析结果不具有统计显著性的意义，得到的生物标志物不具有明显的通用性。

发明内容

本发明目的在于提供一种提取荟萃生物标志物的方法及装置，以解决现有技术中针对不同来源数据的分析方法是对数据集进行简单的平均化处理，分析结果不具有统计显著性的意义，使得到的生物标志物不具有明显的通用性的技术问题。

为实现上述目的，本发明提供了一种提取荟萃生物标志物的方法，包括：

步骤S1：取与同一疾病相关的n个疾病质谱数据集，并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量，得到n个蛋白质定量结果，所述n为正整数；

步骤S3：将每个所述蛋白质定量结果分别与对应的基准对照组进行比较，得到每个所述蛋白质定量结果中蛋白的统计差异概率值，将统计差异概率值小于预设显著阈值的蛋白作为候选生物标志物，得到m个候选生物标志物，所述m为正整数且m≤n；

步骤S5：将所述m个候选生物标志物进行荟萃分析，提取在所述n个疾病质谱数据集中统计数量大于预设统计值的候选生物标志物的集合作为荟萃生物标志物。

进一步地，在所述步骤S5之后，所述方法还包括：

步骤S6：验证所述荟萃生物标志物是否正确，

其中，当验证所述荟萃生物标志物的结果为不正确时，返回所述步骤S3。

进一步地，所述步骤S6包括：

步骤S61：根据所述荟萃生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类，得到分类结果，所述p和k均为正整数；

步骤S62：根据所述分类结果判断所述荟萃生物标志物是否正确。

进一步地，所述步骤S61中，所述进行分类的算法是投票法、支持向量机算法及决策树算法中的一种或者任意几种的组合。

进一步地，所述步骤S62中，所述根据所述分类结果判断所述荟萃生物标志物是否正确的判断方法为交叉验证法或独立测试集法。

进一步地，所述步骤S3中，每个所述蛋白质定量结果与基准对照组的统计差异是通过T检验方法计算得到的P值。

进一步地，所述步骤S5包括：

步骤S51：根据所述m个候选生物标志物在所述n个疾病质谱数据集中的统计数量，将所述m个候选生物标志物排列成第一蛋白序列；

步骤S52：从所述第一蛋白序列中取出小于等于m个蛋白，组成多个随机蛋白序列，从所述多个随机蛋白序列中取出一个随机蛋白序列，将对照蛋白随机替换该随机蛋白序列中的一个或多个蛋白，生成该随机蛋白序列的多个随机蛋白子序列，针对所述多个随机蛋白序列，共生成S个随机蛋白子序列，将所述S个随机蛋白子序列一一对应进行S次扰动实验，将每次所述扰动实验使用的所述随机蛋白子序列中的蛋白的数目记为第一蛋白数目集合，其中S取正整数且S远大于m；

步骤S53：针对多个疾病质谱数据集以及多个正常质谱数据集，计算在每次所述扰动实验使用的所述随机蛋白子序列中各蛋白的预估阳性发现率，统计预估阳性发现率小于预设阳性发现阈值的蛋白质的数目，并将这些蛋白质的数目的集合记为第二蛋白数目集合；

步骤S54：针对多个疾病质谱数据集以及多个正常质谱数据集，根据所述第一蛋白数目集合和所述第二蛋白数目集合，计算每个所述随机蛋白子序列的最小荟萃阳性发现率；

步骤S55：当所述最小荟萃阳性发现率小于预设荟萃发现阈值时，统计每个所述随机蛋白子序列的预估阳性发现率小于预设阳性发现阈值的次数；

步骤S56：取所述统计的次数大于预设统计值的随机组合序列所对应的候选生物标志物的集合，作为荟萃生物标志物。

作为一个总的技术构思，本发明还提供了一种提取荟萃生物标志物的装置，包括：

定量模块，用于取与同一疾病相关的n个疾病质谱数据集，并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量，得到n个蛋白质定量结果，所述n为正整数；

差异比较模块，用于将每个所述蛋白质定量结果分别与对应的基准对照组进行比较，得到每个所述蛋白质定量结果中蛋白的统计差异概率值，将统计差异概率值小于预设显著阈值的蛋白作为候选生物标志物，得到m个候选生物标志物，所述m为正整数且m≤n；

荟萃模块，用于将所述m个所述候选生物标志物进行荟萃分析，提取在所述n个疾病质谱数据集中统计数量大于预设统计值的候选生物标志物的集合作为荟萃生物标志物。

进一步地，所述装置还包括：

校验模块，用于验证所述荟萃生物标志物是否正确，

其中，所述差异比较模块还用于在所述校验模块验证所述荟萃生物标志物为不正确时，调整所述预设显著阈值，并再次将每个所述蛋白质定量结果分别与对应的基准对照组进行比较，得到每个所述蛋白质定量结果中蛋白的统计差异概率值，将统计差异概率值小于预设显著阈值的蛋白作为候选生物标志物，得到m个候选生物标志物，所述m为正整数且m≤n；；

所述荟萃模块，还用于在所述校验模块验证所述荟萃生物标志物为不正确时，再次将所述差异比较模块得到的m个候选生物标志物进行荟萃分析，提取在所述n个疾病质谱数据集中统计数量大于预设统计值的候选生物标志物的集合作为荟萃生物标志物。

进一步地，所述校验模块包括：

分类模块，用于根据所述荟萃生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类，其中，所述p和所述k均为正整数；

判断模块，用于根据所述分类结果判断所述荟萃生物标志物是否正确。

本发明具有以下有益效果：

本发明可利用不同实验室产出的不同来源的多个疾病相关质谱数据集进行分析，节约实验成本，并能获取在多个质谱数据集中具有显著统计学意义的通用的荟萃生物标志物，使得预测疾病的荟萃生物标志物更具有通用性和鲁棒性。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的提取生物标志物的装置的组成示意图；

图2是本发明优选实施例的提取生物标志物的装置的另一组成示意图；

图3是本发明优选实施例的提取生物标志物的方法流程示意图；

图4是本发明优选实施例的基于鸟枪法实验策略的稳定同位素标记法的质谱数据处理流程示意图；以及

图5是本发明优选实施例的无标记定量法的典型计算流程示意图。

图例说明：

1、定量模块；2、差异比较模块；3、荟萃模块；4、校验模块；41、分类模块；42、判断模块。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

图1是本发明优选实施例的提取生物标志物的装置的组成示意图。

如图1所示，本发明的提取荟萃生物标志物的装置，包括定量模块1、差异比较模块2和荟萃模块3。其中：

定量模块1，用于取与同一疾病相关的n个疾病质谱数据集，并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量，得到n个蛋白质定量结果，n为正整数。其中，同一疾病相关的n个疾病质谱数据集优选采用不同来源的数据集，如可以从文献和数据库中获取，以不同来源的质谱数据集为基础，提取荟萃生物标志物，可使得获得的荟萃生物标志物更具有通用性。定量模块1所采用的蛋白质定量的方法可以采用绝对定量方法或者相对定量方法，在本实施例中，优选为稳定同位素标记法和无标记定量法。

差异比较模块2，用于将每个蛋白质定量结果分别与对应的基准对照组进行比较，得到每个蛋白质定量结果中蛋白的统计差异概率值，将统计差异概率值小于预设显著阈值的蛋白作为候选生物标志物，得到m个候选生物标志物，m为正整数且m≤n。其中，基准对照组是将与疾病质谱数据集一一对应的正常无疾病的对照质谱数据集采用与前述定量模块1使用同样的蛋白质定量的方法定量得到的数据，在文献和数据库中存储疾病相关的疾病质谱数据集时，通常也存储了相应的对照质谱数据集，这些对照质谱数据集可以用来生成所需的基准对照组，当然，基准对照组的正常质谱数据集并不限于从何处、采用何种方式获得，只要可以满足与疾病质谱数据集的差异比较要求即可。统计差异概率值是指采用差异性分析方法（如倍数法、T检验方法和SAM法）进行差异分析技术得到的P值，例如可取p<0.01（即预设显著阈值为0.01），从而获得候选生物标志物。

荟萃模块3，用于将m个候选生物标志物进行荟萃分析，提取在n个疾病质谱数据集中统计数量大于预设统计值的候选生物标志物的集合作为荟萃生物标志物。荟萃分析的具体方法可以采用现有通用的荟萃分析算法，也可以是根据需要自行设计的方法。

上述实施例的装置，其所使用的同一疾病相关的n个疾病质谱数据集，可从不同实验室、文献或者数据库中的不同来源的多个疾病相关质谱数据集获取，首先质谱数据集的来源更广，可以克服单次或者样本较少时获得的质谱数据较少的问题，节约实验成本，并能使得获取的荟萃生物标志物更具有通用性。另外，上述实施例的装置，采用荟萃分析的统计学方法获取在多个质谱数据集中具有显著统计学意义的荟萃生物标志物，根据对大量数据的统计结论，使得预测疾病的荟萃生物标志物更具有鲁棒性。

图2是本发明优选实施例的提取生物标志物的装置的另一组成示意图。

优选地，如图2所示，上述实施例的装置还可以包括校验模块4。校验模块4用于验证荟萃生物标志物是否正确，其中，差异比较模块2还用于在校验模块4验证荟萃生物标志物为不正确时，调整预设显著阈值，并再次将每个蛋白质定量结果分别与对应的基准对照组进行比较，得到每个蛋白质定量结果中蛋白的统计差异概率值，将统计差异概率值小于预设显著阈值的蛋白作为候选生物标志物，得到m个候选生物标志物，m为正整数且m≤n；荟萃模块3，还用于在校验模块4验证所述荟萃生物标志物为不正确时，再次将差异比较模块2得到的m个候选生物标志物进行荟萃分析，提取在n个疾病质谱数据集中统计数量大于预设统计值的候选生物标志物的集合作为荟萃生物标志物。前述的描述表示在校验模块4验证生物标志物不正确或者对荟萃生物标志物预测疾病的评估效果不满意的情况下，可调整差异比较模块2和荟萃模块3的算法、预设显著阈值、荟萃分析中的各种阈值和参数，重新获取候选生物标志物和荟萃生物标志物，直至得到新的符合评价要求的荟萃生物标志物。

优选地，上述实施例中的校验模块4还可包括分类模块41和判断模块42，其中，分类模块41用于根据荟萃生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类，其中，p和k均为正整数；判断模块42用于根据分类结果判断荟萃生物标志物是否正确。即采用需验证的荟萃生物标志物对已知的p个疾病质谱数据集以及k个正常质谱数据集进行分类的验证，判断是否能正确地区分疾病样本和正常样本，并可根据该分类的结果设定不同的要求，并认为满足预设要求的荟萃生物标志物即为最终的荟萃生物标志物。

图3是本发明优选实施例的提取生物标志物的方法流程示意图。

如图3所示，本发明的提取荟萃生物标志物的方法，包括：

步骤S1：通过定量模块1取与同一疾病相关的n个疾病质谱数据集，并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量，得到n个蛋白质定量结果，n为正整数；该步骤中所采用的蛋白质定量的方法可以采用绝对定量方法或者相对定量方法，在本实施例中，优选采用稳定同位素标记法和无标记定量法。

步骤S3：通过差异比较模块2将每个蛋白质定量结果分别与对应的基准对照组进行比较，得到每个蛋白质定量结果中蛋白的统计差异概率值，将统计差异概率值小于预设显著阈值的蛋白作为候选生物标志物，得到m个候选生物标志物，m为正整数且m≤n；其中，统计差异概率值是指采用差异性分析方法（如倍数法、T检验方法和SAM法）进行差异分析技术得到的P值，例如可取P<0.01（即预设显著阈值为0.01），从而获得候选生物标志物。本实施例中优选通过T检验方法计算P值。

步骤S5：将m个候选生物标志物进行荟萃分析，提取在n个疾病质谱数据集中统计数量大于预设统计值的候选生物标志物的集合作为荟萃生物标志物。荟萃分析的具体方法可以采用现有通用的荟萃分析算法，也可以是根据需要自行设计的方法。

上述的步骤S3中，基准对照组是将与疾病质谱数据集一一对应的正常无疾病的对照质谱数据集采用与前述定量模块1使用同样的蛋白质定量的方法定量得到的数据，在文献和数据库中存储疾病相关的疾病质谱数据集时，通常也存储了相应的对照质谱数据集，这些对照质谱数据集可以用来生成所需的基准对照组，当然，基准对照组的正常质谱数据集并不限于从何处、采用何种方式获得，只要可以满足与疾病质谱数据集的差异比较要求即可。

上述实施例的方法，可从文献和数据库中获取不同来源的同一疾病相关的n个疾病质谱数据集进行分析，以不同来源的质谱数据集为基础，提取荟萃生物标志物，可使得获得的荟萃生物标志物更具有通用性。并且，上述实施例的方法，采用荟萃分析的统计学方法获取在多个质谱数据集中具有显著统计学意义的荟萃生物标志物，根据对大量数据的统计结论，使得预测疾病的荟萃生物标志物更具有鲁棒性。

优选地，在上述实施例的步骤S5之后，该方法还可以包括：

步骤S6：验证荟萃生物标志物是否正确；具体步骤可优先如下步骤：

步骤S61：根据荟萃生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类，得到分类结果，p和k均为正整数；其中，进行分类的算法是投票法、支持向量机算法及决策树算法中的一种或者任意几种的组合；

步骤S62：根据分类结果判断荟萃生物标志物是否正确，常采用的判断方法为交叉验证法或独立测试集法。

其中，当验证荟萃生物标志物的结果为不正确时，返回步骤S3。即，在校验模块4验证生物标志物不正确或者对荟萃生物标志物预测疾病的评估效果不满意的情况下，可调整差异比较模块2和荟萃模块3的算法、预设显著阈值、荟萃分析中的各种阈值和参数，以重新获取新的候选生物标志物和荟萃生物标志物，直至得到符合评价要求的荟萃生物标志物。

以下结合附图对上述实施例中主要涉及的蛋白质定量方法、差异蛋白分析算法以及荟萃分析算法进行进一步的具体说明：

蛋白质定量方法

蛋白质定量方法是通过研究正常和疾病状态下细胞蛋白质组的整体及动态变化情况。其可以为生物标志物发现、疾病诊断与治疗提供重要信息，也将为生物功能等研究提供有力支持。蛋白质定量方法包括绝对定量方法和相对定量方法。绝对定量方法是测定目的基因在样本中的分子数目（即拷贝数）。相对定量方法是测定目的基因在两个或多个样本中的含量的相对比例。

质谱分析技术

质谱分析技术是实现大规模、高通量蛋白质定量的主要方法。其基本原理是，利用质谱图谱中包含的质荷比及信号强度信息对肽段和蛋白质进行规模化鉴定和定量，比较不同条件下蛋白质表达丰度的差异，寻找表达差异显著的蛋白质，然后利用其它实验技术进行验证。基于质谱的定量分析包括稳定同位素标记和无标记两种方法。

稳定同位素标记法

稳定同位素标记法是通过代谢、化学标记等方法在肽段上引入质量标签，在同一次实验中分析不同标记的混合样本，同时得到不同样本中肽段/蛋白质的响应信号。稳定同位素标记方法定量的精度较高。图4是本发明优选实施例的基于鸟枪法实验策略的稳定同位素标记法的质谱数据处理流程示意图，如图4所示，该方法的定量数据处理包括以下4个步骤：

步骤S21A：搜库鉴定。利用二级图谱进行数据库搜索，进行结果过滤和评估，鉴定肽段和蛋白质。其中，通过对病人的离体的组织（如肿瘤）、细胞（如血液、血浆等）或体液等进行化学标记，然后进行质谱分析得到一级图谱，可进而得到二级图谱；

步骤S22A：图谱定量信息提取与计算。肽段经过轻重标记后会附加质量不同的质量标签，它们在一级图谱中将表现为具有固定质荷比差异的谱峰，而峰的信号强度就是最基本的定量信息。这种情况下，定量信息主要隐藏在一级图谱中，大部分现有标记技术都属于这种情况，只有iTRAQ标记（isobarictagsforrelativeandabsolutequantitation,同位素标记相对和绝对定量）的定量信息主要包含在二级图谱中。针对上述两种情况，图谱定量信息提取就需要从一级或二级图谱中提取特征峰的信号强度或相关信息量。例如，高精度质谱仪给出的是谱模式图谱，同位素峰簇面积与肽段丰度成正比，从而构成了定量信号。在提取出信号强度后，还需要进行噪声去除、面积积分等计算才能得到肽段的基本定量信息；

步骤S23A：肽段丰度比计算。由于肽段的色谱峰会持续一段时间，在这个过程中肽段会被质谱仪多次加以分析，所以，需要将肽段色谱流出时间内提取的定量信息加以综合。一般通过构建肽段的离子流色谱峰，来综合表示流出时间内多个分析时刻包含的定量信息，并在此基础上计算与肽段丰度成正比的定量指标，进一步计算肽段的丰度比；

步骤S24A：蛋白质丰度比计算。通过蛋白质与肽段的对应关系，从肽段丰度比推断得出蛋白质丰度比。

无标记定量法

无标记定量法是对不同状态下的样本单独进行质谱分析，其直接分析大规模鉴定蛋白时所产生的质谱数据，无需进行标定处理。其对实验的可重复性要求较高，但不需要进行稳定同位素标记，应用范围较广。图5是本发明优选实施例的无标记定量法的典型计算流程示意图。根据其不同的实验策略，无标记定量主要有液相色谱-质谱联用技术（LC-MS）和液相色谱-串联质谱联用技术（LC-MS/MS）两种，其主要差别在于是否利用串联质谱分析来鉴定肽段和蛋白质。两种实验策略在数据分析流程上有很大不同，其计算流程分别对应于图5中的流程一和流程二。

如图5中流程一所示，无需鉴定结果的定量方法是针对液相色谱-质谱联用（LC-MS）策略的实验数据处理方法，其以一级图谱数据为处理对象。其定量数据处理主要包括以下6步：

步骤S11B：数据预处理及谱峰检测。主要目的是从含有大量噪声的单张一级图谱中提取真实的肽段信号峰；

步骤S12B：基于信号强度提取肽段定量信息。在保留时间轴上，构建肽段的离子流色谱峰(extractedionchromatography,XIC)，并根据XIC计算出肽段的丰度表征；

步骤S13B：保留时间对齐。目的是为了消除不同实验中同一肽段的色谱保留时间偏差；

步骤S14B：数据归一化。消除不同实验之间肽段信号强度的系统误差；

步骤S15B：肽段/蛋白质序列匹配。无序列信息的目标肽段可以通过精确质量时间标签进行数据库搜索或通过靶标式LC-MS/MS分析匹配到肽段/蛋白质序列；

步骤S16B：蛋白质丰度比计算及统计学分析。由肽段的定量值推断出对应蛋白质的丰度比，然后通过统计学分析找出显著性差异表达的蛋白质，从而确定候选生物标志物。

如图5中流程二所示，需要鉴定结果的定量方法是针对LC-MS/MS策略的实验数据处理方法，其数据处理步骤包括以下3步：

步骤S11C：数据库搜索及结果质量控制。利用二级图谱，通过数据库搜索和结果质量控制，得到高可信度的肽段和蛋白质的鉴定结果。

步骤S12C：定量信息提取。有两种不同方法——信号强度法和图谱计数法，分别对应图5中流程二的①和②。方法①利用肽段的鉴定信息返回到一级图谱中提取肽段的XIC，并根据XIC计算肽段的丰度表征；方法②则把蛋白质中肽段的鉴定图谱总数作为定量指标，只能用于定量蛋白质。

步骤S13C：蛋白质丰度比计算及统计学分析。

T检验方法

T检验方法主要用于样本含量较小（例如n<30），总体标准差σ未知的正态分布样本。它用T分布理论来推断差异发生的概率，可用于考察单个样本均值与总体均值的差异，也可用于判定两个平均数之间差异是否显著。其基本原理是：对于同一事件的重复观测数据，如果数据分散程度（std或者MAD）比较小，均值（mean或者median）就更接近真实值。反之，重复实验的随意性很大，结果误差会比较大。

利用T检验考察两组数据的均值之间是否有显著差异，也就是考察两个均值的差值结果是否可靠。零假设为H₀:u_g1=u_g2，即假设两个条件下的平均表达水平是相等的，与之对应的备选假设是H₁:u_g1≠u_g2。t统计量的计算公式如下：

t_{g} = \frac{{\overset{&OverBar;}{x}}_{g 1} - {\overset{&OverBar;}{x}}_{g 2}}{\sqrt{s_{g 1}^{2} / n_{1} + s_{g 2}^{2} / n_{2}}} - - - (1)

其中

{\overset{&OverBar;}{x}}_{gi} = Σ_{j = 1}^{n_{i}} x_{gij} / n_{i}, s_{gi}^{2} = \frac{1}{n_{i} - 1} Σ_{j = 1}^{n_{i}} {(x_{gij} - {\overset{&OverBar;}{x}}_{gi})}^{2},

n_i为某一条件下的重复实验次数，x_gij是蛋白g在第i个条件下第j次重复实验的表达水平测量值。n₁、n₂是两组样本的数目。t_g满足自由度为df=(n₁-1)+(n₂-1)的t分布。

t分布的概率分布密度函数为：

f (t) = \frac{1}{\sqrt{πdf}} \frac{Γ [(df + 1) / 2]}{Γ (df / 2)} {(1 + \frac{t^{2}}{df})}^{- \frac{df + 1}{2}} - - - (9)

t分布的概率分布函数为：

F_{t (df)} = P (t < t_{g}) = {&Integral;}_{- \infty}^{t_{g}} f (t) dt - - - (10)

t检验分为双边检验和单边检验。对于单边检验，当t=t_g时，两组数据的均值具有显著差异的概率P=1-F_t(df)。对于双边检验，由于t分布左右对称，当t=t_g时，两组数据的均值具有显著差异的概率

根据统计量t_g值，可以得到p值，它表示在零假设成立的情况下，出现该数据的概率。如果p值小于给定的显著性水平，就拒绝零假设，即认为蛋白g在两个条件下的表达差异是显著的。

荟萃分析

荟萃（Meta）分析是指将不同研究单位和来源的数据合并，它来源于统计学概念，是指以同一课题的多项独立研究的结果为研究对象，在严格设计的基础上，运用适当的统计学方法对多个研究结果进行系统、客观、定量的综合分析。目前，已有研究人员将荟萃分析用于芯片数据分析，包括合并不同平台的芯片数据、合并复杂的芯片数据结构以及不同来源的实验数据的比较。其主要目的是充分利用多种数据源，发现稳健的差异表达基因，提供更加可信的生物学分析结果。

在本实施例中，步骤S5优选采用如下的荟萃分析方法，其包括以下步骤：

步骤S51：根据m个候选生物标志物在n个疾病质谱数据集中的统计数量，按照统计数量由高到低的顺序将m个候选生物标志物排列成第一蛋白序列（P₁，P₂，…，P_m）；

步骤S52：进行S次（S为扰动实验的次数，取正整数且S远大于m）类似的扰动实验，以寻找荟萃标志物。在S次扰动实验中，将单次扰动实验中所使用的生物标志物（在本发明中，该生物标志物为后面得到的随机蛋白子序列）的蛋白的数目记为第一蛋白数目集合（N₁，N₂，…，N_S），其中，S是扰动实验的次数。从第一蛋白序列（P₁，P₂，…，P_m）中取出小于等于m个蛋白，组成多个随机蛋白序列，从多个随机蛋白序列中取出一个随机蛋白序列，将对照蛋白（一般是正常无疾病的对照蛋白）随机替换该随机蛋白序列中的一个或多个蛋白（可以一次替换一个，也可以一次替换多个，不限定替换的数目，但在随机替换的过程中保持该随机蛋白序列中的蛋白数目N_i不变，其中i=1,2,…,m，其目的是模拟完全随机的组合情况，以进行扰动实验，本发明中，单次扰动实验是指将某个随机蛋白子序列用于对疾病质谱数据集以及多个正常质谱数据集进行分类，验证其是否能预测疾病），生成该随机蛋白序列的多个随机蛋白子序列，针对所述多个随机蛋白序列，共生成S个随机蛋白子序列（将所得的S个随机蛋白子序列一一对应进行S次扰动实验）；

步骤S53：针对多个疾病质谱数据集以及多个正常质谱数据集，计算在扰动实验中每个随机蛋白子序列中各蛋白的预估阳性发现率Q_i（假设某随机蛋白子序列中包含5个蛋白，则此处可计算得到5个对应的Q值）；预估阳性发现率Q_i值可定义为如下公式所示：

Q_i=(估计的假阳性数目)/(在给定P值下阳性数目)=(P×m)/i（2）

其中，估计的假阳性数目是指假设采用该扰动实验中的随机蛋白子序列进行分类时，预测为阳性(疾病)但实际为正常组的样本数目，在给定P值下阳性数目是指当使用T检验的结果小于预设显著阈值的蛋白质作为候选生物标志物时，预测为阳性(疾病)且实际为疾病组的样本数目。P为前述实施例的步骤S3中所指的统计差异概率值（P值），m是所有候选蛋白的数目，i是蛋白对应的排序名次。对于扰动实验中每个序号为i的候选生物标志物（即蛋白），都可以计算得到一个Q_i值，它表征了该生物标志物用于区分所有样本和正常样本的能力。如果Q_i小于预设阳性发现阈值，说明序号为i的候选标志物具有差异显著性。计算步骤S52中通过随机扰动产生的随机蛋白子序列中，具有差异显著性（Q<预设阳性发现阈值，优选为0.1）的蛋白质的数目，并将这些蛋白质的数目的集合记为第二蛋白数目集合（E₁，E₂，…，E_S）。

步骤S54：针对多个疾病质谱数据集以及多个正常质谱数据集，并根据第二蛋白数目集合（E₁，E₂，…，E_S），计算每个随机蛋白子序列的荟萃阳性发现率mFDR_MIN（mFDR_MIN表示发现的具有差异表达的随机蛋白子序列与侯选的标志物之间的交叉程度）。荟萃阳性发现率mFDR_MIN可定义为如下公式所示：

mFDR_MIN=1-E_i/N_ii=1,2,...,S（3）

其中，E_i表示第i次扰动实验中，具有显著差异表达（即Q_i小于预设阳性发现阈值）的蛋白质的数目，N_i为第i次扰动实验中，所用的随机蛋白子序列中蛋白质的数目。E_i/N_i越小，说明在第i次扰动实验中具有显著差异表达的部分越小。i是蛋白对应的排序名次。

步骤S55：当荟萃阳性发现率mFDR_MIN小于预设荟萃发现阈值（优选取0.1）时，说明该扰动实验发现的荟萃标志物是有统计意义的。对于有统计意义的扰动实验，统计对应的随机蛋白子序列中蛋白的Q小于预设阳性发现阈值的次数；

步骤S56：取统计的次数大于预设统计值（该预设统计值与步骤S55中发现的具有统计意义的扰动实验次数有关，如类似文献中，有统计意义的扰动次数为36，该预设统计值为10.）的随机扰动实验中显著差异表达的蛋白的集合，作为荟萃生物标志物。

如果对于默认的T检验采用的预设显著阈值（如0.01），没有得到有效的荟萃标志物（例如荟萃标志物中蛋白数目为0），则可将预设显著阈值降低50%，重新进行上述实施例中的步骤S3和步骤S5，直至获得有效的荟萃生物标志物；否则结束荟萃分析过程。

交叉验证方法以及独立测试集法

为了检验一个分类模型的性能，则需要在测试集上对模型进行定量的评估。独立测试集法是指对于已知类别的样本较多的情况下，可选取一部分样本专门作为测试集用作模型评估。而对于样本数量较少，或者模型可能产生过拟合的情况下，通常采用交叉验证方法构建多个训练集和测试集，以检验模型的平均分类效果。

常见的交叉验证形式包括以下两种：

1.K倍交叉验证

K倍交叉验证（K-foldcrossvalidation）是指将初始样本随机分割成K个等份，选择其中一份作为测试数据，其他K-1份用来训练。交叉验证重复K次，直到每份验证一次，然后平均K次分类的结果，作为最终的分类效能。该方法的优势在于，重复运用随机产生的子样本进行训练和验证，能有效的利用现有数据集避免模型的过度拟合。其中，10倍交叉验证是最常用的。

2.留一验证

留一验证（Leave-one-outcrossvalidation，LOOCV）是指仅选择原样本中的一项作为测试样本，而剩余的留作训练样本。这个步骤一直持续到每个样本都被作为一次测试样本。留一验证的原理与K倍交叉验证一致，可以认为是K倍交叉验证的极端情况，即K就等于样本总数的情况。

综上可知，本发明采用可利用不同实验室产出的不同来源的多个疾病相关质谱数据集进行分析，并能获取在多个质谱数据集中具有显著统计学意义的通用的荟萃生物标志物，使得预测疾病的荟萃生物标志物更具有通用性和鲁棒性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提取荟萃生物标志物的方法，其特征在于，包括：

步骤S5：将所述m个候选生物标志物进行荟萃分析，提取在所述n个疾病质谱数据集中统计数量大于预设统计值的候选生物标志物的集合作为荟萃生物标志物；

所述步骤S5包括：

2.根据权利要求1所述的方法，其特征在于，在所述步骤S5之后，所述方法还包括：

步骤S6：验证所述荟萃生物标志物是否正确；

3.根据权利要求2所述的方法，其特征在于，所述步骤S6包括：

4.根据权利要求3所述的方法，其特征在于，所述步骤S61中，所述进行分类的算法是投票法、支持向量机算法及决策树算法中的一种或者任意几种的组合。

5.根据权利要求3所述的方法，其特征在于，所述步骤S62中，所述根据所述分类结果判断所述荟萃生物标志物是否正确的判断方法为交叉验证法或独立测试集法。

6.根据权利要求1所述的方法，其特征在于，所述步骤S3中，每个所述蛋白质定量结果与基准对照组的统计差异是通过T检验方法计算得到的P值。

7.一种提取荟萃生物标志物的装置，其特征在于，包括：

定量模块(1)，用于取与同一疾病相关的n个疾病质谱数据集，并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量，得到n个蛋白质定量结果，所述n为正整数；

差异比较模块(2)，用于将每个所述蛋白质定量结果分别与对应的基准对照组进行比较，得到每个所述蛋白质定量结果中蛋白的统计差异概率值，将统计差异概率值小于预设显著阈值的蛋白作为候选生物标志物，得到m个候选生物标志物，所述m为正整数且m≤n；

荟萃模块(3)，用于将所述m个所述候选生物标志物进行荟萃分析，提取在所述n个疾病质谱数据集中统计数量大于预设统计值的候选生物标志物的集合作为荟萃生物标志物；

所述荟萃模块(3)还用于根据所述m个候选生物标志物在所述n个疾病质谱数据集中的统计数量，将所述m个候选生物标志物排列成第一蛋白序列；从所述第一蛋白序列中取出小于等于m个蛋白，组成多个随机蛋白序列，从所述多个随机蛋白序列中取出一个随机蛋白序列，将对照蛋白随机替换该随机蛋白序列中的一个或多个蛋白，生成该随机蛋白序列的多个随机蛋白子序列，针对所述多个随机蛋白序列，共生成S个随机蛋白子序列，将所述S个随机蛋白子序列一一对应进行S次扰动实验，将每次所述扰动实验使用的所述随机蛋白子序列中的蛋白的数目记为第一蛋白数目集合，其中S取正整数且S远大于m；针对多个疾病质谱数据集以及多个正常质谱数据集，计算在每次所述扰动实验使用的所述随机蛋白子序列中各蛋白的预估阳性发现率，统计预估阳性发现率小于预设阳性发现阈值的蛋白质的数目，并将这些蛋白质的数目的集合记为第二蛋白数目集合；针对多个疾病质谱数据集以及多个正常质谱数据集，根据所述第一蛋白数目集合和所述第二蛋白数目集合，计算每个所述随机蛋白子序列的最小荟萃阳性发现率；当所述最小荟萃阳性发现率小于预设荟萃发现阈值时，统计每个所述随机蛋白子序列的预估阳性发现率小于预设阳性发现阈值的次数；取所述统计的次数大于预设统计值的随机组合序列所对应的候选生物标志物的集合，作为荟萃生物标志物。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

校验模块(4)，用于验证所述荟萃生物标志物是否正确，

其中，所述差异比较模块(2)还用于在所述校验模块(4)验证所述荟萃生物标志物为不正确时，调整所述预设显著阈值，并再次将每个所述蛋白质定量结果分别与对应的基准对照组进行比较，得到每个所述蛋白质定量结果中蛋白的统计差异概率值，将统计差异概率值小于预设显著阈值的蛋白作为候选生物标志物，得到m个候选生物标志物，所述m为正整数且m≤n；

所述荟萃模块(3)，还用于在所述校验模块(4)验证所述荟萃生物标志物为不正确时，再次将所述差异比较模块(2)得到的m个候选生物标志物进行荟萃分析，提取在所述n个疾病质谱数据集中统计数量大于预设统计值的候选生物标志物的集合作为荟萃生物标志物。

9.根据权利要求8所述的装置，其特征在于，所述校验模块(4)包括：

分类模块(41)，用于根据所述荟萃生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类，其中，所述p和所述k均为正整数；

判断模块(42)，用于根据所述分类结果判断所述荟萃生物标志物是否正确。