CN103336915A

CN103336915A - 基于质谱数据获取生物标志物的方法及装置

Info

Publication number: CN103336915A
Application number: CN2013102138469A
Authority: CN
Inventors: 刘伟; 谢红卫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2013-10-02

Abstract

本发明公开了一种基于质谱数据获取生物标志物的方法和装置，该方法包括：步骤S1：取与同一疾病相关的n个疾病质谱数据集，并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量，得到n个蛋白质定量结果，n为正整数；步骤S3：将n个蛋白质定量结果分别转换为n组数据，每组数据均在同一数值范围内；步骤S5：将n组数据与对照组进行比较，取与对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。本发明可节约实验成本，并能使得预测疾病的生物标志物更具有通用性和鲁棒性。

Description

基于质谱数据获取生物标志物的方法及装置

技术领域

本发明涉及生物标志物提取领域，特别地，涉及一种基于质谱数据获取生物标志物的方法及装置。

背景技术

生物标志物，是指可以标记系统、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标，其主要功能是指明疾病的病理状况和应当采行的治疗方法及效果。生物标志物通常从病人的离体的肿瘤、血液、血浆或体液等组织中获得。生物标志物在临床上具有重要的应用价值，可用于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。

蛋白质组学是研究特定时空条件下细胞、组织等所含蛋白表达谱的有效手段，也是寻找生物标志物的重要方法。其基本思想是通过蛋白质组学的方法比较疾病状态和正常生理状态下蛋白质表达的差异，寻找有效的生物标志物，其中应用较多的是二维凝胶电泳和质谱分析技术。在二维凝胶电泳中，蛋白质样品根据其等电点和相对分子质量的不同而分离，在得到的电泳图谱中，疾病状态和正常生理状态的蛋白质染色斑点的分布会出现差异，以此为线索，可以发现新的生物标志物。

现有技术均是基于同一样本的多次重复实验数据处理，无法用于不同来源的质谱数据的分析，得到的生物标志物不具有明显的通用性，对于不同的质谱数据集实用性较差。

发明内容

本发明目的在于提供一种基于质谱数据获取生物标志物的方法及装置，以解决现有技术无法用于不同来源的质谱数据的分析，且得到的生物标志物不具有明显的通用性的技术问题。

为实现上述目的，本发明提供了一种基于质谱数据获取生物标志物的方法，包括：

步骤S1：取与同一疾病相关的n个疾病质谱数据集，并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量，得到n个蛋白质定量结果，所述n为正整数；

步骤S3：将所述n个蛋白质定量结果分别转换为n组数据，所述每组数据均在同一数值范围内；

步骤S5：将所述n组数据与对照组进行比较，取较所述对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。

进一步地，在所述步骤S1之后，所述步骤S3之前，所述方法还包括：

步骤S2：将所述n个蛋白质定量结果的蛋白质标号进行匹配，对出现在大于或等于预设数量的蛋白质定量结果中的蛋白进行保留，否则抛弃，得到筛选后的蛋白质定量结果；

其中，所述步骤S3中的所述n个蛋白质定量结果为所述筛选后的蛋白质定量结果。

进一步地，在所述步骤S5后，所述方法还包括：

步骤S6：验证所述生物标志物是否正确；

步骤S7：当所述生物标志物不正确时，重复所述步骤S3至所述步骤S6。

进一步地，所述步骤S6包括：

步骤S61：采用所述生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类，得到分类结果，所述p和k均为正整数；

步骤S62：根据所述分类结果判断所述生物标志物是否正确。

进一步地，所述步骤S61中，所述进行分类的算法是投票法、支持向量机算法及决策树算法中的一种或者任意几种的组合。

进一步地，所述对照组为：

取q个正常质谱数据集进行所述步骤S1中的蛋白质定量，并进行所述步骤S3中的转换后所得的q组数据，所述q为正整数。

进一步地，所述步骤S3中的所述转换的算法为中位值整合法，包括：

步骤S31A：将所述n个蛋白质定量结果中的一个蛋白质定量结果作为基准数据集，其他n-1个蛋白质定量结果作为n-1个待转换数据集；

步骤S32A：首先计算所述基准数据集中每个蛋白在所有蛋白质定量结果中的表达量的中位数μ_j，然后根据所述基准数据集中的所有蛋白的中位数μ_j的列表将所述所有蛋白进行排序，并生成第一排位序列Rank(μ_j)(j=1,2，...m)，其中m为基准数据集中的蛋白的个数；

步骤S33A：将所述n-1个待转换数据集中的蛋白分别按蛋白表达量排序成第二排位序列Rank(g_z)；

步骤S34A：按照排序位置将所述第二排位序列Rank(g_z)中的蛋白表达量替换为第一排位序列Rank(μ_j)中相应位置的蛋白表达量μ_j(Rank(μ_j)=Rank(g_z))。

进一步地，所述步骤S3中的所述转换的算法为相对位置排序法，包括：

步骤S31B：计算蛋白g在所述n个蛋白质定量结果中的蛋白表达量的排位的均数，再根据如下公式分别计算每个蛋白质定量结果中各个蛋白的相对排序值

y_{g}^{RR} = \frac{1}{m} (Rank (y_{g}) - \frac{1}{n} Σ_{i = 1}^{n} Rank (y_{g}))

其中，所述m为当前的蛋白质定量结果中的蛋白的个数，所述i为取值为1至n的变量，所述y_g表示蛋白g，所述

是蛋白g在所有质谱数据集中排序位置的均值，所述Rank(y_g)是蛋白g在选定的质谱数据集中的排序位置；

步骤S32B：根据每个所述蛋白质定量结果中各个蛋白的相对排序值

对所述蛋白进行排序。

进一步地，所述步骤S1中进行蛋白质定量的算法为基于质谱分析的绝对定量法或者相对定量法。

进一步地，所述步骤S1中进行蛋白质定量的算法为稳定同位素标记法或者无标记定量法。

进一步地，所述步骤S5中所述统计差异概率值是采用差异蛋白分析算法计算的P值；所述差异蛋白分析算法包括倍数法、T检验法或者SAM法。

作为一个总的技术构思，本发明还提供了一种基于质谱数据获取生物标志物的装置，包括：

定量模块，用于取与同一疾病相关的n个疾病质谱数据集，并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量，得到n个蛋白质定量结果，所述n为正整数；

整合模块，用于将所述n个蛋白质定量结果分别转换为n组数据，所述每组数据均在同一数值范围内；

差异比较模块，用于将所述n组数据与对照组进行比较，取与所述对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。

进一步地，所述装置还包括：

筛选模块，用于将所述n个蛋白质定量结果的蛋白质标号进行匹配，对出现在大于或等于预设数量的蛋白质定量结果中的蛋白进行保留，否则抛弃，得到筛选后的蛋白质定量结果；

其中，所述整合模块用于将筛选后的蛋白质定量结果分别转换为n组数据，所述每组数据均在同一数值范围内。

进一步地，所述装置还包括：

校验模块，用于验证所述生物标志物是否正确，

其中，所述整合模块还用于在校验模块验证所述生物标志物为不正确时，再次将所述n个蛋白质定量结果分别转换为n组数据，所述每组数据均在同一数值范围内。

进一步地，所述校验模块包括：

分类模块，用于采用所述生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类，其中，所述p和所述k均为正整数；

判断模块，用于根据所述分类结果判断所述生物标志物是否正确。

本发明具有以下有益效果：

本发明采用数据整合方法可利用不同实验室产出的不同来源的多个疾病相关质谱数据集进行分析，并转换成同一数值范围内的可比较的数据集，以获取通用的生物标志物，可节约实验成本，并能使得预测疾病的生物标志物更具有通用性和鲁棒性。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的基于质谱数据获取生物标志物的装置的组成示意图；

图2是本发明优选实施例的基于质谱数据获取生物标志物的装置的另一组成示意图；

图3是本发明优选实施例的基于质谱数据获取生物标志物的方法流程示意图；

图4是本发明优选实施例的基于鸟枪法实验策略的稳定同位素标记法的质谱数据处理流程示意图；

图5是本发明优选实施例的无标记定量法的典型计算流程示意图；

图6是本发明优选实施例的中位值整合法的计算流程示意图；

图7是本发明优选实施例的中位值整合法的蛋白排序示意图；以及

图8是本发明优选实施例的支持向量机算法的分类超平面示意图。

图例说明：

1、定量模块；2、整合模块；3、差异比较模块；4、筛选模块；5、校验模块；51、分类模块；52、判断模块。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

根据本发明的实施例，提供了一种基于质谱数据获取生物标志物的方法及装置。

图1是本发明优选实施例的基于质谱数据获取生物标志物的装置的组成示意图。如图1所示，本发明的基于质谱数据获取生物标志物的装置，包括定量模块1、整合模块2和差异比较模块3。其中，定量模块1用于取与同一疾病相关的n个疾病质谱数据集，并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量，得到n个蛋白质定量结果，其中，n为正整数；整合模块2用于将n个蛋白质定量结果分别转换为n组数据，每组数据均在同一数值范围内；差异比较模块3用于将n组数据与对照组进行比较，取与对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。

本实施例以不同实验室产出的不同来源的多个疾病相关质谱数据集为基础，并转换成同一数值范围内的可比较的数据集，以获取通用的生物标志物。其通过对不同质量的质谱数据源进行整合，能使得预测疾病的生物标志物更具有通用性和鲁棒性。另外，上述实施例可以克服一次实验产生的质谱数据较少的问题，充分利用不同实验室产出的数据进行分析，节约实验成本。

优选地，如图2所示，上述实施例的装置还可以包括筛选模块4。筛选模块4用于将n个蛋白质定量结果的蛋白质标号进行匹配，对出现在大于或等于预设数量的蛋白质定量结果中的蛋白进行保留，否则抛弃，得到筛选后的蛋白质定量结果，其中，整合模块2用于将筛选后的蛋白质定量结果分别转换为n组数据，每组数据均在同一数值范围内。其中，预设数量优选为三个。通过筛选模块4进行筛选，筛除不具备共性的蛋白质标号的数据集，可以便于后续步骤选取具有共性的蛋白质标号。

优选地，上述实施例的装置还可以包括校验模块5。校验模块5用于验证生物标志物是否正确，其中，整合模块2还用于在校验模块5验证生物标志物为不正确时，再次将n个蛋白质定量结果分别转换为n组数据，每组数据均在同一数值范围内；当校验模块5验证生物标志物为正确时，结束验证。校验模块5用于判断前述的模块的处理所得的生物标志物是否能通过质谱数据集准确地预测疾病，如不能预测或者预测结果不令人满意，则调整上述各模块的算法或者质谱数据集的来源，重新进行计算获取生物标志物，直至得到符合要求的生物标志物。

优选地，上述的校验模块5可以包括分类模块51和判断模块52。其中，分类模块51用于采用生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类，其中，p和k均为正整数；判断模块52用于根据分类结果判断生物标志物是否正确。其中，p个疾病质谱数据集以及k个正常质谱数据集均是已知的，p个疾病质谱数据集中至少部分与前述用于获取生物标志物的n个疾病质谱数据集来源不同，这样能更好地验证生物标志物的通用性。

图3是本发明优选实施例的基于质谱数据获取生物标志物的方法流程示意图。如图3所示，该方法包括如下的步骤S1至步骤S5：

步骤S1：取与同一疾病相关的n个疾病质谱数据集，并通过上述的定量模块1分别对每个疾病质谱数据集中的蛋白进行蛋白质定量，得到n个蛋白质定量结果，n为正整数；

优选地，步骤S1中进行蛋白质定量的算法为基于质谱分析的绝对定量法或者相对定量法，优选采用为稳定同位素标记法或者无标记定量法。

上述步骤中的对照组为：取q个正常质谱数据集进行步骤S1中的蛋白质定量，并进行步骤S3中的转换后所得的q组数据，q为正整数。对照组的蛋白质定量方法以及转换的算法需与相比较的疾病质谱数据集采用的算法保持一致，根据对照组所得的多组数据与n组根据n个疾病质谱数据集所得的数据在同一数值范围内，以形成可比较的数据集，以便进行差异蛋白分析计算。在实际应用时，上述实施例采用的疾病相关的质谱数据集一般来自各种文献和数据库中，这些文献和数据库中常存储有对应的对照组数据，也可一并用于上述实施例中。

步骤S3：通过上述的整合模块2将n个蛋白质定量结果分别转换为n组数据，每组数据均在同一数值范围内；

优选地，上述步骤S3中的转换的算法（即数据整合算法）优选为中位值整合法或者相对位置排序法。实际应用中，并不限定转换的具体算法（即数据整合算法），只需能实现将多组质谱数据集整合转换为同一数值范围内，变成可比较的数据即可。

步骤S5：通过上述的差异比较模块3将n组数据与对照组进行比较，取与对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。

上述实施例中，步骤S5中统计差异概率值是采用差异蛋白分析算法计算的P值（Probability，概率），例如可取p<0.01（即预设显著阈值为0.01），从而获得生物标志物。差异蛋白分析算法优选采用倍数法、T检验法或者SAM法，实际应用中，并不限定于某种具体的方法，只要能挑选出疾病数据集与对照组具有显著性统计差异的蛋白即可。

上述实施例利用不同实验室产出的不同来源的多个疾病相关质谱数据集进行分析，并分别转换成同一数值范围内的多个可比较的数据集，以获取通用的生物标志物。其通过对不同质量的质谱数据源进行整合，能使得预测疾病的生物标志物更具有通用性和鲁棒性。另外，上述实施例可以克服一次实验产生的质谱数据较少的问题，充分利用不同实验室产出的数据进行分析，节约实验成本。

其中，在步骤S1之后，步骤S3之前，上述实施例还可包括步骤S2：通过上述的筛选模块4将n个蛋白质定量结果的蛋白质标号进行匹配，对出现在大于或等于预设数量的蛋白质定量结果中的蛋白进行保留，否则抛弃，得到筛选后的蛋白质定量结果；其中，步骤S3中的n个蛋白质定量结果为筛选后的蛋白质定量结果。优选地，预设数量为三个。通过该步骤进行筛选，筛除不具备共性的蛋白质标号的数据集，可以便于后续步骤选取具有共性的蛋白质标号。

其中，在完成步骤S5后，上述实施例还可包括步骤S6：通过上述的校验模块5验证生物标志物是否正确；步骤S7：当生物标志物不正确时，重复步骤S3至步骤S6；当生物标志物正确时完成并结束验证。

优选地，上述实施例的步骤S6包括如下所示的步骤S61至步骤S62：

步骤S61：通过上述的分类模块51采用生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类，得到分类结果，所述p和k均为正整数；优选地，步骤S61中进行分类的算法是投票法、支持向量机算法及决策树算法中的一种或者任意几种的组合；

步骤S62：通过上述的判断模块52根据分类结果判断生物标志物是否正确。

以下结合附图对上述实施例中主要涉及的蛋白质定量方法、数据整合算法以及差异蛋白分析算法进行进一步的具体说明：

蛋白质定量方法

蛋白质定量方法是通过研究正常和疾病状态下细胞蛋白质组的整体及动态变化情况。其可以为生物标志物发现、疾病诊断与治疗提供重要信息，也将为生物功能等研究提供有力支持。蛋白质定量方法包括绝对定量方法和相对定量方法。绝对定量方法是测定目的基因在样本中的分子数目（即拷贝数）。相对定量方法是测定目的基因在两个或多个样本中的含量的相对比例。

质谱分析技术

质谱分析技术是实现大规模、高通量蛋白质定量的主要方法。其基本原理是，利用质谱图谱中包含的质荷比及信号强度信息对肽段和蛋白质进行规模化鉴定和定量，比较不同条件下蛋白质表达丰度的差异，寻找表达差异显著的蛋白质，然后利用其它实验技术进行验证。基于质谱的定量分析包括稳定同位素标记和无标记两种方法。

稳定同位素标记法

稳定同位素标记法是通过代谢、化学标记等方法在肽段上引入质量标签，在同一次实验中分析不同标记的混合样本，同时得到不同样本中肽段/蛋白质的响应信号。稳定同位素标记方法定量的精度较高。图4是本发明优选实施例的基于鸟枪法实验策略的稳定同位素标记法的质谱数据处理流程示意图，如图4所示，该方法的定量数据处理包括以下4个步骤：

步骤S21A：搜库鉴定。利用二级图谱进行数据库搜索，进行结果过滤和评估，鉴定肽段和蛋白质。其中，通过对病人的离体的组织（如肿瘤）、细胞（如血液、血浆等）或体液等进行化学标记，然后进行质谱分析得到一级图谱，可进而得到二级图谱；

步骤S22A：图谱定量信息提取与计算。肽段经过轻重标记后会附加质量不同的质量标签，它们在一级图谱中将表现为具有固定质荷比差异的谱峰，而峰的信号强度就是最基本的定量信息。这种情况下，定量信息主要隐藏在一级图谱中，大部分现有标记技术都属于这种情况，只有iTRAQ标记（isobaric tags for relative and absolute quantitation,同位素标记相对和绝对定量）的定量信息主要包含在二级图谱中。针对上述两种情况，图谱定量信息提取就需要从一级或二级图谱中提取特征峰的信号强度或相关信息量。例如，高精度质谱仪给出的是谱模式图谱，同位素峰簇面积与肽段丰度成正比，从而构成了定量信号。在提取出信号强度后，还需要进行噪声去除、面积积分等计算才能得到肽段的基本定量信息；

步骤S23A：肽段丰度比计算。由于肽段的色谱峰会持续一段时间，在这个过程中肽段会被质谱仪多次加以分析，所以，需要将肽段色谱流出时间内提取的定量信息加以综合。一般通过构建肽段的离子流色谱峰，来综合表示流出时间内多个分析时刻包含的定量信息，并在此基础上计算与肽段丰度成正比的定量指标，进一步计算肽段的丰度比；

步骤S24A：蛋白质丰度比计算。通过蛋白质与肽段的对应关系，从肽段丰度比推断得出蛋白质丰度比。

无标记定量法

无标记定量法是对不同状态下的样本单独进行质谱分析，其直接分析大规模鉴定蛋白时所产生的质谱数据，无需进行标定处理。其对实验的可重复性要求较高，但不需要进行稳定同位素标记，应用范围较广。图5是本发明优选实施例的无标记定量法的典型计算流程示意图。根据其不同的实验策略，无标记定量主要有液相色谱-质谱联用技术（LC-MS）和液相色谱-串联质谱联用技术（LC-MS/MS）两种，其主要差别在于是否利用串联质谱分析来鉴定肽段和蛋白质。两种实验策略在数据分析流程上有很大不同，其计算流程分别对应于图5中的流程一和流程二。

如图5中流程一所示，无需鉴定结果的定量方法是针对液相色谱-质谱联用（LC-MS）策略的实验数据处理方法，其以一级图谱数据为处理对象。其定量数据处理主要包括以下6步：

步骤S11B：数据预处理及谱峰检测。主要目的是从含有大量噪声的单张一级图谱中提取真实的肽段信号峰；

步骤S12B：基于信号强度提取肽段定量信息。在保留时间轴上，构建肽段的离子流色谱峰(extracted ion chromatography,XIC)，并根据XIC计算出肽段的丰度表征；

步骤S13B：保留时间对齐。目的是为了消除不同实验中同一肽段的色谱保留时间偏差；

步骤S14B：数据归一化。消除不同实验之间肽段信号强度的系统误差；

步骤S15B：肽段/蛋白质序列匹配。无序列信息的目标肽段可以通过精确质量时间标签进行数据库搜索或通过靶标式LC-MS/MS分析匹配到肽段/蛋白质序列；

步骤S16B：蛋白质丰度比计算及统计学分析。由肽段的定量值推断出对应蛋白质的丰度比，然后通过统计学分析找出显著性差异表达的蛋白质，从而确定候选生物标志物。

如图5中流程二所示，需要鉴定结果的定量方法是针对LC-MS/MS策略的实验数据处理方法，其数据处理步骤包括以下3步：

步骤S11C：数据库搜索及结果质量控制。利用二级图谱，通过数据库搜索和结果质量控制，得到高可信度的肽段和蛋白质的鉴定结果。

步骤S12C：定量信息提取。有两种不同方法——信号强度法和图谱计数法，分别对应图5中流程二的①和②。方法①利用肽段的鉴定信息返回到一级图谱中提取肽段的XIC，并根据XIC计算肽段的丰度表征；方法②则把蛋白质中肽段的鉴定图谱总数作为定量指标，只能用于定量蛋白质。

步骤S13C：蛋白质丰度比计算及统计学分析。

中位值整合法

中位值整合法是通过将一组数据的表达值根据其取值大小的排位替换为另一基准组的数据值，从而使各组数据处于同一数值范围之内。中位值就是样本中处于中间的值。如果样本个数为奇数，则中位值为最中间的值，如A=[1，2，3，6，8]，则A的中位值是3。如果样本个数为偶数，则中位值为最中间两个数的平均，如A=[1，5，9，13]，则A的中位值是7。

本实施例中，图6是本发明优选实施例的中位值整合法的计算流程示意图；图7是本发明优选实施例的中位值整合法的蛋白排序示意图。如图6、图7所示，该中位值整合法包括如下的步骤S31A至步骤S34A：

步骤S31A：将n个蛋白质定量结果中的一个蛋白质定量结果作为基准数据集，其他n-1个蛋白质定量结果作为n-1个待转换数据集；

步骤S32A：首先计算基准数据集中每个蛋白在所有蛋白质定量结果中的表达量的中位数μ_j，然后根据基准数据集中的所有蛋白的中位数μ_j的列表将所有蛋白进行升序排序（也可以将所有的蛋白按照降序排列，需保证所有的蛋白的排列方式一致），并生成第一排位序列Rank(μ_j)(j=1,2，...m)，其中m为基准数据集中的蛋白的个数；

步骤S33A：将n-1个待转换数据集中的蛋白分别按蛋白表达量排序成第二排位序列Rank(g_z)（z为正整数且z≤m）；

步骤S34A：按照排序位置将第二排位序列Rank(g_z)中的蛋白表达量替换为第一排位序列Rank(μ_j)中相应位置的蛋白表达量μ_j(Rank(μ_j)=Rank(g_z))。

以上述步骤S31A至步骤S34A的方法转换所有待变换的质谱数据集。基准数据集可根据需要选择，本实施例优选所含蛋白数量最多的一组实验数据作为基准数据集。

相对位置排序法

相对位置排序法的目的也是将所有各组质谱数据集的数值范围压缩到同一个数值范围内，与中位值整合法不同的是，该方法不需要基准数据集，而是通过计算各基因在所有的芯片中的表达量排位从而实现对数据集的归一化，这种方法忽略了原有各组数据间表达量的差别而仅仅考虑表达的排序，不仅对于整个数据矩阵进行数值范围上的压缩，同时也将基因间的距离也同样进行压缩。

上述实施例的相对位置排序法包括如下的步骤S31B和步骤S32B：

步骤S31B：计算蛋白g在n个蛋白质定量结果中的蛋白表达量的排位的均数，再根据如下公式分别计算每个蛋白质定量结果中各个蛋白的相对排序值

y_{g}^{RR} = \frac{1}{m} (Rank (y_{g}) - \frac{1}{n} Σ_{i = 1}^{n} Rank (y_{g})) - - - (1)

其中，m为当前的蛋白质定量结果中的蛋白的个数，i为取值为1至n的变量，y_g表示蛋白g，

是蛋白g在所有质谱数据集中排序位置的均值，Rank(y_g)是蛋白g在选定的质谱数据集中的排序位置；

步骤S32B：根据每个蛋白质定量结果中各个蛋白的相对排序值

对蛋白进行排序。

支持向量机算法

支持向量机算法是一种目前比较常用的构造分类模型的方法。它是基于统计学习理论，采用结构风险最小化原理提出的一种机器学习算法。该算法通过调整判别函数，最好地利用边界样本点的分类信息，从而构造出最佳分类超平面。SVM（Support vector machine，支持向量机）与样本的具体分布无关，它可以获得很好的泛化能力。

图8是本发明优选实施例的支持向量机算法的分类超平面示意图。支持向量机由线性可分情况下的最优分类面发展而来，基本思想可用图8的两维情况说明。在图8中，实心点和空心点代表两类样本，H为分类线，H₁和H₂分别为过各类中离分类线最近的样本且平行于分类线的直线，它们之间的距离称为分类间隔。所谓最优分类线是要求分类线不但能将两类正确区分（训练错误率为0），而且使分类间隔最大。分类线方程为x·w+b=0，对其进行归一化，使得对线性可分的样本集(x_i,y_i),i=1,…,n,x∈Rⁿ,y∈{+1,-1}，满足：

y_i[(w·x_i+b)]-1≥0,i=1,…,n (2)

其中，w为最优解的向量参数，Rⁿ为n维的欧式空间，n为空间维数。

此时分类间隔等于2/||w||，使间隔最大等价于使||w||²最小。满足公式（2）且使最小的分类面就叫做最优分类面，H₁和H₂上的训练样本点就称作支持向量。

利用Lagrange（拉格朗日）优化方法可以把上述的最优分类面问题转化为其对偶问题，即在如下约束条件：

Σ_{i = 1}^{n} y_{i} α_{i} = 0 - - - (3)

和α_i≥0,i=1,…,n条件下，对α_i求解下列函数的最大值：

Q (α) = Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - - - (4)

其中，j为取值为1至n的变量，α_i为原问题中与每个约束条件对应的拉格朗日乘子。这是一个不等式约束下二次函数寻优的问题，存在唯一解。容易证明，该解中将只有一部分（通常是少部分）α_i不为零，对应的样本就是支持向量。

求解上述问题后得到的最优分类函数是：

f (x) = sgn {(w \cdot x) + b} = sgn {Σ_{i = 1}^{n} {α_{i}}^{*} y_{i} (x_{i} \cdot x) + b^{*}} - - - (5)

实际上，公式（5）中只对支持向量进行求和。其中，α_i ^*为前面求得的α_i，b^*是分类阈值，可以用任一个支持向量求得，或者通过两类中任意一对支持向量取中值得到。对于非线性问题，可以通过非线性变换将其转化为某个高维空间中的线性问题，在变换空间中求解最优分类面。

核函数是支持向量机方法中少数几个能够调整的参数之一，通常使用多项式、径向基函数等。尽管一些实验结果表明核函数的具体形式对分类效果的影响不大，但是核函数的形式及其参数的确定决定了分类器的类型和复杂程度，是一种控制分类器性能的手段。其中，多项式内积函数和径向基内积函数的表示形式分别为公式（6）和（7）。

k(x,x′)=(x·x′+1)^d (6)

k(x,x′)=exp(-γ||x-x′||²),γ>0 (7)

T检验方法

T检验方法主要用于样本含量较小（例如n<30），总体标准差σ未知的正态分布样本。它用T分布理论来推断差异发生的概率，可用于考察单个样本均值与总体均值的差异，也可用于判定两个平均数之间差异是否显著。其基本原理是：对于同一事件的重复观测数据，如果数据分散程度（std或者MAD）比较小，均值（mean或者median）就更接近真实值。反之，重复实验的随意性很大，结果误差会比较大。

利用T检验考察两组数据的均值之间是否有显著差异，也就是考察两个均值的差值结果是否可靠。零假设为H₀:u_g1=u_g2，即假设两个条件下的平均表达水平是相等的，与之对应的备选假设是H₁:u_g1≠u_g2。t统计量的计算公式如下：

t_{g} = \frac{{\overset{&OverBar;}{x}}_{g 1} - {\overset{&OverBar;}{x}}_{g 2}}{\sqrt{s_{g 1}^{2} / n_{1} + s_{g 2}^{2} / n_{2}}} - - - (8)

其中

{\overset{&OverBar;}{x}}_{gi} = Σ_{j = 1}^{n_{i}} x_{gij} / n_{i},

s_{gi}^{2} = \frac{1}{n_{i} - 1} Σ_{j = 1}^{n_{i}} {(x_{gij} - {\overset{&OverBar;}{x}}_{gi})}^{2},

n_i为某一条件下的重复实验次数，x_gij是蛋白g在第i个条件下第j次重复实验的表达水平测量值，n₁、n₂分别是两组样本的数目。t_g满足自由度为df=(n₁-1)+(n₂-1)的t分布。

t分布的概率分布密度函数为：

f (t) = \frac{1}{\sqrt{πdf}} \frac{Γ [(df + 1) / 2]}{Γ (df / 2)} {(1 + \frac{t^{2}}{df})}^{- \frac{df + 1}{2}} - - - (9)

t分布的概率分布函数为：

F_{t (df)} = P (t < t_{g}) = {&Integral;}_{- \infty}^{t_{g}} f (t) dt - - - (10)

t检验分为双边检验和单边检验。对于单边检验，当t=t_g时，两组数据的均值具有显著差异的概率P=1-F_t(df)。对于双边检验，由于t分布左右对称，当t=t_g时，两组数据的均值具有显著差异的概率

根据统计量t_g值，可以得到p值，它表示在零假设成立的情况下，出现该数据的概率。如果p值小于给定的显著性水平，就拒绝零假设，即认为蛋白g在两个条件下的表达差异是显著的。

综上可知，本发明采用数据整合方法可利用不同实验室产出的不同来源的多个疾病相关质谱数据集进行分析，并转换成同一数值范围内的可比较的数据集，以获取通用的生物标志物，能使得预测疾病的生物标志物更具有通用性和鲁棒性。本发明可以克服一次实验产生的质谱数据较少的问题，可充分利用不同实验室产出的数据进行分析，并可利用现有的文献数据库中收集的不同来源的质谱数据集，可节约实验成本。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于质谱数据获取生物标志物的方法，其特征在于，包括：

步骤S5：将所述n组数据与对照组进行比较，取与所述对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。

2.根据权利要求1所述的方法，其特征在于，在所述步骤S1之后，所述步骤S3之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在完成所述步骤S5后，所述方法还包括：

步骤S6：验证所述生物标志物是否正确；

4.根据权利要求3所述的方法，其特征在于，所述步骤S6包括：

步骤S62：根据所述分类结果判断所述生物标志物是否正确。

5.根据权利要求4所述的方法，其特征在于，所述步骤S61中，所述进行分类的算法是投票法、支持向量机算法及决策树算法中的一种或者任意几种的组合。

6.根据权利要求1所述的方法，其特征在于，所述对照组为：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述步骤S3中的所述转换的算法为中位值整合法，包括：

步骤S32A：首先计算所述基准数据集中每个蛋白在所有蛋白质定量结果中的表达量的中位数μ_j，然后根据所述基准数据集中的所有蛋白的中位数μ_j的列表将所述所有蛋白进行排序，并生成第一排位序列Rank(μ_j)(j=1,2，...m)，其中m为所述基准数据集中的蛋白的个数；

8.根据权利要求1至6中任一项所述的方法，其特征在于，所述步骤S3中的所述转换的算法为相对位置排序法，包括：

y_{g}^{RR} = \frac{1}{m} (Rank (y_{g}) - \frac{1}{n} Σ_{i = 1}^{n} Rank (y_{g}))

对所述蛋白进行排序。

9.根据权利要求1至7中任一项所述的方法，其特征在于，所述步骤S1中进行蛋白质定量的算法为基于质谱分析的绝对定量法或者相对定量法。

10.根据权利要求1至7中任一项所述的方法，其特征在于，所述步骤S1中进行蛋白质定量的算法为稳定同位素标记法或者无标记定量法。

11.根据权利要求1至7中任一项所述的方法，其特征在于，所述步骤S5中所述统计差异概率值是采用差异蛋白分析算法计算的P值，

所述差异蛋白分析算法包括倍数法、T检验法或者SAM法。

12.一种基于质谱数据获取生物标志物的装置，其特征在于，包括：

定量模块（1），用于取与同一疾病相关的n个疾病质谱数据集，并分别对每个疾病质谱数据集中的蛋白进行蛋白质定量，得到n个蛋白质定量结果，所述n为正整数；

整合模块（2），用于将所述n个蛋白质定量结果分别转换为n组数据，所述每组数据均在同一数值范围内；

差异比较模块（3），用于将所述n组数据与对照组进行比较，取较所述对照组的统计差异概率值小于预设显著阈值的蛋白作为生物标志物。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

筛选模块（4），用于将所述n个蛋白质定量结果的蛋白质标号进行匹配，对出现在大于或等于预设数量的蛋白质定量结果中的蛋白进行保留，否则抛弃，得到筛选后的蛋白质定量结果；

其中，所述整合模块（2）用于将筛选后的蛋白质定量结果分别转换为n组数据，所述每组数据均在同一数值范围内。

14.根据权利要求12所述的装置，其特征在于，所述装置还包括：

校验模块（5），用于验证所述生物标志物是否正确，

其中，所述整合模块（2）还用于在校验模块（5）验证所述生物标志物为不正确时，再次将所述n个蛋白质定量结果分别转换为n组数据，所述每组数据均在同一数值范围内。

15.根据权利要求14所述的装置，其特征在于，所述校验模块（5）包括：

分类模块（51），用于采用所述生物标志物对p个疾病质谱数据集以及k个正常质谱数据集进行分类，其中，所述p和所述k均为正整数；

判断模块（52），用于根据所述分类结果判断所述生物标志物是否正确。