CN101901345B

CN101901345B - 一种差异蛋白质组学的分类方法

Info

Publication number: CN101901345B
Application number: CN 200910052187
Authority: CN
Inventors: 贺福初; 罗凯旋; 钟凡; 汪海健
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2009-05-27
Filing date: 2009-05-27
Publication date: 2013-02-27
Anticipated expiration: 2029-05-27
Also published as: CN101901345A

Abstract

本发明属蛋白质组学分类领域，涉及差异蛋白质组学分类方法。包括：用单变量统计分析、顺序特征选择和遗传算法选择特征，用主成分分析和偏最小二乘法提取特征，并与线性判别分析、k-最近邻分类器、支持向量机、决策树、朴素贝叶斯分类器和人工神经网络分类器串联整合，得系列串联整合分类器并将其并联组合，对各基分类器按分类准确率赋予权重系数，以模糊属性值为分类结果输出形式，得对目标样本的分类判断结果。本方法在差异蛋白质组学的异常和正常样本分类和判断中具有较高的分类准确率和鲁棒性。适用于对差异蛋白质组数据的分类分析。

Description

一种差异蛋白质组学的分类方法

技术领域：

本发明属生物技术与蛋白质组学分类领域，涉及一种差异蛋白质组学的分类方法。

背景技术：

差异蛋白质组研究中的一个重要方向是对疾病蛋白质组数据进行生物信息挖掘，建立分类模型对临床样本进行分类、判断和预测。随着高通量研究技术的发展，组学数据产出积累的规模正在快速增长。因此，利用计算机方法对临床样本进行自动化的分类和判断已成为大势所趋。现有技术在差异蛋白质组的计算机分类判断中，主要包括以下步骤：在获取原始数据后首先进行数据预处理，然后对训练数据集进行特征空间优化并选择或抽取特征变量，再将得到的特征数据输入分类器构建分类判断模型，接下来通过测试数据集对分类判断模型进行测试和评估，最后对分类结果进行进一步的分析。

上述的分类方法即在特征空间中使用一些计算方法把待识别对象归为某一类别。其基本做法是用一定数量的样本(即训练样本集)，确定一套分类判别准则，使得按该套分类判别准则对测试样本进行分类所造成的错误识别率最小或引起的损失最小，由此得到相应的分类器。按分类判别准则由分类器对测试样本进行分类判别，即可输出分类结果。目前使用较多的分类方法包括线性判别分析(Linear Discriminant Analysis，LDA)、k-最近邻分类器(k-Nearest Neighbor，KNN)、支持向量机(Support Vector Machine，SVM)、决策树(Decision Tree，DT)、朴素贝叶斯分类器(Naive Bayes Classifier，NBC)和人工神经网络分类器(Artificial Neural Network，ANN)等分类器。

对于疾病样本的分类判断的目标是对未知样本使用尽可能少的生物标志物取得尽可能高的分类判断灵敏度、特异度和稳健性。传统的策略是分别采用不同的分类方法进行训练和测试，然后选择其中效果最好的一个分类器作为最终解决方案。当所研究的对象比较简单时，这种策略通常可以取得比较好的结果。然而随着问题复杂性的增加，传统的分类方法在处理复杂问题时的局限愈加明显。由于临床样本自身的高度复杂性、个体差异以及蛋白质组学差异表达谱数据的高维度特征，很难通过一两个特征蛋白取得高准确度、高稳健性的判断效果。

此外，目前各种分类方法自身也存在各种局限。如决策树方法尽管能够使用较少的特征变量进行样本分类，但是其分类准确率往往不如支持向量机等其他分类分析方法。而包括决策树和人工神经网络等分类器的分类稳健性较低，即对训练集的微小变化非常敏感，从而使训练样本的可变性成为分类误差的主要来源之一。

为了解决上述问题，本领域的研究人员一直在致力于新的、复杂算法的开发。然而，获取功能强大而又具有较高处理效率的分类方法是一项难度很大的工作。生物医学数据的高度复杂性、相关理论和硬件条件的限制，又都在不同程度上增加了开发的难度。

发明内容：

本发明的目的是克服现有技术的不足，提供一种差异蛋白质组学的分类方法。本发明适用于差异蛋白质组学中的疾病病程分类和疾病研究，具有较高的准确率和鲁棒性，能够较好的解决多变量小样本分类问题。

本发明将特征空间优化与分类器的学习进行串联式组合，然后对串联组合后的多种分类器进行并联式组合，在并联式组合中使用对各个分类器进行加权整合的方式，将不同分类器的分类互补信息加以利用和整合，得到加权整合分类分析方法(Weighted Integrative Classification Analysis，WICA)，对差异蛋白质组学进行分类。

具体而言，本发明使用单变量统计分析、顺序特征选择方法和遗传算法进行特征选择，使用主成分分析和偏最小二乘法进行特征提取，将特征选择和特征提取方法与线性判别分析、k-最近邻分类器、支持向量机、决策树、朴素贝叶斯分类器和人工神经网络等分类器进行串联式整合，得到一系列串联整合分类器，将各个串联整合分类器进行并联式的组合，在组合过程中对各个基分类器按照分类准确率赋予权重系数，以模糊属性值作为分类结果的输出形式，得到对目标样本的分类判断结果。

本发明方法包括如下步骤：

步骤1)使用单变量统计分析进行初步的特征选择，选择有统计学显著性差异的变量，对特征变量进行过滤式的初步筛选；本发明中，所述的特征变量是采用t-检验或Wilcoxon秩和检验具有统计学显著性差异P＜0.05的特征变量；

步骤2)在单变量统计分析的初筛基础上，采用遗传算法(GeneticAlgorithm，GA)或顺序前进法(Sequential Forward Selection，SFS)进行特征选择，用交叉验证方法中的分类准确率为衡量标准，选择对分类有重要作用的特征变量；

所述的交叉验证是把数据分为大小相同的k份，在每次运行时，选取其中一份作为测试集，而其余数据全部作为训练集，该过程重复k次，使得每份数据都用于测试恰好一次，根据测试部分数据得到的对每个分类模型的无偏估计，然后对这些无偏估计进行平均得到总的估计；

步骤3)在单变量统计分析的初筛基础上，采用主成分分析(PrincipalComponent Analysis，PCA)和偏最小二乘(Partial Least Squares，PLS)进行特征提取，利用主成分提取数据特征代替原始数据特征空间；

本发明中，所述的偏最小二乘法是以训练样本的已知类别作为分类属性值；

步骤4)将步骤一至步骤三的特征选择和特征提取方法与线性判别分析(LDA)、k-最近邻分类器(KNN)、支持向量机(SVM)、决策树(DT)、朴素贝叶斯分类器(NBC)和人工神经网络分类器(ANN)依次进行串联式整合，得系列串联整合分类器；本发明中，所述的支持向量机为线性支持向量机；决策树选自“分类与回归树”算法；人工神经网络分类器选自“误差反向传播算法”；

步骤5)将步骤四获得的系列串联整合分类器作为基分类器进行并联式组合，在组合过程中按照交叉验证中的分类准确率对各个基分类器赋予权重系数按下述加权整合公式进行加权平均，

Class = \frac{1}{n} Σ_{i = 1}^{n} w_{i} c_{i}

其中，C为基分类器对样本的分类类别属性，W为基分类器的权重系数，所得结果Class为加权整合分类分析方法对测试样本的分类结果；

本发明中，交叉验证中各个基分类器得到的分类准确率作为各个基分类器的权重系数。

步骤6)以模糊属性值作为结果的输出形式得到对样本的分类诊断结果，通过模糊分类的结果体现待测样本的变化程度以及对该判断的确定程度信息，

本发明中，使用介于不同分类状态之间的“模糊”分类属性值表示待测样本的类别隶属程度，对加权平均计算的结果不进行取整处理。

本发明方法在差异蛋白质组学的异常和正常样本的分类和判断中表现出了较高的分类准确率和鲁棒性。本方法适用于对差异蛋白质组数据的分类分析和基于蛋白质组技术的变化判断分析。

为了便于理解，以下将通过具体的附图和实施例对本发明的进行详细地描述。需要特别指出的是，具体实例和附图仅是为了说明，显然本领域的普通技术人员可以根据本文说明，在本发明的范围内对本发明做出各种各样的修正和改变，这些修正和改变也纳入本发明的范围内。

附图说明：

图1为加权整合分类分析方法的结构和分析流程图。

图2为对于SELDI数据集中卵巢癌与正常样本的分类器效果综合比较图。

图3为对于SELDI数据集随机生成分类属性值的对照数据分类结果图。

图4为对于MALDI数据集中卵巢癌与正常样本的分类器效果综合比较图。

图5为对于MALDI数据集随机生成分类属性值的对照数据分类结果图。

具体实施方式：

实施例1

1)采用两组国际上广泛使用的差异蛋白质组学公共数据集作为研究材料

第一组样本来自美国国家癌症研究所(NCI)，数据分为卵巢癌样本和正常样本，数据由SELDI-TOF-MS分析方法产生，包括162例卵巢癌样本和91例正常样本。数据集地址：http://home.ccr.cancer.gov/ncifdaproteomics/ppatterns.asp。第二组样本来自美国耶鲁大学Keck实验室，分为93例卵巢癌样本和77例正常样本，由Micromass MALDI-L/R产生，本发明中选取其线性模式(Linear Mode)m/Z值在3450至28000Da的数据集进行分析。数据集地址：http://bioinformatics.med.yale.edu/MSDATA2。为了观察对于样本随机分组的噪声数据(对照)进行分类的效果，随机生成了样本的分类属性标号，将分类方法应用于噪声对照数据集进行分类测试。

2)采用信号采集、峰谱对齐、基线校准、标准化和降噪平滑处理等步骤进行数据预处理。

3)经过单变量统计学分析的初步特征筛选，选择P＜0.05的m/Z峰。

4)使用遗传算法进行特征选择，使用五倍交叉验证法作为测试方法，串联整合LDA、KNN、SVM、DT、NBC和BP的六种基分类器，选择了20个m/Z峰特征峰，构建GA-LDA、GA-KNN、GA-SVM、GA-DT、GA-NBC、GA-BP这六种基于GA的串联式整合分类模型。

5)选择PCA和PLS两种特征提取方法整合上述六种分类器，得到PCA-LDA、PCA-KNN、PCA-SVM、PCA-DT、PCA-NBC、PCA-BP六种基于PCA的串联式整合分类模型，以及基于PLS-LDA、PLS-KNN、PLS-SVM、PLS-DT、PLS-NBC、PLS-BP六种基于PLS的串联式整合分类模型。

6)采用加权整合方法将基于GA、PCA和PLS的串联整合后的基分类器进行加权的并联组合，权重系数采用五倍交叉验证中基分类器对于交叉验证中测试样本的准确率，将每种基分类器对测试样本进行分类得到每种方法的分类结果C，然后结合每种基分类的权重系数W，本发明中，C值使用1和-1分别代表阳性和阴性样本分类属性。加权整合的公式为：

Class = \frac{1}{n} Σ_{i = 1}^{n} w_{i} c_{i},

其中W∈[0，1]。

7)分类结果的解释，按照所使用的加权整合方法得到的分类属性值的正负对样本进行分类划分。对加权整合的结果不需进行取整处理，分类属性值Class为介于-1～1之间的小数，在0～1之间的属性值为阳性诊断结果，在-1～0之间的属性值为阴性诊断结果；结构中属性值接近于1的样本的阳性程度越高，而属性值接近于-1的样本的阴性程度越高，接近于0的样本处于阳性和阴性之间。

8)使用ROC曲线下面积值(Area Under the Curve，AUC)表示该分类方法分类性能的优劣，接受者操作特性曲线(Receiver Operating Characteristic Curve，ROC Curve)是反映某指标区分正确和错误匹配的常用工具，它将真阳性率作为纵坐标；假阳性率为横坐标；AUC值越大，表示指标分辨性能越好；如果相对AUC达到了1.0，表示通过该指标可以完全的区分出正确匹配结果和错误匹配结果，如果AUC为0.5，则表示指标对区分出正确和错误匹配结果完全没有效果。AUC的大小反映了一个诊断模型的价值大小，一般认为：AUC值处于0.50～0.70的诊断价值较低；0.70～0.90的诊断价值中等；＞0.90的诊断价值较高。

9)实验结果

采用AUC值的箱线图进行展示和比较各个方法的准确率和稳健性，箱线图中纵坐标为AUC值，横坐标为分类分析方法，最右边的分类方法为本发明方法(加强整合分类分析方法，简称WICA)。结果表明，在基于SELDI技术的卵巢癌数据集样本分类结果(图2)及噪声数据对照研究中(图3)，本发明分类方法的AUC值高于0.9，明显优于其他分类模型，表现出很好的分类准确率和鲁棒性；在基于MALDI数据集的卵巢癌数据集样本分类结果(图4)及噪声数据对照研究中(图5)，本发明分类方法的AUC值基本上高于其他分类模型的AUC值。因此，在基于SELDI和MALDI技术的差异蛋白质组学数据集的应用中，本方法均表现出了较高的分类准确率和较好的鲁棒性。

由于本方法输出的结果是经过多种方法加权平均后的分类数值，不是通过“是”与“非”这两种状态来进行分类，而是使用介于不同分类状态之间的模糊性分类结果来表示样本的分类隶属程度，不仅能够在分类判断的结果中表现对待测样本的分类属性，而且可以通过这种模糊分类的结果体现该待测样本的变化程度、发展趋势以及对该判断的确定度信息。

本方法将线性判别分析分类器、k-最近邻分类器、支持向量机分类器、决策树分类器、朴素贝叶斯分类器和神经网络分类器这六种分类分析方法进行整合，而这六种分类方法又基于不同的统计分析和机器学习理论，将不同的方法进行组合能够使不同方法之间进行互补，因此有效避免了部分方法由于对训练样本过于敏感而产生的过拟合问题。另一方面，由于本方法考虑到了差异蛋白质组数据的多变量小样本的问题，有针对性的进行了特征空间优化和降维，在传统的单变量统计分析方法的基础上，采用了多变量分析的方法进行特征变量降维，并采用交叉验证的方法高效的利用了样本信息，有效的解决了小样本的问题。

Claims

1.一种差异蛋白质组学的分类方法，其特征在于，其包括：使用单变量统计分析、顺序前进法或遗传算法进行特征选择，使用主成分分析和偏最小二乘法进行特征提取，将特征选择和特征提取方法与线性判别分析、k-最近邻分类器、支持向量机、决策树、朴素贝叶斯分类器和人工神经网络分类器进行串联式整合，得到系列串联整合分类器，将各个串联整合分类器进行并联式的组合，对各个基分类器按分类准确率赋予权重系数，以模糊属性值作为分类结果的输出形式，得到对目标样本的分类判断结果；其步骤为：

1）使用单变量统计分析对特征变量进行初步特征选择；

2）在1）的基础上，使用顺序前进法或遗传算法进行特征选择，用交叉验证方法测试，选择对分类有重要作用的特征变量；

3）在1）的基础上，使用主成分分析和偏最小二乘进行特征提取，利用主成分提取数据特征代替原始数据特征空间；

4）将步骤1）至步骤3）的特征选择和特征提取方法与线性判别分析、k-最近邻分类器、支持向量机、决策树、朴素贝叶斯分类器和人工神经网络分类器依次进行串联式整合，得系列串联整合分类器；

5）将步骤4)得到的系列串联整合分类器作为基分类器进行并联式组合，在组合过程中按交叉验证中的分类准确率对各个基分类器赋予权重系数进行加权平均；

6)以模糊属性值作为结果的输出形式得到对样本的分类判断结果，通过模糊分类的结果体现待测样本的变化程度以及对该判断的确定程度信息。

2.根据权利要求1所述的方法，其特征在于，所述的特征变量是采用t-检验或Wilcoxon秩和检验具有统计学显著性差异P<0.05的特征变量。

3.根据权利要求1所述的方法，其特征在于，步骤2）中所述的顺序前进法中，选择特征变量的衡量标准采用交叉验证中的分类准确率。

4.根据权利要求1所述的方法，其特征在于，步骤3）中所述的偏最小二乘法是以训练样本的已知类别作为分类属性值。

5.根据权利要求1所述的方法，其特征在于，步骤4）所述的支持向量机为线性支持向量机；决策树选自“分类与回归树”算法；人工神经网络分类器选自“误差反向传播算法”。

6.根据权利要求1所述的方法，其特征在于，步骤5）中的交叉验证中各个基分类器得到的分类准确率作为各个基分类器的权重系数。

7.根据权利要求1所述的方法，其特征在于，步骤6）中使用介于不同分类状态之间的“模糊”分类属性值表示待测样本的类别隶属程度，对加权平均计算的结果不进行取整处理。