CN104866863B

CN104866863B - 一种生物标志物筛选方法

Info

Publication number: CN104866863B
Application number: CN201510207807.7A
Authority: CN
Inventors: 王君; 林晓惠; 丁翔飞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2015-04-27
Filing date: 2015-04-27
Publication date: 2018-02-16
Anticipated expiration: 2035-04-27
Also published as: CN104866863A

Abstract

本发明为一种生物信息的数据挖掘方法，属于生物、计算机与数学交叉技术领域。首先根据特征在样本上的分布，计算重叠区域权重O，再计算SVM权重和变量关系得分。MBS采用特征的SVM权重|w_i|、重叠区域权值OA_i和变量关系得分值Score_i综合评价该特征，也作为排名依据，确定参数α₁的最优值后，确定参数α₂的值。本发明研究了变量关系得分，把它和变量重叠区域权值、特征权重一起考察，提供了一种特征综合评价的新方法。最终通过改善特征选择性能，帮助发现生物标志信息。

Description

一种生物标志物筛选方法

技术领域

本发明为一种生物信息的数据挖掘方法，属于生物、计算机与数学交叉技术领域。

背景技术

近年来，随着科学技术的发展，数据收集越来越易于实现。使基因、蛋白和代谢组学数据具有高维、海量等特点，如何从高维数据中筛选有用的特征(变量)信息被作为挑战问题提出。

支持向量机迭代特征删除算法(Support Vector Machine-Recursive FeatureElimination，SVM-RFE)是一种高性能的特征选择方法，广泛应用于基因、蛋白、代谢等领域。SVM-RFE在每次迭代时，根据当前特征子集构建超平面，同时计算特征的权重。但是随着分析技术的发展，基因、蛋白等生物数据维数巨增，其中存在噪音和不含问题相关信息的无关变量。噪音和无关的变量的存在可能会影响SVM超平面的构建，从而使得特征权重的评价产生误差。为了更加准确地确定区分能力强的特征子集，基于重叠区域的支持向量机迭代特征删除算法(Support Vector Machine-Recursive Feature Elimination Based onOverlapping Area，OA-SVM-RFE)统计分析每一特征在不同类别样本中的重叠度，在迭代删除过程中将SVM计算的特征的权重和特征的重叠度结合，综合评价特征。而在实际的生物数据分析中，还会存在特征之间相互关联，共同表征复杂的生命现象。因此在处理高维生物信息样本、选择区分反映不同类别的生物样本的特征时，考虑变量之间的相互关联，有助于确定反映不同种类疾病、药物疗效等的标志信息。

对于本发明使用的特征重叠区域权值(重叠度)OA，计算方法如下：

设一个c>2类问题包含n个样本和p个特征。对于特征f_i(1≤i≤p)，首先用它在第k(1≤k≤c)类样本上的均值加减修正的标准偏差，作为其有效范围；再计算其在类别h和k(1≤h≤c,h≠k)中的重叠区域，即特征f_i在h类、k类的有效范围的交集作为重叠区域值；然后计算重叠区域系数并标准化；最后用1减去标准重叠区域系数，得到特征f_i的重叠区域权值OA。

重叠区域是在各类样本之间特征的重叠深度，某一特征的重叠区域越小，在该特征上样本区分较容易，则特征的重叠区域权值越大。

发明内容

为了解决上述生物问题，通过变量之间的相互关系，挖掘生物数据的潜在标志物，更准确地提供辅助分析，本发明提供一种生物数据分析的方法——生物标志物筛选方法(AMethod of Biomarkers Selection，MBS)。

SVM-RFE是一种基于支持向量机的特征选择方法。SVM通过构建超平面来建立分类模型，同时对超平面上的每个维度(特征、变量)计算权重|w|。SVM-RFE据此来迭代删除权重小的特征。最后被删除的特征一般区分能力强。OA-SVM-RFE方法在SVM-RFE基础上考察了特征在不同类别样本上的重叠区域，重叠区域较高的变量，由于各类样本在该变量上分布混杂在一起，较难区分，所以变量的区分能力弱低，重叠区域权值OA低；反之，重叠区域低的变量，区分能力强，重叠区域权值OA高。OA-SVM-RFE在每一次迭代时，同时使用SVM计算的特征权重|w|和变量的重叠度度量，综合评价当前特征集中每一特征的重要性，删除综合评价指标低的特征。

在复杂的生物现象中，变量之间可能相互联系、相互作用。因此在生物信息处理中，考虑变量之间的关联性有助于要有效挖掘隐藏在大量数据中反映不同生命现象的标识信息。在两类问题中，最高得分对(top scoring pair(s)，TSP)成对考察变量，通过统计分析一对变量f_i和f_j(i≠j)在不同类别样本中含量相对关系的差异，计算两个变量关系的得分△_ij，据此评价对变量的区分能力。TSP得分越高，则该对变量越好。

本发明提出变量关系得分Score，利用TSP方法评价变量与当前特征子集中其他变量的平均关联性，从变量在SVM超平面上的贡献、自身在样本上分布的统计性能、与当前特征子集中其他变量的平均关联性三个角度出发，综合评价特征的重要性，以发现生物标志信息。

本发明评价特征的综合得分：

公式(1)中，E(i)是特征f_i的综合得分，|w_i|是SVM计算的特征权重，OA_i是特征f_i的重叠度，Score_i是f_i的关系得分。α₁、α₂是参数，分别用于调整特征重叠度和变量关系得分在变量综合评价中的比例，0≤α₁<1，0≤α₂<1。

MBS使用公式(1)计算当前特征集中每一特征的综合评价分，迭代删除当前特征集中综合评价权重低的r％(0<r<100)特征。在迭代过程中，保留性能最好的特征子集，作为所选特征子集。

本发明的技术方案是：一种生物标志物筛选方法，步骤如下：

(1)设当前特征集合为F，初始时，F包含所有特征，FS为空；maxACC＝0，r＝5；

(2)根据特征在样本上的分布，计算每一特征f_i∈F的重叠度OA_i；

(3)设定α₂＝0，即不考虑变量关系得分；

(4)根据F构建SVM分类模型，计算特征集合F的5倍交叉验证的分类准确率ACC，计算每一特征f_i∈F的|w_i|；

(5)若ACC>maxACC，那么maxACC＝ACC，FS＝F；

(6)对F中的每一变量f_i，计算其关系得分Score_i；

(7)计算特征的综合得分E(i)：

其中，E(i)是特征f_i的综合得分，|w_i|是SVM计算的特征权重，OA_i是特征f_i的重叠度，Score_i是f_i的关系得分，α₁、α₂是参数，分别用于调整特征重叠度和变量关系得分在变量综合评价中的比例，0≤α₁<1，0≤α₂<1；

(8)MBS使用E(i)综合评价当前特征集中每一特征的重要性，删除当前特征集中综合评价权重低的r％(0<r<100)特征，重复步骤(4)、(5)、(6)、(7)和(8)，直到F为空；

(9)α₁在[0,1)的范围内按照步长0.1步进，令F包含初始时所有输入特征，重复步骤(4)、(5)、(6)、(7)和(8)，计算α₁在每个步长选择的特征子集，得到“最优”特征子集时对应α₁的“最优”值；

(10)设定α₁为“最优”取值，α₂在[0,1)的范围内按步长0.1步进，F为包含初始时所有输入特征，重复步骤(4)、(5)、(6)、(7)和(8)，计算α₂在每个步长选择的特征子集，得到“最优”特征子集时对应参数α₂的“最优”取值；

(11)输出α₁“最优”值和α₂“最优”值时对应的“最优”特征子集FS；

所述的变量关系得分Score_i，计算方法如下：

a.对一个c>2类问题，当前特征集合为F，p是F中所含特征数量，按照“一对一”准则划分为c(c-1)/2个两类问题；在每一个两类问题上，按照TSP方法计算变量f_i和F中其他变量f_j的得分Δ_ij；

b.计算在c(c-1)/2个两类问题上变量f_i和F中其他变量的关联性的平均得分：

其中，Score_i表示f_i的变量关系得分；f_j是当前特征集合中所有除f_i以外的变量；对f_i和F中其余的每一变量f_j计算二者在每一个2类(m∈{1,2,c(c-1)/2})问题上的TSP得分；Δ_ijm代表f_i和f_j在第m个2类问题上的TSP得分，Δ_ijm的平方保证TSP得分高的对变量的优势，同时加大TSP得分低的对变量和得分高的对变量的差距；Δ_ijm平方的和的均值让其数值保持在特征权重|w_i|和重叠度权值OA_i的数量级上，让MBS建模时均衡考虑将三者作为特征的综合评价。

本发明研究了变量关系得分，把它和变量重叠度、SVM计算的权重一起考察，提出了一种特征综合评价的新方法MBS。在特征迭代删除的过程中多角度综合度量特征含有的信息量，发现富含信息的生物标志信息。

具体实施方式

以下结合技术方案，进一步说明本发明的具体实施方式。

以3类(c＝3)问题上6个特征(F＝{f₁,f₂,f₃,f₄,f₅,f₆})为例，说明变量关系得分计算方法。该3类问题划分为3个2类问题，第1个2类问题是：1vs 2(1类样本和2类样本的区分)；第2个2类问题是：1vs 3(1类样本和3类样本的区分)；第3个2类问题是：2vs 3(2类样本和3类样本的区分)。以f₁的变量关系得分Score₁的计算为例，首先计算在上述3个2类问题上f₁和其余5个变量组成的变量对的TSP得分Δ_1jm(Δ_1jm代表f₁和f_j在第m个2类问题上的TSP得分，j＝2,3,4,5,6,m＝1,2,3)。设该问题计算的结果如表1所示。则Score₁＝(2.0+1.3+1.5+1.8+0.8)/(3*5)＝0.18136。

表1特征f₁的关联性得分计算

对特征f_i(1≤i≤6)如上所示计算其变量关系得分Score_i，在MSB的每一次迭代时根据公式(1)，结合SVM计算的特征权重、重叠区域权值和变量的关系得分，综合评价特征的区分能力，以更准确的删除区分能力弱的特征，保留区分信息大的特征在所选特征子集中。

Claims

1.一种生物标志物筛选方法，其特征在于以下步骤：

(1)设当前生物标志物的特征集合为F，初始时，F包含所有生物标志物的特征，FS为空；maxACC＝0，r＝5,r为迭代删除当前特征集中综合评价权重低的特征的百分率；其中FS表示特征子集，maxACC为当前得到的最大准确率；

对于重叠度OA_i的计算方法如下：

设一个c>2类问题包含n个样本和p个特征；对于特征f_i，首先用它在第k类样本上的均值加减修正的标准偏差，作为其有效范围，其中1≤i≤p，1≤k≤c；再计算其在类别h和k中的重叠区域，即特征f_i在h类、k类的有效范围的交集作为重叠区域值，其中1≤h≤c,h≠k；然后计算重叠区域系数并标准化；最后用1减去标准重叠区域系数，得到特征f_i的重叠度OA_i；

(3)α₁、α₂是分别用于调整特征重叠度和特征关系得分在变量综合评价中的比例的参数，0≤α₁<1，0≤α₂<1，寻优初始时，设定α₂＝0，即不考虑特征关系得分，先对参数α₁进行寻优；

(4)根据F构建SVM分类模型，计算特征集合F的5倍交叉验证的分类准确率ACC，计算每一特征f_i∈F的|w_i|，其中，|w_i|是SVM计算的特征权重的绝对值；

(5)若ACC>maxACC，那么maxACC＝ACC，FS＝F；

(6)对F中的每一特征f_i，计算其关系得分Score_i；

(7)计算特征的综合得分E(i)：

其中，E(i)是特征f_i的综合得分，|w_i|是SVM计算的特征权重，OA_i是特征f_i的重叠度，Score_i是f_i的关系得分；

(8)生物标志物筛选方法使用E(i)综合评价当前特征集中每一特征的重要性，删除当前特征集中综合评价权重低的r％特征，0<r<100，重复步骤(4)、(5)、(6)、(7)和(8)，直到F为空，r为迭代删除当前特征集中综合评价权重低的特征的百分率；

所述的特征关系得分Score_i，计算方法如下：

a.对一个c>2类问题，当前特征集合为F，p是F中所含特征数量，按照“一对一”准则划分为c(c-1)/2个两类问题；在每一个两类问题上，按照最高得分对方法计算特征f_i和F中其他特征f_j的得分Δ_ij；

b.计算在c(c-1)/2个两类问题上特征f_i和F中其他特征的关联性的平均得分：

<mrow> <msub> <mi>Score</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <mo>&times;</mo> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>c</mi> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>c</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>/</mo> <mn>2</mn> </mrow> </munderover> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>F</mi> <mo>,</mo> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </munder> <msubsup> <mi>&Delta;</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>m</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> <mrow> <mi>c</mi> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>c</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>p</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中，Score_i表示f_i的特征关系得分；f_j是当前特征集合中所有除f_i以外的特征；对f_i和F中其余的每一特征f_j计算二者在每一个2类问题上的最高得分对得分，其中m∈{1,2,c(c-1)/2}；Δ_ijm代表f_i和f_j在第m个2类问题上的最高得分对得分，Δ_ijm的平方保证最高得分对得分高的一对特征的优势，同时加大最高得分，对得分低的一对特征和得分高的一对特征的差距；Δ_ijm平方的和的均值让其数值保持在特征权重|w_i|和重叠度OA_i的数量级上，让生物标志物筛选方法建模时均衡考虑将三者作为特征的综合评价。