CN104200135A

CN104200135A - 基于MFA score和排除冗余的基因表达谱特征选择方法

Info

Publication number: CN104200135A
Application number: CN201410438783.1A
Authority: CN
Inventors: 李建更; 苏磊; 逄泽楠; 李晓丹; 张卫
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2014-08-30
Filing date: 2014-08-30
Publication date: 2014-12-10

Abstract

一种基于MFA score和排除冗余的基因表达谱特征选择方法，肿瘤基因表达谱的特征选择和分类有助于肿瘤的早期诊断，从基因表达的角度解释肿瘤的成因。首先利用MFA score算法构造类间近邻矩阵W_b和类内近邻矩阵W_w，进而得到类间拉普拉斯矩阵L_b和类内拉普拉斯矩阵L_w，最后将基因排序。针对基因表达数据的高冗余这一特点，我们利用Pearson相关系数来判断基因间的相关性，将高相关的基因即冗余基因排除，最终得到基因子集。本发明适用于任意空间分布的训练样本，排除冗余基因进一步缩减了特征维数，算法复杂度较小，实验中取得了较高的分类准确率。

Description

基于MFA score和排除冗余的基因表达谱特征选择方法

技术领域

本发明涉及生物信息学肿瘤基因数据处理技术领域，是一种针对肿瘤基因表达谱的特征选择方法。

背景技术

随着生物信息学的不断发展，大量的基因表达数据被获取，特别是肿瘤的基因表达数据。用机器学习的方法对这些数据进行分析并获得分类特征基因，有助于肿瘤早期诊断，近年来一直是生物信息学研究的热点。由于肿瘤基因表达数据的维数一般是几千甚至上万，它会影响机器学习算法的效率，甚至降低学习的效果，这就是所谓的“维数灾难”，特征选择方法可以从成千上万个基因中选择出带有较多分类信息的基因，这不但改善了学习的效率，提高了学习的精度，而且有重要的生物学意义，可以帮助人们寻找癌症的致病基因，从基因表达的角度解释肿瘤的成因。

近些年来，很多特征选择方法被提出，这些方法主要分为两类：过滤器方法和包装器方法，独立于分类器的选择那些带有较多分类信息的过滤器特征选择方法由于有运算速度快、可以处理占内存空间较大的数据等优点被广泛采用，此类算法有：t-test，Fisher score，Laplacian score等，其中t-test、Fisher score是有监督的算法，而Laplacian score是无监督的算法。近年来有学者提出了基于MFA的特征选择方法，即MFA score，它是一种过滤器特征选择方法，利用 MFA的准则来分别判定样本的每一特征，每一特征都得到一个分值，根据分值大小来排列所有特征，最后选择靠前的带有较多类别信息的特征子集。MFA score的优势在于它们适用于任意空间分布的训练样本，尤其在样本数目较少时，样本的分布形状不规则，这时它有很好的表现，MFA score不用求解特征方程，算法的复杂度较小。然而肿瘤基因表达谱的特征冗余很高，这种方法不能排除其中的冗余，在一定程度上影响了分类效果。

发明内容

本发明的目的在于针对现有技术中的不足，提供了一种基于MFA score和排除冗余的基因表达谱特征选择方法。针对肿瘤基因表达数据的高冗余这一特点，利用Pearson相关系数来判断基因间的相关性，将高相关的基因即冗余基因排除，最终得到基因子集，进一步缩减了特征维数，提高了分类器的分类精度。本发明有助于肿瘤的早期诊断，可以帮助人们寻找癌症的致病基因，从基因表达的角度解释肿瘤的成因。

为实现上述目的，本发明采用的技术方案实现步骤如下：

1)构造肿瘤样本的类内近邻矩阵W_w和类间近邻矩阵W_b。

利用DNA芯片测定肿瘤基因表达谱，表达谱中n个样本(n代表不同的患者)组成的集合可以表示为：X＝[x₁,x₂,...,x_n]， (i＝1,2,...,n)代表一个有m个基因的样本(n<<m)。肿瘤样本集合还可以写成X＝[f₁,f₂,....,f_m]^T，(j＝1,2,...,m)是一个基因在各个样本中的表达值组成的向量。根据肿瘤样本间的欧氏距离和类别信息(其类别信息为有病、无病或肿瘤的亚型)，对于每一个样本，在与之同类的子集中选择k₁个近邻，在与之不同类的子集中选择k₂个近邻，这样分别构造出类内近邻矩阵W_w和类间近邻矩阵W_b：

W_{w} (i, j) = \{\begin{matrix} 1 & x_{i} &Element; N_{k 1} (x_{j}) or x_{j} &Element; N_{k 1} (x_{i}) \\ 0 & else \end{matrix}

W_{b} (i, j) = \{\begin{matrix} 1 & x_{i} &Element; P_{k 2} (x_{j}) or x_{j} &Element; P_{k 2} (x_{i}) \\ 0 & else \end{matrix}

N_k1(x_i)表示在与x_i同类的样本中k₁个近邻组成的集合，P_k2(x_i)表示在与x_i不同类的样本中k₂个近邻组成的集合。

2)计算得出肿瘤样本类间拉普拉斯矩阵L_b和类内拉普拉斯矩阵L_w。

其中L_b＝D_b-W_b，D_b是一个对角矩阵，对角元素为W_b的列元素之和(或行元素之和，因为W_b为对称矩阵)；L_w＝D_w-W_w，D_w是一个对角矩阵，对角元素为W_w的列元素之和(或行元素之和，因为W_w为对称矩阵)。

3)由MFA score算法得出基因序列。

由MFA score评价基因的函数：Score(f_j)来计算每一个基因 (j＝1,2,...,m)的分数，然后根据分数从大到小对基因进行排序，得到基因序列：[F₁,F₂,...,F_m]。

4)排除冗余，得到基因子集。

两个基因的Pearson相关系数为：

ρ (f_{i}, f_{j}) = \frac{Σ_{k = 1}^{n} (f_{ik} - \overset{&OverBar;}{f_{i}}) (f_{jk} - \overset{&OverBar;}{f_{j}})}{\sqrt{Σ_{k = 1}^{n} {(f_{ik} - \overset{&OverBar;}{f_{i}})}^{2} Σ_{k = 1}^{n} {(f_{jk} - \overset{&OverBar;}{f_{j}})}^{2}}}

因而可以用ρ_ij＝|ρ(f_i，f_j)|来衡量两个基因的相关性。首先取出基因序列的第一个基因加入基因子集Φ，再取出第二个基因计算ρ₁₂，如果ρ₁₂＞σ(为一个阈值，0＜σ＜1)，直接取出第三个基因计算ρ₁₃；如果ρ₁₂＜σ，将第二个基因加入特征子集Φ，再取出第三个基因计算ρ₁₃，第三个以后的每个基因都要和基因子集中的所有基因计算ρ_ij，只要有一个ρ_ij大于σ就直接取出下一个判断，如果都小于σ，则将其加入基因子集再取出下一个进行判断，直到基因子集Φ的大小达到预定个数为止。

与现有技术相比，本发明将MFA score和基于Pearson相关系数的排除冗余方法相结合，它适用于任意空间分布的肿瘤训练样本，算法复杂度较小，利用Pearson相关系数来判断基因间的相关性，将冗余基因排除，最终得到基因子集，进一步缩减了特征维数，提高了分类器的分类精度。本发明对肿瘤类型及亚型、肿瘤的临床预后、肿瘤的不同发展阶段等做出准确判别，为肿瘤的临床诊断和治疗提供帮助。

附图说明

图1为本发明的方法流程图。

图2为Lung Cancer数据在本发明和其他三种方法上的分类准确率曲线图。

图3为Brain Tumor1数据在本发明和其他三种方法上的分类准确率曲线图。

图4为Brain Tumor2数据在本发明和其他三种方法上的分类准确率曲线图。

图5为11 Tumor数据在本发明和其他三种方法上的分类准确率曲线图。

图6为SRBCT数据在本发明和其他三种方法上的分类准确率曲线图。

图7为Leukemia1数据在本发明和其他三种方法上的分类准确率曲线图。

图8为Leukemia2数据在本发明和其他三种方法上的分类准确率曲线图。

图9为DLBCL数据在本发明和其他三种方法上的分类准确率曲线图。

具体实施方式

以下结合附图和实施例对本发明作进一步详细说明。

实施例

现采用网站http://www.gems-system.org上的肺癌数据集(Lung Cancer)，它的特点如下表所列：

表1 Lung Cancer基因数：12600

将数据随机二等分，一半分为训练集，用于特征选择，然后用支持向量机在另一半的测试集上测试，得出分类准确率(如果某类样本数为奇数，则划分给训练集的比测试集多一个，例如Normal类，划分给训练集的有9个样本，测试集有8个)，这样分得的训练集有103个样本，测试集100个样本。

1、特征选择：

1)构造类内近邻矩阵W_w和类间近邻矩阵W_b。

Lung Cancer训练集的103个样本组成的集合可以表示为：X＝[x₁,x₂,...,x₁₀₃]，矩阵的大小为12600×103。样本集合还可以写成X＝[f₁,f₂,....,f₁₂₆₀₀]^T，f_j是一个基因在各个样本中的表达值组成的向量。根据样本间的欧氏距离和类别信息，对于每一个样本，在与之同类的子集中选择k₁＝2个近邻，在与之不同类的子集中选择k₂＝25个近邻，这样分别构造出类内近邻矩阵W_w(103×103)和类间近邻矩阵W_b(103×103)：

W_{w} (i, j) = \{\begin{matrix} 1 & x_{i} &Element; N_{2} (x_{j}) or x_{j} &Element; N_{2} (x_{i}) \\ 0 & else \end{matrix}

W_{b} (i, j) = \{\begin{matrix} 1 & x_{i} &Element; P_{25} (x_{j}) or x_{j} &Element; P_{25} (x_{i}) \\ 0 & else \end{matrix}

N₂(x_i)表示在与x_i同类的样本中2个近邻组成的集合，P₂₅(x_i)表示在与x_i不同类的样本中25个近邻组成的集合。

2)计算得出类间拉普拉斯矩阵L_b和类内拉普拉斯矩阵L_w。

3)由MFA score算法得出基因序列。

由MFA score评价基因的函数：Score(f_j)来计算每一个基因 (j＝1,2,...,12600)的分数，然后根据分数从大到小对基因进行排序，得到基因序列：[F₁,F₂,...,F₁₂₆₀₀]。

4)排除冗余，得到基因子集。

两个基因的Pearson相关系数为：

ρ (f_{i}, f_{j}) = \frac{Σ_{k = 1}^{n} (f_{ik} - \overset{&OverBar;}{f_{i}}) (f_{jk} - \overset{&OverBar;}{f_{j}})}{\sqrt{Σ_{k = 1}^{n} {(f_{ik} - \overset{&OverBar;}{f_{i}})}^{2} Σ_{k = 1}^{n} {(f_{jk} - \overset{&OverBar;}{f_{j}})}^{2}}}

因而可以用ρ_ij＝|ρ(f_i，f_j)|来衡量两个基因的相关性。首先取出基因序列的第一个基因加入基因子集Φ，再取出第二个基因计算ρ₁₂，如果ρ₁₂＞σ(为一个阈值，σ＝0.9)，直接取出第三个基因计算ρ₁₃；如果ρ₁₂＜σ，将第二个基因加入特征子集Φ，再取出第三个基因计算ρ₁₃，第三个以后的每个基因都要和基因子集中的所有基因计算ρ_ij，只要有一个ρ_ij大于σ就直接取出下一个判断，如果都小于σ，则将其加入基因子集再取出下一个进行判断，直到基因子集Φ的大小达到70为止。这样就从众多基因中选出了70个基因。

2、训练和测试

经过特征选择，训练集和测试集变为X_train(70×103)和X_test(70×103)。取前i个基因得到X'_train(i×103)和X'_test(i×103)，用Matlab中libsvm工具箱的“svmtrain”函数对X'_train进行训练，然后用libsvm工具箱的“svmpredict”函数对X'_test进行测试，得到选择i个基因时的分类准确率，像这样，i取1～70便可以得到对应于基因数为1到70的分类准确率曲线。

将上述过程重复25次，得到准确度的平均值。

将本发明和Fisher score、t-test、MFA score进行比较，最后得到四种方法的准确度曲线图，如图2。

本发明还在Brain Tumor1、Brain Tumor2、11Tumors、SRBCT、Leukemia1、Leukemia2和DLBCL数据集(如下表，数据均来自http://www.gems-system.org)进行了测试，结果如图3～9。从这8个实验可以看出本发明的准确率均高于其他3种方法，这是因为它既考虑了样本的空间几何结构和类别信息，又排除了冗余基因。MFA score考虑了样本的空间几何结构和类别信息，但没有排除冗余基因，所以效果次之。

表2 脑瘤、白血病等7个数据集

Claims

1.基于MFA score和排除冗余的基因表达谱特征选择方法，其特征在于：

本发明采用的技术方案实现步骤如下，

1)构造肿瘤样本的类内近邻矩阵W_w和类间近邻矩阵W_b；

利用DNA芯片测定肿瘤基因表达谱，表达谱中n个样本，n代表不同的患者，组成的集合可以表示为：X＝[x₁,x₂,...,x_n]，(i＝1,2,...,n)代表一个有m个基因的样本(n<<m)；肿瘤样本集合还可以写成X＝[f₁,f₂,....,f_m]^T，(j＝1,2,...,m)是一个基因在各个样本中的表达值组成的向量；根据肿瘤样本间的欧氏距离和类别信息，其类别信息为有病、无病或肿瘤的亚型，对于每一个样本，在与之同类的子集中选择k₁个近邻，在与之不同类的子集中选择k₂个近邻，这样分别构造出类内近邻矩阵W_w和类间近邻矩阵W_b：

W_{w} (i, j) = \{\begin{matrix} 1 & x_{i} &Element; N_{k 1} (x_{j}) or x_{j} &Element; N_{k 1} (x_{i}) \\ 0 & else \end{matrix}

W_{b} (i, j) = \{\begin{matrix} 1 & x_{i} &Element; P_{k 2} (x_{j}) or x_{j} &Element; P_{k 2} (x_{i}) \\ 0 & else \end{matrix}

N_k1(x_i)表示在与x_i同类的样本中k₁个近邻组成的集合，P_k2(x_i)表示在与x_i不同类的样本中k₂个近邻组成的集合；

2)计算得出肿瘤样本类间拉普拉斯矩阵L_b和类内拉普拉斯矩阵L_w；

其中L_b＝D_b-W_b，D_b是一个对角矩阵，对角元素为W_b的列元素之和或行元素之和；L_w＝D_w-W_w，D_w是一个对角矩阵，对角元素为W_w的列元素之和或行元素之和；

3)由MFA score算法得出基因序列；

由MFA score评价基因的函数：Score(f_j)来计算每一个基因(j＝1,2,...,m)的分数，然后根据分数从大到小对基因进行排序，得到基因序列：[F₁,F₂,...,F_m]；

4)排除冗余，得到基因子集；

两个基因的Pearson相关系数为：

ρ (f_{i}, f_{j}) = \frac{Σ_{k = 1}^{n} (f_{ik} - \overset{&OverBar;}{f_{i}}) (f_{jk} - \overset{&OverBar;}{f_{j}})}{\sqrt{Σ_{k = 1}^{n} {(f_{ik} - \overset{&OverBar;}{f_{i}})}^{2} Σ_{k = 1}^{n} {(f_{jk} - \overset{&OverBar;}{f_{j}})}^{2}}}

因而可以用ρ_ij＝|ρ(f_i，f_j)|来衡量两个基因的相关性；首先取出基因序列的第一个基因加入基因子集Φ，再取出第二个基因计算ρ₁₂，如果ρ₁₂＞σ，0＜σ＜1，直接取出第三个基因计算ρ₁₃；如果ρ₁₂＜σ，将第二个基因加入特征子集Φ，再取出第三个基因计算ρ₁₃，第三个以后的每个基因都要和基因子集中的所有基因计算ρ_ij，只要有一个ρ_ij大于σ就直接取出下一个判断，如果都小于σ，则将其加入基因子集再取出下一个进行判断，直到基因子集Φ的大小达到预定个数为止。

2.根据权利要求1所述的基于MFA score和排除冗余的基因表达谱特征选择方法，其特征在于：采用网站http://www.gems-system.org上的肺癌数据集，它的特点如下表所列：

表1 Lung Cancer基因数：12600

将数据随机二等分，一半分为训练集，用于特征选择，然后用支持向量机在另一半的测试集上测试，得出分类准确率，这样分得的训练集有103个样本，测试集100个样本；

1、特征选择：

1)构造类内近邻矩阵W_w和类间近邻矩阵Wb；

Lung Cancer训练集的103个样本组成的集合可以表示为：X＝[x₁,x₂,...,x₁₀₃]，矩阵的大小为12600×103；样本集合还可以写成X＝[f₁,f₂,....,f₁₂₆₀₀]^T，f_j是一个基因在各个样本中的表达值组成的向量；根据样本间的欧氏距离和类别信息，对于每一个样本，在与之同类的子集中选择k₁＝2个近邻，在与之不同类的子集中选择k₂＝25个近邻，这样分别构造出类内近邻矩阵W_w(103×103)和类间近邻矩阵W_b(103×103)：

W_{w} (i, j) = \{\begin{matrix} 1 & x_{i} &Element; N_{2} (x_{j}) or x_{j} &Element; N_{2} (x_{i}) \\ 0 & else \end{matrix}

W_{b} (i, j) = \{\begin{matrix} 1 & x_{i} &Element; P_{25} (x_{j}) or x_{j} &Element; P_{25} (x_{i}) \\ 0 & else \end{matrix}

N₂(x_i)表示在与x_i同类的样本中2个近邻组成的集合，P₂₅(x_i)表示在与x_i不同类的样本中25个近邻组成的集合；

2)计算得出类间拉普拉斯矩阵L_b和类内拉普拉斯矩阵L_w；

3)由MFA score算法得出基因序列；

由MFA score评价基因的函数：Score(f_j)来计算每一个基因(j＝1,2,...,12600)的分数，然后根据分数从大到小对基因进行排序，得到基因序列：[F₁,F₂,...,F₁₂₆₀₀]；

4)排除冗余，得到基因子集；

两个基因的Pearson相关系数为：

ρ (f_{i}, f_{j}) = \frac{Σ_{k = 1}^{n} (f_{ik} - \overset{&OverBar;}{f_{i}}) (f_{jk} - \overset{&OverBar;}{f_{j}})}{\sqrt{Σ_{k = 1}^{n} {(f_{ik} - \overset{&OverBar;}{f_{i}})}^{2} Σ_{k = 1}^{n} {(f_{jk} - \overset{&OverBar;}{f_{j}})}^{2}}}

因而可以用ρ_ij＝|ρ(f_i，f_j)|来衡量两个基因的相关性；首先取出基因序列的第一个基因加入基因子集Φ，再取出第二个基因计算ρ₁₂，如果ρ₁₂＞σ(为一个阈值，σ＝0.9)，直接取出第三个基因计算ρ₁₃；如果ρ₁₂＜σ，将第二个基因加入特征子集Φ，再取出第三个基因计算ρ₁₃，第三个以后的每个基因都要和基因子集中的所有基因计算ρ_ij，只要有一个ρ_ij大于σ就直接取出下一个判断，如果都小于σ，则将其加入基因子集再取出下一个进行判断，直到基因子集Φ的大小达到70为止；这样就从众多基因中选出了70个基因；

2、训练和测试

经过特征选择，训练集和测试集变为X_train(70×103)和X_test(70×103)；取前i个基因得到X'_train(i×103)和X'_test(i×103)，用Matlab中libsvm工具箱的“svmtrain”函数对X'_train进行训练，然后用libsvm工具箱的“svmpredict”函数对X'_test进行测试，得到选择i个基因时的分类准确率，像这样，i取1～70便可以得到对应于基因数为1到70的分类准确率曲线；

将上述过程重复25次，得到准确度的平均值。