CN104200135A - 基于MFA score和排除冗余的基因表达谱特征选择方法 - Google Patents
基于MFA score和排除冗余的基因表达谱特征选择方法 Download PDFInfo
- Publication number
- CN104200135A CN104200135A CN201410438783.1A CN201410438783A CN104200135A CN 104200135 A CN104200135 A CN 104200135A CN 201410438783 A CN201410438783 A CN 201410438783A CN 104200135 A CN104200135 A CN 104200135A
- Authority
- CN
- China
- Prior art keywords
- gene
- matrix
- sample
- subset
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
一种基于MFA score和排除冗余的基因表达谱特征选择方法,肿瘤基因表达谱的特征选择和分类有助于肿瘤的早期诊断,从基因表达的角度解释肿瘤的成因。首先利用MFA score算法构造类间近邻矩阵Wb和类内近邻矩阵Ww,进而得到类间拉普拉斯矩阵Lb和类内拉普拉斯矩阵Lw,最后将基因排序。针对基因表达数据的高冗余这一特点,我们利用Pearson相关系数来判断基因间的相关性,将高相关的基因即冗余基因排除,最终得到基因子集。本发明适用于任意空间分布的训练样本,排除冗余基因进一步缩减了特征维数,算法复杂度较小,实验中取得了较高的分类准确率。
Description
技术领域
本发明涉及生物信息学肿瘤基因数据处理技术领域,是一种针对肿瘤基因表达谱的特征选择方法。
背景技术
随着生物信息学的不断发展,大量的基因表达数据被获取,特别是肿瘤的基因表达数据。用机器学习的方法对这些数据进行分析并获得分类特征基因,有助于肿瘤早期诊断,近年来一直是生物信息学研究的热点。由于肿瘤基因表达数据的维数一般是几千甚至上万,它会影响机器学习算法的效率,甚至降低学习的效果,这就是所谓的“维数灾难”,特征选择方法可以从成千上万个基因中选择出带有较多分类信息的基因,这不但改善了学习的效率,提高了学习的精度,而且有重要的生物学意义,可以帮助人们寻找癌症的致病基因,从基因表达的角度解释肿瘤的成因。
近些年来,很多特征选择方法被提出,这些方法主要分为两类:过滤器方法和包装器方法,独立于分类器的选择那些带有较多分类信息的过滤器特征选择方法由于有运算速度快、可以处理占内存空间较大的数据等优点被广泛采用,此类算法有:t-test,Fisher score,Laplacian score等,其中t-test、Fisher score是有监督的算法,而Laplacian score是无监督的算法。近年来有学者提出了基于MFA的特征选择方法,即MFA score,它是一种过滤器特征选择方法,利用 MFA的准则来分别判定样本的每一特征,每一特征都得到一个分值,根据分值大小来排列所有特征,最后选择靠前的带有较多类别信息的特征子集。MFA score的优势在于它们适用于任意空间分布的训练样本,尤其在样本数目较少时,样本的分布形状不规则,这时它有很好的表现,MFA score不用求解特征方程,算法的复杂度较小。然而肿瘤基因表达谱的特征冗余很高,这种方法不能排除其中的冗余,在一定程度上影响了分类效果。
发明内容
本发明的目的在于针对现有技术中的不足,提供了一种基于MFA score和排除冗余的基因表达谱特征选择方法。针对肿瘤基因表达数据的高冗余这一特点,利用Pearson相关系数来判断基因间的相关性,将高相关的基因即冗余基因排除,最终得到基因子集,进一步缩减了特征维数,提高了分类器的分类精度。本发明有助于肿瘤的早期诊断,可以帮助人们寻找癌症的致病基因,从基因表达的角度解释肿瘤的成因。
为实现上述目的,本发明采用的技术方案实现步骤如下:
1)构造肿瘤样本的类内近邻矩阵Ww和类间近邻矩阵Wb。
利用DNA芯片测定肿瘤基因表达谱,表达谱中n个样本(n代表不同的患者)组成的集合可以表示为:X=[x1,x2,...,xn], (i=1,2,...,n)代表一个有m个基因的样本(n<<m)。肿瘤样本集合还可以写成X=[f1,f2,....,fm]T,(j=1,2,...,m)是一个基因在各个样本中的表达值组成的向量。根据肿瘤样本间的欧氏距离和类别 信息(其类别信息为有病、无病或肿瘤的亚型),对于每一个样本,在与之同类的子集中选择k1个近邻,在与之不同类的子集中选择k2个近邻,这样分别构造出类内近邻矩阵Ww和类间近邻矩阵Wb:
Nk1(xi)表示在与xi同类的样本中k1个近邻组成的集合,Pk2(xi)表示在与xi不同类的样本中k2个近邻组成的集合。
2)计算得出肿瘤样本类间拉普拉斯矩阵Lb和类内拉普拉斯矩阵Lw。
其中Lb=Db-Wb,Db是一个对角矩阵,对角元素为Wb的列元素之和(或行元素之和,因为Wb为对称矩阵);Lw=Dw-Ww,Dw是一个对角矩阵,对角元素为Ww的列元素之和(或行元素之和,因为Ww为对称矩阵)。
3)由MFA score算法得出基因序列。
由MFA score评价基因的函数:Score(fj)来计算每一个基因 (j=1,2,...,m)的分数,然后根据分数从大到小对基因进行排序,得到基因序列:[F1,F2,...,Fm]。
4)排除冗余,得到基因子集。
两个基因的Pearson相关系数为:
因而可以用ρij=|ρ(fi,fj)|来衡量两个基因的相关性。首先取出基因序列的第一个基因加入基因子集Φ,再取出第二个基因计算ρ12,如果ρ12>σ(为一个阈值,0<σ<1),直接取出第三个基因计算ρ13;如果ρ12<σ,将第二个基因加入特征子集Φ,再取出第三个基因计算ρ13,第三个以后的每个基因都要和基因子集中的所有基因计算ρij,只要有一个ρij大于σ就直接取出下一个判断,如果都小于σ,则将其加入基因子集再取出下一个进行判断,直到基因子集Φ的大小达到预定个数为止。
与现有技术相比,本发明将MFA score和基于Pearson相关系数的排除冗余方法相结合,它适用于任意空间分布的肿瘤训练样本,算法复杂度较小,利用Pearson相关系数来判断基因间的相关性,将冗余基因排除,最终得到基因子集,进一步缩减了特征维数,提高了分类器的分类精度。本发明对肿瘤类型及亚型、肿瘤的临床预后、肿瘤的不同发展阶段等做出准确判别,为肿瘤的临床诊断和治疗提供帮助。
附图说明
图1为本发明的方法流程图。
图2为Lung Cancer数据在本发明和其他三种方法上的分类准确率曲线图。
图3为Brain Tumor1数据在本发明和其他三种方法上的分类准确率曲线图。
图4为Brain Tumor2数据在本发明和其他三种方法上的分类准 确率曲线图。
图5为11 Tumor数据在本发明和其他三种方法上的分类准确率曲线图。
图6为SRBCT数据在本发明和其他三种方法上的分类准确率曲线图。
图7为Leukemia1数据在本发明和其他三种方法上的分类准确率曲线图。
图8为Leukemia2数据在本发明和其他三种方法上的分类准确率曲线图。
图9为DLBCL数据在本发明和其他三种方法上的分类准确率曲线图。
具体实施方式
以下结合附图和实施例对本发明作进一步详细说明。
实施例
现采用网站http://www.gems-system.org上的肺癌数据集(Lung Cancer),它的特点如下表所列:
表1 Lung Cancer基因数:12600
将数据随机二等分,一半分为训练集,用于特征选择,然后用支持向量机在另一半的测试集上测试,得出分类准确率(如果某类样本数为奇数,则划分给训练集的比测试集多一个,例如Normal类,划分给训练集的有9个样本,测试集有8个),这样分得的训练集有103个样本,测试集100个样本。
1、特征选择:
1)构造类内近邻矩阵Ww和类间近邻矩阵Wb。
Lung Cancer训练集的103个样本组成的集合可以表示为:X=[x1,x2,...,x103],矩阵的大小为12600×103。样本集合还可以写成X=[f1,f2,....,f12600]T,fj是一个基因在各个样本中的表达值组成的向量。根据样本间的欧氏距离和类别信息,对于每一个样本,在与之同类的子集中选择k1=2个近邻,在与之不同类的子集中选择k2=25个近邻,这样分别构造出类内近邻矩阵Ww(103×103)和类间近邻矩阵Wb(103×103):
N2(xi)表示在与xi同类的样本中2个近邻组成的集合,P25(xi)表示在与xi不同类的样本中25个近邻组成的集合。
2)计算得出类间拉普拉斯矩阵Lb和类内拉普拉斯矩阵Lw。
其中Lb=Db-Wb,Db是一个对角矩阵,对角元素为Wb的列元素 之和(或行元素之和,因为Wb为对称矩阵);Lw=Dw-Ww,Dw是一个对角矩阵,对角元素为Ww的列元素之和(或行元素之和,因为Ww为对称矩阵)。
3)由MFA score算法得出基因序列。
由MFA score评价基因的函数:Score(fj)来计算每一个基因 (j=1,2,...,12600)的分数,然后根据分数从大到小对基因进行排序,得到基因序列:[F1,F2,...,F12600]。
4)排除冗余,得到基因子集。
两个基因的Pearson相关系数为:
因而可以用ρij=|ρ(fi,fj)|来衡量两个基因的相关性。首先取出基因序列的第一个基因加入基因子集Φ,再取出第二个基因计算ρ12,如果ρ12>σ(为一个阈值,σ=0.9),直接取出第三个基因计算ρ13;如果ρ12<σ,将第二个基因加入特征子集Φ,再取出第三个基因计算ρ13,第三个以后的每个基因都要和基因子集中的所有基因计算ρij,只要有一个ρij大于σ就直接取出下一个判断,如果都小于σ,则将其加入基因子集再取出下一个进行判断,直到基因子集Φ的大小达到70为止。这样就从众多基因中选出了70个基因。
2、训练和测试
经过特征选择,训练集和测试集变为Xtrain(70×103)和Xtest(70×103)。取前i个基因得到X'train(i×103)和X'test(i×103),用Matlab中libsvm工具箱 的“svmtrain”函数对X'train进行训练,然后用libsvm工具箱的“svmpredict”函数对X'test进行测试,得到选择i个基因时的分类准确率,像这样,i取1~70便可以得到对应于基因数为1到70的分类准确率曲线。
将上述过程重复25次,得到准确度的平均值。
将本发明和Fisher score、t-test、MFA score进行比较,最后得到四种方法的准确度曲线图,如图2。
本发明还在Brain Tumor1、Brain Tumor2、11Tumors、SRBCT、Leukemia1、Leukemia2和DLBCL数据集(如下表,数据均来自http://www.gems-system.org)进行了测试,结果如图3~9。从这8个实验可以看出本发明的准确率均高于其他3种方法,这是因为它既考虑了样本的空间几何结构和类别信息,又排除了冗余基因。MFA score考虑了样本的空间几何结构和类别信息,但没有排除冗余基因,所以效果次之。
表2 脑瘤、白血病等7个数据集
Claims (2)
1.基于MFA score和排除冗余的基因表达谱特征选择方法,其特征在于:
本发明采用的技术方案实现步骤如下,
1)构造肿瘤样本的类内近邻矩阵Ww和类间近邻矩阵Wb;
利用DNA芯片测定肿瘤基因表达谱,表达谱中n个样本,n代表不同的患者,组成的集合可以表示为:X=[x1,x2,...,xn],(i=1,2,...,n)代表一个有m个基因的样本(n<<m);肿瘤样本集合还可以写成X=[f1,f2,....,fm]T,(j=1,2,...,m)是一个基因在各个样本中的表达值组成的向量;根据肿瘤样本间的欧氏距离和类别信息,其类别信息为有病、无病或肿瘤的亚型,对于每一个样本,在与之同类的子集中选择k1个近邻,在与之不同类的子集中选择k2个近邻,这样分别构造出类内近邻矩阵Ww和类间近邻矩阵Wb:
Nk1(xi)表示在与xi同类的样本中k1个近邻组成的集合,Pk2(xi)表示在与xi不同类的样本中k2个近邻组成的集合;
2)计算得出肿瘤样本类间拉普拉斯矩阵Lb和类内拉普拉斯矩阵Lw;
其中Lb=Db-Wb,Db是一个对角矩阵,对角元素为Wb的列元素之和或行元素之和;Lw=Dw-Ww,Dw是一个对角矩阵,对角元素为Ww的列元素之和或行元素之和;
3)由MFA score算法得出基因序列;
由MFA score评价基因的函数:Score(fj)来计算每一个基因(j=1,2,...,m)的分数,然后根据分数从大到小对基因进行排序,得到基因序列:[F1,F2,...,Fm];
4)排除冗余,得到基因子集;
两个基因的Pearson相关系数为:
因而可以用ρij=|ρ(fi,fj)|来衡量两个基因的相关性;首先取出基因序列的第一个基因加入基因子集Φ,再取出第二个基因计算ρ12,如果ρ12>σ,0<σ<1,直接取出第三个基因计算ρ13;如果ρ12<σ,将第二个基因加入特征子集Φ,再取出第三个基因计算ρ13,第三个以后的每个基因都要和基因子集中的所有基因计算ρij,只要有一个ρij大于σ就直接取出下一个判断,如果都小于σ,则将其加入基因子集再取出下一个进行判断,直到基因子集Φ的大小达到预定个数为止。
2.根据权利要求1所述的基于MFA score和排除冗余的基因表达谱特征选择方法,其特征在于:采用网站http://www.gems-system.org上的肺癌数据集,它的特点如下表所列:
表1 Lung Cancer基因数:12600
将数据随机二等分,一半分为训练集,用于特征选择,然后用支持向量机在另一半的测试集上测试,得出分类准确率,这样分得的训练集有103个样本,测试集100个样本;
1、特征选择:
1)构造类内近邻矩阵Ww和类间近邻矩阵Wb;
Lung Cancer训练集的103个样本组成的集合可以表示为:X=[x1,x2,...,x103],矩阵的大小为12600×103;样本集合还可以写成X=[f1,f2,....,f12600]T,fj是一个基因在各个样本中的表达值组成的向量;根据样本间的欧氏距离和类别信息,对于每一个样本,在与之同类的子集中选择k1=2个近邻,在与之不同类的子集中选择k2=25个近邻,这样分别构造出类内近邻矩阵Ww(103×103)和类间近邻矩阵Wb(103×103):
N2(xi)表示在与xi同类的样本中2个近邻组成的集合,P25(xi)表示在与xi不同类的样本中25个近邻组成的集合;
2)计算得出类间拉普拉斯矩阵Lb和类内拉普拉斯矩阵Lw;
其中Lb=Db-Wb,Db是一个对角矩阵,对角元素为Wb的列元素之和或行元素之和;Lw=Dw-Ww,Dw是一个对角矩阵,对角元素为Ww的列元素之和或行元素之和;
3)由MFA score算法得出基因序列;
由MFA score评价基因的函数:Score(fj)来计算每一个基因(j=1,2,...,12600)的分数,然后根据分数从大到小对基因进行排序,得到基因序列:[F1,F2,...,F12600];
4)排除冗余,得到基因子集;
两个基因的Pearson相关系数为:
因而可以用ρij=|ρ(fi,fj)|来衡量两个基因的相关性;首先取出基因序列的第一个基因加入基因子集Φ,再取出第二个基因计算ρ12,如果ρ12>σ(为一个阈值,σ=0.9),直接取出第三个基因计算ρ13;如果ρ12<σ,将第二个基因加入特征子集Φ,再取出第三个基因计算ρ13,第三个以后的每个基因都要和基因子集中的所有基因计算ρij,只要有一个ρij大于σ就直接取出下一个判断,如果都小于σ,则将其加入基因子集再取出下一个进行判断,直到基因子集Φ的大小达到70为止;这样就从众多基因中选出了70个基因;
2、训练和测试
经过特征选择,训练集和测试集变为Xtrain(70×103)和Xtest(70×103);取前i个基因得到X'train(i×103)和X'test(i×103),用Matlab中libsvm工具箱的“svmtrain”函数对X'train进行训练,然后用libsvm工具箱的“svmpredict”函数对X'test进行测试,得到选择i个基因时的分类准确率,像这样,i取1~70便可以得到对应于基因数为1到70的分类准确率曲线;
将上述过程重复25次,得到准确度的平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410438783.1A CN104200135A (zh) | 2014-08-30 | 2014-08-30 | 基于MFA score和排除冗余的基因表达谱特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410438783.1A CN104200135A (zh) | 2014-08-30 | 2014-08-30 | 基于MFA score和排除冗余的基因表达谱特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104200135A true CN104200135A (zh) | 2014-12-10 |
Family
ID=52085428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410438783.1A Pending CN104200135A (zh) | 2014-08-30 | 2014-08-30 | 基于MFA score和排除冗余的基因表达谱特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104200135A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243296A (zh) * | 2015-09-28 | 2016-01-13 | 丽水学院 | 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法 |
CN105938523A (zh) * | 2016-03-31 | 2016-09-14 | 陕西师范大学 | 一种基于特征辨识度和独立性的特征选择方法及应用 |
CN112215290A (zh) * | 2020-10-16 | 2021-01-12 | 苏州大学 | 基于Fisher得分的Q学习辅助数据分析方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156878A (zh) * | 2011-04-08 | 2011-08-17 | 南京邮电大学 | 一种基于带有流形信息稀疏映射的人脸识别方法 |
CN102629305A (zh) * | 2012-03-06 | 2012-08-08 | 上海大学 | 一种面向snp数据的特征选择方法 |
CN103403725A (zh) * | 2010-12-29 | 2013-11-20 | 陶氏益农公司 | 对dna序列的数据分析 |
-
2014
- 2014-08-30 CN CN201410438783.1A patent/CN104200135A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103403725A (zh) * | 2010-12-29 | 2013-11-20 | 陶氏益农公司 | 对dna序列的数据分析 |
CN102156878A (zh) * | 2011-04-08 | 2011-08-17 | 南京邮电大学 | 一种基于带有流形信息稀疏映射的人脸识别方法 |
CN102629305A (zh) * | 2012-03-06 | 2012-08-08 | 上海大学 | 一种面向snp数据的特征选择方法 |
Non-Patent Citations (5)
Title |
---|
刘全金等: "基于BP网络灵敏度分析的肿瘤亚型分类特征基因选取", 《中国生物医学工程学报》 * |
朱云华: "基于基因表达谱的小圆蓝细胞瘤亚型识别研究", 《中国优秀博硕士学位论文全文数据库(硕士) 医药卫生科技辑》 * |
李颖新等: "肿瘤基因表达谱分类特征基因选取问题及分析方法研究", 《计算机学报》 * |
谭明奎: "基因微阵列特征选择和分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
赵培培: "支持向量机预测miRNA靶基因数据不平衡问题的研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243296A (zh) * | 2015-09-28 | 2016-01-13 | 丽水学院 | 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法 |
CN105938523A (zh) * | 2016-03-31 | 2016-09-14 | 陕西师范大学 | 一种基于特征辨识度和独立性的特征选择方法及应用 |
CN112215290A (zh) * | 2020-10-16 | 2021-01-12 | 苏州大学 | 基于Fisher得分的Q学习辅助数据分析方法及系统 |
CN112215290B (zh) * | 2020-10-16 | 2024-04-09 | 苏州大学 | 基于Fisher得分的Q学习辅助数据分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Steinley | Properties of the hubert-arable adjusted rand index. | |
US20160070950A1 (en) | Method and system for automatically assigning class labels to objects | |
CN103886318B (zh) | 尘肺病大体成像中病灶区域的提取与分析方法 | |
CN104200134A (zh) | 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法 | |
CN107247873B (zh) | 一种差异甲基化位点识别方法 | |
CN104732241A (zh) | 一种多分类器构建方法和系统 | |
Manninen et al. | Leukemia prediction using sparse logistic regression | |
US20220254450A1 (en) | method for classifying individuals in mixtures of DNA and its deep learning model | |
CN105243296A (zh) | 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法 | |
CN105447520A (zh) | 一种基于加权投影对支持向量机的样本分类方法 | |
CN104200135A (zh) | 基于MFA score和排除冗余的基因表达谱特征选择方法 | |
CN105469108A (zh) | 基于生物学数据的聚类方法及系统、聚类结果评价方法及系统 | |
WO2010111392A1 (en) | Classifying an item to one of a plurality of groups | |
Saberkari et al. | Cancer classification in microarray data using a hybrid selective independent component analysis and υ-support vector machine algorithm | |
CN107025387B (zh) | 一种用于癌症生物标志物识别的方法 | |
CN102663681A (zh) | 基于排序k-均值算法的灰度图像分割方法 | |
CN104156503A (zh) | 一种基于基因芯片网络分析的疾病风险基因识别方法 | |
CN106601271B (zh) | 一种语音异常信号检测系统 | |
CN105279520B (zh) | 基于分类能力结构向量互补的最优特征子集选取方法 | |
US20170053060A1 (en) | Method for predicting prognosis of cancer | |
Liu et al. | A leave-one-feature-out wrapper method for feature selection in data classification | |
Sun et al. | Multi-view biclustering for genotype-phenotype association studies of complex diseases | |
Park et al. | Sparse common component analysis for multiple high-dimensional datasets via noncentered principal component analysis | |
CN107220490A (zh) | 水文序列均值跳跃变异的识别与分级方法 | |
RU2017132647A (ru) | Способ идентификации и классификации объектов |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141210 |
|
RJ01 | Rejection of invention patent application after publication |