CN102629305A - 一种面向snp数据的特征选择方法 - Google Patents
一种面向snp数据的特征选择方法 Download PDFInfo
- Publication number
- CN102629305A CN102629305A CN2012100555665A CN201210055566A CN102629305A CN 102629305 A CN102629305 A CN 102629305A CN 2012100555665 A CN2012100555665 A CN 2012100555665A CN 201210055566 A CN201210055566 A CN 201210055566A CN 102629305 A CN102629305 A CN 102629305A
- Authority
- CN
- China
- Prior art keywords
- snp
- sample
- characteristic
- feature selection
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种面向SNP数据的特征选择方法。其具体步骤如下:首先进行数据预处理;然后用重新设计的Relief算法剔除无关SNP特征;然后用改进的SVM-RFE算法对SNP特征进行关键性程度排序;最后使用十字交叉验证来筛选关键SNPs。该发明结合了Filter式特征选择和Wrapper式特征选择的优势,并在机器学习过程中使用二次划分方法,解决了SNP数据特征选择中的高维小样本及SNP致病组合模式的问题,提高了分析效率和准确率。
Description
技术领域
本发明涉及对具有高维度小样本特性的海量数据进行特征选择的相关技术,特别是设计一种面向SNP数据的特征选择方法,属于计算机应用技术领域。
背景技术
对具有高维度小样本特性的数据进行特征选择是数据挖掘领域研究热点之一。该类型数据普遍存在数据量巨大、特征维度高、样本数量少的特点。常用的数据分析方法具有样本趋向性,进行高维小样本数据分析的效率低而准确性不高。
SNP是single nucleotide polymorphism的缩写,即单核苷酸多态性,指的是在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP是人类基因组最丰富的遗传变异,因此,准确定位疾病相关的关键SNPs,SNPs是SNP的集合,有助于定位致病基因,研究复杂疾病的遗传机理,辅助个性化治疗。
SNP特征选择的目的,在于高效、准确定位关键SNPs。SNP数据是典型的高维度小样本数据,是SNP特征选择的困难一。复杂疾病的诱因复杂,通常由多个基因共同作用导致,在SNP层面,表现为SNP数据特征之间存在着关联关系,是SNP特征选择的困难二。
传统的特征选择算法中,Relief算法能有效评估和剔除无关特征,而SVM-RFE算法能对关键性程度进行排序。但是前者忽略特征之间关联关系,后者算法效率低下。
发明内容
为解决以上SNP数据分析中的问题,本发明目的在于提供一种面向SNP数据的特征选择方法,将Relief算法和SVM-RFE算法改善并结合,解决SNP特征选择的两大困难,并提高特征选择效率和准确率。
为达到上述目的,本发明的构思是:首先将数据进行清洗和编码,然后用重新设计的Relief算法剔除无关SNP特征,再用SVM-RFE算法对SNP特征进行关键性程度排序,最后使用十字交叉验证来筛选关键SNPs。
根据上述的发明构思,本发明采用下述技术方案:
一种面向SNP数据的特征选择方法,其具体操作步骤如下:
(A)、进行数据预处理;
(B)、用重新设计的Relief算法剔除无关SNP特征;
(C)、用改进的SVM-RFE算法对SNP特征进行关键性程度排序;
(D)、使用十字交叉验证来筛选关键SNPs。
上述步骤(A)进行数据预处理的具体操作步骤如下:
A1) 贴类别标签:SNP数据属于二分类样本,即样本只有患病-case组和健康-normal组两类,case组贴类别标签{+1},normal组贴类别标签{-1};
A2)数据编码:基因芯片检测出的SNP分型结果,共有四种形式:野生纯合型AA、突变杂合型AB、突变纯合型BB,分型失败标记NC;将AA编码为0,AB编码为1,BB编码为2;NC在数据清洗过程中被清洗掉,不进行编码;
A3)数据清洗。NC在SNP数据分析中属于噪声数据,当某SNP特征在所有样本中的NC标记超过50%时,剔除此SNP特征;当某一样本在所有SNP特征上的NC标记超过50%,剔除该样本;对于未被剔除的NC位点,使用该SNP特征处分型值所占比例最大的分型值替换NC。
上述步骤B中将预处理后的SNP数据,用重新设计的Relief算法剔除无关SNP特征的操作步骤是:
B1) 计算两两样本距离,构成样本距离矩阵:
B2)扫描样本距离矩阵,为每个样本寻找同类最近邻和异类最近邻:
B3)计算SNP的Relief权重;
B4)删除Relief权重低于阈值的SNP特征,此处阈值设为75%。
上述步骤B3)中计算SNP的Relief权重的操作步骤是:
B3-3)将所有SNP特征按照从大到小排序。
上述步骤C中用改进的SVM-RFE算法对SNP特征进行关键性程度排序的操作步骤是循环迭代一下过程直至待分析特征集合为空:
C1)通过SVM训练获取特征准则分数:
C2)判断是否需要二次划分,若特征集合规模大于1万,则转步骤C3);否则转步骤C4;
C3)二次划分确定待删除特征为集合f;
C5)将待删除特征从待分析特征集合删除,加到关键性程度排序集S。
上述步骤C3)中二次划分确定待删除特征集合f的操作步骤是:
C3-1)初始化待划分集合为当前待分析集合;
C3-4)将待划分集合设置为G1,进行二次划分,划分方法同上,结果记为M1,M2…Mk;
上述步骤D中使用十字交叉验证来筛选关键SNPs的操作步骤是:
D1)从SNP关键程度表中选择前1、前2…前n个SNP进行十字交叉验证,直到分类准确率达到稳定为止;
D2)选择分类准确率最高,集合规模最小的SNP组合作为关键SNPs输出。
本发明的一种面向SNP数据的特征选择方法,与已有的技术相比较具有如下显而易见的突出特点和显著优点:
(1)本发明通过重新设计Relief算法,用于SNP数据特征选择的特征降维,有效的解决了高维小样本特征选择效率低下的问题。
(2)本发明采用二次划分的方法,解决了SVM-RFE算法削减特征速度过慢的问题,进一步提高了SNP特征选择效率。
(3)本发明采用SVM-RFE进行特征关键性程度排序,该算法的机器学习过程提高了SNP特征选择的准确率,并能有效考虑SNP特征之间的关联关系。
(4)本发明采用十字交叉验证方法选择关键SNPs时以组合形式考察分类准确率,一定程度上考虑了SNPs致病机理,在理论上提高了SNP特征选择的可信度。
附图说明
图1是本发明的一种面向SNP数据的特征选择方法的流程图。
图2是图1中所述的进行数据预处理的流程图。
图3是图1中所述的用Relief算法剔除无关SNP特征的流程图。
图4是图1中所述的用改进的SVM-RFE算法对SNP特征进行关键性程度排序的流程图。
图5是图4中所述的二次划分方法示意图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步详细的说明。
实施例一:
参见图1,本面向SNP数据的特征选择方法,其特征在于具体操作步骤如下:
(A)、进行数据预处理;
(B)、用重新设计的Relief算法剔除无关SNP特征;
(C)、用改进的SVM-RFE算法对SNP特征进行关键性程度排序;
(D)、使用十字交叉验证来筛选关键SNPs。
实施例二:
参照图1~图5,本发明是一种面向SNP数据的特征选择方法,此处以高血压病患者的SNP数据特征为例,其具体步骤如下:
(1)进行数据预处理,如图2所示,其具体步骤如下:
a) 贴类别标签:SNP数据属于二分类样本,即样本只有患病-case组和健康-normal组两类,case组贴类别标签{+1},normal组贴类别标签{-1};
b)数据编码:基因芯片检测出的SNP分型结果,共有四种形式:野生纯合型AA、突变杂合型AB、突变纯合型BB,分型失败标记NC;将AA编码为0,AB编码为1,BB编码为2;NC在数据清洗过程中被清洗掉,不进行编码;
c)数据清洗:NC在SNP数据分析中属于噪声数据,当某SNP特征在所有样本中的NC标记超过50%时,剔除此SNP特征;当某一样本在所有SNP特征上的NC标记超过50%,剔除该样本;对于未被剔除的NC位点,使用该SNP特征处分型值所占比例最大的分型值替换NC。
(2)用重新设计的Relief算法剔除无关SNP特征。如图3所示,其具体操作步骤是:
a) 计算两两样本距离,构成样本距离矩阵:
b)扫描样本距离矩阵,为每个样本寻找同类最近邻和异类最近邻:
c)计算SNP的Relief权重;
d)删除Relief权重低于阈值的SNP特征,此处阈值设为75%。
上述步骤c)计算SNP的Relief权重的具体步骤是:
(3)用改进的SVM-RFE算法对SNP特征进行关键性程度排序。如图4所示,其具体的操作步骤是:
循环迭代一下过程直至待分析特征集合为空:
a)通过SVM训练获取特征准则分数:
b)判断是否需要二次划,若特征集合规模大于1万,则转步骤C3);否则转步骤C4);
c)二次划分确定待删除特征为集合f;
e)将待删除特征从待分析特征集合删除,加到关键性程度排序集S。
上述步骤b)二次划分确定待删除特征为集合f,如图示4,其具体步骤是:
b-1)初始化待划分集合为当前待分析集合;
b-4)将待划分集合设置为G1,进行二次划分,划分方法同上。结果记为M1,M2…Mk;
b-5)待删除集合f=M1。
(4)使用十字交叉验证来筛选关键SNPs,如图5,其具体步骤是:
a)从SNP关键程度表中选择前1、前2…前n个SNP进行十字交叉验证,直到分类准确率达到稳定为止;
b)选择分类准确率最高,集合规模最小的SNP组合作为关键SNPs输出。
实验结果表明,本发明将Relief算法和SVM-RFE算法结合起来,充分利用了Filter式特征选择和Wrapper式特征选择的优势,并提出二次划分思想,有效解决看SNP数据高维小样本特性及SNP致病组合作用模式问题,提高了SNP特征选择的分析效率和关键SNPs定位准确率。
以上对本发明的一种面向SNP数据的特征选择方法进行了详细的介绍,只是用于帮助理解本发明的方法和核心思想;同时,对于本领域的一般技术人员,依据本发明的方法和思想,在具体实施方式和应用范围上均会有所改变,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种面向SNP数据的特征选择方法,其特征在于具体操作步骤如下:
(1)、进行数据预处理;
(2)、用重新设计的Relief算法剔除无关SNP特征;
(3)、用改进的SVM-RFE算法对SNP特征进行关键性程度排序;
(4)、使用十字交叉验证来筛选关键SNPs。
2.根据权利要求1所述的一种面向SNP数据的特征选择方法,其特征在于,所述步骤(1)中的进行数据预处理,其具体操作操作如下:
1-1) 贴类别标签:SNP数据属于二分类样本,即样本只有患病-case组和健康-normal组两类,case组贴类别标签{+1},normal组贴类别标签{-1};
1-2)数据编码:基因芯片检测出的SNP分型结果,共有四种形式:野生纯合型AA、突变杂合型AB、突变纯合型BB,分型失败标记NC;将AA编码为0,AB编码为1,BB编码为2;NC在数据清洗过程中被清洗掉,不进行编码;
1-3)数据清洗:NC在SNP数据分析中属于噪声数据,当某SNP特征在所有样本中的NC标记超过50%时,剔除此SNP特征;当某一样本在所有SNP特征上的NC标记超过50%,剔除该样本;对于未被剔除的NC位点,使用该SNP特征处分型值所占比例最大的分型值替换NC。
3.根据权利要求1所述的一种面向SNP数据的特征选择方法,其特征在于,所述步骤(2)中的用重新设计的Relief算法剔除无关SNP特征,其具体步骤如下:
2-1) 计算两两样本距离,构成样本距离矩阵:
样本 距离计算公式为:
2-2)扫描样本距离矩阵,为每个样本寻找同类最近邻和异类最近邻:
2-3)计算SNP的Relief权重;
2-4)删除Relief权重低于阈值的SNP特征,此处阈值设为75%。
7.根据权利要求1所述的一种面向SNP数据分析的特征选择方法,其特征在于,所述步骤(4)中的使用十字交叉验证来筛选关键SNPs,其具体步骤是:
4-1)从SNP关键程度表中选择前1、前2…前n个SNP进行十字交叉验证,直到分类准确率达到稳定为止;
4-2)选择分类准确率最高,集合规模最小的SNP组合作为关键SNPs输出。
8.根据权利要求7所述的一种面向SNP数据分析的特征选择方法,其特征在于,所述步骤(4-2)中所述的关键SNPs是指与疾病具有最高关联关系的SNP特征集合,其评估依据十字交叉验证获得的将样本正确分类的分类准确率,选择分类准确率稳定后具有最高分类准确率的SNP集合,作为关键SNPs。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210055566.5A CN102629305B (zh) | 2012-03-06 | 2012-03-06 | 一种面向snp数据的特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210055566.5A CN102629305B (zh) | 2012-03-06 | 2012-03-06 | 一种面向snp数据的特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102629305A true CN102629305A (zh) | 2012-08-08 |
CN102629305B CN102629305B (zh) | 2015-02-25 |
Family
ID=46587563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210055566.5A Expired - Fee Related CN102629305B (zh) | 2012-03-06 | 2012-03-06 | 一种面向snp数据的特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102629305B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366100A (zh) * | 2013-06-25 | 2013-10-23 | 西安电子科技大学 | 从全基因组中过滤与复杂疾病无关snp的方法 |
CN103942467A (zh) * | 2013-01-21 | 2014-07-23 | 国际商业机器公司 | 用于选择用于建模上位性效应的标记的信息处理方法和系统 |
CN104200135A (zh) * | 2014-08-30 | 2014-12-10 | 北京工业大学 | 基于MFA score和排除冗余的基因表达谱特征选择方法 |
CN104866863A (zh) * | 2015-04-27 | 2015-08-26 | 大连理工大学 | 一种生物标志物筛选方法 |
CN105469108A (zh) * | 2015-11-17 | 2016-04-06 | 深圳先进技术研究院 | 基于生物学数据的聚类方法及系统、聚类结果评价方法及系统 |
CN105938523A (zh) * | 2016-03-31 | 2016-09-14 | 陕西师范大学 | 一种基于特征辨识度和独立性的特征选择方法及应用 |
CN106022378A (zh) * | 2016-05-23 | 2016-10-12 | 武汉大学 | 基于摄像头与压力传感器的颈椎病识别方法 |
CN106997371A (zh) * | 2016-10-28 | 2017-08-01 | 华数传媒网络有限公司 | 单用户智慧图谱的构建方法 |
WO2017157183A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 一种自动多阀值特征过滤方法及装置 |
CN108596104A (zh) * | 2018-04-26 | 2018-09-28 | 安徽大学 | 一种带有病害特征预处理功能的小麦白粉病遥感监测方法 |
CN108961207A (zh) * | 2018-05-02 | 2018-12-07 | 上海大学 | 基于多模态超声图像的淋巴结良恶性病变辅助诊断方法 |
CN109711450A (zh) * | 2018-12-20 | 2019-05-03 | 北京科东电力控制系统有限责任公司 | 一种电网预想故障集预测方法、装置、电子设备及存储介质 |
CN111784022A (zh) * | 2019-08-08 | 2020-10-16 | 沈阳工业大学 | 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894216A (zh) * | 2010-07-16 | 2010-11-24 | 西安电子科技大学 | 从snp数据中发现与复杂疾病相关snp组的方法 |
-
2012
- 2012-03-06 CN CN201210055566.5A patent/CN102629305B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894216A (zh) * | 2010-07-16 | 2010-11-24 | 西安电子科技大学 | 从snp数据中发现与复杂疾病相关snp组的方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103942467A (zh) * | 2013-01-21 | 2014-07-23 | 国际商业机器公司 | 用于选择用于建模上位性效应的标记的信息处理方法和系统 |
CN103366100A (zh) * | 2013-06-25 | 2013-10-23 | 西安电子科技大学 | 从全基因组中过滤与复杂疾病无关snp的方法 |
CN104200135A (zh) * | 2014-08-30 | 2014-12-10 | 北京工业大学 | 基于MFA score和排除冗余的基因表达谱特征选择方法 |
CN104866863A (zh) * | 2015-04-27 | 2015-08-26 | 大连理工大学 | 一种生物标志物筛选方法 |
CN104866863B (zh) * | 2015-04-27 | 2018-02-16 | 大连理工大学 | 一种生物标志物筛选方法 |
CN105469108B (zh) * | 2015-11-17 | 2019-04-05 | 深圳先进技术研究院 | 基于生物学数据的聚类方法及系统、聚类结果评价方法及系统 |
CN105469108A (zh) * | 2015-11-17 | 2016-04-06 | 深圳先进技术研究院 | 基于生物学数据的聚类方法及系统、聚类结果评价方法及系统 |
TWI794157B (zh) * | 2016-03-17 | 2023-03-01 | 香港商阿里巴巴集團服務有限公司 | 自動多閾值特徵過濾方法及裝置 |
US11544618B2 (en) | 2016-03-17 | 2023-01-03 | Alibaba Group Holding Limited | Automatic multi-threshold feature filtering method and apparatus |
WO2017157183A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 一种自动多阀值特征过滤方法及装置 |
CN107203891A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 一种自动多阀值特征过滤方法及装置 |
CN105938523A (zh) * | 2016-03-31 | 2016-09-14 | 陕西师范大学 | 一种基于特征辨识度和独立性的特征选择方法及应用 |
CN106022378B (zh) * | 2016-05-23 | 2019-05-10 | 武汉大学 | 坐姿判断方法及基于摄像头与压力传感器颈椎病识别系统 |
CN106022378A (zh) * | 2016-05-23 | 2016-10-12 | 武汉大学 | 基于摄像头与压力传感器的颈椎病识别方法 |
CN106997371B (zh) * | 2016-10-28 | 2020-06-23 | 华数传媒网络有限公司 | 单用户智慧图谱的构建方法 |
CN106997371A (zh) * | 2016-10-28 | 2017-08-01 | 华数传媒网络有限公司 | 单用户智慧图谱的构建方法 |
CN108596104A (zh) * | 2018-04-26 | 2018-09-28 | 安徽大学 | 一种带有病害特征预处理功能的小麦白粉病遥感监测方法 |
CN108961207A (zh) * | 2018-05-02 | 2018-12-07 | 上海大学 | 基于多模态超声图像的淋巴结良恶性病变辅助诊断方法 |
CN108961207B (zh) * | 2018-05-02 | 2022-11-04 | 上海大学 | 基于多模态超声图像的淋巴结良恶性病变辅助诊断方法 |
CN109711450A (zh) * | 2018-12-20 | 2019-05-03 | 北京科东电力控制系统有限责任公司 | 一种电网预想故障集预测方法、装置、电子设备及存储介质 |
CN111784022A (zh) * | 2019-08-08 | 2020-10-16 | 沈阳工业大学 | 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法 |
CN111784022B (zh) * | 2019-08-08 | 2024-01-30 | 沈阳工业大学 | 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102629305B (zh) | 2015-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102629305A (zh) | 一种面向snp数据的特征选择方法 | |
CN102346829B (zh) | 基于集成分类的病毒检测方法 | |
CN101604363B (zh) | 基于文件指令频度的计算机恶意程序分类系统及分类方法 | |
CN108363810A (zh) | 一种文本分类方法及装置 | |
CN105930862A (zh) | 一种基于密度自适应距离的密度峰聚类算法 | |
JP2012521598A5 (zh) | ||
CN105389480A (zh) | 多类不平衡基因组学数据迭代集成特征选择方法及系统 | |
CN103412888A (zh) | 一种兴趣点识别方法和装置 | |
Björnberg et al. | Recurrence of bipartite planar maps | |
CN106326913A (zh) | 一种洗钱账户的确定方法及装置 | |
CN101604364A (zh) | 基于文件指令序列的计算机恶意程序分类系统和分类方法 | |
CN104331893A (zh) | 一种复杂图像多阈值分割方法 | |
CN105205052B (zh) | 一种数据挖掘方法及装置 | |
CN102750286A (zh) | 一种处理缺失数据的新型决策树分类器方法 | |
CN101295362A (zh) | 结合支持向量机以及近邻法的模式分类方法 | |
CN103336771A (zh) | 基于滑动窗口的数据相似检测方法 | |
CN109299263A (zh) | 文本分类方法、电子设备及计算机程序产品 | |
CN109448366A (zh) | 一种基于随机森林的空域扇区拥挤程度预测方法 | |
CN105447521A (zh) | 一种K-means聚类的初值选择方法 | |
CN104778480A (zh) | 一种基于局部密度和测地距离的分层谱聚类方法 | |
CN110389932A (zh) | 电力文件自动分类方法及装置 | |
CN106447397A (zh) | 基于决策树算法的烟草零售户定价方法 | |
CN109934286A (zh) | 基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法 | |
CN104318306A (zh) | 基于非负矩阵分解和进化算法优化参数的自适应交叠社区检测方法 | |
CN105760478A (zh) | 一种基于机器学习的大规模分布式的数据聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150225 Termination date: 20180306 |