CN102629305A - 一种面向snp数据的特征选择方法 - Google Patents

一种面向snp数据的特征选择方法 Download PDF

Info

Publication number
CN102629305A
CN102629305A CN2012100555665A CN201210055566A CN102629305A CN 102629305 A CN102629305 A CN 102629305A CN 2012100555665 A CN2012100555665 A CN 2012100555665A CN 201210055566 A CN201210055566 A CN 201210055566A CN 102629305 A CN102629305 A CN 102629305A
Authority
CN
China
Prior art keywords
snp
sample
characteristic
feature selection
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100555665A
Other languages
English (en)
Other versions
CN102629305B (zh
Inventor
吴悦
吴红霞
雷州
刘宗田
张文宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201210055566.5A priority Critical patent/CN102629305B/zh
Publication of CN102629305A publication Critical patent/CN102629305A/zh
Application granted granted Critical
Publication of CN102629305B publication Critical patent/CN102629305B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种面向SNP数据的特征选择方法。其具体步骤如下:首先进行数据预处理;然后用重新设计的Relief算法剔除无关SNP特征;然后用改进的SVM-RFE算法对SNP特征进行关键性程度排序;最后使用十字交叉验证来筛选关键SNPs。该发明结合了Filter式特征选择和Wrapper式特征选择的优势,并在机器学习过程中使用二次划分方法,解决了SNP数据特征选择中的高维小样本及SNP致病组合模式的问题,提高了分析效率和准确率。

Description

一种面向SNP数据的特征选择方法
技术领域
本发明涉及对具有高维度小样本特性的海量数据进行特征选择的相关技术,特别是设计一种面向SNP数据的特征选择方法,属于计算机应用技术领域。
背景技术
对具有高维度小样本特性的数据进行特征选择是数据挖掘领域研究热点之一。该类型数据普遍存在数据量巨大、特征维度高、样本数量少的特点。常用的数据分析方法具有样本趋向性,进行高维小样本数据分析的效率低而准确性不高。
SNP是single nucleotide polymorphism的缩写,即单核苷酸多态性,指的是在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP是人类基因组最丰富的遗传变异,因此,准确定位疾病相关的关键SNPs,SNPs是SNP的集合,有助于定位致病基因,研究复杂疾病的遗传机理,辅助个性化治疗。
SNP特征选择的目的,在于高效、准确定位关键SNPs。SNP数据是典型的高维度小样本数据,是SNP特征选择的困难一。复杂疾病的诱因复杂,通常由多个基因共同作用导致,在SNP层面,表现为SNP数据特征之间存在着关联关系,是SNP特征选择的困难二。
传统的特征选择算法中,Relief算法能有效评估和剔除无关特征,而SVM-RFE算法能对关键性程度进行排序。但是前者忽略特征之间关联关系,后者算法效率低下。 
发明内容
为解决以上SNP数据分析中的问题,本发明目的在于提供一种面向SNP数据的特征选择方法,将Relief算法和SVM-RFE算法改善并结合,解决SNP特征选择的两大困难,并提高特征选择效率和准确率。
为达到上述目的,本发明的构思是:首先将数据进行清洗和编码,然后用重新设计的Relief算法剔除无关SNP特征,再用SVM-RFE算法对SNP特征进行关键性程度排序,最后使用十字交叉验证来筛选关键SNPs。
根据上述的发明构思,本发明采用下述技术方案:    
一种面向SNP数据的特征选择方法,其具体操作步骤如下:
(A)、进行数据预处理;
(B)、用重新设计的Relief算法剔除无关SNP特征;
(C)、用改进的SVM-RFE算法对SNP特征进行关键性程度排序;
(D)、使用十字交叉验证来筛选关键SNPs。 
上述步骤(A)进行数据预处理的具体操作步骤如下:
A1) 贴类别标签:SNP数据属于二分类样本,即样本只有患病-case组和健康-normal组两类,case组贴类别标签{+1},normal组贴类别标签{-1};
A2)数据编码:基因芯片检测出的SNP分型结果,共有四种形式:野生纯合型AA、突变杂合型AB、突变纯合型BB,分型失败标记NC;将AA编码为0,AB编码为1,BB编码为2;NC在数据清洗过程中被清洗掉,不进行编码;
A3)数据清洗。NC在SNP数据分析中属于噪声数据,当某SNP特征在所有样本中的NC标记超过50%时,剔除此SNP特征;当某一样本在所有SNP特征上的NC标记超过50%,剔除该样本;对于未被剔除的NC位点,使用该SNP特征处分型值所占比例最大的分型值替换NC。
上述步骤B中将预处理后的SNP数据,用重新设计的Relief算法剔除无关SNP特征的操作步骤是:
B1) 计算两两样本距离,构成样本距离矩阵:
样本                                                
Figure 2012100555665100002DEST_PATH_IMAGE001
距离计算公式为:
Figure 625999DEST_PATH_IMAGE002
其中
Figure 2012100555665100002DEST_PATH_IMAGE003
为第k个snp特征;
Figure 611273DEST_PATH_IMAGE004
Figure 858714DEST_PATH_IMAGE003
在样本
Figure 867122DEST_PATH_IMAGE001
中表达值的差异程度,此处将其不同记为差异度为1,相同记为0;
B2)扫描样本距离矩阵,为每个样本寻找同类最近邻和异类最近邻:
样本
Figure 2012100555665100002DEST_PATH_IMAGE005
的同类最近邻H为:与样本
Figure 920528DEST_PATH_IMAGE005
类别标签相同且具有最小的
Figure 196526DEST_PATH_IMAGE006
的样本
Figure 2012100555665100002DEST_PATH_IMAGE007
样本
Figure 677186DEST_PATH_IMAGE005
的异类最近邻H为:与样本
Figure 907311DEST_PATH_IMAGE005
类别标签不相同且具有最小的的样本
Figure 2012100555665100002DEST_PATH_IMAGE009
B3)计算SNP的Relief权重;
B4)删除Relief权重低于阈值的SNP特征,此处阈值设为75%。 
上述步骤B3)中计算SNP的Relief权重的操作步骤是:
B3-1)初始化
Figure 334061DEST_PATH_IMAGE010
其中为第k个snp,
Figure 421840DEST_PATH_IMAGE012
为其Relief权重;
B3-2)循环遍历样本集,通过以下权重公式计算并更新
Figure 467157DEST_PATH_IMAGE011
的Relief权重
Figure 800049DEST_PATH_IMAGE012
,特征
Figure 348842DEST_PATH_IMAGE011
的Relief权重公式如下:
Figure 2012100555665100002DEST_PATH_IMAGE013
     
其中
Figure 374567DEST_PATH_IMAGE014
是第k个snp特征。
Figure 641600DEST_PATH_IMAGE014
的新一轮Relief权重。H为样本
Figure 778183DEST_PATH_IMAGE016
的同类最近邻,M为样本
Figure 617701DEST_PATH_IMAGE016
的异类最近邻。
Figure DEST_PATH_IMAGE017
在样本
Figure 568657DEST_PATH_IMAGE016
和其同类最近邻H中表达值的差异程度;
Figure 305669DEST_PATH_IMAGE018
为为
Figure 829054DEST_PATH_IMAGE014
在样本
Figure 196581DEST_PATH_IMAGE016
和其异类最近邻M中表达值的差异程度;
B3-3)将所有SNP特征按照从大到小排序。
上述步骤C中用改进的SVM-RFE算法对SNP特征进行关键性程度排序的操作步骤是循环迭代一下过程直至待分析特征集合为空:
C1)通过SVM训练获取特征准则分数:
第i个SNP特征准则分数计算公式为:
Figure 2012100555665100002DEST_PATH_IMAGE019
,其中
Figure 651013DEST_PATH_IMAGE020
为SVM训练模型中的权向量;
C2)判断是否需要二次划分,若特征集合规模大于1万,则转步骤C3);否则转步骤C4;
C3)二次划分确定待删除特征为集合f;
C4)确定待删除特征为准则分数
Figure 2012100555665100002DEST_PATH_IMAGE021
最小的特征;
C5)将待删除特征从待分析特征集合删除,加到关键性程度排序集S。
上述步骤C3)中二次划分确定待删除特征集合f的操作步骤是:
C3-1)初始化待划分集合为当前待分析集合;
C3-2)计算待划分集合的分类准则分数
Figure 294484DEST_PATH_IMAGE021
的一阶差分
Figure 65869DEST_PATH_IMAGE022
  ;
C3-3)选取
Figure 2012100555665100002DEST_PATH_IMAGE023
中K-1个峰值,将两个峰值之间的SNP作为一组划分,记为G1,G2…Gk。其中K为分组参数,此处K设置为10;
C3-4)将待划分集合设置为G1,进行二次划分,划分方法同上,结果记为M1,M2…Mk;
上述步骤D中使用十字交叉验证来筛选关键SNPs的操作步骤是:
D1)从SNP关键程度表中选择前1、前2…前n个SNP进行十字交叉验证,直到分类准确率达到稳定为止;
D2)选择分类准确率最高,集合规模最小的SNP组合作为关键SNPs输出。
本发明的一种面向SNP数据的特征选择方法,与已有的技术相比较具有如下显而易见的突出特点和显著优点:
(1)本发明通过重新设计Relief算法,用于SNP数据特征选择的特征降维,有效的解决了高维小样本特征选择效率低下的问题。
(2)本发明采用二次划分的方法,解决了SVM-RFE算法削减特征速度过慢的问题,进一步提高了SNP特征选择效率。
(3)本发明采用SVM-RFE进行特征关键性程度排序,该算法的机器学习过程提高了SNP特征选择的准确率,并能有效考虑SNP特征之间的关联关系。
(4)本发明采用十字交叉验证方法选择关键SNPs时以组合形式考察分类准确率,一定程度上考虑了SNPs致病机理,在理论上提高了SNP特征选择的可信度。
附图说明
图1是本发明的一种面向SNP数据的特征选择方法的流程图。
图2是图1中所述的进行数据预处理的流程图。
图3是图1中所述的用Relief算法剔除无关SNP特征的流程图。
图4是图1中所述的用改进的SVM-RFE算法对SNP特征进行关键性程度排序的流程图。
图5是图4中所述的二次划分方法示意图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步详细的说明。
实施例一:
参见图1,本面向SNP数据的特征选择方法,其特征在于具体操作步骤如下:
(A)、进行数据预处理;
(B)、用重新设计的Relief算法剔除无关SNP特征;
(C)、用改进的SVM-RFE算法对SNP特征进行关键性程度排序;
(D)、使用十字交叉验证来筛选关键SNPs。
实施例二:
参照图1~图5,本发明是一种面向SNP数据的特征选择方法,此处以高血压病患者的SNP数据特征为例,其具体步骤如下:
(1)进行数据预处理,如图2所示,其具体步骤如下:
a) 贴类别标签:SNP数据属于二分类样本,即样本只有患病-case组和健康-normal组两类,case组贴类别标签{+1},normal组贴类别标签{-1};
b)数据编码:基因芯片检测出的SNP分型结果,共有四种形式:野生纯合型AA、突变杂合型AB、突变纯合型BB,分型失败标记NC;将AA编码为0,AB编码为1,BB编码为2;NC在数据清洗过程中被清洗掉,不进行编码;
c)数据清洗:NC在SNP数据分析中属于噪声数据,当某SNP特征在所有样本中的NC标记超过50%时,剔除此SNP特征;当某一样本在所有SNP特征上的NC标记超过50%,剔除该样本;对于未被剔除的NC位点,使用该SNP特征处分型值所占比例最大的分型值替换NC。
(2)用重新设计的Relief算法剔除无关SNP特征。如图3所示,其具体操作步骤是:
a) 计算两两样本距离,构成样本距离矩阵:
样本
Figure 794791DEST_PATH_IMAGE001
距离计算公式为:
其中为第k个snp特征;
Figure 969234DEST_PATH_IMAGE003
在样本中表达值的差异程度,此处将其不同记为差异度为1,相同记为0;
b)扫描样本距离矩阵,为每个样本寻找同类最近邻和异类最近邻:
样本
Figure 204223DEST_PATH_IMAGE005
的同类最近邻H为:与样本
Figure 84455DEST_PATH_IMAGE005
类别标签相同且具有最小的
Figure 522389DEST_PATH_IMAGE006
的样本
Figure 943006DEST_PATH_IMAGE007
样本
Figure 851794DEST_PATH_IMAGE005
的异类最近邻H为:与样本
Figure 699664DEST_PATH_IMAGE005
类别标签不相同且具有最小的
Figure 562578DEST_PATH_IMAGE008
的样本
Figure 786886DEST_PATH_IMAGE009
c)计算SNP的Relief权重;
d)删除Relief权重低于阈值的SNP特征,此处阈值设为75%。 
上述步骤c)计算SNP的Relief权重的具体步骤是:
c-1)初始化
Figure 113962DEST_PATH_IMAGE010
其中为第k个snp,
Figure 748523DEST_PATH_IMAGE012
为其Relief权重;
c-2)循环遍历样本集,通过以下权重公式计算并更新
Figure 510943DEST_PATH_IMAGE011
的Relief权重
Figure 630208DEST_PATH_IMAGE012
。特征
Figure 85461DEST_PATH_IMAGE011
的Relief权重公式如下:
     
其中
Figure 11050DEST_PATH_IMAGE014
是第k个snp特征;
Figure 47139DEST_PATH_IMAGE015
的新一轮Relief权重;H为样本
Figure 998094DEST_PATH_IMAGE016
的同类最近邻,M为样本
Figure 102317DEST_PATH_IMAGE016
的异类最近邻;
Figure 196175DEST_PATH_IMAGE017
Figure 993229DEST_PATH_IMAGE014
在样本
Figure 539748DEST_PATH_IMAGE016
和其同类最近邻H中表达值的差异程度。
Figure 713241DEST_PATH_IMAGE018
为为
Figure 723922DEST_PATH_IMAGE014
在样本
Figure 128096DEST_PATH_IMAGE016
和其异类最近邻M中表达值的差异程度;
c-3)将所有SNP特征按照
Figure 224228DEST_PATH_IMAGE012
从大到小排序。
 (3)用改进的SVM-RFE算法对SNP特征进行关键性程度排序。如图4所示,其具体的操作步骤是:
循环迭代一下过程直至待分析特征集合为空:
a)通过SVM训练获取特征准则分数:
第i个SNP特征准则分数计算公式为:
Figure 670253DEST_PATH_IMAGE019
,其中
Figure 738703DEST_PATH_IMAGE020
为SVM训练模型中的权向量;
b)判断是否需要二次划,若特征集合规模大于1万,则转步骤C3);否则转步骤C4);
c)二次划分确定待删除特征为集合f;
d)确定待删除特征为准则分数
Figure 877560DEST_PATH_IMAGE021
最小的特征;
e)将待删除特征从待分析特征集合删除,加到关键性程度排序集S。
上述步骤b)二次划分确定待删除特征为集合f,如图示4,其具体步骤是:
b-1)初始化待划分集合为当前待分析集合;
b-2)计算待划分集合的分类准则分数
Figure 460989DEST_PATH_IMAGE021
的一阶差分
Figure 648387DEST_PATH_IMAGE022
b-3)选取
Figure 633661DEST_PATH_IMAGE023
中K-1个峰值,将两个峰值之间的SNP作为一组划分,记为G1,G2…Gk。其中K为分组参数,此处K设置为10;
b-4)将待划分集合设置为G1,进行二次划分,划分方法同上。结果记为M1,M2…Mk;
b-5)待删除集合f=M1。
(4)使用十字交叉验证来筛选关键SNPs,如图5,其具体步骤是:
a)从SNP关键程度表中选择前1、前2…前n个SNP进行十字交叉验证,直到分类准确率达到稳定为止;
b)选择分类准确率最高,集合规模最小的SNP组合作为关键SNPs输出。
实验结果表明,本发明将Relief算法和SVM-RFE算法结合起来,充分利用了Filter式特征选择和Wrapper式特征选择的优势,并提出二次划分思想,有效解决看SNP数据高维小样本特性及SNP致病组合作用模式问题,提高了SNP特征选择的分析效率和关键SNPs定位准确率。
以上对本发明的一种面向SNP数据的特征选择方法进行了详细的介绍,只是用于帮助理解本发明的方法和核心思想;同时,对于本领域的一般技术人员,依据本发明的方法和思想,在具体实施方式和应用范围上均会有所改变,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种面向SNP数据的特征选择方法,其特征在于具体操作步骤如下:
(1)、进行数据预处理;
(2)、用重新设计的Relief算法剔除无关SNP特征;
(3)、用改进的SVM-RFE算法对SNP特征进行关键性程度排序;
(4)、使用十字交叉验证来筛选关键SNPs。
2.根据权利要求1所述的一种面向SNP数据的特征选择方法,其特征在于,所述步骤(1)中的进行数据预处理,其具体操作操作如下: 
1-1) 贴类别标签:SNP数据属于二分类样本,即样本只有患病-case组和健康-normal组两类,case组贴类别标签{+1},normal组贴类别标签{-1};
1-2)数据编码:基因芯片检测出的SNP分型结果,共有四种形式:野生纯合型AA、突变杂合型AB、突变纯合型BB,分型失败标记NC;将AA编码为0,AB编码为1,BB编码为2;NC在数据清洗过程中被清洗掉,不进行编码;
1-3)数据清洗:NC在SNP数据分析中属于噪声数据,当某SNP特征在所有样本中的NC标记超过50%时,剔除此SNP特征;当某一样本在所有SNP特征上的NC标记超过50%,剔除该样本;对于未被剔除的NC位点,使用该SNP特征处分型值所占比例最大的分型值替换NC。
3.根据权利要求1所述的一种面向SNP数据的特征选择方法,其特征在于,所述步骤(2)中的用重新设计的Relief算法剔除无关SNP特征,其具体步骤如下:
2-1) 计算两两样本距离,构成样本距离矩阵:
样本 距离计算公式为:
其中为第k个snp特征;
Figure 769817DEST_PATH_IMAGE004
Figure 772408DEST_PATH_IMAGE003
在样本
Figure 295793DEST_PATH_IMAGE001
中表达值的差异程度,此处将其不同记为差异度为1,相同记为0;
2-2)扫描样本距离矩阵,为每个样本寻找同类最近邻和异类最近邻:
样本的同类最近邻H为:与样本
Figure 23840DEST_PATH_IMAGE005
类别标签相同且具有最小的
Figure 265466DEST_PATH_IMAGE006
的样本
Figure DEST_PATH_IMAGE007
样本
Figure 868485DEST_PATH_IMAGE005
的异类最近邻H为:与样本类别标签不相同且具有最小的
Figure 909440DEST_PATH_IMAGE008
的样本
Figure DEST_PATH_IMAGE009
2-3)计算SNP的Relief权重;
2-4)删除Relief权重低于阈值的SNP特征,此处阈值设为75%。
4.根据权利要求3所述的一种面向SNP数据的特征选择方法,其特征在于,所述步骤2-3)中的计算SNP的Relief权重的操作步骤是:
2-3-1)初始化
Figure 435099DEST_PATH_IMAGE010
其中
Figure DEST_PATH_IMAGE011
为第k个snp,
Figure 779493DEST_PATH_IMAGE012
为其Relief权重;
2-3-2)循环遍历样本集,通过以下权重公式计算并更新
Figure 838322DEST_PATH_IMAGE011
的Relief权重
Figure 344390DEST_PATH_IMAGE012
,特征
Figure 560607DEST_PATH_IMAGE011
的Relief权重公式如下:
Figure DEST_PATH_IMAGE013
     
其中
Figure 505430DEST_PATH_IMAGE014
是第k个snp特征;
Figure DEST_PATH_IMAGE015
的新一轮Relief权重;H为样本的同类最近邻,M为样本
Figure 35134DEST_PATH_IMAGE016
的异类最近邻;
Figure 783647DEST_PATH_IMAGE014
在样本
Figure 990638DEST_PATH_IMAGE016
和其同类最近邻H中表达值的差异程度;
Figure 104087DEST_PATH_IMAGE018
为为
Figure 29318DEST_PATH_IMAGE014
在样本和其异类最近邻M中表达值的差异程度;
2-3-3)将所有SNP特征按照从大到小排序。
5.根据权利要求1所述的一种面向SNP数据的特征选择方法,其特征在于,所步骤(3)中的用改进的SVM-RFE算法对SNP特征进行关键性程度排序,其具体操作步骤如下:
3-1)通过SVM训练获取特征准则分数:
第i个SNP特征准则分数计算公式为:,其中
Figure 491151DEST_PATH_IMAGE020
为SVM训练模型中的权向量;
3-2)判断是否需要二次划分,若特征集合规模大于1万,则转步骤3-3);否则转步骤3-4);
3-3)二次划分确定待删除特征为集合f;
3-4)确定待删除特征为准则分数
Figure DEST_PATH_IMAGE021
最小的特征;
3-5)将待删除特征从待分析特征集合删除,加到关键性程度排序集S。
6.根据权利要求5所述的一种面向SNP数据的特征选择方法,其特征在于,所述步骤3-3)中二次划分确定待删除特征为集合f,其具体操作步骤如下:
3-3-1)初始化待划分集合为当前待分析集合;
3-3-2)计算待划分集合的分类准则分数
Figure 638099DEST_PATH_IMAGE021
的一阶差分
Figure 666098DEST_PATH_IMAGE022
 ;
3-3-3)选取
Figure DEST_PATH_IMAGE023
中K-1个峰值,将两个峰值之间的SNP作为一组划分,记为G1,G2…Gk;
其中K为分组参数,此处K设置为10;
3-3-4)将待划分集合设置为G1,进行二次划分,划分方法同上,结果记为M1,M2…Mk;
3-3-5)待删除集合f=M1。
7.根据权利要求1所述的一种面向SNP数据分析的特征选择方法,其特征在于,所述步骤(4)中的使用十字交叉验证来筛选关键SNPs,其具体步骤是:
4-1)从SNP关键程度表中选择前1、前2…前n个SNP进行十字交叉验证,直到分类准确率达到稳定为止;
4-2)选择分类准确率最高,集合规模最小的SNP组合作为关键SNPs输出。
8.根据权利要求7所述的一种面向SNP数据分析的特征选择方法,其特征在于,所述步骤(4-2)中所述的关键SNPs是指与疾病具有最高关联关系的SNP特征集合,其评估依据十字交叉验证获得的将样本正确分类的分类准确率,选择分类准确率稳定后具有最高分类准确率的SNP集合,作为关键SNPs。
CN201210055566.5A 2012-03-06 2012-03-06 一种面向snp数据的特征选择方法 Expired - Fee Related CN102629305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210055566.5A CN102629305B (zh) 2012-03-06 2012-03-06 一种面向snp数据的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210055566.5A CN102629305B (zh) 2012-03-06 2012-03-06 一种面向snp数据的特征选择方法

Publications (2)

Publication Number Publication Date
CN102629305A true CN102629305A (zh) 2012-08-08
CN102629305B CN102629305B (zh) 2015-02-25

Family

ID=46587563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210055566.5A Expired - Fee Related CN102629305B (zh) 2012-03-06 2012-03-06 一种面向snp数据的特征选择方法

Country Status (1)

Country Link
CN (1) CN102629305B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366100A (zh) * 2013-06-25 2013-10-23 西安电子科技大学 从全基因组中过滤与复杂疾病无关snp的方法
CN103942467A (zh) * 2013-01-21 2014-07-23 国际商业机器公司 用于选择用于建模上位性效应的标记的信息处理方法和系统
CN104200135A (zh) * 2014-08-30 2014-12-10 北京工业大学 基于MFA score和排除冗余的基因表达谱特征选择方法
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法
CN105469108A (zh) * 2015-11-17 2016-04-06 深圳先进技术研究院 基于生物学数据的聚类方法及系统、聚类结果评价方法及系统
CN105938523A (zh) * 2016-03-31 2016-09-14 陕西师范大学 一种基于特征辨识度和独立性的特征选择方法及应用
CN106022378A (zh) * 2016-05-23 2016-10-12 武汉大学 基于摄像头与压力传感器的颈椎病识别方法
CN106997371A (zh) * 2016-10-28 2017-08-01 华数传媒网络有限公司 单用户智慧图谱的构建方法
WO2017157183A1 (zh) * 2016-03-17 2017-09-21 阿里巴巴集团控股有限公司 一种自动多阀值特征过滤方法及装置
CN108596104A (zh) * 2018-04-26 2018-09-28 安徽大学 一种带有病害特征预处理功能的小麦白粉病遥感监测方法
CN108961207A (zh) * 2018-05-02 2018-12-07 上海大学 基于多模态超声图像的淋巴结良恶性病变辅助诊断方法
CN109711450A (zh) * 2018-12-20 2019-05-03 北京科东电力控制系统有限责任公司 一种电网预想故障集预测方法、装置、电子设备及存储介质
CN111784022A (zh) * 2019-08-08 2020-10-16 沈阳工业大学 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894216A (zh) * 2010-07-16 2010-11-24 西安电子科技大学 从snp数据中发现与复杂疾病相关snp组的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894216A (zh) * 2010-07-16 2010-11-24 西安电子科技大学 从snp数据中发现与复杂疾病相关snp组的方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942467A (zh) * 2013-01-21 2014-07-23 国际商业机器公司 用于选择用于建模上位性效应的标记的信息处理方法和系统
CN103366100A (zh) * 2013-06-25 2013-10-23 西安电子科技大学 从全基因组中过滤与复杂疾病无关snp的方法
CN104200135A (zh) * 2014-08-30 2014-12-10 北京工业大学 基于MFA score和排除冗余的基因表达谱特征选择方法
CN104866863A (zh) * 2015-04-27 2015-08-26 大连理工大学 一种生物标志物筛选方法
CN104866863B (zh) * 2015-04-27 2018-02-16 大连理工大学 一种生物标志物筛选方法
CN105469108B (zh) * 2015-11-17 2019-04-05 深圳先进技术研究院 基于生物学数据的聚类方法及系统、聚类结果评价方法及系统
CN105469108A (zh) * 2015-11-17 2016-04-06 深圳先进技术研究院 基于生物学数据的聚类方法及系统、聚类结果评价方法及系统
TWI794157B (zh) * 2016-03-17 2023-03-01 香港商阿里巴巴集團服務有限公司 自動多閾值特徵過濾方法及裝置
US11544618B2 (en) 2016-03-17 2023-01-03 Alibaba Group Holding Limited Automatic multi-threshold feature filtering method and apparatus
WO2017157183A1 (zh) * 2016-03-17 2017-09-21 阿里巴巴集团控股有限公司 一种自动多阀值特征过滤方法及装置
CN107203891A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 一种自动多阀值特征过滤方法及装置
CN105938523A (zh) * 2016-03-31 2016-09-14 陕西师范大学 一种基于特征辨识度和独立性的特征选择方法及应用
CN106022378B (zh) * 2016-05-23 2019-05-10 武汉大学 坐姿判断方法及基于摄像头与压力传感器颈椎病识别系统
CN106022378A (zh) * 2016-05-23 2016-10-12 武汉大学 基于摄像头与压力传感器的颈椎病识别方法
CN106997371B (zh) * 2016-10-28 2020-06-23 华数传媒网络有限公司 单用户智慧图谱的构建方法
CN106997371A (zh) * 2016-10-28 2017-08-01 华数传媒网络有限公司 单用户智慧图谱的构建方法
CN108596104A (zh) * 2018-04-26 2018-09-28 安徽大学 一种带有病害特征预处理功能的小麦白粉病遥感监测方法
CN108961207A (zh) * 2018-05-02 2018-12-07 上海大学 基于多模态超声图像的淋巴结良恶性病变辅助诊断方法
CN108961207B (zh) * 2018-05-02 2022-11-04 上海大学 基于多模态超声图像的淋巴结良恶性病变辅助诊断方法
CN109711450A (zh) * 2018-12-20 2019-05-03 北京科东电力控制系统有限责任公司 一种电网预想故障集预测方法、装置、电子设备及存储介质
CN111784022A (zh) * 2019-08-08 2020-10-16 沈阳工业大学 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法
CN111784022B (zh) * 2019-08-08 2024-01-30 沈阳工业大学 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法

Also Published As

Publication number Publication date
CN102629305B (zh) 2015-02-25

Similar Documents

Publication Publication Date Title
CN102629305A (zh) 一种面向snp数据的特征选择方法
CN102346829B (zh) 基于集成分类的病毒检测方法
CN101604363B (zh) 基于文件指令频度的计算机恶意程序分类系统及分类方法
CN108363810A (zh) 一种文本分类方法及装置
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
JP2012521598A5 (zh)
CN105389480A (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN103412888A (zh) 一种兴趣点识别方法和装置
Björnberg et al. Recurrence of bipartite planar maps
CN106326913A (zh) 一种洗钱账户的确定方法及装置
CN101604364A (zh) 基于文件指令序列的计算机恶意程序分类系统和分类方法
CN104331893A (zh) 一种复杂图像多阈值分割方法
CN105205052B (zh) 一种数据挖掘方法及装置
CN102750286A (zh) 一种处理缺失数据的新型决策树分类器方法
CN101295362A (zh) 结合支持向量机以及近邻法的模式分类方法
CN103336771A (zh) 基于滑动窗口的数据相似检测方法
CN109299263A (zh) 文本分类方法、电子设备及计算机程序产品
CN109448366A (zh) 一种基于随机森林的空域扇区拥挤程度预测方法
CN105447521A (zh) 一种K-means聚类的初值选择方法
CN104778480A (zh) 一种基于局部密度和测地距离的分层谱聚类方法
CN110389932A (zh) 电力文件自动分类方法及装置
CN106447397A (zh) 基于决策树算法的烟草零售户定价方法
CN109934286A (zh) 基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法
CN104318306A (zh) 基于非负矩阵分解和进化算法优化参数的自适应交叠社区检测方法
CN105760478A (zh) 一种基于机器学习的大规模分布式的数据聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150225

Termination date: 20180306