CN102629305A

CN102629305A - 一种面向snp数据的特征选择方法

Info

Publication number: CN102629305A
Application number: CN2012100555665A
Authority: CN
Inventors: 吴悦; 吴红霞; 雷州; 刘宗田; 张文宾
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2012-03-06
Filing date: 2012-03-06
Publication date: 2012-08-08
Anticipated expiration: 2032-03-06
Also published as: CN102629305B

Abstract

本发明公开了一种面向SNP数据的特征选择方法。其具体步骤如下：首先进行数据预处理；然后用重新设计的Relief算法剔除无关SNP特征；然后用改进的SVM-RFE算法对SNP特征进行关键性程度排序；最后使用十字交叉验证来筛选关键SNPs。该发明结合了Filter式特征选择和Wrapper式特征选择的优势，并在机器学习过程中使用二次划分方法，解决了SNP数据特征选择中的高维小样本及SNP致病组合模式的问题，提高了分析效率和准确率。

Description

一种面向SNP数据的特征选择方法

技术领域

本发明涉及对具有高维度小样本特性的海量数据进行特征选择的相关技术，特别是设计一种面向SNP数据的特征选择方法，属于计算机应用技术领域。

背景技术

对具有高维度小样本特性的数据进行特征选择是数据挖掘领域研究热点之一。该类型数据普遍存在数据量巨大、特征维度高、样本数量少的特点。常用的数据分析方法具有样本趋向性，进行高维小样本数据分析的效率低而准确性不高。

SNP是single nucleotide polymorphism的缩写，即单核苷酸多态性，指的是在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP是人类基因组最丰富的遗传变异，因此，准确定位疾病相关的关键SNPs，SNPs是SNP的集合，有助于定位致病基因，研究复杂疾病的遗传机理，辅助个性化治疗。

SNP特征选择的目的，在于高效、准确定位关键SNPs。SNP数据是典型的高维度小样本数据，是SNP特征选择的困难一。复杂疾病的诱因复杂，通常由多个基因共同作用导致，在SNP层面，表现为SNP数据特征之间存在着关联关系，是SNP特征选择的困难二。

传统的特征选择算法中，Relief算法能有效评估和剔除无关特征，而SVM-RFE算法能对关键性程度进行排序。但是前者忽略特征之间关联关系，后者算法效率低下。

发明内容

为解决以上SNP数据分析中的问题，本发明目的在于提供一种面向SNP数据的特征选择方法，将Relief算法和SVM-RFE算法改善并结合，解决SNP特征选择的两大困难，并提高特征选择效率和准确率。

为达到上述目的，本发明的构思是：首先将数据进行清洗和编码，然后用重新设计的Relief算法剔除无关SNP特征，再用SVM-RFE算法对SNP特征进行关键性程度排序，最后使用十字交叉验证来筛选关键SNPs。

根据上述的发明构思，本发明采用下述技术方案：

一种面向SNP数据的特征选择方法，其具体操作步骤如下：

（A）、进行数据预处理；

（B）、用重新设计的Relief算法剔除无关SNP特征；

（C）、用改进的SVM-RFE算法对SNP特征进行关键性程度排序；

（D）、使用十字交叉验证来筛选关键SNPs。

上述步骤（A）进行数据预处理的具体操作步骤如下：

A1) 贴类别标签：SNP数据属于二分类样本，即样本只有患病-case组和健康-normal组两类，case组贴类别标签{+1}，normal组贴类别标签{-1}；

A2)数据编码：基因芯片检测出的SNP分型结果，共有四种形式：野生纯合型AA、突变杂合型AB、突变纯合型BB，分型失败标记NC；将AA编码为0，AB编码为1，BB编码为2；NC在数据清洗过程中被清洗掉，不进行编码；

A3)数据清洗。NC在SNP数据分析中属于噪声数据，当某SNP特征在所有样本中的NC标记超过50%时，剔除此SNP特征；当某一样本在所有SNP特征上的NC标记超过50%，剔除该样本；对于未被剔除的NC位点，使用该SNP特征处分型值所占比例最大的分型值替换NC。

上述步骤B中将预处理后的SNP数据，用重新设计的Relief算法剔除无关SNP特征的操作步骤是：

B1) 计算两两样本距离，构成样本距离矩阵：

样本

Figure 2012100555665100002DEST_PATH_IMAGE001

距离计算公式为：

其中

Figure 2012100555665100002DEST_PATH_IMAGE003

为第k个snp特征；

为

在样本

中表达值的差异程度，此处将其不同记为差异度为1，相同记为0；

B2)扫描样本距离矩阵，为每个样本寻找同类最近邻和异类最近邻：

样本

Figure 2012100555665100002DEST_PATH_IMAGE005

的同类最近邻H为：与样本

类别标签相同且具有最小的

的样本

Figure 2012100555665100002DEST_PATH_IMAGE007

；

样本

的异类最近邻H为：与样本

类别标签不相同且具有最小的的样本

Figure 2012100555665100002DEST_PATH_IMAGE009

；

B3)计算SNP的Relief权重；

B4)删除Relief权重低于阈值的SNP特征，此处阈值设为75%。

上述步骤B3)中计算SNP的Relief权重的操作步骤是：

B3-1)初始化

其中为第k个snp，

为其Relief权重；

B3-2)循环遍历样本集，通过以下权重公式计算并更新

的Relief权重

，特征

的Relief权重公式如下：

Figure 2012100555665100002DEST_PATH_IMAGE013

其中

是第k个snp特征。为

的新一轮Relief权重。H为样本

的同类最近邻，M为样本

的异类最近邻。

为在样本

和其同类最近邻H中表达值的差异程度；

为为

在样本

和其异类最近邻M中表达值的差异程度；

B3-3)将所有SNP特征按照从大到小排序。

上述步骤C中用改进的SVM-RFE算法对SNP特征进行关键性程度排序的操作步骤是循环迭代一下过程直至待分析特征集合为空：

C1)通过SVM训练获取特征准则分数：

第i个SNP特征准则分数计算公式为：

Figure 2012100555665100002DEST_PATH_IMAGE019

，其中

为SVM训练模型中的权向量；

C2)判断是否需要二次划分，若特征集合规模大于1万，则转步骤C3)；否则转步骤C4；

C3)二次划分确定待删除特征为集合f；

C4)确定待删除特征为准则分数

Figure 2012100555665100002DEST_PATH_IMAGE021

最小的特征；

C5)将待删除特征从待分析特征集合删除，加到关键性程度排序集S。

上述步骤C3)中二次划分确定待删除特征集合f的操作步骤是：

C3-1）初始化待划分集合为当前待分析集合；

C3-2）计算待划分集合的分类准则分数

的一阶差分

；

C3-3）选取

Figure 2012100555665100002DEST_PATH_IMAGE023

中K-1个峰值，将两个峰值之间的SNP作为一组划分，记为G1，G2…Gk。其中K为分组参数，此处K设置为10；

C3-4）将待划分集合设置为G1，进行二次划分，划分方法同上，结果记为M1,M2…Mk；

上述步骤D中使用十字交叉验证来筛选关键SNPs的操作步骤是：

D1)从SNP关键程度表中选择前1、前2…前n个SNP进行十字交叉验证，直到分类准确率达到稳定为止；

D2)选择分类准确率最高，集合规模最小的SNP组合作为关键SNPs输出。

本发明的一种面向SNP数据的特征选择方法，与已有的技术相比较具有如下显而易见的突出特点和显著优点：

(1)本发明通过重新设计Relief算法，用于SNP数据特征选择的特征降维，有效的解决了高维小样本特征选择效率低下的问题。

(2)本发明采用二次划分的方法，解决了SVM-RFE算法削减特征速度过慢的问题，进一步提高了SNP特征选择效率。

(3)本发明采用SVM-RFE进行特征关键性程度排序，该算法的机器学习过程提高了SNP特征选择的准确率，并能有效考虑SNP特征之间的关联关系。

(4)本发明采用十字交叉验证方法选择关键SNPs时以组合形式考察分类准确率，一定程度上考虑了SNPs致病机理，在理论上提高了SNP特征选择的可信度。

附图说明

图1是本发明的一种面向SNP数据的特征选择方法的流程图。

图2是图1中所述的进行数据预处理的流程图。

图3是图1中所述的用Relief算法剔除无关SNP特征的流程图。

图4是图1中所述的用改进的SVM-RFE算法对SNP特征进行关键性程度排序的流程图。

图5是图4中所述的二次划分方法示意图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步详细的说明。

实施例一：

参见图1，本面向SNP数据的特征选择方法，其特征在于具体操作步骤如下：

（A）、进行数据预处理；

（B）、用重新设计的Relief算法剔除无关SNP特征；

（C）、用改进的SVM-RFE算法对SNP特征进行关键性程度排序；

（D）、使用十字交叉验证来筛选关键SNPs。

实施例二：

参照图1～图5，本发明是一种面向SNP数据的特征选择方法，此处以高血压病患者的SNP数据特征为例，其具体步骤如下：

(1)进行数据预处理，如图2所示，其具体步骤如下：

a) 贴类别标签：SNP数据属于二分类样本，即样本只有患病-case组和健康-normal组两类，case组贴类别标签{+1}，normal组贴类别标签{-1}；

b)数据编码：基因芯片检测出的SNP分型结果，共有四种形式：野生纯合型AA、突变杂合型AB、突变纯合型BB，分型失败标记NC；将AA编码为0，AB编码为1，BB编码为2；NC在数据清洗过程中被清洗掉，不进行编码；

c)数据清洗：NC在SNP数据分析中属于噪声数据，当某SNP特征在所有样本中的NC标记超过50%时，剔除此SNP特征；当某一样本在所有SNP特征上的NC标记超过50%，剔除该样本；对于未被剔除的NC位点，使用该SNP特征处分型值所占比例最大的分型值替换NC。

(2)用重新设计的Relief算法剔除无关SNP特征。如图3所示，其具体操作步骤是:

a) 计算两两样本距离，构成样本距离矩阵：

样本

距离计算公式为：

其中为第k个snp特征；为

在样本中表达值的差异程度，此处将其不同记为差异度为1，相同记为0；

b)扫描样本距离矩阵，为每个样本寻找同类最近邻和异类最近邻：

样本

的同类最近邻H为：与样本

类别标签相同且具有最小的

的样本

；

样本

的异类最近邻H为：与样本

类别标签不相同且具有最小的

的样本

；

c)计算SNP的Relief权重；

d)删除Relief权重低于阈值的SNP特征，此处阈值设为75%。

上述步骤c)计算SNP的Relief权重的具体步骤是：

c-1)初始化

其中为第k个snp，

为其Relief权重；

c-2)循环遍历样本集，通过以下权重公式计算并更新

的Relief权重

。特征

的Relief权重公式如下：

其中

是第k个snp特征；

为的新一轮Relief权重；H为样本

的同类最近邻，M为样本

的异类最近邻；

为

在样本

和其同类最近邻H中表达值的差异程度。

为为

在样本

和其异类最近邻M中表达值的差异程度；

c-3)将所有SNP特征按照

从大到小排序。

(3)用改进的SVM-RFE算法对SNP特征进行关键性程度排序。如图4所示，其具体的操作步骤是：

循环迭代一下过程直至待分析特征集合为空：

a)通过SVM训练获取特征准则分数：

第i个SNP特征准则分数计算公式为：

，其中

为SVM训练模型中的权向量；

b)判断是否需要二次划，若特征集合规模大于1万，则转步骤C3)；否则转步骤C4)；

c)二次划分确定待删除特征为集合f；

d)确定待删除特征为准则分数

最小的特征；

e)将待删除特征从待分析特征集合删除，加到关键性程度排序集S。

上述步骤b)二次划分确定待删除特征为集合f,如图示4，其具体步骤是：

b-1）初始化待划分集合为当前待分析集合；

b-2）计算待划分集合的分类准则分数

的一阶差分

；

b-3）选取

b-4）将待划分集合设置为G1，进行二次划分，划分方法同上。结果记为M1,M2…Mk；

b-5）待删除集合f=M1。

(4)使用十字交叉验证来筛选关键SNPs，如图5，其具体步骤是：

a)从SNP关键程度表中选择前1、前2…前n个SNP进行十字交叉验证，直到分类准确率达到稳定为止；

b)选择分类准确率最高，集合规模最小的SNP组合作为关键SNPs输出。

实验结果表明，本发明将Relief算法和SVM-RFE算法结合起来，充分利用了Filter式特征选择和Wrapper式特征选择的优势，并提出二次划分思想，有效解决看SNP数据高维小样本特性及SNP致病组合作用模式问题，提高了SNP特征选择的分析效率和关键SNPs定位准确率。

以上对本发明的一种面向SNP数据的特征选择方法进行了详细的介绍，只是用于帮助理解本发明的方法和核心思想；同时，对于本领域的一般技术人员，依据本发明的方法和思想，在具体实施方式和应用范围上均会有所改变，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向SNP数据的特征选择方法，其特征在于具体操作步骤如下：

（1）、进行数据预处理；

（2）、用重新设计的Relief算法剔除无关SNP特征；

（3）、用改进的SVM-RFE算法对SNP特征进行关键性程度排序；

（4）、使用十字交叉验证来筛选关键SNPs。

2.根据权利要求1所述的一种面向SNP数据的特征选择方法，其特征在于，所述步骤（1）中的进行数据预处理，其具体操作操作如下：

1-1) 贴类别标签：SNP数据属于二分类样本，即样本只有患病-case组和健康-normal组两类，case组贴类别标签{+1}，normal组贴类别标签{-1}；

1-2)数据编码：基因芯片检测出的SNP分型结果，共有四种形式：野生纯合型AA、突变杂合型AB、突变纯合型BB，分型失败标记NC；将AA编码为0，AB编码为1，BB编码为2；NC在数据清洗过程中被清洗掉，不进行编码；

1-3)数据清洗：NC在SNP数据分析中属于噪声数据，当某SNP特征在所有样本中的NC标记超过50%时，剔除此SNP特征；当某一样本在所有SNP特征上的NC标记超过50%，剔除该样本；对于未被剔除的NC位点，使用该SNP特征处分型值所占比例最大的分型值替换NC。

3.根据权利要求1所述的一种面向SNP数据的特征选择方法，其特征在于，所述步骤（2）中的用重新设计的Relief算法剔除无关SNP特征，其具体步骤如下：

2-1) 计算两两样本距离，构成样本距离矩阵：

样本距离计算公式为：

其中为第k个snp特征；

为

在样本

2-2)扫描样本距离矩阵，为每个样本寻找同类最近邻和异类最近邻：

样本的同类最近邻H为：与样本

类别标签相同且具有最小的

的样本

；

样本

的异类最近邻H为：与样本类别标签不相同且具有最小的

的样本

；

2-3)计算SNP的Relief权重；

2-4)删除Relief权重低于阈值的SNP特征，此处阈值设为75%。

4.根据权利要求3所述的一种面向SNP数据的特征选择方法，其特征在于，所述步骤2-3)中的计算SNP的Relief权重的操作步骤是：

2-3-1)初始化

其中

为第k个snp，

为其Relief权重；

2-3-2)循环遍历样本集，通过以下权重公式计算并更新

的Relief权重

，特征

的Relief权重公式如下：

其中

是第k个snp特征；

为的新一轮Relief权重；H为样本的同类最近邻，M为样本

的异类最近邻；

为

在样本

和其同类最近邻H中表达值的差异程度；

为为

在样本和其异类最近邻M中表达值的差异程度；

2-3-3)将所有SNP特征按照从大到小排序。

5.根据权利要求1所述的一种面向SNP数据的特征选择方法，其特征在于，所步骤（3）中的用改进的SVM-RFE算法对SNP特征进行关键性程度排序，其具体操作步骤如下：

3-1)通过SVM训练获取特征准则分数：

第i个SNP特征准则分数计算公式为：，其中

为SVM训练模型中的权向量；

3-2)判断是否需要二次划分，若特征集合规模大于1万，则转步骤3-3)；否则转步骤3-4)；

3-3)二次划分确定待删除特征为集合f；

3-4)确定待删除特征为准则分数

最小的特征；

3-5)将待删除特征从待分析特征集合删除，加到关键性程度排序集S。

6.根据权利要求5所述的一种面向SNP数据的特征选择方法，其特征在于，所述步骤3-3)中二次划分确定待删除特征为集合f，其具体操作步骤如下：

3-3-1）初始化待划分集合为当前待分析集合；

3-3-2）计算待划分集合的分类准则分数

的一阶差分

；

3-3-3）选取

中K-1个峰值，将两个峰值之间的SNP作为一组划分，记为G1，G2…Gk；

其中K为分组参数，此处K设置为10；

3-3-4）将待划分集合设置为G1，进行二次划分，划分方法同上，结果记为M1,M2…Mk；

3-3-5）待删除集合f=M1。

7.根据权利要求1所述的一种面向SNP数据分析的特征选择方法，其特征在于，所述步骤（4）中的使用十字交叉验证来筛选关键SNPs，其具体步骤是：

4-1)从SNP关键程度表中选择前1、前2…前n个SNP进行十字交叉验证，直到分类准确率达到稳定为止；

4-2)选择分类准确率最高，集合规模最小的SNP组合作为关键SNPs输出。

8.根据权利要求7所述的一种面向SNP数据分析的特征选择方法，其特征在于，所述步骤（4-2）中所述的关键SNPs是指与疾病具有最高关联关系的SNP特征集合，其评估依据十字交叉验证获得的将样本正确分类的分类准确率，选择分类准确率稳定后具有最高分类准确率的SNP集合，作为关键SNPs。