CN105205349B

CN105205349B - 马尔科夫毯嵌入式的基于封装的基因选择方法

Info

Publication number: CN105205349B
Application number: CN201510534505.0A
Authority: CN
Inventors: 杨静; 王爱国; 安宁
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2015-08-25
Filing date: 2015-08-25
Publication date: 2018-08-03
Anticipated expiration: 2035-08-25
Also published as: CN105205349A

Abstract

本发明公开了一种马尔科夫毯嵌入式的基于封装的基因选择方法，其特征是按如下步骤进行：1利用五折交叉验证方法获得最优特征；2判断最优特征是否为空集，若为空集，则完成特征选择，否则更新的特征子集；3、利用马尔科夫毯方法删除冗余特征，从而更新特征向量；4判断特征向量是否为空集，若为空集则完成特征选择，否则重复步骤2。本发明能够获得高质量的特征子集，同时降低基于封装的特征选择方法的时间复杂度，从而获得较好的分类性能和时间性能。

Description

马尔科夫毯嵌入式的基于封装的基因选择方法

技术领域

本发明属于数据挖掘领域，具体地说是一种马尔科夫毯嵌入式的基于封装的基因选择方法。

背景技术

特征选择作为一种数据预处理技术，广泛地应用在机器学习和数据挖掘任务中，例如分类、回归以及聚类等问题。当数据的原始特征空间包括与目标任务不相关或冗余的特征时，在整个特征空间上构建的分类器往往具有较差的性能，例如朴素贝叶斯分类器对冗余的特征比较敏感。特征选择的目的是应用有效的特征选择方法从原始特征空间中选出一组具有判别能力的特征。有效的特征选择方法不仅能够降低原始特征空间的维度，而且可以降低分类器的训练时间，提高其泛化能力，更重要的是可以帮助研究人员找到一组反映目标任务的重要属性，增强分类器的可解释性。例如，在基于微整列数据的癌症诊断中，通过特征选择方法找出与特定癌症相关的基因，可以提高癌症预测的准确率，同时这些筛选出来的基因可能是靶点基因，能够降低寻找生物靶点的实验成本。

基于封装的特征选择方法在特征选择过程中使用某个分类器评价候选特征的优劣。由于特征选择过程与分类算法之间特定的相互作用，基于封装的特征方法一般具有较好的分类准确性。虽然基于封装的特征选择方法能够获得高质量的特征子集和较好的分类准确率，但其较高的时间复杂度在一定程度上影响了该类方法在实际中的广泛应用。

该类方法的主要缺点包括，

(1)在每一步的特征选择过程中，通过封装的方式，以分类准确率或分类错误率作为评估准则衡量每个候选特征的优劣，该过程需要执行大量的封装评估，即评估每个候选特征时，需要经历训练分类器和测试分类器性能两个阶段；

(2)不能快速地识别候选特征集合中的冗余特征，并且这些冗余特征一直保留在候选特征集合中直到特征选择方法运行结束，导致重复地评估这些冗余特征。

发明内容

本发明为克服现有技术存在的不足之处，提出一种马尔科夫毯嵌入式的基于封装的基因选择方法，以期能够获得高质量的特征子集，同时降低基于封装的特征选择方法的时间复杂度，从而获得较好的分类性能和时间性能。

本发明为解决技术问题采用如下技术方案：

本发明一种马尔科夫毯嵌入式的基于封装的基因选择方法，是应用于由m个实例组成的数据集Data中，记为Data＝{inst₁,inst₂,…,inst_i,…,inst_m}；inst_i表示第i个实例；1≤i≤m；第i个实例inst_i由n个特征和一个类别变量C_i组成；表示第i个实例inst_i中第j个特征，1≤j≤n；由m个实例的第j个特征组成第j个特征向量，记为从而获得由n个特征向量所构成的数据集Data的特征向量，记为D＝{f₁,f₂,…,f_j,…,f_n}；由m个实例的类别变量组成类别向量，记为C＝{C₁,C₂,…,C_i,…,C_m}；其特点是，所述特征选择方法是按如下步骤进行：

步骤1、定义循环次数k，并初始化k＝1；定义特征子集S，并初始化

步骤2、根据特征子集S，利用五折交叉验证方法从特征向量D中选择能与特征子集S构成最优特征组的第k次循环的最优特征，记为

步骤3、判断是否成立，若成立，则表示完成特征选择，并获得特征子集S；若不成立，则将第k次循环的最优特征加入特征子集S中，从而获得更新的特征子集S′；

步骤4、将更新的特征子集S′赋值给特征子集S；

步骤5、利用马尔科夫毯方法从特征向量D中删除第k次循环的最优特征以及与第k次循环的最优特征相冗余的特征，从而获得更新的特征向量D′；

步骤6、将更新的特征向量D′赋值给特征向量D；

步骤7、判断特征向量D是否为空集，若为空集，则表示完成特征选择，并获得特征子集S；若不为空集，则将k+1赋值给k；并返回步骤2执行。

本发明所述的特征选择方法的特点也在于，五折交叉验证方法是按如下步骤进行：

步骤2.1、定义准确率变量为定义标识符为flag，并初始化flag＝false；

步骤2.2、判断是否成立，若成立，则初始化否则，执行步骤2.3；

步骤2.3、将数据集Data映射在特征子集S与类别向量C上，获得约减数据集Data₀；

步骤2.4、将约减数据集Data₀中的实例均分为五份，分别选取其中的每一份作为测试集，剩余的四份作为训练集用于训练分类器，从而获得五个测试准确率，记为acc₀＝{acc₁,acc₂,acc₃,acc₄,acc₅}以及平均准确率，记为

步骤2.5、初始化j＝1；

步骤2.6、将数据集Data映射在特征子集S、类别向量C和第j个特征f_j上，获得第j个约减数据集Data_j；

步骤2.7、将第j个约减数据集Data_j中的实例均分为五份，分别选取其中的每一份作为测试集，剩余的四份作为训练集用于训练分类器，从而获得关于第j个特征f_j的五个测试准确率，记为以及第j个平均准确率，记为

步骤2.8、判断且的个数大于所设定的阈值是否同时满足；当同时满足时，令flag＝true；将第j个特征f_j作为最优特征；并将赋值给从而更新

步骤2.9、将j+1赋值给j，判断j≤n是否成立，若成立，则返回步骤2.6执行；若不成立，则判断flag＝true是否成立，若成立，则将第j个特征f_j作为第k次循环的最优特征否则，令后，将第j个特征f_j作为第k次循环的最优特征f_k ^(s)。

步骤5中的马尔科夫毯方法是按如下步骤进行：

步骤5.1、定义冗余特征下标集合为index，初始化

步骤5.2、初始化j＝1；

步骤5.3、利用式(1)计算第j个特征f_j与类别变量C之间的相关性SU(f_j,C)：

式(1)，H(f_j)表示第j个特征f_j的信息熵；H(C)表示类别变量C的信息熵；H(C|f_j)表示在第j个特征f_j条件下类别变量C的条件信息熵；

步骤5.4、利用式(2)计算第k次循环的最优特征与类别变量C之间的相关性

步骤5.5、利用式(3)计算第k次循环的最优特征和第j个特征f_j之间相关性

步骤5.6、根据式(4)和式(5)判断第j个特征f_j是否为冗余特征；

若式(4)和式(5)同时成立，则表示第j个特征f_j为冗余特征，并将f_j的下标j加入到冗余特征下标集合index中，从而获得更新的下标集合index′；

步骤5.7、将更新的下标集合index′赋值给冗余特征下标集合index；

步骤5.8、将j+1赋值给j，判断j≤n是否成立，若成立，则返回步骤3执行；否则，执行步骤5.9；

步骤5.9、根据冗余特征下标集合index，从特征向量D中删除下标包含在index中的特征向量。

与已有技术相比，本发明的有益效果体现在：

1、本发明提出的马尔科夫毯嵌入式的基于封装的基因选择方法，是基于马尔科夫毯技术的，能够快速地识别和删除冗余特征。一方面，由于该方法删除的冗余特征所包含的关于目标变量的信息都已经包含在已经选择的特征子集中，这保证候选特征集合中包含目标变量额外信息的特征没有被删除；另一方面，由于从候选特征集合中删除冗余的特征可以减小候选特征集合的大小，进而减少了需要执行的封装评估的次数，能够加快基于封装的特征选择方法，具有较好的时间复杂性。因此，本发明提出的方法能够保证选取具有判别能力的特征，同时能够快速地识别冗余特征并将其从候选特征集合中删除。

2、本发明所提出的方法实质上是一种混合的基因选择方法，同时具有基于过滤的特征选择方法的快速性和基于封装的特征选择方法的有效性；通过嵌入马尔科夫毯，基于封装的特征选择方法不仅能够选择与目标变量相关的特征，而且能够高效地识别并删除冗余特征，最终获得高质量的特征子集，达到数据降维的目的。

3、本发明采用马尔科夫方法进行冗余特征的识别和删除，该方法不仅能发现变量之间的线性相关性，而且能够刻画变量之间的非线性相关性。因此，能够更有效地选出一组与目标类别具有高相关性，同时彼此之间低冗余性的特征。

4、本发明所提出的方法可用于各类数据分析任务中；例如将方法应用于基因表达数据分析、图像处理、文本分类等领域有助于研究人员发现与目标任务密切相关的属性，从而更好地理解待考察的对象。

具体实施方式

本实施例中，假设所研究的对象是由m个实例组成的数据集Data，记为Data＝{inst₁,inst₂,…,inst_i,…,inst_m}，例如，数据集Data可以是微阵列基因表达数据；inst_i表示第i个实例；1≤i≤m；第i个实例inst_i由n个特征即微阵列数据中的基因，和一个类别变量C_i组成，即微阵列样本对应的类别，如癌症/正常；表示第i个实例inst_i中第j个特征，1≤j≤n；由m个实例的第j个特征组成第j个特征向量，记为从而获得m个实例的n个特征向量，记为f＝{f₁,f₂,…,f_j,…,f_n}；由m个实例的类别变量组成类别向量，记为C＝{C₁,C₂,…,C_i,…,C_m}；由n个特征向量f和类别向量C构成数据集Data的属性向量D_var＝{f₁,f₂,…,f_j,…,f_n,C}；由n个特征向量f构成数据集Data的特征向量D＝{f₁,f₂,…,f_j,…,f_n}；

一种马尔科夫毯嵌入式的基于封装的基因选择方法是按如下步骤进行：

步骤1、定义循环次数k，用于记录特征选择的迭代次数；并初始化k＝1；定义特征子集S，并初始化S用于保存特征选择算法最终选择的特征；

具体地，k＝1时，用于从特征向量D＝{f₁,f₂,…,f_j,…,f_n}中选出一个最优的特征f₁ ^(s)，并将其记录到S中，k＝2时，用于从特征向量D\f₁ ^s(表示将f₁ ^(s)从D中删除后得到的集合)中选出第二个特征(D\f₁ ^s表示将f₁ ^(s)从D中删除后得到的集合)，该特征与已选择的特征S构成当前最优的特征组；

步骤2.1、定义准确率变量为定义标识符为flag，并初始化flag＝false；flag用于记录在第k次循环中能否找出一个更好的特征；

步骤2.2、判断是否成立，若成立，则初始化因为当时，无法构建分类器，因此需要初始化分类准确率否则，执行步骤2.3；

步骤2.3、将数据集Data映射在特征子集S与类别向量C上，获得约减数据集Data₀，Data₀中的特征是Data中的特征的一个子集；

步骤2.4、将约减数据集Data0中的实例均分为五份，实际应用中，由于样本数目可能不是5的整数倍，是将Data0中的实例分成五份，每份中的样本个数大致相同；分别选取其中的每一份作为测试集，剩余的四份作为训练集用于训练分类器，以保证每个实例都有一次作为测试集的机会，从而获得五个测试准确率，记为acc₀＝{acc₁,acc₂,acc₃,acc₄,acc₅}以及平均准确率，记为

步骤2.5、初始化j＝1；

步骤2.8、判断且的个数大于所设定的阈值是否同时满足，表示返回的5个准确率中，至少有mf个大于实际应用中，推荐的阈值mf取值为2或3，这种做法能够避免在小样本量数据集上进行统计测试，同时可以很好地控制噪声和过拟合问题；当同时满足时，令flag＝true，表示此次循环中，存在一个更好的特征；将第j个特征f_j作为最优特征；并将赋值给从而更新

步骤2.9、将j+1赋值给j，判断j≤n是否成立，在特征选择过程中，n表示特征向量D＝{f₁,f₂,…,f_j,…,f_n}中包含的特征个数；若成立，则返回步骤2.6执行；若不成立，则判断flag＝true是否成立，若成立，则将第j个特征f_j作为第k次循环的最优特征否则，令后，将第j个特征f_j作为第k次循环的最优特征表示在第k次循环中，不存在最优特征；

步骤3、判断是否成立，若成立，则表示完成特征选择，并获得特征子集S；若不成立，则将第k次循环选出的最优特征加入特征子集S中，从而获得更新的特征子集S′后执行步骤4；

步骤4、将更新的特征子集S′赋值给特征子集S；

步骤5、利用马尔科夫毯方法从特征向量D中删除第k次循环的最优特征以及与第k次循环的最优特征相冗余的特征向量，从而获得更新的特征向量D′；

步骤5.1、定义冗余特征下标集合为index，用于记录与相冗余的特征的下标；初始化

步骤5.2、初始化j＝1；

式(1)，H(f_j)表示第j个特征f_j的信息熵，用于测量第j个特征f_j所包含的不确定性；H(C)表示类别变量C的信息熵；H(C|f_j)表示在第j个特征f_j条件下类别变量C的条件信息熵；SU(f_j,C)表征对称不确定性，用于计算两个变量f_j和C之间的标准化互信息；采用信息熵的优势在于，能够反映变量之间的非线性相关性，在信息熵的具体计算可以参见文献《Feature selection based on mutual information:criteria of max-dependency,max-relevance and min-redundancy》中的介绍；

步骤5.4、利用式(2)计算第k次循环的最优特征与类别变量C之间的相关性值越大，表示包含的关于类别变量C的信息越多；

步骤5.5、利用式(3)计算第k次循环的最优特征和第j个特征f_j之间相关性实际上表示两个特征之间的冗余性，值越大，表示和f_j之间的冗余性越高；

步骤5.6、根据式(4)和式(5)判断第j个特征f_j是否为冗余特征；

步骤5.9、根据冗余特征下标集合index，从特征向量D中删除下标包含在index中的特征向量；

步骤6、将更新的特征向量D′赋值给特征向量D；注意此时特征向量D中包含的特征个数会发生变化，实际代码实现中的n表示特征向量D中包含的特征的个数；

步骤7、判断特征向量D是否为空集，若为空集，则表示完成特征选择，并获得特征子集S；若不为空集，则将k+1赋值给k，并返回步骤2执行，从剩余的候选特征向量D中选择下一个最优特征。

Claims

1.一种马尔科夫毯嵌入式的基于封装的基因选择方法，是应用于由m个实例组成的数据集Data中，记为Data＝{inst₁,inst₂,…,inst_i,…,inst_m}，Data为微阵列基因表达数据；inst_i表示第i个实例；1≤i≤m；第i个实例inst_i由n个基因和一个类别变量C_i组成，F_i为微阵数据中的基因，C_i为微阵列样本对应的类别；表示第i个实例inst_i中第j个基因，1≤j≤n；由m个实例的第j个基因组成第j个基因向量，记为从而获得由n个基因向量所构成的数据集Data的基因向量，记为D＝{f₁,f₂,…,f_j,…,f_n}；由m个实例的类别变量组成类别向量，记为C＝{C₁,C₂,…,C_i,…,C_m}；其特征是，所述基因选择方法是按如下步骤进行：

步骤1、定义循环次数k，并初始化k＝1；定义基因子集S，并初始化

步骤2、根据基因子集S，利用五折交叉验证方法从基因向量D中选择能与基因子集S构成最优基因组的第k次循环的最优基因，记为

步骤3、判断是否成立，若成立，则表示完成基因选择，并获得基因子集S；若不成立，则将第k次循环的最优基因加入基因子集S中，从而获得更新的基因子集S′；

步骤4、将更新的基因子集S′赋值给基因子集S；

步骤5、利用马尔科夫毯方法从基因向量D中删除第k次循环的最优基因以及与第k次循环的最优基因相冗余的基因，从而获得更新的基因向量D′；

步骤6、将更新的基因向量D′赋值给基因向量D；

步骤7、判断基因向量D是否为空集，若为空集，则表示完成基因选择，并获得基因子集S；若不为空集，则将k+1赋值给k；并返回步骤2执行。

2.根据权利要求1所述的基因选择方法，其特征是，五折交叉验证方法是按如下步骤进行：

步骤2.3、将数据集Data映射在基因子集S与类别向量C上，获得约减数据集Data₀；

步骤2.5、初始化j＝1；

步骤2.6、将数据集Data映射在基因子集S、类别向量C和第j个基因f_j上，获得第j个约减数据集Data_j；

步骤2.7、将第j个约减数据集Data_j中的实例均分为五份，分别选取其中的每一份作为测试集，剩余的四份作为训练集用于训练分类器，从而获得关于第j个基因f_j的五个测试准确率，记为以及第j个平均准确率，记为

步骤2.8、判断且的个数大于所设定的阈值是否同时满足；当同时满足时，令flag＝true；将第j个基因f_j作为最优基因；并将赋值给从而更新步骤2.9、将j+1赋值给j，判断j≤n是否成立，若成立，则返回步骤2.6执行；若不成立，则判断flag＝true是否成立，若成立，则将第j个基因f_j作为第k次循环的最优基因否则，令后，将第j个基因f_j作为第k次循环的最优基因

3.根据权利要求1或2所述的基因选择方法，其特征是，步骤5中的马尔科夫毯方法是按如下步骤进行：

步骤5.1、定义冗余基因下标集合为index，初始化

步骤5.2、初始化j＝1；

步骤5.3、利用式(1)计算第j个基因f_j与类别变量C之间的相关性SU(f_j,C)：

式(1)，H(f_j)表示第j个基因f_j的信息熵；H(C)表示类别变量C的信息熵；H(C|f_j)表示在第j个基因f_j条件下类别变量C的条件信息熵；

步骤5.4、利用式(2)计算第k次循环的最优基因与类别变量C之间的相关性

步骤5.5、利用式(3)计算第k次循环的最优基因和第j个基因f_j之间相关性

步骤5.6、根据式(4)和式(5)判断第j个基因f_j是否为冗余基因；

若式(4)和式(5)同时成立，则表示第j个基因f_j为冗余基因，并将f_j的下标j加入到冗余基因下标集合index中，从而获得更新的下标集合index′；

步骤5.7、将更新的下标集合index′赋值给冗余基因下标集合index；

步骤5.9、根据冗余基因下标集合index，从基因向量D中删除下标包含在index中的基因向量。