CN105205349B - 马尔科夫毯嵌入式的基于封装的基因选择方法 - Google Patents

马尔科夫毯嵌入式的基于封装的基因选择方法 Download PDF

Info

Publication number
CN105205349B
CN105205349B CN201510534505.0A CN201510534505A CN105205349B CN 105205349 B CN105205349 B CN 105205349B CN 201510534505 A CN201510534505 A CN 201510534505A CN 105205349 B CN105205349 B CN 105205349B
Authority
CN
China
Prior art keywords
gene
feature
data
denoted
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510534505.0A
Other languages
English (en)
Other versions
CN105205349A (zh
Inventor
杨静
王爱国
安宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201510534505.0A priority Critical patent/CN105205349B/zh
Publication of CN105205349A publication Critical patent/CN105205349A/zh
Application granted granted Critical
Publication of CN105205349B publication Critical patent/CN105205349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种马尔科夫毯嵌入式的基于封装的基因选择方法,其特征是按如下步骤进行:1利用五折交叉验证方法获得最优特征;2判断最优特征是否为空集,若为空集,则完成特征选择,否则更新的特征子集;3、利用马尔科夫毯方法删除冗余特征,从而更新特征向量;4判断特征向量是否为空集,若为空集则完成特征选择,否则重复步骤2。本发明能够获得高质量的特征子集,同时降低基于封装的特征选择方法的时间复杂度,从而获得较好的分类性能和时间性能。

Description

马尔科夫毯嵌入式的基于封装的基因选择方法
技术领域
本发明属于数据挖掘领域,具体地说是一种马尔科夫毯嵌入式的基于封装的基因选择方法。
背景技术
特征选择作为一种数据预处理技术,广泛地应用在机器学习和数据挖掘任务中,例如分类、回归以及聚类等问题。当数据的原始特征空间包括与目标任务不相关或冗余的特征时,在整个特征空间上构建的分类器往往具有较差的性能,例如朴素贝叶斯分类器对冗余的特征比较敏感。特征选择的目的是应用有效的特征选择方法从原始特征空间中选出一组具有判别能力的特征。有效的特征选择方法不仅能够降低原始特征空间的维度,而且可以降低分类器的训练时间,提高其泛化能力,更重要的是可以帮助研究人员找到一组反映目标任务的重要属性,增强分类器的可解释性。例如,在基于微整列数据的癌症诊断中,通过特征选择方法找出与特定癌症相关的基因,可以提高癌症预测的准确率,同时这些筛选出来的基因可能是靶点基因,能够降低寻找生物靶点的实验成本。
基于封装的特征选择方法在特征选择过程中使用某个分类器评价候选特征的优劣。由于特征选择过程与分类算法之间特定的相互作用,基于封装的特征方法一般具有较好的分类准确性。虽然基于封装的特征选择方法能够获得高质量的特征子集和较好的分类准确率,但其较高的时间复杂度在一定程度上影响了该类方法在实际中的广泛应用。
该类方法的主要缺点包括,
(1)在每一步的特征选择过程中,通过封装的方式,以分类准确率或分类错误率作为评估准则衡量每个候选特征的优劣,该过程需要执行大量的封装评估,即评估每个候选特征时,需要经历训练分类器和测试分类器性能两个阶段;
(2)不能快速地识别候选特征集合中的冗余特征,并且这些冗余特征一直保留在候选特征集合中直到特征选择方法运行结束,导致重复地评估这些冗余特征。
发明内容
本发明为克服现有技术存在的不足之处,提出一种马尔科夫毯嵌入式的基于封装的基因选择方法,以期能够获得高质量的特征子集,同时降低基于封装的特征选择方法的时间复杂度,从而获得较好的分类性能和时间性能。
本发明为解决技术问题采用如下技术方案:
本发明一种马尔科夫毯嵌入式的基于封装的基因选择方法,是应用于由m个实例组成的数据集Data中,记为Data={inst1,inst2,…,insti,…,instm};insti表示第i个实例;1≤i≤m;第i个实例insti由n个特征和一个类别变量Ci组成;表示第i个实例insti中第j个特征,1≤j≤n;由m个实例的第j个特征组成第j个特征向量,记为从而获得由n个特征向量所构成的数据集Data的特征向量,记为D={f1,f2,…,fj,…,fn};由m个实例的类别变量组成类别向量,记为C={C1,C2,…,Ci,…,Cm};其特点是,所述特征选择方法是按如下步骤进行:
步骤1、定义循环次数k,并初始化k=1;定义特征子集S,并初始化
步骤2、根据特征子集S,利用五折交叉验证方法从特征向量D中选择能与特征子集S构成最优特征组的第k次循环的最优特征,记为
步骤3、判断是否成立,若成立,则表示完成特征选择,并获得特征子集S;若不成立,则将第k次循环的最优特征加入特征子集S中,从而获得更新的特征子集S′;
步骤4、将更新的特征子集S′赋值给特征子集S;
步骤5、利用马尔科夫毯方法从特征向量D中删除第k次循环的最优特征以及与第k次循环的最优特征相冗余的特征,从而获得更新的特征向量D′;
步骤6、将更新的特征向量D′赋值给特征向量D;
步骤7、判断特征向量D是否为空集,若为空集,则表示完成特征选择,并获得特征子集S;若不为空集,则将k+1赋值给k;并返回步骤2执行。
本发明所述的特征选择方法的特点也在于,五折交叉验证方法是按如下步骤进行:
步骤2.1、定义准确率变量为定义标识符为flag,并初始化flag=false;
步骤2.2、判断是否成立,若成立,则初始化否则,执行步骤2.3;
步骤2.3、将数据集Data映射在特征子集S与类别向量C上,获得约减数据集Data0
步骤2.4、将约减数据集Data0中的实例均分为五份,分别选取其中的每一份作为测试集,剩余的四份作为训练集用于训练分类器,从而获得五个测试准确率,记为acc0={acc1,acc2,acc3,acc4,acc5}以及平均准确率,记为
步骤2.5、初始化j=1;
步骤2.6、将数据集Data映射在特征子集S、类别向量C和第j个特征fj上,获得第j个约减数据集Dataj
步骤2.7、将第j个约减数据集Dataj中的实例均分为五份,分别选取其中的每一份作为测试集,剩余的四份作为训练集用于训练分类器,从而获得关于第j个特征fj的五个测试准确率,记为以及第j个平均准确率,记为
步骤2.8、判断的个数大于所设定的阈值是否同时满足;当同时满足时,令flag=true;将第j个特征fj作为最优特征;并将赋值给从而更新
步骤2.9、将j+1赋值给j,判断j≤n是否成立,若成立,则返回步骤2.6执行;若不成立,则判断flag=true是否成立,若成立,则将第j个特征fj作为第k次循环的最优特征否则,令后,将第j个特征fj作为第k次循环的最优特征fk (s)
步骤5中的马尔科夫毯方法是按如下步骤进行:
步骤5.1、定义冗余特征下标集合为index,初始化
步骤5.2、初始化j=1;
步骤5.3、利用式(1)计算第j个特征fj与类别变量C之间的相关性SU(fj,C):
式(1),H(fj)表示第j个特征fj的信息熵;H(C)表示类别变量C的信息熵;H(C|fj)表示在第j个特征fj条件下类别变量C的条件信息熵;
步骤5.4、利用式(2)计算第k次循环的最优特征与类别变量C之间的相关性
步骤5.5、利用式(3)计算第k次循环的最优特征和第j个特征fj之间相关性
步骤5.6、根据式(4)和式(5)判断第j个特征fj是否为冗余特征;
若式(4)和式(5)同时成立,则表示第j个特征fj为冗余特征,并将fj的下标j加入到冗余特征下标集合index中,从而获得更新的下标集合index′;
步骤5.7、将更新的下标集合index′赋值给冗余特征下标集合index;
步骤5.8、将j+1赋值给j,判断j≤n是否成立,若成立,则返回步骤3执行;否则,执行步骤5.9;
步骤5.9、根据冗余特征下标集合index,从特征向量D中删除下标包含在index中的特征向量。
与已有技术相比,本发明的有益效果体现在:
1、本发明提出的马尔科夫毯嵌入式的基于封装的基因选择方法,是基于马尔科夫毯技术的,能够快速地识别和删除冗余特征。一方面,由于该方法删除的冗余特征所包含的关于目标变量的信息都已经包含在已经选择的特征子集中,这保证候选特征集合中包含目标变量额外信息的特征没有被删除;另一方面,由于从候选特征集合中删除冗余的特征可以减小候选特征集合的大小,进而减少了需要执行的封装评估的次数,能够加快基于封装的特征选择方法,具有较好的时间复杂性。因此,本发明提出的方法能够保证选取具有判别能力的特征,同时能够快速地识别冗余特征并将其从候选特征集合中删除。
2、本发明所提出的方法实质上是一种混合的基因选择方法,同时具有基于过滤的特征选择方法的快速性和基于封装的特征选择方法的有效性;通过嵌入马尔科夫毯,基于封装的特征选择方法不仅能够选择与目标变量相关的特征,而且能够高效地识别并删除冗余特征,最终获得高质量的特征子集,达到数据降维的目的。
3、本发明采用马尔科夫方法进行冗余特征的识别和删除,该方法不仅能发现变量之间的线性相关性,而且能够刻画变量之间的非线性相关性。因此,能够更有效地选出一组与目标类别具有高相关性,同时彼此之间低冗余性的特征。
4、本发明所提出的方法可用于各类数据分析任务中;例如将方法应用于基因表达数据分析、图像处理、文本分类等领域有助于研究人员发现与目标任务密切相关的属性,从而更好地理解待考察的对象。
具体实施方式
本实施例中,假设所研究的对象是由m个实例组成的数据集Data,记为Data={inst1,inst2,…,insti,…,instm},例如,数据集Data可以是微阵列基因表达数据;insti表示第i个实例;1≤i≤m;第i个实例insti由n个特征即微阵列数据中的基因,和一个类别变量Ci组成,即微阵列样本对应的类别,如癌症/正常;表示第i个实例insti中第j个特征,1≤j≤n;由m个实例的第j个特征组成第j个特征向量,记为从而获得m个实例的n个特征向量,记为f={f1,f2,…,fj,…,fn};由m个实例的类别变量组成类别向量,记为C={C1,C2,…,Ci,…,Cm};由n个特征向量f和类别向量C构成数据集Data的属性向量Dvar={f1,f2,…,fj,…,fn,C};由n个特征向量f构成数据集Data的特征向量D={f1,f2,…,fj,…,fn};
一种马尔科夫毯嵌入式的基于封装的基因选择方法是按如下步骤进行:
步骤1、定义循环次数k,用于记录特征选择的迭代次数;并初始化k=1;定义特征子集S,并初始化S用于保存特征选择算法最终选择的特征;
步骤2、根据特征子集S,利用五折交叉验证方法从特征向量D中选择能与特征子集S构成最优特征组的第k次循环的最优特征,记为
具体地,k=1时,用于从特征向量D={f1,f2,…,fj,…,fn}中选出一个最优的特征f1 (s),并将其记录到S中,k=2时,用于从特征向量D\f1 s(表示将f1 (s)从D中删除后得到的集合)中选出第二个特征(D\f1 s表示将f1 (s)从D中删除后得到的集合),该特征与已选择的特征S构成当前最优的特征组;
步骤2.1、定义准确率变量为定义标识符为flag,并初始化flag=false;flag用于记录在第k次循环中能否找出一个更好的特征;
步骤2.2、判断是否成立,若成立,则初始化因为当时,无法构建分类器,因此需要初始化分类准确率否则,执行步骤2.3;
步骤2.3、将数据集Data映射在特征子集S与类别向量C上,获得约减数据集Data0,Data0中的特征是Data中的特征的一个子集;
步骤2.4、将约减数据集Data0中的实例均分为五份,实际应用中,由于样本数目可能不是5的整数倍,是将Data0中的实例分成五份,每份中的样本个数大致相同;分别选取其中的每一份作为测试集,剩余的四份作为训练集用于训练分类器,以保证每个实例都有一次作为测试集的机会,从而获得五个测试准确率,记为acc0={acc1,acc2,acc3,acc4,acc5}以及平均准确率,记为
步骤2.5、初始化j=1;
步骤2.6、将数据集Data映射在特征子集S、类别向量C和第j个特征fj上,获得第j个约减数据集Dataj
步骤2.7、将第j个约减数据集Dataj中的实例均分为五份,分别选取其中的每一份作为测试集,剩余的四份作为训练集用于训练分类器,从而获得关于第j个特征fj的五个测试准确率,记为以及第j个平均准确率,记为
步骤2.8、判断的个数大于所设定的阈值是否同时满足,表示返回的5个准确率中,至少有mf个大于实际应用中,推荐的阈值mf取值为2或3,这种做法能够避免在小样本量数据集上进行统计测试,同时可以很好地控制噪声和过拟合问题;当同时满足时,令flag=true,表示此次循环中,存在一个更好的特征;将第j个特征fj作为最优特征;并将赋值给从而更新
步骤2.9、将j+1赋值给j,判断j≤n是否成立,在特征选择过程中,n表示特征向量D={f1,f2,…,fj,…,fn}中包含的特征个数;若成立,则返回步骤2.6执行;若不成立,则判断flag=true是否成立,若成立,则将第j个特征fj作为第k次循环的最优特征否则,令后,将第j个特征fj作为第k次循环的最优特征表示在第k次循环中,不存在最优特征;
步骤3、判断是否成立,若成立,则表示完成特征选择,并获得特征子集S;若不成立,则将第k次循环选出的最优特征加入特征子集S中,从而获得更新的特征子集S′后执行步骤4;
步骤4、将更新的特征子集S′赋值给特征子集S;
步骤5、利用马尔科夫毯方法从特征向量D中删除第k次循环的最优特征以及与第k次循环的最优特征相冗余的特征向量,从而获得更新的特征向量D′;
步骤5.1、定义冗余特征下标集合为index,用于记录与相冗余的特征的下标;初始化
步骤5.2、初始化j=1;
步骤5.3、利用式(1)计算第j个特征fj与类别变量C之间的相关性SU(fj,C):
式(1),H(fj)表示第j个特征fj的信息熵,用于测量第j个特征fj所包含的不确定性;H(C)表示类别变量C的信息熵;H(C|fj)表示在第j个特征fj条件下类别变量C的条件信息熵;SU(fj,C)表征对称不确定性,用于计算两个变量fj和C之间的标准化互信息;采用信息熵的优势在于,能够反映变量之间的非线性相关性,在信息熵的具体计算可以参见文献《Feature selection based on mutual information:criteria of max-dependency,max-relevance and min-redundancy》中的介绍;
步骤5.4、利用式(2)计算第k次循环的最优特征与类别变量C之间的相关性值越大,表示包含的关于类别变量C的信息越多;
步骤5.5、利用式(3)计算第k次循环的最优特征和第j个特征fj之间相关性实际上表示两个特征之间的冗余性,值越大,表示和fj之间的冗余性越高;
步骤5.6、根据式(4)和式(5)判断第j个特征fj是否为冗余特征;
若式(4)和式(5)同时成立,则表示第j个特征fj为冗余特征,并将fj的下标j加入到冗余特征下标集合index中,从而获得更新的下标集合index′;
步骤5.7、将更新的下标集合index′赋值给冗余特征下标集合index;
步骤5.8、将j+1赋值给j,判断j≤n是否成立,若成立,则返回步骤3执行;否则,执行步骤5.9;
步骤5.9、根据冗余特征下标集合index,从特征向量D中删除下标包含在index中的特征向量;
步骤6、将更新的特征向量D′赋值给特征向量D;注意此时特征向量D中包含的特征个数会发生变化,实际代码实现中的n表示特征向量D中包含的特征的个数;
步骤7、判断特征向量D是否为空集,若为空集,则表示完成特征选择,并获得特征子集S;若不为空集,则将k+1赋值给k,并返回步骤2执行,从剩余的候选特征向量D中选择下一个最优特征。

Claims (3)

1.一种马尔科夫毯嵌入式的基于封装的基因选择方法,是应用于由m个实例组成的数据集Data中,记为Data={inst1,inst2,…,insti,…,instm},Data为微阵列基因表达数据;insti表示第i个实例;1≤i≤m;第i个实例insti由n个基因和一个类别变量Ci组成,Fi为微阵数据中的基因,Ci为微阵列样本对应的类别;表示第i个实例insti中第j个基因,1≤j≤n;由m个实例的第j个基因组成第j个基因向量,记为从而获得由n个基因向量所构成的数据集Data的基因向量,记为D={f1,f2,…,fj,…,fn};由m个实例的类别变量组成类别向量,记为C={C1,C2,…,Ci,…,Cm};其特征是,所述基因选择方法是按如下步骤进行:
步骤1、定义循环次数k,并初始化k=1;定义基因子集S,并初始化
步骤2、根据基因子集S,利用五折交叉验证方法从基因向量D中选择能与基因子集S构成最优基因组的第k次循环的最优基因,记为
步骤3、判断是否成立,若成立,则表示完成基因选择,并获得基因子集S;若不成立,则将第k次循环的最优基因加入基因子集S中,从而获得更新的基因子集S′;
步骤4、将更新的基因子集S′赋值给基因子集S;
步骤5、利用马尔科夫毯方法从基因向量D中删除第k次循环的最优基因以及与第k次循环的最优基因相冗余的基因,从而获得更新的基因向量D′;
步骤6、将更新的基因向量D′赋值给基因向量D;
步骤7、判断基因向量D是否为空集,若为空集,则表示完成基因选择,并获得基因子集S;若不为空集,则将k+1赋值给k;并返回步骤2执行。
2.根据权利要求1所述的基因选择方法,其特征是,五折交叉验证方法是按如下步骤进行:
步骤2.1、定义准确率变量为定义标识符为flag,并初始化flag=false;
步骤2.2、判断是否成立,若成立,则初始化否则,执行步骤2.3;
步骤2.3、将数据集Data映射在基因子集S与类别向量C上,获得约减数据集Data0
步骤2.4、将约减数据集Data0中的实例均分为五份,分别选取其中的每一份作为测试集,剩余的四份作为训练集用于训练分类器,从而获得五个测试准确率,记为acc0={acc1,acc2,acc3,acc4,acc5}以及平均准确率,记为
步骤2.5、初始化j=1;
步骤2.6、将数据集Data映射在基因子集S、类别向量C和第j个基因fj上,获得第j个约减数据集Dataj
步骤2.7、将第j个约减数据集Dataj中的实例均分为五份,分别选取其中的每一份作为测试集,剩余的四份作为训练集用于训练分类器,从而获得关于第j个基因fj的五个测试准确率,记为以及第j个平均准确率,记为
步骤2.8、判断的个数大于所设定的阈值是否同时满足;当同时满足时,令flag=true;将第j个基因fj作为最优基因;并将赋值给从而更新步骤2.9、将j+1赋值给j,判断j≤n是否成立,若成立,则返回步骤2.6执行;若不成立,则判断flag=true是否成立,若成立,则将第j个基因fj作为第k次循环的最优基因否则,令后,将第j个基因fj作为第k次循环的最优基因
3.根据权利要求1或2所述的基因选择方法,其特征是,步骤5中的马尔科夫毯方法是按如下步骤进行:
步骤5.1、定义冗余基因下标集合为index,初始化
步骤5.2、初始化j=1;
步骤5.3、利用式(1)计算第j个基因fj与类别变量C之间的相关性SU(fj,C):
式(1),H(fj)表示第j个基因fj的信息熵;H(C)表示类别变量C的信息熵;H(C|fj)表示在第j个基因fj条件下类别变量C的条件信息熵;
步骤5.4、利用式(2)计算第k次循环的最优基因与类别变量C之间的相关性
步骤5.5、利用式(3)计算第k次循环的最优基因和第j个基因fj之间相关性
步骤5.6、根据式(4)和式(5)判断第j个基因fj是否为冗余基因;
若式(4)和式(5)同时成立,则表示第j个基因fj为冗余基因,并将fj的下标j加入到冗余基因下标集合index中,从而获得更新的下标集合index′;
步骤5.7、将更新的下标集合index′赋值给冗余基因下标集合index;
步骤5.8、将j+1赋值给j,判断j≤n是否成立,若成立,则返回步骤3执行;否则,执行步骤5.9;
步骤5.9、根据冗余基因下标集合index,从基因向量D中删除下标包含在index中的基因向量。
CN201510534505.0A 2015-08-25 2015-08-25 马尔科夫毯嵌入式的基于封装的基因选择方法 Active CN105205349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510534505.0A CN105205349B (zh) 2015-08-25 2015-08-25 马尔科夫毯嵌入式的基于封装的基因选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510534505.0A CN105205349B (zh) 2015-08-25 2015-08-25 马尔科夫毯嵌入式的基于封装的基因选择方法

Publications (2)

Publication Number Publication Date
CN105205349A CN105205349A (zh) 2015-12-30
CN105205349B true CN105205349B (zh) 2018-08-03

Family

ID=54953026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510534505.0A Active CN105205349B (zh) 2015-08-25 2015-08-25 马尔科夫毯嵌入式的基于封装的基因选择方法

Country Status (1)

Country Link
CN (1) CN105205349B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719006B (zh) * 2016-01-18 2019-07-19 合肥工业大学 基于流特征的因果结构学习方法
CN105825081B (zh) * 2016-04-20 2018-09-14 苏州大学 一种基因表达数据分类方法及分类系统
CN110534155A (zh) * 2019-08-29 2019-12-03 合肥工业大学 基于最大相关最小冗余的快速封装式基因选择方法
CN111339165B (zh) * 2020-02-28 2022-06-03 重庆邮电大学 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法
CN118246815B (zh) * 2024-05-24 2024-07-16 广东工业大学 基于马尔可夫毯的在线服务体验质量关键因素识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050556A (zh) * 2014-05-27 2014-09-17 哈尔滨理工大学 一种垃圾邮件的特征选择方法及其检测方法
CN104408332A (zh) * 2014-11-05 2015-03-11 深圳先进技术研究院 一种基因数据处理方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060059112A1 (en) * 2004-08-25 2006-03-16 Jie Cheng Machine learning with robust estimation, bayesian classification and model stacking
WO2008037479A1 (en) * 2006-09-28 2008-04-03 Private Universität Für Gesundheitswissenschaften Medizinische Informatik Und Technik - Umit Feature selection on proteomic data for identifying biomarker candidates
US8015126B2 (en) * 2008-04-23 2011-09-06 Xerox Corporation Scalable feature selection for multi-class problems
US8831327B2 (en) * 2011-08-30 2014-09-09 General Electric Company Systems and methods for tissue classification using attributes of a biomarker enhanced tissue network (BETN)

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050556A (zh) * 2014-05-27 2014-09-17 哈尔滨理工大学 一种垃圾邮件的特征选择方法及其检测方法
CN104408332A (zh) * 2014-11-05 2015-03-11 深圳先进技术研究院 一种基因数据处理方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Incremental wrapper based gene selection with Markov blanket;Aiguo Wang等;《2014 IEEE International Conference on Bioinformatics and Biomedicine》;20141105;第74-79页 *
Markov blanket-embedded genetic algorithm for gene selection;Zexuan Zhu等;《Pattern Recognition》;20071130;第40卷(第11期);第1-25页 *
融合过滤和封装方式的特征选择算法;代旺 等;《计算机工程》;20121220;第38卷(第24期);第166-170页 *

Also Published As

Publication number Publication date
CN105205349A (zh) 2015-12-30

Similar Documents

Publication Publication Date Title
CN105205349B (zh) 马尔科夫毯嵌入式的基于封装的基因选择方法
Iqbal et al. Deep learning recognition of diseased and normal cell representation
CN113299346B (zh) 分类模型训练和分类方法、装置、计算机设备和存储介质
CN110110726A (zh) 电力设备铭牌识别方法、装置、计算机设备和存储介质
CN117015796A (zh) 处理组织图像的方法和用于处理组织图像的系统
CN114664413A (zh) 在治疗前对直肠癌治疗抵抗及其分子机制的预测系统
Dürr et al. Know when you don't know: a robust deep learning approach in the presence of unknown phenotypes
Ke et al. Identifying patch-level MSI from histological images of colorectal cancer by a knowledge distillation model
Schatz et al. Accuracy of climate-based forecasts of pathogen spread
Hu et al. Incorporating label correlations into deep neural networks to classify protein subcellular location patterns in immunohistochemistry images
Qiu et al. Scratch Each Other's Back: Incomplete Multi-Modal Brain Tumor Segmentation via Category Aware Group Self-Support Learning
Bahat et al. Classification confidence estimation with test-time data-augmentation
Asare et al. A semisupervised learning scheme with Self‐paced learning for classifying breast cancer histopathological images
Abbas et al. Multi-cell type and multi-level graph aggregation network for cancer grading in pathology images
Yan et al. Statistical Methods for Tissue Array Images–Algorithmic Scoring and Co-Training
CN108564009A (zh) 一种基于互信息量的改进特征评价方法
CN106611181A (zh) 基于代价敏感二维尺度决策树构造方法
CN117409260A (zh) 一种基于深度子空间嵌入的小样本图像分类方法及装置
CN104636636A (zh) 蛋白质远程同源性检测方法及装置
CN111627499B (zh) 甲基化水平的向量化表征、特定测序区间检测方法和装置
CN114021716A (zh) 一种模型训练的方法、系统及电子设备
CN110534155A (zh) 基于最大相关最小冗余的快速封装式基因选择方法
Han et al. Active Learning for Open-Set Annotation Using Contrastive Query Strategy
CN117292747B (zh) 一种基于HSIC-bottleneck的空间转录组spot基因表达预测方法
CN116883995B (zh) 一种乳腺癌分子亚型的识别系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant