CN111275127B - 基于条件互信息的动态特征选择方法 - Google Patents

基于条件互信息的动态特征选择方法 Download PDF

Info

Publication number
CN111275127B
CN111275127B CN202010090358.3A CN202010090358A CN111275127B CN 111275127 B CN111275127 B CN 111275127B CN 202010090358 A CN202010090358 A CN 202010090358A CN 111275127 B CN111275127 B CN 111275127B
Authority
CN
China
Prior art keywords
feature
features
candidate
data set
important
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010090358.3A
Other languages
English (en)
Other versions
CN111275127A (zh
Inventor
周红芳
温婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hippo Internet Information Technology Shenzhen Co ltd
Shenzhen Wanzhida Technology Co ltd
Original Assignee
Hippo Internet Information Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hippo Internet Information Technology Shenzhen Co ltd filed Critical Hippo Internet Information Technology Shenzhen Co ltd
Priority to CN202010090358.3A priority Critical patent/CN111275127B/zh
Publication of CN111275127A publication Critical patent/CN111275127A/zh
Application granted granted Critical
Publication of CN111275127B publication Critical patent/CN111275127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于条件互信息的动态特征选择方法,具体按照以下步骤:步骤1.对数据集进行预处理,得到预处理数据集;步骤2.对预处理数据集进行离散化处理,将预处理数据集中的所有特征划分到不同的特征等级中;步骤3.计算经步骤2离散化处理后的数据集中所有特征X与类变量Y之间的重要程度;步骤4.根据步骤3计算出的特征与类之间的重要程度I(X;Y)后,选择重要程度最大的特征作为重要特征,将重要特征从原特征集合中删除,添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其他候选特征。本发明通过提高特征与类直接的相关性,降低特征与特征之间的冗余性,从而提高特征选择的准确率和效率。

Description

基于条件互信息的动态特征选择方法
技术领域
本发明属于数据挖掘方法技术领域,涉及基于条件互信息的动态特征选择方法。
背景技术
随着信息科学和计算机技术的飞速发展,特别是多传感器的应用,能够获取的信息数据量越来越大,特征维数也越来越高。数据容量的增多为数据挖掘提供了条件,但同时数据维数的增高会延长模型的建立时间,降低模型的预测能力,因此海量的数据对分类器的设计也提出了更高的要求。这些数据的特征集中,含有大量冗余特征和噪声,因此,能有效地去除不相关特征,精简数据,同时清除数据中的复杂噪声,对提高学习算法的能力并进行有效的数据挖掘十分重要。特征选择就是解决这个问题的关键技术,特征选择指的是从原始特征集合中选择使某种评估标准最优的特征子集,其目的是根据某种特征选择算法挑选出最少的特征子集,使得分类任务达到和特征选择前近似甚至更好的结果,从而促进后续其它目标任务的学习。特征选择算法分为三类,包括嵌入式特征选择算法、包装式特征选择算法和过滤式特征选择算法。嵌入式特征选择算法,其特征选择的过程与分类的过程关系密切,需要在特征选择的过程中完成分类;包装式特征选择算法,通过调用分类器根据分类结果对特征进行评价;而过滤式特征选择算法,其特征选择的过程与分类器完全独立;因此过滤式特征选择在计算上是高效的。
常见的特征选择方法度量方法有很多,例如基于距离,基于卡方检验等。互信息与这些度量方法不同,它从信息学的角度将特征与特征之间的关系以及特征与类之间的关系解释为信息量,在传统的基于互信息的特征选择算法中均使用互信息描述特征之间的关系,而条件互信息比互信息所表示的信息量更精确,同时很多传统的特征选择方法只能静态的衡量特征与类之间的互信息,即当很多候选特征提供的新信息量相同时,模型不知道该选择哪一个而消耗时间,而动态的特征选择算法可以动态衡量在已选特征的条件下,候选特征与类之间的互信息,从而缩减模型训练时间,因此本申请提出了基于条件互信息的动态特征选择方法。
发明内容
本发明的目的是提供一种基于条件互信息的动态特征选择方法,解决现有技术中存在的特征选择方法分类准确率低、效率低的问题。
本发明所采用的技术方案是,基于条件互信息的动态特征选择方法,具体操作步骤如下:
步骤1.对数据集进行预处理,得到预处理数据集;
步骤2.对步骤1得到的预处理数据集进行离散化处理,将预处理数据集中的所有特征划分到不同的特征等级中;
步骤3.计算经步骤2离散化处理后的数据集中所有特征X与类变量Y之间的重要程度;
步骤4.根据步骤3计算出的特征与类之间的重要程度I(X;Y)后,选择重要程度最大的特征作为重要特征,将重要特征从原特征集合中删除,添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其余候选特征。
本发明的特点还在于:
步骤1具体为:
数据集中的每一列为一个特征,每个特征有n行,将每个特征的取值范围压缩到0和1之间,得到预处理后的特征X。
步骤2具体按照以下步骤实施:
步骤2.1,对特征X中的所有元素进行升序排序得到X’;
步骤2.2,分别取X’中第n/5,第2*n/5,第3*n/5,第4*n/5,第5*n/5位置的元素;
步骤2.3,设y为特征等级,若0<=X[i]<X’[n/5],则y=0;若 X’[n/5]<=X[i]<X’[2*n/5],则y=1;若X’[2*n/5]<=X[i]<X’[3*n/5],则y=2;若 X’[3*n/5]<=X[i]<X’[4*n/5],则y=3;若X’[4*n/5]<=X[i]<=X’[5*n/5],则y=4;按照此规律将特征X中所有元素都划分为在不同的特征等级中;
其中,y∈{0,1,2,3,4},i代表特征X的第i个元素,X[i]表示特征X的第i 个特征值。
步骤3具体按照以下步骤实施:
计算每个特征X与类变量Y之间的重要程度,计算公式如下:
其中,类指的是数据集中的标签列,X表示特征,x是X可能的取值,Y表示类变量,y是Y可能的取值,公式中p(y)是y的概率分布,p(x)是x概率分布, p(x,y)表示x和y同时发生时候的概率分布;
且p(x)和p(y)的计算如下:
其中,N(X=x)表示X取值为x的个数,N(X≠x)表示不包含X取值为x的个数,N(Y=y)表示Y取值为y的个数,N(Y≠y)表示不包含Y取值为y的个数。
步骤4计算其余候选特征的具体步骤如下;
当候选特征集合中的特征个数大于1的时候,使用前向迭代算法选择i-1 个重要特征,计算候选特征在特征集合中的重要程度,每一次迭代,选择当前阶段最重要的特征,然后把这个重要的特征从原特征集中删除,放入候选特征集S中,经过i-1次迭代,最终得到大小为i的特征子集。
计算特征重要程度的评价标准MRIDFS为:
其中,Xi为目标特征,Xj为候选特征集S中的某个已选特征,类Y指的是数据集中标签列。
本发明的有益效果为:
1.在分类准确率上,相比于传统的CIFE算法、JMI算法、CMIM算法和 Relaxmrmr算法,本发明在UCI数据集Lungcancer、Movementlias、Musk、Yeast 、Lung、Lymphoma、Madelon和TOX-171上具有明显的优势结果,原因为本发明提出了特征相关冗余相对比的概念,特征相关冗余相对比指的是单位相关信息量下所附带的冗余量,使剔除的冗余部分更加精确,从而提高分类准确率;
2.在与不同的分类器配合上,将本发明和其他七种算法选择的特征子集分别在支持向量机(SVM)、朴素贝叶斯(NB)、K-近邻(KNN)这三种著名的分类器上运行,最终结果表明本发明结果具有稳定性,无论使用哪种分类器都可以获得好的分类准确率。
附图说明
图1是本发明基于条件互信息的动态特征选择方法的流程图;
图2-3是本发明基于条件互信息的动态特征选择方法与分别在低维数据集Lungcancer、Movementlias上的分类准确率对比图;
图4-9是本发明基于条件互信息的特征选择与评价方法与分别在高维数据集Musk、Yeast、Lung、Lymphoma、Madelon和TOX-171上的分类准确率对比图;
图10-12是本发明基于条件互信息的特征选择与评价方法与现有技术在不同数据集上,分别使用支持向量机分类器、朴素贝叶斯分类器、K近邻分类器时的盒须图。
图13是本发明基于条件互信息的动态特征选择方法的特征与类标签之间的关系实例图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明中的相关定义如下:
定义1(熵)熵是对随机变量的不确定性的一种度量,这种不确定性也可以称为随机变量的混乱程度,定义如下:
其中,X表示随机变量,x是X可能的取值,p(x)表示x的概率分布;H(X) 表示随机变量X的混乱程度,一个事件的概率越大,或者说分布越不均匀,则熵越小,信息量越小。
定义2(条件熵)条件熵是对给定一个变量的条件下,另一个变量的不确定性的度量,条件熵的定义如下:
其中,p(y|x)表示在给定x条件下y的概率分布,p(x,y)表示x和y的联合概率分布,H(Y|X)的值越小,意味着X可以提供更多的信息使得Y变得稳定。
定义3(互信息)互信息用来度量两个变量之间的独立程度,互信息与熵和条件熵的关系如下:
如果X和Y的互信息值为0,则表示X和Y是相互独立的,如果X和Y的互信息值大于0,且值越大,两个变量的相关性越大。
定义4(条件互信息)条件互信息用来度量在给定一个变量的条件下另外两个变量之间的独立程度,条件互信息的定义如下:
定义5(独立分类信息)假设特征Xi和Xj可以识别类Y,则Xi和Xj提供的独立分类信息使用下式表示。
I(Y;Xi|Xj)+I(Y;Xj|Xi) (9)
本发明基于以下原理:使用前向迭代算法选择i个特征,在每次迭代阶段,选择当前阶段最好的特征,经过i次迭代得到大小为i的特征子集。在特征评价的时候,使用条件相关和条件冗余分别描述特征与特征之间的关系以及特征与类之间的关系。如果一个特征与类是高度相关,与已选特征集中的特征是低度冗余,那么这个特征就会被选入到特征子集中。
本发明主要提出了一种新的特征评价计算标准。
本发明基于条件互信息的动态特征选择方法,如图1所示,具体按照以下步骤实施:
步骤1.对数据集进行预处理,由于在不同的数据集中,特征具有不同的含义,每个特征的值具有不同的取值范围,所以为了消除量纲对特征评价值的计算的影响,需要对数据进行规范化处理。将特征的取值范围压缩到0和1之间;
预处理步骤为:数据集中的每一列为一个特征,每个特征有n行,将每个特征的取值范围压缩到0和1之间,得到预处理后的特征X,若干列特征X组成;
步骤2.对数据集进行离散化处理,将预处理数据集中的所有特征划分到不同的特征等级中,数据集离散化处理的目的是便于使用公式(3)计算互信息值,离散化过程如下:
步骤2.1.对特征X中的所有元素进行升序排序得到X’;
步骤2.2.分别取X’中第n/5,第2*n/5,第3*n/5,第4*n/5,第5*n/5位置的元素;
步骤2.3.我们假设y为特征等级,如果0<=X[i]<X’[n/5],那么y=0;如果 X’[n/5]<=X[i]<X’[2*n/5],那么y=1;如果X’[2*n/5]<=X[i]<X’[3*n/5],那么y=2;如果X’[3*n/5]<=X[i]<X’[4*n/5],那么y=3;如果X’[4*n/5]<=X[i]<=X’[5*n/5],那么y=4;按照此规律将特征X中所有元素都划分为在不同的特征等级中。其中,y∈{0,1,2,3,4},i代表特征X的第i个元素,X[i]表示特征X的第i个特征值;
步骤3.计算每个特征X与类变量Y之间的重要程度,计算公式如下:
其中,类指的是数据集中的标签列,X表示特征,x是X可能的取值,Y表示类变量,y是Y可能的取值。公式中p(y)是y的概率分布,p(x)是x概率分布,p(x,y)表示x和y同时发生时候的概率分布;
且p(x)和p(y)的计算如下:
其中N(X=x)表示X取值为x的个数,N(X≠x)表示不包含X取值为x的个数;其中N(Y=y)表示Y取值为y的个数,N(Y≠y)表示不包含Y取值为y的个数。
步骤4.根据步骤3计算出的特征与类之间的重要程度I(X;Y)后,选择重要程度最大的特征作为重要特征,将这个重要特征从原特征集合中删除,添加到候选特征集合中,作为第一个被选入候选特征集的候选特征;
当候选特征集合中的特征个数大于1的时候,使用前向迭代算法选择i-1 个重要特征,计算候选特征在特征集合中的重要程度,每一次迭代,选择当前阶段最重要的特征,然后把这个重要的特征从原特征集中删除,放入候选特征集S中,经过i-1次迭代,最终得到大小为i的特征子集,而计算特征重要程度的评价标准MRIDFS为:
其中,Xi为目标特征,Xj为候选特征集S中的某个已选特征,类Y指的是数据集中标签列。
Xi可以提供的信息量可以分为两种,一种是特征Xi本身可以提供地信息量使用公式表示就是I(Xi;Y),表示为图13中的第一部分和第二部分;另一种是在已选特征Xj参与下Xi可以提供地额外信息量,以及Xi的出现可以使得Xj提供额外地信息量。使用公式表示为I(Xi;Y|Xj)+I(Xj;Y|Xi)。表示为图13中的第一和第三部分。所以从信息量角度,特征Xi可以提供地与Y相关地信息量为 I(Xi;Y)+I(Xi;Y|Xj)+I(Xj;Y|Xi),表示为图13中的第一、第二和第三部分。但是Xi不仅提供了与类Y的信息量,也提供了Xi和Xj的冗余信息。传统对于冗余信息量的表示也是使用公式I(Xi;Xj)表示,但是这种表示是比较粗糙的。由图13可以看出,冗余信息量分为两部分一部分是与类无关的使用公式 I(Xi;Y|Xj)表示,表示为图13中的第四部分;另一部分与类相关表示为图13 中的第二部分,由于I(Xi;Y|Xj)可以化解为:
I(Xi;Y|Xj)=I(Xi;Y)-{I(Xi;Y)-I(Xi;Y|Xj)}
=I(Xi;Y)-{I(Xi;Xj)-I(Xi;Xj|Y)}
I(Xi;Xj)-I(Xi;Xj|Y)表示与类相关的冗余,I(Xi;Y)+I(Xi;Y|Xj)+I(Xj;Y|Xi) 它本身包含与类相关的冗余的剔除。因此,本发明将重点放在与类无关的冗余上。我们提出了特征相关冗余度的概念,在公式(4)中,为特征相关冗余度,它表示单位相关信息量下所附带的冗余量,能更精确的表示冗余部分从而提高分类准确率。
在模式分类过程中,从原特征集中选择出具有类别区分能力的特征,构成新的子集,然后应用到分类器中,在新的特征子集中,这些特征可以帮助分类器进行分类,且由于特征数量变少,在使用距离度量两个样本之间相似性的算法中,可以减少模型的训练时间。
本发明的性能评测如下:
为了验证本发明的有效性,我们从UCI数据集库中选择16个具有不同样本量、不同维数和不同类数的数据集,如表1所示。调用支持向量机分类算法、 KNN分类算法和朴素贝叶斯分类算法进行十折交叉验证,取十次分类准确率的平均值,作为最终评价指标。为了提高分类的速度,对KNN算法设置近邻参数k=3,这里的k在KNN算法中的含义就是距离某个点距离最近的k个点。
支持向量机使用线性核,实验中,本发明和七种算法进行对比,这七种算法分别是基于相关和类内冗余的CIFE算法、条件互信息最大化的CMIM算法、基于联合互信息的特征选择算法JMI,以及最新的Relaxmrmr、CFR、MCRMICR 和DCSF算法。
表1.数据集属性
实验结果对比:
图2-3显示的本发明和其他七种算法在低维数据集上的结果,可以看出在低维数据集上特征选择过程的后期,本发明具有很好的分类效果,但是优越性不明显,因为低维数据集特征之间的关系比较简单。
图4-9显示的是本发明和其他对比算法在高维数据集上的结果,可以发现在Musk、Yeast、COIL20、Lymphoma、Madelon和TOX-171数据集上具有很好的效果,这是因为本发明使用了特征相关冗余相对比,相比于其他算法冗余信息刻画得更具体。
本发明和不同的算法在支持向量机SVM,邻近算法KNN和朴素贝叶斯算法NB三种分类器上的分类结果如表2,表3和表4所示,从三个表的标签列,可以发现,本发明中的特征评价准则具有很好的效果。
表2.本发明和其他经典算法使用不同的数据集在SVM分类器上的实验结果
注:符号(+),(-)和(=)表示MRIDFS执行“优于”,“劣于”和“等于”相对应方法。
表3.本发明和其他经典算法使用不同的数据集在NB分类器上的实验结果
表4.本发明和其他经典算法使用不同的数据集在KNN分类器上的实验结果

Claims (1)

1.基于条件互信息的动态特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1.对数据集进行预处理,得到预处理数据集;具体为:
数据集中的每一列为一个特征,每个特征有n行,将每个特征的取值范围压缩到0和1之间,得到预处理后的特征X;
步骤2.对步骤1得到的预处理数据集进行离散化处理,将预处理数据集中的所有特征划分到不同的特征等级中;具体按照以下步骤实施:
步骤2.1,对特征X中的所有元素进行升序排序得到X’;
步骤2.2,分别取X’中第n/5,第2*n/5,第3*n/5,第4*n/5,第5*n/5位置的元素;
步骤2.3,设y为特征等级,若0<=X[i]<X’[n/5],则y=0;若X’[n/5]<=X[i]<X’[2*n/5],则y=1;若X’[2*n/5]<=X[i]<X’[3*n/5],则y=2;若X’[3*n/5]<=X[i]<X’[4*n/5],则y=3;若X’[4*n/5]<=X[i]<=X’[5*n/5],则y=4;按照此规律将特征X中所有元素都划分为在不同的特征等级中;
其中,y∈{0,1,2,3,4},i代表特征X的第i个元素,X[i]表示特征X的第i个特征值;
步骤3.计算经步骤2离散化处理后的数据集中所有特征X与类变量Y之间的重要程度;具体按照以下步骤实施:
计算每个特征X与类变量Y之间的重要程度,计算公式如下:
其中,类指的是数据集中的标签列,X表示特征,x是X可能的取值,Y表示类变量,y是Y可能的取值,公式中p(y)是y的概率分布,p(x)是x概率分布,p(x,y)表示x和y同时发生时候的概率分布;
且p(x)和p(y)的计算如下:
其中,N(X=x)表示X取值为x的个数,N(X≠x)表示不包含X取值为x的个数,N(Y=y)表示Y取值为y的个数,N(Y≠y)表示不包含Y取值为y的个数;
步骤4.根据步骤3计算出的特征与类之间的重要程度I(X;Y)后,选择重要程度最大的特征作为重要特征,将重要特征从原特征集合中删除,添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其余候选特征,计算其余候选特征的具体步骤如下;
当候选特征集合中的特征个数大于1的时候,使用前向迭代算法选择i-1个重要特征,计算候选特征在特征集合中的重要程度,每一次迭代,选择当前阶段最重要的特征,然后把这个重要的特征从原特征集中删除,放入候选特征集S中,经过i-1次迭代,最终得到大小为i的特征子集;计算特征重要程度的评价标准MRIDFS为:
其中,Xi为目标特征,Xj为候选特征集S中的某个已选特征,类Y指的是数据集中标签列。
CN202010090358.3A 2020-02-13 2020-02-13 基于条件互信息的动态特征选择方法 Active CN111275127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010090358.3A CN111275127B (zh) 2020-02-13 2020-02-13 基于条件互信息的动态特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010090358.3A CN111275127B (zh) 2020-02-13 2020-02-13 基于条件互信息的动态特征选择方法

Publications (2)

Publication Number Publication Date
CN111275127A CN111275127A (zh) 2020-06-12
CN111275127B true CN111275127B (zh) 2024-01-09

Family

ID=71003765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010090358.3A Active CN111275127B (zh) 2020-02-13 2020-02-13 基于条件互信息的动态特征选择方法

Country Status (1)

Country Link
CN (1) CN111275127B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182331B (zh) * 2020-09-24 2022-08-02 上海工程技术大学 一种基于svm-rfe的客户风险特征筛选方法及其应用
CN112463894B (zh) * 2020-11-26 2022-05-31 浙江工商大学 一种基于条件互信息和交互信息的多标签特征选择方法
CN115239485A (zh) * 2022-08-16 2022-10-25 苏州大学 基于前向迭代约束评分特征选择的信用评估方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6240804B1 (ja) * 2017-04-13 2017-11-29 大▲連▼大学 改良した情報測定とgaに基づくフィルター式特徴選択アルゴリズム
CN108875795A (zh) * 2018-05-28 2018-11-23 哈尔滨工程大学 一种基于Relief和互信息的特征选择算法
CN109190660A (zh) * 2018-07-24 2019-01-11 西安理工大学 基于条件互信息的特征选择与评价方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6240804B1 (ja) * 2017-04-13 2017-11-29 大▲連▼大学 改良した情報測定とgaに基づくフィルター式特徴選択アルゴリズム
CN108875795A (zh) * 2018-05-28 2018-11-23 哈尔滨工程大学 一种基于Relief和互信息的特征选择算法
CN109190660A (zh) * 2018-07-24 2019-01-11 西安理工大学 基于条件互信息的特征选择与评价方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于条件相关的特征选择方法;刘杰;张平;高万夫;;吉林大学学报(工学版)(第03期);全文 *
基于正则化互信息和差异度的集成特征选择;姚旭;王晓丹;张玉玺;薛爱军;;计算机科学(第06期);全文 *
肿瘤特征基因选择的互信息最值过滤原则与粒子群优化算法;喻德旷;杨谊;;计算机应用(第02期);全文 *

Also Published As

Publication number Publication date
CN111275127A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
Kumar et al. An efficient k-means clustering filtering algorithm using density based initial cluster centers
Zhou et al. Online streaming feature selection using adapted neighborhood rough set
Jansi Rani et al. Two-stage hybrid gene selection using mutual information and genetic algorithm for cancer data classification
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
Huang et al. An improved knn based on class contribution and feature weighting
CN111275127B (zh) 基于条件互信息的动态特征选择方法
Nguyen et al. Learning pattern classification tasks with imbalanced data sets
Pękalska et al. Prototype selection for dissimilarity-based classifiers
Sharabiani et al. Efficient classification of long time series by 3-d dynamic time warping
Liu et al. Fuzzy C-means algorithm based on standard mahalanobis distances
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN109190660A (zh) 基于条件互信息的特征选择与评价方法
CN111325264A (zh) 一种基于熵的多标签数据分类方法
Genender-Feltheimer Visualizing high dimensional and big data
Aggarwal Instance-Based Learning: A Survey.
Yang et al. Density clustering with divergence distance and automatic center selection
CN105183792B (zh) 一种基于局部敏感哈希的分布式快速文本分类方法
Lou et al. Robust multi-label relief feature selection based on fuzzy margin co-optimization
Gyoten et al. Imbalanced data classification procedure based on SMOTE
Song et al. A large-scale k-nearest neighbor classification algorithm based on neighbor relationship preservation
Mandal et al. Unsupervised non-redundant feature selection: a graph-theoretic approach
Yukinawa et al. Optimal aggregation of binary classifiers for multiclass cancer diagnosis using gene expression profiles
Dubey et al. Hybrid classification model of correlation-based feature selection and support vector machine
Wang et al. Shapelet classification algorithm based on efficient subsequence matching
CN111401783A (zh) 一种电力系统运行数据集成特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231208

Address after: 4702, Jinzhonghuan International Business Building, No. 3037 Jintian Road, Fu'an Community, Futian Street, Futian District, Shenzhen City, Guangdong Province, 518000

Applicant after: Hippo Internet Information Technology (Shenzhen) Co.,Ltd.

Address before: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant before: Shenzhen Wanzhida Technology Co.,Ltd.

Effective date of registration: 20231208

Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Wanzhida Technology Co.,Ltd.

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Applicant before: XI'AN University OF TECHNOLOGY

GR01 Patent grant
GR01 Patent grant