CN110766042B - 一种基于最大相关最小冗余的多标记特征选择方法及装置 - Google Patents
一种基于最大相关最小冗余的多标记特征选择方法及装置 Download PDFInfo
- Publication number
- CN110766042B CN110766042B CN201910849299.0A CN201910849299A CN110766042B CN 110766042 B CN110766042 B CN 110766042B CN 201910849299 A CN201910849299 A CN 201910849299A CN 110766042 B CN110766042 B CN 110766042B
- Authority
- CN
- China
- Prior art keywords
- sample
- feature
- samples
- features
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 239000000039 congener Substances 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000011156 evaluation Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 5
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 241000219357 Cactaceae Species 0.000 description 1
- 241000282836 Camelus dromedarius Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于最大相关最小冗余的多标记特征选择方法及装置,属于数据分类技术领域。本发明首先利用标记权重确定特征权重,根据特征权重选取对分类结果影响较大的特征,减少了后续计算量,然后,将各样本的分类间隔作为动态邻域半径,确定对应的邻域精度,并将该邻域精度作为参数改变最大相关最小冗余中互信息,解决了目前的最大相关最小冗余特征选择方法中只考虑相关程度的,导致计算的互信息值不够准确,进而影响特征选择的问题,提高了特征选择的有效性。
Description
技术领域
本发明涉及一种基于最大相关最小冗余的多标记特征选择方法及装置,属于数据分类技术领域。
背景技术
多标记学习是模式识别、机器学习、数据挖掘及数据分析等领域的研究热点之一。在传统的监督学习框架中,认为每个样本是具有明确的、单一的语义标记。但在现实生活中,每个样本不仅只有一个语义标注,通常呈现出多义性。例如:一篇新闻可能同时被标注为政治、经济、文化;一张风景图可能同时标注沙漠、仙人掌、骆驼等;一首诗歌可能同时具有多种感情色彩,如低沉、欢快等。这类数据的分类被称为多标记学习问题。多标记学习在现实生活中被广泛应用,并逐渐引起了研究人员的关注。
在多标记学习中,通常会涉及到数据的高维性。数据的高维性可能会造成维数灾难,严重干扰多标记分类器的分类性能。降维技术是解决该问题的有效手段,可以有效提升分类任务的效率和性能。常见的多标记特征降维方法主要包括特征提取和特征选择。前者是通过转换或映射方法,将原始高维特征转换为一个新的低维特征空间。后者根据一定的评价准则,从原始特征空间中选取一组最相关且较小的特征子集。相比于特征提取将特征空间进行了转换从而导致新的特征失去了其原始物理意义,特征选择方法则更为有效。
目前,针对多标记数据的特征选择已提出一些方法,如线性判别分析(LinearDiscriminant Analysis,LDA)、典型相关分析(Canonical Correlation Analysis,CCA)、偏最小二乘法(Partial Least Squares,PLS)、通过相关性最大化降低多标签维度法(Multilabel Dimensionality Reduction via Dependence Maximization,MDDM)、多标记朴素贝叶斯算法(Multiple Markup Naive Bayesian Algorithm,MLNB)、多标记嵌入式特征选择方法(Multi-label Embedded Feature Selection,MEFS)、基于信息熵的多标签特征选择算法(Multi-label Feature Selection Algorithm Based Informationentropy,MLFSIE)等,其中LDA把多标记问题转化为单标记问题,忽略标记之间的关联,将处理单标记数据降维的方法直接应用于多标记;CCA在原始单标记降维方法的基础上,将多标记分类学习中特征和标记空间作为看待样本的两个视角;PLS与CCA相似,使用核矩阵方法,得到一个降维后的、与原始数据相同维度的新矩阵,但不能获得一个新的特征子空间;MDDM通过映射降维和子空间降维两种映射策略进行降维,每种策略可以分别使用线性核和非线性核,而这种映射仍采用核矩阵;MLNB基于主成分分析法PCA和遗传算法GA,同时利用贝叶斯分类器的方法实现特征提取,但是由于使用PCA,这种方法只能应用于特征值连续的数据;MEFS使用基于预报风险的嵌入式特征选择方法,对每个特征进行了评价,最终得到最佳的特征子集,但这种方法与分类器和评价指标紧密相连,从而导致时间复杂度大、降维效率低,MLFSIE利用特征和标记之间的信息增益删除不相关的特征,但特征之间的相互关系被忽略。因此,目前的多标记特征选择方法均不能保证特征选择的有效性。
发明内容
本发明的目的是提供一种基于最大相关最小冗余的多标记特征选择方法及装置,以解决目前多标记特征选择算法所选择特征有效性低的问题。
本发明为解决上述技术问题而提供一种基于最大相关最小冗余的多标记特征选择方法,该选择方法包括以下步骤:
1)计算样本与其对应的最近的同类样本和最近的异类样本在特征空间的距离计算各标记权重;
2)根据得到各标记权重和特征下样本在标记中与其最近的异类样本和最近的同类样本的距离计算各特征的权重,选取权重较大的特征组成特征集合;
3)计算不同样本的分类间隔,并以此分类间隔作为动态邻域半径,计算邻域精度;
4)根据得到的邻域精度计算所述特征集合中特征和目标类别之间的互信息以及特征之间的互信息,确定最大相关和最小冗余,并以此确定特征选择标准,实现对特征的选择。
本发明还提供了一种基于最大相关最小冗余的多标记特征选择装置,其特征在于,所述的选择装置包括存储器和处理器,以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器与所述存储器相耦合,所述处理器执行所述计算机程序时实现本发明的基于最大相关最小冗余的多标记特征选择方法。
本发明首先利用标记权重确定特征权重,根据特征权重选取对分类结果影响较大的特征,减少了后续计算量,然后,将各样本的分类间隔作为动态邻域半径,确定对应的邻域精度,并将该邻域精度作为参数改变最大相关最小冗余中互信息,解决了目前的最大相关最小冗余特征选择方法中只考虑相关程度的,导致计算的互信息值不够准确,进而影响特征选择的问题,提高了特征选择的有效性。
进一步地,为避免标记权重距离极端化的问题,所述步骤1)中标记权重的计算公式为:
其中,wl表示标记l的权重,n为样本的个数,NHS(xi)表示在样本空间U中与样本xi距离最近的异类样本,NSS(xi)表示在样本空间U中与样本xi最近的同类样本,ΔF(x,y)表示样本和样本在特征空间F上的距离,|HS(xi)|表示在样本空间U中样本xi的异类样本的个数,|SS(xi)|表示在样本空间U中样本xi的同类样本的个数。
其中,wl表示标记l的权重,df(xi,NHSl(xi))和df(xi,NSSl(xi))分别表示在特征f下样本xi在类别标记l中与其最近的异类样本的距离和最近的同类样本的距离,|SSl(xi)|表示在类别标记l下样本空间U中样本xi的同类样本的个数,|HSl(xi)|表示在类别标记l下样本空间U中样本xi的异类样本的个数,n为样本的个数。
进一步地,为了避免得到的样本间隔距离极端化的问题,所述不同样本的分类间隔的计算公式为:
其中ml(xi)表示样本xi在标记l下的分类间隔,NSSl(xi)表示在类别标记l下样本空间U中与样本xi最近的同类样本,NHSl(xi)表示在类别标记l下样本空间U中与样本xi最近的异类样本,Δ(xi,NHSl(xi))和Δ(xi,NSSl(xi))则分别表示样本点xi到NHSl(xi)和NSSl(xi)的距离。
进一步地,所述的邻域精度计算公式为:
进一步地,为了提高互信息的准确性,特征和目标类别之间的互信息以及特征之间的互信息分别为:
其中Sm为具有m个特征的数据集,fi,fj∈Sm,c为类别标记集合,p(fi,c)为特征fi和标记c之间的联合概率密度,p(fi)为特征fi的概率密度,p(c)为标记c的概率密度,p(fi,fj)为特征fi和特征fj之间的联合概率密度,p(fj)为特征fj的概率密度,I为互信息函数,ρ为邻域精度。
附图说明
图1是本发明基于最大相关最小冗余的多标记特征选择方法的流程图;
图2-a是本发明中标记l1在F下对样本的分类结果示意图;
图2-b是本发明中标记l2在F下对样本的分类结果示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步地说明。
本发明多标记特征的选择方法的实施例
本发明首先计算所有标记下的标记权重,用来表示标记的重要性,然后根据标记权重确定特征的权重,并根据特征权重对特征进行排序,产生新的特征排序,并从中选取一部分特征组成特征集合;再计算每一个样本的分类间隔,将样本的分类间隔作为动态的邻域半径确定出每一个样本的邻域,根据样本的邻域选出上近似集合和下近似集合,计算邻域精度;最后根据精确度计算互信息,得到最大相关最小冗余,并对最大相关最小冗余的特征选择标准进行排序,得到最优特征子集。本发明的数据多标记特征的选择方法能够适用于各领域,包括但不限于文本分类、基因功能分类、图像标注、视频自动注释等。下面以文本分类领域为例,对本发明的具体实施过程进行说明,该方法的具体实现流程如图1所示,具体实施步骤如下:
1.计算样本的标记权重和特征权重,并按特征权重进行特征选择。
在多标记学习框架中,每个样本可能隶属于多个类别标记,每个类别标记在同一特征空间中会对样本产生不同的分类。为了更加形象地刻画不同标记在同一特征空间中对样本产生的分类情况,采用以下实例进行说明。假设给定一个具体的训练样本U={x1,x2,…,xn},描述样本的特征空间F={f1,f2,…,fd},样本可能隶属于标记集合L={l1,l2}。假设标记“+”的样本属于第一类,标记为“*”的样本属于第二类。如图2-a所示,在特征空间F下,训练样本U在类别标记l1中被划分为两类,{x1,x4,x5}属于第一类,{x2,x3,x6}属于第二类;如图2-b所示,对于类别标记l2,在同一特征空间F下,训练样本U被划分为两类,{x2,x4,x5,x6}属于第一类,{x1,x3}属于第二类。
显然,不同类别标记在同一特征空间F下对样本的可分性是各不相同的,根据每个类别标记对样本可分性的不同,利用分类间隔对标记赋予一定的权重,以此衡量每个标记对样本的可区分性程度。
对于给定的一个多标记决策表NDT=<U,F,D>,U={x1,x2,…,xn}表示样本空间,F={f1,f2,…,fd}和L={l1,l2,…,lt}分别表示描述样本的一组特征和标记集合,对于在特征空间F下对类别标记l赋予的权重为:
其中距离函数定义为:
其中NHS(xi)表示在样本空间U中与样本xi距离最近的异类样本,NSS(xi)表示在样本空间U中与样本xi最近的同类样本,ΔF(x,y)表示样本和样本在特征空间F上的距离,x(f)和y(f)分别表示样本x和y在特征f上的特征值。
类别标记在特征空间中对样本的分类间隔越大,对应的标记权重越大,说明该标记对样本的可分性越强;反之,若在同一特征空间中样本的分类间隔越小,则对应的标记权重也相应越小,说明该类别标记对样本的可分性越弱。
ml(xi)=Δ(xi,NHSl(xi))-Δ(xi,NSSl(xi))
其中NSSl(xi)表示在类别标记l下样本空间U中与样本xi最近的同类样本,NHSl(xi)表示在类别标记l下样本空间U中与样本xi最近的异类样本,Δ(xi,NHSl(xi))和Δ(xi,NSSl(xi))则分别表示样本点xi到NHSl(xi)和NSSl(xi)的距离。
最大化w2=1,在类别标记集合L下,通过最大化间隔对特征赋予权值,则特征f的权值wf为:
可化简为:
其中df(xi,NHSl(xi))和df(xi,NSSl(xi))分别表示在特征f下样本xi在类别标记l中与其最近的异类样本的距离和最近的同类样本的距离。若在类别标记l下,样本xi不存在与其最近的异类样本,则令df(xi,NHSl(xi))=0;若样本xi在类别标记l下,不存在与其最近的同类样本,则令df(xi,NSSl(xi))=0。
其中距离df(x,y)表示为:
其中,x(f)和y(f)分别表示样本x和y在特征f上的特征值,max(f)和min(f)分别表示特征f在样本空间中取得的最大值和最小值。
通过上述方式虽然能够得到标记权重、特征权重和分类间隔,但是在异类样本过多时样本与异类样本的距离的累计值会过大,同类样本过多时样本与同类样本的距离的累计值会过大,为此,本发明为消除异类样本过多、同类样本过多而产生距离极端化的影响,在计算分类间隔、标记权重和特征权重时,均除以了异类样本和同类样本个数。改进后的标记权重、分类间隔和特征权重公式如下:
其中|HS(xi)|表示在样本空间U中样本xi的异类样本的个数,|SS(xi)|表示在样本空间U中样本xi的同类样本的个数。
按照改进后的标记权重和特征权重计算公式得到特征权重,按照特征权重进行降序排序,产生新的特征排序,并选取一部分权重较大特征构成特征集合,权重较大是一个相对概念,可根据实际情况自行选却。
2.根据分类间隔计算邻域精度。
在多标记学习中,将属性集可以清楚地将样本分在每一个标记类别中的能力通过多标记邻域粗糙集的下近似形式表示。根据样本的分类间隔确定样本的邻域,对于给定当样本xi在标记l下的分类间隔ml(xi)≥0,则xi的邻域表示为:
δl(xi)={yj|Δ(xi,yj)≤ml(xi),yj∈U}
在多标记邻域决策系统MNDT=<U,C∪D>中,标记集合L={l1,l2,…,lt},Dj表示样本xi所具有的标记集合,给定C是条件属性集合,B是条件属性集合的子集,D是分类决策属性集合。多标记邻域粗糙集的近似空间表示为:
3.根据邻域精度按照最大相关最小冗余原则对特征集合中的特征进行再次选择。
最大相关最小冗余是基于互信息的特征选择方法,它根据最大统计依赖性准则来选择特征。从特征空间中寻找与目标类别有最大相关性且相互之间具有最少冗余性的m个特征,最大相关最小冗余的定义如下:
特征选择就是要找到一个含有m个特征的特征子集S,对于类别c来说,它对这m个特征有最大依赖性,即最大依赖性准则,最大依赖性准则在度量特征与类别的关系的时候,要使特征子集与相应的类别有最大相关性,即最大相关原则,表示如下:
其中I(fi;c)表示特征fi和目标类别c之间的互信息;I(fi;fj)是特征fi和特征fj之间的互信息。
其中两个随机变量x和y之间的互信息根据其概率密度函数p(x)、p(y)、p(x,y)有关,具体表示为:
对于特征fi和目标类别c,互信息表示为:
对于特征fi与特征fj,互信息表示为:
上述互信息的计算虽然考虑了特征和标记之间的相关程度与特征和特征之间的相关程度,并没有考虑到特征集相对于整体样本的表达能力,而且当互信息值普遍较大时,它对于衡量特征和标记之间的关联性没有效果,将会失去原有的意义。为此,本发明对互信息公式做了如下改进,即在互信息计算时考虑了精确度,改进后的互信息计算公式为:
在现有互信息公式上乘精确度,这个精确度能很好地反映特征集对于样本的表达能力,且会适当缩小互信息的范围,使得计算出来的互信息值更加精确,有更高的准确度。
在根据改进后的互信息计算公式的基础上,计算特征与标记之间的最大相关和最小冗余,按照最大相关最小冗余的特征选择标准对步骤1得到的特征集合中的特征进行特征选择,得到最优特征集合,实现最优特征选择。
上述过程用计算机程序可以描述为:
输入:多标记数据集D
输出:特征排序rank
10.对得到的特征权重进行排序,得到一组特征排序,选取一定特征集合;
11.对每一个样本计算分类间隔;
12.将样本的分类间隔作为动态的邻域半径,找出每一个样本的邻域;
13.计算上近似和下近似个数,计算精度;
14.计算特征与标记之间的相关性和特征与特征之间的冗余性,从而得到筛选标准;
15.对最大相关最小冗余的特征选择标准进行排序,得到最优特征子集。
装置实施例
本发明的基于最大相关最小冗余的多标记特征选择装置包括存储器和处理器,以及存储在存储器上并在处理器上运行的计算机程序,处理器与存储器相耦合,处理器执行计算机程序时本发明基于最大相关最小冗余的多标记特征选择方法,具体过程已在方法实施例中进行了详述,这里不再赘述。
实验验证
为了验证本发明的有效性,下面在MATLAB平台上进行对本发明的效果进行实验,同时实验全部在3.60GHz的处理器运行,选取酵母(Yeast)数据集进行实验,数据集相应的描述信息如表1所列,数据集来自http://mulan.sourceforge.net/datasets.html。
表1
实验令测试集为根据预测函数fl(x)可定义排序函数为rankf(x,l)∈{1,…,L}。将Average Precision(AP),Ranking Loss(RL),HammingLoss(HL),oneError(OE)作为分类性能的评价指标。
Average Precision(AP):用于考察所有样本的预测标记排序中位置排在该样本标记前面的标记仍属于该样本标记概率的平均,定义为:
Ranking Loss(RL):用来考察所有样本的不相关标记的排序排在相关标记前面的概率的平均,定义为:
Hamming Loss(HL):用来度量样本在单个类别标记上的误分类的情况,定义为:
oneError(OE):表示样本类标记排序中,排在前面的标记但不属于相关标记集合的概率:
其中,Ri={l|Yil=+1}表示与样本xi相关的标记构成的集合,Ri={l|Yil=-1}表示与样本xi不相关的标记集合。
AP指标取值越大,说明分类的性能越优,最优值为1;RL、HL以及OE的指标取值越小,说明分类的性能越优,最优值为0。
为了充分验证本发明的有效性,从不同角度选择了4种对比算法,包括采用Zhang和Zhou撰写的《Multilabel dimensionality reduction via dependence maximization》(ACM Transactions on Knowledge Discovery from Data(TKDD),2010,4(3):14.)(MDDMspc、MDDMproj)、采用N.S.or.E.Cherman,M.Monard,H.Lee,Relieff for multi-label feature selection,in:Intelligent Systems(BRACIS),2013BrazilianConference on.IEEE,2013.pp.6-11.(RF-ML)、采用J.Lee,D.Kim.Feature selection formulti-label classification using multivariate mutual information.PartternRecognit.Lett.34(3)(2013)349-357.(PMU)。本实验采用Zhang和Zhou撰写的《ML-KNN:Alazy learning approach to multi-label learning》(Pattern recognition,2007,40(7):2038-2048.)(ML-kNN)来评估特征选择后的数据,将ML-KNN的平滑参数s设置为1,近邻个数k设置为10。实验比较了各种算法诱导出来的特征子集的分类性能。其中,MDDMspc、MDDMproj、RF-ML、PMU和本发明得到的是一组特征排序,因此在实验中将取前k个特征作为特征子集,实验结果如表2所示。
表2
对于给定的评价指标,符号“↑”表示该评价指标的取值越大,分类性能越优;符号“↓”表示该评价指标的取值越小,分类性能越优;此外,用黑体表示各算法中性能最优的结果。
根据表2的结果显示:
(1)对于AP评价指标,本发明在Yeast数据集上取得的分类精度为最高,即分类性能取得最优,其次为PMU和RF-ML,最后为MDDMspc和MDDMproj。
(2)对于HL和RL评价指标,本发明在Yeast数据集上取得的损失值最小,不相关标记排在相关标记前面的概率最小,即本算法取得的分类性能高于MDDMspc,MDDMproj,RF-ML和PMU算法。
(3)对于OE评价指标,本发明的性能略低于PMU,但仅相差0.0024,相对来说相差较小,同时对于PMU的四个指标,只有1个指标较本算法优,所以本发明较好。
总之,从特征子集诱导出来的分类性能上看,本发明的分类性能排第一位,其次是PMU算法和RF-ML算法,最后是MDDMspc算法和MDDMproj算法,可以看出本发明的有效性。
Claims (5)
1.一种基于最大相关最小冗余的多标记特征选择方法,其特征在于,该选择方法包括以下步骤:
1)计算样本与其对应的最近的同类样本和最近的异类样本在特征空间的距离计算各标记权重;
2)根据得到各标记权重和特征下样本在标记中与其最近的异类样本和最近的同类样本的距离计算各特征的权重,选取权重较大的特征组成特征集合;
3)计算不同样本的分类间隔,并以此分类间隔作为动态邻域半径,计算邻域精度,所述的邻域精度计算公式为:
4)根据得到的邻域精度计算所述特征集合中特征和目标类别之间的互信息以及特征之间的互信息,确定最大相关和最小冗余,并以此确定特征选择标准,实现对特征的选择;特征和目标类别之间的互信息以及特征之间的互信息分别为:
其中Sm为具有m个特征的数据集,fi,fj∈Sm,c为类别标记集合,p(fi,c)为特征fi和标记c之间的联合概率密度,p(fi)为特征fi的概率密度,p(c)为标记c的概率密度,p(fi,fj)为特征fi和特征fj之间的联合概率密度,p(fj)为特征fj的概率密度,I为互信息函数,ρ为邻域精度。
5.一种基于最大相关最小冗余的多标记特征选择装置,其特征在于,所述的选择装置包括存储器和处理器,以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器与所述存储器相耦合,所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的基于最大相关最小冗余的多标记特征选择方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910849299.0A CN110766042B (zh) | 2019-09-09 | 2019-09-09 | 一种基于最大相关最小冗余的多标记特征选择方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910849299.0A CN110766042B (zh) | 2019-09-09 | 2019-09-09 | 一种基于最大相关最小冗余的多标记特征选择方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110766042A CN110766042A (zh) | 2020-02-07 |
CN110766042B true CN110766042B (zh) | 2023-04-07 |
Family
ID=69329637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910849299.0A Expired - Fee Related CN110766042B (zh) | 2019-09-09 | 2019-09-09 | 一种基于最大相关最小冗余的多标记特征选择方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110766042B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553127B (zh) * | 2020-04-03 | 2023-11-24 | 河南师范大学 | 一种多标记的文本类数据特征选择方法及装置 |
CN114091558A (zh) * | 2020-07-31 | 2022-02-25 | 中兴通讯股份有限公司 | 特征选择方法、装置、网络设备和计算机可读存储介质 |
CN114187132A (zh) * | 2020-09-14 | 2022-03-15 | 国网甘肃省电力公司 | 一种变电站监控信息特征选择方法、存储介质和设备 |
CN112364629A (zh) * | 2020-11-27 | 2021-02-12 | 苏州大学 | 基于去冗余互信息特征选择的文本分类系统及方法 |
CN113535947B (zh) * | 2021-05-21 | 2024-10-15 | 河南师范大学 | 一种带有缺失标记的不完备数据的多标记分类方法及装置 |
CN113362920B (zh) * | 2021-06-15 | 2023-04-18 | 电子科技大学 | 基于临床数据的特征选择方法及装置 |
CN113887476A (zh) * | 2021-10-19 | 2022-01-04 | 中用科技有限公司 | 一种设备健康状态信号采集及多域特征融合方法 |
CN114266396A (zh) * | 2021-12-21 | 2022-04-01 | 国网天津市电力公司 | 一种基于电网特征智能筛选的暂态稳定判别方法 |
CN118092403A (zh) * | 2024-04-23 | 2024-05-28 | 广汽埃安新能源汽车股份有限公司 | 电控检测模型训练方法、电控系统检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820841A (zh) * | 2015-05-08 | 2015-08-05 | 西安电子科技大学 | 基于低阶互信息和光谱上下文波段选择的高光谱分类方法 |
CN106971205A (zh) * | 2017-04-06 | 2017-07-21 | 哈尔滨理工大学 | 一种基于k近邻互信息估计的嵌入式动态特征选择方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140207764A1 (en) * | 2013-01-21 | 2014-07-24 | International Business Machines Corporation | Dynamic feature selection with max-relevancy and minimum redundancy criteria |
-
2019
- 2019-09-09 CN CN201910849299.0A patent/CN110766042B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820841A (zh) * | 2015-05-08 | 2015-08-05 | 西安电子科技大学 | 基于低阶互信息和光谱上下文波段选择的高光谱分类方法 |
CN106971205A (zh) * | 2017-04-06 | 2017-07-21 | 哈尔滨理工大学 | 一种基于k近邻互信息估计的嵌入式动态特征选择方法 |
Non-Patent Citations (2)
Title |
---|
一种基于邻域粗糙集的多标记专属特征选择方法;孙林等;《计算机科学》(第01期);全文 * |
基于邻域互信息最大相关性最小冗余度的特征选择;林培榕;《漳州师范学院学报(自然科学版)》(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110766042A (zh) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110766042B (zh) | 一种基于最大相关最小冗余的多标记特征选择方法及装置 | |
CN110837836B (zh) | 基于最大化置信度的半监督语义分割方法 | |
CN106095893B (zh) | 一种跨媒体检索方法 | |
CN110647907B (zh) | 利用多层分类和字典学习的多标签图像分类算法 | |
Kuznetsova et al. | Expanding object detector's horizon: Incremental learning framework for object detection in videos | |
CN105808752B (zh) | 一种基于cca和2pknn的自动图像标注方法 | |
CN110942091B (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
CN113706547B (zh) | 一种基于类别同异性引导的无监督域适应语义分割方法 | |
CN109376796A (zh) | 基于主动半监督学习的图像分类方法 | |
CN102208038A (zh) | 基于视觉词典的图像分类方法 | |
JP6680956B1 (ja) | 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法 | |
CN111931562A (zh) | 一种基于软标签回归的无监督特征选择方法和系统 | |
CN111027636B (zh) | 基于多标签学习的无监督特征选择方法及系统 | |
CN114329031B (zh) | 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法 | |
Zhang et al. | A multiple instance learning approach for content based image retrieval using one-class support vector machine | |
CN113486902A (zh) | 基于元学习的三维点云分类算法自动选择方法 | |
US20110081074A1 (en) | Method of Computing Global-to-Local Metrics for Recognition | |
CN116863177A (zh) | 一种面向通用多视图对象聚类的对象视图蒸馏方法 | |
CN114357307B (zh) | 一种基于多维度特征的新闻推荐方法 | |
Podsiadlo et al. | Development of advanced quantitative analysis methods for wear particle characterization and classification to aid tribological system diagnosis | |
CN103488744B (zh) | 一种大数据图像分类方法 | |
Harada et al. | Image annotation and retrieval for weakly labeled images using conceptual learning | |
CN109284375A (zh) | 一种基于原始数据信息保留的域自适应降维方法 | |
Wu et al. | Dual-view data hallucination with semantic relation guidance for few-shot image recognition | |
CN107607723A (zh) | 一种基于随机投影集成分类的蛋白质间相互作用测定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230407 |