CN110766042B - 一种基于最大相关最小冗余的多标记特征选择方法及装置 - Google Patents

一种基于最大相关最小冗余的多标记特征选择方法及装置 Download PDF

Info

Publication number
CN110766042B
CN110766042B CN201910849299.0A CN201910849299A CN110766042B CN 110766042 B CN110766042 B CN 110766042B CN 201910849299 A CN201910849299 A CN 201910849299A CN 110766042 B CN110766042 B CN 110766042B
Authority
CN
China
Prior art keywords
sample
feature
samples
features
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910849299.0A
Other languages
English (en)
Other versions
CN110766042A (zh
Inventor
孙林
黄苗苗
张正玲
翟崇
王静
王蒙蒙
张玖肖
王欣雅
王天翔
黄金旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Normal University
Original Assignee
Henan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Normal University filed Critical Henan Normal University
Priority to CN201910849299.0A priority Critical patent/CN110766042B/zh
Publication of CN110766042A publication Critical patent/CN110766042A/zh
Application granted granted Critical
Publication of CN110766042B publication Critical patent/CN110766042B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于最大相关最小冗余的多标记特征选择方法及装置,属于数据分类技术领域。本发明首先利用标记权重确定特征权重,根据特征权重选取对分类结果影响较大的特征,减少了后续计算量,然后,将各样本的分类间隔作为动态邻域半径,确定对应的邻域精度,并将该邻域精度作为参数改变最大相关最小冗余中互信息,解决了目前的最大相关最小冗余特征选择方法中只考虑相关程度的,导致计算的互信息值不够准确,进而影响特征选择的问题,提高了特征选择的有效性。

Description

一种基于最大相关最小冗余的多标记特征选择方法及装置
技术领域
本发明涉及一种基于最大相关最小冗余的多标记特征选择方法及装置,属于数据分类技术领域。
背景技术
多标记学习是模式识别、机器学习、数据挖掘及数据分析等领域的研究热点之一。在传统的监督学习框架中,认为每个样本是具有明确的、单一的语义标记。但在现实生活中,每个样本不仅只有一个语义标注,通常呈现出多义性。例如:一篇新闻可能同时被标注为政治、经济、文化;一张风景图可能同时标注沙漠、仙人掌、骆驼等;一首诗歌可能同时具有多种感情色彩,如低沉、欢快等。这类数据的分类被称为多标记学习问题。多标记学习在现实生活中被广泛应用,并逐渐引起了研究人员的关注。
在多标记学习中,通常会涉及到数据的高维性。数据的高维性可能会造成维数灾难,严重干扰多标记分类器的分类性能。降维技术是解决该问题的有效手段,可以有效提升分类任务的效率和性能。常见的多标记特征降维方法主要包括特征提取和特征选择。前者是通过转换或映射方法,将原始高维特征转换为一个新的低维特征空间。后者根据一定的评价准则,从原始特征空间中选取一组最相关且较小的特征子集。相比于特征提取将特征空间进行了转换从而导致新的特征失去了其原始物理意义,特征选择方法则更为有效。
目前,针对多标记数据的特征选择已提出一些方法,如线性判别分析(LinearDiscriminant Analysis,LDA)、典型相关分析(Canonical Correlation Analysis,CCA)、偏最小二乘法(Partial Least Squares,PLS)、通过相关性最大化降低多标签维度法(Multilabel Dimensionality Reduction via Dependence Maximization,MDDM)、多标记朴素贝叶斯算法(Multiple Markup Naive Bayesian Algorithm,MLNB)、多标记嵌入式特征选择方法(Multi-label Embedded Feature Selection,MEFS)、基于信息熵的多标签特征选择算法(Multi-label Feature Selection Algorithm Based Informationentropy,MLFSIE)等,其中LDA把多标记问题转化为单标记问题,忽略标记之间的关联,将处理单标记数据降维的方法直接应用于多标记;CCA在原始单标记降维方法的基础上,将多标记分类学习中特征和标记空间作为看待样本的两个视角;PLS与CCA相似,使用核矩阵方法,得到一个降维后的、与原始数据相同维度的新矩阵,但不能获得一个新的特征子空间;MDDM通过映射降维和子空间降维两种映射策略进行降维,每种策略可以分别使用线性核和非线性核,而这种映射仍采用核矩阵;MLNB基于主成分分析法PCA和遗传算法GA,同时利用贝叶斯分类器的方法实现特征提取,但是由于使用PCA,这种方法只能应用于特征值连续的数据;MEFS使用基于预报风险的嵌入式特征选择方法,对每个特征进行了评价,最终得到最佳的特征子集,但这种方法与分类器和评价指标紧密相连,从而导致时间复杂度大、降维效率低,MLFSIE利用特征和标记之间的信息增益删除不相关的特征,但特征之间的相互关系被忽略。因此,目前的多标记特征选择方法均不能保证特征选择的有效性。
发明内容
本发明的目的是提供一种基于最大相关最小冗余的多标记特征选择方法及装置,以解决目前多标记特征选择算法所选择特征有效性低的问题。
本发明为解决上述技术问题而提供一种基于最大相关最小冗余的多标记特征选择方法,该选择方法包括以下步骤:
1)计算样本与其对应的最近的同类样本和最近的异类样本在特征空间的距离计算各标记权重;
2)根据得到各标记权重和特征下样本在标记中与其最近的异类样本和最近的同类样本的距离计算各特征的权重,选取权重较大的特征组成特征集合;
3)计算不同样本的分类间隔,并以此分类间隔作为动态邻域半径,计算邻域精度;
4)根据得到的邻域精度计算所述特征集合中特征和目标类别之间的互信息以及特征之间的互信息,确定最大相关和最小冗余,并以此确定特征选择标准,实现对特征的选择。
本发明还提供了一种基于最大相关最小冗余的多标记特征选择装置,其特征在于,所述的选择装置包括存储器和处理器,以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器与所述存储器相耦合,所述处理器执行所述计算机程序时实现本发明的基于最大相关最小冗余的多标记特征选择方法。
本发明首先利用标记权重确定特征权重,根据特征权重选取对分类结果影响较大的特征,减少了后续计算量,然后,将各样本的分类间隔作为动态邻域半径,确定对应的邻域精度,并将该邻域精度作为参数改变最大相关最小冗余中互信息,解决了目前的最大相关最小冗余特征选择方法中只考虑相关程度的,导致计算的互信息值不够准确,进而影响特征选择的问题,提高了特征选择的有效性。
进一步地,为避免标记权重距离极端化的问题,所述步骤1)中标记权重的计算公式为:
Figure BDA0002196367970000031
其中,wl表示标记l的权重,n为样本的个数,NHS(xi)表示在样本空间U中与样本xi距离最近的异类样本,NSS(xi)表示在样本空间U中与样本xi最近的同类样本,ΔF(x,y)表示样本和样本在特征空间F上的距离,|HS(xi)|表示在样本空间U中样本xi的异类样本的个数,|SS(xi)|表示在样本空间U中样本xi的同类样本的个数。
进一步地,为避免得到的特征权重距离极端化的问题,所述特征的权值计算公式为:
Figure BDA0002196367970000041
其中,wl表示标记l的权重,df(xi,NHSl(xi))和df(xi,NSSl(xi))分别表示在特征f下样本xi在类别标记l中与其最近的异类样本的距离和最近的同类样本的距离,|SSl(xi)|表示在类别标记l下样本空间U中样本xi的同类样本的个数,|HSl(xi)|表示在类别标记l下样本空间U中样本xi的异类样本的个数,n为样本的个数。
进一步地,为了避免得到的样本间隔距离极端化的问题,所述不同样本的分类间隔的计算公式为:
Figure BDA0002196367970000042
其中ml(xi)表示样本xi在标记l下的分类间隔,NSSl(xi)表示在类别标记l下样本空间U中与样本xi最近的同类样本,NHSl(xi)表示在类别标记l下样本空间U中与样本xi最近的异类样本,Δ(xi,NHSl(xi))和Δ(xi,NSSl(xi))则分别表示样本点xi到NHSl(xi)和NSSl(xi)的距离。
进一步地,所述的邻域精度计算公式为:
Figure BDA0002196367970000043
其中ρ为邻域精度,|NB D|表示下近似集合元素个数,
Figure BDA0002196367970000044
表示上近似集合元素个数。
进一步地,为了提高互信息的准确性,特征和目标类别之间的互信息以及特征之间的互信息分别为:
Figure BDA0002196367970000045
Figure BDA0002196367970000046
其中Sm为具有m个特征的数据集,fi,fj∈Sm,c为类别标记集合,p(fi,c)为特征fi和标记c之间的联合概率密度,p(fi)为特征fi的概率密度,p(c)为标记c的概率密度,p(fi,fj)为特征fi和特征fj之间的联合概率密度,p(fj)为特征fj的概率密度,I为互信息函数,ρ为邻域精度。
附图说明
图1是本发明基于最大相关最小冗余的多标记特征选择方法的流程图;
图2-a是本发明中标记l1在F下对样本的分类结果示意图;
图2-b是本发明中标记l2在F下对样本的分类结果示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步地说明。
本发明多标记特征的选择方法的实施例
本发明首先计算所有标记下的标记权重,用来表示标记的重要性,然后根据标记权重确定特征的权重,并根据特征权重对特征进行排序,产生新的特征排序,并从中选取一部分特征组成特征集合;再计算每一个样本的分类间隔,将样本的分类间隔作为动态的邻域半径确定出每一个样本的邻域,根据样本的邻域选出上近似集合和下近似集合,计算邻域精度;最后根据精确度计算互信息,得到最大相关最小冗余,并对最大相关最小冗余的特征选择标准进行排序,得到最优特征子集。本发明的数据多标记特征的选择方法能够适用于各领域,包括但不限于文本分类、基因功能分类、图像标注、视频自动注释等。下面以文本分类领域为例,对本发明的具体实施过程进行说明,该方法的具体实现流程如图1所示,具体实施步骤如下:
1.计算样本的标记权重和特征权重,并按特征权重进行特征选择。
在多标记学习框架中,每个样本可能隶属于多个类别标记,每个类别标记在同一特征空间中会对样本产生不同的分类。为了更加形象地刻画不同标记在同一特征空间中对样本产生的分类情况,采用以下实例进行说明。假设给定一个具体的训练样本U={x1,x2,…,xn},描述样本的特征空间F={f1,f2,…,fd},样本可能隶属于标记集合L={l1,l2}。假设标记“+”的样本属于第一类,标记为“*”的样本属于第二类。如图2-a所示,在特征空间F下,训练样本U在类别标记l1中被划分为两类,{x1,x4,x5}属于第一类,{x2,x3,x6}属于第二类;如图2-b所示,对于类别标记l2,在同一特征空间F下,训练样本U被划分为两类,{x2,x4,x5,x6}属于第一类,{x1,x3}属于第二类。
显然,不同类别标记在同一特征空间F下对样本的可分性是各不相同的,根据每个类别标记对样本可分性的不同,利用分类间隔对标记赋予一定的权重,以此衡量每个标记对样本的可区分性程度。
对于给定的一个多标记决策表NDT=<U,F,D>,U={x1,x2,…,xn}表示样本空间,F={f1,f2,…,fd}和L={l1,l2,…,lt}分别表示描述样本的一组特征和标记集合,对于
Figure BDA0002196367970000061
在特征空间F下对类别标记l赋予的权重为:
Figure BDA0002196367970000062
其中距离函数定义为:
Figure BDA0002196367970000063
其中NHS(xi)表示在样本空间U中与样本xi距离最近的异类样本,NSS(xi)表示在样本空间U中与样本xi最近的同类样本,ΔF(x,y)表示样本和样本在特征空间F上的距离,x(f)和y(f)分别表示样本x和y在特征f上的特征值。
类别标记在特征空间中对样本的分类间隔越大,对应的标记权重越大,说明该标记对样本的可分性越强;反之,若在同一特征空间中样本的分类间隔越小,则对应的标记权重也相应越小,说明该类别标记对样本的可分性越弱。
对于
Figure BDA0002196367970000064
是给定样本,则样本在标记l下的分类间隔表示为:
ml(xi)=Δ(xi,NHSl(xi))-Δ(xi,NSSl(xi))
其中NSSl(xi)表示在类别标记l下样本空间U中与样本xi最近的同类样本,NHSl(xi)表示在类别标记l下样本空间U中与样本xi最近的异类样本,Δ(xi,NHSl(xi))和Δ(xi,NSSl(xi))则分别表示样本点xi到NHSl(xi)和NSSl(xi)的距离。
对于
Figure BDA0002196367970000071
w为特征的权重向量,则特征子集的评价函数表示为:
Figure BDA0002196367970000072
最大化w2=1,在类别标记集合L下,通过最大化间隔对特征赋予权值,则特征f的权值wf为:
Figure BDA0002196367970000073
可化简为:
Figure BDA0002196367970000074
其中df(xi,NHSl(xi))和df(xi,NSSl(xi))分别表示在特征f下样本xi在类别标记l中与其最近的异类样本的距离和最近的同类样本的距离。若在类别标记l下,样本xi不存在与其最近的异类样本,则令df(xi,NHSl(xi))=0;若样本xi在类别标记l下,不存在与其最近的同类样本,则令df(xi,NSSl(xi))=0。
其中距离df(x,y)表示为:
Figure BDA0002196367970000075
其中,x(f)和y(f)分别表示样本x和y在特征f上的特征值,max(f)和min(f)分别表示特征f在样本空间中取得的最大值和最小值。
通过上述方式虽然能够得到标记权重、特征权重和分类间隔,但是在异类样本过多时样本与异类样本的距离的累计值会过大,同类样本过多时样本与同类样本的距离的累计值会过大,为此,本发明为消除异类样本过多、同类样本过多而产生距离极端化的影响,在计算分类间隔、标记权重和特征权重时,均除以了异类样本和同类样本个数。改进后的标记权重、分类间隔和特征权重公式如下:
Figure BDA0002196367970000081
Figure BDA0002196367970000082
Figure BDA0002196367970000083
其中|HS(xi)|表示在样本空间U中样本xi的异类样本的个数,|SS(xi)|表示在样本空间U中样本xi的同类样本的个数。
按照改进后的标记权重和特征权重计算公式得到特征权重,按照特征权重进行降序排序,产生新的特征排序,并选取一部分权重较大特征构成特征集合,权重较大是一个相对概念,可根据实际情况自行选却。
2.根据分类间隔计算邻域精度。
在多标记学习中,将属性集可以清楚地将样本分在每一个标记类别中的能力通过多标记邻域粗糙集的下近似形式表示。根据样本的分类间隔确定样本的邻域,对于
Figure BDA0002196367970000084
给定
Figure BDA0002196367970000085
当样本xi在标记l下的分类间隔ml(xi)≥0,则xi的邻域表示为:
δl(xi)={yj|Δ(xi,yj)≤ml(xi),yj∈U}
在多标记邻域决策系统MNDT=<U,C∪D>中,标记集合L={l1,l2,…,lt},Dj表示样本xi所具有的标记集合,给定
Figure BDA0002196367970000086
C是条件属性集合,B是条件属性集合的子集,D是分类决策属性集合。多标记邻域粗糙集的近似空间表示为:
Figure BDA0002196367970000087
Figure BDA0002196367970000091
在多标记邻域决策系统MNDT=〈U,C∪D〉中,决策属性D对U的划分即为U/D={X1,X2,…,XN},对于任意条件属性集
Figure BDA0002196367970000092
U/D相对于B的邻域精度ρ为:
Figure BDA0002196367970000093
3.根据邻域精度按照最大相关最小冗余原则对特征集合中的特征进行再次选择。
最大相关最小冗余是基于互信息的特征选择方法,它根据最大统计依赖性准则来选择特征。从特征空间中寻找与目标类别有最大相关性且相互之间具有最少冗余性的m个特征,最大相关最小冗余的定义如下:
特征选择就是要找到一个含有m个特征的特征子集S,对于类别c来说,它对这m个特征有最大依赖性,即最大依赖性准则,最大依赖性准则在度量特征与类别的关系的时候,要使特征子集与相应的类别有最大相关性,即最大相关原则,表示如下:
Figure BDA0002196367970000094
最小冗余则是特征之间依赖性关系的一种描述,它要求每个特征属性之间的相关性最小,即最小冗余原则,如下:
Figure BDA0002196367970000095
其中I(fi;c)表示特征fi和目标类别c之间的互信息;I(fi;fj)是特征fi和特征fj之间的互信息。
其中两个随机变量x和y之间的互信息根据其概率密度函数p(x)、p(y)、p(x,y)有关,具体表示为:
Figure BDA0002196367970000096
对于特征fi和目标类别c,互信息表示为:
Figure BDA0002196367970000101
对于特征fi与特征fj,互信息表示为:
Figure BDA0002196367970000102
上述互信息的计算虽然考虑了特征和标记之间的相关程度与特征和特征之间的相关程度,并没有考虑到特征集相对于整体样本的表达能力,而且当互信息值普遍较大时,它对于衡量特征和标记之间的关联性没有效果,将会失去原有的意义。为此,本发明对互信息公式做了如下改进,即在互信息计算时考虑了精确度,改进后的互信息计算公式为:
Figure BDA0002196367970000103
Figure BDA0002196367970000104
在现有互信息公式上乘精确度,这个精确度能很好地反映特征集对于样本的表达能力,且会适当缩小互信息的范围,使得计算出来的互信息值更加精确,有更高的准确度。
在根据改进后的互信息计算公式的基础上,计算特征与标记之间的最大相关和最小冗余,按照最大相关最小冗余的特征选择标准对步骤1得到的特征集合中的特征进行特征选择,得到最优特征集合,实现最优特征选择。
上述过程用计算机程序可以描述为:
输入:多标记数据集D
输出:特征排序rank
Figure BDA0002196367970000105
Figure BDA0002196367970000111
10.对得到的特征权重进行排序,得到一组特征排序,选取一定特征集合;
11.对每一个样本计算分类间隔;
12.将样本的分类间隔作为动态的邻域半径,找出每一个样本的邻域;
13.计算上近似和下近似个数,计算精度;
14.计算特征与标记之间的相关性和特征与特征之间的冗余性,从而得到筛选标准;
15.对最大相关最小冗余的特征选择标准进行排序,得到最优特征子集。
装置实施例
本发明的基于最大相关最小冗余的多标记特征选择装置包括存储器和处理器,以及存储在存储器上并在处理器上运行的计算机程序,处理器与存储器相耦合,处理器执行计算机程序时本发明基于最大相关最小冗余的多标记特征选择方法,具体过程已在方法实施例中进行了详述,这里不再赘述。
实验验证
为了验证本发明的有效性,下面在MATLAB平台上进行对本发明的效果进行实验,同时实验全部在3.60GHz的处理器运行,选取酵母(Yeast)数据集进行实验,数据集相应的描述信息如表1所列,数据集来自http://mulan.sourceforge.net/datasets.html。
表1
Figure BDA0002196367970000121
实验令测试集为
Figure BDA0002196367970000122
根据预测函数fl(x)可定义排序函数为rankf(x,l)∈{1,…,L}。将Average Precision(AP),Ranking Loss(RL),HammingLoss(HL),oneError(OE)作为分类性能的评价指标。
Average Precision(AP):用于考察所有样本的预测标记排序中位置排在该样本标记前面的标记仍属于该样本标记概率的平均,定义为:
Figure BDA0002196367970000123
Ranking Loss(RL):用来考察所有样本的不相关标记的排序排在相关标记前面的概率的平均,定义为:
Figure BDA0002196367970000124
Hamming Loss(HL):用来度量样本在单个类别标记上的误分类的情况,定义为:
Figure BDA0002196367970000125
oneError(OE):表示样本类标记排序中,排在前面的标记但不属于相关标记集合的概率:
Figure BDA0002196367970000126
其中,Ri={l|Yil=+1}表示与样本xi相关的标记构成的集合,Ri={l|Yil=-1}表示与样本xi不相关的标记集合。
AP指标取值越大,说明分类的性能越优,最优值为1;RL、HL以及OE的指标取值越小,说明分类的性能越优,最优值为0。
为了充分验证本发明的有效性,从不同角度选择了4种对比算法,包括采用Zhang和Zhou撰写的《Multilabel dimensionality reduction via dependence maximization》(ACM Transactions on Knowledge Discovery from Data(TKDD),2010,4(3):14.)(MDDMspc、MDDMproj)、采用N.S.or.E.Cherman,M.Monard,H.Lee,Relieff for multi-label feature selection,in:Intelligent Systems(BRACIS),2013BrazilianConference on.IEEE,2013.pp.6-11.(RF-ML)、采用J.Lee,D.Kim.Feature selection formulti-label classification using multivariate mutual information.PartternRecognit.Lett.34(3)(2013)349-357.(PMU)。本实验采用Zhang和Zhou撰写的《ML-KNN:Alazy learning approach to multi-label learning》(Pattern recognition,2007,40(7):2038-2048.)(ML-kNN)来评估特征选择后的数据,将ML-KNN的平滑参数s设置为1,近邻个数k设置为10。实验比较了各种算法诱导出来的特征子集的分类性能。其中,MDDMspc、MDDMproj、RF-ML、PMU和本发明得到的是一组特征排序,因此在实验中将取前k个特征作为特征子集,实验结果如表2所示。
表2
Figure BDA0002196367970000131
对于给定的评价指标,符号“↑”表示该评价指标的取值越大,分类性能越优;符号“↓”表示该评价指标的取值越小,分类性能越优;此外,用黑体表示各算法中性能最优的结果。
根据表2的结果显示:
(1)对于AP评价指标,本发明在Yeast数据集上取得的分类精度为最高,即分类性能取得最优,其次为PMU和RF-ML,最后为MDDMspc和MDDMproj。
(2)对于HL和RL评价指标,本发明在Yeast数据集上取得的损失值最小,不相关标记排在相关标记前面的概率最小,即本算法取得的分类性能高于MDDMspc,MDDMproj,RF-ML和PMU算法。
(3)对于OE评价指标,本发明的性能略低于PMU,但仅相差0.0024,相对来说相差较小,同时对于PMU的四个指标,只有1个指标较本算法优,所以本发明较好。
总之,从特征子集诱导出来的分类性能上看,本发明的分类性能排第一位,其次是PMU算法和RF-ML算法,最后是MDDMspc算法和MDDMproj算法,可以看出本发明的有效性。

Claims (5)

1.一种基于最大相关最小冗余的多标记特征选择方法,其特征在于,该选择方法包括以下步骤:
1)计算样本与其对应的最近的同类样本和最近的异类样本在特征空间的距离计算各标记权重;
2)根据得到各标记权重和特征下样本在标记中与其最近的异类样本和最近的同类样本的距离计算各特征的权重,选取权重较大的特征组成特征集合;
3)计算不同样本的分类间隔,并以此分类间隔作为动态邻域半径,计算邻域精度,所述的邻域精度计算公式为:
Figure FDA0004048473870000011
其中ρ为邻域精度,
Figure FDA0004048473870000012
表示下近似集合元素个数,
Figure FDA0004048473870000013
表示上近似集合元素个数;
4)根据得到的邻域精度计算所述特征集合中特征和目标类别之间的互信息以及特征之间的互信息,确定最大相关和最小冗余,并以此确定特征选择标准,实现对特征的选择;特征和目标类别之间的互信息以及特征之间的互信息分别为:
Figure FDA0004048473870000014
Figure FDA0004048473870000015
其中Sm为具有m个特征的数据集,fi,fj∈Sm,c为类别标记集合,p(fi,c)为特征fi和标记c之间的联合概率密度,p(fi)为特征fi的概率密度,p(c)为标记c的概率密度,p(fi,fj)为特征fi和特征fj之间的联合概率密度,p(fj)为特征fj的概率密度,I为互信息函数,ρ为邻域精度。
2.根据权利要求1所述的基于最大相关最小冗余的多标记特征选择方法,其特征在于,所述步骤1)中标记权重的计算公式为:
Figure FDA0004048473870000016
其中,wl表示标记l的权重,n为样本的个数,NHS(xi)表示在样本空间U中与样本xi距离最近的异类样本,NSS(xi)表示在样本空间U中与样本xi最近的同类样本,ΔF(x,y)表示样本和样本在特征空间F上的距离,|HS(xi)|表示在样本空间U中样本xi的异类样本的个数,|SS(xi)|表示在样本空间U中样本xi的同类样本的个数。
3.根据权利要求1所述的基于最大相关最小冗余的多标记特征选择方法,其特征在于,所述特征的权值计算公式为:
Figure FDA0004048473870000021
其中,wl表示标记l的权重,df(xi,NHSl(xi))和df(xi,NSSl(xi))分别表示在特征f下样本xi在类别标记l中与其最近的异类样本的距离和最近的同类样本的距离,|SSl(xi)|表示在类别标记l下样本空间U中样本xi的同类样本的个数,|HSl(xi)|表示在类别标记l下样本空间U中样本xi的异类样本的个数,n为样本的个数。
4.根据权利要求1所述的基于最大相关最小冗余的多标记特征选择方法,其特征在于,所述不同样本的分类间隔的计算公式为:
Figure FDA0004048473870000022
其中ml(xi)表示样本xi在标记l下的分类间隔,NSSl(xi)表示在类别标记l下样本空间U中与样本xi最近的同类样本,NHSl(xi)表示在类别标记l下样本空间U中与样本xi最近的异类样本,Δ(xi,NHSl(xi))和Δ(xi,NSSl(xi))则分别表示样本点xi到NHSl(xi)和NSSl(xi)的距离。
5.一种基于最大相关最小冗余的多标记特征选择装置,其特征在于,所述的选择装置包括存储器和处理器,以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器与所述存储器相耦合,所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的基于最大相关最小冗余的多标记特征选择方法。
CN201910849299.0A 2019-09-09 2019-09-09 一种基于最大相关最小冗余的多标记特征选择方法及装置 Expired - Fee Related CN110766042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910849299.0A CN110766042B (zh) 2019-09-09 2019-09-09 一种基于最大相关最小冗余的多标记特征选择方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910849299.0A CN110766042B (zh) 2019-09-09 2019-09-09 一种基于最大相关最小冗余的多标记特征选择方法及装置

Publications (2)

Publication Number Publication Date
CN110766042A CN110766042A (zh) 2020-02-07
CN110766042B true CN110766042B (zh) 2023-04-07

Family

ID=69329637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910849299.0A Expired - Fee Related CN110766042B (zh) 2019-09-09 2019-09-09 一种基于最大相关最小冗余的多标记特征选择方法及装置

Country Status (1)

Country Link
CN (1) CN110766042B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553127B (zh) * 2020-04-03 2023-11-24 河南师范大学 一种多标记的文本类数据特征选择方法及装置
CN114091558A (zh) * 2020-07-31 2022-02-25 中兴通讯股份有限公司 特征选择方法、装置、网络设备和计算机可读存储介质
CN114187132A (zh) * 2020-09-14 2022-03-15 国网甘肃省电力公司 一种变电站监控信息特征选择方法、存储介质和设备
CN112364629A (zh) * 2020-11-27 2021-02-12 苏州大学 基于去冗余互信息特征选择的文本分类系统及方法
CN113535947B (zh) * 2021-05-21 2024-10-15 河南师范大学 一种带有缺失标记的不完备数据的多标记分类方法及装置
CN113362920B (zh) * 2021-06-15 2023-04-18 电子科技大学 基于临床数据的特征选择方法及装置
CN113887476A (zh) * 2021-10-19 2022-01-04 中用科技有限公司 一种设备健康状态信号采集及多域特征融合方法
CN114266396A (zh) * 2021-12-21 2022-04-01 国网天津市电力公司 一种基于电网特征智能筛选的暂态稳定判别方法
CN118092403A (zh) * 2024-04-23 2024-05-28 广汽埃安新能源汽车股份有限公司 电控检测模型训练方法、电控系统检测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820841A (zh) * 2015-05-08 2015-08-05 西安电子科技大学 基于低阶互信息和光谱上下文波段选择的高光谱分类方法
CN106971205A (zh) * 2017-04-06 2017-07-21 哈尔滨理工大学 一种基于k近邻互信息估计的嵌入式动态特征选择方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140207764A1 (en) * 2013-01-21 2014-07-24 International Business Machines Corporation Dynamic feature selection with max-relevancy and minimum redundancy criteria

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820841A (zh) * 2015-05-08 2015-08-05 西安电子科技大学 基于低阶互信息和光谱上下文波段选择的高光谱分类方法
CN106971205A (zh) * 2017-04-06 2017-07-21 哈尔滨理工大学 一种基于k近邻互信息估计的嵌入式动态特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于邻域粗糙集的多标记专属特征选择方法;孙林等;《计算机科学》(第01期);全文 *
基于邻域互信息最大相关性最小冗余度的特征选择;林培榕;《漳州师范学院学报(自然科学版)》(第04期);全文 *

Also Published As

Publication number Publication date
CN110766042A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN110766042B (zh) 一种基于最大相关最小冗余的多标记特征选择方法及装置
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
CN106095893B (zh) 一种跨媒体检索方法
CN110647907B (zh) 利用多层分类和字典学习的多标签图像分类算法
Kuznetsova et al. Expanding object detector's horizon: Incremental learning framework for object detection in videos
CN105808752B (zh) 一种基于cca和2pknn的自动图像标注方法
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN113706547B (zh) 一种基于类别同异性引导的无监督域适应语义分割方法
CN109376796A (zh) 基于主动半监督学习的图像分类方法
CN102208038A (zh) 基于视觉词典的图像分类方法
JP6680956B1 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
CN111931562A (zh) 一种基于软标签回归的无监督特征选择方法和系统
CN111027636B (zh) 基于多标签学习的无监督特征选择方法及系统
CN114329031B (zh) 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法
Zhang et al. A multiple instance learning approach for content based image retrieval using one-class support vector machine
CN113486902A (zh) 基于元学习的三维点云分类算法自动选择方法
US20110081074A1 (en) Method of Computing Global-to-Local Metrics for Recognition
CN116863177A (zh) 一种面向通用多视图对象聚类的对象视图蒸馏方法
CN114357307B (zh) 一种基于多维度特征的新闻推荐方法
Podsiadlo et al. Development of advanced quantitative analysis methods for wear particle characterization and classification to aid tribological system diagnosis
CN103488744B (zh) 一种大数据图像分类方法
Harada et al. Image annotation and retrieval for weakly labeled images using conceptual learning
CN109284375A (zh) 一种基于原始数据信息保留的域自适应降维方法
Wu et al. Dual-view data hallucination with semantic relation guidance for few-shot image recognition
CN107607723A (zh) 一种基于随机投影集成分类的蛋白质间相互作用测定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20230407