CN110766042B

CN110766042B - 一种基于最大相关最小冗余的多标记特征选择方法及装置

Info

Publication number: CN110766042B
Application number: CN201910849299.0A
Authority: CN
Inventors: 孙林; 黄苗苗; 张正玲; 翟崇; 王静; 王蒙蒙; 张玖肖; 王欣雅; 王天翔; 黄金旭
Original assignee: Henan Normal University
Current assignee: Henan Normal University
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2023-04-07
Anticipated expiration: 2039-09-09
Also published as: CN110766042A

Abstract

本发明涉及一种基于最大相关最小冗余的多标记特征选择方法及装置，属于数据分类技术领域。本发明首先利用标记权重确定特征权重，根据特征权重选取对分类结果影响较大的特征，减少了后续计算量，然后，将各样本的分类间隔作为动态邻域半径，确定对应的邻域精度，并将该邻域精度作为参数改变最大相关最小冗余中互信息，解决了目前的最大相关最小冗余特征选择方法中只考虑相关程度的，导致计算的互信息值不够准确，进而影响特征选择的问题，提高了特征选择的有效性。

Description

一种基于最大相关最小冗余的多标记特征选择方法及装置

技术领域

本发明涉及一种基于最大相关最小冗余的多标记特征选择方法及装置，属于数据分类技术领域。

背景技术

多标记学习是模式识别、机器学习、数据挖掘及数据分析等领域的研究热点之一。在传统的监督学习框架中，认为每个样本是具有明确的、单一的语义标记。但在现实生活中，每个样本不仅只有一个语义标注，通常呈现出多义性。例如：一篇新闻可能同时被标注为政治、经济、文化；一张风景图可能同时标注沙漠、仙人掌、骆驼等；一首诗歌可能同时具有多种感情色彩，如低沉、欢快等。这类数据的分类被称为多标记学习问题。多标记学习在现实生活中被广泛应用，并逐渐引起了研究人员的关注。

在多标记学习中，通常会涉及到数据的高维性。数据的高维性可能会造成维数灾难，严重干扰多标记分类器的分类性能。降维技术是解决该问题的有效手段，可以有效提升分类任务的效率和性能。常见的多标记特征降维方法主要包括特征提取和特征选择。前者是通过转换或映射方法，将原始高维特征转换为一个新的低维特征空间。后者根据一定的评价准则，从原始特征空间中选取一组最相关且较小的特征子集。相比于特征提取将特征空间进行了转换从而导致新的特征失去了其原始物理意义，特征选择方法则更为有效。

目前，针对多标记数据的特征选择已提出一些方法，如线性判别分析(LinearDiscriminant Analysis,LDA)、典型相关分析(Canonical Correlation Analysis,CCA)、偏最小二乘法(Partial Least Squares,PLS)、通过相关性最大化降低多标签维度法(Multilabel Dimensionality Reduction via Dependence Maximization,MDDM)、多标记朴素贝叶斯算法(Multiple Markup Naive Bayesian Algorithm,MLNB)、多标记嵌入式特征选择方法(Multi-label Embedded Feature Selection,MEFS)、基于信息熵的多标签特征选择算法(Multi-label Feature Selection Algorithm Based Informationentropy,MLFSIE)等，其中LDA把多标记问题转化为单标记问题，忽略标记之间的关联，将处理单标记数据降维的方法直接应用于多标记；CCA在原始单标记降维方法的基础上，将多标记分类学习中特征和标记空间作为看待样本的两个视角；PLS与CCA相似，使用核矩阵方法，得到一个降维后的、与原始数据相同维度的新矩阵，但不能获得一个新的特征子空间；MDDM通过映射降维和子空间降维两种映射策略进行降维，每种策略可以分别使用线性核和非线性核，而这种映射仍采用核矩阵；MLNB基于主成分分析法PCA和遗传算法GA，同时利用贝叶斯分类器的方法实现特征提取，但是由于使用PCA，这种方法只能应用于特征值连续的数据；MEFS使用基于预报风险的嵌入式特征选择方法，对每个特征进行了评价，最终得到最佳的特征子集，但这种方法与分类器和评价指标紧密相连，从而导致时间复杂度大、降维效率低，MLFSIE利用特征和标记之间的信息增益删除不相关的特征，但特征之间的相互关系被忽略。因此，目前的多标记特征选择方法均不能保证特征选择的有效性。

发明内容

本发明的目的是提供一种基于最大相关最小冗余的多标记特征选择方法及装置，以解决目前多标记特征选择算法所选择特征有效性低的问题。

本发明为解决上述技术问题而提供一种基于最大相关最小冗余的多标记特征选择方法，该选择方法包括以下步骤：

1)计算样本与其对应的最近的同类样本和最近的异类样本在特征空间的距离计算各标记权重；

2)根据得到各标记权重和特征下样本在标记中与其最近的异类样本和最近的同类样本的距离计算各特征的权重，选取权重较大的特征组成特征集合；

3)计算不同样本的分类间隔，并以此分类间隔作为动态邻域半径，计算邻域精度；

4)根据得到的邻域精度计算所述特征集合中特征和目标类别之间的互信息以及特征之间的互信息，确定最大相关和最小冗余，并以此确定特征选择标准，实现对特征的选择。

本发明还提供了一种基于最大相关最小冗余的多标记特征选择装置，其特征在于，所述的选择装置包括存储器和处理器，以及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器与所述存储器相耦合，所述处理器执行所述计算机程序时实现本发明的基于最大相关最小冗余的多标记特征选择方法。

本发明首先利用标记权重确定特征权重，根据特征权重选取对分类结果影响较大的特征，减少了后续计算量，然后，将各样本的分类间隔作为动态邻域半径，确定对应的邻域精度，并将该邻域精度作为参数改变最大相关最小冗余中互信息，解决了目前的最大相关最小冗余特征选择方法中只考虑相关程度的，导致计算的互信息值不够准确，进而影响特征选择的问题，提高了特征选择的有效性。

进一步地，为避免标记权重距离极端化的问题，所述步骤1)中标记权重的计算公式为：

其中，w_l表示标记l的权重，n为样本的个数，NHS(x_i)表示在样本空间U中与样本x_i距离最近的异类样本，NSS(x_i)表示在样本空间U中与样本x_i最近的同类样本，Δ_F(x,y)表示样本和样本在特征空间F上的距离，|HS(x_i)|表示在样本空间U中样本x_i的异类样本的个数，|SS(x_i)|表示在样本空间U中样本x_i的同类样本的个数。

进一步地，为避免得到的特征权重距离极端化的问题，所述特征的权值计算公式为：

其中，w_l表示标记l的权重，d_f(x_i,NHS^l(x_i))和d_f(x_i,NSS^l(x_i))分别表示在特征f下样本x_i在类别标记l中与其最近的异类样本的距离和最近的同类样本的距离，|SS^l(x_i)|表示在类别标记l下样本空间U中样本x_i的同类样本的个数，|HS^l(x_i)|表示在类别标记l下样本空间U中样本x_i的异类样本的个数，n为样本的个数。

进一步地，为了避免得到的样本间隔距离极端化的问题，所述不同样本的分类间隔的计算公式为：

其中m^l(x_i)表示样本x_i在标记l下的分类间隔，NSS^l(x_i)表示在类别标记l下样本空间U中与样本x_i最近的同类样本，NHS^l(x_i)表示在类别标记l下样本空间U中与样本x_i最近的异类样本，Δ(x_i,NHS^l(x_i))和Δ(x_i,NSS^l(x_i))则分别表示样本点x_i到NHS^l(x_i)和NSS^l(x_i)的距离。

进一步地，所述的邻域精度计算公式为：

其中ρ为邻域精度，|N_B D|表示下近似集合元素个数，

表示上近似集合元素个数。

进一步地，为了提高互信息的准确性，特征和目标类别之间的互信息以及特征之间的互信息分别为：

其中S_m为具有m个特征的数据集，f_i,f_j∈S_m，c为类别标记集合，p(f_i,c)为特征f_i和标记c之间的联合概率密度，p(f_i)为特征f_i的概率密度，p(c)为标记c的概率密度，p(f_i,f_j)为特征f_i和特征f_j之间的联合概率密度，p(f_j)为特征f_j的概率密度，I为互信息函数，ρ为邻域精度。

附图说明

图1是本发明基于最大相关最小冗余的多标记特征选择方法的流程图；

图2-a是本发明中标记l₁在F下对样本的分类结果示意图；

图2-b是本发明中标记l₂在F下对样本的分类结果示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步地说明。

本发明多标记特征的选择方法的实施例

本发明首先计算所有标记下的标记权重，用来表示标记的重要性，然后根据标记权重确定特征的权重，并根据特征权重对特征进行排序，产生新的特征排序，并从中选取一部分特征组成特征集合；再计算每一个样本的分类间隔，将样本的分类间隔作为动态的邻域半径确定出每一个样本的邻域，根据样本的邻域选出上近似集合和下近似集合，计算邻域精度；最后根据精确度计算互信息，得到最大相关最小冗余，并对最大相关最小冗余的特征选择标准进行排序，得到最优特征子集。本发明的数据多标记特征的选择方法能够适用于各领域，包括但不限于文本分类、基因功能分类、图像标注、视频自动注释等。下面以文本分类领域为例，对本发明的具体实施过程进行说明，该方法的具体实现流程如图1所示，具体实施步骤如下：

1.计算样本的标记权重和特征权重，并按特征权重进行特征选择。

在多标记学习框架中，每个样本可能隶属于多个类别标记，每个类别标记在同一特征空间中会对样本产生不同的分类。为了更加形象地刻画不同标记在同一特征空间中对样本产生的分类情况，采用以下实例进行说明。假设给定一个具体的训练样本U＝{x₁,x₂,…,x_n}，描述样本的特征空间F＝{f₁,f₂,…，f_d}，样本可能隶属于标记集合L＝{l₁,l₂}。假设标记“+”的样本属于第一类，标记为“*”的样本属于第二类。如图2-a所示，在特征空间F下，训练样本U在类别标记l₁中被划分为两类，{x₁,x₄,x₅}属于第一类，{x₂,x₃,x₆}属于第二类；如图2-b所示，对于类别标记l₂，在同一特征空间F下，训练样本U被划分为两类，{x₂,x₄,x₅,x₆}属于第一类，{x₁,x₃}属于第二类。

显然，不同类别标记在同一特征空间F下对样本的可分性是各不相同的，根据每个类别标记对样本可分性的不同，利用分类间隔对标记赋予一定的权重，以此衡量每个标记对样本的可区分性程度。

对于给定的一个多标记决策表NDT＝<U,F,D>，U＝{x₁,x₂,…,x_n}表示样本空间，F＝{f₁,f₂,…,f_d}和L＝{l₁,l₂,…,l_t}分别表示描述样本的一组特征和标记集合，对于

在特征空间F下对类别标记l赋予的权重为：

其中距离函数定义为：

其中NHS(x_i)表示在样本空间U中与样本x_i距离最近的异类样本，NSS(x_i)表示在样本空间U中与样本x_i最近的同类样本，Δ_F(x,y)表示样本和样本在特征空间F上的距离，x(f)和y(f)分别表示样本x和y在特征f上的特征值。

类别标记在特征空间中对样本的分类间隔越大，对应的标记权重越大，说明该标记对样本的可分性越强；反之，若在同一特征空间中样本的分类间隔越小，则对应的标记权重也相应越小，说明该类别标记对样本的可分性越弱。

对于

是给定样本，则样本在标记l下的分类间隔表示为：

m^l(x_i)＝Δ(x_i,NHS^l(x_i))-Δ(x_i,NSS^l(x_i))

其中NSS^l(x_i)表示在类别标记l下样本空间U中与样本x_i最近的同类样本，NHS^l(x_i)表示在类别标记l下样本空间U中与样本x_i最近的异类样本，Δ(x_i,NHS^l(x_i))和Δ(x_i,NSS^l(x_i))则分别表示样本点x_i到NHS^l(x_i)和NSS^l(x_i)的距离。

对于

w为特征的权重向量，则特征子集的评价函数表示为：

最大化w²＝1，在类别标记集合L下，通过最大化间隔对特征赋予权值，则特征f的权值w_f为：

可化简为：

其中d_f(x_i,NHS^l(x_i))和d_f(x_i,NSS^l(x_i))分别表示在特征f下样本x_i在类别标记l中与其最近的异类样本的距离和最近的同类样本的距离。若在类别标记l下，样本x_i不存在与其最近的异类样本，则令d_f(x_i,NHS^l(x_i))＝0；若样本x_i在类别标记l下，不存在与其最近的同类样本，则令d_f(x_i,NSS^l(x_i))＝0。

其中距离d_f(x,y)表示为：

其中，x(f)和y(f)分别表示样本x和y在特征f上的特征值，max(f)和min(f)分别表示特征f在样本空间中取得的最大值和最小值。

通过上述方式虽然能够得到标记权重、特征权重和分类间隔，但是在异类样本过多时样本与异类样本的距离的累计值会过大，同类样本过多时样本与同类样本的距离的累计值会过大，为此，本发明为消除异类样本过多、同类样本过多而产生距离极端化的影响，在计算分类间隔、标记权重和特征权重时，均除以了异类样本和同类样本个数。改进后的标记权重、分类间隔和特征权重公式如下：

其中|HS(x_i)|表示在样本空间U中样本x_i的异类样本的个数，|SS(x_i)|表示在样本空间U中样本x_i的同类样本的个数。

按照改进后的标记权重和特征权重计算公式得到特征权重，按照特征权重进行降序排序，产生新的特征排序，并选取一部分权重较大特征构成特征集合，权重较大是一个相对概念，可根据实际情况自行选却。

2.根据分类间隔计算邻域精度。

在多标记学习中，将属性集可以清楚地将样本分在每一个标记类别中的能力通过多标记邻域粗糙集的下近似形式表示。根据样本的分类间隔确定样本的邻域，对于

给定

当样本x_i在标记l下的分类间隔m^l(x_i)≥0，则x_i的邻域表示为：

δ^l(x_i)＝{y_j|Δ(x_i,y_j)≤m^l(x_i),y_j∈U}

在多标记邻域决策系统MNDT＝<U,C∪D>中，标记集合L＝{l₁,l₂,…，l_t}，D^j表示样本x_i所具有的标记集合，给定

C是条件属性集合，B是条件属性集合的子集，D是分类决策属性集合。多标记邻域粗糙集的近似空间表示为：

在多标记邻域决策系统MNDT＝〈U,C∪D〉中，决策属性D对U的划分即为U/D＝{X₁,X₂,…,X_N}，对于任意条件属性集

U/D相对于B的邻域精度ρ为：

3.根据邻域精度按照最大相关最小冗余原则对特征集合中的特征进行再次选择。

最大相关最小冗余是基于互信息的特征选择方法，它根据最大统计依赖性准则来选择特征。从特征空间中寻找与目标类别有最大相关性且相互之间具有最少冗余性的m个特征，最大相关最小冗余的定义如下：

特征选择就是要找到一个含有m个特征的特征子集S，对于类别c来说，它对这m个特征有最大依赖性，即最大依赖性准则，最大依赖性准则在度量特征与类别的关系的时候，要使特征子集与相应的类别有最大相关性，即最大相关原则，表示如下：

最小冗余则是特征之间依赖性关系的一种描述，它要求每个特征属性之间的相关性最小，即最小冗余原则，如下：

其中I(f_i；c)表示特征f_i和目标类别c之间的互信息；I(f_i；f_j)是特征f_i和特征f_j之间的互信息。

其中两个随机变量x和y之间的互信息根据其概率密度函数p(x)、p(y)、p(x,y)有关，具体表示为：

对于特征f_i和目标类别c，互信息表示为：

对于特征f_i与特征f_j，互信息表示为：

上述互信息的计算虽然考虑了特征和标记之间的相关程度与特征和特征之间的相关程度，并没有考虑到特征集相对于整体样本的表达能力，而且当互信息值普遍较大时，它对于衡量特征和标记之间的关联性没有效果，将会失去原有的意义。为此，本发明对互信息公式做了如下改进，即在互信息计算时考虑了精确度，改进后的互信息计算公式为：

在现有互信息公式上乘精确度，这个精确度能很好地反映特征集对于样本的表达能力，且会适当缩小互信息的范围，使得计算出来的互信息值更加精确，有更高的准确度。

在根据改进后的互信息计算公式的基础上，计算特征与标记之间的最大相关和最小冗余，按照最大相关最小冗余的特征选择标准对步骤1得到的特征集合中的特征进行特征选择，得到最优特征集合，实现最优特征选择。

上述过程用计算机程序可以描述为：

输入：多标记数据集D

输出：特征排序rank

10.对得到的特征权重进行排序，得到一组特征排序，选取一定特征集合；

11.对每一个样本计算分类间隔；

12.将样本的分类间隔作为动态的邻域半径，找出每一个样本的邻域；

13.计算上近似和下近似个数，计算精度；

14.计算特征与标记之间的相关性和特征与特征之间的冗余性，从而得到筛选标准；

15.对最大相关最小冗余的特征选择标准进行排序，得到最优特征子集。

装置实施例

本发明的基于最大相关最小冗余的多标记特征选择装置包括存储器和处理器，以及存储在存储器上并在处理器上运行的计算机程序，处理器与存储器相耦合，处理器执行计算机程序时本发明基于最大相关最小冗余的多标记特征选择方法，具体过程已在方法实施例中进行了详述，这里不再赘述。

实验验证

为了验证本发明的有效性，下面在MATLAB平台上进行对本发明的效果进行实验，同时实验全部在3.60GHz的处理器运行，选取酵母(Yeast)数据集进行实验，数据集相应的描述信息如表1所列，数据集来自http://mulan.sourceforge.net/datasets.html。

表1

实验令测试集为

根据预测函数f_l(x)可定义排序函数为rank_f(x,l)∈{1,…,L}。将Average Precision(AP)，Ranking Loss(RL)，HammingLoss(HL)，oneError(OE)作为分类性能的评价指标。

Average Precision(AP)：用于考察所有样本的预测标记排序中位置排在该样本标记前面的标记仍属于该样本标记概率的平均，定义为：

Ranking Loss(RL)：用来考察所有样本的不相关标记的排序排在相关标记前面的概率的平均，定义为：

Hamming Loss(HL)：用来度量样本在单个类别标记上的误分类的情况，定义为：

oneError(OE)：表示样本类标记排序中，排在前面的标记但不属于相关标记集合的概率：

其中，R_i＝{l|Y_il＝+1}表示与样本x_i相关的标记构成的集合，R_i＝{l|Y_il＝-1}表示与样本x_i不相关的标记集合。

AP指标取值越大，说明分类的性能越优，最优值为1；RL、HL以及OE的指标取值越小，说明分类的性能越优，最优值为0。

为了充分验证本发明的有效性，从不同角度选择了4种对比算法，包括采用Zhang和Zhou撰写的《Multilabel dimensionality reduction via dependence maximization》(ACM Transactions on Knowledge Discovery from Data(TKDD),2010,4(3):14.)(MDDMspc、MDDMproj)、采用N.S.or.E.Cherman,M.Monard,H.Lee,Relieff for multi-label feature selection,in:Intelligent Systems(BRACIS),2013BrazilianConference on.IEEE,2013.pp.6-11.(RF-ML)、采用J.Lee,D.Kim.Feature selection formulti-label classification using multivariate mutual information.PartternRecognit.Lett.34(3)(2013)349-357.(PMU)。本实验采用Zhang和Zhou撰写的《ML-KNN:Alazy learning approach to multi-label learning》(Pattern recognition,2007,40(7):2038-2048.)(ML-kNN)来评估特征选择后的数据，将ML-KNN的平滑参数s设置为1，近邻个数k设置为10。实验比较了各种算法诱导出来的特征子集的分类性能。其中，MDDMspc、MDDMproj、RF-ML、PMU和本发明得到的是一组特征排序，因此在实验中将取前k个特征作为特征子集，实验结果如表2所示。

表2

对于给定的评价指标，符号“↑”表示该评价指标的取值越大，分类性能越优；符号“↓”表示该评价指标的取值越小，分类性能越优；此外，用黑体表示各算法中性能最优的结果。

根据表2的结果显示：

(1)对于AP评价指标，本发明在Yeast数据集上取得的分类精度为最高，即分类性能取得最优，其次为PMU和RF-ML，最后为MDDMspc和MDDMproj。

(2)对于HL和RL评价指标，本发明在Yeast数据集上取得的损失值最小，不相关标记排在相关标记前面的概率最小，即本算法取得的分类性能高于MDDMspc，MDDMproj，RF-ML和PMU算法。

(3)对于OE评价指标，本发明的性能略低于PMU，但仅相差0.0024，相对来说相差较小，同时对于PMU的四个指标，只有1个指标较本算法优，所以本发明较好。

总之，从特征子集诱导出来的分类性能上看，本发明的分类性能排第一位，其次是PMU算法和RF-ML算法，最后是MDDMspc算法和MDDMproj算法，可以看出本发明的有效性。

Claims

1.一种基于最大相关最小冗余的多标记特征选择方法，其特征在于，该选择方法包括以下步骤：

3)计算不同样本的分类间隔，并以此分类间隔作为动态邻域半径，计算邻域精度，所述的邻域精度计算公式为：

其中ρ为邻域精度，

表示下近似集合元素个数，

表示上近似集合元素个数；

4)根据得到的邻域精度计算所述特征集合中特征和目标类别之间的互信息以及特征之间的互信息，确定最大相关和最小冗余，并以此确定特征选择标准，实现对特征的选择；特征和目标类别之间的互信息以及特征之间的互信息分别为：

2.根据权利要求1所述的基于最大相关最小冗余的多标记特征选择方法，其特征在于，所述步骤1)中标记权重的计算公式为：

3.根据权利要求1所述的基于最大相关最小冗余的多标记特征选择方法，其特征在于，所述特征的权值计算公式为：

4.根据权利要求1所述的基于最大相关最小冗余的多标记特征选择方法，其特征在于，所述不同样本的分类间隔的计算公式为：

5.一种基于最大相关最小冗余的多标记特征选择装置，其特征在于，所述的选择装置包括存储器和处理器，以及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器与所述存储器相耦合，所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的基于最大相关最小冗余的多标记特征选择方法。