CN110781295B

CN110781295B - 一种多标记数据的特征选择方法及装置

Info

Publication number: CN110781295B
Application number: CN201910848662.7A
Authority: CN
Inventors: 孙林; 施恩惠; 秦铮; 谭淑月; 曾祥师; 殷腾宇; 黄金旭; 王天翔; 王欣雅; 张玖肖
Original assignee: Henan Normal University
Current assignee: Henan Normal University
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2023-04-07
Anticipated expiration: 2039-09-09
Also published as: CN110781295A

Abstract

本发明涉及一种多标记数据的特征选择方法及装置，属于数据分类技术领域。本发明首先以标记的先验概率作为标记的权重，计算特征与标记之间的相关性并按相关性大小对特征进行预筛选，在减小后续计算量的同时，使得特征与标记之间的相关性尽可能大；然后利用样本的标记集合之间的相关性link值对样本的同类、异类进行划分，最后按照权重更新公式计算特征权重值，将特征权重值进行排序，选择最优特征子集。通过上述过程，本发明能够有效选取最优特征子集，提高了多标记特征选择算法的分类精度。

Description

一种多标记数据的特征选择方法及装置

技术领域

本发明涉及一种多标记数据的特征选择方法及装置，属于数据分类技术领域。

背景技术

在传统的监督学习中，每个实例只对应于唯一一个类别标记。然而在真实世界中，一个物体往往同时拥有多个概念标记，例如，一幅图像可能同时拥有“沙漠”、“太阳”、“仙人掌”等标记，于是多标记学习问题应运而生。目前，多标记学习已经受到广泛的关注并已应用于文本分类，基因功能分类，图像标注，视频自动注释等多个领域。在文本分类这些实际应用中，高维数据中大量无关信息与冗余信息的存在极大地降低了学习算法的性能。因此降维对于提升多标记学习技术求解相关问题的能力具有十分重要的意义。通过降维可以找出隐藏在高维观测数据中有意义的低维结构，解决高维数据的“维数灾难”问题。在降维方法中，最常见且最重要的方法即为特征提取和特征选择。特征提取是将样本从高维输出空间通过线性或非线性映射投影到一个低维空间得到新的特征集合。很显然，这类方法虽然降低了样本的维数，但却失去了特征原有的语义信息，无法有效去除无关和冗余特征。特征选择则有效解决了这一问题，特征选择是指从原始的特征集合中用计算的方法按照评价准则选择出部分具有良好区分特性的特征进行分类。其目的是根据一些准则选出最小的特征子集，使分类等任务达到和特征选择前近似甚至更好的效果。

大多数的特征选择方法主要针对单标记学习，随着多标记学习的普及，越来越多的学者开始关注多标记问题的研究。目前，有很多针对于多标记数据的特征选择算法被提出。例如，Kononenko等学者撰写的《Estimating attributes:analysis and extension ofrelief》(European Conference on Machine Learning.Springer,Berlin,Heidelberg,1994.)(ReliefF)由于不能适用于多标记学习中每个样本可能同时含有多个类别标记的情况，因此很多学者结合标记相关性对ReliefF算法进行了扩展。Kong D等学者撰写的《Multi-label ReliefF and F-statistic feature selections for image annotation》(2012IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2012.)(MReliefF)考虑了成对标记之间的相关性，将类别标记两两组合，从而将其分解为成对的两类多标记ReliefF集合，对样本的同类近邻和异类近邻做了有效划分；Pupo等撰写的《AnExtension of ReliefF Algorithm to Multi-label Learning》(Progress in PatternRecognition,Image Analysis,Computer Vision,and Applications.2013.)(ReliefF-ML)中提出的算法思想则根据特征对近邻样本的区分能力来评估特征，评估值作为每个特征的权值对原始特征加权后分类，而该方法却只对单一标记入手，考虑了单个标记与其他标记集之间的相关性。Cai等撰写的《结合标记相关性的多标记特征选择及分类算法研究》(2016.)(ML-ReliefF)结合多个标记之间的相关性并在多标记学习框架下对样本的同类近邻和异类近邻进行了合理划分，该方法虽然能够直接作用于多标记数据集，实现对多标记特征的选择。但是计算较为复杂，时间复杂度较高，且算法中只考虑了标记之间的相关性，影响最终的分类精度。

发明内容

本发明的目的是提供一种多标记数据的特征选择方法及装置，以解决目前多标记特征选择过程存在的计算复杂、分类精度差的问题。

本发明为解决上述技术问题而提供一种多标记数据的特征选择方法，该选择方法包括以下步骤：

1)以标记的先验概率作为标记的权重，计算数据样本中特征与标记之间的相关性，根据相关性大小对特征进行预筛选，去掉相关性较小的特征；

2)针对预筛选后的数据样本，根据互信息和相似度的联合公式计算随机选取的样本与其他样本标记集之间的相关性值；

3)根据随机选取的样本与其他样本标记集的相关性值对该样本的同类近邻和异类近邻进行划分，其中异类近邻划分时，需要在此随机选取的样本的标记集所有未出现的类别标记下，将同一数据样本与该样本的标记相关性值相加，根据相加后值的排序选择得到所选数据样本的异类近邻；

4)根据随机选取的样本与其对应同类近邻和异类近邻在每个特征上的距离按照权重更新公式计算各特征权重值，按照各特征权重值的排序选择最优特征子集。

本发明还提供了一种多标记数据的特征选择装置，所述的选择装置包括存储器和处理器，以及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器与所述存储器相耦合，所述处理器执行所述计算机程序时实现本发明的多标记数据的特征选择方法。

本发明首先以标记的先验概率作为标记的权重，计算特征与标记之间的相关性按值对特征进行预筛选，在减小后续计算量的同时，使得特征与标记之间的相关性尽可能大；然后利用样本的标记集合之间的相关性link值对样本的同类、异类进行划分，最后按照权重更新公式计算特征权重值，将特征权重值进行排序，选择最优特征子集。通过上述过程，本发明能够有效选取最优特征子集，提高了多标记特征选择算法的分类精度。

进一步地，为了保证相关度计算的准确性，本发明给出具体的计算公式，所述步骤2)中两个数据样本间的标记相关性值link_i,j的计算公式为：

其中LS_i为样本x_i所拥有的标记集，LS_j为样本x_j所拥有的标记集，I(LS_i,LS_j)为标记集LS_i和标记集LS_j的互信息，

为连接系数。

进一步地，为了保证特征权重值计算的准确性，进一步提高特征选择的精确性，所述的特征权重值计算公式为：

其中W_P为特征p的权重值，d(p,x_i,H_j)为数据样本x_i与同类近邻中的数据样本x_j在特征p上的距离，d(p,x_i,M_j)为数据样本x_i与异类近邻中的数据样本x_j在特征p上的距离，sim_i,j为两个数据样本之间的相似度，m为迭代次数，k为同类近邻和异类近邻中数据样本个数。

进一步地，为了更准确地表征两个数据样本之间的相似度，所述两个数据样本之间的相似度sim_i,j的计算公式为：

进一步地，所述步骤1)中特征与标记之间的相关性的计算公式为：

其中p_i表示第i个特征，y(j)表示总的标记集合L中的第j个标记，I(p_i,y(j))表示特征p_i与标记y(j)之间的互信息，W(y(j))为标记y(j)的权重，n(y(j))表示拥有标记y(j)的所有数据样本个数，n表示数据样本的总个数。

附图说明

图1是本发明多标记数据的特征选择方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步地说明。

方法实施例

本发明首先以标记的先验概率作为标记的权重，计算特征与标记之间的相关性，使预筛选后的特征与标记之间具有较大的相关性；然后利用样本标记集之间的相关性对样本的同类、异类进行划分；最后按照权重更新公式计算特征权值，并根据特征权值的排序选出最优特征子集。本发明的多标记数据的特征选择方法能够适用于各领域，包括但不限于文本分类、基因功能分类、图像标注、视频自动注释等。下面以文本分类领域为例，对本发明的具体实施过程进行说明，该方法的实现流程如图1所示，具体实施过程如下。

1.对数据样本的特征进行预筛选。

大多数多标记数据集中，标记和特征之间的相关程度通常能够提供一些重要信息，利用这些信息可有效减少学习任务的难度，同时提升学习结果的鲁棒性。因此，如何衡量特征和标记之间的相关性会对特征选择结果产生很大的影响，为此，本发明在计算多个标记的相关性之前先对特征进行预筛选，目的有两个，一是减少后续计算量；二是因为后续只考虑了标记之间的相关性，并没有考虑特征与标记之间的相关性，但是二者的相关性对整个特征选择过程很重要，因此需要尽可能在特征与标记达到较大相关性的基础上再进行后续操作。在整个预筛选过程中，对特征与标记之间的相关性大小没有要求，预筛选的特征个数则根据实验过程中得出的分类精度值进行调整。

具体而言，就是利用互信息公式和每一个标记的先验概率计算标记和特征之间的相关性。采用的具体计算公式为：

X＝[x₁,x₂,…,x_n]∈R^n×f为n个样本构成的样本空间，本实施例中的样本为文本数据，Y＝[y₁,y₂,…,y_n]∈R^n×L为标记空间，L为标记的总个数，F＝[p₁,p₂,…,p_f]∈R^f为f个特征构成的特征空间，每个样本由f维数据表示，记为x_i∈R^f。p_i表示第i个特征，y(j)表示总的标记集合L中的第j个标记，I(p_i,y(j))表示第i个特征p_i和第j个标记y(j)之间的互信息，W(y(j))表示第j个标记y(j)的权重，n(y(j))表示含有标记y(j)的所有样本个数，n表示样本的个数。

按照各特征与标记之间相关性的大小对特征进行预筛选，筛除与标记相关性不大的特征，在减少后续计算量的同时，尽可能使得特征与标记之间的相关性大。

2.根据样本标记集之间的相关性对样本的同类、异类进行划分。

标记相关度用来表示两个样本的标记集之间的相关程度，假设样本x_i与样本x_j所拥有的标记集分别为LS_i和LS_j，目前的ML-ReliefF算法中两个样本之间的标记相关度link值为两个样本标记集的交集与并集之比，即：

对于样本x_i，在求出该样本与其他所有训练样本的标记相关度link值后，根据值对所有样本进行降序排列，取前k个样本作为x_i的同类近邻。对于标记集LS_i中没有出现的每个类别标记C，找出所有含有该标记的样本并根据其与x_i的link值对这些样本进行升序排列，取前k个样本作为x_i在每个类别标记C下的异类近邻。

如表1所示，多标记数据中样本x₁对应的标记集LS₁＝{l₁,l₃}，样本x₂对应的标记集LS₂＝{l₁,l₂,l₄}，样本x₃对应的标记集LS₃＝{l₁,l₃,l₄}，样本x₄对应的标记集LS₄＝{l₂,l₄}。以样本x₁为例，按照上述方式计算x₁与其他样本的标记相关度，结果如表2所示。按照link值对这些样本进行降序排列，根据排序结果得到的x₁的同类最近邻(k＝1)为x₃，针对LS₁所不包含的l₂与l₄升序排列结果，得到各自类别标记的异类最近邻均为x₄，如表3所示。

表1

	<![CDATA[l<sub>1</sub>]]>	<![CDATA[l<sub>2</sub>]]>	<![CDATA[l<sub>3</sub>]]>	<![CDATA[l<sub>4</sub>]]>
					<![CDATA[x<sub>1</sub>]]>	1	0	1	0
<![CDATA[x<sub>2</sub>]]>	1	1	0	1
					<![CDATA[x<sub>3</sub>]]>	1	0	1	1
<![CDATA[x<sub>4</sub>]]>	0	1	0	1

表2

	link值
		<![CDATA[x<sub>2</sub>]]>	0.25
<![CDATA[x<sub>3</sub>]]>	0.6667
		<![CDATA[x<sub>4</sub>]]>	0

表3

<![CDATA[l<sub>2</sub>异类近邻]]>	<![CDATA[l<sub>4</sub>异类近邻]]>
		<![CDATA[x<sub>4</sub>]]>	<![CDATA[x<sub>4</sub>]]>
<![CDATA[x<sub>2</sub>]]>	<![CDATA[x<sub>3</sub>]]>
			<![CDATA[x<sub>2</sub>]]>

上述方法(ML-ReliefF)中计算的link值只采用了一种相关性计算方法计算标记相关性，我们想实验互信息在标记相关性计算上的可行性，为此，本发明在现有link值计算的基础上，对link值的计算进行了改进，增加了互信息的内容，增加互信息的目的是使用两种可以计算的方法来计算标记相关性，使得计算出的标记集合之间的相关性大小更为准确，为后续的同异类划分增加可信度，并且在一定程度上提高分类精度，改进后的计算公式为：

其中I(LS_i,LS_j)为样本x_i对应的标记集LS_i与样本x_j对应的标记集LS_j之间的互信息，

为连接系数，且大小在0到1之间，连接系数的大小则根据实验过程中得出的分类精度大小而定。

同时，对于异类近邻，本发明在现有异类近邻划分的基础上，进行了重新划分，对于样本x_i的标记集LS_i中没有出现的各类别标记C，分别获取含有该标记的样本并求出其与x_i的link值，在所有未出现的类别标记C下，将同一样本与x_i的link值相加，并按照link值升序排列，选取前k个作为样本x_i的异类近邻。

3.确定各特征权重值，并按权重值排序结果选择最优特征子集。

现有ML-ReliefF算法中的特征权值W_p更新公式为：

其中，d(p,x_i,H_j)为样本x_i与同类近邻中的样本x_j在特征p上的距离(欧式距离)，p(C)为每个类别C的先验概率，p(LS_i)为标记集LS_i的先验概率，d(p,x_i,M_j)为样本x_i与异类近邻中的样本x_j在特征p上的距离，sim_i,j为两个样本之间的相似度，m为迭代次数，n(LS_i)为拥有标记集LS_i中任一标记的所有样本的个数，cos_i,j表示样本x_i与样本x_j的余弦距离。

本发明在对异类近邻划分改进的基础上，对特征权重的计算公式也进行了改进，改进后特征权重计算公式为：

迭代更新的截止条件是迭代更新得到的特征权重值在允许的范围内变化，相当于得出的权重值变化很小或者几乎不再变化时，认为迭代完成，第一次迭代时的特征权重初值为0。按照迭代更新后的特征权重排序选择最优特征子集。

在异类近邻的划分和特征权重公式的更新中，相比于现有的ML-ReliefF，本发明有效避免了部分样本同相同的样本之间在每一个特征上距离的重复计算，减小了算法的时间复杂度，同时样本相似度公式的更换通过计算不同样本之间相同标记和相同特征的个数来表示，使得样本相似度计算更为准确，而不是仅仅依靠于侧重空间的余弦距离上。

本发明多标记数据的特征选择装置实施例

本发明的多标记数据的特征选择装置，包括存储器和处理器，以及存储在存储器上并在处理器上运行的计算机程序，处理器与存储器相耦合，处理器执行所述计算机程序时实现本发明的多标记数据的特征选择方法，方法的具体实现过程已在方法实施例中进行了详细说明，这里不再赘述。

实验验证

为了验证本发明的特征选择方法的优越性，选取两个文本数据集进行实验，数据集的描述信息如表4所示，数据集来自于http://mulan.sourceforge.net/datasets.html。

表4

本验证例将Average Precision(AP)、Ranking Loss(RL)、Hamming Loss(HL)、Oneerror(OE)和Coverage(CV)作为评价指标。Average Precision是一种最直观的评价指标，用于评价样本的预测标记排名中排在相关标记前面的概率平均；Hamming Loss用于通过计算多标记分类器预测出的标记结果与实际标记的差距来度量多标记分类器的性能；One-error用于评价每个样本的预测标记排名中，排在第一位的标记不在该样本的相关标记集中的概率评价；Ranking Loss用于评价所有样本的预测标记排名中，不相关标记在相关标记前面的概率的平均值；Coverage用于评价每个样本的预测标记排名中需要在标记序列表中最少查找到第几位才可以找到所有与该样本对应的标记。以上5种指标，第1个指标(AP)的取值越大，表示分类的性能越优，最优值为1；后4个评价指标的取值越小，表示分类性能越优，最优值为0。

为了验证该方法的有效性，采用Zhang和Zhou撰写的《Multilabeldimensionality reduction via dependence maximization》(ACM Transactions onKnowledge Discovery from Data(TKDD),2010,4(3):14.)(MDDMspc、MDDMproj)、M.Zhang等撰写的《Feature selection for multi-label Naive Bayes clas-sificaiton》(Inf.Sci.179(2009)3218–3229.)(MLNB)、J.Lee等撰写的《Feature selection formulti-label classification using multivariate mutual information》(PatternRecognit.Lett.34(3)(2013)349–357.)(PMU)算法作为对比试验，将MLNB、MDDMspc、MDDMproj、PMU与本发明进行比较，实验中，算法的近邻个数k设置为5，迭代次数m设置为100，选用ML-KNN作为多标记分类器，所有实验中，ML-KNN的近邻样本数设置为10，平滑因子为1。将本算法在2个数据集(Health数据集、Recreation数据集)，5个多标记评价准则(AP、HL、RL、OE、CV)上进行比较，实验结果如表5、表6所示。其中，每个评价准则后面的“↑”表示值越大性能越好，“↓”表示值越小性能越好，表中的黑体则标注了相对最优的性能表现。在本实验中，我们选取特征权重排序的前k个特征作为特征子集。

表5

表6

表5、表6给出了在文本分类的Health、Recreation数据集上几个算法的实验结果。在Health数据集上，本算法在AP、HL、RL、OE、CV这五个指标上获得最优性能，特别是在AP和RL上有显著提高。在Recreation数据集上，本算法在AP、HL、OE上获得最优性能，而MDDMspc在RL和CV上获得最优性能，但是本算法在这两个指标上的值与其相差不大。

根据表中的10个对比结果(2个数据集和5个评价指标)，本发明有80％的情况能够获得最优值。以上实验结果分析，充分表明本发明的特征选择方法得到的特征子集诱导出来的分类性能是明显优于其他对比算法。

Claims

1.一种多标记数据的特征选择方法，其特征在于，该选择方法包括以下步骤：

2)针对预筛选后的数据样本，根据互信息和相似度的联合公式计算随机选取的样本与其他样本标记集之间的相关性值；所述步骤2)中两个数据样本间的标记相关性值link_i,j的计算公式为：

为连接系数；

4)根据随机选取的样本与其对应同类近邻和异类近邻在每个特征上的距离按照权重更新公式计算各特征权重值，按照各特征权重值的排序选择最优特征子集；所述的特征权重值计算公式为：

2.根据权利要求1所述的多标记数据的特征选择方法，其特征在于，所述两个数据样本之间的相似度sim_i,j的计算公式为：

3.根据权利要求1所述的多标记数据的特征选择方法，其特征在于，所述步骤1)中特征与标记之间的相关性的计算公式为：

4.一种多标记数据的特征选择装置，其特征在于，所述的选择装置包括存储器和处理器，以及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器与所述存储器相耦合，所述处理器执行所述计算机程序时实现权利要求1-3中任一项所述的多标记数据的特征选择方法。