CN109447110A

CN109447110A - 综合邻居标签相关性特征和样本特征的多标签分类的方法

Info

Publication number: CN109447110A
Application number: CN201811082265.5A
Authority: CN
Inventors: 施展; 冯丹; 杨文鑫; 方交凤; 陈静; 陈硕; 杨蕾; 刘上; 戴凯航; 曹孟媛
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2019-03-08

Abstract

本发明公开了一种综合邻居标签相关性特征和样本特征的多标签分类的方法，包括：用BR方法将训练数据集D＝{(x_i,y_i)}进行二分类，得到m个转换后的数据集{(x_i,y_ik)}；基于转后的数据集{(x_i,y_ik)}，将邻居标签相关性加入基于样本特征的二分类方法中，训练标签l_k对应二分类器g_k；采用二分类器g_k预测待测实例t是否存在标签l_k，并输出结果y_k；综合m个输出结果y_k，得到待测实例t对应的多标签集合{y₁,...,y_k,...y_m}。本发明提出了从邻居实例中获取标签相关性的方法，综合样本实际特征和标签相关性特征的分类结果，实现对多标签的预测；提出衡量邻居信息可靠性，修正邻居特征的结果，提高分类准确性。

Description

综合邻居标签相关性特征和样本特征的多标签分类的方法

技术领域

本发明属于多标签分类领域，更具体地，涉及一种综合邻居标签相关性特征和样本特征的多标签分类的方法。

背景技术

数据分类是数据挖掘领域研究中的一个重要分支，是解决现实问题的重要方案，受到人们的广泛关注和研究，传统的分类方法是将每个样本分配到一个且仅一个标签。传统监督学习框架在样本充足即训练集足够大的情况下，学习系统利用某种学习算法学得输入空间(示例空间)与输出空间(标签空间)之间的一个映射，基于该映射可以预测未见示例的类别标签。若类别集合中有两个类，样本只能选择其中一类的问题称为二分类。若类别集合中包含多个类别，且样本只能选择其中一类的问题称为多元分类。二分类和多元分类问题中，一个样本只对应一个标签的学习方法统称为单标签学习。

针对每个样本需要考虑每个标签，单标签的学习方法不适用于多标签案例，最近提出了大量的多标签学习算法，按照使用标签信息的不同，将多标签分类方法分为三种策略：1)一阶策略：该类策略忽略标签相关性独立考察每个标签，将多标签学习问题转换成多个独立的二分类问题，每个二分类问题属于单标签分类问题。该类方法效率较高且实现简单，但因其忽略标签之间的相关性，系统的泛化性能较低，代表方法有BR、LP；2)二阶策略：该类多标签学习策略考察两两标签的关联关系，如相关标签与无关标签的排序关系，两两标签间的交互关系等等。由于该类方法在一定程度上考虑了标签相互关系，因此系统泛化性能相对一阶策略有提升，该类策略的代表方法有CC、CLR；3)高阶策略：该类策略的基本假设是所有标签相互关联，考虑标签之间的相互关系，如在多标签学习系统中，考虑任一标签对其它所有标签的影响。该类方法可以较好地反映真实世界实例的标签相关性，同时由于计算复杂度的增加，导致了处理大规模学习问题时速度较慢，代表方法有DBR、RAKEL。后来涌现出一批深入挖掘标签特征的学习方法，如基于邻居特征的逻辑回归方法IBLR-ML，基于标签结构特征的学习方法LIFT，基于标签重要性的学习方法RELIAB、基于补充标签的学习方法MLFE。

然而，上述多标签分类方法均未没有考虑标签之间的关系，预测未见示例的类别标签准确率差。

发明内容

针对现有技术的缺陷，本发明的目的在于解决现有技术中多标签分类方法均未没有考虑标签之间的关系，预测未见示例的类别标签准确率差的技术问题。

为实现上述目的，第一方面，本发明实施例提供了一种综合邻居标签相关性特征和样本特征的多标签分类的方法，该方法包括以下步骤：

S0.用BR方法将训练数据集D＝{(x_i,y_i)}进行二分类，得到m个转换后的数据集{(x_i,y_ik)}；

S1.基于转后的数据集{(x_i,y_ik)}，将邻居标签相关性加入基于样本特征的二分类方法中，训练标签l_k对应二分类器g_k；

S2.采用二分类器g_k预测待测实例t是否存在标签l_k，并输出结果y_k；

S3.综合m个输出结果y_k，得到待测实例t对应的多标签集合{y₁,...,y_k,...y_m}；

其中，x_i为训练实例，y_i为训练实例x_i对应的类别标签，表示为y_i＝{y_i1,...,y_ik,...y_im}，1≤i≤N，N为训练数据集中训练实例的个数；多标签集合L＝{l₁,...,l_k,...l_m}，1≤k≤m，m为多标签集合L中标签的个数。

具体地，BR方法选取决策树、随机森林、SVM和神经网络的任一种。

具体地，步骤S1具体如下：

S10.基于训练实例x_i的特征向量，预测标签l_k在训练实例x_i中存在的概率p_f；

S11.基于邻居相关性特征，预测标签l_k在训练实例x_i中存在的概率p_r；

S12.计算邻居预测标签l_k的可靠性p₁(x)和基于样本特征预测标签l_k的可靠性p₀(x)；

S13.基于p₁(x)和p₀(x)，计算邻居预测结果权重ω₁和样本特征预测结果权重ω₂；

S14.计算综合概率P_x＝ω₁·p_r+ω₂·p_f；

S15.标签l_k对应二分类器g_k的判断标准如下：

其中，表示标签l_k存在于实例，表示标签l_k不存在于实例。

具体地，步骤S12具体如下：

S120.计算概率和其中，表示训练实例x_i存在标签l_k，表示训练实例x_i中不存在标签l_k；

S121.计算后验概率和表示测试实例x_i的K个近邻中有个存在标签l_k；

S122.基于概率和计算邻居预测标签l_k发生的概率p₁(x)和不发生的概率p₀(x)。

具体地，概率和的计算公式如下：

其中，N(x_i)为测试实例x_i的K个邻居实例集合，表示训练实例x_i是否有标签l_k，若存在，否则，c[j]为训练数据集上有j个邻居有标签l_k且该样本也有标签l_k的数量。

具体地，p₁(x)和p₀(x)的计算公式如下：

具体地，步骤S13中ω₁和ω₂的计算公式如下：

ω₂＝1-ω₁。

具体地，对于待测实例t，采取与步骤S10-S14相同的方式，计算待测实例t的综合概率P_x，时，二分类器g_k分类结果为+1，表示待测实例t存在标签l_k，y_k＝1；时，二分类器g_k分类结果为-1，表示待测实例t不存在标签l_k，y_k＝0。

第二方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面所述的多标签分类的方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

1.本发明提出了从邻居实例中获取标签相关性的方法，寻找相似的邻居样本，从小聚类的相似样本的标签集合中挖掘标签成对出现情况，当作标签相关性特征，用复杂度低且可以并行的单标签分类方法计算标签出现的概率，从标签相关性角度提取标签存在概率，同样的用复杂度低可并行的一阶策略对样本特征分类，综合样本实际特征和标签相关性特征的分类结果，实现对多标签的预测。

2.本发明提出衡量邻居信息可靠性，如果基于邻居特征分类的可靠性较高，邻居特征的预测结果权重选取较大值可以帮助保留好的邻居标签关系，同时调整基于原始特征的结果，如果基于邻居特征分类的可靠性较低，特征向量的预测结果权重可以提高原始特征的影响，帮助纠正邻居特征的错误，因此可以综合邻居标签相关性与基于特征分类结果提高分类性能。

附图说明

图1为本发明提供的一种综合邻居标签相关性特征和样本特征的多标签分类的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

多标签分类的定义：设标签集合L＝{l₁,l₂,...l_m}，该集合由m＝|L|个标签组成。对于给定训练数据集D＝{(xi,yi)}，x_i为训练实例，包含d个特征，表示为x_i＝[x_i1,x_i2,...,x_id]^T；y_i为训练实例x_i对应的类别标签，包含m个标签，表示为y_i＝{y_i1,y_i2,...y_im}。若y_im＝1，表明训练实例x_i存在标签l_m；若y_im＝0，表明训练实例x_i不存在标签l_m。1≤i≤n。多标签分类的目标就是学习一个分类函数f:x→2^y，通过分类函数预测测试实例x的标签集合，x∈R^d，代表输入d维特征向量，y＝{1,0}^m代表输出的标签集合。

图1为本发明提供的一种综合邻居标签相关性特征和样本特征的多标签分类的方法流程图。如图1所示，该方法包括以下步骤：

步骤S0.用BR(Binary Relevance)方法将训练数据集D＝{(x_i,y_i)}进行二分类，得到m个转换后的数据集{(x_i,y_ik)}。

BR方法可选取不同的算法，如决策树、随机森林、SVM和神经网络。若y_ik＝1，表明训练实例x_i存在标签l_k；若y_ik＝0，表明训练实例x_i不存在标签l_k。

步骤S1.基于转后的数据集{(x_i,y_ik)}，将邻居标签相关性加入基于样本特征的二分类方法中，训练标签l_k对应二分类器g_k。具体如下：

S14.计算综合概率P_x＝ω₁·p_r+ω₂·p_f；

S15.标签l_k对应二分类器g_k的判断标准如下

其中，表示标签l_k存在于实例，表示标签l_k不存在于实例。

步骤S11.基于邻居相关性特征，预测标签l_k在训练实例x_i中存在的概率p_r。

本发明从邻居实例中提取标签相关性信息，考虑所有标签之间的相互关系，提高分类准确率。

本发明提出了从邻居实例中获取标签相关性的方法，主要思路是寻找相似的邻居样本，从小聚类的相似样本的标签集合中挖掘标签成对出现情况，当作标签相关性特征。相似性度量的方法有很多，本发明优选欧氏距离方法，通过计算两点间的距离衡量样本的相似性。局部的相似样本标签具有相关性，样本标签与其邻居样本的大多数相同，相似样本中以高频率同时存在的标签具有相关性。如果两个事物特征越接近，它们的相似性也就越大，相似的样本大概率属于同一种类型，按照样本亲疏远近聚类，聚类的样本标签具有一致性或者相关联，这种相似性的度量结果可以称为“邻居相关性特征”。邻居相关性特征度量的方法有很多，比如BRKNN方法，IBLR-ML方法，RAKEL方法等。

步骤S12.计算邻居预测标签l_k的可靠性p₁(x)和基于样本特征预测标签l_k的可靠性p₀(x)。具体如下：

S120.计算概率和其中，表示训练实例x_i存在标签l_k，表示训练实例x_i中不存在标签l_k。

等于训练实例x_i存在标签l_k的样本数除以训练数据集的样本总数：

表示训练实例x_i是否有标签l_k，若存在，否则，

S121.计算后验概率和表示测试实例x_i的K个近邻中有个存在标签l_k，N(x_i)为测试实例x_i的K个邻居实例集合。

首先对每个标签l_k，统计整个数据集上有j个邻居有标签l_k且该样本也有标签l_k的数量c[j]，j＝0,1,…,K。如果K近邻中有j个邻居有标签l_k，则c[j]＝c[j]+1。然后统计邻居有j个有标签l_k且其自身也有标签l_k在整体样本上占的比例。

S122.计算邻居预测标签l_k发生的概率p₁(x)和不发生的概率p₀(x)。

p₁(x)用于衡量邻居信息可靠性，进一步修正邻居特征预测结果。

步骤S13.基于p₁(x)和p₀(x)，计算邻居预测结果权重ω₁和样本特征预测结果权重ω₂。

ω₂＝1-ω₁

S2.采用二分类器g_k预测待测实例t是否存在标签l_k，并输出结果y_k。

对于待测实例t，采取与步骤S10-S14相同的方式，计算待测实例t的综合概率P_x。时，二分类器g_k分类结果为+1，表示待测实例t存在标签l_k，y_k＝1；时，二分类器g_k分类结果为-1，表示待测实例t不存在标签l_k，y_k＝0。

选取3个不同领域的基准多标签数据集，包括音频、图片、生物、视频领域的3个真实数据集，统计信息如表1所示，其中每个数据集的标签基数、标签密度、标签集个数各不相同，代表着多标签的稀疏程度、标签之间的耦合关系不同。

表1

选用常见的基于样本的评价指标，在多标签分类模型中，Hamming loss用来衡量样本对应的标签集与预测后的标签集之间，相关标签未出现在预测标签集中或无关标签出现在预测标签集合中的错误匹配情况，Hamming loss越小，预测的差异程度越小，说明准确率越高，算法的性能越好。

采用神经网络，使用本发明所采用的方法及系统，对比Scene、Yeast、Emotions三个数据集加入邻居特征的和未加入邻居特征的准确率，Scene设置邻居数量、Yeast邻居数量、Emotions数量均为10时，各个评价指标达到最优值，这里设置的迭代次数为1000。三个数据集在“神经网络”和“神经网络+本发明的方法”上的Hamming Loss，Hamming Loss考察相关标签未出现在预测标签集中或无关标签出现在预测标签集合中的错误匹配情况，Hamming Loss取值越小，分类系统性能越优。和原始的神经网络相比可以发现，加入了本发明的方法的神经网络在不同数据集上Hamming Loss值均有下降，其中静态场景分类数据集Scene下降了1.1％，基因功能分类数据集Yeast下降了1.7％，音乐情感分类数据集Emotions下降了0.6％，均得到了性能改进。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种综合邻居标签相关性特征和样本特征的多标签分类的方法，其特征在于，该方法包括以下步骤：

S0.用BR方法将训练数据集D＝{(x_i,y_i)}进行二分类，得到m个转换后的数据集{(x_i,yi_k)}；

2.如权利要求1所述的多标签分类的方法，其特征在于，BR方法选取决策树、随机森林、SVM和神经网络的任一种。

3.如权利要求1所述的多标签分类的方法，其特征在于，步骤S1具体如下：

S14.计算综合概率P_x＝ω₁·p_r+ω₂·p_f；

S15.标签l_k对应二分类器g_k的判断标准如下：

其中，表示标签l_k存在于实例，表示标签l_k不存在于实例。

4.如权利要求3所述的多标签分类的方法，其特征在于，步骤S12具体如下：

5.如权利要求4所述的多标签分类的方法，其特征在于，概率和的计算公式如下：

6.如权利要求4所述的多标签分类的方法，其特征在于，p₁(x)和p₀(x)的计算公式如下：

7.如权利要求3所述的多标签分类的方法，其特征在于，步骤S13中ω₁和ω₂的计算公式如下：

ω₂＝1-ω₁。

8.如权利要求3所述的多标签分类的方法，其特征在于，对于待测实例t，采取与步骤S10-S14相同的方式，计算待测实例t的综合概率P_x，时，二分类器g_k分类结果为+1，表示待测实例t存在标签l_k，y_k＝1；时，二分类器g_k分类结果为-1，表示待测实例t不存在标签l_k，y_k＝0。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的多标签分类的方法。