CN107092932A

CN107092932A - 一种基于条件依赖标签集的多标签主动学习方法

Info

Publication number: CN107092932A
Application number: CN201710271035.2A
Authority: CN
Inventors: 吴健; 张宇; 徐在俊
Original assignee: SUZHOU RONGXI INFORMATION TECHNOLOGY Co Ltd
Current assignee: SUZHOU RONGXI INFORMATION TECHNOLOGY Co Ltd
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2017-08-25

Abstract

本发明公开了一种基于条件依赖标签集的多标签主动学习方法，首先在弱标记条件下挖掘出各标签的条件依赖标签集。每次迭代时，在条件依赖标签集的基础上，计算当前未标记样本池中各样本‑标签对的信息熵和相对熵，然后整合信息熵和相对熵得到每个样本‑标签对的信息量，最后筛选出信息量最大的样本‑标签对作为本次迭代用于训练主动学习模型的输入对象。通过实验表明，该主动学习方法相对于其他弱标记条件下挖掘标签间关系的方法具有良好的泛化性能。

Description

一种基于条件依赖标签集的多标签主动学习方法

技术领域

本发明涉及多标签主动学习技术领域，特别是涉及一种基于条件依赖标签集的多标签主动学习方法。

背景技术

随着计算机的快速发展，多标签图像分类的研究已经成为相关领域研究的热点，在学术界和企业界受到越来越多的关注。多标签主动学习方法的作用是处理多标签图像的分类问题，即通过学习得到一个分类器，该分类器能够根据图像的内容为图像分配多个相关的标签。

目前，多标签主动学习领域的研究主流是针对基于“样本-标签对”的多标签主动学习方法的研究。因为相比较基于“样本”的多标签主动学习方法，基于“样本-标签对”的多标签主动学习方法不仅能更大程度上提升主动学习效率，降低训练集空间的样本冗余，也能最大程度上降低人工标记的代价，因此基于“样本-标签对”的多标签主动学习方法逐渐成为研究的热点之一。

但是，所有的基于“样本-标签对”的多标签主动学习方法都不可避免地面临着“弱标记”问题和标签间依赖关系丢失问题，即随着主动学习过程的不断迭代，训练样本中存在着大量不完全标记的样本，而这些不完全标记的样本，从一定程度上对标签关系的挖掘存在着重要的影响。而已有研究表明标签关系在很大程度上影响着多标签主动学习的采样策略，进而影响主动学习结果。

因此，如何解决基于“样本-标签对”的多标签主动学习方法过程中遇到的样本“弱标记”问题，或者如何在“弱标记”条件下挖掘并利用标签关系是本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种基于条件依赖标签集的多标签主动学习方法，用于解决基于“样本-标签对”的多标签主动学习方法过程中遇到的样本“弱标记”问题，或者在“弱标记”条件下挖掘并利用标签关系以进行主动学习。

为解决上述技术问题，本发明提供一种基于条件依赖标签集的多标签主动学习方法，包括：

获取原始样本对应的标签集合，计算所述标签集合中各标签与其余标签的依赖结果以得到各标签对应的条件依赖标签集；

计算各样本-标签对对应的信息熵，并利用所述条件依赖标签集计算各样本-标签对的相对熵；

整合各所述信息熵和各所述相对熵得到对应的各样本-标签对的信息量；

筛选出信息量最大的样本-标签对作为预先建立的主动学习模型的输入对象，并进行主动学习。

优选地，所述计算所述标签集合中各标签与其余标签的依赖结果以得到各标签对应的条件依赖标签集具体包括：

在所述标签集合中按照预处理规则筛选出存在依赖关系的各对标签；

分别为各对标签构建多个基于概率分布的二类分类器模型；

在所述标签集合上进行k次交叉验证，分别获取各所述二类分类器模型与对应的标签的k次平均分类准确率；

按照T-检验计算各标签得到的所述k次分均分类准确率的T-检验值，并将各标签间的最大的T-检验值作为所述依赖结果；

其中，若所述依赖结果大于0，则当前两个标签存在条件依赖关系。

优选地，所述二类分类器模型的数量为四个。

优选地，所述信息熵具体通过当前分类器模型对当前样本-标签对的预测概率值得到。

优选地，所述相对熵具体通过KL散度方式得到。

本发明所提供的基于条件依赖标签集的多标签主动学习方法，首先挖掘出弱标记条件下的各标签的条件依赖标签集，并在条件依赖标签集的基础上，计算各样本-标签对的信息熵和相对熵，然后整合信息熵和相对熵之后得到对应的各样本-标签对的信息量，最后筛选出信息量最大的样本-标签对作为主动学习模型的输入对象。通过实验表明，该主动学习方法相对于其他弱标记条件下挖掘标签间关系的方法具有良好的泛化性能。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于条件依赖标签集的多标签主动学习方法的流程图；

图2为本发明实施例提供的一种弱标记条件下的各对标签的条件依赖关系的挖掘示意图；

图3为本发明实施例提供的在数据集flags上的Accuracy的对比图；

图4为本发明实施例提供的在数据集scene上的Accuracy的对比图；

图5为本发明实施例提供的在数据集NUS_WIDE上的Accuracy的对比图；

图6为本发明实施例提供的在数据集corel5k上的Macro-F1的对比图；

图7为本发明实施例提供的在数据集yeast上的Macro-F1的对比图；

图8为本发明实施例提供的在数据集emotions上的Macro-F1的对比图；

图9为本发明实施例提供的在数据集flags上的Macro-F1的对比图；

图10为本发明实施例提供的在数据集scene上的Macro-F1的对比图；

图11为本发明实施例提供的在数据集NUS_WIDE上的Macro-F1的对比图；

图12为本发明实施例提供的在数据集corel5k上的Macro-F1的对比图；

图13为本发明实施例提供的在数据集yeast上的Macro-F1的对比图；

图14为本发明实施例提供的在数据集emotions上的Macro-F1的对比图；

图15为本发明实施例提供的在数据集flags上的Micro-F1的对比图；

图16为本发明实施例提供的在数据集scene上的Micro-F1的对比图；

图17为本发明实施例提供的在数据集NUS_WIDE上的Micro-F1的对比图；

图18为本发明实施例提供的在数据集corel5k上的Micro-F1的对比图；

图19为本发明实施例提供的在数据集yeast上的Micro-F1的对比图；

图20为本发明实施例提供的在数据集emotions上的Micro-F1的对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

本发明的核心是提供一种基于条件依赖标签集的多标签主动学习方法，用于解决基于“样本-标签对”的多标签主动学习方法过程中遇到的样本“弱标记”问题，或者在“弱标记”条件下挖掘并利用标签关系以进行主动学习。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

需要说明的是，本发明中提到的“弱标记”是指对于一个样本来说，其已被标记的标签数量小于总的标签数量。例如，当前标签集合中包含3个标签，分别是标签1、标签2和标签3，那对于样本1来说，也可能含有这3个标签。但是分类后，样本1中只有标签1和标签2被标记，而标签3未被标记，则样本1存在弱标记问题。

图1为本发明实施例提供的一种基于条件依赖标签集的多标签主动学习方法的流程图。如图1所示，该方法包括：

S10：获取原始样本对应的标签集合，计算所述标签集合中各标签与其余标签的依赖结果以得到各标签对应的条件依赖标签集。

S11：计算各样本-标签对对应的信息熵，并利用所述条件依赖标签集计算各样本-标签对的相对熵。

S12：整合各所述信息熵和各所述相对熵得到对应的各样本-标签对的信息量。

S13：筛选出信息量最大的样本-标签对作为预先建立的主动学习模型的输入对象，并进行主动学习。

需要说明的是，本发明所要解决的主要问题是如何为主动学习模型选择较好的输入对象，从而提高学习的精度，因此主动学习模型的建立请参见现有技术，本发明不再赘述。

步骤S10的作用就是原始样本如果存在弱标记的问题，则如何在标签集合中挖掘各对标签的条件依赖关系。

作为优选地实施方式，步骤S10具体包括如下几个步骤：

S100：在标签集合中按照预处理规则筛选出存在依赖关系的各对标签；

S101：分别为各对标签构建多个基于概率分布的二类分类器模型；

S102：在标签集合上进行k次交叉验证，分别获取各二类分类器模型与对应的标签的k次平均分类准确率；

S103：按照T-检验计算各标签得到的k次分均分类准确率的T-检验值，并将各标签间的最大的T-检验值作为依赖结果；

其中，若依赖结果大于0，则当前两个标签存在条件依赖关系。

为了让本领域技术人员更加清楚步骤S10，给出图2。图2为本发明实施例提供的一种弱标记条件下的各对标签的条件依赖关系的挖掘示意图。通过步骤S10不仅能判断每对标签之间的是否存在条件依赖关系，还给出了每对标签之间条件依赖的量化方式即依赖程度。

如图2所示，条件依赖关系的挖掘主要包括三个部分：数据预处理(对应步骤S100)、模型构建(S101-S102)以及标签间条件依赖量化(S103)。数据预处理是专门针对弱标记多标签数据进行处理的过程，主要任务为每对可能存在依赖关系的标签挑选可用于挖掘标签条件依赖关系的数据，同时剔除无法用于挖掘标签关系的数据，如图2中数据预处理环节所示。数据预处理过程如下：

假设现存在一个标签空间大小为L的标签集合，数据预处理第一步就是对数据进行拆分和重构，由于该标签空间大小为L的标签集合一共存在L(L-1)/2个标签对，因此需要将标签集合拆分成L(L-1)/2组包含对应标签信息的数据集。并将无法用于条件依赖挖掘的数据进行剔除，例如图2中数据预处理环节，由于样本5和样本9存在严重的弱标记问题，导致标签信息不足而无法用于标签关系挖掘，因此在预处理过程中被剔除。这里L＝3，则进行分解后可以得到3组。例如，对于标签1和标签2来说，可用于挖掘标签条件依赖关系的数据就是样本1，样本2和样本3。对于标签1和标签3来说，可用于挖掘标签条件依赖关系的数据就是样本2，样本6和样本8。对于标签2和标签3来说，可用于挖掘标签条件依赖关系的数据就是样本2，样本4和样本7。需要说明的是，本文中的每对标签是指任意两个标签的组合，例如标签1和标签2就是一对标签。

数据预处理之后，需要为每对标签构建多个(图中以四个为例)基于概率分布的二类分类器模型。假设现在需要求解标签l_a和l_b之间是否存在条件依赖关系，我们需要在原始样本的特征空间上构建的原始分类模型h_oa和h_ob分别用于预测标签l_a和l_b，还需构建另外两个在样本特征空间基础上分别将标签l_a和l_b作为扩充属性的分类模型h_ba和h_ab。其中，原始分类模型h_oa和h_ob和扩充属性的分类模型h_ba和h_ab均为二类分类器模型。

在获得这四个模型之后，在现有的数据集上进行k次交叉验证，分别获取模型h_oa和h_ba对标签l_a的k次平均分类准确率AvgAccuracy_oa和AvgAccuracy_ba，以及模型h_ob和h_ab对标签l_b的k次平均分类准确率AvgAccuracy_ob和AvgAccuracy_ab。在获取每组分类模型的准确率之后，采用公式(1)所示的T-检验量化两个模型的分类结果。

其中，和分别是对应分类器模型的k次平均分类准确率的方差的无偏估计量。为了方便描述，公式中的和分别为AvgAccuracy_ab和AvgAccuracy_ob。

对于每一对标签，如果扩充属性的分类器模型的平均分类准确率AvgAccuracy_ab和AvgAccuracy_ba均分别小于原始的分类器模型的平均分类准确率AvgAccuracy_ob和AvgAccuracy_oa，我们认为标签l_a和l_b之间不存在条件依赖关系，其T-检验值均为0。通过上述方法，针对每一对标签l_a和l_b，我们可以得到两个T-检验值t_ab和t_ba，最终，我们以最大的T-检验值表示标签l_a和l_b之间的条件依赖程度，即d_ab＝max{t_ab,t_ba}，d_ab为每一对标签l_a和l_b的依赖程度。

经过上述过程，我们可以得到一个L维的标签间条件依赖矩阵D，如公式(2)所示：

其中，d_ab等于d_ba，在D的基础上，若d_ab＞0我们认为标签la和lb间条件依赖关系成立。在此基础上，依据标签间条件依赖矩阵D，我们可以为标签集中的每一个标签l_i获得一个条件依赖标签集CL(l_i)。

采样策略是主动学习的核心内容，在获取的条件依赖标签集的基础上，提出了一种融合不确定性和依赖标签间信息增益的样本-标签对采样策略，接下来对我们提出的方法进行详述。在多标签主动学习的迭代过程中，如何选择信息量最大的样本-标签对直接决定着主动学习的效果。需要说明的是，本文中的样本-标签对指的是一个样本和一个标签的组合，即“样本-标签对”。本文中使用信息熵来衡量样本-标签对的不确定性，同时利用相关标签之间的相对熵来衡量当前“样本-标签对”在其条件依赖标签集上的信息增益，然后通过整合样本-标签对不确定性和信息增益，选择信息含量最大的样本-标签对。

作为优选地实施方式，信息熵具体通过当前分类器模型对当前样本-标签对的预测概率值得到。当前样本-标签对的信息熵可以通过公式(3)来计算：

其中，p_i表示当前分类器模型对当前样本-标签对的预测概率值。

作为优选地实施方式，相对熵具体通过KL散度方式得到。当前样本-标签对在其条件依赖标签集上的相对熵，可以通过KL散度(Kullback-Leibler Divergence)来计算，如公式(4)所示:

其中，p_i表示当前分类器模型对当前标签的预测概率值，q_i表示当前分类器模型对当前标签的条件依赖标签集中其它标签的预测概率值。基于以上，通过整合信息熵以及相对熵就可以得到对应的各样本-标签对的信息量：

其中，表示当前分类器模型对样本x_j的标签l_i预测的后验概率，x_ij为样本-标签对，表示第i个样本和其第j个标签。这里，如果一个标签的条件依赖标签集合为空，那么以上采样策略仅仅考虑标签的不确定性，即信息熵。整合样本-标签对的不确定性和其在相关标签集合上的相对熵之后，筛选出信息量最大的样本-标签对作为预先建立的主动学习模型的输入对象，并进行主动学习。换句话说，主动学习的输入对象就是：

其中，UD为未标记的样本的集合。

本发明实施例提供的基于条件依赖标签集的多标签主动学习方法，首先挖掘出弱标记条件下的各标签的条件依赖标签集，并在条件依赖标签集的基础上，计算各样本-标签对的信息熵和相对熵，然后整合信息熵和相对熵之后得到对应的各样本-标签对的信息量，最后筛选出信息量最大的样本-标签对作为主动学习模型的输入对象。通过实验表明，该主动学习方法相对于其他弱标记条件下挖掘标签间关系的方法具有良好的泛化性能。

为了更加充分论证本发明提到的主动学习的方法的优势，下文给出具体的实验验证过程。

1)实验数据及相关设置

(1)数据集

为了比较本发明提出的方法的有效性，使用Mulan提供的六个多标签学习研究领域常用的数据集(flags，scene，NUS_WIDE，corel5k，yeast和emotions)进行对比实验，这六个数据集的详细情况如表1所示。

表1实验数据集详情

数据集	领域	样本数	标签数	特征数
					flags	image	194	7	19
scene	image	2407	6	294
					NUS_WIDE	image	269648	81	128
corel5k	image	5000	374	499
					emotions	music	593	6	72
yeast	biology	2417	14	103

(2)对比方法及评价指标

这里，将本发明的方法简称WLMAL，与多标签主动学习中常用的四个代表性方法进行对比。这四个对比方法分别是：

Adaptive：一种基于样本的多标签主动学习方法，通过考虑样本的不确定性和加权的期望标签基数差异制定采样策略。该方法在主动学习的迭代过程中自适应生成权衡因子用于权衡标签基数在采样中的影响。

LMAL：一种基于“样本-标签对”的多标签主动学习方法，通过考虑每个“样本-标签对”的不确定性制定采样策略。

TDAL：一种基于二维思想的“样本-标签对”采样策略，通过考虑标签间的互信息制定采样策略。

MTAL：一种考虑标签间交叉熵和样本不确定性的基于“样本-标签对”的多标签主动学习方法。

实验的评价指标使用多标签主动学习领域常用的三种指标进行比较，即Accuracy，Macro-F1，Micro-F1。

(3)实验设置

在试验中，BRkNN模型被用作所有对比方法统一的基准多标签分类器模型。BRkNN是多标签学习领域一种典型的“问题转换”方法，并且该方法已经在Mulan中进行了完整的实现。对于每一个数据集，首先将其打乱后拆分成三个部分：一个初始训练样本集，一个未标记样本集和一个测试样本集。其中，初始训练样本集的大小为30个样本，测试集的大小为数据集大小的30％，余下样本构成未标记样本集。考虑到每个数据集大小不同，在试验中，针对flags数据集迭代进行100次主动学习过程，对于其他的数据集进行400次迭代。为了方便与基于“样本”的多标签主动学习方法进行对比，在试验中，对基于“样本-标签对”的主动学习方法采用一种批处理的方式，即在每次迭代中一次性采样L个“样本-标签对”用于查询，其中L为每个数据集的标签空间的大小。为了证明各个方法的普遍性，我们对每个方法重复进行10次试验，并对各方法最终的10组试验结果的平均值进行比较。接下来的部分，我们展示了所有对比方法的实验结果，并对所有的实验结果进行详细的分析。

2)实验结果分析

图3-图8分别为本发明实施例提供的在数据集flags、scene、NUS_WIDE、corel5k、yeast、emotions上的Accuracy的对比图。

图9-图14分别为本发明实施例提供的在数据集flags、scene、NUS_WIDE、corel5k、yeast、emotions上的Macro-F1的对比图。

图15-图20分别为本发明实施例提供的在数据集flags、scene、NUS_WIDE、corel5k、yeast、emotions上的Micro-F1的对比图。

图3-图20分别展示了利用WLMAL方法和另外四个对比方法在六个数据集上分别针对评估指标Accuracy、Macro-F1和Micro-F1的10次实验的平均结果。通过这些实验结果，我们可以得出以下结论：本发明提出的主动学习方法相对于其他弱标记条件下挖掘标签间关系的方法具有良好的泛化性能。

以上对本发明所提供的基于条件依赖标签集的多标签主动学习方法进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于条件依赖标签集的多标签主动学习方法，其特征在于，包括：

2.根据权利要求1所述的基于条件依赖标签集的多标签主动学习方法，其特征在于，所述计算所述标签集合中各标签与其余标签的依赖结果以得到各标签对应的条件依赖标签集具体包括：

分别为各对标签构建多个基于概率分布的二类分类器模型；

3.根据权利要求2所述的基于条件依赖标签集的多标签主动学习方法，其特征在于，所述二类分类器模型的数量为四个。

4.根据权利要求1所述的基于条件依赖标签集的多标签主动学习方法，其特征在于，所述信息熵具体通过当前分类器模型对当前样本-标签对的预测概率值得到。

5.根据权利要求1所述的基于条件依赖标签集的多标签主动学习方法，其特征在于，所述相对熵具体通过KL散度方式得到。