CN104166706B

CN104166706B - 基于代价敏感主动学习的多标签分类器构建方法

Info

Publication number: CN104166706B
Application number: CN201410389077.2A
Authority: CN
Inventors: 吴健; 赵世泉; 赵朋朋; 刘纯平; 崔志明
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-08-08
Filing date: 2014-08-08
Publication date: 2017-11-03
Anticipated expiration: 2034-08-08
Also published as: CN104166706A

Abstract

本发明公开了一种基于代价敏感主动学习的多标签分类器构建方法，直接使用每个样本的特定标签的信息，在标记集上训练初始分类器，然后利用当前分类器在未标记集上进行学习，挑选出一定量误分类代价最大的未标注样本的样本‑标签对，标注所选的样本‑标签对的真实标签值，并将它们加入标记集中，更新训练样本集和分类器。本发明仅需要较少的迭代次数就能达到目标误分类代价，学习的效率大大提高；将采样粒度缩小到样本‑标签对，大大减小了标记样本的代价，尤其在标签数目很大的多标签分类中效果更明显。

Description

基于代价敏感主动学习的多标签分类器构建方法

技术领域

本发明涉及一种多标签分类器的构建方法，具体涉及一种代价敏感的多标签分类方法。

背景技术

随着信息技术的发展，多标签数据越来越普及，与多标签分类技术相关的应用正在持续增长，例如：图像和视频的语义标注，功能基因组学和音乐流派分类等。

当提到多标签分类，人们主要关注的是获取最高的精度。然而，有时候在进行预测时，最高的精度并不意味着是最好的结果。例如：一个医疗诊断系统根据病人的病理特征对病人进行诊断，将一个未患癌症的病人诊断为患癌症的代价与将一个癌症患者诊断为未患癌症的代价是不一样的，前一种情况只需花钱复诊即可，而后者可能会贻误患者的治疗时机，危及病人的生命。因此，在这样的场合下，做出预测的时候就需要考虑代价。

在考虑如何训练一个误分类代价不同的分类模型的机器学习中，代价敏感学习是一种有效的方法。代价敏感学习的目标是最小化总误分类代价。与此同时，由于昂贵的标记工作量，主动学习是一种切实可行的方法。

现有技术中，代价敏感的多标签分类方法通常是基于样本实现的，与单标签主动学习类似，每次将未标记集中总误分类代价最大的若干样本加入训练集，从而达到代价敏感的目的。与在单标签学习中每个被选出的样本获取一个标签不同，在多标签主动学习中，将获得被选出的样本的所有标签。定义一个已标记的多标签样本集：，其中，m为样本的个数，它们的标签集为：，l为标签的个数，未标记样本集：，n为未标记的样本的个数。图2 展示了基于样本的采样策略，即采样以样本为基本单位，并为所选择的样本标注其所有的标签类别。在主动学习中，查询选择的目标是选择最具有信息量的样本进行标记来削减版本空间。可以设计一个贪心策略用来选择能最大程度降低总误分类代价的样本。话句话说，如果一个样本被认为具有最高的误分类代价，那就需要从数据库中获得它的标签。

传统的基于样本的代价敏感多标签分类的主动学习方法大致如下。首先，在已标记的多标签样本集上训练初始分类器作为当前分类器，然后利用当前分类器在未标记样本集上进行学习，挑选出若干误分类代价最大的未标记样本，查询所选样本的所有标签，将所选样本加入训练样本集，更新训练样本集和分类器。具体按下列步骤进行处理：

[1]利用当前的已标记的多标签集样本集L训练初始分类器模型；

[2]利用公式计算每个未标记样本的期望误分类代价；即同时考虑样本的所有标签值；

[3]利用公式选择出期望误分类代价最大的h个未标记样本，对选择出的h个未标记样本进行人工标注，添加到训练集样本中，更新分类器；

[4] 测试分类器的分类性能，若分类器的误分类代价达到预定的阈值，或者所选的未标记样本数到达设定的数量，则停止更新分类器；否则转至[2]继续选择误分类代价最大的样本进行标注，更新分类器。

上述方法能够在拥有少量已标记样本的情况下，通过不断迭代和更新分类器，最终实现代价敏感的多标签分类。然而，由于每个未标记的样本可能涉及到多个标签，上述方法导致了标记样本的代价较大，同时，发明人发现，由于一个样本的不同标签对分类器性能的影响程度存在差异，因此采用上述方法进行样本添加实际上常常难以有效提高分类器性能，导致迭代次数增加，降低了学习的效率。

因此，有必要对于基于样本的代价敏感多标签分类的主动学习方法进行改进。

发明内容

本发明的发明目的是提供一种基于代价敏感主动学习的多标签分类器构建方法，以降低多标签样本产生的标记代价，同时保证分类器产生尽可能小的误分类代价。

为达到上述发明目的，本发明采用的技术方案是：一种基于代价敏感主动学习的多标签分类器构建方法，包括下列内容：

(1)构建初始分类器模型

获取已标记的样本集L，样本集L中的每个样本具有l个标签；采用计算机构建初始分类器，分类器的输入为样本的属性值，输出为样本的预测标签值；在所述样本集L上训练初始分类器，获得初始分类器模型，作为当前分类器；

(2)获取未标记样本集U，样本集U中的一个未标记样本为；

(3)采用当前分类器对于未标记样本集U中的每个样本进行分类，获得对应于样本的每一个标签的预测标签值，其中，对应第j个标签的预测标签值为；

(4)采用公式计算样本-标签对的期望误分类代价，式中，为样本对应第j个标签构成的样本-标签对，为样本的第j个标签的假定真实标签值，和为当前分类器提供的后验概率，为样本的第j个标签由假定真实标签值被误分类为的误分类代价；

(5) 利用公式选择h个最高期望误分类代价的样本-标签对构成集合H，其中，表示期望误分类代价最高的样本标签对，1＜h＜n，n为未标记的样本-标签对的个数；

(6) 标注所选择的每个样本-标签对的真实标签值，将标注后的集合H加入已标记的样本集L，在新的样本集L上重新训练分类器，获得更新后的当前分类器；

(7) 测试更新后的当前分类器的分类性能，若分类器的误分类代价达到预定的阈值，或者所选的未标记样本数到达设定的数量，当前分类器即为最终的基于代价敏感主动学习的多标签分类器；否则转至步骤(3)，对当前分类器进行继续学习。

上述技术方案中，所述初始分类器是指现有技术中用于对多标签样本进行分类的分类器，例如，可以采用BRkNN，MLkNN等分类器作为初始分类器。分类器的输入为样本的属性值，即样本的特征信息，输出为样本的预测标签值，通过对分类器中的已标记的样本集的选择，可以提高分类器的性能。在步骤(7)中，误分类代价的阈值根据分类的对象和每个标签的误分类代价预先设定，本领域技术人员能够根据常规的分类知识和经验进行设定，阈值设定的不同仅影响分类器的最高精度，不影响分类器的实现。

本发明的技术方案与基于样本的多标签查询选择不同，直接使用每个样本的特定标签的信息。上述技术方案是基于发明人的这样一个认知，如果当前分类器对当前未标注样本的某个样本-标签对的误分类代价越大，则认为该样本-标签对的价值越大。因此选择具有最高预期误分类代价的样本-标签对，并由专家人工标注它的标签。实验表明采用本发明的技术方案，在达到相同的目标误分类代价条件，需要较少的迭代次数。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1.仅需要较少的迭代次数就能达到目标误分类代价，学习的效率大大提高。

2.将采样粒度缩小到样本-标签对，大大减小了标记样本的代价。尤其在标签数目很大的多标签分类中效果更明显。

3.使用本发明所产生的误分类代价往往低于目标误分类代价。

4.在不同的代价比例的情况下，本发明仍然具有很好的健壮性。

附图说明

图1是本发明实施例中代价敏感主动学习的应用框架；

图2是现有技术中基于样本的采样策略的示意图；

图3是实施例中基于样本-标签的采样策略的示意图；

图4至图9是误分类代价C₀₁=1、C₁₀=2时，基于样本的代价敏感多标签分类主动学习方法和基于样本的随机采样主动学习方法在六个数据集上运行的对比结果；

图10至图15是代价比例C₀₁=1、C₁₀=2时，基于样本-标签对的代价敏感多标签分类主动学习方法和基于样本-标签对的随机采样主动学习方法在六个数据集上运行的对比结果；

图16至图21是在代价比例为C₀₁=1、C₁₀=5时，基于样本-标签对的代价敏感多标签分类主动学习方法和基于样本-标签对的随机采样主动学习方法在六个数据集上运行的对比结果。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：一种基于代价敏感主动学习的多标签分类器构建方法，包括下列内容：

本实施例采用Diagnosis数据集，共有3个标签：Cold、LungCancer和Cough，258个样本，本实施例使用其中的30个样本，每个样本3个标签，即90个样本-标签对作为已标记样本集L，剩下的158个样本作为未标记集U，70个样本作为测试集。每次选择的样本-标签对数目为3个。

其中根据先验知识设定每个标签的误分类代价，如下表所示：

	Cold	LungCancer	Cough
				C₁₁	0	0	0
C₁₀	5	50	7
				C₀₁	1	1	1
C₀₀	0	0	0

本实施例中，使用BRkNN作为基础分类器，在已标记集L上，训练得到初始分类器模型，作为当前分类器。

(1)利用当前分类器模型，对未标记集中的每一个样本进行预测分类，得到每个样本每个标签的预测概率。

(2)利用公式，计算每个样本-标签对的期望误分类代价。

例如，对其中两个样本x ₁和x ₂，当前分类器预测其在三个标签上的概率分别为：

	Cold	LungCancer	Cough
				P(1\|x1)	0.7	0.03	0.6
P(0\|x1)	0.3	0.97	0.4
				P(1\|x2)	0.6	0.1	0.8
P(0\|x2)	0.4	0.9	0.2

每个样本-标签对的期望误分类代价分别为：

E_x1-Cold=0.7×0.3×5+0.7×0.7×0+0.3×0.7×1+0.3×0.3×0=2.52

E_{x1-LungCancer}=0.03×0.97×50+0.03×0.03×0+0.97×0.03×1+0.97×0.97×0=2.9682

E_x1-Cough=0.6×0.4×7+0.6×0.6×0+0.4×0.6×1+0.4×0.4×0=3.84

E_x2-Cold=0.6×0.4×5+0.6×0.6×0+0.4×0.6×1+0.4×0.4×0=2.88

E_{x2-LungCancer}=0.1×0.9×50+0.1×0.1×0+0.9×0.1×1+0.9×0.9×0=9.18

E_x2-Cough=0.8×0.2×7+0.8×0.8×0+0.2×0.8×1+0.2×0.2×0=2.56

(3)对这些样本-标签对的期望误分类代价进行排序，选择期望误分类代价最大的3个样本-标签对，即将样本-标签对x ₂-LungCancer、x ₁-Cough和x ₁-LungCancer，构成样本-标签对集合H。

(4)对挑选出的样本-标签对集合H进行人工标注，并将H加入已标记集L中，重新训练分类器，从而得到性能较高的代价敏感多标签分类器。

(5)当分类器性能达到预定值或迭代次数达到预定值时，结束学习过程。

实施例二：参见图1和图3所示，一种基于代价敏感主动学习的多标签分类器构建方法，包括下列内容：

本实施例采用flags数据集，共有7个标签（labels），194个样本，其中135个样本用作建立pool，59个样本用于测试。随机选择210个样本-标签对训练初始分类器，每次迭代选择35个labels。

本实施例中，采用BRkNN作为初始分类器算法，构建初始分类器；利用样本pool训练初始分类器，得到当前分类器；

采用当前分类器对于测试样本进行分类，获得预测标签值，计算样本-标签对的期望误分类代价，选择35个最高风险的样本-标签对进行标记，加入训练集，重新训练分类器，获得更新后的当前分类器；

以第20次迭代为例，说明如下：

（1）pool的样本-标签对的期望误分类代价情况：

样本	标签	误分类代价	样本	标签	误分类代价
						0	0	0.013503099784261605	1	0	0.013503099784261605
2	0	0.013503099784261605	0	1	0.27053836802942993
						1	1	0.27053836802942993	0	2	0.002293576639002862
1	2	0.013708774306321947	2	2	0.27055072182099915
						3	2	0.013708774306321947	4	2	0.002293576639002862
0	3	0.002293576639002862	1	3	0.013708774306321947
						2	3	0.27055072182099915	3	3	0.27055072182099915
4	3	0.002293576639002862	0	4	0.012379429809834915
						1	4	0.013605159790578077	2	4	0.013605159790578077
3	4	0.013605159790578077	0	5	0.0022590348617121986
						1	5	0.0022590348617121986	2	5	0.0022590348617121986
0	6	0.003416852049526153	1	6	0.2708206295692921
						2	6	0.2708206295692921	3	6	0.003416852049526153
4	6	0.003416852049526153	5	6	0.003416852049526153
						6	6	0.003416852049526153	7	6	0.003416852049526153
8	6	0.003416852049526153	9	6	0.003416852049526153
						10	6	0.003416852049526153	11	6	0.003416852049526153
12	6	0.003416852049526153	13	6	0.003416852049526153
						14	6	0.2708206295692921	15	6	0.003416852049526153
16	6	0.003416852049526153	17	6	0.003416852049526153
						18	6	0.003416852049526153	19	6	0.2708206295692921
20	6	0.003416852049526153	21	6	0.2708206295692921
						22	6	0.003416852049526153	23	6	0.003416852049526153
24	6	0.003416852049526153	25	6	0.2708206295692921
						26	6	0.003416852049526153	27	6	0.003416852049526153
28	6	0.003416852049526153	29	6	0.003416852049526153
						30	6	0.003416852049526153	31	6	0.003416852049526153
32	6	0.2708206295692921	33	6	0.2708206295692921
						34	6	0.2708206295692921	35	6	0.003416852049526153
36	6	0.2708206295692921	37	6	0.003416852049526153
						38	6	0.003416852049526153	39	6	0.2708206295692921
40	6	0.003416852049526153	41	6	0.003416852049526153
						42	6	0.003416852049526153	43	6	0.003416852049526153
44	6	0.003416852049526153	45	6	0.2708206295692921
						46	6	0.003416852049526153	47	6	0.003416852049526153

（2）选择的样本-标签对如下：

样本	标签	误分类代价	样本	标签	误分类代价
						1	6	0.2708206295692921	2	6	0.2708206295692921
14	6	0.2708206295692921	19	6	0.2708206295692921
						21	6	0.2708206295692921	25	6	0.2708206295692921
32	6	0.2708206295692921	33	6	0.2708206295692921
						34	6	0.2708206295692921	36	6	0.2708206295692921
39	6	0.2708206295692921	45	6	0.2708206295692921
						2	2	0.27055072182099915	2	3	0.27055072182099915
3	3	0.27055072182099915	0	1	0.27053836802942993
						1	1	0.27053836802942993	1	2	0.013708774306321947
3	2	0.013708774306321947	1	3	0.013708774306321947
						1	4	0.013605159790578077	2	4	0.013605159790578077
3	4	0.013605159790578077	0	0	0.013503099784261605
						1	0	0.013503099784261605	2	0	0.013503099784261605
0	4	0.012379429809834915	0	6	0.003416852049526153
						3	6	0.003416852049526153	4	6	0.003416852049526153
5	6	0.003416852049526153	6	6	0.003416852049526153
						7	6	0.003416852049526153	8	6	0.003416852049526153
9	6	0.003416852049526153

（3）将以上选择的样本-标签对分别加入到训练集中，重新训练分类器，从而得到性能较高的代价敏感多标签分类器。

（4）当分类器性能达到预定值或迭代次数达到预定值时，结束学习过程。

实施例三：

在下表所示的六个数据集birds、enron、genbase、medical、CAL500和bibtex上，对本发明的方法进行对比验证。

对比的方法分别为：

LCam：本发明的基于标签的代价敏感主动学习方法；

ECam：基于样本的代价敏感主动学习方法；

ERnd：基于样本的随机选择主动学习方法；

LRnd：基于标签的随机选择主动学习方法。

表1数据集属性

名称	领域	样本数	标签数
				birds	音频	322	19
enron	文本	1702	53
				genbase	生物	662	27
medical	文本	978	45
				CAL500	音乐	502	174
bibtex	文本	7395	159

表2是在代价比例为C₀₁=1、C₁₀=2时基于样本和基于样本-标签对的代价敏感多标签主动学习方法达到目标时所需的迭代次数。

表2

数据集	birds	enron	genbase	medical	CAL500	bibtex
							ECam	16	102	35	/	37	154
LCam	9	13	78	33	3	44

图4至图9是误分类代价C₀₁=1、C₁₀=2时，基于样本的代价敏感多标签分类主动学习方法和基于样本的随机采样主动学习方法在六个数据集上运行的对比结果。

水平轴代表迭代次数。在每次迭代中，ECam和ERnd都为五个选择的样本获得完备的标签。纵轴代表平均误分类代价。绿色的实线表示ERnd的实验结果，蓝色线表示ECam的实验结果，红色的虚线代表目标误分类代价。图4显示了在六个数据集中的四个数据集上，ECam的表现比ERnd好得多，在一确定数目的迭代之后，能达到目标误分类代价。同时发现，ECam在另外两个数据集上的表现并不比ERnd好。

水平轴代表迭代次数。在每次迭代中，当这些样本标签对被选择出以后，LCam和LRnd都要从数据库中获得5×l个标签。纵轴代表平均误分类代价。绿色实线是LRnd的实验结果，蓝线是LCam的实验结果，红色虚线代表目标误分类代价。通过图5和图6，可以看出我们提出的方法LCam可以快速地达到目标，且明显优于LRnd。

Claims

1. 一种基于代价敏感主动学习的多标签分类器构建方法，包括下列内容：

(1)构建初始分类器模型

(2)获取未标记样本集U，样本集U中的一个未标记样本为；