CN104657745B

CN104657745B - 一种已标注样本的维护方法及双向学习交互式分类方法

Info

Publication number: CN104657745B
Application number: CN201510046891.9A
Authority: CN
Inventors: 张晓宇; 王树鹏; 吴广君
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2015-01-29
Filing date: 2015-01-29
Publication date: 2017-12-15
Anticipated expiration: 2035-01-29
Also published as: CN104657745A

Abstract

本发明公开了一种已标注样本的维护方法及双向学习交互式分类方法。本方法一方面采用正向学习从未标注集中选取最有价值的样本，另一方面采用反向学习从已标注集中检测并处理导致模型性能退化潜在噪声，从而优化改善已标注集；本发明通过正向学习与反向学习的有机结合、借助人机交互机制，获得高效、优化的海量数据分类模型，对未标注样本进行分类。本发明通过正向学习与反向学习的有机结合，在高效利用标注信息的同时自动优化标注信息，实现高效化、智能化的交互式分类。

Description

一种已标注样本的维护方法及双向学习交互式分类方法

技术领域

本发明涉及一种基于双向主动学习的交互式分类方法，属于软件工程技术领域。

背景技术

数据分类一直是人们的研究热点，比如专利ZL 201010166225.6“一种基于在线学习的自适应级联分类器训练方法”，专利ZL 200910076428.3“一种跨领域的文本情感分类器的训练方法和分类方法”，专利ZL 200810094208.9“文档分类器生成方法和系统”。

在海量数据分类的实际应用中，专家提供的标注信息对于分类模型训练具有至关重要的指导作用。但是，单纯的人工标注费时费力，难以大规模开展，因此，通过人机交互方式，有效利用专家标注信息并将其与机器自动学习有机结合成为相关领域的关键问题。传统的机器学习采用的大都是“被动学习”的模式，机器只能被动地接受专家标注的样本进行模型训练，这些样本或者是预先准备的、或者是随机采集的，由于缺乏有针对性的样本选择，因此对于分类模型的改进效果有限。相比较而言，“主动学习”则是一种更为高效的机器学习方法，其主要思想是：由机器主动地、有针对性地选择最有信息的样本交给专家进行标注(向专家提出查询)，从而在有限的样本标注量下获得尽可能大的分类性能提升。在样本标注代价高且数量有限、而未标注样本多且易于获得的应用情境下，主动学习的优势尤为明显。

主动学习的有效性源于对未标注样本的深入挖掘，通过度量每个未标注样本对于分类模型改进的贡献有针对性地选取最有价值的样本，从而保证了方法的高效性，比如参考授权专利：ZL 201210050383“基于主动学习和半监督学习的多类图像分类方法”；ZL200810082814.9“用于使提升分类器适合于新样本的方法”。由此可见，选择性采样策略是主动学习的关键环节。

现有选择性采样策略大致包括以下几种类型：(1)基于不确定度：将其当前模型最不确定如何进行分类的样本提交给专家标注(参考文献：D.Lewis and J.Catlett,“Heterogeneous uncertainty sampling for supervised learning,”In Proc.oftheInternational Conference on Machine Learning,1994,pp.148–156.)；(2)基于组合决策：从不同模型出发，采用投票模式，将分歧最大的样本提交给专家标注(参考文献：S.Tongand D.Koller,“Support vector machine active learning with applications totext classification,”In Proc.of the International Conference on MachineLearning.,2000,pp.999–1006.)；(3)基于期望误差最小化：从决策理论出发，估计未标注样本被标注之后模型的期望误差，最终选择能够获得最小期望误差的样本提交给专家标注(参考文献：X.Zhu,J.Lafferty,and Z.Ghahramani,“Combining active learning andsemisupervised learning using Gaussian fields and harmonic functions,”InProc.of the ICML Workshop on the Continuum from Labeled to Unlabeled Data,2003,pp.58–65.)。

如前文所述，主动学习的有效性源于对未标注样本的深入挖掘。但是，现有主动学习方法中鲜有针对已标注数据的分析，已标注信息被学习模型无条件地接受并用于模型更新。从数据流向的角度看，上述方法可以归结为“单向主动学习”：一旦某样本标注后，便从未标注集中去除并加入已标注集，从而形成了一条从未标注集指向已标注集的单向路径。

单向主动学习流程如图1所示，在单向主动学习中，样本被标注后便始终处于已标注集中，并对此后的模型更新产生持续影响，这在理想(即无噪声存在)的情况下是没有问题的，但在实际应用场景中噪声在所难免，这些噪声或者来源于标注过程的人为错误、或者来源于样本本身(即外点)，各种噪声的存在会始终制约模型性能的有效提升。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种基于双向主动学习的交互式分类方法，实现针对未标注样本和已标注样本的双向挖掘，一方面采用正向学习从未标注集中选取最有价值的样本，另一方面采用反向学习从已标注集中检测并处理导致模型性能退化潜在噪声，通过正向学习与反向学习的有机结合、借助人机交互机制，获得高效、优化的海量数据分类模型。

从分类模型优化的角度出发，高效的主动学习既应包括“对新知识的获取”也应包括“对已有知识的检视”，两者都是机器学习的重要组成部分。传统的基于单向主动学习的分类方法只注重“对新知识的获取”，却忽略了“对已有知识的检视”，从而导致在实际应用中受各种来源的噪声困扰，严重影响了模型泛化性能的提升。

本发明的技术方案为：

一种已标注样本的样本维护方法，其步骤为：

1)选取一已标注样本集L和利用该样本集L进行训练的样本分类模型；

2)对于该已标注样本集L中的每一样本，计算在所述样本从已标注样本集L中去除或所述样本的标注信息发生变化的情况下，分类模型的期望误差；

3)根据步骤2)的计算结果，选取期望误差小于设定阈值的样本或期望误差最小的若干样本作为反向样本；

4)对所述反向样本进行二次标注或根据样本相似度选取所述反向样本的近邻样本进行标注后加入到该已标注样本集L中。

一种双向学习交互式分类方法，其步骤为：

1)基于所述已标注样本集L进行模型训练，得到一样本分类模型；

2)分别计算未标注集U中每个样本在标注后样本分类模型的期望误差，选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为正向样本；

3)对于该已标注样本集L中的每一样本x，将该样本x的标注设定为不同于已标注值y_i*的其它值y_i(i≠i*)，然后利用修改后的样本集计算该样本分类模型的期望误差Info_BL(x)；

4)根据步骤3)的计算结果，选取期望误差小于设定阈值的样本或期望误差最小的若干样本作为反向样本；

5)对步骤2)所选正向样本进行标注后加入到已标注样本集L中；对步骤4)所选反向样本进行二次标注或根据样本相似度选取所述反向样本的近邻样本进行标注后加入到该已标注样本集L中；然后利用更新后的已标注样本集L进行模型训练，更新所述样本分类模型；

6)循环迭代执行步骤2)～5)设定次数后，利用最终得到的样本分类模型对未标注样本进行分类。

进一步的，根据公式计算所述期望误差Info_BL(x)；其中，x^u表示未标注样本(x^u∈U)，x表示已标注样本(x∈L)；H(y|x；θ_L)表示在给定样本x和模型参数θ_L的条件下相应标注y的信息熵，θ_L表示对应于已标注集L的模型参数；L|(x,y_i)表示已标注样本集L中样本x被标注为y_i后的标注样本集合，y_i表示样本x被标注为标注集合{1,2,...,K}中的第i个标注值；y^u表示未标注样本x^u的标注值；Z是归一化参数：P(y|x；θ_L)为样本分类模型的后验概率，θ_L表示对应于已标注集L的模型参数；L\(x,y_i*)表示从已标注样本集L中去除样本(x,y_i*)后的已标注集，y_i*为样本x的已标注值。

一种已标注样本的样本维护方法，其步骤为：

3)根据步骤2)的计算结果，选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为反向样本；

4)从该已标注样本集L中删除所选反向样本。

一种双向学习交互式分类方法，其步骤为：

3)对于该已标注样本集L中的每一样本x，从该已标注样本集L中去除该样本x，然后利用剩余样本计算该样本分类模型的期望误差Info_BL(x)；

4)根据步骤3)的计算结果，选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为反向样本；

5)对步骤2)所选正向样本进行标注后加入到已标注样本集L中；从该已标注样本集L中删除步骤4)所选反向样本；然后利用更新后的已标注样本集L进行模型训练，更新所述样本分类模型；

进一步的，利用公式计算所述期望误差Info_BL(x)；其中，x^u表示未标注样本(x^u∈U)，x表示已标注样本(x∈L)；H(y|x；θ_L)表示在给定样本x和模型参数θ_L的条件下相应标注y的信息熵，θ_L表示对应于已标注集L的模型参数；y^u表示未标注样本x^u的标注值；L\(x,y_i)表示从已标注样本集L中去除样本(x,y_i)后的已标注集，y_i表示样本x被标注为标注集合{1,2,...,K}中的第i个标注值。

本发明提供的基于双向主动学习的交互式分类方法包括正向学习和反向学习两部分，分别对应于“获取新知识”和“检视已有知识”的学习过程。其中，正向学习从未标注集中选取最有价值的样本进行标注从而有效扩展已标注集，反向学习从已标注集中检测并处理影响模型泛化性能的潜在噪声从而优化改善已标注集。

双向主动学习流程如图2所示，该方法中的样本用特征向量x表示，标注用y＝{1,2,...,K}表示，未标注集和已标注集分别用U和L表示，分类模型用后验概率P(y|x；θ_L)表示，其中θ_L表示对应于已标注集L的模型参数。

一、正向学习

该方法中的正向学习用于挖掘未标注集，旨在从未标注集中选取最有信息的样本(称为“正向样本”)进行标注。

正向学习样本选取方法为：分别计算未标注集中每个样本在标注后模型的期望误差，选取最小化期望误差的样本作为正向样本，依据公式如下：

公式(1)

其中，L+(x,y_i)表示样本(x,y_i)加入已标注集L之后的新已标注集；

公式(2)

H(y|x；θ)表示在给定样本x和模型参数θ的条件下，相应标注y的信息熵；y_i表示第i类对应的标注。

若批量选取正向样本，则可以选取Info_FL值最小的N个样本作为正向样本，或选取Info_FL值小于设定阈值的若干个样本作为正向样本。

选取正向样本之后，算法将该样本以人机交互的形式主动提交给专家进行标注，标注完成后该样本从未标注集去除并加入已标注集。

正向学习流程如下所示：

二、反向学习

该方法中的反向学习用于挖掘已标注集，旨在从已标注集中检测并处理影响模型泛化性能的潜在噪声(称为“反向样本”)。

1、反向样本检测

反向学习噪声检测用于定位阻碍分类模型性能提升的噪声，噪声检测方式包括样本级检测和标注级检测两种。

样本级检测用于定位噪声样本本身，方法为：分别计算已标注集中每个样本从已标注集中去除后模型的期望误差，选取最小化期望误差的样本作为反向样本，依据公式如下：

公式(3)

其中，L\(x,y_i)表示从已标注集L中去除样本(x,y_i)之后的新已标注集；x^u、y^u分别表示未标注样本及其标注；y_i*表示专家赋予样本x的标注，也即样本x的已标注值。公式(3)的最后一个等式的依据是概率属性：

标注级检测用于定位噪声样本的特定标注，方法为：分别计算已标注集中每个样本在除现有标注外其它标注情况下模型的期望误差(即某个已标注样本x，如果不取其现在的标注值，而取其它值的条件下，模型的期望误差)，选取最小化期望误差的样本作为反向样本，依据公式如下：

公式(4)

其中，L|(x,y_i)表示已标注集L中样本x被标注为y_i(而非y_i*)之后的新已标注集；Z是归一化参数：

公式(5)

若批量选取正向样本，则可以选取Info_BL值最小的N个样本作为反向样本，或选取Info_BL值小于设定阈值的若干个样本作为反向样本。

2、反向样本处理

反向学习噪声处理用于消减噪声对分类模型性能的负面影响，噪声处理方式包括Undo-撤销、Redo-重新标注和Redo-重新选取三种。

Undo-撤销用于处理公式(3)样本级噪声检测所获得的噪声样本，将所检测出的噪声样本从已标注集中去除以消除噪声影响。

Redo-重新标注用于处理公式(4)标注级噪声检测所获得的噪声样本，对噪声样本进行二次标注并将二次标注作为样本标注，以验证噪声样本的标注信息。

Redo-重新选取用于处理公式(4)标注级噪声检测所获得的噪声样本，根据样本特征向量之间的相似度选取噪声样本的近邻样本进行标注(而并不对噪声样本本身的标注进行处理)，以验证噪声样本的标注信息。

反向学习流程如下所示：

与现有技术相比，本发明的积极效果为：

本发明所提供的基于双向主动学习的交互式分类方法，将正向学习与反向学习有机结合到交互式分类过程中，实现了分别针对未标注样本和已标注样本进行双向挖掘，一方面通过从未标注集中选取最有价值的样本实现标注样本的高效交互式获取，另一方面通过从已标注集中检测并处理导致模型性能退化潜在噪声实现已标注集的自动优化去噪，为专家智慧指导下的海量数据高效分类提供了一种智能化解决方案。

1、所提供的方法分别针对未标注样本和已标注样本进行双向挖掘，一方面通过正向学习从未标注集中选取最有价值的样本以实现已标注集的扩展，另一方面通过反向学习从已标注集中检测并处理导致模型性能退化潜在噪声以实现已标注集的改进，通过正向学习与反向学习的有机结合，在高效利用标注信息的同时自动优化标注信息，实现高效化、智能化的交互式分类；

2、所提供的反向学习噪声检测方法支持样本级和标注级的潜在噪声检测，分别从已标注样本本身和已标注样本的标注信息出发，度量潜在噪声对分类模型性能的影响，从而自动定位已标注集中的潜在噪声；

3、所提供的反向学习噪声处理方法支持撤销、重新标注、重新选取三种处理操作，从而对已标注集进行自动优化，以实现对模型负面影响的有效消减。

附图说明

图1为单向主动学习流程图；

图2为双向主动学习流程图；

图3为本发明提供的基于双向主动学习的交互式分类方法流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明提供的基于双向主动学习的交互式分类方法如图3所示，通过循环迭代过程实现分类模型的逐步优化。

设每轮循环迭代需要通过人机交互由专家标注N_L个样本，在每轮循环迭代内部执行以下流程：

方法执行结束后，设循环迭代次数为K，则通过人机交互由专家标注的样本总量为K×N_L。本发明提供的基于双向主动学习的交互式分类方法能够在有限的样本标注量下获得最优化的分类效果。

以图像分类为例，图像样本用颜色直方图、小波纹理等组成的特征向量x表示；图像分为汽车、轮船、飞机、老虎、大象、马等10类，分别用数字1～10表示，则图像标注用y＝{1,2,…,10}表示；未标注图像构成未标注集U，已标注图像构成已标注集L表示；分类模型用后验概率P(y|x；θ_L)表示。

为了提升分类模型的性能，执行如下流程：

1)一方面通过正向学习，根据公式(1)从U中选取最有信息的未标注图像交给专家进行标注；

2)另一方面通过反向学习，对L中的已标注图像进行维护，分为反向样本检测和处理两步：

2.1)反向样本检测分为样本级检测和标注级检测两种方法：样本级检测对应于公式(3)，标注级检测对应于公式(4)。假设图像A被标注为“老虎(对应于数字4)”，则根据公式(3)计算的Info_BL表示从已标注集L中去除(A,4)后模型的期望误差，根据公式(4)计算的Info_BL表示将图像A标注为除“老虎”之外的其它9个类别(如：汽车、轮船、飞机、大象、马等)后模型的期望误差。

2.2)反向样本处理包括Undo-撤销、Redo-重新标注和Redo-重新选取三种：Undo-撤销用于处理公式(3)样本级检测所获得的反向样本，将所检测出的图像(A,4)从已标注集L中去除；Redo-重新标注用于处理公式(4)标注级检测所获得的反向样本，对图像(A,4)进行二次标注并将二次标注作为样本标注，若图像A被二次标注为“大象”则该反向样本修改为(A,5)，若图像A被二次标注仍为“老虎”则该反向样本仍为(A,4)；Redo-重新选取用于处理公式(4)标注级检测所获得的反向样本，根据图像特征向量之间的相似度选取图像A的近邻样本B进行标注(而并不对图像A本身的标注进行处理)，并将图像B加入已标注集L。

3)将新的已标注集L作为训练数据重新训练图像分类模型，进而获得改进的图像分类结果。

Claims

1.一种双向学习交互式分类方法，其步骤为：

1)基于已标注样本集L进行模型训练，得到一样本分类模型；

2.如权利要求1所述的方法，其特征在于，利用公式计算所述期望误差Info_BL(x)；其中，x^u表示未标注样本(x^u∈U)，x表示已标注样本(x∈L)；H(y|x；θ_L)表示在给定样本x和模型参数θ_L的条件下相应标注y的信息熵，θ_L表示对应于已标注集L的模型参数；y^u表示未标注样本x^u的标注值；L\(x,y_i)表示从已标注样本集L中去除样本(x,y_i)后的已标注集，y_i表示样本x被标注为标注集合{1,2,...,K}中的第i个标注值。

3.一种双向学习交互式分类方法，其步骤为：

1)基于已标注样本集L进行模型训练，得到一样本分类模型；

3)对于该已标注样本集L中的每一样本x，将该样本x的标注设定为不同于已标注值的其它值y_i(i≠i^*)，然后利用修改后的样本集计算该样本分类模型的期望误差Info_BL(x)；

4.如权利要求3所述的方法，其特征在于，根据公式计算所述期望误差Info_BL(x)；其中，x^u表示未标注样本(x^u∈U)，x表示已标注样本(x∈L)；H(y|x；θ_L)表示在给定样本x和模型参数θ_L的条件下相应标注y的信息熵，θ_L表示对应于已标注集L的模型参数；L|(x,y_i)表示已标注样本集L中样本x被标注为y_i后的标注样本集合，y_i表示样本x被标注为标注集合{1,2,...,K}中的第i个标注值；y^u表示未标注样本x^u的标注值；Z是归一化参数：P(y|x；θ_L)为样本分类模型的后验概率，θ_L表示对应于已标注集L的模型参数；表示从已标注样本集L中去除样本后的已标注集，为样本x的已标注值。