CN107247996A

CN107247996A - 一种应用于异分布数据环境的主动学习方法

Info

Publication number: CN107247996A
Application number: CN201710512292.0A
Authority: CN
Inventors: 吴伟宁
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2017-10-13

Abstract

本发明提供了一种应用于异分布数据环境的主动学习算法。包括具体步骤：在训练数据上训练分类模型；使用分类模型预测未标注样本所属类别；若样本属于该类别，使用训练数据的密度函数计算样本信息含量，若样本不属于该类别，使用未标注数据上分类模型的期望风险改变大小计算样本信息含量；对未标注样本的信息含量进行排序；选取对分类模型训练最有利的样本，添加标注信息后加入训练数据集；上述步骤迭代进行，直至学习算法的标注代价或分类模型精度达到预设标准为止。本发明利用分类模型对未标注样本所属类别的预测结果，分别选择不同标准估计待选样本的信息含量，保证了异分布数据环境下主动学习能够以较低标注代价获得高泛化能力的分类模型。

Description

一种应用于异分布数据环境的主动学习方法

技术领域

本发明涉及的是一种主动学习算法。

背景技术

目前，公知的基于监督学习的分类模型训练过程需要预先收集一组标注数据，利用该标注数据作为训练集学习分类模型。在这一学习框架下，训练数据的数量及质量直接决定了所获得分类模型的性能。因而，为了获取一个高泛化能力的分类模型，往往需要以较高的代价获取训练所需的标注数据。

当标注数据获取代价大且获取难度高，但是无标注数据廉价易得时，主动学习通过选择部分未标注样本添加标记的方法来获取训练所需的标注数据，达到了降低获取高泛化能力分类模型所需标注代价的目的，并在各个应用领域取得了显著效果，获得了广泛重视。

主动学习的基本过程是：首先，标注少部分数据并训练初始分类模型；利用该分类模型对未标注数据进行预测，根据该预测结果选取最有利于当前分类模型训练的样本，添加标注信息后加入训练集；在更新后的训练集上重新训练分类模型；上述过程迭代进行，直至分类模型达到既定的精度要求或者标注代价达到既定标准为止。

传统的主动学习方法面临的主要挑战之一是数据的同分布假设。为了保证所学习的分类模型在测试分布上的无偏性，假定训练数据与测试数据来自相同的实验环境，其分布具有相同的统计特征。然而，随着计算能力和存储技术的发展，学习任务面临的数据来源也越来越广泛，其数量和种类也日趋多样化。同时，数据收集环境的多变性也很难保证这些数据具有相同的分布特征，例如：在视频监控任务中，受到室内外环境的影响，实验室条件下获取的训练数据与真实环境中测试数据很难保持完全一致；在垃圾邮件过滤任务中，分类器往往使用预先收集的语料库进行训练，却应用于在线实时检测任务；在遥感图像检测任务中，监测系统可能被用于境外区域，该目标区域的植被环境和光照条件都会对测试数据产生影响，导致与训练数据不同的测试分布。因此，这一假设条件在现实任务中过于严格以至于难以得到满足，进而影响了主动学习方法的应用效果。

发明内容

本发明的目的在于提供一种在训练数据和测试数据分布不同条件下，以最小的标注代价学习一个高泛化能力的分类模型的应用于异分布数据环境的主动学习方法。

本发明的目的是这样实现的：

步骤一：在主动学习的每轮迭代过程中，使用观察到的训练数据训练分类模型；

步骤二：使用所述分类模型预测未标注数据集中每个样本的所属类别；

步骤三：根据样本是否属于当前学习类别，分别调用不同的样本信息含量估计函数对其包含的信息含量进行估计，具体包括：

当样本属于当前学习类别时，使用训练数据集上的分布密度函数p(x)估计该样本x的信息含量，其估计过程为：

其中，w表示分类模型的参数向量，R_U(w)为未标注数据集上分类模型的期望风险，为训练数据集上使用密度函数对每个标注样本加权后计算得到的分类模型风险值，其计算过程为：

m为样本个数；

当样本x不属于当前学习类别时，使用该样本对未标注数据集U上分类模型的期望风险的影响G(U,x)作为其信息含量度量标准，其估计过程为：

其中，表示当未标注样本x添加标注信息并加入训练数据集后，相应的分类模型的增益值，其计算过程为：

步骤四：对所有未标注样本的信息含量按照升序排序，选择对分类模型训练最有帮助的样本x^*；

步骤五：将所选择的样本x^*添加标注信息，并将所选样本及其对应的正确标注信息{x^*,y^*}添加到训练数据集中，同时，将未标注样本x^*从未标注样本集中移除；

步骤六：重复进行步骤一至步骤五，直至分类模型的精度或者所选样本的标注代价达到既定标准为止。

本发明还可以包括：

所述的未标注数据集上分类模型的期望风险R_U(w)的估计过程为：

其中：

μ_y,σ_y分别表示分类模型在未标注数据集上输出值的均值和方差，使用plug-in估计过程迭代获得：

其中：

这里表示分类模型对未标注样本x_i的计算输出值。

本发明提出了一种异分布数据环境下的主动学习算法。通过设计样本选择策略，克服数据分布不同对分类模型训练的影响，保证主动学习的实际应用效果。

本发明的目的是在训练数据和测试数据分布不同条件下，以最小的标注代价学习一个高泛化能力的分类模型。本发明的有益效果：本发明利用分类模型对未标注样本所属类别的预测结果作为先验知识，分别选择不同函数计算样本包含的信息含量。利用了训练数据的密度信息和未标注数据对分类模型训练的影响程度，克服了异分布条件对样本选择过程的干扰，从而在标注代价最小的条件下学习一个高泛化能力的分类模型。

附图说明

图1为本发明的流程图；

图2为本发明与其它主动学习方法在MIRFLICKR数据集上分别训练L1规则化分类模型所得平均精度比较结果；

图3为本发明与其它主动学习方法在MIRFLICKR数据集上分别训练L1规则化分类模型所所返回前25幅图像的准确度比较结果；

图4为本发明与其它主动学习方法在MIRFLICKR数据集上分别训练L2规则化分类模型所得平均精度比较结果；

图5为本发明与其它主动学习方法在MIRFLICKR数据集上分别训练L2规则化分类模型所所返回前25幅图像的准确度比较结果。

具体实施方式

为了实现上述目的，本发明采用的技术方案主要包括：假设在主动学习第t轮迭代中，所观察到的训练数据集为未标注数据集为

步骤一，在观察到的训练数据集D上训练一个参数为w的分类模型。

步骤二，使用所学习的分类模型对未标注数据集中每个样本x∈U所属类别y进行预测。

步骤三，当分类模型预测该未标注样本属于当前学习类别时，使用训练数据集上的分布密度函数p(x)计算该样本的信息含量，计算过程如下：

其中，R_U(w)为未标注数据集上分类模型的期望风险，为训练数据集上使用密度函数对每个标注样本加权后计算得到的分类模型风险值，计算过程如下：

步骤四，当分类模型预测该未标注样本不属于当前学习类别时，使用该样本添加标注后对分类模型在未标注数据集上风险期望值的改变G(U,x)计算该样本的信息含量，计算过程如下：

这里，表示当未标注样本x添加标注信息并加入训练数据集后，相应的分类模型的增益值，计算过程如下：

步骤五，对所有未标注样本的信息含量按照升序排序，选择对分类模型训练最有帮助的样本x^*。

步骤六，将所选择的样本x^*添加标注信息，将所选样本及其对应的正确标注信息{x^*,y^*}添加到训练数据集D中，并将未标注样本x^*从未标注样本集U中移除。

步骤七，重复进行步骤一至步骤六，直至分类模型的精度或者标注代价达到既定标准为止。

所述步骤三和步骤四中，未标注数据集上分类模型的期望风险R_U(w)的计算方法：

其中

这里，μ_y,σ_y分别表示分类模型对未标注样本所属类别输出值的均值和方差，可以使用plug-in估计过程迭代获得

这里有

其中，表示分类模型对未标注样本x_i的输出值。

下面举例对本发明的主动学习过程及效果做更详细的描述：

1)在训练数据集上学习一个参数为w的分类模型。

2)在未标注数据集U上，使用分类模型对每个未标注样本x∈U所属类别y进行预测，获得每一个未标注样本的类别条件概率p(y|x,w)。

3)根据分类模型对未标注样本x_i的输出建立似然估计函数

计算分类模型对未标注样本输出值的均值和方差

4)根据参数计算估计当前分类模型在未标注数据集上的期望风险

5)当未标注样本所属类别条件概率p(y|x,w)＞0.5时，估计训练数据集的密度函数其中，

6)当未标注样本所属类别条件概率p(y|x,w)≤0.5时，计算未标注样本x添加标注信息并加入训练数据集后分类模型的增益值继而，计算每个未标注样本的期望增益值

7)对每个未标注样本的信息含量按照升序排序，选择对分类模型训练最有帮助的样本x^*。

8)将所选择的样本x^*添加标注。将所选样本及其对应的正确标注信息{x^*,y^*}添加到训练数据集中，并将未标注样本x^*从未标注样本集中移除。

9)重复进行(1)至(8)步，直至分类模型的精度或者标注代价达到既定标准为止。

由于在分类模型的迭代训练过程中，异分布数据环境下的主动学习算法在样本选择过程中对未标注数据集上的分类模型的期望风险进行了估计，因此有效地衡量了未标注样本添加标注信息后对分类模型的影响程度。其次，主动学习的样本选择过程中，根据未标注样本可能所属类别的不同，选择不同的未标注样本信息度量标准，有效地避免了大量不属于该类别的样本对样本选择过程的影响，有利于选取属于该类别的少样样本。在每轮主动学习过程中，迭代选择对分类模型训练最有利的样本加入训练数据集。因此，有效地降低了学习分类模型所需要的样本数量和标注代价。最终，当训练数据和测试数据来自于不同分布环境时，达到了以最少的标注代价，学习高精度分类模型的目的。

在对本发明算法的仿真过程中，数据集中样本数量为60000，其中，初始训练数据集中样本数量为100，未标注数据集中样本数量为49900，测试数据集中样本数量为10000。由于训练数据数量远远小于测试数据，故难以保证其具有相同分布特征。图2和图3分别显示的是所提出的主动学习算法与其它算法学习L1规则化分类模型的性能比较结果，图4和图5分别显示的是所提出的主动学习算法与其它算法学习L2规则化分类模型的性能比较结果。在这些图中，横轴表示各种学习算法在训练分类模型过程中选择样本点的数量，纵轴则分别表示分类模型的平均精度和准确度。

虽然已经结合了具体实施方式对本发明的一种应用于异分布数据环境的主动学习算法进行了说明，但是本发明不限于此。在本发明的精神和原理下做出的各种变型均应包含在本发明的权利要求书限定的范围之内。

Claims

1.一种应用于异分布数据环境的主动学习方法，其特征是：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mover> <mi>R</mi> <mo>^</mo> </mover> <mi>D</mi> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>Z</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <mn>1</mn> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mi>l</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>Z</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <mn>1</mn> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced>

m为样本个数；

<mrow> <mi>G</mi> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>y</mi> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <mi>x</mi> <mo>;</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mo>&dtri;</mo> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow>

2.根据权利要求1所述的应用于异分布数据环境的主动学习方法，其特征是：所述的未标注数据集上分类模型的期望风险R_U(w)的估计过程为：

<mrow> <msub> <mi>R</mi> <mi>U</mi> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>y</mi> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msub> <mi>R</mi> <mi>U</mi> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>|</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow>

其中：

<mrow> <msub> <mi>R</mi> <mi>U</mi> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>|</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mi>m</mi> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>n</mi> </mrow> </munderover> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msup> <mi>w</mi> <mi>T</mi> </msup> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> </msup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>N</mi> <mrow> <mo>(</mo> <msup> <mi>w</mi> <mi>T</mi> </msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>;</mo> <msub> <mi>&mu;</mi> <mi>y</mi> </msub> <mo>,</mo> <msub> <mi>&sigma;</mi> <mi>y</mi> </msub> <mo>)</mo> </mrow> </mrow>

<mrow> <mo>(</mo> <msup> <mi>&mu;</mi> <mo>*</mo> </msup> <mo>,</mo> <msup> <mi>&sigma;</mi> <mo>*</mo> </msup> <mo>)</mo> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>max</mi> </mrow> <mrow> <mi>&mu;</mi> <mo>,</mo> <mi>&sigma;</mi> </mrow> </munder> <msub> <mi>l</mi> <mi>n</mi> </msub> <mo>(</mo> <mi>&mu;</mi> <mo>,</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow>

其中：

<mrow> <msub> <mi>l</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>&mu;</mi> <mo>,</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mi>m</mi> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mi>m</mi> <mo>+</mo> <mi>n</mi> </mrow> </munderover> <mi>l</mi> <mi>o</mi> <mi>g</mi> <munder> <mo>&Sigma;</mo> <mrow> <mi>y</mi> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> </mrow> </munder> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>p</mi> <mrow> <msub> <mi>&mu;</mi> <mi>y</mi> </msub> <mo>,</mo> <msub> <mi>&sigma;</mi> <mi>y</mi> </msub> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

表示分类模型对未标注样本x_i的计算输出值。