CN115565001A

CN115565001A - 基于最大平均差异对抗的主动学习方法

Info

Publication number: CN115565001A
Application number: CN202211209410.8A
Authority: CN
Inventors: 卫保国; 蔡明治; 李旭; 李立欣
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-03

Abstract

本发明公开了一种基于最大平均差异对抗的主动学习方法，获取未标注图像数据集；对于未标注图像数据集中每个图像数据，采用特征提取器提取图像数据的特征图，并将特征图分别送入分类器和判别器；通过分类器确定特征图的不确定性分数，通过判别器确定特征图的差异性分数；根据不确定性分数和差异性分数计算特征图的查询分数；基于每个图像数据的查询分数选择未标注图像；本发明同时利用主动学习的不确定性与差异性两个指标，以最小的人力成本达到机器学习模型性能的最优，使用基于最大平均差异对抗的方法对判别器进行对抗训练，使图像具有更好的多样性。

Description

基于最大平均差异对抗的主动学习方法

技术领域

本发明属于图像分类技术领域，尤其涉及一种基于最大平均差异对抗的主动学习方法。

背景技术

图像分类是根据图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法，它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。

主动学习是机器学习的一种特殊情况，它的作用是在注释尽可能少的样本的同时，使模型的性能收益最大化。例如，在考试前，老师常会利用更多的时间带领学生去复习考试的重难点内容，同时花费更少的时间去复习非重难点内容。主动学习就是类似于上课时老师挑选出重难点反复进行复习，直到所有重难点内容被复习完成，剩下的非重难点内容由学生在课后自行完成。用专业的语言说，主动学习可以通过图像选择策略，筛选出最难分类的一些图像，即最具代表性的图像，交给人工进行确认、审核与标注，再将人工进行标注得到的数据进行有监督学习或半监督学习，以进一步改善模型的效果。主动学习减少了标注的人力成本，提升了工程实践过程的效率。截至目前，主动学习方法已经有许多相关的研究成果，这些方法性能良好且易于实现，可以显著降低标注图像数量，对节省标注成本有着重大意义。

不确定性采样的查询方法就是将图像数据集中难以区分的图像提取出来，提供给业务专家或者标注人员进行标注，从而达到以较快速度提升方法效果的能力。而不确定性采样方法的关键就是如何描述图像的不确定性，通常有最小置信度法、边缘采样法、熵方法等。

上述方法是依靠模型的不确定性来选择最不确定的图像，但是，基于不确定性的策略，容易受到与已标记图像属于不同分布的离群值的影响，进而影响图像选择精度。

发明内容

本发明的目的是提供一种基于最大平均差异对抗的主动学习方法，降低离群值影响，通过不确定性和最大平均差异选择未标注图像，以提升图像选择精度。

本发明采用以下技术方案：一种基于最大平均差异对抗的主动学习方法，包括以下步骤：

获取未标注图像数据集；

对于未标注图像数据集中每个图像数据，采用特征提取器提取图像数据的特征图，并将特征图分别送入分类器和判别器；

通过分类器确定特征图的不确定性分数，通过判别器确定特征图的差异性分数；

根据不确定性分数和差异性分数计算特征图的查询分数；

基于每个图像数据的查询分数选择未标注图像。

进一步地，通过分类器确定特征图的不确定性分数包括：

通过分类器确定特征图属于每个图像类别的概率值；

选择最低的概率值作为特征图的不确定性分数。

进一步地，根据不确定性分数和差异性分数计算特征图的查询分数包括：

查询分数＝α*不确定性分数-(1-α)*差异性分数，

其中，α为分数权重。

进一步地，特征提取器、分类器和判别器通过未标注训练图像数据集和已标注训练图像数据集联合训练。

进一步地，通过

训练特征提取器，其中，α₁为特征提取器的权重，θ_F为特征提取器，

W为特征提取器的权重矩阵，(x_L，y_L)为已标注训练图像数据集中的第L个训练样本，x_L为训练图像，y_L为x_L的标签，

表示第L个训练样本的实际输出与期望输出差异的数学期望，

表示归一化后的样本概率分布，σ表示Isomax函数，F(x_L)表示已标记训练样本输入特征提取器后的特征，T表示神经网络的温度参数。

进一步地，通过

训练分类器，其中，α₂为分类器的权重，θ_C为分类器，

x_i表示第i个已标注的训练样本，x_i′表示另一个与第i个已标注训练样本不同的已标注训练样本，y_j表示第j个未标注的训练样本，y_j′表示另一个与第j个未标注训练样本不同的未标注训练样本。

进一步地，通过

训练判别器，α₃为判别器的权重，θ_D为判别器。

进一步地，分类器中选用isomax函数确定概率值。

本发明的另一种技术方案：一种基于最大平均差异对抗的主动学习方法，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的一种基于最大平均差异对抗的主动学习方法。

本发明的有益效果是：本发明同时利用主动学习的不确定性与差异性两个指标，以最小的人力成本达到机器学习模型性能的最优，使用基于最大平均差异对抗的方法对判别器进行对抗训练，使图像具有更好的多样性。

附图说明

图1为本发明实施例一种基于最大平均差异对抗的主动学习方法的流程示意图；

图2为本发明实施例中训练和应用结合流程图；

图3为本发明验证实施例中的各个方法选择图像样本精确率的对比效果图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

对于二分类或者多分类的模型，通常它们都能够对每一个图像进行打分，判断它究竟更像哪一类。例如，在二分类的场景下，有两个数据分别被某一个分类器预测，其对两个类别的预测概率分别是：(0.9,0.1)和(0.51,0.49)。在此情况下，第一个图像被判定为第一类的概率是0.9，第二个图像被判定为第一类的概率是 0.51，于是第二个图像明显更“难”被区分，因此，更有被继续标注的价值。所谓最小置信度方法就是选择那些最大概率最小的图像进行标注。

边缘采样指的是选择那些极容易被判定成两类的图像，或者说这些图像被判定成两类的概率相差不大。边缘采样就是选择模型预测最大和第二大的概率差值最小的图像。特别地，如果针对二分类问题，最小置信度法和边缘采样法其实是等价的。

在数学中，可以使用熵来衡量一个系统的不确定性，熵越大表示系统的不确定性越大，熵越小表示系统的不确定性越小。因此，在二分类或者多分类的场景下，可以选择那些熵比较大的图像作为待定标注图像。相较于最小置信度法和边缘采样法而言，熵方法考虑了该模型对某个图像的所有类别判定结果。而最小置信度法只考虑了最大的概率，边缘采样法考虑了最大的和次大的两个概率。

Ian J.Goodfellow于2014首次提出了对抗网络模型，短短两年的时间，这个模型在深度学习生成模型领域已经取得了不错的成果。它提出了一个新的框架，可以利用对抗过程估计生成模型，相比之前的方法，可以认为是在无监督表示学习上一个突破。对抗网络中包括生成模型和判别模型这两个模型，其中生成模型学习到的是对于所观察图像的联合分布，判别模型学习到的是观察变量x的前提下的非观察变量的分布情况。对于对抗训练的过程，判别器需要不断地学习，来进行真实数据(即图像)的判断，生成器则是不断学习，制造更像真实数据(即图像)的假数据(即假图像)，来欺骗判别器，而最后的训练结果则是——判别器可以很好的区分真实数据和假数据，但是生成器制造了极像真实数据的假数据。在主动学习中，不采用真实数据和虚拟数据，而采用已标记图像与未标记图像进行判别，以查询出与已标记图像最不相似的那些未标记图像。

本发明中，提出了一种基于最大平均差异对抗的主动学习方法，利用最大平均差异对抗网络，隐式地选出最有价值的图像，从而避免人工事先设定一个判断图像的标准。本发明以对抗的方式利用了图像的不确定性和差异性，结合了主动学习中两个方向的优点。

通过采用最大平均差异这一适用于高维数据的差异性度量，以衡量未标记图像与已标记图像分布的差异，并用最大平均差异损失训练判别器，提升了主动学习的精度。与最常见的H-散度相比，最大平均差异能更好地捕捉到图像的多样性。

机器学习方法在预测不确定性给出有用的估计方面仍可能存在不足。而基于不确定性迭代选择标注最有价值图像的方法是主动学习的一个主要分支，它依赖任务模型预测的分类概率来确定模型对该图像的不确定性。但任务模型给出的这个概率并不可靠，因为使用softmax分类器的神经网络并不能识别分布外图像。因此，将softmax改为isomax，这是一种对分布外图像较为敏感的分类器，可以提升主动学习不确定性的度量精度。

同时，主动学习的目的是通过查询最具代表性的图像，由人类注释者进行标注，从而开发出高效的方法。目前的主动学习技术要么依靠模型的不确定性来选择最不确定的样本，或者使用聚类或重建来选择最多样化的未标记的例子。本发明方法以分数计算的方式利用了图像的不确定性和差异性，结合了主动学习文献中两个方向的优点。

具体的本发明实施例公开了一种基于最大平均差异对抗的主动学习方法，包括以下步骤：获取未标注图像数据集；对于未标注图像数据集中每个图像数据，采用特征提取器提取图像数据的特征图，并将特征图分别送入分类器和判别器；通过分类器确定特征图的不确定性分数，通过判别器确定特征图的差异性分数；根据不确定性分数和差异性分数计算特征图的查询分数；基于每个图像数据的查询分数选择未标注图像。

本发明同时利用主动学习的不确定性与差异性两个指标，以最小的人力成本达到机器学习模型性能的最优，使用基于最大平均差异对抗的方法对判别器进行对抗训练，使图像具有更好的多样性。

主动学习的方法分为两个阶段：网络参数的优化和图像样本查询的选择查询批次的选择。对于训练网络的阶段，这是一个最小-最大优化问题。更确切地说，这涉及到批判函数的最大化，以便根据以最大平均差异计算出的损失区分有标签和无标签的经验分布，而特征提取器函数的目的则相反，最小化经验分布。此外，由于方法利用了已标注/无标注的样本共同训练产生特征映射，而以往的主动学习只使用已标注数据训练产生特征，因此也用这些无标注样本来训练任务模型本身，以提升分类的准确性，这是一个半监督的过程。

在挑选样本的查询阶段，使用两个标准，第一个标准是与现有标签数据的相似性，第二个标准是最小置信度，结合两个标准，对未标签数据进行排名，称之为标签度得分，这可以指导查询策略函数不仅查询那些看起来与之前所见不相似的图像样本，而且还可以针对最不确定的图像样本进行排名并选择对应的图像样本去进行人工标记。

再本发明实施例中，特征提取器、分类器和判别器通过未标注训练图像数据集和已标注训练图像数据集联合训练。

具体的，通过

表示第L个训练样本的实际输出与期望输出差异的数学期望，

表示归一化后的样本概率分布，σ表示Isomax函数，F(x_L)表示已标记训练样本输入特征提取器后的特征，T表示神经网络的温度参数，另外， W右上角的T为转置。

另外，通过

训练分类器，其中，α₂为分类器的权重，θ_C为分类器，

更为具体的，通过

训练判别器，α₃为判别器的权重，θ_D为判别器。

关于分类器的损失函数，使用标准交叉熵损失，即使用

进行优化。利用一个基于余弦相似性的分类器，表示为C，并以权重矩阵

为参数，它将归一化的特征作为输入，并将它们映射到K类原型向量[w₁,w₂,…,w_K]，其中， K是数据集中的总类数。分类器的输出使用isomax函数(σ)转换为概率值

Isomax是一种对离群值样本较为敏感的分类损失函数，其主要公式如下：

其中，f_θ(x)代表与样本x相关的高级特征(嵌入)，

代表与类j相关的原型，E_s为常数。Isomax在不影响分类器性能的前提下，对离群值较为敏感。

关于判别器，最大平均差异简称MMD，这是一种积分概率度量，它利用一类见证函数来区分分布P和Q，选择与P、Q的期望差异最大的函数：

最大平均差异的基本假设是：如果对于所有以分布生成的样本空间为输入的函数f，如果两个分布生成的足够多的样本在f上的对应的像的均值都相等，那么可以认为这两个分布是同一个分布。现在一般用于度量两个分布之间的相似性。

具体而言，基于最大平均差异的统计检验方法是指下面的方式：基于两个分布的样本，通过寻找在样本空间上的连续函数f，求不同分布的样本在f上的函数值的均值，通过把两个均值作差可以得到两个分布对应于f的平均差异。寻找一个f使得这个平均差异有最大值，就得到了最大平均差异。最后取最大平均差异作为检验统计量，从而判断两个分布是否相同。如果这个值足够小，就认为两个分布相同，否则就认为它们不相同。同时这个值也用来判断两个分布之间的相似程度。如果用F表示一个在样本空间上的连续函数集，那么最大平均差异可以用下面的式子表示：

在本方法中，将已标记数据集和未标记数据集映射到再生核希尔伯特空间，这是一种核学习方法。对于基于两个分布的样本x_i，y_j，x_i′，y_j′，通过寻找在样本空间上的映射函数k，求不同分布的样本在k上的函数值的均值，通过把两个均值作差可以得到两个分布对应于k的均值差异。寻找一个k使得这个均值差异有最大值，就得到了最大平均差异。最后取最大平均差异作为检验统计量，从而判断两个分布是否相同。如果这个值足够小，就认为两个分布相同，否则就认为它们不相同。更加简单的理解就是：求两堆数据在高维空间中的均值的距离对。其损失函数如下。最大平均差异损失如

所示。

基于上述，可以将损失扩展到深度表征学习场景中。受迁移学习和对抗生成网络的启发，使用最大-最小优化问题来训练网络模型。其中最大-最小公式如下所示：

其中，θ_F，θ_C和θ_D是对应于特征提取器、任务预测器和分布判别器的参数；R 是任务预测器的损失函数，MMD是基于最大平均差异判别器的(最小-最大)损失。

在训练阶段，使用所有的观察数据来优化网络的参数。已标记样本和未标记样本同时通过特征提取器，其中，已标记样本用来训练特征提取器和任务预测器，未标记样本用来训练分布判别器。

抽样策略如下所示，方法的关键思想是用两个准则来选择样本进行标记，即根据不确定性分数和差异性分数计算特征图的查询分数，具体包括：

查询分数＝α*不确定性分数-(1-α)*差异性分数，

其中，α为分数权重。

具体的，不确定性分数是使用与判别器预测相关联的概率作为一个分数，根据样本的差异性对样本进行排名，它可以被解释为它们与已标记数据的相似程度。概率越接近于0，判别器就越有信心它来自未标记的池。也就是说，通过分类器确定特征图的不确定性分数包括：通过分类器确定特征图属于每个图像类别的概率值；选择最低的概率值作为特征图的不确定性分数。使用分类器进行具有最低预测置信度方法的未标记数据作为不确定性评分的度量。最低预测标签的概率越高，任务预测器预测越不自信。

在图像分类任务上应用本方法，首先使用相关的图像数据集，放入特征提取器进行特征提取，并将其归一化处理。接着，使用交叉熵损失用来训练特征提取器和分类器，最大平均差异损失用来训练分布判别器。在查询阶段，使用训练好的分类器和对抗判别器使用上述的查询策略进行图像样本查询，选取出最具信息量的图像，交由人工进行标注，并送入已标注数据池，直到达到标注预算大小为止。

综上，如图1所示，本发明首先将已标记样本和未标记样本送入特征提取器进行特征提取。接着使用分类器，它试图使未标记数据的熵最大化，从而选出机器学习模型最不确定的图像。通过判别器使用特征提取器产生的特征来预测每个样本属于哪个池(即已标注图像数据还是未标注图像数据)，从而选出与已标记图像样本差异最大的图像样本。最后使用混合查询策略，结合了样本的不确定性和差异性。

另外，如图2所示，本发明实施例中主动学习方法是一个迭代式的交互训练过程，主要由五个核心部分组成，包括：未标注样本池、主动学习样本选择策略、用户、训练图像样本数据集和分类器模型。

主动学习将上述这些步骤组合到同一个流程中。首先将数据集读取进特征提取器网络。常用的特征提取器有VGG-16、Resnet-18等，使用特征提取器提取出已标记样本和未标记样本的特征。接下来对特征进行归一化，以便后续处理，并将其送入分类器和判别器中。其中，分类器可以查询出那些机器学习模型最不确定的图像样本，判别器可以查询与已标记图像数据样本池中样本差异最大的样本。

使用相关损失对整个网络的训练流程如下所示：

输入：已标记样本池L的样本与标签(x_L,y_L)，未标记样本池U的样本 (x_U)，初始特征提取器模型θ_F，初始分类器模型θ_C，初始判别器模型θ_D，超参数：Epoch(迭代次数),α₁,α₂,α₃。

1:对于初始的Epoch轮次n＝1到Epoch；2:计算L_CE；3:计算

4:

5:

6:

7:n＝n+1。输出：以4、5、6的方式训练并更新后的θ_F,θ_C,θ_D。

最后使用主动学习方法作为查询策略进行查询，选出相关领域的标注者需要标注的图像样本。其中，不确定性分数为分类器预测相关联的概率，采用最小置信度方法。差异性分数则为判别器预测相关联的概率。

选出总分数最大的b个图像样本，其中，b为每批次设置的样本数量。在选出图像样本后，以不断迭代的训练方式更新模型性能、未标注样本池和标注数据池，直到目标模型达到预设的性能或者不再提供标注数据为止。其中，在每次迭代过程中，已标注样本的数量不断增加，模型的性能也随之提升(理想情况)。在实际应用中，应尽可能保证标注者的准确率，缓解模型在训练初期学偏(此处特指错误标注的样本导致)的情况。

另外，为了验证本发明的效果，在公开数据集Cifar-10上测试本发明的方法。Cifar-10由60,000张32×32尺寸的图像组成，共有十个类别。训练和测试集分别包含50,000和10,000张图像。在Cifar-10中，选择分类实验的初始大小为1000，主动学习的预算规模分别为1000。对于查询策略，设定α为0.1。根据实验结果，本方法大幅度极大地提高了少样本分类任务的性能。

关于实验结果，如图3所示，横坐标代表标记的图像样本数，纵坐标代表分类精度，a～f等等分别代表图上标注的各种方法，有该图可知，本发明方法对应的选择精度，相比于其他方法，选择正确的图像精度通过实验表明，该方法在图像分类任务上与比较经典的或当前流行的方法比较，具有良好的精度。

本发明还公开了一种基于最大平均差异对抗的主动学习方法，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，处理器执行所述计算机程序时实现上述的一种基于最大平均差异对抗的主动学习方法。

上述的装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该装置可包括但不仅限于处理器、存储器。本领域技术人员可以理解，该装置可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器在一些实施例中可以是所述装置的内部存储单元，例如装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述装置的外部存储设备，例如所述装置上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字 (Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器还可以既包括所述装置的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置的具体内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

Claims

1.一种基于最大平均差异对抗的主动学习方法，其特征在于，包括以下步骤：

获取未标注图像数据集；

对于所述未标注图像数据集中每个图像数据，采用特征提取器提取所述图像数据的特征图，并将所述特征图分别送入分类器和判别器；

通过所述分类器确定所述特征图的不确定性分数，通过所述判别器确定所述特征图的差异性分数；

根据所述不确定性分数和差异性分数计算所述特征图的查询分数；

基于每个所述图像数据的查询分数选择未标注图像。

2.如权利要求1所述的一种基于最大平均差异对抗的主动学习方法，其特征在于，通过所述分类器确定所述特征图的不确定性分数包括：

通过所述分类器确定所述特征图属于每个图像类别的概率值；

选择最低的概率值作为所述特征图的不确定性分数。

3.如权利要求2所述的一种基于最大平均差异对抗的主动学习方法，其特征在于，根据所述不确定性分数和差异性分数计算所述特征图的查询分数包括：

查询分数＝α*不确定性分数-(1-α)*差异性分数，

其中，α为分数权重。

4.如权利要求2或3所述的一种基于最大平均差异对抗的主动学习方法，其特征在于，所述特征提取器、分类器和判别器通过未标注训练图像数据集和已标注训练图像数据集联合训练。

5.如权利要求4所述的一种基于最大平均差异对抗的主动学习方法，其特征在于，通过

训练所述特征提取器，其中，α₁为特征提取器的权重，θ_F为特征提取器，

表示第L个训练样本的实际输出与期望输出差异的数学期望，

6.如权利要求5所述的一种基于最大平均差异对抗的主动学习方法，其特征在于，通过

训练所述分类器，其中，α₂为分类器的权重，θ_C为分类器，

k表示映射到再生希尔伯特空间的映射函数，N表示已标注训练图像数据集中的图像数量，M表示未标注训练图像数据集中的图像数量，x_i表示第i个已标注的训练样本，x_i′表示另一个与第i个已标注训练样本不同的已标注训练样本，y_j表示第j个未标注的训练样本，y_j′表示另一个与第j个未标注训练样本不同的未标注训练样本。

7.如权利要求6所述的一种基于最大平均差异对抗的主动学习方法，其特征在于，通过

训练所述判别器，α₃为判别器的权重，θ_D为判别器。

8.如权利要求2或3所述的一种基于最大平均差异对抗的主动学习方法，其特征在于，所述分类器中选用isomax函数确定概率值。

9.一种基于最大平均差异对抗的主动学习方法，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的一种基于最大平均差异对抗的主动学习方法。