CN112990385A

CN112990385A - 一种基于半监督变分自编码器的主动众包图像学习方法

Info

Publication number: CN112990385A
Application number: CN202110531443.3A
Authority: CN
Inventors: 李绍园; 侍野; 黄圣君
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Jiangsu Fenghuang Intelligent Education Research Institute Co ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-06-18
Anticipated expiration: 2041-05-17
Also published as: CN112990385B

Abstract

本发明公开了一种基于半监督变分自编码器的主动众包图像学习方法，具体为：获取图片集，随机抽选一定比例的图像，将其分发给网络上的标注者进行标注，获得众包标记；搭建基于半监督变分自编码器的众包学习网络模型；将数据集输入模型，构造损失函数；基于随机梯度下降，端到端地对模型进行训练；选择预测真实标记的熵最大的图像，查询真实标记；与上一轮迭代所使用的训练集组合，生成新的数据集，返回第三步，直到当前迭代次数到达阈值为止；删去模型重构部分和众包映射层部分，将网络的剩余部分作为分类器。本发明同时利用众包数据和无标记数据，降低数据的标注成本。并通过引入少量真实标记，来缓解模型对于噪声的过拟合，提高模型的泛化性能。

Description

一种基于半监督变分自编码器的主动众包图像学习方法

技术领域

本发明涉及一种基于半监督变分自编码器的主动众包图像学习方法，属于图像标注技术领域。

背景技术

传统的监督学习需要大量的专家图像，需要比较高的标注成本。为了降低成本，人们提出了多种方法，比如众包学习、半监督学习和主动学习。

众包学习的流程是首先发布标注任务在网络平台上，任何人都可以进行这个标注任务，所收集到的数据比专家标注噪声比例更多。为了解决众包中非专家标注者的不确定性，通常会让每张图像由多个标注者进行标注，即重复标注。如何利用这种具有噪声和重复标记的众包数据成为了众包学习的关键点。代表性的方式有从每张图像的多个标签集估计其真实标记的真实标记推断，其中最为简单的是Majority-voting，对每个标注者的可靠度进行建模的DS模型及其变种，使用EM式算法联合学习分类器模型和标注者噪声模型, 使用预测模型来提高数据质量，与主动学习结合等。其中，尽管众包学习中的标签聚合方法可以与任何类型的机器学习算法结合使用，但与同样联合学习分类器本身的方法相比，它们是次优的。

半监督学习通过引入大量的无标记数据，这些无标记数据和有标记数据是同分布的，通过无标记数据来对模型进行约束，缓解模型的过拟合，提高它的性能同时降低对专家标记数量的需求。不过，将众包学习和半监督学习结合起来的工作都没有考虑过引入少量的额外监督信息来缓解模型对于众包数据中噪声的拟合。

主动学习则是通过某种指标或策略选择出无标记数据中最具有信息量的图像，之后询问专家这些图像的标记。将众包学习和主动学习结合起来的工作均聚焦于询问图像的众包标注而非专家标注。但是在实际情况中，少量图像的真实标记不会增加太多的标记成本，但却很有可能较大地提高模型的泛化性能。

发明内容

本发明所要解决的技术问题是：提供一种基于半监督变分自编码器的主动众包图像学习方法，同时利用众包数据和无标记数据，降低数据的标注成本。并通过引入少量真实标记，来缓解模型对于噪声的拟合，提高模型的泛化性能。

本发明为解决上述技术问题采用以下技术方案：

一种基于半监督变分自编码器的主动众包图像学习方法，包括如下步骤：

步骤1，获取图像集X ，将图像集X 按照预设比例随机划分为第一图像集

和第二图像集

，将第一图像集

分发给网络上的标注者进行标注，获得相应的众包标记

；

步骤2，搭建半监督众包学习网络模型，所述半监督众包学习网络模型包括半监督变分自编码器、众包映射层和主动学习框架；

步骤3，将第一图像集

、第二图像集

、众包标记

、第三图像集

和真实标记集

作为训练集，输入半监督众包学习网络模型，基于训练集和网络参数构造变分下界损失函数；第一次迭代时，

和

均为空集；

步骤4，基于随机梯度下降方法，端到端地对半监督众包学习网络模型进行训练，得到训练好的半监督众包学习网络模型；

步骤5，利用训练好的半监督众包学习网络模型对第二图像集

中每幅图像的真实标记概率进行预测，从第二图像集

中选择真实标记概率预测值的熵最大的图像

，获取图像

的真实标记

；

步骤6，将图像

加入第三图像集

，将真实标记

加入真实标记集

，返回步骤3，直到当前迭代次数达到阈值为止，得到最终的半监督众包学习网络模型；

步骤7，对最终的半监督众包学习网络模型，删掉重构部分和众包映射层部分，将剩余部分作为众包图像分类器；

步骤8，利用众包图像分类器对待标注图像进行标注，得到众包学习标记。

作为本发明的一种优选方案，步骤2所述众包映射层，具体形式如下：

其中，

表示第r个标注者的众包标记，

表示第r个众包映射层，y表示真实标记，

，R为标注者的数量。

作为本发明的一种优选方案，步骤3所述变分下界损失函数的构造方法为：

对于

，其变分下界构造过程如下所示：

其中，

表示第一图像集

中的图像，

表示

的真实标记，

表示隐变量，

表示

与

的似然函数，

表示期望，

表示

的先验分布，

表示

的先验分布，

表示

的后验分布，

表示对

的近似分布，

表示

和

的损失函数，

表示分布参数，

为变分参数；

对于

，其变分下界构造过程如下所示：

其中，

表示第二图像集

的图像，

表示关于

的似然函数，

表示

的后验分布，

表示近似的

，

是对

的近似分布，而

是关于

的先验联合分布，

表示关于

和

的损失函数，

表示

的熵，

表示关于

的损失函数；

最终的变分下界损失函数为：

当第一次迭代时，损失函数的第四项为0；

其中，

表示变分下界损失函数，

均表示超参数，

表示第一图像集的分布，

表示第二图像集的分布，

表示第三图像集的分布，

分别表示第三图像集的单张图像和其真实标记，

表示第r个众包映射层，y表示真实标记，

表示由

经过众包映射层反向映射得到的目标标记，

表示代入了

的

。

作为本发明的一种优选方案，步骤4所述端到端地对半监督众包学习网络模型进行训练所采用的优化器为SGD或Adam。

作为本发明的一种优选方案，所述步骤5的具体过程如下：

1）利用训练好的半监督众包学习网络模型对第二图像集

中每幅图像的真实标记概率进行预测，得到真实标记概率预测值

；

2）计算

的熵

；

3）从第二图像集

中挑选

最大图像

；

4）获取图像

对应的真实标记

。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明结合半监督学习、众包学习以及主动学习的优势，使用半监督变分自编码器完成众包数据集共享表示学习，使用众包映射层完成真实标记层到众包标记层的映射，使用主动挑选不断迭代的方式引入少量真实标记，实现了端到端训练，提高了图像估计的效果和效率。

附图说明

图1是本发明一种基于半监督变分自编码器的主动众包图像学习方法的流程图。

图2是本发明模型的结构图。

图3是本发明迭代挑选的具体流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，展示了基于半监督变分自编码器与主动学习的众包图像学习方法的具体流程，包括以下步骤：

步骤1：构造图像众包数据集。

获取图像后，随机抽选t比例的图像，将它们记为

，之后通过众包平台，如 Amazon Mechanical Turk和 Crowdflower 等，分发给网络上的标注者进行预标注，得到标注

。剩余的没有被标注的部分我们记作

。

步骤2：搭建半监督众包学习网络模型，图2是模型的结构图。

在步骤2中，我们所搭建的半监督主动众包学习网络由一个半监督变分自编码器、一个映射层与一套迭代的主动学习框架组成。

首先，我们将表示整个数据集表示为

，其中，

为单张图片，

为

的真实标记，

为

对应的隐变量，n是样本数量。在半监督的设定下，只有一部分

有着对应的

，其中，

，而

。其中

是有标记图像集，我们设之为第一图像集；

是无标记图像集，我们设之为第二图像集。我们其分布分别表示为

和

。整个数据集可以被解释为以下的生成过程：

其中，

服从一个多项式分布。对于图片

来说，由于他们没有真实标记，所以

对于它们来说是一个隐变量，

也是一个隐变量。这些隐变量相互之间边缘独立。而

则是一个似然函数，通过对隐变量的非线性变换进行参数化，我们使用了深度神经网络作为这种非线性变换的近似。由于大多数的标签

是未知的，在推理过程中，对于无标记数据，我们将其所有类别的情况进行求和，从而以推理的方式进行分类。而对于无标记数据类别的预测则是从推断的后验分布

中得到。因此，这个模型也可以看作是一个连续分布于离散分布的混合模型，组件之间共享参数。

然后，我们引入变分推断的方式。以

来近似

，以

近似

。具体如下所示：

其中，

形式上是一个高斯分布，其分布参数

由一个深度神经网络产生，我们可以称之为编码器-z（

），而

服从于一个类别分布（Categorical Distribution）。其分布参数

由深度神经网络产生，我们称之为编码器-y （

），称

为解码器（Decoder）。

步骤3：将图片

,

，众包标记

，真实标记

及对应图像

输入模型，基于

与网络参数构造损失函数，注意在进行第一次迭代训练时，

是空集。

对于

，其变分下界构造过程如下所示：

其中，

表示第一图像集

中的图像，

表示

的真实标记，

表示隐变量。

表示

与

的似然函数，

表示期望，

表示

的先验分布，

表示

的先验分布，

表示

的后验分布，

表示对

的近似分布。

表示

和

的损失函数，

表示分布参数，

为变分参数。

对于

，其变分下界构造过程如下所示：

其中，

表示第二图像集

的图像，这些图像是没有真实标记的。

表示关于

的似然函数，

表示

的先验分布，

表示

的先验分布，

表示

的后验分布，

表示近似的

，

是对

的近似分布，而

是关于

的先验联合分布，

表示其真实标记，由于数据集没有给出

的真实标记，所以

对于

而言是隐变量。这里对于来自于不同的两个数据集的图像

和

，都使用

表示真实标记是为了表示这两类数据标记分布的一致。

表示

的后验分布。

表示关于

和

的损失函数，

表示

的熵，注意这里的

仅表示真实类别的一种可能情况，

表示枚举

真实标记为各个类别的所有情况，并对它们进行求和。

表示关于

的损失函数。

我们将两者求和，即可得到损失函数

：

然而，我们发现

只对与无标记数据相关的

有贡献。理想情况下，所有的模型和变量参数都应该能够利用到所有的数据。为了弥补这一点，我们增加了一个交叉熵分损失项，使得分布

也能从有标记数据中学习。因此，最后构造出的变分下界损失函数为：

其中，

作为一个超参数，调节两项之间的权重。

最后，在众包学习中，对于有标记数据，我们没有一个单独的真实标记，而是拥有由多个标注者提供的多个标记。这里我们使用一个映射层

，R表示标注者的数量。通过W，我们实现了

与

之间的映射：

将其代入变分下界损失函数中，得到

保持不变，损失函数为

最后，我们要加入之前迭代所挑选出来的数据集

，即第三图像集，我们加入了关于

的交叉熵分类项，最终的损失函数是：

当第一次迭代时，损失函数的第四项为0；

其中，

表示变分下界损失函数，

均表示超参数，

表示第一图像集的分布，

表示第二图像集的分布，

表示第三图像集的分布，

分别表示第三图像集的单张图像和其真实标记。

表示第r个众包映射层，y表示真实标记，

表示由

经过众包映射层反向映射得到的目标标记，

表示代入了

的

。

步骤4：基于随机梯度下降，端到端地对模型进行训练

我们使用优化器，如SGD、Adam等，对整个网络进行端到端的训练。

步骤5：基于最大熵指标，获取

图像集合中真实标记预测的熵最大的图像

，查询它的真实标记，组成

。

步骤5的具体步骤如图3所示：

1）获取所有

的真实标记预测概率

；

2）计算

的熵

；

3）挑选

最大的

，询问它的真实标记

；

4）将

、

组合成为

，

。

步骤6：将

、

加入

中，返回步骤3，直到当前迭代次数到达阈值为止；

将挑选出来的真实标记数据加入原来的训练集中，形成新的数据集。将其投入到下一次的训练当中去。

步骤7：删去模型重构部分和众包映射层部分，将网络的剩余部分作为分类器。

当完成训练之后，在整个模型中，我们所需要的只是

作为预测图像类别的分类器。而

、

、众包映射层在完成训练之后就可以弃置。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于半监督变分自编码器的主动众包图像学习方法，其特征在于，包括如下步骤：

和第二图像集

，将第一图像集

分发给网络上的标注者进行标注，获得相应的众包标记

；

步骤3，将第一图像集

、第二图像集

、众包标记

、第三图像集

和真实标记集

和

均为空集；

步骤5，利用训练好的半监督众包学习网络模型对第二图像集

中每幅图像的真实标记概率进行预测，从第二图像集

中选择真实标记概率预测值的熵最大的图像

，获取图像

的真实标记

；

步骤6，将图像

加入第三图像集

，将真实标记

加入真实标记集

，返回步骤 3，直到当前迭代次数达到阈值为止，得到最终的半监督众包学习网络模型；

2.根据权利要求1所述基于半监督变分自编码器的主动众包图像学习方法，其特征在于，步骤2所述众包映射层，具体形式如下：

其中，

表示第r个标注者的众包标记，

表示第r个众包映射层，y表示真实标记，

，R为标注者的数量。

3.根据权利要求1所述基于半监督变分自编码器的主动众包图像学习方法，其特征在于，步骤3所述变分下界损失函数的构造方法为：

对于

，其变分下界构造过程如下所示：

其中，

表示第一图像集

中的图像，

表示

的真实标记，

表示隐变量，

表示

与

的似然函数，

表示期望，

表示

的先验分布，

表示

的先验分布，

表示

的后验分布，

表示对

的近似分布，

表示

和

的损失函数，

表示分布参数，

为变分参数；

对于

，其变分下界构造过程如下所示：

其中，

表示第二图像集

的图像，

表示关于

的似然函数，

表示

的后验分布，

表示近似的

，

是对

的近似分布，而

是关于

的先验联合分布，

表示关于

和

的损失函数，

表示

的熵，

表示关于

的损失函数；

最终的变分下界损失函数为：

当第一次迭代时，损失函数的第四项为0；

其中，

表示变分下界损失函数，

均表示超参数，

表示第一图像集的分布，

表示第二图像集的分布，

表示第三图像集的分布，

分别表示第三图像集的单张图像和其真实标记，

表示第r个众包映射层，y表示真实标记，

表示由

经过众包映射层反向映射得到的目标标记，

表示代入了

的

。

4.根据权利要求1所述基于半监督变分自编码器的主动众包图像学习方法，其特征在于，步骤4所述端到端地对半监督众包学习网络模型进行训练所采用的优化器为SGD或Adam。

5.根据权利要求1所述基于半监督变分自编码器的主动众包图像学习方法，其特征在于，所述步骤5的具体过程如下：

1）利用训练好的半监督众包学习网络模型对第二图像集

；

2）计算

的熵

；

3）从第二图像集

中挑选

最大图像

；

4）获取图像

对应的真实标记

。