CN114299349B

CN114299349B - 一种基于多专家系统和知识蒸馏的众包图像学习方法

Info

Publication number: CN114299349B
Application number: CN202210205861.8A
Authority: CN
Inventors: 李绍园; 侍野
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-05-13
Anticipated expiration: 2042-03-04
Also published as: CN114299349A

Abstract

本发明属于图像标注技术领域，公开了一种基于多专家系统和知识蒸馏的众包图像学习方法，该方法包括：步骤1.获取图像数据，并构造众包标注集；步骤2.使用图像集和众包标注集训练一个深度众包学习模型；步骤3.使用步骤2得到的模型生成第一真实标记预测；步骤4.使用图像集和第一真实标记预测训练一个无噪声建模的噪声标记学习模型；步骤5.使用步骤4得到的模型生成第二真实标记预测；步骤6.使用第二真实标记预测、图像集和众包标注集重新训练一个深度众包学习模型；步骤7.使用步骤4和步骤6的模型预测标记未知图像的真实标记。本发明将深度众包学习方法与无噪声建模的噪声标记学习方法结合，提升了分类器模型图像标记的预测效果。

Description

一种基于多专家系统和知识蒸馏的众包图像学习方法

技术领域

本发明属于图像标注技术领域，涉及一种基于多专家系统和知识蒸馏的众包图像学习方法。

背景技术

传统的监督学习需要大量的高质量标记数据，这需要较高的标注成本。为了降低成本，人们提出了多种方法，如众包学习。众包学习的流程是将图像集随机分发给网络平台上的标注者进行标注，为了提升标注质量，单张图像往往会由若干个标注者进行标注。由于标注者各自的能力水平参差不齐，众包标记学习方法往往需要刻画标注者的能力水平，而噪声转移矩阵是一类常用的刻画工具。然而，由于噪声转移矩阵假设噪声标记的生成过程只依赖于样本的真实标记，该假设过于简化，无法刻画真实的众包标记中存在的部分错误模式，此外，噪声转移矩阵的估计往往存在一定偏差，这也会影响众包标记学习模型的泛化性能。

噪声标记问题假设单张图像对应单个可能错误的标记。近年来，噪声标记学习方法与深度神经网络结合，并发现深度神经网络将会首先拟合噪声标记中(简单)正确的模式，再去拟合其中(复杂)错误的模式，这也被成为记忆效应。研究者们根据此现象，认为网络损失值更小的标记更有可能正确，从而筛选出质量较高的标记信息。同时，这些方法将被认为是标记错误的图像视为无标记数据，同时利用半监督或自监督学习技术结合来利用这些数据，最近取得了非常显著的成功。由于此类方法并没有对噪声标记的结构显式建模，它们又可以被成为无噪声建模的噪声标记学习方法。

发明内容

本发明的目的在于提出一种基于多专家系统和知识蒸馏的众包图像学习方法，以缓解原有深度众包学习方法对于众包标注中噪声信息的过度拟合，提升分类器模型的泛化性能。

本发明为了实现上述目的，采用如下技术方案：

基于多专家系统和知识蒸馏的众包图像学习方法，包括如下步骤：

步骤1.获取图像集X，将图像集X随机分发给标注者进行标注，获得众包标注集

步骤2.将图像集X和众包标注集

作为训练集，训练一个深度众包学习模型h₀；

步骤3.使用训练好的深度众包学习模型h₀，生成第一真实标记预测

步骤4.将图像集X和第一真实标记预测

作为训练集，训练一个无噪声建模的噪声标记学习模型h₁；

步骤5.使用训练好的无噪声建模的噪声标记学习模型h₁，生成第二真实标记预测

步骤6.将图像集X、众包标注集

第二真实标记预测

作为训练集，重新训练一个深度众包学习模型h₂；

步骤7.对于未知图像，使用步骤4得到的无噪声建模的噪声标记学习模型h₁以及步骤6得到的深度众包学习模型h₂，预测标记未知图像的真实标记。

本发明具有如下优点：

如上所述，本发明述及了一种基于多专家系统和知识蒸馏的众包图像学习方法，该方法针对现有深度众包学习方法，由于过度简化的噪声建模方式或者不准确的噪声模型估计进而使得分类器模型过度拟合噪声标记的技术问题，使用无噪声建模的噪声标记学习方法，过滤分类器拟合的错误信息，从而提升分类器模型的泛化性能。本发明将深度众包学习方法与无噪声建模的噪声标记学习方法结合，提升了分类器模型图像标记的预测效果。

附图说明

图1为本发明实施例中基于多专家系统和知识蒸馏的众包图像学习方法的流程示意图；

图2为本发明实施例中深度众包学习模型的结构图；

图3为本发明实施例中无噪声建模的噪声标记学习方法的流程示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，一种基于多专家系统和知识蒸馏的众包图像学习方法，包括如下步骤：

步骤1.获取图像集X，将图像集X随机分发给网络上的标注者进行标注，获得相应的众包标注集

为了提升众包标记的质量水平，图像集X中一张图像往往对应由若干个标注者提供的标注。由于标注者水平层次不齐，众包标注中往往存在着大量噪声信息。

步骤2.将图像集X和众包标注集

作为训练集，训练一个深度众包学习模型h₀。

该步骤2中深度众包学习模型，如图2所示，其具体形式如下：

h＝h(·；Θ0)，g＝g(·；{W}，b)。

其中，h是一个深度神经网络分类器，其网络参数为Θ0；g是一个众包标注融合器，其参数为{W}和b；h(·；Θ0)和g(·；{W}，b)括号中的“·”表示函数的输入。

对于单张图像x∈X，相应的众包标注向量

h与g的输出形式如下：

其中，b表示偏差向量，S表示softmax函数。

m表示第m个标注者，M表示标注者的总数，

表示图像x由第m个标注者所提供的众包标注，

是一个范围为[0,C]的整数，C表示图像标记的类别总数。

表示

的独热编码形式，

的长度等于类别数量C。

只有第

个索引对应的数值为1。由于在实际的众包应用中，考虑标注成本，每个标注只会标注一部分图片，当

时，表示第m个标注者没有对图像x进行标注，此时，

是一个长度等于C的零向量。

W^m∈{W}表示第m个标注者对应的转置噪声转移矩阵，W^m是一个C×C的方阵；

表示当第m个标注者将图像x标注为第c个类别，其真实标记类别为j的概率。

本发明放宽W^m的限制为实数矩阵，以便于高效优化。

该深度众包学习模型的具体损失函数形式如下：

由上述公式得知，该损失函数包括两项，第一项表示最小化h和g对于同一张图像的预测一致性，第二项表示最大化h和g对于不同图像的预测不一致性。

其中，h(X)表示分类器h对于所有样本真实标记的预测概率，

表示众包标注融合器对所有众包标记的融合结果，

表示h(X)，

之间的损失函数。

由于h(X)和

的目标都是尽可能逼近样本的真实标记，自然

是最大化h(X)和

的相似程度，最小化它们之间的差异程度。

x_i表示图像集X中的第i张图像，N为图像集X中图像的总数。

表示第i张图像的众包标记，h(x_i)_c表示分类器h对于x_i真实标记预测为第c个类别的概率，

表示众包标注融合器g对于

融合结果为第c个类别的概率。

对于任意输入z，f(z)表示KL散度函数以f-散度形式表现时的生成函数；

表示f(z)对于输入z的偏导数，而

则表示为f的Fenchel对偶项。

c表示为第c个类别，且c∈{1,2,……,C}，是一个整数；f(z)、

以及

的具体形式如下：f(z)＝zlogz；

该深度众包学习模型最小化损失函数L₀，并且使用基于SGD的优化方法更新网络参数Θ₀，最后返回训练完成的深度神经网络分类器h(·；Θ₀)，记为深度众包学习模型h₀。

许多深度众包学习方法依赖于噪声转移矩阵刻画标注者的能力水平，如上述的转置噪声转移矩阵集合{W}，此类方法假设噪声标记的生成过程只与类别相关，同时其效果很大程度上依赖于转移矩阵的估计准确程度，而真实应用中，这种估计往往存在较大偏差。

因此，分类器往往会过度拟合众包标记集合中的噪声信息，从而导致泛化性能的下降。

为了简化训练过程，使用h₀预测结果的硬标记形式组成

其具体公式如下：

其中，x是图像集X中任意单张图像，即x∈X，h₀(x)表示步骤2中得到的深度众包学习模型h₀。

为深度众包学习模型h₀对x的预测结果，

表示选择预测概率h₀(x)中最大值的索引，记为c，也就是最终分类器模型对x真实标记的预测结果。

步骤4.将图像集X和第一真实标记预测

作为训练集，训练一个无噪声建模的噪声标记学习模型h₁。

无噪声建模的噪声标记学习模型的具体形式如下h＝(·；Θ₁)，记为h₁(x_i)。

其中，h是一个深度神经网络分类器，其网络参数为Θ₁。给定图像集X和第一真实标记预测

如图3所示，则无噪声建模的噪声标记学习模型的训练过程如下：

步骤4.1.输入图像集X和第一真实标记预测

步骤4.2.输入超参数α、β。

步骤4.3.初始化当前训练回合q＝0，输入最大训练回合数T。

步骤4.4.初始化深度神经网络分类器h(·；Θ₁)与滑动平均预测结果t。

步骤4.5.判断当前训练回合q是否小于最大训练回合数T；如果当前训练回合q未达到最大训练回合数T，则进入步骤4.6；否则，进入步骤4.12。

步骤4.6.从图像集X的剩余的图像子集中取出一批量的图像。

目前的深度学习以随机批量梯度下降方法训练网络，即首先将图像集X随机打乱样本顺序，接着按给定的批量长度将数据集X划分为多个图像子集，每个图像子集称为一批量的数据，每次使用的是一批量的数据，而不是整个数据集X计算梯度并更新网络参数。

步骤4.7.更新滑动平均预测结果t，其更新过程如下：

t_i←βt_i+(1-β)h₁(x_i)。

其中，超参数β表示滑动平均的动量。

步骤4.8.计算该无噪声建模的噪声标记学习模型的损失函数L₁，具体形式如下：

由损失函数L₁公式得知，该损失函数包括两项，第一项为对于原始的带噪标记的拟合函数，H表示交叉熵函数，第二项表示对于生成的滑动平均预测结果t_i的拟合函数。

其中，超参数α表示损失函数L₁中第一项与第二项之间的平衡系数。

本实施例中超参数α是一个人为设定的参数，而不是由数学模型计算得到的，其目的在于平衡L₁中两项(即加号左右的两个部分)对于模型训练的贡献程度。

表示第i个样本的第一真实标记预测，t_i表示截止到第q轮训练回合的模型h对于样本x_i的滑动平均预测结果，i∈{0,1,…,B}，B表示该批量图像的总数。

x_i表示该批量图像中第i张图像，h(x_i)表示分类器h对于样本x_i的真实标记预测。

由于深度神经网络在训练初期还尚未拟合错误信息，此段时间网络的输出相比于后期可能会更为准确，因此可以通过拟合它们预测结果的滑动平均值，来缓解网络对于噪声标记的过拟合问题，从而提升分类器模型的泛化性能。

步骤4.9.使用SGD更新网络参数Θ₁。

步骤4.10.判断是否遍历完所有批量的数据，如果是则进入步骤4.11，否则返回步骤4.6。

步骤4.11.当前训练回合数q加1，即q←q+1，返回步骤4.5。

步骤4.12.返回训练完成的深度神经网络分类器h(·；Θ₁)。

将训练好的深度神经网络分类器h(·；Θ₁)，记为无噪声建模的噪声标记学习模型h₁。

该噪声标记学习模型h₁可视为第一个进行图像识别的专家网络。

本发明实施例中使用软标记形式的预测结果组成

其具体形式如下：

其中，

表示第i个样本的第二真实标记预测。

步骤6.将图像集X、众包标注集

第二真实标记预测

作为训练集，重新训练一个深度众包学习模型h₂，其具体形式如下：

h＝(·；Θ₂)；g＝g(·；{W}，b)。

其中，h是一个深度神经网络分类器，其网络参数为Θ₂；g是一个众包标注融合器，其参数为{W}和b；h(·；Θ₂)和g(·；{W}，b)中的“·”号表示函数的输入。

该深度众包学习模型的具体损失函数L₂形式如下：

其中，

以及

均表示损失函数。

表示分类器h拟合第二真实标记预测

的损失函数，其函数形式与

相同，仅仅输入不同，故记为L₀，其具体形式如下：

其中，

表示第i个样本的第二真实标记预测。

损失函数L₂包含两项，第一项为对于众包标记集合的拟合函数，第二项为对于第二真实标记预测

的拟合函数，λ是这两项的平衡系数。

知识蒸馏是指一个深度神经网络模型(学生网络)通过拟合另外一个深度神经网络模型(教师网络)的输出结果，学习教师网络所包含的知识。

若将步骤4中训练所得的网络h₁视为教师网络，该项则表示为学生网络h₂通过知识蒸馏的方式从教师网路h₁处吸收知识，而蒸馏使用的拟合损失函数即为

该深度众包学习模型最小化损失函数L₂，并且使用基于SGD的优化方法更新网络参数Θ₂，该步骤最后返回训练完成的深度神经网络分类器h(·；Θ₂)。

将训练好的深度神经网络分类器h(·；Θ₂)记为深度众包学习模型h₂。

该深度众包学习模型h₂可视为第二个进行图像识别的专家网络。

步骤7.对于未知图像，使用无噪声建模的噪声标记学习模型h₁以及深度众包学习模型h₂，预测标记未知图像的真实标记。

对于标记未知的单张图像x，其预测结果

由h₁以及h₂共同决定，具体形式如下：

其中，h₁(x)表示步骤4中得到的无噪声建模的噪声标记学习模型h₁，h₂(x)表示步骤6中得到的深度众包学习模型h₂，

值为h₁、h₂共同预测概率的最大值索引。

h₁(x)、h₂(x)可视为两个专家网络，组成多专家系统，共同预测图像x的真实标记。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种基于多专家系统和知识蒸馏的众包图像学习方法，其特征在于，

包括如下步骤：

步骤2.将图像集X和众包标注集

作为训练集，训练一个深度众包学习模型h₀；

步骤4.将图像集X和第一真实标记预测

作为训练集，训练一个无噪声建模的噪声标记学习模型h₁；

步骤6.将图像集X、众包标注集

第二真实标记预测

作为训练集，重新训练一个深度众包学习模型h₂；

步骤7.对于未知图像，使用步骤4得到的无噪声建模的噪声标记学习模型h₁以及步骤6得到的深度众包学习模型h₂，预测标记未知图像的真实标记；

所述步骤2中，深度众包学习模型的具体形式如下：

h＝h(·；Θ₀)，g＝g(·；{W}，b)；

其中，h是一个深度神经网络分类器，其网络参数为Θ₀；g是一个众包标注融合器，其参数为{W}和b；h(·；Θ₀)和g(·；{W}，b)括号中的“·”表示函数的输入；

对于单张图像x∈X，相应的众包标注向量

h与g的输出形式如下：

h＝h(x；Θ₀)；

其中，b表示偏差向量，S表示softmax函数；

m表示第m个标注者，M表示标注者的总数；

表示图像x由第m个标注者所提供的众包标注，

是一个范围为[0,C]的整数，C表示图像标记的类别数量；

表示

的独热编码形式，

的长度等于类别数量C；

表示当第m个标注者将图像x标注为第c个类别，其真实标记类别为j的概率；

该深度众包学习模型的具体损失函数形式如下：

由上述公式得知，该损失函数包括两项，第一项表示最小化h和g对于同一张图像的预测一致性，第二项表示最大化h和g对于不同图像的预测不一致性；

其中，h(X)表示分类器h对于所有样本真实标记的预测概率，

表示众包标注融合器对所有众包标记的融合结果，

表示h(X)，

之间的损失函数；

x_i表示图像集X中第i张图像，N为图像集X中图像的总数；

表示众包标注融合器g对于

融合结果为第c个类别的概率；

表示f(z)对于输入z的偏导数，而

则表示为f的Fenchel对偶项；

c表示为第c个类别，且c∈{1,2,……,C}，是一个整数；f(z)、

以及

的具体形式如下：f(z)＝zlogz；

该深度众包学习模型最小化损失函数L₀，并且使用基于SGD的优化方法更新网络参数Θ₀，最后返回训练完成的深度神经网络分类器h(·；Θ₀)，记为深度众包学习模型h₀；

所述步骤3中，第一真实标记预测

的生成公式如下：

其中，x是图像集X中任意单张图像，即x∈X；

为深度众包学习模型h₀对x的预测结果，

表示选择预测概率h₀(x)中最大值的索引，记为c，也就是最终分类器模型对x真实标记的预测结果；

所述步骤4中，无噪声建模的噪声标记学习模型的具体形式如下：h＝h(·；Θ₁)，记为h₁(x_i)；其中，h是一个深度神经网络分类器，其网络参数为Θ₁；

给定图像集X和第一真实标记预测

则噪声标记学习模型的训练过程如下：

步骤4.1.输入图像集X和第一真实标记预测

步骤4.2.输入超参数α、β；

步骤4.3.初始化当前训练回合q＝0，输入最大训练回合数T；

步骤4.4.初始化深度神经网络分类器h(·；Θ₁)与滑动平均预测结果t；

步骤4.5.判断当前训练回合q是否小于最大训练回合数T；如果当前训练回合q未达到最大训练回合数T，则进入步骤4.6；否则，进入步骤4.12；

步骤4.6.从剩余的图像子集中取出一批量的图像；

其中，图像子集是指将图像集X随机打乱样本顺序，接着按给定的批量长度将数据集X划分出的多个图像子集，每个图像子集称为一批量的图像；

步骤4.7.更新滑动平均预测结果t，其更新过程如下：

t_i←βt_i+(1-β)h₁(x_i)；

其中，超参数β表示滑动平均的动量；

由损失函数L₁公式得知，该损失函数包括两项，第一项为对于原始的带噪标记的拟合函数，H表示交叉熵函数，第二项表示对于生成的滑动平均预测结果t_i的拟合函数；

其中，超参数α表示损失函数L₁中第一项与第二项之间的平衡系数；

表示第i个样本的第一真实标记预测；

t_i表示截止到第q轮训练回合的分类器h对于样本x_i的滑动平均预测结果；

其中，i∈{0,1,…,B}，B表示该批量图像的总数；

x_i表示该批量图像中第i张图像，h(x_i)表示分类器h对于样本x_i的真实标记预测；

步骤4.9.使用SGD更新网络参数Θ₁；

步骤4.10.判断是否遍历完所有批量的数据，如果是则进入步骤4.11，否则返回步骤4.6；

步骤4.11.当前训练回合数q加1，返回步骤4.5；

步骤4.12.返回训练完成的深度神经网络分类器h(·；Θ₁)；

将训练好的深度神经网络分类器h(·；Θ₁)，记为无噪声建模的噪声标记学习模型h₁；

该噪声标记学习模型h₁为第一个进行图像识别的专家网络；

所述步骤5中，第二真实标记预测

的生成公式如下：

其中，

表示第i个样本的第二真实标记预测；

所述步骤6中，深度众包学习模型的具体形式如下：

h＝h(·；Θ₂)；g＝g(·；{W}，b)；

其中，h是一个深度神经网络分类器，其网络参数为Θ₂；g是一个众包标注融合器，其参数为{W}和b；h(·；Θ₂)和g(·；{W}，b)中的“·”号表示函数的输入；

该深度众包学习模型的具体损失函数L₂形式如下：

其中，

以及

均表示损失函数；

的拟合函数，λ是这两项的平衡系数；

知识蒸馏是指一个深度神经网络模型即学生网络通过拟合另外一个深度神经网络模型即教师网络的输出结果，学习教师网络所包含的知识；

将步骤4中训练所得的网络h₁作为教师网络，学生网络h₂通过知识蒸馏的方式从教师网路h₁处吸收知识，而蒸馏使用的拟合损失函数即为

该深度众包学习模型最小化损失函数L₂，并且使用基于SGD的优化方法更新网络参数Θ₂，该步骤最后返回训练完成的深度神经网络分类器h(·；Θ₂)；

将训练好的深度神经网络分类器h(·；Θ₂)，记为深度众包学习模型h₂；

该深度众包学习模型h₂为第二个进行图像识别的专家网络；

所述步骤7具体为：

对于标记未知的单张图像x，其预测结果

由h₁以及h₂共同决定，具体形式如下：

值为h₁、h₂共同预测概率的最大值索引；

h₁(x)、h₂(x)为两个专家网络，组成多专家系统，共同预测图像x的真实标记。