CN113255849B

CN113255849B - 一种基于双重主动查询的标签带噪图像学习方法

Info

Publication number: CN113255849B
Application number: CN202110792414.2A
Authority: CN
Inventors: 李绍园; 侍野; 黄圣君
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-10-01
Anticipated expiration: 2041-07-14
Also published as: CN113255849A

Abstract

本发明公开了一种基于双重主动查询的标签带噪图像学习方法，其包括步骤：搭建深度卷积神经网络分类器及噪声转移矩阵，在带噪数据集上预训练分类器及噪声转移矩阵；挑选图像集，获取挑选图像集的真实标签；使用挑选的图像集及真实标签更新噪声转移矩阵；初始化基于噪声转移矩阵的分类器；构建真实标签上的损失函数和噪声标签上的损失函数；基于随机梯度下降最小化真实标签损失及噪声标签损失，更新分类器参数；重复迭代过程至最大迭代次数K，完成深度卷积神经网络分类器g的训练。本发明使用噪声转移矩阵建立噪声模型，并引入真实标签估计噪声转移矩阵及改善分类器；通过设计双重主动查询方法，在节省标注成本的同时最大化提高分类器学习准确率。

Description

一种基于双重主动查询的标签带噪图像学习方法

技术领域

本发明属于图像学习技术领域，涉及一种基于双重主动查询的标签带噪图像学习方法。

背景技术

深度卷积神经网络图像分类器模型需要大量的标签，但是实际收集到的标签往往包含着大量噪声，而深度神经网络又很容易对噪声数据过拟合，这限制了分类器模型的泛化性能。

已有的学习理论表明，通过对噪声建立模型，如果噪声模型估计是准确的，那么在噪声数据上的最优分类器，等价于真实标签数据上的最优分类器。

噪声转移矩阵是一类常用的噪声模型，它包含图像各个类别之间的翻转概率，以此来实现真实标签概率分布和噪声标签概率分布之间的映射。而估计噪声转移矩阵仅需要少量的真实标签。

另外，传统的主动学习算法挑选分类器预测最不确定的图像，向专家询问它们的真实标签，然而，这样会使得噪声转移矩阵的估计带有偏差。

发明内容

本发明的目的在于提出一种基于双重主动查询的标签带噪图像学习方法，以解决现有的深度神经网络容易对噪声标签过拟合的问题以及传统主动查询偏好导致的噪声转移矩阵估计偏差，在节省标注成本的同时最大化提高分类器的学习准确率。

本发明为了实现上述目的，采用如下技术方案：

一种基于双重主动查询的标签带噪图像学习方法，包括如下步骤：

步骤1. 获取图像集X和噪声标签集Y，组成带噪数据集D=(X, Y)；

步骤2. 搭建深度卷积神经网络分类器f以及基于噪声转移矩阵T的深度卷积神经网络分类器g，使用带噪数据集D预训练深度卷积神经网络分类器f、g；

步骤3. 根据预训练好的深度卷积神经网络分类器g对图像集X的预测结果，设计双重主动挑选指标，并挑选第一图像集X_h和第二图像集X_g；

获取第一图像集X_h的真实标签Y_h组成第一数据集D_h=(X_h, Y_h)，以及第二图像集X_g的真实标签Y_g组成第二数据集D_g=(X_g, Y_g)；从带噪数据集D中移除(D_h∪D_g)；

步骤4. 使用步骤2中预训练好的深度卷积神经网络分类器f、以及步骤3中得到的第一数据集D_h和第二数据集D_g更新噪声转移矩阵T；

步骤5. 初始化基于噪声转移矩阵T的深度卷积神经网络分类器g；

步骤6. 构建损失函数L，包括真实标签上的损失函数L₁和噪声标签上的损失函数L₂；

步骤7. 基于随机梯度下降最小化损失函数L，更新深度卷积神经网络分类器g的参数；

步骤8. 设定最大迭代次数K，重复执行上述步骤3-步骤7，直至达到最大迭代次数K，至此完成深度卷积神经网络分类器g的训练；

步骤9. 使用训练完成的深度卷积神经网络分类器g进行分类预测任务。

本发明具有如下优点：

如上所述，本发明述及了一种基于双重主动查询的标签带噪图像学习方法，该方法针对深度神经网络容易过拟合噪声标签的问题，使用噪声转移矩阵建立噪声模型，并引入真实标签估计噪声转移矩阵及改善分类器；此外，通过双重主动查询方法，避免了传统主动查询偏好导致的噪声转移矩阵估计偏差，在节省标注成本的同时最大化提高分类器学习准确率。

附图说明

图1为本发明实施例中基于双重主动查询的标签带噪图像学习方法的流程示意图；

图2为本发明实施例中基于噪声转移矩阵的深度卷积神经网络的结构示意图；

图3为本发明实施例中预训练深度卷积神经网络分类器的流程图；

图4为本发明实施例中双重主动标签挑选算法的流程示意图。

具体实施方式

本实施例述及了一种基于双重主动查询的标签带噪图像学习方法。

如图1所示，该方法包括如下步骤：

步骤1. 获取图像集X和噪声标签集Y，组成带噪数据集D=(X, Y)。

图像集X的标签可通过人工标记的方式获取，比如询问专家或者众包等；也可通过自动收集的方式获取，比如爬虫。然而这些方式实际收集到的标记Y中包含着大量错误标签。

如果直接在这些真实数据集上学习一个深度神经网络分类器模型，它将会对噪声数据过拟合，导致自身泛化性能的降低。已有的学习理论表明：

通过噪声转移矩阵对噪声建立模型，在噪声转移矩阵估计准确的情况下，在噪声数据上的最优分类器等价于真实标签数据上的最优分类器，模型的性能表现也能够提高。

步骤2. 搭建深度卷积神经网络分类器f以及基于噪声转移矩阵T的深度卷积神经网络分类器g，使用带噪数据集D预训练深度卷积神经网络分类器f、g。

首先使用带噪数据集D直接训练一个深度卷积神经网络分类器f。

由于深度神经网络很容易过拟合噪声数据，因此，可以将深度卷积神经网络分类器f的输出概率分布f(X;Φ)近似看成图像噪声标签的概率分布。

然后，搭建基于噪声转移矩阵T的深度卷积神经网络分类器g，估计噪声转移矩阵T，预训练深度卷积神经网络分类器g。

如图2给出了基于噪声转移矩阵T的深度卷积神经网络g的结构示意图。

由图2可知，噪声转移矩阵T的表达形式如下：T_i,j=P(y=j|y=i)。

其中，y表示真实标签，y表示噪声标签。

噪声转移矩阵T是一个C×C的矩阵，C表示类别的总数；T_i,j是噪声转移矩阵T第i行、第j列的元素，表示一张真实标签是类别i的图像被标记为类别j的概率。

噪声转移矩阵T将真实标签概率分布P(y=i|X=x) 映射为噪声标签概率分布P(y=j|X=x)，其具体形式为：P(y=j|X=x)=∑^C _i=1T_i,j P(y=i|X=x)。

其中，对于单张图像x，真实标签概率分布P(y=i|X=x)表示其真实标签为类别i的概率，噪声标签概率分布P(y=j|X=x)表示其噪声标签为类别 j的概率。

如图3所示，步骤2的具体实施过程如下：

步骤2.1. 输入带噪数据集D。

步骤2.2. 初始化深度卷积神经网络分类器f，构建噪声标签上的损失函数L’₁，此处，使用交叉熵作为损失函数。

对于单张图像x及其噪声标签y，(x,y)∈D，其损失值L’₁(x,y)的具体形式如下：

L’₁(x,y)=－ylog f(X;Φ)；

其中，f(X;Φ)表示深度卷积神经网络分类器f对于图像x的输出，Φ表示网络参数；L’₁(x,y)表示图像x的损失值。

深度卷积神经网络分类器f是为了近似拟合带噪数据集D中的噪声标签分布，所以这里将噪声标签直接作为学习目标来使用。

步骤2.3. 基于随机梯度下降对损失函数L₁进行最小化，并更新深度卷积神经网络分类器f的网络参数Φ。

步骤2.4. 对于每一种标签类别，从深度卷积神经网络分类器f的所有预测结果为该类别的图像中按照预测概率由大到小的顺序挑选出前k张图像组成图像集X’。

步骤2.5. 从深度卷积神经网络分类器f的预测结果中获取图像集X’的真实标签Y’，组成数据集D’，D’=( X’, Y’)。

步骤2.6. 初始化噪声转移矩阵T。

使用数据集D’和f(X’;Φ)估计噪声转移矩阵T；这里将深度卷积神经网络分类器f对于数据集D’中所有图像的输出f(X’;Φ)近似看成图像噪声标签的概率分布。

具体计算过程如下：

T_i,j=1/|D_i|·∑_{(x,y) ∈Di}P(y=j|X=x)= 1/|D_i|·∑_{(x,y) ∈Di}f(x;Φ)；

其中，D_i∈( D’) 表示所有真实标签为i的图像及其真实标签的集合；

对于单张图像x，P(y=j|X=x)表示其噪声标签为类别j的概率；此处，P(y=j|X=x)使用深度卷积神经网络分类器f的输出f(x;Φ)代替。

步骤2.7. 初始化基于噪声转移矩阵T的深度卷积神经网络分类器g，构建噪声标签上的损失函数L’₂；此处，使用交叉熵作为损失函数。

对于单张图像x及其标签y，(x,y)∈(X,Y)，其损失值L’₂(x,y)的具体形式如下：

L’₂(x,y)=－ylog T^Tg(x;Θ)；

其中，g(x;Θ)是深度卷积神经网络分类器g对单张图像x的输出概率，Θ是网络参数；L’₂(x,y)表示图像x的损失值。

步骤2.8. 基于随机梯度下降对损失函数L’₂最小化，并更新深度卷积神经网络分类器g的网络参数Θ。

步骤2.9. 输出预训练好的深度卷积神经网络分类器f、g。

其中，预训练好的深度卷积神经网络分类器f用于步骤4中噪声转移矩阵T的更新，预训练好的深度卷积神经网络分类器g用于步骤3中图像集的挑选。

步骤3. 根据预训练好的深度卷积神经网络分类器g对图像集X的预测结果，设计双重主动挑选指标，并挑选第一图像集X_h和第二图像集X_g。

获取第一图像集X_h的真实标签Y_h组成第一数据集D_h=(X_h, Y_h)，以及第二图像集X_g的真实标签Y_g组成第二数据集D_g=(X_g, Y_g)；从带噪数据集D中移除(D_h∪D_g)。

其中，挑选出的第一图像集X_h为有助于提升分类器的图像集，挑选出的第二图像集X_g为有助于估计噪声转移矩阵的图像集，以此缓解噪声转移矩阵的估计偏差。

这里采取不放回的采样方式，即每当从带噪数据集D中挑选一部分图像后，不将这些图像放回带噪数据集D中，而是将所挑选的部分从带噪数据集D中移除，以避免下一次采样时挑选到这些图像。

在该步骤3中，设计的双重主动挑选指标为深度卷积神经网络分类器g对图像预测概率的熵，记为entropy，对于单张图像x，其具体计算过程为：

entropy(x)=－∑^C _i=1 g(x;Θ)·log g(x;Θ)；

其中，g(x;Θ)是深度卷积神经网络分类器g对图像x的输出概率。

在双重主动查询算法，挑选熵最大的图像集X_h，这一部分是分类器预测最难确定的图像，通过询问专家获取它们的真实标签Y_h将会显著提升分类器的性能表现；然而，假如只依靠第一图像集X_h将会使得噪声转移矩阵的估计产生偏差。

近年来的研究发现，深度神经网络有着一个内在特性：

在一个包含着大量图像标记噪声的数据集上，深度神经网络会先学习到其中正确的信息，之后再学习到错误的信息，其关键点在于训练停止的时间。

因此，在适当的时候提前停止训练过程，来阻止模型进一步拟合数据集中错误的信息；然后，选取模型预测结果中最为确信的部分作为图像的真实标签。

因此，本实施例还挑选熵最小的图像集X_g，这一部分是分类器预测最为确定的图像，而分类器对这些图像的预测结果也很可能是正确的。

针对该部分图像，本实施例从分类器自身的预测结果中获取图像集X_g的真实标签Y_g。

这些标记非常可能是真实标签，而这些图像也是最容易被分类正确的一部分，以此缓解噪声转移矩阵的估计偏差，在节省标注成本的同时最大化提高分类器学习准确率。

如图4所示，步骤3的具体实施过程如下：

步骤3.1. 输入带噪数据集D以及预训练好的深度卷积神经网络分类器g。

步骤3.2. 根据深度卷积神经网络分类器g对带噪数据集D的图像集X中所有图像的预测概率，计算它们的熵entropy(X)。

步骤3.3. 按照熵由大到小的顺序挑选前n个图像组成第一图像集X_h；通过询问专家的方式，获取第一图像集X_h的真实标签Y_h，组成第一数据集D_h。

需要说明的是，本实施例中询问专家指的是，将图像交给有经验的标注者进行标注；比如将CT图像交给医生，而不是普通人来判断图像中是否包含肿瘤。

步骤3.4. 按照熵由小到大的顺序挑选前m个图像组成第二图像集X_g；根据深度卷积神经网络分类器g对第二图像集X_g的预测获取第二图像集的真实标签Y_g，组成第二数据集D_g。

步骤3.5. 从带噪数据集D中移除(D_h∪D_g)。

步骤3.6. 输出第一数据集D_h、第二数据集D_g、移除(D_h∪D_g)之后的带噪数据集D。

步骤4. 使用预训练好的深度卷积神经网络分类器f、第一数据集D_h、第二数据集D_g更新噪声转移矩阵T。估计噪声模型仅需要少量的真实标签。

深度卷积神经网络分类器f是步骤2中预训练完成的分类器，代表噪声标签的概率分布。

其中，更新噪声转移矩阵T的具体计算过程如下：

T_i,j=1/|D_i|·∑_{(x,y) ∈Di}P(y=j|X=x)= 1/|D_i|·∑_{(x,y) ∈Di}f(x;Φ)。

其中，D_i∈(D_h∪D_g) 表示所有真实类别为i的图像及其真实标记的集合；

对于单张图像x，P(y=j|X=x)表示其噪声标签为类别j的概率。

此处，P(y=j|X=x)使用深度卷积神经网络分类器f的输出f(x;Φ)代替。之后，基于噪声转移矩阵T搭建深度卷积神经网络g来从噪声标签中学习到图像的真实标签概率分布。

步骤5. 初始化基于噪声转移矩阵T的深度卷积神经网络分类器g。

在每次迭代中，深度卷积神经网络分类器g都会重新进行初始化，这是为了阻断可能产生的错误传播问题，即上一轮学习过程中产生的错误会传播到下一轮的学习过程。

步骤6. 构建损失函数L，包括真实标签上的损失函数L₁和噪声标签上的损失函数L₂。

针对挑选出的数据集(D_h∪D_g)，由于包含的都是真实标签，所以构建真实标签上的损失函数L₁；针对于图像集D，由于包含噪声标签，所以本实施例构建噪声标签上的损失函数L₂。

这里的损失函数L₁、L₂与步骤2中的损失函数L’₁、L’₂在形式上是一样的。

对于单张图像x，损失函数L₁和损失函数L₂的具体形式分别如下：

L₁(x,y)= －ylog g(x;Θ)；L₂(x,y)= －ylog T^Tg(x;Θ)。

对于单张图像x，y表示其真实标签，y表示其噪声标签。

如果x是数据集(D_h∪D_g)中的一张图像，则使用其真实标签y，同时使用真实标签上的损失函数L₁计算，其损失值为L₁(x,y)。

如果x是带噪数据集D中的一张图像，由于真实标签是未知的，使用其噪声标签y，同时使用噪声标签上的损失函数L₂计算，其损失值为L₂(x,y)。

对于整个数据集(D_h∪D_g∪D)，其总损失值L的具体计算方式如下：

L=∑_{(x,y) ∈(Dh∪Dg)}L₁(x,y)+ ∑_(x, _y _{) ∈} _D L₂(x,y)。

步骤7. 基于随机梯度下降最小化损失函数L，更新深度卷积神经网络分类器g的参数。

本实施例中使用SGD或者Adam优化器对L进行优化并更新g的网络参数Θ。

步骤8. 设定最大迭代次数K，重复执行上述步骤3-步骤7，直至达到最大迭代次数K，至此完成深度卷积神经网络分类器g的训练。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种基于双重主动查询的标签带噪图像学习方法，其特征在于，包括如下步骤：

步骤1.获取图像集X和噪声标签集Y，组成带噪数据集D＝(X,Y)；

步骤2.搭建深度卷积神经网络分类器f以及基于噪声转移矩阵T的深度卷积神经网络分类器g，使用带噪数据集D预训练深度卷积神经网络分类器f、g；

步骤3.根据预训练好的深度卷积神经网络分类器g对图像集X的预测结果，设计双重主动挑选指标，并挑选第一图像集X_h和第二图像集X_g；

获取第一图像集X_h的真实标签Y_h组成第一数据集D_h＝(X_h,Y_h)，以及第二图像集X_g的真实标签Y_g组成第二数据集D_g＝(X_g,Y_g)；从带噪数据集D中移除(D_h∪D_g)；

步骤4.使用步骤2中预训练好的深度卷积神经网络分类器f、以及步骤3中得到的第一数据集D_h和第二数据集D_g更新噪声转移矩阵T；

步骤5.初始化基于噪声转移矩阵T的深度卷积神经网络分类器g；

步骤6.构建损失函数L，包括真实标签上的损失函数L₁和噪声标签上的损失函数L₂；

步骤7.基于随机梯度下降最小化损失函数L，更新深度卷积神经网络分类器g的参数；

步骤8.设定最大迭代次数K，重复执行上述步骤3-步骤7，直至达到最大迭代次数K，至此，完成深度卷积神经网络分类器g的训练；

步骤9.使用训练完成的深度卷积神经网络分类器g进行分类预测任务；

所述步骤2中，噪声转移矩阵T的表达形式如下：T_i,j＝P(y＝j|y＝i)；

其中，y表示真实标签，y表示噪声标签；

噪声转移矩阵T是一个C×C的矩阵，C表示类别的总数；T_i,j是噪声转移矩阵T第i行、第j列的元素，表示一张真实标签是类别i的图像被标记为类别j的概率；

噪声转移矩阵T将真实标签概率分布P(y＝i|X＝x)映射为噪声标签概率分布P(y＝j|X＝x)，其具体形式为：P(y＝j|X＝x)＝∑^C _i＝1T_i,j P(y＝i|X＝x)；

其中，对于单张图像x，真实标签概率分布P(y＝i|X＝x)表示其真实标签为类别i的概率，噪声标签概率分布P(y＝j|X＝x)表示其噪声标签为类别j的概率；

所述步骤2具体为：

步骤2.1.输入带噪数据集D；

步骤2.2.初始化深度卷积神经网络分类器f，构建噪声标签上的损失函数L’₁；

步骤2.3.基于随机梯度下降对损失函数L’₁进行最小化，并更新深度卷积神经网络分类器f的网络参数Φ；

步骤2.4.对于每一种标签类别，从深度卷积神经网络分类器f的所有预测结果为该类别的图像中，按照预测概率由大到小的顺序挑选出前k张图像组成图像集X’；

步骤2.5.从深度卷积神经网络分类器f的预测结果中获取图像集X’的真实标签Y’，组成数据集D’，D’＝(X’,Y’)；

步骤2.6.初始化噪声转移矩阵T，具体计算过程如下：

T_i,j＝1/|D_i|·∑_(x,y)∈Di P(y＝j|X＝x)＝1/|D_i|·∑_(x,y)∈Dif(x；Φ)；

其中，D_i∈(D’)表示所有真实标签为i的图像及其真实标签的集合；

对于单张图像x，P(y＝j|X＝x)表示其噪声标签为类别j的概率；此处，P(y＝j|X＝x)使用深度卷积神经网络分类器f的输出f(x；Φ)代替；

步骤2.7.初始化基于噪声转移矩阵T的深度卷积神经网络分类器g，构建噪声标签上的损失函数L’₂；

步骤2.8.基于随机梯度下降对损失函数L’₂最小化，并更新深度卷积神经网络分类器g的网络参数Θ；

步骤2.9.输出预训练好的深度卷积神经网络分类器f、g；

所述步骤3中，设计的双重主动挑选指标为深度卷积神经网络分类器g对图像预测概率的熵，记为entropy，对于单张图像x，其具体计算过程为：

entropy(x)＝－∑^C _i＝1g(x；Θ)·log g(x；Θ)；

其中，g(x；Θ)是深度卷积神经网络分类器g对图像x的输出概率；

所述步骤3具体为：

步骤3.1.输入带噪数据集D以及预训练好的深度卷积神经网络分类器g；

步骤3.2.根据深度卷积神经网络分类器g对带噪数据集D的图像集X中所有图像的预测概率，计算它们的熵entropy(X)；

步骤3.3.按照熵由大到小的顺序挑选前n个图像组成第一图像集X_h；通过询问专家的方式，获取第一图像集X_h的真实标签Y_h，组成第一数据集D_h；

步骤3.4.按照熵由小到大的顺序挑选前m个图像组成第二图像集X_g；根据深度卷积神经网络分类器g对第二图像集X_g的预测获取第二图像集的真实标签Y_g，组成第二数据集D_g；

步骤3.5.从带噪数据集D中移除(D_h∪D_g)；

步骤3.6.输出第一数据集D_h、第二数据集D_g、移除(D_h∪D_g)之后的带噪数据集D；

所述步骤4中更新噪声转移矩阵T的具体计算过程如下：

其中，D_i∈(D_h∪D_g)表示所有真实类别为i的图像及其真实标记的集合；

所述步骤6具体为：

针对挑选出的数据集(D_h∪D_g)，由于包含的都是真实标签，构建真实标签上的损失函数L₁；针对于带噪数据集D，由于包含噪声标签，构建噪声标签上的损失函数L₂；

L₁(x,y)＝－ylog g(x；Θ)；L₂(x,y)＝－ylog T^Tg(x；Θ)；

对于单张图像x，y表示其真实标签，y表示其噪声标签；

如果图像x是数据集(D_h∪D_g)中的一张图像，则使用其真实标签y，同时使用真实标签上的损失函数L₁计算，其损失值为L₁(x,y)；

如果图像x是带噪数据集D中的一张图像，由于真实标签是未知的，使用其噪声标签y，同时使用噪声标签上的损失函数L₂计算，其损失值为L₂(x,y)；

L＝∑_{(x,y)∈(Dh∪Dg)}L₁(x,y)+∑_(x, _y _)∈ _D L₂(x,y)。