CN114067165A

CN114067165A - 一种含噪声标记分布的图像筛选和学习方法与装置

Info

Publication number: CN114067165A
Application number: CN202111245746.5A
Authority: CN
Inventors: 李伟湋; 路玉卿; 陈进; 高培雪
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-02-18

Abstract

本发明公开了一种含噪声标记分布的图像筛选和学习方法与装置。该方法包括：获取图像数据集，并进行图像特征提取；根据专家的标注选取一定比例的图像样本放入信任集中，其余的放入待定集之中；使用信任集中的图像训练线性模型，并计算待定集中所有图像的置信度；基于三支决策的方法根据样本置信度作出决策，循环往复以筛选出所有噪声数据；使用样本置信度进行重赋权，并考虑噪声集与信任集之间的样本相关性以训练最大熵模型。本发明提出了含噪声标记分布的置信度评估指标，利用三支决策的方法在筛选噪声数据时利用了更多的置信度信息，通过重赋权并利用样本相关性，使训练模型的过程达到最优，能更精确地预测出结果，且拥有较好的鲁棒性。

Description

一种含噪声标记分布的图像筛选和学习方法与装置

技术领域

本发明涉及图像分类识别领域，具体是一种含噪声标记分布数据的图像筛选和学习方法与装置。

背景技术

标记分布学习(LDL)不同于传统的多标记学习(MLL)仅仅给出每个标记是否与示例相关，LDL给出了每个标记对于示例的具体的描述度。然而，大多数现有的LDL方法都需要大量带有准确标记分布的数据来支持，但是在实际应用中，尤其是在数据的标记过程中，标记噪声是难以避免的。具体来说：首先，标记分布数据的标注通常是由人工注释，在有数据量巨大的情况下将耗费大量的人力和时间，标注者在长时间的标注工作后难免对样本做出误标注；其次，标注者对实例的标注会受到其个人的主观影响；再者，标注者的专业性也会对其注释的标记质量产生影响；此外，对于一些特殊的标记，很难给出精确的值来表示与样本实例的关系。这些情况都会产生标记噪声问题。

例如，在图像分类识别中，我们假设风景和人物是一张图片标记空间中两个可能的标记。在对这张图片进行标注的时候，受主观因素的影响，标注者很可能会提高人物这一标记对图片的描述度，进而产生标记噪声，影响模型的学习精准度。这种问题在用于图像分类的标记分布学习中广泛存在却又难以避免，因此很大程度上限制了LDL的发展。因此，我们认为如果在学习过程中能够筛选出含有噪声的数据并对其进行处理，就可以期望更有效地解决含标记分布噪声的图像分类学习问题。基于此问题，我们设计了该发明。

发明内容

发明目的：针对现有技术的不足，本发明的目的在于提供一种含噪声标记分布的图像筛选和学习方法与装置，用于降低图像标记分布噪声对模型训练效果的影响，提高模型预测结果的准确性。

技术方案：为实现上述发明目的，本发明采用如下技术方案：

一种含噪声标记分布的图像筛选和学习方法，包括如下步骤：

(1)获取图像数据集，并进行图像特征提取；

(2)根据专家的标注从图像数据集中选取一定比例的信任数据放入信任集中，其余的所有数据放入待定集之中；

(3)使用信任集中的图像样本训练线性模型；

(4)通过线性模型计算待定集中的所有图像样本的置信度；

(5)基于三支决策的方法根据样本置信度作出决策，将置信度高于设定第一阈值的图像样本放入信任集中，低于设定第二阈值的图像样本放入噪声集中，其余留在待定集中，其中第二阈值小于第一阈值；

(6)重复步骤(3)至(5)直到待定集中没有图像样本，所有样本完成筛选并放入信任集和噪声集中；

(7)使用样本置信度对所有图像样本进行重赋权，并考虑噪声集与信任集之间的样本相关性以训练最大熵模型。进一步地，步骤(3)中的线性模型可以表示为：

s.t.WX_T×1_c＝1_t，WX_T≥0_t×c

其中W＝[w¹，w²，...，w^c]是线性模型的参数矩阵，X_T＝[x_T1，x_T2，...x_Ti，...x_Tt]表示信任集的图像特征矩阵，D_T＝[d_T1，d_T2,...d_Ti,...d_Tt]表示信任集的标记分布矩阵，c是标记的维数，t是信任集中图像样本的个数，||·||_F表示F范式，λ₁用于控制

项的重要度，1_c与1_t分别是长度为c和t的全一向量，0_t×c是t×c的零矩阵。

讲一步地，所述步骤(4)中根据如下公式计算图像样本的置信度：

其中，x_Ki表示待定集K中的第i个图像样本的特征，d_Ki表示待定集K中第i个图像样本的标记分布，g是待定集中图像样本的个数。

进一步地，步骤(7)中根据如下公式进行重赋权：

式中，n是图像数据集中所有图像样本的个数，η_i是第i个图像样本的置信度，初始信任集中图像样本的置信度取值为1，其他图像样本的置信度取值为其划分入信任集或噪声集时计算出的置信度值。

表示用KL散度衡量最大熵模型输出的预测标记分布

与真实标记分布d_i之间的距离，c表示标记维数，

分别是真实标记分布和预测标记分布中第j个标记的描述度，θ_pq是最大熵模型参数矩阵θ中的元素，矩阵θ是c×mm的，m表示图像特征维数。

进一步地，步骤(7)中噪声样本与信任样本之间的相关性由如下公式来表示：

其中，l表示筛选出来的噪声集中的图像样本个数，t表示筛选出的信任集中的图像样本个数，δ_ij代表噪声集中第i个图像样本到信任集中第j个图像样本之间的相似度，σ是高斯核的方差，通常根据样本点间的平均距离来估计。x_i∈N_k(x_j)表示x_i是x_j的k个距离最近的样本之一，x_j∈N_k(x_i)表示x_j是x_i的k个距离最近的样本之一。

训练最大熵模型的最终优化目标表示为：

其中λ₂是平衡两项之间重要性程度的平衡参数。该优化问题是一个光滑凸优化问题，利用自适应矩估计算法对其进行求解。

进一步地，利用所述的含噪声标记分布的图像筛选和学习方法的图像分类方法，包括：提取待测图像的特征，输入到训练好的最大熵模型得到预测标记分布。

基于相同的发明构思，本发明提供的一种含噪声标记分布的图像筛选和学习装置，包括：

预处理单元，用于获取图像数据集，并进行图像特征提取；

噪声筛选单元，用于根据专家的标注从图像数据集中选取一定比例的信任数据放入信任集中，其余的所有数据放入待定集之中；使用信任集中的图像样本训练线性模型；通过线性模型计算待定集中的所有图像样本的置信度；基于三支决策的方法根据样本置信度作出决策，将置信度高于设定第一阈值的图像样本放入信任集中，低于设定第二阈值的图像样本放入噪声集中，其余留在待定集中，其中第二阈值小于第一阈值；重复线性模型训练并进行样本划分直到待定集中没有图像样本，所有样本完成筛选并放入信任集和噪声集中；

以及最大熵模型训练单元，用于使用样本置信度对所有图像样本进行重赋权，并考虑噪声集与信任集之间的样本相关性以训练最大熵模型。

基于相同的发明构思，本发明提供的一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的含噪声标记分布的图像筛选和学习方法，或图像分类方法的各个步骤。

有益效果：鉴于现有的多数标记分布学习方法都建立在有全部或部分准确监督信息的基础上，却忽略了标记分布数据也有可能含有噪声，并因此影响模型的学习效果。本发明提出了一种含噪声标记的标记分布数据的置信度评估指标；利用三支决策的方法，在筛选噪声数据时利用了更多的置信度信息；通过重赋权并利用样本相关性，使训练模型的过程达到最优。应用在含标记分布噪声的图像分类问题中时，能更精确地预测出结果，且拥有较好的鲁棒性。

附图说明

图1为本发明实施例的方法流程图。

图2为图1中噪声筛选模型的方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图1所示，本发明实施例公开的一种含噪声标记分布的图像筛选和学习方法，首先使用一种基于三支决策的自训练线性模型噪声筛选方法对带噪声的数据进行筛选，再使用一种基于样本相关性的改进型最大熵模型训练方法对筛选后的数据进行学习，能够降低标记分布噪声的影响，提高模型预测结果的准确性。主要包括如下步骤：

(1)获取图像数据集，并进行图像特征提取，本实施例中采用图像的HOG特征。

(2)如图2所示，通过专家标注的方式从图像数据集中选取小比例的信任数据放入信任集T中，其余的所有数据放入待定集K之中；

(3)用信任集中的图像样本训练线性模型；具体地，根据如下的线性模型进行训练

s.t.WX_T×1_c＝1_t，WX_T≥0_t×c

我们的目标是用信任集中的数据训练线性模型，使得线性模型可以更好地拟合信任数据特征到标记分布的映射关系。其中W＝[w¹，w²，...，w^c]是线性模型的参数矩阵，X_T＝[x_T1，x_T2，...x_Ti，...x_Tt]表示信任集的图像特征矩阵，D_T＝[d_T1，d_T2，...d_Ti，...d_Tt]表示信任集的标记分布矩阵，c是标记的维数，t是信任集中图像样本的个数，||·||_F表示F范式，λ₁用于控制

(4)把待定集中的数据输入到线性模型之中，得到预测的标记分布，并计算待定数据集中所有数据的置信度；具体地，根据如下公式计算待定数据的置信度：

置信度主要根据待定数据预测标记分布与其真实标记分布的F范数损失来定义。由于步骤(2)中得到的线性模型主要拟合了信任数据特征到标记分布的映射关系。因此，当噪声样本通过线性模型后，其预测标记分布会与其噪声标记分布存在较大差异。之后通过对所有待定数据的损失进行归一化从而得到置信度。其中，x_Ki表示待定集K中的第i个图像样本的特征，d_Ki表示待定集K中第i个图像样本的标记分布，g是待定集中图像样本的个数。

(5)使用三支决策方法根据图像样本的置信度将图像样本分别放入信任集，噪声集和待定集中。之后重复(3)到(5)，直到待定集K中没有图像样本为止。

为了对图像样本进行更准确的划分，我们采用了三支决策的方法根据每个图像样本的置信度对样本进行划分。不同于普通的二支决策方法一次性决定所有样本的划分，三支决策方法会对那些由当前所掌握的信息不足以作出准确判断的样本做出延迟判断的决策，以期获得更多有用信息后对其做出更准确的判断。具体来讲，主要是对每一个样本的置信度进行判断，将置信度高于阈值α的放入预测信任集T中，将置信度低于阈值β(β＜α)的放入预测噪声集N中，其余样本留在待定集K中。重复第三到第五步，直到待定集K中没有样本时，所有的样本就都完成了筛选并分别放入信任集T和噪声集N中。

(6)使用置信度对所有数据进行重赋权，以降低噪声数据对模型学习效果的影响。具体地讲，根据如下公式进行重赋权：

式中，n是图像数据集中所有图像样本的个数，η_i是基于三支决策的自训练线性模型噪声筛选算法中计算出的第i个样本的置信度。置信度较高的样本有较大概率是无噪声样本，相反置信度较低的样本不含噪声的几率就较低，因此用置信度对每个样本进行赋权，可以有效提高信任数据对模型学习结果的影响，进而提升算法性能。

表示用KL散度衡量预测标记分布与真实标记分布之间的距离，而

表示最大熵模型输出的预测标记分布。di表示真实标记分布，

(7)通过利用噪声样本与信任样本之间的相关性，使得噪声样本的预测标记分布尽量接近与其具有相关性的信任样本。具体地讲，对于那些噪声数据的学习，假设样本之间存在相关性，若噪声样本的特征与信任样本的特征相似，则两者标记分布也会相近，基于此假设，我们在损失函数中添加了一个衡量样本之间相关性的项。设筛选出来的噪声集共l个图像样本，筛选出的信任集中共t个图像样本。设定了一个l×t的矩阵Δ来表示噪声集样本与信任样本的相似度。矩阵Δ中，δ_ij代表噪声集中第i个图像样本到信任集中第j个图像样本之间的相似度：

而噪声样本与信任样本之间的相关性则由如下公式来表示：

其中，σ是高斯核的方差，通常根据样本点间的平均距离来估计。x_i∈N_k(x_j)表示x_i是x_j的k个距离最近的样本之一，k的取值推荐为5。

最终优化目标表示为：

模型训练好之后，对于待测图像，提取其图像特征，输入到训练好的最大熵模型得到预测标记分布。

基于相同的发明构思，本发明实施例提供的一种含噪声标记分布的图像筛选和学习装置，包括：预处理单元，用于获取图像数据集，并进行图像特征提取；噪声筛选单元，用于根据专家的标注从图像数据集中选取一定比例的信任数据放入信任集中，其余的所有数据放入待定集之中；使用信任集中的图像样本训练线性模型；通过线性模型计算待定集中的所有图像样本的置信度；基于三支决策的方法根据样本置信度作出决策，将置信度高于设定第一阈值的图像样本放入信任集中，低于设定第二阈值的图像样本放入噪声集中，其余留在待定集中，其中第二阈值小于第一阈值；重复线性模型训练并进行样本划分直到待定集中没有图像样本，所有样本完成筛选并放入信任集和噪声集中；以及最大熵模型训练单元，用于使用样本置信度对所有图像样本进行重赋权，并考虑噪声集与信任集之间的样本相关性以训练最大熵模型。

基于相同的发明构思，本发明实施例提供的一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述方法的各个步骤。

Claims

1.一种含噪声标记分布的图像筛选和学习方法，其特征在于，包括如下步骤：

(1)获取图像数据集，并进行图像特征提取；

(3)使用信任集中的图像样本训练线性模型；

(4)通过线性模型计算待定集中的所有图像样本的置信度；

(7)使用样本置信度对所有图像样本进行重赋权，并考虑噪声集与信任集之间的样本相关性以训练最大熵模型。

2.根据权利要求1所述的含噪声标记分布的图像筛选和学习方法，其特征在于，所述步骤(3)中的线性模型表示为：

s.t.WX_T×1_c＝1_t,WX_T≥0_t×c

其中，W＝[w¹,w²,...,w^c]是线性模型的参数矩阵，X_T＝[x_T1,x_T2,...x_Ti,...x_Tt]表示信任集的图像特征矩阵，D_T＝[d_T1,d_T2,... d_Ti,...d_Tt]表示信任集的标记分布矩阵，c是标记的维数，t是信任集中图像样本的个数，||·||_F表示F范式，λ₁用于控制

3.根据权利要求2所述的含噪声标记分布的图像筛选和学习方法，其特征在于，所述步骤(4)中根据如下公式计算图像样本的置信度：

其中，x_Ki表示待定集K中第i个图像样本的特征，d_Ki表示待定集K中第i个图像样本的标记分布，g是待定集中图像样本的个数。

4.根据权利要求1所述的含噪声标记分布的图像筛选和学习方法，其特征在于，所述步骤(7)中根据如下公式进行重赋权：

式中，n是图像数据集中所有图像样本的个数，η_i是第i个图像样本的置信度，初始信任集中图像样本的置信度取值为1，其他图像样本的置信度取值为其划分入信任集或噪声集时计算出的置信度值；

表示用KL散度衡量最大熵模型输出的预测标记分布

与真实标记分布d_i之间的距离，c表示标记维数，

分别是真实标记分布和预测标记分布中第j个标记的描述度，θ_pq是最大熵模型参数矩阵θ中的元素，矩阵θ是c×m的，m表示图像特征维数。

5.根据权利要求4所述的含噪声标记分布的图像筛选和学习方法，其特征在于，所述步骤(7)中噪声样本与信任样本之间的相关性由如下公式表示：

其中，l表示筛选出来的噪声集中的图像样本个数，t表示筛选出的信任集中的图像样本个数，δ_ij代表噪声集中第i个图像样本到信任集中第j个图像样本之间的相似度，σ是高斯核的方差，x_i∈N_k(x_j)表示x_i是x_j的k个距离最近的样本之一,x_j∈N_k(x_i)表示x_j是x_i的k个距离最近的样本之一。

6.根据权利要求5所述的含噪声标记分布的图像筛选和学习方法，其特征在于，训练最大熵模型的最终优化目标表示为：

其中λ₂是平衡两项之间重要性程度的平衡参数。

7.利用根据权利要求1-6任一项所述的含噪声标记分布的图像筛选和学习方法的图像分类方法，其特征在于，提取待测图像的特征，输入到训练好的最大熵模型得到预测标记分布。

8.一种含噪声标记分布的图像筛选和学习装置，其特征在于，包括：

预处理单元，用于获取图像数据集，并进行图像特征提取；

9.根据权利要求8所述的含噪声标记分布的图像筛选和学习装置，其特征在于，训练最大熵模型的最终优化目标表示为：

其中，n是图像数据集中所有图像样本的个数，η_i是第i个图像样本的置信度，

是最大熵模型输出的预测标记分布，d_j是真实标记分布，c表示标记维数，

分别是真实标记分布和预测标记分布中第j个标记的描述度，θ是最大熵模型参数矩阵，l表示筛选出来的噪声集中的图像样本个数，t表示筛选出的信任集中的图像样本个数，δ_ij代表噪声集中第i个图像样本到信任集中第j个图像样本之间的相似度，λ₂是平衡两项之间重要性程度的平衡参数。

10.一种计算机装置，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的方法的各个步骤。