CN117636072B

CN117636072B - 基于难度感知数据增强与标签矫正的图像分类方法及系统

Info

Publication number: CN117636072B
Application number: CN202410094855.9A
Authority: CN
Inventors: 袭肖明; 孟令钊; 宁一鹏; 陈关忠; 钱娜; 李永珂; 崔培硕; 聂秀山
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-04-26
Anticipated expiration: 2044-01-24
Also published as: CN117636072A

Abstract

本发明涉及图像分类系统技术领域，提供了一种基于难度感知数据增强与标签矫正的图像分类方法及系统。本发明引入了难度感知数据增强方法，根据样本的学习难度自动划分为简单样本和难样本，并对简单样本采用更多样化的数据增强策略，对难样本采用判别性特征保留的数据增强策略，从而帮助模型学习更丰富的多样性特征及判别性特征，以提升模型分类性能。引入难度感知标签矫正方法，根据样本的历史预测结果计算不确定性得分，挖掘样本集中可能存在的噪声样本，并采用数据驱动的标签矫正器对噪声样本执行标签矫正，进一步提升图像分类模型的准确性和鲁棒性。

Description

基于难度感知数据增强与标签矫正的图像分类方法及系统

技术领域

本发明涉及图像分类系统技术领域，尤其涉及一种基于难度感知数据增强与标签矫正的图像分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

图像分类是计算机视觉领域的重要研究方向之一，其目的是通过训练网络模型，使其能够自动识别并将输入图像准确归类到预定义的类别中。由于计算机视觉等领域的快速发展，图像分类在医学影像诊断、自动驾驶、安防监控等领域得到了广泛的应用。然而传统的图像分类方法主要依赖于手工设计的特征提取器和传统的机器学习算法，这些方法在泛化性能等方面受到了限制。随着深度学习的发展，特别是卷积神经网络的出现，图像分类取得了巨大的突破。深度学习方法得益于其能够自动学习图像中的层次化特征，显著提高了模型的分类准确性，并成为图像分类领域的主流方法。

目前基于深度学习的图像分类方法通常需要大量且多样性的标注数据来学习数据的特征表示。然而在某些特定领域，如医学图像领域，收集和标注大规模数据即费时又昂贵。同时，由于标注数据的采集可能受到隐私和伦理等方面的限制，导致深度学习在实际应用领域中的应用面临一定的挑战。此外，现有的深度学习方法在进行数据增强时没有考虑到简单样本和难样本的学习难度信息，而是对所有样本采用相同模式的数据增强策略，导致模型对简单样本的利用不够充分，并可能会影响模型对难样本的学习效果。同时，由于难样本位于分类决策边界附近，通常包含多个类别的特征导致难以正确分类，这在自训练过程中不可避免的会引入噪声样本，导致图像分类模型性能下降。

当前基于深度学习的图像分类方法面临着一系列挑战和难点，其中标注数据稀缺是导致分类精度较低的一个主要原因。同时，现有数据增强方法对所有样本采用相同的增强策略，没有考虑到简单样本和难样本之间的学习难度差异，同时在自训练过程中会引入噪声样本进一步限制了图像分类模型的精度和鲁棒性。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于难度感知数据增强与标签矫正的图像分类方法及系统，本发明引入了难度感知数据增强方法，根据样本的学习难度自动划分为简单样本和难样本，并对简单样本采用更多样化的数据增强策略，对难样本采用判别性特征保留的数据增强策略，从而帮助模型学习更丰富的多样性特征及判别性特征，以提升模型分类性能。引入难度感知标签矫正方法，根据样本的历史预测结果计算不确定性得分，挖掘样本集中可能存在的噪声样本，并采用数据驱动的标签矫正器对噪声样本执行标签矫正，进一步提升图像分类模型的准确性和鲁棒性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于难度感知数据增强与标签矫正的图像分类方法。

基于难度感知数据增强与标签矫正的图像分类方法，包括：

依据图像样本的标签划分为标记样本和未标记样本，以此构建关于标记样本损失和未标记样本损失的历史损失信息记忆库；

基于历史损失信息记忆库和对应样本的损失，计算历史损失信息，以此计算历史损失阈值；

根据历史损失阈值将标记样本和未标记样本均划分为简单样本和难样本；

分别对简单样本和难样本进行数据增强，得到经过数据增强的标记样本和未标记样本，之后采用学生网络提取标记样本的特征图，采用教师网络提取未标记样本的特征图；

对数据增强的标记样本进行标签矫正，对数据增强的未标记样本进行伪标记，并加入到标记样本中；

基于标签矫正后的标记样本和伪标记处理后的未标记样本，构建损失函数，训练教师网络和学生网络；

基于待测试图像，采用已训练的教师网络，得到预测结果。

进一步地，所述历史损失信息记忆库的具体过程包括：每个标记样本的历史交叉熵损失和每个未标记样本的历史一致性损失。

进一步地，所述历史损失信息为前一轮的历史损失信息与当前轮计算的损失的指数加权平均。

进一步地，所述计算历史损失阈值的过程包括：

基于标记样本的历史损失信息，采用自动阈值分割方法，获取标记样本的历史损失阈值；

基于未标记样本的历史损失信息，采用自动阈值分割方法，获取未标记样本的历史损失阈值。

进一步地，所述根据历史损失阈值将标记样本和未标记样本均划分为简单样本和难样本的过程包括：

判断标记样本的历史损失信息是否小于标记样本的历史损失阈值；若是，则将对应的标记样本划分为简单样本，否则划分为难样本；

判断未标记样本的历史损失信息是否小于未标记样本的历史损失阈值；若是，则将对应的未标记样本划分为简单样本，否则划分为难样本。

进一步地，对所述简单样本进行数据增强的过程包括：用位移、改变图像亮度、对比度和饱和度方式的随机组合对简单样本进行增强处理，得到数据增强的标记样本和未标记样本。

进一步地，对所述难样本进行数据增强的过程包括：提取每个难样本中的重要特征区域，对无重要特征区域样本进行数据增强，生成新图像，将重要特征区域粘贴回新图像的原位置。

进一步地，所述标签矫正的过程包括：构建历史标签记忆队列存储学生网络对所有标记样本计算的最近k轮预测结果；基于最近k轮预测结果，采用信息熵，计算标记样本的不确定性得分；若不确定性得分大于预设阈值，则该标记样本为噪声样本，对噪声样本采用数据驱动的标签矫正器执行标记样本标签的矫正。

进一步地，所述伪标记处理的过程包括：对未标记样本采用教师网络计算置信度，将计算的置信度与置信度阈值进行比较，在满足要求时，对未标记样本进行伪标记，并加入到标记样本中。

本发明的第二个方面提供一种基于难度感知数据增强与标签矫正的图像分类系统。

基于难度感知数据增强与标签矫正的图像分类系统，包括：

第一样本划分模块，其被配置为：依据图像样本的标签划分为标记样本和未标记样本，以此构建关于标记样本损失和未标记样本损失的历史损失信息记忆库；

阈值计算模块，其被配置为：基于历史损失信息记忆库和对应样本的损失，计算历史损失信息，以此计算历史损失阈值；

第二样本划分模块，其被配置为：根据历史损失阈值将标记样本和未标记样本均划分为简单样本和难样本；

特征向量提取模块，其被配置为：分别对简单样本和难样本进行数据增强，得到经过数据增强的标记样本和未标记样本，之后采用学生网络提取标记样本的特征图，采用教师网络提取未标记样本的特征图；

矫正模块，其被配置为：对数据增强的标记样本进行标签矫正，对数据增强的未标记样本进行伪标记，并加入到标记样本中；

损失计算模块，其被配置为：基于标签矫正后的标记样本和伪标记处理后的未标记样本，构建损失函数，训练教师网络和学生网络；

预测模块，其被配置为：基于待测试图像，采用已训练的教师网络，得到预测结果。

与现有技术相比，本发明的有益效果是：

本发明提出的一种基于难度感知数据增强与标签矫正的图像分类方法及系统，对比之前类似的方法，在图像分类效果上表现出更优异的表现。一方面，本发明采用了难度感知数据增强方法，该数据增强方式可以迫使模型学习更加多样性以及具有判别性的特征，从而实现简单样本的最大化利用，并提升对难样本的学习能力，提升模型的分类性能。另一方面，本发明引入了难度感知标签矫正方法，通过挖掘样本集的噪声样本，并采用数据驱动的标签矫正器对挖掘的噪声样本执行标签矫正，进一步提升图像分类模型的准确性和鲁棒性。

本发明对简单样本采用提升样本多样性的数据增强方法，实现简单样本的高效利用，对难样本采用保持重要特征区域不变的数据增强方法，防止具有判别性的特征信息丢失。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明示出的基于难度感知数据增强与标签矫正的图像分类方法的流程图；

图2是本发明示出的基于难度感知数据增强与标签矫正的图像分类系统模型框架示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

本实施例提供了一种基于难度感知数据增强与标签矫正的图像分类方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

基于待测试图像，采用已训练的教师网络，得到预测结果。

下面对本实施例进行详细描述，如图1所示：

S1：数据集预处理

数据集主要是自然图像数据，在数据采集过程中，由于原始数据样本中可能存在图像尺寸不一致的问题，这不利于深度神经网络模型的学习，因此需要对采集的原始数据样本集进行统一的尺度变换。然后将数据集中每类标记数据按照3:1的比例划分为训练集和测试集，并将所有未标记数据作为训练集数据。

S2：难度感知数据增强方法

在网络初始学习阶段，由于模型的学习能力相对较弱，难以有效区分简单样本和难样本，因此对所有样本采用相同的随机数据增强方法，主要的数据增强方法包括随机翻转、缩放、平移、颜色抖动等。同时在训练过程中，构建针对标记样本（其中，/>和/>分别表示第/>个数据及其标签，/>表示标记数据数量）和未标记样本/>（其中/>表示第/>个未标记数据，/>表示未标记数据数量）的历史损失信息记忆库/>，用于记录每个标记样本计算的历史交叉熵损失/>和未标记样本计算的历史一致性损失/>，其中，交叉熵损失/>和一致性损失/>的详细计算过程在S6和S7中进行介绍。以第/>轮第/>个标记样本为例，该样本的历史损失信息/>采用第/>轮的历史损失信息/>与第/>轮计算的交叉熵损失/>的指数加权平均(EMA)进行更新：

。

其中，为经过多次实验调参得到的平滑系数。

由于样本的历史损失信息能够反应样本的学习难度，因此当网络具备一定学习能力后，根据记录的标记和未标记样本历史损失信息，采用现有的OTSU等自动阈值分割方法获取每轮标记和未标记样本的历史损失阈值：

；

。

根据计算的历史损失阈值将所有样本划分为两部分，其中小于历史损失阈值的样本被视为简单样本，而其余样本为难样本。以标记样本为例，时被认为是简单样本，时为难样本。

针对所有简单样本，采用位移、改变图像亮度、对比度、饱和度四种方式的随机组合生成新的图像：

。

其中，和/>表示在以上四种增强方式中随机选择的两种，表示将选定增强方式的图像进行融合。增加简单样本的多样性信息，实现简单样本的最大化利用。

针对所有难样本，由于其中包含了大量对分类更有帮助的细节信息，采用重要特征区域保留的数据增强方法生成新的图像。具体来说，以第个标记样本/>为例，该方法首先根据现有的Grad-CAM方法提取图像中对模型分类来说重要的特征区域：

。

其中，是整幅图像的二值掩码，重要特征区域值为1，其余区域值为0。

然后采用图像级数据增强（如颜色扰动等）对原始图像进行数据增强，然后将筛选出的重要特征区域粘贴回原位置：

。

其中，在此处表示筛选为难样本的数据增强后的图像。保证样本的重要特征区域不受数据增强的影响，帮助模型学习具有判别性的特征，从而提升图像分类性能。

S3：输入数据并提取样本特征

将经过难度感知数据增强方法生成的标记样本和未标记样本依次输入到学生网络和教师网络/>中，其中/>是输入标记或未标记样本，/>和/>表示模型参数，经过多次卷积操作后，使用Relu激活函数，增加网络的非线性拟合能力，然后采用平均池化操作，实现样本关键特征信息的提取，并获取对应的特征图，为之后未标记数据生成伪标签及损失函数的输入信息做准备。

S4：难度感知标签矫正方法

首先构建一个历史标签记忆队列来存储学生网络/>对所有样本计算的最近/>轮预测结果，/>的大小为/>，其中参数/>经过多次实验调参得出。针对当前轮的标记样本（原始标记样本和伪标记样本）采用信息熵计算样本的不确定性得分：

。

其中，表示在历史标签记忆队列中存储的第/>个样本在第/>轮迭代时的预测结果。用于判断样本预测结果的波动情况，然后根据预先设定的不确定性阈值/>实现数据样本集的划分。如果不确定性得分/>高于预设阈值/>，则认为该样本更可能为噪声样本，并对其采用数据驱动的标签矫正器/>实现预测样本标签的矫正：

。

其中，表示样本是否需要进行标签矫正。该数据驱动的标签矫正器/>的大小为/>，表示标签在噪声样本与干净样本之间的转换概率，其中/>表示样本类别数量。同时本发明为标签矫正器构建了一个干净、无偏的验证集提供可靠监督信息的指导，采用双层优化思想实现学生网络/>与数据驱动的标签矫正器/>的参数更新，从而更好的学习噪声样本与干净样本之间的转换概率。

S5：生成伪标签数据

对于所有未标记数据，如果教师网络对其预测的最大置信度高于预先设定的置信度阈值/>，即/>，则对其进行伪标记，并加入到标记数据集中，用于下一轮的模型训练。

S6：计算交叉熵损失

首先采用难度感知标签矫正方法实现当前轮标记样本的标签矫正，然后将学生网络矫正后的预测标签与真实标签类别进行交叉熵损失计算：

。

其中，表示标记样本的真实标签，/>表示第/>个标记样本经难度感知标签矫正方法矫正后学生网络的预测标签。

S7：计算一致性损失

将学生网络与教师网络对未标记数据的预测标签进行一致性损失计算：

。

S7：网络训练

将标记数据的交叉熵损失和未标记数据的一致性损失/>加权和作为网络模型的总损失/>（其中/>是超参数）。同时，采用随机梯度下降法（SGD）更新学生网络参数。然后，将更新后的学生网络参数与教师网络参数进行指数滑动平均（EMA），实现教师网络参数的更新。迭代上述过程，直到达到收敛条件，保存其最小损失值时的网络模型。

S8：预测阶段

将待测试图像输入已训练好的教师网络模型中进行模型推理，计算对应类别的概率得分，然后取概率最大的类别作为该图像预测结果。

实施例二

本实施例提供了一种基于难度感知数据增强与标签矫正的图像分类系统。

基于难度感知数据增强与标签矫正的图像分类系统，包括：

图2中所对应的虚线框内系统为主要执行分类功能的系统模块，其中特征向量提取模块利用S3中所述教师网络模型提取的特征图，并计算预测类别与用户进行交互。其中采用的教师网络模型为经过训练后确定的最优模型。

用户输入待测试图像数据进入分类系统，分类系统内部自动进行特征向量提取、获得预测得分和计算预测类别三个过程，最后输出预测类别与用户进行交互。

此处需要说明的是，上述第一样本划分模块、阈值计算模块、第二样本划分模块、特征向量提取模块、矫正模块、损失计算模块和预测模块与实施例一中的步骤S1至S8所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于难度感知数据增强与标签矫正的图像分类方法，其特征在于，包括：

基于待测试图像，采用已训练的教师网络，得到预测结果；

所述历史损失信息记忆库的具体过程包括：每个标记样本的历史交叉熵损失和每个未标记样本的历史一致性损失；

所述历史损失信息为前一轮的历史损失信息与当前轮计算的损失的指数加权平均；

所述计算历史损失阈值的过程包括：

基于未标记样本的历史损失信息，采用自动阈值分割方法，获取未标记样本的历史损失阈值；

所述根据历史损失阈值将标记样本和未标记样本均划分为简单样本和难样本的过程包括：

判断未标记样本的历史损失信息是否小于未标记样本的历史损失阈值；若是，则将对应的未标记样本划分为简单样本，否则划分为难样本；

对所述难样本进行数据增强的过程包括：提取每个难样本中的重要特征区域，对无重要特征区域样本进行数据增强，生成新图像，将重要特征区域粘贴回新图像的原位置；

所述标签矫正的过程包括：构建历史标签记忆队列存储学生网络对所有标记样本计算的最近k轮预测结果；基于最近k轮预测结果，采用信息熵，计算标记样本的不确定性得分；若不确定性得分大于预设阈值，则该标记样本为噪声样本，对噪声样本采用数据驱动的标签矫正器执行标记样本标签的矫正。

2.根据权利要求1所述的基于难度感知数据增强与标签矫正的图像分类方法，其特征在于，对所述简单样本进行数据增强的过程包括：用位移、改变图像亮度、对比度和饱和度方式的随机组合对简单样本进行增强处理，得到数据增强的标记样本和未标记样本。

3.根据权利要求1-2任一项所述的基于难度感知数据增强与标签矫正的图像分类方法，其特征在于，所述伪标记处理的过程包括：对未标记样本采用教师网络计算置信度，将计算的置信度与置信度阈值进行比较，在满足要求时，对未标记样本进行伪标记，并加入到标记样本中。

4.基于难度感知数据增强与标签矫正的图像分类系统，其特征在于，包括：

所述计算历史损失阈值的过程包括：

所述标签矫正的过程包括：构建历史标签记忆队列存储学生网络对所有标记样本计算的最近k轮预测结果；基于最近k轮预测结果，采用信息熵，计算标记样本的不确定性得分；若不确定性得分大于预设阈值，则该标记样本为噪声样本，对噪声样本采用数据驱动的标签矫正器执行标记样本标签的矫正；

损失计算模块，其被配置为：基于标签矫正后的标记样本和伪标记处理后的未标记样本，构建损失函数，训练教师网络和学生网络；预测模块，其被配置为：基于待测试图像，采用已训练的教师网络，得到预测结果。