CN112990233A

CN112990233A - 基于信道混合样本数据增强的图片分类方法和装置

Info

Publication number: CN112990233A
Application number: CN202110407872.XA
Authority: CN
Inventors: 邹焕新; 曹旭; 应昕怡; 李美霖; 马倩; 李润林; 成飞; 贺诗甜; 魏娟; 孙丽
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-06-18
Anticipated expiration: 2041-04-15
Also published as: CN112990233B

Abstract

本申请涉及一种基于信道混合样本数据增强的图片分类方法和装置。所述方法包括：构建信道混合样本数据增强模型，将信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络；根据图像样本训练样本增强分类网络，得到训练好的样本增强分类网络，利用训练好的样本增强分类网络进行图片分类。采用本方法能够利用图像样本中的隐含信息，可以改善小型数据集中分类网络的泛化能力。

Description

基于信道混合样本数据增强的图片分类方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于信道混合样本数据增强的图片分类方法和装置。

背景技术

近来，大规模卷积神经网络在各种计算机视觉任务中表现出良好的性能，例如图像分类，目标检测，语义分割等。随着神经网络特征提取能力的发展，出现了一个问题，即网络对训练样本产生过度的记忆性，并且对对抗性样本产生敏感性，从而导致其训练过拟合和泛化能力下降。

为了解决上述问题，今年已经提出了数据扩充和正则化策略。传统的数据增强策略(例如旋转，噪声添加和颜色抖动)本质上是单个样本的变换，这就限制了变换的可能性。当遇到小的数据集时，传统的数据增强策略无法从根本上解决由于数据不足而导致的过拟合问题。最近提出的混合样本数据增强 (MSDA)策略通过根据预定义的策略混合不同的数据来实现数据增强，这可以突破对传统单样本变换的模仿，并大大增加了训练样本的数量和信息量。具体而言，同类样本间的混合可以减少网络对样本的记忆性，而不同类样本之间的混合可以促使神经网络更加注意样本内区分性较弱的部分，以降低对对抗性样本的敏感性。

最近，基于MSDA的策略在分类任务中显示出了出色的性能。具体来说， Mixup方法根据邻域风险最小化准则，通过线性叠加一对样本来构造新的训练样本。Cutmix方法继承了Cutout方法的样本区域缺失思想，通过将一个样本叠加在另一个样本的随机区域上来构建新的训练样本。为了丰富混合样本的信息， Fmix方法进一步采用了傅立叶二值掩码来混合一对样本，并提高了分类性能。然而，以上方法都是在空间维度上执行数据增强以混合样本的全局部分(例如， Mixup)或局部部分(例如，Cutmix和Fmix)，但是忽略了样本信道中隐含的信息。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决传统数据增强时忽略样本信道中隐含信息问题的基于信道混合样本数据增强的图片分类方法和装置。

一种基于信道混合样本数据增强的图片分类方法，所述方法包括：

构建信道混合样本数据增强模型；所述信道混合样本数据增强模型包括两个输入通道：所述输入通道包括：特征提取层和信道掩膜，所述特征提取层用于对图像样本进行特征提取，得到图像特征，所述图像特征与所述信道掩膜逐元素相乘，得到预混合特征，两个输入通道的预混合特征融合，得到混合样本；所述信道掩膜是通过预先设置的混合比率参数生成的，两个输入通道中其中一个输入通道的信道掩膜是另一个输入通道的信道掩膜取反得到的；

将所述信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络；

根据图像样本训练所述样本增强分类网络，得到训练好的样本增强分类网络，利用训练好的样本增强分类网络进行图片分类。

一种基于信道混合样本数据增强的图片分类装置，所述装置包括：

增强模型构建模块，构建信道混合样本数据增强模型；所述信道混合样本数据增强模型包括两个输入通道：所述输入通道包括：特征提取层和信道掩膜，所述特征提取层用于对图像样本进行特征提取，得到图像特征，所述图像特征与所述信道掩膜逐元素相乘，得到预混合特征，两个输入通道的预混合特征融合，得到混合样本；所述信道掩膜是通过预先设置的混合比率参数生成的，两个输入通道中其中一个输入通道的信道掩膜是另一个输入通道的信道掩膜取反得到的；

增强分类模型构建模块，将所述信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络；

分类模块，用于根据图像样本训练所述样本增强分类网络，得到训练好的样本增强分类网络，利用训练好的样本增强分类网络进行图片分类。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于信道混合样本数据增强的图片分类方法、装置、计算机设备和存储介质，通过设置信道混合样本数据增强模型，可以将两个图像样本进行混合增强，从而在应用至目前常规的图像分类网络中时，可以改善小型数据集中分类网络的泛化能力。

附图说明

图1为一个实施例中基于信道混合样本数据增强的图片分类方法的流程示意图；

图2为一个实施例中信道混合样本数据增强模型的架构图；

图3为另一个实施例中样本增强分类网络的总体架构图；

图4为一个实施例中基于信道混合样本数据增强的图片分类装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于信道混合样本数据增强的图片分类方法，包括以下步骤：

步骤102，构建信道混合样本数据增强模型。

信道混合样本数据增强模型包括两个输入通道：输入通道包括：特征提取层和信道掩膜，特征提取层用于对图像样本进行特征提取，得到图像特征，图像特征与信道掩膜逐元素相乘，得到预混合特征，两个输入通道的预混合特征融合，得到混合样本；信道掩膜是通过预先设置的混合比率参数生成的，两个输入通道中其中一个输入通道的信道掩膜是另一个输入通道的信道掩膜取反得到的。

具体的，特征提取层是由卷积层、标准化层(BN)和RELU激活层组成。

步骤104，将信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络。

值得说明的是，分类网络可以是任意用于图像分类的网络，例如，Resnet 系列网络，卷积神经网络等。这个分类网络均包含特征提取层，即提取输入图像的特征，本实施例的信道混合样本数据增强模型包含了两个输入通道，因此在插入传统的分类网络中时，分类网络也同时修改为包含两个输入，两个输入的图像样本通过信道混合样本数据增强模型，可以得到一个增强后的混合样本，从而输出给分类网络的其他特征提取层。

步骤106，根据图像样本训练样本增强分类网络，得到训练好的样本增强分类网络，利用训练好的样本增强分类网络进行图片分类。

上述基于信道混合样本数据增强的图片分类方法中，通过设置信道混合样本数据增强模型，可以将两个图像样本进行混合增强，从而在应用至目前常规的图像分类网络中时，可以改善小型数据集中分类网络的泛化能力。

在其中一个实施例中，从Beta(α,α)中采样得到混合比率参数λ；根据所述混合比率参数λ，随机选择全零矩阵的信道分配数值1，得到其中一个输入通道的信道掩膜。

具体的，x_A,x_B∈R^W×H×C表示输入的训练图像对，y_A,y_B表示相应的标签。信道混合样本数据增强模型(ChannelMix)的目标是通过将两个训练样本(x_A,y_A)和 (x_B,y_B)混合来生成新的训练样本

具体来说，如图2所示，x_A,x_B这对输入的训练图像首先被输入到特征提取层n以生成特征

其中

代表了该层的特征提取功能。例如在第0层的情况下，提取的特征为

将其分别与信道掩模CM_A,

逐元素相乘以生成预混合特征F_A,F_B，对预混合特征进行逐元素求和以生成混合样本

另外，混合标签

是通过混合比率λ对输入的两个标签y_A,y_B进行加权求和，该混合比是从 Beta(α,α)分布中采样得到。该过程可以表述为公式1：

其中

表示逐元素相乘，

表示逐元素加。信道掩模CM_A∈{0,1}^W×H×m是通过混合比率λ参数，随机选择全零矩阵的某些信道来分配数值1生成的。信道掩码 CM_B是CM_A的取反。该过程可以表述为公式2：

其中Randperm(·)表示随机选择操作，Negate(α)＝1-α表示取反操作。注意，取反操作中1表示全一矩阵。并且

表示向上取整运算。最后，将生成的混合样本

继续输入到第1层进行后续处理。

在其中一个实施例中，将一个信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络；或，将多个信道混合样本数据增强模型分别插入预先构建的分类网络的特征提取层，得到样本增强分类网络。

在另一个实施例中，分类网络为Resnet18网络，Resnet18网络包括：第0 特征提取层、第1特征提取层、第2特征提取层以及第3特征提取层；将一个信道混合样本数据增强模型插入Resnet18网络的第0特征提取层和第1特征提取层之间，得到样本增强分类网络。

在又一个实施例中，将一个信道混合样本数据增强模型插入Resnet18网络的第0特征提取层和第1特征提取层之间，以及将一个信道混合样本数据增强模型插入Resnet18网络的第1特征提取层和第2特征提取层之间；将两个信道混合样本数据增强模型输出作为另一个信道混合样本数据增强模型的输入，并且另一个信道混合样本数据增强模型的输出连接第2特征提取层，得到样本增强分类网络。

具体的，Resnet18的结构如图3中(a)Resnet18所示，输入图像首先输入到第0层以进行特征提取，其由3x3卷积，批标准化层(BN)和RELU激活层组成。然后将提取的特征依次输入到1-3层(即三个瓶颈块)，平均池化(Avgpool) 层和全连接(FC)层进行分类。注意，N表示类别数，m和n表示特征图的大小。

为了避免混合输入样本的RGB信道而引起的语义歧义，选择在Resnet18的第0层(ChannelMix(l0)-Resnet18)的后面添加ChannelMix模块。ChannelMix(10)-Resnet18的结构如图3中(b)ChannelMix(10)-Resnet18所示。对于每个输入图像(即image1∈R^3×m×n)，随机选择另一个图像(即image2∈R^3×m×n) 作为数据增强副本，并将成对的图像输入到第0层中以进行特征提取。然后，将提取的特征输入到ChannelMix模块以生成混合特征F∈R¹⁶ ^×m×n。然后，将混合特征依次输入到1-3层，Avgpool层和FC层进行分类。除了在第0层之后添加的ChannelMix模块之外，ChannelMix模块可以插入到Resnet18的任何特征提取层后。

此外，可以将多个ChannelMix模块并联插入Resnet18以增强样本混合程度，其详细结构如图3中(c)ChannelMix(1011)-Resnet18所示。图像1和图像2首先输入到第0层和ChannelMix模块以生成混合特征F0∈R^16×m×n。以相同的方式，将图像1和图像2输入到第0层，第1层和ChannelMix模块以生成混合特征 F1∈R^64×m×n。然后，F0输入到第1层以生成特征F0'∈R^64×m×n。最后，将F0'和F1 输入到第三个ChannelMix模块以生成多阶段混合特征F0|1∈R^64×m×n，然后将其输入到第2层以进行后续处理。

以下通过实验数据，对本发明的技术效果进行说明。

1、与其它先进算法的分类性能对比实验

将ChannelMix与4种最新的MSDA策略(即Mixup，CutMix，Cutout，FMix) 进行比较。具体来说，为四个网络(即Resnet-18，Resnet-50，Pyramidnet-18， Pyramidnet-50)配备了不同的MSDA策略，并采用top 1错误来评估三个数据集 (即CIFAR-10，CIFAR-100，WHU-RS19)。注意，使用结构为ChannelMix (l0l1l2)与进行比较。

表1通过不同的MSDA策略获得的实验结果。“基准”表示没有MSDA策略的分类网络。最佳结果以黑体字显示。

2、消融实验

2.1混合比率α

本方法在ChannelMix(l0)-Resnet18上进行实验，以获得混合比率λ的最佳值。由于混合比率λ服从Beta(α,α)分布，所以调整α以取得最佳混合比率λ。实验结果列在表1中。可以看出，ChannelMix可以在所有三个数据集上使得top 1错误减少，而ChannelMix(l0)-Resnet18在α＝0.01时可以实现最低的top 1错误。请注意，当α从0.1减小时，ChannelMix(l0)-Resnet18逐渐退化为单个样本输入，从而导致性能下降。当α从0.1增加时，混合程度变得太高，导致语义上的歧义和难以收敛的训练。

表2ChannelMix(l0)-Resnet18中不同混合比率的消融结果。最佳结果以黑体字显示。

2.2不同阶段的ChannelMix

本方法将在不同阶段插入的ChannelMix的Resnet18结果进行比较。请注意，所有实验均使用进行。实验结果列在表2中。可以观察到，与Resnet18相比，带有ChannelMix的Resnet18可以显着降低top 1错误(例如，CIFAR-10上为2.16-2.89，CIFAR-100上为7.72-9.70，WHU-RS19上的5.21-7.29)。还值得注意的是，插入浅层的ChannelMix可以实现更好的性能。具体而言，ChannelMix(l0) 的top 1错误优于ChannelMix(l3)(例如，CIFAR-10上的0.92，CIFAR-100上的 0.99和WHU-RS19上的1.13)。这是因为更深的信道数具有更多的信道，从而导致信道混合不均。

表3 Resnet18在不同阶段插入ChannelMix的消融结果。注意，“基线”表示不带ChannelMix的Resnet18。ChannelMix(li)表示在Resnet18的i^th卷积层之后插入的ChannelMix。最佳结果以黑体字显示。

3.3不同数量并联的ChannelMix

本方法将ChannelMix的不同数量并联(即1,2,3,4)的Resnet18的结果进行比较。请注意，所有实验均使用α＝0.01实施。实验结果列于表3。可以观察到，随着ChannelMix并联数量的增加，性能稳步提高。这是因为，更多的ChannelMix 可以提高混合度，从而提高分类性能。但是，当数字大于3时，更多的ChannelMix 可能会对分类性能造成危害。这是因为，当样本被ChannelMix彻底混合时，更多ChannelMix将带来语义歧义并降低分类性能。

表4不同数量的ChannelMix的Resnet18的烧蚀结果。注意，“基线”表示不带ChannelMix的Resnet18。ChannelMix(li|j|k|g)表示在Resnet18的i^th,j^th,k^th和g^th卷积层之后插入的ChannelMix。最佳结果以黑体字显示。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于信道混合样本数据增强的图片分类装置，包括：增强模型构建模块402、增强分类模型构建模块404和分类模块406，其中：

增强模型构建模块402，构建信道混合样本数据增强模型；所述信道混合样本数据增强模型包括两个输入通道：所述输入通道包括：特征提取层和信道掩膜，所述特征提取层用于对图像样本进行特征提取，得到图像特征，所述图像特征与所述信道掩膜逐元素相乘，得到预混合特征，两个输入通道的预混合特征融合，得到混合样本；所述信道掩膜是通过预先设置的混合比率参数生成的，两个输入通道中其中一个输入通道的信道掩膜是另一个输入通道的信道掩膜取反得到的；

增强分类模型构建模块404，将所述信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络；

分类模块406，用于根据图像样本训练所述样本增强分类网络，得到训练好的样本增强分类网络，利用训练好的样本增强分类网络进行图片分类。

在其中一个实施例中，所述增强模型构建模块402还用于将一个所述信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络；或，将多个所述信道混合样本数据增强模型分别插入预先构建的分类网络的特征提取层，得到样本增强分类网络。

在其中一个实施例中，增强分类模型构建模块404还用于将一个所述信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络；或，将多个所述信道混合样本数据增强模型分别插入预先构建的分类网络的特征提取层，得到样本增强分类网络。

在其中一个实施例中，所述分类网络为Resnet18网络，所述Resnet18网络包括：第0特征提取层、第1特征提取层、第2特征提取层以及第3特征提取层；增强分类模型构建模块404还用于将一个所述信道混合样本数据增强模型插入Resnet18网络的第0特征提取层和第1特征提取层之间，得到样本增强分类网络。

在其中一个实施例中，增强分类模型构建模块404还用于将一个所述信道混合样本数据增强模型插入Resnet18网络的第0特征提取层和第1特征提取层之间，以及将一个所述信道混合样本数据增强模型插入Resnet18网络的第1特征提取层和第2特征提取层之间；将两个所述信道混合样本数据增强模型输出作为另一个所述信道混合样本数据增强模型的输入，并且另一个所述信道混合样本数据增强模型的输出连接第2特征提取层，得到样本增强分类网络。

关于基于信道混合样本数据增强的图片分类装置的具体限定可以参见上文中对于基于信道混合样本数据增强的图片分类方法的限定，在此不再赘述。上述基于信道混合样本数据增强的图片分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于信道混合样本数据增强的图片分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程 ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限， RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步 DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于信道混合样本数据增强的图片分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，生成其中一个输入通道的信道掩膜的步骤包括：

从Beta(α,α)中采样得到混合比率参数λ；

根据所述混合比率参数λ，随机选择全零矩阵的信道分配数值1，得到其中一个输入通道的信道掩膜。

3.根据权利要求1所述的方法，其特征在于，将所述信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络，包括：

将一个所述信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络；

或，将多个所述信道混合样本数据增强模型分别插入预先构建的分类网络的特征提取层，得到样本增强分类网络。

4.根据权利要求3所述的方法，其特征在于，所述分类网络为Resnet18网络，所述Resnet18网络包括：第0特征提取层、第1特征提取层、第2特征提取层以及第3特征提取层；

所述将一个所述信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络，包括：

将一个所述信道混合样本数据增强模型插入Resnet18网络的第0特征提取层和第1特征提取层之间，得到样本增强分类网络。

5.根据权利要求4所述的方法，其特征在于，所述将多个所述信道混合样本数据增强模型分别插入预先构建的分类网络的特征提取层，得到样本增强分类网络，包括：

将一个所述信道混合样本数据增强模型插入Resnet18网络的第0特征提取层和第1特征提取层之间，以及将一个所述信道混合样本数据增强模型插入Resnet18网络的第1特征提取层和第2特征提取层之间；将两个所述信道混合样本数据增强模型输出作为另一个所述信道混合样本数据增强模型的输入，并且另一个所述信道混合样本数据增强模型的输出连接第2特征提取层，得到样本增强分类网络。

6.一种基于信道混合样本数据增强的图片分类装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述增强模型构建模块还用于将一个所述信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络；或，将多个所述信道混合样本数据增强模型分别插入预先构建的分类网络的特征提取层，得到样本增强分类网络。

8.根据权利要求6所述的装置，其特征在于，增强分类模型构建模块还用于将一个所述信道混合样本数据增强模型插入预先构建的分类网络的特征提取层，得到样本增强分类网络；或，将多个所述信道混合样本数据增强模型分别插入预先构建的分类网络的特征提取层，得到样本增强分类网络。。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。