CN112365423A

CN112365423A - 一种图像数据增强方法、装置、介质及设备

Info

Publication number: CN112365423A
Application number: CN202011320459.1A
Authority: CN
Inventors: 李悦翔; 陈嘉伟; 魏东; 何楠君; 马锴; 郑冶枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-02-12

Abstract

本发明公开了一种图像数据增强方法、装置、介质及设备，包括根据图像训练集对深度学习网络进行训练得到软标签生成器，图像训练集包含K个类别的图像样本集；获取第一图像样本的软标签和类别，软标签表征第一图像样本与K个类别的类别关联度；根据软标签生成器获取K‑1个类别的图像样本集中图像样本的类别代表性，K‑1个类别中不包含第一图像样本的类别；根据第一图像样本的软标签和图像样本的类别代表性在K‑1个类别的图像样本集中选取第二图像样本；将第一图像样本和第二图像样本进行融合得到目标图像样本。本发明涉及计算机视觉领域，通过生成难度可控的新图像样本，可以调节分类网络模型训练的难易程度以提升模型的泛化能力。

Description

一种图像数据增强方法、装置、介质及设备

技术领域

本发明涉及人工智能技术领域，具体涉及一种图像数据增强方法、装置、介质及设备。

背景技术

随着人工智能的发展，深度学习模型已广泛应用到各行各业，在各个场景发挥着非常重要的作用。深度学习网络模型需要大量样本数据进行训练，而在样本的数据量不足的情况下模型的训练则会出现过拟合的情况。因此，提出了对训练数据的数据增强方法，也即通过在现有样本数据的基础上进行几何变换和颜色变换等操作以生成更多的样本数据。

在计算机视觉领域，针对图像分类网络和图像训练样本，还提出了混合样本的数据增强方法，比如Mixup、Cutout和CutMix，混合样本后的图像可以如图1所示。这三种方法皆通过生成难例的方式提升深度学习分类网络的泛化性，但是上述方法都是从训练集中随机抽取两个样本进行融合而合成难例新样本，对类别之间的关联性缺乏考虑，这导致难以衡量与控制合成后的样本对网络模型训练的难易程度。以CutMix为例，利用单车和猫的图片进行融合，模型会很容易分辨出单车和猫两个类别，但是如果样本是利用猫和狗的图片融合得到，模型将很难准确判断图片中的这两个类别，因为狗相对于单车，在外形上和猫更为相似。

发明内容

为了解决现有技术的问题，本发明提供了一种图像数据增强方法、装置、介质及设备。所述技术方案如下：

第一方面，本发明提供了一种图像数据增强方法，所述方法包括：

根据图像训练集对深度学习网络进行训练，得到软标签生成器，所述图像训练集包含K个类别的图像样本集；

获取第一图像样本，根据所述软标签生成器获取所述第一图像样本的软标签和类别，所述软标签表征所述第一图像样本与所述K个类别的类别关联度；

根据所述软标签生成器获取K-1个类别的图像样本集中图像样本的类别代表性，所述K-1个类别中不包含所述第一图像样本的类别；

根据所述第一图像样本的软标签和所述图像样本的类别代表性，在所述K-1个类别的图像样本集中选取至少一个图像样本作为第二图像样本；

将所述第一图像样本和所述第二图像样本进行融合，得到目标图像样本，完成对所述图像训练集的图像数据增强。

进一步地，所述根据所述软标签生成器获取K-1个类别的图像样本集中图像样本的类别代表性包括：

通过所述软标签生成器将所述K-1个类别的图像样本集中的图像样本映射至同一个特征空间；

获取在所述特征空间中所述K-1个类别的图像样本空间向量集；

根据所述K-1个类别的图像样本空间向量集进行计算，得到在所述特征空间中所述K-1个类别的中心向量；

根据所述K-1个类别的中心向量，计算所述K-1个类别的图像样本集中的图像样本的类别代表性。

进一步地，所述根据所述K-1个类别的中心向量，计算所述K-1个类别的图像样本集中的图像样本的类别代表性包括：

确定所述K-1个类别中目标类别的中心向量和图像样本空间向量集；

基于向量相似度度量算法，对所述目标类别的图像样本空间向量集中的每一个图像样本空间向量，计算与所述目标类别的中心向量的相似度；

根据所述相似度确定所述目标类别的图像样本集中图像样本的类别代表性。

进一步地，所述根据所述第一图像样本的软标签和所述图像样本的类别代表性，在所述K-1个类别的图像样本集中选取至少一个图像样本作为第二图像样本包括：

根据所述第一图像样本的软标签，在K-1个类别中选取满足第一关联度的类别作为可选类别；

获取所述可选类别的图像样本集和所述可选类别的图像样本集中图像样本的类别代表性；

在所述可选类别的图像样本集中，选取至少一个图像样本作为第二图像样本，所述至少一个图像样本的类别代表性满足第二关联度。

进一步地，所述根据所述第一图像样本的软标签和所述图像样本的类别代表性，在所述K-1个类别的图像样本集中选取至少一个图像样本作为第二图像样本还包括：

根据所述第一图像样本的软标签对所述图像样本进行类间排序，得到第一序列；

根据所述图像样本的类别代表性对所述图像样本进行类内排序，得到第二序列；

根据所述第一序列和所述第二序列，得到所述图像样本的综合序列；

根据所述图像样本的综合排序选取至少一个图像样本作为第二图像样本，所述第二图像样本在所述综合序列中的序列位置满足预设阈值。

进一步地，所述将所述第一图像样本和所述第二图像样本进行融合，得到目标图像样本包括：

通过插值方式或填充方式将所述第一图像样本和所述第二图像样本进行融合，得到目标图像样本；

通过所述软标签生成器获取所述第二图像样本的软标签；

将所述第一图像样本的软标签和所述第二图像样本的软标签进行计算，得到所述目标图像样本的标签。

进一步地，所述获取第一图像样本，根据所述软标签生成器获取所述第一图像样本的软标签和类别包括：

从所述K个类别的样本集中抽取图像样本作为所述第一图像样本；

根据所述软标签生成器获取所述第一图像样本的软标签；

根据所述第一图像样本的软标签，计算判定所述第一图像样本的类别，所述第一图像样本的类别为所述K个类别中的任一类别。

第二方面，本发明提供了一种图像数据增强装置，所述装置包括：

训练模块，用于根据图像训练集对深度学习网络进行训练，得到软标签生成器，所述图像训练集包含K个类别的图像样本集；

第一获取模块，用于获取第一图像样本，根据所述软标签生成器获取所述第一图像样本的软标签和类别，所述软标签表征所述第一图像样本与所述K个类别的类别关联度；

第二获取模块，根据所述软标签生成器获取K-1个类别的图像样本集中图像样本的类别代表性，所述K-1个类别中不包含所述第一图像样本的类别；

选择模块，用于根据所述第一图像样本的软标签和所述图像样本的类别代表性，在所述K-1个类别的图像样本集中选取至少一个图像样本作为第二图像样本；

融合模块，用于将所述第一图像样本和所述第二图像样本进行融合，得到目标图像样本，完成对所述图像训练集的图像数据增强。

第三方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的一种图像数据增强方法。

第四方面，本发明提供了一种计算机设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由所述处理器加载并执行以实现如第一方面所述的一种图像数据增强方法。

本发明提供的一种图像数据增强方法、装置、设备及存储介质，具有如下技术效果：

(1)本发明提供的方案在图像数据集的基础上进行混合样本的数据增强，生成更多的训练样本，解决训练数据量不足的问题，减少模型训练产生的过拟合；

(2)本发明提供的方案通过构建软标签描述图像数据的类别关系，并作为融合样本的选择依据，合成难度可控的训练样本，从而调节分类网络训练的难易程度，提升深度学习分类网络的泛化能力；

(3)本发明通过控制训练样本的难易程度能更好地确定模型训练方向，减少过多简单样本对模型训练造成的时间与算力的消耗，使深度网络模型更好更快地收敛。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种随机抽取样本进行图像数据增强的示意图；

图2是本发明实施例提供的一种图像数据增强方法的实施环境示意图；

图3是本发明实施例提供的一种图像数据增强方法的流程示意图；

图4是本发明实施例提供的一种图像数据增强方法中训练分类网络的示意图；

图5是本发明实施例提供的一种根据所述软标签生成器获取K-1个类别的图像样本集中图像样本的类别代表性的流程示意图；

图6是本发明实施例提供的一种计算图像样本的类别代表性的流程示意图；

图7(1)是本发明实施例提供的一种在所述K-1个类别的图像样本集中选取至少一个图像样本作为第二图像样本的流程示意图；

图7(2)是本发明实施例提供的另一种在所述K-1个类别的图像样本集中选取至少一个图像样本作为第二图像样本的流程示意图；

图8是本发明实施例提供的一种图像数据增强方法中根据软标签挑选样本进行融合的示意图；

图9是本发明实施例提供的一种图像数据增强装置的示意图。

图10是本发明实施例提供的用于实现一种图像数据增强方法的设备的硬件结构示意图。

具体实施方式

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。

本申请实施例提供的方案涉及人工智能的深度学习(Deep Learning，DL)以及计算机视觉(ComputerVision,CV)等技术。

深度学习是机器学习(ML,Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OpticalCharacter Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

针对图像分类网络和图像训练样本，提出了混合样本的数据增强方法，比如Mixup、Cutout和CutMix。这三种方法皆通过生成难例的方式提升深度学习分类网络的泛化性，但是上述方法都是从训练集中随机抽取两个样本进行融合而合成难例新样本，对类别之间的关联性缺乏考虑，这导致难以衡量与控制合成后的样本对网络模型训练的难易程度。

为了控制合成样本的难易程度，提升图像分类网络的泛化能力，本发明实施例提供了一种图像数据增强方法、装置、介质及设备。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解本发明实施例所述的技术方案及其产生的技术效果，本发明实施例对于涉及到的相关专业名词进行解释：

CNN：Convolutional NeuralNetwork，卷积神经网络，广泛使用于图像分类任务中的一种深度学习网络，网络包含卷积层、池化层与全连接层等。

Soft-label：软标签，相对于非0即1的硬标签(hard-label)，软标签具有能够刻画类别之间关系的优点。

泛化能力：是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。

请参阅图2，其为本申请实施例提供的一种图像数据增强方法的实施环境示意图，如图2所示，该实施环境可以至少包括客户端01和服务器02。

具体的，所述客户端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、监控设备及语音交互设备等类型的设备，也可以包括运行于设备中的软体，例如一些服务商提供给用户的网页页面，也可以为该些服务商提供给用户的应用。具体的，所述客户端01可以用于显示图像训练集或第一图像样本，以及显示服务器02发送的第二图像样本和融合后的目标图像样本。

具体的，所述服务器02可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。所述服务器02可以包括有网络通信单元、处理器和存储器等等。具体的，所述服务器02可以用于根据图像训练集对分类网络进行训练得到软标签生成器，以及将图像样本进行特征映射选取符合预设关联度的图像样本进行融合，生成新的目标图像样本。

以下介绍本发明提供的一种图像数据增强方法。图3是本发明实施例提供的一种图像数据增强方法的流程图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。请参照图3，本说明书实施例提供的一种图像数据增强方法包括如下步骤：

S101：根据图像训练集对深度学习网络进行训练，得到软标签生成器，所述图像训练集包含K个类别的图像样本集。

可以理解的是，图像的分类网络模型、识别网络模型等在构建时会需要大量的样本数据进行预先的训练，以调整网络模型的参数使其性能提升，可见训练数据的特性和数量是决定一个网络模型性能好坏的最主要因素。具体地，对于图像分类任务，训练样本数据的不足会造成模型的过拟合，也即对训练样本数据的分类可以达到不错的效果，但是对测试数据的表现确不佳。为了缓解训练数据量不足带来的问题，可以通过数据增强的方式扩充训练数据集。常见的，可以在原有的图像空间对每一个图像进行几何变换、颜色变换、像素变换等操作，或可以在图像的特征空间提取图像特征并对特征进行变换，还可以通过生成模型合成新样本也即混合样本数据增强方式。

在本说明书实施例中，本发明提供的一种图像数据增强方法采用从图像训练集中抽取图像样本合成新样本的方式进行数据增强，并对合成样本的难易程度进行控制以更好地服务于图像分类模型的训练。

在本说明书实施例中，使用公开的ImageNet(一个用于视觉对象识别软件研究的大型可视化数据库)、CIFAR-100和/或CIFAR-10作为所述图像训练集。示例性地，CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像，分为了50000个训练图像和10000个测试图像。在一种可行的实施方式中，如图4所示，使用图像训练集中的全部图像样本对卷积神经网络进行训练，得到软标签生成器。整个训练过程为一个1-of-K的分类训练，此处K为图像训练集中的类别数，同时利用交叉熵损失函数(cross-entropy loss)监督软标签生成器的训练与优化。图像分类网络可以是任何可用于对图像进行分类的网络模型，常见的如VGGNet模型、AlexNet模型、GoogLeNet模型以及ResNet模型等等。

S103：获取第一图像样本，根据所述软标签生成器获取所述第一图像样本的软标签和类别，所述软标签表征所述第一图像样本与所述K个类别的类别关联度。

在一种可行的实施方式中，具体地，所述步骤S103可以包括以下步骤：

S301：从所述K个类别的样本集中抽取图像样本作为所述第一图像样本。

在本说明书实施例中，对现有的图像训练集进行数据增强或称数据扩充，采用混合样本的方式，在原有的图像训练集中随机抽取一个图像样本或者抽取指定类型的一个图像样本作为融合对象之一。在原有的图像训练集中，图像样本分成了K个类别，每一个图像样本都有其对应的类别标签。

S303：根据所述软标签生成器获取所述第一图像样本的软标签。

具体的，如图8所示，将冻结训练得到的软标签生成器的权重。当所述第一图像样本输入所述软标签生成器后，我们可以得到该图片的软标签。

可以理解的是，从数值上看，软标签可以表征所述第一图像样本被识别分类至所述K个类别中每一个类别的概率值。例如对于一个三分类任务，用硬标签来描述某一图像的类别表现可以为(1,0,0)，选取1对应的类型作为该图像的分类结果，用软标签来描述该相同图像的类别表现可以为(0.6,0.35，0.05)，选取最大概率值0.6对应的类别作为该图像的分类类别。分类结果相同，但相对于硬标签，软标签包含了输入数据被分至每一类别的概率，保留了更多原始数据的信息，同时软标签还能够刻画各个类别之间的关系，如在(0.6,0.35，0.05)中，0.6与0.35对应的两个类别的关联度则较高，由此也可表明对这两个类别的识别分类较难。如一张狗的图片，往往软标签中猫类的值会较高，相反的单车类的值(也即相关度)将较低。

在本说明书中，采用的图像训练集包含了K个类别(K为正整数)，因而根据所述软标签生成器获取到的所述第一图像样本的软标签可以用一个K维的向量表示。在其他一些实施方式中，基于概率值总和为1，也可以用K-1维的向量表示。本说明书以K维向量为例进行后续的说明。

S305：根据所述第一图像样本的软标签，计算判定所述第一图像样本的类别，所述第一图像样本的类别为所述K个类别中的任一类别。

在本说明书实施例中，利用软标签表示该图像样本的类别和其他类别的关联/相似程度，因此，如果需要生成对于分类网络识而言分类难度大的图像样本，即可以在第一图像样本的软标签中选择概率值较大的其他类别，并在该类别的图像样本集中挑选样本。反之，在概率值较低的其他类别中挑选样本可以生成容易样本。相比于在图像训练集中随机抽取样本进行融合，本说明书实施例根据软标签进行融合样本类别的选择，可以在图像样本的难易程度上进行控制。

S105：根据所述软标签生成器获取K-1个类别的图像样本集中图像样本的类别代表性，所述K-1个类别中不包含所述第一图像样本的类别。

可以理解的是，所述图像样本的类别代表性可以表征图像样本的类别特征强度，也可以表征分类网络模型对图像样本的分类难易程度，若图像样本的类别代表性高，则模型可以较为容易地将其分类到这一类别，若图像样本点的类别代表性低，则模型虽然也可以将其正确分类，但是难度较高。

在本说明书实施例中，为了控制融合样本的分类难易程度，除了在融合样本的类别上进行选择，还可以在该类别的图像样本集中进一步地选择图像样本以更好地控制训练的难易程度。

在一种可行的实施方式中，具体地，如图5所示，所述根据所述软标签生成器获取K-1个类别的图像样本集中图像样本的类别代表性可以包括以下步骤：

S501：通过所述软标签生成器将所述K-1个类别的图像样本集中的图像样本映射至同一个特征空间。

在本说明书的一个实施例中，采用特征空间和空间向量来表示图像样本并以此来表示图像样本的类别代表性。所述软标签生成器本质上还是一个分类网络，基于特征提取可以将图像样本映射至特征空间，并以空间向量的形式表征图像样本。

可以理解的是，在本说明书提供的方法中，在样本选择过程中，将选择范围限定在了K-1个类别的图像样本集的图像样本中，而没有包括所述第一图像样本的类别，此举是考虑到当在所述第一图像样本类别的图像样本集中选择融合样本时，融合操作后的新图像样本的难易程度不易限定和控制，有可能加强或弱化该类别的特征表现，并且生成的新信息较少。

S503：获取在所述特征空间中所述K-1个类别的图像样本空间向量集。

在一种可行的实施方式中，将图像样本映射至特征空间后，即对每一个图像样本生成了一个固定长度的空间向量，将同一个类别的图像样本的空间向量作为一个集合以便后续计算。

S505：根据所述K-1个类别的图像样本空间向量集进行计算，得到在所述特征空间中所述K-1个类别的中心向量。

在一种可行的实施方式中，对于一个类别的图像样本空间向量集，通过对该集合中的所有图像样本空间向量求平均值，计算得到该类别的中心向量。所述中心向量是该类别在特征空间的表现，并不对应某一具体的图像样本。

S507：根据所述K-1个类别的中心向量，计算所述K-1个类别的图像样本集中的图像样本的类别代表性。

在一种可行的实施方式中，具体地，如图6所示，所述计算所述K-1个类别的图像样本集中的图像样本的类别代表性可以包括以下步骤：

S601：确定所述K-1个类别中目标类别的中心向量和图像样本空间向量集。

可以理解的是，此处以K-1个类别中的任一类别作为目标类别为例进行说明，其他类别基于同样的方法可以计算得到其图像样本的类别代表性。

S603：基于向量相似度度量算法，对所述目标类别的图像样本空间向量集中的每一个图像样本空间向量，计算与所述目标类别的中心向量的相似度。

在本说明书的一个实施例中，通过搬土距离(Earth mover's distance，EMD)度量目标类别的图像样本N与目标类别中心向量的相似度，并根据相似度来表征图像样本的类别代表性。

EMD的具体计算公式可以如下所示：

其中，F^C表示目标类别的中心向量，F^N表示目标类别图像样本集中图像样本的空间向量。此方程包含如下所示的约束条件：

S605：根据所述相似度确定所述目标类别的图像样本集中图像样本的类别代表性。

在本说明书的一个实施例中，通过d_N描述图像样本的类别代表性，d_N越小，表示图像样本N的空间向量到该类别中心向量的距离越小，相似度越高，该图像样本N越能代表该类别，即存在更多能代表该类别的信息。相反的，d_N越大则说明该图像样本是该类别中的难例，具有较少的该类别的特征信息。

在本说明书的其他实施例中，还可以通过欧氏距离等其他向量相似度算法计算图像样本的空间向量与中心向量的相似度。除了应用特征空间和空间向量，本说明书实施例也可以采用其他方式来计算、表征图像样本的类别代表性，本发明对比不作限定。

S107：根据所述第一图像样本的软标签和所述图像样本的类别代表性，在所述K-1个类别的图像样本集中选取至少一个图像样本作为第二图像样本。

在一种可行的实施方式中，具体地，如图7(1)所示，所述步骤S107可以包括以下步骤：

S701：根据所述第一图像样本的软标签，在K-1个类别中选取满足第一关联度的类别作为可选类别。

在类别的选择上，根据软标签选择融合样本所述的类别。具体的，如果需要生成难例，便会从与第一图像样本的分类类别关联程度较大的类别中挑选样本进行融合，反之，从关联程度较小的类别挑选样本生成容易的样例。

S703：获取所述可选类别的图像样本集和所述可选类别的图像样本集中图像样本的类别代表性。

S705：在所述可选类别的图像样本集中，选取至少一个图像样本作为第二图像样本，所述至少一个图像样本的类别代表性满足第二关联度。

在本说明书实施例中，可以选择一个图像样本与第一图像样本进行融合，也可以选择多个图像样本与第一图像样本进行融合，基于相同的方式和原理均可实现，此处不作限定。

本说明书实施例提供的方法对生成样本的难易程度控制也体现在根据图像样本的类别代表性选择需要融合的图像样本。具体的，如果需要生成难例，便会从与可选类别的图像样本集中中挑选类别代表性低的图像样本进行融合，反之，选择类别代表性高的图像样本生成容易的样例。

可以理解的是，基于类别和样本的两步选择方式，可以适用于难度较高的难例和难度较低的易例。如在类别关联程度最大的类别中选择类别代表性最低的图像样本与第一图像样本进行融合生成难例，或在类别关联程度最小的类别中选择类别代表性最高的图像样本与第一图像样本进行融合生成易例。

在另一种可行的实施方式中，具体地，如图7(2)所示，所述步骤S107还可以包括以下步骤：

S702：根据所述第一图像样本的软标签对所述图像样本进行类间排序，得到第一序列。

S704：根据所述图像样本的类别代表性对所述图像样本进行类内排序，得到第二序列。

S706：根据所述第一序列和所述第二序列，得到所述图像样本的综合序列。

在本说明书实施例中，对K-1个类别的图像样本集中的所有图像样本进行排序，根据类别关联程度得到第一序列R_l，以及根据类别代表性得到第二序列R_d，进而得到综合序列R^jnt，综合序列可以用如下公式表征：

R^jnt＝f_ind(↓R_l)*f_ind(↓R_d)

其中，f_ind为在两个序列中的位置检索函数，↓表示从大到小排序。

S708：根据所述图像样本的综合排序选取至少一个图像样本作为第二图像样本，所述第二图像样本在所述综合序列中的序列位置满足预设阈值。

由上式可知，第二图像样本的挑选根据R^jnt可以分为以下几个情况：

(1)高R_l，高R_d->高R^jnt：难度较高的难例；

(2)低R_l，低R_d->低R^jnt：难度较低的容易例；

(3)高R_l，低R_d或低R_l，高R_d->中R^jnt：难度适中的例子，可以较多采样。

本说明书实施例中列举了两种选择步骤，也可以选择其他的选择原则，本发明对此不作限定，在应用时可以依据实际的需求进行选择。

S109：将所述第一图像样本和所述第二图像样本进行融合，得到目标图像样本，完成对所述图像训练集的图像数据增强。

在本发明提供的实施例中，具体地，所述将所述第一图像样本和所述第二图像样本进行融合可以包括以下步骤：

S901：通过插值方式或填充方式将所述第一图像样本和所述第二图像样本进行融合，得到目标图像样本。

具体地，通过控制样本的难易程度确定了第二图像样本，则将第一图像样本和第二图像样本进行融合。以第二图像样本为一个图像样本为例进行说明，采用插值方式(Mixup)将两个图像样本进行像素级别的加权平均得到目标图像样本；或者通过填充方式(CutMix)对两个图像样本进行融合。

S903：通过所述软标签生成器获取所述第二图像样本的软标签。

可以理解的是，作为训练的图像样本，在融合得到目标图像样本后，还需要确定所述目标图像样本的标签。

S905：将所述第一图像样本的软标签和所述第二图像样本的软标签进行计算，得到所述目标图像样本的标签。

具体地，根据所采用的融合方式，采用相适应的标签计算方式确定所述目标图像样本的标签。如采用Mixup的融合方式，将第一图像样本和第二图像样本的软标签进行加权平均，进一步确定所述目标图像样本的标签，以更新所述图像训练集。

本说明书实施例提供的一种图像数据增强方法主要分为两步，第一步可以如图4所示，训练一个分类网络作为软标签生成器；第二步可以如图8所示，冻结训练好的网络权重，输入一张图像样本，根据其软标签在其他的类别中挑选图像样本进行融合。在样本的挑选过程中，根据类别关联度和类别代表性控制合成样本的难易程度，以提高分类模型的泛化能力。

本发明实施例还提供了一种图像数据增强装置，如图9所示，所述装置可以包括：

训练模块910，用于根据图像训练集对深度学习网络进行训练，得到软标签生成器，所述图像训练集包含K个类别的图像样本集。

第一获取模块920，用于获取第一图像样本，根据所述软标签生成器获取所述第一图像样本的软标签和类别，所述软标签表征所述第一图像样本与所述K个类别的类别关联度。

第二获取模块930，根据所述软标签生成器获取K-1个类别的图像样本集中图像样本的类别代表性，所述K-1个类别中不包含所述第一图像样本的类别。

选择模块940，用于根据所述第一图像样本的软标签和所述图像样本的类别代表性，在所述K-1个类别的图像样本集中选取至少一个图像样本作为第二图像样本。

融合模块950，用于将所述第一图像样本和所述第二图像样本进行融合，得到目标图像样本，完成对所述图像训练集的图像数据增强。

在本说明书的一个实施例中，所述第二获取模块930可以包括：

特征映射单元931，用于通过所述软标签生成器将所述K-1个类别的图像样本集中的图像样本映射至同一个特征空间。

第一获取单元932，用于获取在所述特征空间中所述K-1个类别的图像样本空间向量集。

第一计算单元933，用于根据所述K-1个类别的图像样本空间向量集进行计算，得到在所述特征空间中所述K-1个类别的中心向量。

第二计算单元934，用于根据所述K-1个类别的中心向量，计算所述K-1个类别的图像样本集中的图像样本的类别代表性。

在本说明书的一个实施例中，所述选择模块940可以包括：

类别选择单元941，用于根据所述第一图像样本的软标签，在K-1个类别中选取满足第一关联度的类别作为可选类别。

第二获取单元943，用于获取所述可选类别的图像样本集和所述可选类别的图像样本集中图像样本的类别代表性。

第一选择单元945，用于在所述可选类别的图像样本集中，选取至少一个图像样本作为第二图像样本，所述至少一个图像样本的类别代表性满足第二关联度。

在本说明书的另一个实施例中，所述选择模块940还可以包括：

第一序列单元942，用于根据所述第一图像样本的软标签对所述图像样本进行类间排序，得到第一序列。

第二序列单元944，用于根据所述图像样本的类别代表性对所述图像样本进行类内排序，得到第二序列。

综合序列单元946，用于根据所述第一序列和所述第二序列，得到所述图像样本的综合序列。

第二选择单元948，用于根据所述图像样本的综合排序选取至少一个图像样本作为第二图像样本，所述第二图像样本在所述综合序列中的序列位置满足预设阈值。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的一种图像数据增强方法。

图10示出了一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图，所述设备可以参与构成或包含本申请实施例所提供的装置或系统。如图10所示，设备10可以包括一个或多个(图中采用1002a、1002b，……，1002n来示出)处理器1002(处理器1002可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

应当注意到的是上述一个或多个处理器1002和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器1004可用于存储应用软件的软件程序以及模块，如本申请实施例中所述的方法对应的程序指令/数据存储装置，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种图像数据增强方法。存储器1004可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置1006包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置1006可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种图像数据增强方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的一种图像数据增强方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述本发明提供的一种图像数据增强方法、装置、介质及设备的实施例可见，

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像数据增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种图像数据增强方法，其特征在于，所述根据所述软标签生成器获取K-1个类别的图像样本集中图像样本的类别代表性包括：

3.根据权利要求2所述的一种图像数据增强方法，其特征在于，所述根据所述K-1个类别的中心向量，计算所述K-1个类别的图像样本集中的图像样本的类别代表性包括：

4.根据权利要求1所述的一种图像数据增强方法，其特征在于，所述根据所述第一图像样本的软标签和所述图像样本的类别代表性，在所述K-1个类别的图像样本集中选取至少一个图像样本作为第二图像样本包括：

5.根据权利要求1所述的一种图像数据增强方法，其特征在于，所述根据所述第一图像样本的软标签和所述图像样本的类别代表性，在所述K-1个类别的图像样本集中选取至少一个图像样本作为第二图像样本还包括：

6.根据权利要求4或5中任一项所述的一种图像数据增强方法，其特征在于，所述将所述第一图像样本和所述第二图像样本进行融合，得到目标图像样本包括：

通过所述软标签生成器获取所述第二图像样本的软标签；

7.根据权利要求1所述的一种图像数据增强方法，其特征在于，所述获取第一图像样本，根据所述软标签生成器获取所述第一图像样本的软标签和类别包括：

根据所述软标签生成器获取所述第一图像样本的软标签；

8.一种图像数据增强装置，其特征在于，所述装置包括：

9.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7中任一项所述的一种图像数据增强方法。

10.一种计算机设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由所述处理器加载并执行如权利要求1至7中任一项所述的一种图像数据增强方法。