CN109614979A

CN109614979A - 一种基于选择与生成的数据增广方法及图像分类方法

Info

Publication number: CN109614979A
Application number: CN201811183994.XA
Authority: CN
Inventors: 彭宇新; 何相腾
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2019-04-12
Anticipated expiration: 2038-10-11
Also published as: CN109614979B

Abstract

本发明提出一种基于选择与生成的数据增广方法及图像分类方法，包括以下步骤：对输入的图像进行分割，生成多个图像块以增加训练图像的数量；然后对得到的图像块进行过滤，即利用卷积神经网络进行分类，选择与目标对象相关的图像块；再通过多示例学习对上一步过滤得到的图像块进行再选择，选择出包含对象大部分区域的图像块；最后，利用生成式对抗网络学习图像与文本之间的对应关系，利用文本描述生成更多的新图像，进一步扩充训练图像的多样性。本发明仅使用一个训练样本及其文本描述信息，通过对数据进行分割、过滤、再选择和生成，使得图像数据多样性扩增。利用扩增后的图像数据进行图像分类模型的训练，实现了一个训练样本条件下的图像分类。

Description

一种基于选择与生成的数据增广方法及图像分类方法

技术领域

本发明涉及图像分析与识别技术领域，具体涉及一种基于选择与生成的数据增广方法及采用该方法的图像分类方法。

背景技术

近年来，随着互联网技术与多媒体技术的迅速发展，互联网图像呈现爆炸式增长。图像分类通过对图片的内容分析并给出其类别信息，是计算机视觉领域的研究难点问题。

传统的图像分类方法主要包括两个阶段：特征提取和分类器预测。在特征提取阶段，对输入的图像进行特征的提取，特征提取的方式通常分为两种：一种是密集型的特征提取，一种是针对兴趣点进行的特征提取，如提取SIFT关键点信息，进一步量化得到图像的视觉词特征描述，即词袋特征(Bag of Word，BoW)。在分类器预测阶段，基于BoW特征训练得到一个能够进行图像类别预测的分类器，如支持向量机(Support Vector Machine，SVM)，然后利用训练得到的分类器对图像进行分类。为了获得更好的分类效果，通常会利用图像中视觉对象(如图像中的鸟、车等对象)的位置信息以及视觉对象的部件(如鸟的头部、尾巴等部件)标注信息来训练对象分类器和局部分类器。特征的优劣影响了图像分类效果的优劣，而该特征主要依赖于设计者的先验知识，对图像的描述具有一定的局限性。

近年来，深度神经网络，尤其是卷积神经网络(Convolutional Neural Network，CNN)，在计算机视觉的多个任务上具有突出表现，例如图像分类、目标检测、人脸识别等。深度学习与传统图像分类方法的最大区别在于它是从海量图像数据中自动进行特征的学习，而非采用手工设计的特征。卷积神经网络的一般结构是卷积层与全连接层的组合，这种结构受人类的视觉神经元识别对象的层次结构所启发。其卷积层是一种分布表示的表征，而池化层使得卷积神经网络对于识别对象的平移和形变均不敏感。因此，卷积神经网络所学习到的图像特征能够更加有效地对图像内容进行描述。

现有的基于深度学习的图像分类方法通常依赖于大量标注的样本。但是，标注需要花费大量的人力和物力，成本巨大。因此，如何基于少量甚至一个训练样本进行图像数据的扩充，实现一个训练样本条件下的图像分类，就成为了一个具有重要意义的难题。

发明内容

针对上述难题，本发明提出了一种基于选择与生成的数据增广方法及采用该方法的图像分类方法，仅使用一个训练样本及其文本描述信息，通过多示例学习与对抗生成，对数据进行分割、过滤、再选择和生成，使得图像数据多样性扩增。利用扩增后的图像数据进行图像分类模型的训练，实现了一个训练样本条件下的图像分类。

为达到以上目的，本发明采用的技术方案如下：

一种应用于图像分类的基于选择与生成的数据增广方法，用于扩充训练样本，增加训练数据的多样性，包括以下步骤：

(1)数据分割：对输入的图像进行分割，生成多个图像块以增加训练图像的数量；

(2)数据过滤：对步骤(1)得到的图像块进行过滤，选择出与目标对象相关的图像块；

(3)数据再选择：通过多示例学习对步骤(2)过滤得到的图像块进行再选择，选择出包含目标对象大部分区域的图像块；

(4)数据生成：利用生成式对抗网络学习步骤(3)得到的图像与文本之间的对应关系，利用文本描述生成更多的与目标对象相关的新图像，进一步扩充图像的多样性。

进一步，上述一种应用于图像分类的基于选择与生成的数据增广方法，所述步骤(1)中，利用选择搜索算法对训练图像生成图像块，根据每个图像块的得分进行排序，选择前N个图像块作为训练图像的扩充。

进一步，上述一种应用于图像分类的基于选择与生成的数据增广方法，所述步骤(2)中，将步骤(1)中的图像块作为卷积神经网络模型的输入，根据卷积神经网络模型的输出计算得到图像块的预测得分，以此来判断是否为与目标对象相关的图像块。

进一步，上述一种应用于图像分类的基于选择与生成的数据增广方法，所述步骤(3)中，利用步骤(2)过滤得到的图像块构建正样本包，其他类别图像的图像块构建负样本包，利用多示例学习对步骤(2)得到的图像块进行再选择，使得所选图像块更加有利于卷积神经网络学习目标对象的特征。

进一步，上述一种应用于图像分类的基于选择与生成的数据增广方法，所述步骤(4)中，利用步骤(3)得到的图像扩充数据以及对应的文本描述，训练生成式对抗网络。然后，将文本描述作为生成网络的输入，生成与目标对象相关的新图像。

本发明还提供一种与上面方法对应的基于选择与生成的数据增广系统，其包括：

数据分割模块，负责对输入的图像进行分割，生成多个图像块以增加训练图像的数量；

数据过滤模块，负责对所述数据分割模块得到的图像块进行过滤，选择出与目标对象相关的图像块；

数据再选择模块，负责通过多示例学习对所述数据过滤模块得到的图像块进行再选择，选择出包含目标对象大部分区域的图像块；

数据生成模块，负责利用生成式对抗网络学习所述数据再选择模块得到的图像与文本之间的对应关系，利用文本描述生成更多的与目标对象相关的新图像，进一步扩充训练图像的多样性。

本发明还提供一种图像分类方法，包括以下步骤：

(1)采用上面所述方法对图像数据进行扩增；

(2)利用扩增后的图像数据进行图像分类模型的训练；

(3)利用训练完成的图像分类模型进行图像分类。

本发明的效果在于：与现有的旋转、裁剪、分块等数据增广方法相比，本发明的数据增广方法能够获得更好的分类识别结果。此外，将本发明的数据增广方法应用于现有图像分类方法中，能够取得更好的结果，实现了一个训练样本条件下的图像分类，验证了本发明的有效性。

本发明之所以具有上述发明效果，其原因在于：数据分割和数据生成旨在产生与图像对象及其部件相关的图像块，并根据文本描述生成新的图像数据；数据过滤和数据再选择旨在对生成的数据进行过滤选择，过滤掉噪音信息。通过上述四个阶段，图像训练样本在数量和多样性上均实现了扩充，从而有利于卷积神经网络学习对象的细节特征。

附图说明

图1是本发明一种应用于图像分类的基于选择与生成的数据增广方法的流程示意图。

图2是实施例中数据分割示意图。

图3是实施例中数据过滤示意图。

图4是实施例中数据再选择示意图。

图5是实施例中数据生成示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本实施例的一种应用于图像分类的基于选择与生成的数据增广方法，其流程如图1所示，具体包含以下步骤：

(1)数据分割

利用选择搜索算法(Selective Search)对每一张原始训练图像生成数千个图像块，这些图像块具有一定概率包含目标对象区域，每一个图像块有一个对应的概率得分。然后，通过伪随机排序(Pseudo Random Sorting)，选择前N个图像块作为训练图像的扩充。图2是对包含黄莺的图片进行数据分割后的得到图像块的示意图。

(2)数据过滤

在步骤(2)中生成的N个图像块绝大多数包含了目标对象区域，但也有少数仅包含背景区域或者目标对象的小部分区域，这些图像块对于卷积神经网络的训练学习起到副作用，因此，需要将这些起副作用的图像块过滤掉。

首先，利用原始训练样本(每个类别仅有一个训练样本)对在ImageNet等大规模数据集上预训练过的卷积神经网络模型进行精细调整(fine-tune)，充分利用标注的训练样本学习目标对象的特征。然后，将步骤(2)中得到的图像块作为卷积神经网络的输入，通过卷积神经网络的前向传播获得输入图像块的预测得分，计算过程如下公式所示：

公式一：

其中，h(x)表示输入图像块的预测得分，x对应于输入图像块经过卷积神经网络模型得到的顶层神经元输出向量，k表示对应的分类类别数目，x_c表示目标对象对应神经元的输出。最后，根据预测得分选出分类为目标对象的图像块，过滤掉分类为其他对象的图像块。图3是对图2中的图像块进行数据过滤的示意图。

(3)数据再选择

经过步骤(1)的生成和步骤(2)的过滤，仍然存在一些对于卷积神经网络学习起副作用的图像块，这些图像块通常包含大面积的背景噪音区域和小面积的目标对象区域。因为步骤(2)中已经利用过卷积神经网络进行过滤，所以这些图像块很难被滤除。考虑到步骤(2)得到的图像块中存在于目标对象相关的图像块，我们将上述问题建模为多示例学习问题。

首先，构建正负样本包：对于类别M来说，将步骤(2)中过滤得到的图像块作为正样本包，将其他类别图像的图像块作为负样本包。这样，对于每一个类别我们都能够构建该类别的正负样本包。

然后，利用软间隔支持向量机(Soft-margin SVM)进行多示例学习，表示为如下公式：

公式二：

其中，p为步骤(2)的图像块，y为样本包的标注信息，w，ξ，b为用于区分正负样本所需的超平面参数。通过多示例学习的再选择，保留下来的图像块能够有利于卷积神经网络学习目标对象的特征。图4是进行数据再选择的示意图。

(4)数据生成

上述三个步骤所获得的图像块是在原始训练样本的基础上，对尺度、区域进行的扩充，并未产生新的图像数据。为了进一步增加训练样本的多样性，本发明利用生成式对抗网络生成新的图像数据。生成式对抗网络能够自动学习图像数据分布，以及图像和文本之间的关联关系，因此，给定文本描述可以生成对应的图像数据。本发明利用上述三个步骤获得的扩充图像块以及对应的文本描述，进行生成式对抗网络的训练。网络结构采用深度卷积生成式对抗网络(Deep Convolutional Generative Adversarial Network,DC-GAN)。然后，给定对应的文本描述，利用训练好的生成式对抗网络生成对应的新的图像数据。图5是数据生成的示意图。

下面的实验结果表明，与现有的数据增广方法相比，本发明一种应用于图像分类的基于选择与生成的数据增广方法能够获得更好的分类识别结果。此外，将本发明一种应用于图像分类的基于选择与生成的数据增广方法应用于现有图像分类方法中，能够取得更好的效果，实现了一个训练样本条件下的图像分类。

本实施例采用了CUB-200-2011图像分类数据集进行实验，该数据集由文献“Thecaltech-ucsd birds-200-2011dataset”(作者Catherine Wah,Steve Branson,PeterWelinder,PietroPerona和Serge Belongie，2011年发表)提出，其中包括200个类别，11788张图像，其中5994张图像作为训练集，5794张图像作为测试集。我们测试了3种数据增广方法：旋转、裁剪和分块，并将本发明应用于以下2种现有图像分类方法作为实验对比：

现有方法一：文献“Compact bilinear pooling”(作者Yang Gao，Oscar Beijbom，NingZhang，和Trevor Darrell，发表在2016年的IEEE Conference on Computer Visionand PatternRecognition)中的方法，该方法通过在卷积神经网络中搭建压缩的双线性池化层，提升图像分类的准确率。

现有方法二：文献“Fine-grained image classification via combiningvision and language”(作者Xiangteng He和Yuxin Peng，发表在2017年的IEEEConference on Computer Vision andPattern Recognition)中的方法，该方法通过同时建模图像与文本之间的关联关系，提升图像分类的准确率。

本发明：本实施例的方法。

实验采用准确率(accuracy)指标来评测图像分类的准确性，准确率是指分类正确的图像数目与所有测试图像数目的比值，准确率值越大，说明图像分类的结果越好。

表1.与现有数据增广方法的对比实验结果

方法	准确率
		旋转	0.2243
裁剪	0.2221
		分块	0.0492
本发明	0.2533

表2.使用本发明数据增广方法的对比实验结果

方法	准确率
		现有方法一	0.2328
现有方法一(使用本发明)	0.2533
		现有方法二	0.1803
现有方法二(使用本发明)	0.1968

从表1可以看出，本发明取得了更好的图像分类结果。现有的增广方法并未考虑所增加的图像数据是否包含了真正有用的信息，如目标对象区域；使得所扩充的图像数据中噪音信息太多，反而使得分类效果不好。而本发明不仅考虑生成与对象相关的图像块，同时还建模图像与文本之间的关联关系，生成更加多样的新的图像数据。从表2可以看出，应用本发明的数据增广方法，能够有效提高现有图像分类方法的准确率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于选择与生成的数据增广方法，其特征在于，包括以下步骤：

(1)对输入的图像进行分割，生成多个图像块以增加训练图像的数量；

(2)对步骤(1)得到的图像块进行过滤，选择出与目标对象相关的图像块；

(3)通过多示例学习对步骤(2)过滤得到的图像块进行再选择，选择出包含目标对象大部分区域的图像块；

(4)利用生成式对抗网络学习步骤(3)得到的图像与文本之间的对应关系，利用文本描述生成更多的与目标对象相关的新图像，进一步扩充训练图像的多样性。

2.如权利要求1所述的方法，其特征在于，所述步骤(1)中，利用选择搜索算法对训练图像生成图像块，对图像块进行伪随机排序，选择前N个图像块作为训练图像的扩充。

3.如权利要求1所述的方法，其特征在于，所述步骤(2)中，对于步骤(1)生成的图像块，利用训练得到的卷积神经网络模型直接计算出特征，并判断是否是与当前目标对象相关的图像块。

4.如权利要求3所述的方法，其特征在于，所述步骤(2)中，将生成的图像块输入到训练好的卷积神经网络模型，卷积神经网络的输出为输出层神经元对于该图像块的响应强度，并利用如下公式得到输入图像块的预测得分，最后根据得分来判断是否是与当前目标对象相关的图像块；

其中，h(x)表示输入图像块的预测得分，x对应于输入图像块经过卷积神经网络模型得到的顶层神经元输出向量，k表示对应的分类类别数目，x_c表示目标对象对应神经元的输出。

5.如权利要求1所述的方法，其特征在于，所述步骤(3)中，利用步骤(2)过滤得到的图像块构建正样本包，用其他类别图像的图像块构建负样本包，利用多示例学习对步骤(2)得到的图像块进行再选择，使得所选图像块包含对象区域，过滤掉只包含背景或者包含一小块对象区域的图像块。

6.如权利要求5所述的方法，其特征在于，所述步骤(3)利用软间隔支持向量机进行多示例学习。

7.如权利要求1所述的方法，其特征在于，所述步骤(4)中，利用步骤(3)得到的图像扩充数据以及对应的文本描述，训练生成式对抗网络，然后将文本描述作为生成式对抗网络的输入，生成更多与目标对象相关的新图像，进一步扩充图像的多样性。

8.一种基于选择与生成的数据增广系统，其特征在于，包括：

9.一种图像分类方法，其特征在于，包括以下步骤：

(1)采用权利要求1～7中任一权利要求所述方法对图像数据进行扩增；

(2)利用扩增后的图像数据进行图像分类模型的训练；

(3)利用训练完成的图像分类模型进行图像分类。