CN107609587B

CN107609587B - 一种基于深度卷积生成对抗网络的多类别多视图数据生成方法

Info

Publication number: CN107609587B
Application number: CN201710813659.2A
Authority: CN
Inventors: 宣琦; 陈壮志; 方宾伟; 王金宝; 刘毅
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-09-11
Filing date: 2017-09-11
Publication date: 2020-08-18
Anticipated expiration: 2037-09-11
Also published as: CN107609587A

Abstract

一种基于深度卷积生成对抗网络的多类别多视图数据生成方法，包括如下步骤：1.中心剪裁图片，2.在通道维度叠合多视图。3.提取多视图类别标签。4.用叠合多视图、类别标签、外加随机高维噪声共同训练DC‑GAN网络。5.用高维随机噪声和自定义标签传入训练好的网络，生成多视图叠合数据。6.剪裁并填充背景，得到符合原尺寸的多视图。本发明所述方法通过多视图叠合和带标签训练生成对抗网络的方法，实现了只需修改输入即可通过一个模型生成不同类别多视图的功能，所生成的数据可作为训练数据的扩充，来增加训练数据的多样性。

Description

一种基于深度卷积生成对抗网络的多类别多视图数据生成方法

技术领域

本发明涉及深度学习、图像处理领域，有关数据(尤其是图像数据)的生成技术，特别针对多种类别、多个视角的单物体图片数据，例如珍珠产业中不同类别珍珠的多视图。

背景技术

近年来，深度学习技术不断发展，在分类、目标检测等一系列问题上取得了巨大突破，多层神经网络结构层出不穷。然而越是复杂的神经网络，其对训练数据的数量和多样性的需求就越高，神经网络的最终性能在很大范围内和训练数据的丰富程度呈正相关。

为了增加训练数据的丰富程度，最保险可靠的方法是通过人工对同类数据的其他个体进行采集和标注，以获得新一批的扩充数据，但是这种方法效率过低，且成本巨大；最简单的方法是在原数据上加一些噪声进行简单的扩充，但这种方法，就增加多样性而言十分有限，因为加噪声并不能体现个体间的差异，而这里说的多样性很大程度上体现在同一类别的不同个体之间。将训练数据集看成一种高维度的概率分布，应用某种方法生成与此分布相似的数据分布成为一种很好的思路。生成对抗网络在此方面表现优秀，其中深度卷积生成对抗网络(DC-GAN)参考文献(Radford A,Metz L,Chintala S.Unsupervisedrepresentation learning with deep convolutional generative adversarialnetworks[J].arXiv preprint arXi v:1511.06434,2015，即Radford A,Metz L,ChintalaS，使用深度卷积生成对抗网络进行无监督学习，arXiv preprint arXiv:1511.06434,2015)在针对图像的数据上表现十分出色。

目前，在图像数据的生成上，更多的是基于大体量数据集的单图像生成，而在一些实际物体的分类问题上，如珍珠分类，使用多视图数据能取得更好的结果，但存在的一个问题是数据量不大，采集成本高，因此，进行多类别多视图数据的生成是一个迫切的需要。

发明内容

为了克服现有的图像数据生成方式在多类别多视图数据场合的数量不大、采集成本较高的不足，为了实现多视图数据的生成，同时，针对不同的类别又能生成类似于该类别的数据，本发明提出了一种基于深度卷积生成对抗网络(DC-GAN)的多类别多视图数据生成方法。由于数据集的限制，本发明特别针对珍珠图像的生成，但其核心方法可以推广到其他数据。

本发明实现上述发明目的所采用的技术方案如下：

一种基于深度卷积生成对抗网络的多类别多视图数据生成方法，包括以下步骤：

训练数据预处理阶段：

步骤1：中心剪裁：

在不影响图中物体的前提下，对每张图片进行中心剪裁；

步骤2：多视图叠合：

在图像的通道维度上对同一物体的多视图按顺序进行叠合，每个物体的所有多视图形成一份数据；

步骤3：提取类别标签：

分别对步骤2后的每份数据的类别进行onehot编码，获取对应的类别标签序列；

训练阶段：

步骤4：训练DC-GAN网络：

用相同的随机种子打乱图片数据和标签序列，用图片数据、标签序列和随机高维噪声训练DC-GAN网络，并测试；

数据生成阶段：

步骤5：获得多类别的生成数据：

输入目标类别的onehot标签和随机噪声，获得该类别的生成数据。调整标签信息，可获得不同类别的生成数据；

步骤6：获得多视图数据：

将步骤5中的生成数据重新剪裁为相应的多张视图，并添加背景扩大到原尺寸，成为与原数据集同规格的数据。

进一步，所述训练阶段中，设计DC-GAN网络各层的规则如下：

DC-GAN的网络结构包含两部分：鉴别网络D和生成网络G，其中D网络输入训练数据或生成数据、onehot标签，输出鉴别值，其包含4个卷积层和一个单节点的输出全连接层，G网络输入高维随机噪声、onehot标签，输出生成数据，其包含一个输入全连接层和4个反卷积层。

再进一步，所述步骤4中，训练过程包括以下要点：

4.1)训练图片或生成图片输入D网络时，在图片的通道维度叠合当次训练图片的标签，并在之后的每个卷积层输入时，均使用标签信息增加输入的特征图feature map，在最后的全连接层前再次将标签信息连接到输入向量中；

4.2)高维随机噪声输入G网络时，在输入向量末尾连接标签信息，并在之后的每个反卷积层输入时，均使用标签信息增加输入的feature map。

本发明用到的图像生成方法为深度卷积生成对抗网络(DC-GAN)，DC-GAN是在GAN的基础上，针对图像数据进行的结构改进，加入了许多卷积操作，能更好地提取图像特征，适合作为本发明的基本结构。此外，针对不同类别的问题，受条件生成对抗网络(C-GAN)的启发，本发明对DC-GAN的输入层及中间层数据进行了一些改变，提出一种在训练时加入类别信息的带标签训练法。

具体来说，本发明所述的方法具有如下的有益效果：

(1)在多视图组合输入时，由于总维度过大，通常需要构建节点量很大的神经网络，这在内存占用和计算上很不友好，本发明所述的方法通过中心剪裁和通道叠合，在不损害物体像完整的前提下，尽可能缩减了节点量，还排除了部分背景的干扰。

(2)相比于长宽维度的平铺，本发明所述的方法选择在通道维度叠合多视图，除了能使输入形状规范，不用为了补足尺寸而添加像素点外，还能充分利用卷积操作将各视图的特征关联起来。使各个视图间的联系更为紧密。

(3)本发明所述的方法将标签数据添加到神经网络的输入和每个中间层数据中，使得神经网络的每一层都能受到标签信息的约束，较好地限制了生成对抗网络太过自由的特点，达到了用一个网络就能生成多种类别数据的效果。

附图说明

图1为基于深度卷积生成对抗网络的多类别多视图数据生成方法的训练流程图。

图2为基于深度卷积生成对抗网络的多类别多视图数据生成方法的测试流程图。

图3为通道维度的多视图叠加示意图。

图4为将onehot标签添加到DC-GAN网络中的生成网络的示意图。

图5为将onehot标签添加到DC-GAN网络中的鉴别网络的示意图

具体实施方式

下面结合附图并以珍珠数据为例对本发明做进一步描述。

参照图1～图5，一种基于深度卷积生成对抗网络的多类别多视图数据生成方法，包括以下步骤：

由一批分成7类的珍珠五视图数据开始，

步骤1：中心剪裁：

五视图由俯视图和四张侧视图组成，每张原始尺寸为300*300*3，包含中心的珍珠图像和黑色背景，实验测得，将图片剪裁至250*250*3并不会影响到珍珠图像，并能节省近30％的像素。

步骤2：多视图叠合：

将五张珍珠图按通道维度叠合，如图3，形成250*250*15的多维度矩阵，作为一份图像数据，7类珍珠共得到10500份图像数据。

步骤3：提取类别标签：

对每一份图像数据所属的类别进行记录，编成一个7维的onehot标签。共得到10500份标签。

步骤4：训练DC-GAN网络：

用相同乱序后的图像数据和标签数据，外加随机均匀分布的噪声训练DC-GAN网络。

步骤5：利用训练好的神经网络获得数据：

如图2，设置100维随机均匀分布的噪声和自定义的7维onehot标签传入训练好的网络，生成对应类别的叠合图片，尺寸为250*250*15。

步骤6：获得多视图数据：

重新剪裁图片，得到5张250*250*3的珍珠图像，扩展背景使之重新变为300*300*3。

对于DC-GAN内部各层的数据添加标签的规则如图4，图5所示：

当数据只有一个维度时，7维标签向量直接连接在那个维度上，如G网络的输入与D网络的末层输入；当数据有三个维度时(通过卷积层时)，将7维标签向量变换成同长宽的三维的矩阵，连接到第三个维度(feature map)上。

本发明最终实现了通过改变输入即可生成多种类多视图的功能，对于生成的数据，经过人工评价和分类模型初步鉴定，可以作为扩充数据，以增加训练数据的多样性，强壮分类模型。对发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于深度卷积生成对抗网络的多类别多视图数据生成方法，其特征在于：包括以下步骤：

训练数据预处理阶段：

步骤1：中心剪裁：

在不影响图中物体的前提下，对每张图片进行中心剪裁；

步骤2：多视图叠合：

在图像的通道维度上对同一物体的多视图按顺序进行叠合，每个物体的所有多视图形成一份数据集；

步骤3：提取类别标签：

分别对步骤2后的每份数据集的类别进行onehot编码，获取对应的类别标签序列；

训练阶段：

步骤4：训练DC-GAN网络：

数据生成阶段：

步骤5：获得多类别的生成数据：

输入目标类别的onehot标签和随机噪声，获得该类别的生成数据；调整标签信息，可获得不同类别的生成数据；

步骤6：获得多视图数据：

将步骤5中的生成数据重新剪裁为相应的多张视图，并添加背景扩大到原图片尺寸，成为与原数据集同规格的数据。

2.如权利要求1所述的一种基于深度卷积生成对抗网络的多类别多视图数据生成方法，其特征在于：所述训练阶段中，设计DC-GAN网络各层的规则如下：

3.如权利要求2所述的一种基于深度卷积生成对抗网络的多类别多视图数据生成方法，其特征在于：所述步骤4中，训练过程包括以下要点：

4.1）训练图片或生成图片输入D网络时，在图像的通道维度叠合当次训练图片的标签，并在之后的每个卷积层输入时，均使用标签信息增加输入的特征图feature map，在最后的全连接层前再次将标签信息连接到输入向量中；

4.2）高维随机噪声输入G网络时，在输入向量末尾连接标签信息，并在之后的每个反卷积层输入时，均使用标签信息增加输入的feature map。