CN110070587B

CN110070587B - 一种基于条件级联对抗生成网络的行人图像生成方法

Info

Publication number: CN110070587B
Application number: CN201910162468.3A
Authority: CN
Inventors: 王慧燕
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2023-02-10
Anticipated expiration: 2039-03-05
Also published as: CN110070587A

Abstract

一种基于条件级联对抗生成网络的行人图像生成方法，包括以下步骤：步骤1构建Stack Conditional Generative Adversarial Network深度神经网络并训练；步骤2利用SCGAN网络进行行人图像生成，过程包括：首先生成100维度的高斯分布噪声，然后对需要生成的行人属性编码，得到条件控制编码。串联高斯噪声与条件控制编码输入网络,取出各级生成器的输出，得到初步生成的图像。最后利用双线性插值算法将生成的图像长宽比例调整为1:2.5得到最终的生成结果。本发明实现了利用条件控制对抗生成网络生成具有特定行人属性的图像，提出的条件编码方式使得条件控制对抗生成网络的训练过程更加简易。

Description

一种基于条件级联对抗生成网络的行人图像生成方法

技术领域

本发明属于图像处理和模式识别领域，涉及一种基于对抗生成网络，通过加入条件控制变量实现的行人图像生成方法。

背景技术

图像生成就是按照实际需要，通过计算机自动生成数字图像的一种技术。图像生成的应用范围非常广泛，例如以往公安部门根据报案人的描述手绘出嫌疑人的肖像，用于查找嫌疑人，即可通过计算机高效自动生成，大大降低了获取嫌疑人肖像的代价。在人工智能兴起的今天，图像数据对于训练人工智能极为重要。但是真实的图像数据的获取成本过高，许多中小企业无力承担。利用图像生成技术可以以极低的代价短时间产生巨量的数据，从而解决这一问题。

自数字图像处理技术诞生至今，图像生成一直是较为棘手的问题之一。生成图像的质量远远达不到实际要求。一方面图像不够逼真，存在模糊、失真等问题。另一方面，高分辨率的图像难以生成。作为神经网络的一个重要分支，对抗生成网络自2014年由Goodfellow Lan等人提出用于图像生成以来，极大的促进了该领域的发展。对抗生成网络(Generative Adversarial Net，简称GAN)蕴含了博弈论的思想，分别构造出生成器模型和判别器模型，在训练过程中二者不断博弈，最终达到平衡。生成器与判别器的本质是两个不同任务的神经网络，生成器用于生成图像，判别器用于判定图像是真实的还是生成的。生成器不断的生成虚假的图像以欺骗判别器，判别器不断提高自己的辨识能力，从而也促进生成器生成更为逼真的图像。

最初的GAN网络虽然可以极大的提升生成图像的质量。但并不能随心所欲的按一定条件生成相应的图像。后来Scott Reed等人发表了论文《Generative Adversarial Textto Image Synthesis》，实现了通过语言描述生成与描述相符的图像。实现了控制生成内容的功能。但是该方法首先将描述语言转换成控制向量，而该过程嫉妒依赖语言描述模型生成向量的质量。训练难度大且复杂。生成图像的分辨率也只有64x64像素。受其启发，HanZhang发表了论文《StackGAN:Text to Photo-realistic Image Synthesis with StackedGenerative Adversarial Networks》，采用级联的结构克服了分辨率不足的问题。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于条件级联对抗生成网络的行人图像生成方法。

本发明针对现有算法的不足，简化了控制变量生成的过程，并将其应用于构造的级联生成网络中，提出了一种基于条件级联对抗生成网络的行人图像生成方法。

本发明设计了一种新的网络结构Stack Conditional Generative AdversarialNetwork(简称SCGAN)。不同于以往的条件对抗生成网络，SCGAN一方面采用级联的网络结构用于生成高分辨率图像，另一方面，在保证图像质量的前提下，改进了控制变量的生成模式，省去了训练语言描述转换模型的步骤。详见下文描述：

一种基于条件级联对抗生成网络的行人图像生成方法，包括以下步骤：

步骤1构建提出的Stack Conditional Generative Adversarial Network网络并训练；具体包括：

(1.1)本发明设计的网络三级级联的对抗生成网络为基础，一级网络的输入为条件控制编码，二级网络的输入为一级网络的输出串联条件控制编码，三级网络的输入为二级网络的输出串联条件控制编码。每级网络连接各自的生成损失和判别损失作为优化目标；

(1.2)生成控制变量。对训练图像的行人属性进行编码并归一化，本方法实现的可控属性包括性别、姿态、上衣颜色、下装颜色；

(1.3)将人工标注的样本通过网络的数据层输入到网络中，同时将控制变量输入到各级生成器和判别器，与随机产生的100维高斯噪音结合作为控制变量进行训练。每级网络包含生成损失和判别损失两个损失函数。网络采用随机梯度下降算法对损失函数进行优化，直到生成器损失和判别器损失达到平衡的状态；

步骤2生成图像阶段，具体包括：

(2.1)生成100维度的高斯分布噪声，用以确保生成的图像的随机性；

(2.2)对需要生成的行人属性编码，得到条件控制编码；

(2.3)串联高斯噪声与条件控制编码输入网络,取出各级生成器的输出，得到初步生成的图像；

(2.4)利用双线性插值算法将生成的图像长宽比例调整为1:2.5得到最终的生成结果。

所述步骤(1.1)与步骤(2.2)中条件控制编码生成的具体操作为：将行人某种属性的若干种类别用对应长度的二进制编码表示，编码某种类别时，将其对应位置的二进制编码置为1，其余编码位置置为0。完成后与100维的高斯噪声进行串联完成条件控制编码过程。按照二级网络和三级网络的输入宽高将一维的条件控制编码进行膨胀，作为其控制位的输入。

本发明提供的技术方案的有益效果是:在保证生成效果不降低的情况下，简化了条件对抗生成网络的控制变量生成过程。同时使用了多级控制使得生成的图像能够更符合控制条件。生成了更高分辨率的图像。

附图说明

图1为本发明方法的流程图。

图2为本发明的SCGAN网络的简化结构。

具体实施方式

为了更加清晰的阐述本发明的各个步骤，下面结合附图对本发明做进一步的描述。

为了提升图像生成的质量与分辨率，同时为了更好的控制生成图像符合生成条件，本发明提出了基于级联的条件对抗生成网络，并简化了控制条件的编码过程。在图像生成质量不受影响的情况下，实现了使用本发明提出的编码方式控制生成符合条件的行人图像。详细见下文描述：

步骤1训练SCGAN网络：

(1.1)本发明设计的SCGAN网络以对抗生成网络为基础，采用三级网络级联的结构，一级网络生成64x64像素的图像，作为二级网络的输入，二级网络生成128x128像素的图像，再作为三级网络的输入，最后三级网络输出256x256像素的图像。在每级生成器与判别器网络预留控制变量入口；

(1.2)生成控制变量。对训练图像的行人属性进行编码并归一化，本方法实现的可控属性包括性别(男、女)、姿态(正面、侧面、背面)、上衣颜色(21种常见颜色)、下装颜色(21种常见颜色)；

(1.3)将人工标注的样本通过网络的数据层输入到网络中，同时将控制变量输入到各级生成器和判别器，与随机产生的100维高斯噪音结合作为控制变量进行训练。每级网络包含生成损失和判别损失两个损失函数。网络采用随机梯度下降算法对损失函数进行优化，直到生成器损失和判别器损失达到平衡的状态。

步骤2行人图像生成阶段：

(2.1)生成100维符合高斯分布的随机噪声，该噪声保证了生成图像的随机性。在输入二级网络和三级网络时，高斯噪声膨胀为64x64x100和128x128x100；

(2.2)对行人图像条件进行编码，三级网络控制编码维度分别为1x1x47、64x64x47、128x128x47。串联各级的高斯分布噪声得到最终的条件控制编码；

(2.3)将条件控制编码输入网络，得到各级网络的输出维度分别为64x64x3、128x128x3、256x256x3。；

(2.4)使用双线性插值算法将输出的图像长宽比例调整为1:2.5，即26x64、52x128和103x256像素的最终输出。

(1.1)与步骤(2.2)中所述条件控制编码的编码过程，具体操作的举例如下：对性别属性编码为2维的向量，例如性别男编码为01，性别女编码为10；同理可以得到姿态的3维向量以及上衣和下装各21维的向量；串联起来得到47维的条件控制变量。同时生成100维符合高斯分布的噪音，最终串联得到147维的控制变量作为一级网络的输入控制变量；二级网络的控制变量为64x64x147维的向量，由于二级网络的输入是一级网络的64x64x3维图像，串联得到二级网络的输入为64x64x150维向量。三级网络的输入维度相应的为128x128x150。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于条件级联对抗生成网络的行人图像生成方法，包括以下步骤：

(1.1)以网络三级级联的对抗生成网络为基础，一级网络的输入为条件控制编码，二级网络的输入为一级网络的输出串联条件控制编码，三级网络的输入为二级网络的输出串联条件控制编码，每级网络连接各自的生成损失和判别损失作为优化目标；

(1.2)生成控制变量；对训练图像的行人属性进行编码并归一化，实现的可控属性包括性别、姿态、上衣颜色、下装颜色；

(1.3)将人工标注的样本通过网络的数据层输入到网络中，同时将控制变量输入到各级生成器和判别器，与随机产生的100维高斯噪音结合作为控制变量进行训练；每级网络包含生成损失和判别损失两个损失函数；网络采用随机梯度下降算法对损失函数进行优化，直到生成器损失和判别器损失达到平衡的状态；

步骤2生成图像阶段，具体包括：

(2.2)对需要生成的行人属性编码，得到条件控制编码；

2.根据权利要求1所述的一种基于条件级联对抗生成网络的行人图像生成方法，其特征在于：步骤(1.1)与步骤(2.2)中所述条件控制编码的编码过程，操作具体为：将行人某种属性的若干种类别用对应长度的二进制编码表示，编码某种类别时，将其对应位置的二进制编码置为1，其余编码位置置为0；完成后与100维的高斯噪声进行串联完成条件控制编码过程；按照二级网络和三级网络的输入宽高将一维的条件控制编码进行膨胀，作为其控制位的输入。