CN113505845A

CN113505845A - 一种基于语言的深度学习训练集图像生成方法

Info

Publication number: CN113505845A
Application number: CN202110840907.9A
Authority: CN
Inventors: 暴洪博; 吕中华; 栾宽
Original assignee: Heilongjiang Boya Zhirui Technology Development Co ltd
Current assignee: Heilongjiang Boya Zhirui Technology Development Co ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-10-15

Abstract

一种基于语言的深度学习训练集图像生成方法，涉及图像识别及生成领域。本发明是为了解决现有的图像生成方法还存在生成的图像不清晰、难以生成大量图像进而导致无法满足深度学习训练集图像的需要的问题。本发明包括：获取待生成图像语言描述序列，并将待生成图像语言描述序列输入到训练好的图像生成系统中获得生成的图像；所述图像生成模型包括：语言特征提取模块、图像生成模块；所述语言特征提取模块用于将待生成图像语言序列描述转化为特征矩阵，然后利用LSTM网络提取待生成图像语言描序列的特征；所述图像生成模块采用生成对抗网络GAN和VGG‑19卷积神经网络。本发明用于根据输入的语言描述序列生成符合语言描述的图像。

Description

一种基于语言的深度学习训练集图像生成方法

技术领域

本发明属于图像识别及生成领域，特别涉及一种基于语言的深度学习训练集图像生成方法。

背景技术

深度学习是目前的前沿热点研究之一，其关键核心是训练。但训练的基础需要有庞大的数据库作为支撑。虽然有一些可以获取的训练集数据库，但其样本量毕竟有限，有的还需要支付高昂的费用，并不能满足所有人的需要。在图像识别及生成领域，网络上每天几乎都会被采集上传数以亿计的图片。在整个互联网之中存在着难以统计数量的纷繁杂乱的图像文件，这些纷繁杂乱的图像没有被明确的标记分类，导致这些图片很难再被统一利用起来。到目前为止，很多研究图像深度学习的用户进行图片检索仍然采用人工方式，人工检索方法不仅浪费人力而且效率非常低，因此如何自动检索图片成为本领域的研究重点。

现在的图像检索办法，大多是根据输入文本内容来进行查找，或是通过图片嵌入的方式以图搜图，但是这种方法还需要输入图片或文本导致其使用不够便捷。传统的搜图方法一般利用变分自编码器(Variational Auto-Encoder，VAE)和卷积神经网络(Convolutional Neural Networks,CNN)，但是变分自编码器存在均方误差损失，进而导致生成的图像不清晰；卷积神经网络仅适用于CNN结构，因此适用范围比较窄。所以目前的图像生成方法还存在使用不够便捷、生成的图像不清晰、难以生成大量图像进而导致无法满足深度学习训练集图像的需要的问题。

发明内容

本发明目的是为了解决现有的图像生成方法还存在生成的图像不清晰、难以生成大量图像进而导致无法满足深度学习训练集图像的需要的问题，而提出了一种基于语言的深度学习训练集图像生成方法。

一种基于语言的深度学习训练集图像生成方法具体过程为：

获取待生成图像语言描述序列，并将待生成图像语言描述序列输入到训练好的图像生成系统中获得生成的图像；

所述图像生成系统包括：语言特征提取模块、图像生成模块；

所述语言特征提取模块用于将待生成图像语言序列描述转化为特征矩阵，然后利用LSTM网络提取待生成图像语言描序列的特征；

所述图像生成模块采用生成对抗网络GAN和VGG-19卷积神经网络，用于将语言特征提取模块提取的待生成图像语言描述序列特征转换为图像；

所述生成对抗网络GAN包括：生成器和判别器；

所述生成器用于将待生成图像语言描述序列特征生成目标图像然后将目标图像输入VGG-19卷积神经网络；

所述VGG-19卷积神经网络包括：5个stage、3个全链层和一个softmax分类层，用于提取生成器产生的图像的特征；

所述图像的特征用于优化LSTM网络的损失函数；

所述判别器用于判别语言描述序列特征是否与生成器生成的图像符合，如符合则输出生成器生成的图像，若不符合则重新训练生成对抗网络。

本发明的有益效果为：

本发明能够对用户输入的语言进行识别生成图像，使图像生成方法的使用更加的便捷、高效；本发明采用GAN生成对抗网络结合VGG-19卷积神经网络，使生成的图像更加清晰，且不会生成无意义的图像；本发明采用了对比生成图像与真实图像的特征分布差异来充当用于优化LSTM算法网络的损失函数，使生成器更加方便效率的生成目标图像。本发明将LSTM算法系统提取图像特征的方法用在判别器当中，鉴别图像的特征是否与语言描述相一致。本发明还增加了不相符的真实输入图像和语言，加快了判别器学习训练的速度。本发明生成器的损失函数增加了表达生成与真实图像差异的特征函数，有效让生成器产生了与语言描述的特征相同的图像输出，解决了无法生成大量图像而导致的无法满足深度学习训练集图像需要的问题。

附图说明

图1为根据输入语言生成图像流程图。

具体实施方式

具体实施方式一：本实施方式一种基于语言的深度学习训练集图像生成方法，具体过程为：获取待生成图像语言描述序列，并将待生成图像语言描述序列输入到训练好的图像生成系统中获得生成的图像；

所述语言特征提取模块用于将待生成图像语言序列描述转化为特征矩阵，然后利用长短记忆网络(LSTM)网络提取待生成图像语言描序列的特征；

所述待生成图像语言描序列的特征包括句子特征和单词特征，句子特征和单词特征维度均为256；

所述生成对抗网络GAN包括生成器和判别器；

所述生成器用于将输入的语言描述序列特征生成目标图像，然后将目标图像输入VGG-19卷积神经网络；

所述判别器用于用于判别语言描述序列特征是否与生成器生成的图像符合，如符合则输出生成器生成的图像，若不符合则重新训练生成对抗网络；

所述VGG-19卷积神经网络用于提取生成器产生的图像的特征，然后将提取的图像特征输入判别器；

所述VGG-19由5个stage和3个全链层和一个softmax分类层组成；

所述图像的特征用于优化LSTM算法网络的损失函数。

生成图像具体过程为：将待生成图像语言描述序列输入到LSTM网络中进行特征提取，然后提取后的特征输入生成器，生成器根据特征生成图像，然后将生成器生成的图像输入VGG-19网络进行图像特征提取再将提取的生成器生成的图像特征进行降维，将降维后的特征与随机输入的图像参数叠加，再将叠加后的数据进行多次卷积，在每层卷积后，对卷积的结果进行Batch Normalization和leaky relu生成特征矩阵，然后获取特征矩阵的参数，将参数输入判别器进行判别是否符合语言描述序列，若符合如符合则输出生成器生成的图像，若不符合则重新训练生成对抗网络(图1)。

所述卷积的核步长度为2。

具体实施方式二：所述语言特征提取模块用于将待生成图像语言序列描述转化为特征矩阵，然后利用长短记忆网络(LSTM)网络提取待生成图像语言描序列的特征，具体过程包括以下步骤：

步骤一、获取待生成图像语言序列描述，并将待生成图像语言序列描述转化为数字序列；

步骤二、将步骤一获得的数字序列转化为特征矩阵；

步骤三、将特征矩阵输入LSTM网络，LSTM再将语言特征矩阵继续转化成1*2400的矩阵，所述1*2400的矩阵即为获取的待生成图像语言描述序列特征。

具体实施方式三：所述生成器的训练过程中输入数据为：维度和1*128的矩阵一致的任意随机的图像输入和来自于语言特征提取模块降维后的待生成图像语言描序列的特征。

GAN生成器输入由两部分组成：首先是任意的随机输入，其目的是为了增加输出图像样本的多样性，这样就避免了生成器产生的图片没有差别这一缺陷，其次另一部分的输入是来自于语言特征提取模块降维后的待生成图像语言描序列的特征，其目的是为了生成符合语言描述的图像；

具体实施方式四：所述判别器的输入数据，通过以下方式获得：

利用奇异值分解方法将待生成图像语言描述序列特征1*2400的矩阵转化为1*128的矩阵，并将1*128的矩阵的参数与维度和1*128的矩阵一致的任意随机的图像参数相叠加，再通过转置卷积(反卷积)、Batch Normalization、relu计算获取一个64*64*3图像特征矩阵，并获取64*64*3图像特征矩阵参数数据，这个64*64*3图像参数即是判别器的输入数据。

具体实施方式五：所述训练生成对抗网络GAN的具体过程为：

将语言描述序列的真实图像的特征和生成器生成的伪图像特征输入判别器，判别器将与待生成图像的语言描述序列的特征相吻合的真实图像标注为1，生成器生成的伪图像数据或与语言描述的特征不相吻合的真实数据标注为0，以此为基准来不断的优化判别器，生成器则是对抗判别器，以不断生成能使判别器判断为1的图像数据为目标来不断地优化生成器，当生成器生成的图像被判别器标注为1的准确率达到预设阈值，则获得训练好的生成对抗网络GAN。

实施例：

本发明以“颜色+动物”作为输入语言为例说明具体实施方式，具体过程如下：

环境基于Linux操作系统，开发语言使用shell脚本语言和python语言，网络模型的开发基于keras开源框架。以2个词向量构成语言输入，采用单层网络结构，每一时刻输入的词向量x(t)为1×2维的向量，将x(t)进行加权计算，记忆传递单元a<t>的权值大小为10×2，记忆单元c<t>的权值大小为10×2，遗忘门参数Wf的权值大小为10×1，更新门参数Wu的权值大小为10×11，输出门参数Wo的权值大小为10×11，输出部分y(t)经过激活层做二分类判断。由于循环神经网络的反向传播计算是采用沿时间的反向传播计算，会导致参数连乘、计算量较大，因此，参数更新的过程中可能出现梯度爆炸问题，采用沿时间截断的反向传播算法，在反向传播中当梯度计算过大时截断至5.0。模型优化采用Adam(AdaptiveMoment Estimation)算法，Adam算法综合利用了Momentum算法的利用的动量来累积梯度和RMSProp算法的减小波动幅度、加快收敛速度的优势。

实现中首先导入相关包，然后搭建生成器网络和判别器网络，将上面两个连起来组成生成对抗网络。然后导入数据集，数据集分别选用的是ImageNet和CIFAR-10数据集进行训练。训练结束后后，测试输入红色、鸟，和绿色、青蛙。网络会输出结果图像。

Claims

1.一种基于语言的深度学习训练集图像生成方法，其特征在于所述方法具体过程为：获取待生成图像语言描述序列，并将待生成图像语言描述序列输入到训练好的图像生成系统中获得生成的图像；

所述生成对抗网络GAN包括：生成器和判别器；

所述VGG-19卷积神经网络包括：5个stage、3个全链层和一个softmax分类层，用于提取生成器产生的图像的特征，然后将提取的图像特征输入判别器；

所述图像的特征用于优化LSTM网络的损失函数；

2.根据权利要求1所述的一种基于语言的深度学习训练集图像生成方法，其特征在于：所述生成对抗网络GAN的训练过程为：

3.根据权利要求2所述的一种基于语言的深度学习训练集图像生成方法，其特征在于：所述所述语言特征提取模块用于将待生成图像语言序列描述转化为数字序列，再将数字序列转化为特征矩阵，然后利用LSTM网络提取待生成图像语言描序列的特征，包括以下步骤：

步骤二、将步骤一获得的数字序列转化为特征矩阵；

4.根据权利要求3所述的一种基于语言的深度学习训练集图像生成方法，其特征在于：所述生成器的训练过程中输入数据包括：随机的图像输入和来自于语言特征提取模块提取的待生成图像语言描序列的特征。

5.根据权利要求4所述的一种基于语言的深度学习训练集图像生成方法，其特征在于：所述判别器的输入数据，通过以下方式获得：

首先，将待生成图像语言描述序列特征1*2400的矩阵转化为1*128的矩阵，并将1*128的矩阵的参数与随机输入的图像的参数相叠加；

然后，将叠加后的参数通过转置卷积、Batch Normalization、relu计算获取一个64*64*3图像特征矩阵；

最后，获取64*64*3图像特征矩阵参数数据，所述64*64*3图像参数数据即是判别器的输入数据。

6.根据权利要求5所述的一种基于语言的深度学习训练集图像生成方法，其特征在于：所述将待生成图像语言描序列的特征包括：句子特征和单词特征。

7.根据权利要求6所述的一种基于语言的深度学习训练集图像生成方法，其特征在于：所述句子特征和单词特征的维度均为256维。

8.根据权利要求7所述的一种基于语言的深度学习训练集图像生成方法，其特征在于：所述将将待生成图像语言描述序列特征1*2400的矩阵转化为1*128的矩阵采用奇异值分解方法。

9.根据权利要求8所述的一种基于语言的深度学习训练集图像生成方法，其特征在于：所述随机输入的图像与1*128的矩阵维度相同。