CN107886169A

CN107886169A - 一种基于文本‑图像生成对抗网络模型的多尺度卷积核方法

Info

Publication number: CN107886169A
Application number: CN201711124737.4A
Authority: CN
Inventors: 周智恒; 李立军; 黄俊楚
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-04-06
Anticipated expiration: 2037-11-14
Also published as: CN107886169B

Abstract

本发明公开了一种基于文本‑图像生成对抗网络模型的多尺度卷积核方法，包括以下步骤：S1、构造文本‑图像生成对抗网络模型；S2、利用深度卷积神经网络充当生成器、判别器的功能；S3、对文本进行编码之后与随机噪声结合，输入至生成器中；S4、在文本‑图像生成对抗网络模型中利用多尺度卷积对图像进行卷积操作；S5、将多尺度卷积操作得到的损失函数输入生成器进行后续训练。本方法构建的文本‑图像生成对抗网络模型，通过多尺度卷积改变判别器、生成器接收图片后的卷积方式，从原来的针对单层图像通道只使用1个卷积核的操作转变为同时采用多个卷积核，使得整个网络能够在对单层图像通道卷积时学习到更多特征，提高了网络训练的效率。

Description

一种基于文本-图像生成对抗网络模型的多尺度卷积核方法

技术领域

本发明涉及深度学习神经网络技术领域，具体涉及一种基于文本-图像生成对抗网络模型的多尺度卷积核方法。

背景技术

生成式对抗网络(Generative Adversarial Network,简称GAN)是由Goodfellow在2014年提出的深度学习框架，它基于“博奕论”的思想，构造生成器(generator)和判别器(discriminator)两种模型，前者通过输入(0，1)的均匀噪声或高斯随机噪声生成图像，后者对输入的图像进行判别，确定是来自数据集的图像还是由生成器产生的图像。

在传统的对抗网络模型中，判别器、生成器接收图片后的卷积方式，原来针对单层图像通道只使用1个卷积核，这使得网络在训练过程中学习特征的速度较为缓慢，针对每一层图像通道只能学习到一种特征。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，构建了一种基于文本-图像生成对抗网络模型的多尺度卷积核方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于文本-图像生成对抗网络模型的多尺度卷积核方法，所述模型包括下列步骤：

S1、构造文本-图像生成对抗网络模型，生成器通过生成图像输入至判别器进行网络训练；

S2、利用深度卷积神经网络充当生成器、判别器的功能；

在本发明所涉及到的网络模型中，相对于传统的生成对抗网络模型，多了对于文本内容的编码操作，从而使整个网络能够生成符合文本描述内容的图像。

S3、对文本进行编码之后与随机噪声结合，输入至生成器中；

S4、在文本-图像生成对抗网络模型中利用多尺度卷积对图像进行卷积操作；

S5、将多尺度卷积操作得到的损失函数输入生成器进行后续训练。

进一步地，所述的步骤S2具体如下：

构造多个卷积核，不同的卷积核，代表着在学习的过程中，能够学习到不同的图像特征。

进一步地，所述的步骤S4中在文本-图像生成对抗网络模型中利用多尺度卷积对图像进行卷积操作，具体过程如下：

S41、构造多个不同数值但大小相同的卷积核；

S42、采用已构造的卷积核，分别对生成器生成的多张图像进行卷积，从而得到多张特征图。

进一步地，所述的步骤S5中，将多尺度卷积操作得到的损失函数输入生成器进行后续训练。具体过程如下：

S51、对S4中卷积之后的特征图，输入判别器进行判别；

S52、将多尺度卷积操作得到的损失函数输入生成器进行后续训练；

S53、将所有损失函数的均值输入至生成器中继续进行训练。

进一步地，所述的损失函数的表达式为：

其中，D(x)表示判别器对图像的判别，pr表示数据集图像的分布，pg表示生成图像的分布，λ为超参数，为梯度，E为取均值的操作符号。

本发明相对于现有技术具有如下的优点及效果：

针对性：本发明根据多尺度卷积的操作过程，设置构造了多个多尺度卷积核，改变了判别器、生成器接收图片后的卷积方式，从原来的针对单层图像通道只使用1个卷积核的操作转变为同时采用多个卷积核的处理方式，从而使得整个网络能够在对单层图像通道卷积时学习到更多的特征，提高了网络训练的效率。

附图说明

图1是本发明中公开的基于文本-图像生成对抗网络模型的多尺度卷积核方法的训练流程图；

图2是本发明中对单层图像进行多尺度卷积的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种基于文本-图像生成对抗网络模型的多尺度卷积核方法，具体包括下列步骤：

步骤S1、构造文本-图像生成对抗网络模型，生成器通过生成图像输入至判别器进行网络训练。

步骤S2、利用深度卷积神经网络充当生成器、判别器的功能；

不同的卷积核，体现在矩阵数值的不同、行列数的不同。

构造多个卷积核，在处理图像的过程中，不同的卷积核意味着能够在网络训练的过程中学习到生成图像的不同特征。

在传统对抗网络的模型中，判别器和生成器所用到的卷积核都是固定大小且数值一致的，在这种情况下的训练效率相对较低，而且学习到的图像特征范围相对较小。而在本发明中，利用多尺度卷积，对原始卷积核进行中间插“0”的操作，从而增大了卷积核所能学习到的特征范围，进一步提高了整个网络学习的效率。

在实际应用中，应该根据数据集图像特征的复杂程度，设置卷积核的个数。

步骤S3、对文本进行编码之后随机噪声结合，输入至生成器中。

步骤S4、在文本-图像生成对抗网络模型中利用多尺度卷积对图像进行卷积操作。

具体方法如下：

S41、构造多个不同数值但大小相同的卷积核；

S42、针对同一层图像通道，利用多个卷积核同时对图像进行卷积。

步骤S5、将多尺度卷积操作得到的损失函数输入生成器进行后续训练。具体过程如下：

S51、将步骤S4中卷积之后的特征图，输入判别器进行判别；

S53、将所有损失函数的均值输入至生成器中继续进行训练。

损失函数的作用是衡量判别器对生成图像判断的能力。损失函数的值越小，说明在当前迭代中，判别器能够有较好的性能辨别生成器的生成图像；反之则说明判别器的性能较差。

损失函数的表达式为：

其中，D(x)表示判别器对图像的判别，pr表示数据集图像的分布，pg表示生成图像的分布，λ为超参数，为梯度。

综上所述，本实施例公开了一种基于文本-图像生成对抗网络模型的多尺度卷积核方法，相比于传统的原始对抗网络模型，改变了判别器接收图片后的对图像特征进行学习的方式，本发明改变了判别器、生成器接收图片后的卷积方式，从原来的针对单层图像通道只使用1个卷积核的操作转变为同时采用多个卷积核的处理方式，从而使得整个网络能够在对单层图像通道卷积时学习到更多的特征，提高了网络训练的效率。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于文本-图像生成对抗网络模型的多尺度卷积核方法，其特征在于，所述的多尺度卷积核方法包括下列步骤：

S2、利用深度卷积神经网络充当生成器、判别器的功能；

2.根据权利要求1所述的一种基于文本-图像生成对抗网络模型的多尺度卷积核方法，其特征在于，所述的步骤S4具体过程如下：

S41、构造多个不同数值但大小相同的卷积核；

S42、利用多尺度卷积对卷积核进行改造，输入网络进行训练。

3.根据权利要求1所述的一种基于文本-图像生成对抗网络模型的多尺度卷积核方法，其特征在于，所述的步骤S5具体过程如下：

S51、将多尺度卷积操作之后得到的图像特征图，输入判别器中进行判别；

S52、将多尺度卷积操作之后得到的损失函数输入生成器进行后续训练；

S53、将所有损失函数的均值输入至生成器中继续进行训练。

4.根据权利要求3所述的一种基于文本-图像生成对抗网络模型的多尺度卷积核方法，其特征在于，所述的损失函数的表达式为：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msub> <mi>E</mi> <mrow> <mi>x</mi> <mo>~</mo> <mi>p</mi> <mi>r</mi> </mrow> </msub> <mo>&lsqb;</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>+</mo> <msub> <mi>E</mi> <mrow> <mi>x</mi> <mo>~</mo> <mi>p</mi> <mi>g</mi> </mrow> </msub> <mo>&lsqb;</mo> <mi>D</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>+</mo> <msub> <mi>&lambda;E</mi> <mrow> <mi>x</mi> <mo>~</mo> <mi>X</mi> </mrow> </msub> <msub> <mo>&dtri;</mo> <mi>x</mi> </msub> </mrow>