CN107392147A

CN107392147A - 一种基于改进的生成式对抗网络的图像语句转换方法

Info

Publication number: CN107392147A
Application number: CN201710598010.3A
Authority: CN
Inventors: 蔡强; 薛子育; 毛典辉; 李海生; 祝晓斌
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2017-11-24

Abstract

本发明提供一种基于改进的生成式对抗网络的图像语句转换方法，本发明的目的是在图像语句转换过程中，获得更符合人类表述习惯的语句。本发明包括：利用基于区域的卷积神经网络根据图像分割成的区域进行显著性检测，产生各个区域的；将词汇向量输入到生成式对抗网络的生成器当中，利用生成器将词汇拼接成句子；将生成语句输入到生成式对抗网络的鉴别器当中，鉴别器通过比较语料库和生成语句的距离，不断否定距离大的语句，输出距离最小的语句；不断训练模型，确定模型参数，使模型趋于稳定后停止训练，并将测试图像进行输入，对模型进行测试。

Description

一种基于改进的生成式对抗网络的图像语句转换方法

技术领域

本发明总的涉及图像识别技术和句法生成技术领域，具体涉及一种基于改进的生成式对抗网络的图像语句转换方法。

背景技术

随着科技的发展，互联网的普及给人们带来了巨大的信息资源。文字信息是互联网发展初期的主要途径，相比文字信息的单一性，图像和视频等多媒体信息，富含有更多的知识，是一种更为清晰的、更符合人类理解方式的信息载体。随着计算机存储空间和计算效率的不断提升，图像、音频、视频等各类信息大量涌现于各类网站之中，并以惊人的速度迅猛增长。Instagram等应用软件单日图片共享量高达8000万幅，并将逐年成倍增加。

随着多媒体数据逐渐成为互联网中的主要信息载体，难题随之出现。当信息由文字记载时，可以通过关键词搜索，轻易找到所需内容并进行任意编辑，而当信息是由多媒体数据记载时，将无法对数据中的内容进行检索，从而影响了从数据中找到关键内容的效率。多媒体数据在带来快捷的信息记录和分享方式的同时，降低了信息检索效率。多媒体数据含有丰富的语义知识，随着信息数量和种类的不断扩大，获取多媒体数据的语义知识，形成“数据-知识”相互驱动的体系逐渐成为了研究重点。

图像语义分析是一种以图像为对象，知识为核心，研究图像中目标的位置信息、场景之间相互关系以及场景应用的一门科学。图像语义分析输入的是数据，输出的是知识，语义作为知识信息的基本描述载体，能将完整的图像内容转换成可直观理解的类文本语言表达，在图像理解中起着至关重要的作用。图像语义分析在图像搜索引擎、智能数字图像相册、虚拟世界视觉场景描述等方面有广阔的发展前景。流行的图像语义分析算法主要包括了基于图像分类、基于图像词语转换、基于图像句子转换等。

传统的基于图像分类的语义分析主要分为三个步骤，首先提取图像低层特征，如尺度不变特征变换等算法，然后对特征进行编码表示，最后利用分类器，如支持向量机等方法，对图像进行分类，类别信息即为图像语义信息。

随着大数据时代的到来，传统图像语义分析方法问题逐渐暴露出来。为顺应大数据发展趋势，如斯坦福大学提出的ImageNet等大规模图像数据集先后发出，并且相关人员都在不断地扩充该图像集。相比传统数据集，大规模图像数据集在图像数据规模、类别数量上都有了极大程度上的增加，传统图像文字转换算法中广为使用的多特征和非线性分类器算法和策略，算法具有的高计算强度和高内存消耗等问题，使其无法适应大数据带来的冲击。因此，传统算法逐渐向深度模型进行转变。百度研究院的余凯在2012年的计算机视觉与模式识别会议中提出，这种转变好比“设计特征到设计特征的学习方法”的转变。相比传统方法，深度模型不再需要人工提取特征。引入深度模型极大地减少了人工提取特征产生的消耗性问题，将更多的工作放到了算法的设计本身，在很大程度上提升了算法的效率。

图像文字转换方法大多利用深度模型进行图像特征提取和句法生成。基于区域的卷积神经网络被广泛应用于图像的特征提取，方法通过对区域进行划分，获取到区域内容，并通过文字进行描述获取特征，并输入到句法模型，进行句法生成。递归神经网络是句法生成的常用深度模型，方法设计思路来自于基于多层反馈网络的翻译机器，该翻译机器通过译码器读取源语言的句子，将其转变为固定长度的向量，通过解码器将向量输入到隐层，产生目标语言的句子。方法利用将特征向量进行输入，利用解码器进行句子分析。以上方法进行的句子转换结果单一，不能将特征向量之间的内在关系进行分析，语句输出结果与实际表述存在一定偏差。

针对以上问题，使用更符合人类表达习惯的句法模型是图像句子转换方法中的重要部分。生成式对抗网络，是一种利用生成器和鉴别器彼此“欺骗”和“否定”，最终产生合理结果的方法。该方法利用生成器不断地产生利用特征向量进行不同组合的结果，同时鉴别器不断地鉴别生成结果和语料库中结果的差别，直到生成结果和语料库中的句子几乎一致，则将该生成结果进行输出。生成式对抗网络被应用在图像生成、目标检测、目标分割等领域，生成器大多利用卷积神经网络进行图像生成。据了解，还没有机构和组织利用长短时记忆模型作为生成式对抗网络的生成器和鉴别器，并将该方法与基于区域的卷积神经网络相结合，进行图像句子转换的方法和先例。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于改进的生成式对抗网络的图像结合转换方法，以采用具有生成和鉴别能力的句法模型来解决图像句子转换中句子表述不连贯的问题。

本发明技术解决方案：一种基于改进的生成式对抗网络的图像语句转换方法，本发明的目的是在图像语句转换过程中，获得更符合人类表述习惯的语句。本发明包括：利用基于区域的卷积神经网络根据图像分割成的区域进行显著性检测，产生各个区域的；将词汇向量输入到生成式对抗网络的生成器当中，利用生成器将词汇拼接成句子；将生成语句输入到生成式对抗网络的鉴别器当中，鉴别器通过比较语料库和生成语句的距离，不断否定距离大的语句，输出距离最小的语句；不断训练模型，确定模型参数，使模型趋于稳定后停止训练，并将测试图像进行输入，对模型进行测试。

具体步骤如下：

(1)利用基于区域的卷积神经网络对图像进行显著性检测，对检测部分进行分析，产生词向量；

(2)利用生成式对抗网络中的生成器对步骤(1)中产生的词向量进行拼接，所述生成器利用两个长短时记忆模型，即句子模型和词汇模型，句子模型根据词向量不断生成句子；词汇模型将根据语境优化句子中的单词，使之更符合人类的表达习惯；

(3)利用生成式对抗网络中的鉴别器对步骤(2)生成的句子进行结构分析，同时学习语料库中的对比语句，对生成语句中的词汇与语料库语句中的词汇一一检查，利用欧氏距离计算词汇相似程度，使得该相似度计算值满足设定阈值，则所生成语句通过混淆鉴别器，获得了输出语句；

(4)利用步骤(2)中的生成器和步骤(3)中的鉴别器形成生成式对抗网络，沿着梯度下降最快的方向，在避免梯度消失的基础上对网络进行训练，通过在生成器训练过程中设置检测点，使生成器生成的语句，足以蒙骗鉴别器的鉴别效果，将所述语句进行输出。

在步骤(1)中基于区域的卷积神经网络对图像进行显著性检测所涉及的计算方式为：

其中，θ_C是CNN模型的参数，W_M是h×4096维的矩阵，h是多通道嵌入空间的大小，I_p表示图像的像素点；

输入的每张图像转换成具有N个词的序列，用编码为h维的向量，对图像中出现的各个显著性区域对应产生词向量。

在步骤2生成式对抗网络中的生成器所涉及的计算方式为：

其中，W_hi，W_hx，W_hh，W_oh，x_i以及b_h，b_o都是需要学习的参数，是所有网络的最后一层，y_t是生成器输出尽可能接近语料库中句子分布的句子；

该过程利用句子模型和词汇模型将利用CNN模型提取出的向量生成的经过优化的句子，作为鉴别器的输入。

在步骤4生成式对抗网络生成器和鉴别器的训练过程中所涉及的计算公式为：

其中，GAN的目标函数为是语料库中句子的子集，S，S_1:t是CNN模型的参数，W_M是h×4096维的矩阵(h是多通道嵌入空间的大小)，I_p表示图像的像素点，E(·)表示计算期望值，每张图像转换成具有N个词的序列，可以用编码为h维的向量；

在训练过程中，生成器G的目标就是尽量生成与原始数据接近的结果去欺骗鉴别器D；而D的目标就是尽量把G生成的结果和真实数据区分开来，直到生成器和鉴别器达到平衡输出分布接近真实语料库的句子，生成器的目标计算方式为：

其中，γ为平衡参数实现时一般设置为接近0的值，生成式对抗网络的优化过程依赖于生成器与语料库语句中的词汇进行检查利用欧氏距离计算词汇相似程度，使得该距离满足设定阈值，则所生成语句通过混淆鉴别器。

本发明与现有技术相比的优点在于：

(1)相比现有技术，本发明训练更鲁棒的特征提取模型，利用基于区域的卷积神经网络对图像进行特征提取，可以利用不同的卷积、池化和最后输出的特征向量的大小控制整体模型的拟合能力。在过拟合时可以降低特征向量的维数，在欠拟合时可以提高卷积层的输出维数。相比于其他特征提取方法更加灵活，可以产生更加符合人类习惯的语句。

(2)相比现有技术，本发明训练更平滑的句法模型：对递归神经网络的调优和替换，使该网络可以获得更通顺、更合乎情理的语句。

附图说明

图1是根据本发明进行图像文字转换的整体结果示意图；

图2是根据本发明改进的生成式对抗网络图文转换方法的结构示意图；

图3是根据本发明生成式对抗网络中生成器的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行描述。其中图1描述了基于改进的生成式对抗网络的图像语句转换过程。

如图1所示，本发明包括以下步骤：

(1)输入图像，利用基于区域的卷积神经网络对图像进行特征提取，依据该方法，可将图像的显著位置作为区块，并通过特征向量，获取该区块的含义和词汇向量。该步骤最终获取特征为词汇向量。

(2)将词汇向量输入到生成式对抗网络的生成器当中，生成器由长短时记忆模型组成，该模型具有记忆元素，按照传播规则对词汇向量做拼接操作，输出多种拼接语句。

(3)将生成的语句传入到生成式对抗网络的鉴别器当中，鉴别器由单层的长短时记忆模型构成。鉴别器根据传入语句与语料库中的例句进行对比训练，根据名词、动词、代词等结构进行距离判断，选择近似程度最高的语句进行记录。

(4)按照以上方法不断训练网络，调整网络参数，使方法逐渐趋于稳定，获得训练模型。

通过以上的步骤，训练出了一种改进的生成式对抗网络的图像语句转换模型，该模型利用两个深度模型进行图文转换。其中基于区域的卷积神经网络实现了根据图像区域获取词汇和局部短语的显著性检测方法。同时利用两个长短时记忆模型作为生成器和鉴别器构成了一个生成式对抗网络，该网络输入为词汇和局部短语，输出为拼接完整的句子。该过程实现了一种新的利用生成式对抗网络生成语句的方法。

下面结合附图对本发明进行进一步的说明。

(1)基于区域的卷积神经网络主要用于物体检测。方法首先通过选择性搜索获取2000个候选区域，这些区域中包含有所需的物体的包围圈，然后对于每一个区域都处理到固定大小的尺寸，作为卷积神经网络的输入，进行特征提取，以上过程可以得到每个区域的特征图。将特征图用固定长度的特征向量进行表示。对于每一个类别，可以获得多个特征向量，将特征向量作为支持向量机分类器的输入，判断当前实物对应的是实物区域或是背景内容。每个区域获得包含实物类别多少的分数，选择包含实物类别多的，即分数高的区域，利用非极大值抑制算法进行边缘检测，最终获得包围圈。所涉及的计算方式为：

其中，θ_C是CNN模型的参数，W_M是h×4096维的矩阵(h是多通道嵌入空间的大小)，I_p表示图像的像素点。每张图像转换成具有N个词的序列，可以用编码为h维的向量，对图像中出现的各个显著性区域对应产生词向量。

(2)本发明中的生成器由两个长短时记忆模型构成，分为别是语句模型和词汇模型，图2为长短时记忆模型的训练过程，语句模型能够通过词汇向量进行语句拼接；长短时记忆模型通过学习各部分区域语言知识，促进词汇的生成和优化词汇表达含义。生成器利用语句长短时记忆模型，将词汇向量拼接成语句，语句会根据视觉注意力模型获取词汇的位置关系，通过位置关系和词汇向量拼接语句，在词汇向量输入完毕后，句子拼凑过程结束。为获取更有意义的句子，词语是本发明需要调整的内容，本发明将隐藏层进行降维，结合语言注意力模型和语料库，进行比较，以获取更符合语境的词语。文本短语的优化是借助语言注意力模型递归生成词汇，通过对比位置和词汇向量，计算每一个词汇在句子中的贡献，并对贡献较低的词汇进行替换，重复进行此步骤，获取较高的搭配组合，长短时记忆模型中所涉及的计算方式为：

其中，W_hi，W_hx，W_hh，W_oh，x_i以及b_h，b_o都是需要学习的参数，是所有网络的最后一层，y_t是生成器输出尽可能接近语料库中句子分布的句子。该过程利用句子模型和词汇模型将利用CNN模型提取出的向量生成的经过优化的句子，作为鉴别器的输入。

(3)本发明中的鉴别器由一个长短时记忆模型构成，根据自然语言描述特点，用于区分真实语句和合成语句之间的差别。鉴别器由单层的长短是记忆模型组成，以每个单词反复嵌入在句子中作为输入，并产生一个合成的句子，通过评价句子的合理性得分进行真假性判断。该过程由于分散的自然语言模型，导致梯度不能正常的从鉴别器后向传播到生成器。本发明应用最大池操作，避免了梯度不能正常后向传播情况的发生。

(4)本发明根据基于区域的卷积神经网络生成的词汇向量，使生成器不断生成语句，该语句连同语料库进入鉴别器进行比较。鉴别器根据距离最短原则，对与语料库近似语句进行最终输出，生成式对抗网络训练所涉及的计算方式为：

其中，GAN的目标函数为是真正的句子，S，S_1:t是CNN模型的参数，W_M是h×4096维的矩阵(h是多通道嵌入空间的大小)，I_p表示图像的像素点。每张图像转换成具有N个词的序列，可以用编码为h维的向量。在训练过程中，生成器G的目标就是尽量生成与原始数据接近的结果去欺骗鉴别器D；而D的目标就是尽量把G生成的结果和真实数据区分开来，直到生成器和鉴别器达到平衡输出分布接近真实语料库的句子，生成器的计算方式为：

其中，γ为平衡参数实现时一般设置为接近0的值，生成器的优化过程依赖于生成器与语料库语句中的词汇进行检查利用欧氏距离计算词汇相似程度，使得该距离满足设定阈值，则所生成语句通过混淆鉴别器，生成式对抗式网络训练如图3所示。

Claims

1.一种基于改进的生成式对抗网络的图像语句转换方法，其特征在于，包括以下步骤：

(3)利用生成式对抗网络中的鉴别器对步骤(2)生成的句子进行结构分析，同时学习语料库中的对比语句，对生成语句中的词汇与语料库语句中的词汇一一检查，利用欧氏距离计算词汇相似程度即相似度，使得该相似度计算值满足设定阈值，则所生成语句通过混淆鉴别器，获得了输出语句；

2.根据权利要求1所述的基于改进的生成式对抗网络的图像语句转换方法，其特征在于：在步骤(1)中基于区域的卷积神经网络对图像进行显著性检测所涉及的计算方式为：

3.根据权利要求1所述的基于改进的生成式对抗网络的图像语句转换方法，其特征在于：在步骤(2)生成式对抗网络中的生成器中长短时记忆模型所涉及的计算公式为：

<mrow> <msub> <mi>y</mi> <mi>t</mi> </msub> <mo>=</mo> <mi>s</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi> </mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>{</mo> <msub> <mi>W</mi> <mrow> <mi>o</mi> <mi>h</mi> </mrow> </msub> <mo>*</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mrow> <mi>h</mi> <mi>x</mi> </mrow> </msub> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>+</mo> <msub> <mi>W</mi> <mrow> <mi>h</mi> <mi>h</mi> </mrow> </msub> <msub> <mi>h</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>b</mi> <mi>h</mi> </msub> <mo>+</mo> <msub> <mi>W</mi> <mrow> <mi>h</mi> <mi>i</mi> </mrow> </msub> <mo>&lsqb;</mo> <msub> <mi>CNN</mi> <msub> <mi>&theta;</mi> <mi>C</mi> </msub> </msub> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mo>&rsqb;</mo> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>b</mi> <mi>o</mi> </msub> <mo>}</mo> </mrow>

4.根据权利要求1所述的基于改进的生成式对抗网络的图像语句转换方法，其特征在于：在步骤(4)生成式对抗网络生成器和鉴别器的训练过程中所涉及的计算公式为：

其中，GAN的目标函数为是语料库中句子的子集，S，S_1:t是CNN模型的参数，W_M是h×4096维的矩阵,h是多通道嵌入空间的大小，I_p表示图像的像素点，E(·)表示计算期望值，每张图像转换成具有N个词的序列，可以用编码为h维的向量；