CN113554040A

CN113554040A - 一种基于条件生成对抗网络的图像描述方法、装置设备

Info

Publication number: CN113554040A
Application number: CN202111043822.4A
Authority: CN
Inventors: 吴小锋; 冯菲荣; 杨小宝; 王燕平
Original assignee: Xian Jiaotong University; Xian University of Posts and Telecommunications
Current assignee: Xian Jiaotong University; Xian University of Posts and Telecommunications
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-10-26
Anticipated expiration: 2041-09-07
Also published as: CN113554040B

Abstract

本发明公开了一种基于条件生成对抗网络的图像描述方法、装置和设备，该方法包括：获取图像信息；采用EfficientNet网络对图像信息进行编码，获得图像特征向量；以及采用3层Transformer模型对图像特征向量进行解码，获得生成图像描述；将生成图像描述输入生成对抗网络GANs的判别器中，获得真实图像描述。为了降低模型的复杂度，加快生成效率，编码部分使用EfficientNet‑B0网络对图像信息进行编码处理；解码部分使用3层Transformer模型对图像信息进行解码，生成对应图像描述，借助其本身的多头注意力的特点，得到了更丰富的语义信息，由于其本身的6层模型过于复杂，将其降为3层，降低了模型本身的复杂度。

Description

一种基于条件生成对抗网络的图像描述方法、装置设备

技术领域

本发明涉及图像描述领域，特别涉及一种基于条件生成对抗网络的高效图像描述方法。

背景技术

图像描述为图像提供自然语言描述的任务、位于计算机视觉和自然语言处理的交叉点。由于这两个研究领域都非常活跃，并经历了许多最新的进展，图像描述的进展自然也随之而来。该任务主要应用在儿童早教，盲人导航，图像检索，生物医学等领域。图像描述对于人类来说非常容易，但是对于机器却非常具有挑战性。机器不仅需要掌握多种计算机视觉语义识别技术，例如物体识别、场景识别、属性和关系检测等，同时还需要将所有检测的结果总结为一个自然语言表述的句子。与机器翻译相类似，图像描述是基于Encoder-Decoder框架，先对图像信息进行编码，得到图像特征，进一步解码为描述文本。在该任务中，编码部分选用卷积神经网络(CNN)，解码部分选用循环神经网络(RNN)。

但是，传统的RNN容易出现长句子信息丢失，为解决此问题，出现了RNN的变体长短期记忆网络(LSTM)和门控循环单元(GRU)，它们可以有效缓解长句子依赖问题。在此基础上，O.Vinyals等人首次将机器翻译的基础Encoder-Decoder框架应用在图像描述中，大大地提高了描述文本的质量。为了使机器描述更符合人类描述，有关注性的解码图像信息，K.Xu等人首次将注意力机制引入图像描述，得到了更符合人类表达，与图像内容匹配的文本描述。尽管现有模型可以生成流利和视觉匹配的图像描述，但却存在着缺乏多样性，模型复杂问题等问题。近几年，随着生成对抗网络(GANs)在文本生成中的广泛应用，研究者们也将条件生成对抗网络(CGAN)引入图像描述。GANs包含两个网络：生成器G和判别器D。生成器的目标是学习真实样本的分布，从而生成与真实样本集无法区分的多样化数据，骗过判别器。判别器的目的是判断数据是真实数据还是由生成器生成的假数据。在对抗学习过程中，旨在不断提高生成器的学习能力和判别器的判别能力。CGAN是GANs的变体，其原理是在原本GANs的生成器和判别器中输入部分添加入了一个额外条件y(条件可以是任何指导信息，例如类别标签，图像等)，可以指导数据生成，得到有条件相关的输出。此方法改善了生成文本死板，缺乏多样性的问题。虽然生成句子的效果有所改善，但也加剧了模型的复杂性。为了改善此问题，需要提出一种基于条件生成对抗网络的高效图像描述方法，降低模型复杂度，提高模型生成描述的效率。

发明内容

基于此，有必要针对上述技术问题，提供一种基于条件生成对抗网络的图像描述方法、装置和计算机设备。

本发明实施例提供一种基于条件生成对抗网络的图像描述方法，包括：

获取图像信息；

采用EfficientNet网络对图像信息进行编码，获得图像特征向量；以及采用3层Transformer模型对图像特征向量进行解码，获得生成图像描述；其中，EfficientNet网络和3层Transformer模型为生成对抗网络GANs的生成器；

将生成图像描述输入生成对抗网络GANs的判别器中，获得真实图像描述。

一个具体实施例中，所述EfficientNet网络采用EfficientNet-B0基线网络。

一个具体实施例中，所述采用3层Transformer模型对图像特征向量进行解码，获得生成图像描述，具体包括：

将词嵌入向量和位置编码向量相加依次输入至3层Transformer模型的解码堆叠头和多头掩码注意力模块中，多头掩码注意力模块的输出经过残差连接和层归一化处理，输入编解码注意力中，编解码注意力输出输入前馈网络，获得解码堆叠层的输出；

将解码堆叠层的输出经过全连接层、Softmax层，并选取最大概率值对应的单词索引和单词；

根据单词序列，确定生成图像描述。

一个具体实施例中，所述多头掩码注意力模块的基础为多个缩放点积注意力Scaled Dot-ProductAttention的合并，每个头表示一个缩放点积注意力Scaled Dot-ProductAttention。

一个具体实施例中，所述前馈网络包括：两个全连接层和RELU激活函数。

一个具体实施例中，一种基于条件生成对抗网络的图像描述方法，还包括：采用贪婪搜索，选取最大概率值对应的单词索引。

一个具体实施例中，一种基于条件生成对抗网络的图像描述方法，还包括：对生成对抗网络GANs的生成器进行训练，其具体为：

将图像信息和随机噪声输入至EfficientNet网络中，获得图像特征向量；

将图像特征向量和随机噪声转换为同一维度至输入3层Transformer模型，获得生成描述。

一个具体实施例中，一种基于条件生成对抗网络的图像描述方法，还包括：对生成对抗网络GANs的判别器进行训练，其具体为：

将图像特征向量、真实描述、生成描述和错误描述输入至判别器中，计算图像特征和各描述的相似度，并分别打分；

利用生成描述所得的奖励reward，更新生成器。

一种基于条件生成对抗网络的图像描述装置，包括：

图像信息获取模块，用于获取图像信息；

生成图像描述确定模块，用于采用EfficientNet网络对图像信息进行编码，获得图像特征向量；以及采用3层Transformer模型对图像特征向量进行解码，获得生成图像描述；其中，EfficientNet网络和3层Transformer模型为生成对抗网络GANs的生成器；

真实图像描述确定模块，用于将生成图像描述输入生成对抗网络GANs的判别器中，获得真实图像描述。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取图像信息；

本发明实施例提供的上述基于条件生成对抗网络的图像描述方法，与现有技术相比，其有益效果如下：

本发明旨在解决图像描述中模型复杂，生成效率较低的问题，对此提出了一种基于条件生成对抗网络的高效图像描述方法，在编码和解码部分，分别利用EfficientNet和Transformer高效模型。具体地，对于图像描述任务而言，编码器和解码器的设计和选择对任务整体的描述效果至关重要。为了降低模型的复杂度，加快生成效率。编码部分，使用EfficientNet-B0网络对图像信息进行编码处理，相比其他网络，该基线网络参数量大大减少。解码部分，使用3层Transformer模型对图像信息进行解码，生成对应图像描述，借助其本身的多头注意力的特点，相比RNN，得到了更丰富的语义信息，由于其本身的6层模型过于复杂，将其降为3层，降低了模型本身的复杂度。以上的网络组合，可以使图像描述在生成描述中得到更丰富的语义信息，从而生成更加流畅、自然、多样化的描述，使得模型更加高效。

附图说明

图1为一个实施例中提供的一种基于条件生成对抗网络生成图像描述的训练框架；

图2为一个实施例中提供的生成器和判别器内部训练流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图像描述是一个复杂的将视觉信息转换为文本信息的跨模态任务。在近几年取得了巨大进步，但生成句子依然缺乏多样性和自然性。因此研究者将GANs引入其中，生成句子的效果有所改善，但也加剧了模型的复杂性。为了改善此问题，本发明探索了一种基于条件生成对抗网络的高效图像描述方法，分别在编码和解码部分引入高效模型，在保证准确率的前提下，提高了生成描述的多样性和高效性。

本发明一个实施例中提供的一种条件生成对抗网络的图像描述方法，该方法(即图像描述Image caption的高效编解码方案)具体包括：

本发明引入了一种基于条件生成对抗网络生成图像描述的训练框架，编码器使用“EfficientNet”网络，解码器使用基本的并行语言生成模型“Transformer”。为了体现模型高效性，需要与基线模型(编码器为“ResNet-152”网络，解码器为“LSTM”网络)进行对比。

如图1所示，该框架中主要包括一个生成器G和一个判别器D。对于生成器，它由EfficientNet+Transformer组合而成，其输入由两部分组成：图像和随机噪声z(用于提高生成文本多样性)，利用EfficientNet处理图像得到对应特征向量，并利用嵌入层对z进行处理，将两者转换为同一维度，共同输入Transformer进行解码。对于判别器，它的输入由四部分组成：图像特征向量，真实描述，生成描述(假的描述)和错误描述，将其传入判别器中，计算图像特征和各描述的相似度，对其打分，且利用生成描述所得的reward，更新生成器。生成文本是一个离散的过程，无法反向传播梯度，因此使用策略梯度的奖惩机制思想帮助生成器更新。解码时是一个词一个词解码，然而判别器只能对完整句子进行打分，为了得到生成当前词的reward，采用蒙特卡罗搜索(Rollout)对现状态生成的部分句子进行补全，再将其送进判别器进行打分，指导生成器更新。

如图2是生成器和判别器内部训练流程图，在生成器G部分，输入一张图片，利用轻量级的高效特征提取器EfficientNet编码得到图像特征向量f(I)，

经过Swish激活函数(提高网络非线性能力)对其进一步处理，最后将特征向量与随机噪声z按列拼接，并且将真实描述传给Transformer进一步高效解码，将最终输出经过全连接层，softmax层得到最大概率值，寻找最大概率值对应的索引号，进一步找出对应单词，得到最终描述。在判别器D部分，利用LSTM中对三种描述进行编码，将得到的文本向量与图像特征进行矩阵点乘，计算相似度，经过Sigmoid函数得到对应奖励值，利用奖励进一步指导更新生成器。其中真实描述与错误描述的传入目的在于能够更好地训练提高判别器的判别能力。

在编码部分，受资源配置影响，使用EfficientNet-B0基线网络，在参数量方面EfficientNet-B0远少于ResNet-152，达到了轻量，高效的效果。但在准确率方面，EfficientNet-B0稍微落后ResNet-152。如果内存资源和机器配置较高，也可以选用EfficientNetB1-B7，会得到更高的准确率，较低的参数量和丰富的图像信息。

在解码部分，为了保证模型的轻量和高效，将原有的6层Transformer减为3层，进行解码，且只使用其Decoder部分，单个解码堆叠层由三个主要模块；多头掩码注意力模块，编解码注意模块和前馈网络模块组成。

首先，利用词嵌入层(即为对原始句子的向量表达)对真实描述进行编码处理。由于摒弃了CNN和RNN结构，无法很好的利用序列的顺序信息，因此Transformer采用了额外的一个位置编码，给词向量中赋予了单词的位置信息，将词嵌入向量(图像特征向量)和位置编码向量相加输入单个解码堆叠层中，进行解码处理。

其次，将真实描述传入第一个解码堆叠头，依次经过三个主要模块及残差连接和层归一化处理。多头掩码注意力的基础为多个Scaled Dot-Product Attention的合并，每个头表示一个ScaledDot-ProductAttention。对于一个序列，在t时刻，解码输出应该只能依赖于t时刻之前的输出，而不能依赖t之后的输出，因此要把t之后的信息给隐藏起来，此时需要对输入进行一些处理，该处理被称为掩码(Mask)。与单一注意力相比，多头掩码注意力可以在不同位置学习不同的表征子空间，得到更丰富的文本信息。在这里用八个头(h＝8)来关注文本信息，同理需要找到8组Q和K的相关关系，与各自V进行点乘(Q＝XW_Q,K＝XW_K,V＝XW_V，序列X＝{x₁，x₂.....x_N}，由N个单词组成，表示输入句子的词嵌入矩阵，W_Q,W_K,W_V是需要学习的模型权重参数)，紧接着将多个结果拼在一起，得到输出。经过残差连接和层归一化处理，输进编解码注意力中，Q来自下层的输出，而K和V来自经过Swish激活函数处理的图像特征向量。经过一系列重复操作，传入前馈网络。前馈网络由两个全连接层和RELU激活函数组成，用于提高网络的非线性能力。对于解码器层2到3，使用前一个解码器层的输出作为当前层的输入。

最后，将最终解码堆叠层经过全连接层，Softmax层，选取最大概率值得到对应单词索引，进一步得到该时刻单词。

在解码部分，Transformer与LSTM相同，它们都需要前一时刻输出作为此刻输入，且使用贪婪搜索来选择具有最高概率的索引。在Transformer中，根据输入序列X和当前生成的部分序列Y_1:t-1得到下一状态的部分序列Y_t，重复上述一系列操作，便生成了图像描述。

一个实施例中，提供的一种基于条件生成对抗网络的图像描述装置，该装置包括：

图像信息获取模块，用于获取图像信息。

生成图像描述确定模块，用于采用EfficientNet网络对图像信息进行编码，获得图像特征向量；以及采用3层Transformer模型对图像特征向量进行解码，获得生成图像描述；其中，EfficientNet网络和3层Transformer模型为生成对抗网络GANs的生成器。

关于基于条件生成对抗网络的图像描述装置的具体限定可以参见上文中对于基于条件生成对抗网络的图像描述方法的限定，在此不再赘述。上述基于条件生成对抗网络的图像描述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

一个实施例中，提供的一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取图像信息。

采用EfficientNet网络对图像信息进行编码，获得图像特征向量；以及采用3层Transformer模型对图像特征向量进行解码，获得生成图像描述；其中，EfficientNet网络和3层Transformer模型为生成对抗网络GANs的生成器。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。还有，以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于条件生成对抗网络的图像描述方法，其特征在于，包括：

获取图像信息；

2.如权利要求1所述的基于条件生成对抗网络的图像描述方法，其特征在于，所述EfficientNet网络采用EfficientNet-B0基线网络。

3.如权利要求1所述的基于条件生成对抗网络的图像描述方法，其特征在于，所述采用3层Transformer模型对图像特征向量进行解码，获得生成图像描述，具体包括：

根据单词序列，确定生成图像描述。

4.如权利要求3所述的基于条件生成对抗网络的图像描述方法，其特征在于，所述多头掩码注意力模块的基础为多个缩放点积注意力Scaled Dot-Product Attention的合并，每个头表示一个缩放点积注意力Scaled Dot-ProductAttention。

5.如权利要求3所述的基于条件生成对抗网络的图像描述方法，其特征在于，所述前馈网络包括：两个全连接层和RELU激活函数。

6.如权利要求3所述的基于条件生成对抗网络的图像描述方法，其特征在于，还包括：采用贪婪搜索，选取最大概率值对应的单词索引。

7.如权利要求1所述的基于条件生成对抗网络的图像描述方法，其特征在于，还包括：对生成对抗网络GANs的生成器进行训练，其具体为：

8.如权利要求1所述的基于条件生成对抗网络的图像描述方法，其特征在于，还包括：对生成对抗网络GANs的判别器进行训练，其具体为：

利用生成描述所得的奖励reward，更新生成器。

9.一种基于条件生成对抗网络的图像描述装置，其特征在于，包括：

图像信息获取模块，用于获取图像信息；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～8中任一项所述的方法的步骤。