CN111159454A

CN111159454A - 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统

Info

Publication number: CN111159454A
Application number: CN201911422324.3A
Authority: CN
Inventors: 陈建海; 李天旭; 季博; 楼智豪; 袁嘉琪; 何钦铭
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-15

Abstract

本发明公开了一种基于Actor‑Critic生成式对抗网络的图片描述生成方法及系统，包括以下步骤：(1)获取已知文本描述的图片并进行预处理，构建训练集；(2)基于生成对抗网络和Actor‑Critic算法搭建目标网络，所述的目标网络包含生成器网络、判别器网络和Critic网络；(3)将训练集中的图片本身及其文本描述输入到目标网络中，对生成器和判别器进行预训练和对抗训练，再采用Actor‑Critic算法对生成器的参数进行单步更新；(4)将需要生成文本描述的目标图片输入到训练好的生成器中，得到该目标图片的文本描述。本发明基于Actor‑Critic算法，采用对抗网络技术，可在给定图像上生成多样化的文本描述。

Description

基于Actor-Critic生成式对抗网络的图片描述生成方法及系统

技术领域

本发明涉及强化学习领域、计算机视觉和自然语言处理领域，尤其涉及一种基于Actor-Critic生成式对抗网络的图片描述生成方法及系统。

背景技术

图像摘要(Image Caption)是计算机视觉的一个重要问题。

在传统的图像摘要任务中，常用的模型就是Encoder-Decoder(编码-解码)模型。一般情况下，Encoder采用卷积神经网络(Convolutional Neural Networks，CNN)提取图像特征，而Decoder采用递归神经网络(Recursive Neural Network，RNN)从图像特征中生成摘要。这是因为CNN在提取图像特征中表现良好，而RNN对输入存在记忆能力，在文本生成方面表现突出。

Qi Wu(Q.Wu，C.Shen，A.van den Hengel，L.Liu，and A.Dick.What Value DoExplicit High-Level Concepts Have in Vision to Language Problems？In CVPR，2016.2)发表的论文中提出，将Decoder的输入从提取图像特征，改成对应图像的高级语义特征，整个模型的表现成都可以提高。因为在此之前的方法并不显式地表示高级语义概念，而是寻求直接从图像特征发展到文本。通过把图像特征替换为高级语义特征，这的确获得了成效。

生成式对抗网络(Generative Adversarial Networks，GAN)是基于零和博弈的一种方法。系统由生成器G和判别器D组成。生成器G致力于伪造逼真的数据去欺骗判别器D，而判别器D则致力于尽可能地正确区分真实数据与生成数据，并输出该数据为真实数据的可能性概率。目前GAN受到广泛关注，在许多领域已经取得不错成果，尤其在图像生成任务方面，GAN因为能生成多样的“真实”图像，而一直难以被其他模型超越。

然而GAN在文本生成方面却遇到了阻碍。这是因为GAN在利用反向传播更新梯度的时候，由于离散数据的生成需要根据概率来采样，而采样过程不可导，这就导致反向传播失去意义。Lantao Yu(L.Yu，W.Zhang，J.Wang，and Y.Yu.Seqgan：Sequence generativeadversarial nets with policy gradient.arXiv preprint arXiv：1609.05473，2016.2)提出的序列生成对抗网络(Sequence Generative Adversarial Nets，SeqGAN)模型解决了这个问题。SeqGAN结合了GAN和策略梯度(Policy Gradient)的强化学习方法使得离散数据也能够在GAN中得到训练。

SeqGAN通过强化学习的方法解决了离散数据的训练问题，为GAN在文本生成领域提供了一套方法，但是诸多的实验结果表明，SeqGAN模型生成的文本质量是粗糙的，远达不到预期。因此，SeqGAN模型本身仍有改进空间。而GAN的提出者Ian GoodFellow在2018年提出了一种叫做MaskGAN的应用于完形填空任务的模型，并取得了不错了实验结果。MaskGAN为进一步提升生成文本的质量指出了方向，其与SeqGAN有两个主要的区别：首先，通过屏蔽序列(Masked Sequence)增加额外的信息使模型成为Seq2Seq的架构；其次，使用了Actor-Critic(演员-评论者)的强化学习方法。作者认为前者可能对于缓解模型崩溃(ModeCollapse)问题有所帮助，而后者则能较好地解决SeqGAN训练不稳定的问题。

发明内容

基于现有文本描述生成模型关注于生成文本的准确度而非多样性，本发明提供了一种基于Actor-Critic生成式对抗网络的图片描述生成方法，采用对抗网络技术在给定图像上生成多样化的文本描述。

具体技术方案如下：

一种基于Actor-Critic生成式对抗网络的图片描述生成方法，包括以下步骤：

(1)获取已知文本描述的图片并进行预处理，构建训练集；

(2)基于生成对抗网络和Actor-Critic算法搭建目标网络，所述的目标网络包含生成器网络、判别器网络和Critic网络；

(3)将训练集中的图片本身及其文本描述输入到目标网络中，对生成器和判别器进行预训练和对抗训练，再采用Actor-Critic算法对生成器的参数进行单步更新；

(4)将需要生成文本描述的目标图片输入到训练好的生成器中，得到该目标图片的文本描述。

本发明利用对抗网络的思想构建了图片生成文本描述的对抗学习网络，使用强化学习思想解决对抗网络在离散文本数据生成上的问题，同时复用生成器作为Actor，并新构建Critic网络来对生成器做单步更新，实现了基于生成式对抗网络实现图片文本描述生成的模型，便于多样性文本的生成，并且有利于生产环境下图片文本描述的大量生产需求。

步骤(1)包括：

(1-1)获取已知文本描述的图片数据集；如COCO数据集(Common Objects inContext)；

(1-2)对数据集中的图片进行图像增强，对文本描述进行数据清洗；

所述的图像增强包括水平随机翻转、亮度调整等；所述的数据清洗是指将单词的单复数形式、时态等删除，保留词根等信息。

(1-3)将处理后的图片和对应的文本描述保存为指定格式的文件，以便后续程序调用和处理。

步骤(2)包括：

(2-1)搭建生成器网络，所述的生成器网络由卷积神经网络、循环神经网络以及一个全连接层组成；

所述的生成器网络以图片作为输入，通过卷积神经网络对输入图片进行高级语义特征提取，循环神经网络以图片的高级语义特征为输入，在时间步上进行扩展，输出隐层状态，通过全连接层后输出句子的词向量；

所述的卷积神经网络采用HCP(Hypotheses-CNN-Pooling)结构，所述的循环神经网络采用长短期记忆网络(Long Short-Term Memory，LSTM)结构；

(2-2)以编码-解码(Encoder-Decoder)模型为模型架构，以长短期记忆网络为网络模型，搭建判别器网络；

所述判别器以真实样本和生成器的生成样本为输入，经过词向量转化(Embedding)、编码-解码，最后通过全连接层输出生成样本为真的概率；

(2-3)搭建Critic网络，所述Critic网络为多层的长短期记忆网络，用以指导生成器网络参数的更新；

所述的Critic网络以state、action作为输入，输出Q值；其中state表示一个状态，即已生成的文本；action表示采取的动作，即从词库中选取的单词；Q(state、action)表示在状态state上采取动作action后所获得的累计奖励和(cumulated reward)。

优选的，生成器网络中语言模型通过以下方法构建：

(a)利用Word2Vec为对数据集中文本描述的每个单词构建词向量，删除出现次数较少的单词，保留出现频繁的单词；

(b)分别将标记性单词<sos>、<eos>添加到句子的开头、结尾，并随机生成标记性单词的词向量；

(c)将Word2Vec构建的词向量和标记性单词的词向量合并，得到语言模型。

优选的，所述的HCP结构中，以VGG网络作为卷积神经网络。

采用HCP提取图片的高级语言特征包括：

(i)采用多尺度组合分组(Multiscale Combinatorial Grouping，MCG)算法将输入图片分割为多个似物性推荐框(Hypotheses)；

(ii)采用归一化切割(Normalized cuts，Ncut)算法对似物性推荐框进行聚类，分为M类；

(iii)在每一类中，按照多尺度组合分组算法给出的预测分数对似物性推荐框进行排序，在M类中各取出分数最高的K个似物性推荐框；

包括原图，最终得到MK+1个图像；

(iv)将得到的MK+1个图像输入到HCP的卷积神经网络中，经过最大池化层(MaxPooling)，最终得到输入图片的高级语言特征。

步骤(3)包括：

(3-1)采用极大似然估计方法(Maximum Likelihood Estimate，MLE)对生成器进行预训练；

(3-2)将训练集中的图片输入预训练好的生成器中，以生成器生成的数据作为假样本，以图片对应的文本描述作为真样本，来预训练判别器；

(3-3)采用Actor-Critic算法对已训练好的生成器和判别器进行对抗训练。

优选的，步骤(3-3)包括：

(3-3a)在一个时间步内，从当前时间步下既有句子利用生成器判断得到对应的下一个单词作为action，而既有句子作为state，拼接既有句子和预测的下一个单词成为新句子作为next state；

生成器通过蒙特卡洛搜索将新句子补全后输入到判别器中，得到当前action的奖励值；

将action、state、next state和reward输入到Critic网络中，计算得到TD error；

(3-3b)将TD error的平方值作为Critic网络的损失值，更新Critic网络；

(3-3c)将TD error作为参数更新梯度回传给生成器网络，并通过梯度上升进行更新参数；

(3-3d)进行下一个时间步。

本发明采用采用Actor-Critic算法对已训练好的生成器和判别器进行对抗训练，在一个句子的每一个token上都能回传梯度进行训练，训练效率更高。

步骤(3-3)还包括使用生成对抗网络中的损失函数计算公式计算判别器的损失值，从而更新该判别器。

根据训练情况更新判别器参数。判别器进行二分类处理，输入为一组真实样本，一组生成的假样本，因此判别器的目标函数即最小化真样本和假样本的交叉熵。通常在进行多次生成器的训练后进行一次判别器的参数更新。

基于当前人工智能技术较少考虑图片描述文本生成的多样性方面，而实际生产有时需要多样性的文本而非单一文本，本发明就通过Actor-Critic等技术来实现并进一步优化了模型。本发明不仅可以实现多样性文本的生成，同时能生成更加合理的描述性文本。

本发明还提供了一种基于Actor-Critic生成式对抗网络的图片文本描述生成系统，包括：

特征提取模块，采用HCP结构，负责提取图片的高级语义特征；

生成模块，通过图片的高级语义特征，输出该图片的文本描述；

判别模块，以生成模块生成的文本描述和输入图片的真实文本描述为输入，判断生成的文本描述为真的概率；

Actor-Critic模块，包括Actor网络和Critic网络，以生成模块为Actor网络，通过Critic网络指导生成模块的更新。

优选的，所述的生成模块采用长短期记忆网络结构；所述的判别模块以编码-解码模型为模型架构，以长短期记忆网络为网络模型；所述的Critic网络为多层的长短期记忆网络。

优选的，所述的HCP结构中，以VGG网络作为卷积神经网络。

与现有技术相比，本发明的有益效果为：

本发明首先利用了对抗网络和强化学习的思想构建了图片文本描述生成的模型，使得单张图片生成多样性的文本成为可能，增加了生成文本的多样性和创意性。此外，本发明利用高级语义特征提取的模型结合预训练图像特征提取模型共同实现单张图像的提取，优化了图像特征提取的结果。最后，本发明提出使用Actor-Critic单步更新策略，为生成器的优化提供更丰富的梯度数据，有利于提高生成器的表现。

附图说明

图1为本发明实施例的图片生成文本描述系统模块架构示意图；

图2为本发明实施例的图片生成文本描述系统的工作流程示意图；

图3为提取高级语义特征的HCP模型示意图；

图4为生成器的网络结构示意图，得到的loss是预训练时的生成器需要减小的对象；

图5为判别器的网络结构示意图，得到的loss是预训练和对抗训练时判别器需要减小的对象；

图6为Actor-Critic生成式对抗网络模型架构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本发明的图片文本描述生成系统的架构如图1所示，包括特征提取模块、生成模块和判别模块以及Actor-Critic模块，其工作流程如图2所示，具体为：在获得数据以后，进行数据处理，包括建立词向量和数据增强等操作，得到后续建立模型所需的数据。将一张图像通过HCP(Hypotheses-CNN-Pooling)特征提取模块提取高级语义特征，用以初始化生成模块来得到文本描述。然后将真实文本和生成文本传至判别模块，判别模块给出反馈回传至生成模块来进行Actor-Critic训练。

(A)特征提取模块，负责提取图像的高级语义特征，其工作流程如图3所示：

(A-1)首先基于COCO数据集的注释文本进行词向量的构建。对词库利用Word2Vec为每个单词构建词向量。窗口的大小可以调整为5左右适合的值。删除出现次数较少的单词，保留频繁的单词。添加<sos>、<eos>等标记性的单词作为句子的开头、结尾等，同时随机生成它们的词向量。将Word2Vec构建的词向量和标记性单词的词向量合并起来，得到语言模型。

从词库当中选择足够数量的具有具体含义的单词，作为属性向量，这些词可以是名词、动词或者形容词等，并且不区分单复数和时态。

(A-2)HCP模型的初始化。首先获取已经训练好的，在图像领域广泛应用的VGG模型，在其最后一层再构建一层神经元个数为256的softmax层，使之能够拟合生成属性向量。至此，VGG仍然是当初用于单标签分类的参数，而多标签分类是有一定区别的，所以我们需要对模型整体参数进行微调。

具体方式为，使用数据集进行多标签分类任务。在这一步我们需要对每一张放入模型的图片重新定义多标签。标签同样是一个维度为C的向量，若原注释当中含有相应维度所对应的描述，则当前维度置1，否则置0。至此，模型只包含CNN和sofmax层(并不包含前缀的Hypotheses结构和后缀的Max Pooling结构)，将一张完整的图片输入到CNN当中，输出获取到属性向量。在这里，损失函数使用element-wise logistic loss函数，然后进行梯度更新，优化参数。训练持续到能够输出正确的结果为止。

(A-3)在这一步，在CNN的前后分别加上Hypotheses结构和Pooling结构。Hypotheses结构负责进行图像分割，采用MCG算法，把完整的图片分割为众多的小图片。由于细分之后的小图片数量过于庞大，并且包含一定的噪声和冗余信息，在这一步采用Ncut算法进行聚类，分为10个类，在Ncut算法中，两张图片之间的权值采用两张图片的交并比IoU。在得到10个类之后，按照MCG算法得到的预测值，对这些类里的图像进行排序，最后取出前5个分数最高的图片作为可用图片(K可取5)。至此，加上原图像，我们得到总计MK+1＝51个图像。

(A-4)将上一步得到的51个图像输入到CNN当中，经过CNN之后同样得到了51个属性向量。最后这51个属性向量输入Pooling结构，采用Max Pooling策略，得到最终的结果即为完整图片的高级语义特征。

(B)生成模块的具体工作流程如图4所示：构建含有句子开头的标记性单词<sos>的单词矩阵，通过(A-1)中建立好的语言模型将单词转换成词向量形式。用图像的提取后的特征值作为LSTM结构的初始状态，将词向量作为LSTM的输入运算，得到该生成器对指定图像的预测特征值。利用全连接层将预测单词的特征值转换为词库里每个单词的概率值，最后做softmax并和输入的正确描述性文本计算交叉熵损失。生成器利用该损失值更新参数。

该模块的输入是提取特征后的图像，而输出就是该图像的文本描述，不仅是最后生成文本的重要环节，而且也充当了Actor-Critic模型中的Actor角色，能从当前已有的文本中做出决策，预测下一个甚至完整的文本。

生成模块的工作流程如下：

(B-1)构建含有句子开头的标记性单词<sos>的单词矩阵，通过建立好的语言模型将单词转换成词向量形式；

(B-2)图像的提取后的特征值作为长短期记忆网络(LSTM，Long Short-TermMemory)结构的初始状态，将词向量作为LSTM的输入运算，得到该生成器对指定图像的预测特征值；

(B-3)利用全连接层将预测单词的特征值转换为词库里每个单词的概率值，最后做softmax并和输入的正确描述性文本计算交叉熵损失；

(B-4)生成器利用该损失值更新参数。

(C)判别模块的工作流程如图5所示，首先将生成器根据图像生成的描述性文本作为假标签，将已知的图像的描述性文本作为真标签。再输入真假标签到判别器中，分别得到判别器对这些真假标签的分数。然后根据这些分数计算判别器的损失值，从而更新判别器。该过程具体如下：

(C-1)输入图像的特征值到生成器中，生成器基于LSTM结构生成对应的预测描述文本，将预测文本作为假标签，已知的描述文本作为真标签；

(C-2)输入真假标签到判别器中，分别得到判别器对这些真假标签的分数；包括：

(C-2a)利用词向量矩阵将以单词形式的真假标签转换成词向量形式；

(C-2b)将转换后的词向量通过Encoder网络，如LSTM网络，得到编码后的向量；

(C-2c)用编码后的向量初始化Decoder网络中的LSTM结构单元，用<sos>作为第一个时间步的输入，从而解码得到新的特征向量；

(C-2d)将Seq2Seq模型后得到的特征向量和对应图像的特征值拼接在一起，共同经过两层全连接神经网络，对半拆分后分别得到真假标签的分数。

(C-3)使用对抗生成网络中的损失函数计算公式计算判别器的损失值，从而更新该判别器。

(D)Actor-Critic模块的工作流程如图6所示：

首先构造初始单词<sos>的词向量矩阵。再在给定的最大时间步的范围内，从当前时间步下既有的句子利用生成器(Actor)判断得到对应的下一个单词作为动作(action)，而既有的句子作为状态(state)，拼接既有的句子和预测的下一个单词为新的句子作为下一状态(next state)。通过生成器根据预测的新句子和图像预测出完整句子，将预测的完整句子输入到判别器中得到当前动作(action)的奖励(reward)。将动作(action)、状态(state)、下一状态(next state)和奖励(reward)输入到Critic网络中，计算得到更新Critic网络的TD error。将状态(state)、动作(action)和TD error输入到生成器的网络中，计算得到该生成器的梯度并更新。该过程具体如下：

(D-1)构造含有初始单词的词向量矩阵；

(D-2)给定的最大时间步的范围内，从当前时间步下既有的句子利用生成器判断得到对应的下一个单词作为action，而既有的句子作为state，拼接既有的句子和预测的下一个单词为新的句子作为next state；

(D-3)通过生成器从预测的新句子根据图像预测完整句子后输入到判别器中得到当前action的reward；

(D-4)将action、state、next state和reward输入到Critic网络中，计算得到更新Critic网络的TD error；

(D-5)将state、action和TD error输入到生成器的网络中，计算得到该生成器的梯度并更新。

使用对抗生成网络中的损失函数计算公式计算判别器的损失值，从而更新该判别器。

采用上述图片文本描述生成系统生成文本描述的方法包括以下步骤：

(1)获取数据集，并对数据集上的图像和描述文本进行数据清洗，采用图像增强的手段处理图像，保存处理后的图像和描述文本为指定格式的文件，方便后续程序调用和处理。

(1-1)获取已经有人工标注描述文本的图像数据集，如COCO数据集。

(1-2)对数据集上的图像和描述文本进行数据清洗。比如可选择对于单词的清洗，将单词的单复数形式、时态等删除，保留词根等信息。并采用图像增强的手段处理图像，包括水平随机翻转、亮度调整等，随后保存处理后的图像和描述文本为指定格式的文件，方便后续程序调用和处理。

(2)基于图像文本标签的文本集建立语言模型进行训练，得到语言模型。获取网络上图像特征提取的预训练模型参数，采用高级语义特征作为图片的特征向量。基于对抗网络和Actor-Critic的思想搭建网络。

(2-1)观察通过各种方法获取的图像和文本的特征，抽样剔除明显不合理的图像和文本样本，或者根据实际情况修改对应的图像或文本；

(2-2)将数据集所有文本描述作为词库，以此为基础搭建词向量。并且从中提取出足够数量的出现频率最高并且具有实际意义的词汇作为属性向量，这些词可以是名词、动词或者是形容词等，并且不区分单复数和时态。

数据集可以使用COCO数据集(Common Objects in Context)，总共有上万张图片，并且每张图片有2到3个英文描述文本。大量的英文描述文本可以构成庞大的词库。词向量的建立方面，对词库利用Word2Vec为每个单词构建词向量。窗口的大小可以调整为5左右适合的值。删除出现次数较少的单词，保留频繁的单词。添加<sos>、<eos>等标记性的单词作为句子的开头、结尾等，同时随机生成它们的词向量。将Word2Vec构建的词向量和标记性单词的词向量合并起来，就得到我们的语言模型，后续能够在网络训练的过程中进一步更新。

(2-3)采用HCP(Hypotheses-CNN-Pooling)的模型来提取图像的高级语义特征。

(2-3a)VGG是在图像领域久负盛名的CNN(卷积神经网络)模型之一，本发明使用VGG预训练参数后的模型作为本模型的CNN。基于VGG建立模型，在最后一层增加一层神经元个数为C的softmax层，如此使之输出结果即为属性向量。然后在此模型之上使用多标签数据集进行微调训练，使之达到预期效果，正确进行多标签分类之后停止训练。

(2-3b)获取到一张图片，对于这张图片我们采用MCG(多尺度组合分割，Multiscale Combinatorial Grouping)算法，将一张图片分割为无数个细小的部分Hypotheses。

(2-3c)在图像分割之后，我们可能会得到数千个小图像部分，对于数目众多的Hypotheses进行运算显然是困难的，于是我们使用Ncut(归一化切割，Normalized cuts)算法对这些图像进行聚类，Ncut算法中两张图之间的权值取这两张图的IoU(Intersection-over-Union)，最终分为M类。然后在每一类这些相近的图像当中，按照MCG给出的的预测分数进行排序，最终在M类中各取出分数最高的K个图像，以及最初的原图，最终得到了总计MK+1个图像。

(2-3d)将上一步得到的MK+1个图像都输入到CNN当中，最终会得到MK+1个属性向量，然后经过Max Pooling，最终得到的属性向量即为整副完整图像最终的高级语义特征。

(2-4)搭建生成器(Generator)网络。G(Generator)由卷积神经网络CNN和循环神经网络RNN组成，其中CNN负责特征提取，RNN采用LSTM结构。

(2-4a)CNN部分采用高级语义特征提取的方法，即上述提到的HCP结构。

(2-4b)RNN部分采用了多层的LSTM网络结构。LSTM以提取的图片的高级语义特征作为输入，在时间步(time_step)上进行扩展，输出隐藏层状态。RNN后连接一个全连接层。通过全连接层后输出句子(Sentence)的词向量。

(2-5)搭建判别器(Discriminator)网络。在SeqGAN中，采用了卷积神经网络CNN作为判别器的网络结构，即对真实文本和生成器生成文本做二分类处理。而在本模型中，采取(encoder-decoder)的模型架构，网络模型推荐为LSTM。如图5所示，Discriminator需要以真实文本(real_caption)和生成文本(fake_caption)作为输入，经过词向量转化(Embedding)、编码-解码(encoder-decoder)，最后与一个全连接网络相连，用于输出打分结果，即Discriminator判断生成样本为真的概率。

(2-6)需要特别说明的是，在设想的Actor-Critic模型中，Generator是Actor网络，对于Critic网络，需要另外设计来指导Generator网络的更新。推荐的Critic网络结构为多层的LSTM，以state、action作为输入，输出Q值。其中：state表示一个状态，即已生成的文本；action表示采取的动作，即从词库中选取的单词；Q(state、action)表示在状态state上采取动作action后所获得的累计奖励和(cumulated reward)。

(3)以已有的、已知标签的图片作为训练集，将图片本身以及其标注输入到模型当中进行预训练，使生成器(Generator)和判别器(Discriminator)具备初步的能力。然后进行对抗训练，采用Actor-Critic的方法，对Generator的参数进行单步更新，直至达到指定标准后结束训练。

(3-1)采用极大似然估计方法(Maximum Likelihood Estimate，MLE)的方法对生成器更新，即让生成器不断拟合真实数据(true_data)的分布。

(3-2)接着对判别器(Discriminator)进行预训练，即把预训练好的生成器生成的数据分布作为假样本数据(negative_data)，true_data作为真样本数据(positive_data)来预训练判别器。

(3-3)对已预训练好的生成器和判别器进行对抗训练。特别注意的是，在SeqGAN的作者采用了策略梯度(Policy Gradient)的强化学习方法来从判别器将参数更新梯度回传到生成器，以指导生成器的参数更新。但该方法是基于回合更新，仅当生成一个完整句子后生成器才能进行一次参数更新，而本模型采取的Actor-Critic方法基于单步更新，在一个句子(Sentence)的每一个token上都能回传梯度进行训练，效率更高。

(3-3a)对于一个完整句子，对于每一个时间步上的token，将当前的state、action以及下一个状态next_state(把当前state做出action后的序列作为next_state)和当前action的reward(生成器通过蒙特卡洛搜索将句子补全后输入给判别器Discriminator)，通过这三者计算TD error。

(3-3b)将TD error的平方值作为Critic网络的损失值，更新Critic网络。

(3-3c)将TD error作为参数更新梯度回传给Actor网络，即生成器，并通过梯度上升进行更新参数。

(3-3d)进行下一个时间步；

(3-4)根据训练情况更新判别器参数。判别器进行二分类处理，输入为一组真实样本，一组生成的假样本，因此判别器的目标函数即最小化真样本和假样本的交叉熵。通常在进行多次生成器的训练后进行一次判别器的参数更新。

(4)输入需要生成描述文本的图片到生成器网络中，得到关于此图片的描述性文本。如果要进一步判断模型的训练情况，可以用测试数据集的图片作为输入，经本系统输出获得描述性文本后，利用评价指标算法来评估本模型的生成文本质量。

(4-1)输入指定图片到图像提取特征的网络中得到该图像的特征值。将该图像的特征值输入到生成器中得到描述性文本。

(4-2)为了评估模型，将训练集中的大量图片和标签输入到生成器中。对于每张图片，生成器都会给出多个描述性文本，比较生成的描述性文本和图像原本的标签。比较的算法可以利用BLEU、METEOR、CIDER等评价指标算法，或者其他合理的算法即可。注意本模型的重点是多样性的文本，因此生成的文本不应该只着重于准确度。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，包括以下步骤：

(1)获取已知文本描述的图片并进行预处理，构建训练集；

2.根据权利要求1所述的基于Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，步骤(1)包括：

(1-1)获取已知文本描述的图片数据集；

(1-3)将处理后的图片和对应的文本描述保存为指定格式的文件。

3.根据权利要求1所述的基于Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，步骤(2)包括：

所述的卷积神经网络采用HCP(Hypotheses-CNN-Pooling)结构，所述的循环神经网络采用长短期记忆网络结构；

(2-2)以编码-解码模型为模型架构，以长短期记忆网络为网络模型，搭建判别器网络；

(2-3)搭建Critic网络，所述Critic网络为多层的长短期记忆网络，用以指导生成器网络参数的更新。

4.根据权利要求3所述的基于Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，生成器网络中语言模型通过以下方法构建：

5.根据权利要求3所述的基于Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，采用HCP提取图片的高级语言特征包括：

(ii)采用归一化切割(Normalized cuts，Ncut)算法对似物性推荐框进行聚类，分为M类；(iii)在每一类中，按照多尺度组合分组算法给出的预测分数对似物性推荐框进行排序，在M类中各取出分数最高的K个似物性推荐框；

包括原图，最终得到MK+1个图像；

6.根据权利要求1所述的基于Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，步骤(3)包括：

7.根据权利要求6所述的基于Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，步骤(3-3)包括：

生成器通过蒙特卡洛搜索(Monte Carlo Tree Search，MCTS)将新句子补全后输入到判别器中，得到当前action的奖励值；

将action、state、next state和reward输入到Critic网络中，计算得到TD error(Temporal Difference Prediction)；

(3-3d)进行下一个时间步。

8.一种基于Actor-Critic生成式对抗网络的图片描述生成系统，其特征在于，包括：

9.根据权利要求8所述的基于Actor-Critic生成式对抗网络的图片描述生成系统，其特征在于，所述的生成模块采用长短期记忆网络结构；所述的判别模块以编码-解码模型为模型架构，以长短期记忆网络为网络模型；所述的Critic网络为多层的长短期记忆网络。

10.根据权利要求8所述的基于Actor-Critic生成式对抗网络的图片描述生成系统，其特征在于，所述的HCP结构中，以VGG网络作为卷积神经网络。