CN109685116B

CN109685116B - 图像描述信息生成方法和装置及电子装置

Info

Publication number: CN109685116B
Application number: CN201811460241.9A
Authority: CN
Inventors: 陈宸; 牟帅; 肖万鹏; 鞠奇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2022-12-30
Anticipated expiration: 2038-11-30
Also published as: EP3889836A1; US11783199B2; US20210042579A1; CN109685116A; WO2020108165A1; EP3889836A4

Abstract

本发明公开了一种图像描述信息生成方法和装置及电子装置。其中，该方法包括：获取待处理的目标图像；将目标图像输入目标图像描述信息生成网络，其中，目标图像描述信息生成网络为利用多个样本图像进行对抗式训练后所得到的用于生成图像描述信息的生成网络，对抗式训练是基于与目标图像描述信息生成网络相匹配的初始化的图像描述信息生成网络，及初始化的判别网络，而进行的交替训练，判别网络用于判别图像描述信息生成网络的输出结果；根据目标图像描述信息生成网络的输出结果，生成用于描述目标图像的目标图像描述信息。本发明解决了相关技术所提供的图像描述信息生成方法存在生成质量较差的技术问题。

Description

图像描述信息生成方法和装置及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种图像描述信息生成方法和装置及电子装置。

背景技术

为了对图像中所包含的内容进行准确识别，目前常常会采用图像描述生成算法，来自动生成与图像中内容相匹配的图像描述信息。其中，常用的生成方式是通过Encoder-Decoder(编码器-解码器)结构，把卷积神经网络(Convolutional Neural Networks，简称CNN)用作编码器，将图像信息从像素空间编码到隐藏空间，然后把循环神经网络(Recurrent Neural Networks，RNN)用作解码器，将隐藏空间中编码后的图像信息解码到语言空间。

然而，采用上述结构所生成的图像描述信息虽然可以表达出图像中的内容，但该图像描述信息中所使用的句子质量却无法保证，如通顺性较差，或不符合日常口语表达习惯。也就是说，相关技术所提供的图像描述信息生成方法存在生成质量较差的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种图像描述信息生成方法和装置及电子装置，以至少解决相关技术所提供的图像描述信息生成方法存在生成质量较差的技术问题。

根据本发明实施例的一个方面，提供了一种图像描述信息生成方法，包括：获取待处理的目标图像；将上述目标图像输入目标图像描述信息生成网络，其中，上述目标图像描述信息生成网络为利用多个样本图像进行对抗式训练后所得到的用于生成图像描述信息的生成网络，上述对抗式训练是基于与上述目标图像描述信息生成网络相匹配的初始化的图像描述信息生成网络，及初始化的判别网络，而进行的交替训练，上述判别网络用于判别上述图像描述信息生成网络的输出结果；根据上述目标图像描述信息生成网络的输出结果，生成用于描述上述目标图像的目标图像描述信息。

根据本发明实施例的另一方面，还提供了一种图像描述信息生成装置，包括：获取单元，用于获取待处理的目标图像；输入单元，用于将上述目标图像输入目标图像描述信息生成网络，其中，上述目标图像描述信息生成网络为利用多个样本图像进行对抗式训练后所得到的用于生成图像描述信息的生成网络，上述对抗式训练是基于与上述目标图像描述信息生成网络相匹配的初始化的图像描述信息生成网络，及初始化的判别网络，而进行的交替训练，上述判别网络用于判别上述图像描述信息生成网络的输出结果；生成单元，用于根据上述目标图像描述信息生成网络的输出结果，生成用于描述上述目标图像的目标图像描述信息。

作为一种可选的示例，上述训练单元还包括：确定模块，用于在上述根据上述样本判别概率值调整上述当前图像描述信息生成网络，得到训练后的图像描述信息生成网络，并根据上述训练后的图像描述信息生成网络调整上述当前判别网络，得到训练后的判别网络之前，确定上述当前判别网络输出的上述样本判别概率值；获取模块，用于通过语言模型获取上述样本图像描述生成信息与上述样本图像之间的上述第一匹配度，其中，上述语言模型中包括一个或多个用于评价上述样本图像描述生成信息的参数；加权平均处理模块，用于对上述样本判别概率值及上述第一匹配度进行加权平均处理，得到上述样本反馈系数。

作为一种可选的示例，上述训练单元通过以下步骤实现上述根据上述样本判别概率值调整上述当前图像描述信息生成网络，得到训练后的图像描述信息生成网络包括：根据上述样本判别概率值调整上述当前图像描述信息生成网络中以下至少一种结构中的参数：当前基于区域的卷积神经网络、当前注意力序列化语言模型及当前双层长短时记忆网络。

作为一种可选的示例，上述训练单元通过以下步骤实现上述根据上述训练后的图像描述信息生成网络调整上述当前判别网络，得到训练后的判别网络包括：获取上述训练后的图像描述信息生成网络所输出的训练后的样本图像描述生成信息，或训练后的样本图像参考描述信息；利用上述样本图像描述信息、上述训练后的样本图像描述生成信息或上述训练后的样本图像参考描述信息中，调整上述当前判别网络中卷积神经网络结构中的参数，得到上述训练后的判别网络。

作为一种可选的示例上述训练单元通过以下步骤实现所述上述根据所述上述训练后的图像描述信息生成网络调整所述上述当前判别网络，得到训练后的判别网络包括：获取所述上述训练后的图像描述信息生成网络所输出的训练后的样本图像描述生成信息，或训练后的样本图像参考描述信息；利用所述上述样本图像描述信息、所述上述训练后的样本图像描述生成信息或所述上述训练后的样本图像参考描述信息中，调整所述上述当前判别网络中循环神经网络结构中的参数，得到所述上述训练后的判别网络。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的图像描述信息生成方法。

在本发明实施例中，在获取到待处理的目标图像之后，将其输入通过对抗式训练所得到的目标图像描述信息生成网络，利用该目标图像描述信息生成网络来生成与上述目标图像相匹配的目标图像描述信息。也就是说，不再使用相关技术提供的CNN-RNN结构来生成图像的图像描述信息，而是利用基于对抗式训练所获得的目标图像描述信息生成网络。在对抗式训练过程中引入判别网络，对图像描述信息生成网络的输出结果进行判别，并对二者进行交替训练，以使最终生成的目标图像描述信息生成网络得到强化学习，从而实现利用目标图像描述信息生成网络所生成的图像描述信息的评价指标得到综合优化，进而达到改善图像描述信息的生成质量，克服了相关技术所提供的图像描述信息生成方法存在生成质量较差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的图像描述信息生成方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的图像描述信息生成方法的流程示意图；

图3是根据本发明实施例的一种可选的图像描述信息生成方法的示意图；

图4是根据本发明实施例的另一种可选的图像描述信息生成方法的示意图；

图5是根据本发明实施例的又一种可选的图像描述信息生成方法的示意图；

图6是根据本发明实施例的又一种可选的图像描述信息生成方法的示意图；

图7是根据本发明实施例的又一种可选的图像描述信息生成方法的示意图；

图8是根据本发明实施例的又一种可选的图像描述信息生成方法的示意图；

图9是根据本发明实施例的又一种可选的图像描述信息生成方法的示意图；

图10是根据本发明实施例的一种可选的图像描述信息生成方法的评价指标的示意图；

图11是根据本发明实施例的一种可选的图像描述信息生成方法的效果示意图；

图12是根据本发明实施例的另一种可选的图像描述信息生成方法的效果示意图；

图13是根据本发明实施例的一种可选的图像描述信息生成装置的结构示意图；

图14是根据本发明实施例的另一种可选的图像描述信息生成装置的结构示意图；

图15是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了描述上述图像描述信息生成方法，本发明实施例中涉及以下技术术语：

CNN：卷积神经网络(Convolutional Neural Networks)，用于提取图像中的图像特征。

RNN：循环神经网络(Recurrent Neural Networks)，用于语言建模，学习上下文特征。

R-CNN：基于区域的卷积神经网络(Region-based CNN)，用于目标检测定位。

Faster R-CNN：R-CNN的改进版，速度更快，效果更好

RPN：区域推荐网络(Region Proposal Networks)，faster R-CNN中的一个模块，用于提取可能存在物体的框的特征向量。

LSTM：长短时记忆网络(Long-Short Term Memory Networks)，能够学习到长期以来关系，应用最广泛的一种RNN。

CNN-RNN结构：CNN用作编码器，RNN用作解码器，图像描述算法的通用框架。

Attention mechanism：注意力机制，RNN建模中对输入特征的加权计算。

self-critical:一种基于policy gradient的强化学习方法。

policy gradient：策略梯度，强化学习中的一种方法，直接学习每一个的更新策略。

GANs：生成式对抗网络(Generative Adversary Nets)，一种博弈式生成网络，无需预先设定样本概率分布。其中，generotor：是生成对抗网络中的生成器。discrimintor：是生成对抗网络中的判别器。

BLEU：双语互译质量评估辅助工具(Bilingual Evaluation Understudy)，主要用于机器翻译的质量评价。

ROUGE：文本摘要总结的质量评价标准(Recall-Oriented Understudy forGisting Evaluation)。

METEOR：一种用于任意语言翻译的质量评价标准。

CIDEr：用于图片描述的质量评价标准(Consensus-based image descriptionevaluation)。

SPICE：基于语义的图片描述质量评价标准(Semantic Propositional ImageCaption Evaluation)。

MOCOCO：Microsoft Common Objects in Context数据集，用于关键点检测，目标检测，图片描述等。

Genome：图像密集标注的数据集。

MLE：最大化似然估计(Maximize Likelihood Estimation)，用于估计一个概率模型的参数，是RNN的一种训练方式。

根据本发明实施例的一个方面，提供了一种图像描述信息生成方法，可选地，作为一种可选的实施方式，上述图像描述信息生成方法可以但不限于应用于如图1所示的硬件环境中。通过步骤S102用户设备102获取待处理的目标图像，其中，该目标图像中包括角色对象A和墙体对象B。用户设备102中的存储器104存储该目标图像，并由处理器106将该目标图像通过网络108发送给服务器110，如步骤S104-S106。服务器110通过处理引擎114执行步骤S108：如步骤S1082，将接收到的目标图像输入上述目标图像描述信息生成网络，如步骤S1084，生成用于描述该目标图像的目标图像描述信息。其中，上述目标图像描述信息生成网络为利用数据库112中获取的多个样本图像进行对抗式训练后所得到的用于生成图像描述信息的生成网络，该对抗式训练是基于与目标图像描述生成信息网络相匹配的初始化的图像描述信息生成网络，和初始化的判别网络，而进行的交替训练，上述判别网络用于判别图像描述信息生成网络的输出结果。如图1所示目标图像，上述目标图像描述信息可以为“角色对象A已翻越墙体对象B”。然后，服务器110将上述生成的目标图像描述信息通过网络108发送给用户设备102进行展示，如步骤S112-S114。

需要说明的是，本实施例中所提供的图像描述信息生成方法，在获取到待处理的目标图像之后，将其输入通过对抗式训练所得到的目标图像描述信息生成网络，利用该目标图像描述信息生成网络来生成与上述目标图像相匹配的目标图像描述信息，其中，该对抗式训练是基于与目标图像描述生成信息网络相匹配的初始化的图像描述信息生成网络，和初始化的判别网络，而进行的交替训练。也就是说，不再使用相关技术提供的CNN-RNN结构来生成图像的图像描述信息，而是利用基于对抗式训练所获得的目标图像描述信息生成网络。在对抗式训练过程中引入判别网络，对图像描述信息生成网络的输出结果进行判别，并对二者进行交替训练，以使最终生成的目标图像描述信息生成网络得到强化学习，从而实现利用目标图像描述信息生成网络所生成的图像描述信息的评价指标得到综合优化，进而达到改善图像描述信息的生成质量，克服相关技术生成质量较差的问题。

可选地，上述图像描述信息生成方法可以但不限于应用于具有图像采集、图像识别或图像处理等功能的终端设备上。其中，上述终端设备可以为用户设备，如手机、平板电脑、笔记本电脑、PC机等终端，也可以为服务器，如数据处理服务器、分布式处理服务器等。进一步，上述图像描述信息生成方法可以在独立的终端设备上完成，也就是终端设备直接获取待处理的目标图像，并利用目标图像描述信息生成网络来生成该目标图像的目标图像描述信息，从而减少由数据传输所导致的生成延迟问题，以实现提高生成效率的效果。此外，上述图像描述信息生成方法也可以通过在至少两个终端设备上通过数据交互来完成，如上述图1所示，在用户设备102中获取待处理的目标图像，然后将该目标图像通过网络108发送给服务器112，由服务器中的目标图像描述信息生成网络来生成该目标图像的目标图像描述信息，再将生成的目标图像描述信息返回给用户设备102，从而实现通过数据交互完成图像描述信息的生成过程，以减轻用户设备的处理负担。其中，上述网络108可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。

可选地，作为一种可选的实施方式，如图2所示，上述图像描述信息生成方法包括：

S202，获取待处理的目标图像；

S204，将目标图像输入目标图像描述信息生成网络，其中，目标图像描述信息生成网络为利用多个样本图像进行对抗式训练后所得到的用于生成图像描述信息的生成网络，对抗式训练是基于与目标图像描述信息生成网络相匹配的初始化的图像描述信息生成网络，及初始化的判别网络，而进行的交替训练，判别网络用于判别图像描述信息生成网络的输出结果；

S206，根据目标图像描述信息生成网络的输出结果，生成用于描述目标图像的目标图像描述信息。

可选地，在本实施例中，上述图像描述信息生成方法可以但不限于应用于图像识别场景、图像检索场景、图像校验场景等需要获取与图像中所呈现的图像内容相匹配的图像描述信息的场景。以图像校验场景为例，在获取到待校验的目标图像后，将该目标图像输入通过对抗式训练所得到的目标图像描述信息生成网络，利用该目标图像描述信息生成网络来生成与上述目标图像相匹配的目标图像描述信息，其中，该对抗式训练是基于与目标图像描述生成信息网络相匹配的初始化的图像描述信息生成网络，和初始化的判别网络，而进行的交替训练。进一步，对已改善生成质量的目标图像描述信息进行信息校验，以确定该目标图像是否通过验证，从而保证图像校验的准确性。上述场景仅是一种示例，本实施例中对此不做任何限定。

需要说明的是，在获取到待处理的目标图像之后，将其输入通过对抗式训练所得到的目标图像描述信息生成网络，利用该目标图像描述信息生成网络来生成与上述目标图像相匹配的目标图像描述信息。也就是说，不再使用相关技术提供的CNN-RNN结构来生成图像的图像描述信息，而是利用基于对抗式训练所获得的目标图像描述信息生成网络。在对抗式训练过程中引入判别网络，对图像描述信息生成网络的输出结果进行判别，并对二者进行交替训练，以使最终生成的目标图像描述信息生成网络得到强化学习，从而实现利用目标图像描述信息生成网络所生成的图像描述信息的评价指标得到综合优化，进而达到改善图像描述信息的生成质量，克服了相关技术所提供的图像描述信息生成方法存在生成质量较差的技术问题。

例如，如图3所示，在获取到目标图像之后，将该目标图像输入目标图像描述信息生成网络，以生成与该目标图像相匹配的目标图像描述信息，其中，该目标图像描述信息生成网络，是利用新引入的判别网络经过对抗式训练后所得到的用于生成图像描述信息的生成网络。在图3所示示例中，目标图像描述信息生成网络所生成的目标图像描述信息可以如下：“角色对象A”、“翻越”、“墙体对象B”。这里仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，在获取待处理的目标图像之前，还包括：构建初始化的图像描述信息生成网络和初始化的判别网络；对上述初始化的图像描述信息生成网络和初始化的判别网络进行对抗式训练，以得到目标图像描述信息生成网络。

需要说明的是，在本实施例中所构建的用于进行对抗式训练的网络训练框架可以但不限于如图4所示，将样本图像依次输入网络训练框架中，图像描述信息生成网络G将生成与样本图像对应的样本图像描述生成信息，并将该样本图像描述生成信息发送给判别网络D进行判别，发送给语言模型Q以获取对应的评价分值，根据判别网络D的判别结果p和语言模型Q的评价分值s，来获取用于调整图像描述信息生成网络G的反馈系数r，从而实现根据r来训练优化图像描述信息生成网络，并进一步利用训练优化后的图像描述信息生成网络，来训练优化判别网络D，以此类推对图像描述信息生成网络G和判别网络D进行交替训练，从而得到最终的收敛的目标图像描述信息生成网络。

需要说明的是，上述语言模型可以但不限于包括一个或多个用于评价图像描述生成信息的生成质量的指标参数，如BLEU，ROUGE，METEOR，CIDEr，SPICE等。其中，上述参数与人类对图像描述生成信息的主观评判具有相关性，因而，上述参数的综合评价分值，将可以实现客观反映出图像描述生成信息的生成质量的效果。

可选地，在本实施例中所构建的初始化的图像描述信息生成网络可以但不限于包括：卷积神经网络CNN、注意力序列化语言模型Attention及循环神经网络RNN。其中，其中，CNN用于提取图像中的图像特征，Attention是序列化语言模型中用于进行权重更新的机制，RNN用于学习上下文特征。

例如，如图5所示，假设样本图像为图像I，对应的样本图像描述信息为x_1：T。图像I输入CNN，CNN提取该图像I的局部特征向量，例如，{v₁,v₂,…,v_k|k＝{10,11,12,…,100}}，及全局特征向量

将局部特征向量输入Attention，以进行加权平均处理得到

其中，

与时刻t相关。将

输入RNN，将x_1：T通过词嵌入矩阵Embedding输入RNN。然后，将RNN的输出结果，作为图像描述信息生成网络所生成的与图像I相匹配的图像描述生成信息y_1：T，并输入判别网络D和语言模型Q，以便于通过交替训练调整优化图像描述信息生成网络G。其中，在本实施例中，词嵌入矩阵Embedding是用于线性变换的模型。

可选地，在本实施例中，上述卷积神经网络CNN可以但不限于采用基于区域的卷积神经网络R-CNN的改进版(即Faster R-CNN)，其主干网络是Resnet101，可以在MSCOCO和Genome数据集上预训练好。上述注意力序列化语言模型Attention采用软注意力(即softattention)策略，对每个图像的图像向量进行加权平均处理。上述循环神经网络RNN可以但不限于采用双层长短时记忆网络LSTM结构。

可选地，在本实施例中所构建的初始化的判别网络可以但不限于包括以下一种：

1)基于卷积神经网络结构的第一初始化判别网络。其中，在该第一初始化判别网络中，卷积神经网络结构输出的特征向量，将输入第一多层感知机(Multi-LayerPerception，简称MLP)及第一分类网络(如softmax)，转化得到用于指示判别结果的概率值。其中，上述卷积神经网络结构可以包括但不限于M层卷积核，M层卷积核中第i层卷积核用于对样本图像的样本图像向量按照第i种尺寸进行卷积运算，所述i为小于等于M的正整数。

2)基于循环神经网络结构的第二初始化判别网络。其中，在该第二初始化判别网络中，循环神经网络结构输出的特征向量，将输入第二多层感知机(Multi-LayerPerception，简称MLP)及第二分类网络(如softmax)，转化得到用于指示判别结果的概率值。其中，上述循环神经网络结构可以包括但不限于标准的N层LSTM。

可选地，在本实施例中，在对抗式训练过程中，图像描述信息生成网络G将生成与图像对应的图像描述生成信息，并将该图像描述生成信息发送给判别网络D进行判别，发送给语言模型Q以获取对应的评价分值，然后，根据判别网络D的判别结果p和语言模型Q的评价分值s，来获取用于调整图像描述信息生成网络G的反馈系数r，从而实现根据r来训练优化图像描述信息生成网络。其中，上述反馈系数r的计算方式可以包括但不限于：

r＝λ·p+(1-λ)·s (1)

其中，λ为加权平均系数。

通过上述公式(1)将获取到目标图像输入待训练的图像描述信息生成网络和判别网络之后得到的反馈系数r，根据该反馈系数r的取值，来对图像描述信息生成网络，进行调整优化，进一步再利用调整后的图像描述信息生成网络的输出结果对判别网络进行调整优化，通过交替训练最终达到收敛，从而得到目标图像描述信息生成网络。

可选地，在本实施例中，利用上述附图所示网络训练框架经过对抗式训练得到的目标图像描述信息生成网络，来对待处理的目标图像进行学习，以生成与该目标图像相匹配的已得到改善优化的目标图像描述信息，从而实现提高图像描述信息的生成质量的目的。

通过本申请提供的实施例，利用基于对抗式训练所获得的目标图像描述信息生成网络。在对抗式训练过程中引入判别网络，对图像描述信息生成网络的输出结果进行判别，并对二者进行交替训练，以使最终生成的目标图像描述信息生成网络得到强化学习，从而实现利用目标图像描述信息生成网络所生成的图像描述信息的评价指标得到综合优化，进而达到改善图像描述信息的生成质量。

作为一种可选的方案，在获取待处理的目标图像之前，还包括：

S1，构建初始化的图像描述信息生成网络，及初始化的判别网络；

S2，对初始化的图像描述信息生成网络，及初始化的判别网络进行对抗式训练，得到目标图像描述信息生成网络。

可选地，在本实施例中，在获取待处理的目标图像之前，需要先构建初始化的图像描述信息生成网络及初始化的判别网络。然后需要对上述初始化的图像描述信息生成网络及初始化的判别网络进行预训练，再对预训练后的图像描述信息生成网络及判别网络进行对抗式训练。

作为一种可选的构建方式，初始化的图像描述信息生成网络可以但不限于为基于区域的卷积神经网络、注意力序列化语言模型及具有双层长短时记忆网络的循环神经网络进行构建。例如，构建的初始化的图像描述信息生成网络的框架可以参考图5所示图像描述信息生成网络G。

作为一种可选的构建方式，初始化的判别网络可以但不限于包括：CNN型判别网络、RNN型判别网络。其中，CNN型网络可以但不限于为基于卷积神经网络结构、第一多层感知机及第一分类网络所构建的第一初始化判别网络，RNN型判别网络可以但不限于为基于循环神经网络结构、第二多层感知机及第二分类网络所构建的第二初始化判别网络。

进一步，在本实施例中，在构建出上述初始化的图像描述信息生成网络和初始化的判别网络之后，对二者进行预训练，步骤可以如下：

例如，假设获取到初始化的图像描述信息生成网络G₀，初始化的判别网路D₀和预训练集S，其中，S＝{(I,x_1：T)}。在训练集S上用最大似然法MLE对G₀进行预训练，得到预训练后的G_θ。利用G_θ生成预训练集S_D，其中，

然后，在S_D上对D₀进行预训练得到D_φ。θ和φ分别为图像描述信息生成网络G和判别网络D中通过训练确认的参数。

进一步，利用预训练后的G_θ和预训练后的D_φ开始交替训练，以实现对两个神经网络的对抗式训练，从而达到优化图像描述信息生成网络G的生成质量的目的。

通过本申请提供的实施例，通过构建初始化的图像描述信息生成网络和初始化的判别网络，并对上述构建好的初始化的图像描述信息生成网络和初始化的判别网络进行对抗式训练，以达到互相制约训练的目的，进而实现对图像描述信息生产网络的生成质量进行优化改善的效果。

作为一种可选的方案，构建初始化的判别网络包括：

1)基于卷积神经网络结构、第一多层感知机及第一分类网络构建第一初始化判别网络，其中，第一多层感知机及第一分类网络用于将卷积神经网络结构输出的特征向量转化为概率值，卷积神经网络结构包括：M层卷积核，M层卷积核中第i层卷积核用于对样本图像的样本图像向量按照第i种尺寸进行卷积运算，i为小于等于M的正整数，样本图像向量是根据样本图像的图像特征向量及样本图像对应的样本图像描述信息中包含的词特征向量确定的；

需要说明的是，多层感知机MLP可以但不限于为前向触发的神经网络结构，相邻两层的节点之间全连接，同一层节点之间无连接，跨层之间无连接。

具体结合图6所示进行说明。在第一初始化判别网络中包括具有M层卷积核的卷积神经网络结构，第一多层感知机(Multi-Layer Perception，简称MLP)及第一分类网络(如softmax)。其中，M层卷积核中每层卷积核用于指示一种用于进行卷积运算的尺寸，如第i层卷积核是第i种尺寸进行卷积，对应的卷积核数量为n_i个。第一MLP及第一分类网络(如softmax)，用于将上述M层卷积核的输出结果进行转化，得到用于指示判别结果的概率值。

例如，假设样本图像为图像I，及与该图像I对应的样本图像描述信息x_1：T。图像I通过CNN将得到一个d维图像特征向量

同时将上述样本图像描述信息x_1：T输入词嵌入矩阵Embedding，得到T个d维的词特征向量。然后将上述T+1个特征向量进行级联，得到特征矩阵：

其中，ε∈R^d×(T+1)，再用不同尺寸的卷积核w对ε作卷积，得到新的特征向量：

c＝[c₁,c₂,…,c_T-l+2] (3)

其中，

c_i＝ReLU(w*ε_i:i+l-1+b) (4)

上述M层卷积核具有M种不同尺寸，其中，第i种尺寸的卷积核有n_i个。也就是说，不同尺寸的卷积核w共有

假设T＝16，则卷积核窗口大小和数量可以如表1所示：

表1

进一步，在获取到新的特征向量c后，再对c做最大值池化(max-pooling)，将所有c级联起来得到新的特征向量

然后通过一个高速公路(high way)结构的多层感知机MLP，结构如下：

其中，上述参数W_T、b_T、σ、W_H、b_H为训练过程中所要确定的参数。

最后，通过全连接层加sigmoid函数，输出用于判别图像描述信息生成网络所生成的与图像I匹配的图像描述生成信息的真假的概率值：

2)基于循环神经网络结构、第二多层感知机及第二分类网络构建第二初始化判别网络，其中，第二多层感知机及第二分类网络用于将循环神经网络结构输出的特征向量转化为概率值，循环神经网络结构包括：N层长短时记忆网络，N根据样本图像的样本图像向量确定，样本图像向量是根据样本图像的图像特征向量及样本图像对应的样本图像描述信息中包含的词特征向量确定的。

具体结合图7所示进行说明。在第二初始化判别网络中包括具有N层LSTM的循环神经网络结构，第二多层感知机(Multi-Layer Perception，简称MLP)及第二分类网络(如softmax)。其中，第二MLP及第二分类网络softmax，用于将上述N层LSTM的输出结果进行转化，得到用于指示判别结果的概率值。

作为第一层LSTM的输入，之后每一层LSTM将分别输入上述样本图像描述信息x_1：T中对应的一个词特征向量，以得到对应的隐藏向量h_i。

最后通过全连接层和sigmoid层输出，用于判别图像描述信息生成网络所生成的与图像I匹配的图像描述生成信息的真假的概率值：

p＝σ(W_R·h_t+1+b_R) (8)

其中，上述参数W_R、b_R、σ为训练过程中所要确定的参数。

通过本申请提供的实施例，通过引入判别网络与图像描述信息生成网络进行对抗式训练，以提高图像描述信息生成网络的生成质量，其中，上述判别网络在本实施例中提供了两种构建结构，分别是基于卷积神经网络CNN结构，和基于循环神经网络RNN结构。通过不同的结构的判别网络，将使得对抗式训练过程更加多样化，有利于改善训练效果。

作为一种可选的方案，构建初始化的图像描述信息生成网络包括：

S1，利用基于区域的卷积神经网络、注意力序列化语言模型及双层长短时记忆网络构建初始化的图像描述信息生成网络，其中，基于区域的卷积神经网络用于从样本图像中提取出局部特征向量和全局特征向量；注意力序列化语言模型用于对局部特征向量进行加权平均处理，得到平均特征向量；双层长短时记忆网络用于利用平均特征向量及全局特征向量得到待判别对象向量，待判别对象向量将输入初始化的判别网络。

需要说明的是，在本实施例中，RNN可以但不限于采用top-down模型，该模型采用了双层长短时记忆网络LSTM，在训练过程中交叉输入与输出。可选地，在本实施例中，上述待判别对象向量可以包括但不限于为双层长短时记忆网络LSTM输出的隐藏向量

具体结合图8所示进行说明，假设样本图像为图像I，对应的样本图像描述信息为x₁:_T。图像I输入Faster R-CNN，Faster R-CNN提取该图像I的局部特征向量，例如，{v₁,v₂,…,v_k|k＝{10,11,12,…,100}}，及全局特征向量

将局部特征向量输入SoftAttention，以进行加权平均处理得到

其中，

与时刻t相关。将

输入RNN中第一层LSTM1，并将x_1：T通过词嵌入矩阵Embedding输入RNN中第一层LSTM1。将

输入RNN中第二层LSTM2。其中，LSTM1根据上一时刻t-1的隐藏向量确定当前时刻t的隐藏向量，如对于第一层LSTM1根据隐藏向量

和隐藏向量

将确定出隐藏向量

对于第二层LSTM2根据隐藏向量

和隐藏向量

将确定出隐藏向量

其中，LSTM1的输出

会用于训练SoftAttention中的权重，LSTM2的输出

将通过softmax层输出至判别网络D，并进一步可以计算得到本次训练对应的损失loss，该损失loss将用于交替训练调整优化图像描述信息生成网络G。其中，在本实施例中，词嵌入矩阵Embedding是用于线性变换的模型。

通过本申请提供的实施例，利用基于区域的卷积神经网络、注意力序列化语言模型及双层长短时记忆网络构建初始化的图像描述信息生成网络，基于上述初始化的图像描述信息生成网络，再引入判别网络进行交替训练，将有利于对图像描述信息生成网络的优化改善，从而克服相关技术中基于CNN-RNN结构所生成的图像描述信息的生成质量较差的问题。

作为一种可选的方案，对初始化的图像描述信息生成网络，及初始化的判别网络进行对抗式训练，得到目标图像描述信息生成网络包括：

S1，重复执行以下步骤，直至得到目标图像描述信息生成网络：

S12，确定当前图像描述信息生成网络和当前判别网络，其中，当前图像描述信息生成网络的初始值为初始化的图像描述信息生成网络，当前判别网络的初始值为初始化的判别网络；

S14，获取样本图像及与样本图像对应的样本图像描述信息；

S16，将样本图像和样本图像描述信息，输入当前图像描述信息生成网络，得到与样本图像匹配的样本图像描述生成信息，或与样本图像匹配的样本图像参考描述信息，其中，样本图像描述生成信息与样本图像之间的第一匹配度，大于样本图像参考描述信息与样本图像之间的第二匹配度；

S18，从样本图像描述信息、样本图像描述生成信息或样本图像参考描述信息中确定出待判别样本描述信息；

S20，将样本图像和待判别样本描述信息输入当前判别网络，得到样本判别概率值和样本反馈系数；

S22，在样本反馈系数指示样本判别概率值尚未达到收敛条件的情况下，根据样本判别概率值调整当前图像描述信息生成网络，得到训练后的图像描述信息生成网络，并根据训练后的图像描述信息生成网络调整当前判别网络，得到训练后的判别网络；将训练后的图像描述信息生成网络作为当前图像描述信息生成网络，并将训练后的判别网络作为当前判别网络；在样本反馈系数指示样本判别概率值已达到收敛条件的情况下，将当前图像描述信息生成网络作为目标图像描述信息生成网络。

具体结合图9所示示例进行说明。假设获取到的样本图像为图像I，对应的样本图像描述信息为x₁:_T。当前图像信息生成网络和当前判别网络的网络框架以上述示例中所构建的框架为例。

将图像I输入当前图像信息生成网络中的Faster R-CNN，Faster R-CNN提取该图像I的局部特征向量，例如，{v₁,v₂,…,v_k|k＝{10,11,12,…,100}}，及全局特征向量

将局部特征向量输入Soft Attention，以进行加权平均处理得到

其中，

与时刻t相关。将作为图像I的图像特征向量的全局特征向量

分别输入双层LSTM和判别网络D。将样本图像描述信息为x_1：T输入当前图像信息生成网络中的词嵌入矩阵Embedding，得到图像I对应的词特征向量。其中，上述图像特征向量和词特征向量构成用于标识图像I的特征的图像向量。

进一步，在基于上述构建的网络框架进行对抗式训练的过程中，当前判别网络D将获得正样本{(I,x_1：T)}，及负样本：{(I,y_1：T)}和

其中，正样本{(I,x_1：T)}是根据图像I及样本图像描述信息x_1：T得到；负样本{(I,y_1：T)}根据图像I及当前图像描述信息生成网络G所生成的样本图像描述生成信息y_1：T得到；

是根据图像I及当前图像描述信息生成网络G所生成的样本图像参考描述信息

得到。其中，样本图像参考描述信息

是当前图像描述信息生成网络G所生成的与样本图像描述生成信息y_1：T的描述质量不一样的图像描述信息。例如，样本图像参考描述信息

的表达顺序与样本图像描述生成信息y_1：T不同，或，样本图像参考描述信息

的表达习惯与样本图像描述生成信息y_1：T不同。需要说明的是，样本图像描述生成信息y_1：T与图像I的匹配度，相对样本图像参考描述信息

的与图像I的匹配度更高，也就是说，样本图像描述生成信息y_1：T的生成质量高于样本图像参考描述信息

的生成质量。

然后，当前判别网络D将从上述正样本和负样本中随机选择一个样本作为待判别样本描述信息，并对该待判别样本描述信息进行判别，得到样本判别概率值p。进一步，语言模型Q也将计算对应的评价分值s。利用上述样本判别概率值p和评价分值s来计算样本反馈系数r，根据r来调整优化当前图像描述信息生成网络G中参数，以实现对当前图像描述信息生成网络的训练。

其中，在样本反馈系数r指示样本判别概率值p尚未达到收敛条件的情况下，则根据样本判别概率值p调整当前图像描述信息生成网络G_k，得到训练后的图像描述信息生成网络G_k+1，并根据训练后的图像描述信息生成网络G_k+1调整当前判别网络D_k，得到训练后的判别网络D_k+1；然后，再将训练后的图像描述信息生成网络G_k+1作为当前图像描述信息生成网络G_k，并将训练后的判别网络D_k+1作为当前判别网络D_k，重复上述步骤继续训练。在样本反馈系数r指示样本判别概率值p已达到收敛条件的情况下，将当前图像描述信息生成网络G_k作为目标图像描述信息生成网络G_目标。

通过本申请提供的实施例，在确定当前图像描述信息生成网络和当前判别网络之后，对二者重复执行交替训练，以实现对抗训练优化，直至得到图像描述信息生成质量得到提升的目标图像描述信息生成网络，从而克服相关技术中仅利用RNN-CNN结构对图像进行简单的编解码操作所得到的图像描述信息的描述质量较差的问题，进一步提升图像描述的质量。

作为一种可选的方案，在根据样本判别概率值调整当前图像描述信息生成网络，得到训练后的图像描述信息生成网络，并根据训练后的图像描述信息生成网络调整当前判别网络，得到训练后的判别网络之前，还包括：

S1，确定当前判别网络输出的样本判别概率值；

S2，通过语言模型获取样本图像描述生成信息与样本图像之间的第一匹配度，其中，语言模型中包括一个或多个用于评价样本图像描述生成信息的参数；

S3，对样本判别概率值及第一匹配度进行加权平均处理，得到样本反馈系数。

需要说明的是，上述语言模型可以但不限于包括一个或多个用于评价图像描述生成信息的生成质量的指标参数，如BLEU，ROUGE，METEOR，CIDEr，SPICE等。其中，上述参数与人类对图像描述生成信息的主观评判具有相关性，因而，上述参数的综合评价分值，可以用于指示样本图像描述生成信息和样本图像二者之间的关联性，如匹配度，进一步可以利用该匹配度来客观反映出图像描述生成信息的生成质量。

具体结合图9所示示例进行说明，在对抗式训练过程中，图像描述信息生成网络G将生成与图像I对应的图像描述生成信息y_1：T，并将该图像描述生成信息y_1：T发送给判别网络D进行判别，发送给语言模型Q以获取对应的评价分值。然后，根据判别网络D的判别结果p和语言模型Q的评价分值s，来获取用于调整图像描述信息生成网络G的样本反馈系数r，从而实现根据r来训练优化图像描述信息生成网络。其中，上述样本反馈系数r的计算方式可以包括但不限于：

r＝λ·p+(1-λ)·s (9)

其中，λ为加权平均系数。

通过本申请提供的实施例，结合判别网络和语言模型，来共同确定对图像描述信息生成网络的调整优化内容，将有利于提升对图像描述信息生成网络的训练质量，从而使得最终训练得到的目标图像描述信息生成网络所生成的目标图像描述信息的质量更好，更有利于客观准确地反映出图像中的内容。

作为一种可选的方案，根据样本判别概率值调整当前图像描述信息生成网络，得到训练后的图像描述信息生成网络包括：

S1，根据样本判别概率值调整当前图像描述信息生成网络中以下至少一种结构中的参数：当前基于区域的卷积神经网络、当前注意力序列化语言模型及当前双层长短时记忆网络。

可选地，在本实施例，在图像描述信息生成网络是基于区域的卷积神经网络、注意力序列化语言模型及双层长短时记忆网络而构建的情况下，则在对抗式训练过程中，上述图像描述信息生成网络中被调整的参数包括以下至少一种结构中的参数：当前基于区域的卷积神经网络、当前注意力序列化语言模型及当前双层长短时记忆网络。也就是说，在对抗式训练过程中，可以但不限于对至少一种结构中的参数进行调整优化，以确保训练所得到的图像描述信息生成网络的生成质量更好。

作为一种可选的方案，根据训练后的图像描述信息生成网络调整当前判别网络，得到训练后的判别网络包括：

S1，获取训练后的图像描述信息生成网络所输出的训练后的样本图像描述生成信息，或训练后的样本图像参考描述信息；

S2，利用样本图像描述信息、训练后的样本图像描述生成信息或训练后的样本图像参考描述信息中，调整当前判别网络中卷积神经网络结构中的参数，得到训练后的判别网络。

可选地，在本实施例，在判别网络是基于卷积神经网络结构而构建的情况下，则在对抗式训练过程中，可以但不限于利用从样本图像描述信息、训练后的样本图像描述生成信息或训练后的样本图像参考描述信息中随机选择的待判别样本描述信息，来对判别网络中卷积神经网络结构中的参数进行调整优化，以实现对判别网络和图像描述信息生成网络进行联合训练的目的。

S2，利用样本图像描述信息、训练后的样本图像描述生成信息或训练后的样本图像参考描述信息中，调整当前判别网络中循环神经网络结构中的参数，得到训练后的判别网络。

可选地，在本实施例，在判别网络是基于循环神经网络结构而构建的情况下，则在对抗式训练过程中，可以但不限于利用从样本图像描述信息、训练后的样本图像描述生成信息或训练后的样本图像参考描述信息中随机选择的待判别样本描述信息，来对判别网络中循环神经网络结构中的参数进行调整优化，以实现对判别网络和图像描述信息生成网络进行联合训练的目的。

具体结合以下示例说明。假设获取到图像描述生成网络G_θ；判别网络

语言模型Q；训练集S＝{(I,x_1：T)}。则通过以下步骤进行对抗式训练，以得到图像描述生成网络G_θ的最优参数θ和判别网络

的最优参数φ。

S1：随机获取初始化的G_θ和

S2：在训练集S上用MLE方法预训练G_θ

S3：用预训练好的G_θ生成预训练集

S4：在S_D上预训练

S5：重复执行以下步骤，直到满足收敛条件：

S6：for g-steps＝1:g do

S7：用G_θ生成一个mini-batch{(I,y_1：T)}。

S8：通过

计算p值。

S9：通过Q计算s值。

S10：结合

和Q计算r值。

S11：用强化学习方法self-critical更新参数θ。

S12：end for

S13：for d-steps＝1:d do

S 14：用G_θ生成负样本{(I,y_1：T)}，结合负样本

和正样本{(I,x_1：T)}。

S15：更新参数φ

S 16：end for

优选地，通过上述对抗式训练可以但不限于确定参数可以如下：λ＝0.3，Q＝CIDErD，g＝1，d＝1。这里仅是示例，本实施例中对此不做任何限定。

如图10所示给出了各个客观评价指标(BLEU，ROUGE，METEOR，CIDEr，SPICE)和用户主观评价指标的相关性，可以看出SPICE和用户评价指标关联性最大，METEOR和CIDEr相关性也不错，BLEU和ROUGE就比较低了。

通过本申请实施例所提供的目标图像描述信息生成网络所生成的目标图像描述信息，生成质量有明显改善提升。其中，本申请实施例中的图像描述生成框架也可以应用于其他基于强化学习训练的图像描述算法中。具体如图11-12示出了在各个评价指标上的比对结果。其中，在图11中，各列分别表示BLEU，METEOR，ROUGE，CIDEr和SPICE不同的客观评价标准，最后两列中CNN-D和RNN-D分别为本申请实施例所提出的基于CNN判别器得到的目标图像描述信息生成网络和基于RNN判别器得到的目标图像描述信息生成网络的判别结果。None是指没有用GANs的训练方法，CNN-GAN和RNN-GAN分别为用CNN判别器和RNN判别器训练的结果。Ensemble是4个CNN-GAN和4个RNN-GAN模型集成的结果。从图11的比对结果看出，使用本申请实施例的训练方法，能够有效的提高所有客观指标的数值。提高幅度从1.28％到13.93％不等。图12所示为各种算法在MSCOCO竞赛榜单上的测试结果，其中，最后一行可以看出本申请实施例所提供的方案的生成质量已得到综合优化。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述图像描述信息生成方法的图像描述信息生成装置。作为一种可选的实施方式，上述图像描述信息生成装置可以但不限于应用于如图1所示的硬件环境中。可选的，如图13所示，该装置可以包括：

1)获取单元1302，用于获取待处理的目标图像；

2)输入单元1304，用于将所述目标图像输入目标图像描述信息生成网络，其中，所述目标图像描述信息生成网络为利用多个样本图像进行对抗式训练后所得到的用于生成图像描述信息的生成网络，所述对抗式训练是基于与所述目标图像描述信息生成网络相匹配的初始化的图像描述信息生成网络，及初始化的判别网络，而进行的交替训练，所述判别网络用于判别所述图像描述信息生成网络的输出结果；

3)生成单元1306，用于根据所述目标图像描述信息生成网络的输出结果，生成用于描述所述目标图像的目标图像描述信息。

可选地，在本实施例中，上述图像描述信息生成装置可以但不限于应用于图像识别场景、图像检索场景、图像校验场景等需要获取与图像中所呈现的图像内容相匹配的图像描述信息的场景。以图像校验场景为例，在获取到待校验的目标图像后，将该目标图像输入通过对抗式训练所得到的目标图像描述信息生成网络，利用该目标图像描述信息生成网络来生成与上述目标图像相匹配的目标图像描述信息，其中，该对抗式训练是基于与目标图像描述生成信息网络相匹配的初始化的图像描述信息生成网络，和初始化的判别网络，而进行的交替训练。进一步，对已改善生成质量的目标图像描述信息进行信息校验，以确定该目标图像是否通过验证，从而保证图像校验的准确性。上述场景仅是一种示例，本实施例中对此不做任何限定。

例如，如图5所示，假设样本图像为图像I，对应的样本图像描述信息为x₁:_T。图像I输入CNN，CNN提取该图像I的局部特征向量，例如，{v₁,v₂,…,v_k|k＝{10,11,12,…,100}}，及全局特征向量

将局部特征向量输入Attention，以进行加权平均处理得到

其中，

与时刻t相关。将

r＝λ·p+(1-λ)·s (10)

其中，λ为加权平均系数。

通过上述公式(10)将获取到目标图像输入待训练的图像描述信息生成网络和判别网络之后得到的反馈系数r，根据该反馈系数r的取值，来对图像描述信息生成网络，进行调整优化，进一步再利用调整后的图像描述信息生成网络的输出结果对判别网络进行调整优化，通过交替训练最终达到收敛，从而得到目标图像描述信息生成网络。

作为一种可选的方案，如图14所示，上述装置还包括：

1)构建单元1402，用于在所述获取待处理的目标图像之前，构建所述初始化的图像描述信息生成网络，及所述初始化的判别网络；

2)训练单元1404，用于对所述初始化的图像描述信息生成网络，及所述初始化的判别网络进行对抗式训练，得到所述目标图像描述信息生成网络。

作为一种可选的方案，构建单元1102包括：

1)第一构建模块，用于基于卷积神经网络结构、第一多层感知机及第一分类网络构建第一初始化判别网络，其中，所述第一多层感知机及所述第一分类网络用于将所述卷积神经网络结构输出的特征向量转化为概率值，所述卷积神经网络结构包括：M层卷积核，所述M层卷积核中第i层卷积核用于对所述样本图像的样本图像向量按照第i种尺寸进行卷积运算，所述i为小于等于M的正整数，所述样本图像向量是根据所述样本图像的图像特征向量及所述样本图像对应的样本图像描述信息中包含的词特征向量确定的；

具体结合图6所示进行说明。在第一初始化判别网络中包括具有M层卷积核的卷积神经网络结构，第一多层感知机(Multi-Layer Perception，简称MLP)及第一分类网络(如softmax)。其中，M层卷积核中每层卷积核用于指示一种用于进行卷积运算的尺寸，如第i层卷积核是第i种尺寸进行卷积，对应的卷积核数量为n_i个。第一MLP及第一分类网络softmax，用于将上述M层卷积核的输出结果进行转化，得到用于指示判别结果的概率值。

c＝[c₁,c₂,…,c_T-l+2] (12)

其中，

c_i＝ReLU(w*ε_i:i+l-1+b) (13)

假设T＝16，则卷积核窗口大小和数量可以如表2所示：

表2

2)第二构建模块，用于基于循环神经网络结构、第二多层感知机及第二分类网络构建第二初始化判别网络，其中，所述第二多层感知机及所述第二分类网络用于将所述循环神经网络结构输出的特征向量转化为概率值，所述循环神经网络结构包括：N层长短时记忆网络，所述N根据所述样本图像的样本图像向量确定，所述样本图像向量是根据所述样本图像的图像特征向量及所述样本图像对应的样本图像描述信息中包含的词特征向量确定的。

p＝σ(W_R·h_t+1+b_R) (17)

其中，上述参数W_R、b_R、σ为训练过程中所要确定的参数。

作为一种可选的方案，构建单元1102包括：

1)第三构建模块，用于利用基于区域的卷积神经网络、注意力序列化语言模型及双层长短时记忆网络构建所述初始化的图像描述信息生成网络，其中，所述基于区域的卷积神经网络用于从所述样本图像中提取出局部特征向量和全局特征向量；所述注意力序列化语言模型用于对所述局部特征向量进行加权平均处理，得到平均特征向量；所述双层长短时记忆网络用于利用所述平均特征向量及所述全局特征向量得到待判别对象向量，所述待判别对象向量将输入所述初始化的判别网络。

将局部特征向量输入SoftAttention，以进行加权平均处理得到

其中，

与时刻t相关。将

和隐藏向量

将确定出隐藏向量

对于第二层LSTM2根据隐藏向量

和隐藏向量

将确定出隐藏向量

其中，LSTM1的输出

会用于训练SoftAttention中的权重，LSTM2的输出

作为一种可选的方案，训练单元1404包括：

1)处理模块，用于重复执行以下步骤，直至得到所述目标图像描述信息生成网络：

S1，确定当前图像描述信息生成网络和当前判别网络，其中，所述当前图像描述信息生成网络的初始值为所述初始化的图像描述信息生成网络，所述当前判别网络的初始值为所述初始化的判别网络；

S2，获取所述样本图像及与所述样本图像对应的样本图像描述信息；

S3，将所述样本图像和所述样本图像描述信息，输入所述当前图像描述信息生成网络，得到与所述样本图像匹配的样本图像描述生成信息，或与所述样本图像匹配的样本图像参考描述信息，其中，所述样本图像描述生成信息与所述样本图像之间的第一匹配度，大于所述样本图像参考描述信息与所述样本图像之间的第二匹配度；

S4，从所述样本图像描述信息、所述样本图像描述生成信息或所述样本图像参考描述信息中确定出待判别样本描述信息；

S5，将所述样本图像和所述待判别样本描述信息输入所述当前判别网络，得到样本判别概率值和样本反馈系数；

S6，在所述样本反馈系数指示所述样本判别概率值尚未达到收敛条件的情况下，根据所述样本判别概率值调整所述当前图像描述信息生成网络，得到训练后的图像描述信息生成网络，并根据所述训练后的图像描述信息生成网络调整所述当前判别网络，得到训练后的判别网络；将所述训练后的图像描述信息生成网络作为所述当前图像描述信息生成网络，并将所述训练后的判别网络作为所述当前判别网络；在所述样本反馈系数指示所述样本判别概率值已达到所述收敛条件的情况下，将所述当前图像描述信息生成网络作为所述目标图像描述信息生成网络。

具体结合图9所示示例进行说明。假设获取到的样本图像为图像I，对应的样本图像描述信息为x_1：T。当前图像信息生成网络和当前判别网络的网络框架以上述示例中所构建的框架为例。

将局部特征向量输入Soft Attention，以进行加权平均处理得到

其中，

与时刻t相关。将作为图像I的图像特征向量的全局特征向量

得到。其中，样本图像参考描述信息

的生成质量。

作为一种可选的方案，训练单元1404还包括：

1)确定模块，用于在所述根据所述样本判别概率值调整所述当前图像描述信息生成网络，得到训练后的图像描述信息生成网络，并根据所述训练后的图像描述信息生成网络调整所述当前判别网络，得到训练后的判别网络之前，确定所述当前判别网络输出的所述样本判别概率值；

2)获取模块，用于通过语言模型获取所述样本图像描述生成信息与所述样本图像之间的所述第一匹配度，其中，所述语言模型中包括一个或多个用于评价所述样本图像描述生成信息的参数；

3)加权平均处理模块，用于对所述样本判别概率值及所述第一匹配度进行加权平均处理，得到所述样本反馈系数。

r＝λ·p+(1-λ)·s (18)

其中，λ为加权平均系数。

作为一种可选的方案，所述训练单元通过以下步骤实现所述根据所述样本判别概率值调整所述当前图像描述信息生成网络，得到训练后的图像描述信息生成网络包括：

S1，根据所述样本判别概率值调整所述当前图像描述信息生成网络中以下至少一种结构中的参数：当前基于区域的卷积神经网络、当前注意力序列化语言模型及当前双层长短时记忆网络。

作为一种可选的方案，所述训练单元通过以下步骤实现所述根据所述训练后的图像描述信息生成网络调整所述当前判别网络，得到训练后的判别网络包括：

S1，获取所述训练后的图像描述信息生成网络所输出的训练后的样本图像描述生成信息，或训练后的样本图像参考描述信息；

S2，利用所述样本图像描述信息、所述训练后的样本图像描述生成信息或所述训练后的样本图像参考描述信息中，调整所述当前判别网络中卷积神经网络结构中的参数，得到所述训练后的判别网络。

S2，利用所述样本图像描述信息、所述训练后的样本图像描述生成信息或所述训练后的样本图像参考描述信息中，调整所述当前判别网络中循环神经网络结构中的参数，得到所述训练后的判别网络。

根据本发明实施例的又一个方面，还提供了一种用于实施上述图像描述信息生成方法的电子装置，如图15所示，该电子装置包括存储器1502和处理器1504，该存储器1502中存储有计算机程序，该处理器1504被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待处理的目标图像；

S2，将目标图像输入目标图像描述信息生成网络，其中，目标图像描述信息生成网络为利用多个样本图像进行对抗式训练后所得到的用于生成图像描述信息的生成网络，对抗式训练是基于与目标图像描述信息生成网络相匹配的初始化的图像描述信息生成网络，及初始化的判别网络，而进行的交替训练，判别网络用于判别图像描述信息生成网络的输出结果；

S3，根据目标图像描述信息生成网络的输出结果，生成用于描述目标图像的目标图像描述信息。

可选地，本领域普通技术人员可以理解，图15所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图15其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图15中所示更多或者更少的组件(如网络接口等)，或者具有与图15所示不同的配置。

其中，存储器1502可用于存储软件程序以及模块，如本发明实施例中的图像描述信息生成方法和装置对应的程序指令/模块，处理器1304通过运行存储在存储器1502内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像描述信息生成方法。存储器1302可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1202可进一步包括相对于处理器1504远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1502具体可以但不限于用于存储物品的样本特征与目标虚拟资源账号等信息。作为一种示例，如图15所示，上述存储器1502中可以但不限于包括上述图像描述信息生成方法装置中的获取单元1302、输入单元1304、生成单元1306及构建单元1402和训练单元1404。此外，还可以包括但不限于上述图像描述信息生成方法装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1506包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1506为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1508，用于显示上述待处理的目标图像及目标图像描述信息；和连接总线1510，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待处理的目标图像；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像描述信息生成方法，其特征在于，包括：

确定当前图像描述信息生成网络和当前判别网络，其中，所述当前图像描述信息生成网络的初始值为初始化的图像描述信息生成网络，所述当前判别网络的初始值为初始化的判别网络；

获取样本图像及与所述样本图像对应的样本图像描述信息；

将所述样本图像和所述样本图像描述信息，输入所述当前图像描述信息生成网络，得到与所述样本图像匹配的样本图像描述生成信息，或与所述样本图像匹配的样本图像参考描述信息，其中，所述样本图像描述生成信息与所述样本图像之间的第一匹配度，大于所述样本图像参考描述信息与所述样本图像之间的第二匹配度；

从所述样本图像描述信息、所述样本图像描述生成信息或所述样本图像参考描述信息中确定出待判别样本描述信息；

将所述样本图像和所述待判别样本描述信息输入所述当前判别网络，得到样本判别概率值和样本反馈系数；

在所述样本反馈系数指示所述样本判别概率值尚未达到收敛条件的情况下，根据所述样本判别概率值调整所述当前图像描述信息生成网络，得到训练后的图像描述信息生成网络，并根据所述训练后的图像描述信息生成网络调整所述当前判别网络，得到训练后的判别网络；将所述训练后的图像描述信息生成网络作为所述当前图像描述信息生成网络，并将所述训练后的判别网络作为所述当前判别网络；

在所述样本反馈系数指示所述样本判别概率值已达到所述收敛条件的情况下，将所述当前图像描述信息生成网络作为目标图像描述信息生成网络；

重复执行以上步骤，直至得到所述目标图像描述信息生成网络；

获取待处理的目标图像；

将所述目标图像输入所述目标图像描述信息生成网络；根据所述目标图像描述信息生成网络的输出结果，生成用于描述所述目标图像的目标图像描述信息。

2.根据权利要求1所述的方法，其特征在于，在确定当前图像描述信息生成网络和当前判别网络之前，还包括：

构建所述初始化的图像描述信息生成网络，及所述初始化的判别网络。

3.根据权利要求2所述的方法，其特征在于，构建所述初始化的判别网络包括：

基于卷积神经网络结构、第一多层感知机及第一分类网络构建第一初始化判别网络，其中，所述第一多层感知机及所述第一分类网络用于将所述卷积神经网络结构输出的特征向量转化为概率值，所述卷积神经网络结构包括：M层卷积核，所述M层卷积核中第i层卷积核用于对所述样本图像的样本图像向量按照第i种尺寸进行卷积运算，所述i为小于等于M的正整数，所述样本图像向量是根据所述样本图像的图像特征向量及所述样本图像对应的样本图像描述信息中包含的词特征向量确定的；或者

基于循环神经网络结构、第二多层感知机及第二分类网络构建第二初始化判别网络，其中，所述第二多层感知机及所述第二分类网络用于将所述循环神经网络结构输出的特征向量转化为概率值，所述循环神经网络结构包括：N层长短时记忆网络，所述N根据所述样本图像的样本图像向量确定，所述样本图像向量是根据所述样本图像的图像特征向量及所述样本图像对应的样本图像描述信息中包含的词特征向量确定的。

4.根据权利要求3所述的方法，其特征在于，构建所述初始化的图像描述信息生成网络包括：

利用基于区域的卷积神经网络、注意力序列化语言模型及双层长短时记忆网络构建所述初始化的图像描述信息生成网络，其中，所述基于区域的卷积神经网络用于从所述样本图像中提取出局部特征向量和全局特征向量；所述注意力序列化语言模型用于对所述局部特征向量进行加权平均处理，得到平均特征向量；所述双层长短时记忆网络用于利用所述平均特征向量及所述全局特征向量得到待判别对象向量，所述待判别对象向量将输入所述初始化的判别网络。

5.根据权利要求1所述的方法，其特征在于，在所述根据所述样本判别概率值调整所述当前图像描述信息生成网络，得到训练后的图像描述信息生成网络，并根据所述训练后的图像描述信息生成网络调整所述当前判别网络，得到训练后的判别网络之前，还包括：

确定所述当前判别网络输出的所述样本判别概率值；

通过语言模型获取所述样本图像描述生成信息与所述样本图像之间的所述第一匹配度，其中，所述语言模型中包括一个或多个用于评价所述样本图像描述生成信息的参数；

对所述样本判别概率值及所述第一匹配度进行加权平均处理，得到所述样本反馈系数。

6.根据权利要求1所述的方法，其特征在于，所述根据所述样本判别概率值调整所述当前图像描述信息生成网络，得到训练后的图像描述信息生成网络包括：

根据所述样本判别概率值调整所述当前图像描述信息生成网络中以下至少一种结构中的参数：当前基于区域的卷积神经网络、当前注意力序列化语言模型及当前双层长短时记忆网络。

7.根据权利要求1所述的方法，其特征在于，所述根据所述训练后的图像描述信息生成网络调整所述当前判别网络，得到训练后的判别网络包括：

获取所述训练后的图像描述信息生成网络所输出的训练后的样本图像描述生成信息，或训练后的样本图像参考描述信息；

利用所述样本图像描述信息、所述训练后的样本图像描述生成信息或所述训练后的样本图像参考描述信息中，调整所述当前判别网络中卷积神经网络结构中的参数，得到所述训练后的判别网络。

8.根据权利要求1所述的方法，其特征在于，所述根据所述训练后的图像描述信息生成网络调整所述当前判别网络，得到训练后的判别网络包括：

利用所述样本图像描述信息、所述训练后的样本图像描述生成信息或所述训练后的样本图像参考描述信息中，调整所述当前判别网络中循环神经网络结构中的参数，得到所述训练后的判别网络。

9.一种图像描述信息生成装置，其特征在于，包括：

训练单元，用于确定当前图像描述信息生成网络和当前判别网络，其中，所述当前图像描述信息生成网络的初始值为初始化的图像描述信息生成网络，所述当前判别网络的初始值为初始化的判别网络；获取样本图像及与所述样本图像对应的样本图像描述信息；将所述样本图像和所述样本图像描述信息，输入所述当前图像描述信息生成网络，得到与所述样本图像匹配的样本图像描述生成信息，或与所述样本图像匹配的样本图像参考描述信息，其中，所述样本图像描述生成信息与所述样本图像之间的第一匹配度，大于所述样本图像参考描述信息与所述样本图像之间的第二匹配度；从所述样本图像描述信息、所述样本图像描述生成信息或所述样本图像参考描述信息中确定出待判别样本描述信息；将所述样本图像和所述待判别样本描述信息输入所述当前判别网络，得到样本判别概率值和样本反馈系数；在所述样本反馈系数指示所述样本判别概率值尚未达到收敛条件的情况下，根据所述样本判别概率值调整所述当前图像描述信息生成网络，得到训练后的图像描述信息生成网络，并根据所述训练后的图像描述信息生成网络调整所述当前判别网络，得到训练后的判别网络；将所述训练后的图像描述信息生成网络作为所述当前图像描述信息生成网络，并将所述训练后的判别网络作为所述当前判别网络；在所述样本反馈系数指示所述样本判别概率值已达到所述收敛条件的情况下，将所述当前图像描述信息生成网络作为目标图像描述信息生成网络；重复执行以上步骤，直至得到所述目标图像描述信息生成网络；

获取单元，用于获取待处理的目标图像；

输入单元，用于将所述目标图像输入所述目标图像描述信息生成网络；

生成单元，用于根据所述目标图像描述信息生成网络的输出结果，生成用于描述所述目标图像的目标图像描述信息。

10.根据权利要求9所述的装置，其特征在于，还包括：

构建单元，用于在确定当前图像描述信息生成网络和当前判别网络之前，构建所述初始化的图像描述信息生成网络，及所述初始化的判别网络。

11.根据权利要求10所述的装置，其特征在于，所述构建单元包括：

第一构建模块，用于基于卷积神经网络结构、第一多层感知机及第一分类网络构建第一初始化判别网络，其中，所述第一多层感知机及所述第一分类网络用于将所述卷积神经网络结构输出的特征向量转化为概率值，所述卷积神经网络结构包括：M层卷积核，所述M层卷积核中第i层卷积核用于对所述样本图像的样本图像向量按照第i种尺寸进行卷积运算，所述i为小于等于M的正整数，所述样本图像向量是根据所述样本图像的图像特征向量及所述样本图像对应的样本图像描述信息中包含的词特征向量确定的；或者

第二构建模块，用于基于循环神经网络结构、第二多层感知机及第二分类网络构建第二初始化判别网络，其中，所述第二多层感知机及所述第二分类网络用于将所述循环神经网络结构输出的特征向量转化为概率值，所述循环神经网络结构包括：N层长短时记忆网络，所述N根据所述样本图像的样本图像向量确定，所述样本图像向量是根据所述样本图像的图像特征向量及所述样本图像对应的样本图像描述信息中包含的词特征向量确定的。

12.根据权利要求11所述的装置，其特征在于，所述构建单元包括：

第三构建模块，用于利用基于区域的卷积神经网络、注意力序列化语言模型及双层长短时记忆网络构建所述初始化的图像描述信息生成网络，其中，所述基于区域的卷积神经网络用于从所述样本图像中提取出局部特征向量和全局特征向量；所述注意力序列化语言模型用于对所述局部特征向量进行加权平均处理，得到平均特征向量；所述双层长短时记忆网络用于利用所述平均特征向量及所述全局特征向量得到待判别对象向量，所述待判别对象向量将输入所述初始化的判别网络。

13.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。