CN111046904A

CN111046904A - 一种图像描述方法、图像描述装置及计算机存储介质

Info

Publication number: CN111046904A
Application number: CN201911047776.8A
Authority: CN
Inventors: 杨敏; 李成明; 姜青山
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Zhuhai Institute Of Advanced Technology Chinese Academy Of Sciences Co ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-04-21
Anticipated expiration: 2039-10-30
Also published as: CN111046904B

Abstract

本申请公开了一种图像描述方法、图像描述装置及计算机存储介质。其中，所述方法包括：获取待描述图像；从预设图像样本中检索与待描述图像相匹配的目标图像以及用于对目标图像进行描述的目标描述文本；根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，摘抄目标描述文本中的描述词语作为当前描述词语或生成新的当前描述词语，以进一步生成对待描述图像的描述文本。通过上述方式，能够有效提高图像描述文本的质量，使描述文本更准确、通顺和规范。

Description

一种图像描述方法、图像描述装置及计算机存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像描述方法、图像描述装置及计算机存储介质。

背景技术

图像描述是一项结合了计算机视觉和自然语言处理两个领域的一项非常有挑战的任务。这项任务的目标是通过计算机来生成给定图像通顺的目然语言描述，这就要求计算机不仅能够准确的识别图像中的物体以及物体间的关系，而且还要能够使用自然语言通顺完整地将图像中的内容描述出来。随着深度学习相关方法被广泛的应用到计算机视觉领域，目前，计算机可以较好的完成图像中的目标检测、物体分割等任务，但理解图像中物体间的关系，并用自然语言表达出来仍就是一个较为困难的问题。

针对这个问题，相关学者也提出许多方法来尝试解决这个问题，其中，基于检索的方法和基于生成的方法是目前主流的方法，但这两种描述方法依然存在描述不够具体准确或不够规范的问题。

发明内容

为了解决上述问题，本申请提供了一种图像描述方法、图像描述装置及计算机存储介质，能够有效提高图像描述文本的质量，使描述文本更准确、通顺和规范。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种图像描述方法，包括：获取待描述图像；从预设图像样本中检索与待描述图像相匹配的目标图像以及用于对目标图像进行描述的目标描述文本；根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，摘抄目标描述文本中的描述词语作为当前描述词语或生成新的当前描述词语，以进一步生成对待描述图像的描述文本。

其中，从预设图像样本中检索与待描述图像相匹配的目标图像以及用于对目标图像进行描述的目标描述文本，包括：对待描述图像进行特征提取，以得到特征向量；利用特征向量在预设图像样本中搜索相似度大于设定阈值的多个样本图像；获取与多个样本图像对应的多个描述文本；从多个描述文本中确定与待描述图像相匹配的目标描述文本。

其中，从多个描述文本中确定与待描述图像相匹配的目标描述文本，包括：计算多个描述文本中每个描述文本，与多个描述文本中剩余的描述文本的相似度；选择相似度最大的一个描述文本作为目标描述文本。

其中，根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，摘抄目标描述文本中的描述词语作为当前描述词语或生成新的当前描述词语，包括：计算摘抄目标描述文本中的描述词语作为当前描述词语的第一概率；以及根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，计算生成新的当前描述词语的第二概率；根据第一概率和第二概率摘抄目标描述文本中的描述词语作为当前描述词语或生成新的当前描述词语。

其中，计算摘抄目标描述文本中的描述词语作为当前描述词语的第一概率，包括：利用长短期记忆网络将目标描述文本转换为隐藏序列；基于隐藏序列计算摘抄目标描述文本中的描述词语作为当前描述词语的第一概率。

其中，基于隐藏序列计算摘抄目标描述文本中的描述词语作为当前描述词语的第一概率，包括：采用以下公式计算：

其中，

是一个非线性的激活函数，U^c为一个可学习参数，h′_i为隐藏序列，p^c(y_t|y_1：t-1，v)为第一概率，y_1：t-1为历史描述词语。

其中，根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，计算生成新的当前描述词语的第二概率，包括：对待描述图像进行特征提取，以得到特征向量；对特征向量进行池化处理；将池化处理后的特征向量输入双层注意力网络，以得到待生成的当前描述词语与前一已生成的历史描述词语之间的关系参数；根据待生成的当前描述词语与前一已生成的历史描述词语之间的关系参数，计算生成新的当前描述词语的第二概率。

其中，双层注意力网络包括第一长短期记忆网络和第二长短期记忆网络；将池化处理后的特征向量输入双层注意力网络，以得到待生成的当前描述词语与前一已生成的历史描述词语之间的关系参数，包括：将池化处理后的特征向量、第二长短期记忆网络输出的前一关系参数、前一已生成的历史描述词语，输入至第一长短期记忆网络，以得到第一关系参数；将特征向量和第一关系参数，输入至第二长短期记忆网络，以得到第二关系参数。

其中，将特征向量和第一关系参数，输入至第二长短期记忆网络，以得到第二关系参数，包括：对特征向量引入注意力机制；将引入注意力机制后的特征向量和第一关系参数，输入至第二长短期记忆网络，以得到第二关系参数。

其中，根据待生成的当前描述词语与前一已生成的历史描述词语之间的关系参数，计算生成新的当前描述词语的第二概率，包括：采用以下公式计算：

其中，U^g和b^g为可学习的参数，

为关系参数，v为特征向量，y_1：t-1为历史描述词语。

其中，方法还包括：利用待描述图像的特征、目标描述文本、以及生成的待描述图像的描述文本，输入至判别器，以计算对待描述图像的描述文本为真的概率。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种图像描述装置，包括处理器和存储器，处理器耦接存储器，其中，存储器用于存储处理器执行的计算机程序；处理器用于执行计算机程序以实现上述文本生成图像的方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机存储介质，用于存储计算机程序，计算机程序在被处理器执行时，用于实现上述图像描述方法。

本申请提供的一种图像描述方法包括：获取待描述图像；从预设图像样本中检索与待描述图像相匹配的目标图像以及用于对目标图像进行描述的目标描述文本；根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，摘抄目标描述文本中的描述词语作为当前描述词语或生成新的当前描述词语，以进一步生成对待描述图像的描述文本。通过上述方式，摘抄目标描述文本作为当前描述词语或生成新的当前描述词语，二者相结合，能够有效提高图像描述文本的质量，使描述文本更准确、通顺和规范。

附图说明

图1是本申请提供的图像描述方法一实施例的流程示意图；

图2是图1实施例图像描述方法中步骤S102的一具体流程示意图；

图3是图1实施例图像描述方法中步骤S103的一具体流程示意图；

图4是图3实施例图像描述方法中步骤S302的一具体流程示意图；

图5是本申请提供的图像描述方法一实施例的整体流程示意图；

图6是本申请图像描述装置第一实施例的结构示意图；

图7是本申请图像描述装置第二实施例的结构示意图；

图8是本申请计算机存储介质实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的发明人经过长期的研究发现：两种主流的图像描述方法中，基于检索的方法是将已有的图像描述文本直接或微调后拿来使用，不是为待描述图像专门产生，这会导致给出的描述不够具体，不能较好的表达图像的内容；而基于生成的方法虽然能够有效缓解基于检索的方法生成的描述不够具体的问题，但是由于该方法是不加参考而直接生成，因此基于生成的方法生成的描述语言不够流利，与规范的自然语言表达还有差距。为了解决这些问题，本申请提出至少如下实施例。

参阅图1，本申请图像描述方法的一实施例包括：

步骤S101：获取待描述图像。

获取一个待描述的图像，其中，该待描述图像可以是JPG、PNG等格式的图像，也可以是视频中的一个图像帧。

步骤S102：从预设图像样本中检索与待描述图像相匹配的目标图像以及用于对目标图像进行描述的目标描述文本。

预先构造一个大型图像描述数据集，数据集中包含有多个预设图像样本，以及与多个预设图像样本对应的描述文本，从数据集的多个预设图像样本中检索与上述待描述图像相匹配的多个目标图像，以及与该多个目标图像对应的目标描述文本。

在一应用场景中，可以通过如图2所示的方法实现上述步骤S102，本实施例的方法包括步骤S201至步骤S204。

步骤S201：对待描述图像进行特征提取，以得到特征向量。

基于检索的模型使用一种基于Faster-RCNN的bottom-up深度神经网络对待描述图像进行特征提取，以得到待描述图像的特征向量，再对该特征向量采用均值池化(mean-pooling)的方法进行处理，得到均值池化后的特征向量。所谓均值池化即对局部接受域中的所有值求平均值，也就是对图像特征向量进行求平均值处理，以得到池化后的特征向量。

步骤S202：利用特征向量在预设图像样本中搜索相似度大于设定阈值的多个样本图像。

使用余弦相似度的方式对均值池化后的特征向量进行评估，以在数据集的多个预设图像样本中，搜索向量的余弦相似度大于设定阈值的多个样本图像。其中，余弦相似度又称为余弦相似性，通过计算两个向量的夹角余弦值来评估它们的相似度。设定阈值的范围可以是0-1，0表示完全不相同，1则表示完全相同，在本实施例中，设定阈值可以为0.5。搜索得到的多个样本图像的数量可以为k个，k的取值可以为60。

还可以通过如GIST描述符、预训练好的深度神经网络特征和经过微调的深度神经网络特征等来计算找到数据集中，与待描述图像相似度最高的k个样本图像。

步骤S203：获取与多个样本图像对应的多个描述文本。

在数据集的多个预设图像样本中搜索到余弦相似度大于设定阈值的k个样本图像后，获取与k个样本图像对应的k个描述文本，以及k个描述文本的集合C。

步骤S204：从多个描述文本中确定与待描述图像相匹配的目标描述文本。

对集合C中的k个描述文本进行文本相似度得分计算，以得到与待描述图像相匹配的目标描述文本。

在一些实施方式中，步骤S204可以包括：计算多个描述文本中每个描述文本，与多个描述文本中剩余的描述文本的相似度；选择相似度最大的一个描述文本作为目标描述文本。

计算集合C的k个描述文本中每个描述文本，与k个描述文本中剩余的描述文本之间的文本相似度，选择文本相似度得分中最高的N个描述文本作为目标描述文本，N个目标描述文本组成集合R。具体地，计算文本相似度采用以下公式计算：

其中，s_i是文本相似度得分，sim(c_i，c′)是计算两个描述文本之间相似度的一个CIDEr函数，此处，衡量两个描述文本相似度的函数还可以为BLEU函数。

步骤S103：根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，摘抄目标描述文本中的描述词语作为当前描述词语或生成新的当前描述词语，以进一步生成对待描述图像的描述文本。

根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，自行生成新的当前描述词语，或者是对集合R的N个描述文本中，文本相似度得分最高的目标描述文本进行摘抄，并将其作为当前描述词语，两种方式相结合，以得到待描述图像的描述文本。在下面的步骤中，会对该过程进行详述。

具体地，可以通过如图3所示的方法实现上述步骤S103，本实施例的方法包括步骤S301至步骤S303。

步骤S301：计算摘抄目标描述文本中的描述词语作为当前描述词语的第一概率。

对集合R的N个描述文本中，文本相似度得分最高的目标描述文本进行计算，得到摘抄目标描述文本作为当前描述词语的第一概率。

在本实施例中，步骤S301还可以包括：利用长短期记忆网络(LSTM，Long Short-Term Memory)将目标描述文本转换为隐藏序列；基于隐藏序列计算摘抄目标描述文本中的描述词语作为当前描述词语的第一概率。

利用长短期记忆网络将目标描述文本转换为隐藏序列，首先，以集合R中的目标描述文本作为参考，假设句子包含L个词语

然后使用长短期记忆网络将参考描述文本转换为隐藏序列，转换隐藏序列的具体公式为：

其中，

为词语

的词向量表示。

目标描述文本转换为隐藏序列后，根据该隐藏序列计算摘抄目标描述文本中的描述词语作为当前描述词语的第一概率。

具体地，基于隐藏序列计算摘抄目标描述文本中的描述词语作为当前描述词语的第一概率可以采用以下公式计算：

其中，

是一个非线性的激活函数，U^c为一个可学习参数，h′_i为隐藏序列，p^c(y_t|y_1：t-1，v)为第一概率，v为目标描述文本的特征向量，y_1：t-1为历史描述词语。

步骤S302：根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，计算生成新的当前描述词语的第二概率。

根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，计算自行生成新的当前描述词语的第二概率。

具体地，还可以通过如图4的方式实现上述步骤S302，包括步骤S401至步骤S404。

步骤S401：对待描述图像进行特征提取，以得到特征向量。

同样使用基于Faster-RCNN的bottom-up深度神经网络对待描述图像进行特征提取，将待描述图像编码为n个特征向量，每个特征向量的维度为d，计算公式如下：

v＝{v₁，v₂，...，v_n)＝CNN(I)

其中，v为待描述图像的特征向量集合，I为待描述图像。

步骤S402：对特征向量进行池化处理。

在得到待描述图像的特征向量后，对该特征向量采用均值池化的方法进行处理，得到均值池化后的待处理图像的特征向量。该步骤与上述步骤S201相同，此处不做赘述。

步骤S403：将池化处理后的特征向量输入双层注意力网络，以得到待生成的当前描述词语与前一已生成的历史描述词语之间的关系参数。

双层注意力网络包括第一长短期记忆网络和第二长短期记忆网络。具体地，步骤S403可以是将池化处理后的特征向量、第二长短期记忆网络输出的前一关系系数、前一已生成的历史描述词语，输入至第一长短期记忆网络，以得到第一关系参数。

其中，第一关系参数满足公式：

其中，

即为第一关系参数，

为均值池化后的特征向量，

为第二长短期记忆网络输出的前一关系参数，e(y_t-1)为前一已生成的历史描述词语，

则表示第一长短期记忆网络得到的输入，包括上述特征向量、前一关系参数、前一已生成的历史描述词语。

步骤S403还可以包括在得到第一关系参数后，将特征向量和第一关系参数输入至第二长短期记忆网络，以得到第二关系系数。

在具体的实施方式中，还可以对特征向量引入注意力机制，为了能够使得生成的待描述图像的描述文本对图像中重要的感兴趣区域更敏感，进一步提高生成的待描述图像的描述文本的质量，缓解生成的描述文本不够通顺流利的问题，对提取出的n个特征向量进行注意力机制的操作。

首先计算每个特征向量对应目标区域的注意力机制权重，注意力机制权重满足公式：

其中，f是一个两层的神经网络，其输出为标量，

为第一长短期记忆网络的前一步输出，α_t，i为每个特征向量对应目标区域的权重。

在计算得到每个特征向量对应目标区域的权重α_t，i后，通过如下公式计算出一个注意力机制下的特征向量：

在获得注意力机制下的特征向量后，将引入注意力机制后的特征向量和第一长短期记忆网络输出的第一关系系数，拼接起来一同输入至第二长短期记忆网络，以得到第二关系参数。第二关系参数满足公式：

其中，

为第二关系参数，

为第二长短期记忆网络输出的前一已生成的历史描述词语。

步骤S404：根据待生成的当前描述词语与前一已生成的历史描述词语之间的关系参数，计算生成新的当前描述词语的第二概率。

具体地，根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，计算生成新的当前描述词语的第二概率，可以采用以下公式计算：

其中，U^g和b^g为可学习的参数，

为第二关系参数，v为特征向量，y_1：t-1为历史描述词语。

步骤S303：根据第一概率和第二概率摘抄目标描述文本中的描述词语作为当前描述词语或生成新的当前描述词语。

由于目标描述文本中的描述词语不是为待描述图像专门生成，无法准确的表达待描述图像所想要表达的内容，而自行生成的描述词语则尤为准确，但依然存在缺乏流畅度的问题。

因此，在待生成的待描述图像的描述文本中，具体生成当前描述词语时，通过比较第一概率和第二概率的大小，判断是目标描述文本中词语的描述更准确，还是自行生成的词语的描述更准确，从而确定该当前描述词语是从目标描述文本中摘抄，或是自行生成，通过计算比较得到多个当前描述词语，从而进一步确定待描述图像的最终描述文本，有效地丰富生成的描述文本的信息量。

具体地，比较第一概率和第二概率的大小，确定待描述图像的当前描述词语满足公式：

p(y_t|y_1：t-1，v)＝δ(p^c(y_t|y_1：t-1，v)+p^g(y_t|y_1：t-1，v))；

区别于现有技术，本实施例提供的图像描述方法包括：获取待描述图像；从预设图像样本中检索与待描述图像相匹配的目标图像以及用于对目标图像进行描述的目标描述文本；根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，摘抄目标描述文本中的描述词语作为当前描述词语或生成新的当前描述词语，以进一步生成对待描述图像的描述文本。通过上述方式，摘抄目标描述文本作为当前描述词语或生成新的当前描述词语，二者相结合，能够有效提高图像描述文本的质量，使描述文本更准确、通顺和规范。

在一些实施方式中，图像描述方法还可以包括：利用待描述图像的特征、目标描述文本、以及生成的待描述图像的描述文本，输入至判别器，以计算对待描述图像的描述文本为真的概率。

对于得到的均值池化的图像特征向量

目标描述文本的集合R以及生成的待描述图像的描述文本，判别器将输出一个模型所生成的描述y是真描述的概率，计算的公式如下：

其中，对于生成的待描述图像的描述文本和集合R中的目标描述文本，使用LSTM来得到对应描述的隐含层表达，分别记为

和

i的取值范围为集合R的大小。其中，U^v和U^h为两个将

和

投影到同一维度的可学习的参数，N是集合R的大小，φ表示判别器的所有参数集合，[a，b]表示向量拼接，<a，b>表示向量向量点乘。判别器最终要优化的目标函数为：

其中，

为人工给出的图像描述。

在生成器部分，训练的目标就是最小化生成图像描述的负预期奖励，公式如下：

J_G(θ)＝-E_y1：t～p(θ)[r(y_1：t)]；

其中，θ是生成器的所有参数。预期奖励的梯度可以近似为：

对于一个生成的描述，对抗学习给出的奖励r由两部分组成，第一部分是通过计算如BLEU、METEOR和CIDEr等一些评价指标得到的。另一部分是判别器给出的这个描述是真的概率分数：

其中，r_m是CIDEr计算函数，γ是权重分配参数，在这里γ的取值为0.8。

下面结合图5，对上述实施例进行的过程进行详述，其中，图5是本申请提供的图像描述方法一实施例的整体流程示意图。

本申请实施例的整体流程示意图包括三个过程，如图5所示，其中：

第一过程：

首先，获取一个待描述图像，基于检索的模型使用一种基于Faster-RCNN的bottom-up深度神经网络来抽取图像的特征，并使用均值池化的方法对图像特征进行处理。对于得到的特征向量使用余弦相似度在训练集中找到与给定图像最相似的k个图像，从而得到k个对应的图像描述的集合C，对于集合C中的每一个图像文本描述，通过下面的公式计算出一个相似度得分s_i：

其中，sim(c_i，c′)是一个计算两个文本描述之间相似度的一个CIDEr函数。

进一步地，在计算得到每个描述文本的得分后，选择出前N个分数最高的描述文本，由这N个描述文本组成集合R。

然后，从集合R中随机选择一个参考描述文本，假设句子包含L个词语

然后使用LSTM将参考描述文本装换为隐藏序列

其中，

为词语

的词向量表示。然后，计算出一个是否要摘抄当前这个词语的第一概率。

其中，φ是一个非线性的激活函数，U^c是一个可学习的参数。

第二过程：

首先，对该待描述图像进行特征提取，以得到待描述图像的n个特征向量，每个特征向量的维度为d，计算公式为：

v＝{v₁，v₂，...，v_n}＝CNN(I)；

其中，v为n个特征向量的集合，I为待描述图像。

其次，同样对该部分特征向量采用均值池化的方式进行处理，将经过均值池化后的特征向量

第二层长短期记忆网络的前一步输出

和生成的前一个图像描述词语e(y_t-1)带入如下公式计算得到第一层长短期记忆网络的输入，即

其中，

第一层长短期记忆网络得到输入

后，即可计算出其隐含层的输出

计算公式为：

为了能够使得生成的图像描述对图像中的重要的感兴趣区域更敏感，在图像编码模块抽取出的n个目标区域中进行注意力机制的操作，首先计算每个目标区域对应的注意力机制权重：

其中，f是一个两层的神经网络，其输出为标量，

为第一层LSTM的前一步输出。在得到每个目标区域的权重α_t，i后，即可计算出一个注意力机制下的特征向量：

在获得注意力机制下的特征向量后，第二层LSTM即可将注意力机制下的特征向量

和第一层LSTM的隐含层输出

拼接起来作为输入的一部分，计算得到第二层LSTM的隐含层输出

其中，

为第二层LSTM的上一步隐含层输出。

至此，双层注意力网络介绍完毕，双层注意力网络，通过将注意力机制引入到图像描述中，可以有效地使文本描述对图像中的重要的感兴趣区域更敏感，产生更准确的图像描述。

最后，根据第二层LSTM的隐含层输出

和特征向量v来确定要产生下一个词语的第二概率，计算公式如下：

其中U^g和b^g是可学习的参数，y_1：t-1是已经生成的描述词语。

第三过程：

最终，将第一过程和第二过程中计算出的第一概率与第二概率带入下列公式，计算得到生成下一个描述词语的概率：

p(y_t|y_1：t-1，v)＝δ(p^c(y_t|y_1：t-1，v)+p^g(y_t|y_1：t-1，v))；

通过比较第一概率和第二概率的大小，确定当前描述词语是由第一过程通过摘抄机制生成，还是由第二过程通过双层LSTM自行生成，从而进一步确定待描述图像的最终描述文本，即图5中y₁至y_t-1所组成的描述文本。

参阅图6，本申请图像描述装置第一实施例的结构示意图。本实施例的图像描述装置60包括处理器61和存储器62，处理器61耦接存储器62。其中，存储器62用于存储处理器61执行的计算机程序。处理器61用于执行计算机程序以实现上述本申请图像描述方法的一实施例的步骤。

在本实施例中，处理器61还可以称为CPU(Central Processing Unit，中央处理单元)。处理器61可能是一种集成电路芯片，具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器61可以由多个成电路芯片共同实现。

本实施例中关于图像描述装置60的更多功能与作用可以参照上述本申请文本生成图像的方法一实施例的描述。

参阅图7，本申请图像描述装置第二实施例的结构示意图。图像描述装置70包括图像编码模块71、双层注意力网络72、注意力模块73、图像生成模块74及摘抄模块75。

其中，图像编码模块71用于提取待描述图像的特征向量；双层注意力网络72用于根据特征向量计算出待生成的描述词语与已生成的历史描述词语之间的关系参数；注意力模块73是用于对特征向量引入注意力机制，以便于图像生成模块74所生成的当前描述词语更符合待描述图像的特点，表达更为准确；摘抄模块75则是用于确定生成待描述图像的描述文本的具体方式。

参阅图8，本申请存储介质实施例的结构示意图。计算机存储介质80用于存储计算机程序81。计算机程序81能够被处理器运行，用以实现如下的方法：

获取待描述图像；从预设图像样本中检索与待描述图像相匹配的目标图像以及用于对目标图像进行描述的目标描述文本；根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，摘抄目标描述文本中的描述词语作为当前描述词语或生成新的当前描述词语，以进一步生成对待描述图像的描述文本。

可选地，在另一实施例中，该计算机程序在被处理器执行时，还用以实现如下的方法：对待描述图像进行特征提取，以得到特征向量；利用特征向量在预设图像样本中搜索相似度大于设定阈值的多个样本图像；获取与多个样本图像对应的多个描述文本；从多个描述文本中确定与待描述图像相匹配的目标描述文本。

可选地，在另一实施例中，该计算机程序在被处理器执行时，还用以实现如下的方法：计算多个描述文本中每个描述文本，与多个描述文本中剩余的描述文本的相似度；选择相似度最大的一个描述文本作为目标描述文本。

可选地，在另一实施例中，该计算机程序在被处理器执行时，还用以实现如下的方法：计算摘抄目标描述文本中的描述词语作为当前描述词语的第一概率；以及根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及待描述图像的特征，计算生成新的当前描述词语的第二概率；根据第一概率和第二概率摘抄目标描述文本中的描述词语作为当前描述词语或生成新的当前描述词语。

可选地，在另一实施例中，该计算机程序在被处理器执行时，还用以实现如下的方法：利用长短期记忆网络将目标描述文本转换为隐藏序列；基于隐藏序列计算摘抄目标描述文本中的描述词语作为当前描述词语的第一概率。

可选地，在另一实施例中，该计算机程序在被处理器执行时，还用以实现如下的方法：采用以下公式计算：

其中，

可选地，在另一实施例中，该计算机程序在被处理器执行时，还用以实现如下的方法：对待描述图像进行特征提取，以得到特征向量；对特征向量进行池化处理；将池化处理后的特征向量输入双层注意力网络，以得到待生成的当前描述词语与前一已生成的历史描述词语之间的关系参数；根据待生成的当前描述词语与前一已生成的历史描述词语之间的关系参数，计算生成新的当前描述词语的第二概率。

可选地，在另一实施例中，该计算机程序在被处理器执行时，还用以实现如下的方法：将池化处理后的特征向量、第二长短期记忆网络输出的前一关系参数、前一已生成的历史描述词语，输入至第一长短期记忆网络，以得到第一关系参数；将特征向量和第一关系参数，输入至第二长短期记忆网络，以得到第二关系参数。

可选地，在另一实施例中，该计算机程序在被处理器执行时，还用以实现如下的方法：对特征向量引入注意力机制；将引入注意力机制后的特征向量和第一关系参数，输入至第二长短期记忆网络，以得到第二关系参数。

其中，U^g和b^g为可学习的参数，

为关系参数，v为特征向量，y_1：t-1为历史描述词语。

可选地，在另一实施例中，该计算机程序在被处理器执行时，还用以实现如下的方法：利用待描述图像的特征、目标描述文本、以及生成的待描述图像的描述文本，输入至判别器，以计算对待描述图像的描述文本为真的概率。

在本申请所提供的实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种图像描述方法，其特征在于，所述方法包括：

获取待描述图像；

从预设图像样本中检索与所述待描述图像相匹配的目标图像以及用于对所述目标图像进行描述的目标描述文本；

根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及所述待描述图像的特征，摘抄所述目标描述文本中的描述词语作为所述当前描述词语或生成新的所述当前描述词语，以进一步生成对所述待描述图像的描述文本。

2.根据权利要求1所述的方法，其特征在于，

所述从预设图像样本中检索与所述待描述图像相匹配的目标图像以及用于对所述目标图像进行描述的目标描述文本，包括：

对所述待描述图像进行特征提取，以得到特征向量；

利用所述特征向量在所述预设图像样本中搜索相似度大于设定阈值的多个样本图像；

获取与所述多个样本图像对应的多个描述文本；

从所述多个描述文本中确定与所述待描述图像相匹配的目标描述文本。

3.根据权利要求2所述的方法，其特征在于，

所述从所述多个描述文本中确定与所述待描述图像相匹配的目标描述文本，包括：

计算所述多个描述文本中每个描述文本，与所述多个描述文本中剩余的描述文本的相似度；

选择相似度最大的一个描述文本作为所述目标描述文本。

4.根据权利要求1所述的方法，其特征在于，

所述根据待生成的当前描述词语与已生成的历史描述词语之间的关系参数、以及所述待描述图像的特征，摘抄所述目标描述文本中的描述词语作为所述当前描述词语或生成新的所述当前描述词语，包括：

计算摘抄所述目标描述文本中的描述词语作为所述当前描述词语的第一概率；以及

根据所述待生成的当前描述词语与所述已生成的历史描述词语之间的关系参数、以及所述待描述图像的特征，计算生成新的所述当前描述词语的第二概率；

根据所述第一概率和所述第二概率摘抄所述目标描述文本中的描述词语作为所述当前描述词语或生成新的所述当前描述词语。

5.根据权利要求4所述的方法，其特征在于，

所述计算摘抄所述目标描述文本中的描述词语作为所述当前描述词语的第一概率，包括：

利用长短期记忆网络将所述目标描述文本转换为隐藏序列；

基于所述隐藏序列计算摘抄所述目标描述文本中的描述词语作为所述当前描述词语的第一概率。

6.根据权利要求5所述的方法，其特征在于，

所述基于所述隐藏序列计算摘抄所述目标描述文本中的描述词语作为所述当前描述词语的第一概率，包括：

采用以下公式计算：

其中，

是一个非线性的激活函数，U^c为一个可学习参数，h′_i为所述隐藏序列，p^c(y_t|y_1:t-1,v)为所述第一概率，y_1:t-1为所述历史描述词语。

7.根据权利要求4所述的方法，其特征在于，

所述根据所述待生成的当前描述词语与所述已生成的历史描述词语之间的关系参数、以及所述待描述图像的特征，计算生成新的所述当前描述词语的第二概率，包括：

对所述待描述图像进行特征提取，以得到特征向量；

对所述特征向量进行池化处理；

将池化处理后的所述特征向量输入双层注意力网络，以得到所述待生成的当前描述词语与前一已生成的历史描述词语之间的关系参数；

根据所述待生成的当前描述词语与所述前一已生成的历史描述词语之间的关系参数，计算生成新的所述当前描述词语的第二概率。

8.根据权利要求7所述的方法，其特征在于，

所述双层注意力网络包括第一长短期记忆网络和第二长短期记忆网络；

所述将池化处理后的所述特征向量输入双层注意力网络，以得到所述待生成的当前描述词语与前一已生成的历史描述词语之间的关系参数，包括：

将池化处理后的所述特征向量、所述第二长短期记忆网络输出的前一关系参数、所述前一已生成的历史描述词语，输入至所述第一长短期记忆网络，以得到第一关系参数；

将所述特征向量和所述第一关系参数，输入至所述第二长短期记忆网络，以得到第二关系参数。

9.根据权利要求8所述的方法，其特征在于，

所述将所述特征向量和所述第一关系参数，输入至所述第二长短期记忆网络，以得到第二关系参数，包括：

对所述特征向量引入注意力机制；

将引入注意力机制后的所述特征向量和所述第一关系参数，输入至所述第二长短期记忆网络，以得到第二关系参数。

10.根据权利要求7所述的方法，其特征在于，

所述根据所述待生成的当前描述词语与所述前一已生成的历史描述词语之间的关系参数，计算生成新的所述当前描述词语的第二概率，包括：

采用以下公式计算：

其中，U^g和b^g为可学习的参数，

为所述关系参数，v为所述特征向量，y_1:t-1为所述历史描述词语。

11.根据权利要求1所述的方法，其特征在于，

所述方法还包括：

利用所述待描述图像的特征、所述目标描述文本、以及生成的所述待描述图像的描述文本，输入至判别器，以计算所述对所述待描述图像的描述文本为真的概率。

12.一种图像描述装置，其特征在于，包括处理器和存储器，所述处理器耦接所述存储器，其中，

所述存储器用于存储所述处理器执行的计算机程序；

所述处理器用于执行所述计算机程序以实现如权利要求1～11任一项所述的图像描述方法。

13.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序在被处理器执行时，用于实现权利要求1-11中任一项所述的图像描述方法。