CN113591874B

CN113591874B - 长时记忆增强的段落级别图像描述生成方法

Info

Publication number: CN113591874B
Application number: CN202110609977.3A
Authority: CN
Inventors: 丁贵广; 陈辉
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2024-04-26
Anticipated expiration: 2041-06-01
Also published as: CN113591874A

Abstract

本申请提出了一种长时记忆增强的段落级别图像描述生成方法，涉及图像描述技术领域，其中，该方法包括：通过预训练的卷积神经网络对待描述图像进行图像特征编码；通过第一循环神经网络对历史信息进行历史信息编码；使用注意力机制从高容量记忆池中检索出与历史信息编码相关的历史记忆信息，将其映射成一个记忆向量得到记忆增强的历史信息编码；通过第二循环神经网络将利用视觉注意力机制获取的图像上下文视觉特征和记忆增强的历史信息编码处理为预测向量，基于预测向量使用softmax层预测下一时刻的词的分布信息，完成自然语言描述生成。本发明充分利用历史的信息，有效加强循环神经网络的长时上下文关系建模能力，提升段落级别的图像描述效果。

Description

长时记忆增强的段落级别图像描述生成方法

技术领域

本发明涉及图像描述技术领域，尤其涉及一种长时记忆增强的段落级别图像描述生成方法和计算机设备。

背景技术

现有的技术大多面向语句级别的图像描述，即用一句话来描述图像内容。采用编码器-解码器的方式来生成自然语言，比如，使用卷积神经网络(Convolution NeuralNetwork,CNN)作为编码器，将图像信息压缩成一系列特征，然后使用循环神经网络(Recurrent Neural Network,RNN)作为解码器基于图像特征生成自然语言。基于编码器-解码器的架构，研究者们设计了许多新颖的架构，显著提高了图像描述生成效果。Mao等人提出了一种多模态循环神经网络来生成图像描述句子，使用CNN来编码图像信息和一个普通RNN来解码，解码时使用一种多模态层来融合图像特征和已经生成的词的特征，进而预测下一个词。Vinyals等人基于CNN和LSTM提出一种神经图像描述生成器(Neural ImageCaption Generator，NIC)，将CNN抽取的全局图像特征当做是第零个词插入到解码器中进行LSTM的初始化，然后在每个时刻，单词的生成依赖之前的LSTM的隐藏状态向量以及上一个时刻模型预测的词的特征。基于语义组合的图像描述方法提出将视觉语义识别和语言语法学习解耦，使用一个卷积神经网络预测图像的语义概念，即属性特征，接着将视觉特征和属性特征一起输入到编码器中进行描述句子生成。Yao等人抽取属性信息当做是图像语义信息，并设计了多种不同的结构研究了如何将属性信息插入到描述语句的生成过程中，比如类似NIC只用于初始化LSTM的隐藏状态向量，或者插入到LSTM的每个时刻等等。You等人提出基于属性注意力机制的图像描述方法，采用自上而下的方式抽取了图像视觉特征，使用全卷积网络从图像的局部区域中学习属性信息，使用注意力机制将属性特征图插入到句子生成过程中。这种方法结合自上而下和自底向上的学习方式，能够生成较好的图像描述句子。在人类视觉系统中，存在着一种视觉注意力的信号处理机制，即通过眼睛关注点的移动，人眼可以自适应选择所关注的视觉信息，实现动态捕捉视觉信号。受此启发，Xu等人首次将视觉注意力机制引入到图像描述领域，使用卷积神经网络抽取了图像的局部区域特征，在解码器端，采用一个注意力模块让解码器当前的隐藏状态特征和图像特征图上的区域特征进行注意力权重计算，然后用这些权重对图像局部区域特征进行融合。注意力模块可以让解码器根据语言上下文关联信息来动态感知图像的视觉内容，并进行单词的生成。Anderson等人认为在人类视觉系统中，视觉注意力是自上而下和自底向上两种方式结合的，自上而下表现在根据具体的任务自适应过滤不相关的信息，自底向上表现在从底层视觉特征中概括出高层语义信息。使用在大型知识库上预训练的对象检测模型抽取图像的区域特征，然后通过常规注意力机制将区域特征输入到自上而下学习的解码器中进行解码。由于使用和图像描述数据集特别相关的外部大型数据集训练对象检测模型，自底向上注意力和自上而下生成的图像描述方法取得了极佳的效果。

基于语句级别的图像描述方法也可以用来解决段落级别的图像描述问题，Krause等人使用语句级别的图像描述模型生成了六句话，然后进行评测，结果表明，尽管所生成的段落描述可以描述图像信息，但是句式简单，语句重复，上下文内容独立，描述逻辑较差。所以提出一种多层次的循环神经网络模型来解决段落级语言生成问题。具体来说，和句子级别的图像描述任务一样，使用卷积神经网路来抽取图像的显著性视觉特征，然后采用两个独立的循环神经网络来生成语言，其中句子级别的RNN负责预测是否需要继续生成下一个句子，如果需要继续生成，那么就用单词级别的RNN来生成一个句子。Liang等人提出了循环话题转移的对抗生成网络来解决段落级别的图像描述。除了词级别的RNN和句子级别的RNN，他们引入了段落级别的RNN负责探索句子和句子之间的话题转移性质，并利用注意力机制加强了不同层次的RNN之间的信息交流，比如在生成每个词的时候都会让词级别的RNN去动态获取视觉信息以及之前已经生成的短语的信息。生成对抗模型被用来增强语言推理过程中的语言准确性和话题一致性。Melas-Kyriazi等人研究了句子级别的图像描述模型在段落级别图像描述任务上性能表现差的原因，发现如果忽略段落级别语言含有多个句子的特点，而只是简单地将它看成是一个长序列的话，模型在生成时容易产生重复的预测，导致了性能不佳，所以在不改进模型的情况下，只在序列解码时对生成语句的重复性进行惩罚，就可以让句子级别的描述模型在段落级别的图像描述任务上获得很好的性能。

时序上下文关联建模是语言推理生成的核心难题之一。目前的大多数方法使用循环神经网络(RNN)来建模语言的时序上下文关联关系。具体来说，在语言推理过程中，每个时刻，循环神经网络会将学习到的知识压缩并更新到其状态向量中，然后在之后的学习过程中，过去学习到的知识仅仅通过有限个数的状态向量进行表征，在段落级别的图像描述任务上，这种方式带来的一个问题是，在信息传递和更新的过程中，容易产生梯度消失和梯度爆炸，使得循环神经网络的信息传递深度及其受限，十分不利于挖掘长文本中长时上下文语义关联关系。总的来说，当前的技术依赖循环神经网络，对段落级别长文本的长时上下文关联关系挖掘能力不强。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种长时记忆增强的段落级别图像描述生成方法，解决了现有方法依赖循环神经网络，对段落级别长文本的长时上下文关联关系挖掘能力不强的技术问题，实现了在描述生成过程中充分利用历史的信息，有效加强循环神经网络的长时上下文关系建模能力，提升段落级别的图像描述效果。

本发明的第二个目的在于提出一种计算机设备。

本发明的第三个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种长时记忆增强的段落级别图像描述生成方法，包括：获取待描述的图像，并通过预训练的卷积神经网络对图像进行图像特征编码；获取历史信息并通过第一循环神经网络对历史信息进行历史信息编码；通过高容量记忆池存储每个时刻的历史信息，使用注意力机制从高容量记忆池中检索出与历史信息编码相关的历史记忆信息，并将检索到的历史记忆信息映射成一个记忆向量，以得到记忆增强的历史信息编码；利用视觉注意力机制获取图像特征编码的图像上下文视觉特征，通过第二循环神经网络将图像上下文视觉特征和记忆增强的历史信息编码处理为预测向量，基于预测向量使用softmax层预测下一时刻的词的分布信息，完成自然语言描述生成。

可选地，在本申请的一个实施例中，在通过预训练的卷积神经网络对图像进行图像特征编码中，具体包括以下步骤：

通过对象检测模型自动识别图像中的显著性对象的语义信息和位置信息；

选取概率最高的36个对象区域，并使用区域池化的方式得到图像的全局特征；其中：

每个对象区域的局部区域特征表示为：

V＝{v_i|v_i∈R²⁰⁴⁸,i∈[1,36]}

其中，每个v_i是一个2048维度的向量，并定义V局部区域特征，i为对象区域的个数；

使用区域池化的方式得到的图像的全局特征表示为：

其中，表示图像的全局特征，每个v_i是一个2048维度的向量，i为对象区域的个数。

可选地，在本申请的一个实施例中，在获取历史信息并通过第一循环神经网络对历史信息进行历史信息编码中，包括，

第一循环神经网络将历史信息编码成两个隐藏向量，在当前时刻t，将上一时刻t-1的预测结果输入到第一循环神经网络中，第一循环神经网络根据门控网络来更新隐藏向量，并将当前时刻t的信息融合到历史信息中进行编码更新。

可选地，在本申请的一个实施例中，第一循环神经网络将历史信息编码成两个隐藏向量，在当前时刻t，将上一时刻t-1的预测结果输入到第一循环神经网络中，第一循环神经网络根据门控网络来更新隐藏向量，并将当前时刻t的信息融合到历史信息中进行编码更新，具体包括下述步骤：

将当前时刻t的历史信息生成单词序列，通过长短期记忆网络对单词序列进行编码；其中，在每个当前时刻t，首先使用一个词向量查找表将离散的单词序列转化一个单词特征，其中，

单词序列表示为：

Y_t＝[y₁,y₂,y₃,…,y_t]

其中，Y_t为单词序列，y_t为t时刻的单词；

单词特征表示为：

其中，E^y∈R^N×d，N为整个数据集的词汇表的大小，d＝512，y_t为t时刻的单词，为y_t的特征。

可选地，在本申请的一个实施例中，在第一循环神经网络将历史信息编码成两个隐藏向量中，两个隐藏向量分别为第一隐藏向量和第二隐藏向量；

在将当前时刻t的历史信息生成单词序列，通过长短期记忆网络对单词序列进行编码中，包括两个的长短期网络，两个的长短期记忆网络分别为第一长短期记忆网络和第二长短期记忆网络；其中，

第一长短期记忆网络编码的是第一隐藏向量，第二长短期记忆网络编码的是第二隐藏向量，将第一隐藏向量和第二隐藏向量一起输送至第一长短期记忆网络中获取新的隐藏向量，通过下述公式表示上述过程：

其中，LSTM_dwn为第一循环神经网络，为第一隐藏向量，/>为第一隐藏向量，/>为图像的全局特征。

可选地，在本申请的一个实施例中，长时记忆增强的段落级别图像描述生成方法，还包括，

在高容量记忆池中设定一个容量阈值，当高容量记忆池中的历史记忆信息超过容量阈值时，通过压缩型循环神经网络对高容量记忆池中的历史记忆信息进行记忆压缩，并清空高容量记忆池。

可选地，在本申请的一个实施例中，当高容量记忆池中的历史记忆信息超过容量阈值时，通过第二循环神经网络对高容量记忆池中的历史记忆信息进行记忆压缩，并清空高容量记忆池，具体包括以下步骤：

使用三个线性变换产生注意力机制的查询特征、关键码特征和值特征，通过下述公式表示：

其中，W_q,b_q,W_k,b_k,W_v,b_v是线性变换的可学习参数，i是记忆池中记忆信息的索引，q是查询特征，k_i是第i个关键码特征，v′_i是第i个值特征，

将查询特征、关键码特征和值特征平均分为n个部分，通过下述公式表示：

q＝[q₁,q₂,…,q_n]

K_n＝[k_1n,k_2n,…,k_ln],i∈[1,l]

V′_n＝[v′_1n,v′_2n,…,v′_ln],i∈[1,l]

其中，q_j是查询特征的第j个部分特征，k_ij是第i个关键码特征的第j个部分特征，v′_ij是第i个值特征的第j个部分特征，j∈[1,n]，

使用Attention(q_j,K_j,V′_j)来计算第j个头的注意力，并将n个注意力头得到的结果拼接得到最后的注意力结果，其中，

通过下述公式获取第j个头的注意力：

注意力结果表示为：

将注意力结果输入到自然语言描述生成部分的同时，将其保存至高容量记忆池中，当高容量记忆池中的历史记忆信息超过容量阈值时，通过压缩型循环神经网络对高容量记忆池中的历史记忆信息进行记忆压缩，并清空高容量记忆池，其中，通过下式表示清空高容量记忆池：

其中，SqueezeRNN是压缩型循环神经网络，h_sqz为压缩性循环神经网络的隐藏向量，为上述注意力结果，m_etc为记忆增强的历史信息编码。

可选地，在本申请的一个实施例中，通过下述公式表示利用视觉注意力机制获取图像特征编码的图像上下文视觉特征：

β_t＝softmax(W₁tanh(W₂V+(W₃m_ehc)1^T))

其中，为图像上下文视觉特征，m_etc为记忆增强的历史信息编码，V是图像的局部区域特征，W₁，W₂，W₃是可学习的参数，

通过第二循环神经网络将图像上下文视觉特征和记忆增强的历史信息编码处理为预测向量，通过下述公式表示基于预测向量使用softmax层预测下一时刻的词的分布信息：

其中，LSTM_top是第二循环神经网络，是上一个时刻的第二隐藏向量，/>是当前时刻更新后的第二隐藏向量，/>为图像上下文视觉特征，m_etc为记忆增强的历史信息编码，W_p、b_p是可学习的线性变换矩阵和偏置向量，p(y_t+1|[y₁,y₂,…y_t],Ι)是下一个时刻的词的概率分布。

为达上述目的，本发明第二方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述长时记忆增强的段落级别图像描述生成方法。

为了实现上述目的，本发明第三方面实施例提出了一种非临时性计算机可读存储介质，当存储介质中的指令由处理器被执行时，能够执行长时记忆增强的段落级别图像描述生成方法。

本申请实施例的长时记忆增强的段落级别图像描述生成方法、计算机设备和非临时性计算机可读存储介质，解决了现有方法依赖循环神经网络，对段落级别长文本的长时上下文关联关系挖掘能力不强的技术问题，实现了利用高容量记忆池来缓存历史记忆信息，有效增强目前常用的基于循环神经网络的图像描述模型中对段落级别长文本语言的长时上下文关联关系的捕捉能力，提升段落级别的图像描述效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种长时记忆增强的段落级别图像描述生成方法的流程图；

图2为本申请实施例的长时记忆增强的段落级别图像描述生成方法的长时记忆增强描述模型框架图；

图3为本申请实施例的长时记忆增强的段落级别图像描述生成方法的Stanfordimage-paragraph数据集上和先进的图像描述模型对比图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的长时记忆增强的段落级别图像描述生成方法和装置。

图1为本发明实施例所提供的一种长时记忆增强的段落级别图像描述生成方法的流程图。

如图1所示，该长时记忆增强的段落级别图像描述生成方法，包括：

步骤101，获取待描述的图像，并通过预训练的卷积神经网络对图像进行图像特征编码；

步骤102，获取历史信息并通过第一循环神经网络对历史信息进行历史信息编码；

步骤103，通过高容量记忆池存储每个时刻的历史信息，使用注意力机制从高容量记忆池中检索出与历史信息编码相关的历史记忆信息，并将检索到的历史记忆信息映射成一个记忆向量，以得到记忆增强的历史信息编码；

步骤104，利用视觉注意力机制获取图像特征编码的图像上下文视觉特征，通过第二循环神经网络将图像上下文视觉特征和记忆增强的历史信息编码处理为预测向量，基于预测向量使用softmax层预测下一时刻的词的分布信息，完成自然语言描述生成。

本申请实施例的长时记忆增强的段落级别图像描述生成方法，包括：获取待描述的图像，并通过预训练的卷积神经网络对图像进行图像特征编码；获取历史信息并通过第一循环神经网络对历史信息进行历史信息编码；通过高容量记忆池存储每个时刻的历史信息，使用注意力机制从高容量记忆池中检索出与历史信息编码相关的历史记忆信息，并将检索到的历史记忆信息映射成一个记忆向量，以得到记忆增强的历史信息编码；利用视觉注意力机制获取图像特征编码的图像上下文视觉特征，通过第二循环神经网络将图像上下文视觉特征和记忆增强的历史信息编码处理为预测向量，基于预测向量使用softmax层预测下一时刻的词的分布信息，完成自然语言描述生成。由此，本申请能够解决现有方法依赖循环神经网络，对段落级别长文本的长时上下文关联关系挖掘能力不强的技术问题，实现了利用高容量记忆池来缓存历史记忆信息，有效增强目前常用的基于循环神经网络的图像描述模型中对段落级别长文本语言的长时上下文关联关系的捕捉能力，提升段落级别的图像描述效果。

进一步地，在本申请实施例中，在通过预训练的卷积神经网络对图像进行图像特征编码中，具体包括以下步骤：

每个对象区域的局部区域特征表示为：

V＝{v_i|v_i∈R²⁰⁴⁸,i∈[1,36]}

使用区域池化的方式得到的图像的全局特征表示为：

给定待描述图像，使用预训练的卷积神经网络来抽取图像的显著性视觉特征。这种方式会产生多个特征，分别对应不同的显著性对象，对于图像内容的刻画更加准确。

进一步地，在本申请实施例中，在获取历史信息并通过第一循环神经网络对历史信息进行历史信息编码中，包括，

自然语言的生成过程是一个序列生成过程，在当前时刻，模型需要根据历史的预测信息来预测下一个时刻的信息，历史信息编码在自然语言生成过程中具有重要影响。

进一步地，在本申请实施例中，第一循环神经网络将历史信息编码成两个隐藏向量，在当前时刻t，将上一时刻t-1的预测结果输入到第一循环神经网络中，第一循环神经网络根据门控网络来更新隐藏向量，并将当前时刻t的信息融合到历史信息中进行编码更新，具体包括下述步骤：

单词序列表示为：

Y_t＝[y₁,y₂,y₃,…,y_t]

其中，Y_t为单词序列，y_t为t时刻的单词；

单词特征表示为：

进一步地，在本申请实施例中，在第一循环神经网络将历史信息编码成两个隐藏向量中，两个隐藏向量分别为第一隐藏向量和第二隐藏向量；

进一步地，在本申请实施例中，长时记忆增强的段落级别图像描述生成方法，还包括，

为了解决循环神经网络对长时上下文关联建模不足的问题，使用一个高容量记忆池来存储每个时刻的历史信息。在每个时刻，使用注意力机制从记忆池中检索出和当前时刻的信息相关的历史记忆信息，检索到的记忆信息被映射成一个记忆向量。这种高容量的记忆池的设计可以使得远程的历史信息也被捕捉到，使得得到的记忆向量能够很好地表示自然语言的长时上下文关联关系，加强了语言推理生成过程。

压缩后的记忆也能够表示历史信息，而清空后的记忆池会存储新的记忆，在后续阶段，两种记忆信息都会被用来加强自然语言生成过程。这种方式可以有效弥补有限容量的记忆池对记忆的捕捉长度的不足，提高记忆的长度，在复杂度和性能之间取得较好的平衡。

进一步地，在本申请实施例中，当高容量记忆池中的历史记忆信息超过容量阈值时，通过第二循环神经网络对高容量记忆池中的历史记忆信息进行记忆压缩，并清空高容量记忆池，具体包括以下步骤：

k_i＝W_km_i+b_k；v′_i＝W_vm_i+b_v

q＝[q₁,q₂,…,q_n]

K_n＝[k_1n,k_2n,…,k_ln],i∈[1,l]

V′_n＝[v′_1n,v′_2n,…,v′_ln],i∈[1,l]

通过下述公式获取第j个头的注意力：

注意力结果表示为：

引入一个高容量的记忆池来缓存记忆信息，其容量记为L。具体来说，在时刻t时，假设记忆池里头缓存了l个记忆信息，即/>用/>来检索出相关的记忆信息。使用多头注意力机制来建模/>和记忆的关联关系。

其中，W_q,b_q,W_k,b_k,W_v,b_v是线性变换的参数，i∈[1,l]，q是查询特征，关键码特征记为K＝[k₁,k₂,…,k_l]，值特征记为V′＝[v′₁,v′₂,…,v′_l]。

进一步地，在本申请实施例中，通过下述公式表示利用视觉注意力机制获取图像特征编码的图像上下文视觉特征：

β_t＝softmax(W₁tanh(W₂V+(W₃m_ehc)1^T))

其中带下标的W和b是可学习的参数。

图2为本申请实施例的长时记忆增强的段落级别图像描述生成方法的长时记忆增强描述模型框架图。

如图2所示，该长时记忆增强的段落级别图像描述生成方法，包括：图像特征编码，给定待描述图像，使用预训练的卷积神经网络来抽取图像的显著性视觉特征；历史信息编码，循环神经网络将历史信息编码成两个隐藏向量，在当前时刻，将上一时刻的预测结果连同图像信息输入到循环神经网络中，循环神经网络会根据内部的门控网络来更新隐藏向量，进而将当前时刻的信息融合到历史信息中进行编码更新；长时记忆增强，使用一个高容量记忆池来存储每个时刻的历史信息，使用注意力机制从记忆池中检索出和当前时刻的信息相关的历史记忆信息，将其映射成一个记忆向量，在高容量记忆池中设定一个容量阈值，当高容量记忆池中的历史记忆信息超过容量阈值时，通过压缩型循环神经网络对高容量记忆池中的历史记忆信息进行记忆压缩，并清空高容量记忆池；自然语言描述生成，使用一个视觉注意力机制用经过记忆增强后的历史编码信息来检索出相关的视觉信号，然后将注意力计算的记过和历史编码信息输入到另一个循环神经网络中得到预测向量，基于这个预测向量，使用softmax层来预测下一个时刻的词的分布信息，实现自然语言的描述生成。

如图3所示，该长时记忆增强的段落级别图像描述生成方法，在常用的段落级别的图像描述数据集Stanford image-paragraph上进行实验验证，并采用BLEU1，BLEU2，BLEU3，BLEU4和METEOR，ROUGEL和CIDEr等7个指标来评价模型效果。结果表明，本发明可以显著提升基线模型的性能。相比于基线模型，本发明在7个指标上分别提升了2.37％，1.45％，0.95％，0.85％，1.15％，0.93％，3.96％。和目前先进的段落级别图像描述方法进行对比，本发明也具有性能优势。

为了实现上述实施例，本发明还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现上述施例的长时记忆增强的段落级别图像描述生成方法。

为了实现上述实施例，本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的长时记忆增强的段落级别图像描述生成方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种长时记忆增强的段落级别图像描述生成方法，其特征在于，包括以下步骤：

获取待描述的图像，并通过预训练的卷积神经网络对所述图像进行图像特征编码；

获取历史信息并通过第一循环神经网络对所述历史信息进行历史信息编码，其中，所述第一循环神经网络将所述历史信息编码成两个隐藏向量，在当前时刻t，将上一时刻t-1的预测结果输入到所述第一循环神经网络中，所述第一循环神经网络根据门控网络来更新所述隐藏向量，并将当前时刻t的信息融合到历史信息中进行编码更新；

通过高容量记忆池存储每个时刻的历史信息，使用注意力机制从所述高容量记忆池中检索出与所述历史信息编码相关的历史记忆信息，并将检索到的所述历史记忆信息映射成一个记忆向量，以得到记忆增强的历史信息编码；

利用视觉注意力机制获取所述图像特征编码的图像上下文视觉特征，通过第二循环神经网络将所述图像上下文视觉特征和所述记忆增强的历史信息编码处理为预测向量，基于所述预测向量使用softmax层预测下一时刻的词的分布信息，完成自然语言描述生成；

在所述通过预训练的卷积神经网络对所述图像进行图像特征编码中，具体包括以下步骤：通过对象检测模型自动识别所述图像中的显著性对象的语义信息和位置信息，选取概率最高的36个对象区域，并使用区域池化的方式得到所述图像的全局特征，所述图像的全局特征和每个所述对象区域的局部区域特征分别表示为：

其中，表示图像的全局特征，每个/>是一个2048维度的向量，并定义/>局部区域特征，为对象区域的个数；

在所述高容量记忆池中设定一个容量阈值，当所述高容量记忆池中的历史记忆信息超过所述容量阈值时，通过压缩型循环神经网络对所述高容量记忆池中的所述历史记忆信息进行记忆压缩，并清空所述高容量记忆池，其中，使用三个线性变换产生所述注意力机制的查询特征、关键码特征和值特征，通过下述公式表示：

其中，是线性变换的可学习参数，/>是记忆池中记忆信息的索引，/>是查询特征，/>是第/>个关键码特征，/>是第/>个值特征，/>是高容量记忆池中缓存的第i个记忆信息，

将所述查询特征、所述关键码特征和所述值特征平均分为n个部分，通过下述公式表示：

其中，是查询特征的第j个部分特征，/>是第i个关键码特征的第j个部分特征，/>是第i个值特征的第j个部分特征，/>，

使用来计算第j个头的注意力，并将n个注意力头得到的结果拼接得到最后的注意力结果，其中，

通过下述公式获取所述第j个头的注意力：

所述注意力结果表示为：；

将所述注意力结果输入到自然语言描述生成部分的同时，将其保存至所述高容量记忆池中，当所述高容量记忆池中的历史记忆信息超过所述容量阈值时，通过所述压缩型循环神经网络对所述高容量记忆池中的所述历史记忆信息进行记忆压缩，并清空所述高容量记忆池，其中，通过下式表示清空所述高容量记忆池：

其中，是压缩型循环神经网络，/>为压缩性循环神经网络的隐藏向量，/>为上述注意力结果，/>为高容量记忆池，/>为记忆增强的历史信息编码；

通过下述公式表示所述利用视觉注意力机制获取所述图像特征编码的图像上下文视觉特征：

其中，为图像上下文视觉特征，/>为记忆增强的历史信息编码，/>是图像的局部区域特征，/>，/>，/>是可学习的参数，

通过所述第二循环神经网络将所述图像上下文视觉特征和所述记忆增强的历史信息编码处理为预测向量，通过下述公式表示基于所述预测向量使用softmax层预测下一时刻的词的分布信息：

其中，是第二循环神经网络，/>是上一个时刻的第二隐藏向量，/>是当前时刻更新后的第二隐藏向量，/>为图像上下文视觉特征，/>为记忆增强的历史信息编码，、/>是可学习的线性变换矩阵和偏置向量，/>是下一个时刻的词的概率分布。

2.如权利要求1所述的长时记忆增强的段落级别图像描述生成方法，其特征在于，所述第一循环神经网络将所述历史信息编码成两个隐藏向量，在当前时刻t，将上一时刻t-1的预测结果输入到所述第一循环神经网络中，所述第一循环神经网络根据门控网络来更新所述隐藏向量，并将当前时刻t的信息融合到历史信息中进行编码更新，具体包括下述步骤：

将所述当前时刻t的所述历史信息生成单词序列，通过长短期记忆网络对所述单词序列进行编码；其中，在每个所述当前时刻t，首先使用一个词向量查找表将离散的所述单词序列转化一个单词特征，其中，

所述单词序列表示为：

其中，为单词序列，/>为t时刻的单词；

所述单词特征表示为：

其中，，N为整个数据集的词汇表的大小，d=512，/>为t时刻的单词，/>为的特征。

3.如权利要求2所述的长时记忆增强的段落级别图像描述生成方法，其特征在于，

在所述第一循环神经网络将所述历史信息编码成两个隐藏向量中，所述两个隐藏向量分别为第一隐藏向量和第二隐藏向量；

在所述将所述当前时刻t的所述历史信息生成单词序列，通过长短期记忆网络对所述单词序列进行编码中，包括两个长短期网络，两个所述的长短期记忆网络分别为第一长短期记忆网络和第二长短期记忆网络；其中，

所述第一长短期记忆网络编码的是所述第一隐藏向量，所述第二长短期记忆网络编码的是所述第二隐藏向量，将所述第一隐藏向量和所述第二隐藏向量一起输送至所述第一长短期记忆网络中获取新的隐藏向量，通过下述公式表示上述过程：

其中，为第一循环神经网络，/>为第一隐藏向量，/>为第二隐藏向量，/>为图像的全局特征。

4.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-3中任一所述的方法。

5.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3中任一所述的方法。