CN111741236B

CN111741236B - 基于共识图表征推理的定位自然图像字幕生成方法和装置

Info

Publication number: CN111741236B
Application number: CN202010857184.9A
Authority: CN
Inventors: 庄越挺; 浦世亮; 汤斯亮; 张文桥; 吴飞; 肖俊; 李玺; 任文奇; 张世峰; 陆展鸿
Original assignee: Zhejiang University ZJU; Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Zhejiang University ZJU; Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2021-01-01
Anticipated expiration: 2040-08-24
Also published as: CN111741236A

Abstract

本发明公开了一种基于共识图表征推理的定位自然图像字幕生成方法和装置。该方法包括如下步骤：S1：以预先提取的视觉场景图及文本场景图作为先验知识，通过结构对抗学习方法从图先验中进行演绎与推理，生成作为共识知识的共识图表征；S2：基于视觉空间图与共识图表征，结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述；S3：在S2中生成文本描述的同时，根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域。本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性，从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题，并获取更优的字幕生成与对象定位性能。

Description

基于共识图表征推理的定位自然图像字幕生成方法和装置

技术领域

本发明涉及多媒体技术，尤其涉及一种基于共识图表征推理的定位自然图像字幕生成方法和装置。

背景技术

随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本、音频等多媒体数据快速涌现。这些不同媒体的数据在形式上多源异构, 语义上相互关联。认知科学研究表明,人脑生理组织结构决定了其对外界的感知和认知过程是跨越多种感官信息的融合处理。如何对不同媒体的数据进行语义分析和关联建模以实现跨媒体内容理解, 克服“异构鸿沟”和“语义鸿沟”，成为了一个研究和应用的关键问题,受到了学术界和工业界的广泛关注。

自然图像字幕生成是一项重要且具有挑战性的多媒体任务，其旨在自动生成关于图像的自然语言描述。此任务不仅拥有重要的实际应用，比如帮助视力受损的理解视觉信息，而且是促进多媒体理解的关键技术。为此，自然图像字幕生成近年来受到了学术界与工业界的广泛关注。

现有的图像字幕模型一般采用端到端的编解码框架，即编码器将图像编码成隐向量，再利用解码器将其解码成文本序列。然而，近期的研究表明这种单向的翻译模式容易生成幻觉字幕，例如对象幻觉，即生成对应图片中不存在的对象单词。这是由于字幕生成模型在数据集中学习到有偏差或不恰当的视觉-文本语义关联造成的，即视觉域和语言域之间客观存在的语义不一致性。一种可以缓解对象幻觉问题的方法是在自然字幕生成的基础上增加新的辅助任务，即在字幕生成过程中，将字幕模型中的对象单词在图片定位空间区域。辅助定位任务通过额外的标签可在一定程度上减少模态间的偏差并修正跨模态间的关联。

然而，增加对象空间定位的辅助任务并不能完全解决幻觉问题。首先，仅仅定位对象单词，模型仍然可能致幻某些对象属性以及对象之间的关系。当然，我们可以引入更多的定位任务来缓解这些新问题，但这需要更多的付出人力，时间代价，并可能导致更难以挖掘的跨模态偏差产生。其次，由于图像内容和文本基准真相（Ground Truth）并不总是完全一致的，通过增加额外的标注标签很难完全建立正确的视觉-文本相关性。而众所周知，这种不一致性在现实任务中处处可见，而我们人类有能力从历史经验与当前不完美的环境中总结或推断出共识知识来完成任务，这种能力是我们比机器能够更好的完成高级推理任务的原因，同时也是将是现代人工智能的重要的发展方向之一。因此，提高模型的推理能力比创建更多的视觉空间标注更为关键。

发明内容

本发明的目的是为了减少现有当前自然图像字幕生成方法中存在的目标幻觉问题，通过视觉-文本信息推理共识知识，提出一种基于共识图表征推理的定位自然图像字幕生成方法。

为实现上述发明目的，本发明具体采用的技术方案如下：

第一方面，本发明提供了一种基于共识图表征推理的定位自然图像字幕生成方法，其包括以下步骤：

S1：以预先提取的视觉场景图及文本场景图作为先验知识，通过结构对抗学习方法从图先验中进行演绎与推理，生成作为共识知识的共识图表征；

S2：基于视觉空间图与所述S1中生成的共识图表征，结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述；

S3：在S2中生成文本描述的同时，根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域，作为生成的单词在视觉空间中存在的证据。

在上述第一方面提供的技术方案基础上，各步骤还可以进一步采用以下优选实现方式。

优选的，所述S1的具体步骤如下：

S11：分别提取数据集中图片的对象场景图、关系场景图以及属性场景图，并将三者消除冗余后融合为包含对象、关系及属性的视觉场景图；

S12：将数据集中的文本基准真相解析为对应的语法依赖树，再利用树图语法转换规则将所述语法依赖树转换为包含对象、关系及属性的文本场景图；

S13：对视觉场景图与文本场景图通过图卷积网络进行重编码；

S14：引入对抗神经网络将重新编码后的视觉场景图与文本场景图进行语义对齐；在对抗神经网络中，一方面使用节点鉴别器、边鉴别器分别约束鉴别对齐后的语义表征来自于视觉场景图分布、文本场景图分布，另一方面构建视觉文本翻译器将视觉场景图对齐至文本场景图表征，使对齐结果能欺骗所述的节点鉴别器与边鉴别器；通过对抗训练后，视觉文本翻译器视为从视觉与文本信息中推理得到的共识图表征，用于为后续的自然文本描述生成与对象定位提供常识知识。

进一步的，在S11中，所述的对象场景图、关系场景图、属性场景图分别利用预训练的Faster-RCNN、MOTIFS、多层感知机模型进行提取。

进一步的，所述S2的具体步骤如下：

S21：利用RPN网络提取视觉信息中的候选区域，根据每个候选区域的四个角点空间坐标及候选区域间的相对距离，构建候选区域之间的边，生成视觉区域空间图，并通过图卷积神经网络进行编码以获取增强的视觉空间图；

S22：建立注意力LSTM网络，并利用注意力LSTM网络编码全局视觉表征与上一个时间步生成的字幕单词；

S23：建立语言LSTM网络，基于当前的注意力LSTM网络输出的隐状态，通过软注意力机制动态选取所需的共识图表征信息与增强的视觉空间图信息并输入到语言LSTM网络中，采用交叉熵作为损失函数，通过Softmax函数来预测生成的单词的概率，选取概率最大的单词输出作为当前时间步的字幕单词。

更进一步的，所述S3的具体步骤如下：

S31：在S2中生成字幕的文本描述的同时，若当前时间步输出的单词为对象单词，则在所述RPN网络提取的所有候选区域中，计算当前时间步的对象单词所属的类与候选区域的相似度，选取相似度最高的候选区域作为实时定位对象单词的视觉空间区域；

S32：将当前时间步的对象单词在所选择的视觉空间区域中实时定位显示，以证明生成的单词在视觉空间中存在。

第二方面，本发明提供了一种基于共识图表征推理的定位自然图像字幕生成装置，其包括：

共识图表征推理模块，用于以预先提取的视觉场景图及文本场景图作为先验知识，通过结构对抗学习方法从图先验中进行演绎与推理，生成作为共识知识的共识图表征；

字幕生成模块，用于基于视觉空间图与所述共识图表征推理模块中生成的共识图表征，结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述；

定位模块，用于在字幕生成模块中生成文本描述的同时，根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域，作为生成的单词在视觉空间中存在的证据。

在上述第二方面提供的技术方案基础上，各模块还可以进一步采用以下优选实现方式。

优选的，所述共识图表征推理模块具体包括：

视觉场景图提取模块，用于分别提取数据集中图片的对象场景图、关系场景图以及属性场景图，并将三者消除冗余后融合为包含对象、关系及属性的视觉场景图；

文本场景图提取模块，用于将数据集中的文本基准真相解析为对应的语法依赖树，再利用树图语法转换规则将所述语法依赖树转换为包含对象、关系及属性的文本场景图；

重编码模块，用于对视觉场景图与文本场景图通过图卷积网络进行重编码；

对抗神经网络模块，用于引入对抗神经网络将重新编码后的视觉场景图与文本场景图进行语义对齐；在对抗神经网络中，一方面使用节点鉴别器、边鉴别器分别约束鉴别对齐后的语义表征来自于视觉场景图分布、文本场景图分布，另一方面构建视觉文本翻译器将视觉场景图对齐至文本场景图表征，使对齐结果能欺骗所述的节点鉴别器与边鉴别器；通过对抗训练后，视觉文本翻译器视为从视觉与文本信息中推理得到的共识图表征，用于为后续的自然文本描述生成与对象定位提供常识知识。

进一步的，在视觉场景图提取模块中，所述的对象场景图、关系场景图、属性场景图分别利用预训练的Faster-RCNN、MOTIFS、多层感知机模型进行提取。

进一步的，所述字幕生成模块具体包括：

视觉空间图生成模块，用于利用RPN网络提取视觉信息中的候选区域，根据每个候选区域的四个角点空间坐标及候选区域间的相对距离，构建候选区域之间的边，生成视觉区域空间图，并通过图卷积神经网络进行编码以获取增强的视觉空间图；

注意力LSTM网络模块，用于建立注意力LSTM网络，并利用注意力LSTM网络编码全局视觉表征与上一个时间步生成的字幕单词；

语言LSTM模块，用于建立语言LSTM网络，基于当前的注意力LSTM网络输出的隐状态，通过软注意力机制动态选取所需的共识图表征信息与增强的视觉空间图信息并输入到语言LSTM网络中，采用交叉熵作为损失函数，通过Softmax函数来预测生成的单词的概率，选取概率最大的单词输出作为当前时间步的字幕单词。

更进一步的，所述定位模块具体包括：

视觉空间区域选择模块，用于在字幕生成模块中生成字幕的文本描述的同时，若当前时间步输出的单词为对象单词，则在所述RPN网络提取的所有候选区域中，计算当前时间步的对象单词所属的类与候选区域的相似度，选取相似度最高的候选区域作为实时定位对象单词的视觉空间区域；

定位显示模块，用于将当前时间步的对象单词在所选择的视觉空间区域中实时定位显示，以证明生成的单词在视觉空间中存在。

相对于现有技术而言，本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性，从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题，并获取更优的字幕生成与对象定位性能。

附图说明

图1为基于共识图表征推理的定位自然图像字幕生成方法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述。

如图1所示，为本发明的一个实施例中提供的一种基于共识图表征推理的定位自然图像字幕生成方法，其包括以下步骤：

S1：以预先提取的视觉场景图及文本场景图作为先验知识，通过结构对抗学习方法从非完美要素、具有异构鸿沟的图先验中进行演绎与推理，生成准确、细粒度的语义抽象表征作为共识知识，即作为共识图表征。

S2：基于视觉空间图与所述S1中生成的共识图表征，结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的合理、准确的文本描述。

S3：在S2中生成文本描述的同时，根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域，作为生成的单词在视觉空间中存在的证据，以确保生成单词的解释性。

本发明在上述字母生成过程中，利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性，从而可以大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题，并获取更优的字幕生成与对象定位性能。

步骤S1的主要目的是从训练数据集中提取共识图表征，以便于能够为后续的自然文本描述生成与对象单词定位提供常识知识。在本发明的实施例中，S1的具体步骤如下：

S11：图片中具有对象、关系以及属性三种节点，因此分别提取数据集中图片的对象场景图、关系场景图以及属性场景图，并将三者消除冗余后融合为包含对象、关系及属性的视觉场景图。此处，对象场景图可以利用预训练的Faster-RCNN模型提取，关系场景图可以利用预训练的MOTIFS模型进行提取，而属性场景图可以利用预训练的多层感知机模型进行提取，Faster-RCNN、MOTIFS、多层感知机模型的具体形式为现有技术，当然也可以考虑采用其他可行的模型进行三种节点的提取。

S12：将数据集中的文本基准真相解析（即图片对应的字母文本的ground truth）为对应的语法依赖树，再利用树图语法转换规则将语法依赖树转换为包含对象、关系及属性的文本场景图。

S13：对视觉场景图（包含对象、关系以及属性）与文本场景图（包含对象、关系以及属性）通过图卷积网络进行重编码，得到重新编码后的视觉场景图与文本场景图。

S14：引入对抗神经网络将重新编码后的视觉场景图与文本场景图进行语义对齐。在对抗神经网络中，一方面使用节点鉴别器（用于判断目标是否为节点的鉴别器）、边鉴别器（用于判断目标是否为边的鉴别器）分别约束鉴别对齐后的语义表征各自来自于视觉场景图分布、文本场景图分布，另一方面构建视觉文本翻译器将视觉场景图对齐至文本场景图表征，使对齐结果能欺骗前述的节点鉴别器与边鉴别器。对抗神经网络的构建和训练属于现有技术，在此不再赘述。通过对抗训练后，视觉文本翻译器视为从视觉与文本信息中推理得到的共识图表征，即可为后续的自然文本描述生成与对象定位提供常识知识。

步骤S2的主要目的是基于软注意力机制，结合前述得到的共识图表征以及语言LSTM网络中上一个时间步（time step）生成的字幕单词，生成当前时间步的字幕单词。在本发明的实施例中，S2的具体步骤如下：

S21：利用RPN网络提取视觉信息，即图片中的候选区域，图片中具有众多候选区域，而根据每个候选区域具有四个角点空间坐标，将四个角点空间坐标提取并保存。然后计算候选区域间的相对距离，构建成候选区域之间的边，由此生成视觉区域空间图，并通过图卷积神经网络(GCN)进行编码以获取增强的视觉空间图。

S22：一方面建立一个注意力LSTM网络，并利用注意力LSTM网络编码全局视觉表征与上一个时间步生成的字幕单词。

S23：另一方面建立一个语言LSTM网络，基于当前时刻的注意力LSTM网络输出的隐状态，通过软注意力机制动态选取所需的共识图表征信息与增强的视觉空间图信息并输入到语言LSTM网络中，采用交叉熵作为损失函数，通过Softmax函数来预测生成的单词的概率，选取概率最大的单词输出作为当前时间步的字幕单词。

通过上述S21~S13步骤，在视觉空间图与共识图表征的基础上，结合软注意力机制选取到了与上下文环境匹配程度最高的语义信息，根据生成的字幕单词即可形成合理、准确的字幕的自然文本描述。而为了缓解对象幻觉的问题，除了生成字幕之外，还需要在字幕生成过程中，将字幕中的对象单词在图片定位空间区域，作为生成的单词在视觉空间中存在的证据，以确保生成单词的解释性。通过该辅助定位任务，可以在一定程度上减少模态间的偏差并修正跨模态间的关联。字幕的文本描述是单词构成的，在单词定位任务中，一般仅需要定位对象单词，而其他的单词一般无需进行定位。本实施例中对象单词是指文本中的名词。在本发明的实施例中，S3的具体步骤如下：

S31：在S2中生成字幕的文本描述的同时，需要根据单词的类型选择是否需要在视觉空间中进行定位。若当前时间步输出的单词为对象单词，则需要进行定位，在前述的S21步骤中已通过RPN网络提取了众多候选区域，同时每个对象单词又具有其对应所述的类别。因此在所有候选区域中，计算当前时间步的对象单词所属的类与候选区域的相似度，选取相似度最高的候选区域作为实时定位对象单词的视觉空间区域。

S32：将当前时间步的对象单词在所选择的视觉空间区域中实时定位显示，以证明生成的单词在视觉空间中存在。该显示的过程，一般可以在得到一句完整的句子后，将其中的对象单词一并进行显示。

下面通过一个较佳实施例，以一张小男孩踢足球的图片为例，说明本发明上述过程的具体实现形式及所达到的技术效果。

S11：利用预训练的Faster-RCNN，MOTIFS，多层感知机模型分别提取数据集中的对象场景图，关系场景图以及属性场景图，并将三者在消除冗余的前提下融合为包含对象，关系及属性的视觉场景图sg ^V。本实施例中提取的视觉场景图如下：boy-play-football,boy-in-shirt, boy-on-ground, boy-in-shorts, shirt-blue。

S12：将文本基准真相解析为对应的语法依赖树，之后利用树-图语法转换规则将此语法依赖树转换为文本场景图sg ^L。对应的，本实施例中提取的文本场景图如下：boy-wear-shirt, boy-in-jersey, boy-wear-shorts, jersey-blue, shorts-yellow, boy-play-soccer。

S13：通过图卷积神经网络（GCN）对视觉与文本的对象场景图，关系场景图以及属性场景图通过图卷积网络进行重编码。

S15：引入对抗神经网络将重新编码后的视觉场景图与文本场景图进行语义对齐。一方面，别使用节点鉴别器D _N与边鉴别器D _E来约束鉴别对齐后的语义表征来自于视觉场景图、文本场景图分布，另一方面，构建视觉文本翻译器T _V→L将视觉场景图对齐文本场景图表征，目的是其对齐结果可欺骗上述的节点与边鉴别器。通过对抗训练后，视觉文本翻译器可被看作为从视觉与文本信息中推理得到的常识图表征

，为后续的自然文本描述生成与对象定位提供准确、合理的常识知识。其中，

分别代表对象，属性，关系的表征。本实施例中的常识图表征生成的损失函数设置如下：

L _G=λ _N ·L(N)+λ _E ·L(E)

L(N)=E _L[log D _N(U ^L)]+φ _N ·E _V[log (1-D _N(T _V→L(U ^V)))]

L(E)=E _L[log D _E(H(ε ^L ,μ ^L))]+φ _E ·E _V[log (1-D _N(T _V→L(H(ε ^V ,μ ^L))))]

式中：L _G为常识图表征生成的损失函数，L(N)为节点对齐损失函数，L(E)为边对齐损失函数；λ,φ为超参数，参数的下标N和E分别代表节点和边；U ^L、U ^V分别为语言的统一表征与视觉的统一表征；ε节点间的余弦相似度，μ为ε的平均值，H(ε, μ)是sigmoid函数，参数的上标V和L分别代表视觉和语言；E _V、E _L分别表示视觉和语言的期望方程。

S21：利用RPN网络提取视觉信息中的候选区域R={r ₁,r ₂,…,r _M}，r _j表示第j个候选区域，根据每个候选区域的四个角点空间坐标及区域间的相对距离，构建区域之间的边，生成视觉区域空间图，并通过图卷积神经网络(GCN)进行编码以获取增强的视觉空间图

，其中：

式中： M _rj表示和r _i相关的r _j数量。

S22：建立注意力LSTM网络LSTM ^A，并利用LSTM ^A编码全局视觉表征v ^g与上一个时间步生成的字幕单词y _t-1；

式中：

为语言LSTM网络在t-1时刻的隐状态，Embw为单词向量映射矩阵；

S23：建立语言LSTM网络LSTM ^L，基于当前时刻注意力LSTM网络输出的隐状态

，通过软注意力机制动态选取所需的共识图表征信息

与增强的视觉空间图信息

输入到语言LSTM；

式中：a ^u,a ^r分别为通过隐状态

计算得到的共识图表征与空间区域的注意力权重；

在语言LSTM中，采用交叉熵作为自然生成的损失函数，通过Softmax函数来预测生成的单词的概率；

式中：T为总时间步长，λ _L为自然字幕生成的超参数，y _t为T时刻生成的单词，y _0:T-1为t时刻前生成的单词。

此处，选取概率最大的单词输出作为当前时间步的字幕单词。

在S2中生成字幕的文本描述的同时，若当前时间步输出的单词为对象单词，则需要对其进行定位。定位时，可在RPN网络提取的所有候选区域中，计算当前时间步的对象单词所属的类与候选区域的相似度，选取相似度最高的候选区域作为实时定位对象单词的视觉空间区域，其具体过程如下：

S31：构建视觉空间区域注意力损失函数L(R)，及计算预先由RPN网络提取的视觉候选区域与基准真相框的重合IoU（Intersection over Union），其目的促使语言模型关注正确视觉候选区域；

式中：N’表示RPN网络提取的候选区域总数，λ _R为视觉空间监督的超参数， γ _i为模型关注的空间区域与基准真相的IoU， a ^r为空间区域注意力权重；

S32：实时定位生成单词的视觉空间区域，并通过区域-类的相似度来计算对象区域的分类置信度来获取类分布；

式中：W _s为权重矩阵，a ^r为空间区域注意力权重，r为空间候选区域；

S33: 通过上述对象区域分类置信度来定义定位损失函数并在视觉空间定位对象单词；

式中：λ _L为视觉空间定位损失函数的超参数，γ _i为模型关注的空间区域与基准真相的IoU ，p ^s为r _i是基准真相的概率，用于确定候选区域。

在上述预测生成单词时，通过上述S31~S33的做法，可以一方面实时关注与定位预测单词最相关的空间区域，另一方面，生成的对象单词将定位到视觉空间区域，通过定位区域与基准真相框的重合IoU（Intersection over Union）的误差作为损失函数促使语言模型关注正确视觉候选区域。

对象单词可在上述所选择的视觉空间区域中实时定位显示，以证明生成的单词在视觉空间中存在。每个单词预测时模型实时定位的空间区域与最终的自然图像字幕生成的结果与实际相符。

需要注意的是，上述较佳实施例仅仅是本发明的一种具体实现形式，例如各种损失函数、网络结构，均可以根据实际进行调整，并非对本发明的限制。

同样的，与前述图1所示的定位自然图像字幕生成方法相类似，本发明的另一实施例中还提供了一种基于共识图表征推理的定位自然图像字幕生成装置，其包括共识图表征推理模块、字幕生成模块和定位模块。各模块的功能和具体的数据处理过程如下：

共识图表征推理模块，用于以预先提取的视觉场景图及文本场景图作为先验知识，通过结构对抗学习方法从图先验中进行演绎与推理，生成作为共识知识的共识图表征。

字幕生成模块，用于基于视觉空间图与所述共识图表征推理模块中生成的共识图表征，结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述。

其中，共识图表征推理模块具体包括视觉场景图提取模块、文本场景图提取模块、重编码模块和对抗神经网络模块等子模块。各子模块的功能和具体的数据处理过程如下：

视觉场景图提取模块，用于分别提取数据集中图片的对象场景图、关系场景图以及属性场景图，并将三者消除冗余后融合为包含对象、关系及属性的视觉场景图。同样的，在视觉场景图提取模块中，对象场景图、关系场景图、属性场景图分别利用预训练的Faster-RCNN、MOTIFS、多层感知机模型进行提取。

文本场景图提取模块，用于将数据集中的文本基准真相解析为对应的语法依赖树，再利用树图语法转换规则将所述语法依赖树转换为包含对象、关系及属性的文本场景图。

重编码模块，用于对视觉场景图与文本场景图通过图卷积网络进行重编码。

另外，在字幕生成模块中，具体包括视觉空间图生成模块、注意力LSTM网络模块和语言LSTM模块等子模块。各子模块的功能和具体的数据处理过程如下：

另外，定位模块具体包括视觉空间区域选择模块和定位显示模块两个子模块。两个子模块的功能和具体的数据处理过程如下：

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于共识图表征推理的定位自然图像字幕生成方法，其特征在于包括以下步骤：

S3：在S2中生成文本描述的同时，根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域，作为生成的单词在视觉空间中存在的证据；

所述S1的具体步骤如下：

S14：引入对抗神经网络将重新编码后的视觉场景图与文本场景图进行语义对齐；在对抗神经网络中，一方面使用节点鉴别器、边鉴别器分别约束鉴别对齐后的语义表征来自于视觉场景图分布、文本场景图分布，另一方面构建视觉文本翻译器将视觉场景图对齐至文本场景图表征，使对齐结果能欺骗所述的节点鉴别器与边鉴别器；通过对抗训练后，视觉文本翻译器视为从视觉与文本信息中推理得到的共识图表征，用于为后续的自然文本描述生成与对象定位提供常识知识；

所述S2的具体步骤如下：

S23：建立语言LSTM网络，基于当前的注意力LSTM网络输出的隐状态，通过软注意力机制动态选取所需的共识图表征信息与增强的视觉空间图信息并输入到语言LSTM网络中，采用交叉熵作为损失函数，通过Softmax函数来预测生成的单词的概率，选取概率最大的单词输出作为当前时间步的字幕单词；

所述S3的具体步骤如下：

2.根据权利要求1所述的一种基于共识图表征推理的定位自然图像字幕生成方法，其特征在于，在S11中，所述的对象场景图、关系场景图、属性场景图分别利用预训练的Faster-RCNN、MOTIFS、多层感知机模型进行提取。

3.一种基于共识图表征推理的定位自然图像字幕生成装置，其特征在于包括：

定位模块，用于在字幕生成模块中生成文本描述的同时，根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域，作为生成的单词在视觉空间中存在的证据；

所述共识图表征推理模块具体包括：

对抗神经网络模块，用于引入对抗神经网络将重新编码后的视觉场景图与文本场景图进行语义对齐；在对抗神经网络中，一方面使用节点鉴别器、边鉴别器分别约束鉴别对齐后的语义表征来自于视觉场景图分布、文本场景图分布，另一方面构建视觉文本翻译器将视觉场景图对齐至文本场景图表征，使对齐结果能欺骗所述的节点鉴别器与边鉴别器；通过对抗训练后，视觉文本翻译器视为从视觉与文本信息中推理得到的共识图表征，用于为后续的自然文本描述生成与对象定位提供常识知识；

所述字幕生成模块具体包括：

语言LSTM模块，用于建立语言LSTM网络，基于当前的注意力LSTM网络输出的隐状态，通过软注意力机制动态选取所需的共识图表征信息与增强的视觉空间图信息并输入到语言LSTM网络中，采用交叉熵作为损失函数，通过Softmax函数来预测生成的单词的概率，选取概率最大的单词输出作为当前时间步的字幕单词；

所述定位模块具体包括：

4.根据权利要求3所述的一种基于共识图表征推理的定位自然图像字幕生成装置，其特征在于，在视觉场景图提取模块中，所述的对象场景图、关系场景图、属性场景图分别利用预训练的Faster-RCNN、MOTIFS、多层感知机模型进行提取。