CN111612103A

CN111612103A - 结合抽象语义表示的图像描述生成方法、系统及介质

Info

Publication number: CN111612103A
Application number: CN202010581219.0A
Authority: CN
Inventors: 唐晋韬; 陈凤; 李莎莎; 庞焜元; 王挺; 王攀成; 林登雯; 何亮亮; 徐钦杭
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-09-01
Anticipated expiration: 2040-06-23
Also published as: CN111612103B

Abstract

本发明公开了一种结合抽象语义表示的图像描述生成方法、系统及介质，本发明训练用于生成图像描述的语言生成器的步骤包括针对训练数据集进行抽象语义表示标注；基于训练数据集训练抽象语义表示预测器；将图像的候选区域视觉特征作为图像的视觉特征，图像的抽象语义表示特征作为语义特征作为输入训练语言生成器；使用训练好的语言生成器对测试集图像中的图像生成图像描述；针对语言生成器进行效果评测。本发明结合抽象语义表示的图像描述生成方法可以充分利用图像的抽象语义特征，充分发挥图像视觉和语义特征的互补性，使两种特征在描述生成的过程中相辅相成，使之互为补足，从而提高生成句子的质量，生成更准确和含义丰富的描述语句。

Description

结合抽象语义表示的图像描述生成方法、系统及介质

技术领域

本发明涉及图像资源的信息增强方法，具体涉及一种结合抽象语义表示的图像描述生成方法、系统及介质，用于使用图像的抽象语义表示特征，在图像描述生成任务中作为视觉特征的辅助信息，从而对图像生成更准确且含义丰富的描述文本。

背景技术

随着科技发展和信息时代到来，报纸、手机、相机及网络社交媒体等提供了丰富的图像资源，其中很大一部分图像资源为视觉与语言信息的结合。这些多模态图像信息的产生为我们实现更多应用场景提供了可能，比如理解/阅读辅助，自动监控，无人驾驶汽车，自动标签生成和对话系统等。图像描述生成即为用于生成多模态图像信息中语言描述信息的手段。

传统的图像理解任务生成无结构的标签列表，它识别并分割出图像中的对象、确定其对应属性、计算对象和属性的相互关系。而图像描述生成则是对给定的一张图像生成描述语句，准确且充分表达图像所包含的内容。从计算机视觉角度来看，该任务极具挑战性，因为它不仅要求模型准确识别图像中的重要内容(对象、属性及背景等)，还要理解内容之间的关系，甚至推断出未出现在图像中的内容；从自然语言处理角度来看，该任务是一个自然语言生成(Natural Language Generation)问题，其需要将获取到的图像信息进行整合，从而进一步生成符合自然语言规则且准确描述图像内容的句子。

基于生成的方法最先用于解决该问题，包括基于模版、句法分析和语言模型的方法。基于模版的方法预先定义包含多个空槽(slot)的模版，用模型识别到的对象、属性和关系标签对空槽进行填充，从而生成描述句子；基于句法分析的方法则首先识别对象、属性、对象之间空间关系、场景类型、行为等，然后使用依存句法树/图将句子的各个部件逐步组合成句子；基于语言模型的方法首先生成多个候选句子片段，通过语言模型对这些片段进行重新组合，从而得到最终描述。此类方法受限于人工设计的模板、不完备的语言以及句法模型，生成的句子形式单一，不具有多样性。

基于检索的方法将该任务看作检索问题。它首先用将输入图像表示为特定的特征，然后基于图像特征的相似性由训练数据集找到相似的图像候选，这些候选图像对应的描述即生成描述句子的候选，最后通过一定的排序算法得到最终结果。该类方法充分利用训练数据集，但是其依赖于训练语料，不能生成训练集以外的文本，当测试集于训练集相关性不大时，结果会很差。

得益于深度学习技术的发展，基于编码-解码框架的方法取得了突出的效果并成为近几年图像描述生成任务的主流解决方法。该方法首先在编码阶段使用深度卷积神经网络(CNN)提取图像特征，在解码阶段，使用编码阶段的输出作为RNN/LSTM等序列生成模型的输入，生成描述文本。人类视觉系统中的注意力机制被引入深度学习，使基于注意力的模型成为图像描述生成任务的主体框架。此类框架使用Faster R-CNN提取图像的多个候选块，从而在图像部分实现不同区域之间实现注意力机制，在文本生成部分改进原始LSTM结构，同时采用强化学习技术进一步优化模型性能。还有工作将属性、关系、外部知识和场景图等额外信息引入模型作为图像的辅助信息以生成更准确和含义丰富的描述语句。

图像描述生成任务最新的经典工作是Up-Down方法(实现细节参照“Anderson,P.,He,X.,Buehler,C.,Teney,D.,Johnson,M.,Gould,S.,Zhang,L.,2018.Bottom-up andtop-down attention for image captioning and visual question answering,in:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pp.6077–6086”，即自底向上和自顶向下对图像字幕和视觉问题回答的关注，2018年IEEE计算机视觉和模式识别会议论文集6077–6086页)，其由图像描述生成(图像生成文本)的方法分为以下几步：第一步，Bottom-Up(自底向上)注意力模型。该部分基于Faster R-CNN模型学习图像视觉特征，为了学习到更好的特征表示，除了预测目标对象类别以外，额外增加一个训练输出，来预测图像子区域(候选框区域)的属性类别(比如物体的颜色、材质等，这些属性在Visual Genome数据集(数据集细节参见“R.Krishna,Y.Zhu,O.Groth,J.Johnson,K.Hata,J.Kravitz,S.Chen,Y.Kalantidis,L.-J.Li,D.A.Shamma,M.Bernstein,and L.Fei-Fei.Visual genome:Connecting language and vision usingcrowdsourced dense image annotations.arXiv preprint arXiv:1602.07332,2016.”译为“视觉基因组:使用众包密集图像注释来连接语言和视觉，2016年刊于arXiv。”)上可以找到)；该模型在ImageNet数据集(数据集细节详见“O.Russakovsky,J.Deng,H.Su,J.Krause,S.Satheesh,S.Ma,Z.Huang,A.Karpathy,A.Khosla,M.Bernstein,A.C.Berg,and L.Fei-Fei.Imagenet large scale visual recognition challenge.IJCV,2015.”译为“Imagenet大型视觉识别挑战，2015年发表于国际计算机视觉期刊最终”)上预训练后，又在visual genome数据集上进一步训练，把Faster R-CNN提取出的候选区域特征通过一定的算法筛选部分作为图像特征集，同时将平均池化特征作为图像全局特征；训练时保留了Faster R-CNN的损失函数，并在此基础上加了多分类损失来训练属性预测部分。第二步，Top-Down(自顶向下)的语言生成模型。该部分使用两个标准的LSTM层和一个注意力层实现，两个LSTM层分别使用另一个LSTM层的输出隐层状态作为输入，该工作首先使用最小化交叉熵损失函数进行训练，并使用强化学习方法对CIDEr分数进行优化。第三步，设置beamsize为5，评测已训练好的模型。但是，上述图像描述生成的方法仍然存在不能充分挖掘图像中包含的信息的缺点，因此，如何充分挖掘图像中包含的信息，从而生成更准确且含义丰富的描述语句是图像描述生成任务亟待解决的技术问题。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种结合抽象语义表示的图像描述生成方法、系统及介质，本发明能够解决现有方法针对图像视觉特征不能充分表达图像内容的问题，实现图像资源的信息增强，在充分提取图像特征的同时生成更更准确且含义丰富的描述文本。

为了解决上述技术问题，本发明采用的技术方案为：

一种结合抽象语义表示的图像描述生成方法，该方法采用预先完成训练的语言生成器来根据输入的图像生成对应的图像描述，且训练语言生成器的步骤包括：

1)针对训练数据集进行抽象语义表示标注；

2)基于带有抽象语义表示的训练数据集训练抽象语义表示预测器；

3)将图像的候选区域视觉特征作为图像的视觉特征，图像的抽象语义表示特征作为语义特征，这两种特征同时作为基于注意力机制的语言生成器的输入、训练语言生成器；

4)使用训练好的语言生成器对测试集图像中的图像生成图像描述；

5)针对语言生成器进行效果评测。

可选地，步骤1)的详细步骤包括：

1.1)输入带有标注语句的训练数据集，采用AMR解析器将训练数据集的标注语句为对应的抽象语义表示图G＝(N，E)，将每个抽象语义表示图G表示为概念三元组(h，l，t)的序列，表示抽象语义表示图中边，其中N表示图G中的结点，E表示边，h、l和t分别表示图中每条边的首结点、边属性标签和尾结点；

1.2)将训练数据集中所有的抽象语义表示图G的三元组信息进行统计汇总，并将相同含义的结点进行合并；仅保留在所有结果出现次数大于预设阈值的结点，其他结点替换为指定的符号。

可选地，所述抽象语义表示预测器为基于双重注意力机制的LSTM模型。

可选地，步骤2)的详细步骤包括：

2.1)针对训练数据集中的每一张图像分别获取候选框，并提取每个候选框内局部图像的特征表示向量，将候选向量集作为该图像的视觉特征，得到视觉特征集V；

2.2)设计基于双重注意力机制的LSTM模型作为抽象语义表示预测器，所述基于双重注意力机制的LSTM模型包括用于预测结点的结点预测LSTM和用于预测关系属性标签的标签预测LSTM，在模型训练的每一时间步，结点预测LSTM的输入包括：上一时间步的输出h_t-1，视觉特征集V、全局视觉特征

和上一时间步生成的首结点N_t-1；标签预测LSTM的输入则为：视觉特征集V、全局视觉特征

和上一时间步生成的关系属性标签L_t-1；将结点预测LSTM、标签预测LSTM为一起训练，且训练过程中采用联合交叉熵损失函数训练模型作为损失函数；设置训练过程中每一步的批次大小、输入映射维度和LSTM隐层大小，然后在训练数据集上完成对抽象语义表示预测器的训练；

2.3)使用训练好的抽象语义表示预测器对训练数据集提取抽象语义特征，并将图像的视觉特征及其对应的抽象语义表示特征进行对齐。

可选地，所述基于注意力机制的语言生成器包括依次相连的LSTM层、双重注意力层、语言生成LSTM层和softmax层；其中LSTM层为标准LSTM层，其输入包含四部分：LSTM层上一时间步的输出

语言生成LSTM层上一时间步的输出

全局视觉特征

和上一时间步的生成的词x_t-1；双重注意力层的第一重注意力针对视觉特征，LSTM层的输出和视觉特征V作为注意力层输入，第二重注意力使用三个注意力层分别针对抽象语义表示三元组序列的首结点/关系属性标签/尾结点序列进行计算；第一重注意力和第二重注意力计算注意力权重向量，a_i，t＝W^Ttanh(W_fv_i，W_hh_t)，令权重向量为a_t＝{a_1，t，a_2，t，......，a_r，t}，归一化为α_t＝softmax(a_t)，则注意力结果为

其中W^T/W_f/W_h分别为参数矩阵，v_i为图像的第i个区域特征，h_t为LSTM在t时间的输出，tanh和softmax为激活函数，V为对应图像的视觉特征集；语言生成LSTM层为线性映射层，用于将连接之后的抽象语义表示的三个注意力结果映射到低维，其输入为：LSTM层当前时间步的输出

语言生成LSTM层上一时间步的输出

视觉注意力结果为

和抽象语义表示注意力结果为

softmax层用于将语言生成LSTM层的输出计算在词表上对应单词的概率

从而获取本时间步生成的单词；所述基于注意力机制的语言生成器的训练目标为最小化如下交叉熵损失：

其中Vⁱ，

分别表示N个样例中第i张图像视觉特征集、三元组序列信息和全局视觉特征，θ为模型参数，p(x|y；θ)表示模型参数为θ并在y条件下生成x的概率，log表示对数函数，

P_i表示对P₁到P_N求和。

可选地，步骤3)中训练语言生成器时，首先设置训练过程中每一步的批次大小、输入映射维度和LSTM隐层大小，然后在训练数据集上完成对语言生成器的N1轮训练并保存语言生成器的模型；然后使用强化学习技术，损失函数的参数设置同样使用交叉熵损失函数的模型，继续训练语言生成器N2轮，每指定数量个批次保存语言生成器的模型，并对比当前模型和最好模型，如若当前模型在验证集效果更好，则更新最好模型为当前模型，从而最终完成语言生成器的训练，得到完成训练后的语言生成器。

可选地，步骤4)中使用训练好的语言生成器对测试集图像中的图像生成图像描述时，采用集束搜索技术以保留多个候选预测结果，将生成的结果保存为固定格式并保存。

此外，本发明还提供一种结合抽象语义表示的图像描述生成系统，包括计算机设备，该计算机设备被编程或配置以执行所述结合抽象语义表示的图像描述生成方法的步骤。

此外，本发明还提供一种结合抽象语义表示的图像描述生成系统，包括计算机设备，该计算机设备的存储器上存储有被编程或配置以执行所述结合抽象语义表示的图像描述生成方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行所述结合抽象语义表示的图像描述生成方法的计算机程序。

和现有技术相比，本发明可以达到以下技术效果：本发明结合抽象语义表示的图像描述生成方法采用预先完成训练的语言生成器来根据输入的图像生成对应的图像描述，训练语言生成器的步骤包括针对训练数据集进行抽象语义表示标注；基于带有抽象语义表示的训练数据集训练抽象语义表示预测器；将图像的候选区域视觉特征作为图像的视觉特征，图像的抽象语义表示特征作为语义特征，这两种特征同时作为基于注意力机制的语言生成器的输入、训练语言生成器；使用训练好的语言生成器对测试集图像中的图像生成图像描述；针对语言生成器进行效果评测。本发明结合抽象语义表示的图像描述生成方法可以充分利用图像的抽象语义特征，充分发挥图像视觉和语义特征的互补性，使两种特征在描述生成的过程中相辅相成，使之互为补足，从而提高生成句子的质量，生成更准确和含义丰富的描述语句。

附图说明

图1为本发明实施例方法的总体流程图。

图2是本发明实施例方法的逻辑结构图。

图3是本发明第二步构建的抽象语义表示预测器结构图。

图4是本发明第三步构建的基于注意力机制的语言生成模型结构图。

具体实施方式

本实施例结合抽象语义表示的图像描述生成方法采用预先完成训练的语言生成器来根据输入的图像生成对应的图像描述，如图1所示，训练语言生成器的步骤包括：

1)针对训练数据集进行抽象语义表示标注；

5)针对语言生成器进行效果评测。

本实施例中，步骤1)的详细步骤包括：

本实施例中，训练数据集采用MS COCO 2014图像描述生成数据集(细节参见“Lin,T.Y.,Maire,M.,Belongie,S.,Hays,J.,Perona,P.,Ramanan,D.,Dollár,P.,Zitnick,C.L.,2014.Microsoft coco:Common objects in context,in:European Conference onComputer Vision,Springer.pp.740–755.”，即微软coco数据集:上下文中的公共对象，发表于《欧洲计算机视觉会议》论文集740–755页)，其包含123，287张图像，每张图像附带5句描述文本。鉴于该数据集不存在抽象语义标注，本实施例中采用AMR解析器(模型细节详见“Zhang,S.；Ma,X.；Duh,K.；and Van Durme,B.2019.AMR parsing as sequence-to-graphtransduction”.In ACL.”译为“AMR解析作为序列到图的转换”，发表于2019年ACL会议)，基于原始标注文本对图像生成对应的抽象语义表示。进一步将训练集中所有的抽象语义表示图的三元组信息进行统计汇总时，经分析我们发现存在很多概念出现频率很低，且某些概念在语义上存在重复的情况，所以我们仅保留在所有结果出现次数大于2的结点概念，其他替换为‘UNK’符号，共得到109中边属性标签，16128个结点。

在步骤1)已经标注了训练集中每张图像的抽象语义表示，该步骤2)则使用抽象语义表示标注的数据作为训练集。抽象语义表示预测器的训练包括三部分的工作：图像视觉特征抽取、模型训练和抽象语义特征提取。

本实施例中，抽象语义表示预测器为基于双重注意力机制的LSTM模型。

如图2所示，本实施例中步骤2)的详细步骤包括：

2.1)图像视觉特征抽取：针对训练数据集中的每一张图像分别获取候选框，并提取每个候选框内局部图像的特征表示向量，将候选向量集作为该图像的视觉特征，得到视觉特征集V；

本实施例中获取候选框具体是使用在Visual Genome数据集上预训练的FasterR-CNN模型获得每张图像的多个候选框。Faster R-CNN模型具体采用基于ResNet-101 CNN的Faster R-CNN模型(实现细节参照“Anderson,P.,He,X.,Buehler,C.,Teney,D.,Johnson,M.,Gould,S.,Zhang,L.,2018.Bottom-up and top-down attention for imagecaptioning and visual question answering,in:Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,pp.6077–6086”，即自底向上和自顶向下对图像字幕和视觉问题回答的关注，2018年IEEE计算机视觉和模式识别会议论文集6077–6086页)。对Faster R-CNN模型的最终输出，我们采用IoU(intersection-over-union)阈值对每类对象进行非最大抑制；对候选区域i来说，v_i为该区域的卷积平均值(在此维度为2048)，从而得到各个候选区域的卷积平均值v_i构成的视觉特征集V。每张图像对应提取到视觉特征集V＝{v₁，v₂，……，v_r}，其中r为该图像最终选用的候选框个数；

表示视觉特征集V的平均视觉特征，用于作为全局图像特征。

2.2)模型训练：设计基于双重注意力机制的LSTM模型作为抽象语义表示预测器，如图3所示，基于双重注意力机制的LSTM模型包括用于预测结点的结点预测LSTM和用于预测关系属性标签的标签预测LSTM，在模型训练的每一时间步，结点预测LSTM的输入包括：上一时间步的输出h_t-1，视觉特征集V、全局视觉特征

和上一时间步生成的首结点N_t-1(用于构成结点向量矩阵W_en)；标签预测LSTM的输入则为：视觉特征集V、全局视觉特征

和上一时间步生成的关系属性标签L_t-1(用于构成关系属性标签向量矩阵W_el)；将结点预测LSTM、标签预测LSTM为一起训练，且训练过程中采用联合交叉熵损失函数训练模型作为损失函数；设置训练过程中每一步的批次大小、输入映射维度和LSTM隐层大小，然后在训练数据集上完成对抽象语义表示预测器的训练；

本实施例中，采用的基于双重注意力机制的LSTM模型包括用于预测结点的结点预测LSTM和用于预测关系属性标签的标签预测LSTM(实现细节参照“Anderson,P.,He,X.,Buehler,C.,Teney,D.,Johnson,M.,Gould,S.,Zhang,L.,2018.Bottom-up and top-downattention for image captioning and visual question answering,in:Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,pp.6077–6086”，即自底向上和自顶向下对图像字幕和视觉问题回答的关注，2018年IEEE计算机视觉和模式识别会议论文集6077–6086页)。联合交叉熵损失函数训练模型如下：

其中，loss为损失眼熟，Hⁱ/Lⁱ/Tⁱ为M个输入样例中第i个的首结点/关系属性标签/尾结点目标序列，

分别表示第i张图像视觉特征集/全局视觉特征，θ_H/θ_L为结点/关系LSTM模型参数，log表示对数函数。本实施例中，我们将batch(训练过程中每一步的批次大小，即每次更新参数输入处理的样本数)设为64，输入映射维度和LSTM隐层大小设为512，最大序列长度设为20，在训练数据集上训练模型30轮并保存模型。

2.3)抽象语义特征提取：使用训练好的抽象语义表示预测器对训练数据集提取抽象语义特征，并将图像的视觉特征及其对应的抽象语义表示特征进行对齐。本实施例中，使用上一步预训练好模型在数据集上的预测结果作为图像的抽象语义表示特征。加载训练好的模型，控制参数不再更新，对训练集中每一张图像，输入对应的视觉特征集和全局特征，初始输入的结点/关系标签默认为起始符号；每一步的输出为三元组中三个元素。我们预测数据集上所有图像的抽象语义表示并保存到文件中。最终，将图像的视觉特征及其对应的抽象语义表示特征进行对齐，使之在训练时可以同时作为对应图像输入。

如图4所示，本实施例中基于注意力机制的语言生成器包括依次相连的LSTM层、双重注意力层、语言生成LSTM层和softmax层；其中：

LSTM层为标准LSTM层，其输入包含四部分：LSTM层上一时间步的输出

语言生成LSTM层上一时间步的输出

全局视觉特征

和上一时间步的生成的词x_t-1；

双重注意力层的第一重注意力针对视觉特征，LSTM层的输出和视觉特征V作为注意力层输入，第二重注意力使用三个注意力层分别针对抽象语义表示三元组序列的首结点/关系属性标签/尾结点序列进行计算；第一重注意力和第二重注意力计算注意力权重向量，a_i，t＝W^Ttanh(W_fv_i，W_hh_t)，令权重向量为a_t＝{a_1，t，a_2，t，......，a_r，t}，归一化为α_t＝softmax(a_t)，则注意力结果为

其中W^T/W_f/W_h分别为参数矩阵，v_i为图像的第i个区域特征，h_t为LSTM在t时间的输出，tanh和softmax为激活函数，V为对应图像的视觉特征集；

语言生成LSTM层为线性映射层(即全连接层)，用于将连接之后的抽象语义表示的三个注意力结果映射到低维(512)，其输入为：LSTM层当前时间步的输出

语言生成LSTM层上一时间步的输出

视觉注意力结果为

和抽象语义表示注意力结果为

从而获取本时间步生成的单词；

基于注意力机制的语言生成器的训练目标为最小化如下交叉熵损失：

其中，Vⁱ，

P_i表示对P₁到P_N求和。

训练基于注意力机制的语言生成器时，将上一步中提取的图像的候选区域视觉特征作为图像的视觉特征，预测出的图像抽象语义表示特征作为语义特征，这两种特征同时作为语言生成器的输入，通过一个基于双重注意力机制的LSTM模型输出描述句子。本实施例中，我们对训练集标注文本进行简单的预处理，以更有效地进行模型训练。我们将所有标注文本转换为小写，将训练集中出现次数少于5的替换为“UNK”，由此，保留的词构造词表；在模型预测时，生成的词即全部属于该词表。

本实施例中，步骤3)中训练语言生成器时，首先设置训练过程中每一步的批次(batch)大小、输入映射维度和LSTM隐层大小，然后在训练数据集上完成对语言生成器的N1轮训练并保存语言生成器的模型；然后使用强化学习技术，损失函数的参数设置同样使用交叉熵损失函数的模型，继续训练语言生成器N2轮，每指定数量个批次保存语言生成器的模型，并对比当前模型和最好模型，如若当前模型在验证集效果更好，则更新最好模型为当前模型，从而最终完成语言生成器的训练，得到完成训练后的语言生成器。

本实施例中，训练时将batch大小设为64，输入映射维度和LSTM隐层大小设为512，最大序列长度设为17，在训练集上训练模型20轮并保存模型。为与复现的基准实验进行公平比较，模型采用交叉熵损失函数训练20轮，继续用强化技术训练(实现细节参照“Rennie,S.J.,Marcheret,E.,Mroueh,Y.,Ross,J.,Goel,V.,2017.Self-critical sequencetraining for image captioning,in:Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,pp.7008–7024.”，即图像描述生成的自评判序列训练，载于2017年《IEEE计算机视觉与模式识别会议论文集》，第7008-7024页)。在此，我们将强化奖励设置为CIDEr分数，训练的每一个批次最大化期望奖励值也就是最小化负期望奖励，其梯度表示为：

其中R为基于CIDEr分数的奖励，c为随机取样生成的描述句子，

为贪婪取样生成的描述句子，θ为模型训练参数，

为梯度符号，p_θ(c)为在参数θ条件下c生成的概率，log表示对数函数。在使用交叉熵损失函数训练20轮之后，使用强化学习技术进一步优化模型，训练50轮，每5000个batch保存模型，并对比当前模型和最好模型，如若当前模型在验证集效果更好，则更新最好模型为当前模型。

本实施例中，步骤4)中使用训练好的语言生成器对测试集图像中的图像生成图像描述时，采用集束搜索技术以保留多个候选预测结果，将生成的结果保存为固定格式并保存。本实施例在测试集5000张图像数据集上做预测，输入图像的视觉候选特征和抽象语义表示的三元组特征，加载保存的最好模型参数进行预测，预测过程中，采用beam search(集束搜索，即保留多个候选预测结果)技术，每一步保存打分相对高的多个句子候选，在预测结束后选择打分最高的句子作为最终结果。具体地，本实施例中设置beam size(集束大小)为5，则模型预测每个词时，保存打分最高的五个候选，在一定程度上避免贪婪取样方法带来的不足，提高句子生成质量。

本实施例中，5)针对语言生成器进行效果评测时，采用的指标包括：BLEU(Bilingual Evaluation Understudy，双语互译质量评估)；METEOR(Metric forEvaluation of Translation with Explicit ORdering，基于明确次序的翻译评价指标)；CIDEr(Consensus-based Image Description Evaluation，基于共识的图像描述评估)；ROUGE-L(Recall-oriented Understanding for Gisting Evaluation，基于召回率的相似性度量方法)；L表示LCS(Longest Common Subsequence)，最长公共子序列)；SPICE(Semantic Propositional Image Caption Evaluation，基于语义的图像描述评估)；表1是采用基准实验方法与采用本实施例方法实现图像描述生成评测结果对比：

表1：基准实验、本实施例方法(简称本发明)的评测结果对比表。

参见表1可知，本实施例方法在所有公开评测指标上都优于基准实验方法，尤其是CIDEr指标上达到了123.5。实验条件：采用两个NVIDIA GeForce TITAN X GPU的工作站一台，操作系统为Ubuntu 16.04，基于PyTorch平台。数据集采用MS COCO 2014图像描述生成数据集，其包含123，287张图像，每张图像附带5句描述文本；根据公开份划分方法，本实施例方法分别使用5000样例作为验证和测试集。鉴于该数据集不存在抽象语义标注，本实施例方法采用当前最新的AMR解析器，基于原始标注文本对图像生成对应的抽象语义表示。本实施例方法将所有的描述文本转换成小写，过滤停止单词和训练集中出现少于5次的单词替换为“UNK”。基准实验的结果：仅采用图像的视觉特征作为模型输入，忽略其抽象语义表示特征，其在Bleu-4/METEOR/CIDEr/ROUGE-L/SPICE指标上分别达到36.4/27.6/120.4/57.3/20.8；采用本实施例得到的结果：如图4所示，相对于仅使用图像视觉特征的方法，本实施例方法在所有公开评测指标上都优于基准实验方法，尤其是CIDEr指标上达到123.5。

综上所述，本实施例结合抽象语义表示的图像描述生成方法利用训练集上图像的标注文本将图像标注为对应的抽象语义表示图，实现图像到抽象语义表示的映射；再利用标注数据训练一个自动抽象语义表示预测器，可以对任意输入图像预测对应的抽象语义表示，即输入图像可以提取其对应的抽象语义表示特征；最后使用基于双重注意力机制的LSTM模型由图像的视觉特征和抽象语义表示特征生成句子。本实施例采用抽象语义表示解析器将图像标注为抽象语义表示，补充了图像的标注内容，构造了图像到抽象语义表示的数据集。本实施例采用基于注意力机制的LSTM网络，构造并训练了图像到抽象语义表示的预测模型。输入任意图像，该模型能够预测其抽象语义表示信息，区别于图像的视觉信息，抽象语义表示信息属于高层语义范畴，两者旨在从不同层面抽取图像特征从而互为补充。本实施例构造基于双重注意力机制的LSTM模型，同时利用之前步骤生成的图像视觉和抽象语义表示特征，在生成句子的每一步，将在两种特征上的注意力结果相结合作为语言生成层的输入，充分发挥特征之间的互补特性；预训练之后，采用强化学习机制进一步提升模型效果；在预测阶段，使用beam search技术，进一步选择表现更好的结果。本实施例最终评测上一步在测试集的预测结果，公平公正起见，采用了公开的评测代码。最终证实，本实施例结合抽象语义表示的图像描述生成方法可以充分利用图像的抽象语义特征，充分发挥图像视觉和语义特征的互补性，使两种特征在描述生成的过程中相辅相成，使之互为补足，从而提高生成句子的质量，生成更准确和含义丰富的描述语句。

此外，本实施例还提供一种结合抽象语义表示的图像描述生成系统，包括计算机设备，该计算机设备被编程或配置以执行前述结合抽象语义表示的图像描述生成方法的步骤。

此外，本实施例还提供一种结合抽象语义表示的图像描述生成系统，包括计算机设备，该计算机设备的存储器上存储有被编程或配置以执行前述结合抽象语义表示的图像描述生成方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行前述结合抽象语义表示的图像描述生成方法的计算机程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种结合抽象语义表示的图像描述生成方法，其特征在于，该方法采用预先完成训练的语言生成器来根据输入的图像生成对应的图像描述，且训练语言生成器的步骤包括：

1)针对训练数据集进行抽象语义表示标注；

5)针对语言生成器进行效果评测。

2.根据权利要求1所述的结合抽象语义表示的图像描述生成方法，其特征在于，步骤1)的详细步骤包括：

3.根据权利要求2所述的结合抽象语义表示的图像描述生成方法，其特征在于，所述抽象语义表示预测器为基于双重注意力机制的LSTM模型。

4.根据权利要求3所述的结合抽象语义表示的图像描述生成方法，其特征在于，步骤2)的详细步骤包括：

5.根据权利要求3所述的结合抽象语义表示的图像描述生成方法，其特征在于，所述基于注意力机制的语言生成器包括依次相连的LSTM层、双重注意力层、语言生成LSTM层和softmax层；其中LSTM层为标准LSTM层，其输入包含四部分：LSTM层上一时间步的输出

语言生成LSTM层上一时间步的输出

全局视觉特征

语言生成LSTM层上一时间步的输出

视觉注意力结果为

和抽象语义表示注意力结果为

其中Vⁱ，

表示对P₁到P_N求和。

6.根据权利要求5所述的结合抽象语义表示的图像描述生成方法，其特征在于，步骤3)中训练语言生成器时，首先设置训练过程中每一步的批次大小、输入映射维度和LSTM隐层大小，然后在训练数据集上完成对语言生成器的N1轮训练并保存语言生成器的模型；然后使用强化学习技术，损失函数的参数设置同样使用交叉熵损失函数的模型，继续训练语言生成器N2轮，每指定数量个批次保存语言生成器的模型，并对比当前模型和最好模型，如若当前模型在验证集效果更好，则更新最好模型为当前模型，从而最终完成语言生成器的训练，得到完成训练后的语言生成器。

7.根据权利要求1所述的结合抽象语义表示的图像描述生成方法，其特征在于，步骤4)中使用训练好的语言生成器对测试集图像中的图像生成图像描述时，采用集束搜索技术以保留多个候选预测结果，将生成的结果保存为固定格式并保存。

8.一种结合抽象语义表示的图像描述生成系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～7中任意一项所述结合抽象语义表示的图像描述生成方法的步骤。

9.一种结合抽象语义表示的图像描述生成系统，包括计算机设备，其特征在于，该计算机设备的存储器上存储有被编程或配置以执行权利要求1～7中任意一项所述结合抽象语义表示的图像描述生成方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～7中任意一项所述结合抽象语义表示的图像描述生成方法的计算机程序。