CN113515951A

CN113515951A - 基于知识增强注意力网络和组级语义的故事描述生成方法

Info

Publication number: CN113515951A
Application number: CN202110812701.5A
Authority: CN
Inventors: 王瀚漓; 李腾鹏
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-10-19
Anticipated expiration: 2041-07-19
Also published as: CN113515951B

Abstract

本发明涉及一种基于知识增强注意力网络和组级语义的故事描述生成方法，包括以下步骤：1)提取图像的视觉特征和文本特征；2)基于知识增强注意力网络对提取到的外部知识增强信息和区域检测视觉特征进行跨模态注意力特征关联和挖掘，获取区域注意力增强的文本信息和视觉特征；3)基于构建组级语义模块对提取到的组级高层语义视觉特征进行长序列一致性依赖的关联，获取全局视觉语义聚合特征；4)将区域注意力增强的文本信息和视觉特征、全局视觉语义聚合特征和单词编码特征组成多模态特征，输入多模态故事解码网络中生成具备可推理和连贯性的故事描述。与现有技术相比，本发明具有语句描述更加精准、场景想象更加丰富、段落衔接更加流畅等优点。

Description

基于知识增强注意力网络和组级语义的故事描述生成方法

技术领域

本发明涉及图像处理领域，尤其是涉及一种基于知识增强注意力网络和组级语义的故事描述生成方法。

背景技术

用一段话对图像或者视频进行描述对人类来说是一件繁琐的事情，同时对机器来说，用一段流畅自然的语言对现实场景中发生的事情进行描述又是一项充满挑战的任务，故事描述任务的目的旨在对一组图像序列生成一段具有连贯性、准确性和想象力的描述语句，该项任务已经在近几年的计算机视觉和多媒体计算领域逐渐兴起并取得了长足发展。此外，故事描述任务还可以在现实世界中被广泛应用，例如帮助盲人理解社交媒体中图像内容，测试人工智能设备的各项尖端性能。

故事描述任务需要解决两大技术难点：

(1)在单张图中产生被提取区域特征的丰富信息表达；

(2)为图像序列提供发生事件的准确故事情节。

针对难点(1)，许多研究者提出的故事描述方法专注于提取图像的区域检测特征或者高层卷积特征，然而上述提取的区域视觉特征仅能捕捉到图像固有和浅显的信息，无法挖掘到超出图像本身的那些具有多样性、创造性的隐含知识。近期一些工作使用基于场景图或常识图的图谱结构获取具有想象力的外部知识，取得了不错的结果，然而这些工作还是无法有效建立异质信息间的跨模态交互，造成故事描述模型的次优性能。

针对难点(2)，许多统一的端到端故事描述模型旨在解决图像序列中全局一致性信息缺失的问题，其中循环卷积生成网络(RNN)和时序卷积网络(TCN)常被用来解决上述难题。然而，RNN和TCN都会因在长范围特征序列上的记忆消退问题导致模型优化困难，无法产生图像序列的主题一致性信息。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于知识增强注意力网络和组级语义的故事描述生成方法。

本发明的目的可以通过以下技术方案来实现：

一种基于知识增强注意力网络和组级语义的故事描述生成方法，该方法通过构建并训练端到端模型生成一组图像的故事描述，包括以下步骤：

1)提取图像的视觉特征和文本特征，所述的视觉特征包括区域检测视觉特征和组级高层语义特征，所述的区域检测视觉特征包括区域特征和语义标签，所述的文本特征为外部知识增强信息；

2)基于知识增强注意力网络KAN对提取到的外部知识增强信息和区域检测视觉特征进行跨模态注意力特征关联和挖掘，获取区域注意力增强的文本信息和视觉特征；

3)基于构建组级语义模块GSM对提取到的组级高层语义视觉特征进行长序列一致性依赖的关联，获取全局视觉语义聚合特征；

4)将区域注意力增强的文本信息和视觉特征、全局视觉语义聚合特征和单词编码特征组成多模态特征，输入多模态故事解码网络MSD中生成具备可推理和连贯性的故事描述。

所述的步骤1)中，视觉特征的提取方法具体为：

基于回归框和分类的大规模物体检测网络提取高置信度区域物体特征作为区域检测视觉特征，基于预训练的大规模视觉分类网络提取高层语义特征；

外部知识增强信息的提取方法具体为：

基于提取到的语义标签，通过大规模常识知识推理网络进行推理获取高置信度的常识推理知识作为文本特征。

所述的步骤2)中，在知识增强注意力网络KAN中，以文本特征和区域特征作为由自注意力单元和交叉注意力单元构成的级联跨模态注意力模块CCA的输入，得到区域注意力增强的文本信息和视觉特征，包括注意力区域视觉特征和增强文本知识。

所述的步骤3)中，在组级语义模块GSM中，组级高层语义特征分别由多个二阶池化算法模块降维转化为多个特征张量，每个特征张量进行统一连接得到初始化的组级语义特征，在经过二阶池化算法模块进行长范围语义关联后得到全局视觉语义聚合特征。

所述的步骤4)具体包括以下步骤：

41)通过展平函数将注意力区域视觉特征和增强文本知识转换为区域视觉引导向量和知识引导向量；

42)通过由交叉注意力单元和LSTM组成的区域视觉和全局视觉故事解码模块进行多模态推理；

43)根据得到的上下文向量产生当前单词编码，并转换为单词，构成故事描述。

该方法还包括以下步骤：

5)基于自动评价指标和人工评价指标的模型综合性能评估。

所述的自动评价指标包括BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE_L和CIDEr，所述的人工评价指标从相关性、表达性和具体性三个方面评估。

所述的端到端模型具体包括：

特征编码模块：用以提取图像的视觉特征和文本特征；

知识增强注意力网络：用以生成区域注意力增强的文本信息和视觉特征

组级语义模块：用以挖掘全局语义聚合特征；

多模态特征解码模块：用以输出多语句组成的故事描述。

该方法对端到端模型进行端到端的训练和优化，训练损失函数L(θ)表示为：

其中，θ为训练过程中的优化参数，

为参考的子故事gⁿ中的第t个单词编码向量，N为序列图像的数量，T为生成的一句话中的单词数量，

为第n张图像生成语句的似然估计。

与现有技术相比，本发明具有以下优点：

一、本发明提出了一种基于知识增强注意力网络和组级语义的故事描述生成方法，能够结合外部文本知识、区域视觉特征和全局语义信息，生成具有连贯性、准确性和想象力的一段故事描述。

二、本发明提取图像的视觉和文本特征，视觉特征包括区域检测特征和高层语义特征，文本特征包括外部知识增强信息，通过不同模态的特征从不同视角挖掘图像的全局和局部语义信息，以获得更丰富的推理表达。

三、本发明基于知识增强注意力网络，对提取的区域视觉特征和外部增强知识送入设计的级联跨模态注意力模块挖掘异质特征的内在和外在关联，获得区域注意力增强的文本信息和视觉特征。

四、本发明将提取的组图高层语义特征送入设计的组级语义模块探索序列卷积特征的二阶关联，获取一组图像具有概括性的故事情节。

五、本发明采用自动评测指标和人工评测指标进行模型性能的综合评估，该综合评估方法相较于单一的自动评测方法更加合理和全面，提升了故事描述评测结果的可信度。

附图说明

图1为本发明的主要步骤流程示意图。

图2为基于知识增强注意力网络和组级语义的故事描述框架。

图3为自注意力和交叉注意力单元。

图4为二阶池化算法的框架。

图5为多模态故事解码网络的框架。

图6为模型生成的故事描述示例。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于知识增强注意力网络和组级语义的故事描述生成方法(KAGS)，该方法提取图像的区域视觉文本特征和图像全局序列特征，通过知识增强注意力网络和组级语义模块构成的端到端模型生成一组图像的故事描述，该端到端模型分别包括特征编码模块、知识增强注意力网络、组级语义模块和多模态特征解码模块，特征编码模块用于提取视觉和文本特征，知识增强注意力网络用于生成区域注意力增强的文本信息和视觉特征，组级语义模块用于挖掘全局语义聚合特征，多模态特征解码模块用于输出多语句组成的故事描述。

如图1所示，该方法可分为以下步骤进行描述：

S1、提取图像的视觉特征。

本实例中，提取图像的视觉特征，包括区域检测特征和高层语义特征，具体的，给定一组包含N张相关图片

作为输入，对于区域检测特征，选择基于大规模图像语义理解数据集Visual Genome预训练的物体检测网络Faster-RCNN，根据检测得到的区域物体回归框的置信度得分，选择每张图像中前36个被检测物体的区域特征

和语义标签

对于高层语义特征，选择基于大规模图像分类数据集ImageNet预训练的物体分类网络ResNet101，根据在不同层得到的不同尺度的卷积特征，选择最后一个2048维度的卷积层作为高层语义特征

S2、提取外部文本知识和构建新字典。

本实例中，提取的文本知识为大规模常识推理知识。对于外部文本知识，选择大规模常识知识推理网络Concept Net作为知识提取器，根据每张图像的语义标签Lⁿ，选择前20个高置信度得分的常识推理知识作为文本特征Kⁿ，构成一组文本知识

对于包含9,837个单词的VIST单词表，经过常识推理知识的扩充，现有单词表的大小被扩展为12,322，构建的新字典被故事描述模型用来训练和测试。

S3、构建知识增强注意力网络(KAN)。KAN基于设计的级联跨模态注意力模块(CCA)构建文本知识和视觉信息间的交互，进而在文本知识和视觉信息的重要特征维度上赋予更高的注意力权重，获得经过注意力增强的文本知识和视觉信息，图2中的(b)展示了KAN的具体流程。

本实施例中，CCA模块中的自注意力单元(SA)和交叉注意力单元(CA)如图3所示。具体步骤包括：

31)对于给定的query矩阵

key矩阵

和value矩阵

通过将M_v中的所有值和对应的M_q以及M_k中的权重相加得到注意力特征

以上过程定义为：

其中，

m和d分别代表尺度因子、向量个数和特征维度。

32)然后又使用了包含h个平行子空间的多头注意力机制，注意力特征F被定义为：

F＝Multihead(M_q,M_k,M_v)＝[head¹,head²,...,head^h]W_o

其中，

和

是第i个头的可学习投影矩阵，同时

33)引入的多头注意力机制随后被用在设计的自注意力单元和交叉注意力单元中，紧接着定义包含点乘操作、Linear层和BatchNorm层的函数LS(·)。在图3中，给定每张图像的视觉特征F_v或者文本特征F_t，自注意力单元输出的自注意力特征表示为：

SA(F_v)＝LS(Multihead(F_v,F_v,F_v))

SA(F_t)＝LS(Multihead(F_t,F_t,F_t))

类似的，视觉特征F_v和文本特征F_t可以被同时送入交叉注意力单元，输出的交叉注意力特征表示为：

CA(F_t,F_v)＝LS(Multihead(F_t,F_v,F_v))

34)此时，图2中(b)中设计的CCA模块可以通过级联P-1个层得到，表示为：

其中，

和

分别代表第p层中的输入文本知识、输入区域视觉特征、输出文本知识和输出区域视觉特征。对于

初始输入特征设置为

和

最终，CCA的输出

作为增强文本知识和注意力区域视觉特征。

S4、构建组级语义模块(GSM)。GSM由若干个二阶池化算法(SOP)构成，获得全局一致性语义指导，具体步骤如下：

41)如图4所示，对于给定的卷积特征张量

其中h、w和d分别代表特征张量的长、宽和通道维度。SOP首先通过1×1的卷积将通道维度从d降到c，然后SOP将h×w×c的特征张量转化为c×c的协方差矩阵。最后，一个row-wise的卷积层和一个1×1的卷积层将c×c协方差矩阵转为1×1×d的特征张量以突出具有高价值的特征通道。SOP被定义为：

其中

*代表矩阵相乘，

代表将特征张量从大小h×w×c拉伸到(hw)×c的重构操作，f^1×1和f^row分别代表1×1的卷积和row-wise卷积。

42)如图2中的(c)所示，GSM首先将每一个特征表示

送入SOP，然后SOP输出被处理的特征张量

接着所有被处理的特征张量被统一连接为

以产生初始化的组级语义特征。同样的，GSM再次将A送入SOP以获得通道维度的长范围语义关联，产生全局视觉语义聚合

该步骤被定义为：

最终，SOP增强了整体特征的非线性表达能力，GSM获得了组级卷积特征的全局一致性表示。

S5、构建多模态故事解码网络(MSD)，旨在充分利用S3和S4中生成的增强文本知识、注意力区域视觉特征和全局视觉语义聚合，最终生成具备可推理的和连贯性的故事描述。多模态故事解码网络的过程如图5所示，具体步骤如下：

51)为了生成故事的第n个语句，对于给定的注意力区域视觉特征

增强文本知识

全局视觉语义聚合

解码网络首先利用2个Linear层，1个Softmax层组成的展平函数，将

转换为

将

转换为

得到区域视觉引导向量

和知识引导向量

其中M、K和d分别表示检测区域框、关系图和特征通道的数量。

52)为了进一步挖掘视觉特征，增强文本信息和单词编码特征的紧密联系，设计了由交叉注意力单元和LSTM组成的区域视觉和全局视觉故事解码模块完成多模态推理。具体的，对于在第t个时间步的第n张图像的区域视觉信息推理(图5左)，解码器将先前区域隐藏状态

知识引导向量

先前单词编码

和区域视觉引导特征

送入LSTM，输出当前区域隐藏状态

然后，解码器将

认定为交叉注意力单元的query值，将

设置为交叉注意力单元的key值或value值。最后，为了增强

和

之间的联系，带一个编码层的交叉注意力单元的输出可以获得带注意力区域特征表示

该步骤被定义为：

其中，Embed(□)代表全连接层，

代表连接操作。类似的，给定先前全局隐藏状态

知识引导向量

先前单词编码

和全局视觉语义聚合

全局视觉信息推理(图5右)可以产生当前全局隐藏状态

和带注意力全局特征表示

该步骤被定义为：

53)接下来，通过连接

和

得到上下文向量

紧随着一个GLU层和一个Linear层，最终上下文向量

送入Softmax层产生当前单词编码

该步骤产生的单词概率分布被定义为：

其中，预测p代表的是在Visual Storytelling(VIST)数据集的词汇表

上的概率分布。最终单词编码

被转换为单词

获得故事集S的子故事

其中T表示子故事Sⁿ的长度。

本发明(KAGS)生成的故事描述示例如图6所示。

S6、对上述故事描述方法进行基于自动评价指标和人工评价指标的模型综合性能评估。

本实施例中，采用的自动评价指标包括BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE_L和CIDEr。采用的人工评价指标主要从相关性、表达性和具体性三个方面来评估。具体如下：

61)对于自动评价指标，BLEU是一种经典的机器翻译评价指标，旨在通过相似度度量方法得到预测句子和参考句子中n元组同时出现的概率。METEOR旨在基于召回率标准的测量获得和人工评价高度相关的结果。ROUGE_L是通过最长公共子序列计算得到预测语句和参考语句的相关性得分。CIDEr是通过计算向量间的余弦相似度测量获得预测语句和参考语句的相似度得分。

62)对于人工评价指标，相关性要求能准确描述一组图像序列中发生事件的主题；表达性要求能产生具有语法的、想象的、连贯的和丰富的语句；具体性要求能提供图像内容中叙述的和详细的描述。

为了验证本申请方法的性能，设计了以下实验。

本实施例和另外12种先进的故事描述模型进行对比，其具体细节如下：

(1)seq2seq，一个基于RNN结构的初始故事描述模型；(2)BARNN，基于GRU模块的关系注意力模型；(3)h-attn-rank，一个分层次的注意力循环网络；(4)XE-ss，一个基于LSTM的编码解码模型；(5)AERL，一个对抗的奖励优化框架；(6)HPSR，一个分层次的图像编码解码模型；(7)HSRL，一个分层次的强化学习框架；(8)VSCMR，一个语义感知挖掘网络；(9)ReCO-RL，一个相关性文本强化学习方法；(10)INet，一个想象力内容推理网络；(11)SGVST，一个场景图知识增强模型；(12)IRW，一个多图知识推理框架。

具体实验结果如表1和表2所示。

表1本发明和其他故事描述模型在VIST数据集上的性能对比(％)。

表2本发明和其他故事描述模型的人工评测结果，其中Tie表示测试者无法判别哪个方法更优。

由表1和表2可知，本发明方法相较于其他故事描述模型，获得了更优的结果。

以上详细说明了本发明优异的具体实施例。应当理解，本领域的研究人员无需额外的创造性劳动就能够依据本发明的思路做出诸多改进。因此，凡本技术领域中技术人员依据本发明的思路在现有技术的基础上通过对模型的逻辑推理、结构改造或者实验分析可以得到的技术方案，皆应落入本发明保护范围之内。

Claims

1.一种基于知识增强注意力网络和组级语义的故事描述生成方法，其特征在于，该方法通过构建并训练端到端模型生成一组图像的故事描述，包括以下步骤：

2.根据权利要求1所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法，其特征在于，所述的步骤1)中，视觉特征的提取方法具体为：

外部知识增强信息的提取方法具体为：

3.根据权利要求2所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法，其特征在于，所述的步骤2)中，在知识增强注意力网络KAN中，以文本特征和区域特征作为由自注意力单元和交叉注意力单元构成的级联跨模态注意力模块CCA的输入，得到区域注意力增强的文本信息和视觉特征，包括注意力区域视觉特征和增强文本知识。

4.根据权利要求3所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法，所述的步骤3)中，在组级语义模块GSM中，组级高层语义特征分别由多个二阶池化算法模块降维转化为多个特征张量，每个特征张量进行统一连接得到初始化的组级语义特征，在经过二阶池化算法模块进行长范围语义关联后得到全局视觉语义聚合特征。

5.根据权利要求4所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法，其特征在于，所述的步骤4)具体包括以下步骤：

6.根据权利要求1所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法，其特征在于，该方法还包括以下步骤：

5)基于自动评价指标和人工评价指标的模型综合性能评估。

7.根据权利要求6所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法，其特征在于，所述的自动评价指标包括BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE_L和CIDEr，所述的人工评价指标从相关性、表达性和具体性三个方面评估。

8.根据权利要求1所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法，其特征在于，所述的端到端模型具体包括：

特征编码模块：用以提取图像的视觉特征和文本特征；

组级语义模块：用以挖掘全局语义聚合特征；

多模态特征解码模块：用以输出多语句组成的故事描述。

9.根据权利要求8所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法，其特征在于，该方法对端到端模型进行端到端的训练和优化，训练损失函数L(θ)表示为：

其中，θ为训练过程中的优化参数，

为第n张图像生成语句的似然估计。