CN113420834A

CN113420834A - 一种基于关系约束自注意力的图像描述自动生成方法

Info

Publication number: CN113420834A
Application number: CN202110825814.9A
Authority: CN
Inventors: 冀俊忠; 王鸣展; 张晓丹
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-09-21
Anticipated expiration: 2041-07-21
Also published as: CN113420834B

Abstract

本发明采用的技术方案为一种基于关系约束自注意力的图像描述自动生成方法，涉及自然图像处理，计算机视觉和自然语言处理三个领域，所述方法具有以下特点：1)设计了一种基于视觉语义关系约束的自注意力机制(RCSA)，约束自注意力更好的聚焦于与生成描述相关的区域，忽略无关区域，从而提高图像描述生成的准确性。2)RCSA包含两个子模块，RCSA‑E和RCSA‑D分别作用于图像描述模型的编码与解码阶段。RCSA‑E使用视觉关系来使自注意力权重更加稀疏；RCSA‑D将先验语义关系信息嵌入输入高层上下文特征中，增强解码阶段语义表达。3)本发明在离线和在线评测方法上做了充分实验，实验结果展示了所提方法的有效性。

Description

一种基于关系约束自注意力的图像描述自动生成方法

技术领域

本发明涉及自然图像处理，计算机视觉和自然语言处理三个领域，针对自然图像描述自动生成目标，设计了一种基于关系约束自注意力的图像描述自动生成方法。

背景技术

图像描述，旨在自动为图像生成自然描述，是一个结合计算机视觉和自然语言处理的跨学科任务。其要求模型不仅要了解图像中的对象，场景及其交互，还需要生成自然语言序列。图像描述的研究与发展依赖于计算机视觉、自然语言处理技术的进步，也有助于带动计算机视觉、自然语言处理等相关领域的发展，更加有助于推动人工智能相关应用的实现，例如视觉障碍辅助、视觉语音导航、智能聊天机器人、幼儿教育以及医学报告自动生成等等。

随着深度神经网络的发展，大多数最近的图像描述方法遵循编码器-解码器(encoder-decoder)框架。其首先通过卷积神经网络(CNN)对图像进行编码，然后通过经循环神经网络(RNN)来解码视觉特征并生成描述。图像描述的难点是将视觉内容适当地对准语言描述，其中模型通常在解码期间应用注意力机制来强调视觉内容区域。

目前，基于自注意力(self-attention)的Transformer结构在序列生成任务中表现出出色的性能，其能取代掉传统图像描述模型中的RNN，并且更好的对齐视觉特征与语义单词。自注意力的优势在于能学习到更完整的图像区域与区域之间的关系和联系。然而自注意力中的关系通常是比较稠密的，难以被模型完全优化，从而导致关系和注意力中存在冗余噪声。同时，一些有用的先验关系信息，比如图像物体之间的视觉和语义关系信息，在当前的自注意力机制中被忽略，这些都直接造成注意力特征获取的不够准确，阻碍了图像描述效果的进一步提高。

发明内容

为了解决由于自注意力机制在图像描述任务中存在的冗余噪声和缺乏先验，导致图像描述效果难以进一步提高问题，本发明公开了一种具有关系约束能力的自注意力模型(Relation Constraint Self-Attention，RCSA),能够将先验关系信息引入自注意力中，来限制自注意力的分布，从而提高自注意力的关系学习能力。相比于Up-Down等传统注意力模型方法，本方法不仅在图像关注的位置上更为准确，图像描述结果更加准确。

本发明采用的技术方案为一种基于关系约束自注意力(Relation ConstraintSelf-Attention，RCSA)的图像描述自动生成方法，该方法包括包含两个子模块：RCSA-E作用于编码器阶段；RCSA-D作用于解码器阶段，RCSA模型具体步骤如下：

步骤(1)获取MS COCO图像描述数据集并预处理，得到训练数据集：

步骤(1.1)获取MS COCO图像描述数据集，包含图像数据I及其对应的groundtruth标准描述数据

步骤(1.2)对MS COCO中的ground truth标准描述数据

进行预处理。

步骤(1.3)使用特征提取器模型，完成MS COCO图像数据I的预编码，得到图像特征X。

步骤(1.4)采用场景图生成方法获得图像的场景图G，随后通过G生成RCSA-E和RCSA-D分别所需的图像视觉关系图和语义关系对(并非所有的物体之间都会存在视觉和语义关系，没有关系的物体，不会生成图像视觉关系图和语义关系对)。图像视觉关系图是一种有向无环图(Directed Acyclic Graph)结构，由有向边和各个节点组成，如“woman→umbrella”中，“woman”和“umbrella”是节点，存在一条由“woman”指向“umbrella”的有向边。语义关系对是一个三元组(Triple)，其表示为<主语，关系，宾语>，如<woman，with，umbrella>中，“woman”为主语，“umbrella”为宾语，“with”为两者之间关系。

步骤(2)构建RCSA-E作用于模型编码器，编码器遵循标准Transformer编码器结构，是一种6层的栈式结构，前一层的输出会作为下一层的输入，每一层的结构相同，其核心为自注意力机制(self-attention)。自注意力机制的输入input会首先经过三次不同线性变换得到Query(简称为Q^E)、Key(简称为K^E)和Value(简称为V^E)，然后生成自注意力矩阵

输出

RCSA-E针对编码器中自注意力机制不足，做出改进：

步骤(2.1)由步骤1.4图像视觉关系图作为物体间是否有视觉关系的依据，生成视觉关系矩阵Ω，其大小为N×N(N为图像中物体的数量)其中有视觉关系的对应位置元素置为1，没有关系的置为0。

步骤(2.2)将Ω与编码器中自注意力运算结果相乘，起到约束自注意力的作用，自注意力其他操作不变，这就是完善后的自注意力机制，即RCSA-E。

步骤(2.3)将编码器的每一层含有RCSA-E的编码层栈式累加，前一层的输出作为后一层的输入，累加6层后得到编码器输出

步骤(3)构建RCSA-D作用于模型解码器，对

进行解码。解码器与编码器相似，也遵循标准Transformer解码器结构，是一种6层的栈式结构，前一层的输出会作为下一层的输入，每一层的结构相同，其核心为自注意力机制(self-attention)。不同的是，解码器每一层的输入变成两项：

和描述数据

自注意力机制的K^D和V^D由

线性变换而来，Q^D由

线性变换而来，其他操作不变。输出为图像描述结果Y,Y＝{y₀,y₁,…,y_T},T为描述的最长时刻，即描述的最大长度。RCSA-D针对解码器中自注意力机制不足，做出改进：

步骤(3.1)由步骤1.4图像语义关系对构建语义关系嵌入E，并与

线性变化得到的K^D、V^D拼接，得到新的具有语义关系信息的图像特征

和

步骤(3.2)

和

包含了从应用RCSA-E的编码器中得到的视觉关系信息，又包含了先验语义关系信息，再继续进行自注意力计算，这便是RCSA-D对原自注意力机制的改进。按顺序重复每一解码层计算，并栈式叠加最后得到图像描述结果Y。

步骤(4)模型训练。基于产生的描述Y与ground truth标准描述数据

计算交叉熵损失或者强化学习梯度损失，使用随机梯度下降算法对模型进行优化，得到最终模型。

步骤(5)对于待描述的图像，应用步骤(1.3)得到其图像特征后送入模型中，便可得到相应的图像描述。

有益效果

相比原基于自注意力机制的图像描述方法，本专利的方法能更好的建模图像中的视觉和语义关系信息，并去除其中无用噪声信息，使得生成的描述句子质量更好；特别地，本专利尤其在描述图像中物体间关系时，能生成更加准确详细的描述。

附图说明

图1：RCSA图像描述方法框架图。

图2：RCSA模型图。

图3：注意力图像对比图。

具体实施方式

下面以MS COCO图像描述数据集为例，说明本发明的具体实施步骤：

步骤(1.1)获取MS COCO图像描述数据集，其中包含图像数据I及其对应的groundtruth标准描述数据

MS COCO数据集下载地址为http://cocodataset.org/#download，数据集共包含164062张图片，其中训练集、验证集和测试集大小分别为82783,40504和40775，除测试集外，每张图片还包含至少5句对应的标准描述作为标签。

步骤(1.2)对MS COCO中的ground truth标准描述数据

进行预处理。设置图像描述最大长度为16，将词频小于5的单词替换为“UNK”，减少少数噪声单词的干扰，场景图生成方法中会存在50个关系词或词组，将其也加入词库，最终词库数据中包含的单词数量为9507。

步骤(1.3)使用特征提取器模型，完成MS COCO图像数据I的预编码，得到图像特征X，可以采用深度卷积神经网络，例如ResNet-101，也可以采用目标检测模型，例如RCNN、Faster-RCNN等。本发明采用Faster-RCNN。公式表达为：

X＝Faster-RCNN(I)

步骤(2)构建RCSA-E作用于模型编码器，编码器遵循标准Transformer编码器结构，是一种6层的栈式结构，前一层的输出会作为下一层的输入，每一层的结构相同，其核心为自注意力机制(self-attention)，只用其中一层进行描述：自注意力机制的输入input会首先经过三次不同线性变换得到Query(简称为Q^E)、Key(简称为K^E)和Value(简称为V^E)，然后生成自注意力矩阵

输出

对于编码器而言，编码器的输入是提取的图像特征X，输出为编码后的图像特征

以最后一层编码层举例，原编码器中自注意力公式表示为：

其中

和

分别是训练参数。

步骤(2.2)将Ω与编码器中自注意力矩阵

相乘，起到约束自注意力的作用，自注意力其他操作不变，这就是完善后的自注意力机制，即RCSA-E，公式表达为：

步骤(2.3)将编码器的每一层含有RCSA-E的编码层栈式累加，前一层的输出作为后一层的输入，每一层都采用步骤(2.2)方式，累加6层后得到编码器输出

步骤(3)构建RCSA-D作用于模型解码器，对

进行解码。解码器与编码器相似，也遵循标准Transformer编码器结构，是一种6层的栈式结构，前一层的输出会作为下一层的输入，每一层的结构相同，其核心为自注意力机制(self-attention)。不同的是，解码器每一层的输入变成两项：

和描述数据

自注意力机制的K^D和V^D由

线性变换而来，Q^D由

线性变换而来，其他操作不变。输出为图像描述结果Y,Y＝{y₀,y₁,…,y_T},T为描述的最长时刻，即描述的最大长度，以最后一层解码层举例，原解码器中的自注意力公式表达为：

步骤(3.1)由步骤1.4图像语义关系对构建语义关系嵌入E，对于区域i来说，其既可以作为关系对中的“主语”出现，又可以作为“宾语”出现，如单词“umbrella”在图1中，是关系对<umbrella,nextto,bench>中的“主语”，也是<woman,with,umbrella>中的“宾语”。语义关系嵌入E的公式定义如下：

其中N_sub与N_obj分别是物体出现在所有关系对中主语和宾语的次数，N_rel＝N_sub+N_obj，E_sub与E_obj分别是其对应关系对中关系单词的嵌入，其公式为：

E_sub＝Embedding(y_sub)

E_obj＝Embedding(y_obj)

其中Embedding为嵌入函数，y_sub和y_obj分别为区域i在关系对中作为主语和宾语时的对应关系单词。f_sub与f_obj分别是两个结构相同的变换函数，由前馈网络加ReLU激活函数组成。

接下来，将E与

线性变换得到的K^D、V^D相拼接(如原来K^D，V^D，E都是512维度，拼接后的

和

应为1024维度)，Q^D保持不变，得到新的具有语义关系信息的图像特征

和

公式如下：

其中

和

分别是训练参数。

步骤(3.2)

和

包含了从应用RCSA-E的编码器中得到的视觉关系信息，又包含了先验语义关系信息，再继续进行自注意力计算，这便是RCSA-D对原自注意力机制的改进。重复该栈式叠加操作，最后得到图像描述结果Y，公式如下：

步骤(4)模型训练。整体方法流程图如图1所示，基于产生的描述Y与标准的描述数据

计算交叉熵损失或者强化学习梯度损失，使用随机梯度下降算法对模型进行优化，得到最终模型。两种损失函数的定义分别如下所示：

L_XE(θ)＝-∑log p_θ(y_t|y_1:t-1)

使用随机梯度下降算法，例如ADAM对整个方法进行优化，训练参数，得到最终的模型。

为了充分验证本方法的优越性，采用定量分析和定性分析两种评价方式。定量分析包含离线和在线两种，将其与SCST，Up-Down，AoANet，GCN-LSTM，SGAE，VSUA，NG-SAN等已有的方法进行了效果比较，使用BLEU,METEOR,ROUGE和CIDEr四个评价指标对结果进行了评价，这四种评价指标已经广泛应用于图像描述结果的定量评价中。定性分析采用可视化注意力区域的方式，主要与普通自注意力(SA)方法的进行了对比。

首先对方法进行定量分析。离线测试采用Karpathy划分，将原有的训练集和验证集数据重新划分，生成113287张训练数据、5000张验证数据、5000张测试数据。在线方式则将本方法在原测试集上的结果提交到MS COCO测试服务器上。表1为离线测试结果，从表1可以看到，本发明在BLEU1，METTOR和CIDEr指标上取得了最好结果，相较于同样使用自注意力机制的NG-SAN方法，本发明提出的关系约束机制能够更好地利用图像中的视觉和语义关系来约束自注意力分布，使得注意力特征会更加准确，图像描述效果提升明显。表2和表3分别为MS COCO参考描述数量为5和40时的在线测试结果，与部分已公开的方法结果相比，本方法效果明显，在所有指标上具有绝对优势，尤其CIDEr指标，相比较其它方法至少提升了3。

表1 MS COCO数据集上离线测试

方法	BLEU1	BLEU4	METTOR	ROUGLE	CIDEr
						SCST	-	31.3	26.0	54.3	101.3
Up-Down	79.7	37.4	27.7	57.7	123.2
						VSUA	-	38.4	28.5	58.4	128.6
GCN-LSTM	80.5	38.2	28.5	58.3	127.6
						SGAE	80.8	38.4	28.4	58.6	127.8
AoANet	80.2	38.9	29.2	58.8	129.8
						NG-SAN	-	39.9	29.3	59.2	132.1
RCSA(ours)	81.2	39.5	29.5	58.9	132.5

表2 MS COCO数据集上在线测试(c5)

方法	BLEU1	BLEU2	BLEU3	BLEU4	METTOR	ROUGLE	CIDEr
								SCST	78.1	61.9	47.0	35.2	27.0	56.3	114.7
Up-Down	80.2	64.1	49.1	36.9	27.6	57.1	117.9
								VUSA	79.9	64.3	49.5	37..4	28.2	57.9	121.6
GCN-LSTM	80.8	65.5	50.8	38.7	28.5	58.5	125.3
								SGAE	81.0	65.6	50.7	38.5	28.2	58.6	123.8
AoANet	81.0	65.8	51.4	39.4	29.1	58.9	126.9
								NG-SAN	80.8	65.4	50.8	38.8	29.0	58.7	126.3
RCSA(ours)	81.5	66.3	51.6	39.7	29.4	59.2	130.0

表3 MS COCO数据集上在线测试(c40)

从上述评价指标定量评价来看，本发明提出基于关系约束自注意力的图像描述自动生成方法具有很强的优越性。为了进行定性分析，我们通过可视化方法展示了普通自注意力模型(SA)和本发明模型(RCSA)在图像描述过程中所关注的区域。如图3所示，自注意力图像中的区域越亮，表示该区域越受到关注很明显，RCSA更加关注相关的区域和它们之间的关系，描述更为准确。比如：在第一个例子，RCSA在“motorcycle”和“truck”上有着更高的注意力；在第一个和第三个例子中，RCSA能识别出关系“in front of a truck”和“under atree”；在所有三个例子中，RCSA有着更精准的注意力关注度，比如“truck”，“cat”和“man”。

无论是定量评价中的离线测试和在线测试，还是定性分析中展示的注意力图像，本发明提出的基于关系约束自注意力的图像描述自动生成方法取得了较好的效果，体现关系约束自注意力模型的强大能力，在未来的实际应用中具有良好的应用前景。

Claims

1.一种基于关系约束自注意力RCSA的图像描述自动生成方法，其特征在于：该方法包括包含两个子模块：RCSA-E作用于编码器阶段；RCSA-D作用于解码器阶段，具体步骤如下：

步骤(1)获取图像描述数据集并预处理，得到训练数据集，包括提取图像特征X，以及生成RCSA-E和RCSA-D分别所需的图像视觉关系图和语义关系对；

步骤(2)构建RCSA-E作用于模型编码器，编码器用于对步骤(1)提取的图像特征X进行编码，输出编码后的图像特征

编码器遵循标准Transformer编码器结构，是一种6层的栈式结构，每一层的结构相同，将每一层含有RCSA-E的编码层栈式累加，前一层的输出作为后一层的输入，累加6层后得到编码器输出

步骤(3)构建RCSA-D作用于模型解码器，对

进行解码。解码器遵循标准Transformer解码器结构，是一种6层的栈式结构，前一层的输出会作为下一层的输入，每一层的结构相同，解码器每一层的输入为两项：

和ground truth标准描述数据

将每一层含有RCSA-D的编码层栈式累加，前一层的输出作为后一层的输入，累加6层后得到解码器输出，即生成的描述Y,Y＝{y₀,y₁,…,y_T},T为描述的最长时刻，即描述的最大长度；

步骤(4)模型训练。基于生成的描述Y与ground truth标准描述数据

计算交叉熵损失或者强化学习梯度损失，使用随机梯度下降算法对模型进行优化，得到最终模型；

步骤(5)对于待描述的图像，使用与训练过程相同的特征提取方法，得到其图像特征后依次送入编码器和解码器中，便可得到相应的图像描述。

2.根据权利要求1所述的一种基于关系约束自注意力的图像描述自动生成方法，进一步的，步骤(1)包括以下步骤：

步骤(1.1)获取MS COCO图像描述数据集，包含图像数据I及其对应的ground truth标准描述数据

步骤(1.2)对MS COCO中的ground truth标准描述数据

进行预处理；

步骤(1.3)使用特征提取器模型，完成MS COCO图像数据I的预编码，得到图像特征X；

步骤(1.4)采用场景图生成方法获得图像的场景图G，随后通过G生成RCSA-E和RCSA-D分别所需的图像视觉关系图和语义关系对；图像视觉关系图是一种有向无环图结构，由有向边和各个节点组成，节点为每个物体，有向边用于表示两个物体之间的视觉或语义关系；语义关系对是一个三元组，其表示为<主语，关系，宾语>。

3.根据权利要求2所述的一种基于关系约束自注意力的图像描述自动生成方法，进一步的，

步骤(2)中含有RCSA-E的第i编码层的工作过程具体如下：

步骤(2.1)由步骤1.4图像视觉关系图作为物体间是否有视觉关系的依据，生成视觉关系矩阵Ω，其大小为N×N(N为图像中物体的数量)其中有视觉关系的对应位置元素置为1，没有关系的置为0；

步骤(2.2)利用RCSA-E机制得到本层输出，公式表达为：