CN112508096A

CN112508096A - 一种基于几何自注意力机制的图像自动标注方法

Info

Publication number: CN112508096A
Application number: CN202011421612.XA
Authority: CN
Inventors: 纪禄平; 王驰; 沈聿林; 杨凡; 李�真
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-16
Anticipated expiration: 2040-12-08
Also published as: CN112508096B

Abstract

本发明公开了一种基于几何自注意力机制的图像自动标注方法，先通过Faster R‑CNN网络对图像进行目标检测，提取目标的外貌特征及几何特征；利用基于几何自注意力机制的编码器，显式编码目标几何位置信息；利用GLU门控单元控制几何自注意力机制模块的输出，进一步修正目标特征；以一种层级编码结构不断递进地融入几何位置信息，修正目标特征；利用Position‑LSTM模块编码句子单词位置信息；将Position‑LSTM模块的输出结果输入基于自注意力机制的解码器，并结合编码器最终编码结果进行层级解码，最终得到标注句子。

Description

一种基于几何自注意力机制的图像自动标注方法

技术领域

本发明属于图像标注技术领域，更为具体地讲，涉及一种基于几何自注意力机制的图像自动标注方法。

背景技术

图像标注(Image Caption)是基于计算机视觉和自然语言处理两个领域的相关研究，是一个十分具有挑战性的问题。它旨在研究如何自动地实现对给定图像生成一句准确、流畅的描述性文字，可以看作是一个Img2Seq问题。其流程可分为两部分：首先根据输入图像，识别图像中的物体及其之间的关系，形成中间结果；然后基于此中间结果自动生成一句描述性的文字。图像标注可以看作为模仿人类提取图像信息，并将其压缩提炼，最终形成描述性文字的能力。它不仅要解决图像中目标检测(Object Detection)的问题，还要更细粒度地去识别出不同物体之间的微妙联系，例如不仅要识别出狗，还要识别出狗在奔跑等；同时，还要使用生成器准确地表达出这些物体及其关系。因此，相对于传统的计算机视觉任务或者自然语言处理任务，图像描述任务更具有挑战性。

图像标注可以看作是一种从图像到文本的“翻译”，其技术可以大致分为两大类：一种是较为传统的机器学习图像标注技术，另一种是基于深度学习的图像标注技术。传统的基于模板的方法大多数都是通过预先生成固定的模板，这些模板内部留有空槽，然后通过填充这些空白来生成图像标注。例如，Kulkarni等人提出了一种基于四元组模板的方法来生成图像标注，其首先采用目标检测方法提取去图像中显著性物体的四元组信息，接着使用条件随机场进行联合推理，生成标注句子。但是，由于模板是预先固定的，无法生成可变长度的标注句子，并且生成的标注句子不太自然、流畅，丧失了灵活性。从图像检索的角度出发，早期的学者们提出了基于图像检索的标注算法。这是一种数据驱动的方法，它的思想主要是将图像和对应的句子映射到某个向量空间，然后在此特征空间基于向量相似性进行检索。但是，基于检索的方法过于依赖检索池中的数据。当数据较少或不够准确时，基于检索的方法效果会大打折扣。

除此之外，深度学习方法也是一大类被广泛应用在图像标注的技术方法。例如谷歌的Vinyals等人提出了NIC模型、Xu等人探究了Hard-Attention与Soft-Attention两种注意力机制的有效性、Anderson等人提出了一种自下而上与自上而下结合的注意力机制等。这些模型经过样本训练能获得不错的效果，但是他们都缺失了一个很重要的点，即图像中不同物体之间的几何位置关系。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于几何自注意力机制的图像自动标注方法，通过层级方式逐步修正图像中的目标物体的特征向量，从而生成更准确的图像标注句子。

为实现上述发明目的，本发明一种基于几何自注意力机制的图像自动标注方法，其特征在于，包括以下步骤：

(1)、图像采集

从MS COCO数据库中下载图像标注数据集，包括原始图像及其对应的标注句子；

(2)、图像预处理

(2.1)、对原始图像进行尺寸缩放及归一化处理；

(2.2)、将所有标注句子依次进行分词、转换为小写字母、统计词频并去除词频小于5次的单词；

(3)、构建储存字典

储存字典的结构以开始标志符“START”开始，以结束标志符“END”结束，在开始标志符和结束标志符直接依次储存筛选后的所有单词，其中，在储存过程中，“START”、“END”及所有单词均以词向量的形式存储；

(4)、利用Faster R-CNN模型进行目标检测和特征提取

将步骤(2.1)预处理后的图像输入到Faster R-CNN模型(Faster Region-Convolutional Neural Network)，每张图像检测出N个目标物体的两种特征：外貌特征

和几何特征X_g∈R^N×5，其中，d_k表示X_A的维度，X_g的每一行表示为：{(x_min,y_min),(x_max,y_max),area}，(x_min,y_min),(x_max,y_max)表示目标物体边界框的左上、右下两个坐标，area表示目标物体边界框的面积；

(5)、特征维度变换

(5.1)、对几何特征X_g按照如下公式进行维度变换，将其由维度5映射到维度

得到几何特征

其中，d_model表示标注模型中几何自注意力机制模块的维度，h表示标注模型中几何自注意力机制模块的head数，Embed(·)表示维度变换，ReLU(·)表示非线性激活函数；

(5.2)、对外貌特征X_A进行线性变换，将其由维度d_k映射到d_model维度，得到外貌特征

(6)、搭建标注模型并训练

(6.1)、搭建标注模型

标注模型主要由编码单元和解码单元级联而成，其中，编码单元又由级联的多层编码器组成，在每一层的编码器中包括多个head组成的几何自注意力机制模块和门控单元GLU；解码单元同样由级联的多层解码器组成，在每一层解码器中包括多个head组成的几何自注意力机制模块和position-LSTM模块；

(6.2)、训练标注模型

(6.2.1)、标注模型逐层特征编码

(6.2.1.1)、在第一层编码器中，使用何自注意力机制模块对外貌特征

进行修正；

其中，λ₁为常数，

分别表示第一层编码器中对应于的线性变换矩阵，softmax(·)表示激活函数，head_i(1)表示第一层编码器中第i个head的输出，i＝1,2,…,h；

(6.2.1.2)、按照步骤(6.2.1.1))所述方法，将i从1开始通过h次不同的线性变换，得到h个head的输出结果，最后按照如下公式将h个输出结果拼接，再进行一次线性变换：

A_t(1)＝Concat(head₁(1),head₂(1),…,head_h(1))W₀(1)

其中，A_t(1)表示第一层几何自注意力机制模块的输出，Concat(·)表示拼接操作，W₀(1)表示第一层的编码时对应的线性变换矩阵；

(6.2.1.3)、利用门控单元GLU(Gated Linear Unit)对A_t(1)进行门控输出；

将A_t(1)和特征

输入至GLU，然后应用门控输出g，得到第一层编码器的输出X_r(1)；

其中，σ(·)表示sigmoid激活函数，⊙代表按元素的乘法，W_g(1)、W_i(1)和b_g(1)、b_i(1)分别表示第一层GLU单元线性变换矩阵及对应偏置；

(6.2.1.4)、从编码单元的第二层开始，按照步骤(6.2.1.1)～(6.2.1.3)所述方法进行逐层编码，直到最后一层编码器的输出，并作为最终的编码输出，记为X_r；

(6.2.2)、标注模型逐层特征解码

(6.2.2.1)、在第一层的解码器中，从储存字典中选取开始标志符“START”的词向量w₀以及外貌特征

的均值

拼接，v_k表示第k个目标物体的外貌特征；拼接完成后输入到position-LSTM模块，并将position-LSTM模块的隐状态的输出作为第一层的解码器的输入，记为Q'(1)；

(6.2.2.2)、将编码单元的最终输出X_r分别经过两个不同的线性变换，分别得到K'(1)和V'(1)；再结合Q'(1)计算第一层中每个head的解码输出；

其中，λ₂为常数；

(6.2.2.3)、按照步骤(6.2.2.2)所述方法，将i从1开始通过h次解码，得到h个head的解码输出，最后按照如下公式将h个解码输出进行拼接，再进行一次线性变换作为第一层解码器的输出：

其中，

表示第一层解码器的输出，Concat(·)表示拼接操作，

表示第一层解码对应的线性变换矩阵；

(6.2.2.4)、重复步骤(6.2.2.2)～(6.2.2.3)的操作，直至最后一层解码器的解码输出

(6.2.2.4)、将最后一层解码器的解码输出

输入至softmax输出层，通过如下公式得到t时刻单词在字典上的概率分布；

其中，W_p和b_p分别表示softmax的学习权重与偏置；

(6.2.2.5)、取概率最大值对应的单词即为到t时刻的解码单词；

(6.2.2.6)、重复步骤(6.2.2.1)～(6.2.2.5)，每重复一次解码出一个单词，直到解码出结束标志符“<END>”停止，从而得到训练完成的标注模型；

(7)、图像自动标注

按照步骤(2)～(4)中图像处理方法对待标注图像进行处理，然后再输入至训练完成的标注模型，从而直接输出待标注图像对应的标注语句。

本发明的发明目的是这样实现的：

本发明为一种基于几何自注意力机制的图像自动标注方法，先通过Faster R-CNN网络对图像进行目标检测，提取目标的外貌特征及几何特征；利用基于几何自注意力机制的编码器，显式编码目标几何位置信息；利用GLU门控单元控制几何自注意力机制模块的输出，进一步修正目标特征；以一种层级编码结构不断递进地融入几何位置信息，修正目标特征；利用Position-LSTM模块编码句子单词位置信息；将Position-LSTM模块的输出结果输入基于自注意力机制的解码器，并结合编码器最终编码结果进行层级解码，最终得到标注句子。

同时，本发明中基于几何自注意力机制的图像自动标注方法还具有以下有益效果：

(1)、使用Faster R-CNN网络对图像进行目标检测，能够捕捉图像中丰富的物体信息，实现了图像信息利用的最大化；

(2)、通过几何自注意力机制，显式地编码物体的位置关系并对物体外貌信息进行修正，捕捉了不同物体之间的位置关联性。与以往的图像标注技术相比，本发明能够生成位置敏感的标注句子，更准确地表达图像信息；

(3)、解码器端采用Position-LSTM模块对句子单词位置进行编码，不仅能很好地表示当前单词位置信息，还传递了当前时刻之前所有已解码单词的语义信息，实现了解码器端的位置敏感性。

附图说明

图1是本发明一种基于几何自注意力机制的图像自动标注方法流程图；

图2是图像预处理及目标特征提取流程图；

图3是传统自注意力机制与几何自注意力机制的流程对比图；

图4是图像标注模型的完整架构图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于几何自注意力机制图像自动标注技术的一种具体实施方式架构图。

在本实施例中，如图1所示，本发明是一种基于几何自注意力机制的图像自动标注方法，包括以下步骤：

S1、图像采集

S2、图像预处理

S2.1、如图2所示，对原始图像先将图像尺寸缩放为224*224，再进行归一化处理；

S2.2、将所有标注句子依次进行分词、转换为小写字母、统计词频并去除词频小于5次的单词；

S3、构建储存字典

S4、利用Faster R-CNN模型进行目标检测和特征提取

如图2所示，将步骤(2.1)预处理后的图像输入到Faster R-CNN模型(FasterRegion-Convolutional Neural Network)，每张图像检测出N＝36个目标物体的两种特征：外貌特征

和几何特征X_g∈R^N×5，其中，d_k表示X_A的维度，本实施例中取值为2048，X_g的每一行表示为：{(x_min,y_min),(x_max,y_max),area}，(x_min,y_min),(x_max,y_max)表示目标物体边界框的左上、右下两个坐标，area表示目标物体边界框的面积；

传统的图像标注方法在处理图像时，往往仅将图像中检测到物体的外貌特征保留下来。然而，本发明还采用了物体的几何位置信息(几何特征)，从而弥补了图像标注模型的位置盲目性，此外，不同于以往基于自注意力机制的Transformer模型，本发明显式地加入了图像中目标物体的坐标信息和目标大小，如图3(a)所示，传统的自注意力机制可以看作是一种在给定“查询”和“键值对”之间的映射关系。这种机制仅仅将X_A(外貌特征)作为输入，不能不能建模物体之间的位置关系，丧失了位置敏感性。图3(b)则展示了本发明提出的几何自注意力机制，这种机制还额外将X_g∈R^N×5作为输入。

S5、特征维度变换

S5.1、对几何特征X_g按照如下公式进行维度变换，将其由维度5映射到维度

得到几何特征

其中，d_model表示标注模型中几何自注意力机制模块的维度，本实施例中取值为512，h表示标注模型中几何自注意力机制模块的head数，本实施例中取值为8，Embed(·)表示维度变换，ReLU(·)表示非线性激活函数；

S5.2、对外貌特征X_A进行线性变换，将其由维度d_k映射到d_model维度，得到外貌特征

S6、搭建标注模型并训练

S6.1、搭建标注模型

标注模型主要由编码单元和解码单元级联而成，其中，编码单元又由级联的L层编码器组成，本实施例中取值为3，在每一层的编码器中包括多个head组成的几何自注意力机制模块和门控单元GLU；解码单元同样由级联的L层解码器组成，在每一层解码器中包括多个head组成的几何自注意力机制模块和Position-LSTM模块；

在本实施例中，将几何自注意力修正模块与Position-LSTM模块相结合，形成了完整的几何自注意力图像标注模型，图4展示了该模型的完整架构。

在经过Faster R-CNN模型的预处理之后，得到外貌特征X_A∈R^N×2048与几何特征X_G∈R^N×5。然后将其输入堆叠了L层的编码器网络，其中每一层都包含了几何自注意力模块与GLU模块。经过解码后，得到修正后的图像特征X^r∈R^N×2048。然后将其输入自注意力机制的解码器(同样由L层构成)。在解码器输入词向量之前，将词向量经过Position-LSTM模块进行位置编码，然后将其输出经过线性变换；同时将编码器的输出X^r经过两次线性变换，一并输入自注意力机制模块计算输出结果，最后可得到某个时刻输出的单词y_t。

在上述过程中，编码器端向自注意力机制中显式地加入了图像几何位置信息，得到了“位置敏感”的图像特征表达。这样一来，每个图像就不特征都与其他局部特征有了位置上的关联性，从而避免了盲目地“用词造句”(即在不知道“狗”与“椅子”位置相关性的情况下，推理“狗躺在椅子上”或是“狗躺在椅子下”)；在解码器端，通过position-LSTM赋予了解码器感知句子中单词相对位置关系的能力，同样解决了解码器端的位置盲目性。并且，该模型可以无需人工干预，进行端到端的训练，具体训练过程如下。

S6.2、训练标注模型

S6.2.1、标注模型逐层特征编码

S6.2.1.1、在第一层编码器中，使用何自注意力机制模块对外貌特征

进行修正；

其中，λ₁为常数，在本实施例中取

W_i ¹(1)～W_i ⁴(1)、

S6.2.1.2、按照步骤S6.2.1.1所述方法，将i从1开始通过h次不同的线性变换，得到h个head的输出结果，最后按照如下公式将h个输出结果拼接，再进行一次线性变换：

A_t(1)＝Concat(head₁(1),head₂(1),…,head_h(1))W₀(1)

S6.2.1.3、利用门控单元GLU(Gated Linear Unit)对A_t(1)进行门控输出；

将A_t(1)和特征

其中，σ(·)表示sigmoid激活函数，⊙代表按元素的乘法，W_g(1)、W_i(1)和b_g(1)、b_i(1)分别表示第一层线性变换矩阵及对应偏置；

S6.2.1.4、从编码单元的第二层开始，按照步骤S6.2.1.1～S6.2.1.3所述方法进行逐层编码，直到最后一层编码器的输出，并作为最终的编码输出，记为X_r；

S6.2.2、标注模型逐层特征解码

在本实施例中，在利用Transformer进行解码时，句子被看作“词袋模型”，从而丧失了句子中单词相对位置关系。传统的方法是将正弦编码加到词向量上来表示单词的位置。本发明采用了长短期记忆网络(Long Short-Term Memory，LSTM)来进行位置编码，从而增强了解码器对于句子单词的位置感知。下面我们对解码的具体过程进行描述，具体为：

S6.2.2.1、在第一层的解码器中，从储存字典中选取开始标志符“START”的词向量w₀以及外貌特征

的均值

在本实施例中，Position-LSTM模块出色地完成了以下两点：第一、显式地编码了当前时间步在整个句子中的相对位置关系，LSTM逐字地解析每一个单词，从而保留了每个单词在完整句子中的相对位置关系，同时使得解码器以一种“位置敏感”的方式自适应地关注图像中不同的区域；第二、其隐状态保存了0～t时刻中所有已解码单词的全部语义信息，形成了解码器的“记忆”：即其“记住”了图像中已经解码的部分区域；

S6.2.2.2、将编码单元的最终输出X_r分别经过两个不同的线性变换，分别得到K'(1)和V'(1)；再结合Q'(1)计算第一层中每个head的解码输出；

其中，λ₂为常数，在本实施例中取值为8；

S6.2.2.3、按照步骤S6.2.2.2所述方法，将i从1开始通过h＝8次解码，得到h个head的解码输出，最后按照如下公式将h个解码输出进行拼接，再进行一次线性变换作为第一层解码器的输出：

其中，

表示第一层解码器的输出，Concat(·)表示拼接操作，

表示第一层解码对应的线性变换矩阵；

S6.2.2.4、重复步骤S6.2.2.2～S6.2.2.3的操作，直至最后一层解码器的解码输出

S6.2.2.4、将最后一层解码器的解码输出

其中，W_p和b_p分别表示softmax的学习权重与偏置；

S6.2.2.5、取概率最大值对应的单词即为到t时刻的解码单词；

S6.2.2.6、重复步骤S6.2.2.1～S6.2.2.5，每重复一次解码出一个单词，直到解码出结束标志符“<END>”停止，从而得到训练完成的标注模型；

S7、图像自动标注

按照步骤S2～S4中图像处理方法对待标注图像进行处理，然后再输入至训练完成的标注模型，从而直接输出待标注图像对应的标注语句。

为了验证本发明涉及的几何注意力机制图像标注模型的有效性与可靠性，我们在公开数据集MS COCO上，进行了模型训练以及测试，并与其他方法进行了对比。对比结果发现本发明在多个评价指标上均具有明显的优势，具体对比结果见表1。

表1

表1中的SCST、Up-down是基于卷积神经网络和循环神经网络的传统方法，而ORT和AoANet则是基于Transformer模型的深度学习方法。由图像标注评价指标的对比结果可见，在此数据集上本发明涉及的几何自注意力方法在所有指标上均占据领先地位；并且，与Up-down方法相比，本发明在Bleu@4和CIDER指标上分别有9.4％和8.7％的显著提升；与同样基于Transformer架构的ORT方法相比，本发明在Bleu@4和CIDER指标上分别有1.1％和2.2％的明显提升。由此可见，本发明所提出的几何自注意力机制图像自动标注技术是有效且可靠的，能够显著提升图像标注效果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。