CN113344036A

CN113344036A - 一种基于动态词嵌入的多模态Transformer的图像描述方法

Info

Publication number: CN113344036A
Application number: CN202110537165.2A
Authority: CN
Inventors: 曾凯; 杨文瑞; 朱艳; 沈韬; 刘英莉
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-09-03

Abstract

本发明公开一种基于动态词嵌入的多模态Transformer的图像描述方法，属于人工智能的领域。本发明构建了一种同时进行模态内与模态间注意力的模型，实现了多模态信息的融合，将卷积神经网络与Transformer进行桥接，并将图像信息以及文本信息在同一向量空间进行融合，提高了模型进行语言描述的准确率；减少了图像描述领域存在的语义鸿沟问题，本发明相对于使用Bottom‑up与LSTM的基线模型在BLEU‑1、BLEU‑2、BLEU‑3、BLEU‑4、ROUGE‑L、CIDEr‑D上都有提高。

Description

一种基于动态词嵌入的多模态Transformer的图像描述方法

技术领域

本发明涉及一种基于动态词嵌入的多模态Transformer的图像描述方法，属于人工智能技术领域。

背景技术

多模态深度学习旨在通过深度学习的方法实现处理和理解多源模态信息的能力。随着社会和经济的快速兴起，多模态深度学习已在社会生产中的各个方面有了众多应用，起到了非常瞩目的效果。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。例如：在语音识别中，人类通过合并语音-视觉信息来理解语音。视觉模态提供了发音地方和肌肉运动的信息，可以帮助消除相似语音的歧义，以及通过肢体行为和语音来判断说话者的情绪等等。

采用自然语言对图像中的内容进行描述，被称作为图像字幕描述。语义不仅需要计算机识别图像的对象和属性，还需要理解他们的关系，生成语法语义正确的自然语言。最早应用的图像处理方法是借助传统的机器学习加以实现，例如通过图像处理算子对图像进行特征提取，再借助支持向量机(SVM)划分图像类型，从而得到图像目标。据此得到的目标与属性即为生成语句的基础，而实际中使用本方法时取得的效果未达到预期。深入探索本领域研究历程，划分图像语义描述为三种类型，分别为基于检索的图像描述、基于模板的图像描述及基于深度学习的图像描述。

基于检索的方法是指使用基本的图像处理算法，提取出图像的特征值，并且检测出图像的目标，获取其相应的标签信息，然后根据所得到的标签信息在相应的语料库中进行检索，寻找最为匹配的的描述作为图像的标题然而，这种方法只能对一幅图像进行标题的生成，而且只能生成语料库中的标题，标题不具有多样性，有些刻板生硬，并且不能准确直观的描述出图像中目标的相对关系，导致两幅出现了相同目标但位置关系完全不同的图像生成的标题却是相同的。基于模板的方法，主要使用相对成熟的计算机视觉技术来进行图像信息的特征提取，这里的图像信息既包括图像中的目标，业包括目标的属性，然后将这些检测到的目标填入模板。这种方法在很大程度上解决了生成文本不够丰富的问题。但是由于该方法对人为设置的模板以及语法模型十分的依赖，所以导致生成的自然语言描述的结构也十分的单一。近年来。随着技术的不断发展，使用神经网络来进行图像描述的方法变得成熟，使用卷积神经网络(CNN)来进行图像特征值的提取，使用循环神经网络(RNN)来进行描述的生成的这种编码解码框架成为主流。虽然基于CNN-RNN框架的图像描述算法已经取得了很好的准确率，但是仍然存在不足：现在有基于CNN-RNN的方法都大多在进行当前的主要工作都是在不同的模态间引入注意力机制，寻求图像与文本之间的注意力得分，而忽略了模态内的自注意力，即寻求图像特征与文本描述模态内的自我注意，这使得图像底层视觉信息和最终的自然语言描述存在明显的语义鸿沟，导致模型不能很好表示图像目标之间的语义关系。

发明内容

本发明提供了一种基于动态词嵌入的多模态Transformer的图像描述方法，本方法使用的是多模态深度学习模型，使用模态间与模态内注意力的联合建模方式，对输入的数据进行建模，从而生成相应的描述，解决了传统方法中只是用模态间注意力而导致模型对语义理解不够全面并且效果较差的问题，具体包括以下步骤：

(1)使用图像特征提取器组件，选中图像的显著区域，对图像进行图像特征的提取：对图像中的目标进行特征提取，生成更有意义的图像特征矩阵。

(2)使用Transformer的图像特征编码器组件，对图像特征进行编码。

(3)使用文本特征编码器，对文本信息进行包含上下文信息的特征提取与动态编码：对输入的文本进行处理，形成语句中包含上下文信息且语义更加丰富的词向量表示，再经过基于掩码的多头注意力组件进行文本特征向量的生成。

(4)使用Transformer解码器组件，使用多头注意力层进行图像信息与文本信息的相互学习，并生成对应的文本描述。

进一步的，本发明步骤(1)中)中所述图像的显著区域，对图像中的目标进行特征提取：对已经得到的图像目标区域，使用PCA提取出图像目标区域中的主要信息。

再将的得到的主要信息

进行线性变化，使其变化到与输入至下一步骤相同的特征维度：

其中I为图像中的目标区域信息，

为经过PCA分析后的主要信息，

为经过PCA分析后的次要信息，X为最终的到的特征向量，W_L为线性变化系数矩阵。

进一步的，本发明步骤(2)中使用多模态Transformer的编码器进行图像特征的编码，具体为：

Z_f＝TE(X)3

公式中：X代表输入的图像数据，TE代表Transformer中的编码操作。

进一步的，本发明中步骤(3)中所述对输入的文本进行处理，形成语句中包含上下文信息且语义更加丰富的词向量表示，具体为：首先将描述语句送入至ELMo词嵌入编码器中得到包含上下文信息且语义丰富的词嵌入编码，接着将描述语句输入至标准词嵌入编码器，最后对输入的语句进行特征表示进行注意力加权，生成包含上下文信息并且语义更加丰富的描述语句的词向量Y：

Y^elmo＝ELMo(C) 4

Y^norm＝W_n·C 5

其中Y^elmo代表生成的ELMo词嵌入矩阵，ELMo代表ELMo词嵌入编码操作，C代表描述语句生成的token矩阵，W_n代表线性变化的系数矩阵，Y^norm代表标准词嵌入编码器的得到的词嵌入矩阵。

进一步的，所述对输入的语句进行特征表示的注意力加权，具体为：使用注意力机制，对标准词嵌入的词向量以及ELMo词嵌入的词向量进行自注意力加权生成最终的词向量，如下所示：首先通过自注意机制获得标准词嵌入与ELMo词嵌入的注意力得分矩阵a：

a＝SA(Y^norm,αY^elmo))6

Y＝a×Y^elmo 7

其中a为所得的注意力得分矩阵，Y^norm代表标准词嵌入编码器的得到的词嵌入矩阵。Y^elmo代表生成的ELMo词嵌入矩阵，α为权重匹配系数。

进一步的，所述权重匹配系数α，每经过10000次迭代减少十倍。

进一步的，步骤(3)所述经过基于掩码的多头注意力组件进行文本特征向量的生成；具体为：使用基于掩码的多头注意力，进行描述语句Y的自注意力加权，得到带权重的序列特征R_m：

R_m＝Mask_MHA(Y，Y，Y) 8

其中，Y为语句中的特征向量表示，Mask_MHA代表基于掩码的多头注意力计算。

进一步的，步骤(4)所述使用多头注意力层进行图像信息与文本信息的相互学习，具体为：多头注意力模块对于图像数据Z_f以及次R_m进行归一化注意力计算，得到由图像信息导向的图像描述注意力加权矩阵R_f：

其中

与

代表经过归一化后的特征矩阵，MHA代表多头注意力操作，R_f代表有图像信息导向的描述矩阵。

本发明与现有技术相比的优点和技术效果：

(1)使用PCA方法对图像信息进行预处理，获得更有意义的主要图像信息。

(2)提出了针对图像字幕描述任务中的多模态Transformer模型，模型采用模态内注意与模态间注意力的联合建模方式，通过这些注意力在深度上的堆叠，提升了模型对图像的语义描述能力。

(3)提出使用ELMo词嵌入与标准词嵌入联合编码的方式，对不同语境下的词语进行包含上下文信息的词嵌入编码，使得模型对语义的理解有了很大提高；减少了图像描述领域存在的语义鸿沟问题。

(4)在联合编码的过程中使用注意力加权方法，根据不同的权重匹配系数，获得更有意义的词嵌入编码。

附图说明

图1是本发明方法流程示意图；

图2是本发明方法及模型的结构示意图；

图3是本发明的描述生成图；

图4是图像的注意力特征图；

图5是图像模态内部的注意力可视化；

图6是图像与文本模态间的注意力可视化；

图7是文本模态内部的注意力可视化。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明，但本发明的保护范围并不限于所述内容。

实施例1

一种基于动态词嵌入的多模态Transformer的图像描述方法，如下如图1、2所示，具体包括以下步骤：

(1)使用图像特征提取器组件，选中图像的显著区域，对图像进行图像特征的提取：对图像中的目标进行特征提取，生成更有意义的图像特征矩阵，如图4所示；对图像中每个目标框中的目标进行特征提取，生成图像的特征矩阵，大小为(1024*46)。

其中，所述图像的显著区域，对图像中的目标进行特征提取：对已经得到的图像目标区域，使用PCA提取出图像目标区域中的主要信息。

再将的得到的主要信息

其中I为图像中的目标区域信息，

为经过PCA分析后的主要信息，

(2)使用多模态Transformer的图像特征编码器组件，对图像特征进行编码，得到图像与图像之间的关系，具体为：

Z_f＝TE(X) 3

公式中：X代表输入的图像数据，TE代表Transformer中的编码操作；如图5所示，得到图像与图像之间的注意力关系。

进一步的，对输入的文本进行处理，形成语句中包含上下文信息且语义更加丰富的词向量表示，具体为：首先将描述语句送入至ELMo词嵌入编码器中得到包含上下文信息且语义丰富的词嵌入编码，接着将描述语句输入至标准词嵌入编码器，最后对输入的语句进行特征表示进行注意力加权，生成包含上下文信息并且语义更加丰富的描述语句的词向量Y：

Y^elmo＝ELMo(C) 4

Y^norm＝W_n·C 5

进一步的，对输入的语句进行特征表示的注意力加权，具体为：使用注意力机制，对标准词嵌入的词向量以及ELMo词嵌入的词向量进行自注意力加权生成最终的词向量，如下所示：首先通过自注意机制获得标准词嵌入与ELMo词嵌入的注意力得分矩阵a：

a＝SA(Y^norm,αY^elmo)) 6

Y＝a×Y^elmo 7

其中a为所得的注意力得分矩阵，Y^norm代表标准词嵌入编码器的得到的词嵌入矩阵；Y^elmo代表生成的ELMo词嵌入矩阵，α为权重匹配系数。

进一步的，权重匹配系数α，每经过10000次迭代减少十倍，初始值为1。

进一步的，经过基于掩码的多头注意力组件进行文本特征向量的生成；具体为：使用基于掩码的多头注意力，进行描述语句Y的自注意力加权，如图6所示，得到带权重的序列特征R_m：

R_m＝Mask_MHA(Y,Y,Y))8

(4)使用Transformer解码器组件，使用多头注意力层进行图像信息与文本信息的相互学习，并生成对应的文本描述。其中，所述使用多头注意力层进行图像信息与文本信息的相互学习，具体为：多头注意力模块对于图像数据Z_f以及次R_m进行归一化注意力计算，得到由图像信息导向的图像描述注意力加权矩阵R_f，如图7所示：

其中

与

本实施例相对于使用Bottom-up与LSTM的基线模型在BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE-L、CIDEr-D上分别有均有提高。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于动态词嵌入的多模态Transformer的图像描述方法，其特征在于，包括以下步骤：

(1)使用图像特征提取器组件，选中图像的显著区域，对图像进行图像特征的提取：对图像中的目标进行特征提取，生成更有意义的图像特征矩阵；

(2)使用Transformer的图像特征编码器组件，对图像特征进行编码；

(3)使用文本特征编码器，对文本信息进行包含上下文信息的特征提取与动态编码：对输入的文本进行处理，形成语句中包含上下文信息且语义更加丰富的词向量表示，再经过基于掩码的多头注意力组件进行文本特征向量的生成；

2.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法，其特征在于：步骤(1)中所述图像的显著区域，对图像中的目标进行特征提取：对已经得到的图像目标区域，使用PCA提取出图像目标区域中的主要信息：

再将的得到的主要信息

其中I为图像中的目标区域信息，

为经过PCA分析后的主要信息，

3.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法，其特征在于：步骤(2)中所述使用多模态Transformer的编码器进行图像特征的编码，具体为：

Z_f＝TE(X) 3

4.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法，其特征在于：步骤(3)中所述对输入的文本进行处理，形成语句中包含上下文信息且语义更加丰富的词向量表示，具体为：首先将描述语句送入至ELMo词嵌入编码器中得到包含上下文信息且语义丰富的词嵌入编码，接着将描述语句输入至标准词嵌入编码器，最后对输入的语句进行特征表示进行注意力加权，生成包含上下文信息并且语义更加丰富的描述语句的词向量Y：

Y^elmo＝ELMo(C) 4

Y^norm＝W_n·C 5

5.根据权利要求4所述基于动态词嵌入的多模态Transformer的图像描述方法，其特征在于：所述对输入的语句进行特征表示的注意力加权，具体为：使用注意力机制，对标准词嵌入的词向量以及ELMo词嵌入的词向量进行自注意力加权生成最终的词向量，如下所示：首先通过自注意机制获得标准词嵌入与ELMo词嵌入的注意力得分矩阵a：

a＝SA(Y^norm,αY^elmo)) 6

Y＝a×Y^elmo 7

6.根据权利要求5所述基于动态词嵌入的多模态Transformer的图像描述方法，其特征在于：所述权重匹配系数α，每经过10000次迭代减少十倍。

7.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法，其特征在于：步骤(3)所述经过基于掩码的多头注意力组件进行文本特征向量的生成；具体为：使用基于掩码的多头注意力，进行描述语句Y的自注意力加权，得到带权重的序列特征R_m：

R_m＝Mask_MHA(Y，Y，Y) 8

8.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法，其特征在于：步骤(4)所述使用多头注意力层进行图像信息与文本信息的相互学习，具体为：多头注意力模块对于图像数据Z_f以及次R_m进行归一化注意力计算，得到由图像信息导向的图像描述注意力加权矩阵R_f：

其中

与