CN115512195A

CN115512195A - 一种基于多交互信息融合的图像描述方法

Info

Publication number: CN115512195A
Application number: CN202211194469.4A
Authority: CN
Inventors: 胡荣林; 张新新; 张亚光; 邵逸达; 冯万利; 张海艳; 肖绍章; 朱全银; 强豪; 王忆雯
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-23

Abstract

本发明涉及计算机视觉与自然语言处理领域，公开了一种基于多交互信息融合的图像描述方法，采用目标检测模型提取预处理后训练集的图像显著区域特征，然后使用多视觉语义信息交互模块进行编码显著区域特征得到多层增强图像融合特征，通过对多层增强图像融合特征进行平均池化生成全局图像融合特征；利用多模态交互信息网络挖掘全局图像融合特征与文本语义信息间的关系，从而得到该时间步上下文信息；再经语义解码的线性单元解码上下文信息生成输出单词序列的概率分布。与现有技术相比，本发明能够充分捕获图像视觉信息间的交互信息以及图像视觉信息与文本语义信息间交互信息的多种互补信息，实现对图像语义更加全面的理解。

Description

一种基于多交互信息融合的图像描述方法

技术领域

本发明涉及计算机视觉与自然语言处理两大领域，具体涉及一种基于多交互信息融合的图像描述方法。

背景技术

图像描述是一种对图像中包含的对象、关系及属性等语义通过自然语言进行描述的任务。图像描述具有广泛的应用前景，在辅助视障人士生活、儿童教育、医学图像分析等方面具有很高的实用价值。现有技术中编码器-解码器是图像描述任务模型所采用的主流框架。在该框架中，编码器采用卷积神经网络(CNN)对输入图像进行编码，然后经由使用循环神经网络(RNN)的解码器进行解码，得到与输入图像相匹配的自然语言。

在图像视觉信息间的交互信息捕获方面，现有技术通过注意力机制挖掘对象间的视觉语义信息，例如授权专利：CN113378919B。虽然该方式通过建模特征向量间的关系细化了特征向量的表示，但该方式对特征向量间的关系挖掘并不充分。

在图像视觉信息与文本语义信息的交互信息捕获方面，近期的研究通常采用的是带有注意力机制的长短期记忆网络(LSTM)，在每个时间步解码时进行选择性遗忘与记忆。例如授权专利：CN110991515B。然而这仅代表对图像视觉信息与文本语义信息解码的一个特定角度，因此导致模型对图像的语义信息理解相对而言较为片面。

发明内容

发明目的：针对背景技术中指出的模型对图像的语义信息理解相对而言较为片面的问题，本发明提出了一种基于多交互信息融合的图像描述方法，能够充分捕获图像视觉信息间的交互信息，以及图像视觉信息与文本语义信息间交互信息的多种互补信息，实现对图像语义更加全面的理解。

技术方案：本发明公开了一种基于多交互信息融合的图像描述方法，包括如下步骤：

步骤1：对数据集与图像真实文本描述进行预处理；

步骤2：提取数据集中图像的全局图像融合特征；

步骤3：利用多模态交互信息网络挖掘全局图像融合特征与文本语义信息间的关系，得到该时间步的上下文信息；

步骤4：采用语义解码的线性单元解码上下文信息生成输出单词序列的概率分布。

进一步地，所述步骤1预处理具体包括如下步骤：

步骤1.1：将数据集依次进行划分，其中92％划分为训练集，4％划分为验证集，剩余4％划分为测试集；

步骤1.2：将数据集每张图片对应的5句真实描述的文本转换为小写；

步骤1.3：对转换为小写的真实描述逐单词进行统计得到语料库，所述语料库以<UNK>为结束标志，并去除语料库中单词出现次数小于5的单词；

步骤1.4：统计每张图像的真实文本描述长度L＝{L₁，L₂，...，L_i}，并将每张图像的真实文本描述长度设定为argmax(L)+2，对于真实文本描述长度小于argmax(L)+2的以令牌进行填充。

进一步地，所述步骤2提取数据集中图像的全局图像融合特征，具体步骤如下：

步骤2.1：采用目标检测模型提取训练集图像的所有显著区域特征，记为v＝[v₁，v₂，...，v_a}，其中，v_a表示第a个显著区域特征；

步骤2.2：对图像的显著区域特征v分别进行三次线性映射，将得到的线性表示分别记为Q、K、V，具体公式如下：

Q＝vW_Q+b_Q

K＝vW_K+b_K

V＝vW_V+b_V

其中，W_Q、W_K、W_V表示线性变换矩阵；b_Q、b_K、b_V表示偏置。

步骤2.3：使用多视觉语义信息交互模块建模图像显著区域特征间的关系，进而得到全局图像融合特征。

进一步地，所述步骤2.3使用多视觉语义信息交互模块建模图像显著区域特征间的关系，进而得到全局图像融合特征，具体步骤如下：

所述多视觉语义信息交互模块由3xNxR个线性层、NxR个Layer Norm层、NxR个多头注意力机制与NxR个AoA层而组成；

步骤2.3.1：采用多头注意力机制，使图像显著区域特征间相互选择性关注其他相关区域特征，从而获得局部特征关系，具体公式如下：

f_{multi_head_att}(Q，K，V)＝Concat(head₁，head₂，...，head_H)

其中，f_{multi_head_att}表示多头注意力函数；Concat表示向量拼接操作；head_j表示第j个头注意力函数，采用缩放的点积注意力函数来实现；H表示头的数量；

表示缩放因子；Q_j、K_j、V_j表示第j个头的线性表示；softmax表示归一化指数函数；

步骤2.3.2：利用AoA机制确定局部特征关系与图像显著区域特征的相关性，使各个图像的显著特征能够选择性关注到与之真正相关其他区域特征，具体公式如下：

其中，σ为sigmoid激活函数；

表示逐元素相乘，

表示线性变换矩阵；b^e、b^j表示偏置；

步骤2.3.3：重复步骤2.3.1与步骤2.3.2N次，以此得到高级局部特征关系f_AoAS；

步骤2.3.4：将图像显著区域特征与高级局部特征关系进行残差连接并归一化，得到增强图像特征，具体公式如下：

v＝LayerNorm(v+f_AoAS(f_{multi_head_att}，Q，K，V))

其中，LayerNorm为层归一化函数；

步骤2.3.5：重复步骤2.3.1至步骤2.3.4R次，产生多层增强图像特征；

步骤2.3.6：采用向量拼接操作对多层增强图像特征进行融合，得到多层增强图像融合特征，具体公式如下：

其中，[.，.]表示向量拼接操作，v′_R表示第R层增强图像特征；

表示多层增强图像融合特征；

步骤2.3.7：通过对多层增强图像融合特征进行平均池化生成全局图像融合特征，具体公式如下：

其中，

表示全局图像融合特征；a表示多层增强图像融合特征的通道数。

进一步地，所述步骤3中多模态交互信息网络由单个多头注意力层、AoA层、嵌入层以及U个长短期记忆网络而组成，具体包括如下步骤：

步骤3.1：将语料库中所有单词所对应的词向量∏输入词嵌入层，得到以one-hot编码来表示词嵌入向量W_∏∏；

步骤3.2：将当前时间步的词嵌入向量、全局图像融合特征与前一个时间步的上下文信息作为U个长短期记忆网络的输入，进而得到全局图像融合特征与词嵌入向量间交互信息的多个互补信息，具体公式如下：

其中，

表示当前时间步的第U组互补信息；

表示当前时间步的第U组细胞状态；W_∏表示词嵌入矩阵；Π_t表示当前时间步的输入词；

表示前一时间步的第U组上下文信息；

表示前一时间步的第U组互补信息；

表示前一时间步的第U组细胞状态；

步骤3.3：对多个多模态交互信息进行向量拼接操作进行融合，并将其通过嵌入层映射到同一向量空间，生成多模态交互信息融合特征，具体公式如下：

其中，p_t表示当前时间步的多模态交互信息融合特征；[.，.]表示向量拼接操作，W_h表示映射矩阵；b^h表示偏置；

步骤3.4：采用多头注意力机制与AoA机制，确定多模态交互信息融合特征与图像显著区域特征的相关性，从而获得用于生成单词序列的上下文向量，具体公式如下：

其中，C_t表示当前时间步的上下文信息；W_p表示线性变换矩阵；

表示多头注意力函数；Concat表示向量拼接操作；head_j表示第j个头注意力函数，采用缩放的点积注意力函数来实现；H表示头的数量；

表示缩放因子；K_j、V_j表示第j个头的线性表示；softmax表示归一化指数函数。

有益效果：

本发明解决了当前模型对于图像语义信息理解不够全面的问题，通过多视觉语义信息交互模块在编码器部分充分挖掘了视觉语义信息间的关系，并通过多模态交互信息网络在解码器部分充分建模了视觉语义信息与文本语义信息间的关系。通过该方法不仅能够生成与真实描述更加接近的单词，而且所生成的句子语义结构信息更能够对图像语义信息进行准确表达。

附图说明

图1为本发明基于多交互信息融合的图像描述方法的整体流程图；

图2为本发明的多视觉语义信息交互模块示意图；

图3为本发明的多模态交互信息网络示意图。

具体实施方式

下面结合附图对本发明做进一步描述，以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本发明为了实现对图像语义更加全面的理解，提出了一种基于多交互信息融合的图像描述方法，包括如下步骤：

步骤1：对数据集与图像真实文本描述进行预处理，具体包括以下步骤：

步骤1.1：将数据集依次进行划分，其中92％划分为训练集，4％划分为验证集，剩余4％划分为测试集。

步骤1.2：将数据集每张图片对应的5句真实描述的文本转换为小写。

步骤1.3：对转换为小写的真实描述逐单词进行统计得到语料库，该语料库以<UNK>为结束标志，并去除语料库中单词出现次数小于5的单词。

步骤2：提取数据集中图像的全局图像融合特征，具体包括以下步骤：

步骤2.1：采用Faster R-CNN提取训练集图像的所有显著区域特征，记为v＝[v₁，v₂，...，v_a}。

其中，v_a表示第a个显著区域特征。

步骤2.2：对图像的显著区域特征v分别进行三次线性映射，将得到的线性表示分别记为Q、K、V具体公式如下：

Q＝vW_Q+b_Q

K＝vW_K+b_K

V＝vW_V+b_V

步骤2.3：使用多视觉语义信息交互模块建模图像显著区域特征间的关系，进而得到全局图像融合特征，具体包含如下步骤：

如图2所示，多视觉语义信息交互模块由3xNxR个线性层、NxR个Layer Norm层、NxR个多头注意力机制与NxR个AoA层而组成，在该实施例中N取6，R取1。

f_{multi_head_att}(Q，K，V)＝Concat(head₁，head₂，...，head_H)

其中，f_{multi_head_att}表示多头注意力函数；Concat表示向量拼接操作；head_j表示第j个头注意力函数；H表示头的数量，在该实施例中H取8；采用缩放的点积注意力函数来实现

表示缩放因子；Q_j、K_j、V_j表示第j个头的线性表示；softmax表示归一化指数函数。

其中，σ为sigmoid激活函数；

表示逐元素相乘，

表示线性变换矩阵；b^e、b^j表示偏置；

步骤2.3.3：将步骤2.3.1与步骤2.3.2重复N次，以此得到高级局部特征关系f_AoAS，在该实施例中N取6。

v′＝LayerNorm(v+f_AoAS(f_{multi_head_att}，Q，K，V))

其中，LayerNorm为层归一化函数。

步骤2.3.5：将步骤2.3.1、步骤2.3.2、步骤2.3.3与步骤2.3.4重复R次，产生多层增强图像特征，在该实施例中R取1。

表示多层增强图像融合特征。

其中，

表示全局图像融合特征，a表示多层增强图像融合特征的通道数。

步骤3：利用多模态交互信息网络挖掘全局图像融合特征与文本语义信息间的关系，得到该时间步的上下文信息，具体包括以下步骤：

如图3所示，所述步骤3中多模态交互信息网络由单个多头注意力层、AoA层、嵌入层以及U个长短期记忆网络而组成，在该实施例中U取3。

步骤3.1：将语料库中所有单词所对应的词向量∏输入词嵌入层，得到以独热编码来表示词嵌入向量W_∏∏。

其中，

表示当前时间步的第U组互补信息；

表示当前时间步的第U组细胞状态；W_∏表示词嵌入矩阵；∏_t表示当前时间步的输入词；

表示前一时间步的第U组上下文信息；

表示前一时间步的第U组互补信息；

表示前一时间步的第U组细胞状态。

其中，p_t表示当前时间步的多模态交互信息融合特征；[.，.]表示向量拼接操作，W_h表示映射矩阵；b^h表示偏置。

其中，Ct表示当前时间步的上下文信息；W_K、W_V、W_p表示线性变换矩阵；b_K、b_V表示偏置；

表示多头注意力函数；Concat表示向量拼接操作；head_j表示第j个头注意力函数；H表示头的数量，在该实施例中H取8；采用缩放的点积注意力函数来实现；

步骤4：采用语义解码的线性单元解码上下文信息生成输出单词序列的概率分布，具体公式如下：

y_t＝softmax(W_CC_t+b_C)

其中，y_t当前时间步输出单词序列的概率分布；W_c表示线性变换矩阵；b_C表示偏置。

为了更好的说明本方法的有效性，对基于多交互信息融合的图像描述方法进行实验验证，实验环境如下：

硬件配置：NIADIA Geforce RTX 2080Ti显卡(11G显存)。

软件配置：Ubuntu 18.04 64位操作系统、Python 3.6、Pytorch 1.2.0和Torchversion 0.4.0深度学习框架。

本实验通过在图像描述生成领域常用的MS COCO数据集上采用主流的评价指标BLEU@N、METOR、ROUGE_L、CIDEr-D、SPICE来验证模型的有效性。将MS COCO数据集进行划分，其中113287张图片划分为训练集，5000张图片划分为验证集，剩余5000张图片划分为测试集。

采用Cross-Entropy Loss函数对模型进行训练，本发明模型与Up-Down、RFNet、AoA模型对比结果如表1所示。与AoA相比，本发明在评价指标BLEU@3、ROUGE_L上提升了0.3％，BLEU@4上提升了0.7％，METOR上提升了0.2％，在CIDEr-D上提升了1.4％。

表1交叉熵损失训练后的评价指标对比表

采用强化学习中的策略梯度算法SCST对模型进行训练，本文模型与Up-Down、RFNet、AoA模型经过SCST算法优化后的对比结果如表2所示。与AoA相比，本发明在评价指标BLEU@1、BLEU@2、BLEU@3、BLEU@4、ROUGE_L、CIDEr-D上均有提升，其中在CIDEr-D上提升了1％。

表2策略梯度学习后的评价指标对比表

由此可见，本发明在不仅能够生成与真实描述更加接近的单词，而且所生成的句子语义结构信息更能够对图像语义信息进行准确表达。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉该领域的研究人员能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。