CN113469260A

CN113469260A - 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法

Info

Publication number: CN113469260A
Application number: CN202110785560.2A
Authority: CN
Inventors: 周冕; 刘文轩; 丛钶伦; 朱国强; 高毅; 戚周铭
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-10-01
Anticipated expiration: 2041-07-12
Also published as: CN113469260B

Abstract

一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法。涉及图像处理、计算机视觉及自然语言处理等领域，本方法研究基于跨场景的图像描述方法中文本语意连续性交较差，场景描述精度较低的问题以及该方法在视觉描述中的应用。本方法提出了一个高效的图像特征注意力网络，即AMNet，直接使用ResNet作为骨干网，使用其全连接层特征。对于图像特征应用了我们的图像特征注意力结构，通过将图像特征拆分为16个子特征，使用改进的循环神经网络在提高精度的同时保留有效前序特征，以解决语意连续性交较差，场景描述精度较低的问题。

Description

一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法

技术领域

本发明涉及人工智能视觉描述领域，具体而言是一种基于卷积神经网络，注意力机制及transformer的连续视觉场景描述生成网络。

背景技术

视觉描述是一个融合计算机视觉、自然语言处理和机器学习的综合问题，它类似于翻译一副图片为一段描述文字，可以看作是对图像信息进行描述的任务，它可以为视觉信息自动生成描述。该任务可以理解为是一种动态的目标检测，由全局信息生成图像摘要。近年来，通过卷积神经网络提取图片中词特征的主要趋势。当前大多数的Image Caption方法基于encoder-decoder模型。其中encoder一般为卷积神经网络，利用最后全连接层或者卷积层的特征作为图像的特征，decoder一般为递归神经网络，主要用于图像描述的生成。但是目前主流方法对于连续视觉信息即多张图片图像描述的语义连贯性较差，因而输出结果不够理想。

为了解决这个问题，目前主流方法通过将多张图像叠加作为隐藏层参数，再通过循环神经网络依次处理每张图片依次生成描述。然而，解码模块不能灵活地使用不同图像的特征来维持更好的语义连贯性，导致输出更接近于多段描述而非一段针对全局特征的描述。

发明内容

本发明的目标是提升整体描述的语义连贯性，于是本方法提出了一种有效的增强注意力机制网络，同时对全局特征以及单图像特征进行加权融合。该网络由三部分组成，编码模块，多尺度注意力融合模块以及解码模块。在编码模块中，本方法使用ResNet作为骨干网络，提取全连接层的图像特征并将单张图片特征划分为16个子特征。解码模块中，本方法设计了一种多尺度注意力融合模块，从而融合来自全局以及当前图像的特征，并采用注意力机制来加权区域特征，提升模型的整体准确度。

本发明的一种基于卷积神经网络，注意力机制及transformer的视觉叙事网络，包含以下模块：

第1、整体网络的构建：

第1.1、将ResNet101作为主干网络，使用其全连接层输出作为图像特征输入后续网络；

第1.2、通过将图像特征拆分为16个子特征，将16个子特征分别送入聚合注意力单元即AMNet，进行加权融合，保留有效图片特征，输出全局融合特征；

第1.3、通过循环神经网络模块对多张图的全局融合特征进行级联，随后依次输入transformer结构。

第1.4、利用自注意力transformer解码获得连续文本描述；

2、如权利要求1所述的视觉叙事描述方法，其特征在于，步骤第1.1中构建了基础网络，采用改写的ResNet，使用全连接层的特征获得图像特征。

3、如权利要求1所述的视觉叙事方法，其特征在于，步骤第1.2中将图像特征分割为16个子特征，依次输入融合注意力单元，注意力单元将融合后的特征进行输出。假设x_i是注意力模块的输入特征，g_i为输出融合图像特征，则上述过程可描述为：

g_i＝AM(x_i)，

其中AM为注意力模块,其具体定义如下：

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

4、如权利要求1所述的视觉叙事方法，其特征在于，步骤第1.3中对于多张图片的全局融合特征方案类如下：将每张图片的融合图像特征g_i作为循环神经网络Rnn的输入中并与其输出相拼接得到输出c_i：

r_i＝Rnn(g_i)，

c_i＝concat(g_i,r_i)，

其中Rnn是用于全局特征融合的循环神经网络，本方案中使用LSTM，concat的作用是拼接g_i与c_i。

5、如权利要求1所述的视觉叙事方法，其特征在于，步骤第1.4中使用transfor-mer作为解码器依次将融合特征c_i作为输入进行解码获得输出t_i：

t_i＝transformer(c_i)

最后，将上述向量通过词嵌入矩阵得到视觉叙事输出。

本发明的优点和积极效果：

本发明的一种基于卷积神经网络，注意力机制及自注意力变换器的连续视觉场景描述生成网络，本发明的一种基于卷积神经网络，注意力机制及自注意力变换器的连续视觉场景描述生成网络，由全局信息生成图像摘要。目前主流方法通过将多张图像叠加作为隐藏层参数，再通过循环神经网络依次处理每张图片依次生成描述。然而，解码模块不能灵活地使用不同图像的特征来维持更好的语义连贯性，导致输出更接近于多段描述而非一段针对全局特征的描述。为了解决上述问题，本发明引入多尺度注意力融合模块，以此改善全局信息丢失不连续的问题。与现有方法相比，本方法有效提高了视觉描述生成的连续性，同时精度具有一定提高，具有一定的实用价值。

附图说明

图1是本发明整体网络的结构图；

图2是注意力融合模块的结构图；

图3是解码模块的transformer的结构图；

图4是实验结果对比图；

具体实施方式

实施例：

本实施例利用Python语言和PyTorch框架构建基于基于卷积神经网络，注意力机制及自注意力变换器的连续视觉场景描述生成方法。主要涉及的实施操作有基础网络和主干网络的构建，其中多尺度注意力融合模块及其权重分配方法是算法最大的创新点。

本实施例基于卷积神经网络，注意力机制及自注意力变换器的连续视觉场景描述生成网络的方法，主要包括如下关键步骤：

第1.1、将ResNet101作为主干网络，使用其全连接层输出作为特征输入后续网络；

第1.4、利用自注意力transformer解码获得连续文本描述；

本发明整体网络结构如图1所示，由编码模块，多尺度注意力融合模块以及解码模块组成；主干网络充当编码模块，通过将图像传入主干网络，输出编码后的图像特征；多尺度注意力融合模块包含网络中的融合注意力单元及循环神经网络单元，将编码模块输出的图像特征进行融合；解码模块即transformer单元，将融合后的图像特征进行解码生成视觉叙事。

步骤第1.1中构建了基础网络，主体结构为使用ImageNet预训练的ResNet101模型，本发明的主干网络在其基础上，在，增强模型的语义信息获取能力。

步骤第1.2中如图2所示将图像特征分割为16个子特征，依次输入融合注意力单元，注意力单元将融合后的特征进行输出。假设x_i是注意力模块的输入特征，g_i为输出融合图像特征，则上述过程可描述为：

g_i＝AM(x_i)，

其中AM为注意力模块,其具体定义如下：

z_t＝σ(W_z·[h_t-1,x_t])

r_t＝σ(W_r·[h_t-1,x_t])

其中z_t和r_t分别表示更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大则前一时刻的状态信息写入越多。重置门控制前一这状态有多少信息被写入到当前的候选集

上，重置门越小，前一状态的信息被写入的越少。h_t表示通过更新门和重置门控制的注意力模块输出。在本方法中，16个子特征依次输入到融合注意力单元当中，每一个子特征的时间步的输入为当前子特征以及通过注意力模块融合后的前序时间步融合图像特征，输出两个输入的融合图像特征。输入为最后时间步的注意力单元输出即为16个子特征的融合特征。其基本保留完整语义信息，同时对于图像特征中的干扰信息以及无效背景信息进行了有效剔除。

步骤第1.3中对于多张图片的全局融合特征方案类如下：将每张图片的融合图像特征g_i作为循环神经网络的输入中并与其输出相拼接得到输出c_i：

r_i＝Rnn(g_i)，

c_i＝concat(g_i,r_i)，

其中Rnn是用于全局特征融合的循环神经网络，本方案中使用LSTM，即长短记忆神经网络，它解决了一般循环神经网络存在的长期依赖问题，它能够处理序列变化的数据，从而保留不同图像的上下文语义信息。concat的作用是拼接g_i与c_i，即将包含图像上下文的语义信息的特征向量与当前图像的融合注意力图像特征向量进行拼接，生成新的用于输入到后续网络中的融合特征向量。

步骤第1.4中如图3所示使用transformer作为解码器依次将融合特征c_i作为输入进行解码获得输出t_i：

t_i＝transformer(c_i)

其中如图3所示，transformer由Encoder和Decoder组成。Encoder由6个相同的层组成，每层包含一个Self-attention层以及Feed-forward层。

Self-attention层能够捕获图像特征序列之间的相关性，并以相关性作为权重输出语义特征。Feed-forward层将Self-attention层输出的语义特征进行高维映射，使得位置信息和语义信息充分融合。Decoder同样由6个相同层组成，其每层相比Encoder增加一层Masked Self-attention层。Masked Self-attention层负责将文本信息转换为语义信息。在训练阶段，将完整文本描述作为Masked Self-attention层输入，通过mask操作让模型获得截止当前时间步的信息，隐去后续时间步信息。在翻译阶段，前序时间步的输出作为输入，不进行mask操作。transformer的最终输出即为当前时间步的预测语义信息输出。

最后，将上述向量通过词嵌入矩阵得到视觉叙事输出。

本发明在VIST数据集上进行实验并进行相关对照实验。VIST数据集包含超过200，000张图片，并人工按照一定规则对图片撰写正确描述保存在JSON文件中。在本实验中，我们使用编码模块获取图片特征，多尺度注意力模块过滤信息和简化参数。在解码模块中通过transformer完成图像特征到语言描述的转化。实验参数设置按照Batch size为50，输入图像大小为224x224，dropout rate为0.5，初始learning rate为0.1，并且每经过30epoch下降至当前的70％。实验选取两种当前主流方法进行对照实验，实验结果如图4，其中，BLEU的大意是比较候选译文和参考译文里的n-gram(实践中从unigram取到4-gram)重合程度，重合程度越高就认为译文质量越高。选不同长度的n-gram是因为，unigram的准确率可以用于衡量单词翻译的准确性，更高阶的n-gram的准确率可以用来衡量句子的流畅性，METEOR则是在扩充同义词集的同时考虑单词的词形，能够体现描述的真实准确率。实验结果表明，本发明在BLEU及METEOR两种评价指标中相照对照组有明显提升，在METEOR指标中相较Xuet al.的方法提升幅度达到45.6％。由此可以看出本发明，引入注意力融合模块的方案是有效的，并且达到了在保证语义流畅性和保持准确度上相对优秀的平衡。

Claims

1.一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法，其特征在于包括以下步骤：

第1、整体网络的构建：

第1.2、通过将图像特征拆分为16个子特征，将16个子特征分别送入融合注意力单元即AMNet，进行加权融合，保留有效图片特征，输出全局融合特征；

第1.3、通过循环神经网络模块对多张图的全局融合特征进行级联，随后依次输入transformer结构；

第1.4、利用自注意力transformer解码获得连续文本描述。

2.如权利要求1所述的基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法，其特征在于，步骤第1.1中构建了基础网络，采用改写的ResNet，使用全连接层的特征获得图像特征。

3.如权利要求1所述的基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法，其特征在于，步骤第1.2中将图像特征分割为16个子特征，依次输入融合注意力单元，注意力单元将融合后的特征进行输出。假设x_i是注意力模块的输入特征，g_i为输出融合图像特征，则上述过程描述为：

g_i＝AM(x_i)，

其中AM为注意力模块，其具体定义如下：

z_t＝σ(W_z·[h_t-1，x_t])

r_t＝σ(W_r·[h_t-1，x_t])

其中z_t和r_t分别表示更新门和重置门；h_t表示通过更新门和重置门控制的注意力模块输出。

4.如权利要求1所述的基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法，其特征在于，步骤第1.3中对于多张图片的全局融合特征方案类如下：将每张图片的融合图像特征g_i作为循环神经网络Rnn的输入中并与其输出相拼接得到输出c_i：

r_i＝Rnn(g_i)，

c_i＝concat(g_i，r_i)，

5.如权利要求1所述的基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法，其特征在于，步骤第1.4中使用transformer作为解码器依次将融合特征c_i作为输入进行解码获得输出t_i：

t_i＝transformer(c_i)

最后，将上述向量通过词嵌入矩阵得到视觉叙事输出。