CN110473267A

CN110473267A - 基于注意力特征提取网络的社交网络图像描述生成方法

Info

Publication number: CN110473267A
Application number: CN201910631320.XA
Authority: CN
Inventors: 杜军平; 薛哲; 李金轩; 周南
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-11-19

Abstract

本发明涉及图像理解领域，提出了一种基于注意力特征提取网络的社交网络图像描述生成方法。该方法包括两个部分，基于注意力机制的图像特征提取网络：通过高层图像特征与语言模型上下文计算不同尺度图像的注意力关注区域；基于长短期记忆网络的语言生成模型：通过输入不同尺度的图像特征与前一层语言模型输出生成描述单词。创新性地在描述生成过程中将语言模型的上下文输出用于指导提取图像特征的关注区域，理论系统完备，创新性突出，主要用于对图像自动生成文本描述，在图像理解领域具有很高的实用价值。

Description

基于注意力特征提取网络的社交网络图像描述生成方法

技术领域

本发明属于计算机视觉技术领域，具体涉及多种深度学习技术，如基于卷积神经网络的图像特征提取，基于循环网络的长短期记忆网络语言模型。构建注意力特征提取网络的图像描述生成方法。

背景技术

随着移动互联网的发展，移动社交平台丰富了人们的日常生活。这些社交平台带来了图像数据的快速增长，社交网络中热点话题数据中包含着大量的图像数据，使用纯人工方法对每张图像进行内容标注成本也随之提高。因此，使用智能方法自动提取出图像特征并对图像表达内容进行描述，已经成为了计算机视觉领域的研究热点。社交网络图像数据由于受拍摄设备、拍摄场景等条件限制，所得图像往往具有分辨率较低、图像主题与背景划分不清晰等问题。国内外的研究现状表明，现有的图像描述生成方法，包括多模态循环神经网络、基于注意力机制的翻译模型等，均存在图像的语义特征利用不足的问题。

本发明提出了一种基于注意力特征提取网络的社交网络图像描述生成方法。将图像描述生成问题转化成编码解码问题，通过对不同深度图像特征进行自适应权重分配，使最终输出的图像特征的目标区域得到增强，同时使图像背景区域对前景特征的影响有所限制。突出不同尺度图像特征中的注意力区域，从而提升语言模型生成图像描述的质量。

发明内容

本发明所提出的社交网络图像描述生成方法，使用改进的卷积神经网络与注意力机制，获得不同尺度的图像特征；将不同尺度的图像特征传入相应层的长短期记忆网络语言模型生成图像描述。

为达到上述目的，如图1所示，本发明的技术方案划分为两个部分：

1.基于注意力机制的卷积神经网络图像特征提取

2.基于多尺度图像特征的长短期记忆网络的图像描述生成

本发明有以下一些技术特征：

(1)在原有卷积神经网络的基础上增加多层采样，并融合采样与卷积生成的特征图，突出每一层特征图的重点区域。

(2)根据语言模型中上下文信息的反馈自适应选取图像特征中的关注区域，提升生成图像描述的针对性与相关性。

(3)使用多层长短期记忆网络结构，充分利用图像特征所蕴含的信息，提高图像描述的精度。

本发明提出了一种基于注意力特征提取网络的社交网络图像描述生成方法，理论系统完备，创新性突出，本发明应用于社交网络图像的自动化描述工作中，可以处理不同分辨率的社交网络图像，排除分辨率与周围背景干扰等问题，提高图像描述的准确性与自然性。

附图说明

图1为方法基本内容流程图

图2为图像特征提取网络中采样分支结构图

图3为语言模型结构图

具体实施方式

为使本发明的目的、算法计算及优点更加清楚明白，以下参照附图对本发明做进一步地详细说明。本发明算法的具体实现分为以下几步：

1.基于注意力机制的卷积神经网络图像特征提取

本发明通过多个注意力结构堆叠来构建图像特征，每个注意力结构由两个分支构成：采样分支与主干分支。主干分支可以适应多种前沿网络结构。采样分支的目的在于为当前输入的特征图计算每个像素的注意力权重，图像的深度特征中可以体现出与图像中重要目标关联性高的区域，因此采样分支首先需要通过多次卷积提取输入特征图x_i的深度特征，由于卷积操作使得特征图大小降低，需要在提取深度特征后通过反卷积层将深度特征放大到与输入特征图大小一致。在得到LSTM网络前一个时刻的隐含层状态h_t-1后，使用单层神经网络将隐含层状态与卷积生成特征图进行融合。最后接一个Sigmoid激活函数层将特征图归一化到(0，1)之间。输出结果如式(1)、(2)(3)所示。

V_l＝CNN(X_l-1) (1)

其中x_i,c表示输入特征图，c表示注意力结构层数。W_s，W_hs，b_s为待学习的线性变换参数，V_l表示对前一个注意力结构输出特征进行卷积，作为下一个注意力结构的输入。a_c表示输出的注意力特征。

将采样分支的输出M(x_i,c)与主干分支的输出F(x_i,c)进行对位相乘，这样主干分支输出的每个像素都经过了注意力权重处理，注意力结构的输出如式(4)所示。

其中，表示对位相乘。

虽然注意力模块有利于增强每一层特征图中的重要的部分，但是多层注意力结构叠加会导致模型的性能大幅下降，原因是采样分支的输出经过了Sigmoid函数进行归一化，再与主干分支进行对位相乘，使得该层中部分特征值遭到抑制。当多个注意力结构进行堆叠计算后可能造成最终输出的特征图中每个像素的特征值都很低，失去了大量语义信息，丧失特征价值。为了解决上述问题，注意力结构输出在采样分支与主干分支对位相乘的基础上再与主干分支进行对位相加，最终注意力结构输出结果如式(5)所示。

其中，表示对位相加。

2.语言生成模型

首先初始化0时刻第一层LSTM的隐含层网络，该层输入为第一个注意力结构输出的图像特征A(x_i,1)，通过一次线性变换与ReLU激活函数，将输入的图像特征投影为维度为d的初始化隐含层。输出结果如式 (6)、(7)所示。

h'₀＝W₀*A(x_i,1)+b₀ (6)

h₀＝ReLU(h'₀) (7)

其中W₀与b₀是待学习的线性变换的参数，式(7)得到的结果即为初始化后的隐含层。每一层LSTM语言模型的输入包括三部分，分别是W_input、V₁、表示上一时刻第n层(最终层)LSTM的隐含层状态， t-1表示上一时刻；W_input表示经过编码后的词向量；v_i表示经过第i个注意力结构提取的图像特征，将三者连接组合，将三者连接组合输入进LSTM网络中。这些输入数据同时包含了图像特征、文字相关的上下文特征。

将从图像中提取的多尺度特征依次输入每一层LSTM中，最终将语言模型第n-1层隐含层，即h_n-1。词向量W_input与最后一层注意力结构输出的图像特征A(x_i,c)相结合，输入最后一层LSTM语言模型中，如式(8)所示。

h_t＝LSTM(h_n-1,A(x_i,c),W_input) (8)

最后将最后一层LSTM输出的维度为d的隐含层映射成维度为m的向量，其中m表示语义字典中单词的数量。再通过Softmax层选出LSTM模型每一时刻的输出中概率最大的词连接成描述句子，作为模型的最终输出结果，如式(9)所示。

损失函数采用图像描述生成任务常用的交叉熵作为损失函数进行模型训练，本文采用的损失函数形式如式(10)所示：

其中：y_1:T与θ分别表示目标描述的真实词序列和图像描述生成模型中解码器的参数；是 LSTM语言模型输出单词的概率。算法实现步骤如下：

步骤1.对于数据集中每张图像；

步骤2.提取第1层图像特征V₁；

步骤3.将该层图像特征传入第1层LSTM初始化h₀

步骤4.提取第i层图像特征V_i；

步骤5.将词向量W_input，前一层LSTM隐含层图像特征V_i输入下一层LSTM；计算下一个输出的单词；

步骤6.通过交叉熵计算损失Loss，反馈调整参数

步骤7.返回Step4，直到输出为<END>或达到句子最大长度

步骤8.返回图像描述文本。

Claims

1.基于注意力特征提取网络的社交网络图像描述生成方法，其特征在于，将语言模型得到的上下文信息与图像的高层语义信息用于指导图像特征关注区域的提取。主要由基于注意力机制的卷积神经网络特征提取模块与多尺度语言模型的描述生成模块构成，通过将上下文信息用于图像特征提取，将两个模块由各自独立训练改进为融合训练，并在高分辨率与低分辨率图像数据集中均取得了较好的结果。

2.根据权力要求1所述的方法，基于注意力机制的卷积神经网络特征提取模块的特征在于，在卷积过程的同时进行特征采样得到高层语义特征并结合语言模型上下文信息进行图像特征注意力特征提取。

3.根据权利要求1所述的方法，其特征在于，使用多层长短期记忆网络计算不同尺度图像特征，将多尺度图像特征进行融合，从而生成最终的预测词。