CN111523410B

CN111523410B - 一种基于注意力机制的视频显著性目标检测方法

Info

Publication number: CN111523410B
Application number: CN202010273756.9A
Authority: CN
Inventors: 刘冰; 付平; 凤雷; 王方园; 徐明珠; 高丽娜; 孙少伟; 黄守娟; 王宾涛
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2022-08-26
Anticipated expiration: 2040-04-09
Also published as: CN111523410A

Abstract

本发明是一种基于注意力机制的视频显著性目标检测方法。所述方法为通过静态卷积网络提取静态特征，对多帧的视频图像进行初步的空间上的特征提取；将提取到的特征送入到嵌入注意力机制的双向convLSTM模块，学习时空一致性特征的同时保持特征的结构和空间结构；在网络深层提取的特征中加入通道注意力CA模块，在网络浅层提取的不同尺度的特征中加入空间注意力SA模块；通过通道注意力CA模块指导空间注意力SA模块学习，生成检测结果，得到网络检测视频帧中的显著图像；根据生成的检测结果和真值计算损失函数，反向传递误差，更新网络参数。本发明在基于注意力机制的视频显著性目标检测方法为视频的显著性检测提供了一种新的思路。

Description

一种基于注意力机制的视频显著性目标检测方法

技术领域

本发明涉及视频检测技术领域，是一种基于注意力机制的视频显著性目标检测方法。

背景技术

在当今社会，随着人们对视频或图像清晰度更高的追求，视频或图像的分辨率越来越大，造成视频或图像分析等工作消耗的计算存储资源也越来越大。在视频或图像的分析处理过程中，人们的注意力往往只是关注视频或图像中的一部分事物，所以，将有限的资源优先分配给最显著的区域，能够极大地提高分析处理的效率，这就涉及了图像、视频的显著性目标检测(Saliency object detection)问题。

显著性监测的目的旨在找到图片中最吸引人眼球的地方，将图片中属于显著性目标的像素标注出来，属于针对像素级别的研究。根据监测的输入，可以进一步分为静态显著性监测(SOD)和动态显著性监测(VSOD)。其中，静态模型采用静态图像作为输入，而动态模型采用视频帧序列。显著性监测作为基本模块可以应用于目标分割、目标识别和跟踪、场景绘制、图像检索、视频压缩等场景中。目前关于静态图像的显著性研究有很多，但是对视频的显著性监测还需要加深研究。

不同于静态图像的显著性目标检测，运动中的物体更容易成为视频中的显著性目标。目前常用于视频显著性目标检测的传统方法主要有帧差法、背景差分法和光流法等三种算法，这三种方法主要针对运动场景比较简单，且存在预测准确率低，计算代价大，实时性低的缺点。目前人工神经网络的目标检测方法正逐渐成为主流的研究方向。

以神经网络为主的视频显著性目标检测方法的发展主要分为有两个阶段：最初通过分别提取空间显著性图和时间显著性图，并以一定的方法进行融合。这类方式通常可能借助传统的方法进行空间或者是时间上的显著性特征提取。例如借助光流法获取运动信息的先验知识，和原视频帧一起输入神经网络来获取时间显著性图，原视频帧独自通过神经网络获取空间显著性图，在通过神经网络进行时间显著性图和空间显著性图的特征融合。主要存在的问题将时间和空间分割开来，再采用一定方式进行融合这样导致监测的准确率不高，实时性不好的特点。于是越来越多的研究开始着力于探索视频帧间像素存在的关系，以及如何将时间和空间的显著性目标监测算法更好的融合。有效且迅速的视频显著性目标检测算法可以进行高效的数据筛选，使得在实际应用中可以更加专注地处理视频中的显著部分，很好地降低了算法的时间的同时也提高了预测的精度。

现如今针对时间序列的处理更多的采用ConvLSTM(卷积长短时记忆网络)结构，该结构旨在捕捉视频序列的长、短期记忆，这样同时包含了时间和空间的信息，能隐式地学习时间动态，有效地融合时间和空间上的特征。

同时在处理时间序列中，为了更好的融合时间和空间信息，采用了convLSTM结构来捕捉时空特征保证时空特征一致性的视频显著性目标检测方法。它所存在的问题主要有：

采用的神经网络直接利用卷积特征来进行显著性目标预测这样会均衡的考虑特征图中的所有空间位置，可能会使得非显著性目标区域带来干扰而产生次优的结果。

在网络的训练中忽略了网络深层提取的特征和网络浅层提取的特征的差异。

发明内容

本发明为实现对视频显著性目标的检测，本发明提供了一种基于注意力机制的视频显著性目标检测方法，本发明提供了以下技术方案：

一种基于注意力机制的视频显著性目标检测方法，包括以下步骤：

步骤1：通过静态卷积网络提取静态特征，对视频帧序列进行初步的空域上的特征提取；

步骤2：将步骤1中提取到的特征送入到嵌入注意力机制的双向convLSTM模块，进一步学习时空一致性特征；

步骤3：在网络深层提取的特征中加入通道注意力CA模块，在网络浅层提取的不同尺度的特征中加入空间注意力SA模块；

步骤4：通过通道注意力CA模块指导空间注意力SA模块学习，生成检测结果，得到网络检测视频帧中的显著图像；

步骤5：根据生成的检测结果和真值计算损失函数，反向传递误差，更新网络参数。

优选地，在双向convLSTM模块的基础上嵌入基于通道注意和空间注意的注意力机制。

优选地，所述步骤2具体为：

步骤2.1：采用双向convLSTM模块的前向单元对步骤1中提取到的特征进行当前帧和前向帧之间的时空相关性建模，得到前向单元的输出结果，通过下式表示前向单元的输出结果：

其中

为前向单元的输出结果，t为当前帧，F_t为步骤1中提取到的特征。

将前向单元的输出结果经过注意力模块，对前向单元采集到的特征进行加权得到加权结果，通过下式表示加权结果

其中，CSA是注意力模块因子。

步骤2.2：经过注意力模块加权后，再送入到反向单元进行视频帧序列反向帧之间的时空相关性建模，得到时空相关性建模结果，通过下式表示时空相关性建模结果

时空相关性建模结果经过注意力模块增加对反向单元采集的有效信息的注意，得到反向输出结果，通过下式表示反向输出结果

步骤2.3：将双向convLSTM模块的前向单元输出和反向单元输出通过相加的方式，得到次模块学习到的时空一致性特征，通过下式表示学习到时空一致性特征的输出结果：

其中，

代表哈德玛乘积，f代表前向单元，b代表反向单元，csa是网络经过CSA模块输出的标志。

优选地，通过输入特征经过通道注意力CA模块加权因子的加权，得到加权后的特征。加权后的特征再经过空间注意力SA模块加权因子的加权，得到注意力模块因子CSA，通过下式表示注意力模块因子CSA：

CSA＝CA*SA

优选地，选取步骤2输出的学习时空一致性特征的输出结果作为网络提取到的高层特征，选取基本网络的前两层特征作为网络的浅层特征。

优选地，所述步骤4具体为通过通道注意力CA模块指导空间注意力SA模块学习，生成检测结果，得到网络检测视频帧中的显著图像。同时针对不同尺度的特征，选择不同的SA模块去学习。将深层、浅层学习到的特征按照通道方向进行串联，生成检测结果，最终得到网络检测视频帧中的融合特征，通过下式表示网络检测视频帧中的融合特征：

其中，

为按通道方向串联，

和

为静态卷积网络的前两层特征经过注意力单元加权后的特征，Fh_t为网络高层经过注意力单元加权后的特征。

优选地，将得到的融合特征通过1*1的卷积核进行降维操作，通过激活函数将网络预测为是目标的神经元进行激活，得到最终的显著性预测结果，通过下式表示最终的显著性预测结果S_t：

S_t＝θ(conv(Fconcat_t))

其中，θ代表sigmoid激活函数。

优选地，采用融合损失函数，所述融合损失函数包括了平均绝对误差和交叉熵损失函数两种损失函数指标，通过下式表示融合损失函数：

L(S_t，G_t)＝L_{cross_entropy}(S_t，G_t)L_MAE(S_t，G_t)

其中，L(S_t，G_t)为融合损失函数，L_{cross_entropy}(S_t，G_t)为平均绝对误差，L_MAE(S_t，G_t)为交叉熵损失函数，m和n为视频帧尺寸，S_t为视频帧尺寸的网络预测值，G_t为视频帧尺寸的网络真实值；

通过损失函数计算网络生成的显著性预测结果和真值的损失值，利用梯度下降的方式反向传播损失值进行网络参数更新。

本发明具有以下有益效果：

本发明基于注意力机制的视频显著性目标检测方法。本发明在视频显著性目标检测中引入了基于通道注意、空间注意的注意力机制。并在网络高层设计了嵌入注意力机制的双向convLSTM模块，对提取到的时空一致性的显著性特征进行加权，获得更有效的时空信息的同时更好地保持显著性特征的空间和结构信息。同时设计了区分特征的多尺度注意力模块，在网络高层采用CA模块，网络浅层采用SA模块，并且用网络高层学习到的信息去指导不同尺度的浅层信息的学习。基于注意力机制的视频显著性目标检测方法为视频的显著性检测提供了一种新的思路。

附图说明

图1为双向convLSTM模块结构框图；

图2为CSA注意力模块结构框图；

图3为基于通道、空间注意的注意力模块结构框图；

图4为高层信息指导下的SA模块原理图；

图5为基于注意力机制的视频显著性检测网络架构图；

图6为注意力机制的视频显著性检测网络流程图；

图7为通道注意模块CA原理框图；

图8为空间注意模块SA原理框图。

具体实施方式

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

根据图6所示，本发明提供一种基于注意力机制的视频显著性目标检测方法，一种基于注意力机制的视频显著性目标检测方法，一种基于注意力机制的视频显著性目标检测方法，包括以下步骤：

步骤1：通过静态卷积网络提取静态网络，对多帧的视频图像进行初步的空间上的特征提取；

步骤2：将步骤1中提取到的特征送入到嵌入注意力机制的双向convLSTM模块，进行学习时空一致性特征；在双向convLSTM模块的基础上嵌入基于通道注意和空间注意的注意力机制。

所述步骤2具体为：

步骤2.1：采用双向convLSTM模块的前向单元对步骤1中提取到的特征进行前向帧之间的时空相关性建模，得到前向单元的输出结果，通过下式表示前向单元的输出结果：

其中，

为前向单元的输出结果，t为当前帧，F_t为骤1中提取到的特征，

将前向单元的输出结果经过注意力模块增加对前向单元采集进行加权得到加权结果，通过下式表示加权结果

其中，CSA是注意力模块因子；

步骤2.2：经过注意力模块加权后，再经过反向单元进行视频帧序列反向帧之间的时空相关性建模，得到时空相关性建模结果，通过下式表示时空相关性建模结果

步骤2.3：将双向convLSTM模块的前向单元输出和反向单元通过相加的方式，学习时空一致性特征，通过下式学习时空一致性特征的输出结果：

其中，

步骤3：在网络深层提取的特征中加入通道注意力CA模块，在网络浅层提取的不同尺度的特征中加入空间注意力SA模块；选取步骤2输出的学习时空一致性特征的输出结果作为网络提取到的高层特征，选取基本网络的前两层特征作为网络的浅层特征。

通过输入特征经过通道注意力CA模块加权因子的加权，得到加权后的特征,加权后的特征在经过空间注意力SA模块加权因子的加权，得到注意力模块因子CSA，通过下式表示注意力模块因子CSA：

CSA＝CA*SA

所述步骤4具体为：通过通道注意力CA模块指导空间注意力SA模块学习，生成检测结果，得到网络检测视频帧中的显著图像，选择SA模块去学习；将深层、浅层学习到的特征按照通道方向进行串联，生成检测结果，得到网络检测视频帧中的融合特征，通过下式表示网络检测视频帧中的融合特征：

其中，

为按通道方向串联，

和

为基本网络的前两层特征。

将得到的融合特征通过卷积核进行降维操作，通过激活函数将网络预测为是目标的神经元进行激活，得到最终的显著性预测结果，通过下式表示最终的显著性预测结果：

S_t＝θ(conv(Fconcat_t))

其中，θ代表sigmoid激活函数。

采用融合损失函数，所述融合损失函数包括了平均绝对误差和交叉熵损失函数两种损失函数指标，通过下式表示融合损失函数：

L(S_t，G_t)＝L_{cross_entropy}(S_t，G_t)+L_MAE(S_t，G_t)

具体实施例2：

基于注意力机制的视频显著性检测网络方法的整体架构和流程框图分别如图5、6所示，其主要包含静态卷积网络模块、嵌入注意力机制的双向convLSTM模块。网络具体实现步骤分为以下步骤：

步骤1：首先网络经过静态卷积网络(Resnet、VGG等架构)，对多帧的视频序列

进行初步的空间上的特征提取得到提取的结果

其中，T是视频帧序列总数，t代表当前帧。

步骤2：将步骤1提取到的特征

送入到嵌入注意力机制的双向convLSTM模块来学习，学习到具有时空一致性的特征

此模块为了保持时空一致性信息同时为了进一步提取到更深层次的时空信息，选用双向convLSTM模块。同时为了区分显著性特征和背景，进行更有效的特征提取，在双向convLSTM模块的基础上嵌入了基于通道注意、空间注意的注意力机制。其结构框图如图1所示，模块的输入是经静态神经网络提取的特征

经过双向convLSTM模块的学习到的网络特征是

其中T是视频帧总数，t是当前帧。双向convLSTM模块的处理过程如下：

首先双向convLSTM模块的前向单元进行视频帧序列

前向帧之间的时空相关性建模，得到前向单元的输出结果

前向单元的输出结果

经过注意力模块增加对前向单元采集的有效信息的注意，其输出为

经过注意力模块加权后的

在经过反向单元进行视频帧序列反向帧之间的时空相关性建模，得到输出结果为

反向单元的输出结果

再经过注意力模块增加对反向单元采集的有效信息的注意，其输出为

最后将CSAtt_convLSTM模块的前向单元输出

和反向单元的输出

通过相加的方式得到模块的最终输出

其中

代表哈德玛乘积，f代表前向单元，b代表反向单元，csa是网络经过CSA模块输出的标志。CSA是注意力模块因子，其具体设计如图2所示，首先输入特征F经过CA单元加权因子α_i的加权得到加权后的特征F^ca,在经过SA单元加权因子b_i的加权得到注意力模块的最终输出F^csa。综上：

CSA＝CA*SA

基于通道、空间注意的注意力模块：注意力模块的设计选择的是通道注意力CA模块和空间注意力SA模块。根据网络高层和浅层对特征的响应不同，网络的高层特征主要是具有全局信息的上下文感知信息，网络的浅层特征则主要是网络的细节信息，如轮廓信息。本方法有区别的对待网络的高层和浅层特征，在网络高层加入通道注意CA模块，在网络浅层加入SA模块，同时让高层学习到的信息去指导不同尺度上的浅层信息的学习。

基于通道、空间注意的注意力模块设计如图3所示，首先选取步骤2输出的特征作为网络提取到的高层特征

选取基本网络的前两层特征作为网络的浅层特征

其中，高层特征

含有更多的语义信息，CA模块提取到的语义信息进行加权，得到

其中ca是经过CA模块的输出标志。

表示为：

浅层特征更多的关注细节信息，选择SA模块去学习。为了有更多的信息学习，这里选择了网络浅层的两种不同尺度的浅层信息

和

同时浅层信息含有过多的背景干扰，用经过加权后的高层信息去指导浅层信息的学习能提高网络的学习效率。浅层学习到的信息表示为

和

其中sa是特征经过SA模块的输出标志。

和

分别表示为：

其中，SA模块引入了高层信息去指导学习，其原理图如图4所示。

最后将深层、浅层学习到的特征按照通道方向进行串联，得到模块的输出

其中，C3＝C0+C1+C2，

代表按通道方向串联。

生成显著性预测结果：将上一步骤得到的融合特征

通过一个1*1*C3的卷积核进行降维操作，最后在通过一个激活函数将网络预测为是目标的神经元进行激活，得到最终的显著性预测结果

其中，θ代表sigmoid激活函数。S_t表示为：

S_t＝θ(conv(Fconcat_t))

根据图5所示，更新网络：为了更好的生成显著性预测结果，利用一个融合损失函数L(S_t，G_t)。其中S_t、G_t∈[0,1]^m*n分别代表视频帧尺寸为m*n的网络的预测值和真值。L(S_t，G_t)包括了平均绝对误差L_{cross_entropy}(S_t，G_t)、交叉熵损失函数L_MAE(S_t，G_t)两种损失函数指标。通过损失函数计算网络生成的显著性预测结果和真值的损失值，利用梯度下降的方式反向传播损失值进行网络参数更新。

L(S_t，G_t)＝L_{cross_entropy}(S_t，G_t)+L_MAE(S_t，G_t)

注意力机制原理：在进行视频显著性目标检测时，许多方法是通过集成多层卷积的方式来设计网络模型提取显著性目标。然而，并不是所有的特征都与显著性目标同等重要，有些特征甚至会引起干扰。注意力机制为显著性特征增加权重，提供了一种可行的解决方案。在一张图像中，并不是所有的空间位置都以相同的方式对显著性预测做出贡献，有时还存在产生干扰的背景区域。本发明引入空间注意机制(SA)可以突出前景区域，避免一些不突出区域的干扰。同样，不同的特征通道对前景或背景的响应也不同。一些信道对前景有较高的响应，而一些信道对杂乱的背景有明显的响应。本发明引入通道注意机制(CA)为能捕捉到更多显著性目标的特征图分配更高的权重，为对显著性目标相应小的通道分配较小的权重。

通道注意力CA模块：神经网络进行特征提取时大部分的网络对所有的通道不加区分，事实上不同的通道会对不同的语义信息产生相应。我们将CA模块加入到网络中为能提取到显著性目标的通道增加权值，让网络分配更多的注意力给对显著性目标有高响应的通道中。

其中通道注意模块的计算原理框图设计如图7所示，首先我们得到显著性特征图F∈R^T×W×H×C，其中F＝[F1,F2,......FH]中F_i∈R^T×W×H代表第T帧第i通道的特征图，C是F特征图的所有的通道总数。首先对特征图F进行全局平均池化得到T帧特征图在通道上的一个向量,T帧的向量组v∈R^T×C。然后利用两个全连接层来学习每个通道的聚合特征，其中两个全连接层用来进一步提高捕捉通道与通道之间的依赖性的能力，则加权因子CA表征为：

CA＝f(v,w,b)＝s(fc2(δ(fc1(v,W1,b1)),w2,b2))

其中，s代表softmax函数，fc代表全连接层，δ代表激活函数，这里采用的是ReLU函数，w,b分别代表权值和偏差。最后输入的显著性特征图F被CA模块加权得到模块的输出F^ca：

F^ca＝CA×F

一般而言，显著性目标只处于输入视频帧的一部分区域，其余的非显著性的背景区域则会对网络带来干扰。神经网络直接用卷积来提取特征的时候，均衡的考虑了空间中的所有位置，这样背景区域会造成很大的干扰。而空间注意力模块将网络的注意力更多的分配给能捕捉到显著性目标的区域，这样有助于网络产生更准确地预测结果。其中空间注意模块的计算原理框图设计如图8所示，其具体设计原理如下：

其中，F∈R^T×W×H×C分别代表网络浅层和网络深层的显著性信息，则空间位置S＝{(x,y)|x＝1,.....W,y＝1,......H}，(x,y)代表特征图的空间坐标。为了增加感受野和全局信息，同时又不额外增加多余的参数，我们应用了两个卷积层，一个内核是1*K，另一个是K*1。同时有两个分支来进一步增加网络提取特征的能力。然后通过激活函数将显著性目标特征映射到[0,1]区间中。

S1＝conv2(conv1(F,W1,b1),W2,b2)

S2＝conv1(conv2(F,W3,b3),W4,b4)

SA＝f(F,W,b)＝θ(S1)+θ(S2)

其中，W，b分别代表卷积操作中权值和偏差。conv1代表卷积核是1*k的卷积，conv2代表卷积核是K*1的卷积。θ代表sigmoid函数。最后，模块的输出F^sa由底层特征F被SA模块加权得到。

F^sa＝F×SA

以上所述仅是一种基于注意力机制的视频显著性目标检测方法的优选实施方式，一种基于注意力机制的视频显著性目标检测方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。

Claims

1.一种基于注意力机制的视频显著性目标检测方法，其特征是：包括以下步骤：

步骤2：将步骤1中提取到的特征送入到嵌入注意力机制的双向convLSTM模块，进一步学习更深层次的时空一致性特征；

所述步骤2具体为：

其中，

为前向单元的输出结果，t为当前帧，F_t为步骤1中提取到的特征；

其中，CSA是注意力模块因子；

其中，⊙代表哈德玛乘积，f代表前向单元，b代表反向单元，csa是网络经过CSA模块输出的标志；

所述步骤4具体为：通过通道注意力CA模块指导空间注意力SA模块学习，生成检测结果，得到网络检测视频帧中的显著图像，同时针对不同尺度的特征，选择不同的SA模块去学习，将深层、浅层学习到的特征按照通道方向进行串联，生成检测结果，最终得到网络检测视频帧中的融合特征，通过下式表示网络检测视频帧中的融合特征：

其中，

为按通道方向串联，

和

为静态卷积网络的前两层特征经过注意力单元加权后的特征，Fh_t ^ca为网络高层经过注意力单元加权后的特征；

2.根据权利要求1所述的一种基于注意力机制的视频显著性目标检测方法，其特征是：在双向convLSTM模块的基础上嵌入基于通道注意和空间注意的注意力机制。

3.根据权利要求1所述的一种基于注意力机制的视频显著性目标检测方法，其特征是：通过输入特征经过通道注意力CA模块加权因子的加权，得到加权后的特征，加权后的特征再经过空间注意力SA模块加权因子的加权，得到注意力模块因子CSA，通过下式表示注意力模块因子CSA：

CSA＝CA*SA。

4.根据权利要求1所述的一种基于注意力机制的视频显著性目标检测方法，其特征是：选取步骤2输出的学习时空一致性特征的输出结果作为网络提取到的高层特征，选取静态卷积网络的前两层特征作为网络的浅层特征。

5.根据权利要求1所述的一种基于注意力机制的视频显著性目标检测方法，其特征是：将得到的融合特征通过1*1的卷积核进行降维操作，通过激活函数将网络预测为是目标的神经元进行激活，得到最终的显著性预测结果，通过下式表示最终的显著性预测结果S_t：

S_t＝θ(conv(Fconcat_t))

其中，θ代表sigmoid激活函数。

6.根据权利要求1所述的一种基于注意力机制的视频显著性目标检测方法，其特征是：

L(S_t,G_t)＝L_{cross_entropy}(S_t,G_t)+L_MAE(S_t,G_t)

其中，L(S_t,G_t)为融合损失函数，L_{cross_entropy}(S_t,G_t)为交叉熵损失函数，L_MAE(S_t,G_t)为平均绝对误差，m和n为视频帧尺寸，S_t为视频帧尺寸的网络预测值，G_t为视频帧尺寸的网络真实值；