CN111523410B - 一种基于注意力机制的视频显著性目标检测方法 - Google Patents

一种基于注意力机制的视频显著性目标检测方法 Download PDF

Info

Publication number
CN111523410B
CN111523410B CN202010273756.9A CN202010273756A CN111523410B CN 111523410 B CN111523410 B CN 111523410B CN 202010273756 A CN202010273756 A CN 202010273756A CN 111523410 B CN111523410 B CN 111523410B
Authority
CN
China
Prior art keywords
module
attention
network
space
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010273756.9A
Other languages
English (en)
Other versions
CN111523410A (zh
Inventor
刘冰
付平
凤雷
王方园
徐明珠
高丽娜
孙少伟
黄守娟
王宾涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010273756.9A priority Critical patent/CN111523410B/zh
Publication of CN111523410A publication Critical patent/CN111523410A/zh
Application granted granted Critical
Publication of CN111523410B publication Critical patent/CN111523410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明是一种基于注意力机制的视频显著性目标检测方法。所述方法为通过静态卷积网络提取静态特征,对多帧的视频图像进行初步的空间上的特征提取;将提取到的特征送入到嵌入注意力机制的双向convLSTM模块,学习时空一致性特征的同时保持特征的结构和空间结构;在网络深层提取的特征中加入通道注意力CA模块,在网络浅层提取的不同尺度的特征中加入空间注意力SA模块;通过通道注意力CA模块指导空间注意力SA模块学习,生成检测结果,得到网络检测视频帧中的显著图像;根据生成的检测结果和真值计算损失函数,反向传递误差,更新网络参数。本发明在基于注意力机制的视频显著性目标检测方法为视频的显著性检测提供了一种新的思路。

Description

一种基于注意力机制的视频显著性目标检测方法
技术领域
本发明涉及视频检测技术领域,是一种基于注意力机制的视频显著性目标检测方法。
背景技术
在当今社会,随着人们对视频或图像清晰度更高的追求,视频或图像的分辨率越来越大,造成视频或图像分析等工作消耗的计算存储资源也越来越大。在视频或图像的分析处理过程中,人们的注意力往往只是关注视频或图像中的一部分事物,所以,将有限的资源优先分配给最显著的区域,能够极大地提高分析处理的效率,这就涉及了图像、视频的显著性目标检测(Saliency object detection)问题。
显著性监测的目的旨在找到图片中最吸引人眼球的地方,将图片中属于显著性目标的像素标注出来,属于针对像素级别的研究。根据监测的输入,可以进一步分为静态显著性监测(SOD)和动态显著性监测(VSOD)。其中,静态模型采用静态图像作为输入,而动态模型采用视频帧序列。显著性监测作为基本模块可以应用于目标分割、目标识别和跟踪、场景绘制、图像检索、视频压缩等场景中。目前关于静态图像的显著性研究有很多,但是对视频的显著性监测还需要加深研究。
不同于静态图像的显著性目标检测,运动中的物体更容易成为视频中的显著性目标。目前常用于视频显著性目标检测的传统方法主要有帧差法、背景差分法和光流法等三种算法,这三种方法主要针对运动场景比较简单,且存在预测准确率低,计算代价大,实时性低的缺点。目前人工神经网络的目标检测方法正逐渐成为主流的研究方向。
以神经网络为主的视频显著性目标检测方法的发展主要分为有两个阶段:最初通过分别提取空间显著性图和时间显著性图,并以一定的方法进行融合。这类方式通常可能借助传统的方法进行空间或者是时间上的显著性特征提取。例如借助光流法获取运动信息的先验知识,和原视频帧一起输入神经网络来获取时间显著性图,原视频帧独自通过神经网络获取空间显著性图,在通过神经网络进行时间显著性图和空间显著性图的特征融合。主要存在的问题将时间和空间分割开来,再采用一定方式进行融合这样导致监测的准确率不高,实时性不好的特点。于是越来越多的研究开始着力于探索视频帧间像素存在的关系,以及如何将时间和空间的显著性目标监测算法更好的融合。有效且迅速的视频显著性目标检测算法可以进行高效的数据筛选,使得在实际应用中可以更加专注地处理视频中的显著部分,很好地降低了算法的时间的同时也提高了预测的精度。
现如今针对时间序列的处理更多的采用ConvLSTM(卷积长短时记忆网络)结构,该结构旨在捕捉视频序列的长、短期记忆,这样同时包含了时间和空间的信息,能隐式地学习时间动态,有效地融合时间和空间上的特征。
同时在处理时间序列中,为了更好的融合时间和空间信息,采用了convLSTM结构来捕捉时空特征保证时空特征一致性的视频显著性目标检测方法。它所存在的问题主要有:
采用的神经网络直接利用卷积特征来进行显著性目标预测这样会均衡的考虑特征图中的所有空间位置,可能会使得非显著性目标区域带来干扰而产生次优的结果。
在网络的训练中忽略了网络深层提取的特征和网络浅层提取的特征的差异。
发明内容
本发明为实现对视频显著性目标的检测,本发明提供了一种基于注意力机制的视频显著性目标检测方法,本发明提供了以下技术方案:
一种基于注意力机制的视频显著性目标检测方法,包括以下步骤:
步骤1:通过静态卷积网络提取静态特征,对视频帧序列进行初步的空域上的特征提取;
步骤2:将步骤1中提取到的特征送入到嵌入注意力机制的双向convLSTM模块,进一步学习时空一致性特征;
步骤3:在网络深层提取的特征中加入通道注意力CA模块,在网络浅层提取的不同尺度的特征中加入空间注意力SA模块;
步骤4:通过通道注意力CA模块指导空间注意力SA模块学习,生成检测结果,得到网络检测视频帧中的显著图像;
步骤5:根据生成的检测结果和真值计算损失函数,反向传递误差,更新网络参数。
优选地,在双向convLSTM模块的基础上嵌入基于通道注意和空间注意的注意力机制。
优选地,所述步骤2具体为:
步骤2.1:采用双向convLSTM模块的前向单元对步骤1中提取到的特征进行当前帧和前向帧之间的时空相关性建模,得到前向单元的输出结果,通过下式表示前向单元的输出结果:
Figure BDA0002444051550000021
其中
Figure BDA0002444051550000022
为前向单元的输出结果,t为当前帧,Ft为步骤1中提取到的特征。
将前向单元的输出结果经过注意力模块,对前向单元采集到的特征进行加权得到加权结果,通过下式表示加权结果
Figure BDA0002444051550000023
Figure BDA0002444051550000024
其中,CSA是注意力模块因子。
步骤2.2:经过注意力模块加权后,再送入到反向单元进行视频帧序列反向帧之间的时空相关性建模,得到时空相关性建模结果,通过下式表示时空相关性建模结果
Figure BDA0002444051550000031
Figure BDA0002444051550000032
时空相关性建模结果经过注意力模块增加对反向单元采集的有效信息的注意,得到反向输出结果,通过下式表示反向输出结果
Figure BDA0002444051550000033
Figure BDA0002444051550000034
步骤2.3:将双向convLSTM模块的前向单元输出和反向单元输出通过相加的方式,得到次模块学习到的时空一致性特征,通过下式表示学习到时空一致性特征的输出结果:
Figure BDA0002444051550000035
其中,
Figure BDA0002444051550000036
代表哈德玛乘积,f代表前向单元,b代表反向单元,csa是网络经过CSA模块输出的标志。
优选地,通过输入特征经过通道注意力CA模块加权因子的加权,得到加权后的特征。加权后的特征再经过空间注意力SA模块加权因子的加权,得到注意力模块因子CSA,通过下式表示注意力模块因子CSA:
CSA=CA*SA
优选地,选取步骤2输出的学习时空一致性特征的输出结果作为网络提取到的高层特征,选取基本网络的前两层特征作为网络的浅层特征。
优选地,所述步骤4具体为通过通道注意力CA模块指导空间注意力SA模块学习,生成检测结果,得到网络检测视频帧中的显著图像。同时针对不同尺度的特征,选择不同的SA模块去学习。将深层、浅层学习到的特征按照通道方向进行串联,生成检测结果,最终得到网络检测视频帧中的融合特征,通过下式表示网络检测视频帧中的融合特征:
Figure BDA0002444051550000037
其中,
Figure BDA0002444051550000038
为按通道方向串联,
Figure BDA0002444051550000039
Figure BDA00024440515500000310
为静态卷积网络的前两层特征经过注意力单元加权后的特征,Fht为网络高层经过注意力单元加权后的特征。
优选地,将得到的融合特征通过1*1的卷积核进行降维操作,通过激活函数将网络预测为是目标的神经元进行激活,得到最终的显著性预测结果,通过下式表示最终的显著性预测结果St
St=θ(conv(Fconcatt))
其中,θ代表sigmoid激活函数。
优选地,采用融合损失函数,所述融合损失函数包括了平均绝对误差和交叉熵损失函数两种损失函数指标,通过下式表示融合损失函数:
L(St,Gt)=Lcross_entropy(St,Gt)LMAE(St,Gt)
Figure BDA0002444051550000041
其中,L(St,Gt)为融合损失函数,Lcross_entropy(St,Gt)为平均绝对误差,LMAE(St,Gt)为交叉熵损失函数,m和n为视频帧尺寸,St为视频帧尺寸的网络预测值,Gt为视频帧尺寸的网络真实值;
通过损失函数计算网络生成的显著性预测结果和真值的损失值,利用梯度下降的方式反向传播损失值进行网络参数更新。
本发明具有以下有益效果:
本发明基于注意力机制的视频显著性目标检测方法。本发明在视频显著性目标检测中引入了基于通道注意、空间注意的注意力机制。并在网络高层设计了嵌入注意力机制的双向convLSTM模块,对提取到的时空一致性的显著性特征进行加权,获得更有效的时空信息的同时更好地保持显著性特征的空间和结构信息。同时设计了区分特征的多尺度注意力模块,在网络高层采用CA模块,网络浅层采用SA模块,并且用网络高层学习到的信息去指导不同尺度的浅层信息的学习。基于注意力机制的视频显著性目标检测方法为视频的显著性检测提供了一种新的思路。
附图说明
图1为双向convLSTM模块结构框图;
图2为CSA注意力模块结构框图;
图3为基于通道、空间注意的注意力模块结构框图;
图4为高层信息指导下的SA模块原理图;
图5为基于注意力机制的视频显著性检测网络架构图;
图6为注意力机制的视频显著性检测网络流程图;
图7为通道注意模块CA原理框图;
图8为空间注意模块SA原理框图。
具体实施方式
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
根据图6所示,本发明提供一种基于注意力机制的视频显著性目标检测方法,一种基于注意力机制的视频显著性目标检测方法,一种基于注意力机制的视频显著性目标检测方法,包括以下步骤:
步骤1:通过静态卷积网络提取静态网络,对多帧的视频图像进行初步的空间上的特征提取;
步骤2:将步骤1中提取到的特征送入到嵌入注意力机制的双向convLSTM模块,进行学习时空一致性特征;在双向convLSTM模块的基础上嵌入基于通道注意和空间注意的注意力机制。
所述步骤2具体为:
步骤2.1:采用双向convLSTM模块的前向单元对步骤1中提取到的特征进行前向帧之间的时空相关性建模,得到前向单元的输出结果,通过下式表示前向单元的输出结果:
Figure BDA0002444051550000051
其中,
Figure BDA0002444051550000052
为前向单元的输出结果,t为当前帧,Ft为骤1中提取到的特征,
将前向单元的输出结果经过注意力模块增加对前向单元采集进行加权得到加权结果,通过下式表示加权结果
Figure BDA0002444051550000053
Figure BDA0002444051550000054
其中,CSA是注意力模块因子;
步骤2.2:经过注意力模块加权后,再经过反向单元进行视频帧序列反向帧之间的时空相关性建模,得到时空相关性建模结果,通过下式表示时空相关性建模结果
Figure BDA0002444051550000055
Figure BDA0002444051550000056
时空相关性建模结果经过注意力模块增加对反向单元采集的有效信息的注意,得到反向输出结果,通过下式表示反向输出结果
Figure BDA0002444051550000057
Figure BDA0002444051550000058
步骤2.3:将双向convLSTM模块的前向单元输出和反向单元通过相加的方式,学习时空一致性特征,通过下式学习时空一致性特征的输出结果:
Figure BDA0002444051550000059
其中,
Figure BDA00024440515500000510
代表哈德玛乘积,f代表前向单元,b代表反向单元,csa是网络经过CSA模块输出的标志。
步骤3:在网络深层提取的特征中加入通道注意力CA模块,在网络浅层提取的不同尺度的特征中加入空间注意力SA模块;选取步骤2输出的学习时空一致性特征的输出结果作为网络提取到的高层特征,选取基本网络的前两层特征作为网络的浅层特征。
通过输入特征经过通道注意力CA模块加权因子的加权,得到加权后的特征,加权后的特征在经过空间注意力SA模块加权因子的加权,得到注意力模块因子CSA,通过下式表示注意力模块因子CSA:
CSA=CA*SA
步骤4:通过通道注意力CA模块指导空间注意力SA模块学习,生成检测结果,得到网络检测视频帧中的显著图像;
所述步骤4具体为:通过通道注意力CA模块指导空间注意力SA模块学习,生成检测结果,得到网络检测视频帧中的显著图像,选择SA模块去学习;将深层、浅层学习到的特征按照通道方向进行串联,生成检测结果,得到网络检测视频帧中的融合特征,通过下式表示网络检测视频帧中的融合特征:
Figure BDA0002444051550000061
其中,
Figure BDA0002444051550000062
为按通道方向串联,
Figure BDA0002444051550000063
Figure BDA0002444051550000064
为基本网络的前两层特征。
步骤5:根据生成的检测结果和真值计算损失函数,反向传递误差,更新网络参数。
将得到的融合特征通过卷积核进行降维操作,通过激活函数将网络预测为是目标的神经元进行激活,得到最终的显著性预测结果,通过下式表示最终的显著性预测结果:
St=θ(conv(Fconcatt))
其中,θ代表sigmoid激活函数。
采用融合损失函数,所述融合损失函数包括了平均绝对误差和交叉熵损失函数两种损失函数指标,通过下式表示融合损失函数:
L(St,Gt)=Lcross_entropy(St,Gt)+LMAE(St,Gt)
Figure BDA0002444051550000065
其中,L(St,Gt)为融合损失函数,Lcross_entropy(St,Gt)为平均绝对误差,LMAE(St,Gt)为交叉熵损失函数,m和n为视频帧尺寸,St为视频帧尺寸的网络预测值,Gt为视频帧尺寸的网络真实值;
通过损失函数计算网络生成的显著性预测结果和真值的损失值,利用梯度下降的方式反向传播损失值进行网络参数更新。
具体实施例2:
基于注意力机制的视频显著性检测网络方法的整体架构和流程框图分别如图5、6所示,其主要包含静态卷积网络模块、嵌入注意力机制的双向convLSTM模块。网络具体实现步骤分为以下步骤:
步骤1:首先网络经过静态卷积网络(Resnet、VGG等架构),对多帧的视频序列
Figure BDA0002444051550000071
进行初步的空间上的特征提取得到提取的结果
Figure BDA0002444051550000072
其中,T是视频帧序列总数,t代表当前帧。
步骤2:将步骤1提取到的特征
Figure BDA0002444051550000073
送入到嵌入注意力机制的双向convLSTM模块来学习,学习到具有时空一致性的特征
Figure BDA0002444051550000074
此模块为了保持时空一致性信息同时为了进一步提取到更深层次的时空信息,选用双向convLSTM模块。同时为了区分显著性特征和背景,进行更有效的特征提取,在双向convLSTM模块的基础上嵌入了基于通道注意、空间注意的注意力机制。其结构框图如图1所示,模块的输入是经静态神经网络提取的特征
Figure BDA0002444051550000075
经过双向convLSTM模块的学习到的网络特征是
Figure BDA0002444051550000076
其中T是视频帧总数,t是当前帧。双向convLSTM模块的处理过程如下:
首先双向convLSTM模块的前向单元进行视频帧序列
Figure BDA0002444051550000077
前向帧之间的时空相关性建模,得到前向单元的输出结果
Figure BDA0002444051550000078
Figure BDA0002444051550000079
前向单元的输出结果
Figure BDA00024440515500000710
经过注意力模块增加对前向单元采集的有效信息的注意,其输出为
Figure BDA00024440515500000711
Figure BDA00024440515500000712
经过注意力模块加权后的
Figure BDA00024440515500000713
在经过反向单元进行视频帧序列反向帧之间的时空相关性建模,得到输出结果为
Figure BDA00024440515500000714
Figure BDA00024440515500000715
反向单元的输出结果
Figure BDA00024440515500000716
再经过注意力模块增加对反向单元采集的有效信息的注意,其输出为
Figure BDA00024440515500000717
Figure BDA00024440515500000718
最后将CSAtt_convLSTM模块的前向单元输出
Figure BDA00024440515500000719
和反向单元的输出
Figure BDA00024440515500000720
通过相加的方式得到模块的最终输出
Figure BDA00024440515500000721
Figure BDA0002444051550000081
其中
Figure BDA0002444051550000082
代表哈德玛乘积,f代表前向单元,b代表反向单元,csa是网络经过CSA模块输出的标志。CSA是注意力模块因子,其具体设计如图2所示,首先输入特征F经过CA单元加权因子αi的加权得到加权后的特征Fca,在经过SA单元加权因子bi的加权得到注意力模块的最终输出Fcsa。综上:
CSA=CA*SA
基于通道、空间注意的注意力模块:注意力模块的设计选择的是通道注意力CA模块和空间注意力SA模块。根据网络高层和浅层对特征的响应不同,网络的高层特征主要是具有全局信息的上下文感知信息,网络的浅层特征则主要是网络的细节信息,如轮廓信息。本方法有区别的对待网络的高层和浅层特征,在网络高层加入通道注意CA模块,在网络浅层加入SA模块,同时让高层学习到的信息去指导不同尺度上的浅层信息的学习。
基于通道、空间注意的注意力模块设计如图3所示,首先选取步骤2输出的特征作为网络提取到的高层特征
Figure BDA0002444051550000083
选取基本网络的前两层特征作为网络的浅层特征
Figure BDA0002444051550000084
其中,高层特征
Figure BDA0002444051550000085
含有更多的语义信息,CA模块提取到的语义信息进行加权,得到
Figure BDA0002444051550000086
其中ca是经过CA模块的输出标志。
Figure BDA0002444051550000087
表示为:
Figure BDA0002444051550000088
浅层特征更多的关注细节信息,选择SA模块去学习。为了有更多的信息学习,这里选择了网络浅层的两种不同尺度的浅层信息
Figure BDA0002444051550000089
Figure BDA00024440515500000810
同时浅层信息含有过多的背景干扰,用经过加权后的高层信息去指导浅层信息的学习能提高网络的学习效率。浅层学习到的信息表示为
Figure BDA00024440515500000811
Figure BDA00024440515500000812
其中sa是特征经过SA模块的输出标志。
Figure BDA00024440515500000813
Figure BDA00024440515500000814
分别表示为:
Figure BDA00024440515500000815
其中,SA模块引入了高层信息去指导学习,其原理图如图4所示。
最后将深层、浅层学习到的特征按照通道方向进行串联,得到模块的输出
Figure BDA00024440515500000816
Figure BDA00024440515500000817
其中,C3=C0+C1+C2,
Figure BDA00024440515500000818
代表按通道方向串联。
Figure BDA00024440515500000819
生成显著性预测结果:将上一步骤得到的融合特征
Figure BDA00024440515500000820
通过一个1*1*C3的卷积核进行降维操作,最后在通过一个激活函数将网络预测为是目标的神经元进行激活,得到最终的显著性预测结果
Figure BDA0002444051550000091
其中,θ代表sigmoid激活函数。St表示为:
St=θ(conv(Fconcatt))
根据图5所示,更新网络:为了更好的生成显著性预测结果,利用一个融合损失函数L(St,Gt)。其中St、Gt∈[0,1]m*n分别代表视频帧尺寸为m*n的网络的预测值和真值。L(St,Gt)包括了平均绝对误差Lcross_entropy(St,Gt)、交叉熵损失函数LMAE(St,Gt)两种损失函数指标。通过损失函数计算网络生成的显著性预测结果和真值的损失值,利用梯度下降的方式反向传播损失值进行网络参数更新。
L(St,Gt)=Lcross_entropy(St,Gt)+LMAE(St,Gt)
Figure BDA0002444051550000092
注意力机制原理:在进行视频显著性目标检测时,许多方法是通过集成多层卷积的方式来设计网络模型提取显著性目标。然而,并不是所有的特征都与显著性目标同等重要,有些特征甚至会引起干扰。注意力机制为显著性特征增加权重,提供了一种可行的解决方案。在一张图像中,并不是所有的空间位置都以相同的方式对显著性预测做出贡献,有时还存在产生干扰的背景区域。本发明引入空间注意机制(SA)可以突出前景区域,避免一些不突出区域的干扰。同样,不同的特征通道对前景或背景的响应也不同。一些信道对前景有较高的响应,而一些信道对杂乱的背景有明显的响应。本发明引入通道注意机制(CA)为能捕捉到更多显著性目标的特征图分配更高的权重,为对显著性目标相应小的通道分配较小的权重。
通道注意力CA模块:神经网络进行特征提取时大部分的网络对所有的通道不加区分,事实上不同的通道会对不同的语义信息产生相应。我们将CA模块加入到网络中为能提取到显著性目标的通道增加权值,让网络分配更多的注意力给对显著性目标有高响应的通道中。
其中通道注意模块的计算原理框图设计如图7所示,首先我们得到显著性特征图F∈RT×W×H×C,其中F=[F1,F2,......FH]中Fi∈RT×W×H代表第T帧第i通道的特征图,C是F特征图的所有的通道总数。首先对特征图F进行全局平均池化得到T帧特征图在通道上的一个向量,T帧的向量组v∈RT×C。然后利用两个全连接层来学习每个通道的聚合特征,其中两个全连接层用来进一步提高捕捉通道与通道之间的依赖性的能力,则加权因子CA表征为:
CA=f(v,w,b)=s(fc2(δ(fc1(v,W1,b1)),w2,b2))
其中,s代表softmax函数,fc代表全连接层,δ代表激活函数,这里采用的是ReLU函数,w,b分别代表权值和偏差。最后输入的显著性特征图F被CA模块加权得到模块的输出Fca
Fca=CA×F
一般而言,显著性目标只处于输入视频帧的一部分区域,其余的非显著性的背景区域则会对网络带来干扰。神经网络直接用卷积来提取特征的时候,均衡的考虑了空间中的所有位置,这样背景区域会造成很大的干扰。而空间注意力模块将网络的注意力更多的分配给能捕捉到显著性目标的区域,这样有助于网络产生更准确地预测结果。其中空间注意模块的计算原理框图设计如图8所示,其具体设计原理如下:
其中,F∈RT×W×H×C分别代表网络浅层和网络深层的显著性信息,则空间位置S={(x,y)|x=1,.....W,y=1,......H},(x,y)代表特征图的空间坐标。为了增加感受野和全局信息,同时又不额外增加多余的参数,我们应用了两个卷积层,一个内核是1*K,另一个是K*1。同时有两个分支来进一步增加网络提取特征的能力。然后通过激活函数将显著性目标特征映射到[0,1]区间中。
S1=conv2(conv1(F,W1,b1),W2,b2)
S2=conv1(conv2(F,W3,b3),W4,b4)
SA=f(F,W,b)=θ(S1)+θ(S2)
其中,W,b分别代表卷积操作中权值和偏差。conv1代表卷积核是1*k的卷积,conv2代表卷积核是K*1的卷积。θ代表sigmoid函数。最后,模块的输出Fsa由底层特征F被SA模块加权得到。
Fsa=F×SA
以上所述仅是一种基于注意力机制的视频显著性目标检测方法的优选实施方式,一种基于注意力机制的视频显著性目标检测方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。

Claims (6)

1.一种基于注意力机制的视频显著性目标检测方法,其特征是:包括以下步骤:
步骤1:通过静态卷积网络提取静态特征,对视频帧序列进行初步的空域上的特征提取;
步骤2:将步骤1中提取到的特征送入到嵌入注意力机制的双向convLSTM模块,进一步学习更深层次的时空一致性特征;
所述步骤2具体为:
步骤2.1:采用双向convLSTM模块的前向单元对步骤1中提取到的特征进行当前帧和前向帧之间的时空相关性建模,得到前向单元的输出结果,通过下式表示前向单元的输出结果:
Figure FDA0003720532970000011
其中,
Figure FDA0003720532970000012
为前向单元的输出结果,t为当前帧,Ft为步骤1中提取到的特征;
将前向单元的输出结果经过注意力模块,对前向单元采集到的特征进行加权得到加权结果,通过下式表示加权结果
Figure FDA0003720532970000013
Figure FDA0003720532970000014
其中,CSA是注意力模块因子;
步骤2.2:经过注意力模块加权后,再送入到反向单元进行视频帧序列反向帧之间的时空相关性建模,得到时空相关性建模结果,通过下式表示时空相关性建模结果
Figure FDA0003720532970000015
Figure FDA0003720532970000016
时空相关性建模结果经过注意力模块增加对反向单元采集的有效信息的注意,得到反向输出结果,通过下式表示反向输出结果
Figure FDA0003720532970000017
Figure FDA0003720532970000018
步骤2.3:将双向convLSTM模块的前向单元输出和反向单元输出通过相加的方式,得到次模块学习到的时空一致性特征,通过下式表示学习到时空一致性特征的输出结果:
Figure FDA0003720532970000019
其中,⊙代表哈德玛乘积,f代表前向单元,b代表反向单元,csa是网络经过CSA模块输出的标志;
步骤3:在网络深层提取的特征中加入通道注意力CA模块,在网络浅层提取的不同尺度的特征中加入空间注意力SA模块;
步骤4:通过通道注意力CA模块指导空间注意力SA模块学习,生成检测结果,得到网络检测视频帧中的显著图像;
所述步骤4具体为:通过通道注意力CA模块指导空间注意力SA模块学习,生成检测结果,得到网络检测视频帧中的显著图像,同时针对不同尺度的特征,选择不同的SA模块去学习,将深层、浅层学习到的特征按照通道方向进行串联,生成检测结果,最终得到网络检测视频帧中的融合特征,通过下式表示网络检测视频帧中的融合特征:
Figure FDA0003720532970000021
其中,
Figure FDA0003720532970000022
为按通道方向串联,
Figure FDA0003720532970000023
Figure FDA0003720532970000024
为静态卷积网络的前两层特征经过注意力单元加权后的特征,Fht ca为网络高层经过注意力单元加权后的特征;
步骤5:根据生成的检测结果和真值计算损失函数,反向传递误差,更新网络参数。
2.根据权利要求1所述的一种基于注意力机制的视频显著性目标检测方法,其特征是:在双向convLSTM模块的基础上嵌入基于通道注意和空间注意的注意力机制。
3.根据权利要求1所述的一种基于注意力机制的视频显著性目标检测方法,其特征是:通过输入特征经过通道注意力CA模块加权因子的加权,得到加权后的特征,加权后的特征再经过空间注意力SA模块加权因子的加权,得到注意力模块因子CSA,通过下式表示注意力模块因子CSA:
CSA=CA*SA。
4.根据权利要求1所述的一种基于注意力机制的视频显著性目标检测方法,其特征是:选取步骤2输出的学习时空一致性特征的输出结果作为网络提取到的高层特征,选取静态卷积网络的前两层特征作为网络的浅层特征。
5.根据权利要求1所述的一种基于注意力机制的视频显著性目标检测方法,其特征是:将得到的融合特征通过1*1的卷积核进行降维操作,通过激活函数将网络预测为是目标的神经元进行激活,得到最终的显著性预测结果,通过下式表示最终的显著性预测结果St
St=θ(conv(Fconcatt))
其中,θ代表sigmoid激活函数。
6.根据权利要求1所述的一种基于注意力机制的视频显著性目标检测方法,其特征是:
采用融合损失函数,所述融合损失函数包括了平均绝对误差和交叉熵损失函数两种损失函数指标,通过下式表示融合损失函数:
L(St,Gt)=Lcross_entropy(St,Gt)+LMAE(St,Gt)
Figure FDA0003720532970000025
Figure FDA0003720532970000026
其中,L(St,Gt)为融合损失函数,Lcross_entropy(St,Gt)为交叉熵损失函数,LMAE(St,Gt)为平均绝对误差,m和n为视频帧尺寸,St为视频帧尺寸的网络预测值,Gt为视频帧尺寸的网络真实值;
通过损失函数计算网络生成的显著性预测结果和真值的损失值,利用梯度下降的方式反向传播损失值进行网络参数更新。
CN202010273756.9A 2020-04-09 2020-04-09 一种基于注意力机制的视频显著性目标检测方法 Active CN111523410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010273756.9A CN111523410B (zh) 2020-04-09 2020-04-09 一种基于注意力机制的视频显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010273756.9A CN111523410B (zh) 2020-04-09 2020-04-09 一种基于注意力机制的视频显著性目标检测方法

Publications (2)

Publication Number Publication Date
CN111523410A CN111523410A (zh) 2020-08-11
CN111523410B true CN111523410B (zh) 2022-08-26

Family

ID=71901358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010273756.9A Active CN111523410B (zh) 2020-04-09 2020-04-09 一种基于注意力机制的视频显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN111523410B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016476B (zh) * 2020-08-31 2022-11-01 山东大学 由目标检测引导的复杂交通视觉显著性预测方法及系统
CN112465785A (zh) * 2020-11-30 2021-03-09 深圳大学 角膜动态参数提取方法及系统
CN112613356B (zh) * 2020-12-07 2023-01-10 北京理工大学 一种基于深度注意力融合网络的动作检测方法及装置
CN112653899B (zh) * 2020-12-18 2022-07-12 北京工业大学 一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法
CN112734748B (zh) * 2021-01-21 2022-05-17 广东工业大学 一种肝胆管及胆道结石的图像分割系统
CN112949453B (zh) * 2021-02-26 2023-12-26 南京恩博科技有限公司 烟火检测模型的训练方法、烟火检测方法及设备
CN112926667B (zh) * 2021-03-05 2022-08-30 中南民族大学 深度融合边缘与高层特征的显著性目标检测方法及装置
CN113313668B (zh) * 2021-04-19 2022-09-27 石家庄铁道大学 一种地铁隧道表面病害特征提取方法
CN113111828B (zh) * 2021-04-23 2022-03-18 中国科学院宁波材料技术与工程研究所 一种轴承三维缺陷检测方法及系统
CN113127716B (zh) * 2021-04-29 2023-07-28 南京大学 一种基于显著性图的情感时间序列异常检测方法
CN113297964B (zh) * 2021-05-25 2022-11-15 周口师范学院 基于深度迁移学习的视频目标识别模型及方法
CN113327265B (zh) * 2021-06-10 2022-07-15 厦门市美亚柏科信息股份有限公司 一种基于指导学习策略的光流估计方法和系统
CN113393435B (zh) * 2021-06-11 2023-12-26 大连理工大学 一种基于动态上下文感知滤波网络的视频显著性检测方法
US11804043B2 (en) 2021-06-15 2023-10-31 Lemon Inc. Detecting objects in a video using attention models
CN113657534A (zh) * 2021-08-24 2021-11-16 北京经纬恒润科技股份有限公司 一种基于注意力机制的分类方法及装置
CN114429607B (zh) * 2022-01-24 2024-03-29 中南大学 一种基于Transformer的半监督视频目标分割方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463609A (zh) * 2017-06-27 2017-12-12 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN108898145A (zh) * 2018-06-15 2018-11-27 西南交通大学 一种结合深度学习的图像显著目标检测方法
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
CN110097115A (zh) * 2019-04-28 2019-08-06 南开大学 一种基于注意力转移机制的视频显著性物体检测方法
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN110446112A (zh) * 2019-07-01 2019-11-12 南京邮电大学 基于双向LSTM-Attention的IPTV用户体验预测方法
CN110569353A (zh) * 2019-07-03 2019-12-13 重庆大学 一种基于注意力机制的Bi-LSTM的标签推荐方法
CN110766942A (zh) * 2019-10-18 2020-02-07 北京大学 一种基于卷积长短期记忆网络的交通路网拥堵预测方法
CN110956185A (zh) * 2019-11-21 2020-04-03 大连理工大学人工智能大连研究院 一种图像显著目标的检测方法
CN110969577A (zh) * 2019-11-29 2020-04-07 北京交通大学 一种基于深度双重注意力网络的视频超分辨率重建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11064892B2 (en) * 2015-06-14 2021-07-20 Facense Ltd. Detecting a transient ischemic attack using photoplethysmogram signals

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463609A (zh) * 2017-06-27 2017-12-12 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN108898145A (zh) * 2018-06-15 2018-11-27 西南交通大学 一种结合深度学习的图像显著目标检测方法
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
CN110097115A (zh) * 2019-04-28 2019-08-06 南开大学 一种基于注意力转移机制的视频显著性物体检测方法
CN110446112A (zh) * 2019-07-01 2019-11-12 南京邮电大学 基于双向LSTM-Attention的IPTV用户体验预测方法
CN110569353A (zh) * 2019-07-03 2019-12-13 重庆大学 一种基于注意力机制的Bi-LSTM的标签推荐方法
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN110766942A (zh) * 2019-10-18 2020-02-07 北京大学 一种基于卷积长短期记忆网络的交通路网拥堵预测方法
CN110956185A (zh) * 2019-11-21 2020-04-03 大连理工大学人工智能大连研究院 一种图像显著目标的检测方法
CN110969577A (zh) * 2019-11-29 2020-04-07 北京交通大学 一种基于深度双重注意力网络的视频超分辨率重建方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
"Pyramid Dilated Deeper ConvLSTM for Video Salient Object Detection";Hongmei Song等;《ECCV 2018》;20181231;第1-17页 *
"Rotating machinery fault prediction method based on bi-lstm and attention mechanism";Zheng L等;《2019 IEEE International Conference on Energy Internet》;20191231;第2234-2245页 *
"Shifting More Attention to Video Salient Object Detection";DengPing Fan等;《CVPR》;20200131;第1-11页 *
"基于3D-LCRN视频异常行为识别方法";管业鹏等;《哈尔滨工业大学学报》;20191130;第51卷(第11期);第112-132页 *
"基于双向长短时记忆网络的改进注意力短文本分类方法";陶志勇等;《数据分析与知识发现》;20191231;第3卷(第12期);第183-193页 *
"基于注意力机制和双向GRU模型的雷达HRRP目标识别";刘家麒等;《雷达学报》;20191031;第8卷(第5期);第589-597页 *
"结合注意力机制与双向LSTM的中文事件检测方法";沈兰奔等;《中文信息学报》;20190930;第33卷(第9期);第79-87页 *

Also Published As

Publication number Publication date
CN111523410A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111523410B (zh) 一种基于注意力机制的视频显著性目标检测方法
Pang et al. Visual haze removal by a unified generative adversarial network
Miksik et al. Efficient temporal consistency for streaming video scene analysis
CN111639692A (zh) 一种基于注意力机制的阴影检测方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN110781928B (zh) 一种提取图像多分辨率特征的图像相似度学习方法
CN112468888A (zh) 基于gru网络的视频摘要生成方法与系统
CN111462149A (zh) 一种基于视觉显著性的实例人体解析方法
Ciampi et al. Domain Adaptation for Traffic Density Estimation.
Wang et al. DCMNet: Discriminant and cross-modality network for RGB-D salient object detection
Kim et al. Video object detection using object's motion context and spatio-temporal feature aggregation
Luo et al. Weakly supervised learning for raindrop removal on a single image
CN112257612A (zh) 一种基于边缘智能的无人机视频帧过滤方法及装置
Niu et al. Boundary-aware RGBD salient object detection with cross-modal feature sampling
WO2022205329A1 (zh) 对象检测方法、对象检测装置及对象检测系统
Tang et al. HIC-YOLOv5: Improved YOLOv5 For Small Object Detection
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
CN113326738A (zh) 基于深度网络和字典学习的行人目标检测与重识别方法
CN116758449A (zh) 一种基于深度学习的视频显著目标检测方法及系统
CN114120076B (zh) 基于步态运动估计的跨视角视频步态识别方法
CN113505247B (zh) 基于内容的高时长视频色情内容检测方法
Dahirou et al. Motion Detection and Object Detection: Yolo (You Only Look Once)
CN115063352A (zh) 一种基于多图神经网络协同学习架构的显著性物体检测装置及方法
CN113971826A (zh) 估计连续的效价和唤醒水平的动态情感识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant