CN111192292B - 基于注意力机制与孪生网络的目标跟踪方法及相关设备 - Google Patents
基于注意力机制与孪生网络的目标跟踪方法及相关设备 Download PDFInfo
- Publication number
- CN111192292B CN111192292B CN201911378722.XA CN201911378722A CN111192292B CN 111192292 B CN111192292 B CN 111192292B CN 201911378722 A CN201911378722 A CN 201911378722A CN 111192292 B CN111192292 B CN 111192292B
- Authority
- CN
- China
- Prior art keywords
- search area
- target template
- target
- feature
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000007246 mechanism Effects 0.000 title claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 26
- 230000005284 excitation Effects 0.000 claims description 21
- 230000006835 compression Effects 0.000 claims description 20
- 238000007906 compression Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 abstract description 8
- 238000004891 communication Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于注意力机制与孪生网络的目标跟踪方法及相关设备,通过将目标模板和搜索区域输入至预设的目标跟踪模型,通过预设的目标跟踪模型输出目标模板在所述搜索区域中的目标跟踪信息;所述目标跟踪模型中包含孪生网络,并且孪生网络中增加设置通道注意力模块和/或空间注意力模块。本实施例提供的目标跟踪方法及相关设备,由于在残差网络中加入通道注意力模块和/或空间注意力模块,显著提高了孪生跟踪算法的平均期望重叠率和鲁棒性,改善跟踪中的运动变化、相机运动、遮挡、尺寸变化属性的鲁棒性,因此使用本实施例提供的目标跟踪方法进行目标跟踪预测时,可以获取到较准确的结果。
Description
技术领域
本发明涉及终端显示控制技术领域,尤其涉及的是一种基于注意力机制与孪生网络的目标跟踪方法及相关设备。
背景技术
目标跟踪一直以来都是计算机视觉领域研究的热点,其应用于人机交互、智能视频监控和交通检测等方面。而单目标跟踪是给出跟踪视频第一帧中目标的边界框,然后预测目标在后续帧中的边界框。目前基于深度学习的目标跟踪方法为判别式方法,其开始领先于生成式方法。而基于孪生网络的目标跟踪算法是通过端到端来训练模型,通过将目标跟踪表示为交叉相关问题。目前基于孪生网络的目标跟踪算法有较高的平均期望重叠率和准确率,同时可以实现实时的目标跟踪。
基于孪生网络的目标跟踪算法虽然已经有较高的平均期望重叠率和准确率,但是即使是最先进的跟踪算法SiamRPN++,其鲁棒性依然比VOT2018的冠军MFT差很多。目前的基于孪生网络的目标跟踪在遮挡、尺寸变化、运动变化、相机运动这4类属性上鲁棒性低。
因此,现有技术有待于进一步的改进。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于为用户提供一种基于注意力机制与孪生网络的目标跟踪方法及相关设备,克服现有技术中跟踪算法在多个类属性上鲁棒性低,导致目标跟踪结果的准确度不稳定的缺陷。
本发明解决技术问题所采用的技术方案如下:
第一方面,本实施例公开了一种基于注意力机制与孪生网络的目标跟踪方法,其中,包括步骤:
获取目标模板和搜索区域;
将所述目标模板和搜索区域分别输入至预设的目标跟踪模型,通过预设的目标跟踪模型输出目标模板在所述搜索区域中的目标跟踪信息;其中,所述目标跟踪模型中包含孪生网络,并且孪生网络中的残差学习单元中设置有通道注意力模块和/或空间注意力模块。
可选的,所述残差学习单元中还设置有残差模块;所述孪生网络还包括区域提议网络单元;
将所述目标模板和搜索区域分别输入至预设的目标跟踪模型,通过预设的目标跟踪模型输出目标模板在所述搜索区域中的目标跟踪信息的步骤包括:
将所述目标模板和搜索区域分别输入至孪生网络两个分支的所述残差模块,通过所述残差模块提取与所述目标模板对应的目标模板特征和与所述搜索区域对应的搜索区域特征;
将所述目标模板特征和搜索区域特征对应输入其所在孪生网络分支的所述通道注意力模块和/或空间注意力模块,通过所述通道注意力模块提取与所述目标模板特征和搜索区域特征对应的通道注意力特征图,和/或通过空间注意力模块提取与所述目标模板特征和搜索区域特征对应的空间注意力特征图;
将所述通道注意力特征图和/或空间注意力特征图输入到所述区域提议网络单元,通过所述区域提议网络单元得到所述目标模板在所述搜索区域中的目标跟踪信息。
可选的,所述通道注意力模块包括压缩子单元和激励子单元;
将所述目标模板和搜索区域对应输入其所在孪生网络分支的所述通道注意力模块和/或空间注意力模块,通过所述通道注意力模块提取与所述目标模板特征和搜索区域特征对应的通道注意力特征图的步骤包括:
将所述目标模板特征和搜索区域特征分别输入压缩子单元,通过压缩子单元的压缩操作,获取压缩后的目标模板特征和搜索区域特征;
将压缩后的目标模板特征和搜索区域特征输入所述激励子单元,利用激励子单元中预设的激活函数的输出对所述目标模板特征和搜索区域特征进行点乘,得到所述激励子单元输出的所述通道注意力特征图。
可选的,所述空间注意力模块包括若干个用于提取不同空间特征的特征提取组;其中各个特征提取组包括:局部特征提取单元、全局语义特征提取单元和运算单元;
所述将所述目标模板特征和搜索区域特征分别输入其所在孪生网络分支的所述通道注意力模块和/或空间注意力模块,通过所述空间注意力模块提取与所述目标模板特征和搜索区域特征对应的空间注意力特征图的步骤包括:
将所述目标模板特征和搜索区域特征、或所述激励子单元输出的所述通道注意力特征图分别依次输入各个局部特征提取单元,通过各个特征提取子单元获取提取局部特征;
将各个局部特征输入所述全局语义特征提取单元,通过所述全局语义特征提取单元进行全局平均池化,获取到全局语义特征;
所述运算单元将所述全局语义特征与所述局部特征点乘后,对各个特征对应的系数,并对系数进行归一化处理,得到单通道特征;
所述单通道特征经过激活函数,再用激活函数的输出与各个所述局部特征进行点乘,输出得到多个空间注意力特征图。
可选的,所述将所述通道注意力特征图和/或空间注意力特征图输入到所述区域提议网络单元,通过所述区域提议网络单元得到所述目标模板和搜索区域中的目标跟踪信息的步骤包括:
将所述通道注意力特征图和/或空间注意力特征图输入所述区域提议网络单元,依次经过非共享权值的卷积、深度交叉相关运算、边框回归分支或分类分支后,得到边框回归结果和特征分类结果。
可选的,所述区域提议网络单元的个数为多个;
各个区域提议网络单元输入的特征图,为残差模块中不同卷积层输出的目标模板特征或搜索区域特征输入到所述通道注意力模块或所述空间注意力模块后,输出的通道注意力特征图或空间注意力特征图。
可选的,所述将所述通道注意力特征图和/或空间注意力特征图输入所述区域提议网络单元,依次经过非共享权值的卷积、深度交叉相关运算、边框回归分支或分类分支后,得到边框回归结果和特征分类结果的步骤还包括:
获取各个边框回归分支和分类分支输出的边框回归信息和特征分类信息;
将各个区域提议网络单元输出的边框回归信息和特征分类信息加权,得到边框回归结果和特征分类结果。
第二方面,本实施例还提供了一种基于注意力机制与孪生网络的目标跟踪系统,其中,包括:
对象获取模块,用于获取目标模板和搜索区域;
目标跟踪模块,用于将所述目标模板和搜索区域输入至预设的目标跟踪模型,通过预设的目标跟踪模型输出目标模板在所述搜索区域中的目标跟踪信息;其中,所述目标跟踪模型中包含孪生网络,并且孪生网络中的残差学习单元中设置有通道注意力模块和/或空间注意力模块。
第三方面,本实施例还公开了一种电子设备,包括存储器和处理器,所述存储器存储有可被所述处理器执行的计算机可读程序,其中,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现所述的目标跟踪方法中的步骤。
第四方面,本实施例还公开了一种计算机可读存储介质,其中,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,实现所述的目标跟踪方法中的步骤。
有益效果,本发明提供了一种基于注意力机制与孪生网络的目标跟踪方法及相关设备,通过在残差网络中加入通道注意力模块和/或空间注意力模块,显著提高了孪生跟踪算法的平均期望重叠率和鲁棒性,改善跟踪中的运动变化、相机运动、遮挡、尺寸变化属性,利用本实施例提供的目标跟踪方法及相关设备进行目标跟踪,可以获取到较准确的目标跟踪结果。
附图说明
图1是本发明提供的一种基于注意力机制与孪生网络的目标跟踪方法的步骤流程图;
图2是本发明提供的目标跟踪模型的网络结构示意图;
图3是本发明提供的目标跟踪模型中信息处理的流程示意图;
图4是本发明提供的通道注意力模块的结构示意图;
图5是本发明提供的空间注意力模块的结构示意图;
图6是本发明提供的区域提议网络单元的结构示意图;
图7是本发明提供的一种电子设备的原理结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
由于现有技术中的目标跟踪方法所使用的目标跟踪算法在多种类型的属性上鲁棒性比较差,因此为了提高目标跟踪算法的鲁棒性,本发明提供了一种加入了注意力机制的目标跟踪算法以及利用本发明所提出的目标跟踪算法进行目标跟踪的方法。
本实施例公开了一种基于注意力机制与孪生网络的目标跟踪方法,如图1所示,包括步骤:
步骤S1、获取目标模板和搜索区域。
本步骤的执行主体可以为设备终端也可以为服务器,设备终端可以为移动终端也可以为计算机,当设备终端或服务器获取所述目标模板和搜索区域时,可以有很多获取图像的方式。所述获取所述目标模板和搜索区域的方式可以为接收另一个终端设备发送的所述目标模板和搜索区域,其接收的方式可以通过有线网络连接的方式也可以通过无线网络连接的方式实现,例如:通过通信网络连接,将手机中的一张图片传输到电脑上,通过wifi模块或蓝牙模块将手机拍摄的照片传输到电脑上,另外终端设备获取所述目标模板和搜索区域的方式还可以由终端设备自身的摄像头直接采集到所述目标模板和搜索区域,或从其内存中提取一张图片作为待检侧图像。
所述目标模板和搜索区域中携带目标物体,比如:所述目标物体可以为人脸图像,其中目标物体可以为多个,比如:所含有人脸的个数可以为1个也可以为多个。
步骤S2、将所述目标模板和搜索区域分别输入至预设的目标跟踪模型,通过预设的目标跟踪模型输出目标模板在所述搜索区域中的目标跟踪信息;其中,所述目标跟踪模型中包含孪生网络,并且孪生网络中的残差学习单元中设置有通道注意力模块和/或空间注意力模块。
将上述步骤S1中获取到的所述目标模板和搜索区域输入到目标跟踪模型,通过所述目标跟踪模型得到对所述目标模板和搜索区域中目标物体的跟踪结果。
具体的,本步骤中所使用的目标跟踪模型中含有两个网络分支,一个为目标模板对应的网络分支,另一个为搜索区域对应的网络分支,两个网络分支的互相关操作来产生相似性图,因此本步骤中是将目标模板输入到其中一个网络分支,将搜索区域输入都另一个网络分支。具体的,本实施例中所述目标跟踪模型采用的CS-SiamRPN++,给目标模板对应的网络分支和搜索区域对应的网络分支均增加了通道注意力模块和空间注意力模块。其中,所述CS-SiamRPN++网络结构采用孪生网络,目标模板对应的网络分支和搜索区域对应的网络分支的骨干网络是完全一样的。本发明提出的CS-SiamRPN++的框架图如图1和图2所示。CS-SiamRPN++以SiamRPN++为基础网络,上下两个分支分别用于提取目标模板以及搜索区域的特征,其中,目标模板表示要跟踪的目标物体,也就是标签,而搜索区域表示预测要跟踪的目标物体,也就是从搜索区域中找到与标签最相似的目标物体来跟踪。
具体的,各个所述残差学习单元中还设置有残差模块;所述孪生网络还包括区域提议网络单元,则每个网络分支均包括:残差学习单元和区域提议网络单元,其中,所述残差学习单元包括:残差模块、通道注意力模块和/或空间注意力模块。
在具体应用中,所述通道注意力模块和空间注意力模块可以同时加入残差学习单元中,也可以两者选其中一个添加到残差学习单元中。为了获取到更好的目标追踪效果,在所述残差学习单元中,还可以增加其他注意力模块。
较佳的,本发明提出给基于孪生网络的目标跟踪SiamRPN++的残差网络的每一个残差学习单元,先加入SENet通道注意力模块,再加入SGE空间注意力模块,可以想到的是,基于孪生网络的目标跟踪SiamRPN++的残差网络的每一个残差学习单元,还可以先加入SGE空间注意力模块,再加入SENet通道注意力模块,或者每个残差学习单元中只加入SENet通道注意力模块,或者每个残差学习单元中只加入SGE空间注意力,或者基于孪生网络的目标跟踪SiamRPN++加入其它通道注意力模块,其它空间注意力模块,其它多层次注意力模块,其它多尺度注意力模块,将各种注意力模块进行各种组合。
上述步骤S2将目标模板和搜索区域输入至预设的目标跟踪模型,通过预设的目标跟踪模型输出目标模板在所述搜索区域中的目标跟踪信息的步骤包括:
步骤S21、将所述目标模板和搜索区域输入到所述残差模块,通过所述残差模块提取所述目标模板和搜索区域的目标模板特征和搜索区域特征。
首先将所述目标模板和搜索区域输入到残差模块,通过两个网络分支的所述残差模块分别提取到目标模板特征和搜索区域特征。
具体的,所述两个网络分支均含有残差模块、各个残差模块均包括多个卷积层,因此本步骤中是将目标模板输入其所在网络分支中的残差模块的卷积层中,经过多个卷积层的卷积处理后,得到与目标模板对应的目标模板特征,同样的,将所述搜索区域输入到其所在网络分支中的残差模块,通过所述残差模块的卷积层输出与搜索区域对应的搜索区域特征。
步骤S22、将所述目标模板特征和搜索区域特征分别输入所述通道注意力模块和/或空间注意力模块,通过所述通道注意力模块和/或空间注意力模块提取所述通道注意力特征图和/或空间注意力特征图。
当所述目标模板特征和搜索区域特征输入至所述通道注意力模块和/或空间注意力模块后,通过所述通道注意力模块和/或空间注意力模块可得到与其相对应的通道注意力特征图和/或空间注意力特征图。
进一步的,所述通道注意力模块包括压缩子单元和激励子单元;
具体的,将所述目标模板特征和搜索区域特征对应输入其所在孪生网络分支的所述通道注意力模块和/或空间注意力模块,通过所述通道注意力模块提取与所述目标模板特征和搜索区域特征对应的通道注意力特征图的步骤包括:
步骤221、将所述目标模板特征和搜索区域特征分别输入压缩子单元,通过压缩子单元的压缩操作,获取压缩后的目标模板特征和搜索区域特征;
步骤222、将压缩后的目标模板特征和搜索区域特征输入所述激励子单元,利用激励子单元中预设的激活函数的输出对所述目标模板特征和搜索区域特征进行点乘,得到所述激励子单元输出的所述通道注意力特征图。
结合图2-图4所示,所述SENet通道注意力模块输入的特征I∈RH*W*C,H和W是输入特征图大小,C是通道的个数,先经过压缩操作,再经过激励操作,再经过通道级相乘,输出特征O∈RH*W*C,其中输入特征可以表示为I=[i1,i2,...,iC],1*1*C表示经过压缩操作后获得的特征向量。
通过压缩输入的特征I的空间维度H*W变成统计量x∈Rc,H和W是前一层输入特征图的大小,x的第c元素是xc,其公式如下,xc是经过压缩操作后获得的特征向量中的元素:
再经过激励操作来捕获通道的依赖性,Sigmoid激活函数s的公式如下:
δ=σ(g(x,W))=σ(W2δ(W1x)) (2)
oc=scic (3)
其中,O=[o1,o2,...,oc],表示sc与ic的通道级相乘的结果,oc表示第C个输出特征,sc表示第C个激活函数,ic表示第C个输入特征。
进一步的,所述空间注意力模块包括若干个用于提取不同空间特征的特征提取组;其中各个特征提取组包括:局部特征提取单元、全局语义特征提取单元和运算单元;
所述将所述目标模板特征和搜索区域特征对应输入其所在孪生网络分支的所述通道注意力模块和/或空间注意力模块,通过空间注意力模块提取与所述目标模板特征和搜索区域特征对应的空间注意力特征图的步骤包括:
步骤S223、将目标模板特征和搜索区域特征、或所述激励子单元输出的所述通道注意力特征图分别依次输入各个局部特征提取单元,通过各个特征提取子单元获取提取局部特征;
步骤S224、将各个局部特征输入所述全局语义特征提取单元,通过所述全局语义特征提取单元进行全局平均池化,获取到全局语义特征;
步骤S225、所述运算单元将所述全局语义特征与所述局部特征点乘后,对各个特征对应的系数,并对系数进行归一化处理,得到单通道特征;
步骤S226、所述单通道特征经过激活函数,再用激活函数的输出与各个所述局部特征进行点乘,输出得到多个空间注意力特征图。
SGE空间注意力模块可以使每个单独的组可以自主地增强其学习的表达并抑制噪声,SGE空间注意力网络的结构如图5所示。对于输入特征(标模板特征和搜索区域特征或通道注意力特征图),SGE空间注意力模块将其分成G组,每个组分别用于提取不同的空间特征,每组处理的数据不一样,组的个数G是超参数,通过调参获得最高的平均期望重叠率和鲁棒性来确定的,每组在每个空间位置上都有向量表示z={z1...m},zi为局部特征,m=H*W,C是通道的个数,H和W是前一层输入特征图的大小,然后通过全局平均池化来表示全局语义特征g,g的公式如下:
通过测量全局语义特征g与局部特征zi间的相似性,即通过点乘操作,以获得特征相应的系数ci,ci的公式如下:
ci=g·zi (5)
然后对系数c进行归一化处理:
然后单通道特征ai经过sigmoid激活函数,再用激活函数的输出与局部特征zi进行点乘,得到输出特征ui,也就是第二次点乘之后的分组是输出特征ui:
ui=zi·σ(ai) (8)
步骤S23、将所述通道注意力特征图和/或空间注意力特征图输入到所述区域提议网络单元,通过所述区域提议网络单元得到目标模板在所述搜索区域中的目标跟踪信息。
所述通道注意力特征图或者空间注意力特征图输入到区域提议网络单元,所述区域提议网络单元对其进行卷积和回归分类后,得到边框回归结果和特征分类结果。
具体的,所述将所述通道注意力特征图和/或空间注意力特征图输入到所述区域提议网络单元,通过所述区域提议网络单元得到目标模板在所述搜索区域中的目标跟踪信息的步骤包括:
将所述通道注意力特征图和/或空间注意力特征图输入所述区域提议网络单元,经过非共享权值的卷积,再逐通道进行共享权值的深度交叉相关运算、再分别经过边框回归分支和分类分支,得到边框回归结果和特征分类结果。
结合图3和6所示,所述区域提议网络单元的个数为多个;本实施例中采用三个。从目标模板对应网络分支的空间注意力模块输出的注意力特征图分别输入到两个区域提议网络单元的卷积中,比如:第一卷积层和第三卷积层。从搜索区域对应网络分支的空间注意力模块输出的注意力特征图分别输入到两个区域提议网络单元的卷积中,比如:第二卷积层和第四卷积层,目标模板输出的空间注意力特征图与搜索区域输出的空间注意特征图输入的两个卷积不同。从目标模板输出的空间注意力特征图与搜索区域输出的空间注意特征图输入到第一卷积层和第二卷积层,通过所述第一卷积层和第二卷积层输出的特征输入到第一深度交叉相关卷积层,通过第一深度交叉相关卷积层进行共享权值的卷积运算,经过卷积运算后,输入到边框回归分支,获取到边框回归结果。另一方面,从目标模板输出的空间注意力特征图与搜索区域输出的空间注意特征图输入到第三卷积层和第四卷积层,通过所述第三卷积层和第四卷积层输出的特征输入到第二深度交叉相关卷积层,通过第二深度交叉相关卷积层进行共享权值的卷积运算,经过卷积运算后,输入到分类分支,获取到特征分类结果。
在一种实施方式中,残差模块中含有卷积conv2,conv3,conv4,conv5,分别将卷积conv2,conv3,conv4,conv5引入SENet通道注意力模块和SGE空间注意力模块,先给残差网络的每一个残差学习单元,先加入通道注意力模块,再加入空间注意力模块,然后分别将conv3,conv4,conv5中SGE的输出特征馈入孪生网络区域提议网络模块上进行加权求和。如图3所示,在孪生网络中设置有三个孪生网络区域提议网络单元,第一个孪生网络区域提议网络的输入是残差网络的conv3的中SGE的输出特征,第二个孪生网络区域提议网络的输入是残差网络的conv4的中SGE的输出特征,第三个孪生网络区域提议网络的输入是残差网络的conv5的中SGE的输出特征。
进一步的,所述将所述通道注意力特征图和/或空间注意力特征图输入所述区域提议网络单元,经过非共享权值的卷积,再逐通道进行深度交叉相关运算、再分别经过边框回归分支和分类分支,得到边框回归结果和特征分类结果的步骤还包括:
将各个区域提议网络单元输出的边框回归信息和特征分类信息加权,得到边框回归结果和特征分类结果。
每一个孪生网络区域提议网络的输出都是边框回归成绩和分类成绩,CS-SiamRPN++最终的输出是三个孪生网络区域提议网络的加权边框回归成绩和加权分类成绩,下面S是分类成绩,B是边界框回归成绩,α以及β是权重,α以及β的大小都是0.33,公式如下:
CS-SiamRPN++中的孪生网络区域提议网络结构如图6所示。先分别将目标模板分支以及搜索分支的conv3,conv4,conv5中SGE的空间注意力模块的输出特征馈入孪生网络区域提议网络结构,然后经过非共享权值的卷积,再逐通道进行深度交叉相关运算,深度交叉相关运算也是指卷积操作。再分别经过边框回归分支和分类分支,分别得到边框回归成绩和分类成绩。孪生网络区域提议网络中各模块的参数需要迭代训练,CS-SiamRPN++输出有分类以及回归分支,分类的本质是使得分类分得更加准确,边框回归的本质是检测框更加准确。在分类中,输入是深度交叉相关特征,输出是k个锚(anchor)的前背景的2k个通道。而在回归分支中,输入是深度交叉相关特征,输出是k个锚的dx,dy,dw,dh的4k个通道。
本发明的结构显著提高了孪生跟踪算法的平均期望重叠率和鲁棒性,本发明提出的CS-SiamRPN++在VOT2016数据集的结果如表1所示,平均期望重叠率的值越大性能越好,鲁棒性的值越小性能越好,准确率的值越大性能越好:
表1:各跟踪算法在VOT2016数据集的比较
平均期望重叠率 | 准确率 | 鲁棒性 | |
SiamRPN++ | 0.464 | 0.642 | 0.196 |
CS-SiamRPN++ | 0.501 | 0.643 | 0.149 |
本发明提出的CS-SiamRPN++在VOT2018数据集的结果如表2所示:
表2:各跟踪算法在VOT2018数据集的比较
平均期望重叠率 | 准确率 | 鲁棒性 | |
SiamRPN++ | 0.414 | 0.600 | 0.234 |
CS-SiamRPN++ | 0.437 | 0.603 | 0.183 |
本实施例公开了一种基于注意力机制与孪生网络的目标跟踪系统,其中,包括:
对象获取模块,用于获取所述目标模板和搜索区域;
目标跟踪模块,用于将所述目标模板和搜索区域输入至预设的目标跟踪模型,通过预设的目标跟踪模型输出目标模板在所述搜索区域中的目标跟踪信息;其中,所述目标跟踪模型中包含孪生网络,并且孪生网络中的残差学习单元中设置有通道注意力模块和/或空间注意力模块。
基于上述目标跟踪方法,本发明还提供了一种电子设备,如图7所示,其包括至少一个处理器(processor)20;显示面板21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示面板21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示面板21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
本发明提供了一种基于注意力机制与孪生网络的目标跟踪方法及相关设备,通过在残差网络中加入通道注意力模块和/或空间注意力模块,显著提高了孪生跟踪算法的平均期望重叠率和鲁棒性,改善跟踪中的运动变化、相机运动、遮挡、尺寸变化属性,利用本实施例提供的目标跟踪方法及相关设备进行目标跟踪,可以获取到较准确的目标跟踪结果。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (8)
1.一种基于注意力机制与孪生网络的目标跟踪方法,其特征在于,包括步骤:
获取目标模板和搜索区域;
将所述目标模板和搜索区域分别输入至预设的目标跟踪模型,通过预设的目标跟踪模型输出目标模板在所述搜索区域中的目标跟踪信息;其中,所述目标跟踪模型中包含孪生网络,并且孪生网络中的残差学习单元中设置有通道注意力模块和/或空间注意力模块;
所述残差学习单元中还设置有残差模块;所述孪生网络还包括区域提议网络单元;
将所述目标模板和搜索区域分别输入至预设的目标跟踪模型,通过预设的目标跟踪模型输出目标模板在所述搜索区域中的目标跟踪信息的步骤包括:
将所述目标模板和搜索区域分别输入至孪生网络两个分支的所述残差模块,通过所述残差模块提取与所述目标模板对应的目标模板特征和与所述搜索区域对应的搜索区域特征;
将所述目标模板特征和搜索区域特征对应输入其所在孪生网络分支的所述通道注意力模块和/或空间注意力模块,通过所述通道注意力模块提取与所述目标模板特征和搜索区域特征对应的通道注意力特征图,和/或通过空间注意力模块提取与所述目标模板特征和搜索区域特征对应的空间注意力特征图;
将所述通道注意力特征图和/或空间注意力特征图输入到所述区域提议网络单元,通过所述区域提议网络单元得到所述目标模板在所述搜索区域中的目标跟踪信息;
所述通道注意力模块包括压缩子单元和激励子单元;
将所述目标模板和搜索区域对应输入其所在孪生网络分支的所述通道注意力模块和/或空间注意力模块,通过所述通道注意力模块提取与所述目标模板特征和搜索区域特征对应的通道注意力特征图的步骤包括:
将所述目标模板特征和搜索区域特征分别输入压缩子单元,通过压缩子单元的压缩操作,获取压缩后的目标模板特征和搜索区域特征;
将压缩后的目标模板特征和搜索区域特征输入所述激励子单元,利用激励子单元中预设的激活函数的输出对所述目标模板特征和搜索区域特征进行点乘,得到所述激励子单元输出的所述通道注意力特征图。
2.根据权利要求1所述的基于注意力机制与孪生网络的目标跟踪方法,其特征在于,所述空间注意力模块包括若干个用于提取不同空间特征的特征提取组;其中各个特征提取组包括:局部特征提取单元、全局语义特征提取单元和运算单元;
所述将所述目标模板特征和搜索区域特征分别输入其所在孪生网络分支的所述通道注意力模块和/或空间注意力模块,通过所述空间注意力模块提取与所述目标模板特征和搜索区域特征对应的空间注意力特征图的步骤包括:
将所述目标模板特征和搜索区域特征、或所述激励子单元输出的所述通道注意力特征图分别依次输入各个局部特征提取单元,通过各个特征提取子单元获取提取局部特征;
将各个局部特征输入所述全局语义特征提取单元,通过所述全局语义特征提取单元进行全局平均池化,获取到全局语义特征;
所述运算单元将所述全局语义特征与所述局部特征点乘以获得各个特征对应的系数,并对系数进行归一化处理,得到单通道特征;
所述单通道特征经过激活函数,再用激活函数的输出与各个所述局部特征进行点乘,输出得到多个空间注意力特征图。
3.根据权利要求2所述的基于注意力机制与孪生网络的目标跟踪方法,其特征在于,所述将所述通道注意力特征图和/或空间注意力特征图输入到所述区域提议网络单元,通过所述区域提议网络单元得到所述目标模板在所述搜索区域中的目标跟踪信息的步骤包括:
将所述通道注意力特征图和/或空间注意力特征图输入所述区域提议网络单元,依次经过非共享权值的卷积、深度交叉相关运算、边框回归分支或分类分支后,得到边框回归结果和特征分类结果。
4.根据权利要求2所述的基于注意力机制与孪生网络的目标跟踪方法,其特征在于,所述区域提议网络单元的个数为多个;
各个区域提议网络单元输入的特征图,为残差模块中不同卷积层输出的目标模板特征或搜索区域特征输入到所述通道注意力模块或所述空间注意力模块后,输出的通道注意力特征图或空间注意力特征图。
5.根据权利要求4所述的基于注意力机制与孪生网络的目标跟踪方法,其特征在于,所述将所述通道注意力特征图和/或空间注意力特征图输入所述区域提议网络单元,依次经过非共享权值的卷积、深度交叉相关运算、边框回归分支或分类分支后,得到边框回归结果和特征分类结果的步骤还包括:
获取各个边框回归分支和分类分支输出的边框回归信息和特征分类信息;
将各个区域提议网络单元输出的边框回归信息和特征分类信息加权,得到边框回归结果和特征分类结果。
6.一种基于注意力机制与孪生网络的目标跟踪系统,其特征在于,包括:
对象获取模块,用于获取目标模板和搜索区域;
目标跟踪模块,用于将所述目标模板和搜索区域输入至预设的目标跟踪模型,通过预设的目标跟踪模型输出目标模板在所述搜索区域中的目标跟踪信息;其中,所述目标跟踪模型中包含孪生网络,并且孪生网络中的残差学习单元中设置有通道注意力模块和/或空间注意力模块;
所述残差学习单元中还设置有残差模块;所述孪生网络还包括区域提议网络单元;
将所述目标模板和搜索区域分别输入至预设的目标跟踪模型,通过预设的目标跟踪模型输出目标模板在所述搜索区域中的目标跟踪信息的步骤包括:
将所述目标模板和搜索区域分别输入至孪生网络两个分支的所述残差模块,通过所述残差模块提取与所述目标模板对应的目标模板特征和与所述搜索区域对应的搜索区域特征;
将所述目标模板特征和搜索区域特征对应输入其所在孪生网络分支的所述通道注意力模块和/或空间注意力模块,通过所述通道注意力模块提取与所述目标模板特征和搜索区域特征对应的通道注意力特征图,和/或通过空间注意力模块提取与所述目标模板特征和搜索区域特征对应的空间注意力特征图;
将所述通道注意力特征图和/或空间注意力特征图输入到所述区域提议网络单元,通过所述区域提议网络单元得到所述目标模板在所述搜索区域中的目标跟踪信息;
所述通道注意力模块包括压缩子单元和激励子单元;
将所述目标模板和搜索区域对应输入其所在孪生网络分支的所述通道注意力模块和/或空间注意力模块,通过所述通道注意力模块提取与所述目标模板特征和搜索区域特征对应的通道注意力特征图的步骤包括:
将所述目标模板特征和搜索区域特征分别输入压缩子单元,通过压缩子单元的压缩操作,获取压缩后的目标模板特征和搜索区域特征;
将压缩后的目标模板特征和搜索区域特征输入所述激励子单元,利用激励子单元中预设的激活函数的输出对所述目标模板特征和搜索区域特征进行点乘,得到所述激励子单元输出的所述通道注意力特征图。
7.一种电子设备,包括存储器和处理器,所述存储器存储有可被所述处理器执行的计算机可读程序,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~5任一项所述的目标跟踪方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,实现如权利要求1~5任一项所述的目标跟踪方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911378722.XA CN111192292B (zh) | 2019-12-27 | 2019-12-27 | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911378722.XA CN111192292B (zh) | 2019-12-27 | 2019-12-27 | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111192292A CN111192292A (zh) | 2020-05-22 |
CN111192292B true CN111192292B (zh) | 2023-04-28 |
Family
ID=70707658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911378722.XA Active CN111192292B (zh) | 2019-12-27 | 2019-12-27 | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111192292B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111640136B (zh) * | 2020-05-23 | 2022-02-25 | 西北工业大学 | 一种复杂环境中的深度目标跟踪方法 |
CN111753667B (zh) * | 2020-05-27 | 2024-05-14 | 江苏大学 | 一种基于孪生网络的智能汽车单目标跟踪方法 |
CN111696137B (zh) * | 2020-06-09 | 2022-08-02 | 电子科技大学 | 一种基于多层特征混合与注意力机制的目标跟踪方法 |
CN111899283B (zh) * | 2020-07-30 | 2023-10-17 | 北京科技大学 | 一种视频目标跟踪方法 |
CN111967399A (zh) * | 2020-08-19 | 2020-11-20 | 辽宁科技大学 | 一种基于改进的Faster RCNN行为识别方法 |
CN112164094A (zh) * | 2020-09-22 | 2021-01-01 | 江南大学 | 一种基于孪生网络的快速视频目标跟踪方法 |
CN112132856B (zh) * | 2020-09-30 | 2024-05-24 | 北京工业大学 | 一种基于自适应模板更新的孪生网络跟踪方法 |
CN112258557B (zh) * | 2020-10-23 | 2022-06-10 | 福州大学 | 一种基于空间注意力特征聚合的视觉跟踪方法 |
CN112560656B (zh) * | 2020-12-11 | 2024-04-02 | 成都东方天呈智能科技有限公司 | 一种联合注意力机制端到端训练的行人多目标跟踪方法 |
CN112560695B (zh) * | 2020-12-17 | 2023-03-24 | 中国海洋大学 | 水下目标跟踪方法、系统、存储介质、设备、终端及应用 |
CN112785624B (zh) * | 2021-01-18 | 2023-07-04 | 苏州科技大学 | 基于孪生网络的rgb-d特征目标跟踪方法 |
CN113344971B (zh) * | 2021-05-21 | 2023-03-28 | 河南科技大学 | 一种融合卡尔曼滤波的孪生红外目标跟踪方法 |
CN113592900A (zh) * | 2021-06-11 | 2021-11-02 | 安徽大学 | 一种基于注意力机制与全局推理的目标跟踪方法及系统 |
CN113496210B (zh) * | 2021-06-21 | 2024-02-02 | 西安理工大学 | 基于注意力机制的光伏组串跟踪及故障跟踪方法 |
CN113689464B (zh) * | 2021-07-09 | 2024-09-06 | 西北工业大学 | 一种基于孪生网络的自适应多层响应融合的目标跟踪方法 |
CN113283407A (zh) * | 2021-07-22 | 2021-08-20 | 南昌工程学院 | 一种基于通道与空间注意力机制的孪生网络目标跟踪方法 |
CN113705588B (zh) * | 2021-10-28 | 2022-01-25 | 南昌工程学院 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
CN115147456B (zh) * | 2022-06-29 | 2023-04-28 | 华东师范大学 | 一种基于时序自适应卷积与注意力机制的目标跟踪方法 |
CN115601318B (zh) * | 2022-10-10 | 2023-05-02 | 广东昱升个人护理用品股份有限公司 | 快吸收低反渗纸尿裤智能生产方法及其系统 |
CN115661207B (zh) * | 2022-11-14 | 2023-03-31 | 南昌工程学院 | 基于空间一致性匹配与权重学习的目标跟踪方法与系统 |
CN116152298B (zh) * | 2023-04-17 | 2023-08-29 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116645399B (zh) * | 2023-07-19 | 2023-10-13 | 山东大学 | 基于注意力机制的残差网络目标跟踪方法及系统 |
CN116934796B (zh) * | 2023-07-20 | 2024-08-06 | 河南大学 | 基于孪生残差注意力聚合网络的视觉目标跟踪方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978921A (zh) * | 2019-04-01 | 2019-07-05 | 南京信息工程大学 | 一种基于多层注意力机制的实时视频目标跟踪算法 |
CN110335290A (zh) * | 2019-06-04 | 2019-10-15 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
-
2019
- 2019-12-27 CN CN201911378722.XA patent/CN111192292B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978921A (zh) * | 2019-04-01 | 2019-07-05 | 南京信息工程大学 | 一种基于多层注意力机制的实时视频目标跟踪算法 |
CN110335290A (zh) * | 2019-06-04 | 2019-10-15 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111192292A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111192292B (zh) | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 | |
WO2021043168A1 (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN110378264B (zh) | 目标跟踪方法及装置 | |
CN109325589B (zh) | 卷积计算方法及装置 | |
EP4156017A1 (en) | Action recognition method and apparatus, and device and storage medium | |
CN111539290B (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
CN109446889B (zh) | 基于孪生匹配网络的物体追踪方法及装置 | |
US20190073553A1 (en) | Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model | |
CN109117781B (zh) | 多属性识别模型的建立方法、装置及多属性识别方法 | |
CN112016682B (zh) | 视频表征学习、预训练方法及装置、电子设备、存储介质 | |
CN110176024B (zh) | 在视频中对目标进行检测的方法、装置、设备和存储介质 | |
CN111667001B (zh) | 目标重识别方法、装置、计算机设备和存储介质 | |
CN112561846A (zh) | 训练图像融合模型的方法、装置和电子设备 | |
CN110378245B (zh) | 基于深度学习的足球比赛行为识别方法、装置及终端设备 | |
US20220108545A1 (en) | Method and device for high-speed image recognition using 3d cnn | |
CN111476310B (zh) | 一种图像分类方法、装置及设备 | |
CN111898735A (zh) | 蒸馏学习方法、装置、计算机设备和存储介质 | |
CN110765882A (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
CN110809126A (zh) | 一种基于自适应可变形卷积的视频帧插值方法及系统 | |
CN114445651A (zh) | 一种语义分割模型的训练集构建方法、装置及电子设备 | |
Niu et al. | Machine learning-based framework for saliency detection in distorted images | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
Sharjeel et al. | Real time drone detection by moving camera using COROLA and CNN algorithm | |
CN111914809B (zh) | 目标对象定位方法、图像处理方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |