CN112348849B - 一种孪生网络视频目标跟踪方法及装置 - Google Patents
一种孪生网络视频目标跟踪方法及装置 Download PDFInfo
- Publication number
- CN112348849B CN112348849B CN202011164003.0A CN202011164003A CN112348849B CN 112348849 B CN112348849 B CN 112348849B CN 202011164003 A CN202011164003 A CN 202011164003A CN 112348849 B CN112348849 B CN 112348849B
- Authority
- CN
- China
- Prior art keywords
- feature
- target
- scale
- representing
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000004044 response Effects 0.000 claims description 73
- 238000011176 pooling Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 28
- 238000010586 diagram Methods 0.000 claims description 24
- 238000009826 distribution Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 12
- 230000004927 fusion Effects 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000220317 Rosa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20056—Discrete and fast Fourier transform, [DFT, FFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明属于视频分析技术领域,公开了一种基于分层注意力机制的孪生网络视频目标跟踪方法。本发明基于孪生网络框架,将高层次特征与低层次特征融合起来,并且在提取特征的过程中,使用了注意力机制对特征图进行重标定,使用AdaBoost算法对目标特征图进行加权融合。本发明还使用了Inception模块,一方面增加了网络的宽度以及孪生网络对尺度的适应性,另一方面还减少了参数,提高了网络训练的速度。在进行目标尺度估计时,本发明使用了基于区域的快速HOG特征提取算法。相比现有技术,本发明方法既能够精确跟踪目标,又能有效地提高跟踪速度。
Description
技术领域
本发明涉及一种基于分层注意力机制的孪生网络视频目标跟踪方法,属于视频分析领域。
背景技术
视频目标跟踪是计算机视觉的研究热点之一,在人机交互、军事侦察、无人驾驶以及安防等诸多方面有着广泛的应用前景。
相关滤波器由于其计算速度快,可以使目标跟踪达到实时。但相关滤波使用的手工特征,由于特征表达能力有限,在复杂环境下的目标跟踪能力有限。随着深度学习的兴起,研究人员开始将深度网络学习获得的特征应用到相关滤波中。例如,Ma等通过分析VGG-19的网络特征,提出了一种分层卷积特征(Hierarchical Convolutional Features,HCF)方法。该方法研究发现高层特征反映目标的语义信息,对目标更加鲁棒,而低层特征反映目标的细节信息,对目标的定位更加精确,后来,研究人员使用深度学习框架实现了端对端的目标跟踪,跟踪结果不断精确,但由于训练参数巨大,实时性受到影响。
虽然在过去几十年该技术的研究取得了很大的进展,但由于在实际的跟踪环境下,目标会受到背景杂波、尺度变化以及遮挡等复杂情形的影响,因此设计一个准确、高效、鲁棒地跟踪器始终具有重要的应用价值。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于分层注意力机制的孪生网络视频目标跟踪方法,解决在视频目标跟踪中,目标受到背景杂波等复杂环境的影响,会出现目标漂移或跟踪实时性下降,并且还要考虑目标尺度变化的技术问题。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于分层注意力机制的孪生网络视频跟踪方法,所述方法包括以下步骤:
步骤1、读取并预处理网络输入的模板图像和搜索图像;
步骤2、将预处理后的模板图像和搜索图像分别输入到训练好的孪生网络模型中,经过Inception模块以及卷积层的特征提取模块分别得到模板图像和搜索图像的特征图;
所述孪生网络模型包括模板分支和搜索分支,模板分支和搜索分支特征提取模块分别提取特征,模板分支上加入注意力模块进行特征重标定;
步骤3、通过模板分支网络第三卷积层提取低层特征,通过模板分支网络第五卷积层提取高层特征,将所述低层特征与所述高层特征分别通过注意力模块;
步骤4、将模板分支通过注意力模块的特征与搜索分支得到的特征进行相关操作,得到各层对应的响应图,再将各层响应图采用AdaBoost算法进行融合得到最终响应图,进而得到目标位置;
步骤5、在目标位置的基础上利用尺度滤波器进行尺度估计,通过设置尺度池,训练尺度滤波器选出最优尺度大小;
步骤6、根据最优尺度大小更新尺度滤波器;
步骤7、判断当前帧是否是最后一帧,如果是,则结束,否则读取新一帧搜索图像并跳转步骤1。
进一步的,所述方法的步骤还包括:构建并训练孪生网络模型;
所述孪生网络模型的构建方法为:
构建原孪生网络模型,包括模板分支和搜索分支,所述模板分支和搜索分支均包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层,将原孪生网络模型的模板分支的第一卷积层用Inception模块进行替换,然后将第三、第五卷积层之后加上注意力模块,将相关滤波器加到原孪生网络模型的模板分支的第三卷积层之后;
所述孪生网络模型的训练方法包括:用ImageNet数据集进行训练,得到改进后的网络参数。
进一步的,步骤1中,所述预处理网络输入的模板图像和搜索图像的方法包括:
根据给定的初始目标框(μ,ν,w,h),(μ,ν)代表目标中心位置的横纵坐标,(ω,h)代表目标的宽度和高度;其中目标的位置为pos(μ,ν),目标的尺度大小为target(w,h),通过以下公式调整模板图像的大小:
s(w+2p)×s(h+2p)=A (1)
其中A是模板图像的大小,值为定值1272像素,s是尺度因子,p是上下文边界;
先将包含上下文信息的(w+2p)×(h+2p)的图片扩展,然后进行尺寸调整,生成大小为127×127像素的模板图像;以相同的方式将搜索图像的大小设置为255×255像素。
进一步的,步骤2中,所述特征图的提取方法包括以下步骤:
为样本X的第l层的特征向量,样本X的第l层大小为M×N×D,RM×N×D表示大小为M×N×D的实数集,M,N和D分别表示样本X的宽度,高度和特征维度;第l层特征的相关滤波器所对应的高斯函数为Gl,样本X的第l层特征的相关滤波器需要最小化按下面公式计算:
样本X通过第l个相关滤波器产生的相关响应图的计算公式为:
其中,F(·)表示进行傅里叶变换,F-1表示傅里叶反变换,-表示复共轭,⊙表示逐像素相乘。
进一步的,步骤3中,将特征图通过注意力模块的方法包括以下步骤:
先将特征图通过通道注意力模块,然后再将特征图通过空间注意力模块;
根据所述最大池化特征和平均池化特征,通过多层感知机网络生成最后的通道注意力图Mc∈Rc×1×1,R表示实数集,通道注意力模块可以用下式来表示:
重标定通道特征F是由通道注意力输出的特征Mc所构成,然后再通过最大池化和平均池化操作分别得到两个不同的特征描述和/>然后使用一个卷积层将两者连接在一起生成最后的二维空间注意力图,用下式来表示重标定通道特征F经过空间注意力模块的计算过程:
进一步的,步骤4中,将通过注意力模块的特征图采用AdaBoost算法进行融合的方法包括以下步骤:
计算出输出响应图与以目标位置为中心的期望高斯分布之间的误差,然后根据这个误差使用AdaBoost算法自适应加权响应图;
其中,abs(·)表示绝对值操作,Mean(·)表示平均值操作,表示第t-1帧第i层特征图位置(x,y)的响应值,gt-1(x,y)表示为目标位置(x,y)的期望高斯分布,然后根据这个误差函数计算出每个响应图在最后的分类器中所占的比例:
其中,εi表示第i层特征图的误差;
最终的响应图为:
其中,αi表示第i层的权重,Ri表示第i层的响应图,Rt表示第t帧特征图的响应值;
所以在t帧时最终的响应图中的目标位置(x,y)为:
Rt表示第t帧特征图的响应值。
进一步的,步骤5中,选出最优尺度大小的方法包括以下步骤:
对得到的目标位置区域进行一个不同尺度的采样,在预测到目标的位置的时候,以这个位置为中心,创建一个多尺度的候选区域:
其中,a是尺度因子,S为候选区域的数量,W×H为上一帧目标框的大小;
并计算其HOG特征ot(n),大小为1×U,给定一维高斯样本标签gs(n),将特征ot(n)转换到频域为Ot(n),其共轭复数为gs(n)转换到频域表示为Gs(n),其共轭复数为则尺度滤波器Kt(n):
其中,λs表示尺度滤波器的正则化参数;
在随后的第t+1帧中确定目标中心点为pt+1(n)之后,以pt+1(n)为中心进行不同尺度的采样,对第n个尺度来说,其HOG特征在频域中表示为Vt(n),则可得到对应的响应图为:
其中,a是尺度因子,wt表示第t帧目标宽度,ht表示第t帧目标高度。
进一步的,在步骤6中,根据最优尺度大小更新尺度滤波器,所述尺度滤波器的更新公式为:
式中,η表示学习率,Ot(n)表示频域特征,-表示复共轭,Gs(n)表示频域的高斯输出,λs表示尺度滤波器的正则化参数。
第二方面,本发明提供了一种基于分层注意力机制的孪生网络视频跟踪装置,包括处理器及存储介质;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行上述方法的步骤。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
1、本发明基于孪生网络框架,将高层次特征与低层次特征融合起来,使用了不同层的特征进行融合,并且在提取特征的过程中,使用了注意力机制对特征图进行重标定,使用AdaBoost算法对目标特征图进行加权融合,提高了响应图的可靠性;
2、本发明同时还引入了尺度估计模块,在检测出目标位置的时候,对目标进行多尺度的缩放;在对目标进行尺度缩放的过程中,本发明使用了基于区域的快速HOG特征提取算法对提取过程进行了加速,使孪生网络能够快速的提取HOG特征,从而加速跟踪的速度。所提出的算法既能够精确跟踪目标,又能有效地提高跟踪速度。
3、本发明还使用了Inception模块,一方面增加了网络的宽度以及孪生网络对尺度的适应性,另一方面还减少了参数,提高了网络训练的速度。
附图说明
图1为本发明的算法流程图;
图2为本发明的网络结构图;
图3为Inception模块图;
图4为注意力模块图;
图5为跟踪性能对比图;
图6为部分跟踪结果图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
本实施例提供一种基于分层注意力机制的孪生网络视频目标跟踪方法,本方法包括以下步骤:
步骤1、读取并预处理网络输入的模板图像和搜索图像;
步骤2、将预处理后的模板图像和搜索图像分别输入到训练好的孪生网络模型中,经过Inception模块以及卷积层的特征提取模块分别得到模板图像和搜索图像的特征图;
所述孪生网络模型分为模板分支和搜索分支,模板分支和搜索分支通过改进后的特征提取模块分别提取特征,模板分支上加入注意力模块进行特征重标定;
步骤3、将模板分支网络第三层提取的低层特征与第五层提取的高层特征分别通过注意力模块;
步骤4、将模板分支通过注意力模块的特征与搜索分支得到的特征进行相关操作,得到各层对应的响应图,再将各层响应图采用AdaBoost算法进行融合得到最终响应图,进而得到目标位置;
步骤5、在目标位置的基础上利用尺度滤波器进行尺度估计,通过设置尺度池,训练尺度滤波器选出最优尺度大小;
步骤6、根据最优尺度大小更新尺度滤波器;
步骤7、判断当前帧是否是最后一帧,如果是,则结束,否则读取新一帧搜索图像并跳转步骤1。
优选地,所述方法的步骤还包括:构建并训练孪生网络模型;
孪生网络分为模板分支和搜索分支,模板分支和搜索分支通过改进后的特征提取模块分别提取特征,模板分支上加入注意力模块进行特征重标定,得到目标位置后通过尺度估计模块得到最佳尺度;
所述孪生网络模型的构建方法为:
构建原孪生网络模型,包括模板分支和搜索分支,模板分支和搜索分支均包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层,将原孪生网络的模板分支的第一卷积层用Inception模块进行替换,然后将第三、第五卷积层之后加上注意力模块,将相关滤波器加到网络的第三层之后;
原始孪生网络用的网络类似于AlexNet,固定的,包括卷积层、池化层、卷积层、池化层、卷积层、卷积层、卷积层。
所述孪生网络模型的训练方法包括:用ImageNet数据集进行训练,得到改进后的网络参数。
具体的,步骤1中,所述预处理网络输入的模板图像和搜索图像的方法包括:
根据给定的初始目标框(μ,ν,w,h),(μ,ν)代表目标中心位置的横纵坐标,(ω,h)代表目标的宽度和高度。其中目标的位置为pos(μ,ν),目标的尺度大小为target(w,h),通过以下公式调整模板图像的大小:
s(w+2p)×s(h+2p)=A (1)
其中A是模板图像的大小,值为定值1272像素,s是尺度因子,p是上下文边界;
先将包含上下文信息的(w+2p)×(h+2p)的图片扩展,然后进行尺寸调整,生成大小为127×127像素的模板图像;以相同的方式将搜索图像的大小设置为255×255像素。
具体的,步骤2中,所述特征图的提取方法包括以下步骤:
为样本X的第l层的特征向量,样本X的第l层大小为M×N×D,RM×N×D表示大小为M×N×D的实数集,M,N和D分别表示样本X的宽度,高度和特征维度;第l层特征的相关滤波器所对应的高斯函数为Gl,样本X的第l层特征的相关滤波器需要最小化按下面公式计算:
样本X通过第l个相关滤波器产生的相关响应图的计算公式为:
其中,F(·)表示进行傅里叶变换,F-1表示傅里叶反变换,-表示复共轭,⊙.表示逐像素相乘。
具体的,步骤3中,将特征图通过注意力模块的方法包括以下步骤:
先将特征图通过通道注意力模块,然后再将特征图通过空间注意力模块;
根据所述最大池化特征和平均池化特征,通过多层感知机网络生成最后的通道注意力图Mc∈Rc×1×1,通道注意力模块可以用下式来表示:
与通道注意力不同,空间注意力主要关注位置信息。重标定通道特征F是由通道注意力输出的特征Mc所构成,然后再通过最大池化和平均池化操作分别得到两个不同的特征描述和/>然后使用一个卷积层将两者连接在一起生成最后的二维空间注意力图,用下式来表示重标定通道特征F经过空间注意力模块Ms(F)的计算过程:
具体的,步骤4中,将通过注意力模块的特征图采用AdaBoost算法进行融合的方法包括以下步骤:
计算出输出响应图与以目标位置为中心的期望高斯分布之间的误差,然后根据这个误差使用AdaBoost算法自适应加权响应图;
其中,abs(·)表示绝对值操作,Mean(·)表示平均值操作,表示第t-1帧第i层特征图位置(x,y)的响应值,gt-1(x,y)表示为目标位置(x,y)的期望高斯分布,然后根据这个误差函数计算出每个响应图在最后的分类器中所占的比例:
其中,εi表示第i层特征图的误差;
最终的响应图为:
其中,αi表示第i层的权重,Ri表示第i层的响应图,Rt表示第t帧特征图的响应值;
所以在t帧时最终的响应图中的目标位置(x,y)为:
Rt表示第t帧特征图的响应值。
具体的,步骤5中,选出最优尺度大小的方法包括以下步骤:
对得到的目标位置区域进行一个不同尺度的采样,在预测到目标的位置的时候,以这个位置为中心,创建一个多尺度的候选区域:
其中,a是尺度因子,S为候选区域的数量,W×H为上一帧目标框的大小;
并计算其HOG特征ot(n),大小为1×U,给定一维高斯样本标签gs(n),将特征ot(n)转换到频域为Ot(n),其共轭复数为gs(n)转换到频域表示为Gs(n),其共轭复数为则尺度滤波器Kt(n):
其中,λs表示尺度滤波器的正则化参数;
在随后的第t+1帧中确定目标中心点为pt+1(n)之后,以pt+1(n)为中心进行不同尺度的采样,对第n个尺度来说,其HOG特征在频域中表示为Vt(n),则可得到对应的响应图为:
通过寻找响应图中响应值最大所对应的n,即可以求得目标的最佳尺度,即:
其中,a是尺度因子,wt表示第t帧目标宽度,ht表示第t帧目标高度。
具体的,在步骤6中,根据最优尺度大小更新尺度滤波器,所述尺度滤波器的更新公式为:
式中,η表示学习率,Ot(n)表示频域特征,-表示复共轭,Gs(n)表示频域的高斯输出,λs表示尺度滤波器的正则化参数。
需要说明的是,本申请中R表示实数集,其右上角的字符代表其大小,如Rc×l×l表示大小为C×1×1的实数集,C为特征图的通道数;RC/r×C为大小为C/r×C的实数集,C为特征图的通道数,r是缩放因子;R1×H×W表示大小为1×H×W的实数集,H和W代表目标的宽度和高度。
实施例二:
本实施例提供一种基于分层注意力机制的孪生网络视频目标跟踪方法,为使本发明的目的、实现方案和优点更为清晰,下面以公开测试集OTB Benchmark中的序列Singer1为例,对本发明的具体实施结合附图说明作进一步的详细描述,具体阐述如下:
本发明提出了一种基于分层注意力机制的孪生网络跟踪方法。本方法将跟踪过程分成了目标位置估计以及目标尺度估计两个部分。使用卷积神经网络进行特征提取,将第三层的特征与第五层的特征进行加权融合,得到跟踪结果。然后利用尺度滤波器进行尺度估计,通过设置尺度池,训练尺度滤波器选出结果最好的那个尺度作为目标的最终尺度大小。
该方法具有以下步骤:
步骤1、调整孪生网络结构并进行训练:
结构调整:将孪生网络第一层的卷积层用Inception模块进行替换,如图3所示,然后将第三、第五卷积层之后加上注意力模块,如图4所示,将相关滤波器加到网络的第三层之后,改进后的网络结构图如图2所示。改进后的网络模型用ImageNet数据集进行训练,得到改进后的网络参数。
训练过程:使用随机梯度下降法进行优化逻辑回归目标,卷积层初始学习率设置为0.001,训练过程包括50个迭代,每个迭代包括5000个样本对,批量大小设置为8。相关滤波器的正则化系数大小设置为0.1,相关滤波所用高斯函数的标准差设置为4.0。
步骤2、在Singer1的第一帧模板图像中,给定初始目标框为(48,98,40,142),其中初始目标中心为pos(48,98),目标的尺度大小target为40×142,目标中心的搜索区域window_sr为40×142。读取网络输入的模板图像以及搜索图像,根据给定的初始目标框(μ,ν,w,h),其中目标的位置为pos(μ,ν),目标的尺度大小为target(w,h)。然后通过以下公式可以生成标准模板图像:s(w+2p)×s(h+2p)=A,其中A为1272,s是尺度因子,对图片扩展再进行resize,生成127×127的模板图像,以相同的方式生成大小为255×255的搜索图像。
步骤3、将预处理后的模板图像和搜索图像分别输入到网络中,经过Inception模块以及卷积层的特征提取模块得到特征值。设样本X的第l层大小为M×N×D的特征向量为M,N和D分别表示宽度,高度和特征维度。第l层特征的相关滤波器所对应的高斯函数为Gl,那么第l层特征的相关滤波器需要最小化问题:
样本X通过第l个相关滤波器产生的相关响应图为:
其中,F(·)表示进行傅里叶变换,F-1表示傅里叶反变换,-表示复共轭,⊙表示逐像素相乘。将标准模板图像与搜索图像分别输入到网络中,标准模板图像经过Inception模块以及卷积层的特征提取,得到特征H1,将特征H1输入到相关滤波器,代入式得到对应的相关滤波器wh,根据wh计算得到响应图fh。标准搜索图像经过相同的结构得到特征H2和响应图fh2。
步骤4、将低层的特征以及高层的特征通过注意力模块。先是通过通道注意力模块,然后再通过空间注意力模块。输入特征X通过最大池化和平均池化这两个操作来聚合特征图的空间信息,形成两个不同的特征描述和/>分别为最大池化特征和平均池化特征。这两个特征通过多层感知机网络生成最后的通道注意力图Mc∈Rc×1×1,R表示大小为C*1*1的实数集,C为特征图的通道数。通道注意力模块可以用式(22)来表示:/>
其中,σ表示激活函数,激活函数使用relu函数,W0和W1是多层感知机的两个权重值,W0∈RC/r×C,W1∈RC×C/r,RC/r×C为大小为C/r×C的实数集,C为特征图的通道数,r是一个缩放因子。
重标定通道特征F是由通道注意力输出的特征Mc所构成,然后再通过最大池化和平均池化操作分别得到两个不同的特征描述和/>然后使用一个卷积层将两者连接在一起生成最后的二维空间注意力图。可以用公式(23)来表示这一计算过程:
将H1特征输入到注意力模块,也就是代入式(3)和式(4)得到重标定特征fl,响应图的特征fh输入到注意力模块,然后代入式(3)和式(4)得到的特征为fh',将搜索分支上对应层的特征H2及fh2与重标定之后的特征进行卷积,得到低层响应图Rl和高层响应图Rh。
步骤5、将通过注意力模块的特征图采用AdaBoost算法进行融合。用输出响应图与以目标位置为中心的期望高斯分布计算出它们之间的误差,然后根据这个误差使用AdaBoost算法自适应加权响应图。在第t-1帧时,设目标响应图位置为(x,y),期望高斯分布为gt-1(x,y),则响应图相对于高斯分布的误差函数为:
其中,abs(·)表示绝对值操作,Mean(·)表示平均值操作,表示第t-1帧第i层特征图位置(x,y)的响应值,gt-1(x,y)表示为目标位置(x,y)的期望高斯分布,然后根据式(25)计算出每个响应图在最后的分类器中所占的比例:
最终的响应图为:
所以在t帧时最终的响应图中的目标位置(x,y)为:
步骤6、确定第t帧的目标中心位置为qt之后,用Pt×Rt表示当前目标的大小,wt×ht表示当前搜索区域大小,S表示尺度滤波器的大小,设置为33,a表示尺度因子,设置为1.02,n表示尺度级别,以qt为中心,创建一个多尺度的候选区域:
并计算其HOG特征ot(n),大小为1×U,给定一维高斯样本标签gs(n),将特征ot(n)转换到频域为Ot(n),其共轭复数为gs(n)转换到频域表示为Gs(n),其共轭复数为则尺度滤波器Kt(n):
其中,λs表示尺度滤波器的正则化参数,在随后的第t+1帧中确定目标中心点为pt+1(n)之后,以pt+1(n)为中心进行不同尺度的采样,对第n个尺度来说,其HOG特征在频域中表示为Vt(n),则可得到对应的响应图为:
通过寻找响应图中响应值最大所对应的n,即可以求得目标的最佳尺度,即:
步骤7、尺度滤波器更新
假设上式的分子和分母分别表示为Ct和Dt,那么尺度滤波器的更新公式为:
其中,η和ηs分别表示位置滤波器和尺度滤波器的学习率。
步骤8、判断当前帧是否是最后一帧,如果是,则结束,否则返回步骤2,读取新一帧搜索图像重新生成标准搜索图像继续进行目标跟踪。
通过计算目标跟踪在不同层的特征组合下的成功率和准确率,我们发现第三层和第五层的特征组合可以得到比较好的成功率和准确率,本发明采用的是第三层和第五层的特征组合。
为验证本发明方法的效果,进行了以下验证实验:
本发明采用OTB(Online Tracking Benchmark)平台上的50个公认的、已标注的视频序列来进行测试,它们模拟真实场景中的各种情况,包含光照变化、尺度变换、部分或严重遮挡、形变等。表1为本发明实验的硬件及软件仿真环境。
表1实验的硬件及软件仿真环境
CPU | Intel(R)Core(TM)i5-8265U CPU@3.4GHz |
内存 | 8.00GB |
操作系统 | Windows 10 |
开发环境 | MATLAB R2017a、Visual Studio 2015 |
编程语言 | Matlab、C++ |
在OTB测试平台上,主要有两种评价标准:精确度(Precision Plot)和成功率(Success Plot)。
在跟踪过程中,精确度是评价一个算法跟踪器是否能够准确的得出后续帧的目标位置的关键,算法跟踪器得出的目标位置一般称为预测值,人工标注的目标位置称之为真实值(groundtruth),准确度就是通过计算预测值偏离真实值的偏差,一般使用欧式距离来计算预测值和真实值之间的距离。如果这个距离小于给定的阈值,跟踪就越准确,相反,跟踪就越不准确。用精度曲线反映预测值与真实值的误差在给定阈值距离内占总帧数的百分比,作为这个算法的精确度。一般这个阈值设置为20像素,不同的阈值得到的精确度是不一样的,将所有的阈值情况的精度绘制出来就变成了精确度图。
成功率是目标跟踪器得到的候选目标框与人工标注的真实区域之间的重叠精度来测量。将目标跟踪器得到的候选区域标注为Ra,人工标注的目标真实区域标注为Rb,那么它们的重叠精度为:
其中,Ra∩Rb表示区域Ra与区域Rb的重叠区域,Ra∪Rb表示区域Ra与区域Rb的联合区域。这个重叠精度得分越高,表示跟踪越准确。一般将重叠精度的阈值设置为0.5,不同阈值得到的重叠精度得分也是不一样的,将所有的阈值情况的重叠精度绘制出来就变成了成功率图。
综上所述,精确度和成功率越高,目标跟踪的性能越好。而评价跟踪效率的标准采用每秒的处理帧数(帧/秒),算法每秒处理的帧数越多,说明跟踪实时性越好。
如图5所示,本发明在20像素的阈值下仍然有着82.6%的准确度,与ECO、SiamFC、SSC和KCF相比,本发明分别提高了0.9%,4.9%,8.2%和10.6%。在图(b)中,我们将重叠精度的阈值设置为0.5,本文的成功率达到了63.3%。相比于ECO、SiamFC、SSC和KCF这几个算法,本发明的成功率分别提高了1.1%,4.7%、9.6%和11.9%。在背景杂波的条件下,本发明仍然保持着比较高的准确度和精确度。图(c)中,本发明在背景杂波条件下的准确度相比于ECO、SiamFC、SSC和KCF分别提高了2.3%,9.4%,12.2%和20.3%。图(d)中,本发明在背景杂波的条件下的成功率对比于ECO、SiamFC、SSC和KCF分别提高了1.9%,9.9%,10.6%和16.6%。
图6为本发明部分跟踪效果图,红色框为本发明的跟踪框,而蓝色为原始SAMF算法的跟踪框,绿色为SiamFC算法的跟踪框,黑色为KCF算法的跟踪框,玫红色为DSST算法的跟踪框。由图可知,三个视频序列都存在明显的尺度变化,在CarScale序列中,目标逐渐靠近摄像头,尺度越来越大,第244帧,HCF、CT、Stuck和KCF都只跟踪到目标的一小部分,本文算法能较好的实现目标尺度自适应。
本发明提出了一种基于分层注意力机制的孪生网络跟踪算法。使用了不同层的特征进行融合,并且在提取特征的过程中,使用了注意力机制对特征图进行重标定,使用AdaBoost算法对目标特征图进行加权融合,提高了响应图的可靠性。同时还引入了尺度估计模块,在检测出目标位置的时候,对目标进行多尺度的缩放。在对目标进行尺度缩放的过程中,本发明使用了基于区域的快速HOG特征提取算法对提取过程进行了加速,使孪生网络能够快速的提取HOG特征,从而加速跟踪的速度。所提出的算法既能够精确跟踪目标,又能有效地提高跟踪速度。
实施例三:
本发明实施例还提供了一种基于分层注意力机制的孪生网络视频跟踪装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。
实施例四:
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,所述方法包括以下步骤:
步骤1、读取并预处理网络输入的模板图像和搜索图像;
步骤2、将预处理后的模板图像和搜索图像分别输入到训练好的孪生网络模型中,经过Inception模块以及卷积层的特征提取模块分别得到模板图像和搜索图像的特征图;
所述孪生网络模型包括模板分支和搜索分支,模板分支和搜索分支特征提取模块分别提取特征,模板分支上加入注意力模块进行特征重标定;
步骤3、通过模板分支网络第三卷积层提取低层特征,通过模板分支网络第五卷积层提取高层特征,将所述低层特征与所述高层特征分别通过注意力模块;
步骤4、将模板分支通过注意力模块的特征与搜索分支得到的特征进行相关操作,得到各层对应的响应图,再将各层响应图采用AdaBoost算法进行融合得到最终响应图,进而得到目标位置;
步骤5、在目标位置的基础上利用尺度滤波器进行尺度估计,通过设置尺度池,训练尺度滤波器选出最优尺度大小;
步骤6、根据最优尺度大小更新尺度滤波器;
步骤7、判断当前帧是否是最后一帧,如果是,则结束,否则读取新一帧搜索图像并跳转步骤1。
2.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,所述方法的步骤还包括:构建并训练孪生网络模型;
所述孪生网络模型的构建方法为:
构建原孪生网络模型,包括模板分支和搜索分支,所述模板分支和搜索分支均包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层,将原孪生网络模型的模板分支的第一卷积层用Inception模块进行替换,然后将第三、第五卷积层之后加上注意力模块,将相关滤波器加到原孪生网络模型的模板分支的第三卷积层之后;
所述孪生网络模型的训练方法包括:用ImageNet数据集进行训练,得到改进后的网络参数。
3.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,步骤1中,所述预处理网络输入的模板图像和搜索图像的方法包括:
根据给定的初始目标框(μ,ν,w,h),(μ,ν)代表目标中心位置的横纵坐标,(ω,h)代表目标的宽度和高度;其中目标的位置为pos(μ,ν),目标的尺度大小为target(w,h),通过以下公式调整模板图像的大小:
s(w+2p)×s(h+2p)=A (1)
其中A是模板图像的大小,值为定值1272像素,s是尺度因子,p是上下文边界;
先将包含上下文信息的(w+2p)×(h+2p)的图片扩展,然后进行尺寸调整,生成大小为127×127像素的模板图像;以相同的方式将搜索图像的大小设置为255×255像素。
4.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,步骤2中,所述特征图的提取方法包括以下步骤:
为样本X的第l层的特征向量,样本X的第l层大小为M×N×D,RM×N×D表示大小为M×N×D的实数集,M,N和D分别表示样本X的宽度,高度和特征维度;第l层特征的相关滤波器所对应的高斯函数为Gl,样本X的第l层特征的相关滤波器需要最小化按下面公式计算:
样本X通过第l个相关滤波器产生的相关响应图的计算公式为:
其中,F(·)表示进行傅里叶变换,F-1表示傅里叶反变换,-表示复共轭,⊙表示逐像素相乘。
5.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,步骤3中,将特征图通过注意力模块的方法包括以下步骤:
先将特征图通过通道注意力模块,然后再将特征图通过空间注意力模块;
根据所述最大池化特征和平均池化特征,通过多层感知机网络生成最后的通道注意力图Mc∈Rc×1×1,Rc×1×1表示大小为C×1×1的实数集,C为特征图的通道数,通道注意力模块可以用下式来表示:
其中,σ表示激活函数,激活函数使用relu函数,W0和W1是多层感知机的两个权重值,W0∈RC/r×C,W1∈RC×C/r,RC/r×C为大小为C/r×C的实数集,C为特征图的通道数,r是缩放因子,X是输入特征,是最大池化特征,/>是平均池化特征;
重标定通道特征F是由通道注意力输出的特征Mc所构成,然后再通过最大池化和平均池化操作分别得到两个不同的特征描述和/>然后使用一个卷积层将两者连接在一起生成最后的二维空间注意力图,用下式来表示重标定通道特征F经过空间注意力模块的计算过程:
6.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,步骤4中,将通过注意力模块的特征图采用AdaBoost算法进行融合的方法包括以下步骤:
计算出输出响应图与以目标位置为中心的期望高斯分布之间的误差,然后根据这个误差使用AdaBoost算法自适应加权响应图;
其中,abs(·)表示绝对值操作,Mean(·)表示平均值操作,表示第t-1帧第i层特征图位置(x,y)的响应值,gt-1(x,y)表示为目标位置(x,y)的期望高斯分布,然后根据这个误差函数计算出每个响应图在最后的分类器中所占的比例:
其中,εi表示第i层特征图的误差;
最终的响应图为:
其中,αi表示第i层的权重,Ri表示第i层的响应图,Rt表示第t帧特征图的响应值;
所以在t帧时最终的响应图中的目标位置(x,y)为:
Rt表示第t帧特征图的响应值。
7.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,步骤5中,选出最优尺度大小的方法包括以下步骤:
对得到的目标位置区域进行一个不同尺度的采样,在预测到目标的位置的时候,以这个位置为中心,创建一个多尺度的候选区域:
其中,a是尺度因子,S为候选区域的数量,W×H为上一帧目标框的大小;
并计算其HOG特征ot(n),大小为1×U,给定一维高斯样本标签gs(n),将特征ot(n)转换到频域为Ot(n),其共轭复数为gs(n)转换到频域表示为Gs(n),其共轭复数为/>则尺度滤波器Kt(n):
其中,λs表示尺度滤波器的正则化参数;
在随后的第t+1帧中确定目标中心点为pt+1(n)之后,以pt+1(n)为中心进行不同尺度的采样,对第n个尺度来说,其HOG特征在频域中表示为Vt(n),则可得到对应的响应图为:
通过寻找响应图中响应值最大所对应的n,即可以求得目标的最佳尺度,即:
其中,a是尺度因子,wt表示第t帧目标宽度,ht表示第t帧目标高度。
9.一种基于分层注意力机制的孪生网络视频跟踪装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~8任一项所述方法的步骤。
10.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011164003.0A CN112348849B (zh) | 2020-10-27 | 2020-10-27 | 一种孪生网络视频目标跟踪方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011164003.0A CN112348849B (zh) | 2020-10-27 | 2020-10-27 | 一种孪生网络视频目标跟踪方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348849A CN112348849A (zh) | 2021-02-09 |
CN112348849B true CN112348849B (zh) | 2023-06-20 |
Family
ID=74359107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011164003.0A Active CN112348849B (zh) | 2020-10-27 | 2020-10-27 | 一种孪生网络视频目标跟踪方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348849B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192124A (zh) * | 2021-03-15 | 2021-07-30 | 大连海事大学 | 一种基于孪生网络的图像目标定位方法 |
CN113344971B (zh) * | 2021-05-21 | 2023-03-28 | 河南科技大学 | 一种融合卡尔曼滤波的孪生红外目标跟踪方法 |
CN113297959A (zh) * | 2021-05-24 | 2021-08-24 | 南京邮电大学 | 一种基于角点注意力孪生网络的目标跟踪方法及系统 |
CN113469072B (zh) * | 2021-07-06 | 2024-04-12 | 西安电子科技大学 | 基于GSoP和孪生融合网络的遥感图像变化检测方法及系统 |
CN113658218B (zh) * | 2021-07-19 | 2023-10-13 | 南京邮电大学 | 一种双模板密集孪生网络跟踪方法、装置及存储介质 |
CN113283407A (zh) * | 2021-07-22 | 2021-08-20 | 南昌工程学院 | 一种基于通道与空间注意力机制的孪生网络目标跟踪方法 |
CN113793359B (zh) * | 2021-08-25 | 2024-04-05 | 西安工业大学 | 一种融合孪生网络与相关滤波的目标跟踪方法 |
CN113643329B (zh) * | 2021-09-01 | 2022-04-19 | 北京航空航天大学 | 一种基于孪生注意力网络的在线更新目标跟踪方法和系统 |
CN114332151B (zh) * | 2021-11-05 | 2023-04-07 | 电子科技大学 | 一种基于阴影Video-SAR中感兴趣目标跟踪方法 |
CN114299111B (zh) * | 2021-12-21 | 2022-11-04 | 中国矿业大学 | 一种基于半监督孪生网络的红外弱小目标跟踪方法 |
CN114782488A (zh) * | 2022-04-01 | 2022-07-22 | 燕山大学 | 一种基于通道感知的水下目标跟踪方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734151A (zh) * | 2018-06-14 | 2018-11-02 | 厦门大学 | 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法 |
CN111291679A (zh) * | 2020-02-06 | 2020-06-16 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033478A (zh) * | 2019-04-12 | 2019-07-19 | 北京影谱科技股份有限公司 | 基于深度对抗训练的视觉目标跟踪方法和装置 |
-
2020
- 2020-10-27 CN CN202011164003.0A patent/CN112348849B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734151A (zh) * | 2018-06-14 | 2018-11-02 | 厦门大学 | 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法 |
CN111291679A (zh) * | 2020-02-06 | 2020-06-16 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
基于Tiny Darknet全卷积孪生网络的目标跟踪;史璐璐;张索非;吴晓富;;南京邮电大学学报(自然科学版)(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112348849A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348849B (zh) | 一种孪生网络视频目标跟踪方法及装置 | |
CN110097568B (zh) | 一种基于时空双分支网络的视频对象检测与分割方法 | |
CN110910391B (zh) | 一种双模块神经网络结构视频对象分割方法 | |
CN107689052B (zh) | 基于多模型融合和结构化深度特征的视觉目标跟踪方法 | |
CN110120065B (zh) | 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及系统 | |
CN106845430A (zh) | 基于加速区域卷积神经网络的行人检测与跟踪方法 | |
CN111080675B (zh) | 一种基于时空约束相关滤波的目标跟踪方法 | |
CN110889863B (zh) | 一种基于目标感知相关滤波的目标跟踪方法 | |
CN109492596B (zh) | 一种基于K-means聚类和区域推荐网络的行人检测方法及系统 | |
CN111582349B (zh) | 一种基于YOLOv3和核相关滤波改进的目标跟踪算法 | |
CN110276784B (zh) | 基于记忆机制与卷积特征的相关滤波运动目标跟踪方法 | |
CN112651998A (zh) | 基于注意力机制和双流多域卷积神经网络的人体跟踪算法 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN115375737B (zh) | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 | |
CN108537825B (zh) | 一种基于迁移学习回归网络的目标跟踪方法 | |
CN115239760B (zh) | 一种目标跟踪方法、系统、设备及存储介质 | |
CN115359407A (zh) | 一种视频中的多车辆跟踪方法 | |
Zhang et al. | A modified faster region-based convolutional neural network approach for improved vehicle detection performance | |
Guan et al. | Abnormal behavior recognition using 3D-CNN combined with LSTM | |
CN110827327B (zh) | 一种基于融合的长期目标跟踪方法 | |
Fan et al. | MP-LN: motion state prediction and localization network for visual object tracking | |
CN108257148B (zh) | 特定对象的目标建议窗口生成方法及其在目标跟踪的应用 | |
CN113793359A (zh) | 一种融合孪生网络与相关滤波的目标跟踪方法 | |
CN109858326A (zh) | 基于类别语义弱监督的在线视觉跟踪方法及系统 | |
CN116229112A (zh) | 一种基于多重注意力的孪生网络目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |