CN112348849B - 一种孪生网络视频目标跟踪方法及装置 - Google Patents

一种孪生网络视频目标跟踪方法及装置 Download PDF

Info

Publication number
CN112348849B
CN112348849B CN202011164003.0A CN202011164003A CN112348849B CN 112348849 B CN112348849 B CN 112348849B CN 202011164003 A CN202011164003 A CN 202011164003A CN 112348849 B CN112348849 B CN 112348849B
Authority
CN
China
Prior art keywords
feature
target
scale
representing
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011164003.0A
Other languages
English (en)
Other versions
CN112348849A (zh
Inventor
胡栋
张虎
邱英灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011164003.0A priority Critical patent/CN112348849B/zh
Publication of CN112348849A publication Critical patent/CN112348849A/zh
Application granted granted Critical
Publication of CN112348849B publication Critical patent/CN112348849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20056Discrete and fast Fourier transform, [DFT, FFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明属于视频分析技术领域,公开了一种基于分层注意力机制的孪生网络视频目标跟踪方法。本发明基于孪生网络框架,将高层次特征与低层次特征融合起来,并且在提取特征的过程中,使用了注意力机制对特征图进行重标定,使用AdaBoost算法对目标特征图进行加权融合。本发明还使用了Inception模块,一方面增加了网络的宽度以及孪生网络对尺度的适应性,另一方面还减少了参数,提高了网络训练的速度。在进行目标尺度估计时,本发明使用了基于区域的快速HOG特征提取算法。相比现有技术,本发明方法既能够精确跟踪目标,又能有效地提高跟踪速度。

Description

一种孪生网络视频目标跟踪方法及装置
技术领域
本发明涉及一种基于分层注意力机制的孪生网络视频目标跟踪方法,属于视频分析领域。
背景技术
视频目标跟踪是计算机视觉的研究热点之一,在人机交互、军事侦察、无人驾驶以及安防等诸多方面有着广泛的应用前景。
相关滤波器由于其计算速度快,可以使目标跟踪达到实时。但相关滤波使用的手工特征,由于特征表达能力有限,在复杂环境下的目标跟踪能力有限。随着深度学习的兴起,研究人员开始将深度网络学习获得的特征应用到相关滤波中。例如,Ma等通过分析VGG-19的网络特征,提出了一种分层卷积特征(Hierarchical Convolutional Features,HCF)方法。该方法研究发现高层特征反映目标的语义信息,对目标更加鲁棒,而低层特征反映目标的细节信息,对目标的定位更加精确,后来,研究人员使用深度学习框架实现了端对端的目标跟踪,跟踪结果不断精确,但由于训练参数巨大,实时性受到影响。
虽然在过去几十年该技术的研究取得了很大的进展,但由于在实际的跟踪环境下,目标会受到背景杂波、尺度变化以及遮挡等复杂情形的影响,因此设计一个准确、高效、鲁棒地跟踪器始终具有重要的应用价值。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于分层注意力机制的孪生网络视频目标跟踪方法,解决在视频目标跟踪中,目标受到背景杂波等复杂环境的影响,会出现目标漂移或跟踪实时性下降,并且还要考虑目标尺度变化的技术问题。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于分层注意力机制的孪生网络视频跟踪方法,所述方法包括以下步骤:
步骤1、读取并预处理网络输入的模板图像和搜索图像;
步骤2、将预处理后的模板图像和搜索图像分别输入到训练好的孪生网络模型中,经过Inception模块以及卷积层的特征提取模块分别得到模板图像和搜索图像的特征图;
所述孪生网络模型包括模板分支和搜索分支,模板分支和搜索分支特征提取模块分别提取特征,模板分支上加入注意力模块进行特征重标定;
步骤3、通过模板分支网络第三卷积层提取低层特征,通过模板分支网络第五卷积层提取高层特征,将所述低层特征与所述高层特征分别通过注意力模块;
步骤4、将模板分支通过注意力模块的特征与搜索分支得到的特征进行相关操作,得到各层对应的响应图,再将各层响应图采用AdaBoost算法进行融合得到最终响应图,进而得到目标位置;
步骤5、在目标位置的基础上利用尺度滤波器进行尺度估计,通过设置尺度池,训练尺度滤波器选出最优尺度大小;
步骤6、根据最优尺度大小更新尺度滤波器;
步骤7、判断当前帧是否是最后一帧,如果是,则结束,否则读取新一帧搜索图像并跳转步骤1。
进一步的,所述方法的步骤还包括:构建并训练孪生网络模型;
所述孪生网络模型的构建方法为:
构建原孪生网络模型,包括模板分支和搜索分支,所述模板分支和搜索分支均包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层,将原孪生网络模型的模板分支的第一卷积层用Inception模块进行替换,然后将第三、第五卷积层之后加上注意力模块,将相关滤波器加到原孪生网络模型的模板分支的第三卷积层之后;
所述孪生网络模型的训练方法包括:用ImageNet数据集进行训练,得到改进后的网络参数。
进一步的,步骤1中,所述预处理网络输入的模板图像和搜索图像的方法包括:
根据给定的初始目标框(μ,ν,w,h),(μ,ν)代表目标中心位置的横纵坐标,(ω,h)代表目标的宽度和高度;其中目标的位置为pos(μ,ν),目标的尺度大小为target(w,h),通过以下公式调整模板图像的大小:
s(w+2p)×s(h+2p)=A (1)
Figure BDA0002745225450000031
其中A是模板图像的大小,值为定值1272像素,s是尺度因子,p是上下文边界;
先将包含上下文信息的(w+2p)×(h+2p)的图片扩展,然后进行尺寸调整,生成大小为127×127像素的模板图像;以相同的方式将搜索图像的大小设置为255×255像素。
进一步的,步骤2中,所述特征图的提取方法包括以下步骤:
Figure BDA0002745225450000032
为样本X的第l层的特征向量,样本X的第l层大小为M×N×D,RM×N×D表示大小为M×N×D的实数集,M,N和D分别表示样本X的宽度,高度和特征维度;第l层特征的相关滤波器所对应的高斯函数为Gl,样本X的第l层特征的相关滤波器需要最小化按下面公式计算:
Figure BDA0002745225450000041
其中
Figure BDA0002745225450000042
为/>
Figure BDA0002745225450000043
的第d个通道,/>
Figure BDA0002745225450000044
表示为第d个通道的相关滤波器,*表示为循环卷积运算,λ为正则化系参数(λ≥0);通过FFT训练相关滤波器,求得第d个通道的相关滤波器为/>
Figure BDA0002745225450000045
样本X通过第l个相关滤波器产生的相关响应图的计算公式为:
Figure BDA0002745225450000046
其中,F(·)表示进行傅里叶变换,F-1表示傅里叶反变换,-表示复共轭,⊙表示逐像素相乘。
进一步的,步骤3中,将特征图通过注意力模块的方法包括以下步骤:
先将特征图通过通道注意力模块,然后再将特征图通过空间注意力模块;
通过最大池化和平均池化聚合特征图的空间信息,形成两个不同的特征描述
Figure BDA0002745225450000047
和/>
Figure BDA0002745225450000048
分别为输入特征X的最大池化特征和平均池化特征;
根据所述最大池化特征和平均池化特征,通过多层感知机网络生成最后的通道注意力图Mc∈Rc×1×1,R表示实数集,通道注意力模块可以用下式来表示:
Figure BDA0002745225450000049
其中,σ表示激活函数,激活函数使用relu函数,W0和W1是多层感知机的两个权重值,W0∈RC/r×C,W1∈RC×C/r,X是输入特征,
Figure BDA00027452254500000410
是最大池化特征,/>
Figure BDA00027452254500000411
是平均池化特征;
重标定通道特征F是由通道注意力输出的特征Mc所构成,然后再通过最大池化和平均池化操作分别得到两个不同的特征描述
Figure BDA0002745225450000051
和/>
Figure BDA0002745225450000052
然后使用一个卷积层将两者连接在一起生成最后的二维空间注意力图,用下式来表示重标定通道特征F经过空间注意力模块的计算过程:
Figure BDA0002745225450000053
其中,σ表示激活函数,
Figure BDA0002745225450000054
f7×7表示一个滤波器大小为7×7卷积操作,/>
Figure BDA0002745225450000055
表示最大池化特征,/>
Figure BDA0002745225450000056
表示平均池化特征。
进一步的,步骤4中,将通过注意力模块的特征图采用AdaBoost算法进行融合的方法包括以下步骤:
计算出输出响应图与以目标位置为中心的期望高斯分布之间的误差,然后根据这个误差使用AdaBoost算法自适应加权响应图;
在第t-1帧时,设目标响应图位置为(x,y),期望高斯分布为gt-1(x,y),则响应图
Figure BDA0002745225450000057
相对于高斯分布的误差函数为:
Figure BDA0002745225450000058
其中,abs(·)表示绝对值操作,Mean(·)表示平均值操作,
Figure BDA0002745225450000059
表示第t-1帧第i层特征图位置(x,y)的响应值,gt-1(x,y)表示为目标位置(x,y)的期望高斯分布,然后根据这个误差函数计算出每个响应图在最后的分类器中所占的比例:
Figure BDA00027452254500000510
其中,εi表示第i层特征图的误差;
最终的响应图为:
Figure BDA0002745225450000061
其中,αi表示第i层的权重,Ri表示第i层的响应图,Rt表示第t帧特征图的响应值;
所以在t帧时最终的响应图中的目标位置(x,y)为:
Figure BDA0002745225450000062
Rt表示第t帧特征图的响应值。
进一步的,步骤5中,选出最优尺度大小的方法包括以下步骤:
对得到的目标位置区域进行一个不同尺度的采样,在预测到目标的位置的时候,以这个位置为中心,创建一个多尺度的候选区域:
Figure BDA0002745225450000063
其中,a是尺度因子,S为候选区域的数量,W×H为上一帧目标框的大小;
并计算其HOG特征ot(n),大小为1×U,给定一维高斯样本标签gs(n),将特征ot(n)转换到频域为Ot(n),其共轭复数为
Figure BDA0002745225450000064
gs(n)转换到频域表示为Gs(n),其共轭复数为
Figure BDA0002745225450000065
则尺度滤波器Kt(n):
Figure BDA0002745225450000066
其中,λs表示尺度滤波器的正则化参数;
在随后的第t+1帧中确定目标中心点为pt+1(n)之后,以pt+1(n)为中心进行不同尺度的采样,对第n个尺度来说,其HOG特征在频域中表示为Vt(n),则可得到对应的响应图为:
Figure BDA0002745225450000071
其中,
Figure BDA0002745225450000079
表示反傅里叶变换,Kt(n)表示尺度滤波器,Vt(n)表示频域特征;通过寻找响应图中响应值最大所对应的n,即可以求得目标的最佳尺度,即:
Figure BDA0002745225450000072
得到最终的目标的尺度为
Figure BDA0002745225450000073
并且按下式更新搜索区域:
Figure BDA0002745225450000074
Figure BDA0002745225450000075
其中,a是尺度因子,wt表示第t帧目标宽度,ht表示第t帧目标高度。
进一步的,在步骤6中,根据最优尺度大小更新尺度滤波器,所述尺度滤波器的更新公式为:
Figure BDA0002745225450000076
Figure BDA0002745225450000077
Figure BDA0002745225450000078
式中,η表示学习率,Ot(n)表示频域特征,-表示复共轭,Gs(n)表示频域的高斯输出,λs表示尺度滤波器的正则化参数。
第二方面,本发明提供了一种基于分层注意力机制的孪生网络视频跟踪装置,包括处理器及存储介质;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行上述方法的步骤。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
1、本发明基于孪生网络框架,将高层次特征与低层次特征融合起来,使用了不同层的特征进行融合,并且在提取特征的过程中,使用了注意力机制对特征图进行重标定,使用AdaBoost算法对目标特征图进行加权融合,提高了响应图的可靠性;
2、本发明同时还引入了尺度估计模块,在检测出目标位置的时候,对目标进行多尺度的缩放;在对目标进行尺度缩放的过程中,本发明使用了基于区域的快速HOG特征提取算法对提取过程进行了加速,使孪生网络能够快速的提取HOG特征,从而加速跟踪的速度。所提出的算法既能够精确跟踪目标,又能有效地提高跟踪速度。
3、本发明还使用了Inception模块,一方面增加了网络的宽度以及孪生网络对尺度的适应性,另一方面还减少了参数,提高了网络训练的速度。
附图说明
图1为本发明的算法流程图;
图2为本发明的网络结构图;
图3为Inception模块图;
图4为注意力模块图;
图5为跟踪性能对比图;
图6为部分跟踪结果图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
本实施例提供一种基于分层注意力机制的孪生网络视频目标跟踪方法,本方法包括以下步骤:
步骤1、读取并预处理网络输入的模板图像和搜索图像;
步骤2、将预处理后的模板图像和搜索图像分别输入到训练好的孪生网络模型中,经过Inception模块以及卷积层的特征提取模块分别得到模板图像和搜索图像的特征图;
所述孪生网络模型分为模板分支和搜索分支,模板分支和搜索分支通过改进后的特征提取模块分别提取特征,模板分支上加入注意力模块进行特征重标定;
步骤3、将模板分支网络第三层提取的低层特征与第五层提取的高层特征分别通过注意力模块;
步骤4、将模板分支通过注意力模块的特征与搜索分支得到的特征进行相关操作,得到各层对应的响应图,再将各层响应图采用AdaBoost算法进行融合得到最终响应图,进而得到目标位置;
步骤5、在目标位置的基础上利用尺度滤波器进行尺度估计,通过设置尺度池,训练尺度滤波器选出最优尺度大小;
步骤6、根据最优尺度大小更新尺度滤波器;
步骤7、判断当前帧是否是最后一帧,如果是,则结束,否则读取新一帧搜索图像并跳转步骤1。
优选地,所述方法的步骤还包括:构建并训练孪生网络模型;
孪生网络分为模板分支和搜索分支,模板分支和搜索分支通过改进后的特征提取模块分别提取特征,模板分支上加入注意力模块进行特征重标定,得到目标位置后通过尺度估计模块得到最佳尺度;
所述孪生网络模型的构建方法为:
构建原孪生网络模型,包括模板分支和搜索分支,模板分支和搜索分支均包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层,将原孪生网络的模板分支的第一卷积层用Inception模块进行替换,然后将第三、第五卷积层之后加上注意力模块,将相关滤波器加到网络的第三层之后;
原始孪生网络用的网络类似于AlexNet,固定的,包括卷积层、池化层、卷积层、池化层、卷积层、卷积层、卷积层。
所述孪生网络模型的训练方法包括:用ImageNet数据集进行训练,得到改进后的网络参数。
具体的,步骤1中,所述预处理网络输入的模板图像和搜索图像的方法包括:
根据给定的初始目标框(μ,ν,w,h),(μ,ν)代表目标中心位置的横纵坐标,(ω,h)代表目标的宽度和高度。其中目标的位置为pos(μ,ν),目标的尺度大小为target(w,h),通过以下公式调整模板图像的大小:
s(w+2p)×s(h+2p)=A (1)
Figure BDA0002745225450000101
其中A是模板图像的大小,值为定值1272像素,s是尺度因子,p是上下文边界;
先将包含上下文信息的(w+2p)×(h+2p)的图片扩展,然后进行尺寸调整,生成大小为127×127像素的模板图像;以相同的方式将搜索图像的大小设置为255×255像素。
具体的,步骤2中,所述特征图的提取方法包括以下步骤:
Figure BDA0002745225450000111
为样本X的第l层的特征向量,样本X的第l层大小为M×N×D,RM×N×D表示大小为M×N×D的实数集,M,N和D分别表示样本X的宽度,高度和特征维度;第l层特征的相关滤波器所对应的高斯函数为Gl,样本X的第l层特征的相关滤波器需要最小化按下面公式计算:
Figure BDA0002745225450000112
其中
Figure BDA0002745225450000113
为/>
Figure BDA0002745225450000114
的第d个通道,/>
Figure BDA0002745225450000115
表示为第d个通道的相关滤波器,*表示为循环卷积运算,λ为正则化系参数(λ≥0);通过FFT训练相关滤波器,求得第d个通道的相关滤波器为/>
Figure BDA0002745225450000116
样本X通过第l个相关滤波器产生的相关响应图的计算公式为:
Figure BDA0002745225450000117
其中,F(·)表示进行傅里叶变换,F-1表示傅里叶反变换,-表示复共轭,⊙.表示逐像素相乘。
具体的,步骤3中,将特征图通过注意力模块的方法包括以下步骤:
先将特征图通过通道注意力模块,然后再将特征图通过空间注意力模块;
通过最大池化和平均池化聚合特征图的空间信息,形成两个不同的特征描述
Figure BDA0002745225450000118
和/>
Figure BDA0002745225450000119
分别为输入特征X的最大池化特征和平均池化特征;
根据所述最大池化特征和平均池化特征,通过多层感知机网络生成最后的通道注意力图Mc∈Rc×1×1,通道注意力模块可以用下式来表示:
Figure BDA00027452254500001110
其中,σ表示激活函数,激活函数使用relu函数,W0和W1是多层感知机的两个权重值,W0∈RC/r×C,W1∈RC×C/r,X是输入特征,
Figure BDA0002745225450000121
是最大池化特征,/>
Figure BDA0002745225450000122
是平均池化特征;
与通道注意力不同,空间注意力主要关注位置信息。重标定通道特征F是由通道注意力输出的特征Mc所构成,然后再通过最大池化和平均池化操作分别得到两个不同的特征描述
Figure BDA0002745225450000123
和/>
Figure BDA0002745225450000124
然后使用一个卷积层将两者连接在一起生成最后的二维空间注意力图,用下式来表示重标定通道特征F经过空间注意力模块Ms(F)的计算过程:
Figure BDA0002745225450000125
其中,σ表示激活函数,
Figure BDA0002745225450000126
f7×7表示一个滤波器大小为7×7卷积操作,/>
Figure BDA0002745225450000127
表示最大池化特征,/>
Figure BDA0002745225450000128
表示平均池化特征。
具体的,步骤4中,将通过注意力模块的特征图采用AdaBoost算法进行融合的方法包括以下步骤:
计算出输出响应图与以目标位置为中心的期望高斯分布之间的误差,然后根据这个误差使用AdaBoost算法自适应加权响应图;
在第t-1帧时,设目标响应图位置为(x,y),期望高斯分布为gt-1(x,y),则响应图
Figure BDA0002745225450000129
相对于高斯分布的误差函数为:
Figure BDA00027452254500001210
其中,abs(·)表示绝对值操作,Mean(·)表示平均值操作,
Figure BDA00027452254500001211
表示第t-1帧第i层特征图位置(x,y)的响应值,gt-1(x,y)表示为目标位置(x,y)的期望高斯分布,然后根据这个误差函数计算出每个响应图在最后的分类器中所占的比例:
Figure BDA0002745225450000131
其中,εi表示第i层特征图的误差;
最终的响应图为:
Figure BDA0002745225450000132
其中,αi表示第i层的权重,Ri表示第i层的响应图,Rt表示第t帧特征图的响应值;
所以在t帧时最终的响应图中的目标位置(x,y)为:
Figure BDA0002745225450000133
Rt表示第t帧特征图的响应值。
具体的,步骤5中,选出最优尺度大小的方法包括以下步骤:
对得到的目标位置区域进行一个不同尺度的采样,在预测到目标的位置的时候,以这个位置为中心,创建一个多尺度的候选区域:
Figure BDA0002745225450000134
其中,a是尺度因子,S为候选区域的数量,W×H为上一帧目标框的大小;
并计算其HOG特征ot(n),大小为1×U,给定一维高斯样本标签gs(n),将特征ot(n)转换到频域为Ot(n),其共轭复数为
Figure BDA0002745225450000135
gs(n)转换到频域表示为Gs(n),其共轭复数为
Figure BDA0002745225450000136
则尺度滤波器Kt(n):
Figure BDA0002745225450000137
其中,λs表示尺度滤波器的正则化参数;
在随后的第t+1帧中确定目标中心点为pt+1(n)之后,以pt+1(n)为中心进行不同尺度的采样,对第n个尺度来说,其HOG特征在频域中表示为Vt(n),则可得到对应的响应图为:
Figure BDA0002745225450000141
其中,
Figure BDA0002745225450000142
表示反傅里叶变换,Kt(n)表示尺度滤波器,Vt(n)表示频域特征。
通过寻找响应图中响应值最大所对应的n,即可以求得目标的最佳尺度,即:
Figure BDA0002745225450000143
得到最终的目标的尺度为
Figure BDA0002745225450000144
并且按下式更新搜索区域:
Figure BDA0002745225450000145
Figure BDA0002745225450000146
其中,a是尺度因子,wt表示第t帧目标宽度,ht表示第t帧目标高度。
具体的,在步骤6中,根据最优尺度大小更新尺度滤波器,所述尺度滤波器的更新公式为:
Figure BDA0002745225450000147
Figure BDA0002745225450000148
Figure BDA0002745225450000149
式中,η表示学习率,Ot(n)表示频域特征,-表示复共轭,Gs(n)表示频域的高斯输出,λs表示尺度滤波器的正则化参数。
需要说明的是,本申请中R表示实数集,其右上角的字符代表其大小,如Rc×l×l表示大小为C×1×1的实数集,C为特征图的通道数;RC/r×C为大小为C/r×C的实数集,C为特征图的通道数,r是缩放因子;R1×H×W表示大小为1×H×W的实数集,H和W代表目标的宽度和高度。
实施例二:
本实施例提供一种基于分层注意力机制的孪生网络视频目标跟踪方法,为使本发明的目的、实现方案和优点更为清晰,下面以公开测试集OTB Benchmark中的序列Singer1为例,对本发明的具体实施结合附图说明作进一步的详细描述,具体阐述如下:
本发明提出了一种基于分层注意力机制的孪生网络跟踪方法。本方法将跟踪过程分成了目标位置估计以及目标尺度估计两个部分。使用卷积神经网络进行特征提取,将第三层的特征与第五层的特征进行加权融合,得到跟踪结果。然后利用尺度滤波器进行尺度估计,通过设置尺度池,训练尺度滤波器选出结果最好的那个尺度作为目标的最终尺度大小。
该方法具有以下步骤:
步骤1、调整孪生网络结构并进行训练:
结构调整:将孪生网络第一层的卷积层用Inception模块进行替换,如图3所示,然后将第三、第五卷积层之后加上注意力模块,如图4所示,将相关滤波器加到网络的第三层之后,改进后的网络结构图如图2所示。改进后的网络模型用ImageNet数据集进行训练,得到改进后的网络参数。
训练过程:使用随机梯度下降法进行优化逻辑回归目标,卷积层初始学习率设置为0.001,训练过程包括50个迭代,每个迭代包括5000个样本对,批量大小设置为8。相关滤波器的正则化系数大小设置为0.1,相关滤波所用高斯函数的标准差设置为4.0。
步骤2、在Singer1的第一帧模板图像中,给定初始目标框为(48,98,40,142),其中初始目标中心为pos(48,98),目标的尺度大小target为40×142,目标中心的搜索区域window_sr为40×142。读取网络输入的模板图像以及搜索图像,根据给定的初始目标框(μ,ν,w,h),其中目标的位置为pos(μ,ν),目标的尺度大小为target(w,h)。然后通过以下公式可以生成标准模板图像:s(w+2p)×s(h+2p)=A,
Figure BDA0002745225450000161
其中A为1272,s是尺度因子,对图片扩展再进行resize,生成127×127的模板图像,以相同的方式生成大小为255×255的搜索图像。
步骤3、将预处理后的模板图像和搜索图像分别输入到网络中,经过Inception模块以及卷积层的特征提取模块得到特征值。设样本X的第l层大小为M×N×D的特征向量为
Figure BDA0002745225450000162
M,N和D分别表示宽度,高度和特征维度。第l层特征的相关滤波器所对应的高斯函数为Gl,那么第l层特征的相关滤波器需要最小化问题:
Figure BDA0002745225450000163
其中
Figure BDA0002745225450000164
为/>
Figure BDA0002745225450000165
的第d个通道,/>
Figure BDA0002745225450000166
表示为第d个通道的相关滤波器,*表示为循环卷积运算,λ为正则化系参数(λ≥0)。式中的问题可以转换到频域中,通过FFT训练相关滤波器,可以求得第d个通道的相关滤波器为/>
Figure BDA0002745225450000167
样本X通过第l个相关滤波器产生的相关响应图为:
Figure BDA0002745225450000168
其中,F(·)表示进行傅里叶变换,F-1表示傅里叶反变换,-表示复共轭,⊙表示逐像素相乘。将标准模板图像与搜索图像分别输入到网络中,标准模板图像经过Inception模块以及卷积层的特征提取,得到特征H1,将特征H1输入到相关滤波器,代入式得到对应的相关滤波器wh,根据wh计算得到响应图fh。标准搜索图像经过相同的结构得到特征H2和响应图fh2
步骤4、将低层的特征以及高层的特征通过注意力模块。先是通过通道注意力模块,然后再通过空间注意力模块。输入特征X通过最大池化和平均池化这两个操作来聚合特征图的空间信息,形成两个不同的特征描述
Figure BDA0002745225450000171
和/>
Figure BDA0002745225450000172
分别为最大池化特征和平均池化特征。这两个特征通过多层感知机网络生成最后的通道注意力图Mc∈Rc×1×1,R表示大小为C*1*1的实数集,C为特征图的通道数。通道注意力模块可以用式(22)来表示:/>
Figure BDA0002745225450000173
其中,σ表示激活函数,激活函数使用relu函数,W0和W1是多层感知机的两个权重值,W0∈RC/r×C,W1∈RC×C/r,RC/r×C为大小为C/r×C的实数集,C为特征图的通道数,r是一个缩放因子。
重标定通道特征F是由通道注意力输出的特征Mc所构成,然后再通过最大池化和平均池化操作分别得到两个不同的特征描述
Figure BDA0002745225450000174
和/>
Figure BDA0002745225450000175
然后使用一个卷积层将两者连接在一起生成最后的二维空间注意力图。可以用公式(23)来表示这一计算过程:
Figure BDA0002745225450000176
其中,σ表示激活函数,
Figure BDA0002745225450000177
f7×7表示一个滤波器大小为7×7卷积操作。
将H1特征输入到注意力模块,也就是代入式(3)和式(4)得到重标定特征fl,响应图的特征fh输入到注意力模块,然后代入式(3)和式(4)得到的特征为fh',将搜索分支上对应层的特征H2及fh2与重标定之后的特征进行卷积,得到低层响应图Rl和高层响应图Rh
步骤5、将通过注意力模块的特征图采用AdaBoost算法进行融合。用输出响应图与以目标位置为中心的期望高斯分布计算出它们之间的误差,然后根据这个误差使用AdaBoost算法自适应加权响应图。在第t-1帧时,设目标响应图位置为(x,y),期望高斯分布为gt-1(x,y),则响应图
Figure BDA0002745225450000181
相对于高斯分布的误差函数为:
Figure BDA0002745225450000182
其中,abs(·)表示绝对值操作,Mean(·)表示平均值操作,
Figure BDA0002745225450000183
表示第t-1帧第i层特征图位置(x,y)的响应值,gt-1(x,y)表示为目标位置(x,y)的期望高斯分布,然后根据式(25)计算出每个响应图在最后的分类器中所占的比例:
Figure BDA0002745225450000184
最终的响应图为:
Figure BDA0002745225450000185
所以在t帧时最终的响应图中的目标位置(x,y)为:
Figure BDA0002745225450000186
步骤6、确定第t帧的目标中心位置为qt之后,用Pt×Rt表示当前目标的大小,wt×ht表示当前搜索区域大小,S表示尺度滤波器的大小,设置为33,a表示尺度因子,设置为1.02,n表示尺度级别,以qt为中心,创建一个多尺度的候选区域:
Figure BDA0002745225450000187
并计算其HOG特征ot(n),大小为1×U,给定一维高斯样本标签gs(n),将特征ot(n)转换到频域为Ot(n),其共轭复数为
Figure BDA0002745225450000191
gs(n)转换到频域表示为Gs(n),其共轭复数为
Figure BDA0002745225450000192
则尺度滤波器Kt(n):
Figure BDA0002745225450000193
其中,λs表示尺度滤波器的正则化参数,在随后的第t+1帧中确定目标中心点为pt+1(n)之后,以pt+1(n)为中心进行不同尺度的采样,对第n个尺度来说,其HOG特征在频域中表示为Vt(n),则可得到对应的响应图为:
Figure BDA0002745225450000194
其中,
Figure BDA0002745225450000195
表示反傅里叶变换。
通过寻找响应图中响应值最大所对应的n,即可以求得目标的最佳尺度,即:
Figure BDA0002745225450000196
可以得到最终的目标的尺度为
Figure BDA0002745225450000197
并且搜索区域更新为
Figure BDA0002745225450000198
步骤7、尺度滤波器更新
假设上式的分子和分母分别表示为Ct和Dt,那么尺度滤波器的更新公式为:
Figure BDA0002745225450000199
Figure BDA00027452254500001910
Figure BDA00027452254500001911
其中,η和ηs分别表示位置滤波器和尺度滤波器的学习率。
步骤8、判断当前帧是否是最后一帧,如果是,则结束,否则返回步骤2,读取新一帧搜索图像重新生成标准搜索图像继续进行目标跟踪。
通过计算目标跟踪在不同层的特征组合下的成功率和准确率,我们发现第三层和第五层的特征组合可以得到比较好的成功率和准确率,本发明采用的是第三层和第五层的特征组合。
为验证本发明方法的效果,进行了以下验证实验:
本发明采用OTB(Online Tracking Benchmark)平台上的50个公认的、已标注的视频序列来进行测试,它们模拟真实场景中的各种情况,包含光照变化、尺度变换、部分或严重遮挡、形变等。表1为本发明实验的硬件及软件仿真环境。
表1实验的硬件及软件仿真环境
CPU Intel(R)Core(TM)i5-8265U CPU@3.4GHz
内存 8.00GB
操作系统 Windows 10
开发环境 MATLAB R2017a、Visual Studio 2015
编程语言 Matlab、C++
在OTB测试平台上,主要有两种评价标准:精确度(Precision Plot)和成功率(Success Plot)。
在跟踪过程中,精确度是评价一个算法跟踪器是否能够准确的得出后续帧的目标位置的关键,算法跟踪器得出的目标位置一般称为预测值,人工标注的目标位置称之为真实值(groundtruth),准确度就是通过计算预测值偏离真实值的偏差,一般使用欧式距离来计算预测值和真实值之间的距离。如果这个距离小于给定的阈值,跟踪就越准确,相反,跟踪就越不准确。用精度曲线反映预测值与真实值的误差在给定阈值距离内占总帧数的百分比,作为这个算法的精确度。一般这个阈值设置为20像素,不同的阈值得到的精确度是不一样的,将所有的阈值情况的精度绘制出来就变成了精确度图。
成功率是目标跟踪器得到的候选目标框与人工标注的真实区域之间的重叠精度来测量。将目标跟踪器得到的候选区域标注为Ra,人工标注的目标真实区域标注为Rb,那么它们的重叠精度为:
Figure BDA0002745225450000211
其中,Ra∩Rb表示区域Ra与区域Rb的重叠区域,Ra∪Rb表示区域Ra与区域Rb的联合区域。这个重叠精度得分越高,表示跟踪越准确。一般将重叠精度的阈值设置为0.5,不同阈值得到的重叠精度得分也是不一样的,将所有的阈值情况的重叠精度绘制出来就变成了成功率图。
综上所述,精确度和成功率越高,目标跟踪的性能越好。而评价跟踪效率的标准采用每秒的处理帧数(帧/秒),算法每秒处理的帧数越多,说明跟踪实时性越好。
如图5所示,本发明在20像素的阈值下仍然有着82.6%的准确度,与ECO、SiamFC、SSC和KCF相比,本发明分别提高了0.9%,4.9%,8.2%和10.6%。在图(b)中,我们将重叠精度的阈值设置为0.5,本文的成功率达到了63.3%。相比于ECO、SiamFC、SSC和KCF这几个算法,本发明的成功率分别提高了1.1%,4.7%、9.6%和11.9%。在背景杂波的条件下,本发明仍然保持着比较高的准确度和精确度。图(c)中,本发明在背景杂波条件下的准确度相比于ECO、SiamFC、SSC和KCF分别提高了2.3%,9.4%,12.2%和20.3%。图(d)中,本发明在背景杂波的条件下的成功率对比于ECO、SiamFC、SSC和KCF分别提高了1.9%,9.9%,10.6%和16.6%。
图6为本发明部分跟踪效果图,红色框为本发明的跟踪框,而蓝色为原始SAMF算法的跟踪框,绿色为SiamFC算法的跟踪框,黑色为KCF算法的跟踪框,玫红色为DSST算法的跟踪框。由图可知,三个视频序列都存在明显的尺度变化,在CarScale序列中,目标逐渐靠近摄像头,尺度越来越大,第244帧,HCF、CT、Stuck和KCF都只跟踪到目标的一小部分,本文算法能较好的实现目标尺度自适应。
本发明提出了一种基于分层注意力机制的孪生网络跟踪算法。使用了不同层的特征进行融合,并且在提取特征的过程中,使用了注意力机制对特征图进行重标定,使用AdaBoost算法对目标特征图进行加权融合,提高了响应图的可靠性。同时还引入了尺度估计模块,在检测出目标位置的时候,对目标进行多尺度的缩放。在对目标进行尺度缩放的过程中,本发明使用了基于区域的快速HOG特征提取算法对提取过程进行了加速,使孪生网络能够快速的提取HOG特征,从而加速跟踪的速度。所提出的算法既能够精确跟踪目标,又能有效地提高跟踪速度。
实施例三:
本发明实施例还提供了一种基于分层注意力机制的孪生网络视频跟踪装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。
实施例四:
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,所述方法包括以下步骤:
步骤1、读取并预处理网络输入的模板图像和搜索图像;
步骤2、将预处理后的模板图像和搜索图像分别输入到训练好的孪生网络模型中,经过Inception模块以及卷积层的特征提取模块分别得到模板图像和搜索图像的特征图;
所述孪生网络模型包括模板分支和搜索分支,模板分支和搜索分支特征提取模块分别提取特征,模板分支上加入注意力模块进行特征重标定;
步骤3、通过模板分支网络第三卷积层提取低层特征,通过模板分支网络第五卷积层提取高层特征,将所述低层特征与所述高层特征分别通过注意力模块;
步骤4、将模板分支通过注意力模块的特征与搜索分支得到的特征进行相关操作,得到各层对应的响应图,再将各层响应图采用AdaBoost算法进行融合得到最终响应图,进而得到目标位置;
步骤5、在目标位置的基础上利用尺度滤波器进行尺度估计,通过设置尺度池,训练尺度滤波器选出最优尺度大小;
步骤6、根据最优尺度大小更新尺度滤波器;
步骤7、判断当前帧是否是最后一帧,如果是,则结束,否则读取新一帧搜索图像并跳转步骤1。
2.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,所述方法的步骤还包括:构建并训练孪生网络模型;
所述孪生网络模型的构建方法为:
构建原孪生网络模型,包括模板分支和搜索分支,所述模板分支和搜索分支均包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层,将原孪生网络模型的模板分支的第一卷积层用Inception模块进行替换,然后将第三、第五卷积层之后加上注意力模块,将相关滤波器加到原孪生网络模型的模板分支的第三卷积层之后;
所述孪生网络模型的训练方法包括:用ImageNet数据集进行训练,得到改进后的网络参数。
3.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,步骤1中,所述预处理网络输入的模板图像和搜索图像的方法包括:
根据给定的初始目标框(μ,ν,w,h),(μ,ν)代表目标中心位置的横纵坐标,(ω,h)代表目标的宽度和高度;其中目标的位置为pos(μ,ν),目标的尺度大小为target(w,h),通过以下公式调整模板图像的大小:
s(w+2p)×s(h+2p)=A (1)
Figure FDA0002745225440000021
其中A是模板图像的大小,值为定值1272像素,s是尺度因子,p是上下文边界;
先将包含上下文信息的(w+2p)×(h+2p)的图片扩展,然后进行尺寸调整,生成大小为127×127像素的模板图像;以相同的方式将搜索图像的大小设置为255×255像素。
4.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,步骤2中,所述特征图的提取方法包括以下步骤:
Figure FDA0002745225440000031
为样本X的第l层的特征向量,样本X的第l层大小为M×N×D,RM×N×D表示大小为M×N×D的实数集,M,N和D分别表示样本X的宽度,高度和特征维度;第l层特征的相关滤波器所对应的高斯函数为Gl,样本X的第l层特征的相关滤波器需要最小化按下面公式计算:
Figure FDA0002745225440000032
其中
Figure FDA0002745225440000033
为/>
Figure FDA0002745225440000034
的第d个通道,/>
Figure FDA0002745225440000035
表示为第d个通道的相关滤波器,*表示为循环卷积运算,λ为正则化系参数(λ≥0);通过FFT训练相关滤波器,求得第d个通道的相关滤波器为/>
Figure FDA0002745225440000036
样本X通过第l个相关滤波器产生的相关响应图的计算公式为:
Figure FDA0002745225440000037
其中,F(·)表示进行傅里叶变换,F-1表示傅里叶反变换,-表示复共轭,⊙表示逐像素相乘。
5.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,步骤3中,将特征图通过注意力模块的方法包括以下步骤:
先将特征图通过通道注意力模块,然后再将特征图通过空间注意力模块;
通过最大池化和平均池化聚合特征图的空间信息,形成两个不同的特征描述
Figure FDA0002745225440000038
Figure FDA0002745225440000039
分别为输入特征X的最大池化特征和平均池化特征;
根据所述最大池化特征和平均池化特征,通过多层感知机网络生成最后的通道注意力图Mc∈Rc×1×1,Rc×1×1表示大小为C×1×1的实数集,C为特征图的通道数,通道注意力模块可以用下式来表示:
Figure FDA0002745225440000041
其中,σ表示激活函数,激活函数使用relu函数,W0和W1是多层感知机的两个权重值,W0∈RC/r×C,W1∈RC×C/r,RC/r×C为大小为C/r×C的实数集,C为特征图的通道数,r是缩放因子,X是输入特征,
Figure FDA0002745225440000042
是最大池化特征,/>
Figure FDA0002745225440000043
是平均池化特征;
重标定通道特征F是由通道注意力输出的特征Mc所构成,然后再通过最大池化和平均池化操作分别得到两个不同的特征描述
Figure FDA0002745225440000044
和/>
Figure FDA0002745225440000045
然后使用一个卷积层将两者连接在一起生成最后的二维空间注意力图,用下式来表示重标定通道特征F经过空间注意力模块的计算过程:
Figure FDA0002745225440000046
其中,σ表示激活函数,
Figure FDA0002745225440000047
R1×H×W表示大小为1×H×W的实数集,H和W代表目标的宽度和高度,f7×7表示一个滤波器大小为7×7卷积操作,/>
Figure FDA0002745225440000048
表示最大池化特征,/>
Figure FDA0002745225440000049
表示平均池化特征。
6.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,步骤4中,将通过注意力模块的特征图采用AdaBoost算法进行融合的方法包括以下步骤:
计算出输出响应图与以目标位置为中心的期望高斯分布之间的误差,然后根据这个误差使用AdaBoost算法自适应加权响应图;
在第t-1帧时,设目标响应图位置为(x,y),期望高斯分布为gt-1(x,y),则响应图
Figure FDA00027452254400000410
相对于高斯分布的误差函数为:
Figure FDA00027452254400000411
其中,abs(·)表示绝对值操作,Mean(·)表示平均值操作,
Figure FDA0002745225440000051
表示第t-1帧第i层特征图位置(x,y)的响应值,gt-1(x,y)表示为目标位置(x,y)的期望高斯分布,然后根据这个误差函数计算出每个响应图在最后的分类器中所占的比例:
Figure FDA0002745225440000052
其中,εi表示第i层特征图的误差;
最终的响应图为:
Figure FDA0002745225440000053
其中,αi表示第i层的权重,Ri表示第i层的响应图,Rt表示第t帧特征图的响应值;
所以在t帧时最终的响应图中的目标位置(x,y)为:
Figure FDA0002745225440000054
Rt表示第t帧特征图的响应值。
7.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,步骤5中,选出最优尺度大小的方法包括以下步骤:
对得到的目标位置区域进行一个不同尺度的采样,在预测到目标的位置的时候,以这个位置为中心,创建一个多尺度的候选区域:
Figure FDA0002745225440000055
其中,a是尺度因子,S为候选区域的数量,W×H为上一帧目标框的大小;
并计算其HOG特征ot(n),大小为1×U,给定一维高斯样本标签gs(n),将特征ot(n)转换到频域为Ot(n),其共轭复数为
Figure FDA0002745225440000056
gs(n)转换到频域表示为Gs(n),其共轭复数为/>
Figure FDA0002745225440000061
则尺度滤波器Kt(n):
Figure FDA0002745225440000062
其中,λs表示尺度滤波器的正则化参数;
在随后的第t+1帧中确定目标中心点为pt+1(n)之后,以pt+1(n)为中心进行不同尺度的采样,对第n个尺度来说,其HOG特征在频域中表示为Vt(n),则可得到对应的响应图为:
Figure FDA0002745225440000063
其中,
Figure FDA0002745225440000064
表示反傅里叶变换,Kt(n)表示尺度滤波器,Vt(n)表示频域特征;
通过寻找响应图中响应值最大所对应的n,即可以求得目标的最佳尺度,即:
Figure FDA0002745225440000065
得到最终的目标的尺度为
Figure FDA0002745225440000066
并且按下式更新搜索区域:
Figure FDA0002745225440000067
Figure FDA0002745225440000068
其中,a是尺度因子,wt表示第t帧目标宽度,ht表示第t帧目标高度。
8.根据权利要求1所述的基于分层注意力机制的孪生网络视频跟踪方法,其特征在于,在步骤6中,根据最优尺度大小更新尺度滤波器,所述尺度滤波器的更新公式为:
Figure FDA0002745225440000069
Figure FDA00027452254400000610
Figure FDA00027452254400000611
式中,η表示学习率,Ot(n)表示频域特征,-表示复共轭,Gs(n)表示频域的高斯输出,λs表示尺度滤波器的正则化参数。
9.一种基于分层注意力机制的孪生网络视频跟踪装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~8任一项所述方法的步骤。
10.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~8任一项所述方法的步骤。
CN202011164003.0A 2020-10-27 2020-10-27 一种孪生网络视频目标跟踪方法及装置 Active CN112348849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011164003.0A CN112348849B (zh) 2020-10-27 2020-10-27 一种孪生网络视频目标跟踪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011164003.0A CN112348849B (zh) 2020-10-27 2020-10-27 一种孪生网络视频目标跟踪方法及装置

Publications (2)

Publication Number Publication Date
CN112348849A CN112348849A (zh) 2021-02-09
CN112348849B true CN112348849B (zh) 2023-06-20

Family

ID=74359107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011164003.0A Active CN112348849B (zh) 2020-10-27 2020-10-27 一种孪生网络视频目标跟踪方法及装置

Country Status (1)

Country Link
CN (1) CN112348849B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192124A (zh) * 2021-03-15 2021-07-30 大连海事大学 一种基于孪生网络的图像目标定位方法
CN113344971B (zh) * 2021-05-21 2023-03-28 河南科技大学 一种融合卡尔曼滤波的孪生红外目标跟踪方法
CN113297959A (zh) * 2021-05-24 2021-08-24 南京邮电大学 一种基于角点注意力孪生网络的目标跟踪方法及系统
CN113469072B (zh) * 2021-07-06 2024-04-12 西安电子科技大学 基于GSoP和孪生融合网络的遥感图像变化检测方法及系统
CN113658218B (zh) * 2021-07-19 2023-10-13 南京邮电大学 一种双模板密集孪生网络跟踪方法、装置及存储介质
CN113283407A (zh) * 2021-07-22 2021-08-20 南昌工程学院 一种基于通道与空间注意力机制的孪生网络目标跟踪方法
CN113793359B (zh) * 2021-08-25 2024-04-05 西安工业大学 一种融合孪生网络与相关滤波的目标跟踪方法
CN113643329B (zh) * 2021-09-01 2022-04-19 北京航空航天大学 一种基于孪生注意力网络的在线更新目标跟踪方法和系统
CN114332151B (zh) * 2021-11-05 2023-04-07 电子科技大学 一种基于阴影Video-SAR中感兴趣目标跟踪方法
CN114299111B (zh) * 2021-12-21 2022-11-04 中国矿业大学 一种基于半监督孪生网络的红外弱小目标跟踪方法
CN114782488A (zh) * 2022-04-01 2022-07-22 燕山大学 一种基于通道感知的水下目标跟踪方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734151A (zh) * 2018-06-14 2018-11-02 厦门大学 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法
CN111291679A (zh) * 2020-02-06 2020-06-16 厦门大学 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033478A (zh) * 2019-04-12 2019-07-19 北京影谱科技股份有限公司 基于深度对抗训练的视觉目标跟踪方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734151A (zh) * 2018-06-14 2018-11-02 厦门大学 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法
CN111291679A (zh) * 2020-02-06 2020-06-16 厦门大学 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Tiny Darknet全卷积孪生网络的目标跟踪;史璐璐;张索非;吴晓富;;南京邮电大学学报(自然科学版)(第04期);全文 *

Also Published As

Publication number Publication date
CN112348849A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112348849B (zh) 一种孪生网络视频目标跟踪方法及装置
CN110097568B (zh) 一种基于时空双分支网络的视频对象检测与分割方法
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
CN107689052B (zh) 基于多模型融合和结构化深度特征的视觉目标跟踪方法
CN110120065B (zh) 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及系统
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
CN111080675B (zh) 一种基于时空约束相关滤波的目标跟踪方法
CN110889863B (zh) 一种基于目标感知相关滤波的目标跟踪方法
CN109492596B (zh) 一种基于K-means聚类和区域推荐网络的行人检测方法及系统
CN111582349B (zh) 一种基于YOLOv3和核相关滤波改进的目标跟踪算法
CN110276784B (zh) 基于记忆机制与卷积特征的相关滤波运动目标跟踪方法
CN112651998A (zh) 基于注意力机制和双流多域卷积神经网络的人体跟踪算法
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN115375737B (zh) 基于自适应时间与序列化时空特征的目标跟踪方法与系统
CN108537825B (zh) 一种基于迁移学习回归网络的目标跟踪方法
CN115239760B (zh) 一种目标跟踪方法、系统、设备及存储介质
CN115359407A (zh) 一种视频中的多车辆跟踪方法
Zhang et al. A modified faster region-based convolutional neural network approach for improved vehicle detection performance
Guan et al. Abnormal behavior recognition using 3D-CNN combined with LSTM
CN110827327B (zh) 一种基于融合的长期目标跟踪方法
Fan et al. MP-LN: motion state prediction and localization network for visual object tracking
CN108257148B (zh) 特定对象的目标建议窗口生成方法及其在目标跟踪的应用
CN113793359A (zh) 一种融合孪生网络与相关滤波的目标跟踪方法
CN109858326A (zh) 基于类别语义弱监督的在线视觉跟踪方法及系统
CN116229112A (zh) 一种基于多重注意力的孪生网络目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant