CN114707604A - 一种基于时空注意力机制的孪生网络跟踪系统及方法 - Google Patents

一种基于时空注意力机制的孪生网络跟踪系统及方法 Download PDF

Info

Publication number
CN114707604A
CN114707604A CN202210359573.8A CN202210359573A CN114707604A CN 114707604 A CN114707604 A CN 114707604A CN 202210359573 A CN202210359573 A CN 202210359573A CN 114707604 A CN114707604 A CN 114707604A
Authority
CN
China
Prior art keywords
search
classification
image data
template
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210359573.8A
Other languages
English (en)
Inventor
卢先领
刘如浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202210359573.8A priority Critical patent/CN114707604A/zh
Publication of CN114707604A publication Critical patent/CN114707604A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了计算机视觉的目标跟踪技术领域的一种基于时空注意力机制的孪生网络跟踪系统及方法,包括:获取图像数据中的模板图像数据和搜索图像数据;将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;将模板特征数据与时空注意力信息特征互相关得到响应图;将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。本发明能够更够准确的跟踪目标,有效解决模型对于时空上下文信息难以建立关联、目标分类与边界框回归较为复杂等问题。

Description

一种基于时空注意力机制的孪生网络跟踪系统及方法
技术领域
本发明涉及一种基于时空注意力机制的孪生网络跟踪系统及方法,属于计算机视觉的目标跟踪技术领域。
背景技术
目标跟踪广泛应用在视频分析、智能交通、虚拟现实等领域,其核心任务是给定目标在视频第一帧初始位置后,自动估计后续帧中目标的位置。但跟踪过程中容易受到遮挡、模糊、形变、光照变化等一系列复杂因素的干扰,因此,设计一个可以在现实复杂场景下稳定高效运行的跟踪方法是十分具有研究与实用价值的。
目前,现有的跟踪算法大致可以分为两大类。一类将相关滤波的思想应用到跟踪领域,提出了误差最小平方和滤波器目标跟踪算法:将跟踪器模板的求解由时域复杂运算转换为傅里叶域点乘计算,计算量大大减少,跟踪器速度得到飞跃性提升。虽然这种算法在速度上很快,但是精度并不理想。另一类,为了取得精度与速度之间的平衡,基于深度学习的孪生网络跟踪算法逐渐流行。孪生网络主要由特征提取过程中共享参数的模板分支与搜索分支组成。利用相似性学习的方法,提出了全卷积孪生网络跟踪算法,通过计算目标模板与搜索区域深度特征之间的相似值,将跟踪问题转化为相似匹配问题。该算法可以使用大量数据进行端到端的离线训练,既可以获得较高的精度,也无需在线调整。通过在全卷积孪生网络目标跟踪算法中引入检测领域的区域建议网络,使用区分前景与背景、回归边界框的方法,实现了对目标尺度的灵活应对,同时得到了更为精确的边界框。实验结果表明,这种组合模型的跟踪效果要明显优于相关滤波算法和全卷积孪生网络算法。
但是,基于孪生网络的大部分目标跟踪算法中存在两大不足:
(1)基于孪生网络的跟踪算法并没有关注视频序列帧间和帧内的关联,造成目标并不能在时间和空间上产生相应的关联性。
(2)跟踪算法对目标的分类与回归相对较为粗糙与复杂,难以对最后的结果形成较为精确的分类结果与边界框。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于时空注意力机制的孪生网络跟踪系统及方法,能够更够准确的跟踪目标,有效解决模型对于时空上下文信息难以建立关联、目标分类与边界框回归较为复杂等问题。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于时空注意力机制的孪生网络跟踪方法,包括:
获取图像数据中的模板图像数据和搜索图像数据;
将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
将模板特征数据与时空注意力信息特征互相关得到响应图;
将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
进一步的,获取图像数据中的模板图像数据和搜索图像数据,包括:将数据集或摄像头捕捉画面的第一帧图像以目标为中心裁剪出指定像素大小的图像作为模板图像数据,在跟踪过程中第i+1帧以第i帧目标位置为中心裁剪出设定大小的图像作为搜索图像数据。
进一步的,所述特征提取公式为:
Figure BDA0003584451790000031
其中,I是输入图像矩阵,I((xa,ya),(xb,yb))为I的子矩阵,(xa,ya)和(xb,yb)为子矩阵的左上角与右下角的直角坐标系的坐标,k为提取特征数据的步长,f(·)为特征提取函数。
进一步的,所述时空注意力信息特征为:
Figure BDA0003584451790000032
其中,oi为时空注意力信息特征,
Figure BDA0003584451790000033
为空间注意力信息特征,
Figure BDA0003584451790000034
为时间注意力信息特征,zi为输入特征;
所述空间注意力信息特征为:
Figure BDA0003584451790000035
Figure BDA0003584451790000036
Figure BDA0003584451790000037
Figure BDA0003584451790000038
Figure BDA0003584451790000039
Figure BDA00035844517900000310
Figure BDA00035844517900000311
其中,
Figure BDA0003584451790000041
为空间特征,C(ZS)为归一化因子,f为高斯函数,
Figure BDA0003584451790000042
Figure BDA0003584451790000043
分别是位置i和位置j的特征,g为一元函数,
Figure BDA0003584451790000044
是可学习参数,
Figure BDA0003584451790000045
Figure BDA0003584451790000046
均为空间特征权重。
进一步的,所述响应图为:
Figure BDA0003584451790000047
其中,
Figure BDA0003584451790000048
为响应图,
Figure BDA0003584451790000049
为卷积特征提取函数,*为卷积互相关运算,TS(·)为实际注意力模块,b1为响应图每个位置的偏置值,x为搜索特征数据,z为模板特征数据。
进一步的,将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框,包括:
将响应图进行升维到
Figure BDA00035844517900000410
所述分类回归网络中的分类分支对于
Figure BDA00035844517900000411
上每一个像素点预测类别得到分类图
Figure BDA00035844517900000412
其中,分类图Acls每一个(i,j,:)包含了一个代表了搜索区域前景与背景的置信度的2D向量;
所述分类回归网络中的回归分支计算
Figure BDA00035844517900000413
上每一个像素点到边界框的距离得到回归图
Figure BDA00035844517900000414
其中,回归图Areg上每一个点(i,j,:)包含一个4D向量m(i,j)=(l*,t*,r*,b*),代表输入搜索区域对应点到预测边界框四条边的距离,公式为:
Figure BDA00035844517900000415
Figure BDA00035844517900000416
其中,
Figure BDA00035844517900000417
为搜索区域对应点与预测边界框左上角横坐标距离,l*为搜索区域对应点与预测边界框左上角横坐标距离,x为搜索区域对应点横坐标,x0为预测边界框左上角横坐标,
Figure BDA00035844517900000418
为搜索区域对应点与预测边界框左上角纵坐标距离,t*为搜索区域对应点与预测边界框左上角纵坐标距离,y为搜索区域对应点纵坐标,y0为预测边界框左上角纵坐标,
Figure BDA0003584451790000051
为搜索区域对应点与预测边界框右下角横坐标距离,r*为搜索区域对应点与预测边界框右下角横坐标距离,x1为预测边界框右下角横坐标,
Figure BDA0003584451790000052
为搜索区域对应点与预测边界框右下角纵坐标距离,b*为搜索区域对应点与预测边界框右下角纵坐标距离,y1为预测边界框右下角纵坐标;
所述分类回归网络中的中心度分支计算
Figure BDA0003584451790000053
上每一个像素点到目标中心的距离得到中心度图
Figure BDA0003584451790000054
中心度图Acen上每一个点(i,j,:)包含一个代表搜索区域对应点和目标中心的距离的1D向量C(i,j),公式为:
Figure BDA0003584451790000055
Figure BDA0003584451790000056
其中,Γ(m(i,j))为指示函数。
进一步的,所述分类分支的分类损失函数Lcls采用交叉熵损失函数,回归分支的回归损失函数Lreg采用IOU损失函数,中心度分支的中心度损失函数Lcen为:
Figure BDA0003584451790000057
总的损失函数L为:
L=Lcls1Lreg2Lcen
其中,λ1与λ2均为超参数。
第二方面,本发明提供了一种基于时空注意力机制的孪生网络跟踪系统,包括:
数据获取模块:用于获取图像数据中的模板图像数据和搜索图像数据;
特征提取模块:用于将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
时空特征运算模块:用于将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
互相关运算模块:用于将模板特征数据与时空注意力信息特征互相关得到响应图;
分类回归模块:用于将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
第三方面,本发明提供了一种基于时空注意力机制的孪生网络跟踪装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明提供了一种基于时空注意力模块的孪生网络跟踪算法,在SiamFC算法基础上,引入了基于非局部操作的空间注意力模块和时间注意力模块,对目标周围的时间与空间上下文信息进行建模,可以充分利用不同帧与通道之间的相互依赖关系,提高网络的特征提取能力。最后,对响应图的像素进行前后背景分类,并进行逐一回归并视为相对边界框,最好联合中心度分支抑制低质量边界框的产生,降低计算量和位置预测的复杂度。
附图说明
图1是本发明实施例一提供的基于时空注意力机制和分类回归的孪生网络目标跟踪方法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
一种基于时空注意力机制的孪生网络跟踪方法,下面结合具体实施例对本发明作更进一步的说明,如图1所示,包括如下步骤:
步骤S1,孪生网络主要分为模板分支与搜索分支,其作用是用于提取图像数据的深层特征,我们将数据集或摄像头捕捉画面的第一帧图像以目标为中心裁剪出127×127×3像素大小的图像作为模板图像,在跟踪过程中第i+1帧以第i帧目标位置为中心裁剪出大小为255×255×3大小的图像作为搜索图像,继而将模板图像数据与搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,分别得到模板特征数据w1与搜索特征数据x。
步骤S2,将搜索特征数据x输入到时空注意力机制模块中,学习特征数据在T帧内时间与空间上的关联性,得到时空注意力信息特征。
步骤S3,将模板特征数据w1与时空注意力信息特征互相关得到特征数据c。
步骤S4,将特征数据作为分类回归网络的输入,对于特征数据中进行逐像素的分类与回归,区分每个像素点属于前景还是背景,并且计算像素点到预测框的距离并联合中心度分支抑制低质量边界框产生,减少计算量同时简化了位置预测的复杂性。
S1具体步骤为:将模板图像数据与搜索图像数据输入到模板分支和搜索分支中进行特征提取,分别得到模板特征数据与搜索特征数据,两个分支在分别提取特征数据的过程中共享参数的,其中特征提取过程如公式(1)所示:
Figure BDA0003584451790000081
其中,I是输入图像矩阵,I((xa,ya),(xb,yb))为I的子矩阵,(xa,ya)和(xb,yb)为子矩阵的左上角与右下角的直角坐标系的坐标,k为提取特征数据的步长,f(·)为特征提取函数。
S2的具体步骤为:将搜索特征数据作为时空注意力模块的输入,其特征的维度为W×H×C×T,其中W、H、C、T分别代表长度、宽度、通道,帧的数量,将空间注意力模块的输入特征表示为
Figure BDA0003584451790000082
Figure BDA0003584451790000083
N=W×H;将输入特征嵌入到高斯函数(θ和
Figure BDA0003584451790000084
)中计算两个位置的相关性,并对每一个位置进行加权:
Figure BDA0003584451790000085
其中,
Figure BDA0003584451790000086
Figure BDA0003584451790000087
分别是位置i和位置j的特征,归一化因子
Figure BDA0003584451790000088
函数g是一个一元函数,即
Figure BDA0003584451790000089
Figure BDA00035844517900000810
是可学习参数;函数f是一个高斯函数:
Figure BDA00035844517900000811
其中,
Figure BDA00035844517900000812
Figure BDA00035844517900000813
Figure BDA00035844517900000814
为空间特征权重,为了降低计算成本,在函数
Figure BDA00035844517900000815
和g之后添加2×2的最大池化层。
通过函数ω使得加权结果的维度与输入保持一致,得到W×H×T×C的空间注意力信息:
Figure BDA0003584451790000091
其中,
Figure BDA0003584451790000092
为空间特征权重,
Figure BDA0003584451790000093
为空间特征,将时间注意力模块的输入特征表示为
Figure BDA0003584451790000094
Figure BDA0003584451790000095
通过公式(1)(2)(3)得到时间维度的注意力信息
Figure BDA0003584451790000096
与空间注意力信息与输入特征融合得到时空注意力信息与输入特征得到时空注意力信息特征:
Figure BDA0003584451790000097
其中,oi为时空注意力信息特征,zi为输入特征。
S3的具体步骤为:将模块特征与时空注意力信息特征进行卷积相关操作,得到响应图
Figure BDA0003584451790000098
Figure BDA0003584451790000099
其中
Figure BDA00035844517900000910
为卷积特征提取函数,*为卷积互相关运算,TS(·)为实际注意力模块,b1为响应图每个位置的偏置值,x为搜索特征数据,z为模板特征数据。
S4的具体步骤为:孪生网络互相关产生的响应图
Figure BDA00035844517900000911
进行升维到
Figure BDA00035844517900000912
分类分支对于
Figure BDA00035844517900000913
上每一个像素点预测类别得到分类图
Figure BDA00035844517900000914
回归分支计算像素点到边界框的距离得到回归图
Figure BDA00035844517900000915
中心度分支计算像素点到目标中心的距离得到中心度图
Figure BDA00035844517900000916
响应图上的每一个像素点(I,j)都可以映射到输入分支中的搜索区域点(x,y),(x0,y0)、(x1,y1)真实边界框的左上角和右下角位置,对于分类图Acls每一个(i,j,:)包含了一个2D向量,代表了搜索区域前景与背景的置信度。对于回归图Areg上每一个点(i,j,:)包含一个4D向量m(i,j)=(l*,t*,r*,b*),代表输入搜索区域对应点到预测边界框四条边的距离,定义如下:
Figure BDA0003584451790000101
Figure BDA0003584451790000102
其中,
Figure BDA0003584451790000103
为搜索区域对应点与预测边界框左上角横坐标距离,l*为搜索区域对应点与预测边界框左上角横坐标距离,x为搜索区域对应点横坐标,x0为预测边界框左上角横坐标,
Figure BDA0003584451790000104
为搜索区域对应点与预测边界框左上角纵坐标距离,t*为搜索区域对应点与预测边界框左上角纵坐标距离,y为搜索区域对应点纵坐标,y0为预测边界框左上角纵坐标,
Figure BDA0003584451790000105
为搜索区域对应点与预测边界框右下角横坐标距离,r*为搜索区域对应点与预测边界框右下角横坐标距离,x1为预测边界框右下角横坐标,
Figure BDA0003584451790000106
为搜索区域对应点与预测边界框右下角纵坐标距离,b*为搜索区域对应点与预测边界框右下角纵坐标距离,y1为预测边界框右下角纵坐标;
指示函数定义如下:
Figure BDA0003584451790000107
由于远离目标位置中心的像素点倾向于产生低质量的预测边界框,影响算法的跟踪性能,因此采取在分类分支基础上并行添加一个中心度分支从而去除异常值。中心度分支最后会生成中心度特征图Acen,Acen上每一个点(i,j,:)包含一个1D向量C(i,j),代表搜索区域对应点和目标中心的距离。
Figure BDA0003584451790000108
如果点(x,y)落在背景区域,C(i,j)的值即为0。
本文损失函数包括分类损失函数、回归损失函数、中心度损失函数。分类损失函数Lcls采用交叉熵损失函数,回归损失函数Lreg采用IOU损失函数。
中心度损失函数Lcen定义如下:
Figure BDA0003584451790000111
总的损失函数L如式所示:
L=Lcls1Lreg2Lcen (11)
其中,λ1与λ2为超参数。
本发明使用时空注意力机制可以有效增强网络模型对于目标在时间与空间上下文的联系,建立对于目标的时空上下文联系,通过分类与回归学习,对于每个像素都进行分类与预测以进行前景与背景的区分,使用中心度分支抑制低质量边界框的产生,配合分类与回归可以有效简化位置预测的复杂性,同时提高定位精度。
实施例二:
一种基于时空注意力机制的孪生网络跟踪系统,可实现实施例一所述的一种基于时空注意力机制的孪生网络跟踪方法,包括:
数据获取模块:用于获取图像数据中的模板图像数据和搜索图像数据;
特征提取模块:用于将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
时空特征运算模块:用于将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
互相关运算模块:用于将模板特征数据与时空注意力信息特征互相关得到响应图;
分类回归模块:用于将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
实施例三:
本发明实施例还提供了一种基于时空注意力机制的孪生网络跟踪装置,可实现实施例一所述的一种基于时空注意力机制的孪生网络跟踪方法,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行下述方法的步骤:
获取图像数据中的模板图像数据和搜索图像数据;
将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
将模板特征数据与时空注意力信息特征互相关得到响应图;
将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
实施例四:
本发明实施例还提供了一种计算机可读存储介质,可实现实施例一所述的一种基于时空注意力机制的孪生网络跟踪方法,其上存储有计算机程序,该程序被处理器执行时实现下述方法的步骤:
获取图像数据中的模板图像数据和搜索图像数据;
将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
将模板特征数据与时空注意力信息特征互相关得到响应图;
将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于时空注意力机制的孪生网络跟踪方法,其特征是,包括:
获取图像数据中的模板图像数据和搜索图像数据;
将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
将模板特征数据与时空注意力信息特征互相关得到响应图;
将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
2.根据权利要求1所述的基于时空注意力机制的孪生网络跟踪方法,其特征是,获取图像数据中的模板图像数据和搜索图像数据,包括:将数据集或摄像头捕捉画面的第一帧图像以目标为中心裁剪出指定像素大小的图像作为模板图像数据,在跟踪过程中第i+1帧以第i帧目标位置为中心裁剪出设定大小的图像作为搜索图像数据。
3.根据权利要求1所述的基于时空注意力机制的孪生网络跟踪方法,其特征是,所述特征提取公式为:
Figure FDA0003584451780000011
其中,I是输入图像矩阵,I((xa,ya),(xb,yb))为I的子矩阵,(xa,ya)和(xb,yb)为子矩阵的左上角与右下角的直角坐标系的坐标,k为提取特征数据的步长,f(·)为特征提取函数。
4.根据权利要求1所述的基于时空注意力机制的孪生网络跟踪方法,其特征是,所述时空注意力信息特征为:
Figure FDA0003584451780000021
其中,oi为时空注意力信息特征,
Figure FDA0003584451780000022
为空间注意力信息特征,
Figure FDA0003584451780000023
为时间注意力信息特征,zi为输入特征;
所述空间注意力信息特征为:
Figure FDA0003584451780000024
Figure FDA0003584451780000025
Figure FDA0003584451780000026
Figure FDA0003584451780000027
Figure FDA0003584451780000028
Figure FDA0003584451780000029
Figure FDA00035844517800000210
其中,
Figure FDA00035844517800000211
为空间特征,C(Zs)为归一化因子,f为高斯函数,
Figure FDA00035844517800000212
Figure FDA00035844517800000213
分别是位置i和位置j的特征,g为一元函数,
Figure FDA00035844517800000214
是可学习参数,
Figure FDA00035844517800000215
Figure FDA00035844517800000216
均为空间特征权重。
5.根据权利要求1所述的基于时空注意力机制的孪生网络跟踪方法,其特征是,所述响应图为:
Figure FDA00035844517800000217
其中,
Figure FDA00035844517800000218
为响应图,
Figure FDA00035844517800000219
为卷积特征提取函数,*为卷积互相关运算,TS(·)为实际注意力模块,b1为响应图每个位置的偏置值,x为搜索特征数据,z为模板特征数据。
6.根据权利要求1所述的基于时空注意力机制的孪生网络跟踪方法,其特征是,将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框,包括:
将响应图进行升维到
Figure FDA0003584451780000031
所述分类回归网络中的分类分支对于
Figure FDA0003584451780000032
上每一个像素点预测类别得到分类图
Figure FDA0003584451780000033
其中,分类图Acls每一个(i,j,:)包含了一个代表了搜索区域前景与背景的置信度的2D向量;
所述分类回归网络中的回归分支计算
Figure FDA0003584451780000034
上每一个像素点到边界框的距离得到回归图
Figure FDA0003584451780000035
其中,回归图Areg上每一个点(i,j,:)包含一个4D向量m(i,j)=(l*,t*,r*,b*),代表输入搜索区域对应点到预测边界框四条边的距离,公式为:
Figure FDA0003584451780000036
Figure FDA0003584451780000037
其中,
Figure FDA0003584451780000038
为搜索区域对应点与预测边界框左上角横坐标距离,l*为搜索区域对应点与预测边界框左上角横坐标距离,x为搜索区域对应点横坐标,x0为预测边界框左上角横坐标,
Figure FDA0003584451780000039
为搜索区域对应点与预测边界框左上角纵坐标距离,t*为搜索区域对应点与预测边界框左上角纵坐标距离,y为搜索区域对应点纵坐标,y0为预测边界框左上角纵坐标,
Figure FDA00035844517800000310
为搜索区域对应点与预测边界框右下角横坐标距离,r*为搜索区域对应点与预测边界框右下角横坐标距离,x1为预测边界框右下角横坐标,
Figure FDA00035844517800000311
为搜索区域对应点与预测边界框右下角纵坐标距离,b*为搜索区域对应点与预测边界框右下角纵坐标距离,y1为预测边界框右下角纵坐标;
所述分类回归网络中的中心度分支计算
Figure FDA00035844517800000312
上每一个像素点到目标中心的距离得到中心度图
Figure FDA00035844517800000313
中心度图Acen上每一个点(i,j,:)包含一个代表搜索区域对应点和目标中心的距离的1D向量C(i,j),公式为:
Figure FDA0003584451780000041
Figure FDA0003584451780000042
其中,Γ(m(i,j))为指示函数。
7.根据权利要求6所述的基于时空注意力机制的孪生网络跟踪方法,其特征是,所述分类分支的分类损失函数Lcls采用交叉熵损失函数,回归分支的回归损失函数Lreg采用IOU损失函数,中心度分支的中心度损失函数Lcen为:
Figure FDA0003584451780000043
总的损失函数L为:
L=Lcls1Lreg2Lcen
其中,λ1与λ2均为超参数。
8.一种基于时空注意力机制的孪生网络跟踪系统,其特征是,包括:
数据获取模块:用于获取图像数据中的模板图像数据和搜索图像数据;
特征提取模块:用于将模板图像数据和搜索图像数据分别输入到模板分支与搜索分支中进行特征提取,得到模板特征数据与搜索特征数据;
时空特征运算模块:用于将搜索特征数据输入到时空注意力机制模块中,得到时空注意力信息特征;
互相关运算模块:用于将模板特征数据与时空注意力信息特征互相关得到响应图;
分类回归模块:用于将响应图输入分类回归网络中进行逐像素的分类与回归,对每个像素点进行分类,计算像素点到预测框的距离,得到分类结果与边界框。
9.一种基于时空注意力机制的孪生网络跟踪装置,其特征是,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~7任一项所述方法的步骤。
10.计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现权利要求1~7任一项所述方法的步骤。
CN202210359573.8A 2022-04-07 2022-04-07 一种基于时空注意力机制的孪生网络跟踪系统及方法 Pending CN114707604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210359573.8A CN114707604A (zh) 2022-04-07 2022-04-07 一种基于时空注意力机制的孪生网络跟踪系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210359573.8A CN114707604A (zh) 2022-04-07 2022-04-07 一种基于时空注意力机制的孪生网络跟踪系统及方法

Publications (1)

Publication Number Publication Date
CN114707604A true CN114707604A (zh) 2022-07-05

Family

ID=82172789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210359573.8A Pending CN114707604A (zh) 2022-04-07 2022-04-07 一种基于时空注意力机制的孪生网络跟踪系统及方法

Country Status (1)

Country Link
CN (1) CN114707604A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578421A (zh) * 2022-11-17 2023-01-06 中国石油大学(华东) 一种基于多图注意力机制的目标跟踪算法
CN115761393A (zh) * 2022-10-18 2023-03-07 北京航空航天大学 一种基于模板在线学习的无锚目标跟踪方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761393A (zh) * 2022-10-18 2023-03-07 北京航空航天大学 一种基于模板在线学习的无锚目标跟踪方法
CN115578421A (zh) * 2022-11-17 2023-01-06 中国石油大学(华东) 一种基于多图注意力机制的目标跟踪算法
CN115578421B (zh) * 2022-11-17 2023-03-14 中国石油大学(华东) 一种基于多图注意力机制的目标跟踪算法

Similar Documents

Publication Publication Date Title
CN109344725B (zh) 一种基于时空关注度机制的多行人在线跟踪方法
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN111179307A (zh) 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN109446889B (zh) 基于孪生匹配网络的物体追踪方法及装置
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN110796686A (zh) 目标跟踪方法及设备、存储装置
Li et al. Implementation of deep-learning algorithm for obstacle detection and collision avoidance for robotic harvester
CN114707604A (zh) 一种基于时空注意力机制的孪生网络跟踪系统及方法
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN110827320B (zh) 基于时序预测的目标跟踪方法和装置
CN114092487A (zh) 目标果实实例分割方法及系统
CN113657560A (zh) 基于节点分类的弱监督图像语义分割方法及系统
CN111553950A (zh) 一种钢卷对中判断方法、系统、介质及电子终端
CN112036381B (zh) 视觉跟踪方法、视频监控方法及终端设备
CN107067410A (zh) 一种基于增广样本的流形正则化相关滤波目标跟踪方法
Guan et al. Abnormal behavior recognition using 3D-CNN combined with LSTM
Fu et al. A case study of utilizing YOLOT based quantitative detection algorithm for marine benthos
CN113255549B (zh) 一种狼群围猎行为状态智能识别方法及系统
CN110378929A (zh) 一种商业场所跨摄像头行人轨迹跟踪方法
CN116805387B (zh) 基于知识蒸馏的模型训练方法、质检方法和相关设备
CN112883928A (zh) 一种基于深度神经网络的多目标追踪算法
Zhang et al. Target tracking for mobile robot platforms via object matching and background anti-matching
CN113129332A (zh) 执行目标对象跟踪的方法和装置
Li et al. Research on YOLOv3 pedestrian detection algorithm based on channel attention mechanism
CN114820723A (zh) 一种基于联合检测和关联的在线多目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination