CN111179314B - 一种基于残差密集孪生网络的目标跟踪方法 - Google Patents

一种基于残差密集孪生网络的目标跟踪方法 Download PDF

Info

Publication number
CN111179314B
CN111179314B CN201911389973.8A CN201911389973A CN111179314B CN 111179314 B CN111179314 B CN 111179314B CN 201911389973 A CN201911389973 A CN 201911389973A CN 111179314 B CN111179314 B CN 111179314B
Authority
CN
China
Prior art keywords
image
target
residual
template
dense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911389973.8A
Other languages
English (en)
Other versions
CN111179314A (zh
Inventor
付利华
王路远
丁宇
章海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911389973.8A priority Critical patent/CN111179314B/zh
Publication of CN111179314A publication Critical patent/CN111179314A/zh
Application granted granted Critical
Publication of CN111179314B publication Critical patent/CN111179314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于残差密集孪生网络的目标跟踪方法,该方法首先在视频第一帧图像中提取待跟踪目标的模板图像,并将其输入到残差密集网络,获得初始模板特征,将提取的特征进一步输入全局注意力模块,获得模板特征,完成跟踪器初始化;然后对第t帧图像裁剪提取搜索区域图像,并将其输入到残差密集网络获得搜索区域特征;最后,将模板特征和搜索区域特征输入候选区域生成网络,得到前景与背景分类置信度和边界框回归估计值,进一步得到第t帧跟踪结果。应用本发明,解决了现有基于孪生网络的目标跟踪方法无法有效处理背景杂乱、相似语义干扰的问题,还解决了现有基于孪生网络的目标跟踪方法跟踪准确度低,鲁棒性差的问题。

Description

一种基于残差密集孪生网络的目标跟踪方法
技术领域
本发明属于图像处理和计算机视觉领域,尤其涉及一种基于残差密集孪生网络的目标跟踪方法。
背景技术
目标跟踪是指基于手动在视频第一帧中框选出的待跟踪目标,自动地在后续视频序列中持续地对目标的位置和尺度信息进行估计预测。目标跟踪是计算机视觉中的一个基本问题,在视频监控、无人机、人机界面和机器人感知等诸多领域中均有应用。
基于深度学习的目标跟踪算法采用大量具有标注的数据离线训练出网络模型,得益于大量的训练数据,基于深度学习的目标跟踪算法提取的特征比传统的手工选取特征具有更好的表现力,跟踪效果更好。在基于深度学习的目标跟踪算法中,基于孪生网络的方法因为无需在线更新,跟踪速度快,逐渐成为了主流的基于深度学习的目标跟踪算法。然而现有基于孪生网络的方法一般都采用AlexNet作为特征提取网络,其特征提取能力有限,无法应对目标跟踪面临的挑战;且在特征选择上只是将最后一层网络的输出作为特征,最后一层的特征虽然具有较多的语义信息,但是由于包含表观信息较少,达不到目标跟踪需要精准定位的要求。此外,对于未在训练集中出现过的目标,离线训练的深度特征不能很好地适应于此类目标。
为了解决上述问题,本发明提出了一种新的基于孪生网络的目标跟踪方法。
发明内容
本发明要解决的问题是:在现有基于孪生网络的目标跟踪方法中,使用AlexNet作为特征提取网络,其特征提取能力有限,无法很好地处理目标跟踪中的背景杂乱、相似语义干扰等问题;现有基于孪生网络的目标跟踪方法,在特征选择上仅选择最后一层网络的输出作为特征,无法对目标实现精准定位;在跟踪过程中,离线训练的深度特征不能很好地适应特定目标。需要提出一种新的基于孪生网络的目标跟踪方法,提高跟踪精度,更好地应对目标跟踪面临的复杂挑战。
为了解决上述问题,本发明提供了一种基于残差密集孪生网络的目标跟踪方法,以残差密集网络作为模板图像与搜索区域图像的特征提取网络,自适应融合多个残差密集块的特征,引入全局注意力模块强化模板特征中的目标相关信息、抑制背景信息,基于相似度匹配进行视觉目标跟踪。具体包括以下步骤:
1)对待跟踪视频的第一帧图像进行裁剪,根据手动选取的初始目标框信息,获取目标模板图像;
2)将目标模板图像输入到残差密集网络,提取初始模板特征;
3)将初始模板特征输入到全局注意力模块,提取模板特征,全局注意力模块用于强化初始模板特征中的目标相关信息、抑制背景信息;
4)对待跟踪视频的第t帧图像进行裁剪,获取第t帧的搜索区域图像;
5)将第t帧的搜索区域图像,输入到残差密集网络,得到搜索区域特征;
6)将模板特征与搜索区域特征输入到候选区域生成网络,得到跟踪结果。
作为进一步的优选方式,步骤1)所述获取目标模板图像,具体为:
1.1)对于第一帧图像,根据手动选取的目标边界框信息得到目标中心位置和目标框的大小(w,h),以目标中心位置为中心截取一个正方形区域为初始模板图像。该正方形的边长
Figure BDA0002344667000000031
其中目标上下文余量p=0.5×(w+h),如果截取区域超出视频帧图像范围,则使用该图像的RGB三通道均值对正方形区域中超出视频帧图像的部分进行填充。
1.2)初始模板图像的边长乘以放缩系数s,将其放缩到127×127大小,s满足s×sz=127,得到目标模板图像。由于本方法不涉及模板图像的更新,因此以上对于模板图像的处理只需要执行一次。
作为进一步的优选方式,步骤2)所述残差密集网络由浅层特征提取子网、残差密集特征提取子网、密集特征融合子网三部分组成。
所述获取初始模板特征,具体步骤为:
2.1)将模板图像z输入到浅层特征提取子网,提取模板图像的浅层特征Fz,0
Figure BDA0002344667000000032
其中,
Figure BDA0002344667000000033
表示浅层特征提取操作。
2.2)将模板图像的浅层特征Fz,0输入到残差密集特征提取子网,得到四个残差密集特征Fz,i,i=1,2,3,4。
残差密集特征提取子网由四个残差密集块组成,残差密集块由一组密集连接模块、局部注意力模块和残差模块三部分组成。
对于第i个残差密集块,其特征输入为Fz,i-1,特征输出为Fz,i。首先,将特征Fz,i-1输入到密集连接模块提取特征F″z,i
Figure BDA0002344667000000034
其中,
Figure BDA0002344667000000035
表示密集连接模块特征提取操作。然后,将特征F″z,i输入到局部注意力模块得到特征F′z,i
Figure BDA0002344667000000036
其中,
Figure BDA0002344667000000037
表示局部注意力操作。最后,将特征Fz,i-1与特征F′z,i输入到残差模块得到残差密集特征Fz,i
Fz,i=Fz,i-1+F′z,i
2.3)在通过四个残差密集块提取特征后,进一步地将四个残差密集特征输入到密集特征融合子网,得到初始模板特征
Figure BDA0002344667000000041
Figure BDA0002344667000000042
其中,
Figure BDA0002344667000000043
为密集特征融合操作。
作为进一步的优选方式,步骤3)具体为:
3.1)生成密集特征块权重描述子M:首先,使用平均池化和最大池化处理初始模板特征
Figure BDA0002344667000000044
分别生成两个不同的空间信息描述子Mavg和Mmax,然后,使用两个全连接层对这两个空间信息描述子进一步处理,最后,使用sigmoid函数做最后的处理,生成密集特征块权重描述子M∈R4×1×1:
M=σ(W1(W0(Mavg))+W1(W0(Mmax)))
其中,σ为sigmoid函数,W0,W1分别为两个全连接层的参数。
3.2)将密集特征块权重描述子M作用于初始模板特征
Figure BDA0002344667000000045
得到模板特征Fz
Figure BDA0002344667000000046
其中,
Figure BDA0002344667000000047
表示将M扩展到与
Figure BDA0002344667000000048
相同的维度,再与
Figure BDA0002344667000000049
逐点相乘。
作为进一步的优选方式,步骤4)所述获取搜索区域图像,具体为:
4.1)对于第t帧图像,根据第t-1帧图像跟踪得到的目标中心位置和目标框大小(w,h),以目标中心位置为中心截取一个正方形区域为初始搜索区域图像。该正方形的边长
Figure BDA00023446670000000410
其中目标上下文余量p=0.5×(w+h),搜索区域图像边长与模板图像边长比值sc=255/127。如果截取区域超出视频帧图像范围,则使用该图像的RGB三通道均值对正方形区域中超出视频帧图像的部分进行填充。
4.2)初始搜索区域图像的边长乘以放缩系数s,将其放缩到255×255大小,s满足s×sx=255,得到搜索区域图像。
作为进一步的优选方式,步骤5)所述残差密集网络与步骤2)所述残差密集网络为参数共享的孪生网络。
所述获取搜索区域特征,具体步骤为:
5.1)将搜索区域图像x输入到浅层特征提取子网,提取搜索区域图像的浅层特征Fx,0
5.2)将搜索区域图像的浅层特征Fx,0输入到残差密集特征提取子网,通过残差密集特征提取子网中的四个残差密集块提取特征,分别得到四个残差密集特征Fx,i,i=1,2,3,4。
5.3)进一步地将四个残差密集特征输入到密集特征融合子网,得到搜索区域特征Fx
作为进一步的优选方式,步骤6)所述的候选区域生成网络由前景与背景分类分支和边界框回归分支两部分组成。将搜索区域特征Fx同模板特征Fz送入候选区域生成网络,得到跟踪结果,具体步骤为:
6.1)对于前景与背景分类分支,使用一个卷积层分别对搜索区域特征Fx和模板特征Fz进行调整,得到特征Fx,cls和Fz,cls;对于边界框回归分支,使用一个卷积层分别对搜索区域特征Fx和模板特征Fz进行调整,得到特征Fx,reg和Fz,reg,调整后的特征更适合于跟踪任务。
6.2)分别对分类分支和回归分支中的搜索区域特征和模板特征进行互相关操作。其互相关操作计算如下:
Acls=Fx,cls*Fz,cls
Areg=Fx,reg*Fz,reg
其中,Acls表示前景与背景分类置信度响应图,Areg表示边界框回归估计值,*表示卷积操作。响应图中响应值最大的点为预测到的目标在第t帧中的位置。根据预测到的目标新位置,将与之对应的边界框回归估计值作用于当前目标大小,更新目标的边界框信息,完成对第t帧目标的跟踪。
本发明提供了一种基于残差密集孪生网络的目标跟踪方法,该方法首先在视频第一帧图像中提取待跟踪目标的模板图像,并将其输入到残差密集网络,获得初始模板特征,将提取的特征进一步输入全局注意力模块,获得模板特征,完成跟踪器初始化;然后对第t帧图像裁剪提取搜索区域图像,并将其输入到残差密集网络获得搜索区域特征;最后,将模板特征和搜索区域特征输入候选区域生成网络,得到前景与背景分类置信度和边界框回归估计值,进一步得到第t帧跟踪结果。应用本发明,解决了现有基于孪生网络的目标跟踪方法无法有效处理背景杂乱、相似语义干扰的问题,还解决了现有基于孪生网络的目标跟踪方法跟踪准确度低,鲁棒性差的问题。本发明适用于视觉目标跟踪,算法鲁棒性好,跟踪精度高。
有益效果
首先,本发明在主干网络上使用残差密集网络,网络的设计更为合理,使用来自多个残差密集块的特征,低层特征表观信息较多,有利于提升跟踪精度,高层特征语义信息较多,有利于提升跟踪鲁棒性;其次,引入局部注意力机制,使得网络能够关注于前景信息,抑制背景信息,排除相似语义的干扰;最后,引入全局注意力机制,调整残差密集块特征间的权重,进一步提升跟踪效果。
附图说明
图1是本发明基于残差密集孪生网络的目标跟踪方法的流程图;
图2是本发明基于残差密集孪生网络的目标跟踪方法的网络架构图;
图3是本发明设计的全局注意力模块结构图。
具体实施方法
本发明提供了一种基于残差密集孪生网络的目标跟踪方法,该方法首先在视频第一帧图像中提取待跟踪目标的模板图像,并将其输入到残差密集网络,获得初始模板特征,将提取的特征进一步输入全局注意力模块,获得模板特征,完成跟踪器初始化;然后对第t帧图像裁剪提取搜索区域图像,并将其输入到残差密集网络获得搜索区域特征;最后,将模板特征和搜索区域特征输入候选区域生成网络,得到前景与背景分类置信度和边界框回归估计值,进一步得到第t帧跟踪结果。应用本发明,解决了现有基于孪生网络的目标跟踪方法无法有效处理背景杂乱、相似语义干扰的问题,还解决了现有基于孪生网络的目标跟踪方法跟踪准确度低,鲁棒性差的问题。本发明适用于视觉目标跟踪,算法鲁棒性好,跟踪精度高。
如图1所示,本发明包括以下步骤:
1)对待跟踪视频的第一帧图像进行裁剪,根据手动选取的目标边界框信息,获取目标模板图像,具体为:
1.1)对于第一帧图像,根据手动选取的目标边界框信息得到目标中心位置和目标框的大小(w,h),以目标中心位置为中心截取一个正方形区域为初始模板图像。该正方形的边长
Figure BDA0002344667000000071
其中目标上下文余量p=0.5×(w+h),如果截取区域超出视频帧图像范围,则使用该图像的RGB三通道均值对正方形区域中超出视频帧图像的部分进行填充。
1.2)初始模板图像的边长乘以放缩系数s,将其放缩到127×127大小,s满足s×sz=127,得到目标模板图像。由于本方法不涉及模板图像的更新,因此以上对于模板图像的处理只需要执行一次。
2)将目标模板图像输入到残差密集网络,提取初始模板特征。残差密集网络由浅层特征提取子网、残差密集特征提取子网、密集特征融合子网三部分组成。
获取初始模板特征,具体为:
2.1)将模板图像z输入到浅层特征提取子网,提取模板图像的浅层特征Fz,0
Figure BDA0002344667000000081
其中,
Figure BDA0002344667000000082
表示浅层特征提取操作。
2.2)将模板图像的浅层特征Fz,0输入到残差密集特征提取子网,得到四个残差密集特征Fz,i,i=1,2,3,4。
残差密集特征提取子网由四个残差密集块组成,残差密集块由一组密集连接模块、局部注意力模块和残差模块三部分组成。
对于第i个残差密集块,其特征输入为Fz,i-1,特征输出为Fz,i。首先,将特征Fz,i-1输入到密集连接模块提取特征F″z,i
Figure BDA0002344667000000083
其中,
Figure BDA0002344667000000084
表示密集连接模块特征提取操作。然后,将特征F″z,i输入到局部注意力模块得到特征F′z,i
Figure BDA0002344667000000085
其中,
Figure BDA0002344667000000086
表示局部注意力操作。最后,将特征Fz,i-1与特征F′z,i输入到残差模块得到残差密集特征Fz,i
Fz,i=Fz,i-1+F′z,i
2.3)在通过四个残差密集块提取特征后,进一步地将四个残差密集特征输入到密集特征融合子网,得到初始模板特征
Figure BDA0002344667000000087
Figure BDA0002344667000000088
其中,
Figure BDA0002344667000000089
为密集特征融合操作。
3)将初始模板特征输入到全局注意力模块,全局注意力模块用于强化初始模板特征中的目标相关信息、抑制背景信息。
3.1)生成密集特征块权重描述子M:首先,使用平均池化和最大池化处理初始模板特征
Figure BDA00023446670000000810
分别生成两个不同的空间信息描述子Mavg和Mmax,然后,使用两个全连接层对这两个空间信息描述子进一步处理,最后,使用sigmoid函数做最后的处理,生成密集特征块权重描述子M∈R4×1×1:
M=σ(W1(W0(Mavg))+W1(W0(Mmax)))
其中,σ为sigmoid函数,W0,W1分别为两个全连接层的参数。
3.2)将密集特征块权重描述子M作用于初始模板特征
Figure BDA0002344667000000091
得到模板特征Fz
Figure BDA0002344667000000092
其中,
Figure BDA0002344667000000093
表示将M扩展到与
Figure BDA0002344667000000094
相同的维度,再与
Figure BDA0002344667000000095
逐点相乘。
4)对待跟踪视频的第t帧图像进行裁剪,获取第t帧搜索区域图像,具体为:
4.1)对于第t帧图像,根据第t-1帧图像跟踪得到的目标中心位置和目标框大小(w,h),以目标中心位置为中心截取一个正方形区域为初始搜索区域图像。该正方形的边长
Figure BDA0002344667000000096
其中目标上下文余量p=0.5×(w+h),搜索区域图像边长与模板图像边长比值sc=255/127。如果截取区域超出视频帧图像范围,则使用该图像的RGB三通道均值对正方形区域中超出视频帧图像的部分进行填充。
4.2)初始搜索区域图像的边长乘以放缩系数s,将其放缩到255×255大小,s满足s×sx=255,得到搜索区域图像。
5)将第t帧搜索区域图像,输入到残差密集网络,得到搜索区域特征。提取搜索区域特征所用到的残差密集网络与提取模板图像特征所用到的残差密集网络为参数共享的孪生网络。
获取搜索区域特征,具体为:
5.1)将搜索区域图像x输入到浅层特征提取子网,提取搜索区域图像的浅层特征Fx,0
5.2)将搜索区域图像的浅层特征Fx,0输入到残差密集特征提取子网,在通过残差密集特征提取子网的四个残差密集块提取特征后,得到四个残差密集特征Fx,i,i=1,2,3,4;
5.3)进一步将四个残差密集特征输入到密集特征融合子网,得到搜索区域特征Fx
6)将模板特征与搜索区域特征输入到候选区域生成网络,得到跟踪结果。候选区域生成网络由前景与背景分类分支和边界框回归分支两部分组成,更为具体的:
6.1)对于前景与背景分类分支,使用一个卷积层分别对搜索区域特征Fx和模板特征Fz进行调整,得到特征Fx,cls和Fz,cls;对于边界框回归分支,使用一个卷积层分别对搜索区域特征Fx和模板特征Fz进行调整,得到特征Fx,reg和Fz,reg,调整后的特征更适合于跟踪任务。
6.2)分别对分类分支和回归分支中的搜索区域特征和模板特征进行互相关操作,其互相关操作计算如下:
Acls=Fx,cls*Fz,cls
Areg=Fx,reg*Fz,reg
其中,Acls表示前景与背景分类置信度响应图,Areg表示边界框回归估计值,*表示卷积操作。响应图中响应值最大的点为预测到的目标在第t帧中的位置。根据预测到的目标新位置,将与之对应的边界框回归估计值作用于当前目标大小,更新目标的边界框信息,完成对第t帧目标的跟踪。
本发明在目标跟踪和计算机视觉领域有着广泛的应用,例如:视频监控、人机界面和机器人感知等。下面参照附图,对本发明进行详尽的描述。
1)对待跟踪视频的第一帧图像进行裁剪,根据手动选取的初始目标框信息,获取目标模板图像;
2)将目标模板图像输入到残差密集网络,提取初始模板特征;
3)将初始模板特征输入到全局注意力模块,提取模板特征,全局注意力模块用于强化初始模板特征中的目标相关信息、抑制背景信息;
4)对待跟踪视频的第t帧图像进行裁剪,获取第t帧的搜索区域图像;
5)将第t帧的搜索区域图像,输入到残差密集网络,得到搜索区域特征;
6)将模板特征与搜索区域特征输入到候选区域生成网络,得到跟踪结果。
在NVIDIA GeForce GTX 1080Ti和Ubuntu16.04 64位操作系统下,基于PyTorch深度学习框架实现该方法。
本发明提供了一种基于残差密集孪生网络的目标跟踪方法,适用于视觉目标跟踪,鲁棒性好,速度快,跟踪结果较为准确。实验表明该方法能够有效地处理目标跟踪任务。

Claims (4)

1.基于残差密集孪生网络的目标跟踪方法,其特征在于,包括以下步骤:
步骤1)对待跟踪视频的第一帧图像进行裁剪,根据手动选取的初始目标框信息,获取目标模板图像;
步骤2)将目标模板图像输入到残差密集网络,提取初始模板特征;
步骤3)将初始模板特征输入到全局注意力模块,提取模板特征,全局注意力模块用于强化初始模板特征中的目标相关信息、抑制背景信息;
步骤4)对待跟踪视频的第t帧图像进行裁剪,获取第t帧搜索区域图像;
步骤5)将第t帧搜索区域图像,输入到残差密集网络,得到搜索区域特征;
步骤6)将模板特征与搜索区域特征输入到候选区域生成网络,得到跟踪结果;
其中,步骤2)所述残差密集网络由浅层特征提取子网、残差密集特征提取子网、密集特征融合子网三部分组成;
所述提取初始模板特征,具体步骤为:
2.1)将模板图像z输入到浅层特征提取子网,提取模板图像的浅层特征Fz,0
2.2)将模板图像的浅层特征Fz,0输入到残差密集特征提取子网,得到四个残差密集特征Fz,i,i=1,2,3,4;
残差密集特征提取子网由四个残差密集块组成,残差密集块由一组密集连接模块、局部注意力模块和残差模块三部分组成;
对于第i个残差密集块,其特征输入为Fz,i-1,特征输出为Fz,i;首先,将特征Fz,i-1输入到密集连接模块提取特征F″z,i;然后,将特征F″z,i输入到局部注意力模块得到特征F′z,i;最后,将特征Fz,i-1与特征F′z,i输入到残差模块得到残差密集特征Fz,i
2.3)在通过四个残差密集块提取特征后,将四个残差密集特征输入到密集特征融合网络,得到初始模板特征
Figure FDA0004150390470000021
所述的浅层特征提取子网由两个卷积层串联构成;密集连接模块由一组卷积层密集连接构成;局部注意力模块由一个全局池化层、两个全连接层依次连接构成;残差模块为局部注意力模块的输出特征与前一个残差密集块的输出特征逐点相加;密集特征融合子网由一个Concat层构成;
步骤3)具体为:
3.1)生成密集特征块权重描述子M:首先,使用平均池化和最大池化处理初始模板特征
Figure FDA0004150390470000022
分别生成两个不同的空间信息描述子Mavg和Mmax,然后,分别使用两个全连接层对这两个空间信息描述子进行处理,最后,使用sigmoid函数生成密集特征块权重描述子M∈R4 ×1×1;M=σ(W1(W0(Mavg))+W1(W0(Mmax)));
其中,σ为sigmoid函数,W0,W1分别为两个全连接层的参数;
3.2)将密集特征块权重描述子M作用于初始模板特征
Figure FDA0004150390470000023
得到模板特征Fz,具体为:
Figure FDA0004150390470000031
其中,
Figure FDA0004150390470000032
表示将M扩展到与
Figure FDA0004150390470000033
相同的维度,再与
Figure FDA0004150390470000034
逐点相乘;
步骤5)所述残差密集网络与步骤2)所述残差密集网络为参数共享的孪生网络;
步骤6)所述的候选区域生成网络由前景与背景分类分支和边界框回归分支两部分组成;将搜索区域特征Fx同模板特征Fz送入候选区域生成网络,得到跟踪结果,具体步骤为:
6.1)前景与背景分类分支为两个并列的卷积层,搜索区域特征Fx和模板特征Fz分别经过一个卷积层,对应得到特征Fx,cls和Fz,cls;所述的边界框回归分支为两个并列的卷积层,搜索区域特征Fx和模板特征Fz分别经过一个卷积层,对应得到特征Fx,reg和Fz,reg
6.2)分别对分类分支和回归分支中的搜索区域特征和模板特征进行互相关操作,分别得到前景与背景分类置信度响应图Acls和边界框回归估计值Areg;响应图中响应值最大的点为预测到的目标在第t帧中的位置,根据预测到的目标新位置,将与之对应的边界框回归估计值作用于当前目标大小,更新目标的边界框信息,完成对第t帧目标的跟踪;
互相关操作的计算公式具体为:
Acls=Fx,cls*Fz,cls
Areg=Fx,reg*Fz,reg
其中,*表示卷积操作。
2.根据权利要求1所述的基于残差密集孪生网络的目标跟踪方法,其特征在于,步骤1)所述获取目标模板图像,具体为:
1.1)对于第一帧图像,根据手动选取的目标边界框信息得到目标中心位置和目标框的大小(w,h),以目标中心位置为中心截取一个正方形区域为初始模板图像,该正方形的边长
Figure FDA0004150390470000041
其中目标上下文余量p=0.5×(w+h),如果截取区域超出视频帧图像范围,则使用该图像的RGB三通道均值对正方形区域中超出视频帧图像的部分进行填充;
1.2)初始模板图像的边长乘以缩放系数s,将其缩放到127×127大小,s满足s×sz=127,得到目标模板图像。
3.根据权利要求1所述的基于残差密集孪生网络的目标跟踪方法,其特征在于,步骤4)获取搜索区域图像,具体为:
4.1)对于第t帧图像,根据第t-1帧图像跟踪得到的目标中心位置和目标框大小(w′,h′),在第t帧图像上以目标中心位置为中心截取一个正方形区域为初始搜索区域图像,该正方形的边长
Figure FDA0004150390470000042
Figure FDA0004150390470000043
其中目标上下文余量p′=0.5×(w′+h′),搜索区域图像边长与模板图像边长比值sc=255/127,如果截取区域超出视频帧图像范围,则使用该图像的RGB三通道均值对正方形区域中超出视频帧图像的部分进行填充;
4.2)初始搜索区域图像的边长乘以缩放系数s′,将其缩放到255×255大小,s′满足s′×sx=255,得到搜索区域图像。
4.根据权利要求1所述的基于残差密集孪生网络的目标跟踪方法,其特征在于,
获取搜索区域特征,具体步骤为:
5.1)将搜索区域图像x输入到浅层特征提取子网,提取搜索区域图像的浅层特征Fx,0
5.2)将搜索区域图像的浅层特征Fx,0输入到残差密集特征提取子网,得到四个残差密集特征Fx,i,i=1,2,3,4;
5.3)在通过四个残差密集块提取特征后,将四个残差密集特征输入到密集特征融合子网,得到搜索区域特征Fx
CN201911389973.8A 2019-12-30 2019-12-30 一种基于残差密集孪生网络的目标跟踪方法 Active CN111179314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911389973.8A CN111179314B (zh) 2019-12-30 2019-12-30 一种基于残差密集孪生网络的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911389973.8A CN111179314B (zh) 2019-12-30 2019-12-30 一种基于残差密集孪生网络的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN111179314A CN111179314A (zh) 2020-05-19
CN111179314B true CN111179314B (zh) 2023-05-02

Family

ID=70650473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911389973.8A Active CN111179314B (zh) 2019-12-30 2019-12-30 一种基于残差密集孪生网络的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN111179314B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640136B (zh) * 2020-05-23 2022-02-25 西北工业大学 一种复杂环境中的深度目标跟踪方法
CN111724410A (zh) * 2020-05-25 2020-09-29 天津大学 一种基于残余注意力的目标跟踪方法
CN111723769B (zh) * 2020-06-30 2023-10-27 北京百度网讯科技有限公司 用于处理图像的方法、装置、设备以及存储介质
CN112132856B (zh) * 2020-09-30 2024-05-24 北京工业大学 一种基于自适应模板更新的孪生网络跟踪方法
CN112258554B (zh) * 2020-10-07 2022-11-18 大连理工大学 基于注意力机制的双流层次孪生网络目标跟踪方法
CN112288772B (zh) * 2020-10-14 2022-06-07 武汉大学 基于在线多特征选择的通道注意力目标跟踪方法
CN112258557B (zh) * 2020-10-23 2022-06-10 福州大学 一种基于空间注意力特征聚合的视觉跟踪方法
CN112200870B (zh) * 2020-10-30 2024-03-12 上海海事大学 基于孪生网络的分类和位置损失相结合的单目标跟踪方法
CN112215872B (zh) * 2020-11-04 2024-03-22 上海海事大学 一种基于孪生网络的多全卷积融合的单目标跟踪方法
CN112330719B (zh) * 2020-12-02 2024-02-27 东北大学 基于特征图分割和自适应融合的深度学习目标跟踪方法
CN112489088A (zh) * 2020-12-15 2021-03-12 东北大学 一种基于记忆单元的孪生网络视觉跟踪方法
CN112816474B (zh) * 2021-01-07 2022-02-01 武汉大学 一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法
CN112785624B (zh) * 2021-01-18 2023-07-04 苏州科技大学 基于孪生网络的rgb-d特征目标跟踪方法
CN112991385B (zh) * 2021-02-08 2023-04-28 西安理工大学 一种基于不同度量准则的孪生网络目标跟踪方法
CN113240708B (zh) * 2021-04-22 2022-03-25 中国人民解放军32802部队 一种用于跟踪无人机的双边流语义一致性方法
CN113379794B (zh) * 2021-05-19 2023-07-25 重庆邮电大学 基于注意力-关键点预测模型的单目标跟踪系统及方法
CN113297961B (zh) * 2021-05-24 2023-11-17 南京邮电大学 一种基于边界特征融合孪生循环神经网络的目标跟踪方法
CN113592899A (zh) * 2021-05-28 2021-11-02 北京理工大学重庆创新中心 一种相关滤波目标跟踪深度特征的提取方法
CN113673310B (zh) * 2021-07-05 2024-06-11 西安电子科技大学 一种基于增强孪生网络的舰船追踪方法
CN113689464B (zh) * 2021-07-09 2024-09-06 西北工业大学 一种基于孪生网络的自适应多层响应融合的目标跟踪方法
CN113393457B (zh) * 2021-07-14 2023-02-28 长沙理工大学 一种结合残差密集块与位置注意力的无锚框目标检测方法
CN113658218B (zh) * 2021-07-19 2023-10-13 南京邮电大学 一种双模板密集孪生网络跟踪方法、装置及存储介质
CN113706581B (zh) * 2021-08-13 2024-02-20 河南大学 基于残差通道注意与多层次分类回归的目标跟踪方法
CN113744311A (zh) * 2021-09-02 2021-12-03 北京理工大学 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN113744314B (zh) * 2021-09-06 2023-09-22 郑州海威光电科技有限公司 一种基于目标-干扰感知的目标跟踪方法
CN114219826B (zh) * 2021-09-30 2024-06-07 北京航空航天大学 一种应用于航拍视频中的地面目标跟踪方法
CN114022510A (zh) * 2021-10-20 2022-02-08 浙江大立科技股份有限公司 一种基于内容检索的目标长时跟踪方法
CN113963026B (zh) * 2021-10-27 2024-08-02 齐鲁工业大学 基于非局部特征融合和在线更新的目标跟踪方法及系统
CN114529583B (zh) * 2022-02-10 2024-03-19 国网河南省电力公司电力科学研究院 基于残差回归网络的电力设备跟踪方法及跟踪系统
CN114821390B (zh) * 2022-03-17 2024-02-23 齐鲁工业大学 基于注意力和关系检测的孪生网络目标跟踪方法及系统
CN114757972B (zh) * 2022-04-15 2023-10-10 中国电信股份有限公司 目标跟踪方法、装置、电子设备及计算机可读存储介质
CN114596624B (zh) * 2022-04-20 2022-08-05 深圳市海清视讯科技有限公司 人眼状态检测方法、装置、电子设备及存储介质
CN114972426A (zh) * 2022-05-18 2022-08-30 北京理工大学 一种基于注意力和卷积的单目标跟踪方法
CN115049705B (zh) * 2022-06-21 2024-04-30 北京理工大学 多模板网络框架的目标跟踪方法及装置
CN117406780B (zh) * 2023-11-20 2024-05-31 鸣飞伟业技术有限公司 一种无人机追逃方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1988405A2 (en) * 2007-05-02 2008-11-05 Nikon Corporation Photographic subject tracking method, computer program and photographic subject tracking device
EP2028620A1 (en) * 2007-08-24 2009-02-25 Nikon Corporation Subject tracking method, subject tracking device, and computer program product
CN106991646A (zh) * 2017-03-28 2017-07-28 福建帝视信息科技有限公司 一种基于密集连接网络的图像超分辨率方法
CN109493364A (zh) * 2018-09-26 2019-03-19 重庆邮电大学 一种结合残差注意力和上下文信息的目标跟踪算法
CN109872342A (zh) * 2019-02-01 2019-06-11 北京清帆科技有限公司 一种特定场景下的目标跟踪方法
CN110473231A (zh) * 2019-08-20 2019-11-19 南京航空航天大学 一种具有预判式学习更新策略的孪生全卷积网络的目标跟踪方法
CN110555405A (zh) * 2019-08-30 2019-12-10 北京迈格威科技有限公司 目标跟踪方法及装置、存储介质和电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080019568A1 (en) * 2002-05-23 2008-01-24 Kabushiki Kaisha Toshiba Object tracking apparatus and method
JP4079690B2 (ja) * 2002-05-23 2008-04-23 株式会社東芝 物体追跡装置及び方法
CN107798272B (zh) * 2016-08-30 2021-11-02 佳能株式会社 快速多目标检测与跟踪系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1988405A2 (en) * 2007-05-02 2008-11-05 Nikon Corporation Photographic subject tracking method, computer program and photographic subject tracking device
EP2028620A1 (en) * 2007-08-24 2009-02-25 Nikon Corporation Subject tracking method, subject tracking device, and computer program product
CN106991646A (zh) * 2017-03-28 2017-07-28 福建帝视信息科技有限公司 一种基于密集连接网络的图像超分辨率方法
CN109493364A (zh) * 2018-09-26 2019-03-19 重庆邮电大学 一种结合残差注意力和上下文信息的目标跟踪算法
CN109872342A (zh) * 2019-02-01 2019-06-11 北京清帆科技有限公司 一种特定场景下的目标跟踪方法
CN110473231A (zh) * 2019-08-20 2019-11-19 南京航空航天大学 一种具有预判式学习更新策略的孪生全卷积网络的目标跟踪方法
CN110555405A (zh) * 2019-08-30 2019-12-10 北京迈格威科技有限公司 目标跟踪方法及装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN111179314A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111179314B (zh) 一种基于残差密集孪生网络的目标跟踪方法
Zhang et al. SiamFT: An RGB-infrared fusion tracking method via fully convolutional Siamese networks
CN112132856B (zh) 一种基于自适应模板更新的孪生网络跟踪方法
CN111161317A (zh) 一种基于多重网络的单目标跟踪方法
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
WO2021203807A1 (zh) 一种基于多源数据知识迁移的三维物体检测框架
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN112183675B (zh) 一种基于孪生网络的针对低分辨率目标的跟踪方法
CN115032648B (zh) 一种基于激光雷达密集点云的三维目标识别与定位方法
CN113888461A (zh) 基于深度学习的小五金件缺陷检测方法、系统及设备
CN109934849B (zh) 基于轨迹度量学习的在线多目标跟踪方法
CN112396655B (zh) 一种基于点云数据的船舶目标6d位姿估计方法
CN113240716A (zh) 一种多特征融合的孪生网络目标跟踪方法及系统
CN113936210A (zh) 塔吊防撞方法
CN114549549A (zh) 一种动态环境下基于实例分割的动态目标建模跟踪方法
CN116229112A (zh) 一种基于多重注意力的孪生网络目标跟踪方法
CN113985435A (zh) 一种融合多激光雷达的建图方法及系统
CN112767440A (zh) 一种基于siam-fc网络的目标跟踪方法
CN113989672B (zh) 一种基于平衡学习的sar图像船只检测方法
CN117495891A (zh) 点云边缘检测方法、装置和电子设备
CN113538474A (zh) 基于边缘特征融合的3d点云分割目标检测系统
CN112884799A (zh) 一种基于孪生神经网络的复杂场景下目标跟踪方法
CN116030095B (zh) 一种基于双分支孪生网络结构的视觉目标跟踪方法
CN114743045B (zh) 一种基于双分支区域建议网络的小样本目标检测方法
CN116310902A (zh) 一种基于轻量级神经网络的无人机目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant