CN113744311A - 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 - Google Patents
基于全连接注意力模块的孪生神经网络运动目标跟踪方法 Download PDFInfo
- Publication number
- CN113744311A CN113744311A CN202111024719.5A CN202111024719A CN113744311A CN 113744311 A CN113744311 A CN 113744311A CN 202111024719 A CN202111024719 A CN 202111024719A CN 113744311 A CN113744311 A CN 113744311A
- Authority
- CN
- China
- Prior art keywords
- template
- frame
- target
- search
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000004044 response Effects 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims description 51
- 238000010586 diagram Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- GIYXAJPCNFJEHY-UHFFFAOYSA-N N-methyl-3-phenyl-3-[4-(trifluoromethyl)phenoxy]-1-propanamine hydrochloride (1:1) Chemical compound Cl.C=1C=CC=CC=1C(CCNC)OC1=CC=C(C(F)(F)F)C=C1 GIYXAJPCNFJEHY-UHFFFAOYSA-N 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 abstract 1
- 239000000284 extract Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,属于计算机视觉跟踪技术领域。本发明在利用孪生神经网络提取图片特征后,利用全连接注意力模块对模板分支提取的模板特征处理,该模板特征融合原模板特征后作为注意力加强的模板特征与进行相同操作的更新模板特征相结合,得到的新模板特征与搜索特征融合,实现模板特征的自注意和互注意,提升鲁棒性;根据融合加强模板特征和搜索特征的响应图,得到对应搜索图中目标的位置信息和尺寸偏移信息;根据每固定帧的网络预测结果对更新模板分支的输入进行更新,提升跟踪精度。本发明在目标发生剧烈形变、短暂消失后重现或遮挡等条件下,仍然能持续稳定地实现目标跟踪。
Description
技术领域
本发明涉及一种图像序列中运动目标的跟踪方法,属于计算机视觉跟踪技术领域。
背景技术
运动目标跟踪技术是计算机视觉科学中重要的研究方向之一,在视频监控、人机交互、智能航行等领域有着广泛的应用。该技术是指在给出视频序列第一帧中的目标边界框后,能够预测后续帧中目标的位置。目前,运动目标跟踪技术主存在的主要问题有光照变化、目标发生遮挡、形状变化、尺寸变化和快速运动等复杂干扰因素的影响,使能够实时跟踪并鲁棒精确的目标跟踪方法难以实现。
近年来,深度学习在计算机视觉领域取得了巨大的成功,基于端到端深度学习训练的优势,研究者提出了多种基于深度学习的目标跟踪算法,使得单目标跟踪算法的精度和速度都取得了极大的提升,其中具有代表性的是孪生神经网络跟踪算法。孪生神经网络因其特性,在经过大量的离线训练后能够学习到不同帧中相同物体的相似性。在线跟踪时,根据第一帧中目标边界框生成的图像区域作为模板,输入网络提取模板特征,用于与后续帧裁剪出的搜索图像区域提取的搜索特征进行相似性匹配,将相似度得分最高的位置作为预测的目标位置。该类方法相较传统的相关滤波跟踪方法,跟踪精度和跟踪速度均有较大提升,是目前运动目标跟踪技术最具代表性的算法框架之一。但同时,孪生神经网络框架的目标跟踪算法仍存在问题,目前较为成熟的SiamFC、SiamRPN、SiamBAN等算法均仅由第一帧获得目标模板,在目标快速移动、被干扰物遮挡、姿势变化等干扰下跟踪器鲁棒性相对较低。仅依靠单帧目标特征作为模板不能让网络适应发生剧烈变化的目标,因此需要模板更新,丰富模板特征,同时通过注意模块让网络提取特征图集中于目标本身,增强模板特征的作用。
发明内容
本发明公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法目的是:采用基于端到端训练的孪生神经网络,在离线训练后能够实现速度更快的运动目标跟踪;在利用孪生神经网络提取图片特征后,利用全连接注意力模块将模板特征与搜索特征相融合,能够更加关注目标特征信息,提升鲁棒性,即在目标发生剧烈形变、短暂消失后重现或遮挡等条件下,仍然能持续稳定地实现目标跟踪。
本发明的目的是通过下述技术方案实现的:
本发明公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,在利用孪生神经网络提取图片特征后,利用全连接注意力模块对模板分支提取的模板特征进行处理,该模板特征融合原模板特征后作为注意力加强的模板特征与进行相同操作的更新模板特征相结合,得到的新模板特征与搜索特征融合,实现模板特征的自注意和互注意,提升鲁棒性。根据融合加强模板特征和搜索特征的响应图,得到对应搜索图中目标的位置信息和尺寸偏移信息。根据每固定帧的网络预测结果对更新模板分支的输入进行更新,提升跟踪精度。
本发明公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,包括如下步骤:
步骤1:为了离线训练步骤2基于全连接注意力模块的孪生神经网络,利用目标跟踪图像序列数据集生成用于输入孪生神经网络的训练样本数据组。所述训练样本数据组包括第一帧模板区域Z0和更新模板区域Z、搜索区域X。
为了离线训练步骤2基于全连接注意力模块的孪生神经网络,根据目标跟踪图片序列中第一帧图像的目标位置及尺寸,将第一帧图像裁剪为包含目标模板特征的模板区域,该模板区域同时作为第一帧模板区域Z0和更新模板区域Z;第二帧图像作为搜索图片,根据第一帧目标位置信息和尺寸信息,将搜索图片裁剪为包含目标的搜索区域X,后续第t帧搜索图片根据第t-1帧网络预测的目标位置信息和尺寸信息裁剪为包含目标的搜索区域X。所述第一帧模板区域Z0、更新模板区域Z和搜索区域X三个区域形成训练样本数据组,分别作为孪生神经网络第一帧模板分支、更新模板分支和搜索分支的输入。
步骤2:构建包含共享权重的第一帧模板分支、更新模板分支和搜索分支孪生神经网络,提取步骤1生成的训练样本数据组的特征,分别提取目标第一帧模板区域特征、更新模板区域特征和搜索区域特征。利用所述基于端到端训练的孪生神经网络,在经过大量数据训练后,能够实现输入视频序列后直接得到每一帧图片的跟踪结果,无需对输出的特征图进行再处理,进而提升跟踪效率。
构建包含第一帧模板分支、更新模板分支和搜索分支孪生神经网络,提取步骤1生成的训练样本数据组的特征。上述三分支共享权重,分别提取目标第一帧模板区域特征、更新模板区域特征和搜索区域特征。更新模板分支用于步骤6所述更新模板的特征提取,其结构与第一帧模板分支网络结构相同。利用所述基于端到端训练的孪生神经网络,在经过大量数据训练后,能够实现输入视频序列后直接得到每一帧图片的跟踪结果,无需对输出的特征图进行再处理,进而提升跟踪效率。
步骤3:构建全连接注意力模块;利用全连接注意力模块对步骤2生成的第一帧模板区域特征、更新模板区域特征和搜索区域特征进行处理,生成强化后的模板特征和搜索特征,实现模板特征的自注意和互注意,进而提升鲁棒性。
第一帧模板分支后衔接全连接第一注意力模块,更新模板分支后衔接全连接第二注意力模块,第一全连接注意力模块和全连接注意力模块第二结构相同且共享权重,通过第一全连接注意力模块和全连接注意力模块组成的全连接注意力模块实现两个分支模板特征对自身的注意力增强。增强后的第一帧模板特征融合后与搜索特征结合,得到对第一帧模板和更新模板均加强注意力的搜索特征。
先将第一帧模板分支提取的目标模板特征Z0f(b,c,h,w)按中心区域裁剪为尺寸(b,c,h′,w′),再将其空间维度由代表宽高两个维度的(h′,w′)合并为一个空间维度s=h′×w′,改变维度顺序得到Z0f1(b,s,c)。其中b代表输入网络的图片数量,c代表图片通道数为256,h代表模板特征图高度,w代表模板特征图宽度,h′代表裁剪后模板特征图,w′代表裁剪后模板特征图宽度,符号×代表数学乘法。
全连接注意力模块首先利用包含全连接层的模块L对原模板特征图Z0f1的空间维度进行激活,获得的特征图与原模板特征图相加,得到特征图Z0f2(b,s,c);再利用模块L对特征Z0f2的通道维度进行激活,获得的特征图与Z0f2相加,得到加强后的特征图Z0f3(b,s,c)。
Z0f2=Z0f1+L(Z0f1)
Z0f3=Z0f2+L(Z0f2)
其中,模块L按顺序以此包含:将维度转为隐藏维度的全连接层,GELU激活函数层,Dropout层,将维度转为输入维度的全连接层,Dropout层。符号+代表元素级加法
利用加强后的特征图Z0f3,对原模板特征和原搜索特征加强模板注意力。
加强后的特征图Z0f3改变维度顺序为Z′0f3(b,c,h,w),与原模板特征图Z0f相乘,得到新第一帧模板特征Z′0f。
Z′0f=Z′0f3×Z0f
其中,符号×代表元素级乘法。
更新模板分支进行相同操作,得到新更新模板特征Z′f。
融合两分支加强后的特征图Z′0f、Z′f,得到最终模板特征图Z″f。
Z″f=Z′0f+Z′f
Z″f经过标准化层(Layer Normalization),再平均池化并改变维度后得到Z″f1(b,c,1,1),与原搜索特征图Xf相乘,得到新搜索特征X′f。
X′f=Z″f1×Xf
通过生成的强化后模板特征Z″f实现模板特征的自注意,通过强化后搜索特征X′f实现搜索特征和模板特征的互注意,进而提升鲁棒性。
步骤4:利用互相关操作将强化后的模板特征和搜索特征融合,生成融合模板特征和搜索特征的响应图。
利用互卷积操作将模板特征Z″f和搜索特征X′f融合得到响应图。
步骤5:根据步骤4生成的响应图,经卷积层处理得到分类图和回归图,利用分类图预测目标在响应图上的前景或背景分类概率估计,利用回归图预测目标在响应图上的边界框偏移回归估计;经过叠加偏移和尺寸变换操作得到搜索图片中目标的位置和尺寸。
响应图上每个位置与原输入网络的搜索区域上位置一一映射,前景或背景分类概率估计即网络预测响应图上每个位置是否存在目标,边界框偏移回归估计即响应图上每个位置距离目标框四条边界的距离,经过尺寸转换可以得到原输入网络的搜索区域上目标框的位置和尺寸,经过偏移转换可得到原搜索图上目标框的位置和尺寸。
上述过程的处理过程如下:
通过以下尺寸转换可以计算得到原输入网络的搜索区域上目标框的位置和尺寸:
其中,(px1,py1,px2,py2)是输入网络的搜索区域中目标框左上角和右下角的坐标,(pi,pj)是响应图的坐标(i,j)与输入网络的搜索区域内相应位置的尺寸转换量。
w=px2-px1
h=py2-py1
根据第t帧输入网络的搜索区域与搜索图的偏移量(Δcx,Δcy),得到第t帧原图片上目标框的中心坐标(cx,cy):
最终得到代表原图上目标框尺寸的坐标(cx,cy,w,h)。
步骤6:每固定间隔帧数判断网络预测的各结果的跟踪准确性,将与模板相似性最高的结果作为该帧图片跟踪预测结果,利用该结果对该帧图片进行裁剪,作为步骤2中更新模板分支的输入,进行模板更新,丰富模板信息,以进一步提升跟踪精度。
在网络训练过程中,保证网络具有辨别真实目标和相似目标的能力,以便跟踪过程中更新模板能够更准确地进行更新。
对于每一张训练图像,通过非极大值抑制将回归图得到的所有候选框进行分类,并按照各个候选框对应的分类图得分从大到小排序,最终每一帧图像生成n个候选框。用各候选框对X′f进行裁剪,得到候选框特征区域。用原第一帧模板图像目标框位置对Z′f进行裁剪,得到目标特征区域。令各候选框特征区域分别与目标特征区域计算欧式距离,选择距离最小的候选框作为正样本,选择除正样本外得分最大的候选框作为负样本,使每一帧图像生成一组训练正负样本对。训练时,令正样本得分高于负样本得分阈值Vt,即
Lossu=pos-neg+Vt
其中,pos代表正样本得分,neg代表负样本得分,Lossu代表模板更新训练目标的损失。当损失趋近于零时,即具备辨别真实目标和相似目标的能力,使模板能够更准确地进行更新。
步骤7:重复步骤2至步骤6,在利用端到端训练的孪生神经网络提取图片特征后,利用全连接注意力模块将模板特征与搜索特征相融合,能够更加关注目标特征信息,提升鲁棒性;每固定帧更新模板特征,丰富网络对目标随时间变化信息的学习,进一步提升跟踪精度。
有益效果:
1、本发明公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,利用全连接注意力模块将模板特征与搜索特征相融合,能够在跟踪时更加关注目标特征信息,并增强跟踪器对目标自身变化的学习性,进而提升鲁棒性,即在目标发生剧烈形变、短暂消失后重现或遮挡等条件下,仍然能持续稳定地实现目标高精度跟踪。每固定帧更新模板特征,丰富该网络对目标随时间变化信息的学习,进一步提升跟踪精度。
2、本发明公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,基于端到端训练的孪生神经网络,在经过大量数据离线训练后,能够实现输入图像序列后直接得到每一帧图片的跟踪结果,无需对输出的特征图进行再处理,实现高效跟踪。
附图说明
图1是本发明的基于全连接注意力模块的孪生神经网络运动目标跟踪方法的流程示意图;
图2是本发明的基于全连接注意力模块的孪生神经网络运动目标跟踪方法的系统框图;
图3是本发明的基于全连接注意力模块的孪生神经网络运动目标跟踪方法的跟踪结果对比示意图。
具体实施方式
为了更好地说明本发明的目的和优点,下面结合附图和实例对发明内容做进一步说明。
实施例1:
如图1所示,本实施例公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,在利用孪生神经网络提取图片特征后,利用全连接注意力模块对模板分支提取的模板特征进行处理,该模板特征融合原模板特征后作为注意力加强的模板特征与进行相同操作的更新模板特征相结合,得到的新模板特征与搜索特征融合,实现模板特征的自注意和互注意,提升鲁棒性。根据融合加强模板特征和搜索特征的响应图,得到对应搜索图中目标的位置信息和尺寸偏移信息。根据每固定帧的网络预测结果对更新模板分支的输入进行更新,提升跟踪精度。本实施例的流程图如图1所示,系统框图如图2所示。
如图1所示,本实施例公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,包含以下步骤:
步骤1:为了离线训练步骤2基于全连接注意力模块的孪生神经网络,利用目标跟踪图像序列数据集生成用于输入孪生神经网络的训练样本数据组。所述训练样本数据组包括第一帧模板区域Z0和更新模板区域Z、搜索区域X。
利用目标跟踪图像序列训练数据集生成正负样本组,每组均包含第一帧模板分支、更新模板分支和搜索分支的输入图像。其中,正样本固定为同一跟踪图像序列中的随机不同帧,输入网络的第一帧模板图像和搜索图像最大帧数间隔不能超过100帧,更新模板图像和搜索图像最大帧数间隔不能超过5帧。负样本分为三种类型:①搜索图像与第一帧模板图像相似,与更新模板图像不相似。搜索图像与第一帧模板图像在同一跟踪序列中抽取随机不同帧,最大帧数间隔不超过100帧,更新模板图像在其他跟踪图像序列中抽取随机帧。②搜索图像与更新模板图像相似,与第一帧模板图像不相似。搜索图像与更新模板图像在同一跟踪序列中抽取随机不同帧,最大帧数间隔不超过5帧,第一帧模板图像在其他跟踪序列中抽取随机帧。③搜索图像与第一帧模板图像、更新模板图像均不相似。三幅输入图像从全部训练数据集中随机抽取不同帧图像。
为了让网络更好的辨别搜索区域中的目标,分别令网络学习到搜索图像与第一帧模板图像、更新模板图像的相似性,从而在加强对模板学习的同时,不完全依赖于其中任一分支,从而达到综合结合两个模板分支特征的作用。
确定训练样本组后,根据各图像中的目标位置对该图像进行裁剪,搜索图像裁剪为255×255×3尺寸的搜索区域X,第一帧模板图像裁剪为127×127×3尺寸的第一帧模板区域Z0,更新模板图像裁剪为127×127×3尺寸的更新模板区域Z。
步骤2:构建包含共享权重的第一帧模板分支、更新模板分支和搜索分支孪生神经网络,提取步骤1生成的训练样本数据组的特征,分别提取目标第一帧模板区域特征、更新模板区域特征和搜索区域特征。利用所述基于端到端训练的孪生神经网络,在经过大量数据训练后,能够实现输入视频序列后直接得到每一帧图片的跟踪结果,无需对输出的特征图进行再处理,进而提升跟踪效率。
本实施例构建孪生神经网络特征提取网络模型的各模块输出图像尺寸如表1所示。
表1
其中,模板包含第一帧模板和更新模板,w代表图像宽度,h代表图像高度,channel代表图像通道数。卷积层1包含二维卷积层和最大池化层,残差层分别包含不同数量的残差模块,每个模块中均包含不同的卷积层,且均进行残差操作。第一帧模板图像、更新模板图像和搜索图像三个分支的特征提取网络共享权重,将残差层3、4、5层的输出分别各自经卷积层后相加融合,作为各分支的特征图。第一帧模板区域特征尺寸为15×15×256,更新模板区域特征尺寸为15×15×256,搜索区域特征尺寸为31×31×256。
步骤3:构建全连接注意力模块;利用全连接注意力模块对步骤2生成的第一帧模板区域特征、更新模板区域特征和搜索区域特征进行处理,生成强化后的模板特征和搜索特征,实现模板特征的自注意和互注意,进而提升鲁棒性。
与第一帧模板分支和更新模板分支分别衔接的全连接注意力模块共享权重,该模块实现两个分支模板特征对自身的注意力增强。增强后的第一帧模板特征融合后与搜索特征结合,得到对第一帧模板和更新模板均加强注意力的搜索特征。
下面详细说明处理过程:
先将第一帧模板分支提取的目标模板特征Z0f(b,c,h,w)按中心区域裁剪为尺寸(b,c,h′,w′),再将其空间维度由代表宽高两个维度的(h′,w′)合并为一个空间维度s=h′×w′,改变维度顺序得到Z0f1(b,s,c)。其中b代表输入网络的图片数量,训练时设为14,c代表图片通道数为256,h代表模板特征图高度为15,w代表模板特征图宽度为15,h′代表裁剪后模板特征图高度为7,w′代表裁剪后模板特征图宽度为7,符号×代表数学乘法,s为49。
全连接注意力模块首先利用包含全连接层的模块L对原模板特征图Z0f1的空间维度进行激活,获得的特征图与原模板特征图相加,得到特征图Z0f2(b,s,c);再利用模块L对特征Z0f2的通道维度进行激活,获得的特征图与Z0f2相加,得到加强后的特征图Z0f3(b,s,c)。
Z0f2=Z0f1+L(Z0f1)
Z0f3=Z0f2+L(Z0f2)
其中,模块L按顺序以此包含:将维度转为隐藏维度的全连接层,GELU激活函数层,Dropout层,将维度转为输入维度的全连接层,Dropout层,。符号+代表元素级加法
利用加强后的特征图Z0f3,对原模板特征和原搜索特征加强模板注意力。
加强后的特征图Z0f3改变维度顺序为Z′0f3(b,c,7,7),与原模板特征图Z0f相乘,得到新第一帧模板特征Z′0f(b,c,7,7)。
Z′0f=Z′0f3×Z0f
其中,符号×代表元素级乘法。
更新模板分支进行相同操作,得到新更新模板特征Z′f(b,c,7,7)。
融合两分支加强后的特征图Z′0f(b,c,7,7)、Z′f(b,c,7,7),得到最终模板特征图Z″f(b,c,7,7)。
Z″f=Z′0f与Z′f
Z″f经过标准化层(Layer Normalization),再平均池化并改变维度后得到Z″f1(b,c,1,1),与尺寸为(b,c,31,31)原搜索特征图Xf相乘,得到新搜索特征X′f(b,c,31,31)。
X′f=Z″f1×Xf
步骤4:利用互相关操作将强化后的模板特征和搜索特征融合,生成融合模板特征和搜索特征的响应图。
利用互卷积操作将模板特征Z″f(b,c,7,7)和搜索特征X′f(b,c,31,31)融合得到尺寸为(b,c,25,25)响应图。
步骤5:根据步骤4生成的响应图,经卷积层处理得到分类图和回归图,利用分类图预测目标在响应图上的前景或背景分类概率估计,利用回归图预测目标在响应图上的边界框偏移回归估计;经过叠加偏移和尺寸变换操作得到搜索图片中目标的位置和尺寸。
响应图上每个位置与原输入网络的搜索区域上位置一一映射,前景或背景分类概率估计即网络预测响应图上每个位置是否存在目标,边界框偏移回归估计即响应图上每个位置距离目标框四条边界的距离,经过尺寸转换可以得到原输入网络的搜索区域上目标框的位置和尺寸,经过偏移转换可得到原搜索图上目标框的位置和尺寸。
上述过程的处理过程如下:
通过以下尺寸转换可以计算得到原输入网络的搜索区域上目标框的位置和尺寸:
其中,(px1,py1,px2,py2)是输入网络的搜索区域中目标框左上角和右下角的坐标,(pi,pj)是响应图的坐标(i,j)与输入网络的搜索区域内相应位置的尺寸转换量。
w=px2-px1
h=py2-py1
根据第t帧输入网络的搜索区域与搜索图的偏移量(Δcx,Δcy),得到第t帧原图像上目标框的中心坐标(cx,cy):
最终得到代表原图上目标框尺寸的坐标(cx,cy,w,h)。
训练过程中,分类结果利用交叉熵计算损失Losscls,回归结果利用与真实目标框的交并比计算损失Lossloc。
步骤6:每固定间隔帧数判断网络预测的各结果的跟踪准确性,将与模板相似性最高的结果作为该帧图像跟踪预测结果,利用该结果对该帧图像进行裁剪,作为步骤2中更新模板分支的输入,进行模板更新,丰富模板信息,以进一步提升跟踪精度。
在网络训练过程中,保证网络具有辨别真实目标和相似目标的能力,以便跟踪过程中更新模板能够更准确地进行更新。
对于每一张训练图像,通过非极大值抑制将回归图得到的所有候选框进行分类,并按照各个候选框对应的分类图得分从大到小排序,最终每一帧图像生成10个候选框。用各候选框对X′f进行裁剪,得到候选框特征区域。用原第一帧模板图像目标框位置对Z′f进行裁剪,得到目标特征区域。令各候选框特征区域分别与目标特征区域计算欧式距离,选择距离最小的候选框作为正样本,选择除正样本外得分最大的候选框作为负样本,使每一帧图像生成一组训练正负样本对。训练时,令正样本得分高于负样本得分阈值Vt=10,即
Lossu=pos-neg+Vt
其中,pos代表正样本得分,neg代表负样本得分,Lossu代表模板更新训练目标的损失。当损失趋近于零时,该算法就具备辨别真实目标和相似目标的能力,使模板能够更准确地进行更新。
在网络训练过程中,通过下式计算总损失:
Loss=Losscls+Lossloc+Lossu
利用SGD优化器对网络进行优化。
步骤7:重复步骤2至步骤6,在利用端到端训练的孪生神经网络提取图片特征后,利用全连接注意力模块将模板特征与搜索特征相融合,能够更加关注目标特征信息,提升鲁棒性;每固定帧更新模板特征,丰富网络对目标随时间变化信息的学习,进一步提升跟踪精度。
本实施例将从两方面说明本发明的效果。
1.实验条件
本实施例公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,在Intel(R)Xeon(R)Silver 4214 CPU 2.20GHz,英伟达RTX 2080Ti GPU的环境下,使用Pytorch深度学习框架进行训练和跟踪。
2.实验结果
本实施例公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,在上述实验条件下跟踪速度达到40fps,满足实时跟踪要求,实现高效跟踪。
图3为本实施例公开的运动目标跟踪方法与现有常规网络的跟踪效果对比图。其中,图3中黄框代表目标标注真实框,绿色代表SiamBAN算法,深蓝色代表SiamRPN算法,浅蓝色代表ECO算法,红色代表本实施例公开的目标跟踪方法。图3(a)展示的CarScale序列,在170帧各算法均表现良好,在180、207帧ECO和SiamRPN算法对目标的尺寸适应性明显降低,而本实施例算法仍能精确跟踪。证明在目标快速移动且尺寸发生变化时,本实施例算法表现良好。图3(b)展示的Basketball序列,在177帧各算法均表现良好,从483帧开始SiamRPN和SiamBAN算法结果开始出现明显的位置偏移,490帧完全丢失,而本实施例算法仍能精确跟踪。证明在目标附近出现相似物干扰时,本实施例算法表现良好。图3(c)展示的Soccer序列,在86帧各算法均表现良好,在94帧SiamBAN算法出现位置偏移,在100帧除本实施算法外的所有算法都跟踪失败。证明在出现遮挡时,本实施例仍然能持续稳定地实现目标跟踪。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于全连接注意力模块的孪生神经网络运动目标跟踪方法,其特征在于:包括如下步骤,
步骤1:为了离线训练步骤2基于全连接注意力模块的孪生神经网络,利用目标跟踪图像序列数据集生成用于输入孪生神经网络的训练样本数据组;所述训练样本数据组包括第一帧模板区域Z0和更新模板区域Z、搜索区域X;
步骤2:构建包含共享权重的第一帧模板分支、更新模板分支和搜索分支孪生神经网络,提取步骤1生成的训练样本数据组的特征,分别提取目标第一帧模板区域特征、更新模板区域特征和搜索区域特征;利用所述基于端到端训练的孪生神经网络,在经过大量数据训练后,能够实现输入视频序列后直接得到每一帧图片的跟踪结果,无需对输出的特征图进行再处理,进而提升跟踪效率;
步骤3:构建全连接注意力模块;利用全连接注意力模块对步骤2生成的第一帧模板区域特征、更新模板区域特征和搜索区域特征进行处理,生成强化后的模板特征和搜索特征,实现模板特征的自注意和互注意,进而提升鲁棒性;
步骤4:利用互相关操作将强化后的模板特征和搜索特征融合,生成融合模板特征和搜索特征的响应图;
步骤5:根据步骤4生成的响应图,经卷积层处理得到分类图和回归图,利用分类图预测目标在响应图上的前景或背景分类概率估计,利用回归图预测目标在响应图上的边界框偏移回归估计;经过叠加偏移和尺寸变换操作得到搜索图片中目标的位置和尺寸;
步骤6:每固定间隔帧数判断网络预测的各结果的跟踪准确性,将与模板相似性最高的结果作为该帧图片跟踪预测结果,利用该结果对该帧图片进行裁剪,作为步骤2中更新模板分支的输入,进行模板更新,丰富模板信息,以进一步提升跟踪精度;
步骤7:重复步骤2至步骤6,在利用端到端训练的孪生神经网络提取图片特征后,利用全连接注意力模块将模板特征与搜索特征相融合,能够更加关注目标特征信息,提升鲁棒性;每固定帧更新模板特征,丰富网络对目标随时间变化信息的学习,进一步提升跟踪精度。
2.如权利要求1所述的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,其特征在于:步骤1实现方法为,
为了离线训练步骤2基于全连接注意力模块的孪生神经网络,根据目标跟踪图片序列中第一帧图像的目标位置及尺寸,将第一帧图像裁剪为包含目标模板特征的模板区域,该模板区域同时作为第一帧模板区域Z0和更新模板区域Z;第二帧图像作为搜索图片,根据第一帧目标位置信息和尺寸信息,将搜索图片裁剪为包含目标的搜索区域X,后续第t帧搜索图片根据第t-1帧网络预测的目标位置信息和尺寸信息裁剪为包含目标的搜索区域X;所述第一帧模板区域Z0、更新模板区域Z和搜索区域X三个区域形成训练样本数据组,分别作为孪生神经网络第一帧模板分支、更新模板分支和搜索分支的输入。
3.如权利要求2所述的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,其特征在于:步骤2实现方法为,
构建包含第一帧模板分支、更新模板分支和搜索分支孪生神经网络,提取步骤1生成的训练样本数据组的特征;上述三分支共享权重,分别提取目标第一帧模板区域特征、更新模板区域特征和搜索区域特征;更新模板分支用于步骤6所述更新模板的特征提取,其结构与第一帧模板分支网络结构相同;利用所述基于端到端训练的孪生神经网络,在经过大量数据训练后,能够实现输入视频序列后直接得到每一帧图片的跟踪结果,无需对输出的特征图进行再处理,进而提升跟踪效率。
4.如权利要求3所述的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,其特征在于:步骤3实现方法为,
第一帧模板分支后衔接全连接第一注意力模块,更新模板分支后衔接全连接第二注意力模块,第一全连接注意力模块和全连接注意力模块第二结构相同且共享权重,通过第一全连接注意力模块和全连接注意力模块组成的全连接注意力模块实现两个分支模板特征对自身的注意力增强;增强后的第一帧模板特征融合后与搜索特征结合,得到对第一帧模板和更新模板均加强注意力的搜索特征;
先将第一帧模板分支提取的目标模板特征Z0f(b,c,h,w)按中心区域裁剪为尺寸(b,c,h′,w′),再将其空间维度由代表宽高两个维度的(h′,w′)合并为一个空间维度s=h′×w′,改变维度顺序得到Z0f1(b,s,c);其中b代表输入网络的图片数量,c代表图片通道数为256,h代表模板特征图高度,w代表模板特征图宽度,h′代表裁剪后模板特征图,w′代表裁剪后模板特征图宽度,符号×代表数学乘法;
全连接注意力模块首先利用包含全连接层的模块L对原模板特征图Z0f1的空间维度进行激活,获得的特征图与原模板特征图相加,得到特征图Z0f2(b,s,c);再利用模块L对特征Z0f2的通道维度进行激活,获得的特征图与Z0f2相加,得到加强后的特征图Z0f3(b,s,c);
Z0f2=Z0f1+L(Z0f1)
Z0f3=Z0f2+L(Z0f2)
其中,模块L按顺序以此包含:将维度转为隐藏维度的全连接层,GELU激活函数层,Dropout层,将维度转为输入维度的全连接层,Dropout层;符号+代表元素级加法
利用加强后的特征图Z0f3,对原模板特征和原搜索特征加强模板注意力;
加强后的特征图Z0f3改变维度顺序为Z′0f3(b,c,h,w),与原模板特征图Z0f相乘,得到新第一帧模板特征Z′0f;
Z′0f=Z′0f3×Z0f
其中,符号×代表元素级乘法;
更新模板分支进行相同操作,得到新更新模板特征Z′f;
融合两分支加强后的特征图Z′0f、Z′f,得到最终模板特征图Z″f;
Z″f=Z′0f+Z′f
Z″f经过标准化层(Layer Normalization),再平均池化并改变维度后得到Z″f1(b,c,1,1),与原搜索特征图Xf相乘,得到新搜索特征X′f;
X′f=Z″f1×Xf
通过生成的强化后模板特征Z″f实现模板特征的自注意,通过强化后搜索特征X′f实现搜索特征和模板特征的互注意,进而提升鲁棒性。
5.如权利要求4所述的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,其特征在于:步骤4中,
利用互卷积操作将模板特征Z″f和搜索特征X′f融合得到响应图。
6.如权利要求5所述的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,其特征在于:步骤5中,
响应图上每个位置与原输入网络的搜索区域上位置一一映射,前景或背景分类概率估计即网络预测响应图上每个位置是否存在目标,边界框偏移回归估计即响应图上每个位置距离目标框四条边界的距离,经过尺寸转换可以得到原输入网络的搜索区域上目标框的位置和尺寸,经过偏移转换可得到原搜索图上目标框的位置和尺寸;
上述过程的处理过程如下:
通过以下尺寸转换可以计算得到原输入网络的搜索区域上目标框的位置和尺寸:
其中,(px1,py1,px2,py2)是输入网络的搜索区域中目标框左上角和右下角的坐标,(pi,pj)是响应图的坐标(i,j)与输入网络的搜索区域内相应位置的尺寸转换量;
w=px2-px1
h=py2-py1
根据第t帧输入网络的搜索区域与搜索图的偏移量(Δcx,Δcy),得到第t帧原图片上目标框的中心坐标(cx,cy):
最终得到代表原图上目标框尺寸的坐标(cx,cy,w,h)。
7.如权利要求6所述的基于全连接注意力模块的孪生神经网络运动目标跟踪方法,其特征在于:步骤6实现方法为,
在网络训练过程中,保证网络具有辨别真实目标和相似目标的能力,以便跟踪过程中更新模板能够更准确地进行更新;
对于每一张训练图像,通过非极大值抑制将回归图得到的所有候选框进行分类,并按照各个候选框对应的分类图得分从大到小排序,最终每一帧图像生成n个候选框;用各候选框对X′f进行裁剪,得到候选框特征区域;用原第一帧模板图像目标框位置对Z′f进行裁剪,得到目标特征区域;令各候选框特征区域分别与目标特征区域计算欧式距离,选择距离最小的候选框作为正样本,选择除正样本外得分最大的候选框作为负样本,使每一帧图像生成一组训练正负样本对;训练时,令正样本得分高于负样本得分阈值Vt,即
Lossu=pos-neg+Vt
其中,pos代表正样本得分,neg代表负样本得分,Lossu代表模板更新训练目标的损失;当损失趋近于零时,即具备辨别真实目标和相似目标的能力,使模板能够更准确地进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111024719.5A CN113744311A (zh) | 2021-09-02 | 2021-09-02 | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111024719.5A CN113744311A (zh) | 2021-09-02 | 2021-09-02 | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113744311A true CN113744311A (zh) | 2021-12-03 |
Family
ID=78734901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111024719.5A Pending CN113744311A (zh) | 2021-09-02 | 2021-09-02 | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113744311A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920171A (zh) * | 2021-12-09 | 2022-01-11 | 南京理工大学 | 基于特征级和决策级融合的双模态目标跟踪算法 |
CN114333070A (zh) * | 2022-03-10 | 2022-04-12 | 山东山大鸥玛软件股份有限公司 | 一种基于深度学习的考生异常行为检测方法 |
CN114519847A (zh) * | 2022-01-13 | 2022-05-20 | 东南大学 | 一种适用于车路协同感知系统的目标一致性判别方法 |
CN114613004A (zh) * | 2022-02-28 | 2022-06-10 | 电子科技大学 | 一种人体动作的轻量化在线检测方法 |
CN114926498A (zh) * | 2022-04-26 | 2022-08-19 | 电子科技大学 | 一种基于时空约束与可学习特征匹配的快速目标跟踪方法 |
CN115239765A (zh) * | 2022-08-02 | 2022-10-25 | 合肥工业大学 | 基于多尺度可形变注意力的红外图像目标跟踪系统及方法 |
CN116188804A (zh) * | 2023-04-25 | 2023-05-30 | 山东大学 | 一种基于transformer的孪生网络目标搜索系统 |
CN116486203A (zh) * | 2023-04-24 | 2023-07-25 | 燕山大学 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
CN112258554A (zh) * | 2020-10-07 | 2021-01-22 | 大连理工大学 | 基于注意力机制的双流层次孪生网络目标跟踪方法 |
CN113256677A (zh) * | 2021-04-16 | 2021-08-13 | 浙江工业大学 | 一种图注意力视觉目标跟踪方法 |
-
2021
- 2021-09-02 CN CN202111024719.5A patent/CN113744311A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
CN112258554A (zh) * | 2020-10-07 | 2021-01-22 | 大连理工大学 | 基于注意力机制的双流层次孪生网络目标跟踪方法 |
CN113256677A (zh) * | 2021-04-16 | 2021-08-13 | 浙江工业大学 | 一种图注意力视觉目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
董吉富;刘畅;曹方伟;凌源;高翔;: "基于注意力机制的在线自适应孪生网络跟踪算法", 激光与光电子学进展, no. 02, pages 320 - 328 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920171A (zh) * | 2021-12-09 | 2022-01-11 | 南京理工大学 | 基于特征级和决策级融合的双模态目标跟踪算法 |
CN114519847A (zh) * | 2022-01-13 | 2022-05-20 | 东南大学 | 一种适用于车路协同感知系统的目标一致性判别方法 |
CN114613004A (zh) * | 2022-02-28 | 2022-06-10 | 电子科技大学 | 一种人体动作的轻量化在线检测方法 |
CN114333070A (zh) * | 2022-03-10 | 2022-04-12 | 山东山大鸥玛软件股份有限公司 | 一种基于深度学习的考生异常行为检测方法 |
CN114926498A (zh) * | 2022-04-26 | 2022-08-19 | 电子科技大学 | 一种基于时空约束与可学习特征匹配的快速目标跟踪方法 |
CN115239765A (zh) * | 2022-08-02 | 2022-10-25 | 合肥工业大学 | 基于多尺度可形变注意力的红外图像目标跟踪系统及方法 |
CN115239765B (zh) * | 2022-08-02 | 2024-03-29 | 合肥工业大学 | 基于多尺度可形变注意力的红外图像目标跟踪系统及方法 |
CN116486203A (zh) * | 2023-04-24 | 2023-07-25 | 燕山大学 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
CN116486203B (zh) * | 2023-04-24 | 2024-02-02 | 燕山大学 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
CN116188804A (zh) * | 2023-04-25 | 2023-05-30 | 山东大学 | 一种基于transformer的孪生网络目标搜索系统 |
CN116188804B (zh) * | 2023-04-25 | 2023-07-04 | 山东大学 | 一种基于transformer的孪生网络目标搜索系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113744311A (zh) | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 | |
CN110147743B (zh) | 一种复杂场景下的实时在线行人分析与计数系统及方法 | |
CN110738207A (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN108334881B (zh) | 一种基于深度学习的车牌识别方法 | |
Chandio et al. | Precise single-stage detector | |
CN111767847B (zh) | 一种集成目标检测和关联的行人多目标跟踪方法 | |
Ren et al. | A novel squeeze YOLO-based real-time people counting approach | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN111523463B (zh) | 基于匹配-回归网络的目标跟踪方法及训练方法 | |
CN110334584B (zh) | 一种基于区域全卷积网络的手势识别方法 | |
CN117252904B (zh) | 基于长程空间感知与通道增强的目标跟踪方法与系统 | |
CN111882581B (zh) | 一种深度特征关联的多目标跟踪方法 | |
CN112785626A (zh) | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 | |
Tarchoun et al. | Hand-Crafted Features vs Deep Learning for Pedestrian Detection in Moving Camera. | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN116934796A (zh) | 基于孪生残差注意力聚合网络的视觉目标跟踪方法 | |
CN114973305B (zh) | 一种针对拥挤人群的精确人体解析方法 | |
CN116109649A (zh) | 一种基于语义错误修正的3d点云实例分割方法 | |
CN115409989A (zh) | 一种优化边界的三维点云语义分割方法 | |
CN112613472B (zh) | 一种基于深度搜索匹配的行人检测方法及系统 | |
CN113673540A (zh) | 一种基于定位信息引导的目标检测方法 | |
Li et al. | Region proposal ranking via fusion feature for object detection | |
Zhou et al. | Weakly perceived object detection based on an improved CenterNet | |
Ma et al. | Self-attention Guidance Based Crowd Localization and Counting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |