CN115619822A - 一种基于对象级变换神经网络的跟踪方法 - Google Patents

一种基于对象级变换神经网络的跟踪方法 Download PDF

Info

Publication number
CN115619822A
CN115619822A CN202211113345.9A CN202211113345A CN115619822A CN 115619822 A CN115619822 A CN 115619822A CN 202211113345 A CN202211113345 A CN 202211113345A CN 115619822 A CN115619822 A CN 115619822A
Authority
CN
China
Prior art keywords
template
tracking
neural network
dynamic local
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211113345.9A
Other languages
English (en)
Inventor
产思贤
陶健
白琮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202211113345.9A priority Critical patent/CN115619822A/zh
Publication of CN115619822A publication Critical patent/CN115619822A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种基于对象级变换神经网络的跟踪方法,包括:1)根据给定的视频序列和第一帧的标注信息Box1,获取待跟踪视频序列的跟踪模板Z和动态局部模板Zdl;其中动态局部模板Zdl由跟踪模板Z处理后获得,包含9个局部模板;2)根据上一帧的标注信息,获取待跟踪视频序列的搜索图片Si;3)基于步骤1)和步骤2)将跟踪模板Z、动态局部模板Zdl和搜索图片Si作为对象级变换神经网络的输入,获取特征编码后的搜索图片特征X;4)基于步骤3)将编码后的搜索图片特征X作为角点预测网络的输入,获得当前帧中目标定位信息Boxi;5)通过动态局部模板更新策略更新局部模板。本发明将对象级的注意力设计为窗户注意力,从而有效地避免背景信息分散注意力。

Description

一种基于对象级变换神经网络的跟踪方法
技术领域
本申请属于图像处理技术领域,尤其涉及一种基于对象级变换神经网络的跟踪方法。
背景技术
视觉目标跟踪是计算机视觉领域的一项基本任务,其目标是基于初始人工标注来估计任意感兴趣目标的未来状态。因此,视觉目标跟踪已被广泛应用于自动驾驶、人机交互系统和智能监控。随着视觉变换神经网络的普及,视觉目标跟踪的跟踪性能得到了进一步的提高,但仍有许多挑战尚未克服,如剧烈变形、部分遮挡、复杂背景和尺度变化。
大多数基于孪生网络的跟踪器采用相关性方法计算模板和搜索区域之间的亲和力。这种计算过程容易受到局部最优问题的影响。最近,基于变换神经网络的跟踪器通过引入变换神经网络的自注意模块或交叉注意模块来提高视觉跟踪的性能。MixFormer和SBT进一步描述了单流单阶段的框架,它产生了更紧凑和整洁的跟踪范式。然而,这些范式的全局视角忽略了前景和背景之间的区别。大量的背景标记不可避免地导致注意力模块对对象的判别信息失去关注。OSTrack提出了早期消除模块,该模块通过早期获得的相似度评分的先验值来消除背景标记。SparseTT引入了一个稀疏变换神经网络,特征的每个令牌(token)分数仅由top-K令牌分数决定,以提高前景背景的辨别能力。
此外,测试阶段跟踪目标外观变化也是跟踪漂移的核心因素。解决这一问题需要一种有效的在线更新策略。然而,大多数更新策略引入数个完整的历史跟踪结果(与初始模板大小相同)来获时序信息。于是时序信息的丰富性与计算复杂度之间存在着内在的矛盾。
发明内容
本申请的目的是提供一种基于对象级变换神经网络的跟踪方法,在现有技术方案中引入对象级变换神经网络和动态局部模板更新策略,以克服上述背景技术中所提出的技术问题。
本发明包括以下步骤:
一种基于对象级变换神经网络的跟踪方法,通过构建的对象级变换神经网络进行目标跟踪,其特征在于包括以下步骤:
1)根据给定的视频序列和第一帧的标注信息Box1,获取待跟踪视频序列的跟踪模板Z和动态局部模板Zdl;其中动态局部模板Zdl由跟踪模板Z处理后获得,包含9个局部模板;
2)根据上一帧的标注信息,获取待跟踪视频序列的搜索图片Si
3)基于步骤1)和步骤2)将跟踪模板Z、动态局部模板Zdl和搜索图片Si作为对象级变换神经网络的输入,获取特征编码后的搜索图片特征X;
4)基于步骤3)将编码后的搜索图片特征X作为角点预测网络的输入,获得当前帧中目标定位信息Boxi
5)通过动态局部模板更新策略更新局部模板;根据步骤4)预测的Boxi,使用与步骤1)一样的方式获取当前动态局部模板Zdli。同时,根据Boxi通过PrRoIPooling获取对应Zdli中9个局部模板的特征向量,并输入到质量评估网络获取可靠性评分;根据得到的可靠性评分和动态局部模板Zdli,对历史动态局部模板Zdl进行更新,确保后续跟踪的稳定性和精确性。
注意,整个跟踪过程步骤1)仅在第一帧实现,步骤2)到5)不断循环直至跟踪结束。
在步骤1)中所述获取待跟踪视频序列的跟踪模板Z和动态局部模板Zdl,包括以下子步骤:
(11)将人为标注的跟踪目标包围框信息放大预设第一倍数,从待根据视频序列第一帧图片中裁剪出跟踪模板Z;
(12)复制一份跟踪模板Z,以滑动窗口的方式分割出九块局部模板Zdl;其中滑动窗口宽高为跟踪模板大小的二分之一,步长为跟踪模板大小的四分之一。
在步骤2)中所述获取待跟踪视频序列的搜索图片Si,具体方法为:
将上一帧的跟踪结果信息Boxi-1放大预设第二倍数,从当前待处理的帧中裁剪出搜索图片。
在步骤3)中,所述获取对象级变换神经网络,包括以下子步骤:
(31)跟踪模板
Figure BDA0003844473600000031
动态局部模板
Figure BDA0003844473600000032
与搜索特征
Figure BDA0003844473600000033
拼接在一起作为对象变换神经网络的输入
Figure BDA0003844473600000034
Figure BDA0003844473600000035
(32)将输入X进行拆分和变形后通过全卷积嵌入层进行下采样;
(33)将下采样后的特征进行特征编码;
(34)对象级变换神经网络采用分层的多阶段架构,分为三个阶段,每个阶段之前通过全卷积嵌入层对特征进行下采样。在每个阶段,重复执行相同的操作数次,编码输入特征中的目标判别性信息,其中第一阶段和第二阶段重复一次,第三阶段重复九次。
(35)特征编码部分包含级联的对象级注意力和通道注意力;其中对象级注意力采用迭代二分聚类算法将输入
Figure BDA0003844473600000036
经过k个迭代后划分为2k个对象簇。在第每次迭代,随机初始化两个簇中心
Figure BDA0003844473600000037
Figure BDA0003844473600000038
公式如下:
Figure BDA0003844473600000039
其中
Figure BDA00038444736000000310
表示输入X中的某一个向量,m=N/2。然后将簇中心移动两次保证可靠性,采用如下操作:
[c1;c2]=Softmax([c1;c2]XT)X (2)
其中
Figure BDA00038444736000000311
表示两个簇中心的拼接,T表示转置。然后计算余弦距离率r如下:
Figure BDA00038444736000000312
其中D(a,b)表示计算a和b之间的余弦距离。最后,对余弦距离率进行排序,将输入X划分为两个簇,具体公式如下:
Figure BDA00038444736000000313
其中
Figure BDA00038444736000000314
Figure BDA00038444736000000315
表示两个划分后的簇,argsort表示获取排序后的下标。k个迭代后,我们将特征序列
Figure BDA0003844473600000041
进行空间注意力编码,具体方法如下:
Figure BDA0003844473600000042
其中
Figure BDA0003844473600000043
Figure BDA0003844473600000044
经过线性层后生成。h表示计算过程中头的数量,d=C/h,T表示转置。最终,获得经过对象级注意力编码后的特征
Figure BDA0003844473600000045
通道注意力将对象级注意力编码后的特征
Figure BDA0003844473600000046
进行编码,具体公式如下:
Figure BDA0003844473600000047
其中
Figure BDA0003844473600000048
由XSA经过线性层后生成。h表示计算过程中头的数量,d=C/h,T表示转置。最终,获得经过通道注意力编码后的特征
Figure BDA0003844473600000049
在步骤5)中,所述动态局部模板更新策略,包括以下子步骤:
(51)根据步骤1),获取新的动态局部模板;
(52)利用PrRoIPooling从抽取对应的九个特征向量
Figure BDA00038444736000000410
将Xroi和跟踪模板特征
Figure BDA00038444736000000411
作为可靠性评分计算过程的输入;
(53)质量评估网络具体公式如下:
Figure BDA00038444736000000412
Sroi=σ(W1Rroi) (8)
其中
Figure BDA00038444736000000413
表示可靠性评分。
Figure BDA00038444736000000414
由Xroi经过全连接层生成,
Figure BDA00038444736000000415
由XZ经过全连接层生成。W1全连接层操作,σ表示激活函数ReLU,T表示转置。
(54)为了避免引入过多跟踪目标的中间局部模板,仅再对应位置进行局部模板更新,具体如下:
Figure BDA0003844473600000051
其中,argsort表示获取排序后的下标,topk表示选择前k个,
Figure BDA0003844473600000052
Figure BDA0003844473600000053
Figure BDA0003844473600000054
分别表示历史的和当前的动态局部模板。
(55)每20帧更新一次动态局部模板。
本发明的优点是:引入对象级注意力以捕获相似对象之间的微小差异进行跟踪;首先,通过聚类相似的对象向量,将对象级注意力设计为窗口注意力,有效地避免了外部背景信息的干扰;其次,设计了一种新的动态局部模板更新策略为视觉目标跟踪引入时序信息,实现了时间信息丰富度与计算量之间的权衡;动态局部模板更新策略维护九个局部模板,这些模板独立采样自历史跟踪结果。
附图说明
图1为本申请基于对象级变换神经网络的跟踪方法流程图。
图2为本申请对象级变换神经网络结构示意图。
图3为本申请质量评估网络结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提出了一种基于对象级变换神经网络的跟踪方法,包括:
步骤S1、获取待跟踪视频序列的跟踪模板和动态局部模板。
对于需要进行目标跟踪的视频序列,本实施例首先获取其跟踪模板Z。具体的,将人为标注的跟踪目标包围框信息Box1放大预设第一倍数,从待根据视频序列第一帧图片I1中裁剪出跟踪模板Z。
例如将包围框信息Box1放大2倍,然后第一帧图片I1中裁剪出跟踪模版Z,包围框信息Box1包括跟踪目标包围框的左上角坐标和右下角坐标。
在获取到跟踪模板Z之后,本实例初始化其动态局部模板Zdl。具体的,设计一个步长为Z大小四分之一,大小为Z二分之一的滑动窗口对Z进行切分,获取包含九个局部模板的动态局部模板Zdl
例如Z1的宽高分别为WZ和HZ,则滑动窗口的步长为
Figure BDA0003844473600000061
Figure BDA0003844473600000062
窗口大小为
Figure BDA00038444736000000618
Figure BDA0003844473600000063
最终得到九个局部模板,大小为
Figure BDA00038444736000000617
Figure BDA0003844473600000064
步骤S2、从待跟踪视频序列中获取当前搜索图片。
本实例将上一帧的跟踪结果信息放大预设第二倍数,从当前待处理的帧中裁剪出搜索图片。
例如,根据上一帧的跟踪结果Boxi-1,对输入的图片Ii,i∈[2,n],根据上一帧的跟踪结果的包围框信息,放大5倍然后裁剪出搜索图片Si。同理上一帧的跟踪结果Boxi-1,包括跟踪目标包围框的左上角坐标和右下角坐标。
步骤S3、将目标模板、动态局部模板和搜索图片输入对象级变换神经网络,编码跟踪目标的判别性特征,辅助预测目标位置Boxi
对象级变换神经网络采用分层的多阶段架构,分为三个阶段,每个阶段之前通过全卷积嵌入层对特征进行下采样。在每个阶段,会对输入特征进行数次对象注意力编码和通道注意力编码,其中第一阶段和第二阶段重复一次,第三阶段重复九次。
第一阶段,将目标模板
Figure BDA0003844473600000065
动态局部模板
Figure BDA0003844473600000066
Figure BDA0003844473600000067
与搜索特征
Figure BDA0003844473600000068
各自经过一个共享的全卷积嵌入层进行下采样获得跟踪模板特征
Figure BDA0003844473600000069
动态局部模板特征
Figure BDA00038444736000000610
与搜索特征
Figure BDA00038444736000000611
并拼接在一起作为输入
Figure BDA00038444736000000612
编码对象信息。
需要说明的是,
Figure BDA00038444736000000613
通常用来表示特征的尺寸,C表示通道数,H表示高度,W表示宽度,B表示输入的批处理大小。编码对象信息的过程中采用对象级注意力和通道注意力编码判别性信息。
对象级注意力编码过程首先通过迭代二分聚类算法将输入
Figure BDA00038444736000000614
Figure BDA00038444736000000615
经过k个迭代后划分为2k个对象簇。在第每次迭代,随机初始化两个簇中心
Figure BDA0003844473600000071
Figure BDA0003844473600000072
公式如下:
Figure BDA0003844473600000073
其中
Figure BDA0003844473600000074
表示输入X中的某一个向量,m=N/2。然后将簇中心移动两次保证可靠性,采用如下操作:
[c1;c2]=Softmax([c1;c2]XT)X (2)
其中
Figure BDA0003844473600000075
表示两个簇中心的拼接,T表示转置。然后计算余弦距离率r如下:
Figure BDA0003844473600000076
其中D(a,b)表示计算a和b之间的余弦距离。最后,对余弦距离率进行排序,将输入X划分为两个簇,具体公式如下:
Figure BDA0003844473600000077
其中
Figure BDA0003844473600000078
Figure BDA0003844473600000079
表示两个划分后的簇,argsort表示获取排序后的下标。k个迭代后,我们将特征序列
Figure BDA00038444736000000710
进行一般的空间注意力计算,具体方法如下:
Figure BDA00038444736000000711
其中
Figure BDA00038444736000000712
Figure BDA00038444736000000713
经过线性层后生成。h表示注意力计算中头的数量,d=C/h,T表示转置。最终,获得经过对象级注意力编码后的特征
Figure BDA00038444736000000714
通道注意力编码过程将对象级注意力编码后的特征
Figure BDA00038444736000000715
继续通道注意力编码,具体公式如下:
Figure BDA00038444736000000716
其中
Figure BDA00038444736000000717
由XSA经过线性层后生成。h表示注意力计算中头的数量,d=C/h,T表示转置。最终,获得经过对象级注意力编码后的特征
Figure BDA00038444736000000718
需要注意的是该阶段特征编码重复一次。
第二阶段,将第一阶段编码后的的特征
Figure BDA0003844473600000081
进行拆分变形后再次输入共享的全卷积嵌入层进行下采样,获得跟踪模板特征
Figure BDA0003844473600000082
动态局部模板特征
Figure BDA0003844473600000083
与搜索特征
Figure BDA0003844473600000084
并拼接在一起作为输入
Figure BDA0003844473600000085
再一次进行特征编码。需要注意的是该阶段仅包含一次特征编码计算。
第三阶段,将第二阶段编码后的的特征
Figure BDA0003844473600000086
进行拆分变形后再次输入共享的全卷积嵌入层进行下采样,获得跟踪模板特征
Figure BDA0003844473600000087
动态局部模板特征
Figure BDA0003844473600000088
与搜索特征
Figure BDA0003844473600000089
并拼接在一起作为输入
Figure BDA00038444736000000810
进行特征编码。需要注意的是该阶段重复九次特征编码计算。
步骤S4、将步骤3输出的特征
Figure BDA00038444736000000811
拆分为跟踪模板特征
Figure BDA00038444736000000812
动态局部模板特征
Figure BDA00038444736000000813
与搜索特征
Figure BDA00038444736000000814
Figure BDA00038444736000000815
进行降维预测跟踪目标的角点,获得跟踪目标的包围框信息。
本步骤将搜索特征
Figure BDA00038444736000000816
变形为一个新的特征图
Figure BDA00038444736000000817
方便后续的角点预测,该过程需要经过3层全连接层(FCN),并且通过soft-argmax归一化,F通过三层全连接层得到预测结果的左上角和右下角的概率分布Ptl(x,y)和Pbr(x,y),然后分别经过soft-argmax函数,得到包围框的左上角和右下角的坐标
Figure BDA00038444736000000818
Figure BDA00038444736000000819
其中,
Figure BDA00038444736000000820
表示:预测包围框的左上角坐标;
Figure BDA00038444736000000821
表示:预测包围框的左上角坐标;Ptl(x,y)表示:预测包围框左上角坐标的概率分布;Pbr(x,y)表示:预测包围框右下角坐标的概率分布。
根据概率分布的期望值得到预测结果左上角和右下角的坐标,然后获得包围框结果,最终获得跟踪结果Boxi
步骤S5、根据预测的跟踪结果Boxi,利用PrRoIPooling从
Figure BDA00038444736000000822
Figure BDA0003844473600000091
中抽取对应的九个特征向量
Figure BDA0003844473600000092
将Xroi和跟踪模板特征
Figure BDA0003844473600000093
作为输入,通过交叉注意力获得每个局部模板的可靠性评分。同时从第i帧中裁切获得新的动态局部模板
Figure BDA0003844473600000094
Figure BDA0003844473600000095
通过对比可靠性评分,对动态局部模板进行更新。
本步骤将将Xroi和跟踪模板特征
Figure BDA0003844473600000096
作为输入获得每个局部模板的可靠性评分,具体公式如下:
Figure BDA0003844473600000097
Sroi=σ(W1Rroi) (8)
其中
Figure BDA0003844473600000098
表示可靠性评分。
Figure BDA0003844473600000099
由Xroi经过全连接层生成,
Figure BDA00038444736000000910
Figure BDA00038444736000000911
经过全连接层生成。W1全连接层操作,σ表示激活函数ReLU,T表示转置。然后,每20帧更新一次动态局部模板。为了避免引入过多跟踪目标的中间局部模板,仅再对应位置进行局部模板更新,具体如下:
Figure BDA00038444736000000912
其中,argsort表示获取排序后的下标,topk表示选择前k个,
Figure BDA00038444736000000913
Figure BDA00038444736000000914
Figure BDA00038444736000000915
分别表示历史的和当前的动态局部模板
Figure BDA00038444736000000916
Figure BDA00038444736000000917
对于如图2所示的整个深度学习模型,需要进行两阶段训练后才能够进行实际的应用,训练过程如下:
第一阶段,对训练数据集进行预处理,选取视频序列中间隔为T的两帧,根据标注信息,依照裁切模板图片和搜索图片到128×128和320×320尺寸,动态局部模板包含九块尺寸为64×64的局部模板;
将预处理后的训练数据集输入到深度学习模型,进行训练,训练中计算联合损失,进行反向传播,更新模型参数,完成训练。
联合损失采用如下公式表示:
Figure BDA00038444736000000918
其中,Liou表示交并比损失,用来衡量真值与预测值的距离,L1表示平均绝对误差损失,λiou
Figure BDA0003844473600000103
表示对应损失函数的权重,例如分别是5和2,bi
Figure BDA0003844473600000101
表示真值和预测的包围框。
训练过程中,批处理大小为80,学习率从0.0001下降到0.00001,使用AdamW算法迭代训练500次并保存每次迭代结果,后100次迭代以整体网络学习率的十分之一开始训练。需要注意的是该阶段仅对变换神经网络的参数进行微调
第二阶段,对质量评估网络的参数进行微调。对训练数据集进行预处理,选取视频序列中间隔为T的两帧,根据标注信息,依照裁切模板图片和搜索图片到128×128和320×320尺寸,动态局部模板包含九块尺寸为64×64的局部模板;
将预处理后的训练数据集输入到深度学习模型,进行训练,训练中计算交叉熵损失,进行反向传播,更新模型参数,完成训练。
交叉熵损失采用如下公式表示:
Figure BDA0003844473600000102
其中,yi表示真值,存在跟踪目标为1,不存在为0。pi表示最终预测的可靠性分数。
训练过程中,批处理大小为256,学习率从0.0001下降到0.00001,使用AdamW算法迭代训练40次并保存每次迭代结果,后10次迭代以整体网络学习率的十分之一开始训练。需要注意的是该阶段仅微调质量评估网络的参数,变换神经网络的参数全程被冻结。
本发明通过利用对象级变换神经网络编码跟踪模板、动态局部模板和搜索图片中具有判别性的目标信息,聚类相似的对象令牌,将对象级的注意力设计为窗户注意力,从而有效地避免背景信息分散注意力。其次,通过设计一种新的动态局部模板更新策略,为单目标跟踪引入时序信息,实现了时间信息丰富和计算负担之间的权衡。动态局部模板更新策略维护了九个局部模板,这些模板是在测试过程中独立进行采样的。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于对象级变换神经网络的跟踪方法,通过构建的对象级变换神经网络进行目标跟踪,其特征在于:包括以下步骤:
1)根据给定的视频序列和第一帧的标注信息Box1,获取待跟踪视频序列的跟踪模板Z和动态局部模板Zdl;其中动态局部模板Zdl由跟踪模板Z处理后获得,包含9个局部模板;
2)根据上一帧的标注信息,获取待跟踪视频序列的搜索图片Si
3)基于步骤1)和步骤2)将跟踪模板Z、动态局部模板Zdl和搜索图片Si作为对象级变换神经网络的输入,获取特征编码后的搜索图片特征X;
4)基于步骤3)将编码后的搜索图片特征X作为角点预测网络的输入,获得当前帧中目标定位信息Boxi
5)通过动态局部模板更新策略更新局部模板;根据步骤4)预测的Boxi,使用与步骤1)一样的方式获取当前动态局部模板Zdli;同时,根据Boxi通过PrRoIPooling获取对应Zdli中9个局部模板的特征向量,并输入到质量评估网络获取可靠性评分;根据得到的可靠性评分和动态局部模板Zdli,对历史动态局部模板Zdl中评分低的部分进行替换。
2.根据权利要求1所述的基于对象级变换神经网络的跟踪方法,其特征在于:步骤1)所述的获取待跟踪视频序列的跟踪模板Z和动态局部模板Zdl,包括以下子步骤:
(11)将人为标注的跟踪目标包围框信息放大预设第一倍数,从待根据视频序列第一帧图片中裁剪出跟踪模板Z;
(12)复制一份跟踪模板Z,以滑动窗口的方式分割出九块局部模板Zdl;其中滑动窗口宽高为跟踪模板大小的二分之一,步长为跟踪模板大小的四分之一。
3.根据权利要求1所述的基于对象级变换神经网络的跟踪方法,其特征在于:步骤2)所述的获取待跟踪视频序列的搜索图片Si,具体方法为:
将上一帧的跟踪结果信息Boxi-1放大预设第二倍数,从当前待处理的帧中裁剪出搜索图片。
4.根据权利要求1所述的基于对象级变换神经网络的跟踪方法,其特征在于:步骤3)所述的获取对象级变换神经网络,包括以下子步骤:
(31)跟踪模板
Figure FDA0003844473590000021
动态局部模板
Figure FDA0003844473590000022
与搜索特征
Figure FDA0003844473590000023
拼接在一起作为对象变换神经网络的输入
Figure FDA0003844473590000024
Figure FDA0003844473590000025
(32)将输入X进行拆分和变形后通过全卷积嵌入层进行下采样;
(33)将下采样后的特征进行特征编码;
(34)对象级变换神经网络采用分层的多阶段架构,分为三个阶段,每个阶段之前通过全卷积嵌入层对特征进行下采样;在每个阶段,重复执行相同的操作数次,编码输入特征中的目标判别性信息,其中第一阶段和第二阶段重复一次,第三阶段重复九次;
(35)特征编码部分包含级联的对象级注意力和通道注意力;其中对象级注意力采用迭代二分聚类算法将输入
Figure FDA0003844473590000026
经过k个迭代后划分为2k个对象簇;在第每次迭代,随机初始化两个簇中心
Figure FDA0003844473590000027
Figure FDA0003844473590000028
公式如下:
Figure FDA0003844473590000029
其中
Figure FDA00038444735900000210
表示输入X中的某一个向量,m=N/2;然后将簇中心移动两次保证可靠性,采用如下操作:
[c1;c2]=Softmax([c1;c2]XT)X (2)
其中
Figure FDA00038444735900000211
表示两个簇中心的拼接,T表示转置;然后计算余弦距离率r如下:
Figure FDA00038444735900000212
其中D(a,b)表示计算a和b之间的余弦距离;最后,对余弦距离率进行排序,将输入X划分为两个簇,具体公式如下:
Figure FDA00038444735900000213
其中
Figure FDA0003844473590000031
Figure FDA0003844473590000032
表示两个划分后的簇,argsort表示获取排序后的下标;k个迭代后,对特征序列
Figure FDA0003844473590000033
进行空间注意力编码,具体方法如下:
Figure FDA0003844473590000034
其中
Figure FDA0003844473590000035
Figure FDA0003844473590000036
经过线性层后生成;h表示计算过程中头的数量,d=C/h,T表示转置;最终,获得经过对象级注意力编码后的特征
Figure FDA0003844473590000037
通道注意力将编码后的特征
Figure FDA0003844473590000038
进行按通道编码,具体公式如下:
Figure FDA0003844473590000039
其中
Figure FDA00038444735900000310
由XSA经过线性层后生成;h表示计算过程中头的数量,d=C/h,T表示转置;最终,获得经过通道注意力编码后的特征
Figure FDA00038444735900000311
5.根据权利要求1所述的基于对象级变换神经网络的跟踪方法,其特征在于:步骤5)所述的动态局部模板更新策略,包括以下子步骤:
(51)根据步骤1),获取新的动态局部模板;
(52)利用PrRoIPooling从抽取对应的九个特征向量
Figure FDA00038444735900000312
将Xroi和跟踪模板特征
Figure FDA00038444735900000313
作为可靠性评分计算过程的输入;
(53)质量评估网络具体公式如下:
Figure FDA00038444735900000314
Sroi=σ(W1Rroi) (8)
其中
Figure FDA00038444735900000315
表示可靠性评分;
Figure FDA00038444735900000316
由Xroi经过全连接层生成,
Figure FDA00038444735900000317
由XZ经过全连接层生成;W1全连接层操作,σ表示激活函数ReLU,T表示转置;
(54)为了避免引入过多跟踪目标的中间局部模板,仅再对应位置进行局部模板更新,具体如下:
Figure FDA0003844473590000041
其中,argsort表示获取排序后的下标,topk表示选择前k个,
Figure FDA0003844473590000042
Figure FDA0003844473590000043
Figure FDA0003844473590000044
分别表示历史的和当前的动态局部模板;
(55)每20帧更新一次动态局部模板。
CN202211113345.9A 2022-09-14 2022-09-14 一种基于对象级变换神经网络的跟踪方法 Pending CN115619822A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211113345.9A CN115619822A (zh) 2022-09-14 2022-09-14 一种基于对象级变换神经网络的跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211113345.9A CN115619822A (zh) 2022-09-14 2022-09-14 一种基于对象级变换神经网络的跟踪方法

Publications (1)

Publication Number Publication Date
CN115619822A true CN115619822A (zh) 2023-01-17

Family

ID=84857984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211113345.9A Pending CN115619822A (zh) 2022-09-14 2022-09-14 一种基于对象级变换神经网络的跟踪方法

Country Status (1)

Country Link
CN (1) CN115619822A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649582A (zh) * 2024-01-25 2024-03-05 南昌工程学院 基于级联注意力的单流单阶段网络目标跟踪方法与系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649582A (zh) * 2024-01-25 2024-03-05 南昌工程学院 基于级联注意力的单流单阶段网络目标跟踪方法与系统
CN117649582B (zh) * 2024-01-25 2024-04-19 南昌工程学院 基于级联注意力的单流单阶段网络目标跟踪方法与系统

Similar Documents

Publication Publication Date Title
WO2024021394A1 (zh) 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN111968150B (zh) 一种基于全卷积神经网络的弱监督视频目标分割方法
CN113628249B (zh) 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN112164100B (zh) 一种基于图卷积神经网络的图像配准方法
CN111582041A (zh) 基于cwt和mlmsffcnn的脑电识别方法
CN115690152A (zh) 一种基于注意力机制的目标追踪方法
CN114694024A (zh) 基于多层特征自注意力变换网络的无人机对地目标跟踪方法
CN114863229A (zh) 图像分类方法和图像分类模型的训练方法、装置
CN115619822A (zh) 一种基于对象级变换神经网络的跟踪方法
CN116258874A (zh) 基于深度条件扩散网络的sar识别数据库样本姿态扩充方法
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN113822368A (zh) 一种基于无锚的增量式目标检测方法
Zeng et al. Deep stereo matching with hysteresis attention and supervised cost volume construction
CN117409431B (zh) 一种多模态大型语言模型训练方法、电子设备及存储介质
CN113901922A (zh) 一种基于隐式表征解耦网络的遮挡行人重识别方法及系统
CN117315293A (zh) 一种基于Transformer的时空上下文目标跟踪方法及系统
CN115171029B (zh) 基于无人驾驶的城市场景下的实例分割方法及系统
CN116844004A (zh) 一种面向数字孪生场景的点云自动语义化建模方法
CN116597267A (zh) 图像识别方法、装置、计算机设备和存储介质
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
CN116109667A (zh) 一种基于孪生网络的单目标跟踪方法及系统
CN113570611A (zh) 基于多特征融合解码器的矿物实时分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination