CN115147456B - 一种基于时序自适应卷积与注意力机制的目标跟踪方法 - Google Patents

一种基于时序自适应卷积与注意力机制的目标跟踪方法 Download PDF

Info

Publication number
CN115147456B
CN115147456B CN202210748109.8A CN202210748109A CN115147456B CN 115147456 B CN115147456 B CN 115147456B CN 202210748109 A CN202210748109 A CN 202210748109A CN 115147456 B CN115147456 B CN 115147456B
Authority
CN
China
Prior art keywords
template
feature vector
branch
attention
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210748109.8A
Other languages
English (en)
Other versions
CN115147456A (zh
Inventor
孙翊铭
赵静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202210748109.8A priority Critical patent/CN115147456B/zh
Publication of CN115147456A publication Critical patent/CN115147456A/zh
Application granted granted Critical
Publication of CN115147456B publication Critical patent/CN115147456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时序自适应卷积与注意力机制的目标跟踪方法,在特征提取方面,该方法提出了一种适用于目标跟踪的时序自适应卷积处理,利用时间信息来辅助空间特征的提取。同时还提出了一种全新的基于注意力的特征融合网络,相较于其他基于注意力的跟踪方法,该网络利用注意力更有效地结合了模板和搜索区域的特征,增强了目标经历干扰时模板信息与搜索区域信息的耦合性。本发明对运动模糊,目标遮挡,目标形变和目标超出视角等极端环境具有较强的鲁棒性。

Description

一种基于时序自适应卷积与注意力机制的目标跟踪方法
技术领域
本发明属于计算机视觉技术领域,具体为利用时序自适应卷积进行特征提取与注意力机制进行特征融合的目标跟踪方法。
背景技术
视觉目标跟踪是计算机视觉中广受研究的课题。由于视觉摄像机的广泛应用,基于视觉跟踪的应用得到了迅速发展,如运动目标分析、地理测量、视觉定位等。尽管基于孪生网络的跟踪方法实现了对简单运动的目跟踪,但在实际应用中由于遮挡、快速运动导致的目标模糊和外观变化等因素,仅基于视觉信息的目标跟踪任是一项具有挑战性的任务。
现有方法存在问题1:视频流中丰富的时空信息对准确的视觉目标跟踪至关重要。前者包含用于目标定位的表征信息,后者包含对象在帧间的状态变化。在基于孪生网络的跟踪方法中,先前方法通过特征在空间维度上的拼接、动态模板更新、图神经网络和时空记忆网络引入时间信息。在该方法中一个典型的缺陷在于将视频帧视为独立的个体,仅利用多帧图像对目标表征进行建模,忽略了相邻帧间存在的动态变化信息。
现有方法存在问题2:在基于孪生的跟踪方法中,通过构建模板图像和搜索区域图像之间的相似度响应图来对搜索区域中的目标位置进行预测;现有方法通过协相关运算来构建模板图像和搜索区域图像之间的相似性图。然而,协相关运算是一个局部运算,导致其无法聚合在空间上距离较远的特征,对干扰的鲁棒性低。其次协相关运算本质上是一个线性加权操作,导致其丢失了向量在特征空间上丰富的语义信息。
发明内容
本发明的目的是为了解决现有方法所存在的问题而提出了的一种基于时序自适应卷积与注意力机制的目标跟踪方法,该方法使用时序自适应卷积对模板初级特征向量和搜索区域初级特征向量进行处理,使用视频中的时序信息来增强空间特征的表征能力,从而将孤立的视频帧有机结合。同时提高了时序信息的利用效率;利用一种基于注意力的特征融合网络,使模板与搜索区域在空间上的远距离特征充分聚合,从而获得更具语义信息的相似度响应图。
实现本发明目的的具体技术方案是:
一种基于时序自适应卷积与注意力机制的目标跟踪方法,包括如下步骤:
步骤1,对于给定的模板图像,利用特征提取骨干网络进行特征提取,最终得到模板初级特征向量;
步骤2,对于给定的搜索图像,利用特征提取骨干网络进行特征提取,最终得到搜索区域初级特征向量;
步骤3,将步骤1提取的模板初级特征向量和步骤2提取的搜索区域初级特征向量输入时序自适应卷积模块,得到模板特征向量与搜索区域特征向量;
步骤4,将步骤3得到的搜索区域特征向量和模板特征向量输入基于注意力的特征融合网络,得到搜索区域与模板特征的相似度响应图;
步骤5,将响应图输入预测网络,得到跟踪结果。
进一步的,步骤1中的模板图像特征提取骨干网络的具体过程如下:
特征提取骨干网络使用孪生网络来提取图像特征,该网络由两个分支组成:一个提取目标模板特征的模板分支,一个提取搜索图像特征的搜索分支,并且这两个分支结构相同,共享网络权重.将目标模板图像
Figure GDA0004087415030000021
输入骨干网络得到模板初级特征向量fz0,其中Hz0,Wz0为输入模板图像高度与宽度。
进一步的,步骤2中的搜索图像特征提取骨干网络的具体过程如下:
特征提取骨干网络使用孪生网络来提取图像特征,该网络由两个分支组成:一个提取目标模板特征的模板分支,一个提取搜索图像特征的搜索分支,并且这两个分支结构相同,共享网络权重.将搜索图像
Figure GDA0004087415030000022
输入骨干网络得到搜索区域初级特征向量fx0,其中Hx0,Wx0为搜索图像高度与宽度。
进一步的,步骤3中时序自适应卷积模块的具体描述如下:
对于输入的模板初级特征向量fz0,使用自适应卷积层权重参数Wb,和偏置参数bb,对模板的初级特征向量进行特征强化,得到模板的特征向量fz.模板的特征向量fz的计算表示式为:fz=Wb*fz0+bb.对于搜索区域初级特征向量fx0,首先构造长度为L,元素类型为帧描述符的队列,称为帧描述符队列,其符号为
Figure GDA0004087415030000023
其中帧描述符通过对每一帧的索区域初级特征向量fx0进行全局平均池化(GAP)获得,即
Figure GDA0004087415030000024
帧描述符队列
Figure GDA0004087415030000025
通过下式计算得到:
Figure GDA0004087415030000026
Figure GDA0004087415030000027
其中Cat表示在空间维度的拼接操作;随后使用帧描述符队列
Figure GDA0004087415030000031
生成权重标定因子
Figure GDA0004087415030000032
和偏置标定因子
Figure GDA0004087415030000033
权重和偏置标定因子的计算表示式为:
Figure GDA0004087415030000034
其中
Figure GDA0004087415030000035
表示卷积运算.进一步的,使用权重标定因子
Figure GDA0004087415030000036
偏置标定因子
Figure GDA0004087415030000037
自适应卷积层权重参数Wb和偏置参数bb计算更新后的自适应卷积层权重参数Wt和偏置参数bt.Wt和bt通过下式计算得到
Figure GDA0004087415030000038
最后使用更新后自适应卷积层权重参数Wt和偏置参数bt,对搜索区域初级特征向量进行特征强化,得到搜索区域的特征向量fx.搜索区域的特征向量fx的计算表示式为:fx=Wt*fx0+bt
进一步的,步骤4中的特征融合网络对特征向量的处理过程如下:
首先对搜索区域的特征向量fx和模板的特征向量fz在空间维度上进行展平操作,得到展平后的搜索区域的特征向量fx1和展平后的模板特征向量fz1.所述基于注意力的特征融合网络由模板分支和搜索分支构成;对于每个分支,又由一个自注意力模块和一个交叉注意力模块组成;首先搜索分支的自注意力模块和模板分支的自注意力模块自适应地聚焦于目标轮廓信息,从而增强搜索区域特征向量fx和模板特征向量fz的表征能力;其中搜索分支自注意力模块输出如下fx2=fx1+MultiHead(fx1+Px,fx1+Px,fx1),其中
Figure GDA0004087415030000039
是对fx1的空间位置编码,d为搜索区域特征向量中每个特征的维度,Nx为搜索区域特征向量中特征的数目,fx2是搜索分支自注意力模块的输出,MultiHead为多头注意力机制.多头注意力机制的计算式如下:
Figure GDA00040874150300000310
Figure GDA00040874150300000311
其中
Figure GDA00040874150300000312
与W为学习参数矩阵.Q,K,V为多头注意力机制的输入;模板分支自注意力模块输出如下fz2=fz1+MultiHead(fz1+Px,fz1+Px,fz1),其中fz2是模板分支自注意力模块的输出,
Figure GDA00040874150300000313
是对fz1的位置编码,d为模板特征向量中每个特征的维度,Nq为模板特征向量中特征的数目,MultiHead为式(1)表示的多头注意力机制.然后,搜索分支交叉注意力模块和模板分支交叉注意力模块同时接收各自分支和另一分支的特征向量,使用模板向量突出搜索区域的目标特征,抑制随机分布的背景噪音。其中搜索分支交叉注意力模块输出如下
Figure GDA00040874150300000314
Figure GDA0004087415030000041
其中
Figure GDA0004087415030000042
是对fx2的位置编码,Pkv是对fz2的位置编码,FFN为前馈网络,可由下式计算得到:
FFN(x)=max(0,xW1+b1)W2+b2   (2)
其中wi和bi分别表示第i层的权重矩阵和偏置向量,MultiHead为式(1)表示的多头注意力机制;模板分支交叉注意力模块输出如下
Figure GDA0004087415030000043
其中fz3为模板分支交叉注意力模块的输出,FFN(.)为由式(2)计算的前馈网络.最后一个交叉注意力模块用来交汇搜索分支和模板分支的输出,其计算表示为下式:
Figure GDA0004087415030000044
Figure GDA0004087415030000045
其中f为模板与搜索区域的相似度响应图,FFN(.)为由式(2)计算的前馈网络,
Figure GDA0004087415030000046
是对fx3的位置编码,Pkv是对fz3的位置编码。
进一步的,步骤5所述将响应图输入预测网络,得到跟踪结果,具体包括:
预测网络由分类分支和回归分支组成。每个分支由一个使用ReLU激活函数,隐藏层维为d的三层感知机组成。对于特征融合网络生成的相似度响应图f,预测网络对每个向量进行预测,以得到前景或背景的分类结果,以及正则化后的坐标。然后为了抑制目标漂移现象,采用余弦窗惩罚对得到的置信度进行后处理.最后,选择置信度得分最高的坐标作为跟踪结果。
本发明与现有技术相比,具有以下优点:
本发明提出的时序自适应卷积模块利用动态更新的卷积核权重进行特征提取,增强了空间卷积的时序建模能力。与以往引入时间信息的方法相比,时间自适应卷积核的权重由历史特征信息动态生成的,其优点1:它通过使用视频帧之间目标的运动信息来增强空间特征的表征能力,从而将孤立的视频帧有机结合起来;优点2:此外,因为时序自适应卷积在卷积核权重上进行操作,而不是在特征向量上进行操作,相对于其他时序信息引入机制的计算复杂度更低。
本发明提出的基于注意力的特征融合网络,通过建立搜索区域与模板特征间长距离的依赖关系,使得跟踪方法能够自适应地提取空间特征间丰富的语义信息;优点3:相较于现有的特征融合方法,该方法提出的特征融合网络在物体经历形变,遮挡等干扰时,仍然可以得到准确的模板图像和搜索区域图像之间的相似度响应图,为后续跟踪结果的生成提供了更加精确的目标信息。
附图说明
图1为本发明流程图;
图2是本发明实施例整体骨干网络结构图;
图3是本发明提出的时间自适应卷积处理搜索区域初级特征向量的流程图;
图4是本发明提出的时间自适应卷积处理模板初级特征向量的流程图;
图5是本发明实施例基于注意力的特征融合网络结构图;
图6是本发明提出的基于自注意力的特征融合模块结构图;
图7是本发明提出的基于交叉注意力的特征融合模块结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明做进一步详细说明,应当理解,此处描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提出的时序自适应卷积模块,通过由当前输入的相邻帧特征动态更新卷积核的权重,从而实现使用时间上下文以强化空间特征的表征能力。自适应机制通过对比相邻帧间不同特征的相似度,对提取特征的卷积核权重进行加权。从而突出相邻帧中相似特征,抑制随机分布的背景与干扰。
本发明提出的基于注意力的特征融合网络,通过建立搜索区域与模板特征间长距离的依赖关系,使得跟踪方法能够自适应地提取空间特征间丰富的语义信息.与现有方法相比,更精确地得到了模板图像和搜索区域图像之间的相似度响应图,为后续跟踪结果的生成提供了更加精确的目标信息。
如图1所示,本发明的整体流程为:
步骤1,对于给定的模板图像,利用特征提取骨干网络进行特征提取,最终得到模板初级特征向量;
步骤2,对于给定的搜索图像,利用特征提取骨干网络进行特征提取,最终得到搜索区域初级特征向量;
步骤3,将步骤1提取的模板初级特征向量和步骤2提取的搜索区域初级特征向量输入时序自适应卷积模块,得到模板特征向量与搜索区域特征向量;
步骤4,将步骤3得到的搜索区域特征向量和模板特征向量输入基于注意力的特征融合网络,得到搜索区域与模板特征的相似度响应图;
步骤5,将响应图输入预测网络,得到跟踪结果。
进一步的,如图2,步骤1和步骤2中的模板图像特征提取骨干网络的具体过程如下:
特征提取骨干网络使用孪生网络来提取图像特征,该网络由两个分支组成:一个提取目标模板特征的模板分支,一个提取搜索图像特征的搜索分支,并且这两个分支结构相同,共享网络权重.将目标模板图像
Figure GDA0004087415030000061
输入骨干网络得到模板初级特征向量fz0,其中Hz0,Wz0为输入模板图像高度与宽度.将搜索图像
Figure GDA0004087415030000062
输入骨干网络得到搜索区域初级特征向量fx0,其中Hx0,Wx0为搜索图像高度与宽度。
进一步的,如图3,步骤3中搜索区域初级特征向量通过时序自适应卷积模块处理后得到搜索区域的特征向量的具体流程如下:
对于搜索区域初级特征向量fx0,首先构造长度为L,元素类型为帧描述符的队列,称为帧描述符队列,其符号为
Figure GDA0004087415030000063
其中帧描述符通过对每一帧的索区域初级特征向量fx0进行全局平均池化(GAP)获得,即
Figure GDA0004087415030000064
帧描述符队列
Figure GDA0004087415030000065
通过下式计算得到:
Figure GDA0004087415030000066
其中Cat表示在空间维度的拼接操作.随后用帧描述符队列
Figure GDA0004087415030000067
生成权重标定因子
Figure GDA0004087415030000068
和偏置标定因子
Figure GDA0004087415030000069
权重和偏置标定因子的计算表示式为:
Figure GDA00040874150300000610
其中
Figure GDA00040874150300000611
表示1D卷积运算.进一步的,使用权重标定因子
Figure GDA00040874150300000612
偏置标定因子
Figure GDA00040874150300000613
自适应卷积层权重参数Wb,和偏置参数bb计算更新后的自适应卷积层权重参数Wt,和偏置参数bt,Wt,和bt通过下式计算得到
Figure GDA00040874150300000614
最后使用更新后自适应卷积层权重参数Wt,和偏置参数bt,对搜索区域初级特征向量进行特征强化,得到搜索区域的特征向量fx.搜索区域的特征向量fx的计算表示式为:fx=Wt*fx0+bt
进一步的,如图4,步骤3中模板初级特征向量通过时序自适应卷积处理后得到模板的特征向量的具体流程如下:
对于输入的模板初级特征向量fz0,使用自适应卷积层权重参数Wb,和偏置参数bb,对模板的初级特征向量进行特征强化,得到模板的特征向量fz.模板的特征向量fz的计算表示式为:fz=Wb*fz0+bb
进一步的,如图5,步骤4中的特征融合网络对特征向量的具体过程如下:
首先对搜索区域的特征向量fx和模板的特征向量fz在空间维度上进行展平操作,得到展平后的搜索区域的特征向量fx1和展平后的模板特征向量fz1.所述基于注意力的特征融合网络由模板分支和搜索分支构成;对于每个分支,又由一个自注意力模块和一个交叉注意力模块组成;首先搜索分支的自注意力模块和模板分支的自注意力模块自适应地聚焦于目标轮廓信息,从而增强搜索区域特征向量fx和模板特征向量fz的表征能力;其中搜索分支自注意力模块输出如下fx2=fx1+MultiHead(fx1+Px,fx1+Px,fx1),其中
Figure GDA0004087415030000071
是对fx1的空间位置编码,d为搜索区域特征向量中每个特征的维度,Nx为搜索区域特征向量中特征的数目,fx2是搜索分支自注意力模块的输出,MultiHead为多头注意力机制.类似的,模板分支自注意力模块输出如下fz2=fz1+MultiHead(fz1+Px,fz1+Px,fz1),其中fz2是模板分支自注意力模块的输出,
Figure GDA0004087415030000072
是对fz1的位置编码,d为模板特征向量中每个特征的维度,Nq为模板特征向量中特征的数目.然后,搜索分支交叉注意力模块和模板分支交叉注意力模块同时接收各自分支和另一分支的特征向量,使用模板向量突出搜索区域的目标特征,抑制随机分布的背景噪音。其中搜索分支交叉注意力模块输出为:
Figure GDA0004087415030000073
Figure GDA0004087415030000074
其中
Figure GDA0004087415030000075
是对fx2的位置编码,Pkv是对fz2的位置编码,FFN为前馈网络.类似的,模板分支的交叉注意力模块输出为:
Figure GDA0004087415030000076
其中fz3为模板分支的交叉注意力模块的输出,FFN(.)为由式(2)计算的前馈网络,
Figure GDA0004087415030000077
是对fz2的位置编码,Pkv是对fx2的位置编码.最后一个交叉注意力模块用来交汇搜索分支和模板分支的输出,其计算表示为下式:
Figure GDA0004087415030000078
Figure GDA0004087415030000079
其中f为模输出的相似度响应图,FFN(.)为前馈网络,
Figure GDA00040874150300000710
是对fx3的位置编码,Pkv是对fz3的位置编码。
进一步的,如图6,步骤4中特征融合网络的自注意力模块具体描述如下:
本发明提出的自注意力模块(EA)采用残差连接的多头自注意力,实现自适应地聚合来自特征向量不同位置的信息.自注意模块可以总结为下式:
XEC=X+MultiHead(X+Px,X+Px,X)其中,XEC是自注意模块的输出,X是自注意模块的输入,因为注意力机制没有能力判别不同特征的位置信息,输入
Figure GDA0004087415030000088
加入了由正弦函数生成的空间位置编码Px.MultiHead是本发明使用的多头注意力机制,该机制能够考虑不同特征空间的注意力分布从而使模型关注不同语义空间的信息.MultiHead的计算式如下:
Figure GDA0004087415030000081
其中
Figure GDA0004087415030000082
与W为学习参数矩阵,Q,K,V为多头注意力机制的输入;Attention为该方法使用归一化点积注意力,其中计算如下式所示:
Figure GDA0004087415030000083
Figure GDA0004087415030000084
其中Q,K,V表示归一化点积注意力的输入.
Figure GDA0004087415030000085
是输入K的维度缩放因子,Softmax为为归一化函数。
进一步的,如图7,步骤4中特征融合网络的交叉注意力模块具体描述如下:
本发明提出的交叉注意力模块(CA)采用残差形式的多头交叉注意对来自两个不同分支输入的特征向量进行融合。CA模块可总结为下面两式:
Figure GDA0004087415030000086
其中Xq是CA模块所在分支的输入,pq是对Xq的位置编码.Xkv是来自另一个分支的输入,Pkv是对Xkv的位置编码,XCF是CA模块的输入,MultiHead为通过式(1)定义的运算,FFN表示前馈网络.前馈网络由两层使用Relu激活函数的全连接层组成。FFN可由下式计算得到:FFN(x)=max(0,xW1+b1)W2+b2,其中wi和bi分别表示权重矩阵和偏置向量.下标表示权重所在的隐藏层。
进一步的,步骤5中由相似度响应图生成跟踪结果的具体处理过程如下:
对于特征融合网络生成的
Figure GDA0004087415030000087
预测网络对每个向量进行预测,以得到Hx×Wx(Hx=Hy=26)个正则化坐标及其置信度分数。然后,为了抑制目标漂移现象,使用用余弦窗惩罚对得到的置信度分数进行重新排序。具体而言,形状为Hx×Wx的汉宁窗被应用于计算最终的置信度分数,汉宁窗对置信度分数的影响因子由参数w决定。最终置信度分数scorew可以定义为scorew=(1-w)×score+w×scoreh;其中score是跟踪方法输出的原始置信度分数。scoreh是汉宁窗上对应位置的权值。最后选择置信度分数最高的正则化坐标作为跟踪结果。
进一步的,为了验证本发明提出的基于时序自适应卷积的特征强化模块和基于注意力的特征融合网络的效果,本发明在LaSOT数据集下进行了消融实验,并将实验结果与行业前沿水平的跟踪方法指标进行比较(见表1)。
本发明在LaSOT数据集下进行了消融实验,LaSOT数据集是大规模单目标跟踪高质量数据集,这一数据集包含超过352万帧手工标注的图片和1400个视频,被广泛用于单目标跟踪方法的训练与测试。表格中黑色加粗标记的各项数值对应的方法表示本发明在该项指标下表现最好.如表1所示,本发明的名称缩写为LSTT(Learning Spatial and TemporalInformation for VisualObject Tracking).为了评估本发明提出的时序自适应卷积与特征融合网络的效果,在消融实验中,分别使用卷积核尺寸相同,输入输出维度相同的标准卷积来代替本发明的时序自适应卷积,使用协相关运算来代替本发明的特征融合网络.在表格中使用LSTT-NTAD简称使用特征融合网络,未使用时序自适应卷积.LSTT-NFF简称未使用特征融合网络,使用时序自适应卷积.LSTT-N简称同时未使用特征融合网络和时序自适应卷积.本发明LSTT相较于当前主流的ATOM方法的成功率提高了8.3%,标准化精度提高了11.3%,精度提高了13.5%。
本发明提出的基于时序自适应卷积的特征强化模块和基于注意力的特征融合网络在一定程度上提高方法的性能,实验结果验证了本发明提出方法的有效性。
表1本发明与其他先进方法成功率,标准化精度与精度的比较
方法 成功率 标准化精度 精度
LSTT 59.8 68.9 64.0
LSTT-NTAD 58.9 66.7 62.2
LSTT-NFF 52.7 60.4 55.6
LSTT-N 35.1 15.8 15.1
SiamPRN++ 49.6 56.9 49.1
ATOM 51.5 57.6 50.5
SiamFC 33.6 42.0 33.9
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (2)

1.一种基于时序自适应卷积与注意力机制的目标跟踪方法,其特征在于,包括如下步骤:
步骤1:对于给定的模板图像,利用特征提取骨干网络进行特征提取,得到模板初级特征向量;具体是:将所述模板图像
Figure FDA0004087415020000011
输入骨干网络得到模板初级特征向量fz0,其中Hz0,Wz0为输入模板图像高度与宽度;
步骤2:对于给定的搜索图像,利用特征提取骨干网络进行特征提取,得到搜索区域初级特征向量;具体是:将所述搜索图像
Figure FDA0004087415020000012
输入骨干网络得到搜索区域初级特征向量fx0,其中Hx0,Wx0为搜索图像高度与宽度;
步骤3:将步骤1提取的模板初级特征向量和步骤2提取的搜索区域初级特征向量进行时序自适应卷积处理,得到模板特征向量与搜索区域特征向量;
步骤4:将步骤3得到的搜索区域特征向量和模板特征向量输入基于注意力的特征融合网络,得到搜索区域与模板特征的相似度响应图;
步骤5:将响应图输入预测网络,得到跟踪结果;其中:
步骤3所述进行时序自适应卷积处理,具体包括:
对于输入的模板初级特征向量fz0,使用时序自适应卷积的权重参数Wb和偏置参数bb,对模板初级特征向量进行特征强化,得到模板特征向量fz,模板特征向量fz的计算表示式为:fz=Wb*fz0+bb;对于搜索区域初级特征向量fx0,首先构造长度为L、元素类型为帧描述符的队列,称为帧描述符队列,其符号为
Figure FDA0004087415020000013
其中帧描述符通过对每一帧的搜索区域初级特征向量fx0进行全局平均池化GAP获得,即
Figure FDA0004087415020000014
帧描述符队列
Figure FDA0004087415020000015
通过下式计算得到:
Figure FDA0004087415020000016
其中Cat表示在空间维度的拼接操作;随后使用帧描述符队列
Figure FDA0004087415020000017
生成权重标定因子
Figure FDA0004087415020000018
和偏置标定因子
Figure FDA0004087415020000019
权重和偏置标定因子的计算表示式为:
Figure FDA00040874150200000110
其中
Figure FDA00040874150200000111
表示卷积运算;进一步的,使用权重标定因子
Figure FDA00040874150200000112
偏置标定因子
Figure FDA00040874150200000113
自适应卷积层权重参数Wb和偏置参数bb计算更新后的自适应卷积的权重参数Wt和偏置参数bt;Wt和bt通过下式计算得到:
Figure FDA00040874150200000114
最后使用更新后自适应卷积层权重参数Wt和偏置参数bt,对搜索区域初级特征向量进行特征强化,得到搜索区域的特征向量fx;搜索区域的特征向量fx的计算表示式为:fx=Wt*fx0+bt
所述步骤4具体包括:
首先对搜索区域特征向量fx和模板特征向量fz在空间维度上进行展平操作,得到展平后的搜索区域特征向量fx1和展平后的模板特征向量fz1;fz1和fx1输入基于注意力的特征融合网络处理,得到搜索区域与模板特征的相似度响应图f;所述基于注意力的特征融合网络由模板分支和搜索分支构成;每个分支,由一个自注意力模块和一个交叉注意力模块组成;首先搜索分支的自注意力模块和模板分支的自注意力模块自适应地聚焦于目标轮廓信息,从而增强搜索区域特征向量fx和模板特征向量fz的表征能力;其中搜索分支的自注意力模块输出为:fx2=fx1+MultiHead(fx1+Px,fx1+Px,fx1),其中
Figure FDA0004087415020000021
是对fx1的空间位置编码,d为搜索区域特征向量中每个特征的维度,Nx为搜索区域特征向量中特征的数目,MultiHead为多头注意力机制;多头注意力机制的计算式如下:
Figure FDA0004087415020000022
Figure FDA0004087415020000023
其中
Figure FDA0004087415020000024
与W为学习参数矩阵;Q,K,V为多头注意力机制的输入;模板分支的自注意力模块输出为:fz2=fz1+MultiHead(fz1+Px,fz1+Px,fz1),其中
Figure FDA0004087415020000025
是对fz1的位置编码,d为模板特征向量中每个特征的维度,Nq为模板特征向量中特征的数目,MultiHead为式(1)表示的多头注意力机制;然后,搜索分支的交叉注意力模块和模板分支的交叉注意力模块同时接收各自分支和另一分支的特征向量,使用模板向量突出搜索区域的目标特征,抑制随机分布的背景噪音;其中搜索分支交叉注意力模块输出为:
Figure FDA0004087415020000026
Figure FDA0004087415020000027
其中
Figure FDA0004087415020000028
是对fx2的位置编码,Pkv是对fz2的位置编码,FFN为前馈网络,由下式计算得到:
FFN(x)=max(0,xW1+b1)W2+b2      (2)
其中wi和bi分别表示第i层的权重矩阵和偏置向量,MultiHead为式(1)计算的多头注意力机制;模板分支的交叉注意力模块输出为:
Figure FDA0004087415020000029
Figure FDA00040874150200000210
其中fz3为模板分支的交叉注意力模块的输出,FFN(.)为由式(2)计算的前馈网络,
Figure FDA00040874150200000211
是对fz2的位置编码,Pkv是对fx2的位置编码”;最后一个交叉注意力模块用来交汇搜索分支和模板分支的输出,其计算表示为下式:
Figure FDA0004087415020000031
Figure FDA0004087415020000032
其中f为搜索区域与模板特征的相似度响应图,FFN(.)为由式(2)计算的前馈网络,
Figure FDA0004087415020000033
是对fx3的位置编码,Pkv是对fz3的位置编码。
2.如权利要求1所述的一种基于时序自适应卷积与注意力机制的目标跟踪方法,其特征在于:步骤5所述将响应图输入预测网络,得到跟踪结果,具体包括:
预测网络由分类分支和回归分支组成,每个分支由一个使用ReLU激活函数、隐藏层维为d的三层感知机组成;对于特征融合网络生成的相似度响应图f,预测网络对每个向量进行预测,以得到前景或背景的分类结果,以及正则化后的坐标;然后为了抑制目标漂移现象,采用余弦窗惩罚对得到的置信度进行后处理;最后,选择置信度得分最高的坐标作为跟踪结果。
CN202210748109.8A 2022-06-29 2022-06-29 一种基于时序自适应卷积与注意力机制的目标跟踪方法 Active CN115147456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210748109.8A CN115147456B (zh) 2022-06-29 2022-06-29 一种基于时序自适应卷积与注意力机制的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210748109.8A CN115147456B (zh) 2022-06-29 2022-06-29 一种基于时序自适应卷积与注意力机制的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN115147456A CN115147456A (zh) 2022-10-04
CN115147456B true CN115147456B (zh) 2023-04-28

Family

ID=83409739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210748109.8A Active CN115147456B (zh) 2022-06-29 2022-06-29 一种基于时序自适应卷积与注意力机制的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN115147456B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115375737B (zh) * 2022-10-25 2023-02-03 南昌工程学院 基于自适应时间与序列化时空特征的目标跟踪方法与系统
CN116152298B (zh) * 2023-04-17 2023-08-29 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116989800B (zh) * 2023-09-27 2023-12-15 安徽大学 一种基于脉冲强化学习的移动机器人视觉导航决策方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192292B (zh) * 2019-12-27 2023-04-28 深圳大学 基于注意力机制与孪生网络的目标跟踪方法及相关设备
CN111768432B (zh) * 2020-06-30 2022-06-10 中国科学院自动化研究所 基于孪生深度神经网络的动目标分割方法及系统
CN113283407A (zh) * 2021-07-22 2021-08-20 南昌工程学院 一种基于通道与空间注意力机制的孪生网络目标跟踪方法
CN114299111B (zh) * 2021-12-21 2022-11-04 中国矿业大学 一种基于半监督孪生网络的红外弱小目标跟踪方法

Also Published As

Publication number Publication date
CN115147456A (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN115147456B (zh) 一种基于时序自适应卷积与注意力机制的目标跟踪方法
Yang et al. Joint rain detection and removal from a single image with contextualized deep networks
CN112149504B (zh) 混合卷积的残差网络与注意力结合的动作视频识别方法
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
CN113378600B (zh) 一种行为识别方法及系统
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN111639571B (zh) 基于轮廓卷积神经网络的视频动作识别方法
CN107833239B (zh) 一种基于加权模型约束的寻优匹配目标跟踪方法
Li et al. Learning face image super-resolution through facial semantic attribute transformation and self-attentive structure enhancement
CN112651998B (zh) 基于注意力机制和双流多域卷积神经网络的人体跟踪算法
Pan et al. No-reference image quality assessment via multibranch convolutional neural networks
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN107609571A (zh) 一种基于lark特征的自适应目标跟踪方法
CN117011342B (zh) 一种注意力增强的时空Transformer视觉单目标跟踪方法
CN111862167B (zh) 一种基于稀疏紧凑相关滤波器的快速鲁棒目标跟踪方法
CN116563355A (zh) 一种基于时空交互注意力机制的目标跟踪方法
Pok et al. Efficient block matching for removing impulse noise
Liu et al. APSNet: Toward adaptive point sampling for efficient 3D action recognition
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
CN107798329A (zh) 基于cnn的自适应粒子滤波目标跟踪方法
CN112417991B (zh) 基于沙漏胶囊网络的双注意力人脸对齐方法
Li et al. Self-supervised social relation representation for human group detection
Zhang et al. Extdm: Distribution extrapolation diffusion model for video prediction
CN114240811A (zh) 一种基于多张图像生成新图像的方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant