CN115147456A - 一种基于时序自适应卷积与注意力机制的目标跟踪方法 - Google Patents

一种基于时序自适应卷积与注意力机制的目标跟踪方法 Download PDF

Info

Publication number
CN115147456A
CN115147456A CN202210748109.8A CN202210748109A CN115147456A CN 115147456 A CN115147456 A CN 115147456A CN 202210748109 A CN202210748109 A CN 202210748109A CN 115147456 A CN115147456 A CN 115147456A
Authority
CN
China
Prior art keywords
template
feature vector
branch
search area
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210748109.8A
Other languages
English (en)
Other versions
CN115147456B (zh
Inventor
孙翊铭
赵静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202210748109.8A priority Critical patent/CN115147456B/zh
Publication of CN115147456A publication Critical patent/CN115147456A/zh
Application granted granted Critical
Publication of CN115147456B publication Critical patent/CN115147456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时序自适应卷积与注意力机制的目标跟踪方法,在特征提取方面,该方法提出了一种适用于目标跟踪的时序自适应卷积处理,利用时间信息来辅助空间特征的提取。同时还提出了一种全新的基于注意力的特征融合网络,相较于其他基于注意力的跟踪方法,该网络利用注意力更有效地结合了模板和搜索区域的特征,增强了目标经历干扰时模板信息与搜索区域信息的耦合性。本发明对运动模糊,目标遮挡,目标形变和目标超出视角等极端环境具有较强的鲁棒性。

Description

一种基于时序自适应卷积与注意力机制的目标跟踪方法
技术领域
本发明属于计算机视觉技术领域,具体为利用时序自适应卷积进行特征提取与注意力机制进行特征融合的目标跟踪方法。
背景技术
视觉目标跟踪是计算机视觉中广受研究的课题。由于视觉摄像机的广泛应用,基于视觉跟踪的应用得到了迅速发展,如运动目标分析、地理测量、视觉定位等。尽管基于孪生网络的跟踪方法实现了对简单运动的目跟踪,但在实际应用中由于遮挡、快速运动导致的目标模糊和外观变化等因素,仅基于视觉信息的目标跟踪任是一项具有挑战性的任务。
现有方法存在问题1:视频流中丰富的时空信息对准确的视觉目标跟踪至关重要。前者包含用于目标定位的表征信息,后者包含对象在帧间的状态变化。在基于孪生网络的跟踪方法中,先前方法通过特征在空间维度上的拼接、动态模板更新、图神经网络和时空记忆网络引入时间信息。在该方法中一个典型的缺陷在于将视频帧视为独立的个体,仅利用多帧图像对目标表征进行建模,忽略了相邻帧间存在的动态变化信息。
现有方法存在问题2:在基于孪生的跟踪方法中,通过构建模板图像和搜索区域图像之间的相似度响应图来对搜索区域中的目标位置进行预测;现有方法通过协相关运算来构建模板图像和搜索区域图像之间的相似性图。然而,协相关运算是一个局部运算,导致其无法聚合在空间上距离较远的特征,对干扰的鲁棒性低。其次协相关运算本质上是一个线性加权操作,导致其丢失了向量在特征空间上丰富的语义信息。
发明内容
本发明的目的是为了解决现有方法所存在的问题而提出了的一种基于时序自适应卷积与注意力机制的目标跟踪方法,该方法使用时序自适应卷积对模板初级特征向量和搜索区域初级特征向量进行处理,使用视频中的时序信息来增强空间特征的表征能力,从而将孤立的视频帧有机结合。同时提高了时序信息的利用效率;利用一种基于注意力的特征融合网络,使模板与搜索区域在空间上的远距离特征充分聚合,从而获得更具语义信息的相似度响应图。
实现本发明目的的具体技术方案是:
一种基于时序自适应卷积与注意力机制的目标跟踪方法,包括如下步骤:
步骤1,对于给定的模板图像,利用特征提取骨干网络进行特征提取,最终得到模板初级特征向量;
步骤2,对于给定的搜索图像,利用特征提取骨干网络进行特征提取,最终得到搜索区域初级特征向量;
步骤3,将步骤1提取的模板初级特征向量和步骤2提取的搜索区域初级特征向量输入时序自适应卷积模块,得到模板特征向量与搜索区域特征向量;
步骤4,将步骤3得到的搜索区域特征向量和模板特征向量输入基于注意力的特征融合网络,得到搜索区域与模板特征的相似度响应图;
步骤5,将响应图输入预测网络,得到跟踪结果。
进一步的,步骤1中的模板图像特征提取骨干网络的具体过程如下:
特征提取骨干网络使用孪生网络来提取图像特征,该网络由两个分支组成:一个提取目标模板特征的模板分支,一个提取搜索图像特征的搜索分支,并且这两个分支结构相同,共享网络权重.将目标模板图像
Figure BDA0003720173000000021
输入骨干网络得到模板初级特征向量fz0,其中Hz0,Wz0为输入模板图像高度与宽度。
进一步的,步骤2中的搜索图像特征提取骨干网络的具体过程如下:
特征提取骨干网络使用孪生网络来提取图像特征,该网络由两个分支组成:一个提取目标模板特征的模板分支,一个提取搜索图像特征的搜索分支,并且这两个分支结构相同,共享网络权重.将搜索图像
Figure BDA0003720173000000022
输入骨干网络得到搜索区域初级特征向量fx0,其中Hx0,Wx0为搜索图像高度与宽度。
进一步的,步骤3中时序自适应卷积模块的具体描述如下:
对于输入的模板初级特征向量fz0,使用自适应卷积层权重参数Wb,和偏置参数bb,对模板的初级特征向量进行特征强化,得到模板的特征向量fz.模板的特征向量fz的计算表示式为:fz=Wb*fz0+bb.对于搜索区域初级特征向量fx0,首先构造长度为L,元素类型为帧描述符的队列,称为帧描述符队列,其符号为
Figure BDA0003720173000000023
其中帧描述符通过对每一帧的索区域初级特征向量fx0进行全局平均池化(GAP)获得,即
Figure BDA0003720173000000024
帧描述符队列
Figure BDA0003720173000000025
通过下式计算得到:
Figure BDA0003720173000000026
Figure BDA0003720173000000027
其中Cat表示在空间维度的拼接操作;随后使用帧描述符队列
Figure BDA0003720173000000028
生成权重标定因子
Figure BDA0003720173000000029
和偏置标定因子
Figure BDA00037201730000000210
权重和偏置标定因子的计算表示式为:
Figure BDA00037201730000000211
Figure BDA00037201730000000212
其中
Figure BDA00037201730000000213
表示卷积运算.进一步的,使用权重标定因子
Figure BDA00037201730000000214
偏置标定因子
Figure BDA00037201730000000215
自适应卷积层权重参数Wb和偏置参数bb计算更新后的自适应卷积层权重参数Wt和偏置参数bt.Wt和bt通过下式计算得到
Figure BDA00037201730000000216
最后使用更新后自适应卷积层权重参数Wt和偏置参数bt,对搜索区域初级特征向量进行特征强化,得到搜索区域的特征向量fx.搜索区域的特征向量fx的计算表示式为:fx=Wt*fx0+bt
进一步的,步骤4中的特征融合网络对特征向量的处理过程如下:
首先对搜索区域的特征向量fx和模板的特征向量fz在空间维度上进行展平操作,得到展平后的搜索区域的特征向量fx1和展平后的模板特征向量fz1.所述基于注意力的特征融合网络由模板分支和搜索分支构成;对于每个分支,又由一个自注意力模块和一个交叉注意力模块组成;首先搜索分支的自注意力模块和模板分支的自注意力模块自适应地聚焦于目标轮廓信息,从而增强搜索区域特征向量fx和模板特征向量fz的表征能力;其中搜索分支自注意力模块输出如下fx2=fx1+MultiHead(fx1+Px,fx1+Px,fx1),其中
Figure BDA0003720173000000031
是对fx1的空间位置编码,d为搜索区域特征向量中每个特征的维度,Nx为搜索区域特征向量中特征的数目,fx2是搜索分支自注意力模块的输出,MultiHead为多头注意力机制.多头注意力机制的计算式如下:
Figure BDA0003720173000000032
Figure BDA0003720173000000033
其中
Figure BDA0003720173000000034
与W为学习参数矩阵.Q,K,V为多头注意力机制的输入;模板分支自注意力模块输出如下fz2=fz1+MultiHead(fz1+Px,fz1+Px,fz1),其中fz2是模板分支自注意力模块的输出,
Figure BDA0003720173000000035
是对fz1的位置编码,d为模板特征向量中每个特征的维度,Nq为模板特征向量中特征的数目,MultiHead为式(1)表示的多头注意力机制.然后,搜索分支交叉注意力模块和模板分支交叉注意力模块同时接收各自分支和另一分支的特征向量,使用模板向量突出搜索区域的目标特征,抑制随机分布的背景噪音。其中搜索分支交叉注意力模块输出如下
Figure BDA0003720173000000036
Figure BDA0003720173000000037
其中
Figure BDA0003720173000000038
是对fz2的位置编码,Pkv是对fx2的位置编码,FFN为前馈网络,可由下式计算得到:
FFN(x)=max(0,xW1+b1)W2+b2 (2)
其中wi和bi分别表示第i层的权重矩阵和偏置向量,MultiHead为式(1)表示的多头注意力机制;模板分支交叉注意力模块输出如下
Figure BDA0003720173000000039
Figure BDA00037201730000000310
其中fz3为模板分支交叉注意力模块的输出,FFN(.)为由式(2)计算的前馈网络.最后一个交叉注意力模块用来交汇搜索分支和模板分支的输出,其计算可以表示为下式子:
Figure BDA00037201730000000311
Figure BDA00037201730000000312
其中f为模板与搜索区域的相似度响应图,FFN(.)为由式(2)计算的前馈网络,
Figure BDA00037201730000000313
是对fx3的位置编码,Pkv是对fz3的位置编码。
进一步的,步骤5所述将响应图输入预测网络,得到跟踪结果,具体包括:
预测网络由分类分支和回归分支组成。每个分支由一个使用ReLU激活函数,隐藏层维为d的三层感知机组成。对于特征融合网络生成的相似度响应图f,预测网络对每个向量进行预测,以得到前景或背景的分类结果,以及正则化后的坐标。然后为了抑制目标漂移现象,采用余弦窗惩罚对得到的置信度进行后处理.最后,选择置信度得分最高的坐标作为跟踪结果。
本发明与现有技术相比,具有以下优点:
本发明提出的时序自适应卷积模块利用动态更新的卷积核权重进行特征提取,增强了空间卷积的时序建模能力。与以往引入时间信息的方法相比,时间自适应卷积核的权重由历史特征信息动态生成的,其优点1:它通过使用视频帧之间目标的运动信息来增强空间特征的表征能力,从而将孤立的视频帧有机结合起来;优点2:此外,因为时序自适应卷积在卷积核权重上进行操作,而不是在特征向量上进行操作,相对于其他时序信息引入机制的计算复杂度更低。
本发明提出的基于注意力的特征融合网络,通过建立搜索区域与模板特征间长距离的依赖关系,使得跟踪方法能够自适应地提取空间特征间丰富的语义信息;优点3:相较于现有的特征融合方法,该方法提出的特征融合网络在物体经历形变,遮挡等干扰时,仍然可以得到准确的模板图像和搜索区域图像之间的相似度响应图,为后续跟踪结果的生成提供了更加精确的目标信息。
附图说明
图1是本发明流程图;
图2是本发明实施例整体骨干网络结构图;
图3是本发明提出的时间自适应卷积处理搜索区域初级特征向量的流程图;
图4是本发明提出的时间自适应卷积处理模板初级特征向量的流程图;
图5是本发明实施例基于注意力的特征融合网络结构图;
图6是本发明提出的基于自注意力的特征融合模块结构图;
图7是本发明提出的基于交叉注意力的特征融合模块结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明做进一步详细说明,应当理解,此处描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提出的时序自适应卷积模块,通过由当前输入的相邻帧特征动态更新卷积核的权重,从而实现使用时间上下文以强化空间特征的表征能力。自适应机制通过对比相邻帧间不同特征的相似度,对提取特征的卷积核权重进行加权。从而突出相邻帧中相似特征,抑制随机分布的背景与干扰。
本发明提出的基于注意力的特征融合网络,通过建立搜索区域与模板特征间长距离的依赖关系,使得跟踪方法能够自适应地提取空间特征间丰富的语义信息.与现有方法相比,更精确地得到了模板图像和搜索区域图像之间的相似度响应图,为后续跟踪结果的生成提供了更加精确的目标信息。
如图1所示,本发明的整体流程为:
步骤1,对于给定的模板图像,利用特征提取骨干网络进行特征提取,最终得到模板初级特征向量;
步骤2,对于给定的搜索图像,利用特征提取骨干网络进行特征提取,最终得到搜索区域初级特征向量;
步骤3,将步骤1提取的模板初级特征向量和步骤2提取的搜索区域初级特征向量输入时序自适应卷积模块,得到模板特征向量与搜索区域特征向量;
步骤4,将步骤3得到的搜索区域特征向量和模板特征向量输入基于注意力的特征融合网络,得到搜索区域与模板特征的相似度响应图;
步骤5,将响应图输入预测网络,得到跟踪结果。
进一步的,如图2,步骤1和步骤2中的模板图像特征提取骨干网络的具体过程如下:
特征提取骨干网络使用孪生网络来提取图像特征,该网络由两个分支组成:一个提取目标模板特征的模板分支,一个提取搜索图像特征的搜索分支,并且这两个分支结构相同,共享网络权重.将目标模板图像
Figure BDA0003720173000000051
输入骨干网络得到模板初级特征向量fz0,其中Hz0,Wz0为输入模板图像高度与宽度.将搜索图像
Figure BDA0003720173000000052
输入骨干网络得到搜索区域初级特征向量fx0,其中Hx0,Wx0为搜索图像高度与宽度。
进一步的,如图3,步骤3中搜索区域初级特征向量通过时序自适应卷积模块处理后得到搜索区域的特征向量的具体流程如下:
对于搜索区域初级特征向量fx0,首先构造长度为L,元素类型为帧描述符的队列,称为帧描述符队列,其符号为
Figure BDA0003720173000000053
其中帧描述符通过对每一帧的索区域初级特征向量fx0进行全局平均池化(GAP)获得,即
Figure BDA0003720173000000054
帧描述符队列
Figure BDA0003720173000000055
通过下式计算得到:
Figure BDA0003720173000000056
其中Cat表示在空间维度的拼接操作.随后用帧描述符队列
Figure BDA0003720173000000057
生成权重标定因子
Figure BDA0003720173000000058
和偏置标定因子
Figure BDA0003720173000000059
权重和偏置标定因子的计算表示式为:
Figure BDA0003720173000000061
其中
Figure BDA0003720173000000062
表示1D卷积运算.进一步的,使用权重标定因了
Figure BDA0003720173000000063
偏置标定因子
Figure BDA0003720173000000064
自适应卷积层权重参数Wb,和偏置参数bb计算更新后的自适应卷积层权重参数Wt,和偏置参数bt,Wt,和bt通过下式计算得到
Figure BDA0003720173000000065
最后使用更新后自适应卷积层权重参数Wt,和偏置参数bt,对搜索区域初级特征向量进行特征强化,得到搜索区域的特征向量fx.搜索区域的特征向量fx的计算表示式为:fx=Wt*fx0+bt
进一步的,如图4,步骤3中模板初级特征向量通过时序自适应卷积处理后得到模板的特征向量的具体流程如下:
对于输入的模板初级特征向量fz0,使用自适应卷积层权重参数Wb,和偏置参数bb,对模板的初级特征向量进行特征强化,得到模板的特征向量fz.模板的特征向量fz的计算表示式为:fz=Wb*fz0+bb
进一步的,如图5,步骤4中的特征融合网络对特征向量的具体过程如下:
首先对搜索区域的特征向量fx和模板的特征向量fz在空间维度上进行展平操作,得到展平后的搜索区域的特征向量fx1和展平后的模板特征向量fz1.所述基于注意力的特征融合网络由模板分支和搜索分支构成;对于每个分支,又由一个自注意力模块和一个交叉注意力模块组成;首先搜索分支的自注意力模块和模板分支的自注意力模块自适应地聚焦于目标轮廓信息,从而增强搜索区域特征向量fx和模板特征向量fz的表征能力;其中搜索分支自注意力模块输出如下fx2=fx1+MultiHead(fx1+Px,fx1+Px,fx1),其中
Figure BDA0003720173000000066
是对fx1的空间位置编码,d为搜索区域特征向量中每个特征的维度,Nx为搜索区域特征向量中特征的数目,fx2是搜索分支自注意力模块的输出,MultiHead为多头注意力机制.类似的,模板分支自注意力模块输出如下fz2=fz1+MultiHead(fz1+Px,fz1+Px,fz1),其中fz2是模板分支自注意力模块的输出,
Figure BDA0003720173000000067
是对fz1的位置编码,d为模板特征向量中每个特征的维度,Nq为模板特征向量中特征的数目.然后,搜索分支交叉注意力模块和模板分支交叉注意力模块同时接收各自分支和另一分支的特征向量,使用模板向量突出搜索区域的目标特征,抑制随机分布的背景噪音。其中搜索分支交叉注意力模块输出如下
Figure BDA0003720173000000068
Figure BDA0003720173000000069
其中
Figure BDA00037201730000000610
是对fz2的位置编码,Pkv是对fx2的位置编码,FFN为前馈网络.类似的,模板分支交叉注意力模块输出如下
Figure BDA00037201730000000611
Figure BDA00037201730000000612
其中fz3为模板分支交叉注意力模块的输出,FFN(.)前馈网络,
Figure BDA00037201730000000613
是对fx2的位置编码,Pkv是对fz2的位置编码.最后一个交叉注意力模块用来交汇搜索分支和模板分支的输出,其计算可以表示为下式子:
Figure BDA0003720173000000071
Figure BDA0003720173000000072
其中f为模输出的相似度响应图,FFN(.)为前馈网络,
Figure BDA0003720173000000073
是对fx3的位置编码,Pkv是对fz3的位置编码。
进一步的,如图6,步骤4中特征融合网络的自注意力模块具体描述如下:
本发明提出的自注意力模块(EA)采用残差连接的多头自注意力,实现自适应地聚合来自特征向量不同位置的信息.自注意模块可以总结为下式:
XEC=X+MultiHead(X+Px,X+Px,X)其中,XEC是自注意模块的输出,X是自注意模块的输入,因为注意力机制没有能力判别不同特征的位置信息,输入
Figure BDA00037201730000000712
加入了由正弦函数生成的空间位置编码Px.MultiHead是本发明使用的多头注意力机制,该机制能够考虑不同特征空间的注意力分布从而使模型关注不同语义空间的信息.MultiHead的计算式如下:
Figure BDA0003720173000000074
Figure BDA0003720173000000075
其中
Figure BDA0003720173000000076
与W为学习参数矩阵,Q,K,V为多头注意力机制的输入;Attention为该方法使用归一化点积注意力,其中计算如下式所示:
Figure BDA0003720173000000077
其中Q,K,V表示归一化点积注意力的输入.
Figure BDA0003720173000000078
是输入K的维度缩放因子,Softmax为为归一化函数。
进一步的,如图7,步骤4中特征融合网络的交叉注意力模块具体描述如下:
本发明提出的交叉注意力模块(CA)采用残差形式的多头交叉注意对来自两个不同分支输入的特征向量进行融合。CA模块可总结为下面两式:
Figure BDA0003720173000000079
Figure BDA00037201730000000710
其中Xq是CA模块所在分支的输入,pq是对Xq的位置编码.Xkv是来自另一个分支的输入,Pkv是对Xkv的位置编码,XCF是CA模块的输入,MultiHead为通过式(1)定义的运算,FFN表示前馈网络.前馈网络由两层使用Relu激活函数的全连接层组成。FFN可由下式计算得到:FFN(x)=max(0,xW1+b1)W2+b2,其中wi和bi分别表示权重矩阵和偏置向量.下标表示权重所在的隐藏层。
进一步的,步骤5中由相似度响应图生成跟踪结果的具体处理过程如下:
对于特征融合网络生成的
Figure BDA00037201730000000711
预测网络对每个向量进行预测,以得到Hx×Wx(Hx=Hy=26)个正则化坐标及其置信度分数。然后,为了抑制目标漂移现象,使用用余弦窗惩罚对得到的置信度分数进行重新排序。具体而言,形状为Hx×Wx的汉宁窗被应用于计算最终的置信度分数,汉宁窗对置信度分数的影响因子由参数w决定。最终置信度分数scorew可以定义为scorew=(1-w)×score+w×scoreh;其中score是跟踪方法输出的原始置信度分数。scoreh是汉宁窗上对应位置的权值。最后选择置信度分数最高的正则化坐标作为跟踪结果。
进一步的,为了验证本发明提出的基于时序自适应卷积的特征强化模块和基于注意力的特征融合网络的效果,本发明在LaSOT数据集下进行了消融实验,并将实验结果与行业前沿水平的跟踪方法指标进行比较(见表1)。
本发明在LaSOT数据集下进行了消融实验,LaSOT数据集是大规模单目标跟踪高质量数据集,这一数据集包含超过352万帧手工标注的图片和1400个视频,被广泛用于单目标跟踪方法的训练与测试。表格中黑色加粗标记的各项数值对应的方法表示本发明在该项指标下表现最好.如表1所示,本发明的名称缩写为LSTT(Learning Spatial and TemporalInformation for VisualObject Tracking).为了评估本发明提出的时序自适应卷积与特征融合网络的效果,在消融实验中,分别使用卷积核尺寸相同,输入输出维度相同的标准卷积来代替本发明的时序自适应卷积,使用协相关运算来代替本发明的特征融合网络.在表格中使用LSTT-NTAD简称使用特征融合网络,未使用时序自适应卷积.LSTT-NFF简称未使用特征融合网络,使用时序自适应卷积.LSTT-N简称同时未使用特征融合网络和时序自适应卷积.本发明LSTT相较于当前主流的ATOM方法的成功率提高了8.3%,标准化精度提高了11.3%,精度提高了13.5%。
本发明提出的基于时序自适应卷积的特征强化模块和基于注意力的特征融合网络在一定程度上提高方法的性能,实验结果验证了本发明提出方法的有效性。
表1本发明与其他先进方法成功率,标准化精度与精度的比较
方法 成功率 标准化精度 精度
LSTT 59.8 68.9 64.0
LSTT-NTAD 58.9 66.7 62.2
LSTT-NFF 52.7 60.4 55.6
LSTT-N 35.1 15.8 15.1
SiamPRN++ 49.6 56.9 49.1
ATOM 51.5 57.6 50.5
SiamFC 33.6 42.0 33.9
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (2)

1.一种基于时序自适应卷积与注意力机制的目标跟踪方法,其特征在于,包括如下步骤:
步骤1:对于给定的模板图像,利用特征提取骨干网络进行特征提取,得到模板初级特征向量;具体是:将所述模板图像
Figure FDA0003720172990000011
输入骨干网络得到模板初级特征向量fz0,其中Hz0,Wz0为输入模板图像高度与宽度;
步骤2:对于给定的搜索图像,利用特征提取骨干网络进行特征提取,得到搜索区域初级特征向量;具体是:将所述搜索图像
Figure FDA0003720172990000012
输入骨干网络得到搜索区域初级特征向量fx0,其中Hx0,Wx0为搜索图像高度与宽度;
步骤3:将步骤1提取的模板初级特征向量和步骤2提取的搜索区域初级特征向量进行时序自适应卷积处理,得到模板特征向量与搜索区域特征向量;
步骤4:将步骤3得到的搜索区域特征向量和模板特征向量输入基于注意力的特征融合网络,得到搜索区域与模板特征的相似度响应图;
步骤5:将响应图输入预测网络,得到跟踪结果;其中:
步骤3所述进行时序自适应卷积处理,具体包括:
对于输入的模板初级特征向量fz0,使用时序自适应卷积的权重参数Wb和偏置参数bb,对模板初级特征向量进行特征强化,得到模板特征向量fz,模板特征向量fz的计算表示式为:fz=Wb*fz0+bb;对于搜索区域初级特征向量fx0,首先构造长度为L、元素类型为帧描述符的队列,称为帧描述符队列,其符号为
Figure FDA0003720172990000013
其中帧描述符通过对每一帧的搜索区域初级特征向量fx0进行全局平均池化GAP获得,即
Figure FDA0003720172990000014
帧描述符队列
Figure FDA0003720172990000015
通过下式计算得到:
Figure FDA0003720172990000016
其中Cat表示在空间维度的拼接操作;随后使用帧描述符队列
Figure FDA0003720172990000017
生成权重标定因子
Figure FDA0003720172990000018
和偏置标定因子
Figure FDA0003720172990000019
权重和偏置标定因子的计算表示式为:
Figure FDA00037201729900000110
其中
Figure FDA00037201729900000111
表示卷积运算;进一步的,使用权重标定因子
Figure FDA00037201729900000112
偏置标定因子
Figure FDA00037201729900000113
自适应卷积层权重参数Wb和偏置参数bb计算更新后的自适应卷积的权重参数Wt和偏置参数bt;Wt和bt通过下式计算得到:
Figure FDA00037201729900000114
最后使用更新后自适应卷积层权重参数Wt和偏置参数bt,对搜索区域初级特征向量进行特征强化,得到搜索区域的特征向量fx;搜索区域的特征向量fx的计算表示式为:fx=Wt*fx0+bt
所述步骤4具体包括:
首先对搜索区域特征向量fx和模板特征向量fz在空间维度上进行展平操作,得到展平后的搜索区域特征向量fx1和展平后的模板特征向量fz1;fz1和fx1输入基于注意力的特征融合网络处理,得到搜索区域与模板特征的相似度响应图f;所述基于注意力的特征融合网络由模板分支和搜索分支构成;每个分支,由一个自注意力模块和一个交叉注意力模块组成;首先搜索分支的自注意力模块和模板分支的自注意力模块自适应地聚焦于目标轮廓信息,从而增强搜索区域特征向量fx和模板特征向量fz的表征能力;其中搜索分支的自注意力模块输出为:fx2=fx1+MultiHead(fx1+Px,fx1+Px,fx1),其中
Figure FDA0003720172990000021
是对fx1的空间位置编码,d为搜索区域特征向量中每个特征的维度,Nx为搜索区域特征向量中特征的数目,MultiHead为多头注意力机制;多头注意力机制的计算式如下:
Figure FDA0003720172990000022
Figure FDA0003720172990000023
其中
Figure FDA0003720172990000024
与W为学习参数矩阵;Q,K,V为多头注意力机制的输入;模板分支的自注意力模块输出为:fz2=fz1+MultiHead(fz1+Px,fz1+Px,fz1),其中
Figure FDA0003720172990000025
是对fz1的位置编码,d为模板特征向量中每个特征的维度,Nq为模板特征向量中特征的数目,MultiHead为式(1)表示的多头注意力机制;然后,搜索分支的交叉注意力模块和模板分支的交叉注意力模块同时接收各自分支和另一分支的特征向量,使用模板向量突出搜索区域的目标特征,抑制随机分布的背景噪音;其中搜索分支的自注意力模块输出为:
Figure FDA0003720172990000026
Figure FDA0003720172990000027
其中
Figure FDA0003720172990000028
是对fz2的位置编码,Pkv是对fx2的位置编码,FFN为前馈网络,由下式计算得到:
FFN(x)=max(0,xW1+b1)W2+b2 (2)
其中wi和bi分别表示第i层的权重矩阵和偏置向量,MultiHead为式(1)计算的多头注意力机制;模板分支的交叉注意力模块输出为:
Figure FDA0003720172990000029
Figure FDA00037201729900000210
其中fz3为模板分支的交叉注意力模块的输出,FFN(.)为由式(2)计算的前馈网络,
Figure FDA00037201729900000211
是对fx2的位置编码,Pkv是对fz2的位置编码;最后一个交叉注意力模块用来交汇搜索分支和模板分支的输出,其计算表示为下式:
Figure FDA00037201729900000212
Figure FDA00037201729900000213
其中f为搜索区域与模板特征的相似度响应图,FFN(.)为由式(2)计算的前馈网络,
Figure FDA00037201729900000214
是对fx3的位置编码,Pkv是对fz3的位置编码。
2.如权利要求1所述的一种基于时序自适应卷积与注意力机制的目标跟踪方法,其特征在于:步骤5所述将响应图输入预测网络,得到跟踪结果,具体包括:
预测网络由分类分支和回归分支组成,每个分支由一个使用ReLU激活函数、隐藏层维为d的三层感知机组成;对于特征融合网络生成的相似度响应图f,预测网络对每个向量进行预测,以得到前景或背景的分类结果,以及正则化后的坐标;然后为了抑制目标漂移现象,采用余弦窗惩罚对得到的置信度进行后处理;最后,选择置信度得分最高的坐标作为跟踪结果。
CN202210748109.8A 2022-06-29 2022-06-29 一种基于时序自适应卷积与注意力机制的目标跟踪方法 Active CN115147456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210748109.8A CN115147456B (zh) 2022-06-29 2022-06-29 一种基于时序自适应卷积与注意力机制的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210748109.8A CN115147456B (zh) 2022-06-29 2022-06-29 一种基于时序自适应卷积与注意力机制的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN115147456A true CN115147456A (zh) 2022-10-04
CN115147456B CN115147456B (zh) 2023-04-28

Family

ID=83409739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210748109.8A Active CN115147456B (zh) 2022-06-29 2022-06-29 一种基于时序自适应卷积与注意力机制的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN115147456B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115375737A (zh) * 2022-10-25 2022-11-22 南昌工程学院 基于自适应时间与序列化时空特征的目标跟踪方法与系统
CN116152298A (zh) * 2023-04-17 2023-05-23 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116989800A (zh) * 2023-09-27 2023-11-03 安徽大学 一种基于脉冲强化学习的移动机器人视觉导航决策方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192292A (zh) * 2019-12-27 2020-05-22 深圳大学 基于注意力机制与孪生网络的目标跟踪方法及相关设备
CN113283407A (zh) * 2021-07-22 2021-08-20 南昌工程学院 一种基于通道与空间注意力机制的孪生网络目标跟踪方法
WO2022000426A1 (zh) * 2020-06-30 2022-01-06 中国科学院自动化研究所 基于孪生深度神经网络的动目标分割方法及系统
CN114299111A (zh) * 2021-12-21 2022-04-08 中国矿业大学 一种基于半监督孪生网络的红外弱小目标跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192292A (zh) * 2019-12-27 2020-05-22 深圳大学 基于注意力机制与孪生网络的目标跟踪方法及相关设备
WO2022000426A1 (zh) * 2020-06-30 2022-01-06 中国科学院自动化研究所 基于孪生深度神经网络的动目标分割方法及系统
CN113283407A (zh) * 2021-07-22 2021-08-20 南昌工程学院 一种基于通道与空间注意力机制的孪生网络目标跟踪方法
CN114299111A (zh) * 2021-12-21 2022-04-08 中国矿业大学 一种基于半监督孪生网络的红外弱小目标跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZEDU CHEN,等: "《Siamese Box Adaptive Network for Visual Tracking》", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
刘如浩,等: "《基于可变形卷积的孪生网络目标跟踪算法》", 《控制与决策》 *
梁启花,等: "《基于孪生网络的目标跟踪算法研究进展》", 《广西师范大学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115375737A (zh) * 2022-10-25 2022-11-22 南昌工程学院 基于自适应时间与序列化时空特征的目标跟踪方法与系统
CN115375737B (zh) * 2022-10-25 2023-02-03 南昌工程学院 基于自适应时间与序列化时空特征的目标跟踪方法与系统
CN116152298A (zh) * 2023-04-17 2023-05-23 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116152298B (zh) * 2023-04-17 2023-08-29 中国科学技术大学 一种基于自适应局部挖掘的目标跟踪方法
CN116989800A (zh) * 2023-09-27 2023-11-03 安徽大学 一种基于脉冲强化学习的移动机器人视觉导航决策方法
CN116989800B (zh) * 2023-09-27 2023-12-15 安徽大学 一种基于脉冲强化学习的移动机器人视觉导航决策方法

Also Published As

Publication number Publication date
CN115147456B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN112149504B (zh) 混合卷积的残差网络与注意力结合的动作视频识别方法
CN115147456B (zh) 一种基于时序自适应卷积与注意力机制的目标跟踪方法
CN112434655B (zh) 一种基于自适应置信度图卷积网络的步态识别方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN112330719B (zh) 基于特征图分割和自适应融合的深度学习目标跟踪方法
CN107833239B (zh) 一种基于加权模型约束的寻优匹配目标跟踪方法
CN111639571B (zh) 基于轮廓卷积神经网络的视频动作识别方法
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN111401207B (zh) 基于mars深度特征提取与增强的人体动作识别方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN116402850A (zh) 一种面向智能驾驶的多目标跟踪方法
CN107609571A (zh) 一种基于lark特征的自适应目标跟踪方法
CN111178142A (zh) 一种基于时空上下文学习的手部姿态估计方法
CN116563355A (zh) 一种基于时空交互注意力机制的目标跟踪方法
CN117058456A (zh) 一种基于多相注意力机制的视觉目标跟踪方法
Salem et al. Semantic image inpainting using self-learning encoder-decoder and adversarial loss
CN112417991B (zh) 基于沙漏胶囊网络的双注意力人脸对齐方法
CN113850182A (zh) 基于DAMR_3DNet的动作识别方法
Hou et al. Joint learning of image deblurring and depth estimation through adversarial multi-task network
CN117011342A (zh) 一种注意力增强的时空Transformer视觉单目标跟踪方法
CN116580275A (zh) 一种基于多模态层次关系建模的rgb-t目标跟踪方法
CN117058235A (zh) 跨多种室内场景的视觉定位方法
CN116453025A (zh) 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法
CN116777956A (zh) 基于多尺度航迹管理的运动目标筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant