CN116342648A - 基于混合结构注意力引导的孪生网络目标跟踪方法 - Google Patents

基于混合结构注意力引导的孪生网络目标跟踪方法 Download PDF

Info

Publication number
CN116342648A
CN116342648A CN202310196504.4A CN202310196504A CN116342648A CN 116342648 A CN116342648 A CN 116342648A CN 202310196504 A CN202310196504 A CN 202310196504A CN 116342648 A CN116342648 A CN 116342648A
Authority
CN
China
Prior art keywords
attention
features
template
target
mixed structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310196504.4A
Other languages
English (en)
Inventor
路文
朱振杰
田高
徐浩然
郑永
张立泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310196504.4A priority Critical patent/CN116342648A/zh
Publication of CN116342648A publication Critical patent/CN116342648A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明基于混合结构注意力引导的孪生网络目标跟踪方法,具体为:将目标跟踪数据集划分为训练集和测试集,再对数据集进行预处理;构建混合结构注意力特征融合模块;构建基于混合结构注意力引导的孪生网络目标跟踪算法模型;利用训练集对步骤3构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型进行迭代训练,得到训练好的基于混合结构注意力机制的孪生网络目标跟踪模型;将测试集作为训练好的基于混合结构注意力机制的孪生网络目标跟踪模型的输入进行前向推理,得到每个测试样本的跟踪结果。本发明方法解决了现有目标跟踪方法精度低的问题。

Description

基于混合结构注意力引导的孪生网络目标跟踪方法
技术领域
本发明属于目标跟踪方法技术领域,具体涉及基于混合结构注意力引导的孪生网络目标跟踪方法。
背景技术
目标跟踪是在机器人视觉、视频监控、导弹制导和无人驾驶等领域有广泛应用的技术。为了实现高精度、稳健的目标跟踪,需要设计有效的目标跟踪算法。在真实场景中对目标进行跟踪时,会面临目标形变、目标被遮挡、相似目标干扰等多种挑战因素,为更好的应对这些挑战,出现了孪生网络目标跟踪算法。然而,目前孪生网络结构目标跟踪算法通过互相关实现模板特征和搜索区域特征的简单融合,丢失了丰富的语义信息。为了解决这个问题,于是提出了基于Transformer的孪生网络目标跟踪算法,Transformer由于其在长距离依赖建模方面的优点,被应用于孪生网络目标跟踪中的特征融合阶段,实现模板和搜索区域之间的信息整合。但是,Transformer不具有学习局部细节信息的优势,导致跟踪算法容易受到相似目标干扰而陷入次优解,成为设计高精度目标跟踪算法的瓶颈。
发明内容
本发明的目的是提供基于混合结构注意力引导的孪生网络目标跟踪方法,解决了现有目标跟踪方法精度低的问题。
本发明所采用的技术方案是,基于混合结构注意力引导的孪生网络目标跟踪方法,具体按照以下步骤实施:
步骤1,将目标跟踪数据集划分为训练集和测试集,再对数据集进行预处理;
步骤2,构建混合结构注意力特征融合模块;
步骤3,构建基于混合结构注意力引导的孪生网络目标跟踪算法模型;
步骤4,利用训练集对步骤3构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型进行迭代训练,得到训练好的基于混合结构注意力机制的孪生网络目标跟踪模型;
步骤5,将测试集作为训练好的基于混合结构注意力机制的孪生网络目标跟踪模型的输入进行前向推理,得到每个测试样本的跟踪结果。
本发明的特点还在于,
步骤1中,目标跟踪数据集进行预处理的具体过程为:
S1:截取初始视频帧目标区域作为标定模板,并将标定模板缩放至尺寸为128×128;
S2:在当前帧以目标为中心截取搜索大小为256×256的图像区域作为搜索区域图像;
S3:截取当前帧的目标区域为动态模板,并将动态模板缩放至尺寸为128×128。
步骤2的具体过程为:
设有图像特征xm和图像特征xn,将图像特征xm和图像特征xn分别经过卷积核大小为3×3卷积构成的卷积层学习局部细节信息和引入位置信息,得到图像特征x'm和图像特征x'n,设图像特征x'm经过线性层得到的查询向量xq,图像特征x'n经过线性层得到的值向量xv和键向量xk,经过混合结构注意力中的多头互注意力层,获取到不同通道维度下可以反映图像特征x'm和图像特征x'n之间相互关联程度的注意力图,表达式为:
Figure BDA0004107337250000031
式中,xs是图像特征x'm的注意力图,d表示键向量的维度;
将多头互注意力层输出的注意力图xs与图像特征x'm相加经过残差单元,则实现图像特征x'm和图像特征x'n中有效信息的聚合。
步骤3中,基于混合结构注意力引导的孪生网络目标跟踪算法模型包括特征提取网络、特征融合网络、分类与回归网络三部分。
步骤3的具体过程为:
步骤3.1,将步骤1得到的搜索区域图像、标定模板图像和动态模板图像分别经过特征提取网络ResNet50,得到标定模板特征、动态模板特征和搜索区域特征;
步骤3.2,利用特征融合网络将标定模板特征、动态模板特征融合为模板特征,再将模板特征与搜索区域特征相互融合,得到搜索区域特征的注意力图、模板特征的注意力图,将搜索区域特征和搜索区域特征的注意力图相加后经过残差单元,输出集成了目标位置信息的搜索区域特征,将模板特征和模板特征的注意力图相加后经过残差单元,输出集成了目标关键信息的模板特征;
步骤3.3,利用分类与回归网络对步骤3.2输出的集成了目标位置信息的搜索区域特征、集成了目标关键信息的模板特征进行解析,得到跟踪目标框。
步骤3.1中,特征提取网络ResNet50为孪生网络结构,将ResNet50中的第三个Layer的步距参数设为1,使第三个Layer和第二个Layer的输出特征图大小一样,从第三个Layer获取到输入图像特征。
步骤3.2的具体过程为:利用步骤2构建的混合结构注意力特征融合模块将步骤3.1得到的标定模板特征、动态模板特征的信息进行聚合,得到模板特征,再将模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合;
则模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合的具体过程为:
将步骤3.1得到的搜索区域特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征,将步骤3.1得到的模板特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征,设搜索区域特征经过线性层得到查询向量sq、值向量sv和键向量sk,模板特征经过线性层得到查询向量tq、值向量tv和键向量tk,经过混合结构注意力中的多头互注意力层,分别获取到不同通道维度下可以反应搜索区域特征和模板特征之间相互关联程度的注意力图,表达式为:
Figure BDA0004107337250000041
Figure BDA0004107337250000042
式中,as是搜索区域特征的注意力图,包含目标的位置信息,at表示模板特征的注意力图,包含能识别出目标的关键信息,d表示键向量的维度;
搜索区域特征和注意力图as相加后经过残差单元,输出集成了目标位置信息的搜索区域特征;
模板特征和注意力图at相加后经过残差单元,输出集成了目标关键信息的模板特征。
步骤3.3,分类与回归网络的结构为:分类网络由3个卷积核大小为3、步距为1、填充大小为1的卷积构成,回归网络由3个卷积核大小为3、步距为1、填充大小为1的卷积和一个卷积核大小为5、步距为1、填充大小为2的卷积构成。
步骤4中,训练过程中采用损失函数进行反向传播,更新模型权值参数,则损失函数如下:
L=λ1Lreg2Lcls
式中,Lreg是回归任务的损失值,Lcls是分类任务的损失值,λ1是回归损失的权重,λ2是分类损失的权重;
其中,
Figure BDA0004107337250000051
式中,IOU表示的是标签框区域和预测跟踪目标框区域的交集与并集之比,yreg表示标签框的左上角坐标和右下角坐标到基准坐标的偏移值,yreg=(xl,yl,xr,yr),xl和yl是标签框的左上角坐标相对基准坐标的偏移值,xr和yr是标签框的右下角坐标相对基准坐标的偏移值,
Figure BDA0004107337250000061
表示预测跟踪目标框的左上角坐标和右下角坐标到基准坐标的偏移值,
Figure BDA0004107337250000062
Figure BDA0004107337250000063
和/>
Figure BDA0004107337250000064
是预测跟踪目标框的左上角坐标相对基准坐标的偏移值,/>
Figure BDA0004107337250000065
Figure BDA0004107337250000066
是预测跟踪目标框的右下角坐标相对基准坐标的偏移值;
其中,
Figure BDA0004107337250000067
式中,M表示正样本和负样本的数量和,
Figure BDA0004107337250000068
是第i个样本的标签值,yi是第i个样本预测值。
正样本、负样本通过在标签框中划分椭圆区域来划分,以标签框的中心点作为椭圆的中心,标签框的长度作为椭圆的长轴,宽度作为短轴,采样点落在椭圆区域外则为负样本,中心点不变,标签框的长度一半作为椭圆的长轴,宽度的一半作为短轴,在划分出一个小的椭圆区域,落在这个区域则为正样本。
本发明的有益效果是:本发明方法结合卷积和Transformer实现了基于混合结构注意力的特征融合模块,可以进行局部细粒度特征学习和全局特征聚合,并构建了基于混合结构注意力引导的孪生网络目标跟踪算法模型,实现模板特征和搜索区域特征的信息集成,提升跟踪算法精确定位目标的能力,同时,基于混合结构注意力引导的孪生网络目标跟踪算法模型的模板分支的输入端增加了动态模板,即同时输入标定模板和动态模板,并利用混合结构注意力学习和集中标定模板和动态模板中目标的细粒度特征,得到可以适应目标形态变化的模板特征,本发明方法能在复杂环境下稳健的跟踪目标。
附图说明
图1为本发明基于混合结构注意力引导的孪生网络目标跟踪方法的流程图;
图2为本发明方法中数据集预处理的流程图;
图3为本发明方法与现有技术成功率对比图;
图4为本发明方法与现有技术精确度对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于混合结构注意力引导的孪生网络目标跟踪方法,如图1所示,具体按照以下步骤实施:
步骤1,将目标跟踪数据集根据帕累托原则,数据集中80%的图像数据作为训练集,20%的图像作为测试集,其中训练集包括图像数据和目标的标签框信息,测试集只包含图像数据,再对数据集进行预处理,得到搜索区域图像、标定模板图像和动态模板图像;
如图2所示,目标跟踪数据集进行预处理的具体过程为:
S1:截取初始视频帧目标区域作为标定模板,并将标定模板缩放至尺寸为128×128;
S2:在当前帧以目标为中心截取搜索大小为256×256的图像区域作为搜索区域图像;
S3:截取当前帧的目标区域为动态模板,并将动态模板缩放至尺寸为128×128;
步骤2,构建混合结构注意力特征融合模块;
具体过程为:
设有图像特征xm和图像特征xn,将图像特征xm和图像特征xn分别经过卷积核大小为3×3卷积构成的卷积层学习局部细节信息和引入位置信息,得到图像特征x'm和图像特征x'n,设图像特征x'm经过线性层得到的查询向量xq,图像特征x'n经过线性层得到的值向量xv和键向量xk,经过混合结构注意力中的多头互注意力层,获取到不同通道维度下可以反映图像特征x'm和图像特征x'n之间相互关联程度的注意力图,表达式为:
Figure BDA0004107337250000081
式中,xs是图像特征x'm的注意力图,d表示键向量的维度;
将多头互注意力层输出的注意力图xs与图像特征x'm相加经过残差单元,则实现图像特征x'm和图像特征x'n中有效信息的聚合;
步骤3,构建基于混合结构注意力引导的孪生网络目标跟踪算法模型,基于混合结构注意力引导的孪生网络目标跟踪算法模型包括特征提取网络、特征融合网络、分类与回归网络三部分;
步骤3.1,将步骤1得到的搜索区域图像、标定模板图像和动态模板图像分别经过特征提取网络ResNet50,得到标定模板特征、动态模板特征和搜索区域特征;
特征提取网络为孪生网络结构,具体采用ResNet50并将ResNet50中的第三个Layer的步距参数设为1,使第三个Layer和第二个Layer的输出特征图大小一样,从第三个Layer获取到输入图像特征;
步骤3.2,利用特征融合网络将标定模板特征、动态模板特征融合为模板特征,再将模板特征与搜索区域特征相互融合,得到搜索区域特征的注意力图、模板特征的注意力图,将搜索区域特征和搜索区域特征的注意力图相加后经过残差单元,输出集成了目标位置信息的搜索区域特征,将模板特征和模板特征的注意力图相加后经过残差单元,输出集成了目标关键信息的模板特征;
具体过程为:
利用步骤2构建的混合结构注意力特征融合模块将步骤3.1得到的标定模板特征、动态模板特征的信息进行聚合,得到模板特征,该模板特征能够精确表示目标外观模型,再将模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合;
模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合的具体过程为:
将步骤3.1得到的搜索区域特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征,将步骤3.1得到的模板特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征,设搜索区域特征经过线性层得到查询向量sq、值向量sv和键向量sk,模板特征经过线性层得到查询向量tq、值向量tv和键向量tk,经过混合结构注意力中的多头互注意力层,分别获取到不同通道维度下可以反应搜索区域特征和模板特征之间相互关联程度的注意力图,表达式为:
Figure BDA0004107337250000091
Figure BDA0004107337250000092
式中,as是搜索区域特征的注意力图,包含目标的位置信息,at表示模板特征的注意力图,包含能识别出目标的关键信息,d表示键向量的维度;
搜索区域特征和注意力图as相加后经过残差单元,输出集成了目标位置信息的搜索区域特征;
模板特征和注意力图at相加后经过残差单元,输出集成了目标关键信息的模板特征;
该过程中搜索区域特征和模板特征之间可以进行多次相互融合,从而将注意力逐渐集中到目标上,本发明中融合了四次,最后,特征融合网络输出包含目标位置信息的搜索区域特征;
步骤3.3,利用分类与回归网络对步骤3.2输出的集成了目标位置信息的搜索区域特征、集成了目标关键信息的模板特征进行解析,得到跟踪目标框;
分类与回归网络的结构为:分类网络由3个卷积核大小为3、步距为1、填充大小为1的卷积构成,回归网络由3个卷积核大小为3、步距为1、填充大小为1的卷积和一个卷积核大小为5、步距为1、填充大小为2的卷积构成;
步骤4,利用训练集对步骤3构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型进行迭代训练,训练过程中采用损失函数进行反向传播,更新模型权值参数,得到训练好的基于混合结构注意力机制的孪生网络目标跟踪模型;
本发明采用基于混合结构注意力引导的孪生网络目标跟踪算法模型联合计算分类任务损失和回归任务损失,则损失函数如下:
L=λ1Lreg2Lcls
式中,Lreg是回归任务的损失值,Lcls是分类任务的损失值,λ1是回归损失的权重,λ1=1.0,λ2是分类损失的权重,λ2=1.0;
在计算损失时引入权重参数λ1、λ2,通过调整权重参数,强化模型区分目标和背景的能力,提升跟踪器在复杂场景下的跟踪能力;
本发明构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型采用无锚点框结构,因此可以直接预测跟踪目标框的大小,回归任务的损失值通过计算标签框区域和预测跟踪目标框区域的交集与并集之比得到,具体表达式如下:
Figure BDA0004107337250000111
式中,IOU表示的是标签框区域和预测跟踪目标框区域的交集与并集之比,当IOU的值是1时,标签框的区域和跟踪框的区域完全重合,此时损失值为0,yreg表示标签框的左上角坐标和右下角坐标到基准坐标的偏移值,yreg=(xl,yl,xr,yr),xl和yl是标签框的左上角坐标相对基准坐标的偏移值,xr和yr是标签框的右下角坐标相对基准坐标的偏移值,
Figure BDA0004107337250000112
表示预测跟踪目标框的左上角坐标和右下角坐标到基准坐标的偏移值,/>
Figure BDA0004107337250000113
Figure BDA0004107337250000114
和/>
Figure BDA0004107337250000115
是预测跟踪目标框的左上角坐标相对基准坐标的偏移值,/>
Figure BDA0004107337250000116
和/>
Figure BDA0004107337250000117
是预测跟踪目标框的右下角坐标相对基准坐标的偏移值,回归任务中采用IOU损失函数,可以将目标框作为一个整体行优化,提高了预测跟踪目标框的质量;
分类任务的损失值采用二分类交叉熵损失函数,具体表达式如下:
Figure BDA0004107337250000121
式中,M表示正样本和负样本的数量和,
Figure BDA0004107337250000122
是第i个样本的标签值,yi是第i个样本预测值;
正样本、负样本通过在标签框中划分椭圆区域来划分,以标签框的中心点作为椭圆的中心,标签框的长度作为椭圆的长轴,宽度作为短轴,采样点落在椭圆区域外则为负样本,中心点不变,标签框的长度一半作为椭圆的长轴,宽度的一半作为短轴,在划分出一个小的椭圆区域,落在这个区域则为正样本;
步骤5,将测试集作为训练好的基于混合结构注意力机制的孪生网络目标跟踪模型的输入进行前向推理,得到每个测试样本的跟踪结果。
本发明方法与现有技术的实验对比结果如下:
OTB100数据集是Wu等人提出的被广泛应用在目标跟踪中的数据集,包含100个具有挑战性的测试场景,由灰度数据和彩色数据共同构成的,其中包括尺度变化、遮挡、形变、背景干扰、旋转、运动模糊等视觉跟踪中常见的挑战因素。OTB100数据集的根据跟踪精确度和跟踪成功率评测目标跟踪算法的性能。跟踪精确度是跟踪结果的中心位置和真实的目标中心之间的误差,通过精确度图(Precision Plot)显示;跟踪成功率反应的是跟踪框和真实目标框的重叠率,通过成功率图(Success Plot)显示。
在该数据集中,本方法和当前多个优秀的方法做了比较,如图3所示,目标跟踪方法根据曲线下面积(Area Under Curve,AUC)分数进行排序,则本发明方法与目前优秀的方法相比,AUC分数和Precision分数均达到了最优,其中AUC分数超过第二名1.2%,证明增强模型学习细节信息的能力可以减少跟踪漂移现象,提高跟踪成功率,如图4所示,目标跟踪方法根据中心距离误差阈值(Location error threshold)为20的精确度分数(Precision)进行排序,本方法的Precision分数超过第二名0.6%,结合跟踪成功率和跟踪精确度结果,证明本发明方法能够达到优秀的跟踪性能。

Claims (10)

1.基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,具体按照以下步骤实施:
步骤1,将目标跟踪数据集划分为训练集和测试集,再对数据集进行预处理;
步骤2,构建混合结构注意力特征融合模块;
步骤3,构建基于混合结构注意力引导的孪生网络目标跟踪算法模型;
步骤4,利用训练集对步骤3构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型进行迭代训练,得到训练好的基于混合结构注意力机制的孪生网络目标跟踪模型;
步骤5,将测试集作为训练好的基于混合结构注意力机制的孪生网络目标跟踪模型的输入进行前向推理,得到每个测试样本的跟踪结果。
2.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤1中,目标跟踪数据集进行预处理的具体过程为:
S1:截取初始视频帧目标区域作为标定模板,并将标定模板缩放至尺寸为128×128;
S2:在当前帧以目标为中心截取搜索大小为256×256的图像区域作为搜索区域图像;
S3:截取当前帧的目标区域为动态模板,并将动态模板缩放至尺寸为128×128。
3.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤2的具体过程为:
设有图像特征xm和图像特征xn,将图像特征xm和图像特征xn分别经过卷积核大小为3×3卷积构成的卷积层学习局部细节信息和引入位置信息,得到图像特征x'm和图像特征x'n,设图像特征x'm经过线性层得到的查询向量xq,图像特征x'n经过线性层得到的值向量xv和键向量xk,经过混合结构注意力中的多头互注意力层,获取到不同通道维度下可以反映图像特征x'm和图像特征x'n之间相互关联程度的注意力图,表达式为:
Figure FDA0004107337230000021
式中,xs是图像特征x'm的注意力图,d表示键向量的维度;
将多头互注意力层输出的注意力图xs与图像特征x′m相加经过残差单元,则实现图像特征x′m和图像特征x′n中有效信息的聚合。
4.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤3中,基于混合结构注意力引导的孪生网络目标跟踪算法模型包括特征提取网络、特征融合网络、分类与回归网络三部分。
5.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤3的具体过程为:
步骤3.1,将步骤1得到的搜索区域图像、标定模板图像和动态模板图像分别经过特征提取网络ResNet50,得到标定模板特征、动态模板特征和搜索区域特征;
步骤3.2,利用特征融合网络将标定模板特征、动态模板特征融合为模板特征,再将模板特征与搜索区域特征相互融合,得到搜索区域特征的注意力图、模板特征的注意力图,将搜索区域特征和搜索区域特征的注意力图相加后经过残差单元,输出集成了目标位置信息的搜索区域特征,将模板特征和模板特征的注意力图相加后经过残差单元,输出集成了目标关键信息的模板特征;
步骤3.3,利用分类与回归网络对步骤3.2输出的集成了目标位置信息的搜索区域特征、集成了目标关键信息的模板特征进行解析,得到跟踪目标框。
6.根据权利要求5所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤3.1中,特征提取网络ResNet50为孪生网络结构,将ResNet50中的第三个Layer的步距参数设为1,使第三个Layer和第二个Layer的输出特征图大小一样,从第三个Layer获取到输入图像特征。
7.根据权利要求5所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤3.2的具体过程为:利用步骤2构建的混合结构注意力特征融合模块将步骤3.1得到的标定模板特征、动态模板特征的信息进行聚合,得到模板特征,再将模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合;
则模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合的具体过程为:
将步骤3.1得到的搜索区域特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征,将步骤3.1得到的模板特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征,设搜索区域特征经过线性层得到查询向量sq、值向量sv和键向量sk,模板特征经过线性层得到查询向量tq、值向量tv和键向量tk,经过混合结构注意力中的多头互注意力层,分别获取到不同通道维度下可以反应搜索区域特征和模板特征之间相互关联程度的注意力图,表达式为:
Figure FDA0004107337230000041
Figure FDA0004107337230000042
式中,as是搜索区域特征的注意力图,包含目标的位置信息,at表示模板特征的注意力图,包含能识别出目标的关键信息,d表示键向量的维度;
搜索区域特征和注意力图as相加后经过残差单元,输出集成了目标位置信息的搜索区域特征;
模板特征和注意力图at相加后经过残差单元,输出集成了目标关键信息的模板特征。
8.根据权利要求5所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤3.3,分类与回归网络的结构为:分类网络由3个卷积核大小为3、步距为1、填充大小为1的卷积构成,回归网络由3个卷积核大小为3、步距为1、填充大小为1的卷积和一个卷积核大小为5、步距为1、填充大小为2的卷积构成。
9.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤4中,训练过程中采用损失函数进行反向传播,更新模型权值参数,则损失函数如下:
L=λ1Lreg2Lcls
式中,Lreg是回归任务的损失值,Lcls是分类任务的损失值,λ1是回归损失的权重,λ2是分类损失的权重;
其中,
Figure FDA0004107337230000051
式中,IOU表示的是标签框区域和预测跟踪目标框区域的交集与并集之比,yreg表示标签框的左上角坐标和右下角坐标到基准坐标的偏移值,yreg=(xl,yl,xr,yr),xl和yl是标签框的左上角坐标相对基准坐标的偏移值,xr和yr是标签框的右下角坐标相对基准坐标的偏移值,
Figure FDA0004107337230000052
表示预测跟踪目标框的左上角坐标和右下角坐标到基准坐标的偏移值,
Figure FDA0004107337230000053
Figure FDA0004107337230000054
和/>
Figure FDA0004107337230000055
是预测跟踪目标框的左上角坐标相对基准坐标的偏移值,/>
Figure FDA0004107337230000056
Figure FDA0004107337230000057
是预测跟踪目标框的右下角坐标相对基准坐标的偏移值;
其中,
Figure FDA0004107337230000058
式中,M表示正样本和负样本的数量和,
Figure FDA0004107337230000059
是第i个样本的标签值,yi是第i个样本预测值。
10.根据权利要求9所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,所述正样本、负样本通过在标签框中划分椭圆区域来划分,以标签框的中心点作为椭圆的中心,标签框的长度作为椭圆的长轴,宽度作为短轴,采样点落在椭圆区域外则为负样本,中心点不变,标签框的长度一半作为椭圆的长轴,宽度的一半作为短轴,在划分出一个小的椭圆区域,落在这个区域则为正样本。
CN202310196504.4A 2023-03-03 2023-03-03 基于混合结构注意力引导的孪生网络目标跟踪方法 Pending CN116342648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310196504.4A CN116342648A (zh) 2023-03-03 2023-03-03 基于混合结构注意力引导的孪生网络目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310196504.4A CN116342648A (zh) 2023-03-03 2023-03-03 基于混合结构注意力引导的孪生网络目标跟踪方法

Publications (1)

Publication Number Publication Date
CN116342648A true CN116342648A (zh) 2023-06-27

Family

ID=86884973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310196504.4A Pending CN116342648A (zh) 2023-03-03 2023-03-03 基于混合结构注意力引导的孪生网络目标跟踪方法

Country Status (1)

Country Link
CN (1) CN116342648A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823891A (zh) * 2023-08-28 2023-09-29 江南大学 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823891A (zh) * 2023-08-28 2023-09-29 江南大学 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统
CN116823891B (zh) * 2023-08-28 2023-11-17 江南大学 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统

Similar Documents

Publication Publication Date Title
CN113807187A (zh) 基于注意力特征融合的无人机视频多目标跟踪方法
CN111915644B (zh) 孪生导向锚框rpn网络的实时目标跟踪方法
CN110781262A (zh) 基于视觉slam的语义地图的构建方法
CN112116593A (zh) 一种基于基尼指数的领域自适应语义分割方法
CN113902991A (zh) 一种基于级联特征融合的孪生网络目标跟踪方法
Chen et al. High-performance transformer tracking
CN116342648A (zh) 基于混合结构注意力引导的孪生网络目标跟踪方法
CN115170605A (zh) 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法
CN115564801A (zh) 一种基于注意力的单目标跟踪方法
Liang et al. Global-local feature aggregation for event-based object detection on eventkitti
Chen et al. Ship Detection with Optical Image Based on Attention and Loss Improved YOLO
Yu et al. Domain adaptive transformer tracking under occlusions
Ni et al. Efficient single-object tracker based on local-global feature fusion
CN111578956A (zh) 一种基于深度学习的视觉slam定位方法
CN116543021A (zh) 一种基于特征融合的Siamese网络视频单目标跟踪方法
CN116645625A (zh) 基于卷积Transformer联合的目标跟踪方法
Tian et al. Deep supervised descent method with multiple seeds generation for 3-d tracking in point cloud
CN112862860B (zh) 一种用于多模态目标跟踪的对象感知图像融合方法
CN114140524A (zh) 一种多尺度特征融合的闭环检测系统及方法
Gao et al. Feature Alignment in Anchor-Free Object Detection
CN116486203B (zh) 一种基于孪生网络和在线模板更新的单目标跟踪方法
Yang et al. Real-time tracking of visual objects based on deep feature fusion
Cheng et al. Dual attention-guided self-adaptive aware cascade network for multi-view stereo and stereo matching
Dong et al. NDAM-YOLOseg: a real-time instance segmentation model based on multi-head attention mechanism
Ning et al. Diversity Knowledge Distillation for LiDAR-based 3D Object Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination