CN116342648A - 基于混合结构注意力引导的孪生网络目标跟踪方法 - Google Patents
基于混合结构注意力引导的孪生网络目标跟踪方法 Download PDFInfo
- Publication number
- CN116342648A CN116342648A CN202310196504.4A CN202310196504A CN116342648A CN 116342648 A CN116342648 A CN 116342648A CN 202310196504 A CN202310196504 A CN 202310196504A CN 116342648 A CN116342648 A CN 116342648A
- Authority
- CN
- China
- Prior art keywords
- attention
- features
- template
- target
- mixed structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 18
- 230000014509 gene expression Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 6
- 230000010354 integration Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明基于混合结构注意力引导的孪生网络目标跟踪方法,具体为:将目标跟踪数据集划分为训练集和测试集,再对数据集进行预处理;构建混合结构注意力特征融合模块;构建基于混合结构注意力引导的孪生网络目标跟踪算法模型;利用训练集对步骤3构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型进行迭代训练,得到训练好的基于混合结构注意力机制的孪生网络目标跟踪模型;将测试集作为训练好的基于混合结构注意力机制的孪生网络目标跟踪模型的输入进行前向推理,得到每个测试样本的跟踪结果。本发明方法解决了现有目标跟踪方法精度低的问题。
Description
技术领域
本发明属于目标跟踪方法技术领域,具体涉及基于混合结构注意力引导的孪生网络目标跟踪方法。
背景技术
目标跟踪是在机器人视觉、视频监控、导弹制导和无人驾驶等领域有广泛应用的技术。为了实现高精度、稳健的目标跟踪,需要设计有效的目标跟踪算法。在真实场景中对目标进行跟踪时,会面临目标形变、目标被遮挡、相似目标干扰等多种挑战因素,为更好的应对这些挑战,出现了孪生网络目标跟踪算法。然而,目前孪生网络结构目标跟踪算法通过互相关实现模板特征和搜索区域特征的简单融合,丢失了丰富的语义信息。为了解决这个问题,于是提出了基于Transformer的孪生网络目标跟踪算法,Transformer由于其在长距离依赖建模方面的优点,被应用于孪生网络目标跟踪中的特征融合阶段,实现模板和搜索区域之间的信息整合。但是,Transformer不具有学习局部细节信息的优势,导致跟踪算法容易受到相似目标干扰而陷入次优解,成为设计高精度目标跟踪算法的瓶颈。
发明内容
本发明的目的是提供基于混合结构注意力引导的孪生网络目标跟踪方法,解决了现有目标跟踪方法精度低的问题。
本发明所采用的技术方案是,基于混合结构注意力引导的孪生网络目标跟踪方法,具体按照以下步骤实施:
步骤1,将目标跟踪数据集划分为训练集和测试集,再对数据集进行预处理;
步骤2,构建混合结构注意力特征融合模块;
步骤3,构建基于混合结构注意力引导的孪生网络目标跟踪算法模型;
步骤4,利用训练集对步骤3构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型进行迭代训练,得到训练好的基于混合结构注意力机制的孪生网络目标跟踪模型;
步骤5,将测试集作为训练好的基于混合结构注意力机制的孪生网络目标跟踪模型的输入进行前向推理,得到每个测试样本的跟踪结果。
本发明的特点还在于,
步骤1中,目标跟踪数据集进行预处理的具体过程为:
S1:截取初始视频帧目标区域作为标定模板,并将标定模板缩放至尺寸为128×128;
S2:在当前帧以目标为中心截取搜索大小为256×256的图像区域作为搜索区域图像;
S3:截取当前帧的目标区域为动态模板,并将动态模板缩放至尺寸为128×128。
步骤2的具体过程为:
设有图像特征xm和图像特征xn,将图像特征xm和图像特征xn分别经过卷积核大小为3×3卷积构成的卷积层学习局部细节信息和引入位置信息,得到图像特征x'm和图像特征x'n,设图像特征x'm经过线性层得到的查询向量xq,图像特征x'n经过线性层得到的值向量xv和键向量xk,经过混合结构注意力中的多头互注意力层,获取到不同通道维度下可以反映图像特征x'm和图像特征x'n之间相互关联程度的注意力图,表达式为:
式中,xs是图像特征x'm的注意力图,d表示键向量的维度;
将多头互注意力层输出的注意力图xs与图像特征x'm相加经过残差单元,则实现图像特征x'm和图像特征x'n中有效信息的聚合。
步骤3中,基于混合结构注意力引导的孪生网络目标跟踪算法模型包括特征提取网络、特征融合网络、分类与回归网络三部分。
步骤3的具体过程为:
步骤3.1,将步骤1得到的搜索区域图像、标定模板图像和动态模板图像分别经过特征提取网络ResNet50,得到标定模板特征、动态模板特征和搜索区域特征;
步骤3.2,利用特征融合网络将标定模板特征、动态模板特征融合为模板特征,再将模板特征与搜索区域特征相互融合,得到搜索区域特征的注意力图、模板特征的注意力图,将搜索区域特征和搜索区域特征的注意力图相加后经过残差单元,输出集成了目标位置信息的搜索区域特征,将模板特征和模板特征的注意力图相加后经过残差单元,输出集成了目标关键信息的模板特征;
步骤3.3,利用分类与回归网络对步骤3.2输出的集成了目标位置信息的搜索区域特征、集成了目标关键信息的模板特征进行解析,得到跟踪目标框。
步骤3.1中,特征提取网络ResNet50为孪生网络结构,将ResNet50中的第三个Layer的步距参数设为1,使第三个Layer和第二个Layer的输出特征图大小一样,从第三个Layer获取到输入图像特征。
步骤3.2的具体过程为:利用步骤2构建的混合结构注意力特征融合模块将步骤3.1得到的标定模板特征、动态模板特征的信息进行聚合,得到模板特征,再将模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合;
则模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合的具体过程为:
将步骤3.1得到的搜索区域特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征,将步骤3.1得到的模板特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征,设搜索区域特征经过线性层得到查询向量sq、值向量sv和键向量sk,模板特征经过线性层得到查询向量tq、值向量tv和键向量tk,经过混合结构注意力中的多头互注意力层,分别获取到不同通道维度下可以反应搜索区域特征和模板特征之间相互关联程度的注意力图,表达式为:
式中,as是搜索区域特征的注意力图,包含目标的位置信息,at表示模板特征的注意力图,包含能识别出目标的关键信息,d表示键向量的维度;
搜索区域特征和注意力图as相加后经过残差单元,输出集成了目标位置信息的搜索区域特征;
模板特征和注意力图at相加后经过残差单元,输出集成了目标关键信息的模板特征。
步骤3.3,分类与回归网络的结构为:分类网络由3个卷积核大小为3、步距为1、填充大小为1的卷积构成,回归网络由3个卷积核大小为3、步距为1、填充大小为1的卷积和一个卷积核大小为5、步距为1、填充大小为2的卷积构成。
步骤4中,训练过程中采用损失函数进行反向传播,更新模型权值参数,则损失函数如下:
L=λ1Lreg+λ2Lcls
式中,Lreg是回归任务的损失值,Lcls是分类任务的损失值,λ1是回归损失的权重,λ2是分类损失的权重;
其中,
式中,IOU表示的是标签框区域和预测跟踪目标框区域的交集与并集之比,yreg表示标签框的左上角坐标和右下角坐标到基准坐标的偏移值,yreg=(xl,yl,xr,yr),xl和yl是标签框的左上角坐标相对基准坐标的偏移值,xr和yr是标签框的右下角坐标相对基准坐标的偏移值,表示预测跟踪目标框的左上角坐标和右下角坐标到基准坐标的偏移值, 和/>是预测跟踪目标框的左上角坐标相对基准坐标的偏移值,/>和是预测跟踪目标框的右下角坐标相对基准坐标的偏移值;
其中,
正样本、负样本通过在标签框中划分椭圆区域来划分,以标签框的中心点作为椭圆的中心,标签框的长度作为椭圆的长轴,宽度作为短轴,采样点落在椭圆区域外则为负样本,中心点不变,标签框的长度一半作为椭圆的长轴,宽度的一半作为短轴,在划分出一个小的椭圆区域,落在这个区域则为正样本。
本发明的有益效果是:本发明方法结合卷积和Transformer实现了基于混合结构注意力的特征融合模块,可以进行局部细粒度特征学习和全局特征聚合,并构建了基于混合结构注意力引导的孪生网络目标跟踪算法模型,实现模板特征和搜索区域特征的信息集成,提升跟踪算法精确定位目标的能力,同时,基于混合结构注意力引导的孪生网络目标跟踪算法模型的模板分支的输入端增加了动态模板,即同时输入标定模板和动态模板,并利用混合结构注意力学习和集中标定模板和动态模板中目标的细粒度特征,得到可以适应目标形态变化的模板特征,本发明方法能在复杂环境下稳健的跟踪目标。
附图说明
图1为本发明基于混合结构注意力引导的孪生网络目标跟踪方法的流程图;
图2为本发明方法中数据集预处理的流程图;
图3为本发明方法与现有技术成功率对比图;
图4为本发明方法与现有技术精确度对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于混合结构注意力引导的孪生网络目标跟踪方法,如图1所示,具体按照以下步骤实施:
步骤1,将目标跟踪数据集根据帕累托原则,数据集中80%的图像数据作为训练集,20%的图像作为测试集,其中训练集包括图像数据和目标的标签框信息,测试集只包含图像数据,再对数据集进行预处理,得到搜索区域图像、标定模板图像和动态模板图像;
如图2所示,目标跟踪数据集进行预处理的具体过程为:
S1:截取初始视频帧目标区域作为标定模板,并将标定模板缩放至尺寸为128×128;
S2:在当前帧以目标为中心截取搜索大小为256×256的图像区域作为搜索区域图像;
S3:截取当前帧的目标区域为动态模板,并将动态模板缩放至尺寸为128×128;
步骤2,构建混合结构注意力特征融合模块;
具体过程为:
设有图像特征xm和图像特征xn,将图像特征xm和图像特征xn分别经过卷积核大小为3×3卷积构成的卷积层学习局部细节信息和引入位置信息,得到图像特征x'm和图像特征x'n,设图像特征x'm经过线性层得到的查询向量xq,图像特征x'n经过线性层得到的值向量xv和键向量xk,经过混合结构注意力中的多头互注意力层,获取到不同通道维度下可以反映图像特征x'm和图像特征x'n之间相互关联程度的注意力图,表达式为:
式中,xs是图像特征x'm的注意力图,d表示键向量的维度;
将多头互注意力层输出的注意力图xs与图像特征x'm相加经过残差单元,则实现图像特征x'm和图像特征x'n中有效信息的聚合;
步骤3,构建基于混合结构注意力引导的孪生网络目标跟踪算法模型,基于混合结构注意力引导的孪生网络目标跟踪算法模型包括特征提取网络、特征融合网络、分类与回归网络三部分;
步骤3.1,将步骤1得到的搜索区域图像、标定模板图像和动态模板图像分别经过特征提取网络ResNet50,得到标定模板特征、动态模板特征和搜索区域特征;
特征提取网络为孪生网络结构,具体采用ResNet50并将ResNet50中的第三个Layer的步距参数设为1,使第三个Layer和第二个Layer的输出特征图大小一样,从第三个Layer获取到输入图像特征;
步骤3.2,利用特征融合网络将标定模板特征、动态模板特征融合为模板特征,再将模板特征与搜索区域特征相互融合,得到搜索区域特征的注意力图、模板特征的注意力图,将搜索区域特征和搜索区域特征的注意力图相加后经过残差单元,输出集成了目标位置信息的搜索区域特征,将模板特征和模板特征的注意力图相加后经过残差单元,输出集成了目标关键信息的模板特征;
具体过程为:
利用步骤2构建的混合结构注意力特征融合模块将步骤3.1得到的标定模板特征、动态模板特征的信息进行聚合,得到模板特征,该模板特征能够精确表示目标外观模型,再将模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合;
模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合的具体过程为:
将步骤3.1得到的搜索区域特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征,将步骤3.1得到的模板特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征,设搜索区域特征经过线性层得到查询向量sq、值向量sv和键向量sk,模板特征经过线性层得到查询向量tq、值向量tv和键向量tk,经过混合结构注意力中的多头互注意力层,分别获取到不同通道维度下可以反应搜索区域特征和模板特征之间相互关联程度的注意力图,表达式为:
式中,as是搜索区域特征的注意力图,包含目标的位置信息,at表示模板特征的注意力图,包含能识别出目标的关键信息,d表示键向量的维度;
搜索区域特征和注意力图as相加后经过残差单元,输出集成了目标位置信息的搜索区域特征;
模板特征和注意力图at相加后经过残差单元,输出集成了目标关键信息的模板特征;
该过程中搜索区域特征和模板特征之间可以进行多次相互融合,从而将注意力逐渐集中到目标上,本发明中融合了四次,最后,特征融合网络输出包含目标位置信息的搜索区域特征;
步骤3.3,利用分类与回归网络对步骤3.2输出的集成了目标位置信息的搜索区域特征、集成了目标关键信息的模板特征进行解析,得到跟踪目标框;
分类与回归网络的结构为:分类网络由3个卷积核大小为3、步距为1、填充大小为1的卷积构成,回归网络由3个卷积核大小为3、步距为1、填充大小为1的卷积和一个卷积核大小为5、步距为1、填充大小为2的卷积构成;
步骤4,利用训练集对步骤3构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型进行迭代训练,训练过程中采用损失函数进行反向传播,更新模型权值参数,得到训练好的基于混合结构注意力机制的孪生网络目标跟踪模型;
本发明采用基于混合结构注意力引导的孪生网络目标跟踪算法模型联合计算分类任务损失和回归任务损失,则损失函数如下:
L=λ1Lreg+λ2Lcls
式中,Lreg是回归任务的损失值,Lcls是分类任务的损失值,λ1是回归损失的权重,λ1=1.0,λ2是分类损失的权重,λ2=1.0;
在计算损失时引入权重参数λ1、λ2,通过调整权重参数,强化模型区分目标和背景的能力,提升跟踪器在复杂场景下的跟踪能力;
本发明构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型采用无锚点框结构,因此可以直接预测跟踪目标框的大小,回归任务的损失值通过计算标签框区域和预测跟踪目标框区域的交集与并集之比得到,具体表达式如下:
式中,IOU表示的是标签框区域和预测跟踪目标框区域的交集与并集之比,当IOU的值是1时,标签框的区域和跟踪框的区域完全重合,此时损失值为0,yreg表示标签框的左上角坐标和右下角坐标到基准坐标的偏移值,yreg=(xl,yl,xr,yr),xl和yl是标签框的左上角坐标相对基准坐标的偏移值,xr和yr是标签框的右下角坐标相对基准坐标的偏移值,表示预测跟踪目标框的左上角坐标和右下角坐标到基准坐标的偏移值,/> 和/>是预测跟踪目标框的左上角坐标相对基准坐标的偏移值,/>和/>是预测跟踪目标框的右下角坐标相对基准坐标的偏移值,回归任务中采用IOU损失函数,可以将目标框作为一个整体行优化,提高了预测跟踪目标框的质量;
分类任务的损失值采用二分类交叉熵损失函数,具体表达式如下:
正样本、负样本通过在标签框中划分椭圆区域来划分,以标签框的中心点作为椭圆的中心,标签框的长度作为椭圆的长轴,宽度作为短轴,采样点落在椭圆区域外则为负样本,中心点不变,标签框的长度一半作为椭圆的长轴,宽度的一半作为短轴,在划分出一个小的椭圆区域,落在这个区域则为正样本;
步骤5,将测试集作为训练好的基于混合结构注意力机制的孪生网络目标跟踪模型的输入进行前向推理,得到每个测试样本的跟踪结果。
本发明方法与现有技术的实验对比结果如下:
OTB100数据集是Wu等人提出的被广泛应用在目标跟踪中的数据集,包含100个具有挑战性的测试场景,由灰度数据和彩色数据共同构成的,其中包括尺度变化、遮挡、形变、背景干扰、旋转、运动模糊等视觉跟踪中常见的挑战因素。OTB100数据集的根据跟踪精确度和跟踪成功率评测目标跟踪算法的性能。跟踪精确度是跟踪结果的中心位置和真实的目标中心之间的误差,通过精确度图(Precision Plot)显示;跟踪成功率反应的是跟踪框和真实目标框的重叠率,通过成功率图(Success Plot)显示。
在该数据集中,本方法和当前多个优秀的方法做了比较,如图3所示,目标跟踪方法根据曲线下面积(Area Under Curve,AUC)分数进行排序,则本发明方法与目前优秀的方法相比,AUC分数和Precision分数均达到了最优,其中AUC分数超过第二名1.2%,证明增强模型学习细节信息的能力可以减少跟踪漂移现象,提高跟踪成功率,如图4所示,目标跟踪方法根据中心距离误差阈值(Location error threshold)为20的精确度分数(Precision)进行排序,本方法的Precision分数超过第二名0.6%,结合跟踪成功率和跟踪精确度结果,证明本发明方法能够达到优秀的跟踪性能。
Claims (10)
1.基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,具体按照以下步骤实施:
步骤1,将目标跟踪数据集划分为训练集和测试集,再对数据集进行预处理;
步骤2,构建混合结构注意力特征融合模块;
步骤3,构建基于混合结构注意力引导的孪生网络目标跟踪算法模型;
步骤4,利用训练集对步骤3构建的基于混合结构注意力引导的孪生网络目标跟踪算法模型进行迭代训练,得到训练好的基于混合结构注意力机制的孪生网络目标跟踪模型;
步骤5,将测试集作为训练好的基于混合结构注意力机制的孪生网络目标跟踪模型的输入进行前向推理,得到每个测试样本的跟踪结果。
2.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤1中,目标跟踪数据集进行预处理的具体过程为:
S1:截取初始视频帧目标区域作为标定模板,并将标定模板缩放至尺寸为128×128;
S2:在当前帧以目标为中心截取搜索大小为256×256的图像区域作为搜索区域图像;
S3:截取当前帧的目标区域为动态模板,并将动态模板缩放至尺寸为128×128。
3.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤2的具体过程为:
设有图像特征xm和图像特征xn,将图像特征xm和图像特征xn分别经过卷积核大小为3×3卷积构成的卷积层学习局部细节信息和引入位置信息,得到图像特征x'm和图像特征x'n,设图像特征x'm经过线性层得到的查询向量xq,图像特征x'n经过线性层得到的值向量xv和键向量xk,经过混合结构注意力中的多头互注意力层,获取到不同通道维度下可以反映图像特征x'm和图像特征x'n之间相互关联程度的注意力图,表达式为:
式中,xs是图像特征x'm的注意力图,d表示键向量的维度;
将多头互注意力层输出的注意力图xs与图像特征x′m相加经过残差单元,则实现图像特征x′m和图像特征x′n中有效信息的聚合。
4.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤3中,基于混合结构注意力引导的孪生网络目标跟踪算法模型包括特征提取网络、特征融合网络、分类与回归网络三部分。
5.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤3的具体过程为:
步骤3.1,将步骤1得到的搜索区域图像、标定模板图像和动态模板图像分别经过特征提取网络ResNet50,得到标定模板特征、动态模板特征和搜索区域特征;
步骤3.2,利用特征融合网络将标定模板特征、动态模板特征融合为模板特征,再将模板特征与搜索区域特征相互融合,得到搜索区域特征的注意力图、模板特征的注意力图,将搜索区域特征和搜索区域特征的注意力图相加后经过残差单元,输出集成了目标位置信息的搜索区域特征,将模板特征和模板特征的注意力图相加后经过残差单元,输出集成了目标关键信息的模板特征;
步骤3.3,利用分类与回归网络对步骤3.2输出的集成了目标位置信息的搜索区域特征、集成了目标关键信息的模板特征进行解析,得到跟踪目标框。
6.根据权利要求5所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤3.1中,特征提取网络ResNet50为孪生网络结构,将ResNet50中的第三个Layer的步距参数设为1,使第三个Layer和第二个Layer的输出特征图大小一样,从第三个Layer获取到输入图像特征。
7.根据权利要求5所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤3.2的具体过程为:利用步骤2构建的混合结构注意力特征融合模块将步骤3.1得到的标定模板特征、动态模板特征的信息进行聚合,得到模板特征,再将模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合;
则模板特征与步骤3.1得到的搜索区域特征利用对称的混合结构注意力模块进行相互融合的具体过程为:
将步骤3.1得到的搜索区域特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征,将步骤3.1得到的模板特征经过卷积核大小为1×1和3×3卷积构成的卷积层增强特征表征,设搜索区域特征经过线性层得到查询向量sq、值向量sv和键向量sk,模板特征经过线性层得到查询向量tq、值向量tv和键向量tk,经过混合结构注意力中的多头互注意力层,分别获取到不同通道维度下可以反应搜索区域特征和模板特征之间相互关联程度的注意力图,表达式为:
式中,as是搜索区域特征的注意力图,包含目标的位置信息,at表示模板特征的注意力图,包含能识别出目标的关键信息,d表示键向量的维度;
搜索区域特征和注意力图as相加后经过残差单元,输出集成了目标位置信息的搜索区域特征;
模板特征和注意力图at相加后经过残差单元,输出集成了目标关键信息的模板特征。
8.根据权利要求5所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤3.3,分类与回归网络的结构为:分类网络由3个卷积核大小为3、步距为1、填充大小为1的卷积构成,回归网络由3个卷积核大小为3、步距为1、填充大小为1的卷积和一个卷积核大小为5、步距为1、填充大小为2的卷积构成。
9.根据权利要求1所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,步骤4中,训练过程中采用损失函数进行反向传播,更新模型权值参数,则损失函数如下:
L=λ1Lreg+λ2Lcls
式中,Lreg是回归任务的损失值,Lcls是分类任务的损失值,λ1是回归损失的权重,λ2是分类损失的权重;
其中,
式中,IOU表示的是标签框区域和预测跟踪目标框区域的交集与并集之比,yreg表示标签框的左上角坐标和右下角坐标到基准坐标的偏移值,yreg=(xl,yl,xr,yr),xl和yl是标签框的左上角坐标相对基准坐标的偏移值,xr和yr是标签框的右下角坐标相对基准坐标的偏移值,表示预测跟踪目标框的左上角坐标和右下角坐标到基准坐标的偏移值, 和/>是预测跟踪目标框的左上角坐标相对基准坐标的偏移值,/>和是预测跟踪目标框的右下角坐标相对基准坐标的偏移值;
其中,
10.根据权利要求9所述的基于混合结构注意力引导的孪生网络目标跟踪方法,其特征在于,所述正样本、负样本通过在标签框中划分椭圆区域来划分,以标签框的中心点作为椭圆的中心,标签框的长度作为椭圆的长轴,宽度作为短轴,采样点落在椭圆区域外则为负样本,中心点不变,标签框的长度一半作为椭圆的长轴,宽度的一半作为短轴,在划分出一个小的椭圆区域,落在这个区域则为正样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310196504.4A CN116342648A (zh) | 2023-03-03 | 2023-03-03 | 基于混合结构注意力引导的孪生网络目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310196504.4A CN116342648A (zh) | 2023-03-03 | 2023-03-03 | 基于混合结构注意力引导的孪生网络目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116342648A true CN116342648A (zh) | 2023-06-27 |
Family
ID=86884973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310196504.4A Pending CN116342648A (zh) | 2023-03-03 | 2023-03-03 | 基于混合结构注意力引导的孪生网络目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116342648A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823891A (zh) * | 2023-08-28 | 2023-09-29 | 江南大学 | 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统 |
-
2023
- 2023-03-03 CN CN202310196504.4A patent/CN116342648A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116823891A (zh) * | 2023-08-28 | 2023-09-29 | 江南大学 | 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统 |
CN116823891B (zh) * | 2023-08-28 | 2023-11-17 | 江南大学 | 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113807187A (zh) | 基于注意力特征融合的无人机视频多目标跟踪方法 | |
CN111915644B (zh) | 孪生导向锚框rpn网络的实时目标跟踪方法 | |
CN110781262A (zh) | 基于视觉slam的语义地图的构建方法 | |
CN112116593A (zh) | 一种基于基尼指数的领域自适应语义分割方法 | |
CN113902991A (zh) | 一种基于级联特征融合的孪生网络目标跟踪方法 | |
Chen et al. | High-performance transformer tracking | |
CN116342648A (zh) | 基于混合结构注意力引导的孪生网络目标跟踪方法 | |
CN115170605A (zh) | 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法 | |
CN115564801A (zh) | 一种基于注意力的单目标跟踪方法 | |
Liang et al. | Global-local feature aggregation for event-based object detection on eventkitti | |
Chen et al. | Ship Detection with Optical Image Based on Attention and Loss Improved YOLO | |
Yu et al. | Domain adaptive transformer tracking under occlusions | |
Ni et al. | Efficient single-object tracker based on local-global feature fusion | |
CN111578956A (zh) | 一种基于深度学习的视觉slam定位方法 | |
CN116543021A (zh) | 一种基于特征融合的Siamese网络视频单目标跟踪方法 | |
CN116645625A (zh) | 基于卷积Transformer联合的目标跟踪方法 | |
Tian et al. | Deep supervised descent method with multiple seeds generation for 3-d tracking in point cloud | |
CN112862860B (zh) | 一种用于多模态目标跟踪的对象感知图像融合方法 | |
CN114140524A (zh) | 一种多尺度特征融合的闭环检测系统及方法 | |
Gao et al. | Feature Alignment in Anchor-Free Object Detection | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
Yang et al. | Real-time tracking of visual objects based on deep feature fusion | |
Cheng et al. | Dual attention-guided self-adaptive aware cascade network for multi-view stereo and stereo matching | |
Dong et al. | NDAM-YOLOseg: a real-time instance segmentation model based on multi-head attention mechanism | |
Ning et al. | Diversity Knowledge Distillation for LiDAR-based 3D Object Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |