CN115564801A - 一种基于注意力的单目标跟踪方法 - Google Patents

一种基于注意力的单目标跟踪方法 Download PDF

Info

Publication number
CN115564801A
CN115564801A CN202211263801.8A CN202211263801A CN115564801A CN 115564801 A CN115564801 A CN 115564801A CN 202211263801 A CN202211263801 A CN 202211263801A CN 115564801 A CN115564801 A CN 115564801A
Authority
CN
China
Prior art keywords
network
classification
attention
target
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211263801.8A
Other languages
English (en)
Inventor
黄丹丹
杨明婷
陈广秋
段锦
刘智
于斯宇
胡力洲
秦霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN202211263801.8A priority Critical patent/CN115564801A/zh
Publication of CN115564801A publication Critical patent/CN115564801A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于注意力的单目标跟踪方法,属于深度学习中的计算机视觉领域。包括数据预处理,模型的训练,将构造好的网络模型进行训练,在整个训练过程中通过降低网络的损失函数来优化网络的参数,从而获得基于注意力的单目标网络架构的网络权重;在新的视频序列中,使用通过训练而获得的网络权重,来测试跟踪目标的效果。优点是将主干网络输出的低层特征与高层特征结合,让最后的特征图在具有高级语义信息的同时补充一些细节信息;利用分类增强模块辅助分类分支,使其得到更加精准的目标定位信息,增加的设计可以让跟踪器在相似物干扰时,还能进行精准的跟踪,在众多复杂的场景中都可以精准稳定的跟踪目标。

Description

一种基于注意力的单目标跟踪方法
技术领域
本发明属于深度学习中的计算机视觉领域,尤其涉及一种基于注意力的单目标跟踪方法。
背景技术
目标跟踪一直是计算机视觉领域热门研究方向,在人机交互、智能控制、自动导航以及安全监控等领域都有着广泛的应用。虽然现如今,跟踪方法虽然已经取得了一定的成就,但在面临光照变化、非刚性变形以及相似物干扰等复杂场景时,跟踪器的跟踪效果会产生一定的影响。因此,能够实现长期稳定并且精准的目标跟踪依旧是一场具有挑战性的任务。
目前主流的目标跟踪器大多都是基于孪生网络架构。该网络架构它将目标跟踪问题转化为匹配问题,通过目标模板与搜索区域的互相关操作来学习一般相似度映射。SINT是首个将孪生网络运用在目标跟踪上,将目标跟踪问题转换成一个图像块匹配问题。同年,Bertinetto等人提出SiamFC,提出一种新的全卷积孪生网络作为基本的跟踪算法,高速的同时保证了一定的准确度。SiamRPN借鉴了区域推荐网络RPN,在孪生网络提取特征后将特征图送入分类分支和回归分支,使跟踪器可以回归目标位置、形状。之后的DaSiamRPN、C-RPN、SiamRPN++等方法都对SiamRPN做出了不同的改进。几乎所有当前先进的跟踪器都是使用互相关来进行信息嵌入,尽管这些跟踪器已经取得了良好的跟踪性能,但在面对相似物干扰、光照变化等复杂场景时仍会出现目标跟踪错误的情况。在对现有的跟踪器分析得到以下两个结论:(1)对于大多数基于孪生网络的跟踪器(如SiamFC、SiamRPN和ATOM),都是通过目标与搜索区域进行卷积互相关操作来实现相似度学习的。然而,这样的方法本身是一个简单的线性匹配过程,会导致语义信息丢失(2)由孪生网络的相似性映射产生的互相关联特征容易受到搜索区域内相似物体的干扰。
发明内容
本发明提供一种基于注意力的单目标跟踪方法,在基于深度学习的方法中,鉴于现有的一些先进孪生网络的单目标跟踪器存在上述的缺陷,通过基于注意力来突出所需要关注的目标信息,并且在回归部分增加了分类增强模块辅助分类部分分类得更加准确,从而促使后续的分类回归子网络对目标进行更加精确地定位和边界盒回归。
本发明采取的技术方案是,包括下列步骤:
步骤一:数据预处理,为后续的网络模型训练提供数据准备;
步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中通过降低网络的损失函数来优化网络的参数,从而获得基于注意力的单目标网络架构的网络权重;
步骤三:模型的测试,在新的视频序列中,使用通过训练而获得的网络权重,来测试跟踪目标的效果。
本发明所述步骤一中的数据预处理包括:
S11、通过数据预处理操作将各数据集中的每张视频图片裁剪成一对固定的大小后放置于重新生成的文件夹里,文件夹中全是裁剪后用于训练的模板以及搜索区域的样本图片,其中模板图片Z大小为127×127,搜索区域图片X大小为511×511。
本发明所述步骤二中模型的训练包括下列步骤:
S21、将准备好的样本图片送入到网络模型中进行训练,此网络模型包括三个部分:一个是用于特征提取的孪生子网络,一个是嵌入模板图片与搜索区域图片信息的特征融合结构,一个是用于分类以及回归目标位置的分类回归子网络;
S22、第一部分是用于特征提取的孪生子网络,分别对模板图片Z以及搜索区域图片X进行特征的提取;主干网络是由两个分支共享相同的CNN结构,其中一分支目标模板Z作为输入,另一分支搜索区域X作为输入;通过主干网络得到两个特征映射,分别为模板图像特征图
Figure BDA0003891085950000021
以及搜索区域特征图
Figure BDA0003891085950000022
S23、第二部分是特征融合结构,用于嵌入目标模板以及搜索区域的特征;将主干网络输出的两分支特征图
Figure BDA0003891085950000023
以及
Figure BDA0003891085950000024
进行深度互相关来嵌入二者信息,将通过深度互相关得到的响应图R通过一个注意力机制,来提取需要关注的目标信息,以此来将更多的注意力关注于目标信息区域,最后将3、4、5层特征图
Figure BDA0003891085950000025
进行拼接的响应图Rall用于后续的分类回归子网络,深度互相关以及拼接式子分别定义如下:
Figure BDA0003891085950000026
上式表示深度互相关操作,其中
Figure BDA0003891085950000027
Figure BDA0003891085950000028
分别表示模板特征图以及搜索区域特征图;
Figure BDA0003891085950000029
其中,
Figure BDA00038910859500000210
分别表示主干网络3,4,5层输出特征图,通过深度互相关以及注意力机制的输出部分;
S24、第三部分是分类回归子网络,主要用于特征图位置分类以及目标位置的回归;首先响应图Rall中的每个位置(i,j)可以映射回搜索区域为(x,y),响应图Rall通过卷积会得到分类分支以及回归分支;分类分支会得到分类特征图
Figure BDA0003891085950000031
和中心特征图
Figure BDA0003891085950000032
分类特征图是用于预测每个位置的类别,分类特征图
Figure BDA0003891085950000033
上每个点(i,j,:)都包含一个2D向量,分别表示相应的前景和背景得分,在分类部分还增加了一个增强模块,辅助分类得更加准确;同时与该分类特征图并行的还有中心特征图,中心特征图
Figure BDA0003891085950000034
中给出每个像素点的中心的得分,得分高的就是中心位置,中心可以用于删除异常值,远离中心的位置往往会产生低质量的预测边界框;
S25、分类回归网络的回归分支输出回归特征图
Figure BDA0003891085950000035
回归特征图
Figure BDA0003891085950000036
每个点(i,j,:)都包含一个4D向量t(i,j)=(l,t,r,b),其表示从相应位置到输入搜索区域中边界框四边的距离,设(x0,y0)和(x1,y1)表示真值边界框的左上角和右下角,(x,y)表示点(i,j)对应位置,回归特征图上某个点
Figure BDA0003891085950000037
的回归目标
Figure BDA0003891085950000038
可以通过以下公式计算得到:
Figure BDA0003891085950000039
Figure BDA00038910859500000310
其中(x0,y0)和(x1,y1)表示真值边界框的左上角和右下角,
Figure BDA00038910859500000311
表示回归特征图上相应点
Figure BDA00038910859500000312
的回归目标,
Figure BDA00038910859500000313
分别表示回归特征图上点到边界框四边的距离;
S26、采用端到端的方式,对整个网络进行训练;其中分类部分的损失函数值为
Figure BDA00038910859500000314
边界框回归函数值为
Figure BDA00038910859500000315
中心度损失为
Figure BDA00038910859500000316
按照相应的权重值加权在一起,作为整个系统加权后的损失函数;
Figure BDA00038910859500000317
上式中,采用的交叉熵损失进行分类,IOU损失进行回归,以及还有中心度损失;
S27、根据损失函数
Figure BDA00038910859500000318
的计算梯度,再使用优化器SGD来更新网络的参数,让整个网络损失函数降低直到收敛,那么整个训练结束,得到训练好了的一种基于注意力的单目标跟踪的网络权重。
本发明所述步骤S22中CNN网络采用的是改进过的Resnet-50,具体来说就是移除了两个卷积块中的下采样操作,并且使用空洞卷积,以此来增加感受野,通过修改conv4和conv5最后两块的有效步幅,将步幅设置为1;将conv4块的空洞率设置为2,conv5块的空洞率设置为4;在每一块后附加一个额外的1×1卷积层,使其输出信道减少到256。
本发明所述步骤S23中,注意力机制中运用到的是自注意力self-attention,其式子如下:
Figure BDA0003891085950000041
其中Q代表查询值,K代表键值,V代表提取到的信息值,dk代表向量的长度,后续Q回和每个K值进行匹配,相当于是计算特征之间的相关性,再通过softmax函数进行归一化,得到了一个系数矩阵,相关性越大则对应V信息值得权重也就越大。
本发明所述步骤S23中,将主干网络后3、4、5层的特征经过注意力机制之后的响应图拼接起来,目的是让特征具有更加丰富的语义信息,有更多的细节信息,有助于目标的精准定位。
本发明所述步骤S24中增强模块具体是先经过卷积操作调整通道,再进行深度互相关操作嵌入信息,最后再通过卷积操作得到分类置信度辅助分类部分分类得更加准确。
本发明所述步骤S26中λ1与λ2的取值分别为1和3。
本发明所述步骤三模型的测试包括:
S31、将训练好的权重参数,在新的一段视频序列中测试跟踪效果。
在目标领域中,特征图的分辨率降低意味着目标的外观细节特征丢失,对相似度匹配不利,就容易发生跟踪错误的情况。本发明利用注意力来突出目标信息,并且该方法使用上下文信息增强原始特征;并且将使用到了主干网络的后三层特征图的输出,添加了一些细节细节信息,使提取到的特征更加的丰富。
本发明的优点是,本发明将主干网络输出的低层特征与高层特征结合,让最后的特征图在具有高级语义信息的同时补充一些细节信息;再者利用分类增强模块辅助分类分支,使其得到更加精准的目标定位信息,增加的设计可以让跟踪器在相似物干扰时,还能进行精准的跟踪,并且在测试对比实验中,本发明和其他方法相对比具有更加鲁棒的跟踪效果,并且在众多复杂的场景中都可以精准稳定的跟踪目标。
附图说明
图1是本发明的网络结构框图;
图2是本发明增强模块的结构流程图;
图3是一对模板与搜索区域样本图片;
图4是在GOT-10k测试数据集上不同算法的结果对比图。
具体实施方式
为了进一步更加的了解这个发明技术的各个部分,下面结合附图来做进一步的阐述与说明,让本发明更加的清楚明白。
如图1所示,包括下列步骤:
步骤一:数据预处理,为后续的网络模型训练提供数据准备;
步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中通过降低网络的损失函数来优化网络的参数,从而获得基于注意力的单目标网络架构的网络权重;
步骤三:模型的测试,在新的视频序列中,使用通过训练而获得的网络权重,来测试跟踪目标的效果。
其中所述的数据预处理具体操作包括如下内容:
S11、通过数据预处理操作将各数据集中的每张视频图片裁剪成一对固定的大小后放置于重新生成的文件夹里,文件夹中全是裁剪后用于训练的模板以及搜索区域的样本图片,其中模板图片Z大小为127×127,搜索区域图片X大小为511×511,见图3;
所述模型的训练包括下列步骤:
S21、将准备好的样本图片送入到网络模型中进行训练,此网络模型包括三个部分:一个是用于特征提取的孪生子网络,一个是嵌入模板图片与搜索区域图片信息的特征融合结构,一个是用于分类以及回归目标位置的分类回归子网络;
S22、第一部分是用于特征提取的孪生子网络,分别对模板图片Z以及搜索区域图片X进行特征的提取;主干网络是由两个分支共享相同的CNN结构,其中一分支目标模板Z作为输入,另一分支搜索区域X作为输入;通过主干网络得到两个特征映射,分别为模板图像特征图
Figure BDA0003891085950000051
以及搜索区域特征图
Figure BDA0003891085950000052
S23、第二部分是特征融合结构,用于嵌入目标模板以及搜索区域的特征;将主干网络输出的两分支特征图
Figure BDA0003891085950000053
以及
Figure BDA0003891085950000054
进行深度互相关来嵌入二者信息,将通过深度互相关得到的响应图R通过一个注意力机制,来提取需要关注的目标信息,以此来将更多的注意力关注于目标信息区域,最后将3、4、5层特征图
Figure BDA0003891085950000055
进行拼接的响应图Rall用于后续的分类回归子网络,深度互相关以及拼接式子分别定义如下:
Figure BDA0003891085950000061
上式表示深度互相关操作,其中
Figure BDA0003891085950000062
Figure BDA0003891085950000063
分别表示模板特征图以及搜索区域特征图;
Figure BDA0003891085950000064
其中,
Figure BDA0003891085950000065
分别表示主干网络3,4,5层输出特征图,通过深度互相关以及注意力机制的输出部分;
S24、第三部分是分类回归子网络,主要用于特征图位置分类以及目标位置的回归;首先响应图Rall中的每个位置(i,j)可以映射回搜索区域为(x,y),响应图Rall通过卷积会得到分类分支以及回归分支;分类分支会得到分类特征图
Figure BDA0003891085950000066
和中心特征图
Figure BDA0003891085950000067
分类特征图是用于预测每个位置的类别,分类特征图
Figure BDA0003891085950000068
上每个点(i,j,:)都包含一个2D向量,分别表示相应的前景和背景得分,在分类部分还增加了一个增强模块,辅助分类得更加准确;同时与该分类特征图并行的还有中心特征图,中心特征图
Figure BDA0003891085950000069
中给出每个像素点的中心的得分,得分高的就是中心位置,中心可以用于删除异常值,远离中心的位置往往会产生低质量的预测边界框;
S25、分类回归网络的回归分支输出回归特征图
Figure BDA00038910859500000610
回归特征图
Figure BDA00038910859500000611
每个点(i,j,:)都包含一个4D向量t(i,j)=(l,t,r,b),其表示从相应位置到输入搜索区域中边界框四边的距离,设(x0,y0)和(x1,y1)表示真值边界框的左上角和右下角,(x,y)表示点(i,j)对应位置。回归特征图上某个点
Figure BDA00038910859500000612
的回归目标
Figure BDA00038910859500000613
可以通过以下公式计算得到:
Figure BDA00038910859500000614
Figure BDA00038910859500000615
其中(x0,y0)和(x1,y1)表示真值边界框的左上角和右下角,
Figure BDA00038910859500000616
表示回归特征图上相应点
Figure BDA00038910859500000617
的回归目标,
Figure BDA00038910859500000618
分别表示回归特征图上点到边界框四边的距离;
S26、采用端到端的方式,对整个网络进行训练;其中分类部分的损失函数值为
Figure BDA00038910859500000619
边界框回归函数值为
Figure BDA00038910859500000620
中心度损失为
Figure BDA00038910859500000621
按照相应的权重值加权在一起,作为整个系统加权后的损失函数;
Figure BDA0003891085950000071
上式中,采用的交叉熵损失进行分类,IOU损失进行回归,以及还有中心度损失;
S27、根据损失函数
Figure BDA0003891085950000072
的计算梯度,再使用优化器SGD来更新网络的参数,让整个网络损失函数降低直到收敛,那么整个训练结束,得到训练好了的一种基于注意力的单目标跟踪的网络权重。
所述步骤S22中主干网络CNN采用的是改进过的Resnet-50,也就是移除了后两个卷积块中的下采样操作,并且使用空洞卷积,以此来增加感受野,具体来说就是通过修改conv4和conv5最后两块的有效步幅,将步幅设置为1;将conv4块的空洞率设置为2,conv5块的空洞率设置为4;在每一块后附加一个额外的1×1卷积层,使其输出信道减少到256,见表1。
表1对主干网络后三层参数的具体设置
Figure BDA0003891085950000073
所述步骤S23中,注意力机制中运用到的是自注意力self-attention,其式子如下:
Figure BDA0003891085950000074
式中Q代表查询值,K代表键值,V代表提取到的信息值,dk代表向量的长度,后续Q回和每个K值进行匹配,相当于是计算特征之间的相关性,再通过softmax函数进行归一化,得到了一个系数矩阵,相关性越大则对应V信息值得权重也就越大;
所述步骤S23中,将主干网络后3、4、5层的特征经过注意力机制之后的响应图拼接起来,目的是让特征具有更加丰富的语义信息,有更多的细节信息,有助于目标的精准定位;
所述步骤S24中增强模块如图2所示,具体是先经过卷积操作调整通道,再进行深度互相关操作嵌入信息,最后再通过卷积操作得到分类置信度辅助分类部分分类得更加准确;
所述步骤S26中λ1与λ2的取值分别为1和3。。
所述步骤三模型的测试包括以下的步骤:
S31、将训练好的权重参数,在未曾出现过的新的视频序列中测试跟踪效果。
在目标领域中,特征图的分辨率降低意味着目标的外观细节特征丢失,对相似度匹配不利,就容易发生跟踪错误的情况。本发明将主干网络输出的低层特征与高层特征结合,让最后的特征图在具有高级语义信息的同时补充一些细节信息。再者利用分类增强模块辅助分类分支,使其得到更加精准的目标定位信息。增加的设计可以让跟踪器在相似物干扰时,还能进行精准的跟踪。并且在测试对比实验中,本发明和其他方法相对比具有更加鲁棒的跟踪效果,并且在众多复杂的场景中都可以精准稳定的跟踪目标。
采用GOT-10k官网提供的数据进行训练网络模型,根据GOT-10k数据集的评测工具,测试该方法的训练效果。从表2中的数据可以发现,本发明所提出的单目标跟踪算法比其他算法训练出来的权重参数,在该数据测试数据上具有更优的表现。
表2对GOT-10k测试数据集的评价
Figure BDA0003891085950000081
为了有一个比较直接的视觉感官,将测试结果展示在视频序列上,并且与以前的一些算法进行比较,如下图4所示。不同的弧度灰度程度边界框代表了不同的跟踪算法在GOT-10k数据集上的测试结果。在第一个视频序列中,可以看出SiamRPN++算法跟踪错误,将岸边的形态误以为是船只和游艇一起框了起来;在第二个视频序列中可以看出,动物的颜色与周围的环境极其的相似,SiamRPN++和ECO都出现了跟踪的错误的情况,而SiamCAR只跟踪到了动物的头部,本发明的跟踪算法是将整个动物整体跟踪到了;在第三个视频序列中,ECO跟踪完全丢失,SiamRPN++跟踪到了物体的一部分,本发明提出的算法跟踪比较成功。因此,本发明提出的算法在不同的复杂场景,都能够有长期稳定的跟踪效果。
上述实施例为本发明最佳的实施方式,但本发明的实施方式不受上述实施例的限制,其他任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本方面的保护范围之内。更具体地说,在本申请公开、附图和权利要求的范围内,可以对主题组合布局的组成部件和/或布局进行多种变型和改进。

Claims (9)

1.一种基于注意力的单目标跟踪方法,其特征在于,包括下列步骤:
步骤一:数据预处理,为后续的网络模型训练提供数据准备;
步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中通过降低网络的损失函数来优化网络的参数,从而获得基于注意力的单目标网络架构的网络权重;
步骤三:模型的测试,在新的视频序列中,使用通过训练而获得的网络权重,来测试跟踪目标的效果。
2.根据权利要求1所述的一种基于注意力的单目标跟踪方法,其特征在于,所述步骤一中的数据预处理包括:
S11、通过数据预处理操作将各数据集中的每张视频图片裁剪成一对固定的大小后放置于重新生成的文件夹里,文件夹中全是裁剪后用于训练的模板以及搜索区域的样本图片,其中模板图片Z大小为127×127,搜索区域图片X大小为511×511。
3.根据权利要求1所述的一种基于注意力的单目标跟踪方法,其特征在于,所述步骤二中模型的训练包括下列步骤:
S21、将准备好的样本图片送入到网络模型中进行训练,此网络模型包括三个部分:一个是用于特征提取的孪生子网络,一个是嵌入模板图片与搜索区域图片信息的特征融合结构,一个是用于分类以及回归目标位置的分类回归子网络;
S22、第一部分是用于特征提取的孪生子网络,分别对模板图片Z以及搜索区域图片X进行特征的提取;主干网络是由两个分支共享相同的CNN结构,其中一分支目标模板Z作为输入,另一分支搜索区域X作为输入;通过主干网络得到两个特征映射,分别为模板图像特征图
Figure FDA0003891085940000011
以及搜索区域特征图
Figure FDA0003891085940000012
S23、第二部分是特征融合结构,用于嵌入目标模板以及搜索区域的特征;将主干网络输出的两分支特征图
Figure FDA0003891085940000013
以及
Figure FDA0003891085940000014
进行深度互相关来嵌入二者信息,将通过深度互相关得到的响应图R通过一个注意力机制,来提取需要关注的目标信息,以此来将更多的注意力关注于目标信息区域,最后将3、4、5层特征图
Figure FDA0003891085940000015
进行拼接的响应图Rall用于后续的分类回归子网络,深度互相关以及拼接式子分别定义如下:
Figure FDA0003891085940000016
上式表示深度互相关操作,其中
Figure FDA0003891085940000017
Figure FDA0003891085940000018
分别表示模板特征图以及搜索区域特征图;
Figure FDA0003891085940000021
其中,
Figure FDA0003891085940000022
分别表示主干网络3,4,5层输出特征图,通过深度互相关以及注意力机制的输出部分;
S24、第三部分是分类回归子网络,主要用于特征图位置分类以及目标位置的回归;首先响应图Rall中的每个位置(i,j)可以映射回搜索区域为(x,y),响应图Rall通过卷积会得到分类分支以及回归分支;分类分支会得到分类特征图
Figure FDA0003891085940000023
和中心特征图
Figure FDA0003891085940000024
分类特征图是用于预测每个位置的类别,分类特征图
Figure FDA0003891085940000025
上每个点(i,j,:)都包含一个2D向量,分别表示相应的前景和背景得分,在分类部分还增加了一个增强模块,辅助分类得更加准确;同时与该分类特征图并行的还有中心特征图,中心特征图
Figure FDA0003891085940000026
中给出每个像素点的中心的得分,得分高的就是中心位置,中心可以用于删除异常值,远离中心的位置往往会产生低质量的预测边界框;
S25、分类回归网络的回归分支输出回归特征图
Figure FDA0003891085940000027
回归特征图
Figure FDA0003891085940000028
每个点(i,j,:)都包含一个4D向量t(i,j)=(l,t,r,b),其表示从相应位置到输入搜索区域中边界框四边的距离,设(x0,y0)和(x1,y1)表示真值边界框的左上角和右下角,(x,y)表示点(i,j)对应位置,回归特征图上某个点
Figure FDA0003891085940000029
的回归目标
Figure FDA00038910859400000210
可以通过以下公式计算得到:
Figure FDA00038910859400000211
Figure FDA00038910859400000212
其中(x0,y0)和(x1,y1)表示真值边界框的左上角和右下角,
Figure FDA00038910859400000213
表示回归特征图上相应点
Figure FDA00038910859400000214
的回归目标,
Figure FDA00038910859400000215
分别表示回归特征图上点到边界框四边的距离;
S26、采用端到端的方式,对整个网络进行训练;其中分类部分的损失函数值为
Figure FDA00038910859400000216
边界框回归函数值为
Figure FDA00038910859400000217
中心度损失为
Figure FDA00038910859400000218
按照相应的权重值加权在一起,作为整个系统加权后的损失函数;
Figure FDA00038910859400000219
上式中,采用的交叉熵损失进行分类,IOU损失进行回归,以及还有中心度损失;
S27、根据损失函数
Figure FDA0003891085940000031
的计算梯度,再使用优化器SGD来更新网络的参数,让整个网络损失函数降低直到收敛,那么整个训练结束,得到训练好了的一种基于注意力的单目标跟踪的网络权重。
4.根据权利要求3所述的一种基于注意力的单目标跟踪方法,其特征在于:所述步骤S22中CNN网络采用的是改进过的Resnet-50,具体来说就是移除了两个卷积块中的下采样操作,并且使用空洞卷积,以此来增加感受野,通过修改conv4和conv5最后两块的有效步幅,将步幅设置为1;将conv4块的空洞率设置为2,conv5块的空洞率设置为4;在每一块后附加一个额外的1×1卷积层,使其输出信道减少到256。
5.根据权利要求3所述的一种基于注意力的单目标跟踪方法,其特征在于:所述步骤S23中,注意力机制中运用到的是自注意力self-attention,其式子如下:
Figure FDA0003891085940000032
其中Q代表查询值,K代表键值,V代表提取到的信息值,dk代表向量的长度,后续Q回和每个K值进行匹配,相当于是计算特征之间的相关性,再通过softmax函数进行归一化,得到了一个系数矩阵,相关性越大则对应V信息值得权重也就越大。
6.根据权利要求3所述的一种基于注意力的单目标跟踪方法,其特征在于:所述步骤S23中,将主干网络后3、4、5层的特征经过注意力机制之后的响应图拼接起来,目的是让特征具有更加丰富的语义信息,有更多的细节信息,有助于目标的精准定位。
7.根据权利要求3所述的一种基于注意力的单目标跟踪方法,其特征在于:所述步骤S24中增强模块具体是先经过卷积操作调整通道,再进行深度互相关操作嵌入信息,最后再通过卷积操作得到分类置信度辅助分类部分分类得更加准确。
8.根据权利要求3所述的一种基于注意力的单目标跟踪方法,其特征在于:所述步骤S26中λ1与λ2的取值分别为1和3。
9.根据权利要求1所述的一种基于注意力的单目标跟踪方法,其特征在于:所述步骤三模型的测试包括:
S31、将训练好的权重参数,在新的一段视频序列中测试跟踪效果。
CN202211263801.8A 2022-10-14 2022-10-14 一种基于注意力的单目标跟踪方法 Pending CN115564801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211263801.8A CN115564801A (zh) 2022-10-14 2022-10-14 一种基于注意力的单目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211263801.8A CN115564801A (zh) 2022-10-14 2022-10-14 一种基于注意力的单目标跟踪方法

Publications (1)

Publication Number Publication Date
CN115564801A true CN115564801A (zh) 2023-01-03

Family

ID=84767621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211263801.8A Pending CN115564801A (zh) 2022-10-14 2022-10-14 一种基于注意力的单目标跟踪方法

Country Status (1)

Country Link
CN (1) CN115564801A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109678A (zh) * 2023-04-10 2023-05-12 南昌工程学院 基于上下文自注意力学习深度网络的目标跟踪方法与系统
CN116486203A (zh) * 2023-04-24 2023-07-25 燕山大学 一种基于孪生网络和在线模板更新的单目标跟踪方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109678A (zh) * 2023-04-10 2023-05-12 南昌工程学院 基于上下文自注意力学习深度网络的目标跟踪方法与系统
CN116109678B (zh) * 2023-04-10 2023-06-13 南昌工程学院 基于上下文自注意力学习深度网络的目标跟踪方法与系统
CN116486203A (zh) * 2023-04-24 2023-07-25 燕山大学 一种基于孪生网络和在线模板更新的单目标跟踪方法
CN116486203B (zh) * 2023-04-24 2024-02-02 燕山大学 一种基于孪生网络和在线模板更新的单目标跟踪方法

Similar Documents

Publication Publication Date Title
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
CN115564801A (zh) 一种基于注意力的单目标跟踪方法
CN107657625A (zh) 融合时空多特征表示的无监督视频分割方法
Liang et al. Comparison detector for cervical cell/clumps detection in the limited data scenario
CN115205633A (zh) 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法
CN113269089B (zh) 基于深度学习的实时手势识别方法及系统
CN113628244A (zh) 基于无标注视频训练的目标跟踪方法、系统、终端及介质
CN108564582B (zh) 一种基于深度神经网络的mri脑肿瘤图像自动优化方法
CN112036419B (zh) 一种基于VGG-Attention模型的SAR图像部件解译方法
CN112801182A (zh) 一种基于困难样本感知的rgbt目标跟踪方法
CN117252904B (zh) 基于长程空间感知与通道增强的目标跟踪方法与系统
CN113033454A (zh) 一种城市视频摄像中建筑物变化的检测方法
CN112330718A (zh) 一种基于cnn的三级信息融合视觉目标跟踪方法
CN115512169A (zh) 基于梯度和区域亲和力优化的弱监督语义分割方法及装置
Yuan et al. Multi-branch bounding box regression for object detection
CN116597267B (zh) 图像识别方法、装置、计算机设备和存储介质
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN116342648A (zh) 基于混合结构注意力引导的孪生网络目标跟踪方法
CN115240084A (zh) 一种无人机跟踪方法、装置和计算机可读存储介质
CN115937654A (zh) 一种基于多层次特征融合的单目标跟踪方法
CN113887536A (zh) 一种基于高层语义引导的多阶段高效人群密度估计方法
CN116486203B (zh) 一种基于孪生网络和在线模板更新的单目标跟踪方法
CN117710663B (zh) 基于特征增强与级联融合注意力的目标跟踪方法与系统
Su et al. Object Detection Method for Autonomous Vehicles in Adverse Weather

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination