CN115564801A - 一种基于注意力的单目标跟踪方法 - Google Patents
一种基于注意力的单目标跟踪方法 Download PDFInfo
- Publication number
- CN115564801A CN115564801A CN202211263801.8A CN202211263801A CN115564801A CN 115564801 A CN115564801 A CN 115564801A CN 202211263801 A CN202211263801 A CN 202211263801A CN 115564801 A CN115564801 A CN 115564801A
- Authority
- CN
- China
- Prior art keywords
- network
- classification
- attention
- target
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于注意力的单目标跟踪方法,属于深度学习中的计算机视觉领域。包括数据预处理,模型的训练,将构造好的网络模型进行训练,在整个训练过程中通过降低网络的损失函数来优化网络的参数,从而获得基于注意力的单目标网络架构的网络权重;在新的视频序列中,使用通过训练而获得的网络权重,来测试跟踪目标的效果。优点是将主干网络输出的低层特征与高层特征结合,让最后的特征图在具有高级语义信息的同时补充一些细节信息;利用分类增强模块辅助分类分支,使其得到更加精准的目标定位信息,增加的设计可以让跟踪器在相似物干扰时,还能进行精准的跟踪,在众多复杂的场景中都可以精准稳定的跟踪目标。
Description
技术领域
本发明属于深度学习中的计算机视觉领域,尤其涉及一种基于注意力的单目标跟踪方法。
背景技术
目标跟踪一直是计算机视觉领域热门研究方向,在人机交互、智能控制、自动导航以及安全监控等领域都有着广泛的应用。虽然现如今,跟踪方法虽然已经取得了一定的成就,但在面临光照变化、非刚性变形以及相似物干扰等复杂场景时,跟踪器的跟踪效果会产生一定的影响。因此,能够实现长期稳定并且精准的目标跟踪依旧是一场具有挑战性的任务。
目前主流的目标跟踪器大多都是基于孪生网络架构。该网络架构它将目标跟踪问题转化为匹配问题,通过目标模板与搜索区域的互相关操作来学习一般相似度映射。SINT是首个将孪生网络运用在目标跟踪上,将目标跟踪问题转换成一个图像块匹配问题。同年,Bertinetto等人提出SiamFC,提出一种新的全卷积孪生网络作为基本的跟踪算法,高速的同时保证了一定的准确度。SiamRPN借鉴了区域推荐网络RPN,在孪生网络提取特征后将特征图送入分类分支和回归分支,使跟踪器可以回归目标位置、形状。之后的DaSiamRPN、C-RPN、SiamRPN++等方法都对SiamRPN做出了不同的改进。几乎所有当前先进的跟踪器都是使用互相关来进行信息嵌入,尽管这些跟踪器已经取得了良好的跟踪性能,但在面对相似物干扰、光照变化等复杂场景时仍会出现目标跟踪错误的情况。在对现有的跟踪器分析得到以下两个结论:(1)对于大多数基于孪生网络的跟踪器(如SiamFC、SiamRPN和ATOM),都是通过目标与搜索区域进行卷积互相关操作来实现相似度学习的。然而,这样的方法本身是一个简单的线性匹配过程,会导致语义信息丢失(2)由孪生网络的相似性映射产生的互相关联特征容易受到搜索区域内相似物体的干扰。
发明内容
本发明提供一种基于注意力的单目标跟踪方法,在基于深度学习的方法中,鉴于现有的一些先进孪生网络的单目标跟踪器存在上述的缺陷,通过基于注意力来突出所需要关注的目标信息,并且在回归部分增加了分类增强模块辅助分类部分分类得更加准确,从而促使后续的分类回归子网络对目标进行更加精确地定位和边界盒回归。
本发明采取的技术方案是,包括下列步骤:
步骤一:数据预处理,为后续的网络模型训练提供数据准备;
步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中通过降低网络的损失函数来优化网络的参数,从而获得基于注意力的单目标网络架构的网络权重;
步骤三:模型的测试,在新的视频序列中,使用通过训练而获得的网络权重,来测试跟踪目标的效果。
本发明所述步骤一中的数据预处理包括:
S11、通过数据预处理操作将各数据集中的每张视频图片裁剪成一对固定的大小后放置于重新生成的文件夹里,文件夹中全是裁剪后用于训练的模板以及搜索区域的样本图片,其中模板图片Z大小为127×127,搜索区域图片X大小为511×511。
本发明所述步骤二中模型的训练包括下列步骤:
S21、将准备好的样本图片送入到网络模型中进行训练,此网络模型包括三个部分:一个是用于特征提取的孪生子网络,一个是嵌入模板图片与搜索区域图片信息的特征融合结构,一个是用于分类以及回归目标位置的分类回归子网络;
S22、第一部分是用于特征提取的孪生子网络,分别对模板图片Z以及搜索区域图片X进行特征的提取;主干网络是由两个分支共享相同的CNN结构,其中一分支目标模板Z作为输入,另一分支搜索区域X作为输入;通过主干网络得到两个特征映射,分别为模板图像特征图以及搜索区域特征图
S23、第二部分是特征融合结构,用于嵌入目标模板以及搜索区域的特征;将主干网络输出的两分支特征图以及进行深度互相关来嵌入二者信息,将通过深度互相关得到的响应图R通过一个注意力机制,来提取需要关注的目标信息,以此来将更多的注意力关注于目标信息区域,最后将3、4、5层特征图进行拼接的响应图Rall用于后续的分类回归子网络,深度互相关以及拼接式子分别定义如下:
S24、第三部分是分类回归子网络,主要用于特征图位置分类以及目标位置的回归;首先响应图Rall中的每个位置(i,j)可以映射回搜索区域为(x,y),响应图Rall通过卷积会得到分类分支以及回归分支;分类分支会得到分类特征图和中心特征图分类特征图是用于预测每个位置的类别,分类特征图上每个点(i,j,:)都包含一个2D向量,分别表示相应的前景和背景得分,在分类部分还增加了一个增强模块,辅助分类得更加准确;同时与该分类特征图并行的还有中心特征图,中心特征图中给出每个像素点的中心的得分,得分高的就是中心位置,中心可以用于删除异常值,远离中心的位置往往会产生低质量的预测边界框;
S25、分类回归网络的回归分支输出回归特征图回归特征图每个点(i,j,:)都包含一个4D向量t(i,j)=(l,t,r,b),其表示从相应位置到输入搜索区域中边界框四边的距离,设(x0,y0)和(x1,y1)表示真值边界框的左上角和右下角,(x,y)表示点(i,j)对应位置,回归特征图上某个点的回归目标可以通过以下公式计算得到:
上式中,采用的交叉熵损失进行分类,IOU损失进行回归,以及还有中心度损失;
本发明所述步骤S22中CNN网络采用的是改进过的Resnet-50,具体来说就是移除了两个卷积块中的下采样操作,并且使用空洞卷积,以此来增加感受野,通过修改conv4和conv5最后两块的有效步幅,将步幅设置为1;将conv4块的空洞率设置为2,conv5块的空洞率设置为4;在每一块后附加一个额外的1×1卷积层,使其输出信道减少到256。
本发明所述步骤S23中,注意力机制中运用到的是自注意力self-attention,其式子如下:
其中Q代表查询值,K代表键值,V代表提取到的信息值,dk代表向量的长度,后续Q回和每个K值进行匹配,相当于是计算特征之间的相关性,再通过softmax函数进行归一化,得到了一个系数矩阵,相关性越大则对应V信息值得权重也就越大。
本发明所述步骤S23中,将主干网络后3、4、5层的特征经过注意力机制之后的响应图拼接起来,目的是让特征具有更加丰富的语义信息,有更多的细节信息,有助于目标的精准定位。
本发明所述步骤S24中增强模块具体是先经过卷积操作调整通道,再进行深度互相关操作嵌入信息,最后再通过卷积操作得到分类置信度辅助分类部分分类得更加准确。
本发明所述步骤S26中λ1与λ2的取值分别为1和3。
本发明所述步骤三模型的测试包括:
S31、将训练好的权重参数,在新的一段视频序列中测试跟踪效果。
在目标领域中,特征图的分辨率降低意味着目标的外观细节特征丢失,对相似度匹配不利,就容易发生跟踪错误的情况。本发明利用注意力来突出目标信息,并且该方法使用上下文信息增强原始特征;并且将使用到了主干网络的后三层特征图的输出,添加了一些细节细节信息,使提取到的特征更加的丰富。
本发明的优点是,本发明将主干网络输出的低层特征与高层特征结合,让最后的特征图在具有高级语义信息的同时补充一些细节信息;再者利用分类增强模块辅助分类分支,使其得到更加精准的目标定位信息,增加的设计可以让跟踪器在相似物干扰时,还能进行精准的跟踪,并且在测试对比实验中,本发明和其他方法相对比具有更加鲁棒的跟踪效果,并且在众多复杂的场景中都可以精准稳定的跟踪目标。
附图说明
图1是本发明的网络结构框图;
图2是本发明增强模块的结构流程图;
图3是一对模板与搜索区域样本图片;
图4是在GOT-10k测试数据集上不同算法的结果对比图。
具体实施方式
为了进一步更加的了解这个发明技术的各个部分,下面结合附图来做进一步的阐述与说明,让本发明更加的清楚明白。
如图1所示,包括下列步骤:
步骤一:数据预处理,为后续的网络模型训练提供数据准备;
步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中通过降低网络的损失函数来优化网络的参数,从而获得基于注意力的单目标网络架构的网络权重;
步骤三:模型的测试,在新的视频序列中,使用通过训练而获得的网络权重,来测试跟踪目标的效果。
其中所述的数据预处理具体操作包括如下内容:
S11、通过数据预处理操作将各数据集中的每张视频图片裁剪成一对固定的大小后放置于重新生成的文件夹里,文件夹中全是裁剪后用于训练的模板以及搜索区域的样本图片,其中模板图片Z大小为127×127,搜索区域图片X大小为511×511,见图3;
所述模型的训练包括下列步骤:
S21、将准备好的样本图片送入到网络模型中进行训练,此网络模型包括三个部分:一个是用于特征提取的孪生子网络,一个是嵌入模板图片与搜索区域图片信息的特征融合结构,一个是用于分类以及回归目标位置的分类回归子网络;
S22、第一部分是用于特征提取的孪生子网络,分别对模板图片Z以及搜索区域图片X进行特征的提取;主干网络是由两个分支共享相同的CNN结构,其中一分支目标模板Z作为输入,另一分支搜索区域X作为输入;通过主干网络得到两个特征映射,分别为模板图像特征图以及搜索区域特征图
S23、第二部分是特征融合结构,用于嵌入目标模板以及搜索区域的特征;将主干网络输出的两分支特征图以及进行深度互相关来嵌入二者信息,将通过深度互相关得到的响应图R通过一个注意力机制,来提取需要关注的目标信息,以此来将更多的注意力关注于目标信息区域,最后将3、4、5层特征图进行拼接的响应图Rall用于后续的分类回归子网络,深度互相关以及拼接式子分别定义如下:
S24、第三部分是分类回归子网络,主要用于特征图位置分类以及目标位置的回归;首先响应图Rall中的每个位置(i,j)可以映射回搜索区域为(x,y),响应图Rall通过卷积会得到分类分支以及回归分支;分类分支会得到分类特征图和中心特征图分类特征图是用于预测每个位置的类别,分类特征图上每个点(i,j,:)都包含一个2D向量,分别表示相应的前景和背景得分,在分类部分还增加了一个增强模块,辅助分类得更加准确;同时与该分类特征图并行的还有中心特征图,中心特征图中给出每个像素点的中心的得分,得分高的就是中心位置,中心可以用于删除异常值,远离中心的位置往往会产生低质量的预测边界框;
S25、分类回归网络的回归分支输出回归特征图回归特征图每个点(i,j,:)都包含一个4D向量t(i,j)=(l,t,r,b),其表示从相应位置到输入搜索区域中边界框四边的距离,设(x0,y0)和(x1,y1)表示真值边界框的左上角和右下角,(x,y)表示点(i,j)对应位置。回归特征图上某个点的回归目标可以通过以下公式计算得到:
上式中,采用的交叉熵损失进行分类,IOU损失进行回归,以及还有中心度损失;
所述步骤S22中主干网络CNN采用的是改进过的Resnet-50,也就是移除了后两个卷积块中的下采样操作,并且使用空洞卷积,以此来增加感受野,具体来说就是通过修改conv4和conv5最后两块的有效步幅,将步幅设置为1;将conv4块的空洞率设置为2,conv5块的空洞率设置为4;在每一块后附加一个额外的1×1卷积层,使其输出信道减少到256,见表1。
表1对主干网络后三层参数的具体设置
所述步骤S23中,注意力机制中运用到的是自注意力self-attention,其式子如下:
式中Q代表查询值,K代表键值,V代表提取到的信息值,dk代表向量的长度,后续Q回和每个K值进行匹配,相当于是计算特征之间的相关性,再通过softmax函数进行归一化,得到了一个系数矩阵,相关性越大则对应V信息值得权重也就越大;
所述步骤S23中,将主干网络后3、4、5层的特征经过注意力机制之后的响应图拼接起来,目的是让特征具有更加丰富的语义信息,有更多的细节信息,有助于目标的精准定位;
所述步骤S24中增强模块如图2所示,具体是先经过卷积操作调整通道,再进行深度互相关操作嵌入信息,最后再通过卷积操作得到分类置信度辅助分类部分分类得更加准确;
所述步骤S26中λ1与λ2的取值分别为1和3。。
所述步骤三模型的测试包括以下的步骤:
S31、将训练好的权重参数,在未曾出现过的新的视频序列中测试跟踪效果。
在目标领域中,特征图的分辨率降低意味着目标的外观细节特征丢失,对相似度匹配不利,就容易发生跟踪错误的情况。本发明将主干网络输出的低层特征与高层特征结合,让最后的特征图在具有高级语义信息的同时补充一些细节信息。再者利用分类增强模块辅助分类分支,使其得到更加精准的目标定位信息。增加的设计可以让跟踪器在相似物干扰时,还能进行精准的跟踪。并且在测试对比实验中,本发明和其他方法相对比具有更加鲁棒的跟踪效果,并且在众多复杂的场景中都可以精准稳定的跟踪目标。
采用GOT-10k官网提供的数据进行训练网络模型,根据GOT-10k数据集的评测工具,测试该方法的训练效果。从表2中的数据可以发现,本发明所提出的单目标跟踪算法比其他算法训练出来的权重参数,在该数据测试数据上具有更优的表现。
表2对GOT-10k测试数据集的评价
为了有一个比较直接的视觉感官,将测试结果展示在视频序列上,并且与以前的一些算法进行比较,如下图4所示。不同的弧度灰度程度边界框代表了不同的跟踪算法在GOT-10k数据集上的测试结果。在第一个视频序列中,可以看出SiamRPN++算法跟踪错误,将岸边的形态误以为是船只和游艇一起框了起来;在第二个视频序列中可以看出,动物的颜色与周围的环境极其的相似,SiamRPN++和ECO都出现了跟踪的错误的情况,而SiamCAR只跟踪到了动物的头部,本发明的跟踪算法是将整个动物整体跟踪到了;在第三个视频序列中,ECO跟踪完全丢失,SiamRPN++跟踪到了物体的一部分,本发明提出的算法跟踪比较成功。因此,本发明提出的算法在不同的复杂场景,都能够有长期稳定的跟踪效果。
上述实施例为本发明最佳的实施方式,但本发明的实施方式不受上述实施例的限制,其他任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本方面的保护范围之内。更具体地说,在本申请公开、附图和权利要求的范围内,可以对主题组合布局的组成部件和/或布局进行多种变型和改进。
Claims (9)
1.一种基于注意力的单目标跟踪方法,其特征在于,包括下列步骤:
步骤一:数据预处理,为后续的网络模型训练提供数据准备;
步骤二:模型的训练,将构造好的网络模型进行训练,在整个训练过程中通过降低网络的损失函数来优化网络的参数,从而获得基于注意力的单目标网络架构的网络权重;
步骤三:模型的测试,在新的视频序列中,使用通过训练而获得的网络权重,来测试跟踪目标的效果。
2.根据权利要求1所述的一种基于注意力的单目标跟踪方法,其特征在于,所述步骤一中的数据预处理包括:
S11、通过数据预处理操作将各数据集中的每张视频图片裁剪成一对固定的大小后放置于重新生成的文件夹里,文件夹中全是裁剪后用于训练的模板以及搜索区域的样本图片,其中模板图片Z大小为127×127,搜索区域图片X大小为511×511。
3.根据权利要求1所述的一种基于注意力的单目标跟踪方法,其特征在于,所述步骤二中模型的训练包括下列步骤:
S21、将准备好的样本图片送入到网络模型中进行训练,此网络模型包括三个部分:一个是用于特征提取的孪生子网络,一个是嵌入模板图片与搜索区域图片信息的特征融合结构,一个是用于分类以及回归目标位置的分类回归子网络;
S22、第一部分是用于特征提取的孪生子网络,分别对模板图片Z以及搜索区域图片X进行特征的提取;主干网络是由两个分支共享相同的CNN结构,其中一分支目标模板Z作为输入,另一分支搜索区域X作为输入;通过主干网络得到两个特征映射,分别为模板图像特征图以及搜索区域特征图
S23、第二部分是特征融合结构,用于嵌入目标模板以及搜索区域的特征;将主干网络输出的两分支特征图以及进行深度互相关来嵌入二者信息,将通过深度互相关得到的响应图R通过一个注意力机制,来提取需要关注的目标信息,以此来将更多的注意力关注于目标信息区域,最后将3、4、5层特征图进行拼接的响应图Rall用于后续的分类回归子网络,深度互相关以及拼接式子分别定义如下:
S24、第三部分是分类回归子网络,主要用于特征图位置分类以及目标位置的回归;首先响应图Rall中的每个位置(i,j)可以映射回搜索区域为(x,y),响应图Rall通过卷积会得到分类分支以及回归分支;分类分支会得到分类特征图和中心特征图分类特征图是用于预测每个位置的类别,分类特征图上每个点(i,j,:)都包含一个2D向量,分别表示相应的前景和背景得分,在分类部分还增加了一个增强模块,辅助分类得更加准确;同时与该分类特征图并行的还有中心特征图,中心特征图中给出每个像素点的中心的得分,得分高的就是中心位置,中心可以用于删除异常值,远离中心的位置往往会产生低质量的预测边界框;
S25、分类回归网络的回归分支输出回归特征图回归特征图每个点(i,j,:)都包含一个4D向量t(i,j)=(l,t,r,b),其表示从相应位置到输入搜索区域中边界框四边的距离,设(x0,y0)和(x1,y1)表示真值边界框的左上角和右下角,(x,y)表示点(i,j)对应位置,回归特征图上某个点的回归目标可以通过以下公式计算得到:
上式中,采用的交叉熵损失进行分类,IOU损失进行回归,以及还有中心度损失;
4.根据权利要求3所述的一种基于注意力的单目标跟踪方法,其特征在于:所述步骤S22中CNN网络采用的是改进过的Resnet-50,具体来说就是移除了两个卷积块中的下采样操作,并且使用空洞卷积,以此来增加感受野,通过修改conv4和conv5最后两块的有效步幅,将步幅设置为1;将conv4块的空洞率设置为2,conv5块的空洞率设置为4;在每一块后附加一个额外的1×1卷积层,使其输出信道减少到256。
6.根据权利要求3所述的一种基于注意力的单目标跟踪方法,其特征在于:所述步骤S23中,将主干网络后3、4、5层的特征经过注意力机制之后的响应图拼接起来,目的是让特征具有更加丰富的语义信息,有更多的细节信息,有助于目标的精准定位。
7.根据权利要求3所述的一种基于注意力的单目标跟踪方法,其特征在于:所述步骤S24中增强模块具体是先经过卷积操作调整通道,再进行深度互相关操作嵌入信息,最后再通过卷积操作得到分类置信度辅助分类部分分类得更加准确。
8.根据权利要求3所述的一种基于注意力的单目标跟踪方法,其特征在于:所述步骤S26中λ1与λ2的取值分别为1和3。
9.根据权利要求1所述的一种基于注意力的单目标跟踪方法,其特征在于:所述步骤三模型的测试包括:
S31、将训练好的权重参数,在新的一段视频序列中测试跟踪效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211263801.8A CN115564801A (zh) | 2022-10-14 | 2022-10-14 | 一种基于注意力的单目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211263801.8A CN115564801A (zh) | 2022-10-14 | 2022-10-14 | 一种基于注意力的单目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115564801A true CN115564801A (zh) | 2023-01-03 |
Family
ID=84767621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211263801.8A Pending CN115564801A (zh) | 2022-10-14 | 2022-10-14 | 一种基于注意力的单目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115564801A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109678A (zh) * | 2023-04-10 | 2023-05-12 | 南昌工程学院 | 基于上下文自注意力学习深度网络的目标跟踪方法与系统 |
CN116486203A (zh) * | 2023-04-24 | 2023-07-25 | 燕山大学 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
-
2022
- 2022-10-14 CN CN202211263801.8A patent/CN115564801A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109678A (zh) * | 2023-04-10 | 2023-05-12 | 南昌工程学院 | 基于上下文自注意力学习深度网络的目标跟踪方法与系统 |
CN116109678B (zh) * | 2023-04-10 | 2023-06-13 | 南昌工程学院 | 基于上下文自注意力学习深度网络的目标跟踪方法与系统 |
CN116486203A (zh) * | 2023-04-24 | 2023-07-25 | 燕山大学 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
CN116486203B (zh) * | 2023-04-24 | 2024-02-02 | 燕山大学 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460968B (zh) | 基于视频的无人机识别与跟踪方法及装置 | |
CN115564801A (zh) | 一种基于注意力的单目标跟踪方法 | |
CN107657625A (zh) | 融合时空多特征表示的无监督视频分割方法 | |
Liang et al. | Comparison detector for cervical cell/clumps detection in the limited data scenario | |
CN115205633A (zh) | 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 | |
CN113269089B (zh) | 基于深度学习的实时手势识别方法及系统 | |
CN113628244A (zh) | 基于无标注视频训练的目标跟踪方法、系统、终端及介质 | |
CN108564582B (zh) | 一种基于深度神经网络的mri脑肿瘤图像自动优化方法 | |
CN112036419B (zh) | 一种基于VGG-Attention模型的SAR图像部件解译方法 | |
CN112801182A (zh) | 一种基于困难样本感知的rgbt目标跟踪方法 | |
CN117252904B (zh) | 基于长程空间感知与通道增强的目标跟踪方法与系统 | |
CN113033454A (zh) | 一种城市视频摄像中建筑物变化的检测方法 | |
CN112330718A (zh) | 一种基于cnn的三级信息融合视觉目标跟踪方法 | |
CN115512169A (zh) | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 | |
Yuan et al. | Multi-branch bounding box regression for object detection | |
CN116597267B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN116342648A (zh) | 基于混合结构注意力引导的孪生网络目标跟踪方法 | |
CN115240084A (zh) | 一种无人机跟踪方法、装置和计算机可读存储介质 | |
CN115937654A (zh) | 一种基于多层次特征融合的单目标跟踪方法 | |
CN113887536A (zh) | 一种基于高层语义引导的多阶段高效人群密度估计方法 | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
CN117710663B (zh) | 基于特征增强与级联融合注意力的目标跟踪方法与系统 | |
Su et al. | Object Detection Method for Autonomous Vehicles in Adverse Weather |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |