CN114119669A - 一种基于Shuffle注意力的图匹配目标跟踪方法与系统 - Google Patents
一种基于Shuffle注意力的图匹配目标跟踪方法与系统 Download PDFInfo
- Publication number
- CN114119669A CN114119669A CN202111438516.0A CN202111438516A CN114119669A CN 114119669 A CN114119669 A CN 114119669A CN 202111438516 A CN202111438516 A CN 202111438516A CN 114119669 A CN114119669 A CN 114119669A
- Authority
- CN
- China
- Prior art keywords
- sub
- features
- feature
- target
- search area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于Shuffle注意力的图匹配目标跟踪方法与系统,该方法包括:基于卷积神经网络与Shuffle注意力模块建立特征提取主干网络;建立目标跟踪算法模型;采用离线方式对目标跟踪算法模型进行端对端训练;初始化视频序列的第一帧以获取目标模板图像,在后续帧中以前一帧目标中心位置的预设倍大小截取搜索区域图像,并将目标模板图像以及搜索区域图像送入到特征提取主干网络中以获得深度特征;对深度特征进行图匹配操作,以获得相似性得分图;对相似性得分图进行前景与背景的区别以及预测框的角点进行调整,以确定最终的目标跟踪位置。本发明具有很好的鲁棒性与实时性,实现良好的目标图像跟踪效果。
Description
技术领域
本发明涉及计算机视觉与数字图像处理技术领域,特别涉及一种基于Shuffle注意力的图匹配目标跟踪方法与系统。
背景技术
近年来,视觉跟踪是计算机视觉中的重要研究课题之一,视觉跟踪的目的是在给定被跟踪目标在视频第一帧中的初始状态后,通过对目标表观以及运动信息建模,确定目标在后续帧中的位置和尺度变化。特别在最近几年,随着深度学习的飞速发展,目标跟踪领域也随之取得了很大的进展。然而,在复杂场景下,实现鲁棒与准确的目标跟踪仍然极具挑战,例如需要解决遮挡、运动模糊、尺度变化以及光照变化等一系列因素带来的影响。
具体而言,视觉跟踪算法一般包括两类:一种是基于生成式模型的跟踪算法,另一种是基于判别式模型的视觉目标跟踪算法。1、基于生成式模型的跟踪算法,将跟踪问题转化为在搜索区域寻找最适合的候选样本,搜索区域通常由初始帧目标的位置和大小决定。早期的跟踪算法大多以生成式模型为主,具体包括光流法、均值偏移以及稀疏表示等。2、基于判别式模型的视觉目标跟踪算法,将跟踪问题视为一个二分类问题,同时将前景和背景考虑进去训练一个分类器,将分类器置信度最高的为区域视为当前帧的目标位置,同时在跟踪过程中,将前一帧的结果作为样本更新分类器,这类方法也被称为tracking-by-detection法。
目前,基于深度学习的目标跟踪算法主要是充分利用深度特征强大的表征能力,并在目标跟踪领域取得了巨大的成功。在常见的测试数据库OTB2015以及VOT上,这几年深度学习跟踪算法占据了领先地位。然而,现有技术中,部分视觉跟踪算法的表观模型鲁棒性与精确度均不是很理想,无法很好地处理低分辨率、复杂背景、光照变化、以及遮挡等外观变化所带来的影响。
发明内容
鉴于上述状况,有必要解决现有技术中,部分视觉跟踪算法的表观模型鲁棒性与精确度均不是很理想,无法很好地处理低分辨率、复杂背景、光照变化、以及遮挡等外观变化所带来的影响。
本发明实施例提供了一种基于Shuffle注意力的图匹配目标跟踪方法,其中,所述方法包括如下步骤:
步骤一:基于卷积神经网络与Shuffle注意力模块建立特征提取主干网络,所述特征提取主干网络用于对目标模板图像以及搜索区域图像进行深度特征提取;
步骤二:根据所述特征提取主干网络、图匹配网络、分类子网络以及回归子网络建立得到目标跟踪算法模型;
步骤三:对目标跟踪数据集进行预处理,在每个数据迭代周期内动态调整学习率,并采用离线方式对所述目标跟踪算法模型进行端对端训练;
步骤四:在进行过端对端训练的目标跟踪算法模型中,初始化视频序列的第一帧以获取目标模板图像,在后续帧中以前一帧目标中心位置的预设倍大小截取搜索区域图像,并将所获得的目标模板图像以及搜索区域图像送入到所述特征提取主干网络中以获得深度特征;
步骤五:对目标模板图像和搜索区域图像的深度特征进行图匹配操作,以获得目标模板图像与搜索区域图像之间的相似性得分图;
步骤六:利用所述分类子网络对相似性得分图进行前景与背景的区别,利用所述回归子网络对相似性得分图中预测框的角点进行调整,直至所述视频序列结束以确定最终的目标跟踪位置。
本发明提出的一种基于Shuffle注意力的图匹配目标跟踪方法,联合卷积神经网络与Shuffle注意力模型,充分挖掘空间方向与通道方向之间的特征相关性,以获取得到更为稀疏以及更为鲁棒的深度特征;此外,通过图注意力匹配对目标模板图像特征和搜索区域图像特征进行相似性得分计算,并利用分类子网络和回归子网络对预测框进行精细化调整,以确定最终的目标跟踪位置。本发明所提出的基于Shuffle注意力的图匹配目标跟踪方法,具有很好的鲁棒性与实时性,可更好地处理外观变化,包括遮挡、光照变化以及运动模糊等,最终可实现良好的目标图像的跟踪效果。
所述一种基于Shuffle注意力的图匹配目标跟踪方法,其中,在所述步骤一中,利用特征提取主干网络对目标模板图像以及搜索区域图像进行深度特征提取的方法包括如下步骤:
通过所述卷积神经网络对目标模板图像以及搜索区域图像进行深度特征提取;
通过Shuffle注意力模块分别从通道方向以及空间方向对所述深度特征进行特征挖掘。
所述一种基于Shuffle注意力的图匹配目标跟踪方法,其中,所述通过Shuffle注意力模块分别从通道方向以及空间方向对所述深度特征进行特征挖掘的方法包括如下步骤:
通过所述Shuffle注意力模型对所述深度特征沿通道方向划分为D组子特征;
在划分为D组子特征后,将每一组子特征划分为两部分,包括第一部分子特征以及第二部分子特征;
利用全局平均池化对所述第一部分子特征进行尺寸调整,然后通过线性变换挖掘通道间线索以得到特征挖掘后的第一部分子特征;
通过组归一化对所述第二部分子特征沿空间方向进行挖掘以得到特征挖掘后的第二部分子特征;
将所述特征挖掘后的第一部分子特征以及所述特征挖掘后的第二部分子特征沿通道方向进行重组,以得到特征挖掘后的子特征。
所述一种基于Shuffle注意力的图匹配目标跟踪方法,其中,通过所述Shuffle注意力模型对所述深度特征沿通道方向划分为D组子特征,具体表示为:
其中,rk表示第k组子特征,k∈{1,2,...,D}D表示子特征的组数;
在划分为D组子特征后,将每一组子特征划分为两部分,包括第一部分子特征rka以及第二部分子特征rkb,即rk=[rka,rka];
利用全局平均池化对第一部分子特征rka进行尺寸调整,具体表示为:
其中,r’ka表示经尺寸调整后的第一部分子特征,m与n分别表示空间位置的横坐标与纵坐标。
通过线性变换挖掘通道间线索以得到特征挖掘后的第一部分子特征,具体表示为:
r″ka=σ(w1r′ka+b)·rka
其中,r″ka表示特征挖掘后的第一部分子特征,w1和b分别表示特征尺度缩放以及偏移量,σ为激活函数。
所述一种基于Shuffle注意力的图匹配目标跟踪方法,其中,通过组归一化对第二部分子特征rkb沿空间方向进行挖掘以得到特征挖掘后的第二部分子特征r″kb,具体表示为:
r″kb=σ(w2GN(rkb)+b)·rkb
其中,w2表示特征尺度缩放,GN表示组归一化;
将所述特征挖掘后的第一部分子特征以及所述特征挖掘后的第二部分子特征沿通道方向进行重组,以得到特征挖掘后的子特征,具体表示为:
r″k=[r″ka,r″kb]
其中,r″k表示特征挖掘后的子特征。
所述一种基于Shuffle注意力的图匹配目标跟踪方法,其中,通过特征提取主干网络提取得到的深度特征包括目标模板深度特征Ft以及搜索区域深度特征Fs,令Vt包括目标模板深度特征Ft表示的所有节点,Vs包括搜索区域深度特征Fs表示的所有节点;
其中,V表示目标模板图像与搜索区域图像的节点集,E表示以目标模板图像与搜索区域图像顶点连线的边集,u表示目标模板图像中的节点元素,v表示搜索区域图像中的节点元素。
所述一种基于Shuffle注意力的图匹配目标跟踪方法,其中,对于搜索区域i节点以及目标模板j节点之间对应的所述关联分数表示为:
其中,Ws和Wt均为不同的线性变换矩阵,T为转置操作。
所述一种基于Shuffle注意力的图匹配目标跟踪方法,其中,所述方法还包括:
利用softmax函数对所述关联分数进行归一化处理以到节点间权重值,具体表示为:
其中,aij表示跟踪器根据目标模板j节点给予搜索区域i节点的节点间权重值,eik表示搜索区域i节点与目标模板k节点之间的相似性分数;
通过所述节点间权重值计算得到目标模板子完全二分图Gt中所有节点信息在搜索区域子完全二分图Gs中的节点聚合,具体表示为:
其中,Vi表示目标模板子完全二分图Gt中所有节点信息在搜索区域子完全二分图Gs中的第i个节点聚合表示特征,Wv表示线性变换矩阵,目标模板子完全二分图Gt=(Vt,φ),搜索区域子完全二分图Gs=(Vs,φ),φ表示空集;
本发明还提出一种基于Shuffle注意力的图匹配目标跟踪系统,其中,所述系统包括:
第一构建模块,用于基于卷积神经网络与Shume注意力模块建立特征提取主干网络,所述特征提取主干网络用于对目标模板图像以及搜索区域图像进行深度特征提取;
第二构建模块,用于根据所述特征提取主干网络、图匹配网络、分类子网络以及回归子网络建立得到目标跟踪算法模型;
第一训练模块,用于对目标跟踪数据集进行预处理,在每个数据迭代周期内动态调整学习率,并采用离线方式对所述目标跟踪算法模型进行端对端训练;
特征提取模块,用于在进行过端对端训练的目标跟踪算法模型中,初始化视频序列的第一帧以获取目标模板图像,在后续帧中以前一帧目标中心位置的预设倍大小截取搜索区域图像,并将所获得的目标模板图像以及搜索区域图像送入到所述特征提取主干网络中以获得深度特征;
得分计算模块,用于对目标模板图像和搜索区域图像的深度特征进行图匹配操作,以获得目标模板图像与搜索区域图像之间的相似性得分图;
目标跟踪模块,用于利用所述分类子网络对相似性得分图进行前景与背景的区别,利用所述回归子网络对相似性得分图中预测框的角点进行调整,直至所述视频序列结束以确定最终的目标跟踪位置。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于Shuffle注意力的图匹配目标跟踪方法的流程图;
图2为本发明提出的基于Shuffle注意力的图匹配目标跟踪系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
现有技术中,部分视觉跟踪算法的表观模型鲁棒性与精确度均不是很理想,无法很好地处理低分辨率、复杂背景、光照变化、以及遮挡等外观变化所带来的影响。
为了解决这一技术问题,本发明提出一种基于Shuffle注意力的图匹配目标跟踪方法,请参阅图1,该方法包括如下步骤:
S101,基于卷积神经网络与Shuffle注意力模块建立特征提取主干网络,所述特征提取主干网络用于对目标模板图像以及搜索区域图像进行深度特征提取。
在本步骤中,利用特征提取主干网络对目标模板图像以及搜索区域图像进行深度特征提取的方法包括如下步骤:
S1011,通过所述卷积神经网络对目标模板图像以及搜索区域图像进行深度特征提取。
S1012,通过Shuffle注意力模块分别从通道方向以及空间方向对所述深度特征进行特征挖掘。
具体的,通过Shuffle注意力模块分别从通道方向以及空间方向对所述深度特征进行特征挖掘的方法包括如下步骤:
S1012a,通过所述Shuffle注意力模型对所述深度特征沿通道方向划分为D组子特征。
具体表示为:
其中,rk表示第k组子特征,k∈{1,2,...,D},D表示子特征的组数。
S1012b,在划分为D组子特征后,将每一组子特征划分为两部分,包括第一部分子特征以及第二部分子特征。
具体的,在划分为D组子特征后,将每一组子特征划分为两部分,包括第一部分子特征rka以及第二部分子特征rkb,即rk=[rka,rkb]。
S1012c,利用全局平均池化对所述第一部分子特征进行尺寸调整,然后通过线性变换挖掘通道间线索以得到特征挖掘后的第一部分子特征。
利用全局平均池化对第一部分子特征rka进行尺寸调整,具体表示为:
其中,r′ka表示经尺寸调整后的第一部分子特征,m与n分别表示空间位置的横坐标与纵坐标。
通过线性变换挖掘通道间线索以得到特征挖掘后的第一部分子特征,具体表示为:
r″ka=σ(w1r′ka+b)·rka
其中,r″ka表示特征挖掘后的第一部分子特征,w1和b分别表示特征尺度缩放以及偏移量,σ为激活函数。
S1012d,通过组归一化对所述第二部分子特征沿空间方向进行挖掘以得到特征挖掘后的第二部分子特征。
具体的,通过组归一化对第二部分子特征rkb沿空间方向进行挖掘以得到特征挖掘后的第二部分子特征r″kb,具体表示为:
r″kb=σ(w2GN(rkb)+b)·rkb
其中,w2表示特征尺度缩放,GN表示组归一化。
S1012e,将所述特征挖掘后的第一部分子特征以及所述特征挖掘后的第二部分子特征沿通道方向进行重组,以得到特征挖掘后的子特征。
具体的,将特征挖掘后的第一部分子特征以及所述特征挖掘后的第二部分子特征沿通道方向进行重组,以得到特征挖掘后的子特征,具体表示为:
r″k=[r″ka,r″kb]
其中,r″k表示特征挖掘后的子特征。
S102,根据所述特征提取主干网络、图匹配网络、分类子网络以及回归子网络建立得到目标跟踪算法模型。
在此需要说明的是,通过特征提取主干网络提取得到的深度特征包括目标模板深度特征Ft以及搜索区域深度特征Fs。
令Vt包括目标模板深度特征Ft表示的所有节点,Vs包括搜索区域深度特征Fs表示的所有节点;
其中,V表示目标模板图像与搜索区域图像的节点集,E表示以目标模板图像与搜索区域图像顶点连线的边集,u表示目标模板图像中的节点元素,v表示搜索区域图像中的节点元素。
对于搜索区域i节点以及目标模板j节点之间对应的所述关联分数表示为:
为了自适应地学习节点之间更好的表示,本实施例中首先对节点特征进行线性变换,然后取变换后的特征向量之间的内积来计算上述的关联分数,具体表示为:
其中,Ws和Wt均为不同的线性变换矩阵,T为转置操作。
为了使目标模板图像更好地在搜索区域进行传播,利用softmax函数对所述关联分数进行归一化处理以到节点间权重值,具体表示为:
其中,aij表示跟踪器根据目标模板j节点给予搜索区域i节点的节点间权重值,eik表示搜索区域i节点与目标模板k节点之间的相似性分数。
进一步的,通过节点间权重值计算得到目标模板子完全二分图Gi中所有节点信息在搜索区域子完全二分图Gs中的节点聚合,具体表示为:
其中,Vi表示目标模板子完全二分图Gt中所有节点信息在搜索区域子完全二分图Gs中的第i个节点聚合表示特征,Wv表示线性变换矩阵,目标模板子完全二分图Gt=(Vt,φ),搜索区域子完全二分图Gs=(Vs,φ),φ表示空集。
S103,对目标跟踪数据集进行预处理,在每个数据迭代周期内动态调整学习率,并采用离线方式对所述目标跟踪算法模型进行端对端训练。
需要指出的是,对目标跟踪数据集GOT-10k以及COCO数据集裁剪为统一尺寸大小511×511,并对小样本数据进行数据扩增和平衡类别分布。同时,在离线端到端的训练阶段,在前5个迭代周期采取线性增加学习率至0.01,在后15个迭代周期采取指数下降学习率至0.005。
S104,在进行过端对端训练的目标跟踪算法模型中,初始化视频序列的第一帧以获取目标模板图像,在后续帧中以前一帧目标中心位置的预设倍大小截取搜索区域图像,并将所获得的目标模板图像以及搜索区域图像送入到所述特征提取主干网络中以获得深度特征。
需要指出的是,初始化第一帧视频序列,以得到127×127×3目标模板图像和搜索区域图像。在下一帧中以前一帧目标中心位置截取287×287×3大小的搜索区域图像,并送入特征提取主干网络以获取各自的深度特征。此外,对不足尺寸则采用三通道均值进行填充。
S105,对目标模板图像和搜索区域图像的深度特征进行图匹配操作,以获得目标模板图像与搜索区域图像之间的相似性得分图。
需要特别指出的是,传统的交叉相关对目标模板和搜索区域图像进行匹配操作是一种线性过程,导致了空间语义信息丢失。然而,图注意力匹配(即图匹配操作)则充分挖掘非线性空间信息,意完成目标模板图像在搜索区域图像中的传播。
S106,利用所述分类子网络对相似性得分图进行前景与背景的区别,利用所述回归子网络对相似性得分图中预测框的角点进行调整,直至所述视频序列结束以确定最终的目标跟踪位置。
本发明提出的一种基于Shuffle注意力的图匹配目标跟踪方法,联合卷积神经网络与Shuffle注意力模型,充分挖掘空间方向与通道方向之间的特征相关性,以获取得到更为稀疏以及更为鲁棒的深度特征;此外,通过图注意力匹配对目标模板图像特征和搜索区域图像特征进行相似性得分计算,并利用分类子网络和回归子网络对预测框进行精细化调整,以确定最终的目标跟踪位置。本发明所提出的基于Shuffle注意力的图匹配目标跟踪方法,具有很好的鲁棒性与实时性,可更好地处理外观变化,包括遮挡、光照变化以及运动模糊等,最终可实现良好的目标图像的跟踪效果。
请参阅图2,本发明还提出一种基于Shuffle注意力的图匹配目标跟踪系统,其中,所述系统包括依次连接的第一构建模块、第二构建模块、第一训练模块、特征提取模块、得分计算模块以及目标跟踪模块;
第一构建模块,用于基于卷积神经网络与Shuffle注意力模块建立特征提取主干网络,所述特征提取主干网络用于对目标模板图像以及搜索区域图像进行深度特征提取;
第二构建模块,用于根据所述特征提取主干网络、图匹配网络、分类子网络以及回归子网络建立得到目标跟踪算法模型;
第一训练模块,用于对目标跟踪数据集进行预处理,在每个数据迭代周期内动态调整学习率,并采用离线方式对所述目标跟踪算法模型进行端对端训练;
特征提取模块,用于在进行过端对端训练的目标跟踪算法模型中,初始化视频序列的第一帧以获取目标模板图像,在后续帧中以前一帧目标中心位置的预设倍大小截取搜索区域图像,并将所获得的目标模板图像以及搜索区域图像送入到所述特征提取主干网络中以获得深度特征;
得分计算模块,用于对目标模板图像和搜索区域图像的深度特征进行图匹配操作,以获得目标模板图像与搜索区域图像之间的相似性得分图;
目标跟踪模块,用于利用所述分类子网络对相似性得分图进行前景与背景的区别,利用所述回归子网络对相似性得分图中预测框的角点进行调整,直至所述视频序列结束以确定最终的目标跟踪位置。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于Shuffle注意力的图匹配目标跟踪方法,其特征在于,所述方法包括如下步骤:
步骤一:基于卷积神经网络与Shuffle注意力模块建立特征提取主干网络,所述特征提取主干网络用于对目标模板图像以及搜索区域图像进行深度特征提取;
步骤二:根据所述特征提取主干网络、图匹配网络、分类子网络以及回归子网络建立得到目标跟踪算法模型;
步骤三:对目标跟踪数据集进行预处理,在每个数据迭代周期内动态调整学习率,并采用离线方式对所述目标跟踪算法模型进行端对端训练;
步骤四:在进行过端对端训练的目标跟踪算法模型中,初始化视频序列的第一帧以获取目标模板图像,在后续帧中以前一帧目标中心位置的预设倍大小截取搜索区域图像,并将所获得的目标模板图像以及搜索区域图像送入到所述特征提取主干网络中以获得深度特征;
步骤五:对目标模板图像和搜索区域图像的深度特征进行图匹配操作,以获得目标模板图像与搜索区域图像之间的相似性得分图;
步骤六:利用所述分类子网络对相似性得分图进行前景与背景的区别,利用所述回归子网络对相似性得分图中预测框的角点进行调整,直至所述视频序列结束以确定最终的目标跟踪位置。
2.根据权利要求1所述的一种基于Shuffle注意力的图匹配目标跟踪方法,其特征在于,在所述步骤一中,利用特征提取主干网络对目标模板图像以及搜索区域图像进行深度特征提取的方法包括如下步骤:
通过所述卷积神经网络对目标模板图像以及搜索区域图像进行深度特征提取;
通过Shuffle注意力模块分别从通道方向以及空间方向对所述深度特征进行特征挖掘。
4.根据权利要求3所述的一种基于Shuffle注意力的图匹配目标跟踪方法,其特征在于,所述通过Shuffle注意力模块分别从通道方向以及空间方向对所述深度特征进行特征挖掘的方法包括如下步骤:
通过所述Shuffle注意力模型对所述深度特征沿通道方向划分为D组子特征;
在划分为D组子特征后,将每一组子特征划分为两部分,包括第一部分子特征以及第二部分子特征;
利用全局平均池化对所述第一部分子特征进行尺寸调整,然后通过线性变换挖掘通道间线索以得到特征挖掘后的第一部分子特征;
通过组归一化对所述第二部分子特征沿空间方向进行挖掘以得到特征挖掘后的第二部分子特征;
将所述特征挖掘后的第一部分子特征以及所述特征挖掘后的第二部分子特征沿通道方向进行重组,以得到特征挖掘后的子特征。
5.根据权利要求4所述的一种基于Shuffle注意力的图匹配目标跟踪方法,其特征在于,
通过所述Shuffle注意力模型对所述深度特征沿通道方向划分为D组子特征,具体表示为:
其中,rk表示第k组子特征,k∈{1,2,...,D},D表示子特征的组数;
在划分为D组子特征后,将每一组子特征划分为两部分,包括第一部分子特征rka以及第二部分子特征rkb,即rk=[rka,rkb];
利用全局平均池化对第一部分子特征rka进行尺寸调整,具体表示为:
其中,r′ka表示经尺寸调整后的第一部分子特征,m与n分别表示空间位置的横坐标与纵坐标。
通过线性变换挖掘通道间线索以得到特征挖掘后的第一部分子特征,具体表示为:
r″ka=σ(w1r′ka+b)·rka
其中,r″ka表示特征挖掘后的第一部分子特征,w1和b分别表示特征尺度缩放以及偏移量,σ为激活函数。
6.根据权利要求5所述的一种基于Shuffle注意力的图匹配目标跟踪方法,其特征在于,
通过组归一化对第二部分子特征rkb沿空间方向进行挖掘以得到特征挖掘后的第二部分子特征r″kb,具体表示为:
r″kb=σ(w2GN(rkb)+b)·rkb
其中,w2表示特征尺度缩放,GN表示组归一化;
将所述特征挖掘后的第一部分子特征以及所述特征挖掘后的第二部分子特征沿通道方向进行重组,以得到特征挖掘后的子特征,具体表示为:
r″k=[r″ka,r″kb]
其中,r″k表示特征挖掘后的子特征。
9.根据权利要求8所述的一种基于Shuffle注意力的图匹配目标跟踪方法,其特征在于,所述方法还包括:
利用softmax函数对所述关联分数进行归一化处理以到节点间权重值,具体表示为:
其中,aij表示跟踪器根据目标模板j节点给予搜索区域i节点的节点间权重值,eik表示搜索区域i节点与目标模板k节点之间的相似性分数;
通过所述节点间权重值计算得到目标模板子完全二分图Gt中所有节点信息在搜索区域子完全二分图Gs中的节点聚合,具体表示为:
其中,Vi表示目标模板子完全二分图Gt中所有节点信息在搜索区域子完全二分图Gs中的第i个节点聚合表示特征,Wv表示线性变换矩阵,目标模板子完全二分图Gt=(Vt,φ),搜索区域子完全二分图Gs=(Vs,φ),φ表示空集;
10.一种基于Shuffle注意力的图匹配目标跟踪系统,其特征在于,所述系统包括:
第一构建模块,用于基于卷积神经网络与Shume注意力模块建立特征提取主干网络,所述特征提取主干网络用于对目标模板图像以及搜索区域图像进行深度特征提取;
第二构建模块,用于根据所述特征提取主干网络、图匹配网络、分类子网络以及回归子网络建立得到目标跟踪算法模型;
第一训练模块,用于对目标跟踪数据集进行预处理,在每个数据迭代周期内动态调整学习率,并采用离线方式对所述目标跟踪算法模型进行端对端训练;
特征提取模块,用于在进行过端对端训练的目标跟踪算法模型中,初始化视频序列的第一帧以获取目标模板图像,在后续帧中以前一帧目标中心位置的预设倍大小截取搜索区域图像,并将所获得的目标模板图像以及搜索区域图像送入到所述特征提取主干网络中以获得深度特征;
得分计算模块,用于对目标模板图像和搜索区域图像的深度特征进行图匹配操作,以获得目标模板图像与搜索区域图像之间的相似性得分图;
目标跟踪模块,用于利用所述分类子网络对相似性得分图进行前景与背景的区别,利用所述回归子网络对相似性得分图中预测框的角点进行调整,直至所述视频序列结束以确定最终的目标跟踪位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111438516.0A CN114119669A (zh) | 2021-11-30 | 2021-11-30 | 一种基于Shuffle注意力的图匹配目标跟踪方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111438516.0A CN114119669A (zh) | 2021-11-30 | 2021-11-30 | 一种基于Shuffle注意力的图匹配目标跟踪方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114119669A true CN114119669A (zh) | 2022-03-01 |
Family
ID=80368193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111438516.0A Pending CN114119669A (zh) | 2021-11-30 | 2021-11-30 | 一种基于Shuffle注意力的图匹配目标跟踪方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114119669A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152298A (zh) * | 2023-04-17 | 2023-05-23 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN117333515A (zh) * | 2023-12-01 | 2024-01-02 | 南昌工程学院 | 基于区域感知注意力的目标跟踪方法与系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256677A (zh) * | 2021-04-16 | 2021-08-13 | 浙江工业大学 | 一种图注意力视觉目标跟踪方法 |
CN113379806A (zh) * | 2021-08-13 | 2021-09-10 | 南昌工程学院 | 基于可学习稀疏转换注意力机制的目标跟踪方法与系统 |
CN113705588A (zh) * | 2021-10-28 | 2021-11-26 | 南昌工程学院 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
-
2021
- 2021-11-30 CN CN202111438516.0A patent/CN114119669A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256677A (zh) * | 2021-04-16 | 2021-08-13 | 浙江工业大学 | 一种图注意力视觉目标跟踪方法 |
CN113379806A (zh) * | 2021-08-13 | 2021-09-10 | 南昌工程学院 | 基于可学习稀疏转换注意力机制的目标跟踪方法与系统 |
CN113705588A (zh) * | 2021-10-28 | 2021-11-26 | 南昌工程学院 | 基于卷积自注意力模块的孪生网络目标跟踪方法与系统 |
Non-Patent Citations (2)
Title |
---|
DONGYAN GUO等: "Graph Attention Tracking", 《ARXIV》 * |
QING-LONG ZHANG: "SA-NET: SHUFFLE ATTENTION FOR DEEP CONVOLUTIONAL NEURAL NETWORKS", 《ARXIV》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152298A (zh) * | 2023-04-17 | 2023-05-23 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116152298B (zh) * | 2023-04-17 | 2023-08-29 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN117333515A (zh) * | 2023-12-01 | 2024-01-02 | 南昌工程学院 | 基于区域感知注意力的目标跟踪方法与系统 |
CN117333515B (zh) * | 2023-12-01 | 2024-02-09 | 南昌工程学院 | 基于区域感知注意力的目标跟踪方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287849B (zh) | 一种适用于树莓派的轻量化深度网络图像目标检测方法 | |
CN113077471B (zh) | 一种基于u型网络的医学图像分割方法 | |
US20210342643A1 (en) | Method, apparatus, and electronic device for training place recognition model | |
CN112184752A (zh) | 一种基于金字塔卷积的视频目标跟踪方法 | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
Xia et al. | Loop closure detection for visual SLAM using PCANet features | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
CN110348447B (zh) | 一种具有丰富空间信息的多模型集成目标检测方法 | |
CN111489357A (zh) | 一种图像分割方法、装置、设备及存储介质 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN113378796B (zh) | 一种基于上下文建模的宫颈细胞全切片分类方法 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN114119669A (zh) | 一种基于Shuffle注意力的图匹配目标跟踪方法与系统 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN111276240A (zh) | 一种基于图卷积网络的多标签多模态全息脉象识别方法 | |
CN111340816A (zh) | 一种基于双u型网络框架的图像分割方法 | |
CN114494195A (zh) | 用于眼底图像分类的小样本注意力机制并行孪生方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN113379806B (zh) | 基于可学习稀疏转换注意力机制的目标跟踪方法与系统 | |
CN111524140A (zh) | 基于cnn和随机森林法的医学图像语义分割方法 | |
CN114283326A (zh) | 一种结合局部感知和高阶特征重构的水下目标重识别方法 | |
CN114049531A (zh) | 一种基于弱监督人体协同分割的行人再识别方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220301 |
|
RJ01 | Rejection of invention patent application after publication |