CN115205336A - 一种基于多层感知机的特征融合目标感知跟踪方法 - Google Patents
一种基于多层感知机的特征融合目标感知跟踪方法 Download PDFInfo
- Publication number
- CN115205336A CN115205336A CN202210877419.XA CN202210877419A CN115205336A CN 115205336 A CN115205336 A CN 115205336A CN 202210877419 A CN202210877419 A CN 202210877419A CN 115205336 A CN115205336 A CN 115205336A
- Authority
- CN
- China
- Prior art keywords
- tracking
- features
- template
- target
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000004927 fusion Effects 0.000 title claims abstract description 14
- 230000008447 perception Effects 0.000 title claims abstract description 13
- 238000010586 diagram Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000013136 deep learning model Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 8
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多层感知机的特征融合目标感知跟踪方法,在图片中裁出一块区域作为模版图片,并且输入ResNet网络提取其特征,在后续的跟踪过程中,首先会根据上一帧的目标位置信息在当前帧裁出模版图片多倍的搜索区域图片,输入相同的ResNet网络提取其特征,并与模版特征做像素级相关计算,获得具有两者的相似性信息的相关特征;然后将相关特征依次通过非局部注意力模块、全局信息编码模块和角点预测模块,获得精准的边界框回归结果。
Description
技术领域
本申请属于图像处理技术领域,尤其涉及一种基于多层感知机的特征融合目标感知跟踪方法。
背景技术
目标跟踪是计算机视觉领域的重要研究方向之一,在机器人、人机交互、军事侦查、智能交通、虚拟现实等军事、民用领域都有广泛的应用。近年来,许多学者在目标跟踪方面开展了大量工作,并取得了一定的进展。但是,在复杂环境中仍存在目标外观变形(目标纹理、形状、姿态变化等)、光照变化、快速运动和运动模糊、背景相似干扰、平面内外旋转、尺度变化、遮挡和出视野等难题,使得复杂环境下稳定实时的目标跟踪仍然是一个具有挑战性的问题。
基于孪生网络的跟踪器通过学习模板特征和搜索特征生成的相似性相关特征来预测目标在当前帧的位置信息,成功的将目标跟踪问题转换为相似性度量问题。SiamFC通过学习从基础相关(-correlation)获得的单通道相似响应图来预测目标的边界框,从而取得了开创性的工作。然而,单通道响应图难以包含多尺度空间信息,对精确跟踪具有一定的局限性。为了克服跟踪过程中由于物体或相机运动引起的尺度变化,SiamRPN采用更好的相关方法获取更多的空间信息,并引入区域建议网络(RPN),利用精心设计的锚盒(anchor)对不同尺度的目标进行预测。SiamRPN++通过使用深度相关方法将相关特征的通道数增加到了256,同时使用了不同深度的ResNet的特征进行目标跟踪,极大的提升了跟踪精度。近年来,学者们发现基于孪生网路的跟踪器中的相关运算本身是局部线性匹配过程,容易丢失语义信息,并且陷入局部最优。因此,设计了更健壮、更准确的编码器-解码器结构的跟踪器,提出一个全新的特征融合模块。然而,尽管编码器-解码器结构可以来解决跟踪过程中语义信息丢失的挑战,但其需要大量数据集训练,并且难以拟合。
发明内容
本申请的目的是提供一种基于多层感知机的特征融合目标感知跟踪方法,在现有技术方案中引入多层感知机进行全局感受野编码,以克服上述背景技术中所提出的技术问题。
为了实现上述目的,本申请技术方案如下:
一种基于多层感知机的特征融合目标感知跟踪方法,通过构建的深度学习模型进行目标跟踪,所述深度学习模型包括特征提取模块、特征相关模块、非局部注意力模块、全局信息编码器和角点预测模块,所述基于多层感知机的特征融合目标感知跟踪方法,包括:
获取待跟踪视频序列的跟踪模板,将跟踪模板输入到特征提取模块,提取模板特征;
从待跟踪视频序列中获取当前搜索图片,将搜索图片输入到特征提取模块,提取搜索特征;
将模板特征和搜索特征输入特征相关模块,计算模板特征每个子核与搜索特征的相关性,得到相关特征图;
将相关图输入到非局部注意力模块,得到相关注意力图;
将相关注意力图输入到全局信息编码器进行特征增强,得到全局信息编码特征,所述全局信息编码器包括允许不同通道之间交流的通道编码器和允许不同空间位置交流的空间编码器,每个编码器由两层全连接层和一个激活函数GELU构成;
将全局信息编码特征输入角点预测模块,获得跟踪目标的包围框信息。
进一步的,所述获取待跟踪视频序列的跟踪模板,包括:
将人为标注的跟踪目标包围框信息放大预设第一倍数,从待根据视频序列第一帧图片中裁剪出跟踪模板。
进一步的,所述从待跟踪视频序列中获取当前搜索图片,包括:
将上一帧的跟踪结果信息放大预设第二倍数,从当前待处理的帧中裁剪出搜索图片。
进一步的,所述计算模板特征每个子核与搜索特征的相关性,得到相关特征图,包括:
进一步的,所述将相关注意力图输入到全局信息编码器进行特征增强,得到全局信息编码特征,包括:
采用如下公式表示全局信息编码器的操作:
R1=RGT+W2σ(W1LN(RGT))
RT=R1 T+W4σ(W3LN(R1 T))
其中,RT表示全局编码器输出的全局信息编码特征,LN表示归一化,W1-W4表示全连接层操作,σ表示激活函数GELU,T表示转置。
进一步的,所述深度学习模型的联合损失函数表示为:
本申请提出了一种基于多层感知机的特征融合目标感知跟踪方法,引入多层感知机进行全局感受野编码,使得跟踪器具有全局信息的搜索感知能力,使用Resnet-50进行特征提取以及像素级的特征相关模块,从而获得更精细的特征表达,再通过本文提出的全局信息编码器模块增大模型的感受野,克服了跟踪过程中感受野小引发的遮挡、超出视野等跟踪问题。
附图说明
图1为本申请基于多层感知机的特征融合目标感知跟踪方法流程图;
图2为本申请深度学习模型网络示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提出了一种基于多层感知机的特征融合目标感知跟踪方法,包括:
步骤S1、获取待跟踪视频序列的跟踪模板,将跟踪模板输入到特征提取模块,提取模板特征。
对于需要进行目标跟踪的视频序列,本实施例首先获取其跟踪模板Z1。具体的,将人为标注的跟踪目标包围框信息B1放大预设第一倍数,从待根据视频序列第一帧图片I1中裁剪出跟踪模板Z1。
例如将包围框信息B1放大2倍,然后第一帧图片I1中裁剪出跟踪模版Z1,包围框信息B1包括跟踪目标包围框的左上角坐标和右下角坐标。
步骤S2、从待跟踪视频序列中获取当前搜索图片,将搜索图片输入到特征提取模块,提取搜索特征。
本实例将上一帧的跟踪结果信息放大预设第二倍数,从当前待处理的帧中裁剪出搜索图片。
例如,根据上一帧的跟踪结果Bi-1,对输入的图片Ii,i∈[2,n],根据上一帧的跟踪结果的包围框信息,放大5倍然后裁剪出搜索图片。同理上一帧的跟踪结果Bi-1,包括跟踪目标包围框的左上角坐标和右下角坐标。
步骤S3、将模板特征和搜索特征输入特征相关模块,计算模板特征每个子核与搜索特征的相关性,得到相关特征图。
步骤S4、将相关图输入到非局部注意力模块,得到相关注意力图。
然后,利用非局部注意力(Non-Local attention)来聚合全局上下文信息,首先将特征输入三个并行1*1卷积层(θ,φ,g)降低特征通道数,获得三个特征后将三个特征的后两维向量在同一个向量空间聚合获得三个新的特征向量 然后,通过矩阵乘法和softmax函数,将和计算这两个特征在不同位置之间的响应值得到ANL,其数学表达式如下:
步骤S5、将相关注意力图输入到全局信息编码器进行特征增强,得到全局信息编码特征。
本步骤将相关注意力图矩阵变形成送入全局信息编码器进行特征增强。该编码器由两类编码器交替组成,分别是允许不同通道之间交流的通道编码器和允许不同空间位置交流的空间编码器,每个编码器由两层全连接层和一个激活函数GELU构成。
具体来说,经过矩阵变形的RG,先将特征转置后,进入空间编码器聚合空间信息,空间编码器作用在特征的列上并且共享所有的列参数,得到的输出再重新转置一下,然后和原始特征RG相加,得到特征R1;其次,经过矩阵变形的R1,先将特征转置后,进入通道编码器聚合空间信息,通道编码器作用在特征的行上并且共享所有的行参数,得到的输出再重新转置一下,然后和经过空间编码器的特征R1相加,得到全局信息编码特征RT。
采用公式表示如下:
R1=RGT+W2σ(W1LN(RGT))
RT=R1 T+W4σ(W3LN(R1 T))
其中,RG是输入到全局信息编码器的特征,RGT是转置后的特征,LN表示归一化,计算RGT特征的通道中所有参数的均值和方差,使其分布在(0,1)之间。W1-W4表示全连接层操作,包含可学习的权重系数,根据每次重复的计算拟合出一个合适的权重使跟踪器更加鲁棒,σ表示激活函数GELU,R1表示经过通道编码器的特征,输入空间编码器,R1 T表示转置后的进入空间编码器的特征,RT表示全局编码器的输出,T表示转置。
步骤S6、将全局信息编码特征输入角点预测模块,获得跟踪目标的包围框信息。
本步骤将全局信息编码特征RT变形为一个新的特征图输入角点预测模块,角点预测模块包括3层全连接层(FCN),并且通过soft-argmax归一化,RT通过三层全连接层得到预测结果的左上角和右下角的概率分布Ptl(x,y)和Pbr(x,y),然后分别经过soft-argmax函数,得到包围框的左上角和右下角的坐标
根据概率分布的期望值得到预测结果左上角和右下角的坐标,然后获得包围框结果,最终获得跟踪结果。
对于如图2所示的整个深度学习模型,需要进行训练后才能够进行实际的应用,训练过程如下:
对训练数据集进行预处理,选取视频序列中间隔为T的两帧,根据标注信息,依照裁切模板图片和搜索图片到128×128和320×320尺寸;
将预处理后的训练数据集输入到深度学习模型,进行训练,训练中计算联合损失,进行反向传播,更新模型参数,完成训练。
联合损失采用如下公式表示:
训练过程中,批处理大小为256,学习率从0.0001下降到0.00001,使用AdamW算法迭代训练10次并保存每次迭代结果,前十次迭代冻结ResNet的参数,后十次迭代以整体网络学习率的十分之一开始训练。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于多层感知机的特征融合目标感知跟踪方法,通过构建的深度学习模型进行目标跟踪,其特征在于,所述深度学习模型包括特征提取模块、特征相关模块、非局部注意力模块、全局信息编码器和角点预测模块,所述基于多层感知机的特征融合目标感知跟踪方法,包括:
获取待跟踪视频序列的跟踪模板,将跟踪模板输入到特征提取模块,提取模板特征;
从待跟踪视频序列中获取当前搜索图片,将搜索图片输入到特征提取模块,提取搜索特征;
将模板特征和搜索特征输入特征相关模块,计算模板特征每个子核与搜索特征的相关性,得到相关特征图;
将相关图输入到非局部注意力模块,得到相关注意力图;
将相关注意力图输入到全局信息编码器进行特征增强,得到全局信息编码特征,所述全局信息编码器包括允许不同通道之间交流的通道编码器和允许不同空间位置交流的空间编码器,每个编码器由两层全连接层和一个激活函数GELU构成;
将全局信息编码特征输入角点预测模块,获得跟踪目标的包围框信息。
2.根据权利要求1所述的基于多层感知机的特征融合目标感知跟踪方法,其特征在于,所述获取待跟踪视频序列的跟踪模板,包括:
将人为标注的跟踪目标包围框信息放大预设第一倍数,从待根据视频序列第一帧图片中裁剪出跟踪模板。
3.根据权利要求1所述的基于多层感知机的特征融合目标感知跟踪方法,其特征在于,所述从待跟踪视频序列中获取当前搜索图片,包括:
将上一帧的跟踪结果信息放大预设第二倍数,从当前待处理的帧中裁剪出搜索图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210877419.XA CN115205336A (zh) | 2022-07-25 | 2022-07-25 | 一种基于多层感知机的特征融合目标感知跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210877419.XA CN115205336A (zh) | 2022-07-25 | 2022-07-25 | 一种基于多层感知机的特征融合目标感知跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115205336A true CN115205336A (zh) | 2022-10-18 |
Family
ID=83583642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210877419.XA Pending CN115205336A (zh) | 2022-07-25 | 2022-07-25 | 一种基于多层感知机的特征融合目标感知跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205336A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152298A (zh) * | 2023-04-17 | 2023-05-23 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116740795A (zh) * | 2023-08-16 | 2023-09-12 | 天津师范大学 | 基于注意力机制的表情识别方法、模型及模型训练方法 |
-
2022
- 2022-07-25 CN CN202210877419.XA patent/CN115205336A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152298A (zh) * | 2023-04-17 | 2023-05-23 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116152298B (zh) * | 2023-04-17 | 2023-08-29 | 中国科学技术大学 | 一种基于自适应局部挖掘的目标跟踪方法 |
CN116740795A (zh) * | 2023-08-16 | 2023-09-12 | 天津师范大学 | 基于注意力机制的表情识别方法、模型及模型训练方法 |
CN116740795B (zh) * | 2023-08-16 | 2023-11-24 | 天津师范大学 | 基于注意力机制的表情识别方法、模型及模型训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335337B (zh) | 一种基于端到端半监督生成对抗网络的视觉里程计的方法 | |
US20220366576A1 (en) | Method for target tracking, electronic device, and storage medium | |
CN111507222B (zh) | 一种基于多源数据知识迁移的三维物体检测框架 | |
CN115205336A (zh) | 一种基于多层感知机的特征融合目标感知跟踪方法 | |
CN112750148B (zh) | 一种基于孪生网络的多尺度目标感知跟踪方法 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
US11948368B2 (en) | Real-time target detection and 3d localization method based on single frame image | |
CN113592927A (zh) | 一种结构信息引导的跨域图像几何配准方法 | |
CN116402858B (zh) | 基于transformer的时空信息融合的红外目标跟踪方法 | |
CN113298036A (zh) | 一种无监督视频目标分割的方法 | |
CN113850189A (zh) | 一种应用于机动平台的嵌入式孪生网络实时跟踪方法 | |
CN116363750A (zh) | 人体姿态预测方法、装置、设备及可读存储介质 | |
Lee et al. | CrossFormer: Cross-guided attention for multi-modal object detection | |
Gao et al. | Edge Devices Friendly Self-Supervised Monocular Depth Estimation Via Knowledge Distillation | |
Wang et al. | EMAT: Efficient feature fusion network for visual tracking via optimized multi-head attention | |
Oh et al. | Local selective vision transformer for depth estimation using a compound eye camera | |
CN116797799A (zh) | 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪系统 | |
CN109492530B (zh) | 基于深度多尺度时空特征的健壮性视觉物体跟踪方法 | |
CN116630641A (zh) | 基于注意力机制的长时目标跟踪方法 | |
CN117011640A (zh) | 基于伪标签滤波的模型蒸馏实时目标检测方法及装置 | |
CN115830707A (zh) | 一种基于超图学习的多视角人体行为识别方法 | |
Wang et al. | EFRNet-VL: An end-to-end feature refinement network for monocular visual localization in dynamic environments | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
CN118229781B (zh) | 显示屏异物检测方法、模型训练方法、装置、设备及介质 | |
De Magistris et al. | Visual Odometry with Depth-Wise Separable Convolution and Quaternion Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |