CN113129345A - 一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法 - Google Patents
一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法 Download PDFInfo
- Publication number
- CN113129345A CN113129345A CN202110417474.6A CN202110417474A CN113129345A CN 113129345 A CN113129345 A CN 113129345A CN 202110417474 A CN202110417474 A CN 202110417474A CN 113129345 A CN113129345 A CN 113129345A
- Authority
- CN
- China
- Prior art keywords
- feature
- target
- convolution
- fused
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明请求保护一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法,包括步骤:S1将初始帧中已经标注好位置的待跟踪目标区域图像和当前帧搜索区域图像送入同一个特征提取网络,分别得到三个输出特征图;S2分别对两张图像的三个输出特征图进行融合;S3将融合后的两张图像进行互相关操作得两张特征响应图;S4分别对两张特征响应图通过三个不同尺度的膨胀卷积层得到不同感受野的特征响应图;S5将相关特征进行逐点求融合;S6将融合后特征图分别送入分类分支和回归分支;S7结合分类分支的最大响应区域与回归分支的目标移动量,预测表示出待跟踪目标在当前帧的位置。本发明提高了跟踪方法在目标尺度变化较大等复杂情况下的鲁棒性与准确率。
Description
技术领域
本发明属于图像处理技术领域,特别涉及基于卷积神经网络的多特征图融合和多尺度膨胀卷积的目标跟踪方法。
背景技术
目标跟踪方法属于计算机视觉领域,并在军事安防娱乐等众多方面有着广泛的应用。目标跟踪方法主要分为基于传统方法的跟踪方法和基于卷积神经网络的跟踪方法两类。
基于传统方法的跟踪方法中,相关滤波最具有代表性。核心思想是训练时使用目标周围区域的循环矩阵制作正负样本集,并利用岭回归训练一个目标检测器,在跟踪时通过检测器判别出目标的位置。因为是离线训练,所以实际跟踪时计算量小,速度较之前的方法有很大的提升,可以满足实时性的要求。
基于卷积神经网络的目标跟踪方法中,主要有基于分类的卷积神经网络跟踪方法,基于回归的卷积神经网络跟踪方法,基于相似度匹配的卷积神经网络跟踪方法,其中基于相似度匹配的方法最有代表性。最初此方法是在搜索区域中划分出多个候选区域,再分别与目标区域进行相似度计算,找到相似度最高的区域。之后思路直接通过特征提取网络,将目标区域和候选区域进行卷积,得到对应的特征图,然后再在特征图上进行卷积,得到相似度的响应图,最大响应区域映射回搜索区域,即为目标的预测位置。
虽然跟踪方法很多,但是在实际场景下仍然存在很多挑战,例如光照变化,背景的相似性干扰,遮挡,目标形变问题等。之前的基于卷积神经网络的跟踪方法,虽然在实时性上有很大的提高,但是对于目标的形变问题与预测准确度仍存在一定问题。
我们采用的的多尺度特征融合可以使输出的特征图能表示更多的语义信息和结构及信息有利于后面的相似度计算。对每个分支我们采用的多尺度膨胀卷积有增强模型在多个方向上的感知能力。增加了DioU损失函数能进一步提升对目标预测的精确度。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法。本发明的技术方案如下:
一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法,其包括以下步骤:
S1、将视频初始帧中已经标注好位置的待跟踪目标区域图像和当前帧搜索区域图像送入同一个特征提取网络,并在网络的第16层,第19层和第22层分别输出模板图像的三张特征图z1、z2、z3以及搜索图像的三张特征图x1、x2、x3
S2、将模板图像与搜索图像各自的三个输出特征图进行卷积融合,分别得到融合后的特征图;
S3、将步骤S2融合后的两张特征图进行互相关操作得两张特征响应图;
S4、将两张特征响应图分别通过三个平行的不同尺度膨胀卷积层,输出不同感受野的三张特征响应图;
S5、将不同感受野的三张特征响应图进行逐点融合,输出融合后的特征响应图;
S6、将两个融合后的特征响应图送入对应的分类分支和回归分支;在分类分支中通过特征图卷积操作,计算两个特征图对应位置间的交叉互相关性,得到特征响应图;在回归分支中分别表示当前位置与目标位置下标的相关偏移量;
S7、将分类分支特征相应图最大响应区域与回归分支对应区域的偏移量结果相结合,预测表示出待跟踪目标在当前帧的位置。
进一步的,所述步骤S1的特征提取网络以残差模块为基础进行网络搭建,并在网络的第16层,第19层和第22层分别输出模板图像的三张特征图z1、z2、z3以及搜索图像的三张特征图x1、x2、x3
进一步的,所述步骤S2的卷积融合直接通过卷积操作得到融合后的模板图像特征图z以及融合后的搜索图像特征图x计算公式为:
进一步的,步骤S3中的两张特征响应图是将融合后的搜索图像特征图和融合后的模板图像特征图进行互相关操作得到,计算公式如下:
f(z,x)=z*x+b
进一步的,所述步骤S3将步骤S2融合后的两张特征图采用逐通道进行互相关操作的深度互相关操作得两张特征响应图。
进一步的,所述S6的分类分支中的特征响应图是将融合后的响应图降低通道数得到;所述S6的回归分支是将融合后的响应图降低通道数后,通过对两个区域的中心位置坐标及长宽进行L1的损失函数和DIoU的距离损失函数回归得到,其中DioU距离损失函数定义如下:
其中,b,bgt分别代表预测框和目标框的中心点,ρ代表的是计算两个中心点间的欧式距离,c代表可以覆盖预测框和目标框的最小矩形的对角线距离。
进一步的,在分类分支中通过卷积操作,得到分类分支的最大响应区域;在回归分支中通过卷积操作得到当前位置与目标位置相关偏移量。
进一步的,所述S7的结果结合是在分类分支中得到的最大响应点映射回原图,并根据回归分支的坐标回归,对目标进行尺度变换与偏移。
本发明的优点及有益效果如下:
本发明将特征提取网络进行多个特征图输出,并将多个特征图进行卷积融合,使得到的融合特征图能表示不同尺度目标的语义信息和结构信息,有利于后面的相似度计算;对每个分支的特征图我们采用了多尺度膨胀卷积模块,使用不同膨胀系数的卷积层,并将输出的特征图通过深度互相关方法进行融合,使得到的特征图对不同方向上的语义信息和结构信息有更强的感知能力;并且我们在回归分支中增加距离损失函数,使得预测目标的准确度又得到进一步的提升。其中DioU距离损失函数定义如下:
其中,b,bgt分别代表预测框和目标框的中心点,ρ代表的是计算两个中心点间的欧式距离,c代表可以覆盖预测框和目标框的最小矩形的对角线距离。
最终我们的方法可以很好的适应目标的形变问题并且提高跟踪的准确率。
附图说明
图1是本发明提供优选实施例基于多特征图融合和多尺度膨胀卷积的目标跟踪方法流程图;
表1是与其他主流方法比较的结果。可以看到我们的跟踪器在公开数据集OTB2013和OTB2015上都要优于目前的跟踪器在AUC指标上大约提升了2个百分点。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
具体步骤:
S1、将视频初始帧中已经标注好位置的待跟踪目标区域图像和当前帧搜索区域图像送入同一个特征提取网络,分别得到三个输出特征图;
S2、将目标区域图像与带搜索区域图像各自的三个输出特征图进行卷积融合,分别得到融合后的特征图;
S3、将融合后的两张图像进行互相关操作得两张特征响应图;
S4、将两张特征图分别通过三个平行的不同尺度膨胀卷积层输出不同感受野的三张特征响应图;
S5、将不同感受野的三张特征响应图的逐点融合输出融合后的特征响应图;
S6、将两个融合后的特征响应图送入对应的分类分支和回归分支;在分类分支中通过特征图卷积操作,计算两个特征图对应位置间的交叉互相关性,得到特征响应图;在回归分支中分别表示当前位置与目标位置下标的相关偏移量;
S7、将分类分支特征相应图最大响应区域与回归分支对应区域的偏移量结果相结合,预测表示出待跟踪目标在当前帧的位置。
表1
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (9)
1.一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法,其特征在于,包括以下步骤:
S1、将视频初始帧中已经标注好目标位置的模板图像和搜索图像送入同一个特征提取网络,分别获取特征提取网络中最后三层的特征图。
S2、将模板图像和搜索图像各自的三个输出特征图进行卷积融合,分别得到融合后的特征图;
S3、将步骤S2融合后的两张特征图进行互相关操作得两张特征响应图;
S4、将两张特征响应图分别通过三个平行的不同尺度膨胀卷积层,输出不同感受野的三张特征响应图;
S5、将不同感受野的三张特征响应图进行逐点融合,输出融合后的特征响应图;
S6、将两个融合后的特征响应图送入对应的分类分支和回归分支;在分类分支中通过卷积操作,得到分类分支的最大响应区域;在回归分支中通过卷积操作得到当前位置与目标位置相关偏移量;
S7、将分类分支特征相应图最大响应区域与回归分支对应区域的偏移量结果相结合,预测表示出待跟踪目标在当前帧的位置。
2.根据权利要求1所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法,其特征在于,所述步骤S1的特征提取网络以残差模块为基础进行网络搭建,并在网络的第16层,第19层和第22层分别输出模板图像的三张特征图z1、z2、z3以及搜索图像的三张特征图x1、x2、x3 。
4.根据权利要求3所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法,其特征在于,所述步骤S3中的两张特征响应图是将融合后的搜索图像特征图和融合后的模板图像特征图进行互相关操作得到,计算公式如下:
f(z,x)=z*x+b
其中符号*代表互相关操作,b代表偏移量。
6.根据权利要求4所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法,其特征在于,所述步骤S3将步骤S2融合后的两张特征图采用逐通道进行互相关操作的深度互相关操作得两张特征响应图。
8.根据权利要求6所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法,其特征在于,在分类分支中通过卷积操作,得到分类分支的最大响应区域;在回归分支中通过卷积操作得到当前位置与目标位置相关偏移量。
9.根据权利要求8所述的基于多特征图融合和多尺度膨胀卷积的目标跟踪方法,其特征在于,所述S7的结果结合是在分类分支中得到的最大响应点映射回原图,并根据回归分支的坐标回归,对目标进行尺度变换与偏移。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110417474.6A CN113129345A (zh) | 2021-04-19 | 2021-04-19 | 一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110417474.6A CN113129345A (zh) | 2021-04-19 | 2021-04-19 | 一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113129345A true CN113129345A (zh) | 2021-07-16 |
Family
ID=76777632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110417474.6A Pending CN113129345A (zh) | 2021-04-19 | 2021-04-19 | 一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113129345A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537169A (zh) * | 2021-09-16 | 2021-10-22 | 深圳市信润富联数字科技有限公司 | 手势识别方法、设备、存储介质和计算机程序产品 |
CN113947616A (zh) * | 2021-09-23 | 2022-01-18 | 北京航空航天大学 | 一种基于层级化感知机的智能目标跟踪及丢失重检方法 |
CN115830075A (zh) * | 2023-02-20 | 2023-03-21 | 武汉广银飞科技发展有限公司 | 一种面向行人多目标跟踪的分级关联匹配方法 |
CN116091551A (zh) * | 2023-03-14 | 2023-05-09 | 中南大学 | 一种基于多模态融合的目标检索跟踪方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960069A (zh) * | 2018-06-05 | 2018-12-07 | 天津大学 | 一种用于单阶段物体检测器的增强上下文的方法 |
US20200126241A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Multi-Object Tracking using Online Metric Learning with Long Short-Term Memory |
CN111428539A (zh) * | 2019-01-09 | 2020-07-17 | 成都通甲优博科技有限责任公司 | 目标跟踪方法及装置 |
CN111754546A (zh) * | 2020-06-18 | 2020-10-09 | 重庆邮电大学 | 一种基于多特征图融合的目标跟踪方法、系统及存储介质 |
CN111860398A (zh) * | 2020-07-28 | 2020-10-30 | 河北师范大学 | 遥感图像目标检测方法、系统及终端设备 |
CN112489081A (zh) * | 2020-11-30 | 2021-03-12 | 北京航空航天大学 | 一种视觉目标跟踪方法及装置 |
-
2021
- 2021-04-19 CN CN202110417474.6A patent/CN113129345A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960069A (zh) * | 2018-06-05 | 2018-12-07 | 天津大学 | 一种用于单阶段物体检测器的增强上下文的方法 |
US20200126241A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Multi-Object Tracking using Online Metric Learning with Long Short-Term Memory |
CN111428539A (zh) * | 2019-01-09 | 2020-07-17 | 成都通甲优博科技有限责任公司 | 目标跟踪方法及装置 |
CN111754546A (zh) * | 2020-06-18 | 2020-10-09 | 重庆邮电大学 | 一种基于多特征图融合的目标跟踪方法、系统及存储介质 |
CN111860398A (zh) * | 2020-07-28 | 2020-10-30 | 河北师范大学 | 遥感图像目标检测方法、系统及终端设备 |
CN112489081A (zh) * | 2020-11-30 | 2021-03-12 | 北京航空航天大学 | 一种视觉目标跟踪方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537169A (zh) * | 2021-09-16 | 2021-10-22 | 深圳市信润富联数字科技有限公司 | 手势识别方法、设备、存储介质和计算机程序产品 |
CN113537169B (zh) * | 2021-09-16 | 2022-02-15 | 深圳市信润富联数字科技有限公司 | 手势识别方法、设备、存储介质和计算机程序产品 |
CN113947616A (zh) * | 2021-09-23 | 2022-01-18 | 北京航空航天大学 | 一种基于层级化感知机的智能目标跟踪及丢失重检方法 |
CN113947616B (zh) * | 2021-09-23 | 2022-08-30 | 北京航空航天大学 | 一种基于层级化感知机的智能目标跟踪及丢失重检方法 |
CN115830075A (zh) * | 2023-02-20 | 2023-03-21 | 武汉广银飞科技发展有限公司 | 一种面向行人多目标跟踪的分级关联匹配方法 |
CN116091551A (zh) * | 2023-03-14 | 2023-05-09 | 中南大学 | 一种基于多模态融合的目标检索跟踪方法及系统 |
CN116091551B (zh) * | 2023-03-14 | 2023-06-20 | 中南大学 | 一种基于多模态融合的目标检索跟踪方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113129345A (zh) | 一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法 | |
Xu et al. | Multimodal cross-layer bilinear pooling for RGBT tracking | |
Tu et al. | ORSI salient object detection via multiscale joint region and boundary model | |
CN112258554B (zh) | 基于注意力机制的双流层次孪生网络目标跟踪方法 | |
CN111754546A (zh) | 一种基于多特征图融合的目标跟踪方法、系统及存储介质 | |
CN109087337B (zh) | 基于分层卷积特征的长时间目标跟踪方法及系统 | |
CN113902991A (zh) | 一种基于级联特征融合的孪生网络目标跟踪方法 | |
Wang et al. | Hierarchical spatiotemporal context-aware correlation filters for visual tracking | |
CN111523463A (zh) | 基于匹配-回归网络的目标跟踪方法及训练方法 | |
CN111709268A (zh) | 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置 | |
CN116128944A (zh) | 一种基于特征交互和可靠对应关系估计的三维点云配准方法 | |
CN116311353A (zh) | 基于特征融合的密集行人多目标跟踪方法、计算机设备和存储介质 | |
CN114724185A (zh) | 一种轻量型的多人姿态跟踪方法 | |
CN115239765A (zh) | 基于多尺度可形变注意力的红外图像目标跟踪系统及方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN114492755A (zh) | 基于知识蒸馏的目标检测模型压缩方法 | |
CN114066844A (zh) | 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法 | |
CN112883928A (zh) | 一种基于深度神经网络的多目标追踪算法 | |
CN113112547A (zh) | 机器人及其重定位方法、定位装置及存储介质 | |
Fan et al. | Discriminative siamese complementary tracker with flexible update | |
CN112257686B (zh) | 人体姿态识别模型的训练方法、装置及存储介质 | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 | |
CN114494972A (zh) | 一种结合通道选择与位置优化的目标跟踪方法及系统 | |
CN113379794A (zh) | 基于注意力-关键点预测模型的单目标跟踪系统及方法 | |
CN111612816A (zh) | 运动目标跟踪的方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210716 |
|
RJ01 | Rejection of invention patent application after publication |