CN111724410A - 一种基于残余注意力的目标跟踪方法 - Google Patents
一种基于残余注意力的目标跟踪方法 Download PDFInfo
- Publication number
- CN111724410A CN111724410A CN202010448979.4A CN202010448979A CN111724410A CN 111724410 A CN111724410 A CN 111724410A CN 202010448979 A CN202010448979 A CN 202010448979A CN 111724410 A CN111724410 A CN 111724410A
- Authority
- CN
- China
- Prior art keywords
- network
- residual attention
- target
- tracking
- target tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于残余注意力的目标跟踪方法,步骤1:构建基于残余注意力的目标跟踪网络;步骤2:训练基于残余注意力的目标跟踪网络;步骤3:实施目标跟踪;其中,所述残余注意力的目标跟踪网络的构建由特征提取网络、残余注意力网络和二分类网络组成;本发明针对目标跟踪算法跟踪过程中背景物体响应度过高,背景物体和目标有时易混淆等问题,使用残余注意力机制增强目标特征的权重并抑制背景物体特征的权重,进而提高跟踪器的跟踪准确度,具有跟踪精度高、鲁棒性强等优点。
Description
技术领域
本发明涉及计算机视觉的图像处理领域,尤其涉及一种基于残余注意力的目标跟踪方法。
背景技术
现代目标跟踪(Object Tracking)算法分为两类。一类基于相关滤波(CorrelationFilter),该跟踪算法利用循环相关的属性并在傅立叶域中执行运算来训练回归器,它可以进行在线跟踪并同时有效地更新过滤器的权重。另一类基于强大的深度学习网络(Deep Learning Network),其中二阶段的检测跟踪框架成为主流:第一阶段绘制目标对象周围的稀疏样本集,第二阶段使用卷积神经网络将每个样本分类为目标对象或背景。
2018年,有研究者在基于深度学习的图像处理领域中引入注意力机制(AttentionMechanism)。在图像处理领域,注意力机制的工作方法是改变图像某些特征的权重,从而使感兴趣的特征得到更多关注,不感兴趣的特征得到更少关注。其中最常用的是空间注意力(Spatial Attention)机制和通道注意力(Channel Attention)机制。
首先被引入的是空间注意力机制:有学者在孪生网络中引入了空间注意力机制,提出了DA-Siam网络。利用神经网络的学习能力,得到一个与输入图像特征矩阵相同尺寸的权重矩阵,该矩阵能够自动学习哪些特征是重要的,哪些特征是不重要的。该权重矩阵被用来与输入图像特征矩阵相乘,以提高目标特征的数值并降低背景特征的数值。
然后被引入的是通道注意力机制:有学者在孪生网络中加入通道注意力模块,提出了SA-Siam网络。利用神经网络的学习能力,得到一个与输入通道数量相同的权重数列,该数列能够学习不同图像通道的重要性,并以权重的形式表现出来。该权重数列被用来与每个输入通道相乘,以提高一些重要通道对最终跟踪结果的影响。
还有一些混合注意力机制被引入,这类注意力机制主要是对上述两种注意力机制的混合。
在基于检测跟踪框架的目标跟踪网络中,一个关键步骤是在上一帧目标框的周围生成大量的提议框,而杂乱的背景会使很多区域的响应度太高,影响提议框的选择,降低跟踪网络的速度和精度。以上这些注意力机制只能提高被跟踪目标的权重,而不能做到抑制大多数的背景物体。因为在目标跟踪网络中多次使用相同的注意力机制会导致梯度消失,反而会使跟踪效果变差。而只在网络中使用一次注意力机制无法抑制所有的背景物体。因此需要一种能够叠加使用而不会降低跟踪效果的注意力机制,来抑制大部分背景物体的权重,提高被跟踪目标的权重,从而提高目标跟踪的效果。
发明内容
本发明的目的在于提出一种基于残余注意力的目标跟踪方法,适合在背景物体特征杂乱的视频中进行稳定的跟踪。针对目标跟踪算法跟踪过程中背景物体响应度过高,背景物体和目标有时易混淆等问题,使用残余注意力机制增强目标特征的权重并抑制背景物体特征的权重,进而提高跟踪器的跟踪准确度,具有跟踪精度高、鲁棒性强等优点。
有益效果
利用本发明提出的一种基于残余注意力的目标跟踪方法,引入残余注意力机制,增强目标特征的权重并抑制背景物体特征的权重,适合在背景物体特征杂乱或与被跟踪目标相似的视频中进行稳定的跟踪。该方法可以有效提高跟踪器的准确度和鲁棒性。
附图说明
图1残余注意力计算模块计算过程图
具体实施方式
以下结合附图,对本发明做出详细说明如下。
基于残余注意力的目标跟踪方法流程如下:
步骤1:构建基于残余注意力的目标跟踪网络。该目标跟踪网络由检测跟踪框架的目标跟踪网络和残余注意力网络组合而成。基于残余注意力的目标跟踪网络的构建由2步构成:
1.建立残余注意力计算模块
每个残余注意力计算模块用于增强部分目标特征或抑制部分背景物体特征,其计算过程如图1所示。输入图像特征矩阵,经过三个3×3卷积层和三个3×3反卷积层,将得到一个与输入图像特征矩阵大小相同的权重矩阵。将该权重矩阵与输入图像特征矩阵相乘,再与输入图像特征矩阵相加,得到部分目标特征被增强、部分背景物体特征被抑制的图像特征矩阵。
在网络中引入多个残余注意力计算模块可以增强整个目标的特征并抑制大部分的背景物体特征。
图1中,输入的图像特征矩阵大小为n×n,连续使用3个步长为1的3×3卷积核进行卷积操作,得到(n-6)×(n-6)的矩阵,然后连续使用3个步长为1的3×3反卷积核进行反卷积操作,得到n×n的矩阵。将n×n的矩阵与输入的图像特征矩阵相乘,再与输入的图像特征矩阵相加,得到输出的n×n图像特征矩阵。
步骤1的第2步:选择VGG-16网络作为主要网络结构,其中特征提取网络采用VGG-16网络的前8层,二分类网络采用VGG-16网络的后11层;引入3个残余注意力计算模块,权重使用浮点数格式代替二值格式以使包含更多细节。
步骤2的第2、3步:网络的训练中,初始学习率为0.001,权重衰减为0.0005,批量大小为64,迭代f=10000次后将学习率改为0.0001,训练至焦点损失函数值在y=50次迭代内最大值与最小值相差小于h=1%。
2.构建残余注意力目标跟踪网络。
该网络采用特征提取网络、残余注意力网络和二分类网络组成。
特征提取网络用于提取输入图像的深度特征。可直接使用VGG、ImageNet等结构完善的网络的卷积层部分作为特征提取网络,然后将提取出的图像特征矩阵输入残余注意力网络。
残余注意力网络由多个残余注意力计算模块组成,用前一个残余注意力计算模块的输出作为下一个残余注意力计算模块的输入。残余注意力网络用于增强目标特征并抑制背景物体特征。残余注意力网络将权重更改后的图像特征矩阵输出至二分类网络。
二分类网络用于计算出目标坐标。该网络首先根据前一帧的跟踪框坐标,在以该框为中心的一定范围内生成大量的样本框,然后根据每个样本框中的图像特征矩阵,计算出每个框的分类概率,将分类概率最高的样本框作为目标的位置并输出坐标。
3.设置损失函数。基于残余注意力的目标跟踪网络使用焦点损失来训练,焦点损失函数可以使二分类网络的分类准确度得到提升,从而提升跟踪网络的跟踪效果。焦点损失函数被定义为:
FL(pt)=-αt(1-pt)γlog(pt)
其中,pt是对跟踪目标的分类概率,γ是个大于0的值,αt是个[0,1]区间内的小数,γ和αt都是固定值。γ和αt的最优值是相互影响的,所以在评估准确度时需要把两者组合起来调节。在训练的过程中将γ设置为2,将αt设置为0.25。
步骤2:训练基于残余注意力的目标跟踪网络。网络利用随机梯度下降法进行训练。网络的训练步骤如下:
1.构建数据集,将数据集划分为训练集和测试集。
2.初始化目标跟踪网络。不引入残余注意力网络,直接将特征提取网络与二分类网络相连组成目标跟踪网络,利用训练集和焦点损失函数训练网络,训练至f次迭代以上且焦点损失函数值在y次迭代内数值最大值与最小值相差小于h。
3.训练残余注意力网络。在上一步得到的网络中引入残余注意力网络,将特征提取网络和二分类网络中的所有参数固定,利用训练集和焦点损失函数训练残余注意力网络,训练至f次迭代以上且焦点损失函数值在y次迭代内最大值与最小值相差小于h。
4.重复第1步到第3步,训练多个基于残余注意力的目标跟踪网络,用测试集比较网络输出的坐标与真实坐标间的平均欧式距离,选择平均欧式距离最低的网络实施目标跟踪。
步骤3:实施目标跟踪。首先将第一帧的跟踪图像和目标位置标签输入跟踪网络,利用焦点损失函数训练二分类网络中的全连接层。输入后续图像,跟踪网络将输出目标的坐标,以此对目标物体进行准确、鲁棒的跟踪定位。
通过以上3步,便可利用本发明实现准确、鲁棒的目标跟踪定位。
Claims (5)
1.一种基于残余注意力的目标跟踪方法,包括如下步骤:
步骤1:构建基于残余注意力的目标跟踪网络;
步骤2:训练基于残余注意力的目标跟踪网络;
步骤3:实施目标跟踪;
其中,所述残余注意力的目标跟踪网络的构建包括:
建立残余注意力计算模块:每个所述的残余注意力计算模块用于增强部分目标特征或抑制部分背景物体特征,其计算过程输入图像特征矩阵,经过三个3×3卷积层和三个3×3反卷积层,将得到一个与输入图像特征矩阵大小相同的权重矩阵;将该权重矩阵与输入图像特征矩阵相乘,再与输入图像特征矩阵相加,得到部分目标特征被增强、部分背景物体特征被抑制的图像特征矩阵;
构建由特征提取网络、残余注意力网络和二分类网络组成的残余注意力目标跟踪网络。
2.根据权利要求1所述的一种基于残余注意力的目标跟踪方法,其特征在于:所述步骤2中训练基于残余注意力的目标跟踪网络包括如下步骤:
S1.构建数据集,将数据集划分为训练集和测试集;
S2.初始化目标跟踪网络:不引入残余注意力网络,直接将特征提取网络与二分类网络相连组成目标跟踪网络,利用训练集和焦点损失函数训练网络,训练至f次迭代以上且焦点损失函数值在y次迭代内数值最大值与最小值相差小于h;
S3.训练残余注意力网络:在上一步得到的网络中引入残余注意力网络,将特征提取网络和二分类网络中的所有参数固定,利用训练集和焦点损失函数训练残余注意力网络,训练至f次迭代以上且焦点损失函数值在y次迭代内最大值与最小值相差小于h;
S4.重复第1步到第3步,训练多个基于残余注意力的目标跟踪网络,用测试集比较网络输出的坐标与真实坐标间的平均欧式距离,选择平均欧式距离最低的网络实施目标跟踪。
3.根据权利要求1所述的一种基于残余注意力的目标跟踪方法,其特征在于:所述步骤3中实施目标跟踪包括如下步骤:
S1.将第一帧的跟踪图像和目标位置标签输入跟踪网络,利用焦点损失函数训练二分类网络中的全连接层;
S2.输入后续图像,跟踪网络将输出目标的坐标,以此对目标物体进行准确、鲁棒的跟踪定位。
4.根据权利要求1所述的一种基于残余注意力的目标跟踪方法,其特征在于:
所述特征提取网络用于提取输入图像的深度特征是直接完善的网络的卷积层部分作为特征提取网络,然后将提取出的图像特征矩阵输入残余注意力网络;
所述残余注意力网络由多个残余注意力计算模块组成,用前一个残余注意力计算模块的输出作为下一个残余注意力计算模块的输入,残余注意力网络用于增强目标特征并抑制背景物体特征,残余注意力网络将权重更改后的图像特征矩阵输出至二分类网络。
所述二分类网络用于计算出目标坐标:该网络首先根据前一帧的跟踪框坐标,在以该框为中心的一定范围内生成大量的样本框,然后根据每个样本框中的图像特征矩阵,计算出每个框的分类概率,将分类概率最高的样本框作为目标的位置并输出坐标。
5.根据权利要求1-4任一项所述的一种基于残余注意力的目标跟踪方法,其特征在于:
所述残余注意力的目标跟踪网络使用焦点损失函数损失来训练提高二分类网络的分类准确度,所述焦点损失函数被定义为:
FL(pt)=-αt(1-pt)γlog(pt)
其中,pt是对跟踪目标的分类概率,γ是个大于0的值,αt是个[0,1]区间内的小数,γ和αt都是固定值。γ和αt的最优值是相互影响的,所以在评估准确度时需要把两者组合起来调节。在训练的过程中将γ设置为2,将αt设置为0.25。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010448979.4A CN111724410A (zh) | 2020-05-25 | 2020-05-25 | 一种基于残余注意力的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010448979.4A CN111724410A (zh) | 2020-05-25 | 2020-05-25 | 一种基于残余注意力的目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111724410A true CN111724410A (zh) | 2020-09-29 |
Family
ID=72564960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010448979.4A Pending CN111724410A (zh) | 2020-05-25 | 2020-05-25 | 一种基于残余注意力的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111724410A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801182A (zh) * | 2021-01-27 | 2021-05-14 | 安徽大学 | 一种基于困难样本感知的rgbt目标跟踪方法 |
CN113077491A (zh) * | 2021-04-02 | 2021-07-06 | 安徽大学 | 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685831A (zh) * | 2018-12-20 | 2019-04-26 | 山东大学 | 基于残差分层注意力和相关性滤波器的目标跟踪方法及系统 |
CN109978921A (zh) * | 2019-04-01 | 2019-07-05 | 南京信息工程大学 | 一种基于多层注意力机制的实时视频目标跟踪算法 |
US20200065976A1 (en) * | 2018-08-23 | 2020-02-27 | Seoul National University R&Db Foundation | Method and system for real-time target tracking based on deep learning |
CN111144364A (zh) * | 2019-12-31 | 2020-05-12 | 北京理工大学重庆创新中心 | 一种基于通道注意更新机制的孪生网络目标跟踪方法 |
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
-
2020
- 2020-05-25 CN CN202010448979.4A patent/CN111724410A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200065976A1 (en) * | 2018-08-23 | 2020-02-27 | Seoul National University R&Db Foundation | Method and system for real-time target tracking based on deep learning |
CN109685831A (zh) * | 2018-12-20 | 2019-04-26 | 山东大学 | 基于残差分层注意力和相关性滤波器的目标跟踪方法及系统 |
CN109978921A (zh) * | 2019-04-01 | 2019-07-05 | 南京信息工程大学 | 一种基于多层注意力机制的实时视频目标跟踪算法 |
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
CN111144364A (zh) * | 2019-12-31 | 2020-05-12 | 北京理工大学重庆创新中心 | 一种基于通道注意更新机制的孪生网络目标跟踪方法 |
Non-Patent Citations (2)
Title |
---|
ARCH学灰: "《Focal Loss论文阅读笔记》", 《HTTPS://BLOG.CSDN.NET/QQ_34564947/ARTICLE/DETAILS/77200104》 * |
LONG GAO等: "《Residual Attention Convolutional Network for Online Visual Tracking》", 《ACCESS》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801182A (zh) * | 2021-01-27 | 2021-05-14 | 安徽大学 | 一种基于困难样本感知的rgbt目标跟踪方法 |
CN112801182B (zh) * | 2021-01-27 | 2022-11-04 | 安徽大学 | 一种基于困难样本感知的rgbt目标跟踪方法 |
CN113077491A (zh) * | 2021-04-02 | 2021-07-06 | 安徽大学 | 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 |
CN113077491B (zh) * | 2021-04-02 | 2023-05-02 | 安徽大学 | 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188685B (zh) | 一种基于双注意力多尺度级联网络的目标计数方法及系统 | |
CN110210551B (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN109685072B (zh) | 一种基于生成对抗网络的复合降质图像高质量重建方法 | |
CN111126134B (zh) | 基于非指纹信号消除器的雷达辐射源深度学习识别方法 | |
CN114067368B (zh) | 基于深度卷积特征的电网危害鸟种分类识别方法 | |
CN112766315B (zh) | 一种用于测试人工智能模型鲁棒性的方法和系统 | |
CN109655815B (zh) | 基于ssd的声呐目标检测方法 | |
CN111832484A (zh) | 一种基于卷积感知哈希算法的回环检测方法 | |
Huang et al. | Qualitynet: Segmentation quality evaluation with deep convolutional networks | |
CN111145145B (zh) | 一种基于MobileNets的图像表面缺陷检测方法 | |
CN111815526B (zh) | 基于图像滤波和cnn的有雨图像雨条纹去除方法及系统 | |
CN111724410A (zh) | 一种基于残余注意力的目标跟踪方法 | |
CN109345559B (zh) | 基于样本扩充和深度分类网络的运动目标跟踪方法 | |
CN111931820A (zh) | 一种基于卷积残差网络的水中目标辐射噪声lofar谱图线谱提取方法 | |
Yan et al. | Improved target detection algorithm based on YOLO | |
CN116402851A (zh) | 一种复杂背景下的红外弱小目标跟踪方法 | |
CN115631186A (zh) | 一种基于双分支神经网络的工业元件表面缺陷检测方法 | |
CN111739037A (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN117542045A (zh) | 一种基于空间引导自注意力的食品识别方法及系统 | |
CN115860113B (zh) | 一种自对抗神经网络模型的训练方法及相关装置 | |
CN113902044B (zh) | 一种基于轻量级yolov3的图像目标提取方法 | |
CN115565182A (zh) | 一种基于复杂度分组的手写汉字识别方法 | |
CN112052742B (zh) | 融合语义与像素特征的高分二号遥感影像水体提取方法 | |
Yuan et al. | GDCP-YOLO: Enhancing steel surface defect detection using lightweight machine learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200929 |
|
WD01 | Invention patent application deemed withdrawn after publication |