CN109493364A - 一种结合残差注意力和上下文信息的目标跟踪算法 - Google Patents
一种结合残差注意力和上下文信息的目标跟踪算法 Download PDFInfo
- Publication number
- CN109493364A CN109493364A CN201811124724.1A CN201811124724A CN109493364A CN 109493364 A CN109493364 A CN 109493364A CN 201811124724 A CN201811124724 A CN 201811124724A CN 109493364 A CN109493364 A CN 109493364A
- Authority
- CN
- China
- Prior art keywords
- frame
- residual error
- characteristic pattern
- target
- tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明请求保护一种结合残差注意力网络和上下文信息的目标跟踪算法,该算法首先将跟踪的视频序列中的第一帧传到卷积层里面得到256张特征图,然后将第一帧的特征图传到残差注意力网络里面得到残差特征图。然后将残差特征图和卷积层特征图结合得到残差响应图。同时将上一帧和当前帧同时传到卷积网络层里面来提取特征图,然后将第一帧的残差响应图,上一帧和当前帧的特征图同时传到三个全连接层里面来预测当前帧中跟踪目标的位置。最后通多输出层来输出当前帧中跟踪目标左上角和右下角的坐标位置。本发明提高了跟踪算法在目标遮挡等复杂情况下的准确率和鲁棒性。
Description
技术领域
本发明属于图像处理技术领域,特别涉及基于卷积神经网络的残差注意力机制和融合上下文信息的目标跟踪方法以及两种方法的结合。
背景技术
目标跟踪算法是计算机视觉领域里面的一个重要的方向有着广泛的应用。越来越多的学者都致力于目标跟踪算法的研究。目标跟踪算法主要分为以下两种:传统的目标跟踪算法、基于卷积神经网络的跟踪算法。
传统的目标跟踪算法主要分为产生式模型和判别式模型。生成式模型是将跟踪问题看做搜索与跟踪目标最相近的图像区域,主要包括采用稀疏表示模型、密度估计模型、增量子空间模型等等。判别式模型主要是利用在线学习或者离线训练检测器来区分背景和目标,找出目标所在的位置。这些跟踪算法通常基于多实例学习、P-N学习、结构化支持向量机(support vector machine SVM)等分类器。传统算法中由于相关滤波器在计算效率的优异性能,使其在目标跟踪领域备受关注。其中一种具有平均误差的滤波器跟踪速度可以达到每秒百帧。同时一种基于相关滤波的CSK跟踪算法,解决了密集采样问题,并利用了傅里叶变换快速实现了检测过程完成了跟踪。
基于卷积神经网络的目标跟踪算法主要分为三大类:基于分类的卷积神经网络目标跟踪、基于回归的卷积神经网络目标跟踪、基于相似度匹配的卷积神经网络目标跟踪。基于分类的卷积神经网络目标跟踪充分的利用了卷积神经网络特征提取和分类的强大能力,通过离线训练和再现微调的方法利用大量的数据离线训练网络,使网络获得通用特征表达能力,再利用第一帧目标周围的正负样本的信息在线微调,大大减少了对于样本的需求,基于回归的卷积神经网络目标跟踪通过输出的热度图直接回归出当前帧中跟踪目标所在的位置。基于相似度匹配的卷积神经网络目标跟踪是将跟踪视频序列中的第一帧或者上一帧作为模板,使用模板和候选区域来进行相似度匹配,相似度最高的区域就是我们要跟踪的目标位置。
虽然跟踪算法众多但是仍然存在着一些问题,在复杂场景中仍存在目标形变、光照变化、快速运动、相似背景干扰、遮挡和尺度变化等问题。基于卷积神经网络的跟踪算法虽然可以取得出色的跟踪效果,但是这些算法存在着计算量大,运行速度慢的问题很难达到实时跟踪。基于卷积神经网络的GOTURN算法虽然可以达到每秒百帧但是存在着准确率低,鲁棒性差的问题。我们的算法在孪生网络的基础上增加了残差注意网络和融合了上下文信息,使得我们的算法在兼顾速度的基础上提升了跟踪精度。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提升了跟踪精度的结合残差注意力和上下文信息的目标跟踪算法。本发明的技术方案如下:
一种结合残差注意力和上下文信息的目标跟踪算法,其包括以下步骤:
S1、将第一帧已经标注好的的跟踪目标区域,上一帧已经预测的区域和当前帧的搜索区域同时传到卷积层,得到第一帧的卷积特征图、上一帧的卷积特征图及当前帧的卷积特征图;
S2、将第一帧的卷积特征图送到残差注意力网络经过五层卷积操作得到残差特征图;
S3、将第一帧的卷积特征图和残差特征图进行乘积操作得到残差响应特征图;
S4、将第一帧的残差特征响应图、上一帧和当前帧的卷积特征图传到全连接层,通过全连接层将卷积层二维的特征图转成一维的向量,通过全连接层来学习第一帧,上一帧和当前帧三者之间的时空关系;
S5、将全连接层的结果输出到输出层得到最后的跟踪结果。
进一步的,所述步骤S1的卷积层是使用的CaffeNet(一种深度学习网络结构)网络的前五层卷积层,使用CaffNet在Imagenet(深度学习一种用来训练分类的图片数据集)分类训练的参数模型来初始化网络参数。
进一步的,所述步骤S2的残差注意力网络主要是由5层卷积层组成,分别有两层下采样,一层1*1的卷积层,还有两层上采样。第一帧目标区域通过残差网络之后可以得到第一帧的残差特征图。
进一步的,所述步骤S3将得到的残差特征图Mi,c(x)和第一帧的卷积特征图Fi,c(x)进行元素乘积操作,得到第一帧跟踪目标的残差特征响应图 Mi,c(x)*Fi,c(x)。
进一步的,所述S4将第一帧的残差特征响应图、上一帧和当前帧的卷积特征图传到全连接层,通过全连接层将卷积层二维的特征图转成一维的向量,通过全连接层来学习第一帧,上一帧和当前帧三者之间的时空关系;
进一步的,所述步骤S5的输出层本质上是由全连接层组成,输出通道数为 4,4分别代表跟踪目标的左上角和右下角在当前帧的坐标值。
本发明的优点及有益效果如下:
本发明将残差注意力和跟踪目标上下文信息相结合,利用残差注意力网络来提取跟踪目标的高响应残差特征图提高跟踪算法在复杂场景下的鲁棒性。利用上下文信息具有很高的鲁棒性和实时性,建立跟踪目标和它周围信息的时空关系。时间上下文帮助我们目标位置,而空间上下文则能提供更精确的信息帮助我们区分目标和背景。基于以上两点我们的算法可以在兼顾速度的情况下提高跟踪的准确率。
附图说明
图1是本发明提供优选实施例结合残差注意力和上下文信息的目标跟踪算法的流程图;
图2A为其他主流算法的结果图;图2B为本算法的结果图;
图3为残差注意力网络结构。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明的方法流程如图1所示。
本发明涉及了我们跟踪算法的跟踪结果图例如图2、残差注意力网络的网络结构图如图3。
具体步骤:
步骤S1:我们将第一帧跟踪目标区域,上一帧的预测区域和当前帧的搜索区域同时传到卷积层来提取特征图,我们的卷积层是使用的CaffeNet网络的前五层卷积层,使用CaffNet在Imagenet分类训练的CaffeModel来初始化我们的网络参数。
步骤S2:将第一帧在卷积层里面得到的特征图传到残差注意力网络里面,残差注意力网络主要是由5层卷积层组成,分别有两层下采样,一层1*1的卷积层,还有两层上采样。第一帧目标区域通过残差网络之后可以得到第一帧的残差特征图。
步骤S3:将我们得到的残差特征图Mi,c(x)和第一帧的卷积特征图Fi,c(x) 进行元素乘积操作,得到第一帧跟踪目标的残差特征响应图Mi,c(x)*Fi,c(x)。
步骤S4:将第一帧的残差特征响应图、上一帧的预测区域和当前帧的搜索区域的卷积特征图同时传到全连接层里面。
步骤S5:将全连接层的结果传到输出层里面得到最后的跟踪结果。我们的输出层本质上是由全连接层组成,输出通道数为4。4分别代表跟踪目标的左上角和右下角在当前帧的坐标值。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (6)
1.一种结合残差注意力和上下文信息的目标跟踪算法,其特征在于,包括以下步骤:
S1、将已经标注好的第一帧跟踪目标区域,上一帧已经预测的跟踪目标区域和当前帧的搜索区域同时传到卷积层,得到第一帧的卷积特征图、上一帧的卷积特征图及当前帧的卷积特征图;
S2、将第一帧的卷积特征图送到残差注意力网络经过五层卷积操作得到残差特征图;
S3、将第一帧的卷积特征图和残差特征图进行乘积操作得到残差响应特征图;
S4、将第一帧的残差特征响应图、上一帧和当前帧的卷积特征图传到全连接层,通过全连接层将卷积层二维的特征图转成一维的向量,通过全连接层来学习第一帧,上一帧和当前帧三者之间的时空关系;
S5、将全连接层的结果输出到输出层得到最后的跟踪结果。
2.根据权利要求1所述的一种结合残差注意力和上下文信息的目标跟踪算法,其特征在于,所述步骤S1的卷积层是使用的CaffeNet深度学习网络的前五层卷积层,使用CaffNet在Imagenet图片数据集分类训练的参数模型来初始化网络参数。
3.根据权利要求1或2所述的一种结合残差注意力和上下文信息的目标跟踪算法,其特征在于,所述步骤S2的残差注意力网络主要是由5层卷积层组成,分别有两层下采样,一层1*1的卷积层,还有两层上采样。第一帧目标区域通过残差网络之后可以得到第一帧的残差特征图。
4.根据权利要求3所述的一种结合残差注意力和上下文信息的目标跟踪算法,其特征在于,所述步骤S3将得到的残差特征图Mi,c(x)和第一帧的卷积特征图Fi,c(x)进行元素乘积操作,得到第一帧跟踪目标的残差特征响应图Mi,c(x)*Fi,c(x)。
5.根据权利要求4所述的一种结合残差注意力和上下文信息的目标跟踪算法,其特征在于,所述S4将第一帧的残差特征响应图、上一帧和当前帧的卷积特征图传到全连接层,通过全连接层将卷积层二维的特征图转成一维的向量,通过全连接层来学习第一帧,上一帧和当前帧三者之间的时空关系。
6.根据权利要求5所述的一种结合残差注意力和上下文信息的目标跟踪算法,其特征在于,所述步骤S5的输出层本质上是由全连接层组成,输出通道数为4,4分别代表跟踪目标的左上角和右下角在当前帧的坐标值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811124724.1A CN109493364A (zh) | 2018-09-26 | 2018-09-26 | 一种结合残差注意力和上下文信息的目标跟踪算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811124724.1A CN109493364A (zh) | 2018-09-26 | 2018-09-26 | 一种结合残差注意力和上下文信息的目标跟踪算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109493364A true CN109493364A (zh) | 2019-03-19 |
Family
ID=65689952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811124724.1A Pending CN109493364A (zh) | 2018-09-26 | 2018-09-26 | 一种结合残差注意力和上下文信息的目标跟踪算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109493364A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993774A (zh) * | 2019-03-29 | 2019-07-09 | 大连理工大学 | 基于深度交叉相似匹配的在线视频目标跟踪方法 |
CN110246160A (zh) * | 2019-06-20 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 视频目标的检测方法、装置、设备及介质 |
CN110349176A (zh) * | 2019-06-28 | 2019-10-18 | 华中科技大学 | 基于三重卷积网络和感知干扰学习的目标跟踪方法和系统 |
CN110443852A (zh) * | 2019-08-07 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种图像定位的方法及相关装置 |
CN110675423A (zh) * | 2019-08-29 | 2020-01-10 | 电子科技大学 | 一种基于孪生神经网络和注意力模型的无人机跟踪方法 |
CN110807793A (zh) * | 2019-09-29 | 2020-02-18 | 南京大学 | 一种基于孪生网络的目标跟踪方法 |
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
CN111627038A (zh) * | 2020-05-27 | 2020-09-04 | 杭州王道控股有限公司 | 一种背景去除方法、装置、设备及可读存储介质 |
CN113269808A (zh) * | 2021-04-30 | 2021-08-17 | 武汉大学 | 视频小目标跟踪方法和装置 |
CN113689464A (zh) * | 2021-07-09 | 2021-11-23 | 西北工业大学 | 一种基于孪生网络的自适应多层响应融合的目标跟踪方法 |
CN113763417A (zh) * | 2020-12-10 | 2021-12-07 | 四川大学 | 一种基于孪生网络和残差结构的目标跟踪方法 |
CN113947618A (zh) * | 2021-10-20 | 2022-01-18 | 哈尔滨工业大学 | 基于调制器的自适应回归跟踪方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090097704A1 (en) * | 2007-10-10 | 2009-04-16 | Micron Technology, Inc. | On-chip camera system for multiple object tracking and identification |
CN105957105A (zh) * | 2016-04-22 | 2016-09-21 | 清华大学 | 基于行为学习的多目标跟踪方法及系统 |
-
2018
- 2018-09-26 CN CN201811124724.1A patent/CN109493364A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090097704A1 (en) * | 2007-10-10 | 2009-04-16 | Micron Technology, Inc. | On-chip camera system for multiple object tracking and identification |
CN105957105A (zh) * | 2016-04-22 | 2016-09-21 | 清华大学 | 基于行为学习的多目标跟踪方法及系统 |
Non-Patent Citations (3)
Title |
---|
FEI WANG ET.AL: "Residual Attention Network for Image Classification", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
JUNG UK KIM ET.AL: "Robust and Real-Time Visual Tracking with Triplet Convolutional Neural Network", 《THEMATIC WORKSHOPS’17》 * |
QIANG WANG ET.AL: "Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking", 《CVPR2018》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993774B (zh) * | 2019-03-29 | 2020-12-11 | 大连理工大学 | 基于深度交叉相似匹配的在线视频目标跟踪方法 |
CN109993774A (zh) * | 2019-03-29 | 2019-07-09 | 大连理工大学 | 基于深度交叉相似匹配的在线视频目标跟踪方法 |
CN110246160A (zh) * | 2019-06-20 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 视频目标的检测方法、装置、设备及介质 |
CN110246160B (zh) * | 2019-06-20 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 视频目标的检测方法、装置、设备及介质 |
CN110349176A (zh) * | 2019-06-28 | 2019-10-18 | 华中科技大学 | 基于三重卷积网络和感知干扰学习的目标跟踪方法和系统 |
CN110443852A (zh) * | 2019-08-07 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种图像定位的方法及相关装置 |
CN110443852B (zh) * | 2019-08-07 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种图像定位的方法及相关装置 |
CN110675423A (zh) * | 2019-08-29 | 2020-01-10 | 电子科技大学 | 一种基于孪生神经网络和注意力模型的无人机跟踪方法 |
CN110807793A (zh) * | 2019-09-29 | 2020-02-18 | 南京大学 | 一种基于孪生网络的目标跟踪方法 |
CN110807793B (zh) * | 2019-09-29 | 2022-04-22 | 南京大学 | 一种基于孪生网络的目标跟踪方法 |
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
CN111179314B (zh) * | 2019-12-30 | 2023-05-02 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
CN111627038A (zh) * | 2020-05-27 | 2020-09-04 | 杭州王道控股有限公司 | 一种背景去除方法、装置、设备及可读存储介质 |
CN111627038B (zh) * | 2020-05-27 | 2021-05-11 | 杭州王道控股有限公司 | 一种背景去除方法、装置、设备及可读存储介质 |
CN113763417B (zh) * | 2020-12-10 | 2023-07-21 | 四川大学 | 一种基于孪生网络和残差结构的目标跟踪方法 |
CN113763417A (zh) * | 2020-12-10 | 2021-12-07 | 四川大学 | 一种基于孪生网络和残差结构的目标跟踪方法 |
CN113269808A (zh) * | 2021-04-30 | 2021-08-17 | 武汉大学 | 视频小目标跟踪方法和装置 |
CN113269808B (zh) * | 2021-04-30 | 2022-04-15 | 武汉大学 | 视频小目标跟踪方法和装置 |
CN113689464A (zh) * | 2021-07-09 | 2021-11-23 | 西北工业大学 | 一种基于孪生网络的自适应多层响应融合的目标跟踪方法 |
CN113947618A (zh) * | 2021-10-20 | 2022-01-18 | 哈尔滨工业大学 | 基于调制器的自适应回归跟踪方法 |
CN113947618B (zh) * | 2021-10-20 | 2023-08-29 | 哈尔滨工业大学 | 基于调制器的自适应回归跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493364A (zh) | 一种结合残差注意力和上下文信息的目标跟踪算法 | |
Rocco et al. | Efficient neighbourhood consensus networks via submanifold sparse convolutions | |
Kishore et al. | Indian classical dance action identification and classification with convolutional neural networks | |
CN109858406B (zh) | 一种基于关节点信息的关键帧提取方法 | |
CN110070074B (zh) | 一种构建行人检测模型的方法 | |
Xia et al. | An evaluation of deep learning in loop closure detection for visual SLAM | |
CN108647694A (zh) | 基于上下文感知和自适应响应的相关滤波目标跟踪方法 | |
CN104036287A (zh) | 一种基于人类运动显著轨迹的视频分类方法 | |
Gong et al. | Pagerank tracker: From ranking to tracking | |
Xie et al. | Hierarchical coding of convolutional features for scene recognition | |
Deng et al. | A voxel graph cnn for object classification with event cameras | |
Yue et al. | Action recognition based on RGB and skeleton data sets: A survey | |
CN105956517A (zh) | 一种基于密集轨迹的动作识别方法 | |
CN116030097B (zh) | 基于双重注意力特征融合网络的目标跟踪方法与系统 | |
Ullah et al. | Analysis of deep neural networks for human activity recognition in videos—a systematic literature review | |
CN111027586A (zh) | 一种基于新型响应图融合的目标跟踪方法 | |
CN113129345A (zh) | 一种基于多特征图融合和多尺度膨胀卷积的目标跟踪方法 | |
Xu et al. | Hierarchical convolution fusion-based adaptive Siamese network for infrared target tracking | |
Cui et al. | A survey on unsupervised anomaly detection algorithms for industrial images | |
Lv et al. | Deep hashing for motion capture data retrieval | |
Lee et al. | Graph convolution neural network-based data association for online multi-object tracking | |
Xie et al. | RGB-D object tracking with occlusion detection | |
CN105956604B (zh) | 一种基于两层时空邻域特征的动作识别方法 | |
CN111242003B (zh) | 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法 | |
Zhang | [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |