CN113205544B - 基于交并比估计的空间注意力强化学习跟踪方法 - Google Patents
基于交并比估计的空间注意力强化学习跟踪方法 Download PDFInfo
- Publication number
- CN113205544B CN113205544B CN202110457606.8A CN202110457606A CN113205544B CN 113205544 B CN113205544 B CN 113205544B CN 202110457606 A CN202110457606 A CN 202110457606A CN 113205544 B CN113205544 B CN 113205544B
- Authority
- CN
- China
- Prior art keywords
- mask
- module
- target object
- cross
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002787 reinforcement Effects 0.000 title claims abstract description 36
- 230000011218 segmentation Effects 0.000 claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 230000006870 function Effects 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 26
- 238000001514 detection method Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000005728 strengthening Methods 0.000 abstract 1
- 230000000007 visual effect Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 6
- 238000003909 pattern recognition Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000338 in vitro Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003612 virological effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000701 chemical imaging Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于交并比估计的空间注意力强化学习跟踪方法,本发明提出在深度强化学习跟踪算法的基础上,利用交并比估计深度网络模块实现对目标物体的边框估计;提出引入物体分割深度网络来实现可变形空间注意力,相比经典基于颜色特征的空间注意力生方法更加精确;在注意力生成方法中,本发明提出利用物体分割结合一定先验知识的思想来生成目标物体的空间注意力。本发明对所提出基于交并比估计的空间注意力强化学习跟踪算法进行了实现,并且在OTB2013、OTB50、OTB100、UAV123和VOT2019这五个数据集上进行了验证。在这五个数据集上大量的实验表明,在跟踪精度上,本发明所提出的算法达到了先进水平。
Description
技术领域
本发明属于本发明属于计算机视觉技术领域,具体涉及数字图像的目标跟踪技术领域中的基于交并比估计的空间注意力强化学习跟踪方法。
背景技术
近年来,深度学习和强化学习被广泛应用在计算机视觉任务中,其中深度学习所提供的强大的特征表达能力为数字图像处理及模式识别任务奠定了重要基础,在此基础之上,研究者们提出了多种不同的深度网络架构来适应不同的计算机视觉任务。D.Danelljan等人[1]研究了卷积网络特征对目标跟踪任务的影响,他们发现第一层的激活具有比其他更深层更好的跟踪性能。B.Luca等人[2]提出了孪生网络的跟踪方法,作者将目标跟踪理解为一种在线匹配问题,跟踪的实质即为将目标模板图像在搜索图像中进行滑动匹配,具有最高相似度的图像块即为当前帧中的目标,为实现这样的思想,作者提出利用两个具有相同结构、相同参数的深度卷积网络分别对目标模板图像和搜索图像提取特征,然后采用互相关(Cross-correlation)实现高效的滑动窗口匹配.H.Nam等人[3]提出了一种多域训练的深度网络(Multi-domain convolutional neural networks,MDNet)模型,作者通过多域网络来解决面向跟踪任务的网络训练时所遇到的目标物体和背景物体的类别混淆问题,相比孪生网络,作者采用更新的VGG[4]深度网络作为特征提取的骨干网络并取得了良好的效果。为了在深度网络训练的过程更好地调整网络初始参数,E.Park等人[5]利用元学习(Meta-learning)[6]思想,通过两次梯度计算加快模型收敛速度。J.Choi等人[7]从另一个角度来应用元学习思想,在提出的跟踪算法中,作者通过元学习快速捕获目标物体的外观特信息以实现特征融合,将最具有判别性的特征保留下来,从而提升跟踪质量.Z.Zhu等人[8]受到深度光流网络(FlowNet)[9]的启发,提出利用深度光流捕获目标物体的运动特征。S.Pu等人[10]提出了一种基于互学习思想的跟踪算法,该算法通过网络反向传播的偏导数来计算图像特征的注意力图,并将其作为正则项来迭代训练深度网络.。S.Dong等人[11]提出了一种三元损失(Triple loss)的跟踪算法,作者在所提出的跟踪算法中通过三元损失以实现更多样本的训练,从而提供更优质的图像表示。为解决多域网络跟踪算法的实时性较弱的问题,Y.Li等人[12]提出了一种对图像进行相似变换以进行匹配的方法以解决物体的角度变化问题,所提出的跟踪算法可以更好地估计物体的矩形边框。为了进一步深度学习跟踪器的判别能力,G.Bhat等人[13]提出了一种模型预测方法来估计更加准确的目标物体外观模型,从而提升跟踪器的判别性能.Y.Wang等人[14]提出了一种基于数据增强的方法来补充训练数据,并且利用散列矩阵(Hash matrix)来降低深度图像特征的维度。N.Wang等人[15]利用跟踪场景下的前后一致性,并采用多帧综合验证,提出了一种无监督的深度学习跟踪算法。
早期基于深度学习的跟踪算法中,网络参数主要通过图像分类任务训练后得到,这样会导致跟踪算法难以发挥其最大潜力,为解决这一问题,Z.Zhu等人[16]提出了一种联合卷积跟踪器(Unified convolutional tracker,UCT),在提出的算法中,该框架可以在跟踪的过程中同时学习物体的特征表示。在基于深度学习的跟踪算法中,一个突出问题是训练的目标图像数量与背景图像数量存在极大的不平衡,这容易导致模型退化,为解决该问题,X.Lu等人[17]提出了一种收缩损失(Shrinkage loss),通过该损失方法降低简单样本(Easy samples)的重要性,维持困难样本(Hard samples)的重要性.紧接着,为了解决基于区域建议网络跟踪算法在干扰场景下性能退化的问题,Z.Zhu等人[18]提出了一种对干扰敏感的跟踪算法,在提出的算法中,作者对滑动窗口匹配产生的响应图(Response map)进行干预,抑制目标物体周围干扰因素的部分,所提出的算法被称为DaSiamRPN跟踪算法。H.Fan等人[19]为了解决基于区域建议网络在干扰物和物体显著尺度变化下的退化问题,提出了一种将区域建议网络进行级联的思想,通过更加合理的时序来应对困难样本。Z.Zhang等人[20]在孪生深度网络跟踪的基础上,通过研究网络卷积结构对跟踪性能的影响,提出了一种更深和更宽(Deeper and wider)的目标跟踪网络结构。自2017年开始,在基于深度学习的跟踪方法中,研究者们也开始将目光投向深度强化学习(Deepreinforcement learning)[21],通过强化学习使跟踪器学会捕捉目标物体的运动信息,这样可以在复杂环境下更好地应对物体受到干扰的现象。S.Yun等人[22]提出了一种动作驱动的强化学习跟踪方法,作者在提出的跟踪算法中将强化学习用于对物体的定位,在这个过程中,作者利用策略梯度方法对网络进行训练使跟踪器学习对目标物体进行定位.J.Supancic等人[23]等人利用策略学习思想,将目跟踪看作一个可观察的动态决策过程,在跟踪过程中动态决定模型更新,而不再使用传统跟踪算法中普遍采用的启发式更新方法。B.Zhong等人[24]采用由粗到细的思想利用深度强化学习对目标物体进行跟踪,作者将运动搜索作为强化学习中的动作决策问题来理解,所提出的跟踪算法利用基于递归卷积神经网络(Recurrent convolutional neural network,RCNN)[25]的深度Q网络来有效对目标的搜索策略.为进一步提升滑动窗口匹配的实时性,Z.Teng等人[26]将跟踪问题看作为一个三步决策过程,作者使用Q-learning来学习跟踪器的定位动作,并且以合作的方式来训练模型。
现有的目标跟踪技术主要存在以下几个问题:
1.在当前大多数基于深度强化学习的跟踪方法中,研究者们普遍将重点放在了确定目标的中心位置上,对目标在每一帧中的边框如何精确界定这一问题尚未展开足够的研究。而在目标跟踪任务中,确定目标物体在每一帧中的矩形边框是一项非常重要的任务,它关系到如何表达目标物体的所占据的空间尺度,仅仅利用固定宽高比缩放的方式难以适应复杂情况下的物体形变。
2.在复杂环境下,被跟踪物体的空间上下文往往充斥着大量的噪声信号,特别是纹理丰富的高频信号,它们会对跟踪器产生诸如相似纹理、相似形态方面的干扰,其提供的图像表征往往与目标物体近似。而当前研究界对这类问题的研究尚不够深入,算法容易发生错误判断,将背景的噪声当作待跟踪的目标物体,影响跟踪器对目标位置的估计,造成跟踪发生偏移甚至是目标丢失。
3.当前的目标跟踪算法中,大多数算法仅仅输出目标的坐标及对应估计的矩形边框,然而在实际应用中,作为计算机视觉中的重要任务,目标跟踪和物体分割的联系非常紧密。目标跟踪可以为视频中的物体输出估计的坐标及矩形框,而物体分割则可以基于此输出更加精确的、属于目标物体的像素级区域。如何能够利用物体分割的结果来提升跟踪任务的性能,亦是一个对研究界非常有帮助的课题。
[文献1]M.Danelljan,G.F.S.Khan,and M.Felsberg.Convolutionalfeatures for correlation filter based visual tracking.In 2015IEEEInternational Conference on Computer Vision Workshop(ICCVW),pages 621–629,Dec2015.
[文献2]Luca Bertinetto,Jack Valmadre,F.Henriques,Andrea Vedaldi,and Philip H.S.Torr.Fully-convolutional siamese networks for objecttracking.In Gang Hua and HervéJégou,editors,Computer Vision–ECCV2016Workshops,pages850–865,Cham,2016.Springer International Publishing.
[文献3]H.Nam and B.Han.Learning multi-domain convolutional neuralnetworks for visual tracking.In2016 IEEE Conference on Computer Vision andPattern Recognition(CVPR),pages 4293–4302,June 2016.
[文献4]Karen Simonyan and Andrew Zisserman.Very deep convolutionalnetworks for large-scale image recognition.In International Conference onLearning Representations,2015.
[文献5]Eunbyung Park and Alexander C.Berg.Meta-tracker:Fast androbust online adaptation for visual object trackers.In Vittorio Ferrari,Martial Hebert,Cristian Sminchisescu,and Yair Weiss,editors,Computer Vision–ECCV 2018,pages 587–604,Cham,2018.Springer International Publishing.
[文献6]Bruno Almeida Pimentel and AndréC.P.L.F.de Carvalho.Ameta-learning approach for recommending the number of clusters for clusteringalgorithms.Knowledge-Based Systems,page 105682,2020.
[文献7]J.Choi,J.Kwon,and K.M.Lee.Deep meta learning for real-timetarget-aware visual tracking.In 2019IEEE/CVF International Conference onComputer Vision(ICCV),pages 911–920,Oct 2019.
[文献8]Z.Zhu,W.Wu,W.Zou,and J.Yan.End-to-end flow correlationtracking with spatialtemporal attention.In 2018IEEE/CVF Conference onComputer Vision and Pattern Recognition,pages 548–557,June 2018.
[文献9]A.Dosovitskiy,P.Fischer,E.Ilg,P.C.Hazirbas,V.Golkov,P.v.d.Smagt,D.Cremers,and T.Brox.Flownet:Learning optical flow withconvolutional networks.In 2015IEEE International Conference on ComputerVision(ICCV),pages 2758–2766,Dec 2015.
[文献10]Shi Pu,Yibing Song,Chao Ma,Honggang Zhang,and Ming-HsuanYang.Deep attentive tracking via reciprocative learning.In S.Bengio,H.Wallach,H.Larochelle,K.Grauman,N.Cesa-Bianchi,and R.Garnett,editors,Advances in Neural Information Processing Systems 31,pages 1931–1941.CurranAssociates,Inc.,2018.
[文献11]Xingping Dong and Jianbing Shen.Triplet loss in siamesenetwork for object tracking.In Vittorio Ferrari,Martial Hebert,CristianSminchisescu,and Yair Weiss,editors,Computer Vision–ECCV 2018,pages 472–488,Cham,2018.Springer International Publishing.
[文献12]Yang Li,Jianke Zhu,Steven Hoi,Wenjie Song,Zhefeng Wang,andHantang Liu.Robust estimation of similarity transformation for visual objecttracking.AAAI 2019:Thirty-Third AAAI Conference on Artificial Intelligence,33(1):8666–8673,2019.
[文献13]G.Bhat,M.Danelljan,L.Van Gool,and R.Timofte.Learningdiscriminative model prediction for tracking.In 2019IEEE/CVF InternationalConference on Computer Vision(ICCV),pages 6181–6190,Oct 2019.
[文献14]Yong Wang,Xian Wei,Xuan Tang,Hao Shen,and Lu Ding.Cnntracking based on data augmentation.Knowledge-Based Systems,page 105594,2020.
[文献15]N.Wang,Y.Song,C.Ma,W.Zhou,W.Liu,and H.Li.Unsupervised deeptracking.In 2019IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR),pages 1308–1317,June 2019.
[文献16]Z.Zhu,G.Huang,W.Zou,D.Du,and C.Huang.Uct:Learning unifiedconvolutional networksforreal-timevisualtracking.In2017 IEEE InternationalConference on Computer Vision Workshops(ICCVW),pages 1973–1982,Oct 2017.
[文献17]Xiankai Lu,Chao Ma,Bingbing Ni,Xiaokang Yang,Ian Reid,andMing-Hsuan Yang.Deep regression tracking with shrinkage loss.In VittorioFerrari,Martial Hebert,Cristian Sminchisescu,and Yair Weiss,editors,ComputerVision–ECCV 2018,pages 369–386,Cham,2018.Springer International Publishing.
[文献18]Zheng Zhu,Qiang Wang,Bo Li,Wei Wu,Junjie Yan,and WeimingHu.Distractor-aware siamese networks for visual object tracking.In VittorioFerrari,Martial Hebert,Cristian Sminchisescu,and Yair Weiss,editors,ComputerVision–ECCV 2018,pages 103–119,Cham,2018.Springer International Publishing.
[文献19]H.FanandH.Ling.Siamese cascade dregion proposal networks forreal-time visual tracking.In 2019IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR),pages 7944–7953,June 2019.
[文献20]Z.Zhang and H.Peng.Deeper and wider siamese networks forreal-time visual tracking.In 2019IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR),pages 4586–4595,June 2019.
[文献21]Y.Keneshloo,T.Shi,N.Ramakrishnan,and C.K.Reddy.Deepreinforcement learning for sequence-to-sequence models.IEEE Transactions onNeural Networks and Learning Systems,pages 1–21,2019.
[文献22]S.Yun,J.Choi,Y.Yoo,K.Yun,and J.Y.Choi.Action-driven visualobject tracking with deepreinforcementlearning.IEEE Transactions on NeuralNetworks and Learning Systems,29(6):2239–2252,June 2018.
[文献23]J.Supancic and D.Ramanan.Tracking as online decision-making:Learning a policy from streaming videos with reinforcement learning.In2017IEEE International Conference on Computer Vision(ICCV),pages 322–331,Oct2017.
[文献24]B.Zhong,B.Bai,J.Li,Y.Zhang,and Y.Fu.Hierarchical tracking byreinforcement learning-based searching and coarse-to-fine verifying.IEEETransactions on Image Processing,28(5):2331–2341,May 2019.
[文献25]L.Mou,L.Bruzzone,and X.X.Zhu.Learning spectral-spatial-temporal features via a recurrent convolutional neural network for changedetection in multispectral imagery.IEEE Transactions on Geoscience and RemoteSensing,57(2):924–935,Feb 2019.
[文献26]Zhu Teng,Baopeng Zhang,and Jianping Fan.Three-step actionsearch networks with deep Q-learning for real-time object tracking.PatternRecognition,101:107188,2020.
发明内容
为了解决上述技术问题,本发明提出了基于交并比估计的空间注意力强化学习跟踪算法。
本发明所采用的技术方案是:一种基于交并比估计的空间注意力强化学习跟踪算法,包含强化学习预定位模块、交并比估计模块和空间注意力模块三个部分。这三个部分的网络分别独立进行端到端训练,从而可以更加灵活地适应它们各自的任务。本发明将基于强化学习的视频目标跟踪理解为一个二阶段问题,首先利用强化学习预定位模块对目标运动信息的捕捉能力来确定目标物体的中心点坐标,然后利用交并比估计模块进一步确定物体的边框,并且,在该过程中,本发明提出利用基于物体分割的方法来实现可变形空间注意力以抑制背景噪声,这既是本发明提出算法与相关工作不同的地方,也是本发明的创新之处。本发明提出利用基于物体分割网络的方法来学习目标物体的空间注意力,在分割区域的基础上融合先验图像分布来适应物体运动过程中的形变,从而更好地抑制背景噪声.在多个数据集上进行的大量实验表明,所提出的跟踪算法与当前领先的跟踪算法相比取得了富有竞争力的结果。在跟踪任务中,本发明主要包括如下几个步骤:
步骤1,初始化网络模型,包括强化学习预定位模块、交并比估计模块和空间注意力模块;
所述强化学习预定位模块包括两组并行的主干网络和卷积模块,然后将经过卷积模块处理后得到的特征向量进行拼接,输入到全连接层中,实现目标物体的预定位;
步骤2,将模板帧和检测帧第t帧分别输入到主干网络中,得到模板帧特征图和检测帧特征图,将模板帧特征图输入到卷积模块,得到模板帧特征向量;
步骤3,将检测帧第t-1帧输入到空间注意力模块得到可变形空间注意图;
步骤4,将可变形空间注意图与检测帧特征图进行逐像素相乘,然后输入到卷积模块中得到检测帧特征向量;
步骤5,将模板帧特征向量与检测帧特征向量进行拼接,然后经过一个全连接层中,实现目标物体的预定位,求出目标物体的中心点的位置偏移;
步骤6,将目标物体的中心点的位置偏移输入到交并比估计模块,利用随机方法在目标物体中心点位置生成多个具有不同宽高比例的矩形框,这些矩形框均属于候选框,然后计算得出这些候选框的IOU得分,并根据IOU得分进行排序,得到IOU得分最高的矩形框,获得目标物体的宽和高。
进一步的,所述主干网络结构包括两个结构相同的卷积池化模块,卷积池化模块包括一个卷积层、一个ReLU层、一个局部响应归一化层和一个池化层。
进一步的,采用基于演员Actor-评论家Critic模式的DDPG算法对强化学习预定位模块进行训练,Actor是跟踪定位动作的执行者,Critic是对动作执行效果的评价者,首先定义奖励函数为:
其中,p表示模块定位到的目标位置,G表示训练数据中对应的groundtruth;函数IoU(·)表示对Actor标定的矩形框和ground-truth计算交并比数值,在具备ground-truth的情况下,计算模块预测矩形边框与真实标记边框之间的重叠率,以作为对Actor奖励的依据,若重叠率大于某个阈值,Critic就认为Actor跟踪到了目标,此时的奖励为+1;否则,Critic认为Actor丢失了目标,此时给予的奖励为-1;
根据DDPG算法,用L2 Loss为Critic建立损失函数:
进一步的,所述空间注意力模块包括掩码系数网络模块与可变形空间注意力模块,所述掩码系数网络模块通过FPN网络作为图像的特征提取骨干网络,得到的特征金字塔分别用于原型掩码和掩码系数的生成,具体实现过程如下:
首先根据融合强化学习预定位模块与交并比估计模块的定位结果进行采样,其公式为:
m'=Samp(p,pad)
其中,p表示目标物体标定的位置,pad表示采样图像范围相对于目标物体的扩展参数,Samp(·,·)表示采样过程,m′表示采样得到的图像块;
利用FPN进行特征提取的数学公式为:
m'1=ψ1(m')
其中函数ψ1(·)表示基于FPN的骨干网络对输入的图像块提取特征,m′1表示得到的特征金字塔;
将特征金字塔m′1分别输入到一个原型掩码分支和一个预测分支,分别产生关于采样图像的原型掩码m′ψp和掩码系数m′ψc,其公式为:
其中,函数ψ2(·)表示预测网络,其作用是产生掩码系数,函数ψ3(·)为原型网络,其作用是生成原型掩码;函数N(·)表示非极大值抑制操作,其作用是在生成掩码系数过程中消除冗余的检测边框,使保留的信息更加精确,从而有利于产生更加精确的掩码,提升跟踪过程中对目标物体的空间注意力;
得出的原型掩码m′ψp是一个多通道掩码张量,它包含有k个通道,不同的通道数据中表示不同层级语义信息;掩码系数m′ψc是一个包含k个元素的向量,每一个元素值表示原型掩码中相应通道的权重,然后利用通道级乘法对两者进行融合,使得出的掩码更为精确,其融合公式为:
最后,对融合后的掩码m′ψa进行裁剪和阈值化处理,得到关于目标的分割掩码m′,其公式为:
其中,函数ψ4(·)表示对经过通道级乘法融合后的掩码进行的裁剪和阈值过滤操作。
进一步的,在得到目标物体的分割掩码后,利用可变形空间注意力模块对该分割掩码进行后处理生成最终的空间注意力图,具体流程如下;
首先为了适应目标物体在帧间可能存在的像素尺度放大现象,将分割掩码m′进行尺度变化,其公式为:
m's=Resize(m',mag)
其中m′表示分割掩码,mag表示放大倍率参数,m′s表示扩大尺度后的分割掩码;
接下来,为适应目标物体在帧间可能产生的形变,对分割掩码进行边缘模糊操作,其数学公式为:
m'b=Blur(ms',rad)
其中函数Blur(·,·)表示模糊操作,参数rad表示配置的模糊半径,m′b表示模糊后的分割掩码;
为了使分割掩码能够适应物体形变,引入叶帕涅齐尼科夫核,利用该核所包含的物体像素区域所包含的先验信息与分割掩码进行融合,最终得到更加具有适应性的空间注意力图m,其数学公式为:
m=m'b⊙q
在上式中,m表示最终的空间注意力矩阵,符号⊙表示矩阵元素级乘法,q表示叶帕涅齐尼科夫核,在一维数据下,其计算公式为:
其中,核函数的平滑程度是由参数σ表征的,r指核函数的输入,为一维数据;在图像领域,将其推广到二维表达式,其计算公式为:
其中,x,y代表图像中像素点坐标。
进一步的,所述交并比估计模块采用了孪生网络的基础结构,它包含有两个网络分支:目标模板图像分支和测试分支;对目标物体的中心点的位置偏移进行交并比估计采样作为测试分支输入,在目标模板图像分支,首先对模板图像和测试图像分别进行特征提取,并且进行池化操作得到测试图像特征图后,网络进一步将数据进行前向计算,通过全连接网络层对测试图像特征图进行处理,得到调制向量,该调制向量的作用是为目标物体与待估计的图像建立起关联,形成调制特征,最后交并比估计模块对该特征数据进行最后一组前向计算,通过全连接层计算出最终的IoU估计值。
本发明对所提出基于交并比估计的空间注意力强化学习跟踪方法进行了实现,并且在OTB2013、OTB50、OTB100、UAV123和VOT2019这五个数据集上进行了验证。在这五个数据集上大量的实验表明,在跟踪精度上,本发明所提出的算法达到了先进水平。
附图说明
图1是本发明实施例总体网络结构示意图。
图2是本发明实施例强化学习预定位模块的骨干网络结构示意图。
图3是本发明实施例交并比的估计模块结构图。
图4是本发明实施例掩码系数的网络结构图。
图5是本发明实施例的空间注意力生成示意图。
图6是本发明实施例在多个视频序列中与其他多种先进的目标跟踪算法的跟踪效果对比。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明做进一步详细说明应当理解,此处描述的具体实施例仅用以解释本发明,并不用于限定本发明。
基于交并比估计的空间注意力强化学习跟踪算法,其主要思想是:将基于强化学习的视频目标跟踪理解为一个二阶段问题(Twostage problem),首先利用深度强化学习对目标运动信息的捕捉能力来确定目标物体的中心点坐标,然后利用交并比估计网络进一步确定物体的边框,并且,在该过程中,提出利用基于物体分割的方法来实现可变形空间注意力以抑制背景噪声。从而使得跟踪器在跟踪过程中有优秀的性能表现。总体网络结构图请见图1。
步骤1,初始化网络模型,包括强化学习预定位模块、交并比估计模块和空间注意力模块;
所述强化学习预定位模块包括两组并行的主干网络和卷积模块,然后将经过卷积模块处理后得到的特征向量进行拼接,输入到全连接层中,实现目标物体的预定位;
如图2所示,所述主干网络结构包括两个结构相同的卷积池化模块,卷积池化模块包括一个卷积层、一个ReLU层、一个局部响应归一化层和一个池化层。
步骤2,将模板帧和检测帧第t帧分别输入到主干网络中,得到模板帧特征图和检测帧特征图,将模板帧特征图输入到卷积模块,得到模板帧特征向量;
步骤3,将检测帧第t-1帧输入到空间注意力模块得到可变形空间注意图;
步骤4,将可变形空间注意图与检测帧特征图进行逐像素相乘,然后输入到卷积模块中得到检测帧特征向量;
步骤5,将模板帧特征向量与检测帧特征向量进行拼接,然后经过一个全连接层中,实现目标物体的预定位,求出目标物体的中心点的位置偏移;
步骤6,将目标物体的中心点的位置偏移输入到交并比估计模块,利用随机方法在目标物体中心点位置生成多个具有不同宽高比例的矩形框,这些矩形框均属于候选框,然后计算得出这些候选框的IOU得分,并根据IOU得分进行排序,得到IOU得分最高的矩形框,获得目标物体的宽和高。
而且,采用基于演员Actor-评论家Critic模式的DDPG算法对强化学习预定位模块进行训练,Actor是跟踪定位动作的执行者,Critic是对动作执行效果的评价者,首先定义奖励函数为:
其中,p表示模块定位到的目标位置,G表示训练数据中对应的groundtruth;函数IoU(·)表示对Actor标定的矩形框和ground-truth计算交并比数值,在具备ground-truth的情况下,计算模块预测矩形边框与真实标记边框之间的重叠率,以作为对Actor奖励的依据,若重叠率大于某个阈值,Critic就认为Actor跟踪到了目标,此时的奖励为+1;否则,Critic认为Actor丢失了目标,此时给予的奖励为-1;
根据DDPG算法,用L2 Loss为Critic建立损失函数:
如图4所示,所述空间注意力模块包括掩码系数网络模块与可变形空间注意力模块,所述掩码系数网络模块通过FPN网络作为图像的特征提取骨干网络,得到的特征金字塔分别用于原型掩码和掩码系数的生成,具体实现过程如下:
首先根据融合强化学习预定位模块与交并比估计模块的定位结果进行采样,其公式为:
m'=Samp(p,pad)
其中,p表示目标物体标定的位置,pad表示采样图像范围相对于目标物体的扩展参数,Samp(·,·)表示采样过程,m′表示采样得到的图像块;
利用FPN进行特征提取的数学公式为:
m'1=ψ1(m')
其中函数ψ1(·)表示基于FPN的骨干网络对输入的图像块提取特征,m′1表示得到的特征金字塔;
将特征金字塔m′1分别输入到一个原型掩码分支和一个预测分支,分别产生关于采样图像的原型掩码m′ψp和掩码系数m′ψc,其公式为:
其中,函数ψ2(·)表示预测网络,其作用是产生掩码系数,函数ψ3(·)为原型网络,其作用是生成原型掩码;函数N(·)表示非极大值抑制操作,其作用是在生成掩码系数过程中消除冗余的检测边框,使保留的信息更加精确,从而有利于产生更加精确的掩码,提升跟踪过程中对目标物体的空间注意力;
得出的原型掩码m′ψp是一个多通道掩码张量,它包含有k个通道,不同的通道数据中表示不同层级语义信息;掩码系数m′ψc是一个包含k个元素的向量,每一个元素值表示原型掩码中相应通道的权重,然后利用通道级乘法对两者进行融合,使得出的掩码更为精确,其融合公式为:
最后,对融合后的掩码m′ψa进行裁剪和阈值化处理,得到关于目标的分割掩码m′,其公式为:
其中,函数ψ4(·)表示对经过通道级乘法融合后的掩码进行的裁剪和阈值过滤操作。
如图5所示,,在得到目标物体的分割掩码后,利用可变形空间注意力模块对该分割掩码进行后处理生成最终的空间注意力图,具体流程如下;
首先为了适应目标物体在帧间可能存在的像素尺度放大现象,将分割掩码m′进行尺度变化,其公式为:
m's=Re size(m',mag)
其中m′表示分割掩码,mag表示放大倍率参数,m′s表示扩大尺度后的分割掩码;
接下来,为适应目标物体在帧间可能产生的形变,对分割掩码进行边缘模糊操作,其数学公式为:
m'b=Blur(ms',rad)
其中函数Blur(·,·)表示模糊操作,参数rad表示配置的模糊半径,m′b表示模糊后的分割掩码;
为了使分割掩码能够适应物体形变,引入叶帕涅齐尼科夫核,利用该核所包含的物体像素区域所包含的先验信息与分割掩码进行融合,最终得到更加具有适应性的空间注意力图m,其数学公式为:
m=m'b⊙q
在上式中,m表示最终的空间注意力矩阵,符号⊙表示矩阵元素级乘法,q表示叶帕涅齐尼科夫核,在一维数据下,其计算公式为:
其中,核函数的平滑程度是由参数σ表征的,r指核函数的输入,为一维数据;在图像领域,将其推广到二维表达式,其计算公式为:
其中,x,y代表图像中像素点坐标。
如图3所示,所述交并比估计模块采用了孪生网络的基础结构,它包含有两个网络分支:目标模板图像分支和测试分支;对目标物体的中心点的位置偏移进行交并比估计采样作为测试分支输入,在目标模板图像分支,首先对模板图像和测试图像分别进行特征提取,并且进行池化操作得到测试图像特征图后,网络进一步将数据进行前向计算,通过全连接网络层对测试图像特征图进行处理,得到调制向量,该调制向量的作用是为目标物体与待估计的图像建立起关联,形成调制特征,最后交并比估计模块对该特征数据进行最后一组前向计算,通过全连接层计算出最终的IoU估计值。
应理解,上述实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围中。
Claims (6)
1.基于交并比估计的空间注意力强化学习跟踪方法,其特征在于,包括如下步骤:
步骤1,初始化网络模型,包括强化学习预定位模块、交并比估计模块和空间注意力模块;
所述强化学习预定位模块包括两组并行的主干网络和卷积模块,然后将经过卷积模块处理后得到的特征向量进行拼接,输入到全连接层中,实现目标物体的预定位;
步骤2,将模板帧和检测帧第t帧分别输入到主干网络中,得到模板帧特征图和检测帧特征图,将模板帧特征图输入到卷积模块,得到模板帧特征向量;
步骤3,将检测帧第t-1帧输入到空间注意力模块得到可变形空间注意图;
步骤4,将可变形空间注意图与检测帧特征图进行逐像素相乘,然后输入到卷积模块中得到检测帧特征向量;
步骤5,将模板帧特征向量与检测帧特征向量进行拼接,然后经过一个全连接层中,实现目标物体的预定位,求出目标物体的中心点的位置偏移;
步骤6,将目标物体的中心点的位置偏移输入到交并比估计模块,利用随机方法在目标物体中心点位置生成多个具有不同宽高比例的矩形框,这些矩形框均属于候选框,然后计算得出这些候选框的IOU得分,并根据IOU得分进行排序,得到IOU得分最高的矩形框,获得目标物体的宽和高。
2.如权利要求1所述的基于交并比估计的空间注意力强化学习跟踪方法,其特征在于:主干网络结构包括两个结构相同的卷积池化模块,卷积池化模块包括一个卷积层、一个ReLU层、一个局部响应归一化层和一个池化层。
3.如权利要求1所述的基于交并比估计的空间注意力强化学习跟踪方法,其特征在于:采用基于演员Actor-评论家Critic模式的DDPG算法对强化学习预定位模块进行训练,Actor是跟踪定位动作的执行者,Critic是对动作执行效果的评价者,首先定义奖励函数为:
其中,p表示模块定位到的目标位置,G表示训练数据中对应的groundtruth;函数IoU(·)表示对Actor标定的矩形框和ground-truth计算交并比数值,在具备ground-truth的情况下,计算模块预测矩形边框与真实标记边框之间的重叠率,以作为对Actor奖励的依据,若重叠率大于某个阈值,Critic就认为Actor跟踪到了目标,此时的奖励为+1;否则,Critic认为Actor丢失了目标,此时给予的奖励为-1;
根据DDPG算法,用L2 Loss为Critic建立损失函数:
4.如权利要求1所述的基于交并比估计的空间注意力强化学习跟踪方法,其特征在于:空间注意力模块包括掩码系数网络模块与可变形空间注意力模块,所述掩码系数网络模块通过FPN网络作为图像的特征提取骨干网络,得到的特征金字塔分别用于原型掩码和掩码系数的生成,具体实现过程如下:
首先根据融合强化学习预定位模块与交并比估计模块的定位结果进行采样,其公式为:
m'=Samp(p,pad)
其中,p表示目标物体标定的位置,pad表示采样图像范围相对于目标物体的扩展参数,Samp(·,·)表示采样过程,m′表示采样得到的图像块;
利用FPN进行特征提取的数学公式为:
m'1=ψ1(m')
其中函数ψ1(·)表示基于FPN的骨干网络对输入的图像块提取特征,m′1表示得到的特征金字塔;
将特征金字塔m′1分别输入到一个原型掩码分支和一个预测分支,分别产生关于采样图像的原型掩码m′ψp和掩码系数m′ψc,其公式为:
其中,函数ψ2(·)表示预测网络,其作用是产生掩码系数,函数ψ3(·)为原型网络,其作用是生成原型掩码;函数N(·)表示非极大值抑制操作,其作用是在生成掩码系数过程中消除冗余的检测边框,使保留的信息更加精确,从而有利于产生更加精确的掩码,提升跟踪过程中对目标物体的空间注意力;
得出的原型掩码m′ψp是一个多通道掩码张量,它包含有k个通道,不同的通道数据中表示不同层级语义信息;掩码系数m′ψc是一个包含k个元素的向量,每一个元素值表示原型掩码中相应通道的权重,然后利用通道级乘法对两者进行融合,使得出的掩码更为精确,其融合公式为:
最后,对融合后的掩码m′ψa进行裁剪和阈值化处理,得到关于目标的分割掩码m”,其公式为:
其中,函数ψ4(·)表示对经过通道级乘法融合后的掩码进行的裁剪和阈值过滤操作。
5.如权利要求4所述的基于交并比估计的空间注意力强化学习跟踪方法,其特征在于:在得到目标物体的分割掩码后,利用可变形空间注意力模块对该分割掩码进行后处理生成最终的空间注意力图,具体流程如下;
首先为了适应目标物体在帧间存在的像素尺度放大现象,将分割掩码m”进行尺度变化,其公式为:
m's=Resize(m”,mag)
其中m”表示分割掩码,mag表示放大倍率参数,m′s表示扩大尺度后的分割掩码;
接下来,为适应目标物体在帧间产生的形变,对分割掩码进行边缘模糊操作,其数学公式为:
m'b=Blur(ms',rad)
其中函数Blur(·,·)表示模糊操作,参数rad表示配置的模糊半径,m′b表示模糊后的分割掩码;
为了使分割掩码能够适应物体形变,引入叶帕涅齐尼科夫核,利用该核所包含的物体像素区域所包含的先验信息与分割掩码进行融合,最终得到更加具有适应性的空间注意力图m,其数学公式为:
m=m'b⊙q
在上式中,m表示最终的空间注意力矩阵,符号⊙表示矩阵元素级乘法,q表示叶帕涅齐尼科夫核,在一维数据下,其计算公式为:
其中,核函数的平滑程度是由参数σ表征的,r指核函数的输入,为一维数据;在图像领域,将其推广到二维表达式,其计算公式为:
其中,x,y代表图像中像素点坐标。
6.如权利要求1所述的基于交并比估计的空间注意力强化学习跟踪方法,其特征在于:交并比估计模块采用了孪生网络的基础结构,它包含有两个网络分支:目标模板图像分支和测试分支;对目标物体的中心点的位置偏移进行交并比估计采样作为测试分支输入,在目标模板图像分支,首先对模板图像和测试图像分别进行特征提取,并且进行池化操作得到测试图像特征图后,进一步将数据进行前向计算,通过全连接网络层对测试图像特征图进行处理,得到调制向量,调制向量的作用是为目标物体与待估计的图像建立起关联,形成调制特征,最后交并比估计模块对该特征数据进行最后一组前向计算,通过全连接层计算出最终的IoU估计值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110457606.8A CN113205544B (zh) | 2021-04-27 | 2021-04-27 | 基于交并比估计的空间注意力强化学习跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110457606.8A CN113205544B (zh) | 2021-04-27 | 2021-04-27 | 基于交并比估计的空间注意力强化学习跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113205544A CN113205544A (zh) | 2021-08-03 |
CN113205544B true CN113205544B (zh) | 2022-04-29 |
Family
ID=77028946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110457606.8A Expired - Fee Related CN113205544B (zh) | 2021-04-27 | 2021-04-27 | 基于交并比估计的空间注意力强化学习跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113205544B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647694A (zh) * | 2018-04-24 | 2018-10-12 | 武汉大学 | 基于上下文感知和自适应响应的相关滤波目标跟踪方法 |
KR20190125702A (ko) * | 2018-04-30 | 2019-11-07 | 전자부품연구원 | 딥러닝 기반의 추적 모듈에서 코사인 거리와 교차 영역을 활용한 추적 최적화 방법 |
WO2020215492A1 (zh) * | 2019-04-23 | 2020-10-29 | 江南大学 | 基于YOLOv3多伯努利视频多目标检测跟踪方法 |
CN112258554A (zh) * | 2020-10-07 | 2021-01-22 | 大连理工大学 | 基于注意力机制的双流层次孪生网络目标跟踪方法 |
CN112258557A (zh) * | 2020-10-23 | 2021-01-22 | 福州大学 | 一种基于空间注意力特征聚合的视觉跟踪方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291679B (zh) * | 2020-02-06 | 2022-05-27 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN112164094A (zh) * | 2020-09-22 | 2021-01-01 | 江南大学 | 一种基于孪生网络的快速视频目标跟踪方法 |
-
2021
- 2021-04-27 CN CN202110457606.8A patent/CN113205544B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647694A (zh) * | 2018-04-24 | 2018-10-12 | 武汉大学 | 基于上下文感知和自适应响应的相关滤波目标跟踪方法 |
KR20190125702A (ko) * | 2018-04-30 | 2019-11-07 | 전자부품연구원 | 딥러닝 기반의 추적 모듈에서 코사인 거리와 교차 영역을 활용한 추적 최적화 방법 |
WO2020215492A1 (zh) * | 2019-04-23 | 2020-10-29 | 江南大学 | 基于YOLOv3多伯努利视频多目标检测跟踪方法 |
CN112258554A (zh) * | 2020-10-07 | 2021-01-22 | 大连理工大学 | 基于注意力机制的双流层次孪生网络目标跟踪方法 |
CN112258557A (zh) * | 2020-10-23 | 2021-01-22 | 福州大学 | 一种基于空间注意力特征聚合的视觉跟踪方法 |
Non-Patent Citations (4)
Title |
---|
Robust correlation filter tracking with multi-scale spatial view;Yafu Xiao 等;《Neurocomputing》;20190511;第119-140页 * |
Spatial–Semantic and Temporal Attention Mechanism-Based Online Multi-Object Tracking;Fanjie Meng 等;《sensors》;20200316;第1-19页 * |
基于时空上下文正则的孪生网络目标跟踪;张文幡 等;《武汉大学学报(理学版)》;20200430;第66卷(第2期);第177-189页 * |
基于空间注意力机制的视觉多目标跟踪;侯建华 等;《中南民族大学学报(自然科学版)》;20200831;第39卷(第4期);第413-419页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113205544A (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816689B (zh) | 一种多层卷积特征自适应融合的运动目标跟踪方法 | |
CN111144376B (zh) | 视频目标检测特征提取方法 | |
CN111860414B (zh) | 一种基于多特征融合检测Deepfake视频方法 | |
Huang et al. | Joint blur kernel estimation and CNN for blind image restoration | |
CN111311647B (zh) | 一种基于全局-局部及卡尔曼滤波的目标跟踪方法及装置 | |
CN109345474A (zh) | 基于梯度域和深度学习的图像运动模糊盲去除方法 | |
WO2019071976A1 (zh) | 基于区域增长和眼动模型的全景图像显著性检测方法 | |
CN112183675B (zh) | 一种基于孪生网络的针对低分辨率目标的跟踪方法 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
Chen et al. | Multiframe-to-multiframe network for video denoising | |
CN115937254B (zh) | 一种基于半监督学习的多空中飞行目标跟踪方法和系统 | |
CN111931722B (zh) | 一种结合颜色比率特征的相关滤波跟踪方法 | |
CN114333062B (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN110135435B (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
Chen et al. | DOF: A demand-oriented framework for image denoising | |
Li et al. | AMDFNet: Adaptive multi-level deformable fusion network for RGB-D saliency detection | |
WO2024082602A1 (zh) | 一种端到端视觉里程计方法及装置 | |
CN113205544B (zh) | 基于交并比估计的空间注意力强化学习跟踪方法 | |
Bai et al. | Restoration of turbulence-degraded images based on deep convolutional network | |
Zhang et al. | A two-stage restoration of distorted underwater images using compressive sensing and image registration | |
CN116188535A (zh) | 基于光流估计的视频跟踪方法、装置、设备及存储介质 | |
Yang et al. | Video deblurring Via 3d CNN and fourier accumulation learning | |
Lu et al. | Siamese Graph Attention Networks for robust visual object tracking | |
CN111292357B (zh) | 一种基于相关滤波的视频帧间快速运动估计方法 | |
CN114067240A (zh) | 一种融合行人特性的在线更新策略行人单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220429 |
|
CF01 | Termination of patent right due to non-payment of annual fee |