CN113158904A - 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置 - Google Patents
一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置 Download PDFInfo
- Publication number
- CN113158904A CN113158904A CN202110440397.6A CN202110440397A CN113158904A CN 113158904 A CN113158904 A CN 113158904A CN 202110440397 A CN202110440397 A CN 202110440397A CN 113158904 A CN113158904 A CN 113158904A
- Authority
- CN
- China
- Prior art keywords
- template
- tracking
- current frame
- weighted
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000003287 optical effect Effects 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 20
- 230000009977 dual effect Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 description 30
- 238000013135 deep learning Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000002401 inhibitory effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置,方法包括:将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;模板更新在图像级别而不是特征级别,原始图像比特征图有更高的空间分辨率可以更多关注目标的细节。装置包括:第一生成模块、第二生成模块、获取模块、模板更新模块,及跟踪模块。本发明实现了对模板的更新,能够提供鲁棒的模板,提高跟踪器的性能。
Description
技术领域
本发明涉及目标跟踪领域,尤其涉及一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置。
背景技术
随着大数据和人工智能的发展,大量媒体信息被传播和利用,其中视频信息的数量增长迅速,成为人们获得外界信息的主流方式。目标跟踪作为计算机视觉的一个重要领域,是视频信息处理和分析的一项基础性技术。目前,目标跟踪在智能视频监控、无人驾驶、人机交互等领域得到了广泛的应用。在这些应用中,获得目标物体的运动轨迹并作出相应的分析,使得对视频内容的理解和分析提供了一种重要的方式。
目标跟踪是指对于视频序列中,由初始帧指定的目标物体,在后续视频帧中持续推断目标物体的状态。目标物体的状态通常是指目标物体的位置和大小,使用矩形框来表示。目标跟踪算法大致可以分为早期目标跟踪算法、基于相关滤波的目标跟踪算法、基于深度学习的目标跟踪算法。目前主流算法是基于深度学习的目标跟踪算法,其中又可以分为基于孪生网络的目标跟踪算法和其他深度学习算法。基于孪生网络的目标跟踪算法最早在2016年的SiamFC[1]提出孪生网络的架构,使得跟踪器在速度和精确度上得到较好的平衡。近年来又不断的提出了性能更优的算法,如SiamRPN[2],SiamMask[3],Ocean[4]等。其他深度学习类的算法,主要代表有MDNet[5],ATOM[6],DiMP[7]等。
尽管目标跟踪领域在近些年来得到了快速的发展,但跟踪问题存在的挑战使得目标跟踪仍然是一项艰巨的任务。在跟踪的视频中,由于目标物体在不断的经历形变、遮挡、旋转、尺度变化和光照变换等,使得跟踪任务极具挑战性。如何以应对这些挑战是跟踪算法需要解决的问题。在跟踪的视频序列中,目标物体通常是由初始帧确定,使用初始帧生成的初始帧目标模板进行模板匹配是基于孪生网络的目标跟踪算法基本实现方式。仅使用初始帧目标模板的方式使得在目标经历较大形变的时候跟踪器容易丢失目标,因此对目标模板的更新是提升跟踪器性能的有效方法。现有模板更新的方法,如简单使用上一帧跟踪结果生成的目标模板进行模板匹配,由于跟踪结果不能自检,容易造成跟踪漂移。
发明内容
本发明提供了一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置,本发明利用语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果以及当前帧模板送入一个模板更新模块,并将此模块生成的模板与语义信息加权后的初始帧模板相加生成下一帧模板,本发明利用了多阶段训练策略来实现对模板更新模块的训练,本发明实现了对模板的更新,能够提供鲁棒的模板,提高跟踪器的性能,详见下文描述:
第一方面,一种基于双掩膜模板更新的孪生网络目标跟踪方法,所述方法包括:
在框架基础上,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果;
将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果;
将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果;
将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;
随机挑选若干个视频进行多阶段训练,训练后对目标进行跟踪。
在一种实施方式中,所述网络框架为SiamRPN++基础网络框架。
第二方面,一种基于双掩膜模板更新的孪生网络目标跟踪装置,所述装置包括:
第一生成模块,用于在框架基础上,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果;
第二生成模块,用于将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果;
获取模块,用于将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果;
模板更新模块,用于将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;
跟踪模块,用于随机挑选若干个视频进行多阶段训练,训练后对目标进行跟踪。
第三方面,一种基于双掩膜模板更新的孪生网络目标跟踪装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的所述的方法步骤。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明以SiamPRN++[8]为基础框架,使用实例分割掩膜生成模块生成的实例分割掩膜对初始帧模板以及当前帧跟踪结果进行加权,利用语义信息实现突出前景、抑制背景的作用;使用光流掩膜生成模块生成光流掩膜对当前帧跟踪结果进行加权,利用运动信息实现突出前景、抑制背景的作用;两种信息实现互补,使得跟踪器有效利用跟踪过程中产生的信息,为模板更新做准备;
2、本发明将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;模板更新在图像级别而不是特征级别,原始图像比特征图有更高的空间分辨率可以更多关注目标的细节;
3、通过基准数据库测试,本发明所提出的算法在鲁棒性以及指标EAO(平均重叠期望)上得到了提升。
附图说明
图1为一种基于双掩膜模板更新的孪生网络目标跟踪方法的流程图;
图2为基于双掩膜模板更新的孪生网络目标跟踪的网络框图;
图3为一种基于双掩膜模板更新的孪生网络目标跟踪装置的结构示意图;
图4为一种基于双掩膜模板更新的孪生网络目标跟踪装置的另一结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种基于双掩膜模板更新的孪生网络目标跟踪方法,参见图1,该方法包括以下步骤:
101:构建SiamRPN++基础网络框架;
其中,SiamRPN++网络建立在ResNet50[9]网络和RPN(区域推荐网络)[10]网络之上。网络结构由两个共享参数的ResNet50网络和三个RPN网络组成。其中,ResNet50为基本的特征提取网络,将不同深度卷积层提取出来的特征分别送入三个RPN网络中,由RPN网络内部的分类分支判断前景和背景、回归分支得到边界框的参数,将三个RPN网络生成的结果进行平均得到最终跟踪结果。
其中,SiamRPN++的网络结构、ResNet50网络、RPN网络均为本领域技术人员所公知,本发明实施例对此不做赘述。
102:在SiamRPN++的网络结构的基础上加入实例分割掩膜生成模块、光流掩膜生成模块、模板更新模块;
其中,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果,将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果,将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果,将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板。
103:在训练阶段,使用从LaSOT[11]随机挑选的19个视频进行多阶段训练;
首先,从LaSOT中随机挑选19个视频序列,每个训练阶段保留5个模型,每个阶段都会用上个阶段最好的模型生成新的训练样本对训练。每个阶段网络学习率按照指数方式下降,使用RMSProp优化器更新网络参数。
其中,RMSProp优化器本领域技术人员所公知,本发明实施例对此不做赘述。
104:在测试阶段,首先将初始帧模板送入分割掩膜生成模块,将生成的分割掩膜加权到初始帧模板得到语义信息加权的初始帧模板;将当前帧跟踪结果送入分割掩膜生成模块,将生成的分割掩膜加权到当前帧跟踪结果得到语义信息加权的当前帧跟踪结果;将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块,将生成的光流掩膜加权到当前帧跟踪结果得到运动信息加权的当前帧跟踪结果;将语义信息加权的当前帧跟踪结果和运动信息加权的当前帧跟踪结果相加得到双重信息加权的当前帧跟踪结果;将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板,模板更新模块实现了对模板的迭代更新。
综上所述,本发明实施例通过步骤101至步骤104设计了一种基于双掩膜模板更新的孪生网络目标跟踪方法。在SiamRPN++原有网络结构基础上,引入了模板更新模块,利用跟踪过程中产生的语义信息和运动信息对初始帧模板、当前跟踪结果进行加权,可以达到突出前景、抑制背景的作用;本发明实施例对模板进行了图片级别的更新,能够更加关注目标的细节;本发明实施例是对SiamRPN++网络的模板进行更新,使其在目标遮挡和形变的跟踪环境中变得更加鲁棒,获得更好的性能。
实施例2
下面对实施例1中的方案进行进一步地介绍,详见下文描述:
201:构建孪生网络的目标跟踪框架;
目标跟踪任务是指给定某视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标的大小与位置,通常使用边界框来指定目标的大小及位置。由于视频序列中的目标在不断的变化,给跟踪带来了极大的挑战。不同于计算机视觉的其他任务,待跟踪的目标是由视频初始帧指定的,其种类并不预先设定,这就要求跟踪器能够跟踪初始帧指定的任意目标物体。近年来,随着神经网络的发展,大量基于深度学习的跟踪算法开始出现。其中,基于孪生网络的目标跟踪算法由于其在速度和精度上得到了较好的平衡而得到了广泛的关注。基于孪生网络的目标跟踪算法通常由两个参数共享网络对当前帧的搜索区域图像以及目标图像进行特征提取,将提取的目标模板特征与提取的当前搜索区域特征进行模板匹配,找到搜索区域中与目标模板最为相似的区域。但是,这种基于孪生网络的算法在精度上与其他深度学习类算法的性能有较大差距。其他深度学习类的算法中有相当一部分算法通过在线训练一个分类器来分类目标和背景,由于在跟踪过程中需要在线训练分类器,因此这类算法通常精度较高但速度较慢。基于孪生网络的目标跟踪算法通常固定使用初始帧给定的目标模板进行模板匹配,这使得在目标经历较大形变或遮挡的时候初始帧模板不能提供目标各种形态变化,从而导致跟踪失败。因此,孪生网络跟踪器需要对模板进行更新。
现有的模板更新的方法中,GOTURN[12]直接将上一帧跟踪到的结果作为当前帧的目标模板,这种方法由于跟踪结果本身不能自检,容易造成误差累积,导致跟踪失败。在MemTrack[13]中,模板记忆库被用来存储跟踪结果生成的目标模板,控制模块用来生成各种控制量,用这些控制量对记忆库中的模版进行读取和写入,实现模板更新。然而这种方法的网络过于复杂,并且记忆库内存储的模板也存在误差累积。UpdateNet[14]将初始帧模板、当前帧模板和当前帧的跟踪结果这三种模板的特征送入一个简单的非线性网络预测新的模板。这种简单的非线性网络可以利用神经网络本身的学习能力,其结构简单,并且网络中迭代的结构更符合目标跟踪这种在时间上具有连续性的任务。本发明实施例中,模板更新模块的设计正是基于这样的结构。
然而,UpdateNet只用了模板特征进行更新。如果同时使用模板本身能获得的多种信息,比如使用光流信息来辅助模板更新,跟踪器的性能会进一步提升。本发明实施例在SiamRPN++网络结构的基础上,通过对初始帧目标模板提取实例分割掩膜,对当前帧跟踪结果提取实例分割掩膜以及光流掩膜来实现突出前景抑制背景的作用。
此外,跟踪任务中需要得到目标物体的位置以及大小,因此需要更多关于目标的细节信息。原始图像可以比特征提供更高的空间分辨率和更多关于目标的细节。对模板在图像级别进行更新可以让跟踪器更多关注于目标细节。
基于以上分析,本发明实施例提出的算法可对SiamRPN++算法的性能进行提升。
本发明实施例的算法网络结构如图2所示。
孪生网络的目标跟踪框架为,
St=corr(f(Tt),f(xt)) (1)
其中,f(.)表示利用卷积神经网络进行特征提取,xt表示第t帧的搜索区域图像,Tt表示第t帧目标模板图像,corr(.,.)表示相关运算,St表示第t帧的响应图。响应图上最大的位置代表当前帧目标物体所在的位置。
202:在跟踪过程中,从当前帧开始跟踪,过程如下:
使用参数共享的两个卷积神经网络分别对当前帧模板和当前帧搜索区域提取特征,将不同卷积层得到的特征送入三个RPN网络后得到分类分支和回归分支的结果,将这三个RPN网络的结果进行加权分别得到总的分类分支结果Sall和总的回归分支的结果Ball,表示如下:
其中,Sl表示不同卷积层送入RPN网络得到的分类分支的结果,Bl表示不同卷积层送入RPN网络得到的回归分支的结果,l表示不同卷积层,al和bl表示不同RPN网络的加权系数。
在得到分类分支和回归分支的加权总和后,Sall的最大峰值代表了目标物体,找到此峰值对应的Ball中边界框的回归量可以得到当前帧的跟踪结果。
将当前帧跟踪结果rt与有一定间隔(间隔是指视频帧之间的间隔,实验中设置为10帧)的前面帧跟踪结果rt-n送入光流掩膜生成模块生成光流掩膜并将此光流掩膜对当前帧跟踪结果进行加权生成运动信息加权后的当前跟踪帧结果rt F,具体为:
其中,yF表示当前帧跟踪结果与有一定间隔的前面帧跟踪结果经过FlowNet-C[16]网络生成光流后,将此光流按照FlowNet2[16]中的方法转换成RGB图像,再进一步转换成灰度光流结果,fF表示归一化函数,γ表示超参数。
203:训练时用的损失函数为L2损失函数,具体为:
实施例3
下面结合具体的实验数据对实施例1和2中的方案进行效果评估,详见下文描述:
301:数据组成
测试集由VOT2016[17]数据库中的60个视频序列构成。
302:评估准则
本发明实施例主要采用三种评价指标对目标跟踪算法的性能进行评估:
Accuracy(准确率):准确率用来评价跟踪器跟踪目标的准确度,指标计算利用了预测边界框与真值边界框之间的重叠率,数值越大,准确度越高。
Robustness(鲁棒性):鲁棒性用来评价跟踪器的稳定性,计算了在跟踪过程中丢失目标的帧数比率,数值越大稳定性越差。
EAO(平均重叠期望):是对每个跟踪器在一个短时图像序列上的非重置重叠率的期望值,值越大,跟踪器性能越好,EAO结合了每一帧的精确程度和失败程度的原始值,是VOT评估跟踪算法精度的最重要指标。
303:对比算法
在评估性能测试阶段,本发明实施例与6种跟踪方法ROAM[18],SPM[19],ASRCF[20],ECO[21],SiamRPN++和UpdateNet进行比较。
表1展示几种算法在VOT2016上测试得到的结果,其中SiamPRN++是本发明的基础框架。从表1中可以看到,本发明所提出的方法在最重要的指标EAO上面,相较于其他算法取得了最好的性能,与基础框架SiamRPN++相比增长8%,客观说明本发明中所提模板更新的有效性。
表1
实施例4
一种基于双掩膜模板更新的孪生网络目标跟踪装置,参见图3,该装置包括:
第一生成模块1,用于在框架基础上,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果;
第二生成模块2,用于将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果;
获取模块3,用于将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果;
模板更新模块4,用于将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;
跟踪模块5,用于随机挑选若干个视频进行多阶段训练,训练后对目标进行跟踪。
其中,上述的网络框架为SiamRPN++基础网络框架。
这里需要指出的是,以上实施例中的装置描述是与上述方法实施例描述相对应的,本发明实施例在此不做赘述。
上述各个模块、单元的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
基于同一发明构思,本发明实施例还提供了一种基于数据共享的多智能体协同跟踪装置,参见图4,该装置包括:处理器6和存储器7,存储器7中存储有程序指令,处理器5调用存储器7中存储的程序指令以使装置执行实施例中的以下方法步骤:
在框架基础上,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果;
将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果;
将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果;
将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;
随机挑选若干个视频进行多阶段训练,训练后对目标进行跟踪。
其中,上述网络框架为SiamRPN++基础网络框架。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器6和存储器7的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器7和处理器6之间通过总线8传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
参考文献
[1]Bertinetto Luca,Valmadre Jack,Henriques Joao F,et al.Fully-Convolutional Siamese Networks for Object Tracking[C]//European Conference onComputer Vision,2016:850-865.
[2]Li Bo,Yan Junjie,Wu Wei,et al.High Performance Visual Trackingwith Siamese Region Proposal Network[C]//IEEE Conference on Computer Visionand Pattern Recognition,2018:8971-8980.
[3]Wang Qiang,Zhang Li,Bertinetto Luca,et al.Fast Online ObjectTracking and Segmentation:A unifying approach[C]//IEEE Conference on ComputerVision and Pattern Recognition,2019:1328-1338.
[4]Zhang Zhipeng,Peng Houwen,Fu Jianlong,et al.Ocean:Object-AwareAnchor-Free Tracking[C]//European Conference on Computer Vision,2020:771-787.
[5]Nam Hyeonseob,Han Bohyung.Learning Multi-Domain ConvolutionalNeural Networks for Visual Tracking[C]//IEEE Conference on Computer Visionand Pattern Recognition,2016:4293-4302.
[6]Danelljan Martin,Bhat Goutam,Khan Fahad Shahbaz,et al.ATOM:Accurate Tracking by Overlap Maximization[C]//IEEE Conference on ComputerVision and Pattern Recognition,2019:4660-4669.
[7]Bhat Goutam,Danelljan Martin,Gool Luc Van,et al.LearningDiscriminative Model Prediction for Tracking[C]//International Conference onComputer Vision,2019:6181-6190.
[8]Li Bo,Wu Wei,Wang Qiang,et al.SiamRPN++:Evolution of SiameseVisual Tracking with Very Deep Networks[C]//IEEE Conference on ComputerVision and Pattern Recognition,2019:4282-4291.
[9]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep Residual Learningfor Image Recognition[C]//IEEE Conference on Computer Vision and PatternRecognition,2016:770-778.
[10]Ren Shaoqing,He Kaiming,Ross Girshick,et al.Faster R-CNN:Towardsreal-time object detection with region proposal networks[C]//Conference onNeural Information Processing Systems,2015:91-99.
[11]Fan Heng,Lin Liting,Yang Fan,et al.LaSOT:A High-quality Benchmarkfor Large-scale Single Object Tracking[C]//IEEE Conference on Computer Visionand Pattern Recognition,2019:5369-5378.
[12]Held David,Thrun Sebastian,Savarese Silvio.Learning to Track at100 FPS with Deep Regression Networks[C]//European Conference on ComputerVision,2016:749-765.
[13]Yang Tianyu,Chan Antoni B.Learning Dynamic Memory Networks forObject Tracking[C]//European Conference on Computer Vision,2018:153-169.
[14]Zhang Lichao,Gonzalez-Garcia Abel,Weijer Joost van de,etal.Learning the Model Update for Siamese Trackers[C]//InternationalConference on Computer Vision,2019:4009-4018.
[15]Pinheiro Pedro H.O.,Collobert Ronan,Doll Piotr.Learning toSegment Object Candidates[C]//Advances in Neural Information ProcessingSystems,2015:1990-1998.
[16]Ilg Eddy,Mayer Nikolaus,Saikia Tonmoy,et al.FlowNet 2.0:Evolutionof Optical Flow Estimation with Deep Networks[C]//European Conference onComputer Vision,2017:1647-1655.
[17]Kristan Matej,Leonardis Ales,Matas Jiri,et al.The Visual ObjectTracking VOT2016 challenge results[C]//European Conference on ComputerVision,2016:777-823.
[18]Yang Tianyu,Xu Pengfei,Hu Runbo,et al.ROAM:Recurrently OptimizingTracking Model[C]//IEEE Conference on Computer Vision and PatternRecognition,2020:6717-6726.
[19]Wang Guangting,Luo Chong,Xiong Zhiwei,et al.SPM-Tracker:Series-Parallel Matching for Real-Time Visual Object Tracking[C]//IEEE Conference onComputer Vision and Pattern Recognition,2019:3643-3652.
[20]Dai Kenan,Wang Dong,Lu Huchuan,et al.Visual Tracking via AdaptiveSpatially-Regularized Correlation Filters[C]//IEEE Conference on ComputerVision and Pattern Recognition,2019:4670-4679.
[21]Danelljan Martin,Bhat Goutam,Shahbaz Khan Fahad,et al.Eco:Efficient Convolution Operators for Tracking[C]//IEEE Conference on ComputerVision and Pattern Recognition,2017:6638-6646.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于双掩膜模板更新的孪生网络目标跟踪方法,其特征在于,所述方法包括:
在框架基础上,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果;
将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果;
将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果;
将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;
随机挑选若干个视频进行多阶段训练,训练后对目标进行跟踪。
2.根据权利要求1所述的一种基于双掩膜模板更新的孪生网络目标跟踪方法,其特征在于,所述网络框架为SiamRPN++基础网络框架。
7.一种基于双掩膜模板更新的孪生网络目标跟踪装置,其特征在于,所述装置包括:
第一生成模块,用于在框架基础上,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果;
第二生成模块,用于将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果;
获取模块,用于将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果;
模板更新模块,用于将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;
跟踪模块,用于随机挑选若干个视频进行多阶段训练,训练后对目标进行跟踪。
8.一种基于双掩膜模板更新的孪生网络目标跟踪装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-6中的任一项所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-6中的任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110440397.6A CN113158904B (zh) | 2021-04-23 | 2021-04-23 | 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110440397.6A CN113158904B (zh) | 2021-04-23 | 2021-04-23 | 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113158904A true CN113158904A (zh) | 2021-07-23 |
CN113158904B CN113158904B (zh) | 2022-07-29 |
Family
ID=76870048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110440397.6A Active CN113158904B (zh) | 2021-04-23 | 2021-04-23 | 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158904B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359336A (zh) * | 2021-11-30 | 2022-04-15 | 南昌航空大学 | 基于光流和动态级联rpn的目标跟踪算法 |
CN116091554A (zh) * | 2023-04-11 | 2023-05-09 | 智洋创新科技股份有限公司 | 一种用于开放集的运动目标跟踪方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100310127A1 (en) * | 2009-06-08 | 2010-12-09 | Nikon Corporation | Subject tracking device and camera |
US20180365843A1 (en) * | 2015-07-01 | 2018-12-20 | China University Of Mining And Technology | Method and system for tracking moving objects based on optical flow method |
CN111275740A (zh) * | 2020-01-19 | 2020-06-12 | 武汉大学 | 一种基于高分辨率孪生网络的卫星视频目标跟踪方法 |
CN111583300A (zh) * | 2020-04-23 | 2020-08-25 | 天津大学 | 一种基于富集目标形态变化更新模板的目标跟踪方法 |
CN112164094A (zh) * | 2020-09-22 | 2021-01-01 | 江南大学 | 一种基于孪生网络的快速视频目标跟踪方法 |
CN112184757A (zh) * | 2020-09-28 | 2021-01-05 | 浙江大华技术股份有限公司 | 运动轨迹的确定方法及装置、存储介质、电子装置 |
CN112184780A (zh) * | 2020-10-13 | 2021-01-05 | 武汉斌果科技有限公司 | 一种运动物体实例分割方法 |
CN112183600A (zh) * | 2020-09-22 | 2021-01-05 | 天津大学 | 一种基于动态记忆库模板更新的目标跟踪方法 |
CN112233147A (zh) * | 2020-12-21 | 2021-01-15 | 江苏移动信息系统集成有限公司 | 一种基于双路孪生网络的视频运动目标跟踪方法及装置 |
CN112347852A (zh) * | 2020-10-10 | 2021-02-09 | 上海交通大学 | 体育运动视频的目标追踪与语义分割方法及装置、插件 |
-
2021
- 2021-04-23 CN CN202110440397.6A patent/CN113158904B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100310127A1 (en) * | 2009-06-08 | 2010-12-09 | Nikon Corporation | Subject tracking device and camera |
US20180365843A1 (en) * | 2015-07-01 | 2018-12-20 | China University Of Mining And Technology | Method and system for tracking moving objects based on optical flow method |
CN111275740A (zh) * | 2020-01-19 | 2020-06-12 | 武汉大学 | 一种基于高分辨率孪生网络的卫星视频目标跟踪方法 |
CN111583300A (zh) * | 2020-04-23 | 2020-08-25 | 天津大学 | 一种基于富集目标形态变化更新模板的目标跟踪方法 |
CN112164094A (zh) * | 2020-09-22 | 2021-01-01 | 江南大学 | 一种基于孪生网络的快速视频目标跟踪方法 |
CN112183600A (zh) * | 2020-09-22 | 2021-01-05 | 天津大学 | 一种基于动态记忆库模板更新的目标跟踪方法 |
CN112184757A (zh) * | 2020-09-28 | 2021-01-05 | 浙江大华技术股份有限公司 | 运动轨迹的确定方法及装置、存储介质、电子装置 |
CN112347852A (zh) * | 2020-10-10 | 2021-02-09 | 上海交通大学 | 体育运动视频的目标追踪与语义分割方法及装置、插件 |
CN112184780A (zh) * | 2020-10-13 | 2021-01-05 | 武汉斌果科技有限公司 | 一种运动物体实例分割方法 |
CN112233147A (zh) * | 2020-12-21 | 2021-01-15 | 江苏移动信息系统集成有限公司 | 一种基于双路孪生网络的视频运动目标跟踪方法及装置 |
Non-Patent Citations (6)
Title |
---|
BERTINETTO L,VALMADRE J,ET AL: "Fully-Convolutional Siamese Networks for Object Tracking", 《ECCV 2016:COMPUTER VISION-ECCV 2016 WORKSHOPS》, 3 November 2016 (2016-11-03) * |
BO LI,WEI WU,ET AL: "SiamRPN++: Evolution of Siamese Visual Tracking With Very Deep Networks", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 9 January 2020 (2020-01-09) * |
LI BO,YAN JIEJUN,WU WEI,ET AL: "High performance visual tracking with Siamese region proposal network", 《THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 17 December 2018 (2018-12-17) * |
刘方涛等: "基于孪生网络视频烟雾目标分割方法", 《计算机工程与设计》, no. 09, 16 September 2020 (2020-09-16) * |
熊昌镇等: "动态的加权孪生网络跟踪算法", 《计算机应用》, no. 08, 9 September 2020 (2020-09-09) * |
陕硕等: "基于实例分割的多目标跟踪", 《中国体视学与图像分析》, no. 02, 25 June 2020 (2020-06-25) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359336A (zh) * | 2021-11-30 | 2022-04-15 | 南昌航空大学 | 基于光流和动态级联rpn的目标跟踪算法 |
CN114359336B (zh) * | 2021-11-30 | 2023-04-07 | 南昌航空大学 | 基于光流和动态级联rpn的目标跟踪方法 |
CN116091554A (zh) * | 2023-04-11 | 2023-05-09 | 智洋创新科技股份有限公司 | 一种用于开放集的运动目标跟踪方法 |
CN116091554B (zh) * | 2023-04-11 | 2023-06-16 | 智洋创新科技股份有限公司 | 一种用于开放集的运动目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113158904B (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Bayesian loss for crowd count estimation with point supervision | |
Haeusser et al. | Associative domain adaptation | |
Chen et al. | Learning linear regression via single-convolutional layer for visual object tracking | |
CN113158904B (zh) | 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置 | |
CN107368802B (zh) | 基于kcf和人脑记忆机制的运动目标跟踪方法 | |
KR20180071947A (ko) | 영상 처리 장치 및 방법 | |
CN111259919A (zh) | 一种视频分类方法、装置及设备、存储介质 | |
Wang et al. | Small vehicle classification in the wild using generative adversarial network | |
CN111242003B (zh) | 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法 | |
Kavitha et al. | Convolutional Neural Networks Based Video Reconstruction and Computation in Digital Twins. | |
Jing et al. | Uncertainty guided adaptive warping for robust and efficient stereo matching | |
Dou et al. | Background subtraction based on circulant matrix | |
Yuan et al. | Optical flow training under limited label budget via active learning | |
Chen et al. | Single‐Object Tracking Algorithm Based on Two‐Step Spatiotemporal Deep Feature Fusion in a Complex Surveillance Scenario | |
Yang et al. | PaaRPN: Probabilistic anchor assignment with region proposal network for visual tracking | |
Shi et al. | Focus for free in density-based counting | |
CN116580063B (zh) | 目标追踪方法、装置、电子设备及存储介质 | |
Zheng et al. | Local-to-global background modeling for moving object detection from non-static cameras | |
CN109767457B (zh) | 在线多示例学习目标跟踪方法、终端设备及存储介质 | |
Zhang et al. | Self-paced uncertainty estimation for one-shot person re-identification | |
Yang et al. | A crowd counting method via density map and counting residual estimation | |
Fu et al. | Foreground gated network for surveillance object detection | |
Lee et al. | Sampling operator to learn the scalable correlation filter for visual tracking | |
Huang et al. | An anti-occlusion and scale adaptive kernel correlation filter for visual object tracking | |
Garcia-Espinosa et al. | Automatic annotation for weakly supervised pedestrian detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Jing Inventor after: Huang Xiangdong Inventor after: Wang Yating Inventor before: Huang Xiangdong Inventor before: Wang Yating Inventor before: Liu Jing |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |