CN113158904A - 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置 - Google Patents

一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置 Download PDF

Info

Publication number
CN113158904A
CN113158904A CN202110440397.6A CN202110440397A CN113158904A CN 113158904 A CN113158904 A CN 113158904A CN 202110440397 A CN202110440397 A CN 202110440397A CN 113158904 A CN113158904 A CN 113158904A
Authority
CN
China
Prior art keywords
template
tracking
current frame
weighted
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110440397.6A
Other languages
English (en)
Other versions
CN113158904B (zh
Inventor
黄翔东
王亚亭
刘婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110440397.6A priority Critical patent/CN113158904B/zh
Publication of CN113158904A publication Critical patent/CN113158904A/zh
Application granted granted Critical
Publication of CN113158904B publication Critical patent/CN113158904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置,方法包括:将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;模板更新在图像级别而不是特征级别,原始图像比特征图有更高的空间分辨率可以更多关注目标的细节。装置包括:第一生成模块、第二生成模块、获取模块、模板更新模块,及跟踪模块。本发明实现了对模板的更新,能够提供鲁棒的模板,提高跟踪器的性能。

Description

一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置
技术领域
本发明涉及目标跟踪领域,尤其涉及一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置。
背景技术
随着大数据和人工智能的发展,大量媒体信息被传播和利用,其中视频信息的数量增长迅速,成为人们获得外界信息的主流方式。目标跟踪作为计算机视觉的一个重要领域,是视频信息处理和分析的一项基础性技术。目前,目标跟踪在智能视频监控、无人驾驶、人机交互等领域得到了广泛的应用。在这些应用中,获得目标物体的运动轨迹并作出相应的分析,使得对视频内容的理解和分析提供了一种重要的方式。
目标跟踪是指对于视频序列中,由初始帧指定的目标物体,在后续视频帧中持续推断目标物体的状态。目标物体的状态通常是指目标物体的位置和大小,使用矩形框来表示。目标跟踪算法大致可以分为早期目标跟踪算法、基于相关滤波的目标跟踪算法、基于深度学习的目标跟踪算法。目前主流算法是基于深度学习的目标跟踪算法,其中又可以分为基于孪生网络的目标跟踪算法和其他深度学习算法。基于孪生网络的目标跟踪算法最早在2016年的SiamFC[1]提出孪生网络的架构,使得跟踪器在速度和精确度上得到较好的平衡。近年来又不断的提出了性能更优的算法,如SiamRPN[2],SiamMask[3],Ocean[4]等。其他深度学习类的算法,主要代表有MDNet[5],ATOM[6],DiMP[7]等。
尽管目标跟踪领域在近些年来得到了快速的发展,但跟踪问题存在的挑战使得目标跟踪仍然是一项艰巨的任务。在跟踪的视频中,由于目标物体在不断的经历形变、遮挡、旋转、尺度变化和光照变换等,使得跟踪任务极具挑战性。如何以应对这些挑战是跟踪算法需要解决的问题。在跟踪的视频序列中,目标物体通常是由初始帧确定,使用初始帧生成的初始帧目标模板进行模板匹配是基于孪生网络的目标跟踪算法基本实现方式。仅使用初始帧目标模板的方式使得在目标经历较大形变的时候跟踪器容易丢失目标,因此对目标模板的更新是提升跟踪器性能的有效方法。现有模板更新的方法,如简单使用上一帧跟踪结果生成的目标模板进行模板匹配,由于跟踪结果不能自检,容易造成跟踪漂移。
发明内容
本发明提供了一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置,本发明利用语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果以及当前帧模板送入一个模板更新模块,并将此模块生成的模板与语义信息加权后的初始帧模板相加生成下一帧模板,本发明利用了多阶段训练策略来实现对模板更新模块的训练,本发明实现了对模板的更新,能够提供鲁棒的模板,提高跟踪器的性能,详见下文描述:
第一方面,一种基于双掩膜模板更新的孪生网络目标跟踪方法,所述方法包括:
在框架基础上,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果;
将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果;
将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果;
将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;
随机挑选若干个视频进行多阶段训练,训练后对目标进行跟踪。
在一种实施方式中,所述网络框架为SiamRPN++基础网络框架。
第二方面,一种基于双掩膜模板更新的孪生网络目标跟踪装置,所述装置包括:
第一生成模块,用于在框架基础上,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果;
第二生成模块,用于将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果;
获取模块,用于将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果;
模板更新模块,用于将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;
跟踪模块,用于随机挑选若干个视频进行多阶段训练,训练后对目标进行跟踪。
第三方面,一种基于双掩膜模板更新的孪生网络目标跟踪装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的所述的方法步骤。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明以SiamPRN++[8]为基础框架,使用实例分割掩膜生成模块生成的实例分割掩膜对初始帧模板以及当前帧跟踪结果进行加权,利用语义信息实现突出前景、抑制背景的作用;使用光流掩膜生成模块生成光流掩膜对当前帧跟踪结果进行加权,利用运动信息实现突出前景、抑制背景的作用;两种信息实现互补,使得跟踪器有效利用跟踪过程中产生的信息,为模板更新做准备;
2、本发明将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;模板更新在图像级别而不是特征级别,原始图像比特征图有更高的空间分辨率可以更多关注目标的细节;
3、通过基准数据库测试,本发明所提出的算法在鲁棒性以及指标EAO(平均重叠期望)上得到了提升。
附图说明
图1为一种基于双掩膜模板更新的孪生网络目标跟踪方法的流程图;
图2为基于双掩膜模板更新的孪生网络目标跟踪的网络框图;
图3为一种基于双掩膜模板更新的孪生网络目标跟踪装置的结构示意图;
图4为一种基于双掩膜模板更新的孪生网络目标跟踪装置的另一结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种基于双掩膜模板更新的孪生网络目标跟踪方法,参见图1,该方法包括以下步骤:
101:构建SiamRPN++基础网络框架;
其中,SiamRPN++网络建立在ResNet50[9]网络和RPN(区域推荐网络)[10]网络之上。网络结构由两个共享参数的ResNet50网络和三个RPN网络组成。其中,ResNet50为基本的特征提取网络,将不同深度卷积层提取出来的特征分别送入三个RPN网络中,由RPN网络内部的分类分支判断前景和背景、回归分支得到边界框的参数,将三个RPN网络生成的结果进行平均得到最终跟踪结果。
其中,SiamRPN++的网络结构、ResNet50网络、RPN网络均为本领域技术人员所公知,本发明实施例对此不做赘述。
102:在SiamRPN++的网络结构的基础上加入实例分割掩膜生成模块、光流掩膜生成模块、模板更新模块;
其中,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果,将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果,将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果,将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板。
103:在训练阶段,使用从LaSOT[11]随机挑选的19个视频进行多阶段训练;
首先,从LaSOT中随机挑选19个视频序列,每个训练阶段保留5个模型,每个阶段都会用上个阶段最好的模型生成新的训练样本对训练。每个阶段网络学习率按照指数方式下降,使用RMSProp优化器更新网络参数。
其中,RMSProp优化器本领域技术人员所公知,本发明实施例对此不做赘述。
104:在测试阶段,首先将初始帧模板送入分割掩膜生成模块,将生成的分割掩膜加权到初始帧模板得到语义信息加权的初始帧模板;将当前帧跟踪结果送入分割掩膜生成模块,将生成的分割掩膜加权到当前帧跟踪结果得到语义信息加权的当前帧跟踪结果;将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块,将生成的光流掩膜加权到当前帧跟踪结果得到运动信息加权的当前帧跟踪结果;将语义信息加权的当前帧跟踪结果和运动信息加权的当前帧跟踪结果相加得到双重信息加权的当前帧跟踪结果;将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板,模板更新模块实现了对模板的迭代更新。
综上所述,本发明实施例通过步骤101至步骤104设计了一种基于双掩膜模板更新的孪生网络目标跟踪方法。在SiamRPN++原有网络结构基础上,引入了模板更新模块,利用跟踪过程中产生的语义信息和运动信息对初始帧模板、当前跟踪结果进行加权,可以达到突出前景、抑制背景的作用;本发明实施例对模板进行了图片级别的更新,能够更加关注目标的细节;本发明实施例是对SiamRPN++网络的模板进行更新,使其在目标遮挡和形变的跟踪环境中变得更加鲁棒,获得更好的性能。
实施例2
下面对实施例1中的方案进行进一步地介绍,详见下文描述:
201:构建孪生网络的目标跟踪框架;
目标跟踪任务是指给定某视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标的大小与位置,通常使用边界框来指定目标的大小及位置。由于视频序列中的目标在不断的变化,给跟踪带来了极大的挑战。不同于计算机视觉的其他任务,待跟踪的目标是由视频初始帧指定的,其种类并不预先设定,这就要求跟踪器能够跟踪初始帧指定的任意目标物体。近年来,随着神经网络的发展,大量基于深度学习的跟踪算法开始出现。其中,基于孪生网络的目标跟踪算法由于其在速度和精度上得到了较好的平衡而得到了广泛的关注。基于孪生网络的目标跟踪算法通常由两个参数共享网络对当前帧的搜索区域图像以及目标图像进行特征提取,将提取的目标模板特征与提取的当前搜索区域特征进行模板匹配,找到搜索区域中与目标模板最为相似的区域。但是,这种基于孪生网络的算法在精度上与其他深度学习类算法的性能有较大差距。其他深度学习类的算法中有相当一部分算法通过在线训练一个分类器来分类目标和背景,由于在跟踪过程中需要在线训练分类器,因此这类算法通常精度较高但速度较慢。基于孪生网络的目标跟踪算法通常固定使用初始帧给定的目标模板进行模板匹配,这使得在目标经历较大形变或遮挡的时候初始帧模板不能提供目标各种形态变化,从而导致跟踪失败。因此,孪生网络跟踪器需要对模板进行更新。
现有的模板更新的方法中,GOTURN[12]直接将上一帧跟踪到的结果作为当前帧的目标模板,这种方法由于跟踪结果本身不能自检,容易造成误差累积,导致跟踪失败。在MemTrack[13]中,模板记忆库被用来存储跟踪结果生成的目标模板,控制模块用来生成各种控制量,用这些控制量对记忆库中的模版进行读取和写入,实现模板更新。然而这种方法的网络过于复杂,并且记忆库内存储的模板也存在误差累积。UpdateNet[14]将初始帧模板、当前帧模板和当前帧的跟踪结果这三种模板的特征送入一个简单的非线性网络预测新的模板。这种简单的非线性网络可以利用神经网络本身的学习能力,其结构简单,并且网络中迭代的结构更符合目标跟踪这种在时间上具有连续性的任务。本发明实施例中,模板更新模块的设计正是基于这样的结构。
然而,UpdateNet只用了模板特征进行更新。如果同时使用模板本身能获得的多种信息,比如使用光流信息来辅助模板更新,跟踪器的性能会进一步提升。本发明实施例在SiamRPN++网络结构的基础上,通过对初始帧目标模板提取实例分割掩膜,对当前帧跟踪结果提取实例分割掩膜以及光流掩膜来实现突出前景抑制背景的作用。
此外,跟踪任务中需要得到目标物体的位置以及大小,因此需要更多关于目标的细节信息。原始图像可以比特征提供更高的空间分辨率和更多关于目标的细节。对模板在图像级别进行更新可以让跟踪器更多关注于目标细节。
基于以上分析,本发明实施例提出的算法可对SiamRPN++算法的性能进行提升。
本发明实施例的算法网络结构如图2所示。
孪生网络的目标跟踪框架为,
St=corr(f(Tt),f(xt)) (1)
其中,f(.)表示利用卷积神经网络进行特征提取,xt表示第t帧的搜索区域图像,Tt表示第t帧目标模板图像,corr(.,.)表示相关运算,St表示第t帧的响应图。响应图上最大的位置代表当前帧目标物体所在的位置。
202:在跟踪过程中,从当前帧开始跟踪,过程如下:
使用参数共享的两个卷积神经网络分别对当前帧模板和当前帧搜索区域提取特征,将不同卷积层得到的特征送入三个RPN网络后得到分类分支和回归分支的结果,将这三个RPN网络的结果进行加权分别得到总的分类分支结果Sall和总的回归分支的结果Ball,表示如下:
Figure BDA0003034730370000071
Figure BDA0003034730370000072
其中,Sl表示不同卷积层送入RPN网络得到的分类分支的结果,Bl表示不同卷积层送入RPN网络得到的回归分支的结果,l表示不同卷积层,al和bl表示不同RPN网络的加权系数。
在得到分类分支和回归分支的加权总和后,Sall的最大峰值代表了目标物体,找到此峰值对应的Ball中边界框的回归量可以得到当前帧的跟踪结果。
将得到的当前帧的跟踪结果送入实例分割掩膜生成模块,生成当前帧跟踪结果的实例分割掩膜
Figure BDA00030347303700000710
并将此实例分割掩膜对当前帧跟踪结果进行加权生成语义信息加权后的当前帧跟踪结果rt I,具体如下:
Figure BDA0003034730370000073
Figure BDA0003034730370000074
其中,
Figure BDA0003034730370000075
表示当前帧跟踪结果经过DeepMask[15]网络后生成的实例分割结果,fI表示归一化函数,
Figure BDA0003034730370000076
表示实例分割结果经过归一化函数生成的实例分割掩膜,⊙表示哈达玛积,β表示超参数。
将当前帧跟踪结果rt与有一定间隔(间隔是指视频帧之间的间隔,实验中设置为10帧)的前面帧跟踪结果rt-n送入光流掩膜生成模块生成光流掩膜
Figure BDA0003034730370000077
并将此光流掩膜对当前帧跟踪结果进行加权生成运动信息加权后的当前跟踪帧结果rt F,具体为:
Figure BDA0003034730370000078
Figure BDA0003034730370000079
其中,yF表示当前帧跟踪结果与有一定间隔的前面帧跟踪结果经过FlowNet-C[16]网络生成光流后,将此光流按照FlowNet2[16]中的方法转换成RGB图像,再进一步转换成灰度光流结果,fF表示归一化函数,γ表示超参数。
将语义信息加权后的当前帧跟踪结果ft I和运动信息加权后的当前帧跟踪结果rt F相加得到双重信息加权后的当前帧跟踪结果
Figure BDA0003034730370000082
具体为:
Figure BDA0003034730370000083
对于初始帧模板T0,将其送入实例分割掩膜生成模块,生成初始帧的实例分割掩膜
Figure BDA0003034730370000084
并将实例分割掩膜对初始帧模板进行加权生成语义信息加权后的初始帧模板
Figure BDA0003034730370000085
具体为:
Figure BDA0003034730370000086
Figure BDA0003034730370000087
其中,
Figure BDA0003034730370000088
表示初始帧模板经过DeepMask网络后生成的实例分割结果,α表示超参数。
最后,将语义信息加权后的初始帧模板
Figure BDA00030347303700000816
双重信息加权后的当前帧跟踪结果
Figure BDA0003034730370000089
和当前帧模板Tt送入模板更新模块UM,生成更新模板并与语义信息加权后的初始帧模板
Figure BDA00030347303700000810
相加生成下一帧跟踪模板具体为:
Figure BDA00030347303700000811
203:训练时用的损失函数为L2损失函数,具体为:
Figure BDA00030347303700000812
其中,Tt+1是公式(9)输出的下一帧预测模板,
Figure BDA00030347303700000813
是下一帧模板的真值,
Figure BDA00030347303700000814
Figure BDA00030347303700000815
在训练时由跟踪器生成,Tt表示当前帧的跟踪模板,由上一阶段的最好模型的跟踪结果生成。
实施例3
下面结合具体的实验数据对实施例1和2中的方案进行效果评估,详见下文描述:
301:数据组成
测试集由VOT2016[17]数据库中的60个视频序列构成。
302:评估准则
本发明实施例主要采用三种评价指标对目标跟踪算法的性能进行评估:
Accuracy(准确率):准确率用来评价跟踪器跟踪目标的准确度,指标计算利用了预测边界框与真值边界框之间的重叠率,数值越大,准确度越高。
Robustness(鲁棒性):鲁棒性用来评价跟踪器的稳定性,计算了在跟踪过程中丢失目标的帧数比率,数值越大稳定性越差。
EAO(平均重叠期望):是对每个跟踪器在一个短时图像序列上的非重置重叠率的期望值,值越大,跟踪器性能越好,EAO结合了每一帧的精确程度和失败程度的原始值,是VOT评估跟踪算法精度的最重要指标。
303:对比算法
在评估性能测试阶段,本发明实施例与6种跟踪方法ROAM[18],SPM[19],ASRCF[20],ECO[21],SiamRPN++和UpdateNet进行比较。
表1展示几种算法在VOT2016上测试得到的结果,其中SiamPRN++是本发明的基础框架。从表1中可以看到,本发明所提出的方法在最重要的指标EAO上面,相较于其他算法取得了最好的性能,与基础框架SiamRPN++相比增长8%,客观说明本发明中所提模板更新的有效性。
表1
Figure BDA0003034730370000091
实施例4
一种基于双掩膜模板更新的孪生网络目标跟踪装置,参见图3,该装置包括:
第一生成模块1,用于在框架基础上,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果;
第二生成模块2,用于将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果;
获取模块3,用于将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果;
模板更新模块4,用于将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;
跟踪模块5,用于随机挑选若干个视频进行多阶段训练,训练后对目标进行跟踪。
其中,上述的网络框架为SiamRPN++基础网络框架。
这里需要指出的是,以上实施例中的装置描述是与上述方法实施例描述相对应的,本发明实施例在此不做赘述。
上述各个模块、单元的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
基于同一发明构思,本发明实施例还提供了一种基于数据共享的多智能体协同跟踪装置,参见图4,该装置包括:处理器6和存储器7,存储器7中存储有程序指令,处理器5调用存储器7中存储的程序指令以使装置执行实施例中的以下方法步骤:
在框架基础上,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果;
将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果;
将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果;
将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;
随机挑选若干个视频进行多阶段训练,训练后对目标进行跟踪。
其中,上述网络框架为SiamRPN++基础网络框架。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器6和存储器7的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器7和处理器6之间通过总线8传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
参考文献
[1]Bertinetto Luca,Valmadre Jack,Henriques Joao F,et al.Fully-Convolutional Siamese Networks for Object Tracking[C]//European Conference onComputer Vision,2016:850-865.
[2]Li Bo,Yan Junjie,Wu Wei,et al.High Performance Visual Trackingwith Siamese Region Proposal Network[C]//IEEE Conference on Computer Visionand Pattern Recognition,2018:8971-8980.
[3]Wang Qiang,Zhang Li,Bertinetto Luca,et al.Fast Online ObjectTracking and Segmentation:A unifying approach[C]//IEEE Conference on ComputerVision and Pattern Recognition,2019:1328-1338.
[4]Zhang Zhipeng,Peng Houwen,Fu Jianlong,et al.Ocean:Object-AwareAnchor-Free Tracking[C]//European Conference on Computer Vision,2020:771-787.
[5]Nam Hyeonseob,Han Bohyung.Learning Multi-Domain ConvolutionalNeural Networks for Visual Tracking[C]//IEEE Conference on Computer Visionand Pattern Recognition,2016:4293-4302.
[6]Danelljan Martin,Bhat Goutam,Khan Fahad Shahbaz,et al.ATOM:Accurate Tracking by Overlap Maximization[C]//IEEE Conference on ComputerVision and Pattern Recognition,2019:4660-4669.
[7]Bhat Goutam,Danelljan Martin,Gool Luc Van,et al.LearningDiscriminative Model Prediction for Tracking[C]//International Conference onComputer Vision,2019:6181-6190.
[8]Li Bo,Wu Wei,Wang Qiang,et al.SiamRPN++:Evolution of SiameseVisual Tracking with Very Deep Networks[C]//IEEE Conference on ComputerVision and Pattern Recognition,2019:4282-4291.
[9]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep Residual Learningfor Image Recognition[C]//IEEE Conference on Computer Vision and PatternRecognition,2016:770-778.
[10]Ren Shaoqing,He Kaiming,Ross Girshick,et al.Faster R-CNN:Towardsreal-time object detection with region proposal networks[C]//Conference onNeural Information Processing Systems,2015:91-99.
[11]Fan Heng,Lin Liting,Yang Fan,et al.LaSOT:A High-quality Benchmarkfor Large-scale Single Object Tracking[C]//IEEE Conference on Computer Visionand Pattern Recognition,2019:5369-5378.
[12]Held David,Thrun Sebastian,Savarese Silvio.Learning to Track at100 FPS with Deep Regression Networks[C]//European Conference on ComputerVision,2016:749-765.
[13]Yang Tianyu,Chan Antoni B.Learning Dynamic Memory Networks forObject Tracking[C]//European Conference on Computer Vision,2018:153-169.
[14]Zhang Lichao,Gonzalez-Garcia Abel,Weijer Joost van de,etal.Learning the Model Update for Siamese Trackers[C]//InternationalConference on Computer Vision,2019:4009-4018.
[15]Pinheiro Pedro H.O.,Collobert Ronan,Doll Piotr.Learning toSegment Object Candidates[C]//Advances in Neural Information ProcessingSystems,2015:1990-1998.
[16]Ilg Eddy,Mayer Nikolaus,Saikia Tonmoy,et al.FlowNet 2.0:Evolutionof Optical Flow Estimation with Deep Networks[C]//European Conference onComputer Vision,2017:1647-1655.
[17]Kristan Matej,Leonardis Ales,Matas Jiri,et al.The Visual ObjectTracking VOT2016 challenge results[C]//European Conference on ComputerVision,2016:777-823.
[18]Yang Tianyu,Xu Pengfei,Hu Runbo,et al.ROAM:Recurrently OptimizingTracking Model[C]//IEEE Conference on Computer Vision and PatternRecognition,2020:6717-6726.
[19]Wang Guangting,Luo Chong,Xiong Zhiwei,et al.SPM-Tracker:Series-Parallel Matching for Real-Time Visual Object Tracking[C]//IEEE Conference onComputer Vision and Pattern Recognition,2019:3643-3652.
[20]Dai Kenan,Wang Dong,Lu Huchuan,et al.Visual Tracking via AdaptiveSpatially-Regularized Correlation Filters[C]//IEEE Conference on ComputerVision and Pattern Recognition,2019:4670-4679.
[21]Danelljan Martin,Bhat Goutam,Shahbaz Khan Fahad,et al.Eco:Efficient Convolution Operators for Tracking[C]//IEEE Conference on ComputerVision and Pattern Recognition,2017:6638-6646.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于双掩膜模板更新的孪生网络目标跟踪方法,其特征在于,所述方法包括:
在框架基础上,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果;
将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果;
将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果;
将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;
随机挑选若干个视频进行多阶段训练,训练后对目标进行跟踪。
2.根据权利要求1所述的一种基于双掩膜模板更新的孪生网络目标跟踪方法,其特征在于,所述网络框架为SiamRPN++基础网络框架。
3.根据权利要求1所述的一种基于双掩膜模板更新的孪生网络目标跟踪方法,其特征在于,所述生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果具体为:
Figure FDA0003034730360000011
Figure FDA0003034730360000012
其中,
Figure FDA0003034730360000013
表示当前帧跟踪结果生成的实例分割结果,fI表示归一化函数,
Figure FDA0003034730360000014
表示实例分割结果经过归一化函数生成的实例分割掩膜,⊙表示哈达玛积,β表示超参数,rt为当前帧跟踪结果,
Figure FDA0003034730360000015
为语义信息加权后的当前帧跟踪结果,I表示标注与实例分割有关的变量。
4.根据权利要求1所述的一种基于双掩膜模板更新的孪生网络目标跟踪方法,其特征在于,所述运动信息加权后的当前帧跟踪结果为:
Figure FDA0003034730360000016
Figure FDA0003034730360000021
其中,yF表示当前帧跟踪结果与有一定间隔的前面帧跟踪结果经过网络生成光流后,将此转换成RGB图像,再进一步转换成灰度光流结果;fF表示归一化函数,γ表示超参数;
Figure FDA0003034730360000022
表示光流掩膜,rt F表示运动信息加权后的当前帧跟踪结果。
5.根据权利要求1所述的一种基于双掩膜模板更新的孪生网络目标跟踪方法,其特征在于,所述模板更新为:
Figure FDA0003034730360000024
其中,
Figure FDA0003034730360000025
为语义信息加权后的初始帧模板;Tt为当前帧模板;
Figure FDA0003034730360000026
为双重信息加权后的当前帧跟踪结果;UM为模板更新模块。
6.根据权利要求5所述的一种基于双掩膜模板更新的孪生网络目标跟踪方法,其特征在于,所述多阶段训练使用的函数为:
Figure FDA0003034730360000027
其中,Tt+1下一帧预测模板,
Figure FDA0003034730360000028
是下一帧模板的真值。
7.一种基于双掩膜模板更新的孪生网络目标跟踪装置,其特征在于,所述装置包括:
第一生成模块,用于在框架基础上,将初始帧模板、当前帧跟踪结果送入实例分割掩膜生成模块分别生成语义信息加权后的初始帧模板和语义信息加权后的当前帧跟踪结果;
第二生成模块,用于将当前帧跟踪结果与有一定间隔的前面帧跟踪结果送入光流掩膜生成模块生成运动信息加权后的当前帧跟踪结果;
获取模块,用于将两种不同信息加权后的当前帧跟踪结果相加得到双重信息加权后的当前帧跟踪结果;
模板更新模块,用于将语义信息加权后的初始帧模板、双重信息加权后的当前帧跟踪结果和当前帧模板送入模板更新模块生成更新模板,并与语义信息加权后的初始帧模板相加生成下一帧跟踪模板来实现模板更新;
跟踪模块,用于随机挑选若干个视频进行多阶段训练,训练后对目标进行跟踪。
8.一种基于双掩膜模板更新的孪生网络目标跟踪装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-6中的任一项所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-6中的任一项所述的方法步骤。
CN202110440397.6A 2021-04-23 2021-04-23 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置 Active CN113158904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110440397.6A CN113158904B (zh) 2021-04-23 2021-04-23 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110440397.6A CN113158904B (zh) 2021-04-23 2021-04-23 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置

Publications (2)

Publication Number Publication Date
CN113158904A true CN113158904A (zh) 2021-07-23
CN113158904B CN113158904B (zh) 2022-07-29

Family

ID=76870048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110440397.6A Active CN113158904B (zh) 2021-04-23 2021-04-23 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置

Country Status (1)

Country Link
CN (1) CN113158904B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359336A (zh) * 2021-11-30 2022-04-15 南昌航空大学 基于光流和动态级联rpn的目标跟踪算法
CN116091554A (zh) * 2023-04-11 2023-05-09 智洋创新科技股份有限公司 一种用于开放集的运动目标跟踪方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100310127A1 (en) * 2009-06-08 2010-12-09 Nikon Corporation Subject tracking device and camera
US20180365843A1 (en) * 2015-07-01 2018-12-20 China University Of Mining And Technology Method and system for tracking moving objects based on optical flow method
CN111275740A (zh) * 2020-01-19 2020-06-12 武汉大学 一种基于高分辨率孪生网络的卫星视频目标跟踪方法
CN111583300A (zh) * 2020-04-23 2020-08-25 天津大学 一种基于富集目标形态变化更新模板的目标跟踪方法
CN112164094A (zh) * 2020-09-22 2021-01-01 江南大学 一种基于孪生网络的快速视频目标跟踪方法
CN112184757A (zh) * 2020-09-28 2021-01-05 浙江大华技术股份有限公司 运动轨迹的确定方法及装置、存储介质、电子装置
CN112184780A (zh) * 2020-10-13 2021-01-05 武汉斌果科技有限公司 一种运动物体实例分割方法
CN112183600A (zh) * 2020-09-22 2021-01-05 天津大学 一种基于动态记忆库模板更新的目标跟踪方法
CN112233147A (zh) * 2020-12-21 2021-01-15 江苏移动信息系统集成有限公司 一种基于双路孪生网络的视频运动目标跟踪方法及装置
CN112347852A (zh) * 2020-10-10 2021-02-09 上海交通大学 体育运动视频的目标追踪与语义分割方法及装置、插件

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100310127A1 (en) * 2009-06-08 2010-12-09 Nikon Corporation Subject tracking device and camera
US20180365843A1 (en) * 2015-07-01 2018-12-20 China University Of Mining And Technology Method and system for tracking moving objects based on optical flow method
CN111275740A (zh) * 2020-01-19 2020-06-12 武汉大学 一种基于高分辨率孪生网络的卫星视频目标跟踪方法
CN111583300A (zh) * 2020-04-23 2020-08-25 天津大学 一种基于富集目标形态变化更新模板的目标跟踪方法
CN112164094A (zh) * 2020-09-22 2021-01-01 江南大学 一种基于孪生网络的快速视频目标跟踪方法
CN112183600A (zh) * 2020-09-22 2021-01-05 天津大学 一种基于动态记忆库模板更新的目标跟踪方法
CN112184757A (zh) * 2020-09-28 2021-01-05 浙江大华技术股份有限公司 运动轨迹的确定方法及装置、存储介质、电子装置
CN112347852A (zh) * 2020-10-10 2021-02-09 上海交通大学 体育运动视频的目标追踪与语义分割方法及装置、插件
CN112184780A (zh) * 2020-10-13 2021-01-05 武汉斌果科技有限公司 一种运动物体实例分割方法
CN112233147A (zh) * 2020-12-21 2021-01-15 江苏移动信息系统集成有限公司 一种基于双路孪生网络的视频运动目标跟踪方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BERTINETTO L,VALMADRE J,ET AL: "Fully-Convolutional Siamese Networks for Object Tracking", 《ECCV 2016:COMPUTER VISION-ECCV 2016 WORKSHOPS》, 3 November 2016 (2016-11-03) *
BO LI,WEI WU,ET AL: "SiamRPN++: Evolution of Siamese Visual Tracking With Very Deep Networks", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 9 January 2020 (2020-01-09) *
LI BO,YAN JIEJUN,WU WEI,ET AL: "High performance visual tracking with Siamese region proposal network", 《THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 17 December 2018 (2018-12-17) *
刘方涛等: "基于孪生网络视频烟雾目标分割方法", 《计算机工程与设计》, no. 09, 16 September 2020 (2020-09-16) *
熊昌镇等: "动态的加权孪生网络跟踪算法", 《计算机应用》, no. 08, 9 September 2020 (2020-09-09) *
陕硕等: "基于实例分割的多目标跟踪", 《中国体视学与图像分析》, no. 02, 25 June 2020 (2020-06-25) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359336A (zh) * 2021-11-30 2022-04-15 南昌航空大学 基于光流和动态级联rpn的目标跟踪算法
CN114359336B (zh) * 2021-11-30 2023-04-07 南昌航空大学 基于光流和动态级联rpn的目标跟踪方法
CN116091554A (zh) * 2023-04-11 2023-05-09 智洋创新科技股份有限公司 一种用于开放集的运动目标跟踪方法
CN116091554B (zh) * 2023-04-11 2023-06-16 智洋创新科技股份有限公司 一种用于开放集的运动目标跟踪方法

Also Published As

Publication number Publication date
CN113158904B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
Ma et al. Bayesian loss for crowd count estimation with point supervision
Haeusser et al. Associative domain adaptation
Chen et al. Learning linear regression via single-convolutional layer for visual object tracking
CN113158904B (zh) 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置
CN107368802B (zh) 基于kcf和人脑记忆机制的运动目标跟踪方法
KR20180071947A (ko) 영상 처리 장치 및 방법
CN111259919A (zh) 一种视频分类方法、装置及设备、存储介质
Wang et al. Small vehicle classification in the wild using generative adversarial network
CN111242003B (zh) 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
Kavitha et al. Convolutional Neural Networks Based Video Reconstruction and Computation in Digital Twins.
Jing et al. Uncertainty guided adaptive warping for robust and efficient stereo matching
Dou et al. Background subtraction based on circulant matrix
Yuan et al. Optical flow training under limited label budget via active learning
Chen et al. Single‐Object Tracking Algorithm Based on Two‐Step Spatiotemporal Deep Feature Fusion in a Complex Surveillance Scenario
Yang et al. PaaRPN: Probabilistic anchor assignment with region proposal network for visual tracking
Shi et al. Focus for free in density-based counting
CN116580063B (zh) 目标追踪方法、装置、电子设备及存储介质
Zheng et al. Local-to-global background modeling for moving object detection from non-static cameras
CN109767457B (zh) 在线多示例学习目标跟踪方法、终端设备及存储介质
Zhang et al. Self-paced uncertainty estimation for one-shot person re-identification
Yang et al. A crowd counting method via density map and counting residual estimation
Fu et al. Foreground gated network for surveillance object detection
Lee et al. Sampling operator to learn the scalable correlation filter for visual tracking
Huang et al. An anti-occlusion and scale adaptive kernel correlation filter for visual object tracking
Garcia-Espinosa et al. Automatic annotation for weakly supervised pedestrian detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Liu Jing

Inventor after: Huang Xiangdong

Inventor after: Wang Yating

Inventor before: Huang Xiangdong

Inventor before: Wang Yating

Inventor before: Liu Jing

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant