CN112233147A - 一种基于双路孪生网络的视频运动目标跟踪方法及装置 - Google Patents

一种基于双路孪生网络的视频运动目标跟踪方法及装置 Download PDF

Info

Publication number
CN112233147A
CN112233147A CN202011517694.8A CN202011517694A CN112233147A CN 112233147 A CN112233147 A CN 112233147A CN 202011517694 A CN202011517694 A CN 202011517694A CN 112233147 A CN112233147 A CN 112233147A
Authority
CN
China
Prior art keywords
network
appearance
semantic
target
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011517694.8A
Other languages
English (en)
Other versions
CN112233147B (zh
Inventor
唐志鸿
王宏图
孙迎春
张超溢
彭力
郑长岭
胡仁龙
姚洁
金花
徐姝婷
董陵
赵玮
徐浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Mobile Information System Integration Co ltd
Original Assignee
Jiangsu Mobile Information System Integration Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Mobile Information System Integration Co ltd filed Critical Jiangsu Mobile Information System Integration Co ltd
Priority to CN202011517694.8A priority Critical patent/CN112233147B/zh
Publication of CN112233147A publication Critical patent/CN112233147A/zh
Application granted granted Critical
Publication of CN112233147B publication Critical patent/CN112233147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • G06T7/231Analysis of motion using block-matching using full search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于双路孪生网络的视频运动目标跟踪方法及装置,跟踪方法包括以下步骤:分别搭建语义网络和外观网络,组合构成双路孪生网络,利用语义网络提取语义信息,利用外观网络提取外观信息;对所述语义网络的网络结构进行调整,并在所述语义网络中内嵌注意力模块;在所述外观网络中添加空间掩膜、以提高外观网络提取目标的聚焦能力;对语义网络和外观网络分别单独训练;对目标尺度与旋转角度进行混合预测,最终确定被跟踪目标的位置。本发明针对外观与语义,分而治之,搭建2个不同的网络,让其各司其职,使得模型的学习表现更强,因此可以提升跟踪器的精度,同时,可以减缓跟踪器因为相似目标而导致的漂移问题。

Description

一种基于双路孪生网络的视频运动目标跟踪方法及装置
技术领域
本发明涉及一种基于双路孪生网络的视频运动目标跟踪方法及装置,涉及预测目的的数据处理系统或方法领域。
背景技术
基于双路孪生网络的视频运动目标跟踪技术可以实现对物体的视频跟踪,可以应用于视频监控,安防,目标行为轨迹分析,人机交互,自动驾驶等领域。
现有的基于相关滤波的跟踪器,如果使用深度特征,由于在线模型更新,导致跟踪速度很慢,无法满足实时性要求;而基于单路孪生网络的跟踪算法,普遍使用同一个网络同时学习目标的语义和外观特性,学习的目标不明确。
发明内容
发明目的:提出一种基于双路孪生网络的视频运动目标跟踪方法及装置,以解决现有技术存在的上述问题,提升跟踪器精度的同时减缓跟踪器因为相似目标而导致的漂移问题。
技术方案:第一方面,提供了一种基于双路孪生网络的视频运动目标跟踪方法,该方法包括以下步骤:
分别搭建语义网络和外观网络,组合构成双路孪生网络,利用语义网络提取语义信息,利用外观网络提取外观信息;单路孪生网络使用同一个网络提取目标最后一个卷积层输出的语义特征,忽略了目标的外观信息,然而,目标的外观信息对于目标的识别也有着重要的作用,因此步骤1建立双路孪生网络,分别提取目标的外观信息和语义信息。
对所述语义网络的网络结构进行调整,并在所述语义网络中内嵌注意力模块;使得跟踪器可以受益于深层网络的强力特征,跟踪成功率取得大幅提升;当背景存在许多干扰物导致跟踪器容易漂移时,利用内嵌的注意力模块进一步加强困难场景下特征的鲁棒性。
在所述外观网络中添加空间掩膜、以提高外观网络提取目标的聚焦能力;针对目标长宽比远大于1的模板图像,在经过外观网络提取得到最后一层特征图时添加掩模,以抑制其他干扰物体,使得外观网络提取的目标特征会更聚焦于目标自身,减轻其他显著物体的干扰。
对语义网络和外观网络分别单独训练,只有在跟踪测试的时候才依据各自的APCE值进行加权融合,这样可以保证,在训练时,语义网络负责就只负责目标的学习语义信息,外观网络也只负责学习目标的外观信息,不会相互影响。
对目标尺度与旋转角度进行混合预测,最终确定被跟踪目标的位置。
在第一方面的一些可实现方式中,利用外观网络提取外观信息的过程为:提取被跟踪物体的语义信息和外貌信息,得到两个响应图,分别对应于语义支路的输出响应图和外观分支的输出响应图;利用平均峰值相关能量衡量响应图准确度的指标:
Figure 152297DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE003
表示语义支路的输出响应图和外观分支的输出响应图中的最大值,
Figure 997893DEST_PATH_IMAGE004
表示语义支路的输出响应图和外观分支的输出响应图中的最小值,
Figure DEST_PATH_IMAGE005
表示处于语义支路的输出响应图和外观分支的输出响应图中
Figure 946258DEST_PATH_IMAGE006
点的响应值,APCE表示平均峰值相关能量,
Figure DEST_PATH_IMAGE007
表示求括号内的数组平均值;
对语义支路与外观支路得到的2个特征图按各自的APCE指标进行加权相加,得到最终的响应图:
Figure DEST_PATH_IMAGE009
式中,下标A表示外观分支,下表S表示语义分支,
Figure 55159DEST_PATH_IMAGE010
表示外观分支的输出响应图所对应的平均峰值相关能量,
Figure DEST_PATH_IMAGE011
表示语义分支的输出响应图所对应的平均峰值相关能量,f表示融合后的最终响应图,
Figure 83115DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
分别表示外观分支与语义分支各自的响应图。
在第一方面的一些可实现方式中,对所述语义网络的网络结构进行调整的过程为:从卷积网络中的填充(padding)和步长(stride)两个参数入手,针对这两个方面对初始的网络进行修改,对于padding来说,在模型训练过程中它可能会带来位置偏差。具体来说,当目标移动到图像的边缘时,假如网络包含padding操作,那么网络提取的特征就会包含原始目标部分以及边缘的填充部分,但是对于搜索图像中的候选区域来说,有一部分是仅包含目标自身的,有一部分是包目标+填充这2个部分的。因此,这就导致了模板图像和搜索区域的不一致性,因此最终的输出响应无法真实地反映输入图像对的相似性。幸运的是,当目标贴近图像中心时,padding不会带来坏的影响。为了解决padding的干扰,本实施例采取的策略是将受padding影响的特征图最外一层裁减掉。对于网络步长来说,跟踪任务更关注的是目标的位置而不是对目标进行分类,因此这么大的步长会导致最后一层特征图的分辨率非常小,小到不足以精确定位目标。考虑到跟踪器的运行效率,本实施例将步长设置为8。
为了进一步加强困难场景下特征的鲁棒性,例如,当背景存在许多干扰物导致跟踪器容易漂移时,提出一个轻量级的通道注意力机制。特征首先经过一个全局均值池化层以获得逐通道的特征描述子,紧跟着一个一维卷积来为相邻通道建立联系,然后使用Sigmoid作为门控单元来计算每一个通道的重要性程度:
Figure DEST_PATH_IMAGE015
式中,
Figure 607768DEST_PATH_IMAGE016
表示因变量,x表示自变量;
将每一个通道的重要性系数按通道维度施加到原有特征上:
Figure 269694DEST_PATH_IMAGE018
式中,
Figure DEST_PATH_IMAGE019
表示施加通道注意力的特征,
Figure 18338DEST_PATH_IMAGE020
表示语义网络提取的初始特征,其中
Figure 867345DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
,表示各个特征通道,
Figure 726848DEST_PATH_IMAGE024
表示第i个通道的重要性系数。
在第一方面的一些可实现方式中,在外观网络中添加空间掩膜的过程为:在模板图像分支(z)中,如果待跟踪目标的纵横比或横纵比(高度/宽度,宽度/高度)远离1,那么该图像中有更大的可能存在干扰物体,这些干扰物体容易引发跟踪器漂移。因此,本实施例有选择性的使用空间掩模策略,针对那些目标长宽比远大于1的模板图像,在经过外观网络提取得到最后一层特征图时,添加掩模,以抑制其他干扰物体。
定义目标高度为H,目标宽度为W,当H-W的值在预定范围区间之内,则判定目标宽度高度接近,此时不添加空间掩模,即采用中间部分全为1的方式;当H-W的值超出预定范围区间的最大值,则判定目标高度远大于宽度,此时采用图左边的掩模,抑制左右两边的干扰;当W-H的值超出预定范围区间的最大值,则判定目标宽度远大于高度,此时采用图右边的掩模,抑制上下两边的干扰;最终,外观网络提取的目标特征会更聚焦于目标自身,减轻了其他显著物体的干扰。
在第一方面的一些可实现方式中,对语义网络和外观网络分别单独训练的过程为:采用随机梯度下降的优化算法,进行预定次数迭代,网络的损失函数的构成部分为:
Figure 243280DEST_PATH_IMAGE026
式中,v是网络预测的分数,代表当前片区搜索区域与模板图像的相似度,y是预先定义的标签,
Figure DEST_PATH_IMAGE027
,1表示当前片区与目标是相似的,反之-1表示不相似;搜索图像上不同的候选区域构成一张分数图D,
Figure 225143DEST_PATH_IMAGE028
表示在预定位置的损失函数,定义各子网络模型的总体损失函数为每个子区域的局部损失均值:
Figure 702391DEST_PATH_IMAGE030
式中,
Figure DEST_PATH_IMAGE031
表示总体的损失函数,即包含了全部子区域的总体损失函数,u表示子区域,
Figure 490219DEST_PATH_IMAGE032
表示定义的标签中的u位置的值(0或1),
Figure DEST_PATH_IMAGE033
表示网络预测的u位置的值。
在第一方面的一些可实现方式中,对目标尺度与旋转角度进行混合预测的过程为:枚举多个潜在的旋转角度样本,找到最合适的样本;在当前帧,采用至少P个候选图像块,其中Q个是原始的既不进行尺度缩放又不进行旋转的图像块,有T个是进行尺度缩放的图像块,剩下P-Q-T个是进行角度估计的图像块;其中,
Figure 470944DEST_PATH_IMAGE034
每一个目标块都存在一个
Figure DEST_PATH_IMAGE035
参数对,其中,s表示尺度估计,a表示角度估计;设定当a不等于0的时候s=1,s不等于1的时候a=0;被跟踪的目标根据下式决定:
Figure DEST_PATH_IMAGE037
式中,K=P,表示一共有P个候选图像块,算法从这P个中挑选出最好的那个;
Figure 92550DEST_PATH_IMAGE038
表示被跟踪物体的中心坐标,
Figure DEST_PATH_IMAGE039
表示尺度角度估计对
Figure 322674DEST_PATH_IMAGE035
Figure 710930DEST_PATH_IMAGE040
表示第k个候选图像块的最终响应值,x表示被跟踪物体中心的横坐标,y表示被跟踪物体中心的纵坐标,k表示第k个候选图像块,即候选图像块的索引号。
第二方面,提供了一种基于双路孪生网络的视频运动目标跟踪装置,该装置包括双路孪生网络搭建模块、语义网络调整模块、外观网络调整模块、训练模块、混合预测模块、以及注意力模块。其中,双路孪生网络搭建模块用于搭建语义网络和外观网络,利用语义网络提取语义信息,利用外观网络提取外观信息。语义网络调整模块用于对双路孪生网络搭建模块所搭建的语义网络的网络结构进行调整;外观网络调整模块用于在双路孪生网络搭建模块所搭建的外观网络中添加空间掩膜、以提高外观网络提取目标的聚焦能力;训练模块用于对语义网络和外观网络分别单独训练,只有在跟踪测试的时候才依据各自的APCE值进行加权融合,这样可以保证,在训练时,语义网络负责就只负责目标的学习语义信息,外观网络也只负责学习目标的外观信息,不会相互影响;混合预测模块用于对目标尺度与旋转角度进行混合预测,最终确定被跟踪目标的位置;注意力模块内嵌于所述语义网络中,用于加强困难场景下特征的鲁棒性。
在第二方面的一些可实现方式中,双路孪生网络搭建模块用于提取被跟踪物体的语义信息和外貌信息,得到两个响应图,分别对应于语义支路的输出响应图和外观分支的输出响应图;并利用平均峰值相关能量衡量响应图准确度的指标:
Figure 811741DEST_PATH_IMAGE002
式中,
Figure 197723DEST_PATH_IMAGE003
表示语义支路的输出响应图和外观分支的输出响应图中的最大值,
Figure 774198DEST_PATH_IMAGE004
表示语义支路的输出响应图和外观分支的输出响应图中的最小值,
Figure 575932DEST_PATH_IMAGE005
表示处于语义支路的输出响应图和外观分支的输出响应图中
Figure 921462DEST_PATH_IMAGE006
点的响应值,APCE表示平均峰值相关能量,
Figure 410169DEST_PATH_IMAGE007
表示求括号内的数组平均值;
对语义支路与外观支路得到的2个特征图按各自的APCE指标进行加权相加,得到最终的响应图:
Figure 208361DEST_PATH_IMAGE009
式中,下标A表示外观分支,下表S表示语义分支,
Figure 876103DEST_PATH_IMAGE010
表示外观分支的输出响应图所对应的平均峰值相关能量,
Figure 951506DEST_PATH_IMAGE011
表示语义分支的输出响应图所对应的平均峰值相关能量,f表示融合后的最终响应图,
Figure 7187DEST_PATH_IMAGE012
Figure 902462DEST_PATH_IMAGE013
分别表示外观分支与语义分支各自的响应图。
语义网络调整模块用于裁减受卷积网络中的填充宽度影响的特征图的最外一层,将步长设置为预定值;特征经过全局均值池化层以获得逐通道的特征描述子;利用一维卷积为相邻通道建立联系,然后使用Sigmoid作为门控单元计算每一个通道的重要性程度:
Figure 436211DEST_PATH_IMAGE015
式中,
Figure 366121DEST_PATH_IMAGE016
表示因变量,x表示自变量;
将每一个通道的重要性系数按通道维度施加到原有特征上:
Figure 264807DEST_PATH_IMAGE018
式中,
Figure 37591DEST_PATH_IMAGE019
表示施加通道注意力的特征,
Figure 250398DEST_PATH_IMAGE020
表示语义网络提取的初始特征,其中
Figure 159448DEST_PATH_IMAGE022
Figure 166718DEST_PATH_IMAGE023
,表示各个特征通道,
Figure 161219DEST_PATH_IMAGE024
表示第i个通道的重要性系数。
外观网络调整模块针对目标长宽比大于1的模板图像,在经过外观网络提取得到最后一层特征图时添加掩模;定义目标高度为H,目标宽度为W,当H-W的值在预定范围区间之内,则不添加空间掩模,即采用中间部分全为1的方式;当H-W的值超出预定范围区间的最大值,则采用图左边的掩模,抑制左右两边的干扰;当W-H的值超出预定范围区间的最大值,则采用图右边的掩模,抑制上下两边的干扰;
混合预测模块用于枚举多个潜在的旋转角度样本,找到最合适的样本;在当前帧,采用至少P个候选图像块,其中Q个是原始的既不进行尺度缩放又不进行旋转的图像块,有T个是进行尺度缩放的图像块,剩下P-Q-T个是进行角度估计的图像块;其中,
Figure 240033DEST_PATH_IMAGE034
;每一个目标块都存在一个
Figure 144535DEST_PATH_IMAGE035
参数对,其中,s表示尺度估计,a表示角度估计;设定当a不等于0的时候s=1,s不等于1的时候a=0;被跟踪的目标根据下式决定:
Figure 447341DEST_PATH_IMAGE037
式中,K=P,表示一共有P个候选图像块,算法从这P个中挑选出最好的那个;
Figure 70083DEST_PATH_IMAGE038
表示被跟踪物体的中心坐标,
Figure 687009DEST_PATH_IMAGE039
表示尺度角度估计对
Figure 570652DEST_PATH_IMAGE035
Figure 654145DEST_PATH_IMAGE040
表示第k个候选图像块的最终响应值,x表示被跟踪物体中心的横坐标,y表示被跟踪物体中心的纵坐标,k表示第k个候选图像块,即候选图像块的索引号。
第三方面,提供了一种基于双路孪生网络的视频运动目标跟踪设备,该设备包括:处理器,以及存储有计算机程序指令的存储器;所述处理器读取并执行计算机程序指令时实现第一方面或第一方面的一些可实现方式中的运动目标跟踪方法。
第四方面,,提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或第一方面的一些可实现方式中的运动目标跟踪的方法。
有益效果:提出一种基于双路孪生网络的目标跟踪框架,建立2个不同的子网络,分别提被跟踪物体的语义和外观信息,使用平均峰值相关能量这个可变系数自适应的融合双路网络输出的目标响应图,推理出最终的目标中心。在语义分支网络上嵌入轻量级的通道注意力模块,通过建立相邻特征通道的关系模型,从局部到全局,筛选出具有显著意义的特征,进一步提升特征的语义判别能力。并且,给注意力模块具有少量的参数量与计算量,保障了跟踪器的实时性。在外观分支网络引入空间掩模策略,根据被跟踪物体的纵横比,选择性地使用3种不同的空间掩模,有效抑制了画面中除目标外其他显著性的物体,因而降低了这些物体对跟踪器的干扰,提升了跟踪准确率。此外,提出一种新颖的尺寸与角度混合估计的策略,使得跟踪器的跟踪结果不在局限于传统的基于坐标轴对齐的矩形框,而是自带角度可以旋转的矩形框。因此,跟踪的精细度得到了进一步提升。
附图说明
图1是基于单路双路孪生网络的跟踪器结构示意图。
图2是本发明实施例提供的整体网络框架图。
图3是本发明实施例提供的轻量级的通道注意力机制结构示意图。
图4是本发明实施例提供的空间掩模示意图。
图5是本发明实施例提供的尺度与角度混合预测结构示意图。
图6是本发明实施例提供的运动目标跟踪案例实物图。
图7是本发明实施例提供的目标跟踪方法的流程示意图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
申请人认为,现有的基于相关滤波的跟踪器,如果使用深度特征,由于在线模型更新,导致跟踪速度很慢,无法满足实时性要求;而基于单路孪生网络的跟踪算法,普遍使用同一个网络同时学习目标的语义和外观特性,学习的目标不明确。
且常规的跟踪器的跟踪结果是一个与坐标轴对齐的矩形框,但是当目标形状不规则或者目标处于倾斜状态时,使用垂直矩形框会引入更多的背景信息,同时也无法准确的描述目标所处的位置。
典型的单路孪生网络如图1所示。首先,在一个图像序列中,选定某一张图像以及待跟踪的目标,根据跟踪目标的中心与宽度高度,裁剪出一块127*127*3的模板图像块(z),其中127表示裁剪后图像的高度与宽度,3表示特征数,初始化时表示RGB这3个通道数。同时,在剩下图像序列中选取某一张图像,以这个目标为中心划分出255*255*3的搜索图像块(x),各参数含义同上。然后,将这2个图像块输入进同一个网络
Figure DEST_PATH_IMAGE041
,最后可以得到不同宽高,相同通道数的输出特征图。以图1为例,z分支的特征图为6*6*128,x分支的特征图为22*22*128,然后,将2个特征图进行交叉相关操作,(图中*表示交叉相关操作):
Figure DEST_PATH_IMAGE043
其中,
Figure 560921DEST_PATH_IMAGE044
使用参数为
Figure DEST_PATH_IMAGE045
的卷积网络提取目标特征,
Figure 591326DEST_PATH_IMAGE046
表示偏置项。公式(1)可以衡量出x上某一块候选区域与模板z的匹配度,所求的结果即为响应图,响应图上最大值的位置即对应了该张图像上目标的预测中心点。
为此,本案旨在设计一种同时兼顾精度与速度的目标跟踪算法。现有的基于相关滤波的跟踪器,如果使用深度特征,由于在线模型更新,导致跟踪速度很慢,无法满足实时性要求;而基于单路孪生网络的跟踪算法,普遍使用同一个网络同时学习目标的语义和外观特性,学习的目标不明确,相对而言,针对外观与语义,分而治之,搭建2个不同的网络,让其各司其职,可以使得模型的学习表现更强,因此可以提升跟踪器的精度,同时,可以减缓跟踪器因为相似目标而导致的漂移问题。
同时,本方案提出一种新颖的尺度与角度混合预测模型。常规的跟踪器的跟踪结果是一个与坐标轴对齐的矩形框,但是当目标形状不规则或者目标处于倾斜状态时,使用垂直矩形框会引入更多的背景信息,同时也无法准确的描述目标所处的位置。因此,本文提出一种新的目标旋转角度预测模型,可以实现目标的精细跟踪。
本提案旨在设计一种同时兼顾精度与速度的目标跟踪算法,针对外观与语义,分而治之,搭建2个不同的网络,让其各司其职,可以使得模型的学习表现更强,提升跟踪器的精度,同时减缓跟踪器因为相似目标而导致的漂移问题,此外本方案设计了一种新的目标旋转角度预测模型,可以实现目标的精细跟踪。如图7所示,是本发明实施例提供的目标跟踪方法的流程示意图。
实施例一:
算法整体设计思路如图2所示,图2中1表示最后一层z响应图,2表示最后一层x响应图,*表示交叉相关。本框架中包含2个子网络分支,语义网络分支与外观网络分支。其中,语义分分支网络采用改进版的CIRes22,网络结构见表1;外观分支网络采用标准的AlexNet。在语义分支网络的模板图像z的最后一层输出特征图上,嵌入通道注意力模块;在外观分支网络的模板图像z的最后一层输出特征图上,加入自适应的空间掩模策略。最后,通过各自分支输出响应图的APCE数值,进行加权平均,得到最终的响应图。最终响应图上最大值对应的位置,对应了目标的预测中心位置。
实施例二:
在实施例一的基础之上,单路孪生网络使用同一个网络提取目标最后一个卷积层输出的语义特征,忽略了目标的外观信息,然而,目标的外观信息对于目标的识别也有着重要的作用。因此,本实施例设计了一种基于多路孪生网络的跟踪器,利用2个不同的网络,分别提取目标的外观信息和语义信息。具体的,使用改进版的CIRes22作为目标语义特征的提取器,使用AlexNet作为目标外观信息的提取器。CIRes22是基于ResNet的改进版,相较于只有5层的AlexNet,其最后一层提取的特征语义判别能力明显优于AlexNet。因此,使用CIRes22与AlexNet分别提取跟踪物体的语义和外貌信息,利用上述的跟踪范式,可以得到2个响应图,分别对应语义支路的输出响应图和外观分支的输出响应图。利用平均峰值相关能量(APCE)这个可以衡量响应图准确度的指标:
Figure 595054DEST_PATH_IMAGE048
式中,
Figure 849449DEST_PATH_IMAGE003
表示语义支路的输出响应图和外观分支的输出响应图中的最大值,
Figure 305838DEST_PATH_IMAGE004
表示语义支路的输出响应图和外观分支的输出响应图中的最小值,
Figure 936670DEST_PATH_IMAGE005
表示处于语义支路的输出响应图和外观分支的输出响应图中
Figure 794905DEST_PATH_IMAGE006
点的响应值,APCE表示平均峰值相关能量,
Figure 751360DEST_PATH_IMAGE007
表示求括号内的数组平均值。
Figure 429466DEST_PATH_IMAGE050
式中,下标A表示外观分支,下表S表示语义分支,
Figure 598410DEST_PATH_IMAGE010
表示外观分支的输出响应图所对应的平均峰值相关能量,
Figure 576730DEST_PATH_IMAGE011
表示语义分支的输出响应图所对应的平均峰值相关能量,f表示融合后的最终响应图,
Figure 432648DEST_PATH_IMAGE012
Figure 863629DEST_PATH_IMAGE013
分别表示外观分支与语义分支各自的响应图。
实验发现,直接将现有的深度网络,比如VGG, ResNet不经修改的,直接运用到跟踪器上,无法提高跟踪成功率,相反,表现还不如仅仅只有5层的AlexNet。因此,本实施例使用改进版的CIRes22网络,在ResNet的基础上,为跟踪任务单独设计了一种新的网络结构,使得跟踪器可以受益于深层网络的强力特征,跟踪成功率取得大幅提升。
实施例三:
在实施例一的基础之上,本实施例从卷积网络中的填充(padding)和步长(stride)2个参数入手,针对这2个方面对初始的网络进行了修改。
对于padding来说,在模型训练过程中它可能会带来位置偏差。具体来说,当目标移动到图像的边缘时,假如网络包含padding操作,那么网络提取的特征就会包含原始目标部分以及边缘的填充部分,但是对于搜索图像中的候选区域来说,有一部分是仅包含目标自身的,有一部分是包目标+填充这2个部分的。因此,这就导致了模板图像和搜索区域的不一致性,因此最终的输出响应无法真实地反映输入图像对的相似性。幸运的是,当目标贴近图像中心时,padding不会带来坏的影响。为了解决padding的干扰,本实施例采取的策略是将受padding影响的特征图最外一层裁减掉。对于网络步长来说,跟踪任务更关注的是目标的位置而不是对目标进行分类,因此这么大的步长会导致最后一层特征图的分辨率非常小,小到不足以精确定位目标。考虑到跟踪器的运行效率,本实施例将步长设置为8。改进后的CIRes22网络结构见下表1:
表1 CIRes22网络结构
Figure 836264DEST_PATH_IMAGE052
为了进一步加强困难场景下特征的鲁棒性,例如,当背景存在许多干扰物导致跟踪器容易漂移时,我们提出了一个轻量级的通道注意力机制。现有的一些方法是使用全连接层为每一个神经元和其他所有神经元建立复杂的关系,这会带来更高的模型复杂度和计算负担。我们的方法与此不同,我们更关注特征通道与其相邻通道间的关系。如图3所示,图3中
Figure DEST_PATH_IMAGE053
表示按通道逐个元素相乘。
对于一个H×W×C的初始特征图X,H 表示该特征的高度,W表示该特征的宽度,C表示该特征的通道数;初始特征图X首先经过一个全局均值池化层(图中GAP表示全局均值池化层,全称为Global Average Pooling)以获得逐通道的特征描述子,紧跟着一个一维卷积(1×1×C)来为相邻通道建立联系,卷积核大小选择k=5;然后使用Sigmoid作为门控单元(图中所示
Figure 810036DEST_PATH_IMAGE054
表示sigmoid激活函数,即下式4)来计算每一个通道的重要性程度:
Figure 373873DEST_PATH_IMAGE056
式中,
Figure 26571DEST_PATH_IMAGE016
表示因变量,x表示自变量;
将每一个通道的重要性系数按通道维度施加到原有特征上:
Figure 802897DEST_PATH_IMAGE058
式中,
Figure 224651DEST_PATH_IMAGE019
表示施加通道注意力的特征,
Figure 428231DEST_PATH_IMAGE020
表示语义网络提取的初始特征,其中
Figure 568225DEST_PATH_IMAGE022
Figure 148242DEST_PATH_IMAGE023
,表示各个特征通道,
Figure 690082DEST_PATH_IMAGE024
表示第i个通道的重要性系数。图中
Figure DEST_PATH_IMAGE059
表示施加注意力机制后的特征图,其宽、高、特征数和输入的初始特征图X一致。
实施例四:
在实施例一的基础之上,本实施例使用一维卷积,施加在语义网络最后一层的模板(z)特征上,特征通道的维度上进行运算,一维卷积核大小为k,这样,仅仅通过k个相邻的通道与卷积中心的通道建立联系,而不是通道间两两建立关系,既抑制了相邻通道间不重要的特征,突出显著的特征,又极大的减少了参数量和运算量,保证了跟踪器的实时性。
实施例五:
在实施例四的基础之上,在模板图像分支(z)中,如果待跟踪目标的纵横比或横纵比(高度/宽度,宽度/高度)远离1,那么该图像中有更大的可能存在干扰物体,这些干扰物体容易引发跟踪器漂移。因此,本实施例有选择性的使用空间掩模策略,针对那些目标长宽比远大于1的模板图像,在经过外观网络提取得到最后一层特征图时,添加掩模,以抑制其他干扰物体。如图4所示,黑色部分表示0,白色部分表示1。如果目标宽度高度接近,那么就不添加空间掩模,即采用中间部分全为1的方式;如果目标高度远大于宽度,那么就采用图左边的掩模,抑制左右两边的干扰;如果目标宽度远大于高度,那么就采用图右边的掩模,抑制上下两边的干扰。最终,外观网络提取的目标特征会更聚焦于目标自身,减轻了其他显著物体的干扰。
实施例六:
在实施例一的基础之上,采用类似多层金字塔的思想,具体的,我们枚举多个潜在的旋转角度,然后找到最合适的那一个。比如现在我们有M个尺度候选和N个角度候选,那么就会产生M*N个尺度与角度相结合的估计值。这样直接会导致跟踪器的速度大幅下降,经试验发现,当M=3与N=3时,跟踪器已无法满足实时性要求。因此,我们采用的策略是,在当前帧,采用5个候选图像块,有1个是原始的既不进行尺度缩放又不进行旋转的,有2个是进行尺度缩放的,剩下2个是进行角度估计的。最终,本实施例提出的采样策略是M=3,N=3。这样,每一帧就会存在M+N-1个对比目标块。
如图5所示,每一个目标块都会存在一个
Figure 798983DEST_PATH_IMAGE035
参数对。图5的左侧表示不同旋转角度与缩放比
Figure 426274DEST_PATH_IMAGE035
下每一个候选图像块,图5的右侧表示不同旋转角度与缩放比
Figure 544402DEST_PATH_IMAGE035
下每一个候选图像块的响应。其中,s表示scale,即尺度估计,a表示angle,即角度估计。本实施例预先设定当a不等于0的时候s=1,s不等于1的时候a=0,预测尺度与预测角度分而治之。因此,被跟踪的目标最后是根据式(6)决定的:
Figure DEST_PATH_IMAGE061
式中,K=P,表示一共有P个候选图像块,算法从这P个中挑选出最好的那个;
Figure 612853DEST_PATH_IMAGE038
表示被跟踪物体的中心坐标,
Figure 282868DEST_PATH_IMAGE039
表示尺度角度估计对
Figure 7242DEST_PATH_IMAGE035
Figure 319274DEST_PATH_IMAGE040
表示第k个候选图像块的最终响应值,x表示被跟踪物体中心的横坐标,y表示被跟踪物体中心的纵坐标,k表示第k个候选图像块,即候选图像块的索引号。
实施例七:
图5表示了整体的尺度与角度估计的流程,在第t帧进行尺度估计与角度的混合估计。按照1.0375的尺寸缩放比构建1.0375,1,0.964这3个不同尺度的候选块,然后与目标块进行相似度计算,响应最大的那个位置即是本帧预测的位置;按照
Figure 711073DEST_PATH_IMAGE062
的旋转角度,分为3个候选块,分别是顺时针旋转,逆时针旋转
Figure 551990DEST_PATH_IMAGE062
和保持角度不变。同样的,根据哪个候选块的响应值最大,可以判断出当前时刻最佳的旋转角度。最后,这5个候选快的响应值哪个最大,哪个就是目标的最佳尺度与角度预测。从图5可以看出,当
Figure 763659DEST_PATH_IMAGE035
参数对为
Figure DEST_PATH_IMAGE063
时,响应值最大。
实施例八:
在实施例一的基础之上,训练模块对语义网络和外观网络分别单独训练,只有在跟踪测试的时候才依据各自的APCE值进行加权融合,这样可以保证,在训练时,语义网络负责就只负责目标的学习语义信息,外观网络也只负责学习目标的外观信息,不会相互影响。
使用Got10K数据集和ILSVRC2015数据集对这2个子网络进行训练,采用随机梯度下降的优化算法,其中,动量为0.9,权重衰减为0.0005,初始学习率为0.01,学习率采用指数衰减的方式,共进行50轮迭代,最后一轮迭代的学习率为0.00001。网络的损失函数的构成部分为:
Figure DEST_PATH_IMAGE065
式中,v是网络预测的分数,代表当前片区搜索区域与模板图像的相似度,y是预先定义的标签,
Figure 20328DEST_PATH_IMAGE027
,1表示当前片区与目标是相似的,反之-1表示不相似;搜索图像上不同的候选区域构成一张分数图D,
Figure 266633DEST_PATH_IMAGE028
表示在某个位置的损失函数,定义各子网络模型的总体损失函数为每个子区域的局部损失均值:
Figure DEST_PATH_IMAGE067
式中,
Figure 481714DEST_PATH_IMAGE031
表示总体的损失函数,即包含了全部子区域的总体损失函数,u表示子区域,
Figure 774155DEST_PATH_IMAGE032
表示定义的标签中的u位置的值(0或1),
Figure 789776DEST_PATH_IMAGE033
表示网络预测的u位置的值。
实施例九:
实施例九针对具体情况,对在线跟踪的详细过程做出阐述:
<1>第一帧的初始化
输入视频序列或图像序列,第一帧中指定待跟踪的运动目标,具体的提供参数有目标中心坐标以及目标的宽度高度
Figure 280800DEST_PATH_IMAGE068
;根据这个初始信息,以目标为中心裁剪出127*127宽高大小的图像块作为模板图像z,将z输入进训练好的语义网络和外观网络,同时,在语义网络的最后一层输出特征图上采用通道注意力机制,在外观网络的最后一层输出特征图上采用空间掩模,分别得到2个子网络对模板图像z的特征图,分别记为
Figure DEST_PATH_IMAGE069
Figure 542148DEST_PATH_IMAGE070
<2>第二帧往后的目标位置预测
从第t帧开始,t=2,…T,T表示图像序列一共有多少帧。利用t-1帧估计目标的目标中心,才这个中心裁剪出255*255宽高的搜索图像区域x,将x输入进训练好的语义网络和外观网络,不过,对于搜索图像区域x来说,它的最后一层特征图不需要加注意力机制与空间掩模策略,这样可以分别得到2个子网络对搜索图像x的特征图,分别记为
Figure DEST_PATH_IMAGE071
Figure 259569DEST_PATH_IMAGE072
。利用公式(1),对语义分支的
Figure DEST_PATH_IMAGE073
特征图对以及外观分支的
Figure 592461DEST_PATH_IMAGE074
特征图对进行交叉相关,求出各自的输出响应图,响应图上每一个点表示了该片搜索区域与目标的相似度。根据公式(2)求出,语义支路与外观支路的响应图1PCE指标,最后,根据公式(3)自适应的融合两路支路的响应图,得到最终更为精确的响应图。在最终的响应图上,响应最大点的位置即代表了第t帧预测的目标中心位置。
<3>每一帧的尺度与角度混合估计
在第t帧进行尺度估计与角度的混合估计。按照1.0375的尺寸缩放比构建1.0375, 1,0.964这3个不同尺度的候选块,然后与目标块进行相似度计算,响应最大的那个位置即是本帧预测的位置;按照
Figure 141254DEST_PATH_IMAGE062
的旋转角度,分为3个候选块,分别是顺时针旋转
Figure 494875DEST_PATH_IMAGE062
,逆时针旋转
Figure 168433DEST_PATH_IMAGE062
和保持角度不变。同样的,根据哪个候选块的响应值最大,可以判断出当前时刻最佳的旋转角度。最后,这5个候选快的响应值哪个最大,哪个就是目标的最佳尺度与角度预测。
图6展示了一些本算法的成功应用效果,可用于车辆自动跟踪,行人徘徊分析等应用中,图像中的左上角数字表示当前时刻,单位为毫秒。
综上,本实施例提出一种基于双路孪生网络的目标跟踪框架,建立2个不同的子网络,分别提被跟踪物体的语义和外观信息,使用平均峰值相关能量(APCE)这个可变系数自适应的融合双路网络输出的目标响应图,推理出最终的目标中心;本方案兼顾精度与速度,针对外观与语义分别搭建2个不同的网络,模型的学习表现显著增强,大幅提升跟踪器的精度。
本实施例在语义分支网络上嵌入轻量级的通道注意力模块,通过建立相邻特征通道的关系模型,从局部到全局,筛选出具有显著意义的特征,进一步提升特征的语义判别能力。并且,给注意力模块具有少量的参数量与计算量,保障了跟踪器的实时性。
本实施例在外观分支网络引入空间掩模策略,根据被跟踪物体的纵横比,选择性地使用3种不同的空间掩模,有效抑制了画面中除目标外其他显著性的物体,因而降低了这些物体对跟踪器的干扰,提升了跟踪准确率。
本实施例提出一种新颖的尺寸与角度混合估计的策略,使得跟踪器的跟踪结果不在局限于传统的基于坐标轴对齐的矩形框,而是自带角度可以旋转的矩形框。因此,跟踪的精细度得到了进一步提升。
如上所述,尽管参照特定的优选实施例已经表示和表述了本实施例,但其不得解释为对本实施例自身的限制。在不脱离所附权利要求定义的本实施例的精神和范围前提下,可对其在形式上和细节上做出各种变化。

Claims (10)

1.一种基于双路孪生网络的视频运动目标跟踪方法,其特征在于,所述方法包括:
分别搭建语义网络和外观网络,组合构成双路孪生网络,利用语义网络提取语义信息,利用外观网络提取外观信息;
对所述语义网络的网络结构进行调整,并在所述语义网络中内嵌注意力模块;
在所述外观网络中添加空间掩膜、以提高外观网络提取目标的聚焦能力;
对语义网络和外观网络分别单独训练;
对目标尺度与旋转角度进行混合预测,最终确定被跟踪目标的位置。
2.根据权利要求1所述的一种基于双路孪生网络的视频运动目标跟踪方法,其特征在于,利用外观网络提取外观信息的过程进一步包括:
提取被跟踪物体的语义信息和外貌信息,得到两个响应图,分别对应于语义支路的输出响应图和外观分支的输出响应图;
利用平均峰值相关能量衡量响应图准确度的指标:
Figure DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE004
表示语义支路的输出响应图和外观分支的输出响应图中的最大值,
Figure DEST_PATH_IMAGE006
表示语义支路的输出响应图和外观分支的输出响应图中的最小值,
Figure DEST_PATH_IMAGE008
表示处于语义支路的输出响应图和外观分支的输出响应图中
Figure DEST_PATH_IMAGE010
点的响应值,APCE表示平均峰值相关能量;
Figure DEST_PATH_IMAGE012
表示求括号内的数组平均值;
对语义支路与外观支路得到的2个特征图按各自的APCE指标进行加权相加,得到最终的响应图:
Figure DEST_PATH_IMAGE014
式中,下标A表示外观分支,下表S表示语义分支,
Figure DEST_PATH_IMAGE016
表示外观分支的输出响应图所对应的平均峰值相关能量,
Figure DEST_PATH_IMAGE018
表示语义分支的输出响应图所对应的平均峰值相关能量,f表示融合后的最终响应图,
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
分别表示外观分支与语义分支各自的响应图。
3.根据权利要求1所述的一种基于双路孪生网络的视频运动目标跟踪方法,其特征在于,对所述语义网络的网络结构进行调整的过程进一步包括:
裁减受卷积网络中的填充宽度影响的特征图的最外一层,将步长设置为预定值;
特征经过全局均值池化层以获得逐通道的特征描述子;利用一维卷积为相邻通道建立联系,然后使用Sigmoid作为门控单元计算每一个通道的重要性程度:
Figure DEST_PATH_IMAGE024
式中,
Figure DEST_PATH_IMAGE026
表示因变量,x表示自变量;
将每一个通道的重要性系数按通道维度施加到原有特征上:
Figure DEST_PATH_IMAGE028
式中,
Figure DEST_PATH_IMAGE030
表示施加通道注意力的特征,
Figure DEST_PATH_IMAGE032
表示语义网络提取的初始特征,其中
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE036
,表示各个特征通道,
Figure DEST_PATH_IMAGE038
表示第i个通道的重要性系数。
4.根据权利要求1所述的一种基于双路孪生网络的视频运动目标跟踪方法,其特征在于,在外观网络中添加空间掩膜的过程进一步包括:针对目标长宽比大于1的模板图像,在经过外观网络提取得到最后一层特征图时添加掩模。
5.根据权利要求4所述的一种基于双路孪生网络的视频运动目标跟踪方法,其特征在于,在经过外观网络提取得到最后一层特征图时添加掩模的过程进一步包括:
定义目标高度为H,目标宽度为W,当H-W的值在预定范围区间之内,则不添加空间掩模,即采用中间部分全为1的方式;
当H-W的值超出预定范围区间的最大值,则采用图左边的掩模,抑制左右两边的干扰;
当W-H的值超出预定范围区间的最大值,则采用图右边的掩模,抑制上下两边的干扰。
6.根据权利要求1所述的一种基于双路孪生网络的视频运动目标跟踪方法,其特征在于,对语义网络和外观网络分别单独训练的过程进一步包括:
采用随机梯度下降的优化算法,进行预定次数迭代,网络的损失函数的构成部分为:
Figure DEST_PATH_IMAGE040
式中,v是网络预测的分数,代表当前片区搜索区域与模板图像的相似度,y是预先定义的标签,
Figure DEST_PATH_IMAGE042
,1表示当前片区与目标是相似的,反之-1表示不相似;搜索图像上不同的候选区域构成一张分数图D,
Figure DEST_PATH_IMAGE044
表示在预定位置的损失函数,定义各子网络模型的总体损失函数为每个子区域的局部损失均值:
Figure DEST_PATH_IMAGE046
式中,
Figure DEST_PATH_IMAGE048
表示总体的损失函数,即包含了全部子区域的总体损失函数,u表示子区域,
Figure DEST_PATH_IMAGE050
表示定义的标签中的u位置的值,
Figure DEST_PATH_IMAGE052
表示网络预测的u位置的值。
7.根据权利要求1所述的一种基于双路孪生网络的视频运动目标跟踪方法,其特征在于,对目标尺度与旋转角度进行混合预测的过程进一步包括:
枚举多个潜在的旋转角度样本,找到最合适的样本;在当前帧,采用至少P个候选图像块,其中Q个是原始的既不进行尺度缩放又不进行旋转的图像块,有T个是进行尺度缩放的图像块,剩下P-Q-T个是进行角度估计的图像块;其中,
Figure DEST_PATH_IMAGE054
每一个目标块都存在一个
Figure DEST_PATH_IMAGE056
参数对,其中,s表示尺度估计,a表示角度估计;设定当a不等于0的时候s=1,s不等于1的时候a=0;被跟踪的目标根据下式决定:
Figure DEST_PATH_IMAGE058
式中,K=P,表示一共有P个候选图像块;
Figure DEST_PATH_IMAGE060
表示被跟踪物体的中心坐标,
Figure DEST_PATH_IMAGE062
表示尺度角度估计对
Figure 988426DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE064
表示第k个候选图像块的最终响应值,x表示被跟踪物体中心的横坐标,y表示被跟踪物体中心的纵坐标,k表示第k个候选图像块,即候选图像块的索引号。
8.一种基于双路孪生网络的视频运动目标跟踪装置,其特征是,所述装置包括:
双路孪生网络搭建模块,用于搭建语义网络和外观网络,利用语义网络提取语义信息,利用外观网络提取外观信息;
语义网络调整模块,用于对双路孪生网络搭建模块所搭建的语义网络的网络结构进行调整;
外观网络调整模块,用于在双路孪生网络搭建模块所搭建的外观网络中添加空间掩膜、以提高外观网络提取目标的聚焦能力;
训练模块,用于对语义网络和外观网络进行训练;
混合预测模块,用于对目标尺度与旋转角度进行混合预测,最终确定被跟踪目标的位置;
注意力模块,内嵌于所述语义网络中,用于加强困难场景下特征的鲁棒性。
9.一种基于双路孪生网络的视频运动目标跟踪设备,其特征在于,所述设备包括:
处理器以及存储有计算机程序指令的存储器;
所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-7任意一项所述的运动目标跟踪方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的运动目标跟踪方法。
CN202011517694.8A 2020-12-21 2020-12-21 一种基于双路孪生网络的视频运动目标跟踪方法及装置 Active CN112233147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011517694.8A CN112233147B (zh) 2020-12-21 2020-12-21 一种基于双路孪生网络的视频运动目标跟踪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011517694.8A CN112233147B (zh) 2020-12-21 2020-12-21 一种基于双路孪生网络的视频运动目标跟踪方法及装置

Publications (2)

Publication Number Publication Date
CN112233147A true CN112233147A (zh) 2021-01-15
CN112233147B CN112233147B (zh) 2021-05-11

Family

ID=74124932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011517694.8A Active CN112233147B (zh) 2020-12-21 2020-12-21 一种基于双路孪生网络的视频运动目标跟踪方法及装置

Country Status (1)

Country Link
CN (1) CN112233147B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112785624A (zh) * 2021-01-18 2021-05-11 苏州科技大学 基于孪生网络的rgb-d特征目标跟踪方法
CN112884802A (zh) * 2021-02-24 2021-06-01 电子科技大学 一种基于生成的对抗攻击方法
CN113158904A (zh) * 2021-04-23 2021-07-23 天津大学 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置
CN113269808A (zh) * 2021-04-30 2021-08-17 武汉大学 视频小目标跟踪方法和装置
CN113393496A (zh) * 2021-07-05 2021-09-14 中国电子科技集团公司第二十八研究所 一种基于时空注意力机制的目标跟踪方法
CN114627319A (zh) * 2022-05-16 2022-06-14 杭州闪马智擎科技有限公司 目标数据的上报方法、装置、存储介质及电子装置
CN115457259A (zh) * 2022-09-14 2022-12-09 华洋通信科技股份有限公司 一种基于多通道激活优化的图像快速显著性检测方法
CN116030095A (zh) * 2023-02-01 2023-04-28 西南石油大学 一种基于双分支孪生网络结构的视觉目标跟踪方法
CN117291952A (zh) * 2023-10-31 2023-12-26 中国矿业大学(北京) 一种基于速度预测和图像重建的多目标跟踪方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460790A (zh) * 2018-03-29 2018-08-28 西南科技大学 一种基于一致性预测器模型的视觉跟踪方法
CN109670066A (zh) * 2018-12-11 2019-04-23 江西师范大学 一种基于双路径深层语义网络的手绘式服装商品图像检索方法
CN111161317A (zh) * 2019-12-30 2020-05-15 北京工业大学 一种基于多重网络的单目标跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460790A (zh) * 2018-03-29 2018-08-28 西南科技大学 一种基于一致性预测器模型的视觉跟踪方法
CN109670066A (zh) * 2018-12-11 2019-04-23 江西师范大学 一种基于双路径深层语义网络的手绘式服装商品图像检索方法
CN111161317A (zh) * 2019-12-30 2020-05-15 北京工业大学 一种基于多重网络的单目标跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
田朗: "SA_Siam++:基于双分支孪生网络的目标跟踪算法", 《北京邮电大学学报》 *
石胜斌: "结合掩膜与孪生网络的目标跟踪方法研究", 《计算机技术与发展》 *
陈永志: "基于孪生神经网络的目标跟踪算法研究", 《万方电子库》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112785624A (zh) * 2021-01-18 2021-05-11 苏州科技大学 基于孪生网络的rgb-d特征目标跟踪方法
CN112785624B (zh) * 2021-01-18 2023-07-04 苏州科技大学 基于孪生网络的rgb-d特征目标跟踪方法
CN112884802B (zh) * 2021-02-24 2023-05-12 电子科技大学 一种基于生成的对抗攻击方法
CN112884802A (zh) * 2021-02-24 2021-06-01 电子科技大学 一种基于生成的对抗攻击方法
CN113158904A (zh) * 2021-04-23 2021-07-23 天津大学 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置
CN113269808A (zh) * 2021-04-30 2021-08-17 武汉大学 视频小目标跟踪方法和装置
CN113393496A (zh) * 2021-07-05 2021-09-14 中国电子科技集团公司第二十八研究所 一种基于时空注意力机制的目标跟踪方法
CN114627319A (zh) * 2022-05-16 2022-06-14 杭州闪马智擎科技有限公司 目标数据的上报方法、装置、存储介质及电子装置
CN115457259A (zh) * 2022-09-14 2022-12-09 华洋通信科技股份有限公司 一种基于多通道激活优化的图像快速显著性检测方法
CN115457259B (zh) * 2022-09-14 2023-10-31 华洋通信科技股份有限公司 一种基于多通道激活优化的图像快速显著性检测方法
CN116030095A (zh) * 2023-02-01 2023-04-28 西南石油大学 一种基于双分支孪生网络结构的视觉目标跟踪方法
CN117291952A (zh) * 2023-10-31 2023-12-26 中国矿业大学(北京) 一种基于速度预测和图像重建的多目标跟踪方法及装置
CN117291952B (zh) * 2023-10-31 2024-05-17 中国矿业大学(北京) 一种基于速度预测和图像重建的多目标跟踪方法及装置

Also Published As

Publication number Publication date
CN112233147B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112233147B (zh) 一种基于双路孪生网络的视频运动目标跟踪方法及装置
CN111354017B (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
Christiansen et al. Unsuperpoint: End-to-end unsupervised interest point detector and descriptor
CN110135314B (zh) 一种基于深度轨迹预测的多目标跟踪方法
CN108319972B (zh) 一种针对图像语义分割的端到端差异网络学习方法
Han et al. Reinforcement cutting-agent learning for video object segmentation
CN112668483B (zh) 一种融合行人重识别和人脸检测的单目标人物跟踪方法
CN111179307A (zh) 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法
CN113706581B (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN108694724A (zh) 一种长时间目标跟踪方法
CN109410247A (zh) 一种多模板和自适应特征选择的视频跟踪算法
CN108961308B (zh) 一种漂移检测的残差深度特征目标跟踪方法
CN107424177A (zh) 基于连续相关滤波器的定位修正长程跟踪算法
CN108596951A (zh) 一种融合特征的目标跟踪方法
CN109087337B (zh) 基于分层卷积特征的长时间目标跟踪方法及系统
CN109859241A (zh) 自适应特征选择和时间一致性鲁棒相关滤波视觉跟踪方法
CN110706253B (zh) 基于表观特征和深度特征的目标跟踪方法、系统、装置
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
Yang et al. Visual tracking with long-short term based correlation filter
CN111640138A (zh) 一种目标跟踪方法、装置、设备及存储介质
Gao et al. Enhance sample efficiency and robustness of end-to-end urban autonomous driving via semantic masked world model
CN110544267B (zh) 一种自适应选择特征的相关滤波跟踪方法
CN110472607A (zh) 一种船舶跟踪方法及系统
CN114707635A (zh) 基于网络架构搜索的模型构建方法、装置及存储介质
CN116659516A (zh) 基于双目视差机制的深度立体注意力视觉导航方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant