CN111161317A - 一种基于多重网络的单目标跟踪方法 - Google Patents

一种基于多重网络的单目标跟踪方法 Download PDF

Info

Publication number
CN111161317A
CN111161317A CN201911390842.1A CN201911390842A CN111161317A CN 111161317 A CN111161317 A CN 111161317A CN 201911390842 A CN201911390842 A CN 201911390842A CN 111161317 A CN111161317 A CN 111161317A
Authority
CN
China
Prior art keywords
image
searched
template
appearance
template image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911390842.1A
Other languages
English (en)
Inventor
付利华
王宇鹏
杜宇斌
陈人杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911390842.1A priority Critical patent/CN111161317A/zh
Publication of CN111161317A publication Critical patent/CN111161317A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于多重网络的单目标跟踪方法,是一种采用深度学习的模型。该方法首先对视频序列的第一帧图像和当前帧图像进行裁剪,得到模板图像和待搜索图像;将模板图像和待搜索图像输入外观子网和语义子网,分别获得模板图像和待搜索图像的低层外观特征和高层语义特征,并进行特征融合,分别得到模板图像和待搜索图像的融合特征图;然后,基于模板图像和待搜索图像的融合特征图,使用相似性判别方法得到最终响应图;最后,根据最终响应图提供的信息获得跟踪结果。本发明解决了传统单目标跟踪方法无法有效检测到包含相似性背景的待搜索图像中的跟踪目标,以及基于深度学习的特征提取方法由于提取出的低层外观特征存在噪声而导致误检的问题。

Description

一种基于多重网络的单目标跟踪方法
技术领域
本发明属于图像处理和计算机视觉领域,尤其涉及一种基于多重网络的单目标跟踪方法。
背景技术
单目标跟踪是信息融合方法的一个重要组成部分,被广泛应用于视频监控、虚拟现实、人机交互、无人驾驶等诸多领域。单目标跟踪的本质是通过滤波器对单个动态目标的连续运动状态进行估计。单目标跟踪的大致框架是首先通过对第一帧输入进行特征提取对待跟踪目标的特征进行初始化,构建目标模型,然后对当前帧进行特征提取,并与第一帧中跟踪目标的特征进行相似性判断,最后输出跟踪目标在当前帧中的位置估计。
单目标跟踪一般分为两大类方法:基于生成式模型的单目标跟踪方法和基于判别式模型的单目标跟踪方法。基于生成式模型的单目标跟踪方法通过建立目标模型将现实世界中的目标基于计算机视觉中的目标表示方法进行描述,在新的图像帧中搜索与目标外观模型最相似的区域,它着眼于对目标本身的刻画,忽略背景信息,在目标自身变化剧烈或者被遮挡时容易产生跟踪漂移;基于判别式模型的单目标跟踪方法对目标提取具有判别性的特征,通过深度学习和相关滤波方法训练分类器来区分目标和背景,很好地解决了生成式中因背景变化所产生的目标漂移,但是在时间和准确率两方面难以权衡。
这些方法大部分采用的是基于深度学习的特征提取方法,在简单场景下检测效果较好,但是对于具有复杂场景的图像或视频,其提取出的特征并不全是有用的,其中无用的特征信息会对跟踪结果造成影响,降低跟踪模型的性能。总之,传统的单目标跟踪方法所使用的特征夹杂着许多无用信息,无法形成对目标鲁棒的特征,并且跟踪效果较好的模型速度较慢。
为了解决上述问题,当前需要一种新的基于多重网络的单目标跟踪方法。
发明内容
本发明要解决的问题是:传统的单目标跟踪方法所使用的特征不够准确,无法形成对目标鲁棒的特征,且跟踪效果较好的模型速度较慢。为了解决上述问题,当前需要一种新的基于多重网络的单目标跟踪方法。
为了解决上述问题,本发明提供了一种新的基于多重网络的单目标跟踪方法,以视频第一帧和当前帧作为输入,融合低层外观特征和高层语义特征,基于多重网络进行单目标跟踪,包括以下步骤:
1)处理视频第一帧和当前帧得到模板图像和待搜索图像;
2)将模板图像和待搜索图像一同输入到外观子网和语义子网中,分别提取低层外观特征和高层语义特征;
3)将模板图像的低层外观特征和高层语义特征进行融合得到模板图像的融合特征图,同时将待搜索图像的低层外观特征和高层语义特征进行融合得到待搜索图像的融合特征图;
4)对模板图像的融合特征图和待搜索图像的融合特征图,采用相似性判别方法得到模板图像在待搜索图像上的最终响应图;
5)将最终响应图恢复成原图大小,根据最终响应图提供的信息在当前帧中确定跟踪目标的中心点位置以及矩形框大小,进而得到跟踪结果。
作为进一步的优选方式,步骤1)具体步骤为:
1.1)获得模板图像:本方法中不存在对模板图像的在线更新,因为目前来说在线更新一方面会影响整体跟踪器的速度,另一方面也因为这种做法时常会造成跟踪器一旦目标丢失可能就难以找回,导致较大的跟踪问题,所以第一帧图像只需要进行一次处理即可。将第一帧图像中的跟踪目标根据标注好的矩形框的中心点坐标及宽和高裁剪出需要的大小,得到模板图像。这样可以去掉多余背景,尽可能多地保证前景所占比例最大,有利于目标有用特征的提取,提高跟踪模型判别前景和背景的能力。
首先默认跟踪目标的中心点在第一帧图像的中心,第一帧图像的宽和高为w和h,因此在以图像左上角为原点的坐标轴中,跟踪目标中心点的坐标为:(w/2,h/2);然后裁剪出包含跟踪目标的大小为127×127的区域;最后,新建一个大小为127×127的三通道RGB图像,并将从第一帧图像中裁剪出的区域内的所有像素值复制到新建的三通道RGB图像,即获得模板图像;
1.2)获得待搜索图像:本方法采用多尺度方法应对不同尺度下的目标跟踪,因此,根据三种固定尺度获得三幅具有不同尺度跟踪目标的待搜索图像,使跟踪器对于较大尺度或较小尺度的跟踪目标都获得比较稳定的跟踪效果,同时也可使得跟踪器在当前帧图像中对跟踪目标的标注尽可能准确。
首先采用预先设置的尺度变化系数σ=1,并设置尺度基数sb=1.0375,得到三种固定尺度(sb ,sb 0,sb σ)。根据三种固定尺度对当前帧图像进行尺度变换,得到三幅不同尺度的当前帧图像;并以前一帧跟踪目标为中心,对三幅不同尺度的当前帧图像进行裁剪或者填充,分别得到三幅大小为255×255的待搜索图像,每幅待搜索图像具有不同尺度大小的跟踪目标。其中裁剪是为了解决尺度变换后的当前帧图像大于255×255的情况;填充是为了解决尺度变换后的当前帧图像小于255×255的情况,且填充方法采用均值填充,值为基于当前帧图像计算出的全体像素均值。
作为进一步的优选方式,步骤2)具体步骤为:
2.1)外观子网包括一个卷积神经网络和一个注意力模块,卷积神经网络包括5个卷积层和2个池化层,其中2个池化层分别在第一个卷积层和第二个卷积层的后面,同时注意力模块加在第一个卷积层和对应池化层的中间。
外观子网负责提取图像的低层外观特征,具体包括纹理信息、颜色信息等。其中注意力模块可以提高对跟踪目标起决定性作用的通道的权重,有利于当出现与跟踪目标是同类物体的背景时,可以通过更加明确的颜色信息、纹理信息等定位跟踪目标,防止类内漂移。
首先,将模板图像和待搜索图像输入外观子网,经过第一层卷积层分别得到第一层特征,然后,将第一层特征输入注意力模块,得到包含注意力的特征,最后将包含注意力的特征输入到网络的后续结构,分别获得模板图像和待搜索图像的低层外观特征;
2.2)语义子网采用预训练的用于分类任务的卷积神经网络AlexNet。和外观子网类似,同样将模板图像和待搜索图像输入语义子网,通过语义子网进行特征提取,分别获得模板图像和待搜索图像的高层语义特征。语义子网可以从整幅输入图像中提取与跟踪目标同类物体的高层语义特征,防止跟踪器出现类间漂移。
作为进一步的优选方式,步骤3)具体步骤为:
3.1)首先,将模板图像的高层语义特征采用双线性插值方法与其低层外观特征进行对齐,并以同样的方式将待搜索图像的高层语义特征与其低层外观特征进行对齐,保证模板图像和待搜索图像的低层外观特征没有特征损失;
3.2)然后,将对齐后的模板图像的高层语义特征与其低层外观特征采用通道叠加的方式进行特征融合,得到模板图像的融合特征图;并以同样的方式将对齐后的待搜索图像的高层语义特征与其低层外观特征进行特征融合,得到待搜索图像的融合特征图。通道叠加的融合方式可以使描述图像的特征更加丰富。
作为进一步的优选方式,步骤4)具体步骤为:
4.1)首先,采用相似性判别方法,依次计算模板图像的融合特征图与三种不同尺度待搜索图像的融合特征图的相似性,得到三种不同尺度下的得分图;
4.2)然后,计算每个得分图的峰值,选取具有最高峰值的得分图,作为模板图像在待搜索图像上的最终响应图。
作为进一步的优选方式,步骤5)具体步骤为:
5.1)首先,采用双线性插值方法将最终响应图恢复成原图大小,并基于最终响应图中最高峰值位置,在当前帧中确定跟踪目标的中心点位置;
5.2)然后,将最终响应图对应的尺度与前一帧跟踪目标的矩形框大小相乘,得到当前帧跟踪目标的矩形框大小;
5.3)最后,基于确定的跟踪目标中心点位置和矩形框大小,获得当前帧的跟踪结果。
有益效果
本发明提供了一种基于多重网络的单目标跟踪方法,是一种采用深度学习的模型。该方法首先对视频序列的第一帧图像和当前帧图像进行裁剪,得到模板图像和待搜索图像;将模板图像和待搜索图像输入外观子网和语义子网,分别获得模板图像和待搜索图像的低层外观特征和高层语义特征,并进行特征融合,分别得到模板图像和待搜索图像的融合特征图;然后,基于模板图像和待搜索图像的融合特征图,使用相似性判别方法得到最终响应图;最后,根据最终响应图提供的信息获得跟踪结果。应用本发明,解决了传统单目标跟踪方法中,跟踪目标的表观特征不够鲁棒,夹杂着许多无用信息的问题,还解决了现有的基于深度学习的单目标跟踪方法精度和速度无法权衡的问题。本发明适用于单目标跟踪场景,具有很好的鲁棒性,跟踪速度较快,结果较好。
本发明的优点是:首先,本发明以视频第一帧和当前帧作为整个模型的输入,充分利用了给定目标的特征信息;其次,本发明通过设计语义子网和外观子网,分别提取目标的低层外观特征和高层语义特征,使得本跟踪算法能具备更好的类间判别性和类内判别性;最后,本方法的总体网络结构采用孪生网络结构,无需在线更新,同时保证模型的速度和准确率。
附图说明
图1是本发明基于多重网络的单目标跟踪方法的流程图;
图2是本发明基于多重网络的单目标跟踪方法的整体结构图;
图3是本发明设计的通道注意力图的计算流程。
具体实施方式
本发明提供了一种基于多重网络的单目标跟踪方法。该方法首先对视频序列的第一帧图像和当前帧图像进行裁剪,得到模板图像和待搜索图像;将模板图像和待搜索图像输入外观子网和语义子网,分别获得模板图像和待搜索图像的低层外观特征和高层语义特征,并进行特征融合,分别得到模板图像和待搜索图像的的融合特征图;然后,基于模板图像和待搜索图像的融合特征图,使用相似性判别方法得到最终响应图;最后,根据最终响应图提供的信息获得跟踪结果。本发明适用于单目标跟踪场景,具有很好的鲁棒性,跟踪速度较快,结果较好。
如图1所示,本发明包括以下步骤:
1)处理视频第一帧和当前帧得到模板图像和待搜索图像;
1.1)获得模板图像:将第一帧图像中的跟踪目标根据标注好的矩形框的中心点坐标及宽和高裁剪出需要的大小,得到模板图像。
首先默认跟踪目标的中心点在第一帧图像的中心,第一帧图像的宽和高为w和h,因此在以图像左上角为原点的坐标轴中,跟踪目标中心点的坐标为:(w/2,h/2);然后裁剪出包含跟踪目标的大小为127×127的区域;最后,新建一个大小为127×127的三通道RGB图像,并将从第一帧图像中裁剪出的区域内的所有像素值复制到新建的三通道RGB图像,即获得模板图像Pm
1.2)获得待搜索图像:本方法采用多尺度方法应对不同尺度下的目标跟踪,因此,根据三种固定尺度获得三幅具有不同尺度跟踪目标的待搜索图像,使跟踪器对于较大尺度或较小尺度的跟踪目标都获得比较稳定的跟踪效果,同时也可使得跟踪器在当前帧图像中对跟踪目标的标注尽可能准确。本发明不限于三种固定尺度,可以根据实际情况进行调整。
首先采用预先设置的尺度变化系数σ=1,并设置尺度基数sb=1.0375,得到三种固定尺度(sb ,sb 0,sb σ)。根据三种固定尺度对当前帧图像进行尺度变换,得到三幅不同尺度的当前帧图像;并以前一帧跟踪目标为中心,对三幅不同尺度的当前帧图像进行裁剪或者填充,分别得到三幅大小为255×255的待搜索图像P1、P2、P3,每幅待搜索图像具有不同尺度大小的跟踪目标。其中裁剪是为了解决尺度变换后的当前帧图像大于255×255的情况;填充是为了解决尺度变换后的当前帧图像小于255×255的情况,且填充方法采用均值填充,值为基于当前帧图像计算出的全体像素均值。
均值填充的具体方法为:当前帧图像大小为w*h*c,通过将每个通道下的像素进行求和,然后除以像素个数w*h,最后得到每个通道下的像素均值cr、cg、cb,最后使用cr、cg、cb填充图像;
cr=sum(pixelr)/(w*h)
cg=sum(pixelg)/(w*h)
cb=sum(pixelb)/(w*h)
其中,sum(·)表示求和操作,pixelr、pixelg、pixelb分别表示R、G、B通道下的像素点,w和h表示图像的宽和高。
2)将模板图像和待搜索图像一同输入外观子网和语义子网,同时提取低层外观特征和高层语义特征;
2.1)外观子网包括一个卷积神经网络和一个注意力模块,卷积神经网络包括5个卷积层和2个池化层,其中2个池化层分别在第一个卷积层和第二个卷积层的后面,同时注意力模块加在第一个卷积层和池化层中间。
首先,对于某一输入图像P,将其输入外观子网,经过第一层卷积层得到特征F1;然后,将特征F1输入注意力模块得到包含注意力的特征F1′;最后,将包含注意力的特征F1′输入外观子网的后续结构,得到图像P的外观特征
Figure BDA0002344920280000071
将模板图像Pm和三幅不同尺度待搜索图像P1、P2、P3输入外观子网,分别得到模板图像的低层外观特征
Figure BDA0002344920280000072
和待搜索图像的低层外观特征
Figure BDA0002344920280000073
其中,将特征F1输入注意力模块得到包含注意力的特征F1′的具体处理过程为:
首先,对于注意力模块的输入F1,使用平均池化和最大池化得到F1的空间信息,分别生成两个不同的空间上下文描述符Vavg和Vmax
其次,将两个描述符输入多层感知机网络,分别生成两个通道注意力图Mavg、Mmax
然后,将两个通道注意力图Mavg、Mmax进行逐像素求和,经过sigmoid函数,得到最终的通道注意力图Mc
Figure BDA0002344920280000081
其中,
Figure BDA0002344920280000082
表示平均池化操作,
Figure BDA0002344920280000083
表示最大池化操作,MLP(·)表示多层感知机网络,σ表示sigmoid函数。
最后,将通道注意力图Mc与第一层特征F1进行计算,得到特征F1′:
Figure BDA0002344920280000084
其中,
Figure BDA0002344920280000085
表示将Mc扩展到与F1相同维度,再与F1逐点相乘;
2.2)语义子网采用预训练的用于分类任务的卷积神经网络AlexNet。和外观子网类似,同样将模板图像Pm和三种不同尺度待搜索图像P1、P2、P3输入语义子网进行特征提取,得到模板图像和待搜索图像的高层语义特征
Figure BDA0002344920280000086
3)将模板图像的低层外观特征和高层语义特征进行融合得到模板图像的融合特征图,同时将待搜索图像的低层外观特征和高层语义特征进行融合得到待搜索图像的融合特征图;
3.1)首先,将模板图像的高层语义特征
Figure BDA0002344920280000087
采用双线性插值与其低层外观特征
Figure BDA0002344920280000088
进行对齐,得到对齐后的高层语义特征,并以同样的方式将待搜索图像的高层语义特征
Figure BDA0002344920280000091
与其对应的低层外观特征
Figure BDA0002344920280000092
Figure BDA0002344920280000093
进行对齐,得到对齐后的高层语义特征;
3.2)然后,将对齐后的模板图像的高层语义特征与其低层外观特征采用通道叠加的方式进行特征融合,得到模板图像的融合特征图
Figure BDA0002344920280000094
并以同样的方式将对齐后的待搜索图像的高层语义特征与其低层外观特征进行特征融合,得到待搜索图像的融合特征图
Figure BDA0002344920280000095
融合特征图的获取:对于大小为w*h*c1的特征图
Figure BDA0002344920280000096
和大小为w*h*c2的特征图
Figure BDA0002344920280000097
通过通道叠加的特征融合后,得到大小为w*h*(c1+c2)的融合特征图
Figure BDA0002344920280000098
4)对模板图像的融合特征图和待搜索图像的融合特征图,采用相似性判别方法得到模板图像在待搜索图像上的最终响应图;
4.1)首先,采用互相关方式的相似性判别方法,依次计算模板图像的融合特征图
Figure BDA0002344920280000099
与三种不同尺度待搜索图像的融合特征图
Figure BDA00023449202800000910
的相似性,得到三种不同尺度下的得分图H1、H2、H3
相似性判别方法:对于图像Z和图像X,采用互相关方式的相似性判别方法,得到图像Z和图像X的得分图H为:
Figure BDA00023449202800000911
其中,g(·)表示距离度量方法,
Figure BDA00023449202800000912
表示图像的融合特征图。
4.2)然后,分别计算三个得分图H1、H2、H3的峰值,选取具有最高峰值的得分图,作为模板图像在待搜索图像上的最终响应图。
5)将最终响应图恢复成原图大小,根据最终响应图提供的信息在当前帧中确定跟踪目标的中心点位置以及矩形框大小,进而得到跟踪结果。
5.1)首先,采用双线性插值方法将最终响应图恢复成原图大小,并在恢复原图大小的最终响应图中寻找最大响应值,该响应值的位置即为当前帧中跟踪目标的中心点位置;
5.2)然后,将最终响应图对应的尺度与前一帧跟踪目标的矩形框大小相乘,得到当前帧跟踪目标的矩形框大小;
5.3)最后,基于确定的跟踪目标中心点位置和矩形框大小,获得当前帧的跟踪结果。
本发明在计算机视觉领域有着广泛的应用,例如:行人重识别,人脸识别等。下面参照附图,对本发明进行详尽的描述。
1)在本发明的实施例中,根据给定的初始目标框信息,对待跟踪视频的第一帧图像进行裁剪,得到目标模板图像;
2)根据三种固定尺度对当前帧图像进行尺度变换,得到三幅不同尺度的当前帧图像,并以前一帧跟踪目标为中心,对三幅不同尺度的当前帧图像进行裁剪或者填充,分别得到三幅大小为255×255的待搜索图像,每幅待搜索图像具有不同尺度大小的跟踪目标;
3)将模板图像和待搜索图像一同输入参数共享的外观子网,分别获得模板图像的低层外观特征和待搜索图像的低层外观特征;
4)将模板图像和待搜索图像一同输入参数共享的语义子网,分别获得模板图像的高层语义特征和待搜索图像的高层语义特征;
5)将模板图像的高层语义特征采用双线性插值与其低层外观特征进行对齐,并以同样的方式对待搜索图像的高层语义特征与其低层外观特征进行对齐;
6)将对齐后的模板图像的高层语义特征与低层外观特征采用通道叠加的方式进行特征融合,得到模板图像的融合特征图;并以同样的方式得到待搜索图像的融合特征图;
7)将最终响应图恢复成原图大小,根据最终响应图提供的信息在当前帧中确定跟踪目标的中心点位置以及矩形框大小,进而得到跟踪结果。
在NVIDIA GeForce GTX 1070Ti和Ubuntu14.04 64位操作系统下,采用Tensorflow深度学习框架和Pycharm编程工具实现该方法。
本发明提供了一种基于多重网络的单目标跟踪方法,适用于视频的单目标跟踪,鲁棒性好,速度快,跟踪结果较为准确。实验表明该方法能够有效地进行单目标跟踪。

Claims (6)

1.一种基于多重网络的单目标跟踪方法,其特征在于,包括以下步骤:
步骤1)处理视频第一帧和当前帧得到模板图像和待搜索图像;
步骤2)将模板图像和待搜索图像一同输入外观子网和语义子网,分别提取低层外观特征和高层语义特征;
步骤3)将模板图像的低层外观特征和高层语义特征进行融合得到模板图像的融合特征图,同时将待搜索图像的低层外观特征和高层语义特征进行融合得到待搜索图像的融合特征图;
步骤4)对模板图像的融合特征图和待搜索图像的融合特征图,采用相似性判别方法得到模板图像在待搜索图像上的最终响应图;
步骤5)将最终响应图恢复成原图大小,根据最终响应图提供的信息在当前帧中确定跟踪目标的中心点位置以及矩形框大小,进而得到跟踪结果。
2.如权利要求1中所述的处理视频第一帧和当前帧得到模板图像和待搜索图像,其特征在于,步骤1)具体步骤为:
1.1)获得模板图像:本方法中不存在对模板图像的在线更新,第一帧图像只需要进行一次处理即可;将第一帧图像中的跟踪目标根据标注好的矩形框的中心点坐标及宽和高裁剪出需要的大小,得到模板图像;
首先默认跟踪目标的中心点在第一帧图像的中心,第一帧图像的宽和高为w和h,因此在以图像左上角为原点的坐标轴中,跟踪目标中心点的坐标为:(w/2,h/2);然后裁剪出包含跟踪目标的大小为127×127的区域;最后,新建一个大小为127×127的三通道RGB图像,并将从第一帧图像中裁剪出的区域内的所有像素值复制到新建的三通道RGB图像,即获得模板图像;
1.2)获得待搜索图像:本方法采用多尺度方法应对不同尺度下的目标跟踪;
首先采用预先设置的尺度变化系数σ=1,并设置尺度基数sb=1.0375,得到三种固定尺度(sb ,sb 0,sb σ);根据三种固定尺度对当前帧图像进行尺度变换,得到三幅不同尺度的当前帧图像;并以前一帧跟踪目标为中心,对三幅不同尺度的当前帧图像进行裁剪或者填充,分别得到三幅大小为255×255的待搜索图像,每幅待搜索图像具有不同尺度大小的跟踪目标。
3.如权利要求1中所述的将模板图像和待搜索图像一同输入到外观子网和语义子网中,分别提取低层外观特征和高层语义特征,其特征在于,步骤2)具体步骤为:
2.1)外观子网包括一个卷积神经网络和一个注意力模块,卷积神经网络包括5个卷积层和2个池化层,其中2个池化层分别在第一个卷积层和第二个卷积层的后面,同时注意力模块加在第一个卷积层和对应池化层的中间;
首先,将模板图像和待搜索图像输入外观子网,经过第一层卷积层分别得到第一层特征,然后,将第一层特征输入注意力模块,得到包含注意力的特征,最后将包含注意力的特征输入到网络的后续结构,分别获得模板图像和待搜索图像的低层外观特征;
2.2)语义子网采用预训练的用于分类任务的卷积神经网络AlexNet;和外观子网类似,同样将模板图像和待搜索图像输入语义子网,通过语义子网进行特征提取,分别获得模板图像和待搜索图像的高层语义特征;语义子网从整幅输入图像中提取与跟踪目标同类物体的高层语义特征,防止跟踪器出现类间漂移。
4.如权利要求1中所述的将模板图像的低层外观特征和高层语义特征进行融合得到模板图像的融合特征图,同时也将待搜索图像的低层外观特征和高层语义特征进行融合得到待搜索图像的融合特征图,其特征在于,步骤3)具体步骤为:
3.1)首先,将模板图像的高层语义特征采用双线性插值方法与其低层外观特征进行对齐,并以同样的方式将待搜索图像的高层语义特征与其低层外观特征进行对齐,保证模板图像和待搜索图像的低层外观特征没有特征损失;
3.2)然后,将对齐后的模板图像的高层语义特征与其低层外观特征采用通道叠加的方式进行特征融合,得到模板图像的融合特征图;并以同样的方式将对齐后的待搜索图像的高层语义特征与其低层外观特征进行特征融合,得到待搜索图像的融合特征图;
5.如权利要求1中所述的对模板图像特征图和目标图像特征图采用相似性判别方法得到模板图像在目标图像上的最终响应图,其特征在于,步骤4)具体步骤为:
4.1)首先,采用相似性判别方法,依次计算模板图像的融合特征图与三种不同尺度待搜索图像的融合特征图的相似性,得到三种不同尺度下的得分图;
4.2)然后,计算每个得分图的峰值,选取具有最高峰值的得分图,作为模板图像在待搜索图像上的最终响应图。
6.如权利要求1中所述的将最终响应图恢复成原图大小,根据最终响应图提供的信息在当前帧中确定跟踪目标的中心点位置以及矩形框大小,进而得到跟踪结果,其特征在于,步骤5)具体步骤为:
5.1)首先,采用双线性插值方法将最终响应图恢复成原图大小,并在恢复原图大小的最终响应图中寻找最大响应值,该响应值的位置即为当前帧中跟踪目标的中心点位置;
5.2)然后,将最终响应图对应的尺度与前一帧跟踪目标的矩形框大小相乘,得到当前帧跟踪目标的矩形框大小;
5.3)最后,基于确定的跟踪目标中心点位置和矩形框大小,获得当前帧的跟踪结果。
CN201911390842.1A 2019-12-30 2019-12-30 一种基于多重网络的单目标跟踪方法 Pending CN111161317A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911390842.1A CN111161317A (zh) 2019-12-30 2019-12-30 一种基于多重网络的单目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911390842.1A CN111161317A (zh) 2019-12-30 2019-12-30 一种基于多重网络的单目标跟踪方法

Publications (1)

Publication Number Publication Date
CN111161317A true CN111161317A (zh) 2020-05-15

Family

ID=70559320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911390842.1A Pending CN111161317A (zh) 2019-12-30 2019-12-30 一种基于多重网络的单目标跟踪方法

Country Status (1)

Country Link
CN (1) CN111161317A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833378A (zh) * 2020-06-09 2020-10-27 天津大学 一种基于代理共享网络的多无人机单目标跟踪方法及装置
CN111899283A (zh) * 2020-07-30 2020-11-06 北京科技大学 一种视频目标跟踪方法
CN111951304A (zh) * 2020-09-03 2020-11-17 湖南人文科技学院 基于互监督孪生网络的目标跟踪方法、装置与设备
CN112233147A (zh) * 2020-12-21 2021-01-15 江苏移动信息系统集成有限公司 一种基于双路孪生网络的视频运动目标跟踪方法及装置
CN112270365A (zh) * 2020-11-02 2021-01-26 德鲁动力科技(成都)有限公司 目标跟踪方法
CN112668483A (zh) * 2020-12-30 2021-04-16 福州大学 一种融合行人重识别和人脸检测的单目标人物跟踪方法
CN112785624A (zh) * 2021-01-18 2021-05-11 苏州科技大学 基于孪生网络的rgb-d特征目标跟踪方法
CN112800957A (zh) * 2021-01-28 2021-05-14 内蒙古科技大学 视频行人重识别方法、装置、电子设备及存储介质
CN112802060A (zh) * 2021-01-29 2021-05-14 中山大学 一种单目标跟踪方法和装置
CN112906580A (zh) * 2021-02-23 2021-06-04 浙江大华技术股份有限公司 目标跟踪方法及相关装置
CN112991385A (zh) * 2021-02-08 2021-06-18 西安理工大学 一种基于不同度量准则的孪生网络目标跟踪方法
CN113298850A (zh) * 2021-06-11 2021-08-24 安徽大学 一种基于注意力机制与特征融合的目标跟踪方法及系统
CN113344012A (zh) * 2021-07-14 2021-09-03 马上消费金融股份有限公司 物品识别方法、装置及设备
CN113627488A (zh) * 2021-07-13 2021-11-09 武汉大学 基于孪生网络在线更新的单目标跟踪方法及装置
CN117197249A (zh) * 2023-11-08 2023-12-08 北京观微科技有限公司 目标位置确定方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191491A (zh) * 2018-08-03 2019-01-11 华中科技大学 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统
CN109272530A (zh) * 2018-08-08 2019-01-25 北京航空航天大学 面向空基监视场景的目标跟踪方法与装置
CN109767456A (zh) * 2019-01-09 2019-05-17 上海大学 一种基于SiameseFC框架和PFP神经网络的目标跟踪方法
CN109902748A (zh) * 2019-03-04 2019-06-18 中国计量大学 一种基于多层信息融合全卷积神经网络的图像语义分割方法
CN110533688A (zh) * 2019-07-30 2019-12-03 平安科技(深圳)有限公司 改进型的目标跟踪方法、装置及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191491A (zh) * 2018-08-03 2019-01-11 华中科技大学 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统
CN109272530A (zh) * 2018-08-08 2019-01-25 北京航空航天大学 面向空基监视场景的目标跟踪方法与装置
CN109767456A (zh) * 2019-01-09 2019-05-17 上海大学 一种基于SiameseFC框架和PFP神经网络的目标跟踪方法
CN109902748A (zh) * 2019-03-04 2019-06-18 中国计量大学 一种基于多层信息融合全卷积神经网络的图像语义分割方法
CN110533688A (zh) * 2019-07-30 2019-12-03 平安科技(深圳)有限公司 改进型的目标跟踪方法、装置及计算机可读存储介质

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833378A (zh) * 2020-06-09 2020-10-27 天津大学 一种基于代理共享网络的多无人机单目标跟踪方法及装置
CN111899283A (zh) * 2020-07-30 2020-11-06 北京科技大学 一种视频目标跟踪方法
CN111899283B (zh) * 2020-07-30 2023-10-17 北京科技大学 一种视频目标跟踪方法
CN111951304A (zh) * 2020-09-03 2020-11-17 湖南人文科技学院 基于互监督孪生网络的目标跟踪方法、装置与设备
CN111951304B (zh) * 2020-09-03 2024-02-02 湖南人文科技学院 基于互监督孪生网络的目标跟踪方法、装置与设备
CN112270365A (zh) * 2020-11-02 2021-01-26 德鲁动力科技(成都)有限公司 目标跟踪方法
CN112233147B (zh) * 2020-12-21 2021-05-11 江苏移动信息系统集成有限公司 一种基于双路孪生网络的视频运动目标跟踪方法及装置
CN112233147A (zh) * 2020-12-21 2021-01-15 江苏移动信息系统集成有限公司 一种基于双路孪生网络的视频运动目标跟踪方法及装置
CN112668483A (zh) * 2020-12-30 2021-04-16 福州大学 一种融合行人重识别和人脸检测的单目标人物跟踪方法
CN112785624A (zh) * 2021-01-18 2021-05-11 苏州科技大学 基于孪生网络的rgb-d特征目标跟踪方法
CN112785624B (zh) * 2021-01-18 2023-07-04 苏州科技大学 基于孪生网络的rgb-d特征目标跟踪方法
CN112800957A (zh) * 2021-01-28 2021-05-14 内蒙古科技大学 视频行人重识别方法、装置、电子设备及存储介质
CN112802060A (zh) * 2021-01-29 2021-05-14 中山大学 一种单目标跟踪方法和装置
CN112991385B (zh) * 2021-02-08 2023-04-28 西安理工大学 一种基于不同度量准则的孪生网络目标跟踪方法
CN112991385A (zh) * 2021-02-08 2021-06-18 西安理工大学 一种基于不同度量准则的孪生网络目标跟踪方法
CN112906580A (zh) * 2021-02-23 2021-06-04 浙江大华技术股份有限公司 目标跟踪方法及相关装置
CN112906580B (zh) * 2021-02-23 2023-04-07 浙江大华技术股份有限公司 目标跟踪方法及相关装置
CN113298850A (zh) * 2021-06-11 2021-08-24 安徽大学 一种基于注意力机制与特征融合的目标跟踪方法及系统
CN113627488A (zh) * 2021-07-13 2021-11-09 武汉大学 基于孪生网络在线更新的单目标跟踪方法及装置
CN113627488B (zh) * 2021-07-13 2023-07-21 武汉大学 基于孪生网络在线更新的单目标跟踪方法及装置
CN113344012A (zh) * 2021-07-14 2021-09-03 马上消费金融股份有限公司 物品识别方法、装置及设备
CN117197249A (zh) * 2023-11-08 2023-12-08 北京观微科技有限公司 目标位置确定方法、装置、电子设备及存储介质
CN117197249B (zh) * 2023-11-08 2024-01-30 北京观微科技有限公司 目标位置确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111161317A (zh) 一种基于多重网络的单目标跟踪方法
CN109344701B (zh) 一种基于Kinect的动态手势识别方法
CN107832672B (zh) 一种利用姿态信息设计多损失函数的行人重识别方法
CN103530881B (zh) 适用于移动终端的户外增强现实无标志点跟踪注册方法
Yuan et al. Robust lane detection for complicated road environment based on normal map
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN110533720B (zh) 基于联合约束的语义slam系统及方法
CN111553869B (zh) 一种空基视角下的生成对抗网络图像补全方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN110533716B (zh) 一种基于3d约束的语义slam系统及方法
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
Li et al. Bifnet: Bidirectional fusion network for road segmentation
Wang et al. An overview of 3d object detection
Cai et al. A novel saliency detection algorithm based on adversarial learning model
CN117218343A (zh) 一种基于深度学习的语义部件姿态估计方法
CN111709317B (zh) 一种基于显著性模型下多尺度特征的行人重识别方法
CN114299405A (zh) 一种无人机图像实时目标检测方法
CN113592894A (zh) 一种基于边界框和同现特征预测的图像分割方法
CN112396655A (zh) 一种基于点云数据的船舶目标6d位姿估计方法
CN103679740A (zh) 一种无人机对地目标roi提取方法
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN117351078A (zh) 基于形状先验的目标尺寸与6d姿态估计方法
CN114155273B (zh) 一种结合历史轨迹信息的视频图像单目标跟踪方法
Wang et al. 3D object detection algorithm for panoramic images with multi-scale convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200515

WD01 Invention patent application deemed withdrawn after publication