CN113628246A - 一种基于3d卷积模板更新的孪生网络目标跟踪方法 - Google Patents

一种基于3d卷积模板更新的孪生网络目标跟踪方法 Download PDF

Info

Publication number
CN113628246A
CN113628246A CN202110855602.5A CN202110855602A CN113628246A CN 113628246 A CN113628246 A CN 113628246A CN 202110855602 A CN202110855602 A CN 202110855602A CN 113628246 A CN113628246 A CN 113628246A
Authority
CN
China
Prior art keywords
target
tracking
template
network
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110855602.5A
Other languages
English (en)
Other versions
CN113628246B (zh
Inventor
鲁晓锋
王正洋
王轩
柏晓飞
李思训
李小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110855602.5A priority Critical patent/CN113628246B/zh
Publication of CN113628246A publication Critical patent/CN113628246A/zh
Application granted granted Critical
Publication of CN113628246B publication Critical patent/CN113628246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于3D卷积模板更新的孪生网络目标跟踪方法,具体按照以下步骤实施:步骤1、构建整体网络,并对网络进行端到端的训练;步骤2、对训练好的网络进行初始化跟踪设置;步骤3、开始正常跟踪流程,使用APCE判断当前跟踪结果是否可靠,若可靠则保留,并继续跟踪;步骤4、在每一帧跟踪结束时,判断是否满足模板更新条件,若满足则进行模板更新,否则不更新,继续跟踪;步骤5、使用更新后的模板对跟踪到的视频帧后续的视频图像序列继续跟踪;步骤6、重复步骤3~步骤5,得到视频每一帧中目标位置,跟踪任务结束。本发明解决了现有技术中存在的对于跟踪中物体外表形变鲁棒性较差的问题以及进行模板更新导致速度较慢的问题。

Description

一种基于3D卷积模板更新的孪生网络目标跟踪方法
技术领域
本发明属于基于视频的单目标跟踪技术领域,具体涉及一种基于3D卷积模板更新的孪生网络目标跟踪方法。
背景技术
单目标跟踪是指,对于一组视频图像序列,由人工指定出在视频图像序列的第一帧时某个目标所在位置后,根据目标跟踪算法计算出该目标在后续帧中的位置的过程。单目标跟踪时计算机视觉领域的一个重要研究方向,它旨在使得计算机能够拥有人类对于目标的持续捕捉的能力。而以深度学习为基础的基于孪生神经网络的目标跟踪算法是当前的一个主流研究方向,其成果在科研领域与生活应用中都起到重要作用。
目标跟踪算法在日常生活中用途广泛,无论在智能监控、无人驾驶、交通监视、医学诊断等领域中都扮演着重要的角色。在军事上也发挥着如无人机视觉、精确制导、空中预警等重要作用。
近些年来,深度学习算法的发展迅猛,并且不断与各种新兴或传统领域进行融合,促进相互的发展。于是,深度学习与目标跟踪算法的结合也成为了近期的研究热点。其中基于孪生神经网络结构的算法是主流方向。通过使用第一帧给出的目标图像生成模板,对后续的图像进行卷积运算,结果中的最大值就是目标最可能所在的位置。通常情况下基于孪生神经网络的目标跟踪算法所使用的目标模板是保持不变的,而现在的许多涉及模板更新的方法其运行速度较慢很难做到实时计算。
发明内容
本发明的目的是提供一种基于3D卷积模板更新的孪生网络目标跟踪方法,解决了现有技术中存在的对于跟踪中物体外表形变鲁棒性较差的问题以及进行模板更新导致速度较慢的问题。
本发明所采用的技术方案是,一种基于3D卷积模板更新的孪生网络目标跟踪方法,其特征在于,具体按照以下步骤实施:
步骤1、构建整体网络,并对整体网络结构进行端到端的训练;
步骤2、使用所述步骤1训练好的网络对即将进行跟踪的视频图像序列进行初始化跟踪设置,得到本次跟踪任务的初始目标模板与目标的初始位置信息;
步骤3、得到步骤2的初始目标模板后,开始正常跟踪流程,在跟踪过程中使用基于APCE的判断方法判断当前跟踪结果是否可靠,若可靠则保留,若不可靠则不进行保留,并继续跟踪过程,于视频图像序列的每一帧都会计算出一个对应的目标在图像中的位置;
步骤4、在对视频图像序列的每一帧跟踪计算结束时,均判断是否满足模板更新条件,即步骤3中保留的可靠跟踪结果是否达到2个,若已有2个可靠跟踪结果则将最新的结果替换最老的结果,若满足则进行模板更新,若不满足则不进行模板跟踪,继续步骤3的正常跟踪流程;
步骤5、使用所述步骤4更新后的模板对当前跟踪到的视频帧后续的视频图像序列继续进行步骤3的正常跟踪;
步骤6、重复步骤3~步骤5,直至跟踪完毕所有视频图像序列,由此得到视频每一帧中目标所在位置,跟踪任务结束。
本发明的特点还在于,
步骤1中整体网络结构分为两部分:第一部分为用于深度特征提取的孪生神经网络,即特征提取网络,第二部分是用于进行模板更新的3D卷积神经网络,即3D模板更新模块;
特征提取网络分为四层:前两层均由卷积层、最大池化层、激活函数层构成;后两层则每层均包含卷积层与激活函数层;3D模板更新模块则由一层3D卷积层构成;
使用元学习one-shot learning,在每个数据集视频中随机选取两个视频帧组成图片对,前者作为目标图,后者作为搜索图用来训练网络,每个视频选取10个图片对,每个图片对含有四张视频帧,第一帧为视频的第一帧,后面3张图在视屏中随机选取,第二张和第三张图片间距不超过15帧,第三张和第四张图片间距不超过10帧,前三帧作为搜索图用于合成跟踪模板,最后一帧作为搜索图,在搜索图处理中,导入到3D卷积更新模块的三张图片是一样,都是图片对的最后一张图,训练50次,一次导入的图片为32对,损失函数采用Logistic损失函数。
步骤1中组成训练用图片对,需要对选取的图片进行数据增强,数据增强具体按照以下步骤实施:
步骤1.1、首先对训练集中选择出的样本进行随机拉伸RandomStretch操作,拉伸后的尺寸倍数设置为0.095~1.005之间,放大后需要填充的部分使用线性插值法填充;然后进行中心裁剪CenterCrop操作,即从训练图片对的中心处裁剪出尺寸为263*263的区域,接着进行随机裁剪RandomCrop操作,从训练图片对中的随机位置裁剪出大小为255*255的区域,最后进行裁剪转换,原始的GOT-10K数据集中图片的BOX,即目标位置框,以(left、top、weight、height)形式给出,也就是目标框距离图片左边框与上边框的距离和目标框本身的宽与高,通过裁剪转换操作将目标框坐标形式转化为(y、x、h、w)即中心点的坐标与目标框的高和宽;
步骤1.2、进行LOSS的计算:
训练过程中的损失函数使用交叉熵损失,其公式为:
l(y,v)=log(1+exp(-yv))
其中,v代表response图中每个像素点的实际取值,而y代表该像素点的标签;
在实际的训练过程中按照所有侯选位置的平均LOSS计算损失其公式如下:
Figure BDA0003184010470000041
y[u]∈{+1,-1}表示对于每一个位置u∈D的实际标签,v[u]表示D中u的值,D为网络输出的最后的分数图;
步骤1.3、计算出交叉熵损失后,使用梯度下降法进行参数优化,随机梯度下降方法SGD的计算公式如下:
argminθE(z,x,y)L(y,f(z,x;θ))
以此可得到最优参数θ;
经过50遍的训练后网络的最终LOSS稳定在0.1以下,则训练过程结束。
步骤2具体如下:
步骤2.1、在视频图像序列的第一帧图像上指定出目标的位置,将目标从图像中截取后进行缩放,得到尺寸为127*127*3的目标图片,然后将目标图片传入整体网络中的特征提取网络,输出的深度特征即为初始模板,初始模板的尺寸为6*6*256,单位为像素,初始模板的计算公式如下:
Figure BDA0003184010470000051
其中,z为输入的目标图片,函数
Figure BDA0003184010470000052
代表特征提取网络,
Figure BDA0003184010470000053
代表特征提取网络的输出,即目标模板;
步骤2.2、进行参数的初始化:
在视频图像序列第一帧中,由人工标定给出的目标位置信息被称为BOX,BOX有四条信息分别是目标的横坐标、纵坐标、宽度、高度,因此第一帧是不需要进行跟踪运算的,只需要按照给定的BOX将对应的目标初始中心坐标与初始宽高设定的成BOX内的数值,即完成了目标的初始化过程。
步骤3具体如下:
步骤3.1、首先是多尺度的目标搜索:
采用多尺度目标搜索策略,即以图像视频序列的上一帧跟踪结果中的目标坐标为基础,截取出不同尺寸的图片称之为搜索区域,并将搜索区域的图片都传入特征提取网络提取出搜索区域的深度特征,公式如下:
Figure BDA0003184010470000054
其中,x为输入的搜索区域图片,函数
Figure BDA0003184010470000055
代表特征提取网络,
Figure BDA0003184010470000056
代表特征提取网络的输出,也就是搜索区域特征;
步骤3.2、基于卷积的相似度计算:
由所述步骤1训练得到的特征提取网络将输入的搜索区域图片与目标模板映射到统一特征空间,此时通过运用卷积运算便得到二者的相似性,具体为使用6*6*256尺寸的目标模板作为卷积核对尺寸为22*22*256的搜索区域特征进行卷积运算,得到尺寸为1*17*17的特征图,特征图上每一个像素点的值代表搜索区域对应位置处与目标模板的相似程度,其中的最大值就是预测出的目标位置,具体计算公式如下:
Figure BDA0003184010470000061
需要对尺度变化的预测加上惩罚项,惩罚项是对响应图中每个像素点上的值乘以一个小于1的系数,以此来达到对目标形变的惩罚;
步骤3.3、基于APCE的跟踪质量估计:
选用APCE峰值检测判断跟踪质量:
APCE的计算公式如下:
Figure BDA0003184010470000062
其中:Fmax表示响应图中的最大值;Fmin表示响应图中的最小值,Fw,h表示响应图中对应像素点的值;
当APCE小于设定的阈值时,则不会被选择用来更新模板,只用APCE的值大于设定阈值时才会被保留为可靠跟踪结果。这些保留的可靠跟踪结果会作为输入用以进行步骤4的模板更新过程。
步骤4具体如下:
每当进行步骤3保留的可靠跟踪结果达到2个时,都会将这两个可靠跟踪结果输入到特征提取网络中得到深度特征,如果已经保存了两个可靠跟踪结果则用最新的跟踪结果将最老的跟踪结果替换掉。然后将这两个深度特征与初始模板共同输入3D卷积更新模块,得到融合后的最新模板。
本发明的有益效果是,本发明使用3D卷积更新模块融合历史上保留的最近且最可靠的两次跟踪结果以及在开启跟踪任务时人工标注的目标信息来融合更新模板,这样得到的新模板,既能捕获到目标近期的外观信息也能拥有第一帧时最准确的目标外观信息,因此提高了模板对于目标外观形变的鲁棒性,提高了目标跟踪算法的性能,而利用APCE来判断是否保留跟踪结果的模板更新方法也为模板融合提供了较好的图像信息大大改善了跟踪算法的准确率。为了使整体网络拥有更好的性能,本发明提供了一种对应的端到端训练方法使得3D卷积更新模块能够生成鲁棒性更强的模板。在更新机制上,本发明将更新流程与特征提取流程进行了解耦,大大提高了跟踪的速度,并且准确度也有所提高。
附图说明
图1为本发明基于3D卷积模板更新的孪生神经网络目标跟踪方法的方法整体框架示意图;
图2为本发明基于3D卷积模板更新的孪生神经网络目标跟踪方法的网络训练示意图;
图3为本发明基于3D卷积模板更新的孪生神经网络目标跟踪方法的网络训练正样本示意图;
图4为本发明基于3D卷积模板更新的孪生神经网络目标跟踪方法的跟踪初始化阶段示意图;
图5为本发明基于3D卷积模板更新的孪生神经网络目标跟踪方法的多尺度搜索方法示意图;
图6为本发明基于3D卷积模板更新的孪生神经网络目标跟踪方法的正常跟踪流程图;
图7为本发明基于3D卷积模板更新的孪生神经网络目标跟踪方法的模板更新示意图;
图8为本发明基于3D卷积模板更新的孪生神经网络目标跟踪方法的跟踪准确率曲线图;
图9为本发明基于3D卷积模板更新的孪生神经网络目标跟踪方法的跟踪成功率曲线图;
图10为本发明基于3D卷积模板更新的孪生神经网络目标跟踪方法的实际跟踪效果展示图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于3D卷积模板更新的孪生网络目标跟踪方法,流程图如图1所示,具体按照以下步骤实施:
步骤1、构建整体网络,并对整体网络结构进行端到端的训练;
步骤1中整体网络结构分为两部分:第一部分为用于深度特征提取的孪生神经网络,即特征提取网络,第二部分是用于进行模板更新的3D卷积神经网络,即3D模板更新模块;
特征提取网络分为四层:前两层均由卷积层、最大池化层、激活函数层构成;后两层则每层均包含卷积层与激活函数层;3D模板更新模块则由一层3D卷积层构成;
使用和SiamFC算法一样的元学习one-shot learning,在每个数据集视频中随机选取两个视频帧组成图片对,前者作为目标图,后者作为搜索图用来训练网络,与SiamFC算法不同的是,每个视频选取10个图片对,每个图片对含有四张视频帧,第一帧为视频的第一帧,后面3张图在视屏中随机选取,第二张和第三张图片间距不超过15帧,第三张和第四张图片间距不超过10帧,前三帧作为搜索图用于合成跟踪模板,最后一帧作为搜索图,在搜索图处理中,导入到3D卷积更新模块的三张图片是一样,都是图片对的最后一张图,训练50次,一次导入的图片为32对,损失函数采用和SiamFC算法一样的Logistic损失函数。具体的训练示意图如附图2
步骤1中组成图片对,需要对选取的图片进行数据增强,数据增强具体按照以下步骤实施:
步骤1.1、首先对训练集中选择出的样本进行随机拉伸RandomStretch操作,拉伸后的尺寸倍数设置为0.095~1.005之间,放大后需要填充的部分使用线性插值法填充;然后进行中心裁剪CenterCrop操作,即从训练图片对的中心处裁剪出尺寸为263*263的区域,如果图片不够大,填充部分使用线性插值法,填充后再进行裁剪;接着进行随机裁剪RandomCrop操作,从训练图片对中的随机位置裁剪出大小为255*255的区域,同样,如果原图片不够大则先使用线性插值法填充后再进行裁剪;最后进行裁剪转换,原始的GOT-10K数据集中图片的BOX,即目标位置框,以(left、top、weight、height)形式给出,也就是目标框距离图片左边框与上边框的距离和目标框本身的宽与高,通过裁剪转换操作将目标框坐标形式转化为(y、x、h、w)即中心点的坐标与目标框的高和宽;
步骤1.2、进行LOSS的计算:
在训练过程中,无论是SearchImage(搜索区域图片)还是ExemplarImage(模板图片)都是以目标为中心的,因此在计算损失时以响应图中心点作为中心的矩形内部属于目标,而矩形外部则不属于目标。具体见附图3训练中Label的生成,本方法训练过程中的损失函数使用交叉熵损失,其公式为:
l(y,v)=log(1+exp(-yv))
其中,v代表response图中每个像素点的实际取值,而y代表该像素点的标签;
在实际的训练过程中按照所有侯选位置的平均LOSS计算损失其公式如下:
Figure BDA0003184010470000101
y[u]∈{+1,-1}表示对于每一个位置u∈D的实际标签,v[u]表示D中u的值,D为网络输出的最后的分数图;
步骤1.3、计算出交叉熵损失后,使用梯度下降法进行参数优化,随机梯度下降方法SGD的计算公式如下:
argminθE(z,x,y)L(y,f(z,x;θ))
以此可得到最优参数θ;
经过50遍的训练后网络的最终LOSS稳定在0.1以下,则训练过程结束。
步骤2、使用所述步骤1训练好的网络对即将进行跟踪的视频图像序列进行初始化跟踪设置,得到本次跟踪任务的初始目标模板与目标的初始位置信息;
步骤2具体如下:
步骤2.1、在视频图像序列的第一帧图像上指定出目标的位置,将目标从图像中截取后进行缩放,得到尺寸为127*127*3的目标图片,然后将目标图片传入整体网络中的特征提取网络,输出的深度特征即为初始模板,初始模板的尺寸为6*6*256,单位为像素,初始模板的计算公式如下:
Figure BDA0003184010470000102
其中,z为输入的目标图片,函数
Figure BDA0003184010470000103
代表特征提取网络,
Figure BDA0003184010470000104
代表特征提取网络的输出,即目标模板;
步骤2.2、进行参数的初始化:
本方法在跟踪过程中会依据上一帧视频图像序列的跟踪结果,在其基础上进行当前跟踪过程的计算,其中就包括上一帧时目标的坐标与目标的宽高。因此在跟踪任务刚开始时,这些参数都需要进行初始化。在视频图像序列第一帧中,由人工标定给出的目标位置信息被称为BOX,BOX有四条信息分别是目标的横坐标、纵坐标、宽度、高度,因此第一帧是不需要进行跟踪运算的,只需要按照给定的BOX将对应的目标初始中心坐标与初始宽高设定的成BOX内的数值,即完成了目标的初始化过程。初始化示意图见附图4。
步骤3、得到步骤2的初始目标模板后,开始正常跟踪流程,在跟踪过程中使用基于APCE的判断方法判断当前跟踪结果是否可靠,若可靠则保留,若不可靠则不进行保留,并继续跟踪过程,于视频图像序列的每一帧都会计算出一个对应的目标在图像中的位置;
步骤3具体如下:
步骤3.1、首先是多尺度的目标搜索:
为了解决在跟踪过程中,跟踪目标的尺度变化问题,本方法采用多尺度目标搜索策略,即以图像视频序列的上一帧跟踪结果中的目标坐标为基础,截取出不同尺寸的图片称之为搜索区域,并将搜索区域的图片都传入特征提取网络提取出搜索区域的深度特征,公式如下:
Figure BDA0003184010470000111
其中,x为输入的搜索区域图片,函数
Figure BDA0003184010470000112
代表特征提取网络,
Figure BDA0003184010470000113
代表特征提取网络的输出,也就是搜索区域特征;
步骤3.2、基于卷积的相似度计算:
由所述步骤1训练得到的特征提取网络将输入的搜索区域图片与目标模板映射到统一特征空间,此时通过运用卷积运算便得到二者的相似性,具体为使用6*6*256尺寸的目标模板作为卷积核对尺寸为22*22*256的搜索区域特征进行卷积运算,得到尺寸为1*17*17的特征图,特征图上每一个像素点的值代表搜索区域对应位置处与目标模板的相似程度,其中的最大值就是预测出的目标位置,具体计算公式如下:
Figure BDA0003184010470000121
由于本方法所采用的多尺度搜索,在每一帧进行跟踪时总会按照不同的尺寸截取出多个搜索区域图。进行卷积计算后也会生成对应的多个响应图,因为目标在运动过程中尺寸大小很难发生突变,因此需要对尺度变化的预测加上惩罚项,惩罚项是对响应图中每个像素点上的值乘以一个小于1的系数,以此来达到对目标形变的惩罚;这提高了预测的准确性。多尺度搜索方法示意图见附图5。
步骤3.3、基于APCE的跟踪质量估计:
本方法使用3D卷积模板更新模块进行模板的更新,其重要问题之一便是使用什么进行更新。对此本方法采用历史上较好的跟踪结果与第一帧由人工标定的目标模板作为融合更新模板的材料。因此就需要用一种评价标准来判断当前跟踪结果的质量是否足够高,本方法选用APCE峰值检测判断跟踪质量:
APCE的计算公式如下:
Figure BDA0003184010470000122
其中:Fmax表示响应图中的最大值;Fmin表示响应图中的最小值,Fw,h表示响应图中对应像素点的值;
APCE可以反映出响应图的震荡程度,一旦APCE突然出现了骤降的情形说明目标可能出现了遮挡或丢失的情况,在这种情形下如果任然选择将跟踪的结果用来生成模板就会引入造成误差的背景信息,因此当APCE小于设定的阈值时,则不会被选择用来更新模板,只用APCE的值大于设定阈值时才会被保留为可靠跟踪结果。这些保留的可靠跟踪结果会作为输入用以进行步骤4的模板更新过程。整体的正常跟踪流程图见附图6。
步骤4、在对视频图像序列的每一帧跟踪计算结束时,均判断是否满足模板更新条件,即步骤3中保留的可靠跟踪结果是否达到2个,若已有2个可靠跟踪结果则将最新的结果替换最老的结果,若满足则进行模板更新,若不满足则不进行模板跟踪,继续步骤3的正常跟踪流程;
步骤4具体如下:
每当进行步骤3保留的可靠跟踪结果达到2个时,都会将这两个可靠跟踪结果输入到特征提取网络中得到深度特征,如果已经保存了两个可靠跟踪结果则用最新的跟踪结果将最老的跟踪结果替换掉。然后将这两个深度特征与初始模板共同输入3D卷积更新模块,得到融合后的最新模板。不同于其余涉及模板更新的方法,通过事先保存深度特征可以做到深度特征的复用,并将特征提取网络与更新模块解耦,大大提高运行速度。模板更新示意图见附图7。
步骤5、使用所述步骤4更新后的模板对当前跟踪到的视频帧后续的视频图像序列继续进行步骤3的正常跟踪;
步骤5具体如下:
在模板更新后,便在下一次进行模板更新前一直使用新模板保持不变具体跟踪流程与步骤3相同,仍然在跟踪过程中不断保存可靠跟踪结果得到的深度特征。一旦得到一个新的深度特征就将存在时间最久的深度特征删除,并进行模板更新,如步骤4。
步骤6、重复步骤3~步骤5,直至跟踪完毕所有视频图像序列,由此得到视频每一帧中目标所在位置,跟踪任务结束。
步骤6具体如下:
对于一个跟踪任务,在初始化完成后的整体流程如步骤3~5,在模板更新与跟踪计算间不断重复。在这个过程中,视频序列的每一帧都会被计算出该帧的目标位置并得到一个BOX用于表示。对于一个视频整体来看就会得到目标的运动轨迹。直至得到整个视频图像序列所有图像的目标位置,跟踪任务结束。本方法在测试集上的准确率与成功率见附图8、9。其中跟踪过程中的效果展示图见附图10。
本发明创新的将基于孪生神经网络的目标跟踪算法的特征提取网络部分拆分为特征提取网络与3D卷积模板更新模块。在正常跟踪流程中,利用APCE峰值检测保留并传入特征提取网络得到深度特征,当满足模板更新条件后用于进行模板更新。模板更新可以有效应对跟踪过程中目标外观形状的不断变化,而将特征提取网络与3D卷积模板更新模块分开的结构设计可以促进数据的复用,大大提高实际的运行速度,降低耦合度。

Claims (6)

1.一种基于3D卷积模板更新的孪生网络目标跟踪方法,其特征在于,具体按照以下步骤实施:
步骤1、构建整体网络,并对整体网络结构进行端到端的训练;
步骤2、使用所述步骤1训练好的网络对即将进行跟踪的视频图像序列进行初始化跟踪设置,得到本次跟踪任务的初始目标模板与目标的初始位置信息;
步骤3、得到步骤2的初始目标模板后,开始正常跟踪流程,在跟踪过程中使用基于APCE的判断方法判断当前跟踪结果是否可靠,若可靠则保留,若不可靠则不进行保留,并继续跟踪过程,于视频图像序列的每一帧都会计算出一个对应的目标在图像中的位置;
步骤4、在对视频图像序列的每一帧跟踪计算结束时,均判断是否满足模板更新条件,即步骤3中保留的可靠跟踪结果是否达到2个,若已有2个可靠跟踪结果则将最新的结果替换最老的结果,若满足则进行模板更新,若不满足则不进行模板跟踪,继续步骤3的正常跟踪流程;
步骤5、使用所述步骤4更新后的模板对当前跟踪到的视频帧后续的视频图像序列继续进行步骤3的正常跟踪;
步骤6、重复步骤3~步骤5,直至跟踪完毕所有视频图像序列,由此得到视频每一帧中目标所在位置,跟踪任务结束。
2.根据权利要求1所述的一种基于3D卷积模板更新的孪生网络目标跟踪方法,其特征在于,所述步骤1中整体网络结构分为两部分:第一部分为用于深度特征提取的孪生神经网络,即特征提取网络,第二部分是用于进行模板更新的3D卷积神经网络,即3D模板更新模块;
特征提取网络分为四层:前两层均由卷积层、最大池化层、激活函数层构成;后两层则每层均包含卷积层与激活函数层;3D模板更新模块则由一层3D卷积层构成;
使用元学习one-shot learning,在每个数据集视频中随机选取两个视频帧组成图片对,前者作为目标图,后者作为搜索图用来训练网络,每个视频选取10个图片对,每个图片对含有四张视频帧,第一帧为视频的第一帧,后面3张图在视屏中随机选取,第二张和第三张图片间距不超过15帧,第三张和第四张图片间距不超过10帧,前三帧作为搜索图用于合成跟踪模板,最后一帧作为搜索图,在搜索图处理中,导入到3D卷积更新模块的三张图片是一样,都是图片对的最后一张图,训练50次,一次导入的图片为32对,损失函数采用Logistic损失函数。
3.根据权利要求2所述的一种基于3D卷积模板更新的孪生网络目标跟踪方法,其特征在于,所述步骤1中组成图片对,需要对选取的图片进行数据增强,数据增强具体按照以下步骤实施:
步骤1.1、首先对训练集中选择出的样本进行随机拉伸RandomStretch操作,拉伸后的尺寸倍数设置为0.095~1.005之间,放大后需要填充的部分使用线性插值法填充;然后进行中心裁剪CenterCrop操作,即从训练图片对的中心处裁剪出尺寸为263*263的区域,接着进行随机裁剪RandomCrop操作,从训练图片对中的随机位置裁剪出大小为255*255的区域,最后进行裁剪转换,原始的GOT-10K数据集中图片的BOX,即目标位置框,以(left、top、weight、height)形式给出,也就是目标框距离图片左边框与上边框的距离和目标框本身的宽与高,通过裁剪转换操作将目标框坐标形式转化为(y、x、h、w)即中心点的坐标与目标框的高和宽;
步骤1.2、进行LOSS的计算:
训练过程中的损失函数使用交叉熵损失,其公式为:
l(y,v)=log(1+exp(-yv))
其中,v代表response图中每个像素点的实际取值,而y代表该像素点的标签;
在实际的训练过程中按照所有侯选位置的平均LOSS计算损失其公式如下:
Figure FDA0003184010460000031
y[u]∈{+1,-1}表示对于每一个位置u∈D的实际标签,v[u]表示D中u的值,D为网络输出的最后的分数图;
步骤1.3、计算出交叉熵损失后,使用梯度下降法进行参数优化,随机梯度下降方法SGD的计算公式如下:
argminθE(z,x,y)L(y,f(z,x;θ))
以此可得到最优参数θ;
经过50遍的训练后网络的最终LOSS稳定在0.1以下,则训练过程结束。
4.根据权利要求3所述的一种基于3D卷积模板更新的孪生网络目标跟踪方法,其特征在于,所述步骤2具体如下:
步骤2.1、在视频图像序列的第一帧图像上指定出目标的位置,将目标从图像中截取后进行缩放,得到尺寸为127*127*3的目标图片,然后将目标图片传入整体网络中的特征提取网络,输出的深度特征即为初始模板,初始模板的尺寸为6*6*256,单位为像素,初始模板的计算公式如下:
Figure FDA0003184010460000032
其中,z为输入的目标图片,函数
Figure FDA0003184010460000041
代表特征提取网络,
Figure FDA0003184010460000042
代表特征提取网络的输出,即目标模板;
步骤2.2、进行参数的初始化:
在视频图像序列第一帧中,由人工标定给出的目标位置信息被称为BOX,BOX有四条信息分别是目标的横坐标、纵坐标、宽度、高度,因此第一帧是不需要进行跟踪运算的,只需要按照给定的BOX将对应的目标初始中心坐标与初始宽高设定的成BOX内的数值,即完成了目标的初始化过程。
5.根据权利要求4所述的一种基于3D卷积模板更新的孪生网络目标跟踪方法,其特征在于,所述步骤3具体如下:
步骤3.1、首先是多尺度的目标搜索:
采用多尺度目标搜索策略,即以图像视频序列的上一帧跟踪结果中的目标坐标为基础,截取出不同尺寸的图片称之为搜索区域,并将搜索区域的图片都传入特征提取网络提取出搜索区域的深度特征,公式如下:
Figure FDA0003184010460000043
其中,x为输入的搜索区域图片,函数
Figure FDA0003184010460000044
代表特征提取网络,
Figure FDA0003184010460000045
代表特征提取网络的输出,也就是搜索区域特征;
步骤3.2、基于卷积的相似度计算:
由所述步骤1训练得到的特征提取网络将输入的搜索区域图片与目标模板映射到统一特征空间,此时通过运用卷积运算便得到二者的相似性,具体为使用6*6*256尺寸的目标模板作为卷积核对尺寸为22*22*256的搜索区域特征进行卷积运算,得到尺寸为1*17*17的特征图,特征图上每一个像素点的值代表搜索区域对应位置处与目标模板的相似程度,其中的最大值就是预测出的目标位置,具体计算公式如下:
Figure FDA0003184010460000051
需要对尺度变化的预测加上惩罚项,惩罚项是对响应图中每个像素点上的值乘以一个小于1的系数,以此来达到对目标形变的惩罚;
步骤3.3、基于APCE的跟踪质量估计:
选用APCE峰值检测判断跟踪质量:
APCE的计算公式如下:
Figure FDA0003184010460000052
其中:Fmax表示响应图中的最大值;Fmin表示响应图中的最小值,Fw,h表示响应图中对应像素点的值;
当APCE小于设定的阈值时,则不会被选择用来更新模板,只用APCE的值大于设定阈值时才会被保留为可靠跟踪结果,这些保留的可靠跟踪结果会作为输入用以进行步骤4的模板更新过程。
6.根据权利要求5所述的一种基于3D卷积模板更新的孪生网络目标跟踪方法,其特征在于,所述步骤4具体如下:
每当进行步骤3保留的可靠跟踪结果达到2个时,都会将这两个可靠跟踪结果输入到特征提取网络中得到深度特征,如果已经保存了两个可靠跟踪结果则用最新的跟踪结果将最老的跟踪结果替换掉,然后将这两个深度特征与初始模板共同输入3D卷积更新模块,得到融合后的最新模板。
CN202110855602.5A 2021-07-28 2021-07-28 一种基于3d卷积模板更新的孪生网络目标跟踪方法 Active CN113628246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110855602.5A CN113628246B (zh) 2021-07-28 2021-07-28 一种基于3d卷积模板更新的孪生网络目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110855602.5A CN113628246B (zh) 2021-07-28 2021-07-28 一种基于3d卷积模板更新的孪生网络目标跟踪方法

Publications (2)

Publication Number Publication Date
CN113628246A true CN113628246A (zh) 2021-11-09
CN113628246B CN113628246B (zh) 2024-04-12

Family

ID=78381266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110855602.5A Active CN113628246B (zh) 2021-07-28 2021-07-28 一种基于3d卷积模板更新的孪生网络目标跟踪方法

Country Status (1)

Country Link
CN (1) CN113628246B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861379A (zh) * 2022-12-21 2023-03-28 山东工商学院 孪生网络基于局部可信模板进行目标模板更新的视频跟踪方法
CN116486203A (zh) * 2023-04-24 2023-07-25 燕山大学 一种基于孪生网络和在线模板更新的单目标跟踪方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200327679A1 (en) * 2019-04-12 2020-10-15 Beijing Moviebook Science and Technology Co., Ltd. Visual target tracking method and apparatus based on deeply and densely connected neural network
CN112069896A (zh) * 2020-08-04 2020-12-11 河南科技大学 一种基于孪生网络融合多模板特征的视频目标跟踪方法
CN112184752A (zh) * 2020-09-08 2021-01-05 北京工业大学 一种基于金字塔卷积的视频目标跟踪方法
WO2021012484A1 (zh) * 2019-07-19 2021-01-28 平安科技(深圳)有限公司 基于深度学习的目标跟踪方法、装置及计算机可读存储介质
CN112541468A (zh) * 2020-12-22 2021-03-23 中国人民解放军国防科技大学 一种基于双模板响应融合的目标跟踪方法
CN112837344A (zh) * 2019-12-18 2021-05-25 沈阳理工大学 一种基于条件对抗生成孪生网络的目标跟踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200327679A1 (en) * 2019-04-12 2020-10-15 Beijing Moviebook Science and Technology Co., Ltd. Visual target tracking method and apparatus based on deeply and densely connected neural network
WO2021012484A1 (zh) * 2019-07-19 2021-01-28 平安科技(深圳)有限公司 基于深度学习的目标跟踪方法、装置及计算机可读存储介质
CN112837344A (zh) * 2019-12-18 2021-05-25 沈阳理工大学 一种基于条件对抗生成孪生网络的目标跟踪方法
CN112069896A (zh) * 2020-08-04 2020-12-11 河南科技大学 一种基于孪生网络融合多模板特征的视频目标跟踪方法
CN112184752A (zh) * 2020-09-08 2021-01-05 北京工业大学 一种基于金字塔卷积的视频目标跟踪方法
CN112541468A (zh) * 2020-12-22 2021-03-23 中国人民解放军国防科技大学 一种基于双模板响应融合的目标跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
史璐璐;张索非;吴晓富;: "基于Tiny Darknet全卷积孪生网络的目标跟踪", 南京邮电大学学报(自然科学版), no. 04 *
张博言;钟勇;: "一种基于多样性正实例的单目标跟踪算法", 哈尔滨工业大学学报, no. 10 *
董吉富;刘畅;曹方伟;凌源;高翔;: "基于注意力机制的在线自适应孪生网络跟踪算法", 激光与光电子学进展, no. 02 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861379A (zh) * 2022-12-21 2023-03-28 山东工商学院 孪生网络基于局部可信模板进行目标模板更新的视频跟踪方法
CN115861379B (zh) * 2022-12-21 2023-10-20 山东工商学院 孪生网络基于局部可信模板进行模板更新的视频跟踪方法
CN116486203A (zh) * 2023-04-24 2023-07-25 燕山大学 一种基于孪生网络和在线模板更新的单目标跟踪方法
CN116486203B (zh) * 2023-04-24 2024-02-02 燕山大学 一种基于孪生网络和在线模板更新的单目标跟踪方法

Also Published As

Publication number Publication date
CN113628246B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN111797716B (zh) 一种基于Siamese网络的单目标跟踪方法
CN110781262B (zh) 基于视觉slam的语义地图的构建方法
CN110473231B (zh) 一种具有预判式学习更新策略的孪生全卷积网络的目标跟踪方法
JP7263216B2 (ja) ワッサースタイン距離を使用する物体形状回帰
CN113628246B (zh) 一种基于3d卷积模板更新的孪生网络目标跟踪方法
CN108491766B (zh) 一种端到端的基于深度决策森林的人群计数方法
CN113436227A (zh) 一种基于倒残差的孪生网络目标跟踪方法
CN109934846A (zh) 基于时间和空间网络的深度集成目标跟踪方法
CN114581486A (zh) 基于全卷积孪生网络多层特征的模板更新目标跟踪算法
CN110119768B (zh) 用于车辆定位的视觉信息融合系统及方法
CN110909741A (zh) 一种基于背景分割的车辆再识别方法
CN110569706A (zh) 一种基于时间和空间网络的深度集成目标跟踪算法
CN112927264A (zh) 一种无人机跟踪拍摄系统及其rgbd跟踪方法
CN117252904B (zh) 基于长程空间感知与通道增强的目标跟踪方法与系统
CN115496900A (zh) 一种基于稀疏融合的在线碳语义地图构建方法
CN115909110A (zh) 一种基于Siamese网络的轻量级红外无人机目标跟踪方法
CN115527134A (zh) 基于大数据的城市园林景观照明监测系统及其方法
CN114743126A (zh) 一种基于图注意力机制网络的车道线标志分割方法
CN113379787B (zh) 基于3d卷积孪生神经网络和模板更新的目标跟踪方法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN113221957A (zh) 一种基于Centernet的雷达信息融合特征增强方法
CN116958927A (zh) 一种基于bev图识别矮小柱状体的方法及装置
Bhutani et al. Unsupervised Depth and Confidence Prediction from Monocular Images using Bayesian Inference
CN116563343A (zh) 一种基于孪生网络结构和锚框自适应思想的rgbt目标跟踪方法
CN114743045B (zh) 一种基于双分支区域建议网络的小样本目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant