CN113379787A - 基于3d卷积孪生神经网络和模板更新的目标跟踪方法 - Google Patents

基于3d卷积孪生神经网络和模板更新的目标跟踪方法 Download PDF

Info

Publication number
CN113379787A
CN113379787A CN202110656004.5A CN202110656004A CN113379787A CN 113379787 A CN113379787 A CN 113379787A CN 202110656004 A CN202110656004 A CN 202110656004A CN 113379787 A CN113379787 A CN 113379787A
Authority
CN
China
Prior art keywords
target
template
picture
tracking
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110656004.5A
Other languages
English (en)
Other versions
CN113379787B (zh
Inventor
鲁晓锋
王轩
王正洋
柏晓飞
李小鹏
李思训
刘家铭
邹振华
黑新宏
姬文江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110656004.5A priority Critical patent/CN113379787B/zh
Publication of CN113379787A publication Critical patent/CN113379787A/zh
Application granted granted Critical
Publication of CN113379787B publication Critical patent/CN113379787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于3D卷积孪生神经网络和模板更新的目标跟踪方法,首先训练神经网络,由给定的初始目标位置在视频序列的第一帧图片上截取并传入神经网络生成目标模板;对于当前跟踪任务进行到的时刻t对应的视频序列图片,以时刻t‑1所得到跟踪结果为中心截取出不同尺寸的搜索区域,再以目标模板为卷积核对搜索区域进行卷积运算得到响应图;计算出响应图的APCE参数,生成t+1时刻的响应图;计算响应图的APCE参数判断是否保留,最终得到整个视频的跟踪结果,生成视频序列中每一帧图片中目标的位置信息,完成跟踪任务。本发明解决了现有技术中存在的对于跟踪中物体外表形变鲁棒性较差的问题。

Description

基于3D卷积孪生神经网络和模板更新的目标跟踪方法
技术领域
本发明属于基于视频的单目标跟踪技术领域,具体涉及一种基于3D卷积孪生神经网络和模板更新的目标跟踪方法。
背景技术
单目标跟踪是指,对于一组视频序列,指定出在第一帧时目标所在位置后,根据目标跟踪算法计算出该目标在后续帧中的位置的过程。单目标跟踪时计算机视觉领域的一个重要研究方向,它旨在使得计算机能够拥有人类对于目标的持续捕捉的能力。而以深度学习为基础的基于孪生神经网络的目标跟踪算法是当前的一个主流研究方向,其成果在科研领域与生活应用中都起到重要作用。
目标跟踪算法在日常生活中用途广泛,无论在智能监控、无人驾驶、交通监视、医学诊断等领域中都扮演着重要的角色。在军事上也发挥着如无人机视觉、精确制导、空中预警等重要作用。
近些年来,深度学习算法的发展迅猛,并且不断与各种新兴或传统领域进行融合,促进相互的发展。于是,深度学习与目标跟踪算法的结合也成为了近期的研究热点。其中基于孪生神经网络结构的算法是主流方向。通过使用第一帧给出的目标图像生成模板,对后续的图像进行卷积运算,结果中的最大值就是目标最可能所在的位置。这种类型的算法往往都具有均衡的性能,但其缺点是模板没有得到更新,无法适应外观不断发生变化的目标,从而造成目标的丢失。
发明内容
本发明的目的是提供一种基于3D卷积孪生神经网络和模板更新的目标跟踪方法,解决了现有技术中存在的对于跟踪中物体外表形变鲁棒性较差的问题。
本发明所采用的技术方案是,基于3D卷积孪生神经网络和模板更新的目标跟踪方法,具体按照以下步骤实施:
步骤1、训练神经网络,由给定的初始目标位置在视频序列的第一帧图片上截取并传入神经网络生成目标模板;
步骤2、对于当前跟踪任务进行到的时刻t对应的视频序列图片,以时刻t-1所得到跟踪结果为中心截取出不同尺寸的搜索区域,再以目标模板为卷积核对搜索区域进行卷积运算得到响应图;
步骤3、根据步骤2得到响应图,计算出响应图的APCE参数,如果达到阈值则说明跟踪效果较好,根据t时刻跟踪结果在t时刻对应视频序列中的图片上截取出目标图片,存入可靠集合V;
步骤4、如果可靠集合V存满,即长度为2,则将可靠集合V中保留的跟踪结果与步骤1中的初始目标模板共同传入3D孪生神经网络的模板分支得到混合了三帧目标信息的更新模板;
步骤5、使用混合后的更新模板对t+1时刻对应的视频序列中的图片继续跟踪任务,生成t+1时刻的响应图;
步骤6、再计算出步骤5得到的响应图的APCE参数判断是否保留,若保留则将可靠集合V中最老的图片进行替换,不断重复以上步骤直至跟踪结束,最终得到整个视频的跟踪结果,生成视频序列中每一帧图片中目标的位置信息,完成跟踪任务。
本发明的特点还在于,
步骤1采用3D卷积神经网络结构,3D卷积神经网络结构共分为五层,每层分别由卷积层和池化层组成,3D卷积神经网络结构的卷积核尺寸分别为:
第一层:1*11*11;
第二层:1*5*5;
第三层:1*3*3;
第四层:1*3*3;
第五层:3*3*3。
步骤1训练过程使用GOT-10K数据集,从一个视频序列中随机抽取8对图片,然后进行数据增强,具体过程如下:
步骤1.1、首先对训练集中选择出的样本进行随机拉伸RandomStretch操作,拉伸后的尺寸倍数设置为0.095~1.005之间,放大后需要填充的部分使用线性插值法填充;然后进行中心裁剪CenterCrop操作,即从训练图片对的中心处裁剪出尺寸为263*263的区域,如果图片不够大,填充部分使用线性插值法,填充后再进行裁剪;接着进行随机裁剪RandomCrop操作,从训练图片对中的随机位置裁剪出大小为255*255的区域,同样,如果原图片不够大则先使用线性插值法填充后再进行裁剪;最后进行裁剪转换,原始的GOT-10K数据集中图片的BOX,即目标位置框,以(left、top、weight、height)形式给出,也就是目标框距离图片左边框与上边框的距离和目标框本身的宽与高,通过裁剪转换操作将目标框坐标形式转化为(y、x、h、w)即中心点的坐标与目标框的高和宽;
步骤1.2、经过步骤1.1后训练图片成为最终的训练数据,这些训练数据对的尺寸为127*127*3与255*255*3,在随机采样时会选取一个随机帧加上其前一帧与该视频序列第一帧以此模拟实际跟踪时的情形,将这三张处理后的127*127*3的图片进行堆叠得到尺寸为3*3*255*255的输入数据,在传入神经网络后最终得到模板其尺寸为6*6*128;
步骤1.3、将对应的255*255*3的训练图片传入神经网络最终得到22*22*128的特征图,此时使用模板作为卷积核对该特征图进行卷积,最终得到尺寸为17*17*1的响应图;
步骤1.4、训练过程中的损失函数使用交叉熵损失,损失函数公式为:
l(y,v)=log(1+exp(-yv))
其中,v代表最终响应图中每个像素点的实际取值,y代表该像素点的标签;
步骤1.5、在实际的训练过程中按照所有侯选位置的平均训练损失值计算损失其公式如下:
Figure BDA0003112785420000041
y[u]∈{+1,-1}表示对于每一个位置u∈D的实际标签,v[u]表示D中u的值,D就是网络输出的最后的分数图;
步骤1.6、计算出交叉熵损失后,使用梯度下降法进行参数优化,SGD方法的计算公式如下:
argminθE(z,x,y)L(y,f(z,x;θ))以此可得到最优参数θ;
步骤1.7、经过50个训练周期和80000对训练图片的训练后孪生神经网络的最终训练损失值稳定在0.1以下,则训练过程结束;
在跟踪任务的开始时,需要进行目标模板的初始化,矩形框BOX包括目标的中心点坐标和宽高数据,根据矩形框BOX数据从视频序列第一帧图片中截取出尺寸为3x127x127的包含目标的图片传入3D卷积孪生神经网络,其输出尺寸为256x6x6的目标特征图,即模板,在初始化时将截取出的3x127x127的目标图片复制三份后传入3D卷积神经网络,模板生成的计算公式如下:
Figure BDA0003112785420000051
其中,z表示视频序列第一帧中按照矩形框BOX数据所截取出的目标图片,
Figure BDA0003112785420000052
表示3D孪生神经网络。
步骤2具体如下:
步骤2.1、无论在截取搜索区域时按照多大的具体尺寸,都统一在截取后将图片拉伸或缩小为尺寸为3x255x255的三张图片,由此得到较小尺寸、原尺寸、较大尺寸三张尺寸为3x255x255的图片x1、x2、x3;
步骤2.2、同步骤1,将x1、x2、x3各复制成3份传入3D卷积孪生神经网络得到搜索区域特征图X1、X2、X3,尺寸均为256x22x22;
步骤2.3、以当前的目标模板Z为卷积核对X1、X2、X3分别做卷积运算得到三张响应图,其尺寸均为1x17x17,其中选择响应值最大点所在的响应图为最终的响应图,选择响应值最大处坐标位置作为最终的跟踪结果,而跟踪目标的宽高变化取决于最终选择的是三种不同尺度变化的响应屠中的哪一张响应图,最终得到当前帧的跟踪结果BOX-t(x,y,w,h)与响应图Rt(1x17x17)。
步骤3采用APCE参数判断当前跟踪结果的可靠程度,具体如下:
步骤3.1、APCE的计算公式如下:
Figure BDA0003112785420000061
其中:
Fmax表示响应图中的最大值
Fmin表示响应图中的最小值
Fw,h表示响应图中对应像素点的值
步骤3.2、使用步骤2中得到的响应图Rt(1x17x17)计算出峰值检测APCE值,与设定好的阈值λ进行对比,如果大于设定好的阈值则认为当前第t帧的视频序列跟踪效果较好,利用步骤2中的另一个结果BOX在第t帧的视频序列图像上截取出目标的图片,其尺寸为3x127x127,并加入集合V,若集合V中已有2张存放的目标图片,则将其中较老的图片替换;若响应图Rt计算出的峰值检测APCE值小于阈值,则认为此次跟踪结果的质量较低不能用来进行模板更新,但仍将此次跟踪生成的BOX作为跟踪结果返回。
步骤4具体如下:
在跟踪任务的进行中,每当视频序列的最新一帧图片依据步骤1~3计算完毕后就判断可靠集合V是否已经存满,即长度为2,若集合存满则进行模板更新流程,即将视频序列第一帧图片在步骤1中截取出的目标图片t0和可靠集合V中的目标图片t1、t2在堆叠后形成尺寸为3*3*127*127的输入向量,传入3D孪生神经网络,得到的输出是尺寸为256*6*6的更新后模板Zt+1。
步骤5具体如下:
假设在视频序列的第t帧完成跟踪时,满足了进行模板更新的条件,并按步骤4进行了模板更新生成新模板Zt+1,则对于视频序列的t+1帧,整体的跟踪流程仍然按照步骤1~3进行,但模板使用Zt+1,在得到第t+1帧的跟踪结果后,按照步骤4进行是否更新的判断。
本发明的有益效果是,一种基于3D卷积孪生神经网络和模板更新的目标跟踪方法,使用3D卷积神经网络融合前两次较好的跟踪结果和视频序列第一帧给出的真实值来生成最终模板,既能捕获到目标近期的外观信息也能拥有第一帧时最准确的目标外观信息,因此提高了模板对于目标外观形变的鲁棒性,提高了目标跟踪算法的性能,而利用APCE来判断是否保留跟踪结果的模板更新方法也为模板融合提供了较好的图像信息大大改善了跟踪算法的准确率。
附图说明
图1为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的初始化跟踪流程图;
图2为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的正常跟踪流程图;
图3为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的孪生神经网络网络结构图;
图4为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的模板更新方法流程图;
图5为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的多尺度跟踪流程图;
图6为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的训练过程中Label示意图;
图7为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的跟踪准确度变化示意图;
图8为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的跟踪成功率曲线示意图;
图9为本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法的困难情景下跟踪效果示意图,其中,图9(a)为视频中某一时刻t的跟踪效果展示图、图9(b)为视频序列t+1时刻的跟踪效果展示图、图9(c)为视频序列t+2时刻的跟踪效果展示图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于3D卷积孪生神经网络和模板更新的目标跟踪方法,历程图如图1所示,具体按照以下步骤实施:
步骤1、训练神经网络,由给定的初始目标位置在视频序列的第一帧图片上截取并传入神经网络生成目标模板;
步骤1采用3D卷积神经网络结构,3D卷积神经网络结构共分为五层,每层分别由卷积层和池化层组成,其作用分别为提取特征与降低维度。做为孪生神经网络,使用其实现跟踪的基本原理是训练网络使其能够辨别出相似目标。3D卷积神经网络结构的卷积核尺寸分别为:
第一层:1*11*11;
第二层:1*5*5;
第三层:1*3*3;
第四层:1*3*3;
第五层:3*3*3。
步骤1训练过程使用GOT-10K数据集,从一个视频序列中随机抽取8对图片,然后进行数据增强,具体过程如下:
步骤1.1、首先对训练集中选择出的样本进行随机拉伸RandomStretch操作,拉伸后的尺寸倍数设置为0.095~1.005之间,放大后需要填充的部分使用线性插值法填充;然后进行中心裁剪CenterCrop操作,即从训练图片对的中心处裁剪出尺寸为263*263的区域,如果图片不够大,填充部分使用线性插值法,填充后再进行裁剪;接着进行随机裁剪RandomCrop操作,从训练图片对中的随机位置裁剪出大小为255*255的区域,同样,如果原图片不够大则先使用线性插值法填充后再进行裁剪;最后进行裁剪转换,原始的GOT-10K数据集中图片的BOX,即目标位置框,以(left、top、weight、height)形式给出,也就是目标框距离图片左边框与上边框的距离和目标框本身的宽与高,通过裁剪转换操作将目标框坐标形式转化为(y、x、h、w)即中心点的坐标与目标框的高和宽;
步骤1.2、经过步骤1.1后训练图片成为最终的训练数据,这些训练数据对的尺寸为127*127*3与255*255*3,在随机采样时会选取一个随机帧加上其前一帧与该视频序列第一帧以此模拟实际跟踪时的情形,将这三张处理后的127*127*3的图片进行堆叠得到尺寸为3*3*255*255的输入数据,在传入神经网络后最终得到模板其尺寸为6*6*128;
步骤1.3、将对应的255*255*3的训练图片传入神经网络最终得到22*22*128的特征图,此时使用模板作为卷积核对该特征图进行卷积,最终得到尺寸为17*17*1的响应图;
步骤1.4、在训练过程中,无论是搜索区域图片SearchImage还是模板图片ExemplarImage都是以目标为中心的,因此在计算损失时以响应图中心点作为中心的矩形内部属于目标,而矩形外部则不属于目标,Label具体见附图6。训练过程中的损失函数使用交叉熵损失,损失函数公式为:
l(y,v)=log(1+exp(-yv))
其中,v代表最终响应图中每个像素点的实际取值,y代表该像素点的标签;
步骤1.5、在实际的训练过程中按照所有侯选位置的平均训练损失值计算损失其公式如下:
Figure BDA0003112785420000101
y[u]∈{+1,-1}表示对于每一个位置u∈D的实际标签,v[u]表示D中u的值,D就是网络输出的最后的分数图;
步骤1.6、计算出交叉熵损失后,使用梯度下降法进行参数优化,其主要参数选择如下表:
Figure BDA0003112785420000102
SGD方法的计算公式如下:
argminθE(z,x,y)L(y,f(z,x;θ))
以此可得到最优参数θ;
步骤1.7、经过50个训练周期和80000对训练图片的训练后孪生神经网络的最终训练损失值稳定在0.1以下,则训练过程结束。网络的整体框架见附图3.
在跟踪任务的开始时,需要进行目标模板的初始化,当要进行一次视频跟踪任务时,待跟踪目标会在视频序列的第一帧图片中用矩形框BOX标注出来,矩形框BOX包括目标的中心点坐标和宽高数据,根据矩形框BOX数据从视频序列第一帧图片中截取出尺寸为3x127x127的包含目标的图片传入3D卷积孪生神经网络,其输出尺寸为256x6x6的目标特征图,即模板,由于3D卷积孪生神经网络的输入值设定为三张3x127x127的图片,以达到捕捉时间序列信息的目的。因此,在初始化时将截取出的3x127x127的目标图片复制三份后传入3D卷积神经网络,以保证满足尺寸的要求。模板生成的计算公式如下:
Figure BDA0003112785420000111
其中,z表示视频序列第一帧中按照矩形框BOX数据所截取出的目标图片,
Figure BDA0003112785420000112
表示3D孪生神经网络,模板初始化的流程图见附图1。
步骤2、对于当前跟踪任务进行到的时刻t对应的视频序列图片,以时刻t-1所得到跟踪结果为中心截取出不同尺寸的搜索区域,再以目标模板为卷积核对搜索区域进行卷积运算得到响应图;
步骤2具体如下:
在步骤1中得到了此次跟踪任务的初始目标模板Z,并且由于跟踪任务中给出的BOX中含有目标在第一帧时的所有位置信息,第一帧已不需要在进行跟踪计算,直接对视频序列的第二帧进行跟踪运算。在视频序列的第二帧图像上根据上一帧,也就是第一帧的目标位置信息截取出三种不同大小尺寸的图片,称之为搜索区域,对于多尺度,目标在跟踪过程中与镜头的距离在不断变化之中,因此图像上的目标外观的大小也在不断变化,而多尺度方法在生成搜索区域图片时根据多尺度参数截取出三张不同尺寸的搜索区域图传入网络中,然后计算得出三张对应着不同尺寸的响应图,对于小尺寸和大尺寸的响应图还要对其施加惩罚项保证尺度变化的稳定。最终选择其中响应值最大的像素点所属的那张图作为最终响应图。
多尺度方法参数如下:
Figure BDA0003112785420000121
多尺度计算的流程图见附图5。
步骤2.1、无论在截取搜索区域时按照多大的具体尺寸,都统一在截取后将图片拉伸或缩小为尺寸为3x255x255的三张图片,由此得到较小尺寸、原尺寸、较大尺寸三张尺寸为3x255x255的图片x1、x2、x3;
步骤2.2、同步骤1,由于3D卷积孪生神经网络对输入尺寸的要求,将x1、x2、x3各复制成3份传入3D卷积孪生神经网络得到搜索区域特征图X1、X2、X3,尺寸均为256x22x22;
步骤2.3、以当前的目标模板Z为卷积核对X1、X2、X3分别做卷积运算得到三张响应图,其尺寸均为1x17x17,其中选择响应值最大点所在的响应图为最终的响应图,选择响应值最大处坐标位置作为最终的跟踪结果,而跟踪目标的宽高变化取决于最终选择的是三种不同尺度变化的响应屠中的哪一张响应图,最终得到当前帧的跟踪结果BOX-t(x,y,w,h)与响应图Rt(1x17x17)。
步骤3、根据步骤2得到响应图,计算出响应图的APCE参数,如果达到阈值则说明跟踪效果较好,根据t时刻跟踪结果在t时刻对应视频序列中的图片上截取出目标图片,存入可靠集合V;
步骤3采用APCE参数判断当前跟踪结果的可靠程度,具体如下:
步骤3.1、APCE的计算公式如下:
Figure BDA0003112785420000131
其中:
Fmax表示响应图中的最大值
Fmin表示响应图中的最小值
Fw,h表示响应图中对应像素点的值
峰值检测APCE可以反映出响应图的震荡程度,一旦APCE突然出现了骤降的情形说明目标可能出现了遮挡或丢失的情况,在这种情形下如果任然选择将跟踪的结果用来生成模板就会引入造成误差的背景信息,因此当APCE小于设定的阈值时就不会被选择用来更新模板,只用APCE的值以一定的比例大于历史值时才会被用来更新。APCE流程见附图4。
步骤3.2、使用步骤2中得到的响应图Rt(1x17x17)计算出峰值检测APCE值,与设定好的阈值λ进行对比,如果大于设定好的阈值则认为当前第t帧的视频序列跟踪效果较好,利用步骤2中的另一个结果BOX在第t帧的视频序列图像上截取出目标的图片,其尺寸为3x127x127,并加入集合V,若集合V中已有2张存放的目标图片,则将其中较老的图片替换;若响应图Rt计算出的峰值检测APCE值小于阈值,则认为此次跟踪结果的质量较低不能用来进行模板更新,但仍将此次跟踪生成的BOX作为跟踪结果返回。
步骤4、如果可靠集合V存满,即长度为2,则将可靠集合V中保留的跟踪结果与步骤1中的初始目标模板共同传入3D孪生神经网络的模板分支得到混合了三帧目标信息的更新模板;
步骤4具体如下:
在跟踪任务的进行中,每当视频序列的最新一帧图片依据步骤1~3计算完毕后就判断可靠集合V是否已经存满,即长度为2,若集合存满则进行模板更新流程,即将视频序列第一帧图片在步骤1中截取出的目标图片t0和可靠集合V中的目标图片t1、t2在堆叠后形成尺寸为3*3*127*127的输入向量,传入3D孪生神经网络,得到的输出是尺寸为256*6*6的更新后模板Zt+1。步骤4的具体工作流程见附图2。
步骤5、使用混合后的更新模板对t+1时刻对应的视频序列中的图片继续跟踪任务,生成t+1时刻的响应图;
步骤5具体如下:
假设在视频序列的第t帧完成跟踪时,满足了进行模板更新的条件,并按步骤4进行了模板更新生成新模板Zt+1,则对于视频序列的t+1帧,整体的跟踪流程仍然按照步骤1~3进行,但模板使用Zt+1,在得到第t+1帧的跟踪结果后,按照步骤4进行是否更新的判断。
步骤6、再计算出步骤5得到的响应图的APCE参数判断是否保留,若保留则将可靠集合V中最老的图片进行替换,不断重复以上步骤直至跟踪结束,最终得到整个视频的跟踪结果,生成视频序列中每一帧图片中目标的位置信息,完成跟踪任务。
步骤6具体如下:
步骤1~5描述了跟踪任务如何初始化,以及对于整个视频序列中某一帧t的跟踪与模板更新流程,而对于整体的跟踪任务来说,便是在按照步骤1进行初始化后,不断地重复步骤2~5,直到跟踪任务的结束,也就是完成了对视频序列中每一帧的跟踪运算。由于每一帧的跟踪计算都会输出一个BOX,它在图片上展示出来就是一个矩形框,尽可能的将需要跟踪的目标沿着轮廓包含。其中跟踪的具体效果见附图9(a)~图9(c)。对于该算法我们在常用的视频跟踪算法测试集上进行了测试,结果见附图7、8。两图分别表示跟踪算法的精准率和成功率,其中精确率表示跟踪算法计算出的目标中心位置与人工标注的真实中心位置的距离差,成功率表示跟踪算法给出的BOX生成的矩形框中与人工标注的矩形框中重叠的像素的比率。
本发明是一种基于3D卷积孪生神经网络和模板更新的目标跟踪方法,能够在长时间跟踪目标是适应目标的外观变化,以及对于短时间遮挡和快速形变的鲁棒性。首先使用类似于SiamFC方法的初始模板对目标进行跟踪,然后使用APCE方法判断跟踪结果的可靠性,将效果较好的结果用于生成后续的模板。并且使用了3D卷积神经网络,提取出了时间序列上的目标特征,提高了方法的鲁棒性。本方法结构清晰简洁,具有良好的性能和运行速度,有助于提高目标跟踪项目的效果。

Claims (7)

1.基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,具体按照以下步骤实施:
步骤1、训练神经网络,由给定的初始目标位置在视频序列的第一帧图片上截取并传入神经网络生成目标模板;
步骤2、对于当前跟踪任务进行到的时刻t对应的视频序列图片,以时刻t-1所得到跟踪结果为中心截取出不同尺寸的搜索区域,再以目标模板为卷积核对搜索区域进行卷积运算得到响应图;
步骤3、根据步骤2得到响应图,计算出响应图的APCE参数,如果达到阈值则说明跟踪效果较好,根据t时刻跟踪结果在t时刻对应视频序列中的图片上截取出目标图片,存入可靠集合V;
步骤4、如果可靠集合V存满,即长度为2,则将可靠集合V中保留的跟踪结果与步骤1中的初始目标模板共同传入3D孪生神经网络的模板分支得到混合了三帧目标信息的更新模板;
步骤5、使用混合后的更新模板对t+1时刻对应的视频序列中的图片继续跟踪任务,生成t+1时刻的响应图;
步骤6、再计算出步骤5得到的响应图的APCE参数判断是否保留,若保留则将可靠集合V中最老的图片进行替换,不断重复以上步骤直至跟踪结束,最终得到整个视频的跟踪结果,生成视频序列中每一帧图片中目标的位置信息,完成跟踪任务。
2.根据权利要求1所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤1采用3D卷积神经网络结构,3D卷积神经网络结构共分为五层,每层分别由卷积层和池化层组成,3D卷积神经网络结构的卷积核尺寸分别为:
第一层:1*11*11;
第二层:1*5*5;
第三层:1*3*3;
第四层:1*3*3;
第五层:3*3*3。
3.根据权利要求2所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤1训练过程使用GOT-10K数据集,从一个视频序列中随机抽取8对图片,然后进行数据增强,具体过程如下:
步骤1.1、首先对训练集中选择出的样本进行随机拉伸RandomStretch操作,拉伸后的尺寸倍数设置为0.095~1.005之间,放大后需要填充的部分使用线性插值法填充;然后进行中心裁剪CenterCrop操作,即从训练图片对的中心处裁剪出尺寸为263*263的区域,如果图片不够大,填充部分使用线性插值法,填充后再进行裁剪;接着进行随机裁剪RandomCrop操作,从训练图片对中的随机位置裁剪出大小为255*255的区域,同样,如果原图片不够大则先使用线性插值法填充后再进行裁剪;最后进行裁剪转换,原始的GOT-10K数据集中图片的BOX,即目标位置框,以(left、top、weight、height)形式给出,也就是目标框距离图片左边框与上边框的距离和目标框本身的宽与高,通过裁剪转换操作将目标框坐标形式转化为(y、x、h、w)即中心点的坐标与目标框的高和宽;
步骤1.2、经过步骤1.1后训练图片成为最终的训练数据,这些训练数据对的尺寸为127*127*3与255*255*3,在随机采样时会选取一个随机帧加上其前一帧与该视频序列第一帧以此模拟实际跟踪时的情形,将这三张处理后的127*127*3的图片进行堆叠得到尺寸为3*3*255*255的输入数据,在传入神经网络后最终得到模板其尺寸为6*6*128;
步骤1.3、将对应的255*255*3的训练图片传入神经网络最终得到22*22*128的特征图,此时使用模板作为卷积核对该特征图进行卷积,最终得到尺寸为17*17*1的响应图;
步骤1.4、训练过程中的损失函数使用交叉熵损失,损失函数公式为:
l(y,v)=log(1+exp(-yv))
其中,v代表最终响应图中每个像素点的实际取值,y代表该像素点的标签;
步骤1.5、在实际的训练过程中按照所有侯选位置的平均训练损失值计算损失其公式如下:
Figure FDA0003112785410000031
y[u]∈{+1,-1}表示对于每一个位置u∈D的实际标签,v[u]表示D中u的值,D就是网络输出的最后的分数图;
步骤1.6、计算出交叉熵损失后,使用梯度下降法进行参数优化,SGD方法的计算公式如下:
argminθE(z,x,y)L(y,f(z,x;θ))
以此可得到最优参数θ;
步骤1.7、经过50个训练周期和80000对训练图片的训练后孪生神经网络的最终训练损失值稳定在0.1以下,则训练过程结束;
在跟踪任务的开始时,需要进行目标模板的初始化,矩形框BOX包括目标的中心点坐标和宽高数据,根据矩形框BOX数据从视频序列第一帧图片中截取出尺寸为3x127x127的包含目标的图片传入3D卷积孪生神经网络,其输出尺寸为256x6x6的目标特征图,即模板,在初始化时将截取出的3x127x127的目标图片复制三份后传入3D卷积神经网络,模板生成的计算公式如下:
Figure FDA0003112785410000041
其中,z表示视频序列第一帧中按照矩形框BOX数据所截取出的目标图片,
Figure FDA0003112785410000042
表示3D孪生神经网络。
4.根据权利要求3所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤2具体如下:
步骤2.1、无论在截取搜索区域时按照多大的具体尺寸,都统一在截取后将图片拉伸或缩小为尺寸为3x255x255的三张图片,由此得到较小尺寸、原尺寸、较大尺寸三张尺寸为3x255x255的图片x1、x2、x3;
步骤2.2、同步骤1,将x1、x2、x3各复制成3份传入3D卷积孪生神经网络得到搜索区域特征图X1、X2、X3,尺寸均为256x22x22;
步骤2.3、以当前的目标模板Z为卷积核对X1、X2、X3分别做卷积运算得到三张响应图,其尺寸均为1x17x17,其中选择响应值最大点所在的响应图为最终的响应图,选择响应值最大处坐标位置作为最终的跟踪结果,而跟踪目标的宽高变化取决于最终选择的是三种不同尺度变化的响应屠中的哪一张响应图,最终得到当前帧的跟踪结果BOX-t(x,y,w,h)与响应图Rt(1x17x17)。
5.根据权利要求4所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤3采用APCE参数判断当前跟踪结果的可靠程度,具体如下:
步骤3.1、APCE的计算公式如下:
Figure FDA0003112785410000051
其中:
Fmax表示响应图中的最大值
Fmin表示响应图中的最小值
Fw,h表示响应图中对应像素点的值
步骤3.2、使用步骤2中得到的响应图Rt(1x17x17)计算出峰值检测APCE值,与设定好的阈值λ进行对比,如果大于设定好的阈值则认为当前第t帧的视频序列跟踪效果较好,利用步骤2中的另一个结果BOX在第t帧的视频序列图像上截取出目标的图片,其尺寸为3x127x127,并加入集合V,若集合V中已有2张存放的目标图片,则将其中较老的图片替换;若响应图Rt计算出的峰值检测APCE值小于阈值,则认为此次跟踪结果的质量较低不能用来进行模板更新,但仍将此次跟踪生成的BOX作为跟踪结果返回。
6.根据权利要求5所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤4具体如下:
在跟踪任务的进行中,每当视频序列的最新一帧图片依据步骤1~3计算完毕后就判断可靠集合V是否已经存满,即长度为2,若集合存满则进行模板更新流程,即将视频序列第一帧图片在步骤1中截取出的目标图片t0和可靠集合V中的目标图片t1、t2在堆叠后形成尺寸为3*3*127*127的输入向量,传入3D孪生神经网络,得到的输出是尺寸为256*6*6的更新后模板Zt+1。
7.根据权利要求6所述的基于3D卷积孪生神经网络和模板更新的目标跟踪方法,其特征在于,所述步骤5具体如下:
假设在视频序列的第t帧完成跟踪时,满足了进行模板更新的条件,并按步骤4进行了模板更新生成新模板Zt+1,则对于视频序列的t+1帧,整体的跟踪流程仍然按照步骤1~3进行,但模板使用Zt+1,在得到第t+1帧的跟踪结果后,按照步骤4进行是否更新的判断。
CN202110656004.5A 2021-06-11 2021-06-11 基于3d卷积孪生神经网络和模板更新的目标跟踪方法 Active CN113379787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110656004.5A CN113379787B (zh) 2021-06-11 2021-06-11 基于3d卷积孪生神经网络和模板更新的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110656004.5A CN113379787B (zh) 2021-06-11 2021-06-11 基于3d卷积孪生神经网络和模板更新的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN113379787A true CN113379787A (zh) 2021-09-10
CN113379787B CN113379787B (zh) 2023-04-07

Family

ID=77574098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110656004.5A Active CN113379787B (zh) 2021-06-11 2021-06-11 基于3d卷积孪生神经网络和模板更新的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN113379787B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861379A (zh) * 2022-12-21 2023-03-28 山东工商学院 孪生网络基于局部可信模板进行目标模板更新的视频跟踪方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132472A1 (en) * 2015-11-05 2017-05-11 Qualcomm Incorporated Generic mapping for tracking target object in video sequence
CN108846358A (zh) * 2018-06-13 2018-11-20 浙江工业大学 一种基于孪生网络进行特征融合的目标跟踪方法
US20190332935A1 (en) * 2018-04-27 2019-10-31 Qualcomm Incorporated System and method for siamese instance search tracker with a recurrent neural network
CN110634153A (zh) * 2019-09-19 2019-12-31 上海眼控科技股份有限公司 目标跟踪模板更新方法、装置、计算机设备和存储介质
US20200026954A1 (en) * 2019-09-27 2020-01-23 Intel Corporation Video tracking with deep siamese networks and bayesian optimization
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN111462175A (zh) * 2020-03-11 2020-07-28 华南理工大学 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备
CN111898504A (zh) * 2020-07-20 2020-11-06 南京邮电大学 一种基于孪生循环神经网络的目标跟踪方法及系统
CN112069896A (zh) * 2020-08-04 2020-12-11 河南科技大学 一种基于孪生网络融合多模板特征的视频目标跟踪方法
CN112767440A (zh) * 2021-01-07 2021-05-07 江苏大学 一种基于siam-fc网络的目标跟踪方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132472A1 (en) * 2015-11-05 2017-05-11 Qualcomm Incorporated Generic mapping for tracking target object in video sequence
US20190332935A1 (en) * 2018-04-27 2019-10-31 Qualcomm Incorporated System and method for siamese instance search tracker with a recurrent neural network
CN108846358A (zh) * 2018-06-13 2018-11-20 浙江工业大学 一种基于孪生网络进行特征融合的目标跟踪方法
CN110634153A (zh) * 2019-09-19 2019-12-31 上海眼控科技股份有限公司 目标跟踪模板更新方法、装置、计算机设备和存储介质
US20200026954A1 (en) * 2019-09-27 2020-01-23 Intel Corporation Video tracking with deep siamese networks and bayesian optimization
CN112580416A (zh) * 2019-09-27 2021-03-30 英特尔公司 基于深暹罗网络和贝叶斯优化的视频跟踪
CN111354017A (zh) * 2020-03-04 2020-06-30 江南大学 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN111462175A (zh) * 2020-03-11 2020-07-28 华南理工大学 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备
CN111898504A (zh) * 2020-07-20 2020-11-06 南京邮电大学 一种基于孪生循环神经网络的目标跟踪方法及系统
CN112069896A (zh) * 2020-08-04 2020-12-11 河南科技大学 一种基于孪生网络融合多模板特征的视频目标跟踪方法
CN112767440A (zh) * 2021-01-07 2021-05-07 江苏大学 一种基于siam-fc网络的目标跟踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIA ZHANG 等: ""Adversarial Learning Siamese Network for Object Tracking"", 《IEEE》 *
李玺等: "深度学习的目标跟踪算法综述", 《中国图象图形学报》 *
赵春梅等: "基于卷积网络的目标跟踪应用研究", 《光电工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861379A (zh) * 2022-12-21 2023-03-28 山东工商学院 孪生网络基于局部可信模板进行目标模板更新的视频跟踪方法
CN115861379B (zh) * 2022-12-21 2023-10-20 山东工商学院 孪生网络基于局部可信模板进行模板更新的视频跟踪方法

Also Published As

Publication number Publication date
CN113379787B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN112270249B (zh) 一种融合rgb-d视觉特征的目标位姿估计方法
US11630972B2 (en) Assembly body change detection method, device and medium based on attention mechanism
CN111724439B (zh) 一种动态场景下的视觉定位方法及装置
CN107452015B (zh) 一种具有重检测机制的目标跟踪系统
CN110688905B (zh) 一种基于关键帧的三维物体检测与跟踪方法
JP7263216B2 (ja) ワッサースタイン距離を使用する物体形状回帰
CN113240691A (zh) 一种基于u型网络的医学图像分割方法
CN110427797B (zh) 一种基于几何条件限制的三维车辆检测方法
CN111998862B (zh) 一种基于bnn的稠密双目slam方法
CN109087337B (zh) 基于分层卷积特征的长时间目标跟踪方法及系统
CN110310305B (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN114677323A (zh) 一种室内动态场景下基于目标检测的语义视觉slam定位方法
CN112001859A (zh) 一种人脸图像的修复方法及系统
CN113744315B (zh) 一种基于双目视觉的半直接视觉里程计
CN112200056A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN108364305A (zh) 基于改进型dsst的车载摄像视频目标跟踪方法
CN115375581A (zh) 基于事件时空同步的动态视觉事件流降噪效果评价方法
CN114419102B (zh) 一种基于帧差时序运动信息的多目标跟踪检测方法
CN112907557A (zh) 道路检测方法、装置、计算设备及存储介质
CN115527050A (zh) 图像特征匹配方法、计算机设备和可读存储介质
CN111626241A (zh) 一种人脸检测方法及装置
CN113379787B (zh) 基于3d卷积孪生神经网络和模板更新的目标跟踪方法
CN111260687A (zh) 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法
CN113628246A (zh) 一种基于3d卷积模板更新的孪生网络目标跟踪方法
CN116958927A (zh) 一种基于bev图识别矮小柱状体的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant