CN109255351B - 基于三维卷积神经网络的边界框回归方法、系统、设备及介质 - Google Patents

基于三维卷积神经网络的边界框回归方法、系统、设备及介质 Download PDF

Info

Publication number
CN109255351B
CN109255351B CN201811031633.3A CN201811031633A CN109255351B CN 109255351 B CN109255351 B CN 109255351B CN 201811031633 A CN201811031633 A CN 201811031633A CN 109255351 B CN109255351 B CN 109255351B
Authority
CN
China
Prior art keywords
frame
target
tracking
regressor
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811031633.3A
Other languages
English (en)
Other versions
CN109255351A (zh
Inventor
黄双萍
伍思航
李豪杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201811031633.3A priority Critical patent/CN109255351B/zh
Publication of CN109255351A publication Critical patent/CN109255351A/zh
Application granted granted Critical
Publication of CN109255351B publication Critical patent/CN109255351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于三维卷积神经网络的边界框回归方法、系统、设备及介质,所述方法包括:构建回归器,对跟踪算法预测出的目标边界框进行回归;根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。本发明首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域,使预测的边界框经过回归后更接近真实值,提高了跟踪效果的精确性。

Description

基于三维卷积神经网络的边界框回归方法、系统、设备及介质
技术领域
本发明涉及一种边界框回归方法,尤其是一种基于三维卷积神经网络的边界框回归方法、系统、计算机设备及存储介质,属于计算机视觉的目标跟踪领域。
背景技术
视觉目标(单目标)跟踪任务是计算机视觉领域一直以来研究的热点,尤其是近年来科技生产力的高速发展,视频监控、无人机飞行、自动驾驶等等领域有着广泛应用。
视觉目标跟踪任务描述的是在给定的视频序列场景下,只提供跟踪目标在第一帧中的位置,然后通过算法预测该目标接下来的位置和大小。边界框回归通常在判别式模型中应用,可以使得原算法预测的边界框更加精确。当前目标跟踪任务中使用到的边界框回归方法大多基于二维卷积神经网络,例如来自韩国的POSTECH这个团队的MDNet算法、美国天普大学的SANet算法等等,其算法主要思想是在上一帧图像跟踪目标的邻域采样多个候选区域,利用二维卷积神经网络提取图像的空间信息,然后计算候选区域属于目标和背景的二分类得分,并取目标得分最高的候选区域,最后对其边界框进行回归,得到更准确的位置和大小。而基于三维卷积神经网络的边界框回归方法目前还没有。
发明内容
本发明的第一个目的是为了解决上述现有技术的缺陷,提供了一种基于三维卷积神经网络的边界框回归方法,该方法首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域,使预测的边界框经过回归后更接近真实值,提高了跟踪效果的精确性。
本发明的第二个目的在于提供一种基于三维卷积神经网络的边界框回归系统。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
基于三维卷积神经网络的边界框回归方法,所述方法包括:
构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;
根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;
在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;
在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优训练。
进一步的,所述对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框,具体包括:
使用回归器将跟踪算法预测出的目标边界框沿着中心点平移,再对该目标边界框的宽高进行缩放,得到更接近真实边界框的目标边界框。
进一步的,所述根据给定跟踪序列的第一帧信息,生成样本对并训练回归器,具体包括:
在给定跟踪序列的第一帧真实边界框的邻域,均匀采样出多个大小、位置不同的边界框作为跟踪算法预测的目标边界框;
通过基于三维卷积神经网络的跟踪算法计算目标边界框所包含图像的特征向量,再计算特征向量对应的理论真实值;
将目标边界框所包含图像的特征向量和理论真实值构成一个样本对;
将生成的多个样本对作为训练样本训练回归器。
进一步的,所述在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归,具体包括:
将N个同样的第一帧目标图像作为三维卷积神经网络的输入;
在后续每一帧的目标跟踪过程中,根据跟踪算法预测出的多个目标候选区域,取符合预设条件的M个目标候选区域;
分别通过回归器对M个目标候选区域的边界框进行回归,得到M个回归边界框;
对M个回归边界框取平均,得到一个边界框,作为当前帧目标的边界框。
进一步的,所述多个目标候选区域为多个带有置信度得分的目标候选区域;
所述预设条件包括:所述置信度得分大于或等于置信度阈值。
进一步的,所述在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归,还包括:
确定后续每一帧中三维卷积神经网络的时序维度输入量;其中,所述时序维度输入量设定为N,即要求输入当前帧以及前N-1帧;
在跟踪前N-1帧的过程中,累计跟踪的帧数小于N,采用时序对齐策略使总帧数满足时序维度输入量N。
进一步的,所述采用时序对齐策略使总帧数满足时序维度输入量N,具体包括:
假设当前帧为第S帧,其中S<N,累计跟踪已测的帧数共S帧,在已测帧前填充N-S份第一帧,使总帧数满足时序维度输入量N。
本发明的第二个目的可以通过采取如下技术方案达到:
基于三维卷积神经网络的边界框回归系统,所述系统包括:
构建模块,用于构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;
训练模块,用于根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;
回归模块,用于在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;
调优训练模块,用于在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。
本发明的第三个目的可以通过采取如下技术方案达到:
计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的边界框回归方法。
本发明的第四个目的可以通过采取如下技术方案达到:
存储介质,存储有程序,所述程序被处理器执行时,实现上述的边界框回归方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域,在边界框回归中引入了提取跟踪目标在视频帧间的运动变化信息,充分利用了视频的时序性,使得原始算法预测出的边界框经过回归后能够更加准确地定位目标,提高目标位置和大小与真实值的重叠率,使得跟踪效果更加精确,因此其具有独创性。
2、本发明可以融合二维卷积神经网络提取出的图像空间信息特征,使得回归器的输入特征向量信息量更丰富,包含目标的空间信息和时序信息,可以进一步提高边界框回归的效果,提高目标位置和大小与真实值的重叠率,使得跟踪效果更加精确。
3、本发明在首帧训练中,可以选取大量符合要求的多种尺度和多种大小的候选区域特征量来训练网络,使得回归器具有良好的泛化能力,鲁棒性强等特点,同时,在跟踪到第N帧时,可以充分利用三维卷积网络的时序性,重新训练回归器,并且训练方法适用于各种序列的跟踪目标,具有普适性和通用性,有着广泛的应用场景。
附图说明
图1为本发明实施例1的基于三维卷积神经网络的边界框回归方法的流程图。
图2为本发明实施例1的基于三维卷积神经网络的边界框回归方法应用在一个跟踪序列的整体流程图。
图3是本发明实施例1的利用首帧训练回归器的结构图。
图4是本发明实施例1的正向回归预测的结构图。
图5是本发明实施例1的回归器适应性调优训练的结构图。
图6a~图6d为本发明实施例1的基于三维卷积神经网络的边界框回归方法在Object Tracking Benchmark(OTB 100)数据集“MountainBike”序列的部分跟踪测试结果图。
图7a~图7d为本发明实施例1的基于三维卷积神经网络的边界框回归方法在Object Tracking Benchmark(OTB 100)数据集“Girl2”序列的部分跟踪测试结果图。
图8为本发明实施例2的基于三维卷积神经网络的边界框回归系统的结构框图。
图9为本发明实施例2的训练模块的结构框图。
图10为本发明实施例2的回归模块的结构框图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1:
三维卷积神经网络相比于二维卷积神经网络,增加了一个时间维度的卷积,对物体运动的时序特征拥有卓越的表达能力,常用于视频检索、分类等领域。区别于传统的二维图像检测分类等任务,视觉目标追踪任务不单需要提取目标本身的特征,还需要提取目标在视频帧间的运动变化信息,即时序特征。
本实施例提供了一种基于三维卷积神经网络的边界框回归方法,该方法在边界框回归中引入了提取跟踪目标在视频帧间的运动变化信息,充分利用了视频的时序性,使得原始算法预测出的边界框经过回归后更加准确定位目标,提高目标位置和大小与真实值的重叠率,使得跟踪效果更加精确。
如图1和图2所示,本实施例的基于三维卷积神经网络的边界框回归方法,包括以下步骤:
S1、构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框。
本实施例的跟踪算法是基于三维卷积神经网络的目标跟踪算法,真实边界框为标注的真实边界框,具体地,用四维向量(x,y,w,h)表示一个边界框,其中x,y是中心点横纵坐标,w,h是边界框的宽和高;对于跟踪算法预测出的目标边界框用(Px,Py,Pw,Ph)表示,简记为P,经过回归器回归分析得到的目标边界框用
Figure BDA0001789889240000061
表示,简记为
Figure BDA0001789889240000062
真实边界框用(Gx,Gy,Gw,Gh)表示,简记为G。这里回归可以解释为,将目标边界框P沿着中心点平移,再对目标边界框P的宽高进行缩放,可以得到回归后的目标边界框
Figure BDA0001789889240000063
该目标边界框
Figure BDA0001789889240000064
更接近真实边界框G。对中心点横坐标Px的平移量Δx、纵坐标Py的平移量Δy,宽w的缩放量Δw,高h的缩放量Δh,定义如下数学关系:
Δx=Pw·dx(P) (1)
Δy=Ph·dy(P) (2)
Figure BDA0001789889240000065
Figure BDA0001789889240000066
即回归后的边界框
Figure BDA0001789889240000067
与原始边界框P的数学关系如下:
Figure BDA0001789889240000068
Figure BDA0001789889240000069
Figure BDA00017898892400000610
Figure BDA00017898892400000611
式(1)~(8)中,d*(P)(其中*表示x,y,w,h中的一个)是变换函数,其表达式定义为:
Figure BDA00017898892400000612
其中,
Figure BDA00017898892400000613
表示图像的特征向量,具体地,
Figure BDA00017898892400000614
就是表示原始边界框P覆盖的图像区域的特征向量,k*是变换系数。显然设法得到变换函数d*(P)则可以计算出(1)~(4)中Δx、Δy、Δw、Δh。
当用目标真实边界框G*替换上述公式(5)~(8)中的
Figure BDA0001789889240000073
即得变换函数d*(P)对应的理论真实值t*
tx=(Gx-Px)/Pw (10)
ty=(Gy-Py)/Ph (11)
tw=log(Gw/Pw) (12)
th=log(Gh/Ph) (13)
于是该回归模型转为优化d*(P),使得d*(P)与t*之间的差尽量小,为此,定义损失函数:
Figure BDA0001789889240000071
其中,U为在跟踪序列首帧(第一帧)生成样本对的数量,i是求和变量,取值从1到U。
采用正则化最小二乘法(即岭回归法),得到最优变换系数
Figure BDA0001789889240000074
其优化目标函数为:
Figure BDA0001789889240000072
其中,λ是正则项系数,此处一般取λ=1000。
S2、根据给定跟踪序列的第一帧信息,生成样本对并训练回归器。
如图1~图3所示,该步骤S2为利用首帧训练回归器,具体包括:
S201、确定首帧训练中三维卷积神经网络的输入:由于目标跟踪算法是基于三维卷积神经网络,在首帧训练时,其输入是五维向量(batch,temporal,channel,width,height),batch表示网络每次处理图像的批量,temporal表示时序维度,即图像在时序上的数量,设定为N,即要求输入当前帧及其前N-1帧,channel表示图像通道数,width表示图像的宽,height表示图像的高。在首帧训练时,算法预测的边界框只有第一帧,还没有后续帧预测的边界框,所以temporal时序维度输入的帧为N个同样的第一帧目标图像,具体地,N=16。
S202、在给定跟踪序列的第一帧真实边界框G的邻域,均匀采样出1000个大小、位置不同的边界框作为跟踪算法预测的目标边界框P;其中,跟踪序列为视频序列。
S203、通过基于三维卷积神经网络的跟踪算法计算目标边界框所包含图像的特征向量
Figure BDA0001789889240000081
再计算特征向量
Figure BDA0001789889240000082
对应的理论真实值t*
S204、将目标边界框所包含图像的特征向量
Figure BDA0001789889240000083
和理论真实值t*构成一个样本对,即样本对为
Figure BDA0001789889240000084
Figure BDA0001789889240000085
采用式(9)计算,t*采用式(10)~式(13)计算。
S205、将生成的多个样本对作为训练样本训练回归器,使用式(15)计算最优化的变换系数k*
S3、在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归。
如图1、图2和图4所示,该步骤S2为正向回归预测,具体包括:
S301、确定后续帧中三维卷积神经网络的时序维度输入量:三维卷积神经网络的输入是五维向量(batch,temporal,channel,width,height),其中temporal表示时序维度输入量,即图像在时序上的数量,设定为N(N=16),即要求输入当前帧以及前N-1帧(即前15帧),所以在跟踪前N-1帧的过程中,累计跟踪的帧数小于N,不满足输入帧数为N的要求,于是提出时序对齐策略解决该问题,而在跟踪过程中从第N帧开始到结束,则不需要采取时序对齐策略。
进一步地,三维卷积神经网络的时序维度输入时序对齐策略:在跟踪前N-1帧(即前15帧)的过程中,假设当前帧为第S帧,其中S<N,也就是说S的值可以为1~N-1,累计跟踪已测的帧数共S帧,在已测帧前填充N-S份第一帧,使总帧数满足时序维度输入量N,即填充帧、已测帧、当前帧三者之和为N,具体填充方案如下:
f表示帧,下标是帧序号:
Figure BDA0001789889240000086
以跟踪到第3帧为例,下标是帧序号:
Figure BDA0001789889240000087
而在跟踪过程中从第N帧开始到结束,则不需要采取时序对齐策略。
S302、在后续每一帧的目标跟踪过程中,根据跟踪算法预测出的多个目标候选区域,取符合预设条件的M个目标候选区域。
具体地,多个目标候选区域为多个带有置信度得分的目标候选区域,预设条件包括:所述置信度得分大于或等于置信度阈值,置信度得分大于或等于置信度阈值可认为置信度得分较高,而本实施例置信度得分较高的目标候选区域有M个。
S303、分别通过回归器对M个目标候选区域的边界框进行回归,得到M个回归边界框。
S304、对M个回归边界框取平均,得到一个边界框,作为当前帧目标的边界框。
S4、在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。
如图1、图2和图5所示,该步骤S4为回归器适应性调优重训练,由于跟踪过程中没有给出标注的真实边界框,首帧后续的所有帧跟踪结果皆为预测值,所以整个跟踪过程中只进行一次适应性调优重训练,并且是首次跟踪到第N帧时进行适应性调优重训练;具体地,当跟踪序列的帧数首次到达三维卷积神经网络时序维度temporal的输入数量N时,不再采取时序对齐策略,而是将该跟踪序列前N帧作为三维卷积神经网络的输入,从而得到更准确的特征向量,再根据第一帧的信息,按照步骤S202~S203的方式生成样本对,并调优重训练回归器。
调优训练回归器后,可以返回步骤S3,在第N帧后续每一帧中使用调优训练的回归器对跟踪算法预测的目标边界框进行回归。
图6a~图6d为基于三维卷积神经网络的边界框回归方法在Object TrackingBenchmark(OTB 100)数据集“MountainBike”序列的部分跟踪测试结果图,该测试是以山地车和山地车上的运动员为目标进行跟踪,图7a~图7d为基于三维卷积神经网络的边界框回归方法在Object Tracking Benchmark(OTB 100)数据集“Girl2”序列的部分跟踪测试结果图,该测试是以某个小女孩为目标进行跟踪,其中黑色框为回归前的测试结果,白色框为回归后的预测结果,左上角显示的数字是帧序号,可以看到经过回归后能够更加准确地定位目标,提高目标位置和大小与真实值的重叠率,使得跟踪效果更加精确。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
实施例2:
如图8所示,本实施例提供了一种基于三维卷积神经网络的边界框回归系统,该系统包括构建模块801、训练模块802、回归模块803和调优训练模块804,各个模块的具体功能如下:
所述构建模块801,用于构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;其中,所述对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框,具体包括:使用回归器将跟踪算法预测出的目标边界框沿着中心点平移,再对该目标边界框的宽高进行缩放,得到更接近真实边界框的目标边界框。
所述训练模块802,用于根据给定跟踪序列的第一帧信息,生成样本对并训练回归器,该训练模块802如图9所示,具体包括:
输入单元8021,用于将N个同样的第一帧目标图像作为三维卷积神经网络的输入;
采样单元8022,用于在给定跟踪序列的第一帧真实边界框的邻域,均匀采样出多个大小、位置不同的边界框作为跟踪算法预测的目标边界框。
计算单元8023,用于通过基于三维卷积神经网络的跟踪算法计算目标边界框所包含图像的特征向量,再计算真实边界框对应的理论真实值。
生成单元8024,用于将目标边界框所包含图像的特征向量和理论真实值构成一个样本对;
训练单元8025,用于将生成的多个样本对作为训练样本训练回归器。
所述回归模块803,用于在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归,该回归模块803如图10所示,具体包括:
确定单元8031,用于确定后续每一帧中三维卷积神经网络的时序维度输入量;其中,所述时序维度输入量记为N,即要求输入当前帧以及前N-1帧。
对齐单元8032,用于在跟踪前N-1帧的过程中,累计跟踪的帧数小于N,采用时序对齐策略使总帧数满足时序维度输入量N,具体包括:假设当前帧为第S帧,其中S<N,累计跟踪已测的帧数共S帧,在已测帧前填充第一帧共N-S份,使总帧数满足时序维度输入量N。
获取单元8033,用于在后续每一帧的目标跟踪过程中,根据跟踪算法预测出的多个目标候选区域,取符合预设条件的M个目标候选区域;
回归单元8034,用于分别通过回归器对M个目标候选区域的边界框进行回归,得到M个回归边界框;
平均单元8035,用于对M个回归边界框取平均,得到一个边界框,作为当前帧目标的边界框。
所述调优训练模块804,用于在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。
在此需要说明的是,上述实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种计算机设备,该计算机设备可以是台式计算机,其包括通过系统总线连接的处理器、存储器、显示器和网络接口,该计算机设备的处理器用于提供计算和控制能力,该计算机设备的存储器包括非易失性存储介质和内存储器,该非易失性存储介质存储有操作系统、计算机程序和数据库,该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器执行存储器存储的计算机程序时,实现上述实施例1的边界框回归方法,如下:
构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;
根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;
在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;
在设定三维卷积神经网络时序维度为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优训练。
本实施例中所述的计算机设备还可以是笔记本计算机、服务器或其他具有计算功能的终端设备。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述程序被处理器执行时,处理器执行存储器存储的计算机程序时,实现上述实施例1的边界框回归方法,如下:
构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;
根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;
在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;
在设定三维卷积神经网络时序维度为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优训练。
本实施例中所述的存储介质可以是ROM、RAM、磁盘、光盘等介质。
综上所述,本发明首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域,使预测的边界框经过回归后更接近真实值,提高了跟踪效果的精确性。
以上所述,仅为本发明专利优选的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (10)

1.基于三维卷积神经网络的边界框回归方法,其特征在于:所述方法包括:
构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;
根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;
在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;其中,后续每一帧是指第2帧至第N-1帧;
在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。
2.根据权利要求1所述的边界框回归方法,其特征在于:所述对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框,具体包括:
使用回归器将跟踪算法预测出的目标边界框沿着中心点平移,再对该目标边界框的宽高进行缩放,得到更接近真实边界框的目标边界框。
3.根据权利要求1所述的边界框回归方法,其特征在于:所述根据给定跟踪序列的第一帧信息,生成样本对并训练回归器,具体包括:
将N个同样的第一帧目标图像作为三维卷积神经网络的输入;
在给定跟踪序列的第一帧真实边界框的邻域,均匀采样出多个大小、位置不同的边界框作为跟踪算法预测的目标边界框;
通过基于三维卷积神经网络的跟踪算法计算目标边界框所包含图像的特征向量,再计算特征向量对应的理论真实值;
将目标边界框所包含图像的特征向量和理论真实值构成一个样本对;
将生成的多个样本对作为训练样本训练回归器。
4.根据权利要求1所述的边界框回归方法,其特征在于:所述在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归,具体包括:
在后续每一帧的目标跟踪过程中,根据跟踪算法预测出的多个目标候选区域,取符合预设条件的M个目标候选区域;
分别通过回归器对M个目标候选区域的边界框进行回归,得到M个回归边界框;
对M个回归边界框取平均,得到一个边界框,作为当前帧目标的边界框。
5.根据权利要求4所述的边界框回归方法,其特征在于:所述多个目标候选区域为多个带有置信度得分的目标候选区域;
所述预设条件包括:所述置信度得分大于或等于置信度阈值。
6.根据权利要求4所述的边界框回归方法,其特征在于:所述在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归,还包括:
确定后续每一帧中三维卷积神经网络的时序维度输入量;其中,所述时序维度输入量设定为N,即要求输入当前帧以及前N-1帧;
在跟踪前N-1帧的过程中,累计跟踪的帧数小于N,采用时序对齐策略使总帧数满足时序维度输入量N。
7.根据权利要求6所述的边界框回归方法,其特征在于:所述采用时序对齐策略使总帧数满足时序维度输入量N,具体包括:
假设当前帧为第S帧,其中S<N,累计跟踪已测的帧数共S帧,在已测帧前填充N-S份第一帧,使总帧数满足时序维度输入量N。
8.基于三维卷积神经网络的边界框回归系统,其特征在于:所述系统包括:
构建模块,用于构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;
训练模块,用于根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;
回归模块,用于在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;其中,后续每一帧是指第2帧至第N-1帧;
调优训练模块,用于在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优训练。
9.计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于:所述处理器执行存储器存储的程序时,实现权利要求1-7任一项所述的边界框回归方法。
10.存储介质,存储有程序,其特征在于:所述程序被处理器执行时,实现权利要求1-7任一项所述的边界框回归方法。
CN201811031633.3A 2018-09-05 2018-09-05 基于三维卷积神经网络的边界框回归方法、系统、设备及介质 Active CN109255351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811031633.3A CN109255351B (zh) 2018-09-05 2018-09-05 基于三维卷积神经网络的边界框回归方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811031633.3A CN109255351B (zh) 2018-09-05 2018-09-05 基于三维卷积神经网络的边界框回归方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN109255351A CN109255351A (zh) 2019-01-22
CN109255351B true CN109255351B (zh) 2020-08-18

Family

ID=65046865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811031633.3A Active CN109255351B (zh) 2018-09-05 2018-09-05 基于三维卷积神经网络的边界框回归方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN109255351B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402978B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same
CN110298238B (zh) * 2019-05-20 2023-06-30 平安科技(深圳)有限公司 行人视觉跟踪方法、模型训练方法、装置、设备及存储介质
CN110298248A (zh) * 2019-05-27 2019-10-01 重庆高开清芯科技产业发展有限公司 一种基于语义分割的多目标跟踪方法及系统
CN110458864A (zh) * 2019-07-02 2019-11-15 南京邮电大学 基于整合语义知识和实例特征的目标跟踪方法与目标跟踪器
CN111402130B (zh) * 2020-02-21 2023-07-18 华为技术有限公司 数据处理方法和数据处理装置
CN111428567B (zh) * 2020-02-26 2024-02-02 沈阳大学 一种基于仿射多任务回归的行人跟踪系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705324A (zh) * 2017-10-20 2018-02-16 中山大学 一种基于机器学习的视频目标检测方法
CN108062531A (zh) * 2017-12-25 2018-05-22 南京信息工程大学 一种基于级联回归卷积神经网络的视频目标检测方法
CN108090443A (zh) * 2017-12-15 2018-05-29 华南理工大学 基于深度强化学习的场景文本检测方法及系统
CN108304808A (zh) * 2018-02-06 2018-07-20 广东顺德西安交通大学研究院 一种基于时空信息与深度网络的监控视频对象检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705324A (zh) * 2017-10-20 2018-02-16 中山大学 一种基于机器学习的视频目标检测方法
CN108090443A (zh) * 2017-12-15 2018-05-29 华南理工大学 基于深度强化学习的场景文本检测方法及系统
CN108062531A (zh) * 2017-12-25 2018-05-22 南京信息工程大学 一种基于级联回归卷积神经网络的视频目标检测方法
CN108304808A (zh) * 2018-02-06 2018-07-20 广东顺德西安交通大学研究院 一种基于时空信息与深度网络的监控视频对象检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Convolutional neural networks: an overview and application in radiology;Rikiya Yamashita 等;《Insights into Imaging》;20180622;第9卷;611–629 *
基于3D卷积神经网络的视频检索技术研究;吕要要;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170615(第06期);I140-66 *
基于双流卷积神经网络的改进人体行为识别算法;张怡佳 等;《计算机测量与控制》;20180825;第26卷(第8期);266-269,274 *
基于多域卷积神经网络与自回归模型的空中小目标自适应跟踪方法;蔺素珍 等;《光学学报》;20170915;第37卷(第12期);1215006-1-1215006-8 *

Also Published As

Publication number Publication date
CN109255351A (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN109255351B (zh) 基于三维卷积神经网络的边界框回归方法、系统、设备及介质
CN113012203B (zh) 一种复杂背景下高精度多目标跟踪方法
CN108960090B (zh) 视频图像处理方法及装置、计算机可读介质和电子设备
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
CN110796686B (zh) 目标跟踪方法及设备、存储装置
CN109543641B (zh) 一种实时视频的多目标去重方法、终端设备及存储介质
CN107452015B (zh) 一种具有重检测机制的目标跟踪系统
KR20180084085A (ko) 얼굴 위치 추적 방법, 장치 및 전자 디바이스
CN110246160B (zh) 视频目标的检测方法、装置、设备及介质
CN111160375A (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
US11900676B2 (en) Method and apparatus for detecting target in video, computing device, and storage medium
CN109446978B (zh) 基于凝视卫星复杂场景的飞机动目标跟踪方法
CN111914878A (zh) 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质
Jiang et al. A self-attention network for smoke detection
CN112101114B (zh) 一种视频目标检测方法、装置、设备以及存储介质
CN110610123A (zh) 一种多目标车辆检测方法、装置、电子设备及存储介质
CN112634316A (zh) 目标跟踪方法、装置、设备和存储介质
Yang et al. A feature temporal attention based interleaved network for fast video object detection
Feng et al. Local complexity difference matting based on weight map and alpha mattes
CN110633630B (zh) 一种行为识别方法、装置及终端设备
CN111611836A (zh) 基于背景消除法的船只检测模型训练及船只跟踪方法
Shen et al. A real-time siamese tracker deployed on UAVs
CN111553474A (zh) 船只检测模型训练方法及基于无人机视频的船只跟踪方法
Li et al. Spatio-context-based target tracking with adaptive multi-feature fusion for real-world hazy scenes
Huang et al. Methods on Visual Positioning Based on Basketball Shooting Direction Standardisation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant