CN109255351B

CN109255351B - 基于三维卷积神经网络的边界框回归方法、系统、设备及介质

Info

Publication number: CN109255351B
Application number: CN201811031633.3A
Authority: CN
Inventors: 黄双萍; 伍思航; 李豪杰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2020-08-18
Anticipated expiration: 2038-09-05
Also published as: CN109255351A

Abstract

本发明公开了一种基于三维卷积神经网络的边界框回归方法、系统、设备及介质，所述方法包括：构建回归器，对跟踪算法预测出的目标边界框进行回归；根据给定跟踪序列的第一帧信息，生成样本对并训练回归器；在后续每一帧的目标跟踪过程中，使用回归器对跟踪算法预测的目标边界框进行回归；在设定三维卷积神经网络的时序维度输入量为N的情况下，当跟踪到第N帧时，将前N帧的跟踪目标图像作为三维卷积神经网络的输入，再根据第一帧的信息，生成样本对，对回归器进行适应性调优重训练。本发明首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域，使预测的边界框经过回归后更接近真实值，提高了跟踪效果的精确性。

Description

基于三维卷积神经网络的边界框回归方法、系统、设备及介质

技术领域

本发明涉及一种边界框回归方法，尤其是一种基于三维卷积神经网络的边界框回归方法、系统、计算机设备及存储介质，属于计算机视觉的目标跟踪领域。

背景技术

视觉目标(单目标)跟踪任务是计算机视觉领域一直以来研究的热点，尤其是近年来科技生产力的高速发展，视频监控、无人机飞行、自动驾驶等等领域有着广泛应用。

视觉目标跟踪任务描述的是在给定的视频序列场景下，只提供跟踪目标在第一帧中的位置，然后通过算法预测该目标接下来的位置和大小。边界框回归通常在判别式模型中应用，可以使得原算法预测的边界框更加精确。当前目标跟踪任务中使用到的边界框回归方法大多基于二维卷积神经网络，例如来自韩国的POSTECH这个团队的MDNet算法、美国天普大学的SANet算法等等，其算法主要思想是在上一帧图像跟踪目标的邻域采样多个候选区域，利用二维卷积神经网络提取图像的空间信息，然后计算候选区域属于目标和背景的二分类得分，并取目标得分最高的候选区域，最后对其边界框进行回归，得到更准确的位置和大小。而基于三维卷积神经网络的边界框回归方法目前还没有。

发明内容

本发明的第一个目的是为了解决上述现有技术的缺陷，提供了一种基于三维卷积神经网络的边界框回归方法，该方法首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域，使预测的边界框经过回归后更接近真实值，提高了跟踪效果的精确性。

本发明的第二个目的在于提供一种基于三维卷积神经网络的边界框回归系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

基于三维卷积神经网络的边界框回归方法，所述方法包括：

构建回归器，对跟踪算法预测出的目标边界框进行回归，得到更接近真实边界框的目标边界框；

根据给定跟踪序列的第一帧信息，生成样本对并训练回归器；

在后续每一帧的目标跟踪过程中，使用回归器对跟踪算法预测的目标边界框进行回归；

在设定三维卷积神经网络的时序维度输入量为N的情况下，当跟踪到第N帧时，将前N帧的跟踪目标图像作为三维卷积神经网络的输入，再根据第一帧的信息，生成样本对，对回归器进行适应性调优训练。

进一步的，所述对跟踪算法预测出的目标边界框进行回归，得到更接近真实边界框的目标边界框，具体包括：

使用回归器将跟踪算法预测出的目标边界框沿着中心点平移，再对该目标边界框的宽高进行缩放，得到更接近真实边界框的目标边界框。

进一步的，所述根据给定跟踪序列的第一帧信息，生成样本对并训练回归器，具体包括：

在给定跟踪序列的第一帧真实边界框的邻域，均匀采样出多个大小、位置不同的边界框作为跟踪算法预测的目标边界框；

通过基于三维卷积神经网络的跟踪算法计算目标边界框所包含图像的特征向量，再计算特征向量对应的理论真实值；

将目标边界框所包含图像的特征向量和理论真实值构成一个样本对；

将生成的多个样本对作为训练样本训练回归器。

进一步的，所述在后续每一帧的目标跟踪过程中，使用回归器对跟踪算法预测的目标边界框进行回归，具体包括：

将N个同样的第一帧目标图像作为三维卷积神经网络的输入；

在后续每一帧的目标跟踪过程中，根据跟踪算法预测出的多个目标候选区域，取符合预设条件的M个目标候选区域；

分别通过回归器对M个目标候选区域的边界框进行回归，得到M个回归边界框；

对M个回归边界框取平均，得到一个边界框，作为当前帧目标的边界框。

进一步的，所述多个目标候选区域为多个带有置信度得分的目标候选区域；

所述预设条件包括：所述置信度得分大于或等于置信度阈值。

进一步的，所述在后续每一帧的目标跟踪过程中，使用回归器对跟踪算法预测的目标边界框进行回归，还包括：

确定后续每一帧中三维卷积神经网络的时序维度输入量；其中，所述时序维度输入量设定为N，即要求输入当前帧以及前N-1帧；

在跟踪前N-1帧的过程中，累计跟踪的帧数小于N，采用时序对齐策略使总帧数满足时序维度输入量N。

进一步的，所述采用时序对齐策略使总帧数满足时序维度输入量N，具体包括：

假设当前帧为第S帧，其中S＜N，累计跟踪已测的帧数共S帧，在已测帧前填充N-S份第一帧，使总帧数满足时序维度输入量N。

本发明的第二个目的可以通过采取如下技术方案达到：

基于三维卷积神经网络的边界框回归系统，所述系统包括：

构建模块，用于构建回归器，对跟踪算法预测出的目标边界框进行回归，得到更接近真实边界框的目标边界框；

训练模块，用于根据给定跟踪序列的第一帧信息，生成样本对并训练回归器；

回归模块，用于在后续每一帧的目标跟踪过程中，使用回归器对跟踪算法预测的目标边界框进行回归；

调优训练模块，用于在设定三维卷积神经网络的时序维度输入量为N的情况下，当跟踪到第N帧时，将前N帧的跟踪目标图像作为三维卷积神经网络的输入，再根据第一帧的信息，生成样本对，对回归器进行适应性调优重训练。

本发明的第三个目的可以通过采取如下技术方案达到：

计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的边界框回归方法。

本发明的第四个目的可以通过采取如下技术方案达到：

存储介质，存储有程序，所述程序被处理器执行时，实现上述的边界框回归方法。

本发明相对于现有技术具有如下的有益效果：

1、本发明首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域，在边界框回归中引入了提取跟踪目标在视频帧间的运动变化信息，充分利用了视频的时序性，使得原始算法预测出的边界框经过回归后能够更加准确地定位目标，提高目标位置和大小与真实值的重叠率，使得跟踪效果更加精确，因此其具有独创性。

2、本发明可以融合二维卷积神经网络提取出的图像空间信息特征，使得回归器的输入特征向量信息量更丰富，包含目标的空间信息和时序信息，可以进一步提高边界框回归的效果，提高目标位置和大小与真实值的重叠率，使得跟踪效果更加精确。

3、本发明在首帧训练中，可以选取大量符合要求的多种尺度和多种大小的候选区域特征量来训练网络，使得回归器具有良好的泛化能力，鲁棒性强等特点，同时，在跟踪到第N帧时，可以充分利用三维卷积网络的时序性，重新训练回归器，并且训练方法适用于各种序列的跟踪目标，具有普适性和通用性，有着广泛的应用场景。

附图说明

图1为本发明实施例1的基于三维卷积神经网络的边界框回归方法的流程图。

图2为本发明实施例1的基于三维卷积神经网络的边界框回归方法应用在一个跟踪序列的整体流程图。

图3是本发明实施例1的利用首帧训练回归器的结构图。

图4是本发明实施例1的正向回归预测的结构图。

图5是本发明实施例1的回归器适应性调优训练的结构图。

图6a～图6d为本发明实施例1的基于三维卷积神经网络的边界框回归方法在Object Tracking Benchmark(OTB 100)数据集“MountainBike”序列的部分跟踪测试结果图。

图7a～图7d为本发明实施例1的基于三维卷积神经网络的边界框回归方法在Object Tracking Benchmark(OTB 100)数据集“Girl2”序列的部分跟踪测试结果图。

图8为本发明实施例2的基于三维卷积神经网络的边界框回归系统的结构框图。

图9为本发明实施例2的训练模块的结构框图。

图10为本发明实施例2的回归模块的结构框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1：

三维卷积神经网络相比于二维卷积神经网络，增加了一个时间维度的卷积，对物体运动的时序特征拥有卓越的表达能力，常用于视频检索、分类等领域。区别于传统的二维图像检测分类等任务，视觉目标追踪任务不单需要提取目标本身的特征，还需要提取目标在视频帧间的运动变化信息，即时序特征。

本实施例提供了一种基于三维卷积神经网络的边界框回归方法，该方法在边界框回归中引入了提取跟踪目标在视频帧间的运动变化信息，充分利用了视频的时序性，使得原始算法预测出的边界框经过回归后更加准确定位目标，提高目标位置和大小与真实值的重叠率，使得跟踪效果更加精确。

如图1和图2所示，本实施例的基于三维卷积神经网络的边界框回归方法，包括以下步骤：

S1、构建回归器，对跟踪算法预测出的目标边界框进行回归，得到更接近真实边界框的目标边界框。

本实施例的跟踪算法是基于三维卷积神经网络的目标跟踪算法，真实边界框为标注的真实边界框，具体地，用四维向量(x，y，w，h)表示一个边界框，其中x，y是中心点横纵坐标，w，h是边界框的宽和高；对于跟踪算法预测出的目标边界框用(P_x，P_y，P_w，P_h)表示，简记为P，经过回归器回归分析得到的目标边界框用

表示，简记为

真实边界框用(G_x，G_y，G_w，G_h)表示，简记为G。这里回归可以解释为，将目标边界框P沿着中心点平移，再对目标边界框P的宽高进行缩放，可以得到回归后的目标边界框

该目标边界框

更接近真实边界框G。对中心点横坐标P_x的平移量Δx、纵坐标P_y的平移量Δy，宽w的缩放量Δw，高h的缩放量Δh，定义如下数学关系：

Δx＝P_w·d_x(P) (1)

Δy＝P_h·d_y(P) (2)

即回归后的边界框

与原始边界框P的数学关系如下：

式(1)～(8)中，d_*(P)(其中*表示x，y，w，h中的一个)是变换函数，其表达式定义为：

其中，

表示图像的特征向量，具体地，

就是表示原始边界框P覆盖的图像区域的特征向量，k_*是变换系数。显然设法得到变换函数d_*(P)则可以计算出(1)～(4)中Δx、Δy、Δw、Δh。

当用目标真实边界框G_*替换上述公式(5)～(8)中的

即得变换函数d_*(P)对应的理论真实值t_*：

t_x＝(G_x-P_x)/P_w (10)

t_y＝(G_y-P_y)/P_h (11)

t_w＝log(G_w/P_w) (12)

t_h＝log(G_h/P_h) (13)

于是该回归模型转为优化d_*(P)，使得d_*(P)与t_*之间的差尽量小，为此，定义损失函数：

其中，U为在跟踪序列首帧(第一帧)生成样本对的数量，i是求和变量，取值从1到U。

采用正则化最小二乘法(即岭回归法)，得到最优变换系数

其优化目标函数为：

其中，λ是正则项系数，此处一般取λ＝1000。

S2、根据给定跟踪序列的第一帧信息，生成样本对并训练回归器。

如图1～图3所示，该步骤S2为利用首帧训练回归器，具体包括：

S201、确定首帧训练中三维卷积神经网络的输入：由于目标跟踪算法是基于三维卷积神经网络，在首帧训练时，其输入是五维向量(batch，temporal，channel，width，height)，batch表示网络每次处理图像的批量，temporal表示时序维度，即图像在时序上的数量，设定为N，即要求输入当前帧及其前N-1帧，channel表示图像通道数，width表示图像的宽，height表示图像的高。在首帧训练时，算法预测的边界框只有第一帧，还没有后续帧预测的边界框，所以temporal时序维度输入的帧为N个同样的第一帧目标图像，具体地，N＝16。

S202、在给定跟踪序列的第一帧真实边界框G的邻域，均匀采样出1000个大小、位置不同的边界框作为跟踪算法预测的目标边界框P；其中，跟踪序列为视频序列。

S203、通过基于三维卷积神经网络的跟踪算法计算目标边界框所包含图像的特征向量

再计算特征向量

对应的理论真实值t_*。

S204、将目标边界框所包含图像的特征向量

和理论真实值t_*构成一个样本对，即样本对为

采用式(9)计算，t_*采用式(10)～式(13)计算。

S205、将生成的多个样本对作为训练样本训练回归器，使用式(15)计算最优化的变换系数k_*。

S3、在后续每一帧的目标跟踪过程中，使用回归器对跟踪算法预测的目标边界框进行回归。

如图1、图2和图4所示，该步骤S2为正向回归预测，具体包括：

S301、确定后续帧中三维卷积神经网络的时序维度输入量：三维卷积神经网络的输入是五维向量(batch，temporal，channel，width，height)，其中temporal表示时序维度输入量，即图像在时序上的数量，设定为N(N＝16)，即要求输入当前帧以及前N-1帧(即前15帧)，所以在跟踪前N-1帧的过程中，累计跟踪的帧数小于N，不满足输入帧数为N的要求，于是提出时序对齐策略解决该问题，而在跟踪过程中从第N帧开始到结束，则不需要采取时序对齐策略。

进一步地，三维卷积神经网络的时序维度输入时序对齐策略：在跟踪前N-1帧(即前15帧)的过程中，假设当前帧为第S帧，其中S＜N，也就是说S的值可以为1～N-1，累计跟踪已测的帧数共S帧，在已测帧前填充N-S份第一帧，使总帧数满足时序维度输入量N，即填充帧、已测帧、当前帧三者之和为N，具体填充方案如下：

f表示帧，下标是帧序号：

以跟踪到第3帧为例，下标是帧序号：

而在跟踪过程中从第N帧开始到结束，则不需要采取时序对齐策略。

S302、在后续每一帧的目标跟踪过程中，根据跟踪算法预测出的多个目标候选区域，取符合预设条件的M个目标候选区域。

具体地，多个目标候选区域为多个带有置信度得分的目标候选区域，预设条件包括：所述置信度得分大于或等于置信度阈值，置信度得分大于或等于置信度阈值可认为置信度得分较高，而本实施例置信度得分较高的目标候选区域有M个。

S303、分别通过回归器对M个目标候选区域的边界框进行回归，得到M个回归边界框。

S304、对M个回归边界框取平均，得到一个边界框，作为当前帧目标的边界框。

S4、在设定三维卷积神经网络的时序维度输入量为N的情况下，当跟踪到第N帧时，将前N帧的跟踪目标图像作为三维卷积神经网络的输入，再根据第一帧的信息，生成样本对，对回归器进行适应性调优重训练。

如图1、图2和图5所示，该步骤S4为回归器适应性调优重训练，由于跟踪过程中没有给出标注的真实边界框，首帧后续的所有帧跟踪结果皆为预测值，所以整个跟踪过程中只进行一次适应性调优重训练，并且是首次跟踪到第N帧时进行适应性调优重训练；具体地，当跟踪序列的帧数首次到达三维卷积神经网络时序维度temporal的输入数量N时，不再采取时序对齐策略，而是将该跟踪序列前N帧作为三维卷积神经网络的输入，从而得到更准确的特征向量，再根据第一帧的信息，按照步骤S202～S203的方式生成样本对，并调优重训练回归器。

调优训练回归器后，可以返回步骤S3，在第N帧后续每一帧中使用调优训练的回归器对跟踪算法预测的目标边界框进行回归。

图6a～图6d为基于三维卷积神经网络的边界框回归方法在Object TrackingBenchmark(OTB 100)数据集“MountainBike”序列的部分跟踪测试结果图，该测试是以山地车和山地车上的运动员为目标进行跟踪，图7a～图7d为基于三维卷积神经网络的边界框回归方法在Object Tracking Benchmark(OTB 100)数据集“Girl2”序列的部分跟踪测试结果图，该测试是以某个小女孩为目标进行跟踪，其中黑色框为回归前的测试结果，白色框为回归后的预测结果，左上角显示的数字是帧序号，可以看到经过回归后能够更加准确地定位目标，提高目标位置和大小与真实值的重叠率，使得跟踪效果更加精确。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘或光盘等。

实施例2：

如图8所示，本实施例提供了一种基于三维卷积神经网络的边界框回归系统，该系统包括构建模块801、训练模块802、回归模块803和调优训练模块804，各个模块的具体功能如下：

所述构建模块801，用于构建回归器，对跟踪算法预测出的目标边界框进行回归，得到更接近真实边界框的目标边界框；其中，所述对跟踪算法预测出的目标边界框进行回归，得到更接近真实边界框的目标边界框，具体包括：使用回归器将跟踪算法预测出的目标边界框沿着中心点平移，再对该目标边界框的宽高进行缩放，得到更接近真实边界框的目标边界框。

所述训练模块802，用于根据给定跟踪序列的第一帧信息，生成样本对并训练回归器，该训练模块802如图9所示，具体包括：

输入单元8021，用于将N个同样的第一帧目标图像作为三维卷积神经网络的输入；

采样单元8022，用于在给定跟踪序列的第一帧真实边界框的邻域，均匀采样出多个大小、位置不同的边界框作为跟踪算法预测的目标边界框。

计算单元8023，用于通过基于三维卷积神经网络的跟踪算法计算目标边界框所包含图像的特征向量，再计算真实边界框对应的理论真实值。

生成单元8024，用于将目标边界框所包含图像的特征向量和理论真实值构成一个样本对；

训练单元8025，用于将生成的多个样本对作为训练样本训练回归器。

所述回归模块803，用于在后续每一帧的目标跟踪过程中，使用回归器对跟踪算法预测的目标边界框进行回归，该回归模块803如图10所示，具体包括：

确定单元8031，用于确定后续每一帧中三维卷积神经网络的时序维度输入量；其中，所述时序维度输入量记为N，即要求输入当前帧以及前N-1帧。

对齐单元8032，用于在跟踪前N-1帧的过程中，累计跟踪的帧数小于N，采用时序对齐策略使总帧数满足时序维度输入量N，具体包括：假设当前帧为第S帧，其中S＜N，累计跟踪已测的帧数共S帧，在已测帧前填充第一帧共N-S份，使总帧数满足时序维度输入量N。

获取单元8033，用于在后续每一帧的目标跟踪过程中，根据跟踪算法预测出的多个目标候选区域，取符合预设条件的M个目标候选区域；

回归单元8034，用于分别通过回归器对M个目标候选区域的边界框进行回归，得到M个回归边界框；

平均单元8035，用于对M个回归边界框取平均，得到一个边界框，作为当前帧目标的边界框。

所述调优训练模块804，用于在设定三维卷积神经网络的时序维度输入量为N的情况下，当跟踪到第N帧时，将前N帧的跟踪目标图像作为三维卷积神经网络的输入，再根据第一帧的信息，生成样本对，对回归器进行适应性调优重训练。

在此需要说明的是，上述实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3：

本实施例提供了一种计算机设备，该计算机设备可以是台式计算机，其包括通过系统总线连接的处理器、存储器、显示器和网络接口，该计算机设备的处理器用于提供计算和控制能力，该计算机设备的存储器包括非易失性存储介质和内存储器，该非易失性存储介质存储有操作系统、计算机程序和数据库，该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境，处理器执行存储器存储的计算机程序时，实现上述实施例1的边界框回归方法，如下：

在设定三维卷积神经网络时序维度为N的情况下，当跟踪到第N帧时，将前N帧的跟踪目标图像作为三维卷积网络的输入，再根据第一帧的信息，生成样本对，对回归器进行适应性调优训练。

本实施例中所述的计算机设备还可以是笔记本计算机、服务器或其他具有计算功能的终端设备。

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述程序被处理器执行时，处理器执行存储器存储的计算机程序时，实现上述实施例1的边界框回归方法，如下：

本实施例中所述的存储介质可以是ROM、RAM、磁盘、光盘等介质。

综上所述，本发明首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域，使预测的边界框经过回归后更接近真实值，提高了跟踪效果的精确性。

以上所述，仅为本发明专利优选的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.基于三维卷积神经网络的边界框回归方法，其特征在于：所述方法包括：

在后续每一帧的目标跟踪过程中，使用回归器对跟踪算法预测的目标边界框进行回归；其中，后续每一帧是指第2帧至第N-1帧；

在设定三维卷积神经网络的时序维度输入量为N的情况下，当跟踪到第N帧时，将前N帧的跟踪目标图像作为三维卷积神经网络的输入，再根据第一帧的信息，生成样本对，对回归器进行适应性调优重训练。

2.根据权利要求1所述的边界框回归方法，其特征在于：所述对跟踪算法预测出的目标边界框进行回归，得到更接近真实边界框的目标边界框，具体包括：

3.根据权利要求1所述的边界框回归方法，其特征在于：所述根据给定跟踪序列的第一帧信息，生成样本对并训练回归器，具体包括：

将N个同样的第一帧目标图像作为三维卷积神经网络的输入；

将生成的多个样本对作为训练样本训练回归器。

4.根据权利要求1所述的边界框回归方法，其特征在于：所述在后续每一帧的目标跟踪过程中，使用回归器对跟踪算法预测的目标边界框进行回归，具体包括：

5.根据权利要求4所述的边界框回归方法，其特征在于：所述多个目标候选区域为多个带有置信度得分的目标候选区域；

6.根据权利要求4所述的边界框回归方法，其特征在于：所述在后续每一帧的目标跟踪过程中，使用回归器对跟踪算法预测的目标边界框进行回归，还包括：

7.根据权利要求6所述的边界框回归方法，其特征在于：所述采用时序对齐策略使总帧数满足时序维度输入量N，具体包括：

假设当前帧为第S帧，其中S<N，累计跟踪已测的帧数共S帧，在已测帧前填充N-S份第一帧，使总帧数满足时序维度输入量N。

8.基于三维卷积神经网络的边界框回归系统，其特征在于：所述系统包括：

回归模块，用于在后续每一帧的目标跟踪过程中，使用回归器对跟踪算法预测的目标边界框进行回归；其中，后续每一帧是指第2帧至第N-1帧；

调优训练模块，用于在设定三维卷积神经网络的时序维度输入量为N的情况下，当跟踪到第N帧时，将前N帧的跟踪目标图像作为三维卷积神经网络的输入，再根据第一帧的信息，生成样本对，对回归器进行适应性调优训练。

9.计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于：所述处理器执行存储器存储的程序时，实现权利要求1-7任一项所述的边界框回归方法。

10.存储介质，存储有程序，其特征在于：所述程序被处理器执行时，实现权利要求1-7任一项所述的边界框回归方法。