CN107369166B

CN107369166B - 一种基于多分辨率神经网络的目标跟踪方法及系统

Info

Publication number: CN107369166B
Application number: CN201710570207.6A
Authority: CN
Inventors: 王振楠; 邹文斌; 吴迪; 徐晨; 李霞
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2017-07-13
Filing date: 2017-07-13
Publication date: 2020-05-08
Anticipated expiration: 2037-07-13
Also published as: CN107369166A

Abstract

本发明适用于视频目标跟踪，提供了一种基于多分辨率神经网络的目标跟踪方法，包括：接收待检测的当前视频帧，在所述当前视频帧上提取检测块；提取所述检测块的多层不同分辨率的深度特征；利用核相关滤波模型计算各层深度特征的目标位移响应图；根据各层的目标位移响应图，利用多分辨率神经网络进行位移估计得到估计目标位移，并更新所述核相关滤波模型；根据所述估计目标位移，利用尺度估计模型进行尺度估计得到估计值，并更新所述尺度估计模型。通过本实施例，能够大幅减少跟踪漂移和跟踪丢失的情况，在运动突变、光照变化等复杂环境或长序列视频跟踪中的鲁棒性和稳定性大幅提升。

Description

一种基于多分辨率神经网络的目标跟踪方法及系统

技术领域

本发明属于视频技术领域，尤其涉及一种基于多分辨率神经网络的目标跟踪方法及系统。

背景技术

视觉目标跟踪是计算机视觉的重要研究课题，其主要任务是连续、实时、准确地定位视频序列中被跟踪的目标对象，在视频监控、机器人、智能驾驶、无人机、人机交互等方面具有广泛应用。

基于相关滤波的目标跟踪方法由于其优越的性能成为了研究的热点。而使用在大规模分类数据集上预训练的深度神经网络提取跟踪目标的深度特征，既避开了跟踪时直接训练深度神经网络样本不足的困境，也充分利用了深度特征强大的表征能力。将深度特征应用到相关滤波跟踪模型中的方法结合了二者的优势，基于这种思想的目标跟踪方法层出不穷，但是大多数这类方法只是根据对特定场景的分析，对各个卷积层的相关滤波响应图进行线性加权，忽略了各个卷积层和目标位移之间的非线性信息，同时，目标模型由于不支持自适应更新，在运动突变、光照变化等复杂环境下的鲁棒性不足。

发明内容

本发明所要解决的技术问题在于提供一种基于多分辨率神经网络的目标跟踪方法及系统，旨在解决现有技术中目标模型不支持自适应更新，在运动突变、光照变化等复杂环境下的鲁棒性不足的问题。

本发明是这样实现的，一种基于多分辨率神经网络的目标跟踪方法，包括：

接收待检测的当前视频帧，在所述当前视频帧上提取检测块；

提取所述检测块的多层不同分辨率的深度特征；

利用核相关滤波模型计算各层深度特征的目标位移响应图；

根据各层的目标位移响应图，利用多分辨率神经网络进行位移估计得到估计目标位移，并更新所述核相关滤波模型；

根据所述估计目标位移，利用尺度估计模型进行尺度估计得到估计值，并更新所述尺度估计模型。

进一步地，所述在所述当前视频帧上提取检测块包括：

获取所述当前视频帧的上一帧，确定所述上一帧的跟踪目标的位置；

以所述上一帧的跟踪目标的位置为中心，按照预置比例选取所述检测块，并将所述检测块的尺寸归一化到固定尺寸。

进一步地，所述提取所述检测块的多层不同分辨率的深度特征包括：

利用预训练的深度神经网络模型提取尺寸归一化后的检测块的多层不同分辨率的深度特征，所述预训练的深度神经网络模型包括AlexNet、GoogleNet、VGGNet或ResNet中的一种。

进一步地，所述利用核相关滤波模型计算各层深度特征的目标位移响应图包括：

利用核相关滤波模型，对每一层深度特征分别进行核相关滤波操作，计算每一层深度特征对应的目标位移响应图，所述目标位移响应图是表示跟踪目标可能性的二维矩阵，所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移。

进一步地，所述根据各层的目标位移响应图，利用多分辨率神经网络进行位移估计得到估计目标位移，并更新所述核相关滤波模型包括：

以各层的目标位移响应图作为输入，利用所述多分辨率神经网络进行位移估计，得到估计目标位移；

根据所述目标位移响应图对核相关滤波模型进行自适应更新；

其中，所述多分辨率神经网络由若干卷积层、池化层和全连接层组成，以a-b×b的形式表示所述卷积层，其中a表示卷积核数目，b表示卷积核尺寸，则所述多分辨率神经网络的结构为：

所述目标位移响应图→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移；

所述卷积层的激励函数为Relu；

所述多分辨率神经网络的损失函数定义为预测偏差的均方根值：

其中L_pos表示损失函数，Δx和Δy表示预测的目标位移，Δx’和Δy’表示实际的目标位移。

进一步地，所述根据所述目标位移响应图对核相关滤波模型进行自适应更新包括：

计算每一层核相关滤波模型的自适应学习率；

以

表示第t帧检测块的第k个目标位移响应图的相关滤波模型的学习率，η表示基础学习率，

表示第t帧检测块的第k个目标位移响应图的预测稳定性，则

其中，

表示第t帧检测块的第k个目标位移响应图的最大响应值和目标位移处的响应值的差值，

和

表示

在固定时间长度Δt内的均值和标准差，

表示第t帧检测块的第k个目标位移响应图，(x_p，y_p)表示第t帧检测块中跟踪目标的位移估计值；

根据每一层核相关滤波模型的自适应学习率，更新每一层核相关滤波模型；

所述核相关滤波模型包括滤波器和核相关变量，以

表示第t帧检测块的第k个核相关滤波模型的滤波器，

表示第t帧检测块的第k个核相关滤波模型的核相关变量，则：

进一步地，所述尺度估计模型采用线性岭回归模型，则所述根据所述估计目标位移，利用尺度估计模型进行尺度估计得到估计值，并更新所述尺度估计模型包括：

根据所述估计目标位移，确定所述跟踪目标在所述当前视频帧的位置；

以所述跟踪目标在所述当前视频帧的位置为中心，提取不同尺度的边界框，所述边界框包含有所述跟踪目标；

提取不同尺度的边界框的特征，使用线性岭回归模型对每一尺度的边界框进行回归，得到不同尺度的回归值；

选取回归值最大的尺度作为估计值，以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小；

采用线性插值的方式对所述线性岭回归模型进行更新。

本发明还提供了一种基于多分辨率神经网络的目标跟踪系统，包括：

提取单元，用于接收待检测的当前视频帧，在所述当前视频帧上提取检测块，并提取所述检测块的多层不同分辨率的深度特征；

计算单元，用于利用核相关滤波模型计算各层深度特征的目标位移响应图；

位移估计单元，用于根据各层的目标位移响应图，利用多分辨率神经网络进行位移估计得到估计目标位移，并更新所述核相关滤波模型；

尺度估计单元，用于根据所述估计目标位移，利用尺度估计模型进行尺度估计得到估计值，并更新所述尺度估计模型。

进一步地，所述提取单元用于：

以所述上一帧的跟踪目标的位置为中心，按照预置比例选取所述检测块，并将所述检测块的尺寸归一化到固定尺寸；

进一步地，所述计算单元具体用于：

利用核相关滤波模型，对每一层深度特征分别进行核相关滤波操作，计算每一层深度特征对应的目标位移响应图，所述目标位移响应图是表示跟踪目标可能性的二维矩阵，所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移；

则所述位移估计单元具体用于：

所述卷积层的激励函数为Relu；

其中L_pos表示损失函数，Δx和Δy表示预测的目标位移，Δx’和Δy’表示实际的目标位移；

所述位移估计单元根据所述目标位移响应图对核相关滤波模型进行自适应更新包括：

计算每一层核相关滤波模型的自适应学习率；

以

表示第t帧检测块的第k个目标位移响应图的预测稳定性，则

其中，

和

表示

在固定时间长度Δt内的均值和标准差，

所述核相关滤波模型包括滤波器和核相关变量，以

表示第t帧检测块的第k个核相关滤波模型的滤波器，

所述尺度估计模型采用线性岭回归模型，则所述尺度估计单元具体用于：

提取不同尺度的边界框的特征，使用线性岭回归模型对每一尺度的边界框进行回归，得到不同的尺度回归值；

采用线性插值的方式对所述线性岭回归模型进行更新。

本发明与现有技术相比，有益效果在于：本发明实施例预先设计并训练的多分辨率神经网络充分利用了神经网络强大的非线性问题处理能力，能够更好的利用多层不同分辨率深度特征的相关滤波结果，更精确的估计目标位移，通过本实施例，能够大幅减少跟踪漂移和跟踪丢失的情况，在运动突变、光照变化等复杂环境或长序列视频跟踪中的鲁棒性和稳定性大幅提升。

附图说明

图1是本发明实施例提供的一种基于多分辨率神经网络的目标跟踪方法的流程图；

图2是本发明实施例提供的一种基于多分辨率神经网络的目标跟踪方法的使用示意图；

图3是本发明实施例提供的多分辨率神经网络的示意图；

图4是本发明实施例提供的一种基于多分辨率神经网络的目标跟踪系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明实施例提供的一种基于多分辨率神经网络的目标跟踪方法，包括：

S101，接收待检测的当前视频帧，在所述当前视频帧上提取检测块。

在本步骤中，目标跟踪系统获取所述当前视频帧的上一帧，确定所述上一帧的跟踪目标的位置，以所述上一帧的跟踪目标的位置为中心，按照预置比例选取所述检测块，并将所述检测块的尺寸归一化到固定尺寸。具体地，以上一帧的跟踪目标的位置为中心，按照某比例选取检测块，并将检测块归一化到某固定尺寸。比如按照2.2倍的边界框大小，以跟踪目标为中心选取检测块，然后将检测块尺寸归一化到240×160。

S102，提取所述检测块的多层不同分辨率的深度特征。

在本步骤中，目标跟踪系统利用在大规模分类数据上预训练的深度神经网络模型，提取尺寸归一化后的检测块的多层不同分辨率的深度特征，所述预训练的深度神经网络模型包括但不限于AlexNet、GoogleNet、VGGNet或ResNet中的一种，比如，可以采用VGGNet-19的block1-conv2、block2-conv2、block3-conv4、block4-conv4、block5-conv4这5个卷积层的深度特征。

S103，利用核相关滤波模型计算各层深度特征的目标位移响应图。

在本步骤中，目标跟踪系统利用核相关滤波模型，对每一层深度特征分别进行核相关滤波操作，计算每一层深度特征对应的目标位移响应图，所述目标位移响应图是一个表示跟踪目标可能性的二维矩阵，所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移。

S104，根据各层的目标位移响应图，利用多分辨率神经网络进行位移估计得到估计目标位移，并更新所述核相关滤波模型。

在本步骤中，目标跟踪系统以各层的目标位移响应图作为输入，利用多分辨率神经网络进行位移估计，得到估计目标位移，根据所述目标位移响应图对核相关滤波模型进行自适应更新。具体地，目标跟踪系统将各层的核相关滤波结果组成多分辨率目标位移响应图作为输入，使用本发明实施例提出的多分辨率神经网络(multi-resolution neuralnetwork)估计目标位移，并根据所估计的目标位移，对核相关滤波模型进行自适应更新。

S105，根据所述估计目标位移，利用尺度估计模型进行尺度估计得到估计值，并更新所述尺度估计模型。

在本步骤中，目标跟踪系统使用尺度估计模型对每一尺度进行回归，选取回归值最大的尺度作为估计值，并对尺度估计模型进行更新。具体地，尺度估计模型采用线性岭回归模型，目标跟踪系统根据所述估计目标位移，确定所述跟踪目标在所述当前视频帧的位置；以所述跟踪目标在所述当前视频帧的位置为中心，提取不同尺度的边界框，所述边界框包含有所述跟踪目标；提取不同尺度的边界框的特征，使用线性岭回归模型对每一尺度的边界框进行回归，得到不同尺度的回归值；选取回归值最大的尺度作为估计值，以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小；采用线性插值的方式对所述线性岭回归模型进行更新。

图2示出了本发明实施例提供的的一个使用例，其中：

目标跟踪系统接收到输入的新的一帧视频帧时，将从该新的一帧视频帧中提取检测块，图中，白色框是上一帧跟踪目标的位置，接着在提取的检测块中提取多层不同分辨率的深度特征，并计算各层深度特征的核相关滤波的目标位移响应图，接着采用多分辨率神经网络进行位移估计，最后进行尺度估计的，在此过程中需要更新各层的核相关滤波模型及尺度估计模型，最终得到输入的新的一帧视频帧的跟踪目标的位置并确定该跟踪目标的边界框(boundingbox)。

下面对本发明实施例中的多分辨率神经网络、核相关滤波模型的自适应更新和尺度估计模型进行进一步地解释：

多分辨率神经网络：

该多分辨率神经网络的输入是多分辨率的目标位移响应图，输出是预测的目标位移。其示意图如图3所示：

在图3所示的实例，采用5种分辨率的目标位移响应图，且尺寸为240*160，但是在实际情况中，可以由用户选择分辨率数目和响应图尺寸。

该多分辨率神经网络由多个卷积层、池化层和全连接层组成，以a-b×b的形式表示卷积层，其中a表示卷积核数目，b表示卷积核尺寸，则多分辨率神经网络的结构为：输入层(多分辨率的目标位移响应图)→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移。其中卷积层的激励函数为Relu。

该多分辨率神经网络的损失函数定义为预测偏差的均方根值：

该多分辨率神经网络在跟踪数据集上预训练，比如在OTB-2015数据集上预训练。

核相关滤波模型的自适应更新：

核相关滤波模型包括滤波器和核相关变量两部分，在进行自适应更新时首先计算每一层的核相关滤波模型的自适应学习率，然后分别对两个组成部分进行更新。

(a)计算每一层核相关滤波模型的自适应学习率：

其中，

表示第t帧检测块的第k个目标位移响应图的相关滤波模型的学习率；η表示基础学习率，

表示第t帧检测块的第k个目标位移响应图的预测稳定性，其计算如下：

其中

和

表示

在固定时间长度Δt内的均值和标准差，

的计算如下所示：

其中，

表示第t帧检测块的第k个目标位移响应图，(x_p，y_p)表示第t帧检测块中跟踪目标的位移估计值。

(b)更新相关滤波模型：

根据每一层的学习率，更新每一层的核相关滤波模型：

核相关滤波模型包括两部分：滤波器和核相关变量，

表示第t帧检测块的第k个核相关滤波模型的滤波器，

表示第t帧检测块的第k个核相关滤波模型的核相关变量。

尺度估计模型：

以当前估计的跟踪目标的位置为中心，提取不同尺度的检测块。对各个检测块提取特征，并赋予一维高斯标签值，建立尺度估计的线性岭回归模型，采用线性插值的方式对岭回归模型进行更新。

本发明提出的一种基于多分辨率神经网络的目标跟踪方法，使用了多分辨率神经网络进行目标位移估计，并且对核相关滤波模型进行自适应更新，使用线性岭回归模型进行尺度估计，在运动突变、光照变化等复杂环境或长视频序列跟踪中的鲁棒性和稳定性大幅提升。

本发明实施例提出并设计的多分辨率神经网络，避免了对多层核相关滤波目标位移响应图进行权重设计，提高了目标位移估计的精度。

本发明实施例以预测稳定性为主要考量进行核相关滤波模型的自适应更新，有效提高了目标模型更新的平滑性和跟踪系统的鲁棒性。

图4示出了本发明实施例提供的一种基于多分辨率神经网络的目标跟踪系统，包括：

提取单元401，用于接收待检测的当前视频帧，在所述当前视频帧上提取检测块，并提取所述检测块的多层不同分辨率的深度特征；

计算单元402，用于利用核相关滤波模型计算各层深度特征的目标位移响应图；

位移估计单元403，用于根据各层的目标位移响应图，利用多分辨率神经网络进行位移估计得到估计目标位移，并更新所述核相关滤波模型；

尺度估计单元404，用于根据所述估计目标位移，利用尺度估计模型进行尺度估计得到估计值，并更新所述尺度估计模型。

进一步地，提取单元401用于：

进一步地，计算单元402具体用于：

则位移估计单元403具体用于：

所述卷积层的激励函数为Relu；

位移估计单元403根据所述目标位移响应图对核相关滤波模型进行自适应更新包括：

计算每一层核相关滤波模型的自适应学习率；

以

表示第t帧检测块的第k个目标位移响应图的预测稳定性，则

其中，

和

表示

在固定时间长度Δt内的均值和标准差，

所述核相关滤波模型包括滤波器和核相关变量，以

表示第t帧检测块的第k个核相关滤波模型的滤波器，

进一步地，尺度估计单元404具体用于：

采用线性插值的方式对所述线性岭回归模型进行更新。

本发明提供的上述实施例，可以应用于行为理解、异常行为检测等技术领域，也可以应用于视频监控、机器人、智能驾驶、无人机、人机交互等应用领域。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多分辨率神经网络的目标跟踪方法，其特征在于，包括：

接收待检测的当前视频帧，获取所述当前视频帧的上一帧，在所述上一帧上提取检测块；

提取所述检测块的多层不同分辨率的深度特征；

利用核相关滤波模型计算各层深度特征的目标位移响应图；

根据所述估计目标位移，利用尺度估计模型进行尺度估计得到估计值，并更新所述尺度估计模型；

其中，所述根据各层的目标位移响应图，利用多分辨率神经网络进行位移估计得到估计目标位移，并更新所述核相关滤波模型包括：

所述卷积层的激励函数为Relu；

2.如权利要求1所述的目标跟踪方法，其特征在于，所述在所述上一帧上提取检测块包括：

确定所述上一帧的跟踪目标的位置；

3.如权利要求2所述的目标跟踪方法，其特征在于，所述提取所述检测块的多层不同分辨率的深度特征包括：

4.如权利要求1所述的目标跟踪方法，其特征在于，所述利用核相关滤波模型计算各层深度特征的目标位移响应图包括：

5.如权利要求4所述的目标跟踪方法，其特征在于，所述根据所述目标位移响应图对核相关滤波模型进行自适应更新包括：

计算每一层核相关滤波模型的自适应学习率；

以

表示第t帧检测块的第k个目标位移响应图的预测稳定性，则

其中，

和

表示

在固定时间长度Δt内的均值和标准差，

所述核相关滤波模型包括滤波器和核相关变量，以

表示第t帧检测块的第k个核相关滤波模型的滤波器，

6.如权利要求1所述的目标跟踪方法，其特征在于，所述尺度估计模型采用线性岭回归模型，则所述根据所述估计目标位移，利用尺度估计模型进行尺度估计得到估计值，并更新所述尺度估计模型包括：

采用线性插值的方式对所述线性岭回归模型进行更新。

7.一种基于多分辨率神经网络的目标跟踪系统，其特征在于，包括：

提取单元，用于接收待检测的当前视频帧，获取所述当前视频帧的上一帧在所述上一帧上提取检测块，并提取所述检测块的多层不同分辨率的深度特征；

尺度估计单元，用于根据所述估计目标位移，利用尺度估计模型进行尺度估计得到估计值，并更新所述尺度估计模型；

其中，所述位移估计单元具体用于：

8.如权利要求7所述的目标跟踪系统，其特征在于，所述提取单元用于：

9.如权利要求7所述的目标跟踪系统，其特征在于，所述计算单元具体用于：

计算每一层核相关滤波模型的自适应学习率；

以

表示第t帧检测块的第k个目标位移响应图的预测稳定性，则

其中，

和

表示

在固定时间长度Δt内的均值和标准差，

所述核相关滤波模型包括滤波器和核相关变量，以

表示第t帧检测块的第k个核相关滤波模型的滤波器，

采用线性插值的方式对所述线性岭回归模型进行更新。