CN111898504A

CN111898504A - 一种基于孪生循环神经网络的目标跟踪方法及系统

Info

Publication number: CN111898504A
Application number: CN202010701515.XA
Authority: CN
Inventors: 韩光; 刘耀明; 朱梦成; 艾岳川
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-11-06
Anticipated expiration: 2040-07-20
Also published as: CN111898504B

Abstract

本发明公开了一种基于孪生循环神经网络的目标跟踪方法及系统。其中，使用的目标跟踪模型包括孪生网络模块和循环神经网络模块，孪生网络模块包括上、下支路，孪生网络模块的下支路连接所述循环神经网络模块，所述方法包括获取跟踪目标视频帧；基于跟踪目标视频帧，训练孪生网络模块，所述训练包括使跟踪目标在对应的相关性响应特征图上的位置获得响应最大值；固定孪生网络模块参数，训练循环神经网络模块，使其具备预测跟踪目标下一帧位置及尺度的能力；联合训练孪生网络模块和循环神经网络模块，提高目标跟踪模型的目标跟踪准确性；所述目标跟踪模型，还包括判别模块，用于判别目标跟踪是否成功。本发明能够提高目标跟踪的准确性和鲁棒性。

Description

一种基于孪生循环神经网络的目标跟踪方法及系统

技术领域

本发明涉及一种基于孪生循环神经网络的目标跟踪方法及系统，属于计算机视觉领域。

背景技术

目标跟踪在计算机视觉领域一直是研究难点和热点，其在众多领域有着广泛的前景，比如说无人驾驶、人机交互和安保监控等等。针对目标跟踪的研究已经发展了数十年，虽然已经取得了很多不错的成果，但是因为目标跟踪任务的多变性，获得一个既能够实时高效又鲁棒准确的跟踪器仍然存在很多挑战。

目标跟踪技术的发展方向主要分为两大类：相关滤波法和深度学习法。基于相关滤波的跟踪器速度快但准确性不高，基于深度学习的跟踪器准确性高但计算代价高、速度慢。随着硬件性能的提升及相关算法的进步，最近几年基于深度学习的目标跟踪发展迅速。为了获得高准确性，深度学习目标跟踪通常是以目标检测为基础，把目标跟踪任务抽象为一个二分类问题，训练分类器，只要能准确的区分前景(跟踪目标)和背景即可。另外一种方法则是借鉴了相关滤波的思想，采用孪生网络的框架结构，将神经网络提取的特征作为卷积核，对图像搜寻区域进行卷积操作，比较跟踪目标与待搜寻图像区域的相似性，相似性最高处即为目标所处位置。上述两类方法都是从外观模型出发，仅仅考虑的是跟踪目标的表观空间特征，但是目标跟踪是一个时序性的过程，在跟踪过程中，目标的时序信息也能发挥重要作用，因此如何充分有效地利用时序信息也应当被考虑。

发明内容

基于上述分析，本发明的目的在于：提供一种基于孪生循环神经网络的目标跟踪方法及系统，以克服常规循环神经网络容易发生梯度爆炸和消失的问题。

本发明实现上述目的的技术解决方案是：

一方面，本发明提供了一种基于孪生循环神经网络的目标跟踪方法，包括如下步骤：

获取待跟踪目标视频；

将获取的待跟踪目标视频输入预先训练好的目标跟踪模型，目标跟踪模型输出准确的目标跟踪位置；

所述目标跟踪模型包括孪生网络模块和循环神经网络模块，孪生网络模块包括上支路、下支路，下支路与循环神经网络模块连接，上支路和下支路均包括卷积神经网络；

其中，对待跟踪目标视频中第一帧图像构建目标区域，作为孪生网络模块上支路的输入，待跟踪目标视频中的后续帧图像作为孪生网络模块下支路的输入。

进一步地，所述目标跟踪模型的构建方法，包括：

上支路使用卷积神经网络提取目标区域图像的特征，获得目标区域特征图；

下支路使用卷积神经网络提取搜索区域图像的特征，获得搜索区域特征图；

下支路提取的特征经全连接层送入循环神经网络模块；

循环神经网络模块输出预测的跟踪目标位置及尺度，从而得到目标包围框；

将目标包围框映射到下支路获取的搜索区域特征图上，得到感兴趣目标区域；

将上支路获取的目标区域特征图作为卷积核，对映射有目标包围框的搜索区域特征图进行卷积操作，得到相关性响应特征图，相关性响应特征图中响应值最大的位置为目标跟踪位置。

进一步地，所述上支路、下支路的卷积神经网络均包含4个卷积层和4个最大池化层，4个卷积层卷积核的大小依次为7×7、5×5、3×3和3×3，卷积操作的步长设置为2；所述全连接层连接在4个卷积层和4个最大池化层之后，全连接层后面连接RELU层和BN层，全连接层的输出维度为512维。

进一步地，所述循环神经网络模块基于长短时记忆网络模型。

进一步地，所述目标跟踪模型的训练方法，包括：

获取目标视频帧序列数据集；

根据目标位置和尺寸，对数据集中的每一段目标视频帧序列中的每一帧图像进行裁剪，获得所有帧图像的目标区域图像和搜索区域图像，将其作为训练集；

基于获取的训练集，训练孪生网络模块，使跟踪目标在对应的相关性响应特征图上的位置获得响应最大值，获得响应最大值时的孪生网络模块参数；

固定所述孪生网络模块参数，单独训练循环神经网络模块，使其具备预测跟踪目标下一帧位置及尺度的能力；

解除对孪生网络模块参数的固定，联合训练孪生网络模块和循环神经网络模块，得到端到端的网络模型。

进一步地，所述基于获取的训练集，训练孪生网络模块，包括：

从训练集中随机抽取属于同一段目标视频帧序列中的一张目标区域图像和一张搜索区域图像，分别作为孪生网络模块上支路和下支路的输入。

进一步地，所述固定所述孪生网络模块参数，单独训练循环神经网络模块，包括：

对训练集中每一段目标视频帧序列，将其中单张目标区域图像作为孪生网络模块上支路的输入，其中多张连续的搜索区域图像以视频流的形式，从短视频依次增加至长视频，输入孪生网络模块的下支路。

进一步地，所述解除对孪生网络模块参数的固定，联合训练孪生网络模块和循环神经网络模块，包括：

对训练集中的每一段目标视频帧序列，输入其中单张目标区域图像到孪生网络模块的上支路，随机输入其中多张连续的搜索区域图像到孪生网络模块的下支路。

进一步地，所述目标跟踪模型的构建方法，还包括：在目标跟踪模型中加入判别模块，所述判别模块对得到的相关性响应特征图进行得分评价，判别目标跟踪是否成功。

进一步地，所述判别模块对得到的相关性响应特征图进行得分评价，判别目标跟踪是否成功，包括：

所述判别模块，基于相关性响应特征图的得分进行3D建模，如果建模显示相关性响应特征图得分异常，则判别跟踪失败；启动重新探测，在上一帧图像目标位置附近随机选取与目标区域重叠面积大于70％的多个目标包围框，依次将多个目标包围框对应的特征图与给定的目标区域特征图送入孪生网络模块进行相关卷积操作得到置信度，并进行排列，选择置信度最高的目标包围框作为跟踪目标位置的输出；否则，判别跟踪成功，直接输出目标跟踪位置。

另一方面，本发明提供了一种基于孪生循环神经网络的目标跟踪系统，包括：

视频获取模块，用于获取待跟踪目标视频；

目标跟踪模块，用于将获取的待跟踪目标视频输入预先训练好的目标跟踪模型，目标跟踪模型输出准确的目标跟踪位置；

所述目标跟踪模型包括孪生网络模块和循环神经网络模块，孪生网络模块包括上支路、下支路，下支路与循环神经网络模块连接；

另一方面，本发明提供了一种计算机可读存储介质，其上存储有一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的一种基于孪生循环神经网络的目标跟踪方法。

另一方面，本发明提供了一种计算设备，包括：一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的一种基于孪生循环神经网络的目标跟踪方法的指令。

与现有技术相比，本发明的有益效果为：

本发明将长短时记忆网络与孪生网络结构融合起来，形成了一种基于孪生循环神经网络的目标跟踪模型。将视频帧经过卷积神经网络得到的全局特征向量作为长短时记忆网络的输入，预测得到跟踪目标位置，再通过孪生网络和判别模块对其进行微调，从得到更精准的跟踪位置。该方法一方面利用长短时记忆网络充分发掘视频帧中目标的时序信息，另一方面通过孪生网络获取目标的表观信息，将两者融合，共同确定跟踪目标的位置，提升了目标跟踪的准确性和鲁棒性。

附图说明

图1为本发明实施例的一种基于孪生循环神经网络的目标跟踪方法的流程示意图。

具体实施方式

下面结合具体实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

如图1所示，是本发明实施例提供的一种基于孪生循环神经网络的目标跟踪方法的流程示意图，所述方法包括如下步骤：

步骤1，构建孪生循环神经网络目标跟踪模型。

目标跟踪模型主要包括孪生网络模块和循环神经网络模块，所述孪生网络模块包括上、下支路，所述孪生网络模块的下支路连接所述循环神经网络模块。

循环神经网络模块基于长短时记忆(Long Short Term Memory，LSTM)网络，用于预测跟踪目标在视频帧中的位置及尺度变化。孪生网络模块用于对循环神经网络模块得到的预测信息进行微调，以获得更精确的跟踪目标位置。

该步骤具体包括如下步骤：

步骤1-1：构建LSTM网络模块和孪生网络模块，孪生网络模块的上支路使用卷积神经网络提取目标区域图像的特征，获得目标区域特征图，下支路使用卷积神经网络提取搜索区域图像的全局特征，获得搜索区域特征图。上、下支路卷积神经网络均包含4个卷积层和4个最大池化层，4个卷积层卷积核的大小依次为7×7、5×5、3×3和3×3，卷积操作的步长设置为2。下支路卷积神经网络的4个卷积层和4个最大池化层之后连接一个全连接层，全连接层后面连接一个RELU层和BN层，全连接层的输出维度为512维。

步骤1-2：下支路卷积神经网络提取到的全局特征经过全连接层后送入LSTM网络，LSTM网络输出预测的跟踪目标位置及尺度，输出的形式为[dx_i,dy_i,w_i,h_i]，dx_i和dy_i表示第i帧预测目标左上角坐标相比于原来位置的偏移量，w_i和h_i表示预测位置包围框的长度和宽度。通过这四个数值可以得到跟踪目标的包围框。

步骤1-3：将LSTM网络预测得到的目标框映射至下支路卷积神经网络获取的搜索区域特征图上，得到感兴趣目标区域，再将上支路卷积神经网络获取的目标区域特征图和下支路映射有目标包围框的搜索区域特征图进行相关卷积操作，获得相关性响应特征图，相关性响应特征图中响应值最大的位置为目标跟踪位置。

步骤2，获取目标视频帧序列数据集，根据目标位置和尺寸，对数据集中的每一段目标视频帧序列中的每一帧图像进行裁剪，获得所有帧图像的目标区域图像和搜索区域图像，将其作为训练集。

步骤3，基于获取的训练集，训练孪生网络模块，使跟踪目标在对应的相关性响应特征图上的位置获得响应最大值，获得响应最大值时的孪生网络模块参数，具体为：

从训练集中随机抽取属于同一段目标视频帧序列中的一张目标区域图像和一张搜索区域图像，分别作为孪生网络模块上支路和下支路的输入，采取该方式可以避免孪生网络出现过拟合。

孪生网络模块上支路提取目标区域图像的特征，获得目标区域特征图，下支路提取搜索区域图像的特征，获得搜索区域特征图，下支路提取的特征送入LSTM网络，LSTM网络输出目标包围框，将目标包围框映射到下支路获取的搜索区域特征图上，得到感兴趣目标区域；将上支路获取的目标区域特征图作为卷积核，对映射有目标包围框的搜索区域特征图进行卷积操作，得到两张图像的预测相关性响应特征图。

相关性响应特征图中包含多个不同目标区域。使用式(1)所示逻辑损失函数作为单个目标区域损失函数。如式(2)～(4)所示，对不同目标区域使用平均训练损失函数作为系统最终损失函数，采取随机梯度下降(Stochastic Gradient Descent，简称SGD)算法对系统最终损失函数进行优化，从而得到孪生网络模块卷积神经网络参数。

l(y,v)＝log(1+exp(-yv)) (1)

y(u)∈{-1,+1} (3)

其中，l代表单个目标区域损失函数；L代表不同目标区域的平均训练损失函数；v表示孪生网络对两张图像经过相关卷积操作得到的预测相关性响应特征图；y表示两张图像的真实相关性响应特征图；D表示相关性响应特征图中的所有目标区域；u代表D中的一个目标区域；y(u)和v(u)分别代表目标区域u在真实相关性响应特征图的值和在预测相关性响应特征图中的值；θ表示孪生网络模块卷积神经网络参数；公式(4)表示使用SGD算法对公式(2)进行孪生网络损失函数优化，借助梯度变化搜寻损失函数最小值，从而得到准确的孪生网络模块神经网络参数θ。

步骤4，固定孪生网络模块卷积神经网络参数，单独训练LSTM网络，使其具备预测跟踪目标下一帧位置及尺度的能力，具体步骤如下：

固定步骤2训练得到的孪生网络模块中卷积层的网络参数，采用Adam优化算法对LSTM网络进行训练，LSTM网络的输入是前一帧的输出状态和当前帧图像的全图特征向量。具体的，对训练集中每一段目标视频帧序列，将其中单张目标区域图像作为孪生网络模块上支路的输入，多张连续的搜索区域图像以视频流的形式输入到孪生网络模块的下支路。在训练过程中，以Smooth L1函数作为损失函数，数据集以视频流的形式输入，从短视频依次增加至长视频，不断使用Adam算法优化Smooth L1函数使其达到最小状态，从而获得LSTM网络的参数，以此增强LSTM网络对时序信息的处理能力，提高模型对高级特征的解释能力。

步骤5，解除对孪生网络卷积层的网络参数的固定，联合训练孪生网络模块和LSTM网络，提高所述目标跟踪模型的目标跟踪准确性，具体步骤如下：

解除对孪生网络卷积层的网络参数的固定，使其参与训练，联合训练采用Adam优化算法。在训练过程中，对于同一目标视频帧序列，输入其中单张目标区域图像到上支路卷积神经网络，随机输入其中5-10张连续的搜索区域图像到下支路卷积神经网络。通过联合训练形成端到端的网络模型，提高孪生循环神经网络目标跟踪模型的准确性。

步骤6，加入判别模块，所述判别模块对得到的相关性响应特征图进行得分评价，判别目标跟踪是否成功，具体步骤如下：

对相关性响应特征图得分进行3D建模，如果建模显示相关性响应特征图得分异常，也就是说出现2个或大于2个波峰和没有波峰出现，则判别跟踪失败，启动重新探测模块，即在上一帧目标位置附近随机取与目标区域重叠面积大于70％的25个目标包围框，依次将这25个框对应的特征图与给定的目标区域特征图送入孪生网络进行相关卷积操作得到置信度，并进行排列，选择置信度最高的目标包围框作为跟踪目标的位置输出；当判别跟踪成功时，直接输出经过孪生网络微调后的目标位置。

步骤7，目标跟踪：将待跟踪目标视频的第一帧图像构建为目标区域，将其作为训练好的目标跟踪模型中孪生网络模块上支路的输入，并将待跟踪目标视频的后续每一帧图像作为目标跟踪模型孪生网络模块下支路的输入，目标跟踪模型输出准确的目标跟踪位置。

实施例2

本发明实施例提供了一种基于孪生循环神经网络的目标跟踪系统，包括：

视频获取模块，用于获取待跟踪目标视频；

本发明实施例的基于孪生循环神经网络的目标跟踪方法，充分利用了LSTM对高级视觉特征回归及解释的能力，将特征应用从空间域扩展到了时空域，利用跟踪目标的时空信息，通过LSTM回归出目标下一帧可能出现的位置和尺度，最后通过孪生网络结构对预测的位置进行微调，提高了目标跟踪的准确性和鲁棒性。

本发明还提供了一种计算机可读存储介质，其上存储有一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的一种基于孪生循环神经网络的目标跟踪方法。

本发明还提供了一种计算设备，包括：一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的一种基于孪生循环神经网络的目标跟踪方法的指令。

以上已以较佳实施例公布了本发明，然其并非用以限制本发明，凡采取等同替换或等效变换的方案所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于孪生循环神经网络的目标跟踪方法，其特征在于，所述方法包括如下步骤：

获取待跟踪目标视频；

2.根据权利要求1所述的方法，其特征在于，所述目标跟踪模型的构建方法，包括：

下支路提取的特征经全连接层送入循环神经网络模块；

3.根据权利要求2所述的方法，其特征在于，所述上支路、下支路的卷积神经网络均包含4个卷积层和4个最大池化层，4个卷积层卷积核的大小依次为7×7、5×5、3×3和3×3，卷积操作的步长设置为2；所述全连接层连接在4个卷积层和4个最大池化层之后，全连接层后面连接RELU层和BN层，全连接层的输出维度为512维。

4.根据权利要求2所述的方法，其特征在于，所述目标跟踪模型的训练方法，包括：

获取目标视频帧序列数据集；

5.根据权利要求4所述的方法，其特征在于，所述基于获取的训练集，训练孪生网络模块，包括：

6.根据权利要求4所述的方法，其特征在于，所述固定所述孪生网络模块参数，单独训练循环神经网络模块，包括：

7.根据权利要求4所述的方法，其特征在于，所述解除对孪生网络模块参数的固定，联合训练孪生网络模块和循环神经网络模块，包括：

8.根据权利要求2所述的方法，其特征在于，所述目标跟踪模型的构建方法，还包括：在目标跟踪模型中加入判别模块，所述判别模块对得到的相关性响应特征图进行得分评价，判别目标跟踪是否成功。

9.根据权利要求8所述的方法，其特征在于，所述判别模块对得到的相关性响应特征图进行得分评价，判别目标跟踪是否成功，包括：

所述判别模块，基于相关性响应特征图的得分进行3D建模，如果建模显示相关性响应特征图得分异常，则判别跟踪失败；启动重新探测，在上一帧图像目标位置附近随机选取与目标区域重叠面积大于70%的多个目标包围框，依次将多个目标包围框对应的特征图与给定的目标区域特征图送入孪生网络模块进行相关卷积操作得到置信度，并进行排列，选择置信度最高的目标包围框作为跟踪目标位置的输出；否则，判别跟踪成功，直接输出目标跟踪位置。

10.一种基于孪生循环神经网络的目标跟踪系统，其特征在于，包括：

视频获取模块，用于获取待跟踪目标视频；