CN109872346A

CN109872346A - 一种支持循环神经网络对抗学习的目标跟踪方法

Info

Publication number: CN109872346A
Application number: CN201910179822.3A
Authority: CN
Inventors: 韩光; 杜花; 高燕
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2019-06-11
Anticipated expiration: 2039-03-11
Also published as: CN109872346B

Abstract

一种支持循环神经网络对抗学习的目标跟踪方法，包括以下步骤：步骤1，构建目标跟踪生成对抗网络OTGAN模型；步骤2，预训练生成器，使其具有初步预测视频帧跟踪结果的能力；步骤3，预训练判别器，使其具有初步判别视频中运动目标运动轨迹真假的能力；步骤4，对抗训练目标跟踪生成对抗网络OTGAN。本发明将生成对抗网络和长短期记忆网络LSTM融合，形成了基于对抗训练的目标跟踪循环神经网络，将视频帧全局特征向量作为生成对抗网络的输入之一，而不是传统中将随机变量作为输入，从而学习到视频帧中目标信息，并学习从历史及当前视频帧信息到目标位置的映射关系，提升整体跟踪准确率；同时利用目标运动轨迹进行监督训练，能够极大地提升目标跟踪的准确率。

Description

一种支持循环神经网络对抗学习的目标跟踪方法

技术领域

本发明涉及一种支持循环神经网络对抗学习的目标跟踪方法，属于计算机视觉领域。

背景技术

目标跟踪是计算机视觉领域的重点和难点课题，一直以来都受到广泛关注，在无人机、智能交通、精确制导、机器人、人机交互等军用和民用领域都有着重要作用。目标跟踪的研究已有几十年的时间，目前也取得了不少成果。然而,尽管很多跟踪算法已经被提出，但是由于跟踪过程的复杂多变，同时实现实时、鲁棒跟踪仍然是一个巨大挑战。

基于深度学习的目标跟踪的研究在近几年发展迅速，同时考虑到利用视频序列之间的时间相关性，循环神经网络(Recurrent Neural Network)得到广泛关注。长短期记忆网络LSTM是一种RNN特殊的类型，可以学习长期依赖的信息。2017年，Ning G等人（Zhang Z,Huang C，“Spatially supervised recurrent convolutional neural networks forvisual object tracking”，IEEE International Symposium on Circuits and Systems.IEEE, 2017:1-4.）训练基于检测的循环神经网络应用于目标跟踪，但是基于检测的跟踪只能跟踪检测算法YOLO数据集中包含的20类目标，如猫、车等。Gordon D等人(Gordon ,A.Farhadi ,and D .Fox ,“Re3 : Real-Time Recurrent Regression Networks forObject Tracking ”,2017, PP(99):1-1 .)提出一种实时的循环回归网络(Re3)，离线训练了一个用于回归的长短时记忆网络，但离线训练所用视频包含的目标千差万别，这种方法很难学习到一个通用的模型来描述所有目标形态和动作的变化。

发明内容

本发明的目的在于：提供一种支持循环神经网络对抗学习的目标跟踪方法，利用LSTM对高级视觉特征解释、回归能力，将深度神经网络分析延展到时空域，并利用生成对抗网络进行训练，提高了目标跟踪的实时性和鲁棒性。

一种支持循环神经网络对抗学习的目标跟踪方法，该方法包括以下步骤：

步骤1，构建目标跟踪生成对抗网络OTGAN模型；

步骤2，预训练生成器，使其具有初步预测视频帧跟踪结果的能力；

步骤3，预训练判别器，使其具有初步判别视频中运动目标运动轨迹真假的能力；

步骤4，对抗训练目标跟踪生成对抗网络OTGAN。

进一步地，所述步骤1中目标跟踪生成对抗网络OTGAN模型包括生成器和判别器，所述生成器用于生成视频帧跟踪结果，所述判别器用于判别输入是真实运动轨迹还是由生成器生成的跟踪结果构成的运动轨迹。

进一步地，所述生成器包括用于提取视频帧全局特征的卷积网络和跟踪网络；所述卷积网络包括5个卷积层，3个最大池化层，1层全连接层，卷积层卷积核大小依次为11×11、5×5、3×3、3×3、3×3，最大池化层池化核为2×2，全连接层输出维度为4096维；所述跟踪网络由长短期记忆网络LSTM构成，所述长短期记忆网络LSTM输入参数包括：第i帧隐藏状态h_i、第i帧细胞状态c_i、所述卷积网络产生的4096维特征，得到的跟踪坐标为LSTM网络回归的向量最后四个参数构成的4维向量P_i=[x_i,y_i,w_i,h_i]，其中(x_i,y_i)为跟踪目标矩形框的中心坐标，(w_i,h_i)分别为跟踪目标矩形框的宽和高。

进一步地，所述判别器由双向LSTM网络和全连接层构成。

进一步地，所述步骤2中所述预训练生成器采用Adam优化算法，所述LSTM网络的输入是当前视频帧的全局特征向量和前一帧的输出状态；在所述预训练过程中，对序列长度采用一种特殊机制，即从短序列开始展开，从训练数据中随机抽取样本，最终用越来越长的序列对模型进行训练。

进一步地，所述步骤3中所述预训练判别器采用随机梯度下降法SGD (StochasticGradient Descent)，所述判别器的输入由真实运动轨迹与生成器生成的虚假轨迹构成。

进一步地，所述步骤4中所述对抗训练由所述生成器和所述判别器交替训练，所述训练包括以下步骤：

步骤4-1：将待跟踪视频帧图像输入所述生成器，得到预测的跟踪结果，将所得的跟踪结果构成的运动轨迹输入所述判别器，所述判别器判别该轨迹为真实轨迹的概率，根据所述判别器返回的判别概率迭代训练所述生成器的网络参数；

步骤4-2：将由所述生成器预测得到的跟踪结果构成的虚假运动轨迹标记为0，真实视频运动轨迹标记为1，共同组成所述判别器的训练集来训练所述判别器。

进一步地，所述交替训练需要调节所述生成器和所述判别器的训练次数，当所述判别器的训练损失小于所述生成器训练损失的70%时，暂时停止所述判别器的更新，不断交替直至网络均衡。

本发明有益效果为：本发明将生成对抗网络和长短期记忆网络LSTM融合，形成了基于对抗训练的目标跟踪循环神经网络，将视频帧全局特征向量作为生成对抗网络的输入之一，而不是传统中将随机变量作为输入，从而学习到视频帧中目标信息，并学习从历史及当前视频帧信息到目标位置的映射关系，提升整体跟踪准确率；同时利用目标运动轨迹进行监督训练，能够极大地提升目标跟踪的准确率。

附图说明

图1为本发明的一种支持循环神经网络对抗学习的目标跟踪方法的方法流程图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

步骤1，构建目标跟踪生成对抗网络OTGAN模型。

步骤1中目标跟踪生成对抗网络OTGAN模型包括生成器和判别器，所述生成器用于生成视频帧跟踪结果，所述判别器用于判别输入是真实运动轨迹还是由生成器生成的跟踪结果构成的运动轨迹。

生成器包括用于提取视频帧全局特征的卷积网络和跟踪网络；所述卷积网络包括5个卷积层，3个最大池化层，1层全连接层，卷积层卷积核大小依次为11×11、5×5、3×3、3×3、3×3，最大池化层池化核为2×2，全连接层输出维度为4096维；所述跟踪网络由长短期记忆网络LSTM构成，所述长短期记忆网络LSTM输入参数包括：第i帧隐藏状态h_i、第i帧细胞状态c_i、所述卷积网络产生的4096维特征，得到的跟踪坐标为LSTM网络回归的向量最后四个参数构成的4维向量P_i=[x_i,y_i,w_i,h_i]，其中(x_i,y_i)为跟踪目标矩形框的中心坐标，(w_i,h_i)分别为跟踪目标矩形框的宽和高。

判别器由双向LSTM网络和全连接层构成。

步骤2，预训练生成器，使其具有初步预测视频帧跟踪结果的能力。

所述预训练生成器采用Adam优化算法，所述LSTM网络的输入是当前视频帧的全局特征向量和前一帧的输出状态；在所述预训练过程中，对序列长度采用一种特殊机制，即从短序列开始展开，从训练数据中随机抽取样本，最终用越来越长的序列对模型进行训练。

步骤3，预训练判别器，使其具有初步判别视频中运动目标运动轨迹真假的能力。

所述预训练判别器采用随机梯度下降法SGD (Stochastic Gradient Descent)，所述判别器的输入由真实运动轨迹与生成器生成的虚假轨迹构成。

步骤4，对抗训练目标跟踪生成对抗网络OTGAN。

所述对抗训练由所述生成器和所述判别器交替训练，所述训练包括以下步骤：

步骤4-1：将待跟踪视频帧图像输入所述生成器，得到预测的跟踪结果，将所得的跟踪结果构成的运动轨迹输入所述判别器，所述判别器判别该轨迹为真实轨迹的概率，根据所述判别器返回的判别概率迭代训练所述生成器的网络参数。

所述交替训练需要调节所述生成器和所述判别器的训练次数，当所述判别器的训练损失小于所述生成器训练损失的70%时，暂时停止所述判别器的更新，不断交替直至网络均衡。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种支持循环神经网络对抗学习的目标跟踪方法，其特征在于：该方法包括以下步骤：

步骤1，构建目标跟踪生成对抗网络OTGAN模型；

步骤4，对抗训练目标跟踪生成对抗网络OTGAN。

2.根据权利要求1所述的一种支持循环神经网络对抗学习的目标跟踪方法，其特征在于：所述步骤1中目标跟踪生成对抗网络OTGAN模型包括生成器和判别器，所述生成器用于生成视频帧跟踪结果，所述判别器用于判别输入是真实运动轨迹还是由生成器生成的跟踪结果构成的运动轨迹。

3.根据权利要求2所述的一种支持循环神经网络对抗学习的目标跟踪方法，其特征在于：所述生成器包括用于提取视频帧全局特征的卷积网络和跟踪网络；所述卷积网络包括5个卷积层，3个最大池化层，1层全连接层，卷积层卷积核大小依次为11×11、5×5、3×3、3×3、3×3，最大池化层池化核为2×2，全连接层输出维度为4096维；所述跟踪网络由长短期记忆网络LSTM构成，所述长短期记忆网络LSTM输入参数包括：第i帧隐藏状态h_i、第i帧细胞状态c_i、所述卷积网络产生的4096维特征，得到的跟踪坐标为LSTM网络回归的向量最后四个参数构成的4维向量P_i=[x_i,y_i,w_i,h_i]，其中(x_i,y_i)为跟踪目标矩形框的中心坐标，(w_i,h_i)分别为跟踪目标矩形框的宽和高。

4.根据权利要求2所述的一种支持循环神经网络对抗学习的目标跟踪方法，其特征在于：所述判别器由双向LSTM网络和全连接层构成。

5.根据权利要求1所述的一种支持循环神经网络对抗学习的目标跟踪方法，其特征在于：所述步骤2中所述预训练生成器采用Adam优化算法，所述LSTM网络的输入是当前视频帧的全局特征向量和前一帧的输出状态；在所述预训练过程中，对序列长度采用一种特殊机制，即从短序列开始展开，从训练数据中随机抽取样本，最终用越来越长的序列对模型进行训练。

6. 根据权利要求1所述的一种支持循环神经网络对抗学习的目标跟踪方法，其特征在于：所述步骤3中所述预训练判别器采用随机梯度下降法SGD (Stochastic GradientDescent)，所述判别器的输入由真实运动轨迹与生成器生成的虚假轨迹构成。

7.根据权利要求1所述的一种支持循环神经网络对抗学习的目标跟踪方法，其特征在于：所述步骤4中所述对抗训练由所述生成器和所述判别器交替训练，所述训练包括以下步骤：

8.根据权利要求7所述的一种支持循环神经网络对抗学习的目标跟踪方法，其特征在于：所述交替训练需要调节所述生成器和所述判别器的训练次数，当所述判别器的训练损失小于所述生成器训练损失的 70%时，暂时停止所述判别器的更新，不断交替直至网络均衡。