CN108681774A

CN108681774A - 基于生成对抗网络负样本增强的人体目标跟踪方法

Info

Publication number: CN108681774A
Application number: CN201810450684.3A
Authority: CN
Inventors: 周雪; 周琦栋; 邹见效; 徐红兵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2018-10-19
Anticipated expiration: 2038-05-11
Also published as: CN108681774B

Abstract

本发明公开了一种基于生成对抗网络负样本增强的人体目标跟踪方法，分别对构建的DRAGAN网络模型和MDNet算法模型进行预训练，然后采用首帧标定的人体目标的目标矩形框对MDNet算法模型进行初始化，并初始化MDNet算法模型的样本队列和DRAGAN网络模型的训练集，持续采用MDNet算法模型进行跟踪；当DRAGAN网络模型完成首次更新训练后，采用其生成器网络生成一批负样本，作为MDNet算法模型更新训练时所采用的负样本的一部分，根据需要对MDNet算法模型进行更新训练，并周期性地采用根据跟踪结果得到的正样本对DRAGAN网络模型进行更新训练。本发明能够提高MDNet算法模型对人体目标跟踪的准确度，抑制跟踪漂移，增强算法鲁棒性。

Description

基于生成对抗网络负样本增强的人体目标跟踪方法

技术领域

本发明属于目标跟踪技术领域，更为具体地讲，涉及一种基于生成对抗网络负样本增强的人体目标跟踪方法。

背景技术

作为计算机视觉领域最具挑战性的关键技术之一，目标跟踪技术在智能监控、人机交互、无人驾驶、虚拟现实甚至是军事等诸多领域都有着广泛的应用。随着社会经济的高速发展，尽管各行各业逐渐实现信息化机械化，但仍然需要大量的人力。同时各种公共、休闲娱乐场所也在不断的增加，人们在公共场所的活动越发频繁。如何在公共场所及重要的工业生产等环境中实现对人体目标跟踪一直是计算机视觉领域中的热门应用问题。

现有的目标跟踪算法根据目标的表观模型可以分为生成及判别模型跟踪算法。生成模型跟踪算法着重于学习目标的外观，将目标候选区域的图像与外观模型进行对比，跟踪结果即为误差最小的候选目标。经典的生成模型跟踪算法有基于卡尔曼滤波和粒子滤波的跟踪，还有MeanShift跟踪算法等等。生成模型跟踪算法只关注跟踪目标自身，忽略了背景信息，当目标被遮挡或发生剧烈变化时易发生跟踪漂移。与之相对的，判别模型跟踪算法着眼于区分跟踪目标与背景，即是二分类问题。这类方法主要是设计具有鲁棒性的分类器，通过训练使之能够将目标从背景中分类出来。近年来目标跟踪领域以判别模型跟踪算法为主，大多都是基于tracking-by-detection思想。经典的判别类算法有Struck和TLD(Tracking-Learning-Detection)算法等，而目前主流的跟踪算法主要是基于相关滤波的目标跟踪算法以及基于深度学习的目标跟踪算法。

基于深度学习的目标跟踪算法主要分为三类：基于模板匹配原理的算法，典型的是全卷积孪生网络SiameseFC(Fully-Convolutional Siamese networks)；基于机器学习回归算法的算法，代表作是GOTURN(Generic Object Tracking Using RegressionNetworks)；最后是基于传统分类原理的算法，最为典型的是MDNet(Multi-DomainNetworks)。前两种算法都只采用了离线训练网络的方式，在线跟踪算法实时性强，但跟踪效果不够理想。MDNet针对跟踪任务设计了小型的卷积神经网络，包含了模型的在线更新环节，跟踪效果较好。MDNet指出跟踪中用于训练观测模型的生成负样本与目标关联较小，干扰性差，冗余度较高，因此MDNet中使用了难例挖掘方法对负样本进行处理。但是负样本仍然是通过简单采样获得，样本间存在冗余，干扰性不强。

生成对抗网络(Generative Adversarial Nets，GAN)模型由Ian Goodfellow在2014年首次提出，其核心思想是基于博弈论的二人零和博弈(即一方的收益必然意味着另一方的损失，博弈双方的收益和损失相加总和永远为零)。GAN的主要目的是利用判别器网络辅助生成器网络生成与真实样本数据分布相似的伪数据。两个网络模型采用梯度交替更新策略(alternating gradient updates procedure,AGD)训练，相互对抗竞争，最终达到纳什均衡。随着对GAN基本原理与模型结构的研究，基于GAN的应用也越来越多。除了最为常见的用于样本增强的图像生成之外，GAN还被应用于图像合成、编辑，表征学习等等。而添加了条件约束的CGAN的基本思想原理，也被成功应用于文字图像转换、图像填充、数据预测甚至是视频及3D数据等领域，但是尚未应用于人体目标跟踪领域。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于生成对抗网络负样本增强的人体目标跟踪方法，将生成对抗网络融入到基于深度学习的MDNet算法模型中，提高MDNet算法模型对人体目标跟踪的准确度，抑制跟踪漂移，增强算法鲁棒性。

为实现上述发明目的，本发明基于生成对抗网络负样本增强的人体目标跟踪方法，包括以下步骤：

S1：分别对构建的DRAGAN网络模型和MDNet算法模型进行预训练；

S2：在首帧包含人体目标的图像中标定人体目标的目标矩形框，根据目标矩形框在首帧图像上采集得到若干正样本和负样本，对MDNet算法模型进行初始化；分别从以上正样本和负样本中选择部分样本添加至MDNet算法模型的样本队列S，将以上所有正样本保存至DRAGAN网络模型的训练数据集T；

S3：判断是否达到DRAGAN网络模型的更新周期，如果未达到，进入步骤S4，否则进入步骤S5；

S4：采用MDNet算法模型对当前帧图像进行人体目标跟踪，如果跟踪成功，根据跟踪结果采集获得若干正样本和若干负样本添加至样本队列S，另外将所采集的正样本添加至DRAGAN网络模型的训练数据集T中；然后判断是否达到MDNet算法模型的长期更新周期，如果未到达，则不作任何操作，否则利用样本队列中的全部样本对MDNet算法模型进行长期更新训练；如果跟踪失败，采用样本队列中的部分样本对MDNet算法模型进行更新训练；返回步骤S3；

S5：利用训练数据集T中的数据对DRAGAN网络模型进行首次更新训练；

S6：对当前帧采用MDNet算法模型进行人体目标跟踪；

S7：判断步骤S6中是否跟踪成功，如果不成功，进入步骤S8，否则进入步骤S9；

S8：采用样本队列中的部分样本对MDNet算法模型进行更新训练，返回步骤S6；

S9：将样本队列S中的负样本全部清除；

S10：根据跟踪结果采集获得若干正样本和若干负样本添加至样本队列S，将所采集的正样本添加至DRAGAN网络模型的训练数据集T中；采用DRAGAN网络模型中的生成器网络生成若干样本，作为负样本添加至样本队列S；

S11：判断是否达到MDNet算法模型的长期更新周期，如果未到达，则不作任何操作，否则利用样本队列S中的全部样本对MDNet算法模型进行长期更新训练；

判断是否达到DRAGAN模型的更新周期，如果未到达，则不作任何操作，否则利用训练数据集T中的数据对DRAGAN网络模型进行更新训练；

S12：对当前帧采用MDNet算法模型进行人体目标跟踪；

S13：判断步骤S12中是否跟踪成功，如果不成功，进入步骤S14，否则返回步骤S10；

S14：采用样本队列中的部分样本对MDNet算法模型进行更新训练，返回步骤S12。

本发明基于生成对抗网络负样本增强的人体目标跟踪方法，分别对构建的DRAGAN网络模型和MDNet算法模型进行预训练，然后采用首帧标定的人体目标的目标矩形框对MDNet算法模型进行初始化，并初始化MDNet算法模型的样本队列和DRAGAN网络模型的训练集，持续采用MDNet算法模型进行跟踪；当DRAGAN网络模型完成首次更新训练后，采用其生成器网络生成一批负样本，作为MDNet算法模型更新训练时所采用的负样本的一部分，根据需要对MDNet算法模型进行更新训练，并周期性地采用根据跟踪结果得到的正样本对DRAGAN网络模型进行更新训练。

本发明通过与目标联系紧密的正样本作为训练数据对DRAGAN网络模型进行训练，然后采用DRAGAN网络模型生成负样本，增加负样本的丰富度，提高与目标的关联性和干扰性，降低样本冗余度。然后将DRAGAN网络模型生成的负样本融入到MDNet算法模型的更新训练中，提高MDNet算法模型对人体目标跟踪的准确度，抑制跟踪漂移，增强算法鲁棒性。

附图说明

图1是本发明基于生成对抗网络负样本增强的人体目标跟踪方法的具体实施方式流程图；

图2是本实施例中所采用的DRAGAN网络模型结构图；

图3是CASIA步态数据库Dataset A数据集样本示例图；

图4是本实施例中跟踪序列样例图；

图5是本实施例中四种方法在OTB人体目标跟踪测试集的区域重合率统计对比图；

图6是本实施例中四种方法在OTB人体目标跟踪测试集的中心位置误差统计对比图；

图7是本实施例中两种负样本增强在OTB人体目标跟踪测试集的区域重合率统计对比图；

图8是本实施例中两种负样本增强在OTB人体目标跟踪测试集的中心位置误差统计对比图；

图9是本实施例中TLD算法在视频序列中的目标矩形框跟踪结果图；

图10是本实施例中KCF算法在视频序列中的目标矩形框跟踪结果图；

图11是本实施例中MDNet算法在视频序列中的目标矩形框跟踪结果图；

图12是本实施例中本发明在视频序列中的目标矩形框跟踪结果图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于生成对抗网络负样本增强的人体目标跟踪方法的具体实施方式流程图。如图1所示，本发明基于生成对抗网络负样本增强的人体目标跟踪方法的具体步骤包括：

S101：模型预训练：

分别对DRAGAN(Deep Regret Analytic Generative Adversarial Networks，基于深度无悔分析理论的生成对抗网络)网络模型和MDNet算法模型进行预训练。

DRAGAN网络模型主要分为两部分，一部分是生成器网络，另一部分是判别器网络。生成器网络的主要作用是根据输入的随机噪声，生成与真实样本数据分布相似的伪数据。而判别器网络的主要作用是对输入的真实图像与生成图像进行分类，指出输入所属的正确类别。DRAGAN网络模型的具体结构可以根据需要设置。

图2是本实施例中所采用的DRAGAN网络模型结构图。如图2所示，本实施例中所采用的DRAGAN网络模型中，生成器网络包含主要使用深度学习中的反卷积结构搭建而成。反卷积层是卷积层的相反操作，即将低维空间数据映射到高维空间。假设输入特征图大小为i*i，卷积核大小为k，卷积核移动步幅为s，特征图边界填充为p，输出特征图大小为o*o，那么反卷积层特征图输入与输出的关系为：

o＝s(i-1)+k-2p

本实施例中DRAGAN网络模型的生成器网络包含一个线性单元和四层反卷积层(Deconv1～Deconv4)，线性单元的输入为100维的随机噪声，实际在算法中实现时输入即为维度为1*100的随机数，线性单元包括线性变换、批规范化(batch normalization)处理以及ReLU激活函数，输出维度为1*8192。然后将维度变换为1*512*4*4输入到后续的第一层反卷积层中。四层反卷积层依次连接，前三层包括反卷积、批规范化(batch normalization)处理以及ReLU激活函数，最后一层包括反卷积和Tanh激活函数。反卷积操作的参数相同，卷积核大小为5*5，卷积核移动步幅为2，特征图边界填充为2，无偏置。输入经过四层反卷积层结构处理后，每层的输出特征图维度分别为1*256*8*8、1*128*16*16、1*64*32*32、1*3*64*64。最终输出即为一张对应一个100维随机噪声输入，大小为64*64的彩色图像(3通道)。

本实施例中DRAGAN网络模型的判别器网络主要使用深度学习中的卷积结构搭建而成，假设输入特征图大小为i*i，卷积核大小为k，卷积核移动步幅为s，特征图边界填充为p，输出特征图大小为o*o，那么卷积层特征图输入与输出的关系为：

本实施例中DRAGAN网络模型的判别器网络输入为大小为64*64的3通道彩色图像，即输入维度为1*3*64*64。判别器网络包含五层卷积层结构，其中第一层包括卷积和LeakyReLu激活函数，第二层到第四层包括卷积、实例规范化(Instance normalization)处理以及LeakyReLU激活函数，最后一层仅包含卷积操作。前四层卷积操作的参数相同，卷积核大小为5*5，卷积核移动步幅为2，特征图边界填充为2，无偏置。最后一层的卷积操作使用大小为5*5的卷积核，卷积核移动步幅为1，无边界填充和偏置。输入经过五层卷积层结构处理后输出维度分别为1*64*32*32、1*128*16*16、1*256*8*8、1*512*4*4、1*1*1*1。本实施例中最终输出没有使用激活函数处理，是因为在后续网络训练采用了融合Sigmoid激活函数的损失函数。

MDNet算法模型本实施例中直接采用的经典模型，其详细说明请见参考文献“Hyeonseob Nam and Bohyung Han,Learning Multi-Domain Convolutional NeuralNetworks for Visual Tracking,IEEE Conference on Computer Vision and PatternRecognition(CVPR),Las Vegas,NV,2016”。

在构建好两个模型后，需要对其进行预训练。本实施例中DRAGAN预训练使用的训练数据集为中国科学院自动化研究所的CASIA步态数据库中的Dataset A数据集。DatasetA中共有20个不同的人体目标数据，每个目标中包含帧数各不相同的12个视频序列。图3是CASIA步态数据库Dataset A数据集样本示例图。Dataset A数据集包含13139副图像，大小约2.2GB。在对DRAGAN网络模型进行预训练时，将训练数据集图片尺寸统一调整为64*64大小，并对数据进行归一化处理。网络的训练学习率为0.0002，批训练集大小为64，网络训练迭代200次。生成器与判别器网络初始化参数均值为0，均方差为0.02。网络训练优化采用Adam优化算法，其中学习率为0.0002，梯度相关参数均值为0.9，均方差0.999，LeakyReLu参数为0.2。

本实施例中，判别器网络使用了针对二分类问题的交叉熵损失函数，其中融合了Sigmoid激活函数层，这种结合Sigmoid激活函数的损失函数计算相比分开操作更加稳定，这也是在构建判别器网络时没有使用激活函数的原因。为了生成具有多样性的负样本，判别器网络对优化中的梯度变化进行了规范约束，即梯度惩罚。在判别器网络对应的损失函数中添加梯度惩罚项，公式如下：

其中，λ为梯度惩罚项在损失函数中的权重，本实施例中设置λ的值为10，E表示期望，x～p_data为真实数据，δ～N_d(0,cI)为添加噪声，表示将判别器的梯度的范数限制在常数k附近，本实施例中k值取1。这种正则化方式本质上是一种梯度裁剪，可以通过这种方法避开局部最优解，获得更稳定的GAN训练。判别器与生成器网络训练所用的损失函数分别如下：

其中与表示原始生成对抗网络判别器与生成器的损失函数，具体如下：

DRAGAN网络模型的训练采用梯度交替更新策略最小化各部分的损失函数，即首先判别器网络输入真实图像与生成器网络生成的图像，计算其损失函数从而进行网络优化。判别器网络优化完成后，生成器网络输入随机噪声，然后将其生成的图像输入判别器网络，计算其损失函数从而进行网络优化。两个网络依次相互交替进行训练。

MDNet算法模型的预训练使用VOT(Visual Object Tracking)数据集，VOT数据集是基于VOT竞赛的目标跟踪数据集，仅包含彩色图像序列，分辨率普遍较高。MDNet算法模型的预训练使用了VOT数据集中的58个视频序列，网络共迭代5800次，卷积层学习率为0.0001，全连接层学习率为0.001。训练中批训练的构成是从某一视频序列中随机采8帧图片，在这8帧图片上随机采集32个正样本和96个负样本，即批训练是由某一视频序列的128个样本图像构成。

完成DRAGAN网络模型和MDNet算法模型的模型预训练后，需要将两者进行融合，得到基于DRAGAN负样本增强的人体目标跟踪算法。DRAGAN网络模型需要融合到MDNet算法模型的在线更新环节，原MDNet算法模型的模型训练使用的正负样本是通过对目标周围图像按照高斯及均匀分布采样获得，添加了DRAGAN网络模型之后，MDNet算法模型更新使用的负样本还包括了DRAGAN生成器网络生成的目标负样本。但是预训练得到的DRAGAN网络模型中的生成器网络只能生成对应训练集的通用图像，即生成的图像与跟踪任务中指定的跟踪目标无关，为了能让生成器网络生成对应目标的负样本，本发明需要在DRAGAN网络模型融合到MDNet算法模型之后，同样对其进行网络的在线更新训练，完成生成通用(general)图像到特定(specific)图像的转换。下面具体描述融合DRAGAN网络模型及MDNet算法模型的具体流程。

S102：模型初始化：

在首帧包含人体目标的图像中标定人体目标的目标矩形框，根据目标矩形框在首帧图像上采集得到若干正样本和负样本，对MDNet算法模型进行初始化。在采集样本时采用三种方法获取：分别按照高斯和均匀分布采集若干正样本和若干负样本，然后随机采集若干正样本和若干负样本。MDNet算法模型的初始化包括两个部分，一是通过正样本训练目标矩形框的回归模型，二是采用以上所有正样本和负样本对MDNet算法模型参数进行更新训练。分别从以上正样本和负样本中选择部分样本添加至样本队列S，将以上所有正样本保存至DRAGAN网络模型的训练数据集T。

本实施例中，在首帧图像上采集500个正样本和5000个负样本，MDNet算法模型参数进行更新训练时，其中卷积层参数固定不变，全连接层共迭代30次，第四层和第五层全连接层学习率为0.0001，第六层学习率为0.001。从首帧图像的样本中选择50个正样本及200个负样本添加至样本队列S。

S103：判断当前帧序号是否达到DRAGAN网络模型的首次更新周期，本实施例中设置DRAGAN网络模型的更新周期为50帧。如果未达到，进入步骤S104，否则进入步骤S105。

S104：MDNet算法模型进行人体目标跟踪并更新：

采用MDNet算法模型对当前帧图像进行人体目标跟踪。本实施例中在采用MDNet算法模型对当前帧图像进行人体目标跟踪时，根据上一帧图像的目标位置信息，对当前帧图像生成按照高斯分布的256个目标候选区域，输入MDNet算法模型获得得分，当最高的5个得分的均值大于阈值时，则判断跟踪成功，则将5个目标矩形框融合，并对其进行回归得到当前帧的跟踪结果，否则判断跟踪失败。

如果跟踪成功，根据跟踪结果按照高斯及均匀分布采集获得若干正样本和若干负样本添加至样本队列S，另外将正样本添加至DRAGAN网络模型的训练数据集T中。本实施例中对跟踪成功的图像，采集50个正样本和200个负样本。一般来说样本队列会存在一定容量，本实施例中样本队列可以保存100帧图像的正样本和20帧图像的负样本，当样本数量超出容量时，会根据样本添加的先后进行删除，保留较新的样本。对样本进行更新后，判断是否达到MDNet算法模型的长期更新周期，本实施例中长期更新周期设置为10帧，如果未到达，则不作任何操作，否则利用样本队列中的全部样本对MDNet算法模型进行更新训练。

如果跟踪失败，则会触发MDNet算法模型的短期更新，即采用样本队列中的部分样本对MDNet算法模型进行更新训练。本实施例中采用前20帧的正样本和全部负样本(同样为前20帧)对MDNet算法模型进行短期更新训练。

无论是否更新或作何种更新，均返回步骤S103。

本实施例中MDNet算法模型进行长期更新和短期更新的训练迭代次数为10次，卷积层参数同样保持不变，全连接层学习率为初始化学习率的三倍。动量和梯度衰减参数设置为0.9和0.0005。在实际应用中，每次训练的批数据可以只采用所选样本中的部分，数量根据实际需要设置。本实施例中每次训练的批数据包含32个正样本和96个经过难例挖掘方法筛选的负样本。

S105：DRAGAN网络模型首次更新训练：

利用训练数据集T中的数据对DRAGAN网络模型进行首次更新训练。本实施例中DRAGAN网络模型首次更新训练的训练迭代次数为20次，其他参数与预训练过程相同。

S106：MDNet算法模型进行人体目标跟踪：

对当前帧采用MDNet算法模型进行人体目标跟踪。

S107：判断是否跟踪成功，如果是，进入步骤S108，否则进入步骤S109；

S108：MDNet算法模型短期更新：

对MDNet算法模型进行短期更新，即采用样本队列中的部分样本对MDNet算法模型进行更新训练，返回步骤S106。

S109：清除样本队列负样本：

将样本队列S中的负样本全部清除。

S110：基于DRAGAN网络模型生成新样本：

根据跟踪结果采集获得若干正样本和若干负样本添加至样本队列S，将所采集的正样本添加至DRAGAN网络模型的训练数据集T中；采用DRAGAN网络模型中的生成器网络生成若干样本，作为负样本添加至样本队列S。

本实施例中对跟踪成功的图像，采集50个正样本和200个负样本，DRAGAN网络模型中的生成器网络生成200个负样本。因此用于MDNet算法模型更新的负样本不仅包括跟踪算法采集的负样本，还包括DRAGAN网络模型生成的负样本。

S111：模型更新：

判断是否达到MDNet算法模型的长期更新周期，如果未到达，则不作任何操作，否则利用样本队列S中的全部样本对MDNet算法模型进行长期更新训练。

判断是否达到DRAGAN网络模型的更新周期，如果未到达，则不作任何操作，否则利用训练数据集T中的数据对DRAGAN网络模型进行更新训练。

S112：MDNet算法模型进行人体目标跟踪：

对当前帧采用MDNet算法模型进行人体目标跟踪。

S113：判断步骤S112中是否跟踪成功，如果不成功，进入步骤S114，否则返回步骤S110。

S114：MDNet算法模型短期更新：

对MDNet算法模型进行短期更新，即采用样本队列中的部分样本对MDNet算法模型进行更新训练，返回步骤S112。

很显然，在步骤S111和步骤S114MDNet算法模型的更新训练中，所使用的负样本不仅来自于根据跟踪结果采集的负样本，而且还来自于DRAGAN网络模型中生成器网络生成的负样本。由于本发明中DRAGAN网络模型的训练数据是与目标联系紧密的正样本，因此生成器网络生成的负样本是从数据分布的角度去拟合真实的样本数据，相比于通过简单采样只是位置及尺度的变化，前者所提供的信息更多，与跟踪目标关联更加紧密，可以使MDNet算法模型的训练样本更加丰富。通过将DRAGAN网络模型融入到MDNet算法模型中，可以使训练得到的MDNet算法模型分类能力更强，针对极易发生变化的人体目标跟踪发生跟踪漂移的可能性更小，跟踪更具鲁棒性。

为了更好地说明本发明的技术效果，采用一个OTB数据集对本发明进行实验验证。本次实验验证采用OTB数据集中跟踪目标为人体的31个视频序列作为测试集，对应33个跟踪任务(有两个视频序列分别包含两个跟踪目标)，长时间跟踪任务(跟踪序列超过500帧)共有10个。图4是本实施例中跟踪序列样例图。

本次实验选用了TLD(Tracking-Learning-Detection)、KCF(High-speedTracking With Kernelized Correlation Filters)以及原MDNet算法这三种算法作为对比方法。各方法跟踪效果的评价方式选用OPE(one-pass evaluation)一次性测评，即在实验的算法程序中预先给定随机种子，去除算法的随机性，然后一次性完成测试。OPE中包含了矩形区域重合率和中心位置误差两个算法评价指标，其中以矩形区域重合率为主，OPE结果曲线分别是对矩形区域重合率和中心位置误差进行统计描述。其中关于目标矩形区域重合率的统计分析结果曲线图，横坐标代表不同的目标矩形区域重合率阈值，纵坐标为大于对应阈值的跟踪帧数占总实验帧数的百分比，称之为成功率(success rate)，一般重合率固定阈值选择0.5。中心位置误差的统计分析结果曲线图，其横坐标代表不同的目标中心位置误差阈值，纵坐标为小于对应阈值的跟踪帧数占总实验帧数的百分比，称之为精度(precision)，一般中心位置误差阈值选择20像素。

图5是本实施例中四种方法在OTB人体目标跟踪测试集的区域重合率统计对比图。图6是本实施例中四种方法在OTB人体目标跟踪测试集的中心位置误差统计对比图。图5和图6中去除一些DRAGAN网络模型未生效时跟踪算法出现跟踪漂移问题的视频序列。从图5和图6中可以看出，原MDNet算法及本发明融合了DRAGAN负样本增强的人体目标跟踪方法效果远超过TLD及KCF算法，而本发明也比原MDNet算法要好。在对目标矩形区域重合率的统计结果曲线中，可以看出本发明在重合率大于0附近的值为1，这说明本发明在跟踪测试集中一直能保持对目标的跟踪，而原MDNet存在跟踪丢失的情况(即重合率为0)。图5和图6中算法标签中对应的值是根据两个算法评价指标选择的固定阈值得到的，从图5和图6中可看出本发明相较于原MDNet算法，区域重合率和中心位置误差统计分别提高了12％和7％。这个实验结果说明本发明的跟踪结果更加准确，跟踪漂移程度更小。

为了进一步验证本发明所使用的基于生成对抗网络的负样本增强方法在人体目标跟踪算法中的有效性，对原MDNet算法的模型更新环节中额外添加了200个基于难例挖掘机制得到的负样本，与本发明进行对比，验证本发明中利用DRAGAN网络模型生成的200个负样本对MDNet算法模型更新训练的有效性。图7是本实施例中两种负样本增强在OTB人体目标跟踪测试集的区域重合率统计对比图。图8是本实施例中两种负样本增强在OTB人体目标跟踪测试集的中心位置误差统计对比图。从图7和图8中可以看出，本发明对跟踪性能的优化和提升明显好于基于难例挖掘机制额外添加200个负样本的原MDNet算法，添加了200个基于难例挖掘负样本的MDNet算法性能在两个评价指标上只比原MDNet算法提高了2％，而本发明则是分别提高了6％和3％。这说明了使用DRAGAN网络模型的生成器网络生成的负样本包含更多目标的信息，更加具有干扰性，以此更新训练得到的MDNet算法模型分类能力更强，跟踪效果更好。而且使用难例挖掘机制的负样本的明显缺点是负样本来自均匀采样，当采集样本量较大时，采集的样本间变化较小，冗余较大，对MDNet算法模型的更新训练帮助不大。

为了直观地展示本发明和三种对比方法的跟踪效果，接下来列出四种方法在几个跟踪视频序列中的跟踪结果图。图9是本实施例中TLD算法在视频序列中的目标矩形框跟踪结果图。图10是本实施例中KCF算法在视频序列中的目标矩形框跟踪结果图。图11是本实施例中MDNet算法在视频序列中的目标矩形框跟踪结果图。图12是本实施例中本发明在视频序列中的目标矩形框跟踪结果图。如图9至图12所示，本实施例中包含了Basketball、BlurBody和Human4三个视频序列，图中每幅图像的右上角数字代表视频序列的帧数。可以看出在三个视频序列中TLD算法的跟踪效果十分不稳定，而KCF算法对于运动变化较为剧烈的目标跟踪效果不理想。原MDNet算法在Basketball序列中第654帧时出现跟踪错误目标的情况，而在Human4序列中第147帧时出现跟踪丢失情况。本发明在三个视频中都有较好的跟踪效果，相较于其他算法鲁棒性更强，不易出现跟踪错误目标或跟踪丢失的情况。而且改进算法的跟踪目标矩形框位置更加接近人体目标的真实位置，出现跟踪漂移的程度更小，更加适合于长时间人体目标跟踪。

通过在OTB人体目标跟踪数据集上的测试，可以发现本发明对人体目标的跟踪效果有了显著的提升，可以有效地提高跟踪算法对人体目标跟踪的鲁棒性，减少跟踪错误目标或跟踪丢失的情况，降低跟踪过程中的跟踪漂移程度，在长时间人体目标跟踪中取得了更好的跟踪效果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于生成对抗网络负样本增强的人体目标跟踪方法，其特征在于，包括以下步骤：

S1：分别对构建的DRAGAN网络模型和MDNet算法模型进行预训练；

S2：在在首帧包含人体目标的图像中标定人体目标的目标矩形框，根据目标矩形框在首帧图像上采集得到若干正样本和负样本，对MDNet算法模型进行初始化；分别从以上正样本和负样本中选择部分样本添加至MDNet算法模型的样本队列S，将以上所有正样本保存至DRAGAN网络模型的训练数据集T；

S6：对当前帧采用MDNet算法模型进行人体目标跟踪；

S9：将样本队列S中的负样本全部清除；

S12：对当前帧采用MDNet算法模型进行人体目标跟踪；

2.根据权利要求1所述的人体目标跟踪方法，其特征在于，所述DRAGAN网络模型的结构如下：

生成器网络包含一个线性单元和四层反卷积层，线性单元的输入为100维的随机噪声，线性单元包括线性变换、实例规范化处理以及ReLU激活函数，输出维度为1*8192，然后将维度变换为1*512*4*4输入至第一层反卷积层；四层反卷积层依次连接，前三层包括反卷积、批规范化处理以及ReLU激活函数，最后一层包括反卷积和Tanh激活函数，反卷积操作的参数相同，卷积核大小为5*5，卷积核移动步幅为2，特征图边界填充为2，无偏置；生成器网络的输出特征图维度为1*3*64*64，输入至判别器网络；

判别器网络包含四五层卷积层结构，其中第一层包括卷积和LeakyReLu激活函数，第二层到第四层包括卷积、实例规范化处理以及LeakyReLU激活函数，最后一层仅包含卷积操作。前四层卷积操作的参数相同，卷积核大小为5*5，卷积核移动步幅为2，特征图边界填充为2，无偏置。最后一层的卷积操作使用大小为5*5的卷积核，卷积核移动步幅为1，无边界填充和偏置。

3.根据权利要求1所述的人体目标跟踪方法，其特征在于，所述判别器网络训练时使用融合了Sigmoid激活函数层的交叉熵损失函数。