CN108960086B - 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法 - Google Patents
基于生成对抗网络正样本增强的多姿态人体目标跟踪方法 Download PDFInfo
- Publication number
- CN108960086B CN108960086B CN201810635079.3A CN201810635079A CN108960086B CN 108960086 B CN108960086 B CN 108960086B CN 201810635079 A CN201810635079 A CN 201810635079A CN 108960086 B CN108960086 B CN 108960086B
- Authority
- CN
- China
- Prior art keywords
- convolution
- tracking
- network
- target
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 63
- 230000006870 function Effects 0.000 claims description 31
- 238000010586 diagram Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 10
- 230000007774 longterm Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 230000036961 partial effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 7
- 230000008859 change Effects 0.000 description 20
- 238000012360 testing method Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000009827 uniform distribution Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000153282 Theope Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于生成对抗网络正样本增强的多姿态人体目标跟踪方法,分别对StarGAN网络模型和MDNet算法模型进行预训练,然后采用首帧标定的人体目标的目标矩形框对MDNet算法模型进行初始化,持续采用MDNet算法模型进行跟踪,提取上一帧跟踪结果对应的目标矩形框图像并添加姿态标签输入StarGAN网络模型,将StarGAN网络模型中生成器网络的输出作为正样本,作为MDNet算法模型更新训练时所采用的正样本的一部分,在跟踪过程中根据需要对MDNet算法模型进行更新训练。本发明能够提高MDNet算法模型对人体目标跟踪的准确度,抑制跟踪漂移。
Description
技术领域
本发明属于目标跟踪技术领域,更为具体地讲,涉及一种基于生成对抗网络正样本增强的多姿态人体目标跟踪方法。
背景技术
人体目标跟踪任务中,人体姿态变化会导致跟踪漂移或者失败,其原因是当人体发生形变或者角度变化时,其表观特征会发生变化,与初始跟踪时的目标有较大差异。针对此问题,一般传统的跟踪方法会根据先验知识选用对姿态变化较为鲁棒的目标特征,例如颜色特征及轮廓特征。大多数具有模型更新环节的跟踪算法利用人体目标运动的连续性,跟踪算法的模型更新基于对历史帧图像目标周围的采样训练,使得跟踪模型能够较好地跟踪变化平滑缓慢的人体目标,学习并适应目标的变化。而基于分类原理的跟踪器往往是通过丰富预训练样本来提高对人体目标变化的鲁棒性,即在预训练中就加入多姿态变化的训练样本,使得跟踪模型学习到多姿态变化目标的一般属性,进而完成对跟踪任务中具体目标的跟踪。
上述的跟踪方法除了选用对姿态变化鲁棒的特征外,都是被动地应对姿态变化问题,只是依赖人体目标的连续性或提取姿态变化的一般属性来维持对目标的跟踪,而并没有主动地去解决姿态变化问题,当人体目标运动较快变化较大时依然会导致跟踪漂移及跟踪失败。而使用鲁棒的目标特征也常常因为特征表达不足或姿态变化中目标特征变化过大而跟踪失败。
图像转换是图像处理与计算机视觉领域的经典问题,其目的是通过给定充足的训练数据,学习输入图像到输出图像的映射关系,从而将一幅输入图像转换为对应指定的输出图像。也可以理解为多域转换问题,即具有相同属性特征的图像属于同一个域,那么图像的转换就是不同域图像之间的转换。传统的图像转换方法都是基于像素到像素的映射或预测的思想,随着深度学习的迅速发展,卷积神经网络成为解决图像转换问题的常用方法,使用卷积神经网络的方法去学习减小衡量结果质量的损失函数,但是在图像转换任务中使用卷积神经网络去实现输出锐利、逼真的图像是很困难的,这需要大量先验知识。
生成对抗网络在2014年被提出后迅速成为研究热点,其在图像转换领域同样有许多应用。例如Deepak Pathak等人提出的语义编码器(context-encoders)利用卷积神经网络加生成对抗网络完成图像修复任务,Yipin Zhou等人使用生成对抗网络对物体未来状态进行描述,从而实现对时滞(time-lapse)视频中物体变化的预测。上述基于生成对抗网络的图像转换方法都是基于无条件的,即网络的设计训练没有添加先验条件,Phillip Isola等人提出基于条件生成对抗网络的图像转换方法“pix2pix”,使得输出对输入具有条件性。
现有的图像转换方法大多基于有监督体系,使用图像对数据集作为训练样本。然而成对的训练数据难以获得,构建一个成对的数据集十分困难而且耗时耗力,现有满足条件的数据库很少而且体量较小。针对此问题,人们研究出了一些基于非图像对数据集的图像转换方法。CycleGAN、DualGAN及DiscoGAN三种方法都是借助生成对抗网络实现两个域的数据迁移,即图像转换问题。以CycleGAN为例,其网络模型基于循环一致性(CycleConsistency)理论,在训练生成对抗网络时加入循环一致性损失函数。在将一类图片转换成另一类图片的任务中,CycleGAN网络模型的训练仅需要两类图片的样本空间,即两类图片的数据集,而不需要指明两个数据集之前的图片对应关系,即图像对。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于生成对抗网络正样本增强的多姿态人体目标跟踪方法,使用生成对抗网络生成跟踪目标的多姿态样本,并将其作为训练正样本,添加到MDNet算法模型的模型更新环节,对MDNet算法模型进行在线更新训练,提高在具有多姿态变化的人体目标跟踪任务中的跟踪准确度,抑制跟踪漂移。
为实现上述发明目的,本发明基于生成对抗网络正样本增强的多姿态人体目标跟踪方法,包括以下步骤:
S1:采用人体目标多姿态样本训练集对StarGAN网络模型进行预训练,采用人体目标跟踪样本训练集对MDNet算法模型进行预训练;
S2:在首帧包含人体目标的图像中标定人体目标的目标矩形框,根据目标矩形框在首帧图像上采集得到若干正样本和负样本,对MDNet算法模型进行初始化;分别从以上正样本和负样本中选择部分样本添加至MDNet算法模型的样本队列S;
S3:如果上一帧跟踪成功,则提取上一帧跟踪结果对应的目标矩形框图像,根据需要设置若干姿态标签,每次将目标矩形框图像和1个姿态标签作为StarGAN网络模型的输入,将StarGAN网络模型中生成器网络输出的图像作为正样本,将得到的所有正样本添加至样本队列S,如果上一帧跟踪失败,则不作任何操作;
S4:采用MDNet算法模型对当前帧图像进行人体目标跟踪;
S5:判断步骤S4中是否跟踪成功,如果是,进入步骤S6,否则进入步骤S8;
S6:根据跟踪结果采集获得若干正样本和若干负样本添加至样本队列S;
S7:判断是否达到MDNet算法模型的长期更新周期,如果未到达,则不作任何操作,否则利用样本队列S中的全部样本对MDNet算法模型进行长期更新训练,返回步骤S3;
S8:如果跟踪失败,采用样本队列S中的部分样本对MDNet算法模型进行更新训练,返回步骤S3。
本发明基于生成对抗网络正样本增强的多姿态人体目标跟踪方法,分别对StarGAN网络模型和MDNet算法模型进行预训练,然后采用首帧标定的人体目标的目标矩形框对MDNet算法模型进行初始化,持续采用MDNet算法模型进行跟踪,提取上一帧跟踪结果对应的目标矩形框图像并添加姿态标签输入StarGAN网络模型,将StarGAN网络模型中生成器网络的输出作为正样本,作为MDNet算法模型更新训练时所采用的正样本的一部分,在跟踪过程中根据需要对MDNet算法模型进行更新训练。
本发明将人体目标跟踪中的姿态变化转化为不同域图像之间的交叉转换,使用生成对抗网络中的StarGAN网络模型生成人体目标的多姿态正样本,作为MDNet算法模型更新训练正样本的一部分,可以提高MDNet算法模型对人体目标跟踪的准确度,抑制跟踪漂移。
附图说明
图1是本发明基于生成对抗网络正样本增强的多姿态人体目标跟踪方法的具体实施方式流程图;
图2是本实施例中所采用的StarGAN网络模型结构图;
图3是本实施例中残差学习模块的结构图;
图4是本实施例中人体目标旋转的8个角度划分示意图;
图5是本实施例中StarGAN网络模型的训练过程图;
图6是本实施例中四种方法在OTB人体目标跟踪测试集的区域重合率统计对比图;
图7是本实施例中四种方法在OTB人体目标跟踪测试集的中心位置误差统计对比图;
图8是本实施例中两种正样本增强在OTB人体目标跟踪测试集的区域重合率统计对比图;
图9是本实施例中两种正样本增强在OTB人体目标跟踪测试集的中心位置误差统计对比图;
图10是本实施例中TLD算法在视频序列中的目标矩形框跟踪结果图;
图11是本实施例中KCF算法在视频序列中的目标矩形框跟踪结果图
图12是本实施例中MDNet算法在视频序列中的目标矩形框跟踪结果图
图13是本实施例中本发明在视频序列中的目标矩形框跟踪结果图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于生成对抗网络正样本增强的多姿态人体目标跟踪方法的具体实施方式流程图。如图1所示,本发明基于生成对抗网络正样本增强的多姿态人体目标跟踪方法的具体步骤包括:
S101:模型预训练:
采用人体目标多姿态样本训练集对StarGAN网络模型进行预训练,采用人体目标跟踪样本训练集对MDNet算法模型进行预训练。
StarGAN网络模型主要分为两部分,一部分是生成器网络,另一部分是判别器网络。生成器网络的作用是根据输入的原始域图像及指定域的标签信息,生成对应指定域指定的图像。而判别器网络的作用是对输入的图像进行分类,判断其是真实图像还是生成图像,并输出其所属域信息。
图2是本实施例中所采用的StarGAN网络模型结构图。如图2所示,本实施例中StarGAN网络模型的生成器网络主要使用卷积、反卷积及残差网络结构搭建而成,其中卷积及反卷积结构为深度学习中常用的结构,互为相反操作,而残差网络主要用来解决深层网络的退化(degradation)问题。本实施例中StarGAN网络模型的生成器网络包括四层卷积层(Conv1~Conv4)、残差网络和两层反卷积层(Deconv1、Deconv2)。
前三层卷积层依次连接,每层包括卷积、实例规范化(Instance Normalization)以及ReLU激活函数,第一层卷积层的的输入为一个大小为128*128的三通道彩色图像以及指定域的标签信息,第一层卷积层中卷积核大小为7*7,卷积核移动步幅为1,特征图边界填充为3,无偏置,后两层卷积层中卷积核大小为4*4,卷积核移动步幅为2,特征图边界填充为1,无偏置。经过三层卷积层处理后输出维度分别为1*64*128*128、1*128*64*64、1*256*32*32的特征图,然后输入到残差网络中。
残差网络由6个依次连接的残差学习模块构成。图3是本实施例中残差学习模块的结构图。如图3所示,残差学习模块包含两层卷积层,第一层卷积层包括卷积、实例规范化和ReLU激活函数,第二层卷积层包括卷积和实例规范化,两层卷积结构参数相同,卷积核大小为3*3,卷积核移动步幅为1,特征图边界填充为1,无偏置。经过残差网络处理后输出维度为1*256*32*32的特征图,输入到第一层反卷积层。
两层反卷积层依次连接,每层包括卷积、实例规范化处理以及ReLU激活函数,两层反卷积参数相同,卷积核大小4*4,卷积核移动步幅为2,特征图边界填充为1,无偏置。经过两层反卷积操作后输出维度分别为1*128*64*64及1*64*128*128的特征图。将第二层反卷积层的特征图输入至最后一层卷积层中。
最后一层卷积层包括卷积和Tanh激活函数,卷积相关参数与第一层卷积结构相同,即卷积核大小为7*7,卷积核移动步幅为1,特征图边界填充为3,无偏置,最后一层卷积层输出一张大小为128*128、对应指定域信息的彩色图像。
StarGAN网络模型的判别器网络主要使用卷积结构搭建而成,输入为生成器网络的输出,即大小为128*128的3通道彩色图像。判别器网络共有七层依次连接的卷积层(Conv1~Conv7),前六层卷积层包括卷积和LeakyReLU激活函数,卷积核大小为4*4,卷积核移动步幅为2,特征图边界填充为1,无偏置,LeakyReLU参数设置为0.01,最后一层卷积层有两个分支结构(Conv7_1,Conv7_2),第一个分支卷积核大小为3*3,卷积核移动步幅为1,特征图边界填充为1,无偏置,第二个分支卷积核大小为2*2,无边界填充和偏置。经过前六层卷积结构处理,输出维度分别为1*64*64*64、1*128*32*32、1*256*16*16、1*512*8*8、1*1024*4*4,1*2048*2*2的特征图。然后经过最后一层具有分支结构的卷积层操作处理,输出维度为1*1*2*2及1*8*1*1的两个特征图。
根据以上描述可知,本实施例中StarGAN网络模型输入为128*128的三通道彩色图像以及指定域的标签信息,输出为两个图像。
MDNet算法模型本实施例中直接采用的经典模型,其详细说明请见参考文献“Hyeonseob Nam and Bohyung Han,Learning Multi-Domain Convolutional NeuralNetworks for Visual Tracking,IEEE Conference on Computer Vision and PatternRecognition(CVPR),Las Vegas,NV,2016”。
在构建好两个模型后,需要对其进行预训练。本实施例中StarGAN预训练使用的人体目标多姿态样本训练集为中国科学院自动化研究所的CASIA步态数据库中的Dataset A数据集以及以电子科技大学主楼附近为场景的数据集(以下简称为主楼数据集)。本发明中主要对人体姿态变化中人体的旋转进行研究。本实施例中将人体目标的旋转划分为相对于摄像机等图像采集设备的8个角度变化,即8种姿态。图4是本实施例中人体目标旋转的8个角度划分示意图。如图4所示,本实施例中人体目标旋转的8个角度包括相对于图像采集设备的0度、45度、90度、135度、180度、225度、270度、315度,图中给出了各个角度人体目标的两幅图像示例。按照上述对人体旋转方向的划分,Dataset A数据集包含了0度、45度、90度、180度、225度及270度6个方向的图像序列,而主楼数据集图像序列覆盖了0度、45度、90度、135度及180度5个方向。为了达到上面人体目标旋转8个角度的要求,对这两个数据集进行数据预处理,利用图像翻转的方式补全8个角度中对应方向缺失的图像序列。经过数据预处理后用于StarGAN网络模型离线预训练的Dataset A数据集共有26853张样本图像,主楼数据集共有21516张样本图像,总计48369张。StarGAN网络模型预训练需要样本对应域标签信息,其中标签信息使用独热编码(one-hot encoding),如下为对应人体目标8个角度的编码向量。
[1,0,0,0,0,0,0,0],[0,0,0,0,1,0,0,0]
[0,1,0,0,0,0,0,0],[0,0,0,0,0,1,0,0]
[0,0,1,0,0,0,0,0],[0,0,0,0,0,0,1,0]
[0,0,0,1,0,0,0,0],[0,0,0,0,0,0,0,1]
本实施例在StarGAN网络模型的预训练中,将训练集图片尺寸统一调整为128*128大小,网络的训练学习率为0.0001,批训练集大小为16,网络训练迭代200次。网络训练优化采用Adam优化算法,其中学习率为0.0001,梯度相关参数均值为0.5,均方差0.999。
为了使生成图像区别于真实图像,StarGAN网络模型训练中采用对抗损失函数如下:
其中,Ex表示输入图像x的期望,生成器网络G基于输入图像x和目标域标签c生成图像G(x,c),Ex,c表示生成图像G(x,c)的期望,判别器网络D试图去区分真假图像,Dsrc(x)表示判别器网络对输入图像x输出的概率分布,Dsrc(G(x,c)表示判别器网络对生成图像G(x,c)输出的概率分布。生成器网络试图去最小化这个目标损失,而判别器网络试图将其最大化。为了获得稳定的训练过程,生成更高质量的图像,StarGAN网络模型在损失函数中引入了梯度惩罚项,则其对抗损失函数变为:
其中为在真实样本集中区域与生成样本集中区域中间均匀随机采样得到的图像,表示图像的期望。避免维度灾难问题,λgp为梯度惩罚项的权重值,在实验中设置λgp=10。表示将判别器的梯度的范数限制在常数1附近。
同时StarGAN网络模型引入了辅助分类器,使得生成器网络生成的图像能被正确地分类为其所属域类别。StarGAN网络模型设计了域分类损失(domain classificationloss)函数,其中包含两部分,一部分为优化判别器网络时使用的对真实图像的域分类损失函数另一部分为优化生成器网络时使用的对生成图像的域分类损失函数。
其中,Dcls(c'|x)表示判别器基于域标签输出的概率分布,Ex,c'表示基于输入图像x和目标域标签c′生成图像G(x,c′)的期望。通过最小化该损失函数使得判别器学习如何将一幅真实图像x分类为其对应原始域c',其中输入图像及域标签对(x,c')由训练集提供。
其中,Dcls(c|G(x,c)表示判别器网络判断生成图像属于目标域的概率分布。
生成器网络通过最小化该损失函数来学习生成会被分类为目标域c的图像。通过最小化上述对抗及分类损失函数,可以训练生成器网络生成逼真且可被分类为其正确目标域的图像,这也极大简化了模型的复杂度,使其在处理人体姿态变化的交叉域转换问题时只需要一个生成器网络与判别器网络。
为保证转换后图像只改变与输入图像域相关部分(domain-related part)而保留输入图像其他内容,StarGAN网络模型引入了循环一致性理论,其循环一致性损失函数如下:
其中生成器G将转换后图像G(x,c)与原始域标签c'作为输入并试图重构原始图像x。使用循环一致性理论也使得我们不需要针对人体目标姿态变化问题人工标定数据对。
最后结合上述提及的所有StarGAN网络模型使用的损失函数,最终StarGAN网络模型中优化判别器与生成器的损失函数分别为:
其中λcls与λrec是域分类损失和重构损失的权重参数,在本实施例中设置为λcls=1,λrec=10。
StarGAN网络模型的训练采用梯度交替更新策略最小化各部分的损失函数,其中判别器网络每训练五次后进行一次生成器网络的训练。图5是本实施例中StarGAN网络模型的训练过程图。如图5所示,图5(a)表示在训练判别器网络时输入真实及生成的图像输出图像的真假判断与所属域标签信息,然后按照损失函数对网络进行优化。生成器网络的训练如图5(b)所示,先输入真实图像及随机生成的目标域标签信息,然后输出对应域的生成图像,在5(c)中再将生成图像及原真实图像域标签信息输入到生成器网络中,输出生成的重构图像,图5(d)中所示则是将图5(b)中生成器网络输入的生成图像输入到判别器网络中,输出图像真假判断及所属域信息,然后按照损失函数进行网络优化。
MDNet算法模型预训练的人体目标跟踪样本训练集采用VOT(Visual ObjectTracking)数据集,VOT数据集是基于VOT竞赛的目标跟踪数据集,仅包含彩色图像序列,分辨率普遍较高。MDNet算法模型的预训练使用了VOT数据集中的58个视频序列,网络共迭代5800次,卷积层学习率为0.0001,全连接层学习率为0.001。训练中批训练的构成是从某一视频序列中随机采8帧图片,在这8帧图片上随机采集32个正样本和96个负样本,即批训练是由某一视频序列的128个样本图像构成。
完成StarGAN网络模型和MDNet算法模型的模型预训练后,需要将两者进行融合,得到基于StarGAN正样本增强的人体目标跟踪算法。StarGAN网络模型需要融合到MDNet算法模型的模型更新环节,原MDNet算法模型的模型训练使用的正负样本是通过对目标周围图像按照高斯及均匀分布采样获得,添加了StarGAN网络模型之后,MDNet算法模型更新使用的正样本还包括了StarGAN网络模型生成器网络生成的目标多姿态负样本。下面具体描述融合StarGAN网络模型及MDNet算法模型的具体流程。
S102:模型初始化:
在首帧包含人体目标的图像中标定人体目标的目标矩形框,根据目标矩形框在首帧图像上采集得到若干正样本和负样本,对MDNet算法模型进行初始化。在采集样本时采用三种方法获取:分别按照高斯和均匀分布采集若干正样本和若干负样本,然后随机采集若干正样本和若干负样本。MDNet算法模型的初始化包括两个部分,一是通过正样本训练目标矩形框的回归模型,二是采用以上所有正样本和负样本对MDNet算法模型参数进行更新训练。分别从以上正样本和负样本中选择部分样本添加至样本队列S。
本实施例中,在首帧图像上采集500个正样本和5000个负样本,MDNet算法模型参数进行更新训练时,其中卷积层参数固定不变,全连接层共迭代30次,第四层和第五层全连接层学习率为0.0001,第六层学习率为0.001。从首帧图像的样本中选择50个正样本及200个负样本添加至样本队列S。
S103:StarGAN网络模型生成正样本:
对当前帧进行跟踪之前,如果上一帧跟踪成功,则提取上一帧跟踪结果对应的目标矩形框图像,根据需要设置若干姿态标签,每次将目标矩形框图像和1个姿态标签作为StarGAN网络模型的输入,将StarGAN网络模型中生成器网络输出的图像作为正样本,将得到的所有正样本添加至样本队列S,如果跟踪失败,则不作任何操作。
本实施例中StarGAN网络模型训练时的人体目标的姿态角度有8个,因此本步骤在设置姿态标签时标签数量有16个,每个姿态角度对应2个,因此1个目标矩形框图像可以生成16个正样本。
S104:MDNet算法模型进行人体目标跟踪:
采用MDNet算法模型对当前帧图像进行人体目标跟踪。本实施例中在采用MDNet算法模型对当前帧图像进行人体目标跟踪时,根据上一帧图像的目标位置信息,对当前帧图像生成按照高斯分布的256个目标候选区域,输入MDNet算法模型获得得分,当最高的5个得分的均值大于阈值时,则判断跟踪成功,则将5个目标矩形框融合,并对其进行回归得到当前帧的跟踪结果,否则判断跟踪失败。
S105:判断步骤S104中是否跟踪成功,如果是,进入步骤S106,否则进入步骤S108。
S106:采集新样本:
根据跟踪结果采集获取获得若干正样本和若干负样本添加至样本队列S。本实施例中按照高斯及均匀分布采集新样本,对跟踪成功的图像采集50个正样本和200个负样本。一般来说样本队列会存在一定容量,本实施例中样本队列可以保存100帧图像的正样本和20帧图像的负样本,当样本数量超出容量时,会根据样本添加的先后进行删除,保留较新的样本。
S107:MDNet算法模型长期更新:
判断是否达到MDNet算法模型的长期更新周期,本实施例中长期更新周期设置为10帧,如果未到达,则不作任何操作,否则利用样本队列中的全部样本S对MDNet算法模型进行更新训练。然后返回步骤S103。
S108:MDNet算法模型短期更新:
跟踪失败则会触发MDNet算法模型的短期更新,即采用样本队列S中的部分样本对MDNet算法模型进行更新训练。本实施例中采用前20帧的正样本和全部负样本(同样为前20帧)对MDNet算法模型进行短期更新训练。然后返回步骤S103。
本实施例中MDNet算法模型进行长期更新和短期更新的训练迭代次数为10次,卷积层参数同样保持不变,全连接层学习率为初始化学习率的三倍。动量和梯度衰减参数设置为0.9和0.0005。在实际应用中,每次训练的批数据可以只采用所选样本中的部分,数量根据实际需要设置。本实施例中每次训练的批数据包含32个正样本和96个经过难例挖掘方法筛选的负样本。
显然,只要用户不结束人体目标跟踪,或者视频流不结束,会循环执行步骤S103至步骤S108,持续进行人体目标跟踪。
为了更好地说明本发明的技术效果,采用一个OTB数据集对本发明进行实验验证。本次实验验证采用OTB数据集中8个具有显著旋转变化的人体目标跟踪序列作为测试集。
本次实验选用了TLD(Tracking-Learning-Detection)、KCF(High-speedTracking With Kernelized Correlation Filters)以及原MDNet算法这三种算法作为对比方法。各方法跟踪效果的评价方式选用OPE(one-pass evaluation)一次性测评,即在实验的算法程序中预先给定随机种子,去除算法的随机性,然后一次性完成测试。OPE中包含了矩形区域重合率和中心位置误差两个算法评价指标,其中以矩形区域重合率为主,OPE结果曲线分别是对矩形区域重合率和中心位置误差进行统计描述。其中关于目标矩形区域重合率的统计分析结果曲线图,横坐标代表不同的目标矩形区域重合率阈值,纵坐标为大于对应阈值的跟踪帧数占总实验帧数的百分比,称之为成功率(success rate),一般重合率固定阈值选择0.5。中心位置误差的统计分析结果曲线图,其横坐标代表不同的目标中心位置误差阈值,纵坐标为小于对应阈值的跟踪帧数占总实验帧数的百分比,称之为精度(precision),一般中心位置误差阈值选择20像素。
图6是本实施例中四种方法在OTB人体目标跟踪测试集的区域重合率统计对比图。图7是本实施例中四种方法在OTB人体目标跟踪测试集的中心位置误差统计对比图。图6和图7中算法标签中对应的值是根据两个算法评价指标选择的固定阈值得到的。从图6和图7中可以看出,本发明在具有显著旋转变化的跟踪任务中表现十分优异,其重合率统计相比原MDNet算法提高了22%,其实验结果相对于其他对比算法都有显著的提升。这个实验结果说明本发明的跟踪结果更加准确,跟踪漂移程度更小。
为了进一步验证本发明所使用的基于生成对抗网络的正样本增强方法在具有显著姿态变化的人体目标跟踪算法中的有效性,对原MDNet算法的模型更新环节中额外添加了16个正样本,与本发明进行对比。图8是本实施例中两种正样本增强在OTB人体目标跟踪测试集的区域重合率统计对比图。图9是本实施例中两种正样本增强在OTB人体目标跟踪测试集的中心位置误差统计对比图。从图8和图9中可以看出,在具有旋转变化的跟踪视频序列中,本发明对跟踪性能的优化和提升明显优于额外添加正样本的MDNet算法,额外添加正样本的MDNet算法在重合率统计中相比原MDNet算法只提高了2%,而本发明提高了22%。这说明了使用STARGAN生成器网络生成的多角度人体目标样本能够使更新训练的观测模型对具有旋转变化的人体目标有更强的分类能力,因此跟踪效果更好。
为了直观地展示本发明和三种对比方法的跟踪效果,接下来列出四种方法在几个跟踪视频序列中的跟踪结果图。图10是本实施例中TLD算法在视频序列中的目标矩形框跟踪结果图。图11是本实施例中KCF算法在视频序列中的目标矩形框跟踪结果图。图12是本实施例中MDNet算法在视频序列中的目标矩形框跟踪结果图。图13是本实施例中本发明在视频序列中的目标矩形框跟踪结果图。如图10至图13所示,本实施例中包含了Gym、Skating1和Skating2三个视频序列,图中每幅图像的右上角数字代表视频序列的帧数。可以看出在具有显著旋转变化的人体跟踪视频序列中,当目标发生旋转变化时,本发明的跟踪目标矩形框更加接近人体目标的真实位置,出现跟踪漂移的程度更小。
通过在OTB人体目标跟踪数据集上的测试,可以发现本发明对多姿态人体目标的跟踪效果有了显著的提升,可以有效地提高跟踪算法观测模型的分类能力,针对具有显著姿态变化的人体目标,改进的跟踪算法有更好的跟踪效果,降低了跟踪过程中的跟踪漂移。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种基于生成对抗网络正样本增强的多姿态人体目标跟踪方法,其特征在于,包括以下步骤:
S1:采用人体目标多姿态样本训练集对StarGAN网络模型进行预训练,采用人体目标跟踪样本训练集对MDNet算法模型进行预训练;
S2:在首帧包含人体目标的图像中标定人体目标的目标矩形框,根据目标矩形框在首帧图像上采集得到若干正样本和负样本,对MDNet算法模型进行初始化;分别从以上正样本和负样本中选择部分样本添加至MDNet算法模型的样本队列S;
S3:如果上一帧跟踪成功,则提取上一帧跟踪结果对应的目标矩形框图像,根据需要设置若干姿态标签,每次将目标矩形框图像和1个姿态标签作为StarGAN网络模型的输入,将StarGAN网络模型中生成器网络输出的图像作为正样本,将得到的所有正样本添加至样本队列S,如果上一帧跟踪失败,则不作任何操作;
S4:采用MDNet算法模型对当前帧图像进行人体目标跟踪;
S5:判断步骤S4中是否跟踪成功,如果是,进入步骤S6,否则进入步骤S8;
S6:根据跟踪结果采集获得若干正样本和若干负样本添加至样本队列S;
S7:判断是否达到MDNet算法模型的长期更新周期,如果未到达,则不作任何操作,否则利用样本队列S中的全部样本对MDNet算法模型进行长期更新训练,返回步骤S3;
S8:如果跟踪失败,采用样本队列S中的部分样本对MDNet算法模型进行更新训练,返回步骤S3。
2.根据权利要求1所述的跟踪方法,其特征在于,所述StarGAN网络模型包括生成器网络和判别器网络,其中:
生成器网络包括四层卷积层、残差网络和两层反卷积层,前三层卷积层依次连接,每层包括卷积、实例规范化以及ReLU激活函数,第一层卷积层的的输入为一个大小为128*128的三通道彩色图像以及指定域的标签信息,第一层卷积层中卷积核大小为7*7,卷积核移动步幅为1,特征图边界填充为3,无偏置,后两层卷积层中卷积核大小为4*4,卷积核移动步幅为2,特征图边界填充为1,无偏置;三层卷积层得到的特征图输入到残差网络中;
残差网络由6个依次连接的残差学习模块构成,每个残差学习模块包含两层卷积层,第一层卷积层包括卷积、实例规范化和ReLU激活函数,第二层卷积层包括卷积和实例规范化,两层卷积结构参数相同,卷积核大小为3*3,卷积核移动步幅为1,特征图边界填充为1,无偏置;残差网络得到的特征图输入到第一层反卷积层;
两层反卷积层依次连接,每层包括卷积、实例规范化处理以及ReLU激活函数,两层反卷积参数相同,卷积核大小4*4,卷积核移动步幅为2,特征图边界填充为1,无偏置;第二层反卷积层的特征图输入至最后一层卷积层中;
最后一层卷积层包括卷积和Tanh激活函数,卷积核大小为7*7,卷积核移动步幅为1,特征图边界填充为3,无偏置;
判别器网络包括七层依次连接的卷积层,前六层卷积层包括卷积和LeakyReLU激活函数,卷积核大小为4*4,卷积核移动步幅为2,特征图边界填充为1,无偏置,LeakyReLU参数设置为0.01;最后一层卷积层有两个分支结构,第一个分支卷积核大小为3*3,卷积核移动步幅为1,特征图边界填充为1,无偏置,第二个分支卷积核大小为2*2,无边界填充和偏置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810635079.3A CN108960086B (zh) | 2018-06-20 | 2018-06-20 | 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810635079.3A CN108960086B (zh) | 2018-06-20 | 2018-06-20 | 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108960086A CN108960086A (zh) | 2018-12-07 |
CN108960086B true CN108960086B (zh) | 2021-06-04 |
Family
ID=64489529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810635079.3A Expired - Fee Related CN108960086B (zh) | 2018-06-20 | 2018-06-20 | 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108960086B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11816882B2 (en) * | 2018-07-23 | 2023-11-14 | Nippon Telegraph And Telephone Corporation | Image recognition learning device, image recognition device, method and program |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753150A (zh) * | 2018-12-11 | 2019-05-14 | 北京字节跳动网络技术有限公司 | 人物动作控制方法、装置、存储介质和电子设备 |
CN109657589B (zh) * | 2018-12-11 | 2022-11-29 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于人体交互动作的体验者动作生成方法 |
CN109670474B (zh) * | 2018-12-28 | 2023-07-25 | 广东工业大学 | 一种基于视频的人体姿态估计方法、装置及设备 |
CN109800689B (zh) * | 2019-01-04 | 2022-03-29 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
CN110060690B (zh) * | 2019-04-04 | 2023-03-24 | 南京邮电大学 | 基于STARGAN和ResNet的多对多说话人转换方法 |
CN110189362B (zh) * | 2019-05-28 | 2020-12-25 | 厦门大学 | 基于多分支自编码对抗网络的高效目标跟踪方法 |
CN110276321A (zh) * | 2019-06-11 | 2019-09-24 | 北方工业大学 | 一种遥感视频目标跟踪方法及系统 |
CN110287848A (zh) * | 2019-06-19 | 2019-09-27 | 北京卡路里信息技术有限公司 | 视频的生成方法及装置 |
CN110634108B (zh) * | 2019-08-30 | 2023-01-20 | 北京工业大学 | 一种基于元-循环一致性对抗网络的复合降质网络直播视频增强方法 |
CN110533615A (zh) * | 2019-08-30 | 2019-12-03 | 上海大学 | 一种基于生成对抗网络的老电影大面积破损修复方法 |
CN111027438B (zh) * | 2019-12-03 | 2023-06-02 | Oppo广东移动通信有限公司 | 一种人体姿态的迁移方法、移动终端以及计算机存储介质 |
CN110889811B (zh) * | 2019-12-05 | 2023-06-09 | 中南大学 | 一种照片修复系统构建方法、照片修复方法及系统 |
CN111241987B (zh) * | 2020-01-08 | 2022-05-13 | 同济大学 | 基于代价敏感的三支决策的多目标模型视觉追踪方法 |
CN113538507B (zh) * | 2020-04-15 | 2023-11-17 | 南京大学 | 一种基于全卷积网络在线训练的单目标跟踪方法 |
CN112215080B (zh) * | 2020-09-16 | 2022-05-03 | 电子科技大学 | 一种利用时序信息的目标跟踪方法 |
CN112487903B (zh) * | 2020-11-23 | 2023-07-04 | 中国信息通信科技集团有限公司 | 基于对抗网络的步态数据生成方法及设备 |
CN112465006B (zh) * | 2020-11-24 | 2022-08-05 | 中国人民解放军海军航空大学 | 一种图神经网络目标跟踪方法及装置 |
CN112926534B (zh) * | 2021-04-02 | 2023-04-28 | 北京理工大学重庆创新中心 | 一种基于变换域信息融合的sar图形船只目标检测方法 |
CN113066107A (zh) * | 2021-04-28 | 2021-07-02 | 电子科技大学 | 基于id向量时序一致性的防漏检一体化多目标跟踪系统 |
CN114092994B (zh) * | 2021-10-13 | 2024-09-24 | 北京工业大学 | 一种基于多视角特征学习的人脸活体检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709936A (zh) * | 2016-12-14 | 2017-05-24 | 北京工业大学 | 一种基于卷积神经网络的单目标跟踪方法 |
CN107492113A (zh) * | 2017-06-01 | 2017-12-19 | 南京行者易智能交通科技有限公司 | 一种视频图像中运动目标位置预测模型训练方法、位置预测方法及轨迹预测方法 |
-
2018
- 2018-06-20 CN CN201810635079.3A patent/CN108960086B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709936A (zh) * | 2016-12-14 | 2017-05-24 | 北京工业大学 | 一种基于卷积神经网络的单目标跟踪方法 |
CN107492113A (zh) * | 2017-06-01 | 2017-12-19 | 南京行者易智能交通科技有限公司 | 一种视频图像中运动目标位置预测模型训练方法、位置预测方法及轨迹预测方法 |
Non-Patent Citations (3)
Title |
---|
ON CONVERGENCE AND STABILITY OF GANS;Naveen Kodali et al.;《arXiv》;20171210;第1-18页 * |
Pixel recurrent neural networks;Aaron van den Oord et al.;《arXiv》;20161231;第1-12页 * |
采用核相关滤波器的长期目标跟踪;杨德东 等;《光学精密工程》;20161020;第2037-2049页 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11816882B2 (en) * | 2018-07-23 | 2023-11-14 | Nippon Telegraph And Telephone Corporation | Image recognition learning device, image recognition device, method and program |
Also Published As
Publication number | Publication date |
---|---|
CN108960086A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960086B (zh) | 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法 | |
Jiang et al. | Scalor: Generative world models with scalable object representations | |
Zheng et al. | Unsupervised representation learning with long-term dynamics for skeleton based action recognition | |
CN110135366B (zh) | 基于多尺度生成对抗网络的遮挡行人重识别方法 | |
US11908244B2 (en) | Human posture detection utilizing posture reference maps | |
CN108681774B (zh) | 基于生成对抗网络负样本增强的人体目标跟踪方法 | |
Dosovitskiy et al. | Generating images with perceptual similarity metrics based on deep networks | |
CN106127804B (zh) | 基于稀疏深度去噪自编码器的rgb-d数据跨模式特征学习的目标跟踪方法 | |
Bousmalis et al. | Domain separation networks | |
EP3620990A1 (en) | Capturing network dynamics using dynamic graph representation learning | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
Meng et al. | Sample fusion network: An end-to-end data augmentation network for skeleton-based human action recognition | |
CN110580472B (zh) | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 | |
CN111476302A (zh) | 基于深度强化学习的Faster-RCNN目标物体检测方法 | |
Zhang et al. | Single image dehazing via dual-path recurrent network | |
CN108764244B (zh) | 基于卷积神经网络和条件随机场的潜在目标区域检测方法 | |
CN112037263B (zh) | 基于卷积神经网络和长短期记忆网络的手术工具跟踪系统 | |
CN112418032B (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
CN111462184A (zh) | 基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法 | |
Liu et al. | Tga: Two-level group attention for assembly state detection | |
Firouznia et al. | Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking | |
Bhattacharyya et al. | Long-term image boundary prediction | |
CN116935125A (zh) | 通过弱监督实现的噪声数据集目标检测方法 | |
Soni et al. | Adversarial TCAV--Robust and Effective Interpretation of Intermediate Layers in Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210604 |