CN107679465B - 一种基于生成网络的行人重识别数据生成和扩充方法 - Google Patents
一种基于生成网络的行人重识别数据生成和扩充方法 Download PDFInfo
- Publication number
- CN107679465B CN107679465B CN201710857752.3A CN201710857752A CN107679465B CN 107679465 B CN107679465 B CN 107679465B CN 201710857752 A CN201710857752 A CN 201710857752A CN 107679465 B CN107679465 B CN 107679465B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- generation
- data
- unit
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 125000004122 cyclic group Chemical group 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 230000003416 augmentation Effects 0.000 claims 1
- 230000007812 deficiency Effects 0.000 abstract 1
- 239000000284 extract Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 241000292147 Crenidorsum Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于生成网络的行人重识别数据生成和扩充方法,步骤为:利用视频预测网络生成新的行人视频帧样本。利用深度生成对抗网络进行端到端的行人背景变换数据生成。利用不同的数据生成方法进行行人数据集的广度和丰富性的扩充。将扩充的数据集送入特征提取网络中提取特征并用欧氏距离评估性能。本方法同时考虑了行人的类内和类间数据扩充,联合利用了不同的生成网络生成更多更丰富的样本,扩充的数据集具有很好的多样性和鲁棒性,能更好的解决与适应由于样本数量不足和背景干扰带来的性能损失,具有普遍的适用性,扩充的数据集在下一步的行人识别中能发挥更好的性能及效率。
Description
技术领域
本发明属于计算机视觉技术领域,具体为一种基于生成网络的行人重识别数据生成和扩充方法,尤其是涉及一种适合于行人重识别中提升识别性能的数据生成和扩充方法。
背景技术
行人重识别是智能视频监控中的一项关键任务,是近年来计算机视觉领域中一直备受关注的研究热点,适用于安防以及公共场所寻人等技术领域。行人重识别可定义为:在无重叠的视频监控网络中,对于摄像头中给定的某个行人,判断其是否出现在其他摄像头中的过程。它是一种自动的目标识别技术,能在监控网络中快速定位到感兴趣的人体目标,是智能视频监控和人体行为分析等应用中的重要步骤。
现有的深度行人重识别网络,基于训练数据与待测试数据是独立同分布的思想,用当前的训练数据来对将来的数据进行估计与模拟。因此不充分的训练数据集会给网络性能带来很大的影响,使得训练时准确率较高,测试时表现很差。这种现象被称为过拟合。由于现有行人重识别数据集普遍过小,不足以满足深度网络训练要求,往往更容易导致过拟合从而带来性能损失。现有的方法分为三种,一是提出收集更多的标注数据从而对数据集进行扩充(参见J.Ponce,T.L.Berg,M.Everingham,D.A.Forsyth,M.Hebert,S.Lazebnik,M.Marszalek,C.Schmid,B.C.Russell,and A.Torralba.2006.Dataset Issues in ObjectRecognition.Springer Berlin Heidelberg.29-48pages),但这种方法代价过大,并且标注工作的可靠性也不够高;二是加入非标注数据,进行无监督学习从而提升性能(参见Peixi Peng,Tao Xiang,Yaowei Wang,Massimiliano Pontil,Shaogang Gong,TiejunHuang,and Yonghong Tian.2016.Unsupervised Cross-Dataset Transfer Learning forPerson Reidentification.In IEEE Conference on Computer Vision and PatternRecognition.1306-1315;H.Wang,S.Gong,and T.Xiang.2014.Unsupervised learning ofgenerative topic saliency for person re-identification.British Machine VisionAssociation Bmva(2014)),这种方法引入的数据由于不满足独立同分布的先决条件,往往会引入很多的误差,性能提升很有限;第三种是通过对已有的数据集进行线性变换,从而得到更多的数据对数据集进行扩充(参见Niall Mclaughlin,Jesus Martinez Del Rincon,and Pau1 Miller.2015.Data-augmentation for reducing dataset bias in personreidentification.In IEEE International Conference on Advanced Video andSignal Based Surveillance.1-6),这种方法无法提供多样性的扩充样本,并且扩充的数据集鲁棒性不够好,实施复杂度过高。
发明内容
针对上述现有技术存在的问题,本发明提供一种基于生成网络的行人重识别数据生成和扩充方法,该方法利用现有的深度生成网络的优势,提出了类内和类间两种数据生成方法,分别对原有数据集的长度和丰富性进行扩充,从而在不需要额外的标定或数据收集工作的情况下提升最终识别的准确率。
本发明是通过以下技术方案实现的:
本发明联合并改进了两种深度生成对抗网络,其中利用传统对抗生成网络在不需要前景提取的情况下进行端到端的行人图像背景替换,实现类间行人数据集扩充,增加数据集的多样性,使下一步的特征提取更多的关注在行人本身,减少背景的干扰从而提升识别准确率;同时利用视频预测的数据生成网络,基于原有的行人视频预测新得视频帧,进行类内数据集扩充,从而增加数据集的长度,为下一步的行人空时特征提取提供更多的连续训练样本。
这样,本方法同时考虑了行人的类内和类间数据扩充,联合利用了不同的生成网络生成更多更丰富的样本,扩充的数据集具有很好的多样性和鲁棒性,能更好的解决与适应由于样本数量不足和背景干扰带来的性能损失,具有普遍的适用性,扩充的数据集在下一步的行人识别中能发挥更好的性能及效率。
具体地,本发明所述的基于生成网络的行人重识别数据生成和扩充方法,包括以下步骤:
第一步:基于无监督的视频预测生成网络,形成行人视频预测生成网络P;
第二步:对行人视频中的每一个图像序列s=(s0,...,sT-1),均经过第一步中的行人视频预测生成网络P生成新的视频帧序列p=(p0,...,pT-1),并同原始视频帧计算生成目标损失函数L并反传进行优化迭代,得到最优模型;其中,sT-1表示第T帧原始图像,pT-1表示第T帧预测图像,上标T表示序列长度;
第三步:在整个待扩充行人数据集上对第二步得到的最优模型进行应用,对待扩充行人数据集中的每一个行人视频帧,优化得到新的预测帧,并加入到待扩充行人数据集中进行类内视频长度的扩充,得到类内生成数据,用于减少由于数据量不足带来的过拟合现象;
第四步:基于传统生成对抗网络,形成行人图片生成对抗网络N,其中行人图片生成对抗网络N包含主要由卷积网络构成的生成单元G和描述单元D;
第五步:对待扩充行人数据集中的每一张输入图片s(t),均经过第四步中的行人图片生成对抗网络N的生成单元G,通过生成单元G生成新的图片o(t);
第六步:对待扩充行人数据集中的每一张输入图片s(t)所对应的原始背景替换图y(t)和对应的生成图片o(t),均经过第四步中的行人图片生成对抗网络N的描述单元D,通过描述单元D中的损失函数LC(G,D)判别二者的差异损失,并将损失函数LC(G,D)分别反向传播于生成单元G和描述单元D进行对抗迭代优化;
第七步:加入一范数损失函数,用于减少生成图片的模糊程度;
第八步:最大化描述单元D的损失,用于使网络能够区分生成图片和原始图片;最小化生成单元G的损失,用于使生成图片能够接近原始图片;进行第六步的对抗迭代优化,得到最优的端到端的背景替换数据生成模型G*;
第九步:应用第八步的背景替换数据生成模型G*得到新的端到端的背景替换生成图片;将背景替换生成图片加入待扩充行人数据集中进行类间数据扩充,得到类间生成数据,用于增加数据集的多样性,减少背景干扰;
第十步:利用第三步得到的类内生成数据和第九步得到的类间生成数据对待扩充行人数据集进行扩充,得到最终的扩充数据集,并将最终的扩充数据集送入特征提取网络中提取特征并用欧氏距离评估性能。
优选地,第一步中,所述行人视频预测生成网络P包含四个主要由卷积网络构成的单元,分别为:输入卷积单元A、循环卷积单元R、输出预测单元以及损失计算单元E,其中:
所述输入卷积单元A用于接收并对输入图片进行卷积操作;
所述循环卷积单元R用于对输入图片进行循环卷积操作,并保留序列信息;
所述输出预测单元用于预测对应图像的输出;
所述损失计算单元E用于计算输入图像和预测图像之间的性能损失;
所述输入卷积单元A、循环卷积单元R、输出预测单元以及损失计算单元E的输出分别为:
其中,为输入卷积单元A的输出;为输出预测单元的输出;为损失计算单元E的输出;为循环卷积单元R的输出;l代表单元层的个数;t代表当帧图像在序列中的位置;st代表第t帧图像;ConV代表经过卷积操作;ReLU代表经过激活层操作操作;Maxpool代表经过最大值池化操作;convLSTM代表经过全卷积网络构成的长短时记忆单元层操作;Usample代表经过上采样层操作。
优选地,第二步中,所述目标损失函数L为:
其中,λt表示赋予序列的每一帧输入图像的权重系数,λl表示赋予每一重单元层的权重系数,nl表示固定参数,表示在第l个单元层对第t帧输入图像通过网络后计算出的损失,t表示图像帧数,l表示单元层数。
优选地,所述目标损失函数L还包括如下任意一组特征:
-nl=4、λt=1、λl=0、l=0;
-nl=4、λt=1、λl=1、l>0。
优选地,第五步中,通过生成单元G生成新的图片o(t)的过程为:
o(t)=G(s(t),n(t))
其中,G()为经过生成单元G的操作,n(t)为生成单元G中网络自带的随机噪声。
优选地,第六步中,描述单元D中的损失函数LC(G,D)计算公式为:
其中,G()表示经过生成单元G的操作,D()表示表示经过卷积网络构成的描述单元D的操作,E表示求期望操作,y表示对应的原始背景替换图片,o表示对应的输出预测背景替换图片,pdata()表示对应数据的概率分布,n表示随机噪声,pn(n)表示数据n的概率分布,s表示原始输入图片。
优选地,第八步中,经过对抗优化迭代,最优的端到端的背景替换数据生成模型G*表达式为:
其中,λ为1。
优选地,第十步中,数据扩充至待扩充行人数据集中原始行人图片的两倍到三倍;具体为,待扩充行人数据集为S,第三步中得到的类内生成数据为P,第九步中得到的类间生成数据为O,则最终的扩充数据集Y为:
与现有技术相比,本发明的有益效果在于:
1)联合并改进了两种深度生成对抗网络,同时考虑了类内和类间的数据生成,用以对行人数据进行扩充,因此能得到更为鲁棒性和适用性更广的数据扩充方法;
2)利用视频预测的数据生成网络生成的类内扩充样本,能很好地保留原有的数据的特征同时增加视频的长度,减少由于数据量不足带来的性能损失,不需要额外的收集样本和进行标注工作,降低了复杂度,同时保证了数据的一致性;
3)利用传统对抗生成网络在进行端到端的行人图像背景替换,减少了背景的干扰,实现了类间行人数据集扩充,增加了数据集的多样性,使下一步的特征提取更多的关注在行人本身从而提升识别的准确率。同时不需要额外的前景提取,降低了算法的复杂度,增加了方法的普适性。
附图说明
图1为本发明一实施例中网络结构的具体参数和组成方式示意图;
图2为本发明一实施例中类内数据生成结果示意图;
图3为本发明一实施例中类间数据生成结果示意图;
图4为本发明一实施例中将扩充的数据集送入特征提取网络做行人重识别的最终结果示意图;其中,(a)为PRID-2011数据集上的结果,(b)为i-LIDS-VID数据集上的结果。
具体实施方式
下面结合附图对本发明的实施例作详细说明:本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
本实施采用的图像帧来自数据库PRID-2011(参见:Martin Hirzer,CsabaBeleznai,Peter M.Roth,and Horst Bischof.2011.Person Re-identification byDescriptive and Discriminative Classification.Springer Berlin Heidelberg.91-102pages)和i-LIDS-VID(参见:Wei Shi Zheng,Shaogang Gong,and TaoXiang.2009.Associating Groups of People.Active Range Imaging Dataset forIndoor Surveillance(2009))中的群体监控视频(video for traffic surveillance),以进行行人重识别性能评估。
本实施例涉及的基于生成网络的行人重识别数据生成和扩充方法,包括如下具体步骤:
步骤S1:类内数据生成,利用视频预测生成网络P生成新的行人视频帧样本。
具体步骤为:
S11、基于无监督的视频预测生成网络,形成行人视频预测生成网络P,其中行人视频预测生成网络P包含四个由卷积网络构成的单元,分别为:输入卷积单元A,卷积单元R,输出预测单元以及损失计算单元E;
S12、对行人视频中的每一个图像序列s=(s0,...,sT-1),均经过1中的行人视频预测生成网络P,S11中各单元的输出为:
其中,为输入卷积单元A的输出;为输出预测单元的输出;为损失计算单元E的输出;为循环卷积单元R的输出;l代表单元层的个数;t代表当帧图像在序列中的位置;st代表第t帧图像;Conv代表经过卷积操作;ReLU代表经过激活层操作;Maxpool代表经过最大值池化操作操作;convLSTM代表经过全卷积网络构成的长短时记忆单元层操作;Usample代表经过上采样层操作。本实施例中,视频长度T为16;l为4代表四层网络;卷积层的卷积核大小为3*3,其4层网络的通道数分别为(3,48,96,192)。
S13、对整个数据集(即待扩充行人数据集)送入网络中进行S12中的各层优化迭代,目标损失函数L为:
其中,λt表示赋予序列的每一帧输入图像的权重系数,λl表示赋予每一重单元层的权重系数,nl表示固定参数,表示在第l个单元层对第t帧输入图像通过网络后计算出的损失,t表示图像帧数,l表示单元层数。实施例中,nl=4,λt=1,λl=0,l=0;λl=1,l>0。
S14、在整个待扩充行人数据集上进行训练和测试,对待扩充行人数据集中的每一个行人视频帧得到新的预测帧,加入待扩充行人数据集中进行类内视频长度的扩充,减少由于数据量不足带来的过拟合现象。本实施例中,数据集扩充一倍。
图1的类内数据生成部分是步骤中所述行人视频预测生成网络P网络结构的具体参数和组成方式示意图。行人视频是以序列的方式输入,经过网络的优化迭代生成预测的新的视频帧从而进行视频长度的扩充。
从图2类内数据生成结果示意图中可以看出,本实施例的方法能够很好地生成保留原始视频帧特性的新的图片用于对原始视频帧进行扩充。
步骤S2:类间数据生成,利用行人图片生成对抗网络N进行端到端的行人背景变换数据生成。
具体步骤为:
S21、采用并改进传统生成对抗网络,形成行人图片生成对抗网络N,其中包含主要由卷积网络构成的生成单元G和描述单元D.
S22、对待扩充行人数据集的每一张图片s(t),均经过生成对抗网络N的生成单元G,通过生成单元G生成新的图片o(t):
o(t)=G(s(t),n(t)),
其中,G()代表经过卷积网络构成的生成单元的操作,n(t)为G中网络自带的随机噪声。
S23、对待扩充行人数据集中的每一张输入图片s(t)所对应的原始背景替换图y(t),和对应的生成图片o(t),均经过行人图片生成对抗网络N的描述单元D,通过描述单元D中的损失函数LC(G,D)判别二者的差异损失,并将损失函数LC(G,D)分别反向传播于生成单元G和描述单元D进行对抗迭代优化,其中损失函数LC(G,D)计算公式为:
本实施例中,训练数据集中的原始图片和背景替换目标图片由现有的数据集提供。
S24、加入一范数损失函数,从而减少生成图片的模糊程度:
其中,各参数含义请参考损失函数LC(G,D)中的参数含义。
S25、最大化D的损失,从而使网络能好的区分生成图片和原始图片;最小化G的损失,从而使生成的图片能尽量的接近原始图片。进行上述的对抗迭代优化,最终的优化目标(即最优的端到端的背景替换数据生成模型)为G*:
其中λ为参数权重,并为1。
S26、将所有待扩充行人数据集行人图片送入网络中进行训练并优化迭代得到最佳模型,从而应用S25得到的模型G*得到新的端到端的背景替换生成图片。本实施例中,得到训练好的模型后,输入待扩充行人数据集行人图片应用S25得到的模型G*则可得到背景替换的输出图片,不需要而外的前景提取。
S27、将背景替换生成图片加入待扩充行人数据集中进行类间数据扩充,增加数据集的多样性,减少背景干扰。
图1的类间数据生成部分是步骤中所述行人图片生成对抗网络N的网络结构具体参数和组成方式示意图。行人原始图片和背景替换目标图片是以成对的方式输入,经过网络的优化迭代从而训练模型进行端对端的背景替换,新的待扩充数据集则可应用模型G*生成更多的多样背景样本进行行人数据丰富性的扩充。
从图3类间数据生成结果示意图中可以看出,本实施例的方法在测试集上能够在较为精确地保留原始行人的基础下进行多样的端到端背景替换,用于对原始行人数据集进行扩充,具有很好的适用性。
步骤S3:利用不同的数据生成方法进行行人数据集的广度和丰富性地扩充。
具体步骤为:
分别应用步骤S1和步骤S2的数据生成方法,加入待扩充行人数据集中,分别得到两倍到三倍的数据集扩充。待扩充行人数据集为S,步骤S1得到的类内生成数据为P,步骤S2得到的类间生成数据为O,则最终的扩充数据集Y为:
步骤S4:将最终的扩充数据集Y送入特征提取网络中提取特征并用欧氏距离评估性能。
图1的数据扩充部分是步骤中所述方式示意图。行人原始视频帧,和生成的类内以及类间样本,能够有选择的多样的根据需求进行数据扩充,形成新的两到三倍的扩充样本,同时提升数据集的广度和多样性。
综上所述,本实施例方法步骤联合并改进了两种深度生成对抗网络,同时考虑了类内和类间的数据生成,提取出的行人数据扩充方法更具有鲁棒性,适用性更广。生成的类内样本不需要额外的收集样本和进行标注工作,降低了复杂度,同时保证了数据的一致性;类间行端到端的行人图像背景替换样本生成,减少了背景的干扰,增加了数据集的多样性,同时不需要额外的前景提取,降低了算法的复杂度,使其在下一步的行人识别中发挥更好的性能及效率。
如图4(a)和(b)所示,是基于本实施例扩充的数据集送入特征提取网络做行人重识别的最终结果示意图,以行人重识别中普遍应用的累积匹配特性(CMC)曲线作为表征。五条曲线从上至下依次代表的是本实施例方法和其他方法在不同条件下的性能,作为参照系用以进行方法的比较;第一条带圆圈的曲线代表本实施例的类内数据生成进行两倍数据扩充后得到的准确率结果;第二条带十字的曲线代表本实施例的类间数据生成进行两倍数据扩充后得到的准确率结果;第三条带方块的曲线代表本实施例的综合利用类内和类间数据生成进行三倍数据扩充后得到的准确率结果;第四条曲线代表本实施例的参考的方法(参见:N.McLaughlin,J.Martinez del Rincon,and P.Miller.Recurrent convolutionalnetwork for video-based person re-identification.In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2016.2,3,5,7),这也是本实施例的参考特征提取网络,不用本实施例做数据扩充的结果;其他的曲线代表了运用不同网络不用本实施例进行数据扩充提取出相对应的特征所得到的性能(参见:S.Karanam,Y.Li,and R.J.Radke.Sparse re-id:Block sparsity for person re-identification.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition Workshops,pages 33-40,2015.5,7;参见:T.Wang,S.Gong,X.Zhu,and S.Wang.Person re-identification by video ranking.In European Conferenceon ComputerVision,pages 688-703.Springer,2014.2,5,7)。
从图4(a)和(b)中可以看出,本实施例的所提出的数据生成和扩充的方法方法较之前的方法能够更好地帮助于提取出更具有区分度的特征,并且在不同的数据集上都能得到很好地效果,识别的精度有了明显的提高。
以下表1,是基于本实施例得到的性能的最终识别准确率的数值比较结果。从上至下依次陈列了用以对照的其他结果同本实施例实施结果的数值比较。可以看到本实施例精度在不同数据集上都有很好的效果提升。
表1
综上所述,本实施例提供的基于生成网络的行人重识别数据生成和扩充方法,联合并改进了两种深度生成对抗网络,同时考虑了类内和类间的数据生成,用以对行人数据进行扩充,因此能得到更为鲁棒性和适用性更广的数据扩充方法;利用视频预测的数据生成网络生成的类内扩充样本,很好地保留原有的数据的特征同时增加视频的长度,减少由于数据量不足带来的性能损失,不需要额外的收集样本和进行标注工作,降低了复杂度,同时保证了数据的一致性;利用传统对抗生成网络在进行端到端的行人图像背景替换,减少了背景的干扰,实现了类间行人数据集扩充,增加了数据集的多样性,使下一步的特征提取更多的关注在行人本身从而提升识别的准确率。同时不需要额外的前景提取,降低了算法的复杂度,增加了方法的普适性。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (8)
1.一种基于生成网络的行人重识别数据生成和扩充方法,其特征在于:包括以下步骤:
第一步:基于无监督的视频预测生成网络,形成行人视频预测生成网络P;
第二步:对行人视频中的每一个图像序列s=(s0,...,sT-1),均经过第一步中的行人视频预测生成网络P生成新的视频帧序列p=(p0,...,pT-1),并同原始视频帧计算生成目标损失函数L并反传进行优化迭代,得到最优模型;其中,sT-1表示第T帧原始图像,pT-1表示第T帧预测图像,上标T表示序列长度;
第三步:在整个待扩充行人数据集上对第二步得到的最优模型进行应用,对待扩充行人数据集中的每一个行人视频帧,优化得到新的预测帧,并加入到待扩充行人数据集中进行类内视频长度的扩充,得到类内生成数据,用于减少由于数据量不足带来的过拟合现象;
第四步:基于传统生成对抗网络,形成行人图片生成对抗网络N,其中行人图片生成对抗网络N包含主要由卷积网络构成的生成单元G和描述单元D;
第五步:对待扩充行人数据集中的每一张输入图片s(t),均经过第四步中的行人图片生成对抗网络N的生成单元G,通过生成单元G生成新的图片o(t);
第六步:对待扩充行人数据集中的每一张输入图片s(t)所对应的原始背景替换图y(t)和对应的生成图片o(t),均经过第四步中的行人图片生成对抗网络N的描述单元D,通过描述单元D中的损失函数LC(G,D)判别二者的差异损失,并将损失函数LC(G,D)分别反向传播于生成单元G和描述单元D进行对抗迭代优化;
第七步:加入一范数损失函数,用于减少生成图片的模糊程度;
第八步:最大化描述单元D的损失,用于使网络能够区分生成图片和原始图片;最小化生成单元G的损失,用于使生成图片能够接近原始图片;进行第六步的对抗迭代优化,得到最优的端到端的背景替换数据生成模型G*;
第九步:应用第八步的背景替换数据生成模型G*得到新的端到端的背景替换生成图片;将背景替换生成图片加入待扩充行人数据集中进行类间数据扩充,得到类间生成数据,用于增加数据集的多样性,减少背景干扰;
第十步:利用第三步得到的类内生成数据和第九步得到的类间生成数据对待扩充行人数据集进行扩充,得到最终的扩充数据集,并将最终的扩充数据集送入特征提取网络中提取特征并用欧氏距离评估性能。
2.根据权利要求1所述的基于生成网络的行人重识别数据生成和扩充方法,其特征是:第一步中,所述行人视频预测生成网络P包含四个主要由卷积网络构成的单元,分别为:输入卷积单元A、循环卷积单元R、输出预测单元以及损失计算单元E,其中:
所述输入卷积单元A用于接收并对输入图片进行卷积操作;
所述循环卷积单元R用于对输入图片进行循环卷积操作,并保留序列信息;
所述输出预测单元用于预测对应图像的输出;
所述损失计算单元E用于计算输入图像和预测图像之间的性能损失;
所述输入卷积单元A、循环卷积单元R、输出预测单元以及损失计算单元E的输出分别为:
其中,为输入卷积单元A的输出;为输出预测单元的输出;为损失计算单元E的输出;为循环卷积单元R的输出;l代表单元层的个数;t代表当帧图像在序列中的位置;st代表第t+1帧图像;Conv代表经过卷积操作;
ReLU代表经过激活层操作操作;Maxpool代表经过最大值池化操作;
convLSTM代表经过全卷积网络构成的长短时记忆单元层操作;Usample代表经过上采样层操作。
3.根据权利要求1所述的基于生成网络的行人重识别数据生成和扩充方法,其特征是:第二步中,所述目标损失函数L为:
其中,λt表示赋予序列的每一帧输入图像的权重系数,λl表示赋予每一重单元层的权重系数,nl表示固定参数,表示在第l个单元层对第t帧输入图像通过网络后计算出的损失,t表示图像帧数,l表示单元层数。
4.根据权利要求3所述的基于生成网络的行人重识别数据生成和扩充方法,其特征是:所述目标损失函数L还包括如下任意一组特征:
-nl=4、λt=1、λl=0、l=0;
-nl=4、λt=1、λl=1、l>0。
5.根据权利要求1所述的基于生成网络的行人重识别数据生成和扩充方法,其特征是:第五步中,通过生成单元G生成新的图片o(t)的过程为:
o(t)=G(s(t),n(t)),
其中,G()为经过生成单元G的操作,n(t)为生成单元G中网络自带的随机噪声。
6.根据权利要求1所述的基于生成网络的行人重识别数据生成和扩充方法,其特征是:第六步中,描述单元D中的损失函数LC(G,D)计算公式为:
其中,G()表示经过生成单元G的操作,D()表示经过卷积网络构成的描述单元D的操作,E表示求期望操作,y表示对应的原始背景替换图片,o表示对应的输出预测背景替换图片,pdata()表示对应数据的概率分布,n表示随机噪声,pn(n)表示数据n的概率分布,s表示原始输入图片。
7.根据权利要求1所述的基于生成网络的行人重识别数据生成和扩充方法,其特征是:第八步中,经过对抗优化迭代,最优的端到端的背景替换数据生成模型G*表达式为:
其中,λ为1,LL1是指一范数损失函数。
8.根据权利要求1所述的基于生成网络的行人重识别数据生成和扩充方法,其特征是:第十步中,数据扩充至待扩充行人数据集中原始行人图片的两倍到三倍;具体为,待扩充行人数据集为S,第三步中得到的类内生成数据为Q,第九步中得到的类间生成数据为O,则最终的扩充数据集Y为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710857752.3A CN107679465B (zh) | 2017-09-20 | 2017-09-20 | 一种基于生成网络的行人重识别数据生成和扩充方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710857752.3A CN107679465B (zh) | 2017-09-20 | 2017-09-20 | 一种基于生成网络的行人重识别数据生成和扩充方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679465A CN107679465A (zh) | 2018-02-09 |
CN107679465B true CN107679465B (zh) | 2019-11-15 |
Family
ID=61136656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710857752.3A Active CN107679465B (zh) | 2017-09-20 | 2017-09-20 | 一种基于生成网络的行人重识别数据生成和扩充方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679465B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399432A (zh) * | 2018-02-28 | 2018-08-14 | 成都果小美网络科技有限公司 | 物体检测方法和装置 |
CN108460391B (zh) * | 2018-03-09 | 2022-03-22 | 西安电子科技大学 | 基于生成对抗网络的高光谱图像无监督特征提取方法 |
CN108537136B (zh) * | 2018-03-19 | 2020-11-20 | 复旦大学 | 基于姿态归一化图像生成的行人重识别方法 |
CN110363293A (zh) * | 2018-03-26 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 神经网络模型的训练、延时摄影视频的生成方法及设备 |
CN108510532B (zh) * | 2018-03-30 | 2022-07-15 | 西安电子科技大学 | 基于深度卷积gan的光学和sar图像配准方法 |
CN108681689B (zh) * | 2018-04-02 | 2021-06-04 | 中国科学院自动化研究所 | 基于生成对抗网络的帧率增强步态识别方法及装置 |
CN108711141B (zh) * | 2018-05-17 | 2022-02-15 | 重庆大学 | 利用改进的生成式对抗网络的运动模糊图像盲复原方法 |
CN108897769A (zh) * | 2018-05-29 | 2018-11-27 | 武汉大学 | 基于生成式对抗网络实现文本分类数据集扩展方法 |
CN108961157B (zh) * | 2018-06-19 | 2021-06-01 | Oppo广东移动通信有限公司 | 图片处理方法、图片处理装置及终端设备 |
CN108960127B (zh) * | 2018-06-29 | 2021-11-05 | 厦门大学 | 基于自适应深度度量学习的遮挡行人重识别方法 |
CN108921120B (zh) * | 2018-07-13 | 2021-08-24 | 北京优创新港科技股份有限公司 | 一种适应广泛零售场景下的香烟识别方法 |
CN109284767B (zh) * | 2018-07-23 | 2021-04-06 | 天津师范大学 | 一种基于增广样本和多流层的行人检索方法 |
CN109214430B (zh) * | 2018-08-15 | 2021-10-22 | 天津大学 | 一种基于特征空间拓扑分布的行人重识别方法 |
CN111008294B (zh) * | 2018-10-08 | 2023-06-20 | 阿里巴巴集团控股有限公司 | 交通图像处理、图像检索方法及装置 |
CN109523478B (zh) * | 2018-11-09 | 2021-06-04 | 智慧眼科技股份有限公司 | 图像去网格方法、存储介质 |
CN109670528B (zh) * | 2018-11-14 | 2023-04-18 | 中国矿业大学 | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 |
CN109934117B (zh) * | 2019-02-18 | 2021-04-27 | 北京联合大学 | 基于生成对抗网络的行人重识别检测方法 |
CN110060265A (zh) * | 2019-05-15 | 2019-07-26 | 北京艺泉科技有限公司 | 一种从书画文物图像中分割并提取印章的方法 |
CN110135366B (zh) * | 2019-05-20 | 2021-04-13 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN110222757A (zh) * | 2019-05-31 | 2019-09-10 | 华北电力大学(保定) | 基于生成对抗网络的绝缘子图像样本扩充方法、系统 |
CN110197163B (zh) * | 2019-06-04 | 2021-02-12 | 中国矿业大学 | 一种基于行人搜索的目标追踪样本扩充方法 |
CN110378419B (zh) * | 2019-07-19 | 2021-07-16 | 广东浪潮大数据研究有限公司 | 一种图像集扩充方法、装置、设备及可读存储介质 |
CN110414003B (zh) * | 2019-07-29 | 2021-09-14 | 清华大学 | 建立文本生成模型的方法、装置、介质和计算设备 |
CN113807152A (zh) * | 2020-06-17 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 图像处理、模型训练方法和装置 |
CN111967310A (zh) * | 2020-07-03 | 2020-11-20 | 上海交通大学 | 一种联合注意力机制的时空特征聚合方法及系统、终端 |
CN112364791B (zh) * | 2020-11-17 | 2021-06-15 | 中南民族大学 | 一种基于生成对抗网络的行人重识别方法和系统 |
CN112699899A (zh) * | 2020-12-31 | 2021-04-23 | 杭州电子科技大学 | 一种基于生成对抗网络的高光谱图像特征提取方法 |
CN112884003A (zh) * | 2021-01-18 | 2021-06-01 | 中国船舶重工集团公司第七二四研究所 | 一种基于样本扩充器的雷达目标样本扩充生成方法 |
CN113033656B (zh) * | 2021-03-24 | 2023-12-26 | 厦门航空有限公司 | 一种基于生成对抗网络的交互式孔探数据扩展方法 |
CN113269209B (zh) * | 2021-06-30 | 2022-06-07 | 山东建筑大学 | 一种图像识别方法、系统、介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793702A (zh) * | 2014-02-28 | 2014-05-14 | 武汉大学 | 基于协同尺度学习的行人重识别方法 |
CN104298992A (zh) * | 2014-10-14 | 2015-01-21 | 武汉大学 | 一种基于数据驱动的自适应尺度行人重识别方法 |
CN105095870A (zh) * | 2015-07-27 | 2015-11-25 | 中国计量学院 | 基于迁移学习的行人重识别方法 |
-
2017
- 2017-09-20 CN CN201710857752.3A patent/CN107679465B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793702A (zh) * | 2014-02-28 | 2014-05-14 | 武汉大学 | 基于协同尺度学习的行人重识别方法 |
CN104298992A (zh) * | 2014-10-14 | 2015-01-21 | 武汉大学 | 一种基于数据驱动的自适应尺度行人重识别方法 |
CN105095870A (zh) * | 2015-07-27 | 2015-11-25 | 中国计量学院 | 基于迁移学习的行人重识别方法 |
Non-Patent Citations (2)
Title |
---|
Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identification;Lin Chen等;《2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops》;20170824;第1478-1485页 * |
基于时空模型视频监控的行人活动预测算法;江志浩 等;《计算机应用与软件》;20170131;第34卷(第1期);第149-153页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107679465A (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679465B (zh) | 一种基于生成网络的行人重识别数据生成和扩充方法 | |
Zhu et al. | Vehicle re-identification using quadruple directional deep learning features | |
CN111539370B (zh) | 一种基于多注意力联合学习的图像行人重识别方法和系统 | |
CN109727246B (zh) | 一种基于孪生网络的对比学习图像质量评估方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
Yang et al. | A survey of DNN methods for blind image quality assessment | |
CN107220611B (zh) | 一种基于深度神经网络的空时特征提取方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN112507901B (zh) | 一种基于伪标签自纠正的无监督行人重识别方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN108399435B (zh) | 一种基于动静特征的视频分类方法 | |
CN110082821B (zh) | 一种无标签框微地震信号检测方法及装置 | |
CN106951915B (zh) | 一种基于类别置信度的一维距离像多分类器融合识别法 | |
CN104573652A (zh) | 确定人脸图像中人脸的身份标识的方法、装置和终端 | |
JP7089045B2 (ja) | メディア処理方法、その関連装置及びコンピュータプログラム | |
CN110852152B (zh) | 一种基于数据增强的深度哈希行人重识别方法 | |
CN108537119A (zh) | 一种小样本视频识别方法 | |
CN110909741A (zh) | 一种基于背景分割的车辆再识别方法 | |
CN111797814A (zh) | 基于通道融合和分类器对抗的无监督跨域动作识别方法 | |
CN112766378A (zh) | 一种专注细粒度识别的跨域小样本图像分类模型方法 | |
CN110619264A (zh) | 基于UNet++的微地震有效信号识别方法及装置 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 | |
CN116342894A (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
CN107220607B (zh) | 基于3d平稳小波的运动轨迹行为识别方法 | |
CN115937540A (zh) | 基于Transformer编码器的图像匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |