CN110363068A - 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 - Google Patents
一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 Download PDFInfo
- Publication number
- CN110363068A CN110363068A CN201910450597.2A CN201910450597A CN110363068A CN 110363068 A CN110363068 A CN 110363068A CN 201910450597 A CN201910450597 A CN 201910450597A CN 110363068 A CN110363068 A CN 110363068A
- Authority
- CN
- China
- Prior art keywords
- resolution
- pedestrian image
- generator
- low
- pedestrian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000006870 function Effects 0.000 claims description 30
- 125000004122 cyclic group Chemical group 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000003042 antagnostic effect Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 230000004083 survival effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000012806 monitoring device Methods 0.000 abstract 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,解决由监控设备拍摄到的行人图像分辨率存在差异的问题。其实现方案是:提出基于多尺度循环生成式对抗网络的高分辨行人图像生成模型,采用多尺度生成网络模型将低分辨率行人图像转换为高分辨行人图像,该模型生成器分为两个子生成网络:全局生成网络和局部增强网络;其次采用循环生成式对抗网络技术通过对抗学习的方法来训练多尺度生成器,目的是解决生成高分辨图像失真问题以及还原行人图像的背景信息;针对网络模型复杂度高和参数多的问题,使用多阶段学习方法来训练多尺度循环生成式对抗网络高分辨行人图像生成模型,实现网络性能的稳步提升。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,可用于应用到行人重识别领域。
背景技术
超分辨率技术的目的是根据低分辨率图像重构出相应的高分辨图像,该技术主要被用于对图像空间分辨率的增强,其可以突破原有系统成像硬件条件的限制,重新获得的高分辨图像具有更高的分辨率、更多的细节信息和更高质量的画质等特点,在很多领域如监控设备、卫星图像和医学影像等都有重要的应用价值。目前,高分辨图像重构技术主要分为3类:基于插值的方法、基于重构的方法以及基于实例学习的方法。与前两个高分辨重构技术相比,基于实例的学习方法因具有算法结构灵活,以及在高倍数仍能够保留更多细节信息等优点,而引起了国内外学者的广泛研究。
基于实例的学习方法利用机器学习技术进行图像高分辨重建,通过学习低分辨率图像与高分辨图像之间的映射关系,估计低分辨率图像中丢失的高频细节信息,得到纹理丰富的高质量图像。根据高分辨重建过程中实例样本和学习算法的使用情况,现有的基于实例学习的高分辨重建方法大致分为五类:基于k近邻学习的方法、基于流形学习的方法、基于字典学习的方法、基于实例多线性回归的方法和基于深度学习的方法。基于k近邻学习的方法采用马尔可夫网络建立低分辨率图像和高分辨图像之间的关系模型,通过信令传播算法实现高分辨图像的最大后验估计。该方法虽然在一定程度上突破了物理成像系统分辨率的局限性,但这种方法的重构质量严重依赖于大量实例样本的学习,计算复杂度高,不利于实际应用。此外,当输入图像与训练集中的图像结构不匹配时,该方法会导致重建质量显著下降。
基于流形学习的方法基于假设低分辨特征空间和对应的高分辨特征空间在局部结构上是等同或相似的思想,首先通过最小化k个候选低分辨特征块重构误差估计最优权值,其次利用得到的权值线性组合k个对应的高分辨近邻获得所需的高分辨特征。然而,该方法对图像特征的选择和邻域数目敏感,容易导致过拟合或欠拟合问题。
基于字典学习的方法假设,可以通过从实例样本中学习一个超完备字典对的稀疏表示来获得自然图像。但在高分辨图像重建过程中每个输入图像块都需要对超完备字典进行稀疏编码,当字典规模或重建图像较大时,增加了算法的时间复杂度。
基于实例多线性回归的方法通过直接建立了低分辨率特征空间与高分辨特征之间的映射关系,实现超分辨生成。在超分辨率过程中,只需进行模型匹配和简单的矩阵运算,因此计算效率高,具有较好的实际应用前景。然而,当超分辨率放大倍数增加时,其丢失的细节信息越来越多,该类算法在低分辨率和高分辨之间具有复杂的线性关系。
研发基于深度学习的方法,实现多层神经网络直接建立从低分辨率行人图像与高分辨行人图像之间的非线性映射关系,是高分辨行人图像生成的重要研究方向。目前基于深度学习的高分辨行人图像生成方法仍无法解决在高倍数放大图像的情况下更好地保持重构图像纹理细节的问题。
尽管利用更快更深的卷积神经网络在图像超分辨的速度和精度方面取得了突破,但有一个中心问题仍没有得到实质性解决:在高倍数放大情况下,如何更好地保持重建图像的纹理细节是亟需解决的关键性问题。
发明内容
本发明目的在于克服上述现有技术的不足,提出了一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法。本发明将目标检测的行人图像的去模糊过程作为为同一场景图的低分辨率到高分辨的风格转换,并提供生成式对抗网络模型学习方法来约束生成器和判别器的协同训练,解决低分辨率行人图像辨识度低的问题,该方法可以用于行人图像的样本扩充,进而提高行人重识别对低分辨率行人图像的鲁棒性。
技术方案:为实现上述目的,本发明采用如下技术方案:
一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,包括以下几个步骤:
(1)采用目标检测算法从整张图中提取出目标特征,并对目标特征进行分类和定位,将检测到的目标特征分为两类:目标细节清晰的高清行人图像和目标细节模糊的低分辨率行人图像,其中,目标细节清晰的高清行人图像构成高清行人图像集,目标细节模糊的低分辨率行人图像构成低分辨率行人图像集;
(2)构建多尺度高分辨生成器,用以生成高分辨行人图像;
(3)构建多尺度循环生成式对抗网络,学习去模糊图像生成和保留图像背景信息;
(4)使用多阶段生成式对抗网络学习方法完成多个任务生成器-判别器的协同学习。
步骤1中,采用深度学习算法对整张行人图像进行目标检测,采用的目标检测算法为YOLO目标检测算法。
步骤2中,所述多尺度高分辨生成器采用多尺度生成器,分解为两个子生成器:全局生成器Ⅰ和局部增强生成器Ⅱ,其中,局部增强生成器Ⅱ用于将全局生成器Ⅰ生成图像的分辨率进行扩大;
在训练期间,首先用低分辨率行人图像集训练全局生成器Ⅰ,接着将全局生成器Ⅰ的输出作为局部增强生成器Ⅱ输入的一部分,联合训练两个网络以生成高分辨的行人图像;
通过增加额外的局部增强生成器Ⅱ以获得更高分辨的行人图像。
为了有效保留样本的细节信息,定义原图像与生成图像之间的像素级重构损失函数为:
其中,表示低分辨率行人图像集中的低分辨率行人图像,代表高清行人图像集中的高清行人图像,Gsr表示多尺度高分辨生成器,表示输入图像经多尺度高分辨生成器生成的高分辨行人图像,||·||1表示一范数。
步骤3中,所述多尺度循环生成式对抗网络由两个多尺度高分辨生成器和两个判别器组成,分别是第一生成器、第二生成器、第一判别器和第二判别器,其中,
第一生成器用于将低分辨率行人图像集的低分辨率行人图像生成高分辨行人图像;
第二生成器用于将高清行人图像集的高清行人图像生成低分辨率行人图像;
第二判别器和第一生成器对抗学习;
第一判别器和第二生成器对抗学习;
当两个判别器的鉴别性能提升到无法判断输入图像是低分辨率行人图像集和高清行人图像集的行人图像还是两个生成器生成的行人图像时,表示两个生成器学到了真实的行人样本数据分布;
构建多尺度循环生成式对抗网络具体包括如下步骤:
(31)采用步骤(2)中多尺度高分辨生成器作为多尺度循环生成式对抗网络中所用的生成器;
(32)将目标检测的行人图像的去模糊过程作为同一场景图的低分辨率到高分辨的风格转换问题,具体是:
利用第一生成器将来自低分辨率行人图像集中的行人图像生成高分辨行人图像,将生成的高分辨行人图像传递到第二生成器,通过第二生成器还原至低分辨率行人图像集的低分辨率行人图像,该输出的低分辨率行人图像与低分辨行人图像集中的低分辨率行人图像相似;
利用第二生成器将来自高清行人图像集的给定图像转换成低分辨率行人图像集中的低分辨率行人图像,将转换成的低分辨率行人图像传递到第一生成器,通过第一生成器还原至高分辨行人图像,该生成的高分辨行人图像与高清行人图像集中的高清行人图像相似;
(33)将低分辨率行人图像集中的低分辨率行人图像作为第一生成器的输入数据以生成高分辨人图像,其作为第二生成器的输入数据生成低分辨率行人图像;
通过第一判别器判断所述低分辨率行人图像是来自第二生成器生成的行人图像,还是来自低分辨率行人图像集中的行人图像,并将生成的低分辨率行人图像与低分辨率行人图像集中低分辨率行人图像之间的误差反馈给第二生成器以减少误差,提高第二生成器生成图像的真实度;
(34)第一判别器对抗学习来自第二生成器生成的低分辨率行人图像和低分辨率行人图像集中的低分辨率行人图像,实现复杂场景下低分辨行人样本生成的目标;
(35)将高清行人图像集中的高清行人图像作为第二生成器的输入数据以生成低分辨率行人图像,其作为第一生成器的输入数据生成高分辨行人图像;
通过第二判别器判断所述高分辨行人图像是来自第一生成器生成的高分辨行人图像还是来自高清行人图像集中的高清行人图像,并将高分辨行人图像与高清行人图像集中的高清行人图像之间的误差反馈给第一生成器以减少误差,提高第以生成器生成行人图像的真实度;
(36)第二判别器对抗学习来自第一生成器生成的高分辨行人图像和高清行人图像集中的高清行人图像,实现复杂场景下高分辨行人样本生成的目标。
所述第一判别器的损失函数,其损失定义为:
L(Gy→x,Dx,Sy,Sx)=λSRLSR+λSBLSB
其中,Gy→x为第二生成器;Dx为第一判别器;Sx为低分辨率行人图像集中的低分辨率行人图像;Sy为高清行人图像集中的高清行人图像;
L(Gy→x,Dx,Sy,Sx)表示第一判别器的目标函数;
LSR为多尺度循环生成式对抗网络的高分辨到低分辨率的损失函数;
LSB是第一判别器与第二生成器对抗学习原图像中行人周围的背景损失函数;
λSR和λSB为加权系数;
S′x为第二生成器Gy→x(Sy)以高清行人图像集中高清行人图像Sy作为输入而生成的低分辨率行人图像;
Sy~Pr表示高清行人图像集中高清行人图像Sy服从的数据分布Pr;
S′x~Z表示生成的低分辨率行人图像S′x服从第二生成器中学习到的数据分布Z;
Dx(Sx)和Dx(Gy→x(Sy))分别表示第一判别器Dx对Sx和Gy→x(Sy)的判别结果;
第二生成器根据输入的高清行人图像生成低分辨率行人图像,其重构损失为:
其中,表示第二生成器的像素级约束函数,Gy→x(Sy)是第二生成器以高清行人图像作为输入生成的低分辨率行人图像,||·||1是第一范数。
所述第二判别器的损失函数,其损失定义为:
L(Gx→y,Dy,Sx,Sy)=λHRLHR+λHBLHB
其中,Gx→y为第一生成器;Dy为第二判别器;
L(Gx→y,Dy,Sx,Sy)表示第二判别器的目标函数;
LHR为多尺度循环生成式对抗网络的低分辨率到高分辨的损失函数;
LHB是第二判别器与第一生成器对抗学习原图像中行人周围的背景损失函数;
λHR和λHB为加权系数;
S′y为第一生成器Gx→y(Sx)以低分辨率行人图像集中低分辨率行人图像Sx作为输入而生成的高分辨行人图像;
Sx~Pr表示低分辨率行人图像集中低分辨率行人图像Sx服从的数据分布Pr;
S′y~Z表示生成的高分辨行人图像S′y服从第一生成器Gx→y中学习到的数据分布Z;
Dy(Sy)和Dy(Gx→y(Sx))分别表示第二判别器Dy对Sy和Gx→y(Sx)的判别结果;
第一生成器根据输入的条件信息生成高分辨行人图像,其重构损失如下所示:
其中,表示第二生成器的像素级约束函数,Gx→y(Sx)是第一生成器以低分辨率行人图像作为输入生成的高分辨行人图像。
基于多尺度循环生成式对抗网络的高分辨行人图像生成方法的整体损失函数定义为:
其中,L表示多尺度循环生成式对抗网络的高分辨行人图像生成方法的目标函数,λ1、λ2、λ3、λ4和λ5为加权系数。
步骤4中,使用多阶段生成式对抗网络学习方法完成多个任务生成器-判别器的协同学习,实现网络性能的稳步提升,包括三个阶段:
第一阶段针对提升生成图像质量学习,给λ1设置较大的数值;
第二阶段针对多尺度生成器生成高分辨样本学习,提高λ2和λ3的数值,通过低分辨率行人图像到高清样本对抗学习提升生成器生成高分辨图像的能力;
第三阶段,提高λ4和λ5的数值,通过高清数据集到低分辨率数据集对抗学习提升生成器生成低分辨样本的能力。
有益效果:本发明提供的一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,能够实现将低分辨行人图像生成相应高分辨图像,并且保留原有图像的背景信息,从而将生成的高分辨图像更好地融合到原有图像当中以增加训练样本的多样性,解决行人重识别方法因数据集低分辨率因素而造成的泛化性能差的问题。
附图说明
图1为本发明方法的实施流程图;
图2为构建多尺度高分辨生成器的结构示意图;
图3为多尺度循环生成式对抗网络框架示意图;
其中,Dx为第一判别器;Dy为第二判别器;Sx为低分辨率行人图像集中的低分辨率行人图像;Sy为高清行人图像集中的高清行人图像;Gx→y为第一生成器;Gy→x为第二生成器;S′x为第二生成器Gy→x生成的低分辨率行人图像;S′y为第一生成器Gx→y生成的高分辨行人图像;
图4为构建多尺度循环生成式对抗网络的实施流程图;
图5为基于多尺度循环生成式对抗网络的高分辨行人图像生成网络整体框架示意图。
具体实施方式
下面结合附图以及具体实施例对本发明的技术方案作更进一步的说明。
如图1所示,一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,包括如下流程步骤:
步骤S01:利用YOLO目标检测算法从行人数据集中检测出低分辨率行人图像和高清行人图像来获取训练样本,低分辨率行人图像构成低分辨率行人图像集,高清行人图像构成高清行人图像集。
步骤S02:构建多尺度高分辨生成器用以生成高分辨行人图像。多尺度高分辨生成器Gsr包含两个子生成网络:G1和G2,其中G1称为全局生成网络,G2为局部增强生成网络。局部增强生成网络将全局生成网络输入图像的分辨率扩大为4倍(每个图像维度的2倍)。为了获得更高分辨的行人图像,可以增加额外的局部增强生成网络。即G1的输入图像是1024×512,则Gsr={G1,G2}是2048×1024,Gsr={G1,G2,G3}是4096×2048。在训练期间,首先用低分辨率行人图像集训练全局生成网络G1,接着将生成网络G1的输出作为局部生成网络G2输入的一部分,联合训练两个网络以生成高分辨行人图像。为了有效保留样本的细节信息,定义原图像与生成图像之间的像素级重构损失为:
其中,表示低分辨率行人图像集中的低分辨率行人图像,代表高清行人图像集中的高清行人图像。训练网络时,采用L1损失能够有效地保留更多图像的高频细节信息。||·||1表示一范数。
全局生成网络G1为一个包含五层卷积、九个残差块和五层反卷积的卷积神经网络,五层卷积中从第一层卷积到第五层卷积所对应的滤波器个数分别为64、128、256、512和1024,卷积核的大小除了第一层卷积为7×7、步长为1,其他四个卷积核大小都是3×3、步长为2。九个残差块卷积核的大小是3×3。五层反卷积中从第一层反卷积到第五层反卷积所对应的滤波器个数分别为512、256、128、64和3,前四层反卷积核的大小为3×3、步长为2,第五个反卷积核大小是7×7、步长为1。局部增强生成网络G2为一个包含两层卷积、八个残差块和五层反卷积的卷积神经网络,两层卷积所对应的滤波器个数都是1024,卷积核大小都是3×3、步长为1。八个残差块卷积核的大小是3×3、步长为1。四层反卷积中从第一层反卷积到第五层反卷积所对应的滤波器个数分别为512、256、128、64和3,前四层反卷积核的大小为3×3、步长为2,第五个反卷积核大小是7×7、步长为1。
如图2所示为多尺度高分辨生成器的结构示意图。
步骤S03:构建多尺度循环生成式对抗网络,该网络包括两个多尺度高分辨生成器Gx→y、Gy→x和两个判别器Dx、Dy。多尺度循环生成式对抗网络框架示意图如3图所示。关于本步骤如何具体的构建多尺度循环生成式对抗网络,详细描述如下。
对于本实施例而言,上述步骤S03还可以进一步细化,其细化后的具体流程图如图4所示。图4中,该步骤S03进一步包括:
步骤31:多尺度循环生成式对抗网络中所有的生成器均采用步骤S02中多尺度高分辨生成器;
步骤32:循环生成式对抗网络是两个镜像堆成的生成式对抗网络,构成一个环形网络。将目标检测的行人图像的去模糊过程作为同一场景图的低分辨率到高分辨的风格转换问题,从低分辨率行人图像集Dx获取输入的低分辨率行人图像传递到生成器Gx→y,其任务是将来自低分辨率行人图像集Dx给定的行人图像生成高清行人图像集Dy中的高清行人图像。将新生成的行人图像传递到另一个生成器Gy→x,其任务是还原低分辨率行人图像集的行人图像,该输出的图像与输入的低分辨率行人图像集中低分辨率行人图像相似。从高清行人图像集Dy获取输入的高清行人图像传递到生成器Gy→x,其任务是将来自高清行人图像集Dy给定的行人图像生成低分辨率行人图像集Dx中的低分辨率行人图像。将新生成的行人图像传递到另一个生成器Gx→y,其任务是还原高清行人图像集的行人图像,该输出的图像与输入的高清行人图像集中高清行人图像相似。
步骤33:在多尺度高分辨生成式对抗网络的方法中步骤S03,低分辨率行人图像集中的低分辨率行人图像Sx作为Gx→y的输入数据以生成高分辨行人图像S′y,其作为Gy→x的输入数据生成低分辨率行人图像S′x;判别器Dx判断S′x是来自生成器Gy→x生成的行人图像还是来自低分辨率行人图像集中的行人图像,并将低分辨率行人图像S′x与低分辨率行人图像集中的低分辨率行人图像Sx之间的误差L(Gy→x,Dx,Sy,Sx)反馈给生成器Gy→x以减少误差,提高生成行人图像的真实度。判别器Dx的任务在保证生成较为真实的行人图像的同时还要保证将生成的图像能够较好地融入原有图像背景当中。因此多尺度循环生成式对抗网络的判别器Dx的损失函数其损失定义如下:
生成器Gy→x根据输入的高清行人图像生成低分辨率行人图像。其重构损失为:
步骤34:在多尺度循环生成式对抗网络的高分辨行人图像生成方法中一方面利用生成器Gx→y生成高质量的行人目标样本,另一方面利用判别器Dy对抗学习并解决行人图像中的模糊问题,从而提升生成高分辨行人图像方法的鲁棒性。
高清行人图像集中的高清行人图像Sy作为生成器Gy→x的输入数据用以生成低分辨率行人图像S′x,其作为生成器Gx→y的输入数据获得高分辨图像S′y;Dy判断高分辨图像S′y是来自生成器Gx→y生成的行人图像还是来自高清行人图像集的图像Sy,并将生成的高分辨行人图像S′y与高清行人图像集中的高清行人图像之间的误差L(Gx→y,Dy,Sx,Sy)反馈给生成器Gx→y,以减少该误差提高生成图像的真实度。在多尺度循环生成式对抗网络的高分辨行人图像生成方法中,判别器Dy的功能在保证生成较为真实的高分辨行人图像的同时还能将生成的图像能够较好地融入原有图像背景当中。判别器Dy需要判别多尺度循环生成器生成的高分辨行人图像是否真实,以及与原图像中行人周围的背景是否一致。因此多尺度循环生成式对抗网络的判别器Dy的损失函数如下:
生成器Gx→y根据输入的条件信息生成高分辨行人图像。其重构损失如下所示:
多尺度循环生成式对抗网络的两个多尺度生成器Gx→y、Gy→x结构如步骤S02所述,两个判别器Dx、Dy的结构一样,以下统称为判别器D。判别器D为一个包含四层卷积和三层全连接层的卷积神经网络。四层卷积层中从第一层卷积到第四层卷积所对应的滤波器个数分别为64、128、256和512,所述卷积核的大小均为4×4,前三层卷积步长为2,后一层步长为1;三层全连接层中从第一层全连接层到第三层全连接层所对应的节点数分别为512、128和1。
步骤S04:使用多阶段生成式对抗网络学习方法完成多个任务生成器-判别器的协同学习。多尺度循环生成式对抗网络的高分辨行人图像生成方法引入重构损失和以最小化所生成的图像与其对应的数据集中图像之间的差异,在训练过程中有助于生成器更稳定的收敛。因此,基于多尺度循环生成式对抗网络的高分辨行人图像生成方法的整体损失函数定义为:
面向高分辨行人图像的多尺度循环生成式对抗网络和传统的生成式对抗网络相比,模型结构更复杂、参数更多,故采用多阶段的学习方法来训练本发明提出的多尺度循环生成式对抗网络的去模糊学习方法,实现网络性能的稳步提升。
第一阶段针对提升生成图像质量学习,给λ1设置较大的数值;第二阶段针对多尺度生成器生成高分辨样本学习,提高λ2和λ3的数值,通过低分辨率行人图像到高清样本对抗学习提升生成器生成高分辨图像的能力;第三阶段,提高λ4和λ5的数值,通过高清数据集到低分辨率数据集对抗学习提升生成器生成低分辨样本的能力。
一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,总体结构如图5所示。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,其特征在于,包括以下几个步骤:
(1)采用目标检测算法从整张图中提取出目标特征,并对目标特征进行分类和定位,将检测到的目标特征分为两类:目标细节清晰的高清行人图像和目标细节模糊的低分辨率行人图像,其中,目标细节清晰的高清行人图像构成高清行人图像集,目标细节模糊的低分辨率行人图像构成低分辨率行人图像集;
(2)构建多尺度高分辨生成器,用以生成高分辨行人图像;
(3)构建多尺度循环生成式对抗网络,学习去模糊图像生成和保留图像背景信息;
(4)使用多阶段生成式对抗网络学习方法完成多个任务生成器-判别器的协同学习。
2.根据权利要求1所述的基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,其特征在于:步骤1中,采用深度学习算法对整张行人图像进行目标检测,采用的目标检测算法为YOLO目标检测算法。
3.根据权利要求1所述的基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,其特征在于:步骤2中,所述多尺度高分辨生成器采用多尺度生成器,分解为两个子生成器:全局生成器Ⅰ和局部增强生成器Ⅱ,其中,局部增强生成器Ⅱ用于将全局生成器Ⅰ生成图像的分辨率进行扩大;
在训练期间,首先用低分辨率行人图像集训练全局生成器Ⅰ,接着将全局生成器Ⅰ的输出作为局部增强生成器Ⅱ输入的一部分,联合训练两个网络以生成高分辨的行人图像;
通过增加额外的局部增强生成器Ⅱ以获得更高分辨的行人图像。
4.根据权利要求3所述的基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,其特征在于:
为了有效保留样本的细节信息,定义原图像与生成图像之间的像素级重构损失函数为:
其中,表示低分辨率行人图像集中的低分辨率行人图像,代表高清行人图像集中的高清行人图像,Gsr表示多尺度高分辨生成器,表示输入图像经多尺度高分辨生成器生成的高分辨行人图像,||·||1表示一范数。
5.根据权利要求1所述的基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,其特征在于:步骤3中,所述多尺度循环生成式对抗网络由两个多尺度高分辨生成器和两个判别器组成,分别是第一生成器、第二生成器、第一判别器和第二判别器,其中,
第一生成器用于将低分辨率行人图像集的低分辨率行人图像生成高分辨行人图像;
第二生成器用于将高清行人图像集的高清行人图像生成低分辨率行人图像;
第二判别器和第一生成器对抗学习;
第一判别器和第二生成器对抗学习;
当两个判别器的鉴别性能提升到无法判断输入图像是低分辨率行人图像集和高清行人图像集的行人图像还是两个生成器生成的行人图像时,表示两个生成器学到了真实的行人样本数据分布;
构建多尺度循环生成式对抗网络具体包括如下步骤:
(31)采用步骤(2)中多尺度高分辨生成器作为多尺度循环生成式对抗网络中所用的生成器;
(32)将目标检测的行人图像的去模糊过程作为同一场景图的低分辨率到高分辨的风格转换问题,具体是:
利用第一生成器将来自低分辨率行人图像集中的行人图像生成高分辨行人图像,将生成的高分辨行人图像传递到第二生成器,通过第二生成器还原至低分辨率行人图像集的低分辨率行人图像,该输出的低分辨率行人图像与低分辨行人图像集中的低分辨率行人图像相似;
利用第二生成器将来自高清行人图像集的给定图像转换成低分辨率行人图像集中的低分辨率行人图像,将转换成的低分辨率行人图像传递到第一生成器,通过第一生成器还原至高分辨行人图像,该生成的高分辨行人图像与高清行人图像集中的高清行人图像相似;
(33)将低分辨率行人图像集中的低分辨率行人图像作为第一生成器的输入数据以生成高分辨人图像,其作为第二生成器的输入数据生成低分辨率行人图像;
通过第一判别器判断所述低分辨率行人图像是来自第二生成器生成的行人图像,还是来自低分辨率行人图像集中的行人图像,并将生成的低分辨率行人图像与低分辨率行人图像集中低分辨率行人图像之间的误差反馈给第二生成器以减少误差,提高第二生成器生成图像的真实度;
(34)第一判别器对抗学习来自第二生成器生成的低分辨率行人图像和低分辨率行人图像集中的低分辨率行人图像,实现复杂场景下低分辨行人样本生成的目标;
(35)将高清行人图像集中的高清行人图像作为第二生成器的输入数据以生成低分辨率行人图像,其作为第一生成器的输入数据生成高分辨行人图像;
通过第二判别器判断所述高分辨行人图像是来自第一生成器生成的高分辨行人图像还是来自高清行人图像集中的高清行人图像,并将高分辨行人图像与高清行人图像集中的高清行人图像之间的误差反馈给第一生成器以减少误差,提高第以生成器生成行人图像的真实度;
(36)第二判别器对抗学习来自第一生成器生成的高分辨行人图像和高清行人图像集中的高清行人图像,实现复杂场景下高分辨行人样本生成的目标。
6.根据权利要求5所述的基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,其特征在于:所述第一判别器的损失函数,其损失定义为:
L(Gy→x,Dx,Sy,Sx)=λSRLSR+λSBLSB
其中,Gy→x为第二生成器;Dx为第一判别器;Sx为低分辨率行人图像集中的低分辨率行人图像;Sy为高清行人图像集中的高清行人图像;
L(Gy→x,Dx,Sy,Sx)表示第一判别器的目标函数;
LSR为多尺度循环生成式对抗网络的高分辨到低分辨率的损失函数;
LSB是第一判别器与第二生成器对抗学习原图像中行人周围的背景损失函数;
λSR和λSB为加权系数;
S′x为第二生成器Gy→x(Sy)以高清行人图像集中高清行人图像Sy作为输入而生成的低分辨率行人图像;
Sy~Pr表示高清行人图像集中高清行人图像Sy服从的数据分布Pr;
S′x~Z表示生成的低分辨率行人图像S′x服从第二生成器中学习到的数据分布Z;
Dx(Sx)和Dx(Gy→x(Sy))分别表示第一判别器Dx对Sx和Gy→x(Sy)的判别结果;
第二生成器根据输入的高清行人图像生成低分辨率行人图像,其重构损失为:
其中,表示第二生成器的像素级约束函数,Gy→x(Sy)是第二生成器以高清行人图像作为输入生成的低分辨率行人图像,||·||1是第一范数。
7.根据权利要求5所述的基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,其特征在于:所述第二判别器的损失函数,其损失定义为:
L(Gx→y,Dy,Sx,Sy)=λHRLHR+λHBLHB
其中,Gx→y为第一生成器;Dy为第二判别器;
L(Gx→y,Dy,Sx,Sy)表示第二判别器的目标函数;
LHR为多尺度循环生成式对抗网络的低分辨率到高分辨的损失函数;
LHB是第二判别器与第一生成器对抗学习原图像中行人周围的背景损失函数;
λHR和λHB为加权系数;
S′y为第一生成器Gx→y(Sx)以低分辨率行人图像集中低分辨率行人图像Sx作为输入而生成的高分辨行人图像;
Sx~Pr表示低分辨率行人图像集中低分辨率行人图像Sx服从的数据分布Pr;
S′y~Z表示生成的高分辨行人图像S′y服从第一生成器Gx→y中学习到的数据分布Z;
Dy(Sy)和Dy(Gx→y(Sx))分别表示第二判别器Dy对Sy和Gx→y(Sx)的判别结果;
第一生成器根据输入的条件信息生成高分辨行人图像,其重构损失如下所示:
其中,表示第二生成器的像素级约束函数,Gx→y(Sx)是第一生成器以低分辨率行人图像作为输入生成的高分辨行人图像。
8.根据权利要求5所述的基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,其特征在于:基于多尺度循环生成式对抗网络的高分辨行人图像生成方法的整体损失函数定义为:
其中,L表示多尺度循环生成式对抗网络的高分辨行人图像生成方法的目标函数,λ1、λ2、λ3、λ4和λ5为加权系数。
9.根据权利要求1所述的基于多尺度循环生成式对抗网络的高分辨行人图像生成方法,其特征在于:步骤4中,使用多阶段生成式对抗网络学习方法完成多个任务生成器-判别器的协同学习,实现网络性能的稳步提升,包括三个阶段:
第一阶段针对提升生成图像质量学习,给λ1设置较大的数值;
第二阶段针对多尺度生成器生成高分辨样本学习,提高λ2和λ3的数值,通过低分辨率行人图像到高清样本对抗学习提升生成器生成高分辨图像的能力;
第三阶段,提高λ4和λ5的数值,通过高清数据集到低分辨率数据集对抗学习提升生成器生成低分辨样本的能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910450597.2A CN110363068B (zh) | 2019-05-28 | 2019-05-28 | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910450597.2A CN110363068B (zh) | 2019-05-28 | 2019-05-28 | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110363068A true CN110363068A (zh) | 2019-10-22 |
CN110363068B CN110363068B (zh) | 2023-08-18 |
Family
ID=68215451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910450597.2A Active CN110363068B (zh) | 2019-05-28 | 2019-05-28 | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110363068B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144274A (zh) * | 2019-12-24 | 2020-05-12 | 南京航空航天大学 | 一种面向yolo检测器的社交图片隐私保护方法和装置 |
CN111860782A (zh) * | 2020-07-15 | 2020-10-30 | 西安交通大学 | 三重多尺度的CycleGAN、眼底荧光造影生成方法、计算机设备及存储介质 |
CN112288622A (zh) * | 2020-10-29 | 2021-01-29 | 中山大学 | 一种基于多尺度生成对抗网络的伪装图像生成方法 |
CN112992304A (zh) * | 2020-08-24 | 2021-06-18 | 湖南数定智能科技有限公司 | 高分辨率红眼病案例数据生成方法、设备及存储介质 |
CN113592724A (zh) * | 2020-04-30 | 2021-11-02 | 北京金山云网络技术有限公司 | 目标人脸图像的修复方法和装置 |
CN114898410A (zh) * | 2022-07-14 | 2022-08-12 | 安徽云森物联网科技有限公司 | 一种基于小波变换的跨分辨率行人重识别方法 |
CN116630140A (zh) * | 2023-03-31 | 2023-08-22 | 南京信息工程大学 | 一种基于条件生成对抗网络的动漫人像真人化的实现方法、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107154023A (zh) * | 2017-05-17 | 2017-09-12 | 电子科技大学 | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 |
CN109493303A (zh) * | 2018-05-30 | 2019-03-19 | 湘潭大学 | 一种基于生成对抗网络的图像去雾方法 |
CN109685716A (zh) * | 2018-12-14 | 2019-04-26 | 大连海事大学 | 一种基于高斯编码反馈的生成对抗网络的图像超分辨率重建方法 |
-
2019
- 2019-05-28 CN CN201910450597.2A patent/CN110363068B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107154023A (zh) * | 2017-05-17 | 2017-09-12 | 电子科技大学 | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 |
CN109493303A (zh) * | 2018-05-30 | 2019-03-19 | 湘潭大学 | 一种基于生成对抗网络的图像去雾方法 |
CN109685716A (zh) * | 2018-12-14 | 2019-04-26 | 大连海事大学 | 一种基于高斯编码反馈的生成对抗网络的图像超分辨率重建方法 |
Non-Patent Citations (1)
Title |
---|
YUAN YUAN等: "Unsupervised Image Super-Resolution using Cycle-in-Cycle Generative Adversarial Networks", 《2018CVPR》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144274A (zh) * | 2019-12-24 | 2020-05-12 | 南京航空航天大学 | 一种面向yolo检测器的社交图片隐私保护方法和装置 |
CN111144274B (zh) * | 2019-12-24 | 2023-06-09 | 南京航空航天大学 | 一种面向yolo检测器的社交图片隐私保护方法和装置 |
CN113592724A (zh) * | 2020-04-30 | 2021-11-02 | 北京金山云网络技术有限公司 | 目标人脸图像的修复方法和装置 |
CN111860782A (zh) * | 2020-07-15 | 2020-10-30 | 西安交通大学 | 三重多尺度的CycleGAN、眼底荧光造影生成方法、计算机设备及存储介质 |
CN112992304A (zh) * | 2020-08-24 | 2021-06-18 | 湖南数定智能科技有限公司 | 高分辨率红眼病案例数据生成方法、设备及存储介质 |
CN112992304B (zh) * | 2020-08-24 | 2023-10-13 | 湖南数定智能科技有限公司 | 高分辨率红眼病案例数据生成方法、设备及存储介质 |
CN112288622A (zh) * | 2020-10-29 | 2021-01-29 | 中山大学 | 一种基于多尺度生成对抗网络的伪装图像生成方法 |
CN114898410A (zh) * | 2022-07-14 | 2022-08-12 | 安徽云森物联网科技有限公司 | 一种基于小波变换的跨分辨率行人重识别方法 |
CN116630140A (zh) * | 2023-03-31 | 2023-08-22 | 南京信息工程大学 | 一种基于条件生成对抗网络的动漫人像真人化的实现方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110363068B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Video super-resolution based on deep learning: a comprehensive survey | |
CN110363068A (zh) | 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法 | |
Sun et al. | Hybrid pixel-unshuffled network for lightweight image super-resolution | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN109064405A (zh) | 一种基于双路径网络的多尺度图像超分辨率方法 | |
WO2024040973A1 (zh) | 一种基于堆叠沙漏网络的多尺度融合去雾方法 | |
CN110544297A (zh) | 一种单幅图像的三维模型重建方法 | |
CN111259904B (zh) | 一种基于深度学习和聚类的语义图像分割方法及系统 | |
CN110223234A (zh) | 基于级联收缩扩张的深度残差网络图像超分辨率重建方法 | |
US20240062347A1 (en) | Multi-scale fusion defogging method based on stacked hourglass network | |
CN114463176B (zh) | 基于改进esrgan的图像超分辨重建方法 | |
CN116030498A (zh) | 面向虚拟服装走秀的三维人体姿态估计方法 | |
CN111861886A (zh) | 一种基于多尺度反馈网络的图像超分辨率重建方法 | |
CN113793267B (zh) | 基于跨维度注意力机制的自监督单遥感图像超分辨率方法 | |
CN116681592A (zh) | 基于多尺度自适应非局部注意力网络的图像超分辨率方法 | |
Ahn et al. | Neural architecture search for image super-resolution using densely constructed search space: DeCoNAS | |
CN118134764A (zh) | 一种基于统一网络的高光谱图像融合方法 | |
Ren et al. | A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms | |
Hu et al. | Multi-Scale Selective Feedback Network with Dual Loss for Real Image Denoising. | |
Zhao et al. | Unsupervised color retention network and new quantization metric for blind motion deblurring | |
Cai et al. | Ske2Grid: skeleton-to-grid representation learning for action recognition | |
Wu et al. | Combining global receptive field and spatial spectral information for single-image hyperspectral super-resolution | |
CN109087247A (zh) | 一种对立体图像进行超分的方法 | |
CN117058392A (zh) | 一种基于卷积局部增强的多尺度Transformer图像语义分割方法 | |
Baccarelli et al. | Twinned Residual Auto-Encoder (TRAE)—A new DL architecture for denoising super-resolution and task-aware feature learning from COVID-19 CT images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |