CN110363068B

CN110363068B - 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法

Info

Publication number: CN110363068B
Application number: CN201910450597.2A
Authority: CN
Inventors: 赵佳琦; 陈莹; 夏士雄; 周勇; 姚睿; 杜文亮; 朱东郡; 马丁
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2023-08-18
Anticipated expiration: 2039-05-28
Also published as: CN110363068A

Abstract

本发明公开了一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法，解决由监控设备拍摄到的行人图像分辨率存在差异的问题。其实现方案是：提出基于多尺度循环生成式对抗网络的高分辨行人图像生成模型，采用多尺度生成网络模型将低分辨率行人图像转换为高分辨行人图像，该模型生成器分为两个子生成网络：全局生成网络和局部增强网络；其次采用循环生成式对抗网络技术通过对抗学习的方法来训练多尺度生成器，目的是解决生成高分辨图像失真问题以及还原行人图像的背景信息；针对网络模型复杂度高和参数多的问题，使用多阶段学习方法来训练多尺度循环生成式对抗网络高分辨行人图像生成模型，实现网络性能的稳步提升。

Description

一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法，可用于应用到行人重识别领域。

背景技术

超分辨率技术的目的是根据低分辨率图像重构出相应的高分辨图像，该技术主要被用于对图像空间分辨率的增强，其可以突破原有系统成像硬件条件的限制，重新获得的高分辨图像具有更高的分辨率、更多的细节信息和更高质量的画质等特点，在很多领域如监控设备、卫星图像和医学影像等都有重要的应用价值。目前，高分辨图像重构技术主要分为3类：基于插值的方法、基于重构的方法以及基于实例学习的方法。与前两个高分辨重构技术相比，基于实例的学习方法因具有算法结构灵活，以及在高倍数仍能够保留更多细节信息等优点，而引起了国内外学者的广泛研究。

基于实例的学习方法利用机器学习技术进行图像高分辨重建，通过学习低分辨率图像与高分辨图像之间的映射关系，估计低分辨率图像中丢失的高频细节信息，得到纹理丰富的高质量图像。根据高分辨重建过程中实例样本和学习算法的使用情况，现有的基于实例学习的高分辨重建方法大致分为五类：基于k近邻学习的方法、基于流形学习的方法、基于字典学习的方法、基于实例多线性回归的方法和基于深度学习的方法。基于k近邻学习的方法采用马尔可夫网络建立低分辨率图像和高分辨图像之间的关系模型，通过信令传播算法实现高分辨图像的最大后验估计。该方法虽然在一定程度上突破了物理成像系统分辨率的局限性，但这种方法的重构质量严重依赖于大量实例样本的学习，计算复杂度高，不利于实际应用。此外，当输入图像与训练集中的图像结构不匹配时，该方法会导致重建质量显著下降。

基于流形学习的方法基于假设低分辨特征空间和对应的高分辨特征空间在局部结构上是等同或相似的思想，首先通过最小化k个候选低分辨特征块重构误差估计最优权值，其次利用得到的权值线性组合k个对应的高分辨近邻获得所需的高分辨特征。然而，该方法对图像特征的选择和邻域数目敏感，容易导致过拟合或欠拟合问题。

基于字典学习的方法假设，可以通过从实例样本中学习一个超完备字典对的稀疏表示来获得自然图像。但在高分辨图像重建过程中每个输入图像块都需要对超完备字典进行稀疏编码，当字典规模或重建图像较大时，增加了算法的时间复杂度。

基于实例多线性回归的方法通过直接建立了低分辨率特征空间与高分辨特征之间的映射关系，实现超分辨生成。在超分辨率过程中，只需进行模型匹配和简单的矩阵运算，因此计算效率高，具有较好的实际应用前景。然而，当超分辨率放大倍数增加时，其丢失的细节信息越来越多，该类算法在低分辨率和高分辨之间具有复杂的线性关系。

研发基于深度学习的方法，实现多层神经网络直接建立从低分辨率行人图像与高分辨行人图像之间的非线性映射关系，是高分辨行人图像生成的重要研究方向。目前基于深度学习的高分辨行人图像生成方法仍无法解决在高倍数放大图像的情况下更好地保持重构图像纹理细节的问题。

尽管利用更快更深的卷积神经网络在图像超分辨的速度和精度方面取得了突破，但有一个中心问题仍没有得到实质性解决：在高倍数放大情况下，如何更好地保持重建图像的纹理细节是亟需解决的关键性问题。

发明内容

本发明目的在于克服上述现有技术的不足，提出了一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法。本发明将目标检测的行人图像的去模糊过程作为为同一场景图的低分辨率到高分辨的风格转换，并提供生成式对抗网络模型学习方法来约束生成器和判别器的协同训练，解决低分辨率行人图像辨识度低的问题，该方法可以用于行人图像的样本扩充，进而提高行人重识别对低分辨率行人图像的鲁棒性。

技术方案：为实现上述目的，本发明采用如下技术方案：

一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法，包括以下几个步骤：

(1)采用目标检测算法从整张图中提取出目标特征，并对目标特征进行分类和定位，将检测到的目标特征分为两类：目标细节清晰的高清行人图像和目标细节模糊的低分辨率行人图像，其中，目标细节清晰的高清行人图像构成高清行人图像集，目标细节模糊的低分辨率行人图像构成低分辨率行人图像集；

(2)构建多尺度高分辨生成器，用以生成高分辨行人图像；

(3)构建多尺度循环生成式对抗网络，学习去模糊图像生成和保留图像背景信息；

(4)使用多阶段生成式对抗网络学习方法完成多个任务生成器-判别器的协同学习。

步骤1中，采用深度学习算法对整张行人图像进行目标检测，采用的目标检测算法为YOLO目标检测算法。

步骤2中，所述多尺度高分辨生成器采用多尺度生成器，分解为两个子生成器：全局生成器Ⅰ和局部增强生成器Ⅱ，其中，局部增强生成器Ⅱ用于将全局生成器Ⅰ生成图像的分辨率进行扩大；

在训练期间，首先用低分辨率行人图像集训练全局生成器Ⅰ，接着将全局生成器Ⅰ的输出作为局部增强生成器Ⅱ输入的一部分，联合训练两个网络以生成高分辨的行人图像；

通过增加额外的局部增强生成器Ⅱ以获得更高分辨的行人图像。

为了有效保留样本的细节信息，定义原图像与生成图像之间的像素级重构损失函数为：

其中，表示低分辨率行人图像集中的低分辨率行人图像，/>代表高清行人图像集中的高清行人图像，G_sr表示多尺度高分辨生成器，/>表示输入图像/>经多尺度高分辨生成器生成的高分辨行人图像，||·||₁表示一范数。

步骤3中，所述多尺度循环生成式对抗网络由两个多尺度高分辨生成器和两个判别器组成，分别是第一生成器、第二生成器、第一判别器和第二判别器，其中，

第一生成器用于将低分辨率行人图像集的低分辨率行人图像生成高分辨行人图像；

第二生成器用于将高清行人图像集的高清行人图像生成低分辨率行人图像；

第二判别器和第一生成器对抗学习；

第一判别器和第二生成器对抗学习；

当两个判别器的鉴别性能提升到无法判断输入图像是低分辨率行人图像集和高清行人图像集的行人图像还是两个生成器生成的行人图像时，表示两个生成器学到了真实的行人样本数据分布；

构建多尺度循环生成式对抗网络具体包括如下步骤：

(31)采用步骤(2)中多尺度高分辨生成器作为多尺度循环生成式对抗网络中所用的生成器；

(32)将目标检测的行人图像的去模糊过程作为同一场景图的低分辨率到高分辨的风格转换问题，具体是：

利用第一生成器将来自低分辨率行人图像集中的行人图像生成高分辨行人图像，将生成的高分辨行人图像传递到第二生成器，通过第二生成器还原至低分辨率行人图像集的低分辨率行人图像，该输出的低分辨率行人图像与低分辨行人图像集中的低分辨率行人图像相似；

利用第二生成器将来自高清行人图像集的给定图像转换成低分辨率行人图像集中的低分辨率行人图像，将转换成的低分辨率行人图像传递到第一生成器，通过第一生成器还原至高分辨行人图像，该生成的高分辨行人图像与高清行人图像集中的高清行人图像相似；

(33)将低分辨率行人图像集中的低分辨率行人图像作为第一生成器的输入数据以生成高分辨人图像，其作为第二生成器的输入数据生成低分辨率行人图像；

通过第一判别器判断所述低分辨率行人图像是来自第二生成器生成的行人图像，还是来自低分辨率行人图像集中的行人图像，并将生成的低分辨率行人图像与低分辨率行人图像集中低分辨率行人图像之间的误差反馈给第二生成器以减少误差，提高第二生成器生成图像的真实度；

(34)第一判别器对抗学习来自第二生成器生成的低分辨率行人图像和低分辨率行人图像集中的低分辨率行人图像，实现复杂场景下低分辨行人样本生成的目标；

(35)将高清行人图像集中的高清行人图像作为第二生成器的输入数据以生成低分辨率行人图像，其作为第一生成器的输入数据生成高分辨行人图像；

通过第二判别器判断所述高分辨行人图像是来自第一生成器生成的高分辨行人图像还是来自高清行人图像集中的高清行人图像，并将高分辨行人图像与高清行人图像集中的高清行人图像之间的误差反馈给第一生成器以减少误差，提高第以生成器生成行人图像的真实度；

(36)第二判别器对抗学习来自第一生成器生成的高分辨行人图像和高清行人图像集中的高清行人图像，实现复杂场景下高分辨行人样本生成的目标。

所述第一判别器的损失函数，其损失定义为：

L(G_y→x,D_x,S_y,S_x)＝λ_SRL_SR+λ_SBL_SB

其中，G_y→x为第二生成器；D_x为第一判别器；S_x为低分辨率行人图像集中的低分辨率行人图像；S_y为高清行人图像集中的高清行人图像；

L(G_y→x,D_x,S_y,S_x)表示第一判别器的目标函数；

L_SR为多尺度循环生成式对抗网络的高分辨到低分辨率的损失函数；

L_SB是第一判别器与第二生成器对抗学习原图像中行人周围的背景损失函数；

λ_SR和λ_SB为加权系数；

S′_x为第二生成器G_y→x(S_y)以高清行人图像集中高清行人图像S_y作为输入而生成的低分辨率行人图像；

S_y～P_r表示高清行人图像集中高清行人图像S_y服从的数据分布P_r；

S′_x～Z表示生成的低分辨率行人图像S′_x服从第二生成器中学习到的数据分布Z；

D_x(S_x)和D_x(G_y→x(S_y))分别表示第一判别器D_x对S_x和G_y→x(S_y)的判别结果；

第二生成器根据输入的高清行人图像生成低分辨率行人图像，其重构损失为：

其中，表示第二生成器的像素级约束函数，G_y→x(S_y)是第二生成器以高清行人图像作为输入生成的低分辨率行人图像，||·||₁是第一范数。

所述第二判别器的损失函数，其损失定义为：

L(G_x→y,D_y,S_x,S_y)＝λ_HRL_HR+λ_HBL_HB

其中，G_x→y为第一生成器；D_y为第二判别器；

L(G_x→y,D_y,S_x,S_y)表示第二判别器的目标函数；

L_HR为多尺度循环生成式对抗网络的低分辨率到高分辨的损失函数；

L_HB是第二判别器与第一生成器对抗学习原图像中行人周围的背景损失函数；

λ_HR和λ_HB为加权系数；

S′_y为第一生成器G_x→y(S_x)以低分辨率行人图像集中低分辨率行人图像S_x作为输入而生成的高分辨行人图像；

S_x～P_r表示低分辨率行人图像集中低分辨率行人图像S_x服从的数据分布P_r；

S′_y～Z表示生成的高分辨行人图像S′_y服从第一生成器G_x→y中学习到的数据分布Z；

D_y(S_y)和D_y(G_x→y(S_x))分别表示第二判别器D_y对S_y和G_x→y(S_x)的判别结果；

第一生成器根据输入的条件信息生成高分辨行人图像，其重构损失如下所示：

其中，表示第二生成器的像素级约束函数，G_x→y(S_x)是第一生成器以低分辨率行人图像作为输入生成的高分辨行人图像。

基于多尺度循环生成式对抗网络的高分辨行人图像生成方法的整体损失函数定义为：

其中，L表示多尺度循环生成式对抗网络的高分辨行人图像生成方法的目标函数，λ₁、λ₂、λ₃、λ₄和λ₅为加权系数。

步骤4中，使用多阶段生成式对抗网络学习方法完成多个任务生成器-判别器的协同学习，实现网络性能的稳步提升，包括三个阶段：

第一阶段针对提升生成图像质量学习，给λ₁设置较大的数值；

第二阶段针对多尺度生成器生成高分辨样本学习，提高λ₂和λ₃的数值，通过低分辨率行人图像到高清样本对抗学习提升生成器生成高分辨图像的能力；

第三阶段，提高λ₄和λ₅的数值，通过高清数据集到低分辨率数据集对抗学习提升生成器生成低分辨样本的能力。

有益效果：本发明提供的一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法，能够实现将低分辨行人图像生成相应高分辨图像，并且保留原有图像的背景信息，从而将生成的高分辨图像更好地融合到原有图像当中以增加训练样本的多样性，解决行人重识别方法因数据集低分辨率因素而造成的泛化性能差的问题。

附图说明

图1为本发明方法的实施流程图；

图2为构建多尺度高分辨生成器的结构示意图；

图3为多尺度循环生成式对抗网络框架示意图；

其中，D_x为第一判别器；D_y为第二判别器；S_x为低分辨率行人图像集中的低分辨率行人图像；S_y为高清行人图像集中的高清行人图像；G_x→y为第一生成器；G_y→x为第二生成器；S′_x为第二生成器G_y→x生成的低分辨率行人图像；S′_y为第一生成器G_x→y生成的高分辨行人图像；

图4为构建多尺度循环生成式对抗网络的实施流程图；

图5为基于多尺度循环生成式对抗网络的高分辨行人图像生成网络整体框架示意图。

具体实施方式

下面结合附图以及具体实施例对本发明的技术方案作更进一步的说明。

如图1所示，一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法，包括如下流程步骤：

步骤S01：利用YOLO目标检测算法从行人数据集中检测出低分辨率行人图像和高清行人图像来获取训练样本，低分辨率行人图像构成低分辨率行人图像集，高清行人图像构成高清行人图像集。

步骤S02：构建多尺度高分辨生成器用以生成高分辨行人图像。多尺度高分辨生成器G_sr包含两个子生成网络：G₁和G₂，其中G₁称为全局生成网络，G₂为局部增强生成网络。局部增强生成网络将全局生成网络输入图像的分辨率扩大为4倍(每个图像维度的2倍)。为了获得更高分辨的行人图像，可以增加额外的局部增强生成网络。即G₁的输入图像是1024×512，则G_sr＝{G₁,G₂}是2048×1024，G_sr＝{G₁,G₂,G₃}是4096×2048。在训练期间，首先用低分辨率行人图像集训练全局生成网络G₁，接着将生成网络G₁的输出作为局部生成网络G₂输入的一部分，联合训练两个网络以生成高分辨行人图像。为了有效保留样本的细节信息，定义原图像与生成图像之间的像素级重构损失为：

其中，表示低分辨率行人图像集中的低分辨率行人图像，/>代表高清行人图像集中的高清行人图像。训练网络时，采用L₁损失能够有效地保留更多图像的高频细节信息。||·||₁表示一范数。

全局生成网络G₁为一个包含五层卷积、九个残差块和五层反卷积的卷积神经网络，五层卷积中从第一层卷积到第五层卷积所对应的滤波器个数分别为64、128、256、512和1024，卷积核的大小除了第一层卷积为7×7、步长为1，其他四个卷积核大小都是3×3、步长为2。九个残差块卷积核的大小是3×3。五层反卷积中从第一层反卷积到第五层反卷积所对应的滤波器个数分别为512、256、128、64和3，前四层反卷积核的大小为3×3、步长为2，第五个反卷积核大小是7×7、步长为1。局部增强生成网络G₂为一个包含两层卷积、八个残差块和五层反卷积的卷积神经网络，两层卷积所对应的滤波器个数都是1024，卷积核大小都是3×3、步长为1。八个残差块卷积核的大小是3×3、步长为1。四层反卷积中从第一层反卷积到第五层反卷积所对应的滤波器个数分别为512、256、128、64和3，前四层反卷积核的大小为3×3、步长为2，第五个反卷积核大小是7×7、步长为1。

如图2所示为多尺度高分辨生成器的结构示意图。

步骤S03：构建多尺度循环生成式对抗网络，该网络包括两个多尺度高分辨生成器G_x→y、G_y→x和两个判别器D_x、D_y。多尺度循环生成式对抗网络框架示意图如3图所示。关于本步骤如何具体的构建多尺度循环生成式对抗网络，详细描述如下。

对于本实施例而言，上述步骤S03还可以进一步细化，其细化后的具体流程图如图4所示。图4中，该步骤S03进一步包括：

步骤31：多尺度循环生成式对抗网络中所有的生成器均采用步骤S02中多尺度高分辨生成器；

步骤32：循环生成式对抗网络是两个镜像堆成的生成式对抗网络，构成一个环形网络。将目标检测的行人图像的去模糊过程作为同一场景图的低分辨率到高分辨的风格转换问题，从低分辨率行人图像集D_x获取输入的低分辨率行人图像传递到生成器G_x→y，其任务是将来自低分辨率行人图像集D_x给定的行人图像生成高清行人图像集D_y中的高清行人图像。将新生成的行人图像传递到另一个生成器G_y→x，其任务是还原低分辨率行人图像集的行人图像，该输出的图像与输入的低分辨率行人图像集中低分辨率行人图像相似。从高清行人图像集D_y获取输入的高清行人图像传递到生成器G_y→x，其任务是将来自高清行人图像集D_y给定的行人图像生成低分辨率行人图像集D_x中的低分辨率行人图像。将新生成的行人图像传递到另一个生成器G_x→y，其任务是还原高清行人图像集的行人图像，该输出的图像与输入的高清行人图像集中高清行人图像相似。

步骤33：在多尺度高分辨生成式对抗网络的方法中步骤S03，低分辨率行人图像集中的低分辨率行人图像S_x作为G_x→y的输入数据以生成高分辨行人图像S′_y，其作为G_y→x的输入数据生成低分辨率行人图像S′_x；判别器D_x判断S′_x是来自生成器G_y→x生成的行人图像还是来自低分辨率行人图像集中的行人图像，并将低分辨率行人图像S′_x与低分辨率行人图像集中的低分辨率行人图像S_x之间的误差L(G_y→x,D_x,S_y,S_x)反馈给生成器G_y→x以减少误差，提高生成行人图像的真实度。判别器D_x的任务在保证生成较为真实的行人图像的同时还要保证将生成的图像能够较好地融入原有图像背景当中。因此多尺度循环生成式对抗网络的判别器D_x的损失函数其损失定义如下：

生成器G_y→x根据输入的高清行人图像生成低分辨率行人图像。其重构损失为：

步骤34：在多尺度循环生成式对抗网络的高分辨行人图像生成方法中一方面利用生成器G_x→y生成高质量的行人目标样本，另一方面利用判别器D_y对抗学习并解决行人图像中的模糊问题，从而提升生成高分辨行人图像方法的鲁棒性。

高清行人图像集中的高清行人图像S_y作为生成器G_y→x的输入数据用以生成低分辨率行人图像S′_x，其作为生成器G_x→y的输入数据获得高分辨图像S′_y；D_y判断高分辨图像S′_y是来自生成器G_x→y生成的行人图像还是来自高清行人图像集的图像S_y，并将生成的高分辨行人图像S′_y与高清行人图像集中的高清行人图像之间的误差L(G_x→y,D_y,S_x,S_y)反馈给生成器G_x→y，以减少该误差提高生成图像的真实度。在多尺度循环生成式对抗网络的高分辨行人图像生成方法中，判别器D_y的功能在保证生成较为真实的高分辨行人图像的同时还能将生成的图像能够较好地融入原有图像背景当中。判别器D_y需要判别多尺度循环生成器生成的高分辨行人图像是否真实，以及与原图像中行人周围的背景是否一致。因此多尺度循环生成式对抗网络的判别器D_y的损失函数如下：

生成器G_x→y根据输入的条件信息生成高分辨行人图像。其重构损失如下所示：

多尺度循环生成式对抗网络的两个多尺度生成器G_x→y、G_y→x结构如步骤S02所述，两个判别器D_x、D_y的结构一样，以下统称为判别器D。判别器D为一个包含四层卷积和三层全连接层的卷积神经网络。四层卷积层中从第一层卷积到第四层卷积所对应的滤波器个数分别为64、128、256和512，所述卷积核的大小均为4×4，前三层卷积步长为2，后一层步长为1；三层全连接层中从第一层全连接层到第三层全连接层所对应的节点数分别为512、128和1。

步骤S04：使用多阶段生成式对抗网络学习方法完成多个任务生成器-判别器的协同学习。多尺度循环生成式对抗网络的高分辨行人图像生成方法引入重构损失和/>以最小化所生成的图像与其对应的数据集中图像之间的差异，在训练过程中有助于生成器更稳定的收敛。因此，基于多尺度循环生成式对抗网络的高分辨行人图像生成方法的整体损失函数定义为：

面向高分辨行人图像的多尺度循环生成式对抗网络和传统的生成式对抗网络相比，模型结构更复杂、参数更多，故采用多阶段的学习方法来训练本发明提出的多尺度循环生成式对抗网络的去模糊学习方法，实现网络性能的稳步提升。

第一阶段针对提升生成图像质量学习，给λ₁设置较大的数值；第二阶段针对多尺度生成器生成高分辨样本学习，提高λ₂和λ₃的数值，通过低分辨率行人图像到高清样本对抗学习提升生成器生成高分辨图像的能力；第三阶段，提高λ₄和λ₅的数值，通过高清数据集到低分辨率数据集对抗学习提升生成器生成低分辨样本的能力。

一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法，总体结构如图5所示。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法，其特征在于，包括以下几个步骤：

(2)构建多尺度高分辨生成器，用以生成高分辨行人图像；

(4)使用多阶段生成式对抗网络学习方法完成多个任务生成器-判别器的协同学习；

通过增加额外的局部增强生成器Ⅱ以获得更高分辨的行人图像；

其中，表示低分辨率行人图像集中的低分辨率行人图像，/>代表高清行人图像集中的高清行人图像，G_sr表示多尺度高分辨生成器，/>表示输入图像/>经多尺度高分辨生成器生成的高分辨行人图像，||·||₁表示一范数；

第二判别器和第一生成器对抗学习；

第一判别器和第二生成器对抗学习；

当两个判别器的鉴别性能提升到无法判断输入图像是低分辨率行人图像集和高清行人图像集的行人图像还是两个生成器生成的行人图像时，表示两个生成器学到了真实的行人样本数据分布。

2.根据权利要求1所述的基于多尺度循环生成式对抗网络的高分辨行人图像生成方法，其特征在于：步骤1中，采用深度学习算法对整张行人图像进行目标检测，采用的目标检测算法为YOLO目标检测算法。

3.根据权利要求1所述的基于多尺度循环生成式对抗网络的高分辨行人图像生成方法，其特征在于：

构建多尺度循环生成式对抗网络具体包括如下步骤：

4.根据权利要求3所述的基于多尺度循环生成式对抗网络的高分辨行人图像生成方法，其特征在于：所述第一判别器的损失函数，其损失定义为：