CN117611442A - 一种近红外人脸图像生成方法 - Google Patents

一种近红外人脸图像生成方法 Download PDF

Info

Publication number
CN117611442A
CN117611442A CN202410082189.7A CN202410082189A CN117611442A CN 117611442 A CN117611442 A CN 117611442A CN 202410082189 A CN202410082189 A CN 202410082189A CN 117611442 A CN117611442 A CN 117611442A
Authority
CN
China
Prior art keywords
image
face
near infrared
domain
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410082189.7A
Other languages
English (en)
Inventor
罗健翔
梁晟瑞
周杨瑞
胡峻毅
张义夫
刘闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glasssic Technology Chengdu Co ltd
Original Assignee
Glasssic Technology Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glasssic Technology Chengdu Co ltd filed Critical Glasssic Technology Chengdu Co ltd
Priority to CN202410082189.7A priority Critical patent/CN117611442A/zh
Publication of CN117611442A publication Critical patent/CN117611442A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种近红外人脸图像生成方法,涉及图像处理技术领域。包括:采集人脸图像并将其灰度化;构建用于循环生成对抗网络;将人脸图像输入到构建的循环生成对抗网络进行训练,获得最终循环生成对抗网络;将待处理人脸灰度图输入到最终的循环生成对抗网络中生成近红外人脸图像。本发明将人脸RGB图像转为人脸灰度图像后输入到循环生成对抗网络中,避免了RGB图像中彩色光谱信息带来的噪声,使网络学习的方向正确;并且本发明在下采样和上采样之间加入了残差模块,将下采样层输出的特征图通过跳跃连接与上采样层输出的恢复图合并,使得上采样过程中能够更好地恢复细节和结构,提高了生成的近红外人脸图像的视觉质量。

Description

一种近红外人脸图像生成方法
技术领域
本发明涉及图像处理技术领域,特别涉及一种近红外人脸图像生成方法。
背景技术
当前,人脸检测和活体检测算法的广泛应用已经成为科技领域的一项重要应用,这些算法的兴起也伴随着对人脸数据集以及近红外人脸数据集的急切需求。近红外技术在克服光照变化和遮挡等问题上具有独特优势,这种数据集的建立对于提高算法在不同环境下的表现至关重要。与传统的可见光人脸数据集相比,目前可供公开使用的近红外人脸数据集种类较为有限,这是由于其获取技术的特殊性质以及较高的拍摄难度导致的,这限制了研究人员和开发者对于近红外人脸识别算法的研究和改进,因此更多丰富的近红外人脸数据集的建立对于促进该相关领域的发展至关重要。
当前大多数的研究和专利尝试通过设计特殊的硬件摄像头来获取可见光人脸对应的近红外人脸图像。虽然这些方法在尝试解决近红外人脸数据不足的问题上具有创新性,但是它们仍然存在一些限制和挑战。一方面,这些方法获取的数据量受到限制,可能无法满足大规模数据需求。另一方面,通过设计特殊硬件摄像头来获取近红外人脸图像可能需要较高的成本投入,从设计、生产到部署都可能面临一定的经济压力。这可能限制了这些方法在实际应用中的可行性和普及程度。
另外有小部分研究或专利通过算法来对可见光图像和近红外图像进行转换。这些算法的目标是在两种不同的光谱范围之间建立联系,从而使得图像在可见光和近红外之间转换。其中一些方法采用了卷积神经网络以实现图像的转换,然而这类方法的泛化能力存在严重问题;具体而言,这些方法需要将近红外图像与可见光图像进行配对,以建立相互转换的训练数据,这样的配对数据在实际应用中可能难以获取,因为不同光谱条件下的图像之间可能存在差异,包括光照、纹理和形状等方面的差异,由于数据配对困难,训练的模型可能无法在现实世界中很好地泛化,导致其在未见过的情况下表现不佳。还有一些方法在光谱图像转换问题上采用对抗生成网络GAN,这些方法通过学习两种不同类型图像中各自成像特来,旨在实现风格转换,从而将一个光谱范围的图像转化为另一个,与之前提到的方法不同,对抗生成网络GAN无需预先配对的数据,同时也具备一定的泛化能力。但是由于可见光人脸图像与近红外人脸图像之间的风格差异巨大,这些GAN网络在做此应用时需要重新设计优化方向和调整模型的损失成分权重。
在专利号为CN112347850A的发明中,采用循环对抗生成网络CycleGAN生成近红外图像,该网络由生成器和判别器两部分组成,生成器试图生成逼真的近红外图像,判别器则努力区分生成的图像与真实近红外图像。其中生成器算子和/>用于实现两类图像的匹配,并通过回归损失函数拉近两类图像的像素点;另外为了确保图像不失真,使用辨别器/>和/>来重塑像素点之间的关联性,如图1所示。
但是,直接使用循环对抗生成网络CycleGAN对可见光图像和近红外图像进行风格转换存在一些问题:首先,可见光人脸具有彩色信息,是三通道图像,而近红外人脸图像更关注于光谱的信息,其更接近于单通道的灰度图像,将三通道的可见光人脸图像输入到循环对抗生成网络CycleGAN获得的输出图像也是三通道,无法获得单通道的灰度图;除此之外,循环对抗生成网络CycleGAN中的生成器使用卷积层进行下采样以捕捉图像的全局特征,然后使用反卷积层进行上采样以恢复细节,但在这个过程中,下采样可能存在细节和局部信息损失,从而造成上采样的恢复不准确,导致得到的红外人脸图像视觉质量低。
总之,使用循环对抗生成网络CycleGAN生成近红外人脸图像时存在以下问题:使用彩色可见光人脸图像无法生成单通道生成近红外人脸图像、下采样可能会存在细节和局部信息损失,从而造成上采样的恢复不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种近红外人脸图像生成方法。
本说明书采用下述技术方案:
本说明书提供了一种近红外人脸图像生成方法,包括:
采集近红外人脸图像、可见光人脸RGB图像,将可见光人脸RGB图像转为可见光人脸灰度图像;
构建用于生成近红外人脸图像的循环生成对抗网络,所述循环生成对抗网络包括第一生成器Gx、第二生成器Gy、第一判别器Dx、第二判别器Dy,所述第一判别器Dx与所述第一生成器Gx的输出端连接,所述第二判别器Dy与所述第二生成器Gy的输出端连接;所述第一生成器Gx和第二生成器Gy结构相同,均包括下采样模块、残差块模块、上采样模块;
所述下采样模块用于通过若干个下采样层对输入图像进行下采样,获得尺寸不同的特征图;所述残差块模块用于通过若干个残差块对最小尺寸的特征图进行特征提取;所述上采样模块用于通过若干个上采样层对残差块模块的输出进行上采样,获得不同尺寸的恢复图;将每个下采样层输出的特征图通过跳跃连接与对应的上采样层输出的恢复图合并,作为下一个上采样层的输入;
将近红外人脸图像和可见光人脸灰度图像输入到构建的循环生成对抗网络进行训练,获得最终循环生成对抗网络;
将待处理人脸灰度图输入到最终的循环生成对抗网络中,生成近红外人脸图像。
进一步的,还包括:
使用双线性插值将低分辨率可见光人脸RGB图像中变为高分辨率可见光人脸RGB图像:
(1)
(2)
(3)
(4)
(5)
其中,
I'(x', y')表示生成的高分辨率可见光人脸RGB图像上坐标为(x', y')处的像素值,I(x, y)表示低分辨率可见光人脸RGB图像上坐标为(x, y)处的像素值;
(x1, y1),(x1, y2),(x2, y1),(x2, y2)是低分辨率可见光人脸RGB图像上的四个点;
式(5)的含义是将高分辨率可见光人脸RGB图像上的每个点的像素值通过加权平均的方式利用低分辨率可见光人脸RGB图像上的四个点进行插值计算。
进一步的,所述将可见光人脸RGB图像转为可见光人脸灰度图像,包括:
(6)
其中,
g(x', y')表示可见光人脸灰度图像上坐标为(x', y')处的灰度值;
R(x', y')、G(x', y')、B(x', y')分别表示可见光人脸RGB图像中红、绿、蓝通道坐标为(x', y')处的像素值。
进一步的,所述尺寸不同的特征图,包括:
(7)
(8)
其中,
、/>分别是第i个下采样层输出特征图的高度、宽度;
、/>分别是第i-1个下采样层输出特征图的高度、宽度;
是第i个下采样层的下采样窗口的大小;
是i个下采样层的下采样步长。
进一步的,所述上采样层,包括:
一个像素洗牌层,用于通过重新排列上一个上采样层输出的恢复图中的像素实现上采样;一个卷积层,用于特征提取;
所述像素洗牌层,包括:
确定第j层上采样层的上采样倍率
根据上采样倍率,创建一个新的空白图像,其尺寸为:
(9)
(10)
其中,
、/>分别是第j个上采样层输出恢复图的高度、宽度;
、/>分别是第j-1个上采样层输出恢复图的高度、宽度;
将第j-1个上采样层输出的恢复图均匀划分为大小为()的图像块;
对于每个图像块,执行双线性插值操作,生成新的像素值;
将新的像素值填充到所创建的新空白图像中的对应位置,获得像素洗牌结果。
进一步的,所述将近红外人脸图像和可见光人脸灰度图像输入到构建的循环生成对抗网络进行训练,包括:
通过裁剪、标准化、增强操作对近红外人脸图像和可见光人脸灰度图像进行预处理,将预处理后的可见光人脸灰度图像制成域X数据集,将预处理后的近红外人脸图像制成域Y数据集,从域X数据集和域Y数据集中随机选择一批图像作为训练样本;
初始化循环生成对抗网络的权重参数,将域X训练图像输入第一生成器Gx,根据初始化权重参数生成对应的域Y的伪图像fake_Y;将域Y训练图像输入第二生成器Gy,根据初始化权重参数生成对应的域X的伪图像fake_X;
将生成的伪图像fake_X输入到第一判别器Dx中,第一判别器Dx判别输入图像是真实的域X训练图像还是生成的伪图像fake_X,根据判别结果计算第一对抗损失函数;将生成的伪图像fake_Y输入到第二判别器Dy中,第二判别器Dy判别输入图像是真实的域Y训练图像还是生成的伪图像fake_Y,根据判别结果计算第二对抗损失函数函数;
将生成的伪图像fake_X输入到第二生成器Gy中,获得域X训练图像的召回图像recall_X,根据域X训练图像和对应的召回图像recall_X的差距计算第一循环一致性损失函数;将生成的伪图像fake_Y输入到第一生成器Gx中,获得域Y训练图像的召回图像recall_Y,根据域Y训练图像和对应的召回图像recall_Y的差距计算第二循环一致性损失函数;
根据第一对抗损失函数、第二对抗损失函数函数、第一循环一致性损失函数、第二循环一致性损失函数获得总损失函数,通过随机梯度下降优化算法对初始化权重参数进行迭代更新,获得使得总损失函数最小的权重参数,得到训练完的循环生成对抗网路。
进一步的,所述根据第一对抗损失函数、第二对抗损失函数函数、第一循环一致性损失函数、第二循环一致性损失函数获得总损失函数,包括:
(11)
(12)
(13)
(14)
其中,
是总损失函数,/>是第一对抗损失函数,是第二对抗损失函数函数,/>是权重系数,/>是总一致性损失函数,/>是第一循环一致性损失函数,/>第二循环一致性损失函数;
X代表域X训练图像,是预处理后的可见光人脸灰度图像;Y代表域Y训练图像,是预处理后的近红外人脸图像;
是第一生成器Gx生成的伪图像fake_Y;/>是第二判别器Dy对输入的真实的域Y训练图像是真实的域Y训练图像还是生成的伪图像fake_Y的判别结果;/>是第二判别器Dy对输入的真实的域Y训练图像是真实的域Y训练图像还是生成的伪图像fake_Y的判别结果;
是第二生成器Gy生成的伪图像fake_X;/>是第一判别器Dx对输入的真实的域X训练图像是真实的域X训练图像还是生成的伪图像fake_X的判别结果;/>是第一判别器Dx对输入的真实的伪图像fake_X是真实的域X训练图像还是生成的伪图像fake_X的判别结果。
进一步的,所述将待处理人脸灰度图像输入到最终的循环生成对抗网络中,生成近红外人脸图像,包括:
将待处理人脸灰度图像输入到第一生成器Gx中,将其转换为近红外人脸图像。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
本发明依据近红外人脸图像是近灰度图的特点,将可见光人脸RGB图像转为可见光人脸灰度图像后再输入到循环生成对抗网络中,使得循环生成对抗网络直接从可见光人脸灰度图像中学习近灰度图的轮廓以及灰度光谱,避免了RGB图像中彩色光谱信息带来的噪声,使循环生成对抗网络学习的方向正确。
并且,本发明所构建的循环生成对抗网络的生成器中,在下采样模块和上采样模块之间加入了残差模块,残差模块通过若干个残差块对最小尺寸的特征图进行特征提取,残差块中的残差连接机制可以通过学习输入和输出之间的残差变化,有效地捕捉到特征图中的细微差异和细节信息,通过残差模块得到的特征图包含了关键的输入图像的细节信息;然后对残差模块得到的特征图进行上采样,在上采样的过程中,将每个下采样层输出的特征图通过跳跃连接与对应的上采样层输出的恢复图合并后作为下一个上采样层的输入,有助于保留特征图中的细节和空间信息,使得上采样过程中能够更好地恢复细节和结构,提高了生成的近红外人脸图像的视觉质量。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书提供的专利号为:CN112347850A的方法示意图,图1左是原始人脸灰度图像,图1右是根据图1左生成的近红外人脸图像,图1左来源于公开数据集The casianir-vis 2.0 face database;
图2为本说明书提供的一种近红外人脸图像生成方法流程图;
图3为本说明书提供的一种单线性插值示意图;
图4为本说明书提供的一种三次单线性插值示意图;
图5为本说明书提供的一种传统方案可见光人脸RGB处理流程图;
图6为本说明书提供的一种传统方案近红外人脸图像处理流程图;
图7为本说明书提供的一种本发明可见光人脸灰度图像处理流程图;
图8为本说明书提供的一种本发明近红外人脸图像处理流程图;
图9为本说明书提供的一种跳跃连接示意图;
图10为本说明书提供的一种传统方案近红外人脸图像生成结果示意图,图10(a)是原始人脸灰度图像,图10(b)是根据图10(a)生成的近红外人脸图像,图10(a)来源于公开数据集The casia nir-vis 2.0 face database;
图11为本说明书提供的一种传统方案近红外人脸图像生成结果示意图,图11(a)是原始人脸灰度图像,图11(b)是根据图11(a)生成的近红外人脸图像,图11(a)来源于公开数据集The casia nir-vis 2.0 face database;
图12为本说明书提供的本发明近红外人脸图像生成结果示意图,图12(a)是原始人脸灰度图像,图12(b)是根据图12(a)生成的近红外人脸图像,图12(a)来源于公开数据集The casia nir-vis 2.0 face database;
图13为本说明书提供的本发明近红外人脸图像生成结果示意图,图13(a)是原始人脸灰度图像,图13(b)是根据图13(a)生成的近红外人脸图像,图13(a)来源于公开数据集The casia nir-vis 2.0 face database;
图14为本说明书提供的一维棋盘伪影示意图;
图15为本说明书提供的二维棋盘伪影示意图;
图16为本说明书提供的本发明近红外人脸图像生成结果示意图,图16(a)、图16(b)是生成的具有棋盘伪影的近红外人脸图像,图16(c)是生成的不具有棋盘伪影的近红外人脸图像,图16(a)、图16(b)、图16(c)来源于公开数据集The casia nir-vis 2.0 facedatabase。
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图2为本说明书中一种近红外人脸图像生成方法流程示意图,具体包括以下步骤:
步骤1、生成高分辨率可见光图像
本发明使用双线性插值来生成高分辨率可见光图像。
首先介绍单线性插值,如图3所示,当需要求P1和P2中间点P的坐标时,有如下公式:
(1)
相应的,当需要求Q11(x1, y1),Q12(x1, y2),Q21(x2, y1),Q22(x2, y2)间一点P的坐标时,可以先使用两次单线性插值来分别求得R1和R2的坐标,如图4所述。之后对R1和R2再使用一次单线性插值来求得P的坐标。三次单线性插值公式如下:
(2)
(3)
(4)
带入可得
(5)
其中,,/>,/>, />, />,/>
又因为;/>,将/>;/>带入到式(5)中可以得到:
(6)
其中,
I'(x', y')表示生成的高分辨率可见光人脸RGB图像上坐标为(x', y')处的像素值,I(x, y)表示低分辨率可见光人脸RGB图像上坐标为(x, y)处的像素值;
(x1, y1),(x1, y2),(x2, y1),(x2, y2)是低分辨率可见光人脸RGB图像上的四个点;w1 = (x2 - x')(y2 - y')、w2 = (x' - x1)(y2 - y')、w3 = (x2 - x')(y' - y1)、w4 = (x' - x1)(y' - y1);
式(6)的含义是将高分辨率可见光人脸RGB图像上的每个点的像素值通过加权平均的方式,利用低分辨率可见光人脸RGB图像上的四个点进行插值计算。
步骤2、设计循环生成对抗网络
从现有的方案出发,本发明的主要算法逻辑依旧采用循环对抗生成网络结构,通过循环对抗生成网络拟合不同两类图像的风格。但是,传统的循环对抗生成网络更适用于彩色图像风格转换,不适用于建立可见光人脸与近红外人脸之间的关系,会出现生成图像颜色混乱、人脸轮廓失真和棋盘伪影等问题。针对上述问题,本发明重新设计了算法逻辑并调整了主干网络结构。
如图5、图6所示,现有的使用循环对抗网络实现近红外人脸图像生成的算法是基于彩色RGB人脸图像进行网络训练的,但是这样的设计无法实现近红外人脸这种近灰度图的生成。具体细节分析如下:
循环对抗生成网络的算法逻辑分为两部分。其中第一部分为可见光人脸图像输入至网络获得伪红外人脸图像,再通过网络/>输出可见光人脸召回图像;另一部分相似,也是通过生成器网络/>和/>实现近红外人脸的输出召回流程。另外,辨别器/>和/>发挥的作用是分辨输入图像与召回图像之间的相似程度。现有技术在生成器和辨别器优化完成后,将测试可见光人脸图像直接通过/>网络获得输出,得到生成的近红外人脸图像。由于算法的整个流程很难控制并且/>与/>保持同频优化,在同一个步骤下/>与/>的优化流程处于同一个黑盒中,此无法保证仅通过/>后得到的图像一定是近灰度的近红外图像,在对现有专利和研究进行复现的过程中此算法生成的近红外图像出现了彩色光斑以及人脸形变等问题,如图10、图11所示。因此在上述流程中,当循环对抗生成网络的目标是生成标准的近红外人脸图像时,RGB彩色信息可视为一种干扰或噪声,与生成图像无关。
步骤2.1、将可见光人脸RGB图像转为可见光人脸灰度图像
如图7、图8所示,本发明从单通道的灰度图出发完成整个算法逻辑。首先,在可见光人脸生成伪灰度的流程中,将彩色可见光图像处理为三通道灰度图像,具体做法为为每一通道进行归一化处理后在相连,这样可以保留一些光谱信息。另外,对于近红外人脸图像生成近红外召回人脸图像的过程中,虽然不会采用此阶段的图像输出作为算法的结果,但是此阶段的权重更新依旧会左右网络与/>,因此在此阶段的辨别器/>的标签目标也需要做灰度处理,以保持优化方向的一致,灰度化的公式为:
(7)
其中,
g(x', y')表示可见光人脸灰度图像上坐标为(x', y')处的灰度值;
R(x', y')、G(x', y')、B(x', y')分别表示可见光人脸RGB图像中红、绿、蓝通道坐标为(x, y)处的像素值。
步骤2.2、获得循环生成对抗网络
生成器是循环生成对抗网络的关键,很多类似的可见光人脸转近红外人脸的算法研究发明都在此阶段增加了一些网络结构,比如增加了 Transformer 模块。人脸图像是构型相对简单的图像,Transformer模块是用于建立全局像素点的关系,虽然可以小程度提升人脸生成的质量,但是会对整个算法带来成倍的计算量,考虑到人脸的应用场景几乎都有时效性需求,因此此方法很难实际应用。另外,这类方法并不能这并不能解决图像生成中的即棋盘伪影问题。
步骤2.2.1、构建生成器
生成器的基本结构流程为:首先对输入图像进行下采样处理,获得特征向量后再对图像进行上采样以恢复原本大小的图像。在图像恢复过程中,上采样策略使用反卷积操作,此操会因为卷积步长与卷积核大小原因在不同时刻重复恢复固定位置的像素点,并会为生成图像带来棋盘格形状的干扰。而此棋盘噪音会严重影响近红外人脸数据集的可用性。
如图9所示,本发明为生成器与/>的整个流程进行改进,通过为上采样流程中产生的特征图增加跳跃连接来提升图像生成的还原度,以在保持算法计算量的情况下提升生成图像的质量;通过在像素洗牌来解决棋盘伪影的问题。构建的生成器包括下采样模块、残差块模块、上采样模块,具体细节如下:
首先下采样模块通过若干个下采样层对输入图像进行下采样,获得尺寸不同的特征图,此特征图提取了人脸图像中像素之间的关联信息。在每次进行下采样时都保存当前特征图,相比于底层的特征图,位于网络前部的特征图所包含的图像细节信息较为完整,这些细节可以用作后续恢复图像为脸部增加轮廓信息。获得的各个特征图的尺寸为:
(8)
(9)
其中,
、/>分别是第i个下采样层输出特征图的高度、宽度;
、/>分别是第i-1个下采样层输出特征图的高度、宽度;
是第i个下采样层的下采样窗口的大小,本发明采用卷积核为3的深度可分离卷积进行下采样,下采样窗口为3;
是i个下采样层的下采样步长。
接着残差块模块通过15个残差块对最小尺寸的特征图进行特征提取,这些模块不进行降采样操作只对特征进行提取,残差块中的残差连接机制可以通过学习输入和输出之间的残差变化,有效地捕捉到特征图中的细微差异和细节信息,通过残差模块得到的特征图包含了关键的输入图像的细节信息,经过15个残差块后的特征图具有更强的原图像素间的关系信息。
然后上采样模块通过若干个上采样层对残差块模块的输出进行上采样,获得不同尺寸的恢复图,本发明上采样层包括像素洗牌层加卷积层。像素洗牌可以被看作是特殊的形状转换,其通过从通道维度向长宽维度搬移像素,实现上采样。这样上采样后的图像的每个像素都来自于之前特征图,便能有效避免反卷积的堆叠问题。像素洗牌层包括:
确定第j层上采样层的上采样倍率
根据上采样倍率,创建一个新的空白图像,其尺寸为:
(10)
(11)
其中,
、/>分别是第j个上采样层输出恢复图的高度、宽度;
、/>分别是第j-1个上采样层输出恢复图的高度、宽度;
将第j-1个上采样层输出的恢复图均匀划分为大小为()的图像块;
对于每个图像块,执行双线性插值操作,生成新的像素值;
将新的像素值填充到所创建的新空白图像中的对应位置,获得像素洗牌结果。
并且在上采样的过程中,将每个下采样层输出的特征图通过跳跃连接与对应的上采样层输出的恢复图合并,跳跃连接时要保证特征图和恢复图尺度的一致。但是组后一层网络不用跳跃残差连接,因为这回带入与原图有关的大量信息,从而影响算法生成图像。
步骤2.2.2、设计损失函数
(12)
(13)
(14)
(15)
其中,
是总损失函数,/>是第一对抗损失函数,是第二对抗损失函数函数,/>是权重系数,/>是总一致性损失函数,/>是第一循环一致性损失函数,/>第二循环一致性损失函数;
X代表真实的域X图像,是预处理后的可见光人脸灰度图像;Y代表真实的域Y图像,是预处理后的近红外人脸图像;
是第一生成器Gx生成的伪图像fake_Y;/>是第二判别器Dy对输入的真实的域Y训练图像是真实的域Y训练图像还是生成的伪图像fake_Y的判别结果;/>是第二判别器Dy对输入的真实的域Y训练图像是真实的域Y训练图像还是生成的伪图像fake_Y的判别结果;
是第二生成器Gy生成的伪图像fake_X;/>是第一判别器Dx对输入的真实的域X训练图像是真实的域X训练图像还是生成的伪图像fake_X的判别结果;/>是第一判别器Dx对输入的真实的伪图像fake_X是真实的域X训练图像还是生成的伪图像fake_X的判别结果。
步骤2.2.3、训练循环生成对抗网络,包括:
通过裁剪、标准化、增强操作对近红外人脸图像和可见光人脸灰度图像进行预处理,将预处理后的可见光人脸灰度图像制成域X数据集,将预处理后的近红外人脸图像制成域Y数据集,从域X数据集和域Y数据集中随机选择一批图像作为训练样本;
初始化循环生成对抗网络的权重参数,将域X训练图像输入第一生成器Gx,根据初始化权重参数生成对应的域Y的伪图像fake_Y;将域Y训练图像输入第二生成器Gy,根据初始化权重参数生成对应的域X的伪图像fake_X;
将生成的伪图像fake_X输入到第一判别器Dx中,第一判别器Dx判别输入图像是真实的域X训练图像还是生成的伪图像fake_X,根据判别结果计算第一对抗损失函数;将生成的伪图像fake_Y输入到第二判别器Dy中,第二判别器Dy判别输入图像是真实的域Y训练图像还是生成的伪图像fake_Y,根据判别结果计算第二对抗损失函数函数;
将生成的伪图像fake_X输入到第二生成器Gy中,获得域X训练图像的召回图像recall_X,根据域X训练图像和对应的召回图像recall_X的差距计算第一循环一致性损失函数;将生成的伪图像fake_Y输入到第一生成器Gx中,获得域Y训练图像的召回图像recall_Y,根据域Y训练图像和对应的召回图像recall_Y的差距计算第二循环一致性损失函数;
根据第一对抗损失函数、第二对抗损失函数函数、第一循环一致性损失函数、第二循环一致性损失函数获得总损失函数,通过随机梯度下降优化算法对初始化权重参数进行迭代更新,获得使得总损失函数最小的权重参数,得到训练完的循环生成对抗网路。
步骤3、将待处理人脸灰度图像输入到第一生成器Gx中,将其转换为近红外人脸图像。
此外,本说明书还提供了本方案与其他方案的对比实施例。
1、使用灰度可见光人脸图像的训练效果
要实现可见光人脸图像与近灰度的近红外人脸图像之间风格相互转换,应重点关注人脸轮廓以及近红外人脸图像中基于灰度的光谱信息,而可见光人脸图像中的彩色RGB信息会成为噪声,并影响生成器与/>和辨别器/>与/>的参数优化。因此为了避免此RGB干扰,并使生成器关注于人脸轮廓和灰度光谱信息,本发明设计了一种从灰度可见光人脸出发,生成近灰度的近红外人脸生成器算法。与一些现有算法相比,本发明生成的近红外人脸图片还原度极高,且其中一些具有红外特点的脸部特征还原的极好。以下将具体说明。
首先依据现有技术的设计思路还原了现在大多数可见光人脸图像转换成近红外人脸图像的算法,这些算法从RGB彩色可见光图像出发并实现训练流程。图10所示,其中在近红外人脸图像生成过程中产生了彩色光斑;图11中,所生成的近红外人脸图像中的成像特点与实际近红外人脸图像相反,人脸颧骨处应为光亮部分。
从灰度可见光人脸出发重新设计了生成算法,灰度可见光人脸使得算法更关注人脸的轮廓以及灰度光谱信息。在图12-13中,生成器算法对灰度图的相应极好。另外,从灰度的可见光人脸出发可以学习并生成出更细节的近红外成像图。
2、通过像素洗牌解决棋盘伪影
当使用神经网络完成生成任务时,通常会有根据低分辨率构建图像的步骤,即上采样。这使得网络能够描述粗略的图像,然后填充细节。为了做到这一点,需要某种方法将较低分辨率的图像转换为较高分辨率的图像,通常通过反卷积来做到这一点,粗略地说,反卷积层使用小图像中的每个点在大图像中“绘制”一个正方形,而当卷积核大小不能被步幅整除时,反卷积就会具有不均匀的重叠。而这个现象在二维上会更加严重,堆叠将同时发生在横向和纵向,如图14、图15所示,这表现在生成的图像上就是层层堆叠的像棋盘一样的斑点,如图16中所示。
要解决这个问题,最直观的方案就是用其他上采样方法来替换反卷积。本专利使用了像素洗牌加卷积层来替换反卷积。像素洗牌可以被看作是特殊的形状转换,其通过从通道维度向长宽维度搬移像素,实现上采样。这样上采样后的图像的每个像素都来自于之前特征图,便能有效避免反卷积的堆叠问题。
3、模型计算量以及推理速度
现有的基于循环对抗神经网络的可见光转人脸图像转近红外人脸图像算法都有着不同程度的改进,但是有很多研究或发明都增加了Transformer模块。此模块虽然在计算机视觉领域取得了不错的效果,但是其拥有的计算量很难应用至实时场景中,尤其是人脸检测等任务。本发明提出基于残差模块改进的循环对抗生成网络模型,可以在避免使用Transformer模块的情况下,达到与之接近的效果,同时模型的计算量以及参数量不及Transformer的循环对抗神经网络的八分之一。
记录从可见光人脸图像生成近红外人脸图像一次所消耗的计算量,即输入可见光人脸通过网络后的计算消耗。同时进行消融实验,以对比网络参数量,如表1所示:
表1 模型计算量对比示意表
其中,输入每个模型的图像大小为 128x128,且都处于同一个CPU上进行推理测试,此CPU的型号为Intel(R) Core(TM) i5-10400F。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (8)

1.一种近红外人脸图像生成方法,其特征在于,包括:
采集近红外人脸图像、可见光人脸RGB图像,并将可见光人脸RGB图像转为可见光人脸灰度图像;
构建用于生成近红外人脸图像的循环生成对抗网络,所述循环生成对抗网络包括第一生成器Gx、第二生成器Gy、第一判别器Dx、第二判别器Dy,所述第一判别器Dx与所述第一生成器Gx的输出端连接,所述第二判别器Dy与所述第二生成器Gy的输出端连接;所述第一生成器Gx和第二生成器Gy结构相同,均包括下采样模块、残差块模块、上采样模块;
所述下采样模块用于通过若干个下采样层对输入图像进行下采样,获得尺寸不同的特征图;所述残差块模块用于通过若干个残差块对最小尺寸的特征图进行特征提取;所述上采样模块用于通过若干个上采样层对残差块模块的输出进行上采样,获得不同尺寸的恢复图;将每个下采样层输出的特征图通过跳跃连接与对应的上采样层输出的恢复图合并,作为下一个上采样层的输入;
将近红外人脸图像和可见光人脸灰度图像输入到构建的循环生成对抗网络进行训练,获得最终循环生成对抗网络;
将待处理人脸灰度图输入到最终的循环生成对抗网络中,生成近红外人脸图像。
2.如权利要求1所述的一种近红外人脸图像生成方法,其特征在于,还包括:
使用双线性插值将低分辨率可见光人脸RGB图像变为高分辨率可见光人脸RGB图像:
(1)
(2)
(3)
(4)
(5)
其中,
I'(x', y')表示生成的高分辨率可见光人脸RGB图像上坐标为(x', y')处的像素值,I(x, y)表示低分辨率可见光人脸RGB图像上坐标为(x, y)处的像素值;
(x1, y1),(x1, y2),(x2, y1),(x2, y2)是低分辨率可见光人脸RGB图像上的四个点;
式(5)的含义是将高分辨率可见光人脸RGB图像上的每个点的像素值通过加权平均的方式利用低分辨率可见光人脸RGB图像上的四个点进行插值计算。
3.如权利要求1所述的一种近红外人脸图像生成方法,其特征在于,所述将可见光人脸RGB图像转为可见光人脸灰度图像,包括:
g(x', y') = 0.2989 * R(x', y') + 0.5870 * G(x', y') + 0.1140 * B(x', y') (6)
其中,
g(x', y')表示可见光人脸灰度图像上坐标为(x', y')处的灰度值;
R(x', y')、G(x', y')、B(x', y')分别表示可见光人脸RGB图像中红、绿、蓝通道坐标为(x', y')处的像素值。
4.如权利要求1所述的一种近红外人脸图像生成方法,其特征在于,所述尺寸不同的特征图,包括:
(7)
(8)
其中,
、/>分别是第i个下采样层输出特征图的高度、宽度;
、/>分别是第i-1个下采样层输出特征图的高度、宽度;
是第i个下采样层的下采样窗口的大小;
是i个下采样层的下采样步长。
5.如权利要求1所述的一种近红外人脸图像生成方法,其特征在于,所述上采样层,包括:
一个像素洗牌层,用于通过重新排列上一个上采样层输出的恢复图中的像素实现上采样;一个卷积层,用于特征提取;
所述像素洗牌层,包括:
确定第j层上采样层的上采样倍率
根据上采样倍率,创建一个新的空白图像,其尺寸为:
(9)
(10)
其中,
、/>分别是第j个上采样层输出恢复图的高度、宽度;
、/>分别是第j-1个上采样层输出恢复图的高度、宽度;
将第j-1个上采样层输出的恢复图均匀划分为大小为()的图像块;
对于每个图像块,执行双线性插值操作,生成新的像素值;
将新的像素值填充到所创建的新空白图像中的对应位置,获得像素洗牌结果。
6.如权利要求1所述的一种近红外人脸图像生成方法,其特征在于,所述将近红外人脸图像和可见光人脸灰度图像输入到构建的循环生成对抗网络进行训练,包括:
通过裁剪、标准化、增强操作对近红外人脸图像和可见光人脸灰度图像进行预处理,将预处理后的可见光人脸灰度图像制成域X数据集,将预处理后的近红外人脸图像制成域Y数据集,从域X数据集和域Y数据集中随机选择一批图像作为训练样本;
初始化循环生成对抗网络的权重参数,将域X训练图像输入第一生成器Gx,根据初始化权重参数生成对应的域Y的伪图像fake_Y;将域Y训练图像输入第二生成器Gy,根据初始化权重参数生成对应的域X的伪图像fake_X;
将生成的伪图像fake_X输入到第一判别器Dx中,第一判别器Dx判别输入图像是真实的域X训练图像还是生成的伪图像fake_X,根据判别结果计算第一对抗损失函数;将生成的伪图像fake_Y输入到第二判别器Dy中,第二判别器Dy判别输入图像是真实的域Y训练图像还是生成的伪图像fake_Y,根据判别结果计算第二对抗损失函数函数;
将生成的伪图像fake_X输入到第二生成器Gy中,获得域X训练图像的召回图像recall_X,根据域X训练图像和对应的召回图像recall_X的差距计算第一循环一致性损失函数;将生成的伪图像fake_Y输入到第一生成器Gx中,获得域Y训练图像的召回图像recall_Y,根据域Y训练图像和对应的召回图像recall_Y的差距计算第二循环一致性损失函数;
根据第一对抗损失函数、第二对抗损失函数函数、第一循环一致性损失函数、第二循环一致性损失函数获得总损失函数,通过随机梯度下降优化算法对初始化权重参数进行迭代更新,获得使得总损失函数最小的权重参数,得到训练完的循环生成对抗网路。
7.如权利要求6所述的一种近红外人脸图像生成方法,其特征在于,所述根据第一对抗损失函数、第二对抗损失函数函数、第一循环一致性损失函数、第二循环一致性损失函数获得总损失函数,包括:
(11)
(12)
(13)
(14)
其中,
是总损失函数,/>是第一对抗损失函数,是第二对抗损失函数函数,/>是权重系数,/>是总一致性损失函数,/>是第一循环一致性损失函数,/>第二循环一致性损失函数;
X代表域X训练图像,是预处理后的可见光人脸灰度图像;Y代表域Y训练图像,是预处理后的近红外人脸图像;
是第一生成器Gx生成的伪图像fake_Y;/>是第二判别器Dy对输入的真实的域Y训练图像是真实的域Y训练图像还是生成的伪图像fake_Y的判别结果;/>是第二判别器Dy对输入的真实的域Y训练图像是真实的域Y训练图像还是生成的伪图像fake_Y的判别结果;
是第二生成器Gy生成的伪图像fake_X;/>是第一判别器Dx对输入的真实的域X训练图像是真实的域X训练图像还是生成的伪图像fake_X的判别结果;/>是第一判别器Dx对输入的真实的伪图像fake_X是真实的域X训练图像还是生成的伪图像fake_X的判别结果。
8.如权利要求1所述的一种近红外人脸图像生成方法,其特征在于,所述将待处理人脸灰度图像输入到最终的循环生成对抗网络中,生成近红外人脸图像,包括:
将待处理人脸灰度图像输入到第一生成器Gx中,将其转换为近红外人脸图像。
CN202410082189.7A 2024-01-19 2024-01-19 一种近红外人脸图像生成方法 Pending CN117611442A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410082189.7A CN117611442A (zh) 2024-01-19 2024-01-19 一种近红外人脸图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410082189.7A CN117611442A (zh) 2024-01-19 2024-01-19 一种近红外人脸图像生成方法

Publications (1)

Publication Number Publication Date
CN117611442A true CN117611442A (zh) 2024-02-27

Family

ID=89951970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410082189.7A Pending CN117611442A (zh) 2024-01-19 2024-01-19 一种近红外人脸图像生成方法

Country Status (1)

Country Link
CN (1) CN117611442A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347850A (zh) * 2020-09-30 2021-02-09 新大陆数字技术股份有限公司 红外图像转换方法、活体检测方法、装置、可读存储介质
CN113707164A (zh) * 2021-09-02 2021-11-26 哈尔滨理工大学 一种改进多分辨率残差u型网络的语音增强方法
CN114399807A (zh) * 2021-12-15 2022-04-26 西安电子科技大学 一种基于图像转换的跨光谱人脸识别方法及监控设备
CN115330620A (zh) * 2022-08-11 2022-11-11 南京邮电大学 一种基于循环生成对抗网络的图像去雾方法
CN115546198A (zh) * 2022-11-08 2022-12-30 长春理工大学 一种基于循环生成对抗网络的近红外图像彩色化方法
CN116033279A (zh) * 2023-03-23 2023-04-28 长春理工大学 一种夜晚监控相机的近红外图像彩色化方法、系统及设备
CN117078505A (zh) * 2023-07-27 2023-11-17 郑州轻工业大学 一种基于结构线提取的图像卡通化方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347850A (zh) * 2020-09-30 2021-02-09 新大陆数字技术股份有限公司 红外图像转换方法、活体检测方法、装置、可读存储介质
CN113707164A (zh) * 2021-09-02 2021-11-26 哈尔滨理工大学 一种改进多分辨率残差u型网络的语音增强方法
CN114399807A (zh) * 2021-12-15 2022-04-26 西安电子科技大学 一种基于图像转换的跨光谱人脸识别方法及监控设备
CN115330620A (zh) * 2022-08-11 2022-11-11 南京邮电大学 一种基于循环生成对抗网络的图像去雾方法
CN115546198A (zh) * 2022-11-08 2022-12-30 长春理工大学 一种基于循环生成对抗网络的近红外图像彩色化方法
CN116033279A (zh) * 2023-03-23 2023-04-28 长春理工大学 一种夜晚监控相机的近红外图像彩色化方法、系统及设备
CN117078505A (zh) * 2023-07-27 2023-11-17 郑州轻工业大学 一种基于结构线提取的图像卡通化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
申纪元: "基于生成对抗网络的图像超分辨率算法研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 2022, 15 March 2022 (2022-03-15), pages 138 - 1007 *

Similar Documents

Publication Publication Date Title
CN110136063B (zh) 一种基于条件生成对抗网络的单幅图像超分辨率重建方法
CN110570353B (zh) 密集连接生成对抗网络单幅图像超分辨率重建方法
CN107123089B (zh) 基于深度卷积网络的遥感图像超分辨重建方法及系统
CN110119780B (zh) 基于生成对抗网络的高光谱图像超分辨重建方法
CN112734646B (zh) 一种基于特征通道划分的图像超分辨率重建方法
CN107154023B (zh) 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
CN112507997B (zh) 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统
CN112287940A (zh) 一种基于深度学习的注意力机制的语义分割的方法
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN112837224A (zh) 一种基于卷积神经网络的超分辨率图像重建方法
CN113283444B (zh) 一种基于生成对抗网络的异源图像迁移方法
CN109993702B (zh) 基于生成对抗网络的满文图像超分辨率重建方法
CN113344793A (zh) 图像超分辨率重建方法、装置、设备及存储介质
CN111583113A (zh) 一种基于生成对抗网络的红外图像超分辨率重建方法
CN113222819A (zh) 一种基于深度卷积神经网络的遥感图像超分辨重建方法
CN114332625A (zh) 基于神经网络的遥感图像彩色化和超分辨率方法及系统
CN112634184A (zh) 基于融合性卷积神经网络的rgb图像光谱反射率重建方法
CN117315735A (zh) 基于先验信息与注意力机制的人脸超分辨率重建方法
CN115713462A (zh) 超分辨模型训练方法、图像识别方法、装置及设备
CN115526777A (zh) 一种盲超分网络建立方法、盲超分方法及存储介质
CN112184552B (zh) 一种基于高频特征学习的子像素卷积图像超分辨方法
CN111986079A (zh) 基于生成对抗网络路面裂缝图像超分辨率重建方法及装置
CN117611442A (zh) 一种近红外人脸图像生成方法
CN115797489A (zh) 一种基于深度网络的岩石ct数字图像真彩色化处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination