CN112598587A - 一种联合人脸去口罩和超分辨率的图像处理系统和方法 - Google Patents

一种联合人脸去口罩和超分辨率的图像处理系统和方法 Download PDF

Info

Publication number
CN112598587A
CN112598587A CN202011494588.2A CN202011494588A CN112598587A CN 112598587 A CN112598587 A CN 112598587A CN 202011494588 A CN202011494588 A CN 202011494588A CN 112598587 A CN112598587 A CN 112598587A
Authority
CN
China
Prior art keywords
image
resolution
module
face
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011494588.2A
Other languages
English (en)
Other versions
CN112598587B (zh
Inventor
唐雷
高广谓
吴飞
王正学
岳东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011494588.2A priority Critical patent/CN112598587B/zh
Publication of CN112598587A publication Critical patent/CN112598587A/zh
Application granted granted Critical
Publication of CN112598587B publication Critical patent/CN112598587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种联合人脸去口罩和超分辨率的图像处理系统及方法,所述图像处理系统包括去噪网络模块和超分网络模块;首先将低分辨率的戴口罩人脸图像送入去噪网络进行噪声估计并实现图像的盲去噪,通过调整估计的噪声水平图交互地纠正去噪结果,增强去噪结果的鲁棒性;然后将去除噪声后的低分辨率图像送入卷积层进行浅层特征提取,将提取的特征送入循环特征提取模块进行深层特征提取并重构图像,获得高分辨率图像进入先验知识提取模块估计Landmark,将Landmark信息进行加权形成相应的面部组件热图,通过分组卷积再次送入到循环特征提取模块提取特征,循环此过程;上述两个过程可以互相促进,并逐步达到更好的性能,最终输出高分辨率图像及对应的Landmark。

Description

一种联合人脸去口罩和超分辨率的图像处理系统和方法
技术领域
本发明涉及计算机视觉技术领域,主要涉及一种联合人脸去口罩和超分辨率的图像处理系统和方法。
背景技术
人脸超分辨率(Face Super-Resolution,SR),又称人脸幻觉,旨在从低分辨率(Low-Resolution,LR)输入中生成高分辨率(High-Resolution,HR)人脸图像。这是人脸分析中的一个基本问题,它可以极大地促进与人脸相关的任务,例如,人脸对齐,人脸解析,以及人脸识别,作为一般图像SR的一种特殊情况,人脸图像中存在着人脸特定的先验知识,这些先验知识对于人脸SR来说是至关重要的,而对于一般图像SR来说则是不可用的。例如,人脸对应场可以帮助恢复准确的人脸形状。
目前,在视频监控等无约束场景下采集到的人脸图像中往往存在包含低分辨率和口罩遮挡的复杂变化。从带有口罩的低分辨率人脸图像中获取高分辨率和无口罩遮挡的人脸图像是人脸分析的一项重要而又具有挑战性的任务,如人脸识别、属性学习、人脸分析等。因此,如何提高这种情况下的人脸超分辨率效果成为研究之一。
本发明目标在于如何在一个模型中同时处理人脸低分辨率和口罩遮挡。当人脸去噪方法和人脸超分辨率方法先后应用于输入的带遮挡的低分辨率人脸图像时,恢复后的人脸图像和可能包含视觉伪影。可能的原因是这种直接的恢复方法是次优的,因为它把超分辨率和去噪作为两个独立的问题,然而这两个问题在图像恢复过程中可能存在内部关系。此外,当相继应用人脸去噪和人脸超分辨率时,在超分辨率过程中可能会将伪影引入到非遮挡区域,然后导致恢复的人脸图像中存在更多的伪影。
发明内容
发明目的:本发明提供了一种联合人脸去口罩和超分辨率的图像处理系统和方法,基于生成式对抗网络(GAN)的端到端可训练框架,通过单一模型实现人脸图像的去噪和超分辨率联合。生成器(Generator)同时进行人脸的去噪和超分辨率任务,旨在从输入的有口罩遮挡的低分辨率人脸图像中恢复出无遮挡的高分辨率人脸图像。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种联合人脸去口罩和超分辨率的图像处理系统,包括基于生成式对抗网络GAN的端到端可训练框架,所述GAN框架包括GAN生成器部分和GAN判别器部分;所述GAN生成器部分包括去噪网络模块和超分网络模块;所述去噪网络模块由残差通道注意力模块、平均池化模块和反卷积模块连接构成;所述超分网络模块由残差通道注意力模块、分组卷积模块、循环特征提取模块和先验知识提取模块依次连接构成。
一种采用上述联合人脸去口罩和超分辨率的图像处理系统的图像处理方法,包括以下步骤:
步骤S1、将低分辨率的戴口罩人脸图像输入去噪网络模块进行噪声估计,实现图像的盲去噪;具体地,
噪声估计如下:
Figure BDA0002841742090000021
其中,MMRCAB表示4个残差通道注意力模块的组合,所述残差通道注意力模块卷积核对应的步长为1;C3表示kernel size为3的卷积操作,Nn表示从输入图像估计的噪声信息;
Figure BDA0002841742090000022
代表将输入图像采样至目标高分辨率的图像大小;
步骤S2、在噪声估计中加入非对称损失Lasymm如下:
Figure BDA0002841742090000023
其中,
Figure BDA0002841742090000024
是噪声估计网络估计的噪声等级,σ(yi)是真实的噪声等级;当
Figure BDA0002841742090000025
σ(yi)<0时,取β=1,当
Figure BDA0002841742090000026
时,取β=0;α取值范围为0<α<0.5;
步骤S3、将得到的噪声信息和原始输入图像级联,进行进一步特征提取和去噪操作;获取去口罩遮挡后的低分辨率图像;具体如下:
Figure BDA0002841742090000027
F2=MMRCAB(Avg(F1)
F3=F2+D2(MMRCAB(Avg(F2)
F4=F1+D2(MMRCAB(F3))
Figure BDA0002841742090000028
其中[]表示级联操作,Avg表示kernel size=2的平均池化操作;Fn(n=1,2,3,4,5)表示各个阶段获取到的图像特征;D2表示kernel size=2,stride=2的反卷积操作;
Figure BDA00028417420900000315
表示最终得到的去口罩遮挡后的低分辨率图像;
步骤S4、将网络输出的去噪图像和其真实无噪声图像进行比较,计算重构损失如下:
Figure BDA0002841742090000031
其中
Figure BDA0002841742090000032
为欧氏距离算子,
Figure BDA0002841742090000033
为网络输出的去噪图像,
Figure BDA0002841742090000034
为真实的无口罩遮挡的低分辨率图像;
在重构损失的基础上添加感知损失、风格损失、平滑损失和身份损失如下:
(1)感知损失:
Figure BDA0002841742090000035
Figure BDA0002841742090000036
(2)风格损失:
Figure BDA0002841742090000037
(3)平滑损失:
Figure BDA0002841742090000038
Figure BDA0002841742090000039
(4)身份损失:
Figure BDA00028417420900000310
Figure BDA00028417420900000311
其中,
Figure BDA00028417420900000312
是VGG-16预训练模型,
Figure BDA00028417420900000313
表示在第i个最大池化层之前的第j个卷积层的特征图,wi,jHi,j表示特征图的维度,CNNR()表示通过人脸识别模型提取的身份特征;
Figure BDA00028417420900000314
表示为真实的无口罩遮挡的高分辨率图像;LR代表低分辨率,HR代表高分辨率;
去噪网络的总损失Ldenoising如下:
Figure BDA0002841742090000041
其中
Figure BDA0002841742090000042
为各个损失函数所占的权重比;
步骤S4、将去噪网络模块输出的图像信息输入至超分网络模块中进行超分辨率处理;所述超分网络模块包括人脸回复部分和Landmark估计部分;首先进行第一次迭代如下:
Figure BDA0002841742090000043
进行浅层特征提取:
Figure BDA0002841742090000044
Figure BDA0002841742090000045
其中RFE表示循环特征提取;对送入的特征进行递归卷积和反卷积操作,其中MRCAB模块中的卷积核大小为2;
超分网络模块输出的超分辨率图像
Figure BDA0002841742090000046
如下所示:
Figure BDA0002841742090000047
Figure BDA0002841742090000048
输入至人脸对齐模块获取对应的Landmark特征;首先进行预处理如下:
Figure BDA0002841742090000049
其中RB是带有注意力机制的残差模块,Mp表示kernel size=2,stride=2的最大池化操作;将
Figure BDA00028417420900000410
输入至先验信息提取模块HG提取先验信息,得到相应的Landmark信息:
Figure BDA00028417420900000411
对Landmark信息进行后处理操作:
Figure BDA00028417420900000412
其中σ表示Relu激活函数;
步骤S5、在获取Landmark信息后,进行后续迭代如下:
Figure BDA00028417420900000413
Figure BDA00028417420900000414
Figure BDA00028417420900000415
Figure BDA00028417420900000416
Figure BDA00028417420900000417
Figure BDA0002841742090000051
步骤S6、采用对抗性损失来监督框架的训练,并生成具有高保真细节的增强型超分辨率人脸图像;将网络输出的超分图像和其真实的无口罩遮挡的高分辨率图像
Figure BDA0002841742090000052
进行比较,计算像素损失如下:
Figure BDA0002841742090000053
Figure BDA0002841742090000054
其中Laiign是关键点估计的损失函数,
Figure BDA0002841742090000055
为预测的关键点图像信息,
Figure BDA0002841742090000056
为真实的关键点图像信息;
步骤S7、构建判别器D区分网络输出的超分图片与真实图片;对应的对抗性损失如下:
Figure BDA0002841742090000057
其中ε表示数学期望,pdata(x)表示真实人脸图像的分布,pz(z)表示有口罩遮挡的人脸图像的分布,D(x)为鉴别器,G(z)为图像生成器;在对抗性损失的基础上添加感知损失,平滑损失和身份损失,则超分网络模块的总损失函数如下:
Figure BDA0002841742090000058
其中
Figure BDA0002841742090000059
为各个损失函数所占的权重比。
进一步地,所述步骤S3中各个损失函数所占的权重比
Figure BDA00028417420900000510
依次取10,0.1,0.1,0.1,1,1。
进一步地,所述步骤S7中各个损失函数所占的权重比
Figure BDA00028417420900000511
依次取0.1,0.01,1,0.01,1,0.001。
进一步地,所述步骤S3中MMRCAB在F1阶段包含的残差通道注意力模块个数3个,在F2,F3,F4,F5阶段对应的残差通道注意力模块个数依次为4,7,4,3。
有益效果:
本发明提供了一种联合人脸去口罩和超分辨率的图像处理系统及方法,通过基于生成式对抗网络的端到端可训练框架,采用单一模型实现人脸图像的去噪和超分辨率联合。生成器同时进行人脸的去噪和超分辨率任务,旨在从输入的有口罩遮挡的低分辨率人脸图像中恢复出无遮挡的高分辨率人脸图像。同时解决了当人脸去噪方法和人脸超分辨率方法先后应用于输入的带遮挡的低分辨率人脸图像时,恢复后的人脸图像和可能包含视觉伪影。当相继应用人脸去噪和人脸超分辨率时,在超分辨率过程中可能会将伪影引入到非遮挡区域,导致恢复的人脸图像中存在更多的伪影的问题。
附图说明
图1是本发明提供的联合人脸去口罩和超分辨率的图像处理系统示意图;
图2是本发明提供的去噪网络模块示意图;
图3是本发明提供的超分网络模块示意图;
图4是本发明提供的循环特征提取模块示意图;
图5是本发明实施例中提供的实验结果图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示的一种联合人脸去口罩和超分辨率的图像处理系统,包括基于生成式对抗网络GAN的端到端可训练框架,GAN框架包括GAN生成器部分和GAN判别器部分。GAN生成器部分包括去噪网络模块和超分网络模块,去噪网络模块由残差通道注意力模块、平均池化模块和反卷积模块连接构成,如图2所示。超分网络模块由残差通道注意力模块、分组卷积模块、循环特征提取模块和先验知识提取模块依次连接构成,如图3所示。
采用上述联合人脸去口罩和超分辨率的图像处理系统的图像处理方法,具体包括如下步骤:
步骤S1、将低分辨率的戴口罩人脸图像输入去噪网络模块进行噪声估计,实现图像的盲去噪;具体地,
噪声估计如下:
Figure BDA0002841742090000061
其中,MMRCAB表示4个残差通道注意力模块的组合,所述残差通道注意力模块卷积核对应的步长为1;C3表示kernel size为3的卷积操作,Nn表示从输入图像估计的噪声信息;
Figure BDA0002841742090000062
代表将输入图像采样至目标高分辨率的图像大小;
步骤S2、在噪声估计中加入非对称损失Lasymm如下:
Figure BDA0002841742090000071
其中,
Figure BDA0002841742090000072
是噪声估计网络估计的噪声等级,σ(yi)是真实的噪声等级;当
Figure BDA0002841742090000073
Figure BDA0002841742090000074
时,取β=1,当
Figure BDA0002841742090000075
时,取β=0;α取值范围为0<α<0.5;
步骤S3、将得到的噪声信息和原始输入图像级联,进行进一步特征提取和去噪操作;获取去口罩遮挡后的低分辨率图像;具体如下:
Figure BDA00028417420900000712
F2=MMRCAB(Avg(F1)
F3=F2+D2(MMRCAB(Avg(F2)
F4=F1+D2(MMRCAB(F3))
Figure BDA0002841742090000076
其中[]表示级联操作,Avg表示kernel size=2的平均池化操作;Fn(n=1,2,3,4,5)表示各个阶段获取到的图像特征;D2表示kernel size=2,stride=2的反卷积操作;
Figure BDA0002841742090000077
表示最终得到的去口罩遮挡后的低分辨率图像。MMRCAB在F1阶段包含的残差通道注意力模块个数3个,在F2,F3,F4,F5阶段对应的残差通道注意力模块个数依次为4,7,4,3。
步骤S4、将网络输出的去噪图像和其真实无噪声图像进行比较,计算重构损失如下:
Figure BDA0002841742090000078
其中
Figure BDA0002841742090000079
为欧氏距离算子,
Figure BDA00028417420900000710
为网络输出的去噪图像,
Figure BDA00028417420900000711
为真实的无口罩遮挡的低分辨率图像。
当从遮挡的低分辨率人脸图像中恢复人脸图像时,仅使用重构损失可能会导致图像过度平滑,缺乏细节。期望从低水平像素值、高水平抽象特征以及整体概念和风格的角度来看,恢复的图像和真实无噪声图像应该尽可能相似,除了重构损失之外,还需加入感知损失。当进行人脸图像恢复时,我们需要使恢复区域的风格尽可能类似于无口罩遮挡的区域。因此,我们将风格损失引入到模块中,以减少恢复区域和非遮挡区域之间边界上的伪影。当我们恢复完人脸图像后,完成的人脸图像可能包含沿着口罩遮挡区域边界的细微颜色失真,这时引入平滑损失来减少这种颜色失真。此外,本发明还引入了身份损失,以卷积神经网络来恢复身份信息,生成更接近真实身份的人脸,获得优异的视觉质量。
在重构损失的基础上添加感知损失、风格损失、平滑损失和身份损失如下:
(1)感知损失:
Figure BDA0002841742090000081
Figure BDA0002841742090000082
(2)风格损失:
Figure BDA0002841742090000083
(3)平滑损失:
Figure BDA0002841742090000084
Figure BDA0002841742090000085
(4)身份损失:
Figure BDA0002841742090000086
Figure BDA0002841742090000087
其中,
Figure BDA0002841742090000088
是VGG-16预训练模型,
Figure BDA0002841742090000089
表示在第i个最大池化层之前的第j个卷积层的特征图,wi,jHi,j表示特征图的维度,CNNR()表示通过人脸识别模型提取的身份特征;
Figure BDA00028417420900000810
表示为真实的无口罩遮挡的高分辨率图像;LR代表低分辨率,HR代表高分辨率;
去噪网络的总损失Ldenoising如下:
Figure BDA00028417420900000811
其中
Figure BDA00028417420900000812
为各个损失函数所占的权重比;分别为10,0.1,0.1,0.1,1,1。
步骤S4、将去噪网络模块输出的图像信息输入至超分网络模块中进行超分辨率处理。超分网络模块包括人脸回复部分和Landmark估计部分;首先进行第一次迭代如下:
Figure BDA0002841742090000091
进行浅层特征提取:
Figure BDA0002841742090000092
Figure BDA0002841742090000093
其中RFE表示循环特征提取;对送入的特征进行递归卷积和反卷积操作,其中MRCAB模块中的卷积核大小为2;
超分网络模块输出的超分辨率图像
Figure BDA0002841742090000094
如下所示:
Figure BDA0002841742090000095
Figure BDA0002841742090000096
输入入至人脸对齐模块获取对应的Landmark特征;首先进行预处理如下:
Figure BDA0002841742090000097
其中RB是带有注意力机制的残差模块,Mp表示kernel size=2,stride=2的最大池化操作;将
Figure BDA0002841742090000098
输入至先验信息提取模块HG提取先验信息,得到相应的Landmark信息:
Figure BDA0002841742090000099
对Landmark信息进行后处理操作:
Figure BDA00028417420900000910
其中σ表示Relu激活函数。,对得到的F_10^n进行加权操作生成多个注意力图,每个注意力图都显示了一个面部关键部位的几何结构。受益于模块的注意力机制,每个部位的特征都可以单独提取,这可以通过分组卷积GP(Group Conv)轻松实现。上述是网络初始过程,并没有涉及到上一次的迭代信息。
步骤S5、在获取Landmark信息后,进行第二次迭代。在第一次过程的基础上,各部分特征加入了上一次迭代过程的信息,进行后续迭代如下:
Figure BDA00028417420900000911
Figure BDA00028417420900000912
Figure BDA00028417420900000913
Figure BDA00028417420900000914
Figure BDA00028417420900000915
Figure BDA0002841742090000101
步骤S6、通过迭代使得该模块有效地集成了两种信息源。最后,采用对抗性损失来监督框架的训练,并生成具有高保真细节的增强型超分辨率人脸图像。将网络输出的超分图像和其真实的无口罩遮挡的高分辨率图像
Figure BDA0002841742090000102
进行比较,计算像素损失如下:
Figure BDA0002841742090000103
Figure BDA0002841742090000104
其中Lalign是关键点估计的损失函数,
Figure BDA0002841742090000105
为预测的关键点图像信息,
Figure BDA0002841742090000106
为真实的关键点图像信息;
步骤S7、构建判别器D区分网络输出的超分图片与真实图片;对应的对抗性损失如下:
Figure BDA0002841742090000107
其中ε表示数学期望,pdata(x)表示真实人脸图像的分布,pz(z)表示有口罩遮挡的人脸图像的分布,D(x)为鉴别器,G(z)为图像生成器;在对抗性损失的基础上添加感知损失,平滑损失和身份损失,则超分网络模块的总损失函数如下:
Figure BDA0002841742090000108
其中
Figure BDA0002841742090000109
为各个损失函数所占的权重比,分别为0.1,0.01,1,0.01,1,0.001。
最终整个网络模型的损失函数可以表示为
Ltotal=Ldenoising+Lsr
根据上述基于联合神经网络模型的图像处理方法,选取CelebA数据集中48000张图片,进行预处理操作得到网络的初始输入图片(有口罩遮挡的低分辨率图像),截取预处理后的45000张图片作为训练集,另外3000张作为测试集。选取Adam优化器对模型进行优化,初始学习率为1×10^(-4)。具体实验结果如图5所示。图中从左到右依次为初始输入图像,去噪后的图像,低分辨率图像真实值,预测的Landmark值,Landmark的真实值,预测的超分图像和高分辨率图像真实值。可以看出,本发明提供的图像处理系统及方法,可以有效解决当人脸去噪方法和人脸超分辨率方法先后应用于输入的带遮挡的低分辨率人脸图像时,恢复后的人脸图像和可能包含视觉伪影的问题。同时有效解决当相继应用人脸去噪和人脸超分辨率时,在超分辨率过程中可能会将伪影引入到非遮挡区域,导致恢复的人脸图像中存在更多的伪影的问题。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种联合人脸去口罩和超分辨率的图像处理系统,其特征在于,包括基于生成式对抗网络GAN的端到端可训练框架,所述GAN框架包括GAN生成器部分和GAN判别器部分;所述GAN生成器部分包括去噪网络模块和超分网络模块;所述去噪网络模块由残差通道注意力模块、平均池化模块和反卷积模块连接构成;所述超分网络模块由残差通道注意力模块、分组卷积模块、循环特征提取模块和先验知识提取模块依次连接构成。
2.一种采用权利要求1所述联合人脸去口罩和超分辨率的图像处理系统的图像处理方法,其特征在于,包括以下步骤:
步骤S1、将低分辨率的戴口罩人脸图像输入去噪网络模块进行噪声估计,实现图像的盲去噪;具体地,
噪声估计如下:
Figure FDA0002841742080000011
其中,MMRCAB表示4个残差通道注意力模块的组合,所述残差通道注意力模块卷积核对应的步长为1;C3表示kernelsize为3的卷积操作,Nn表示从输入图像估计的噪声信息;
Figure FDA0002841742080000012
代表将输入图像采样至目标高分辨率的图像大小;
步骤S2、在噪声估计中加入非对称损失Lasymm如下:
Figure FDA0002841742080000013
其中,
Figure FDA0002841742080000014
是噪声估计网络估计的噪声等级,σ(yi)是真实的噪声等级;当
Figure FDA0002841742080000015
Figure FDA0002841742080000016
时,取β=1,当
Figure FDA0002841742080000017
时,取β=0;α取值范围为0<α<0.5;
步骤S3、将得到的噪声信息和原始输入图像级联,进行进一步特征提取和去噪操作;获取去口罩遮挡后的低分辨率图像;具体如下:
Figure FDA0002841742080000018
F2=MMRCAB(Avg(F1)
F3=F2+D2(MMRCAB(Avg(F2)
F4=F1+D2(MMRCAB(F3))
Figure FDA0002841742080000019
其中[]表示级联操作,Avg表示kernelsize=2的平均池化操作;Fn(n=1,2,3,4,5)表示各个阶段获取到的图像特征;D2表示kernel size=2,stride=2的反卷积操作;
Figure FDA00028417420800000215
表示最终得到的去口罩遮挡后的低分辨率图像;
步骤S4、将网络输出的去噪图像和其真实无噪声图像进行比较,计算重构损失如下:
Figure FDA0002841742080000021
其中
Figure FDA0002841742080000022
为欧氏距离算子,
Figure FDA0002841742080000023
为网络输出的去噪图像,
Figure FDA0002841742080000024
为真实的无口罩遮挡的低分辨率图像;
在重构损失的基础上添加感知损失、风格损失、平滑损失和身份损失如下:
(1)感知损失:
Figure FDA0002841742080000025
Figure FDA0002841742080000026
(2)风格损失:
Figure FDA0002841742080000027
(3)平滑损失:
Figure FDA0002841742080000028
Figure FDA0002841742080000029
(4)身份损失:
Figure FDA00028417420800000210
Figure FDA00028417420800000211
其中,
Figure FDA00028417420800000212
是VGG-16预训练模型,
Figure FDA00028417420800000213
表示在第i个最大池化层之前的第j个卷积层的特征图,wi,jHi,j表示特征图的维度,CNNR()表示通过人脸识别模型提取的身份特征;
Figure FDA00028417420800000214
表示为真实的无口罩遮挡的高分辨率图像;LR代表低分辨率,HR代表高分辨率;
去噪网络的总损失Ldenoising如下:
Figure FDA0002841742080000031
其中
Figure FDA0002841742080000032
为各个损失函数所占的权重比;
步骤S4、将去噪网络模块输出的图像信息输入至超分网络模块中进行超分辨率处理;所述超分网络模块包括人脸回复部分和Landmark估计部分;首先进行第一次迭代如下:
Figure FDA00028417420800000317
进行浅层特征提取:
Figure FDA0002841742080000033
Figure FDA0002841742080000034
其中RFE表示循环特征提取;对送入的特征进行递归卷积和反卷积操作,其中MRCAB模块中的卷积核大小为2;
超分网络模块输出的超分辨率图像
Figure FDA0002841742080000035
如下所示:
Figure FDA0002841742080000036
Figure FDA0002841742080000037
输入至人脸对齐模块获取对应的Landmark特征;首先进行预处理如下:
Figure FDA0002841742080000038
其中RB是带有注意力机制的残差模块,Mp表示kernel size=2,stride=2的最大池化操作;将
Figure FDA0002841742080000039
输入至先验信息提取模块HG提取先验信息,得到相应的Landmark信息:
Figure FDA00028417420800000310
对Landmark信息进行后处理操作:
Figure FDA00028417420800000311
其中σ表示Relu激活函数;
步骤S5、在获取Landmark信息后,进行后续迭代如下:
Figure FDA00028417420800000312
Figure FDA00028417420800000313
Figure FDA00028417420800000314
Figure FDA00028417420800000315
Figure FDA00028417420800000316
Figure FDA0002841742080000041
步骤S6、采用对抗性损失来监督框架的训练,并生成具有高保真细节的增强型超分辨率人脸图像;将网络输出的超分图像和其真实的无口罩遮挡的高分辨率图像
Figure FDA0002841742080000042
进行比较,计算像素损失如下:
Figure FDA0002841742080000043
Figure FDA0002841742080000044
其中Lalign是关键点估计的损失函数,
Figure FDA0002841742080000045
为预测的关键点图像信息,
Figure FDA0002841742080000046
为真实的关键点图像信息;
步骤S7、构建判别器D区分网络输出的超分图片与真实图片;对应的对抗性损失如下:
Figure FDA0002841742080000047
其中ε表示数学期望,pdata(x)表示真实人脸图像的分布,pz(z)表示有口罩遮挡的人脸图像的分布,D(x)为鉴别器,G(z)为图像生成器;在对抗性损失的基础上添加感知损失,平滑损失和身份损失,则超分网络模块的总损失函数如下:
Figure FDA0002841742080000048
其中
Figure FDA0002841742080000049
为各个损失函数所占的权重比。
3.一种根据权利要求2所述联合人脸去口罩和超分辨率的图像处理方法,其特征在于,所述步骤S3中各个损失函数所占的权重比
Figure FDA00028417420800000410
依次取10,0.1,0.1,0.1,1,1。
4.一种根据权利要求2所述联合人脸去口罩和超分辨率的图像处理方法,其特征在于,所述步骤S7中各个损失函数所占的权重比
Figure FDA00028417420800000411
依次取0.1,0.01,1,0.01,1,0.001。
5.一种根据权利要求2所述联合人脸去口罩和超分辨率的图像处理方法,其特征在于,所述步骤S3中MMRCAB在F1阶段包含的残差通道注意力模块个数3个,在F2,F3,F4,F5阶段对应的残差通道注意力模块个数依次为4,7,4,3。
CN202011494588.2A 2020-12-16 2020-12-16 一种联合人脸去口罩和超分辨率的图像处理系统和方法 Active CN112598587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011494588.2A CN112598587B (zh) 2020-12-16 2020-12-16 一种联合人脸去口罩和超分辨率的图像处理系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011494588.2A CN112598587B (zh) 2020-12-16 2020-12-16 一种联合人脸去口罩和超分辨率的图像处理系统和方法

Publications (2)

Publication Number Publication Date
CN112598587A true CN112598587A (zh) 2021-04-02
CN112598587B CN112598587B (zh) 2022-09-13

Family

ID=75196982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011494588.2A Active CN112598587B (zh) 2020-12-16 2020-12-16 一种联合人脸去口罩和超分辨率的图像处理系统和方法

Country Status (1)

Country Link
CN (1) CN112598587B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538275A (zh) * 2021-07-14 2021-10-22 华中科技大学 一种基于CycleGAN的果实遮挡恢复方法及系统
WO2023043001A1 (ko) * 2021-09-14 2023-03-23 광주과학기술원 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치
WO2023061116A1 (zh) * 2021-10-12 2023-04-20 腾讯科技(深圳)有限公司 图像处理网络的训练方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768342A (zh) * 2020-09-03 2020-10-13 之江实验室 基于注意力机制和多级反馈监督的人脸超分辨方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768342A (zh) * 2020-09-03 2020-10-13 之江实验室 基于注意力机制和多级反馈监督的人脸超分辨方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁明航等: "基于注意力生成对抗网络的图像超分辨率重建方法", 《计算机系统应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538275A (zh) * 2021-07-14 2021-10-22 华中科技大学 一种基于CycleGAN的果实遮挡恢复方法及系统
WO2023043001A1 (ko) * 2021-09-14 2023-03-23 광주과학기술원 저해상도 이미지의 얼굴 인식 성능 향상을 위한 어텐션 맵 전달 방법 및 장치
WO2023061116A1 (zh) * 2021-10-12 2023-04-20 腾讯科技(深圳)有限公司 图像处理网络的训练方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN112598587B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN112598587B (zh) 一种联合人脸去口罩和超分辨率的图像处理系统和方法
US11928792B2 (en) Fusion network-based method for image super-resolution and non-uniform motion deblurring
Anwar et al. Densely residual laplacian super-resolution
Pang et al. Recorrupted-to-recorrupted: unsupervised deep learning for image denoising
CN110782399B (zh) 一种基于多任务cnn的图像去模糊方法
Zhang et al. Learning deep CNN denoiser prior for image restoration
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN108921786A (zh) 基于残差卷积神经网络的图像超分辨率重构方法
CN108154487B (zh) 基于多通道分解的屏摄图像摩尔纹消除方法
Kim et al. Deeply aggregated alternating minimization for image restoration
CN112291570B (zh) 一种基于轻量级可形变卷积神经网络的实时视频增强方法
CN110490822B (zh) 图像去运动模糊的方法和装置
CN112507617A (zh) 一种SRFlow超分辨率模型的训练方法及人脸识别方法
CN112419191A (zh) 基于卷积神经网络的图像运动模糊去除方法
Wang et al. Image super-resolution using a improved generative adversarial network
CN109949234A (zh) 基于深度网络的视频复原模型训练方法及视频复原方法
CN113658044A (zh) 提高图像分辨率的方法、系统、装置及存储介质
Liu et al. Halder: Hierarchical attention-guided learning with detail-refinement for multi-exposure image fusion
Li et al. Single image dehazing via region adaptive two-shot network
CN114372962A (zh) 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统
CN117670733A (zh) 一种基于小波谱学习的低光照图像增强方法
CN116208812A (zh) 一种基于立体事件和强度相机的视频插帧方法及系统
CN113538505A (zh) 一种基于深度学习的单张图片的运动估计系统及方法
Zhang et al. Face deblurring based on separable normalization and adaptive denormalization
CN115393491A (zh) 一种基于实例分割和参考帧的水墨视频生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant