CN112884657B - 一种人脸超分辨率重建方法及系统 - Google Patents
一种人脸超分辨率重建方法及系统 Download PDFInfo
- Publication number
- CN112884657B CN112884657B CN202110487901.8A CN202110487901A CN112884657B CN 112884657 B CN112884657 B CN 112884657B CN 202110487901 A CN202110487901 A CN 202110487901A CN 112884657 B CN112884657 B CN 112884657B
- Authority
- CN
- China
- Prior art keywords
- face
- resolution
- low
- image
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000005286 illumination Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 11
- 230000000750 progressive effect Effects 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种人脸超分辨率重建方法及系统,采用人工智能中的深度学习方法,结合人脸超分辨率技术,实现了在不需要人脸先验知识的情况下重建清晰的人脸图像。本发明方法构建一个渐进式超分辨率重建模块,逐步提升人脸图像的分辨率,充分利用低分辨率人脸以及噪声信息,可将低分辨率的低光照的人脸重建成面部轮廓、细节信息清晰的超分辨率人脸图像,低分辨率图像的训练有助于更高级别分辨率的训练,因此整体的训练速度更快。
Description
技术领域
本发明涉及人脸识别领域,特别是一种人脸超分辨率重建方法及系统。
背景技术
人工智能(AI)是科技行业的热点, AI能够使机器进行自主学习并独立解决问题,因此广泛应用于视频监控、智能手机、医疗保健和汽车等多个领域,相关研究及应用在过去10年里呈现爆炸式增长[1][2][3]。近年来,社会治安的问题日渐凸显,不同的场合开始对安全防范加大力度。为了满足人们的需求,我国大力开展天网工程的建设工作,利用图像采集、传输、控制、显示等设备和控制软件,对城市中固定区域进行实时监控和信息记录,为强化城市综合管理、预防打击犯罪和突发性治安灾害事故提供丰富的影像资料,由此获得的影像资料能够满足人们在交通监控、异常事件警报以及家庭护理等许多应用中的现实需求[4][5]。这些应用都对图像的分辨率有着较高的要求,人工智能技术能够针对视频获得的低质量图像恢复对应的高分辨率图像,成本较低且性能较高,从而能更好的帮助医生诊断疾病、辅助警察快速定位犯罪嫌疑人。在低光照场景下,由于照明条件的限制,视频系统捕获的画面通常亮度低、噪声大。且受到拍摄设备硬件成本和拍摄角度的影响,视频所拍摄的目标区域(如人脸图像)通常较小、分辨率较低,难以辨识。人脸图像在道路交通、健康监测等场景中通常具有重要的作用,根据低质量、低光照的视频画面的人脸恢复对应的高质量人脸,具有重要的现实意义。
在视频监控中,人脸图像在道路交通、健康监测等场景中通常具有重要的作用。人脸超分辨率(FSR)旨在从低分辨率(LR)的人脸图像中恢复出高分辨率(HR)的人脸图像。FSR是视频监控和面部增强的基础,在人脸识别[6]和人脸对齐[7]等任务中同样有重要作用。FSR是单图像超分辨率(SISR)任务的一种特例[8][9][10],与SISR相比,FSR仅考虑面部图像,面部图像中存在特定于面部的先验知识,能够为恢复高分辨率的人脸图像(全局结构和局部细节)提供指导。许多研究者提出了利用人脸先验知识进行人脸超分辨率的方法[12][13][14]。稠密对应领域[17]在中用于捕获面部空间配置信息。在文献[15]中预测了面部组件的热力图,提供面部组件的定位以提高SR质量。端到端训练有素的网络FSRNet同时引入面部解析图和人脸关键热力图,以提高恢复性能[16]。然而现有的这些方法通常是用LR或粗糙的SR人脸图像来估计的人脸先验信息,由此估计的先验信息可能不准确,会影响人脸超分辨率的性能。此外,部分方法在指标上取得了较好的结果,但是在视觉效果上不够友好。
由此,现有方法存在的缺陷如下:
(1)现有的方法具有需要人脸先验信息标签进行训练的缺点,并且人脸先验信息是通过低质量、低分辨率的输入图像预测所得,因此难以充分估计人脸精确的先验信息,导致超分辨率重建的图像可能不准确。
(2)对于低光场景下的低分辨率人脸图像,现有人脸超分辨率方法重建的人脸存在亮度低、细节丢失严重等问题,不利于人脸的辨识。
低光照:图像中对象的每个像素点的灰度值接近0(黑色),使得人眼睛感到的明亮程度很低,难以识别。
低分辨率:每英寸图像内像素点个数不超过32,导致人眼难以识别图像中的对象。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种人脸超分辨率重建方法及系统,将低分辨率的低光照的人脸重建成面部轮廓、细节信息清晰的超分辨率人脸图像。
为解决上述技术问题,本发明所采用的技术方案是:一种人脸超分辨率重建方法,包括以下步骤:
S3、对所述低分辨率人脸图像依次进行N倍下采样操作和卷积操作,提取所述低分辨率人脸图像的第一人脸特征图,利用第一StyleBlock学习所述第一人脸特征图,获得提高分辨率后的第二人脸特征图;
S4、对所述低分辨率人脸图像依次进行N/2倍下采样操作和卷积操作,提取所述低分辨率人脸图像的第三人脸特征图,将所述第二人脸特征图和第三人脸特征图作为第二StyleBlock的输入,获得第四人脸特征图;
S5、将下采样操作倍数设置为N/2i,对所述低分辨率人脸图像执行步骤S4的操作K次,最终获得提高分辨率后的人脸图像;i为正整数,且i≥2;
S6、级联多个输出StyleBlock,得到级联结构,并将提高分辨率后的人脸图像作为所述级联结构中第一个输出StyleBlock的输入,得到重建后的人脸图像。通过对输入低光照、低分辨率人脸图像进行亮度调整,尽可能恢复隐藏在暗处的人脸信息,为下一步的超分辨率放大做准备。使用多个StyleBlock逐步提升图像的分辨率,结合下采样和卷积操作,首先学习在低分辨率图像中也可以显示的基本特征,然后随着分辨率的提高学习越来越多的人脸细节,以获得更高质量和逼真的人脸图像。
步骤S6之后,还包括:
S7、将重建后的人脸图像与真实人脸图像分别输入人脸鉴别网络,对应分别得到预测值fake_value和预测值real_value;计算fake_value和real_value之间的均方损失函数,进行反向传播从而训练人脸鉴别网络,训练后的人脸鉴别网络即为鉴别模型。使用均方损失函数优化人脸鉴别网络,约束重建后的人脸图像与真实人脸图像之间的像素值,提升人脸鉴别网络的能力。
所述人脸鉴别网络获取预测值的实现过程包括:通过M1个卷积层结合注意力机制学习人脸图像人脸空间区域之间的关系,获得注意力特征图,将所述注意力特征图经过平均池化层和M2个卷积层,最后通过Sigmoid激活函数输出预测值。通过卷积层和注意力机制可以很好的发现输入图像的各区域的依赖关系,从而能够利用全局信息让人脸鉴别网络知道在鉴别图像的过程中重点关注图像中的哪些区域,便于人脸鉴别网络区分重建后的人脸图像与真实人脸图像。
步骤S1中,对特征图进行亮度调整的具体实现过程包括:将所述特征图输入亮度调整子模块中,得到调整之后的特征图;其中,所述亮度调整子模块包括依次连接的输入卷积层、2个中间卷积层和3个反卷积层。通过亮度调整子模块对提取的特征图进行亮度调整,从不同方面改善了图像的质量,便于恢复人脸图像隐藏在低光处的人脸细节。
各StyleBlock对输入的人脸特征图执行如下操作:对所述输入的人脸特征图进行反卷积操作,使输入的人脸特征图变大;通过多个卷积层对输入的低分辨率人脸图像进行编码,加入高斯先验的噪声,经过Flatten层把多维的输入一维化获得编码变量z,将编码向量z经过多个线性层转换为一个向量x,向量x与变大之后的输入的人脸特征图做内积操作,将所述内积操作的结果作为通道注意力机制的输入,最后通过平均池化层和多个输出卷积层,输出对应的人脸特征图。通过反卷积操作提升输入的人脸特征图的尺寸,融合向量x,再通过平均池化层和多个输出卷积层,能够在实现图像分辨率的加倍提升时,会平滑的增强新的StyleBlock模块。
所述StyleBlock包括编码部分和样式调整部分;所述样式调整部分包括反卷积层;所述反卷积层的输入为对应的人脸特征图;所述反卷积层与通道注意力模块连接;所述编码部分包括输入卷积层;所述输入卷积层与多个级联的第一卷积层连接;所述多个级联的第一卷积层的最后一个第一卷积层与Flatten层连接;所述Flatten层与多个级联的线性层连接;最后一个所述线性层与通道注意力模块连接;所述输入卷积层的输入为所述低分辨率人脸图像。编码部分包含了输入低分辨率真实人脸图像的信息,能够对样式调整部分进行引导,保证重建的人脸图像的真实性。
所述通道注意力模块包括平均池化层;所述平均池化层与至少一个第二卷积层连接;所述第二卷积层通过Sigmoid激活函数与多个级联的第三卷积层连接。通道注意力模块对特征图间的依赖关系进行建模,可以自适应的产生的输入的特征图对于图像关键信息的贡献,使得网络更加关注贡献度大的特征图。
本发明还提供了一种人脸超分辨率重建系统,其包括计算机设备;所述计算机设备被配置或编程为用于执行上述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:本发明采用人工智能中的深度学习方法,结合人脸超分辨率技术,实现了在不需要人脸先验知识(人脸五官的位置信息)的情况下重建清晰的人脸图像。本发明方法构建一个渐进式超分辨率重建模块,逐步提升人脸图像的分辨率,充分利用低分辨率人脸以及噪声信息,可将低分辨率的低光照的人脸重建成面部轮廓、细节信息清晰(相对双线性插值法、基于残差网络的方法等)的超分辨率人脸图像,低分辨率图像的训练有助于更高级别分辨率的训练,因此整体的训练速度更快(一个低光照、低分辨的人脸的重建时间约为13秒)。经过实验证明,本发明的面向低光视频的亮度增强型人脸超分辨率方法,能够提升人脸超分辨率重建的质量和效率,图像的客观指标(峰值信噪比PSNR、结构相似度SSIM和弗雷歇起始距离FID)和人脸对齐性能都优于对比的方法(Bilinear、DBPN、DIC、DICGAN)。
附图说明
图1为本发明实施例StyleBlock模块结构图;
图2为本发明实施例亮度调整子快结构图;
图3为本发明实施例低光视频的亮度增强型人脸超分辨率重建模型结构图。
具体实施方式
低光视频人脸超分辨率方法包括两个模块:低光照人脸超分辨率重建(生成器)和鉴别人脸(鉴别器)。低光照人脸超分辨率重建首先对输入的低光照、低分辨率人脸的亮度进行调整,以尽可能恢复低分辨率人脸隐藏在暗处的人脸细节,然后以渐进的方式逐步提升人脸的分辨率,先学习人脸的基础部分,例如面部的轮廓、大小等,然后逐渐学习人脸的精细特征,例如发髻线的位置、头发的颜色等,最后生成超分辨率人脸。在鉴别人脸部分,通过卷积网络来分别获得超分辨率的人脸的预测值和真实的人脸的预测值,计算超分辨率的人脸和真实的人脸的预测值之间的均方损失函数,并将超分辨率的人脸预测值的均方损失函数的结果反馈给重建人脸部分,使模型最终生成的人脸更加真实。为了训练出端到端的面向低光视频的超分辨率模型,本发明在Celeba-HQ数据集上,使用双线性插值将人脸缩放8倍,获得32×32和256×256大小的LR和HR人脸图像对,并将32×32大小的人脸作为模型的输入,设置批次大小为8,生成器初始的学习率为2e-4,鉴别器初始的学习率为1e-4,然后生成器和鉴别器分别采用ADAM优化器自适应地调整学习率。
为了提升人脸超分辨率重建的效率和质量,本发明提出一个用于逐步提升人脸分辨率的网络结构StyleBlock。我们的StyleBlock参考了样式生成对抗网络[17]从4×4的分辨率逐步提升到256×256分辨率低思想,与样式生成对抗网络直接使用初始的随机噪声生成图像不同,我们的Style Block包含低分辨率输入编码和样式调整两个部分,低分辨率输入编码部分引入了低分辨率图像信息使得最后生成的人脸尽可能接近真实人脸,样式调整部分在3×3卷积层后面注入噪声便于模拟人脸细节(例如皱纹、发髻线等)。低分辨率输入编码部分首先通过一个5×5和多个3×3卷积层对输入的低分辨率人脸进行编码,然后加入高斯先验的噪声,最后经过Flatten层把多维的输入一维化获得编码变量z。在Style Block的编码部分,我们使用5个线性层对编码变量z进行编码。样式调整部分首先通过反卷积操作对输入的不同分辨率的特征图进行融合调整,然后引入通道注意力机制,低分辨率图像的编码向量z经过5个线性层与特征图的内积作为通道注意力机制的输入,最后通过多个3×3卷积层调整人脸的特征空间,再融合反卷积的输出结果作为下一个Style Block的输入。
低光照人脸超分辨率重建和鉴别人脸的步骤如下:
第一步:输入低光照(模拟获取低光照图像的方法为:通过Gamma校正算法模拟低光照场景,设置参数gamma = 5)、低分辨率(32×32像素)的人脸 ,经过一个3x3的卷积层提取出特征图 ,将特征图 输入到亮度调整子模块(通过1个3x3的卷积层、2个5x5的卷积层和3个反卷积层提升特征图的亮度)中获得调整之后特征图 。
第二步:基于第一步得到的特征图 和亮度调整之后的特征图 ,进入循环过程:(1)经过一个3×3的卷积层和亮度调整子模块更新 ,(2)特征图连接操作(将图像RGB通道维度中来自亮度调整子模块的所有输出 串联到 中,循环9次输出 。最后 经过1×1的卷积层获得亮度增强的低分辨率人脸(32×32大小)。为实现低分辨率人脸(32×32大小)的8倍放大(放大到256×256大小),接下来通过第三步至第八步逐渐提高生成人脸的分辨率(从4×4大小到256×256大小)。
第三步:对第二步获得的亮度增强的低分辨率人脸(32×32大小)进行8倍下采样(4×4大小),然后使用3×3的卷积层提取特征图,再经过StyleBlock学习人脸特征并提高人脸分辨率为8×8大小。
第四步:对第二步获得的亮度增强的低分辨率人脸(32×32大小)进行4倍下采样(8×8大小),然后使用3×3的卷积层提取特征,再结合第三步获得的8×8大小的人脸特征输入到StyleBlock学习人脸特征并提高人脸分辨率为16×16大小。
第五步:对第二步获得的亮度增强的低分辨率人脸(32×32大小)进行2倍下采样(16×16大小),然后使用3×3的卷积层提取特征,再结合第四步获得的16×16大小的人脸特征输入到StyleBlock学习人脸特征并提高人脸分辨率为32×32大小。
第六步:对第二步获得的亮度增强的低分辨率人脸(32×32大小)使用3×3的卷积层提取特征,再结合第五步获得的32×32大小的人脸特征输入到StyleBlock学习人脸特征并提高人脸分辨率为64×64大小。
第七步:对第六步获得的64×64大小的人脸特征输入到Style Block学习人脸特征并提高人脸分辨率为128×128大小。
第八步:对第七步获得的128×128大小的人脸特征输入到Style Block学习人脸特征并提高人脸分辨率(256×256大小)
第九步:将第八步的结果经过3x3的卷积层获得重建的256×256大小的人脸。将重建的256×256大小的人脸与原始的真实人脸(256×256大小)分别输入到人脸鉴别模块中,人脸鉴别过程:首先经过8个卷积层结合注意力机制学习人脸空间区域之间的关系,然后经过平均池化层和2个卷积层降低图像维度,通过Sigmoid激活函数输出预测值。将重建的人脸输入人脸鉴别网络获得预测值fake_value,将原始的真实人脸输入人脸鉴别网络获得预测值real_value。计算fake_value和real_value之间的均方损失函数,进行反向传播[19]从而训练鉴别器。fake_value的均方损失函数作为重建网络中损失函数的一部分,以提高模型重建的人脸效果。
本发明实施例实验在Ubuntu Server 16.04 x64系统上完成,训练使用2块NVIDIATitan_Xp 12G的GPU,训练过程中采取Adam优化方法。数据来自Celeba-HQ数据集的60000张人脸图像。我们设置每次输入的最小批次为8,并将长宽为32大小的低光照、低分辨率人脸作为输入,因此,其对应的高分辨率图像块的尺寸为256x256。在实验中,生成器初始的学习率为2e-4,鉴别器初始的学习率为1e-4,然后生成器和鉴别器分别采用Adam优化器自适应调整学习率。
具体的实验内容为:
1)正常光下低分辨率人脸的训练。为了验证渐进式超分辨率重建模块的有效性,实验采用直接训练正常光下低分辨率人脸的基础模型。实验结果表明渐进式超分辨率放大模块能生成视觉友好的超分辨率人脸,重建的PSNR值在Celeba-HQ测试集上达到了23.88dB,重建的SSIM值在Celeba-HQ测试集上达到了0.6256。
2)低光场景下低分辨率人脸的训练。为了验证低光人脸超分辨率重建模块的有效性,实验直接对模拟的低光照低分辨率人脸数据进行训练。实验表明,本发明设计的模型能较好的恢复隐藏在暗区域的人脸细节,并能够重建出视觉友好的超分辨率人脸,在PNSR指标上比其他方法提高了16%,在SSIM指标上比其他方法提高了5%。
3)低光照低分辨率人脸重建效果在人脸对齐上对比。为了验证低光人脸超分辨率重建效果在人类识别与检测等方面的有效性,实验使用人脸对齐方法[18]来检测超分辨率重建的人脸与真实人脸在面部各关键点的位置之间的误差,误差越小表示人脸对齐效果越好,更加有助于人脸的识别与检测。实验结果表明本发明的方法在面部各关键点的位置上与真实的人脸基本一致,误差远远低于其他方法。
本发明用到的参考文献如下:
[1] Makridakis S. The forthcoming Artificial Intelligence (AI)revolution: Its impact on society and firms, Futures, 2017, 90: 46-60.
[2] Natarajan S, Jain A, Krishnan R, et al. Diagnostic accuracy ofcommunity-based diabetic retinopathy screening with an offline artificialintelligence system on a smartphone, JAMA ophthalmology, 2019, 137(10): 1182-1188.
[3] Brill T M, Munoz L, Miller R J. Siri, Alexa, and other digitalassistants: a study of customer satisfaction with artificial intelligenceapplications. Journal of Marketing Management, 2019, 35(15-16): 1401-1436.
[4] Malygin I, Komashinsky V, Tsyganov V V. International experienceand multi-modal intelligent transportation system of Russia, 2017 TenthInternational Conference Management of Large-Scale System Development (MLSD),IEEE, 2017: 1-5.
[5] Kehua Guo, Bin Hu, Jianhua Ma, Sheng Ren, Ze Tao, Jian Zhang.Toward Anomaly Behavior Detection as an Edge Network Service Using a Dual-Task Interactive Guided Neural Network, IEEE Internet of Things Journal,2020.
[6] Taigman Y, Yang M, Ranzato M A, et al. Deepface: Closing the gapto human-level performance in face verification, In Proceedings of the IEEEconference on computer vision and pattern recognition, 2014: 1701-1708.
[7] Tzimiropoulos G. Project-out cascaded regression with anapplication to face alignment, In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, 2015: 3659-3667.
[8] Shi W, Caballero J, Huszár F, et al. Real-time single image andvideo super-resolution using an efficient sub-pixel convolutional neuralnetwork, In Proceedings of the IEEE conference on computer vision and patternrecognition, 2016: 1874-1883.
[9] Sajjadi M S M, Scholkopf B, Hirsch M. Enhancenet: Single imagesuper-resolution through automated texture synthesis, In Proceedings of theIEEE International Conference on Computer Vision. 2017: 4491-4500.
[10] Wang X, Yu K, Wu S, et al. Esrgan: Enhanced super-resolutiongenerative adversarial networks, InProceedings of the European Conference onComputer Vision (ECCV), 2018.
[11] Chakrabarti A, Rajagopalan A N, Chellappa R. Super-resolution offace images using kernel PCA-based prior, IEEE Transactions on Multimedia,2007, 9(4): 888-892.
[12] Jia K, Gong S. Generalized face super-resolution, IEEETransactions on Image Processing, 2008, 17(6): 873-886.
[13] Huang H, He H, Fan X, et al. Super-resolution of human faceimage using canonical correlation analysis, Pattern Recognition, 2010, 43(7):2532-2543.
[14] Zhu S, Liu S, Loy C C, et al. Deep cascaded bi-network for facehallucination, European conference on computer vision, Springer, Cham, 2016:614-630.
[15] Yu X, Fernando B, Ghanem B, et al. Face super-resolution guidedby facial component heatmaps, In Proceedings of the European Conference onComputer Vision (ECCV), 2018: 217-233.
[16] Chen Y, Tai Y, Liu X, et al. Fsrnet: End-to-end learning facesuper-resolution with facial priors, In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, 2018: 2492-2501.
[17] T. Karras, S. Laine, T. Aila, "A style-based generatorarchitecture for generative adversarial networks," In Proceedings of the IEEEConfer-ence on Computer Vision and Pattern Recognition, pp. 4401-4410, 2019.
[18] A. Bulat, G. Tzimiropoulos, "How far are we from solving the 2d& 3d face alignment problem (and a dataset of 230,000 3d facial land-marks),"In Proceedings of the IEEE International Conference on Computer Vision, pp.1021-1030, 2017.
[19] Werbos P J. Backpropagation through time: what it does and howto do it[J]. Proceedings of the IEEE, 1990, 78(10): 1550-1560.
[20] Ledig C, Theis L, Huszár F, et al. Photo-realistic single imagesuper-resolution using a generative adversarial network[C]//Proceedings ofthe IEEE conference on computer vision and pattern recognition. 2017: 4681-4690.
Claims (7)
1.一种人脸超分辨率重建方法,其特征在于,包括以下步骤:
S2、将特征图经过一个3×3的卷积层和亮度调整,得到更新后的;将更新后的特征图通道维度中亮度调整后的所有输出串联到,重复该过程9次,得到更新后的;对更新后的进行卷积操作,获得亮度增强的低分辨率人脸图像;
S3、对所述低分辨率人脸图像依次进行N倍下采样操作和卷积操作,提取所述低分辨率人脸图像的第一人脸特征图,利用第一StyleBlock学习所述第一人脸特征图,获得提高分辨率后的第二人脸特征图;
S4、对所述低分辨率人脸图像依次进行N/2倍下采样操作和卷积操作,提取所述低分辨率人脸图像的第三人脸特征图,将所述第二人脸特征图和第三人脸特征图作为第二StyleBlock的输入,获得第四人脸特征图;
S5、将下采样操作倍数设置为N/2i,对所述低分辨率人脸图像执行步骤S4的操作K次,最终获得提高分辨率后的人脸图像;i为正整数,且i≥2;
S6、级联多个输出StyleBlock,得到级联结构,并将提高分辨率后的人脸图像作为所述级联结构中第一个输出StyleBlock的输入,得到重建后的人脸图像;
各StyleBlock对输入的人脸特征图执行如下操作:对所述输入的人脸特征图进行反卷积操作,使输入的人脸特征图变大;通过多个卷积层对输入的低分辨率人脸图像进行编码,加入高斯先验的噪声,经过Flatten层把多维的输入一维化获得编码变量z,将编码向量z经过多个线性层转换为一个向量x,向量x与变大之后的输入的人脸特征图做内积操作,将所述内积操作的结果作为通道注意力机制的输入,最后通过平均池化层和多个输出卷积层,输出对应的人脸特征图。
2.根据权利要求1所述的人脸超分辨率重建方法,其特征在于,步骤S6之后,还包括:
S7、将重建后的人脸图像与真实人脸图像分别输入人脸鉴别网络,对应分别得到预测值fake_value和预测值real_value;计算fake_value和real_value之间的均方损失函数,进行反向传播从而训练人脸鉴别网络,训练后的人脸鉴别网络即为鉴别模型。
3.根据权利要求2所述的人脸超分辨率重建方法,其特征在于,所述人脸鉴别网络获取预测值的实现过程包括:通过M1个卷积层结合注意力机制学习人脸图像人脸空间区域之间的关系,获得注意力特征图,将所述注意力特征图经过平均池化层和M2个卷积层,最后通过Sigmoid激活函数输出预测值。
5.根据权利要求1所述的人脸超分辨率重建方法,其特征在于,所述StyleBlock包括编码部分和样式调整部分;所述样式调整部分包括反卷积层;所述反卷积层的输入为对应的人脸特征图;所述反卷积层与通道注意力模块连接;所述编码部分包括输入卷积层;所述输入卷积层与多个级联的第一卷积层连接;所述多个级联的第一卷积层的最后一个第一卷积层与Flatten层连接;所述Flatten层与多个级联的线性层连接;最后一个所述线性层与通道注意力模块连接;所述输入卷积层的输入为所述低分辨率人脸图像。
6.根据权利要求5所述的人脸超分辨率重建方法,其特征在于,所述通道注意力模块包括平均池化层;所述平均池化层与至少一个第二卷积层连接;所述第二卷积层通过Sigmoid激活函数与多个级联的第三卷积层连接。
7.一种人脸超分辨率重建系统,其特征在于,包括计算机设备;所述计算机设备被配置或编程为用于执行权利要求1~6之一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110487901.8A CN112884657B (zh) | 2021-05-06 | 2021-05-06 | 一种人脸超分辨率重建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110487901.8A CN112884657B (zh) | 2021-05-06 | 2021-05-06 | 一种人脸超分辨率重建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112884657A CN112884657A (zh) | 2021-06-01 |
CN112884657B true CN112884657B (zh) | 2021-07-16 |
Family
ID=76040293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110487901.8A Active CN112884657B (zh) | 2021-05-06 | 2021-05-06 | 一种人脸超分辨率重建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112884657B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344793A (zh) * | 2021-08-04 | 2021-09-03 | 深圳市安软科技股份有限公司 | 图像超分辨率重建方法、装置、设备及存储介质 |
CN117034982B (zh) * | 2023-10-10 | 2023-12-29 | 成都新西旺自动化科技有限公司 | 一种具有自动修复功能的二维码识别方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127316A (zh) * | 2019-10-29 | 2020-05-08 | 山东大学 | 一种基于sngan网络的单幅人脸图像超分辨方法及系统 |
CN111768342A (zh) * | 2020-09-03 | 2020-10-13 | 之江实验室 | 基于注意力机制和多级反馈监督的人脸超分辨方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018053340A1 (en) * | 2016-09-15 | 2018-03-22 | Twitter, Inc. | Super resolution using a generative adversarial network |
-
2021
- 2021-05-06 CN CN202110487901.8A patent/CN112884657B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127316A (zh) * | 2019-10-29 | 2020-05-08 | 山东大学 | 一种基于sngan网络的单幅人脸图像超分辨方法及系统 |
CN111768342A (zh) * | 2020-09-03 | 2020-10-13 | 之江实验室 | 基于注意力机制和多级反馈监督的人脸超分辨方法 |
Non-Patent Citations (2)
Title |
---|
A style-based generator architecture for generative adversarial networks;Tero Karras等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20190620;4401-4410 * |
Style-Based Unsupervised Learning for Real-World Face Image Super-Resolution;AC Sidiya等;《Recent Advances in Image Restoration with Applications to Real World Problems》;20201104;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112884657A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Deep learning for image super-resolution: A survey | |
Zhang et al. | Deep image deblurring: A survey | |
Bashir et al. | A comprehensive review of deep learning-based single image super-resolution | |
Yi et al. | Multi-temporal ultra dense memory network for video super-resolution | |
Wang et al. | UNFusion: A unified multi-scale densely connected network for infrared and visible image fusion | |
Engin et al. | Cycle-dehaze: Enhanced cyclegan for single image dehazing | |
Luc et al. | Transformation-based adversarial video prediction on large-scale data | |
Liu et al. | Learning temporal dynamics for video super-resolution: A deep learning approach | |
Alsaiari et al. | Image denoising using a generative adversarial network | |
Cai et al. | FCSR-GAN: Joint face completion and super-resolution via multi-task learning | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN112598579B (zh) | 面向监控场景的图像超分辨率方法、装置及存储介质 | |
Zhao et al. | Pyramid global context network for image dehazing | |
CN112884657B (zh) | 一种人脸超分辨率重建方法及系统 | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
Yu et al. | E-DBPN: Enhanced deep back-projection networks for remote sensing scene image superresolution | |
Zhu et al. | Multi-stream fusion network with generalized smooth L 1 loss for single image dehazing | |
Weng et al. | Boosting event stream super-resolution with a recurrent neural network | |
CN113421186A (zh) | 使用生成对抗网络的非监督视频超分辨率的设备和方法 | |
Liu et al. | Component semantic prior guided generative adversarial network for face super-resolution | |
Shu et al. | Text-enhanced scene image super-resolution via stroke mask and orthogonal attention | |
Dixit et al. | A Review of Single Image Super Resolution Techniques using Convolutional Neural Networks | |
Lin et al. | PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement | |
Chen et al. | Guided dual networks for single image super-resolution | |
Fang et al. | Self-enhanced convolutional network for facial video hallucination |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |