CN111768342B - 基于注意力机制和多级反馈监督的人脸超分辨方法 - Google Patents
基于注意力机制和多级反馈监督的人脸超分辨方法 Download PDFInfo
- Publication number
- CN111768342B CN111768342B CN202010915168.0A CN202010915168A CN111768342B CN 111768342 B CN111768342 B CN 111768342B CN 202010915168 A CN202010915168 A CN 202010915168A CN 111768342 B CN111768342 B CN 111768342B
- Authority
- CN
- China
- Prior art keywords
- resolution
- super
- network
- image
- resolution image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000007246 mechanism Effects 0.000 title claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 35
- 238000005070 sampling Methods 0.000 claims abstract description 27
- 210000000697 sensory organ Anatomy 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 5
- 230000009466 transformation Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 230000009977 dual effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 11
- 230000001965 increasing effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于注意力机制和多级反馈监督的人脸超分辨方法,采用两个阶段学习极低分辨率的人脸图像到高分辨率图像的映射,并且学习一个额外的反馈回归映射,估计下采样核并重建低分辨率图像,形成一个闭环来提供额外的监督。首先利用残差网络和通道注意力机制对原始图像进行特征提取,利用亚像素卷积进行上采样,得到质量较好的图像并进行反馈监督,然后输入到精细超分辨网络中得到目标高分辨图像,并对其提取人脸五官解析图,将解析图和主网络图像特征融合后送到一个精细的超分辨解码器来恢复高分辨图像,并进行反馈监督。本发明针对原始图片无法提取较好的人脸几何形状,采用两级超分辨网络和反馈回归映射进一步增强人脸特征。
Description
技术领域
本发明属于计算机视觉、图像处理领域,尤其涉及一种基于注意力机制和多级反馈监督的人脸超分辨方法。
背景技术
图像分辨率的大小直接关系到图像的质量,更高的高分辨率意味着包含更多的细节信息,蕴含更大的应用潜能。然而在实际图像获取过程中,由于成像设备本身的限制、环境因素的影响导致无法直接获取高质量的图像,同时,由于存储介质和网络带宽的影响,最终获得的图像分辨率也较低,阻碍图像的进一步处理和应用。随着计算机视觉技术的不断发展,尤其是深度学习的发展,图像画质增强方法也越来越多,超分辨技术就是一项图像画质增强的有效手段,可以显著提升图像的分辨率。图像超分辨率技术是将低分辨率的图像通过软件手段,将其上采样到高分辨率图像,与硬件方式相比,可以有效降低图像增强的成本,在卫星成像、安防监控、医学检测、刑事侦查、历史图像修复增强等多个领域都具有非常重要的应用价值。例如通过增强卫星图的分辨率,可以让目标检测识别网络更好地识别其中的目标,在安防监控场景中,由于摄像头和周围环境等因素,拍摄到的目标会存在模糊,导致无法识别目标,通过超分辨技术可以重构出较为清晰的画面,提高嫌犯的分辨率,从而对嫌犯的身份识别提供帮助。因此,图像超分辨技术作为一种低层的图像处理方法,可以为后续的目标检测识别等高层的处理方法提供有效的支持。
目前有很多关于图像超分辨的网络,在处理各种各样的场景、物体方面都有了比较明显的提升,针对人脸超分辨方面的网络较少,很多方法都是通过构建相应的人脸数据,然后用已有的网络进行训练,虽然取得了一些进步,但是针对低分辨率的人脸,输入信息量过少导致映射空间过大,超分效果不是很好,而人脸相对于场景和物体来说,有着较为统一的结构,形状结构相似性较高,为了克服现有技术的不足,提升人脸超分的效果,在利用人脸的结构信息的基础上,通过引入注意力机制聚焦人脸五官区域,并增加反馈回归网络进行反向监督,增加约束关系进一步减小可能的映射空间,使映射关系更接近实际情况。
发明内容
本发明的目的在于针对现有技术中难以直接从低分辨率输入中估计面部解析图,泛化性能较差且对低分辨率人脸图像分辨率增强差等不足,构建由两个阶段的超分辨子网络和对应的反馈回归网络、解析图提取网络等多种监督方式来提升人脸信息。
本发明的目的是通过以下技术方案来实现的:
一种基于注意力机制和多级反馈监督的人脸超分辨方法,包括以下步骤:
(1)采用粗超分辨网络对低分辨率图像进行原始特征提取,并上采样得到中分辨率图像;所述中分辨率图像的分辨率是目标分辨率的1/8~1/2;所述粗超分辨网络为残差通道注意力网络;
(2)将步骤(1)获得的中分辨率图像输入至精超分辨网络中,获得高分辨率图像;其中,所述精超分辨网络包括:
由多个残差通道注意力单元组成的精超分辨编码器,用于提取深层次的人脸特征信息;
由亚像素卷积上采样单元和残差网络组成的精超分辨解码器,用于解析获得高分辨率图像;
由三个残差单元和两个Hourglass组成的人脸解析网络,用于从高分辨率图像中提取获得五官解析图;
所述五官解析图作为反馈与人脸特征信息进行融合并作为精超分辨解码器的输入;
(3)对粗超分辨网络和精超分辨网络进行监督训练,包括:
反向监督:
将中分辨率图像下采样到低分辨率图像,学习从超分辨后的中分辨率图像到低分辨率图像的对偶回归对粗超分辨网络进行监督训练;
将高分辨率图像下采样到中分辨率图像,学习从超分辨后的高分辨率图像到中分辨率图像的对偶回归对精超分辨网络进行监督训练;
正向监督:
将粗糙分辨网络和精超分辨网络共同作为生成对抗网络中的生成器,并构建判别器和网络的整体损失函数,利用生成对抗方式进行训练直至整体损失函数收敛。
进一步地,所述步骤(1)中,低分辨率图像的分辨率不大于32×32。
进一步地,所述粗超分辨网络由3×3×64×1卷积层(3×3表示卷积核尺寸,64表示卷积核个数,最后一位表示卷积核的运动步幅)、4个串联的残差通道注意力单元、亚像素卷积上采样单元组成,所述步骤(1)的实现方法具体包括如下子步骤:
(1.1) 将低分辨率图像输入至粗超分辨网络中,低分辨率图像先通过3×3×64×1卷积层,然后输入至4个串联的残差通道注意力单元中进行原始特征提取;其中,每个残差通道注意力单元均包括残差单元和通道注意力单元,通过残差单元提取输入图像的特征,再将特征输入至通道注意力单元中获取通道校准系数向量β,将通道校准系数向量β与通道注意力单元的输入特征进行重新校准后作为残差通道注意力单元的输出;所述通道注意力单元包括池化层、卷积层、ReLU非线性变换层、卷积层和Sigmoid非线性变换层,其中池化层采用方差对该层输入特征作全局池化处理,提取其全局语义信息;
(1.2)将最后一个残差通道注意力单元的输出输入到亚像素卷积上采样单元中,通过亚像素卷积操作得到放大后的特征;所述亚像素卷积上采样单元包括一个3×3×64s2×1卷积层,s为放大倍数,将输出通道数扩大为输入通道数的s2倍,一个LeakyReLU非线性变换层;同时将最后一个残差通道注意力单元的输出通过双三次上采样处理,将其与亚像素卷积输出的放大后的特征进行叠加,得到中分辨率图像。
进一步地,精超分辨编码器提取深层次的人脸特征信息的具体过程为:
中分辨率图像通过一个3×3×64×1卷积层提取浅层特征,然后将浅层特征输入至15个串联的残差通道注意力单元中,再通过一个3×3×64×1卷积层进一步提取特征,将进一步提取的特征与通过第一个卷积层得到的浅层特征进行逐像素相加操作,得到深层次的人脸特征信息。
进一步地,人脸解析网络提取获得五官解析图的具体过程为:
高分辨率图像依次通过一个7×7×64×1的卷积层、ReLU非线性变换、一个3×3×128×1卷积层、ReLU非线性变换和三个残差单元,所述残差单元中的卷积层为3×3×128×1;然后输入到两个三阶的Hourglass单元中,Hourglass单元在对称层之间使用跳跃连接机制,最后,将Hourglass单元得到的特征连接到1×1×11×1卷积层生成五官解析图。
进一步地,所述精超分辨解码器包括:
依次连接的3×3×64×1卷积层、ReLU非线性变换层、亚像素卷积上采样单元、三个残差单元、3×3×64×1卷积层和Tanh非线性变换层;
其中,亚像素卷积上采样单元包括一个3×3×64s2×1卷积层,一个LeakyReLU非线性变换层;残差单元中的卷积层为3×3×64×1。
进一步地,所述反向监督的损失函数采用L1损失。
进一步地,所述正向监督具体为:
采用ESRGAN网络中的判别器网络和判别损失函数作为生成对抗网络中的判别器和对应的损失函数,网络的整体损失函数包括生成器对抗损失、中分辨率图像上采样至真值分辨率后与真值图像的L1损失,高分辨率图像与真值图像的L1损失,人脸解析网络输出的五官解析图与真值解析图的L1损失,使用反向传播策略交替更新生成器网络和判别器网络直至收敛,保存训练好的生成器网络模型。
其中,中分辨率图像上采样至真值分辨率具体为:将中等分辨率的图像通过3×3×3×s反卷积处理,得到与真值图像相同的尺寸。
本发明的有益效果是,将人脸的几何形状作为先验知识输入到网络中,并增加反馈回归网络,通过减小可能的映射空间和增加更多的信息输入来提高超分辨效果。采用两个阶段的超分辨网络,第一阶段通过多个残差通道注意力单元,残差可以专注于图像高频信息的提取,通道注意力可以自适应地选择每一个输入卷积循环单元的特征,从而可以从低分辨率图像中提取更准确的原始特征;先验信息提取网络即人脸解析网络采用Hourglass结构,能够抓住很多局部的特征信息并结合起来,增加了人脸几何形状特征提取的准确性,每个阶段均采用反馈回归网络,有了这样的约束,就能够估计底层的下采样核,从而减少可能函数的空间,找到从低分辨率到高分辨率的良好映射。由于增加了反向监督,可以在已知真值的数据对上混入一定比例的未知真值的低分辨率数据,这部分数据由于没有真值数据缺少正向监督,但可以通过反向监督进一步增强模型的泛化性能。另外,增加了生成对抗网络进行训练,进一步增加了图像的视觉感知质量。
附图说明
图1是本发明基于注意力机制和多级反馈监督的人脸超分辨网络结构示意图;
图2是本发明的残差单元结构图;
图3是本发明的残差通道注意力单元结构图;
图4是本发明的粗超分辨网络结构图;
图5是本发明的精超分辨率编码器网络结构图;
图6是本发明的人脸解析网络结构图;
图7是本发明的三阶Hourglass网络结构图;
图8是本发明的精超分辨率解码器网络结构图。
具体实施方式
下面根据附图详细说明本发明。
本实施例以8倍图像超分辨率为例进行说明,具体如下:
本发明的基于注意力机制和多级反馈监督的人脸超分辨方法,包括以下步骤:
(1)采用粗超分辨网络对低分辨率图像(16×16的人脸图像)进行原始特征提取,并上采样得到中分辨率图像;所述中分辨率图像的分辨率是目标输出的高分辨率图像的1/2;所述粗超分辨网络为残差通道注意力网络;
(2)将步骤(1)获得的中分辨率图像输入至精超分辨网络中,获得高分辨率图像;其中,所述精超分辨网络包括:
由多个残差通道注意力单元组成的精超分辨编码器,用于提取深层次的人脸特征信息;
由亚像素卷积上采样单元和多个残差单元组成的精超分辨解码器,用于解析获得高分辨率图像;
由三个残差单元和两个Hourglass组成的人脸解析网络,用于从高分辨率图像中提取获得五官解析图;
所述五官解析图作为反馈与人脸特征信息进行融合并作为精超分辨解码器的输入;
(3)对粗超分辨网络和精超分辨网络进行监督训练,包括:
反向监督:
将中分辨率图像下采样到低分辨率图像,学习从超分辨后的中分辨率图像到低分辨率图像的对偶回归对粗超分辨网络进行监督训练;
将高分辨率图像下采样到中分辨率图像,学习从超分辨后的高分辨率图像到中分辨率图像的对偶回归对精超分辨网络进行监督训练;
正向监督:
将粗糙分辨网络和精超分辨网络共同作为生成对抗网络中的生成器,并构建判别器和网络的整体损失函数,利用生成对抗方式进行训练直至整体损失函数收敛。
图1是本发明方法构建的由残差通道注意力网络和精超分辨网络共同组成的人脸超分辨网络结构示意图。
图4是本发明的粗超分辨网络结构图,具体地,由卷积层、4个串联的残差通道注意力单元、亚像素卷积上采样单元组成。
所述步骤(1)的实现方法具体包括如下子步骤:
(1.1)16×16的人脸图像输入至残差通道注意力网络中,先通过一层卷积,然后输入到四个残差通道注意力单元中,用来自适应地选择输入的特征,每个残差通道注意力单元均包括残差单元和通道注意力单元,残差单元结构如图2所示,包括卷积层、ReLU非线性变换层、卷积层,通道注意力单元包括池化层、卷积层、ReLU非线性变换层、卷积层和Sigmoid非线性变换层,残差通道注意力单元的整体结构如图3所示;在每个残差通道注意力单元中,输入图像先通过卷积层、ReLU非线性变换、卷积层提取输入图像的特征,然后输入到通道注意力单元中进行操作,由于超分辨的终旨是恢复图像的高频分量,因此使用有关通道的高频统计信息来确定注意力图更为合理。为此,选择对合并方法使用方差而不是平均值对输入特征作全局池化处理,提取其全局语义信息,然后经过卷积层、ReLU非线性变换、卷积层和Sigmoid非线性变换后得到通道校准系数向量β,将通道校准系数向量β与通道注意力单元的输入特征进行重新校准作为残差通道注意力单元的输出。上述残差通道注意力网络中所涉及到的卷积层均为3×3×64×1,3×3表示卷积核尺寸,64表示卷积核个数,最后一位表示卷积核的运动步幅。
(1.2)通过4个串联的残差通道注意力单元提取特征之后,将其输入到亚像素卷积上采样单元中,该单元包括一个3×3×64×16×1卷积层,将输出通道数扩大为输入通道数的16倍,一个LeakyReLU非线性变换,通过亚像素卷积操作得到放大4倍后的特征,同时将输入特征通过双三次上采样4倍进行处理,将其与亚像素卷积输出的特征进行叠加,得到中分辨率图像。
作为优选方案,所述精超分辨编码器具体结构如图5所示,精超分辨编码器提取深层次的人脸特征信息的具体过程为:
将第一阶段的残差通道注意力网络超分辨处理得到中分辨率图像输入到精超分辨编码器中,中分辨率图像首先通过一个3×3×64×1卷积层,之后输入到由15个残差通道注意力单元组成的网络中,该残差通道注意力单元与粗超分辨网络中的一样,再通过一个3×3×64×1卷积层,然后与通过第一个卷积层得到的浅层特征进行逐像素相加操作,得到深层次人脸特征信息。
优选地,人脸解析网络结构如图6所示,人脸解析网络提取获得五官解析图的具体过程为:
将最终输出的高分辨率图像返回输入到人脸解析网络中进行人脸五官解析图的提取,高分辨率图像先通过一个7×7×64×1的卷积层、ReLU非线性变换、一个3×3×128×1卷积层、ReLU非线性变换和三个残差单元,残差单元中的卷积层为3×3×128×1,然后输入到两个三阶的Hourglass单元中,Hourglass在对称层之间使用跳跃连接机制,中间增加反馈机制提升网络效率,如图7所示。最后,由Hourglass得到的特征连接到1×1×11×1来生成人脸解析图。
将五官解析图特征信息进行softmax处理后与精超分辨编码器中提取的深层次人脸特征信息进行融合,并输入到一个3×3×64×1卷积层、ReLU非线性变换、亚像素卷积(一个3×3×64×4×1卷积层,将输出通道数扩大为输入通道数的4倍,图像放大两倍,一个LeakyReLU非线性变换)、三个残差单元(其中的卷积层为3×3×64×1)、一个3×3×64×1卷积层、Tanh非线性变换组成的精超分辨解码器(如图8所示)中,即可得到高分辨率图像。
对于人脸超分辨网络进行监督训练,具体采用:
将第一阶段输出的中分辨图像经过一个3×3×64×2卷积层、ReLU非线性变换、3×3×64×2卷积层,返回到输入分辨率空间,通过引入了一个附加的约束来减少可能的空间,以便中分辨图像能够重建输入的低分辨率图像。通过这样的约束估计底层的下采样核,从而减少可能函数的空间,找到从低分辨率到高分辨率的良好映射。
将高分辨图像经过一个3×3×64×1卷积层、ReLU非线性变换、3×3×64×2卷积层,向下采样到中分辨率图像,学习从超分辨后的图像到中分辨率图像的对偶回归来进行监督,使其尽量能返回到中分辨率图像空间中。
上述反向监督中,均采用L1损失函数。
同时将残差通道注意力网络和精超分辨网络联合作为高分辨率图像的生成网络,为了进一步增加人脸图像的感知质量,增加一个判别器网络,利用ESRGAN网络中的判别器网络和判别损失函数作为本方案的判别器和对应的损失函数,生成器的损失函数包括生成器对抗损失、第一阶段输出的中分辨率图像(将中分辨率的图像通过3×3×3×4反卷积处理,得到与真值图像相同的尺寸,用以监督第一阶段生成的超分辨图像)与真值图像的L1损失,第二阶段输出的最终高分辨率图像与真值图像的L1损失,人脸解析网络输出的人脸解析图与真值解析图的L1损失,我们以平均绝对损失函数为目标训练网络,使用PSNR(PeakSignal to Noise Ratio,峰值信噪比)、SSIM(structural similarity index,结构相似性),选择高分辨率的人脸数据集CelebAMask-HQ,对图像进行裁剪操作,只截取人脸部分,避免头发帽子衣服对人脸的影响,将截取的照片双三次下采样到128×128作为高分辨率图像,双三次下采样到16×16作为对应的低分辨率图像,选择其中20000对高低分辨率的人脸图像对作为训练集,由于增加了反向监督,可以在已知真值的数据对上混入一定比例的未知真实的低分辨率数据,这部分数据由于没有真值数据缺少正向监督,但可以通过由已知真值的数据对训练的模型得到高分辨率结果,然后反向监督看其是否能够返回到原始低分辨率空间中。优选地,在网络上搜寻到8000张低分辨率的带有实际退化的人脸图,再下采样到16×16,将所有原始图片旋转90°,180°,270°和水平翻转,进行图像增强,使用RMSprop进行训练,学习率设置为0.0001,使用反向传播策略交替更新生成器网络和判别器网络,如已收敛,则保存训练好的生成器网络模型,用该生成器网络用作最终的推理,另外选择100张低分辨率的图片作为测试集。另外,用同样的方法在Helen数据集上进行训练和测试,测试结果如表1所示。
表1. 本发明与其他算法在放大8倍时不同数据集下的性能比较(PSNR/SSIM)
数据集 | Bicubic | SRCNN | VDSR | SRResNet | EDSR | RCAN | 本发明 |
Helen | 23.49/0.6233 | 23.97/0.6521 | 24.41/0.6773 | 25.11/0.7157 | 25.46/0.7252 | 25.93/0.7309 | 26.37/0.7821 |
CelebA | 23.36/0.6265 | 23.85/0.6474 | 24.33/0.6686 | 25.12/0.7169 | 25.52/0.7347 | 25.71/0.7451 | 26.73/0.7768 |
表1中最后一列为本发明的结果,在Helen和CelebA都进行了测试,对比常用的超分辨方法,包括双三次上采样、SRCNN、VDSR、SRResNet、EDSR和RCAN,进行了同样的数据集训练和测试,本发明得到的100张测试图片的平均PSNR和SSIM都是最好的,另外,本发明在没有多级反馈监督的情况下,将会下降0.3左右的PSNR和0.02左右的SSIM的性能,说明了增加反馈学习的必要性,而且具有多级反馈监督的情况下,还可以在数据集中增加没有真值图像的数据集,增加了超分辨模型的泛化能力。
Claims (8)
1.一种基于注意力机制和多级反馈监督的人脸超分辨方法,其特征在于,包括以下步骤:
(1)采用粗超分辨网络对低分辨率图像进行原始特征提取,并上采样得到中分辨率图像;所述中分辨率图像的分辨率是目标分辨率的1/8~1/2;所述粗超分辨网络为残差通道注意力网络;
(2)将步骤(1)获得的中分辨率图像输入至精超分辨网络中,获得高分辨率图像;其中,所述精超分辨网络包括:
由多个残差通道注意力单元组成的精超分辨编码器,用于提取深层次的人脸特征信息;
由亚像素卷积上采样单元和残差网络组成的精超分辨解码器,用于解析获得高分辨率图像;
由三个残差单元和两个Hourglass组成的人脸解析网络,用于从高分辨率图像中提取获得五官解析图;
所述五官解析图作为反馈与人脸特征信息进行融合并作为精超分辨解码器的输入;
(3)对粗超分辨网络和精超分辨网络进行监督训练,包括:
反向监督:
将中分辨率图像下采样到低分辨率图像,学习从超分辨后的中分辨率图像到低分辨率图像的对偶回归对粗超分辨网络进行监督训练;
将高分辨率图像下采样到中分辨率图像,学习从超分辨后的高分辨率图像到中分辨率图像的对偶回归对精超分辨网络进行监督训练;
正向监督:
将粗超 分辨网络和精超分辨网络共同作为生成对抗网络中的生成器,并构建判别器和网络的整体损失函数,利用生成对抗方式进行训练直至整体损失函数收敛。
2.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法,其特征在于,所述步骤(1)中,低分辨率图像的分辨率不大于32×32。
3.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法,其特征在于,所述粗超分辨网络由3×3×64×1卷积层、4个串联的残差通道注意力单元、亚像素卷积上采样单元组成,所述步骤(1)的实现方法具体包括如下子步骤:
(1.1) 将低分辨率图像输入至粗超分辨网络中,低分辨率图像先通过3×3×64×1卷积层,然后输入至4个串联的残差通道注意力单元中进行原始特征提取;其中,每个残差通道注意力单元均包括残差单元和通道注意力单元,通过残差单元提取输入图像的特征,再将特征输入至通道注意力单元中获取通道校准系数向量β,将通道校准系数向量β与通道注意力单元的输入特征进行重新校准后作为残差通道注意力单元的输出;所述通道注意力单元包括池化层、卷积层、ReLU非线性变换层、卷积层和Sigmoid非线性变换层,其中池化层采用方差对该层输入特征作全局池化处理,提取其全局语义信息;
(1.2)将最后一个残差通道注意力单元的输出输入到亚像素卷积上采样单元中,通过亚像素卷积操作得到放大后的特征;所述亚像素卷积上采样单元包括一个3×3×64s2×1卷积层,s为放大倍数,一个LeakyReLU非线性变换层;同时将最后一个残差通道注意力单元的输出通过双三次上采样处理,将其与亚像素卷积输出的放大后的特征进行叠加,得到中分辨率图像。
4.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法,其特征在于,精超分辨编码器提取深层次的人脸特征信息的具体过程为:
中分辨率图像通过一个3×3×64×1卷积层提取浅层特征,然后将浅层特征输入至15个串联的残差通道注意力单元中,再通过一个3×3×64×1卷积层进一步提取特征,将进一步提取的特征与通过第一个卷积层得到的浅层特征进行逐像素相加操作,得到深层次的人脸特征信息。
5.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法,其特征在于,人脸解析网络提取获得五官解析图的具体过程为:
高分辨率图像依次通过一个7×7×64×1的卷积层、ReLU非线性变换、一个3×3×128×1卷积层、ReLU非线性变换和三个残差单元,所述残差单元中的卷积层为3×3×128×1;然后输入到两个三阶的Hourglass单元中,Hourglass单元在对称层之间使用跳跃连接机制,最后,将Hourglass单元得到的特征连接到1×1×11×1卷积层生成五官解析图。
6.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法,其特征在于,所述精超分辨解码器包括:
依次连接的3×3×64×1卷积层、ReLU非线性变换层、亚像素卷积上采样单元、三个残差单元、3×3×64×1卷积层和Tanh非线性变换层;
其中,亚像素卷积上采样单元包括一个3×3×64s2×1卷积层,s为放大倍数,一个LeakyReLU非线性变换层;残差单元中的卷积层为3×3×64×1。
7.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法,其特征在于,所述反向监督的损失函数采用L1损失。
8.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法,其特征在于,所述正向监督具体为:
采用ESRGAN网络中的判别器网络和判别损失函数作为生成对抗网络中的判别器和对应的损失函数,网络的整体损失函数包括生成器对抗损失、中分辨率图像上采样至真值分辨率后与真值图像的L1损失,高分辨率图像与真值图像的L1损失,人脸解析网络输出的五官解析图与真值解析图的L1损失,使用反向传播策略交替更新生成器网络和判别器网络直至收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010915168.0A CN111768342B (zh) | 2020-09-03 | 2020-09-03 | 基于注意力机制和多级反馈监督的人脸超分辨方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010915168.0A CN111768342B (zh) | 2020-09-03 | 2020-09-03 | 基于注意力机制和多级反馈监督的人脸超分辨方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111768342A CN111768342A (zh) | 2020-10-13 |
CN111768342B true CN111768342B (zh) | 2020-12-01 |
Family
ID=72729253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010915168.0A Active CN111768342B (zh) | 2020-09-03 | 2020-09-03 | 基于注意力机制和多级反馈监督的人脸超分辨方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111768342B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112233033B (zh) * | 2020-10-19 | 2022-11-01 | 中南民族大学 | 解析先验融合的渐进高倍人脸超分辨率系统及其方法 |
CN111968064B (zh) * | 2020-10-22 | 2021-01-15 | 成都睿沿科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN112446423B (zh) * | 2020-11-12 | 2023-01-17 | 昆明理工大学 | 一种基于迁移学习的快速混合高阶注意力域对抗网络的方法 |
CN112598587B (zh) * | 2020-12-16 | 2022-09-13 | 南京邮电大学 | 一种联合人脸去口罩和超分辨率的图像处理系统和方法 |
CN112801868B (zh) * | 2021-01-04 | 2022-11-11 | 青岛信芯微电子科技股份有限公司 | 图像超分辨率重建的方法、电子设备及存储介质 |
CN112507997B (zh) * | 2021-02-08 | 2021-05-11 | 之江实验室 | 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统 |
CN112950478B (zh) * | 2021-03-18 | 2022-07-19 | 武汉工程大学 | 基于双重身份属性约束的人脸超分辨率方法及系统 |
CN113191972B (zh) * | 2021-04-27 | 2023-04-14 | 西安交通大学 | 一种轻量真实图像去噪的神经网络设计及训练方法 |
CN112884657B (zh) * | 2021-05-06 | 2021-07-16 | 中南大学 | 一种人脸超分辨率重建方法及系统 |
CN113128467B (zh) * | 2021-05-11 | 2022-03-29 | 临沂大学 | 基于面部先验知识的低分辨率人脸超分辨与识别的方法 |
CN113034370A (zh) * | 2021-05-26 | 2021-06-25 | 之江实验室 | 一种结合3d脸部结构先验的人脸超分辨方法 |
CN113344773B (zh) * | 2021-06-02 | 2022-05-06 | 电子科技大学 | 基于多级对偶反馈的单张图片重构hdr方法 |
CN113379604B (zh) * | 2021-06-15 | 2022-09-20 | 华南理工大学 | 针对超分辨率网络的剪枝量化压缩方法、系统及介质 |
CN113298719B (zh) * | 2021-07-02 | 2024-04-05 | 西安电子科技大学 | 基于特征分离学习的低分辨模糊人脸图像超分辨重建方法 |
US11915383B2 (en) * | 2021-07-05 | 2024-02-27 | Huawei Technologies Co., Ltd. | Methods and systems for high definition image manipulation with neural networks |
CN113658040B (zh) * | 2021-07-14 | 2024-07-16 | 北京海百川科技有限公司 | 一种基于先验信息和注意力融合机制的人脸超分辨方法 |
CN113284051B (zh) * | 2021-07-23 | 2021-12-07 | 之江实验室 | 一种基于频率分解多注意力机制的人脸超分辨方法 |
CN113674284A (zh) * | 2021-07-26 | 2021-11-19 | 东北师范大学 | 曲线分割网络、分割方法及采用该网络的图像分割方法 |
CN113592970B (zh) * | 2021-07-28 | 2024-04-12 | 网易(杭州)网络有限公司 | 毛发造型的生成方法及装置、电子设备、存储介质 |
CN115883851A (zh) * | 2021-09-28 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 滤波及编解码方法、装置、计算机可读介质及电子设备 |
CN114331903B (zh) * | 2021-12-31 | 2023-05-12 | 电子科技大学 | 一种图像修复方法及存储介质 |
CN114331849B (zh) * | 2022-03-15 | 2022-06-10 | 之江实验室 | 一种跨模态核磁共振超分网络及图像超分辨率方法 |
CN114897694B (zh) * | 2022-05-10 | 2024-09-24 | 南京航空航天大学 | 基于混合注意力和双层监督的图像超分辨率重建方法 |
CN114926819B (zh) * | 2022-05-31 | 2024-06-21 | 海南大学 | 一种复杂场景的未知异常障碍物识别方法及系统 |
CN115760670B (zh) * | 2023-01-06 | 2023-05-23 | 之江实验室 | 基于网络隐式先验的无监督高光谱融合方法及装置 |
CN116523740B (zh) * | 2023-03-13 | 2023-09-15 | 武汉大学 | 一种基于光场的红外图像超分辨率方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10799182B2 (en) * | 2018-10-19 | 2020-10-13 | Microsoft Technology Licensing, Llc | Video-based physiological measurement using neural networks |
CN109859106B (zh) * | 2019-01-28 | 2022-07-05 | 桂林电子科技大学 | 一种基于自注意力的高阶融合网络的图像超分辨率重建方法 |
CN110287846B (zh) * | 2019-06-19 | 2023-08-04 | 南京云智控产业技术研究院有限公司 | 一种基于注意力机制的人脸关键点检测方法 |
CN110458133A (zh) * | 2019-08-19 | 2019-11-15 | 电子科技大学 | 基于生成式对抗网络的轻量级人脸检测方法 |
CN111080513B (zh) * | 2019-10-24 | 2023-12-26 | 天津中科智能识别产业技术研究院有限公司 | 一种基于注意力机制的人脸图像超分辨率方法 |
-
2020
- 2020-09-03 CN CN202010915168.0A patent/CN111768342B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111768342A (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111768342B (zh) | 基于注意力机制和多级反馈监督的人脸超分辨方法 | |
Jiang et al. | Dual-path deep fusion network for face image hallucination | |
CN110033410B (zh) | 图像重建模型训练方法、图像超分辨率重建方法及装置 | |
CN112507997B (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统 | |
CN111028146B (zh) | 基于双判别器的生成对抗网络的图像超分辨率方法 | |
CN112070670B (zh) | 全局-局部分离注意力机制的人脸超分辨率方法及系统 | |
CN114757832B (zh) | 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置 | |
CN111192200A (zh) | 基于融合注意力机制残差网络的图像超分辨率重建方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN113284051B (zh) | 一种基于频率分解多注意力机制的人脸超分辨方法 | |
CN113298718A (zh) | 一种单幅图像超分辨率重建方法及系统 | |
CN112561799A (zh) | 一种红外图像超分辨率重建方法 | |
CN116188272B (zh) | 适用于多模糊核的两阶段深度网络图像超分辨率重建方法 | |
CN112950480A (zh) | 一种融合多感受野和密集残差注意的超分辨率重建方法 | |
CN115936985A (zh) | 一种基于高阶退化循环生成对抗网络的图像超分辨率重建方法 | |
CN117575915B (zh) | 一种图像超分辨率重建方法、终端设备及存储介质 | |
CN114219719A (zh) | 基于双重注意力和多尺度特征的cnn医学ct图像去噪方法 | |
CN113379597A (zh) | 人脸超分辨率重构方法 | |
CN114418853A (zh) | 基于相似图像检索的图像超分辨率优化方法、介质及设备 | |
CN115797176A (zh) | 一种图像超分辨率重建方法 | |
CN115713462A (zh) | 超分辨模型训练方法、图像识别方法、装置及设备 | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
Gopan et al. | Video super resolution with generative adversarial network | |
CN117576483B (zh) | 基于多尺度卷积自编码器的多源数据融合地物分类方法 | |
CN116630152A (zh) | 图像分辨率重建方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |