CN113284051A - 一种基于频率分解多注意力机制的人脸超分辨方法 - Google Patents

一种基于频率分解多注意力机制的人脸超分辨方法 Download PDF

Info

Publication number
CN113284051A
CN113284051A CN202110834275.5A CN202110834275A CN113284051A CN 113284051 A CN113284051 A CN 113284051A CN 202110834275 A CN202110834275 A CN 202110834275A CN 113284051 A CN113284051 A CN 113284051A
Authority
CN
China
Prior art keywords
convolution
layer
module
attention
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110834275.5A
Other languages
English (en)
Other versions
CN113284051B (zh
Inventor
孙立剑
何鹏飞
曹卫强
徐晓刚
王军
朱岳江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110834275.5A priority Critical patent/CN113284051B/zh
Publication of CN113284051A publication Critical patent/CN113284051A/zh
Application granted granted Critical
Publication of CN113284051B publication Critical patent/CN113284051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于计算机视觉、图像处理领域,涉及一种基于频率分解多注意力机制的人脸超分辨方法,利用小波变换及其逆变换均可逆的性质,将输入的低分辨率人脸图像进行频率分解,针对不同频率的特征,采用不同的核卷积构建基础模块,自适应集成不同感受野的特征,利用残差注意力模块,包含像素、空间和通道注意力机制,对不同频率的特征分别进行处理,低频部分纹理采用较少计算量的注意力,高频部分采用更多的残差注意力模块,在保持计算量的同时将更多的网络应用于高频部分,利用预训练的人脸关键点提取网络进行关键点提取并进行反馈,增强轮廓特征,利用生成抵抗网络增强纹理特征。

Description

一种基于频率分解多注意力机制的人脸超分辨方法
技术领域
本发明属于计算机视觉、图像处理领域,涉及一种基于频率分解多注意力机制的人脸超分辨方法。
背景技术
图像分辨率的大小直接关系到图像的质量,对高级别的任务包括检测识别等会有很大的影响,更高的高分辨率意味着包含更多的细节信息,应用潜能更大。然而在实际图像获取过程中,由于成像设备本身的限制、环境因素的影响以及存储介质和网络带宽的影响导致无法直接获取高质量的图像。随着计算机视觉技术尤其是深度学习的快速发展,图像增强方法也越来越多,超分辨技术就是一项提升图像画质的有效手段,能够有效提升图像分辨率。图像超分辨率技术是将低分辨率的图像通过相应算法,将其上采样到高分辨率图像,与硬件方式相比,可以有效降低图像增强的成本,在卫星成像、安防监控、医学检测、刑事侦查、历史图像修复增强等多个领域都具有非常重要的应用价值。例如在安防监控场景中,由于摄像头和周围环境等因素,拍摄到的目标所占像素较低,导致无法识别目标,通过超分辨技术可以重构出分辨率较高的图像,提高目标人脸的分辨率,从而对目标人物提供的检测和识别提供帮助。因此,图像超分辨技术作为一种低层的图像处理方法,可以为后续的高层次图像处理方法提供有效的支持。
目前有很多关于图像超分辨的网络,在处理各种各样的场景、物体方面都有了比较明显的提升,针对人脸超分辨方面的网络虽然取得了一些进步,但是针对低分辨率的人脸,超分效果不是很好。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于频率分解多注意力机制的人脸超分辨方法,在保证网络复杂度不增加和低频结构的一致性的情况下,使网络更加关注高频部分,利用哈尔小波变换将原始输入图像分解为四部分不同频率,分别通过网络进行高低频特征的增强处理,并且针对直接从 LR 输入中估计面部的关键点有一定困难,通过超分辨输出结果图进行人脸关键点信息的提取并反馈到主干网络中的低频部分来进一步提升人脸信息,其具体技术方案如下:
一种基于频率分解多注意力机制的人脸超分辨方法,包括以下步骤:
步骤S1,输入低分辨率人脸图像,将该图像通过一个卷积层后采用二维哈尔小波变换将每个通道的特征图分解为四个降采样图,总通道数变为原来的4倍,尺寸变为原来的1/2,将每个通道的四类特征分解图按频率组合在一起,输出四组不同频率的特征图;
步骤S2,将步骤S1中得到的四组不同频率的特征图按频率组输入到一个多核卷积模块分别进行处理得到四路特征;
步骤S3,将步骤S2处理得到的四路特征输入至多注意力模块,将所有通道的特征进行级联,再经过通道注意力模块,后再分解为原先的四路特征,然后依次经过4-8个所述的多注意力模块进行特征增强;
步骤S4,将经过步骤S3增强的特征与步骤S1中二维哈尔小波变换得到的特征按照频率分别进行相加操作,然后输入到粗上采样模块中,获得放大2-4倍的中分辨率特征;
步骤S5,将粗上采样后的特征再经过一个多核卷积模块和4-8个多注意力模块,然后经过一个精上采样模块,获得再次放大2-4倍的目标高分辨特征,经过二维可逆小波变换之后得到结果与输入的低分辨率人脸图像经过卷积层和上采样处理的特征进行相加操作,得到目标分辨率图像;
步骤S6,利用已经经过预训练处理的人脸关键点提取网络对输出的目标分辨率图像进行特征提取,将其经过不同倍率的下采样操作后的关键点分别输入到多核卷积模块中;
步骤S7,最后增加一个判别器网络和增加基于视觉感知质量的损失函数,利用生成对抗学习训练方式得到最终的高质量图像生成网络,输出最终的高质量图像。
进一步的,所述卷积层为一个3×3×16×1卷积层,3×3表示卷积核尺寸,16表示卷积核个数,1表示卷积核的运动步幅;所述四个降采样图,分别对应对角线高频D、垂直高频V、水平高频H和低频A。
进一步的,所述步骤S2具体为:所述多核卷积模块根据频率高低的不同分别处理步骤S1中得到的特征图,将D输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层,将V和H分别输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层,将A输入到一个深度可分离卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层,所述的深度可分离卷积由通道数为1的3×3×16×1大小卷积层和通道数为16的1×1×32×1卷积层组成。
进一步的,所述多注意力模块设有像素注意力模块、空间注意力模块、普通卷积模块和通道注意力模块,所述步骤S3具体包括:
(1)将D支路部分输入到像素注意力模块中,所述的像素注意力模块分为主路部分和支路部分,主路部分依次经过一个1×1和3×3的卷积层,支路部分经过一个1×1的卷积层和sigmoid激活层,然后两路经过点乘合成一路,再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层;
(2)将V和H输入到空间注意力模块中,所述的空间注意力模块也分为两路,主路经过一个3×3卷积层,支路部分依次经过一个3×3卷积层、1×1卷积层和sigmoid激活层,然后两路经过点乘合成一路,再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层;
(3)将A输入到一个由3×3卷积、LeakyReLU非线性变换和3×3卷积组成的普通卷积模块中;
(4)将所有通道的特征进行级联,输入到通道注意力模块中,所述的通道注意力模块分为两路,一路依次经过一个全局平均池化、一个3×3卷积层、一个ReLU非线性激活层和一个3×3的卷积层和sigmoid激活层,另一路经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层,两路结果进行点乘得到的特征与该模块的原始输入特征进行相加操作,然后再分解为原先的四路特征,然后依次经过4-8个这样的多注意力模块。
进一步的,所述粗上采样模块由最邻近、LeakyReLU非线性变换和亚像素卷积、LeakyReLU非线性变换组成,通过交替使用最邻近和亚像素卷积,分别放大2倍,最近邻执行空域变换,亚像素卷积执行通道到空间的变换。
进一步的,所述的精上采样模块由最邻近、LeakyReLU非线性变换和亚像素卷积、残差网络、LeakyReLU非线性变换和一个3×3卷积层组成。
进一步的,所述步骤S1到步骤S6所使用的网络组成为高分辨率图像的生成网络。
进一步的,所述步骤S7具体为:
基于ESRGAN判别器,损失函数为
Figure 872279DEST_PATH_IMAGE001
用于区分真实图像与生成图像,对于生成网络 而言,损失函数由三部分构成:内容感知损失、对抗损失
Figure 355344DEST_PATH_IMAGE002
以及像素损失
Figure 407613DEST_PATH_IMAGE003
,损失函数使 用反向传播策略交替更新生成器网络和判别器网络,若已收敛,则保存训练好的生成器网 络模型,其中,
Figure 985225DEST_PATH_IMAGE004
Figure 439340DEST_PATH_IMAGE005
Figure 421203DEST_PATH_IMAGE006
Figure 960769DEST_PATH_IMAGE007
其中
Figure 89874DEST_PATH_IMAGE008
Figure 257550DEST_PATH_IMAGE009
分别表示真实图像和生成器生成的假图像,
Figure 207052DEST_PATH_IMAGE010
是sigmoid函数,
Figure 843700DEST_PATH_IMAGE011
是 非变换判别器输出,
Figure 763115DEST_PATH_IMAGE012
Figure 926243DEST_PATH_IMAGE013
分别表示在mini批处理中对所有生成的假数据和真实数据取 平均值的操作;
感知超分辨方法的损失函数选择的是对抗损失
Figure 656433DEST_PATH_IMAGE002
和LPIPS的感知损失,提高图 片的视觉感知质量,其中,
Figure 232908DEST_PATH_IMAGE014
其中
Figure 972325DEST_PATH_IMAGE015
表示特征提取器,
Figure 849014DEST_PATH_IMAGE016
表示深度嵌入转化为标量LPIPS评分,并从k层中计算平 均得分;
此外,还利用判别器的特征匹配损失来减少对抗性损失带来的不良噪声:
Figure 405897DEST_PATH_IMAGE017
Figure 748629DEST_PATH_IMAGE018
为判别器D的第
Figure 150792DEST_PATH_IMAGE019
层激活量,H为光滑
Figure 413146DEST_PATH_IMAGE003
损失。另外再加上在RGB像素空间上的损 失
Figure 750717DEST_PATH_IMAGE020
和YUV像素空间上的损失
Figure 708309DEST_PATH_IMAGE021
来防止颜色和亮度发生变化以及
Figure 304375DEST_PATH_IMAGE022
用于人脸关键点 的监督,
Figure 640810DEST_PATH_IMAGE023
用于关键点提取,
Figure 273917DEST_PATH_IMAGE024
Figure 109017DEST_PATH_IMAGE025
Figure 852983DEST_PATH_IMAGE026
所以整体损失函数为:
Figure 575082DEST_PATH_IMAGE027
本发明的有益效果是:通过采用小波变换将图像分解为四类不同频率的特征,针对不同频率的特征分别采用复杂程度不同的卷积核和不同的注意力模型,使网络参数更加偏重于构建细节信息,在保证图像结构的基础上,更注重于复原细节,在上采样阶段交替使用不同的上采样方法以降低计算复杂度,同时具有令人满意的性能,关键点提取网络采用性能较好的预训练网络模型,比直接采用嵌入式的网络结构具有更好的性能,并将关键点信息反馈到低频支路上,提升人脸几何形状特征提取的准确性,而多样化的损失函数可以保持色彩和亮度的一致性,引入的LPIPS评价指标有助于增强视觉感知质量,另外增加生成对抗网络进行训练,进一步增加了图像的视觉感知质量。
附图说明
图1是本发明的一种基于频率分解多注意力机制的人脸超分辨方法整体流程示意图;
图2是本发明的多核卷积模块结构示意图;
图3是本发明的多注意力模块结构示意图;
图4是本发明的像素注意力模块结构示意图;
图5是本发明的空间注意力模块结构示意图;
图6是本发明的普通卷积模块结构示意图;
图7是本发明的通道注意力模块结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
实施例:
以8倍图像超分辨率为例进行说明,一种基于频率分解多注意力机制的人脸超分辨方法,针对低分辨率的人脸图像更多的是丢失高频成分,因此针对不同频率的特征需要区别对待,高频部分采用复杂的操作处理,对低频部分采用廉价操作处理,从而在相同的计算量前提下可以更好地恢复图像的特征,具体的,包括以下步骤:
步骤S1,如图1所示,输入图像分辨率为16×16的人脸图像,将人脸图像通过一个3×3×16×1卷积层,3×3表示卷积核尺寸,16表示卷积核个数,最后一位表示卷积核的运动步幅,然后采用二维哈尔小波变换将每个通道的特征图分解为四个降采样图,分别对应对角线高频D、垂直高频V、水平高频H和低频A,总通道数变为原来的4倍,尺寸变为原来的1/2,将每个通道的四类特征分解图按频率组合在一起,输出四组不同频率的特征;
步骤S2,如图2所示,将步骤S1中得到的四种不同频率成分的特征图按频率组输入到一个多核卷积模块分别进行处理,该模块主要根据频率高低的不同分别处理,频率越高采用参数量较多的卷积层,频率低的由于包含细节信息较低,采用了较少参数量的卷积层,将D输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层,将V和H分别输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层,将A输入到一个深度可分离卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层,所述的深度可分离卷积由通道数为1的3×3×16×1大小卷积层和通道数为16的1×1×32×1卷积层组成;
步骤S3,如图3和图4所示,将步骤S2中输出的四路特征输入到多注意力模块中,根据特征的不同,将D支路部分输入到像素注意力模块中,所述的像素注意力模块分为两路,主路依次经过一个1×1和3×3的卷积层,支路部分经过一个1×1的卷积层和sigmoid激活层,然后两路经过点乘合成一路,再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层,像素注意力关注像素信息,具有较高的细粒度,用于更好地描述细节纹理信息;
如图5所示,将V和H输入到空间注意力模块中,所述的空间注意力模块也分为两路,主路经过一个3×3卷积层,支路部分依次经过一个3×3卷积层、1×1卷积层和sigmoid激活层,然后两路经过点乘合成一路,再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层;
如图6所示,由于A包含的是低频信息保存较为完善,将A输入到一个由3×3卷积、LeakyReLU非线性变换和3×3卷积组成的普通卷积模块中;
如图7所示,将所有通道的特征进行级联,输入到通道注意力模块中,所述的通道注意力模块分为两路,一路依次经过一个全局平均池化、一个3×3卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层和和sigmoid激活层,另一路经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层,两路结果进行点乘得到的特征与该模块的原始输入特征进行相加操作,然后再分解为原先的四路特征,然后依次经过6个这样的多注意力模块;
步骤S4,将步骤S3中经过一阶段增强的特征与原始小波变换得到的特征按照频率分别进行相加操作,然后输入到粗上采样模块中,所述粗上采样模块用于对人脸特征图的像素进行增强处理,获得放大4倍的中分辨率图,其由2倍最邻近、LeakyReLU非线性变换和2倍亚像素卷积、LeakyReLU非线性变换组成,最近邻执行空域变换,亚像素卷积执行通道到空间的变换,提升空间与通道间的信息交互;
步骤S5,步骤S3类似,将粗上采样后的特征再经过一个多核卷积模块和8个多注意力模块,然后经过一个精上采样模块,所述的精上采样模块由2倍最邻近、LeakyReLU非线性变换、残差网络、LeakyReLU非线性变换和一个3×3卷积层组成的,获得目标高分辨特征,经过二维可逆小波变换之后得到结果与输入的低分辨率图像经过卷积和上采样处理的特征进行相加操作,得到目标分辨率图像;
步骤S6,利用已经经过预训练处理的关键点提取网络对输出的目标分辨率图像进行特征提取,将其经过不同倍率的下采样操作后的关键点特征反馈到主干网络,分别输入到多核卷积模块中对应的低频支路部分进行级联操作,进一步提升低频轮廓的精度;
步骤S7,步骤S1到S6所涉及的网络作为高分辨率图像的生成网络,为了进一步增加人脸图像的感知质量,增加一个判别器网络并增加基于视觉感知质量的损失函数,利用生成对抗学习训练方式得到最终的高质量图像生成网络,输出最终的高质量图像,具体的为:
基于ESRGAN判别器,损失函数为
Figure 644669DEST_PATH_IMAGE001
用于区分真实图像与生成图像,对于生成网络 而言,损失函数由三部分构成:内容感知损失、对抗损失
Figure 435908DEST_PATH_IMAGE002
以及像素损失
Figure 145017DEST_PATH_IMAGE003
。损失函数使 用反向传播策略交替更新生成器网络和判别器网络,如已收敛,则保存训练好的生成器网 络模型,其中,
Figure 846257DEST_PATH_IMAGE004
Figure 945800DEST_PATH_IMAGE005
Figure 240646DEST_PATH_IMAGE006
Figure 591993DEST_PATH_IMAGE007
其中
Figure 537952DEST_PATH_IMAGE008
Figure 418183DEST_PATH_IMAGE009
分别表示真实图像和生成器生成的假图像,
Figure 200326DEST_PATH_IMAGE010
是sigmoid函数,
Figure 355364DEST_PATH_IMAGE011
是 非变换判别器输出,
Figure 890250DEST_PATH_IMAGE012
Figure 347907DEST_PATH_IMAGE013
分别表示在mini批处理中对所有生成的假数据和真实数据取 平均值的操作;
感知超分辨方法的损失函数选择的是对抗损失和LPIPS的感知损失,提高图片的视觉感知质量,其中,
Figure 741980DEST_PATH_IMAGE014
其中
Figure 294184DEST_PATH_IMAGE015
表示特征提取器,
Figure 90101DEST_PATH_IMAGE016
表示深度嵌入转化为标量LPIPS评分,并从k层中计算平 均得分。
此外,还利用判别器的特征匹配损失来减少对抗性损失带来的不良噪声:
Figure 715730DEST_PATH_IMAGE017
Figure 331519DEST_PATH_IMAGE018
为判别器D的第
Figure 687414DEST_PATH_IMAGE019
层激活量,H为光滑
Figure 213205DEST_PATH_IMAGE003
损失。另外再加上在RGB像素空间上的损 失
Figure 137298DEST_PATH_IMAGE020
和YUV像素空间上的损失
Figure 365017DEST_PATH_IMAGE021
来防止颜色和亮度发生变化以及
Figure 399970DEST_PATH_IMAGE022
用于人脸关键点 的监督,
Figure 780266DEST_PATH_IMAGE023
用于关键点提取,
Figure 734316DEST_PATH_IMAGE024
Figure 324697DEST_PATH_IMAGE025
Figure 773127DEST_PATH_IMAGE026
所以整体损失函数为:
Figure 398144DEST_PATH_IMAGE028
使用PSNR(峰值信噪比)、SSIM(结构相似性),LPIPS作为图片质量的评价指标,选择高分辨率的人脸数据集并进行裁剪和不同的退化处理,得到高低分辨率的人脸图像对作为训练集、验证集和测试集,整个训练过程分为两个阶段,第一个阶段采用损失进行训练,第二个阶段引入内容损失与对抗损失进行模型微调,使用反向传播策略交替更新生成器网络和判别器网络,如已收敛,则保存训练好的生成器网络模型,用该生成器网络用作最终的推理。
表1为本发明与其他方法在放大8倍时不同数据集下的性能比较:
Figure 788674DEST_PATH_IMAGE029
表1中最后一行为本发明的结果,在Helen和CelebA都进行了测试,对比常用的超分辨方法,包括SRGAN、ESRGAN、RCAN和FSRNet,进行了同样的数据集训练和测试,本发明得到的100张测试图片的平均PSNR和SSIM都取得了较高的结果,另外LPIPS最低,保持着最好的视觉感知质量,整体图片清晰度也最好。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,包括以下步骤:
步骤S1,输入低分辨率人脸图像,将该图像通过一个卷积层后采用二维哈尔小波变换将每个通道的特征图分解为四个降采样图,总通道数变为原来的4倍,尺寸变为原来的1/2,将每个通道的四类特征分解图按频率组合在一起,输出四组不同频率的特征图;
步骤S2,将步骤S1中得到的四组不同频率的特征图按频率组输入到一个多核卷积模块分别进行处理得到四路特征;
步骤S3,将步骤S2处理得到的四路特征输入至多注意力模块,将所有通道的特征进行级联,再经过通道注意力模块,后再分解为原先的四路特征,然后依次经过4-8个所述的多注意力模块进行特征增强;
步骤S4,将经过步骤S3增强的特征与步骤S1中二维哈尔小波变换得到的特征按照频率分别进行相加操作,然后输入到粗上采样模块中,获得放大2-4倍的中分辨率特征;
步骤S5,将粗上采样后的特征再经过一个多核卷积模块和4-8个多注意力模块,然后经过一个精上采样模块,获得再次放大2-4倍的目标高分辨特征,经过二维可逆小波变换之后得到结果与输入的低分辨率人脸图像经过卷积层和上采样处理的特征进行相加操作,得到目标分辨率图像;
步骤S6,利用已经经过预训练处理的人脸关键点提取网络对输出的目标分辨率图像进行特征提取,将其经过不同倍率的下采样操作后的关键点分别输入到多核卷积模块中;
步骤S7,最后增加一个判别器网络和增加基于视觉感知质量的损失函数,利用生成对抗学习训练方式得到最终的图像生成网络,输出最终的图像。
2.如权利要求1所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述卷积层为一个3×3×16×1卷积层,3×3表示卷积核尺寸,16表示卷积核个数,1表示卷积核的运动步幅;所述四个降采样图,分别对应对角线高频D、垂直高频V、水平高频H和低频A。
3.如权利要求2所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述步骤S2具体为:所述多核卷积模块根据频率高低的不同分别处理步骤S1中得到的特征图,将D输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层,将V和H分别输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层,将A输入到一个深度可分离卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层,所述的深度可分离卷积由通道数为1的3×3×16×1大小卷积层和通道数为16的1×1×32×1卷积层组成。
4.如权利要求2所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述多注意力模块设有像素注意力模块、空间注意力模块、普通卷积模块和通道注意力模块,所述步骤S3具体包括:
(1)将D支路部分输入到像素注意力模块中,所述的像素注意力模块分为主路部分和支路部分,主路部分依次经过一个1×1和3×3的卷积层,支路部分经过一个1×1的卷积层和sigmoid激活层,然后两路经过点乘合成一路,再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层;
(2)将V和H输入到空间注意力模块中,所述的空间注意力模块也分为两路,主路经过一个3×3卷积层,支路部分依次经过一个3×3卷积层、1×1卷积层和sigmoid激活层,然后两路经过点乘合成一路,再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层;
(3)将A输入到一个由3×3卷积、LeakyReLU非线性变换和3×3卷积组成的普通卷积模块中;
(4)将所有通道的特征进行级联,输入到通道注意力模块中,所述的通道注意力模块分为两路,一路依次经过一个全局平均池化、一个3×3卷积层、一个ReLU非线性激活层和一个3×3的卷积层和sigmoid激活层,另一路经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层,两路结果进行点乘得到的特征与该模块的原始输入特征进行相加操作,然后再分解为原先的四路特征,然后依次经过4-8个这样的多注意力模块。
5.如权利要求1所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述粗上采样模块由最邻近、LeakyReLU非线性变换和亚像素卷积、LeakyReLU非线性变换组成,通过交替使用最邻近和亚像素卷积,分别放大2倍,最近邻执行空域变换,亚像素卷积执行通道到空间的变换。
6.如权利要求1所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述的精上采样模块由最邻近、LeakyReLU非线性变换和亚像素卷积、残差网络、LeakyReLU非线性变换和一个3×3卷积层组成。
7.如权利要求1所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述步骤S1到步骤S6所使用的网络组成为高分辨率图像的生成网络。
8.如权利要求7所述的一种基于频率分解多注意力机制的人脸超分辨方法,其特征在于,所述步骤S7具体为:
基于ESRGAN判别器,损失函数为
Figure 302515DEST_PATH_IMAGE001
用于区分真实图像与生成图像,对于生成网络而言, 损失函数由三部分构成:内容感知损失、对抗损失
Figure 730697DEST_PATH_IMAGE002
以及像素损失
Figure 142087DEST_PATH_IMAGE003
,损失函数使用反向 传播策略交替更新生成器网络和判别器网络,若已收敛,则保存训练好的生成器网络模型, 其中,
Figure 173497DEST_PATH_IMAGE004
Figure 672743DEST_PATH_IMAGE005
Figure 614154DEST_PATH_IMAGE006
Figure 789920DEST_PATH_IMAGE007
其中
Figure 183992DEST_PATH_IMAGE008
Figure 752508DEST_PATH_IMAGE009
分别表示真实图像和生成器生成的假图像,
Figure 407480DEST_PATH_IMAGE010
是sigmoid函数,
Figure 160673DEST_PATH_IMAGE011
是非变 换判别器输出,
Figure 651828DEST_PATH_IMAGE012
Figure 883089DEST_PATH_IMAGE013
分别表示在mini批处理中对所有生成的假数据和真实数据取平均 值的操作;
感知超分辨方法的损失函数选择的是对抗损失
Figure 658147DEST_PATH_IMAGE002
和LPIPS的感知损失,提高图片的 视觉感知质量,其中,
Figure 582241DEST_PATH_IMAGE014
其中
Figure 581200DEST_PATH_IMAGE015
表示特征提取器,
Figure 740786DEST_PATH_IMAGE016
表示深度嵌入转化为标量LPIPS评分,并从k层中计算平均得 分;
此外,还利用判别器的特征匹配损失来减少对抗性损失带来的不良噪声:
Figure 245717DEST_PATH_IMAGE017
Figure 216078DEST_PATH_IMAGE018
为判别器D的第
Figure 72038DEST_PATH_IMAGE019
层激活量,H为光滑
Figure 769736DEST_PATH_IMAGE003
损失;
另外再加上在RGB像素空间上的损失
Figure 394752DEST_PATH_IMAGE020
和YUV像素空间上的损失
Figure 536015DEST_PATH_IMAGE021
来防止颜色和 亮度发生变化以及
Figure 613692DEST_PATH_IMAGE022
用于人脸关键点的监督,
Figure 115081DEST_PATH_IMAGE023
用于关键点提取,
Figure 594604DEST_PATH_IMAGE024
Figure 906767DEST_PATH_IMAGE025
Figure 330796DEST_PATH_IMAGE026
所以整体损失函数为:
Figure 245662DEST_PATH_IMAGE027
CN202110834275.5A 2021-07-23 2021-07-23 一种基于频率分解多注意力机制的人脸超分辨方法 Active CN113284051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110834275.5A CN113284051B (zh) 2021-07-23 2021-07-23 一种基于频率分解多注意力机制的人脸超分辨方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110834275.5A CN113284051B (zh) 2021-07-23 2021-07-23 一种基于频率分解多注意力机制的人脸超分辨方法

Publications (2)

Publication Number Publication Date
CN113284051A true CN113284051A (zh) 2021-08-20
CN113284051B CN113284051B (zh) 2021-12-07

Family

ID=77287106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110834275.5A Active CN113284051B (zh) 2021-07-23 2021-07-23 一种基于频率分解多注意力机制的人脸超分辨方法

Country Status (1)

Country Link
CN (1) CN113284051B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744164A (zh) * 2021-11-05 2021-12-03 深圳市安软慧视科技有限公司 一种快速夜间低照度图像增强方法、系统及相关设备
CN114239641A (zh) * 2021-11-16 2022-03-25 电子科技大学 一种联合注意力机制选择核卷积残差网络的故障诊断方法
CN114296629A (zh) * 2021-12-28 2022-04-08 五邑大学 一种信号采集方法和系统
CN114757832A (zh) * 2022-06-14 2022-07-15 之江实验室 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置
TWI783834B (zh) * 2021-12-22 2022-11-11 國立中正大學 超解析影像處理方法及其系統
CN115713585A (zh) * 2023-01-05 2023-02-24 腾讯科技(深圳)有限公司 纹理图像重建方法、装置、计算机设备和存储介质
WO2023197219A1 (en) * 2022-04-13 2023-10-19 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Cnn-based post-processing filter for video compression with multi-scale feature representation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111047515A (zh) * 2019-12-29 2020-04-21 兰州理工大学 一种基于注意力机制的空洞卷积神经网络图像超分辨率重建方法
CN111080513A (zh) * 2019-10-24 2020-04-28 天津中科智能识别产业技术研究院有限公司 一种基于注意力机制的人脸图像超分辨率方法
CN111583115A (zh) * 2020-04-30 2020-08-25 西安交通大学 基于深度注意力网络的单幅图像超分辨率重建方法及系统
CN111768342A (zh) * 2020-09-03 2020-10-13 之江实验室 基于注意力机制和多级反馈监督的人脸超分辨方法
CN112507997A (zh) * 2021-02-08 2021-03-16 之江实验室 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080513A (zh) * 2019-10-24 2020-04-28 天津中科智能识别产业技术研究院有限公司 一种基于注意力机制的人脸图像超分辨率方法
CN111047515A (zh) * 2019-12-29 2020-04-21 兰州理工大学 一种基于注意力机制的空洞卷积神经网络图像超分辨率重建方法
CN111583115A (zh) * 2020-04-30 2020-08-25 西安交通大学 基于深度注意力网络的单幅图像超分辨率重建方法及系统
CN111768342A (zh) * 2020-09-03 2020-10-13 之江实验室 基于注意力机制和多级反馈监督的人脸超分辨方法
CN112507997A (zh) * 2021-02-08 2021-03-16 之江实验室 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHURONG PANG等: "Lightweight multi-scale aggregated residual attention networks for image super-resolution", 《INTELLIGENT PROCESSING OF MULTIMEDIA SIGNALS》 *
陈晓范等: "结合注意力机制的人脸超分辨率重建", 《西安电子科技大学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744164A (zh) * 2021-11-05 2021-12-03 深圳市安软慧视科技有限公司 一种快速夜间低照度图像增强方法、系统及相关设备
CN114239641A (zh) * 2021-11-16 2022-03-25 电子科技大学 一种联合注意力机制选择核卷积残差网络的故障诊断方法
CN114239641B (zh) * 2021-11-16 2023-04-07 电子科技大学 一种联合注意力机制选择核卷积残差网络的故障诊断方法
TWI783834B (zh) * 2021-12-22 2022-11-11 國立中正大學 超解析影像處理方法及其系統
CN114296629A (zh) * 2021-12-28 2022-04-08 五邑大学 一种信号采集方法和系统
WO2023197219A1 (en) * 2022-04-13 2023-10-19 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Cnn-based post-processing filter for video compression with multi-scale feature representation
CN114757832A (zh) * 2022-06-14 2022-07-15 之江实验室 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置
CN115713585A (zh) * 2023-01-05 2023-02-24 腾讯科技(深圳)有限公司 纹理图像重建方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113284051B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN113284051B (zh) 一种基于频率分解多注意力机制的人脸超分辨方法
CN112507997B (zh) 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统
Gurrola-Ramos et al. A residual dense u-net neural network for image denoising
CN109360156B (zh) 基于生成对抗网络的图像分块的单张图像去雨方法
CN112767251B (zh) 基于多尺度细节特征融合神经网络的图像超分辨率方法
Yu et al. A unified learning framework for single image super-resolution
Zhao et al. Invertible image decolorization
CN111105352A (zh) 超分辨率图像重构方法、系统、计算机设备及存储介质
CN114757832B (zh) 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置
Guo et al. Adaptive transform domain image super-resolution via orthogonally regularized deep networks
Min et al. Blind deblurring via a novel recursive deep CNN improved by wavelet transform
CN113592715B (zh) 一种面向小样本图像集的超分辨率图像重构方法
CN112163998A (zh) 一种匹配自然降质条件的单图像超分辨率分析方法
CN112446835B (zh) 图像恢复方法、图像恢复网络训练方法、装置和存储介质
CN115131203A (zh) Lr图像生成方法及基于不确定性的真实图像超分辨率方法
Liu et al. Research on super-resolution reconstruction of remote sensing images: A comprehensive review
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
CN116739899A (zh) 基于saugan网络的图像超分辨率重建方法
Liu et al. Residual-guided multiscale fusion network for bit-depth enhancement
Li et al. Model-informed Multi-stage Unsupervised Network for Hyperspectral Image Super-resolution
Wen et al. The power of complementary regularizers: Image recovery via transform learning and low-rank modeling
CN113096015A (zh) 基于渐进式感知和超轻量级网络的图像超分辨率重建方法
Lin et al. Generative adversarial image super‐resolution network for multiple degradations
CN116664435A (zh) 一种基于多尺度人脸解析图融入的人脸复原方法
Valli Bhasha et al. Image super resolution model enabled by wavelet lifting with optimized deep convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant