CN116563916A - 基于注意力融合的循环人脸超分辨率方法及系统 - Google Patents
基于注意力融合的循环人脸超分辨率方法及系统 Download PDFInfo
- Publication number
- CN116563916A CN116563916A CN202310488653.8A CN202310488653A CN116563916A CN 116563916 A CN116563916 A CN 116563916A CN 202310488653 A CN202310488653 A CN 202310488653A CN 116563916 A CN116563916 A CN 116563916A
- Authority
- CN
- China
- Prior art keywords
- attention
- image
- features
- face
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000004927 fusion Effects 0.000 title claims abstract description 50
- 125000004122 cyclic group Chemical group 0.000 title claims description 34
- 238000011084 recovery Methods 0.000 claims abstract description 43
- 238000012937 correction Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012805 post-processing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 210000001508 eye Anatomy 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 210000000887 face Anatomy 0.000 description 5
- 210000000214 mouth Anatomy 0.000 description 5
- 210000001331 nose Anatomy 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 210000000697 sensory organ Anatomy 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000004874 lower jaw Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及基于注意力融合的循环人脸超分辨率方法及系统,包括以下步骤:获取低分辨人脸图像,基于人脸恢复网络得到图像特征和超分辨图像,得到的超分辨图像基于地标修正网络得到注意力图像;得到的图像特征和前一步人脸恢复网络得到的注意力图像经融合后,通过反馈迭代,得到重建后的超分辨率人脸图像;图像特征和注意力图像融合的过程,具体为:基于图像特征提取通道注意力特征,得到的通道注意力特征和图像特征经逐元素相乘得到空间注意力特征,得到的空间注意力特征与图像特征经逐元素相乘得到最终特征,最终特征与注意力图像经逐元素相乘得到加权特征,加权特征用于输入到人脸恢复网络中进行人脸超分辨。
Description
技术领域
本发明涉及图像识别技术领域,具体为基于注意力融合的循环人脸超分辨率方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
超分辨率(SR)重建技术,是指将低分辨图像重建成具有良好视觉效果的高分辨率图像,能够应用于安防监控、医学诊断和遥感检测等多个领域。随着监控摄像头的普及,监控视频抓拍到的人脸图像往往存在模糊、遮挡、分辨率低等问题,导致人脸识别的准确率大幅度下降,不能在实际中很好地运用。
其中,由于摄像头距离与抓拍对象距离过远导致的拍摄到的人脸尺寸较小、图像质量较低的问题最为普遍,通过超分辨重建技术可以把低分辨率人脸图像重建为高分辨率人脸图像,可以大大提高低分辨人脸识别准确率,同时还能将其应用于老照片恢复等重要实际问题中。
超分辨率技术应用在人脸图像中时,分为传统的人脸超分辨率技术和基于深度学习的人脸超分辨率技术。传统的人脸超分辨技术可以分为三类:基于插值、重建和学习的超分辨率重建技术。而基于深度学习的人脸超分辨技术按照网络结构不同可以分为两类:基于卷积神经网络的人脸超分辨和基于对抗生成网络的人脸超分辨。
上述现有技术的重建质量较高,但是模型比较难训练。并且由低分辨图像估计的面部先验信息可能不准确,从而导致错误指导超分辨过程;同时还存在面部先验与人脸恢复这两个任务不能很好结合导致的不能充分利用先验信息的问题。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供基于注意力融合的循环人脸超分辨率方法及系统,包含人脸超分辨分支和地标估计分支,两个分支循环迭代,相互促进,并设计注意融合网络充分结合通道注意力和空间注意力,能够在图像上下文中自适应地选择有用的信息,提高低分辨率人脸图像重建的质量。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供基于注意力融合的循环人脸超分辨率方法,包括以下步骤:
获取低分辨人脸图像,基于人脸恢复网络得到图像特征和超分辨图像,得到的超分辨图像基于地标修正网络得到注意力图像;
得到的图像特征和前一步人脸恢复网络得到的注意力图像经融合后,通过反馈迭代,得到重建后的超分辨率人脸图像;
图像特征和注意力图像融合的过程,具体为:基于图像特征提取通道注意力特征,得到的通道注意力特征和图像特征经逐元素相乘得到空间注意力特征,得到的空间注意力特征与图像特征经逐元素相乘得到最终特征,最终特征与注意力图像经逐元素相乘得到加权特征,加权特征用于输入到人脸恢复网络中进行人脸超分辨。
人脸恢复网络包括特征提取网络、循环超分辨网络和上采样网络,特征提取网络用于提取低分辨人脸图像中的浅层特征,循环超分辨网络包括注意力融合模块和反馈模块,用于将提取的浅层特征和来自于地标修正网络的注意力图像融合并通过反馈模块循环迭代,经过设置的N步循环后提取到精细的特征,并与来自上采样模块提取到的高分辨图像相加后,输出超分辨人脸图像。
上采样模块基于亚像素卷积,以低分辨人脸图像为输入生成高分辨图像。
特征分支包括卷积层、批量归一化层和激活层,三者形成特征提取网络并与一个沙漏块组合,用于提取来自人脸恢复网络的图像特征;通道注意力分支包括并联的最大值池化层和平均值池化层,最大值池化层和平均值池化层分别连接对应的卷积层和激活层,两者的输出相加并与一个激活函数连接,用于根据图像特征提取通道注意力特征;空间注意力分支包括卷积层和另一个激活函数,将得到的通道注意力特征和图像特征经逐元素相乘得到空间注意力特征,得到的空间注意力特征与图像特征经逐元素相乘得到最终特征。
反馈模块获取上一次地标修正网络的输出和来自于注意力融合模块的最终特征,经卷积和反卷积层后进行上采样,再通过卷积层进行下采样,反复设定次数,并在上采样和下采样中加入跳跃连接和密集连接,将底层特征与高层特征融合。
地标修正网络包括预处理网络、递归沙漏网络和后处理网络,预处理网络用于对人脸图像进行对齐,递归沙漏网络用于人脸地标估计,后处理网络用于将地标图处理为注意力图像。
本发明的第二个方面提供实现上述方法所需的系统,包括:
信息采集模块,被配置为:获取低分辨人脸图像,基于人脸恢复网络得到图像特征和超分辨图像,得到的超分辨图像基于地标修正网络得到注意力图像;
图像输出模块,被配置为:得到的图像特征和前一步人脸恢复网络得到的注意力图像经融合后,通过反馈迭代,得到重建后的超分辨率人脸图像;
图像特征和注意力图像融合的过程,具体为:基于图像特征提取通道注意力特征,得到的通道注意力特征和图像特征经逐元素相乘得到空间注意力特征,得到的空间注意力特征与图像特征经逐元素相乘得到最终特征,最终特征与注意力图像经逐元素相乘得到加权特征,加权特征用于输入到人脸恢复网络中进行人脸超分辨。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于注意力融合的循环人脸超分辨率方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于注意力融合的循环人脸超分辨率方法中的步骤。
与现有技术相比,以上一个或多个技术方案存在以下有益效果:
1、利用人脸恢复网络和地标修正网络使得人脸恢复和地标定位同时递归执行,通过地标图中精确的注意力图像获得更好的超分辨率图像,通过输入更高质量的人脸获得更正确的地标图,引入的通道注意力特征关注人脸图像中的眼睛、鼻子、嘴巴等重要信息,空间注意力特征关注眼睛、鼻子、嘴巴等目标的位置信息以防止五官错位,两个过程相互促进,进一步提炼和增强人脸信息和选择有用的信息,解决了因为低分辨图像得到的先验信息不准确而造成的错误指导。
2、注意力融合模块的在特征提取分支中加入沙漏块,便于后续更好地提取注意力信息,沙漏块能够提取多尺度信息,使得提取的注意力信息也是多尺度的,能将深层信息和浅层信息融合进而专注于信息属性,能够使得到的超分辨率人脸图像细节更加清晰,五官恢复更加逼真,避免了错位现象。
3、反馈模块获取的上一次地标修正网络的输出相当于上一次反馈的输出,来自于注意力融合模块的最终特征相当于整个网络的输入,通过不断地进行回传迭代,直到到达设置的次数,不会增加额外的参数,并且多次回传相当于加深了网络,不断地改善生成的超分辨人脸图像。相较于现有技术,能够做到前面层从后面层中得到有用的信息。
4、地标修正网络得到的注意力图像输入到人脸恢复网络中,能够其指导生成高质量的超分辨图片。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1本发明一个或多个实施例提供的基于注意力融合的循环人脸超分辨率流程图;
图2本发明一个或多个实施例提供的循环人脸超分辨率网络结构示意图;
图3本发明一个或多个实施例提供的注意力融合模块结构示意图;
图4本发明一个或多个实施例提供的反馈模块结构示意图;
图5本发明一个或多个实施例提供的地标估计模块结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
卷积神经网络应用到超分辨领域时,会利用卷积神经网络提取低分辨图像的特征,通过激活函数进行非线性映射,将映射后的特征图进行重建,生成高分辨图像。针对人脸超分辨率领域,现有技术存在双通道卷积神经网络(BCCNN)、基于SRCNN网络的优化算法SRCNN-IBP算法、卷积神经网络和流形学习的级联模型(CDFH)、自适应聚合网络(ANN)、结合全局和局部人脸超分辨方法(GLN)、基于小波变化的人脸超分辨方法、多级联的卷积神经网络逐步放大低分辨率图像的人脸超分辨方法等方法,还将残差网络和亚像素卷积应用于人脸超分辨任务。
而基于生成对抗网络的人脸超分辨根据博弈的思想,网络由生成器和判别器组成。生成器生成高分辨图像,判别器会对其进行判断,使得生成器不断提高图像质量,直至达到平衡训练结束。此类方法重建质量较高,但是模型比较难训练。与此同时,面部先验信息对于指导人脸超分辨具有重要意义,但是由低分辨图像估计的面部先验可能不准确,从而导致错误指导超分辨过程;同时还存在面部先验与人脸恢复这两个任务不能很好结合导致的不能充分利用先验信息问题。
因此,以下实施例给出基于注意力融合的循环人脸超分辨率方法及系统,包含人脸超分辨分支和地标估计分支,两个分支循环迭代,相互促进,并设计注意融合网络充分结合通道注意力和空间注意力,能够在图像上下文中自适应地选择有用的信息,提高低分辨率人脸图像重建的质量。
实施例一:
基于注意力融合的循环人脸超分辨率方法,包括以下步骤:
获取低分辨人脸图像,基于人脸恢复网络得到图像特征和超分辨图像,得到的超分辨图像基于地标修正网络得到注意力图像;
得到的图像特征和前一步人脸恢复网络得到的注意力图像经融合后,通过反馈迭代,得到重建后的超分辨率人脸图像;
图像特征和注意力图像融合的过程,具体为:基于图像特征提取通道注意力特征,得到的通道注意力特征和图像特征经逐元素相乘得到空间注意力特征,得到的空间注意力特征与图像特征经逐元素相乘得到最终特征,最终特征与注意力图像经逐元素相乘得到加权特征,加权特征用于输入到人脸恢复网络中进行人脸超分辨。
具体的:
S1:获取低分辨人脸图像,预处理人脸数据集图像,具体如下:
在步骤S1中,人脸数据集中的图片均进行人脸检测操作,去除无法检测到的人脸;将检测到的人脸图像从图片中分割出来并调整人脸图像的大小,以便进行后续操作;本实施例使用OpenFace(现有的人脸识别框架)来检测68个地标作为地面实况。
在本实例实施中,使用CelebA数据集(开放的人脸属性数据集)来进行训练和测试,在每幅图像中裁剪正方形区域以去除背景并将它们调整到128×128像素,而不进行任何预对齐。再通过双三次插值将这些HR图像(指高分辨率图像)下采样为16×16的低分辨率人脸图像作为LR(指低分辨率图像)输入。并且将168854幅图像作为训练集,1000幅图像作为测试集。
S2:将预处理后的低分辨率人脸图像输入人脸恢复网络,其包括特征提取网络、循环超分辨网络和上采样网络,如图2所示,特征提取网络、循环超分辨网络和地标估计模块中的地标修正网络concatenate连接(即图2中的C),图2中的+表示add相加。
具体如下:
S2.1:特征提取网络由两个3×3的卷积构成,用来提取低分辨图像浅层特征,特征提取网络具有以下结构:
fs=SFEM(ILR)
其中,FSFEM(·)代表浅层特征提取网络,fs表示提取的浅层特征,ILR表示低分辨率图像。
S2.2:循环超分辨网络包括注意力融合模块(AFM,Attention Fusion Module)和反馈模块(FBM),用于将提取的浅层特征,和来自于地标修正网络的注意力信息结合并通过Feedback(反馈)循环迭代,经过设置的N步循环后提取到精细的特征。循环超分辨网络可以由如下公式表示:
其中,FSR表示循环超分辨网络,分别表示第n次和第n-1次循环超分辨网络的输出,fs表示提取的浅层特征,Ln-1表示第n-1次地标修正网络的输出,在S3中会详细介绍。
(1)注意力融合模块的结构示意图如图3所示,包括特征分支和注意力分支,将注意力机制与残差块结合,有助于提高网络性能。沙漏块(Hourglass Block)具有提取多尺度信息的能力,在特征提取分支中加入沙漏块,便于后续更好地提取注意力信息。沙漏块是现有的网络,已经证明,它能够提取多尺度信息,使得提取的注意力信息也是多尺度的,能将深层信息和浅层信息融合。
如图3所示,注意力融合模块包括串联的特征分支和注意力分支,注意力分支包括串行连接的通道注意力分支和空间注意力分支,该模块的总体结构是特征分支、通道注意力分支和空间注意力分支串联的;
其中,特征分支包括卷积层、批量归一化和激活层PReLU,三者形成特征提取网络并与一个沙漏块组合;通道注意力分支包括并联的最大值池化层和平均值池化层,最大值池化层和平均值池化层分别连接卷积层和激活层,将其分开后相加,并与一个激活函数连接;空间注意力分支包括卷积层和第二个激活函数。
通过特征分支提取浅层的图像特征,图像特征输入到通道注意力分支,通过最大值池化、平均值池化、卷积、相加和Sigmoid激活函数的操作得到通道注意力特征,通道注意力特征和图像特征做逐元素乘法得到空间注意力分支的输入,通过空间注意力分支得到空间注意力特征,与图像特征做逐元素乘法得到最终的特征。
通道注意力关注图片中有意义的信息,对于人脸图像更能关注到眼睛、鼻子、嘴巴等重要信息;空间注意力关注目标的位置信息,能够防止五官错位。进而能够从多尺度方面学习,专注于信息属性,能够使得到的超分辨率人脸图像细节更加清晰,五官恢复更加逼真,大大避免了错位现象。
通道注意力分支和空间注意力分支分别学习了通道的重要性和空间的重要性。通道重要性指的是不同的颜色通道对于图像特征的影响程度,空间重要性指的是不同的像素位置对于图像特征的影响程度。
通道注意力机制学习了不同通道之间的重要性,即在特征图中,不同通道所包含的信息对于特定任务的贡献是不同的。通过学习通道注意力权重,可以让网络更加关注重要的通道。
空间注意力机制学习了不同位置之间的重要性,即在特征图中,不同位置所包含的信息对于特定任务的贡献是不同的。通过学习空间注意力权重,可以让网络更加关注重要的位置。
注意力融合模块的特征分支与注意力分支的定义以及融合过程分别如下:
fj=feat(xj-1)
yj=σ(Fattc(fj))
vj=σ(Fatts(ft))
xj=j-1+t ′
其中,xj-1和xj分别表示第j次循环的注意融合网络的输入和输出,Ffeat表示特征分支,fj为特征分支的输出,Fattc、Fatts分别表示通道注意力分支和空间注意力分支,uj、vj分别表示通道注意力分支和空间注意力分支的输出,σ为Sigmoid激活函数,表示逐元素乘法,ft为图像特征和通道注意力特征融合的结果,ft ′为ft与空间注意力融合的结果。
(2)反馈模块的主要思想是上一次Feedback(反馈)的输出和整个网络的input(输入)一起重新输入到反馈模块(FBM),不断地进行回传迭代,直到到达设置的次数N。这样回传的方式不会增加额外的参数,并且多次回传相当于加深了网络,不断地refine(改善)生成的SR图像(超分辨率图像)。相较于现有技术的recurrent结构,Feedback能够做到前面层从后面层中得到有用的信息。加入了skip connection(跳跃连接),通过底层特征与高层特征的融合,网络能够保留更多高层特征图蕴含的高分辨率细节信息,从而提高了图像超分辨精度。
反馈模块的结构如图4所示,通过反复上采样再下采样操作,同时对所有上采样后的特征用dense connection(密集连接),也对下采样后的特征用dense connection,中间用1×1卷积来降低计算量。第t次反馈模块的输出为:
其中,fFBM表示反馈模块,分别表示第t-1次和第t次的输出,/>表示第t次的输入。
跳跃连接(skip connection)是一种神经网络中的连接方式,也称为残差连接(residual connection)。它是一种从输入层直接连接到输出层的跳跃式连接,可以让网络更加深层次地学习特征。Skip connection可以在卷积层和全连接层之间添加,可以让网络更加容易地学习到非线性特征,同时也可以缓解梯度消失问题,提高模型的训练效果。
密集连接(dense connection)是指神经网络中每一层的所有神经元都与下一层的所有神经元相连,可以帮助神经网络更好地捕捉输入数据之间的复杂关系。
反馈模块中信息的处理流程:获取上一次反馈的输出和整个网络的输入,先通过1×1卷积降低计算量,再送入反卷积层进行上采样,再通过卷积层进行下采样,如此反复,再之后的上采样和下采样中加入跳跃连接和密集连接,将底层特征与高层特征融合。
S2.3:上采样网络使用亚像素卷积,用于生成高分辨图像,这已经被证明是一种非常高效的上采样方法。上采样网络可以由如下公式表示:
其中,Fup表示上采样网络,表示第n次上采样网络的输出,/>表示第n次循环超分辨网络的输出。
S3:地标修正网络用于指导生成更精细的人脸图像,如图5所示,地标修正网络位于地标估计模块中,包括预处理网络、递归沙漏网络和后处理网络。预处理网络用于对人脸进行对齐操作,递归沙漏网络用于人脸地标估计,后处理网络用于将地标图提取为注意力图,最终用Ln表示此网络的第n次循环的输出。具体如下:
S3.1:将前一步人脸恢复网络得到的超分辨图像输入到地标修正网络,通过预处理网络进行人脸对齐操作,利用dlib库中的人脸特征点检测器获取脸部的特定区域对应的68个坐标点(x,y),并将其划分为左眼、右眼、鼻子、嘴巴、下颌五个面部区域。
S3.2:递归沙漏网络包括1×1卷积、沙漏块和Feedback(反馈)网络,1×1卷积用于减少地标图的计算量,沙漏块用于提取更多的特征,Feedback网络,以沙漏块的输出作为输入,反馈给1×1卷积,用于通过迭代不断生成更精准的面部地标图。
S3.3:递归沙漏网络得到的面部地标图再输入到后处理网络,经过Merge(融合)和Sigmoid激活函数得到分别属于左眼、右眼、鼻子、嘴巴、下颌五个部分的注意力图。
S4:地标修正网络得到的注意力图用于输入到人脸恢复网络指导生成高质量的超分辨图片。具体如下:
在注意力图的指导下,应用组卷积提取人脸特定特征,将这些特征与注意力图逐元素相乘得到加权特征,最后一起输入到人脸恢复网络中进行人脸超分辨的过程。考虑到原始LR图像信息的重要性,将其上采样后与超分辨之后的图像进行结合,最终超分辨人脸的定义如下:
其中,表示第n次循环后的SR图像,/>表示第n次循环超分辨网络的输出,UP表示上采样操作,ILR表示低分辨人脸图像。
在本实施例中,网络的训练过程为:
(1)本实施例基于CelebA数据集进行训练和测试,首先对CelebA的图像进行预处理,即在每幅图像中裁剪正方形区域以去除背景并调整到128×128像素,不进行任何预对齐。然后,通过双三次插值将HR图像下采样为16×16的LR输入。使用OpenFace来检测68个地标作为地面实况。使用168854幅图像作为训练集,1000幅图像作为测试集。
(2)训练人脸超分辨网络,将输入图像进行打包输入,一次输入8张图像,然后按照端到端的训练方式,进行训练得到输出超分辨人脸图像。反馈模块中将组数M设置为6,步数N设置为4,特征通道数设置为48。组数M和步数N均能根据实际需要修改。人脸恢复网络和地标修正网络进行交替训练,通过更精确的地标获得高质量的SR图像;同时,输入的人脸更清晰,地标估计能够更准确,这两个过程相互促进,直至达到设置的步数N获得最终的高质量超分辨人脸图像。
(3)计算目标损失函数:
对N个步骤的每个输出施加损失函数,在每一步中都加强了人脸恢复和地标估计这两个网络,并且通过相互监督来逐渐纠正不准确的因素。像素损失函数定义如下:
其中Lpixel和Lalign分别是人脸恢复和地标修正的损失函数,IHR和LHR分别是真实的HR图像和地标热图。
可选的,引入对抗性损失来生成逼真的人脸图像。对抗性损失如下:
生成器G的目标是尽量生成真实的图片去欺骗判别网络;而判别器D的目标是尽量把生成器生成的图片和真实的图片区分开。这样生成器和判别器就构成了一个动态的博弈过程。
可选的,引入感知损失来增强SR图像的感知质量,将感知损失定义为:
感知损失Lpercep通过减小SR图像和HR图像特征之间的欧几里得距离来提高重建人脸的质量。
总的目标函数定义为:
LG=Lpixel+αalignLalign+λ1LGAN+λ2Lpercep
当以PSNR(峰值信噪比)为导向时,设置αalign=0.1,λ1=λ2=0。
当以人脸视觉效果为导向时,设置αalign=0.1,λ1=0.005,λ2=0.1。
本实施例中使用Adam优化器来训练模型,设置为β1=0.9,β2=0.999,ε=10-8;学习率初始设置为10-4,在第1×104,2×104,4×104,8×104步时学习率减半;本实施例基于PyTorch(开源的Python机器学习库)实现,在NVIDIA GeForce RTX 3090上进行了训练。
在测试阶段,将测试集中的图像输入到网络模型中,输出超分辨率图像后保存,将真实高清图像和重建后的超分辨率图像进行计算峰值信噪比(PSNR)和图像结构相似度(SSIM)。
上述方法利用人脸恢复网络和地标修正网络使得人脸恢复和地标定位同时递归执行。通过精确的地标图获得更好的SR图像,通过输入更高质量的人脸获得更正确的地标图。这两个过程相互促进,通过足够的步骤获得准确的SR结果和地标热图,解决了因为低分辨图像得到的先验信息不准确而造成的错误指导。此外,引入了通道注意力和空间注意力,进一步提炼和增强人脸信息和选择有用的信息,使得获得更好的超分辨人脸图像。
实施例二:
实现上述方法的系统,包括:
信息采集模块,被配置为:获取低分辨人脸图像,基于人脸恢复网络得到图像特征和超分辨图像,得到的超分辨图像基于地标修正网络得到注意力图像;
图像输出模块,被配置为:得到的图像特征和前一步人脸恢复网络得到的注意力图像经融合后,通过反馈迭代,得到重建后的超分辨率人脸图像;
图像特征和注意力图像融合的过程,具体为:基于图像特征提取通道注意力特征,得到的通道注意力特征和图像特征经逐元素相乘得到空间注意力特征,得到的空间注意力特征与图像特征经逐元素相乘得到最终特征,最终特征与注意力图像经逐元素相乘得到加权特征,加权特征用于输入到人脸恢复网络中进行人脸超分辨。
利用人脸恢复网络和地标修正网络使得人脸恢复和地标定位同时递归执行。通过精确的地标图获得更好的SR图像,通过输入更高质量的人脸获得更正确的地标图。这两个过程相互促进,通过足够的步骤获得准确的SR结果和地标热图,解决了因为低分辨图像得到的先验信息不准确而造成的错误指导。此外,引入了通道注意力和空间注意力,进一步提炼和增强人脸信息和选择有用的信息,使得获得更好的超分辨人脸图像。
实施例三:
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于注意力融合的循环人脸超分辨率方法中的步骤。
实施例四:
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于注意力融合的循环人脸超分辨率方法中的步骤。
以上实施例二至四中涉及的各步骤或网络与实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于注意力融合的循环人脸超分辨率方法,其特征在于,包括以下步骤:
获取低分辨人脸图像,基于人脸恢复网络得到图像特征和超分辨图像,得到的超分辨图像基于地标修正网络得到注意力图像;
得到的图像特征和前一步人脸恢复网络得到的注意力图像经融合后,通过反馈迭代,得到重建后的超分辨率人脸图像;
其中,图像特征和注意力图像融合的过程,具体为:基于图像特征提取通道注意力特征,得到的通道注意力特征和图像特征经逐元素相乘得到空间注意力特征,得到的空间注意力特征与图像特征经逐元素相乘得到最终特征,最终特征与注意力图像经逐元素相乘得到加权特征,加权特征用于输入到人脸恢复网络中进行人脸超分辨。
2.如权利要求1所述的基于注意力融合的循环人脸超分辨率方法,其特征在于,所述人脸恢复网络包括特征提取网络、循环超分辨网络和上采样网络,特征提取网络用于提取低分辨人脸图像中的浅层特征,循环超分辨网络包括注意力融合模块和反馈模块,用于将提取的浅层特征和来自于地标修正网络的注意力图像融合并通过反馈模块循环迭代,经过设置的N步循环后提取到精细特征,与来自上采样模块提取到的高分辨图像相加后,输出超分辨人脸图像。
3.如权利要求2所述的基于注意力融合的循环人脸超分辨率方法,其特征在于,所述上采样模块基于亚像素卷积,以低分辨人脸图像为输入生成高分辨图像。
4.如权利要求1所述的基于注意力融合的循环人脸超分辨率方法,其特征在于,图像特征和注意力图像通过注意力融合模块实现融合,注意力融合模块包括串联的特征分支、通道注意力分支和空间注意力分支。
5.如权利要求4所述的基于注意力融合的循环人脸超分辨率方法,其特征在于,所述特征分支包括卷积层、批量归一化层和激活层,三者形成特征提取网络并与一个沙漏块组合,用于提取来自人脸恢复网络的图像特征;
所述通道注意力分支包括并联的最大值池化层和平均值池化层,最大值池化层和平均值池化层分别连接对应的卷积层和激活层,两者的输出相加并与一个激活函数连接,用于根据图像特征提取通道注意力特征;
所述空间注意力分支包括卷积层和另一个激活函数,将得到的通道注意力特征和图像特征经逐元素相乘得到空间注意力特征,得到的空间注意力特征与图像特征经逐元素相乘得到最终特征。
6.如权利要求2所述的基于注意力融合的循环人脸超分辨率方法,其特征在于,反馈模块获取上一次地标修正网络的输出和来自于注意力融合模块的最终特征,经卷积和反卷积层后进行上采样,再通过卷积层进行下采样,反复设定次数,上采样和下采样中具有跳跃连接和密集连接。
7.如权利要求1所述的基于注意力融合的循环人脸超分辨率方法,其特征在于,所述地标修正网络包括预处理网络、递归沙漏网络和后处理网络,预处理网络用于对人脸图像进行对齐,递归沙漏网络用于人脸地标估计,后处理网络用于将地标图像处理为注意力图像。
8.基于注意力融合的循环人脸超分辨率系统,其特征在于,包括:
信息采集模块,被配置为:获取低分辨人脸图像,基于人脸恢复网络得到图像特征和超分辨图像,得到的超分辨图像基于地标修正网络得到注意力图像;
图像输出模块,被配置为:得到的图像特征和前一步人脸恢复网络得到的注意力图像经融合后,通过反馈迭代,得到重建后的超分辨率人脸图像;
图像特征和注意力图像融合的过程,具体为:基于图像特征提取通道注意力特征,得到的通道注意力特征和图像特征经逐元素相乘得到空间注意力特征,得到的空间注意力特征与图像特征经逐元素相乘得到最终特征,最终特征与注意力图像经逐元素相乘得到加权特征,加权特征用于输入到人脸恢复网络中进行人脸超分辨。
9.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述权利要求1-7任一项所述的基于注意力融合的循环人脸超分辨率方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于注意力融合的循环人脸超分辨率方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310488653.8A CN116563916A (zh) | 2023-04-25 | 2023-04-25 | 基于注意力融合的循环人脸超分辨率方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310488653.8A CN116563916A (zh) | 2023-04-25 | 2023-04-25 | 基于注意力融合的循环人脸超分辨率方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563916A true CN116563916A (zh) | 2023-08-08 |
Family
ID=87487302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310488653.8A Pending CN116563916A (zh) | 2023-04-25 | 2023-04-25 | 基于注意力融合的循环人脸超分辨率方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563916A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437684A (zh) * | 2023-12-14 | 2024-01-23 | 深圳须弥云图空间科技有限公司 | 一种基于修正注意力的图像识别方法和装置 |
CN117912085A (zh) * | 2024-03-19 | 2024-04-19 | 深圳市宗匠科技有限公司 | 模型训练方法、人脸关键点定位方法、装置、设备及介质 |
-
2023
- 2023-04-25 CN CN202310488653.8A patent/CN116563916A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437684A (zh) * | 2023-12-14 | 2024-01-23 | 深圳须弥云图空间科技有限公司 | 一种基于修正注意力的图像识别方法和装置 |
CN117437684B (zh) * | 2023-12-14 | 2024-04-16 | 深圳须弥云图空间科技有限公司 | 一种基于修正注意力的图像识别方法和装置 |
CN117912085A (zh) * | 2024-03-19 | 2024-04-19 | 深圳市宗匠科技有限公司 | 模型训练方法、人脸关键点定位方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lan et al. | MADNet: A fast and lightweight network for single-image super resolution | |
Yan et al. | Attention-guided network for ghost-free high dynamic range imaging | |
CN109815919B (zh) | 一种人群计数方法、网络、系统和电子设备 | |
CN116563916A (zh) | 基于注意力融合的循环人脸超分辨率方法及系统 | |
Ruan et al. | Aifnet: All-in-focus image restoration network using a light field-based dataset | |
CN111932550A (zh) | 一种基于深度学习的3d心室核磁共振视频分割系统 | |
CN103020898B (zh) | 序列虹膜图像超分辨率重建方法 | |
US20220067886A1 (en) | Face-aware offset calculation module and method for facial frame interpolation and enhancement and a face video deblurring system and method using the same | |
Zhou et al. | High dynamic range imaging with context-aware transformer | |
Wang et al. | Dclnet: Dual closed-loop networks for face super-resolution | |
Aakerberg et al. | Semantic segmentation guided real-world super-resolution | |
Krishnan et al. | SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference | |
Yan et al. | Towards accurate HDR imaging with learning generator constraints | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
Puttagunta et al. | Swinir transformer applied for medical image super-resolution | |
Wang et al. | A deep learning algorithm for fully automatic brain tumor segmentation | |
Liu et al. | Component semantic prior guided generative adversarial network for face super-resolution | |
Li et al. | Model-informed Multi-stage Unsupervised Network for Hyperspectral Image Super-resolution | |
Tang et al. | Structure-embedded ghosting artifact suppression network for high dynamic range image reconstruction | |
Rashid et al. | Single MR image super-resolution using generative adversarial network | |
CN113421186A (zh) | 使用生成对抗网络的非监督视频超分辨率的设备和方法 | |
Fang et al. | Self-enhanced convolutional network for facial video hallucination | |
Han et al. | MPDNet: An underwater image deblurring framework with stepwise feature refinement module | |
Tian et al. | Retinal fundus image superresolution generated by optical coherence tomography based on a realistic mixed attention GAN | |
CN115294182A (zh) | 一种基于双交叉注意力机制的高精度立体匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |