CN116563167A - 基于自适应纹理和频域感知的人脸图像重建方法、系统、装置及介质 - Google Patents

基于自适应纹理和频域感知的人脸图像重建方法、系统、装置及介质 Download PDF

Info

Publication number
CN116563167A
CN116563167A CN202310612916.1A CN202310612916A CN116563167A CN 116563167 A CN116563167 A CN 116563167A CN 202310612916 A CN202310612916 A CN 202310612916A CN 116563167 A CN116563167 A CN 116563167A
Authority
CN
China
Prior art keywords
self
frequency domain
face image
texture
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310612916.1A
Other languages
English (en)
Inventor
史金钢
黎冠新
王嘉寅
鲁磊
王萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202310612916.1A priority Critical patent/CN116563167A/zh
Publication of CN116563167A publication Critical patent/CN116563167A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自适应纹理和频域感知的人脸图像重建方法、系统、装置及介质,通过自适应纹理感知模块对粗糙特征进行自注意力计算,然后利用该注意力矩阵搜索精细特征中相关性强的部分,再进行精细的自注意力计算。并采用多维感知模块增强特征在跨空间和跨通道的表达能力。同时使用基于小波变换的多频融合模块,融合来自编码器的中低频特征和来自解码器的高频特征。自适应纹理感知模块使得模型可以更精细的恢复图像中的复杂区域,多维感知模块增强了特征中重要的通道信息,而多频融合模块消除了原始特征中的高频噪声,同时将中低频的有效特征与恢复的高频细节进行融合,从而提升了模型对人脸图像的恢复能力和泛化能力。

Description

基于自适应纹理和频域感知的人脸图像重建方法、系统、装置 及介质
技术领域
本发明属于人工智能和深度学习技术领域,涉及一种基于自适应纹理和频域感知的人脸图像重建方法、系统、装置及介质。
背景技术
深度卷积神经网络是一种用于图像处理、计算机视觉和模式识别的神经网络。它是一种前馈神经网络,使用卷积层和池化层等技术来提取图像的特征,从而实现图像分类、物体检测、人脸识别等任务。人脸图像超分辨率重建是一种将低分辨率图像转换为高分辨率图像的图像处理技术。在人脸识别、视频监控等应用中,需要将低分辨率图像转换为高分辨率图像以获得更好的图像质量和更高的精度。传统的人脸图像超分辨率重建方法主要包括插值法和基于边缘的方法。插值法是通过对低分辨率图像进行像素插值来得到高分辨率图像,但该方法会导致图像模糊和失真。基于边缘的方法是基于人脸图像边缘的结构信息,对低分辨率图像进行重建,但在一些复杂的情况下,该方法也存在一些限制。
近年来,基于深度学习的人脸图像超分辨率重建方法逐渐成为主流。其中,使用深度卷积神经网络的方法被广泛应用。深度卷积神经网络可以从低分辨率图像中提取高层次的特征,通过堆叠多个不同功能的卷积块提取原始图像中浅层到深层的特征,并根据这些提取的特征实现低分辨率到高分辨率的图像转换。但是在一些复杂情况下,卷积神经网络受限于卷积核的大小,无法很好的对全局特征建立依赖,使得网络无法准确地识别和重建图像的细节和纹理,导致图像失真和模糊。
由于Transformer模型在自然语言处理领域中的有效性,最近也被应用到计算机视觉领域。相较于传统的深度卷积神经网络,基于Transformer的模型具有长程依赖建模能力、全局感知能力、可扩展性、独立于空间位置等优点,在多个计算机视觉任务中取得了更好的性能,为计算机视觉领域的研究和应用带来了新的可能性。Transformer模型把图像划分为相同大小的块,然后通过一种自注意力机制来建立全局依赖关系,但是这导致了模型计算量大的问题。Swin Transformer模型提出了一种在局部窗口中计算自注意力的方法,通过滑动窗口的方式实现相邻信息的交互,这方法在多个计算机视觉任务中取得了优秀的效果。然而,在处理人脸超分辨率重建任务的时候,Swin Transformer模型无法很好的对人脸图像中的非局部依赖进行建模,同时固定的矩形窗口使得窗口中的纹理可能不具有关联性,这导致对重建结果产生伪影,影响人脸中复杂区域的恢复效果。
发明内容
本发明的目的在于解决现有技术中Transformer模型计算量大,SwinTransformer模型无法很好的对人脸图像中的非局部依赖进行建模,同时固定的矩形窗口使得窗口中的纹理可能不具有关联性的问题,提供一种基于自适应纹理和频域感知的人脸图像重建方法、系统、装置及介质。
为达到上述目的,本发明采用以下技术方案予以实现:
基于自适应纹理和频域感知的人脸图像重建方法,包括:
获取并把经过裁剪后待重建的人脸图像数据集划分为训练集和测试集;
构建自适应纹理感知模块,对人脸中复杂纹理区域进行精细的特征恢复;
基于交替的深度卷积和通道注意力构成的多维感知模块,从跨空间和跨通道的维度对特征进行强化,得到具有多维感知的特征;
设计多频融合模块,基于小波变换从编码器阶段提取特征中的中低频信息,并利用小波逆变换融合中低频信息和解码器阶段的高频信息,获取融合后具有全频域信息的输出特征;
基于U型结构堆叠自适应纹理感知模块、多维感知模块和多频融合模块,得到基于自适应纹理和频域感知的人脸图像超分辨率重建模型;
基于训练集对自适应纹理和频域感知人脸超分辨率重建模型进行训练,获取最优化的模型;
基于最优化的模型对测试集进行人脸图像超分辨率重建,获取恢复后的高分辨率人脸图像。
本发明的进一步改进在于:
进一步的,训练集和测试集的划分比例为随机划分或以预设的比例进行划分;预设的比例为人为设定。
进一步的,构建自适应纹理感知模块,对人脸中复杂纹理区域进行精细的特征恢复,具体为:
从粗糙纹理中搜索具有复杂纹理的区域,并对复杂纹理的区域进行精细的自注意力计算,实现具有纹理感知的恢复效果;自适应纹理感知模块包括粗糙特征的自注意力分支和精细特征的自注意力分支;粗糙特征的自注意力分支计算公式为:
QC,KC,VC=Linear(Down(Finput))
TSM=QcKC T
其中,Finput代表输入特征图,Down和Linear分别为下采样和线性投影操作,Softmax为激活函数,TSM为纹理自注意力搜索图;之后在搜索图中取注意力值最大的前k个区域,映射到精细特征图中,搜索出对应区域的精细特征计算多头自注意力:
Ffine=FindByRegion(Finput,Topk(Sum(TSM),k))
Attentionfine=MHSA(Ffine)
其中,Ffine表示搜索出的精细特征,Sum表示沿着倒数第二维累加,Topk表示在TSM中最大的k个值,FindByRegion为根据最大值的坐标搜索对应区域;k代表搜索的区域数量,
H和W分别为输入特征Finput的高和宽;MHSA代表多头自注意力计算;
合并两个分支的计算结果,具体为:
Foutput=Up(Attentioncoarse)+Attentionfine
其中,Up代表上采样操作。
进一步的,基于交替的深度卷积和通道注意力构成的多维感知模块,从跨空间和跨通道的维度对特征进行强化,得到具有多维感知的特征,具体为:多维感知模块分别从空间的维度和通道的维度对重要信息进行聚集;多维感知模块由交替的深度卷积和通道注意力两个分支构成,其中深度卷积对空间中的特征进行聚集和融合,通道注意力通过门控机制将通道信息评估各个通道的权重,并把对应的权重乘以各个通道特征本身;交替的深度卷积和通道注意力将重要信息在多个维度传入和传出。
进一步的,利用小波变换从编码器阶段提取特征中的中低频信息,并利用小波逆变换融合中低频信息和解码器阶段的高频信息,得到具有丰富频域信息的特征,包括:
所述多频融合模块对编码器的各个阶段的输出特征进行小波变换,提取特征对应的中低频信息;基于中低频信息和解码器各个阶段的输出特征进行小波逆变换,得到融合后的具有全频域信息的输出特征;具体过程表达式为:
LLi,LHi,HLi=Wavelet(Fi)
其中,Fi分别表示第i个阶段编码器的输出特征,解码器的输出特征和多频融合模块的输出特征,Wavelet和InverseWavelet分别表示小波变换和小波逆变换,LLi,LHi和HLi分别表示从特征Fi中提取出的三种中低频特征,Conv表示1×1卷积操作。
进一步的,基于U型结构堆叠自适应纹理感知模块、多维感知模块和多频融合模块,得到基于自适应纹理和频域感知的人脸图像超分辨率重建模型,具体为:编码器和解码器分别由4个自适应纹理感知模块堆叠组成,在编码器和解码器之间由1个带残差的自适应纹理感知模块进行连接,通过多频融合模块连接同一层级的编码器和解码器的输出特征。
进一步的,基于训练集对自适应纹理和频域感知人脸超分辨率重建模型进行训练,获取最优化的模型,具体为:在训练的过程中判断自适应纹理和频域感知人脸超分辨率重建模型的损失函数是否低于所设定的阈值,或自适应纹理和频域感知人脸超分辨率重建模型的循环次数是否达到最大值,若损失函数小于所设定的阈值或循环次数达到最大值,则停止训练,获取最优化的模型。
基于自适应纹理和频域感知的人脸图像重建系统,包括:
划分模块,所述划分模块获取并把经过裁剪后待重建的人脸图像数据集划分为训练集和测试集;
第一构建模块,所述第一构建模块对人脸中复杂纹理区域进行精细的特征恢复;
多维感知模块,所述多维感知模块从跨空间和跨通道的维度对特征进行强化,得到具有多维感知的特征;
多频融合模块,所述多频融合模块基于小波变换从编码器阶段提取特征中的中低频信息,并利用小波逆变换融合中低频信息和解码器阶段的高频信息,获取融合后具有全频域信息的输出特征;
第二构建模块,所述第二构建模块基于U型结构堆叠自适应纹理感知模块、多维感知模块和多频融合模块,得到基于自适应纹理和频域感知的人脸图像超分辨率重建模型;
训练模块,所述训练模块基于训练集对自适应纹理和频域感知人脸超分辨率重建模型进行训练,获取最优化的模型;
重建模块,所述重建模块基于最优化的模型对测试集进行人脸图像超分辨率重建,获取恢复后的高分辨率人脸图像。
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明通过自适应纹理感知模块,可以由粗到细地对图像复杂区域建模,使这些区域恢复更精细地纹理,增强了模型对复杂纹理的处理能力。并且通过多维感知模块,让特征从多个维度进行交互,增强了特征的全局感知能力。此外,该方法还能够聚集重要信息,增强模型对特征的利用。通过多频融合模块,有效的消除了原始特征中的高频噪声,并在解码器阶段恢复有效的高频信息,增强了特征在全频域的有效信息,提升了模型的泛化能力。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的基于自适应纹理和频域感知的人脸图像重建方法的一种流程示意图;
图2是本发明的基于自适应纹理和频域感知的人脸图像重建方法的另一种流程示意图;
图3是本发明实施例的自适应纹理感知模块结构示意图;
图4是本发明实施例的多维感知模块结构示意图;
图5为本发明实施例的多频融合模块的结构示意图;
图6是为本发明实施例提供自适应纹理和频域感知人脸图像超分辨率重建模型的结构图;
图7是本发明实施例的LR、RCAN、DIC、SwinIR、SRDD、HGSRCNN、ATFDP Net和HR重建的人脸图像对比图;
图8是本发明实施例的基于自适应纹理和频域感知的人脸图像重建系统结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明公布了一种基于自适应纹理和频域感知的人脸图像重建方法,包括:
S101,获取并把经过裁剪后待重建的人脸图像数据集划分为训练集和测试集。
训练集和测试集的划分比例为随机划分或以预设的比例进行划分;预设的比例为人为设定
S102,构建自适应纹理感知模块,对人脸中复杂纹理区域进行精细的特征恢复;
从粗糙纹理中搜索具有复杂纹理的区域,并对复杂纹理的区域进行精细的自注意力计算,实现具有纹理感知的恢复效果;自适应纹理感知模块包括粗糙特征的自注意力分支和精细特征的自注意力分支;粗糙特征的自注意力分支计算公式为:
QC,KC,VC=Linear(Down(Finput))
TSM=QCKC T
其中,Finput代表输入特征图,Down和Linear分别为下采样和线性投影操作,Softmax为激活函数,TSM为纹理自注意力搜索图;之后在搜索图中取注意力值最大的前k个区域,映射到精细特征图中,搜索出对应区域的精细特征计算多头自注意力:
Ffine=FindByRegion(Finput,Topk(Sum(TSM),k))
Attentionfine=MHSA(Ffine)
其中,Ffine表示搜索出的精细特征,Sum表示沿着倒数第二维累加,Topk表示在TSM中最大的k个值,FindByRegion为根据最大值的坐标搜索对应区域;k代表搜索的区域数量,
H和W分别为输入特征Finput的高和宽;MHSA代表多头自注意力计算;
合并两个分支的计算结果,具体为:
Foutput=Up(Attentioncoarse)+Attentionfine
其中,Up代表上采样操作。
S103,基于交替的深度卷积和通道注意力构成的多维感知模块,从跨空间和跨通道的维度对特征进行强化,得到具有多维感知的特征。
多维感知模块分别从空间的维度和通道的维度对重要信息进行聚集;多维感知模块由交替的深度卷积和通道注意力两个分支构成,其中深度卷积对空间中的特征进行聚集和融合,通道注意力通过门控机制将通道信息评估各个通道的权重,并把对应的权重乘以各个通道特征本身;交替的深度卷积和通道注意力将重要信息在多个维度传入和传出。
S104,设计多频融合模块,基于小波变换从编码器阶段提取特征中的中低频信息,并利用小波逆变换融合中低频信息和解码器阶段的高频信息,获取融合后具有全频域信息的输出特征。
所述多频融合模块对编码器的各个阶段的输出特征进行小波变换,提取特征对应的中低频信息;基于中低频信息和解码器各个阶段的输出特征进行小波逆变换,得到融合后的具有全频域信息的输出特征;具体过程表达式为:
LLi,LHi,HLi=Wavelet(Fi)
其中,Fi分别表示第i个阶段编码器的输出特征,解码器的输出特征和多频融合模块的输出特征,Wavelet和InverseWavelet分别表示小波变换和小波逆变换,LLi,LHi和HLi分别表示从特征Fi中提取出的三种中低频特征,Conv表示1×1卷积操作。
S105,基于U型结构堆叠自适应纹理感知模块、多维感知模块和多频融合模块,得到基于自适应纹理和频域感知的人脸图像超分辨率重建模型。
编码器和解码器分别由4个自适应纹理感知模块堆叠组成,在编码器和解码器之间由1个带残差的自适应纹理感知模块进行连接,通过多频融合模块连接同一层级的编码器和解码器的输出特征。
S106,基于训练集对自适应纹理和频域感知人脸超分辨率重建模型进行训练,获取最优化的模型。
在训练的过程中判断自适应纹理和频域感知人脸超分辨率重建模型的损失函数是否低于所设定的阈值,或自适应纹理和频域感知人脸超分辨率重建模型的循环次数是否达到最大值,若损失函数小于所设定的阈值或循环次数达到最大值,则停止训练,获取最优化的模型。
S107,基于最优化的模型对测试集进行人脸图像超分辨率重建,获取恢复后的高分辨率人脸图像。
实施例:
下面结合附图,对本申请的一些实施方式作详细说明:
参见图2,本发明实施例提供的一种基于自适应纹理和频域感知的人脸图像重建方法流程图,包括:
步骤S1:获取并把经过裁剪后的人脸图像数据集划分为训练集和测试集;训练集用于模型的训练,测试集用于对完成训练的模型进行测试。上述的数据集划分可以是随机划分,也可以是按照预设的比例进行划分,本实施例不做限定。
步骤S2:采用所述的自适应纹理感知模块,用于对人脸中复杂区域进行精细的特征恢复,通过计算出粗糙注意力,对其进行区域搜索的方法,自适应找到纹理复杂的区域,并对这些区域进一步计算精细注意力;
上述得到的纹理恢复特征表示可以是:将第i个自适应纹理感知模块的输入特征记为Xi,用ATPMi(·)表示自适应纹理和频域感知人脸超分辨率重建模型第i个自适应纹理感知模块。则自适应纹理和频域感知人脸超分辨率重建模型的第i个自适应纹理感知模块输出的特征为:Yi=ATPMi(Xi)。
其中,自适应纹理感知模块的过程可表示为:
QC,KC,VC=Linear(Down(Xi))
TSM=QCKC T
其中Xi代表输入特征图,Down和Linear分别为下采样和线性投影操作,Softmax为激活函数,TSM为纹理自注意力搜索图。之后在搜索图中取注意力值最大的前k个区域,映射到精细特征图中,搜索出对应区域的精细特征计算多头自注意力:
Ffine=FindByRegion(Fibput,Topk(Sum(TSM),k))
Attentionfine=MHSA(Ffine)
其中Ffine表示搜索出的精细特征,Sum表示沿着倒数第二维累加,Topk表示取出在TSM中最大的k个值,FindByRegion为根据最大值的坐标搜索对应区域。k代表搜索的区域数量,这里取H和W分别为输入特征Finput的高和宽。MHSA代表多头自注意力计算。最后我们合并两个分支的计算结果,公式为Yi=Up(Attentioncoarse)+Attentionfine,其中Up代表上采样操作。
图3为本发明实施例提供的自适应纹理感知模块,可以由粗到细地对图像复杂区域建模,使这些区域恢复更精细地纹理,增强了模型对复杂纹理的处理能力。
步骤S3:采用多维感知模块,可以对有用信息进行聚合,该模块可根据跨空间和跨通道的多个维度进行操作。具体实现包括交替的通道注意力和深度卷积,这可以提取和增强输入特征的多维度表示,从而获得具有全局感知的特征表述;上述得到的全局感知的特征表示可以是:将第i个阶段的多维感知模块输入特征记为Xi,用MDPMi(·)表示第i个多维感知模块。则第i个多维感知模块输出的特征为:Yi=MDPMi(Xi)。
如图4所示,多维感知模块通过两个信息提取分支和一个残差连接构成,信息提取分支包括交替的深度卷积通道注意力模块,分别代表从空间和通道维度对信息进行交互处理,让特征从多个维度进行融合,增强了特征的全局感知能力。此外,该方法还能够聚集重要信息,增强模型对特征的利用。
步骤S4:采用所述多频融合模块,参见图5,把用小波变换从编码器阶段提取的中低频信息和解码器阶段的高频信息进行融合,得到具有丰富频域信息的特征,上述融合过程为:
LLi,LHi,HLi=Wavelet(Fi),
其中Fi分别表示第i个阶段编码器的输出特征,解码器的输出特征和多频融合模块的输出特征,Wavelet和InverseWavelet分别表示小波变换和小波逆变换,LLi,LHi和HLi分别表示从特征Fi中提取出的三种中低频特征,Conv表示1×1卷积操作。
利用多频融合模块,在编码器阶段高频噪声被有效地消除了,而在解码器阶段,高频信息得到了有效的恢复,这样可以增强原始特征在全频域上的有效信息,从而提高了模型的泛化能力。
步骤S5:将多个自适应纹理感知模块、多维感知模块、多频融合模块按照U型结构进行堆叠,图6为本发明实施例提供自适应纹理和频域感知人脸图像超分辨率重建模型的结构图。网络采用一个3×3卷积和一个LeakyReLU激活函数作为浅层特征提取,然后浅层特征输入编码器。编码器阶段每个模块由一个多维感知模块、一个自适应纹理感知模块、一个小波变换和一个下采样操作构成,小波变换后的中低频信息直接输入到解码器对应阶段的多频融合模块中。每经过一个编码器阶段,特征图的高宽分别减少到原来的一半,而通道数扩大为原来的2倍。从编码器转变到解码器的过程中,每个模块仅包含多维感知模块和自适应纹理感知模块,用于深层特征的提取和处理。而在解码器阶段,每个模块由一个多频融合模块、一个多维感知模块和一个自适应纹理感知模块构成。其中多频融合模块会把来自编码器阶段的中低频信息与当前高频信息融合,并使得特征图分辨率扩大一倍,通道数减少一半。最后采用一个3×3卷积和一个LeakyReLU激活函数恢复特征,并加上原始输入图像构成残差连接,得到输出的高分辨率人脸图像。
步骤S6:按照基于Adam优化器的梯度下降方法,采用所述人脸图像训练集来训练步骤S5中的自适应纹理和频域感知人脸图像超分辨率重建模型。
步骤S7:采用训练完成的自适应纹理和频域感知人脸图像超分辨率重建模型,对所述人脸图像测试集进行超分辨率重建,得到重建后的高分辨率人脸图像。
本发明通过自适应纹理感知模块,可以由粗到细地对图像复杂区域建模,使这些区域恢复更精细地纹理,增强了模型对复杂纹理的处理能力;通过多维感知模块,让特征从多个维度进行交互,增强了特征的全局感知能力。此外,该模块还能够聚集重要信息,增强模型对特征的利用;通过多频融合模块,有效的消除了原始特征中的高频噪声,并在解码器阶段恢复有效的高频信息,增强了特征在全频域的有效信息,提升了模型的泛化能力。
本发明在两个主流的人脸图像数据集上,Helen数据集和CelebA数据集,进行了测试,实验结果表明本发明显著提高了模型的图像重建能力。
在Helen和CelebA两个人脸数据集上的PNSR,SSIM和LPIPS数值比较表所示。本发明在Helen和CelebA两个人脸数据集上与其他基准方法进行PSNR,SSIM和LPIPS数值的比较。比较的基准方法包括Bicubic,RCAN,DIC,SwinIR,SRDD和HGSRCNN。由表1的定量结果可以看出,采用本发明的自适应纹理和频域感知人脸图超分辨率重建模型ATFDP Net的三项指标均明显高于其他方法。
表1:在Helen和CelebA两个人脸数据集上的PNSR,SSIM和LPIPS数值比较表所示
图7展示了上述基准方法和本发明提出的基于自适应纹理和频域感知模型ATFDPNet所重建的部分人脸图像(其中LR,HR表示输入低分辨率图像和对应的高分辨率图像)。由图7可以看出,采用本发明提出的基于自适应纹理和频域感知人脸图像超分辨率重建模型ATFDP Net所重建的高分辨率人脸图像,在人脸的复杂区域可以恢复更准确的细节,如鼻子和眼睛。
参见图8,本发明公布了一种基于自适应纹理和频域感知的人脸图像重建系统,包括:
划分模块,所述划分模块获取并把经过裁剪后待重建的人脸图像数据集划分为训练集和测试集;
第一构建模块,所述第一构建模块对人脸中复杂纹理区域进行精细的特征恢复;
多维感知模块,所述多维感知模块从跨空间和跨通道的维度对特征进行强化,得到具有多维感知的特征;
多频融合模块,所述多频融合模块基于小波变换从编码器阶段提取特征中的中低频信息,并利用小波逆变换融合中低频信息和解码器阶段的高频信息,获取融合后具有全频域信息的输出特征;
第二构建模块,所述第二构建模块基于U型结构堆叠自适应纹理感知模块、多维感知模块和多频融合模块,得到基于自适应纹理和频域感知的人脸图像超分辨率重建模型;
训练模块,所述训练模块基于训练集对自适应纹理和频域感知人脸超分辨率重建模型进行训练,获取最优化的模型;
重建模块,所述重建模块基于最优化的模型对测试集进行人脸图像超分辨率重建,获取恢复后的高分辨率人脸图像。
本发明一实施例提供的终端设备。该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。
所述处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。
所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于自适应纹理和频域感知的人脸图像重建方法,其特征在于,包括:
获取并把经过裁剪后待重建的人脸图像数据集划分为训练集和测试集;
构建自适应纹理感知模块,对人脸中复杂纹理区域进行精细的特征恢复;
基于交替的深度卷积和通道注意力构成的多维感知模块,从跨空间和跨通道的维度对特征进行强化,得到具有多维感知的特征;
设计多频融合模块,基于小波变换从编码器阶段提取特征中的中低频信息,并利用小波逆变换融合中低频信息和解码器阶段的高频信息,获取融合后具有全频域信息的输出特征;
基于U型结构堆叠自适应纹理感知模块、多维感知模块和多频融合模块,得到基于自适应纹理和频域感知的人脸图像超分辨率重建模型;
基于训练集对自适应纹理和频域感知人脸超分辨率重建模型进行训练,获取最优化的模型;
基于最优化的模型对测试集进行人脸图像超分辨率重建,获取恢复后的高分辨率人脸图像。
2.根据权利要求1所述的基于自适应纹理和频域感知的人脸图像重建方法,其特征在于,所述训练集和测试集的划分比例为随机划分或以预设的比例进行划分;所述预设的比例为人为设定。
3.根据权利要求1所述的基于自适应纹理和频域感知的人脸图像重建方法,其特征在于,所述构建自适应纹理感知模块,对人脸中复杂纹理区域进行精细的特征恢复,具体为:
从粗糙纹理中搜索具有复杂纹理的区域,并对复杂纹理的区域进行精细的自注意力计算,实现具有纹理感知的恢复效果;自适应纹理感知模块包括粗糙特征的自注意力分支和精细特征的自注意力分支;粗糙特征的自注意力分支计算公式为:
QC,KC,VC=Linear(Down(Finput))
TSM=QCKC T
其中,Finput代表输入特征图,Down和Linear分别为下采样和线性投影操作,Softmax为激活函数,TSM为纹理自注意力搜索图;之后在搜索图中取注意力值最大的前k个区域,映射到精细特征图中,搜索出对应区域的精细特征计算多头自注意力:
Ffine=FindByRegion(input,Topk(Sum(TSM),k))
Attentionfine=MHSA(Ffine)
其中,Ffine表示搜索出的精细特征,Sum表示沿着倒数第二维累加,Topk表示在TSM中最大的k个值,FindByRegion为根据最大值的坐标搜索对应区域;k代表搜索的区域数量,
H和W分别为输入特征Finput的高和宽;MHSA代表多头自注意力计算;
合并两个分支的计算结果,具体为:
Foutput=Up(Attentioncoarse)+Attentionfine
其中,Up代表上采样操作。
4.根据权利要求1所述的基于自适应纹理和频域感知的人脸图像重建方法,其特征在于,所述基于交替的深度卷积和通道注意力构成的多维感知模块,从跨空间和跨通道的维度对特征进行强化,得到具有多维感知的特征,具体为:多维感知模块分别从空间的维度和通道的维度对重要信息进行聚集;多维感知模块由交替的深度卷积和通道注意力两个分支构成,其中深度卷积对空间中的特征进行聚集和融合,通道注意力通过门控机制将通道信息评估各个通道的权重,并把对应的权重乘以各个通道特征本身;交替的深度卷积和通道注意力将重要信息在多个维度传入和传出。
5.根据权利要求4所述的基于自适应纹理和频域感知的人脸图像重建方法,其特征在于,所述利用小波变换从编码器阶段提取特征中的中低频信息,并利用小波逆变换融合中低频信息和解码器阶段的高频信息,得到具有丰富频域信息的特征,包括:
所述多频融合模块对编码器的各个阶段的输出特征进行小波变换,提取特征对应的中低频信息;基于中低频信息和解码器各个阶段的输出特征进行小波逆变换,得到融合后的具有全频域信息的输出特征;具体过程表达式为:
LLi,LHi,HLi=Wavelet(Fi)
其中,Fi分别表示第i个阶段编码器的输出特征,解码器的输出特征和多频融合模块的输出特征,Wavelet和Inverse分别表示小波变换和小波逆变换,LLi,LHi和HLi分别表示从特征Fi中提取出的三种中低频特征,Conv表示1×1卷积操作。
6.根据权利要求1所述的基于自适应纹理和频域感知的人脸超分辨率重建方法,其特征在于,所述基于U型结构堆叠自适应纹理感知模块、多维感知模块和多频融合模块,得到基于自适应纹理和频域感知的人脸图像超分辨率重建模型,具体为:编码器和解码器分别由4个自适应纹理感知模块堆叠组成,在编码器和解码器之间由1个带残差的自适应纹理感知模块进行连接,通过多频融合模块连接同一层级的编码器和解码器的输出特征。
7.根据权利要求1所述的基于自适应纹理和频域感知的人脸超分辨率重建方法,其特征在于,所述基于训练集对自适应纹理和频域感知人脸超分辨率重建模型进行训练,获取最优化的模型,具体为:在训练的过程中判断自适应纹理和频域感知人脸超分辨率重建模型的损失函数是否低于所设定的阈值,或自适应纹理和频域感知人脸超分辨率重建模型的循环次数是否达到最大值,若损失函数小于所设定的阈值或循环次数达到最大值,则停止训练,获取最优化的模型。
8.基于自适应纹理和频域感知的人脸图像重建系统,其特征在于,包括:
划分模块,所述划分模块获取并把经过裁剪后待重建的人脸图像数据集划分为训练集和测试集;
第一构建模块,所述第一构建模块对人脸中复杂纹理区域进行精细的特征恢复;
多维感知模块,所述多维感知模块从跨空间和跨通道的维度对特征进行强化,得到具有多维感知的特征;
多频融合模块,所述多频融合模块基于小波变换从编码器阶段提取特征中的中低频信息,并利用小波逆变换融合中低频信息和解码器阶段的高频信息,获取融合后具有全频域信息的输出特征;
第二构建模块,所述第二构建模块基于U型结构堆叠自适应纹理感知模块、多维感知模块和多频融合模块,得到基于自适应纹理和频域感知的人脸图像超分辨率重建模型;
训练模块,所述训练模块基于训练集对自适应纹理和频域感知人脸超分辨率重建模型进行训练,获取最优化的模型;
重建模块,所述重建模块基于最优化的模型对测试集进行人脸图像超分辨率重建,获取恢复后的高分辨率人脸图像。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
CN202310612916.1A 2023-05-26 2023-05-26 基于自适应纹理和频域感知的人脸图像重建方法、系统、装置及介质 Pending CN116563167A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310612916.1A CN116563167A (zh) 2023-05-26 2023-05-26 基于自适应纹理和频域感知的人脸图像重建方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310612916.1A CN116563167A (zh) 2023-05-26 2023-05-26 基于自适应纹理和频域感知的人脸图像重建方法、系统、装置及介质

Publications (1)

Publication Number Publication Date
CN116563167A true CN116563167A (zh) 2023-08-08

Family

ID=87496382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310612916.1A Pending CN116563167A (zh) 2023-05-26 2023-05-26 基于自适应纹理和频域感知的人脸图像重建方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN116563167A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116721304A (zh) * 2023-08-10 2023-09-08 武汉大学 基于失真图像恢复指导的图像质量感知方法、系统及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116721304A (zh) * 2023-08-10 2023-09-08 武汉大学 基于失真图像恢复指导的图像质量感知方法、系统及设备
CN116721304B (zh) * 2023-08-10 2023-10-20 武汉大学 基于失真图像恢复指导的图像质量感知方法、系统及设备

Similar Documents

Publication Publication Date Title
Jiji et al. Single‐frame image super‐resolution using learned wavelet coefficients
Yang et al. Image super-resolution via sparse representation
Candocia et al. Super-resolution of images based on local correlations
CN106920214B (zh) 空间目标图像超分辨率重建方法
CN106408550A (zh) 一种改进的自适应多字典学习的图像超分辨率重建方法
Yang et al. Multi-focus image fusion via clustering PCA based joint dictionary learning
Dharejo et al. TWIST-GAN: Towards wavelet transform and transferred GAN for spatio-temporal single image super resolution
Guo et al. Multiscale semilocal interpolation with antialiasing
Shi et al. Exploiting multi-scale parallel self-attention and local variation via dual-branch transformer-CNN structure for face super-resolution
Singh et al. Fingerprint image super-resolution via ridge orientation-based clustered coupled sparse dictionaries
Pan et al. Structure–color preserving network for hyperspectral image super-resolution
CN116563167A (zh) 基于自适应纹理和频域感知的人脸图像重建方法、系统、装置及介质
Deshpande et al. SURVEY OF SUPER RESOLUTION TECHNIQUES.
CN113962882B (zh) 一种基于可控金字塔小波网络的jpeg图像压缩伪影消除方法
Deng et al. Multiple frame splicing and degradation learning for hyperspectral imagery super-resolution
Kannan et al. Performance comparison of various levels of fusion of multi-focused images using wavelet transform
Liu et al. Image super-resolution via hierarchical and collaborative sparse representation
Barzigar et al. A video super-resolution framework using SCoBeP
CN111428809B (zh) 基于空间信息融合与卷积神经网络的人群计数方法
CN116310452B (zh) 一种多视图聚类方法及系统
Jeevan et al. WaveMixSR: Resource-efficient neural network for image super-resolution
Liu et al. Gradient prior dilated convolution network for remote sensing image super-resolution
CN107133921A (zh) 基于多层次邻域嵌入的图像超分辨率重建方法及系统
Liu et al. CNN-Enhanced graph attention network for hyperspectral image super-resolution using non-local self-similarity
Ngocho et al. Single image super resolution with guided back-projection and LoG sharpening

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination