CN113628109B - 基于可学习字典的人脸五官超分辨率方法和系统、介质 - Google Patents
基于可学习字典的人脸五官超分辨率方法和系统、介质 Download PDFInfo
- Publication number
- CN113628109B CN113628109B CN202110804781.XA CN202110804781A CN113628109B CN 113628109 B CN113628109 B CN 113628109B CN 202110804781 A CN202110804781 A CN 202110804781A CN 113628109 B CN113628109 B CN 113628109B
- Authority
- CN
- China
- Prior art keywords
- dictionary
- low
- definition
- frequency
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 210000000697 sensory organ Anatomy 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 52
- 210000000056 organ Anatomy 0.000 claims abstract description 50
- 238000005457 optimization Methods 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 238000013135 deep learning Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 17
- 230000001815 facial effect Effects 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 6
- 238000000926 separation method Methods 0.000 description 8
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 241000695274 Processa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于可学习字典的人脸五官超分辨率方法和系统、介质,所述方法包括:根据高清五官图片所对应的低清五官图片构建可学习的字典,字典词条对应高清五官图片中的低频部分;根据高清五官图片和其对应的低清五官图片字典编码构建可学习的字典,字典词条对应高清五官图片中的高频部分;根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码;使用输入低清五官图片的低频字典编码和据此回归出的高频字典编码生成其对应的高清五官图片。所述系统包括与所述各步骤相对应的模块。本发明能够利用公开人脸数据集进行现实低清人脸图片的五官定向增强,达到良好的超分辨效果。
Description
技术领域
本发明涉及一种计算机视觉和图像处理领域的方法,具体地,涉及一种基于可学习字典的人脸五官超分辨率方法和系统、介质。
背景技术
超分辨率是计算机视觉最基本的任务之一,针对人脸的定向超分辨技术是其中的一个分支,由于人眼对于画面中的人脸部位注意力更多,因此针对人脸的定向超分辨技术显得尤为重要。在过去的几年,基于深度神经网络的许多方法已经取得了巨大的成功。然而这些方法大多基于自己设定的退化条件产生的仿真数据,在实际应用中的效果并不好,造成这一点的原因主要来自于真实世界中低清五官图片退化方式的多样性与复杂性,基于仿真数据训练的超分辨率模型在真实低清五官图片上的表现并不好。
经检索,中国发明专利公开号为CN104036482A,申请号:201410323594.X该发明公开一种基于字典渐近更新的人脸图像超分辨率方法:在训练阶段,采用去一法对低分辨率人脸图像训练集的每张低分辨率人脸图像进行超分辨率重构,得到一层低分辨率中间字典;以此低分辨率中间字典作为新的低分辨率人脸图像训练集输入,重构得到新一层的低分辨率中间字典;重复上述过程,最终得到多层低分辨率中间字典。在测试阶段,根据输入的低分辨率人脸图像,上一层低分辨率中间字典和高分辨率人脸图像训练集,对输入低分辨率人脸图像进行超分辨率重构,得到预估高分辨率人脸图像;重复上述过程,最终重构出高分辨率人脸图像。
该专利使用传统的方法构建词典病进行人脸生成,存在对人脸重建问题建模不准的问题,同时还可能导致生成的高分辨率图片不清晰。
发明内容
针对现有技术中的缺陷,本发明特别考虑了人脸超分辨模型在真实数据中不鲁棒的问题,提供一种基于可学习字典的人脸五官超分辨率方法和系统、介质。
根据本发明的第一目的,提供一种基于可学习字典的人脸五官超分辨率方法,包括:
根据高清五官图片所对应的低清五官图片,使用深度学习构建可学习的低频字典,所述低频字典的字典词条对应高清五官图片中的低频部分;
根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,所述高频字典的字典词条对应高清五官图片中的高频部分;
使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码;
使用输入低清五官图片的低频字典编码和回归出的高频字典编码生成其对应的高清五官图片。
可选地,所述使用深度学习构建可学习的低频字典,其中低频字典学习如下:
数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr;
所述低清五官图片为Xlr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr;
将f′lr经过解码卷积网络最终恢复出低清五官图片Ylr。
可选地,所述根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,其中,高频字典使用数据集中高清五官图片和已经构建的低频词典共同构建,具体高频字典学习如下:
数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr;
低清五官图片Xlr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr;
同时将Xhr作为编码卷积网络的输入,对于输出的特征图fhr的每一个像素位置的特征向量,在高频字典Ihr中寻找与其欧氏距离最近的词条并进行替换得到f′hr;
将f′hr与f′lr结合输入解码卷积网络恢复出高清五官图片Yhr。
可选地,所述使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码,包括:
对于数据集中的高清五官图片,通过低频字典与高频字典分别获取低频字典编码Clr∈Nh×w与高频字典编码Chr∈NH×W,其中(h,w)与(H,W)分别为自主选择的低频编码表与高频编码表的高和宽;
使用深度学习网络根据低频字典编码Clr自回归得到Chr,训练过程中使用交叉熵作为网络更新的损失函数。
可选地,所述使用输入低清五官图片的低频字典编码和S13回归出的高频字典编码生成其对应的高清五官图片,包括:
根据低分辨率五官图片Xlr输入,经过低频字典得到对应的字典编码Clr,并通过自回归得到其对应的高频字典编码Chr后,使用高频字典对应的解码器生成高清五官图片。
根据本发明的第二目的,提供一种基于可学习字典的人脸五官超分辨率系统,包括:
低频可学习字典构建模块:该模块根据高清五官图片所对应的低清五官图片使用深度学习构建可学习的低频字典,所述低频字典的字典词条对应高清五官图片中的低频部分;
高频可学习字典构建模块:该模块根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,所述高频字典的字典词条对应高清五官图片中的高频部分;
高频字典编码自回归模块:该模块使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码,其中,低频字典编码由构建的低频可学习字典获得,高频字典编码由构建的高频可学习字典获得;
高清五官图片生成模块:该模块使用输入低清五官图片的低频字典编码和所述高频字典编码自回归模块回归出的高频字典编码生成其对应的高清五官图片。
根据本发明的第三目的,提供一种人脸五官超分辨率装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的人脸五官超分辨率方法。
根据本发明的第四目的,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述的人脸五官超分辨率方法。
与现有技术相比,本发明实施例具有如下至少一种有益效果:
1、本发明提供了一个可学习字典的人脸五官超分辨率方法,通过高低频分离和对于字典的离散编码,实现对于人脸五官的定向增强。
2、本发明利用自回归的方法生成高清五官图片,相较于其他生成类模型训练更加问题。
3、本发明利用高低频分离和离散编码,在真实低清五官图片上取得了更好的效果,模型更加鲁棒。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中人脸五官超分辨率方法流程图;
图2为本发明一实施例中人脸五官超分辨率系统原理图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
该专利未引入深度学习模型而是使用传统的方法构建词典病进行人脸生成,从而对人脸重建问题建模不准。同时未采用自回归方法,导致生成的高分辨率图片不清晰。
如图1所示,为本发明一实施例中基于可学习字典的人脸五官超分辨率方法实施例的流程图。
具体的,参照图1,本实施例中基于可学习字典的人脸五官超分辨率方法,具有包括以下步骤:
S11,低频可学习字典构建步骤:根据高清五官图片所对应的低清五官图片使用深度学习构建可学习的字典,字典词条对应高清五官图片中的低频部分,利用低频词典词条可较好的恢复出低清五官图片;
S12,高频可学习字典构建步骤:根据高清五官图片和其对应的低清五官图片字典编码构建可学习的字典,字典词条基本对应高清五官图片中的高频部分,利用高频词典词条及高频词典词条可以较好的恢复出高清五官图片;
S13,高频字典编码自回归步骤:使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码,基于一个自回归神经网络,逐像素的回归高频字典编码;
S14,高清五官图片生成步骤:使用输入低清五官图片的低频字典编码和据此回归出的高频字典编码生成其对应的高清五官图片,包括根据字典编码获取对应字典词条,以及使用深度学习将输入的高频和低频词条生成高清五官图片。
本发明上述实施例使用高低频分离的方法,针对图片中的高低频部分,分别构建离散词典,通过将数据离散化来增强对于输入的鲁棒性,同时高频词典直接由高清五官图片构建而成,保证了输出的清晰度,从而保证了在真实低清五官图片上的超分辨效果。
为了能增强对于输入的鲁棒性,在本发明部分优选实施例中,低频可学习字典构建步骤中,低频字典使用数据集中高清五官图片所对应的低清五官图片所构建,构建过程中使用人工添加随机噪声和模糊的方法提升低频字典对于输入的鲁棒性,所加噪声包括高斯噪声、高斯模糊、椒盐噪声、随机下采样、图片压缩等。具体的,在一具体实施例中,使用深度学习构建可学习的低频字典,其中低频字典学习如下:
S101,数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr;
S102,低清五官图片为Xlr经过人工添加噪声后作为编码卷积网络的输入,对于编码卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr;
S103,将f′lr经过解码卷积网络最终恢复出低清五官图片Ylr。
通过本发明上述优选实施例的低频字典学习,能使字典直接学习,可以增强对于输入的鲁棒性。
在本发明部分优选实施例中,低频可学习字典构建步骤,其中:编码卷积网络由若干层卷积和最大池化操作构成,提取图片的视觉特征;低频词典由若干可学习的向量构成;解码卷积网络由若干卷积层和上采样操作构成。
为了能增强对于输入的鲁棒性,在本发明部分优选实施例中,高频可学习字典构建步骤,高频字典使用数据集中高清五官图片和已经构建的低频词典共同构建。在一具体实施例中,为了实现高低频分离,高频字典学习如下:
S201,数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr;
S202,低清五官图片为Xlr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr;
同时将Xhr作为编码卷积网络的输入,对于输出的特征图fhr的每一个像素位置的特征向量,在高频字典Ihr中寻找与其欧氏距离最近的词条并进行替换得到f′hr;
S203,将f′hr与f′lr结合输入神经网络恢复出高清五官图片Yhr。
通过本发明上述优选实施例的高频字典学习,可以很好地的实现高低频分离,为人脸重建问题建模准确性提供条件。
在本发明部分实施例中,高频可学习字典构建步骤,其中:编码卷积网络由若干层卷积和最大池化操作构成,提取图片的视觉特征;高频词典由若干可学习的向量构成;解码卷积网络由若干卷积层和上采样操作构成,具有两个输入,分别为图片高频部分和低频部分的经过所对应字典量化编码后的特征。
在本发明部分实施例中,高频字典编码自回归步骤,其中,根据低分辨率五官图片Xlr输入,经过低频字典得到对应的字典编码Clr,并通过自回归得到其对应的高频字典编码Chr后,使用高频字典对应的解码器生成高清五官图片,采用自回归的方法,可以使生成高清五官图片更加清晰,具有更多的细节,克服传统方法中生成的高分辨率图片不清晰的问题。
本发明上述实施例中,高频字典编码自回归步骤基于一个自回归神经网络,逐像素的回归高频字典编码。其中,
S301,对于数据集中的高清五官图片,通过低频字典与高频字典分别获取低频字典编码Clr∈Nh×w与高频字典编码Chr∈NH×W,其中(h,w)与(H,W)分别为自主选择的低频编码表与高频编码表的高和宽;
S302,使用深度学习网络根据低频字典编码Clr自回归得到Chr,训练过程中使用交叉熵作为网络更新的损失函数。
进一步的:上述高频字典编码自回归步骤中,根据低频编码向高频编码的回归由condition-pixelCNN实现,内部结构为卷积网络,卷积核为带有掩码的卷积核,使得当前像素无法获取该像素以及该像素后面的像素信息,从而使用该像素之前的信息完成对该像素分布的拟合。
本发明上述实施例利用高低频分离和离散编码,在真实低清五官图片上取得了更好的效果,模型更加鲁棒。通过高低频分离和对于字典的离散编码,实现对于人脸五官的定向增强。
在本发明部分实施例中,高清五官图片生成步骤,其中:根据低分辨率五官图片Xlr输入,经过低频字典得到对应的字典编码Clr,并通过自回归得到其对应的高频字典编码Chr后,使用高频字典对应的解码器生成高清五官图片。该实施例中,使用的模型即为高频词典所对应的解码器,使用输入低清五官图片经过低频字典的编码以及自回归网络生成的高频字典编码作为输入,生成高清五官图片。本实施例利用自回归的方法生成高清五官图片,相较于其他生成类模型训练更加问题。
对应于上述方法,本发明还提供一种基于可学习字典的人脸五官超分辨率系统的实施例,如图2所示,包括:
低频可学习字典模块:根据高清五官图片所对应的低清五官图片使用深度学习构建可学习的字典,字典词条对应高清五官图片中的低频部分,利用低频词典词条可较好的恢复出低清五官图片;
高频可学习字典模块:根据高清五官图片和其对应的低清五官图片字典编码构建可学习的字典,字典词条基本对应高清五官图片中的高频部分,利用高频词典词条及高频词典词条可以较好的恢复出高清五官图片;
高频字典编码自回归模块:使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码,基于一个自回归神经网络,逐像素的回归高频字典编码;
高清五官图片生成模块:使用输入低清五官图片的低频字典编码和据此回归出的高频字典编码生成其对应的高清五官图片,包括根据字典编码获取对应字典词条,以及使用深度学习将输入的高频和低频词条生成高清五官图片。
为了实现低频可学习字典模块,将数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr,经过人工添加噪声后σ(Xlr)作为编码卷积网络的输入,对于输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr,将f′lr经过解码卷积网络最终恢复出低清五官图片Ylr。
此过程中的优化目标包括对于神经网络的优化以及对于词典的优化,对于神经网络的优化需要使用重参数技巧,优化目标为Xlr与Ylr之间的欧氏距离,即
Lrecons1=‖Ylr-Xlr‖,
Ylr=δ(flr+[f′lr-flr])
其中,δ表示神经网络,[*]表示梯度截断操作。同时需要根据数据集对低频词典进行更新,词典词条的更新采取聚类的方式,具体更新方式为在神经网络的前向传播中,对于任一词条有
类似的,可以构建人脸五官图片的高频字典,构建高频字典时,需要高清五官图片对应的低频字典编码作为额外输入,此方法训练出的字典会将更多表达能力放在图片的高频部分,从而基本实现高低频分离。
具体而言,将数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr,经过人工添加噪声后将σ(Xlr)作为编码卷积网络的输入,对于输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr,同时将Xhr作为解码卷积网络的输入,对于输出的特征图fhr的每一个像素位置的特征向量,在高频字典Ihr中寻找与其欧氏距离最近的词条并进行替换得到f′hr,将f′hr与f′lr结合输入神经网络恢复出高清五官图片Yhr。
此过程中的优化目标包括对于神经网络的优化以及对于词典的优化,对于神经网络的优化需要使用重参数技巧,优化目标为Xhr与Yhr之间的欧氏距离,即
Lrecons2=‖Yhr-Xhr‖,
Yhr=δ(fhr+[f′hr-fhr])
其中,δ表示神经网络,[*]表示梯度截断操作。同时需要根据数据集对高频词典进行更新,词典词条的更新采取聚类的方式,具体更新方式为在神经网络的前向传播中,对于任一词条有
使用condition-pixelCNN实现高频字典编码自回归,需要低频字典编码作为输入,回归方向为左上角到右下角,condition-pixelCNN使用特殊的卷积核,当前像素位置后的信息会被置0防止模型作弊,从而完成对分布的建模。对于该网络的损失函数使用交叉熵损失。
本实施例上述的高清五官图片生成模块不需要额外训练,直接使用高频词典所对应的解码器,该解码器使用输入低清五官图片经过低频字典的编码以及自回归网络生成的高频字典编码作为输入,生成高清五官图片。
在本发明另一实施例中,还提供一种人脸五官超分辨率装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述实施例的人脸五官超分辨率方法。
在本发明另一实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述实施例的人脸五官超分辨率方法。
综上,本发明利用一个可学习的低频字典离散编码图片的低频部分,利用一个可学习的高频字典离散编码图片的高频部分,利用自回归模型完成从低频字典编码到高频字典编码的生成,利用高清五官图片生成模块进行最终低清五官图片对应的高清五官图片的生成,从而提升了模型针对真实数据的鲁棒性。
本发明能够利用公开人脸数据集进行现实低清人脸图片的五官定向增强,达到良好的超分辨效果。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照方法的技术方案实现系统的组成,即,方法中的实施例可理解为构建系统的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (6)
1.一种基于可学习字典的人脸五官超分辨率方法,其特征在于,包括:
根据高清五官图片所对应的低清五官图片,使用深度学习构建可学习的低频字典,所述低频字典的字典词条对应高清五官图片中的低频部分;
根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,所述高频字典的字典词条对应高清五官图片中的高频部分;
使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码;
使用输入低清五官图片的低频字典编码和回归出的高频字典编码生成其对应的高清五官图片;
所述使用深度学习构建可学习的低频字典,其中低频字典学习如下:
数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr;
所述低清五官图片为Xlr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr;
将f′lr经过解码卷积网络最终恢复出低清五官图片Ylr;
所述低频字典学习,其优化目标包括对于神经网络的优化以及对于词典的优化,其中:
对于神经网络的优化使用重参数技巧,优化目标为Xlr与Ylr之间的欧氏距离Lrecons1,即
Lrecons1=||Ylr-Xlr||,
Ylr=δ(flr+[f′lr-flr])
其中,δ表示神经网络,[*]表示梯度截断操作;
同时对于词典的优化,需要根据数据集对低频词典进行更新,词典词条的更新采取聚类的方式,具体更新方式为在神经网络的前向传播中,对于任一词条有
上式最右侧求和符号是对满足条件的所有i,j求和;
其中,表示更新后的词条,ε表示一个比较小的常量,用于增加收敛的稳定性,N表示所有满足/>的(i,j)的数量,/>表示替换前特征图中在(i,j)位置的特征,/>表示替换后特征图中在(i,j)位置的特征;
所述根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,其中,高频字典使用数据集中高清五官图片和已经构建的低频词典共同构建,具体高频字典学习如下:
数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr;
低清五官图片Xlr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr;
同时将Xhr作为编码卷积网络的输入,对于输出的特征图fhr的每一个像素位置的特征向量,在高频字典Ihr中寻找与其欧氏距离最近的词条并进行替换得到f′hr;
将f′hr与f′lr结合输入解码卷积网络恢复出高清五官图片Yhr;
所述高频字典学习,其优化目标包括对于神经网络的优化以及对于词典的优化,其中:
对于神经网络的优化使用重参数技巧,优化目标为Xhr与Yhr之间的欧氏距离Lrecons2,即
Lrecons2=||Yhr-Xhr||,
Yhr=δ(fhr+[f′hr-fhr])
其中,δ表示神经网络,[*]表示梯度截断操作;
同时对于词典的优化,需要根据数据集对高频词典进行更新,词典词条的更新采取聚类的方式,具体更新方式为在神经网络的前向传播中,对于任一词条有
其中:表示更新后的词条,ε表示一个比较小的常量,用于增加收敛的稳定性,M表示所有满足/>的(i,j)的数量,/>表示替换前特征图中在(i,j)位置的特征,表示替换后特征图中在(i,j)位置的特征。
2.根据权利要求1所述的基于可学习字典的人脸五官超分辨率方法,其特征在于,所述使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码,包括:
对于数据集中的高清五官图片,通过低频字典与高频字典分别获取低频字典编码Clr∈Nh×w与高频字典编码Chr∈MH×W,其中(h,w)与(H,W)分别为自主选择的低频编码表与高频编码表的高和宽;
使用深度学习网络根据低频字典编码Clr自回归得到Chr,训练过程中使用交叉熵作为网络更新的损失函数。
3.根据权利要求1所述的基于可学习字典的人脸五官超分辨率方法,其特征在于,所述使用输入低清五官图片的低频字典编码和S13回归出的高频字典编码生成其对应的高清五官图片,包括:
根据低分辨率五官图片Xlr输入,经过低频字典得到对应的字典编码Clr,并通过自回归得到其对应的高频字典编码Chr后,使用高频字典对应的解码器生成高清五官图片。
4.一种基于可学习字典的人脸五官超分辨率系统,其特征在于:包括:
低频可学习字典构建模块:该模块根据高清五官图片所对应的低清五官图片使用深度学习构建可学习的低频字典,所述低频字典的字典词条对应高清五官图片中的低频部分;
高频可学习字典构建模块:该模块根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,所述高频字典的字典词条对应高清五官图片中的高频部分;
高频字典编码自回归模块:该模块使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码,其中,低频字典编码由构建的低频可学习字典获得,高频字典编码由构建的高频可学习字典获得;
高清五官图片生成模块:该模块使用输入低清五官图片的低频字典编码和所述高频字典编码自回归模块回归出的高频字典编码生成其对应的高清五官图片;
所述低频可学习字典构建模块,使用深度学习构建可学习的低频字典,其中低频字典学习如下:
数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr;
所述低清五官图片为Xlr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr;
将f′lr经过解码卷积网络最终恢复出低清五官图片Ylr;
所述低频字典学习,其优化目标包括对于神经网络的优化以及对于词典的优化,其中:
对于神经网络的优化使用重参数技巧,优化目标为Xlr与Ylr之间的欧氏距离Lrecons1,即
Lrecons1=||Ylr-Xlr||,
Ylr=δ(flr+[f′lr-flr])
其中,δ表示神经网络,[*]表示梯度截断操作;
同时对于词典的优化,需要根据数据集对低频词典进行更新,词典词条的更新采取聚类的方式,具体更新方式为在神经网络的前向传播中,对于任一词条有
上式最右侧求和符号是对满足条件的所有i,j求和;
其中,表示更新后的词条,ε表示一个比较小的常量,用于增加收敛的稳定性,N表示所有满足/>的(i,j)的数量,/>表示替换前特征图中在(i,j)位置的特征,表示替换后特征图中在(i,j)位置的特征;
所述根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,其中,高频字典使用数据集中高清五官图片和已经构建的低频词典共同构建,具体高频字典学习如下:
数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr;
低清五官图片Xlr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr;
同时将Xhr作为编码卷积网络的输入,对于输出的特征图fhr的每一个像素位置的特征向量,在高频字典Ihr中寻找与其欧氏距离最近的词条并进行替换得到f′hr;
将f′hr与f′lr结合输入解码卷积网络恢复出高清五官图片Yhr;
所述高频字典学习,其优化目标包括对于神经网络的优化以及对于词典的优化,其中:
对于神经网络的优化使用重参数技巧,优化目标为Xhr与Yhr之间的欧氏距离Lrecons2,即
Lrecons2=||Yhr-Xhr||,
Yhr=δ(fhr+[f′hr-fhr])
其中,δ表示神经网络,[*]表示梯度截断操作;
同时对于词典的优化,需要根据数据集对高频词典进行更新,词典词条的更新采取聚类的方式,具体更新方式为在神经网络的前向传播中,对于任一词条有
其中:表示更新后的词条,ε表示一个比较小的常量,用于增加收敛的稳定性,M表示所有满足/>的(i,j)的数量,/>表示替换前特征图中在(i,j)位置的特征,表示替换后特征图中在(i,j)位置的特征。
5.一种人脸五官超分辨率装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-3任一项所述的方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110804781.XA CN113628109B (zh) | 2021-07-16 | 2021-07-16 | 基于可学习字典的人脸五官超分辨率方法和系统、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110804781.XA CN113628109B (zh) | 2021-07-16 | 2021-07-16 | 基于可学习字典的人脸五官超分辨率方法和系统、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113628109A CN113628109A (zh) | 2021-11-09 |
CN113628109B true CN113628109B (zh) | 2023-11-28 |
Family
ID=78379955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110804781.XA Active CN113628109B (zh) | 2021-07-16 | 2021-07-16 | 基于可学习字典的人脸五官超分辨率方法和系统、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113628109B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104036482A (zh) * | 2014-07-07 | 2014-09-10 | 武汉大学 | 一种基于字典渐近更新的人脸图像超分辨率方法 |
CN106709874A (zh) * | 2016-12-29 | 2017-05-24 | 北京工业大学 | 一种基于人脸结构相关的压缩低分辨率人脸图像复原方法 |
CN107169928A (zh) * | 2017-05-12 | 2017-09-15 | 武汉华大联创智能科技有限公司 | 一种基于深层线性映射学习的人脸超分辨率重建算法 |
CN108596838A (zh) * | 2018-05-09 | 2018-09-28 | 北京环境特性研究所 | 一种基于学习的单帧人脸图像超分方法及装置 |
CN109766863A (zh) * | 2019-01-18 | 2019-05-17 | 南京邮电大学 | 一种基于局部和稀疏非局部正则的人脸图像超分辨率方法 |
JP2019096146A (ja) * | 2017-11-24 | 2019-06-20 | キヤノン株式会社 | 画像識別装置、画像識別方法、コンピュータプログラム、及び記憶媒体 |
WO2020118830A1 (zh) * | 2018-12-12 | 2020-06-18 | 深圳先进技术研究院 | 字典训练及图像超分辨重建方法、系统、设备及存储介质 |
CN112949636A (zh) * | 2021-03-31 | 2021-06-11 | 上海电机学院 | 一种车牌超分辨率识别方法、系统及计算机可读介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780342A (zh) * | 2016-12-28 | 2017-05-31 | 深圳市华星光电技术有限公司 | 基于稀疏域重构的单帧图像超分辨重建方法及装置 |
-
2021
- 2021-07-16 CN CN202110804781.XA patent/CN113628109B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104036482A (zh) * | 2014-07-07 | 2014-09-10 | 武汉大学 | 一种基于字典渐近更新的人脸图像超分辨率方法 |
CN106709874A (zh) * | 2016-12-29 | 2017-05-24 | 北京工业大学 | 一种基于人脸结构相关的压缩低分辨率人脸图像复原方法 |
CN107169928A (zh) * | 2017-05-12 | 2017-09-15 | 武汉华大联创智能科技有限公司 | 一种基于深层线性映射学习的人脸超分辨率重建算法 |
JP2019096146A (ja) * | 2017-11-24 | 2019-06-20 | キヤノン株式会社 | 画像識別装置、画像識別方法、コンピュータプログラム、及び記憶媒体 |
CN108596838A (zh) * | 2018-05-09 | 2018-09-28 | 北京环境特性研究所 | 一种基于学习的单帧人脸图像超分方法及装置 |
WO2020118830A1 (zh) * | 2018-12-12 | 2020-06-18 | 深圳先进技术研究院 | 字典训练及图像超分辨重建方法、系统、设备及存储介质 |
CN109766863A (zh) * | 2019-01-18 | 2019-05-17 | 南京邮电大学 | 一种基于局部和稀疏非局部正则的人脸图像超分辨率方法 |
CN112949636A (zh) * | 2021-03-31 | 2021-06-11 | 上海电机学院 | 一种车牌超分辨率识别方法、系统及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113628109A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | High-resolution image inpainting using multi-scale neural patch synthesis | |
Dong et al. | Denoising prior driven deep neural network for image restoration | |
US10319076B2 (en) | Producing higher-quality samples of natural images | |
Ning et al. | Accurate and lightweight image super-resolution with model-guided deep unfolding network | |
CN112215050A (zh) | 非线性3dmm人脸重建和姿态归一化方法、装置、介质及设备 | |
CN114782634B (zh) | 基于表面隐函数的单目图像着装人体重建方法与系统 | |
Zhai et al. | Optical flow estimation using channel attention mechanism and dilated convolutional neural networks | |
CN110516724A (zh) | 可视化作战场景的高性能多层字典学习特征图像处理方法 | |
Zuo et al. | Depth map enhancement by revisiting multi-scale intensity guidance within coarse-to-fine stages | |
US8831919B2 (en) | Physics-inspired up sampling for cloth simulation | |
DE102021124769A1 (de) | Latente-variable generatives modell mit einem rauschkontrastgebenden prior | |
Chen et al. | Synthesizing cloth wrinkles by CNN‐based geometry image superresolution | |
CN116777764A (zh) | 一种基于扩散模型的光学遥感图像去云雾方法及系统 | |
Li et al. | Detail-enhanced image inpainting based on discrete wavelet transforms | |
CN112669431B (zh) | 图像处理方法、装置、设备、存储介质以及程序产品 | |
Song et al. | Face attribute editing based on generative adversarial networks | |
CN117788629A (zh) | 一种具有风格个性化的图像生成方法、装置及存储介质 | |
Fakhari et al. | A new restricted boltzmann machine training algorithm for image restoration | |
CN113763268A (zh) | 人脸图像盲修复方法及系统 | |
CN113628109B (zh) | 基于可学习字典的人脸五官超分辨率方法和系统、介质 | |
CN111738957A (zh) | 图像智能美化方法、系统、电子设备及存储介质 | |
Zhang et al. | MFFNet: Single facial depth map refinement using multi-level feature fusion | |
CN116978057A (zh) | 图像中人体姿态迁移方法、装置、计算机设备和存储介质 | |
Zhang et al. | Scale-progressive multi-patch network for image dehazing | |
CN113822790A (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |