CN113628109A - 基于可学习字典的人脸五官超分辨率方法和系统、介质 - Google Patents

基于可学习字典的人脸五官超分辨率方法和系统、介质 Download PDF

Info

Publication number
CN113628109A
CN113628109A CN202110804781.XA CN202110804781A CN113628109A CN 113628109 A CN113628109 A CN 113628109A CN 202110804781 A CN202110804781 A CN 202110804781A CN 113628109 A CN113628109 A CN 113628109A
Authority
CN
China
Prior art keywords
dictionary
low
frequency
picture
definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110804781.XA
Other languages
English (en)
Other versions
CN113628109B (zh
Inventor
姜文波
赵贵华
张小云
郭柏松
张娅
蔺飞
袁旭稚
王延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110804781.XA priority Critical patent/CN113628109B/zh
Publication of CN113628109A publication Critical patent/CN113628109A/zh
Application granted granted Critical
Publication of CN113628109B publication Critical patent/CN113628109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于可学习字典的人脸五官超分辨率方法和系统、介质,所述方法包括:根据高清五官图片所对应的低清五官图片构建可学习的字典,字典词条对应高清五官图片中的低频部分;根据高清五官图片和其对应的低清五官图片字典编码构建可学习的字典,字典词条对应高清五官图片中的高频部分;根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码;使用输入低清五官图片的低频字典编码和据此回归出的高频字典编码生成其对应的高清五官图片。所述系统包括与所述各步骤相对应的模块。本发明能够利用公开人脸数据集进行现实低清人脸图片的五官定向增强,达到良好的超分辨效果。

Description

基于可学习字典的人脸五官超分辨率方法和系统、介质
技术领域
本发明涉及一种计算机视觉和图像处理领域的方法,具体地,涉及一种基于可学习字典的人脸五官超分辨率方法和系统、介质。
背景技术
超分辨率是计算机视觉最基本的任务之一,针对人脸的定向超分辨技术是其中的一个分支,由于人眼对于画面中的人脸部位注意力更多,因此针对人脸的定向超分辨技术显得尤为重要。在过去的几年,基于深度神经网络的许多方法已经取得了巨大的成功。然而这些方法大多基于自己设定的退化条件产生的仿真数据,在实际应用中的效果并不好,造成这一点的原因主要来自于真实世界中低清五官图片退化方式的多样性与复杂性,基于仿真数据训练的超分辨率模型在真实低清五官图片上的表现并不好。
经检索,中国发明专利公开号为CN104036482A,申请号:201410323594.X该发明公开一种基于字典渐近更新的人脸图像超分辨率方法:在训练阶段,采用去一法对低分辨率人脸图像训练集的每张低分辨率人脸图像进行超分辨率重构,得到一层低分辨率中间字典;以此低分辨率中间字典作为新的低分辨率人脸图像训练集输入,重构得到新一层的低分辨率中间字典;重复上述过程,最终得到多层低分辨率中间字典。在测试阶段,根据输入的低分辨率人脸图像,上一层低分辨率中间字典和高分辨率人脸图像训练集,对输入低分辨率人脸图像进行超分辨率重构,得到预估高分辨率人脸图像;重复上述过程,最终重构出高分辨率人脸图像。
该专利使用传统的方法构建词典病进行人脸生成,存在对人脸重建问题建模不准的问题,同时还可能导致生成的高分辨率图片不清晰。
发明内容
针对现有技术中的缺陷,本发明特别考虑了人脸超分辨模型在真实数据中不鲁棒的问题,提供一种基于可学习字典的人脸五官超分辨率方法和系统、介质。
根据本发明的第一目的,提供一种基于可学习字典的人脸五官超分辨率方法,包括:
根据高清五官图片所对应的低清五官图片,使用深度学习构建可学习的低频字典,所述低频字典的字典词条对应高清五官图片中的低频部分;
根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,所述高频字典的字典词条对应高清五官图片中的高频部分;
使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码;
使用输入低清五官图片的低频字典编码和回归出的高频字典编码生成其对应的高清五官图片。
可选地,所述使用深度学习构建可学习的低频字典,其中低频字典学习如下:
数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr
所述低清五官图片为Xlr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr
将f′lr经过解码卷积网络最终恢复出低清五官图片Ylr
可选地,所述根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,其中,高频字典使用数据集中高清五官图片和已经构建的低频词典共同构建,具体高频字典学习如下:
数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr
低清五官图片Xlr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr
同时将Xhr作为编码卷积网络的输入,对于输出的特征图fhr的每一个像素位置的特征向量,在高频字典Ihr中寻找与其欧氏距离最近的词条并进行替换得到f′hr
将f′hr与f′lr结合输入解码卷积网络恢复出高清五官图片Yhr
可选地,所述使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码,包括:
对于数据集中的高清五官图片,通过低频字典与高频字典分别获取低频字典编码Clr∈Nh×w与高频字典编码Chr∈NH×W,其中(h,w)与(H,W)分别为自主选择的低频编码表与高频编码表的高和宽;
使用深度学习网络根据低频字典编码Clr自回归得到Chr,训练过程中使用交叉熵作为网络更新的损失函数。
可选地,所述使用输入低清五官图片的低频字典编码和S13回归出的高频字典编码生成其对应的高清五官图片,包括:
根据低分辨率五官图片Xlr输入,经过低频字典得到对应的字典编码Clr,并通过自回归得到其对应的高频字典编码Chr后,使用高频字典对应的解码器生成高清五官图片。
根据本发明的第二目的,提供一种基于可学习字典的人脸五官超分辨率系统,包括:
低频可学习字典构建模块:该模块根据高清五官图片所对应的低清五官图片使用深度学习构建可学习的低频字典,所述低频字典的字典词条对应高清五官图片中的低频部分;
高频可学习字典构建模块:该模块根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,所述高频字典的字典词条对应高清五官图片中的高频部分;
高频字典编码自回归模块:该模块使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码,其中,低频字典编码由构建的低频可学习字典获得,高频字典编码由构建的高频可学习字典获得;
高清五官图片生成模块:该模块使用输入低清五官图片的低频字典编码和所述高频字典编码自回归模块回归出的高频字典编码生成其对应的高清五官图片。
根据本发明的第三目的,提供一种人脸五官超分辨率装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的人脸五官超分辨率方法。
根据本发明的第四目的,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述的人脸五官超分辨率方法。
与现有技术相比,本发明实施例具有如下至少一种有益效果:
1、本发明提供了一个可学习字典的人脸五官超分辨率方法,通过高低频分离和对于字典的离散编码,实现对于人脸五官的定向增强。
2、本发明利用自回归的方法生成高清五官图片,相较于其他生成类模型训练更加问题。
3、本发明利用高低频分离和离散编码,在真实低清五官图片上取得了更好的效果,模型更加鲁棒。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中人脸五官超分辨率方法流程图;
图2为本发明一实施例中人脸五官超分辨率系统原理图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
该专利未引入深度学习模型而是使用传统的方法构建词典病进行人脸生成,从而对人脸重建问题建模不准。同时未采用自回归方法,导致生成的高分辨率图片不清晰。
如图1所示,为本发明一实施例中基于可学习字典的人脸五官超分辨率方法实施例的流程图。
具体的,参照图1,本实施例中基于可学习字典的人脸五官超分辨率方法,具有包括以下步骤:
S11,低频可学习字典构建步骤:根据高清五官图片所对应的低清五官图片使用深度学习构建可学习的字典,字典词条对应高清五官图片中的低频部分,利用低频词典词条可较好的恢复出低清五官图片;
S12,高频可学习字典构建步骤:根据高清五官图片和其对应的低清五官图片字典编码构建可学习的字典,字典词条基本对应高清五官图片中的高频部分,利用高频词典词条及高频词典词条可以较好的恢复出高清五官图片;
S13,高频字典编码自回归步骤:使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码,基于一个自回归神经网络,逐像素的回归高频字典编码;
S14,高清五官图片生成步骤:使用输入低清五官图片的低频字典编码和据此回归出的高频字典编码生成其对应的高清五官图片,包括根据字典编码获取对应字典词条,以及使用深度学习将输入的高频和低频词条生成高清五官图片。
本发明上述实施例使用高低频分离的方法,针对图片中的高低频部分,分别构建离散词典,通过将数据离散化来增强对于输入的鲁棒性,同时高频词典直接由高清五官图片构建而成,保证了输出的清晰度,从而保证了在真实低清五官图片上的超分辨效果。
为了能增强对于输入的鲁棒性,在本发明部分优选实施例中,低频可学习字典构建步骤中,低频字典使用数据集中高清五官图片所对应的低清五官图片所构建,构建过程中使用人工添加随机噪声和模糊的方法提升低频字典对于输入的鲁棒性,所加噪声包括高斯噪声、高斯模糊、椒盐噪声、随机下采样、图片压缩等。具体的,在一具体实施例中,使用深度学习构建可学习的低频字典,其中低频字典学习如下:
S101,数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr
S102,低清五官图片为Xlr经过人工添加噪声后作为编码卷积网络的输入,对于编码卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr
S103,将f′lr经过解码卷积网络最终恢复出低清五官图片Ylr
通过本发明上述优选实施例的低频字典学习,能使字典直接学习,可以增强对于输入的鲁棒性。
在本发明部分优选实施例中,低频可学习字典构建步骤,其中:编码卷积网络由若干层卷积和最大池化操作构成,提取图片的视觉特征;低频词典由若干可学习的向量构成;解码卷积网络由若干卷积层和上采样操作构成。
为了能增强对于输入的鲁棒性,在本发明部分优选实施例中,高频可学习字典构建步骤,高频字典使用数据集中高清五官图片和已经构建的低频词典共同构建。在一具体实施例中,为了实现高低频分离,高频字典学习如下:
S201,数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr
S202,低清五官图片为Xlr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr
同时将Xhr作为编码卷积网络的输入,对于输出的特征图fhr的每一个像素位置的特征向量,在高频字典Ihr中寻找与其欧氏距离最近的词条并进行替换得到f′hr
S203,将f′hr与f′lr结合输入神经网络恢复出高清五官图片Yhr
通过本发明上述优选实施例的高频字典学习,可以很好地的实现高低频分离,为人脸重建问题建模准确性提供条件。
在本发明部分实施例中,高频可学习字典构建步骤,其中:编码卷积网络由若干层卷积和最大池化操作构成,提取图片的视觉特征;高频词典由若干可学习的向量构成;解码卷积网络由若干卷积层和上采样操作构成,具有两个输入,分别为图片高频部分和低频部分的经过所对应字典量化编码后的特征。
在本发明部分实施例中,高频字典编码自回归步骤,其中,根据低分辨率五官图片Xlr输入,经过低频字典得到对应的字典编码Clr,并通过自回归得到其对应的高频字典编码Chr后,使用高频字典对应的解码器生成高清五官图片,采用自回归的方法,可以使生成高清五官图片更加清晰,具有更多的细节,克服传统方法中生成的高分辨率图片不清晰的问题。
本发明上述实施例中,高频字典编码自回归步骤基于一个自回归神经网络,逐像素的回归高频字典编码。其中,
S301,对于数据集中的高清五官图片,通过低频字典与高频字典分别获取低频字典编码Clr∈Nh×w与高频字典编码Chr∈NH×W,其中(h,w)与(H,W)分别为自主选择的低频编码表与高频编码表的高和宽;
S302,使用深度学习网络根据低频字典编码Clr自回归得到Chr,训练过程中使用交叉熵作为网络更新的损失函数。
进一步的:上述高频字典编码自回归步骤中,根据低频编码向高频编码的回归由condition-pixelCNN实现,内部结构为卷积网络,卷积核为带有掩码的卷积核,使得当前像素无法获取该像素以及该像素后面的像素信息,从而使用该像素之前的信息完成对该像素分布的拟合。
本发明上述实施例利用高低频分离和离散编码,在真实低清五官图片上取得了更好的效果,模型更加鲁棒。通过高低频分离和对于字典的离散编码,实现对于人脸五官的定向增强。
在本发明部分实施例中,高清五官图片生成步骤,其中:根据低分辨率五官图片Xlr输入,经过低频字典得到对应的字典编码Clr,并通过自回归得到其对应的高频字典编码Chr后,使用高频字典对应的解码器生成高清五官图片。该实施例中,使用的模型即为高频词典所对应的解码器,使用输入低清五官图片经过低频字典的编码以及自回归网络生成的高频字典编码作为输入,生成高清五官图片。本实施例利用自回归的方法生成高清五官图片,相较于其他生成类模型训练更加问题。
对应于上述方法,本发明还提供一种基于可学习字典的人脸五官超分辨率系统的实施例,如图2所示,包括:
低频可学习字典模块:根据高清五官图片所对应的低清五官图片使用深度学习构建可学习的字典,字典词条对应高清五官图片中的低频部分,利用低频词典词条可较好的恢复出低清五官图片;
高频可学习字典模块:根据高清五官图片和其对应的低清五官图片字典编码构建可学习的字典,字典词条基本对应高清五官图片中的高频部分,利用高频词典词条及高频词典词条可以较好的恢复出高清五官图片;
高频字典编码自回归模块:使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码,基于一个自回归神经网络,逐像素的回归高频字典编码;
高清五官图片生成模块:使用输入低清五官图片的低频字典编码和据此回归出的高频字典编码生成其对应的高清五官图片,包括根据字典编码获取对应字典词条,以及使用深度学习将输入的高频和低频词条生成高清五官图片。
为了实现低频可学习字典模块,将数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr,经过人工添加噪声后σ(Xlr)作为编码卷积网络的输入,对于输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr,将f′lr经过解码卷积网络最终恢复出低清五官图片Ylr
此过程中的优化目标包括对于神经网络的优化以及对于词典的优化,对于神经网络的优化需要使用重参数技巧,优化目标为Xlr与Ylr之间的欧氏距离,即
Lrecons1=‖Ylr-Xlr‖,
Ylr=δ(flr+[f′lr-flr])
其中,δ表示神经网络,[*]表示梯度截断操作。同时需要根据数据集对低频词典进行更新,词典词条的更新采取聚类的方式,具体更新方式为在神经网络的前向传播中,对于任一词条
Figure BDA0003166084140000081
Figure BDA0003166084140000082
类似的,可以构建人脸五官图片的高频字典,构建高频字典时,需要高清五官图片对应的低频字典编码作为额外输入,此方法训练出的字典会将更多表达能力放在图片的高频部分,从而基本实现高低频分离。
具体而言,将数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr,经过人工添加噪声后将σ(Xlr)作为编码卷积网络的输入,对于输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr,同时将Xhr作为解码卷积网络的输入,对于输出的特征图fhr的每一个像素位置的特征向量,在高频字典Ihr中寻找与其欧氏距离最近的词条并进行替换得到f′hr,将f′hr与f′lr结合输入神经网络恢复出高清五官图片Yhr
此过程中的优化目标包括对于神经网络的优化以及对于词典的优化,对于神经网络的优化需要使用重参数技巧,优化目标为Xhr与Yhr之间的欧氏距离,即
Lrecons2=‖Yhr-Xhr‖,
Yhr=δ(fhr+[f′hr-fhr])
其中,δ表示神经网络,[*]表示梯度截断操作。同时需要根据数据集对高频词典进行更新,词典词条的更新采取聚类的方式,具体更新方式为在神经网络的前向传播中,对于任一词条
Figure BDA0003166084140000091
Figure BDA0003166084140000092
使用condition-pixelCNN实现高频字典编码自回归,需要低频字典编码作为输入,回归方向为左上角到右下角,condition-pixelCNN使用特殊的卷积核,当前像素位置后的信息会被置0防止模型作弊,从而完成对
Figure BDA0003166084140000093
分布的建模。对于该网络的损失函数使用交叉熵损失。
本实施例上述的高清五官图片生成模块不需要额外训练,直接使用高频词典所对应的解码器,该解码器使用输入低清五官图片经过低频字典的编码以及自回归网络生成的高频字典编码作为输入,生成高清五官图片。
在本发明另一实施例中,还提供一种人脸五官超分辨率装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述实施例的人脸五官超分辨率方法。
在本发明另一实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述实施例的人脸五官超分辨率方法。
综上,本发明利用一个可学习的低频字典离散编码图片的低频部分,利用一个可学习的高频字典离散编码图片的高频部分,利用自回归模型完成从低频字典编码到高频字典编码的生成,利用高清五官图片生成模块进行最终低清五官图片对应的高清五官图片的生成,从而提升了模型针对真实数据的鲁棒性。
本发明能够利用公开人脸数据集进行现实低清人脸图片的五官定向增强,达到良好的超分辨效果。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照方法的技术方案实现系统的组成,即,方法中的实施例可理解为构建系统的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种基于可学习字典的人脸五官超分辨率方法,其特征在于,包括:
根据高清五官图片所对应的低清五官图片,使用深度学习构建可学习的低频字典,所述低频字典的字典词条对应高清五官图片中的低频部分;
根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,所述高频字典的字典词条对应高清五官图片中的高频部分;
使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码;
使用输入低清五官图片的低频字典编码和回归出的高频字典编码生成其对应的高清五官图片。
2.根据权利要求1所述的基于可学习字典的人脸五官超分辨率方法,其特征在于,所述使用深度学习构建可学习的低频字典,其中低频字典学习如下:
数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr
所述低清五官图片为Xlr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr
将f′lr经过解码卷积网络最终恢复出低清五官图片Ylr
3.根据权利要求2所述的基于可学习字典的人脸五官超分辨率方法,其特征在于,所述低频字典学习,其优化目标包括对于神经网络的优化以及对于词典的优化,其中:
对于神经网络的优化使用重参数技巧,优化目标为Xlr与Ylr之间的欧氏距离Lrecons1,即
Lrecons1=||Ylr-Xlr||,
Ylr=δ(flr+[f′lr-flr])
其中,δ表示神经网络,[*]表示梯度截断操作;
同时对于词典的优化,需要根据数据集对低频词典进行更新,词典词条的更新采取聚类的方式,具体更新方式为在神经网络的前向传播中,对于任一词条
Figure FDA0003166084130000011
Figure FDA0003166084130000021
上式最右侧求和符号是对满足条件
Figure FDA0003166084130000022
的所有i,j求和;
其中,
Figure FDA0003166084130000023
表示更新后的词条,ε表示一个比较小的常量,用于增加收敛的稳定性,N表示所有满足
Figure FDA0003166084130000024
的(i,j)的数量,
Figure FDA0003166084130000025
表示替换前特征图中在(i,j)位置的特征,
Figure FDA0003166084130000026
表示替换后特征图中在(i,j)位置的特征。
4.根据权利要求1所述的基于可学习字典的人脸五官超分辨率方法,其特征在于,所述根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,其中,高频字典使用数据集中高清五官图片和已经构建的低频词典共同构建,具体高频字典学习如下:
数据集中的高清五官图片表示为Xhr,经过下采样得到的低清五官图片为Xlr
低清五官图片Xlr经过人工添加噪声后作为编码卷积网络的输入,对于卷积网络输出的特征图flr的每一个像素位置的特征向量,在低频字典Ilr中寻找与其欧氏距离最近的词条并进行替换得到f′lr
同时将Xhr作为编码卷积网络的输入,对于输出的特征图fhr的每一个像素位置的特征向量,在高频字典Ihr中寻找与其欧氏距离最近的词条并进行替换得到f′hr
将f′hr与f′lr结合输入解码卷积网络恢复出高清五官图片Yhr
5.根据权利要求4所述的基于可学习字典的人脸五官超分辨率方法,其特征在于,所述高频字典学习,其优化目标包括对于神经网络的优化以及对于词典的优化,其中:
对于神经网络的优化使用重参数技巧,优化目标为Xhr与Yhr之间的欧氏距离Lrecons2,即
Lrecons2=||Yhr-Xhr||,
Yhr=δ(fhr+[f′hr-fhr])
其中,δ表示神经网络,[*]表示梯度截断操作;
同时对于词典的优化,需要根据数据集对高频词典进行更新,词典词条的更新采取聚类的方式,具体更新方式为在神经网络的前向传播中,对于任一词条
Figure FDA0003166084130000031
Figure FDA0003166084130000032
其中:
Figure FDA0003166084130000033
表示更新后的词条,ε表示一个比较小的常量,用于增加收敛的稳定性,N表示所有满足
Figure FDA0003166084130000034
的(i,j)的数量,
Figure FDA0003166084130000035
表示替换前特征图中在(i,j)位置的特征,
Figure FDA0003166084130000036
表示替换后特征图中在(i,j)位置的特征。
6.根据权利要求1所述的基于可学习字典的人脸五官超分辨率方法,其特征在于,所述使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码,包括:
对于数据集中的高清五官图片,通过低频字典与高频字典分别获取低频字典编码Clr∈Nh×w与高频字典编码Chr∈NH×W,其中(h,w)与(H,W)分别为自主选择的低频编码表与高频编码表的高和宽;
使用深度学习网络根据低频字典编码Clr自回归得到Chr,训练过程中使用交叉熵作为网络更新的损失函数。
7.根据权利要求1所述的基于可学习字典的人脸五官超分辨率方法,其特征在于,所述使用输入低清五官图片的低频字典编码和S13回归出的高频字典编码生成其对应的高清五官图片,包括:
根据低分辨率五官图片Xlr输入,经过低频字典得到对应的字典编码Clr,并通过自回归得到其对应的高频字典编码Chr后,使用高频字典对应的解码器生成高清五官图片。
8.一种基于可学习字典的人脸五官超分辨率系统,其特征在于:包括:
低频可学习字典构建模块:该模块根据高清五官图片所对应的低清五官图片使用深度学习构建可学习的低频字典,所述低频字典的字典词条对应高清五官图片中的低频部分;
高频可学习字典构建模块:该模块根据高清五官图片和其对应的低清五官图片字典编码构建可学习的高频字典,所述高频字典的字典词条对应高清五官图片中的高频部分;
高频字典编码自回归模块:该模块使用深度学习根据低清五官图片对应的低频字典编码自回归出其对应的高频字典编码,其中,低频字典编码由构建的低频可学习字典获得,高频字典编码由构建的高频可学习字典获得;
高清五官图片生成模块:该模块使用输入低清五官图片的低频字典编码和所述高频字典编码自回归模块回归出的高频字典编码生成其对应的高清五官图片。
9.一种人脸五官超分辨率装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-7任一项所述的方法。
CN202110804781.XA 2021-07-16 2021-07-16 基于可学习字典的人脸五官超分辨率方法和系统、介质 Active CN113628109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110804781.XA CN113628109B (zh) 2021-07-16 2021-07-16 基于可学习字典的人脸五官超分辨率方法和系统、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110804781.XA CN113628109B (zh) 2021-07-16 2021-07-16 基于可学习字典的人脸五官超分辨率方法和系统、介质

Publications (2)

Publication Number Publication Date
CN113628109A true CN113628109A (zh) 2021-11-09
CN113628109B CN113628109B (zh) 2023-11-28

Family

ID=78379955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110804781.XA Active CN113628109B (zh) 2021-07-16 2021-07-16 基于可学习字典的人脸五官超分辨率方法和系统、介质

Country Status (1)

Country Link
CN (1) CN113628109B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036482A (zh) * 2014-07-07 2014-09-10 武汉大学 一种基于字典渐近更新的人脸图像超分辨率方法
CN106709874A (zh) * 2016-12-29 2017-05-24 北京工业大学 一种基于人脸结构相关的压缩低分辨率人脸图像复原方法
CN107169928A (zh) * 2017-05-12 2017-09-15 武汉华大联创智能科技有限公司 一种基于深层线性映射学习的人脸超分辨率重建算法
US20180225807A1 (en) * 2016-12-28 2018-08-09 Shenzhen China Star Optoelectronics Technology Co., Ltd. Single-frame super-resolution reconstruction method and device based on sparse domain reconstruction
CN108596838A (zh) * 2018-05-09 2018-09-28 北京环境特性研究所 一种基于学习的单帧人脸图像超分方法及装置
CN109766863A (zh) * 2019-01-18 2019-05-17 南京邮电大学 一种基于局部和稀疏非局部正则的人脸图像超分辨率方法
JP2019096146A (ja) * 2017-11-24 2019-06-20 キヤノン株式会社 画像識別装置、画像識別方法、コンピュータプログラム、及び記憶媒体
WO2020118830A1 (zh) * 2018-12-12 2020-06-18 深圳先进技术研究院 字典训练及图像超分辨重建方法、系统、设备及存储介质
CN112949636A (zh) * 2021-03-31 2021-06-11 上海电机学院 一种车牌超分辨率识别方法、系统及计算机可读介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036482A (zh) * 2014-07-07 2014-09-10 武汉大学 一种基于字典渐近更新的人脸图像超分辨率方法
US20180225807A1 (en) * 2016-12-28 2018-08-09 Shenzhen China Star Optoelectronics Technology Co., Ltd. Single-frame super-resolution reconstruction method and device based on sparse domain reconstruction
CN106709874A (zh) * 2016-12-29 2017-05-24 北京工业大学 一种基于人脸结构相关的压缩低分辨率人脸图像复原方法
CN107169928A (zh) * 2017-05-12 2017-09-15 武汉华大联创智能科技有限公司 一种基于深层线性映射学习的人脸超分辨率重建算法
JP2019096146A (ja) * 2017-11-24 2019-06-20 キヤノン株式会社 画像識別装置、画像識別方法、コンピュータプログラム、及び記憶媒体
CN108596838A (zh) * 2018-05-09 2018-09-28 北京环境特性研究所 一种基于学习的单帧人脸图像超分方法及装置
WO2020118830A1 (zh) * 2018-12-12 2020-06-18 深圳先进技术研究院 字典训练及图像超分辨重建方法、系统、设备及存储介质
CN109766863A (zh) * 2019-01-18 2019-05-17 南京邮电大学 一种基于局部和稀疏非局部正则的人脸图像超分辨率方法
CN112949636A (zh) * 2021-03-31 2021-06-11 上海电机学院 一种车牌超分辨率识别方法、系统及计算机可读介质

Also Published As

Publication number Publication date
CN113628109B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
CN108520503B (zh) 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法
Dong et al. Denoising prior driven deep neural network for image restoration
CN110148081B (zh) 图像处理模型的训练方法、图像处理方法、装置及存储介质
US10319076B2 (en) Producing higher-quality samples of natural images
Ning et al. Accurate and lightweight image super-resolution with model-guided deep unfolding network
CN109949217B (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN104657962A (zh) 基于级联线性回归的图像超分辨重建方法
CN113763268A (zh) 人脸图像盲修复方法及系统
CN113160079A (zh) 人像修复模型的训练方法、人像修复方法和装置
He et al. Deep dual-domain semi-blind network for compressed image quality enhancement
Zhao et al. Image super‐resolution via adaptive sparse representation and self‐learning
CN112669431B (zh) 图像处理方法、装置、设备、存储介质以及程序产品
CN113628109B (zh) 基于可学习字典的人脸五官超分辨率方法和系统、介质
CN116977169A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN111738957A (zh) 图像智能美化方法、系统、电子设备及存储介质
Haritha et al. Image inpainting using deep learning techniques: A review
CN113781376B (zh) 一种基于分治融合的高清人脸属性编辑方法
CN115063304A (zh) 一种基于端到端的多尺寸融合的金字塔神经网络图像去雾方法及系统
CN116645267A (zh) 模型训练方法、装置、计算机设备及计算机可读存储介质
Chen et al. A multi-level feature integration network for image inpainting
CN114240748A (zh) 基于局部自回归模型和离散词典的超分辨率方法及系统
CN111062886A (zh) 酒店图片的超分辨方法、系统、电子产品和介质
CN111524090A (zh) 一种基于深度预测图的rgb-d显著性检测方法
CN113628108B (zh) 基于离散表示学习的图像超分辨率方法和系统、终端
Xing et al. Improved hybrid method for image super‐resolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant