CN109903237A

CN109903237A - 一种基于分离低高频的多尺度人脸图像去模糊算法

Info

Publication number: CN109903237A
Application number: CN201910066036.2A
Authority: CN
Inventors: 颜波; 李昂
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-06-18
Anticipated expiration: 2039-01-23
Also published as: CN109903237B

Abstract

本发明属于数字图像智能处理技术领域，具体为一种基于分离低高频的多尺度人脸图像去模糊算法。本发明算法包括：使用前处理网络，同时恢复人脸图像的低频信息以及语义分割；然后将生成的低频信息、语义分割以及模糊图片拼接输入后续的多尺度网络恢复清晰图片；最后，将去模糊网络(前处理网络和多尺度网络)和高级别任务联合训练，使得去模糊产生的清晰图片能够在识别等高级别任务上表现的更好。实验结果表明，本发明恢复的清晰图片在结构和细节上都很完整，同时经过和高级别任务的联合，恢复的清晰图片包含有更丰富的知觉信息，从而更大的提升高级别任务的效果。

Description

一种基于分离低高频的多尺度人脸图像去模糊算法

技术领域

本发明属于数字图像智能处理技术领域，具体涉及一种人脸图像去模糊算法，更具体的说，涉及一种基于分离低高频的多尺度人脸图像去模糊算法。

背景技术

近年来，随着移动设备的普及，拍照已经成了日常生活中不可缺少的一部分。但是，手持手机等移动设备，难免会在拍照的时候造成抖动，进而导致图像的运动模糊，尤其是在暗光场景下，需要更长的曝光时间。运动模糊会对高层次任务产生很严重的影响。以人脸图像为例，模糊人脸会造成人脸识别、人脸关键点检测困难。人脸图像去模糊，可以对模糊人脸图像进行去模糊，恢复人脸的结构和细节。对提升高层次任务的效果起着重要的作用。

对运动模糊的定义如下：

B＝K*I+n (1.1)

其中，B为模糊图片，K为模糊核，I为清晰图片，n为高斯噪声。

图像去模糊算法根据模糊核是否已知可以分为盲图像去模糊算法和非盲图像去模糊算法。其中盲图像去模糊算法又可以分为：基于最大后验概率估计的方法和基于深度网络的方法。

基于最大后验概率的图像去模糊算法主要解决目标函数优化问题。

其中，表示使目标函数最小的清晰图片，表示估计的模糊核，P(I)表示清晰图片的先验，比如L0梯度先验[2]等等。

但是，基于最大后验概率的图像去模糊算法有伪纹理以及迭代速度太慢等问题。

基于深度网络的方法大多利用卷积网络，以端到端的方法，省略了估计模糊核的步骤，输入模糊图片，输出清晰图片[3][4]。尽管这些方法已经尝试了利用多尺度的特征，但是他们对特征的利用不够全面，只是对图像进行尺度的放缩，特征的提取不够充分。[5]利用人脸的语义分割去辅助人脸图像去模糊，但是语义分割信息只有人脸的部分结构信息，因此对人脸去模糊算法的帮助有限。

发明内容

为了克服现有技术的不足，本发明的目的在于提出一种基于分离低高频的多尺度人脸图像去模糊算法。

由于模糊主要破坏了图片的高频信息，对低频信息破坏的较小。所以本发明提出使用前处理网络先恢复图像的低频信息；同时注意到，低频信息与语义分割信息有着相似性，它们都有图像的结构性信息，但是语义分割包含整体的形状和类别信息，低频信息包含图像的局部结构和内容信息。因此本发明采用一个Encoder-Decoder网络去同时恢复低频信息和语义分割信息。此外，为了更好的提取融合多尺度特征，本发明利用放缩图像大小策略去提取多尺度特征，同时利用Inception模块去拓展宽度提取并融合特征。最后，为了更好的辅助人脸识别等高层次任务，本发明提出利用高层次任务的结果去辅助去模糊网络的更新，从而在高层次任务上获得更好的表现。

本发明提供的基于分离低高频的多尺度人脸图像去模糊算法，具体步骤如下：

(1)使用前处理网络同时生成图片的低频信息和语义分割

使用Encoder-Decoder网络[1]，在网络的末尾分别用一个卷积层去拟合低频信息和语义分割；训练时，低频信息用欧式距离作为损失函数，语义分割用softmax作为损失函数，两个损失函数的加权和为前处理网络的总体损失函数：

L_semantic＝-logP(y_i＝k|x_i,θ) (1.4)

L_pre＝αL_low+βL_semantic (1.5)

其中，L_low表示低频信息的损失函数，n表示一个batch的数据的数目，c表示通道的数目，h、w表示图像的长、宽；l表示低频信息，表示生成的低频信息；L_semantic表示语义分割的损失函数，x和y分别表示第i个像素的值以及ground truth的类别，θ表示前处理网络的参数；L_pre表示前处理网络的整体损失函数,α,β表示低频损失函数和语义分割损失函数的权重；通常，α设置为0.001,β设置为1。

(2)使用多尺度网络恢复清晰图片

将前处理网络生成的语义分割、低频信息还有模糊图片拼接，输入多尺度网络进行去模糊。所述多尺度网络包括两个层次的多尺度；第一，人脸图片大小的放缩，因为多尺度的图片包含不同尺度的特征信息。第二，网络的基本模块是用inception网络模块，因为inception可以扩展网络的宽度；在同一个网络的深度，使用多个不同大小的感受野去提取不同尺度的特征，然后进行特征融合。

本发明使用的inception网络模块如图3所示，包括1x1、3x3、7x7和2个5x5的卷积核。在同一个网络深度，用1x1、3x3、5x5和7x7的卷积核去提取不同尺度的特征，最后使用另一个5x5的卷积核将抽取到的不同感受野的特征融合到一起，在网络宽度的层次抽取和融合多尺度特征。

针对多尺度网络，损失函数是在每一个尺度，去模糊的图片和ground truth的清晰图片的L2距离，具体为：

其中，L_M表示多尺度网络的损失函数，n表示图像放缩尺度的数目，N_i表示第i个尺度的图像的像素数目，I_i表示第i个尺度的ground truth的清晰图像，Iⁱ _*表示第i个尺度的去模糊图片。

前处理网络和多尺度网络统称为去模糊网络。

(3)联合high-level任务训练

人脸的high-level任务包括人脸识别、特征点检测等。在去模糊网络的最后，加上一个high-level网络，以人脸识别网络为例。识别网络预训练好，参数固定，将去模糊网络恢复的清晰图片输入人脸识别网络，然后计算识别结果的损失函数，接着计算损失函数对恢复图片以及去模糊网络参数的梯度，最后更新去模糊网络的参数。本发明中，使用了人脸识别的分类结果作为损失函数，但是，如果只使用分类结果作为损失函数，会在去模糊图片中引入网格效应。为了解决这个问题，本发明又使用了perception loss，来控制去模糊图片和清晰图片在特征层面的差距。

其中，L_p表示perception loss，φ表示训练好的vgg网络，本发明使用的是识别网络。

(4)组合整体损失函数

L＝λ_preL_pre+λ_ML_M+λ_pL_p+λ_HL_H (1.8)

其中，λ_pre,λ_M,λ_p,λ_H表示损失函数的权重，L_H表示识别网络的损失函数。λ_pre,λ_p,λ_H通常设置为0.001,λ_M通常设置为1.0。

使用整体损失函数统一训练去模糊网络。

本发明提供的人脸图像去模糊算法用于恢复被模糊破坏的人脸图像，使得人脸结构更加完整，细节更加丰富。实验结果表明，本发明恢复的清晰图片在结构和细节上都很完整，同时经过和高级别任务的联合，恢复的清晰图片包含有更丰富的知觉信息，从而更大的提升高级别任务的效果。

附图说明

图1为本发明的流程图。

图2为使用本发明将人脸图片去模糊后的效果。

图3为本发明的inception模块结构图示。

具体实施方式

对于一模糊人脸图片，将其去模糊，可以采用图1所介绍的方法实施。

具体流程为：

1.训练

(1)使用前处理网络同时生成图片的低频信息和语义分割

使用前处理网络同时拟合低频信息和语义分割。使用语义分割和低频信息损失函数的加权预训练好前处理网络；

(2)使用多尺度网络恢复清晰图片

将前处理网络生成的语义分割、低频信息还有模糊图片拼接，输入多尺度网络进行去模糊。损失函数为多尺度内容损失；

(3)联合high-level任务训练

前处理网络和多尺度网络统称为去模糊网络。在去模糊网络的末端加上人脸的high-level任务。以high-level任务的结果为损失函数，同时加上去模糊图片和清晰图片的perception loss；

(4)组合整体损失函数

使用整体损失函数统一训练去模糊网络。

2.测试

将人脸模糊图片输入去模糊网络，得到清晰图片。

图2为本发明的实例，其中图2(a)为清晰图片，图2(b)为模糊图片，图2(c)为去模糊图片；可以看出，本发明的方法在人脸图像被模糊破坏的情况下，可以同时恢复人脸的结构信息和细节信息。

参考文献

[1]Liu S,Yang J,Huang C,et al.Multi-objective convolutional learningfor face labeling.IEEE Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2015.

[2]Pan J,Hu Z,Su Z,et al.L0-Regularized Intensity and Gradient Priorfor Deblurring Text Images and Beyond.IEEE Transactions on Pattern Analysis&Machine Intelligence,2017,39(2):342-355.

[3]Nah,Seungjun,T.H.Kim,and K.M.Lee."Deep Multi-scale ConvolutionalNeural Network for Dynamic Scene Deblurring."IEEE Conference on ComputerVision and Pattern Recognition,July 2017.

[4]Tao X,Gao H,Wang Y,et al.Scale-recurrent Network for Deep ImageDeblurring.IEEE Conference on Computer Vision and Pattern Recognition,June2018.

[5]Shen Z,Lai W S,Xu T,et al.Deep Semantic Face Deblurring.IEEEConference on Computer Vision and Pattern Recognition,June 2018.。

Claims

1.一种基于分离低高频的多尺度人脸图像去模糊算法，其特征在于，具体步骤如下：

(1)使用前处理网络同时生成图片的低频信息和语义分割

使用Encoder-Decoder网络，在网络的末尾分别用一个卷积层去拟合低频信息和语义分割；训练时，低频信息用欧式距离作为损失函数，语义分割用softmax作为损失函数，两个损失函数的加权和为前处理网络的总体损失函数：

L_semantic＝-logP(y_i＝k|x_i,θ) (1.4)

L_pre＝αL_low+βL_semantic (1.5)

其中，L_low表示低频信息的损失函数，n表示一个batch的数据的数目，c表示通道的数目，h、w表示图像的长、宽；l表示低频信息，表示生成的低频信息；L_semantic表示语义分割的损失函数，x和y分别表示第i个像素的值以及ground truth的类别，θ表示前处理网络的参数；L_pre表示前处理网络的整体损失函数,α,β表示低频损失函数和语义分割损失函数的权重；

(2)使用多尺度网络恢复清晰图片

将前处理网络生成的语义分割、低频信息还有模糊图片拼接，输入多尺度网络进行去模糊；所述多尺度网络包括两个层次的多尺度：一为人脸图片大小的放缩，二为网络的基本模块，用inception网络模块；在同一个网络的深度，使用多个不同大小的感受野去提取不同尺度的特征，然后进行特征融合；

前处理网络和多尺度网络统称为去模糊网络；

(3)联合high-level任务训练

人脸的high-level任务包括人脸识别、特征点检测；在去模糊网络的最后，加上一个high-level网络；该人脸识别网络经过预训练，参数固定，将去模糊网络恢复的清晰图片输入人脸识别网络，然后计算识别结果的损失函数，接着计算损失函数对恢复图片以及去模糊网络参数的梯度，同时加上perception loss控制特征级别的差别，最后更新去模糊网络的参数。

2.根据权利要求1所述的基于分离低高频的多尺度人脸图像去模糊算法，其特征在于，步骤(2)中使用的inception网络模块，在同一个网络深度，用1x1、3x3、5x5和7x7的卷积核去提取不同尺度的特征，最后使用5x5的卷积核将抽取到的不同感受野的特征融合到一起，在网络宽度的层次抽取和融合多尺度特征；

其中，L_M表示多尺度网络的损失函数，n表示图像放缩尺度的数目，N_i表示第i个尺度的图像的像素数目，I_i表示第i个尺度的ground truth的清晰图像，表示第i个尺度的去模糊图片。

3.根据权利要求2所述的基于分离低高频的多尺度人脸图像去模糊算法，其特征在于，使用人脸识别的分类结果作为损失函数，又使用perception loss，来控制去模糊图片和清晰图片在特征层面的差距：

其中，L_p表示perception loss，φ表示训练好的vgg网络。

4.根据权利要求3所述的基于分离低高频的多尺度人脸图像去模糊算法，其特征在于，组合整体损失函数为：

L＝λ_preL_pre+λ_ML_M+λ_pL_p+λ_HL_H (1.8)

其中，λ_pre,λ_M,λ_p,λ_H表示损失函数的权重，L_H表示识别网络的损失函数。