CN108171325A

CN108171325A - 一种多尺度人脸恢复的时序集成网络、编码装置及解码装置

Info

Publication number: CN108171325A
Application number: CN201711460967.8A
Authority: CN
Inventors: 陈志波; 林剑新; 周天贶
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-06-15
Anticipated expiration: 2037-12-28
Also published as: CN108171325B

Abstract

本发明提出了一种多尺度人脸恢复的时序集成网络、编码装置及解码装置，该集成网络集成了多个不同层次的基编解码器，并且进一步的采用时序门来有效的进行多尺度人脸恢复问题。其中，针对多尺度人脸恢复的时序集成网络包括，一个全卷积网络，该全卷积网络包括N个基编码器和N个基解码器，N个基编码器输出N个层次的编码输出，N个基解码器输出N个层次的解码输出；N‑1个时序门单元，在编码端，对于N个层次的编码输出进行顺序地从下到上结合和选择；N‑1个时序门单元，在解码端，对于N个层次的解码输出进行顺序地从上到下的结合和选择。

Description

一种多尺度人脸恢复的时序集成网络、编码装置及解码装置

技术领域

本发明涉及图像信号处理，尤其是一种多尺度人脸恢复的时序集成网络、相应的编码装置及解码装置。

背景技术

在过去的几年里，人脸分析技术取得了显著的进步，比如人脸检测和人脸识别。以此同时，由于监控系统的快速发展，人脸分析技术已经被广泛应用于各种各样的应用，比如犯罪调查。然而，当面临低质量的人脸图片时。大多数人脸分析技术的性能会急剧下降。所以如何从一个低质量人脸恢复出高质量人脸是一个急需解决的挑战。

既然人脸恢复技术在实际应用中有极大的潜力，最近几年许多人脸恢复算法已经相继被提出。有些算法专注于解决人脸超分辨率问题。其他算法在进行人脸超分辨率的同时也把噪声考虑进来。我们观察到大多数现有的人脸恢复算法忽略了一个真实世界图片的重要特性，也就是实际应用中的图片经常包含不同尺度的人脸。并且，当图片被失真严重污染时，人脸检测算法就很难从图片中检测出人脸。所以，我们专注于解决更符合实际应用的人脸恢复问题，也就是多尺度人脸恢复问题。之前的算法通常使用自编码器进行人脸恢复。但是自编码器本身缺少了多尺度的表达，所以对多尺度人脸变换不能进行很好的表达。

发明内容

针对现有的人脸恢复技术的缺陷，本发明提供了一种新的集成网络，该集成网络集成了多个不同层次的基编解码器，并且进一步的采用时序门来有效的进行多尺度人脸恢复问题。

本发明提出了一种更有效多尺度人脸恢复的时序集成网络，有效的解决以下关键技术问题：

1)传统的自编码器缺乏多尺度表达能力，在多尺度人脸恢复这个问题上效果不好。然而本发明集成了多个层次的基自编码器，能够有效地对多尺度输入进行有效的表达，从而获得更好的恢复效果。

2)由于自编码器结构中隐含了在编码器端对输入进行提取高层特征，在解码器端进行低层细节恢复。一些模型对自编码器的结构也进行的改进，比如SRGAN和RED-Net，但是这些网络没有探索多层次特征图之间的隐含层次关系。我们通过添加时序门单元能够顺序地从下到上提取高层特征，并且能顺序地从上到下恢复图像。

本发明提供一种针对多尺度人脸恢复的时序集成网络，其中，该网络包括，

一个全卷积网络，该全卷积网络包括N个基编码器和N个基解码器，N个基编码器输出N个层次的编码输出，N个基解码器输出N个层次的解码输出；

N-1个时序门单元，在编码端，对于N个层次的编码输出进行顺序地从下到上结合和选择；N-1个时序门单元，在解码端，对于N个层次的解码输出进行顺序地从上到下的结合和选择。编码和解码是串行的，所以这里时序门单元为2*(N-1)个。

进一步地，上述针对多尺度人脸恢复的时序集成网络，其中：

所述时序门单元包含由主动输入控制的两个门，一个为主动输入门，一个为被动输入门；

所述在编码端，对于N个层次的编码输出进行顺序地从下到上结合和选择具体为：在编码端，将高层的基编码器输出的高层编码特征输入到主动输入门，将顺序于该高层的低层的基编码器输出的低层编码特征输入到被动输入门，进行顺序的从下到上的结合和选择；

所述在解码端，对于N个层次的解码输出进行顺序地从上到下的结合和选择具体为：在解码端，将低层的基解码器输出的低层解码特征输入到主动输入门，将顺序于该低层的高层的基解码器输出的高层解码特征输入到被动输入门，进行顺序的从上到下的结合和选择。

本发明还提供了一种针对多尺度人脸恢复的时序编码装置，其中：该编码装置位于一个全卷积网络中，包括：

N个基编码器，N个基编码器输出N个层次的编码输出，N个基解码器输出N个层次的解码输出；

N-1个时序门单元，对于N个层次的编码输出进行顺序地从下到上结合和选择。

进一步地，上述针对多尺度人脸恢复的时序编码装置，其中：

所述对于N个层次的编码输出进行顺序地从下到上结合和选择具体为：在编码端，将高层的基编码器输出的高层编码特征输入到主动输入门，将顺序于该高层的低层的基编码器输出的低层编码特征输入到被动输入门，进行顺序的从下到上的结合和选择。

本发明还提供了一种针对多尺度人脸恢复的时序解码装置，其中：该解码装置位于全卷积网络中，包括：

N个基解码器，N个基解码器输出N个层次的解码输出；

N-1个时序门单元，对于N个层次的解码输出进行顺序地从上到下的结合和选择。

进一步地，上述针对多尺度人脸恢复的时序解码装置，其中：

所述时序门单元包含由主动输入控制的两个门，一个为主动输入门，一个为被动输入门；所述对于N个层次的解码输出进行顺序地从上到下的结合和选择具体为：在解码端，将低层的基解码器输出的低层解码特征输入到主动输入门，将顺序于该低层的高层的基解码器输出的高层解码特征输入到被动输入门，进行顺序的从上到下的结合和选择。

本发明具有以下优点和积极效果：

(1)本发明能够对多尺度的人脸失真图像进行自动恢复。

(2)本发明提出了一种时序集成网络，集成了多个层次的基编码器，并且采用顺序地特征结合和选择方法，能够对多尺度输入进行更好的表达，从而对图像进行更好的恢复。

(3)本发明提出了一个时序门单元，能够对多层次特征进行有效的结合和选择。

(4)本发明(SGEN和SGEN-MSE)在公共数据库上取得目前最好的结果，如表格1和表格2所示，PSNR，SSIM和MOS越高越好。

表格1.本发明在公共数据库上性能比较

表格2.本发明在公共数据库上性能比较

附图说明

图1为本发明时序集成网络的具体实施流程图；

图2为本发明采用的时序门单元。

具体实施方式

下面结合图1和图2来说明本发明的具体实施方案。

首先，我们的生成器是一个全卷积网络，全卷积网络的输入理论上可以是任意的尺寸。让我们表示第k个层的编码器特征为x_k，第k个层的解码器特征为y_k，第k个基编码器特征为X_k，第k个基解码器特征为Y_k，并且假设总共有N个基编解码器。给定一个随机尺度的低质量人脸图片样本s，时序集成网络G可以用如下公式表示：

x₁＝lrelu(conv₂(lrelu(conv(s))))，

x_k＝lrelu(conv₂(x_k-1))，k＝2，3，...，N

X₁＝lrelu(conv₂N(x₁))，

X_k＝SGU(lrelu(conv₂N-k+1(x_k))，X_k-1)，k＝2，3，...，N

Y_k＝relu(deconv₂k(X_N-k+1))，k＝1，2，3，...，N

y₁＝relu(deconv₂(Y₁))

y_k＝relu(deconv₂(SGU(Y_k，y_k-1)))，k＝2，3，...，N

G(s)＝tanh(conv(y_N))，

其中G(s)是生成的人脸图像，conv₂k和d∈conv₂k分别是2^k下采样卷积和上采样解卷积操作。SGU是时序门单元。每个卷积层紧接着lrelu激活函数，每个解卷积层紧接着relu激活函数，生成器的最后一层是tanh激活函数。需要注意的是，在不同的卷积，解卷积操作和SGU单元之间没有共享参数。

为了时序地结合和选择多层信息，我们提出了一种时序门单元(SGU)。SGU时序地将两层基编解码器的信息作为输入，并且通过其中一个主动输入决定单元的输出。SGU由以下的公式描述：

f＝σ(conv(x_a))*x_a+σ(conv(x_a))*x_p

其中f是SGU的输出，σ(x)是sigmoid激活函数，x_a是主动输入，x_p是被动输入。在编码端，高层基编码器作为主动输入，低层基编码器作为被动输入，使得网络逐渐提取高层特征。在解码端，低层基编码器作为主动输入，高层基编码器作为被动输入，使得网络逐渐恢复低层丰富细节。

传统的图像恢复问题的目标是最小化恢复图像和原始图像的均方根误差(MSE)。然而，最小化均方根误差经常会导致恢复图像比较模糊。我们提出在模型训练过程中加入生成对抗生成模型中(GAN)的对抗训练过程，使得生成出来的图像更加清晰自然。修改之后的损失函数有如下所示：

其中α是为了取得均方根误差项和对抗训练项平衡的权重。

Claims

1.一种多尺度人脸恢复的时序集成网络，其特征在于：该网络包括，

N-1个时序门单元，在编码端，对于N个层次的编码输出进行顺序地从下到上结合和选择；N-1个时序门单元，在解码端，对于N个层次的解码输出进行顺序地从上到下的结合和选择。

2.根据权利要求1所述的一种多尺度人脸恢复的时序集成网络，其特征在于：

所述在编码端，对于N个层次的编码输出进行顺序地从下到上结合和选择具体为：

在编码端，将高层的基编码器输出的高层编码特征输入到主动输入门，将顺序于该高层的低层的基编码器输出的低层编码特征输入到被动输入门，进行顺序的从下到上的结合和选择；

3.一种多尺度人脸恢复的时序编码装置，其特征在于：该编码装置位于一个全卷积网络中，包括：

4.根据权利要求3所述的一种多尺度人脸恢复的时序编码装置，其特征在于：

所述对于N个层次的编码输出进行顺序地从下到上结合和选择具体为：

在编码端，将高层的基编码器输出的高层编码特征输入到主动输入门，将顺序于该高层的低层的基编码器输出的低层编码特征输入到被动输入门，进行顺序的从下到上的结合和选择。

5.一种多尺度人脸恢复的时序解码装置，其特征在于：该解码装置位于全卷积网络中，包括：

N个基解码器，N个基解码器输出N个层次的解码输出；

6.根据权利要求5所述的一种多尺度人脸恢复的时序解码装置，其特征在于：

所述对于N个层次的解码输出进行顺序地从上到下的结合和选择具体为：

在解码端，将低层的基解码器输出的低层解码特征输入到主动输入门，将顺序于该低层的高层的基解码器输出的高层解码特征输入到被动输入门，进行顺序的从上到下的结合和选择。