CN108596838B

CN108596838B - 一种基于学习的单帧人脸图像超分方法及装置

Info

Publication number: CN108596838B
Application number: CN201810439010.3A
Authority: CN
Inventors: 张樯; 侯棋文; 赵凯; 张挺; 李斌
Original assignee: Beijing Institute of Environmental Features
Current assignee: Beijing Institute of Environmental Features
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2022-02-18
Anticipated expiration: 2038-05-09
Also published as: CN108596838A

Abstract

本发明涉及图像处理技术领域，提供了一种基于学习的单帧人脸图像超分方法及装置，该方法包括：根据训练用的高分辨率图像及对应的低分辨率图像分别建立低分辨率字典和高分辨率字典，其中所述低分辨率图像由所述高分辨率图像降采样后获得；根据所述低分辨率字典计算特征空间下的低分辨率字典，根据测试用的低分辨率图像计算特征空间下的低分辨率输入的新特征，并计算通过特征空间下的低分辨率字典训练得到的编码系数；基于所述编码系数和高分辨率字典重建超分后的高分辨率图像。本发明可以满足对低分辨率人脸的高分辨率显示，从而提升人脸识别的准确率。

Description

一种基于学习的单帧人脸图像超分方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于学习的单帧人脸图像超分方法及装置。

背景技术

目前我们的现实生活中应用了很多识别算法，而这些识别算法大多依赖于人体的一些生物特征，如指纹、虹膜、静脉、人脸等等。虽然这些生物特征都有自己的特性，但是面临着如何采集到满足算法的实验样本的困难。如指纹识别，虽然与其相关的算法已经得到了广泛的应用，接触式采集的本质造成了采集样本的不确定性，所以关于指纹的精确采集仍然是现在难题，而且目前使用的一些指纹采集器有成本偏高，无法大规模使用的问题。虹膜识别虽然以其高精度的识别率而著称，甚至还有人因为这个原因把它与银行支付相关联，但是目前市场上仍然很难看到一款低成本的虹膜采集器。静脉识别面临着同样的问题，因为它还需要强光才能把人的静脉显示出来，这进一步提高了数据采集的难度。

人脸识别却可以在一定程度上克服这些问题，因为人脸不但有有采集非接触性、采集非强制性这些有利于数据采集的特征，而且还具有唯一性、特征丰富性等这些有利于识别的特征，所以最近几年人脸识别已经越来越得到重视。不过人脸虽然有上面的多种特性，而且人脸图像的获取因为数码照相爆炸式的发展也越来越容易，可是并不代表人脸识别就是一个极其理想的识别系统。这不但因为算法的鲁棒性的问题，而且很大原因上是因为自然环境中拍摄人脸时有各种各样的场景，其中一个最不利于人脸识别的场景就是低分辨率的问题。因此人脸超分是目前一个重要的研究方向。

发明内容

本发明要解决的技术问题在于，针对现有技术中的上述缺陷，提供了一种基于学习的单帧人脸图像超分方法及装置。

为了解决上述技术问题，本发明提供了一种基于学习的单帧人脸图像超分方法，包括：

根据训练用的高分辨率图像及对应的低分辨率图像分别建立低分辨率字典和高分辨率字典，其中所述低分辨率图像由所述高分辨率图像降采样后获得；

根据所述低分辨率字典计算特征空间下的低分辨率字典，根据测试用的低分辨率图像计算特征空间下的低分辨率输入的新特征，并计算通过特征空间下的低分辨率字典训练得到的编码系数；

基于所述编码系数和高分辨率字典重建超分后的高分辨率图像。

可选地，所述根据训练用的高分辨率图像及对应的低分辨率图像分别建立低分辨率字典和高分辨率字典，包括：

对高分辨率图像及对应的低分辨率图像进行分块，得到相同数量的高分辨率块和低分辨率块；

以

表示建立的高分辨率字典，

表示建立的低分辨率字典，其中d_h，d_l分别表示高分辨率块的大小和低分辨率块的大小，N表示训练样本的个数，x_k和y_k分别表示由高分辨率块和低分辨率块中的像素构成的列向量。

可选地，所述根据所述低分辨率字典计算特征空间下的低分辨率字典，包括：

通过以下公式计算特征空间下的低分辨率字典D_new-l：

其中，M为新特征的维数，N为训练样本的大小，p_k ^T(i,j)为通过非线性变换和相关性分析之后的新低分辨率特征，为矩阵

的特征向量，其中K为对低分辨率字典D_l进行高斯变换后的第一核矩阵。

可选地，所述根据测试用的低分辨率图像计算特征空间下的低分辨率输入的新特征，包括：

(1)通过以下公式计算Φ(D_l)^Tr和参数λ；

其中K为所述第一核矩阵，D_h为高分辨率字典，D_l为低分辨率字典，Φ(D_l)为低分辨率字典D_l的非线性映射，通过求矩阵

的特征值和特征向量分别得到λ和Φ(D_l)^Tr，其中所求的特征向量就是低分辨率图像在特征空间下的新特征D_new-l；

(2)通过以下公式计算特征空间下的低分辨率输入的新特征y_new：

其中，K(·,y)为第二核矩阵，且K(·,y)＝[K(y₁,y),...K(y_N,y)]^T，其中y₁至y_N为低分辨率字典D_l中的低分辨率块，y为测试用的低分辨率图像中对应低分辨率块的列向量。

可选地，所述计算通过低分辨率字典训练得到的编码系数，包括：

通过以下公式计算编码系数

其中，D_new-l为特征空间下的低分辨率字典，γ为预设参数，I为单位矩阵，y_new为特征空间下的低分辨率输入的新特征。

可选地，所述基于所述编码系数和高分辨率字典重建超分后的高分辨率图像，包括：

通过以下公式计算超分后的高分辨率图像：

其中，x为超分后的高分辨率图像的高分辨率块，D_h为所述高分辨率字典，

为编码系数。

本发明还提供了一种基于学习的单帧人脸图像超分装置，包括：

字典建立模块，用于根据训练用的高分辨率图像及对应的低分辨率图像分别建立低分辨率字典和高分辨率字典，其中所述低分辨率图像由所述高分辨率图像降采样后获得；

编码系数计算模块，用于根据所述低分辨率字典计算特征空间下的低分辨率字典，根据测试用的低分辨率图像计算特征空间下的低分辨率输入的新特征，并计算通过特征空间下的低分辨率字典训练得到的编码系数；

图像超分模块，用于基于所述编码系数和高分辨率字典重建超分后的高分辨率图像。

可选地，所述字典建立模块对高分辨率图像及对应的低分辨率图像进行分块，得到相同数量的高分辨率块和低分辨率块；并以

表示建立的高分辨率字典，

表示建立的初始低分辨率字典，其中d_h，d_l分别表示高分辨率块的大小和低分辨率块的大小，N表示训练样本的个数，x_k和y_k分别表示由高分辨率块和低分辨率块中的像素构成的列向量。

可选地，所述编码系数计算模块包括：

第一处理单元，用于通过以下公式计算特征空间下的低分辨率字典D_new-l：

的特征向量，其中K为对低分辨率字典D_l进行高斯变换后的第一核矩阵；

第二处理单元，用于根据测试用的低分辨率图像计算特征空间下的低分辨率输入的新特征，包括：

(1)通过以下公式计算Φ(D_l)^Tr和参数λ；

的特征值和特征向量分别得到λ和Φ(D_l)^Tr；

第三处理单元，通过以下公式计算编码系数

可选地，所述图像超分模块通过以下公式计算超分后的高分辨率图像：

为编码系数。

实施本发明实施例提供的基于学习的单帧人脸图像超分方法及装置，至少具有如下有益效果：本发明针对PC环境下人脸分辨率低问题，提供一种基于学习的单帧人脸超分方法及装置，可满足低分辨率人脸的高分辨率显示，从而提升人脸识别的准确率。

附图说明

图1是本发明实施例一所提供基于学习的单帧人脸图像超分方法的流程图；

图2为高分辨率训练集和低分辨率训练集的示意图；

图3为对高分辨率图像和低分辨率图像进行分块的示意图；

图4为高分辨率字典和低分辨率字典的列向量示意图；

图5示出了本发明的超分实验结果；

图6是本发明实施例四所提供基于学习的单帧人脸图像超分装置的示意图；

图7是本发明实施例所提供的基于学习的单帧人脸图像超分装置所在设备的示意图；

图中：601：字典建立模块；602：编码系数计算模块；603：图像超分模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本发明实施例提供的基于学习的单帧人脸图像超分方法，可以包括以下步骤：

步骤S101：根据训练用的高分辨率图像及对应的低分辨率图像分别建立低分辨率字典和高分辨率字典，其中所述低分辨率图像由所述高分辨率图像降采样后获得。

步骤S102：根据所述低分辨率字典计算特征空间下的低分辨率字典，根据测试用的低分辨率图像计算特征空间下的低分辨率输入的新特征，并计算通过特征空间下的低分辨率字典训练得到的编码系数。

步骤S103：基于所述编码系数和高分辨率字典重建超分后的高分辨率图像。

本发明根据构建的字典学习高分辨率人脸与低分辨率人脸之间的非线性映射关系，实现对输入的低分辨率人脸高分辨率表示。优选地，采用半-核偏最小二乘法来构建训练样本的特征空间，协同表达用来获取映射系数，通过线性系数与输入的低分辨率人脸加权求和获取高分辨率人脸。

实施例二

因为本发明的方法是基于学习的，所以需要进行机器学习的训练字典。本发明使用的字典有两个，而且是成对出现的，一个是用于训练的低分辨率字典，一个是用于重建高分实验结果的高分辨率字典。本发明的输入是低分测试样本，通过低分训练字典的训练得到相关的编码系数，再由相应的高分辨率字典重建获得高分实验结果。

在实施例一所提供基于学习的单帧人脸图像超分方法的基础上，步骤S101中根据训练用的高分辨率图像及对应的低分辨率图像分别建立低分辨率字典和高分辨率字典的过程，具体可以通过如下步骤实现：

1)对高分辨率图像及对应的低分辨率图像进行分块，得到相同数量的高分辨率块和低分辨率块。

本发明的方法是在人脸识别技术工程(FERET)库中人脸图像进行试验，如图2列出了由随机选择的图像构成的训练样本集。其中，高分辨率图像是通过从FERET库中直接随机选择获得的，构成本发明使用的高分训练集。而低分辨率图像如图所示，是通过对高分训练集中的图像降采样获得的，构成低分训练集。优选地，对高分训练集中的图像进行事先配准，其配准的方式是通过对眼睛和嘴巴进行三点法的手工配准。

有了高分训练集和低分训练集，本发明就可以对其中高分辨率图像和低分辨率图像进行分块如图3所示，其中图3中X_k(i,j)表示高分样本集中的第k个图像，而(i,j)代表高分辨率块的坐标位置。当然为了重建高分实验结果，高分辨率块的个数和低分辨率块的个数是相同的。图中y_k(i,j)就表示由X_k(i,j)降采样得到的低分辨率块。优选地，本发明在对高分辨率图像和低分辨率图像进行分块时，块与块之间有重叠部分，如图3所示。这是因为本发明是对每一块进行训练的，所以在重建的时候同样也是对每一块先进行重建，再由这些重建好的块拼成最终的高分实验结果。如果块与块之间没有重叠，那么在拼接的过程中就会出现明显的块效应，所以为了避免这种块效应，本发明优选在重叠分块的基础上，拼接的时候把重叠的部分进行加权求和，即对重叠部分的每一个像素值直接进行求平均值即可。

2)以

表示建立的初始的高分辨率字典，

表示建立的初始的低分辨率字典，其中d_h，d_l分别表示高分辨率块的大小和低分辨率块的大小，N表示训练样本的个数，x_k和y_k分别表示由高分辨率块和低分辨率块中的像素构成的列向量，其中按照像素坐标位置依次获取每块的像素值构成训练字典，其具体的表示过程如图4所示，其中a，b，c，d，e，f，g，h和i分别表示每个位置的像素值，整体按照列数从小到大进行获得，而每列中按照行数从小到大获得每个位置的像素值。通过这样的分块本发明就可以获得初始的训练字典D_h和D_l。

实施例三

在实施例二所提供基于学习的单帧人脸图像超分方法的基础上，优选地，步骤S102中根据所述低分辨率字典计算特征空间下的低分辨率字典的过程，具体可以通过以下公式计算特征空间下的低分辨率字典D_new-l：

优选地，步骤S102中根据测试用的低分辨率图像计算特征空间下的低分辨率输入的新特征的过程，具体可以通过如下步骤实现：

(1)通过以下公式计算Φ(D_l)^Tr和参数λ；

其中K为所述第一核矩阵，D_h为高分辨率字典，D_l为低分辨率字典，Φ(D_l)为低分辨率字典D_l的非线性映射；

优选地，步骤S102中计算通过低分辨率字典训练得到的编码系数的过程，具体可以通过以下公式计算编码系数

优选地，步骤S103中基于所述编码系数和高分辨率字典重建超分后的高分辨率图像的过程，具体可以通过以下公式计算超分后的高分辨率图像：

为编码系数。

本发明是基于非线性相关特征映射来构建高分辨率人脸与低分辨率人脸之间的关系的。下面介绍本发明上述计算过程中各公式的原理及推导过程。

本发明基于半-核偏最小二乘法(Semi-KPLS)实现，Semi-KPLS的目标函数如下：

式中var,corr分别表示方差和相关性，半-核偏最小二乘法确实既使得方差最大，保证了所谓的低分和高分编码系数系数在理论上的统一性。r和s分别表示映射向量，不过在Semi-KPLS中表示映射矩阵。因为在核偏最小二乘回归法中，每一步迭代只提取特征值最大的特征向量，所以每一步迭代其特征的维数只有一维，所以r和s表示映射向量。然而，在本发明定义的Semi-KPLS中，并没有迭代的过程，本发明需要寻找一个映射矩阵，通过原始特征与映射矩阵相乘，直接获得新的特征，所以此时的r和s表示映射矩阵。其中Φ(D_l)表示低分辨率字典D_l非线性映射，通过这个非线性映射，可以把低分辨率字典D_l低维特征映射到高维空间上去。根据核空间与分类器结合的理论可知，在低维空间不具有线性特性的特征，通过非线性映射到高维空间形成的新的特征具有线性特性。这也是本发明通过核映射建立线性空间的理论基础。通过核函数的概念可知，并不需要知道非线性映射Φ(·)的具体的显示表达式，而只需知道通过核函数构建的核矩阵的显示表达式即可。因为所谓的高斯核函数可以把特征投影到无穷维，更能保证了投影后特征之间的线性关系，其具体表达式如下所示：

K(y_m,y_n)＝Φ(y_m)^TΦ(y_n)＝exp(-||y_m-y_n||²/2σ²) (7)

式中K(y_m,y_n)为核矩阵，y_m和y_n为初始的低分辨率字典中的列向量，m和n为低分辨率字典中的任意两个列向量标号。σ是方差，用来控制高斯核的宽度。通过非线性投影Φ(·)后初始的低分辨率字典：

其中D就是经过非线性映射后特征的维数，不过根据核函数的概念可知也没有必要知道这个数的具体数值。当然同PLS的推导过程一样，式(6)的等价方程如下表示：

上式中可以看出，这个方程类似于主成分分析中的方程，即由特征向量构成映射矩阵。为了得到Φ(Dl)在映射矩阵r下的新的特征，我们把Φ(D_l)乘以上式的两端，如下所示：

因为我们对核函数的定义如下：

K＝Φ(D_l)^TΦ(D_l)＝K(y_i,y_j) (11)

所以上式(10)可以变换为上述式(2)。

通过式(2)可以看出要想获得特征空间下的新的特征向量，只需求得矩阵

的特征向量即可，其中K为对低分辨率字典D_l进行高斯变换后的第一核矩阵，计算公式如(11)所示，其中y_i和y_j为低分辨率字典中任意两个低分辨率的块。因此，特征空间下的低分辨率字典即新的训练字典可以推导出由式(1)表示。

新的训练字典构造完成后，为了对测试用的低分辨率图像进行超分，先要将测试用的低分辨率图像采用如步骤S101中的方法对图像进行同样的分块，得到输入的低分辨率块，将其在新的训练字典下线性表示。因此，必须先把输入的低分辨率块同样通过映射矩阵r，映射到相同的空间中去，同样本发明把输入的低分辨率块表示为y，那么先把y通过非线性变换为Φ^T(y)，然后再把Φ^T(y)乘以式(9)的两端可以得到如下形式：

其中Φ^T(y)Φ(D_l)可以通过下式表示：

Φ^T(y)Φ(D_l)＝K(·,y)＝[K(y₁,y),...K(y_N,y)]^T (13)

所以联合式(12)和式(13)可以得到输入低分辨率的新特征y_new如式(3)所示，其中K(·,y)为第二核矩阵，第二核矩阵K(·,y)与第一核矩阵只是输入的变量不同。第二核矩阵K(·,y)的计算公式如(13)，其中y₁至y_N为低分辨率字典D_l中的低分辨率块，y为测试用的低分辨率图像中对应低分辨率块的列向量。通过上面的推导过程，本发明获得了在非线性相关矩阵映射下的新的训练字典和新的输入特征。下面本发明就可以通过求解线性表达的方法确定在新的特征下的低分辨率的编码系数。

虽然稀疏表达有较高的稀疏性，但是在现实中过完备字典是很难获得的，如果我们不能保证字典的绝对过完备性，那么此时的稀疏表达的准确度会明显降低。而协同表达虽然降低了编码系数的稀疏性，但是能够更好表示输入图像与训练图像之间的关系，其目标函数的表达式如下：

其中α就是本发明要求的编码系数，Φ是训练字典，y是输入向量，然后我们把对应的参数用上一步产生的新的训练字典和输入特征代替：

对式(15)其求偏导，最终的结果如公式(4)所示。从公式(4)来看，本发明不需要迭代过程，或者像稀疏表达那样的贪婪算法，所以很容易求得编码系数

对测试用的低分辨率图像进行超分后得到的高分辨率图像，可以由式(5)计算的最终的高分辨率块构成。

由此可见，本发明构造的特征空间，即保证了特征之间的线性关系，而且最大化了低分特征与高分特征之间的相关性。所以在该特征下通过训练得到的低分编码系数与高分编码系数具有较高的一致性。正是有了这种较高的一致性，本发明才把获得的低分编码系数直接用来重建高分实验结果。当然通过(5)式求得所有的高分辨率块后，本发明可以将块与块之间重叠的部分进行加权平均，有效的消除块效应。

本发明对实施例三的方法进行了验证。从FERET随机选取300张不同的人脸作为原始的训练库。对这些人脸进行人工配准和截取，获得300张大小为126*126人脸图像并由它们构成高分样本集。对上述的高分样本集进行下采样，获得300张18*18的低分人脸并由它们构成低样本集。在式(7)中σ设置为100，在式(4)中γ＝1.0×10^-6，降维的维数M设置为100。图5显示了该实施例的实验结果，如图5中所示，左边一列是输入的测试用低分辨率图像，中间是经本发明超分后得到的高分辨率图像，右边是现实的高分辨率原图，也就是通常说的ground-true。通过主观的对比发现，本发明实验结果完整的保持了人脸的整体特征。

实施例四

如图6所示，本发明实施例提供的基于学习的单帧人脸图像超分装置，可以包括：字典建立模块601、编码系数计算模块602和图像超分模块603。

字典建立模块601用于根据训练用的高分辨率图像及对应的低分辨率图像分别建立低分辨率字典和高分辨率字典，其中所述低分辨率图像由所述高分辨率图像降采样后获得。该字典建立模块601执行的操作与前述方法中步骤S101相同。

编码系数计算模块602用于根据所述低分辨率字典计算特征空间下的低分辨率字典，根据测试用的低分辨率图像计算特征空间下的低分辨率输入的新特征，并计算通过特征空间下的低分辨率字典训练得到的编码系数。该编码系数计算模块602执行的操作与前述方法中步骤S102相同。

图像超分模块603用于基于所述编码系数和高分辨率字典重建超分后的高分辨率图像。该图像超分模块603执行的操作与前述方法中步骤S103相同。

可选地，字典建立模块601对高分辨率图像及对应的低分辨率图像进行分块，得到相同数量的高分辨率块和低分辨率块；并以

表示建立的高分辨率字典，

可选地，编码系数计算模块602包括：第一处理单元、第二处理单元和第三处理单元。

第一处理单元用于通过以下公式计算特征空间下的低分辨率字典D_new-l：

第二处理单元用于根据测试用的低分辨率图像计算特征空间下的低分辨率输入的新特征，包括：

(1)通过以下公式计算Φ(D_l)^Tr和参数λ；

其中K为所述第一核矩阵，D_h为高分辨率字典，D_l为低分辨率字典，Φ(D_l)为低分辨率字典D_l的非线性映射，通过求矩阵KD_h ^TD_h的特征值和特征向量分别得到λ和Φ(D_l)^Tr；

第三处理单元通过以下公式计算编码系数

可选地，图像超分模块通过以下公式计算超分后的高分辨率图像：

为编码系数。

另外需要说明的是，本发明实施例提供的基于学习的单帧人脸图像超分装置，可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图7所示，为本发明实施例提供的微动特征获取装置所在设备的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图6所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。例如，本发明提出的基于学习的单帧人脸图像超分装置作为一种高清远距离人脸识别系统，其软件代码采用VC++编程实现。

综上所述，本发明针对PC环境下人脸分辨率低问题，设计一种基于学习的单帧人脸超分方法及装置，可在满足对低分辨率的人脸高分辨率显示，从而提升人脸识别的准确率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。