CN111160487B

CN111160487B - 人脸图像数据集的扩充方法和装置

Info

Publication number: CN111160487B
Application number: CN201911421810.3A
Authority: CN
Inventors: 朱军; 周聿浩; 石佳欣
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2024-02-13
Anticipated expiration: 2039-12-31
Also published as: CN111160487A

Abstract

本发明实施例提供一种人脸图像数据集的扩充方法和装置，该方法包括：确定人脸图像数据集和预计扩充图像个数；采用所述人脸图像数据集中的图像训练变分自编码器，确定所述变分自编码器的参数，其中，所述变分自编码器包括编码器和解码器；将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器，得到预计扩充图像个数的图像；其中，所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的。本发明实施例提供的方法和装置，提高了人脸图像数据集的扩充的可靠性。

Description

人脸图像数据集的扩充方法和装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种人脸图像数据集的扩充方法和装置。

背景技术

随着人工智能领域的飞速发展，越来越多的技术都开始采用机器学习的方法进行大量数据的学习和处理。目前，人脸图像数据集可以用作各种研究，但是通常靠现实中采集自然人的人脸图像的数目受到个人隐私的限制而有限，因此，我们如果需要获得较大样本量的人脸图像数据集可以在已有的人脸图像的基础上再生成更多的人工合成的人脸图像，这个再生过程就是人脸图像数据集的扩充。在人脸图像数据集的扩充的过程中采用机器学习来生成更多的人脸图像，通常需要训练变分自编码器，但是在目前在复杂的变分自编码器的训练过程中难以计算对数概率密度函数梯度。

由于变分自编码器的训练通常只利用对数密度函数的梯度，并且较为容易从相应密度函数中进行采样，因此利用样本直接对所述梯度进行估计是一种方法。直接最小化Fisher散度是一个较为有效的估计对数密度函数梯度的方法，此外还有一部分基于Stein方法的梯度估计。虽然这类方法取得了一定的成功，但大部分现有的算法不能保证所估计的梯度具有梯度场的保守性，这在高维情况下可能会影响估计的准确性，另外的一小部分基于核方法的梯度估计虽然能够保证所估计的梯度的保守性，但其的计算复杂度很高，无法适应高维或样本数庞大的情况。

因此，如何避免基于训练变分自编码器来扩充人脸图像数据集的方法中估计的对数概率密度函数梯度缺乏保守性，无法适应高维或样本数庞大的情况，提高人脸图像数据集扩充的可靠性，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明实施例提供一种人脸图像数据集的扩充方法和装置，用以解决现有的基于训练变分自编码器来扩充人脸图像数据集的方法中估计的对数概率密度函数梯度缺乏保守性，无法适应高维或样本数庞大的情况的问题。

第一方面，本发明实施例提供一种人脸图像数据集的扩充方法，包括：

确定人脸图像数据集和预计扩充图像个数；

采用所述人脸图像数据集中的图像训练变分自编码器，确定所述变分自编码器的参数，其中，所述变分自编码器包括编码器和解码器；

将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器，得到预计扩充图像个数的图像；

其中，所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的。

优选地，该方法中，所述编码器的输入为图像数据，输出为对应于每一幅输入图像的图像矢量描述；

所述解码器的输入为图像矢量描述，输出为对应于每一个输入图像矢量描述的图像。

优选地，该方法中，基于所述人脸图像数据集中的图像训练所述变分自编码器，具体包括：

确定第一训练次数以及每次训练需要的第一图像个数；

每次训练中，采用第一图像个数的图像进行训练，计算需要最小化的目标函数关于待优化的编码器的参数的第一梯度，计算需要最小化的目标函数关于待优化的解码器的参数的第二梯度；

基于所述第一梯度和所述第二梯度，利用随机优化器更新所述编码器的参数和所述解码器的参数；

经过第一训练次数的训练后，确定所述编码器的参数和所述解码器的参数。

优选地，该方法中，所述需要最小化的目标函数为：

E_px(x)E_q(z|x)[|x-G(z)|²]+λ·KL(q(z),p(z))

其中，z为编码器输出的图像描述矢量，x为输入的编码器的图像数据，p(z)为期望的图像描述矢量的分布，q(z)为编码器输出的图像描述矢量的分布，q(z|x)是编码器决定的图像描述矢量近似后验分布，λ为正则化系数，KL(q(z),p(z))表示期望的图像描述矢量的分布p(z)和编码器输出的图像描述矢量的分布q(z)之间的Kullback-Leibler散度，G(z)表示解码器的输出图像；

所述第一梯度为：

其中，φ是编码器的参数，G_φ是通过反向传播技术计算的函数关于φ的梯度，M是每次训练中输入的图像的个数，x_m是输入编码器的图像数据，每次训练输入编码器的图像数据为x₁,…,x_M，y_m是解码器输出的对应于x_m的图像数据，z_m是编码器输出的对应于x_m的图像描述矢量，λ为正则化系数，q(z_m)为期望的图像描述矢量的分布，为利用标准反向传播技术计算的梯度；

所述第二梯度为G_θ，θ是解码器的参数，所述第二梯度是通过反向传播技术计算的函数关于θ的梯度，M是每次训练中输入的图像的个数，x_m是输入编码器的图像数据，每次训练输入编码器的图像数据为x₁,…,x_M，y_m是解码器输出的对应于x_m的图像数据。

优选地，该方法中，通过z₁,…,z_M确定其中m＝1,…,M，具体包括：

确定径向标量值正定核其中，/>为实值函数，z和z′为函数变量；

所述径向标量值正定核对应的矩阵值核

基于所述矩阵值核确定核矩阵K，所述核矩阵由M×M个分块组成，每个分块的第i行第j列的元素为K(z_i,z_j)，其中，i＝1,…,M，j＝1,…,M，对核矩阵进行谱分解，得到最大的J个特征值λ₁≥λ₂≥…≥λ_J以及对应的特征向量u₁,u₂,…,u_J，将每个特征向量切为M块每块长度为d的向量，第i个特征向量的第j块记为u_ij；

基于如下公式确定其中，m＝1,…,M，

其中，div_zK(z,z′)为矩阵值核K(z,z′)每一列关于参数z的散度构成的行向量，z_s为编码器输出的图像描述z₁,…,z_M中第s个图像描述，z_t为编码器输出的图像描述z₁,…,z_M中第t个图像描述，u_jt为第j个特征向量的第t块，λ_j为J个特征向量λ₁≥λ₂≥…≥λ_J中第j个特征向量，z_r为编码器输出的图像描述z₁,…,z_M中第r个图像描述，u_jr为第j个特征向量的第r块。

优选地，该方法中，若|J-M×d|小于预设阈值，

确定正则化系数η；

利用共轭梯度方法求解方程(K²+ηI)e＝b，其中，b＝[b₁b₂…b_M]^T, 为矩阵值核K(z_m,z_i)每一列关于参数z_m的散度构成的行向量，z_m为编码器输出的图像描述z₁,…,z_M中第m个图像描述，z_i为编码器输出的图像描述z₁,…,z_M中第i个图像描述；

求解上述方程得到e后，通过如下公式确定其中m＝1,…,M，

其中，

所述利用共轭梯度方法求解方程(K²+ηI)e＝b，具体包括：

确定最大迭代次数k_max，迭代停止误差∈，迭代初始值e₀；

步骤S1，令r₀＝b-K²e₀-ηe₀，k＝0；

步骤S2，令

步骤S3，令e_k+1＝e_k+α_kr_k；

步骤S4，令r_k+1＝b-K²e_k-ηe_k；

步骤S5，令k＝k+1；

步骤S6，若k<k_max且||r_k||₂>∈||b||₂，则跳转至步骤S2，否则方程的解e为e_k+1。

第二方面，本发明实施例提供一种人脸图像数据集的扩充装置，包括：

确定单元，用于确定人脸图像数据集和预计扩充图像个数；

训练单元，用于采用所述人脸图像数据集中的图像训练变分自编码器，确定所述变分自编码器的参数，其中，所述变分自编码器包括编码器和解码器；

扩充单元，用于将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器，得到预计扩充图像个数的图像；

优选地，该装置中，所述编码器的输入为图像数据，输出为对应于每一幅输入图像的图像矢量描述；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的人脸图像数据集的扩充方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的人脸图像数据集的扩充方法的步骤。

本发明实施例提供的一种人脸图像数据集的扩充方法和装置，通过确定人脸图像数据集和预计扩充图像个数；采用所述人脸图像数据集中的图像训练变分自编码器，确定所述变分自编码器的参数，其中，所述变分自编码器包括编码器和解码器；将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器，得到预计扩充图像个数的图像；其中，所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的，使得基于样本的对数概率密度函数梯度的估计存在保守性，可以适应高维或样本数庞大的情况。如此，提高了人脸图像数据集的扩充的可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的人脸图像数据集的扩充方法的流程示意图；

图2为本发明实施例提供的人脸图像数据集的扩充装置的结构示意图；

图3为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的基于训练变分自编码器来扩充人脸图像数据集的方法中估计的对数概率密度函数梯度缺乏保守性，无法适应高维或样本数庞大的情况。对此，本发明实施例提供了一种身份验证方法。图1为本发明实施例提供的人脸图像数据集的扩充方法的流程示意图，如图1所示，该方法包括：

步骤110，确定人脸图像数据集和预计扩充图像个数。

具体地，首先确定需要扩充的原始人脸图像数据集和预计扩充的图像个数。例如，需要扩充的原始人脸图像数据集是一个包含了一万张南亚男性人脸的图像数据集，而预计扩充的图像个数为十万张，即人脸图像数据集的扩充是要将这包含了一万张南亚男性人脸的图像数据集扩充成包含十万张人脸的图像数据集。

步骤120，采用所述人脸图像数据集中的图像训练变分自编码器，确定所述变分自编码器的参数，其中，所述变分自编码器包括编码器和解码器；

其中，所述变分自编码器是基于所述人脸图像数据集中的图像训练得到的；变分自编码器的训练过程中变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的。

具体地，将人脸图像数据集中的图像数据和预计扩充图像个数输入变分自编码器，即可输出预计扩充个数的图像，而所述变分自编码是基于输入的人脸图像数据集中的图像数据训练得到的，而变分自编码器的训练过程是需要不断计算需要最小化的目标函数关于变分自编码器的参数的梯度的数值从而依据该数值实现变分自编码器的参数的更新，而该数值是由样本基于Stein等式和Nystrom算法得到的，所述样本指人脸图像数据集中的图像，具体地，在向量值再生核希尔伯特空间中建模对数概率密度函数的梯度，利用积分算子特征函数作为正交基将梯度进行展开并截断至有限项，利用Stein等式计算展开系数，扩展Nystrom算法，利用样本估计所述积分算子的向量值特征函数，根据Stein等式计算展开系数和所述积分算子的向量值特征函数获得需要最小化的目标函数关于变分自编码器的参数的梯度。

步骤130，将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器，得到预计扩充图像个数的图像。

具体地，训练过后得到编码器的参数和解码器的参数，将期望的图像矢量描述进行采样，采样个数为预计扩充图像个数，将采样后的图像矢量描述输入解码器，从而输出的为预计扩充图像个数的图像。

本发明实施例提供的人脸图像数据集的扩充方法，通过将人脸图像数据集中的图像数据和预计扩充图像个数输入变分自编码器，输出预计扩充图像个数的图像，所述预计扩充图像个数大于人脸图像数据集中图像的个数；其中，所述变分自编码器是基于所述人脸图像数据集中的图像训练得到的；变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的，使得基于样本的对数概率密度函数梯度的估计存在保守性，可以适应高维或样本数庞大的情况。如此，提高了人脸图像数据集的扩充的可靠性。

基于上述实施例，该方法中，所述编码器的输入为图像数据，输出为对应于每一幅输入图像的图像矢量描述；

具体地，变分自编码器包括编码器和解码器，其主要用于学习数据的分布和数据的表示，编码器输入一个数据，输出它的表示，解码器输入数据的表示，输出原始数据，同时，作为一个生成模型，变分自编码器能够对数据的分布进行建模，即解码器能够将预先指定的简单表示的分布转换为原始数据的分布，即能够生成新的原始数据。将人脸图像数据集中的图像数据输入编码器，输出对应于每一幅图像的图像矢量描述，例如，输入的图像是一个480×480像素值的RGB图像，那么输入的图像数据则是一个480×480×3维的矢量，输出的图像矢量描述为一个d维矢量，d通常远小于480×480×3，即相当于对图像进行一个降维描述。此处预先确定一个期望的图像描述矢量的分布，在此分布上采集N个样本，N为预计扩充图像个数，然后将这N个图像描述矢量输入解码器，得到N个图像。

基于上述任一实施例，该方法中，基于所述人脸图像数据集中的图像训练所述变分自编码器，具体包括：

确定第一训练次数以及每次训练需要的第一图像个数；

具体地，首先确定训练次数T，以及每次训练的图像个数M；

每次训练时，随机的从原始图像数据集中选出M幅图像进行训练，通常情况下，编码器、解码器是由两个结构对称的神经网络组成，计算需要最小化的目标函数关于待优化的编码器的参数的第一梯度，再计算需要最小化的目标函数关于待优化的解码器的参数的第二梯度，根据计算出来的第一梯度和第二梯度，使用随机优化器更新所述编码器的参数和所述解码器的参数。重复上述训练过程，直到训练次数达到T，则确定最后的编码器的参数和解码器的参数。

基于上述任一实施例，该方法中，所述需要最小化的目标函数为：

E_px(x)E_q(z|x)[|x-G(z)|²]+λ·KL(q(z),p(z))

所述第一梯度为：

具体地，需要最小化的目标函数为两项相加的结果，其中，第一项表示输入编码器的图像和解码器输出的图像之间的差距，第二项表示期望的图像描述矢量的分布和编码器输出的实际图像描述矢量的分布之间的差距，需要将这两项的和最小化，将目的函数最小化即将输入编码器的图像和解码器输出的图像之间的差距与期望的图像描述矢量的分布和编码器输出的实际图像描述矢量的分布之间的差距之和最小化。其中第二梯度是直接通过反向传播技术计算函数关于解码器的参数的梯度，而第一梯度通过反向传播技术计算函数/>关于编码器的参数的中间梯度后还要加上另外一项，而该另外一项中包括了期望的图像描述矢量的分布的对数概率密度。

基于上述任一实施例，该方法中，通过z₁,…,z_M确定其中m＝1,…,M，具体包括：

所述径向标量值正定核对应的矩阵值核

基于如下公式确定其中，m＝1,…,M，

具体地，为了确定第一梯度中的期望的图像描述矢量的分布的对数概率密度首先确定径向标量值正定核/>其中，/>为实值函数，z和z′为函数变量，实值函数/>为一个衡量函数变量z和z′之间的差距的函数，再定义径向标量值正定核对应的矩阵值核/>再基于所述矩阵值核确定核矩阵K，所述核矩阵K由M×M个分块组成，每个分块的第i行第j列的元素为K(z_i,z_j)，再对该核矩阵K进行谱分解，得到最大的J个特征值λ₁≥λ₂≥…≥λ_J以及对应的特征向量u₁,u₂,…,u_J，将每个特征向量切为M块每块长度为d的向量，第i个特征向量的第j块记为u_ij，于是，期望的图像描述矢量的分布的对数概率密度/>就可以通过如下公式求出：

基于上述任一实施例，该方法中，若|J-M×d|小于预设阈值，

确定正则化系数η；

求解上述方程得到e后，通过如下公式确定其中m＝1,…,M，

其中，

所述利用共轭梯度方法求解方程(K²+ηI)e＝b，具体包括：

确定最大迭代次数k_max，迭代停止误差∈，迭代初始值e₀；

步骤S1，令r₀＝b-K²e₀-ηe₀，k＝0；

步骤S2，令

步骤S3，令e_k+1＝e_k+α_kr_k；

步骤S4，令r_k+1＝b-K²e_k-ηe_k；

步骤S5，令k＝k+1；

具体地，若J与Md较为接近，则可以利用共轭梯度方法更快速的求解期望的图像描述矢量的分布的对数概率密度具体流程是：

确定正则化系数η；

利用共轭梯度方法求解方程(K²+ηI)e＝b，其中，b＝[b₁b₂…b_M]^T, 为矩阵值核K(z_m,z_i)每一列关于参数z_m的散度构成的行向量,z_m为编码器输出的图像描述z₁,…,z_M中第m个图像描述，z_i为编码器输出的图像描述z₁,…,z_M中第i个图像描述；

求解上述方程得到e后，通过如下公式确定其中m＝1,…,M，

其中，

其中，利用共轭梯度方法求解方程(K²+ηI)e＝b的过程为：

确定最大迭代次数k_max，迭代停止误差∈，迭代初始值e₀；

步骤S1，令r₀＝b-K²e₀-ηe₀，k＝0；

步骤S2，令

步骤S3，令e_k+1＝e_k+α_kr_k；

步骤S4，令r_k+1＝b-K²e_k-ηe_k；

步骤S5，令k＝k+1；

基于上述任一实施例，本发明实施例提供一种人脸图像数据集的扩充装置，图2为本发明实施例提供的人脸图像数据集的扩充装置的结构示意图。如图2所示，该装置包括确定单元210、训练单元220和扩充单元230，其中，

所述确定单元210，用于确定人脸图像数据集和预计扩充图像个数；

所述训练单元，用于采用所述人脸图像数据集中的图像训练变分自编码器，确定所述变分自编码器的参数，其中，所述变分自编码器包括编码器和解码器；

所述扩充单元230，用于将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器，得到预计扩充图像个数的图像；

本发明实施例提供的装置，通过将人脸图像数据集中的图像数据和预计扩充图像个数输入变分自编码器，输出预计扩充图像个数的图像，所述预计扩充图像个数大于人脸图像数据集中图像的个数；其中，所述变分自编码器是基于所述人脸图像数据集中的图像训练得到的；变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的，使得基于样本的对数概率密度函数梯度的估计存在保守性，可以适应高维或样本数庞大的情况。如此，提高了人脸图像数据集的扩充的可靠性。

基于上述任一实施例，该装置中，所述编码器的输入为图像数据，输出为对应于每一幅输入图像的图像矢量描述；

基于上述任一实施例，该装置中，基于所述人脸图像数据集中的图像训练所述变分自编码器，具体包括：

确定第一训练次数以及每次训练需要的第一图像个数；

基于上述任一实施例，该装置中，所述需要最小化的目标函数为：

E_px(x)E_q(z|x)[|x-G(z)|²]+λ·KL(q(z),p(z))

所述第一梯度为：

基于上述任一实施例，该装置中，通过z₁,…,z_M确定其中m＝1,…,M，具体包括：

所述径向标量值正定核对应的矩阵值核

基于如下公式确定其中，m＝1,…,M，

/>

基于上述任一实施例，该装置中，若|J-M×d|小于预设阈值，

则利用共轭梯度方法求解方程(K²+ηI)e＝b，其中，b＝[b₁b₂…b_M]^T, 为矩阵值核K(z_m,z_i)每一列关于参数z_m的散度构成的行向量，z_m为编码器输出的图像描述z₁,…,z_M中第m个图像描述，z_i为编码器输出的图像描述z₁,…,z_M中第i个图像描述；

求解上述方程得到e后，通过如下公式确定其中m＝1,…,M，

其中，

所述利用共轭梯度方法求解方程(K²+ηI)e＝b，具体包括：

确定最大迭代次数k_max，迭代停止误差∈，迭代初始值e₀；

步骤S1，令r₀＝b-K²e₀-ηe₀，k＝0；

步骤S2，令

步骤S3，令e_k+1＝e_k+α_kr_k；

步骤S4，令r_k+1＝b-K²e_k-ηe_k；

步骤S5，令k＝k+1；

图3为本发明实施例提供的电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序，以执行上述各实施例提供的人脸图像数据集的扩充方法，例如包括：确定人脸图像数据集和预计扩充图像个数；采用所述人脸图像数据集中的图像训练变分自编码器，确定所述变分自编码器的参数，其中，所述变分自编码器包括编码器和解码器；将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器，得到预计扩充图像个数的图像；其中，所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的人脸图像数据集的扩充方法，例如包括：确定人脸图像数据集和预计扩充图像个数；采用所述人脸图像数据集中的图像训练变分自编码器，确定所述变分自编码器的参数，其中，所述变分自编码器包括编码器和解码器；将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器，得到预计扩充图像个数的图像；其中，所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人脸图像数据集的扩充方法，其特征在于，包括:

确定人脸图像数据集和预计扩充图像个数；

其中，所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的；

采用所述人脸图像数据集中的图像训练变分自编码器，具体包括：

确定第一训练次数以及每次训练需要的第一图像个数；

经过第一训练次数的训练后，确定所述编码器的参数和所述解码器的参数；

所述需要最小化的目标函数为：

E_pX(x)E_q(z|x)[|x-G(z)|²]+λKL(q(z),p(z))

所述第一梯度为：

2.根据权利要求1所述的人脸图像数据集的扩充方法，其特征在于，

所述编码器的输入为图像数据，输出为对应于每一幅输入图像的图像矢量描述；

3.根据权利要求1所述的人脸图像数据集的扩充方法，其特征在于，通过z₁,…,z_M确定其中m＝1,…,M，具体包括：

所述径向标量值正定核对应的矩阵值核

基于如下公式确定其中，m＝1,…,M，

4.根据权利要求3所述的人脸图像数据集的扩充方法，其特征在于，

若|J-M×d|小于预设阈值，

确定正则化系数η；

利用共轭梯度方法求解方程(k²+ηI)e＝b，其中，b＝[b₁ b₂ … b_M]^T, 为矩阵值核K(z_m,z_i)每一列关于参数z_m的散度构成的行向量，z_m为编码器输出的图像描述z₁,…,z_M中第m个图像描述，z_i为编码器输出的图像描述z₁,…,z_M中第i个图像描述；

求解上述方程得到e后，通过如下公式确定其中m＝1,…,M，

其中，

所述利用共轭梯度方法求解方程(K²+ηI)e＝b，具体包括：

确定最大迭代次数k_max，迭代停止误差∈，迭代初始值e₀；

步骤S1，令r₀＝b-K²e₀-ηe₀，k＝0；

步骤S2，令

步骤S3，令e_k+1＝e_k+α_kr_k；

步骤S4，令r_k+1＝b-K²e_k-ηe_k；

步骤S5，令k＝k+1；

步骤S6，若k<k_max且‖r_k‖₂>∈‖b‖₂，则跳转至步骤S2，否则方程的解e为e_k+1。

5.一种人脸图像数据集的扩充装置，其特征在于，包括:

确定单元，用于确定人脸图像数据集和预计扩充图像个数；

所述训练单元用于采用所述人脸图像数据集中的图像训练变分自编码器，具体包括：

确定第一训练次数以及每次训练需要的第一图像个数；

所述需要最小化的目标函数为：

E_pX(x)E_q(z|x)[|x-G(z)|²]+λ·KL(q(z),p(z))

所述第一梯度为：

6.根据权利要求5所述的人脸图像数据集的扩充装置，其特征在于，

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4中任一项所述的人脸图像数据集的扩充方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4中任一项所述的人脸图像数据集的扩充方法的步骤。