CN111160487B - 人脸图像数据集的扩充方法和装置 - Google Patents

人脸图像数据集的扩充方法和装置 Download PDF

Info

Publication number
CN111160487B
CN111160487B CN201911421810.3A CN201911421810A CN111160487B CN 111160487 B CN111160487 B CN 111160487B CN 201911421810 A CN201911421810 A CN 201911421810A CN 111160487 B CN111160487 B CN 111160487B
Authority
CN
China
Prior art keywords
encoder
image
training
gradient
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911421810.3A
Other languages
English (en)
Other versions
CN111160487A (zh
Inventor
朱军
周聿浩
石佳欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201911421810.3A priority Critical patent/CN111160487B/zh
Publication of CN111160487A publication Critical patent/CN111160487A/zh
Application granted granted Critical
Publication of CN111160487B publication Critical patent/CN111160487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明实施例提供一种人脸图像数据集的扩充方法和装置,该方法包括:确定人脸图像数据集和预计扩充图像个数;采用所述人脸图像数据集中的图像训练变分自编码器,确定所述变分自编码器的参数,其中,所述变分自编码器包括编码器和解码器;将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器,得到预计扩充图像个数的图像;其中,所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的。本发明实施例提供的方法和装置,提高了人脸图像数据集的扩充的可靠性。

Description

人脸图像数据集的扩充方法和装置
技术领域
本发明涉及机器学习技术领域,尤其涉及一种人脸图像数据集的扩充方法和装置。
背景技术
随着人工智能领域的飞速发展,越来越多的技术都开始采用机器学习的方法进行大量数据的学习和处理。目前,人脸图像数据集可以用作各种研究,但是通常靠现实中采集自然人的人脸图像的数目受到个人隐私的限制而有限,因此,我们如果需要获得较大样本量的人脸图像数据集可以在已有的人脸图像的基础上再生成更多的人工合成的人脸图像,这个再生过程就是人脸图像数据集的扩充。在人脸图像数据集的扩充的过程中采用机器学习来生成更多的人脸图像,通常需要训练变分自编码器,但是在目前在复杂的变分自编码器的训练过程中难以计算对数概率密度函数梯度。
由于变分自编码器的训练通常只利用对数密度函数的梯度,并且较为容易从相应密度函数中进行采样,因此利用样本直接对所述梯度进行估计是一种方法。直接最小化Fisher散度是一个较为有效的估计对数密度函数梯度的方法,此外还有一部分基于Stein方法的梯度估计。虽然这类方法取得了一定的成功,但大部分现有的算法不能保证所估计的梯度具有梯度场的保守性,这在高维情况下可能会影响估计的准确性,另外的一小部分基于核方法的梯度估计虽然能够保证所估计的梯度的保守性,但其的计算复杂度很高,无法适应高维或样本数庞大的情况。
因此,如何避免基于训练变分自编码器来扩充人脸图像数据集的方法中估计的对数概率密度函数梯度缺乏保守性,无法适应高维或样本数庞大的情况,提高人脸图像数据集扩充的可靠性,仍然是本领域技术人员亟待解决的问题。
发明内容
本发明实施例提供一种人脸图像数据集的扩充方法和装置,用以解决现有的基于训练变分自编码器来扩充人脸图像数据集的方法中估计的对数概率密度函数梯度缺乏保守性,无法适应高维或样本数庞大的情况的问题。
第一方面,本发明实施例提供一种人脸图像数据集的扩充方法,包括:
确定人脸图像数据集和预计扩充图像个数;
采用所述人脸图像数据集中的图像训练变分自编码器,确定所述变分自编码器的参数,其中,所述变分自编码器包括编码器和解码器;
将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器,得到预计扩充图像个数的图像;
其中,所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的。
优选地,该方法中,所述编码器的输入为图像数据,输出为对应于每一幅输入图像的图像矢量描述;
所述解码器的输入为图像矢量描述,输出为对应于每一个输入图像矢量描述的图像。
优选地,该方法中,基于所述人脸图像数据集中的图像训练所述变分自编码器,具体包括:
确定第一训练次数以及每次训练需要的第一图像个数;
每次训练中,采用第一图像个数的图像进行训练,计算需要最小化的目标函数关于待优化的编码器的参数的第一梯度,计算需要最小化的目标函数关于待优化的解码器的参数的第二梯度;
基于所述第一梯度和所述第二梯度,利用随机优化器更新所述编码器的参数和所述解码器的参数;
经过第一训练次数的训练后,确定所述编码器的参数和所述解码器的参数。
优选地,该方法中,所述需要最小化的目标函数为:
Epx(x)Eq(z|x)[|x-G(z)|2]+λ·KL(q(z),p(z))
其中,z为编码器输出的图像描述矢量,x为输入的编码器的图像数据,p(z)为期望的图像描述矢量的分布,q(z)为编码器输出的图像描述矢量的分布,q(z|x)是编码器决定的图像描述矢量近似后验分布,λ为正则化系数,KL(q(z),p(z))表示期望的图像描述矢量的分布p(z)和编码器输出的图像描述矢量的分布q(z)之间的Kullback-Leibler散度,G(z)表示解码器的输出图像;
所述第一梯度为:
其中,φ是编码器的参数,Gφ是通过反向传播技术计算的函数关于φ的梯度,M是每次训练中输入的图像的个数,xm是输入编码器的图像数据,每次训练输入编码器的图像数据为x1,…,xM,ym是解码器输出的对应于xm的图像数据,zm是编码器输出的对应于xm的图像描述矢量,λ为正则化系数,q(zm)为期望的图像描述矢量的分布,为利用标准反向传播技术计算的梯度;
所述第二梯度为Gθ,θ是解码器的参数,所述第二梯度是通过反向传播技术计算的函数关于θ的梯度,M是每次训练中输入的图像的个数,xm是输入编码器的图像数据,每次训练输入编码器的图像数据为x1,…,xM,ym是解码器输出的对应于xm的图像数据。
优选地,该方法中,通过z1,…,zM确定其中m=1,…,M,具体包括:
确定径向标量值正定核其中,/>为实值函数,z和z′为函数变量;
所述径向标量值正定核对应的矩阵值核
基于所述矩阵值核确定核矩阵K,所述核矩阵由M×M个分块组成,每个分块的第i行第j列的元素为K(zi,zj),其中,i=1,…,M,j=1,…,M,对核矩阵进行谱分解,得到最大的J个特征值λ1≥λ2≥…≥λJ以及对应的特征向量u1,u2,…,uJ,将每个特征向量切为M块每块长度为d的向量,第i个特征向量的第j块记为uij
基于如下公式确定其中,m=1,…,M,
其中,divzK(z,z′)为矩阵值核K(z,z′)每一列关于参数z的散度构成的行向量,zs为编码器输出的图像描述z1,…,zM中第s个图像描述,zt为编码器输出的图像描述z1,…,zM中第t个图像描述,ujt为第j个特征向量的第t块,λj为J个特征向量λ1≥λ2≥…≥λJ中第j个特征向量,zr为编码器输出的图像描述z1,…,zM中第r个图像描述,ujr为第j个特征向量的第r块。
优选地,该方法中,若|J-M×d|小于预设阈值,
确定正则化系数η;
利用共轭梯度方法求解方程(K2+ηI)e=b,其中,b=[b1b2…bM]T, 为矩阵值核K(zm,zi)每一列关于参数zm的散度构成的行向量,zm为编码器输出的图像描述z1,…,zM中第m个图像描述,zi为编码器输出的图像描述z1,…,zM中第i个图像描述;
求解上述方程得到e后,通过如下公式确定其中m=1,…,M,
其中,
所述利用共轭梯度方法求解方程(K2+ηI)e=b,具体包括:
确定最大迭代次数kmax,迭代停止误差∈,迭代初始值e0
步骤S1,令r0=b-K2e0-ηe0,k=0;
步骤S2,令
步骤S3,令ek+1=ekkrk
步骤S4,令rk+1=b-K2ek-ηek
步骤S5,令k=k+1;
步骤S6,若k<kmax且||rk||2>∈||b||2,则跳转至步骤S2,否则方程的解e为ek+1
第二方面,本发明实施例提供一种人脸图像数据集的扩充装置,包括:
确定单元,用于确定人脸图像数据集和预计扩充图像个数;
训练单元,用于采用所述人脸图像数据集中的图像训练变分自编码器,确定所述变分自编码器的参数,其中,所述变分自编码器包括编码器和解码器;
扩充单元,用于将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器,得到预计扩充图像个数的图像;
其中,所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的。
优选地,该装置中,所述编码器的输入为图像数据,输出为对应于每一幅输入图像的图像矢量描述;
所述解码器的输入为图像矢量描述,输出为对应于每一个输入图像矢量描述的图像。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的人脸图像数据集的扩充方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的人脸图像数据集的扩充方法的步骤。
本发明实施例提供的一种人脸图像数据集的扩充方法和装置,通过确定人脸图像数据集和预计扩充图像个数;采用所述人脸图像数据集中的图像训练变分自编码器,确定所述变分自编码器的参数,其中,所述变分自编码器包括编码器和解码器;将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器,得到预计扩充图像个数的图像;其中,所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的,使得基于样本的对数概率密度函数梯度的估计存在保守性,可以适应高维或样本数庞大的情况。如此,提高了人脸图像数据集的扩充的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的人脸图像数据集的扩充方法的流程示意图;
图2为本发明实施例提供的人脸图像数据集的扩充装置的结构示意图;
图3为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的基于训练变分自编码器来扩充人脸图像数据集的方法中估计的对数概率密度函数梯度缺乏保守性,无法适应高维或样本数庞大的情况。对此,本发明实施例提供了一种身份验证方法。图1为本发明实施例提供的人脸图像数据集的扩充方法的流程示意图,如图1所示,该方法包括:
步骤110,确定人脸图像数据集和预计扩充图像个数。
具体地,首先确定需要扩充的原始人脸图像数据集和预计扩充的图像个数。例如,需要扩充的原始人脸图像数据集是一个包含了一万张南亚男性人脸的图像数据集,而预计扩充的图像个数为十万张,即人脸图像数据集的扩充是要将这包含了一万张南亚男性人脸的图像数据集扩充成包含十万张人脸的图像数据集。
步骤120,采用所述人脸图像数据集中的图像训练变分自编码器,确定所述变分自编码器的参数,其中,所述变分自编码器包括编码器和解码器;
其中,所述变分自编码器是基于所述人脸图像数据集中的图像训练得到的;变分自编码器的训练过程中变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的。
具体地,将人脸图像数据集中的图像数据和预计扩充图像个数输入变分自编码器,即可输出预计扩充个数的图像,而所述变分自编码是基于输入的人脸图像数据集中的图像数据训练得到的,而变分自编码器的训练过程是需要不断计算需要最小化的目标函数关于变分自编码器的参数的梯度的数值从而依据该数值实现变分自编码器的参数的更新,而该数值是由样本基于Stein等式和Nystrom算法得到的,所述样本指人脸图像数据集中的图像,具体地,在向量值再生核希尔伯特空间中建模对数概率密度函数的梯度,利用积分算子特征函数作为正交基将梯度进行展开并截断至有限项,利用Stein等式计算展开系数,扩展Nystrom算法,利用样本估计所述积分算子的向量值特征函数,根据Stein等式计算展开系数和所述积分算子的向量值特征函数获得需要最小化的目标函数关于变分自编码器的参数的梯度。
步骤130,将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器,得到预计扩充图像个数的图像。
具体地,训练过后得到编码器的参数和解码器的参数,将期望的图像矢量描述进行采样,采样个数为预计扩充图像个数,将采样后的图像矢量描述输入解码器,从而输出的为预计扩充图像个数的图像。
本发明实施例提供的人脸图像数据集的扩充方法,通过将人脸图像数据集中的图像数据和预计扩充图像个数输入变分自编码器,输出预计扩充图像个数的图像,所述预计扩充图像个数大于人脸图像数据集中图像的个数;其中,所述变分自编码器是基于所述人脸图像数据集中的图像训练得到的;变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的,使得基于样本的对数概率密度函数梯度的估计存在保守性,可以适应高维或样本数庞大的情况。如此,提高了人脸图像数据集的扩充的可靠性。
基于上述实施例,该方法中,所述编码器的输入为图像数据,输出为对应于每一幅输入图像的图像矢量描述;
所述解码器的输入为图像矢量描述,输出为对应于每一个输入图像矢量描述的图像。
具体地,变分自编码器包括编码器和解码器,其主要用于学习数据的分布和数据的表示,编码器输入一个数据,输出它的表示,解码器输入数据的表示,输出原始数据,同时,作为一个生成模型,变分自编码器能够对数据的分布进行建模,即解码器能够将预先指定的简单表示的分布转换为原始数据的分布,即能够生成新的原始数据。将人脸图像数据集中的图像数据输入编码器,输出对应于每一幅图像的图像矢量描述,例如,输入的图像是一个480×480像素值的RGB图像,那么输入的图像数据则是一个480×480×3维的矢量,输出的图像矢量描述为一个d维矢量,d通常远小于480×480×3,即相当于对图像进行一个降维描述。此处预先确定一个期望的图像描述矢量的分布,在此分布上采集N个样本,N为预计扩充图像个数,然后将这N个图像描述矢量输入解码器,得到N个图像。
基于上述任一实施例,该方法中,基于所述人脸图像数据集中的图像训练所述变分自编码器,具体包括:
确定第一训练次数以及每次训练需要的第一图像个数;
每次训练中,采用第一图像个数的图像进行训练,计算需要最小化的目标函数关于待优化的编码器的参数的第一梯度,计算需要最小化的目标函数关于待优化的解码器的参数的第二梯度;
基于所述第一梯度和所述第二梯度,利用随机优化器更新所述编码器的参数和所述解码器的参数;
经过第一训练次数的训练后,确定所述编码器的参数和所述解码器的参数。
具体地,首先确定训练次数T,以及每次训练的图像个数M;
每次训练时,随机的从原始图像数据集中选出M幅图像进行训练,通常情况下,编码器、解码器是由两个结构对称的神经网络组成,计算需要最小化的目标函数关于待优化的编码器的参数的第一梯度,再计算需要最小化的目标函数关于待优化的解码器的参数的第二梯度,根据计算出来的第一梯度和第二梯度,使用随机优化器更新所述编码器的参数和所述解码器的参数。重复上述训练过程,直到训练次数达到T,则确定最后的编码器的参数和解码器的参数。
基于上述任一实施例,该方法中,所述需要最小化的目标函数为:
Epx(x)Eq(z|x)[|x-G(z)|2]+λ·KL(q(z),p(z))
其中,z为编码器输出的图像描述矢量,x为输入的编码器的图像数据,p(z)为期望的图像描述矢量的分布,q(z)为编码器输出的图像描述矢量的分布,q(z|x)是编码器决定的图像描述矢量近似后验分布,λ为正则化系数,KL(q(z),p(z))表示期望的图像描述矢量的分布p(z)和编码器输出的图像描述矢量的分布q(z)之间的Kullback-Leibler散度,G(z)表示解码器的输出图像;
所述第一梯度为:
其中,φ是编码器的参数,Gφ是通过反向传播技术计算的函数关于φ的梯度,M是每次训练中输入的图像的个数,xm是输入编码器的图像数据,每次训练输入编码器的图像数据为x1,…,xM,ym是解码器输出的对应于xm的图像数据,zm是编码器输出的对应于xm的图像描述矢量,λ为正则化系数,q(zm)为期望的图像描述矢量的分布,为利用标准反向传播技术计算的梯度;
所述第二梯度为Gθ,θ是解码器的参数,所述第二梯度是通过反向传播技术计算的函数关于θ的梯度,M是每次训练中输入的图像的个数,xm是输入编码器的图像数据,每次训练输入编码器的图像数据为x1,…,xM,ym是解码器输出的对应于xm的图像数据。
具体地,需要最小化的目标函数为两项相加的结果,其中,第一项表示输入编码器的图像和解码器输出的图像之间的差距,第二项表示期望的图像描述矢量的分布和编码器输出的实际图像描述矢量的分布之间的差距,需要将这两项的和最小化,将目的函数最小化即将输入编码器的图像和解码器输出的图像之间的差距与期望的图像描述矢量的分布和编码器输出的实际图像描述矢量的分布之间的差距之和最小化。其中第二梯度是直接通过反向传播技术计算函数关于解码器的参数的梯度,而第一梯度通过反向传播技术计算函数/>关于编码器的参数的中间梯度后还要加上另外一项,而该另外一项中包括了期望的图像描述矢量的分布的对数概率密度。
基于上述任一实施例,该方法中,通过z1,…,zM确定其中m=1,…,M,具体包括:
确定径向标量值正定核其中,/>为实值函数,z和z′为函数变量;
所述径向标量值正定核对应的矩阵值核
基于所述矩阵值核确定核矩阵K,所述核矩阵由M×M个分块组成,每个分块的第i行第j列的元素为K(zi,zj),其中,i=1,…,M,j=1,…,M,对核矩阵进行谱分解,得到最大的J个特征值λ1≥λ2≥…≥λJ以及对应的特征向量u1,u2,…,uJ,将每个特征向量切为M块每块长度为d的向量,第i个特征向量的第j块记为uij
基于如下公式确定其中,m=1,…,M,
其中,divzK(z,z′)为矩阵值核K(z,z′)每一列关于参数z的散度构成的行向量,zs为编码器输出的图像描述z1,…,zM中第s个图像描述,zt为编码器输出的图像描述z1,…,zM中第t个图像描述,ujt为第j个特征向量的第t块,λj为J个特征向量λ1≥λ2≥…≥λJ中第j个特征向量,zr为编码器输出的图像描述z1,…,zM中第r个图像描述,ujr为第j个特征向量的第r块。
具体地,为了确定第一梯度中的期望的图像描述矢量的分布的对数概率密度首先确定径向标量值正定核/>其中,/>为实值函数,z和z′为函数变量,实值函数/>为一个衡量函数变量z和z′之间的差距的函数,再定义径向标量值正定核对应的矩阵值核/>再基于所述矩阵值核确定核矩阵K,所述核矩阵K由M×M个分块组成,每个分块的第i行第j列的元素为K(zi,zj),再对该核矩阵K进行谱分解,得到最大的J个特征值λ1≥λ2≥…≥λJ以及对应的特征向量u1,u2,…,uJ,将每个特征向量切为M块每块长度为d的向量,第i个特征向量的第j块记为uij,于是,期望的图像描述矢量的分布的对数概率密度/>就可以通过如下公式求出:
其中,divzK(z,z′)为矩阵值核K(z,z′)每一列关于参数z的散度构成的行向量,zs为编码器输出的图像描述z1,…,zM中第s个图像描述,zt为编码器输出的图像描述z1,…,zM中第t个图像描述,ujt为第j个特征向量的第t块,λj为J个特征向量λ1≥λ2≥…≥λJ中第j个特征向量,zr为编码器输出的图像描述z1,…,zM中第r个图像描述,ujr为第j个特征向量的第r块。
基于上述任一实施例,该方法中,若|J-M×d|小于预设阈值,
确定正则化系数η;
利用共轭梯度方法求解方程(K2+ηI)e=b,其中,b=[b1b2…bM]T, 为矩阵值核K(zm,zi)每一列关于参数zm的散度构成的行向量,zm为编码器输出的图像描述z1,…,zM中第m个图像描述,zi为编码器输出的图像描述z1,…,zM中第i个图像描述;
求解上述方程得到e后,通过如下公式确定其中m=1,…,M,
其中,
所述利用共轭梯度方法求解方程(K2+ηI)e=b,具体包括:
确定最大迭代次数kmax,迭代停止误差∈,迭代初始值e0
步骤S1,令r0=b-K2e0-ηe0,k=0;
步骤S2,令
步骤S3,令ek+1=ekkrk
步骤S4,令rk+1=b-K2ek-ηek
步骤S5,令k=k+1;
步骤S6,若k<kmax且||rk||2>∈||b||2,则跳转至步骤S2,否则方程的解e为ek+1
具体地,若J与Md较为接近,则可以利用共轭梯度方法更快速的求解期望的图像描述矢量的分布的对数概率密度具体流程是:
确定正则化系数η;
利用共轭梯度方法求解方程(K2+ηI)e=b,其中,b=[b1b2…bM]T, 为矩阵值核K(zm,zi)每一列关于参数zm的散度构成的行向量,zm为编码器输出的图像描述z1,…,zM中第m个图像描述,zi为编码器输出的图像描述z1,…,zM中第i个图像描述;
求解上述方程得到e后,通过如下公式确定其中m=1,…,M,
其中,
其中,利用共轭梯度方法求解方程(K2+ηI)e=b的过程为:
确定最大迭代次数kmax,迭代停止误差∈,迭代初始值e0
步骤S1,令r0=b-K2e0-ηe0,k=0;
步骤S2,令
步骤S3,令ek+1=ekkrk
步骤S4,令rk+1=b-K2ek-ηek
步骤S5,令k=k+1;
步骤S6,若k<kmax且||rk||2>∈||b||2,则跳转至步骤S2,否则方程的解e为ek+1
基于上述任一实施例,本发明实施例提供一种人脸图像数据集的扩充装置,图2为本发明实施例提供的人脸图像数据集的扩充装置的结构示意图。如图2所示,该装置包括确定单元210、训练单元220和扩充单元230,其中,
所述确定单元210,用于确定人脸图像数据集和预计扩充图像个数;
所述训练单元,用于采用所述人脸图像数据集中的图像训练变分自编码器,确定所述变分自编码器的参数,其中,所述变分自编码器包括编码器和解码器;
所述扩充单元230,用于将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器,得到预计扩充图像个数的图像;
其中,所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的。
本发明实施例提供的装置,通过将人脸图像数据集中的图像数据和预计扩充图像个数输入变分自编码器,输出预计扩充图像个数的图像,所述预计扩充图像个数大于人脸图像数据集中图像的个数;其中,所述变分自编码器是基于所述人脸图像数据集中的图像训练得到的;变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的,使得基于样本的对数概率密度函数梯度的估计存在保守性,可以适应高维或样本数庞大的情况。如此,提高了人脸图像数据集的扩充的可靠性。
基于上述任一实施例,该装置中,所述编码器的输入为图像数据,输出为对应于每一幅输入图像的图像矢量描述;
所述解码器的输入为图像矢量描述,输出为对应于每一个输入图像矢量描述的图像。
基于上述任一实施例,该装置中,基于所述人脸图像数据集中的图像训练所述变分自编码器,具体包括:
确定第一训练次数以及每次训练需要的第一图像个数;
每次训练中,采用第一图像个数的图像进行训练,计算需要最小化的目标函数关于待优化的编码器的参数的第一梯度,计算需要最小化的目标函数关于待优化的解码器的参数的第二梯度;
基于所述第一梯度和所述第二梯度,利用随机优化器更新所述编码器的参数和所述解码器的参数;
经过第一训练次数的训练后,确定所述编码器的参数和所述解码器的参数。
基于上述任一实施例,该装置中,所述需要最小化的目标函数为:
Epx(x)Eq(z|x)[|x-G(z)|2]+λ·KL(q(z),p(z))
其中,z为编码器输出的图像描述矢量,x为输入的编码器的图像数据,p(z)为期望的图像描述矢量的分布,q(z)为编码器输出的图像描述矢量的分布,q(z|x)是编码器决定的图像描述矢量近似后验分布,λ为正则化系数,KL(q(z),p(z))表示期望的图像描述矢量的分布p(z)和编码器输出的图像描述矢量的分布q(z)之间的Kullback-Leibler散度,G(z)表示解码器的输出图像;
所述第一梯度为:
其中,φ是编码器的参数,Gφ是通过反向传播技术计算的函数关于φ的梯度,M是每次训练中输入的图像的个数,xm是输入编码器的图像数据,每次训练输入编码器的图像数据为x1,…,xM,ym是解码器输出的对应于xm的图像数据,zm是编码器输出的对应于xm的图像描述矢量,λ为正则化系数,q(zm)为期望的图像描述矢量的分布,为利用标准反向传播技术计算的梯度;
所述第二梯度为Gθ,θ是解码器的参数,所述第二梯度是通过反向传播技术计算的函数关于θ的梯度,M是每次训练中输入的图像的个数,xm是输入编码器的图像数据,每次训练输入编码器的图像数据为x1,…,xM,ym是解码器输出的对应于xm的图像数据。
基于上述任一实施例,该装置中,通过z1,…,zM确定其中m=1,…,M,具体包括:
确定径向标量值正定核其中,/>为实值函数,z和z′为函数变量;
所述径向标量值正定核对应的矩阵值核
基于所述矩阵值核确定核矩阵K,所述核矩阵由M×M个分块组成,每个分块的第i行第j列的元素为K(zi,zj),其中,i=1,…,M,j=1,…,M,对核矩阵进行谱分解,得到最大的J个特征值λ1≥λ2≥…≥λJ以及对应的特征向量u1,u2,…,uJ,将每个特征向量切为M块每块长度为d的向量,第i个特征向量的第j块记为uij
基于如下公式确定其中,m=1,…,M,
/>
其中,divzK(z,z′)为矩阵值核K(z,z′)每一列关于参数z的散度构成的行向量,zs为编码器输出的图像描述z1,…,zM中第s个图像描述,zt为编码器输出的图像描述z1,…,zM中第t个图像描述,ujt为第j个特征向量的第t块,λj为J个特征向量λ1≥λ2≥…≥λJ中第j个特征向量,zr为编码器输出的图像描述z1,…,zM中第r个图像描述,ujr为第j个特征向量的第r块。
基于上述任一实施例,该装置中,若|J-M×d|小于预设阈值,
则利用共轭梯度方法求解方程(K2+ηI)e=b,其中,b=[b1b2…bM]T, 为矩阵值核K(zm,zi)每一列关于参数zm的散度构成的行向量,zm为编码器输出的图像描述z1,…,zM中第m个图像描述,zi为编码器输出的图像描述z1,…,zM中第i个图像描述;
求解上述方程得到e后,通过如下公式确定其中m=1,…,M,
其中,
所述利用共轭梯度方法求解方程(K2+ηI)e=b,具体包括:
确定最大迭代次数kmax,迭代停止误差∈,迭代初始值e0
步骤S1,令r0=b-K2e0-ηe0,k=0;
步骤S2,令
步骤S3,令ek+1=ekkrk
步骤S4,令rk+1=b-K2ek-ηek
步骤S5,令k=k+1;
步骤S6,若k<kmax且||rk||2>∈||b||2,则跳转至步骤S2,否则方程的解e为ek+1
图3为本发明实施例提供的电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序,以执行上述各实施例提供的人脸图像数据集的扩充方法,例如包括:确定人脸图像数据集和预计扩充图像个数;采用所述人脸图像数据集中的图像训练变分自编码器,确定所述变分自编码器的参数,其中,所述变分自编码器包括编码器和解码器;将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器,得到预计扩充图像个数的图像;其中,所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的人脸图像数据集的扩充方法,例如包括:确定人脸图像数据集和预计扩充图像个数;采用所述人脸图像数据集中的图像训练变分自编码器,确定所述变分自编码器的参数,其中,所述变分自编码器包括编码器和解码器;将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器,得到预计扩充图像个数的图像;其中,所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种人脸图像数据集的扩充方法,其特征在于,包括:
确定人脸图像数据集和预计扩充图像个数;
采用所述人脸图像数据集中的图像训练变分自编码器,确定所述变分自编码器的参数,其中,所述变分自编码器包括编码器和解码器;
将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器,得到预计扩充图像个数的图像;
其中,所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的;
采用所述人脸图像数据集中的图像训练变分自编码器,具体包括:
确定第一训练次数以及每次训练需要的第一图像个数;
每次训练中,采用第一图像个数的图像进行训练,计算需要最小化的目标函数关于待优化的编码器的参数的第一梯度,计算需要最小化的目标函数关于待优化的解码器的参数的第二梯度;
基于所述第一梯度和所述第二梯度,利用随机优化器更新所述编码器的参数和所述解码器的参数;
经过第一训练次数的训练后,确定所述编码器的参数和所述解码器的参数;
所述需要最小化的目标函数为:
EpX(x)Eq(z|x)[|x-G(z)|2]+λKL(q(z),p(z))
其中,z为编码器输出的图像描述矢量,x为输入的编码器的图像数据,p(z)为期望的图像描述矢量的分布,q(z)为编码器输出的图像描述矢量的分布,q(z|x)是编码器决定的图像描述矢量近似后验分布,λ为正则化系数,KL(q(z),p(z))表示期望的图像描述矢量的分布p(z)和编码器输出的图像描述矢量的分布q(z)之间的Kullback-Leibler散度,G(z)表示解码器的输出图像;
所述第一梯度为:
其中,φ是编码器的参数,Gφ是通过反向传播技术计算的函数关于φ的梯度,M是每次训练中输入的图像的个数,xm是输入编码器的图像数据,每次训练输入编码器的图像数据为x1,…,xM,ym是解码器输出的对应于xm的图像数据,zm是编码器输出的对应于xm的图像描述矢量,λ为正则化系数,q(zm)为期望的图像描述矢量的分布,为利用标准反向传播技术计算的梯度;
所述第二梯度为Gθ,θ是解码器的参数,所述第二梯度是通过反向传播技术计算的函数关于θ的梯度,M是每次训练中输入的图像的个数,xm是输入编码器的图像数据,每次训练输入编码器的图像数据为x1,…,xM,ym是解码器输出的对应于xm的图像数据。
2.根据权利要求1所述的人脸图像数据集的扩充方法,其特征在于,
所述编码器的输入为图像数据,输出为对应于每一幅输入图像的图像矢量描述;
所述解码器的输入为图像矢量描述,输出为对应于每一个输入图像矢量描述的图像。
3.根据权利要求1所述的人脸图像数据集的扩充方法,其特征在于,通过z1,…,zM确定其中m=1,…,M,具体包括:
确定径向标量值正定核其中,/>为实值函数,z和z′为函数变量;
所述径向标量值正定核对应的矩阵值核
基于所述矩阵值核确定核矩阵K,所述核矩阵由M×M个分块组成,每个分块的第i行第j列的元素为K(zi,zj),其中,i=1,…,M,j=1,…,M,对核矩阵进行谱分解,得到最大的J个特征值λ1≥λ2≥…≥λJ以及对应的特征向量u1,u2,…,uJ,将每个特征向量切为M块每块长度为d的向量,第i个特征向量的第j块记为uij
基于如下公式确定其中,m=1,…,M,
其中,divzK(z,z′)为矩阵值核K(z,z′)每一列关于参数z的散度构成的行向量,zs为编码器输出的图像描述z1,…,zM中第s个图像描述,zt为编码器输出的图像描述z1,…,zM中第t个图像描述,ujt为第j个特征向量的第t块,λj为J个特征向量λ1≥λ2≥…≥λJ中第j个特征向量,zr为编码器输出的图像描述z1,…,zM中第r个图像描述,ujr为第j个特征向量的第r块。
4.根据权利要求3所述的人脸图像数据集的扩充方法,其特征在于,
若|J-M×d|小于预设阈值,
确定正则化系数η;
利用共轭梯度方法求解方程(k2+ηI)e=b,其中,b=[b1 b2 … bM]T, 为矩阵值核K(zm,zi)每一列关于参数zm的散度构成的行向量,zm为编码器输出的图像描述z1,…,zM中第m个图像描述,zi为编码器输出的图像描述z1,…,zM中第i个图像描述;
求解上述方程得到e后,通过如下公式确定其中m=1,…,M,
其中,
所述利用共轭梯度方法求解方程(K2+ηI)e=b,具体包括:
确定最大迭代次数kmax,迭代停止误差∈,迭代初始值e0
步骤S1,令r0=b-K2e0-ηe0,k=0;
步骤S2,令
步骤S3,令ek+1=ekkrk
步骤S4,令rk+1=b-K2ek-ηek
步骤S5,令k=k+1;
步骤S6,若k<kmax且‖rk2>∈‖b‖2,则跳转至步骤S2,否则方程的解e为ek+1
5.一种人脸图像数据集的扩充装置,其特征在于,包括:
确定单元,用于确定人脸图像数据集和预计扩充图像个数;
训练单元,用于采用所述人脸图像数据集中的图像训练变分自编码器,确定所述变分自编码器的参数,其中,所述变分自编码器包括编码器和解码器;
扩充单元,用于将期望的图像矢量描述的分布采集预计扩充图像个数的图像矢量描述输入所述解码器,得到预计扩充图像个数的图像;
其中,所述变分自编码器的训练过程中需要最小化的目标函数关于变分自编码器的参数的梯度是通过样本基于Stein等式和Nystrom算法得到的;
所述训练单元用于采用所述人脸图像数据集中的图像训练变分自编码器,具体包括:
确定第一训练次数以及每次训练需要的第一图像个数;
每次训练中,采用第一图像个数的图像进行训练,计算需要最小化的目标函数关于待优化的编码器的参数的第一梯度,计算需要最小化的目标函数关于待优化的解码器的参数的第二梯度;
基于所述第一梯度和所述第二梯度,利用随机优化器更新所述编码器的参数和所述解码器的参数;
经过第一训练次数的训练后,确定所述编码器的参数和所述解码器的参数;
所述需要最小化的目标函数为:
EpX(x)Eq(z|x)[|x-G(z)|2]+λ·KL(q(z),p(z))
其中,z为编码器输出的图像描述矢量,x为输入的编码器的图像数据,p(z)为期望的图像描述矢量的分布,q(z)为编码器输出的图像描述矢量的分布,q(z|x)是编码器决定的图像描述矢量近似后验分布,λ为正则化系数,KL(q(z),p(z))表示期望的图像描述矢量的分布p(z)和编码器输出的图像描述矢量的分布q(z)之间的Kullback-Leibler散度,G(z)表示解码器的输出图像;
所述第一梯度为:
其中,φ是编码器的参数,Gφ是通过反向传播技术计算的函数关于φ的梯度,M是每次训练中输入的图像的个数,xm是输入编码器的图像数据,每次训练输入编码器的图像数据为x1,…,xM,ym是解码器输出的对应于xm的图像数据,zm是编码器输出的对应于xm的图像描述矢量,λ为正则化系数,q(zm)为期望的图像描述矢量的分布,为利用标准反向传播技术计算的梯度;
所述第二梯度为Gθ,θ是解码器的参数,所述第二梯度是通过反向传播技术计算的函数关于θ的梯度,M是每次训练中输入的图像的个数,xm是输入编码器的图像数据,每次训练输入编码器的图像数据为x1,…,xM,ym是解码器输出的对应于xm的图像数据。
6.根据权利要求5所述的人脸图像数据集的扩充装置,其特征在于,
所述编码器的输入为图像数据,输出为对应于每一幅输入图像的图像矢量描述;
所述解码器的输入为图像矢量描述,输出为对应于每一个输入图像矢量描述的图像。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4中任一项所述的人脸图像数据集的扩充方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4中任一项所述的人脸图像数据集的扩充方法的步骤。
CN201911421810.3A 2019-12-31 2019-12-31 人脸图像数据集的扩充方法和装置 Active CN111160487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911421810.3A CN111160487B (zh) 2019-12-31 2019-12-31 人脸图像数据集的扩充方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911421810.3A CN111160487B (zh) 2019-12-31 2019-12-31 人脸图像数据集的扩充方法和装置

Publications (2)

Publication Number Publication Date
CN111160487A CN111160487A (zh) 2020-05-15
CN111160487B true CN111160487B (zh) 2024-02-13

Family

ID=70560587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911421810.3A Active CN111160487B (zh) 2019-12-31 2019-12-31 人脸图像数据集的扩充方法和装置

Country Status (1)

Country Link
CN (1) CN111160487B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023171335A1 (ja) * 2022-03-11 2023-09-14 ソニーセミコンダクタソリューションズ株式会社 データ生成装置および方法、並びにプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543838A (zh) * 2018-11-01 2019-03-29 浙江工业大学 一种基于变分自编码器的图像增量学习方法
CN109886388A (zh) * 2019-01-09 2019-06-14 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262478A1 (en) * 2014-09-09 2017-09-14 Thomson Licensing Method and apparatus for image retrieval with feature learning
KR102535361B1 (ko) * 2017-10-19 2023-05-24 삼성전자주식회사 머신 러닝을 사용하는 영상 부호화기 및 그것의 데이터 처리 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543838A (zh) * 2018-11-01 2019-03-29 浙江工业大学 一种基于变分自编码器的图像增量学习方法
CN109886388A (zh) * 2019-01-09 2019-06-14 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Stein Variational Autoencoder;Yunchen Pu et al.;《arXiv》;第2.1节 *
一种基于有限数据集的图像快速生成改进方法;张家亮;何志鹏;王媛媛;曾兵;沈宜;贾宇;;通信技术(第05期);全文 *

Also Published As

Publication number Publication date
CN111160487A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
US11468262B2 (en) Deep network embedding with adversarial regularization
Strohmer et al. A randomized Kaczmarz algorithm with exponential convergence
US11574198B2 (en) Apparatus and method with neural network implementation of domain adaptation
CN111881926A (zh) 图像生成、图像生成模型的训练方法、装置、设备及介质
CN111260620B (zh) 图像异常检测方法、装置和电子设备
US20210073633A1 (en) Neural network rank optimization device and optimization method
WO2020003434A1 (ja) 機械学習方法、機械学習装置、及び機械学習プログラム
CN111160229A (zh) 基于ssd网络的视频目标检测方法及装置
CN115860100A (zh) 一种神经网络模型训练方法、装置及计算设备
CN111160487B (zh) 人脸图像数据集的扩充方法和装置
CN104573738A (zh) 信号处理方法及其装置
CN116894778A (zh) 一种用于图像生成的扩散模型采样方法和装置
Fisher et al. Three-way Cross-Fitting and Pseudo-Outcome Regression for Estimation of Conditional Effects and other Linear Functionals
CN109256142B (zh) 语音转换基于扩展内核类网格法处理零散数据建模方法及设备
CN116503320A (zh) 高光谱图像异常检测方法、装置、设备及可读存储介质
JP7047665B2 (ja) 学習装置、学習方法及び学習プログラム
CN113779498B (zh) 离散傅里叶矩阵重构方法、装置、设备和存储介质
CN112734798B (zh) 神经网络的在线自适应系统和方法
Reimherr et al. Optimal function-on-scalar regression over complex domains
Gunn et al. Regularized training of intermediate layers for generative models for inverse problems
WO2022194344A1 (en) Learnable augmentation space for dense generative adversarial networks
CN115908775A (zh) 化学结构式的识别方法、装置、存储介质及电子设备
Zhang et al. Stochastic modified equations and dynamics of dropout algorithm
Fablet et al. End-to-end learning of variational models and solvers for the resolution of interpolation problems
CN113221794A (zh) 一种训练数据集生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant