CN104123560B - 基于相位编码特征和多度量学习的模糊人脸图像验证方法 - Google Patents
基于相位编码特征和多度量学习的模糊人脸图像验证方法 Download PDFInfo
- Publication number
- CN104123560B CN104123560B CN201410318641.1A CN201410318641A CN104123560B CN 104123560 B CN104123560 B CN 104123560B CN 201410318641 A CN201410318641 A CN 201410318641A CN 104123560 B CN104123560 B CN 104123560B
- Authority
- CN
- China
- Prior art keywords
- mrow
- msubsup
- msub
- metric
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012795 verification Methods 0.000 title claims abstract description 58
- 230000013016 learning Effects 0.000 title claims abstract description 45
- 230000001815 facial effect Effects 0.000 title abstract 3
- 239000011159 matrix material Substances 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 22
- 238000005259 measurement Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 10
- 230000000903 blocking effect Effects 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000405217 Viola <butterfly> Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012812 general test Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于相位编码特征和多度量学习的模糊人脸图像验证方法,包括:(1)训练阶段:对样本图像进行分块,对每一图像块提取多尺度初级特征;用上述特征进行fisher kernel词典学习,生成分块fisher kernel编码特征;对上述编码特征进行多度量矩阵学习以产生多个度量矩阵,并得到训练样本经过多度量矩阵投影后的度量距离,计算出正样本、负样本分别对集合的平均度量距离及方差,并通过高斯分布的概率计算公式确定最终的分类阈值;(2)验证阶段:对于输入的人脸图像,对图像分块并提取多尺度初级特征,然后产生分块fisher kernel编码特征,再通过多度量矩阵得到最终的度量距离,将此距离与阈值相比得出人脸验证结果。本发明具有识别率高、通用性强的优点。
Description
技术领域
本发明涉及计算机视觉和模式识别领域,尤其涉及一种基于相位编码特征和多度量学习的模糊人脸图像验证方法。
背景技术
人脸识别和验证技术在过去数十年间一直是计算机视觉和模式识别领域的研究热点,同时在智能监控、身份验证等场合也有着广泛的应用。经过几十年的发展,人脸识别和验证技术在可控环境下已经有相当高的准确率,但是在现实应用中有许多因素会影响人脸识别和验证的准确率,图像模糊和分辨率低是其中很重要的一个影响因素。
造成图像模糊主要是以下原因:一、从城市监控视频提取人脸进行识别和验证时,因为距离的问题,得到的人脸图像往往是低分辨率及模糊的;二、用二代证进行身份验证时,由于芯片可存取图像的条件限制,二代证存放的照片都是高度压缩并且模糊的。面对模糊的人脸图像,传统的方法无法取得可靠的识别和验证结果,为了处理模糊人脸图像的识别和验证问题,研究者们提出了以下的一些方法:基于超分辨率的方法、基于双映射的方法和基于模糊不变算子的方法。基于超分辨率的方法是先对人脸图像进行超分辨率重构补充细节,再进行识别和验证,这种方法虽然能够提高分辨率、构建图像细节,但是超分辨率的方法本质是一种提高视觉品质的增强方法,构建出来的图像细节可能与真实人脸图像不符进而导致错误的结果。基于双映射的方法是把分辨率不同的库图像和测试图像映射到同一空间进行识别,跨越了分辨率间的鸿沟,但是该方法不能处理现实环境的开集问题。基于模糊不变算子的方法是通过提取对模糊不变的特征描述子实现人脸验证算法对模糊的鲁棒性,运算速度快,而且适用于一般的人脸识别和验证框架。但是特征描述子的选择、提取对算法影响很大,在环境比较复杂的场合,现有的算子识别率较低。
因此,针对现实环境中常见的模糊及低分辨率人脸图像这个问题,寻找一种识别率高的图像识别方法具有重要应用价值。
发明内容
本发明针对现有人脸识别和验证方法不能鲁棒地处理现实环境中常见的模糊及低分辨率人脸图像这个问题,提出了一种基于相位编码特征和多度量学习的模糊人脸图像验证方法,该方法能从模糊的人脸图像中提取紧凑、描述能力强的抗模糊特征,并结合所提出的分块度量方法,提高了验证算法的分类准确率,压缩了数据维度,在环境比较复杂的真实数据上,仍然对模糊图像有较好的识别准确率。
本发明的目的通过以下的技术方案实现:基于相位编码特征和多度量学习的模糊人脸图像验证方法,包括步骤:
(1)训练阶段:
(1-1)对输入样本图像进行分块并对每一图像块提取多尺度初级特征;多尺度初级特征为目标像素与邻域像素在频域的相位差向量;
(1-2)fisher kernel词典学习:对于训练样本,用步骤(1-1)提取的多尺度初级特征进行fisher kernel词典学习,并生成对应的分块fisher kernel编码特征;
(1-3)多度量矩阵学习:对训练样本的分块fisher kernel编码特征进行多度量矩阵学习以产生多个度量矩阵,并得到训练样本经过多度量矩阵投影后的度量距离,计算出正样本对集合的平均度量距离及方差和负样本对集合的平均度量距离及方差,并通过高斯分布的概率计算公式确定最终的分类阈值;
(2)测试人脸验证阶段:对于输入的人脸图像,首先对图像分块并提取多尺度初级特征,然后通过fisher kernel词典产生分块fisher kernel编码特征,再通过多度量矩阵得到最终的度量距离,将此距离与阈值相比得出人脸验证结果。
具体的,所述步骤(1-1)中提取多尺度初级特征的步骤是:
假设计算的中心点是xc,它的八个相邻点分别是xk,k=1...8,对频率u的响应分别是F(u,xt),t=1...8,对应的相位角度分别是∠F(u,xt),t=1...8,中心点的相位角度是∠F(u,xc),则相位差向量为:
dp(u)=[∠F(u,x1)-∠F(u,xc),...,∠F(u,x8)-∠F(u,xc)]T;
然后在四个相位点u1,u2,u3,u4分别计算频率响应,将四个相位差向量串联得到多频率相位差向量:dp=[dp(u1)Tdp(u2)Tdp(u3)Tdp(u4)T]T,其中u1=[a,0]T、u2=[0,a]T、u3=[a,a]T和u4=[a,-a]T,而M为频域卷积的窗口大小;在多频率相位差向量后加入空间坐标信息,得到初级特征描述子:
其中,w代表输入图像的宽度,h代表输入图像的高度,x代表图像块的横坐标,y代表图像块的纵坐标;所述多尺度初级特征是通过分别取M=3、5、7计算初级特征描述子并连接成一个向量得到的。
优选的,所述步骤(1-2)fisher kernel词典学习和编码特征生成方法是近年提出的一种用于物体识别的框架,能很好地结合生成模型和判别模型的优点,是现有的一种特征生成方法。其具体步骤是:
(1-2-1)构建词典,对于输入的多尺度初级特征,采用混合高斯模型(GMM)构建词典;用EM(Expectation Maximization Algorithm,最大期望算法)算法迭代估计模型参数,步骤如下:设第i个样本的特征为x(i)在混合高斯模型中出现概率为:
其中,wk是词典中第k个词的权重,μk和Σk分别是词典中第k个词的均值和协方差,EM算法首先随机初始化GMM模型的K个高斯分布的均值和协方差,对于输入的m个样本,先计算第i个样本来自第k个高斯的期望值然后通过最大化期望值来更新模型参数 并得到混合高斯模型的词典;
(1-2-2)用p(X|λ)表示特征的概率密度函数,X={xt,t=1,2...T}表示图像中抽样得到的低级特征集合,则对参数λ求导的梯度向量为代入混合高斯模型求得对均值和协方差的导数为和其中第i个词在所有词中的权重再对进行一次L2范数归一化得最后通过指数归一化的方法进行去稀疏得到输出fisher kernel编码特征。
更进一步的,对于输入特征指数归一化的计算公式为:
其中,α为指数归一化参数,在[0,1]之间。
优选的,所述步骤(1-3)中对训练样本的分块fisher kernel编码特征进行多度量矩阵学习的步骤如下:
(1-3-1)解以下的最优化方程:
其中,输入图像共有K个分块,故同时学习K个度量矩阵,其中Wk是第k个度量矩阵,W0是初始的约束矩阵,n是训练样本的数量,Dld为约束函数,公式为Dld(X,Y)=tr(XY-1)-logdet(XY-1)-n,用于衡量学习的度量矩阵与初始矩阵的距离,
是损失函数,用以评价多尺度度量投影后样本距离的分布是否符合预期要求,其中(ξ0)ij=δijρ-π;表示计算第k个图像块投影以后的距离;γ是训练过程中偏离初始矩阵的程度和训练样本正确率的平衡参数(约束函数和限制函数之间的平衡参数),δij=1表示样本i,j是正样本对,否则δij=-1,ξij是松弛变量,τ是正负样本与平均特征的差距阈值,(ξij)k是第k个图像块对应的松弛变量;首先,用对样本训练进行PCA降维得到的投影矩阵作为初始矩阵G0∈Rn ×r作为初始度量矩阵,然后,对于所有的输入分块训练图像对计算训练样本对投影后的距离均值及相应的差距阈值τ=0.6ρ,且同理计算每一分块对应的ρk,τk,然后对于k=1,...,K,初始化 Bk=Ir,按经验值设置γ,迭代次数初始化为0;
(1-3-2)迭代执行以下步骤进行参数的更新及分块度量的学习:
对于输入样本对计算投影距离:
然后进行判断,如果满足约束则对分块度量投影矩阵进行参数的更新,对于图像的每个分块k,如果则计算然后更新并计算和再由β和ω通过Cholesky分解算法更新Bk的值并更新迭代次数加1,一直重复该过程直到迭代收敛或者迭代次数超出设置的次数阈值,迭代结束后计算Gk=G0Bk,并输出度量矩阵作为度量学习迭代的结果,其中
(1-3-3)学习得到Gk后,对于输入样本,度量距离为计算出正样本对集合的平均度量距离及方差和负样本对集合的平均度量距离及方差,并通过高斯分布的概率计算公式确定最终的分类阈值。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提出了一种基于fisher kernel框架编码多尺度相位差特征的模糊鲁棒描述子,能从模糊的人脸图像中提取紧凑、描述能力强的抗模糊特征,并结合所提出的分块度量方法,进一步提高了验证算法的分类准确率,压缩了数据维度。
2、本发明所提出的方法在环境比较复杂的真实数据上仍然对模糊图像有较好的识别准确率。而对于标准人脸数据库加入不同程度的模糊,本发明方法不仅对模糊图像识别的准确率有明显的优势,对清晰图像的识别率也略高于其他方法,说明本发明方法具有通用性。
附图说明
图1为本发明方法的算法流程图。
图2为本发明使用EM算法计算混合高斯模型过程的示意图。
图3为本发明提取的多尺度相位差初级特征示意图,由上到下的卷积窗口大小(尺度)分别为3、5、7。
图4为本发明对FERET人脸数据库图像进行不同高斯核卷积模糊处理的结果示意图。
图5为本发明的真实环境人脸数据库中测试人脸图像和二代证电子芯片存放的证件照示意图,其中上面一行是测试人脸图像,下面一行是证件照。
图6为本发明方法和其他方法在经过模糊处理过的FERET人脸数据库上进行人脸验证实验的准确率对比图。
图7为本发明方法和其他方法用不同的分块大小在真实环境下进行人脸验证的准确率对比图。
图8为本发明方法和其他方法用5x5人脸分块在真实环境下进行人脸验证的ROC曲线对比图。
图9为本发明方法用5x5人脸分块在真实环境下进行人脸验证时高斯核的数量与验证准确率的关系示意图。
图10为本发明方法在真实环境下进行人脸验证添加空间坐标作为特征前后的验证准确率的对比图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,本实施例基于相位编码特征和多度量学习的模糊人脸图像验证方法,包括下述步骤:
(1)对输入图像进行分块并对每一图像块提取多尺度初级特征;
(2)fisher kernel词典学习:对于训练样本,用提取的分块多尺度初级特征进行fisher kernel词典学习,并生成对应的分块fisher kernel编码特征;
(3)多度量矩阵学习:对训练样本的分块fisher kernel编码特征进行多度量矩阵学习以产生多个度量矩阵,并得到训练样本经过多度量矩阵投影后的度量距离,计算出正样本对集合的平均度量距离及方差和负样本对集合的平均度量距离及方差,并通过高斯分布的概率计算公式确定最终的分类阈值;
(4)测试人脸验证阶段:对于输入的人脸图像,首先对图像分块并提取多尺度初级特征,然后通过fisher kernel词典产生分块fisher kernel编码特征,再通过多度量矩阵得到最终的度量距离,并与阈值相比得出人脸验证结果。
所述步骤(1)中提取的多尺度初级特征为目标像素与邻域像素在频域的相位差向量,首先假设计算的中心点是xc,它的八个相邻点分别是xk,k=1...8,对频率u的响应分别是F(u,xt),t=1...8,对应的相位角度分别是∠F(u,xt),t=1...8,中心点的相位角度是∠F(u,xc),则相位差向量可计算为:dp(u)=[∠F(u,x1)-∠F(u,xc),...,∠F(u,x8)-∠F(u,xc)]T,然后在四个相位点u1,u2,u3,u4分别计算频率响应,将四个相位差向量串联得到多频率的相位差向量:dp=[dp(u1)Tdp(u2)Tdp(u3)Tdp(u4)T]T,其中u1=[a,0]T、u2=[0,a]T、u3=[a,a]T和u4=[a,-a]T,而M为频域卷积的窗口大小,并且为了增加人脸的结构约束,在多频率相位差向量后加入空间坐标信息,得到的初级特征描述子:最终的多尺度初级特征集则是通过分别取M=3、5、7计算初级特征描述子并连接成一个向量得到的。
所述步骤(2)中fisher kernel词典学习和编码特征生成方法是近年提出的一种用于物体识别的框架,能很好地结合生成模型和判别模型的优点,fisher kernel框架首先要构建词典,对于输入的多尺度初级特征,采用混合高斯模型(GMM)构建词典,并用EM算法迭代估计模型参数,本实施例使用EM算法计算混合高斯模型的过程如图2所示,图2包括(a)~(f)六个过程图,其中图2(a)给出了要分类的样本及初始的高斯核中心及对应的协方差(以圆圈表示,圆圈中心代表高斯核中心,圆圈大小代表协方差大小),图2(b)则根据初始化的高斯核及样本分布把样本分类,图2(c)-图2(f)则是EM算法迭代的过程,L代表的是迭代的次数,在图2(f)中,迭代收敛,得到了EM算法学习的高斯核模型。具体步骤如下:设第i个样本的特征为x(i)在混合高斯模型中出现概率为:
其中,wk是词典中第k个词的权重,μk和Σk分别是词典中第k个词的均值和协方差,EM算法首先随机初始化GMM模型的K个高斯分布的均值和协方差,对于输入的m个样本,先计算第i个样本来自第k个高斯的期望值然后通过最大化期望值来更新模型参数 并得到混合高斯模型的词典;
用p(X|λ)表示特征的概率密度函数,X={xt,t=1,2...T}表示图像中抽样得到的低级特征集合,则对参数λ求导的梯度向量为代入混合高斯模型可求得对均值和协方差的导数为和其中第i个词在所有词中的权重再对进行一次L2范数归一化可得最后通过指数归一化的方法进行去稀疏得到分布更加均匀的输出fisherkernel编码特征,对于输入特征指数归一化的计算公式为:其中α为指数归一化参数,在[0,1]之间。
所述步骤(3)中的多度量矩阵学习过程是要解以下的最优化方程:
其中,输入图像共有K个分块,故同时学习K个度量矩阵,其中Wk是第k个度量矩阵,W0是初始的约束矩阵,n是训练样本的数量,Dld为约束函数,公式为Dld(X,Y)=tr(XY-1)-logdet(XY-1)-n,用于衡量学习的度量矩阵与初始矩阵的距离,是损失函数,用以评价多尺度度量投影后样本距离的分布是否符合预期要求,其中(ξ0)ij=δijρ-π;计算第k个图像块投影以后的距离,γ是训练过程中偏离初始矩阵的程度和训练样本正确率的平衡参数(约束函数和限制函数之间的平衡参数),δij=1如果样本i,j是正样本对,否则δij=-1,ξij是松弛变量,(ξij)k是第k个图像块对应的松弛变量;τ是正负样本与平均特征的差距阈值,对于所有的输入分块训练图像对用对样本训练进行PCA降维得到的投影矩阵作为初始矩阵G0∈Rn×r,从而得到初始度量矩阵并计算训练样本对投影后的距离均值相应的差距阈值τ=0.6ρ,且同理可以计算每一分块对应的ρk,τk,然后对于s,初始化 Bk=Ir,按经验值设置γ,迭代次数初始化为0。接下来迭代执行以下步骤进行参数的更新及分块度量的学习:对于输入样本对计算投影距离然后进行判断,如果满足约束则对分块度量投影矩阵进行参数的更新,对于图像的每个分块k,如果则计算然后更新并计算和再由β和ω通过Cholesky分解算法更新Bk的值并更新迭代次数加1。一直重复该过程直到迭代收敛或者迭代次数超出设置的次数阈值,迭代结束后计算Gk=G0Bk,并输出作为度量学习迭代的结果,学习得到Gk后,对于输入样本,度量距离为s计算正样本对集合的平均度量距离及方差和负样本对集合的平均度量距离及方差,并通过高斯分布的概率计算公式确定最终的分类阈值。
本实施例通过以下实验对本发明方法的效果进行说明:实验数据库选择FERET人脸数据库和真实环境人脸数据库,其中FERET人脸数据库包括了一个通用人脸库以及通用测试标准,数据库中包括同一人的不同表情、光照、姿态和年龄的照片。本实施例中FERET人脸数据库包含429个人,训练库gallery和测试库fafb都是feret库的子库,训练库gallery包含1196张图像,而测试库fafb包含1195张图像,根据数据库的标注信息将人脸以眼睛对齐为标准剪裁到128x128大小的图像,对于训练图像,保持其分辨率,对于测试图像则分别使用σ={1,2,...,4}四种强度的高斯核卷积进行模糊处理,模糊处理的效果见图4;而真实环境人脸数据库包含3000人,共3000对验证图像对,其中1500对图像用于训练,1500对图像用于测试,图像对其中之一来自现实生活中拍的人脸图像而另外一个则来自中国第二代身份证中芯片中存放的模糊半身图像,通过Viola检测器检测相片中的人脸,然后根据检测到的人眼位置对图像进行对齐,真实环境人脸测试图像及二代证身份证中存放的模糊图像如图5,上下图片中的人脸是同一个人。
FERET数据库人工模糊人脸验证对比实验:这个实验使用经过了人工模糊的FERET数据库,在提取本文的初级特征时,使用了三种尺度的窗口大小win=3,5,7,并在四个相位点u1=[a,0]T、u2=[0,a]T、u3=[a,a]T和u4=[a,-a]T计算频率响应,如图3所示,最上面第一行的图像为待处理的图像,第二行为win=3时,四个相位点的频率响应图像,第三行为win=5时,四个相位点的频率响应图像,第四行为win=7时,四个相位点的频率响应图像。人脸图像分块大小为5x5,词典构建过程中选择高斯数目为gaussian=32,度量学习的初始投影矩阵由G0由训练样本PCA降维得到,从原始维度降低到250维,权重γ=1,目标间隔τ选择为平均距离的0.6倍。作为对照,分别使用LBP+WPCA、LBP+LDA、LPQ+WPCA和LPQ+LDA四组人脸识别和验证方法进行实验结果的对比。实验结果见图6,由图6可知,本发明算法的验证准确率比另外4种方法的准确率高,而且随着图像模糊程度(σ={1,2,...,4}四种强度的高斯核卷积)的加强,验证准确率的差距越来越大,这说明本发明算法对于模糊的鲁棒性比另外4种对比算法要好,而且随着模糊程度的变化,本发明算法整体准确率变化比较少,这也说明了算法的通用性强,验证结果稳定可靠。
另外,本实施例提供了真实环境人脸数据库人脸验证对比及参数作用验证实验:这个实验使用真实环境人脸数据库验证本发明算法有效性并显示参数的变化对于验证准确率的影响,参数设置基本与上一个实验相同,要验证某一参数时则仅变化该参数的数值。由于真实环境人脸数据库中的人脸图像来自现实生活,因此与证件照相比存在姿态、光照及年龄的差别,并且二代证中电子芯片存放的证件照比较模糊,这个实验的验证难度要高于上一个实验。由于LDA算法在这个数据库上的验证准确率很低,因此这个实验的对比算法采用LBP+WPCA和LPQ+WPCA,人脸验证实验的ROC曲线见图8,由ROC曲线可以看出,算法整体的准确率相比在FERET上的结果都有一定的下降,但是相比其他方法仍然维持着比较明显的优势,本发明算法性能更好而且更加稳定,当错误接受率为0.1时本发明算法有90%的正确接受率,而另外两种算法都在75%以下。
另外,在实际应用中,合理的分块对人脸验证也有一定的影响。分块情况与人脸验证准确率的关系见图7,由图7可以看到,不管分块情况如何,本发明算法都比对比的2种算法要好,随着分块的细化所有算法的准确率都有提升,但提升的幅度越来越小,因此5x5的分块会是一个比较合适的折衷考虑计算量和准确率的选择。
另外,在实际应用中,Fisher Kernel高斯核数量对人脸验证也有一定的影响。Fisher Kernel高斯核数量与验证准确率的关系见图9,由图9可知,虽然随着词典数目增加准确率略有上升,但是并不明显,这说明Fisher Kernel框架对词典数目并不十分敏感,算法有稳定的特征描述能力。
另外,在实际应用中,初级特征的尺度对人脸验证也有一定的影响。初级特征的尺度与验证准确率的关系见下表1:
表1在真实环境下进行初级特征的尺度与验证准确率的关系
卷积窗口的尺度 | 准确率(%) |
win=3 | 84.26% |
win=3,5 | 86.65% |
win=3,5,7 | 90.03% |
由上表可知,通过引入不同大小的窗口计算相位差能有效的提高准确率,而且由于Fisher Kernel框架的特点,最终生成的特征向量只和参数个数以及初级特征的维度有关,多尺度不会导致特征维数增加,除开增加了计算相位和编码的计算量,不需要担心维度增加带来的困难,却能显著提升系统的性能。
另外,本实施例还给出了添加坐标前后的验证准确率对比图见图10,由图10可知,添加了坐标信息以引入人脸结构和空间信息后,性能有了稳定的提升。加入多度量算法前后的验证准确率对比见下表2.
表2在真实环境下经过分块度量学习前后的验证准确率对比
使用的特征 | 不使用度量学习的准确率 | 使用度量学习的准确率 |
本文方法 | 68.82%(G0+L2norm) | 89.26% |
而分块度量学习的效果是使得原本混叠在一起的不可分训练样本,经过分块度量学习后正负样本能够有效的拉开距离,同时度量前的特征非常高维,用传统的PCA降维方法得到的效果较差,而度量学习可以在压缩高维Fisher Kernel特征的同时仍然保留了很好的识别能力。由表2可知,经过分块度量以后,本发明算法验证准确率有了显著的提高。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.基于相位编码特征和多度量学习的模糊人脸图像验证方法,其特征在于,包括步骤:
(1)训练阶段:
(1-1)对输入样本图像进行分块并对每一图像块提取多尺度初级特征;多尺度初级特征为目标像素与邻域像素在频域的相位差向量;
(1-2)fisher kernel词典学习:对于训练样本,用步骤(1-1)提取的多尺度初级特征进行fisher kernel词典学习,并生成对应的分块fisher kernel编码特征;
(1-3)多度量矩阵学习:对训练样本的分块fisher kernel编码特征进行多度量矩阵学习以产生多个度量矩阵,并得到训练样本经过多度量矩阵投影后的度量距离,计算出正样本对集合的平均度量距离及方差和负样本对集合的平均度量距离及方差,并通过高斯分布的概率计算公式确定最终的分类阈值;
(2)测试人脸验证阶段:对于输入的人脸图像,首先对图像分块并提取多尺度初级特征,然后通过fisher kernel词典产生分块fisher kernel编码特征,再通过多度量矩阵得到最终的度量距离,将此距离与阈值相比得出人脸验证结果。
2.根据权利要求1所述的基于相位编码特征和多度量学习的模糊人脸图像验证方法,其特征在于,所述步骤(1-1)中提取多尺度初级特征的步骤是:
假设计算的中心点是xc,它的八个相邻点分别是xk,k=1...8,对频率u的响应分别是F(u,xt),t=1...8,对应的相位角度分别是∠F(u,xt),t=1...8,中心点的相位角度是∠F(u,xc),则相位差向量为:
dp(u)=[∠F(u,x1)-∠F(u,xc),...,∠F(u,x8)-∠F(u,xc)]T;
然后在四个相位点u1,u2,u3,u4分别计算频率响应,将四个相位差向量串联得到多频率相位差向量:dp=[dp(u1)Tdp(u2)Tdp(u3)Tdp(u4)T]T,其中u1=[a,0]T、u2=[0,a]T、u3=[a,a]T和u4=[a,-a]T,而M为频域卷积的窗口大小;在多频率相位差向量后加入空间坐标信息,得到初级特征描述子:
<mrow>
<msub>
<mi>d</mi>
<mrow>
<mi>f</mi>
<mi>i</mi>
<mi>n</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>=</mo>
<msup>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<msubsup>
<mi>d</mi>
<mi>p</mi>
<mi>T</mi>
</msubsup>
</mtd>
<mtd>
<mrow>
<mfrac>
<mi>x</mi>
<mi>w</mi>
</mfrac>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
</mrow>
</mtd>
<mtd>
<mrow>
<mfrac>
<mi>y</mi>
<mi>h</mi>
</mfrac>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mi>T</mi>
</msup>
<mo>;</mo>
</mrow>
其中,w代表输入图像的宽度,h代表输入图像的高度,x代表图像块的横坐标,y代表图像块的纵坐标;所述多尺度初级特征是通过分别取M=3、5、7计算初级特征描述子并连接成一个向量得到的。
3.根据权利要求1所述的基于相位编码特征和多度量学习的模糊人脸图像验证方法,其特征在于,所述步骤(1-2)fisher kernel词典学习的具体步骤是:
(1-2-1)构建词典,对于输入的多尺度初级特征,采用混合高斯模型构建词典;用EM算法迭代估计模型参数,EM算法即为最大期望算法,步骤如下:设第i个样本的特征为x(i)在混合高斯模型中出现概率为:
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>|</mo>
<mi>&lambda;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>|</mo>
<msub>
<mi>&mu;</mi>
<mi>k</mi>
</msub>
<mo>,</mo>
<msub>
<mi>&Sigma;</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,wk是词典中第k个词的权重,μk和Σk分别是词典中第k个词的均值和协方差,EM算法首先随机初始化GMM模型的K个高斯分布的均值和协方差,GMM模型即为混合高斯模型,对于输入的m个样本,先计算第i个样本来自第k个高斯的期望值然后通过最大化期望值来更新模型参数 并得到混合高斯模型的词典;
(1-2-2)用p(X|λ)表示特征的概率密度函数,X={xt,t=1,2...T}表示图像中抽样得到的低级特征集合,则对参数λ求导的梯度向量为代入混合高斯模型求得对均值和协方差的导数为和其中第i个词在所有词中的权重再对进行一次L2范数归一化得最后通过指数归一化的方法进行去稀疏得到输出fisher kernel编码特征。
4.根据权利要求3所述的基于相位编码特征和多度量学习的模糊人脸图像验证方法,其特征在于,对于输入特征指数归一化的计算公式为:
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>g</mi>
<mi>&lambda;</mi>
<mi>X</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>s</mi>
<mi>i</mi>
<mi>g</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>g</mi>
<mi>&lambda;</mi>
<mi>X</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>|</mo>
<msubsup>
<mi>g</mi>
<mi>&lambda;</mi>
<mi>X</mi>
</msubsup>
<msup>
<mo>|</mo>
<mi>&alpha;</mi>
</msup>
<mo>;</mo>
</mrow>
其中,α为指数归一化参数,在[0,1]之间。
5.根据权利要求1所述的基于相位编码特征和多度量学习的模糊人脸图像验证方法,其特征在于,所述步骤(1-3)中对训练样本的分块fisher kernel编码特征进行多度量矩阵学习的步骤如下:
(1-3-1)解以下的最优化方程:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<munder>
<mi>min</mi>
<mrow>
<msub>
<mi>W</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<mn>...</mn>
<msub>
<mi>W</mi>
<mi>K</mi>
</msub>
</mrow>
</munder>
<mfrac>
<mn>1</mn>
<mi>K</mi>
</mfrac>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<msub>
<mi>D</mi>
<mrow>
<mi>l</mi>
<mi>d</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>W</mi>
<mi>k</mi>
</msub>
<mo>,</mo>
<msub>
<mi>W</mi>
<mn>0</mn>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mfrac>
<mi>&gamma;</mi>
<mi>n</mi>
</mfrac>
<munder>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</munder>
<mi>l</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&xi;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>&delta;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mi>&rho;</mi>
<mo>-</mo>
<mi>&tau;</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mtable>
<mtr>
<mtd>
<mrow>
<mi>s</mi>
<mo>.</mo>
<mi>t</mi>
<mo>.</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mfrac>
<msub>
<mi>&delta;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mi>K</mi>
</mfrac>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<msub>
<mi>dW</mi>
<mi>k</mi>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msubsup>
<mi>z</mi>
<mi>i</mi>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>z</mi>
<mi>j</mi>
<mi>k</mi>
</msubsup>
</mrow>
<mo>)</mo>
</mrow>
<mo>&le;</mo>
<msub>
<mi>&xi;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<msub>
<mi>and&delta;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<msub>
<mi>dW</mi>
<mi>k</mi>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msubsup>
<mi>z</mi>
<mi>i</mi>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>z</mi>
<mi>j</mi>
<mi>k</mi>
</msubsup>
</mrow>
<mo>)</mo>
</mrow>
<mo><</mo>
<msub>
<mrow>
<mo>(</mo>
<msub>
<mi>&xi;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mi>k</mi>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mtd>
</mtr>
</mtable>
<mo>;</mo>
</mrow>
其中,输入图像共有K个分块,故同时学习K个度量矩阵,其中Wk是第k个度量矩阵,W0是初始的约束矩阵,n是训练样本的数量,Dld为约束函数,公式为Dld(X,Y)=tr(XY-1)-logdet(XY-1)-n,用于衡量学习的度量矩阵与初始矩阵的距离,是损失函数,用以评价多尺度度量投影后样本距离的分布是否符合预期要求,其中(ξ0)ij=δijρ-π;
表示计算第k个图像块投影以后的距离;γ是训练过程中偏离初始矩阵的程度和训练样本正确率的平衡参数(约束函数和限制函数之间的平衡参数),δij=1表示样本i,j是正样本对,否则δij=-1,ξij是松弛变量,τ是正负样本与平均特征的差距阈值,(ξij)k是第k个图像块对应的松弛变量;首先,用对样本训练进行PCA降维得到的投影矩阵作为初始矩阵G0∈Rn×r作为初始度量矩阵,然后,对于所有的输入分块训练图像对计算训练样本对投影后的距离均值及相应的差距阈值τ=0.6ρ,且同理计算每一分块对应的ρk,τk,然后对于k=1,...,K,初始化Bk=Ir,按经验值设置γ,迭代次数初始化为0;
(1-3-2)迭代执行以下步骤进行参数的更新及分块度量的学习:
对于输入样本对计算投影距离:
<mrow>
<msubsup>
<mi>p</mi>
<mi>k</mi>
<mi>t</mi>
</msubsup>
<mo>=</mo>
<msub>
<mi>dW</mi>
<mi>k</mi>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>z</mi>
<mi>i</mi>
<mi>k</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>z</mi>
<mi>j</mi>
<mi>k</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>z</mi>
<mi>i</mi>
<mi>k</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>z</mi>
<mi>j</mi>
<mi>k</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msub>
<mi>W</mi>
<mi>k</mi>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>z</mi>
<mi>i</mi>
<mi>k</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>z</mi>
<mi>j</mi>
<mi>k</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>z</mi>
<mi>i</mi>
<mi>k</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>z</mi>
<mi>j</mi>
<mi>k</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msub>
<mi>G</mi>
<mn>0</mn>
</msub>
<msubsup>
<mi>B</mi>
<mi>k</mi>
<mi>t</mi>
</msubsup>
<msubsup>
<mi>B</mi>
<mi>k</mi>
<mrow>
<mi>t</mi>
<mi>T</mi>
</mrow>
</msubsup>
<msubsup>
<mi>G</mi>
<mn>0</mn>
<mi>T</mi>
</msubsup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>z</mi>
<mi>i</mi>
<mi>k</mi>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>z</mi>
<mi>j</mi>
<mi>k</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
然后进行判断,如果满足约束则对分块度量投影矩阵进行参数的更新,对于图像的每个分块k,如果则计算然后更新并计算和再由β和ω通过Cholesky分解算法更新Bk的值并更新迭代次数加1,一直重复该过程直到迭代收敛或者迭代次数超出设置的次数阈值,迭代结束后计算Gk=G0Bk,并输出度量矩阵作为度量学习迭代的结果,其中
(1-3-3)学习得到Gk后,对于输入样本,度量距离为计算出正样本对集合的平均度量距离及方差和负样本对集合的平均度量距离及方差,并通过高斯分布的概率计算公式确定最终的分类阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410318641.1A CN104123560B (zh) | 2014-07-03 | 2014-07-03 | 基于相位编码特征和多度量学习的模糊人脸图像验证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410318641.1A CN104123560B (zh) | 2014-07-03 | 2014-07-03 | 基于相位编码特征和多度量学习的模糊人脸图像验证方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104123560A CN104123560A (zh) | 2014-10-29 |
CN104123560B true CN104123560B (zh) | 2017-12-01 |
Family
ID=51768965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410318641.1A Active CN104123560B (zh) | 2014-07-03 | 2014-07-03 | 基于相位编码特征和多度量学习的模糊人脸图像验证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104123560B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408037B (zh) * | 2015-07-30 | 2020-02-18 | 阿里巴巴集团控股有限公司 | 图像识别方法及装置 |
CN106056159B (zh) * | 2016-06-03 | 2019-03-26 | 西安电子科技大学 | 基于Fisher Vector的图像精细分类方法 |
CN106548180B (zh) * | 2016-10-21 | 2019-04-12 | 华中科技大学 | 一种获取模糊不变图像的特征描述子的方法 |
CN107169446A (zh) * | 2017-05-12 | 2017-09-15 | 深圳市唯特视科技有限公司 | 一种基于注意定势度量学习的视频面部识别方法 |
CN107220614B (zh) * | 2017-05-24 | 2021-08-10 | 北京小米移动软件有限公司 | 图像识别方法、装置及计算机可读存储介质 |
CN108280451B (zh) * | 2018-01-19 | 2020-12-29 | 北京市商汤科技开发有限公司 | 语义分割及网络训练方法和装置、设备、介质 |
CN108776768A (zh) * | 2018-04-19 | 2018-11-09 | 广州视源电子科技股份有限公司 | 图像识别方法及装置 |
CN108898094B (zh) * | 2018-06-26 | 2020-06-05 | 华中科技大学 | 一种基于串联集成式rmml度量学习的人脸比对方法和系统 |
CN109558814A (zh) * | 2018-11-14 | 2019-04-02 | 常州大学 | 一种三维矫正和加权相似性度量学习的无约束人脸验证方法 |
CN111160119B (zh) * | 2019-12-11 | 2023-07-14 | 常州工业职业技术学院 | 一种用于化妆人脸验证的多任务深度判别度量学习模型构建方法 |
CN111166322A (zh) * | 2020-01-17 | 2020-05-19 | 哈尔滨工业大学 | 心电信号特征波提取方法 |
CN111091132B (zh) * | 2020-03-19 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像识别方法、装置、计算机设备及介质 |
CN113837154B (zh) * | 2021-11-25 | 2022-03-25 | 之江实验室 | 一种基于多任务辅助的开放集过滤系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693422A (zh) * | 2012-06-05 | 2012-09-26 | 江苏物联网研究发展中心 | 增强类局部二元模式特征人脸识别性能的滤波器设计方法 |
-
2014
- 2014-07-03 CN CN201410318641.1A patent/CN104123560B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693422A (zh) * | 2012-06-05 | 2012-09-26 | 江苏物联网研究发展中心 | 增强类局部二元模式特征人脸识别性能的滤波器设计方法 |
Non-Patent Citations (3)
Title |
---|
"Aggregating local descriptors into a compact image representation";Herve Jegou et al.;《 Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on》;20100618;第3304页第1栏第1段-第3311页第1栏第3段 * |
"Face recognition using Gabor-based complete Kernel Fisher Discriminant analysis with fractional power polynomial models";Jun-Bao Li et al.;《《Neural Computing and Applications》》;20091231;第613-621页 * |
"基于集成核Fisher学习的人脸识别方法";陈亚菲 等;《全国模式识别学术会议》;20090324;第266页摘要、第1栏第1段-第269页第1栏第1段 * |
Also Published As
Publication number | Publication date |
---|---|
CN104123560A (zh) | 2014-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104123560B (zh) | 基于相位编码特征和多度量学习的模糊人脸图像验证方法 | |
Chen et al. | A cascaded convolutional neural network for age estimation of unconstrained faces | |
CN110348399B (zh) | 基于原型学习机制和多维残差网络的高光谱智能分类方法 | |
CN103605972B (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
WO2016138838A1 (zh) | 基于投影极速学习机的唇语识别方法和装置 | |
CN112528928B (zh) | 一种基于自注意力深度网络的商品识别方法 | |
CN108108751B (zh) | 一种基于卷积多特征和深度随机森林的场景识别方法 | |
CN105354595B (zh) | 一种鲁棒视觉图像分类方法及系统 | |
CN105469063B (zh) | 鲁棒的人脸图像主成分特征提取方法及识别装置 | |
CN106980848A (zh) | 基于曲波变换和稀疏学习的人脸表情识别方法 | |
CN113239839B (zh) | 基于dca人脸特征融合的表情识别方法 | |
CN110781766B (zh) | 基于特征谱正则化的格拉斯曼流形判别分析图像识别方法 | |
CN105868711B (zh) | 一种基于稀疏低秩的人体行为识别方法 | |
CN106096517A (zh) | 一种基于低秩矩阵与特征脸的人脸识别方法 | |
CN107145841B (zh) | 一种基于矩阵的低秩稀疏人脸识别方法及其系统 | |
Chen et al. | Dictionary learning from ambiguously labeled data | |
CN107862680B (zh) | 一种基于相关滤波器的目标跟踪优化方法 | |
CN103714340B (zh) | 基于图像分块的自适应特征提取方法 | |
CN109376787A (zh) | 流形学习网络及基于其的计算机视觉图像集分类方法 | |
CN111860529A (zh) | 一种图像的预处理方法、系统、设备以及介质 | |
Zhang et al. | Kernel dictionary learning based discriminant analysis | |
CN112001231B (zh) | 加权多任务稀疏表示的三维人脸识别方法、系统及介质 | |
CN106650769A (zh) | 基于线性表示多视图鉴别字典学习的分类方法 | |
CN116310462B (zh) | 一种基于秩约束自表示的图像聚类方法及装置 | |
Qiu et al. | Learning transformations for classification forests |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |