CN105069403A

CN105069403A - 一种基于分块统计特征与字典学习稀疏表示分类的三维人耳识别

Info

Publication number: CN105069403A
Application number: CN201510427489.5A
Authority: CN
Inventors: 张�林; 李力达; 沈莹; 李宏宇
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2015-07-20
Filing date: 2015-07-20
Publication date: 2015-11-18
Anticipated expiration: 2035-07-20
Also published as: CN105069403B

Abstract

本发明公开了一种基于分块统计特征与字典学习稀疏表示分类的三维人耳识别方法，其将三维人耳的采样图像等分为若干个子区域，针对每个子区域，首先计算人耳的表面类型，然后使用直方图统计每个子区域内人耳表面类型，最后将每个子区域的表面类型直方图拼接在一起，作为人耳深度图像的特征描述算子，并使用字典学习稀疏表示框架进行分类，从而提高识别效率与精确度。本发明可用于对身份识别有严格要求的场合，有效地解决了多个三维人耳采样之间的对齐偏差问题。

Description

一种基于分块统计特征与字典学习稀疏表示分类的三维人耳识别

技术领域

本发明属于模式识别领域，涉及一种身份信息验证的方法，尤其是一种人耳识别方法。

背景技术

随着信息技术的不断发展，海内外学者以及多家科技公司热衷于提高身份信息的验证效果，以满足实际生活中，诸如门禁控制、海关通关、体育场馆安检等多个不同场合中，对于识别人的身份的严苛需求。基于生物特征识别的方法正受到人们越来越多的关注。其中，人耳作为生物特征识别领域中一种新兴的生物特征，在近年中受到了广泛的研究，并通过实验证明人耳是一种性质优异的生物特征。人耳包括丰富的结构以及特殊的形状，具有普遍性、独特性、持久性等诸多特征。经前期研究发现，人耳的形状在8至70岁之间都不会发生改变。

二维人耳识别系统受限于成像因素，受光照条件影响大。此外，二维人耳图像容易被他人复制顶替，不适合对身份识别有严格要求的应用场合。对此，使用包含深度信息的人耳的三维数据进行识别，可以从数据获取途径层面上有效地克服上述问题。然而，在使用人耳的三维数据进行的识别过程中，通常需要进行三维数据之间的一对一的注册匹配，耗时漫长。另外，经过注册后，人耳的三维数据之间仍存在微小的注册误差，对提高人耳的三维数据的识别效果造成了瓶颈。

近年来，研究者将稀疏编码的算法成功应用于解决计算机视觉以及图像处理中的诸多问题中，包括图像去噪、图像恢复、物体识别、图像质量评价等。在稀疏编码中，通过选取一个过完备字典中的若干个元素，用所选取的元素线性表出输入信号。根据稀疏编码的各元素的大小以及所对应的字典项的类标，可用于解决物体识别问题。目前，有学者通过实验发现，使用字典学习的方法更新字典项，所得到的新字典在用于稀疏编码后，通常可以取得更加出色的识别效果。

发明内容

本发明的目的在于提供一种基于分块统计特征与字典学习稀疏表示分类的三维人耳识别方法。在以往的三维人耳匹配过程中，需要把待测人耳与已知集合中的每一个人耳的三维数据样本逐一匹配。该方法效率随样本数据集合的容量增大而大幅降低。针对这一问题，本发明采用字典学习与稀疏表示分类的算法，解决一对多的识别问题。此外，本发明针对人耳的三维数据在注册匹配后，仍然存在的微小对齐误差的问题，采用基于分块统计特征的描述算子。通过实施上述策略，进而建立了一种精确、快速的三维人耳识别方法。

为达到上述目的，本发明的解决方案是：

一种基于分块统计特征与字典学习稀疏表示分类的三维人耳识别方法，

(一)确定人耳的三维数据特征：

(1)定义为第i个人耳的第j次三维人耳的采样图像，其长、宽分别为U、V，共包含U×V个点，用(x,y,f(x,y))描述任意点P在三维空间中的位置；

(2)将在长、宽方向上分别作u等分和v等分，得到u×v个三维人耳采样图像的子区域，则每个子区域的长、宽分别为记为在长方向上的第p个、宽方向上的第q个子区域，其中，1≤p≤u,1≤q≤v；

所述步骤(2)中，若三维人耳图像的长U无法被u整除和/或三维人耳图像的宽V无法被v整除，分块时，保留三维人耳图像的位于中心区域的点进行分块以作为子区域，删除三维人耳图像四周无法被整除区域的点，不作为进行识别的子区域，优选方案为

(3)创建子区域的描述算子，用于描述子区域内三位人耳表面的信息：

(3-1)确定子区域内每个点的平均曲率H；

所述步骤(3-1)中，根据公式确定子区域内每个点的平均曲率H，其中f_x,f_y分别表示该点的深度在x、y方向上的一阶偏导，f_xx,f_yy,f_xy分别表示该点的深度的二阶偏导。

(3-2)确定子区域内每个点的高斯曲率K；

所述步骤(3-2)中，根据公式计算子区域内每个点的高斯曲率K，其中f_x,f_y分别表示该点的深度在x、y方向上的一阶偏导，f_xx,f_yy,f_xy分别表示该点的深度的二阶偏导。

所述步骤(3-1)与(3-2)中，为了准确地计算偏导数，可以采用P.J.Besl与R.C.Jain在Segmentationthroughvariable-ordersurfacefitting一文中所使用的方法。具体方法为，对于给定的深度图像，可先使用二项式滤波器S对深度图像f进行卷积平滑操作，其中S＝ss^T，s＝[1615201561]^T/64，而后，使用预定义的窗口掩膜计算偏导数，其中，d₀＝[1111111]^T/7，d₁＝[-3-2-10123]^T/28，d₂＝[50-3-4-405]^T/84。从而，偏导数的计算公式为f_x＝D_x*S*f，f_y＝D_y*S*f，f_xx＝D_xx*S*f，f_yy＝D_yy*S*f，f_xy＝D_xy*S*f，其中，*代表卷积运算，可使用快速傅里叶变换的方法大幅度提升偏导数的计算效率。

(3-3)根据每个点的平均曲率H与高斯曲率K的符号，确定每个点的类型：若H<0且K>0，该点为类型1；若H<0且K＝0，该点为类型2；若H<0且K<0，该点为类型3；若H＝0且K>0，该点为类型4；若H＝0且K＝0，该点为类型5；若H＝0且K<0，该点为类型6；若H>0且K>0，该点为类型7；若H>0且K＝0，该点为类型8；若H>0且K<0，该点为类型9；

所述步骤(3-3)中，类型1呈峰状，类型2呈山脊状，类型3呈鞍岭状，类型5呈平面状，类型6为最小曲面，类型7呈凹陷状，类型8呈山谷状，类型9呈鞍谷状，类型4为特殊类型，包括除上述8种类型外的其他形状。在实际判断平均曲率H与高斯曲率K的符号时，由于在实际计算得出的平均曲率H与高斯曲率K的值均为实数值，而实数值精确取为0的概率极低，因此将实数值直接与0比较以确定符号的做法不适用于实际场景。在实际实现中，可参照D.Zhang,G.Lu,W.Li和N.Luo在Palmprintrecognitionusing3-Dinformation中首次提出的改进方法，该方法为：分别定义包含数值0的两个非常短的区间[-ε_H,ε_H]与[-ε_K,ε_K]，将经运算得到的H与K分别与对应的区间进行比较，以最终确定对应的表面类型。此外，为了使得ε_H或者ε_K适应于不同的人耳，可将H或者K的值，根据其标准差将其归一化。优选的ε_H与ε_K分别为0.030和0.015。

(3-4)使用直方图统计各类型出现的次数，得到向量h＝[h₁,h₂,…h_i…,h₈,h₉]以用于描述该子区域，其中h_i表示该子区域内为类型i的点的个数，1≤i≤9；

(4)将各子区域的描述算子拼接在一起，构成的描述算子

其中h_p,q表示在长方向上的第p个、宽方向上的第q个子区域的描述算子，n＝9×u×v；

(二)根据步骤(一)中确定的人耳的三维数据特征构建三维人耳数据库 s表示数据库中的人耳总数，N表示数据库中的人耳采样的总数，C_j表示第j个人耳的采样总数；

所述步骤(二)中，构建得到的三维人耳数据库Y与人耳的三维数据采样总数N与描述算子的维度n的大小关系应满足N＞＞n；

在人耳的三维数据采样总数N与描述算子的维度n的大小关系为N≤n时，可以采用随机投影的算法对描述算子降维，即在步骤(三)中使用降维后的字典代替Y，其中为高斯白噪音随机投影矩阵，满足

(三)根据步骤(二)中确定的三维人耳数据库Y，采用字典学习框架，得到学习过的字典以及分类器：

(I)从Y中随机选取κ个人耳的三维数据特征，组成字典

所述步骤(I)中，所选取的人耳的三维数据特征数目κ应满足κ>n。

(II)计算Y的有辨别性的稀疏编码矩阵其中是y_i对应的有辨别性的稀疏编码，q_i中的非零元素所在的位置表示输入信号y_i与字典项d_j(j＝1,…,κ)属于同一人耳；

(III)计算Y的类标矩阵其中是输入信号y_i的类标向量，其中非零元素的位置表示该信号所属的人耳身份；

(IV)确定能量方程

ϵ = | | Y - D X | |_{F}^{2} + α | | Q - A X | |_{F}^{2} + β | | H - W X | |_{F}^{2},

满足

&ForAll; i, | | x_{i} | |_{0} \leq τ,

其中为Y的稀疏编码，τ为稀疏限制阈值，‖·‖₀计算向量中的非零元素的个数，为线性变换矩阵，它使得初始的稀疏编码在κ维空间中最具辨别能力，为线性分类器的参数矩阵；

所述步骤(IV)中，α、β为非负数，τ为正整数，优选方案为α＝β＝1，τ＝7。

(V)为了最小化能量方程ε，可将其改写为满足

&ForAll; i, | | x_{i} | |_{0} \leq τ,

并令

Y_{n e w} = {(Y^{T}, \sqrt{α} Q^{T}, \sqrt{β} H^{T})}^{T}, D_{n e w} = {(D^{T}, \sqrt{α} A^{T}, \sqrt{β} W^{T})}^{T},

从而应用K-SVD算法求解改写后的能量方程，即满足

&ForAll; i, | | x_{i} | |_{0} \leq τ;

(VI)由于在中，满足

&ForAll; k, | | d_{k} | |_{2} = | | d_{k}^{T}, \sqrt{α} a_{k}^{T}, \sqrt{β} W_{k}^{T} | |_{2} =

1,

因此经过字典学习后，所得到的字典与线性分类器的参数矩阵分别为

{\hat{D}}^{*} =

[\frac{d_{1}}{| | d_{1} | |_{2}}, ..., \frac{d_{κ}}{| | d_{κ} | |_{2}}], {\hat{W}}^{*} = [\frac{w_{1}}{| | d_{1} | |_{2}}, ..., \frac{w_{κ}}{| | d_{κ} | |_{2}}];

(四)根据步骤(三)中确定的与使用稀疏表示分类方法，确定待测人耳的三维数据的身份：

(i)对于一个给定的待测三维人耳数据E_probe，根据步骤(一)，计算其描述算子y_probe，对所得到的描述算子在上进行稀疏编码，即求解满足‖x‖₀≤τ；

所述步骤(i)中，求解稀疏编码可以采用正交匹配追踪算法，求解稀疏编码所使用的稀疏限制阈值τ采用步骤(IV)中所使用的τ的取值。

(ii)对于计算得到的稀疏编码使用经字典学习得到的线性分类器的参数矩阵计算类标向量

(iii)类标向量c中最大元素所处的位置所对应的身份，即为E_probe的身份。

由于采用上述方案，本发明的有益效果是：

步骤(一)描述了对三维人耳数据进行分块，并使用直方图统计各分块中的人耳表面类型，最终获得三维人耳数据特征描述算子的过程。在本发明中，由于采用分块统计各分块中的人耳表面类型，对于同一个人耳的多次三维数据采样，经注册对齐后的采样之间仍存在的微小的对齐误差，对于三维人耳身份识别造成的影响可有效地降低。通过本步骤，对于输入的三维人耳数据，可以对各分块分别用直方图统计表面类型，从而构成该三维人耳的特征描述算子。

步骤(二)根据步骤(一)中确定的待测人耳的三维数据特征构建三维人耳数据库。为了保证该数据库具有支持多人多次注册的性质，步骤(二)对于每一次注册的三维人耳数据标记上所属的用户编号与注册次数，进而可以满足三维人耳数据的注册、识别、验证等基本需求。

步骤(三)根据步骤(二)中确定的三维人耳数据库，运用字典学习框架，得到学习后的字典以及分类器，

第一，从三维人耳数据库中随机选出多个三维人耳数据特征，组成初始字典D，虽然可直接用于稀疏编码算法。然而，在通常情况下，使用字典项的类标对初始字典进行有监督字典学习，所得到的字典更具有辨别能力，因此能提高三维人耳数据的识别率。

第二，在字典学习过程中，除了优化能量方程的重构误差项之外，同时将辨别性稀疏编码误差加入能量方程，并将分类器的参数对于分类结果的影响纳入能量方程中，不仅可以使得所学习得到的字典具备重构能力与出色的辨别能力，学习得到的字典还能使同一类别的信号的稀疏编码更一致而不同类别的信号的稀疏编码差异更大，因此在三维人耳数据识别的任务中更加出色。

第三，在优化能量方程所得到的分类器，可直接用于识别任务中，即使是采用一个简单的线性分类器，也能产生非常高的识别率，且运算用时极其短暂。

步骤(四)的效果在于识别率高，消耗时间少，识别时间不受三维人耳数据库内数据的增加而大幅攀升。

通过执行以上四个步骤并根据实际需求稍作调整，即可实现三维人耳数据的注册、识别和验证等基本功能，满足识别时间不受三维人耳数据库内数据的增加而大幅提升，同时，也解决了三维人耳数据在对齐过程中产生的误差对于三维人耳识别造成的影响。

附图说明

图1为本发明一种基于分块统计特征与字典学习稀疏表示分类的三维人耳识别方法的工作流程图。

具体实施方式

以下结合附图所示实施例对本发明作进一步的说明。

针对以往的三维人耳匹配过程中需要对待验证的人耳与数据库中的样本数据集进行逐一注册匹配，效率随样本数据集的容量增大而大幅降低的问题，本发明采用字典学习与稀疏表示分类算法对待测三维人耳进行一对多的识别；针对人耳的三维数据在注册匹配后仍存在的微小对齐误差，本发明采用基于分块统计特征的描述算子以建立一种精确、快速的三维人耳识别方法，其具体工作流程如图1所示：

(一)确定待测人耳的三维数据特征：

(1)定义为第i个人耳的第j次三维采样图像，其长、宽分别为U、V，共包含U×V个点，用(x,y,z)描述其中的任意点P在三维空间中的位置，其中z＝f(x,y)，f表示z轴方向上的取值关于x轴、y轴方向上取值的函数；

(2)将在长、宽方向上分别作u等分和v等分，得到u×v个三维人耳采样图像的子区域。记为在长方向上的第p个、宽方向上的第q个子区域，满足1≤p≤u,1≤q≤v，其长、宽分别为

步骤(2)中，若三维人耳图像的长U无法被u整除和/或三维人耳图像的宽V无法被v整除，分块时，保留三维人耳图像的位于中心区域的点进行分块以作为子区域，删除三维人耳图像四周无法被整除区域的点，不作为进行识别的子区域。

例如，当三维人耳的图像为96×65大小，按行9等分，按列6等分，则可以得到54个相同大小的区域。对于每个区域，其长宽应该分别为96÷9＝10.67，65÷6＝10.83，即96无法整除9，65无法整除6。由于三维人耳的图像中点是离散的，无法取到诸如第10.67的点或者第10.83的点，在这种情况下，每个区域的长宽均向下取整，得到长宽均为10。如此一来，长宽各取了90个点和60个点，由于原图像长宽为96×65，因此长方向上上都多出了6个点，宽方向上多出了5个点。

本实施例中，选取人耳的三维图像中心区域的点进行分块以作为子区域，删除三维人耳图像四周无法被整除区域的点，也就是左边保留3个点不选，右边保留3个点不选；上面保留2个点不选，下面保留3个点不选，因此长方向上选取第4～第93的点，宽方向上选取第3～第62的点，即位于中心区域的点，然后每100个点作为一个区域，分别进行统计表面类型。

(3-1)本实施例中，是根据公式确定子区域内每个点的平均曲率H，其中f_x,f_y分别表示该点的深度在x、y方向上的一阶偏导，f_xx,f_yy,f_xy分别表示该点的深度的二阶偏导；

(3-2)根据公式确定子区域内每个点的高斯曲率K；

(3-3)根据每个点的平均曲率H与高斯曲率K的符号，确定每个点的类型：若H<0且K>0，该点为类型1；若H<0且K＝0，该点为类型2；若H<0且K<0，该点为类型3；若H＝0且K>0，该点为类型4；若H＝0且K＝0，该点为类型5；若H＝0且K<0，该点为类型6；若H>0且K>0，该点为类型7；若H>0且K＝0，该点为类型8；若H>0且K<0，该点为类型9。

步骤(3-3)中，类型1呈峰状，类型2呈山脊状，类型3呈鞍岭状，类型5呈平面状，类型6为最小曲面，类型7呈凹陷状，类型8呈山谷状，类型9呈鞍谷状，类型4为特殊类型。

(4)将各子区域的描述算子拼接在一起，构成的描述算子

其中h_p,q表示在长方向上的第p个、宽方向上的第q个子区域的描述算子。

(二)根据步骤(一)中确定的人耳的三维数据特征构建三维人耳数据库 s表示数据库中的人耳总数，N表示数据库中的人耳采样的总数，C_j表示第j个人耳的采样总数。

(I)从Y中随机选取κ个人耳的三维数据特征，组成字典

步骤(I)中，字典D优选的为一个行数小于列数的二维矩阵，且行数尽量小于列数的设置，能取得更好的识别效果。在对三维人耳图像划分块时，由于划分后的块数不同，比如可以按行按列划分成共25块，也可以划分成共100块，因此每个三维人耳的特征描述符的维度不同，以上述数据为例，划分25块的描述符的维度为25×9＝225维，划分为100块的描述符的维度为100×9＝900维。由于字典D为一个行数远小于列数的二维矩阵时，能取得较好的识别效果，故本实施例中，若三维人耳数据库Y中的样本总数N不超过n个，即无法取出多于n个样本构成字典时，可以使用公式对Y降维，其中为高斯白噪音随机投影矩阵，满足并在步骤(三)及之后的步骤中，使用Y^‘代替Y，进行三维人耳识别。

(III)计算Y的类标矩阵其中是输入信号y_i的类标向量，其中非零元素的位置表示该信号所属的人耳身份，例如h_i＝[0,0,1,0]^T表示输入信号y_i属于第三号人耳。

(IV)确定能量方程

ϵ = | | Y - D X | |_{F}^{2} + α | | Q - A X | |_{F}^{2} + β | | H - W X | |_{F}^{2},

满足

&ForAll; i, | | x_{i} | |_{0} \leq τ,

步骤(IV)中，α、β为非负数，τ为正整数，优选方案为α＝β＝1，τ＝7。

(V)为了最小化能量方程ε，可将其改写为满足

&ForAll; i, | | x_{i} | |_{0} \leq τ,

并令

Y_{n e w} = {(Y^{T}, \sqrt{α} Q^{T}, \sqrt{β} H^{T})}^{T}, D_{n e w} = {(D^{T}, \sqrt{α} A^{T}, \sqrt{β} W^{T})}^{T},

从而应用K-SVD算法求解改写后的能量方程，即满足

&ForAll; i, | | x_{i} | |_{0} \leq τ .

(VI)由于在中，满足

&ForAll; k, | | d_{k} | |_{2} = | | d_{k}^{T}, \sqrt{α} a_{k}^{T}, \sqrt{β} w_{k}^{T} | |_{2} =

1,

{\hat{D}}^{*} =

[\frac{d_{1}}{| | d_{1} | |_{2}}, ..., \frac{d_{κ}}{| | d_{κ} | |_{2}}], {\hat{W}}^{*} = [\frac{w_{1}}{| | d_{1} | |_{2}}, ..., \frac{w_{κ}}{| | d_{κ} | |_{2}}] .

步骤(i)中，求解稀疏编码可以采用正交匹配追踪算法，求解稀疏编码所使用的稀疏限制阈值τ采用步骤(IV)中所使用的τ的取值。

以下结合具体实验对本发明的有益效果进行说明：

实验设置：使用公开的UND-J2三维人耳数据集，包含2346张三维人耳采样，来自于415位志愿者。数据使用柯尼卡美能达Vivid910深度扫描仪获取。志愿者坐在距离扫描仪1.5米距离的位置。扫描仪对准志愿者的左侧脸。每次拍摄得到的三维数据的分辨率为640×480。

由于在UND-J2数据集中，多数志愿者的采样次数仅有2次，而基于稀疏编码算法要求每一类中需要有足够多的采样次数。因此，为了充分展示本发明的有益效果，在实验过程中，从原数据集上虚拟地建立了四个数据子集，每个子集分别要求其中的每一位志愿者的采样次数超过6，8，10和12次。以第一个虚拟数据集为例，首先选取所有采样次数超过6次的志愿者，对于这其中的每一名志愿者的所有采样，随机选取6次采样用于构建训练集合，其余的所有采样均用于分类。四个子集合的主要信息总结在表1中。

表1

所有实验在惠普Z620工作站上运行，其配有3.2GHZ英特尔至强E5-1650中央处理器及8G内存，使用MatlabR2013b运行。

实验一：为了验证本发明提出的基于分块统计特征的描述符的鲁棒性，在本实验中，将本发明所使用的描述符，即步骤(一)(记为LHST)，分别与局部二进制纹理(LBP)、竞争编码(记为CompCode)，以及L.Zhang等在3Dearidentificationbasedonsparserepresentation一文中所使用的基于主成分分析的方法(记为PCA)，在四个子集合中进行横向比较。其中，LBP也是一种基于局部统计特征的描述符，被广泛应用于图像分类等任务中。为了提取基于LBP特征，对于人耳的三维图像，本发明也将其等分为若干个大小相同的子区域，并统计每一个子区域的LBP直方图，将每一个子区域的直方图拼接为最终的特征向量用于比较。针对LBP的不同参数设置，在实验中，记作其中“riu2”表示使用具有旋转不变性统一的纹理描述方式，该方式包含的变换上限为2，R代表采样半径，单位为像素，P代表采样点的个数。本实验比较了与这三者的简单拼接而成的特征描述符LBP_m。对于不同的三维人耳数据的特征描述符，在对比实验中采取相同的分类方法，即沿用步骤(二)至步骤(四)的字典学习与稀疏表示分类方法。表2列出了不同特征描述符在四个数据子集合上的一阶识别率。

表2使用不同特征描述符所取得的一阶识别率(单位：％)

从表2中可以清楚地看到，在采用相同的字典学习与稀疏表示分类算法的前提下，采用本发明中所使用的基于分块的表面类型直方图统计特征的方法作为三维人耳的特征描述符，能取得比其余所有方法都要高的识别率。此外，这也说明了这种特征提取方法对于刻画三维深度数据的局部形状结构有着更突出的能力。

实验二：为了评估本发明对于三维人耳识别的性能，在本实验中，分别在四个子集合上，就不同三维人耳识别算法的一阶识别率与完成一次识别消耗的时间进行了比较。所比较的方法包括：本发明所使用的方法、迭代最近点算法(记作ICP)、L.Zhang等在3Dearidentificationbasedonsparserepresentation一文中所使用的基于主成分分析的方法、基于分块形状表面特征直方图统计特征与稀疏表示分类(记作SRC_LHST)。在这里，完成一次识别消耗的时间指对于一份给定的人耳的三维数据样本所执行的特征提取所消耗的时间与特征匹配所消耗的时间之和。表3列出了不同方法在各子集合上取得的一阶识别率。表4列出了不同方法完成一次识别消耗的时间，其中，为了充分反映出不同方法所能达到的识别效果，各方法所消耗的时间均依照所取得最佳识别效果的参数配置进行记录。

表3使用不同方法所取得的一阶识别率(单位：％)

从表3中可以得出以下三点结论：第一，本发明提出的方法从一阶识别率而言，比其他方法的效果要更好，尤其是在子集合4上取得了100％的分类正确率；第二，SRC_LHST的识别效果比L.Zhang等的方法要更佳，而造成这一现象的原因在于二者尽管使用了相同的特征匹配方式，然而却使用了不同的特征提取方式，这一原因再次说明了本发明所采用的基于分块表面类型直方图统计特征的鲁棒性；第三，本发明所取得的一阶识别率在四个子集合中都优于SRC_LHST方法，而其原因在于前者使用了基于字典学习算法，利用训练集中特征的类别信息，同时训练得到更有辨别性的字典和线性分两类器，而后者未采用字典学习的方式，将训练集合中的特征直接组成字典进行分类，从此处，可以反映出步骤(三)对于三维人耳识别任务的重要性。

表4使用不同方法完成一次识别所消耗的时间(单位：秒)

在表4中，可以看出本发明在完成一次识别所消耗的时间比其余三种方法都要少。使用ICP方法的计算负担十分巨大，不适合用于大规模的识别场合。尽管采用相同的分类方式，SRC_LHST的运算效率高于L.Zhang等使用的方法，其原因在于，前者在计算基于分块表面类型直方图统计特征时，可使用快速傅里叶变换在很大程度上提升计算效率，而后者需要逐点进行PCA运算，速度缓慢。相比SRC_LHST与本发明的识别效率，尽管采用了相同的特征提取方式，而在特征匹配阶段，前者在稀疏编码阶段之后，需要根据稀疏编码逐类别地计算重构误差，以确定待测信号的所属类别，而后者在字典学习阶段同时训练得到了一个简单的线性分类器，在计算稀疏编码后，可使用线性分类器迅速地得到待测信号的类别，大大缩短了识别所消耗的时间。

上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于分块统计特征与字典学习稀疏表示分类的三维人耳识别方法，其特征在于：

将三维人耳的采样图像等分为若干个子区域，针对每个子区域，首先计算人耳的表面类型，然后使用直方图统计每个子区域内人耳表面类型，最后将每个子区域的表面类型直方图拼接在一起，作为人耳深度图像的特征描述算子，并使用字典学习稀疏表示框架进行分类以提高识别效率与精确度。

2.根据权利要求1所述的三维人耳识别方法，其特征在于：

（一）确定人耳的三维数据特征：

（1）定义为第i个人耳的第j次三维人耳的采样图像，其长、宽分别为U、V，共包含U×V个点，用(x,y,f(x,y))描述任意点P在三维空间中的位置；

（2）将在长、宽方向上分别作u等分和v等分，得到u×v个三维人耳采样图像的子区域，则每个子区域的长、宽分别为记为在长方向上的第p个、宽方向上的第q个子区域，其中，1≤p≤u,1≤q≤v；

（3）创建子区域的描述算子，用于描述子区域内三维人耳表面的信息：

（3-1）确定子区域内每个点的平均曲率H；

（3-2）确定子区域内每个点的高斯曲率K；

（3-3）根据每个点的平均曲率H与高斯曲率K的符号，确定每个点的类型：若H<0且K>0，该点为类型1；若H<0且K=0，该点为类型2；若H<0且K<0，该点为类型3；若H=0且K>0，该点为类型4；若H=0且K=0，该点为类型5；若H=0且K<0，该点为类型6；若H>0且K>0，该点为类型7；若H>0且K=0，该点为类型8；若H>0且K<0，该点为类型9；

（3-4）使用直方图统计各类型出现的次数，得到向量h=[h₁,h₂,…h_i…,h₈,h₉]以用于描述该子区域，其中h_i表示该子区域内为类型i的点的个数，1≤i≤9；

（4）将各子区域的描述算子拼接在一起，构成的描述算子其中h_p,q表示在长方向上的第p个、宽方向上的第q个子区域的描述算子，n=9×u×v；

（二）根据步骤（一）中确定的人耳的三维数据特征构建三维人耳数据库 s表示数据库中的人耳总数，N表示数据库中的人耳采样的总数，C_j表示第j个人耳的采样总数；

（三）根据步骤（二）中确定的三维人耳数据库Y，采用字典学习框架，得到学习过的字典以及分类器：

（I）从Y中随机选取κ个人耳的三维数据特征，组成字典

（II）计算Y的有辨别性的稀疏编码矩阵其中是y_i对应的有辨别性的稀疏编码，q_i中的非零元素所在的位置表示输入信号y_i与字典项d_j（j=1,…,κ）属于同一人耳；

（III）计算Y的类标矩阵其中是输入信号y_i的类标向量，其中非零元素的位置表示该信号所属的人耳身份；

（IV）确定能量方程

ϵ = | | Y - D X | |_{F}^{2} + α | | Q - A X | |_{F}^{2} + β | | H - W X | |_{F}^{2},

满足

&ForAll; i, | | x_{i} | |_{0} \leq τ,

（V）为了最小化能量方程ε，可将其改写为

ϵ = | | (\begin{matrix} Y \\ \sqrt{α} Q \\ \sqrt{β} H \end{matrix}) - (\begin{matrix} D \\ \sqrt{α} A \\ \sqrt{β} W \end{matrix}) X | |_{F}^{2},

满足

&ForAll; i, | | x_{i} | |_{0} \leq

τ,

并令

Y_{n e w} = {(Y^{T}, \sqrt{α} Q^{T}, \sqrt{β} H^{T})}^{T}, D_{n e w} = {(D^{T}, \sqrt{α} A^{T}, \sqrt{β} W^{T})}^{T},

从而应用K-SVD算法求解改写后的能量方程，即

< {\hat{D}}_{n e w}, \hat{X} > = \arg \underset{D_{n e w}, X}{m i n} | | Y_{n e w} - D_{n e w} X | |_{F}^{2},

满足

&ForAll; i, | | x_{i} | |_{0} \leq τ;

（VI）由于在中，满足

&ForAll; k, | | d_{k} | |_{2} = | | d_{k}^{T}, \sqrt{α} a_{k}^{T}, \sqrt{β} w_{k}^{T} | |_{2} = 1,

{\hat{D}}^{*} =

[\frac{d_{1}}{| | d_{1} | |_{2}}, ..., \frac{d_{κ}}{| | d_{κ} | |_{2}}], {\hat{W}}^{*} = [\frac{w_{1}}{| | d_{1} | |_{2}}, ..., \frac{w_{κ}}{| | d_{κ} | |_{2}}];

（四）根据步骤（三）中确定的与使用稀疏表示分类方法，确定待测人耳的三维数据的身份：

（i）对于一个给定的待测三维人耳数据E_probe，根据步骤（一），计算其描述算子y_probe，对所得到的描述算子在上进行稀疏编码，即求解满足‖x‖₀≤τ；

（ii）对于计算得到的稀疏编码使用经字典学习得到的线性分类器的参数矩阵计算类标向量

（iii）类标向量c中最大元素所处的位置所对应的身份，即为E_probe的身份。

3.根据权利要求2所述的三维人耳识别方法，其特征在于：所述步骤（2）中，若三维人耳图像的长U无法被u整除和/或三维人耳图像的宽V无法被v整除，分块时，保留三维人耳图像的位于中心区域的点进行分块以作为子区域，删除三维人耳图像四周无法被整除区域的点，不作为进行识别的子区域，优选方案为

4.根据权利要求2所述的三维人耳识别方法，其特征在于：所述步骤（3-1）中，根据公式确定子区域内每个点的平均曲率H，其中f_x,f_y分别表示该点的深度在x、y方向上的一阶偏导，f_xx,f_yy,f_xy分别表示该点的深度的二阶偏导。

5.根据权利要求2所述的三维人耳识别方法，其特征在于：所述步骤（3-2）中，根据公式计算子区域内每个点的高斯曲率K，其中f_x,f_y分别表示该点的深度在x、y方向上的一阶偏导，f_xx,f_yy,f_xy分别表示该点的深度的二阶偏导。

6.根据权利要求2所述的三维人耳识别方法，其特征在于：所述步骤（3-3）中，类型1呈峰状，类型2呈山脊状，类型3呈鞍岭状，类型5呈平面状，类型6为最小曲面，类型7呈凹陷状，类型8呈山谷状，类型9呈鞍谷状，类型4为特殊类型。

7.根据权利要求2所述的三维人耳识别方法，其特征在于：所述步骤（二）中，构建得到的三维人耳数据库Y与描述算子的维度n的大小关系应满足N＞＞n；

在人耳的三维数据采样总数N与描述算子的维度n的大小关系为N≤n时，采用随机投影的算法对描述算子降维，即在步骤（三）中使用降维后的字典代替Y，其中为高斯白噪音投影矩阵，满足

&ForAll; i, | | p_{i} | |_{2} = 1, n^{'} < N .

8.根据权利要求2所述的三维人耳识别方法，其特征在于：所述步骤（I）中，所选取的人耳的三维数据特征数目κ应满足κ>n。

9.根据权利要求2所述的三维人耳识别方法，其特征在于：所述步骤（IV）中，α、β为非负数，τ为正整数，优选方案为α=β=1，τ=7。

10.根据权利要求2所述的三维人耳识别方法，其特征在于：所述步骤（i）中，求解稀疏编码采用正交匹配追踪算法；或者，优选的，所述步骤（i）中，求解稀疏编码所使用的稀疏限制阈值τ采用步骤（IV）中所使用的τ的取值。