CN112861579B

CN112861579B - 三维面部标志自动检测方法

Info

Publication number: CN112861579B
Application number: CN201911182688.9A
Authority: CN
Inventors: 刘凯; 贾梦瑶; 龚俊
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2022-10-18
Anticipated expiration: 2039-11-27
Also published as: CN112861579A

Abstract

本申请实施例提供一种自动检测三维面部标志的方法，涉及机器学习和模式识别技术领域。该检测方法包括：使用三维局部形状描述符粗略地检测鼻子；利用人脸的对称性等特征对鼻尖进行准确定位；根据人类面部特征的分布确定眼睛和嘴巴所在的区域；使用卷积神经网络最小化组合损失，提供眼角和嘴角的候选对象；根据候选点及其邻点的特征最大化候选点和真实标志之间的相似性，迭代地更新候选对象，实现对眼角和嘴角的准确检测。该方法在仅使用三维面部数据的情况下，实现了高精度的面部标志自动检测，对于面部表情和姿态稳健，其实用性更高。

Description

三维面部标志自动检测方法

技术领域

本发明涉及人脸模式识别领域，具体而言，涉及一种自动检测三维面部标志的方法。

背景技术

准确的面部标志检测对于许多科研及应用十分重要，如：人脸识别，人脸动画，表情识别，目标跟踪等。二维人脸图片提供给研究者们丰富的纹理信息，但是对背景、照明、姿态等非常敏感。而基于三维人脸的标志检测方法使用人脸的三维坐标，对于不均匀的照明和变化的姿势都具有鲁棒性。目前大多数三维面部标志检测方法都需要纹理作为附加输入，而在实际采集场景中，纹理并不一定完全与其三维面部数据一致，甚至一些面部三维重建方法根本无法提供纹理数据。因此，研究仅依靠三维数据来检测面部标志是非常有必要的。另外，在实际的场景中，所检测目标的刚性变形（即姿势变化）和非刚性变形（即表情变化）也使检测更加具有挑战性。

发明内容

本发明的目的在于提供一种检测三维面部标志的方法，以实现对面部标志的自动检测，并且能够适应面部的刚性变形和非刚性变形。

为了实现上述目的，本发明实施例采用的技术方案如下：

本发明实施例提供了一种面部标志检测法，所述方法包括：利用三维局部形状描述符作为卷积神经网络的输入进行训练，以粗略地检测鼻子，根据鼻子区域的特征进行得分来精确检测鼻尖；利用面部的分布规律约束眼角和嘴角的位置，从而减少候选者的数量；候选者的局部形状描述符构成了第二个卷积神经网络的输入，通过最小化欧几里德距离损失和结构损失，卷积神经网络提供眼角和嘴角的最相似候选者；最后，候选者根据候选者及其邻居和真实标志的相似性迭代地得分以检测标志。其中，更具有区分度的眼睛和眉毛的内侧会协助检测其对应的外侧。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的面部标志检测方法的流程图；

图2 为本申请实施例提供的高度卷积中心计算方法举例图；

图3 为本申请实施例提供的眼睛和嘴部的角度约束图；

图4为本申请实施例提供的结构误差计算方法举例图；

图5 为本申请实施例提供的对存在表情或姿态的对象的标志检测测试图;

图6 为本申请实施例提供的在Bosphorus数据库中不同绝对距离误差下的人脸标志检测准确率测试结果图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，是本发明实施例提供的一种面部标志检测方法的流程示意图，该方法包括：

步骤110，提取三维局部形状描述符，粗略地检测鼻子。

局部形状描述符可以描述三维数据局部邻域的特征，以区分具有不同分布的三维点云。使用单个三维局部形状描述符通常不能很好地进行区分。因此，本发明实施例结合多种局部形状描述符构成向量，将其归一化形成特征向量以描述每个三维点处的局部形状，使用的三维局部形状描述符包括以下几种：

1.均值

面部五官的每个标志往往都分布在特定的位置附近。

2.方差

对于不同标志，其邻域的范围和离散程度也存在差异。

3.法线

将三维面部点云三角化，每个点作为三角形的顶点，顶点处的法线可以表示为具有不同权重的相邻三角形面的法线之和：

其中c是常数，N是一个点的法线。N_i是点周围的第i个三角面的法线，w_i是它的权重（0 <i <n-1，n是相邻面的数量）。V_i和V_i+1是邻面的顶点，α_i与邻面的边长有关。

4．曲率

曲率表示了特定点处曲线的弯曲程度，通常被定义为曲线内切圆半径的倒数。通过在三维曲面上的点处计算其二维正交平面的曲率，曲率的概念可以扩展到三维。在三维曲面上的点处存在无数对正交平面，其中存在曲率最大的，并且其相应的正交曲率最小。这两个曲率被定义为主曲率，代表了曲率的极值，最大值对应的称作第一主曲率，最小值对应的称作第二主曲率。这两个曲率很少直接使用，通常用于计算其他曲率。本发明实施例中采用高斯曲率和平均曲率，计算方法为

其中K是高斯曲率，H是平均曲率，k₁和k₂分别是第一和第二主曲率。

5.球形图像

球形图像类似于旋转图像。旋转图像描述符提取围绕法线旋转的平面，将这些平面中点的信息存储在直方图中，包含了半径和高度。球形图像是一维区间矢量，提取以一个点为中心的多个连续球体之间点的信息，通常包含了点的个数。本发明实施例添加了法向量以加强效果。

相比于形状指数，Willmore能量，对数微分映射等描述符，以上的局部形状描述符都更容易计算，在描述符提取阶段以及卷积神经网络训练阶段的计算量都很低。

步骤120，鼻子部位根据特征进行得分，对鼻尖进行准确定位。

一般来说，鼻尖是局部最高点。但实际在鼻尖处，存在一个极其微小的平坦区域。三维重建过程中往往对人脸进行采样，这会对仅采用高度来判断鼻尖的方法更加不利。所以，除了高度这一特征之外，鼻尖的候选者得分还依据人脸的对称性。

如果卷积神经网络提供的鼻尖为N_O(x_o, y_o, z_o)，那么N_O附近的若干点的集合N={N ₁, N ₂…N _i…N _n, 1<i≤n，n是候选点的数量}是鼻尖的候选者，他们对应的高度为h={z(N ₁), z(N ₂)…z(N _i)…z(N _n)}，其中z(N _i) 是N _i的z轴坐标。

由人脸的对称性，如果N _i为鼻尖位置，那么以N _i为中心的裁片，其左右部分的高度卷积中心一般为最大值。请参照图2，以N _i (x _i, y _i)为中心的裁片，边上有m个点，在它的左边有一个点N _li (x _i-δx, yi-δy)，以N _i所在位置的竖直线为对称轴，N _li的对称点为N _ri(x _i+δx, y _i -δy)，裁片的左右部分的高度卷积中心是c _i，计算公式为：

。

对于候选者集合N中每一个元素计算其高度卷积中心，构成集合c={ c ₁, c ₂…c _i…c _n}，c一定程度上反应了N _i是鼻尖的概率。并且c由N _i周围的若干点共同决定，对于个别异常值更加稳健。所以，本发明实施例用h和c来共同计算鼻尖得分，计算公式为：

其中α_n和β_n是权重。

步骤130，根据人类面部特征的分布确定眼睛和嘴巴所在的区域。

眼睛和嘴部虽然在不同人脸上存在差别，但是它们在面部的位置分布都符合一定的规律。即使在一些强度比较大的动作及表情下，这种规律依然不会被打破。比如，眼睛一般近似对称分布在鼻子上方的左右两侧，嘴部一般对称分布在鼻子下方的左右两侧。特别是当们已经采取了一些方法精确地确定了鼻尖的位置，那么用鼻尖位置对眼角和嘴角位置进行约束，就可以缩小需要查询的范围。

本发明实施例统计了100个个体的人脸器官分布规律，请参照图3，眼角和嘴角的候选者在人脸上的分布范围为：

其中，θ_eye代表左右眼角与鼻尖连线与人脸对称线的夹角角度，θ_mouth代表左右嘴角与鼻尖连线与人脸对称线的夹角角度。

步骤140，卷积神经网络最小化组合损失，提供眼角和嘴角的候选对象。

本发明实施例将二维结构损失扩展到三维，并将欧几里德距离损失和结构损失同时用作组合损失以优化结果。结构损失包含标志之间的相关性。

针对一个标志L¹ (x₁, y₁, z₁)，有一个候选点集合C¹={c¹ ₁, c¹ ₂…c¹ _i…c¹ _m1, 1＜i≤m₁, m₁是候选点的数量}，那么C¹ _i (x¹ _i, y¹ _i, z¹ _i)和L¹之间的欧氏距离差异为：

请参照图4，对于存在于一个器官中的标志L¹和L²，C¹={c¹ ₁, c¹ ₂…c¹ _i…c¹ _m1, 1＜i≤m₁, m₁是L¹候选点的数量}是L¹的候选点集合，C² ={c² ₁, c² ₂…c² _i…c² _m2,, 1<j≤m₂, m₂是L²候选点的数量}是L²的候选点集合。那么对于C¹中的c¹ _i，它的结构误差l_S是c¹ _i和集合C²中每个元素构成的向量与L¹L²差值的最小值，如：

所以，最终最小化的目标为：

其中，α和β分别l_E和l_S的权重。

步骤150，根据候选点及其邻点的特征，迭代地更新候选对象，直至收敛。

本发明实施例采用不到三个具有更大相似性的候选者及其邻点，并根据曲率、邻域以及结构差异的相似性进行得分。首先采用卷积神经网络提供的最高相似度的候选者及其邻点进行得分，如:

其中K，B和l_S分别是高斯曲率，球形图像和结构差异，α_e，β_e和γ_e分别是它们的权重。迭代地计算新候选者及其邻点的得分，随着邻点数量减少，当当前候选者和新候选者是相同点时，迭代过程结束。如果迭代没有收敛到局部最小值，将用较少相似的候选者重复上述步骤。应该注意的是，在迭代过程中，候选者必须始终满足步骤130中的约束。

为了验证本发明实施例提供的三维面部标志检测法的有效性，下面通过实验进行说明。

实验采用i7-4790 CPU，实验对象为Bosphorus数据库。请参照图5，是本发明实施例提供的一次面部标志检测结果。请参照图6，是是本发明实施例以不同绝对距离误差为阈值检测人脸标志的准确率。

综上所述，本发明实施例提供了一种自动面部标志检测方法，该方法由粗到细地对人脸上11个标志进行自动检测。该方法对面部表情及轻微姿态的人脸有效。由此可见，本发明实施例实用性更高。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种三维人脸标志检测方法，其特征在于，所述方法包括：提取面部三维数据的局部形状描述符，粗略地检测鼻子；鼻子点云利用特征得分，对鼻尖进行准确定位；根据人类面部特征的分布，确定眼睛和嘴巴所在的区域；卷积神经网络最小化组合损失，提供眼角和嘴角的候选对象；根据候选点及其邻点的特征，迭代地更新候选对象，直至收敛，其方法利用组合损失来训练卷积神经网络，可以让区分性更明显的标志来促进区分性不够明显的标志的检测，组合损失的计算方法为：

l＝αl_E+βl_S

其中，α和β分别距离损失l_E和结构损失l_S的权重，距离损失的计算方法为：

其中，(x₁,y₁,z₁)为标志L¹的三维坐标，(x¹ _i,y¹ _i,z¹ _i)是L¹的候选点的三维坐标，结构损失的计算方法为：

其中，L¹和L²是存在于一个器官中的两个标志，C¹和C²分别是L¹和L²的候选点集合，m₂是L²候选点的数量。

2.如权利要求1所述的方法，其特征在于，融合了多种人脸局部描述符，包括：均值，方差，法线，曲率，球形图像。

3.如权利要求1所述的方法，其特征在于，利用人脸的对称性改善鼻尖的检测，不仅利用高度这一特征来检测鼻尖，还利用了其高度卷积和，计算方法为：

其中，N_li和N_ri是以竖直线为对称轴的左右对称点，z(N_li)和z(N_ri)分别是N_li和N_ri的z轴坐标，m是高度卷积中心的裁片的边长。

4.如权利要求1所述的方法，其特征在于，利用面部的分布规律，合理地减少了检测范围，面部标志的分布规律应满足：15°≤θ_eye≤75° 24°≤θ_mouth≤50°

其中θ_eye代表左右眼角与鼻尖连线与人脸对称线的夹角角度，θ_mouth代表左右嘴角与鼻尖连线与人脸对称线的夹角角度。

5.如权利要求1所述的方法，其特征在于，当分类器不能提供一个准确的候选者时有限地产生新的候选者，分类器所提供的候选者并不是最终结果，该候选者会根据曲率、邻域以及结构差异的相似性进行得分，计算方法为如:

s_e＝α_eK+β_eB+γ_el_S

其中K，B和l_S分别是高斯曲率，球形图像和结构差异，α_e，β_e和γ_e分别是它们的权重，由得分结果迭代地更新候选者，当当前候选者和新候选者是相同点时，迭代过程结束。

6.如权利要求1所述的方法，其特征在于不依赖于特定的假设，不要求鼻尖是面部最高位置；

不要求三维重建方法提供二维纹理，适用性更广。