CN112906629A

CN112906629A - 人脸表情分类器的训练、人脸表情的识别方法和装置

Info

Publication number: CN112906629A
Application number: CN202110286165.XA
Authority: CN
Inventors: 焦阳; 牛毅; 谢雪梅
Original assignee: Guangzhou Institute of Technology of Xidian University
Current assignee: Guangzhou Institute of Technology of Xidian University
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-06-04

Abstract

本发明公开了一种人脸表情分类器的训练方法、人脸表情的识别方法和装置，所述训练方法包括：获取若干已预先标注了真实人脸表情类别的人脸表情数据，对三维人脸点云数据进行判别深度范围标定，并对标定的判别深度范围对应的三维人脸点云数据进行全局最大熵增强处理，以得到三维深度属性图像；对所述二维人脸图像和所述三维深度属性图像分别进行特征提取，并对提取后的特征进行多模态特征融合；将融合后的多模态特征输入预设的神经网络，并根据所述真实人脸表情类别，对所述预设的神经网络进行训练，得到所述人脸表情分类器。采用本发明，通过对三维人脸点云数据进行增强处理，有效提高人脸表情分类器的鲁棒性，提高人脸表情识别的准确性。

Description

人脸表情分类器的训练、人脸表情的识别方法和装置

技术领域

本发明涉及人脸识别技术领域，尤其涉及一种人脸表情分类器的训练、人脸表情的识别方法和装置。

背景技术

人脸表情(Facial Expression)是人类传达感情信息的最主要、最直观的一种非语言、非接触方法。人脸表情识别(Facial Expression Recognition)旨在利用计算机自动识别及分析人脸表情，并在人类行为方式分析、人机交互设计等领域具有重要作用。近年来，随着高精度深度成像技术的发展，深度信息作为二维光学图像的补充，可以较为准确的刻画人脸的几何结构，弥补了光学图像的缺点，有效的提高了识别准确率。因此，基于2D+3D的多模态人脸表情识别技术得到了广泛关注。

在现有技术的人脸表情识别方法中，通常利用人脸点云数据(3D数据)生成三张属性图，分别为深度图、方位图和立面图，然后利用该三张属性图合成一个三通道RGB图作为网络中FE3DNet支路的输入。在生成三维数据属性图时，方位图和立面图需要通过局部平面拟合(local plane fitting)方法来计算三维数据表面的几何曲率和法线向量。然而，发明人发现现有技术至少存在如下问题：由于点云数据采样时的稀疏性，基于几何信息的平面拟合将会造成不准确的表面曲率和法线向量，这将导致错误的信息被引入到三维属性图中，进而降低三维人脸表情特征的判别程度，并造成最终人脸表情识别准确率下降。

发明内容

本发明实施例的目的是提供一种人脸表情分类器的训练、人脸表情的识别方法和装置，通过对三维人脸点云数据进行增强处理，有效提高人脸表情分类器的鲁棒性，提高人脸表情识别的准确性。

为实现上述目的，本发明实施例提供了一种人脸表情分类器的训练方法，包括：

获取若干已预先标注了真实人脸表情类别的人脸表情数据，作为训练数据集；其中，每一所述人脸表情数据包括二维人脸图像和三维人脸点云数据；

对所述三维人脸点云数据进行判别深度范围标定，并对标定的判别深度范围对应的三维人脸点云数据进行全局最大熵增强处理，以得到三维深度属性图像；

对所述二维人脸图像和所述三维深度属性图像分别进行特征提取，得到二维人脸表情特征和三维人脸表情特征；

将所述二维人脸表情特征和所述三维人脸表情特征进行多模态特征融合，得到多模态特征；

将所述多模态特征输入预设的神经网络，并根据所述真实人脸表情类别，对所述预设的神经网络进行训练，得到所述人脸表情分类器。

作为上述方案的改进，所述对所述三维人脸点云数据进行判别深度范围标定，对标定的判别深度范围对应的三维人脸点云数据进行全局最大熵增强处理，以得到三维深度属性图，具体包括：

对所述三维人脸点云数据在深度方向进行对齐，划分得到M个具有不同判别深度范围的三维人脸点云数据块；

对满足预设的表情判别性信息条件的判别深度范围进行标定，以得到所述标定的判别深度范围对应的三维人脸点云数据；

根据所述判别深度范围对应的三维人脸点云数据，求解带有深度失真约束条件的最大熵目标函数，以得到增强映射函数；

根据所述增强映射函数，对所述判别深度范围对应的三维人脸点云数据中的深度值进行映射，得到三维深度属性图。

作为上述方案的改进，所述对所述三维人脸点云数据在深度方向进行对齐，划分得到M个具有不同判别深度范围的三维人脸点云数据块，具体包括：

对所述三维人脸点云数据在深度方向进行对齐，并通过计算公式d_i＝d_min+i×d_res，划分得到M个不同的判别深度范围；其中，d_i为判别深度范围，d_min为最小判别深度范围，d_res为深度分辨率；i＝1，2，...，M；

根据每一所述判别深度范围，获取对应的三维人脸点云数据块。

作为上述方案的改进，所述带有深度失真约束条件的最大熵目标函数，具体为：

其中，N为三维人脸点云数据的深度动态范围，K为所述三维深度属性图的深度动态范围，d_k为所述判别深度范围对应的三维人脸点云数据的深度动态范围取值，k为所述三维深度属性图的深度动态范围取值；P[d_k，d_k+1)为深度动态范围[d_k，d_k+1)的概率，τ为深度失真约束条件阈值。

作为上述方案的改进，在所述获取若干已预先标注了真实人脸表情类别的人脸表情数据，作为训练数据集之后，所述方法还包括：

对所述二维人脸图像进行灰度值归一化处理，并对灰度值归一化处理后的二维人脸图像进行均值标准化处理，得到二维人脸增强图像；

则，所述对所述二维人脸图像和所述三维深度属性图像分别进行特征提取，得到二维人脸表情特征和三维人脸表情特征，具体为：

对所述二维人脸增强图像和所述三维深度属性图像分别进行特征提取，得到二维人脸表情特征和三维人脸表情特征。

作为上述方案的改进，所述对灰度值归一化处理后的二维人脸图像进行均值标准化处理，得到二维人脸增强图像，具体包括：

对灰度值归一化处理后的二维人脸图像，通过以下计算公式进行均值标准化处理，得到所述二维人脸增强图像：

其中，x为所述二维人脸增强图像，

为所述灰度值归一化处理后的二维人脸图像，μ为所述训练数据集中所有二维人脸图像的像素均值；δ为所述训练数据集中所有二维人脸图像的方差均值。

作为上述方案的改进，所述将所述多模态特征输入预设的神经网络，并根据所述真实人脸表情类别，对所述预设的神经网络进行训练，得到所述人脸表情分类器，具体包括：

将所述多模态特征输入所述神经网络，以得到所述神经网络输出的预测人脸表情类别；

根据所述预测人脸表情类别和所述真实人脸表情类别，计算交叉熵损失函数；

判断所述交叉熵损失函数是否达到预设的收敛条件；

当所述交叉熵损失函数未达到预设的收敛条件时，采用反向误差传播算法对所述神经网络进行更新，并执行：将所述多模态特征输入所述神经网络，以得到所述神经网络输出的预测人脸表情类别；

当所述交叉熵损失函数达到预设的收敛条件时，根据所述神经网络，得到所述人脸表情分类器。

本发明实施例还提供了一种人脸表情的识别方法，包括：

获取待识别人脸表情数据；其中，所述待识别人脸表情数据包括二维人脸图像和三维人脸点云数据；

将所述多模态特征输入预先训练完成的人脸表情分类器，以得到所述人脸表情分类器输出的人脸表情分类结果；其中，所述预先训练完成的人脸表情分类器是通过如上述任一项所述的人脸表情分类器的训练方法训练得到的。

本发明实施例还提供了一种人脸表情分类器的训练装置，包括：

训练数据集获取模块，用于获取若干已预先标注了真实人脸表情类别的人脸表情数据，作为训练数据集；其中，每一所述人脸表情数据包括二维人脸图像和三维人脸点云数据；

第一数据处理模块，用于对所述三维人脸点云数据进行判别深度范围标定，并对标定的判别深度范围对应的三维人脸点云数据进行全局最大熵增强处理，以得到三维深度属性图像；

第一特征提取模块，用于对所述二维人脸图像和所述三维深度属性图像分别进行特征提取，得到二维人脸表情特征和三维人脸表情特征；

第一多模态特征融合模块，用于将所述二维人脸表情特征和所述三维人脸表情特征进行多模态特征融合，得到多模态特征；

分类器训练模块，用于将所述多模态特征输入预设的神经网络，并根据所述真实人脸表情类别，对所述预设的神经网络进行训练，得到所述人脸表情分类器。

本发明实施例还提供了一种人脸表情的识别装置，包括：

人脸表情数据获取模块，用于获取待识别人脸表情数据；其中，所述待识别人脸表情数据包括二维人脸图像和三维人脸点云数据；

第二数据处理模块，用于对所述三维人脸点云数据进行判别深度范围标定，并对标定的判别深度范围对应的三维人脸点云数据进行全局最大熵增强处理，以得到三维深度属性图像；

第二特征提取模块，用于对所述二维人脸图像和所述三维深度属性图像分别进行特征提取，得到二维人脸表情特征和三维人脸表情特征；

第二多模态特征融合模块，用于将所述二维人脸表情特征和所述三维人脸表情特征进行多模态特征融合，得到多模态特征；

人脸表情识别模块，用于将所述多模态特征输入预先训练完成的人脸表情分类器，以得到所述人脸表情分类器输出的人脸表情分类结果；其中，所述预先训练完成的人脸表情分类器是通过如上述任一项所述的人脸表情分类器的训练方法训练得到的。

与现有技术相比，本发明公开的一种人脸表情分类器的训练、人脸表情的识别方法和装置，通过获取已经标注了对应的人脸表情类别的人脸表情数据，对构建的神经网络进行学习训练，从而得到适用于执行人脸表情的识别功能的分类器。在分类器的训练过程中，通过训练数据集中的三维人脸点云数据进行判别深度范围标定，能够较好地保留人脸表情主要分布区域的深度数据，并剔除无用的深度信息，从而有效避免引入不准确的三维人脸数据增强。对标定的判别深度范围内的三维人脸点云数据进行全局最大熵增强处理，可以呈现出最多的人脸表情深度信息，有效的提高了三维人脸点云数据对表情信息的表征能力。对二维人脸图像和增强处理后的三维深度属性图像进行特征提取和特征融合的操作，并根据预先标注的真实人脸表情类别训练分类器，有效地提高了人脸表情分类器的鲁棒性，从而提高最终人脸表情分类结果的准确性。

附图说明

图1是本发明实施例一提供的一种人脸表情分类器的训练方法的步骤示意图；

图2是本发明实施例二提供的一种人脸表情分类器的训练方法的步骤示意图；

图3是本发明实施例三提供的一种人脸表情的识别方法的步骤示意图；

图4是本发明实施例四提供的一种人脸表情分类器的训练装置的结构示意图；

图5是本发明实施例五提供的一种人脸表情的识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明实施例一提供的一种人脸表情分类器的训练方法的步骤示意图。本发明实施例一提供的一种人脸表情分类器的训练方法，通过以下步骤S11至S15执行：

S11、获取若干已预先标注了真实人脸表情类别的人脸表情数据，作为训练数据集；其中，每一所述人脸表情数据包括二维人脸图像和三维人脸点云数据。

需要说明的是，所述人脸表情类别可以采用传统的表情分类方法划分得到的表情类别，例如开心、悲伤、惊讶、恐惧、生气以及恶心六种基本表情类别，也可以是其他分类方式划分的表情类别，均不影响本发明取得的有益效果。

S12、对所述三维人脸点云数据进行判别深度范围标定，并对标定的判别深度范围对应的三维人脸点云数据进行全局最大熵增强处理，以得到三维深度属性图像。

为了解决现有技术中通过局部平面拟合来计算原始三维点云数据的表面几何曲率和法线向量的过程中，由于点云数据采样时的稀疏性，容易导致计算得到的三维属性图不准确的问题，在本发明实施例中，在训练所述人脸表情分类器的过程中，先对获取的训练数据集中的三维人脸点云数据进行数据增强处理，得到能够较好地反映人脸表情信息的三维深度属性图像。

所述数据增强处理操作包括：对所述三维人脸点云数据进行判别深度范围的标定，并对标定的判别深度范围对应的三维人脸点云数据进行全局最大熵增强处理。

采用本发明实施例的技术手段，通过对三维人脸点云数据的判别深度范围标定，从而对标定的判别深度范围对应的三维人脸点云数据进行增强处理，能够较好地保留人脸表情主要分布区域的深度数据，并剔除无用的深度信息，从而有效避免引入不准确的三维人脸数据增强。进而，对标定的判别深度范围内的三维人脸点云数据进行全局最大熵增强处理，摒弃了现有技术中基于几何信息的局部平面拟合方法，避免了在深度属性图中引入不准确的几何曲率和法线向量，可以呈现出最多的人脸表情深度信息，有效的提高了三维人脸点云数据对表情信息的表征能力，增强了三维人脸表情特征，从而为后续进行人脸表情识别的应用奠定数据基础。

优选地，步骤S12，具体通过步骤S121至S124执行：

S121、对所述三维人脸点云数据在深度方向进行对齐，划分得到M个具有不同判别深度范围的三维人脸点云数据块。

具体地，对所述三维人脸点云数据在深度方向进行对齐，并通过以下计算公式d_i＝d_min+i×d_res，划分得到M个不同的判别深度范围；根据每一所述判别深度范围，获取对应的三维人脸点云数据块。

其中，d_i为判别深度范围，d_min为最小判别深度范围，d_res为深度分辨率；i＝1，2，...，M。

在本发明实施例中，以人脸鼻尖为深度0mm的位置，对三维人脸点云数据在深度方向进行对齐，将原始的三维人脸点云数据D划分成了多个不同的、交叠的三维人脸点云数据块D_i，利用标号i进行索引。对于第i个数据块D_i，其所包含的判别深度范围为d_i。

需要说明的是，d_min为最小需要包含的判别深度范围，是个超参数，由用户自己决定，通常以人脸鼻尖部位为0mm位置，向人脸后方延伸，取d_min＝5mm。d_res由深度采集设备决定，一般为3mm或5mm精度，由实验设备决定。

可以理解地，上述对参数d_min和d_res的取值仅作为举例，在实际应用中，还可以根据实际情况设定为其他数值，在此不做具体限定。

S122、对满足预设的表情判别性信息条件的判别深度范围进行标定，以得到所述标定的判别深度范围对应的三维人脸点云数据。

不同的三维人脸点云数据块D_i包含了不同程度的表情判别信息，通过对划分后的三维人脸点云数据块D_i进行分析，从而标定出其中最具有表情判别性的三维人脸点云数据块D_i进行后续的增强处理，能够有效保留人脸表情主要分布区域的深度数据，剔除无用的深度信息。

具体地，预先设计一个表情分类器，如VGG神经网络，将这些三维人脸点云数据块D_i依次作为表情分类器的输入，独立的对其进行表情分类，得到不同的分类准确率。在得到的所有分类准确率中，选取最高准确率对应的三维人脸点云数据块D_i，记为D_dis，认为该三维人脸点云数据块D_dis具有最大的表情判别性信息，也即符合所述预设的表情判别性信息条件。

S123、根据所述判别深度范围对应的三维人脸点云数据，求解带有深度失真约束条件的最大熵目标函数，以得到增强映射函数。

优选地，所述带有深度失真约束条件的最大熵目标函数，具体为：

其中，N为三维人脸点云数据的深度动态范围，K为所述三维深度属性图的深度动态范围，d_k为所述判别深度范围对应的三维人脸点云数据的深度动态范围取值，k为所述三维深度属性图的深度动态范围取值；P[d_k，d_k+1)为深度动态范围[d_k，d_k+1)的概率，τ为深度失真约束条件阈值；1≤d_k+1-d_k≤τ为所述深度失真约束条件。

需要说明的是，N是三维人脸点云数据的深度动态范围，三维点云数据一般为16比特浮点数，即Float16，故其深度动态范围一般为[0，2¹⁶-1]。但由于数值过大，计算复杂度过高，在本发明实施例中，将三维人脸点云数据D_dis的动态范围均匀量化到[0，4095]，即N＝4096。可以理解地，N不局限于4096，也可以取其他的数值，如N＝2048，代表将D_dis的值均匀量化到[0，2047]，均不影响本发明取得的有益效果。

K是三维深度属性图像I_dis的深度动态范围，图像一般为8比特无符号整型，即Uint8。所以，其动态范围为[0，255]，因此K＝256。

P[d_k，d_k+1)即代表深度像素值取值处于区间[d_k，d_k+1)的像素个数占全部像素的比例。具体地，对D_dis中取值位于区间[d_k，d_k+1)的像素进行统计，得到像素数量#[d_k，d_k+1)，而D_dis中全部像素数量记为#D_dis，则P[d_k，d_k+1)由以下公式确定：

作为举例，如果D_dis数据大小为256×256，每个像素的取值范围为[0，N)，一共有#D_dis＝65536个像素。假设N＝4096，且取值范围在[1000，1500)的像素一共由500个，即#[d_k，d_k+1)＝#[1000，1500)＝500，那么概率P[d_k，d_k+1)计算如下：

在本发明实施例中，将标定的判别深度范围对应的三维人脸点云数据D_dis作为输入，采用动态规划算法求解所述带有深度失真约束条件的最大熵目标函数，得到增强映射函数F：

F＝{d₀，d₁，...，d_K}.

计算得到的增强映射函数的形式为F＝{d₀，d₁，...，d_K}，共包含K+1个点，其中d₀＝0，d_K＝N-1。增强映射函数F的作用是，将属于[d_k，d_k+1)范围的任意高动态深度值d_K映射到低动态数值k。

S124、根据所述增强映射函数，对所述判别深度范围对应的三维人脸点云数据中的深度值进行映射，得到三维深度属性图。

具体地，在映射过程中，遍历D_dis中所有点，对于空间其中任意一点，首先确定其属于F中的范围[d_k，d_k+1)，然后将其投影为数值k，作为该位置增强后的像素。当遍历完D_dis所有点后，即可得到增强后的三维深度属性图像I_dis。

作为举例，D_dis中位置[10，10]处的深度值为105，而映射函数为F＝{d₀＝0，...，d₂₀＝100，d₂₁＝130，...d₂₅₅＝4095}。105属于区间[d₂₀＝100，d₂₁＝130)，那么经过投影后，105将被投影为20，也即经过映射函数F后，D_dis中处于[10，10]位置的值105被映射为I_dis中处于相同位置的值20。以此类推，遍历，D_dis中的所有位置，则得到增强后的三维深度属性图像I_dis。

S13、对所述二维人脸图像和所述三维深度属性图像分别进行特征提取，得到二维人脸表情特征和三维人脸表情特征。

优选地，通过预先训练完成的特征提取器进行特征提取，采用VGG16神经网络卷积部分作为特征提取器，包括13层卷积层及5个最大池化层的卷积神经网络。

将所述二维人脸图像和所述三维深度属性图像分别输入预先训练完成的特征提取器，以得到所述特征提取器输出的二维人脸表情特征和三维人脸表情特征。

S14、将所述二维人脸表情特征和所述三维人脸表情特征进行多模态特征融合，得到多模态特征。

所述二维人脸表情特征和所述三维人脸表情特征均为三维矩阵，记为M_2D和M_3D，且矩阵大小相同。将M_2D和M_3D表情特征在通道维度进行级联，即可得到融合后的多模态特征M_2D3D。

S15、将所述多模态特征输入预设的神经网络，并根据所述真实人脸表情类别，对所述预设的神经网络进行训练，得到所述人脸表情分类器。

选取合适的神经网络模型，并进行参数初始化后，将通过M_2D和M_3D表情特征融合后的多模态特征M_2D3D作为该神经网络模型的输入值，获取该神经网络模型输出的预测人脸表情类别，与所述真实人脸表情类别进行对比，进而对所述神经网络模型的参数进行调整，以此训练所述神经网络模型，从而得到训练完成的人脸表情分类器。

作为优选的实施方式，所述步骤S15，具体包括：

S151、将所述多模态特征输入所述神经网络，以得到所述神经网络输出的预测人脸表情类别；

S152、根据所述预测人脸表情类别和所述真实人脸表情类别，计算交叉熵损失函数；

S153、判断所述交叉熵损失函数是否达到预设的收敛条件；

S154、当所述交叉熵损失函数未达到预设的收敛条件时，采用反向误差传播算法对所述神经网络进行更新，并跳转至步骤S151；

S155、当所述交叉熵损失函数达到预设的收敛条件时，根据所述神经网络，得到所述人脸表情分类器。

采用本发明实施例的技术手段，将多模态特征M_2D3D作为初始化参数后的神经网络模型的输入值，获取该神经网络模型输出的预测人脸表情类别，与所述真实人脸表情类别进行对比，计算交叉熵损失函数。若所述交叉熵损失函数未达到预设的收敛条件，采用反向误差传播算法对所述神经网络的参数进行更新，并利用更新后的神经网络对所述多模态特征M_2D3D进行再次分类预测，得到新的预测人脸表情类别，并再次计算交叉熵损失函数。以此不断调整该神经网络的参数设置，以不断降低所述交叉熵损失函数，缩小预测人脸表情类别与真实人脸表情类别之间的差异，直到所述损失函数的值趋于最小化时，即达到预设的收敛条件，该神经网络训练完成，作为训练完成的人脸表情分类器。

本发明实施例一提供了一种人脸表情分类器的训练方法，通过获取已经标注了对应的人脸表情类别的人脸表情数据，对构建的神经网络进行学习训练，从而得到适用于执行人脸表情的识别功能的分类器。在分类器的训练过程中，通过训练数据集中的三维人脸点云数据进行判别深度范围标定，能够较好地保留人脸表情主要分布区域的深度数据，并剔除无用的深度信息，从而有效避免引入不准确的三维人脸数据增强。对标定的判别深度范围内的三维人脸点云数据进行全局最大熵增强处理，可以呈现出最多的人脸表情深度信息，有效的提高了三维人脸点云数据对表情信息的表征能力。对二维人脸图像和增强处理后的三维深度属性图像进行特征提取和特征融合的操作，并根据预先标注的真实人脸表情类别训练分类器，有效地提高了人脸表情分类器的鲁棒性，从而提高最终人脸表情分类结果的准确性。

作为优选的实施方式，参见图2，是本发明实施例二提供的一种人脸表情分类器的训练方法的步骤示意图。本发明实施例二在实施例一的基础上进一步实施，步骤S11之后，所述方法还包括步骤S12’：

S12’、对所述二维人脸图像进行灰度值归一化处理，并对灰度值归一化处理后的二维人脸图像进行均值标准化处理，得到二维人脸增强图像。

在本发明实施例中，在训练所述人脸表情分类器的过程中，先对获取的训练数据集中的二维人脸图像进行数据增强处理，从而提高二维人脸图像的质量，进而提高训练人脸表情分类器的鲁棒性。

优选地，在灰度值归一化中，原始输入二维人脸图像x′的像素范围为0-255，将其进行灰度值归一化处理，使得归一化后的图像

灰度值范围为0-1。具体地，采用以下计算公式对原始的二维人脸图像x′进行灰度值归一化处理：

进一步地，所述对灰度值归一化处理后的二维人脸图像进行均值标准化处理，得到二维人脸增强图像，具体包括：

其中，x为所述二维人脸增强图像，

在此基础上，本发明实施例中，上述步骤S13具体为：

本发明实施例中，通过对训练数据集中的二维人脸图像和三维人脸点云数据分别进行相应的数据增强处理，再进行特征提取，作为后续的人脸分类器的训练数据，能够有效增强训练数据中的人脸表情特征，提高训练数据的质量，从而提高训练人脸表情分类器的鲁棒性。

参见图3，是本发明实施例三提供的一种人脸表情的识别方法的步骤示意图。本发明实施例三在实施例一或二的基础上进一步实施，提供了一种人脸表情的识别方法，具体通过步骤S31至S35执行：

S31、获取待识别人脸表情数据；其中，所述待识别人脸表情数据包括二维人脸图像和三维人脸点云数据。

S32、对所述三维人脸点云数据进行判别深度范围标定，并对标定的判别深度范围对应的三维人脸点云数据进行全局最大熵增强处理，以得到三维深度属性图像。

具体地，对所述三维人脸点云数据在深度方向进行对齐，并通过计算公式d_i＝d_min+i×d_res，划分得到M个不同的判别深度范围，获取对应的三维人脸点云数据块。

对满足预设的表情判别性信息条件的判别深度范围进行标定，以得到所述标定的判别深度范围对应的三维人脸点云数据；根据所述判别深度范围对应的三维人脸点云数据，求解带有深度失真约束条件的最大熵目标函数，以得到增强映射函数；根据所述增强映射函数，对所述判别深度范围对应的三维人脸点云数据中的深度值进行映射，得到三维深度属性图。

其中，N为三维人脸点云数据的深度动态范围，K为所述三维深度属性图的深度动态范围，d_k为所述判别深度范围对应的三维人脸点云数据的深度动态范围取值，k为所述三维深度属性图的深度动态范围取值；P[d_k,d_k+1)为深度动态范围[d_k,d_k+1)的概率，τ为深度失真约束条件阈值。

采用本发明实施例的技术手段，通过对三维人脸点云数据的判别深度范围标定，能够较好地保留人脸表情主要分布区域的深度数据，并剔除无用的深度信息，从而有效避免引入不准确的三维人脸数据增强。进而，对标定的判别深度范围内的三维人脸点云数据进行全局最大熵增强处理，摒弃了现有技术中基于几何信息的局部平面拟合方法，避免了在深度属性图中引入不准确的几何曲率和法线向量，可以呈现出最多的人脸表情深度信息，有效的提高了三维人脸点云数据对表情信息的表征能力，增强了三维人脸表情特征，有效提高最终人脸表情分类结果的准确性。

S33、对所述二维人脸图像和所述三维深度属性图像分别进行特征提取，得到二维人脸表情特征和三维人脸表情特征。

S34、将所述二维人脸表情特征和所述三维人脸表情特征进行多模态特征融合，得到多模态特征。

S35、将所述多模态特征输入预先训练完成的人脸表情分类器，以得到所述人脸表情分类器输出的人脸表情分类结果；其中，所述预先训练完成的人脸表情分类器是通过如实施例一或实施例二所述的人脸表情分类器的训练方法训练得到的。

作为优选的实施方式，在步骤S31之后，所述方法还包括步骤S32’：

S32’、对所述二维人脸图像进行灰度值归一化处理，并对灰度值归一化处理后的二维人脸图像进行均值标准化处理，得到二维人脸增强图像。

其中，x为所述二维人脸增强图像，

在此基础上，本发明实施例中，上述步骤S33具体为：

本发明实施例中，通过对训练数据集中的二维人脸图像和三维人脸点云数据分别进行相应的数据增强处理，再进行特征提取，能够有效增强待识别人脸表情数据中的人脸表情特征，有效提高最终人脸表情分类结果的准确性。

参见图4，是本发明实施例四提供的一种人脸表情分类器的训练装置的结构示意图。本发明实施例四提供了一种人脸表情分类器的训练装置40，包括：训练数据集获取模块41、第一数据处理模块42、第一特征提取模块43、第一多模态特征融合模块44和分类器训练模块45；其中

所述训练数据集获取模块41，用于获取若干已预先标注了真实人脸表情类别的人脸表情数据，作为训练数据集；其中，每一所述人脸表情数据包括二维人脸图像和三维人脸点云数据；

所述第一数据处理模块42，用于对所述三维人脸点云数据进行判别深度范围标定，并对标定的判别深度范围对应的三维人脸点云数据进行全局最大熵增强处理，以得到三维深度属性图像；

所述第一特征提取模块43，用于对所述二维人脸图像和所述三维深度属性图像分别进行特征提取，得到二维人脸表情特征和三维人脸表情特征；

所述第一多模态特征融合模块44，用于将所述二维人脸表情特征和所述三维人脸表情特征进行多模态特征融合，得到多模态特征；

所述分类器训练模块45，用于将所述多模态特征输入预设的神经网络，并根据所述真实人脸表情类别，对所述预设的神经网络进行训练，得到所述人脸表情分类器。

需要说明的是，本发明实施例提供的一种人脸表情分类器的训练装置用于执行上述实施例一或二所述的一种人脸表情分类器的训练方法的所有流程步骤，两者的工作原理和有益效果一一对应，因而不再赘述。

参见图5，是本发明实施例三提供的一种人脸表情的识别装置的结构示意图，本发明实施例提供了一种人脸表情的识别装置50，包括：人脸表情数据获取模块51、第二数据处理模块52、第二特征提取模块53、第二多模态特征融合模块54和人脸表情识别模块55；其中，

所述人脸表情数据获取模块51，用于获取待识别人脸表情数据；其中，所述待识别人脸表情数据包括二维人脸图像和三维人脸点云数据；

所述第二数据处理模块52，用于对所述三维人脸点云数据进行判别深度范围标定，并对标定的判别深度范围对应的三维人脸点云数据进行全局最大熵增强处理，以得到三维深度属性图像；

所述第二特征提取模块53，用于对所述二维人脸图像和所述三维深度属性图像分别进行特征提取，得到二维人脸表情特征和三维人脸表情特征；

所述第二多模态特征融合模块54，用于将所述二维人脸表情特征和所述三维人脸表情特征进行多模态特征融合，得到多模态特征；

所述人脸表情识别模块55，用于将所述多模态特征输入预先训练完成的人脸表情分类器，以得到所述人脸表情分类器输出的人脸表情分类结果；其中，所述预先训练完成的人脸表情分类器是通过实施例一或实施例二所述的人脸表情分类器的训练方法训练得到的。

需要说明的是，本发明实施例提供的一种人脸表情的识别装置用于执行上述实施例三所述的一种人脸表情的识别方法的所有流程步骤，两者的工作原理和有益效果一一对应，因而不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种人脸表情分类器的训练方法，其特征在于，包括：

2.如权利要求1所述的人脸表情分类器的训练方法，其特征在于，所述对所述三维人脸点云数据进行判别深度范围标定，对标定的判别深度范围对应的三维人脸点云数据进行全局最大熵增强处理，以得到三维深度属性图，具体包括：

3.如权利要求2所述的人脸表情分类器的训练方法，其特征在于，所述对所述三维人脸点云数据在深度方向进行对齐，划分得到M个具有不同判别深度范围的三维人脸点云数据块，具体包括：

对所述三维人脸点云数据在深度方向进行对齐，并通过计算公式d_i＝d_min+i×d_res，划分得到M个不同的判别深度范围；其中，d_i为判别深度范围，d_min为最小判别深度范围，d_res为深度分辨率；i＝1,2,...,M；

4.如权利要求2所述的人脸表情分类器的训练方法，其特征在于，所述带有深度失真约束条件的最大熵目标函数，具体为：

5.如权利要求1所述的人脸表情分类器的训练方法，其特征在于，在所述获取若干已预先标注了真实人脸表情类别的人脸表情数据，作为训练数据集之后，所述方法还包括：

6.如权利要求5所述的人脸表情分类器的训练方法，其特征在于，所述对灰度值归一化处理后的二维人脸图像进行均值标准化处理，得到二维人脸增强图像，具体包括：

其中，x为所述二维人脸增强图像，

7.如权利要求1所述的人脸表情分类器的训练方法，其特征在于，所述将所述多模态特征输入预设的神经网络，并根据所述真实人脸表情类别，对所述预设的神经网络进行训练，得到所述人脸表情分类器，具体包括：

判断所述交叉熵损失函数是否达到预设的收敛条件；

8.一种人脸表情的识别方法，其特征在于，包括：

将所述多模态特征输入预先训练完成的人脸表情分类器，以得到所述人脸表情分类器输出的人脸表情分类结果；其中，所述预先训练完成的人脸表情分类器是通过如权利要求1-7任一项所述的人脸表情分类器的训练方法训练得到的。

9.一种人脸表情分类器的训练装置，其特征在于，包括：

10.一种人脸表情的识别装置，其特征在于，包括：

人脸表情识别模块，用于将所述多模态特征输入预先训练完成的人脸表情分类器，以得到所述人脸表情分类器输出的人脸表情分类结果；其中，所述预先训练完成的人脸表情分类器是通过如权利要求1-7任一项所述的人脸表情分类器的训练方法训练得到的。