CN109948569B

CN109948569B - 一种利用粒子滤波框架的三维混合表情识别方法

Info

Publication number: CN109948569B
Application number: CN201910233081.2A
Authority: CN
Inventors: 向南
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2022-04-22
Anticipated expiration: 2039-03-26
Also published as: CN109948569A

Abstract

本发明涉及一种利用粒子滤波框架的三维混合表情识别方法，包括构建训练数据库，获取待识别用户的三维表情作为输入进行训练，然后获取每种子表情下人脸部位子表情的特征信息；利用Baum‑Welch算法构建不同子状态之间的转移概率矩阵；采用以下滤波过程进行表情识别：①进行粒子采样并预估眼部的表情概率，再根据眼睛部位的观测值/特征值计算各粒子的权值从而得到眼部表情的最优估计；②对鼻子、嘴巴、左脸颊、右脸颊、前额、下巴重复步骤①或最优估计收敛；③采用各人脸部位最佳预测的加权平均值作为混合表情输出。快速识别包含一种或多种基本表情的混合表情，并输出相应表情的强度，且表情识别的精度可随用户对子表情强度划分精细度的提升而提升。

Description

一种利用粒子滤波框架的三维混合表情识别方法

技术领域

本发明涉及一种快速识别三维混合表情的方法，具体涉及基于粒子滤波架构的人脸三维表情识别法，属于信息技术领域。

背景技术

在数字娱乐产业取得长足发展的同时，以“人本交互”(Human CenteredInteraction)为理念的情感交互技术日趋成熟并被应用于教育、医疗等领域，而表情的识别成为“人本交互”的技术基础。例如表情识别能够使得教学系统更加有效率；对于人类表情所表达情感的分析能够有助于在临床上诊断出心里疾病；具有表情识别的系统能够感知人类情感并对此作出反应，使得系统所提供的服务更加自然有效和可信。表情识别技术之所以引起广泛的重视与研究是因为人类的交互都是具有社会适应性的，情感起到增强人类交互的作用。对于实际工作、学习或生活具有十分重要的指导作用。例如目标用户为上课的学生，则通过获取学生听课的状态，以指导教师教学方案；目标用户为操作工人或驾驶员，通过获取工作人员的表情状态，可以通过管理者或软件进行提示；目标用户为某体验人员，通过获取体验人员特定时段的表情状态，可以获得满意度信息。因此，用户通常希望计算机能够具有观察情感、了解情感和生成情感的能力，这使得在交互中识别表情成为一种必然的研发趋势。综上所述，表情识别是进行基于情感的人机交互、情感计算的主要手段之一，具有广泛的应用前景。

现有的表情分类基本由Ekman提出的六种基本情感情组成，即高兴、悲伤、吃惊、厌恶、恐惧和愤怒。表情识别通常包括特征点提取和分类两个部分。ASM(Active ShapeModel)算法训练得到的平均形状模型能很好地覆盖各种人脸几何外形子空间，具有较高的定位精度，因此ASM方法是用于进行人脸特征点定位的常见方法。在面部特征分类方面，CNN(Convolutional Neural Network)卷积神经网络、HMM(Hidden Markov Model)模型、SVM(Support Vector Machine)分类器等方法都可以用来进行表情的识别。SVM即支持向量机，是一种常见的分类方法，但其需要较大的样本空间且学习过程较为复杂。HMM/EHMM模型即隐马尔科夫模型及嵌入式隐马尔科夫模型也是一种鲁棒性较强的分类器，但是其较依赖前期的训练样本且识别过程较长，不适应于较多类型的分类情况。CNN卷积神经网络，是当下最流行的分类器之一，特别适合基于图像的分类问题，但是其识别过程较为复杂且对参数设置的依赖性较高。

尽管目前研究在面部表情识别方面取得很大进展，然而结合人脸三维信息并简单快速的将表情映射到划复杂表情空间依然缺乏有效的方法。所谓复杂表情空间应满足以下条件：首先不仅仅包含7种基本表情，需要有根据各种基本表情强度的精细子表情划分；其次表情不仅仅包含一种表情，有可能通过不同的人脸部位表达不同的表情。

发明内容

针对现有技术存在的上述不足，本发明解决快速识别三维混合表情的问题，将三维人脸信息快速映射到复杂表情空间，而提出一种利用SIR粒子滤波框架的三维混合表情识别方法。

为了解决上述技术问题，本发明采用如下技术方案：

一种利用粒子滤波框架的三维混合表情识别方法，其特征在于，包括如下步骤：

1)构建训练数据库，获取待识别目标用户的三维表情作为输入进行训练，然后获取每种子表情下人脸部位子表情的特征信息；

2)利用Baum-Welch算法构建不同子状态之间的转移概率矩阵；采用如下规则设置转换概率，即子表情的转换很可能发生在强度相邻的子表情及其本身之间；根据人脸部位对表情识别的贡献度，状态转移顺序设定为：在垂直方向上把三维人脸分为前额、眼睛、鼻子、左脸颊、右脸颊、嘴巴、下巴七个特征部位；

3)采用以下滤波过程进行表情识别：

基于SIR(Sampling Importance Resampling)粒子滤波架构的识别：①进行粒子采样并预估眼部的表情概率，再根据眼睛部位的观测值/特征值计算各粒子的权值从而得到眼部表情的最优估计；②对鼻子、嘴巴、左脸颊、右脸颊、前额、下巴重复步骤①或最优估计收敛；③采用各人脸部位最佳预测的加权平均值作为混合表情输出；

在进行表情估计的过程中，首先需要进行粒子采样即表情的预估，设

为预估状态，则其可以由预估方程π计算：

其中O_1:N-1代表前N-1个人脸部位的观测值；E_1:N-1表示表情的最优估计序列；

为状态转移函数，由用户的三维面部信息训练得到；

在人脸表情预估后还需要对估计结果进行修正，即确定采样后粒子的权重，根据SIR架构可知似然函数就是粒子权重函数，如下所示：

p(O|E)＝W＝1-||f(E)-f(O)|| (2)

E表示某种三维表情，O表示观察值包含图像及深度信息，f为特征提取函数；

当表情状态经过预测后，系统利用式(2)的似然函数来修正预估的表情状态,得到表情的后验概率分布为：

其中ω^k为表示第k个粒子的权重可由公式(2)得到，K为粒子个数；当最优估计为单一表情且收敛时，上式即可计算出人脸表情，此外需要计算混合表情：

其中ω_n表示第n个人脸部位的权重，可由其中特征点个数的比例得出，特征点的划分可参考经典ASM(Active Shape Model)算法。

进一步，所述步骤1)构建数据库的方法包括：

获取待识别用户的三维表情作为输入进行训练，其中人脸图像推荐采用64*64以上分辨率，人脸三维点云/网格不少于68个关键点；针对由高兴、悲伤、愤怒、厌恶、恐惧和吃惊强度不同而细分得到的子表情，推荐采用30种子表情且情感程度按极强、强烈、较强、一般、微弱递减，均需采集相应的三维人脸表情，然后获取每种子表情下7个人脸部位的特征信息例如LBP与深度信息作为观测值；

设定高兴、悲伤、愤怒、厌恶、恐惧和吃惊6种基本表情集合，记为S＝{S_j,S_sad,S_a,S_d,S_f,S_sup}，然后根据基本表情的强度分别划分5个不同的强度等级，得到30种子表情集合，以高兴为例记为S_j＝{e_je,e_js,e_jr,e_jn,e_jl}，其中下标e,s,r,n,l分别表示极强、强烈、较强、一般、微弱5种离散表情强度，每种子表情的强度为一个概率值；由于人脸可能包含不同的表情，因此设定混合表情状态E＝(e_i|i＝1:6)，其中e_i表示每种基本表情的强度，其范围为[0,1]故此有别与上述子表情强度。系统用粒子来表示可能的表情状态，在初始状态时，这些粒子均匀分布在6种基本表情上。

所述对于各个人脸部位利用识别特征进行识别，本发明可兼容任意特征，推荐采用像素点对应深度及灰度联合LBP(局部二值模式)作为识别的特征。

所述粒子滤波框架的重采样，是某些粒子权值过小后就不具备再进行采样的价值，需要再次建立新的采样粒子；为了能够识别混合表情，在重采样时仍需要构建其它未检测到的表情的采样粒子。

相比现有技术，本发明具有如下有益效果：

1、本发明通过构建训练数据库、转移概率矩阵，以粒子滤波过程可以快速进行三维表情识别。根据面部图像及不少于68顶点的网格或点云的三维面部信息和算法，识别包含一种或多种平静、高兴、悲伤、吃惊、恐惧、愤怒和厌恶7种基本表情的混合表情。可快速识别包含一种或多种基本表情的混合表情，并输出相应表情的强度，且表情识别的精度可随用户对子表情强度划分精细度的提升而提升。

2、采用粒子滤波架构来进行表情的识别，其算法用粒子来对各个人脸部位进行表情的抽样和预估；然后利用由三维人脸信息获得的各部位特征值来对预估的表情进行修正，利用各个粒子所代表表情的加权平均值表示该部位表情的最优估计；依次对前额、眼睛、鼻子、嘴巴、左脸颊、右脸颊、前额、下巴7处人脸部位进行上述预估和修正过程或三次最优估计收敛；最后利用各个人脸部位最优估计的加权值作为识别的表情输出。当粒子数量过少时可以进行重采样过程。

3、本发明创造性的提出粒子滤波的框架和滤波过程，其中构建子表情数量以及所采用人脸特征并不固定，即可以兼容多种子表情和任意人脸特征。

4、本发明方法能够利粒子滤波架构识别混合情感。其中识别所涉及的粒子滤波算法、输入信息、识别特征、表情强度和子表情的划分可根据实际进行调整。以及对预估表情的修正信息，为利用预先所得的用户子子表情训练集进行特征提取后得到。

附图说明

图1是三维人脸特征部位示意图。

图2是本发明方法粒子滤波识别架构示意图。

图3是本发明方法采集三维人脸表情的示意图。

具体实施方式

下面结合附图和实施例对本发明进一步详细说明。

一种利用粒子滤波框架的三维混合表情识别方法，包括如下步骤：

1)构建训练数据库，获取待识别用户的三维表情作为输入进行训练，其中人脸图像推荐采用64*64以上分辨率，人脸三维点云/网格不少于68个关键点；针对由高兴、悲伤、愤怒、厌恶、恐惧和吃惊强度不同而细分得到子表情，推荐采用30种子表情且情感程度按极强、强烈、较强、一般、微弱递减，均需采集相应的三维人脸表情，如图3所示。然后获取每种子表情下7个人脸部位的特征信息例如LBP与深度信息作为观测值。

2)利用Baum-Welch算法构建不同子状态之间的转移概率矩阵；采用如下规则设置转换概率，即子表情的转换很可能发生在强度相邻的子表情及其本身之间；根据人脸部位对表情识别的贡献度，状态转移顺序设定为：在垂直方向上把三维人脸分为前额、眼睛、鼻子、左脸颊、右脸颊、嘴巴、下巴七个特征部位，如图1所示。对于各个人脸部位利用识别特征进行识别，本发明可兼容任意特征，推荐采用像素点对应深度及灰度联合LBP(局部二值模式)作为识别的特征。

3)当训练数据库构建完成后，即以下滤波过程进行表情识别：

基于SIR(Sampling Importance Resampling)粒子滤波架构的识别：①进行粒子采样并预估眼部的表情概率，再根据眼睛部位的观测值/特征值计算各粒子的权值从而得到眼部表情的最优估计；②对鼻子、嘴巴、左脸颊、右脸颊、前额、下巴重复步骤①或最优估计收敛；③采用各人脸部位最佳预测的加权平均值作为混合表情输出，如图2所示。

为预估状态，则其可以由预估方程π计算：

为状态转移函数，由用户的三维面部信息训练得到；

p(O|E)＝W＝1-||f(E)-f(O)|| (2)

进一步，所述构建数据库的具体方法(以30种子表情为例)如下：

其中，粒子滤波框架的一个特性就是重采样，某些粒子权值过小后就不具备再进行采样的价值，这时候需要再次建立新的采样粒子。为了能够识别混合表情，在重采样时仍需要构建其它未检测到的表情的采样粒子。

综上，本发明为能够快速识别三维混合表情的方法(算法)。根据面部图像及不少于68顶点的网格或点云的三维面部信息，利用粒子滤波架构，采用人脸各部位的加权最优估计识别包含一种或多种平静、高兴、悲伤、吃惊、恐惧、愤怒和厌恶7种基本表情的混合表情。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种利用粒子滤波框架的三维混合表情识别方法，其特征在于，包括如下步骤：

3)采用以下滤波过程进行表情识别：

为预估状态，则其可以由预估方程π计算：

其中O_1：N-1代表前N-1个人脸部位的观测值；E_1：N-1表示表情的最优估计序列；

为状态转移函数，由用户的三维面部信息训练得到；

p(O|E)＝1-||f(E)-f(O)|| (2)

当表情状态经过预测后，系统利用式(2)的似然函数来修正预估的表情状态，得到表情的后验概率分布为：

2.根据权利要求1所述利用粒子滤波框架的三维混合表情识别方法，其特征在于，所述步骤1)构建数据库的方法包括：

人脸图像推荐采用64*64以上分辨率，人脸三维点云/网格不少于68个关键点；针对由高兴、悲伤、愤怒、厌恶、恐惧和吃惊强度不同而细分得到的子表情，推荐采用30种子表情且情感程度按极强、强烈、较强、一般、微弱递减，均需采集相应的三维人脸表情，然后获取每种子表情下7个人脸部位的特征信息，例如LBP与深度信息作为观测值；

设定高兴、悲伤、愤怒、厌恶、恐惧和吃惊6种基本表情集合，记为S＝{S_j，S_sad，S_a，S_d，S_f，S_sup}，然后根据基本表情的强度分别划分5个不同的强度等级，得到30种子表情集合，以高兴为例记为S_j＝{e_je，e_js，e_jr，e_jn，e_jl}，其中下标e，s，r，n，l分别表示极强、强烈、较强、一般、微弱5种离散表情强度，每种子表情的强度为一个概率值；由于人脸可能包含不同的表情，因此设定混合表情状态E＝(e_i|i＝1：6)，其中e_i表示每种基本表情的强度，其范围为[0，1]故此有别与上述子表情强度；系统用粒子来表示可能的表情状态，在初始状态时，这些粒子均匀分布在6种基本表情上。

3.根据权利要求1所述利用粒子滤波框架的三维混合表情识别方法，其特征在于，所述粒子滤波框架的重采样，是某些粒子权值过小后就不具备再进行采样的价值，需要再次建立新的采样粒子；为了能够识别混合表情，在重采样时仍需要构建其它未检测到的表情的采样粒子。