CN112800951A

CN112800951A - 基于局部基特征的微表情识别方法、系统、装置及介质

Info

Publication number: CN112800951A
Application number: CN202110109736.2A
Authority: CN
Inventors: 周智恒; 宋雨庭; 李波; 彭永坚; 汪壮雄
Original assignee: Guangzhou Video Star Intelligent Co ltd; South China University of Technology SCUT
Current assignee: Guangzhou Video Star Intelligent Co ltd; South China University of Technology SCUT
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-14
Anticipated expiration: 2041-01-27
Also published as: CN112800951B

Abstract

本发明公开了一种基于局部基特征的微表情识别方法、系统、装置及介质，其中方法包括以下步骤：获取微表情视频；将所述微表情视频转换为微表情图像序列，对所述微表情图像序列进行预处理，获得灰度人脸图像；提取所述灰度人脸图像的局部基特征，局部基包括左眼、右眼和嘴巴，局部基特征包括动态特征和静态特征；将所述局部基特征输入训练好的分类器进行识别，获得微表情识别结果。本发明提出一种新颖的特征提取框架，可有效识别各种强度范围内的表情，以及对帧速率几乎不敏感。本发明可广泛应用于图像处理技术领域。

Description

基于局部基特征的微表情识别方法、系统、装置及介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于局部基特征的微表情识别方法、系统、装置及介质。

背景技术

面部表情可以在日常生活中的社交交流中提供丰富的情感信息来源。通常，面部表情(宏)会持续约4到5秒，并且易于人类感知。但是，某些情绪会表现为微表情，这种表情非常快(仅持续1/3至1/25秒)并且具有非自发性。这些微表情让我们对一个人的真实情绪/感受有一瞥或洞察，即使他/她试图通过虚假的宏表情来隐藏真实的情绪。

情绪心理学领域最著名的专家之一保罗·埃克曼透露，从面部表情的角度来看，任何文化背景的人都以同样的方式表达自己的感情和情绪。在这一领域进行的大量研究表明，人类无法控制自己的微表情，也无法抑制它们。埃克曼把情绪分为六大类：愤怒、厌恶、恐惧、高兴、悲伤和惊讶。此外，他开发了面部动作编码系统识别(FACS)和微表情训练工具(METT)来标准化自动面部表情识别(FER)系统。根据肌肉运动将面部图像分成小单元，并将其归类为动作单元(AUs)。

由于微表情发生在几分之一秒内并且强度很低，因此很难通过人类的努力来检测它们。只有经过专业培训的人员才能发现和识别这些表达。即使人类经过专业培训，文献中也仅有47％的识别准确度。

自动微表情识别由于其在各个领域的广泛应用而引起了越来越多的关注：警察询问，临床诊断，抑郁分析，测谎，商务谈判，教学协助，执法等。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于局部基特征的微表情识别方法、系统、装置及介质。

本发明所采用的技术方案是：

一种基于局部基特征的微表情识别方法，包括以下步骤：

获取微表情视频；

将所述微表情视频转换为微表情图像序列，对所述微表情图像序列进行预处理，获得灰度人脸图像；

提取所述灰度人脸图像的局部基特征，局部基包括左眼、右眼和嘴巴，局部基特征包括动态特征和静态特征；

将所述局部基特征输入训练好的分类器进行识别，获得微表情识别结果。

进一步，还所述基于局部基特征的微表情识别方法还包括训练分类器的步骤，包括：

获取微表情训练集，所述微表情训练集包括训练视频以及与所述训练视频对应的微表情类别标签；

将所述训练视频转换为微表情图像序列，对所述微表情图像序列进行预处理，获得灰度人脸图像；

提取所述灰度人脸图像的局部基特征；

根据所述局部基特征获取运动系数的特征，根据所述运动系数的特征训练分类器。

进一步，所述提取所述灰度人脸图像的局部基特征的步骤包括获取局部基的步骤，包括：

从所述灰度人脸图像中裁剪出矩形的人脸图像并进行缩放，获得多帧人脸图像；

利用SDM技术对所述人脸图像进行中心定位，对所述人脸图像中的左眼、右眼和嘴巴部分进行裁剪，获取左眼方框、右眼方框和嘴部方框作为局部基。

进一步，所述提取所述灰度人脸图像的局部基特征，还包括：

采用Gabor小波来推断局部运动；

学习生成线性模型，根据局部运动来重构整个面部活动；

学习局部动态基以及局部静态基，获取动态特征和静态特征作为局部基特征。

进一步，所述根据所述局部基特征获取运动系数的特征，包括：

根据所述局部动态基A和所述局部静态基B获取微表情图像序列I的动态系数u和静态系数v；

从所述动态系数u和所述静态系数v中提取特征；

将所述动态系数u提取的特征和所述静态系数v中提取的特征串联起来，获得所述微表情数据集的特征向量Φ，作为用于训练分类器的运动系数的特征。

进一步，所述采用Gabor小波来推断局部运动，包括：

采用Gabor小波来推断局部运动，其中D复Gabor系数向量分解为相位和幅值分量；

从D复Gabor小波

中恢复帧I_t:

其中，

是参数的实部，*表示共轭，z_t＝(z_t,1,z_t,2,…,z_t,D)是复Gabor系数的向量，每个z_t,d都可以分解为相位φ_t,d和幅值ρ_t,d，表达式为：

利用一组多个小波

的相移

得到一个完整的运动表达。

进一步，所述线性模型的表达式为：

其中

为包含该线性变换的K_A个动态基向量的集合；u_t,k为动态基系数，与运动强度成正比；

为圆形正态分布是模型的误差项。

本发明所采用的另一技术方案是：

一种基于局部基特征的微表情识别系统，包括：

数据获取模块，用于获取微表情视频；

预处理模块，用于将所述微表情视频转换为微表情图像序列，对所述微表情图像序列进行预处理，获得灰度人脸图像；

特征提取模块，用于提取所述灰度人脸图像的局部基特征，局部基包括左眼、右眼和嘴巴，局部基特征包括动态特征和静态特征；

分类识别模块，用于将所述局部基特征输入训练好的分类器进行识别，获得微表情识别结果。

本发明所采用的另一技术方案是：

一种基于局部基特征的微表情识别装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明提出一种新颖的特征提取框架，可有效识别各种强度范围内的表情，以及对帧速率几乎不敏感。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种基于局部基特征的微表情识别方法的步骤流程图；

图2是本发明实施例中SDM技术获取局部基的示意图；

图3是本发明实施例中局部基的学习过程和特征提取的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

局部基是指人脸的局部，我选取了人的左眼、右眼、嘴巴作为基，提取它们的动态特征、静态特征汇合称为局部基特征。本实施例将人脸分割成为左眼、右眼、嘴巴，然后通过D复Gabor小波推断其运动，将运动分为相位和幅值，然后学习相位和幅值的线性模型。此线性模型包含两个重要部分，一个是局部基，一个是运动系数。对于基的生成学习，本实验认为生成的基最接近原样本最优，且在一段视频中面部表情只占一部分，所以具有稀疏性，根据此特性为基施加运动系数的先验分布和基的稀疏约束，最大化学习过程得到动态基A和静态基B。得到A、B之后，多次迭代逼近原样本以此得到运动系数u、v，然后提取运动系数的特征，得到特征就可以学习分类器，用于表情的分类。

如图1所示，本实施例提供一种基于局部基特征的微表情识别方法，包括但不限于以下步骤：

S1、获取微表情数据集，数据集中包含有若干微表情视频和对应的微表情类别标签。

S2、将训练数据库和测试数据库中的微表情视频转换为微表情图像序列，并从中提取出灰度人脸图像，在序列的每一帧中裁剪左眼、右眼和嘴部组件为相同尺寸的正方形。

其中，步骤S2具体包括步骤S21-S25：

S21、将训练数据库和测试数据库中的每个微表情视频转换为微表情图像序列；

S22、将所述微表情图像序列进行灰度化处理；

S23、从灰度化处理的微表情图像序列中裁剪出矩形人脸图像并进行缩放；

S24、微表情数据集中，表情的顶点是未知的，故使用所有帧。对于微表情数据集，在学习基函数时通过时间插值将训练序列的大小调整为10帧；

S25、利用SDM技术对序列的每个帧进行中心定位后，如图2，对序列的每一帧中的左眼、右眼和嘴巴部分进行裁剪(SDM技术提供了左眼、右眼和嘴巴的角点。计算这些分量的中心，作为主体位置的平均值。)将每个组件裁剪为32×32像素的正方形，并避免不同组件之间的重叠。

S3、学习特征提取框架，该框架将面部表情变化表示为局部基函数的线性组合，其系数与运动强度成正比。通过使用由面部视频计算出的Gabor相移数据训练稀疏性线性模型来学习与局部面部活动相对应的基函数。

其中，步骤S3具体包括步骤S31-S35：

S31、为了编码局部运动而不需要显式地计算运动矢量，采用Gabor小波来推断局部运动。其中D复Gabor系数向量每个都可以分解为相位和幅值分量。可以从D复Gabor小波

中恢复帧I_t:

其中，

利用一组多个小波

的相移

得到一个完整的运动表达。

S32、本实施例旨在学习一种生成线性模型，可以根据局部运动来重构整个面部活动，故本实施例的目标是学习一个可以代表任何表情引起的相移模式

的生成线性模型:

其中

为包含该变换的K_A个基础向量的集合，基系数u_t,k与运动强度成正比，例如，如果基向量A_k对应于一个扬眉，那么一个小的(大)值应表示对于一个相移

包含一个小(大)的眉毛运动。模型的误差项

为圆形正态分布，其随机变量

彼此独立，建模为：

其中是κ集中度参数。

这种线性变换具有两个优点：(i)通过系数的大小可以分离出微表情和宏表情；(ii)可以独立于视频帧速率使用基数

因为视频帧速率(即视觉运动速度)的变化仅导致系数u_t,k随时间变化的速率发生变化，所以帧速率对于表情识别没有影响。

S33、学习局部动态基。在生成学习中，最能描述给定的N个独立同分布样本

的基(即A)是使似然值最大的样本：

模型通过对基系数u_t,k上使用先验分布并在局部基A_k上施加约束来最大化学习过程，以此产生基A，具体步骤：

S331、面部表情通常只占面部的一小部分，因此，只有一小部分系数必须具有较大的值，而其余系数必须为零或相对很小。所以对基系数u_t,k上使用先验分布来强制执行,该分布有利于u_t,k为零且具有高峰：

其中λ_u和β_u分别是柯西分布和高斯分布的比例参数和精度参数，而Z_u是确保分布总和为1的归一化系数。

S332、对于局部化基A_k，其大部分元素必须为零，而非零元素应该属于空间上邻近的区域。通过强制执行以下稀疏度量来产生局部基：

其中‖·‖₁和‖·‖₂分别表示L1、L2范数，A_k越稀疏，ξ(A_k)值越大。通过预定义稀疏率S_A并强制在优化过程中所有基都遵循该比率以此获得稀疏的局部基，即ξ(A_k)＝S_A。

S34、学习局部静态基。当一个序列中没有表情变化时，就没有运动，相移φ_t为零。因此，模型必须能够从面部结构分析表情。这可以通过学习静态基来实现，就像学习动态基一样。动态基可以从相移φ_t中学习，而静态基可以从幅值中学习:ρ_t＝(ρ_t,1,ρ_t,2,…,ρ_t,D)，动态基与局部面部运动有关(例如抬起眉毛)，而静态基则描述在空间中局部的特定面部配置(例如抬高的眉毛)。具体步骤：

S341、学习一个能够表示任何面部配置生成的幅度模式ρ_t的生成线性模型。使用对数幅度，因为对数线性化了量级之间的相关性：

其中

是静态基数，v_t,k是静态系数，

是从正态分布得出的噪声项，即

S342、在学习过程中，施加与动态基相似的先验和约束。

先验P(v_t,k|v_t-1,k)与(5)相同但其参数不同；柯西分布的尺度、高斯函数的精度和正规化系数分别用λ_v、β_v和Z_v表示。

S35、将静态和动态基的学习公式化为以下优化问题：

给出相移数据集

和幅值数据集

动态和静态基数K_A和K_B，稀疏比S_A和S_B，找到满足以下条件的

和

流程如图3。

约束条件：

ξ(A_k)＝S_A ξ(B_k)＝S_B (10)

S4、利用所学习的基用于提取特征以识别序列I中的面部表情；特征用作从一组序列中训练的多类分类器的输入。

其中，步骤S4具体包括以下步骤：

S41、利用动态基A和静态基B，求出序列I的系数u和v：

S42、从动态系数u＝(u₁,u₂,…,u_T)和静态系数v＝(v₁,v₂,…,v_T)中提取特征，具体步骤：

S421、为了从动态系数u中提取特征，首先将系数随时间分成T_A切片

其中每个u^τ是一个包含

系数向量的集合，即：

然后为每个u^τ计算直方图：

其中hist(·)是计算其输入集的直方图的运算符，在实验中使用直方图池，然后再将为所有τ＝1,2,…,T_A和k＝1,2,…,K_A计算的直方图连接起来。串联直方图的长度为H_A×K_A×T_A。

S422、以类似的方式从静态系数v中提取特征，即通过将v随时间(v₁,v₂,…,v_TB)分成T_B切片。在这种情况下，使用均值和标准偏差池，它们的维度比直方图池的维数低，并且在实验中通常可以达到与直方图池相当的性能。静态特征的向量是通过将所有τ＝1,2,…,T_B和k＝1,2,…,K_B的池输出串联在一起而获得的，该向量的长度为2×K_B×T_B。

S43、最后，通过将动态系数和静态系数的合并输出串联起来，获得I的特征向量Φ，以此作为分类器的输入。

S5、使用多项式内核SVM，并且在测试时也使用该内核。具体实施方法：

SMIC中的基线方法采用多项式内核SVM，并在SMIC上进行了测试。本发明使用相同的内核参数，通过跨数据库验证学习SMIC上的C参数。

S6、在所有测试中均使用分类准确性作为评估指标，输出结果。具体实施方法：

作为评估指标，本发明在所有测试中均使用分类准确性：

其中|·|表示集合的基数，N是测试序列的数量，yⁿ和

分别是第n个序列的基本事实和预测。

综上所述，本实施例的方法相对于现有技术，具有如下有益效果：通过本实施例的设计，学习表示可以有效地识别各种强度范围内的面部表情，并且对帧速率几乎不敏感。重要的是，与其他学习的表示方式不同，在学习特征时，所提出的方法无需使用训练序列的表达标签即可达到最好的性能。

本实施例还提供一种基于局部基特征的微表情识别方法，包括：

数据获取模块，用于获取微表情视频；

本实施例的一种基于局部基特征的微表情识别系统，可执行本发明方法实施例所提供的一种基于局部基特征的微表情识别方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供一种基于局部基特征的微表情识别装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种基于局部基特征的微表情识别装置，可执行本发明方法实施例所提供的一种基于局部基特征的微表情识别方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于局部基特征的微表情识别方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。