CN111582212A

CN111582212A - 一种基于运动单元的多域融合微表情检测方法

Info

Publication number: CN111582212A
Application number: CN202010410345.XA
Authority: CN
Inventors: 贲晛烨; 李冰; 李玉军; 魏文辉; 王德强; 徐鹏
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-08-25
Anticipated expiration: 2040-05-15
Also published as: CN111582212B

Abstract

本发明涉及一种基于运动单元的多域融合微表情检测方法，包含：(1)对微表情视频进行预处理，包括获取视频帧序列、人脸检测与定位、人脸对齐；(2)对视频帧序列进行运动单元检测，获取视频帧序列的运动单元信息；(3)根据运动单元信息，通过半决策算法，找到包含微表情运动单元信息量ME最多的一个面部运动单元子块作为微表情检测区域，同时，通过设置动态阈值，提取微表情运动单元信息量ME的若干峰值帧作为微表情检测的参考高潮帧；(4)通过多域融合的微表情检测方法实现微表情的检测。本发明减少了冗余信息对微表情检测的影响，减少计算量，使微表情检测更具有综合判别力。计算速度快，微表情检测精度高。

Description

一种基于运动单元的多域融合微表情检测方法

技术领域

本发明涉及一种基于运动单元的多域融合微表情检测方法，属于模式识别技术领域。

背景技术

面部表情作为一种典型的非语言交流形式，在人类情感分析中发挥着重要的作用，在各个领域都得到了广泛的研究。其中，人们在一些情况下隐藏或抑制真实的面部表情，微表情会随之产生。微表情典型持续时间为0.065到0.5秒，是一种无意识的、快速的、局部的面部表情，并不像宏表情那样可以被人的思维刻意控制，通常可以揭示人想要隐藏的真实情感。微表情研究在犯罪检测、商业谈判等在各领域有着极大的应用价值和广阔的发展前景。

微表情检测的实质是在一段视频序列中，对其中的微表情起始帧到结束帧进行划分。其中，起始帧是微表情从中性表情开始发生变化的首帧，结束帧是微表情的最后一帧。在现实生活中，由于微表情强度低、持续时间短的特点，很难被肉眼识别，只有经过专门训练过的心理专家才能检测出微表情。但是，通过人工方式检测微表情，一方面准确率依然不高，另一方面耗时过长。随着计算机视觉和模式识别技术的飞速发展，基于计算机技术的微表情检测成为了重要研究课题。

近年来，微表情检测技术取得了很多成果。现有的微表情检测方法主要分为两类:光流特征方法和特征描述方法。

对于基于光流特征的方法，Shreve等人提出了一种两步法，利用光应变模式从人脸视频中分割时间表达式，计算人脸应变图和应变大小。设置应变幅值的全局阈值来区分宏、微表情。该方法在光照变化的条件下具有一定的稳定性。为了获得更好的表现，Shreve等人使用稳健的时空应变特征，消除头部运动和浓妆影响。Patel等人通过整合局部时空区域内的局部光流矢量定位起始和偏移帧，推进微表情区间定位的研究，利用运动特征和方向连续性进行自发微表情检测。

对于基于特征描述符的方法，Polikovsky等人提出了一种带有高速摄像机的3D梯度描述符。他们进一步介绍了一个新的实验装置，以更好地估计准确的位置和脸的方向。Moilanen等人使用局部二值模式(LBP)作为特征描述符，计算序列帧的卡方距离，同时提供面部运动的时空信息。Davison等人使用方向梯度直方图(HOG)作为特征描述符。此外，Yan等人提出了利用约束局部模型(CLM)和LBP特征对面部运动进行量化的初步研究，用于人脸检测和提取纹理信息。在他们的工作中，CLM是从常用的主动外观模型和主动形状模型中衍生出来的，并且可以通过LBP特征来定位峰值帧。在此基础上，Liong等人引入了一种二分搜索策略来更准确地定位峰值帧。

但是，这些方法依然存在一些缺点：往往仅考虑了面部图像中像素点的动态特征(比如光流特征)或仅考虑了纹理特征(比如LBP、HOG特征等)，但是这两种方式均存在局限性；特征运算复杂，计算速度相对较慢；微表情检测效果一般。

发明内容

针对现有技术的不足，本发明提出了一种基于运动单元的多域融合微表情检测方法。

发明概述：

一种基于运动单元的多域融合微表情检测方法。首先，对微表情视频进行预处理，得到包含微表情的视频帧序列。其次，提出一种微表情检测的半决策算法——微表情运动单元信息量(ME)，利用OpenFace提取其运动单元信息，找到包含微表情运动单元信息最多的一个面部运动单元子块作为后续微表情检测区域。同时，采用动态阈值，得到若干运动峰值帧作为微表情检测的参考高潮帧。最后，提出将光流特征和频域特征相结合，实现时空域和频域信息的融合，在其面部运动单元子块中进行微表情检测。

首先，本发明方法通过运动单元检测作为半决策条件，更加准确地定位出微表情出现的区域，极大的减少了微表情检测的计算量。其次，通过光流特征和频域特征相结合，实现了时空域与频域融合，去除头部运动、背景噪声和宏表情影响，更加全面和准确地进行了微表情的提取。除此之外，通过设置动态阈值，自适应视频帧序列的变化特征，更好地定位不同频帧序列中的微表情片段。该方法计算速度快，微表情检测精度高，是一种高鲁棒性的微表情检测方法。

术语解释：

1、Openface，Openface是一个面部行为分析工具包。该系统能够执行一系列面部分析任务:面部特征点检测，面部特征点和头部姿态跟踪，眼球注视跟踪和面部动作单元识别等。调用OpenFace工具包来实现人脸特征点检测和面部动作单元检测等。

2、Dlib库，Dlib是一个包含机器学习算法的C++开源工具包。它用于各种应用，包括机器人技术，嵌入式设备，移动电话和大型高性能计算环境。Openface是基于Dlib、OpenCV和深度卷积网络的开源应用。

3、面部动作编码系统，面部动作编码系统(FACS)是根据人的面部表情特征对人的面部动作进行分类的系统。单个面部肌肉的运动是由FACS从面部外观的微小瞬间变化中编码的。FACS几乎可以对任何解剖学上可能出现的面部表情进行编码，并将其解构为产生该表情的特定面部运动单元(AU)。使用FACS是一种描述面部表情的普遍标准。

4、运动单元，运动单元(AU)是由FACS定义，用来描述不同的面部肌肉动作的变化的。虽然人类的表情十分丰富，但结合不同的AU可以描述绝大多数复杂的人脸表情。OpenFace能够识别FACS中常见的部分面部运动单元，如图2所示。

5、人脸68个关键特征点，常用的人脸库会提供人脸68个关键特征点，特征点主要分布在眉毛，眼睛，鼻子，嘴巴以及面部轮廓区域，如图3所示，其中，特征点37(左眼左眼角)和特征点46(右眼右眼角)用于人脸对齐。

本发明的技术方案如下：

一种基于运动单元的多域融合的微表情检测方法，包含步骤如下：

(1)对微表情视频进行预处理，包括获取视频帧序列、人脸检测与定位、人脸对齐；

(2)利用OpenFace对经过预处理后获取的视频帧序列进行运动单元检测，获取视频帧序列的运动单元信息；

(3)根据运动单元信息，通过半决策算法，找到包含微表情运动单元信息量ME最多的一个面部运动单元子块作为微表情检测区域，同时，通过设置动态阈值，提取微表情运动单元信息量ME的若干峰值帧作为微表情检测的参考高潮帧；为后续微表情检测提供参考。

(4)通过多域融合的微表情检测方法实现微表情的检测，包括：

首先，在时空域中，提取视频帧序列中面部运动单元子块的光流特征，得到其光流模值和光流角度；

其次，利用三维快速傅里叶变换(3DFFT)，提取视频帧序列的频域特征，得到频域幅值变化信息；

最后，将光流模值和归一化的频域幅值相加，辅以光流角度，在极坐标系下，通过动态阈值初步定位其面部运动单元子块下微表情的起始帧和终止帧；同时，根据步骤(3)中的参考高潮帧对起始帧和终止帧进行判断，若起始帧和终止帧中包含该参考高潮帧，且长度符合微表情长度，则为一段检测出的微表情序列，否则，不为微表情序列。

根据本发明优选的，步骤(1)中，对微表情视频进行预处理，包括步骤如下：

A、获取视频帧：对包含微表情的视频进行分帧处理，得到视频帧序列并存储；

B、人脸检测与定位：利用Dlib视觉库对视频帧序列进行人脸检测和定位，给出所检测的视频帧中人脸数目和人脸距图像边界距离；

C、人脸对齐：人脸对齐是在人脸定位的基础之上，利用Dlib视觉库确定面部68个关键特征点，完成人脸分割并实现人脸矫正，是指：Dlib视觉库使用矩形框分割人脸，同时检测出面部68个关键特征点，特征点37(左眼左眼角)和特征点46(右眼右眼角)的连线与水平线存在角度a，通过该角度a得到对应的旋转矩阵，对分割出的人脸进行旋转变换，使特征点37和特征点46的连线与水平线平行，实现人脸姿态的矫正；同时，将人脸进行缩放，得到255*255分辨率的视频帧。人脸对齐的结果如图3所示。

根据本发明优选的，步骤(2)中，对预处理后的视频帧序列进行微表情运动单元信息的提取，包括步骤如下：

选取OpenFace中17个运动单元作为微表情检测所关注的运动单元信息，这些运动单元是人脸表情发生过程中经常出现的，包括前眉升起AU1、外眉上挑AU2、眉毛下压AU4、上眼皮上升AU5、脸颊上扬AU6、眼睑收紧AU7、眼睑收紧AU9、嘴唇上升AU10、嘴角拉伸AU12、嘴角收紧AU14、嘴角下压AU15、下巴上扬AU17、嘴唇拉伸嘴角向下AU20、双唇收紧AU23、双唇分开AU25、下颚下降AU26和抿嘴AU28；绝大部分微表情都可以通过这些运动单元及其组合反映。

将视频帧序列的每一帧与其前一帧进行对比，提取每一个运动单元是否存在的二进制编码；是指：对于AU来说，AU是指AU1、AU2、AU4、AU5、AU6、AU7、AU9、AU10、AU12、AU14、AU15、AU17、AU20、AU23、AU25、AU26和AU28中的任一种，若视频帧序列第i+1帧与第i帧之间存在对应的运动，则AU_i＝1，否则AU_i＝0，例如，对于AU1来说，若视频帧序列第i+1帧与第i帧之间存在前眉升起这一运动，则AU1_i＝1，否则AU1_i＝0。因此，每一个运动单元得到N-1维二进制的运动单元信息编码，N为视频帧序列长度，如图4(a)所示。平滑后得到0到1范围内的连续值。如图4(b)所示。每一帧与其前一帧进行AU识别并平滑，可以最大程度消除头部累积运动和噪声对运动单元信息的影响。

根据本发明优选的，步骤(3)中，对于17个运动单元及其对应的N-1维二进制的运动单元信息编码，提取微表情运动单元信息量ME_AU，包括步骤如下：

定义当前帧为CF，使用W个帧间隔对CF进行分析，W为奇数且W小于最短微表情帧数，尾帧TF是CF之前的第k个帧，头帧HF是CF之后的第k个帧，

对于CF所在窗，基于随机变量所包含的信息量的思想，定义CF的某一AU的微表情运动单元信息量如式(I)所示：

式(I)中，n为其运动单元信息即N-1维二进制的运动单元信息编码在CF所在窗中连续非0子序列的个数，l_i为第i个连续非0子序列的长度，

为第i个连续非0子序列中，子序列各个位置上的值的总和；ME_AU在时间轴上位于视频帧序列中与当前帧CF相同的位置，其强调了CF所在窗中连续非0序列所产生的微表情信息量，连续非0序列越长，所包含的微表情信息量越高。因此，ME_AU将OpenFace得到的基础运动单元信息转化为对微表情敏感的微表情运动单元信息，如图5所示。

对视频帧序列开头第k帧至结尾前k帧的每帧提取微表情运动单元信息量ME_AU，重复以上操作，由于一般情况下，视频片段的开头和结尾不会有微表情出现，因此，视频帧序列前k帧及视频帧序列后k帧的微表情运动单元信息量记为0。

根据本发明优选的，步骤(3)中，为了将微表情和动作时长更大的宏表情区分开来，同时，消除的头部累积运动和长噪声对视频帧序列的影响，对ME_AU进行进一步优化。若微表情运动单元信息量ME_AU在连续L帧的值都为

L为0.5-0.8倍视频帧率，则在这L帧中，OpenFace都能识别到这一AU，但该运动理论上已经不能反应微表情的出现，因此，则将这连续L帧的微表情运动单元信息量ME_AU设置为0；

将视频帧序列17个运动单元的微表情运动单元信息量ME_AU相加，得到该视频帧序列的总微表情运动单元信息量ME。ME代表了该视频帧序列中，面部总体的微表情运动情况。

根据本发明优选的，步骤(3)中，通过设置动态阈值β，提取微表情运动单元信息量ME的若干峰值帧作为微表情检测的参考高潮帧，为后续微表情检测提供参考，动态阈值β的设置如式(Ⅱ)所示：

式(Ⅱ)中，

ME_i为总微表情运动单元信息量ME的第i帧的值；β反映各帧与其均值的离散程度，ME_i偏离程度越大，视频帧序列波动越大，对应的β越大，呈现了对不同的视频帧序列的动态适应性。换言之，若一段视频帧序列中，微表情运动时间极短、动作极小，则微表情检测更加积极敏感，反之，检测条件可以适当放宽。参考高潮帧即为大于β的峰值帧，如图6所示。该样本检测出的参考高潮帧为第136帧，和实际人工标注的第139帧非常接近，为后续的微表情检测提供良好的判断依据。

根据本发明优选的，步骤(3)中，综合欧几里德距离和皮尔森相关系数，对视频帧序列17个运动单元的微表情运动单元信息量ME_AU和微表情总运动单元信息量ME分别进行比较，找出与ME最为相似的ME_AU，该AU作为面部微表情主运动单元，反映出当前视频帧序列最主要的微表情运动动作。相似度计算如式(Ⅲ)所示：

S＝d(ME_AU,ME)+cor(ME_AU,ME) (Ⅲ)

其中，

式(Ⅲ)中，S为每一个微表情运动单元信息量ME_AU与总体微表情运动单元信息量ME的相似度，d(ME_AU,ME)为ME_AU和ME的欧几里德距离，cor(ME_AU,ME)为ME_AU和ME的皮尔森系数；

基于欧几里德距离的相似度d(x,y)表示两个时间序列之间的距离，d(x,y)越接近1，时间序列对应的欧几里德距离越小，序列值越相似。基于相关性的相似度计算方法使用了皮尔森系数cor(x,y)，反应时间序列的线性相关程度，cor(x,y)越接近1，时间序列的线性相关性越强。

综合欧几里德距离的量纲相似度和皮尔森系数的趋势相似度，S越大，ME_AU时间序列与ME时间序列在数值上越类似，同时，在时间趋势上越呈现出一致性，该AU越可能成为面部最主要的微表情运动。找出对应S最大的ME_AU，其AU作为面部微表情主运动单元，对应的面部运动单元子块为后续微表情检测区域，面部运动单元子块的划分如下：根据AU和人脸关键特征点的具体位置，对17个AU划分对应的5个面部运动单元子块，包括面部运动单元子块1、面部运动单元子块2、面部运动单元子块3、面部运动单元子块4、面部运动单元子块5；AU1，AU2和AU4对应面部运动单元子块1，AU5，AU6和AU7对应面部运动单元子块2，AU9对应面部运动单元子块3，AU10，AU12，AU14，AU15，AU17和AU20对应面部运动单元子块4，AU23，AU25，AU26和AU28对应面部运动单元子块5。面部最主要的微表情运动属于哪一面部运动单元子块，后续仅对该子块进行进一步检测。

所有面部运动单元子块的划分如图7所示，划分具体依据的是AU和68个人脸特征点的对应关系，以对应特征点的坐标位置为基准划入若干像素。例如，面部运动单元子块1以右侧眉毛的特征点23、26、27为基础点，以特征点23为面部运动单元子块的左下角，特征点23的水平轴至特征点26的水平轴为宽，特征点26的垂直轴至特征点27的垂直轴为长。

步骤(4)中，在面部运动单元子块中通过多域融合进行微表情的检测，包括步骤如下：

光流是空间运动物体映射到成像平面后，对应像素运动的速度，是一种典型的时空域运动特征。光流法是利用视频帧序列中像素在时间域上的变化和相邻帧之间的相关性，找到当前帧与基础帧(这里选择视频帧序列的第一帧)存在的对应关系，从而计算出物体的运动信息的一种方法。应用光流法追踪检测区域特征点需要满足一些前提条件：用于运算的相邻帧之间亮度恒定、物体的运动幅度不能过大，连续提取视频帧，保持空间的一致性。

根据本发明优选的，步骤(4)中，在时空域中，提取视频帧序列中面部运动单元子块的光流特征，得到其光流模值和光流角度，包括步骤如下：

视频帧序列的目标像素点在基础帧的位置时间坐标为(x,y,t)，x,y,t分别指目标像素点在视频帧序列中的横坐标、纵坐标和当前所在帧；对应当前帧的坐标为(x+Δx,y+Δy,t+Δt)，Δx、Δy为像素点在Δt时间段中所运动的坐标距离，根据灰度守恒原理，如式(Ⅳ)所示：

I(x,y,t)＝I(x+Δx,y+Δy,t+Δt) (Ⅳ)

式(Ⅳ)中，I(x,y,t)为t时刻坐标像素点(x,y)的瞬时灰度值；

将式(Ⅳ)等号右边进行泰勒展开，得到式(Ⅴ)：

式(Ⅴ)中，ε表示高阶无穷小，通常忽略其作用。结合式(Ⅳ)、(Ⅴ)并去除高阶无穷小量，得到式(Ⅵ)：

也就是：

为叙述简洁，令

得到式(VIII)：

I_xp_x+I_yq_y+I_t＝0 (VIII)

式(VIII)中，p_x和q_y为光流矢量在二维平面水平与垂直两个方向上的分量，在t时刻，光流矢量表示为二维向量

由于约束方程(VII)对应两个未知量，无法求得p_x和q_y的确切值，此时需要引入另外的约束条件。根据Hom-Schunck提出的全局方法估计图像光流场的算法，在光流基本约束方程的基础上加以全局平滑约束，要求公式(VIII)的光流场尽量小，如式(IX)所示：

min∫∫(I_xp_x+I_yq_y+I_t)²dxdy (IX)

式(IX)中，λ为约束参数，当噪声较多时，数据的可信度对光滑约束条件的依赖更强，此时λ取值较小。接下来，对光流场进行各向全局平滑约束，如式(X)所示：

将式(X)简化，如式(XI)所示：

min{∫∫F(p，q，p_x，p_y，q_x，q_y)dxdy} (XI)

对应的欧拉方程如式(XII)所示：

将(XI)代入(XII)，如式(XIII)所示：

这便是光流法的基本原理。

基于所得到的光流矢量的水平分量

阳垂直分量

计算视频帧序列中，每一帧的运动单元子块的光流模值FL_i，如式(XIV)所示：

式(XIV)中，i表示视频帧序列t时刻所对应的第i帧，

分别为第i帧光流矢量的水平分量和垂直分量，FL_i定义第i帧光流矢量的模值。

光流角度θ_i利用反三角函数的得到，如式(XV)所示：

式(XV)中，θ_i由上到下依次表示光流矢量在第一、二、三和四象限中，第i帧光流角度的计算方法。

根据本发明优选的，步骤(4)中，提取面部运动单元子块的频域特征，包括步骤如下：

由于微表情强度低、持续时间短，空间显著性较弱，对于一些时域和空间上运动幅度过小的微表情，光流的幅值变化并不是很明显。众所周知，傅里叶变换可以将信号分解成不同的频率，其中高频可以描述信号的快速变化。对于图片，像素点的灰度纹理变化对应于频域的跳频。因此，分析视频帧序列在频域内的信号变化来检测纹理变化是可行的。

由于图像频率对光照变化敏感，采用对光照不敏感的局部二值模式LBP计算灰度纹理图，如图8(a)所示，利用三维快速傅里叶变换3DFFT将灰度纹理图序列变换为频域信号；是指：利用带滑动时间窗口的三维FFT将面部运动单元子块的灰度纹理图序列转换成频域信号，通过在当前帧CF使用窗长D的滑动窗口，计算位于滑动窗口中的帧的3DFFT，对于第i个窗口，3DFFT定义如式(XVI)所示：

式(XVI)中，(x，y，z)表示灰度纹理图中点(u，v，m)所对应的频域位置，f_i(x，y，z)为第i个窗口中，点(x，y，z)的3DFFT值，L₁代表面部运动单元子块长度，L₂代表面部运动单元子块的宽度，F_i(u，v，m)为点(u，v，m)的LBP；

在含有微表情的视频帧序列中，大部分能量属于低频，对于微表情的检测是无用的，实际应用的目标是找出包含更多高频信息的帧间隔。因此，使用高频边带滤波器(HBF)去除低频，减少不变像素的影响。定义高频滤波器如式(XVII)所示，D₀为阈值：

式(XVII)中，H_i(x，y，z)为第i个窗口中，点(x，y，z)对应的高频边带滤波器的值，阈值D₀为3至12内的整数；

在频域中，通过HBF对f_i(x，y，z)进行滤波，如式(XVIII)所示：

G_i(x，y，z)＝f_i(x，y，z)×H_i(x，y，z) (XVIII)

式(XVIII)中，G_i(x，y，z)指第i窗口的频率幅值；

将G_i(x，y，z)按式(XIX)进行累加：

式(XIX)中，REL(.)为取得该数值的实数部分，FA_i是第i个视频帧序列子块的频率幅值，代表了面部纹理变化的强度。为了更好地对应视频帧序列以及后续与光流相结合，D设置为2；

得到所有视频帧序列的频率幅值，归一化FA_i至[0，1]区间，此时，FA_i为视频帧序列面部运动单元子块所得到的频率振幅，即频域幅值变化信息。如图8(b)所示。

根据本发明优选的，步骤(4)中，将光流模值和归一化的频域幅值相加，通过光流特征和频域特征融合的多域融合微表情检测方法，实现微表情的检测，包括步骤如下：

光流模值反映了时空域上的运动信息，但是由于微表情运动幅度小，加之噪声干扰，在面部运动过小时，光流模值变化很小，其幅值不能精确反应面部运动状况。而3DFFT在频域上对视频帧序列提取三维幅值信息，反映其纹理变化，弥补了时空域上光流的运动变化不明显所造成的影响。针对光流模值和频率幅值的特点，将平滑后的光流模值FL_i和归一化后的频率幅值FA_i相加，得到多域融合模值A_i，如式(XX)所示：

A_i＝FL_i+λFA_i (XX)

式(XX)中，λ为根据视频帧分辨率设置的参数。

根据本发明优选的，步骤(4)中，基于光流特征和频域特征，判断面部运动单元子块下微表情的起始帧和终止帧，包括步骤如下：

根据微表情样本的多域融合模值信息与光流角度信息的特点，将多域融合模值和平滑后的光流角度对应到极坐标中，如式(XXI)所示：

式(XXI)中，a_i和b_i为多域融合特征的x分量和y分量，转化到极坐标系可以更直观的判断微表情片段的特点。发生微表情时，光流角度不会发生大的跳变，数据保持基本恒定，在极坐标系下，微表情帧集中在一条直线附近。多域融合模值是每一帧的光流模值和频域振幅的累加，微表情发生时，其大小随帧数先增大到峰值然后降低，在极坐标系下，微表情帧离开原点的距离先增大后降低。离原点最远的帧为最大高潮帧，根据最大高潮帧的模值设定微表情的阈值，找到可能存在的微表情片段及其起始帧和终止帧。

基于微表情特点，微表情序列相邻两帧的光流角度之差应小于阈值α，融合模值随视频帧先增大后减小，并大于设定所检测视频帧片段的动态阈值β，如式(XXII)所示：

综合式(XXII)、步骤(3)所得的参考高潮帧和微表情特点，如果一段视频帧序列的第i帧到第i+n帧满足条件a至条件e：

a、第i帧到第i+n帧为连续不间断视频帧序列；

b、视频帧序列的模值均大于动态阈值β；

c、视频帧序列中，前后帧之间的角度差均小于α；

d、n不小于最小微表情帧数，且不大于最大微表情帧数；

e、第i帧到第i+n帧中包含参考高潮帧；

则判定该段视频帧片段为一段微表情帧序列，微表情帧序列的起始帧为第i帧，终止帧为第i+n帧，否则，该段视频帧片段不为微表情序列。

本发明的有益效果为：

相比于已有的微表情检测方法，本发明提供的方法提取了人脸的运动单元信息，通过运动单元检测作为半决策条件，划分出面部运动单元子块，更加准确地定位出微表情出现的区域，极大地降低了头部运动、背景噪声和宏表情的影响，减少了冗余信息对微表情检测的影响，减少计算量；通过光流特征和频域特征相结合，实现了时空域、频域信息的融合，使微表情检测更具有综合判别力。计算速度快，微表情检测精度高，是一种高鲁棒性的微表情检测方法。

附图说明

图1为本发明基于运动单元的多域融合的微表情检测方法的流程示意图；

图2(a)为使用的面部运动单元前眉升起AU1示意图；

图2(b)为使用的面部运动单元外眉上挑AU2示意图；

图2(c)为使用的面部运动单元眉毛下压AU4示意图；

图2(d)为使用的面部运动单元上眼皮上升AU5示意图；

图2(e)为使用的面部运动单元脸颊上扬AU6示意图；

图2(f)为使用的面部运动单元眼睑收紧AU7示意图；

图2(g)为使用的面部运动单元眼睑收紧AU9示意图；

图2(h)为使用的面部运动单元嘴唇上升AU10示意图；

图2(i)为使用的面部运动单元嘴角拉伸AU12示意图；

图2(j)为使用的面部运动单元嘴角收紧AU14示意图；

图2(k)为使用的面部运动单元嘴角下压AU15示意图；

图2(l)为使用的面部运动单元下巴上扬AU17示意图；

图2(m)为使用的面部运动单元嘴唇拉伸嘴角向下AU20示意图；

图2(n)为使用的面部运动单元双唇收紧AU23示意图；

图2(o)为使用的面部运动单元双唇分开AU25示意图；

图2(p)为使用的面部运动单元下颚下降AU26示意图；

图2(q)为使用的面部运动单元抿嘴AU28示意图；

图3为人脸对齐示意图；

图4(a)为OpenFace提取的AU示意图；

图4(b)为平滑后的AU示意图；

图5为微表情运动单元信息示意图；

图6为总微表情运动单元信息、动态阈值及其参考高潮帧示意图；

图7为运动单元子块划分示意图；

图8(a)为频域变换所基于的LBP纹理图示意图；

图8(b)为3DFFT频域振幅示意图；

图9为利用本发明所述方法的微表情检测结果示意图；

图10为ROC曲线图。

具体实施方式

下面结合说明书附图和实施例对本发明做进一步限定，但不限于此。

实施例

一种基于运动单元的多域融合的微表情检测方法，如图1所示，包含步骤如下：

(1)对微表情视频进行预处理，包括获取视频帧序列、人脸检测与定位、人脸对齐；包括步骤如下：

(2)利用OpenFace对经过预处理后获取的视频帧序列进行运动单元检测，获取视频帧序列的运动单元信息；包括步骤如下：

选取OpenFace中17个运动单元作为微表情检测所关注的运动单元信息，这些运动单元是人脸表情发生过程中经常出现的，包括前眉升起AU1(如图2(a)所示)、外眉上挑AU2(如图2(b)所示)、眉毛下压AU4(如图2(c)所示)、上眼皮上升AU5(如图2(d)所示)、脸颊上扬AU6(如图2(e)所示)、眼睑收紧AU7(如图2(f)所示)、眼睑收紧AU9(如图2(g)所示)、嘴唇上升AU10(如图2(h)所示)、嘴角拉伸AU12(如图2(i)所示)、嘴角收紧AU14(如图2(j)所示)、嘴角下压AU15(如图2(k)所示)、下巴上扬AU17(如图2(l)所示)、嘴唇拉伸嘴角向下AU20(如图2(m)所示)、双唇收紧AU23(如图2(n)所示)、双唇分开AU25(如图2(o)所示)、下颚下降AU26(如图2(p)所示)和抿嘴AU28(如图2(q)所示)；绝大部分微表情都可以通过这些运动单元及其组合反映。

将视频帧序列的每一帧与其前一帧进行对比，提取每一个运动单元是否存在的二进制编码；是指：对于AU来说，AU是指AU1、AU2、AU4、AU5、AU6、AU7、AU9、AU10、AU12、AU14、AU15、AU17、AU20、AU23、AU25、AU26和AU28中的任一种，若视频帧序列第i+1帧与第i帧之间存在对应的运动，则AU_i＝1，否则AU_i＝0，例如，对于AU1来说，若视频帧序列第i+1帧与第i帧之间存在前眉升起这一运动，则AU1_i＝1，否则AU1_i＝0。因此，每一个运动单元得到N-1维二进制的运动单元信息编码，N为视频帧序列长度，如图4(a)所示。平滑后得到0到1范围内的连续值，如图4(b)所示。每一帧与其前一帧进行AU识别并平滑，可以最大程度消除头部累积运动和噪声对运动单元信息的影响。

(3)根据运动单元信息，通过半决策算法，找到包含微表情运动单元信息量ME最多的一个面部运动单元子块作为微表情检测区域，同时，通过设置动态阈值，提取微表情运动单元信息量ME的若干峰值帧作为微表情检测的参考高潮帧；为后续微表情检测提供参考。包括步骤如下：

为了将微表情和动作时长更大的宏表情区分开来，同时，消除的头部累积运动和长噪声对视频帧序列的影响，对ME_AU进行进一步优化。若微表情运动单元信息量ME_AU在连续L帧的值都为

通过设置动态阈值β，提取微表情运动单元信息量ME的若干峰值帧作为微表情检测的参考高潮帧，为后续微表情检测提供参考，动态阈值β的设置如式(II)所示：

式(II)中，

MEi为总微表情运动单元信息量ME的第i帧的值；β反映各帧与其均值的离散程度，ME_i偏离程度越大，视频帧序列波动越大，对应的β越大，呈现了对不同的视频帧序列的动态适应性。换言之，若一段视频帧序列中，微表情运动时间极短、动作极小，则微表情检测更加积极敏感，反之，检测条件可以适当放宽。参考高潮帧即为大于β的峰值帧，如图6所示。该样本检测出的参考高潮帧为第136帧，和实际人工标注的第139帧非常接近，为后续的微表情检测提供良好的判断依据。

综合欧几里德距离和皮尔森相关系数，对视频帧序列17个运动单元的微表情运动单元信息量ME_AU和微表情总运动单元信息量ME分别进行比较，找出与ME最为相似的ME_AU，该AU作为面部微表情主运动单元，反映出当前视频帧序列最主要的微表情运动动作。相似度计算如式(III)所示：

S＝d(ME_AU，ME)+cor(ME_AU，ME) (III)

其中，

式(III)中，S为每一个微表情运动单元信息量ME_AU与总体微表情运动单元信息量ME的相似度，d(ME_AU，ME)为ME_AU和ME的欧几里德距离，cor(ME_AU，ME)为ME_AU和ME的皮尔森系数；

基于欧几里德距离的相似度d(x，y)表示两个时间序列之间的距离，d(x，y)越接近1，时间序列对应的欧几里德距离越小，序列值越相似。基于相关性的相似度计算方法使用了皮尔森系数cor(x，y)，反应时间序列的线性相关程度，cor(x，y)越接近1，时间序列的线性相关性越强。

首先，在时空域中，提取视频帧序列中面部运动单元子块的光流特征，得到其光流模值和光流角度；包括步骤如下：

视频帧序列的目标像素点在基础帧的位置时间坐标为(x，y，t)，x，y，t分别指目标像素点在视频帧序列中的横坐标、纵坐标和当前所在帧；对应当前帧的坐标为(x+Δx，y+Δy，t+Δt)，Δx、Δy为像素点在Δt时间段中所运动的坐标距离，根据灰度守恒原理，如式(IV)所示：

，(x，y，t)＝I(x+Δx，y+Δy，t+Δt) (IV)

式(IV)中，，(x，y，t)为t时刻坐标像素点(x，y)的瞬时灰度值；

将式(IV)等号右边进行泰勒展开，得到式(V)：

式(V)中，ε表示高阶无穷小，通常忽略其作用。结合式(IV)、(V)并去除高阶无穷小量，得到式(VI)：

也就是：

为叙述简洁，令

得到式(VIII)：

I_xp_x+I_yq_y+I_t＝0 (VIII)

由于约束方程(VII)对应两个未知量，无法求得p_x和q_y的确切值，此时需要引入另外的约束条件。根据Horn-Schunck提出的全局方法估计图像光流场的算法，在光流基本约束方程的基础上加以全局平滑约束，要求公式(VIII)的光流场尽量小，如式(IX)所示：

min∫∫(I_xp_x+I_yq_y+I_t)²dxdy (IX)

将式(X)简化，如式(XI)所示：

min{∫∫F(p，q，p_x，p_y，q_x，q_y)dxdy} (XI)

对应的欧拉方程如式(XII)所示：

将(XI)代入(XII)，如式(XIII)所示：

这便是光流法的基本原理。

基于所得到的光流矢量的水平分量

阳垂直分量

式(XIV)中，i表示视频帧序列t时刻所对应的第i帧，

光流角度θ_i利用反三角函数的得到，如式(XV)所示：

其次，利用三维快速傅里叶变换(3DFFT)，提取视频帧序列的频域特征，得到频域幅值变化信息；包括步骤如下：

在频域中，通过HBF对f_i(x，y，z)进行滤波，如式(XVIII)所示：

G_i(x，y，z)＝f_i(x，y，z)×H_i(x，y，z) (XVIII)

式(XVIII)中，G_i(x，y，z)指第i窗口的频率幅值；

将G_i(x，y，z)按式(XIX)进行累加：

最后，将光流模值和归一化的频域幅值相加，辅以光流角度，在极坐标系下，通过动态阈值初步定位其面部运动单元子块下微表情的起始帧和终止帧；同时，根据步骤(3)中的参考高潮帧对起始帧和终止帧进行判断，若起始帧和终止帧中包含该参考高潮帧，且长度符合微表情长度，则为一段检测出的微表情序列，否则，不为微表情序列。包括步骤如下：

A_i＝FL_i+λFA_i (XX)

式(XX)中，λ为根据视频帧分辨率设置的参数。

a、第i帧到第i+n帧为连续不间断视频帧序列；

b、视频帧序列的模值均大于动态阈值β；

c、视频帧序列中，前后帧之间的角度差均小于α；

d、n不小于最小微表情帧数，且不大于最大微表情帧数；

e、第i帧到第i+n帧中包含参考高潮帧；

假设人工编码的起始帧和结束帧分别表示为第onset帧和第offset帧，若检测出的微表情片段在[onset-(FR-1)/4，offset+(FR-1)/4]范围中，则微表情检测满足容错条件，微表情检测成功。对于CASME II微表情数据库，FR一般设置为65帧。

图9为实施例1的微表情检测结果，检测出该样本的微表情片段为第131-163帧，其动态阈值为12，该视频帧序列的第131-163帧超出了动态阈值范围，幅度沿半径方向先变大后变小，角度基本恒定，且包含上文所检测出的参考高潮帧第136帧，同时，满足微表情长度条件。因此第131-163帧为一段微表情片段。通过查阅人工编码，该样本标注的微表情帧是第131-161，满足微表情检测的容错条件，因此，能够实现正确检测。

本实施例对中国科学院心理研究所的傅小兰团队发布的CASME II微表情数据库的原始视频进行微表情检测。具体如下：对每一个包含微表情的原始视频进行预处理，得到对齐后的视频帧序列；利用微表情半决策算法，对视频帧序列进行AU检测，获得面部运动单元子块和参考高潮帧；对面部运动单元子块提取光流特征和频域特征，结合两种特征进行微表情片段的检测。

CASME II微表情数据库共255个含有微表情的视频样本，帧率为200fps。根据数据库和微表情本身的特点，设置最小微表情帧数为11帧，最大微表情帧数为150帧，角度差α＝3，λ＝1，FR＝65，HBF阈值D₀＝6。LBP纹理图采用圆形LBP模式，LBP半径为4，采样点为16。对于幅值等变量的平滑采用局部范围为10的局部回归平滑。

为了进行综合性能评估，将检测的微表情片段和人工标注的结果进行对比，作出ROC曲线。ROC曲线的真正例率TPR和假正例率FPR定义为如式(XXIII)、式(XXIV)所示：：

为检测出视频帧序列第i帧的标签，

为人工编码的第i帧的标签，

为序列按位取反。视频帧序列的标签为二进制变量，若该帧检测为微表情，则

否则为0。人工编码同理。

本实施例使用CASME II所有的255个样本，验证半决策算法、动态阈值和多域融合的有效性。对比试验设置为：未经过半决策算法的固定阈值3DFFT特征、固定阈值光流特征和动态阈值光流特征，以及经过半决策算法的动态阈值光流特征。在固定阈值的对比试验中，阈值设置为0.6倍最大幅值。未经过半决策算法时，视频帧序列的微表情检测区域为本实施例五个面部运动单元子块，微表情检测的结果为五块区域的微表情标签的并。对比试验的其余参数皆与本实施例一致。

图10为ROC曲线图。表1列出了这几种方法的AUC(AUC为ROC曲线下与坐标轴围成的面积)。

表1

根据检测结果和对应的ROC数据，未使用微表情半决策算法的结果普遍低于使用了半决策算法的结果，这是因为微表情运动范围极小，通过半决策算法，能够直接得出其主要面部运动子块，减少其他区域对于微表情检测的影响，并在半决策算法中进行了一定程度的宏表情、头部运动和噪声干扰的抑制，使微表情检测更有鲁棒性。同时，使用了动态阈值的检测效果优于固定阈值，这是因为动态阈值自适应微表情视频，若视频中微表情运动时间很短、幅值很小，则微表情检测更加积极敏感，反之微表情检测条件可以适当放宽。除此之外，频域上的3DFFT特征进行微表情检测的效果并不尽如人意，这是因为频域特征只关注了纹理变化，丢失了微表情重要的运动信息。对于时空域，光流特征作为一种运动特征，丢失了视频帧序列的纹理灰度信息，并且对于一些运动极小的微表情检测存在一定的局限。综合这两种特征所提出的多域融合微表情检测得到了较高的检测结果。

Claims

1.一种基于运动单元的多域融合的微表情检测方法，其特征在于，包括步骤如下：

(3)根据运动单元信息，通过半决策算法，找到包含微表情运动单元信息量ME最多的一个面部运动单元子块作为微表情检测区域，同时，通过设置动态阈值，提取微表情运动单元信息量ME的若干峰值帧作为微表情检测的参考高潮帧；

其次，利用三维快速傅里叶变换，提取视频帧序列的频域特征，得到频域幅值变化信息；

2.根据权利要求1所述的一种基于运动单元的多域融合的微表情检测方法，其特征在于，步骤(1)中，对微表情视频进行预处理，包括步骤如下：

C、人脸对齐：利用Dlib视觉库确定面部68个关键特征点，完成人脸分割并实现人脸矫正，是指：Dlib视觉库使用矩形框分割人脸，同时检测出面部68个关键特征点，特征点37和特征点46的连线与水平线存在角度a，通过该角度a得到对应的旋转矩阵，对分割出的人脸进行旋转变换，使特征点37和特征点46的连线与水平线平行，实现人脸姿态的矫正；同时，将人脸进行缩放，得到255*255分辨率的视频帧。

3.根据权利要求1所述的一种基于运动单元的多域融合的微表情检测方法，其特征在于，步骤(2)中，对预处理后的视频帧序列进行微表情运动单元信息的提取，包括步骤如下：

选取OpenFace中17个运动单元作为微表情检测所关注的运动单元信息，包括前眉升起AU1、外眉上挑AU2、眉毛下压AU4、上眼皮上升AU5、脸颊上扬AU6、眼睑收紧AU7、眼睑收紧AU9、嘴唇上升AU10、嘴角拉伸AU12、嘴角收紧AU14、嘴角下压AU15、下巴上扬AU17、嘴唇拉伸嘴角向下AU20、双唇收紧AU23、双唇分开AU25、下颚下降AU26和抿嘴AU28；

将视频帧序列的每一帧与其前一帧进行对比，提取每一个运动单元是否存在的二进制编码；是指：对于AU来说，AU是指AU1、AU2、AU4、AU5、AU6、AU7、AU9、AU10、AU12、AU14、AU15、AU17、AU20、AU23、AU25、AU26和AU28中的任一种，若视频帧序列第i+1帧与第i帧之间存在对应的运动，则AU_i＝1，否则AU_i＝0，因此，每一个运动单元得到N-1维二进制的运动单元信息编码，N为视频帧序列长度，平滑后得到0到1范围内的连续值。

4.根据权利要求3所述的一种基于运动单元的多域融合的微表情检测方法，其特征在于，步骤(3)中，对于17个运动单元及其对应的N-1维二进制的运动单元信息编码，提取微表情运动单元信息量ME_AU，包括步骤如下：

对于CF所在窗，定义CF的某一AU的微表情运动单元信息量如式(I)所示：

为第i个连续非0子序列中，子序列各个位置上的值的总和；

对视频帧序列开头第k帧至结尾前k帧的每帧提取微表情运动单元信息量ME_AU，视频帧序列前k帧及视频帧序列后k帧的微表情运动单元信息量记为0。

5.根据权利要求1所述的一种基于运动单元的多域融合的微表情检测方法，其特征在于，步骤(3)中，若微表情运动单元信息量ME_AU在连续L帧的值都为

L为0.5-0.8倍视频帧率，则将这连续L帧的微表情运动单元信息量ME_AU设置为0；

将视频帧序列17个运动单元的微表情运动单元信息量ME_AU相加，得到该视频帧序列的总微表情运动单元信息量ME；

步骤(3)中，通过设置动态阈值β，提取微表情运动单元信息量ME的若干峰值帧作为微表情检测的参考高潮帧，动态阈值β的设置如式(II)所示：

式(II)中，

MEi为总微表情运动单元信息量ME的第i帧的值。

6.根据权利要求5所述的一种基于运动单元的多域融合的微表情检测方法，其特征在于，步骤(3)中，综合欧几里德距离和皮尔森相关系数，对视频帧序列17个运动单元的微表情运动单元信息量ME_AU和微表情总运动单元信息量ME分别进行比较，找出与ME最为相似的ME_AU，该AU作为面部微表情主运动单元，相似度计算如式(III)所示：

S＝d(ME_AU，ME)+cor(ME_AU，ME) (III)

找出对应S最大的ME_AU，其AU作为面部微表情主运动单元，对应的面部运动单元子块为后续微表情检测区域，面部运动单元子块的划分如下：根据AU和人脸关键特征点的具体位置，对17个AU划分对应的5个面部运动单元子块，包括面部运动单元子块1、面部运动单元子块2、面部运动单元子块3、面部运动单元子块4、面部运动单元子块5；AU1，AU2和AU4对应面部运动单元子块1，AU5，AU6和AU7对应面部运动单元子块2，AU9对应面部运动单元子块3，AU10，AU12，AU14，AU15，AU17和AU20对应面部运动单元子块4，AU23，AU25，AU26和AU28对应面部运动单元子块5。

7.根据权利要求1所述的一种基于运动单元的多域融合的微表情检测方法，其特征在于，步骤(4)中，在时空域中，提取视频帧序列中面部运动单元子块的光流特征，得到其光流模值和光流角度，包括步骤如下：

I(x，y，t)＝I(x+Δx，y+Δy，t+Δt) (IV)

式(IV)中，I(x，y，t)为t时刻坐标像素点(x，y)的瞬时灰度值；

将式(IV)等号右边进行泰勒展开，得到式(V)：

式(V)中，ε表示高阶无穷小，结合式(IV)、(V)并去除高阶无穷小量，得到式(VI)：

也就是：

令

得到式(VIII)：

I_xp_x+I_yq_y+I_t＝0 (VIII)

根据Horn-Schunck提出的全局方法估计图像光流场的算法，在光流基本约束方程的基础上加以全局平滑约束，要求公式(VIII)的光流场尽量小，如式(IX)所示：

min ∫∫(I_xp_x+I_yq_y+I_t)²dxdy (IX)

式(IX)中，λ为约束参数，对光流场进行各向全局平滑约束，如式(X)所示：

将式(X)简化，如式(XI)所示：

min{∫∫F(p，q，p_x，p_y，q_x，q_y)dxdy} (X1)

对应的欧拉方程如式(XII)所示：

将(XI)代入(XII)，如式(XIII)所示：

基于所得到的光流矢量的水平分量

和垂直分量

式(XIV)中，i表示视频帧序列t时刻所对应的第i帧，

分别为第i帧光流矢量的水平分量和垂直分量，FL_i定义第i帧光流矢量的模值；

光流角度θ_i利用反三角函数的得到，如式(XV)所示：

8.根据权利要求1所述的一种基于运动单元的多域融合的微表情检测方法，其特征在于，步骤(4)中，提取面部运动单元子块的频域特征，包括步骤如下：

采用局部二值模式LBP计算灰度纹理图，利用三维快速傅里叶变换3DFFT将灰度纹理图序列变换为频域信号；是指：利用带滑动时间窗口的三维FFT将面部运动单元子块的灰度纹理图序列转换成频域信号，通过在当前帧CF使用窗长D的滑动窗口，计算位于滑动窗口中的帧的3DFFT，对于第i个窗口，3DFFT定义如式(XVI)所示：