CN112883896B

CN112883896B - 一种基于bert网络的微表情检测方法

Info

Publication number: CN112883896B
Application number: CN202110258141.3A
Authority: CN
Inventors: 贲晛烨; 宋延新; 熊海良; 翟鑫亮; 姚军; 李玉军
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2022-10-11
Anticipated expiration: 2041-03-10
Also published as: CN112883896A

Abstract

本发明涉及一种基于BERT网络的微表情检测方法，包括：A、对微表情视频进行预处理；B、将光流序列划分为训练集和测试集，计算交并比IoU作为该片段的标记值；C、构建时空特征提取模型，包括三维卷积神经网络和BERT网络；D、训练时空特征提取模型；E、根据训练好的时空特征提取模型，评估测试集候选微表情片段的交并比IoU；F、将具有高IoU值的连续候选微表情片段分组合并，并对重叠片段进行抑制，形成最终的微表情检测结果。本发明提取每一个时隙内的特征，为了更好的关注片段内不同时隙的重要性，利用BERT的注意力机制来提取不同时隙间的特征，充分利用了整个视频序列的信息。

Description

一种基于BERT网络的微表情检测方法

技术领域

本发明涉及一种基于BERT网络的微表情检测方法，属于深度学习和模式识别技术领域。

背景技术

面部表情是由面部肌肉在情绪状态下收缩而产生的一种非语言交流形式。不同的肌肉运动和模式最终反映了不同类型的情绪。以表情强度分类主要分为宏表情和微表情。与宏表情相比，微表情通常发生在较短的持续时间(0.5s内)和较低的强度。微表情是一种短暂的无意识的面部表情，通常出现在人们试图隐藏自己的真实感受时，特别是在高风险的情况下。因此，微表情的研究具有重大意义，是人类情感和情感现象理解的重要课题，已被心理学、社会学、神经科学、计算机视觉等各个学科所探索。这些技能对心理治疗师、面试官和任何从事沟通工作的人都具有实际应用意义。

作为微表情分析的一个必要的预处理步骤，微表情检测指的是自动检测视频帧序列中微表情出现的序列片段。目前的微表情检测主要分为两类:起始结束帧检测和高潮帧的检测。

起始结束帧检测是通过微表情产生和结束的“窗口”来定位，通常用起始帧和结束帧来标记。Moilanen等人介绍了基于外观特征差异分析的微表情检测方法。该方法使用大小为N帧的滑动窗口，其中N为微表情的平均长度。将中心帧的特征与滑动窗口的平均特征帧进行比较，平均特征帧指的是窗口第一帧和最后一帧特征之间的平均值，形成特征差异向量，并用当前帧减去周围帧的差异值，最后通过阈值与峰值定位微表情。基本思想是，如果窗口与微表情重叠(特别是如果中心帧是微表情的峰值)，则平均特征帧与中心帧的特征之间的差异将大于当窗口不包含任何微运动时的差异。这种差异是通过在一对基于直方图的特征上使用卡方距离计算的。该方法使用的特征还有局部二值模式(LBP)、定向光流直方图(HOOF)、定向梯度三维直方图(3DHOG)和主要方向的平均光流特征(MDMO)。Zhang使用卷积神经网络提取视频特征，并提出了一种从长视频中提取顶点帧的特征矩阵处理方法，这是深度学习第一次用于微表情检测。Tran等人首次引入了循环神经网络(RNN)用于微表情定位,该方法使用长度为N的滑动窗口，N是微表情序列的最大长度，首先提取滑窗的定向光流直方图特征，之后送入长短时记忆网络(LSTM)，提取序列的时序特征。

除了发现面部微运动外，早期的工作还侧重于检测高潮帧。高潮帧，即表示微表情序列中最具表现力的情绪状态的瞬间，被认为能够有效地揭示特定视频的真实表达。在Yan和Chen的工作中，选择特征幅度最大的帧作为高潮帧，揭示了一些有趣的发现：约束局部模型算法(CLM)对基于轮廓的变化特别敏感，如眉毛运动，局部二值模式(LBP)特征更适合检测外观的变化，如嘴唇的按压；然而，光流特征(OF)是最全面的特征，因为它能够根据面部运动的主要方向和距离来发现高潮帧。由Liong等人提出了一种二进制搜索方法，在视频序列中自动定位高潮帧。Ma等人提出了定向光流区域直方图(RHOOF)特征来自动检测高潮帧。首先，检测一组面部标志，然后根据动作单元的出现频率从面部区域中选择5个感兴趣区域(ROI)。最后，逐帧提取光流场并计算这些ROI中的定向光流直方图特征(HOOF)。

目前起始结束帧的检测方法使用微表情序列的平均时长或者最大时长作为滑窗的大小，固定了微表情序列的时长，起始结束帧预测不灵活。基于深度学习的检测方法是对单帧进行分类，没有利用视频序列的信息，忽略了帧与帧之间的相关性。

发明内容

针对现有技术的不足，本发明提供一种基于BERT网络的微表情检测方法。

发明概述：

一种基于BERT网络的微表情检测方法，包括数据集预处理、候选微表情片段产生、时空特征提取和微表情片段分组四个部分。

本发明是针对起始结束帧的检测，与现有方法相比，本发明通过三维卷积神经网络和BERT网络提取候选微表情片段的时间特征和空间特征，充分利用了整个视频序列的信息，并通过注意力机制来关注不同时刻的重要性。同时，通过微表情片段分组方法，更加准确地定位微表情片段的起始结束帧。

术语解释：

1、Dlib视觉库：Dlib是一个包含机器学习算法的C++开源工具包。Dlib可以帮助您创建很多复杂的机器学习方面的软件来帮助解决实际问题。目前Dlib已经被广泛的用在行业和学术领域，包括机器人，嵌入式设备，移动电话和大型高性能计算环境。

2、面部68个关键特征点，面部68个关键特征点主要分布于眉毛，眼睛，鼻子，嘴巴以及面部轮廓，如图3所示，通过Dlib视觉库来检测，为现有技术。

3、损失函数：损失函数是用来评估模型的预测值与真实值的不一致程度，损失函数越小，代表模型的鲁棒性越好，损失函数能指导模型学习。

4、Farneback光流算法：Farneback光流算法是由Gunner Farneback在2003年提出来的，基于图像梯度恒定假设和局部光流恒定假设，对前后两帧所有像素点的移动估算算法，已广泛运用到光流计算中。

5、三维卷积残差网络3D ResNet：3D ResNet是由Kensho Hara在2017年基于2DResNets提出来的，广泛应用到视频分类和行为识别领域。网络结构图如图4所示。

6、BERT网络：BERT是由Google在2018年提出，使用了Transformer作为算法的主要框架，使用Mask Language Model和Next Sentence Prediction的多任务训练目标，广泛应用自然语言处理任务中，网络结构如图5所示。

7、AUC:是Area Under Curve的简写，这里的Curve其实是指ROC曲线。ROC全称receiver operating characteristic curve，是指受试者工作特性曲线。

8、LBP特征:指局部二值模式，英文全称：Local Binary Pattern，是一种纹理特征算子，LBP特征具有灰度不变性和旋转不变性等显著优点。

9、HOG特征：指方向梯度直方图特征，全称Histogram of Oriented Gradient，是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征。

10、SMEConvNet:于2018年提出的一种微表情检测算法，利用卷积神经网络提取单帧的特征，利用特征矩阵查找顶点帧，最后定位微表情区域。

11、HOOF+LSTM:于2019年提出的一种微表情检测算法,HOOF全称Histogram ofOriented Optical Flow，LSTM全称Long short-term memory。利用HOOF提取空间特征，利用LSTM提取时间特征。

本发明的技术方案如下：

一种基于BERT网络微表情检测方法，包括步骤如下：

A、对微表情视频进行预处理，包括获取视频帧序列、人脸检测与定位、人脸对齐以及提取光流序列特征；

B、对步骤A中的光流序列，将其划分为训练集和测试集，通过滑窗将光流序列划分为若干个小尺寸的候选微表情片段，计算每个候选微表情片段的交并比IoU作为该片段的标记值；

C、构建时空特征提取模型，

所述时空特征提取模型包括三维卷积神经网络和BERT网络，所述三维卷积神经网络提取候选微表情片段的每一个时隙内的特征，所述BERT网络提取候选微表情片段的不同时隙间的特征，并形成该候选微表情片段最终的特征表达；

D、训练时空特征提取模型；以得到判别能力强的特征提取模型；

E、根据训练好的时空特征提取模型，评估测试集候选微表情片段的交并比IoU，IoU称为微表情分数，IoU的取值范围为[0,1]，IoU是指候选微表情片段处于微表情的概率；

F、将具有高IoU值的连续候选微表情片段分组合并，并对重叠片段进行抑制，形成最终的微表情检测结果。

根据本发明优选的，步骤A中，对微表情视频进行预处理，包括步骤如下：

1)获取视频帧：对包含微表情的视频进行分帧处理，得到视频帧序列并存储；

2)人脸检测与定位：利用Dlib视觉库对视频帧序列进行人脸检测和定位，给出所检测的视频帧中人脸数目和人脸距图像边界距离；

3)人脸对齐：人脸对齐是在人脸定位的基础之上，利用Dlib视觉库确定面部68个关键特征点，完成人脸分割并实现人脸矫正；

人脸分割是指：Dlib视觉库使用矩形框分割人脸；

人脸矫正是指：在检测出的面部68个关键特征点中，标注左眼左眼角的关键特征点37和标注右眼右眼角的关键特征点46的连线与水平线存在角度a，通过该角度a得到对应的旋转矩阵，对分割出的人脸进行旋转变换，使标注左眼左眼角的关键特征点37和标注右眼右眼角的关键特征点46的连线与水平线平行，实现人脸姿态的矫正；并将人脸进行缩放，得到128*128分辨率的视频帧。

4)光流序列特征提取：利用Farneback光流算法提取对齐后的微表情特征，并保存为光流序列。

根据本发明优选的，步骤B中，滑窗长度为SW,通过滑窗将光流序列划分为若干个小尺寸候选微表情片段，重叠度大小为W_overlap，计算每个候选微表情片段的交并比IoU作为该片段的标记值，如式(1)所示：

式(1)中，预测片段指的是候选微表情片段的起始帧至结束帧位置，真实片段指真实微表情片段的起始帧至结束帧位置。

根据本发明优选的，步骤C中,

所述时空特征提取模型包括10层三维卷积残差网络3D ResNet和BERT网络；

将微表情候选片段分成t个时隙，使用10层三维卷积残差网络3D ResNet提取时隙的时间和空间特征；

之后将每个时隙内的特征向量即提取到的时隙的时间和空间特征输入到BERT网络中，BERT网络为了保存位置信息,会自动学习位置编码，进行分类任务时，添加额外的嵌入向量x_cls，x_cls是标记位，表示接下来的位置是时序序列的起始序列，同时，输出BERT模型最左边[CLS]特殊符号的向量C，之后接全连接层，最终输出预测标签

BERT网络形式如式(3)所示：

式(3)中，x_i是由三维卷积残差网络3D ResNet提取的时间和空间特征及其位置编码组成的嵌入向量，x_j表示第j个时隙的嵌入向量；i表示时序位置索引，j表示所有可能的组合，N(x)是归一化项，x是所有的时隙的集合，函数g(·)、θ(·)和φ(·)是BERT网络的自注意力机制内的线性映射，函数f(x_i,x_j)表示x_i和x_j之间的相似性：f(x_i,x_j)＝soft max(θ(x_i)^Tφ(x_j))；学习函数g(·)、θ(·)和φ(·)试图将特征嵌入向量投射到一个更好的空间，在这个空间中注意力机制将更有效。学习函数g(·)、θ(·)和φ(·)函数的输出分别定义为值向量、查询向量和键，PFFN(·)表示前项反馈网络；PFFN(x)＝W₂GELU(W₁x+b₁)+b₂，其中GELU(·)表示高斯误差线性单元激活函数。

则关于y_cls的显示形式如式(4)所示：

根据本发明优选的，步骤D中，训练时空特征提取模型，是指：

初始化时空特征提取模型的参数，以减小回归损失L作为训练目标，训练时空特征提取模型，损失函数如式(4)所示：

式(5)中，N表示样本数，y_i表示标记值，p_i为预测值。

根据本发明优选的，步骤F中，候选微表情片段分组合并,包括以下步骤：

步骤E中求取的IoU大于阈值τ的候选微表情片段，即高分数片段，步骤E中求取的IoU不大于阈值τ的候选微表情片段为低分数片段，阈值τ的取值范围是[0,1]；

为了设计一种鲁棒的分组方案，可以容忍偶尔的异常值，应该允许在一个微表情片段中使用一小部分低分数片段。

选择一个候选微表情片段作为起点，通过吸收后续候选微表情片段来递归扩展，当低分数片段的数量超过γ时终止扩展，γ为容忍阈值，为正值，取值范围[0，5]，具体过程是：计算高分数片段间的低分数片段数量，若数量小于等于γ，将低分数片段置为高分数片段，该高分数片段的微表情分数为τ，之后，将连续的高分数片段合并形成新的片段，称为分组片段，分组片段的微表情分数为连续的高分数片段的微表情分数的平均值；若分组片段的时长大于微表情片段的最大时长，则为宏表情，舍弃。

根据本发明优选的，步骤F中，对重叠片段进行抑制，包括以下步骤：

5)设定微表情片段的重叠阈值为0.5；

6)将步骤E中得到的分组片段根据微表情分数降序排列得到分组片段列表；

7)选取微表情分数最高的分组片段M添加到输出列表，并将其从分组片段列表中删除；

8)计算分数最高的分组片段M与分组片段列表中的所有微表情片段的IoU，删除大于大于重叠阈值的分组片段，重复上述步骤5)至步骤8)，直到分组片段列表为空，返回输出列表，即为最终的检测结果。

本发明的有益效果在于：

1、本发明所涉及的时空特征提取模型，将候选片段分成不同的时隙，使用三维卷积神经网络提取每一个时隙内的特征，为了更好的关注片段内不同时隙的重要性，利用BERT的注意力机制来提取不同时隙间的特征，充分利用了整个视频序列的信息。

2、本发明所涉及的微表情片段分组方法，将具有高微表情分数的连续候选微表情片段合并，并对重叠片段进行抑制，更加准确地定位微表情片段的起始结束帧。

附图说明

图1为本发明中的时空特征提取模型提取时空特征的流程示意图；

图2为本发明一种基于BERT网络微表情检测方法的流程示意图；

图3为本发明面部68个关键特征点示意图；

图4为三维卷积残差网络3D ResNet结构示意图；

图5为BERT网络结构示意图；

图6为本发明方法与其他算法在CASMEII数据集上的ROC曲线示意图；

图7为本发明方法与其他算法在SDU_spotting据集上的ROC曲线示意图。

具体实施方式

下面通过实施例并结合附图对本发明做进一步说明，但不限于此。

实施例1

一种基于BERT网络微表情检测方法，如图2所示，包括步骤如下：

C、构建时空特征提取模型，

时空特征提取模型包括三维卷积神经网络和BERT网络，三维卷积神经网络提取候选微表情片段的每一个时隙内的特征，BERT网络提取候选微表情片段的不同时隙间的特征，并形成该候选微表情片段最终的特征表达；

实施例2

根据实施例1所述的一种基于BERT网络微表情检测方法，其区别在于：

步骤A中，对微表情视频进行预处理，包括步骤如下：

3)人脸对齐：人脸对齐是在人脸定位的基础之上，利用Dlib视觉库确定面部68个关键特征点，如图3所示，完成人脸分割并实现人脸矫正；

人脸分割是指：Dlib视觉库使用矩形框分割人脸；

实施例3

步骤B中，滑窗长度为SW,通过滑窗将光流序列划分为若干个小尺寸候选微表情片段，重叠度大小为W_overlap，计算每个候选微表情片段的交并比IoU作为该片段的标记值，如式(1)所示：

实施例4

步骤C中,如图1所示，时空特征提取模型包括10层三维卷积残差网络3D ResNet和BERT网络；

BERT网络形式如式(3)所示：

则关于y_cls的显示形式如式(4)所示：

实施例5

根据实施例4所述的一种基于BERT网络微表情检测方法，其区别在于：

步骤D中，训练时空特征提取模型，是指：

式(5)中，N表示样本数，y_i表示标记值，p_i为预测值。

实施例6

根据实施例5所述的一种基于BERT网络微表情检测方法，其区别在于：

步骤F中，候选微表情片段分组合并,包括以下步骤：

步骤F中，对重叠片段进行抑制，包括以下步骤：

5)设定微表情片段的重叠阈值为0.5；

本实施例中，对中国科学院心理研究所的傅小兰团队发布的CASMEⅡ微表情数据库和山东大学的SDU_spotting数据库的原始视频进行微表情检测。

CASMEII数据集包含了来自于26个人共计247个微表情序列，该数据集使用帧率为200fps的摄像机进行采集，数据集提供的信息包括开始帧、顶点帧、结束帧、情感标签和AU。

SDU_spotting数据集样本采集来自山东大学在校大学生，数据集采样帧率为50fps，SDU_spotting数据集共计200个视频序列，用于微表情检测，提供的信息包含微表情的开始帧和结束帧。

在训练阶段，将输入微表情序列的图像大小W×H设置为128×128，CASMEII数据集上滑窗大小SW设置为64帧，时隙t设置为4，W_overlap设置为0.8，动作分数阈值τ设置为0.5，低分数数量阈值γ设置为1。SDU_spotting数据集上SW设置为20帧，时隙t设置为4，W_overlap设置为0.8，动作分数阈值τ设置为0.5，低分数数量阈值γ设置为1。本发明算法是在Ubuntu下的PyTorch框架上实现的，计算GPU采用NVIDIA Titan V。使用Adam算法对模型进行优化，学习率设为1e-4，权重衰减系数为1e-4。批量大小设置为8，最大迭代次数为100次。

为了验证本发明一种基于BERT网络的微表情检测方法先进性，将本发明与现有的基于传统学习和深度学习的方法进行比较，包括LBP、HOG、SMEConvNet和HOOF+LSTM。图6和图7分别为在CASMEII数据集和SDU_spotting数据集上的ROC曲线。False Positive Rate是指假阳性率(FPR)，True Positive Rate是指真阳性率(TPR)。

表1为本发明方法与其他算法在CASMEII数据集上的AUC比较数据；表2为本发明方法与其他算法在SDU_spotting数据集上的AUC比较数据；

表1

表2

方法	SDU_spotting
		LBP	47.5％
HOG	53.6％
		SMEConvNet	78.4％
HOOF+LSTM	83.1％
		Ours	91.0％

根据图2、图3及表1、表2可知，本发明提出的算法的在CASMEII和SDU_spotting数据集上检测结果优于其他算法。这是因为，本发明的方法利用三维卷积神经网络和BERT网络充分提取候选区域的时间特征和空间特征，同时利用分组算法更加准确地定位微表情片段的起始结束帧，因此，具有更好的效果。

Claims

1.一种基于BERT网络微表情检测方法，其特征在于，包括步骤如下：

C、构建时空特征提取模型，

D、训练时空特征提取模型；

F、将具有高IoU值的连续候选微表情片段分组合并，并对重叠片段进行抑制，形成最终的微表情检测结果；

步骤C中,所述时空特征提取模型包括10层三维卷积残差网络3D ResNet和BERT网络；

之后将每个时隙内的特征向量即提取到的时隙的时间和空间特征输入到BERT网络中，BERT网络自动学习位置编码，进行分类任务时，添加额外的嵌入向量x_cls，x_cls是标记位，表示接下来的位置是时序序列的起始序列，同时，输出BERT模型最左边[CLS]特殊符号的向量C，之后接全连接层，最终输出预测标签

BERT网络形式如式(3)所示：

式(3)中，x_i是由三维卷积残差网络3D ResNet提取的时间和空间特征及其位置编码组成的嵌入向量，x_j表示第j个时隙的嵌入向量；i表示时序位置索引，j表示所有可能的组合，N(x)是归一化项，x是所有的时隙的集合，函数g(·)、θ(·)和φ(·)是BERT网络的自注意力机制内的线性映射，函数f(x_i,x_j)表示x_i和x_j之间的相似性：f(x_i,x_j)＝softmax(θ(x_i)^Tφ(x_j))；学习函数g(·)、θ(·)和φ(·)函数的输出分别定义为值向量、查询向量和键，PFFN(·)表示前项反馈网络；

则关于y_cls的显示形式如式(4)所示：

2.根据权利要求1所述的一种基于BERT网络微表情检测方法，其特征在于，步骤A中，对微表情视频进行预处理，包括步骤如下：

3)人脸对齐：利用Dlib视觉库确定面部68个关键特征点，完成人脸分割并实现人脸矫正；

人脸分割是指：Dlib视觉库使用矩形框分割人脸；

人脸矫正是指：在检测出的面部68个关键特征点中，标注左眼左眼角的关键特征点37和标注右眼右眼角的关键特征点46的连线与水平线存在角度a，通过该角度a得到对应的旋转矩阵，对分割出的人脸进行旋转变换，使标注左眼左眼角的关键特征点37和标注右眼右眼角的关键特征点46的连线与水平线平行，实现人脸姿态的矫正；并将人脸进行缩放；

3.根据权利要求1所述的一种基于BERT网络微表情检测方法，其特征在于，步骤B中，滑窗长度为SW,通过滑窗将光流序列划分为若干个小尺寸候选微表情片段，重叠度大小为W_overlap，计算每个候选微表情片段的交并比IoU作为该片段的标记值，如式(1)所示：

4.根据权利要求1所述的一种基于BERT网络微表情检测方法，其特征在于，步骤D中，训练时空特征提取模型，是指：

初始化时空特征提取模型的参数，以减小回归损失L作为训练目标，训练时空特征提取模型，损失函数如式(5)所示：

式(5)中，N表示样本数，y_i表示标记值，p_i为预测值。

5.根据权利要求4所述的一种基于BERT网络微表情检测方法，其特征在于，步骤F中，候选微表情片段分组合并,包括以下步骤：

6.根据权利要求1-5任一所述的一种基于BERT网络微表情检测方法，其特征在于，步骤F中，对重叠片段进行抑制，包括以下步骤：

5)设定微表情片段的重叠阈值为0.5；

8)计算分数最高的分组片段与分组片段M列表中的所有微表情片段的IoU，删除大于大于重叠阈值的分组片段，重复上述步骤5)至步骤8)，直到分组片段列表为空，返回输出列表，即为最终的检测结果。