CN113095183A

CN113095183A - 一种基于深度神经网络的微表情检测方法

Info

Publication number: CN113095183A
Application number: CN202110348364.9A
Authority: CN
Inventors: 夏召强; 梁桓; 黄东; 冯晓毅; 蒋晓悦
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-09

Abstract

针对目前微表情检测准确度低、检测能力较弱的问题，本发明提出了一种基于深度神经网络的微表情检测方法，使用卷积神经网络(CNN)和门控循环单元(GRU)对经过预处理的视频序列提取动态信息，最后使用移动滑框对微表情进行检测，以此来完成精确高效的微表情检测。本发明利用两种网络各自不同的特点将两种网络相结合，取得精度更高、速度更快、误差更低的微表情检测结果。

Description

一种基于深度神经网络的微表情检测方法

技术领域：

本发明涉及一种基于深度神经网络的微表情检测方法。

现有技术：

微表情含有细微的痕迹流露，特征表达比较模糊，表情也被极度的弱化。由于人类生理的特点，情感是不会被思想完全控制的，因此不管人们怎样刻意掩饰，微表情都不会被完全消除，故而微表情能较为准确地反映人类的真实情感。通过高速摄像头准确捕捉快速运动的微表情，计算机科学家可利用计算机视觉技术自动分析微表情，降低微表情分析的复杂度，从而能以较低廉的成本完成大规模微表情分析任务。因此，利用计算机视觉技术自动分析微表情数据，成为情感计算领域的热点问题之一。

从早期的传统宏表情表征模型，到基于深度模型的端到端学习方法，微表情分析技术的性能得到了显著提升。利用现有宏表情变化描述特征(如LBP-TOP、MDMO等)，或者通用卷积网络(如VGGNet、ResNet等)，能较为精确地描述微表情变化规律。但是，由于面部微表情持续时间短、变化强度弱，在较长的视频序列中，如何自动提取面部微表情相关信息，仍然是微表情自动分析技术的难点。

文献“Spotting Rapid Facial Movements from Videos Using Appearance-Based Feature Difference Analysis[J].2014.”Antti Moilanen等利用三点法固定面部区域，并将面部区域分为几个感兴趣区域并提取LBP特征，通过在一定时间内对比各个区域内的特征相似性，实现自动化的面部微表情检测技术。但该技术的检测准确度仍然较低，并且当个体变化时鲁棒性较差。

发明目的：

针对目前微表情检测准确度低、检测能力较弱的问题，本发明提出了一种基于深度神经网络的微表情检测方法，使用卷积神经网络(CNN)和门控循环单元(GRU)对经过预处理的视频序列提取动态信息，最后使用移动滑框对微表情进行检测，以此来完成精确高效的微表情检测。

发明内容：

本发明主要研究了基于深度神经网络的微表情检测算法。对经过预处理的视频序列使用卷积神经网络(CNN)提取每幅图像的特征，再采用门控循环单元(GRU)对连续多个CNN提取的图像特征进行动态特征提取，最后使用移动滑框对微表情进行检测。本发明主要分为四个步骤：数据预处理、图像序列的运动特征描述、网络模型的构建和网络模型的训练与微表情检测。基于深度神经网络的微表情检测流程如图1所示。

步骤1：数据预处理

微表情数据库中的视频包含着比较丰富的元素，如背景、耳机等噪声，需要对数据库视频序列进行预处理操作。预处理的质量决定着微表情检测的效果和准确率，会对实验结果产生很大的影响。对人脸图像序列进行预处理可以减少因人脸的大小和位置等因素对人像检测所带来的影响。

1)对图像进行多尺度检测识别人脸

检测人脸时，逐步把图像长宽同时按照一定比例缩小，对应每张图，然后使用大小固定的检测窗口器开始遍历图像。逐次移动检测窗口，窗口中的特征相应也随着窗口移动，从而遍历到图像中的每一个位置，找到图像中人脸位置(x₀,y₀),(x₁,y₁)，完成人脸检测。

2)对人脸检测所得到的结果进行处理

人脸检测所得到两个坐标(x₀,y₀),(x₁,y₁)，两个坐标中间的矩形区域为人脸检测的结果。人脸检测的结果不可以直接传输到卷积神经网络中，因为人脸检测的结果范围比较大，包含了耳机、头发等会对深度学习过程产生影响的信息，需要在人脸识别的基础上再进行切割。将原坐标左上角的坐标(x₀,y₀)和右下角的坐标(x₁,y₁)经过处理后得到新的坐标(x’₀,y₀’),(x’₁,y’₁)：

(x’₀,y’₀)＝(x₀+a,y₀-b) (1)

(x’₁,y’₁)＝(x₁-a,y₁+b) (2)

a为横向切割距离，b为纵向切割距离。

3)对视频序列进行统一切割处理

将每段视频的第一帧图像作为参考帧，以长视频的第一幅人脸图像为模型脸，获取模型脸的切割矩阵，切割矩阵用来对视频序列剩余图像进行切割，从而完成数据预处理。

步骤2：图像序列的运动特征描述

1)提取视频序列光流特征

通过光流法，提取视频序列的运动特征。光流场是一个二维矢量场，它反映了图像上每一点亮度的变化趋势。用视频序列中像素在时间域上的亮度变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，此对应关系能够反映出视频序列中亮度的微小变化，得到人面部的运动信息。

光流法分为稀疏光流法以及稠密光流法，稀疏光流法针对图像中的某一点去研究它的位置变化，而稠密光流法针对图像全局的亮度变化。故本发明使用的为稠密光流法。

稠密光流法假设在t时刻，像素点(x,y)处灰度值为I(x,y,t)；在(t+Δt)，该点运动到新的位置，它在图像上的位置变为(x+Δx,y+Δy)，灰度值记为I(x+Δx,y+Δy)。该算法假设物体上同一个点在图像中的灰度是不变的，即使物体发生了运动。满足

则：

I(x,y,t)＝I(x+Δx,y+Δy,t+Δt) (3)

设u和v分别为该点的光流矢量沿x和y方向的两个分量，且

将式(3)右边用泰勒公式展开，得到：

ε为二次以上的高次项，值很小，可以忽略。得到：

由于视频序列中Δt→0，于是有：

即：

I_xu+I_yv+I_t＝0 (7)

式(7)是光流基本等式。设I_x,I_y和I_t分别为参考点像素的灰度值沿x,y,t这三个方向的偏导数。

在求解光流(u,v)时，要求光流本身尽可能地平滑，即引入对光流的整体平滑性约束求解光流方程病态问题。平滑，就是在给定的领域内

应尽量地小，这就是求条件极值时的约束条件。对u,v的附加条件如下：

式中

是u的拉普拉斯算子，

是v的拉普拉斯算子。综合式(7)和式(8)，算法将光流u,v计算归结为如下问题：

因而，可以得到其相应的欧拉-拉格朗日方程，并利用高斯-塞德尔方法进行求解，得到图像每个次置第一次至第(n+1)次迭代估计(uⁿ⁺¹,vⁿ⁺¹)为：

经过迭代计算便得到最终光流场。对视频序列每帧图像都提取光流特征，得到整个光流特征序列。

2)光流特征序列的归一化处理

视频中相邻两帧的时间间隔很短，两帧中的内容变化较小，因此，可以将两帧中内容的变化看作线性运动。求出该线性运动的运动轨迹，就能根据该运动轨迹和输入输出帧的时间关系进行内容位置的调整。

使用插值法求中间帧的像素值。前后两幅图像的像素值大小以及时间为(B₁,t₁),(B₂,t₂)，使用公式(12)得到中间帧即输出帧为(B,t)。

步骤3：网络模型的构建

1)卷积神经网络

卷积神经网络(Convolutional Neural Network，CNN)是一种层级结构，主要包括卷积层、线性整流层、池化层和全连接层。

卷积层：卷积运算的目的是提取输入的不同特征，第一层卷积层能提取一些低级的特征如边缘、线条和角等特征，更多层的网络能从低级特征中迭代提取更复杂的特征。

其中卷积公式为：

式中x(p),h(p)为一维数据向量。由于卷积神经网络运算过程中数据是离散的，所以公式(13)可转化为：

一个过滤器在输入图像上移动(卷积操作)以生成特征映射。在同一张图像上，不同过滤器的卷积会生成不同的特征映射。卷积神经网络在训练过程中会自动学习这些过滤器的值。拥有的过滤器数目越多，提取的图像特征就越多，网络在识别新图像时效果就会越好。

线性整流层：将卷积层输出结果进行非线性映射。CNN采用的线性整流层一般为修正线性单元(The Rectified Linear Unit,ReLU)，它的特点是收敛快，梯度计算简便，故能提升训练速度，不会对模型的泛化准确度造成较大影响。

池化层：在CNN网络中卷积层之后会添加一个池化层，该池化层的作用是提取局部均值或最大值，根据计算方式分为均值池化层与最大值池化层。本方法使用最大值池化层来对数据进行池化，是因为该池化层能够提取特征映射的显著性特征值。

全连接层：全连接层(Fully Connected layer,FC)，是CNN中的一个比较特殊的结构，通常起到分类的作用。它将从卷积层那里得到的高维数据铺平作为输入，然后将分类结果进行输出。本发明使用的CNN网络结构为VGG16的通用结构。

2)门控循环单元

门控循环单元(Gated Recurrent Unit,GRU)是RNN网络的一种，能够描绘连续时间内特征的变化。

GRU利用门控机制控制输入、记忆等信息，表达式如下：

z＝σ(x_tU^h+(s_t-1W^z) (15)

r＝σ(x_tU^r+s_t-1W^r) (16)

GRU内部有两个门，一个重置门和一个更新门。重置门决定如何将新的输入信息与前面的记忆相结合，更新门则决定前面记忆保存到当前时间的信息量。这两个门控向量决定了门控循环单元的输出信息。

GRU能够描述连续时间内的特征变化，而CNN则能够提取单帧图像的特征，两者结合则能发挥每个网络的优势。具体结合方式为n幅图像经过CNN后，首先输入到第一层GRU中得到输出，该输出作为另外两层GRU的输入，其中一层GRU负责检测出目标的置信度，另外一层GRU负责检测及预测微表情的位置。

步骤4：网络模型的训练与微表情检测

1)网络模型训练

实际视频段中的微表情只占视频段的一部分，可以将目标检测的算法应用到微表情检测中。在视频序列中寻找一段含有微表情的视频段，将待检测视频均分为n段，利用每一段去检测并预测微表情位置以及长度。

预测输出即为公式(19)所示：

其中，C为结果的置信概率，x₁,x₂为视频序列中微表情起始与终止坐标预测结果，构建损失函数。损失函数由分类、回归两部分组成。

分类部分GRU的损失函数为CrossEntropy，其计算公式为：

回归部分GRU的损失函数为MSE损失，其计算公式为：

进行数据训练时，使用Leave-one-object-out训练方法。在CASME2数据库中，一共有26个人脸数据，将某一个人作为测试集，将其余25个人脸数据利用公式(20)和公式(21)进行训练得到深度模型。

2)微表情检测

每次检测过程中，待检测视频段被均分为n段，如果微表情段的中心点落到这个视频段内，这个视频段会负责预测微表情的发生位置以及它的置信度，待检测视频中置信度最大的视频段所预测的微表情区间为被检测视频的预测结果。

训练结束后在微表情预测区间内的视频段中的每一帧都被标记为微表情帧，其余视频段中都被标记为非微表情帧。

有益效果：

本发明使用精确度(Precision)，F1评分(F1-score)，召回率(recall)三个评判指标衡量本发明的有效性。本发明在CASME2数据库上进行实验。CASME2数据库提供了原始数据，相对于其它数据库来说，该数据库在收集数据的过程中，光照更加合理，而且数据量比较多，微表情类别划分也更为合理。

附图说明：

图1为基于深度神经网络的微表情检测流程

具体实施方式：

步骤1：数据预处理

找出视频序列中人脸的位置，去除除人脸以外的噪声，为固定人脸位置以一个位置不变矩阵去裁剪整个视频序列。

1)对图像进行多尺度检测识别人脸。

2)对人脸检测所得到的结果进行处理

人脸检测所得到两个坐标(x₀,y₀),(x₁,y₁)，两个坐标中间的矩形区域为人脸检测的结果。人脸检测的结果不可以直接传输到卷积神经网络中，因为人脸检测的结果范围比较大，包含了耳机、头发等会对深度学习过程产生影响的信息，需要在人脸识别的基础上再进行切割。将原坐标左上角的坐标(x₀,y₀)和右下角的坐标(x₁,y₁)经过处理后得到新的坐标(x’₀,y₀’)(x’₁,y’₁)：

(x’₀,y’₀)＝(x₀+a,y₀-b) (22)

(x’₁,y’₁)＝(x₁-a,y₁+b) (23)

a为横向切割距离，b为纵向切割距离。

3)对视频序列进行统一切割处理

步骤2：图像序列的运动特征描述

1)提取视频序列光流特征

则：

I(x,y,t)＝I(x+Δx,y+Δy,t+Δt) (24)

设u和v分别为该点的光流矢量沿x和y方向的两个分量，且

将式(24)右边用泰勒公式展开，得到：

ε为二次以上的高次项，值很小，可以忽略。得到：

由于Δt→0，于是有：

即：

I_xu+I_yv+I_t＝0 (28)

式(28)是光流基本等式。设I_x,I_y和I_t分别为参考点像素的灰度值沿x,y,t这三个方向的偏导数。

在求解光流时，要求光流本身尽可能地平滑，即引入对光流的整体平滑性约束求解光流方程病态问题。平滑，就是在给定的领域内

式中

是u的拉普拉斯算子，

是v的拉普拉斯算子。综合式(28)和式(29)，算法将光流u,v计算归结为如下问题：

2)光流特征序列的归一化处理

使用插值法进行视频序列归一化，视频中相邻两帧的时间间隔很短，两帧中的内容的变化较小，我们可以把两帧中内容的变化看作线性运动。求出该线性运动的运动轨迹，就能根据该运动轨迹以及输入输出帧的时间关系来进行内容位置的调整。

每幅图像某一点处的像素值大小以及时间为(B₁,t₁),(B₂,t₂)，得到输出帧同一点像素值为(B,t)。计算公式为：

步骤3：网络模型的构建

1)卷积神经网络

其中卷积公式为：

式中x(p),h(p)为一维数据向量。由于卷积神经网络运算过程中数据是离散的，所以公式(34)可转化为：

全连接层：全连接层(Fully Connected layer,FC)，是CNN中的一个比较特殊的结构，通常起到分类的作用。它将从卷积层那里得到的高维数据铺平作为输入，然后将分类结果进行输出。本发明使用的CNN结构为通用的VGG16结构。

2)门控循环单元

GRU利用门控机制控制输入、记忆等信息而在当前时间步做出预测，表达式如下：

z＝σ(x_tU^h+(s_t-1W^z) (36)

r＝σ(x_tU^r+s_t-1W^r) (37)

GRU有两个门，即一个重置门和一个更新门。重置门决定如何将新的输入信息与前面的记忆相结合，更新门定义前面记忆保存到当前时间步的量。这两个门控向量决定了哪些信息最终能作为门控循环单元的输出。

步骤4：网络模型的训练与微表情检测

1)网络模型训练

视频段中的微表情只占视频段的一部分，可以将目标检测的算法应用到微表情检测中。在视频序列中寻找一段含有微表情的视频段,将待检测视频均分为n段，利用每一段去检测并预测微表情位置以及长度。

预测输出可以用公式表示为：

其中，C为结果的置信概率，b₁,b₂为窗口的前后坐标通过预测结果、实际结果，构建损失函数。损失函数包含了分类、回归两部分组成。

两个模块分别具有不同的任务以及不同的损失函数。

分类部分GRU的损失函数为CrossEntropy，其计算公式为：

回归部分GRU的损失函数为MSE损失，其计算公式为：

2)微表情检测

每次检测过程中，待检测视频段被均分为n段，如果微表情段的中心点落到这个视频段内，那么这个视频段会去检测以及预测微表情的长度及区间以及它的置信度，待检测视频中置信度最大的视频段所预测的微表情区间为被检测视频的预测结果。

Claims

1.本发明提出了一种基于深度神经网络的微表情检测方法，其特征主要分为四个部分：数据预处理、图像序列的运动特征描述、网络模型的构建和网络模型的训练与微表情检测；

(1)数据预处理

本发明对将要输入深度神经网络的数据进行预处理，减少因人脸的大小和位置等因素对人像检测所带来的影响，包含三步：对图像进行多尺度检测识别人脸、对人脸检测所得到的结果进行处理、对视频序列进行统一切割处理；将每段视频的第一帧图像作为参考帧，以长视频的第一幅人脸图像为模型脸，获取模型脸的切割矩阵，切割矩阵用来对视频序列剩余图像进行切割，从而完成数据预处理；

(2)图像序列的运动特征描述

通过光流法，提取视频序列的运动特征，光流场是一个二维矢量场，它反映了图像上每一点灰度的变化趋势；算法假设物体上同一个点在图像中的灰度是不变的，即使物体发生了运动，即：

I(x,y,t)＝I(x+Δx,y+Δy,t+Δt) (1)

在t时刻，像素点(x,y)处灰度值为I(x,y,t)；在(t+Δt)，该点运动到新的位置，它在图像上的位置变为(x+Δx,y+Δy)，灰度值记为I(x+Δx,y+Δy)；

设u和v分别为该点的光流矢量沿x和y方向的两个分量：

将式(1)右边用泰勒公式展开，忽略二次及以上的高次项，且视频序列中Δt→0，于是有：

I_xu+I_yv+I_t＝0 (3)

式(3)是光流基本等式，设I_x,I_y和I_t分别为参考点像素的灰度值沿x,y,t这三个方向的偏导数；在求解光流(u,v)时，要求光流本身尽可能地平滑，即引入对光流的整体平滑性约束求解光流方程病态问题；对u,v的附加条件如下：

式中

是u的拉普拉斯算子，

是v的拉普拉斯算子，综合式(3)和式(4)，算法将光流u,v计算归结为如下问题：

经过迭代计算便得到最终光流场，对视频序列每帧图像都提取光流特征，得到整个光流特征序列；

对光流特征序列归一化处理，视频中相邻两帧的时间间隔很短，两帧中的内容变化较小，因此，可以将两帧中内容的变化看作线性运动；求出该线性运动的运动轨迹，就能根据该运动轨迹和输入输出帧的时间关系进行内容位置的调整；前后两幅图像的像素值大小以及时间为(B₁,t₁),(B₂,t₂)，使用公式(8)得到中间帧即输出帧为(B,t)；

(3)网络模型的构建

本发明提出一个卷积神经网络与门控循环单元相结合检测微表情的网络模型；门控循环单元(GRU)是RNN网络的一种，能够描绘连续时间内特征的变化；而卷积神经网络(CNN)则能够提取单帧图像的特征，两者结合则能发挥每个网络的优势；具体结合方式为n幅图像经过CNN后，首先输入到第一层GRU中得到输出，该输出作为另外两层GRU的输入，其中一层GRU负责检测出目标的置信度，另外一层GRU负责检测及预测微表情的位置；

(4)网络模型的训练与微表情检测

在视频序列中寻找一段含有微表情的视频段，将待检测视频均分为n段，利用每一段去检测并预测微表情位置以及长度，预测输出即为公式(10)所示：

其中，C为结果的置信概率，x₁,x₂为视频序列中微表情起始与终止坐标预测结果，构建损失函数，损失函数由分类、回归两部分组成；

分类部分GRU1的损失函数为CrossEntropy，其计算公式为：

回归部分GRU2的损失函数为MSE损失，其计算公式为：

每次检测过程中，待检测视频段被均分为n段，如果微表情段的中心点落到这个视频段内，这个视频段会负责预测微表情的发生位置以及它的置信度，待检测视频中置信度最大的视频段所预测的微表情区间为被检测视频的预测结果；