CN109389045B

CN109389045B - 基于混合时空卷积模型的微表情识别方法与装置

Info

Publication number: CN109389045B
Application number: CN201811053740.6A
Authority: CN
Inventors: 温云龙; 杜翠凤; 杨旭; 周善明; 张添翔; 叶绍恩; 梁晓文
Original assignee: Guangzhou Jiesai Communication Planning And Design Institute Co ltd; GCI Science and Technology Co Ltd
Current assignee: Guangzhou Jiesai Communication Planning And Design Institute Co ltd; GCI Science and Technology Co Ltd
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2021-03-02
Anticipated expiration: 2038-09-10
Also published as: CN109389045A

Abstract

本发明提供了一种基于混合时空卷积模型的微表情识别方法与装置，该方法包括：根据预先获取的图像训练样本对预先建立的混合时空卷积网络进行训练，得到混合时空卷积模型；其中，所述混合时空卷积网络包括多个循环交替连接3D残差模块，每个3D残差模块包括1*3*3卷积层和3*1*1卷积层；将待识别图像输入到所述混合时空卷积模型，得到微表情分类结果。采用混合的1*3*3卷积(2维)+3*1*1卷积(1维)进行卷积计算，一方面保证了本发明在微表情识别上具有3D CNN的精度要求；另一方面大大降低了计算复杂度，从而降低对计算机硬件的要求，更有利于产品化。

Description

基于混合时空卷积模型的微表情识别方法与装置

技术领域

本发明涉及微表情识别技术领域，尤其涉及一种基于混合时空卷积模型的微表情识别方法与装置。

背景技术

微表情是人类试图压抑或隐藏真实情感时泄露的非常短暂的、不能自主控制的面部表情。它与普通表情的区别在于，微表情持续时间很短，仅为1/25秒至1/5秒。因此，大多数人往往难以觉察到它的存在。这种快速出现不易被察觉的面部表情被认为与自我防御机制有关，表达了被压抑的情绪。不过微表情的产生与识别心理与神经机制尚在研究当中，而且微表情出现的频率比较低，普通人对微表情的识别能力也不高，工欲善其事必先利其器，开发一套微表情识别系统，对开展研究微表情是非常必要的。目前，国际上有几个科研团队正在开展对微表情的研究：美国的艾克曼(Paul Ekman)团队、松本(Matsumoto)团队和谢里夫(Shreve)团队，加拿大的波特(Porter)团队和李康团队，日本的Polikovsky团队，芬兰的赵国英团队，以及中国科学研究院心理所的傅小兰团队。而微表情在教学过程中可以反映教师授课的质量、学生理解和接受的程度以及课堂参与度，对于教学评估工作的开展，有着深刻的意义。

目前现有的微表情识别方案具体如下：步骤一：计算表情帧与基准帧的运动趋势。步骤二：由步骤一结果提取表情特征。而现有的计算表情帧与基准帧的运动特征所采用的算法包括：(1)提取几何特征。通过图像分割、物体追踪等实现。(2)提取光流特征。以图像时空(Spatial-Temporal，简称S-T)关联为基础进行像素匹配追踪表情特征提取之后，需要对特征进行训练学习，通过计算机实现微表情自动识别。识别算法包括：支持向量机、极限学习机、神经网络、多核学习、聚类算法等。目前较多的专利和论文采用Gabor提取表情特征使用支持向量机实现不同表情的分类：可以运用聚类算法，通过图像的三维梯度特征与对应表情标签进行训练学习，实现表情等自我分类等例。例如专利一种基于Gabor和EOH特征的自动微表情识别方法(授权公告号：103258204B)、一种基于深度学习的人脸微表情识别方法(申请号201611055921.3)、论文《基于微表情特征的表情识别研究》。其中，在该研究中指出一种3D卷积神经网络算法，使用3*3*3的卷积进行表情识别，但是，3D算法比2D CNN增加了浮点数和参数，对硬件的要求较高，计算效率较慢，在实际项目和产品中落地比较困难。

发明内容

基于此，本发明提出了一种基于混合时空卷积模型的微表情识别方法与装置，能够保证微表情识别的精度要求，同时降低计算复杂度，以降低对计算机硬件的要求，有利于产品化。

为了达到上述的目的，本发明实施例一方面提供了一种基于混合时空卷积模型的微表情识别方法，包括：

根据预先获取的图像训练样本对预先建立的混合时空卷积网络进行训练，得到混合时空卷积模型；其中，所述混合时空卷积网络包括多个循环交替连接3D残差模块，每个3D残差模块各包括1*3*3卷积层和3*1*1卷积层；

将待识别图像输入到所述混合时空卷积模型，得到微表情分类结果。

优选地，所述根据预先获取的图像训练样本对预先建立的混合时空卷积网络进行训练，得到混合时空卷积模型，具体包括：

根据预先定义的若干种微表情，将预先采集的表情图像数据进行分类；

对分类后的表情图像数据进行归一化处理，得到对应各种微表情的人脸图像数据；

将所述人脸图像数据按照预设的比例划分为图像训练样本、图像验证样本以及图像测试样本；

采用所述图像训练样本对预先建立的混合时空卷积网络进行训练；

采用所述图像验证样本对训练得到的混合时空卷积模型进行参数调优；

采用所述图像测试样本对调优后的混合时空卷积模型进行测试。

优选地，所述混合时空卷积网络包括：采用ResNet网络结构循环交替连接的第一3D残差模块、第二3D残差模块以及第三3D残差模块；其中，所述第一3D残差模块包括：依次相连的1*1*1卷积层、1*3*3卷积层、3*1*1卷积层以及1*1*1卷积层；所述第二3D残差模块包括：1*1*1卷积层、与1*1*1卷积层的输出端分别相连的1*3*3卷积层和3*1*1卷积层、与1*3*3卷积层和3*1*1卷积层的输出端分别相连的1*1*1卷积层；所述第三3D残差模块包括：1*1*1卷积层、与1*1*1卷积层的输出端相连的1*3*3卷积层、与1*3*3卷积层的输出端分别相连的3*1*1卷积层和1*1*1卷积层。

优选地，所述对分类后的表情图像数据进行归一化处理，得到对应各种微表情的人脸图像数据，具体包括：

对分类后的表情图像数据进行灰度化处理，得到灰度图像数据；

对所述灰度图像数据进行人脸检测对齐处理，得到人脸特征图像数据；

对所述人脸特征图像数据进行PCA降维处理，生成对应各种微表情的人脸图像数据。

优选地，所述对所述人脸特征图像数据进行PCA降维处理，生成对应各种微表情的人脸图像数据，具体包括：

将任意一个人脸图像数据转换为n*m的矩阵；

将所述矩阵中的每一行进行零均值化处理；

根据零均值化处理的矩阵，计算协方差矩阵，并计算所述协方差矩阵的特征向量及其对应的特征值；

将所述特征向量按照特征值大小从上到下按行排列，得到变化矩阵；

从所述变化矩阵中提取前k行组成降维矩阵，得到任意一个人脸图像数据对应的人脸图像数据；其中，根据任意一个人脸图像数据压缩后的误差确定k的数值。

优选地，对所述混合时空卷积网络进行训练之前，所述方法还包括：

对所述混合时空卷积网络中的3*1*1卷积层进行随机初始化处理；

采用ResNet网络的3*3卷积层对所述混合时空卷积网络中的1*3*3卷积层进行初始化。

优选地，所述方法还包括：

从CASME数据库采集的第一图像数据；

采用摄像头进行人脸微表情拍摄，获取表情视频；

根据设定的提取规则从各个表情视频中各提取若干帧图像，得到第二图像数据；其中，一个表情视频对应一种预先定义的微表情；所述第一图像数据和所述第二图像数据的集合，作为所述表情图像数据。

优选地，所述设定的提取规则包括：

从表情视频中提取人脸边缘特征；

根据所述人脸边缘特征以及其变化特性，确定所述表情视频中的突出帧图像；

从所述表情视频中提取突出帧图像，以及位于所述突出帧图像前后的间隔为N的若干帧图像。

优选地，所述对所述灰度图像数据进行人脸检测对齐处理，得到人脸特征图像数据，具体包括：

采用OpenCV的detectMultiScale函数检测所述灰度图像数据中的人脸，并对检测到的人脸进行框选；

对框选所得的人脸中的关键点进行标准化处理；

采用OpenCV的getAffineTransform函数对标准化处理后的人脸进行仿射变换，得到所述人脸特征图像数据。

为了达到相同的目的，本发明实施例第二方面提供了一种基于混合时空卷积模型的微表情识别装置，包括：

模型构建模块，用于根据预先获取的图像训练样本对预先建立的混合时空卷积网络进行训练，得到混合时空卷积模型；其中，所述混合时空卷积网络包括多个循环交替连接3D残差模块，每个3D残差模块各包括1*3*3卷积层和3*1*1卷积层；

微表情识别模块，用于将待识别图像输入到所述混合时空卷积模型，得到微表情分类结果。

相比于现有技术，本发明实施例的有益效果在于：所述基于混合时空卷积模型的微表情识别方法，包括：根据预先获取的图像训练样本对预先建立的混合时空卷积网络进行训练，得到混合时空卷积模型；其中，所述混合时空卷积网络包括多个循环交替连接3D残差模块，每个3D残差模块包括1*3*3卷积层和3*1*1卷积层；将待识别图像输入到所述混合时空卷积模型，得到微表情分类结果。采用混合的1*3*3卷积(2维)+3*1*1卷积(1维)进行卷积计算，一方面保证了本发明在微表情识别上具有3D CNN的精度要求；另一方面大大降低了计算复杂度，从而降低对计算机硬件的要求，更有利于产品化。

附图说明

图1是本发明实施例一提供的一种基于混合时空卷积模型的微表情识别方法的流程示意图；

图2是本发明实施例提供的3D残差模块的结构示意图；

图3是本发明实施例提供的3D残差模块的网络结构示意图；

图4是CASME2官方图像帧实例示意图；

图5本发明实施例二提供的一种基于混合时空卷积模型的微表情识别装置的示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参阅图1，其是本发明实施例提供的一种基于混合时空卷积模型的微表情识别方法的流程示意图。所述方法包括：

S100：根据预先获取的图像训练样本对预先建立的混合时空卷积网络进行训练，得到混合时空卷积模型；其中，所述混合时空卷积网络包括多个循环交替连接3D残差模块，每个3D残差模块各包括1*3*3卷积层和3*1*1卷积层；

S200：将待识别图像输入到所述混合时空卷积模型，得到微表情分类结果。

在步骤S100中采用由多个循环交替连接的包括1*3*3卷积层和3*1*1卷积层的3D残差模块构成的混合时空卷积模型对图像训练样本进行卷积计算及训练，替代原始的3*3*3(3维)卷积。例如，采用图2所示的三种3D残差模块的结构(A、B、C)，将原本单一的C3D网络采用A、B、C三种3D残差模块循环交替连接，例如A-B-C-A-B-C…A-B-C并应用到ResNet中进行试验，得到所述混合时空卷积网络，进一步将图像训练样本输入到所述混合时空卷积网络进行训练，最终得到所述混合时空卷积模型。进一步地，所述混合时空卷积网络的输出还接有softmax分类器或SVM分类器。

在步骤S200中，通过所述混合时空卷积模型中的混合时空卷积网络对待识别图像进行卷积计算、softmax分类器或SVM分类器对卷积计算后的待识别图像进行分类，得到待识别图像的微表情分类结果。所述混合时空卷积模型的本发明实施例采用混合的1*3*3卷积(2维)+3*1*1卷积(1维)代替一个3维卷积进行卷积计算，一方面保证了本发明在微表情识别上具有3D CNN的精度要求；另一方面大大降低了计算复杂度，从而降低对计算机硬件的要求，更有利于产品化。

在一种可选的实施例中，所述根据预先获取的图像训练样本对预先建立的混合时空卷积网络进行训练，得到混合时空卷积模型，具体包括：

本发明实施例中预先定义包括但不限于12个微表情库，各个微表情库分别表征以下12中情感：开心、痛苦、悲伤、吃惊、生气、愤怒、疑惑、厌恶、无奈、困乏、蔑视、缺乏自信。

具体地，所述预设的比例为3:1:1，即将所述人脸图像数据按照60％、20％、20％分别划分为图像训练样本、图像验证样本以及图像测试样本。其中，各种情感中对应训练样本、验证样本、图像测试样本比例均为60％、20％、20％。

所述图像训练样本用于训练模型；所述图像验证样本用于调优模型中的超参数，包括学习速率(learning rate)、epoch数量、batch size和Dropout等，对模型进行调优；所述图像测试样本用于模型预测和对模型性能进行评价。具体地，将所述图像测试样本输入到调优后的混合时空卷积模型，根据该模型中的损失函数输出的结果，得到该模型的识别准确率，以得到该模型的预测和对模型性能评价结果。采用图像训练样本、图像验证样本、图像测试样本对所述混合时空卷积网络进行反复训练、调优、测试，构建混合时空卷积模型，可以有效提高模型识别的准确率。

在一种可选的实施例中，所述混合时空卷积网络包括：采用ResNet网络结构循环交替连接的第一3D残差模块、第二3D残差模块以及第三3D残差模块；其中，所述第一3D残差模块包括：依次相连的1*1*1卷积层、1*3*3卷积层、3*1*1卷积层以及1*1*1卷积层；所述第二3D残差模块包括：1*1*1卷积层、与1*1*1卷积层的输出端分别相连的1*3*3卷积层和3*1*1卷积层、与1*3*3卷积层和3*1*1卷积层的输出端分别相连的1*1*1卷积层；所述第三3D残差模块包括：1*1*1卷积层、与1*1*1卷积层的输出端相连的1*3*3卷积层、与1*3*3卷积层的输出端分别相连的3*1*1卷积层和1*1*1卷积层。

如图3所示，其中，A’(第一3D残差模块)、B’(第二3D残差模块)、C’(第三3D残差模块)分别对应图2中所述的三种3D残差模块的结构A、B、C的网络结构示意图。通过图3所述的A’、B’、C’三种网络结构基于1*1*1卷积、1*3*3卷积、3*1*1卷积将C3D网络改进成3层或4层神经网络结构，进一步，通过将A’、B’、C’三种网络结构循环交替连接，例如A’-B’-C’-A’-B’-C’…A’-B’-C’；将C3D网络更深层的神经网络结构，实现深层次的神经网络训练，一方面可以提高微表情识别的精确度；另一方面大大地降低计算复杂度。

在一种可选的实施例中，所述对分类后的表情图像数据进行归一化处理，得到对应各种微表情的人脸图像数据，具体包括：

本发明实施例中，例如采用加权平均算法对所述表情图像数据中的表情图像进行灰度处理。由于从表情视频或CASME数据库中提取出来的图像是彩色图像，其具体由多个像素点组成，且每个像素点都由RGB三个值表示；对各帧表情图像进行灰度处理，并不会影响表情图像的纹理特征信息，而且每个像素点只需一个灰度值便可表示，大大提高了表情图像处理效率。具体地，通过以下灰度处理加权平均算法公式对表情图像进行灰度处理：

f(i,j)＝0.30R(i,j)+0.59G(i,j)+0.11B(i,j)

其中，i、j代表一个像素点在二维空间向量的位置，即：第i行，第j列。

根据上述公式，计算表情图像中每个像素点的灰度值，取值范围是0-255，使表情图像呈现黑白灰状态。

例如，采用开源组件OpenCV进行人脸检测对齐处理，将所述灰度图像数据中所有的灰度图像中的人脸检测出来后，转化为160*160像素大小的图像。借助OpenCV的detectMultiScale算法检测图像中的人脸并框选。将人脸的关键点标准化，即寻找人脸在最左侧的点和最上侧的点，作为图像的边缘，其他点以这两个边缘为基准平移；最后除以(最右侧-最左侧)和(最下侧-最上侧)，使人脸的标准点均匀地分布在框选的图形里，可以尽可能地减少了多余像素点对计算带来的负担。最后采用OpenCV的getAffineTransform算法进行仿射变换，并输出图像对齐的人脸图像，得到人脸特征图像数据。

在一种可选的实施例中，所述对所述人脸特征图像数据进行PCA降维处理，生成对应各种微表情的人脸图像数据，具体包括：

将任意一个人脸图像数据转换为n*m的矩阵；

将所述矩阵中的每一行进行零均值化处理；

具体地，根据公式(1)，确定k的数值；

其中，m为前k行中所有特征向量的个数；选取一个k，当error<Φ，Φ为设定的阈值(例如0.01)，则确定从所述变化矩阵中提取的前k行组成的降维矩阵符合降维要求。

通过人脸检测对齐处理后得到的人脸特征图像数据对应的特征向量是一个维度较高的矩阵。高维矩阵在计算中容易造成内存不足，也容易出现过拟合问题；因此基于PCA(主要成分分析)处理函数等方式，将人脸特征点对应的高维特征向量，通过降维转化为低维空间的特征数据。例如，基于上述方法选取一个K，使得error<Φ，则我们认为这个m可以接受，否则尝试其他。通过PCA降维变换，人脸特征图像数据所对应的每一个特征向量由原来超过10000维变成了120维，将后续的分类问题变成一个在120维空间中的划分问题，在保持主要信息的完整的同时极大地简化了计算过程。

在一种可选的实施例中，对所述混合时空卷积网络进行训练之前，所述方法还包括：

由于在C3D网络中，使用的3维的卷积核实际是使用了2维卷积中的(width,height)，以及时间域上的帧数量作为补充，而1*3*3卷积可以采用原来ResNet的3*3卷积进行初始化的，主要完成和原2D卷积中相同的空间特征的提取；3*1*1卷积主要用于提取16帧图像在时域的特征；但是由于在ResNet中没有3*1*1卷积这样尺寸的卷积核，因此，3*1*1卷积可通过随机初始化，然后直接在数据集上进行训练、调优。

在一种可选的实施例中，所述方法还包括：

从CASME数据库采集的第一图像数据；

CASME(Chinese Academy of Sciences Micro-Expression)数据库是2013年由中国科学院心理研究所的傅小兰团队设计获得的。该数据库包含35个受试者(13个女性，22个男性)的195段为表情视频。傅小兰团队总结了Ekman发表的表情诱发方法，使用了17段能诱发情感如“厌恶”、“压抑”、“惊讶”、“紧张”的视频短片，并要求受试者抑制自己的表情，微表情的整个过程由一个60帧每秒的摄像机拍摄。所获得的微表情样本进行了AUs编码，包括开始(onset)、顶点(apex)、和释放(offset)三个部分。如图4所示，其给出了CASME2官方图像帧实例。

采用摄像头进行人脸微表情拍摄，获取表情视频；

本发明实施在采集CASME数据库的表情视频之外，还采用摄像头(支持60fps的设备)受试者进行表情拍摄，从而实现微表情视频材料的补充。例如“缺乏自信”的表情的定义为：眼皮轻微下垂，嘴唇闭紧；受试者进行眼皮轻微下垂，嘴唇闭紧的表情，同时启用摄像机进行拍摄，得到对应“缺乏自信”的表情视频。通过摄像头对定义的12种情感进行表情视频的材料补充，并分别将采集所得的第一表情视频、第二表情视频依据其对应的情感保存到对应的微表情库中。

进一步地，可以设定的提取规则从各个表情视频中各提取若干帧图像，并将各帧图像进行标记对应的微表情标签。

在一种可选的实施例中，所述设定的提取规则包括：

从表情视频中提取人脸边缘特征；

本发明实施利用各种边缘检测算子提取出人脸边缘特征，然后对这些检测到的人脸边缘特征进行处理和分析，最后判断是否变化。进一步地，边缘检测算子可采用Canny算子；Canny算子能检测到更加连续、细致的边缘。在另一种实施例中，利用ET(Edge Tag)算法进行人脸边缘特征描述，其通过比较特征间的相似性进行变化检测；ET(Edge Tag)算法是基于生物视觉原理利用多向Gabor函数从图像梯度强度图中提取的边缘结构信息，并通过比较图像ET的相关性实现变化检测。最终依据检测误差变化率，确定检测误差变化率最大的帧图像为表情变化的突出帧图像。

其中，N＝2。在本实施例中，在确定突出帧图像后，同时提取突出帧图像前后的各3/5/7帧的图像作为数据的补充。

在一种可选的实施例中，所述对所述灰度图像数据进行人脸检测对齐处理，得到人脸特征图像数据，具体包括：

对框选所得的人脸中的关键点进行标准化处理；

可以理解的是，本发明可以对待识别的表情视频进行识别。具体地，待识别的表情视频采用与上述表情视频相同的帧图像提取过程并对提取后的帧图像采用与上述表情图像数据相同的归一化处理过程，将处理后得到的图像输入到所述混合时空卷积模型进行识别。

为了方便理解，下面对所述混合时空卷积模型的卷积训练过程进行举例说明：

训练模型的时候每个batch包含10个clip，每个clip包含16帧(frame)图像，每帧图像的大小是160*160，因此输入就是10*3*16*160*160这样的维度。

测试模型的时候是从一个video中抽取20个clip，每个clip由16帧图像组成。

模型的具体输入输出关系如下：

(1)对于每一个clip而言，输入是10*3*16*160*160，先进行1*7*7的卷积，输出为10*64*16*80*80；

(2)通过一个maxpool,使用x＝self.maxpool(x)后x的维度是10*64*8*39*39；

(3)经过第一层后的维度是10*256*8*39*39；

(4)x＝self.maxpool_2(self.layer1(x))后x的尺寸是10*256*4*39*39，可以看出self.maxpool_2是对倒数第3个维度做了减半；

(5)经过第二层后的维度是10*512*4*20*20；

(6)x＝self.maxpool_2(self.layer2(x))后x的尺寸是10*512*2*20*20；

(7)经过第三层后的维度是10*1024*2*10*10；

(8)x＝self.maxpool_2(self.layer3(x))后x的尺寸是10*1024*1*10*10；

(9)可以看出输入之所以采用16帧，是和网络的4次对该维度的减半对应；x.view是一个reshape操作，将5维的1*1024*1*10*10变成4维的10*1024*10*10；

(10)经过第四层后x的维度是10*2048*5*5，因此第四层中的卷积都是二维卷积；

(11)x＝self.avgpool(x)后x的维度是10*2048*1*1；

(12)经过一次reshape操作，得到的x维度就是10*2048。再经过dropout层，最后经过全连接层：x＝self.fc(self.dropout(x))，因为全连接层的输出channel设置为400，这是因为kinetics数据集的类别数是400，最后输出维度是10*400。

相对于现有技术，本发明实施例提供的一种基于混合时空卷积模型的微表情识别方法具有如下优势：

1、通过识别时间更短暂的微表情，可以发掘人物更丰富和真实的内在情感；

2、扩展了微表情中的类别，增加了“缺乏自信”的微表情表现形式；

3、在模型训练前对图像数据进行PCA降维处理，降低了图像数据的预处理复杂度，提高计算速率；

4、各个3D残差模块基于ReLU优点使激活函数简单，使用一个阈值就可以得到激活值，只要注意使用合理的学习速度(learning rate)，保证学习的神经元不会“坏死”，且得到很快的收敛速度；

5、采用混合的2维+1维卷积代替一个3维卷积，在计算复杂度上大大降低，对计算机硬件的要求减小，更有利于产品化。

实施例二

请参阅图5，其是本发明实施例提供的一种基于混合时空卷积模型的微表情识别装置的示意框图，该装置包括：

模型构建模块1，用于根据预先获取的图像训练样本对预先建立的混合时空卷积网络进行训练，得到混合时空卷积模型；其中，所述混合时空卷积网络包括多个循环交替连接3D残差模块，每个3D残差模块包括1*3*3卷积层和3*1*1卷积层；

微表情识别模块2，用于将待识别图像输入到所述混合时空卷积模型，得到微表情分类结果。

在一种可选的实施例中，所述模型构建模块1包括：

数据分类单元，用于根据预先定义的若干种微表情，将预先采集的表情图像数据进行分类；

归一化处理单元，用于对分类后的表情图像数据进行归一化处理，得到对应各种微表情的人脸图像数据；

数据划分单元，用于将所述人脸图像数据按照预设的比例划分为图像训练样本、图像验证样本以及图像测试样本；

模型训练单元，用于采用所述图像训练样本对预先建立的混合时空卷积网络进行训练；

模型验证单元，用于采用所述图像验证样本对训练得到的混合时空卷积模型进行参数调优；

模型测试单元，用于采用所述图像测试样本对调优后的混合时空卷积模型进行测试。

在一种可选的实施例中，所述归一化处理单元包括：

灰度处理单元，用于对分类后的表情图像数据进行灰度化处理，得到灰度图像数据；

人脸检测对齐单元，用于对所述灰度图像数据进行人脸检测对齐处理，得到人脸特征图像数据；

降维处理单元，用于对所述人脸特征图像数据进行PCA降维处理，生成对应各种微表情的人脸图像数据。

在一种可选的实施例中，所述降维处理单元包括：

矩阵转换单元，用于将任意一个人脸图像数据转换为n*m的矩阵；

零均值化处理单元，用于将所述矩阵中的每一行进行零均值化处理；

第一计算单元，用于根据零均值化处理的矩阵，计算协方差矩阵，并计算所述协方差矩阵的特征向量及其对应的特征值；

排列单元，用于将所述特征向量按照特征值大小从上到下按行排列，得到变化矩阵；

数据提取单元，用于从所述变化矩阵中提取前k行组成降维矩阵，得到任意一个人脸图像数据对应的人脸图像数据；其中，根据任意一个人脸图像数据压缩后的误差确定k的数值。

在一种可选的实施例中，所述装置还包括：

第一初始化模块，用于对所述混合时空卷积网络中的3*1*1卷积层进行随机初始化处理；

第二初始化模块，用于采用ResNet网络的3*3卷积层对所述混合时空卷积网络中的1*3*3卷积层进行初始化。

在一种可选的实施例中，所述装置还包括：

第一数据采集模块，用于从CASME数据库采集的第一图像数据；

第二数据集采集模块，用于采用摄像头进行人脸微表情拍摄，获取表情视频；

第一图像提取模块，用于根据设定的提取规则从各个表情视频中各提取若干帧图像，得到第二图像数据；其中，一个表情视频对应一种预先定义的微表情；所述第一图像数据和所述第二图像数据的集合，作为所述表情图像数据。

在一种可选的实施例中，所述装置包括：

边缘特征提取模块，用于从表情视频中提取人脸边缘特征；

突出帧图像确定模块，用于根据所述人脸边缘特征以及其变化特性，确定所述表情视频中的突出帧图像；

第二图像提取模块，用于从所述表情视频中提取突出帧图像，以及位于所述突出帧图像前后的间隔为N的若干帧图像。

在一种可选的实施例中，所述人脸检测对齐单元包括：

人脸框选单元，用于采用OpenCV的detectMultiScale函数检测所述灰度图像数据中的人脸，并对检测到的人脸进行框选；

标准化处理单元，用于对框选所得的人脸中的关键点进行标准化处理；

仿射变换单元，用于采用OpenCV的getAffineTransform函数对标准化处理后的人脸进行仿射变换，得到所述人脸特征图像数据。

实施例二所述的基于混合时空卷积模型的微表情识别装置是对应实施例一所述的基于混合时空卷积模型的微表情识别方法的产品，其原理和实现的技术效果与实施例一所述的基于混合时空卷积模型的微表情识别方法相同，在此不在重复描述。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于混合时空卷积模型的微表情识别方法，其特征在于，包括：

根据预先获取的图像训练样本对预先建立的混合时空卷积网络进行训练，得到混合时空卷积模型；其中，所述混合时空卷积网络包括多个循环交替连接3D残差模块，每个3D残差模块包括1*3*3卷积层和3*1*1卷积层；

将待识别图像输入到所述混合时空卷积模型，得到微表情分类结果；

具体地，所述混合时空卷积网络包括：采用ResNet网络结构循环交替连接的第一3D残差模块、第二3D残差模块以及第三3D残差模块；其中，所述第一3D残差模块包括：依次相连的1*1*1卷积层、1*3*3卷积层、3*1*1卷积层以及1*1*1卷积层；所述第二3D残差模块包括：1*1*1卷积层、与1*1*1卷积层的输出端分别相连的1*3*3卷积层和3*1*1卷积层、与1*3*3卷积层和3*1*1卷积层的输出端分别相连的1*1*1卷积层；所述第三3D残差模块包括：1*1*1卷积层、与1*1*1卷积层的输出端相连的1*3*3卷积层、与1*3*3卷积层的输出端分别相连的3*1*1卷积层和1*1*1卷积层。

2.如权利要求1所述的基于混合时空卷积模型的微表情识别方法，其特征在于，所述根据预先获取的图像训练样本对预先建立的混合时空卷积网络进行训练，得到混合时空卷积模型，具体包括：

3.如权利要求2所述的基于混合时空卷积模型的微表情识别方法，其特征在于，所述对分类后的表情图像数据进行归一化处理，得到对应各种微表情的人脸图像数据，具体包括：

4.如权利要求3所述的基于混合时空卷积模型的微表情识别方法，其特征在于，所述对所述人脸特征图像数据进行PCA降维处理，生成对应各种微表情的人脸图像数据，具体包括：

将任意一个人脸图像数据转换为n*m的矩阵；

将所述矩阵中的每一行进行零均值化处理；

5.如权利要求1或2所述的基于混合时空卷积模型的微表情识别方法，其特征在于，对所述混合时空卷积网络进行训练之前，所述方法还包括：

6.如权利要求2所述的基于混合时空卷积模型的微表情识别方法，其特征在于，所述方法还包括：

从CASME数据库采集的第一图像数据；

采用摄像头进行人脸微表情拍摄，获取表情视频；

7.如权利要求6所述的基于混合时空卷积模型的微表情识别方法，其特征在于，所述设定的提取规则包括：

从表情视频中提取人脸边缘特征；

8.如权利要求3所述的基于混合时空卷积模型的微表情识别方法，其特征在于，所述对所述灰度图像数据进行人脸检测对齐处理，得到人脸特征图像数据，具体包括：

对框选所得的人脸中的关键点进行标准化处理；

9.一种基于混合时空卷积模型的微表情识别装置，其特征在于，包括：

模型构建模块，用于根据预先获取的图像训练样本对预先建立的混合时空卷积网络进行训练，得到混合时空卷积模型；其中，所述混合时空卷积网络包括多个循环交替连接3D残差模块，每个3D残差模块包括1*3*3卷积层和3*1*1卷积层；

微表情识别模块，用于将待识别图像输入到所述混合时空卷积模型，得到微表情分类结果；