CN110175505A

CN110175505A - 微表情类型的确定方法、装置、存储介质及电子装置

Info

Publication number: CN110175505A
Application number: CN201910277523.3A
Authority: CN
Inventors: 周循
Original assignee: Beijing Net Co Creation Technology Co Ltd
Current assignee: Hunan Huawei Jin'an Enterprise Management Co ltd
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-08-27

Abstract

本发明提供了一种微表情类型的确定方法、装置、存储介质及电子装置，包括：获取待处理的第一帧序列，第一帧序列中包括至少两帧目标图像；使用卷积神经网络CNN模型提取每帧目标图像的静态特征，其中，静态特征是用于表示目标图像中面部表情的特征；使用双向长短时记忆LSTM模型对至少两帧目标图像的静态特征进行处理，得到至少两帧目标图像之间的关联值；根据至少两帧目标图像的静态特征以及至少两帧目标图像之间的关联值确定第一帧序列中的微表情的类型。通过本发明，解决了面部微表情识别率较低的问题，进而达到了提高微表情识别率的效果。

Description

微表情类型的确定方法、装置、存储介质及电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种微表情类型的确定方法、装置、存储介质及电子装置。

背景技术

人类面部表情在人们的日常生活、交流中扮演着十分重要的角色。通常，我们所指的人类面部表情被称之为“宏表情”，其持续时间一般在0.5s～4s之间，容易被人察觉和辨别。然而，有心理学研究表明，“宏表情”在表达人类真实情感上具有一定的掩饰性，即面部“宏表情”能够掩饰真实情感的流露，而与“宏表情”相对的“微表情”，由于其能够表达人类试图压抑的情感，近年来受到了人们的广泛关注。

微表情是一种不受人控制的、简短的面部表情，它能够反映人试图掩饰的情感以及人未意识到的情感体验，因此通过“微表情”来识别人类的情感显得更加真实、可靠。由于微表情持续时间短、面部运动所涉及的区域少、幅度小，很难被肉眼识别。

针对现有技术中，面部微表情识别率较低的技术问题，目前尚未存在有效的解决方案。

发明内容

本发明实施例提供了一种微表情类型的确定方法、装置、存储介质及电子装置，以至少解决相关技术中面部微表情识别率较低的问题。

根据本发明的一个实施例，提供了一种微表情类型的确定方法，包括：获取待处理的第一帧序列，第一帧序列中包括至少两帧目标图像；使用卷积神经网络CNN模型提取每帧目标图像的静态特征，其中，静态特征是用于表示目标图像中面部表情的特征；使用双向长短时记忆LSTM模型对至少两帧目标图像的静态特征进行处理，得到至少两帧目标图像之间的关联值；根据至少两帧目标图像的静态特征以及至少两帧目标图像之间的关联值确定第一帧序列中的微表情的类型。

可选地，获取待处理的第一帧序列之前，上述方法还包括：获取视频文件；确定视频文件中微表情的开始时间和结束时间；根据开始时间和结束时间截取视频文件，得到目标视频，其中，目标视频的开始时间对应于微表情的开始时间，目标视频的结束时间对应于微表情的结束时间。

可选地，得到目标视频之后，上述方法还包括：在目标视频中提取第一帧序列；其中，第一帧序列的起始帧是目标视频的开始时间所对应的目标图像，第一帧序列的结束帧是目标视频的结束时间所对应的目标图像。

可选地，使用卷积神经网络CNN提取每张目标图像的静态特征之前，上述方法还包括：将至少两帧目标图像进行对齐操作，以使得每帧目标图像中的面部区域中的目标对象相互平行，其中，面部表情出现在面部区域上。

可选地，使用卷积神经网络CNN模型提取每帧目标图像的静态特征包括：将至少两帧目标图像分批输入到多个CNN模型进行处理，得到每帧目标图像的静态特征，其中，每个CNN模型用于一次处理一帧目标图像，多个CNN模型用于对一批输入的目标图像同时进行处理；或者将至少两帧目标图像同时输入到多个CNN模型进行处理，得到每帧目标图像的静态特征，其中，每个CNN模型用于处理一帧目标图像。

可选地，使用双向长短时记忆LSTM模型对至少两帧目标图像的静态特征进行处理，得到至少两帧目标图像之间的关联值，包括：双向长短时记忆LSTM模型包括正向LSTM和反向LSTM；将卷积神经网络模型输出的每帧目标图像的静态特征分别输入至正向LSTM和反向LSTM得到至少两帧目标图像的时域特征，其中，时域特征中包括：静态特征和关联值。

可选地，根据至少两帧目标图像的静态特征以及至少两帧目标图像之间的关联值确定第一帧序列中的微表情的类型，包括：将至少两帧目标图像的静态特征以及至少两帧目标图像之间的关联值输入到目标SVM模型，确定第一帧序列中的微表情的类型，其中，目标SVM模型是使用数据库中存储的多组数据对原始SVM模型训练得到的模型，多组数据中的每组数据均包括：样本帧序列中的样本图像的静态特征、样本图像之间的关联值、以及样本帧序列中的微表情的类型。

根据本发明的另一个实施例，提供了一种微表情类型的确定装置，包括：第一获取模块，获取待处理的第一帧序列，第一帧序列中包括至少两帧目标图像；提取模块，用于使用卷积神经网络CNN模型提取每帧目标图像的静态特征，其中，静态特征是用于表示目标图像中面部表情的特征；处理模块，用于使用双向长短时记忆LSTM模型对至少两帧目标图像的静态特征进行处理，得到至少两帧目标图像之间的关联值；第一确定模块，用于根据至少两帧目标图像的静态特征以及至少两帧目标图像之间的关联值确定第一帧序列中的微表情的类型。

可选地，上述装置还包括：第二获取模块，用于在获取待处理的第一帧序列之前，获取视频文件；第二确定模块，用于确定视频文件中微表情的开始时间和结束时间；截取模块，用于根据开始时间和结束时间截取视频文件，得到目标视频，其中，目标视频的开始时间对应于微表情的开始时间，目标视频的结束时间对应于微表情的结束时间。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，由于使用卷积神经网络模型提取第一帧序列中每帧目标图像的静态特征，其中，静态特征用于表示目标图像中面部表情的特征。使用双向长短时记忆模型得到第一帧序列中所包含的目标图像之间的关联值，根据关联值和静态特征确定第一帧序列中微表情的类型。因此，可以解决现有技术中微表情识别率较低的技术问题，达到提高微表情识别率的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种微表情类型的确定方法的移动终端的硬件结构框图；

图2是根据本发明实施例的微表情类型的确定方法的流程图；

图3是根据本发明实施例的微表情识别系统框架图；

图4是根据本发明实施例CNN-双向LSTM视频人脸微表情模型图；

图5是根据本发明可选实施例的建立微表情数据库的示意图；

图6是根据本发明可选实施例的微表情类型的确定装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种微表情类型的确定方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的微表情类型的确定方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端的微表情类型的确定方法，图2是根据本发明实施例的微表情类型的确定方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取待处理的第一帧序列，第一帧序列中包括至少两帧目标图像；

其中，第一帧序列视频文件中的图片帧序列。

步骤S204，使用卷积神经网络CNN模型提取每帧目标图像的静态特征，其中，静态特征是用于表示目标图像中面部表情的特征；

其中，静态特征表示图片中面部表情的特征，如嘴角、眼睛、鼻子等有关面部的特征。

步骤S206，使用双向长短时记忆LSTM模型对至少两帧目标图像的静态特征进行处理，得到至少两帧目标图像之间的关联值；

其中，关联值表示图像之间的关联性，LSTM在计算特征时能够保留图片帧序列中上一帧的信息，对于微表情识别的应用是可行的，因为微表情标签的定义是通过描述一段连续帧，帧与帧之间的细微变化来定义标签，而LSTM在计算当前帧时添加了前面帧的信息，可以对比连续帧之间的这种细微变化，进而将时间信息得以保留训练出有效的特征。

步骤S208，根据至少两帧目标图像的静态特征以及至少两帧目标图像之间的关联值确定第一帧序列中的微表情的类型。

其中，微表情类型包括：愤怒、惊讶、悲伤、高兴、害怕、轻蔑、厌恶等。

通过上述步骤，由于使用卷积神经网络模型提取第一帧序列中每帧目标图像的静态特征，其中，静态特征用于表示目标图像中面部表情的特征。使用双向长短时记忆模型得到第一帧序列中所包含的目标图像之间的关联值，根据关联值和静态特征确定第一帧序列中微表情的类型。因此，可以解决现有技术中微表情识别率较低的技术问题，达到提高微表情识别率的效果。

可选地，上述步骤的执行主体可以为终端等，但不限于此。

在一个可选实施例，获取待处理的第一帧序列之前，上述方法还包括：获取视频文件；确定视频文件中微表情的开始时间和结束时间；根据开始时间和结束时间截取视频文件，得到目标视频，其中，目标视频的开始时间对应于微表情的开始时间，目标视频的结束时间对应于微表情的结束时间。在本实施例中，如图3所示是根据本发明实施例的微表情识别系统框架图，首先获取视频文件，在视频文件中确定微表情范围，例如，可以按照表情的持续时间或者表情的幅度大小来确定微表情，以时间为例，可以按照表情的持续时间小于0.5秒来确定微表情的范围，以首次出现微表情的时间为微表情的开始时间，以微表情结束的时间作为微表情结束时间，根据开始时间和结束时间对视频文件进行剪辑，截取出含有微表情的目标视频。图3所示的整个微表情识别系统主要包括三个框架：界面、提取特征并进行微表情识别、输出识别结果。

在一个可选实施例，得到目标视频之后，上述方法还包括：在目标视频中提取第一帧序列；其中，第一帧序列的起始帧是目标视频的开始时间所对应的目标图像，第一帧序列的结束帧是目标视频的结束时间所对应的目标图像。在本实施例中，在截取到的目标视频中挑选出微表情序列帧(对应于第一帧序列)。起始帧是微表情首次出现的帧，峰值帧是相关肌肉收缩达到最大时的帧，终止帧是微表情消失的那一帧。

在一个可选实施例，使用卷积神经网络CNN提取每张目标图像的静态特征之前，上述方法还包括：将至少两帧目标图像进行对齐操作，以使得每帧目标图像中的面部区域中的目标对象相互平行，其中，面部表情出现在面部区域上。在本实施例中，在视频文件中，人体的运动会导致面部的变化，此时会导致微表情序列帧中的面部不能保持一致。如，当头部左右摇摆，上下点头时。本实施例中，通过对微表情序列帧中所包含的图像进行预处理，主要包括人脸特征点检测、人脸对齐和人脸切割等三个步骤。人脸特征点检测采用回归局部二元特征方法，提取出微表情的27个人脸特征点，然后利用人的两个眼睛和一个鼻子这三个特征点进行全局的人脸对齐，使得微表情序列帧中所包含的所有图像中的面部特征相互平行，如使所有图像中的鼻子相互平行或者眼睛、嘴巴等面部特征相互平行，以对齐微表情序列中所有图像中的面部区域。

在一个可选实施例，使用卷积神经网络CNN模型提取每帧目标图像的静态特征包括：将至少两帧目标图像分批输入到多个CNN模型进行处理，得到每帧目标图像的静态特征，其中，每个CNN模型用于一次处理一帧目标图像，多个CNN模型用于对一批输入的目标图像同时进行处理；或者将至少两帧目标图像同时输入到多个CNN模型进行处理，得到每帧目标图像的静态特征，其中，每个CNN模型用于处理一帧目标图像。在本实施例中，如图4所示是根据本发明实施例的CNN-双向LSTM视频人脸微表情模型图。由于在微表情序列帧中包括多幅图像，因此，可以将微表情序列帧中的图像分批次输入到CNN模型。在图4的微表情模型中包含多个CNN模型，每个CNN模型一次能够处理一帧图像。例如，卷积神经网络(CNN)一次以多张人脸微表情序列图像作为其输入，一组微表情序列为12帧，将12帧的微表情图像分为几次送入卷积神经网络，以每次输入四帧同时输进卷积神经网络，卷积步长移动1帧，经过几步之后网络将微表情序列全部计算完成。这样卷积神经网路计算了图像之间的相关性，经过神经网路的卷积、池化等计算四张微表情序列之间的细微变化。学习细微表情之间的差别使网络识别出最后的属性，移动一个步长，使网络学习下一张图像与前三张图像的相关性，这样网络可以不断学习序列之间的细微差距，识别更加准确。或者，当微表情模型中包含6个CNN模型，而微表情序列帧中所包含的图像小于6时，那么此时将所有图像同时输入至微表情模型中，得到每帧图像的静态特征。以上出现的数字仅为举例说明本实施例，并不构成对本申请的限定。

在一个可选实施例，使用双向长短时记忆LSTM模型对至少两帧目标图像的静态特征进行处理，得到至少两帧目标图像之间的关联值，包括：双向长短时记忆LSTM模型包括正向LSTM和反向LSTM；将卷积神经网络模型输出的每帧目标图像的静态特征分别输入至正向LSTM和反向LSTM得到至少两帧目标图像的时域特征，其中，时域特征中包括：静态特征和关联值。在本实施例中，如图4所示的CNN-双向LSTM网络是为了能将全部的微表情序列同时进行计算并给出识别的结果。实质是，数据库中一个人的一个微表情为N帧图像，分别对应N个CNN，提取每张微表情图像的特征，每一层CNN与双向LSTM相连，前向双层LSTM是相互连接的，逆向LSTM也是相互连接的。LSTM模型能够充分利用图像中的历史信息，通过LSTM模型可以得到图片之间的关联性，进而能够得到视频中的时域信息。本实施例采取双时间尺度网络去提取微表情片段中的运动信息，该双时间尺度形式相当于对微表情视频的一个快放和慢放的过程，能在宏观和局部对时间上的动态信息进行提取。

在一个可选实施例，根据至少两帧目标图像的静态特征以及至少两帧目标图像之间的关联值确定第一帧序列中的微表情的类型，包括：将至少两帧目标图像的静态特征以及至少两帧目标图像之间的关联值输入到目标SVM模型，确定第一帧序列中的微表情的类型，其中，目标SVM模型是使用数据库中存储的多组数据对原始SVM模型训练得到的模型，多组数据中的每组数据均包括：样本帧序列中的样本图像的静态特征、样本图像之间的关联值、以及样本帧序列中的微表情的类型。在本实施例中，使用SVM模型算法对微表情类型进行识别分类，SVM模型是通过预先采集的微表情数据训练得到的。如图5所示是根据本发明实施例的建立微表情数据库的示意图，其中，建立微表情数据库包括如下步骤：

S1，获取视频文件，如申请人在远程面审过程中的视频文件；

S2，视频转换成帧序列；

S3，确定微表情范围；

S4，挑选出微表情帧序列；

S5，为微表情帧序列贴上情感标签；

S6，整理微表情帧序列数据；

S7，微表情数据库建库完成。

一般的人脸微表情识别模型就是将人脸表情库或特定场景的一张表情图片作为输入，而视频人脸微表情是以一段0.2s视频文件作为输入，这段视频包含了人脸微表情的过程，可以看做一个人的多张微表情图片同时来训练网络，使其网络可以实时的识别人脸微表情。

本申请提供的是一种基于深度学习的人脸微表情识别系统。提出采用深度神经网络的方法来对微表情进行识别。该深度神经网络由卷积神经网络(CNN)和改进后的长短期记忆神经网路(LSTM)组合而成，CNN层负责提取微表情图像的静态特征，双向LSTM层将提取到的卷积特征进行整合，而得到这些特征在时域上的信息，最后对所提取的时域特征采用支持向量机(SVM)进行分类训练。

基于深度学习的微表情识别工作流程包括以下五个步骤：步骤A：建立微表情数据库；步骤B：对微表情图像进行预处理；步骤C：利用CNN层提取图像的静态特征；步骤D：利用双向LSTM层提取图像的时域特征；步骤E：利用SVM进行分类训练。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种微表情类型的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本发明实施例的微表情类型的确定装置的结构框图，如图6所示，该装置包括：第一获取模块62，获取待处理的第一帧序列，第一帧序列中包括至少两帧目标图像；提取模块64，用于使用卷积神经网络CNN模型提取每帧目标图像的静态特征，其中，静态特征是用于表示目标图像中面部表情的特征；处理模块66，用于使用双向长短时记忆LSTM模型对至少两帧目标图像的静态特征进行处理，得到至少两帧目标图像之间的关联值；第一确定模块68，用于根据至少两帧目标图像的静态特征以及至少两帧目标图像之间的关联值确定第一帧序列中的微表情的类型。

在一个可选实施例，上述装置还包括：第二获取模块，用于在获取待处理的第一帧序列之前，获取视频文件；第二确定模块，用于确定视频文件中微表情的开始时间和结束时间；截取模块，用于根据开始时间和结束时间截取视频文件，得到目标视频，其中，目标视频的开始时间对应于微表情的开始时间，目标视频的结束时间对应于微表情的结束时间。

在一个可选实施例，上述装置还用于，在得到目标视频之后，在目标视频中提取第一帧序列；其中，第一帧序列的起始帧是目标视频的开始时间所对应的目标图像，第一帧序列的结束帧是目标视频的结束时间所对应的目标图像。

在一个可选实施例，上述装置还用于，在使用卷积神经网络CNN提取每张目标图像的静态特征之前，将至少两帧目标图像进行对齐操作，以使得每帧目标图像中的面部区域中的目标对象相互平行，其中，面部表情出现在面部区域上。

在一个可选实施例，上述提取模块64通过如下方式实现使用卷积神经网络CNN模型提取每帧目标图像的静态特征：将至少两帧目标图像分批输入到多个CNN模型进行处理，得到每帧目标图像的静态特征，其中，每个CNN模型用于一次处理一帧目标图像，多个CNN模型用于对一批输入的目标图像同时进行处理；或者将至少两帧目标图像同时输入到多个CNN模型进行处理，得到每帧目标图像的静态特征，其中，每个CNN模型用于处理一帧目标图像。

在一个可选实施例，上述处理模块66通过如下方式实现使用双向长短时记忆LSTM模型对至少两帧目标图像的静态特征进行处理，得到至少两帧目标图像之间的关联值：双向长短时记忆LSTM模型包括正向LSTM和反向LSTM；将卷积神经网络模型输出的每帧目标图像的静态特征分别输入至正向LSTM和反向LSTM得到至少两帧目标图像的时域特征，其中，时域特征中包括：静态特征和关联值。

在一个可选实施例，上述第一确定模块68通过如下方式实现根据至少两帧目标图像的静态特征以及至少两帧目标图像之间的关联值确定第一帧序列中的微表情的类型：将至少两帧目标图像的静态特征以及至少两帧目标图像之间的关联值输入到目标SVM模型，确定第一帧序列中的微表情的类型，其中，目标SVM模型是使用数据库中存储的多组数据对原始SVM模型训练得到的模型，多组数据中的每组数据均包括：样本帧序列中的样本图像的静态特征、样本图像之间的关联值、以及样本帧序列中的微表情的类型。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待处理的第一帧序列，第一帧序列中包括至少两帧目标图像；

S2，使用卷积神经网络CNN模型提取每帧目标图像的静态特征，其中，静态特征是用于表示目标图像中面部表情的特征；

S3，使用双向长短时记忆LSTM模型对至少两帧目标图像的静态特征进行处理，得到至少两帧目标图像之间的关联值；

S4，根据至少两帧目标图像的静态特征以及至少两帧目标图像之间的关联值确定第一帧序列中的微表情的类型。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种微表情类型的确定方法，其特征在于，包括：

获取待处理的第一帧序列，所述第一帧序列中包括至少两帧目标图像；

使用卷积神经网络CNN模型提取每帧所述目标图像的静态特征，其中，所述静态特征是用于表示所述目标图像中面部表情的特征；

使用双向长短时记忆LSTM模型对所述至少两帧目标图像的静态特征进行处理，得到所述至少两帧目标图像之间的关联值；

根据所述至少两帧目标图像的静态特征以及所述至少两帧目标图像之间的关联值确定所述第一帧序列中的微表情的类型。

2.根据权利要求1所述的方法，其特征在于，所述获取待处理的第一帧序列之前，所述方法还包括：

获取视频文件；

确定所述视频文件中所述微表情的开始时间和结束时间；

根据所述开始时间和所述结束时间截取所述视频文件，得到目标视频，其中，所述目标视频的开始时间对应于所述微表情的所述开始时间，所述目标视频的结束时间对应于所述微表情的所述结束时间。

3.根据权利要求2所述的方法，其特征在于，得到所述目标视频之后，所述方法还包括：

在所述目标视频中提取所述第一帧序列；

其中，所述第一帧序列的起始帧是所述目标视频的所述开始时间所对应的所述目标图像，所述第一帧序列的结束帧是所述目标视频的所述结束时间所对应的所述目标图像。

4.根据权利要求1所述的方法，其特征在于，使用卷积神经网络CNN提取每张所述目标图像的静态特征之前，所述方法还包括：

将所述至少两帧所述目标图像进行对齐操作，以使得每帧所述目标图像中的面部区域中的目标对象相互平行，其中，所述面部表情出现在所述面部区域上。

5.根据权利要求1所述的方法，其特征在于，使用卷积神经网络CNN模型提取每帧所述目标图像的静态特征包括：

将所述至少两帧目标图像分批输入到多个所述CNN模型进行处理，得到每帧所述目标图像的静态特征，其中，每个所述CNN模型用于一次处理一帧所述目标图像，所述多个所述CNN模型用于对一批输入的所述目标图像同时进行处理；或者

将所述至少两帧目标图像同时输入到多个所述CNN模型进行处理，得到每帧所述目标图像的静态特征，其中，每个所述CNN模型用于处理一帧所述目标图像。

6.根据权利要求1所述的方法，其特征在于，使用双向长短时记忆LSTM模型对所述至少两帧目标图像的静态特征进行处理，得到所述至少两帧目标图像之间的关联值，包括：

所述双向长短时记忆LSTM模型包括正向LSTM和反向LSTM；

将所述卷积神经网络模型输出的每帧所述目标图像的所述静态特征分别输入至所述正向LSTM和反向LSTM得到所述至少两帧目标图像的时域特征，其中，所述时域特征中包括：所述静态特征和所述关联值。

7.根据权利要求1所述的方法，其特征在于，根据所述至少两帧目标图像的静态特征以及所述至少两帧目标图像之间的关联值确定所述第一帧序列中的微表情的类型，包括：

将所述至少两帧目标图像的静态特征以及所述至少两帧目标图像之间的关联值输入到目标SVM模型，确定所述第一帧序列中的微表情的类型，其中，所述目标SVM模型是使用数据库中存储的多组数据对原始SVM模型训练得到的模型，所述多组数据中的每组数据均包括：样本帧序列中的样本图像的静态特征、所述样本图像之间的关联值、以及所述样本帧序列中的微表情的类型。

8.一种微表情类型的确定装置，其特征在于，包括：

第一获取模块，获取待处理的第一帧序列，所述第一帧序列中包括至少两帧目标图像；

提取模块，用于使用卷积神经网络CNN模型提取每帧所述目标图像的静态特征，其中，所述静态特征是用于表示所述目标图像中面部表情的特征；

处理模块，用于使用双向长短时记忆LSTM模型对所述至少两帧目标图像的静态特征进行处理，得到所述至少两帧目标图像之间的关联值；

第一确定模块，用于根据所述至少两帧目标图像的静态特征以及所述至少两帧目标图像之间的关联值确定所述第一帧序列中的微表情的类型。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于在所述获取待处理的第一帧序列之前，获取视频文件；

第二确定模块，用于确定所述视频文件中所述微表情的开始时间和结束时间；

截取模块，用于根据所述开始时间和所述结束时间截取所述视频文件，得到目标视频，其中，所述目标视频的开始时间对应于所述微表情的所述开始时间，所述目标视频的结束时间对应于所述微表情的所述结束时间。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

11.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。