CN112560678A

CN112560678A - 表情识别方法、装置、设备及计算机存储介质

Info

Publication number: CN112560678A
Application number: CN202011481845.9A
Authority: CN
Inventors: 王珂尧
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-26

Abstract

本申请公开了表情识别方法、装置、设备及计算机存储介质，涉及人工智能、计算机视觉等深度学习技术领域。具体实现方案为：根据包含人脸图像的目标图像获得输入数据；将所述输入数据输入表情识别模型的二维卷积神经网络层，获得第一识别结果；将所述第一识别结果输入表情识别模型的三维卷积神经网络层，获得第二识别结果；根据所述第二识别结果，确定所述目标图像的人脸表情类型。本申请实施例能够在提高表情识别准确性的基础上，保证较高的表情识别效率。

Description

表情识别方法、装置、设备及计算机存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及计算机视觉、深度学习等人工智能领域。

背景技术

随着图像处理技术的发展，通过图像可以获得很多信息，比如人脸识别信息、表情识别信息等。

表情识别是指从给定的静态图像或动态视频序列中分离出特定的表情状态，从而确定被识别对象的心理情绪。表情识别技术可以应用于多种领域，具有广阔的发展前景。如何更为准确地识别表情、快速得到表情识别结果，是表情识别技术的一个重要的研究方向。

发明内容

本申请提供了一种表情识别方法、装置、设备以及计算机存储介质。

根据本申请的一方面，提供了一种表情识别方法，包括：

根据包含人脸图像的目标图像获得输入数据；

将输入数据输入表情识别模型的二维(2D)卷积神经网络层，获得第一识别结果；

将第一识别结果输入表情识别模型的三维(3D)卷积神经网络层，获得第二识别结果；

根据第二识别结果，确定帧图像的人脸表情类型。

根据本申请的另一方面，提供了一种表情识别装置，包括：

输入数据获得模块，用于根据包含人脸图像的目标图像获得输入数据；

第一识别模块，用于将输入数据输入表情识别模型的二维卷积神经网络层，获得第一识别结果；

第二识别模块，用于将第一识别结果输入表情识别模型的三维卷积神经网络层，获得第二识别结果；

表情类型确定模块，用于根据第二识别结果，确定帧图像的人脸表情类型。

根据本申请的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。

根据本申请的又一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述方法。

根据本申请的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本申请任意一项实施例所提供的方法。

本申请实施例能够结合二维卷积和三维卷积对目标图像进行处理，使得模型不仅能够获得图像中的时空信息，且二维卷积神经网络层处理的输入数据后，待三维卷积神经网络层处理的数据量大幅度减少，使得表情识别过程处理速率大幅提升。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一实施例的表情识别方法示意图；

图2是根据本申请另一实施例的表情识别方法示意图；

图3是根据本申请一实施例的表情识别方法数据处理过程示意图；

图4是根据本申请一示例的脸部特征点示意图；

图5是根据本申请一实施例的表情识别装置示意图；

图6是根据本申请另一实施例的表情识别装置示意图；

图7是根据本申请另一实施例的表情识别装置示意图；

图8是根据本申请另一实施例的表情识别装置示意图；

图9是根据本申请另一实施例的表情识别装置示意图；

图10是用来实现本申请实施例的表情识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例提供一种表情识别方法，如图1所示，包括：

步骤S11：根据包含人脸图像的目标图像获得输入数据；

步骤S12：将输入数据输入表情识别模型的二维卷积神经网络层，获得第一识别结果；

步骤S13：将第一识别结果输入表情识别模型的三维卷积神经网络层，获得第二识别结果；

步骤S14：根据第二识别结果，确定目标图像的人脸表情类型。

本申请实施例中，根据包含人脸图像的目标图像获得输入数据，可以是将包含人脸图像的目标图像进行转换，生成适宜于输入表情识别模型的数据。

包含人脸图像的目标图像，可以是从视频中提取出的帧图像，也可以是图像拍摄装置拍摄获得的图像。

目标图像中包含的人脸，可以是完整的人脸，也可以是被遮挡的部分人脸。

将输入数据输入表情识别模型的二维卷积神经网络层，获得第一识别结果，具体可以是将输入数据输入表情识别模型，采用表情识别模型的至少一个二维卷积神经网络层进行二维卷积处理，得到第一识别结果。

在表情识别模型包括多个二维卷积神经网络层的情况下，将输入数据依次输入第1个二维卷积神经网络层、第2个二维卷积神经网络层……第n个二维卷积神经网络层。

将第一识别结果输入表情识别模型的三维卷积神经网络层，获得第二识别结果，具体可以是将二维卷积神经网络层处理的结果输入至少一个三维卷积神经网络层，进行三维卷积计算处理，得到第二识别结果。

在表情识别模型包括多个三维卷积神经网络层的情况下，将第一识别结果依次输入第1个三维卷积神经网络层、第2个三维卷积神经网络层……第n个三维卷积神经网络层。

根据第二识别结果，确定目标图像的人脸表情类型，具体可以包括将第二识别结果依次输入表情识别模型的全连接层等处理层，获得目标图像中的人脸表情分类结果。

人脸表情类型，具体可以包括人脸表情属于各表情分类的概率。比如，表情识别模型能够识别喜、怒、哀、乐四种表情分类，表情识别模型输出的人脸表情类型具体可以是人脸表情属于喜、怒、哀、乐四种表情的概率，比如：喜10％、怒10％、哀10％、乐70％。

本申请实施例中，将目标图像首先经过表情识别模型的二维卷积神经网络层进行处理，然后经过三维卷积神经网络层进行处理，从而，输入数据经过二维卷积计算之后，数据量会减小，后续在三维卷积神经网络层能够通过处理较少数据量的数据，提取时空信息，节省三维卷积计算的计算数据量，在保证目标图像的时空信息都能够提取的情况下，提高了图像的处理速度。

在一种实施方式中，表情识别模型为视觉几何小组VGG(Visual Geometry Group)模型，VGG模型包含多层二维卷积神经网络层和三维卷积神经网络层。

本实施例中，VGG模型可以选择VGG11为架构，将其中顺序靠后的一个以上的二维卷积神经网络层替换为三维卷积神经网络层。比如，将VGG11的后三个二维卷积神经网络层替换为三维卷积神经网络层。

VGG模型还可以选择其他VGG为架构，例如，可选择VGG16为架构，将其中顺序靠后的一个以上的二维卷积神经网络层替换为三维卷积神经网络层。

在其它实施例中，表情识别模型的架构还可以采用Resnet(Residual net，残差网络)模型。

本申请实施例中，采用VGG模型作为表情识别模型的框架，能够在获得目标图像的多个特征的同时，减少处理数据量，具有较高的处理速度。

在一种实施方式中，如图2所示，目标图像包括多个帧图像；根据包含人脸图像的目标图像获得输入数据之前，还包括：

步骤S21：从视频中提取包括人脸图像的多个帧图像；

步骤S22：对多个帧图像进行人脸识别，得到多个帧图像的人脸区域；

步骤S23：对多个帧图像的人脸区域进行关键点检测，得到人脸关键点的坐标；

步骤S24：根据人脸关键点的坐标，进行人脸区域对齐。

多个图像帧，为视频中的多个连续图像帧。多个连续图像帧在较短的时间间隔范围内进行提取，确保多个连续图像帧中的人脸表情为同一种表情。

本实施例中，从视频中提取多个帧图像作为目标图像，从而能够在其中一个帧图像存在光线遮挡等情况下，从其它连续的帧图像中获得同样的表情信息，提高了表情识别的准确性。

在一种实施方式中，根据包含人脸图像的目标图像获得输入数据，还包括：

根据人脸关键点的坐标，将多个帧图像的人脸区域调整至同样大小；

获得调整后的人脸区域所包括的人脸关键点的新坐标；

根据调整后的人脸区域以及新坐标，获得输入数据。

由于表情是一个连续性动作，仅用单帧图像很难准确的识别人脸表情，同时人脸大姿态、大遮挡、光线不均匀、图片质量参差不齐、表情特征不明显等问题，增大了识别的难度。本实施例中，使用视频连续帧图像代替单帧图像生成输入数据，可以使模型更容易学习表情动作的连续信息；从中提取人脸区域以及人脸关键点的坐标，从而输入数据中能够保留确定人脸表情所需要的所有数据，为准确获得输出结果提供了充分的信息。

在一种实施方式中，将输入数据输入表情识别模型的二维卷积神经网络层，获得第一识别结果，包括：

采用二维卷积神经网络层对输入数据进行特征提取；

根据提取的特征，获得第一识别结果。

本实施例中，采用二卷积神经网络对输入数据进行空间特征的提取。

经过二维卷积神经网络层的处理，输入数据的数据量能够缩小，比如将128×128的输入数据输入二维卷积神经网络进行特征提取后，能够缩小至64×64，这样，后续输入三维卷积神经网络层的数据量就会大幅度减少，减少三维卷积神经网络层的数据计算量，提高计算效率。

在一种实施方式中，将第一识别结果输入表情识别模型的三维卷积神经网络层，获得第二识别结果，包括：

采用三维卷积神经网络层对第一识别结果进行时空信息提取；

根据提取的时空信息，获得第二识别结果。

本实施例中，采用三维卷积神经网络层提取第一识别结果的时空信息，从而能够更为准确地识别出图像中的人脸表情。由于3D卷积参数量巨大，所以本实施例在二维卷积神经网络层提取特征信息的基础上，再采用三维卷积神经网络层进一步提取时空信息，可以大大降低模型的体积和复杂度，同时提高复杂环境下人脸表情识别的准确率和鲁棒性。

参照图3，本申请一种示例包括下述数据处理转换流程：

将现实场景视频表情数据，依次拆解成多个帧图像，每个帧图像包含人脸表情的RGB图像。本示例中，人脸表情根据人脸肌肉的变化分为7类基本表情，生气(Angry)、厌恶(Disgust)、恐惧(Fear)、高兴(Happiness)、悲伤(Sadness)、惊讶(Surprise)和中性(Neutral)。

对每张帧图像进行图像预处理，首先得到包含人脸的RGB图像；可通过人脸检测模型对人脸进行检测，得到人脸的大致位置区域；其中，检测模型可以为已有人脸检测模型，可以检测到人脸的位置。

其次根据人脸的大致位置区域，通过人脸关键点检测模型对人脸关键点进行检测得到人脸的关键点坐标值。其中，人脸关键点检测模型为已有模型，调用已有模型，输入已检测到人脸的图像，得到72个人脸关键点，如图4所示，72个关键点的坐标可以分别为(x₁,y₁)…(x₇₂,y₇₂)。

根据人脸的关键点坐标值对目标人脸进行人脸对齐，同时通过仿射变换截取仅包含人脸的图像区域并调整到相同尺寸128×128，人脸关键点坐标也根据仿射变换矩阵重新映射到新的坐标。

在本示例中，将得到的包含人脸的图像区域进行图像归一化处理。可以将图像中的每一个像素依次进行归一化处理，归一化处理的方法具体可以包括：每个像素的像素值减128再除以256，使每个像素的像素值在[-0.5,0.5]之间。将归一化处理后的图像进行随机数据增强处理，将数据增强后的图像作为卷积神经网络的输入。

在具体示例中，可以选择用VGG11作为卷积神经网络的backbone(框架)，将VGG11原有的最后三个2D卷积神经网络层改为3D卷积神经网络层，将处理好的连续8帧图像作为卷积神经网络层的输入，2D卷积神经网络层分别对每一帧图像进行特征提取，3D卷积神经网络层接在2D卷积神经网络层之后，提取连续帧图像的时空信息，最后通过一个全连接层得到人脸部7中表情类型对应的概率结果。

本示例中，采用视频中提取的多个连续的帧图像获得表情识别模型的输入数据，使表情识别模型更容易学习表情动作的连续信息。由于3D卷积参数量巨大，所以本申请示例中依次使用2D和3D卷积对应的卷积神经网络层对连续的帧图像特征进行提取，不仅可以大大降低表情识别模型本身的体积和复杂度，同时提高复杂环境下人脸表情识别的准确率和鲁棒性。

表情识别精度的提高有利于提高诸多应用的服务质量，例如在广告投放方面，有利于辅助推荐更符合用户需求的搜索结果和精准广告投放；在远程教育方面，有利于识别学生的情绪来改善教学内容，提高远程教育质量；在驾驶员监控场景中，有利于识别驾驶员的情绪，对驾驶员进行相应提示，以保证驾驶员的安全。

本申请实施例还提供一种表情识别装置，如图5所示，包括：

输入数据获得模块51，用于根据包含人脸图像的目标图像获得输入数据；

第一识别模块52，用于将输入数据输入表情识别模型的二维卷积神经网络层，获得第一识别结果；

第二识别模块53，用于将第一识别结果输入表情识别模型的三维卷积神经网络层，获得第二识别结果；

表情类型确定模块54，用于根据第二识别结果，确定帧图像的人脸表情类型。

在一种实施方式中，表情识别模型为视觉几何小组VGG模型，VGG模型包含多层二维卷积神经网络层和三维卷积神经网络层。

在一种实施方式中，如图6所示，装置还包括：

图像提取模块61，用于从视频中提取包括人脸图像的多个帧图像；

图像识别模块62，用于对多个帧图像进行人脸识别，得到多个帧图像的人脸区域；

关键点坐标获得模块63，用于对多个帧图像的人脸区域进行关键点检测，得到人脸关键点的坐标；

人脸区域对齐模块64，用于根据人脸关键点的坐标，进行人脸区域对齐。

在一种实施方式中，如图7所示，输入数据获得模块51还包括：

人脸区域调整单元71，用于根据人脸关键点的坐标，将多个帧图像的人脸区域调整至同样大小；

调整计算单元72，用于获得调整后的人脸区域所包括的人脸关键点的新坐标；

调整数据处理单元73，用于根据调整后的人脸区域以及新坐标，获得输入数据。

在一种实施方式中，如图8所示，第一识别模块52包括：

二维特征提取单元81，用于采用二维卷积神经网络层对输入数据进行特征提取；

二维特征处理单元82，用于根据提取的特征，获得第一识别结果。

在一种实施方式中，如图9所示，第二识别模块53包括：

三维特征提取单元91，用于采用三维卷积神经网络层对第一识别结果进行时空信息提取；

三维特征处理单元92，用于根据提取的时空信息，获得第二识别结果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图10所示，是根据本申请实施例的表情识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的表情识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的表情识别方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的表情识别方法对应的程序指令/模块(例如，附图5所示的输入数据获得模块51、第一识别模块52、第二识别模块53和表情类型确定模块54)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的表情识别方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据表情识别的电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至表情识别的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

表情识别方法的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与表情识别的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，能够结合二维卷积和三维卷积对目标图像进行处理，使得模型不仅能够获得图像中的时空信息，且具有较小的体积和较高的处理速率。

本申请实施例可应用于多种领域，例如，计算机视觉和深度学习等人工智能技术领域。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种表情识别方法，包括：

根据包含人脸图像的目标图像获得输入数据；

将所述输入数据输入表情识别模型的二维卷积神经网络层，获得第一识别结果；

将所述第一识别结果输入表情识别模型的三维卷积神经网络层，获得第二识别结果；

根据所述第二识别结果，确定所述目标图像的人脸表情类型。

2.根据权利要求1所述的方法，其中，所述表情识别模型为视觉几何小组VGG模型，所述VGG模型包含多层所述二维卷积神经网络层和三维卷积神经网络层。

3.根据权利要求1所述的方法，其中，所述目标图像包括多个帧图像；所述根据包含人脸图像的目标图像获得输入数据之前，还包括：

从视频中提取包括人脸图像的所述多个帧图像；

对所述多个帧图像进行人脸识别，得到所述多个帧图像的人脸区域；

对所述多个帧图像的人脸区域进行关键点检测，得到人脸关键点的坐标；

根据所述人脸关键点的坐标，进行人脸区域对齐。

4.根据权利要求3所述的方法，其中，所述根据包含人脸图像的目标图像获得输入数据，还包括：

根据所述人脸关键点的坐标，将所述多个帧图像的人脸区域调整至同样大小；

获得调整后的人脸区域所包括的人脸关键点的新坐标；

根据调整后的人脸区域以及所述新坐标，获得所述输入数据。

5.根据权利要求1-4中任意一项所述的方法，其中，所述将所述输入数据输入表情识别模型的二维卷积神经网络层，获得第一识别结果，包括：

采用所述二维卷积神经网络层对所述输入数据进行特征提取；

根据提取的特征，获得所述第一识别结果。

6.根据权利要求5所述的方法，其中，所述将所述第一识别结果输入表情识别模型的三维卷积神经网络层，获得第二识别结果，包括：

采用所述三维卷积神经网络层对所述第一识别结果进行时空信息提取；

根据提取的时空信息，获得第二识别结果。

7.一种表情识别装置，包括：

第一识别模块，用于将所述输入数据输入表情识别模型的二维卷积神经网络层，获得第一识别结果；

第二识别模块，用于将所述第一识别结果输入表情识别模型的三维卷积神经网络层，获得第二识别结果；

表情类型确定模块，用于根据所述第二识别结果，确定所述目标图像的人脸表情类型。

8.根据权利要求7所述的装置，其中，所述表情识别模型为视觉几何小组VGG模型，所述VGG模型包含多层所述二维卷积神经网络层和三维卷积神经网络层。

9.根据权利要求7所述的装置，其中，所述目标图像包括多个帧图像，所述装置还包括：

图像提取模块，用于从视频中提取包括人脸图像的所述多个帧图像；

图像识别模块，用于对所述多个帧图像进行人脸识别，得到所述多个帧图像的人脸区域；

关键点坐标获得模块，用于对所述多个帧图像的人脸区域进行关键点检测，得到人脸关键点的坐标；

人脸区域对齐模块，用于根据所述人脸关键点的坐标，进行人脸区域对齐。

10.根据权利要求9所述的装置，其中，所述输入数据获得模块还包括：

人脸区域调整单元，用于根据所述人脸关键点的坐标，将所述多个帧图像的人脸区域调整至同样大小；

调整计算单元，用于获得调整后的人脸区域所包括的人脸关键点的新坐标；

调整数据处理单元，用于根据调整后的人脸区域以及所述新坐标，获得所述输入数据。

11.根据权利要求7-10中任意一项所述的装置，其中，所述第一识别模块包括：

二维特征提取单元，用于采用所述二维卷积神经网络层对所述输入数据进行特征提取；

二维特征处理单元，用于根据提取的特征，获得所述第一识别结果。

12.根据权利要求11所述的装置，其中，所述第二识别模块包括：

三维特征提取单元，用于采用所述三维卷积神经网络层对所述第一识别结果进行时空信息提取；

三维特征处理单元，用于根据提取的时空信息，获得第二识别结果。

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。