CN111783620A

CN111783620A - 表情识别方法、装置、设备及存储介质

Info

Publication number: CN111783620A
Application number: CN202010604383.9A
Authority: CN
Inventors: 王珂尧
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-16

Abstract

本申请公开了表情识别方法、装置、设备及存储介质，涉及人工智能领域中的计算机视觉、图像处理、深度学习以及云服务方面。具体实现方案为：通过确定出待处理视频对应的至少两帧待识别图像，分别对每帧待识别图像进行人脸表情识别，得到第一表情识别结果，再对至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到第二表情识别结果，最后对第一表情识别结果和第二表情识别结果进行融合处理，得到待处理视频对应的表情识别结果。该技术方案基于单个离散的图像进行人脸表情识别和图像帧序列对应的连续图像进行表情识别，并将两者的结果进行融合，提高了表情识别的准确性。

Description

表情识别方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能领域中的计算机视觉、图像处理、深度学习以及云服务方面，尤其涉及一种表情识别方法、装置、设备及存储介质。

背景技术

随着人们对人机智能交互性能的不断提高，人机智能交互研究得到越来越多的关注。视频数据中的人脸表情识别是人机交互的一种重要方式，通过分析人脸表情，可以获得视频数据中人物的情感信息，实现了智能的人机交互，从而为人脸表情识别结果的实际应用提供实现可能。

现有技术中，视频数据中的人脸表情识别主要是在获取到待处理视频后，首先对待处理视频进行拆解得到一系列的表情图像，然后利用基于卷积神经网络(convolutionalneural network，CNN)或循环神经网络(recurrent neural network，RNN)训练得到的表情识别模型对得到的表情图像进行人脸表情识别，从而得到视频中人脸的表情识别结果。

然而，基于CNN或RNN训练得到的表情识别模型的识别性能受环境的影响较大，对于真实场景中人脸姿态过大和光照差异较大的视频，其鲁棒性较差，存在人脸表情识别不准确的问题。

发明内容

本申请提供了一种表情识别方法、装置、设备及存储介质。

根据本申请的第一方面，提供了一种表情识别方法，包括：

确定待处理视频对应的至少两帧待识别图像，每帧待识别图像中均包含人脸区域；

对所述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别，得到所述待处理视频对应的第一表情识别结果；

对所述至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到所述待处理视频对应的第二表情识别结果；

对所述第一表情识别结果和所述第二表情识别结果进行融合处理，得到所述待处理视频对应的表情识别结果。

根据本申请的第二方面，提供了一种表情识别装置，包括：处理模块、第一识别模块、第二识别模块和融合模块；

所述处理模块，用于确定待处理视频对应的至少两帧待识别图像，每帧待识别图像中均包含人脸区域；

所述第一识别模块，用于对所述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别，得到所述待处理视频对应的第一表情识别结果；

所述第二识别模块，用于对所述至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到所述待处理视频对应的第二表情识别结果；

所述融合模块，用于对所述第一表情识别结果和所述第二表情识别结果进行融合处理，得到所述待处理视频对应的表情识别结果。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面以及第一方面各可能设计所述的方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面以及第一方面各可能设计所述的方法。

根据本申请的第五方面，提供了一种表情识别方法，包括：

对待处理视频对应的每帧视频图像进行人脸表情识别，得到第一表情识别结果；

对所述待处理视频对应的至少一个图像帧序列进行人脸表情识别，得到第二表情识别结果；

根据所述第一表情识别结果和所述第二表情识别结果，确定所述待处理视频对应的表情识别结果。

本申请实施例提供的表情识别方法、装置、设备及存储介质，通过确定出待处理视频对应的至少两帧待识别图像，分别对每帧待识别图像进行人脸表情识别，得到待处理视频对应的第一表情识别结果，再对至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到待处理视频对应的第二表情识别结果，最后对第一表情识别结果和第二表情识别结果进行融合处理，得到待处理视频对应的表情识别结果。该技术方案中，基于单个离散的图像进行人脸表情识别和图像帧序列对应的连续图像进行表情识别，并将两者的结果进行融合，提高了表情识别的准确性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的表情识别方法的应用场景示意图；

图2是根据本申请第一实施例提供的表情识别方法的流程示意图；

图3是根据本申请第二实施例提供的表情识别方法的流程示意图；

图4是本申请提供实施例中基于离散帧表情识别模型进行表情识别的工作原理示意图；

图5是本申请提供实施例中基于连续帧表情识别模型进行表情识别的工作原理示意图；

图6是根据本申请第三实施例提供的表情识别方法的流程示意图；

图7是根据本申请第四实施例提供的表情识别方法的流程示意图；

图8是根据本申请第五实施例提供的表情识别方法的流程示意图；

图9为本申请实施例提供的表情识别装置的结构示意图；

图10是用来实现本申请实施例的表情识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着情感计算和智能化人机交互技术的发展，人脸表情识别已经在各个不同领域，包括计算机科学、神经学、心理学领域的研究热点。由于情绪是人体不可分割的一部分，如果计算机系统能够感知人类情绪，那么人的情绪(表情)识别将会在安全、教育、神经学、律法以及通信技术等众多领域中得到广泛应用。

在实际应用中，人脸面部表情(简称人脸表情)是面部肌肉的一个或多个动作或状态的结果。这些动作或状态表达了个体对观察者的情绪状态。面部表情是非语言交际的一种形式。它是表达人类之间的社会信息的主要手段。

人脸表情根据人脸肌肉的变化分为7类基本表情，生气(Angry)、厌恶(Disgust)、恐惧(Fear)、高兴(Happiness)、悲伤(Sadness)、惊讶(Surprise)和中性(Neutral)。除此之外，人类的面部表情还可以其他多种复合表情，例如，惊喜(高兴+惊讶)、悲愤(悲伤+生气)等。本申请实施例并不对其他复合表情的具体形式进行限定。

现阶段，根据研究对象的不同，表情识别可分为基于静态图像和基于视频两种情况。基于静态图像的表情识别在过去几十年中得到了长足的发展，有着特征提取简单、快速、便捷等优点，在特定环境下也可取得很好的识别效果。但静态图像的特征所包含的表情信息非常有限，容易受到外界环境和个体差异性等因素的影响，而且随着计算机的快速发展，人们更多地开始关注基于视频(图像序列)的表情识别研究，由于表情的产生和消失都有过程，基于视频的表情识别更能反映一个完整表情的运动过程，包含更多的面部运动和时间信息。所以，基于视频的表情识别研究更有实际意义，也更具挑战性。

现有技术中，基于视频的人脸表情识别主要基于人工识别或者使用卷积神经网络(convolutional neural network，CNN)或循环神经网络(recurrent neural network，RNN)训练得到的表情识别模型对得到的表情图像进行人脸表情识别。但是该方法使用的表情识别模型对于真实场景中人脸姿态过大和光照差异较大情况，存在视频识别的鲁棒性较差，导致人脸表情识别效果差，尤其是在表情强度较低的情况下，极易造成误识别，存在人脸表情识别精度低的问题。

针对上述技术问题，本申请实施例提供了一种表情识别方法、装置、设备及存储介质，应用于人工智能领域中的计算机视觉、图像处理、深度学习以及云服务方面，以达到提高视频中人脸表情识别的精度，从而提高了在辅助驾驶、远程教育、广告精准投放等领域的利用价值。

在本申请的实施例中，通过确定出待处理视频对应的至少两帧待识别图像，分别对每帧待识别图像进行人脸表情识别，得到待处理视频对应的第一表情识别结果，再对至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到待处理视频对应的第二表情识别结果，最后对第一表情识别结果和第二表情识别结果进行融合处理，得到待处理视频对应的表情识别结果。该技术方案中，基于单个离散的图像进行人脸表情识别和图像帧序列对应的连续图像进行表情识别，并将两者的结果进行融合，提高了表情识别的准确性。

本申请的技术构思如下：由于现有技术中的表情识别模型均是基于CNN、RNN等单模型训练得到的，其在真实场景中的视频鲁棒性较差，表情识别效果较差，通过研究，发明人发现如果分别对视频中的单个图像和多个连续图像进行表情识别，并将两个结果进行融合，可以很大程度的提高表情识别效果。此外，通过特定的离散帧表情识别模型和连续帧表情识别模型可以进一步提高各识别结果的精度，故提出本申请的技术方案。关于本申请技术方案的具体实现可以参见下述实施例中的记载，此处不再赘述。

示例性的，图1是本申请实施例提供的表情识别方法的应用场景示意图。参照图1所示，该应用场景可以包括：采集设备11和电子设备12。

其中，采集设备11是用于采集视频的设备，例如，手机终端、笔记本等终端设备，各场所或卡口安装的摄像设备等。本申请实施例并不对采集设备的具体实现形式进行限定，其可以根据实际场景确定。

电子设备12是能够与采集设备11进行通信的设备，其能够获取采集设备采集的视频，并对该视频进行预处理和人脸表情识别。例如，对视频进行拆解、人脸检测、人脸关键点检测、图像变换、归一化处理等预处理过程，利用预先训练的离散帧表情识别模型和连续帧表情识别模型对视频图像进行表情识别，以及利用预先训练的音频模型进行表情识别等。

可以理解的是，图1示出的应用场景图仅是一种示例性说明。在实际应用中，可以根据实际需求进行调整，例如，采集设备11和电子设备可以集成在同一个设备上，该应用场景还可以包括存储设备等，本申请实施例并不对其进行限定。

可选的，本申请实施例的执行主体可以是电子设备，例如，计算机、平板电脑等终端设备，也可以是服务器，例如，后台的处理平台等。因而，本实施例以终端设备和服务器统称为电子设备进行解释说明，关于该电子设备具体为终端设备，还是服务器，其可以实际情况确定。

下面，通过具体实施例对本申请的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2是根据本申请第一实施例提供的表情识别方法的流程示意图。如图2所示，该方法可以包括如下步骤：

S201、确定待处理视频对应的至少两帧待识别图像，每帧待识别图像中均包含人脸区域。

在实际应用中，视频是由一系列捕获的图像(称为帧)以指定频率进行显示而形成的，因而，通过控制视频在特定的帧处停止可以获得单个视频帧，即图像。可以理解的是，图像是组成视频的最小单位。

在本申请的实施例中，当需要对待处理视频中的人脸进行表情识别时，首先需要对待处理视频进行处理，从中拆解出待处理视频对应的视频帧。

此外，由于本申请需要对待处理视频对应的图像帧序列进行处理，因而，电子设备在对待处理视频处理后，需要确定出至少两帧包括人脸区域的待识别图像。

可选的，由于本申请的目标是识别视频中的人脸表情，因而，本申请处理的对象至少两帧待识别图像中均需要包含人脸区域。

S202、对上述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别，得到待处理视频对应的第一表情识别结果。

在本申请的实施例中，电子设备可以分别针对上述至少两帧待识别图像进行人脸表情识别，得到每帧待识别图像对应的表情识别结果，然后再统计所有帧的待识别图像对应的表情识别结果，确定出每种表情识别结果的数量，进而将数量最多的表情识别结果作为待处理视频的表情识别结果，即第一表情识别结果。

可选的，在具体实现时，电子设备可以将每帧待识别图像输入到预先训练的表情识别模型中进行表情识别，该表情识别模型是利用标注好的图像帧样本对预设网络进行训练得到的，也可以直接对每帧待识别图像进行人脸提取，然后再对提取的人脸特征进行表情分析，进而确定出每帧待识别图像的表情识别结果。可以理解的是，本申请实施例并不对每帧待识别图像的表情识别方法进行限定，其可以根据实际情况确定，此处不再赘述。

S203、对至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到待处理视频对应的第二表情识别结果。

在实际应用中，对于同一段视频中的人物，连续的多帧图像通常具有相同的人脸表情，因而，为了提高表情识别的精度，电子设备可以分别针对由至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到每个图像帧序列对应的表情识别结果，然后再统计所有图像帧序列的表情识别结果，确定出每种表情识别结果的数量，进而将数量最多的表情识别结果作为待处理视频的表情识别结果，即第二表情识别结果。

可选的，在具体实现时，电子设备可以将每个图像帧序列输入到预先训练的表情识别模型中进行表情识别，该表情识别模型是利用标注好的图像帧序列对预设网络进行训练得到的，也可以直接对每个图像帧序列进行人脸特征提取、非局部特征提取和图像时序信息提取，然后再对提取的人脸特征、非局部特征和时序信息进行人脸表情分析，进而确定出每个图像帧序列的表情识别结果。可以理解的是，本申请实施例并不对每帧待识别图像的表情识别方法进行限定，其可以根据实际情况确定，此处不再赘述。

S204、对上述第一表情识别结果和第二表情识别结果进行融合处理，得到待处理视频对应的表情识别结果。

可选的，电子设备在基于单个待识别图像确定出待处理视频对应的第一表情识别结果，且基于图像帧序列确定出待处理视频对应的第二表情识别结果时，通过对两者进行信息融合，以决策待处理视频对应的表情识别结果。

在本实施例中，信息融合是把第一表情识别结果和第二表情识别结果合并归纳为一个具有同意表示形式的表情识别结果的推理过程，利用待识别图像和图像帧序列在时间或空间上的冗余性和互补性，对第一表情识别结果和第二表情识别结果进行合理支配和使用，以获得对待处理视频的表情识别结果具有一致性的解释和描述，从而提高了表情识别结果的准确度。

本申请实施例提供的表情识别方法，通过确定出待处理视频对应的至少两帧待识别图像，分别对每帧待识别图像进行人脸表情识别，得到待处理视频对应的第一表情识别结果，再对至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到待处理视频对应的第二表情识别结果，最后对第一表情识别结果和第二表情识别结果进行融合处理，得到待处理视频对应的表情识别结果。该技术方案中，基于单个离散的图像进行人脸表情识别和图像帧序列对应的连续图像进行表情识别，并将两者的结果进行融合，提高了表情识别的准确性。

示例性的，在上述实施例的基础上，图3是根据本申请第二实施例提供的表情识别方法的流程示意图。如图3所示，在本实施例中，上述S202可以通过如下步骤实现：

S301、利用预先训练的离散帧表情识别模型依次对上述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别，得到待处理视频对应的第一表情识别结果。

其中，离散帧表情识别模型包括：纹理特征识别模型和/或粒度特征识别模型；该纹理特征识别模型是利用视频图像样本集对计算机视觉组网络进行训练得到的，该粒度特征识别模型是利用视频图像样本集对第一神经网络进行训练得到的，该第一神经网络包括：计算机视觉组网络和双线性模型。

在实际应用中，计算机视觉组(visual geometry group，VGG)网络是通过研究卷积神经网络的深度和其性能之间的关系而建立的一种深度卷积神经网络，其具有较高的准确率和泛化能力非常好，在不同的图片数据集上都有良好的表现。

然而，在表情识别任务中，最重要的是浅层提取的图像纹理特征，而深层提取的图像抽象特征并不能给表情识别任务带来太多增益，因而，本申请实施例中可以选择层次最少的VGG网络，即VGG-11网络。

在具体使用之前，首先可以获取标记好的视频图像样本集，然后将该视频图像样本集中每帧视频图像依次输入到VGG-11网络中，通过分析视频图像的纹理特征，进而根据VGG-11网络输出的表情识别结果调整VGG-11网络的参数，以使得VGG-11网络的输出的表情识别结果与视频图像样本的标记结果一致，在本实施例中，训练后的VGG-11网络就是纹理特征识别模型。

在实际应用中，由于视频的人脸表情识别与细粒度图像分类特点相似，即类间差异通常比类内差异更小。因此，如何获取类内具有差异性特征是视频中人脸表情识别的关键。受到细粒度图像分类的启发，本实施例中，可以将表情识别当成一个弱监督细粒度分类的任务，同时，由于人脸面部表情识别的关键在于面部肌肉的扭曲程度，而不是相应特征是否存在，且二阶(second-order)特征能更好的体现肌肉的扭曲特征。因此，可以认为二阶特征比一阶特征更适合视频人脸表情识别这一任务。

在实际应用中，由于考虑到模型的容量过大可能造成过拟合现象，因而，本实施例中的神经网络可以采用完全共享参数方式，仅使用VGG-Emo网络进行特征提取，然后将VGG-Emo网络池化后的512维特征矩阵x作为双线性模块的输入。由于矩阵大小为512×1，则特征矩阵x的转置矩阵x^T大小为1×512，特征矩阵做外积后得到512×512大小的二阶特征矩阵，免去了双线性模型中的池化操作，随后再将该二阶特征矩阵重新拉伸为1×262144大小的一维特征向量，再将该一维特征向量经过符号平方根变换和标准化，最后经过全连接层和激励函数Softmax层进行图像分类，完成最终的表情分类。

因而，在本申请的实施例中，可以首先基于计算机视觉组网络和双线性模型进行训练得到第一神经网络，以满足上述视频表情识别的任务。具体的，首先获取标记好的视频图像样本集，然后将该视频图像样本集中每帧视频图像依次输入到VGG-11网络和双线性模型组成的第一神经网络中，通过分析视频图像的纹理特征和表情分类结果，进而根据第一神经网络输出的表情识别结果调整第一神经网络的参数，以使得第一神经网络的输出的表情识别结果与视频图像样本的标记结果一致，在本实施例中，训练后的第一神经网络就是粒度特征识别模型。

示例性的，图4是本申请提供实施例中基于离散帧表情识别模型进行表情识别的工作原理示意图。图4所示的示意图以离散帧表情识别模型包括纹理特征识别模型和粒度特征识别模型进行举例说明。在图4中，纹理特征识别模型通过VGG-Emo网络表示，粒度特征识别模型利用VGG-Emo网络和双线性模型表示。

如图4所示，待处理视频对应的至少两帧待识别图像中的每帧待识别图像分别输入到离散帧表情识别模型，一方面每帧待识别图像依次输入到VGG-Emo网络中，并依次输出每个待识别图像对应的表情预测结果，根据表情预测结果对应表情的数量，将待识别图像数量最多的表情确定该VGG-Emo网络的最终预测结果，记为结果1；另一方面，每帧待识别图像依次输入到VGG-Emo网络和双线性模型中，并依次输出每个待识别图像对应的表情预测结果，根据表情预测结果对应表情的数量，将待识别图像数量最多的表情确定VGG-Emo网络和双线性模型的最终预测结果，记为结果2。相应的，结果1和结果2的整合结果即为上述的第一表情识别结果。

示例性的，在本申请的实施例中，如图3所示，上述S203可以通过如下步骤实现：

S302、利用预先训练的连续帧表情识别模型依次对至少一个图像帧序列进行人脸表情识别，得到待处理视频对应的第二表情识别结果。

其中，该连续帧表情识别模型包括：非局部特征识别模型和/或时空特征识别模型；该非局部特征识别模型是利用视频图像样本集对第二神经网络进行训练得到的，第二神经网络包括：计算机视觉组网络、非局部信息模块和门控循环单元，时空特征识别模型是利用视频图像样本集对C3D网络进行训练得到的。

可选的，关于VGG的具体描述可以参见上述S301中的记载，此处不再赘述。非局部信息(nonlocal，NL)模块主要适用于嵌套函数中内部函数修改外部变量的值，门控循环单元(gated recurrent unit，GRU)是长短期记忆网络(Long Short-Term Memory，LSTM)的一个变体，是RNN中的一种门控机制，旨在解决标准RNN中的梯度消失/爆炸问题并同时保留序列的长期信息。

在本申请的实施例中，通过在VGG-Emo网络的后面加上nonlocal模块以提取待识别图像的全局信息，再在后面加入GRU以提取图像帧序列中表情的时序信息，利用注意力机制和时序信息进行结合，提高视频表情识别的准确率。

可选的，在具体使用之前，首先可以获取标记好的视频图像样本集，然后对该视频图像样本集进行处理得到至少一个图像帧序列，再将每个图像帧序列依次输入到计算机视觉组网络、非局部信息模块和门控循环单元组成的第二神经网络中，通过分析图像帧序列对应人脸表情的纹理特征、非局部信息和时序信息，进而根据第二神经网络输出的表情识别结果调整第二神经网络的参数，以使得第二神经网络的输出的表情识别结果与每个图像帧序列的标记结果一致，在本实施例中，训练后的第二神经网络就是非局部特征识别模型。

此外，深度3维卷积网络(3D ConvNets，C3d)是在大规模有监督视频数据集上使用深度3维卷积网络提取序列时空信息的一种常用方法，而修改的C3D(modified C3D)是在c3d的基础上利用单帧图像进行预训练，进而提升了c3d模型的准确率。在实际应用中，利用标记好的视频图像样本集对应的至少一个图像帧序列对C3D进行训练可以得到时空特征识别模型。

示例性的，图5是本申请提供实施例中基于连续帧表情识别模型进行表情识别的工作原理示意图。图5所示的示意图以连续帧表情识别模型包括非局部特征识别模型和时空特征识别模型进行举例说明。在图5中，非局部特征识别模型通过VGG-NL-GRU网络表示，时空特征识别模型利用修改的C3D网络表示。

如图5所示，待处理视频对应的至少一个图像帧序列分别输入到连续帧表情识别模型，一方面每个图像帧序列依次输入到VGG-NL-GRU网络中，并依次输出每个图像帧序列对应的表情预测结果，根据表情预测结果对应表情的数量，将具有最多图像帧序的表情确定该VGG-NL-GRU网络的最终预测结果，记为结果3；另一方面，每个图像帧序列依次输入到修改的C3D网络中，并依次输出每个图像帧序列对应的表情预测结果，根据表情预测结果对应表情的数量，确定修改的C3D网络的最终预测结果，记为结果4。相应的，结果3和结果4的整合结果即为上述的第二表情识别结果。

可选的，在本申请的实施例中，如图3所示，在上述S303之前，该方法还可以包括如下步骤：

S302a、根据至少两帧待识别图像，确定至少一个图像帧序列。

其中，每个图像帧序列均具有第一数量的待识别图像，且相邻两个图像帧序列均有第二数量的待识别图像重合，该第二数量的取值小于第一数量的取值。

在实际应用中，由于表情的产生和消失都有过程，因而对视频中的表情进行识别时，可以基于图像帧之间的关联关系确定出一个图像帧序列，以保证基于视频的表情识别更能反映一个完整表情的运动过程。

可选的，在本实施例的一种可能设计中，第一数量等于第二数量的2倍。例如，第一数量为16帧，第二数量为8帧。若一个图像帧序列包括16个待识别图像帧，则相邻两个图像帧序列之间有8帧重合，也就是说，每一个序列与上一个序列有8帧重合。

在本申请的实施例中，通过设置相邻图像帧具有部分重合的图像帧，这样可以更全面的提取到视频中的人脸表情信息，为后续得到准确的表情识别结果奠定了基础。

本申请实施例提供的表情识别方法，通过利用预先训练的离散帧表情识别模型依次对上述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别，得到待处理视频对应的第一表情识别结果，利用预先训练的连续帧表情识别模型依次对至少一个图像帧序列进行人脸表情识别，得到待处理视频对应的第二表情识别结果。该技术方案，基于预先训练好的表识别模型进行表情识别简化了第一表情识别结果和第二表情识别结果的获取流程，提高了识别效率和识别准确度。

示例性的，在上述实施例的基础上，图6是根据本申请第三实施例提供的表情识别方法的流程示意图。如图6所示，在本实施例中，该方法还可以包括如下步骤：

S601、确定待处理视频对应的待识别音频信息。

由于视频通常是由图像帧和声音信息形成的，因而，在本申请的实施例中，电子设备可以对待处理视频进行处理，从中拆解出对应的待识别音频信息。

可选的，可以利用专门的视频转音频的应用进行音频信息提取。可以理解的是，本申请实施例并不限定从待处理视频中提取待识别音频信息的方法，其可以根据实际需求确定，此处不再赘述。

S602、基于预设的音频识别模型，提取待识别音频信息的音频特征。

众多周知，音频信号(acoustic signals)是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。因而，利用预设的音频识别模型，对待识别音频信息(音频信号)进行分析，能够提取出与人有关的音频特征，例如，待处理视频中人脸对应人的声音等信息。

可选的，本申请实施例并不限定从待识别音频信息中提取音频特征的方式，其可以根据实际场景确定，此处不再赘述。

在本申请的实施例中，预设的音频识别模型可以是通过对声音网络(SoundNet)进行处理得到的，因而，可以将提取后的音频信息作为输入，通过预设的音频识别模型(例如，1d的卷积神经网络)提取音频特征

S603、根据该音频特征，得到待处理视频对应的第三表情识别结果。

在本申请的实施例中，在得到待识别音频信息对应的音频特征后，对音频特征直接进行分类，便可以得到待处理视频对应的第三表情识别结果。示例性的，基于音频特征进行表情识别也可以通过一个预设的表情分类模型进行确定，本实施例并不对其进行限定。

相应的，上述S204可以替换为如下步骤：

S604、对第一表情识别结果、第二表情识别结果和第三表情识别结果进行融合处理，得到待处理视频对应的表情识别结果。

在本申请的实施例中，由于视频包括图像和音频等特征，因而，在确定出待识别图像对应的第一表情识别结果、第二表情识别结果、第三表情识别结果后，可以将三者进行信息融合，并将融合后的最终表情识别结果作为待处理视频对应的表情识别结果。

作为一种示例，电子设备可以基于多数投票法对第一表情识别结果、第二表情识别结果和第三表情识别结果确定最终结果。例如，假设第一表情识别结果为高兴，第二表情识别结果为伤心，第三表情识别结果为高兴，则可以确定待处理视频对应的表情识别结果为高兴。

本申请实施例提供的表情识别方法，通过确定待处理视频对应的待识别音频信息，基于预设的音频识别模型，提取待识别音频信息的音频特征，进而根据该音频特征，得到待处理视频对应的第三表情识别结果，故通过对第一表情识别结果、第二表情识别结果和第三表情识别结果进行融合处理，可以得到待处理视频对应的表情识别结果。该技术方案中，通过利用待处理视频中人脸表情的图像信息，时序信息和音频信息等对表情进行分类，进一步提高了视频人脸表情识别的准确率。

示例性的，在上述实施例的基础上，图7是根据本申请第四实施例提供的表情识别方法的流程示意图。如图7所示，在本实施例中，上述S201可以通过如下步骤实现：

S701、对获取到的待处理视频进行拆解，得到至少两帧视频图像和待识别音频信息。

在本申请的实施例中，电子设备获取到待处理视频后，为了得到待处理视频对应显示场景中的视频表情数据，可以对待处理视频进行依次拆解，得到至少两帧视频图像以及待识别音频信息。

其中，至少两帧视频图像可以是一系列包含人脸表情的RGB图像。其中，RGB图像是二进制图像的一种，其中的每个像素的颜色可以用三个数据来存储，分别指定了红、绿、蓝三原色在像素颜色中的比例关系，组成的一个三维数组。

S702、对至少两帧视频图像中的每帧视频图像进行图像预处理，得到至少两帧待识别图像。

其中，该图像预处理包括如下至少一种：人脸检测、人脸关键点检测、尺寸处理、归一化处理、增强处理。

示例性的，在本实施例中，电子设备针对上述至少两帧待识别图像中的每帧待识别图像(包含人脸的RGB图像)，首先通过人脸检测模型对待识别图像中的人脸进行检测，得到人脸的大致位置区域。

可选的，电子设备还可以根据人脸检测得到的人脸的大致位置区域，通过人脸关键点检测模型对人脸关键点进行检测得到人脸的关键点坐标值。其中，人脸关键点检测模型是预先训练的模型，调用该模型，通过将包含人脸的图像输入可以得到预设数量的人脸关键点以及关键点坐标值。示例性的，人脸关键点的数量可以为72个，则72个人脸关键点的坐标可以分别为(x1,y1)，…，(x72,y72)。

进一步的，在人脸关键点检测的基础上，可以根据人脸的关键点坐标值对待识别图像中的人脸进行人脸对齐，同时通过仿射变换截取仅包含人脸区域的图像，并将其调整到相同尺寸128×128，人脸关键点坐标也根据仿射变换矩阵重新映射到新的坐标。其中，仿射变换又称仿射映射，是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间。在本实施例中，基于仿射变换对待识别图像进行处理可以提高人脸表情识别的精度。

进一步的，在本申请的实施例中，为了解决图像像素大小参差不齐的问题，电子设备可以将得到的包含人脸图像区域的图像进行归一化处理。本实施例中，图像归一化处理是指对图像中的每一个像素依次进行归一化处理，归一化处理的方法是：每个像素的像素值减128再除以256，使每个像素的像素值在[-0.5,0.5]之间。

随后，对归一化处理后的图像进行随机数据增强处理，例如，翻转，平移等，以提高待识别图像的准确度。

本申请实施例提供的表情识别方法，通过对获取到的待处理视频进行拆解，得到至少两帧视频图像和待识别音频信息，然后对至少两帧视频图像中的每帧视频图像进行图像预处理，得到至少两帧待识别图像，其中，图像预处理包括如下至少一种：人脸检测、人脸关键点检测、尺寸处理、归一化处理、增强处理。该技术方案中，对待处理视频进行人脸表情识别之前，首先对待处理视频进行拆解以及对得到的视频图像进行预处理，能够提高待识别图像的精度，进而为后续提高表情识别的准确度提供了实现前提。

综上各实施例介绍了本申请的具体实现方案，下面通过一个具体示例进行说明。

示例性的，图8是根据本申请第五实施例提供的表情识别方法的流程示意图。如图8所示，在本实施例中，表情识别过程可以分为视频处理部分和表情识别部分。本实施例中，以表情分为生气、厌恶、恐惧、高兴、悲伤、惊讶和中性进行说明。

其中，视频处理部分可以解释为电子设备对待处理视频进行拆解，得到至少两帧视频图像，然后对至少两帧视频图像进行预处理后，得到至少两帧待识别图像。

可选的，表情识别部分可以分别通过离散帧表情识别模型、连续帧表情识别模型和声音网络模型得到识别结果。

示例性的，该离散帧表情识别模型包括：纹理特征识别模型(VGG-Emo网络)、粒度特征识别模型(VGG-Emo网络和双线性模型)。连续帧表情识别模型包括：非局部特征识别模型(VGG-NL-GRU网络)、时空特征识别模型(修改的C3D网络)。

具体的，将待处理视频对应的至少两帧待识别图像依次输入到离散帧表情识别模型中，一方面，利用VGG-Emo网络对每帧待识别图像进行表情识别，基于所有帧待识别图像的表情识别结果进行多数投票方法，得到结果1(高兴)。另一方面，利用VGG-Emo网络和双线性模型同样对每帧待识别图像进行表情识别，基于所有帧待识别图像的表情识别结果进行多数投票方法，得到结果2(高兴)。

另外，对于至少两帧待识别图像对于的至少一个图像帧序列，将每个图像帧序列依次输入到连续帧表情识别模型中，一方面，利用VGG-NL-GRU网络对每个图像帧序列进行表情识别，基于所有图像帧序列的表情识别结果进行多数投票方法，得到结果3(生气)。另一方面，利用修改的C3D网络同样对每个图像帧序列进行表情识别，所有图像帧序列的表情识别结果进行多数投票方法，得到结果4(高兴)。

进一步的，将待处理视频对应的待识别音频信息输入到声音网络模型中进行表情识别，得到结果5(惊讶)。

电子设备最后将得到的结果1、结果2、结果3、结果4、结果5，利用多数投票法进行结果融合，得到票数最多的结果(高兴)为待处理视频对应的表情识别结果。

综上可知，本申请实施例提供的方法，将基于离散帧的两种视频表情识别模型、基于连续帧的两种视频表情识别模型和一种基于音频的视频表情识别模型的结果进行融合，大大提高了现实场景视频表情识别的精度。即，利用多模型融合的思想，融合了视频中人脸表情的图像信息，时序信息和音频信息等提取视频表情多模态信息进行表情分类，在视频人脸表情识别特别是现实场景的视频人脸表情识别的准确率有较大提升。

在实际应用中，精度的提高有利于提高诸多应用的服务质量，例如在广告投放方面，有利于辅助推荐更符合用户需求的搜索结果和精准广告投放、在远程教育方面，有利于识别学生的情绪来改善教学内容，提高远程教育质量、在驾驶员监控场景中，有利于识别驾驶员的情绪，对驾驶员进行相应提示，以保证驾驶员的安全。

上述介绍了本申请实施例提到的表情识别方法的具体实现，下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图9为本申请实施例提供的表情识别装置的结构示意图。该装置可以集成在电子设备中或通过电子设备实现，该电子设备可以为终端设备，也可以是服务器。如图9所示，在本实施例中，该表情识别装置90可以包括：

处理模块901，用于确定待处理视频对应的至少两帧待识别图像，每帧待识别图像中均包含人脸区域；

第一识别模块902，用于对所述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别，得到所述待处理视频对应的第一表情识别结果；

第二识别模块903，用于对所述至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到所述待处理视频对应的第二表情识别结果；

融合模块904，用于对所述第一表情识别结果和所述第二表情识别结果进行融合处理，得到所述待处理视频对应的表情识别结果。

在本申请实施例的一种可能设计中，第一识别模块902，具体用于利用预先训练的离散帧表情识别模型依次对所述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别，得到所述待处理视频对应的第一表情识别结果；

所述离散帧表情识别模型包括：纹理特征识别模型和/或粒度特征识别模型，所述纹理特征识别模型是利用视频图像样本集对计算机视觉组网络进行训练得到的，所述粒度特征识别模型是利用视频图像样本集对第一神经网络进行训练得到的，所述第一神经网络包括：计算机视觉组网络和双线性模型。

在本申请实施例的另一种可能设计中，第二识别模块903，具体用于利用预先训练的连续帧表情识别模型依次对所述至少一个图像帧序列进行人脸表情识别，得到所述待处理视频对应的第二表情识别结果；

所述连续帧表情识别模型包括：非局部特征识别模型和/或时空特征识别模型，所述非局部特征识别模型是利用视频图像样本集对第二神经网络进行训练得到的，所述第二神经网络包括：计算机视觉组网络、非局部信息模块和门控循环单元，所述时空特征识别模型是利用视频图像样本集对C3D网络进行训练得到的。

在本申请的实施例中，处理模块901，还用于在第二识别模块903对所述至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到所述待处理视频对应的第二表情识别结果之前，根据所述至少两帧待识别图像，确定至少一个图像帧序列，其中，每个图像帧序列均具有第一数量的待识别图像，且相邻两个图像帧序列均有第二数量的待识别图像重合，所述第二数量的取值小于第一数量的取值。

可选的，所述第一数量等于所述第二数量的2倍。

示例性的，所述第一数量为16帧，所述第二数量为8帧。

在本申请实施例的再一种可能设计中，处理模块901，还用于确定所述待处理视频对应的待识别音频信息，基于预设的音频识别模型，提取所述待识别音频信息的音频特征，并根据所述音频特征，得到所述待处理视频对应的第三表情识别结果；

相应的，融合模块904，具体用于对所述第一表情识别结果、所述第二表情识别结果和所述第三表情识别结果进行融合处理，得到所述待处理视频对应的表情识别结果。

在本申请实施例的又一种可能设计中，处理模块901，用于确定待处理视频对应的至少两帧待识别图像，具体为：

所述处理模块，具体用于对获取到的待处理视频进行拆解，得到至少两帧视频图像和待识别音频信息，对所述至少两帧视频图像中的每帧视频图像进行图像预处理，得到所述至少两帧待识别图像；

其中，所述图像预处理包括如下至少一种：人脸检测、人脸关键点检测、尺寸处理、归一化处理、增强处理。

本申请实施例提供的装置，可用于执行图2至图8所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

进一步的，根据本申请的实施例，本申请还提供了一种电子设备和一种计算机可读存储介质。

图10是用来实现本申请实施例的表情识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的表情识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的表情识别方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的表情识别方法对应的程序指令/模块。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的表情识别方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据表情识别电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至表情识别电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于实现表情识别方法的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与表情识别电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本申请实施例还提供一种表情识别方法，包括：

根据本申请实施例的技术方案，通过分别对待处理视频对应的每帧视频图像进行人脸表情识别、对待处理视频对应的至少一个图像帧序列进行人脸表情识别，最后根据两者确定最终的表情识别结果，提高最终得到表情识别的准确性。

关于该方案的具体实现可以参见上述方法实施例中的记载，此处不再赘述。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种表情识别方法，包括：

2.根据权利要求1所述的方法，其中，所述对所述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别，得到所述待处理视频对应的第一表情识别结果，包括：

利用预先训练的离散帧表情识别模型依次对所述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别，得到所述待处理视频对应的第一表情识别结果；

3.根据权利要求1或2所述的方法，其中，所述至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到所述待处理视频对应的第二表情识别结果，包括：

利用预先训练的连续帧表情识别模型依次对所述至少一个图像帧序列进行人脸表情识别，得到所述待处理视频对应的第二表情识别结果；

4.根据权利要求3所述的方法，其中，在所述对所述至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到所述待处理视频对应的第二表情识别结果之前，所述方法还包括：

根据所述至少两帧待识别图像，确定至少一个图像帧序列，其中，每个图像帧序列均具有第一数量的待识别图像，且相邻两个图像帧序列均有第二数量的待识别图像重合，所述第二数量的取值小于第一数量的取值。

5.根据权利要求4所述的方法，其中，所述第一数量等于所述第二数量的2倍。

6.根据权利要求5所述的方法，其中，所述第一数量为16帧，所述第二数量为8帧。

7.根据权利要求1-6任一项所述的方法，所述方法还包括：

确定所述待处理视频对应的待识别音频信息；

基于预设的音频识别模型，提取所述待识别音频信息的音频特征；

根据所述音频特征，得到所述待处理视频对应的第三表情识别结果；

相应的，所述对所述第一表情识别结果和所述第二表情识别结果进行融合处理，得到所述待处理视频对应的表情识别结果，包括：

对所述第一表情识别结果、所述第二表情识别结果和所述第三表情识别结果进行融合处理，得到所述待处理视频对应的表情识别结果。

8.根据权利要求1-6任一项所述的方法，所述确定待处理视频对应的至少两帧待识别图像，包括：

对获取到的待处理视频进行拆解，得到至少两帧视频图像和待识别音频信息；

对所述至少两帧视频图像中的每帧视频图像进行图像预处理，得到所述至少两帧待识别图像；

9.一种表情识别装置，包括：处理模块、第一识别模块、第二识别模块和融合模块；

10.根据权利要求9所述的装置，其中，所述第一识别模块，具体用于利用预先训练的离散帧表情识别模型依次对所述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别，得到所述待处理视频对应的第一表情识别结果；

11.根据权利要求9或10所述的装置，其中，所述第二识别模块，具体用于利用预先训练的连续帧表情识别模型依次对所述至少一个图像帧序列进行人脸表情识别，得到所述待处理视频对应的第二表情识别结果；

12.根据权利要求11所述的装置，其中，所述处理模块，还用于在所述第二识别模块对所述至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别，得到所述待处理视频对应的第二表情识别结果之前，根据所述至少两帧待识别图像，确定至少一个图像帧序列，其中，每个图像帧序列均具有第一数量的待识别图像，且相邻两个图像帧序列均有第二数量的待识别图像重合，所述第二数量的取值小于第一数量的取值。

13.根据权利要求9-12任一项所述的装置，所述处理模块，还用于确定所述待处理视频对应的待识别音频信息，基于预设的音频识别模型，提取所述待识别音频信息的音频特征，并根据所述音频特征，得到所述待处理视频对应的第三表情识别结果；

相应的，所述融合模块，具体用于对所述第一表情识别结果、所述第二表情识别结果和所述第三表情识别结果进行融合处理，得到所述待处理视频对应的表情识别结果。

14.根据权利要求9-12任一项所述的装置，所述处理模块，用于确定待处理视频对应的至少两帧待识别图像，具体为：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

17.一种表情识别方法，包括：