CN116071795A

CN116071795A - 表情识别方法和系统

Info

Publication number: CN116071795A
Application number: CN202211653716.2A
Authority: CN
Inventors: 武文琦
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-05-05

Abstract

本说明书提供的表情识别方法和系统，在获取目标面部视频的多个视频片段后，在多个视频片段中提取出每一视频片段的时空特征和时序特征，以及基于时空特征和所述时序特征，确定目标面部视频对应的表情类别；该方案可以提升表情识别的准确率。

Description

表情识别方法和系统

技术领域

本说明书涉及表情识别领域，尤其涉及一种表情识别方法和系统。

背景技术

近年来，随着互联网技术的飞速发展，人脸识别技术也得到了广泛应用。在人脸识别系统中可以通过表情识别结果判断采集人当前的情绪状态，从而推断其刷脸的意愿，可作为整体刷脸链路的软启动判断依据之一。现有的表情识别方法往往直接在采集到的面部图像提取出时空信息进行表情识别。

在对现有技术的研究和实践过程中，本发明的发明人发现人脸表情在多种状态下呈现不稳定、不规律的状态，通过在面部图像中提取出时空信息进行表情识别难以实现强鲁棒性，另外，面部图像中的时空信息相对单一，因此，导致表情识别的准确率较低。

发明内容

本说明书提供一种准确率更高的表情识别方法和系统。

第一方面，本说明书提供一种表情识别方法，包括：获取目标面部视频的多个视频片段；在所述多个视频片段中提取出每一视频片段的时空特征和时序特征；以及基于所述时空特征和所述时序特征，确定所述目标面部视频对应的表情类别。

在一些实施例中，所述获取目标面部视频的多个视频片段，包括：获取目标面部视频；以及对所述目标面部视频进行时序分割，得到所述多个视频片段，所述多个视频片段中每一视频片段的时间长度相同。

在一些实施例中，所述在所述多个视频片段中提取出每一视频片段的时空特征和时序特征，包括：在所述每一视频片段中提取出时空特征；以及获取所述每一视频片段对应的光流信息，并在所述光流信息中提取出时序特征。

在一些实施例中，所述获取所述每一视频片段对应的光流信息，包括：获取所述每一视频片段中的目标视频帧对应的初始光流信息，所述目标视频帧包括存在预设数量的相邻视频帧的视频帧；以及将所述初始光流信息进行融合，得到所述每一视频片段对应的光流信息。

在一些实施例中，所述获取所述每一视频片段中的目标视频帧对应的初始光流信息，包括：在所述每一视频片段中选取出目标视频帧，并在所述目标面部视频中提取出所述目标视频帧对应的所述预设数量的相邻视频帧；以及计算所述相邻视频帧之间的偏移量，以得到所述目标视频帧对应的初始光流信息。

在一些实施例中，所述在所述每一视频片段中提取出时空特征，包括：在时序分割网络中选取出所述每一视频片段对应的时空卷积网络；采用所述时空卷积网络在对应的视频片段中提取出二维时空特征和初始三维时空特征；以及将所述初始三维时空特征和所述二维时空特征进行融合，以得到所述每一视频片段的时空特征。

在一些实施例中，所述时空卷积网络包括二维时空卷积子网络和三维时空卷积子网络，所述三维时空卷积子网络包括多个三维卷积层；以及所述采用所述时空卷积网络在对应的视频片段中提取出二维时空特征和初始三维时空特征，包括：采用所述二维时空卷积子网络在对应的视频片段中提取出二维时空特征，以及采用所述三维时空卷积子网络中的第一层三维卷积层在对应的视频片段中提取出初始三维时空特征。

在一些实施例中，所述将所述初始三维时空特征和所述二维时空特征进行融合，以得到所述每一视频片段的时空特征，包括：采用所述三维时空卷积子网络中的第一层三维卷积层在二维时空特征中提取出目标三维时空特征；将所述初始三维时空特征和所述目标三维时空进行加权融合，得到融合后的时空特征；以及将所述融合后的时空特征输入至三维时空卷积子网络中的目标三维卷积层，以得到所述每一视频片段的时空特征，所述目标三维卷积层为所述三维时空卷积子网络中除第一层三维卷积层以外的所述三维卷积层。

在一些实施例中，所述时序分割网络还包括时序卷积网络，所述时空卷积网络与所述时序卷积网络权重共享，且数量相同；以及所述在所述光流信息中提取出时序特征，包括：采用所述时序卷积网络在所述光流信息中提取出时序特征。

在一些实施例中，所述时空卷积网络的训练包括以下步骤：获取面部表情图像样本集合和面部视频样本集合；以及采用所述面部表情图像样本集合和面部视频样本集合对预设时空卷积网络进行多任务训练，得到所述时空卷积网络。

在一些实施例中，所述采用所述面部表情图像样本集合和面部视频样本集合对预设时空卷积网络进行多任务训练，得到所述时空卷积网络，包括：采用所述面部视频样本集合对预设时空卷积网络进行预设次数的训练，得到训练后的第一初始时空卷积网络；采用所述面部表情图像样本集合对所述第一初始时空卷积网络进行训练，得到训练后的第二初始时空卷积网络，并将所述预设时空卷积网络更新为所述第二初始时空卷积网络；以及返回执行所述采用所述面部视频样本集合对预设时空卷积网络进行预设次数的训练的步骤，直至所述预设时空卷积网络收敛，得到所述时空卷积网络。

在一些实施例中，所述时序卷积网络的训练包括以下步骤：获取面部表情图像样本集合和面部视频样本集合对应的光流信息样本集合；基于所述面部表情图像样本集合中的面部表情图像样本，生成虚拟面部表情视频；在所述虚拟面部表情视频中提取出光流信息，得到虚拟光流信息样本集合；以及采用所述虚拟光流信息样本集合和所述光流信息样本集合对预设时序卷积网络进行多任务训练，得到所述时序卷积网络。

在一些实施例中，所述在所述每一视频片段中提取出时空特征，包括：在所述每一视频片段中提取出多维度的初始时空特征；确定每一维度的所述初始时空特征的注意力权重；以及基于所述注意力权重对所述初始时空特征进行融合，得到所述每一视频片段对应的时空特征。

在一些实施例中，所述基于所述时空特征和所述时序特征，确定所述目标面部视频对应的表情类别，包括：基于所述时空特征，对所述目标面部视频进行表情分类，得到第一表情分类结果；基于所述时序特征，对所述目标面部视频进行表情分类，得到第二表情分类结果；以及将所述第一表情分类结果和所述第二表情分类结果进行加权融合，以得到所述目标面部视频对应的表情类别。

在一些实施例中，所述基于所述时空特征，对所述目标面部视频进行表情分类，得到第一表情分类结果，包括：将所述每一视频片段的时空特征进行融合，得到所述目标面部视频的目标时空特征；以及基于所述目标时空特征，采用表情分类网络对所述目标面部视频进行表情分类，得到第一表情分类结果。

在一些实施例中所述将所述第一表情分类结果和所述第二表情分类结果进行加权融合，以得到所述目标面部视频对应的表情类别，包括：在所述第一表情分类结果中提取出每一预设表情类别对应的第一预测值；在所述第二表情分类结果中提取出所述每一预设表情类别对应的第二预测值；以及对所述第一预测值和所述第二预测值进行加权融合，并基于融合后的预测值，在所述每一预设表情类别中选取出所述目标面部视频对应的表情类别。

第二方面，本说明书还提供一种表情识别系统，包括：至少一个存储介质，存储有至少一个指令集，用于进行表情识别；以及至少一个处理器，同所述至少一个存储介质通信连接，其中，当所述表情识别系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本说明书第一方面所述的表情识别的方法。

由以上技术方案可知，本说明书提供的表情识别的方法和系统，在获取目标面部视频的多个视频片段后，在多个视频片段中提取出每一视频片段的时空特征和时序特征，以及基于时空特征和所述时序特征，确定目标面部视频对应的表情类别；由于该方案一方面可以将面部视频作为输入代替原来的单帧图像输入，从而可以提取到更加丰富的时空信息，以辅助最终的表情分类，另一方面，在提取时空特征的基础上，还可以增加时序特征的提取，从而使得提取到的用于表情分类的特征更加准确，且更加鲁棒，因此，可以提升表情识别的准确率。

本说明书提供的表情识别方法和系统的其他功能将在以下说明中部分列出。根据描述，以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的表情分类方法和系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本说明书的实施例提供的一种表情识别系统的应用场景示意图；

图2示出了根据本说明书的实施例提供的一种计算设备的硬件结构图；

图3示出了根据本说明书的实施例提供的一种表情识别方法流程图；

图4示出了根据本说明书的实施例提供的一种采用三维时空卷积网络提取视频片段的时空特征的流程示意图；以及

图5示出了根据本说明书的实施例提供的一种对目标面部视频进行表情识别的整体流程示意图。

具体实施方式

以下描述提供了本说明书的特定应用场景和要求，目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说，对所公开的实施例的各种局部修改是显而易见的，并且在不脱离本说明书的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用。因此，本说明书不限于所示的实施例，而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的，而不是限制性的。比如，除非上下文另有明确说明，这里所使用的，单数形式“一”，“一个”和“该”也可以包括复数形式。当在本说明书中使用时，术语“包括”、“包含”和/或“含有”意思是指所关联的整数，步骤、操作、元素和/或组件存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。

考虑到以下描述，本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图，所有这些形成本说明书的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本说明书的范围。还应理解，附图未按比例绘制。

本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解，流程图的操作可以不按顺序实现。相反，操作可以以反转顺序或同时实现。此外，可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。

为了方便描述，本说明书将对以下描述将会出现的术语进行如下解释：

时序分割网络：用于对视频进行分割，进而提取出特征的网络。对于视频任务，首先通过时序分成多个视频片段，再对视频片段分别提取出空间信息和时序信息，最后再进行特征融合。

3D2D融合卷积：将三维卷积网络提取出的特征与二维卷积网络提取出的特征进行入融合。在视频任务中3D(三维)卷积的内存开销较大，而2D(二维)卷积的特征提取鲁棒性相对较弱，采用3D和2D融合卷积可以很好的平衡这一问题。

视频表情识别：人类的表情，比如高兴、生气、伤心等，作为一种心理状态的表达从脸部表现出来，因此可以通过人脸的表情来判断人类的心理状态，在计算机视觉领域人脸表情识别(FER)被视作分类问题，它在人机交互中得到广泛应用。而为了能得到更精准的表情识别分类结果，可以采用视频作为输入同时融合空间信息和时序信息。

在对本说明书具体实施例说明之前，先对本说明书的应用场景进行如下介绍：

本说明书提供的表情识别方法可以应用在任意的表情识别场景中，比如，在人脸识别的表情识别场景中，通过本说明书的表情识别方法对需要人脸识别的用户进行表情识别，在表情识别为开心时，启动人脸识别流程，从而可以保障人脸识别的准确性，或者，还可以内容推荐的表情识别场景，通过本说明书的表情识别方法对用户在观看需要推荐的目标内容时的表情进行识别，通过表情识别结果，进而确定用户对该目标内容的喜好程度，从而识别出用户的内容偏好信息，并基于该内容偏少信息对用户进行内容推荐，或者，还可以应用任意表情识别场景中，在此就不再一一赘述。

本领域技术人员应当明白，本说明书所述的活体检测模型训练方法、活体检测方法和系统应用于其他使用场景也在本说明书的保护范围内。

图1示出了根据本说明书的实施例提供的一种表情识别系统001的应用场景示意图。

表情识别系统001(以下简称系统001)可以应用于任意场景的表情识别，比如，人脸识别场景下的表情识别、内容推荐场景下的表情识别，等等，如图1所示，系统001可以包括目标用户100、客户端200、服务器300以及网络400。

目标用户100可以为触发对目标面部图像进行表情识别的用户，目标用户100可以在客户端200进行表情识别的操作。

客户端200可以为响应于目标用户100的表情识别操作对目标面部视频进行识别的设备。在一些实施例中，所述表情识别方法可以在客户端200上执行。此时，客户端200可以存储有执行本说明书描述的表情识别方法的数据或指令，并可以执行或用于执行所述数据或指令。在一些实施例中，客户端200可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。如图1所示，客户端200可以与服务器300进行通信连接。在一些实施例中，服务器300可以与多个客户端200进行通信连接。在一些实施例中，客户端200可以通过网络400与服务器300交互，以接收或发送消息等。在一些实施例中，客户端200可以包括移动设备、平板电脑、笔记本电脑、机动车辆的内置设备或类似内容，或其任意组合。在一些实施例中，所述移动设备可包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备或类似设备，或其任意组合。在一些实施例中，所述智能家居装置可包括智能电视、台式电脑等，或任意组合。在一些实施例中，所述智能移动设备可包括智能手机、个人数字辅助、游戏设备、导航设备等，或其任意组合。在一些实施例中，所述虚拟现实设备或增强现实设备可能包括虚拟现实头盔、虚拟现实眼镜、虚拟现实补丁、增强现实头盔、增强现实眼镜、增强现实补丁或类似内容，或其中的任何组合。例如，所述虚拟现实设备或所述增强现实设备可能包括谷歌眼镜、头戴式显示器、VR等。在一些实施例中，所述机动车中的内置装置可包括车载计算机、车载电视等。在一些实施例中，客户端200可以包括视频采集设备，用于采集用户的面部视频，从而获取目标面部视频。在一些实施例中，所述图像采集设备可以是二维图像采集设备(比如RGB摄像头)，也可以是二维图像采集设备(比如RGB摄像头)和深度图像采集设备(比如3D结构光摄像头、激光探测器，等等)。在一些实施例中，客户端200可以是具有定位技术的设备，用于定位客户端200的位置。

在一些实施例中，客户端200可以安装有一个或多个应用程序(APP)。所述APP能够为目标用户100提供通过网络400同外界交互的能力以及界面。所述APP包括但不限于：网页浏览器类APP程序、搜索类APP程序、聊天类APP程序、购物类APP程序、视频类APP程序、理财类APP程序、即时通信工具、邮箱客户端、社交平台软件等等。在一些实施例中，客户端200上可以安装有目标APP。所述目标APP能够为客户端200采集用户的面部视频，从而得到目标面部视频。在一些实施例中，所述目标对象100还可以通过所述目标APP触发表情识别请求。所述目标APP可以响应于所述表情识别请求，执行本说明书描述的表情识别方法。所述表情识别方法将在后面的内容中详细介绍。

服务器300可以是提供各种服务的服务器，例如对客户端200上采集的目标面部视频提供支持的后台服务器。在一些实施例中，所述表情识别方法可以在服务器300上执行。此时，服务器300可以存储有执行本说明书描述的表情识别方法的数据或指令，并可以执行或用于执行所述数据或指令。在一些实施例中，服务器300可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。服务器300可以与多个客户端200通信连接，并接收客户端200发送的数据。

网络400用以在客户端200和服务器300之间提供通信连接的介质。网络400可以促进信息或数据的交换。如图1所示，客户端200和服务器300可以同网络400连接，并且通过网络400互相传输信息或数据。在一些实施例中，网络400可以是任何类型的有线或无线网络，也可以是其组合。比如，网络400可以包括电缆网络，有线网络、光纤网络、电信通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、大都市市区网(MAN)、广域网(WAN)、公用电话交换网(PSTN)、蓝牙^TM网络、ZigBee^TM网络、近场通信(NFC)网络或类似网络。在一些实施例中，网络400可以包括一个或多个网络接入点。例如，网络400可以包括有线或无线网络接入点，如基站或互联网交换点，通过该接入点，客户端200和服务器300的一个或多个组件可以连接到网络400以交换数据或信息。

应该理解，图1中的客户端200、服务器300和网络400的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端200、服务器300和网络400。

需要说明的是，所述表情识别方法可以完全在客户端200上执行，也可以完全在服务器300上执行，还可以部分在客户端200上执行，部分在服务器300上执行。

图2示出了根据本说明书的实施例提供的一种计算设备600的硬件结构图。计算设备600可以执行本说明书描述的表情识别方法。所述表情识别方法在本说明书中的其他部分介绍。当所述表情识别方法在客户端200上执行时，计算设备600可以是客户端200。当所述表情识别方法在服务器300上执行时，计算设备600可以是服务器300。当所述表情识别方法可以部分在客户端200上执行，部分在服务器300上执行时，计算设备600可以是客户端200和服务器300。

如图2所示，计算设备600可以包括至少一个存储介质630和至少一个处理器620。在一些实施例中，计算设备600还可以包括通信端口650和内部通信总线610。同时，计算设备600还可以包括I/O组件660。

内部通信总线610可以连接不同的系统组件，包括存储介质630、处理器620和通信端口650。

I/O组件660支持计算设备600和其他组件之间的输入/输出。

通信端口650用于计算设备600同外界的数据通信，比如，通信端口650可以用于计算设备600同网络400之间的数据通信。通信端口650可以是有线通信端口也可以是无线通信端口。

存储介质630可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质，也可以是暂时性存储介质。比如，所述数据存储装置可以包括磁盘632、只读存储介质(ROM)634或随机存取存储介质(RAM)636中的一种或多种。存储介质630还包括存储在所述数据存储装置中的至少一个指令集。所述指令是计算机程序代码，所述计算机程序代码可以包括执行本说明书提供的表情识别方法的程序、例程、对象、组件、数据结构、过程、模块等等。

至少一个处理器620可以同至少一个存储介质630以及通信端口650通过内部通信总线610通信连接。至少一个处理器620用以执行上述至少一个指令集。当计算设备600运行时，至少一个处理器620读取所述至少一个指令集，并且根据所述至少一个指令集的指示，执行本说明书提供的表情识别方法。处理器620可以执行表情识别方法包含的所有步骤。处理器620可以是一个或多个处理器的形式，在一些实施例中，处理器620可以包括一个或多个硬件处理器，例如微控制器，微处理器，精简指令集计算机(RISC)，专用集成电路(ASIC)，特定于应用的指令集处理器(ASIP)，中心处理单元(CPU)，图形处理单元(GPU)，物理处理单元(PPU)，微控制器单元，数字信号处理器(DSP)，现场可编程门阵列(FPGA)，高级RISC机器(ARM)，可编程逻辑器件(PLD)，能够执行一个或多个功能的任何电路或处理器等，或其任何组合。仅仅为了说明问题，在本说明书中计算设备600中仅描述了一个处理器620。然而，应当注意，本说明书中计算设备600还可以包括多个处理器，因此，本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行，也可以由多个处理器联合执行。例如，如果在本说明书中计算设备600的处理器620执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同处理器620联合或分开执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同执行步骤A和B)。

图3示出了根据本说明书的实施例提供的一种表情识别方法P100的流程图。如前，计算设备600可以执行本说明书的表情识别方法P100。具体地，处理器620可以读取存储在其本地存储介质中的指令集，然后根据指令集的规定，执行本说明书的表情识别方法P100。如图3所示，方法P100可以包括：

S110：获取目标面部视频的多个视频片段。

其中，目标面部视频可以为包括需要进行表情识别的用户的面部视频。所述面部视频可以为包括面部的视频。面部的类型可以有多种，比如，可以包括人脸，或者其他生物的面部，等等。视频片段可以为对目标面部视频进行拆分的片段。

其中，获取目标面部视频的多个视频片段的方式可以有多种，具体可以如下：

例如，处理器620可以获取目标面部视频，以及对目标面部视频进行时序分割，得到多个视频片段，多个视频片段中每一视频片段的时间长度相同。

其中，获取目标面部视频的方式可以有多种，比如，处理器620可以接收目标用户100通过客户端200或者终端上传的目标面部视频，或者，可以接收需要进行表情识别的用户通过终端上传的该用户的面部视频，得到目标面部视频，或者，可以通过视频采集设备采集需要进行表情识别的用户的面部视频，得到目标面部视频，或者，在网络或视频数据库中获取原始视频，在原始视频中选取出包含面部的视频，得到目标面部视频，或者，在目标面部视频的数量较多或者内存较大时，还可以接收表情识别请求，该表情识别请求携带目标面部视频的存储地址，基于该存储地址，获取目标面部视频，等等。

处理器620在获取目标面部视频之后，便以对目标面部视频进行时序分割，从而得到多个视频分割。所述时序分割可以为基于目标面部视频中视频帧的时序信息对目标面部视频进行拆分。处理器620对目标面部视频进行时序分割的方式可以有多种，比如，处理器620获取目标面部视频的视频时长，并基于预设拆分条件和视频时长，对目标面部视频进行拆分，得到多个视频片段。

其中，视频时长可以为目标面部视频包含的视频帧所占的时间的总长度。预设拆分条件可以为预先设定的拆分条件。所述拆分条件就可以为对目标面部视频进行拆分的条件，该拆分条件可以包括拆分出的视频片段的目标时长和数量中的至少一种。基于预设拆分条件和视频时长，对目标面部视频进行拆分的方式可以有多种，比如，以预设拆分条件为视频片段的目标时长为例，处理器620就可以基于视频时长，在在目标面部视频中识别出每一视频片段长度对应的视频帧，得到目标面部视频的拆分位置，基于该拆分位置，将目标面部视频分割为多个视频片段；或者，以预设拆分条件为拆分数量为例，处理器620就可以基于视频时长和拆分数量，确定拆分出的每一视频片段的目标时长，基于该目标时长，对目标面部视频进行分割，得到多个视频片段。

其中，在分割后，还可以对分割出的最后一个视频片段的时间长度进行校验，基于校验结果对视频片段进行更新。更新的方式可以有多种，比如，处理器620在分割后最后一个视频片段的超度小于预设的视频片段长度时，将最后一个视频片段舍弃，从而保证每个视频片段的时间长度相同，或者，在分割后最后一个视频片段的超度小于预设的视频片段长度时，对目标面部视频进行清洗，删除一些不重要的视频帧，得到更新后的目标面部视频，以使得目标面部视频的视频时长在分割后可以保证每个视频片段的时长相同，对更新后的目标面部视频进行时序分割，得到多个视频片段，等等。

其中，需要说明的是，多个视频片段中的每一视频片段的时长也可以不相同，具体可以根据实际应用进行设定。

S120：在多个视频片段中提取出每一视频片段的时空特征和时序特征。

其中，时空特征为表征视频片段中的时空信息的特征。所述时空信息可以为视频片段中每一视频帧所包含的时间和空间相关的信息，比如，可以包括视频帧对应的时间信息、视频帧中面部的每一个像素点的位置信息或空间的信息、视频帧中面部或面部的一些关键点的空间位置信息，等等。

其中，时序特征为表征视频片段中视频帧的时序信息的特征。所述时序信息可以为视频片段中视频帧之间变化的信息，比如，可以包括视频帧A中的眼睛的位置与视频帧B中的眼睛的位置之间的变化信息，或者，还可以包括视频帧A和视频帧B中相同像素位置点所对应的像素信息的变化，等等。

其中，在多个视频片段中提取出每一视频片段的时空特征和时序特征的方式可以有多种，具体可以如下：

例如，处理器620可以在每一视频片段中提取出时空特征，以及获取每一视频片段对应的光流信息，并在光流信息中提取出时序特征，具体可以如下：

S121：在每一视频片段中提取出时空特征。

例如，处理器620可以在时序分割网络中选取出每一视频片段对应的时空卷积网络，采用时空卷积网络在对应的视频片段中提取出而二维时空特征和初始三维时空特征，以及将初始三维时空特征和二维时空特征进行融合，以得到每一视频片段的时空特征。

其中，时序分割网络为用于进行时序分割提取时空特征和时序特征的网络。该时序分割网络可以包括多个时空卷积网络和多个时序卷积网络。时空卷积网络为提取时空特征的卷积网络，时序卷积网络为提取出时序特征的卷积网络。时空卷积网络与时序卷积网络权重共享，且数量相同。时空卷积网络与视频片段可以为一一对应的关系，时序卷积网络与光流信息可以为一一对应的关系。时空卷积网络可以包括二维时空卷积子网络和三维时间卷积子网络，所述三维时空卷积子网络包括多个三维卷积层。

其中，二维时空特征可以理解为视频片段中二维的时空特征，比如，可以包括视频片段中视频帧的xy方向上的特征信息，或者，还可以包括视频片段中视频帧的时间轴(t)方向的特征信息，等等。初始三维时空特征可以为初始提取的三维时空特征，所述三维时空特征就可以为视频片段中三维的时空特征，比如，可以包括视频片段中xy方向和时间轴(t)方向上的特征信息。处理器620采用时空卷积网络在对应的视频片段中提取出二维时空特征和初始三维时空特征的方式可以有多种，比如，处理器620可以采用二维时空卷积子网络对对应的视频片段中提取出二维时空特征，以及采用三维时空卷积子网络中的第一层三维卷积层在对应的视频片段中提取出初始三维时空特征。

其中，二维时空卷积子网络可以包括多个二维卷积层，处理器620采用二维时空卷积子网络对对应的视频片段中提取出二维时空特征的方式可以有多种，比如，处理器620可以采用多个二维卷积层对对应的视频片段进行多维特征提取，从而得到二维时空特征。

处理器620在提取出二维时空特征和初始三维时空特征之后，便可以将初始三维时空特征和二维时空特征进行融合，以得到每一视频片段的时空特征。将初始三维时空特征和二维时空特征进行融合的方式可以有多种，比如，处理器620可以采用三维时空卷积子网络中的第一层三维卷积层在二维时空特征中提取出目标三维时空特征，将初始三维时空特征和目标三维时空特征进行加权融合，得到融合后的时空特征，以及将融合后的时空特征输入至三维时空卷积子网络中的目标三维卷积层，以得到每一视频片段的时空特征。

其中，目标三维卷积层为三维时空卷积子网络中除第一层三维卷积层以外的三维卷积层。由此可以发现，在提取时空特征时，采用将3D2D融合卷积的方式提取出时空特征，从而提取出更加鲁棒的时空特征。在3D2D融合卷积的方式中，以三维时空卷积网络包括三个三维卷积层和两个二维卷积层为例，采用三维时空卷积网络提取视频片段的时空特征的过程就可以如图4所示，一方面将视频片段输入至第一个二维卷积层进行二维时空特征提取，并将提取出的初始二维时空特征输入至下一个二维卷积层，从而得到该视频片段的二维时空特征，将二维时空特征输入至第一层三维卷积层进行三维时空特征提取，从而得到目标三维时空特征；另一方面将视频片段输入至第一个三维卷积层进行三维时空特征提取，得到初始三维时空特征。处理器620就可以将目标三维时空特征和初始三维时空特征进行加权融合，从而得到融合后的时空特征，然后，将融合后的时空特征输入至三维时空卷积子网络中剩下的两个三维卷积层，从而得到初始时空特征，将初始时空特征输入至池化层进行池化操作，从而得到该视频片段对应的时空特征。

在一些实施例中，处理器620还可以采用Attention(注意力)模块在每一视频片段中提取出时空特征，比如，处理器620可以在每一视频片段中提取出多维度的初始时空特征，确定每一维度的初始时空特征的注意力权重，以及基于注意力权重对初始时空特征进行融合，得到每一视频片段对应的时空特征。

其中，注意力权重可以为每一维度的初始时空特征与其他维度的初始时空特征之间的关联程度。确定每一维度的初始时空特征的注意力权重的方式可以有多种，比如，时空卷积网络还可以包括Attention模块，处理器620可以采用Attention模块在每一维度的初始时空特征中提取出关联特征，并基于关联特征，确定每一维度的初始时空特征的注意力权重。

其中，通过用Attention模块在视频片段中提取时空特征的同时，还可以增强表情敏感区域的特征聚合效果。比如，处理器620可以通过注意力权重，就可以在初始时空特征中选取出表情敏感区域的时空特征进行聚合，从而提升时空特征表征面部表情的准确性。

其中，为了提升时空卷积网络的预测精度，除了直接采用视频样本进行训练，还可以表情图像数据集进行调优，因此，时空卷积网络的训练可以包括以下步骤：处理器620可以获取面部表情图像样本和面部视频样本集合，以及采用面部表情图像样本和面部视频样本对预设时空卷积网络进行多任务训练，得到时空卷积网络。

其中，面部表情图像样本集合可以包括多个面部表情图像样本，所述面部表情图像样本可以包括标注表情类别的面部图像样本，标注的表情类别的类型可以有多种，比如，可以包括快乐(开心/高兴)、中立、悲伤、愤怒、惊讶、害怕、担心、厌恶或蔑视，等等。面部视频样本集合可以包括多个面部视频样本，所述面部视频样本包括标注表情类别的面部视频样本。处理器620采用面部表情图像样本集合和面部视频样本集合对预设时空卷积网络进行多任务训练的方式可以有多种，比如，处理器620可以采用面部视频样本集合对预设时空卷积网络进行预设次数的训练，得到训练后的第一初始时空卷积网络，采用面部表情图像样本集合对第一初始时空卷积网络进行训练，得到训练后的第二初始时空卷积网络，并将预设时空卷积网络更新为第二初始时空卷积网络，以及返回执行采用面部视频样本集合对预设时空卷积网络进行预设次数的训练的步骤，直至预设时空卷积网络收敛，得到时空卷积网络。

其中，处理器620采用面部视频样本集合对预设时空卷积网络进行预设次数的训练就可以看作是迭代执行一次的训练方式，采用面部视频样本集合对预设时空卷积网络进行一次训练的方式可以有多种，比如，处理器620可以采用预设时空卷积网络在面部视频样本集合中提取出多个视频片段中每一视频片段的时空特征，并采用全连接层(FC层)基于该时空特征，预测出面部视频样本集合中每一面部视频样本的表情类别，得到预测表情类别，将该预测表情类别与标注表情类别进行对比，从而得到每一面部视频样本的样本损失信息，并基于样本损失信息对预设时空卷积网络的网络参数进行更新，从而完成一次训练的过程。

其中，由于面部视频样本的数量相对要小于面部表情图像样本，因此在采用面部视频样本对预设时空卷积网络进行训练时，可以采用面部表情图像样本进行调优，从而提升训练后的时空卷积网络的精度。调优的过程也可以看作是对面部视频样本训练过的第一初始时空卷积网络继续进行训练，训练的方式可以与面部视频样本对预设时空卷积网络进行训练的方式类似，详见上文所述，在此就不再一一赘述。

其中，需要说明的是，利用面部视频样本与面部表情图像样本训练时空卷积网络时，两者训练次数的比值可以为任意比值，比如，以比值为3:1为例，处理器620就可以采用面部视频样本训练三次，然后，采用面部表情图像样本训练一次，然后，继续采用面部视频样本训练三次，再采用面部表情图像样本训练一次，依次类推，直至预设时空卷积网络收敛时为止，从而得到训练后的时空卷积网络。具体的比值可以根据实际应用进行预设设定，或者，还可以根据面部视频样本与面部表情图像样本的数量比值来确定，等等。

S122：获取每一视频片段对应的光流信息，并在光流信息中提取出时序特征。

其中，光流信息又可以称为光流，可以为视频片段中视频帧之间的偏移量的信息，表达了视频片段中视频帧的变化。

其中，获取每一视频片段对应的光流信息的方式可以有多种，具体可以如下：

例如，处理器620可以获取每一视频片段中目标视频帧对应的初始光流信息，以及将初始光流信息中进行融合，得到每一视频片段对应的光流信息。

其中，目标视频帧包括存在预设数量的相邻视频帧的视频帧，比如，以目标面部视频包括30帧，每一个视频片段包括10帧，计算光流的相邻视频帧为前2帧和后2帧为例，则目标面部视频中第1帧和第2帧是没有达到预设数量的相邻视频帧的，因此，除了未达到预设数量的相邻视频帧的视频帧以外的视频帧都可以为目标视频帧。初始光流信息可以理解为视频帧对应的光流信息。将视频片段中视频帧对应的初始光流信息进行融合，便可以得到该视频片段所对应的光流信息。处理器620获取每一视频片段中的目标视频帧对应的初始光流信息的方式可以有多种，比如，处理器620可以在每一视频片段中选取出目标视频帧，并在目标面部视频中提取出目标视频帧对应的预设数量的相邻视频帧，以及计算相邻视频帧之间的偏移量，以得到目标视频帧对应的初始光流信息。

其中，预设数量的相邻视频帧为前两帧和后两帧为例，针对其中的某一个目标视频帧来说，处理器620获取该目标视频帧对应的初始光流信息的方式可以有多种，比如，处理器620在目标面部视频或者视频片段中选取出该目标视频帧的前两帧和后两帧的相邻视频帧，然后，分别计算至少两个相邻视频帧之间的差值，以得到目标视频帧对应的初始光流信息。

其中，这里的差值可以为同一像素位置的像素差值，也可以为同一对象在不同视频帧之间的差值。至少两个相邻视频帧可以包括前一帧与后一帧、前两帧与后两帧、前两帧之间、后两帧之间中的至少一种。

处理器620在获取到每一视频片段中的目标视频帧对应的初始光流信息之后，便可以将初始光流信息进行融合，从而得到每一视频片段对应的光流信息。初始光流信息融合的方式可以有多种，比如，处理器620可以直接将每一视频片段中目标视频帧的初始光流信息进行累加，从而得到该视频片段对应的光流信息，或者，可以直接将初始光流信息进行拼接，从而得到该视频片段对应的光流信息，或者，还可以基于目标视频帧的时序，确定初始光流信息对应的融合权重，并基于融合权重，对初始光流信息进行加权融合，从而得到该视频片段对应的光流信息。

处理器620在获取每一视频片段对应的光流信息之后，便可以在光流信息中提取出时序特征。在光流信息中提取时序特征的方式可以有多种，比如，处理器620可以采用时序卷积网络在光流信息中提取出时序特征，或者，还可以采用其他时序特征提取网络在光流信息中提取出时序特征，等等。

其中，处理器620针对时序卷积网络的训练，除了可以采用面部视频样本进行训练以外，为了增加时序卷积网络的训练精度，还可以采用面部表情图像样本对预设时序卷积网络进行训练。比如，处理器620可以获取面部表情图像样本集合和面部视频样本集合对应的光流信息样本集合，基于面部表情图像样本集合中的面部表情图像样本，生成虚拟面部表情视频，在虚拟面部表情视频中提取出光流信息，得到虚拟光流信息样本集合，以及采用虚拟光流信息集合和光流信息样本集合对预设时序卷积网络进行多任务训练，得到时序卷积网络。

其中，虚拟面部表情视频可以为基于面部表情识别生成的视频，这个视频并不是真实的视频，因此，可以称为虚拟面部表情视频。基于面部表情图像样本集合中的面部表情图像样本，生成虚拟面部表情视频的方式可以有多种，比如，处理器620基于面部表情图像样本，生成与面部表情图像样本相似的至少一张面部表情图像，得到相似面部表情图像集合，将相似面部表情图像集合和面部图像样本按照预设时间帧生成视频，从而得到虚拟面部表情视频。

处理器620在生成虚拟面部表情视频之后，便可以在虚拟面部表情视频中提取出光流信息。提取虚拟光流信息的方式与从目标面部视频的多个视频片段中获取光流信息的方式类似，详见上文所述，在此就不再一一赘述。

处理器620在虚拟面部表情视频中提取出光流信息之后，便可以采用虚拟光流信息样本集合和光流信息样本集合对预设时序卷积网络进行多任务训练，从而得到训练后的时序卷积网络。处理器620采用虚拟光流信息样本集合和光流信息样本集合对预设时序卷积网络进行多任务训练与对预设时空卷积网络进行多任务训练的方式类似，详见上文所述，在此就不再一一赘述。

S130：基于时空特征和时序特征，确定目标面部视频对应的表情类别。

例如，处理器620可以基于时空特征，对目标面部视频进行表情分类，得到第一表情分类结果，基于时序特征，对目标面部视频进行表情分类，得到第二表情分类结果，以及将第一表情分类结果和第二表情分类结果进行加权融合，以得到目标面部视频对应的表情类别。

其中，第一表情分类结果为时空特征对应的表情分类结果。第二表情分类结果为时序特征对应的表情分类结果。所述表情分类结果可以包括每一预设表情类别对应的预测值(分类概率)。基于时空特征，对目标面部视频进行表情分类的方式可以有多种，比如，处理器620可以将每一视频片段的时空特征进行融合，得到目标面部视频的目标时空特征，以及基于目标时空特征，采用表情分类网络对目标面部视频进行表情分类，得到第一表情分类结果。

其中，处理器620将每一视频片段的时空特征进行融合的方式可以有多种，比如，处理器620可以直接将每一视频片段的时空特征进行拼接或累加，从而得到目标面部视频的目标时空特征，或者，还可以获取每一视频判断对应的融合权重，并基于该融合权重，对每一视频片段的时空特征进行加权，并将加权后的时空特征进行累加或者拼接，从而得到目标时空特征。

处理器620在将每一视频片段的时空特征进行融合之后，便可以基于目标时空特征，采用表情分类网络对目标面部视频进行表情分类，从而得到第一表情分类结果。比如，处理器620可以将目标时空特征输入至表情分类网络，从而得到目标面部视频的第一表情分类结果。

其中，表情分类网络的网络结构可以有多种，比如，可以包括FC层组成的分类网络，或者，可以包括softmax分类网络，或者，还可以包括其他类型的多分类网络，等等。

其中，基于时序特征，对目标面部视频进行表情分类的方式与基于时空特征进行表情分类的方式相同，详见上文所述，在此就不再一一赘述。另外，需要说明的是，目标时空特征和目标时序特征分别对应的表情分类网络的网络结构可以相同，也可以不同。在相同的网络结构下，网络参数可以相同，也可以不相同。

处理器620在对目标面部视频进行表情分类得到第一表情分类结果和第二表情分类结果后，便可以将第一表情分类结果和第二表情分类结果进行加权融合，以得到目标面部视频对应的表情类别。将第一表情分类结果和第二表情分类结果进行加权融合的方式可以有多种，比如，处理器620可以在第一表情分类结果中提取出每一预设表情类别对应的第一预测值，在第二表情分类结果中提取出每一预设表情类别对应的第二预测值，以及对第一预测值和第二预测值进行加权融合，并基于融合后预测值，在每一预设表情类别中选取出目标面部视频对应的表情类别。

其中，第一预测值为第一分类结果中对应的预设表情类别对应的预测值。第二预测值为第二分类结果中对应的预设表情类别对应的预测值。所述预测值可以为该表情类别对应的分类评分或者分类概率值，比如，开心对应0.6，悲伤对应0.2，吃惊对应0.2，等等。对第一预测值和第二预测值进行加权融合的方式可以有多种，比如，处理器620可以获取预测值对应的权重，并基于该权重，分别对第一预测值和第二预测值进行加权，将加权后的第一预测值和加权后的第二预测值进行累加，得到融合后的预测值，譬如，以权重为0.5和0.5为例，悲伤的第一预测值为0.6，悲伤的第二预测值为0.2，则悲伤对应的融合后的预测值就可以为0.4，其他预设表情类别依次类推，从而就可以得到每一预设表情类别对应的融合后的预测值。

处理器620在将第一预测值和第二预测值进行加权融合之后，便可以基于该融合后的预测值，在每一预设表情类别中选取出目标面部视频对应的表情类别。基于融合后的预测值，在每一预设表情类别中选取出目标面部视频对应的表情类别的方式可以有多种，比如，处理器620可以将每一预设表情类别对应的融合后的预测值进行排序，基于排序结果，在预设表情类别中选取出融合后的预测值最大的表情类别作为目标面部视频对应的表情类别，或者，还可以将每一预设表情类别对应的融合后的预测值进行排序，基于排序结果，在预设表情类别中选取出预测值TOP K的表情类别作为候选表情类别，返回执行采用表情分类网络对目标面部视频进行表情分类的步骤，以在候选表情类别中选取出目标面部视频对应的表情类别。

其中，需要说明的是，输出的目标面部视频的表情类别可以为一个。如果存在预测值相同或者相近的表情类别，也可以输出多个相近的表情类别。比如，相近的表情类别可以包括开心、兴奋、激动，或者，伤心和难过，等等。

其中，本方案采用基于时序分割网络及3D2D融合卷积的表情识别方法，对目标面部视频进行表情识别。以将目标面部视频拆分为三个等长度的视频片段为例，对目标面部视频进行表情识别的整体流程可以如图5所示，主要包括三个部分：第一部分是基于时序分割网络的主框架，处理器620对于输入的目标面部视频进行时序拆分，分为三个等长的视频片段(RGB片段)，对每个视频片段计算光流，RGB片段用于提取时空信息，光流用于提取时序信息。随后采用三组权重共享的时空卷积网络和时序卷积网络进行特征提取，然后，将三组时空卷积网络和时序卷积网络提取到的特征进行时空特征融合和时序特征融合，最后使用融合后的特征链接FC层进行最终的表情识别分类预测。整体模型结构可以实现端到端的训练与预测。第二部分为基于表情识别单帧图像数据的时空卷积网络调优，在主网络训练的过程中引入表情图像数据集进行调优，实际训练中采用多任务损失函数约束的方式实现，从而提升了时空卷积网络的训练精度。第三部分为时空卷积网络的结构，采用时空卷积网络提取时空特征时，对于输入的视频片段先进行过两个2D卷积，再送给连续的3个3D卷积，从而得到提取出的时空特征，并将提取出的时空特征最终通过FC层后进行预测，得到第一预测结果。在本方案中可以充分提取视频表情输入中的时空信息，从而的到更急鲁棒的特征，为最终的人脸表情识别精度提升做出重要的贡献，同时可实现开放场景的泛化性部署。

综上所述，本说明书提供的表情识别方法P100和系统001，在获取目标面部视频的多个视频片段后，在多个视频片段中提取出每一视频片段的时空特征和时序特征，以及基于时空特征和所述时序特征，确定目标面部视频对应的表情类别；由于该方案一方面可以将面部视频作为输入代替原来的单帧图像输入，从而可以提取到更加丰富的时空信息，以辅助最终的表情分类，另一方面，在提取时空特征的基础上，还可以增加时序特征的提取，从而使得提取到的用于表情分类的特征更加准确，且更加鲁棒，因此，可以提升表情识别的准确率。

本说明书另一方面提供一种非暂时性存储介质，存储有至少一组用来进行表情识别的可执行指令。当所述可执行指令被处理器执行时，所述可执行指令指导所述处理器实施本说明书所述的表情识别方法P100的步骤。在一些可能的实施方式中，本说明书的各个方面还可以实现为一种程序产品的形式，其包括程序代码。当所述程序产品在计算设备600上运行时，所述程序代码用于使计算设备600执行本说明书描述的表情识别方法P100的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码，并可以在计算设备600上运行。然而，本说明书的程序产品不限于此，在本说明书中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算设备600上执行、部分地在计算设备600上执行、作为一个独立的软件包执行、部分在计算设备600上部分在远程计算设备上执行、或者完全在远程计算设备上执行。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者是可能有利的。

综上所述，在阅读本详细公开内容之后，本领域技术人员可以明白，前述详细公开内容可以仅以示例的方式呈现，并且可以不是限制性的。尽管这里没有明确说明，本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变，改进和修改。这些改变，改进和修改旨在由本说明书提出，并且在本说明书的示例性实施例的精神和范围内。

此外，本说明书中的某些术语已被用于描述本说明书的实施例。例如，“一个实施例”，“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征，结构或特性可以包括在本说明书的至少一个实施例中。因此，可以强调并且应当理解，在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外，特定特征，结构或特性可以在本说明书的一个或多个实施例中适当地组合。

应当理解，在本说明书的实施例的前述描述中，为了帮助理解一个特征，出于简化本说明书的目的，本说明书将各种特征组合在单个实施例、附图或其描述中。然而，这并不是说这些特征的组合是必须的，本领域技术人员在阅读本说明书的时候完全有可能将其中一部分设备标注出来作为单独的实施例来理解。也就是说，本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

本文引用的每个专利，专利申请，专利申请的出版物和其他材料，例如文章，书籍，说明书，出版物，文件，物品等，可以通过引用结合于此。用于所有目的全部内容，除了与其相关的任何起诉文件历史，可能与本文件不一致或相冲突的任何相同的，或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说，如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时，使用本文件中的术语为准。

最后，应理解，本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此，本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此，本说明书的实施例不限于申请中被精确地描述过的实施例。

Claims

1.一种表情识别方法，包括：

获取目标面部视频的多个视频片段；

在所述多个视频片段中提取出每一视频片段的时空特征和时序特征；以及

基于所述时空特征和所述时序特征，确定所述目标面部视频对应的表情类别。

2.根据权利要求1所述的表情识别方法，其中，所述获取目标面部视频的多个视频片段，包括：

获取目标面部视频；以及

对所述目标面部视频进行时序分割，得到所述多个视频片段，所述多个视频片段中每一视频片段的时间长度相同。

3.根据权利要求1所述的表情识别方法，其中，所述在所述多个视频片段中提取出每一视频片段的时空特征和时序特征，包括：

在所述每一视频片段中提取出时空特征；以及

获取所述每一视频片段对应的光流信息，并在所述光流信息中提取出时序特征。

4.根据权利要求3所述的表情识别方法，其中，所述获取所述每一视频片段对应的光流信息，包括：

获取所述每一视频片段中的目标视频帧对应的初始光流信息，所述目标视频帧包括存在预设数量的相邻视频帧的视频帧；以及

将所述初始光流信息进行融合，得到所述每一视频片段对应的光流信息。

5.根据权利要求4所述的表情识别方法，其中，所述获取所述每一视频片段中的目标视频帧对应的初始光流信息，包括：

在所述每一视频片段中选取出目标视频帧，并在所述目标面部视频中提取出所述目标视频帧对应的所述预设数量的相邻视频帧；以及

计算所述相邻视频帧之间的偏移量，以得到所述目标视频帧对应的初始光流信息。

6.根据权利要求3所述的表情识别方法，其中，所述在所述每一视频片段中提取出时空特征，包括：

在时序分割网络中选取出所述每一视频片段对应的时空卷积网络；

采用所述时空卷积网络在对应的视频片段中提取出二维时空特征和初始三维时空特征；以及

将所述初始三维时空特征和所述二维时空特征进行融合，以得到所述每一视频片段的时空特征。

7.根据权利要求6所述的表情识别方法，其中，所述时空卷积网络包括二维时空卷积子网络和三维时空卷积子网络，所述三维时空卷积子网络包括多个三维卷积层；以及

所述采用所述时空卷积网络在对应的视频片段中提取出二维时空特征和初始三维时空特征，包括：

采用所述二维时空卷积子网络在对应的视频片段中提取出二维时空特征，以及

采用所述三维时空卷积子网络中的第一层三维卷积层在对应的视频片段中提取出初始三维时空特征。

8.根据权利要求6所述的表情识别方法，其中，所述将所述初始三维时空特征和所述二维时空特征进行融合，以得到所述每一视频片段的时空特征，包括：

采用所述三维时空卷积子网络中的第一层三维卷积层在二维时空特征中提取出目标三维时空特征；

将所述初始三维时空特征和所述目标三维时空进行加权融合，得到融合后的时空特征；以及

将所述融合后的时空特征输入至三维时空卷积子网络中的目标三维卷积层，以得到所述每一视频片段的时空特征，所述目标三维卷积层为所述三维时空卷积子网络中除第一层三维卷积层以外的所述三维卷积层。

9.根据权利要求6所述的表情识别方法，其中，所述时序分割网络还包括时序卷积网络，所述时空卷积网络与所述时序卷积网络权重共享，且数量相同；以及

所述在所述光流信息中提取出时序特征，包括：

采用所述时序卷积网络在所述光流信息中提取出时序特征。

10.根据权利要求9所述的表情识别方法，其中，所述时空卷积网络的训练包括以下步骤：

获取面部表情图像样本集合和面部视频样本集合；以及

采用所述面部表情图像样本集合和面部视频样本集合对预设时空卷积网络进行多任务训练，得到所述时空卷积网络。

11.根据权利要求10所述的表情识别方法，其中，所述采用所述面部表情图像样本集合和面部视频样本集合对预设时空卷积网络进行多任务训练，得到所述时空卷积网络，包括：

采用所述面部视频样本集合对预设时空卷积网络进行预设次数的训练，得到训练后的第一初始时空卷积网络；

采用所述面部表情图像样本集合对所述第一初始时空卷积网络进行训练，得到训练后的第二初始时空卷积网络，并将所述预设时空卷积网络更新为所述第二初始时空卷积网络；以及

返回执行所述采用所述面部视频样本集合对预设时空卷积网络进行预设次数的训练的步骤，直至所述预设时空卷积网络收敛，得到所述时空卷积网络。

12.根据权利要求9所述的表情识别方法，其中，所述时序卷积网络的训练包括以下步骤：

获取面部表情图像样本集合和面部视频样本集合对应的光流信息样本集合；

基于所述面部表情图像样本集合中的面部表情图像样本，生成虚拟面部表情视频；

在所述虚拟面部表情视频中提取出光流信息，得到虚拟光流信息样本集合；以及

采用所述虚拟光流信息样本集合和所述光流信息样本集合对预设时序卷积网络进行多任务训练，得到所述时序卷积网络。

13.根据权利要求3所述的表情识别方法，其中，所述在所述每一视频片段中提取出时空特征，包括：

在所述每一视频片段中提取出多维度的初始时空特征；

确定每一维度的所述初始时空特征的注意力权重；以及

基于所述注意力权重对所述初始时空特征进行融合，得到所述每一视频片段对应的时空特征。

14.根据权利要求1所述的表情识别方法，其中，所述基于所述时空特征和所述时序特征，确定所述目标面部视频对应的表情类别，包括：

基于所述时空特征，对所述目标面部视频进行表情分类，得到第一表情分类结果；

基于所述时序特征，对所述目标面部视频进行表情分类，得到第二表情分类结果；以及

将所述第一表情分类结果和所述第二表情分类结果进行加权融合，以得到所述目标面部视频对应的表情类别。

15.根据权利要求14所述的表情识别方法，其中，所述基于所述时空特征，对所述目标面部视频进行表情分类，得到第一表情分类结果，包括：

将所述每一视频片段的时空特征进行融合，得到所述目标面部视频的目标时空特征；以及

基于所述目标时空特征，采用表情分类网络对所述目标面部视频进行表情分类，得到第一表情分类结果。

16.根据权利要求14所述的表情识别方法，其中，所述将所述第一表情分类结果和所述第二表情分类结果进行加权融合，以得到所述目标面部视频对应的表情类别，包括：

在所述第一表情分类结果中提取出每一预设表情类别对应的第一预测值；

在所述第二表情分类结果中提取出所述每一预设表情类别对应的第二预测值；以及

对所述第一预测值和所述第二预测值进行加权融合，并基于融合后的预测值，在所述每一预设表情类别中选取出所述目标面部视频对应的表情类别。

17.一种表情识别系统，包括：

至少一个存储介质，存储有至少一个指令集，用于进行表情识别；以及

至少一个处理器，同所述至少一个存储介质通信连接，

其中，当所述表情识别系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行权利要求1-16中任一项所述的表情识别方法。