CN110852224B

CN110852224B - 一种表情识别方法及相关装置

Info

Publication number: CN110852224B
Application number: CN201911057202.9A
Authority: CN
Inventors: 杨佳佳; 支洪平
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-12-08
Anticipated expiration: 2039-10-31
Also published as: CN110852224A

Abstract

本申请实施例公开了一种表情识别方法及相关装置，方法包括：获取待识别视频，待识别视频包括面部肌肉的多帧视频帧；根据多帧视频帧确定面部肌肉的参考运动模式，参考运动模式包括待识别视频所反映的面部肌肉在运动过程中的空间模式和时序模式，空间模式用于表征面部肌肉的特征点的动作轨迹，时序模式用于表征面部肌肉的特征点对的动作时序关系，特征点对包括面部肌肉的两个不同特征点；根据参考运动模式和预配置的基准运动模式，确定待识别视频的表情类型。本申请有利于提高设备区分表情类型的效率和准确率。

Description

一种表情识别方法及相关装置

技术领域

本申请涉及电子设备技术领域，具体涉及一种表情识别方法及相关装置。

背景技术

近年来，基于人工智能的快速发展以及移动智能设备的普及，人机交互技术越发在生活的方方面面发挥重要作用。伴随着计算机视觉技术的发展，人机交互的方式也变得多种多样，除去传统的文字和键盘输入，基于图像和音频、视频的交互方式越发受到消费者的推崇和喜爱。比如各类手机纷纷推出基于人脸识别的手机解锁和手机支付的功能等等。而基于人脸识别与自动表情分析的交互方式能够为用户提供更加人性化、智能化的交互体验。部分表情之间差异性较小，例如自发和人为表情之间的面部差异非常微小，且表情本身也会受到很多主观因素的影响，因此实现准确识别表情类型是亟待解决的问题。

发明内容

本申请实施例提供了一种表情识别方法及相关装置，以期提高电子设备区分表情类型的效率和准确率。

第一方面，本申请实施例提供一种表情识别方法，包括：

获取待识别视频，所述待识别视频包括面部肌肉的多帧视频帧；

根据所述多帧视频帧确定所述面部肌肉的参考运动模式，所述参考运动模式包括所述待识别视频所反映的所述面部肌肉在运动过程中的空间模式和时序模式，所述空间模式用于表征所述面部肌肉的特征点的动作轨迹，所述时序模式用于表征所述面部肌肉的特征点对的动作时序关系，所述特征点对包括所述面部肌肉的两个不同特征点；

根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型。

第二方面，本申请实施例提供一种人脸表情识别装置，包括处理单元和通信单元，其中，

所述处理单元，用于通过所述通信单元获取待识别视频，所述待识别视频包括面部肌肉的多帧视频帧；以及用于根据所述多帧视频帧确定所述面部肌肉的参考运动模式，所述参考运动模式包括所述待识别视频所反映的所述面部肌肉在运动过程中的空间模式和时序模式，所述空间模式用于表征所述面部肌肉的特征点的动作轨迹，所述时序模式用于表征所述面部肌肉的特征点对的动作时序关系，所述特征点对包括所述面部肌肉的两个不同特征点；以及用于根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请实施例中，首先获取待识别视频，待识别视频包括面部肌肉的多帧视频帧；然后根据多帧视频帧确定面部肌肉的参考运动模式，参考运动模式包括待识别视频所反映的面部肌肉在运动过程中的空间模式和时序模式，空间模式用于表征面部肌肉的特征点的动作轨迹，时序模式用于表征面部肌肉的特征点对的动作时序关系，特征点对包括面部肌肉的两个不同特征点；最后根据参考运动模式和预配置的基准运动模式，确定待识别视频的表情类型。可见，本申请通过待识别视频确定参考运动模式，结合预配置的基准运动模式，确定待识别视频的表情类型，提高了表情类型区分的效率和准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种表情识别系统的示意图；

图2是本申请实施例提供的一种表情识别方法的流程示意图；

图3a是本申请实施例提供的一种是面部肌肉特征点运动过程的示意图；

图3b是本申请实施例提供的一种特征点在垂直方向上的运动轨迹示意图；

图3c是本申请实施例提供的一种多个特征点的运动状态示意图；

图4本申请实施例提供的一种电子设备的结构示意图；

图5本申请实施例提供的一种表情识别装置的功能单元组成框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，图1为一个表情识别系统100的示意图，该表情识别系统100包括视频获取装置110、视频处理装置120，所述视频获取装置110连接所述视频处理装置120，视频获取装置110用于获取视频数据并发给视频处理装置120进行处理，视频处理装置120用于对视频数据进行处理并输出处理结果，该表情识别系统100可以包括集成式单体设备或者多设备，为方便描述，本申请将表情识别系统100统称为电子设备。显然该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(MobileStation，MS)，终端设备(terminal device)等等。

下面对本申请实施例进行详细介绍。

请参阅图2，图2是本申请实施例提供了一种表情识别方法的流程示意图，应用于如图1所示的电子设备，如图所示，本表情识别方法包括：

S201，获取待识别视频，所述待识别视频包括面部肌肉的多帧视频帧；

其中，每个待识别视频包含一种表情类型。

具体实现中，电子设备可以通过设置的摄像装置采集所述待识别视频，还可以通过其他设备上传获取所述待识别视频。

S202，根据所述多帧视频帧确定所述面部肌肉的参考运动模式，所述参考运动模式包括所述待识别视频所反映的所述面部肌肉在运动过程中的空间模式和时序模式，所述空间模式用于表征所述面部肌肉的特征点的动作轨迹，所述时序模式用于表征所述面部肌肉的特征点对的动作时序关系，所述特征点对包括所述面部肌肉的两个不同特征点；

其中，根据所述多帧视频帧确定面部肌肉的特征点，根据所述特征点的运动过程确定每个特征点对应的运动模式，所述运动模式包括每个特征点的运动轨迹和运动轨迹的起止时间，然后根据所述每个特征点的运动轨迹和运动轨迹的起止时间确定所述面部肌肉的参考运动模式。

S203，根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型。

其中，根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型，包括：将所述参考运动模式和预配置的基准运动模式进行比对，得到似然值，根据所述似然值确定所述待识别视频的面部肌肉的表情类型，所述似然值包括空间综合匹配度和时序综合匹配度。其中，表情是由一系列面部肌肉的运动产生的结果，在不同类别的表情中，面部肌肉运动所蕴含的空间模式和时序模式是不同的，所以基于面部肌肉运动中固有的空间模式和时序模式能够实现表情类型识别。通过对肌肉运动的时序和空间模式进行学习，从而达到较好的表情区分的效果。

在一个可能的示例中，所述根据所述多帧视频帧确定所述面部肌肉的参考运动模式，包括：根据所述面部肌肉的第一预设数量的第一特征点确定第二预设数量的基本事件对；根据所述第二预设数量的基本事件对提取所述面部肌肉的预配置的多个第一特征点在参考运动过程中的多个基本事件，其中，所述参考运动过程为所述待识别视频所反映的所述面部肌肉的运动过程，所述多个基本事件中每个基本事件用于表征预配置的第一特征点的运动轨迹；根据所述多个基本事件和所述第二预设数量的基本事件对确定所述面部肌肉的参考运动模式。

其中，待识别视频的每一帧都可以包括人脸图像，人脸图像可以通过多个特征点描述面部肌肉的变化，通过多个特征点可以反映不同的人脸或者是同一人脸的不同表情，表情是一个复杂的活动，由在时间上连续或重叠发生的肌肉运动的基本事件组成，所述基本事件可以由特征点的运动触发，特征点包括面部常用的五官特征点和脸部轮廓特征点等，其中，一个特征点的移动对应于一个基本事件，该基本事件记录了特征点的运动状态、起始时间和结束时间，基本事件的开始时间为特征点离开其中立位置的时间，而结束时间是特征点返回其中立位置的时间，所述中立位置为面部没有表情时特征点的位置，示例性的，基本事件可以表示为V＝<ts,te,K>,(ts<te)，ts和te分别是开始时间和结束时间，K是一个三维矩阵，描述特征点的典型运动轨迹。

举例来说，如图3a所示，图3a是面部肌肉特征点运动过程的示意图，其中面部肌肉上的两个特征点P1和P2如图中箭头所示的方向运动，t表示时间，y表示特征点P1和P2运动轨迹，分别代表鼻子右侧和右侧嘴角的肌肉运动。图3b中，t表示时间，v表示特征点在垂直方向上的运动轨迹，如显示特征点P1和P2在垂直方向上的轨迹v1和v2，其中，虚线代表轨迹v1，实线代表轨迹v2，T1，T2是轨迹v1和v2分别对应的持续时间。由于v1的持续时间在v2的范围内，所以v1和v2之间的时序关系为在其期间。如图3c所示，t表示时间，s表示特征点的运动状态，粗实线表示特征点在表情过程中都停留在初始位置没有运动的状态。而虚线表示特征点向上移动然后返回初始位置；细实线表示了特征点向上移动然后向下移动回到初始位置，之后继续向下运动再回到初始位置。

其中，根据所述待识别表情的特征点确定每个特征点对应的基本事件，根据每个特征点对应的基本事件确定基本事件对，在所有基本事件对中，可能出现任意两个基本事件对之间的时序关系在不同表情中出现的概率是相同或差别较小，有些时序关系在不同表情中出现的概率则存在很大的差别，因此需要根据每个基本事件对对应的时序关系确定在不同表情中概率分布具有差异性的时序关系及其对应的基本事件对，即根据所述面部肌肉的第一预设数量的第一特征点确定第二预设数量的基本事件对，其中，所述第一预设数量可以是图像中人脸的所有特征点的数量，也可以是预先设置的人脸某些特征点的数量，所述第二预设数量是可以是预先设定的，用于表征根据第一预设数量的第一特征点确定的基本事件对的排序结果提取的预设数量，所述第二预设数量的基本事件对中每个基本事件对所包含的两个基本事件的动作时序关系在多类表情的至少两类表情中具有鉴别性，所述多类表情中任意两类表情所对应的具有鉴别性的基本事件对可以不完全相同。将概率分布具有差异性的时序关系及其对应的基本事件对进行筛选、去重得到目标基本事件。目标基本事件可以是根据这种方式事先确定的，目标基本事件就是前述预配置的多个基本事件，进而可以根据所述目标基本事件确定所述面部肌肉的参考运动模式。

示例性的，第一预设数量的第一特征点可以为n个第一特征点，根据n个第一特征点确定的第二预设数量(例如为ξ)个基本事件对，将ξ个基本事件对中的每个基本事件进行去重处理得到b(其中，b<＝2ξ)个(多个)基本事件，根据b个基本事件确定所述面部肌肉的参考运动模式，其中，ξ个基本事件对具有鉴别性，所述具有鉴别性是指所述动作时序关系在多类表情的多个训练样本中的概率分布的差异性满足预设筛选条件，所述预设筛选条件用于筛选出基本事件对集合对应的概率分布序列中排序在前的基本事件对。其中，所述基本事件对集合包括所述面部肌肉的n个第一特征点所对应的λ个基本事件对，n为大于或等于b的整数，λ为大于或等于ξ的整数，具体的，λ的值可以为n*(n-1)。将λ个基本事件对的分数值进行排序，得到分数值由高到低的排序结果，根据所述排序结果提取前ξ个基本事件对。例如，以事件对w的时序关系w1和事件对r的时序关系r1为例，假设人为表情和自发表情样本均为100个视频，统计得到时序关系w1在人为表情样本的发生概率为80/100(其余12种时序关系也会部分或全部统计，但为低概率可以先滤除)，在自发样本的发生概率为50/100，概率差异性为0.3；统计得到时序关系r1在人为样本的的发生概率为50/100，在自发样本的发生概率为40/100，概率差异性为0.1；则w1的概率差异性大于r1的概率差异性，选事件对w作为具有鉴别性的基本事件对。

可见，本示例中，可以基于所述待识别视频中面部肌肉的特征点确定预配置特征点对应的基本事件，根据所述确定所述面部肌肉的面部肌肉的参考运动模式，提高了表情类型区分的效率和准确率。

在一个可能的示例中，所述根据所述面部肌肉的第一预设数量的第一特征点确定第二预设数量的基本事件对，包括：提取所述面部肌肉的第一预设数量的第一特征点；根据所述第一预设数量的第一特征点确定第三预设数量的基本事件对；计算得到所述第三预设数量的基本事件对中每个基本事件对的分数值；根据所述分数值对所述第三预设数量的基本事件对中的基本事件对进行排序并提取第二预设数量的基本事件对。

其中，根据所述待识别视频提取面部肌肉的第一预设数量的第一特征点，然后根据第一预设数量的第一特征点中的任意两个第一特征点组合的基本事件对确定第三预设数量的基本事件对，对第三预设数量的基本事件对进行筛选得到第二预设数量的基本事件对。所述分数值可以用于表征两两事件对的时序关系在不同表情上的概率分布之间的差异程度，分数值越高，差异程度越大，故可以提取排名前第二预设数量位的基本事件对。

其中，所述第三预设数量可以根据第一预设数量事先确定，例如，第一预设数量为n，则第三预设数量可以为n*(n-1)，或者，所述第三预设数量还可以为大于或等于第二预设数量且不大于n*(n-1)的任意整数。

具体实现中，根据所述待识别视频确定面部肌肉的第一预设数量的第一特征点，例如根据所述待识别视频确定面部肌肉的n个第一特征点，这样共有n*(n-1)个特征点对，则所述待识别视频可以对应n个基本事件，同时对应有n*(n-1)个基本事件对。在不同表情类型的数据集上确定每个表情类型的数据集出现各时序关系值的概率矩阵，且概率矩阵的维度为(n*(n-1))*13，根据Dkl(Kullback-Leibler，散度的标志)和概率矩阵计算每个不同表情类型的数据集中第三预设数量(n*(n-1))的基本事件对的分数值，根据所述分数值对第三预设数量个基本事件对进行筛选。例如，在自发表情样本和人为表情数据集上分别统计每个数据集中n*(n-1)个基本事件对，分别是13种时序关系的频率，这样得到和/>都是(n*(n-1))×13的概率矩阵，其中，/>和/>是基于整个训练集样本中所有事件对在自发表情Ly和人为表情Lz上分别取13种时序关系值时的统计概率矩阵。经过预设公式的计算就可以得到n*(n-1)维的向量S_ij，所述向量S_ij表示从样本集中得到的n*(n-1)个基本事件对的分数值，根据这个分数值由高到低对所有基本事件对进行排序，选择排名在前ξ个基本事件对及其时序关系。

举例来说，假设所述待识别视频确定面部肌肉有5个特征点，对应于5个基本事件，这样可以得到20个事件对，每个事件对可以取13种时序关系中的一种，分别在自发表情集和人为表情集上统计20个事件对取13种时序关系的频率，得到两个20×13的概率矩阵。经过上述预设公式计算，可以得到20×1的向量，每个元素代表这20个基本事件对的分数值。根据这个分数对所有基本事件对进行排序，选择排名在前10个基本事件对及其时序关系。

可见，本示例中，可以基于预设筛选条件对动作时序关系进行筛选，避免将大量无效数据进行运算，提高了表情类型区分的效率。

在一个可能的示例中，所述基准运动模式通过预先训练的多个表情预测模型表征，其中，每一表情预测模型用于输出一类表情的预测概率；所述根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型，包括：确定所述多个基本事件对应的多个轨迹向量所组成的轨迹矩阵，以及确定所述第二预设数量的基本事件对的第二预设数量的动作时序关系；将所述轨迹矩阵和所述第二预设数量的动作时序关系分别作为模型输入，通过所述多个表情预测模型输出多类表情的多个预测模型；根据所述多类表情的多个预测概率确定所述待识别视频的表情类型。

其中，在确定出多个基本事件后，把待识别视频中每一视频帧的多个基本事件对应的运动轨迹K拼接在一起，得到多个基本事件轨迹矩阵，其中，K为三维矩阵，表示每个基本事件的运动轨迹，其中，三维矩阵的三个维度分别表示时间，横轴方向和纵轴方向的坐标，将多个基本事件轨迹矩阵和第二预设数量的基本事件对的时序关系分别输入预先训练好的多个表情预测模型，得到多个表情概率，将多个表情概率进行比较，确定最大表情概率对应的表情类型为所述待识别视频的表情类型。

其中，由于第二预设数量的基本事件对的动作时序关系蕴含着时序信息，因此，所确定的多个基本事件也蕴含多个时序信息。训练模型时，把多个基本事件对应的多个轨迹向量所组成的轨迹矩阵，作为表情预测模型(例如卷积神经网络)的输入，通过表情预测模型对轨迹矩阵的训练可以很好的学到面部肌肉运动的全局空间模式，用表情预测模型学习到的空间结构信息是在它的参数里体现的，空间结构的信息就蕴含在神经网络的参数中。一种实现方式中，还可以在表情预测模型的最后添加一层时序关系节点，节点数量可以为第二预设数量个，每个节点的值为1到13中的一个，通过这层时序关系节点来表示第二预设数量的基本事件对的动作时序关系。进而，可以用这层节点和前述表情预测模型的输出(输出向量的维度可以是第二预设数量)融合起来，融合方式可以是点积、叉乘等向量融合方式，得到最终的一个预测概率值，这样实现了很好地结合全局空间模式和时序模式信息。对于每类表情都可以预先训练出一个表情预测模型，例如，可以用自发表情和人为表情的训练样本来分别训练两个表情预测模型，分别称为自发表情预测模型和人为表情预测模型。

测试时模型的输入输出同训练时一样，提取待识别视频的多个基本事件对应的K拼接起来分别输入自发表情预测模型和人为表情预测模型，得到两个模型相应的输出层向量，再以向量的形式输入第二预设数量个基本事件对对应的时序关系，从而可以将待识别视频的第二预设数量个基本事件对对应的时序关系值看作是最后一层节点，分别将这两个模型的输出层向量和相应的时序节点向量进行点积融合得到表情概率，最后根据两个模型较大表情概率值来确定待测视频样本属于哪个表情类型。通过基本事件对之间的时序关系可以学习到面部肌肉运动的时序模式，而通过表情预测模型可以学习到面部肌肉运动的全局和深层空间结构。从而提高自发和人为表情区分的准确率。

可见，本示例中，可以基于筛选和去重后的基本事件的运动轨迹进行轨迹矩阵的拼接组合，然后将拼接组合后的轨迹矩阵和基本事件的动作时序关系输入多个表情预测模型处理确定表情类型，实现了将空间轨迹和时序关系进行结合，以及分别输入多个表情预测模型，有效提高表情类型区分的准确率。

在一个可能的示例中，所述基准运动模式通过预先训练的单个表情预测模型表征，其中，所述单个表情预测模型用于输出多类表情的预测概率；所述根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型，包括：确定所述多个基本事件对应的多个轨迹向量所组成的轨迹矩阵，以及确定所述第二预设数量的基本事件对的第二预设数量的动作时序关系；将所述轨迹矩阵和所述第二预设数量的动作时序关系作为模型输入，通过所述单个表情预测模型输出多类表情的多个预测模型概率；根据所述多类表情的多个预测概率确定所述待识别视频的表情类型。

其中，通过所述预先训练的表情预测模型，例如通过自发表情和人为表情等训练表情预测模型，其中所述多类表情包括但不限于自发表情和人为表情。单个表情预测模型可以直接输出多类表情中每类表情的类别及其预测概率。

其中，根据确定的所述多个基本事件，这里把每个样本中的多个基本事件对应的矩阵K拼接在一起，得到轨迹矩阵，将多个基本事件轨迹矩阵和第二预设数量的基本事件对的时序关系输入预训练的单个表情预测模型，得到多个表情概率，将多个表情概率进行比较，确定最大表情概率对应的表情类型为所述待识别视频的表情类型。

具体实现中，在训练表情预测模型时，因为初始样本视频的时长可能不同，要保证输入模型的矩阵连接时时间维的统一长度，可以初始样本视频根据最短视频的时间长度，对其他所有视频进行向下采样得到统一时间长度的矩阵，这样就可以得到时间长度保持一致的样本视频。

可见，本示例中，可以基于筛选和去重后的基本事件的运动轨迹进行轨迹矩阵的拼接组合，然后将拼接组合后的轨迹矩阵和基本事件的动作时序关系输入表情预测模型处理确定表情类型，实现了将空间轨迹和时序关系进行结合后输入表情预测模型，提高表情类型区分的效率和准确度。

在一个可能的示例中，所述根据所述多帧视频帧确定所述面部肌肉的参考运动模式，包括：识别所述多帧视频帧中的人脸图像；查询预设的映射关系集合，确定所述人脸图像对应的第二特征点子集，所述映射关系集合包括所述人脸图像与第二特征点子集之间的对应关系，所述第二特征点子集包括预先设置的多个第二特征点，所述多个第二特征点对应的第二特征点对中包括具有表情鉴别性的第二特征点对，所述表情鉴别性是指在不同表情下第二特征点对的运动模式的概率分布差异性排序在前；确定所述多个第二特征点在所述多帧视频帧中的运动轨迹作为所述面部肌肉在运动过程中的空间模式，并确定所述具有表情鉴别性的第二特征点对在所述多帧视频帧中的动作时序关系作为所述面部肌肉的运动过程中的时序模式。

其中，所述第二特征点与所述第一特征点都是空间模式中有运动轨迹的面部肌肉的特征点，所述第一特征点是面部肌肉的预设数量的特征点，第一特征点是一经设定就是固定的，不会随着用户的不同而变化的，所述第二特征点是根据用户人脸图像确定的对应用户个人的特定特征点。

具体实现中，识别所述待识别视频中的人脸图像，根据所述人脸图像确定该人脸图像对应的第二特征点子集，根据所述第二特征点子集中的预先设置的多个第二特征点和具有鉴别性的第二特征点对确定所述人脸图像对应的面部肌肉在运动过程中的空间模式和时序模式。举例来说，映射关系集合包括用户A的人脸图像的8个预先设置的具有表情鉴别性的第二特征点对，用户B的人脸图像的12个预先设置的具有表情鉴别性的第二特征点对等，当识别到所述待识别视频中的人脸图像为用户A时，查询预设的映射关系集合，确定预先设置的用户A的人脸图像对应的面部肌肉的8个第二特征点对，然后根据8个第二特征点对的运动轨迹和动作时序关系确定所述人脸图像对应的面部肌肉的空间模式和时序模式。

可见，本示例中，可以基于面部肌肉确定特征点子集，以及确定特征点子集的运动轨迹和具有表情鉴别性的特征点对的动作时序关系，得到参考运动模式，避免对不必要的特征点的运动过程进行分析，提高了表情区分的效率。

在一个可能的示例中，所述根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型，包括：将所述多个第二特征点的运动轨迹与所述基准运动模式中的多个第二特征点的运动轨迹进行比较，得到空间综合匹配度；将所述具有表情鉴别性的第二特征点对的动作时序关系与所述基准运动模式中的第二特征点对的动作时序关系进行比较，得到时序综合匹配度；根据所述空间综合匹配度和所述时序综合匹配度确定所述待识别视频的表情类型。

其中，在确定多个第二特征点运动轨迹和对应的第二特征点对的动作时序关系后，将多个第二特征点运动轨迹与所述基准运动模式中的多个第二特征点的运动轨迹进行比较，得到空间综合匹配度；将多个第二特征点对应的第二特征点对的动作时序关系与基准运动模式中的第二特征点对的动作时序关系进行比较，得到时序综合匹配度。根据空间综合匹配度和时序综合匹配度计算确定所述待识别视频的表情类型。举例来说，根据确定用户A的多个特征点的运动轨迹，将多个特征点运动轨迹与用户A的人为表情的基准运动模式中的多个第二特征点的运动轨迹进行比较，得到人为表情空间综合匹配度为80％，将多个第二特征点对应的第二特征点对的动作时序关系与基准运动模式中的第二特征点对的动作时序关系进行比较，得到人为表情时序综合匹配度为20％；将多个第二特征点运动轨迹与用户A的自发表情的基准运动模式中的多个第二特征点的运动轨迹进行比较，得到自发表情空间综合匹配度为75％，将多个第二特征点对应的第二特征点对的动作时序关系与基准运动模式中的第二特征点对的动作时序关系进行比较，得到自发表情时序综合匹配度为70％；可以直接对人为表情空间综合匹配度为80％和人为表情时序综合匹配度为20％进行相加以及对自发表情空间综合匹配度为75％和自发表情时序综合匹配度为70％进行相加，确定较大相加值对应的自发表情为所述待识别视频的表情类型。

具体实现中，所述待识别视频中的面部肌肉的角度与确定预配置的基准运动模式的样本视频人脸图像的角度不一致时，在确定特征点的运动轨迹可能会出现差异，可以通过对空间综合匹配度和时序综合匹配度进行加权计算进行校准，保障表情识别的准确性。例如，对表情时序综合匹配度和表情空间综合匹配度进行加权计算得到人为表情综合分数R和自发表情综合分数Z，R＝80％*40+20％*60＝44，Z＝75％*40+70％*60＝72。确定分数值最大的对应的自发表情为所述待识别视频的表情类型。

可见，本示例中，可以基于预配置的基准运动模式，与参考运动模式进行匹配计算，确定表情类型，实现了针对已有预配置的基准运动模式的表情匹配区分，提高了表情区分的效率和准确率。

在一个可能的示例中，通过以下方式确定所述面部肌肉在运动过程中的时序模式：根据所述面部肌肉的参考运动过程确定所述面部肌肉的特征点对的起止时间；根据所述起止时间确定所述面部肌肉的特征点对的时间间隔；根据所述时间间隔查询预设的映射关系表，确定所述面部肌肉的特征点对的动作时序关系，其中，所述映射关系表包括所述时间间隔和所述动作时序关系的对应关系；用所述面部肌肉的特征点对的动作时序关系构成所述时序模式。

可以理解的是，在获取待识别视频后，对于视频中面部肌肉的每一特征点对，可以直接确定出该特征点对的起止时间，例如对于特征点对P₁和P₂，可以直接确定出特征点P₁和特征点P₂的起止时间分别是(t2，t3)、(t1，t4)，进而，通过起止时间计算出特征点对的时间间隔，时间间隔可以由二者起始时间之差、终止时间之差、一者起始时间与另一者终止时间之差、一者终止时间与另一者起始时间之差构成；查找映射关系表，得到时间间隔所对应的动作时序关系。特征点对可以有多对，时序模式可以由多对特征点对的动作时序关系构成。

示例性的，可以通过艾伦区间代数(Allen`s Interval Algebra)来描述任意两个特征点之间的时序关系。根据艾伦区间代数的定义，在两个特征点之间存在13种时序关系：I＝{be,bi,m,mi,o,oi,s,si,d,di,f,fi,eq}，其中，be,m,o,s,d,f分别代表之前，相遇，重叠，开始，在其期间和结束，bi,mi,oi,si,di,fi代表与之前，相遇，重叠，开始，在其期间和结束的相反关系，eq表示相等。根据计算两个基本事件之间的时间间隔dis(v_i,v_j)，如下表1所示，可以根据时间间隔得到两个特征点之间的时序关系，其中ts_i，ts_j和te_i，te_j分别表示两个特征点运动轨迹vi，vj的开始时间和结束时间。下表1是之前，相遇，重叠，开始，在其期间和结束6种关系和它们的相反关系以及相等关系共13种时序关系与时间间隔的映射表，其中相反关系就是将图解中虚线和实线换个位置。

表1映射关系表

可见，本示例中，可以基于艾伦区间代数和两个基本事件之间的时间间隔确定基本事件的时序关系，有利于将基本事件的时序和空间的信息进行结合区分表情，提高了表情区分的准确率。

与上述图2所示的实施例一致的，请参阅图4，图4是本申请实施例提供的一种电子设备400的结构示意图，如图所示，所述电子设备400包括应用处理器410、存储器420、通信接口430以及一个或多个程序421，其中，所述一个或多个程序421被存储在上述存储器420中，并且被配置由上述应用处理器410执行，所述一个或多个程序421包括用于执行以下步骤的指令；

在一个可能的示例中，在所述根据所述多帧视频帧确定所述面部肌肉的参考运动模式方面，所述程序中的指令具体用于执行以下操作：根据所述面部肌肉的第一预设数量的第一特征点确定第二预设数量的基本事件对；根据所述第二预设数量的基本事件对提取所述面部肌肉的预配置的多个第一特征点在参考运动过程中的多个基本事件，其中，所述参考运动过程为所述待识别视频所反映的所述面部肌肉的运动过程，所述多个基本事件中每个基本事件用于表征预配置的第一特征点的运动轨迹；根据所述多个基本事件和所述第二预设数量的基本事件对确定所述面部肌肉的参考运动模式。

在一个可能的示例中，在所述根据所述面部肌肉的第一预设数量的第一特征点确定第二预设数量的基本事件对方面，所述程序中的指令具体用于执行以下操作：提取所述面部肌肉的第一预设数量的第一特征点；根据所述第一预设数量的第一特征点确定第三预设数量的基本事件对；计算得到所述第三预设数量的基本事件对中每个基本事件对的分数值；根据所述分数值对所述第三预设数量的基本事件对中的基本事件对进行排序并提取第二预设数量的基本事件对。

在一个可能的示例中，所述基准运动模式通过预先训练的多个表情预测模型表征，其中，每一表情预测模型用于输出一类表情的预测概率；在所述根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型方面，所述程序中的指令具体用于执行以下操作：确定所述多个基本事件对应的多个轨迹向量所组成的轨迹矩阵，以及确定所述第二预设数量的基本事件对的第二预设数量的动作时序关系；将所述轨迹矩阵和所述第二预设数量的动作时序关系分别作为模型输入，通过所述多个表情预测模型输出多类表情的多个预测概率；根据所述多类表情的多个预测概率确定所述待识别视频的表情类型。

在一个可能的示例中，所述基准运动模式通过预先训练的单个表情预测模型表征，其中，所述单个表情预测模型用于输出多类表情的预测概率；在所述根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型方面，所述程序中的指令具体用于执行以下操作：确定所述多个基本事件对应的多个轨迹向量所组成的轨迹矩阵，以及确定所述第二预设数量的基本事件对的第二预设数量的动作时序关系；将所述轨迹矩阵和所述第二预设数量的动作时序关系作为模型输入，通过所述单个表情预测模型输出多类表情的多个预测概率；根据所述多类表情的多个预测概率确定所述待识别视频的表情类型。

在一个可能的示例中，在所述根据所述多帧视频帧确定所述面部肌肉的参考运动模式方面，所述程序中的指令具体用于执行以下操作：识别所述多帧视频帧中的人脸图像；查询预设的映射关系集合，确定所述人脸图像对应的第二特征点子集，所述映射关系集合包括所述人脸图像与第二特征点子集之间的对应关系，所述第二特征点子集包括预先设置的多个第二特征点，所述多个第二特征点对应的第二特征点对中包括具有表情鉴别性的第二特征点对，所述表情鉴别性是指在不同表情下第二特征点对的运动模式的概率分布差异性排序在前；确定所述多个第二特征点在所述多帧视频帧中的运动轨迹作为所述面部肌肉在运动过程中的空间模式，并确定所述具有表情鉴别性的第二特征点对在所述多帧视频帧中的动作时序关系作为所述面部肌肉的运动过程中的时序模式。

在一个可能的示例中，在所述根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型方面，所述程序中的指令具体用于执行以下操作：将所述多个第二特征点的运动轨迹与所述基准运动模式中的多个第二特征点的运动轨迹进行比较，得到空间综合匹配度；将所述具有表情鉴别性的第二特征点对的动作时序关系与所述基准运动模式中的第二特征点对的动作时序关系进行比较，得到时序综合匹配度；根据所述空间综合匹配度和所述时序综合匹配度确定所述待识别视频的表情类型。

在一个可能的示例中，所述程序还包括用于执行以下操作的指令：通过以下方式确定所述面部肌肉在运动过程中的时序模式：根据所述面部肌肉的参考运动过程确定所述面部肌肉的特征点对的起止时间；根据所述起止时间确定所述面部肌肉的特征点对的时间间隔；根据所述时间间隔查询预设的映射关系表，确定所述面部肌肉的特征点对的动作时序关系，其中，所述映射关系表包括所述时间间隔和所述动作时序关系的对应关系；根据所述面部肌肉的特征点对的动作时序关系构成所述时序模式。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图5是本申请实施例中所涉及的人脸表情识别装置500的功能单元组成框图。该人脸表情识别装置500应用于电子设备，所述电子设备包括处理单元501和通信单元502，其中，

所述处理单元501，用于通过所述通信单元502获取待识别视频，所述待识别视频包括面部肌肉的多帧视频帧；以及用于根据所述多帧视频帧确定所述面部肌肉的参考运动模式，所述参考运动模式包括所述待识别视频所反映的所述面部肌肉在运动过程中的空间模式和时序模式，所述空间模式用于表征所述面部肌肉的特征点的动作轨迹，所述时序模式用于表征所述面部肌肉的特征点对的动作时序关系，所述特征点对包括所述面部肌肉的两个不同特征点；以及用于根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型。

其中，所述人脸表情识别装置500还可以包括存储单元503，用于存储电子设备的程序代码和数据。所述处理单元501可以是处理器，所述通信单元502可以是内部通信接口，存储单元503可以是存储器。

在一个可能的示例中，在所述根据所述多帧视频帧确定所述面部肌肉的参考运动模式方面，所述处理单元501具体用于：根据所述面部肌肉的第一预设数量的第一特征点确定第二预设数量的基本事件对；根据所述第二预设数量的基本事件对提取所述面部肌肉的预配置的多个第一特征点在参考运动过程中的多个基本事件，其中，所述参考运动过程为所述待识别视频所反映的所述面部肌肉的运动过程，所述多个基本事件中每个基本事件用于表征预配置的第一特征点的运动轨迹；根据所述多个基本事件和所述第二预设数量的基本事件对确定所述面部肌肉的参考运动模式。

在一个可能的示例中，在所述根据所述面部肌肉的第一预设数量的第一特征点确定第二预设数量的基本事件对方面，所述处理单元501具体用于：提取所述面部肌肉的第一预设数量的第一特征点；根据所述第一预设数量的第一特征点确定第三预设数量的基本事件对；计算得到所述第三预设数量的基本事件对中每个基本事件对的分数值；根据所述分数值对所述第三预设数量的基本事件对中的基本事件对进行排序并提取第二预设数量的基本事件对。

在一个可能的示例中，所述基准运动模式通过预先训练的多个表情预测模型表征，其中，每一表情预测模型用于输出一类表情的预测概率；在所述根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型方面，所述处理单元501具体用于：确定所述多个基本事件对应的多个轨迹向量所组成的轨迹矩阵，以及确定所述第二预设数量的基本事件对的第二预设数量的动作时序关系；将所述轨迹矩阵和所述第二预设数量的动作时序关系分别作为模型输入，通过所述多个表情预测模型输出多类表情的多个预测概率；根据所述多类表情的多个预测概率确定所述待识别视频的表情类型。

在一个可能的示例中，所述基准运动模式通过预先训练的单个表情预测模型表征，其中，所述单个表情预测模型用于输出多类表情的预测概率；在所述根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型方面，所述处理单元501具体用于：确定所述多个基本事件对应的多个轨迹向量所组成的轨迹矩阵，以及确定所述第二预设数量的基本事件对的第二预设数量的动作时序关系；将所述轨迹矩阵和所述第二预设数量的动作时序关系作为模型输入，通过所述单个表情预测模型输出多类表情的多个预测概率；根据所述多类表情的多个预测概率确定所述待识别视频的表情类型。

在一个可能的示例中，在所述根据所述多帧视频帧确定所述面部肌肉的参考运动模式方面，所述处理单元501具体用于：识别所述多帧视频帧中的人脸图像；查询预设的映射关系集合，确定所述人脸图像对应的第二特征点子集，所述映射关系集合包括所述人脸图像与第二特征点子集之间的对应关系，所述第二特征点子集包括预先设置的多个第二特征点，所述多个第二特征点对应的第二特征点对中包括具有表情鉴别性的第二特征点对，所述表情鉴别性是指在不同表情下第二特征点对的运动模式的概率分布差异性排序在前；确定所述多个第二特征点在所述多帧视频帧中的运动轨迹作为所述面部肌肉在运动过程中的空间模式，并确定所述具有表情鉴别性的第二特征点对在所述多帧视频帧中的动作时序关系作为所述面部肌肉的运动过程中的时序模式。

在一个可能的示例中，在所述根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型方面，所述处理单元501具体用于：将所述多个第二特征点的运动轨迹与所述基准运动模式中的多个第二特征点的运动轨迹进行比较，得到空间综合匹配度；将所述具有表情鉴别性的第二特征点对的动作时序关系与所述基准运动模式中的第二特征点对的动作时序关系进行比较，得到时序综合匹配度；根据所述空间综合匹配度和所述时序综合匹配度确定所述待识别视频的表情类型。

在一个可能的示例中，所述处理单元501还用于：通过以下方式确定所述面部肌肉在运动过程中的时序模式：根据所述面部肌肉的参考运动过程确定所述面部肌肉的特征点对的起止时间；根据所述起止时间确定所述面部肌肉的特征点对的时间间隔；根据所述时间间隔查询预设的映射关系表，确定所述面部肌肉的特征点对的动作时序关系，其中，所述映射关系表包括所述时间间隔和所述动作时序关系的对应关系；根据所述面部肌肉的特征点对的动作时序关系构成所述时序模式。

可以理解的是，由于方法实施例与装置实施例为相同技术构思的不同呈现形式，因此，本申请中方法实施例部分的内容应同步适配于装置实施例部分，此处不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种表情识别方法，其特征在于，应用于区分自发和人为表情类型的场景，包括：

根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型，包括：将所述参考运动模式和预配置的基准运动模式进行比对，得到似然值，根据所述似然值确定所述待识别视频的面部肌肉的表情类型，所述似然值包括空间综合匹配度和时序综合匹配度；

其中，通过以下方式确定所述面部肌肉在运动过程中的时序模式：根据所述面部肌肉的参考运动过程确定所述面部肌肉的特征点对的起止时间；根据所述起止时间确定所述面部肌肉的特征点对的时间间隔；根据所述时间间隔查询预设的映射关系表，确定所述面部肌肉的特征点对的动作时序关系，其中，所述映射关系表包括所述时间间隔和所述动作时序关系的对应关系；用所述面部肌肉的特征点对的动作时序关系构成所述时序模式。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多帧视频帧确定所述面部肌肉的参考运动模式，包括：

根据所述面部肌肉的第一预设数量的第一特征点确定第二预设数量的基本事件对；

根据所述第二预设数量的基本事件对提取所述面部肌肉的预配置的多个第一特征点在参考运动过程中的多个基本事件，其中，所述参考运动过程为所述待识别视频所反映的所述面部肌肉的运动过程，所述多个基本事件中每个基本事件用于表征预配置的第一特征点的运动轨迹；

根据所述多个基本事件和所述第二预设数量的基本事件对确定所述面部肌肉的参考运动模式。

3.根据权利要求2所述的方法，其特征在于，所述根据所述面部肌肉的第一预设数量的第一特征点确定第二预设数量的基本事件对，包括：

提取所述面部肌肉的第一预设数量的第一特征点；

根据所述第一预设数量的第一特征点确定第三预设数量的基本事件对；

计算得到所述第三预设数量的基本事件对中每个基本事件对的分数值；

根据所述分数值对所述第三预设数量的基本事件对中的基本事件对进行排序并根据排序结果提取第二预设数量的基本事件对。

4.根据权利要求2或3所述的方法，其特征在于，所述基准运动模式通过预先训练的多个表情预测模型表征，其中，每一表情预测模型用于输出一类表情的预测概率；所述根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型，包括：

确定所述多个基本事件对应的多个轨迹向量所组成的轨迹矩阵，以及确定所述第二预设数量的基本事件对的第二预设数量的动作时序关系；

将所述轨迹矩阵和所述第二预设数量的动作时序关系分别作为模型输入，通过所述多个表情预测模型输出多类表情的多个预测概率；

根据所述多类表情的多个预测概率确定所述待识别视频的表情类型。

5.根据权利要求2或3所述的方法，其特征在于，所述基准运动模式通过预先训练的单个表情预测模型表征，其中，所述单个表情预测模型用于输出多类表情的预测概率；所述根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型，包括：

将所述轨迹矩阵和所述第二预设数量的动作时序关系作为模型输入，通过所述单个表情预测模型输出多类表情的多个预测概率；

6.根据权利要求1所述的方法，其特征在于，所述根据所述多帧视频帧确定所述面部肌肉的参考运动模式，包括：

识别所述多帧视频帧中的人脸图像；

查询预设的映射关系集合，确定所述人脸图像对应的第二特征点子集，所述映射关系集合包括所述人脸图像与第二特征点子集之间的对应关系，所述第二特征点子集包括预先设置的多个第二特征点，所述多个第二特征点对应的第二特征点对中包括具有表情鉴别性的第二特征点对，所述表情鉴别性是指在不同表情下第二特征点对的运动模式的概率分布差异性排序在前；

确定所述多个第二特征点在所述多帧视频帧中的运动轨迹作为所述面部肌肉在运动过程中的空间模式，并确定所述具有表情鉴别性的第二特征点对在所述多帧视频帧中的动作时序关系作为所述面部肌肉的运动过程中的时序模式。

7.根据权利要求6所述的方法，其特征在于，所述根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型，包括：

将所述多个第二特征点的运动轨迹与所述基准运动模式中的多个第二特征点的运动轨迹进行比较，得到空间综合匹配度；

将所述具有表情鉴别性的第二特征点对的动作时序关系与所述基准运动模式中的第二特征点对的动作时序关系进行比较，得到时序综合匹配度；

根据所述空间综合匹配度和所述时序综合匹配度确定所述待识别视频的表情类型。

8.一种表情识别装置，其特征在于，应用于区分自发和人为表情类型的场景，包括处理单元和通信单元，其中，

所述处理单元，用于通过所述通信单元获取待识别视频，所述待识别视频包括面部肌肉的多帧视频帧；以及用于根据所述多帧视频帧确定所述面部肌肉的参考运动模式，所述参考运动模式包括所述待识别视频所反映的所述面部肌肉在运动过程中的空间模式和时序模式，所述空间模式用于表征所述面部肌肉的特征点的动作轨迹，所述时序模式用于表征所述面部肌肉的特征点对的动作时序关系，所述特征点对包括所述面部肌肉的两个不同特征点；以及用于根据所述参考运动模式和预配置的基准运动模式，确定所述待识别视频的表情类型，包括：将所述参考运动模式和预配置的基准运动模式进行比对，得到似然值，根据所述似然值确定所述待识别视频的面部肌肉的表情类型，所述似然值包括空间综合匹配度和时序综合匹配度；其中，通过以下方式确定所述面部肌肉在运动过程中的时序模式：根据所述面部肌肉的参考运动过程确定所述面部肌肉的特征点对的起止时间；根据所述起止时间确定所述面部肌肉的特征点对的时间间隔；根据所述时间间隔查询预设的映射关系表，确定所述面部肌肉的特征点对的动作时序关系，其中，所述映射关系表包括所述时间间隔和所述动作时序关系的对应关系；用所述面部肌肉的特征点对的动作时序关系构成所述时序模式。

9.一种电子设备，其特征在于，包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。