CN111401105A

CN111401105A - 一种视频表情识别方法、装置及设备

Info

Publication number: CN111401105A
Application number: CN201910000944.1A
Authority: CN
Inventors: 田卉
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2020-07-10
Anticipated expiration: 2039-01-02
Also published as: CN111401105B

Abstract

本发明公开了一种视频表情识别方法、装置及设备，该视频表情识别方法包括：获取对原始视频预处理得到的图像特征向量；对所述图像特征向量进行整合处理，得到整合特征向量；根据所述整合特征向量训练模型参数，得到表情分类模型；通过所述表情分类模型，对输入的视频帧的图像帧序列，进行表情识别。本发明的实施例，通过对视频预处理，得到表情强度较大的视频帧序列形成样图像本集，从中提取特征向量，有助于提高深度学习网络训练的精度和收敛性。利用基于级联注意机制的特征向量整合处理得到紧凑型的特征向量，进行模型训练，得到固定的权重等模型参数，通过更新模型参数，得到新的表情分类模型，使得表情识别的准确率更高。

Description

一种视频表情识别方法、装置及设备

技术领域

本发明涉及表情识别领域，尤其涉及一种视频表情识别方法、装置及设备。

背景技术

表情识别技术是基于人的脸部特征，对输入的图像或者视频进行人脸特征提取，从而识别人的表情种类。需要识别的表情包括六类基本表情，别是：生气、厌恶、恐惧、开心、伤心以及惊讶。表情识别的基本流程是首先从图片或视频流中检测出人脸的位置大小并对齐，再进行关键点定位；在此基础上提取人脸的图像特征描述子，使之更具有区分度；最后将提取的人脸图像特征放到训练好的模型中预测其属于某类表情的概率。现阶段表情分类模型的训练主要基于深度学习的卷积神经网络，利用损失函数通过后传算法更新其网络权重，最后得到所需的表情分类模型。而基于视频的表情识别主要是对动态视频中的人脸进行自动检测和识别表情的过程。

将视频分解成帧序列提取对应的图像特征来进行表情识别是一种视频表情识别中广泛应用的方法，某些不基于深度学习的传统机器学习方法提取的图像特征需要依靠专业知识来设计，不如深度学习自动提取抽象化的特征更具有区分度和图像的旋转不变性等。而其他基于深度学习的方法在进行帧聚合的过程中，会设计融合几个不同的网络，提取出的特征维度很大，这就增加了整个模型训练和测试的时间复杂度和内存容量，不适用于工业应用。

对于通过时序学习模型LSTM(Long Short-Term Memory，长短期记忆网络)提取视频帧序列中的时空特征进行表情识别这类方法，它考虑了视频的时间特征，可以从动态分析的角度对人脸表情强度进行识别，可以提升其表情识别的准确度。然而其输入必须是一个完整的包括表情强度比较明显的帧的视频序列，这就需要大量的人力物力去进行标注和裁剪。另外，LSTM这种密集式采样会使得模型在处理视频序列输入时，需要大量内存来保存所需的视频信息用于后续的模型训练和分析，不适用于工业应用。

发明内容

为了解决上述技术问题，本发明提供了一种视频表情识别方法、装置及设备，以解决现有表情识别方法中模型训练复杂且精确度较低的问题。

依据本发明的一个方面，提供了一种视频表情识别方法，包括：

获取对原始视频预处理得到的图像特征向量；

对所述图像特征向量进行整合处理，得到整合特征向量；

根据所述整合特征向量训练模型参数，得到表情分类模型；

通过所述表情分类模型，对输入的视频帧的图像帧序列，进行表情识别。

可选地，获取对原始视频预处理得到的图像特征向量，包括：

选取原始视频的关键帧；

对所述关键帧所在的视频片段进行采样，形成所述原始视频的图像样本集；

提取所述图像样本集的视觉特征并做嵌入式特征选择，得到所述原始视频的图像特征向量。

可选地，对所述图像特征向量进行整合处理，得到整合特征向量，包括：

根据所述图像特征向量，计算第一特征向量；

利用所述第一特征向量计算所述整合特征向量。

可选地，根据所述图像特征向量，计算第一特征向量，包括：

通过公式：

计算所述图像特征向量的第一影响度；

其中，e_k1为第一影响度，q₁为级联注意机制的第一注意机制模块的核，

为q₁的转置，f_k为所述图像特征向量，k为所述图像特征向量的集合的数量；

通过公式：

计算所述图像特征向量的第一权重；

其中，a_k1为第一权重，exp(e_k1)为e_k1的指数，∑_kexp(e_k1)表示对e_k1的指数求和；

通过公式：r¹＝∑_ka_k1f_k，计算所述第一特征向量；

其中，r¹为所述第一特征向量。

可选地，利用所述第一特征向量计算所述整合特征向量，包括：

通过公式：q₂＝tanh(W₀r¹+b₀)，计算第二注意机制模块的核；

其中，q₂为级联注意机制的第二注意机制模块的核，tanh表示的是双曲线非线性变换，r¹为所述第一特征向量，W₀为表情分类模型的权重参数的初始值，b₀为表情分类模型的偏移量的初始值；

通过公式：

计算所述图像特征向量的第二影响度；

其中，e_k2为第二影响度，

为q₂的转置，f_k为所述图像特征向量，k为所述图像特征向量的集合的数量；

通过公式：

计算所述图像特征向量的第二权重；

其中，a_k2为第二权重，exp(e_k2)为e_k2的指数，∑_kexp(e_k2)表示对e_k2的指数求和；

通过公式：r²＝∑_ka_k2f_k，计算所述整合特征向量；

其中，r²为所述整合特征向量。

可选地，根据所述整合特征向量训练模型参数，得到表情分类模型，包括：

用所述整合特征向量计算分类概率；

根据所述损失函数的数值，确定表情分类模型的权重参数和偏移量的最终值；

利用所述权重参数和偏移量的最终值，构建表情分类模型。

可选地，通过所述表情分类模型，对输入的视频帧的图像帧序列，进行表情识别，包括：

根据所述表情分类模型的参数，计算所述图像帧序列的特征值；

根据所述特征值进行概率计算，得到所述视频帧的表情分类结果。

依据本发明的另一个方面，提供了一种视频表情识别装置，包括：

获取模块，用于获取对原始视频预处理得到的图像特征向量；

向量整合模块，用于对所述图像特征向量进行整合处理，得到整合特征向量；

模型训练模块，用于根据所述整合特征向量训练模型参数，得到表情分类模型；

表情识别模块，用于通过所述表情分类模型，对输入的视频帧的图像帧序列，进行表情识别。

可选地，所述获取模块包括：

视频帧选取单元，用于选取原始视频的关键帧；

采样单元，用于对所述关键帧所在的视频片段进行采样，形成所述原始视频的图像样本集；

特征提取单元，用于提取所述图像样本集的视觉特征并做嵌入式特征选择，得到所述原始视频的图像特征向量。

可选地，所述向量整合模块包括：

特征向量计算单元，用于根据所述图像特征向量，计算第一特征向量；

向量整合单元，用于利用所述第一特征向量计算所述整合特征向量。

可选地，所述特征向量计算单元具体用于：

通过公式：

计算所述图像特征向量的第一影响度；

通过公式：

计算所述图像特征向量的第一权重；

通过公式：r¹＝∑_ka_k1f_K，计算所述第一特征向量；

其中，r¹为所述第一特征向量。

可选地，所述向量整合单元具体用于：

通过公式：

计算所述图像特征向量的第二影响度；

其中，e_k2为第二影响度，

通过公式：

计算所述图像特征向量的第二权重；

通过公式：r²＝∑_ka_k2f_k，计算所述整合特征向量；

其中，r²为所述整合特征向量。

可选地，所述模型训练模块包括：

第一计算单元，用于利用所述整合特征向量计算分类概率；

第二计算单元，用于根据所述分类概率计算损失函数以及表情分类模型的权重参数和偏移量；

确定单元，用于根据所述损失函数的数值，确定表情分类模型的权重参数和偏移量的最终值；

模型构建单元，用于利用所述权重参数和偏移量的最终值，构建表情分类模型。

可选地，所述表情识别模块包括：

第三计算单元，用于根据所述表情分类模型的参数，计算所述图像帧序列的特征值；

第四计算单元，用于根据所述特征值进行概率计算，得到所述视频帧的表情分类结果。

依据本发明的另一个方面，提供了一种视频表情识别设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时实现上述的视频表情识别方法的步骤。

依据本发明的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的视频表情识别方法中的步骤。

本发明技术方案，通过对视频预处理，得到表情强度较大的视频帧序列形成样图像本集，再从中提取特征向量，有助于提高深度学习网络训练的精度和收敛性。利用基于级联注意机制的特征向量整合处理得到紧凑型的特征向量，进行模型训练，得到固定的权重等模型参数，在进行表情识别时，通过权重赋值的方式能够筛选出质量较好的人脸图片，使得表情识别的准确率更高，同时，该视频表情识别方法也可以整合到其它基于视频的表情识别系统中，应用广泛。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1表示本发明实施例的视频表情识别方法的流程图；

图2表示本发明实施例的视频表情识别方法的具体流程示意图之一；

图3表示本发明实施例的视频表情识别方法的具体流程示意图之二；

图4表示本发明实施例的视频表情识别装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明的实施例提供了一种视频表情识别方法，如图1所示，包括：

步骤11、获取对原始视频预处理得到的图像特征向量；

在对视频进行表情识别过程中，需要首先提取输入的视频帧序列的特征，在现有的通过时序学习模型提取视频帧序列特征时，由于对视频进行表情识别的输入必须是一个完整的包括表情强度比较明显的视频帧的序列，需要大量的人力物力去进行标注和剪裁，另外，还需要大量内存来保存用于模型训练和分析所需的视频信息，为了降低输入即视频序列对内存容量的消耗，该实施例先对视频进行预处理，所述预处理包括对输入的原始视频进行图像样本集的切割，以及通过提取图像样本集的特征得到图像特征向量的过程。通过选取原始视频中表情强度较大的视频帧序列形成样图像本集，再从中提取特征向量，可以使后续的表情分类准确率更高，同时不用存储大量的视频信息，降低了内存使用量。

步骤12、对所述图像特征向量进行整合处理，得到整合特征向量；

该实施例引入深度学习级联注意机制，通过级联注意机制对提取的图像特征向量进行整合处理，可以得到紧凑型的整合特征向量。其中，注意机制的含义是为前一步图像特征提取的每一视频帧的特征向量，自动生成线性权重，这样权重大的视频帧就被认定为较为重要的帧，被自动挑选出来，这样在特征融合中该帧的图像特征向量所占的比重就会更大。通常来说通过该方法挑选出来的权重大的视频帧所包含的人脸更加清晰，也就是说光照、角度都相对不错。从计算机视觉的角度来说，这样的视频帧生成的图像特征向量更具有区分度和鲁棒性。整合后得到的特征向量大小固定且紧凑，可以降低时间复杂度和内存使用量。

步骤13、根据所述整合特征向量训练模型参数，得到表情分类模型；

通过级联注意机制对图像特征进行整合后，得到的紧凑型的整合特征向量，作为模型训练的样本，通过损失函数训练模型的参数，可以得到固定的用于表情识别的模型参数，从而构成新的具有更高准确率的表情分类模型。

步骤14、通过所述表情分类模型，对输入的视频帧的图像帧序列，进行表情识别。

该实施例中，利用经训练后的参数更新表情分类模型，使用该表情分类模型对新的测试视频进行表情识别和分类，确定该测试视频属于基本表情的哪一类，精确度和准确率更高。

该方案为了更好的选择对深度学习训练的精度和收敛性有提高的视频样本，通过对视频预处理，得到表情强度较大的视频帧序列形成样图像本集，再从中提取特征向量，有助于提高深度学习网络训练的精度和收敛性。利用基于级联注意机制的特征向量整合处理得到紧凑型的特征向量，进行模型训练，得到固定的权重等模型参数，在进行表情识别时，通过权重赋值的方式能够筛选出质量较好的人脸图片，使得表情识别的准确率更高，且该过程中不需要融合其他的网络模型形成多分支网络，大大降低模型的时间和空间复杂度，降低内存使用量。此外，该方案的输入视频片段不需要固定时长，具有很强的灵活性。该方案也可以整合到其它基于视频的表情识别系统中，也可以使该表情分类模型作为子系统扩展到通用的人类情感分析系统中，具有广泛的应用前景。

具体地，如图2所示，所述步骤11包括：

步骤21、选取原始视频的关键帧；

以人脸表情数据库中的视频作为模型训练的原始视频样本，视频样本均有对应的表情分类标签，将原始视频切割处理，切割的时间长度不必固定，形成多个视频帧。关键帧的选取可以由多个用户投票决定，如果一幅图像里，有多人(这里以三人为例)认为该帧代表这一原始视频所在表情分类下表情强度最大的一帧，则选取该帧为关键帧。

步骤22、对所述关键帧所在的视频片段进行采样，形成所述原始视频的图像样本集；

在关键帧的前后预设时长(可以为10秒)的视频片段中采用自动密集采样的方式，提取出对应的帧形成每个原始视频的图像样本集，最终进行人工校验。在该实施例中，选取的原始视频的长度不固定。

步骤23、提取所述图像样本集的视觉特征并做嵌入式特征选择，得到所述原始视频的图像特征向量。

特征选择是一个重要的数据预处理过程，获得图像样本集的视觉特征后要先进行特征选择然后才能用于模型训练。所述嵌入式特征选择是指深度神经网络首先为图像样本集中的每一视频帧提取128维的特征向量，然后将其归一化为单位向量，形成图像样本集的特征向量的集合，以作为后续的图像特征整合时的输入。该方案将深度神经网络自动提取有很强区分度图像特征的能力引入到表情识别中，提高了表情识别的准确率。

具体地，对所述图像特征向量进行整合处理，得到整合特征向量，包括：

步骤24、根据所述图像特征向量，计算第一特征向量；

该实施例中，利用基于深度学习的级联注意机制对神经网络提取的所述图像特征向量进行整合处理，得到一个紧凑型的整合特征向量。注意机制的含义是为前一步图像特征提取的每一帧的特征向量，自动生成线性权重，这样权重大的帧就被认定为较为重要的帧，被自动挑选出来，这样在特征融合中该帧的图像特征向量所占的比重就会更大。

将级联注意机制模块化可以描述为：包括两个连续的基于注意机制的图像整合模块：第一注意机制模块和第二注意机制模块，通过第一注意机制模块对提取的图像特征向量进行处理，得到第一特征向量。具体地，根据所述图像特征向量，计算第一特征向量，包括：

通过公式：

计算所述图像特征向量的第一影响度；

为q₁的转置，f_k为所述图像特征向量，k为所述图像特征向量的集合的数量；在计算第一影响度时，q₁为随机给定的初始值，根据需求设置；由于选取的原始视频样本为多个，可以得到多个图像特征向量的集合，k即为图像特征向量的集合的数量。

计算得到图像特征向量的第一影响度后，通过公式：

计算所述图像特征向量的第一权重；该过程为对第一影响度的集合进行归一化操作的过程，使得∑_ka_k1＝1，这样生成的a_k1的集合就是级联注意机制中第一个基于注意机制的图像整合模块的线性权重集合，这样生成的权重集合可以赋予更重要的视频帧更大的权重，使其在图像特征融合中占据更大的比重。其中，a_k1为第一权重，exp(e_k1)为e_k1的指数，∑_kexp(e_k1)表示对e_k1的指数求和。

通过公式：r¹＝∑_ka_k1f_k，计算所述第一特征向量；

其中，r¹为所述第一特征向量。a_k1表示每个图像特征向量的第一权重，f_k为所述图像特征向量，上述第一特征向量是图像特征向量的集合里所有向量的加权和。经过线性组合这种图像特征整合方式，无论图像特征提取时包含多少帧的特征向量，最后都会整合成一个128维的特征向量，这样输入的原始视频的时长和帧数可以不固定。

步骤25、利用所述第一特征向量计算所述整合特征向量。

该实施例中，在经过第一注意机制模块的特征向量整合后，得到一个比较紧凑的第一特征向量，作为第二注意机制模块的输入，再经第二注意机制模块对该第一特征向量进行线性变换，生成第二个基于注意机制的图像整合模块的线性权重集合，再经过一次加权和操作，在次整合成最终的紧凑型的整合特征向量。

具体地，利用所述第一特征向量计算所述整合特征向量，包括：

其中，q₂为级联注意机制的第二注意机制模块的核，tanh表示的是双曲线非线性变换，r¹为所述第一特征向量，W₀为表情分类模型的权重参数的初始值，b₀为表情分类模型的偏移量的初始值。所述W₀和b₀均为给定值，根据需求设置，优选地，可以给更重要的帧的特征向量赋予更大的权重，上述计算过程即为注意机制中核的训练过程，该过程有助于选择更重要的帧。

计算得到第二注意机制模块的核后，通过公式：

计算所述图像特征向量的第二影响度；其中，e_k2为第二影响度，

通过公式：

计算所述图像特征向量的第二权重；

通过公式：r²＝∑_ka_k2f_k，计算所述整合特征向量；

其中，r²为所述整合特征向量。a_k2表示每个图像特征向量的第二权重，所述整合特征向量的计算过程与第一特征向量计算过程相同，得到的整合特征向量r²为一个固定大小的紧凑型的图像特征向量，维度为128维。该整合特征向量作为训练样本用于后续的训模型参数。通过级联注意机制得到的整合特征向量，大小固定且紧凑，降低了时间复杂度和内存使用量。

具体地，如图3所示，根据所述整合特征向量训练模型参数，得到表情分类模型，包括：

步骤31、利用所述整合特征向量计算分类概率；

深度神经网络包含输入层、多个隐藏层和输出层，输入层的输入即为所述整合特征向量，输出层为分类概率。具体地，利用所述整合特征向量计算分类概率，包括：

将所述整合特征向量作为深度神经网络输入层的输入，并通过公式：

计算所述整合特征向量分类概率；

其中

表示深度神经网络的第L层第j个神经元的输出，e为自然常数，

表示深度神经网络的第L层第j个神经元的输入，在第一层即输入层，所述

为所述整合特征向量；优选地，在L为深度神经网络的最后一层，即输出层时，

为计算得到的分类概率；

表示深度神经网络第L层所有输入之和，L为深度神经网络的层数，j为第L层的神经元数量，j＝1,2,3…,h。

步骤32、根据所述分类概率计算损失函数以及表情分类模型的权重参数和偏移量；

具体地，根据所述分类概率计算损失函数以及表情分类模型的权重参数和偏移量，包括：

通过公式：loss＝-∑_ky_kloga_k，得到损失函数；

其中，y_k表示每个视频对应的表情分类标签，a_k表示当前训练网络的输出，即视频的分类概率，

k为所述图像特征向量的集合的数量，即视频的数量。

通过公式：W′←W₀-λ(a_k-y_k)·f_k ^T，计算表情分类模型的权重参数；

通过公式：b′←b₀-λ(a_k-y_k)，计算表情分类模型的偏移量；

其中，W′表示经梯度下降计算后更新的表情分类模型的权重参数，b′表示经梯度下降计算后更新的表情分类模型的偏移量，W₀表示权重参数的初始值，b₀表示偏移量的初始值，a_k表示当前训练网络的输出，即视频的分类概率，y_k表示每个视频对应的表情分类标签，f_k ^T表示提取的图像特征向量的转置，λ为深度学习率，即步长，为给定值，根据需求设置。

步骤33、根据所述损失函数的数值，确定表情分类模型的权重参数和偏移量的最终值；

具体地，根据所述损失函数的数值，确定表情分类模型的权重参数和偏移量的最终值，包括：

判断所述损失函数的数值是否达到最小值；

若达到最小值，则确定通过分类概率计算的权重参数和偏移量为最终值。

该实施例中，在进行模型训练时，通过前向传播和后向传播算法，深度神经网络经过多次迭代计算，输出多次分类概率，每输出一次分类概率，计算一次损失函数，损失函数的值不断减小，在损失函数达到最小值且保持稳定不变时，认为表情分类模型收敛，此时通过后向传播算法计算得到的权值参数和偏移量确定为最终值。

步骤34、利用所述权重参数和偏移量的最终值，构建表情分类模型。

利用所述权重参数和偏移量的最终值，构建表情分类模型。将分类概率最为准确时的权重参数和偏移量更新表情分类模型的参数，得到新的表情分类模型，利用该模型进行表情分类识别，准确率和精度得到提高。

该实施例中，利用深度神经网络计算得到的每个原始视频样本的这一紧凑型的整合特征向量，通过损失函数的训练模型参数，得到视频的表情分类模型，最终可以利用该表情分类模型对新的测试视频进行识别和分类，确定测试视频属于基本表情的哪一类。

本发明的上述实施例中，通过所述表情分类模型，对输入的视频帧的图像帧序列，进行表情识别，包括：

该实施例中，将欲测试的视频输入更新得到的所述表情分类模型，由于该表情分类模型的权重参数和偏移量为固定值，在对输入的图像帧序列计算时，可以比较精确的得出表情分类结果。

具体地，根据所述表情分类模型的参数，计算所述图像帧序列的特征值，包括：

通过公式：

计算图像帧序列的特征值；

其中，

表示输入的视频帧在基于深度神经网络的表情分类模型中第L层(通常是最后一层)第j个神经元的输入，即图像帧序列的特征值，W表示确定的权重参数的最终值，b表示确定的偏移量的最终值，

表示表情分类模型中第L-1层第j个神经元的输入，输入层输入视频帧提取的图像特征向量，多层计算得到最后一层的输出；σ表示激活函数。

根据所述特征值进行概率计算，得到所述视频帧的表情分类结果，包括：

通过公式：

计算分类概率；

其中，

表示深度神经网络的第L层第j个神经元的输出，在L为深度神经网络的最后一层，即输出层时，

为计算得到的分类概率；

为深度神经网络的第L层第j个神经元(即特征值)的输入，

表示深度神经网络第L层所有输入之和，L为深度神经网络的层数，j为第L层的特征值数量，j＝1,2,3…,h。

根据计算得到的分类概率，可以清楚的判断到输入的视频帧属于哪一个分类，从而得到所述视频帧的表情分类结果。该实施例利用模型训练更新参数后的表情分类模型，对视频进行表情识别，提高了表情识别的准确率。

本发明实施例还提供一种视频表情识别装置，如图4所示，包括：

获取模块41，用于获取对原始视频预处理得到的图像特征向量；

向量整合模块42，用于对所述图像特征向量进行整合处理，得到整合特征向量；

模型训练模块43，用于根据所述整合特征向量训练模型参数，得到表情分类模型；

表情识别模块44，用于通过所述表情分类模型，对输入的视频帧的图像帧序列，进行表情识别。

优选地，所述获取模块41包括：

视频帧选取单元，用于选取原始视频的关键帧；

优选地，所述向量整合模块42包括：

优选地，所述特征向量计算单元具体用于：

通过公式：

计算所述图像特征向量的第一影响度；

通过公式：

计算所述图像特征向量的第一权重；

通过公式：r¹＝∑_ka_k1f_k，计算所述第一特征向量；

其中，r¹为所述第一特征向量。

优选地，所述向量整合单元具体用于：

通过公式：

计算所述图像特征向量的第二影响度；

其中，e_k2为第二影响度，

通过公式：

计算所述图像特征向量的第二权重；

通过公式：r²＝∑_ka_k2f_k，计算所述整合特征向量；

其中，r²为所述整合特征向量。

优选地，所述模型训练模块43包括：

第一计算单元，用于利用所述整合特征向量计算分类概率；

优选地，所述表情识别模块44包括：

需要说明的是，该装置是与上述个体推荐方法对应的装置，上述方法实施例中所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本发明实施例还提供一种视频表情识别设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时实现上述的视频表情识别方法的步骤。

另外，本发明具体实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述视频表情识别方法中的步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。