CN113971826A

CN113971826A - 估计连续的效价和唤醒水平的动态情感识别方法和系统

Info

Publication number: CN113971826A
Application number: CN202111025035.7A
Authority: CN
Inventors: 孙晓; 郎俊杰; 汪萌
Original assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2022-01-25
Anticipated expiration: 2041-09-02

Abstract

本发明提供一种估计连续的效价和唤醒水平的动态情感识别方法和系统，涉及情感识别技术领域。本发明通过预先构建的特征网络对动态情感进行识别，所述特征网络包括特征获取层、特征融合层和预测层，所述特征获取层包括CNN网络层和3D‑CNN网络层，在本发明中通过CNN网络层对人脸图片进行处理，获取紧凑特征；通过3D‑CNN网络层对连续帧进行处理，获取时空特征；对紧凑特征和时空特征进行特征融合，得到情感特征；通过预测层对所述情感特征进行处理，得到情感标签。本发明实施例提出一种新型的特征网络，可以联合执行面部对齐，并在一次传递中正确预测出动态视频中连续的情感标签，大大减少了视频的情感检测时间，实时性好，且准确率高。

Description

估计连续的效价和唤醒水平的动态情感识别方法和系统

技术领域

本发明涉及情感识别技术领域，具体涉及一种估计连续的效价和唤醒水平的动态情感识别方法和系统。

背景技术

人脸情感识别是指从给定的静态图像或动态视频序列中分离出特定的情感状态，从而确定被识别对象的心理情绪，实现计算机对人脸情感的理解与识别，从根本上改变人与计算机的关系，从而达到更好的人机交互。因此人脸情感识别在心理学、智能机器人、智能监控、虚拟现实及合成动画等领域有很大的潜在应用价值。

现有的人脸情感识别是通过将包含人脸的图片送入人脸检测器检测出人脸，并且标记面部landmarks，通过landmarks实现人脸对齐，再将对齐的人脸送入深度神经网络模型，提取人脸情感特征，识别出情感。

然而，现有方法先检测人脸再对齐提取特征，导致动态视频的情感识别时间较长，检测效率低。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种估计连续的效价和唤醒水平的动态情感识别方法和系统，解决了现有的动态视频的情感识别时间较长的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明提供一种估计连续的效价和唤醒水平的动态情感识别方法，所述方法通过预先构建的特征网络对动态情感进行识别，所述特征网络包括特征获取层、特征融合层和预测层，所述特征获取层包括CNN网络层和3D-CNN网络层，包括以下步骤：

S1、提取输入视频中的所有帧，获取人脸图片和多个人脸图片组成的连续帧；

S2、基于所述CNN网络层对人脸图片进行处理，获取紧凑特征；基于所述3D-CNN网络层对所述连续帧进行处理，获取时空特征；

S3、基于所述特征融合层对所述紧凑特征和时空特征进行特征融合，得到情感特征；

S4、基于所述预测层对所述情感特征进行处理，得到情感标签，所述情感标签包括效价和唤醒。

优选的，所述CNN网络层包括：面部对齐网络和帧注意力网络；

所述面部对齐网络用于提取单个帧中的面部特征，帧注意力网络用于为视频生成紧凑特征。

优选的，所述帧注意力网络包括特征提取模块和帧注意模块；

所述特征提取模块将单个帧中的面部特征嵌入到一个特征向量中；所述帧注意模块用于自适应地聚集特征向量，形成紧凑特征。

优选的，所述CNN网络层还包括特征传输层，所述特征传输层用于将面部对齐网络的输出传输到帧注意力网络中。

优选的，所述述CNN网络层对人脸图片进行处理，获取紧凑特征，包括：

将一个视频分为n个帧，记为{I₁,I₂,I₃,…,I_n}，将{I₁,I₂,I₃,…,I_n}送入面部对齐网络得到特征{f₁,f₂,f₃,…,f_n}；

对于单独的帧特征，帧注意力网络分配自我注意权重，第i帧的自我关注权重定义为：

其中：q⁰是帧注意力网络中的Self-attention中的全连接层的参数，σ表示sigmoid函数，通过自我注意权重，将所有输入帧特征聚合为一个全局表示f'_v，如下所示:

使用全局表示f'_v和帧注意力网络中的Rela-attention估计帧特征的关系注意权重；第i帧的关系注意权重公式如下：

β_i＝σ([f_i:f'_v]^Tq¹)

其中：q¹是Rela-attention中的全连接层的参数，σ表示sigmoid函数；

通过自我注意和关系注意权重，将帧注意力网络将所有的框架特征聚合成一个新的紧凑特征f_v：

优选的，所述预测层包括两个全连接层。

优选的，所述特征获取层还包括浅层特征提取层，用于提取人脸图片的浅层特征。

第二方面，本发明提供一种估计连续的效价和唤醒水平的动态情感识别系统，所述系统通过预先构建的特征网络对动态情感进行识别，所述特征网络包括特征获取层、特征融合层和预测层，所述特征获取层包括CNN网络层和3D-CNN网络层，所述识别系统包括：

帧提取模块，用于提取输入视频中的所有帧，获取人脸图片和多个人脸图片组成的连续帧；

特征获取模块，用于基于所述CNN网络层对人脸图片进行处理，获取紧凑特征；基于所述3D-CNN网络层对所述连续帧进行处理，获取时空特征；

融合模块，用于基于所述特征融合层对所述紧凑特征和时空特征进行特征融合，得到情感特征；

预测模块，用于基于所述预测层对所述情感特征进行处理，得到情感标签，所述情感标签包括效价和唤醒。

第三方面，本发明提供一种计算机可读存储介质，其存储用于估计连续的效价和唤醒水平的动态情感识别的计算机程序，其中，所述计算机程序使得计算机执行如上述所述的估计连续的效价和唤醒水平的动态情感识别方法。

第四方面，本发明提供一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上述所述的估计连续的效价和唤醒水平的动态情感识别方法。

(三)有益效果

本发明提供了一种估计连续的效价和唤醒水平的动态情感识别方法和系统。与现有技术相比，具备以下有益效果：

本发明通过预先构建的特征网络对动态情感进行识别，所述特征网络包括特征获取层、特征融合层和预测层，所述特征获取层包括CNN网络层和3D-CNN网络层，包括以下步骤：提取输入视频中的所有帧，获取人脸图片和多个人脸图片组成的连续帧；所述CNN网络层对人脸图片进行处理，获取紧凑特征；基于所述3D-CNN网络层对所述连续帧进行处理，获取时空特征；所述特征融合层对所述紧凑特征和时空特征进行特征融合，得到情感特征；所述预测层对所述情感特征进行处理，得到情感标签，所述情感标签包括效价和唤醒。本发明实施例提出一种新型的特征网络，可以联合执行面部对齐，并在一次传递中正确预测出动态视频中连续的情感标签，大大减少了视频的情感检测时间，实时性好，且准确率高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种估计连续的效价和唤醒水平的动态情感识别方法的框图；

图2为本发明实施例中特征网络的部分结构示意图；

图3为本发明实施例中沙漏网络的结构示意图；

图4为本发明实施例中面部对齐网络的结构示意图；

图5为本发明实施例中帧注意力网络的结构示意图；

图6为本发明实施例中3D-CNN网络层的结构示意图；

图7为本发明实施例中预测层的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种估计连续的效价和唤醒水平的动态情感识别方法和系统，解决了现有的人脸情感识别时间较长的技术问题，实现减少识别时间，提高识别效率。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

面部情感分析旨在通过让计算机更好地了解一个人的情绪状态，从而提供特殊的帮助和互动，从而创造新类型的人机交互。由于离散的情绪类别(如愤怒、快乐、悲伤等)不能代表人类日常表现出的全部情绪，心理学家通常依赖于维度测量，即效价(情绪表现的积极程度)和唤醒(情绪表现的平静或兴奋程度)。本发明实施例提供了一种新的特征网络来分析面部情感在自然条件下的高水平的准确性。该网络融合了人脸对齐技术，在一次传递中联合估计出情感标签，实现减少识别时间，提高识别效率，适合于实时应用。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例一种估计连续的效价和唤醒水平的动态情感识别方法，该方法通过预先构建的特征网络对动态情感进行识别，所述特征网络包括特征获取层、特征融合层和预测层，所述特征获取层包括互不影响的CNN网络层和3D-CNN网络层，如图1所示，所述方法包括以下步骤：

本发明实施例提出一种新型的特征网络，可以联合执行面部对齐，并在一次传递中正确预测出动态视频中连续的情感标签，大大减少了视频的情感检测时间，实时性好，且准确率高。

下面对各个步骤进行详细描述：

在步骤S1中，提取输入视频中的所有帧，获取人脸图片和多个人脸图片组成的连续帧。具体实施过程如下：

采集人脸视频，使用opencv提取该视频中的所有帧。再将所有的帧进行偏移、翻折、旋转，扩充到原数据集中。以增加模型的鲁棒性。对一个视频的每个帧使用dlib检测人脸，并剪切出相同大小的人脸图片作为网络的输入。

在步骤S2中，基于所述CNN网络层对人脸图片进行处理，获取紧凑特征；基于所述3D-CNN网络层对所述连续帧进行处理，获取时空特征。具体实施过程如下：

在本发明实施例中，特征网络两个单独的互不影响的输入流通道组成，即处理静态帧级裁剪的面部图像的CNN网络和处理连续帧之间时空信息的3D-CNN网络，然后将两个CNN全连接层的输出所代表的学习到的时空特征进行融合，得到融合特征，通过预测层去融合特征进行情感标签预测。

CNN网络包括面部对齐网络、帧注意力网络以及用于将面部对齐网络的输出传输到帧注意力网络中的特征传输层。面部对齐网络用于提取单个帧中的面部特征，帧注意力网络用于为视频生成紧凑特征。如图2所示，面部对齐网络(Face alignmennetwork)提取与面部轮廓估计相关的特征。本发明实施例采用最先进的人体姿势估计架构(即hourglass网络)构建Face alignmen network。特别是，使用了2个hourglass网络的堆栈。每个层叠的漏斗网络包括基本的hourglass模块，其结构如图3所示。本发明实施例的hourglass模块具有对称的结构，从中间依次扩展到两边，可以看做是小漏斗变成大漏斗，所以程序用递归的方式实现这个模块，图中的每个小块都可以看作是经过Residual模块和池化或反池化后的结果。而且前半部分的特征图会加到后半部分对称的位置。

如图4所示，在两个漏斗网络之间，还要对热图进行进一步的处理，分别是：1.对上一个漏斗网络中的mid_output通过一个卷积层；2.对上一个漏斗网络的热图通过一个卷积层。最后这两个结果和前一个漏斗的输入合并，作为下一个漏斗网络的输入。将最后一个虚线框作为最终的热图(heatmaps)输出。

由于Face alignmen network是在包含极端头部姿势和各种面部情感的大量人脸数据集上进行预训练的，因此它从图像中提取的特征与情感分析非常相关，并且对情感预测起到监督作用。这种新颖的方法导致了性能的大幅提高。

需要说明的是，在具体实施过程中，特征获取层中还包括浅层特征提取层，浅层特征提取层提取的浅层特征。提取经过浅层特征提取层(图2第一个矩形框shallow featureextraction layer)后输出的浅层特征以及Face alignmen network在每个沙漏末尾输出的特征1和特征2。这些特征本质上编码了低级面部特征(例如位于面部部分边界处的边缘)和包含特定面部区域(即眼睛、嘴唇)位置的高级形态特征。这些几何特征与面部情感的情感有很强的相关性。将这些特征与Face alignmennetwork输出的热图(heatmaps)结合起来进行相乘，然后将它们传递给一系列卷积块(图2中Feature transmission layers)。这使得该网络能够更好地关注可能对情绪估计很重要的面部区域，并降低不太有用区域的重要性。

需要说明的是，如图2所示的Feature transmission layers的作用就是处理从Face alignmen network和shallow feature extraction layer中提取的特征，并将处理过的特征送入帧注意力网络。

帧注意力网络(frame attention network)以Feature transmission layers计算的特征为输入，并为视频生成紧凑特征。整个网络由两个模块组成：特征提取模块和帧注意模块。特征提取模块是一个深度CNN，它将每个人脸图像嵌入到一个特征向量中。帧注意模块学习两级注意权值，即自注意权值和关系注意权值，用于自适应地聚集特征向量，形成单一的区分性视频表示。如图5所示，帧注意模块包括Self-attention和Rela-attention。

CNN网络层对人脸图片进行处理，获取紧凑特征的具体过程如下：

将一个视频分为n个帧，记为{I₁,I₂,I₃,…,I_n}，将这些帧送入面部对齐网络得到特征{f₁,f₂,f₃,…,f_n}。

对于单独的帧特征，帧注意力网络首先应用self-attention中的FC层和sigmoid函数来分配粗略的自我注意权重(需要说明的是，FC是指fully connected，FC层即全连接层)，第i帧的自我关注权重定义为：

其中：q⁰是self-attention中的FC层的参数，σ表示sigmoid函数，通过这些自我注意权重，将所有输入帧特征聚合为一个全局表示f'_v，如下所示:

使用f'_v作为视频级别的全局锚，进一步学习精确的注意权重关系。

关系注意力权重：

由于从全局特征和局部特征中学习权重更可靠。该方法利用单个帧特征和非线性映射来学习自关注权值，这些特征比较粗糙。由于f'_v固有地包含整个视频的内容，因此可以通过建模帧特征和f'_v的全局表示之间的关系来进一步细化注意权重。所以使用样本连接和Rea-attention中的FC层来估计帧特征的新关系注意权重。第i帧的关系注意权重公式如下：

β_i＝σ([f_i:f'_v]^Tq¹)

其中：q¹是Rela-attention中的FC层的参数，σ表示sigmoid函数。

最后，通过自我注意和关系注意权重，将帧注意力网络将所有的框架特征聚合成一个新的紧凑特征f_v：

如图6所示，3D-CNN网络的结构如下：

(1)输入层(input)：连续的大小为256*256的视频帧图像作为输入。

(2)硬线层(hardwired，H1)：每帧提取5个通道信息(灰度gray，横坐标梯度(gradient-x)，纵坐标梯度(gradient-y)，x光流(optflow-x)，y光流(optflow-y))。前面三个通道的信息可以直接对每帧分别操作获取，后面的光流(x，y)则需要利用两帧的信息才能提取，因此H1层的特征maps数量：(16*3+15*2＝78)，特征maps的大小依然是256*256

(3)第一卷积层(convolutionC1)：以硬线层的输出作为该层的输入，对输入5个通道信息分别使用大小为7*7*3的3D卷积核进行卷积操作；

(4)第一降采样层(sub-sampling S1)：在该层采用2*2的max pooling操作，降采样之后的特征maps数量保持不变

(5)第二卷积层(convolutionC2)：对输入5个通道信息分别使用大小为8*8*3的3D卷积核进行卷积操作；

(6)第二降采样层(sub-sampling S2)：在该层采用2*2的avg pooling操作，降采样之后的特征maps数量保持不变

(7)第三卷积层(convolutionC3)：对输入5个通道信息分别使用大小为8*8*3的3D卷积核进行卷积操作；

(8)第三降采样层(sub-sampling S3)：在该层采用2*2的avg pooling操作，降采样之后的特征maps数量保持不变

(9)第四卷积层(convolution C4)：对S3层的输出分别使用大小为6*6，stride＝2的2D卷积核进行卷积操作；

(10)第四降采样层(sub-sampling S4)：在该层采用2*2的avg pooling操作，降采样之后的特征maps数量保持不变

(11)第五卷积层(convolution C5)：对S4层的输出分别使用大小为5*5，stride＝1的2D卷积核进行卷积操作；

最终输出时空特征f_μ。

在2D-CNN网络中，卷积和池化操作仅在空间上应用于2D静态图像。而3D-CNN网络可以通过在输入数据的时间维度和空间维度上同时滑动来提取视频序列中的时空特征。所以3D-CNN网络保留了输入信号的时间和空间信息，从而有助于提升模型的效果。

由于3D-CNN需要固定大小的输入数据，因此将具有不同持续时间的每个视频样本划分为一定数量的固定长度段，作为3D-CNN的输入。这不仅会产生适当的3D-CNN输入，而且还会在一定程度上增加训练数据的数量。将人脸检测后的一个视频的帧序列样本划分为L＝16的固定长度段。为此，当L>16时，将消除第一帧和最后(L-16)/2帧。相反，当L<16时，仅复制第一和最后(16-L)/2帧。这样，确保每个分割的段的长度为L＝16。然后将分割后的序列输入3D-CNN网络并输出时空特征f_μ。

在步骤S3中，基于所述特征融合层对所述紧凑特征和时空特征进行特征融合，得到情感特征。具体实施过程如下：

特征融合层将经过空间CNN网络得到的f_v和经过3D-CNN网络得到的f_u进行特征融合，即：

f＝f_v+f_u

在步骤S4中，基于所述预测层对所述情感特征进行处理，得到情感标签，具体实施过程如下：

如图7所示，本发明实施的预测层prediction layers包括两个全连接层(FC₁层和FC₂)。

将融合后的特征f输入预测层，对所述情感特征进行预测，得到10维情感预测标签。

情感标签是一个10维的向量，即：y_label∈R¹⁰，其中包括8维的离散情感类别(中性neutral、高happy、悲伤sad、惊讶surprise、恐惧fear、讨厌disgust、愤怒anger、鄙视contempet)和2维的连续情感标签(效价valence和唤醒arousal)。

需要说明的是，本发明实施例中的特征网络需预先构建和训练。

训练过程包括前向训练和后向训练。将lr初始化为4e-6，并在60个epochs将其修改为8e-7，在120个epochs将其修改为1.6e-7，并在180个epochs后停止训练。

训练特征网络时共同估计离散和连续的情绪。因此引入了一种新颖的损失函数。

离散的分类交叉熵损失函数(y’是预测值):

二维valence&arousal损失函数:

L_MSE(Y,Y′)＝MSE_valence(Y,Y′)+MSE_arousal(Y,Y′)

最小化网络损失函数如下式：

对于连续情感预测，主要感兴趣的是最大化预测与ground-truth注释之间的相关系数，即PCC(皮尔逊相关系数)和CCC(协和相关系数)。但是，每个指标都会编码有关目标任务的重要信息(例如，较低的RMSE通常会导致较高的SARG，因为预测误差较低)。因此，最佳预测变量应该能够最大化所有预测因子(SARG、PCC、CCC)，同时最小化RMSE。通过将损失函数更改为四个项的总和来编码此信息：针对离散情绪的分类损失、最小化RMSE的损失、最大化PCC的损失、最大化CCC的损失。此外，回归损失可以通过在[0；1]范围内随机且均匀选择正则化系数α，β和γ。这确保了网络不仅仅专注于最小化三个回归损失之一。

在本发明实施例中，根据预测结果和实际结果，进行评价指标，具体实施过程如下：

均方根误差(RMSE)评估预测值与目标值的接近程度：

符号一致性(SARG)评估预测值的符号是否与目标值的符号匹配：

皮尔逊相关系数(PCC)衡量预测和目标值的相关性：

协和相关系数(CCC)包含PCC值,如果预测信号具有与目标信号相似的趋势，a其值远离目标值(高误差)，则其将受到低CCC的惩罚(尽管PCC高)。

本发明实施例还提供一种估计连续的效价和唤醒水平的动态情感识别系统，所述系统通过预先构建的特征网络对动态情感进行识别，所述特征网络包括特征获取层、特征融合层和预测层，所述特征获取层包括CNN网络层和3D-CNN网络层，所述识别系统包括：

理解的是，本发明实施例提供的估计连续的效价和唤醒水平的动态情感识别系统与上述估计连续的效价和唤醒水平的动态情感识别方法相对应，其有关内容的解释、举例、有益效果等部分可以参考估计连续的效价和唤醒水平的动态情感识别方法中的相应内容，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其存储用于估计连续的效价和唤醒水平的动态情感识别的计算机程序，其中，所述计算机程序使得计算机执行如上述所述的估计连续的效价和唤醒水平的动态情感识别方法。

本发明实施例还提供一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上述所述的估计连续的效价和唤醒水平的动态情感识别方法。

综上所述，与现有技术相比，具备以下有益效果：

本发明实施例提出一种新型的特征网络，可以联合执行面部对齐，并在一次传递中正确预测出动态视频中离散的和连续的情感标签，大大减少了视频的情感检测时间，实时性好，且准确率高。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种估计连续的效价和唤醒水平的动态情感识别方法，其特征在于，所述方法通过预先构建的特征网络对动态情感进行识别，所述特征网络包括特征获取层、特征融合层和预测层，所述特征获取层包括CNN网络层和3D-CNN网络层，包括以下步骤：

2.如权利要求1所述的估计连续的效价和唤醒水平的动态情感识别方法，其特征在于，所述CNN网络层包括：面部对齐网络和帧注意力网络；

3.如权利要求2所述的估计连续的效价和唤醒水平的动态情感识别方法，其特征在于，所述帧注意力网络包括特征提取模块和帧注意模块；

4.如权利要求2所述的估计连续的效价和唤醒水平的动态情感识别方法，其特征在于，所述CNN网络层还包括特征传输层，所述特征传输层用于将面部对齐网络的输出传输到帧注意力网络中。

5.如权利要求1～4任一所述的估计连续的效价和唤醒水平的动态情感识别方法，其特征在于，所述述CNN网络层对人脸图片进行处理，获取紧凑特征，包括：

β_i＝σ([f_i:f'_v]^Tq¹)

6.如权利要求1～4任一所述的估计连续的效价和唤醒水平的动态情感识别方法，其特征在于，所述预测层包括两个全连接层。

7.如权利要求1～4任一所述的估计连续的效价和唤醒水平的动态表情识别方法，其特征在于，所述特征获取层还包括浅层特征提取层，用于提取人脸图片的浅层特征。

8.一种估计连续的效价和唤醒水平的动态情感识别系统，其特征在于，所述系统通过预先构建的特征网络对动态情感进行识别，所述特征网络包括特征获取层、特征融合层和预测层，所述特征获取层包括CNN网络层和3D-CNN网络层，所述识别系统包括：

9.一种计算机可读存储介质，其特征在于，其存储用于估计连续的效价和唤醒水平的动态情感识别的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1～7任一所述的估计连续的效价和唤醒水平的动态情感识别方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1～7任一所述的估计连续的效价和唤醒水平的动态情感识别方法。