CN113239916B

CN113239916B - 一种表情识别及课堂状态评估方法、设备及介质

Info

Publication number: CN113239916B
Application number: CN202110787831.8A
Authority: CN
Inventors: 梁美玉; 陈徵; 薛哲
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-11-30
Anticipated expiration: 2041-07-13
Also published as: CN113239916A

Abstract

本公开提供一种表情识别及课堂状态评估方法、设备及存储介质，表情识别方法包括：获取目标对象的图像序列；将图像序列输入训练好的表情识别模型进行识别，得到目标对象的表情识别结果；训练好的表情识别模型包括：时空特征网络，对图像序列进行特征提取，得到时空特征序列；时空注意力网络，用于对时空特征序列进行空间注意力特征学习和时间注意力特征学习，得到表情特征序列；分类网络，用于对表情特征序列进行分类得到表情识别结果。根据本公开，提高了表情识别的准确度。在精确识别表情的基础上进行课堂状态评估，增强最终课堂评估结果的客观性、全面性以及正确性。

Description

一种表情识别及课堂状态评估方法、设备及介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种表情识别及课堂状态评估方法、设备及存储介质。

背景技术

在进行表情识别时，根据识别数据的不同又分为针对静态图片的表情识别和针对动态图像序列的表情识别。静态图像表情识别主要根据表情发生时的单帧图像信息呈现的表情状态提取特征。静态图像特征具有效率高、速度快等特点，但是此类表情特征缺少表情的运动信息，不能很好的反映表情变化。而动态图像方法中，面部变化的连续帧具有非常重要的时间相关性，但目前的卷积神经网络并不能够很好的学习图像序列中的时序信息；对于在表情识别过程中人脸表情的显著性区域并没有进行显著性特征提取，无差别、不抑制地提取特征会造成耗费资源、特征不充分的问题，对最终的识别性能造成影响，导致表情识别的准确度低；而且还会存在训练耗时、梯度爆炸、过拟合等问题。

发明内容

有鉴于此，本公开的目的在于提出一种表情识别及课堂状态评估方法、设备及存储介质。

基于上述目的，根据本公开的第一方面，提供了一种表情识别方法，包括：

获取目标对象的图像序列；

将所述图像序列输入训练好的表情识别模型进行识别，得到所述目标对象的表情识别结果，其中，所述训练好的表情识别模型包括：

时空特征网络，用于对所述图像序列进行特征提取，得到所述图像序列的时空特征序列；

时空注意力网络，与所述时空特征网络连接，用于对所述时空特征序列进行空间注意力特征学习和时间注意力特征学习，得到表情特征序列；

分类网络，与所述时空注意力网络连接，用于对所述表情特征序列进行分类得到所述表情识别结果。

可选地，所述时空特征网络包括基于三维卷积核的残差网络。

可选地，所述时空注意力网络包括空间注意力子网络和时间注意力子网络，其中，

所述空间注意力子网络，与所述时空特征网络连接，用于基于权重掩膜对所述时空特征序列进行加权后与所述时空特征融合序列，得到空间外观特征序列；

所述时间注意力子网络，与所述空间注意力子网络连接，用于基于所述空间外观特征序列中的每帧图像之间的相关度，确定所述空间外观特征序列中每帧图像的权重。

可选地，所述空间外观特征序列中每帧图像的权重包括：

，

其中，w _i表示第i帧图像的权重，

，

表示所述空间外观特征序列中第i 帧和第j帧之间的相关度。

可选地，所述空间外观特征序列中的每帧图像之间的相关度包括：

，

其中，C表示每帧图像之间相关度的相似矩阵，

，

表示空间外观特征序列中第t帧的隐藏状态。

可选地，所述对所述表情特征序列进行分类得到所述表情识别结果，包括：

计算所述表情特征序列映射至表情类型的概率；

将概率最大的表情类型作为所述表情识别结果。

根据本公开的第二方面，提供了一种基于表情识别的课堂状态评估方法，包括：

获取课堂视频数据；

基于第一方面所述的表情识别方法对所述课堂视频数据中的学生表情进行识别，得到表情识别结果；以及对所述课堂视频数据中的学生行为进行识别，得到行为识别结果；

基于所述表情识别结果、所述行为识别结果以及对应的权重计算综合评分；

基于所述综合评分确定所述课堂视频数据的课堂状态评估结果。

可选地，基于所述表情识别结果、所述行为识别结果以及对应的权重计算综合评分，包括：

根据所述表情识别结果和所述行为识别结果统计积极表情和积极行为的概率值；其中，所述积极表情的概率值包括积极表情的数量与总人数的比值，所述积极行为的概率值包括积极行为的数量与总人数的比值；

计算所述积极表情和积极行为的概率值分别与对应的权重的乘积之和，得到所述综合评分。

根据本公开的第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面或第二方面所述的方法。

根据本公开的第四方面，提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行第一方面或第二方面所述方法。

从上面所述可以看出，本公开提供的表情识别及课堂状态评估方法、设备及存储介质，通过时空注意力网络能够有效关注图像序列中的关键帧和帧内的关键区域，提取显著性区域的重要特征，提高了表情识别的准确度。在精确识别表情的基础上进行课堂状态评估，增强最终课堂评估结果的客观性、全面性以及正确性。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开实施例的表情识别方法的示意性流程图；

图2为根据本公开实施例的表情识别模型的示意性原理图；

图3为根据本公开实施例的基于三维卷积核的残差网络的示意性原理图；

图4为根据本公开实施例的时空注意力网络的示意性原理图；

图5为根据本公开实施例的表情识别模型的示意性原理图；

图6为根据本公开实施例的基于表情识别的课堂状态评估方法的示意性流程图；

图7为根据本公开实施例的表情识别装置的示意性框图；

图8为根据本公开实施例的基于表情识别的课堂状态评估装置的示意性框图；

图9为根据本公开实施例的一种更为具体的电子设备硬件结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

一般的人脸表情识别方法包括四个步骤，即人脸检测、人脸校正、特征提取和表情识别。而根据识别目标的差异，面部表情识别方法又分为静态方法和动态方法，静态方法主要是针对静态图像进行特征提取，而动态方法更加侧重提取图像序列中的表情特征的过程，相比于静态图像要对时间维度的表情特征进行提取，动态图像序列中的表情识别主要存在如下问题:面部变化的连续帧具有非常重要的时间相关性，但目前的卷积神经网络并不能够很好的学习图像序列中的时序信息；以及，对于在表情识别过程中人脸表情的显著性区域并没有进行显著性特征提取，无差别、不抑制地提取特征会造成耗费资源、特征不充分、表情识别的准确度低的问题。

基于上述考虑，本公开实施例提供了一种表情识别方法。参见图1，图1示出了根据本公开实施例的表情识别方法的示意性流程图。如图1所示，表情识别方法，包括：

步骤S110，获取目标对象的图像序列；

步骤S120，将所述图像序列输入训练好的表情识别模型进行识别，得到所述目标对象的表情识别结果，其中，所述训练好的表情识别模型包括：

其中，本公开实施例在通过时空特征网络和时空注意力网络从时间维度和空间维度有效关注图像序列中的关键帧和帧内的关键区域，准确高效地提取目标对象的表情特征，然后对表情特征进行分类得到表情识别结果。与传统的表情识别方法相比，根据本公开实施例的表情识别方法，能够提高了表情识别的准确度。

根据本公开实施例，在步骤S110中，获取目标对象的图像序列。

其中，目标对象可以包括需要识别的对象。例如，在课堂视频数据中，可以将学生作为目标对象进行识别。

可选地，获取目标对象的图像序列，可以包括：

获取包括所述目标对象的图像数据；

对所述图像数据进行目标检测，得到所述目标对象的图像序列。

其中，目标对象的图像数据可以是通过图像采集装置直接采集得到的实时数据，也可以是从本地数据源或远程数据源获取得到的非实时数据。

在一些实施例中，图像数据可以包括课堂视频数据。进一步地，课堂视频数据可以包括多个目标对象即多个学生在上课时的视频数据。例如，课堂视频可以是教室内设置的摄像头采集的实时课堂数据，或从其他数据源获取的非实时课堂数据。

在一些实施例中，所述图像数据可以是实时视频数据或非实时视频数据中的至少部分图像帧。进一步地，所述至少部分图像帧可以是连续的图像帧，也可以是不连续的图像帧。

在一些实施例中，图像数据包括课堂视频数据时，对所述图像数据进行目标检测，得到所述目标对象的图像序列，可以包括：

对所述课堂视频数据进行人脸检测，得到学生的人脸图像序列。

在一些实施例中，在获取目标对象的图像序列之后，还可以包括：对所述目标对象的图像序列进行预处理。

根据本公开实施例，在步骤S120中，将所述图像序列输入训练好的表情识别模型进行识别，得到所述目标对象的表情识别结果，其中，所述训练好的表情识别模型包括：

其中，参见图2，图2示出了根据本公开实施例的表情识别模型的示意性原理图。如图2所示，通过时空特征网络和时空注意力网络从图像序列的时间维度和空间维度当中准确、高效地提取表情特征，能够在表情特征图上有选择性地关注重要表情特征并抑制不必要特征，获得充分的特征表达以及良好的网络性能，进一步提高表情识别的准确度。最后通过分类网络对表情特征进行分类，得到准确的表情识别结果。

其中，基于三维卷积核的残差网络将深度残差网络与三维时空卷积进行了融合，进而解决卷积神经网络深度增加时的网络退化问题，并且在同等层数的前提下会使整个网络的收敛速度加快。在进行表情特征提取时，使用基于三维卷积核的残差网络作为表情识别模型的基本结构，在残差网络当中使用三维卷积核，可以实现从视频数据当中提取时空特征，捕获连续帧之间的运动信息，丰富特征表达。另外，残差网络作为基本的网络主干，可以通过残差模块简化连接方式，提升表情识别模型的整体性能。

在实际应用中，在对视频数据（例如课堂视频数据）当中的目标对象（例如学生）进行表情识别时，如果使用二维卷积神经网络，卷积则应用于二维的特征图，仅从空间维度计算特征，无法对时间维度的特征进行提取，这会对最终的识别性能造成一定影响。当利用视频数据分析问题的时候，期望捕获在多个连续帧之间的运动信息。所以，为了使用深度神经网络来提取视频数据中时间和空间维度上的信息，同时在时间和空间维度上进行卷积操作，可以将用于图像特征学习的二维卷积拓展为三维卷积（3D Convolution）。通过执行3D卷积在监视频中从时间和空间维度提取特征进行人体行为识别，3D卷积是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核以计算空间和时间维度特征。通过这种结构，卷积层中的特征图都会与上一层中的多个相邻帧相连，从而捕获运动信息，获得更好的特征表达。而3D卷积操作构成的三维卷积神经网络可以在获取每一帧视觉特征的同时，也能表达相邻帧随时间推移的关联与变化。但是这样的设计在实际应用当中却存在一定的困难，例如：时间维度的引入会使得整个神经网络的参数数量，训练时间都将大幅增长，另外，如果简单地增加网络深度，会导致梯度弥散或梯度爆炸的问题。针对这种情况，可以通过将残差网络与三维卷积神经网络进行融合解决上述局限性。因为残差网络是由一系列的残差块组成的，而每个残差块又由直接映射部分和残差部分组成。残差块可以实现网络层之间的跳跃连接，即将单元的输入直接与单元输出加在一起，然后再激活。因此，残差网络可以很好地解决深度神经网络的退化问题，并且在同等层数的前提下残差网络也会收敛得更快。所以，根据本公开实施例将残差网络和三维卷积操作融合，有效解决了针对课堂视频数据进行模型构建或模型训练时，耗时过长、速度过慢以及增加网络深度导致梯度爆炸、过拟合、收敛过慢等的问题。

在一些实施例中，所述基于三维卷积核的残差网络的主干可以包括3DResnet。

其中，参见图3，图3示出了根据本公开实施例的基于三维卷积核的残差网络的示意性原理图。如图3所示，3DResnet提供了快捷连接，允许信号绕过一层并按顺序移动到下一层。由于这些连接通过网络的梯度流从后面的层到早期层，它们可以促进非常深的网络的训练。而三维卷积又可以直接从图像序列中提取时空特征。所以融合两者可以有效地解决在以视频数据为网络输入时随着网络深度增加可能会导致的梯度爆炸、收敛过慢以及无法提取时空特征等问题。残差块的基本原理为将前面若干层的数据输出直接跳过多层而引入到后面数据层的输入部分。如果x为浅层的输出， H(x)为深层的输出, F(x)为夹在二者中间的的两层代表的变换，则残差块可以表示为：

。

而在每个残差模块中的基本形式可以表示为：

其中，h(x)是恒等映射，F是网络中的变化，f(x)是对于叠加之后值的变换，在原始残差模块中是Relu，网络通过学习其中的F的参数来减小loss值。而对于一个更深的层L，其与

层的关系可以表示为：

，其中，L层可以表示为任意一个比它浅的

层和他们之间的残差部分之和。

根据按照误差逆向传播算法的多层前馈神经网络中使用的导数的链式法则，损失函数ε关于x _l的梯度可以表示为：

，

由此可以得出在整个网络训练过程中，

不可能一直为-1，所以在残差网络当中不会出现梯度消失的问题。

根据本公开实施例的表情识别模型中，使用膨胀后的ResnNet作为3D的主干网络，原生的ResnNet由两个卷积层组成，每个卷积层之后是BN和ReLU，将其作为2D的主干网络。然后，将三维卷积操作的输出特征作为空间模块的输入，与输入帧相比，他们在空间上分别被压缩了4、8、16和32倍，如表1所示。

表1

其中，在主干网络（时空特征网络）之后，本公开实施例引入时空注意力机制，结合残差网络的特点，使用软注意力当中基本的加掩码机制，每次不只是根据当前网络层的表情信息加上mask，还会把上一层的表情信息传递下来，这样就防止mask之后的信息量过少引起的网络层数不能堆叠很深的问题。这种不仅只把mask之后的特征张量作为下一层的输入，同时也将mask之前的特征张量作为下一层的输入的方式，可以更好地得到更丰富的表情特征，从而能够更好的注意关键特征。参见图4，图4示出了根据本公开实施例的时空注意力网络的示意性原理图。如图4所示，在时空注意力网络当中，将空间注意力机制和时间注意力机制相结合在一起。其中空间注意力会使网络的注意力集中在人脸区域当中表情特征强度更大的区域，用于从每一帧中提取空间外观特征；而时间注意力会将图像序列中的判别性更强的帧给予更大的权重，所以对于表情的变化，只需要找到视频序列中的关键帧以及帧内面部肌肉变化明显的区域。

参见图4，空间注意力子网络旨在提升关键区域的特征表达，本质上是将原始图片中的空间信息通过空间转换模块，变换到另一个空间中并保留关键信息，为每个位置生成权重掩膜（mask）并加权输出，从而增强感兴趣的特定目标区域同时弱化不相关的背景区域。

空间注意力子网络分为上采样和下采样两个阶段，在下采样阶段，卷积和非线性映射用于提取学生表情区域的显著特征，最大池化层用于降低特征图的分辨率，同时增大特征图的感受野。随着下采样层数的增加，感受野会逐渐增大，特征图的判别性会逐渐增强。在上采样阶段，使用双线性插值将特征图逐步恢复为原先大小。最后，在特征图的最后一层使用sigmoid函数，将输出标准化到[0，1]。

由空间注意力子网络得到的注意力掩膜定义为：

。

最终空间注意力分支可以表示为：

其中，对于第i帧，将第n个特征图L _n表示为L _n（x _i）

并将这一帧的注意力掩膜表示为

，

表示点乘。

参见图4，在一段表情序列中可以将视频帧分为关键帧和一般帧，关键帧可以帮助网络对表情进行分类，因此，得到每一帧的重要程度权重对于提升表情识别准确率十分重要。所以，可以通过时间注意力去关注表情序列中的关键帧。经过空间注意力子网络的输出值表示为：

，

将 F（X）作为时间注意力子网络的输入，该时间注意力子网络是一个LSTM结构，然后得到的隐藏状态可以表示为矩阵

，其中

表示表情序列中第t帧的隐藏状态，计算可以得到相似举矩阵：

，

其中，C表示每帧图像之间相关度的相似矩阵，整个序列的相关性特征可以表示为：

，其中w _i表示第i帧与整个视频序列之间的相关性，具体计算如下：

，

其中，

表示学生表情序列中第i帧和第j帧之间的相关性，

与视频帧的重要程度成正比，越重要的帧具有更大的

值。

经过空间注意力子网络的输出值表示为：

。

在一些实施例中，所述空间外观特征序列中每帧图像的权重包括：

，

其中，w _i表示第i帧图像的权重，

，

表示所述空间外观特征序列中第i 帧和第j帧之间的相关度。

计算所述表情特征序列映射至表情类型的概率；

将概率最大的表情类型作为所述表情识别结果。

在一些实施例中，分类网络可以包括Softmax分类器。

具体来说，Softmax分类器能够将多个神经元的输出映射到(0,1)区间内，从而进行表情分类。而它的实现原理具体可以包括：

其中，

表示第i个节点的输出值，C表示输出节点的个数，即分类的类别个，由此可以将多分类的输出值转换为范围在[0,1]的概率分布。

表情识别是一种视频分类任务，而在视频分类任务中通常使用交叉熵损失函数，可以包括：

。

其中，N表示样本数，K表示表情类别，

表示标签值，p _i，j表示预测值。而在空间注意力当中的注意力掩膜定义为：

，

则其对应的

范数是

，因此，表情识别模型的最终损失函数可以定义为：

。

在一些实施例中，表情识别结果可以包括：困惑、活跃、专注、理解、沮丧、抵触或不屑等。

在一些实施例中，参见图5，以学生在课堂中的表情识别为例，图5示出了根据本公开实施例的表情识别模型的示意性原理图。在进行学生的课堂表情识别时，主要可以包括预处理过程，模型的构建过程以及测试过程，如图5所示。在模型的构建过程当中，首先初始化残差模块、空间注意力模块以及时间注意力模块当中的参数。输入视频帧序列，通过在空间维度的跨步卷积对视频数据进行特征整合，同时实现对空间分辨率的下采样以降低数据复杂度。在残差卷积层中，每个残差卷积层都包含两个残差模块，每个残差结构分别由两个恒等映射连接的三维卷积操作组成。在卷积层1，所有的卷积层都使用步长为（1,1,1）的卷积操作，在残差卷积层2，3，4 的第一个残差结构的第一个卷积操作的步长设置为（2,2,2），其余卷积操作的步长仍为（1,1,1），用来保证特征图大小一致以实现快捷连接操作。接着将三维残差卷积操作得到的深度特征进行平均池化得到视频数据的深度时空特征。最后将得到的深度时空特征送入时空注意力模块，先通过时间注意力模块去判别图像序列中的关键帧，再通过空间注意力模块去关注帧内的显著性特征区域，并更新权重进行反馈。最后通过Softmax进行分类，计算损失函数，并利用反向传播进一步优化网络参数，从而完成整个表情识别模型的构建。在模型的测试过程当中，首先对要被识别的课堂视频进行连续视频帧地获取，然后针对获取到的视频帧进行相应的预处理操作，送入已构建的表情识别模型当中进行学生表情特征的提取，最后通过得到的各类学生表情的概率值选择出概率最大的表情类别作为最终的预测结果进行输出。

在传统的教学质量评价体系中，一般分为教学目标、教学过程、教学效果、教学态度四个方面。传统的课堂教学评估通常是运用信息技术对教学过程中产生的教学数据进行收集、传输、挖掘和处理等操作来进行课堂分析与评价，其数据往往是问卷反馈或者学生对相关课程授课教师进行打分，指标通常包括授课难度、授课态度、作业批改程度等方面，然后采取不同统计方法形成最终的教学质量评价结果。利用混合式教学评价的原则，通过研究活动、评价和能力三者的关系，构建关注过程和关注发展的多元化、多层次、多维度的混合式教学课程质量评价体系。目前对课堂教学质量的评价往往采用学生评教或专家打分的方法。其中学生评教是基于结果的评价，往往受主观性片面性影响，缺乏足够的可信度;而专家听课又由于成本等原因，往往难以实现课堂教学过程的全覆盖。此外，传统的学生课堂状态评估主要依赖于考试成绩或者课后习题，缺少了学习过程中多个维度的数据支持。而且因为考试频率限制，导致老师和家长不能够及时发现学生的问题，并作出相应调整。这种传统的课堂状态评估机制还缺乏对学生的“显式”心理特征和“隐式”动态行为特征的挖掘，往往依靠单一特征来分析学生课堂学习状态，而且持续周期较长，且评估较为主观，消耗大量人力的同时，还不能够做到及时、长期地与学生交互。其中，教学评价的样本数、可观察维度也受到限制，评估的效率非常低。这种方式已经无法满足全面、科学地评价学生综合素质的需要。

基于上述考虑，本公开实施例还提供了一种基于表情识别的课堂状态评估方法。参见图6，图6示出了根据本公开实施例的基于表情识别的课堂状态评估方法的示意性流程图。如图6所示，基于表情识别的课堂状态评估方法，包括：

步骤S610，获取课堂视频数据；

步骤S620，基于本公开实施例的表情识别方法对所述课堂视频数据中的学生表情进行识别，得到表情识别结果；以及对所述课堂视频数据中的学生行为进行识别，得到行为识别结果；

步骤S630，基于所述表情识别结果、所述行为识别结果以及对应的权重计算综合评分；

步骤S640，基于所述综合评分确定所述课堂视频数据的课堂状态评估结果。

其中，在获得学生的课堂表情和行为之后，结合两者给出学生一个全面、客观的课堂评估结果。与传统的根据学生心理变化、学生注意力变化来计算学生情感的变化，进而去评估学生状态的方式相比，根据本公开实施例，充分融合学生的课堂表情和行为，并通过权重值的设定可以灵活突出两者的主导性强弱，使评估结果更加符合实际场景。并且，还采用了根据本公开实施例的引入时空注意力机制的表情识别方法对学生的表情进行准确识别，进一步增强了课堂状态评估结果的客观性、全面性以及正确性。

具体来说，本公开实施例在进行融合学生表情和行为的智能课堂状态评估时，首先对学生课堂视频进行目标检测，对已经确定的学生目标同时进行表情识别和行为识别，并分别记录识别结果。然后针对记录的结果进行统计分析并输出到权重融合表达式进行综合评估值的计算，最后根据综合评估值判定学生课堂听课状态，如表2所示。

表2

在实际应用中，在课堂状态评估方法中，分配给表情和行为的权重值的设定是非常重要的，因为权重值的设定会决定表情识别结果和行为识别结果对于最终的综合评估结果的影响，本公开实施例测试了三组不同的权重值，并将不同权重下的综合评估结果和标注结果进行了对比。最终确定一组效果相对较好的权重值，即表情识别分配0.65的权重，行为识别分配0.35的权重。应了解，此处仅为举例说明，并不旨在对权重进行限制，分配给表情和行为的权重值可以根据需要进行设置。

目标检测算法会标注出课堂视频当中的学生目标，然后对每一个标注出的学生目标进行行为识别和表情识别，由于二者同时进行，所以当识别到学生的行为状态是低头或者转头时可以不进行表情识别以降低对最终综合评估的影响。根据记录的学生表情识别结果和行为识别结果，统计分析积极（例如，活跃、专注、理解）、消极（例如，不屑、抵抗、沮丧）、中性（例如，困惑）三种类别对应的表情和行为人数以及概率值，然后对表情和行为分配权重计算得到最终的综合评估值，最后根据综合评估值分析判定学生的听课状态。

首先，用count _{pos_expression}，count _{neg_expression}，

分别表示课堂视频当中识别到的积极表情、消极表情以及中性表情的学生人数，计算统计从课堂视频中识别到的学生总人数Sum，包括：

Sum= count _{pos_expression}+count _{neg_expression}+

。

然后，分别计算积极表情和积极行为的概率值

：

。

其中，如前所述，count _{pos_expression}表示课堂视频当中识别到的积极表情的学生人数，Sum表示课堂视频中识别到的学生总人数；类似地，count _{pos_behavior}表示课堂视频当中识别到的积极行为的学生人数。进一步地，积极行为可以基于行为识别结果得到。具体来说，行为识别结果可以分为多种类型，如走神、睡觉、听课、记笔记、聊天、玩手机等等，可以将其中例如听课、记笔记作为积极行为，睡觉、聊天、玩手机作为消极行为，从行为识别结果中统计属于积极行为的学生人数即为count _{pos_behavior}。应了解，上述行为识别结果、积极行为、消极行为等仅为举例，并不旨在对进行限制，行为识别结果还可以是其他识别到的行为，对行为的分类还可以包括中性行为，在此不做限制。

最后，对表情识别结果和行为识别结果分配权重，用

表示分配给表情识别结果的权重值，

表示分配给行为识别结果的权重值，计算最终的综合评估值

：

。

针对综合评估值来分析讨论学生的整体课堂状态评估结果，该评估结果可以是评估等级，也可以是评估分数。而不同条件下的课堂状态评估等级一共分成了7个等级，分别是A+等级，A等级，B+等级，B等级，B-等级，C等级，C-等级，各个等级含义如表3所示。

表3

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种表情识别装置。

参考图7，所述表情识别装置，包括：

第一获取模块，用于获取目标对象的图像序列；

识别模块，用于将所述图像序列输入训练好的表情识别模型进行识别，得到所述目标对象的表情识别结果，其中，所述训练好的表情识别模型包括：

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种基于表情识别的课堂状态评估装置。

参考图8，所述基于表情识别的课堂状态评估装置，包括：

第二获取模块，用于获取课堂视频数据；

表情识别模块，用于基于本公开实施例所述的表情识别方法对所述课堂视频数据中的学生表情进行识别，得到表情识别结果；

行为识别模块，用于对所述课堂视频数据中的学生行为进行识别，得到行为识别结果；

评分模块，用于基于所述表情识别结果、所述行为识别结果以及对应的权重计算综合评分；

状态评估模块，用于基于所述综合评分确定所述课堂视频数据的课堂状态评估结果。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的表情识别及课堂状态评估方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的表情识别及课堂状态评估方法。

图9示出了根据本公开实施例的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的表情识别及课堂状态评估方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的表情识别及课堂状态评估方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的表情识别及课堂状态评估方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围（包括权利要求）被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路（IC）芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的（即，这些细节应当完全处于本领域技术人员的理解范围内）。在阐述了具体细节（例如，电路）以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构（例如，动态RAM（DRAM））可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。