CN113239914A

CN113239914A - 课堂学生表情识别及课堂状态评估方法、装置

Info

Publication number: CN113239914A
Application number: CN202110787828.6A
Authority: CN
Inventors: 梁美玉; 于婉莹
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-08-10
Anticipated expiration: 2041-07-13
Also published as: CN113239914B

Abstract

本公开提供一种课堂学生表情识别方法，通过多路自注意力机制的深度卷积神经网络的各个支路分别获得学生表情图像的局部特征、遮挡特征及整体特征，然后基于所述多路自注意力机制的深度卷积神经网络的自适应权重分配层，分别计算所述局部特征、所述遮挡特征和所述整体特征的各自的权重；将所述局部特征、所述遮挡特征和所述整体特征，分别与所述各自的权重相乘后合并，得到所述学生表情图像的全局表情特征；最后，基于所述全局表情特征对课堂学生表情进行识别，从而有效分类复杂课堂场景下的学生表情，提高了遮挡情况下学生课堂表情识别的准确性。

Description

课堂学生表情识别及课堂状态评估方法、装置

技术领域

本公开涉及智能教学评估技术领域，尤其涉及一种课堂学生表情识别及课堂状态评估方法、装置。

背景技术

随着大规模信息网络技术在教育领域的应用，逐步形成和积累了前所未有的教育大数据资源，包括文本、图像和视频等跨媒体教育数据等，这些庞大的数据中蕴藏着丰富而有价值的信息。教育大数据时代的降临为教育信息化的发展带来了全新的思路和机遇。随着人们对教育投注越来越多的重视，传统的课堂教学已经无法满足人们的需求。传统的课堂教学是由教师采用课堂观察和提问的方式与学生交互，无疑会因为老师精力有限等原因，使得教师与学生之间信息传递和反馈存在一定的局限性，教师无法及时、精确的掌握学生的情绪变化、注意力变化。因此，利用课堂教学视频数据，结合计算机视觉和视频智能处理技术，对课堂中学生状态进行检测和识别，构建智能化的智能教学状态挖掘系统，使教师及时了解学生的课堂状态与注意力的变化，具有重要的研究价值和应用前景。

近年来，表情识别、智能教学评估已成为一大研究热点，受到了国内外学术界和工业界的广泛关注。虽然目前已经存在一些基于学生表情或基于学生行为的智能教育评估系统，然而，在复杂的课堂场景下仅仅依靠学生表情或学生行为去评估课堂状态是存在一定局限性的。此外，尽管目前已经存在识别效果较好的表情识别算法和行为识别算法，但是并没有适用于复杂的课堂场景下的识别算法。课堂场景下存在姿势偏移及人脸遮挡等问题，如何通过深度学习的方法降低以上问题对表情识别的影响，具有重要研究意义。

发明内容

有鉴于此，本公开的目的在于提出一种课堂学生表情识别及课堂状态评估方法、装置。

基于上述目的，本公开提供了一种课堂学生表情识别方法，包括：

基于多路自注意力机制的深度卷积神经网络的各个支路分别获得学生表情图像的局部特征、遮挡特征及整体特征；

基于所述多路自注意力机制的深度卷积神经网络的自适应权重分配层，分别计算所述局部特征、所述遮挡特征和所述整体特征的各自的权重；

将所述局部特征、所述遮挡特征和所述整体特征，分别与所述各自的权重相乘后求和，得到所述学生表情图像的全局表情特征；

基于所述全局表情特征对课堂学生表情进行识别。

从上面所述可以看出，本公开提供的课堂学生表情识别方法，通过多路自注意力机制的深度卷积神经网络的各个支路分别获得学生表情图像的局部特征、遮挡特征及整体特征，然后基于所述多路自注意力机制的深度卷积神经网络的自适应权重分配层，分别计算所述局部特征、所述遮挡特征和所述整体特征的各自的权重；将所述局部特征、所述遮挡特征和所述整体特征，分别与所述各自的权重相乘后合并，得到所述学生表情图像的全局表情特征；最后，基于所述全局表情特征对课堂学生表情进行识别，从而有效分类复杂课堂场景下的学生表情，提高了遮挡当情况下学生课堂表情识别的准确性。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例的一种课堂学生表情识别方法的流程示意图；

图2为本公开实施例的一种课堂教学视频中学生表情识别方法的流程示意图；

图3为本公开实施例的一种课堂状态评估的方法的流程示意图；

图4为本公开实施例的一种课堂状态评估的装置的结构示意图；

图5为本公开实施例的一种具体电子设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如背景技术所述，在复杂的课堂场景下仅仅依靠学生表情或学生行为去评估课堂状态是存在一定局限性的，而且由于课堂场景下存在姿势偏移及人脸遮挡等问题，通过现有的神经网络进行表情识别，准确性必然会受到影响。因此，本公开构建了一种基于多路自注意力机制的深度卷积神经网络，用于学生表情特征学习，为了获取图像更加细节处的特征，进一步融合局部表情特征、遮挡后的表情特征和整体表情特征等多视角下的表情特征，本公开构建了多条支路分别提取局部特征、遮挡后的特征和整体特征，其中，局部特征为图像局部裁剪后的特征，遮挡特征为随机或人为设置遮挡部分区域的特征，整体特征为原图像特征，为了学习有效局部区域对表情分类所起作用，在支路神经网络的末端设计了基于自注意力机制的自适应权重学习机制，该模块通过全连接层和激活函数自适应地学习各个视角对于表情分类的重要性，为有更重要影响的支路视角分配更高权重，同时为有较小影响的支路视角分配更低权重。最后，将不同权重的局部特征、遮挡特征和整体特征融合，得到具有多视角特征的全局特征，该全局特征为人脸表情不同区域分配不同权重，过滤了冗余信息，解决了人脸遮挡问题对表情识别造成的影响，提高了课堂学生表情识别的准确度。

参考图1，为本公开实施例的一种课堂学生表情识别方法的流程示意图，该方法包括以下步骤：

S101，基于多路自注意力机制的深度卷积神经网络的各个支路分别获得学生表情图像的局部特征、遮挡特征及整体特征。

本步骤中，通过多路自注意力机制的深度卷积神经网络的各个支路分别获得学生表情图像的局部特征、遮挡特征及整体特征，其中，整体特征是在学生表情图像的原图的基础上提取的特征，遮挡特征和局部特征是对原学生表情图像处理后的图像的基础上提取的特征。

在一些实施例中，为了准确提取学生表情图像的各个特征，基于所述多路自注意力机制的深度卷积神经网络的各个支路分别提取学生表情图像的局部特征、遮挡特征及整体特征，具体包括：

将所述学生表情图像进行裁剪得到所述局部特征的输入图像；

将所述学生表情图像的部分区域进行遮挡得到所述遮挡特征的输入图像；

将所述学生表情图像的原图、所述局部特征的输入图像、所述遮挡特征的输入图像分别输入到所述多路自注意力机制的深度卷积神经网络的各个支路，分别获得所述局部特征的输入图像对应的所述局部特征、所述遮挡特征的输入图像对应的所述遮挡特征和所述学生表情图像的原图对应的所述整体特征。

具体的，先将学生表情图像的原图复制保存作为整体特征的输入图像，然后分别对学生表情图像的原图进行局部裁剪和遮挡局部处理，分别作为局部特征和遮挡特征的输入图像，可选的，对原图进行局部裁剪或遮挡局部处理时，可以是随机裁剪或遮挡，也可以根据需要设置裁剪位置和遮挡位置，在此不做任何限定。局部特征和遮挡特征的输入图像可以设置多个也可以设置单个，可选的，将学生表情图像的原图复制多份，每份做不同的裁剪或遮挡，从而得到多个局部特征和遮挡特征的输入图像。需要说明的是，多路自注意力机制的深度卷积神经网络的支路数量与输入图像的数量相等，每一条支路单独提取一个特征，从而获得多个视角的不同特征。

S102，基于所述多路自注意力机制的深度卷积神经网络的自适应权重分配层，分别计算所述局部特征、所述遮挡特征和所述整体特征的各自的权重。

本步骤中，将所述局部特征、所述遮挡特征和所述整体特征分别输入到多路自注意力机制的深度卷积神经网络的自适应权重分配层，得到各自的权重。

可选的，各个权重通过以下公式获得;

q_i= S ( W₂* R ( W₁* Z_i) )

其中q_i为各个支路表情特征的权重，W₁和W₂为全连接层权重，R为ReLU激活函数，S为Sigmoid激活函数，Z_i为各个局部特征、遮挡特征或整体特征。通过全连接层自适应地获取对表情分类有更大影响的支路分配更高权重，相反对表情分类有更小影响的支路分配更低权重。

为了进一步优化各支路所占权重还引入了约束性损失函数，进一步调整各支路所占权重，实现遮挡、局部、整体等多视角特征的融合，获得有效表情特征图，在一些实施例中，在训练所述多路自注意力机制的深度卷积神经网络时，通过以下损失函数约束所述遮挡特征的权重：

L_bound1= max（0，margin1 - q_org+ q₁）;

其中，q_org为所述整体特征的权重，q_l为所述遮挡特征的权重，margin1为第一预设阈值，用于调节所述整体特征的权重与所述遮挡特征的权重的差值。

具体的，在模型训练过程中，各支路的自注意力的权重分配机制可以初步学习各支路特征在全局特征中的重要性，但对人脸图像进行遮挡必定使图像失去一定量信息，因此，对遮挡支路的约束显得尤为重要，本公开通过限制遮挡特征所占权重小于整体特征所占权重进一步弥补遮挡所带来的表情信息丢失。在上述公式中，当margin1 - q_org+ q₁的结果为正时，会产生损失，此时，需要重新调整参数来使margin1 - q_org+ q₁的结果为负，即q_org大于q₁与margin1的和。可选的，margin1的值可以根据需要进行设置，例如，可以将margin1的值设置为0。可选的，margin1的值为正数。

为了进一步确定影响最终标签的重要局部区域，对局部区域支路权重进行调整，使局部区域所占权重的最大的支路一定大于原图像支路，从而缩小影响最终标签的人脸范围，在一些实施例中，在训练所述多路自注意力机制的深度卷积神经网络时，通过以下损失函数约束所述局部特征的权重：

L_bound2= max（0，margin2 - q_max + q_org）;

其中，q_org为所述整体特征的权重，其中，q_max为权重最大的局部特征的权重，margin2为第二预设阈值，用于调节所述整体特征的权重与权重最大的局部特征的权重的差值。

具体的，获取的局部特征可以是多个或一个，每个局部特征的权重不同，从所有局部特征的权重中找到最大权重，限制该最大权重大于整体特征的权重。在上述L_bound2= max（0，margin2 - q_max + q_org）中，当margin2 - q_max + q_org结果为正时，会产生损失，此时，需要重新调整参数来使margin2 - q_max + q_org的结果为负，即q_max大于q_org与margin2的和。可选的，margin2的值可以根据需要进行设置，在此不做限定。可选的，margin2的值为正数。

一些实施例中，在训练所述多路自注意力机制的深度卷积神经网络时，通过以下损失函数来对所述课堂学生表情的结果进行预测：

Ls = α* Lbound1 + β* Lbound2 + L ；

L = [ylogy` - (1 - y)log(1 - y`) ] ；

其中，Ls为所述多路自注意力机制的深度卷积神经网络的损失函数，L为分类损失函数，y为真实课堂学生表情标签期望，y`为预测课堂学生表情标签期望，α为所述遮挡特征的权重对应的约束性损失函数的预设权重，β为所述局部特征的权重对应的约束性损失函数的预设权重。

具体的，在分类损失函数L的基础上加上了L_bound1和 L_bound2两个约束损失函数，增强了自注意力机制的对权重分配的效果，通过约束损失函数进一步优化各支路权重，从而进一步优化全局表情特征表示，获取到了多视角特征，使本公开的表情识别方法更适应于真实场景下的人脸面部表情的识别。α和β的值可以根据需要进行设置，在此不做限定。

S103，将所述局部特征、所述遮挡特征和所述整体特征，分别与所述各自的权重相乘后合并，得到所述学生表情图像的全局表情特征。

本步骤中，在获得所述局部特征、所述遮挡特征和所述整体特征及各自的权重后，将各个特征分别与对应的各个权重相乘，然后合并得到学生表情图像的全局表情特征。可选的，通过如下公式输出学生表情图像的全局表情特征：

；

其中，F_m为全局表情特征，F_i为各支路卷积神经网络学习到的学生表情特征，即局部特征、遮挡特征或整体特征。c为支路数，q_i为各个支路的权重。

S104，基于所述全局表情特征对课堂学生表情进行识别。

本步骤中，在获得生表情图像的全局表情特征后，根据该全局表情特征对课堂学生表情进行识别。可选的，表情识别结果可以包括积极表情(开心、专注、理解)、消极表情（沮丧、抵抗、不屑)、中性表情（困惑）。

参考图2，为本公开实施例的一种课堂教学视频中学生表情识别方法的流程示意图，其中，将课堂教学视频的关键帧中的学生表情图像复制成五份，每份由一条支路单独处理，最上层的支路在原图上进行特征提取，视角1在对原图进行部分遮挡后的图像上进行特征提取，视角2到视角4在对原图进行局部裁剪后的图像上进行特征提取，获得的特征集（F0到F4）通过自适应权重分配，为各个视角的特征分配不同的权重，其中，在进行权重优化时，通过约束性损失函数对各个支路的权重进行优化，然后将各个视角的特征进行融合，最后将融合后的特征通过SoftMax分类器进行表情分类。

本公开提供的一种课堂学生表情识别方法，基于多路深度注意力卷积神经网络的各支路网络分别提取整体视角下人脸表情特征、局部视角下人脸表情特征和遮挡视角下表情特征；然后通过自适应权重分配层，自适应地为不同支路网络学习到的多视角特征分配不同权重，得到每个支路特征集的新的注意力权重，同时为新的注意力权重添加约束性损失函数，约束被遮挡路径小于原图像支路权重以弥补人为遮挡带来的误差,约束原图像支路不为权重最大支路以捕获局部重要区域，最后将所有的支路表情特征通过表情特征融合模块，将各支路特征及各支路权重归纳成人脸表情的全局表情特征，全局表情特征为各个支路加权注意力特征之和，通过该全局表情特征在网络的末端使用SoftMax分类器对学生人脸表情进行分类。

参考图3，为本公开实施例的一种课堂状态评估的方法的流程示意图，该方法包括以下步骤：

S201，获取课堂教学视频中的课堂学生图像。

本步骤中，先获取课堂教学视频中的课堂学生图像，可选的，先提取课堂教学视频中的关键帧，然后从关键帧中标记出课堂学生图像，该课堂学生图像中包括学生表情图像和学生行为图像。

S202，通过深度卷积神经网络的行为识别算法，基于所述课堂学生图像获取所述课堂学生的行为类型。

本步骤中，通过深度卷积神经网络的行为识别算法，根据所述课堂学生图像获取所述课堂学生的行为类型，可选的，该行为类型包括：积极行为（听讲）、消极行为（低头、转头）、中性行为（站立）。需要说明的是，由于学生的行为动作差异较大，相比于表情更容易识别，因此，可以选择现有的深度卷积神经网络的行为识别算法进行学生行为识别。

S203，通过所述课堂学生表情识别的方法，基于所述课堂学生图像获取课堂学生的表情类型。

本步骤中，通过上述的课堂学生表情识别的方法，根据获取的课堂学生图像中的学生表情图像进行表情识别，得到课堂学生的表情类型。可选的，表情识别结果可以包括积极表情(开心、专注、理解)、消极表情（沮丧、抵抗、不屑)、中性表情（困惑）。可选的，在对载入的课堂视频数据进行关键帧的获取后，先对获取到的关键帧进行灰度化、图像增强等操作，然后进行学生人脸检测并选择感兴趣区域最大的人脸图像，作为获取课堂学生的表情类型的输入图像；在通过本公开提出的课堂学生表情识别的方法对学生表情识别时，对输入的学生表情图像进行预测，得出各类表情概率并选择最大概率的表情类别作为输出。

S204，基于所述表情类型及所述行为类型评估所述课堂状态。

本步骤中，根据获取的表情类型及行为类型共同评估所述课堂状态，进一步保证了教学评估的准确性。

在一些实施例中，基于所述表情类型及所述行为类型评估所述课堂状态，具体包括：

确定所述表情类型中积极表情的学生人数占总学生人数的第一积极比例，及所述行为类型中积极行为的学生人数占所述总学生人数的第二积极比例；

基于所述第一积极比例的预设权重、所述第二积极比例的预设权重、所述第一积极比例及所述第二积极比例评估所述课堂状态。

具体的，先确定积极表情的学生人数占总学生人数的比例，以及积极行为的学生人数占总学生人数的比例，然后分别赋予积极表情比例和积极行为比例不同的权重，将带有权重的第一积极比例和第二积极比例求和来作为课堂状态的评估值。

需要说明的是，上述基于所述表情类型及所述行为类型评估所述课堂状态的方法，只是一种具体的实现方式，本领域技术人员也可以通过其他方法来实现课堂状态的评估，例如，可以通过统计消极表情和消极行为的比例来进行课堂状态的评估，这些都属于本公开的保护范围。

可选的，通过以下公式计算课堂状态的评估值：

P_{com =}P_{pos_emotion}* A ₊P_{pos_behavior}* B;

其中，P_com为课堂状态的评估值，P_{pos_emotion}为积极表情的学生人数占总学生人数的第一积极比例，P_{pos_behavior}为积极行为的学生人数占所述总学生人数的第二积极比例，A和B分别为对应的预设权重。该预设权重可以根据实际情况进行设置，在此不做限定。

在一些实施例中，为了进一步提高课堂状态评估的准确性，在基于所述课堂学生目标获取课堂学生的表情类型之前，所述方法还包括：

响应于确定所述行为类型为消极行为，将所述消极行为对应的课堂学生图像清除，以使所述消极行为对应的课堂学生图像不被获取所述表情类型。

具体的，由于会同时进行行为识别和表情识别，所以当识别到学生的行为状态是低头或者转头时会不进行表情识别以降低对最终综合评估的影响。可选的，由于不会对所有学生的表情进行识别，所以总学生人数通过所述行为类型对应的学生人数来确定。

本公开提出了一种课堂学生表情识别的方法，该方法致力于实现复杂课堂场景下的表情识别任务，在遮挡情况下的识别能力和优势更加突出；为了更加精确地基于课堂教学视频实现智能教学评估，本公开提出了融合学生表情和行为识别的智能教学评估算法，首先对学生课堂视频进行学生目标检测和跟踪，定位视频中的每个学生目标，对检测到的学生目标进行表情识别和行为识别，然后通过融合表情和行为的识别结果综合进行课堂教学状态评估值的计算，最后根据综合评估值判定学生课堂听课状态。结合学生表情与学生行为进一步获取学生在课堂中所处状态，进而实现客观准确的智能教学评估。同时，本公开应用于智能教学评估，可以助力个性化教学和教学质量的提升，以实现智慧教育。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种课堂状态评估的装置。

参考图4，所述课堂状态评估的装置，包括：

学生图像获取模块，获取课堂教学视频中的课堂学生图像；

行为类型获取模块，通过深度卷积神经网络的行为识别算法，基于所述课堂学生目标获取所述课堂学生的行为类型；

表情类型获取模块，通过如上所述的课堂状态评估方法，基于所述课堂学生目标获取课堂学生的表情类型；

课堂状态评估模块，基于所述表情类型及所述行为类型评估所述课堂状态。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的课堂状态评估方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的课堂状态评估方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的课堂状态评估方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的课堂状态评估方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的课堂状态评估方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围（包括权利要求）被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路（IC）芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的（即，这些细节应当完全处于本领域技术人员的理解范围内）。在阐述了具体细节（例如，电路）以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构（例如，动态RAM（DRAM））可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种课堂学生表情识别的方法，包括：

将所述局部特征、所述遮挡特征和所述整体特征，分别与所述各自的权重相乘后合并，得到所述学生表情图像的全局表情特征；

基于所述全局表情特征对课堂学生表情进行识别。

2.根据权利要求1所述的方法，其中，基于所述多路自注意力机制的深度卷积神经网络的各个支路分别提取学生表情图像的局部特征、遮挡特征及整体特征，具体包括：

将所述学生表情图像的原图、所述局部特征的输入图像、所述遮挡特征的输入图像分别输入到所述多路自注意力机制的深度卷积神经网络的各个支路，分别获得所述局部特征的输入图像对应的所述局部特征、所述遮挡特征的输入图像对应的所述遮挡特征和所述学生表情图像原图对应的所述整体特征。

3.根据权利要求1所述的方法，其中，在训练所述多路自注意力机制的深度卷积神经网络时，通过以下损失函数约束所述遮挡特征的权重：

L_bound1= max（0，margin1 - q_org+ q₁）;

4.根据权利要求3所述的方法，其中，在训练所述多路自注意力机制的深度卷积神经网络时，通过以下损失函数约束所述局部特征的权重：

L_bound2= max（0，margin2 - q_max + q_org）;

其中，q_org为所述整体特征的权重，q_max为权重最大的局部特征的权重， margin2为第二预设阈值，用于调节所述整体特征的权重与所述权重最大的局部特征的权重的差值。

5.根据权利要求4所述的方法，其中，在训练所述多路自注意力机制的深度卷积神经网络时，通过以下损失函数来对所述课堂学生表情的结果进行预测：

L_s= α* L_bound1+ β* L_bound2+ L ；

L = [ylogy` - (1 - y)log(1 - y`) ] ；

其中，L_s为所述多路自注意力机制的深度卷积神经网络的损失函数，L为分类损失函数，y为真实课堂学生表情标签期望，y`为预测课堂学生表情标签期望，α为所述遮挡特征的权重对应的约束性损失函数的预设权重，β为所述局部特征的权重对应的约束性损失函数的预设权重。

6.一种课堂状态评估的方法，包括：

获取课堂教学视频中的课堂学生图像；

通过深度卷积神经网络的行为识别算法，基于所述课堂学生图像获取课堂学生的行为类型；

通过如权利要求1至5任一项所述的方法，基于所述课堂学生图像获取所述课堂学生的表情类型；

基于所述表情类型及所述行为类型评估所述课堂状态。

7.根据权利要求6所述的方法，其中，基于所述表情类型及所述行为类型评估所述课堂状态，具体包括：

8.根据权利要求7所述的方法，其中，在基于所述课堂学生目标获取课堂学生的表情类型之前，所述方法还包括：

9.根据权利要求8所述的方法，其中，所述总学生人数通过所述行为类型对应的学生人数来确定。

10.一种课堂状态评估的装置，包括：

学生图像获取模块，获取课堂教学视频中的课堂学生图像；

表情类型获取模块，通过如权利要求1至5任一项所述的方法，基于所述课堂学生目标获取课堂学生的表情类型；