CN116486308A

CN116486308A - 基于智慧教育的教学管理系统及其方法

Info

Publication number: CN116486308A
Application number: CN202310521472.0A
Authority: CN
Inventors: 周敏; 杨洪敏; 杨俊�; 汪威军
Original assignee: Zhejiang Xiaoyang Technology Co ltd
Current assignee: Zhejiang Xiaoyang Technology Co ltd
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-07-25

Abstract

一种基于智慧教育的教学管理系统及其方法，其获取由摄像头采集的被监控学生对象的学习行为视频；采用基于深度学习的人工智能技术，进行所述监控视频中关于学生的面部语义隐含特征分布信息的充分表达，以此准确地检测学生的学习状态，从而基于学生的学习状态来优化教学内容，以在实际教学中给出更具有针对性的教学辅助，提升教育教学管理效率和教育教学质量。

Description

基于智慧教育的教学管理系统及其方法

技术领域

本申请涉及智能化管理技术领域，并且更具体地，涉及一种基于智慧教育的教学管理系统及其方法。

背景技术

智慧教育是指基于现代信息技术手段，以教育为导向，实现全方位、立体化、个性化的学习管理模式。随着人工智能、大数据、云计算等新一代信息技术的快速发展，智慧教育正日益成为教育领域发展的重要趋势之一。

教学管理系统是智慧教育的一种典型应用场景，通过对学生行为的精细监控与管理，可以实现教学内容的优化和个性化教育。但是，在传统的教学管理系统中，学生的学习状态主要通过老师观察和汇报来判断。这种方式往往对于学生的学习专注度不能够准确、客观地进行判断，并且不能够及时有效地来针对不同的学生进行相应地辅导教学。

因此，期望一种优化的基于智慧教育的教学管理系统。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于智慧教育的教学管理系统及其方法，其获取由摄像头采集的被监控学生对象的学习行为视频；采用基于深度学习的人工智能技术，进行所述监控视频中关于学生的面部语义隐含特征分布信息的充分表达，以此准确地检测学生的学习状态，从而基于学生的学习状态来优化教学内容，以在实际教学中给出更具有针对性的教学辅助，提升教育教学管理效率和教育教学质量。

第一方面，提供了一种基于智慧教育的教学管理系统，其包括：

学习行为视频采集模块，用于获取由摄像头采集的被监控学生对象的学习行为视频；

监控关键帧提取模块，用于从所述学习行为视频提取多个学习行为监控关键帧；

面部识别模块，用于将所述多个学习行为监控关键帧通过面部识别网络以得到多个面部识别感兴趣图像；

面部特征提取模块，用于将所述多个面部识别感兴趣图像通过基于卷积神经网络模型的面部特征提取器以得到多个面部语义特征向量；

学习行为语义理解模块，用于将所述多个面部语义特征向量通过基于转换器的上下文编码器以得到学习行为语义理解特征向量；以及

学习状态检测模块，用于将所述学习行为语义理解特征向量通过多标签分类器以得到分类结果，所述分类结果用于表示学生学习状态标签。

在上述基于智慧教育的教学管理系统中，所述面部识别网络为基于锚窗的目标检测网络，所述基于锚窗的目标检测网络为Fast R-CNN、Faster R-CNN或RetinaNet。

在上述基于智慧教育的教学管理系统中，所述面部特征提取模块，用于：使用所述基于卷积神经网络模型的面部特征提取器的各层在层的正向传递中分别对输入数据进行：对所述输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行基于特征矩阵的均值池化处理以得到池化特征图；以及，对所述池化特征图进行非线性激活以得到激活特征图；其中，所述基于卷积神经网络模型的面部特征提取器的最后一层的输出为所述多个面部语义特征向量，所述基于卷积神经网络模型的面部特征提取器的第一层的输入为所述多个面部识别感兴趣图像。

在上述基于智慧教育的教学管理系统中，所述学习行为语义理解模块，包括：上下文语义编码单元，用于将所述多个面部语义特征向量通过基于转换器的上下文编码器以得到多个上下文面部语义特征向量；优化因数计算单元，用于分别计算所述各个上下文面部语义特征向量的高斯回归不确定性因数以得到多个高斯回归不确定性因数；加权优化单元，用于以所述多个高斯回归不确定性因数作为加权系数对所述多个上下文面部语义特征向量进行加权优化以得到多个优化上下文面部语义特征向量；以及，优化特征关联单元，用于将所述多个优化上下文面部语义特征向量进行级联以得到所述学习行为语义理解特征向量。

在上述基于智慧教育的教学管理系统中，所述上下文语义编码单元，包括：向量构造子单元，用于将所述多个面部语义特征向量进行一维排列以得到面部全局特征向量；自注意子单元，用于计算所述面部全局特征向量与所述多个面部语义特征向量中各个面部语义特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵；标准化子单元，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；关注度计算子单元，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，注意力施加子单元，用于分别以所述多个概率值中各个概率值作为权重对所述多个面部语义特征向量中各个面部语义特征向量进行加权以得到所述多个上下文面部语义特征向量。

在上述基于智慧教育的教学管理系统中，所述优化因数计算单元，用于：以如下优化公式分别计算所述各个上下文面部语义特征向量的高斯回归不确定性因数以得到所述多个高斯回归不确定性因数；其中，所述优化公式为：

其中，v_ij是所述多个上下文面部语义特征向量中第i个上下文面部语义特征向量的第j个位置的特征值，L是特征向量的长度，μ_i和σ_i ²分别是所述第i个上下文面部语义特征向量中各个位置特征值集合的均值和方差，log为以2为底的对数函数，w_i是所述多个高斯回归不确定性因数中第i个高斯回归不确定性因数。

在上述基于智慧教育的教学管理系统中，所述学习状态检测模块，包括：全连接编码单元，用于使用所述多标签分类器的多个全连接层对所述学习行为语义理解特征向量进行全连接编码以得到编码分类特征向量；以及，分类单元，用于将所述编码分类特征向量通过所述多标签分类器的Softmax分类函数以得到所述分类结果。

第二方面，提供了一种基于智慧教育的教学管理方法，其包括：

获取由摄像头采集的被监控学生对象的学习行为视频；

从所述学习行为视频提取多个学习行为监控关键帧；

将所述多个学习行为监控关键帧通过面部识别网络以得到多个面部识别感兴趣图像；

将所述多个面部识别感兴趣图像通过基于卷积神经网络模型的面部特征提取器以得到多个面部语义特征向量；

将所述多个面部语义特征向量通过基于转换器的上下文编码器以得到学习行为语义理解特征向量；以及

将所述学习行为语义理解特征向量通过多标签分类器以得到分类结果，所述分类结果用于表示学生学习状态标签。

在上述基于智慧教育的教学管理方法中，所述面部识别网络为基于锚窗的目标检测网络，所述基于锚窗的目标检测网络为Fast R-CNN、Faster R-CNN或RetinaNet。

在上述基于智慧教育的教学管理方法中，将所述多个面部识别感兴趣图像通过基于卷积神经网络模型的面部特征提取器以得到多个面部语义特征向量，用于：使用所述基于卷积神经网络模型的面部特征提取器的各层在层的正向传递中分别对输入数据进行：对所述输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行基于特征矩阵的均值池化处理以得到池化特征图；以及，对所述池化特征图进行非线性激活以得到激活特征图；其中，所述基于卷积神经网络模型的面部特征提取器的最后一层的输出为所述多个面部语义特征向量，所述基于卷积神经网络模型的面部特征提取器的第一层的输入为所述多个面部识别感兴趣图像。

与现有技术相比，本申请提供的基于智慧教育的教学管理系统及其方法，其获取由摄像头采集的被监控学生对象的学习行为视频；采用基于深度学习的人工智能技术，进行所述监控视频中关于学生的面部语义隐含特征分布信息的充分表达，以此准确地检测学生的学习状态，从而基于学生的学习状态来优化教学内容，以在实际教学中给出更具有针对性的教学辅助，提升教育教学管理效率和教育教学质量。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请实施例的基于智慧教育的教学管理系统的应用场景图。

图2为根据本申请实施例的基于智慧教育的教学管理系统的框图。

图3为根据本申请实施例的基于智慧教育的教学管理系统中所述学习行为语义理解模块的框图。

图4为根据本申请实施例的基于智慧教育的教学管理系统中所述上下文语义编码单元的框图。

图5为根据本申请实施例的基于智慧教育的教学管理系统中所述学习状态检测模块的框图。

图6为根据本申请实施例的基于智慧教育的教学管理方法的流程图。

图7为根据本申请实施例的基于智慧教育的教学管理方法的系统架构的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。

在本申请实施例记载中，需要说明的是，除非另有说明和限定，术语“连接”应做广义理解，例如，可以是电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。

如上所述，在传统的教学管理系统中，学生的学习状态主要通过老师观察和汇报来判断。这种方式往往对于学生的学习专注度不能够准确、客观地进行判断，并且不能够及时有效地来针对不同的学生进行相应地辅导教学。因此，期望一种优化的基于智慧教育的教学管理系统。

具体地，在本申请的技术方案中，期望通过摄像头来采集学生上课行为视频，并基于学生上课行为视频来判断学生是否专注，以进行辅助教学，例如，优化教学内容，针对学习状态不佳的学生进行针对性辅导。但是，考虑到由于所述学生上课的监控视频中存在有大量的信息量，而关于学生的学习状态特征信息的表现形式为学生的学习行为语义特征，主要为面部状态语义特征，其在所述监控视频中为小尺度的隐含特征信息。因此，在此过程中，难点在于如何进行所述监控视频中关于学生的面部语义隐含特征分布信息的充分表达，以此来准确地检测学生的学习状态，从而基于学生的学习状态来优化教学内容，以在实际教学中给出更具有针对性的教学辅助，提升教育教学管理效率和教育教学质量。

近年来，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展为挖掘所述监控视频中关于学生的面部语义隐含特征分布信息提供了新的解决思路和方案。

具体地，在本申请的技术方案中，首先，获取由摄像头采集的被监控学生对象的学习行为视频。接着，考虑到由于所述被监控学生对象的学习行为视频中关于学生的学习状态特征可以通过所述学习行为视频中相邻监控帧之间的差分来表示，也就是，通过相邻图像帧的图像表征来表示学生的学习状态变化情况。但是，考虑到所述学习行为视频中相邻帧的差异较小，存在大量数据冗余，因此，为了降低计算量，且避免数据冗余给检测带来的不良影响，以预定采样频率对所述学习行为视频进行关键帧采样，以从所述学习行为视频提取多个学习行为监控关键帧。这里，值得一提的是，所述采样频率可基于实际场景的应用需求做出调整，而不是默认值。

然后，考虑到面部表情是人类交流过程中很重要的一种非语言表达方式，可以辅助理解人们的情感、意图和反应等。在智慧教育的实践中，学生不专注或困惑时通常会呈现出不同的面部表情，这些表情可以提供分类学生学习状态的有用线索。因此，在对于所述学生的学习状态进行监测时，应聚焦于学生的面部的语义隐含特征，以此来判断学生的学习状态。基于此，在本申请的技术方案中，进一步将所述多个学习行为监控关键帧通过面部识别网络以得到多个面部识别感兴趣图像。也就是，使用所述面部识别网络的目标锚定层以锚框B来进行滑动对所述各个学习行为监控关键帧进行处理，以对于所述学生的面部感兴趣区域进行框定，从而将所述学生的面部表情从学习行为视频中提取出来，并将其转化为面部识别感兴趣图像，以得到所述多个面部识别感兴趣图像。特别地，这里，所述面部识别网络为基于锚窗的目标检测网络，且所述基于锚窗的目标检测网络为Fast R-CNN、FasterR-CNN或RetinaNet。

进一步地，使用在图像的隐含特征提取方面具有优异表现的卷积神经网络模型来进行所述各个面部识别感兴趣图像的特征提取。也就是，具体地，将所述多个面部识别感兴趣图像通过基于卷积神经网络模型的面部特征提取器中进行处理，以分别提取出所述各个面部识别感兴趣图像中关于学生的面部语义状态隐含特征分布信息，从而得到多个面部语义特征向量。

接着，考虑到由于所述学生的面部表情状态在时间维度上有着动态性的变化特性，也就是说，所述各个面部识别感兴趣图像中关于学生的面部语义状态隐含特征之间具有着关联关系。因此，为了能够对于学生对象的面部语义状态特征进行充分表达，以此来对于学生学习状态进行精准检测，在本申请的技术方案中，进一步将所述多个面部语义特征向量通过基于转换器的上下文编码器中进行编码，以提取出所述各个面部识别感兴趣图像中关于学生的面部语义状态特征的基于时序全局的上下文语义关联特征信息，从而得到学习行为语义理解特征向量。

然后，将所述学习行为语义理解特征向量通过多标签分类器以得到分类结果，所述分类结果用于表示学生学习状态标签，特别地，这里，所述分类标签包括专注、不专注、困惑和无聊。也就是说，以所述学生对象的面部语义状态时序关联特征来进行分类处理，以此来对于学生的面部语义状态进行识别检测，从而判断学生处于专注、不专注、困惑或无聊的学习状态中，以此来优化教学内容，以在实际教学中给出更具有针对性的教学辅助，提升教育教学管理效率和教育教学质量。

特别地，在本申请的技术方案中，这里，考虑到所述被监控学生对象的学习行为视频在图像采集过程中引入的源图像噪声，在通过面部识别网络得到多个面部识别感兴趣图像后，在所述各个面部识别感兴趣图像内均存在图像噪声，并在通过基于卷积神经网络模型的面部特征提取器的图像语义特征提取和基于转换器的上下文编码器的图像语义特征的上下文关联编码后，进一步在所述基于转换器的上下文编码器得到的多个上下文面部语义特征向量引入各自的特征分布的高斯分布误差不确定性，并且，进一步考虑到所述学习行为语义理解特征向量是通过将所述多个上下文面部语义特征向量直接级联得到的，因此这种高斯分布误差不确定性的直接叠加也会引起所述学习行为语义理解特征向量的分类回归误差，影响所述学习行为语义理解特征向量通过多标签分类器得到的分类结果的准确性。

基于此，在本申请的技术方案中，分别计算所述多个上下文面部语义特征向量中的每个上下文面部语义特征向量，例如记为V_i的高斯回归不确定性因数，表示为：

L是特征向量的长度，μ_i和σ_i ²分别是特征集合v_ij∈V_i的均值和方差，其中v_ij是特征向量V_i的第j个位置的特征值，且log为以2为底的对数。

这里，针对所述多个上下文面部语义特征向量中的每个上下文面部语义特征向量各自的集成特征集合由于其分布不确定性信息可能导致的所述学习行为语义理解特征向量的不可知回归，利用作为统计量化参数的均值和方差来进行特征集合的统计特性的标量度量，从而将特征误差表示的正态分布认知模式扩展到未知的分布回归模式，实现特征集合尺度上的基于自然分布转移的迁移学习，这样，通过以上述高斯回归不确定性因数分别对每个上下文面部语义特征向量加权后再级联得到所述学习行为语义理解特征向量，就可以实现所述每个上下文面部语义特征向量在组成所述学习行为语义理解特征向量时基于自校准的不确定性修正，从而修正所述学习行为语义理解特征向量存在的分类回归误差，提升其通过多标签分类器得到的分类结果的准确性。这样，能够准确地检测学生的学习状态，从而基于学生的学习状态来优化教学内容，以在实际教学中给出更具有针对性的教学辅助，提升教育教学管理效率和教育教学质量。

图1为根据本申请实施例的基于智慧教育的教学管理系统的应用场景图。如图1所示，在该应用场景中，首先，获取由摄像头采集的被监控学生对象(例如，如图1中所示意的M)的学习行为视频(例如，如图1中所示意的C)；然后，将获取的学习行为视频输入至部署有基于智慧教育的教学管理算法的服务器(例如，如图1中所示意的S)中，其中所述服务器能够基于智慧教育的教学管理算法对所述学习行为视频进行处理，以生成用于表示学生学习状态标签的分类结果。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

在本申请的一个实施例中，图2为根据本申请实施例的基于智慧教育的教学管理系统的框图。如图2所示，根据本申请实施例的基于智慧教育的教学管理系统100，包括：学习行为视频采集模块110，用于获取由摄像头采集的被监控学生对象的学习行为视频；监控关键帧提取模块120，用于从所述学习行为视频提取多个学习行为监控关键帧；面部识别模块130，用于将所述多个学习行为监控关键帧通过面部识别网络以得到多个面部识别感兴趣图像；面部特征提取模块140，用于将所述多个面部识别感兴趣图像通过基于卷积神经网络模型的面部特征提取器以得到多个面部语义特征向量；学习行为语义理解模块150，用于将所述多个面部语义特征向量通过基于转换器的上下文编码器以得到学习行为语义理解特征向量；以及，学习状态检测模块160，用于将所述学习行为语义理解特征向量通过多标签分类器以得到分类结果，所述分类结果用于表示学生学习状态标签。

具体地，在本申请实施例中，所述学习行为视频采集模块110，用于获取由摄像头采集的被监控学生对象的学习行为视频。如上所述，在传统的教学管理系统中，学生的学习状态主要通过老师观察和汇报来判断。这种方式往往对于学生的学习专注度不能够准确、客观地进行判断，并且不能够及时有效地来针对不同的学生进行相应地辅导教学。因此，期望一种优化的基于智慧教育的教学管理系统。

具体地，在本申请的技术方案中，首先，获取由摄像头采集的被监控学生对象的学习行为视频。

具体地，在本申请实施例中，所述监控关键帧提取模块120，用于从所述学习行为视频提取多个学习行为监控关键帧。接着，考虑到由于所述被监控学生对象的学习行为视频中关于学生的学习状态特征可以通过所述学习行为视频中相邻监控帧之间的差分来表示，也就是，通过相邻图像帧的图像表征来表示学生的学习状态变化情况。

但是，考虑到所述学习行为视频中相邻帧的差异较小，存在大量数据冗余，因此，为了降低计算量，且避免数据冗余给检测带来的不良影响，以预定采样频率对所述学习行为视频进行关键帧采样，以从所述学习行为视频提取多个学习行为监控关键帧。这里，值得一提的是，所述采样频率可基于实际场景的应用需求做出调整，而不是默认值。

具体地，在本申请实施例中，所述面部识别模块130，用于将所述多个学习行为监控关键帧通过面部识别网络以得到多个面部识别感兴趣图像。然后，考虑到面部表情是人类交流过程中很重要的一种非语言表达方式，可以辅助理解人们的情感、意图和反应等。在智慧教育的实践中，学生不专注或困惑时通常会呈现出不同的面部表情，这些表情可以提供分类学生学习状态的有用线索。

因此，在对于所述学生的学习状态进行监测时，应聚焦于学生的面部的语义隐含特征，以此来判断学生的学习状态。基于此，在本申请的技术方案中，进一步将所述多个学习行为监控关键帧通过面部识别网络以得到多个面部识别感兴趣图像。也就是，使用所述面部识别网络的目标锚定层以锚框B来进行滑动对所述各个学习行为监控关键帧进行处理，以对于所述学生的面部感兴趣区域进行框定，从而将所述学生的面部表情从学习行为视频中提取出来，并将其转化为面部识别感兴趣图像，以得到所述多个面部识别感兴趣图像。

特别地，这里，所述面部识别网络为基于锚窗的目标检测网络，且所述基于锚窗的目标检测网络为Fast R-CNN、Faster R-CNN或RetinaNet。

具体地，在本申请实施例中，所述面部特征提取模块140，用于将所述多个面部识别感兴趣图像通过基于卷积神经网络模型的面部特征提取器以得到多个面部语义特征向量。进一步地，使用在图像的隐含特征提取方面具有优异表现的卷积神经网络模型来进行所述各个面部识别感兴趣图像的特征提取。也就是，具体地，将所述多个面部识别感兴趣图像通过基于卷积神经网络模型的面部特征提取器中进行处理，以分别提取出所述各个面部识别感兴趣图像中关于学生的面部语义状态隐含特征分布信息，从而得到多个面部语义特征向量。

其中，所述面部特征提取模块140，用于：使用所述基于卷积神经网络模型的面部特征提取器的各层在层的正向传递中分别对输入数据进行：对所述输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行基于特征矩阵的均值池化处理以得到池化特征图；以及，对所述池化特征图进行非线性激活以得到激活特征图；其中，所述基于卷积神经网络模型的面部特征提取器的最后一层的输出为所述多个面部语义特征向量，所述基于卷积神经网络模型的面部特征提取器的第一层的输入为所述多个面部识别感兴趣图像。

卷积神经网络(Convolutional Neural Network，CNN)是一种人工神经网络，在图像识别等领域有着广泛的应用。卷积神经网络可以包括输入层、隐藏层和输出层，其中，隐藏层可以包括卷积层、池化(pooling)层、激活层和全连接层等，上一层根据输入的数据进行相应的运算，将运算结果输出给下一层，输入的初始数据经过多层的运算之后得到一个最终的结果。

卷积神经网络模型利用卷积核作为特征过滤因子在图像局部特征提取方面具有非常优异的性能表现，且相较于传统的基于统计或者基于特征工程的图像特征提取算法，所述卷积神经网络模型具有更强的特征提取泛化能力和拟合能力。

具体地，在本申请实施例中，所述学习行为语义理解模块150，用于将所述多个面部语义特征向量通过基于转换器的上下文编码器以得到学习行为语义理解特征向量。接着，考虑到由于所述学生的面部表情状态在时间维度上有着动态性的变化特性，也就是说，所述各个面部识别感兴趣图像中关于学生的面部语义状态隐含特征之间具有着关联关系。

因此，为了能够对于学生对象的面部语义状态特征进行充分表达，以此来对于学生学习状态进行精准检测，在本申请的技术方案中，进一步将所述多个面部语义特征向量通过基于转换器的上下文编码器中进行编码，以提取出所述各个面部识别感兴趣图像中关于学生的面部语义状态特征的基于时序全局的上下文语义关联特征信息，从而得到学习行为语义理解特征向量。

图3为根据本申请实施例的基于智慧教育的教学管理系统中所述学习行为语义理解模块的框图，如图3所示，所述学习行为语义理解模块150，包括：上下文语义编码单元151，用于将所述多个面部语义特征向量通过基于转换器的上下文编码器以得到多个上下文面部语义特征向量；优化因数计算单元152，用于分别计算所述各个上下文面部语义特征向量的高斯回归不确定性因数以得到多个高斯回归不确定性因数；加权优化单元153，用于以所述多个高斯回归不确定性因数作为加权系数对所述多个上下文面部语义特征向量进行加权优化以得到多个优化上下文面部语义特征向量；以及，优化特征关联单元154，用于将所述多个优化上下文面部语义特征向量进行级联以得到所述学习行为语义理解特征向量。

其中，图4为根据本申请实施例的基于智慧教育的教学管理系统中所述上下文语义编码单元的框图，如图4所示，所述上下文语义编码单元151，包括：向量构造子单元1511，用于将所述多个面部语义特征向量进行一维排列以得到面部全局特征向量；自注意子单元1512，用于计算所述面部全局特征向量与所述多个面部语义特征向量中各个面部语义特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵；标准化子单元1513，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；关注度计算子单元1514，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，注意力施加子单元1515，用于分别以所述多个概率值中各个概率值作为权重对所述多个面部语义特征向量中各个面部语义特征向量进行加权以得到所述多个上下文面部语义特征向量。

上下文编码器旨在挖掘得到词序列中上下文之间的隐藏模式，可选地，编码器包括：CNN(Convolutional Neural Network，卷积神经网络)、Recursive NN(RecursiveNeural Network，递归神经网络)、语言模型(Language Model)等。基于CNN的方法对于局部特征有比较好的提取效果，但其对于句子中的长程依赖(Long-termDependency)问题效果欠佳，因此基于Bi-LSTM(Long Short-Term Memory，长短期记忆网络)的编码器被广泛使用。Recursive NN把句子当作树状结构而非序列进行处理，从理论上而言具有更强的表示能力，但其存在样本标注难度大、深层易梯度消失、难以并行计算等弱点，因此在实际应用中使用较少。Transformer是应用广泛的网络结构了，同时具有CNN和RNN的特性，对于全局特征有较好的提取效果，同时相较于RNN(RecurrentNeural Network，循环神经网络)在并行计算上具有一定优势。

基于此，在本申请的技术方案中，分别计算所述多个上下文面部语义特征向量中的每个上下文面部语义特征向量，例如记为V_i的高斯回归不确定性因数，表示为：以如下优化公式分别计算所述各个上下文面部语义特征向量的高斯回归不确定性因数以得到所述多个高斯回归不确定性因数；其中，所述优化公式为：

具体地，在本申请实施例中，所述学习状态检测模块160，用于将所述学习行为语义理解特征向量通过多标签分类器以得到分类结果，所述分类结果用于表示学生学习状态标签。然后，将所述学习行为语义理解特征向量通过多标签分类器以得到分类结果，所述分类结果用于表示学生学习状态标签，特别地，这里，所述分类标签包括专注、不专注、困惑和无聊。也就是说，以所述学生对象的面部语义状态时序关联特征来进行分类处理，以此来对于学生的面部语义状态进行识别检测，从而判断学生处于专注、不专注、困惑或无聊的学习状态中，以此来优化教学内容，以在实际教学中给出更具有针对性的教学辅助，提升教育教学管理效率和教育教学质量。

图5为根据本申请实施例的基于智慧教育的教学管理系统中所述学习状态检测模块的框图，如图5所示，所述学习状态检测模块160，包括：全连接编码单元161，用于使用所述多标签分类器的多个全连接层对所述学习行为语义理解特征向量进行全连接编码以得到编码分类特征向量；以及，分类单元162，用于将所述编码分类特征向量通过所述多标签分类器的Softmax分类函数以得到所述分类结果。

综上，基于本申请实施例的基于智慧教育的教学管理系统100被阐明，其获取由摄像头采集的被监控学生对象的学习行为视频；采用基于深度学习的人工智能技术，进行所述监控视频中关于学生的面部语义隐含特征分布信息的充分表达，以此准确地检测学生的学习状态，从而基于学生的学习状态来优化教学内容，以在实际教学中给出更具有针对性的教学辅助，提升教育教学管理效率和教育教学质量。

如上所述，根据本申请实施例的基于智慧教育的教学管理系统100可以实现在各种终端设备中，例如用于基于智慧教育的教学管理的服务器等。在一个示例中，根据本申请实施例的基于智慧教育的教学管理系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于智慧教育的教学管理系统100可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于智慧教育的教学管理系统100同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于智慧教育的教学管理系统100与该终端设备也可以是分立的设备，并且该基于智慧教育的教学管理系统100可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

在本申请的一个实施例中，图6为根据本申请实施例的基于智慧教育的教学管理方法的流程图。如图6所示，根据本申请实施例的基于智慧教育的教学管理方法，其包括：210，获取由摄像头采集的被监控学生对象的学习行为视频；220，从所述学习行为视频提取多个学习行为监控关键帧；230，将所述多个学习行为监控关键帧通过面部识别网络以得到多个面部识别感兴趣图像；240，将所述多个面部识别感兴趣图像通过基于卷积神经网络模型的面部特征提取器以得到多个面部语义特征向量；250，将所述多个面部语义特征向量通过基于转换器的上下文编码器以得到学习行为语义理解特征向量；以及，260，将所述学习行为语义理解特征向量通过多标签分类器以得到分类结果，所述分类结果用于表示学生学习状态标签。

图7为根据本申请实施例的基于智慧教育的教学管理方法的系统架构的示意图。如图7所示，在所述基于智慧教育的教学管理方法的系统架构中，首先，获取由摄像头采集的被监控学生对象的学习行为视频；然后，从所述学习行为视频提取多个学习行为监控关键帧；接着，将所述多个学习行为监控关键帧通过面部识别网络以得到多个面部识别感兴趣图像；然后，将所述多个面部识别感兴趣图像通过基于卷积神经网络模型的面部特征提取器以得到多个面部语义特征向量；接着，将所述多个面部语义特征向量通过基于转换器的上下文编码器以得到学习行为语义理解特征向量；以及，最后，将所述学习行为语义理解特征向量通过多标签分类器以得到分类结果，所述分类结果用于表示学生学习状态标签。

在一个具体示例中，在上述基于智慧教育的教学管理方法中，所述面部识别网络为基于锚窗的目标检测网络，所述基于锚窗的目标检测网络为Fast R-CNN、Faster R-CNN或RetinaNet。

在一个具体示例中，在上述基于智慧教育的教学管理方法中，将所述多个面部识别感兴趣图像通过基于卷积神经网络模型的面部特征提取器以得到多个面部语义特征向量，用于：使用所述基于卷积神经网络模型的面部特征提取器的各层在层的正向传递中分别对输入数据进行：对所述输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行基于特征矩阵的均值池化处理以得到池化特征图；以及，对所述池化特征图进行非线性激活以得到激活特征图；其中，所述基于卷积神经网络模型的面部特征提取器的最后一层的输出为所述多个面部语义特征向量，所述基于卷积神经网络模型的面部特征提取器的第一层的输入为所述多个面部识别感兴趣图像。

在一个具体示例中，在上述基于智慧教育的教学管理方法中，将所述多个面部语义特征向量通过基于转换器的上下文编码器以得到学习行为语义理解特征向量，包括：将所述多个面部语义特征向量通过基于转换器的上下文编码器以得到多个上下文面部语义特征向量；分别计算所述各个上下文面部语义特征向量的高斯回归不确定性因数以得到多个高斯回归不确定性因数；以所述多个高斯回归不确定性因数作为加权系数对所述多个上下文面部语义特征向量进行加权优化以得到多个优化上下文面部语义特征向量；以及，将所述多个优化上下文面部语义特征向量进行级联以得到所述学习行为语义理解特征向量。

在一个具体示例中，在上述基于智慧教育的教学管理方法中，将所述多个面部语义特征向量通过基于转换器的上下文编码器以得到多个上下文面部语义特征向量，包括：将所述多个面部语义特征向量进行一维排列以得到面部全局特征向量；计算所述面部全局特征向量与所述多个面部语义特征向量中各个面部语义特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵；分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，分别以所述多个概率值中各个概率值作为权重对所述多个面部语义特征向量中各个面部语义特征向量进行加权以得到所述多个上下文面部语义特征向量。

在一个具体示例中，在上述基于智慧教育的教学管理方法中，分别计算所述各个上下文面部语义特征向量的高斯回归不确定性因数以得到多个高斯回归不确定性因数，用于：以如下优化公式分别计算所述各个上下文面部语义特征向量的高斯回归不确定性因数以得到所述多个高斯回归不确定性因数；其中，所述优化公式为：

在一个具体示例中，在上述基于智慧教育的教学管理方法中，将所述学习行为语义理解特征向量通过多标签分类器以得到分类结果，所述分类结果用于表示学生学习状态标签，包括：使用所述多标签分类器的多个全连接层对所述学习行为语义理解特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量通过所述多标签分类器的Softmax分类函数以得到所述分类结果。

本领域技术人员可以理解，上述基于智慧教育的教学管理方法中的各个步骤的具体操作已经在上面参考图1到图5的基于智慧教育的教学管理系统的描述中得到了详细介绍，并因此，将省略其重复描述。

本申请还提供了一种计算机程序产品，所述计算机程序产品包括指令，当所述指令被执行时，以使得装置执行对应于上述方法中的操作。

在本申请的一个实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述所述方法的计算机程序。

应可以理解，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例的方法、系统、和计算机程序产品的流程图和/或框图来描述的。应理解可由计算机程序指令实现流程图和/或框图中的每一流程和/或方框、以及流程图和/或框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或框图一个方框或多个方框中指定的功能的步骤。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于智慧教育的教学管理系统，其特征在于，包括：

2.根据权利要求1所述的基于智慧教育的教学管理系统，其特征在于，所述面部识别网络为基于锚窗的目标检测网络，所述基于锚窗的目标检测网络为Fast R-CNN、Faster R-CNN或RetinaNet。

3.根据权利要求2所述的基于智慧教育的教学管理系统，其特征在于，所述面部特征提取模块，用于：使用所述基于卷积神经网络模型的面部特征提取器的各层在层的正向传递中分别对输入数据进行：

对所述输入数据进行卷积处理以得到卷积特征图；

对所述卷积特征图进行基于特征矩阵的均值池化处理以得到池化特征图；以及

对所述池化特征图进行非线性激活以得到激活特征图；

其中，所述基于卷积神经网络模型的面部特征提取器的最后一层的输出为所述多个面部语义特征向量，所述基于卷积神经网络模型的面部特征提取器的第一层的输入为所述多个面部识别感兴趣图像。

4.根据权利要求3所述的基于智慧教育的教学管理系统，其特征在于，所述学习行为语义理解模块，包括：

上下文语义编码单元，用于将所述多个面部语义特征向量通过基于转换器的上下文编码器以得到多个上下文面部语义特征向量；

优化因数计算单元，用于分别计算所述各个上下文面部语义特征向量的高斯回归不确定性因数以得到多个高斯回归不确定性因数；

加权优化单元，用于以所述多个高斯回归不确定性因数作为加权系数对所述多个上下文面部语义特征向量进行加权优化以得到多个优化上下文面部语义特征向量；以及

优化特征关联单元，用于将所述多个优化上下文面部语义特征向量进行级联以得到所述学习行为语义理解特征向量。

5.根据权利要求4所述的基于智慧教育的教学管理系统，其特征在于，所述上下文语义编码单元，包括：

向量构造子单元，用于将所述多个面部语义特征向量进行一维排列以得到面部全局特征向量；

自注意子单元，用于计算所述面部全局特征向量与所述多个面部语义特征向量中各个面部语义特征向量的转置向量之间的乘积以得到多个自注意力关联矩阵；

标准化子单元，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；

关注度计算子单元，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及

注意力施加子单元，用于分别以所述多个概率值中各个概率值作为权重对所述多个面部语义特征向量中各个面部语义特征向量进行加权以得到所述多个上下文面部语义特征向量。

6.根据权利要求5所述的基于智慧教育的教学管理系统，其特征在于，所述优化因数计算单元，用于：以如下优化公式分别计算所述各个上下文面部语义特征向量的高斯回归不确定性因数以得到所述多个高斯回归不确定性因数；

其中，所述优化公式为：

7.根据权利要求6所述的基于智慧教育的教学管理系统，其特征在于，所述学习状态检测模块，包括：

全连接编码单元，用于使用所述多标签分类器的多个全连接层对所述学习行为语义理解特征向量进行全连接编码以得到编码分类特征向量；以及

分类单元，用于将所述编码分类特征向量通过所述多标签分类器的Softmax分类函数以得到所述分类结果。

8.一种基于智慧教育的教学管理方法，其特征在于，包括：

获取由摄像头采集的被监控学生对象的学习行为视频；

从所述学习行为视频提取多个学习行为监控关键帧；

9.根据权利要求8所述的基于智慧教育的教学管理方法，其特征在于，所述面部识别网络为基于锚窗的目标检测网络，所述基于锚窗的目标检测网络为Fast R-CNN、Faster R-CNN或RetinaNet。

10.根据权利要求9所述的基于智慧教育的教学管理方法，其特征在于，将所述多个面部识别感兴趣图像通过基于卷积神经网络模型的面部特征提取器以得到多个面部语义特征向量，用于：使用所述基于卷积神经网络模型的面部特征提取器的各层在层的正向传递中分别对输入数据进行：

对所述输入数据进行卷积处理以得到卷积特征图；

对所述池化特征图进行非线性激活以得到激活特征图；