CN111652045B

CN111652045B - 课堂教学质量评估方法和系统

Info

Publication number: CN111652045B
Application number: CN202010305347.2A
Authority: CN
Inventors: 高昂; 艾鑫; 陈昱成; 段渭军; 常宝成
Original assignee: Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Current assignee: Taicang Yangtze River Delta Research Institute of Northwestern Polytechnical University
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2022-10-28
Anticipated expiration: 2040-04-17
Also published as: CN111652045A

Abstract

本申请实施例提供一种课堂教学质量评估方法和系统，其中该方法包括：获取第一图像数据，所述第一图像数据包括课堂上至少一个学生；获取第二图像数据，所述第二图像数据包括课堂上的教师；根据所述第一图像数据检测所述至少一个学生的面部信息；根据所述第二图像数据检测所述教师的位置信息；根据检测到的所述至少一个学生的面部信息与所述教师的位置信息确定所述至少一个学生的听讲状态；以及根据所述至少一个学生的听讲状态评估课堂教学质量。该课堂教学质量评估方法和系统，通过根据学生的面部信息与教师的位置信息确定学生的听讲状态，进而根据学生的听讲状态进行课堂教学质量评估，有助于提高课堂教学质量评估的效率和准确性。

Description

课堂教学质量评估方法和系统

技术领域

本申请实施例涉及智慧教育技术领域，尤其涉及一种课堂教学质量评估方法与系统。

背景技术

智慧教室是智慧教育的重要组成部分，它是数字教室和未来教室的一种形式，是一种新型的教育形式和现代化教学手段。智慧教室是在教学软硬件设施集成应用的基础上，对课堂教学手段的改进，以此实现教学模式的创新，提升教学效率。

现阶段，高校对课堂教学质量的评估，还停留在教务处巡视听课，或者教室录制整段视频再进行分析的手段上，通常需要耗费大量的人力物力，存在评估效率低下的问题。

发明内容

本申请实施例提供一种课堂教学质量评估方法与系统，用于解决现有技术中教学质量评估效率低下的问题。

一方面，本申请实施例提供一种课堂教学质量评估方法，包括：

获取第一图像数据，所述第一图像数据包括课堂上至少一个学生；

获取第二图像数据，所述第二图像数据包括课堂上的教师；

根据所述第一图像数据检测所述至少一个学生的面部信息；

根据所述第二图像数据检测所述教师的位置信息；

根据检测到的所述至少一个学生的面部信息与所述教师的位置信息确定所述至少一个学生的听讲状态；以及

根据所述至少一个学生的听讲状态评估课堂教学质量。

根据第一方面，在第一方面的第一种可能的实现方式中，所述面部信息包括面部朝向；

所述根据所述第一图像数据检测所述至少一个学生的面部信息，包括：

根据所述第一图像数据检测所述至少一个学生的所述面部特征点；

根据所述至少一个学生的所述面部特征点确定所述至少一个学生的面部朝向；以及

所述根据检测到的所述至少一个学生的面部信息与所述教师的位置信息确定所述至少一个学生的听讲状态，包括：

根据检测到的所述至少一个学生的面部朝向与所述教师的位置信息确定所述至少一个学生的听讲状态。

根据第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述面部信息包括视线方向，

根据所述至少一个学生的所述面部特征点确定所述至少一个学生的眼部特征点；以及

根据所述至少一个学生的眼部特征点确定所述至少一个学生的视线方向；

根据检测到的所述至少一个学生的视线方向与所述教师的位置信息确定所述至少一个学生的听讲状态。

根据第一方面的第一种可能的实现方式，在第一方面的第三种可能的实现方式中，所述方法，还包括：

采集教室环境图像数据；

根据所述教室环境图像数据对目标检测网络进行训练；以及

采用训练好的所述目标检测网络根据所述第一图像数据检测所述至少一个学生的面部信息。

根据第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述根据所述教室环境图像数据对目标检测网络进行训练之前，还包括：

采用迁移学习的方法对所述目标检测网络的网络参数进行初始化。

根据第一方面的第三种可能的实现方式，在第一方面的第五种可能的实现方式中，还包括：

根据所述环境图像数据确定教室里每个座位的座位目标框；以及

根据检测到的所述至少一个学生的面部信息以及所述每个座位的座位目标框确定所述至少一个学生的位置信息；

根据检测到的所述至少一个学生的面部信息、所述至少一个学生的位置信息、以及所述教师的位置信息确定所述至少一个学生的听讲状态。

根据第一方面的第三种可能的实现方式，在第一方面的第六种可能的实现方式中，所述采集教室环境图像数据，包括下述至少一种：

采集所述教室在不同光照条件下的环境图像数据；

采集所述教室在不同分辨率下的环境图像数据；以及

采集所述教室在不同人员密集情况下的环境图像数据。

根据第一方面的第一种可能的实现方式，在第一方面的第七种可能的实现方式中，

所述第一图像数据与所述第二图像数据采集的时间相同。

另一方面，本申请实施例提供一种课堂教学质量评估系统，包括：

第一摄像头，所述第一摄像头用于采集第一图像数据，所述第一图像数据包括课堂上的至少一个学生；

第二摄像头，所述第二摄像头用于采集第二图像数据，所述第二图像数据包括课堂上的教师；

存储器，用于存储所述第一图像数据、所述第二图像数据、以及程序指令；以及

处理器，用于获取所述第一图像数据与所述第二图像数据，以及调用所述程序指令，执行如第一方面以及第一方面的第一至第七种可能的实现方式中的任一项所述的课堂教学质量评估方法。

根据第二方面，在第二方面的第一种可能的实现方式中，所述第一摄像头和所述第二摄像头等高设置。

本申请实施例所提供的课堂教学质量评估方法和系统，通过根据学生的面部信息与教师的位置信息确定学生的听讲状态，进而根据学生的听讲状态进行课堂教学质量评估，解决了现有技术中人工评估课堂教学质量效率低的问题，有助于提高课堂教学质量评估的效率，同时通过根据学生面部信息与教师位置信息两者确定学生的听见状态，避免了因学生面部朝向与教师实际位置不相符，而导致的课堂教学质量评估准确性不高的问题，有助于提高课堂教学质量评估的准确性。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本申请实施例提供的课堂教学质量评估方法的流程示意图；

图2为根据本申请实施例提供的学生听见状态的示意图；

图3A-图3C为根据本申请实施例的多任务级联卷积神经网络的结构示意图；

图4A-图4D为根据本申请实施例确定的面部特征点的示意图；

图4E为根据本申请实施例用于确定面部朝向的n点透视(PnP)问题示意图；

图5为本申请另一实施例提供的课堂教学质量评估方法的流程示意图；

图6为本申请实施例提供的课堂教学质量评估系统的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中，“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B 可以是单数或者复数。

智慧教室是在教学软硬件设施集成应用的基础上，对课堂教学手段的改进，以此实现教学模式的创新，提升教学效率。但在教学过程中的缺乏对教师和学生的实时行为感知、采集、分析和处理，仅依靠问卷等手段人工进行事后定性分析，不容易形成教学的关键评估数据，也难以基于大数据对教学质量进行客观准确的评估。

本申请提出了依托视频采集、面部识别分析等技术，对课堂上的教师和学生行为进行实时采集，并根据教师和学生的行为分析学生的听讲状态，以获取学生的注意力是否实时追随教师等课堂信息，从而根据学生的听讲状态对课堂教学质量进行准确评估。

图1为本申请实施例提供的课堂教学质量评估方法的流程示意图，如图1所示，该课堂教学质量评估方法，可以包括如下步骤101至106。

步骤101，获取第一图像数据，所述第一图像数据包括课堂上至少一个学生。

可以通过在教室的讲台上方安装面向学生的第一摄像头，以获取第一图像数据,其中所述第一图像数据可以是图片数据，也可以是视频数据。

步骤102，获取第二图像数据，所述第二图像数据包括课堂上的教师。

可以通过在教室后方安装面向教师的第二摄像头，以获取第二图像数据,其中所述第二图像数据可以是图片数据，也可以是视频数据。其中上述第一图像数据和第二图像数据的采集时间是相同的。在一些实施例中，第二摄像头可以与第一摄像头等高设置。

步骤103，根据所述第一图像数据检测所述至少一个学生的面部信息。

在一些实施例中，可以采用跨平台计算机视觉库，例如OpenCV、dlib_hog、dlib_cnn 以及多任务级联卷积神经网络方法(Multi-taskCascaded Convolutional Networks，MTCNN)等图像处理方法来检测学生的面部信息。

步骤104，根据所述第二图像数据检测所述教师的位置信息。

步骤105，根据检测到的所述至少一个学生的面部信息与所述教师的位置信息确定所述至少一个学生的听讲状态。

在一些实施例中，所述面部信息可以包括面部朝向。步骤103可以包括：根据所述第一图像数据检测所述至少一个学生的所述面部特征点；以及根据所述至少一个学生的所述面部特征点确定所述至少一个学生的面部朝向。步骤105可以包括：根据检测到的所述至少一个学生的面部朝向与所述教师的位置信息确定所述至少一个学生的听讲状态。

在一些实施例中，所述面部信息可以包括视线方向。步骤103可以包括：根据所述第一图像数据检测所述至少一个学生的所述面部特征点；根据所述至少一个学生的所述面部特征点确定所述至少一个学生的眼部特征点；以及根据所述至少一个学生的眼部特征点确定所述至少一个学生的视线方向。步骤105可以包括：根据检测到的所述至少一个学生的视线方向与所述教师的位置信息确定所述至少一个学生的听讲状态。

根据学生的面部朝向或者视线朝向与同时间采集的教师的位置信息进行匹配，可以确定学生的面部朝向或视线朝向是否追随教师当前的位置，以确定学生的注意力是否在教师身上，从而确定学生的听讲状态是否是认真听讲。

步骤106，根据所述至少一个学生的听讲状态评估课堂教学质量。

根据课堂上不同时刻每个学生的听讲状态，可以统计出该课堂上学生的总体听讲状态，从而可以评估该课堂的教学质量。

图2为本申请实施例的应用场景的平面示意图，如图2所示，该应用场景为课堂场景，其中包括第一摄像头201、讲台202、教师T0、教师的位置(A、B)、至少一个学生S11、S12、…S44，至少一个学生座位203、以及第二摄像头204，其中第一摄像头201安装在讲台202上方，面向至少一个学生S11、S12、…S44用于采集包括至少一个学生S11、S12、…S44的第一图像数据，第二摄像头204安装在教室后方，面向教师T0，用于采集包括教师 T0的第二图像数据。

对于不同的学生数量、不同的座位数量、不同的学生占座比、以及不同的教师位置，其实现方式是类似的，具体不再赘述。

第一摄像头和第二摄像头可以分别是第一摄像机和第二摄像机，第一摄像机可以安装在教室前方黑板上端，面向学生，用来采集学生上课时的第一图像数据；第二摄像机可以安装在教室后侧墙壁，与第一摄像机等高安装，面向老师，用来采集老师上课时的第二图像数据。

在一些实施例中，所述面部信息包括面部朝向，相应的，步骤103包括：根据所述第一图像数据检测所述至少一个学生S11、S12、…S44的面部特征点，以及根据述至少一个学生S11、S12、…S44的面部特征点确定所述至少一个学生S11、S12、…S44的面部朝向；以及步骤105包括：根据检测到的所述至少一个学生S11、S12、…S44的面部朝向与所述教师T0的位置信息确定所述至少一个学生S11、S12、…S44的听讲状态。

在一些实施例中，所述面部信息包括视线方向，相应的，步骤103包括：根据所述第一图像数据检测所述至少一个学生S11、S12、…S44的所述面部特征点；根据所述至少一个学生S11、S12、…S44的所述面部特征点确定所述至少一个学生S11、S12、…S44的眼部特征点；以及根据所述至少一个学生S11、S12、…S44的眼部特征点确定所述至少一个学生S11、S12、…S44的视线方向。步骤105包括：根据检测到的所述至少一个学生S11、 S12、…S44的视线方向与所述教师T0的位置信息确定所述至少一个学生S11、S12、…S44 的听讲状态。

在一些实施例中，第一摄像机、第二摄像机可以是，但不限于，网络摄像头，可以通过网络连接至目标检测网络，并将采集到的第一图像数据、第二图像数据通过网络发送至目标检测网络。在一个实施例中，第一摄像机和第二摄像机，还可以将采集的图像数据存储至本地或者远程存储器，以使得目标检测网络通过网络传输或者直接读取的方式从存储器中获取第一图像数据和第二图像数据。目标检测网络获取第一图像数据和第二图像数据后，进行机器学习，并利用学习到的数据对第一摄像头、第二摄像头实时捕获的第一图像数据和第二图像数据进行面部检测。在一些实施例中，可以根据第二图像数据确定老师的位置信息，以及可以根据第一图像数据确定至少一个学生S11、S12、…S44的面部信息。进而可以根据老师的位置信息和至少一个学生S11、S12、…S44的面部信息，获取该至少一个学生S11、S12、…S44的关注区域，例如获取至少一个学生S11、S12、…S44的抬头率、关注点一致性、以及与老师活动的一致性等关键课堂效果评估指标，进而确定所述至少一个学生S11、S12、…S44的听讲状态。

在一些实施例中，该方法实施例，还可以包括：根据环境图像数据确定教室里每个座位的座位目标框；以及根据检测到的所述至少一个学生的面部信息以及所述每个座位的座位目标框确定所述至少一个学生的位置信息。

相应地，步骤105，包括：根据检测到的所述至少一个学生的面部信息、所述至少一个学生的位置信息、以及所述教师的位置信息确定所述至少一个学生的听讲状态。

根据至少一个学生的位置信息和教师的位置信息，可以确定至少一个学生到教师的方向，如图2所示虚箭头方向所示，当学生的面部信息包括的面部朝向和视线方向与确定的至少一个学生到教师的方向一致时，可以确定学生的听讲状态是认真听讲的，否则是不认真听讲的。

下面对具体的实现过程进行说明。

当第一摄像机和第二摄像机采集第一图像数据和第二图像数据后，目标检测网络可以获取第一图像数据和第二图像数据，以根据第二图像数据和第一图像数据分别对教师T0 和至少一个学生S11、S12、…S44进行面部检测，进而根据第二图像数据获取教师T0的位置信息，以及根据第一图像数据获取至少一个学生S11、S12、…S44的面部信息。

在一些实施例中，为了根据第一图像数据获取至少一个学生S11、S12、…S44的面部信息，需要进行面部检测找到学生个数，所在位置等信息，以获取每个学生的所在的位置及面部信息。

在一个实施例中，可以确定教室里每个座位的座位目标框，然后根据确定的座位目标框，确定每个学生对应的座位目标框，从而确定每个学生的位置信息。

在一些实施例中，所述至少一个学生S11、S12、…S44的面部信息，包括面部特征点。目标检测网络可以采用多任务级联卷积神经网络方法(Multi-taskCascadedConvolutional Networks，MTCNN)，通过深度级联的多任务学习框架来对每个学生进行面部检测、确定每个学生的面部特征点，进而可以根据检测到的每个学生的面部特征点确定每个学生的面部朝向，并根据每个学生的面部朝向与所述教师T0的位置信息确定每个学生的注意力是否朝向教师T0的位置，以确定每个学生的听讲状态，并且根据每个学生的听讲状态，确定所述至少一个学生S11、S12、…S44的整体的听讲状态。

参考图3A至3C，该多任务级联卷积神经网络方法可以包括三层网络：第一层P-Net网络，结构如图3A所示；第二层R-Net网络，其结构如图3B所示；以及第三层O-Net网络，其结构如图3C所示。

P-Net网络是全卷积神经网络，其三通道图像输入有三个卷积层。通过该层可以得到面部区域候选窗口及窗口边框回归向量之后，利用回归向量校准候选窗口。该候选窗口经过分类器分类后得到，每个候选窗口都有一个评估值，评估值越高，对应的候选窗口为面部的概率越大。在一些实施例中，可以采用非极大值抑制(NMS)算法选取交叉重叠窗口里评估值高的分数，将多余候选窗口去除以将高度重合的候选窗口合并，从而找出面部的最佳位置，这样保留下来的可能是面部的最优候选窗口。

R-Net网络，是三通道图像输入并且有三个卷积层的卷积神经网络，之后再加入一个全连接层，全连接层与第三个卷积层的神经元相连接形成一个128维向量。与第一层类似， R-Net网络利用回归向量与NMS算法继续筛选面部候选窗口，而全连接层的加入，可以达到使抑制效果提升、候选窗口总数变少、大概率是面部区域的窗口增多的效果。

O-Net网络，是三通道图像输入有四个卷积层的卷积神经网络。与R-Net网络相比，O-Net网络中多加入一个卷基层，最终能够筛选出精确的面部区域窗口并输出面部特征点。虽然与R-net网络处理方法相同，但O-Net网络处理的结果更加精确。

类似地，目标检测网络也可以采用MTCNN对第二图像数据进行面部检测，确定教师的面部区域候选窗口，进而确定教师的位置信息。

进一步地，在一些实施例中，对于面部特征点的确定，目标检测网络还可以进一步采用卷积专家约束局部模型(Convolutional Experts Constrained Local Model，CE-CLM)。可以采用MTCNN面部检测来初始化CE-CLM，即利用简单的线性映射，从通过MTCNN检测出的面部边界框中找到所述至少一个学生S11、S12、…S44的每个学生的包含所有面部特征点(例如68个面部特征点，如图4D所示)的边界框，再利用CE-CLM来确定每个学生的面部特征点。如图4A至图4C所示，以某个学生为例，可以确定其正常坐姿、低头、侧脸的面部特征点。在一些实施例中，还可以确定其戴眼镜、手遮挡或衣物遮挡时的面部特征点，但不限于此。该面部特征点，可以是面部轮廓、眉毛、眼部(包括眼周和眼球)、鼻子、嘴部等多处关键点的位置。

在一些实施例中，所述至少一个学生S11、S12、…S44的面部信息，包括面部朝向，也称头部姿态。例如，目标检测网络可以采用基于n点透视(Perspective-n-Point，PnP) 问题求解的头部姿态估计方法，来找到二维(2D)图像和三维(3D)物体间的映射关系，以此来确定2D图像中的每个学生的头部姿态。

以相机视角来测量真实世界中被投影到图像平面上的已知点r_i可以用球面相机模型来描述，如下式(1)所示：

其中Z_i是像素坐标系中测量点的方向向量，

表示从相机坐标系{C}到点i的单位向量中受到噪声η_i的干扰。相机坐标系中的点是世界坐标系{W}的函数，即是由旋转矩阵R和和平移向量t所组成的从世界坐标系到相机坐标系的未知变换。

如图4D所示，以PnP问题的最少点情况，即3个非共线点的测量来描述2D图像中的头部姿态如何确定。PnP问题可表示为以下约束非线性最小二乘极小化问题：

服从于

R^TR＝I₃,det(R)＝1 (3)

α_i＝||R^wr_i+t||

其中代价函数J为均方误差和即：

则PnP问题的求解变成了数学中参数求解问题，通过修正方程、成本函数减少参数个数以及对多项式直接求最小值的方法获得用于头部姿态估计的旋转矩阵R和平移向量t。

通过PnP方法，可以输出至少一个学生中的每一个学生的头部姿态角以及相对第一摄像机或第二摄像机的平移量，以获取每个学生的头部姿态。

在一些实施例中，可以使用第一摄像机或第二摄像机实时获取图片帧，确定至少一个学生S11、S12、…S44的正常坐姿、低头、仰头及头部转向侧面等头部姿态。

通过PnP算法确定至少一个学生S11、S12、…S44的面部朝向，可以在多人环境下，取得较好的检测精度。

在一些实施例中，还可以借助计算机视觉库(例如OpenCV库)实施相关算法，对视频帧进行处理，实现算法效果及相关数据的可视化显示。该相关数据，可以是学生的总人数，抬头的人数，低头的人数等，还可以是至少一个学生S11、S12、…S44的头部姿态角、至少一个学生S11、S12、…S44相对于第一摄像机的位置等。

类似地，在一些实施例中，还可以确定至少一个学生S11、S12、…S44的面部特征点后，根据面部特征点确定眼部特征点，并根据根据至少一个学生S11、S12、…S44的眼部特征点确定至少一个学生S11、S12、…S44的视线方向，以根据至少一个学生S11、S12、… S44的视线方向估计每个学生的听见状态。

在一些实施例中，还可以根据每个学生各时段的听见状态，例如注意力分布，抬头率等，估计至少一个学生S11、S12、…S44的总体的出席率、注意力一致性等听讲状态。

在一些实施例中，还可以根据至少一个学生S11、S12、…S44的视线方向和/或面部朝向，至少一个学生S11、S12、…S44的位置信息与教师T0的位置信息进行空间匹配计算，以确定至少一个学生S11、S12、…S44的视线方向和/或面部朝向是否与教师T0所在的位置一致，即，学生的注意力是否跟随教师T0，从而确定至少一个学生S11、S12、… S44的听讲状态，以对课堂效果进行更准确的评估。

相关技术中，通常采用分类网络对数据分类的方式分辨学生上课的状态，如将学生的学习状态人为分类为认真听讲、东张西望、看书、睡觉等等，每一类都准备大量的图片，使用这些图片对网络进行训练，之后再将采集到的新的学生图片送入网络，网络直接给出分类结果，实现对学生上课情况的判断。由于分类出的认真听讲，实际上，学生的视线不一定在追随老师，例如，教师T0在位置A或B处，而非讲台中间，正常坐姿的学生不一定是在认真听见，而侧头的学生，视线方向或者面部朝向跟随教师的位置A或B的，认真听见的学生，有可能被判断为不是认真听讲的，因此采用相关技术中的方法，对课堂效果的评估准确性不够。

本申请实施例，通过根据检测到的所述至少一个学生S11、S12、…S44的面部信息，例如面部特征点，面部朝向，和教师的位置信息进行空间匹配计算，从而确定学生的视线方向和/或面部朝向是否跟随教师，由此可以准确地确定学生上课的听讲状态，进而可以准确地根据学生的听讲状态进行课堂教学质量评估。

图5为本申请另一实施例提供的课堂教学质量评估方法的流程示意图,如图5所示，该方法包括步骤501至步骤508。

步骤501，采集教室环境图像数据。

在一些实施例中，所述步骤501，包括下述至少一种：采集所述教室在不同光照条件下的环境图像数据；采集所述教室在不同分辨率下的环境图像数据；以及采集所述教室在不同人员密集情况下的环境图像数据。

步骤502，根据所述教室环境图像数据对目标检测网络进行训练。

在一些实施例中，可以根据采集到的教室场景下不同光照条件、不同分辨率、不同人员密集情况的视频图像数据，将连续的视频图像数据采样出单帧图像，手动标注人体目标检测数据集，利用该数据集对目标检测网络进行训练，以提升网络对教室场景下的适应性。

在一些实施例中，该方法实施例，在步骤502之前，还可以包括：采用迁移学习的方法对所述目标检测网络的网络参数进行初始化。通过采用迁移学习的方法初始化网络参数，可以提升目标检测网络的训练速度。

在一些实施例中，该目标检测网络，可以是

步骤503，获取第一图像数据，所述第一图像数据包括课堂上至少一个学生。

步骤504，获取第二图像数据，所述第二图像数据包括课堂上的教师。

步骤505，采用训练好的所述目标检测网络根据第一图像数据检测所述至少一个学生的面部信息。

在一些实施例中，可以采用训练好的所述目标检测网络确定每个学生的学生目标框；以及根据所述每个学生的学生目标框与所述每个学生对应的座位目标框检测所述每个学生的面部信息。

由于教室内学生的座位相对固定，课程进行中学生极少会离开自己的位置，绝大多数时间都只会在自己的座位范围内活动，因此可以利用对具体应用场地的先验知识，确定教室里每个座位的座位目标框。并且，可以人为在采集到的图像数据上对每个学生对应的座位进行框选标记，确定每个学生对应的座位目标框。目标检测网络还可以根据第一图像数据确定至少一个学生中的每一个对应的学生目标框，将目标检测网络确定的学生目标框与该学生对应的座位目标框进行对应计算，确定学生的面部信息。一方面，将检测到的学生目标进行座位编号，并将该座位标记“有人”；另一方面，如果出现座位目标框没有与之相对应的学生目标框，则将该座位目标框内的图像单独送入目标检测网络进行再判断，避免目标检测网络出现漏检的情况。如果再次判断该座位框内确实没有人，则将该座位标注为“无人”。通过对座位进行“有人”和“无人”标记，可确定到课的学生人数，并且根据到课的学生人数和应该到课的学生总人数，可以确定课堂到课率，并可以将课堂到课率作为教学质量评估的考量因素之一。

步骤506，根据所述第二图像数据检测所述教师的位置信息。

该步骤可以参考前述方法实施例相应的步骤104，具体不再赘述。

步骤507，根据检测到的所述至少一个学生的面部信息与所述教师的位置信息确定所述至少一个学生的听讲状态。

在一些实施例中，该方法实施例,还可以包括：确定教室里每个座位的座位目标框；以及根据检测到的所述至少一个学生的面部信息以及所述每个座位的座位目标框确定所述至少一个学生的位置信息。相应的，步骤507可以包括：根据检测到的所述至少一个学生的面部信息、所述至少一个学生的位置信息、以及所述教师的位置信息确定所述至少一个学生的听讲状态。

根据至少一个学生的位置信息和教师的位置信息，可以确定学生与教师的朝向，判断根据学生的面部信息包括面部朝或视线方向，是否与该朝向一致，即可确定学生的注意力是否跟随教师，若方向一致，则确定学生的注意力跟随教师，同时可以确定学生的听讲状态为认真听讲。

该步骤可以参考前述方法实施例相应的步骤105，具体不再赘述。

步骤508，根据所述至少一个学生的听讲状态评估课堂教学质量。

该步骤可以参考前述方法实施例相应的步骤106，具体不再赘述。

本申请实施例，通过采集教室环境图像数据，对目标检测网络进行训练，并采用训练后的目标检测网络对学生的面部信息进行确定，可以进一步提高检测效率和准确率。

图6为本申请实施例提供的课堂教学质量评估系统的结构示意图，如图6所示，该课堂教学质量评估系统600，可以包括：第一摄像头601，第二摄像头602，存储器603，以及处理器604.

处理器，用于获取所述第一图像数据、所述第二图像数据，以及调用所述程序指令，执行前述方法实施例所述的课堂教学质量评估方法。

其中，所述第一摄像头和所述第二摄像头等高设置。

在一些实施例中，所述存储器603，还可以存储至少一个学生的面部信息，以及教师的位置信息。

在一些实施例中，第一摄像头和第二摄像头采集的第一图像数据和第二图像数据，还可以通过网络接口传送至处理器。处理器和存储器之间可以通过总线连接。

在一个实施例中，该处理器，可以是前述目标检测网络，包括多任务级联卷积神经网络等，以对学生的面部信息和教师的位置信息进行确定，根据学生的面部信息和教师的位置信息确定学生的听见状态，进而根据听讲状态对课堂教学质量进行评估。

图6仅示出了可用于实现本文所公开的课堂教学质量评估系统的框图。该课堂教学质量评估系统可以利用所有示出的部件或仅仅部件子集，对于不同的情形，结构可能会发生变化。此外，课堂教学质量评估系统可包含组件的多个实例，例如多个处理器、存储器、发射器、接收器、网络接口等。课堂教学质量评估系统还可以包括配备有诸如扬声器、麦克风、鼠标、触摸屏、小键盘、键盘、打印机、显示器等一个或多个输入/输出设备的处理单元。处理单元可以包括连接到总线的中央处理器(CPU)、图形处理器(GPU)、存储器、大容量存储设备、视频适配器、I/O接口、网络接口。

总线可以是任何类型的多个总线结构的一个或多个，包括存储器总线或存储器控制器、外围总线、视频总线等。CPU可以包括任何类型的电子数据处理器。存储器可以包括任何类型的系统存储器，比如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步DRAM(SDRAM)、只读存储器(ROM)、及其组合等。在一些实施例中，存储器可包括用于在启动时使用的ROM，以及执行程序时使用的用于程序和数据存储的DRAM。

大容量存储设备可以包括用于存储数据、程序和其它信息以及使这些数据、程序和其它信息通过总线可访问的任何类型的存储设备。大容量存储设备可以包括，例如，固态驱动器、硬盘驱动器、磁盘驱动器、光盘驱动器或类似物中的一种或多种。

视频适配器和I/O接口提供使外部输入和输出设备与处理单元耦合的接口。如图所示，输入和输出设备的示例包括与视频适配器耦合的显示器以及与I/O接口耦合的鼠标/键盘/打印机。其它设备可以与处理单元耦合，并且可以使用到额外或更少的接口卡。例如，可以使用诸如通用串行总线(USB)(未示出)等串行接口来为打印机提供接口。

处理单元还包括一个或多个网络接口，其可包括有线链路，例如以太网电缆等，和/ 或无线链路以访问节点或不同网络。网络接口允许处理单元通过网络与远程单元进行通信。例如，网络接口可以通过一个或多个发射器/发射天线以及一个或多个接收器/接收天线提供无线通信，其中发射器和接收器可以是集成在一起的。在一实施例中，处理单元与局域网或广域网耦合以便进行数据处理并与远程设备进行通信，比如其它处理单元、互联网、远程存储设备等。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还支持包括计算机可执行代码或计算机可执行指令的计算机程序产品，当所述计算机可执行代码或所述计算机可执行指令被执行时，使至少一个计算机执行本文所述的运行和计算步骤，特别是上述方法的步骤。这样的计算机程序产品可以包括可读的非暂时性存储介质，其上存储程序代码以供计算机使用。所述程序代码可以执行这里描述的处理和计算步骤，特别是上述方法。

虽然可能仅参考了若干实施方式中的一个来披露本公开的特定特征或方面，但是可以针对任何给定应用或特定应用，根据需要或有利条件将这样的特征或方面可以与其他实施方式的一个或多个其他特征或方面组合。此外，在具体实施例或权利要求中使用术语“包含”、“具备”、“具有”或其他变体，这些术语旨在为包括性的(inclusive)，类似于“包括”。此外，术语“示例性”、“例如”和“如”仅仅意味着示例，而不是最好的或最优的。可能使用了术语“耦合”和“连接”以及衍生词。应当理解，这些术语可以用于表示两个元件彼此协作或相互作用，而不论它们是否为直接的物理接触或电接触，或它们彼此不直接接触。

尽管本文已说明和描述了特定方面，但本领域的技术人员将明白各种替代和/或等效的实施方式可以用来代替所示出的和所描述的特定方面，而不脱离本公开的范围。本申请旨在涵盖本文所讨论的特定方面的任何调整或变化。

尽管以下权利要求中的元件以相应标记的特定顺序列举，但除非权利要求书中表示了用于实现这些元件的一些或全部元件的特定序列，否则这些元件不一定旨在限于以该特定序列实施。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种课堂教学质量评估方法，其特征在于，包括：

采集教室环境图像数据；

根据所述环境图像数据确定教室里每个座位的座位目标框，根据检测到的所述至少一个学生的面部信息以及所述每个座位的座位目标框确定所述至少一个学生的位置信息；

获取第二图像数据，所述第二图像数据包括课堂上的教师；

根据所述第一图像数据检测所述至少一个学生的面部信息；

根据所述第二图像数据检测所述教师的位置信息；

根据所述至少一个学生的听讲状态评估课堂教学质量；

其中，所述面部信息包括面部朝向和视线方向，

根据所述至少一个学生的所述面部特征点确定所述至少一个学生的面部朝向；以及，

根据所述至少一个学生的所述面部特征点确定所述至少一个学生的眼部特征点，并根据所述至少一个学生的眼部特征点确定所述至少一个学生的视线方向；

所述至少一个学生的位置信息以及所述教师的位置信息确定所述至少一个学生到所述教师的方向；

根据所述至少一个学生的面部朝向、所述至少一个学生的视线方向以及所述至少一个学生到所述教师的方向确定所述至少一个学生的听讲状态。

2.根据权利要求1所述的方法，其特征在于，还包括：

根据所述教室环境图像数据对目标检测网络进行训练；以及

3.根据权利要求2所述的方法，其特征在于，所述根据所述教室环境图像数据对目标检测网络进行训练之前，还包括：

4.根据权利要求2所述的方法，其特征在于，所述采集教室环境图像数据，包括下述至少一种：

采集所述教室在不同光照条件下的环境图像数据；

采集所述教室在不同分辨率下的环境图像数据；以及

采集所述教室在不同人员密集情况下的环境图像数据。

5.根据权利要求1所述的方法，其特征在于，所述第一图像数据与所述第二图像数据采集的时间相同。

6.一种课堂教学质量评估系统，其特征在于，包括：

处理器，用于获取所述第一图像数据与所述第二图像数据，以及调用所述程序指令，执行如权利要求1至5任一项所述的课堂教学质量评估方法。

7.根据权利要求6所述的系统，其特征在于，所述第一摄像头和所述第二摄像头等高设置。