CN115810163B

CN115810163B - 一种基于ai课堂行为识别的教学评估方法和系统

Info

Publication number: CN115810163B
Application number: CN202211441196.9A
Authority: CN
Inventors: 李舵文; 严鹤; 王俊
Original assignee: Yunqi Intelligent Technology Co ltd
Current assignee: Yunqi Intelligent Technology Co ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-09-05
Anticipated expiration: 2042-11-17
Also published as: CN115810163A

Abstract

本发明涉及教育教学技术领域，具体涉及一种基于AI课堂行为识别的教学评估方法和系统。该方法包括采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理；基于YOLO目标检测算法进行目标检测，获取所述教学视频中所有的目标对象，并确定目标对象的位置以及类型；基于姿态评估算法采用单摄像头进行教学视频中所有目标对象的姿态分析，通过关键点的相对位置提取特征，分析出所述目标对象的动作，进行行为识别；采用训练的全连接神经网络进行动作识别，并根据S‑T算法对所述目标对象的行为统计，得到教学评估的分析结果。本发明能够有效、客观、定量的对教学过程进行评估，将教学评估做到日常化，提高教育教学质量。

Description

一种基于AI课堂行为识别的教学评估方法和系统

技术领域

本发明涉及教育教学技术领域，尤其涉及一种基于AI课堂行为识别的教学评估方法和系统。

背景技术

教学质量是学校的生命线，教学质量较高的学校，更加能实现可持续发展，培养更多的人才。但是往往很多学校没有注意到教学质量提高的目的，提高教学是为了解决国家人才培养计划的完整性。提高教学质量，对学校自身是可持续，对学生是，塑造成功的人生，对国家是增强综合国力。

教学评估是国家保障高等教育质量的有效手段，评估工作在促进高等学校转变教育思想，树立现代教育观念，加强教学工作，落实教学工作中心地位，改善办学条件，规范教学管理，提高教育质量等方面，发挥了非常重要的作用。对教师的教进行系统检测，并评定其价值及优缺点，以求改进的过程。它既是教学过程的重要组成部分，亦是所有有效教学与成功教学的基础。

而当前主流的教学评价方案依然以分数和升学率作为评价教学水平的主要甚至唯一标准，导致大部分教师仅注重“应试”的教育能力，而忽略了素质教育的要求。一方面，现有以分数为主要标准的教学评价方法无法体现老师教学方式、教学过程的内容，另一方面教师互评、学校评估小组等评价方式过于人为主观，可能出现不公平的情况。

发明内容

鉴于此，本发明提供了一种基于AI课堂行为识别的教学评估方法和系统，基于人工智能的课堂行为识别的教学评价方式，有效的监测课堂中学生、老师的行为动作，即：基于姿态评估的算法，只需要单摄像头就能完成单间教师的全部学生行为识别，以便客观的对老师的教学过程进行评价，同时视频分析有效减轻了学校评估小组的工作量，从而，引导教师转变观念，主动提高教师自身的师德水平和教学能力，并规范学校教学行为，提高学校的管理水平和教学质量。

为实现上述目的，本发明提供了如下的技术方案：

第一方面，在本发明提供的一个方案中，提供了一种基于AI课堂行为识别的教学评估方法，包括以下步骤：

采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理，其中，所述教学视频包括离线教学视频和实时视频流；

基于YOLO目标检测算法进行目标检测，获取所述教学视频中所有的目标对象，并确定目标对象的位置以及类型；

基于姿态评估算法采用单摄像头进行教学视频中所有目标对象的姿态分析，通过关键点的相对位置提取特征，分析出所述目标对象的动作，进行行为识别；

采用训练的全连接神经网络进行动作识别，并根据S-T算法对所述目标对象的行为统计，得到教学评估的分析结果。

作为本发明的进一步方案，所述采集教学视频并进行预处理，包括以下步骤：

访问数据库获取待分析的教学视频地址；

根据所述教学视频地址从流媒体服务器中获取教学视频，并进行视频流与语音分别提取待处理；

将视频流按照固定时间间隔提取frame，并将frame转换为(1，3，h，w)，其中，h*w为视频的分辨率；

将frame按照COLOR_BGR2RGB的方式进行颜色空间转换，并按照BatchSize将集合多个frame，放入目标检测任务队列。

作为本发明的进一步方案，基于YOLO目标检测算法进行目标检测时，采用CNN卷积神经网络作为特征提取器，获取图像中所有的目标对象，确定所述目标对象的位置以及类型，其中，所述目标对象包含所述教学视频中的学生和老师。

作为本发明的进一步方案，基于YOLO目标检测算法进行目标检测时，包括以下步骤：

将输入的教学视频的图像划分为S*S的网格，判断目标对象的中心是否落入网格单元中，若是则该网格单元负责检测所述目标对象；

基于每个网格单元预测单个网格预测的box数量，其中，每个box用于预测位置坐标、预测confidence值以及预测C个类别的分数。

作为本发明的进一步方案，基于RMPE的姿态评估算法进行所述目标对象的姿态分析，所述RMPE的姿态评估算法2D的多人姿态估计，所述RMPE的姿态评估算法进行所述目标对象的姿态分析，包括以下步骤：

按照多人目标检测结果，将目标对象裁剪后作为SimplePose的输入，其中，所述SimplePose的输入包含原图像、裁剪并预处理的图像、裁剪的boxs以及scores，其中，n为图像中目标的个数；

利用STN算法，将裁剪后的目标对象经过空间转换网络得到准确的人的box，以获取高质量的候选区域；

通过SPPE算法得到估计的姿态，使用pose heatmap实现keypoints回归，将64*48的tesor转换为(x，y)坐标的形式，再用STD将估计的姿态映射回原始的图像坐标，其中，输出结果包含pose_coord和pose_score；

利用pose-nms消除重复估计到的姿态。

作为本发明的进一步方案，利用pose-nms消除重复估计到的姿态，包括以下步骤：

定义姿态候选结果Pi由m个关节点组成{(k1，m1)，(km，cm)......}，其中k为关节点坐标，c为score；

通过置信度降序排列候选姿态结果列表；

选取置信度最高的P添加到输出列表，并将其从候选列表中删除；

计算P与候选框的d(.)值，删除小于阈值的姿态；

重复上述过程，直到候选列表为空，返回输出列表。

作为本发明的进一步方案，根据S-T算法对所述目标对象的行为统计，所述S-T算法包含对教师行为T和学生行为S共2个维度的定量统计和定性评价，其中，所述老师行为T包含授课、板书、互动、演示以及巡视，所述学生行为S包含起立发言、记笔记、举手、讨论、低头、趴桌子以及说话。

作为本发明的进一步方案，根据S-T算法对所述目标对象的行为统计，包括以下步骤：

将上课视频实时录播并传输至流媒体服务器，任务发布至AI分析队列，按照预设时间间隔对视频内容进行离线分析，其中，离线分析包含目标类型、动作类型、动作数量以及对应时间，构成S-T时序列数据；

描绘S-T图，其中，S-T图的原点为教学起始时间；将实测的S、T数据顺序在S/T轴上予以表示，直到教学结束；

教学模式类型分析，通过绘制RT-CH图分析老师的教学类型，包含练习型、混合型、对话型以及讲授型。

作为本发明的进一步方案，教学模式类型分析的计算公式为：

RT＝N_T/N

CH＝(g-1)/N

其中，RT代表老师行为的占有率，即T行为在教学过程中所占的比例；CH表示行为转换率，即T行为和S行为之间的转换次数与总的行为采样数之比。

第二方面，在本发明提供的一个方案中，提供了一种基于AI课堂行为识别的教学评估系统，用于执行上述基于AI课堂行为识别的教学评估方法；所述基于AI课堂行为识别的教学评估系统包括：数据采集模块，用于采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理，其中，所述教学视频包括离线教学视频和实时视频流；视频分析模块，用于根据视频流与语音分别提取待处理的视频取帧及图像处理结果进行目标检测、姿态评估、动作识别以及统计分析；行为统计模块，用于根据S-T算法对所述目标对象的行为统计，通过S-T时序数据得到S-T图和RT-CH图，得到教学评估的分析结果并接入智慧校园，用于教师考核、教学管理以及教学评估。

在本发明提供的一些方案中，所述视频分析模块包括：目标检测单元，用于基于YOLO目标检测算法进行目标检测，获取所述教学视频中所有的目标对象，并确定目标对象的位置以及类型；姿态评估单元，用于基于姿态评估算法采用单摄像头进行教学视频中所有目标对象的姿态分析，通过关键点的相对位置提取特征，分析出所述目标对象的动作，进行行为识别；动作识别单元，用于采用训练的全连接神经网络进行动作识别。

本发明提供的技术方案，具有如下有益效果：

本发明提供的基于AI课堂行为识别的教学评估方法和系统，技术层面，针对学校课堂场景的目标多、密度高、遮挡范围大等问题，提出基于Pose estimation的教学评估方案，相对于现有主流的slowfast算法，一方面在模型训练的过程中，相对依赖更少的数据量且标注工作相对简单，大大减轻模型训练过程中的工作量。另外一方面，对于课堂被遮挡的目标，本发明有更高的识别的精准率。应用层面，基于AI的教学评估方法，能够有效、客观、定量的对教学过程进行评估，且减轻了学校进行教学评估的人力，将教学评估做到日常化，提高教育教学质量。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。在附图中：

图1为本发明一个实施例的一种基于AI课堂行为识别的教学评估方法的流程图。

图2为本发明实施例的一种基于AI课堂行为识别的教学评估方法中的系统架构图。

图3为本发明一个实施例的一种基于AI课堂行为识别的教学评估方法中采集教学视频并进行预处理的流程图。

图4为本发明一个实施例的一种基于AI课堂行为识别的教学评估方法中目标检测的流程图。

图5为本发明一个实施例的一种基于AI课堂行为识别的教学评估方法中对目标对象的姿态分析的流程图。

图6为本发明一个实施例的一种基于AI课堂行为识别的教学评估方法中动作识别时的网络结构示意图。

图7为本发明一个实施例的一种基于AI课堂行为识别的教学评估方法中S-T图。

图8为本发明一个实施例的一种基于AI课堂行为识别的教学评估方法中优化后的网络结构示意图。

图9为本发明一个实施例的一种基于AI课堂行为识别的教学评估方法中姿态分析算法的训练示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本发明中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本发明中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明示例性实施例中的附图，对本发明示例性实施例中的技术方案进行清楚、完整地描述，显然，所描述的示例性实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于当前主流的教学评价方案中忽略了素质教育的要求，现有以分数为主要标准的教学评价方法无法体现老师教学方式、教学过程的内容，而且，教师互评、学校评估小组等评价方式过于人为主观，可能出现不公平的情况。

有鉴于此，本发明提供了一种基于AI课堂行为识别的教学评估方法和系统，基于人工智能的课堂行为识别的教学评价方式，有效的监测课堂中学生、老师的行为动作，以客观的对老师的教学过程进行评价，同时视频分析有效减轻了学校评估小组的工作量，从而，引导教师转变观念，主动提高教师自身的师德水平和教学能力，并规范学校教学行为，提高学校的管理水平和教学质量。

具体地，下面结合附图，对本申请实施例作进一步阐述。

参见图1所示，本发明的一个实施例提供一种基于AI课堂行为识别的教学评估方法，该基于AI课堂行为识别的教学评估方法具体包括如下步骤：

S10、采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理，其中，所述教学视频包括离线教学视频和实时视频流；

S20、基于YOLO目标检测算法进行目标检测，获取所述教学视频中所有的目标对象，并确定目标对象的位置以及类型；

S30、基于姿态评估算法采用单摄像头进行教学视频中所有目标对象的姿态分析，通过关键点的相对位置提取特征，分析出所述目标对象的动作，进行行为识别；

S40、采用训练的全连接神经网络进行动作识别，并根据ST算法对所述目标对象的行为统计，得到教学评估的分析结果。

采用本发明的基于AI课堂行为识别的教学评估方法，基于人工智能的课堂行为识别的教学评价方式，有效的监测课堂中学生、老师的行为动作，以客观的对老师的教学过程进行评价，同时视频分析有效减轻了学校评估小组的工作量，即：基于姿态评估的算法，只需要单摄像头就能完成单间教师的全部学生行为识别。从而，引导教师转变观念，主动提高教师自身的师德水平和教学能力，并规范学校教学行为，提高学校的管理水平和教学质量。

在一些实施例中，该方法中课堂行为分析包含了视频分析以及语音分析。其中视频分析，主要识别课堂中学生出现的积极态度或消极态度，而语音分析主要老师的授课内容以及教学态度，该方法的系统架构参见图2所示。

在一些实施例中，参见图3所示，所述采集教学视频并进行预处理，包括以下步骤：

S101、访问数据库获取待分析的教学视频地址；

S102、根据所述教学视频地址从流媒体服务器中获取教学视频，并进行视频流与语音分别提取待处理；

S103、将视频流按照固定时间间隔提取frame，并将frame转换为(1，3，h，w)，其中，h*w为视频的分辨率；

S104、将frame按照COLOR_BGR2RGB的方式进行颜色空间转换，并按照BatchSize将集合多个frame，放入目标检测任务队列。

其中，优选地，将视频流按照固定时间间隔(1秒)提取frame，并将frame转换为(1，3，h，w)，其中h*w为视频的分辨率。

由于该系统的应用场景为教学课堂，拥有目标数量多、密度高以及大小不统一等现象，通过目标检测算法将目标分别单独提取是后续工作的必要准备工作。在一些实施例中，使用目前主流的CNN(卷积神经网络)作为特征提取器，获取图像中所有的目标对象(学生/老师)，确定他们的位置以及类型。

因此，基于YOLO目标检测算法进行目标检测时，采用CNN卷积神经网络作为特征提取器，获取图像中所有的目标对象，确定所述目标对象的位置以及类型，其中，所述目标对象包含所述教学视频中的学生和老师。

由于Faster R-CNN和YOLO都是目前主流的目标检测算法框架，其中Faster R-CNN算法为TwoStage方法，拥有更高的准确率，而YOLO为OneStage方法，在检测速度上有更高效的表现，显然YOLO更适合本发明方法的场景。

在一些实施例中，参见图4所示，基于YOLO目标检测算法进行目标检测时，包括以下步骤：

S201、将输入的教学视频的图像划分为S*S的网格，判断目标对象的中心是否落入网格单元中，若是则该网格单元负责检测所述目标对象。

在本实施例中，将输入图像划分为S*S的网格，如果对象的中心落入网格单元中，则该网格单元负责检测该对象。网格只是划分图像中物体的位置，而不是将每个格子单独分离出来，所有的网格还是一个整体关系。因此，YOLO在训练和测试时都会全局考虑图像。

S202、基于每个网格单元预测单个网格预测的box数量，其中，每个box用于预测位置坐标、预测confidence值以及预测C个类别的分数。

在本实施例中，每个网格要预测B个box，每个box除了需要预测位置坐标、预测confidence值以外，还需要去预测C个类别的分数。box的属性包含(x，y，w，h)，其中x和y表示预测框相对于box的中心，w和h分别代表box的宽度和高度。则网络的输出维度为S*S*(B*(4+1)+C)，其中S为网格划分的大小，B为单个网格预测的box数量，4代表box的属性，1为置信值confidence，而C为目标的种类。YOLO算法的损失函数如下：

由3个部分组成，包含坐标损失，置信度损失以及类别损失。其中1代表对象和单元格之间的关系，λ为平衡系数，降低没有目标的单元格的权重。

由于教学课堂拥有目标数量多，像素点小少且部位大量遮挡的情况，直接使用动作识别算法效果较差，例如：目前主流的slowfast算法，导致无法精准的捕捉以及识别课堂中学生的动作行为。因此需要考虑先用姿态评估算法获取学生上半身的，再通过关键的相对位置提取特征，最终分析出学生的动作。

人体姿态估计指对人体关键点的预测问题，即首先预测出人体各个关键点的位置坐标，然后根据先验知识确定关键点之间的空间位置关系，从而得到预测的人体骨架。本发明使用基于RMPE的姿态评估算法来实现2D的多人姿态估计，该算法为精度更高的top-down方法，提取出图片中每个学生17个keypoint，对应部位为鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左胳膊肘、右胳膊肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝、右脚踝。

在一些实施例中，基于RMPE的姿态评估算法进行所述目标对象的姿态分析，所述RMPE的姿态评估算法2D的多人姿态估计，参见图5所示，所述RMPE的姿态评估算法进行所述目标对象的姿态分析，包括以下步骤：

S301、按照多人目标检测结果，将目标对象裁剪后作为SimplePose的输入，其中，所述SimplePose的输入包含原图像、裁剪并预处理的图像、裁剪的boxs以及scores，其中，n为图像中目标的个数。

在本实施例中，按照多人目标检测结果(维度为608*608*3*n)，将目标裁剪下来，作为接下来的SimplePose的输入。输入包含原图像、裁剪并预处理的图像(维度为256*192*3*n)、裁剪的boxs(维度为n*4)以及scores(维度为n)，其中n为图像中目标的个数。

S302、利用STN算法，将裁剪后的目标对象经过空间转换网络得到准确的人的box，以获取高质量的候选区域。

在本实施例中，利用STN算法，经过空间转换网络，对于不准确的输入，得到准确的人的box，用于获取高质量的候选区域。STN的网络结构包含3个主要部分，Localiation net(参数预测)、Grid generator(坐标映射)以及Sampler(像素采集)，能实现平移、缩放、旋转以及剪切转换动作。

S303、通过SPPE算法得到估计的姿态，使用pose heatmap实现keypoints回归，将64*48的tesor转换为(x，y)坐标的形式，再用STD将估计的姿态映射回原始的图像坐标，其中，输出结果包含pose_coord和pose_score。

在本实施例中，通过SPPE算法(single-person pose estimation)得到估计的姿态，同时还引入了Parallel SPPE的概念作为训练阶段额外的正则项，有效避免STN进行不正确的变换。经过该步骤，其输出结果维度为(n*17*64*48)，其中17为keypoints的个数。

使用pose heatmap实现keypoints回归，将64*48的tesor转换为(x，y)坐标的形式，再用STD(空间逆变换网络)，将估计的姿态映射回原始的图像坐标。输出结果包含pose_coord(维度为n*17*2)和pose_score(n*17*1)。

S304、利用pose-nms消除重复估计到的姿态。

利用pose-nms消除重复估计到的姿态。nms即非极大值抑制，以置信度最高的姿态作为参考，通过一定的标准消除一些接近它的姿态。

在一些实施例中，利用pose-nms消除重复估计到的姿态，包括以下步骤：

(1)定义姿态候选结果Pi由m个关节点组成{(k1，m1)，(km，cm)......}，其中k为关节点坐标，c为score；设定消除标准如下：

f(P_i，P_j|Λ)＝1(d(P_i，P_j|Λ，λ)＜＝η)

d(P_i，P_j|Λ)＝K_sim(P_i，P_j|σ₁)+λH_sim(P_i，P_j|σ₂)

其中K和H分别代表姿态距离和空间距离，λ是两者平衡的权重值，η代表阈值，这2个值可通过训练获取。

(2)通过置信度降序排列候选姿态结果列表；

(3)选取置信度最高的P添加到输出列表，并将其从候选列表中删除；

(4)计算P与候选框的d(.)值，删除小于阈值的姿态；

(5)重复上述过程，直到候选列表为空，返回输出列表。

在动作识别时，教学课堂中学生的低头、抬头、趴桌子、举手、讨论以及起立的频率是教学评估的重要评估条件，这些动作都可通过神经网络提取keypoints中的特征来识别。由于课堂环境下学生部分身体被遮挡特别是下半部分身体，同时将scores也作为输入。本实施例中算法采用全连接神经网络(DNN)进行模型训练，以学生行为为例，输入层为17*2+17个神经元，对应17个关键点的坐标，设置3个隐藏层，激活函数首选relu算法，输出层有6个神经元，对应6种识别结果，神经网络整体呈倒三角形结构。

在本实施例中，考虑到关键点多，目标密度高，数据标注工作量较大。可以首先用姿态识别算法进行识别产生json关键点文件，在通过工具程序进行辅助标注，以实现预标注大大减少数据标注的工作量，其中，网络结构如图6所示。

在一些实施例中，根据S-T算法对所述目标对象的行为统计，所述S-T算法包含对教师行为T和学生行为S共2个维度的定量统计和定性评价，提高了教学评估中的客观性和可靠性。其中，所述老师行为T包含授课、板书、互动、演示以及巡视，所述学生行为S包含起立发言、记笔记、举手、讨论、低头、趴桌子以及说话等。

在一些实施例中，根据S-T算法对所述目标对象的行为统计，包括以下步骤：

描绘S-T图，其中，S-T图的原点为教学起始时间；将实测的S、T数据顺序在S/T轴上予以表示，直到教学结束，参见图7所示，其分布情况代表了课堂中学生与老师积极行为的活跃状态；

教学模式类型分析，通过绘制RT-CH图分析老师的教学类型，包含练习型、混合型、对话型以及讲授型。其中，教学模式类型分析的计算公式为：

RT＝N_T/N

CH＝(g-1)/N

本发明的基于AI课堂行为识别的教学评估方法，从技术层面而言，针对学校课堂场景的目标多、密度高、遮挡范围大等问题，提出基于Pose estimation的技术方案。相对于现有主流的slowfast算法，一方面在模型训练的过程中，相对依赖更少的数据量且标注工作相对简单，大大减轻模型训练过程中的工作量。另外一方面，对于课堂被遮挡的目标，本发明有更高的识别的精准率。

从应用层面而言，基于AI的教学评估方法，能够有效、客观、定量的对教学过程进行评估，且减轻了学校进行教学评估的人力，将教学评估做到日常化，提高教育教学质量。

应该理解的是，上述虽然是按照某一顺序描述的，但是这些步骤并不是必然按照上述顺序依次执行。除非本发明中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，本实施例的一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本发明实施例中的目标检测算法YOLO，考虑课堂环境中，目标数量多、密度高且目标小，相当于前面的YOLO版本，使用FPN的上采样融合做法，在三个特征层上做检测，加强对小目标的检测精度。同时，网络结构采用的是Darknet-53，运用了residual的思想，在提升精度时也保证了训练速度，另外一方面，目标分类器由softmax改为logistic，解决了类别互斥的问题，能够支持多标签的目标(检测人的同时，识别是老师还是学生)，优化后的网络结构如图8所示。

参见图8所示，姿态分析算法中，对于多人姿态检测出现的定位错误以及姿态冗余两大常见问题，一方面引入对称空间变换器网络提取高质量的单人区域，另一方面引入姿势非极大值抑制解决检测冗余问题，同时利用姿势引导建议发生器实现数据增强，增加样本的数量更好的训练网络。

参见图9所示，在本发明的一个实施例中还提供了一种基于AI课堂行为识别的教学评估系统，所述基于AI课堂行为识别的教学评估系统包括数据采集模块、视频分析模块以及行为统计模块。其中，数据采集模块用于采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理，其中，所述教学视频包括离线教学视频和实时视频流；视频分析模块用于根据视频流与语音分别提取待处理的视频取帧及图像处理结果进行目标检测、姿态评估、动作识别以及统计分析；行为统计模块用于根据S-T算法对所述目标对象的行为统计，通过S-T时序数据得到S-T图和RT-CH图，得到教学评估的分析结果并接入智慧校园，用于教师考核、教学管理以及教学评估。

在一些实施例中，所述视频分析模块包括：目标检测单元，用于基于YOLO目标检测算法进行目标检测，获取所述教学视频中所有的目标对象，并确定目标对象的位置以及类型；姿态评估单元，用于基于姿态评估算法采用单摄像头进行教学视频中所有目标对象的姿态分析，通过关键点的相对位置提取特征，分析出所述目标对象的动作，进行行为识别；动作识别单元，用于采用训练的全连接神经网络进行动作识别。

需要特别说明的是，基于AI课堂行为识别的教学评估系统在执行时采用如前述的一种基于AI课堂行为识别的教学评估方法的步骤，因此，本实施例中对基于AI课堂行为识别的教学评估系统的运行过程不再详细介绍。

在一个实施例中，在本发明的实施例中还提供了一种计算机设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述的基于AI课堂行为识别的教学评估方法，该处理器执行指令时实现上述方法实施例中的步骤，该方法包括：

在本实施例中，所述采集教学视频并进行预处理，包括以下步骤：

访问数据库获取待分析的教学视频地址；

在本实施例中，基于YOLO目标检测算法进行目标检测时，采用CNN卷积神经网络作为特征提取器，获取图像中所有的目标对象，确定所述目标对象的位置以及类型，其中，所述目标对象包含所述教学视频中的学生和老师。

在本实施例中，基于YOLO目标检测算法进行目标检测时，包括以下步骤：

在本实施例中，基于RMPE的姿态评估算法进行所述目标对象的姿态分析，所述RMPE的姿态评估算法2D的多人姿态估计，所述RMPE的姿态评估算法进行所述目标对象的姿态分析，包括以下步骤：

利用pose-nms消除重复估计到的姿态。

在本发明的一个实施例中还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤：

访问数据库获取待分析的教学视频地址；

利用pose-nms消除重复估计到的姿态。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于AI课堂行为识别的教学评估方法，其特征在于，包括以下步骤：

基于YOLO目标检测算法进行目标检测，采用CNN卷积神经网络作为特征提取器，以获取所述教学视频中所有的目标对象，并确定目标对象的位置以及类型，所述目标对象包含所述教学视频中的学生和老师；

采用训练的全连接神经网络进行动作识别，并根据S-T算法对所述目标对象的行为统计，得到教学评估的分析结果；

所述采集教学视频并进行预处理，包括以下步骤：

访问数据库获取待分析的教学视频地址；

将frame按照COLOR_BGR2RGB的方式进行颜色空间转换，并按照BatchSize将集合多个frame，放入目标检测任务队列；

基于YOLO目标检测算法进行目标检测时，包括以下步骤：

基于每个网格单元预测单个网格预测的box数量，其中，每个box用于预测位置坐标、预测confidence值以及预测C个类别的分数；

基于RMPE的姿态评估算法进行所述目标对象的姿态分析，所述RMPE的姿态评估算法2D的多人姿态估计，其包括以下步骤：

通过SPPE算法得到估计的姿态，使用poseheatmap实现keypoints回归，将64*48的tesor转换为(x，y)坐标的形式，再用STD将估计的姿态映射回原始的图像坐标，其中，输出结果包含pose_coord和pose_score；

利用pose-nms消除重复估计到的姿态，其包括以下步骤：

定义姿态候选结果Pi由m个关节点组成{k1，m1)，(km，cm)......}，其中k为关节点坐标，c为score；

通过置信度降序排列候选姿态结果列表；

计算P与候选框的d(.)值，删除小于阈值的姿态，直至候选列表为空，返回输出列表。

2.如权利要求1所述的基于AI课堂行为识别的教学评估方法，其特征在于，根据S-T算法对所述目标对象的行为统计，所述S-T算法包含对教师行为T和学生行为S共2个维度的定量统计和定性评价，其中，所述老师行为T包含授课、板书、互动、演示以及巡视，所述学生行为S包含起立发言、记笔记、举手、讨论、低头、趴桌子以及说话。

3.如权利要求2所述的基于AI课堂行为识别的教学评估方法，其特征在于，根据S-T算法对所述目标对象的行为统计，包括以下步骤：

4.一种基于AI课堂行为识别的教学评估系统，其特征在于，用于执行权利要求1-3中任意一项所述基于AI课堂行为识别的教学评估方法；所述基于AI课堂行为识别的教学评估系统包括：

数据采集模块，用于采集教学视频并进行预处理，将所述教学视频的视频流与语音分别提取待处理，其中，所述教学视频包括离线教学视频和实时视频流；

视频分析模块，用于根据视频流与语音分别提取待处理的视频取帧及图像处理结果进行目标检测、姿态评估、动作识别以及统计分析；

行为统计模块，用于根据S-T算法对所述目标对象的行为统计，通过S-T时序数据得到S-T图和RT-CH图，得到教学评估的分析结果并接入智慧校园，用于教师考核、教学管理以及教学评估。

5.如权利要求4所述的基于AI课堂行为识别的教学评估系统，所述视频分析模块包括：

目标检测单元，用于基于YOLO目标检测算法进行目标检测，获取所述教学视频中所有的目标对象，并确定目标对象的位置以及类型；

姿态评估单元，用于基于姿态评估算法采用单摄像头进行教学视频中所有目标对象的姿态分析，通过关键点的相对位置提取特征，分析出所述目标对象的动作，进行行为识别；

动作识别单元，用于采用训练的全连接神经网络进行动作识别。