CN115719516A

CN115719516A - 一种基于多通道的课堂教学行为识别方法及系统

Info

Publication number: CN115719516A
Application number: CN202211530101.0A
Authority: CN
Inventors: 张�浩; 黄涛; 刘三女牙; 李宗霖; 王翔宇; 闵远东; 戴志诚
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-02-28

Abstract

本发明提供了一种基于多通道的课堂教学行为识别方法及系统，方法包括：获取第一摄像头和第二摄像头分别在同一时刻采集的第一视频帧和第二视频帧；第一摄像头用于对教室的讲台区域进行视频采集；第二摄像头用于对教室的学生区域进行视频采集；对第一视频帧和第二视频帧分别进行人脸识别和行为姿态识别并获得讲台区域和学生区域中每个主体人物的身份信息和对应的行为姿态；基于讲台区域和学生区域中每个主体人物的身份信息和对应的行为姿态，以及预设的课堂教学行为判别函数，获得同一时刻对应的课堂教学行为。本发明避免了课堂教学场景视频信息量丢失的问题，极大地提升了课堂教学行为分析的客观性、全面性和准确率。

Description

一种基于多通道的课堂教学行为识别方法及系统

技术领域

本发明属于教育信息化技术领域，更具体地，涉及一种基于多通道的课堂教学行为识别方法及系统。

背景技术

通过对课堂教学行为进行分析，获得客观、有效的课堂教学评价，助力教学模式转换，提升教师专业素养，优化教学品质。

目前针对课堂教学行为分析，大多采用的是基于问卷和观察的课堂教学行为分析方法。基于问卷和观察的课堂教学行为分析方法虽然具有一定的价值，但需要教师与学生对于课堂教学过程有着清晰的记忆、需要观察者投入大量的时间和精力，并且它们并不一定能获取有效的行为分析信息。另外，对于教师教导行为的自我评价以及针对学生学习行为的外部观察评价，受限于教师水平、学生素养、文化背景等多个因素，此类方法的结果往往缺乏客观性。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于多通道的课堂教学行为识别方法及系统，旨在解决常规课堂教学行为分析的客观性不足的问题。

为实现上述目的，第一方面，本发明提供了一种基于多通道的课堂教学行为识别方法，包括：

S101获取第一摄像头和第二摄像头分别在同一时刻采集的第一视频帧和第二视频帧；所述第一摄像头用于对教室的讲台区域进行视频采集；所述第二摄像头用于对教室的学生区域进行视频采集；

S102对所述第一视频帧和所述第二视频帧分别进行人脸识别和行为姿态识别并获得讲台区域和学生区域中每个主体人物的身份信息和对应的行为姿态；

S103基于所述讲台区域和所述学生区域中每个主体人物的身份信息和对应的行为姿态，以及预设的课堂教学行为判别函数，获得所述同一时刻对应的课堂教学行为。

在一个可选的示例中，步骤S102具体包括：

对所述第一视频帧和所述第二视频帧进行图像融合并获得课堂教学图像；

对所述课堂教学图像进行人脸目标检测和人体目标检测并获得课堂教学图像中的各人脸区域特征和各人体区域特征；

基于所述各人脸区域特征进行人脸识别并获得所述各人脸区域特征对应的身份信息；

基于所述各人体区域特征进行行为姿态识别并获得所述各人体区域特征对应的行为姿态；

基于所述各人脸区域特征和所述各人体区域特征中的位置信息，对各身份信息和各行为姿态进行匹配和区域划分并获得讲台区域和学生区域中每个主体人物的身份信息和对应的行为姿态。

在一个可选的示例中，所述基于所述各人体区域特征进行行为姿态识别并获得所述各人体区域特征对应的行为姿态，包括：

基于所述各人体区域特征进行人体关键点提取，得到所述各人体区域特征对应的人体关键点，并基于所述人体关键点构建人体结构图特征；

基于所述各人体区域特征和对应的人体结构图特征进行行为姿态分类，得到所述各人体区域特征对应的行为姿态。

在一个可选的示例中，所述主体人物的身份信息包括：教师以及学生；主体人物的行为姿态包括：阅读/记笔记、听课、侧身、举手、站立以及板书；

所述课堂教学行为包括：教师板书、教师讲课、教师提问、教师巡堂、学生板书、学生讨论、学生练习、学生回答问题以及学生上台。

在一个可选的示例中，所述课堂教学行为判别函数是基于贝叶斯因果网络构建的。

第二方面，本发明提供一种基于多通道的课堂教学行为识别系统，包括：

视频帧获取模块，用于获取第一摄像头和第二摄像头分别在同一时刻采集的第一视频帧和第二视频帧；所述第一摄像头用于对教室的讲台区域进行视频采集；所述第二摄像头用于对教室的学生区域进行视频采集；

视频帧识别模块，用于对所述第一视频帧和所述第二视频帧分别进行人脸识别和行为姿态识别并获得讲台区域和学生区域中每个主体人物的身份信息和对应的行为姿态；

教学行为判别模块，用于基于所述讲台区域和所述学生区域中每个主体人物的身份信息和对应的行为姿态，以及预设的课堂教学行为判别函数，获得所述同一时刻对应的课堂教学行为。

在一个可选的示例中，所述视频帧识别模块包括：

图像融合单元，用于对所述第一视频帧和所述第二视频帧进行图像融合并获得课堂教学图像；

目标检测单元，用于对所述课堂教学图像进行人脸目标检测和人体目标检测并获得课堂教学图像中的各人脸区域特征和各人体区域特征；

人脸识别单元，用于基于所述各人脸区域特征进行人脸识别并获得所述各人脸区域特征对应的身份信息；

行为姿态识别单元，用于基于所述各人体区域特征进行行为姿态识别并获得所述各人体区域特征对应的行为姿态；

匹配融合单元，用于基于所述各人脸区域特征和所述各人体区域特征中的位置信息，对各身份信息和各行为姿态进行匹配和区域划分并获得讲台区域和学生区域中每个主体人物的身份信息和对应的行为姿态。

在一个可选的示例中，所述行为姿态识别单元用于基于所述各人体区域特征进行人体关键点提取，得到所述各人体区域特征对应的人体关键点，并基于所述人体关键点构建人体结构图特征，以及基于所述各人体区域特征和对应的人体结构图特征进行行为姿态分类，得到所述各人体区域特征对应的行为姿态。

在一个可选的示例中，所述视频帧识别模块确定的主体人物的身份信息包括：教师以及学生；确定的主体人物的行为姿态包括：阅读/记笔记、听课、侧身、举手、站立以及板书；

所述教学行为判别模块确定的课堂教学行为包括：教师板书、教师讲课、教师提问、教师巡堂、学生板书、学生讨论、学生练习、学生回答问题以及学生上台。

在一个可选的示例中，所述教学行为判别模块使用的所述课堂教学行为判别函数是基于贝叶斯因果网络构建的。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种基于多通道的课堂教学行为识别方法及系统，通过将教学区域划分为讲台区域与学生区域，利用双摄像头分别对于讲台区域与学生区域进行视频录制，从而避免了课堂教学场景视频信息量丢失的问题，基于双视频流进行人脸识别与行为姿态识别，得到讲台区域、学生区域中所有主体人物的身份信息和对应的行为姿态，并基于此进行统计分析，最终确定出课堂教学场景下的教学行为，从而实现了课堂教学行为的自动分析，极大地提升了课堂教学行为分析的客观性、全面性和准确率。

附图说明

图1是本发明实施例提供的基于多通道的课堂教学行为识别方法的流程图之一；

图2是本发明实施例提供的行为姿态分类与人脸识别的流程图；

图3是本发明实施例提供的行为姿态识别网络的网络结构示意图；

图4是本发明实施例提供的基于多通道的课堂教学行为识别方法的流程图之二；

图5是本发明实施例提供的双视频流的数据对齐流程图；

图6是本发明实施例提供的课堂主体身份—行为姿态表征模型的流程框架图；

图7是本发明实施例提供的基于多通道的课堂教学行为识别系统的架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

通过对课堂教学行为进行分析，获得客观、有效的课堂教学评价，助力教学模式转换，提升教师专业素养，优化教学品质。目前国内外针对课堂教学行为的分析方法，按照研究课堂教学行为的数据类型，可以划分为2种：基于问卷和观察的课堂教学行为分析方法、基于视频的课堂教学行为分析方法。

衡量课堂教学行为普遍的方法是自我反思报告和外部观察评价。当进行自我反思评价或观察者评价时，评价者借助课堂教学行为标准或问卷调查的方式完成课堂教学行为的粗略归纳。在自我反思评价的方法中，师生需要完成关于个人教导行为或学习行为的调查问卷。而教导行为与学习行为方面的问卷内容通常要求教师和学生报告他们在教学过程中交互行为、对话行为和陈述行为，课堂主体只能凭借记忆完成报告，数据的有效性无法验证。

除了教师与学生的评价报告外，一些分析方式依赖于外部观察者(一般为经验丰富的教师)完成总结性评价量表，以此分析教师与学生的课堂行为。外部观察和评价要求观察者基于对课堂过程的观察完成一些动作分类量表、样本分析与案例研究。其中，S-T分析法(Student-Teacher分析法)与弗兰德斯互动分析法是常用的总结性分析量表。

虽然上述分析方式已被实践验证具有一定价值，但是它们的缺点也清晰明了：它们需要教师与学生对于课堂教学过程有着清晰的记忆、需要观察者投入大量的时间和精力，并且它们并不一定能获取有效的行为分析信息。另外，对于教师教导行为的自我评价以及针对学生学习行为的外部观察评价，均要求师生或观察者能诚实、准确地评价自我或他人的教学行为问题。受限于教师水平、学生素养、文化背景等多个因素，此类方法的结果往往缺乏客观性。

随着摄像设备在学校课堂的普及，课堂教学视频的获取成本有效降低，为教学研究者们提供了友好的数据获取方式。同时，因为人工智能技术的快速发展，图像与视频处理、分类方向的技术也取得了巨大进展，基于视频的课堂教学行为分析研究得以有效开展。目前，基于视频的教学行为分析方法的通用流程如下：首先，基于教室视频设备录制教学视频。随后依据专家知识的教学行为标准，构建自动化的课堂教学行为判别函数。然后，使用人工智能技术对于教学视频进行采样分析并提取有效的教学行为特征，并利用课堂教学行为判别函数编码当前样本的课堂教学行为。最后，通过归纳统计所有的课堂教学行为编码构建教学行为序列，推导课堂教学模式。

基于视频的课堂教学行为分析方法解决了传统教学行为分析方法对于教学的干扰，节省了人力和时间成本，提升了教学行为分析的客观性。但现有教学行为分析系统多采用多路镜头切换视频，视频信息量存在一定的丢失，导致课堂教学行为分析不够全面，课堂教学行为识别的准确率有待提高。

针对现有教学行为分析系统存在的缺点，本发明将教学区域划分为讲台区域与学生区域，并通过定向的双摄像头分别对于讲台区域与学生区域进行录制，以实现提供一种基于双视频流多通道的课堂教学行为识别方法。同时，按照摄像头视频流的帧率采样，充分利用教学视频中蕴含的特征分析课堂教学行为，提升课堂教学行为分析的准确率。图1是本发明实施例提供的基于多通道的课堂教学行为识别方法的流程图之一，如图1所示，该方法包括：

步骤S101，获取第一摄像头和第二摄像头分别在同一时刻采集的第一视频帧和第二视频帧；第一摄像头用于对教室的讲台区域进行视频采集；第二摄像头用于对教室的学生区域进行视频采集。

具体地，第一摄像头和第二摄像头可以分别安装于教室前后，第一摄像头用于对教室的讲台区域进行视频采集，第二摄像头用于对教室的学生区域进行视频采集，从而可以实现使用非切换的方式完整地采集课堂教学场景，避免视频信息量丢失的问题。需要说明的是，此处的“第一”和“第二”仅用于对两个摄像头及其拍摄的视频进行区分。

在第一摄像头和第二摄像头分别对讲台区域和学生区域进行视频采集之后，可以获取第一摄像头和第二摄像头分别在同一时刻采集的视频帧，即讲台区域的第一视频帧和学生区域的第二视频帧。

步骤S102，对第一视频帧和第二视频帧分别进行人脸识别和行为姿态识别并获得讲台区域和学生区域中每个主体人物的身份信息和对应的行为姿态；

步骤S103，基于讲台区域和学生区域中每个主体人物的身份信息和对应的行为姿态，以及预设的课堂教学行为判别函数，获得该时刻对应的课堂教学行为。

具体地，在获取到同一时刻采集的讲台区域视频帧和学生区域视频帧的基础上，又考虑到单一的行为姿态无法准确反映整个课堂场景下实际的教学行为，例如，教师在提问过程中，有些学生在听课，有些学生在举手，如果只是根据单一的行为姿态进行判断，最终确定的教学行为有可能是教师讲课，而不是教师提问；又例如，教师让其中一个学生上台板书，教师在站立，其它大部分学生在听课，如果只是根据单一的行为姿态进行判断，最终确定的教学行为也有可能是教师讲课，而不是学生板书。

针对上述问题，本发明实施例对第一视频帧进行人脸识别和行为姿态识别，以及对第二视频帧进行人脸识别和行为姿态识别，从而获得讲台区域中每个主体人物的身份信息和对应的行为姿态，以及学生区域中每个主体人物的身份信息和对应的行为姿态，随即，统计讲台区域中所有主体人物的身份信息和对应的行为姿态，以及学生区域中所有主体人物的身份信息和对应的行为姿态，再根据预先设置的课堂教学行为判别函数，判别步骤S101中所指时刻对应的课堂教学行为。例如，若统计得知学生区域中学生处于举手姿态的比例大于预设阈值，且当前没有学生处于站立姿态，则可以判别出该时刻对应的课堂教学行为是教师提问；若统计得知学生区域中存在主体人物的身份信息为教师，且讲台区域中处于板书姿态的主体数量为1，则可以判别出该时刻对应的课堂教学行为是教师提问。

此处，本发明实施例对第一视频帧、第二视频帧进行人脸识别和行为姿态识别的执行顺序不作具体限定，例如，可以先对第一视频帧进行人脸识别和行为姿态识别、后对第二视频帧进行人脸识别和行为姿态识别，或者先对第二视频帧进行人脸识别和行为姿态识别、后对第一视频帧进行人脸识别和行为姿态识别，也可以先将第一视频帧和第二视频帧融合成一张图像，再对融合后的图像进行人脸识别和行为姿态识别，再将识别结果按区域划分为讲台区域、学生区域中每个主体人物的身份信息和对应的行为姿态。课堂教学行为判别函数用于对讲台区域以及学生区域的身份—行为姿态信息进行归纳分析，由此判别出该时刻对应的课堂教学行为所属的类别。

本发明实施例提供的方法，通过将教学区域划分为讲台区域与学生区域，利用双摄像头分别对于讲台区域与学生区域进行视频录制，从而避免了课堂教学场景视频信息量丢失的问题，基于双视频流进行人脸识别与行为姿态识别，得到讲台区域、学生区域中所有主体人物的身份信息和对应的行为姿态，并基于此进行统计分析，最终确定出课堂教学场景下的教学行为，从而实现了课堂教学行为的自动分析，极大地提升了课堂教学行为分析的客观性、全面性和准确率。

基于上述实施例，步骤S102具体包括：

对第一视频帧和第二视频帧进行图像融合并获得课堂教学图像；

对课堂教学图像进行人脸目标检测和人体目标检测并获得课堂教学图像中的各人脸区域特征和各人体区域特征；

基于各人脸区域特征进行人脸识别并获得各人脸区域特征对应的身份信息；

基于各人体区域特征进行行为姿态识别并获得各人体区域特征对应的行为姿态；

基于各人脸区域特征和各人体区域特征中的位置信息，对各身份信息和各行为姿态进行匹配和区域划分并获得讲台区域和学生区域中每个主体人物的身份信息和对应的行为姿态。

具体地，为了提高两个区域视频帧人脸识别和行为姿态识别的效率，同时减少系统资源的消耗，本发明实施例先将讲台区域的第一视频帧和学生区域的第二视频帧融合成一张图像，即课堂教学图像，再将课堂教学图像输入到目标检测网络中，由目标检测网络对课堂教学图像中存在的人体区域以及人脸区域进行定位，从而获得课堂教学图像中的各人脸区域特征和各人体区域特征。此处，各人脸区域特征、各人体区域特征均可以包括当前区域的目标是人脸还是人体的类别信息cls，还可以包括当前区域在图像中的位置信息loc。根据位置信息可以进行分割，得到课堂教学图像中的各人脸区域图像和各人体区域图像。

接着，可以按照cls划分特征集使得R＝{R_body,R_face}，R_body为各人体区域特征组成的集合，R_face为各人脸区域特征组成的集合，并将R_body与R_face分别输入行为姿态识别网络以及人脸识别网络中，也就是说，将R_face输入人脸识别网络中获取当前人脸区域中人脸代表的主体身份，从而获得各人脸区域特征对应的身份信息，将R_body输入至行为姿态识别网络，从而获得各人体区域特征对应的行为姿态。

随后，根据目标检测网络获取的各人脸区域特征和各人体区域特征中的位置信息loc，通过多模型的特征融合将人脸识别结果与课堂行为姿态识别结果进行匹配融合，建立主体人物的身份信息和行为姿态之间的对应关系，得到课堂中所有主体人物的身份—行为姿态信息。最后，按照loc所属的区域是讲台区域还是学生区域进行划分，从而获得讲台区域中所有主体人物的身份—行为姿态信息、学生区域中所有主体人物的身份—行为姿态信息。

需要说明的是，考虑到如果教师或学生在黑板上板书，此时可能无法获取该主体人物的人脸图像，进而无法得到该主体人物的身份信息，对于类似这种情况，在进行主体人物的身份信息和行为姿态匹配时，如果根据位置信息无法匹配到行为姿态对应的身份信息，则可以设置该行为姿态对应的身份信息为空。

进一步地，图2是本发明实施例提供的行为姿态分类与人脸识别的流程图，考虑到常规的行为姿态分类与人脸识别流程中，同时使用两个模型会导致系统资源或分析时间的增加，因此，本发明实施例基于YOLO训练出了可同时获取人体与人脸位置的目标检测网络FP-YOLO(You Only Look Once Advanced by Fully Pre-training)，具有快速且消耗资源较少的优势，如图2.c所示。其中图2.a为串行化的目标检测方式，即先进行人体目标检测再进行人脸目标检测，图2.b为分离并发式的目标检测方式，即分别用两个模型进行人体目标检测和人脸目标检测，图2.a、图2.b分别增加系统的时间消耗与资源消耗。

基于上述任一实施例，基于各人体区域特征进行行为姿态识别并获得各人体区域特征对应的行为姿态，包括：

基于各人体区域特征进行人体关键点提取，得到各人体区域特征对应的人体关键点，并基于人体关键点构建人体结构图特征；

基于各人体区域特征和对应的人体结构图特征进行行为姿态分类，得到各人体区域特征对应的行为姿态。

具体地，在课堂行为姿态识别过程中，课堂主体之间存在着背景紊乱、主体对象形体差异大、主体行为姿态差异性小等问题，因此一般的图像分类网络在课堂教学中的识别率并不十分突出。针对上述问题，为了提升行为姿态识别的准确性，本发明实施例中行为姿态识别网络包括人体关键点提取子网络和行为姿态分类子网络，即行为姿态识别可以分为两步，分为人体关键点提取以及行为姿态分类。在人体关键点提取阶段，人体关键点提取子网络基于各人体区域特征，快速获取各人体区域中的人体关键点，并基于人体关键点构建对应的人体结构图特征，此处的人体结构图特征可以是根据人体关键点进行连线得到的，用于表征人体的肢干结构。在行为姿态分类阶段，行为姿态分类子网络结合各人体结构图特征与原始的各人体区域特征，对人体区域中人体的行为姿态进行分类，从而得到各人体区域特征对应的行为姿态。

进一步地，本发明实施例提供的行为姿态识别网络的具体网络结构如图3所示，行为姿态识别网络包括关键点提取子网络(即图3中的OpenPose)、GAT(Graph attentionnetworks，图注意力网络)、GCN(Graph Convolutional Neural Networks，图卷积神经网络)、CNN(Convolutional Neural Network，卷积神经网络)和注意力残差网络。将目标检测后得到的人体区域图像输入OpenPose中，获取图像中的人体关键点，并构建人体结构图特征，人体结构图特征经过GAT、GCN之后所得的O_g输入到注意力残差网络中，同时原始的人体区域图像经过CNN之后所得的O_c输入到注意力残差网络中，注意力残差网络应用注意力机制对上述两种输入进行关联，其中Q_g、K_c和V_c为注意力机制的权重矩阵，最终得到的特征再用于后续的行为姿态分类。需要说明的是，本发明实施例提供的基于注意力机制的多特征行为姿态分类方法，较之传统的课堂行为姿态分类方法，极大地提升了分类准确率。

基于上述任一实施例，主体人物的身份信息包括：教师以及学生；主体人物的行为姿态包括：阅读/记笔记、听课、侧身、举手、站立以及板书；

课堂教学行为包括：教师板书、教师讲课、教师提问、教师巡堂、学生板书、学生讨论、学生练习、学生回答问题以及学生上台。

基于上述任一实施例，课堂教学行为判别函数是基于贝叶斯因果网络构建的。

具体地，本发明实施例提出了针对双视频流的基于贝叶斯因果网的S-T教学分析法，以讲台区域、学生区域中每个主体人物的身份信息和对应的行为姿态作为条件信息，统计分析讲台区域中的身份信息、行为姿态，以及学生区域中的身份信息、行为姿态，再根据贝叶斯因果网络构建课堂教学行为判别函数，来判定当前时刻的课堂教学行为所属的类别。

进一步地，本发明实施例提供的具体的课堂教学行为判别函数如表1所示。当讲台区域中处于板书行为姿态的主体数量等于1且身份信息为教师的主体数量等于1(T＝1)，或者讲台区域中处于板书行为姿态的主体数量等于1，且学生区域人脸检测到存在教师身份或学生区域中处于站立行为姿态的主体数量等于1且其对应的身份信息不是学生(E＝1andIE≠S)，或者讲台区域中处于板书行为姿态的主体数量大于1，表示当前教学状态处于学生板书状态，即课堂教学行为是行为5。当学生区域学生处于侧身行为姿态的比例至少占学生总数的30％时，表示当前教学状态处于学生讨论状态，即课堂教学行为是行为6。当讲台区域出现学生处于站立行为姿态时，表示当前处于学生上台状态，即课堂教学行为是行为9。

在上述行为之外，当学生区域中学生处于听课行为姿态的数量大于学生整体数量的30％时，默认当前教学状态处于教师讲课状态，即课堂教学行为是行为2。在行为2的条件下，学生区域主体处于站立行为姿态的数量为0，学生区域未人脸检测到教师身份，并且讲台区域处于板书行为姿态的主体数量为1时，表示当前教学状态处于教师板书状态，即课堂教学行为是行为1；学生区域中学生处于举手姿态的数量大于学生整体数量的10％，且当前无学生站立时，表示当前教学状态处于教师提问状态，即课堂教学行为是行为3；当学生区域中处于站立行为姿态的学生数量大于等于1时，表示当前教学状态处于学生回答问题状态，即课堂教学行为是行为8。当学生区域中学生处于阅读/记笔记行为姿态的比例大于30％，默认当前教学状态处于学生练习状态，即课堂教学行为是行为7。在行为7的条件下，并且教师不在讲台区域时，表示当前处于教师巡堂状态，即课堂教学行为是行为4。

表1

通过此种方式，可以得到多个时刻对应的课堂教学行为，将多个时刻按照时间顺序串接起来，即可得到课堂教学行为序列。

基于上述任一实施例，机器学习与深度学习是目前人工智能研究的热点，在很多领域取得了良好的效果。将人工智能技术应用于课堂，构建基于S-T教学分析法的自动化课堂教学行为分析系统，大大减少了课堂教学行为分析所需的人力物力，避免了传统教学行为分析方法的弊端，提升了课堂教学行为分析的客观性。但目前的课堂教学行为分析系统存在着以下问题：现有分析方法多采用多路镜头切换视频，需要专人拍摄，且无法获取课堂整体情况，视频信息量存在一定的丢失，导致课堂教学行为分析不全面，课堂教学行为识别准确率有待提高；并且，现有方法无法对于个人的课堂教学行为进行统计分析。

针对上述问题，本发明提供一种基于双视频流多通道的课堂教学行为识别方法(Classroom Teaching Behavior Analysis based on Dual Video Streams，DVS-TBA)。图4是本发明实施例提供的基于多通道的课堂教学行为识别方法的流程图之二，如图4所示，该方法可以分为4个阶段：双视频流的图像融合、图像目标检测、图像表征提取以及课堂教学行为编码，具体如下：

步骤1：双视频流的图像融合

双视频流的图像融合分为双视频流的数据对齐和双视频流的数据融合，此处的双视频流分别来源于第一摄像头和第二摄像头。

本发明实施例提供的双视频流的数据对齐流程如图5所示，首先，通过时间服务器同步两个摄像头时间，使摄像头时间维持在同一时间线。为了使两个摄像头之间的同步时间误差尽可能小，需要使时间服务器和摄像头在同一局域网内。之后，将通过视频流解析的数据I通过时间对齐生成数据I′＝{P₁,P₂,T}。其中P₁表示第一摄像头的图像即讲台区域的第一视频帧，P₂表示第二摄像头的图像即学生区域的第二视频帧，T表示当前图像对应的时刻。

在数据对齐的基础上，将两张图像上下拼接为同一张图像，即课堂教学图像(例如，讲台区域在上方1/2区域，学生区域在下方1/2区域，且中间添加较窄的黑条区分两个区域避免出现识别误差)，用于后续的课堂中主体人物的身份—行为姿态信息提取。

步骤2：图像目标检测和图像表征提取

通过调研传统的课堂教学行为分析方法，并根据目前较为前沿的技术进行分析，本发明实施例提出一种基于多模型的课堂主体身份—行为姿态表征模型，模型的总体流程框架如图6所示。在步骤1的基础上，利用FP-YOLO算法对于课堂教学图像中存在的人体区域以及人脸区域进行定位，获取人体—人脸区域定位特征集R＝{r₁,r₂,…r_i,…,r_n},r_i＝{cls,loc},cls∈{body,face}。其中，cls表示当前区域中图像表示的类别；loc＝[x,y,w,h]，x和y表示区域中心点的横坐标与纵坐标，w表示区域的宽度，h表示区域的高度。

接着，通过区域划分特征数据使R＝{R_body,R_face}，并将R_body与R_face分别输入行为姿态识别网络以及人脸识别网络中进一步分析，如图6中的第二步。其中行为姿态识别分为两步，分为人体关键点提取以及行为姿态分类。在人体关键点提取阶段，关键点提取子网络基于OpenPose的人体姿态估计的性能，快速获取人体区域图像中的人体关键点，构建人体结构图特征。在行为姿态分类阶段，将人体结构图特征与原始的人体区域特征输入MCG-CPR(Classroom Pose Recognition based on Mixed Cnn and Gnn neural networks)网络，MCG-CPR应用注意力机制对两种特征进行关联，最终得到行为姿态分类结果A＝{a₁,a₂,…,a_m},a_m＝{cls,loc,action}。在人脸识别网络中，根据人脸区域图像获取当前人脸区域中人脸代表的主体身份，得到人脸识别结果D＝{d₁,d₂,…,d_k},d_k＝{cls,loc,identify}，其中identify表示当前区域中人脸对应的主体身份信息。

最后，基于FP-YOLO模型获取的loc特征，通过多模型的特征融合将人脸识别结果与课堂行为姿态识别结果进行匹配融合，构建课堂中每个主体人物的身份—行为姿态信息H＝{h₁,h₂,…,h_l},h_l＝{identify,action},l＝max(m,k)。

步骤3：课堂教学行为编码

在步骤2的基础上，首先将提取的课堂中每个主体人物的身份—行为姿态信息输入到双视频流的课堂主体身份—行为姿态信息切分模块中，使获取的所有主体身份—行为姿态信息H_all＝{H_platform,H_student}。其中，H_platform表示讲台区域提取的身份—行为姿态信息，H_student表示学生区域提取的身份—行为姿态信息。随后，以H_all作为条件信息，判定当前时刻的课堂教学行为。H_all中主体的行为姿态信息包括阅读/记笔记、听课、侧身、举手、站立以及板书。贝叶斯因果网络通过对讲台区域以及学生区域的身份—行为姿态信息进行归纳分析，编码当前时刻的课堂教学行为，将多个时刻按照时间顺序串接起来，即可得到课堂教学行为序列。

本发明实施例提出的基于贝叶斯因果网络的双视频流S-T教学分析法，能有效地利用双视频流的课堂主体身份—行为姿态信息获取课堂教学行为编码。

基于上述任一实施例，本发明实施例构建出无需人员干预、能完整使用教学信息分析课堂与个人教学行为的课堂教学行为分析系统，该方法包括双视频流的数据对齐、融合方法、基于多模型的课堂主体身份—行为姿态表征模型、双视频流的课堂主体身份—行为姿态信息切分方法以及针对双视频流的基于贝叶斯因果网的S-T教学分析法，具体如下：

1、针对传统多路镜头切换视频造成的信息丢失等问题，本发明实施例将教学区域划分为讲台区域与学生区域，并通过定向的双摄像头分别对于讲台区域与学生区域进行录制，并提出了双视频流的数据对齐、融合方法，使双视频流数据可被基于多模型的课堂主体身份—行为姿态表征模型进行信息提取。

为了便于后续表征提取模型进行信息提取，需要进行双视频流的数据预处理，首先解析视频流获取视频流中包含的时间信息和图像数据。然后，利用时间信息与图像数据通过时间对齐(如图5所示)、图像融合构建融合图像，即课堂教学图像。

2、为了通过非切换的双路视频流对课堂教学行为进行编码，本发明实施例基于多模型的课堂主体身份—行为姿态表征模型获取课堂教学视频流中蕴含的所有行为姿态特征，并确认行为姿态特征对应的身份信息，即提取课堂主体身份—行为姿态表征。

本发明实施例提出基于多模型的课堂主体身份—行为姿态表征模型提取视频中的信息，获取课堂主体身份—行为姿态信息，可以实现对课堂视频数据进行处理，提高了识别的准确率与速度。

3、在获取课堂主体身份—行为姿态表征的过程中，首先需要进行目标检测，即定位人体和人脸的位置，随后进行行为姿态分类与人脸识别。考虑到常规的行为姿态分类与人脸识别流程中，同时使用两个模型会导致系统资源或分析时间的增加，因此，本发明实施例基于YOLO训练出了可同时获取人体与人脸位置的目标检测网络FP-YOLO，具有快速且消耗资源较少的优势，如图2.c所示。

4、在课堂行为姿态分类过程中，课堂主体之间存在着背景紊乱、主体对象形体差异大、主体行为姿态差异性小等问题，因此一般的图像分类网络在课堂教学中的识别率并不十分突出。为了提升课堂行为姿态分类的准确度，本发明实施例深入研究课堂教学场景的特殊性，提出了一种多层神经网络架构—基于注意力机制的多特征课堂行为姿态分类网络MCG-CPR。

通过分析课堂教学视频数据的特性，并根据调研的相关信息，将原始数据进行预处理并提取对应特征，构建一种人体结构图特征，并结合原始的图像分类模型进行多特征的课堂教学行为姿态分类。其具体网络结构如图3所示，将目标检测后得到的人体区域图像输入OpenPose获取图像中的人体关键点，并构建人体结构图特征，人体结构图特征经过GAT、GCN之后输入到注意力残差网络中，同时原始的人体区域图像经过CNN之后输入到注意力残差网络中，二者结合的特征再用于行为姿态分类。

5、为了利用双视频流中提取的课堂主体身份—行为姿态表征获取课堂教学行为编码，本发明实施例将提取的课堂中每个主体人物的身份—姿态特征输入到双视频流的课堂主体身份—行为姿态信息切分模块中，获得讲台区域、学生区域分别提取的身份—行为姿态信息，在此基础上，提出了针对双视频流的基于贝叶斯因果网的S-T教学分析法，编码当前时刻的课堂教学行为。

基于上述任一实施例，图7是本发明实施例提供的基于多通道的课堂教学行为识别系统的架构图，如图7所示，该系统包括：

视频帧获取模块710，用于获取第一摄像头和第二摄像头分别在同一时刻采集的第一视频帧和第二视频帧；第一摄像头用于对教室的讲台区域进行视频采集；第二摄像头用于对教室的学生区域进行视频采集；

视频帧识别模块720，用于对第一视频帧和第二视频帧分别进行人脸识别和行为姿态识别并获得讲台区域和学生区域中每个主体人物的身份信息和对应的行为姿态；

教学行为判别模块730，用于基于讲台区域和学生区域中每个主体人物的身份信息和对应的行为姿态，以及预设的课堂教学行为判别函数，获得该时刻对应的课堂教学行为。

本发明实施例提供的系统，通过将教学区域划分为讲台区域与学生区域，利用双摄像头分别对于讲台区域与学生区域进行视频录制，从而避免了课堂教学场景视频信息量丢失的问题，基于双视频流进行人脸识别与行为姿态识别，得到讲台区域、学生区域中所有主体人物的身份信息和对应的行为姿态，并基于此进行统计分析，最终确定出课堂教学场景下的教学行为，从而实现了课堂教学行为的自动分析，极大地提升了课堂教学行为分析的客观性、全面性和准确率。

可以理解的是，上述各个模块的详细功能实现可参见前述方法实施例中的介绍，在此不做赘述。

另外，本发明实施例提供了另一种基于多通道的课堂教学行为识别装置，其包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现上述实施例中的方法。

此外，本发明还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述实施例中的方法。

基于上述实施例中的方法，本发明实施例提供了一种计算机程序产品，当计算机程序产品在处理器上运行时，使得处理器执行上述实施例中的方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多通道的课堂教学行为识别方法，其特征在于，包括：

2.根据权利要求1所述的课堂教学行为识别方法，其特征在于，步骤S102具体包括：

3.根据权利要求2所述的课堂教学行为识别方法，其特征在于，所述基于所述各人体区域特征进行行为姿态识别并获得所述各人体区域特征对应的行为姿态，包括：

4.根据权利要求1所述的课堂教学行为识别方法，其特征在于，所述主体人物的身份信息包括：教师以及学生；主体人物的行为姿态包括：阅读/记笔记、听课、侧身、举手、站立以及板书；

5.根据权利要求1至4中任一项所述的课堂教学行为识别方法，其特征在于，所述课堂教学行为判别函数是基于贝叶斯因果网络构建的。

6.一种基于多通道的课堂教学行为识别系统，其特征在于，包括：

7.根据权利要求6所述的课堂教学行为识别系统，其特征在于，所述视频帧识别模块包括：

8.根据权利要求7所述的课堂教学行为识别系统，其特征在于，所述行为姿态识别单元用于基于所述各人体区域特征进行人体关键点提取，得到所述各人体区域特征对应的人体关键点，并基于所述人体关键点构建人体结构图特征，以及基于所述各人体区域特征和对应的人体结构图特征进行行为姿态分类，得到所述各人体区域特征对应的行为姿态。

9.根据权利要求6所述的课堂教学行为识别系统，其特征在于，所述视频帧识别模块确定的主体人物的身份信息包括：教师以及学生；确定的主体人物的行为姿态包括：阅读/记笔记、听课、侧身、举手、站立以及板书；

10.根据权利要求6至9中任一项所述的课堂教学行为识别系统，其特征在于，所述教学行为判别模块使用的所述课堂教学行为判别函数是基于贝叶斯因果网络构建的。