CN110427977B

CN110427977B - 一种课堂互动行为的检测方法

Info

Publication number: CN110427977B
Application number: CN201910620066.3A
Authority: CN
Inventors: 杨溢; 申瑞民; 姜飞
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2021-07-27
Anticipated expiration: 2039-07-10
Also published as: CN110427977A

Abstract

本发明涉及一种课堂互动行为的检测方法，从教师授课的视频和音频中提取出课堂互动行为特征，其特征在于，该方法包括以下步骤：1)将视频的一帧载入预训练的R‑FCN的网络中，提取对象动作特征；将音频的一帧载入预训练的支持向量机分类器中，提取对象语音特征；2)遍历课堂中的每个对象，采用步骤1)所述方法提取对象动作特征和对象语音特征，从而建立每个对象的教学对象模型；3)基于每个对象的教学对象模型，通过预建立的映射关系表，进行课堂互动行为标注。与现有技术相比，本发明检测准确率高，适用于各类课堂视频场景。

Description

一种课堂互动行为的检测方法

技术领域

本发明涉及教育信息化领域，尤其是涉及一种课堂互动行为的检测方法。

背景技术

Flanders互动分析法是传统教学领域应用最广泛的课堂分析方法之一，是教育工作者分析课堂师生互动状况的有效工具。在过去的课堂分析工作中，教育工作者使用纸质记录卡记录课堂活动，过程繁琐，容易丢失；随着教育信息化技术的发展，录播教室普及到每间中小学校，教育工作者们积累了大量优质的教学课堂视频。由于噪声和高度动态的背景，不同的光照条件，在一个典型的课堂环境中应用传统Flanders分析法是一个具有挑战性地任务。

文献“教育视频中教学行为分析系统研究”(关钦，西安电子科技大学,2015)介绍了一种基于MOOC视频的自动化的课堂分析方法，其进行课堂分析的层次模型如图4所示，该方法从视频和音频两个方面提取特征，如图5所示，在音频方面，通过提取不同话语者的MFCC系数作为音频特征，分割出不同话语者的语音部分；并在此基础上识别音频中的特定词组；在视频方面，通过OCR(光学字符识别)识别MOOC视频中的字幕，与音频方面的工作互补以提升准确性。另一方面，如图6所示，该方法通过边缘检测的方式识别视频中的PPT变化，检测教师是否正在使用多媒体教学手段。

但上述现有方法存在以下缺点：1)只能用于MOOC场景，需要字幕配合以提高语音检测的准确率；2)限于语音识别的准确率，对关键词的检测准确率不高；3)仅限于英文课程，中文的音素与英文差别较大，该方法不适用与中文课程。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种课堂互动行为的检测方法。

本发明的目的可以通过以下技术方案来实现：

一种课堂互动行为的检测方法，从教师授课的视频和音频中提取出课堂互动行为特征，其特征在于，该方法包括以下步骤：

S1：将视频的一帧载入预训练的R-FCN的网络中，提取对象动作特征；将音频的一帧载入预训练的支持向量机分类器中，提取对象语音特征；

S2：遍历课堂中的每个对象，基于步骤S1所述方法提取对象动作特征和对象语音特征，从而建立每个对象的教学对象模型；

S3：基于每个对象的教学对象模型，通过预建立的映射关系表，进行课堂互动行为标注。

进一步地，对象语音特征包括语速和音量。为实现Flanders分析法的电子化，区分真实课堂环境中老师讲授、学生回答、学生集体讨论等教学情景，另设计有两个与真实课堂情景高度相关的语音检测指标：区分老师发音与学生发音、区分单人发音与多人发音。

进一步地，对象动作特征包括学生举手和学生站立。

进一步地，所述语速的提取具体为：从音频中提取音节，然后依据单位时间内提取到的音节数计算语速。

进一步地，所述音量的提取具体为：对音频进行快速傅里叶变换，从而提取出音量。

进一步地，所述老师发音和学生发音的提取具体为：将音频载入预训练的支持向量机分类器中，提取老师发音和学生发音的特征；所述支持向量机分类器基于预获取的老师声音样本和学生声音样本的MFCC系数进行训练。

进一步地，所述单人发音和多人发音的提取具体为：将音频载入预训练的支持向量机分类器中，提取单人发音和多人发音的特征；所述支持向量机分类器基于预获取的音频样本的基音周期进行训练。

进一步地，所述对象语音特征的获取还包括对音频进行预处理，所述预处理步骤包括去噪和增强。

进一步地，所述步骤S2中，参考传统Flanders分析法，课堂互动行为包括：教师讲授、教师提问、学生应答、课堂静默和学生讨论。

进一步地，所述映射关系表中，老师提问和学生应答基于动作特征进行映射。

进一步地，所述检测方法还包括遍历视频和音频的每一帧，进行基于时序关系的课堂互动行为标注。

与现有技术相比，本发明具有以下优点：

(1)本发明针对课堂互动行为检测中，对象语音特征的提取方法进行改进，采用单位时间的音节数计算语速，对音频进行快速傅里叶变换，提取出音量，不再局限于英文课堂，适用范围更广，且准确率更高。

(2)本发明为实现Flanders分析法的电子化，区分真实课堂环境中老师讲授、学生回答、学生集体讨论等教学情景，另设计有两个与真实课堂情景高度相关的语音检测指标：区分老师发音与学生发音、区分单人发音与多人发音。

(3)本发明采用R-FCN的网络提取对象动作特征；采用支持向量机分类器提取语音特征，具有较强的鲁棒性。

(4)本发明检测出的课堂互动行为包括教师讲授、教师提问、学生应答、课堂静默和学生讨论，能满足教育工作者对课堂互动分析法广泛应用的需求。

(5)本发明对对象动作特征和对象语音特征的检测方法可应用于各类课堂视频场景。

附图说明

图1为本发明课堂互动行为检测方法的整体框图；

图2为本发明实施例用以提取对象动作特征的网络模型建构图；

图3为本发明提取对象语音特征的流程图；

图4为文献“教育视频中教学行为分析系统研究”所述课堂分析方法的层次模型图；

图5为文献“教育视频中教学行为分析系统研究”所述课堂分析方法通过分割、聚类的方式提取不同话语者音频片段的示意图；

图6为文献“教育视频中教学行为分析系统研究”所述课堂分析方法通过边缘检测的方式检测教师使用PPT的示意图，(a)为原始图，(b)为边缘检测图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例为一种课堂互动行为的检测方法，首先定义课堂上基础的对象动作特征与对象语音特征，在此基础上，建立课堂情景中每个对象的教学对象模型，最后分析教学对象模型间的互动行为。

下面对本实施例检测方法的每一步骤进行具体描述：

1、定义课堂上基础的对象动作特征与对象语音特征

课堂上基础的对象动作特征包含：学生举手和学生站立。

对象语音特征包含：音量高低、语速快慢和音色区分等，为实现Flanders分析法的电子化，区分真实课堂环境中老师讲授、学生回答、学生集体讨论等教学情景，还设计了两个与真实课堂情景高度相关的语音检测指标：区分教师音与学生音、区分单人音与多人音。

2、建立教学对象模型

为检测课堂情景中发生的学生举手和学生站立的动作，本实施例使用如图2所示的基于R-FCN的网络结构。首先在大量课堂视频中采集学生举手、学生站立的样本，用来训练该网络结构，然后在测试视频中检测学生举手、学生站立。

如图3所示，为提取课堂情景中的对象语音特征，如语速和音量，首先在课堂音频中使用去噪、增强的预处理手段，得到比较干净的课堂音频。然后在处理后的课堂音频中提取音节，并依据单位时间内提取的音节数计算语速；另一方面，本实施例对提取到的音频进行快速傅里叶变换，以提取音频的响度，即音量。为区分课堂情景中的老师发音与学生发音，本实施例采集真实课堂视频中的老师声音样本与学生声音样本，并分别提取其MFCC系数，用于训练支持向量机(SVM)分类器，用于区分老师声音与学生声音；类似的，本实施例以基音周期为特征，训练支持向量机分类器，用于区分单人发音与多人发音。

遍历课堂视频中的每个对象，进行对象动作特征和对象语音特征提取，从而建立每个对象的教学对象模型。

3、教学对象模型间互动行为的分析

首先，定义教学对象模型，如表1所示，参考传统Flanders分析法，本实施例定义了5种课堂互动行为：教师讲授、教师提问、学生应答、课堂静默和学生讨论。

表1

然后，建立映射关系表，如表2所示，本实施例建立了对象动作特征和对象语音特征与课堂互动行为的映射关系。

表2

表中，“+”为该行为出现，“-”为该行为没有出现，“/”为该行为不需要。

最后，基于每个对象的教学对象模型，通过建立的映射关系表，进行课堂互动行为标注。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种课堂互动行为的检测方法，从教师授课的视频和音频中提取出课堂互动行为特征，其特征在于，该方法包括以下步骤：

S1：将视频的一帧载入预训练的R-FCN的网络中，提取对象动作特征；将音频的一帧载入预训练的支持向量机分类器中，提取对象语音特征，包括语速、音量、老师发音、学生发音、单人发音和多人发音；

S2：遍历课堂中的每个对象，采用步骤S1所述方法提取对象动作特征和对象语音特征，从而建立每个对象的教学对象模型；

S3：基于每个对象的教学对象模型，通过预建立的映射关系表，进行课堂互动行为标注；

所述老师发音和学生发音的提取具体为：将音频载入预训练的支持向量机分类器中，提取老师发音和学生发音的特征；所述支持向量机分类器基于预获取的老师声音样本和学生声音样本的MFCC系数进行训练；

所述单人发音和多人发音的提取具体为：将音频载入预训练的支持向量机分类器中，提取单人发音和多人发音的特征；所述支持向量机分类器基于预获取的音频样本的基音周期进行训练。

2.根据权利要求1所述的课堂互动行为的检测方法，其特征在于，所述语速的提取具体为：从音频中提取音节，然后依据单位时间内提取到的音节数计算语速。

3.根据权利要求1所述的课堂互动行为的检测方法，其特征在于，所述音量的提取具体为：对音频进行快速傅里叶变换，从而提取出音量。

4.根据权利要求1所述的课堂互动行为的检测方法，其特征在于，所述对象语音特征的获取还包括对音频进行预处理，所述预处理步骤包括去噪和增强。

5.根据权利要求1所述的课堂互动行为的检测方法，其特征在于，所述步骤S3中，课堂互动行为包括：老师讲授、老师提问、学生应答、课堂静默和学生讨论。

6.根据权利要求5所述的课堂互动行为的检测方法，其特征在于，所述映射关系表中，老师提问和学生应答基于对象动作特征进行映射。

7.根据权利要求1所述的课堂互动行为的检测方法，其特征在于，所述检测方法还包括遍历视频和音频的每一帧，进行时域上的课堂互动行为标注。