CN110427977B - 一种课堂互动行为的检测方法 - Google Patents

一种课堂互动行为的检测方法 Download PDF

Info

Publication number
CN110427977B
CN110427977B CN201910620066.3A CN201910620066A CN110427977B CN 110427977 B CN110427977 B CN 110427977B CN 201910620066 A CN201910620066 A CN 201910620066A CN 110427977 B CN110427977 B CN 110427977B
Authority
CN
China
Prior art keywords
classroom
pronunciation
interaction behavior
audio
student
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910620066.3A
Other languages
English (en)
Other versions
CN110427977A (zh
Inventor
杨溢
申瑞民
姜飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910620066.3A priority Critical patent/CN110427977B/zh
Publication of CN110427977A publication Critical patent/CN110427977A/zh
Application granted granted Critical
Publication of CN110427977B publication Critical patent/CN110427977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种课堂互动行为的检测方法,从教师授课的视频和音频中提取出课堂互动行为特征,其特征在于,该方法包括以下步骤:1)将视频的一帧载入预训练的R‑FCN的网络中,提取对象动作特征;将音频的一帧载入预训练的支持向量机分类器中,提取对象语音特征;2)遍历课堂中的每个对象,采用步骤1)所述方法提取对象动作特征和对象语音特征,从而建立每个对象的教学对象模型;3)基于每个对象的教学对象模型,通过预建立的映射关系表,进行课堂互动行为标注。与现有技术相比,本发明检测准确率高,适用于各类课堂视频场景。

Description

一种课堂互动行为的检测方法
技术领域
本发明涉及教育信息化领域,尤其是涉及一种课堂互动行为的检测方法。
背景技术
Flanders互动分析法是传统教学领域应用最广泛的课堂分析方法之一,是教育工作者分析课堂师生互动状况的有效工具。在过去的课堂分析工作中,教育工作者使用纸质记录卡记录课堂活动,过程繁琐,容易丢失;随着教育信息化技术的发展,录播教室普及到每间中小学校,教育工作者们积累了大量优质的教学课堂视频。由于噪声和高度动态的背景,不同的光照条件,在一个典型的课堂环境中应用传统Flanders分析法是一个具有挑战性地任务。
文献“教育视频中教学行为分析系统研究”(关钦,西安电子科技大学,2015)介绍了一种基于MOOC视频的自动化的课堂分析方法,其进行课堂分析的层次模型如图4所示,该方法从视频和音频两个方面提取特征,如图5所示,在音频方面,通过提取不同话语者的MFCC系数作为音频特征,分割出不同话语者的语音部分;并在此基础上识别音频中的特定词组;在视频方面,通过OCR(光学字符识别)识别MOOC视频中的字幕,与音频方面的工作互补以提升准确性。另一方面,如图6所示,该方法通过边缘检测的方式识别视频中的PPT变化,检测教师是否正在使用多媒体教学手段。
但上述现有方法存在以下缺点:1)只能用于MOOC场景,需要字幕配合以提高语音检测的准确率;2)限于语音识别的准确率,对关键词的检测准确率不高;3)仅限于英文课程,中文的音素与英文差别较大,该方法不适用与中文课程。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种课堂互动行为的检测方法。
本发明的目的可以通过以下技术方案来实现:
一种课堂互动行为的检测方法,从教师授课的视频和音频中提取出课堂互动行为特征,其特征在于,该方法包括以下步骤:
S1:将视频的一帧载入预训练的R-FCN的网络中,提取对象动作特征;将音频的一帧载入预训练的支持向量机分类器中,提取对象语音特征;
S2:遍历课堂中的每个对象,基于步骤S1所述方法提取对象动作特征和对象语音特征,从而建立每个对象的教学对象模型;
S3:基于每个对象的教学对象模型,通过预建立的映射关系表,进行课堂互动行为标注。
进一步地,对象语音特征包括语速和音量。为实现Flanders分析法的电子化,区分真实课堂环境中老师讲授、学生回答、学生集体讨论等教学情景,另设计有两个与真实课堂情景高度相关的语音检测指标:区分老师发音与学生发音、区分单人发音与多人发音。
进一步地,对象动作特征包括学生举手和学生站立。
进一步地,所述语速的提取具体为:从音频中提取音节,然后依据单位时间内提取到的音节数计算语速。
进一步地,所述音量的提取具体为:对音频进行快速傅里叶变换,从而提取出音量。
进一步地,所述老师发音和学生发音的提取具体为:将音频载入预训练的支持向量机分类器中,提取老师发音和学生发音的特征;所述支持向量机分类器基于预获取的老师声音样本和学生声音样本的MFCC系数进行训练。
进一步地,所述单人发音和多人发音的提取具体为:将音频载入预训练的支持向量机分类器中,提取单人发音和多人发音的特征;所述支持向量机分类器基于预获取的音频样本的基音周期进行训练。
进一步地,所述对象语音特征的获取还包括对音频进行预处理,所述预处理步骤包括去噪和增强。
进一步地,所述步骤S2中,参考传统Flanders分析法,课堂互动行为包括:教师讲授、教师提问、学生应答、课堂静默和学生讨论。
进一步地,所述映射关系表中,老师提问和学生应答基于动作特征进行映射。
进一步地,所述检测方法还包括遍历视频和音频的每一帧,进行基于时序关系的课堂互动行为标注。
与现有技术相比,本发明具有以下优点:
(1)本发明针对课堂互动行为检测中,对象语音特征的提取方法进行改进,采用单位时间的音节数计算语速,对音频进行快速傅里叶变换,提取出音量,不再局限于英文课堂,适用范围更广,且准确率更高。
(2)本发明为实现Flanders分析法的电子化,区分真实课堂环境中老师讲授、学生回答、学生集体讨论等教学情景,另设计有两个与真实课堂情景高度相关的语音检测指标:区分老师发音与学生发音、区分单人发音与多人发音。
(3)本发明采用R-FCN的网络提取对象动作特征;采用支持向量机分类器提取语音特征,具有较强的鲁棒性。
(4)本发明检测出的课堂互动行为包括教师讲授、教师提问、学生应答、课堂静默和学生讨论,能满足教育工作者对课堂互动分析法广泛应用的需求。
(5)本发明对对象动作特征和对象语音特征的检测方法可应用于各类课堂视频场景。
附图说明
图1为本发明课堂互动行为检测方法的整体框图;
图2为本发明实施例用以提取对象动作特征的网络模型建构图;
图3为本发明提取对象语音特征的流程图;
图4为文献“教育视频中教学行为分析系统研究”所述课堂分析方法的层次模型图;
图5为文献“教育视频中教学行为分析系统研究”所述课堂分析方法通过分割、聚类的方式提取不同话语者音频片段的示意图;
图6为文献“教育视频中教学行为分析系统研究”所述课堂分析方法通过边缘检测的方式检测教师使用PPT的示意图,(a)为原始图,(b)为边缘检测图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例为一种课堂互动行为的检测方法,首先定义课堂上基础的对象动作特征与对象语音特征,在此基础上,建立课堂情景中每个对象的教学对象模型,最后分析教学对象模型间的互动行为。
下面对本实施例检测方法的每一步骤进行具体描述:
1、定义课堂上基础的对象动作特征与对象语音特征
课堂上基础的对象动作特征包含:学生举手和学生站立。
对象语音特征包含:音量高低、语速快慢和音色区分等,为实现Flanders分析法的电子化,区分真实课堂环境中老师讲授、学生回答、学生集体讨论等教学情景,还设计了两个与真实课堂情景高度相关的语音检测指标:区分教师音与学生音、区分单人音与多人音。
2、建立教学对象模型
为检测课堂情景中发生的学生举手和学生站立的动作,本实施例使用如图2所示的基于R-FCN的网络结构。首先在大量课堂视频中采集学生举手、学生站立的样本,用来训练该网络结构,然后在测试视频中检测学生举手、学生站立。
如图3所示,为提取课堂情景中的对象语音特征,如语速和音量,首先在课堂音频中使用去噪、增强的预处理手段,得到比较干净的课堂音频。然后在处理后的课堂音频中提取音节,并依据单位时间内提取的音节数计算语速;另一方面,本实施例对提取到的音频进行快速傅里叶变换,以提取音频的响度,即音量。为区分课堂情景中的老师发音与学生发音,本实施例采集真实课堂视频中的老师声音样本与学生声音样本,并分别提取其MFCC系数,用于训练支持向量机(SVM)分类器,用于区分老师声音与学生声音;类似的,本实施例以基音周期为特征,训练支持向量机分类器,用于区分单人发音与多人发音。
遍历课堂视频中的每个对象,进行对象动作特征和对象语音特征提取,从而建立每个对象的教学对象模型。
3、教学对象模型间互动行为的分析
首先,定义教学对象模型,如表1所示,参考传统Flanders分析法,本实施例定义了5种课堂互动行为:教师讲授、教师提问、学生应答、课堂静默和学生讨论。
表1
Figure BDA0002125262090000051
然后,建立映射关系表,如表2所示,本实施例建立了对象动作特征和对象语音特征与课堂互动行为的映射关系。
表2
Figure BDA0002125262090000052
表中,“+”为该行为出现,“-”为该行为没有出现,“/”为该行为不需要。
最后,基于每个对象的教学对象模型,通过建立的映射关系表,进行课堂互动行为标注。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (7)

1.一种课堂互动行为的检测方法,从教师授课的视频和音频中提取出课堂互动行为特征,其特征在于,该方法包括以下步骤:
S1:将视频的一帧载入预训练的R-FCN的网络中,提取对象动作特征;将音频的一帧载入预训练的支持向量机分类器中,提取对象语音特征,包括语速、音量、老师发音、学生发音、单人发音和多人发音;
S2:遍历课堂中的每个对象,采用步骤S1所述方法提取对象动作特征和对象语音特征,从而建立每个对象的教学对象模型;
S3:基于每个对象的教学对象模型,通过预建立的映射关系表,进行课堂互动行为标注;
所述老师发音和学生发音的提取具体为:将音频载入预训练的支持向量机分类器中,提取老师发音和学生发音的特征;所述支持向量机分类器基于预获取的老师声音样本和学生声音样本的MFCC系数进行训练;
所述单人发音和多人发音的提取具体为:将音频载入预训练的支持向量机分类器中,提取单人发音和多人发音的特征;所述支持向量机分类器基于预获取的音频样本的基音周期进行训练。
2.根据权利要求1所述的课堂互动行为的检测方法,其特征在于,所述语速的提取具体为:从音频中提取音节,然后依据单位时间内提取到的音节数计算语速。
3.根据权利要求1所述的课堂互动行为的检测方法,其特征在于,所述音量的提取具体为:对音频进行快速傅里叶变换,从而提取出音量。
4.根据权利要求1所述的课堂互动行为的检测方法,其特征在于,所述对象语音特征的获取还包括对音频进行预处理,所述预处理步骤包括去噪和增强。
5.根据权利要求1所述的课堂互动行为的检测方法,其特征在于,所述步骤S3中,课堂互动行为包括:老师讲授、老师提问、学生应答、课堂静默和学生讨论。
6.根据权利要求5所述的课堂互动行为的检测方法,其特征在于,所述映射关系表中,老师提问和学生应答基于对象动作特征进行映射。
7.根据权利要求1所述的课堂互动行为的检测方法,其特征在于,所述检测方法还包括遍历视频和音频的每一帧,进行时域上的课堂互动行为标注。
CN201910620066.3A 2019-07-10 2019-07-10 一种课堂互动行为的检测方法 Active CN110427977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910620066.3A CN110427977B (zh) 2019-07-10 2019-07-10 一种课堂互动行为的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910620066.3A CN110427977B (zh) 2019-07-10 2019-07-10 一种课堂互动行为的检测方法

Publications (2)

Publication Number Publication Date
CN110427977A CN110427977A (zh) 2019-11-08
CN110427977B true CN110427977B (zh) 2021-07-27

Family

ID=68409205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910620066.3A Active CN110427977B (zh) 2019-07-10 2019-07-10 一种课堂互动行为的检测方法

Country Status (1)

Country Link
CN (1) CN110427977B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111107442B (zh) * 2019-11-25 2022-07-12 北京大米科技有限公司 音视频文件的获取方法、装置、服务器及存储介质
CN112164259A (zh) * 2020-10-15 2021-01-01 武汉职业技术学院 一种课堂师生互动教学系统及方法
WO2024077511A1 (zh) * 2022-10-12 2024-04-18 广州视源电子科技股份有限公司 互动统计方法、装置、设备、系统及存储介质
CN117079222B (zh) * 2023-10-17 2024-01-26 广州乐庚信息科技有限公司 一种基于课堂音视频智能分析的教案生成方法和系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080140411A1 (en) * 2006-12-07 2008-06-12 Jonathan Travis Millman Reading
US10097592B2 (en) * 2013-05-07 2018-10-09 Yellowpages.Com Llc Systems and methods to provide multiple connections for anonymous communication in a virtual environment
CN108108903A (zh) * 2017-12-26 2018-06-01 重庆大争科技有限公司 课堂教学质量评估系统
CN108090857B (zh) * 2017-12-29 2021-06-22 复旦大学 一种多模态的学生课堂行为分析系统和方法
CN109035089A (zh) * 2018-07-25 2018-12-18 重庆科技学院 一种在线课堂氛围评估系统及方法
CN109087222A (zh) * 2018-08-01 2018-12-25 阔地教育科技有限公司 课堂数据分析方法及系统
CN109800663A (zh) * 2018-12-28 2019-05-24 华中科技大学鄂州工业技术研究院 基于语音和视频特征的教师教学评估方法及设备
CN109949189A (zh) * 2019-03-13 2019-06-28 上海复岸网络信息科技有限公司 一种线上教学互动效果评价方法与装置

Also Published As

Publication number Publication date
CN110427977A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN110427977B (zh) 一种课堂互动行为的检测方法
CN110992741B (zh) 一种基于课堂情绪和行为分析的学习辅助方法及系统
CN108648757B (zh) 一种基于多维度课堂信息的分析方法
CN111709358B (zh) 基于课堂视频的师生行为分析系统
CN108090857B (zh) 一种多模态的学生课堂行为分析系统和方法
CN105405439B (zh) 语音播放方法及装置
CN113840109B (zh) 一种课堂音视频智能笔记方法
CN110544481A (zh) 一种基于声纹识别的s-t分类方法、装置及设备终端
CN109710931A (zh) 一种基于智能分析技术的课堂教学内容评价系统及其方法
CN110930781B (zh) 录播系统
CN110569393A (zh) 一种空中课堂的短视频裁剪方法
CN113920534A (zh) 一种视频精彩片段提取方法、系统和存储介质
CN116050892A (zh) 一种基于人工智能的智能教育评价监督方法
CN111078010B (zh) 一种人机交互方法、装置、终端设备及可读存储介质
Jokinen et al. Variation in Spoken North Sami Language.
CN117078094A (zh) 一种基于人工智能的教师综合能力评估方法
CN114972716A (zh) 上课内容记录方法、相关装置和介质
CN109447863A (zh) 一种4mat实时分析方法及系统
Altalmas et al. Lips tracking identification of a correct Quranic letters pronunciation for Tajweed teaching and learning
CN110808066B (zh) 教学环境安全分析方法
CN114168714A (zh) 一种学生听课状态的智能分析方法
Liu Application of speech recognition technology in pronunciation correction of college oral English teaching
CN111950472A (zh) 教师磨课测评方法及系统
CN114998968B (zh) 一种基于音视频分析课堂交互行为的方法
Zhang Application of Speech Recognition in English PronunciationCorrection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 200030 Dongchuan Road, Minhang District, Minhang District, Shanghai

Applicant after: Shanghai Jiaotong University

Address before: 200030 Huashan Road, Shanghai, No. 1954, No.

Applicant before: Shanghai Jiaotong University

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant