CN110473548B - 一种基于声学信号的课堂交互网络分析方法 - Google Patents

一种基于声学信号的课堂交互网络分析方法 Download PDF

Info

Publication number
CN110473548B
CN110473548B CN201910702610.9A CN201910702610A CN110473548B CN 110473548 B CN110473548 B CN 110473548B CN 201910702610 A CN201910702610 A CN 201910702610A CN 110473548 B CN110473548 B CN 110473548B
Authority
CN
China
Prior art keywords
classroom
interaction
audio
emotion
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910702610.9A
Other languages
English (en)
Other versions
CN110473548A (zh
Inventor
刘三女牙
黄山云
侯成坤
陈雅淑
孙建文
杨宗凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201910702610.9A priority Critical patent/CN110473548B/zh
Publication of CN110473548A publication Critical patent/CN110473548A/zh
Application granted granted Critical
Publication of CN110473548B publication Critical patent/CN110473548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于声学信号的课堂交互网络分析方法,该方法包括下步骤:步骤1、数据采集:采集课堂的语音信息,并将其转换为音频信号;步骤2、数据预处理:对采集到的音频信号进行重采样、预加重、分帧、加窗以及声学信号特征的提取;步骤3、声学信号识别:对音频进行声纹以及情绪的识别,获取每个说话人的起始位置、性别以及情绪状态;步骤4、课堂交互分析:使用社会网络分析对每个说话人进行模型构建,最终判定课堂中个体交互差异以及课堂的交互结构。本发明能够实现通过声学信号定量和定性的分析课堂交互行为,根据社会网络分析结果评价课堂交互、反馈教学质量,从而针对性地改善教学效果。

Description

一种基于声学信号的课堂交互网络分析方法
技术领域
本发明涉及教育人工智能领域和教育技术领域,尤其涉及一种基于声学信号的课堂交互网络分析方法。
背景技术
近年来,随着人工智能、大数据、区块链等技术的迅猛发展,人才需求和教育形态一直在改变。智能环境不仅改变了教与学的方式,而且已经开始深入影响到教育的理念、文化和生态。在这个大环境下,教育技术观将发生转变,教育技术不能仅停留在学习环境中,更要嵌入学习系统中去。
课堂学习环境仍是当前最主要的学习环境,同时也是数据产生最多、且数据采集分析较难的环境。课堂环境下产生的数据不仅包含教师的课件、板书、个人信息以及学生的人数、分布、考勤等显性数据,还包含师生的行为、情绪、互动等隐性数据。而当前学者对课堂互动的分析手段仍停留在手动记录及处理阶段,人工处理方式再耗费极大的人力的同时也可能会导致一些判断的失误,其次,手动处理的数据有限,不能对大量数据进行分析。另一方面,在互动分析的方法方面,多数学者仅是对师生互动分析分析(S-T分析)以及弗兰德斯互动分析系统(Flanders Interaction Analysis System,FIAS)进行改进,无法实现对课堂交互更精准的刻画。因此,需要一种新的课堂交互分析方法以达到自动化课堂交互分析的目的,真正实现将语音技术嵌入到学习系统中去,对课堂交互进行更全面和准确的描述。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于声学信号的课堂交互网络分析方法;该方法在深度学习环境下,利用语音技术对声学信号进行处理,开展课堂互动分析的新模式:通过声纹识别出不同的说话人以及说话人的性别;通过语音情绪识别对说话人的情绪进行判定;通过社会网络分析对课堂中个体交互差异、课堂交互结构以及课堂模式进行实时分析。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于声学信号的课堂交互网络分析方法,该方法包以下步骤中:
步骤1、数据采集:采集课堂的语音信息,并将其转换为音频信号;
步骤2、数据预处理:对采集到的音频信号进行采样,采样周期的选取根据模拟语音信号的带宽来确定,得到离散化处理的音频信号,避免信号的频域混叠失真;然后进行预加重、分帧、加窗的预处理操作,消除混叠、高次谐波失真对音频信号的影响;最后进行特征提取,采用音频嵌入来表示声学信号;
步骤3、声学信号识别:对音频嵌入进行声纹特征识别和聚类,获取每个说话人说话的始末时间,将始末时间数据存储到文本文件中;进行性别识别,获取每段音频的说话人性别,将性别数据存储到文本文件中;进行情绪识别,获取说话人每段音频的情绪,将情绪数据存储到文本文件中;
步骤4、课堂交互分析:从文本文件中读取时间信息,节点表示说话人,以说话人说话的时长总和作为节点的权重;边表示两个节点之间产生了交互,以交互次数总和作为边的权重,依此构造节点和边均加权的有向图作为社会网络图;通过计算不同“师-生”群体行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数等指标对课堂交互中个体交互差异、课堂交互结构以及课堂模式进行分析。
进一步地,本发明的步骤1中采集课堂的语音信息的方法包括:
采用录音设备记录课堂的语音信息,转换为音频信号后存储至数据库中,或直接对音频信号进行同步分析处理;
采集视频数据存储至数据库,从视频数据中提取音频信号。
进一步地,本发明的步骤2中提取的特征包括:基音频率、线性预测倒谱系数、Mel频率倒谱系数、振幅能量构造、共振峰构造以及基于深度学习的音频特征。
进一步地,本发明的步骤3的具体方法包括以下子步骤:
步骤3.1、采用高斯混合模型进行活动语音检测,抑制非语音的部分,其中包括:安静以及混乱的情况,得到音频片段的始末时间,储存为文本数据;
步骤3.2、对各个音频片段采用滑动窗口进行说话人变化检测,滑动窗口之间用贝叶斯信息准则计算距离,该距离小于阈值时判别为同一个说话人,反之则标记为新的音频片段;
步骤3.3、将每个音频片段看作空间中的点V,将这些点之间用边E连接起来,距离较远的两个点之间的边权重值较低,距离较近的两个点之间的边权重值较高,构成一个基于相似度的无向权重图G(V,E);将无向权重图切分为不同的子图,采用的切边规则为:使子图内的边权重最大,不同子图间的边权重最小,从而实现对音频片段的谱聚类;记录每个音频片段的起始时间、终止时间以及说话人;
步骤3.4、依据步骤2中提取的基音频率以及线性预测倒谱系数、Mel频率倒谱系数对音频片段采用XGBoost算法,判断其说话人性别;
步骤3.5、依据步骤2中提取的基音频率、振幅能量构造,共振峰构造,Mel频率倒谱系数对音频片段采用GMM超矢量和SVM的语音情感识别方法,识别3种基本情绪状态:兴奋、平静以及低落。
进一步地,本发明的步骤4的具体方法包括以下子步骤:
步骤4.1、对步骤3中得到的每个语音片段的始末时间、说话人、情绪数据进行处理,节点表示说话人,以说话人说话的时长总和作为节点的权重;边表示两个节点之间产生了交互,以交互次数总和作为边的权重,依此构造节点和边均加权的有向图作为社会网络图;
步骤4.2、计算师生行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数;
步骤4.3、分析个体交互差异:将不同性别的学生与教师构造社会网络图,计算课堂兴奋度、交互密度以及平均度数,通过显著性差异分析来判断男学生和女学生在课堂交互上是否存在差异;同时,记录课堂情绪、节点度数差异大于阈值的个体;将以上结果反馈给教师以供其调整与男女同学之间交互平衡以及关注异常学生;
步骤4.4、分析课堂交互结构:通过交互密度、网络密度、网络直径、节点度数和平均度数判定课堂交互结构,其中课堂交互结构包括:平衡结构、散乱结构、集中结构和分散结构;
步骤4.5、分析课堂模式:通过行为转化率、课堂情绪转化率、课堂兴奋度以及课堂交互结构判定课堂模式,其中课堂模式包括:灌输模式、讲授模式以及讨论模式。
进一步地,本发明的步骤4.2的具体计算方法为:
师生行为转化率公式如下:
Figure BDA0002151257460000041
其中,fst为师生行为转化次数,T为课堂总时长,单位为分钟,Oc为课堂观察系数,即为课堂中取样频率,选取Oc=20次/分钟;
课堂情绪转化率公式如下:
Figure BDA0002151257460000042
其中,fs为情绪转化次数;
课堂兴奋度公式如下:
Figure BDA0002151257460000043
其中,Te为判断为兴奋情绪的语音片段时长;
交互密度公式如下:
Figure BDA0002151257460000044
其中,l为社会网络图中边的个数,wl为每条边的权重,即交互次数,n为社会网络图中节点的个数,即说话人的个数,wn为每个节点的权重,即说话时长,以秒为单位;
网络密度公式如下:
Figure BDA0002151257460000051
网络直径公式如下:
dn=max(diameter)
其中,diameter为社会网络图中所有节点之间的距离;
节点度数公式如下:
D=OD+ID
其中,OD为点的出度,ID为点的入度
平均度数公式如下:
Figure BDA0002151257460000052
本发明产生的有益效果是:本发明的基于声学信号的课堂交互网络分析方法,利用语音技术量化课堂交互,然后采用社会网络分析构建课堂交互网络,准确、客观、清晰地对课堂中个体交互差异、课堂交互结构以及课堂模式进行定性。具有数据解释力,降低传统课堂观察中手动记录的主观性,减少课堂观察时大量手工的、机械性的劳动。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的课堂网络分析逻辑结构示意图;
图2是本发明实施例的声学信号识别过程示意图;
图3是本发明实施例的声学信号识别结果示意图;
图4是本发明实施例的课堂网络交互图示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例的基于声学信号的课堂交互网络分析方法,包括以下步骤:
步骤1:数据采集;
采用录音设备记录课堂的语音信息,转换为音频信号后存储至数据库中,或采集视频数据存储至数据库,从视频数据中提取音频信号。同时,本发明所涉及的数据也支持实时的数据,即在课堂环境下采集音频数据的同时对数据进行分析处理;
步骤2:数据预处理;
将采集到的语音信号s(t)以采样周期T采样,将其离散化为s(n),采样周期的选取根据模拟语音信号的带宽(依奈奎斯特采样定理)来确定,以避免信号的频域混叠失真。然后进行预加重、分帧、加窗等预处理操作,以消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真等因素对语音信号质量的影响。最后进行特征提取,采用音频嵌入来表示声学信号;
步骤2中特征选取基音频率(pitch frequency)、线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)、振幅能量构造、共振峰构造以及基于深度学习的音频特征;
步骤3:声学信号识别;
对音频嵌入进行声纹特征识别和聚类(speaker diarization),获取每个说话人说话的始末时间,将数据存储到文本文件中;进行情绪识别,获取说话人每段音频的情绪,将数据存储到文本文件中;
步骤3的具体实现包括以下子步骤:
步骤3.1:采用GMM(Gaussian mixture model,高斯混合模型,一种机器学习模型)进行活动语音检测,抑制非语音的部分,其中包括:安静以及混乱的情况,得到语音片段的始末时间,储存为文本数据;
步骤3.2:对上述各个语音片段采用滑动窗口进行说话人变化检测,滑动窗口之间用BIC(Bayesian information criterion,贝叶斯信息准则,一种统计模型决策方法)计算距离,该距离小于阈值时判别为同一个说话人,反之则标记为新的音频片段;
步骤3.3:将每个音频片段看作空间中的点V,将这些点之用边E连接起来,距离较远的两个点之间的边权重值较低、距离较近的两个点之间的边权重值较高,这样就构成了一个基于相似度的无向权重图G(V,E),按照一定的切边规则将图切分为不同的子图,规则是使子图内的边权重和尽可能大,不同子图间的边权重和尽可能小,从而实现对音频片段的谱聚类,记录每个音频片段的起始时间、终止时间以及说话人;
步骤3.4:依据步骤2中提取的基音频率以及线性预测倒谱系数、Mel频率倒谱系数对音频片段采用XGBoost算法(eXtreme Gradient Boosting,极端梯度提升,一种机器学习集成算法),判断其说话人性别;
步骤3.5:依据步骤2中提取的基音频率、振幅能量构造,共振峰构造,Mel频率倒谱系数对音频片段采用GMM超矢量和SVM(Support Vector Machine,支持向量机,一种机器学习算法)的语音情绪识别方法,识别3种基本情绪状态:兴奋(excitement)、平静(calmness)以及低落(depression)。
步骤4:课堂交互分析;
从上述文本文件中读取时间信息,节点表示说话人,以说话人说话的时长总和作为节点的权重;边表示两个节点之间产生了交互,以交互次数总和作为边的权重,依此构造节点和边均加权的有向图作为社会网络图。通过计算不同“师-生”群体行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数对课堂交互中个体交互差异、课堂交互结构以及课堂模式进行分析。
步骤4的具体实现包括以下子步骤:
步骤4.1:对步骤3中得到的每个语音片段的始末时间、说话人、情绪数据进行处理,节点表示说话人,以说话人说话的时长总和作为节点的权重;边表示两个节点之间产生了交互,以交互次数总和作为边的权重,依此构造节点和边均加权的有向图作为社会网络图;
步骤4.2:计算师生行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数;
师生行为转化率公式如下:
Figure BDA0002151257460000081
其中,fst为师生行为转化次数,T(分钟)为课堂总时长,OC为课堂观察系数,即为课堂中取样频率,一般选取OC=20次/分钟;
课堂情绪转化率公式如下:
Figure BDA0002151257460000082
其中,fs为情绪转化次数;
课堂兴奋度:
Figure BDA0002151257460000083
其中,Te为判断为兴奋情绪的语音片段时长;
交互密度公式如下:
Figure BDA0002151257460000084
其中,l为社会网络图中边的个数,wl为每条边的权重(即交互次数),n为社会网络图中节点(即说话人)的个数,wn为每个节点的权重(即说话时长,以秒为单位);
网络密度公式如下:
Figure BDA0002151257460000085
网络直径公式如下:
dn=max(dianeter)
其中,diameter为社会网络图中两节点之间的距离;
节点度数公式如下:
D=OD+ID
其中,OD为点的出度,ID为点的入度
平均度数公式如下:
Figure BDA0002151257460000091
步骤4.3:分析个体交互差异:将不同性别的学生与教师构造社会网络图,计算课堂兴奋度、交互密度以及平均度数,通过显著性差异分析来判断男学生和女学生在课堂交互上是否存在差异;同时,将课堂情绪、节点度数差异较大的个体进行记录。将以上结果反馈给教师以供其调整与男女同学之间交互平衡以及关注异常学生;
步骤4.4:分析课堂交互结构:通过交互密度、网络密度、网络直径、节点度数和平均度数判定课堂交互结构,其中课堂交互结构包括:平衡结构、散乱结构、集中结构和分散结构。
步骤4.5:分析课堂模式:通过行为转化率、课堂情绪转化率、课堂兴奋度以及课堂交互结构判定课堂模式,其中课堂模式包括:灌输模式、讲授模式以及讨论模式。
在本发明的一个具体实施例中:
基于声学信号的课堂交互网络分析方法,包括以下步骤:
步骤1:数据采集;
将飞利浦VTR5810录音笔固定至教室内讲桌上,用于采集整个课堂的语音数据,设置为上课时定时开启,下课时定时关闭。将录音文件按照“课程名称-日期”存储至硬盘,依此建立课堂语音数据库。录音设备存储格式设置为wav文件,音频采样频率设置为16KHz,即1s时间内采样16000个数据点;
步骤2:数据预处理;
对于课堂语音数据库中的数据,以一节课的音频数据(大约40分钟)为一个标准数据。在一个标准数据中,采用传递函数为H(z)=1-αz-1的一阶FIR高通数字滤波器实现预加重,然后把语音信号分为一些短段(称为分析帧)来进行处理,即分帧处理。分帧采用可移动的有限长度窗口进行加权实现,采用交叠分段的方法,一般每秒的帧数为33~100帧,帧移与帧长的比值一般取0~1/2。选取矩形窗或汉明窗对各帧进行变换或运算,实现对声学信号的加窗。最后进提取基音频率(pitch frequency)、线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)、振幅能量构造、共振峰构造以及基于深度学习的音频特征,采用音频嵌入来表示声学信号;
步骤3:声学信号识别;
如图2所示,对音频嵌入进行说话人性别识别,获取说话人的性别信息;进行声纹特征识别和聚类(speaker diarization),获取每个音频片段的说话人;进行情绪识别,获取说话人每段音频的情绪。得到如图3所示的声学信号识别结果:整个标准数据被切分为多个音频片段,每个音频片段包含该音频的始末位置、说话人、说话人的性别以及该段音频的情绪水平。其中,情绪水平包括:兴奋、平静和低落。将识别结果存入文本文件中,便于后期的读取和分析处理;
步骤4:课堂交互分析;
从上述文本文件中读取时间信息,说话人从A变为B的转化过程视为A对B产生了一次交互,需要注意的是,此处交互是区分方向的,A对B产生的交互不同于B对A产生的交互。以节点表示说话人,以说话人说话的时长总和作为节点的权重;边表示两个节点之间的交互,以交互次数总和作为边的权重;颜色表示该说话人的平均情绪值,依此构造节点和边均加权的有向图作为社会网络图,社会网络图如图4所示。
按照上述构造课堂网络交互图的方法构造整体的课堂网络交互图,计算师生行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数;在整体课堂网络交互参数中记录课堂情绪、节点度数异常的结果;构造不同性别的学生与教师的课堂网络交互图,计算课堂兴奋度、交互密度以及平均度数。
通过交互密度、网络密度、网络直径、节点度数和平均度数判定课堂交互结构,其中课堂交互结构包括:平衡结构、散乱结构、集中结构和分散结构。
通过行为转化率、课堂情绪转化率、课堂兴奋度以及课堂交互结构判定课堂模式,其中课堂模式包括:灌输模式、讲授模式以及讨论模式。
通过显著性差异分析来判断男学生和女学生在课堂交互上是否存在差异;同时判断课堂情绪、节点度数异常值的个体是否在课堂交互中属于消极个体。
将以上结果反馈给教师以供其调整交互结构、课堂模式以及教师与男女同学之间交互平衡并且关注异常学生。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (2)

1.一种基于声学信号的课堂交互网络分析方法,其特征在于,该方法包括以下步骤:
步骤1、数据采集:采集课堂的语音信息,并将其转换为音频信号;
步骤2、数据预处理:对采集到的音频信号进行采样,采样周期的选取根据模拟语音信号的带宽来确定,得到离散化处理的音频信号,避免信号的频域混叠失真;然后进行预加重、分帧、加窗的预处理操作,消除混叠、高次谐波失真对音频信号的影响;最后进行特征提取,采用音频嵌入来表示声学信号;
步骤3、声学信号识别:对音频嵌入进行声纹特征识别和聚类,获取每个说话人说话的始末时间,将始末时间数据存储到文本文件中;进行性别识别,获取每段音频的说话人性别,将性别数据存储到文本文件中;进行情绪识别,获取说话人每段音频的情绪,将情绪数据存储到文本文件中;
步骤4、课堂交互分析:从文本文件中读取时间信息,节点表示说话人,以说话人说话的时长总和作为节点的权重;边表示两个节点之间产生了交互,以交互次数总和作为边的权重,依此构造节点和边均加权的有向图作为社会网络图;通过计算不同“师-生”群体行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数指标对课堂交互中个体交互差异、课堂交互结构以及课堂模式进行分析;
步骤2中提取的特征包括:基音频率、线性预测倒谱系数、Mel频率倒谱系数、振幅能量构造、共振峰构造以及基于深度学习的音频特征;
步骤3的具体方法包括以下子步骤:
步骤3.1、采用高斯混合模型进行活动语音检测,抑制非语音的部分,其中包括:安静以及混乱的情况,得到音频片段的始末时间,储存为文本数据;
步骤3.2、对各个音频片段采用滑动窗口进行说话人变化检测,滑动窗口之间用贝叶斯信息准则计算距离,该距离小于阈值时判别为同一个说话人,反之则标记为新的音频片段;
步骤3.3、将每个音频片段看作空间中的点V,将这些点之间用边E连接起来,距离较远的两个点之间的边权重值较低,距离较近的两个点之间的边权重值较高,构成一个基于相似度的无向权重图G(V,E);将无向权重图切分为不同的子图,采用的切边规则为:使子图内的边权重最大,不同子图间的边权重最小,从而实现对音频片段的谱聚类;记录每个音频片段的起始时间、终止时间以及说话人;
步骤3.4、依据步骤2中提取的基音频率以及线性预测倒谱系数、Mel频率倒谱系数对音频片段采用XGBoost算法,判断其说话人性别;
步骤3.5、依据步骤2中提取的基音频率、振幅能量构造,共振峰构造,Mel频率倒谱系数对音频片段采用GMM超矢量和SVM的语音情感识别方法,识别3种基本情绪状态:兴奋、平静以及低落;
步骤4的具体方法包括以下子步骤:
步骤4.1、对步骤3中得到的每个语音片段的始末时间、说话人、情绪数据进行处理,节点表示说话人,以说话人说话的时长总和作为节点的权重;边表示两个节点之间产生了交互,以交互次数总和作为边的权重,依此构造节点和边均加权的有向图作为社会网络图;
步骤4.2、计算“师-生”群体行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数;
步骤4.3、分析个体交互差异:将不同性别的学生与教师构造社会网络图,计算课堂兴奋度、交互密度以及平均度数,通过显著性差异分析来判断男学生和女学生在课堂交互上是否存在差异;同时,记录课堂情绪和节点度数差异大于阈值的个体;将以上结果反馈给教师以供其调整与男女同学之间交互平衡以及关注异常学生;
步骤4.4、分析课堂交互结构:通过交互密度、网络密度、网络直径、节点度数和平均度数判定课堂交互结构,其中课堂交互结构包括:平衡结构、散乱结构、集中结构和分散结构;
步骤4.5、分析课堂模式:通过行为转化率、课堂情绪转化率、课堂兴奋度以及课堂交互结构判定课堂模式,其中课堂模式包括:灌输模式、讲授模式以及讨论模式;
步骤4.2的具体计算方法为:
“师-生”群体行为转化率公式如下:
Figure FDA0003339735990000031
其中,fst为师生行为转化次数,T为课堂总时长,单位为分钟,OC为课堂观察系数,即为课堂中取样频率,选取OC=20次/分钟;
课堂情绪转化率公式如下:
Figure FDA0003339735990000032
其中,fs为情绪转化次数;
课堂兴奋度公式如下:
Figure FDA0003339735990000033
其中,Te为判断为兴奋情绪的语音片段时长;
交互密度公式如下:
Figure FDA0003339735990000034
其中,l为社会网络图中边的个数,wl为每条边的权重,即交互次数,n为社会网络图中节点的个数,即说话人的个数,wn为每个节点的权重,即说话时长,以秒为单位;
网络密度公式如下:
Figure FDA0003339735990000035
网络直径公式如下:
dn=max(diameter )
其中,diameter为社会网络图中所有节点之间的距离;
节点度数公式如下:
D=OD+ID
其中,OD为点的出度,ID为点的入度
平均度数公式如下:
Figure FDA0003339735990000036
2.根据权利要求1所述的基于声学信号的课堂交互网络分析方法,其特征在于,步骤1中采集课堂语音信息的方法包括:
采用录音设备记录课堂的语音信息,转换为音频信号后存储至数据库中,或直接对音频信号进行同步分析处理。
CN201910702610.9A 2019-07-31 2019-07-31 一种基于声学信号的课堂交互网络分析方法 Active CN110473548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910702610.9A CN110473548B (zh) 2019-07-31 2019-07-31 一种基于声学信号的课堂交互网络分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910702610.9A CN110473548B (zh) 2019-07-31 2019-07-31 一种基于声学信号的课堂交互网络分析方法

Publications (2)

Publication Number Publication Date
CN110473548A CN110473548A (zh) 2019-11-19
CN110473548B true CN110473548B (zh) 2022-02-01

Family

ID=68509536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910702610.9A Active CN110473548B (zh) 2019-07-31 2019-07-31 一种基于声学信号的课堂交互网络分析方法

Country Status (1)

Country Link
CN (1) CN110473548B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986702B (zh) * 2020-07-31 2022-11-04 中国地质大学(武汉) 一种基于语音信号处理的说话人心理阻抗现象识别方法
WO2024077511A1 (zh) * 2022-10-12 2024-04-18 广州视源电子科技股份有限公司 互动统计方法、装置、设备、系统及存储介质
CN117079655B (zh) * 2023-10-16 2023-12-22 华南师范大学 一种音频分析方法、装置、设备和可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894413A (zh) * 2016-05-04 2016-08-24 华中师范大学 一种课堂教学交互行为分析编码方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016094348A1 (en) * 2014-12-09 2016-06-16 Simple Entry, Llc Identifying opportunities and/or complimentary personal traits
CN105590632B (zh) * 2015-12-16 2019-01-29 广东德诚科教有限公司 一种基于语音相似性识别的s-t教学过程分析方法
CN107918821A (zh) * 2017-03-23 2018-04-17 广州思涵信息科技有限公司 基于人工智能技术的教师课堂教学过程分析方法和系统
CN107358947A (zh) * 2017-06-23 2017-11-17 武汉大学 说话人重识别方法及系统
CN108648757B (zh) * 2018-06-14 2020-10-16 北京中庆现代技术股份有限公司 一种基于多维度课堂信息的分析方法
CN109461441B (zh) * 2018-09-30 2021-05-11 汕头大学 一种自适应、无监督式的课堂教学活动智能感知方法
CN109800309A (zh) * 2019-01-24 2019-05-24 华中师范大学 课堂话语类型分类方法及装置
CN109697577A (zh) * 2019-02-01 2019-04-30 北京清帆科技有限公司 一种基于语音的课堂质量评价方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894413A (zh) * 2016-05-04 2016-08-24 华中师范大学 一种课堂教学交互行为分析编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于社会网络分析的在线学习行为分析实证研究;石月风等;《中国教育信息化》;20190131;全文 *

Also Published As

Publication number Publication date
CN110473548A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN106228977B (zh) 基于深度学习的多模态融合的歌曲情感识别方法
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN104900235B (zh) 基于基音周期混合特征参数的声纹识别方法
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
Pace et al. Subunit definition and analysis for humpback whale call classification
CN110473548B (zh) 一种基于声学信号的课堂交互网络分析方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN110544481B (zh) 一种基于声纹识别的s-t分类方法、装置及设备终端
EP0549265A2 (en) Neural network-based speech token recognition system and method
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN103811009A (zh) 一种基于语音分析的智能电话客服系统
CN105593936A (zh) 用于文本转语音性能评价的系统和方法
CN101290766A (zh) 安多藏语语音音节切分的方法
CN110265063B (zh) 一种基于固定时长语音情感识别序列分析的测谎方法
CN108876951A (zh) 一种基于声音识别的教学考勤方法
US10283142B1 (en) Processor-implemented systems and methods for determining sound quality
Matin et al. A speech emotion recognition solution-based on support vector machine for children with autism spectrum disorder to help identify human emotions
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
Xu English speech recognition and evaluation of pronunciation quality using deep learning
Ling An acoustic model for English speech recognition based on deep learning
Wang Detecting pronunciation errors in spoken English tests based on multifeature fusion algorithm
Lee et al. Speech emotion recognition using spectral entropy
CN108629024A (zh) 一种基于声音识别的教学考勤方法
CN111091816B (zh) 一种基于语音评测的数据处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant