CN110473548B

CN110473548B - 一种基于声学信号的课堂交互网络分析方法

Info

Publication number: CN110473548B
Application number: CN201910702610.9A
Authority: CN
Inventors: 刘三女牙; 黄山云; 侯成坤; 陈雅淑; 孙建文; 杨宗凯
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2022-02-01
Anticipated expiration: 2039-07-31
Also published as: CN110473548A

Abstract

本发明公开了一种基于声学信号的课堂交互网络分析方法，该方法包括下步骤：步骤1、数据采集：采集课堂的语音信息，并将其转换为音频信号；步骤2、数据预处理：对采集到的音频信号进行重采样、预加重、分帧、加窗以及声学信号特征的提取；步骤3、声学信号识别：对音频进行声纹以及情绪的识别，获取每个说话人的起始位置、性别以及情绪状态；步骤4、课堂交互分析：使用社会网络分析对每个说话人进行模型构建，最终判定课堂中个体交互差异以及课堂的交互结构。本发明能够实现通过声学信号定量和定性的分析课堂交互行为，根据社会网络分析结果评价课堂交互、反馈教学质量，从而针对性地改善教学效果。

Description

一种基于声学信号的课堂交互网络分析方法

技术领域

本发明涉及教育人工智能领域和教育技术领域，尤其涉及一种基于声学信号的课堂交互网络分析方法。

背景技术

近年来，随着人工智能、大数据、区块链等技术的迅猛发展，人才需求和教育形态一直在改变。智能环境不仅改变了教与学的方式，而且已经开始深入影响到教育的理念、文化和生态。在这个大环境下，教育技术观将发生转变，教育技术不能仅停留在学习环境中，更要嵌入学习系统中去。

课堂学习环境仍是当前最主要的学习环境，同时也是数据产生最多、且数据采集分析较难的环境。课堂环境下产生的数据不仅包含教师的课件、板书、个人信息以及学生的人数、分布、考勤等显性数据，还包含师生的行为、情绪、互动等隐性数据。而当前学者对课堂互动的分析手段仍停留在手动记录及处理阶段，人工处理方式再耗费极大的人力的同时也可能会导致一些判断的失误，其次，手动处理的数据有限，不能对大量数据进行分析。另一方面，在互动分析的方法方面，多数学者仅是对师生互动分析分析(S-T分析)以及弗兰德斯互动分析系统(Flanders Interaction Analysis System，FIAS)进行改进，无法实现对课堂交互更精准的刻画。因此，需要一种新的课堂交互分析方法以达到自动化课堂交互分析的目的，真正实现将语音技术嵌入到学习系统中去，对课堂交互进行更全面和准确的描述。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于声学信号的课堂交互网络分析方法；该方法在深度学习环境下，利用语音技术对声学信号进行处理，开展课堂互动分析的新模式：通过声纹识别出不同的说话人以及说话人的性别；通过语音情绪识别对说话人的情绪进行判定；通过社会网络分析对课堂中个体交互差异、课堂交互结构以及课堂模式进行实时分析。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种基于声学信号的课堂交互网络分析方法，该方法包以下步骤中：

步骤1、数据采集：采集课堂的语音信息，并将其转换为音频信号；

步骤2、数据预处理：对采集到的音频信号进行采样，采样周期的选取根据模拟语音信号的带宽来确定，得到离散化处理的音频信号，避免信号的频域混叠失真；然后进行预加重、分帧、加窗的预处理操作，消除混叠、高次谐波失真对音频信号的影响；最后进行特征提取，采用音频嵌入来表示声学信号；

步骤3、声学信号识别：对音频嵌入进行声纹特征识别和聚类，获取每个说话人说话的始末时间，将始末时间数据存储到文本文件中；进行性别识别，获取每段音频的说话人性别，将性别数据存储到文本文件中；进行情绪识别，获取说话人每段音频的情绪，将情绪数据存储到文本文件中；

步骤4、课堂交互分析：从文本文件中读取时间信息，节点表示说话人，以说话人说话的时长总和作为节点的权重；边表示两个节点之间产生了交互，以交互次数总和作为边的权重，依此构造节点和边均加权的有向图作为社会网络图；通过计算不同“师-生”群体行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数等指标对课堂交互中个体交互差异、课堂交互结构以及课堂模式进行分析。

进一步地，本发明的步骤1中采集课堂的语音信息的方法包括：

采用录音设备记录课堂的语音信息，转换为音频信号后存储至数据库中，或直接对音频信号进行同步分析处理；

采集视频数据存储至数据库，从视频数据中提取音频信号。

进一步地，本发明的步骤2中提取的特征包括：基音频率、线性预测倒谱系数、Mel频率倒谱系数、振幅能量构造、共振峰构造以及基于深度学习的音频特征。

进一步地，本发明的步骤3的具体方法包括以下子步骤：

步骤3.1、采用高斯混合模型进行活动语音检测，抑制非语音的部分，其中包括：安静以及混乱的情况，得到音频片段的始末时间，储存为文本数据；

步骤3.2、对各个音频片段采用滑动窗口进行说话人变化检测，滑动窗口之间用贝叶斯信息准则计算距离，该距离小于阈值时判别为同一个说话人，反之则标记为新的音频片段；

步骤3.3、将每个音频片段看作空间中的点V，将这些点之间用边E连接起来，距离较远的两个点之间的边权重值较低，距离较近的两个点之间的边权重值较高，构成一个基于相似度的无向权重图G(V,E)；将无向权重图切分为不同的子图，采用的切边规则为：使子图内的边权重最大，不同子图间的边权重最小，从而实现对音频片段的谱聚类；记录每个音频片段的起始时间、终止时间以及说话人；

步骤3.4、依据步骤2中提取的基音频率以及线性预测倒谱系数、Mel频率倒谱系数对音频片段采用XGBoost算法，判断其说话人性别；

步骤3.5、依据步骤2中提取的基音频率、振幅能量构造，共振峰构造，Mel频率倒谱系数对音频片段采用GMM超矢量和SVM的语音情感识别方法，识别3种基本情绪状态：兴奋、平静以及低落。

进一步地，本发明的步骤4的具体方法包括以下子步骤：

步骤4.1、对步骤3中得到的每个语音片段的始末时间、说话人、情绪数据进行处理，节点表示说话人，以说话人说话的时长总和作为节点的权重；边表示两个节点之间产生了交互，以交互次数总和作为边的权重，依此构造节点和边均加权的有向图作为社会网络图；

步骤4.2、计算师生行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数；

步骤4.3、分析个体交互差异：将不同性别的学生与教师构造社会网络图，计算课堂兴奋度、交互密度以及平均度数，通过显著性差异分析来判断男学生和女学生在课堂交互上是否存在差异；同时，记录课堂情绪、节点度数差异大于阈值的个体；将以上结果反馈给教师以供其调整与男女同学之间交互平衡以及关注异常学生；

步骤4.4、分析课堂交互结构：通过交互密度、网络密度、网络直径、节点度数和平均度数判定课堂交互结构，其中课堂交互结构包括：平衡结构、散乱结构、集中结构和分散结构；

步骤4.5、分析课堂模式：通过行为转化率、课堂情绪转化率、课堂兴奋度以及课堂交互结构判定课堂模式，其中课堂模式包括：灌输模式、讲授模式以及讨论模式。

进一步地，本发明的步骤4.2的具体计算方法为：

师生行为转化率公式如下：

其中，f_st为师生行为转化次数，T为课堂总时长，单位为分钟，O_c为课堂观察系数，即为课堂中取样频率，选取O_c＝20次/分钟；

课堂情绪转化率公式如下：

其中，f_s为情绪转化次数；

课堂兴奋度公式如下：

其中，T_e为判断为兴奋情绪的语音片段时长；

交互密度公式如下：

其中，l为社会网络图中边的个数，w_l为每条边的权重，即交互次数，n为社会网络图中节点的个数，即说话人的个数，w_n为每个节点的权重，即说话时长，以秒为单位；

网络密度公式如下：

网络直径公式如下：

d_n＝max(diameter)

其中，diameter为社会网络图中所有节点之间的距离；

节点度数公式如下：

D＝OD+ID

其中，OD为点的出度，ID为点的入度

平均度数公式如下：

本发明产生的有益效果是：本发明的基于声学信号的课堂交互网络分析方法，利用语音技术量化课堂交互，然后采用社会网络分析构建课堂交互网络，准确、客观、清晰地对课堂中个体交互差异、课堂交互结构以及课堂模式进行定性。具有数据解释力，降低传统课堂观察中手动记录的主观性，减少课堂观察时大量手工的、机械性的劳动。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的课堂网络分析逻辑结构示意图；

图2是本发明实施例的声学信号识别过程示意图；

图3是本发明实施例的声学信号识别结果示意图；

图4是本发明实施例的课堂网络交互图示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例的基于声学信号的课堂交互网络分析方法，包括以下步骤：

步骤1：数据采集；

采用录音设备记录课堂的语音信息，转换为音频信号后存储至数据库中，或采集视频数据存储至数据库，从视频数据中提取音频信号。同时，本发明所涉及的数据也支持实时的数据，即在课堂环境下采集音频数据的同时对数据进行分析处理；

步骤2：数据预处理；

将采集到的语音信号s(t)以采样周期T采样，将其离散化为s(n)，采样周期的选取根据模拟语音信号的带宽(依奈奎斯特采样定理)来确定，以避免信号的频域混叠失真。然后进行预加重、分帧、加窗等预处理操作，以消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真等因素对语音信号质量的影响。最后进行特征提取，采用音频嵌入来表示声学信号；

步骤2中特征选取基音频率(pitch frequency)、线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)、振幅能量构造、共振峰构造以及基于深度学习的音频特征；

步骤3：声学信号识别；

对音频嵌入进行声纹特征识别和聚类(speaker diarization)，获取每个说话人说话的始末时间，将数据存储到文本文件中；进行情绪识别，获取说话人每段音频的情绪，将数据存储到文本文件中；

步骤3的具体实现包括以下子步骤：

步骤3.1：采用GMM(Gaussian mixture model，高斯混合模型，一种机器学习模型)进行活动语音检测，抑制非语音的部分，其中包括：安静以及混乱的情况，得到语音片段的始末时间，储存为文本数据；

步骤3.2：对上述各个语音片段采用滑动窗口进行说话人变化检测，滑动窗口之间用BIC(Bayesian information criterion,贝叶斯信息准则,一种统计模型决策方法)计算距离，该距离小于阈值时判别为同一个说话人，反之则标记为新的音频片段；

步骤3.3：将每个音频片段看作空间中的点V，将这些点之用边E连接起来，距离较远的两个点之间的边权重值较低、距离较近的两个点之间的边权重值较高，这样就构成了一个基于相似度的无向权重图G(V,E)，按照一定的切边规则将图切分为不同的子图，规则是使子图内的边权重和尽可能大，不同子图间的边权重和尽可能小，从而实现对音频片段的谱聚类，记录每个音频片段的起始时间、终止时间以及说话人；

步骤3.4：依据步骤2中提取的基音频率以及线性预测倒谱系数、Mel频率倒谱系数对音频片段采用XGBoost算法(eXtreme Gradient Boosting，极端梯度提升，一种机器学习集成算法)，判断其说话人性别；

步骤3.5：依据步骤2中提取的基音频率、振幅能量构造，共振峰构造，Mel频率倒谱系数对音频片段采用GMM超矢量和SVM(Support Vector Machine，支持向量机，一种机器学习算法)的语音情绪识别方法，识别3种基本情绪状态：兴奋(excitement)、平静(calmness)以及低落(depression)。

步骤4：课堂交互分析；

从上述文本文件中读取时间信息，节点表示说话人，以说话人说话的时长总和作为节点的权重；边表示两个节点之间产生了交互，以交互次数总和作为边的权重，依此构造节点和边均加权的有向图作为社会网络图。通过计算不同“师-生”群体行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数对课堂交互中个体交互差异、课堂交互结构以及课堂模式进行分析。

步骤4的具体实现包括以下子步骤：

步骤4.1：对步骤3中得到的每个语音片段的始末时间、说话人、情绪数据进行处理，节点表示说话人，以说话人说话的时长总和作为节点的权重；边表示两个节点之间产生了交互，以交互次数总和作为边的权重，依此构造节点和边均加权的有向图作为社会网络图；

步骤4.2：计算师生行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数；

师生行为转化率公式如下：

其中，f_st为师生行为转化次数，T(分钟)为课堂总时长，O_C为课堂观察系数，即为课堂中取样频率，一般选取O_C＝20次/分钟；

课堂情绪转化率公式如下：

其中，f_s为情绪转化次数；

课堂兴奋度：

其中，T_e为判断为兴奋情绪的语音片段时长；

交互密度公式如下：

其中，l为社会网络图中边的个数，w_l为每条边的权重(即交互次数)，n为社会网络图中节点(即说话人)的个数，w_n为每个节点的权重(即说话时长，以秒为单位)；

网络密度公式如下：

网络直径公式如下：

d_n＝max(dianeter)

其中，diameter为社会网络图中两节点之间的距离；

节点度数公式如下：

D＝OD+ID

其中，OD为点的出度，ID为点的入度

平均度数公式如下：

步骤4.3：分析个体交互差异：将不同性别的学生与教师构造社会网络图，计算课堂兴奋度、交互密度以及平均度数，通过显著性差异分析来判断男学生和女学生在课堂交互上是否存在差异；同时，将课堂情绪、节点度数差异较大的个体进行记录。将以上结果反馈给教师以供其调整与男女同学之间交互平衡以及关注异常学生；

步骤4.4：分析课堂交互结构：通过交互密度、网络密度、网络直径、节点度数和平均度数判定课堂交互结构，其中课堂交互结构包括：平衡结构、散乱结构、集中结构和分散结构。

步骤4.5：分析课堂模式：通过行为转化率、课堂情绪转化率、课堂兴奋度以及课堂交互结构判定课堂模式，其中课堂模式包括：灌输模式、讲授模式以及讨论模式。

在本发明的一个具体实施例中：

基于声学信号的课堂交互网络分析方法，包括以下步骤:

步骤1：数据采集；

将飞利浦VTR5810录音笔固定至教室内讲桌上，用于采集整个课堂的语音数据，设置为上课时定时开启，下课时定时关闭。将录音文件按照“课程名称-日期”存储至硬盘，依此建立课堂语音数据库。录音设备存储格式设置为wav文件，音频采样频率设置为16KHz，即1s时间内采样16000个数据点；

步骤2：数据预处理；

对于课堂语音数据库中的数据，以一节课的音频数据(大约40分钟)为一个标准数据。在一个标准数据中，采用传递函数为H(z)＝1-αz^-1的一阶FIR高通数字滤波器实现预加重，然后把语音信号分为一些短段(称为分析帧)来进行处理，即分帧处理。分帧采用可移动的有限长度窗口进行加权实现，采用交叠分段的方法，一般每秒的帧数为33～100帧，帧移与帧长的比值一般取0～1/2。选取矩形窗或汉明窗对各帧进行变换或运算，实现对声学信号的加窗。最后进提取基音频率(pitch frequency)、线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)、振幅能量构造、共振峰构造以及基于深度学习的音频特征，采用音频嵌入来表示声学信号；

步骤3：声学信号识别；

如图2所示，对音频嵌入进行说话人性别识别，获取说话人的性别信息；进行声纹特征识别和聚类(speaker diarization)，获取每个音频片段的说话人；进行情绪识别，获取说话人每段音频的情绪。得到如图3所示的声学信号识别结果：整个标准数据被切分为多个音频片段，每个音频片段包含该音频的始末位置、说话人、说话人的性别以及该段音频的情绪水平。其中，情绪水平包括：兴奋、平静和低落。将识别结果存入文本文件中，便于后期的读取和分析处理；

步骤4：课堂交互分析；

从上述文本文件中读取时间信息，说话人从A变为B的转化过程视为A对B产生了一次交互，需要注意的是，此处交互是区分方向的，A对B产生的交互不同于B对A产生的交互。以节点表示说话人，以说话人说话的时长总和作为节点的权重；边表示两个节点之间的交互，以交互次数总和作为边的权重；颜色表示该说话人的平均情绪值，依此构造节点和边均加权的有向图作为社会网络图，社会网络图如图4所示。

按照上述构造课堂网络交互图的方法构造整体的课堂网络交互图，计算师生行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数；在整体课堂网络交互参数中记录课堂情绪、节点度数异常的结果；构造不同性别的学生与教师的课堂网络交互图，计算课堂兴奋度、交互密度以及平均度数。

通过交互密度、网络密度、网络直径、节点度数和平均度数判定课堂交互结构，其中课堂交互结构包括：平衡结构、散乱结构、集中结构和分散结构。

通过行为转化率、课堂情绪转化率、课堂兴奋度以及课堂交互结构判定课堂模式，其中课堂模式包括：灌输模式、讲授模式以及讨论模式。

通过显著性差异分析来判断男学生和女学生在课堂交互上是否存在差异；同时判断课堂情绪、节点度数异常值的个体是否在课堂交互中属于消极个体。

将以上结果反馈给教师以供其调整交互结构、课堂模式以及教师与男女同学之间交互平衡并且关注异常学生。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于声学信号的课堂交互网络分析方法，其特征在于，该方法包括以下步骤：

步骤4、课堂交互分析：从文本文件中读取时间信息，节点表示说话人，以说话人说话的时长总和作为节点的权重；边表示两个节点之间产生了交互，以交互次数总和作为边的权重，依此构造节点和边均加权的有向图作为社会网络图；通过计算不同“师-生”群体行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数指标对课堂交互中个体交互差异、课堂交互结构以及课堂模式进行分析；

步骤2中提取的特征包括：基音频率、线性预测倒谱系数、Mel频率倒谱系数、振幅能量构造、共振峰构造以及基于深度学习的音频特征；

步骤3的具体方法包括以下子步骤：

步骤3.5、依据步骤2中提取的基音频率、振幅能量构造，共振峰构造，Mel频率倒谱系数对音频片段采用GMM超矢量和SVM的语音情感识别方法，识别3种基本情绪状态：兴奋、平静以及低落；

步骤4的具体方法包括以下子步骤：

步骤4.2、计算“师-生”群体行为转化率、课堂情绪转化率、课堂兴奋度、交互密度、网络密度、网络直径、节点度数、平均度数；

步骤4.3、分析个体交互差异：将不同性别的学生与教师构造社会网络图，计算课堂兴奋度、交互密度以及平均度数，通过显著性差异分析来判断男学生和女学生在课堂交互上是否存在差异；同时，记录课堂情绪和节点度数差异大于阈值的个体；将以上结果反馈给教师以供其调整与男女同学之间交互平衡以及关注异常学生；

步骤4.5、分析课堂模式：通过行为转化率、课堂情绪转化率、课堂兴奋度以及课堂交互结构判定课堂模式，其中课堂模式包括：灌输模式、讲授模式以及讨论模式；

步骤4.2的具体计算方法为：

“师-生”群体行为转化率公式如下: