CN109461441B

CN109461441B - 一种自适应、无监督式的课堂教学活动智能感知方法

Info

Publication number: CN109461441B
Application number: CN201811154514.7A
Authority: CN
Inventors: 姜大志; 陈逸飞
Original assignee: Shantou University
Current assignee: Shantou University
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2021-05-11
Anticipated expiration: 2038-09-30
Also published as: CN109461441A

Abstract

本发明实施例公开了一种自适应、无监督式的课堂教学活动智能感知方法，利用并发展相关信息与智能技术手段对课堂语音信号进行获取、分析处理和识别，立足于构建自适应、无监督式的智能方法，鲁棒地从课堂语音信号中检测出课堂语音各部分。利用并发展人工智能处理技术，对连续课堂语音进行最优化、智能化地划分，最终实现基于课堂语音的课堂教学活动识别。

Description

一种自适应、无监督式的课堂教学活动智能感知方法

技术领域

本发明涉及人工智能领域，尤其涉及一种自适应、无监督式的课堂教学活动智能感知方法。

背景技术

教育质量的保证是各层次教育的关键。而在提高教育质量中，提高教学质量尤其是课堂教学质量应为重中之重。信息与智能技术已然成为社会发展的重要依托，如何利用与发展信息与智能技术革新传统课堂，构建面向课堂教学的，高效、自动的“智能感知”则自然而然成为一个极具研究价值的科学问题。

基于课堂教学的分析，最著名同样也是最广泛应用的方法是弗兰德互动分析法(Flanders’InteractionAnalysis System，简称FIAS)，弗兰德认为：语言行为是课堂中主要的教学行为，占所有教学行为的80％左右。因此评价一堂课的最佳方法是对课堂内的师生语言行为进行互动分析。从某种意义上说，把握了课堂教学中师生的语言行为也就把握了课堂教学的实质，它对课堂教学细节进行分析表现出了异乎寻常的技术性功能。

概括来说，FIAS方法包括三个主要部分，分别是：一套描述课堂互动行为的编码系统，即量表；一套关于观察和记录编码的规定标准；一个用于显示数据，进行分析，实现研究目标的迁移矩阵。

目前，国内外和本发明住主要研究中心集中于编码系统研究与利用，编码系统把课堂上的语言互动行为分为教师语言、学生语言和沉寂或混乱(无有效语言活动)三类共十种情况，分别用编码1—10表示。

黄焕等人在《不同教学风格的课堂话语特征分析及应用研究》(现代教育技术，2013年)一文中提出一套面向多媒体课堂话语分析编码系统，然后利用该系统研究不同教学风格的课堂话语特征。孙杰在《基于FIAS的师范生课堂教学互动分析》(新课程研究，2010年)一文中利用FIAS研究师范生课堂教学，从而研究课堂的教学结构、教学倾向与风格以及师生互动的方式。高桂平在《数字化课堂话语行为分类与方法研究》(中国信息技术教育，2014年)一文中提出用机器学习方法将课堂话语进行分类。

现有技术中的这些方法都存在以下缺陷：

1.但目前传统的做法是基于人工(同行)现场观摩与评价的方法，这类方法虽然能够发挥一定的作用，但不具备普适可操作性，也不具备普适客观性。

2.虽然目前有一些自动化识别课堂活动的系统，比喻LENA，但是该系统的功能还相对比较简单，集成化和智能化程度还不是很高。

其导致的原因主要有：

1.一则教学主管部门很难做到时时刻刻地都在考察课堂、做出评价并给出建议，这势必会给教学管理带来沉重的负担也没有必要。再则，传统的现场观摩与评价，由于不能全程跟进教学进程，因此很难客观评价教师的教学质量。

2.课堂活动感知部分主要进行课堂活动的自动检测与识别，即判断给定的连续课堂语音中哪一段为一个课堂活动，活动的类别是什么，活动何时开始，何时结束，最后将一段连续的课堂语音划分为多个活动的组合，并确定活动所属的类别。这是一个非常复杂的处理过程，在现有技术中没有见到相对可靠度原型系统。

发明内容

本发明实施例所要解决的技术问题在于，提供一种自适应、无监督式的课堂教学活动智能感知方法。可对课堂语音信号进行获取、分析处理和识别，立足于构建自适应、无监督式的智能方法，鲁棒地从课堂语音信号中检测出课堂语音各部分。利用并发展人工智能处理技术，对连续课堂语音进行最优化、智能化地划分，最终实现基于课堂语音的课堂教学活动识别。

为了解决上述技术问题，本发明实施例提供了一种自适应、无监督式的课堂教学活动智能感知方法，包括以下步骤：

S1：确定最终的教师话语类别、学生类别、静音类别及重叠语音类别，并进行合并，按时间进行排序获得最终的课堂话语类别序列；

S2：设置一个定长增长型的滑动窗口；使用SVM分类器的训练数据集进行课堂活动的划分，并判断相应类别；

S3：判断滑动窗口是否到达所述课堂话语类别序列的最后，若到达序列终点，则输出序列的所有分割点及相应段的类别，否则重复S2重新设置滑动窗口，获得初步的活动检测及识别结果；

S4：输出最终课堂教学活动划分。

进一步地，还包括二次活动检测，包括如下步骤：

将初次活动检测分割点集合记为：FirstDetection＝{c₁,c₂,...,c_t}，t为未知数，表示课堂可能存在的活动个数为t+1，S＝{s₁,s₂,...,s_N}为总的课堂语音段序列，在FirstDetection集合的基础上对分割点进行二次判断，设置一个定长的窗口，设长度为M，针对FirstDetection集合中的每个元素构造一个移动范围：

c_i在给定的范围内移动，根据每个c_i给定一个用于二次判断的课堂语音段子序列，子序列表示如下：

使用SVM分类器，依次计算给定c_i移动范围内每个点作为分割点的概率值，并选择最大的作为新的分割点，经过对所有一次检测的分割点处理之后，获得新的分割点集合，然后在二次检测的分割点集合的基础上进行活动类别的识别。

更进一步地，还包括三次活动检测，包括如下步骤：在师生互动活动的分割点周围一个区间内进行疑问句的检测。

更进一步地，所述设置一个定长增长型的滑动窗口的步骤包括：

设课堂类别标签序列为S＝{s₁,s₂,...,s_N}，其中N为原始连续课堂语音以定长时间的一段分割后获得的数量，设置滑动窗口的大小为w，在滑动窗口中设置一个增长型的窗口，即：

S′_i＝{s_i,s_i+1,...,s_i+w-1}

S′_ij＝{s_i,s_i+1,...,s_i+j-1},j＝1,2,...,w

S″_ij＝S′_i-S′_ij

S′_ij表示以S′_i中的一个子序列，该子序列始终以S′_i中的起点s_i为起点，长度用j表示，每迭代一次增加1；

获得一个与S′_i中的点对应的概率序列P′_i＝{p_i,p_i+1,...,p_i+w-1}，取p_i＝max(P′_i)作为滑动窗口S′_i中的活动分割点。

更进一步地，所述确定最终的教师话语类别的步骤包括：

对于课堂语音进行等长分割，之后针对每段语音提取相应的MFCC特征；

使用所述MFCC特征构造各段语音的GMM模型；

将所述各段语音的GMM模型进行聚类操作，获得初始的教师话语类别，并通过初始教师话语类别提取GGMM模型；

将教师话语类别外的各段语音的GMM模型与GGMM进行相似度计算，设定自适应的阈值，将小于阈值的标记为教师话语类别，由此获得最终的教师话语类别。

更进一步地，所述聚类操作的步骤包括：

选取聚类中心点；

计算剩余部分GMM模型与中心点的距离，将每个GMM划分到最近的中心点中；更新中心点，取各类中，与类中所有点距离之和最小的作为新的中心点；

迭代直至满足预设的停止条件或迭代到指定次数；

循环执行上述步骤共n次，可获得n种教师语音划分组，按照设定的规则选择最大满足度的划分组作为初始教师语音；

从所述划分组中选择若干个训练GGMM模型，并计算类中平均距离；

根据GGMM和平均距离，对剩余的语音样本段进行二次判断，基距离小于设定阀值，则将样本加入到教师类别中；

输出所有教师语音样本并写入数据库。

更进一步地，还包括将迭代获得N个教师类别向量进行相似度计算，取与其余N-1个向量相似度之和最大的作为最终聚类获得的初始教师类别，所述相似度的计算包括使用补零法使所获得的N个教师类别向量的长度相等。

更进一步地，所述从所述划分组中选择若干个训练GGMM模型的步骤包括：

随机选取教师类别中的

段，其中M为聚类获得教师类别中的语音段个数，随机取

的目的是降低对于教师类别中全部语音段进行GMM模型训练的时间，N为根据M的大小自适应获得的常数，其获得方式如下所示：

其中，α为时间调节参数，用于调节进行GMM训练的语音段数量，length(C)表示原始课堂语音经分割后获得语音段的总个数，系数0.4*length(C)表示最少的教师语音段个数。

更进一步地，最终的静音类别及重叠语音类别的确定方法包括：

输入数据，包括以30s一段分割后的课堂语音数据和GMM-Kmeans部分聚类获得的教师类别训练获得的教师话语的GMM模型；

对每段课堂语音段进行静音帧统计，通过设置静音帧数量阈值获得潜在的静音类别和重叠语音类别；

输入为所有的课堂语音段，训练数据为教师话语的GMM模型及获取的静音及重叠语音类别模型，通过语音识别获得课堂语音段的潜在标注；

分别取所述潜在静音类别、潜在重叠语音类别和静音类别及重叠语音类别的并集作为所述最终的静音类别及重叠语音类别。

更进一步地，所述对每段课堂语音段进行静音帧统计通过以下方法进行：

设定一个能量阈值可以分别算出静音帧，能量阈值定义如下：

其中，E_i表示第i帧语音帧的能量，

其中N为语音段总帧数，r为一个常数，范围为(0,1)，

表示向上取整。

实施本发明实施例，对课堂语音信号进行获取、分析处理和识别，立足于构建自适应、无监督式的智能方法，鲁棒地从课堂语音信号中检测出课堂语音各部分。利用并发展人工智能处理技术，对连续课堂语音进行最优化、智能化地划分，最终实现基于课堂语音的课堂教学活动识别。

附图说明

图1为课堂教师语音智能检测系统的总体流程图；

图2为教师语音检测的具体实施例的流程示意图；

图3为教师语音GGMM模型训练具体实施例的流程示意图；

图4为聚类算法具体实施例的流程示意图；

图5为课堂中静音及重叠语音获取流程；

图6为第一次活动检测流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，本发明实施例的一种自适应、无监督式的课堂教学活动智能感知方法，包括教师语言检测方法和教师语言GGMM模型训练方法。

如图2所示，教师语言检测方法包含以下几个步骤：

S110、录音；

S120、语音信号预处理；

S130、语音分割与建模；

S140、教师语音检测。

如图3所示，教师语音GGMM模型训练方法包含以下几个步骤：

S110、录音；

S120、语音信号预处理；

S130、语音分割与建模；

S240、聚类。

其中，S110中通过使用录音设备获得相应的课堂语音数据。S120中对于录音获取的课堂语音进行预处理，包括分帧，加窗，预加重等语音预处理常用方法。S130中对于课堂语音进行等长分割，之后针对每段语音提取相应的MFCC特征，并基于MFCC特征构造各段语音的GMM模型。之后将各段语音的GMM模型作为S240的输入数据进行聚类操作，获得初始的教师话语类别，并基于初始教师话语类别提取GGMM模型。S140中将教师话语类别外的各段语音的GMM模型与GGMM进行相似度计算，设定自适应的阈值，将小于阈值的标记为教师话语类别，由此获得最终的教师话语类别。

S240中的聚类算法如图4所示。

S2401、初始中心点选取方法；

1)从所有语音段中随机选取一个作为第一个中心点。

2)计算剩余语音段与第一个中心点的GMM模型距离，选择距离最大的语音段作为第二个中心点。

3)依次计算未选择作为中心点的语音段与中心点的距离，选择距离中心点距离最大的作为下一个中心点。

4)迭代直至中心点个数达到指定类别个数。

上述中心点选择方法相比于随机中心点选取方法在最终聚类结果的准确率上获得了明显的提高。上述中心点选取方案可能会存在将离群点选为中心点的问题从而影响聚类结果，由于GMM-Kmeans算法在S2402(3)中所设置的停止条件，离群点作为中心点所获得的聚类结果会在迭代过程中被排除，所以通过上述方法选取初始中心点可以获得稳健的聚类结果。

仅通过上述方法依旧无法很好的度量高斯混合模型间的距离，即定义GMM A与GMMB的离散度如下：

称为GMMA相对于GMMB的离散度，其中WA_i表示GMMA的第i个混元的权重，WB_j表示GMMB的第j个混元的权重，d_AB(i,j)表示GMMA的第i个高斯分布与GMMB的第j个高斯分布间的距离，考虑到计算量的原因以及多个高斯分布出现均值向量完全相同的可能性，本实施例选用马氏距离作为d_AB(i,j)的距离计算方法。

其中，

表示两个多维高斯分布，μ₁,μ₂为两个分布的均值向量，

为两个分布的协方差矩阵。

出于对称性的考虑，最终的GMM距离度量公式如下：

其中A，B分别表示两个GMM模型。

S2402、计算所有样本与中心点距离、迭代并直到满足预设的停机条件；

1)计算剩余部分GMM模型与中心点的距离，将每个GMM划分到最近的中心点中。

2)更新中心点，取各类中，与类中所有点距离之和最小的作为新的中心点。

迭代直至满足预设的停止条件(当所获得的聚类结果中语音段数量最多的类别所包含的语音段数量大于总语音段的40％并且语音段数量比第二大类别中语音段数量多时输出)或迭代到指定次数。

S2403、循环执行S2401步和S2402共n次，可获得n种教师语音划分组，按照一定的规则选择最大满足度的划分组作为初始教师语音。

S2403迭代获得了N个教师类别向量进行相似度计算，取与其余N-1个向量相似度之和最大的作为最终聚类获得的初始教师类别。由于所获得的N个教师类别向量的长度不唯一，进行相似度计算之前需要进行相应的处理使向量长度相同。采用补零法使向量长度相等。

该方法选取N个教师类别向量中长度最长的记为M，将所有向量长度扩展到M，不足M的部分使用0元素代替，即：

M＝max(length(T₁),length(T₂),...,length(T_N))

T_i＝[T_i,Append_i],i＝1,2,...,N

Append_i＝zeros(1,M-length(T_i)),i＝1,2,...,N

其中，T₁,T₂,...,T_N为N个教师类别向量，M为最长的向量长度，length(T)表示获得T向量长度，Append_i为第i个教师类别向量所有添加的0元素向量，zeros(i,j)表示形成一个i行j列的0元素向量。

本实施例通过使用补零法使教师类别向量获得统一的长度，之后计算两两向量之间的距离，由于人为添加了0元素，利用向量间距离度量向量相似的的方法，比如：欧氏距离等，会存在很大的误差，故，此处选用余弦相似度作为度量向量间相似度的方法。

余弦相似度用向量空间中两个向量夹角的余弦值表示向量的相似度。余弦值越接近于1，则表明夹角越接近于0度，则向量就越相似。

向量a,b间的余弦相似度定义如下：

其中a＝(a₁,a₂,...,a_N),b＝(b₁,b₂,...,b_N)分别表示一个N维向量。

S2404中随机选取教师类别中的

段，其中M为聚类获得教师类别中的语音段个数，随机取

其中，α为时间调节参数，用于调节进行GMM训练的语音段数量，本实施例取α＝2。length(C)表示原始课堂语音经30s一段分割后获得语音段的总个数。系数0.4*length(C)表示最少的教师语音段个数。上式表示，聚类获得的教师类别语音段个数越大，在进行GMM模型训练时，取其中越小的比例。通过上述公式，使得不同语音进行GMM模型训练时所需的语音段个数趋于相似。

设置相似度阈值为S/γ，其中S为教师类别语音段的类间相似度均值，γ为自适应调节参数，用于最大限度的保证教师类别的完整性。其获得方式如下所示：

其中，β为调节参数，范围为[0,1]，本实施例取β＝1/5。S_max,S_min分别表示教师类别类间相似度的最大值和最小值。length(C)表示原始课堂语音经30s一段分割后获得语音段的总个数。M为教师类别中语音段的数量。上式表示M越大时，γ越大，即相似度阈值设置越小。且当类间相似度的范围越大时，取越小的相似度阈值，使得对于剩余部分是否为教师话语的准确度更高。

通过GMM-Kmeans算法的处理，最终可以获得一个相对稳定的教师类别向量，通过试验中与人工划分的类别进行比较，所获得的教师类别与人工标注的教师类别有较高的相似度，相比较于直接使用为改进的K-means进行聚类所获得的结果，本实施例所使用的GMM-Kmeans算法在聚类准确率上有显著的提高。

在获得教师类别之后，之后为对于静音以及重叠语音部分的判断。由

于学生类别无明确的特征，而且学生数量未知，所以无法对学生类别先进行检测。本实施例通过优先检测教师类别，静音以及重叠语音类别，通过排除上述三部分所包含的语音段将剩余语音段标注为学生话语类别。

如图5所示课堂中静音及重叠语音获取流程，可最终获得课堂语音的基本类别划分。具体步骤如下：

S310：输入数据，包括以30s一段分割后的课堂语音数据和GMM-Kmeans部分聚类获得的教师类别训练获得的教师话语的GMM模型。

S320：对每段课堂语音段进行静音帧统计，通过设置静音帧数量阈值获得潜在的静音类别和重叠语音类别。

S330：综合输入的教师话语的GMM模型及S320中获取的静音及重叠语音模型。

S340：基于GMM模型的语音识别，输入为所有的课堂语音段，训练数据为S330中3个GMM模型，通过语音识别获得课堂语音段的潜在标注。

S350：确定最终的静音类别及重叠语音类别，通过比较S320部分所获的潜在静音类别，重叠语音类别与S330中语音识别所获的两个类别中的语音段，分别取S320，S330结果静音类别，重叠语音类别的并集作为最终的静音类别和重叠语音类别。

本实施例采用基于阈值的方法计算静音帧数量，研究发现，静音帧表现出较低的能量相对于有人说话的帧，通过设定一个能量阈值可以分别算出静音帧，能量阈值定义如下：

其中，E_i表示第i帧语音帧的能量，

其中N为语音段总帧数，r为一个常数，范围为(0,1)，

表示向上取整。

本实施例中，通过计算整段课堂录音形成能量阈值，通过设置能量阈值Threshold，容易获得每段课堂语音段中的所包含的静音帧的数量，之后根据每段所包含的静音帧数量划分潜在的静音类别和重叠语音类别。

静音类别顾名思义就是该类别中的课堂语音段包含大量静音帧或基本都为静音帧。在真实课堂中静音类别表现为：1.教师提问，学生思考阶段，此时课堂较安静，几乎无人说话；2.学生自习，无人讲话；3.教室布置习题，学生做题。简而言之，静音类别较其他类别，课堂语音段中包含更多的静音帧，基于此，可以通过设置静音帧数量的阈值的方法来获得潜在的静音类别。

本实施例的静音类别判断阈值设置如下：

其中，α为一个常量，用于改变阈值的大小，优选的是，在α＝1.7时，静音类别判断阈值取得较好的检测效果。N为将课堂语音分割为30s一段所获得的语音段的个数，Silence_i表示第i段语音段所包含的静音帧的数量，M为第i段语音段所包含的总的帧数，E_j表示第i段语音段中第j帧语音的能量，I(condition)为指示函数，当满足条件condition时为1，否则为0。

通过设定静音类别判断阈值Threshold_s，将语音段静音帧数大于阈值的确定为潜在的静音类别，即：

ClassOfSilence_i＝I(numberOfSilence_i＞Threshold_s),i＝1,2,...,N

其中，ClassOfSilence_i表示第i个语音段是否为静音类别，1为是，0为不是，其值由指示函数I(condition)表示。numberOfSilence_i表示第i个语音段中说包含的静音帧的个数。

重叠语音为一段语音中包含两个或两个以上人同时说话，在课真实课堂中重叠语音可表现为：1.学生分小组讨论；2.教师提问时，多个学生同时回答等。重叠语音段在静音帧的表现上不同于静音段，在一个语音段中，当静音持续时间越长则该段包含重叠语音的概率越低。联系本实施例所处理的问题，可以考虑通过静音帧的数量确定潜在的重叠语音类别。获得潜在重叠语音类别的方法与获得潜在静音类别方法类似，如下所示：

ClassOfOverlap_i＝I(numberOfSilence_i＜Threshold_s),i＝1,2,...,N

其中，α'为常量，用于获得重叠语音判断类别阈值Threshold_o，优选的是，本实施例中取α'＝0.6。将语音段中静音帧数量小于阈值Threshold_o的认为是潜在的重叠语音段从而获得相应的潜在重叠语音类别。

通过前面的方法处理，已经获取了3部分信息，分别为：

1.最终的教师类别；

2.潜在静音和潜在重叠语音类别；

3.基于GMM语音识别获得教师类别，静音类别，重叠语音类别。

现在需要整合这些信息获得最终的课堂话语类别序列。整合过程如下：

定义，最终的教师类别为TPart，学生类别为StuPart，静音类别为SilPart，重叠语音类别为OPart。

①.TPart由1.最终的教师类别直接确定。

②.SilPart的确定：

记2.潜在静音类别为PSilPart；3.基于GMM语音识别获得静音类别记为GSilPart。PSilPart和GSilPart分别包含未知个数的语音段。

SilPart＝PSilPart∩GSilPart

③.OPart的确定：

记2.潜在重叠语音类别为POPart；3.基于GMM语音识别获得重叠语音类别记为GOPart。POPart和GOPart分别包含未知个数的语音段。

OPart＝POPart∩GOPart

④.StuPart的确定：

记所有的语音段集合为ClassPart

StuPart＝ClassPart-TPart-SilPart-OPart

通过上述整合方法获得所有课堂段的类别划分，将最终获得的4类结合进行合并，并按时间进行排序获得最终的课堂话语类别序列记为LabelOfClass。至此就完成了课堂语音段类别划分部分，之后为基于该部分获得的LabelOfClass进行课堂活动的感知。

如图6所示的第一次活动检测流程图，具体流程如下：

S410：输入数据为课堂语音类别划分部分所获的课堂话语类别序列LabelOfClass，该部分仅考虑在课堂话语类别序列的基础上进行活动的划分与检测。LabelOfClass是按照时间排序的序列，可表示为：

LabelOfClass＝{l₁,l₂,...,l_N}。其中N为30s一段语音段的总个数，l_i表示第i个30s对应的语音段所属的类别。

S420：SVM分类器的训练数据集，每条数据为一个5维向量，第一维表示课堂活动类别，后四维为特征向量，表现为该段课堂活动中各部分基本元素的数量，即(教师话语段数量，学生话语段数量，静音段数量，重叠语音数量)。训练数据集为通过人工合成课堂语音并对其进行活动划分所得到的特征。

S430：设置一个定长增长型的滑动窗口。

S440：在S430中所设定的滑动窗口的基础上使用SVM进行课堂活动的划分，并判断相应类别。

S450：判断滑动窗口是否到达LabelOfClass序列最后，若到达序列终点，则输出序列的所有分割点及相应段的类别，否则回到S430中，重新设置滑动窗口。通过一次活动检测，可以获得初步的活动检测及识别结果。下面介绍一次活动检测过程中所使用的一些方法以及在本实施例中的应用。

S460：获得最终课堂教学活动划分。

滑动窗口是一种进行时间序列分析时常使用的方法，本实施例课堂话语类别划分部分所获得的课堂类别标签序列为按照时间，在原始课堂语音的基础之上以30s一段分割，并获得相应的类别所获得的序列，故课堂语音类别标签序列可近似看为一种时间序列数据，于是可通过滑动窗口的方法在其上进行课堂活动的检测。

简单的使用滑动窗口进行时间序列分析可表述如下：S为一段时间序列，S＝{s₁,s₂,...,s_N}，滑动窗口长度为w。将滑动窗口从时间序列的起始位置，此时滑动窗口对于S中长度为w的一段子序列，即：S′₁＝{s₁,s₂...,s_w}。在对S′₁处理完之后将滑动窗口后移，则获得S'₂＝{s₂,s₃,...,s_w+1}，依次类推，可以获得n-w+1个长度为w的子序列，通过对于子序列分别进行处理从而将原始时间序列映射为一系列w维空间中的点，从而降低对于原始时间序列处理的复杂度。

本实施例对于课堂类别标签时间序列处理的目的为进行课堂活动的自动划分与识别，基于普通的滑动窗口进行课堂活动的检测存在一定的缺陷，如无法准确的确定类别切分点，滑动窗口大小无法确定等问题。针对上述存在的问题，本实施例设计并使用一种定长增长型的滑动窗口，该滑动窗口较好的实现了课堂活动的划分与识别。

下面具体说明本实施例所使用的定长增长型滑动窗口。

假设课堂类别标签序列为S＝{s₁,s₂,...,s_N}，其中N为原始连续课堂语音以30s一段分割后获得的数量。设置滑动窗口的大小为w，优选的是，w＝0.2*N时可以获得较好活动检测效果。之后，在滑动窗口中设置一个增长型的窗口，即：

S′_i＝{s_i,s_i+1,...,s_i+w-1}

S′_ij＝{s_i,s_i+1,...,s_i+j-1},j＝1,2,...,w

S″_ij＝S′_i-S′_ij

S′_ij表示以S′_i中的一个子序列，该子序列始终以S′_i中的起点s_i为起点，长度用j表示，每迭代一次增加1。S″_ij为S′_i中去除S′_ij剩余的部分，也为S′_i的一个子序列，其大小随S′_ij的变化而变化。通过在一个滑动窗口中进行这样的设置，结合SVM分类器，通过S′_ij和S″_ij不停地变化获得S′_i中每个点作为活动分割点时获得的活动类别以及该点作为活动分割点的概率大小。基于这样的分析，通过对每个滑动窗口内的数据点进行一次迭代，可以获得一个与S′_i中的点对应的概率序列，即：P′_i＝{p_i,p_i+1,...,p_i+w-1}。于是取p_i＝max(P′_i)作为滑动窗口S′_i中的活动分割点。然后移动滑动窗口进行下一次计算。

本实施例中滑动窗口的移动也不同于普通滑动窗口的移动，本实施例中滑动窗口的移动规则如下：

[pValue_i,pLocation_i]＝max(P′_i)

即，将前一个滑动窗口中分类获得概率值最大的点作为下一个滑动窗口的起点。其中pValue_i表示滑动窗口S′_i中分类概率值最大的点对应的概率值，pLocation_i为滑动窗口S′_i中分类概率值最大的点在S′_i中的位置，通过与S′_i起始点在整个课堂语音类别序列中的位置相加可以获得S′_i中检测到的活动分割点在整个序列中的位置。

通过使用上述定长增长型滑动窗口，可以获得分割点的集合以及经分割点分割后的课堂语音类别序列。使用SVM分类器对于各段分割后的序列进行分类便能获得相应的活动类别。通过将滑动窗口与SVM分类器融合对语音类别序列进行综合处理，获得第一次活动检测的结果。

通过上述一次活动检测对于课堂语音类别序列已经有个初步的划分并获得了相应的分割点集合及经过分割后各段序列的活动类别。在一次活动检测中，活动检测的方法为结合定长增长型滑动窗口与SVM分类器，相较于普通的滑动窗口处理而言该方法取得了不错的效果，并能顺利检测出部分活动的分割点。但是，在运用滑动窗口处理问题时存在一个无法避免的问题，滑动窗口的边界点附近的值处理问题。本实施例使用的定长增长型滑动窗口虽然通过一定的改进，如改变移动方法，或通过取一个较为合理地窗口大小等，依旧无法避免在边界点附近存在一些误差，故，二次活动检测部分主要针对使用滑动窗口所存在的边界点附近的误差进行处理。

二次活动检测的方案如下：通过一次活动检测获得了初次活动检测分割点集合，记为：FirstDetection＝{c₁,c₂,...,c_t}，t为未知数，表示课堂可能存在的活动个数为t+1，S＝{s₁,s₂,...,s_N}为总的课堂语音段序列。在FirstDetection集合的基础上对分割点进行二次判断，设置一个定长的窗口，设长度为M。针对FirstDetection集合中的每个元素构造一个移动范围：

即，以c_i前后的分割点为起止点，截取课堂语音序列S中相应的部分，然后给定c_i点改变的范围，通过不断改变c_i点所对应的值，在给定序列进行二次活动分割点检测。对于c_i点二次检测的过程与一次检测中滑动窗口内的活动检测过程一样，使用SVM分类器，依次计算给定c_i移动范围内每个点作为分割点的概率值，并选择最大的作为新的分割点。经过对所有一次检测的分割点处理之后，获得新的分割点集合，然后在二次检测的分割点集合的基础上进行活动类别的识别。

这样处理的目的是考虑滑动窗口设置过小，或者过大时对于一些点的误判，通过在合理的范围内改变分割点，并重新计算分割点的概率能够一定程度上弥补滑动窗口定长设置所带来的误差。

三次活动检测的主要目的为对二次活动检测中存在的一些不足进行最后的修正。仅使用课堂话语类别序列构造的活动特征在对于某两类活动的检测中存在一定的误差，如教师授课与师生互动两类活动的分割点。当教师授课与师生互动两个活动相邻时，师生互动部分开始时教师话语会倾向于划分到教师授课部分。针对上述问题，考虑在二次活动检测的基础上引入音频特征进行三次活动检测。分析发现，师生互动活动以很大的概率开始于教师的提问，所以针对师生互动部分起始点不易确定的问题，

三次活动检测在师生互动活动的分割点周围一个区间内进行疑问句的检测。该区间为一个很小的区间，大小可固定为分割点前后两个点，即一个长度为5的区间内。将该区间内检测到的疑问句作为新的分割点，若未检测到疑问句，则不改变分割点。

根据三次活动检测获得的新的分割点集合，计算相应分割后序列的类别获得最终的活动检测与识别结果。

疑问句在语音交际中占有重要地位，检出语音交际中的疑问句对把握语义重心和分析话语结构具有重要作用。对于汉语疑问句的检测前人已经做了很多工作了，有学者认为疑问句的检测集中于句尾的，有学者将研究重点放于疑问句特征的研究上。本实施例用于疑问句检测的语音信号为30s分割后的语音段，该语音段中可能包含一小段疑问句或包含多个疑问句，不同于前人基于一句疑问句的判断，本实施例所要判断的疑问句包含于一系列语音中。基于此，一些基于监督分类的方法并不适用，综合考虑各种声学特征，最终本实施例选择基频作为疑问句检测的特征。

人在发音时，根据声带是否震动可以将语音信号分为清音跟浊音两种。浊音又称有声语言，携带者语言中大部分的能量，浊音在时域上呈现出明显的周期性；而清音类似于白噪声，没有明显的周期性。发浊音时，气流通过声门使声带产生张弛震荡式振动，产生准周期的激励脉冲串。这种声带振动的频率称为基音频率，相应的周期就成为基音周期。通常，基音频率与个人声带的长短、薄厚、韧性、劲度和发音习惯等有关系，在很大程度上反应了个人的特征。

通过对于多个疑问句及非疑问句进行分析发现，疑问句相较于陈述句存在一段持续时间较长的高基频段，考虑教师进行课堂提问时的语调会有较明显的上扬，故本实施例通过检测语句中高基频段所持续的时间来判断该段语句中是否存在疑问语句。

本发明具有如下优点：

1.本发明是自适应，无监督的课堂教师语音识别。相较于已有的方法，不需要任何先验知识，且对于不同形式，不同长度的课堂语音，不同的课堂环境均有很好的自适应能力。

2.本发明设计并实现一种改进的GMM-Kmeans聚类方法，以GMM模型作为特征进行聚类，最大限度的保留了原始特征，提高聚类的准确率。以GMM作为特征并计算距离，避免直接处理较大长度语音信号，从而缩短了算法处理时间，总体上实现了一种准确率高并且速度快的课堂教室语音识别。

3.在GMM-Kmeans聚类算法的基础上，考虑环境的影响，基于聚类结果，自适应的选取合适的语音段并构造GGMM模型，自适应获取相似度阈值，二次检测教师话语，从而获得准确地教师语音类。所有的阈值均为通过设计公式自适应的根据课堂语音数据获得，无人工干涉，从而使得该算法针对不同课堂环境，课堂情形具有很强的鲁棒性。

4.基于静音帧统计能自适应识别课堂教学活动中的语音段，并提取相应模型进行语音识别。

5.设计课堂活动的组成形式，让机器能判断课堂活动的基本形式。

与现有技术相比，本发明的有益效果为：面向高复杂性的课堂教学(主要包括课堂情境的多样性、教师主体的多样性以及教师课堂组织的多样性)，提出一种无监督式的，自适应鲁棒的教师语音检测方法，有效提升了系统的在实际应用中的适应性与智能性，之后基于静音帧统计实现静音及重叠语音部分的提取，能自适应实现课堂基本类别划分。最后，基于课堂类别划分实现课堂教学活动的划分与识别。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种自适应、无监督式的课堂教学活动智能感知方法，其特征在于，包括以下步骤：

S4：输出最终课堂教学活动划分；

在上述步骤中，还包括二次活动检测，包括如下步骤：

将初次活动检测分割点集合记为：FirstDetection={c₁,c₂,…,c_t}，t为未知数，表示课堂可能存在的活动个数为t+1，在FirstDetection集合的基础上对分割点进行二次判断，设置一个定长的窗口，设长度为M，针对FirstDetection集合中的每个元素构造一个移动范围：

c _i在给定的范围内移动，根据每个c _i给定一个用于二次判断的课堂语音段子序列，子序列表示如下：

使用SVM分类器，依次计算给定c _i移动范围内每个点作为分割点的概率值，并选择最大的作为新的分割点，经过对所有一次检测的分割点处理之后，获得新的分割点集合，然后在二次检测的分割点集合的基础上进行活动类别的识别。

2.根据权利要求1所述的自适应、无监督式的课堂教学活动智能感知方法，其特征在于，还包括三次活动检测，包括如下步骤：在师生互动活动的分割点周围一个区间内进行疑问句的检测。

3.根据权利要求2所述的自适应、无监督式的课堂教学活动智能感知方法，其特征在于，所述设置一个定长增长型的滑动窗口的步骤包括：

设课堂类别标签序列为S={s₁,s₂,…,s_N} ，其中N为原始连续课堂语音以定长时间的一段分割后获得的数量，设置滑动窗口的大小为w，在滑动窗口中设置一个增长型的窗口，即：

S΄ _i={S΄ _i ,S΄ _i+1 ,…,S΄ _i+w-1}

S΄ _ij={S _i ,S _i+1 ,…,S _i+j-1}，j=1,2,…,w

S΄ _ij={S΄ _i -S΄ _ij}

S΄ _ij表示S΄ _i中的一个子序列，该子序列始终以S΄ _i中的起点S _i为起点，长度用j表示，每迭代一次增加1；

获得一个与S΄ _i中的点对应的概率序列P΄ _i={p _i ,p _i+1 ,…，p _i+w-1}，取p _i=max(P΄ _i)作为滑动窗口S΄ _i中的活动分割点。

4.根据权利要求1所述的自适应、无监督式的课堂教学活动智能感知方法，其特征在于，所述确定最终的教师话语类别的步骤包括：

使用所述MFCC特征构造各段语音的GMM模型；

5.根据权利要求4所述的自适应、无监督式的课堂教学活动智能感知方法，其特征在于，所述聚类操作的步骤包括：

选取聚类中心点；

迭代直至满足预设的停止条件或迭代到指定次数；

根据GGMM和平均距离，对剩余的语音样本段进行二次判断，其距离小于设定阀值，则将样本加入到教师类别中；

输出所有教师语音样本并写入数据库。

6.根据权利要求5所述的自适应、无监督式的课堂教学活动智能感知方法，其特征在于，还包括将迭代获得N个教师类别向量进行相似度计算，取与其余N-1个向量相似度之和最大的作为最终聚类获得的初始教师类别，所述相似度的计算包括使用补零法使所获得的N个教师类别向量的长度相等。

7.根据权利要求6所述的自适应、无监督式的课堂教学活动智能感知方法，其特征在于，所述从所述划分组中选择若干个训练GGMM模型的步骤包括：

随机选取教师类别中的

段，其中M为聚类获得教师类别中的语音段个数，随机取

其中，

为时间调节参数，用于调节进行GMM训练的语音段数量，length(C) 表示原始课堂语音经分割后获得语音段的总个数，系数0.4*length(C) 表示最少的教师语音段个数。

8.根据权利要求1-7任一项所述的自适应、无监督式的课堂教学活动智能感知方法，其特征在于，最终的静音类别及重叠语音类别的确定方法包括：

分别取所述潜在的静音类别、潜在的重叠语音类别和静音类别及重叠语音类别的并集作为所述最终的静音类别及重叠语音类别。

9.根据权利要求8所述的自适应、无监督式的课堂教学活动智能感知方法，其特征在于，所述对每段课堂语音段进行静音帧统计通过以下方法进行：

其中，E _i表示第i帧语音帧的能量，

，其中N为语音段总帧数，r为一个常数，范围为(0,1)，

表示向上取整。