CN110517694A

CN110517694A - 一种教学场景说话人转换检测系统

Info

Publication number: CN110517694A
Application number: CN201910839456.XA
Authority: CN
Inventors: 张文铸; 杜远超
Original assignee: Beijing Qingfan Technology Co Ltd
Current assignee: Beijing Qingfan Technology Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-11-29

Abstract

本发明公开了一种教学场景说话人转换检测系统，包括语音录入模块，VAD模块，声音特征提取模块，说话人识别模块，输出模块组成。本发明运用语音信号处理及深度学习的方法对课堂上的语音音频数据进行处理，划分成不同说话人的音频区间，从而节约教学评价和课后复习的人力物力财力和时间；方便优化教育方法，提供更合理的学习资料。

Description

一种教学场景说话人转换检测系统

技术领域

本发明属于人工智能与语音处理领域，具体涉及一种教学场景说话人转换检测系统。

背景技术

随着科学技术越来越多的投入到教育领域，所有课堂活动会被记录，学生和教学组在课后可以通过观看课堂录制视频来进行复习课堂内容及教学评价等操作。在教学评价及学生课后复习的过程中，老师在课堂上所讲述的内容都是关键对象。但是课堂中不可避免的会出现学生发言，师生交流，自由讨论等环节，如果将这些环节不加筛选的送入到教学评价系统或学生复习资料中，就会造成大量的人力，物力，时间等资源的浪费。针对这一技术问题，本发明通过人工智能算法对课堂场景的音频进行语音处理，准确分割出不同人的说话时间区域，从而进一步找到课堂上的关键内容。

发明内容

本发明的目的在于克服以上存在的技术问题，提供一种教学场景说话人转换检测系统。

为实现上述目的，本发明采用如下的技术方案：

一种教学场景说话人转换检测系统，包括如下步骤：

S1：通过录音设备得到课堂上的语音信息，并转化成音频信号送入到服务器的数据库中；

S2：人工智能VAD模块根据所述音频信号将课堂音频按照有人说话和无人说话两个类别来进行分类；

S3：声音特征提取模块将步骤S2中所得到的有人说话部分的音频按照声音特征来计算出声音特征向量，进一步得到整段音频的声音特征矩阵；

S4：说话人识别模块根据步骤S3所得到的声音特征矩阵对音频按照说话人进行分类，得到老师说话区间及不同学生说话区间的类别；

S5：输出模块根据步骤S4所得到的分类类别获得老师讲话音频及学生讲话音频。

进一步地，所述人工智能VAD模块包括第一深度学习算法。

进一步地，所述声音特征提取模块包括小波变换算法、梅尔频率倒谱算法和第二深度学习算法，所述声音特征提取模具体是对音频按照固定长度及固定步长对音频进行裁剪，制作出每段的声音频谱矩阵，通过人工智能算法来得到每段音频的声音特征。

进一步地，所述第二深度学习算法包括LSTM算法、RNN算法和End-to-End损失函数算法。

进一步地，所述说话人识别模块包括第三深度学习算法。

进一步地，所述第三深度学习算法包括GRU算法、RNN算法和极大似然估计算法。

进一步地，所述录音设备为麦克风。

进一步地，所述步骤S4的分类方法为：首先，将当前帧的特征矩阵与上一帧特征矩阵做相似度计算，当相似度大于阈值时即判断当前帧说话人与上一帧说话人为同一说话人；若相似度小于阈值时，则计算当前帧之前出现过的说话人做相似度计算继续做阈值判断，阈值由当前帧与说话人上次说话相差帧数以及说话人说话段数决定；若相似度均不满足条件则判断当前帧数说话人为新一说话人。

本发明的有益效果：

本发明运用语音信号处理及深度学习的方法对课堂上的语音音频数据进行处理，划分成不同说话人的音频区间，从而节约教学评价和课后复习的人力物力财力和时间；方便优化教育方法，提供更合理的学习资料。

附图说明

图1：本发明工作总体流程图。

图2：本发明说话人识别模块结构框图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明包括语音录入模块，VAD模块，声音特征提取模块，说话人识别模块，输出模块组成。

语音录入模块即安放在教室内的录音设备，在上课期间自动启动运行，将课堂上的音频全部记录下来并传输给VAD模块，语音录入模块优选麦克风。

VAD模块的作用是将完整的课堂语音进行筛选，将无人说话部分，噪音及杂声部分去除，只保留清晰地有人说话部分来提取作为特征提取的输入。经过VAD模块可以大量提高后续模块的运行速度及准确率。这是因为VAD模块去除掉了干扰信息，干扰信息会严重影响后续对说话人识别的判断。

声音特征提取模块是利用机器学习的方法，对模型投入不同时间，不同场景的多个数据集进行训练。然后将有人说话部分的音频以250ms为区间长，50％的overlap概率进行分割，将分割后的每一小段音频投入到训练好的模型中得到一个长度为256的一维特征矩阵，特征矩阵即表示每一小段语音的音频特征。

说话人识别模块是根据之前步骤得到的声音特征矩阵进行分类，具体分类方法如图2所示，首先将当前帧的特征矩阵与上一帧特征矩阵做相似度计算，当相似度大于阈值时即判断当前帧说话人与上一帧说话人为同一说话人，若相似度小于阈值时则计算当前帧之前出现过的说话人做相似度计算继续做阈值判断，阈值由当前帧与说话人上次说话相差帧数以及说话人说话段数决定。若相似度均不满足条件则判断当前帧数说话人为新一说话人。

输出模块是得到课堂内老师讲话音频及学生讲话音频。

最后应说明的是：以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案；因此，尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明，但是，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换；而一切不脱离本发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围中。

Claims

1.一种教学场景说话人转换检测系统，其特征在于，包括如下步骤：

2.根据权利要求1所述的教学场景说话人转换检测系统，其特征在于：所述人工智能VAD模块包括第一深度学习算法。

3.根据权利要求1所述的教学场景说话人转换检测系统，其特征在于：所述声音特征提取模块包括小波变换算法、梅尔频率倒谱算法和第二深度学习算法，所述声音特征提取模具体是对音频按照固定长度及固定步长对音频进行裁剪，制作出每段的声音频谱矩阵，通过人工智能算法来得到每段音频的声音特征。

4.根据权利要求3所述的教学场景说话人转换检测系统，其特征在于：所述第二深度学习算法包括LSTM算法、RNN算法和End-to-End损失函数算法。

5.根据权利要求1所述的教学场景说话人转换检测系统，其特征在于：所述说话人识别模块包括第三深度学习算法。

6.根据权利要求5所述的教学场景说话人转换检测系统，其特征在于：所述第三深度学习算法包括GRU算法、RNN算法和极大似然估计算法。

7.根据权利要求1所述的教学场景说话人转换检测系统，其特征在于：所述录音设备为麦克风。

8.根据权利要求1所述的教学场景说话人转换检测系统，其特征在于：所述步骤S4的分类方法为：首先，将当前帧的特征矩阵与上一帧特征矩阵做相似度计算，当相似度大于阈值时即判断当前帧说话人与上一帧说话人为同一说话人；若相似度小于阈值时，则计算当前帧之前出现过的说话人做相似度计算继续做阈值判断，阈值由当前帧与说话人上次说话相差帧数以及说话人说话段数决定；若相似度均不满足条件则判断当前帧数说话人为新一说话人。