CN108876951A

CN108876951A - 一种基于声音识别的教学考勤方法

Info

Publication number: CN108876951A
Application number: CN201810609808.8A
Authority: CN
Inventors: 贾成举; 朱永峰; 张琳琳
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-23

Abstract

本发明公开了一种基于声音识别的教学考勤方法，处理器利用语音识别中的声学模型深度神经网络对学生的声音信号进行分类，提取出说话人信息并用于提取DNN i‑vector进行答到学生语音的声纹识别，将识别出来的答到学生的声纹进行答到匹配，采用五个拾音器进行答到学生声源的空间定位，通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话，达到了考勤与课堂纪律监测的目的，而且可以解决基音周期系数在区别清音和低电平的浊音较困难及MFCC参数抗噪性不佳的问题，声纹识别阶段，利用GMM来训练和识别特定人声纹、环境噪声干扰较大的情况下，具有较小的声源位置估计偏差。

Description

一种基于声音识别的教学考勤方法

技术领域

本发明属于语音识别领域，尤其涉及一种基于声音识别的教学考勤方法。

背景技术

目前的考勤管理系统虽然跟以往签到方式相比有着明显的进步，但由于还是由有线数据的传输，需要布局布线以及线口对接等比较复杂的过程来完成，而且这样的工作方式不仅费时费力，浪费原材料，而且必须人为的来完成线路的管理以及数据的分析，所以能够把考勤信息远距离的无线传输和接收，实现低成本、高效率、无错化的考勤管理系统日趋成为了大家的迫切需要，目前市场上已经出现基于声纹信息的考勤系统，但是复杂课堂语音环境下声纹识别率不高，而且现有语音考勤系统不具备课上监测课堂纪律的功能。

发明内容

针对现有技术存在的问题，本发明提供了一种基于声音识别的教学考勤方法。

本发明是这样实现的，一种基于声音识别的教学考勤方法包括：

步骤一、采集老师点名的声音信号，利用正交小波滤波器组来对信号进行预滤波，对语言信号的每个频率段进行细粒度去噪，提取出各频段小波系数，重构出语音信号；

步骤二、将预滤波后的语音信息发送给教学电脑的处理器内，利用倒谱法计算出基音周期参数，通过Mel滤波器组将小波系数转换成Mel倒谱系数，将得出的两种参数组成一个特征矢量作为声纹特征，并在数据库内查找与该声纹特征信息匹配的相对应姓名的学生个人信息；

步骤三、多个拾音器获取答到学生的声音，并在数据库内查找该姓名的学生个人信息，对拾取的学生声音进行预处理，并将预处理后的音频信号传输到教学电脑的处理器内；

步骤四、处理器利用语音识别中的声学模型深度神经网络分别对该学生预处理后的声音信号的不同音素上的语音特征进行分类，在毎个音素子空间内实现对特征降维，提取出说话人信息并用于提取DNN i-vector进行答到学生语音的声纹识别，每一个说话人都由一个GMM表示，计算出特征矢量序列的每个似然函数，找到其中最大的说话人模型，判定为说话人；

步骤五、将识别出来的答到学生的声纹，与数据库中学生个人信息中的声纹信息进行匹配，若匹配相似程度超过预设值，则判断学生答到通过，若匹配相似程度不超过预设值，则向警报器发出报警信息；

步骤六、采用五个拾音器组成的阵列作为声源定位获取的耳朵,离线采样阶段，捕获各拾音器定位参考点处声源信号并完成位置特征提取，据此特征和参考点位置信息构建定位数据库，其中四个拾音器组成的平面阵确定声源空间位置，另外一个拾音器辅助完成声源位于拾音器前后方的判断，并通过改进的时延算法实现答到学生声源的空间定位，若答到学生的声源位置超出预设的教室范围，则判定学生迟到；

步骤七、教学过程中，拾音器实时获取教室内的声音，通过在线定位，提取待定位点处实时信号特征并和定位数据库中信息进行匹配，通过声纹识别识别出老师、学生声音，通过步骤六的声源位置确定方法确定老师声源及学生声源的位置及朝向，并计算相对应的老师及学生的声源的音量大小，通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话。

进一步，步骤七所述判断学生是否在私自讲话的具体方法为：

步骤一、若识别出学生的声音，则判断当前时间老师是否在发声，若老师在发声，则判断学生在私自讲话，记录在考勤中；

步骤二、若老师未发声，读取前n秒钟时间点时老师的声源的位置，根据学生声源的朝向，判断学生声音是否是否朝向老师，若不是朝向老师，则判定学生在课程上私自讲话，记录在考勤系统中；

步骤三、若学生声源朝向老师，则根据学生与老师位置的距离，判断声源音量大小是否在阈值内，若是，则判定学生在回答老师的问题，若不是，则判定学生在私自讲话，记录在考勤系统中。

进一步，步骤四所述语音的声纹识别方法如下：

步骤一、把原始语音信号转化成数字信号，使用一阶高通滤波器去除语音信号中多余的噪声，消除直流漂移，通过加重处理保留对特征参数有用的池音信号；

步骤二、语音信号的处理，取256个点作为一个32ms音框，对每个音框乘以汉明窗，消除音框两端的不连续性，采用低通滤波器去除噪声；

步骤三、采用基于似然概率的的加权投票法，根据不同语音帧与概率模型之间的似然概率取值，对每一帧语音进行加权；

步骤四、把不同地区及不同性别的声音片段映射到多维的特征空间，表征说话人个性特征的向量序列；

步骤五、采用RBM对DNN网络参数初始化，采用带有标签的训练数据对DNN网络进行监督的参数更新，在DNN训练中采用误差反向传递算法巧进行参数训练；

步骤六、在基于GMM的特征端因子分析中采用DNN替代GMM模型划分音素特征子空间，实现在每个子空间内对特征进行降维；

步骤七、对每个子空间内降维后的特征端因子与表征说话人个性特征的向量序列分别进行匹配。

进一步，所述声纹识别方法还包括构建不同地区及不同性别的语音信息数据库，将该语音数据库中的语音数据信息添加上地理区域信息标签和性别信息标签。

进一步，所述声纹识别方法还包括对每个子空间内降维后的特征端因子与带有地理区域信息标签和性别信息标签的表征说话人个性特征的向量序列分别进行匹配；将匹配后的特征端因子添加地理区域信息标签和性别信息标签，将DNN网络中该特征端因子参数更新，以性别信息标签的数据信息为基准进行声纹信息的匹配，以地理区域信息标签的数据信息为基准对匹配信息予以确认。

本发明将识别出来的答到学生的声纹，与数据库中学生个人信息中的声纹信息进行匹配，判断学生是否答到通过，通过声源位置、声源朝向、声源音量大小判断学生是否迟到、是否在私自讲话，达到考勤与课堂纪律监测的目的，而且可以解决基音周期系数在区别清音和低电平的浊音较困难及MFCC参数抗噪性不佳的问题，声纹识别阶段，利用GMM来训练和识别特定人声纹、环境噪声干扰较大的情况下，具有较小的声源位置估计偏差。

附图说明

图1是本发明实施例提供的基于声音识别的教学考勤方法流程图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下。

下面结合附图对本发明的结构作详细的描述。

一种基于声音识别的教学考勤方法包括：

S101、采集老师点名的声音信号，利用正交小波滤波器组来对信号进行预滤波，对语言信号的每个频率段进行细粒度去噪，提取出各频段小波系数，重构出语音信号；

S102、将预滤波后的语音信息发送给教学电脑的处理器内，利用倒谱法计算出基音周期参数，通过Mel滤波器组将小波系数转换成Mel倒谱系数，将得出的两种参数组成一个特征矢量作为声纹特征，并在数据库内查找与该声纹特征信息匹配的相对应姓名的学生个人信息；

S103、多个拾音器获取答到学生的声音，并在数据库内查找该姓名的学生个人信息，对拾取的学生声音进行预处理，并将预处理后的音频信号传输到教学电脑的处理器内；

S104、处理器利用语音识别中的声学模型深度神经网络分别对该学生预处理后的声音信号的不同音素上的语音特征进行分类，在毎个音素子空间内实现对特征降维，提取出说话人信息并用于提取DNN i-vector进行答到学生语音的声纹识别，每一个说话人都由一个GMM表示，计算出特征矢量序列的每个似然函数，找到其中最大的说话人模型，判定为说话人；

在说话人识别中，不同说话人的差异只要表现在其短时语音的差异，而这又可以用每个说话人的短时谱特征矢量所具有的额概率密度函数来衡量，我们可以用高斯混合模型来表示这一概率密度函数。典型单峰高斯说话人模型代表了一个以均值矢量和协方差矩阵表示的说话人特征分布，而矢量量化模型代表了说话人特征模板的离散分布。通过高斯混合模型的离散组合，每个高斯函数用其均值和协方差矩阵表示，得到高斯混合模型(GMM)；

S105、将识别出来的答到学生的声纹，与数据库中学生个人信息中的声纹信息进行匹配，若匹配相似程度超过预设值，则判断学生答到通过，若匹配相似程度不超过预设值，则向警报器发出报警信息；

S106、采用五个拾音器组成的阵列作为声源定位获取的耳朵,离线采样阶段，捕获各拾音器定位参考点处声源信号并完成位置特征提取，据此特征和参考点位置信息构建定位数据库，其中四个拾音器组成的平面阵确定声源空间位置，另外一个拾音器辅助完成声源位于拾音器前后方的判断，并通过改进的时延算法实现答到学生声源的空间定位，若答到学生的声源位置超出预设的教室范围，则判定学生迟到；

S107、教学过程中，拾音器实时获取教室内的声音，通过在线定位，提取待定位点处实时信号特征并和定位数据库中信息进行匹配，通过声纹识别识别出老师、学生声音，通过步骤S106的声源位置确定方法确定老师声源及学生声源的位置及朝向，并计算相对应的老师及学生的声源的音量大小，通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话。

四个拾音器(M1～M4)布装在教室中间顶部位置，由N个拾音器组成的阵列可以得到N-1个时延,确定目标空间位置需要用3个时延确定3个位置参量,因此确定空间中的目标位置至少需要4个拾音器。所以选定由5个拾音器组成的阵列作为声源的定位阵列，其中4个拾音器组成的平面阵用来确定目标在空间中的位置，另外一个拾音器可以辅助判断目标在四个拾音器的前方还是后方。这样既可以实现空间定位，完成任务,计算量也不大，对于实现实时的定位有很大的帮助，声源定位有很多种算法，考虑到系统对实时实现要求较高，选择基于时延的定位方法；

在本发明实施例中，预先录入学生的音频信号并上传到云服务器的学生个人信息中，根据课程安排信息可知，每个时间段某教室上什么课程，教学老师是谁，学生班级、姓名等信息均可知。

离线采样阶段的目标是构建定位数据库，首先根据室内面积的大小和定位精度需求确定参考点的位置，然后在参考点完成信息采集，再进行有效特征提取，最后将特征和参考点位置坐标一起存入定位数据库。在线定位阶段，在定位区域中，待定位声源发出声音信号后，首先定位系统捕获声音信号并提取其特征信息，然后通过特定的匹配算法完成特征信息与定位数据库的信息匹配，最终得到声源位置坐标从而完成定位。

步骤S107所述判断学生是否在私自讲话的具体方法为：

步骤S104所述语音的声纹识别方法如下：

基于似然概率的加权投票法是针对识别算法中的语音帧似然概率融合提出的。语音帧的似然概率融合是识别算法中的重要一环，在识别算法中，声纹识别的主要的工作可分为两个阶段：训练阶段和识别阶段。训练阶段主要是根据每个说话人类别训练的特征样本估计出它的概率模型的参数。本文选择的是经典的高斯混合模型来作为概率模型，构建说话人概率模型的算法本质其实就是估计高斯混合模型的参数。在基于高斯混合模型的识别算法过程中，提取到语音帧基于梅尔倒谱系数的特征后，采用训练阶段建立的概率模型对其进行分类；

步骤四、把不同地区及不同性别的声音片段映射到多维的特征空间，表征说话人个性特征的向量序列，构建不同地区及不同性别的语音信息数据库，将该语音数据库中的语音数据信息添加上地理区域信息标签和性别信息标签；

DNN参数训练一般分成两个步骤：参数初始化和参数更新。前者负责对网络参数进行初始化，后者负责进一步对网络参数进行迭代更新。

在RBM-DBN模型中，DBN可看作是由多个RBM模型拼接在一起形成的。在训练时，DBN每一层之间作为一个RBM模型，进行从下向上逐层训练。底部RBM输入数据为原始语音特征，而上层RBM输入为前一层RBM的输出，每次只更新当前所处RBM层的参数。RBM是一个无监瞥的学习过程，因此DBN中不包含输出层。DBN是一种生成型概率模型，是由一系列RBM网络逐层训练得到；

步骤七、对每个子空间内降维后的特征端因子与带有地理区域信息标签和性别信息标签的表征说话人个性特征的向量序列分别进行匹配；

步骤八、将匹配后的特征端因子添加地理区域信息标签和性别信息标签，将DNN网络中该特征端因子参数更新，以性别信息标签的数据信息为基准进行声纹信息的匹配，以地理区域信息标签的数据信息为基准对匹配信息予以确认。

本发明在特征端因子分析中利用语音识别中的声学模型深度神经网络取代高斯混合模型，分别对不同音素上的语音特征进行分类然后在毎个音素子空间内实现对特征降维，提取出说话人信息并用于提取DNN i-vector。接着在基于DNN的说话人信息提取中，采用基于DNN的特征端因子分析，并在传统投票法的基础上提出了基于似然概率的加权融合，明显提高了声纹识别的准确性。

本发明将识别出来的答到学生的声纹，与数据库中学生个人信息中的声纹信息进行匹配，判断学生是否答到通过，通过声源位置、声源朝向、声源音量大小判断学生是否迟到、是否在私自讲话，达到考勤与课堂纪律监测的目的，可以解决基音周期系数在区别清音和低电平的浊音较困难及MFCC参数抗噪性不佳的问题，声纹识别阶段，利用GMM来训练和识别特定人声纹、环境噪声干扰较大的情况下，具有较小的声源位置估计偏差。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于声音识别的教学考勤方法，其特征在于，该方法包括：

2.如权利要求1所述基于声音识别的教学考勤方法，其特征在于，步骤七所述判断学生是否在私自讲话的具体方法为：

3.如权利要求1所述基于声音识别的教学考勤方法，其特征在于，步骤四所述语音的声纹识别方法如下：

4.如权利要求3所述基于声音识别的教学考勤方法，其特征在于，声纹识别方法还包括构建不同地区及不同性别的语音信息数据库，将该语音数据库中的语音数据信息添加上地理区域信息标签和性别信息标签。

5.如权利要求3所述基于声音识别的教学考勤方法，其特征在于，声纹识别方法还包括对每个子空间内降维后的特征端因子与带有地理区域信息标签和性别信息标签的表征说话人个性特征的向量序列分别进行匹配；将匹配后的特征端因子添加地理区域信息标签和性别信息标签，将DNN网络中该特征端因子参数更新，以性别信息标签的数据信息为基准进行声纹信息的匹配，以地理区域信息标签的数据信息为基准对匹配信息予以确认。