CN108806694A

CN108806694A - 一种基于声音识别的教学考勤方法

Info

Publication number: CN108806694A
Application number: CN201810608125.0A
Authority: CN
Inventors: 高艳艳; 杨平平; 于海波
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-11-13

Abstract

本发明公开了一种基于声音识别的教学考勤方法，处理器利用语音识别中的声学模型深度神经网络对学生的声音信号进行分类，提取出说话人信息并用于提取DNN i‑vector进行答到学生语音的声纹识别，将识别出来的答到学生的声纹进行答到匹配，采用五个拾音器进行答到学生声源的空间定位，通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话，达到了考勤与课堂纪律监测的目的，采用遗传优化RBF神经网络结构，有效地克服了传统RBF网络难以确定基函数的中心和宽度的缺点，同时根据聚类问题的实际情况设计编码、交叉和变异算子，使得算法更快、更有效地收敛于全局最优解。

Description

一种基于声音识别的教学考勤方法

技术领域

本发明属于语音识别领域，尤其涉及一种基于声音识别的教学考勤方法。

背景技术

目前的考勤管理系统虽然跟以往签到方式相比有着明显的进步，但由于还是由有线数据的传输，需要布局布线以及线口对接等比较复杂的过程来完成，而且这样的工作方式不仅费时费力，浪费原材料，而且必须人为的来完成线路的管理以及数据的分析，所以能够把考勤信息远距离的无线传输和接收，实现低成本、高效率、无错化的考勤管理系统日趋成为了大家的迫切需要，目前市场上已经出现基于声纹信息的考勤系统，但是声音识别速度慢、不能有效地收敛于全局最优解，而且现有语音考勤系统不具备课上监测课堂纪律的功能。

发明内容

针对现有技术存在的问题，本发明提供了一种基于声音识别的教学考勤方法。

本发明是这样实现的，一种基于声音识别的教学考勤方法包括：

步骤一、采集老师点名的声音信号，对该原始信号采样量化，把原始语音信号转化成数字信号，对转换成数字信号后的语音信号进行预加重、取音框、加窗、去噪的预处理；

步骤二、对预加重后每帧序列进行离散FFT变换，取模的平方得到离散功率谱S(n)，计算S(n)通过M个带通滤波器后得到的功率值Pm，计算Pm的自然对数，得到Lm，计算其离散余弦变换，得到Dm，舍去直流分量，得到MFCC参数，在数据库内查找与该MFCC参数信息匹配的相对应姓名的学生个人信息；

步骤三、多个拾音器获取答到学生的声音，并在数据库内查找该姓名的学生个人信息，对拾取的学生声音进行预处理，通过遗传算法获得基函数的中心以及隐含层单元的高斯函数的宽度，设计编码、交叉和变异算子，构建三层遗传优化RBF神经网络模型；

步骤四、处理器利用语音识别中的构建遗传优化RBF神经网络模型分别对该学生预处理后的声音信号的不同音素上的语音特征进行分类，在毎个音素子空间内实现对特征降维，提取出说话人信息并用于提取DNN i-vector进行答到学生语音的声纹识别；

步骤五、将识别出来的答到学生的声纹，与数据库中学生个人信息中的声纹信息进行匹配，若匹配相似程度超过预设值，则判断学生答到通过，若匹配相似程度不超过预设值，则向警报器发出报警信息；

步骤六、采用五个拾音器组成的阵列作为声源定位获取的耳朵,其中四个拾音器组成的平面阵确定声源空间位置，另外一个拾音器辅助完成声源位于拾音器前后方的判断，并通过改进的时延算法实现答到学生声源的空间定位，若答到学生的声源位置超出预设的教室范围，则判定学生迟到；

步骤七、教学过程中，拾音器实时获取教室内的声音，通过声纹识别识别出老师、学生声音，通过步骤六的声源位置确定方法确定老师声源及学生声源的位置及朝向，并计算相对应的老师及学生的声源的音量大小，通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话。

进一步，步骤七所述判断学生是否在私自讲话的具体方法为：

步骤一、若识别出学生的声音，则判断当前时间老师是否在发声，若老师在发声，则判断学生在私自讲话，记录在考勤中；

步骤二、若老师未发声，读取前n秒钟时间点时老师的声源的位置，根据学生声源的朝向，判断学生声音是否是否朝向老师，若不是朝向老师，则判定学生在课程上私自讲话，记录在考勤系统中；

步骤三、若学生声源朝向老师，则根据学生与老师位置的距离，判断声源音量大小是否在阈值内，若是，则判定学生在回答老师的问题，若不是，则判定学生在私自讲话，记录在考勤系统中。

进一步，步骤四所述语音的声纹识别方法如下：

步骤一、把原始语音信号转化成数字信号，使用一阶高通滤波器去除语音信号中多余的噪声，消除直流漂移，通过加重处理保留对特征参数有用的池音信号；

步骤二、语音信号的处理，取256个点作为一个32ms音框，对每个音框乘以汉明窗，消除音框两端的不连续性，采用低通滤波器去除噪声；

步骤三、采用基于似然概率的的加权投票法，根据不同语音帧与概率模型之间的似然概率取值，对每一帧语音进行加权；

步骤四、把不同地区及不同性别的声音片段映射到多维的特征空间，表征说话人个性特征的向量序列；

步骤五、采用RBM对DNN网络参数初始化，采用带有标签的训练数据对DNN网络进行监督的参数更新，在DNN训练中采用误差反向传递算法巧进行参数训练；

步骤六、在基于GMM的特征端因子分析中采用DNN替代GMM模型划分音素特征子空间，实现在每个子空间内对特征进行降维；

步骤七、对每个子空间内降维后的特征端因子与表征说话人个性特征的向量序列分别进行匹配。

进一步，所述声纹识别方法还包括构建不同地区及不同性别的语音信息数据库，将该语音数据库中的语音数据信息添加上地理区域信息标签和性别信息标签。

进一步，所述声纹识别方法还包括对每个子空间内降维后的特征端因子与带有地理区域信息标签和性别信息标签的表征说话人个性特征的向量序列分别进行匹配；将匹配后的特征端因子添加地理区域信息标签和性别信息标签，将DNN网络中该特征端因子参数更新，以性别信息标签的数据信息为基准进行声纹信息的匹配，以地理区域信息标签的数据信息为基准对匹配信息予以确认。

本发明将识别出来的答到学生的声纹，与数据库中学生个人信息中的声纹信息进行匹配，判断学生是否答到通过，通过声源位置、声源朝向、声源音量大小判断学生是否迟到、是否在私自讲话，达到考勤与课堂纪律监测的目的，采用遗传优化RBF神经网络结构，有效地克服了传统RBF网络难以确定基函数的中心和宽度的缺点，同时根据聚类问题的实际情况设计编码、交叉和变异算子，使得算法更快、更有效地收敛于全局最优解。

附图说明

图1是本发明实施例提供的基于声音识别的教学考勤方法流程图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下。

下面结合附图对本发明的结构作详细的描述。

一种基于声音识别的教学考勤方法包括：

S101、采集老师点名的声音信号，对该原始信号采样量化，把原始语音信号转化成数字信号，对转换成数字信号后的语音信号进行预加重、取音框、加窗、去噪的预处理；

S102、对预加重后每帧序列进行离散FFT变换，取模的平方得到离散功率谱S(n)，计算S(n)通过M个带通滤波器后得到的功率值Pm，计算Pm的自然对数，得到Lm，计算其离散余弦变换，得到Dm，舍去直流分量，得到MFCC参数，在数据库内查找与该MFCC参数信息匹配的相对应姓名的学生个人信息；

S103、多个拾音器获取答到学生的声音，并在数据库内查找该姓名的学生个人信息，对拾取的学生声音进行预处理，通过遗传算法获得基函数的中心以及隐含层单元的高斯函数的宽度，设计编码、交叉和变异算子，构建三层遗传优化RBF神经网络模型；

第一层是输入层，由信号源结点组成；第二层为隐藏层，其节点数目根据所描述问题的需要而确定，该层中神经元变换函数即径向基函数是对中心点径向对称且衰减的非负线性函数；第三层为输出层，它对输入模式作出响应

①种群初始化

个体编码采用实数编码，每个个体均为一个实数串，仅对应RBF隐藏层中一个单元。在每一代中，包含了代表隐藏层单元数中心和宽度的字符串集合。

②适应度函数

根据个体得到的神经网络的初始隐层中心和宽度，用训练数据训练RBF神经网络后预测系统输出，把预测输出和期望输出之间的误差绝对值和E作为个体适应度值F，计算公式为:

式中，n为网络输出节点数，y_i为第i个节点的期望输出；O_i为第i个节点预测输出，k为系数。这样选取的适应度函数比较直观地反映了每个个体性能的好与差。

③选择操作遗传算法性能会直接受到选择策略的影响，本实施例采用轮盘赌法的选择策略。每个个体i选择的概率p_i为:

为适应度值，由于适应度值越小越好，所以在个体选择前对适应度值求倒数，N为种群个体数目。

④交叉和变异操作

交叉操作在遗传算法中起核心作用，遗传算法通过交叉操作，其搜索能力得以提高。由于本实施例的编码过程中是将RBF的中心和宽度编码放在同一个个体中，因此在交叉过程中必须对它们分别进行操作。按照一定的交叉概率随机地从群体中取出两个个体，对两个个体进行交叉，交叉点的位置不是无条件随机产生的，它们必须分别落在宽度和中心的编码中。

S104、处理器利用语音识别中的构建遗传优化RBF神经网络模型分别对该学生预处理后的声音信号的不同音素上的语音特征进行分类，在毎个音素子空间内实现对特征降维，提取出说话人信息并用于提取DNN i-vector进行答到学生语音的声纹识别；

S105、将识别出来的答到学生的声纹，与数据库中学生个人信息中的声纹信息进行匹配，若匹配相似程度超过预设值，则判断学生答到通过，若匹配相似程度不超过预设值，则向警报器发出报警信息；

S106、采用五个拾音器组成的阵列作为声源定位获取的耳朵,其中四个拾音器组成的平面阵确定声源空间位置，另外一个拾音器辅助完成声源位于拾音器前后方的判断，并通过改进的时延算法实现答到学生声源的空间定位，若答到学生的声源位置超出预设的教室范围，则判定学生迟到；

四个拾音器(M1～M4)布装在教室中间顶部位置，由N个拾音器组成的阵列可以得到N-1个时延,确定目标空间位置需要用3个时延确定3个位置参量,因此确定空间中的目标位置至少需要4个拾音器。所以选定由5个拾音器组成的阵列作为声源的定位阵列，其中4个拾音器组成的平面阵用来确定目标在空间中的位置，另外一个拾音器可以辅助判断目标在四个拾音器的前方还是后方。这样既可以实现空间定位，完成任务,计算量也不大，对于实现实时的定位有很大的帮助，声源定位有很多种算法，考虑到系统对实时实现要求较高，选择基于时延的定位方法；

S107、教学过程中，拾音器实时获取教室内的声音，通过声纹识别识别出老师、学生声音，通过步骤六的声源位置确定方法确定老师声源及学生声源的位置及朝向，并计算相对应的老师及学生的声源的音量大小，通过声源位置、声源朝向、声源音量大小判断学生是否在私自讲话。

在本发明实施例中，预先录入学生的音频信号并上传到云服务器的学生个人信息中，根据课程安排信息可知，每个时间段某教室上什么课程，教学老师是谁，学生班级、姓名等信息均可知。

步骤S107所述判断学生是否在私自讲话的具体方法为：

步骤S104所述语音的声纹识别方法如下：

基于似然概率的加权投票法是针对识别算法中的语音帧似然概率融合提出的。语音帧的似然概率融合是识别算法中的重要一环，在识别算法中，声纹识别的主要的工作可分为两个阶段：训练阶段和识别阶段。训练阶段主要是根据每个说话人类别训练的特征样本估计出它的概率模型的参数。本文选择的是经典的高斯混合模型来作为概率模型，构建说话人概率模型的算法本质其实就是估计高斯混合模型的参数。在基于高斯混合模型的识别算法过程中，提取到语音帧基于梅尔倒谱系数的特征后，采用训练阶段建立的概率模型对其进行分类；

步骤四、把不同地区及不同性别的声音片段映射到多维的特征空间，表征说话人个性特征的向量序列，构建不同地区及不同性别的语音信息数据库，将该语音数据库中的语音数据信息添加上地理区域信息标签和性别信息标签；

DNN参数训练一般分成两个步骤：参数初始化和参数更新。前者负责对网络参数进行初始化，后者负责进一步对网络参数进行迭代更新。

在RBM-DBN模型中，DBN可看作是由多个RBM模型拼接在一起形成的。在训练时，DBN每一层之间作为一个RBM模型，进行从下向上逐层训练。底部RBM输入数据为原始语音特征，而上层RBM输入为前一层RBM的输出，每次只更新当前所处RBM层的参数。RBM是一个无监瞥的学习过程，因此DBN中不包含输出层。DBN是一种生成型概率模型，是由一系列RBM网络逐层训练得到；

步骤七、对每个子空间内降维后的特征端因子与带有地理区域信息标签和性别信息标签的表征说话人个性特征的向量序列分别进行匹配；

步骤八、将匹配后的特征端因子添加地理区域信息标签和性别信息标签，将DNN网络中该特征端因子参数更新，以性别信息标签的数据信息为基准进行声纹信息的匹配，以地理区域信息标签的数据信息为基准对匹配信息予以确认。

本发明在特征端因子分析中利用语音识别中的声学模型深度神经网络取代高斯混合模型，分别对不同音素上的语音特征进行分类然后在毎个音素子空间内实现对特征降维，提取出说话人信息并用于提取DNN i-vector。接着在基于DNN的说话人信息提取中，采用基于DNN的特征端因子分析，并在传统投票法的基础上提出了基于似然概率的加权融合，明显提高了声纹识别的准确性。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于声音识别的教学考勤方法，其特征在于，该方法包括：

2.如权利要求1所述基于声音识别的教学考勤方法，其特征在于，步骤七所述判断学生是否在私自讲话的具体方法为：

3.如权利要求1所述基于声音识别的教学考勤方法，其特征在于，步骤四所述语音的声纹识别方法如下：

4.如权利要求3所述基于声音识别的教学考勤方法，其特征在于，声纹识别方法还包括构建不同地区及不同性别的语音信息数据库，将该语音数据库中的语音数据信息添加上地理区域信息标签和性别信息标签。

5.如权利要求3所述基于声音识别的教学考勤方法，其特征在于，声纹识别方法还包括对每个子空间内降维后的特征端因子与带有地理区域信息标签和性别信息标签的表征说话人个性特征的向量序列分别进行匹配；将匹配后的特征端因子添加地理区域信息标签和性别信息标签，将DNN网络中该特征端因子参数更新，以性别信息标签的数据信息为基准进行声纹信息的匹配，以地理区域信息标签的数据信息为基准对匹配信息予以确认。