CN109712628A

CN109712628A - 一种基于rnn的语音降噪方法及语音识别方法

Info

Publication number: CN109712628A
Application number: CN201910196487.8A
Authority: CN
Inventors: 兰朝凤; 韩旭; 兰袁硕; 刘岩; 赵宏运; 刘春东
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-05-03
Anticipated expiration: 2039-03-15
Also published as: CN109712628B

Abstract

一种基于RNN的语音降噪方法及语音识别方法，在噪声环境下提取性能更好的语音信号特征参数，属于语音识别领域。本发明包括：建立DRNN降噪模型：在RNN的基础上增加两层隐含层，所述两层隐含层上无连接层，RNN原有的隐含层位于增加的两层隐含层中间，三层隐含层位于输入层和输出层之间；将带噪声的语音训练信号X进行补零，使维度保持一致，并将补零后的信号分成N组，每组三个数据，将分组后的数据输入到DRNN降噪模型中进行训练，确定DRNN降噪模型的参数；利用确定参数的DRNN降噪模型对语音信号或特征参数进行降噪。语音识别方法是在现有基础上在识别和训练之前先对特征参数采用DRNN降噪模型进行降噪。

Description

一种基于RNN的语音降噪方法及语音识别方法

技术领域

本发明涉及一种语音降噪方法及语音识别方法，属于语音识别领域。

背景技术

在人类众多的生物特征中，利用说话人的语音特征进行身份认证具有诸多优点：通过区分说话人声器官存在的先天差异进行身份认证不涉及个人隐私，容易被采集者接受，相比于虹膜、指纹、DNA等生物特征，语音特征的采集成本较为低廉，不需要复杂昂贵的设备便可以完成语音特征的采集；可利用通话设备进行远程的语音特征提取，采集数据不受地域限制。通过对语音特征的提取分析，确定说话人身份的过程被称为说话人识别，也被称为声纹识别。如今，说话人识别技术己被广泛应用于人类生活的各个领域。

在电话银行、证券交易、网上支付等金融领域，银行卡不能识别所有人的特征，任何掌握银行卡密码的人都将被银行卡“识别”为所有人，容易给用户的财产造成重大损失。且密码容易遗忘，也会给用户的资金操作带来许多不便。如果预先采用语音进行说话人识别，将用户的语音信息作为一种隐形的密码，向户主确认是否有人代替其进行各类交易。将大大地增加用户账户的安全性，避免此类案件的发生。目前美国的亚马逊电子商务平台已开通使用说话人识别进行用户登录的功能。

在公安和司法等刑侦领域，当公安或司法机关需要对某一犯罪案件进行调查取证，当在排查的案件过程中发现犯罪分子存在通过电话、录音等方式进行恐吓、索要财物时，警方可通过说话人识别技术提取电话中犯罪分子的语音特征，并依据该语音特征获取犯罪嫌疑人的相关信息，为刑侦工作提供便利，节约侦破案件的成本，提高工作效率。

在军事战略与国土防卫等领域，说话人识别技术也有重要的意义，有很多西方国家很早就将说话人识别技术应用于国家安全保障中。军事力量体现一个国家的强大与弱小，国防能力关乎着一个国家，一个民族的存亡，国防和军事是保障国家有独立主权的基本前提。在军政人员处理军事要务时，需启动最高等级的信息安防措施，为避免互联网时代信息外泄情况发生，可以利用说话人识别技术提供安防保障，当国家机密可能被盗取时，说话人识别技术也可以为打击不法分子争取一定的时间，从而保证国家的信息安全和国土安全。

在多媒体服务等领域，人们对优质传媒产品的要求不断提升，促使智能化多媒体技术的发展。可以用特定用户的语音信息识别用户身份，并根据该用户的操作历史信息推送用户所需要目的文本、图像、视频等多媒体资料，解决现有文字搜索造成表达不充分，不能提供足够的有效信息，因而导致对特定人的内容推送无法满足用户需求问题。

在产品功能应用等领域，生活中的大量电子设备，如电脑、手机、电视机、冰箱、空调也大量应用了说话人识别技术。iphone和ipad已经推出通过机主语音进行解锁的功能。用户在进行解锁设置时，需先录入机主的语音信息，然后机主在手机接收范围内说出关于解锁手机的语音命令，手机便开启自动解锁。除解锁功能外，手机在预先设定的情况下还可利用特定人语音信息进行编辑短信、拨打电话、拍摄视频等功能。

随着说话人识别技术研究的不断深入，未来说话人识别技术将应用于更为宽广的领域，为人类的生产生活持续提供便利。本世纪初期，机器学习技术逐渐成熟，学者们通过对动物脑神经系统的研究，发明了人工神经网络(Artificial Neural Network，ANN)，并将人工神经网络模型开始应用于说话人识别中。方晓等人利用误差逆向传播网络(BackPropagation，BP)对说话人进行分类，提升了识别的速度。胡青采用卷积神经网络(Convolutional Neural Network，CNN)对语音图谱进行处理，提升了语音识别率。潘慧利用循环神经网络(Recurrent Neural Network,RNN)增加了隐含层神经元对数据的处理次数，弥补了浅层学习网络深度不足的缺点，提升了识别率。

上述方法应用于语音识别中提高了说话人识别准确度和计算速度，为说话人识别推广到实际应用中奠定了坚实的基础。尽管说话人识别技术的发展势头良好，但仍有一些瓶颈有待突破。如何在噪声环境下提取性能更好的语音信号特征参数，增强说话人识别的抗干扰性、提高说话人识别率等，这些都是待解决的技术问题。

发明内容

针对上述不足，本发明提供一种在噪声环境下提取性能更好的语音信号特征参数，增强说话人识别的抗干扰性和提高说话人识别率的基于RNN的语音降噪方法。

本发明的一种基于RNN的语音降噪方法，包括：

S1、建立DRNN降噪模型：

在RNN的基础上增加两层隐含层，所述两层隐含层上无连接层，RNN原有的隐含层位于增加的两层隐含层中间，三层隐含层位于输入层和输出层之间；

S2、将带噪声的语音训练信号X进行补零，使维度保持一致，并将补零后的信号分成N组，每组三个数据，将分组后的数据输入到DRNN降噪模型中进行训练，确定DRNN降噪模型的参数；

S3、利用确定参数的DRNN降噪模型对语音信号或特征参数进行降噪。

优选的是，所述S2包括：

S21、将带噪声的语音训练信号X进行补零，使维度保持一致，并将补零后信号分成N组，每组三个数据；

S22、将分组后的数据输入到DRNN降噪模型中进行正向传递；

S23、DRNN降噪模型输出信号，获取输出信号和带噪声的语音训练信号X中的纯净信号的损失函数，将损失函数与预设值进行对比，若大于预设值，则参照RNN的原理求DRNN降噪模型的参数关于损伤函数的偏导，更新DRNN降噪模型的参数，转入S22，若损失函数小于预设值，训练结束。

优选的是，所述S2中，补零的方法为将带噪声的语音训练信号X第一位和最后一位各补一个零。

优选的是，S2中，将分组后的数据输入到DRNN降噪模型中正向传递，X_i表示输入的带噪声语音训练信号的第i个分组，经过第一层隐含层后的输出为：

P_i ¹＝σ(X_iW₁+b₁)

其中：σ()为激活函数，W₁为第一层隐含层的权重参数，b₁为第一层的偏执参数；

第二层隐含层的输出为：

其中：P² _i-1为第i-1个分组输入后的第二层隐含层的输出，U为隐含层间的传递函数，W₂为第二层隐含层的权重参数，b₂为第二层隐含层的偏执参数；

第三层隐含层的输出为：

P_i ³＝σ(P_i ²W₃+b₃)

其中：W₃为第三层隐含层的权重参数，b₃为第三层的偏执参数；

输出层的输出为：

Y_i＝W₄P_i ³+c

其中：W₃为第四层隐含层的权重参数，c为输出的偏执参数。

优选的是，损失函数为：

其中，Y'表示带噪声的语音训练信号X中的纯净信号。

本发明还提供一种语音识别方法，包括：

将待识别的语音信号进行预处理，预处理后进行特征参数提取；

将提取的特征参数采用上述降噪方法进行降噪，再对降噪后的特征参数进行识别：将降噪后的特征参数与参考模型库中的每一个参考模型进行比对，将匹配度最高的参考模型作为说话人的真实身份，近而确定说话人身份；

所述参考模型库的获取方法：

将特定人的特征参数采用上述降噪方法进行降噪，根据降噪后的特定人的特征参数建立参考模型，由多个参考模型组成参考模型库。

优选的是，所述特征参数为梅尔频率倒谱系数或伽马通频率倒谱系数。

本发明的有益效果，本发明借鉴循环神经网络(RNN)训练方法，针对噪声环境下说话人识别率低的问题，增加RNN隐含层层数，并改变了该层的激活函数，对输入层的第一组与最后一组数据补零以增强数据有效利用率，构建计算速度快、收敛性好的DRNN降噪模型。据此模型对语音库中采样率为6kHz、时长为5秒的随机语义语音信号进行研究，实验设定信噪比为-10dB、-5dB、0dB、5dB、10dB、15dB、20dB、25dB的三种噪声环境，用改进模型对梅尔频率倒谱系数(MFCC)和伽马通频率倒谱系数(GFCC)去噪，分析了现有模型与本发明的DRNN降噪模型对语音识别率的影响。研究表明：本发明的DRNN降噪模型可有效去除特征参数的噪声，提高语音识别率，当信噪比较低时，说话人识别率的提升更为明显；当信噪比为0dB时，相比于现有的说话人识别提高了40％，说话人识别率达85％；随信噪比增大，识别率逐渐增加，当信噪比为15dB时，说话人识别率达93％。

附图说明

图1为RNN结构示意图；

图2为DRNN降噪模型图；

图3为DRNN训练流程图；

图4为特征参数提取流程图；

图5为利用GMM模型实现说话人识别的基本流程图；

图6为加入DRNN的说话人识别流程图

图7(a)为白噪声下的梅尔频率倒谱系数(MFCC)、伽马通频率倒谱系数(GFCC)、结合DRNN降噪模型的梅尔频率倒谱系数(DRNN-MFCC)和结合DRNN降噪模型的伽马通频率倒谱系数(DRNN-GFCC)的识别结果；

图7(b)为白噪声下的梅尔频率倒谱系数(MFCC)、伽马通频率倒谱系数(GFCC)、结合DRNN降噪模型的梅尔频率倒谱系数(DRNN-MFCC)和结合DRNN降噪模型的伽马通频率倒谱系数(DRNN-GFCC)的识别结果；

图7(c)为白噪声下的梅尔频率倒谱系数(MFCC)、伽马通频率倒谱系数(GFCC)、结合DRNN降噪模型的梅尔频率倒谱系数(DRNN-MFCC)和结合DRNN降噪模型的伽马通频率倒谱系数(DRNN-GFCC)的识别结果；

图8为R与信噪比的关系曲线。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。本实施方式的语音降噪方法是基于循环神经网络(Recurrent Neural Networks，RNN)实现；RNN的输出与当前输入、网络权重、网络之前的输入三者均相关，适合处理前后文有明显关系的数据。RNN循环神经网络的结构如图1所示。

图1描述了序列索引号t附近的循环神经网络模型，左侧部分表示没有按照时间展开的循环神经网络，右侧表示展开后的循环神经网络。RNN的前向传播是指在时间维度上对训练的数据进行递归运算，而反向传播则是一种梯度运算。

RNN的训练可表述为以下过程，设t时刻模型的隐藏状态为：

h_t＝σ(uX_t+wh_t-1+b)

其中：u表示输入层到隐藏层的权重矩阵；w表示隐藏层的权重矩阵；σ()表示循环神经网络中的非线性激活函数；b表示得到隐藏状态过程中线性关系的偏移。

RNN模型的前向传播的真实输出y_t可表示为：

Y_t＝vh_t+c

其中：v表示隐藏层到输出层的权重矩阵，c表示获得输出过程中线性关系的偏移。t时刻的预测输出设为Y^t，则损失函数L_t表示为：

L_t＝Y^t-Y_t

在循环神经网络中，序列的每个位置都存在着损失函数，最终的损失L可表示为：

其中，τ表示输入数据的个数。可利用循环神经网络的权值共享性质和前馈性对语音信号进行处理。

在语音信号包含噪声或者信道畸变的情况下提升说话人识别系统的识别率，是系统实用性的关键技术。现有的说话人识别系统大多利用精心设计的复杂算法进行训练与识别，或者使用物理屏蔽的方式保证录音阶段噪声不进入录音设备中，这些方式或高度依赖于算法设计者在说话人识别方面的知识、或增加设备成本，造成系统实用性差、系统运算时间过长，给说话人识别的普及增加了难度。

基于神经网络模型的特征学习能力，可将神经网络应用于说话人识别模型中，使说话人识别系统通过神经网络学习后具备主动降噪的能力，带噪语音信号的特征向纯净语音信号的方向靠拢。这样的函数逼近方法可以通过较少的内部参数和训练次数快速达到理想的效果，提高噪声环境说话人识别模型的准确度。在众多人工神经模型中，RNN具备较强的时间序列特征学习能力，适合处理语音信号。并且RNN具有权值共享的特点，在处理信号的效率上具有一定的优势。本实施方式为一种基于RNN的语音降噪方法，提出一种基于RNN的语音降噪模型(Denoise Recurrent Neural Network，DRNN)，利用DRNN降噪模型将减弱带噪信号内的噪声。DRNN降噪模型的结构如图2所示。

本实施方式基于RNN的语音降噪方法，包括：

S1、建立DRNN降噪模型：

在RNN的基础上增加两层隐含层，所述两层隐含层上无连接层，RNN原有的隐含层位于增加的两层隐含层中间，三层隐含层位于输入层和输出层之间；DRNN降噪模型有三重隐含层，通过增加隐含层数，提升了每次迭代中带噪信号向纯净信号的逼近速度。只在中间一个隐含层上加入连接层，减少了训练过程中的计算量。

S2、将带噪声的语音训练信号X进行补零，使维度保持一致，并将补零后的信号分成N组，每组三个数据，将分组后的数据输入到DRNN降噪模型中进行训练，确定DRNN降噪模型的参数；为确保维度一致，对x_i向量进行补零，并将补零后的x_i三个一组放入输入层中，以提升输入信号的信息利用率。

本实施方式针对此问题，对循环神经网络(RNN)进行了深入研究，发现可以利用循环神经网络的负反馈性，识别语音信号中噪声信号的特征参数，并将其从语音信号特征参数中分离，达到降噪的效果。由此，本实施方式在已有RNN模型基础上，特征向量补零后分组进入隐含层，增加隐含层的层数，更换激活函数，建立具有一定去噪能力的计算速度快、收敛性好及识别率高的说话人识别降噪模型(DRNN)。

S2的训练过程如图3所示，包括：

S22、将分组后的数据输入到DRNN降噪模型中进行正向传递；

本实施方式的补零的方法为将带噪声的语音训练信号X第一位和最后一位各补一个零，以增强数据有效利用率。

在训练过程中，将分组后的数据输入到DRNN降噪模型中正向传递，X_i表示输入的带噪声语音训练信号的第i个分组，经过第一层隐含层后的输出为：

P_i ¹＝σ(X_iW₁+b₁)

第二层隐含层的输出为：

第三层隐含层的输出为：

P_i ³＝σ(P_i ²W₃+b₃)

输出层的输出为：

Y_i＝W₄P_i ³+c

则一次带噪信号正向传递后输出可表示为：

Y＝[Y₁,Y₂...Y_N]

假设用Y'表示该语音信号的纯净状态，输出信号与纯净信号之间的损失函数L可以用两者矢量差的平均值来衡量，为：

其中，Y'表示带噪声的语音训练信号X中的纯净信号。

若L大于预设值，则参照RNN原理求W₁，W₂，W₃，W₄，b₁，b₂，b₃，U，C参数关于L的偏导，计算新的参数并进行正向传递，直到L小于预设值训练结束。由于训练后的DRNN模块参数中具有训练噪声的特征信息，将含有该噪声的其他语音信号输入DRNN后，可获得噪声减弱的语音信号。

说话人识别的基本原理：说话人识别是通过提取说话人语音信号中的个性特征，并将特征与参考模型库中的特征模型进行匹配，最终确定说话人身份的过程。首先采用预处理方法去除语音信号中与说话人识别无关的信息，提升信号质量；并将预处理后的语音信号进行语音增强、提升信噪比；再将语音信号进行快速傅里叶变换(FFT)，并利用不同中心频率组成的滤波器组对变换后的信号进行滤波；最后，利用离散傅里叶变换对信号进行降维处理，得到语音信号的特征参数。其中，梅尔频率倒谱系数(MFCC)和伽马通频率倒谱系数(GFCC)是说话人识别中常采用的两种特征参数，MFCC和GFCC的提取流程如图4所示。

特征参数获取后，可以采用高斯混合模型(Gaussian Mixed Model，GMM)对提取的特征参数进行训练与识别。利用GMM模型确定说话人身份的流程如图5所示。根据特定人的特征参数建立参考模型，由多个参考模型组成参考模型库；识别过程中，将识别信号的特征与参考模型库中的每一个参考模型进行比对，将匹配度最高的参考模型作为说话人的真实身份，近而确定说话人身份。

基于DRNN降噪模型，本实施方式的一种语音识别方法，如图6所示，包括：

所述参考模型库的获取方法：

加入DRNN降噪模型的说话人识别流程与现有的说话人识别流程相似。需要将提取好的特征参数带入DRNN降噪网络进行降噪处理，再将降噪后的特征参数进行训练与识别，进行最终识别结果的判别。语音信号由不同幅度的采样点组成，而特征参数则是由语音信号经过讲话处理后的向量。相比于对语音信号进行降噪处理，使用DRNN语音降噪模型对特征参数进行降噪，能更好的节约计算成本。

为研究本实施方式DRNN模型与现有说话人识别模型在不同噪声环境下的识别率，进行如下实验。

实验的软件环境选择Win10操作系统的PC机一台，PC机处理器为Intel(R)Celeron(R)CPU N3060@1.60GHz，内存为4G，硬盘储存空间为400G。使用Matlab R2014b进行编程。

实验的语音信号来自TIMIT语音数据库，采用的语音时长为5s，采样率为6kHz。其中男生10人，女生10人，每人取10段内容随机的语音信号，4段作为训练样本集，其余段用于语音识别。语音信号中不混入噪声，文件格式为.wav格式。

实验中语音信号混入的噪声来源于NOISEX-92标准噪声库：白噪声(WhiteNoise)、冒泡噪声(Babble Noise)及工厂噪声(Factory Noise)，信噪比设为0dB、5dB、10dB、15dB、20dB、25dB。不同信噪比下DRNN模型与现有模型的语音识别结果如表1所示。

表1噪声情况下说话人识别系统的识别率(％)

将表1中的三种噪声环境转化为三张折线图，结果如图7(a)、图7(b)和图7(c)所示。

为定量分析DRNN降噪模型与现有模型间语音识别增强的效果如何，设DRNN降噪模型与现有模型识别率的比值为R，则R随信噪比的变化曲线如图8所示，图8中WhiteMFCC表示白噪声下的梅尔频率倒谱系数，WhiteGFCC表示白噪声下的伽马通频率倒谱系数,BabbleMFCC表示冒泡噪声下的梅尔频率倒谱系数，Babble GFCC表示冒泡噪声下的伽马通频率倒谱系数,Factory MFCC表示工厂噪声下的梅尔频率倒谱系数，FactoryGFCC表示工厂噪声下的伽马通频率倒谱系数。

上述实验证明：

RNN降噪模型处理下的GFCC特征参数识别效果最好。

此外未经过语音降噪处理的特征参数，识别率低于降噪处理过的特征参数。且在低信噪比环境下，提升的倍数在1.8～4之间。

DRNN模型对说话人识别系统的识别率提升能力更强。

由此可见，将DRNN模型引入说话人识别系统中，可以明显的提升说话人识别系统的性能。

Claims

1.一种基于RNN的语音降噪方法，其特征在于，包括：

S1、建立DRNN降噪模型：

2.根据权利要求1所述的基于RNN的语音降噪方法，其特征在于，所述S2包括：

S22、将分组后的数据输入到DRNN降噪模型中进行正向传递；

3.根据权利要求2所述的基于RNN的语音降噪方法，其特征在于，所述S2中，补零的方法为将带噪声的语音训练信号X第一位和最后一位各补一个零。

4.根据权利要求3所述的基于RNN的语音降噪方法，其特征在于，S2中，将分组后的数据输入到DRNN降噪模型中正向传递，X_i表示输入的带噪声语音训练信号的第i个分组，经过第一层隐含层后的输出为：

P_i ¹＝σ(X_iW₁+b₁)

第二层隐含层的输出为：

第三层隐含层的输出为：

P_i ³＝σ(P_i ²W₃+b₃)

输出层的输出为：

Y_i＝W₄P_i ³+c

5.根据权利要求4所述的基于RNN的语音降噪方法，其特征在于，损失函数为：

其中，Y'表示带噪声的语音训练信号X中的纯净信号。

6.一种语音识别方法，其特征在于，包括：

将提取的特征参数采用权利要求1至4任一权利要求所述的降噪方法进行降噪，再对降噪后的特征参数进行识别：将降噪后的特征参数与参考模型库中的每一个参考模型进行比对，将匹配度最高的参考模型作为说话人的真实身份，近而确定说话人身份；

所述参考模型库的获取方法：

将特定人的特征参数采用权利要求1至4任一权利要求所述的降噪方法进行降噪，根据降噪后的特定人的特征参数建立参考模型，由多个参考模型组成参考模型库。

7.根据权利要求6所述的语音识别方法，其特征在于，所述特征参数为梅尔频率倒谱系数或伽马通频率倒谱系数。