CN108847244A - 基于mfcc和改进bp神经网络的声纹识别方法及系统 - Google Patents
基于mfcc和改进bp神经网络的声纹识别方法及系统 Download PDFInfo
- Publication number
- CN108847244A CN108847244A CN201810963310.1A CN201810963310A CN108847244A CN 108847244 A CN108847244 A CN 108847244A CN 201810963310 A CN201810963310 A CN 201810963310A CN 108847244 A CN108847244 A CN 108847244A
- Authority
- CN
- China
- Prior art keywords
- mfcc
- voice signal
- sub
- improved
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000009432 framing Methods 0.000 claims description 20
- 238000001228 spectrum Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 230000005284 excitation Effects 0.000 claims description 12
- 210000005036 nerve Anatomy 0.000 claims description 8
- 230000006872 improvement Effects 0.000 claims description 7
- 230000002441 reversible effect Effects 0.000 claims description 7
- 238000002834 transmittance Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 210000004218 nerve net Anatomy 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 2
- 230000001755 vocal effect Effects 0.000 description 7
- 230000007423 decrease Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于MFCC和改进BP神经网络的声纹识别方法及系统,包括:采用MFCC对语音信号进行特征提取,得到MFCC特征参数;将语音信号的MFCC特征参数输入改进BP神经网络中进行模型训练;从待识别语音信号中提取MFCC特征参数,输入训练好的改进BP神经网络中计算,将错误率最低值所对应的计算结果作为最终识别结果。本发明利用MFCC和改进的BP神经网络相结合,能够更有效地识别声纹,以随机梯度下降代替梯度下降,在相同的迭代次数的情况下,所耗费的时间更少,相同的时间内,迭代的次数更多,可以达到更好的训练效果,具有广泛的应用前景。
Description
技术领域
本发明涉及声纹识别领域,具体地,涉及基于MFCC和改进BP神经网络的声纹识别方法及系统。
背景技术
MFCC:梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients),将时域的语音变为频域,对频域的信号进行分段滤波,得出不同频率段的占比,所得到的占比系数组成的矩阵即梅尔倒频谱系数。
BP神经网络:反向传播神经网络(Back Propagation),一种按照误差逆向传播算法训练的多层前馈神经网络。
SGD:随机梯度下降(Stochastic Gradient Descent),一种优化方法,属于梯度下降的一种,适用于大规模的问题。
声纹识别,又称说话人识别,是指通过对声纹语音信号的分析处理,自动识别说话人身份的技术。语音信号是由不同的发音器官随时间而改变位置而产生的一系列声音,鉴于声音的特性与个体的生理解剖结构相关,因此不同人所发出的声音不同,同时可以根据这一点进行说话人身份识别。声纹识别的基本方法是通过不同的语音信号提取声纹的特征,将特征进行训练,并在得到的识别模型中进行推理。
目前常用的声纹识别的主流方法有动态时间规整(DTW)、隐马尔科夫刚理论(HMM)、矢量量化(VQ)等。然而,这些方法都具有识别的准确率较低、需要进行大量的计算、缺乏动态的训练或者过度依赖原话者等缺点。
BP神经网络是一种误差反向传播的多层前馈网络,具有大规模并行处理、分布式信息存储、良好的自组织和自学习能力及原理简单、容易实现等优点。但其也存在固有的缺陷,如容易过拟合,收敛速度慢等。在传统的BP神经网络中使用的梯度下降是一种全局最优解,但在每个迭代步骤中,要求使用所有的训练数据。当样本数量很大时,该方法的迭代速度较低,处理时间越来越长。
发明内容
针对现有技术中的缺陷,本发明的目的是提供基于MFCC和改进BP神经网络的声纹识别方法及系统。
根据本发明提供的一种基于MFCC和改进BP神经网络的声纹识别方法,包括:
语音处理步骤:采用MFCC对语音信号进行特征提取,得到MFCC特征参数;
模型训练步骤:将语音信号的MFCC特征参数输入改进BP神经网络中进行模型训练;
语音识别步骤:从待识别语音信号中提取MFCC特征参数,输入训练好的改进BP神经网络中计算,将错误率最低值所对应的计算结果作为最终识别结果。
较佳的,所述语音处理步骤包括:
预加重子步骤:将语音信号通过滤波器提升高频部分;
分帧子步骤:对预加重后的语音信号进行分帧;
汉明窗子步骤:将分帧后的语音信号的每帧乘以汉明窗;
快速傅里叶变换子步骤:对汉明窗后的每一帧语音信号进行快速傅里叶变换,得到能量谱;
三角带通滤波子步骤:将能量普输入三角带通滤波器组;
对数能量计算子步骤:计算每个三角带通滤波器输出的对数能量;
离散余弦变换子步骤:将计算得到的对数能量代入离散余弦变换,得到MFCC特征参数;
动态差分参数子步骤:通过MFCC的差分谱来表示语音信号的动态特性,得到多维MFCC特征参数。
较佳的,所述预加重子步骤中,预加重计算公式为:
H(Z)=1-μz-1
其中,μ的值介于0.9-1.0之间,Z为预加重之后的语音信号,z为预加重之前的语音信号。
较佳的,所述三角带通滤波器组包括40个三角带通滤波器,所述离散余弦变换子步骤将计算得到的40个对数能量代入离散余弦变换,得到13阶MFCC。
较佳的,所述模型训练步骤中,BP神经网络的改进方法包括:
网络初始化子步骤:对BP神经网络进行初始化,设输入层的节点个数为n,隐含层的节点个数为l,输出层的节点个数为m,输入层到隐含层的权重ωij,隐含层到输出层的权重为ωjk,输入层到隐含层的偏置为aj,隐含层到输出层的偏置为bk,学习速率为η,激励函数为g(x),其中激励函数为g(x)取Sigmoid函数,形式为
隐藏层输出子步骤:在三层BP神经网络中,隐含层的输出Hj为
输出层输出子步骤:输出层的输出Ok为
误差计算子步骤:取误差公式为
其中Yk为期望输出,记Yk-Ok=ek,则E表示为:
权值更新子步骤:
在训练过程中,通过使用随机梯度下降反向传播神经网络来修改权重;
偏置更新子步骤:
迭代判断子步骤:指定迭代次数,判断相邻两次误差之间的差别是否小于预定的值。
根据本发明提供的一种基于MFCC和改进BP神经网络的声纹识别系统,包括:
语音处理模块:采用MFCC对语音信号进行特征提取,得到MFCC特征参数;
模型训练模块:将语音信号的MFCC特征参数输入改进BP神经网络中进行模型训练;
语音识别模块:从待识别语音信号中提取MFCC特征参数,输入训练好的改进BP神经网络中计算,将错误率最低值所对应的计算结果作为最终识别结果。
较佳的,所述语音处理模块包括:
预加重子模块:将语音信号通过滤波器提升高频部分;
分帧子模块:对预加重后的语音信号进行分帧;
汉明窗子模块:将分帧后的语音信号的每帧乘以汉明窗;
快速傅里叶变换子模块:对汉明窗后的每一帧语音信号进行快速傅里叶变换,得到能量谱;
三角带通滤波子模块:将能量普输入三角带通滤波器组;
对数能量计算子模块:计算每个三角带通滤波器输出的对数能量;
离散余弦变换子模块:将计算得到的对数能量代入离散余弦变换,得到MFCC特征参数;
动态差分参数子模块:通过MFCC的差分谱来表示语音信号的动态特性,得到多维MFCC特征参数。
较佳的,所述预加重子模块中,预加重计算公式为:
H(Z)=1-μz-1
其中,μ的值介于0.9-1.0之间,Z为预加重之后的语音信号,z为预加重之前的语音信号。
较佳的,所述三角带通滤波器组包括40个三角带通滤波器,所述离散余弦变换子模块将计算得到的40个对数能量代入离散余弦变换,得到13阶MFCC。
较佳的,所述模型训练模块中,BP神经网络的改进方法包括:
网络初始化子模块:对BP神经网络进行初始化,设输入层的节点个数为n,隐含层的节点个数为l,输出层的节点个数为m,输入层到隐含层的权重ωij,隐含层到输出层的权重为ωjk,输入层到隐含层的偏置为aj,隐含层到输出层的偏置为bk,学习速率为η,激励函数为g(x),其中激励函数为g(x)取Sigmoid函数,形式为
隐藏层输出子模块:在三层BP神经网络中,隐含层的输出Hj为
输出层输出子模块:输出层的输出Ok为
误差计算子模块:取误差公式为
其中Yk为期望输出,记Yk-Ok=ek,则E表示为:
权值更新子模块:
在训练过程中,通过使用随机梯度下降反向传播神经网络来修改权重;
偏置更新子模块:
迭代判断子模块:指定迭代次数,判断相邻两次误差之间的差别是否小于预定的值。
与现有技术相比,本发明具有如下的有益效果:
本发明利用MFCC和改进的BP神经网络相结合,能够更有效地识别声纹,以随机梯度下降代替梯度下降,在相同的迭代次数的情况下,所耗费的时间更少,相同的时间内,迭代的次数更多,可以达到更好的训练效果,具有广泛的应用前景。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的系统结构示意图;
图2为本发明的工作流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1和图2所示,本发明提供的一种基于MFCC和改进BP神经网络的声纹识别方法,包括:
语音处理步骤:采用MFCC对语音信号进行特征提取,得到MFCC特征参数;
模型训练步骤:将语音信号的MFCC特征参数输入改进BP神经网络中进行模型训练;
语音识别步骤:从待识别语音信号中提取MFCC特征参数,输入训练好的改进BP神经网络中计算,将错误率最低值所对应的计算结果作为最终识别结果。
在本实施例中,语音处理步骤采用MFCC对语音信号进行特征提取,然后采用基于随机梯度下降的BP神经网络进行模型训练和识别,步骤是输入声纹语音信号,采用MFCC提取声纹的39维特征,包括13维MFCC系数、13维一阶差分参数和13维二阶差分参数。提取MFCC特征的主要步骤包括预加重、分帧、加窗、快速傅里叶变换、三角带通滤波器、对数能量、离散余弦变换和动态差分参数。语音训练步骤,对传统的BP神经网络采用随机梯度下降代替梯度下降进行优化,将MFCC特征参数在改进的BP神经网络中进行训练,初始化网络权值和神经元阈值,计算隐藏层神经元和输出层神经元的输入与输出(前向传播),修正权值和阈值直至满足终止条件(后向传播)。语音识别步骤,在改进的BP神经网络中输入MFCC特征参数,对比MFCC特征参数与训练模型,计算输出结果,将错误率最低值所对应的结果作为最终识别。
具体的,语音处理步骤包括:
步骤1:预加重:语音样本通过滤波器可以提升高频部分,使信号的频谱变得更加平坦,保持在低频到高频的整个频带中,能用相同的信噪比求频谱,同时使得信号的能量在更高的频率上提升。预加重计算公式为:
H(Z)=1-μz-1
其中,μ的值介于0.9-1.0之间,通常取0.97,Z为预加重之后的语音信号,z为预加重之前的语音信号
步骤2:分帧:由于语音信号快速变化,同时傅立叶变换仅适用于分析平稳信号,因此需要将较长的语音信号分帧,以获得短期且平稳的语音信号。在语音/声纹识别中,帧大小为(通常取25ms),这样一帧内有足够的周期,并且不会剧烈变化,帧位移为10ms,这意味着在每帧之间重复15ms,则帧数的公式为:
N=(s-15)/10
其中s是一段语音的毫秒数,N为帧数。
步骤3:汉明窗:为了获得更高质量的频谱,每帧乘以汉明窗口以增加帧左端和右端的连续性。通过使用汉明窗口,可在每帧的起点和终点将采样减少到零,最小化频谱失真。假设分帧后的信号为:
S(n),n=0,1,2....,N-1
其中,N为帧数,n为汉明窗编号。
那么,每一帧乘以汉明窗:
S′(n)=S(n)*W(n)
其中,
不同的a值会产生不同的汉明窗,通常取0.46。
步骤4:快速傅立叶变换:语音信号的变化在时域上很难看出,因此需要将时域转换到频域,为每一帧实施快速傅立叶变换,以得到在频谱上的能量分布。
其中,x(n)为输入的语音信号,j为虚数符号,e为自然对数的底数。
步骤5:三角带通滤波器:三角带通滤波器的主要目的是对频谱进行平滑化和降低运算量,定义一个有40个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,40。将能量谱通过此三角形滤波器组。三角滤波器的频率响应定义为:
其中,
步骤6:对数能量:计算每个滤波器输出的对数能量为:
Xa为快速傅里叶变换结果,Hm为三角带通滤波器结果。
步骤7:离散余弦变换:将从三角带通滤波器获得的40个对数能量代入离散余弦变换来获得13阶梅尔频率倒谱系数MFCC。离散余弦变换公式如下所示:
其中M为三角带通滤波器的数量。
步骤8:动态差分参数:标准的梅尔频率倒谱系数MFCC只反映语音参数的静态特性,语音的动态特性可以通过静态参数的差分谱来表示,动态静态特征结合可以有效地提高系统的识别性能,一阶差分参数计算公式:
其中,dt表示第t个一阶差分,Ct表示第t个倒谱系数,Q表示倒谱系数的阶数,K表示一阶导数的时间差,可取1或2。
将上式的结果再代入可得到二阶差分参数。
然后采用改进的BP神经网络进行模型训练,BP神经网络的改进方法如下:
假设输入层的节点个数为n,隐含层的节点个数为l,输出层的节点个数为m。输入层到隐含层的权重ωij,隐含层到输出层的权重为ωjk,输入层到隐含层的偏置为aj,隐含层到输出层的偏置为bk。学习速率为η,激励函数为g(x)。其中激励函数为g(x)取Sigmoid函数。形式为
步骤2:隐藏层的输出:
在三层BP神经网络中,隐含层的输出Hj为:
步骤3:输出层的输出:
步骤4:误差的计算:
取误差公式为:
其中Yk为期望输出。记Yk-Ok=ek,则E可以表示为:
步骤5:权值的更新:
在此处采用随机梯度下降的算法,即人为随机选取一定量(小于整体训练样本量)。
使用三层神经元作为我们的模型。它们是一个输入层,一个隐藏层和一个输出层。在训练过程中,通过使用随机梯度下降反向传播神经网络来修改权重。
步骤6偏置的更新:
步骤7:判断算法迭代是否结束:
指定迭代的代数,判断相邻两次误差之间的差别是否小于指定的值。
语音识别阶段从待识别的语音中提取出MFCC语音特征,在训练好的改进的BP神经网络模型中输入特征参数,计算输出结果,将错误率最低值所对应的结果作为最终识别。
在上述一种基于MFCC和改进BP神经网络的声纹识别方法的基础上,本发明还提供一种基于MFCC和改进BP神经网络的声纹识别系统,包括:
语音处理模块:采用MFCC对语音信号进行特征提取,得到MFCC特征参数;
模型训练模块:将语音信号的MFCC特征参数输入改进BP神经网络中进行模型训练;
语音识别模块:从待识别语音信号中提取MFCC特征参数,输入训练好的改进BP神经网络中计算,将错误率最低值所对应的计算结果作为最终识别结果。
语音处理模块包括:
预加重子模块:将语音信号通过滤波器提升高频部分;
分帧子模块:对预加重后的语音信号进行分帧;
汉明窗子模块:将分帧后的语音信号的每帧乘以汉明窗;
快速傅里叶变换子模块:对汉明窗后的每一帧语音信号进行快速傅里叶变换,得到能量谱;
三角带通滤波子模块:将能量普输入三角带通滤波器组;
对数能量计算子模块:计算每个三角带通滤波器输出的对数能量;
离散余弦变换子模块:将计算得到的对数能量代入离散余弦变换,得到MFCC特征参数;
动态差分参数子模块:通过MFCC的差分谱来表示语音信号的动态特性,得到多维MFCC特征参数。
预加重子模块中,预加重计算公式为:
H(Z)=1-μz-1
其中,μ的值介于0.9-1.0之间,Z为预加重之后的语音信号,z为预加重之前的语音信号。
三角带通滤波器组包括40个三角带通滤波器,所述离散余弦变换子模块将计算得到的40个对数能量代入离散余弦变换,得到13阶MFCC。
模型训练模块中,BP神经网络的改进方法包括:
网络初始化子模块:对BP神经网络进行初始化,设输入层的节点个数为n,隐含层的节点个数为l,输出层的节点个数为m,输入层到隐含层的权重ωij,隐含层到输出层的权重为ωjk,输入层到隐含层的偏置为aj,隐含层到输出层的偏置为bk,学习速率为η,激励函数为g(x),其中激励函数为g(x)取Sigmoid函数,形式为
隐藏层输出子模块:在三层BP神经网络中,隐含层的输出Hj为
输出层输出子模块:输出层的输出Ok为
误差计算子模块:取误差公式为
其中Yk为期望输出,记Yk-Ok=ek,则E表示为:
权值更新子模块:
在训练过程中,通过使用随机梯度下降反向传播神经网络来修改权重;
偏置更新子模块:
迭代判断子模块:指定迭代次数,判断相邻两次误差之间的差别是否小于预定的值。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于MFCC和改进BP神经网络的声纹识别方法,其特征在于,包括:
语音处理步骤:采用MFCC对语音信号进行特征提取,得到MFCC特征参数;
模型训练步骤:将语音信号的MFCC特征参数输入改进BP神经网络中进行模型训练;
语音识别步骤:从待识别语音信号中提取MFCC特征参数,输入训练好的改进BP神经网络中计算,将错误率最低值所对应的计算结果作为最终识别结果。
2.根据权利要求1所述的于MFCC和改进BP神经网络的声纹识别方法,其特征在于,所述语音处理步骤包括:
预加重子步骤:将语音信号通过滤波器提升高频部分;
分帧子步骤:对预加重后的语音信号进行分帧;
汉明窗子步骤:将分帧后的语音信号的每帧乘以汉明窗;
快速傅里叶变换子步骤:对汉明窗后的每一帧语音信号进行快速傅里叶变换,得到能量谱;
三角带通滤波子步骤:将能量普输入三角带通滤波器组;
对数能量计算子步骤:计算每个三角带通滤波器输出的对数能量;
离散余弦变换子步骤:将计算得到的对数能量代入离散余弦变换,得到MFCC特征参数;
动态差分参数子步骤:通过MFCC的差分谱来表示语音信号的动态特性,得到多维MFCC特征参数。
3.根据权利要求2所述的于MFCC和改进BP神经网络的声纹识别方法,其特征在于,所述预加重子步骤中,预加重计算公式为:
H(Z)=1-μz-1
其中,μ的值介于0.9-1.0之间,Z为预加重之后的语音信号,z为预加重之前的语音信号。
4.根据权利要求2所述的于MFCC和改进BP神经网络的声纹识别方法,其特征在于,所述三角带通滤波器组包括40个三角带通滤波器,所述离散余弦变换子步骤将计算得到的40个对数能量代入离散余弦变换,得到13阶MFCC。
5.根据权利要求1所述的于MFCC和改进BP神经网络的声纹识别方法,其特征在于,所述模型训练步骤中,BP神经网络的改进方法包括:
网络初始化子步骤:对BP神经网络进行初始化,设输入层的节点个数为n,隐含层的节点个数为l,输出层的节点个数为m,输入层到隐含层的权重ωij,隐含层到输出层的权重为ωjk,输入层到隐含层的偏置为aj,隐含层到输出层的偏置为bk,学习速率为η,激励函数为g(x),其中激励函数为g(x)取Sigmoid函数,形式为
隐藏层输出子步骤:在三层BP神经网络中,隐含层的输出Hj为
输出层输出子步骤:输出层的输出Ok为
误差计算子步骤:取误差公式为
其中Yk为期望输出,记Yk-Ok=ek,则E表示为:
权值更新子步骤:
在训练过程中,通过使用随机梯度下降反向传播神经网络来修改权重;
偏置更新子步骤:
迭代判断子步骤:指定迭代次数,判断相邻两次误差之间的差别是否小于预定的值。
6.一种基于MFCC和改进BP神经网络的声纹识别系统,其特征在于,包括:
语音处理模块:采用MFCC对语音信号进行特征提取,得到MFCC特征参数;
模型训练模块:将语音信号的MFCC特征参数输入改进BP神经网络中进行模型训练;
语音识别模块:从待识别语音信号中提取MFCC特征参数,输入训练好的改进BP神经网络中计算,将错误率最低值所对应的计算结果作为最终识别结果。
7.根据权利要求6所述的于MFCC和改进BP神经网络的声纹识别系统,其特征在于,所述语音处理模块包括:
预加重子模块:将语音信号通过滤波器提升高频部分;
分帧子模块:对预加重后的语音信号进行分帧;
汉明窗子模块:将分帧后的语音信号的每帧乘以汉明窗;
快速傅里叶变换子模块:对汉明窗后的每一帧语音信号进行快速傅里叶变换,得到能量谱;
三角带通滤波子模块:将能量普输入三角带通滤波器组;
对数能量计算子模块:计算每个三角带通滤波器输出的对数能量;
离散余弦变换子模块:将计算得到的对数能量代入离散余弦变换,得到MFCC特征参数;
动态差分参数子模块:通过MFCC的差分谱来表示语音信号的动态特性,得到多维MFCC特征参数。
8.根据权利要求7所述的于MFCC和改进BP神经网络的声纹识别系统,其特征在于,所述预加重子模块中,预加重计算公式为:
H(Z)=1-μz-1
其中,μ的值介于0.9-1.0之间,Z为预加重之后的语音信号,z为预加重之前的语音信号。
9.根据权利要求7所述的于MFCC和改进BP神经网络的声纹识别系统,其特征在于,所述三角带通滤波器组包括40个三角带通滤波器,所述离散余弦变换子模块将计算得到的40个对数能量代入离散余弦变换,得到13阶MFCC。
10.根据权利要求6所述的于MFCC和改进BP神经网络的声纹识别系统,其特征在于,所述模型训练模块中,BP神经网络的改进方法包括:
网络初始化子模块:对BP神经网络进行初始化,设输入层的节点个数为n,隐含层的节点个数为l,输出层的节点个数为m,输入层到隐含层的权重ωij,隐含层到输出层的权重为ωjk,输入层到隐含层的偏置为aj,隐含层到输出层的偏置为bk,学习速率为η,激励函数为g(x),其中激励函数为g(x)取Sigmoid函数,形式为
隐藏层输出子模块:在三层BP神经网络中,隐含层的输出Hj为
输出层输出子模块:输出层的输出Ok为
误差计算子模块:取误差公式为
其中Yk为期望输出,记Yk-Ok=ek,则E表示为:
权值更新子模块:
在训练过程中,通过使用随机梯度下降反向传播神经网络来修改权重;
偏置更新子模块:
迭代判断子模块:指定迭代次数,判断相邻两次误差之间的差别是否小于预定的值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810963310.1A CN108847244A (zh) | 2018-08-22 | 2018-08-22 | 基于mfcc和改进bp神经网络的声纹识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810963310.1A CN108847244A (zh) | 2018-08-22 | 2018-08-22 | 基于mfcc和改进bp神经网络的声纹识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108847244A true CN108847244A (zh) | 2018-11-20 |
Family
ID=64189619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810963310.1A Pending CN108847244A (zh) | 2018-08-22 | 2018-08-22 | 基于mfcc和改进bp神经网络的声纹识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108847244A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110118926A (zh) * | 2019-05-27 | 2019-08-13 | 电子科技大学 | 基于电磁场效应的pcb篡改智能检测方法 |
CN110459241A (zh) * | 2019-08-30 | 2019-11-15 | 厦门亿联网络技术股份有限公司 | 一种用于语音特征的提取方法和系统 |
CN110807558A (zh) * | 2019-11-06 | 2020-02-18 | 深圳微品致远信息科技有限公司 | 基于深度神经网络进行离港滑行时间预测的方法及装置 |
CN111161754A (zh) * | 2019-11-19 | 2020-05-15 | 南京理工大学 | 基于深度聚类的车辆鸣笛声分类方法及系统 |
CN111524520A (zh) * | 2020-04-22 | 2020-08-11 | 星际(重庆)智能装备技术研究院有限公司 | 一种基于误差逆向传播神经网络的声纹识别方法 |
CN111667819A (zh) * | 2019-03-08 | 2020-09-15 | 北京京东尚科信息技术有限公司 | 基于crnn的语音识别方法、系统、存储介质及电子设备 |
CN111798873A (zh) * | 2020-05-15 | 2020-10-20 | 厦门快商通科技股份有限公司 | 一种基于3-d卷积神经网络的语音情绪识别方法及装置 |
CN111862978A (zh) * | 2020-07-30 | 2020-10-30 | 中科院微电子研究所南京智能技术研究院 | 一种基于改进mfcc系数的语音唤醒方法及系统 |
CN112397074A (zh) * | 2020-11-05 | 2021-02-23 | 桂林电子科技大学 | 基于mfcc和向量元学习的声纹识别方法 |
CN112698665A (zh) * | 2020-12-28 | 2021-04-23 | 同济大学 | 无人机探测定位方法 |
CN112735435A (zh) * | 2020-12-25 | 2021-04-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 具备未知类别内部划分能力的声纹开集识别方法 |
CN112951245A (zh) * | 2021-03-09 | 2021-06-11 | 江苏开放大学(江苏城市职业学院) | 一种融入静态分量的动态声纹特征提取方法 |
CN113053398A (zh) * | 2021-03-11 | 2021-06-29 | 东风汽车集团股份有限公司 | 基于mfcc和bp神经网络的说话人识别系统及方法 |
CN113571054A (zh) * | 2020-04-28 | 2021-10-29 | 中国移动通信集团浙江有限公司 | 语音识别信号预处理方法、装置、设备及计算机存储介质 |
CN114186581A (zh) * | 2021-11-15 | 2022-03-15 | 国网天津市电力公司 | 基于mfcc和扩散化高斯混合模型的电缆隐患识别方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002091358A1 (en) * | 2001-05-08 | 2002-11-14 | Intel Corporation | Method and apparatus for rejection of speech recognition results in accordance with confidence level |
CN103514879A (zh) * | 2013-09-18 | 2014-01-15 | 广东欧珀移动通信有限公司 | 一种基于bp神经网络的本地语音识别方法 |
CN203552694U (zh) * | 2013-10-10 | 2014-04-16 | 南京工程学院 | 基于mfcc的电台识别装置 |
CN104008751A (zh) * | 2014-06-18 | 2014-08-27 | 周婷婷 | 一种基于bp神经网络的说话人识别方法 |
CN104347066A (zh) * | 2013-08-09 | 2015-02-11 | 盛乐信息技术(上海)有限公司 | 基于深层神经网络的婴儿啼哭声识别方法及系统 |
CN106847293A (zh) * | 2017-01-19 | 2017-06-13 | 内蒙古农业大学 | 设施养殖羊应激行为的声信号监测方法 |
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
CN107609488A (zh) * | 2017-08-21 | 2018-01-19 | 哈尔滨工程大学 | 一种基于深度卷积网络的舰船噪声识别分类方法 |
-
2018
- 2018-08-22 CN CN201810963310.1A patent/CN108847244A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002091358A1 (en) * | 2001-05-08 | 2002-11-14 | Intel Corporation | Method and apparatus for rejection of speech recognition results in accordance with confidence level |
CN104347066A (zh) * | 2013-08-09 | 2015-02-11 | 盛乐信息技术(上海)有限公司 | 基于深层神经网络的婴儿啼哭声识别方法及系统 |
CN103514879A (zh) * | 2013-09-18 | 2014-01-15 | 广东欧珀移动通信有限公司 | 一种基于bp神经网络的本地语音识别方法 |
CN203552694U (zh) * | 2013-10-10 | 2014-04-16 | 南京工程学院 | 基于mfcc的电台识别装置 |
CN104008751A (zh) * | 2014-06-18 | 2014-08-27 | 周婷婷 | 一种基于bp神经网络的说话人识别方法 |
CN106847293A (zh) * | 2017-01-19 | 2017-06-13 | 内蒙古农业大学 | 设施养殖羊应激行为的声信号监测方法 |
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
CN107609488A (zh) * | 2017-08-21 | 2018-01-19 | 哈尔滨工程大学 | 一种基于深度卷积网络的舰船噪声识别分类方法 |
Non-Patent Citations (5)
Title |
---|
YUBIN ZHONG等: "Design and Realization of Music Recognition based on Speech Recognition", 《2011 INTERNATIONAL CONFERENCE ON NETWORK COMPUTING AND INFORMATION SECURITY》 * |
刘军伟等: "基于改进型BP神经网络的音频多分类", 《上海大学学报(自然科学版)》 * |
戚建宇等: "改进BP神经网络的普通话单字发音标准度研究", 《福建电脑》 * |
王功鹏等: "基于卷积神经网络的随机梯度下降算法", 《计算机工程与设计》 * |
王宏涛等: "基于BP神经网络和SVM的分类方法研究", 《软件》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667819A (zh) * | 2019-03-08 | 2020-09-15 | 北京京东尚科信息技术有限公司 | 基于crnn的语音识别方法、系统、存储介质及电子设备 |
CN111667819B (zh) * | 2019-03-08 | 2023-09-01 | 北京京东尚科信息技术有限公司 | 基于crnn的语音识别方法、系统、存储介质及电子设备 |
CN110118926A (zh) * | 2019-05-27 | 2019-08-13 | 电子科技大学 | 基于电磁场效应的pcb篡改智能检测方法 |
CN110459241A (zh) * | 2019-08-30 | 2019-11-15 | 厦门亿联网络技术股份有限公司 | 一种用于语音特征的提取方法和系统 |
CN110459241B (zh) * | 2019-08-30 | 2022-03-04 | 厦门亿联网络技术股份有限公司 | 一种用于语音特征的提取方法和系统 |
CN110807558A (zh) * | 2019-11-06 | 2020-02-18 | 深圳微品致远信息科技有限公司 | 基于深度神经网络进行离港滑行时间预测的方法及装置 |
CN111161754A (zh) * | 2019-11-19 | 2020-05-15 | 南京理工大学 | 基于深度聚类的车辆鸣笛声分类方法及系统 |
CN111524520A (zh) * | 2020-04-22 | 2020-08-11 | 星际(重庆)智能装备技术研究院有限公司 | 一种基于误差逆向传播神经网络的声纹识别方法 |
CN113571054A (zh) * | 2020-04-28 | 2021-10-29 | 中国移动通信集团浙江有限公司 | 语音识别信号预处理方法、装置、设备及计算机存储介质 |
CN113571054B (zh) * | 2020-04-28 | 2023-08-15 | 中国移动通信集团浙江有限公司 | 语音识别信号预处理方法、装置、设备及计算机存储介质 |
CN111798873A (zh) * | 2020-05-15 | 2020-10-20 | 厦门快商通科技股份有限公司 | 一种基于3-d卷积神经网络的语音情绪识别方法及装置 |
CN111862978A (zh) * | 2020-07-30 | 2020-10-30 | 中科院微电子研究所南京智能技术研究院 | 一种基于改进mfcc系数的语音唤醒方法及系统 |
CN112397074A (zh) * | 2020-11-05 | 2021-02-23 | 桂林电子科技大学 | 基于mfcc和向量元学习的声纹识别方法 |
CN112735435A (zh) * | 2020-12-25 | 2021-04-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 具备未知类别内部划分能力的声纹开集识别方法 |
CN112698665A (zh) * | 2020-12-28 | 2021-04-23 | 同济大学 | 无人机探测定位方法 |
CN112951245A (zh) * | 2021-03-09 | 2021-06-11 | 江苏开放大学(江苏城市职业学院) | 一种融入静态分量的动态声纹特征提取方法 |
CN113053398A (zh) * | 2021-03-11 | 2021-06-29 | 东风汽车集团股份有限公司 | 基于mfcc和bp神经网络的说话人识别系统及方法 |
CN113053398B (zh) * | 2021-03-11 | 2022-09-27 | 东风汽车集团股份有限公司 | 基于mfcc和bp神经网络的说话人识别系统及方法 |
CN114186581A (zh) * | 2021-11-15 | 2022-03-15 | 国网天津市电力公司 | 基于mfcc和扩散化高斯混合模型的电缆隐患识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108847244A (zh) | 基于mfcc和改进bp神经网络的声纹识别方法及系统 | |
WO2018227780A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN110164452A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN106952643A (zh) | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 | |
CN109584896A (zh) | 一种语音芯片及电子设备 | |
CN110379412A (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
CN105810191B (zh) | 融合韵律信息的汉语方言辨识方法 | |
CN107068167A (zh) | 融合多种端到端神经网络结构的说话人感冒症状识别方法 | |
CN105895082A (zh) | 声学模型训练方法、语音识别方法及装置 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
Lavrynenko et al. | Method of voice control functions of the UAV | |
CN111986679A (zh) | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 | |
Todkar et al. | Speaker recognition techniques: A review | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
Jiang et al. | Speech Emotion Recognition Using Deep Convolutional Neural Network and Simple Recurrent Unit. | |
Alsulaiman et al. | Comparison of voice features for Arabic speech recognition | |
Ameen et al. | Deep learning methods for arabic autoencoder speech recognition system for electro-larynx device | |
Renisha et al. | Cascaded Feedforward Neural Networks for speaker identification using Perceptual Wavelet based Cepstral Coefficients | |
Zhipeng et al. | Voiceprint recognition based on BP Neural Network and CNN | |
CN114141256A (zh) | 基于小波神经网络的声纹特征提取模型构建方法及系统 | |
Huang et al. | Speech emotion recognition based on deep belief networks and wavelet packet cepstral coefficients | |
Mohammed Ameen et al. | Deep Learning Methods for Arabic Autoencoder Speech Recognition System for Electro-Larynx Device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181120 |
|
RJ01 | Rejection of invention patent application after publication |