CN108831447A - 基于hmm和pnn的语音识别方法、装置及存储介质 - Google Patents
基于hmm和pnn的语音识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN108831447A CN108831447A CN201811148728.3A CN201811148728A CN108831447A CN 108831447 A CN108831447 A CN 108831447A CN 201811148728 A CN201811148728 A CN 201811148728A CN 108831447 A CN108831447 A CN 108831447A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- voice
- signal
- hmm
- pnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013528 artificial neural network Methods 0.000 claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 16
- 238000012549 training Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于HMM和PNN的语音识别方法,首先获取语音信号并对语音信号进行处理,得到目标语音信号,利用隐马尔科夫模型对目标语音信号进行第一识别,得到最优识别序列,利用概率神经网络对最优识别序列进行第二识别,得到语音信号的识别结果。因此,采用本方案,将隐马尔科夫模型和概率神经网络两者结合对语音信号进行识别,能避免单一的HMM模型或神经网络带来的局限性而带来的对语音的识别精确度较低的问题。此外,本发明还公开了一种基于HMM和PNN的语音识别装置、设备及存储介质。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于HMM和PNN的语音识别方法、装置及存储介质。
背景技术
随着科学技术的发展,人和机器的交流越来越多,为了使机器能够理解人类的语音,并作出相应的反应,语音识别具备了广阔的应用前景。目前,在语音识别领域应用较成熟的是隐马尔科夫模型,应用隐马尔科夫模型对语音进行识别时,其识别效率较高。隐马尔科夫模型是一种统计模型,用来描述具有隐含未知参数的从一个状态到另一个状态的转移过程,可以通过观测向量序列状态对该模型的状态进行观察,其中,每一个观测向量都是具有某种概率密度分布的状态分量产生,而又都通过某种概率分布表现为各种状态。
应用隐马尔科夫模型对语音进行识别时,是通过马尔科夫链的不同状态对语音信号的形成过程进行描述,存储不同状态下对应的概率输出、循环运算获取模型参数,通过该算法求出不同模型的条件概率和条件概率最大值相应的语音即为识别结果,虽然隐马尔科夫模型能很好的对连续语音进行处理,但是对于静态语音信号,隐马尔科夫模型并不能很好的进行识别。而神经网络在并行处理和分类的问题上表现出了极大的优势,这得益于神经网络极强的输入输出映射能力,在大词汇量连续语音识别中,在噪声环境下语音识别率会大幅降低。因此,采用单一的HMM模型或者神经网络对语音进行识别时,由于单一的HMM模型或神经网络的局限性,导致对语音的识别精确度较低。
因此,如何提高对语音进行识别的精确度是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种基于HMM和PNN的语音识别方法、装置及存储介质,提高了语音进行识别的精确度。
为实现上述目的,本发明实施例提供了如下技术方案:
第一,本发明实施例提供了一种基于HMM和PNN的语音识别方法,包括:
获取语音信号并对所述语音信号进行处理,得到目标语音信号;
利用隐马尔科夫模型对所述目标语音信号进行第一识别,得到最优识别序列;
利用预先建立的概率神经网络对所述最优识别序列进行第二识别,得到所述语音信号的识别结果。
优选的,所述利用隐马尔科夫模型对所述目标语音信号进行第一识别,得到最优识别序列包括:
提取所述目标语音信号的语音信号特征;
将所述语音信号特征作为所述隐马尔科夫模型的输入;
利用所述隐马尔科夫模型对所述语音信号特征进行识别,得到所述最优识别序列。
优选的,所述利用预先建立的概率神经网络对所述最优识别序列进行第二识别,得到所述语音信号的识别结果包括:
对所述最优识别序列进行归一化,得到待识别特征矩阵;
将所述待识别特征矩阵作为所述概率神经网络的输入,
计算所述待识别特征矩阵和与样本语音对应的标准特征矩阵中的各元素的匹配概率,得到多个匹配概率;
将各所述匹配概率中与最大匹配概率对应的目标元素作为所述识别结果。
优选的,所述计算所述待识别特征矩阵和与样本语音对应的标准特征矩阵中的各元素的匹配概率,得到多个匹配概率包括:
计算所述待识别特征矩阵中的各分量和所述标准特征矩阵中的各元素之间的欧式距离,各所述分量对应多个欧式距离;
分别将与各所述分量对应的多个欧式距离进行叠加得到与各所述分量对应的第一欧式距离;
将各所述第一欧式距离进行叠加得到第二欧式距离;
分别计算各所述第一欧式距离与所述第二欧式距离的比值,将各所述比值作为各所述匹配概率。
优选的,所述获取用户输入的语音信号并对所述语音信号进行处理包括:
获取所述语音信号;
将所述语音信号转换为语音数字信号并对所述语音数字信号进行预加重,得到预加重语音数字信号;
对所述预加重语音数字信号进行加窗分帧处理,得到多帧预加重语音数字信号,将所述多帧预加重语音数字信号作为所述目标语音信号。
优选的,在所述获取语音信号之后,还包括:
对所述语音信号进行去噪处理。
第二,本发明实施例提供了一种基于HMM和PNN的语音识别装置,包括:
获取模块,用于获取语音信号并对所述语音信号进行处理,得到目标语音信号;
第一识别模块,用于利用隐马尔科夫模型对所述目标语音信号进行第一识别,得到最优识别序列;
第二识别模块,用于利用预先建立的概率神经网络对所述最优识别序列进行第二识别,得到所述语音信号的识别结果。
优选的,所述第一识别模块包括:
提取单元,用于提取所述目标语音信号的语音信号特征;
识别单元,用于将所述语音信号特征作为所述隐马尔科夫模型的输入,利用所述隐马尔科夫模型对所述语音信号特征进行识别,得到所述最优识别序列。
第三,本发明实施例提供了另一种基于HMM和PNN的语音识别装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序以实现以上任一种提到的基于HMM和PNN的语音识别方法的步骤。
第四,本发明实施例公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上任一种所述的基于HMM和PNN的语音识别方法的步骤。
可见,本发明实施例公开的一种基于HMM和PNN的语音识别方法,首先获取语音信号并对语音信号进行处理,得到目标语音信号,利用隐马尔科夫模型对目标语音信号进行第一识别,得到最优识别序列,利用概率神经网络对最优识别序列进行第二识别,得到语音信号的识别结果。因此,采用本方案,将隐马尔科夫模型和概率神经网络两者结合对语音信号进行识别,能避免单一的HMM模型带来的处理静态语音信号的局限性或神经网络带来的处理动态语音信号的局限性而带来的对语音的识别精确度较低的问题。此外,本发明实施例还公开了一种基于HMM和PNN的语音识别装置、设备及存储介质。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种基于HMM和PNN的语音识别方法流程示意图;
图2为本发明实施例公开的一种基于HMM和PNN的语音识别装置结构示意图;
图3为本发明实施例公开的另一种基于HMM和PNN的语音识别装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于HMM和PNN的语音识别方法、装置及存储介质,提高了语音进行识别的精确度。
请参见图1,图1为本发明实施例公开的一种基于HMM和PNN的语音识别方法流程示意图,该方法包括:
S101、获取语音信号并对语音信号进行处理,得到目标语音信号;
具体的,本实施例中,语音信号指的是:用户输入的语音信号,用户输入的语音信号一般都携带噪声等无用信号,此外,需要将输入的模拟语音信号转换为数字信号以进行后续的识别过程。下面对本发明实施例提到的对语音信号的处理过程进行详细说明:
首先,为了保证语音信号中的噪声对语音识别的结果产生较大影响,本发明实施例中优选先对语音信号进行去噪处理(对语音进行去噪处理的过程可以参见现有技术),从而得到无噪声的语音信号。
其次,是将语音信号转换为语音数字信号,在得到用户输入的语音信号之后,其一般是模拟信号,需要将模拟信号转换为数字信号,关于模拟信号转换为数字信号的具体过程可以参见现有技术(可以采用模数转换器进行模拟量至数字量的转换)。
由于语音信号从发出到接收的过程中,语音信号中的高频信号会不断减弱,但是一般情况下,语音信号中的高频信号往往包含了大量的有用信息,因此在得到语音数字信号后,需要对语音数字信号进行预加重,从而保证语音信号的高频信号强度较强。对于语音数字信号的预加重可以通过传递函数为H(z)=1-αz-1的高通数字滤波器实现预加重,其中,α指的是预加重系数(预加重系数的大小可以根据高频信号强度的程度大小确定),z指的是输入至高通数字滤波器的语音数字信号,对语音数字信号进行预加重之后便得到了预加重语音数字信号。其次,对于数字信号的预加重过程也可以参见现有技术。
再者,为了提高对预加重语音数字信号的识别率,可以对预加重语音数字信号进行加窗分帧处理,即将连续的预加重语音数字信号分解成一帧一帧进行处理,对预加重语音数字信号进行加窗处理时的窗函数可以为矩形窗和汉明窗,由于汉明窗的时域波形图呈现钟型,对于预加重语音数字信号的时域特性有较好的体现,因此,本发明实施例将窗函数优选为汉明窗,其中,汉明窗可以采用下式进行表示:
上式中,N表示汉明窗的宽度,n指的是采样个数(即单位量),others表示是n的取值为除0至N-1之外的值。对于数字信号的加窗分帧处理也可以参见现有技术。
此外,对预加重语音数字信号进行加窗分帧处理后,为了能去除预加重语音数字信号开始前和结束后的空白语音,可以对目标语音信号进行端点判定,对于目标语音信号的端点进行判定的方法本发明实施例中优选为双门限法,对于采用双门限法对语音信号的起点和终点进行判断的过程具体如下:根据短时能量值设置较高的门限和一个最低的门限,然后基于该最高门限和最低门限区分有效的语音段,因为有效语音的能量比噪声或空白语音较高,同时为了避免大噪声的误差,可以先设定较高的门限Th,当接下来输入的一个帧的能量超过Th时,可以作为一个标记start,然后再由Th向外设置比普遍噪声能量低的门限Tl,然后由Th开始,当目标语音信号的能量减小到最低门限Tl时,作为目标语音信号的结束点,记为end。此时,将start和end之间的有效语音作为本发明实施例中的最终的目标语音信号。
考虑到接收到语音信号之后,能加快对语音信号的处理速度以加快对语音信号的整体的识别速率,基于上述实施例,作为优选的实施例,步骤S101包括:
获取语音信号;
将语音信号转换为语音数字信号并对语音数字信号进行预加重,得到预加重语音数字信号;
对预加重语音数字信号进行加窗分帧处理,得到多帧预加重语音数字信号,将多帧预加重语音数字信号作为目标语音信号。
关于此实施例的详细介绍可以参见上述实施例的描述。
进一步,考虑到噪声信号会降低对语音信号的识别正确率,作为优选的实施例,在获取语音信号之后,还包括:
对语音信号进行去噪处理。
具体的,关于对语音进行去噪的过程可以参见现有技术。
S102、利用隐马尔科夫模型对目标语音信号进行第一识别,得到最优识别序列。
具体的,本实施例中,在得到目标语音信号后,先利用训练好的隐马尔科夫模型对目标语音信号进行第一识别,作为优选的实施例,步骤S102具体包括:
提取目标语音信号的语音信号特征,得到目标语音信号的特征序列矩阵;
将特征向量矩阵作为隐马尔科夫模型的输入;
利用隐马尔科夫模型对特征向量矩阵进行识别,得到最优状态序列。
具体的,本实施例中,目标语音信号的语音信号特征包括:信号幅度、信号过零率、信号基音频率、信号线性预测系数、信号线性预测倒谱系数、信号Mel频率倒谱系数,由于Mel频率倒谱系数是基于人耳听觉特征提取出的参数,更符合真实的人耳听觉,因此,本发明实施例中,作为优选的实施例,将语音信号特征优选为Mel频率倒谱系数。对于语音信号特征的提取需要先将目标语音信号从时域转换至频域再进行特征提取,将目标语音信号从时域频率转换至Mel频域具体如下:B(f)=1125ln(1+f/700),其中,f指的是语音信号的频率,B(f)为Mel的频率。在得到频域的语音信号特征(Mel频率倒谱系数)后,将Mel频率倒谱系数作为隐马尔科夫模型的输入,本发明实施例中的隐马尔科夫模型的训练过程可以参见现有技术,本发明实施例对于隐马尔科夫模型的训练过程进行以下描述:
对于隐马尔科夫模型可以采用下式进行表示:
λ=(N,M,A,B,π)
其中,N指的是马尔科夫模型的状态数,M指的是观测值,A指的是状态转移概率分布,B指的是观测值概率分布,π指的是初始状态概率矩阵。由于N和M是固定值,因此,隐马尔科夫模型可以简单表示为:
λ=(A,B,π)
将训练样本(语音信号)输入至隐马尔科夫模型后,经过Baum-Welch算法递归重估隐马尔科夫模型的参数,然后由Viterbi计算输出概率,如果隐马尔科夫模型收敛,则得到最优的HMM参数。得到最优的HMM参数之后输入目标语音信号至训练好的隐马尔科夫模型,隐马尔科夫模型输出最优状态序列。最优状态序列指的是目标语音信号在根据隐马尔科夫的最优HMM参数下,对目标语音信号进行首次识别输出的最优识别结果。
S103、利用预先建立的概率神经网络对最优识别序列进行第二识别,得到语音信号的识别结果。
具体的,本实施例中,得到隐马尔科夫模型输出的最优识别序列(初次识别)之后,再结合概率神经网络进行二次识别。基于上述实施例,作为优选的实施例,步骤S103包括:
对最优识别序列进行归一化,得到待识别特征矩阵;
将待识别特征矩阵作为概率神经网络的输入,
计算待识别特征矩阵和与样本语音对应的标准特征矩阵中的各元素的匹配概率,得到多个匹配概率;
将各匹配概率中与最大匹配概率对应的目标元素作为识别结果。
基于上述实施例,作为优选的实施例,计算待识别特征矩阵和与样本语音对应的标准特征矩阵中的各元素的匹配概率,得到多个匹配概率包括:
计算待识别特征矩阵中的各分量和标准特征矩阵中的各元素之间的欧式距离,各分量对应多个欧式距离;
分别将与各分量对应的多个欧式距离进行叠加得到与各分量对应的第一欧式距离;
将各第一欧式距离进行叠加得到第二欧式距离;
分别计算各第一欧式距离与第二欧式距离的比值,将各比值作为各匹配概率。
具体的,本实施例中,对隐马尔科夫模型输出的最优识别序列输入至训练好的概率神经网络,概率神经网络的训练过程是:输入语音信号训练样本,利用语音训练样本不断调整概率神经网络的权值系数,直到达到最终的输出精度要求。对于利用概率神经网络识别隐马尔科夫的最优状态序列具体过程如下:
为了使得概率神经网络与隐马尔科夫模型输出的最优识别序列很好的对接,首先对最优识别序列进行归一化得到归一化后的最优识别序列(即本发明实施例中的待识别特征矩阵)输入至概率神经网络的输入层,待识别特征矩阵中包含多个分量(多个帧的目标语音信号),训练好的神经网络模型中的样本语音的标准特征矩阵包含多个元素(即语音信号的类型),然后,计算待识别特征矩阵中的每个分量与标准特征矩阵中每个元素的欧氏距离,即一个分量对应有与标准特征矩阵中元素个数相同的欧式距离,然后将一个分量对应的多个欧式距离叠加(本发明实施例中的第一欧式距离,第一欧式距离采用Sij表示),然后将各个分量的第一欧式距离Sij叠加得到第二欧式距离,本发明实施例中采用表示,其中M指的是语音信号的类型,i指的是第i个分量,j指的是第j种语音类型。
则输入的目标语音信号与标准特征矩阵中的各元素的匹配概率probij可以采用下式表示:
可见,本发明实施例公开的一种基于HMM和PNN的语音识别方法,首先获取语音信号并对语音信号进行处理,得到目标语音信号,利用隐马尔科夫模型对目标语音信号进行第一识别,得到最优识别序列,利用概率神经网络对最优识别序列进行第二识别,得到语音信号的识别结果。因此,采用本方案,将隐马尔科夫模型和概率神经网络两者结合对语音信号进行识别,能避免单一的HMM模型或神经网络带来的局限性而带来的对语音的识别精确度较低的问题。
请参见图2,图2为本发明实施例提供的一种基于HMM和PNN的语音识别装置结构示意图,包括:
获取模块201,用于获取语音信号并对语音信号进行处理,得到目标语音信号;
第一识别模块202,用于利用隐马尔科夫模型对目标语音信号进行第一识别,得到最优识别序列;
第二识别模块203,用于利用预先建立的概率神经网络对最优识别序列进行第二识别,得到语音信号的识别结果。
基于上述实施例,作为优选的实施例,第一识别模块202包括:
提取单元,用于提取目标语音信号的语音信号特征;
识别单元,用于将语音信号特征作为隐马尔科夫模型的输入,利用隐马尔科夫模型对语音信号特征进行识别,得到最优识别序列。
可见,本发明实施例公开的一种基于HMM和PNN的语音识别装置,首先获取语音信号并对语音信号进行处理,得到目标语音信号,利用隐马尔科夫模型对目标语音信号进行第一识别,得到最优识别序列,利用概率神经网络对最优识别序列进行第二识别,得到语音信号的识别结果。因此,采用本方案,将隐马尔科夫模型和概率神经网络两者结合对语音信号进行识别,能避免单一的HMM模型或神经网络带来的局限性而带来的对语音的识别精确度较低的问题。
请参见图3,图3为本发明实施例提供的另一种基于HMM和PNN的语音识别装置结构示意图,包括:
存储器301,用于存储计算机程序;
处理器302,用于执行存储器中存储的计算机程序以实现以上任一实施例提到的基于HMM和PNN的语音识别方法的步骤。
本实施例提供的另一种基于HMM和PNN的语音识别装置,由于可以通过处理器调用存储器存储的计算机程序,实现如上述任一实施例提供的基于HMM和PNN的语音识别方法的步骤,所以本识别装置具有同上述基于HMM和PNN的语音识别方法同样的实际效果。
为了更好地理解本方案,本发明实施例提供的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上任一实施例提到的基于HMM和PNN的语音识别方法的步骤。
本实施例提供的计算机可读存储介质,由于可以通过处理器调用计算机可读存储介质存储的计算机程序,实现如上述任一实施例提供的基于HMM和PNN的语音识别方法的步骤,所以本计算机可读存储介质具有同上述基于HMM和PNN的语音识别方法同样的实际效果。
为了对发明实施例提出的技术方案进行进一步的说明,下面结合实际应用场景对本发明实施例的技术方案进行介绍,本发明实施例仿真实验采用MATLAB来实现,安装MATLAB用于处理语音信号的函数集工具箱
voicebox,其中包含了对语音信号的分帧处理,滤波,加窗,参数提取等等函数,并准备好录制的语音材料。本发明实施例中的语音信号为:上升、下降、高度、前进、后退、左转、右转、跟踪、拍照、摄影这10个常用的指令。
首先对语音信号进行预处理,主要过程包括:预加重、分帧加窗和端点检测。首先,用第一个指令的语音信号“前进”进行测试。
首先是对目标信号进行预加重,具体是通过高通滤波器,提高一些在高频处幅值比较微弱的部分,让包含的信息更加清晰,是通过filter()函数实现:
wavin_after=filter([1-0.9375],1,wavin_before)
其中wavin_before和wavin_after分别为预加重前的语音数字信号、和预加重后的预加重语音数字信号。
其次,是对预加重语音数字信号进行加窗分帧处理:
具体是通过enframe()函数实现:
wavin_frames=enframe(wavin_after,FrameLen,FrameInc)
其中,FrameLen是帧长,本发明实施例中优选设置为256,FrameInc是帧移,设置为80。再通过hamming()函数进行加汉明窗。
然后,对分帧处理后的目标语音信号进行端点检测:
具体是通过以下程序实现:
[wavin_begin,wavin_end]=vad_basic(wavin_window,FrameLen,FrameInc)
其中,Wavin_window是经过分帧加窗处理后、进行端点检测前的目标语音信号,wavin_begin和wavin_end分别为经过端点检测后的目标语音信号的起始帧号和终止帧号。
之后,对进行预处理后的目标语音信号进行特征提取,具体如下:
经过端点检测后的目标语音信号转变为按帧计算的短时数字信号,然后在在MATLAB上设计MFCC功能函数,对目标语音信号“前进”进行特征提取,具体如下:
HMM训练模型的输入为对语音信号提取到的24阶MFCC参数,HMM模型的完整参数表示为:λ=(N,M,A,B,π),其中本方案模型状态数目N取4,观测值数目M取3,初始状态概率矩阵π=[1 0 0 0],状态转移概率分布矩阵A取以下矩阵:
本发明实施例中,MATLAB中的HMM的参数都是以结构体的形式保存在一起,概率密度函数的计算通过pdf.m来实现。关于pdf.m的表示可以参见以下程序:
%计算高斯概率密度函数
Function p=pdf(m,v,x)
%m:均值向量
%v:方差向量
%x:输入向量
%p:输出概率
P=(2*pi*prob(v)^-0.5*exp(-0.5*(x-m)./v*(x-m)’);
在求解出概率密度函数之后,再用mixture.m计算观测向量(目标语音信号)x对某个HMM状态的输出概率的线性组合,输出概率的计算程序如下:
%计算观测向量的高斯混合元的输出概率
Function prob=mixture(mix,x)
%mix:混合高斯结构
%x输入向量
%prob:输出概率
计算完成输出概率之后,再计算前向概率和后向概率,保存一部分参数在结构体param中,前向概率和后向概率的计算程序在getparam.m中完成,具体如下:
function param=getparam(hmm,O)
再将HMM模型参数hmm的观测序列(目标语音信号的信号序列)O作为输入经过Viterbi解码算法和Baum-welch训练算法得到最大输出概率prob和当前HMM模型参数下的最佳状态路径q,具体实现程序如下:
function[prob,q]=viterbi(hmm,O)
得到最大输出概率即得到了HMM模型输出的最优识别序列(目标语音信号“前进”的序列),将其输入至PNN,输入PNN之前,先对最优识别序列进行归一化,归一化为3帧,每帧24维,所以PNN输入层共72个神经元接收最优识别序列,本发明实施例中测试的目标语音信号为10个,因此,PNN的输出节点也为10个。PNN网络经过学习训练后,得到每类语音信号的PNN分类模板库,模板库中保留PNN网络训练参数收敛后各层之间的连接权值系数,MATLAB中存有PNN神经网络工具箱函数,用dist(W,P)计算第一欧式距离和第二欧式距离。
经过上述处理后,本发明实例的10个实验对象分别采用HMM识别和结合HMM和PNN的混合模型识别的处理结果如下:
首先对上述提到的这10个指令语音每个念20遍,统计识别成功的次数,计算识别率。在经过HMM模型后先输出一次结果作为单一HMM模型识别的识别结果。再经过PNN模型的识别,作为本发明实施例提出的技术方案的实验结果,对比HMM模型和HMM和PNN混合模型两组模型的识别率。实验结果如下表1,表1为HMM模型以及HMM模型和PNN模型混合模型的识别结果对比表:
表1 HMM模型以及HMM模型和PNN模型混合模型的识别结果对比表
由上表1可以看出,单一HMM模型与本发明实施例提出的HMM和PNN混合模型的语音信号的识别率相比,HMM和PNN混合模型总体的识别率高于单一HMM模型,HMM模型平均识别率86.5%,HMM和PNN混合模型平均识别率90.5%。
以上对本申请所提供的一种基于HMM和PNN的语音识别方法、装置、设备及存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
Claims (10)
1.一种基于HMM和PNN的语音识别方法,其特征在于,包括:
获取语音信号并对所述语音信号进行处理,得到目标语音信号;
利用隐马尔科夫模型对所述目标语音信号进行第一识别,得到最优识别序列;
利用预先建立的概率神经网络对所述最优识别序列进行第二识别,得到所述语音信号的识别结果。
2.根据权利要求1所述的基于HMM和PNN的语音识别方法,其特征在于,所述利用隐马尔科夫模型对所述目标语音信号进行第一识别,得到最优识别序列包括:
提取所述目标语音信号的语音信号特征;
将所述语音信号特征作为所述隐马尔科夫模型的输入;
利用所述隐马尔科夫模型对所述语音信号特征进行识别,得到所述最优识别序列。
3.根据权利要求2所述的基于HMM和PNN的语音识别方法,其特征在于,所述利用预先建立的概率神经网络对所述最优识别序列进行第二识别,得到所述语音信号的识别结果包括:
对所述最优识别序列进行归一化,得到待识别特征矩阵;
将所述待识别特征矩阵作为所述概率神经网络的输入;
计算所述待识别特征矩阵和与样本语音对应的标准特征矩阵中的各元素的匹配概率,得到多个匹配概率;
将各所述匹配概率中与最大匹配概率对应的目标元素作为所述识别结果。
4.根据权利要求3所述的基于HMM和PNN的语音识别方法,其特征在于,所述计算所述待识别特征矩阵和与样本语音对应的标准特征矩阵中的各元素的匹配概率,得到多个匹配概率包括:
计算所述待识别特征矩阵中的各分量和所述标准特征矩阵中的各元素之间的欧式距离,各所述分量对应多个欧式距离;
分别将与各所述分量对应的多个欧式距离进行叠加得到与各所述分量对应的第一欧式距离;
将各所述第一欧式距离进行叠加得到第二欧式距离;
分别计算各所述第一欧式距离与所述第二欧式距离的比值,将各所述比值作为各所述匹配概率。
5.根据权利要求1所述的基于HMM和PNN的语音识别方法,其特征在于,所述获取语音信号并对所述语音信号进行处理包括:
获取所述语音信号;
将所述语音信号转换为语音数字信号并对所述语音数字信号进行预加重,得到预加重语音数字信号;
对所述预加重语音数字信号进行加窗分帧处理,得到多帧预加重语音数字信号,将所述多帧预加重语音数字信号作为所述目标语音信号。
6.根据权利要求2所述的基于HMM和PNN的语音识别方法,其特征在于,在所述获取语音信号之后,还包括:
对所述语音信号进行去噪处理。
7.一种基于HMM和PNN的语音识别装置,其特征在于,包括:
获取模块,用于获取语音信号并对所述语音信号进行处理,得到目标语音信号;
第一识别模块,用于利用隐马尔科夫模型对所述目标语音信号进行第一识别,得到最优识别序列;
第二识别模块,用于利用预先建立的概率神经网络对所述最优识别序列进行第二识别,得到所述语音信号的识别结果。
8.根据权利要求7所述的基于HMM和PNN的语音识别装置,其特征在于,所述第一识别模块包括:
提取单元,用于提取所述目标语音信号的语音信号特征;
识别单元,用于将所述语音信号特征作为所述隐马尔科夫模型的输入,利用所述隐马尔科夫模型对所述语音信号特征进行识别,得到所述最优识别序列。
9.一种基于HMM和PNN的语音识别装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序以实现如权利要求1至6任一项所述的基于HMM和PNN的语音识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行以实现如权利要求1至6任一项所述的基于HMM和PNN的语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811148728.3A CN108831447A (zh) | 2018-09-29 | 2018-09-29 | 基于hmm和pnn的语音识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811148728.3A CN108831447A (zh) | 2018-09-29 | 2018-09-29 | 基于hmm和pnn的语音识别方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108831447A true CN108831447A (zh) | 2018-11-16 |
Family
ID=64149968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811148728.3A Pending CN108831447A (zh) | 2018-09-29 | 2018-09-29 | 基于hmm和pnn的语音识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108831447A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523995A (zh) * | 2018-12-26 | 2019-03-26 | 出门问问信息科技有限公司 | 语音识别方法、语音识别装置、可读存储介质和电子设备 |
CN111161171A (zh) * | 2019-12-18 | 2020-05-15 | 三明学院 | 爆破振动信号基线漂零校正和消噪方法、装置、设备及系统 |
CN111292748A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种可适应多种频率的语音录入系统 |
CN112349005A (zh) * | 2020-09-14 | 2021-02-09 | 中标慧安信息技术股份有限公司 | 一种通过语音识别实现开门的智能门禁系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539994A (zh) * | 2009-04-16 | 2009-09-23 | 西安交通大学 | 一种手语语音互译系统及手语语音互译方法 |
CN108170680A (zh) * | 2017-12-29 | 2018-06-15 | 厦门市美亚柏科信息股份有限公司 | 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 |
-
2018
- 2018-09-29 CN CN201811148728.3A patent/CN108831447A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539994A (zh) * | 2009-04-16 | 2009-09-23 | 西安交通大学 | 一种手语语音互译系统及手语语音互译方法 |
CN108170680A (zh) * | 2017-12-29 | 2018-06-15 | 厦门市美亚柏科信息股份有限公司 | 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
SHEGUO WANG 等: "The Hybrid Model of Speech Recognition Based on PNN and HMM", 《2009 INTERNATIONAL WORKSHOP ON INTELLIGENT SYSTEMS AND APPLICATIONS》 * |
ZHANG SHAOBAI: "The study of speech training and learning method based on DIVA model", 《2015 34TH CHINESE CONTROL CONFERENCE (CCC)》 * |
刘明宇: "ANN/HMM 混合模型在语音识别中的应用", 《自动化技术与应用》 * |
胡宝花: "基于HMM-ANN模型的语音识别技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523995A (zh) * | 2018-12-26 | 2019-03-26 | 出门问问信息科技有限公司 | 语音识别方法、语音识别装置、可读存储介质和电子设备 |
CN111161171A (zh) * | 2019-12-18 | 2020-05-15 | 三明学院 | 爆破振动信号基线漂零校正和消噪方法、装置、设备及系统 |
CN111161171B (zh) * | 2019-12-18 | 2023-04-07 | 三明学院 | 爆破振动信号基线漂零校正和消噪方法、装置、设备及系统 |
CN111292748A (zh) * | 2020-02-07 | 2020-06-16 | 普强时代(珠海横琴)信息技术有限公司 | 一种可适应多种频率的语音录入系统 |
CN111292748B (zh) * | 2020-02-07 | 2023-07-28 | 普强时代(珠海横琴)信息技术有限公司 | 一种可适应多种频率的语音录入系统 |
CN112349005A (zh) * | 2020-09-14 | 2021-02-09 | 中标慧安信息技术股份有限公司 | 一种通过语音识别实现开门的智能门禁系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305616B (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN110033758B (zh) | 一种基于小训练集优化解码网络的语音唤醒实现方法 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN101930735B (zh) | 语音情感识别设备和进行语音情感识别的方法 | |
CN103928023B (zh) | 一种语音评分方法及系统 | |
CN108831447A (zh) | 基于hmm和pnn的语音识别方法、装置及存储介质 | |
CN102800316B (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
Franke et al. | Phoneme boundary detection using deep bidirectional lstms | |
CN110289002B (zh) | 一种端到端的说话人聚类方法及系统 | |
CN111462756B (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN109192200A (zh) | 一种语音识别方法 | |
CN110895935B (zh) | 语音识别方法、系统、设备和介质 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
CN102436815B (zh) | 一种应用于英语口语网络机考系统的语音识别装置 | |
CN114566189A (zh) | 基于三维深度特征融合的语音情感识别方法及系统 | |
US7805308B2 (en) | Hidden trajectory modeling with differential cepstra for speech recognition | |
Vimala et al. | Isolated speech recognition system for Tamil language using statistical pattern matching and machine learning techniques | |
Fan et al. | CNN-based audio front end processing on speech recognition | |
CA2203649A1 (en) | Decision tree classifier designed using hidden markov models | |
Lee et al. | A useful feature-engineering approach for a LVCSR system based on CD-DNN-HMM algorithm | |
Banjara et al. | Nepali speech recognition using cnn and sequence models | |
CN113870840A (zh) | 语音识别方法、装置及相关设备 | |
Nijhawan et al. | Real time speaker recognition system for hindi words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181116 |
|
WD01 | Invention patent application deemed withdrawn after publication |