CN101944359A - 一种面向特定人群的语音识别方法 - Google Patents

一种面向特定人群的语音识别方法 Download PDF

Info

Publication number
CN101944359A
CN101944359A CN 201010234226 CN201010234226A CN101944359A CN 101944359 A CN101944359 A CN 101944359A CN 201010234226 CN201010234226 CN 201010234226 CN 201010234226 A CN201010234226 A CN 201010234226A CN 101944359 A CN101944359 A CN 101944359A
Authority
CN
China
Prior art keywords
voice
mrow
signal
speech
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010234226
Other languages
English (en)
Other versions
CN101944359B (zh
Inventor
熊伟
刘伟
王飞浪
谢伟良
陈鑫娜
陈鹏
熊俱扬
熊鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Ping Pong Intelligent Technology Co ltd
Original Assignee
Hangzhou Wangdou Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Wangdou Digital Technology Co Ltd filed Critical Hangzhou Wangdou Digital Technology Co Ltd
Priority to CN201010234226XA priority Critical patent/CN101944359B/zh
Publication of CN101944359A publication Critical patent/CN101944359A/zh
Application granted granted Critical
Publication of CN101944359B publication Critical patent/CN101944359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种面向特定人群的语音识别方法,首先对语音信号采样,将其从模拟信号转换至数字信号,然后对数字语音信号进行预加重、加窗分帧和端点检测的前端处理,接着采用离散小波变换对语音信号做特征提取,最后采用经样本训练后的离散隐马尔可夫模型对特征提取后的语音信号做语音识别。在对语音信号的前端处理和特征提取过程中充分考虑不同目标人群的频谱特征和发音特点对语音信息提取的过程进行优化,可简化处理过程和信息提取过程,从而在保证识别精度的同时,大大降低了识别过程中的计算量和信息存储量,实现了在嵌入式平台上的语音识别。

Description

一种面向特定人群的语音识别方法
技术领域
本发明涉及语音信号处理与识别技术领域,尤其涉及一种面向特定目标人群的语音识别方法。
背景技术
语音识别,是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术,即将语音信号逐字逐句的翻译为相应的书面语言,或对语音所包含的要求和命令做出正确的响应。随着科学的发展和计算机的普及,人们对与计算机的交流方式提出了更高的要求。这促进了语音识别技术的发展,并使之成为语音处理领域中的一个重要研究方向。语音识别具有广阔的应用前景,其发展、成熟和实用化将推动许多产业的迅速发展,包括计算机、办公室自动化、通信、国防、机器人等等。目前,在实验室环境下,语音识别系统的识别率已经达到了很高的水平。但是由于受现实环境噪声的影响,语音识别系统的识别率较实验室环境大幅度下降,语言识别系统的实用性受到了很大的影响。
语音识别中最重要的技术基本集中在语音特征提取和模式匹配两个环节。在汉语语音识别系统中,主要采用以下三种特征提取方法:
基于LPC的倒谱参数(LPCC)分析法:该方法的典型代表是基于Durbin或Levinson迭代算法求解“维纳-霍夫方程”获得LPC预测系数为基础,进而得到的LPC的倒谱参数(LPCC)。
基于Mel系数的Mel频标倒谱系数(MPCC)分析法:该方法基于FFT频谱余弦变换为基础,根据Mel曲线将语音信号频谱分为若干个频带,每个频带的能量经FFT变换对应一组MFCC参数。
基于现代处理技术的小波变换系数分析法:该方法将语音信号与一个在时域和频域均具有良好局部化性质的小波函数族进行积分(小波变换),从而把信号分解成一组位于不同频率和时段内的分量,即选择小波函数为某类平滑函数的一阶导数,从而获得语音特征参数。小波变换法则是一种新兴的理论工具,与经典的LPCC和MPCC方法相比,小波变换法有着计算量小、复杂程度低、识别效果好等许多优点,是未来语音识别技术发展的一个方向。
为解决语音识别的另一个技术难题-模式匹配,Rabiner等人在20世纪80年代将隐马尔可夫(HMM)模型引入语音识别领域。该算法以HMM模型为基本建模模型,运用统计学习理论对发音的基本音素建立对应的声学模型,统计学习各个音素之间的概率转移关系,再结合语义分析进行内容识别。通过大量的语音库,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突发情况。目前绝大多数基于PC的系统都采用此方法。
伴随着科技进步和全球信息交流的日益扩大,嵌入式设备产品的市场规模得到了迅猛的发展。3G手机、GPS导航设备等移动通信终端和MP3、电子词典等便携式消费电子产品的日益普及,使语音合成、语音识别、手写输入技术在嵌入式中的应用成了最具吸引力的功能,具有语音识别功能的嵌入式系统有助于提高人机交互的效率,增强人对智能化设备的控制,具有广阔的市场应用前景,可广泛应用于语音导航、语音拨号、智能家电和玩具的语音控制等领域。
目前主流的语音识别技术是基于统计模式识别的理论,由于算法复杂,运算量大,一般由PC机来完成,这无疑限制了它在便携嵌入式设备中的运用。嵌入式语音识别技术并不能简单地将PC机通用的语音识别技术应用到嵌入式系统,它受到嵌入式处理器的处理能力、存储资源、应用环境及成本等方面的严格限制和制约,迫切需要在噪声处理、语音特征提取算法以及语音识别算法等方面做出改进,提出适用于嵌入式平台的语音识别方法。
发明内容
本发明的目的在于提供一种基于嵌入式系统平台的、面向特定人群的语音识别方法,该方法根据目标人群发音的统计特点对前端处理以及离散小波变换环节的参数进行选择,采用离散小波变换提取频谱特征,并采用离散马尔可夫模型对语音信号进行识别,从而大大降低了运算量和待处理的信息量,进而在嵌入式平台上实现了采用隐马尔可夫模型的语音识别技术。
由于人的年龄不同,声带长度、体积、肌张力及神经传导速度都有一定的差异。研究表明,年龄会对嗓音造成显著性影响,儿童、成人与老人的嗓音具有明显的差别。针对发音者的年龄划分目标人群,不同目标人群的声学参数,如基调频率、频率微扰、振幅微扰及声门噪声等均不同,其发音的不同语音元素(如元音、清音、浊辅音等)的频率分布范围也存在差异,这就为本发明中根据不同目标群体的音频特点采用不同的前端处理中加窗分帧参数和不同的离散小波变换频段进行语音信号的特征提取提供了理论依据。
一种面向特定目标人群的语音识别方法,包括:
(1)对语音信号采样,将语音信号由模拟信号转换至数字信号;
由于语音信号的能量绝大部分集中在4kHz以下的频段内,本发明采用8kHz的采样信号对语音信号进行采样并量化,将其换至数字信号。
(2)对数字语音信号进行前端处理;
所述的前端处理包括预加重、加窗分帧和端点检测。
所述的预加重是对语音信号作+6dB/倍频程的高频提升,提升语音信号的高频部分,使信号的频谱变得宽坦,以减少低频干扰分量的影响,便于进行频谱分析或声道分析。
所述的加窗分帧采用窗函数平滑地在语音信号上滑动,将语音信号划分为若干语音帧帧。为了使划分出的语音帧更能反映出发音者的语音特征,对语音信号进行加窗分帧处理时考虑目标人群语音信号的基调周期。例如,小孩的基调频率在300~400Hz,而成年女人的基调频率在150~250Hz,成年男人的基调频率在100~150Hz等。基调周期与基调频率成倒数关系,不同目标人群的基调周期也必然不同。
本发明中每个语音帧的帧长大于目标人群语音信号的基调周期的两倍,帧移为帧长的一半,帧速根据帧长的数值来确定,它们两者互为倒数。
所述的端点检测是在噪声环境下将语音信息和非语音信息区分开来,从而避免一些误判,可以有效地提高识别率。以每一个语音帧的帧能量与帧过零率的乘积作为端点检测的指标量。在语音开始后,一旦有某一个语音帧的帧能量与帧过零率乘积超过预设的阈值,就认为有效语音开始。在有效语音开始后,当连续的几个语音帧的帧能量与帧过零率乘积低于阈值时,认为有效语音结束。
(3)根据目标人群的发音特点对经过前端处理后的语音信号进行特征提取;
特征提取阶段是语音识别的重要阶段,特征提取的实质是对经过预处理的语音信号经过某种变换,去掉冗余部分,把代表语音信号本质的特征参数抽取剥离出来,它是在语音信号经过端点检测提取出有用的语音数据后再进行。正确合理地选择特征参数不仅对语音识别系统的识别率至关重要,同时对系统的实时性能也有很大的影响。本发明利用离散小波变换(DWT)特有的奇异特征提取和时变滤波功能,用小波变换代替傅里叶变换,把小波变换引入梅尔频率倒谱参数(MFCC参数)的提取,使语音词汇的识别做到更准确、更快速。
对语音信号进行特征提取,得到特征参数的过程为:
1.将每个语音帧进行离散小波变换,将其划分为若干个频带,求出每个频带的小波分解系数,小波变换的频带特征频率由目标人群语音频谱中语音元素的频率分布决定。语音元素包括元音、清音、浊辅音等。一般清音的频率高于元音、浊辅音的频率。但是,不同年龄目标人群的语音频谱中这些语音元素的频率分布是不同的。按照不同年龄目标人群的语音频谱中语音元素的频率分布将语音信号划分为不同的频带,这样对语音信号进行灵活性的频带划分处理,可提高语音识别的识别率;
2.将上述若干个频带上分解出的小波系数分别作FFT变换,再通过一级量化后,根据它们各自的频带关系通过频谱拼接,生成完整的语音频谱,求取语音频谱的能量;
3.将语音频谱能量通过梅尔滤波器组,得到经过梅尔滤波器组后的输出;
4.对上述滤波器组的输出求取对数,转换为对数频谱,再将对数频谱经过离散余弦变换得到语音信号的特征参数。
(4)采用离散隐马尔可夫模型对特征提取后的语音信号做语音识别;
首先基于标准语音库中的样本数据对离散隐马尔可夫模型进行训练,当模型收敛到一个预设的阈值或者训练一定次数之后,即终止训练过程,然后采用训练好的离散隐马尔可夫模型对语音信号进行识别。
本发明针对目标人群发音频谱特性对前端处理和特征提取模块的参数进行优化,确保处理后的信号更能反映语音的本质特征,增强了语音识别结果的可靠性。而且本发明中利用离散小波变换提取频谱特征,进而采用基于离散马尔可夫模型的语音识别程序对语音信号进行识别,可以在提高语音频谱特征提取效果的同时大大的降低运算量和信息的处理量,为在处理能力、存储资源以及成本均受到限制的嵌入式平台上实现隐马尔可夫模型的语音在线识别创造了有利的条件,具有良好的应用前景。
本发明的技术效果如下:
(1)针对不同目标人群的语音频谱特征,选取合适的前端处理以及离散小波变换特征参数,提高了信号提取的有效性;
(2)利用离散小波变换提取频谱特征,并在嵌入式平台上实现了基于离散隐马尔可夫模型HMM识别算法,提高了识别准确率而又避免了大计算量;
(3)该方法通过科学的算法模型,结合嵌入式语音识别技术的优化设计,解决了语音识别技术在嵌入式平台上应用的困难,从而实现了在微型化系统中实现语音识别功能的方案。
附图说明
图1为本发明流程示意图;
图2为本发明对语音信号进行前端处理的模块化示意图。
具体实施方式
下面以年龄大于60岁的老年人作为目标人群为例,详细介绍本发明语音识别方法的过程。
参见图1,一种面向特定目标人群的语音识别方法,包括:
S1、对语音信号采样,将语音信号由模拟信号转换至数字信号;
由于数字信号处理技术的成熟和方便,在信号处理领域,一般将模拟信号转换至数字信号进行处理。语音信号是时间和幅度都连续变化的一维模拟信号,首先要对语音信号进行采样和模/数转换,将它变成时间和幅度上均离散化的数字信号,再对其进行处理。
根据奈奎斯特采样定律,当采样频率大于信号最高频率的两倍时,才能保证采样过程不会丢失原始信息,而且能从采样信号中准确的重构出原始信号的波形。由于语音信号的能量绝大部分集中在4kHz以下的频段内,因此对语音信号的采样频率设定为8kHz。
为了抑制混叠干扰(包括高、低频噪声),在采样前先对语音信号进行预滤波处理:首先采用低通滤波器滤除语音信号中超过采样频率一半的部分,即滤除频率高于4kHz的部分;然后采用高通滤波器抑制40Hz以下的低频噪声。为简化系统结构,可采用一个带通滤波器对语音信号进行滤波处理,将频率大于4kHz的信号以及40Hz以下的信号均予以滤除。进行预滤波处理后,再采用预设的采样频率8kHz进行对语音信号采样。
S2、对数字语音信号进行前端处理;
如图2所示,前端处理包括三个分步骤:
201、预加重
受声门激励和口鼻辐射的影响,语音信号的高频端按6dB/倍频程跌落,为此在对语音信号进行分析之前需要对语音信号作+6dB/倍频程的高频提升,这个高频提升的过程称之为预加重。通过对语音信号进行预加重处理可以使语音信号的频谱变得平坦,以便于频谱分析或声道参数分析。采用一阶数字滤波器实现对语音信号的预加重处理,一阶数字滤波器可用如下的系统函数表示:
H(z)=1-0.94×z-1(1)
202、加窗分帧
语音信号的时域特性是非平稳、时变的,但通过加窗分帧的“短时”处理将其分为若干个短时信号,每个短时信号称为一个语音帧,在每一个语音帧内可以认为语音信号是平稳、非时变的。分帧处理中窗口序列的长度N(即帧长)将起决定性的作用。窗长N选得太大,语音信号波形的振幅变化细节看不出来;窗长N选得太小,语音信号不能被足够的平均化。
一般窗长至少应大于两个基音周期,才能获得较好的估计效果。对于目标人群为老年人来讲,其语音的基调频率主要集中在60-320Hz之间,即基音周期在15ms左右。因此本实施例中,选取窗长为40ms,一个语音帧内的信号点为320个(8KHz的采样频率),帧速25帧/s,选取帧移为窗长的1/2,即帧移为160点(20ms)。相对于帧长在20-30ms之间的常规算法,本发明选取更长的帧长,可以大大减少数据量,同时对识别率影响不大。
在本实施例中,我们选取哈明窗作加窗处理,其处理过程可用以下的数学表达式表示:
S ( i ) = Σ k = - ∞ ∞ T [ x ( k ) ] ω ( i - k ) - - - ( 2 )
其中,T表示对语音信号进行变换,此变换可以是线性的,也可以是非线性的;S(i)为加窗后的语音序列,x(k)表示数字语音信号,ω(i-k)表示窗函数,k表示时序信号点,i表示窗内点。
203、端点检测
在语音识别系统中,数字语音信号是由语音和非语音(如静音和各种背景噪音等)混合组成的。在这种信号中,将语音和各种非语音信号时段区分开来,准确地确定出语音信号起始点和终点称为端点检测。在语音识别中,端点检测的性能对于识别正确率和识别速度都有着重要影响。采用帧能量与帧过零率的乘积作为端点检测的指标量。帧能量是指一个语音帧内所有语音样值的平方和,用Power表示,其计算公式为:
Power = Σ i = 1 n S 2 [ i ] - - - ( 3 )
其中,n为一个语音帧内的样本数,S[i]为一个样本的语音样值。
帧过零率是指一个语音帧内语音样值的短时过零数,用Zero表示,其计算公式为:
Zero = &Sigma; i = 1 n ( S [ i ] &times; S [ i - 1 ] < 0 ) - - - ( 4 )
其中,S[i-1]表示S[i]的前一个语音样值。
在语音开始后,一旦有某一个语音帧的帧能量与帧过零率乘积超过预设的阈值,就认为有效语音开始。这样做的目的在于能使某些帧能量与帧过零率乘积较小的辅音语音帧也被划入到有效语音段。在有效语音开始后,只有当连续的几个语音帧的帧能量与帧过零率乘积低于阈值时,才认为有效语音结束,这样保证了当一个字刚刚结束而另一个字尚未开始时,不会将后面的语音帧截断,造成有效语音信号丢失。
S3、根据目标人群的发音特点对经过前端处理后的语音信号进行特征提取;
根据语音学知识,年龄在60岁以上的老年人的语音频谱特征如下表所示:
表1年龄在60岁以上的老年人的语音频谱特征
Figure BSA00000201514600063
本发明采用离散小波变换(DWT)对语音信号做特征提取,小波变换在语音识别中没有得到广泛应用的主要问题在于,很难将小波变换系数转换成传统意义上的特征参数。本方法中语音信号通过离散小波变换后,分解为若干频带,对不同频带的系数分别作FFT变换;再通过一级量化后,根据它们的频带关系将它们的频谱拼接生成完整的频谱,最后通过梅尔(Mel)滤波器组,将频谱转变生成维数较低的语音特征参数。这种参数的提取过程与梅尔频率倒谱参数(MFCC参数)的提取过程相似,不同的是,本发明应用了小波变换,通过小波变换将语音中不同频带上的特征信息提取和分离出来。根据小波变换的压缩特性,语音信号的小波系数将是稀疏的。也就是说小波变换将语音信号进行了压缩,使得语音信号的小波系数在少数点的幅值出现大值;而对高斯噪声,各级小波系数的方差均等于原信号的方差,因此平均的幅度小。这样通过量化,可以去除一部分噪声谱,从而有效地压缩了数据量。同时,间接地提高了分析的信噪比。把小波变换引入MFCC参数的提取,并充分考虑目标人群的语音频谱特征,使语音信号的识别做到更准确、更快速。
对语音信号进行特征提取包括:
301、将每个语音帧进行离散小波变换,分解为若干频带,求出每个频带的小波分解系数,小波变换的频带特征频率由目标人群的语音频谱特征决定;
考虑到如表1所示的老年人的语音频谱特征,将语音信号划分为40-200Hz、200-500Hz、500-3200Hz和3200-4KHz四个频段,针对每个频带需要一个低通滤波器和一个高通滤波器。例如,针对第一个频带40-200Hz,需要一个低通滤波器滤除高于200Hz的频率成分,另外需要一个高通滤波器滤除低于40Hz频率成分,从而保留频率在40-200Hz之间的信号。然后对于剩余频率空间的信号再进行类似的划分提取。
这个按照目标群体的语音频谱特征进行语音信号特征提取的过程可用以下算式表示:
DWT ( S , 2 j , k 2 j ) = D j , k = &Sigma; i &Element; Z S ( i ) h 1 j ( i - 2 j k ) - - - ( 5 )
C j , k = &Sigma; i &Element; Z S ( i ) h 0 j ( i - 2 j k ) ( i , j , k &Element; Z ) - - - ( 6 )
其中,Cj,k和Dj,k分别为每个频带上的离散逼近信号(低频系数)和离散细节信号(高频系数),它们可由Mallat塔式算法计算得到。
低通滤波器h0及带通滤波器h1形成了一对镜像滤波器组h1=(-1)1-nh0(1-n),每个频带的h0及h1是根据表1中的老年人频谱特征决定的。通过滤波器h0和h1将信号分解成低频空间和高频空间,接着在剩余的频带空间继续分解。分解结束后得到各个频带上的细节系数和近似系数。
利用离散小波变换特有的分频和局部分析能力,对语音信号进行上述四个频段上的离散子波变换,按照Mallat算法分解为不同频道。在频率高端,频率分辨率低;在频率低端,频率分辨率高,这与语音信号功率谱能量主要集中在频率低端相吻合。而清音和环境背景噪声通常出现在高频段中,将语音信号划分为上述四个频带后,对清音频带(3200Hz-4000Hz)的语音信号做阈值处理。对于这个频带的语音信号,将语音强度低于某一强度阈值的噪声信号予以舍弃,而将高于这一强度阈值的有效语音信号予以保留。
302、将上述4个频带上的小波分解系数分别作FFT变换,再通过一级量化后,根据它们各自的频带关系通过频谱拼接,生成完整的语音频谱Xm(k),并通过对Xm(k)求取平方获得语音频谱的能量。
303、将上一步得到的语音频谱能量通过Mel滤波器组,得到经过Mel滤波器组后的输出;
采用三角滤波器组为例,一个三角滤波器组
Figure BSA00000201514600081
可用以下方程表示:
U &Delta; m ( k ) = 1 - | k | / &Delta; m | k | < &Delta; m 0 | k | &GreaterEqual; &Delta; m - - - ( 7 )
其中,
Figure BSA00000201514600083
为第m个三角滤波器的频率带宽。第m个滤波器的输出Y(m)通过下式计算:
Y ( m ) = &Sigma; k = h m - &Delta; m h m + &Delta; m | X m ( k ) | 2 U &Delta; m ( k + b m ) - - - ( 8 )
其中,|Xm(k)|2为步骤302中得到的语音频谱能量。
304、通过对303中得到的滤波器输出Y(m)进行离散余弦变换得到语音信号的特征参数;
首先对步骤303中的滤波器输出Y(m)求取对数,然后进行离散余弦变换得到语音信号的特征参数c(n),这一过程的数学表达式为:
c ( n ) = &Sigma; m = 1 M - 1 ln ( Y ( m ) ) cos ( &pi;n ( m + 1 / 2 ) M ) ( 0 &le; m < M ) - - - ( 9 )
M为步骤303中所采用的滤波器个数,经过以上语音信号特征提取,在典型环境下(平缓的语音输入),数据码率可缩减30%以上。
S4、对特征提取后的语音信号做语音识别;
在本发明中,采用离散隐马尔可夫模型(DHMM)对特征提取后的语音信号做语音识别。
401、对离散隐马尔可夫模型进行训练:
离散隐马尔可夫模型用于描述随机过程统计特性的概率模型,它由马尔可夫链演变来的。一个有Q个状态(记为s1,s2...sQ)的马尔可夫模型可用三元组参数λ=(π,A,B)表示。其中π=(π1,π2...πQ)为初始分布矢量,用于描述待识别语音序列在初始时刻所处的状态;A为状态转移概率分布,Aij={aij|i,j=1,2,...Q}为状态转移概率矩阵,其元素aij是指t时刻状态为Si,而在t+1时刻转移到状态Sj的概率;B是状态Sj的观测符号概率分布,B={bi;i=1,2,...,Q},满足∑bj=1。
在使用离散隐马尔可夫模型对语音信号识别之前,需要对模型进行基于样本数据的训练。首先将标准语音库中样本观测数据的各个矢量序列量化为观察值符号序列,最后由Baum-Welch算法训练出离散的隐马尔可夫模型,并把训练结果存储起来。
首先采用前向-后向算法计算给定模型参数时观察值序列的概率P{O|λ}。观测值序列记为o1,o2...oT,共有T个观测值,对于第t(1≤t≤T)个观测值,分别计算其前向概率at(i)和后向概率βt(i)。
定义前向概率为ai(i)=P(o1,o2...ot),即状态模型为λ,利用at(i)计算输出条件概率P{O|λ}:
前向概率的初始化:
a1(i)=πibi(o1),1≤i≤Q    (10)
迭代计算:
a t + 1 ( i ) = [ &Sigma; i = 1 Q a t ( i ) a ij ] b j ( o t + 1 ) 1 &le; t &le; T - 1,1 &le; j &le; Q - - - ( 11 )
终止计算:
P { O | &lambda; } = &Sigma; i = 1 Q a T ( i ) - - - ( 12 )
后向概率βt(i)的计算过程同前向概率计算过程相同。
利用前向概率和后向概率将整个观测值序列O对HMM模型的输出概率分为两个部分观测值序列的输出概率的乘积,可以大大简化计算量,则整个观测值序列的概率可表示如下:
P { O | &lambda; } = &Sigma; i = 1 Q a t ( i ) &beta; t ( i ) = &Sigma; i = 1 Q &Sigma; j = 1 Q a t ( i ) a ij b j ( o t + 1 ) &beta; t + 1 ( j ) , 1 &le; t &le; T - 1 - - - ( 13 )
通过上述计算,我们得到了观察值符号序列,接下来我们采用Baum-Welch算法对离散隐马尔可夫模型进行迭代训练,假设原始离散隐马尔可夫模型为λ=f(π,A,B),训练一次以后新的模型为λ′=f(π′,A′,B′),由新的模型参数λ′产生观察矢量序列的概率比先前的模型参数λ更大,即p(Y/λ′)>p(Y/λ)。因此,使用上述迭代方法,可以逐步调整离散隐马尔可夫模型的参数。当模型收敛到一定程度或迭代一定的次数后,终止训练过程。
402、利用训练好的离散隐马尔可夫模型进行语音识别:
语音识别系统模型通常由语音模型和语言模型两部分组成。语音模型包含了不同发音者的语音特征模型库,这个模型库包含的语音特征越丰富,系统能够识别的发音者人群将越广泛;语言模型用来存储文字、词语、成语、谚语等语言学元素,其中包括发音学、音韵学、语义结构、语言的数学描述模型等,语言模型存储的语言学元素越多,系统能够识别的语言也就越多。语音识别的过程即是接收用户的话语语音,利用语音模型和语言模型,搜索出与输入语音的特征最匹配的字、词、句,作为识别结果输出。
将经过前段处理和特征提取的语音序列输入到训练好的离散隐马尔可夫模型中,采用Viterbi算法对语音信号进行识别,即根据待识别的语音序列找出最佳匹配的隐含状态序列。假设待识别的语音序列为D=(d1,d2...dN),要求找到隐含状态序列Z=(z1,z2...zN),使得下式概率达到最大:
v*=arc maxp[Z,D/λ](14)
则Z即为所得的最佳识别结果,将经过语音模型识别后的结果送入语言模型进行进一步的处理,语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。当语音模型的输出结果错误时,可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。

Claims (6)

1.一种面向特定目标人群的语音识别方法,其特征在于,包括:
(1)对语音信号进行采样,将语音信号由模拟信号转换至数字信号;
(2)对语音信号进行前端处理;
(3)提取语音信号的特征参数;
(4)采用离散隐马尔可夫模型对语音信号进行识别。
2.如权利要求1所述的语音识别方法,其特征在于,对语音信号进行采样的采样信号为8kHz。
3.如权利要求1所述的语音识别方法,其特征在于,所述的对语音信号进行前端处理包括预加重、加窗分帧和端点检测。
4.如权利要求3所述的语音识别方法,其特征在于,所述的预加重为对语音信号作+6dB/倍频程的高频提升。
5.如权利要求3所述的语音识别方法,其特征在于,所述的加窗分帧操作中采用的帧长大于目标人群语音频谱中基调周期的两倍,帧移为帧长的一半。
6.如权利要求1所述的语音识别方法,其特征在于,所述的提取语音信号的特征参数包括:
a、对语音信号进行离散小波变换,将语音信号划分为若干个频带,计算每个频带上的小波分解系数,频带的划分基于目标人群频谱中语音元素的频率分布;
b、将各个频带上的小波系数分别作快速傅里叶变换,再通过一级量化后,将所有频带上的频谱拼接成完整的语音频谱,计算完整语音频谱的频谱能量;
c、将完整语音频谱的频谱能量通过梅尔滤波器组,计算梅尔滤波器组的输出;
d、对梅尔滤波器组的输出进行对数变换和离散余弦变换得到语音信号的特征参数。
CN201010234226XA 2010-07-23 2010-07-23 一种面向特定人群的语音识别方法 Active CN101944359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010234226XA CN101944359B (zh) 2010-07-23 2010-07-23 一种面向特定人群的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010234226XA CN101944359B (zh) 2010-07-23 2010-07-23 一种面向特定人群的语音识别方法

Publications (2)

Publication Number Publication Date
CN101944359A true CN101944359A (zh) 2011-01-12
CN101944359B CN101944359B (zh) 2012-04-25

Family

ID=43436319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010234226XA Active CN101944359B (zh) 2010-07-23 2010-07-23 一种面向特定人群的语音识别方法

Country Status (1)

Country Link
CN (1) CN101944359B (zh)

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938811A (zh) * 2012-10-15 2013-02-20 华南理工大学 一种基于语音识别的家庭手机通话系统
CN103402118A (zh) * 2013-07-05 2013-11-20 Tcl集团股份有限公司 一种媒体节目互动方法及系统
CN103514877A (zh) * 2013-10-12 2014-01-15 新疆美特智能安全工程股份有限公司 振动信号特征参数提取方法
CN104183245A (zh) * 2014-09-04 2014-12-03 福建星网视易信息系统有限公司 一种演唱者音色相似的歌星推荐方法与装置
CN104700018A (zh) * 2015-03-31 2015-06-10 江苏祥和电子科技有限公司 一种用于智能机器人的识别方法
CN104954532A (zh) * 2015-06-19 2015-09-30 深圳天珑无线科技有限公司 语音识别的方法及装置与移动终端
CN105099759A (zh) * 2015-06-23 2015-11-25 上海华为技术有限公司 一种检测方法及装置
CN105895105A (zh) * 2016-06-06 2016-08-24 北京云知声信息技术有限公司 语音处理方法及装置
CN106356077A (zh) * 2016-08-29 2017-01-25 北京理工大学 一种笑声检测方法及装置
CN106407960A (zh) * 2016-11-09 2017-02-15 浙江师范大学 基于多特征音乐体载的分类方法及系统
CN106448655A (zh) * 2016-10-18 2017-02-22 江西博瑞彤芸科技有限公司 语音识别方法
CN106875936A (zh) * 2017-04-18 2017-06-20 广州视源电子科技股份有限公司 语音识别方法及装置
CN106887230A (zh) * 2015-12-16 2017-06-23 芋头科技(杭州)有限公司 一种基于特征空间的声纹识别方法
CN106971731A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种声纹识别的修正方法
CN106971727A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种声纹识别的验证方法
CN106971730A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于信道补偿的声纹识别方法
CN106971737A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于多人说话的声纹识别方法
CN106971729A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于声音特征范围提高声纹识别速度的方法及系统
CN107464563A (zh) * 2017-08-11 2017-12-12 潘金文 一种语音交互玩具
CN107644643A (zh) * 2017-09-27 2018-01-30 安徽硕威智能科技有限公司 一种语音交互系统及方法
CN107680583A (zh) * 2017-09-27 2018-02-09 安徽硕威智能科技有限公司 一种语音识别系统及方法
CN107919137A (zh) * 2017-10-25 2018-04-17 平安普惠企业管理有限公司 远程审批方法、装置、设备及可读存储介质
CN108172214A (zh) * 2017-12-27 2018-06-15 安徽建筑大学 一种基于Mel域的小波语音识别特征参数提取方法
CN108831456A (zh) * 2018-05-25 2018-11-16 深圳警翼智能科技股份有限公司 一种通过语音识别对视频标记的方法、装置及系统
CN109063165A (zh) * 2018-08-15 2018-12-21 深圳市诺信连接科技有限责任公司 一种erp文件查询管理系统
CN109187772A (zh) * 2018-10-29 2019-01-11 四川升拓检测技术股份有限公司 基于语音信号特征提取应用于冲击弹性波分析的方法
CN109611703A (zh) * 2018-10-19 2019-04-12 宁波市鄞州利帆灯饰有限公司 一种便于安装的led灯
CN110197666A (zh) * 2019-05-30 2019-09-03 广东工业大学 一种基于神经网络的语音识别方法、装置
CN110808052A (zh) * 2019-11-12 2020-02-18 深圳市瑞讯云技术有限公司 语音识别方法、装置及电子设备
CN111583927A (zh) * 2020-05-08 2020-08-25 安创生态科技(深圳)有限公司 多通道i2s语音唤醒低功耗电路数据处理方法及装置
CN104867495B (zh) * 2013-08-28 2020-10-16 德州仪器公司 声音辨识设备及其操作方法
CN113093749A (zh) * 2021-04-01 2021-07-09 上海应用技术大学 服务机器人的导航系统及方法
CN113194210A (zh) * 2021-04-30 2021-07-30 中国银行股份有限公司 一种语音通话接入方法及装置
CN113257249A (zh) * 2021-04-22 2021-08-13 中国能源建设集团广东省电力设计研究院有限公司 一种基于声纹识别的电力设备故障诊断方法、装置和设备
CN113409825A (zh) * 2021-08-19 2021-09-17 南京裕隆生物医学发展有限公司 健康智能检测方法、装置、电子设备及可读存储介质
US11164341B2 (en) 2019-08-29 2021-11-02 International Business Machines Corporation Identifying objects of interest in augmented reality
CN113593565A (zh) * 2021-09-29 2021-11-02 深圳大生活家科技有限公司 一种智能家庭设备管控方法和系统
CN113611291A (zh) * 2020-08-12 2021-11-05 广东电网有限责任公司 一种电力专业的语音识别算法
CN113627547A (zh) * 2021-08-16 2021-11-09 河北工业大学 训练方法、电弧检测方法、装置、电子设备及存储介质
CN114363466A (zh) * 2022-03-22 2022-04-15 长沙居美网络科技有限公司 基于ai的智呼云系统
CN114464175A (zh) * 2021-09-23 2022-05-10 中国海洋石油集团有限公司 一种无触摸式现场人员钻井工具清单领用系统及其领用方法
CN114499702A (zh) * 2022-03-28 2022-05-13 成都锢德科技有限公司 一种便携式实时信号采集分析识别系统
CN114743557A (zh) * 2022-03-08 2022-07-12 三维通信股份有限公司 一种语音增强方法、系统及智能设备
CN115118823A (zh) * 2022-06-23 2022-09-27 中国银行股份有限公司 一种语音服务处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1041540A1 (en) * 1999-03-12 2000-10-04 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
CN101030369A (zh) * 2007-03-30 2007-09-05 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN101409073A (zh) * 2008-11-17 2009-04-15 浙江大学 一种基于基频包络的汉语普通话孤立词识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1041540A1 (en) * 1999-03-12 2000-10-04 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
US6633842B1 (en) * 1999-10-22 2003-10-14 Texas Instruments Incorporated Speech recognition front-end feature extraction for noisy speech
CN101030369A (zh) * 2007-03-30 2007-09-05 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN101409073A (zh) * 2008-11-17 2009-04-15 浙江大学 一种基于基频包络的汉语普通话孤立词识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《中国电子科学研究院学报》 20080430 张小玫等 基于小波Mel倒谱系数的抗噪语音识别 187-189,198 1-6 第3卷, 第2期 2 *
《现代商贸工业》 20100131 熊伟等 论嵌入式语音识别系统的研究与实现 291-292 1-6 , 第2期 2 *

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938811A (zh) * 2012-10-15 2013-02-20 华南理工大学 一种基于语音识别的家庭手机通话系统
CN103402118A (zh) * 2013-07-05 2013-11-20 Tcl集团股份有限公司 一种媒体节目互动方法及系统
CN103402118B (zh) * 2013-07-05 2017-12-01 Tcl集团股份有限公司 一种媒体节目互动方法及系统
CN104867495B (zh) * 2013-08-28 2020-10-16 德州仪器公司 声音辨识设备及其操作方法
CN103514877A (zh) * 2013-10-12 2014-01-15 新疆美特智能安全工程股份有限公司 振动信号特征参数提取方法
CN104183245A (zh) * 2014-09-04 2014-12-03 福建星网视易信息系统有限公司 一种演唱者音色相似的歌星推荐方法与装置
CN104700018A (zh) * 2015-03-31 2015-06-10 江苏祥和电子科技有限公司 一种用于智能机器人的识别方法
CN104954532A (zh) * 2015-06-19 2015-09-30 深圳天珑无线科技有限公司 语音识别的方法及装置与移动终端
CN105099759A (zh) * 2015-06-23 2015-11-25 上海华为技术有限公司 一种检测方法及装置
CN106887230A (zh) * 2015-12-16 2017-06-23 芋头科技(杭州)有限公司 一种基于特征空间的声纹识别方法
CN106971731B (zh) * 2016-01-14 2020-10-23 芋头科技(杭州)有限公司 一种声纹识别的修正方法
CN106971729A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于声音特征范围提高声纹识别速度的方法及系统
CN106971737A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于多人说话的声纹识别方法
CN106971731A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种声纹识别的修正方法
CN106971727A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种声纹识别的验证方法
CN106971730A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于信道补偿的声纹识别方法
CN105895105A (zh) * 2016-06-06 2016-08-24 北京云知声信息技术有限公司 语音处理方法及装置
CN106356077A (zh) * 2016-08-29 2017-01-25 北京理工大学 一种笑声检测方法及装置
CN106356077B (zh) * 2016-08-29 2019-09-27 北京理工大学 一种笑声检测方法及装置
CN106448655A (zh) * 2016-10-18 2017-02-22 江西博瑞彤芸科技有限公司 语音识别方法
CN106407960A (zh) * 2016-11-09 2017-02-15 浙江师范大学 基于多特征音乐体载的分类方法及系统
CN106875936A (zh) * 2017-04-18 2017-06-20 广州视源电子科技股份有限公司 语音识别方法及装置
CN107464563A (zh) * 2017-08-11 2017-12-12 潘金文 一种语音交互玩具
CN107644643A (zh) * 2017-09-27 2018-01-30 安徽硕威智能科技有限公司 一种语音交互系统及方法
CN107680583A (zh) * 2017-09-27 2018-02-09 安徽硕威智能科技有限公司 一种语音识别系统及方法
CN107919137A (zh) * 2017-10-25 2018-04-17 平安普惠企业管理有限公司 远程审批方法、装置、设备及可读存储介质
CN108172214A (zh) * 2017-12-27 2018-06-15 安徽建筑大学 一种基于Mel域的小波语音识别特征参数提取方法
CN108831456B (zh) * 2018-05-25 2022-04-15 深圳警翼智能科技股份有限公司 一种通过语音识别对视频标记的方法、装置及系统
CN108831456A (zh) * 2018-05-25 2018-11-16 深圳警翼智能科技股份有限公司 一种通过语音识别对视频标记的方法、装置及系统
CN109063165B (zh) * 2018-08-15 2022-04-19 深圳市诺信连接科技有限责任公司 一种erp文件查询管理系统
CN109063165A (zh) * 2018-08-15 2018-12-21 深圳市诺信连接科技有限责任公司 一种erp文件查询管理系统
CN109611703A (zh) * 2018-10-19 2019-04-12 宁波市鄞州利帆灯饰有限公司 一种便于安装的led灯
CN109187772A (zh) * 2018-10-29 2019-01-11 四川升拓检测技术股份有限公司 基于语音信号特征提取应用于冲击弹性波分析的方法
CN110197666A (zh) * 2019-05-30 2019-09-03 广东工业大学 一种基于神经网络的语音识别方法、装置
US11164341B2 (en) 2019-08-29 2021-11-02 International Business Machines Corporation Identifying objects of interest in augmented reality
CN110808052A (zh) * 2019-11-12 2020-02-18 深圳市瑞讯云技术有限公司 语音识别方法、装置及电子设备
CN111583927A (zh) * 2020-05-08 2020-08-25 安创生态科技(深圳)有限公司 多通道i2s语音唤醒低功耗电路数据处理方法及装置
CN113611291A (zh) * 2020-08-12 2021-11-05 广东电网有限责任公司 一种电力专业的语音识别算法
CN113093749A (zh) * 2021-04-01 2021-07-09 上海应用技术大学 服务机器人的导航系统及方法
CN113257249A (zh) * 2021-04-22 2021-08-13 中国能源建设集团广东省电力设计研究院有限公司 一种基于声纹识别的电力设备故障诊断方法、装置和设备
CN113194210A (zh) * 2021-04-30 2021-07-30 中国银行股份有限公司 一种语音通话接入方法及装置
CN113627547A (zh) * 2021-08-16 2021-11-09 河北工业大学 训练方法、电弧检测方法、装置、电子设备及存储介质
CN113627547B (zh) * 2021-08-16 2024-01-26 河北工业大学 训练方法、电弧检测方法、装置、电子设备及存储介质
CN113409825A (zh) * 2021-08-19 2021-09-17 南京裕隆生物医学发展有限公司 健康智能检测方法、装置、电子设备及可读存储介质
CN114464175A (zh) * 2021-09-23 2022-05-10 中国海洋石油集团有限公司 一种无触摸式现场人员钻井工具清单领用系统及其领用方法
CN113593565B (zh) * 2021-09-29 2021-12-17 深圳大生活家科技有限公司 一种智能家庭设备管控方法和系统
CN113593565A (zh) * 2021-09-29 2021-11-02 深圳大生活家科技有限公司 一种智能家庭设备管控方法和系统
CN114743557A (zh) * 2022-03-08 2022-07-12 三维通信股份有限公司 一种语音增强方法、系统及智能设备
CN114363466A (zh) * 2022-03-22 2022-04-15 长沙居美网络科技有限公司 基于ai的智呼云系统
CN114499702A (zh) * 2022-03-28 2022-05-13 成都锢德科技有限公司 一种便携式实时信号采集分析识别系统
CN114499702B (zh) * 2022-03-28 2022-07-12 成都锢德科技有限公司 一种便携式实时信号采集分析识别系统
CN115118823A (zh) * 2022-06-23 2022-09-27 中国银行股份有限公司 一种语音服务处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN101944359B (zh) 2012-04-25

Similar Documents

Publication Publication Date Title
CN101944359B (zh) 一种面向特定人群的语音识别方法
CN101030369B (zh) 基于子词隐含马尔可夫模型的嵌入式语音识别方法
Bhardwaj et al. Effect of pitch enhancement in Punjabi children's speech recognition system under disparate acoustic conditions
JP4274962B2 (ja) 音声認識システム
Dua et al. GFCC based discriminatively trained noise robust continuous ASR system for Hindi language
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
CN103065629A (zh) 一种仿人机器人的语音识别系统
Gaurav et al. Development of application specific continuous speech recognition system in Hindi
Ghai et al. Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Nadungodage et al. Continuous sinhala speech recognizer
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
Matsumoto et al. Evaluation of Mel-LPC cepstrum in a large vocabulary continuous speech recognition
CN114842878A (zh) 一种基于神经网络的语音情感识别方法
Badhon et al. State of art research in bengali speech recognition
Hachkar et al. A comparison of DHMM and DTW for isolated digits recognition system of Arabic language
Syiem et al. Comparison of Khasi speech representations with different spectral features and hidden Markov states
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
Ananthakrishna et al. Kannada word recognition system using HTK
Fu et al. A survey on Chinese speech recognition
Bhardwaj et al. Building an ASR System for Indian (Punjabi) language and its evaluation for Malwa and Majha dialect: Preliminary Results
Rebai et al. Linto platform: A smart open voice assistant for business environments
Radha et al. Continuous speech recognition system for Tamil language using monophone-based hidden markov model
Caranica et al. On the design of an automatic speaker independent digits recognition system for Romanian language
Zealouk et al. Investigation on speech recognition Accuracy via Sphinx toolkits

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170607

Address after: Hangzhou City, Zhejiang province 310000 Binjiang District West Street No. 567 Jiangling Road, building 2, floor 5, FS28

Patentee after: Hangzhou kingly way Holdings Limited

Address before: 310000 No. 555 Xincheng Road, Zhejiang, Hangzhou, 703, Binjiang District

Patentee before: Hangzhou Wangdou Digital Technology Co., Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201010

Address after: Room 301-303, 305-308, building 2, No. 567, Jiangling Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: HANGZHOU PINGPONG INTELLIGENT TECHNICAL Co.,Ltd.

Address before: Hangzhou City, Zhejiang province 310000 Binjiang District West Street No. 567 Jiangling Road, building 2, floor 5, FS28

Patentee before: HANGZHOU WANGDAO HOLDING Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 301-303, 305-308, building 2, No. 567, Jiangling Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou ping pong Intelligent Technology Co., Ltd

Address before: Room 301-303, 305-308, building 2, No. 567, Jiangling Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU PINGPONG INTELLIGENT TECHNICAL Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 310000 rooms 301-303, 305-308, building 2, No.567 Jiangling Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou ping pong Intelligent Technology Co.,Ltd.

Address before: 310000 rooms 301-303, 305-308, building 2, No.567 Jiangling Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou ping pong Intelligent Technology Co., Ltd