CN1650349A - 用于抗噪声语音识别的在线参数直方图正态化 - Google Patents
用于抗噪声语音识别的在线参数直方图正态化 Download PDFInfo
- Publication number
- CN1650349A CN1650349A CN03809428.2A CN03809428A CN1650349A CN 1650349 A CN1650349 A CN 1650349A CN 03809428 A CN03809428 A CN 03809428A CN 1650349 A CN1650349 A CN 1650349A
- Authority
- CN
- China
- Prior art keywords
- feature
- spectral coefficient
- value
- parametric representation
- probability distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010606 normalization Methods 0.000 title abstract description 26
- 230000003595 spectral effect Effects 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000001228 spectrum Methods 0.000 claims description 46
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 230000014509 gene expression Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 230000001419 dependent effect Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 230000036039 immunity Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 2
- 239000013598 vector Substances 0.000 abstract description 23
- 238000012360 testing method Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000009792 diffusion process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006378 damage Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Noise Elimination (AREA)
- Complex Calculations (AREA)
- Image Processing (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
一种用于提高语音识别中的抗噪声性的方法,其中,前端用于从输入语音中提取语音特征,以及提供多个换算的谱系数。采用高斯近似法将换算的谱系数的直方图正态化成训练集的直方图。随后通过去相关模块将正态化的谱系数转换成一组倒谱系数,并进一步进行倒谱域的特征向量正态化。
Description
发明领域
本发明大体上涉及语音处理领域,更具体地说,涉及抗噪声语音识别。
发明背景
语音识别技术允许通信网络的用户例如在不需要使用键盘敲入单词的情况下访问计算机或手持电子装置。具体地说,口语系统提供用户-计算机交互,这使人与机器之间能够进行自然的对话。
语音识别系统大致上划分为特征提取器(前端)和识别器(后端)。前端算法将输入语音波形信号转换成特征参数,同时保留了用于语音识别的必要信息,该特征参数提供了输入语音的压缩表示。后端算法执行实际的识别任务,将特征参数作为输入并执行模板匹配操作,将特征与要识别的可能单词或其它语音单位的参考模板相比。
在语音识别系统中,通常前端用于将特征参数而不是将编码的语音波形传送到语音识别后端。具体地说,当在分布式语音识别(DSR)系统中进行语音识别处理时,特征参数需要的用于无线电传输的带宽少于编码的语音波形所需的带宽,因此,可利用数据信道将特征参数发送到自动语音识别(ASR)服务器。这不需要使用高比特率语音信道。在嵌入式系统、如移动终端中,前端将语音特征以比初始采样语音更适合识别的形式提供给后端。
欧洲电信标准协会(ETSI)已经建立了用于DSR信号处理的标准。在ETSI ES 201 108 V1.1.2中,公布了一种用于前端特征提取及其传输的标准算法。该标准算法针对每个10ms语音帧计算具有十四个分量的特征向量。尤其是,此ETSI公布涵盖了前端特征提取算法以产生Mel频率倒谱系数(MFCC)。尽管如ETSI公布中所公开的标准算法是为无线传输设计的,但是这种基本方法可应用于例如嵌入手持电子装置中的语音识别系统。倒谱是用于信号的功率谱的对数的离散余弦变换的术语,mel频率卷绕是非线性地修改频谱的傅立叶变换表示的标度的过程。根据对数幅度谱的mel频率卷绕后的傅立叶变换表示,计算一组倒谱系数或参数以表示语音信号。所提取的倒谱系数或参数称为特征向量。将这些特征向量传送到后端识别器以执行实际概率估算和分类,以便识别所讲的字。由于不同的讲话者具有不同的声音、语速、口音及可能影响语音识别系统的其它因素,因此具有优质的特征向量以确保语音识别的良好性能是重要的。此外,环境噪声和失真也可能使特征向量的质量变坏,并影响到语音识别系统的性能。
目前,通过训练声学模型来提高语音识别系统的性能,该模型利用相对无噪声的语音数据使纯净语音条件下的性能最佳。图1显示标准MFCC前端。如图所示,通过频谱转换(FFT)将输入语音变换成一组谱系数。谱系数由Mel换算模型来换算。通常,前端每10ms产生一个特征向量(帧)。在Mel换算后,语音信号表示为N(N=22)维向量,其中各分量对应于该频段的谱能量。在Mel换算之后,对Mel向量分量应用非线性变换(对数)。然后采用离散余弦变换(DCT)对信号去相关。采用微分器通过取向量的一阶和二阶导数来获取连续帧之间的信息。最后,应用倒谱域特征向量正态化以减少训练条件和测试条件之间的失配。
当这类语音识别系统用于高噪声环境、例如汽车中时,背景噪声可能导致声学模型与语音数据之间的失配。现在,利用直方图正态化技术来减少这种失配。在谱系数的直方图中,横坐标对应于谱值,而纵坐标值对应于相应谱值的似然性。在嘈杂的环境中,例如快速行驶的汽车中,特征向量可因噪声而变化,并变得与在安静环境中获取的结果不同。因此,测试频谱信号的直方图的形状和位置明显与训练频谱信号的那些直方图的形状和位置不同。在前端中,如图l所示,在倒谱域中通过特征向量正态化来补偿特征中的这些变化。此方法称为倒谱域特征向量正态化,是一种改善抗噪声性的有效方法。然而,它具有一些缺点。当在失真的(有噪声的)频谱信号上应用DCT时,该失真会扩散到所有倒谱参数。即使环境噪声局限在某个频段,但是噪声在DCT过程之后将会影响所有倒谱系数。因此,即便倒谱域特征向量正态化有效地消除了不同环境之间的失配,但正态化信号将始终具有在所有倒谱系数中的噪声残余。
Mammone等人(美国专利No.6038528)公开了一种语音处理方法,其中,倒谱参数正态化是基于倒谱系数的仿射变换。此方法涉及倒谱变换后的系数,因此也对噪声能量向倒谱分量的扩散敏感。
Molau等人(“Histogram based Normalization in the Acoustic FeatureSpace”,ASRU 2001 Workshop on Automatic Speech Recognition andUnderstanding,2001)以及Hilger等人(“Quantile Based HistogramEqualization for Noise Robust Recognition”,EUROSPEECH 2001,pp.1135-1138)公开了两种脱机直方图正态化技术,其中需要将训练数据的直方图和测试数据的直方图提前发送到后端。这些技术是不切实际的,因为需要更多的关于直方图的分布的数据。此外,根据Hilger等人的方法需要通常持续几秒的一次发言的延迟(语音输入和语音识别之间)。根据Molau等人的方法也是不切实际的,因为它需要所有的数据均来自相同的测试讲话人。
提供一种性能改善的语音识别前端是有利且合乎需要的,在该前端中,与噪声能量的扩散相关的问题可减到最小,而且语音输入和语音识别之间的延迟也适当地缩短。
发明概述
根据本发明的第一方面,提供一种改善语音识别系统中的抗噪声性的方法,该系统包括用于从输入语音提取语音特征的前端和用于根据所提取特征进行语音识别的后端,其中前端包括:
对输入语音作出响应、用以提供表示在多个时刻的输入语音的数据的装置;
对数据作出响应、用以在频谱上将数据转换成具有值的相关概率分布的多个谱系数、以便提供表示谱系数的谱数据的装置;以及
对谱数据作出响应、用于对谱系数执行去相关转换、以便提供所提取的特征的装置。此方法的特征在于
获取在不同时刻的谱系数值的概率分布的参数表示;
根据一个或多个参考值修改参数表示;以及
根据修改后的参数表示来调整至少一个谱系数,以便在去相关转换之前改变谱数据。
根据本发明,将训练语音的多个谱系数用于匹配,并且此方法的特征还在于
一个或多个参考值包括根据高斯近似法得到的训练语音的谱系数的平均值和标准偏差。
根据本发明,参数表示包括谱系数的各种值的平均值和标准偏差。
根据本发明的第二方面,提供一种用于具有后端的语音识别系统中的语音识别前端,该前端从输入语音中提取语音特征,以使后端可以根据所提取的特征来识别输入语音,所述前端包括:
对输入语音作出响应、用以提供表示在多个时刻的输入语音的数据的装置;
用于在频谱上将数据转换成具有值的相关概率分布的多个谱系数、以便提供表示谱系数的谱数据的装置;以及
用于对谱系数执行去相关转换、以便向后端提供所提取的特征的装置。所述前端的特征在于
对谱系数作出响应的装置,用于获取在不同时刻的谱系数值的概率分布的参数表示,用于根据一个或多个参考值修改参数表示,以及用于根据修改后的参数表示调整至少一个谱系数,以便在去相关转换执行之前改变谱数据。
根据本发明的第三方面,提供一种包括用于从网元接收语音数据的后端的通信系统中的网元,该网元包括:
接收输入语音的话音输入装置;以及
对输入语音作出响应的前端,用于从输入语音中提取语音特征,从而提供表示语音特征的语音数据,以使后端可根据该语音特征识别所述输入语音,其中前端包括:
对输入语音作出响应、用以提供表示在多个时刻的输入语音的数据的装置;
用于在频谱上将数据转换成多个谱系数,以便提供表示具有值的相关概率分布的谱系数的谱数据的装置;以及
用于对谱系数执行去相关转换、以便提供所提取的特征的装置。网元的特征在于,
该前端还包括对谱系数作出响应的装置,该装置用于获取在不同时刻的谱系数值的概率分布的参数表示,根据一个或多个参考值修改参数表示,以及根据修改后的参数表示调整至少一个谱系数,以便在去相关转换执行之前改变谱数据。
根据本发明的第四方面,提供一种在语音识别前端中使用的计算机程序,用以从输入语音中提取语音特征,以使语音识别后端可根据所提取的特征来识别输入语音,其中该前端包括:
对输入语音作出响应的装置,用以提供表示在多个时刻的输入语音的数据;
用于在频谱上将数据转换成多个具有值的相关概率分布的谱系数、以便提供表示谱系数的谱数据的装置;以及
用于对谱系数执行去相关转换、以便提供所提取的特征的装置。所述计算机程序的特征在于
一种算法,用于生成在不同时刻的谱系数值的概率分布的参数表示,根据一个或多个参考值修改参数表示,以及根据修改后的参数表示调整至少一个谱系数,以便在去相关转换执行之前改变谱数据。
附图简介
图1是说明现有技术的MFCC前端的框图。
图2是说明根据本发明的MFCC前端的框图。
图3表示一个无噪声话语与有噪声的相同话语的第7个log-Mel带的轨迹。
图4表示图3的轨迹的直方图。
图5表示一个无噪声话语与有噪声的相同话语的第21个log-Mel带的轨迹。
图6表示图5的轨迹的直方图。
图7是说明包括具有根据本发明的语音识别前端的网元以及语音识别后端的通信系统的框图。
本发明的最佳实施方式
如背景部分中所论述的,当在已失真的谱信号上进行DCT时,失真会扩散到所有倒谱参数中。因此,在DCT(在倒谱域中)之后的特征向量正态化并未消除噪声向倒谱系数中的扩散。本发明的主要目的是提供一种将输入语音的特征与训练语音的特征匹配而不受噪声在倒谱系数中扩散的影响的方法。此目的可通过在谱域而非倒谱域中执行直方图正态化步骤来达到。这意味着,在失真(噪声)扩散到所有倒谱系数中之前执行正态化。具体地说,在DCT变换之前以及最好是在对数压缩之后执行直方图正态化(当然也可以在对数压缩之前执行),如图2所示。图2是表示根据本发明的DSR前端10的框图。如图2所示,输入语音100被预处理块20处理成帧形式的语音样本102。对语音样本应用块30中的FFT以计算输入语音信号的幅度谱。FFT块30的输出是多个谱系数104。在Mel换算后,谱系数被转换成N维向量106,该向量的各分量对应于该频段的谱能量。Mel滤波的输出106经过块50中的自然对数函数的运算。块50的输出108称为对数压缩后的Mel滤波器组输出。当对数压缩的Mel滤波器组输出108的值对照各值的似然性绘出曲线时,得到谱信号的直方图。根据本发明,在块60中采用高斯近似法将谱信号的直方图正态化成训练集62的直方图。利用计算机软件程序64根据以下结合等式1-4介绍的正态化算法来执行此正态化过程。接着通过去相关模型70将正态化的谱信号110转换成一组倒谱系数112。块70的输出还受到块80中的倒谱域特征向量正态化。如图2所示的参考标号120表示要传送到后端的所提取的特征(未示出)。应当指出,如块70中进行的这种去相关可被理解为任何减少输入信号样本之间相关性的处理或变换。例如,DCT、FFT、WT(小波变换)都是这种变换。
与将每个倒谱系数正态化成零平均值和一方差的现有技术倒谱域正态化方法相比,本发明重点在于恢复谱域中原始纯净的训练分布。
正态化算法
根据本发明,此算法最好是基于训练和测试直方图的高斯近似法。不过,也可以采用其它近似法,例如χ分布、平均分布以及泊松分布。高斯算法仅需要少量的参数向量用于估算,以便得到平均值(μ)和标准偏差(σ)向量的估算值。如图2所示,由于用于估算的参数数量少,因此可以在线方式执行正态化。本发明是高效的,部分是因为可以在相对较短的时间帧内得到足量的数据,从而可靠地估算正态化参数。
关于训练集,利用对数谱向量分量计算平均值μtrain和标准偏差σtrain。这些值是据以判断识别阶段中的正态化的目标值。对于测试谱信号,平均值μtest和标准偏差σtest被分别初始化为μtrain和σtrain的值。通过利用38帧超前缓冲器估算当前语音数据的参数,正态化中所用的值按照如下等式变化:
μtest=αMean*μtest+(1-αMean)*MEL (1)
(σtest)2=αVar*(σtest)2+(1-αVar*(MEL)2 (2)
其中MEL是原始log-Mel值,αMean和αVar是值在0和1之间的系数。依照如下等式得到log-Mel的正态化值:
MEL′=(σtrai/σtest)*(MEL-μtest)+μtrain (3)等式3表示正态化log-Mel值和原始log-Mel值之间的映射。应当指出,用于获取估算值的帧数可以不同(例如,19、10或者甚至5或更少)。类似地,可以根据需要调整αMean和αVar的值(例如,在0.05和0.20之间)。此外,帧不必是连续的。例如,仅选择每第二或第三帧来进行估算。
为使这种映射较不主动,可以采用加权因子w。当w=1时,不进行映射。当w=0时,将测试分布完全映射到训练分布。实际中,选择0和1之间固定的w值。通过加权因子,按照如下等式计算修改后的log-Mel值:
MEL″=wMEL+(1-w)MEL′ (4)当采用0和1之间的加权值、例如0.7-0.9或0.1-0.3时,正态化处理仅将带噪声特征分布部分地“移向”训练数据分布。
也可以分别映射平均值和标准偏差,即用于调整平均值的量不同于用于调整标准偏差的量。为此,需要定义两个加权因子:一个针对平均值,而另一个针对标准偏差。否则,根据等式3和4进行映射,即,将标准偏差朝向其参考值改变第一相对量,使平均值朝向其参考值改变第二相对量。
为说明正态化的log-Mel值与原始log-Mel值之间的映射,在图3-6中显示了一个话语发音的第7个和第21个log-Mel带的轨迹和直方图。各图中均显示了无噪声和有噪声曲线。这些图说明噪声数据的轨迹和直方图如何不同于相应的无噪声数据。当与图4和6中的直方图相比时,可以发现特定的汽车噪声对第7个log-Mel带的破坏超过对第21个log-Mel带的破坏。这主要是因为第7个log-Mel带的无噪声和有噪声直方图之间的分离比第21个log-Mel带的无噪声和有噪声直方图之间的分离远。通常,应当逐带地进行直方图正态化,因为对特定带的破坏随噪声谱而变。然而,可以仅正态化那些看似更容易受到噪声破坏的带。因此,当特定带的近似直方图与训练集的直方图大不相同时,仅对该带的直方图执行正态化。而不必对其它带进行正态化。
图3显示了一个话语的第7个log-Mel带的轨迹:轨迹1是无噪声话语的轨迹,轨迹2是在加入汽车噪声之后的相同话语的轨迹。在图4中,曲线A和曲线B分别是轨迹1和轨迹2的直方图。图5显示了一个话语的第21个log-Mel带的轨迹:轨迹3是无噪声话语的轨迹,轨迹4是在加入汽车噪声之后的相同话语的轨迹。在图6中,曲线C和曲线D分别是轨迹3和轨迹4的直方图。应当指出,在图4和6中,直方图仅表示值的概率分布或log-Mel值出现的似然性,这是分别根据图3和5的数据得到的估算值。
试验结果
用四种语言在多语言的孤立字识别任务(名称拨号)中进行测试。训练数据集包含来自这些语言的数据,但是没有一个测试话语或讲话者用于训练。表I显示不具有讲话者自适应的速率,表II包括当采用最大值A经验(MAP)讲话者自适应时的速率。注意,仅在测试阶段中使用高斯谱正态化。针对训练的数据用标准MFCC前端加上倒谱正态化来处理。
英国英语 法语
基线 GN RERR 基线 | GN RERR | |
无噪声VOLVOVW | 91.94 92.38 5.5 91.2780.91 84.70 19.9 86.2084.38 86.36 12.7 88.04 | 91.26 -0.188.03 13.388.95 7.6 |
德语 西班牙语
基线 GN RERR 基线 | GN RERR |
无噪声VOLVOVW | 93.12 94.11 14.485.47 87.72 15.588.07 89.46 11.7 | 94.85 94.85 0.088.53 90.08 13.590.97 91.78 9.0 |
表I
英国英语 法语
基线 GN RERR | 基线 GN RERR | |
无噪声VOLVOVW | 95.83 96.11 6.792.24 92.44 2.693.47 93.45 -0.3 | 94.94 95.25 6.192.50 93.17 8.993.28 93.54 3.9 |
德语 西班牙语
基线 GN RERR | 基线 GN RERR | |
无噪声VOLVOVW | 96.2 96.57 9.790.98 91.99 11.292.35 93.50 15.0 | 96.76 97.24 14.892.58 93.64 14.393.55 94.04 7.6 |
表II
如表I和表II所示的实验结果是采用前述正态化算法从多语言的孤立字识别任务中获取的。具体而言,在等式1、2和4中的系数的值是:αMean=αVar=0.985,w=0.8。这些值在整个测试过程中保持不变。已发现,前端系统对αMean和αVar不是非常敏感。还采用受不稳定噪声(例如自助餐厅噪声)污染的语音话语对本发明进行测试,但是识别精度并未提高。因此,得出的结论是,本发明可以改善在安静的环境中以及在准稳定噪声环境(例如汽车噪声)中的识别性能。
本发明胜过现有技术方法的主要优点包括:
1.在嘈杂环境中的识别精度得到明显提高,而没有降低无噪声语音环境中的性能;
2.针对每个话语在线(块60中)估算正态化参数,同时合理地缩短了所引入的算法延迟;
3.对于静态存储器的需要是可以忽略的-只需要存储两个表示无噪声训练统计数据的参数向量(2×22值);
4.运行期存储量的增加小,需要缓存38个谱帧;
5.谱域中的在线直方图正态化与现有倒谱域特征向量正态化(块80)兼容;以及
6.当与MAP讲话者自适应一起使用时,识别速率也得到提高。
可在独个装置的语音识别系统或分布式语音识别系统中实现语音识别特征。在任一情况中,系统包括前端和后端。在分布式系统中后端一般驻留在网络中,而前端驻留在用户装置中。在独个装置的语音识别系统中,前端和后端都嵌入同一装置中。根据本发明改善语音识别中抗噪声性的方法特别适用于嵌入式系统。因此,根据本发明的抗噪声前端可用于台式计算机或文字处理器,这使用户例如可以用口述的方式来撰写文件。前端可用于手持电子装置中,这使用户可以例如利用话音将文本项输入装置中。前端可用于智能家用电器,使之识别来自任何用户的字和短语,以便它可实施例如所请求的功能。前端也可用于智能住宅、智能服装、智能家具等。然而,根据本发明的前端也适用于分布式系统。例如,如图7所示,前端可用于作为网元的移动终端中。
图7是表示通信系统1的框图。系统1具有终端或网元5,用于将表示语音特征120的语音数据130传送到后端装置90中,以便进行语音识别。如图7所示,网元5包括用于接收来自例如用户的输入语音100的话音输入装置80。前端10根据结合图2所介绍的过程从输入语音100中提取语音特征120。如果必要的话,利用比特流格式化模型82将所提取的特征120转换成语音数据130以便传输。在后端90中,语音数据接收器92所收到的语音数据经过后端语音识别器94处理,用以提供表示输入语音的信号。字或文本生成装置96用来提供所识别的输入语音的声音或显示文本。
应当指出,在DCT变换之前,最好是在对数压缩之后,实施根据本发明优选实施例的直方图正态化步骤。然而,也可以在对数压缩之前实施直方图正态化步骤。此外,不是对识别参数进行调整,而是可利用输入语音参数的概率分布对用于识别的模板进行调整,从而获得实质上相同的效果。
尽管已经就本发明的优选实施例描述了本发明,但是本领域的技术人员会理解,在不脱离本发明的范围的前提下,可以在其形式和细节方面作出前述和各种其它的变化、省略以及偏差。
Claims (28)
1.一种改善语音识别系统中的抗噪声性的方法,所述系统包括用于从输入语音提取语音特征的前端和用于根据所述提取的特征进行语音识别的后端,其中所述前端包括:
对所述输入语音作出响应、用以提供表示在多个时刻的所述输入语音的数据的装置;
对所述数据段作出响应、用以在频谱上将所述数据段转换成具有值的相关概率分布的多个谱系数、以便提供表示所述谱系数的谱数据的装置;以及
对所述谱数据作出响应、用以对所述谱系数执行去相关转换、以便提供所述提取的特征的装置,特征在于
获取所述谱系数的值的概率分布的参数表示;
根据一个或多个参考值修改所述参数表示;以及
根据所述修改后的参数表示调整至少一个所述谱系数,以便在所述去相关转换之前改变所述谱数据。
2.如权利要求1所述的方法,其特征在于,把训练语音的多个谱系数用于匹配,所述方法的特征还在于
所述一个或多个参考值包括所述训练语音的谱系数的平均值。
3.如权利要求2所述的方法,其特征在于,所述一个或多个参考值还包括所述训练语音的谱系数的标准偏差。
4.如权利要求1至3中任一项所述的方法,其特征还在于,
所述参数表示包括所述谱系数的值的概率分布的平均值。
5.如权利要求1至3中任一项所述的方法,其特征还在于,
所述参数表示包括所述谱系数的值的概率分布的标准偏差。
6.如权利要求1至3中任一项所述的方法,其特征还在于,
根据高斯近似法来获取所述参数表示。
7.如权利要求3所述的方法,其特征在于,所述训练语音的所述谱系数具有值的另一概率分布,所述方法的特征还在于
根据所述另一个概率分布的高斯近似来获取所述平均值和所述标准偏差。
8.一种用于具有后端的语音识别系统中的语音识别前端,所述前端从输入语音中提取语音特征,以便使所述后端可根据所述提取的特征识别所述输入语音,所述前端包括:
对所述输入语音作出响应、用于提供表示在多个时刻的所述输入语音的数据的装置;
用于在频谱上将所述数据转换成具有值的相关概率分布的多个谱系数、以便提供表示所述谱系数的谱数据的装置;以及
用于对所述谱系数执行去相关转换、以便向所述后端提供所述提取的特征的装置,特征在于
对所述谱系数作出响应的装置,该装置用于获取所述谱的值的概率分布的参数表示,根据一个或多个参考值修改所述参数表示,以及根据所述修改后的参数表示调整至少一个所述谱系数,以便在所述去相关转换执行之前改变所述谱数据。
9.如权利要求8所述的前端,其特征在于,把训练语音的多个谱系数用于匹配,所述系统的特征还在于
所述一个或多个参考值包括所述训练语音的所述谱系数的平均值。
10.如权利要求9所述的前端,其特征在于,
所述一个或多个参考值还包括所述训练语音的所述谱系数的标准偏差。
11.如权利要求8至10中任一项所述的前端,其特征还在于
所述参数表示包括所述谱系数的值的概率分布的平均值。
12.如权利要求8至10中任一项所述的前端,其特征还在于
所述参数表示包括所述谱系数的值的概率分布的标准偏差。
13.如权利要求8至10中任一项所述的前端,其特征还在于,
所述参数表示是根据高斯近似法获得的。
14.如权利要求10所述的前端,其特征在于,所述训练语音的所述谱系数具有值的另一个概率分布,所述前端的特征还在于
根据所述另一个概率分布的高斯近似来获取所述平均值和所述标准偏差。
15.一种通信系统中的网元,所述通信系统包括用于从所述网元接收语音数据的后端,所述网元包括:
用于接收输入语音的话音输入装置;以及
对所述输入语音作出响应的前端,用于从所述输入语音提取语音特征,用以提供表示所述语音特征的语音数据,以便使所述后端可根据所述语音特征来识别所述输入语音,其中所述前端包括:
对所述输入语音作出响应、用以提供表示在多个时刻的所述输入语音的数据的装置;
用于在频谱上将所述数据转换成多个谱系数、以便提供表示具有值的相关概率分布的所述谱系数的谱数据的装置;以及
用于对所述谱系数执行去相关转换、以便提供所述提取的特征的装置,所述网元的特征在于
所述前端还包括对所述谱系数作出响应的装置,用于获取所述谱系数的值的概率分布的参数表示,根据一个或多个参考值修改所述参数表示,以及根据所述修改后的参数表示调整至少一个所述谱系数,以便在所述去相关转换执行之前改变所述谱数据。
16.如权利要求15所述的网元,其特征在于,把训练语音的多个谱系数用于匹配,所述网元的特征还在于
所述一个或多个参考值包括所述训练语音的所述谱系数的平均值。
17.如权利要求16所述的网元,其特征还在于
所述一个或多个参考值还包括所述训练语音的所述谱系数的标准偏差。
18.如权利要求15至17中任一项所述的网元,其特征还在于
所述参数表示包括所述谱系数的值的概率分布的平均值。
19.如权利要求15至17中任一项所述的网元,其特征还在于
所述参数表示包括所述谱系数的值的概率分布的标准偏差。
20.如权利要求15至17中任一项所述的网元,其特征还在于
所述参数表示是根据高斯近似法获得的。
21.如权利要求17所述的网元,其特征在于,所述训练语音的谱系数具有值的另一概率分布,所述方法的特征还在于
根据所述另一个概率分布的高斯近似来获取所述平均值和所述标准偏差。
22.一种在语音识别前端中用于从输入语音中提取语音特征、以便使语音识别后端可根据所提取的特征来识别所述输入语音的计算机程序,其中所述前端包括:
对所述输入语音作出响应、用以提供表示在多个时刻的所述输入语音的数据的装置;
用于在频谱上将所述数据转换成具有值的相关概率分布的多个谱系数、以便提供表示所述谱系数的谱数据的装置;以及
用于对所述谱系数执行去相关转换、以便提供所述提取的特征的装置,所述计算机程序的特征在于
一种算法,用于产生所述谱系数的值的概率分布的参数表示,根据一个或多个参考值修改所述参数表示,以及根据所述修改后的参数表示调整至少一个所述谱系数,以便在去相关转换执行之前改变所述谱数据。
23.如权利要求22所述的计算机程序,其中,把训练语音的多个谱系数用于匹配,所述计算机程序的特征还在于
所述一个或多个参考值包括所述训练语音的所述谱系数的平均值。
24.如权利要求23所述的计算机程序,其特征还在于
所述一个或多个参考值包括所述训练语音的所述谱系数的标准偏差。
25.如权利要求22至24中任一项所述的计算机程序,其特征还在于
所述参数表示包括所述谱系数的值的概率分布的平均值。
26.如权利要求22至24中任一项所述的计算机程序,其特征还在于
所述参数表示包括所述谱系数的值的概率分布的标准偏差。
27.如权利要求22至24中任一项所述的计算机程序,其特征还在于
所述参数表示是根据高斯近似法获得的。
28.如权利要求24所述的计算机程序,其中所述训练语音的系数具有值的另一个概率分布,所述计算机程序的特征还在于
根据所述另一个概率分布的高斯近似来获取所述平均值和所述标准偏差。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/136,039 US7197456B2 (en) | 2002-04-30 | 2002-04-30 | On-line parametric histogram normalization for noise robust speech recognition |
US10/136,039 | 2002-04-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1650349A true CN1650349A (zh) | 2005-08-03 |
Family
ID=29249598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN03809428.2A Pending CN1650349A (zh) | 2002-04-30 | 2003-04-28 | 用于抗噪声语音识别的在线参数直方图正态化 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7197456B2 (zh) |
EP (1) | EP1500087B1 (zh) |
CN (1) | CN1650349A (zh) |
AT (1) | ATE363712T1 (zh) |
AU (1) | AU2003223017A1 (zh) |
DE (1) | DE60314128T2 (zh) |
WO (1) | WO2003094154A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102290047A (zh) * | 2011-09-22 | 2011-12-21 | 哈尔滨工业大学 | 基于稀疏分解与重构的鲁棒语音特征提取方法 |
CN105139855A (zh) * | 2014-05-29 | 2015-12-09 | 哈尔滨理工大学 | 一种两阶段稀疏分解的说话人识别方法与装置 |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6826513B1 (en) * | 2002-11-29 | 2004-11-30 | Council Of Scientific & Industrial Research | Method and apparatus for online identification of safe operation and advance detection of unsafe operation of a system or process |
TWI223791B (en) * | 2003-04-14 | 2004-11-11 | Ind Tech Res Inst | Method and system for utterance verification |
EP1774516B1 (en) * | 2004-01-12 | 2011-03-16 | Voice Signal Technologies Inc. | Normalization of cepstral features for speech recognition |
US7707029B2 (en) * | 2005-02-08 | 2010-04-27 | Microsoft Corporation | Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data for speech recognition |
US7729909B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition |
KR101127184B1 (ko) | 2006-02-06 | 2012-03-21 | 삼성전자주식회사 | 델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법및 그 장치 |
KR100717385B1 (ko) * | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템 |
KR100717401B1 (ko) * | 2006-03-02 | 2007-05-11 | 삼성전자주식회사 | 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치 |
US8355913B2 (en) * | 2006-11-03 | 2013-01-15 | Nokia Corporation | Speech recognition with adjustable timeout period |
KR100919223B1 (ko) * | 2007-09-19 | 2009-09-28 | 한국전자통신연구원 | 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치 |
US8180718B2 (en) * | 2008-01-14 | 2012-05-15 | Hewlett-Packard Development Company, L.P. | Engine for performing root cause and effect analysis |
US8374854B2 (en) * | 2008-03-28 | 2013-02-12 | Southern Methodist University | Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition |
JP5573627B2 (ja) * | 2010-11-22 | 2014-08-20 | 富士通株式会社 | 光デジタルコヒーレント受信器 |
US20130080165A1 (en) * | 2011-09-24 | 2013-03-28 | Microsoft Corporation | Model Based Online Normalization of Feature Distribution for Noise Robust Speech Recognition |
US8768695B2 (en) * | 2012-06-13 | 2014-07-01 | Nuance Communications, Inc. | Channel normalization using recognition feedback |
US9984676B2 (en) * | 2012-07-24 | 2018-05-29 | Nuance Communications, Inc. | Feature normalization inputs to front end processing for automatic speech recognition |
US9886948B1 (en) * | 2015-01-05 | 2018-02-06 | Amazon Technologies, Inc. | Neural network processing of multiple feature streams using max pooling and restricted connectivity |
CN105068515B (zh) * | 2015-07-16 | 2017-08-25 | 华南理工大学 | 一种基于自学习算法的智能家居设备语音控制方法 |
KR102413692B1 (ko) | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
KR102192678B1 (ko) * | 2015-10-16 | 2020-12-17 | 삼성전자주식회사 | 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치 |
WO2017149542A1 (en) * | 2016-03-01 | 2017-09-08 | Sentimetrix, Inc | Neuropsychological evaluation screening system |
US10593349B2 (en) * | 2016-06-16 | 2020-03-17 | The George Washington University | Emotional interaction apparatus |
US10540990B2 (en) * | 2017-11-01 | 2020-01-21 | International Business Machines Corporation | Processing of speech signals |
US11694708B2 (en) * | 2018-09-23 | 2023-07-04 | Plantronics, Inc. | Audio device and method of audio processing with improved talker discrimination |
US11264014B1 (en) * | 2018-09-23 | 2022-03-01 | Plantronics, Inc. | Audio device and method of audio processing with improved talker discrimination |
JP7564117B2 (ja) * | 2019-03-10 | 2024-10-08 | カードーム テクノロジー リミテッド | キューのクラスター化を使用した音声強化 |
US11545172B1 (en) * | 2021-03-09 | 2023-01-03 | Amazon Technologies, Inc. | Sound source localization using reflection classification |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
FR2677828B1 (fr) | 1991-06-14 | 1993-08-20 | Sextant Avionique | Procede de detection d'un signal utile bruite. |
US5323337A (en) | 1992-08-04 | 1994-06-21 | Loral Aerospace Corp. | Signal detector employing mean energy and variance of energy content comparison for noise detection |
GB9419388D0 (en) | 1994-09-26 | 1994-11-09 | Canon Kk | Speech analysis |
US6038528A (en) | 1996-07-17 | 2000-03-14 | T-Netix, Inc. | Robust speech processing with affine transform replicated data |
US6173258B1 (en) | 1998-09-09 | 2001-01-09 | Sony Corporation | Method for reducing noise distortions in a speech recognition system |
US6289309B1 (en) | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
FI19992350A (fi) * | 1999-10-29 | 2001-04-30 | Nokia Mobile Phones Ltd | Parannettu puheentunnistus |
GB2355834A (en) * | 1999-10-29 | 2001-05-02 | Nokia Mobile Phones Ltd | Speech recognition |
GB2364814A (en) | 2000-07-12 | 2002-02-06 | Canon Kk | Speech recognition |
US20030004720A1 (en) | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
US7035797B2 (en) * | 2001-12-14 | 2006-04-25 | Nokia Corporation | Data-driven filtering of cepstral time trajectories for robust speech recognition |
-
2002
- 2002-04-30 US US10/136,039 patent/US7197456B2/en not_active Expired - Fee Related
-
2003
- 2003-04-28 AT AT03718984T patent/ATE363712T1/de not_active IP Right Cessation
- 2003-04-28 DE DE60314128T patent/DE60314128T2/de not_active Expired - Lifetime
- 2003-04-28 AU AU2003223017A patent/AU2003223017A1/en not_active Abandoned
- 2003-04-28 WO PCT/IB2003/001621 patent/WO2003094154A1/en active IP Right Grant
- 2003-04-28 CN CN03809428.2A patent/CN1650349A/zh active Pending
- 2003-04-28 EP EP03718984A patent/EP1500087B1/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102290047A (zh) * | 2011-09-22 | 2011-12-21 | 哈尔滨工业大学 | 基于稀疏分解与重构的鲁棒语音特征提取方法 |
CN102290047B (zh) * | 2011-09-22 | 2012-12-12 | 哈尔滨工业大学 | 基于稀疏分解与重构的鲁棒语音特征提取方法 |
CN105139855A (zh) * | 2014-05-29 | 2015-12-09 | 哈尔滨理工大学 | 一种两阶段稀疏分解的说话人识别方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1500087B1 (en) | 2007-05-30 |
ATE363712T1 (de) | 2007-06-15 |
WO2003094154A1 (en) | 2003-11-13 |
EP1500087A4 (en) | 2005-05-18 |
DE60314128D1 (de) | 2007-07-12 |
US20030204398A1 (en) | 2003-10-30 |
AU2003223017A1 (en) | 2003-11-17 |
EP1500087A1 (en) | 2005-01-26 |
US7197456B2 (en) | 2007-03-27 |
DE60314128T2 (de) | 2008-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1650349A (zh) | 用于抗噪声语音识别的在线参数直方图正态化 | |
US6876966B1 (en) | Pattern recognition training method and apparatus using inserted noise followed by noise reduction | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN111312259B (zh) | 声纹识别方法、系统、移动终端及存储介质 | |
CN115602165B (zh) | 基于金融系统的数字员工智能系统 | |
CN1877697A (zh) | 一种基于分布式结构的说话人确认方法 | |
Chakraborty et al. | Front-End Feature Compensation and Denoising for Noise Robust Speech Emotion Recognition. | |
Pandharipande et al. | Robust front-end processing for emotion recognition in noisy speech | |
CN107103913A (zh) | 一种基于功率谱Gabor特征序列递归模型的语音识别方法 | |
CN118135999A (zh) | 基于边缘设备的离线语音关键词识别方法及装置 | |
CN110544472B (zh) | 提升使用cnn网络结构的语音任务的性能的方法 | |
Ravindran et al. | Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing | |
CN108022588B (zh) | 一种基于双特征模型的鲁棒语音识别方法 | |
CN115641850A (zh) | 话术轮次结束的识别方法、装置、存储介质及计算机设备 | |
Iswarya et al. | Speech query recognition for Tamil language using wavelet and wavelet packets | |
Pandharipande et al. | Front-end feature compensation for noise robust speech emotion recognition | |
CN116631406B (zh) | 基于声学特征生成的身份特征提取方法、设备及存储介质 | |
Wu et al. | Speech endpoint detection in noisy environment using Spectrogram Boundary Factor | |
Marković et al. | Recognition of Whispered Speech Based on PLP Features and DTW Algorithm | |
Fan et al. | Enhancing the sub-band modulation spectra of speech features via nonnegative matrix factorization for robust speech recognition | |
Xie et al. | Improved two-stage Wiener filter for robust speaker identification | |
Ta | Speaker recognition system usi stress Co | |
KR20100107677A (ko) | 최대 우도 선형 스펙트럴 변환을 이용한 음향 모델 적응 방법 및 그 장치, 잡음 음성 모델을 이용한 음성 인식 방법및 그 장치 | |
Pwint et al. | A new speech/non-speech classification method using minimal Walsh basis functions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20050803 |