CN1595497A - 语音模型的噪声适应系统及方法,语音识别的噪声适应程序 - Google Patents
语音模型的噪声适应系统及方法,语音识别的噪声适应程序 Download PDFInfo
- Publication number
- CN1595497A CN1595497A CNA2004100771617A CN200410077161A CN1595497A CN 1595497 A CN1595497 A CN 1595497A CN A2004100771617 A CNA2004100771617 A CN A2004100771617A CN 200410077161 A CN200410077161 A CN 200410077161A CN 1595497 A CN1595497 A CN 1595497A
- Authority
- CN
- China
- Prior art keywords
- noise
- model
- speech
- voice
- speech model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006978 adaptation Effects 0.000 title claims description 47
- 238000000034 method Methods 0.000 title claims description 43
- 230000009466 transformation Effects 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000005457 optimization Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 230000008901 benefit Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 101100366000 Caenorhabditis elegans snr-1 gene Proteins 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明的目的是通过对语音识别产生具有单个树形结构的语音模型并且使用该模型便利对带有变化SNR的有噪声语音的处理和节省计算成本。在每个SNR条件下使用噪声数据库中存储的每段噪声数据计算具有该SNR条件的所有噪声模型之间的距离并且群集添加噪声的语音。根据该群集的结果,产生一个集成噪声和SNR的单个树形结构模型空间(步骤S1至S5)。在噪声提取步骤(步骤S6),分析要识别的输入有噪声语音以提取特征参数串并且彼此比较各HMM的似然性,以从该树形结构有噪声语音模型空间选择一个最优模型(步骤S7)。对该选出的有噪声语音模型空间施加线性变换以使似然性最大化(步骤S8)。
Description
技术领域
本发明涉及语音模型的噪声适应系统、噪声适应方法以及噪声适应程序。本发明尤其涉及一种语音模型的噪声适应系统、一种噪声适应方法以及一种噪声适应程序,它们利用要识别的有噪声语音来适应利用隐式马尔可夫模型(HMM)对语音特征建模所生成的纯语模型,从而改进对噪声环境的识别率。
背景技术
Zhipeng Zhang等在标题为“Effects of tree-structure clustering innoise adaptation using piecewise linear transformation”(Proceedingsof 2002 Autumn Meeting of Acoustical society of Japan,pp.29-30)一文中说明树形结构分段线性变换方法。根据该文中说明的该方法,噪声被群集,根据群集(clustering)的结果生成树形结构有噪声语音模型空间,提取要识别的输入有噪声语音的语音特征参数,从该树形结构有噪声语音模型空间选择一个最优模型,并且对该选定的模型施加线性变换以提高该选定模型的似然性,从而改进输入语音的准确性。
在Zhipeng Zhang等的标题为“Study on tree-structure clusteringin noise adaptation using piecewise linear transformation”(2003Spring Meeting of Acoustical Society of Japan,pp.37-38)的一文中说明另一种方法,其中顺序地并且分层地划分噪声特征以产生添加噪声的语音模型的树形结构。在该方法中,首先通过信器噪比(以下简写为SNR)群集添加噪声的语音并且接着对每个SNR条件提供树形结构模型以产生树形结构有噪声语音模型空间。
图6示出树形结构噪声语音模型的一个例子。在图6中,为三种SNR条件中的每一个提供树形结构有噪声语音模型。在图6中,用K1表示SNR=5分贝的树形结构模型,用K2表示SNR=10分贝的树形结构模型,以及用K3表示SNR=15分贝的树形结构模型。每个树形结构模型K1-K3的顶节点(根)代表干净语音(clean speech)模型。每个树形结构的较高层代表噪声特征的全局特征而较低层代表局部特征。
日本专利公开2002-14692号(尤其图2和3以及摘要)说明一种技术,其中事先群集大量的噪声样本,根据这些样本生成声学模型并且对学习数据添加通过群集选择的噪声,从而能利用少量噪声样本有效学习以达到高识别性能。
日本专利公开2002-91484(尤其摘要)说明一种技术,其中为每个树形结构群集生成一个语言模型,以用于语音识别。
日本专利公开2000-298495(具体地,摘要和权利要求2)说明组合一些树形结构以形成新的树形结构。
在上面提到的“Study on tree-structure clustering in noiseadaptation using piecewise linear transformation”一文的方法中,分析要识别的输入有噪声语音以提取特征参数串,并且从树形结构有噪声语音模型空间选择最优模型。对选定的最优模型施加线性变换以使似然性最大化。因此,该方法存在识别涉及两步搜索的缺点:即首先在每个SNR条件下选择最优模型,接着在所有SNR模型中选择最佳模型。从而问题是处理SNR变化的有噪声语音的困难以及计算这些条件的高成本。
上面提到的这些文献中说明的技术都不能解决这些问题。
本发明的目的是提供一种用于语音识别的噪声适应系统、噪声适应方法和噪声适应程序,其通过利用集成噪声和SNR的单个树形结构生成语音模型可以方便地处理带有变化SNR的有噪声语音并且可使计算成本最小化。
发明内容
依据本发明的第一方面,提供一种语音模型的噪声适应系统,用于在噪声环境下使得用于任何噪声的语音模型适应要识别的语音,该语音模型是通过利用噪声数据库中存储的噪声数据以及干净语音数据学习的,该系统包括:用于群集该噪声数据库中存储的所有噪声数据的群集装置;用于根据该群集装置执行的群集的结果产生单个树形结构有噪声语音模型空间的语音模型空间产生装置;用于提取要识别的输入有噪声语音的语音特征参数的参数提取装置;用于从由该语音模型空间产生装置产生的树形结构有噪声语音模型空间选择一个最优模型的选择装置;以及用于对该选择装置选择的模型施加线性变换以使该模型提供进一步增加的似然性的线性变换装置。如上面说明那样产生的单个树性结构有噪声语音模型空间允许方便地处理SNR变化的有噪声语音并节省计算成本。
依据本发明的第二方面,提供依据该第一方面的语音模型噪声适应系统,其中该群集装置通过根据信噪比条件向语音添加噪声产生添加噪声的语音,减掉所生成的添加噪声语音的语音倒频谱的平均值,产生每段生成的添加噪声的语音的高斯分布模型,以及计算各个添加噪声的语音段之间的似然性以产生似然性矩阵,从而提供群集结果。这使得能群集添加噪声的语音。
依据本发明的第三方面,提供依据第一或第二方面的噪声适应系统,其中该选择装置选择一个对由该参数提取装置提取的语音特征参数提供最高似然性的模型。通过选择提供最高似然性的模型,可以提高语音识别的准确性。
依据本发明的第四方面,提供依据该第三方面的噪声适应系统,其中该选择装置通过从最高层到最低层向下地搜索树形结构有噪声语音模型空间来选择模型。通过从最高层向最低层搜索该树形结构,可以选出最优模型。
依据本发明的第五方面,提供依据第一到第四方面之一的噪声适应系统,其中该线性变换装置根据由该选择装置选择的模型进行线性变换以提高似然性。通过进行线性变换,可使似然性最大化。
依据本发明的第六方面,提供一种噪声适应方法,用于在噪声环境下使得用于任何噪声的语音模型适应要识别的语音,该语音模型是通过利用噪声数据库存中存储的噪声数据以及干净语音数据学习的,该方法包括:群集该噪声数据库中存储的所有添加噪声的语音数据的群集步骤;根据该群集步骤执行的群集的结果产生单个树形结构有噪声语音模型空间的语音模型空间产生步骤;提取要识别的输入有噪声语音的语音特征参数的参数提取步骤;从该语音模型空间产生步骤中产生的树形结构有噪声语音模型空间选择一个最优模型的选择步骤;以及对由该选择步骤中选择的模型施加线性变换以使该模型提供进一步增加的似然性的线性变换步骤。该单个树形结构有噪声语音模型空间允许方便地处理SNR变化的有噪声语音和节省计算成本。
依据本发明的第七方面,提供一种噪声适应程序,用于在噪声环境下使得用于任何噪声的语音模型适应要识别的语音,该语音模型是通过利用噪声数据库中存储的噪声数据和干净语音数据学习的,该程序包括:群集该噪声数据库中存储的所有添加噪声的语音数据的群集步骤;根据该群集步骤执行的群集的结果产生单个树形结构有噪声语音模型空间的语音模型空间产生步骤;提取要识别的输入有噪声语音的语音特征参数的参数提取步骤;从该语音模型空间产生步骤中产生的树形结构有噪声语音模型空间选择一个最优模型的选择步骤;以及对该选择步骤中选择的模型施加线性变换以使该模型提供进一步增加的似然性的线性变换步骤。该单个树形结构有噪声语音模型空间允许方便地处理SNR变化的有噪声语音和节省处理成本。
实际上,依据本发明,利用噪声数据库(以下简写成DB)中的所有噪声数据段,根据每个SNR条件把添加噪声的语音群集到单个树形结构中。根据SNR以及噪声特征在树形结构中分割添加噪声的语音空间,并且提取要识别的输入有噪声语音的声音特征参数串。接着,根据特征参数串从该树形结构模型空间选择一个最优模型并对该模型施加线性变换。
生成集成有噪声和SNR的单个树形结构以便学习最有可能的添加噪声的语音模型。这样,可以实现高识别准确性。另外,本发明的方法不需要在每个SNR条件下选择最优模型。替代地,本发明的方法涉及在所有SNR模型中选择最佳模型的仅为单步的搜索。从而,可以方便地处理带有变化的SNR的有噪声语音并且可以节省计算成本。
依据本发明的第一、第六和第七方面,通过使用单个树形结构有噪声语音模型空间,本发明具有容易处理带有变化的SNR的有噪声语音和可以节省计算成本的优点。
依据本发明的第二方面,通过根据信噪比条件向语音添加噪声、减掉每一段所生成的添加噪声的语音的语音倒频谱的平均值、产生每一段添加噪声的语音的高斯分布模型以及计算添加噪声的语音各段之间的似然性来产生似然性矩阵,本发明具有可以群集添加噪声的语音的优点。
依据本发明的第三方面,通过选择对提取的语音特征参数提供最高似然性的模型,本发明具有改进语音识别准确性的优点。
依据本发明的第四方面,本发明具有可以通过从最高层向最低层搜索树形结构有噪声语音模型空间得到最优模型来选择最优模型的优点。
依据本发明的第五方面,本发明具有通过基于选定的模型进行线性变换以提高似然性,从而可使似然性最大化的优点。
附图说明
图1是由依据本发明的语音模型的噪声适应系统执行的处理的流程图;
图2是方块图,示出根据本发明的一实施例的语音模型的噪声适应系统的配置;
图3是功能方块图,其中根据该系统中的操作流重新排列图2中示出的部件;
图4是概念图,示出该系统中选择树形结构有噪声语音模型空间中的最优模型的过程;
图5示出通过采用本系统适应的语音HMM达到的字准确度;以及
图6是概念图,示出常规语音模型的噪声适应系统中采用的选择树形结构有噪声语音模型空间中的最优模型的过程。
具体实施方式
现参照各附图说明本发明的各实施例。下面说明所引用的各图中用相同的参考数字标记相同的部分。
依据本发明,通过利用SNR和音质按树形结构产生有噪声语音模型空间。为了产生有噪声语音模型空间,利用一个噪声数据库根据每个SNR条件向干净语音添加噪声以产生添加噪声的语音。接着,将噪声特征表示为单个树形结构以提供模型,其中该树形结构的较高层代表噪声特征的全局特征而较低层应代表局部特征。通过以自上向下的方式从根向下沿着该树形结构选择最优模型,可以选出噪声的最优分段空间。
由于在群集过程中和模型学习过程中相容地使用添加噪声的语音,所以可以学习提供最高似然性的添加噪声的语音模型并且可以实现识别准确度的改进。
(本系统的配置)
参照图2说明用来实现上述过程的配置,图2是示出依据本发明的噪声适应系统的一实施例的方块图。如图2中所示,依据本发明的噪声适应系统包括树形结构模型存储器1,特征提取单元2,语音识别单元3,模型选择及确定单元4,模型线性变换适应单元5以及识别结果存储器6。本系统是作为终端设备、移动终端、服务器计算机、个人计算机,以及其他包括上述单元和存储器的设备来实现的。
树形结构模型存储器1存储已经根据添加噪声的语音的群集结果按单个树形结构建立的添加噪声的语音HMM。
特征提取单元2分析对它输入的语音数据并且把该数据变换成各特征向量。
语音识别单元3对于从输入语音数据经时间变换得到的时间序列特征向量应用Viterbi算法以得到提供最高似然性函数的模型序列。
模型选择及确定单元4从树形结构模型存储器1中存储的模型中选择一个提供最高似然性的最优模型。
模型线性变换适应单元5对由模型选择及确定单元4选择的模型施加线性变换从而使它的似然性最大化。
识别结果存储器6存储语音识别结果。
(系统的操作)
参照图1和3说明该具有上面说明的结构的系统的操作。图3是一个功能方块图,其中根据该系统中的操作流程重新排列图2中示出的部件1-6。图1是该系统完成的处理的流程图。
该系统中进行语音识别的过程遵循下面说明的步骤S1至S9。
步骤S1(产生添加噪声的语音的步骤):根据每个SNR条件利用噪声数据库中存储的每一段噪声数据对干净语音添加噪声,从而产生添加噪声的语音。
步骤S2(减掉添加噪声的语音的均值的步骤):对步骤S1产生的添加噪声的语音施加CMS(倒频谱均值相减)。CMS是一项减掉语音倒频谱的平均值的技术。即,计算某时段内的所有语音数据帧的值的平均倒频谱,并且从每帧的向量中减掉该平均值。倒频谱是通过傅里叶变换得到的功率谱的对数的傅里叶变换。在标题为“Furui:Cepstral Analysis Technique For Automatic Speaker Verification,IEEE Transaction on Accustical Speech and Signal Processing,Vol.ASSP-29,pp.254-272,1981”的文献中说明了CMS。
步骤S3(产生添加噪声的语音模型的步骤):通过Baum-Welch算法产生每个添加噪声的语音的高斯混合模型(GMM)。Baum-Welch算法是一种从一个适当的初始值开始逐步接近最佳值的重复方法。在Seiichi Nakagawa的题目为“Speech recognition with probabilisticmodel”(Institute of Electronics,Information and CommunicationEngineers,1988)的文献中说明Baum-Welch算法。
步骤S4(群集添加噪声的语音的步骤):利用GMM计算添加噪声的语音段之间的似然性以产生似然性矩阵。使用基于该似然性矩阵的SPLIT法来连续地群集该添加噪声的语音。在SPLIP(分割)法中,顺序地分割提供最大失真的各群集。由此,可以产生任何数量的群集。简单地通过给出群集数量可以全自动得到群集结果。Sugamura等在语音委员会(Speech Committee)文档(S82-64,1982)中说明SPLIT法。
步骤S5(施加分段线性变换适应):通过步骤S4提供添加噪声的语音的树形结构群集结果。在树形结构模型存储器1中存储该群集结果。该群集结果是一个集成噪声和SNR的单个树形结构模型。此外,该群集结果表示树形结构形式下的特征:添加噪声的语音的全局特征在该树形结构的较高层表示,语音的局部特征在较低层表示。
对树形结构模型存储器1中存储的群集结果施加分段线性变换。在上面提到的Zhipeng Zhang等的“Effects of tree-structure clusteringin noise adaptation using piecewise linear transformation”一文中说明了分段线性变换。具体地,进行下面说明的步骤S6至S9。
步骤S6(提取特征量的步骤):特征提取单元2从要识别的添加噪声的语音数据提取特征量。在特征量提取中,对输入的语音数据的每一帧施加LPC(线性预测编码)分析以得到作为特征参数序列的时间序列特征参数向量,例如倒频谱或Δ倒频谱。
步骤S7(选择最优模型):参照图4说明该选择最优模型的步骤。图4的顶节点(根)代表干净语音模型。在根下面,存在N个模型即SNR-1到SNR-N。这N个模型SNR-1到SNR-N代表从在所有SNR条件下通过添加所有类型的噪声产生的语音而学习到的各模型。
它们下面的子节点代表从根据群集结果添加某些选定类型的噪声产生的语音数据而学习到的各模型。位于该树形结构底部是从通过只添加某单种类型的噪声产生的语音而学习到的各模型。从而,全局噪声特征在该树形结构的较高层表示而局部噪声特征在较低层表示。
和上面提到的Zhipeng Zhang等的“Study on tree-structureclustering in noise adapt ation using piecewise linear transformation”一文中的方法不同,本发明的方法不需要在各个SNR条件下选择最优模型。替代地,它只需要在所有的SNR模型中选择了最佳模型的情况下的单步搜索。
回到图1,为了进行识别,首先利用步骤S4得到的特征参数序列计算一个给定干净模型的似然性。这是通过图1中示出的语音识别单元3执行的。
接着,语音识别单元3利用根以下的各模型计算各似然性。模型选择及确定单元4利用这样算出的似然性值来选择一个最优模型。具体地,这是通过遵循以下进程实现的。保留提供比根处的干净模型的似然性更高似然性的各模型。接着利用它们下面的子节点处的各模型计算这些SNR条件下的似然性。二个子节模型的似然性和父节点的似然性比较。如果一个子节点模型提供最高似然性,计算该节点下面的各子节点模型的似然性。另一方面,如果父节点的似然性要比子节点模型的似然性高,则不进行进一步的计算并且把该父节点确定为最优节点。
在图4中,用实线表示搜索路径。可以重复该计算以找到最优空间。此外,不同SNR条件下的最高似然性模型的似然性彼此进行比较以确定它们之中的提供最高似然性的模型被选为整个有噪声空间中的最优模型。在图4中示出的例子里,在条件SNR-1下第四节点提供最高似然性。在图4中的SNR-N条件下,第五节点提供最高似然性。不同SNR条件下的最高似然性模型的似然性彼此进行比较以选择这些最高似然性节点之中提供最高似然性的模型。
步骤S8(线性回归):模型线性变换适应单元5对选出的模型施加最大似然性线性回归(以下缩写为MLLR)以提供进一步改进的似然性。在标题为“Mean and variance adaptation within the MLLR framework”(M.J.F Gales等,Computer Speech and Language,pp.249-264,1996)的文献中说明了MLLR。具体地,根据最大似然性准则,利用识别产生的音素序列估计线性变换矩阵,并且通过线性变换修改HMM高斯分布的均值和方差(线性回归)。
步骤S9(再识别):当输出语音识别的结果时,语音识别单元3利用步骤S8得到的模型进行再识别并在识别结果存储器6中存储该再识别结果。
在本发明的噪声适应系统中,如已说明那样,利用噪声数据库中的所有噪声数据段,在每一种SNR条件下对语音添加噪声并且学习添加噪声的语音模型。计算这些SNR条件下所有噪声模型之间的距离并且群集添加噪声的语音。根据添加噪声的语音群集的结果,产生一个具有树形结构的语音模型。从而,可以提供一个其中集成噪声和SNR的树形结构模型,并且产生一个树形结构有噪声语音模型空间。在特征提取步骤中,分析要识别的输入有噪声语音以提取特征参数序列,并且彼此比较各HMM的似然性以便从该树形结构有噪声语音模型空间中选择一个最优模型。对该从有噪声语音模型空间中选择的模型应用线性变换以便进一步提高似然性。
概括之,依据本发明,在每个SNR条件下利用噪声数据库中存储的每一段添加噪声的语音数据对干净语音添加噪声以产生添加噪声的语音(图1中的步骤S1)。群集添加噪声的语音以形成单个树形结构添加噪声的语音模型空间。在该添加噪声的语音模型空间中,对干净语音添加属于各树形结构节点的每段噪声以产生添加噪声的语音模型(图1中的步骤S3)。计算该添加噪声的语音树形结构模型空间里的各似然性(图1的步骤S4),并且从顶部向下沿着该树形结构选择最优模型(图1中的步骤S7)。基于这样选择的适应语音模型序列的模型参数,进行线性变换以使似然性最大化(图1中的步骤S8)。
事实上,依据本发明,产生一个其中集成噪声和SNR的单个树形结构添加噪声的语音模型空间,以替代用于各个SNR的各树形结构添加噪声的语音模型空间。由此,可以方便地处理带有变化的SNR的有噪声语音并且可以节省计算成本。
不仅在模型学习过程中而且还在群集处理中使用添加噪声的语音。由于在群集和模型学习中相容地使用添加噪声的语音,所以可以学习最可能的添加噪声的语音模型。从而可以达到更高的识别准确度。
(例子)
本发明人检查了本发明执行的有噪声对话语音识别的效果。下面说明一个实验例子。
该实验中使用的语音HMM是一个通过利用基于树的群集产生的共享状态、和发言者无关但和上下文环境有关的音素HMM。共使用25维作为特征量:MFCC(唛耳(Mel)频率倒频谱系数)12和对数功率(logpower)的一阶导数。“唛耳频率”是一个基于人耳的灵敏性的值并且通常用来表示声音的可听程度。按如下产生MFCC:对声波数据施加离散傅里叶变换并且结果值被转换成其对数表达。接着对该对数施加逆离散傅里叶变换以产生按预定间隔采样的波形。该采样值是MFCC。
下面参照图5说明本系统的效果。图5示出通过利用一给定的语音HMM达到的字准确度(基线)以及通过利用本发明系统所采纳的语音HMM达到的(本发明方法的)字准确度。图5中的垂直轴代表字准确度(%)而水平轴代表SNR(分贝)。水平轴上指出为5、10和15分贝的SNR。图5中的浓淡网格点条代表基线准确性而带条代表本发明的系统的准确度。
从图5中示出的结果可以看出,依据本发明的方法要比常规方法更加有效。在该例中,本发明的系统的字出错率要比基线的字出错率低56%,即,本发明可以提供改进的语音识别精度。
(语音模型噪声适应方法)
在上面说明的噪声适应系统中实现下面的噪声适应方法。该方法是一种噪声适应方法,用于在噪声环境下使得通过利用噪声数据库中存储的噪声数据和干净语音数据已经学习到的用于任何噪声的语音模型适应要识别的语音。该方法包括:群集该噪声数据库中存储的所有添加噪声的语音数据段的群集步骤(对应图1中的步骤S1至S4);根据该群集步骤的群集结果产生单个树形结构有噪声语音模型空间的语音模型空间产生步骤(对应图1中的步骤S5);提取要识别的输入有噪声语音的语音特征参数的参数提取步骤(对应图1中的步骤S6);从该语音模型空间产生步骤中产生的树形结构有噪声语音模型空间选择一个最优模型的选择步骤(对应图1中的步骤S7);以及对该选择步骤中选择的模型施加线性变换以提供进一步改进的似然性的线性变换步骤(对应图1中的步骤S8)。
通过对语音识别执行该方法并采用该单个树形结构有噪声语音模型空间,可以方便地处理带有变化的SNR的有噪声语音并且可以节省计算成本。
(语音模型的噪声适应程序)
可以提供一个用来实现图1中示出的过程的程序并且用该程序来控制计算机以提供如上面说明的相同效果。该程序是一个用于语音识别的噪声适应程序,其控制计算机以在噪声环境下使得通过利用噪声数据库中存储的所有噪声数据段和干净语音数据已经学习到的用于任何噪声的语音模型适应要识别的语音。该程序包括:群集该噪声数据库中存储的所有添加噪声的语音数据段的群集步骤(对应图1中的步骤S1至S4);根据该群集步骤的群集结果产生单个树形结构有噪声语音模型空间的语音模型空间产生步骤(对应图1中的步骤S5);提取要识别的输入有噪声语音的语音特征参数的参数提取步骤(对应图1中的步骤S6);从该语音模型空间产生步骤中产生的树形结构有噪声语音模型空间选择一个最优模型的选择步骤(对应图1中的步骤S7);以及对该选择步骤中选择的模型施加线性变换以提供进一步改进的似然性的线性变换步骤(对应图1中的步骤S8)。
通过对语音识别在计算机上执行该程序并采用该单个树形结构有噪声语音模型空间,可以方便地处理带有变化的SNR的有噪声语音并且可以节省计算成本。
用来存储该程序的存储媒体可以是未在图1中示出的半导体存储器、磁盘、光盘或者任何其它存储媒体。
自动语音识别系统通常在实验室条件下工作良好但在实际应用中它们的性能下降。实际应用中的一个问题是对背景中含有噪声或音乐的语音的识别性能的下降。本发明可以解决该噪声问题并且可以改进添加噪声的语音的识别准确性。
Claims (6)
1.一种语音模型的噪声适应系统,用于在噪声环境下使得用于任何噪声的语音模型适应要被识别的语音,所述语音模型是通过利用噪声数据库中存储的噪声数据以及干净语音数据学习的,所述系统包括:
用于群集所述噪声数据库中存储的所有噪声数据的群集装置;
用于根据由所述群集装置执行的群集的结果产生单个树形结构有噪声语音模型空间的语音模型空间产生装置;
用于提取要被识别的输入有噪声语音的语音特征参数的参数提取装置;
用于从由所述语音模型空间产生装置产生的树形结构有噪声语音模型空间选择一个最优模型的选择装置;以及
用于对由所述选择装置选择的模型施加线性变换以使所述模型提供进一步增加的似然性的线性变换装置。
2.依据权利要求1的噪声适应系统,其中所述群集装置通过根据信噪比条件向所述语音添加所述噪声来产生所述添加噪声的语音,减掉所生成的添加噪声的语音的语音倒频谱的均值,产生每一段所生成的添加噪声的语音的高斯分布模型,以及计算各段添加噪声的语音之间的似然性以产生似然性矩阵,从而提供群集结果。
3.依据权利要求1或2的噪声适应系统,其中所述选择装置选择用于对由所述参数提取装置提取的语音特征参数提供最高似然性的模型。
4.依据权利要求3的噪声适应系统,其中所述选择装置通过从最高层到最低层向下地搜索所述树形结构有噪声语音模型空间来选择模型。
5.依据权利要求1-4中之一的噪声适应系统,其中所述线性变换装置根据由所述选择装置选择的模型来进行线性变换以提高似然性。
6.一种语音模型的噪声适应方法,用于在噪声环境下使得用于任何噪声的语音模型适应要被识别的语音,所述语音模型是通过利用噪声数据库中存储的噪声数据和干净语音数据学习的,所述方法包括:
群集所述噪声数据库中存储的所有添加噪声的语音数据的群集步骤;
根据所述群集步骤执行的群集的结果产生单个树形结构有噪声语音模型空间的语音模型空间产生步骤;
提取要被识别的输入有噪声语音的语音特征参数的参数提取步骤;
从在所述语音模型空间产生步骤中产生的树形结构有噪声语音模型空间选择一个最优模型的选择步骤;以及
对在所述选择步骤中选择的模型施加线性变换以使所述模型提供进一步提高的似然性的线性变换步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP321648/2003 | 2003-09-12 | ||
JP2003321648A JP4548646B2 (ja) | 2003-09-12 | 2003-09-12 | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1595497A true CN1595497A (zh) | 2005-03-16 |
CN1329883C CN1329883C (zh) | 2007-08-01 |
Family
ID=34132058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100771617A Expired - Fee Related CN1329883C (zh) | 2003-09-12 | 2004-09-10 | 语音模型的噪声适应系统及方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7424426B2 (zh) |
EP (1) | EP1515305B1 (zh) |
JP (1) | JP4548646B2 (zh) |
CN (1) | CN1329883C (zh) |
DE (1) | DE602004000382T2 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426837A (zh) * | 2011-12-30 | 2012-04-25 | 中国农业科学院农业信息研究所 | 农业现场数据采集的移动设备语音识别的鲁棒性方法 |
CN102945670A (zh) * | 2012-11-26 | 2013-02-27 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
CN103280215A (zh) * | 2013-05-28 | 2013-09-04 | 北京百度网讯科技有限公司 | 一种音频特征库建立方法及装置 |
CN103514878A (zh) * | 2012-06-27 | 2014-01-15 | 北京百度网讯科技有限公司 | 声学建模方法及装置和语音识别方法及装置 |
CN109087659A (zh) * | 2018-08-03 | 2018-12-25 | 三星电子(中国)研发中心 | 音频优化方法及设备 |
CN112652304A (zh) * | 2020-12-02 | 2021-04-13 | 北京百度网讯科技有限公司 | 智能设备的语音交互方法、装置和电子设备 |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4033299B2 (ja) * | 2003-03-12 | 2008-01-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
WO2006089055A1 (en) * | 2005-02-15 | 2006-08-24 | Bbn Technologies Corp. | Speech analyzing system with adaptive noise codebook |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US7729908B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Joint signal and model based noise matching noise robustness method for automatic speech recognition |
JP4763387B2 (ja) * | 2005-09-01 | 2011-08-31 | 旭化成株式会社 | パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置 |
US7872574B2 (en) * | 2006-02-01 | 2011-01-18 | Innovation Specialists, Llc | Sensory enhancement systems and methods in personal electronic devices |
JP2007233308A (ja) * | 2006-03-03 | 2007-09-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP5151102B2 (ja) * | 2006-09-14 | 2013-02-27 | ヤマハ株式会社 | 音声認証装置、音声認証方法およびプログラム |
EP2136358A4 (en) * | 2007-03-16 | 2011-01-19 | Panasonic Corp | LANGUAGE ANALYSIS DEVICE, LANGUAGE ANALYSIS PROCEDURE, LANGUAGE ANALYSIS PROGRAM AND SYSTEM INTEGRATION CIRCUIT |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP3091535B1 (en) | 2009-12-23 | 2023-10-11 | Google LLC | Multi-modal input on an electronic device |
US8145682B2 (en) * | 2010-02-25 | 2012-03-27 | Microsoft Corporation | Differentially private data release |
US8660842B2 (en) * | 2010-03-09 | 2014-02-25 | Honda Motor Co., Ltd. | Enhancing speech recognition using visual information |
US8265928B2 (en) | 2010-04-14 | 2012-09-11 | Google Inc. | Geotagged environmental audio for enhanced speech recognition accuracy |
US8468012B2 (en) | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US20130211832A1 (en) * | 2012-02-09 | 2013-08-15 | General Motors Llc | Speech signal processing responsive to low noise levels |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US9237225B2 (en) | 2013-03-12 | 2016-01-12 | Google Technology Holdings LLC | Apparatus with dynamic audio signal pre-conditioning and methods therefor |
US20140270249A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
CN104143329B (zh) * | 2013-08-19 | 2015-10-21 | 腾讯科技(深圳)有限公司 | 进行语音关键词检索的方法及装置 |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9530407B2 (en) * | 2014-06-11 | 2016-12-27 | Honeywell International Inc. | Spatial audio database based noise discrimination |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9361899B2 (en) * | 2014-07-02 | 2016-06-07 | Nuance Communications, Inc. | System and method for compressed domain estimation of the signal to noise ratio of a coded speech signal |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
EP3574499B1 (en) * | 2017-01-26 | 2022-01-05 | Cerence Operating Company | Methods and apparatus for asr with embedded noise reduction |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
JP2018191234A (ja) * | 2017-05-11 | 2018-11-29 | オリンパス株式会社 | 音声取得機器、音声取得方法、および音声取得用プログラム |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US11170131B1 (en) * | 2019-05-07 | 2021-11-09 | Microsoft Technology Licensing, Llc | Differentially private top-k selection |
CN113593597B (zh) * | 2021-08-27 | 2024-03-19 | 中国电信股份有限公司 | 语音噪声过滤方法、装置、电子设备和介质 |
US11968236B2 (en) | 2022-03-30 | 2024-04-23 | Microsoft Technology Licensing, Llc | Event-level data privacy for streaming post analytics data |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6176529A (ja) * | 1984-09-21 | 1986-04-19 | Toyo Soda Mfg Co Ltd | 粒状化ポリアリレンスルフイド及びその製造方法 |
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
JPH10254486A (ja) * | 1997-03-13 | 1998-09-25 | Canon Inc | 音声認識装置および方法 |
US5983180A (en) * | 1997-10-23 | 1999-11-09 | Softsound Limited | Recognition of sequential data using finite state sequence models organized in a tree structure |
DE69914368T2 (de) * | 1998-11-25 | 2005-03-10 | Microsoft Corp., Redmond | Netzwerk- und sprachmodelle zur verwendung in einem spracherkennungssystem |
US6658385B1 (en) * | 1999-03-12 | 2003-12-02 | Texas Instruments Incorporated | Method for transforming HMMs for speaker-independent recognition in a noisy environment |
DE19912405A1 (de) | 1999-03-19 | 2000-09-21 | Philips Corp Intellectual Pty | Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner |
JP4590692B2 (ja) | 2000-06-28 | 2010-12-01 | パナソニック株式会社 | 音響モデル作成装置及びその方法 |
JP4270732B2 (ja) | 2000-09-14 | 2009-06-03 | 三菱電機株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2002298495A (ja) * | 2001-03-28 | 2002-10-11 | Sanyo Electric Co Ltd | 記録媒体再生装置 |
JP4233831B2 (ja) * | 2002-09-25 | 2009-03-04 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
US7457745B2 (en) * | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
JP4033299B2 (ja) * | 2003-03-12 | 2008-01-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
-
2003
- 2003-09-12 JP JP2003321648A patent/JP4548646B2/ja not_active Expired - Fee Related
-
2004
- 2004-08-13 DE DE602004000382T patent/DE602004000382T2/de not_active Expired - Lifetime
- 2004-08-13 EP EP04019236A patent/EP1515305B1/en not_active Expired - Lifetime
- 2004-08-18 US US10/920,461 patent/US7424426B2/en not_active Expired - Fee Related
- 2004-09-10 CN CNB2004100771617A patent/CN1329883C/zh not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426837A (zh) * | 2011-12-30 | 2012-04-25 | 中国农业科学院农业信息研究所 | 农业现场数据采集的移动设备语音识别的鲁棒性方法 |
CN102426837B (zh) * | 2011-12-30 | 2013-10-16 | 中国农业科学院农业信息研究所 | 农业现场数据采集的移动设备语音识别的鲁棒性方法 |
CN103514878A (zh) * | 2012-06-27 | 2014-01-15 | 北京百度网讯科技有限公司 | 声学建模方法及装置和语音识别方法及装置 |
CN102945670A (zh) * | 2012-11-26 | 2013-02-27 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
CN102945670B (zh) * | 2012-11-26 | 2015-06-03 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
CN103280215A (zh) * | 2013-05-28 | 2013-09-04 | 北京百度网讯科技有限公司 | 一种音频特征库建立方法及装置 |
CN103280215B (zh) * | 2013-05-28 | 2016-03-23 | 北京百度网讯科技有限公司 | 一种音频特征库建立方法及装置 |
CN109087659A (zh) * | 2018-08-03 | 2018-12-25 | 三星电子(中国)研发中心 | 音频优化方法及设备 |
CN112652304A (zh) * | 2020-12-02 | 2021-04-13 | 北京百度网讯科技有限公司 | 智能设备的语音交互方法、装置和电子设备 |
CN112652304B (zh) * | 2020-12-02 | 2022-02-01 | 北京百度网讯科技有限公司 | 智能设备的语音交互方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP4548646B2 (ja) | 2010-09-22 |
EP1515305B1 (en) | 2006-02-08 |
CN1329883C (zh) | 2007-08-01 |
JP2005091476A (ja) | 2005-04-07 |
US7424426B2 (en) | 2008-09-09 |
DE602004000382T2 (de) | 2006-10-19 |
US20050080623A1 (en) | 2005-04-14 |
DE602004000382D1 (de) | 2006-04-20 |
EP1515305A1 (en) | 2005-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1595497A (zh) | 语音模型的噪声适应系统及方法,语音识别的噪声适应程序 | |
CN1234110C (zh) | 语音识别噪声自适应系统及方法 | |
CN1139911C (zh) | 语音识别系统的动态可配置声模型 | |
CN1171592A (zh) | 采用连续密度隐藏式马尔克夫模型的语音识别方法和系统 | |
CN1763843A (zh) | 用于语言学习机的发音质量评价方法 | |
JP2003036093A (ja) | 音声入力検索システム | |
KR20140082157A (ko) | 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법 | |
CN1331467A (zh) | 产生声学模型的方法和装置 | |
CN106548775A (zh) | 一种语音识别方法和系统 | |
JP7191792B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN1514432A (zh) | 语音处理中基于高斯模型的动态时间弯曲系统和方法 | |
CN1601605A (zh) | 声道谐振跟踪方法和装置 | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
US20120330664A1 (en) | Method and apparatus for computing gaussian likelihoods | |
JP4233831B2 (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
KR101727306B1 (ko) | 언어모델 군집화 기반 음성인식 장치 및 방법 | |
CN1741131A (zh) | 一种非特定人孤立词语音识别方法及装置 | |
He et al. | Fast model selection based speaker adaptation for nonnative speech | |
Zhang et al. | Merge-weighted dynamic time warping for speech recognition | |
Ankit et al. | Acoustic speech recognition for Marathi language using sphinx | |
Xiong et al. | Combining selection tree with observation reordering pruning for efficient speaker identification using GMM-UBM | |
Zhang et al. | Tree-structured noise-adapted HMM modeling for piecewise linear-transformation-based adaptation. | |
Hiraki et al. | Initial evaluation of the driver’s Japanese speech corpus in a car environment | |
Veelen | Clustered acoustic modelling in speech recognition | |
Lecouteux et al. | Phone duration models for fast broadcast news transcriptions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070801 Termination date: 20190910 |
|
CF01 | Termination of patent right due to non-payment of annual fee |