CN1198260C

CN1198260C - 识别多种语言的语音识别系统的方法

Info

Publication number: CN1198260C
Application number: CNB011424516A
Authority: CN
Inventors: 张森嘉; 简世杰; 涂家章
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2001-11-28
Filing date: 2001-11-28
Publication date: 2005-04-20
Anticipated expiration: 2021-11-28
Also published as: CN1421846A

Abstract

一种语音识别系统，用以接收一语音信号并输出一与语音信号相对应的输出语词，此系统具有一第一阈值，一第二阈值与一第三阈值。语音识别系统包括：一第一语音识别器，接收语音信号并根据语音信号产生一第一候选词及第一信心值。一第二语音识别器，接收语音信号并根据语音信号产生一第二候选词及一第二信心值。一信心值决策单元，根据第一信心值及第二信心值来决定输出语词。其中，当第一信心值小于第一阈值且第二信心值小于第二阈值时，或是当第一信心值大于第一阈值且第二信心值小于第三阈值时，以第一候选词作为输出语词。当第一信心值小于第一阈值且第二信心值大于第二阈值或是当第二信心值大于第三阈值时，以第二候选词作为输出语词。

Description

识别多种语言的语音识别系统和方法

技术领域

本发明是有关于一种语音识别系统，且特别是有关于一种能识别多种语言的语音识别系统。

背景技术

近年来，语音识别系统由于具有使用方便，提高效率及节省成本的几项优势，因此广泛地被应用在各行各业。例如，客服中心所接到的客户电话中，大部分的电话都是来询问一些经常会被问到的问题，而许多人力资源也因此被浪费在机械性地回答当中。但是，通过语音识别系统，则可套用预先录制的语音，来答复这些标准化的问题，因此也提高了客户服务中心的人力资源利用效率，进而减低企业的人事成本。

由于国际化的趋势以及现在生活上使用的语言日益地多元化，因此，仅能识别单一语言的语音识别系统已无法满足市场的需求，而在另一方面，可识别多种语言的语音识别系统，其商业上的价值则日益增加。目前适用于多语言的语音识别系统，其作法如下：

1.将多个针对单一语言所设计的语音识别器组合起来成为一个多语言的语音识别系统，且每个单一语音识别器都必须是一个完整的语音识别器。这种系统的作法有两种，一种是先针对输入的语音信号作一个语言鉴定(language identification)，再根据鉴定的结果使用相对应的单一语音识别器来进行语音识别。另一种则是将语音信号同时输入多个单一语音识别器，再从各个单一语音识别器所输出的语词中，找出识别分数最高的语词，作为语音识别系统的输出。

而以上的作法缺点为：

a)由于每个单一语音识别器都必须是一个完整的语音识别器，因此要建立这样一个语音识别系统，需要投注庞大的资源和人力。

b)在前级先做语言的鉴定会降低语音识别系统的正确识别率，因为一旦语言鉴定的结果有误，则之后所做的语音识别亦必然有误。但是，若不在前级先做语言的鉴定，则随着语言种类增加与词汇的扩充，会使得整个语音识别系统的运算量变得过于庞大。

2.建立适用于各种语言的非特定语言(language independent)语音模型。利用此种语音模型所构成的语音识别系统，则无须多个语音识别器，亦无须大量收集每一种语言的语音资料，整个语音识别系统只需要一个非特定语言的语音识别器即可。但是，此种方法的实行困难度非常高，因为各种语言都有不同的特性，所以要建立一个能同时适用于多种不同语言的语音模型并不容易。

3.建立一个可让使用者自行建立新词汇的语音识别系统。当使用者使用新的词汇或是其他语言的词汇时，可以自行加入新的词汇语音模型，而这些加入的新词汇会与原有的词汇共同进行语音识别，并由识别分数的高低来决定系统所要输出的语词。此类作法的缺点在于新增词汇的语音模型仅适用于特定语者(speaker dependent)，而每个使用者均需建立自己新增词汇的语音模型，也因此降低了识别系统的便利性。

在一些多语言的语音识别系统的应用中，因为使用者大量的使用主要语言的词汇，而仅在少数的情况下使用其他非主要语言的词汇，例如一种自动电话查询系统，其使用地区中的主要语言为中文，则使用者大部分时间都使用中文的人名，偶尔使用英文及地方语言的人名。因此，对于有主要语言及非主要语言之分的应用而言，若使用上述的三种作法，建立一个不管对任何语言均有相同的语音识别力的一个复杂的多语言的语音识别系统，则不啻为一种资源的浪费，因为这些应用对非主要语言的语音识别的需求远低于对主要语言的语音识别的需求。

发明内容

有鉴于此，本发明的目的就是在提供一种对多种语言的语音识别率高，且无须对所有使用的语言分别建立完整的语音资料库及语音模型，以节省建立语音识别系统的成本的语音识别系统。

根据本发明的目的，提出一种语音识别系统，此语音识别系统用以接收一语音信号并输出一与语音信号相对应的输出语词，语音识别系统有一预设的一第一阈值，一第二阈值与一第三阈值。语音识别系统包括：一第一语音识别器，用以接收语音信号并根据语音信号产生一第一候选词及第一候选词的一第一信心值。一第二语音识别器，用以接收语音信号并根据语音信号产生一第二候选词及第二候选词的一第二信心值。一信心值决策单元，是根据第一信心值及第二信心值来决定输出语词。其中，当第一信心值小于第一阈值且第二信心值小于第二阈值时，以第一候选词作为输出语词。或是当第一信心值大于第一阈值且第二信心值小于第三阈值时，以第一候选词作为输出语词。当第一信心值小于第一阈值且第二信心值大于第二阈值时，以第二候选词作为输出语词。当第二信心值大于第三阈值时，以第二候选词作为输出语词。其中第二阈值小于第三阈值，该第一语音识别器为一连续语音识别器，而且该第二语音识别器为一单词语音识别器，而且该第一语音识别器和该第二识别器识别不同的语言。根据本发明的另一目的，提出一种语音识别系统，此语音识别系统用以接收一语音信号并输出一与语音信号相对应的输出语词，语音识别系统有一预设的一第一阈值与一第二阈值。语音识别系统还具有一储存装置，其中，储存装置用以接收语音信号并输出语音信号，语音识别系统包括：一第一语音识别器，用以接收语音信号并根据语音信号产生一第一候选词及第一候选词的一第一信心值。一信心值决策单元，用以决定输出语词。一第二语音识别器，由信心值决策单元所控制，用以接收自储存装置输出的语音信号并根据语音信号产生一第二候选词及第二候选词的一第二信心值。其中，信心值决策单位先判断第一信心值是否大于第一阈值，若是，则以第一候选词作为输出语词。若否，则信心值决策单位令第二语音识别器产生第二候选词及第二信心值。接着判断第二信心值是否大于第二阈值，若是，则以第二候选词作为输出语词，若否，则以第一候选词作为输出语词。其中该第一语音识别器为一连续语音识别器，该第二语音识别器为一单词语音识别器，而且该第一语音识别器和该第二识别器识别不同的语言。

根据本发明的更一目的，提出一种语音识别方法，此方法包括以下的步骤。首先，将一语音信号馈入一第一语音识别器及一第二语音识别器。接着，令第一语音识别器根据语音信号产生一第一候选词与一第一信心值，并令第二语音识别器根据语音信号产生一第二候选词与一第二信心值。若第一信心值小于第一阈值且第二信心值小于一第二阈值，则以第一候选词作为输出语词，若第一信心值大于一第一阈值且第二信心值小于一第三阈值，则以第一候选词作为输出语词，若第一信心值小于第一阈值且第二信心值大于第二阈值，则以第二候选词作为输出语词，若第二信心值大于第三阈值，则以第二候选词作为输出语词。其中第二阈值小于第三阈值，以该第一语音识别器来识别一连续语音，以该第二语音识别器来识别一单词语音，而且该第一语音识别器和该第二识别器识别不同的语言。

根据本发明的另一目的，提出一种语音识别方法，此方法包括以下的步骤。步骤(a)将一语音信号馈入第一语音识别器。步骤(b)令第一语音识别器根据语音信号产生一第一候选词与一第一信心值。步骤(c)判断第一信心值是否大于第一阈值，若是，则以第一候选词作为一输出语词，并结束方法。步骤(d)将语音信号馈入第二语音识别器并令第二语音识别器根据语音信号产生一第二候选词与一第二信心值。步骤(e)判断第二信心值是否大于第二阈值，若是，则以第二候选词作为输出语词，并结束方法，若否，则以第一候选词作为输出语词。其中以该第一语音识别器来识别连续语音，以该第二语音识别器来识别单词语音，而且该第一语音识别器和该第二识别器识别不同的语言。

为让本发明的上述目的、特征、和优点能更明显易懂，下文特举一较佳实施例，并配合所附图式，作详细说明如下：

附图说明

图1绘示依照本发明的一第一实施例的一语音识别系统的示意图。

图2绘示依照本发明语音识别方法的实施例流程图。

图3绘示依照本发明的一第二实施例的一语音识别系统的示意图。

图4绘示一自动电话查询系统的测试结果。

具体实施方式

第一实施例

请参照图1，其绘示依照本发明的一第一实施例的一语音识别系统的示意图。如图1所示，语音识别系统100包括一第一语音识别器110，一第二语音识别器120以及一信心值决策单元130。语音识别系统100是接收一语音信号S1并对此语音信号S1进行语音识别并输出与语音信号S1相对应的输出语词S2。第一语音识别器110可以是一个连续语音识别器，而在实施时，这个连续语音识别器能被应用于多方面的语音识别，在不同的领域只需更换辞典(lexicon)，而不需重新建立模型。第二语音识别器120可以是一个单词语音识别器，而此单词语音识别器的系统建立与语音识别的过程，均比一连续语音识别器要来得容易。单词语音识别器的系统建立仅需要收集少量的各个单词的语音资料，并且可收集不同语言的单词，再将相同单词的语音资料整合起来以建立一个语音模型。而当一语音信号被馈入单词语音识别器后，单词语音识别器便会将此语音信号与各个单词的语音模型进行比对，而比对分数较高者即可能为此语音信号的候选词。

如图1所示，一语音信号S1被馈入语音识别系统100的第一语音识别器110与一第二语音识别器120，而第一语音识别器110与第二语音识别器120会针对语音信号S1进行识别，并于第一语音识别器110输出一第一候选词，于第二语音识别器120输出一第二候选词。以第一语音识别器110为例，当第一语音识别器110对语音信号S1进行识别后，会产生几个可能的候选词，而这几个候选词会被传送给第一语音识别器110的词语验证模组(未绘示)，而词语验证模组(未绘示)可计算出每个可能的候选词的信心值(Confidence Measure，CM)。信心值最高的候选词即被设定为第一语音识别器110的第一候选词，而第一候选词的信心值即为第一信心值CM1。同理，第二语音识别器120对语音信号S1进行识别后，可产生一第二候选词，而第二候选词的信心值即为第二信心值CM2。

语音识别系统100的信心值决策单元130会接收第一语音识别器110的第一候选词与第一信心值CM1，以及第二语音识别器120的第二候选词与第二信心值CM2。而信心值决策单元130会根据第一信心值CM1及第二信心值CM2的大小来判断到底要选择第一候选词或第二候选词来作为信心值决策单元130的输出语词S2。信心值决策单元130具有预设的阈值，例如是第一阈值TH1，第二阈值TH2以及第三阈值TH3，而TH2＜TH3。阈值与信心值均为词语验证中一熟知技术，因此不在此多作赘述。信心值决策单元130的决策规则如下，顺序则可依实施者而调整：

1.当CM1＜TH1且CM2＜TH2时，即选择第一候选词为输出语词S2。

2.当CM1＞TH1且CM2＜TH3时，即选择第一候选词为输出语词S2。

3.当CM1＜TH1且CM2＞TH2时，即选择第二候选词为输出语词S2。

4.当CM2＞TH3时，即选择第二候选词为输出语词S2。

请参照图2，其绘示本发明的语音识别方法的实施例流程图。如图2所示，在步骤202中，将语音信号S1馈入第一语音识别器110与一第二语音识别器120当中。接着于步骤204中，第一语音识别器110会根据语音信号S1产生一第一候选词以及一第一信心值CM1，而第二语音识别器120也根据语音信号S1产生一第二候选词以及一第二信心值CM2。接着进入步骤206，判断是否第一信心值小于第一阈值且第二信心值小于第二阈值(CM1＜TH1且CM2＜TH2)，若是，则进入步骤208，若否，则进入步骤210。步骤208是将第一候选词设为输出语词S2。而步骤210则是判断是否第一信心值大于第一阈值且第二信心值小于第三阈值(CM1＞TH1且CM2＜TH3)，若是，则进入步骤208，若否，则进入步骤212。而步骤212则是判断是否第一信心值小于第一阈值且第二信心值大于第二阈值(CM1＜TH1且CM2＞TH2)，若是，则进入步骤214，若否，则进入步骤216。步骤214是将第二候选词设为输出语词S2。而步骤216则是判断是否第二信心值大于第三阈值(CM2＞TH3)，若是，则进入步骤214。其中步骤206、210、212与216可依实际实施而调整。

第二实施例

请参照图3，其绘示依照本发明的一第二实施例的一语音识别系统的示意图。如图3所示，语音识别系统300包括一第一语音识别器310，一第二语音识别器320，一信心值决策单元330以及一储存装置340。语音识别系统300是接收一语音信号S1并对此语音信号S1进行语音识别并输出与语音信号S1相对应的输出语词S2。图3的第一语音识别器310与图1的第一语音识别器110相同，为一连续语音识别器。而图3的第二语音识别器320与图1的第二语音识别器120相同，为一单词语音识别器。

如图3所示，语音信号S1被馈入第一语音识别器310及一储存装置340。而第一语音识别器310会根据语音信号S1来产生一第一候选词与第一候选词的第一信心值CM1，并将第一候选词及第一信心值CM1馈入信心值决策单元330。而信心值决策单元330有预设的阈值，例如是第一阈值TH1及第二阈值TH2。信心值决策单元330会判断第一信心值CM1是否大于第一阈值TH1，若是，信心值决策单元330会选择第一候选词为信心值决策单元330的输出语词S2。若否，信心值决策单元330则令第二语音识别器320读取储存装置340中的语音信号S1，而第二语音识别器320则可根据语音信号S1来产生一第二候选词与一第二候选词的第二信心值CM2。而第二语音识别器320会将第二候选词与第二信心值CM2馈入信心值决策单元330。接着，信心值决策单元330会判断第二信心值CM2是否大于第二阈值TH2，若是，信心值决策单元330会选择第二候选词为信心值决策单元330的输出语词S2，若否，选择第一候选词为输出语词S2。

图3的语音识别系统的流程如下所述：首先，将语音信号S1馈入第一语音识别器310当中而第一语音识别器310会根据语音信号S1产生一第一候选词以及一第一信心值CM1。接着信心值决策单元330会判断第一信心值CM1是否大于第一阈值(CM1＞TH1)，若是，则信心值决策单元330会以第一候选词作为输出语词S2并结束本方法，若否，则信心值决策单元330会令第二语音识别器320接收自储存装置340传送来的语音信号S1。接着第二语音识别器320会根据语音信号S1产生一第二候选词与一第二候选词的一第二信心值CM2。而信心值决策单元330则会判断第二信心值CM2是否大于第二阈值(CM2＞TH2)，若是，则信心值决策单元330会以第二候选词作为输出语词S2，并结束本方法。若否，则信心值决策单元330会以第一候选词作为输出语词S2。

以一个自动电话查询系统来对上述的第一实施例与第二实施例进行实验。实验所用的自动电话查询系统为一种可识别中文，英文及台湾方言的人名且在识别人名后替使用者查询电话号码的系统。而自动电话查询系统的第一语音识别器为一中文语音识别器，第二语音识别器为一可识别一种以上的语言的非中文语音识别器。此中文语音识别器是一个可识别大量中文人名，例如6000个中文人名，之关键词语音识别系统，关键词语音识别是从语音信号中撷取关键词的部分，而不考虑非关键词部分的识别结果。例如，当使用者说：“我要找林某某”时，“我要找”三个字即为非关键词的部分，而“林某某”即为关键词的部分。中文语音识别器所使用的语音模型是次音节隐式马尔可夫(Subsyllable Hidden Markov Model)模型，包含100个右相关声母模型(right context dependent initial model)，38个韵母模型(final model)和一个静音模型。声母有三个状态(state)，韵母有五个状态，而静音有一个状态，其中每个状态包含两个状态移转概率(停留在目前或转移出去)及混合高斯概率分布(Gaussian mixture)，最大混合数为10。使用MAT 2000的语音资料库(Database of Mandarin SpeechAcross Taiwan)来训练语音模型。

而自动电话查询系统的非中文语音识别器是一个可识别英文与台湾方言人名的非特定语者单词语音识别器。为了建立及训练这个非中文语音识别器的语音模型，需要收集英文及台湾方言(非中文)人名的语料，例如是40个英文人名与10个台湾方言人名。而每一个非中文人名由10个男生及10个女生各录3次，以收集60个语音档案来建立及训练语音模型。以上的中文语音识别器即为一主要语言的语音识别器，而非中文语音识别器即为一非主要语言的语音识别器。

以1530句中文测试语音及1044句非中文测试语音来对自动电话查询系统进行测试。其中，1530句中文测试语音是自动电话查询系统经由线上收集而来，而1044句非中文测试语音是由5名男性及2名女性针对每个非中文人名各录三次所得到的。请参考图4，其绘示一自动电话查询系统的测试结果。如图4所示，第一实施例的中文语音识别率为91.70％，而非中文语音识别率为92.23％。第二实施例的中文语音识别率为91.93％，而非中文语音识别率为85.54％。而由以上的测试结果可得第一实施例的中文及非中文的正确率较为相近而第二实施例的中文及非中文的正确率相差较大。但是，若大部分的使用者使用中文的比例偏高，则因为第二实施例对中文语音的运算量小于第一实施例对中文语音的运算量，因此第二实施例的识别速率会较第一实施例为高。

本发明上述实施例所揭露的语音识别系统，此种语音识别系统：

1.对多种语言的语音识别率高。

2.无须对所有使用的语言分别建立完整的语音资料库及语音模型，因此可节省建立语音识别系统的成本。

3.为一种非特定语者的语音识别系统，因此，任何使用者均可使用且无须重新建立语音模型。

综上所述，虽然本发明已以一较佳实施例揭露如上，然其并非用以限定本发明，任何熟习此技艺者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰，因此本发明的保护范围当视后附的权利要求所界定者为准。

Claims

1.一种语音识别系统，用以接收一语音信号并输出与该语音信号相对应的一输出语词，该语音识别系统具有预设的一第一阈值，一第二阈值与一第三阈值，该系统包括：

一第一语音识别器，用以接收该语音信号并根据该语音信号产生一第一候选词及一第一信心值；

一第二语音识别器，用以接收该语音信号并根据该语音信号产生一第二候选词及一第二信心值；以及

一信心值决策单元，是根据该第一信心值及该第二信心值来决定该输出语词；

其中，当该第一信心值小于该第一阈值且该第二信心值小于该第二阈值时，以该第一候选词作为该输出语词，当该第一信心值大于该第一阈值且该第二信心值小于该第三阈值时，以该第一候选词作为该输出语词，当该第一信心值小于该第一阈值且该第二信心值大于该第二阈值时，以该第二候选词作为该输出语词，当该第二信心值大于该第三阈值时，以该第二候选词作为该输出语词，其中第二阈值小于第三阈值，并且

其中该第一语音识别器为一连续语音识别器，而该第二语音识别器为一单词语音识别器，而且该第一语音识别器和该第二识别器识别不同的语言。

2.如权利要求1所述的语音识别系统，其中，该第二语音识别器可识别至少一种语言。

3.一种语音识别系统，用以接收一语音信号并输出与该语音信号相对应的一输出语词，该语音识别系统具有预设的一第一阈值与一第二阈值，该语音识别系统具有一储存装置，其中，该储存装置用以接收该语音信号并输出该语音信号，该语音识别系统包括：

一信心值决策单元，用以决定该输出语词；以及

一第二语音识别器，由该信心值决策单元所控制，用以接收自该储存装置输出的该语音信号并根据该语音信号产生一第二候选词及一第二信心值；

其中，该信心值决策单位先判断该第一信心值是否大于该第一阈值，若是，则以该第一候选词作为该输出语词，若否，则该信心值决策单位令该第二语音识别器产生该第二候选词及该第二信心值，并判断该第二信心值是否大于该第二阈值，若是，则以该第二候选词作为该输出语词，若否，则以该第一候选词作为该输出语词，并且

其中该第一语音识别器为一连续语音识别器，该第二语音识别器为一单词语音识别器，而且该第一语音识别器和该第二识别器识别不同的语言。

4.如权利要求3所述的语音识别系统，其中，该第二语音识别器可识别至少一种语言。

5.一种语音识别方法，该方法包括以下的步骤：

将一语音信号馈入一第一语音识别器及一第二语音识别器；

该第一语音识别器根据该语音信号产生一第一候选词与一第一信心值，且该第二语音识别器根据该语音信号产生一第二候选词与一第二信心值；以及

若该第一信心值小于一第一阈值且该第二信心值小于一第二阈值，则以该第一候选词作为该输出语词，若该第一信心值大于该第一阈值且该第二信心值小于一第三阈值，则以该第一候选词作为该输出语词，若该第一信心值小于该第一阈值且该第二信心值大于该第二阈值，则以该第二候选词作为该输出语词，若该第二信心值大于该第三阈值，则以该第二候选词作为该输出语词，其中第二阈值小于第三阈值，

其中以该第一语音识别器来识别一连续语音，以该第二语音识别器来识别一单词语音，而且该第一语音识别器和该第二识别器识别不同的语言。

6.如权利要求5所述的语音识别方法，其中，该第二语音识别器可至少识别一种语言。

7.一种语音识别方法，该方法包括以下步骤：

a.将一语音信号馈入一第一语音识别器；

b.该第一语音识别器根据该语音信号产生一第一候选词与一第一信心值；

c.判断该第一信心值是否大于该第一阈值，若是，则以该第一候选词作为该输出语词，并结束该方法；

d.将该语音信号馈入一第二语音识别器且该第二语音识别器根据该语音信号产生一第二候选词与一第二信心值；以及

e.判断该第二信心值是否大于一第二阈值，若是，则以该第二候选词作为该输出语词，若否，则以该第一候选词作为该输出语词，

其中以该第一语音识别器来识别连续语音，以该第二语音识别器来识别单词语音，而该第一语音识别器和该第二识别器识别不同的语言。

8.如权利要求7所述的语音识别方法，其中，该第二语音识别器可识别至少一种语言。