CN1365487A

CN1365487A - 语音识别的方法和装置

Info

Publication number: CN1365487A
Application number: CN00809342A
Authority: CN
Inventors: A·基普
Original assignee: Siemens Corp
Current assignee: Siemens Corp
Priority date: 1999-06-24
Filing date: 2000-04-05
Publication date: 2002-08-21
Also published as: HUP0201923A2; EP1190413A2; WO2001001389A2; WO2001001389A3

Abstract

语音识别方法,其中通过与所存储的样品进行比较来检测语音字的连续语音流中的一段,其中,为响应第一关键字的检测而存储该关键字,去活第一语音识别系统并激活一个第二语音识别系统,而且,在第二检测步骤中借助所述的第二语音识别系统来检验所述的语音流中是否出现预定的第二关键字或第二关键字序列。

Description

语音识别的方法和装置

多年以来，日常适用的语音识别和语音控制系统的发展体现了计算机技术的一种发展主线。在该发展过程中已取得重大进步，而且建立了一些在实际应用中被证明是可靠的、且适合市场销售的语音识别系统。这种进步的系统原则上也适合被用来对计算机或所连接的外围设备进行语音控制。只能处理较小词汇表的简单语音识别系统也已经在日用电子设备和KFZ设备的领域以及其它领域中使用，其中，根据有限的词汇表对设备进行声控是可能和有意义的。

在处理速度、也即在跟上快速的语音方面还存在某些问题，对较发达的系统而言，对硬件基础会有较高的要求，而且还有较高的购置成本。

在语音识别系统的进一步发展过程中，尤其需要注意对语音字的连续流中的关键字序列进行识别的问题。这种关键字序列大多具有规定较严格的信息结构，而该信息结构可以在合适的处理中实现非常简单和可靠的识别，而且，所述的关键字序列还经常与语音控制任务联系在一起，譬如输入数字码、电话号码、时钟时间或日期等。按照现有技术(在某种程度上是成功的)，这种序列的处理是在譬如基于已知的隐式-马尔可夫-仿真的常规语音识别系统的范围内实现的，其中，识别结果的实时输出也是可能的-譬如通过部分回溯的方法。

本发明所基于的任务在于提供这种类型的方法和用于执行该方法的装置，它们可以可靠、简单和快速地识别关键字序列。

该任务在方法方面由具有权利要求1的特征部分的方法来解决，而在装置方面由具有权利要求9的特征部分的装置来解决。

本发明包含如下的基本思想，即通过把识别过程划分成两个或多个分步骤来更好或更可靠地解决有关关键字序列的识别问题，其中在所述的分步骤中分别采用了特定的话音识别系统。该思想是以如下知识为出发点，即具有较小词汇表的语音识别系统比具有较大词汇表的语音识别系统能够更快和更可靠地工作。它还基于如下思想，即某些在日常用语中经常出现的重要关键字序列还具有较明确规定的信息结构，因此，可以优选地根据前面的分步骤的检测结果来在接下来的分步骤中有条件地激活分别具有特定词汇表的多个语音识别系统。另外，本发明还基于如下知识，即尤其在不利的声学条件下(在嘈杂的环境噪声或较强的失真情况下)，具有较小词汇表的语音识别系统能比具有较大词汇表的语音识别系统提供更好的精度。因此，有条件地使用多个具有较小词汇表的系统能提高关键字序列的检测速率，另一方面又能降低误检率。

本发明规定，彼此相联系的语音识别系统被连续地激活，并在完成其特定的检测任务和存储所测定的关键字或一部分关键字序列之后被再次去活，然后激活另一系统去完成其所分配的检测任务，存储所测定的另一关键字或另一部分关键字序列，并依此类推。在所述的检测过程结束之后，将每次测定的关键字或一部分关键字序列按规则组合起来，并将其输出，或为实现控制任务而将其传输给相应的控制单元。

在所述方法的一种优选改进方案中，根据所述测定的第一关键字或一部分第一关键字序列的类型来从多个在一定程度上准备就绪的语音识别系统中选出和激活一个按照所述第一检测子结果被认为是合适的语音识别系统。

根据另一优选的改进方案，在检测第一关键字或一部分关键字序列之后，为检测第二关键字或一部分第二关键字序列(且类似地针对序列中的其它部分)而在语音流中预定一个时窗，在该时窗内必须出现第二(或另一)检测结果。根据具体的系统配置，该时窗可以是一个绝对的时间间隔，或是一个参考实际输入的话音信号的时间间隔。若在该时窗过去之后没有出现检测结果，则尤其重新激活所述首先采用的系统。

在另一优选实施方案中，可以在各个采用的语音识别系统之间实现无损耗的切换，该方案设立了语音数据的缓冲。也就是说，在所述的第一检测步骤期间，在一种遵循FIFO(先进先出)原理的过程中以缓冲段的形式、并用预定的长度不断地临时存储所述语音流中的最后一段。所述缓冲段的时间长度取决于所述第一语音识别系统的检测速度，它必须足够长，以致于能缓冲在关键字的说出和其检测之间的时间段(具有附加的安全值)。在第二检测步骤中通过延迟该缓冲段来处理所述的语音流，其中该第二检测步骤通过第一检测步骤的结果的出现来进行触发。

本发明的一种尤其重要的应用体现在一些关键字序列，其中，所述的第一关键字或第一部分关键字序列具有如此的特性，使得其后有规则地跟随有所述语音流的一个数字或一个包含数字的段。在该情形下，采用一种与所述数字或数字组合的识别相匹配的系统来作为第二语音识别系统。作为关键字序列的第一关键字，譬如可能出现概念“号码”、“电话号码”、“日期”或“时钟时间”等，在这些概念之后跟随了一些数字串或某些数字/词组合，针对这些数字串或数字/词组合的识别可以激活具有相应限制的词汇表的系统。

一种对计算机或计算机外围设备的语音控制较为重要的另一应用领域为一些关键字序列，其中所述的第一关键字被称为装置的类(譬如“设备”)，而在该序列的其它部分中指定一些能以任意方式被激活的特定装置或设备。很容易可以理解，此处也可以相互联系地使用一些具有减少的语音词汇表的简单语音识别系统，由此实现很高的识别可靠性。

除了上述计算机或计算机外围设备的语音控制的重要应用之外，所述的语音控制对于职业或私人领域内的其它技术设备也具有很大的经济意义，譬如汽车或家用的电器(例如导航系统、音频或视频系统、家用电器、电信终端、玩具，等等)。

所建议的解决办法的装置方面基本上可以直接从方法方面得出；另外，本发明的优点和实用性可以由从属权利要求和下面借助附图对优选实施例的说明中得出。在这些附图中：

图1用简图示出了本发明的一种功能框图形式的简单实施方案，

图2示出了一种用于阐明本发明优选改进方案的语音流缓冲原理的图形，以及

图3用简图示出了功能框图形式的另一种实施方案。

在图1中简要地绘出了一种用于检测连续语音流S中的关键字序列的语音识别装置100。所述的语音流S在分支点101处被划分成两个(信息相同的)语音流S1和S2。子语音流S1直接到达第一话音识别单元102的输入端，确切地说是到达第一检测级102a的第一输入端，该第一检测级的第二输入端上连接了第一词汇表存储器102b。所述的第一检测级102a具有一个与语音识别过程控制器103相连的控制输出端和一个与第一关键字存储器104相连的数据输出端。

第二子语音流S2到达环形语音缓冲器105的输入端，在该缓冲器内总是临时存储该语音流的最后一段，由此在其输出端上输出一个延迟了该缓冲器的语音流部分的子语音流S2’。所述的语音流S2’到达第二语音识别单元106的输入端，类似于第一语音识别单元102，第二语音识别单元106由第二检测级106a和第二词汇表存储器106b组成。第二检测级106a的数据输出端被连接在第二关键字存储器107上。两个关键字存储器104、107的输出端被接到序列存储器108的输入端上，而序列存储器108的输出端又同时表现为所述装置100的输出端。所述的语音识别过程控制器具有两个控制输出端，它们被连接到第一或第二语音识别单元102或106的控制输入端上。

于是，在所述由语音识别过程控制器103在识别过程开始时进行激活的第一语音识别单元102中检验所述的语音流S(其形式为载有整个信息内容的子语音流S1)是否出现在第一词汇表存储器102b中所存储的字词。如果出现了这种字词，则将其寄存在第一检测单元102a中，并把该相关的字词接收到第一关键字存储器104中，同时向语音识别过程控制器103输出一个控制信号。然后由该语音识别过程控制器去活所述的第一语音识别单元102和激活所述-一直是无效的-的第二语音识别单元106。

在经过环形语音缓冲器105之后，被延迟的子语音流S2’到达语音识别单元106的输入端，并且(如同第一检测单元102中的子语音流S1一样)在该第二检测单元106内对该子语音流S2’进行检验，以检验是否出现所述存储在第二词汇表存储器106b内的字群中的第二关键字。在通过第二检测级106a检测到该第二关键字的情况下，将该关键字输出到第二关键字存储器107中。同时向所述的语音识别过程控制器103输出一个控制信号，由该控制器103随后再次去活第二语音识别单元106，并替而代之再次激活第一语音识别单元102。

然后，由语音识别过程控制器103控制把第一和第二关键字存储器104、107中所存储的字输出到序列存储器106，并在那儿有规则地存放这些字，以准备从该装置100输出。因此在该简单的实施例中，是通过分级地使用两个具有均被减少的不同词汇表的不同语音识别单元来完成关键字序列的检测。

所建议的方法的具体应用和上文所概述的装置譬如也可以用一个实际的重要应用实例来详细讲述：

可以已知下面的字序列，

-输入电话号码<数字串>

-输入日期<日期>

-输入时钟时间<时钟时间>

-询问设备<设备>，

其中，尖括弧内的表达式可以具有如下意义：

<数字串>：连续相继的数字

<日期>：日期表示，譬如“99年11月2日”

<时钟时间>：时钟时间表示，譬如“9点10分”

<设备>：有限的设备群中的元素，譬如“计算机”

制造如下的语音识别系统：

1.系统：检测一些序列：“输入电话号码”，“输入日期”，“输

入时钟时间”，“询问设备”

2.系统：数字串识别器

3.系统：日期识别器

4.系统：时钟时间识别器

5.系统：从预定的库存中检测各个设备名。

根据系统1的结果来激活系统2～5中的一个。系统1另外还必须提供被识别的关键字序列的(时间)结束点的有关信息。于是，当激活系统2～5中的一个时，继续在该点上进行识别，因此缓冲是必要的。另外，所述的识别系统必须至少是实时地工作。

在图2中概要地示出了语音流中的最后一段的缓冲功能，以便由第二语音识别单元(“系统2”)进行严密的处理。用t₀表示第一语音识别单元(“系统1”)检测第一关键字序列“输入电话号码”的时间点，用t_E表示该第一关键字序列的时间结束点，用P_h，l表示在缓冲器系统中由系统1在时间点t₀实际读取语音数据的位置，用P_h2表示在相同时间点t₀时(此时系统2恰好被激活)的系统2的相应采样位置。

于是可以看出，通过所述的缓冲确保了：由系统1的处理时间和检测第一关键字序列所消耗的、且显然与一段语音流相对应的时间不会导致语音流数据的损耗。在此处所示的实施例中，如果没有缓冲，原则上将会给系统2丧失掉前两个数字“4”和“6”，从而总共有一个检测再也不能访问到它们。

在图3中示出了相对于图1的装置进行了改进的语音处理装置200，它的特点是在于双级联的语音识别系统和在第二级中对不同系统的选择可能性。另外，所标示的第一和第二级具有一些基本上与图1的装置相同的部件201～208，且它们是用相应的参考数字来表示的，这些部件在此不再赘述。

在此，序列存储器208-通过用两根垂直划线进行分段来表示-被构造用来接收一个三分的关键字序列。来自(此处为第一)语音缓冲器205的子信号流S2’在分支点209处一方面被分支到第二检测级206a，另一方面被分支到第二语音缓冲器210。在那儿对输出端所提供的(由此被双倍延迟的)子语音流S2.2”进行了进一步的缓冲或延迟。该子语音流S2.2”被输入到第三语音识别单元211的输入端，确切地说是具体输入到第三检测级211a。

如同第一和第二语音识别单元202、206一样，所述的第三语音识别单元211同样也包含一个特定的词汇表存储器211b，它与第三检测级211a的第二输入端相连。同样，类似于第一和第二语音识别单元的实施方案，此处的(第三)检测级也后接了一个(第三)关键字存储器212，该关键字存储器的输出端与序列存储器208相连。可以毫无问题地从上文针对图1的说明中推导出，组件210～212实现了关键字序列的识别的第三步，该第三步也对应于所述方法的第三层级。

还需指出的是，在所述第一检测级(包括第一关键字存储器204)的输出端上连接了一个选择级203S，它被组织为查询表的形式，而且它总是给各个测定的第一关键字分配多个可用的第二语音识别单元中的一个，并把相应的选择信号输出到语音识别过程控制器203。利用从该过程控制器203向上伸出的点划线箭头来表示：除了图中所示的第二语音识别单元206之外，还可以有选择地控制第二级的其它语音识别单元。正如图中所示的第二语音识别单元206被分配了第三语音识别单元211一样，显然又可以给这些其它的语音识别单元分配第三级的语音识别单元。很容易理解，另外还可以在所述的第二和第三级之间设置类似的选择级，以便还可以在这些级上根据所识别的第二关键字或第二关键字序列部分来激活从提供使用的多个第三语音识别单元中所选出的识别单元。最后，也可以利用单个的缓冲器来进行级联，其延迟时间是可变的，且必须易于被缩小以实现实时的处理。

对于其余的细节，本发明的实施方案并不局限于上述的实施例，而还可以有许多由技术人员进行推断的变型。

Claims

1.语音识别方法，其中，通过与所存储的样品进行比较来检测语音字的连续语音流中的一段，其特征在于：

-在第一检测步骤中借助第一语音识别系统来检验所述的语音流中是否出现预定的第一关键字或第一关键字序列，

-为响应第一关键字或第一关键字序列的检测而存储该关键字或该关键字序列，去活所述的第一语音识别系统，并激活一个第二语音识别系统，

-在第二检测步骤中借助所述的第二语音识别系统来检验所述的语音流中是否出现预定的第二关键字或第二关键字序列，

-为响应所述第二关键字或第二关键字序列的检测而存储该关键字或该关键字序列，去活所述的第二语音识别系统，并激活所述第一或另一语音识别系统，以及

-将所存储的第一和第二关键字或关键字序列组合起来，并将其输出或准备输出。

2.如权利要求1所述的方法，其特征在于：

根据所述测定的第一关键字或第一关键字序列的类型来激活从多个可用的第二语音识别系统中选出的一个。

3.如权利要求1或2所述的方法，其特征在于：

为检测所述的第二关键字或第二关键字序列而在语音流中预定一个时窗。

4.如上述权利要求之一所述的方法，其特征在于：

在所述的第一检测步骤期间，在存储过程中以缓冲段的形式不断地临时存储所述语音流中的最后一段，以及

利用延迟了所述缓冲段的语音流来执行所述的第二检测步骤，

其中，根据所述第一语音识别系统的检测时间常数来确定所述缓冲段的时间长度。

5.如上述权利要求之一所述的方法，其特征在于：

预定如下的关键字或关键字序列来作为第一关键字或第一关键字序列，即在它们之后有规律地跟随有作为第二关键字或第二关键字序列的数字或包含数字的段，而且

采用一种与所述的数字识别相匹配的语音识别系统来作为第二语音识别系统。

6.如权利要求5所述的方法，其特征在于：

预定一些字词“号码”、“电话号码”、“日期”或“时钟时间”中的一个来作为第一关键字，且所述的第二关键字序列为一种数字串或日期信息或时钟时间信息。

7.如上述权利要求之一所述的方法，其特征在于：

通过分别采用特定的语音识别系统，所述的方法具有多于两个的检测步骤。

8.如上述权利要求之一所述的方法，其特征在于：

被用来对计算机或经计算机控制的设备、或电信设备或日用电子设备进行语音控制。

9.用于执行如上述权利要求之一所述的方法的装置(100；200)，具有

-第一语音识别系统(102；202)，用于检验在连续的语音流中是否出现预定的第一关键字或第一关键字序列，

-第二语音识别系统(106；206)，用于检验在所述连续的语音流中是否出现预定的、跟随所述第一关键字或第一关键字序列的第二关键字或第二关键字序列，

-语音识别过程控制器(103；203)，用于在开始时激活所述的第一语音识别系统，并有条件地根据所述第一语音识别系统的检测结果来在稍后激活所述的第二语音识别系统，

其中，所述的第一和第二语音识别系统具备带有不同词汇的第一或第二词汇表存储器(102b，106b；202b，206b)。

10.如权利要求9所述的装置，其特征在于：

一种尤其为环形缓冲器的、用于缓冲所述连续语音流的缓冲存储器(105；205，210)，用于缓和所述第一语音识别系统(102；202)检测所述第一关键字或第一关键字序列的处理时间。

11.如权利要求9或10所述的装置，其特征在于：

设置多于两个的语音识别系统(202，206，211)，用于分级和有条件地检测多于两个的、且相互有联系的关键字或关键字序列。

12.如权利要求9～11之一所述的装置，其特征在于：

被分配给每个语音识别系统的各个关键字存储器(104，107；204，207，212)和与所述关键字存储器相连接的序列存储器(108；208)，用于有规则地存放由所述关键字存储器的存储内容组合而成的序列。