CN1317134A

CN1317134A - 话音拨号的方法和系统

Info

Publication number: CN1317134A
Application number: CN99810589A
Authority: CN
Inventors: F·梅库里尔
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1998-09-04
Filing date: 1999-09-02
Publication date: 2001-10-10
Anticipated expiration: 2019-09-02
Also published as: EP1110207A2; KR20010079734A; JP2002524777A; US7110948B1; HK1040808A1; WO2000014729A3; SE9802990D0; CN1165889C; WO2000014729A2; EP1110207B1; BR9913408A; AU5894499A; ATE293827T1; EE200100138A; SE9802990L; AU760377B2; DE69924853D1; HK1040808B

Abstract

在移动电话的语音识别系统中，将词按格子结构组织。因此，每次语音识别系统只需要搜索整个词汇表的有限部分。这样一种方案解决了一次必须搜索许多词，费时又给系统加上很重计算负荷的问题，因而将大大地增加语音识别系统的准确度。

Description

话音拨号的方法和系统

技术领域

本发明涉及一种用于语音识别，具体是当输入命令给移动电话时使用，例如话音拨号的方法和系统。

本发明和现有技术的背景

在语音识别系统中，主要目的是使机器理解谈话人的发言。因此，通过允许从语音直接输入命令，文本和数据到机器，将语音识别用于简化人-机接口(MMI)。

在语音识别中，计算机的任务是将声音输入信号变换成文本，即所谓的转译。对于同一个词，取决于讲话人的性别、年龄、方言等，输入信号的特性在很宽的范围内变化。而且，如果同时几个词进入该系统，例如，如果将一个整句提供给该语音识别系统，取决于在当前词的前和/或后的词，不同词的发音可以是不同的。

并且，噪声和回波效应的存在可以将进入语音识别系统之前的原始信号畸变。

一般，可将语音识别系统划分成两个主要组：

-ⅰ)谈话者独立系统和

-ⅱ)谈话者从属系统

谈话者独立系统，具体是为大词汇量和接收在不同词之间无停顿的语音，也就是句子或其部分而设计的系统，需要使用大的语音数据库并使用语音与词的不同统计性质。也可将文法规则和可能说什么的预测并入这样的系统。

另一方面，谈话者从属系统，具体是使用有限的词汇(典型情况下是几百个词)和一次只说一个词的系统，并不需要任何大的数据库。不同的是，这样的系统需要利用该系统训练特定的谈话者，或者，在某些情况下若干个谈话者。

谈话者从属语音识别系统当然由于若干理由与谈话者独立系统相比将提供更好的性能。例如，词的数量是有限的，系统还具有一个特定的词应该如何发声的精确知识，因为该系统已被使用此系统的特定的人训练过。

然而，谈话者从属系统只可能用于有限的应用范围。谈话者从属系统优于谈话者独立系统的一种应用，例如，是输入命令给机器。

在这样一种情况下，语音识别系统的任务是将口头给出的命令转译为可被机器理解的形式，通常也就是二进制字，用于控制机器。例如，可将像“进行”，“停止”，“左”，“右”，“是”，“否”等命令用口头方式给机器，然后机器进行相应的动作。

然而，尽管机器必须识别的可能词数是有限的，典型情况下是几百个词，尽管机器的语音识别系统已被使用者的话音训练过，因而它具有当由该特定使用者谈话时，一个特定的词如何发声的精确知识，作出错误判决的许多可能的来源仍然是存在的。

因此，在环境中的噪声和回波效应将使进入语音识别系统的信号畸变，同一个词的频谱也将一次一次地经受小的变化，特别是如果谈话者患感冒等。

另一个问题是词数，尽管典型情况下是限于几百个，仍需要非常大量的处理能力。在一个典型的语音识别系统中，将样率是每秒8000个样本，每个样本由大约13位组成。这导致一个典型的词在典型情况下持续1秒钟，由大约100000位组成。

因此，在一个存在实时约束的系统中，例如，需要响应时间为1秒或更少，语音识别系统必须能够非常快地处理包含在每个词中的大量信息。

而且，当词数增加时，系统上的计算负荷增加得很厉害。这是由于许多不同的原因。这样，当试图确定说的是哪个词或哪个命令时，系统必须搜索更大量的词。当词/命令的数量增加时，给的命令具有与另一个命令相似的特性的风险也增加。为了避免误判决，系统必须从不同的词提取更多的特征，以便以所要的概率作出正确的判决，最后，如果词数增加，系统将一个不存在的命令解释为一个命令的概率也增加，也就是，词汇外排斥(OVR)功能的性能下降。

在被设计或在不同条件下运行的系统中，例如包括一个话音控制拨号系统(VCD)(也就是具有用于接收口头命令的装置)的移动电话，可以用在汽车中，在大多数情况下，现有的语音识别系统的准确度太低。

在US 5 386 494中描述了一种利用语音识别输入命令的系统。在US 5 386 494中所描述的系统在屏幕上显示许多不同的图符。通过选择某个图符，用户可以将该可能的命令限制为与屏幕上所示的被选的图标相关的命令。然而，在移动电话中很难使用这样的一种系统，通常缺少适合的图形显示。

US 5515475也描述了一种语音识别系统，设计为从音素或同位异音开始来建立字模型。

概述

本发明的一个目的是克服与现有技术相关的某些问题，并提供一种移动电话中的方法和系统，具有被改进的准确度，可用于具有回波效应和有噪声的环境中。

通过一种在移动电话中具有被安排成格子结构的词汇表的语音识别系统达到了这个目的和其他的要求。每次语音识别系统为匹配只搜索整个词汇表的一部分，这取决于在特定的时间语音识别系统被设置成搜索格子结构中哪一部分。最好以适当的方法通过词汇表的格子结构，使得当某个命令被给于系统时，在此时的系统搜索该词汇表的正确部分。

这样一种方案解决了一次必须搜索许多词的问题，并将大大地增加语音识别系统的准确度，特别是当将语音识别系统用于有噪声的环境中时，错误判决的风险由此得以减少。为了弥补缺少图形接口的移动电话，可对移动电话提供-种话音提示器，引导用户通过词汇表的格子结构。

附图简述

现在将通过非限制性的例子并参考附图，更详细地对本发明进行描述，其中：

-图1是一种语音识别系统的一般性方框图。

-图2是当利用一种语音识别系统时用作说明不同步骤的流程图。

-图3是包括语音识别系统的一种移动电话的方框图。

最佳实施方案描述

在图1中示出一种语音识别系统的一般性方框图，该系统包括一个连到A/D变换器103的输入终端101,A/D变换器被连到信号分析方框105。信号分析方框105被连到方框107，用于生成格子并连到词识别方框109，方框109被连到方框111，用于作出判决并输出被识别的词，方框109也被连到存储在语音识别系统中的词汇表113，这将在以下作较详细的描述。词汇表113也被连到方框107。

这样，声音信号在输入终端101上进入系统。在方框103中模拟的声音信号被变换成相应的数字信号，例如，以8 KHz的采样频率变换成具有，例如，13位/样本的数字信号。

接着，在方框105中进行对数字化信号的通常的信号分析。信号分析可包含特点提取和其他通常的操作，如滤波。来自方框105的输出信号被送到方框109，在其中信号与存储在词汇表113中的词作比较。进行比较所用的方法可以是任何通常的方法，如模式识别或马尔柯夫模型。

在词汇表中将词安排成格子结构。因此，每次语音识别系统的整个词汇表中只有一部分为匹配进行搜索。可以用任何适当的方法详细研究词汇表的格子结构，例如树状结构，使得当某个命令给于系统时，系统在此时搜索词汇表的正确部分。这将解决一次必须搜索许多词的问题，因而大大增加了语音识别系统的准确度，尤其是当语音识别系统被用于有噪声的环境中时，错误判决的风险由此得以减少。

在一种最佳实施方案中，将词汇表的词分成不同的类，依次可被分成子类，等，如图1中所示。这样，首先，操作该系统的谈话者通过将对应于该类的词输入语音识别系统，选择他想由该系统识别的词的类别。接着，谈话者输入对应于命令的命令字，该命令是谈话者希望给于正从语音识别系统接收命令的计算机系统的。如果谈话者希望输入系统的命令字是位于该类的子类下，当然，他必须首先输入与该特定的子类对应的词。

如果最好由语音识别系统，例如，借助于话音提示器帮助输入命令，将连同图2详细描写于下。

词汇表的格子结构是有利的，因为它大大减少语音识别系统为每个输入的词或发音必须搜索的词数。这样就改进了语音识别系统的准确度，尤其是当语音识别系统被用于有噪声的环境中时，由此减少错误判决的风险。

词汇表中的词必须通过训练输入语音识别系统。因此，当一个新的词要输入词汇表时，系统被切换到训练模式。这是通过操作方框105和107之间的开关S1完成的。

这样，当开关S1闭合时，系统处于训练模式。在训练模式中，可以对系统实施通常的训练。另外，系统的用户可以将系统被训练的每个词放在格子结构中他觉得合适的任何位置上，他也可以添加类和子类，将词从一个位置移到另一个位置或者删除词，子类或类。这些操作最好通过话音提示器的帮助，可以利用一种在系统中被提供的语音编码器，正如以下连同图3要描述的那样。

在另一种最佳实施方案中，当在词汇表中特定位置上的词数高于某个预置的阈值值时，系统可自动地产生新的类或子类。适当的阈值值可在20-50个词的范围内。

当语音识别系统被集成在移动电话中时，在此所描述的语音识别系统可能是有用的一种应用。在这样一种情况下，移动电话的用户可能希望输入某个电话号码或者希望移动电话呼叫被输入移动电话的电话簿的一个人。那末词汇表可能包括在语音识别系统的训练期间产生的许多不同的类别。

图2中示出用作说明当输入一个命令给被并入移动电话的一个语音识别系统时所进行的步骤的流程图。这样，首先在方框201中电话的语音识别系统被接通。于是语音识别系统等待输入与用户希望连接的电话号码对应的词汇表格式结构顶层上的词中的一个。

在一种最佳实施方案中，输入词可通过话音提示器帮助。这样，如果某个词被输入，如“选项”，话音提示器产生在格子的当前位置上可得的所有选项。因此，在本例中，当语音识别系统被并入一个电话中并且该系统是在格子的顶层时，可得到的选项的一个典型集可以是子类，如“朋友”，“办公室”和“家庭”，还有与经常使用的号码有关的词以及在该层上可出现的重要号码，如“SOS”。

如果与子类中的一个对应的词被输入时如方框203中所示，语音识别系统改变在词汇表的格子结构中的位置。这样，将可得到新的选项。如果，例如，词“办公室”被给于语音识别系统，在方框203中第一词，在菜单“办公室”下的子词将由语音识别系统搜索，当一个新词进入语音识别系统时进行。同时，话音提示器最好产生“办公室”作为对用户的确认，即语音识别系统已正确地解释该词。

再有，如果用户想要知道他的选项，他就输入“选项”，语音识别系统重复在词汇的格子结构中在该位置上可得到的选项，例如“老板”，“秘书”，和“向上”，其中“向上”对应于进行到格子结构中上一层。其他可得到的选项是在格子中同一层上的子类，在这种情况下也就是“朋友”和“家庭”。

如果在方框205中用户输入“秘书”作为第二词，该词对应于一个用户想要系统实施的命令，在本例中，是电话的电话簿中的电话号码。在一种优选实施方案中，话音提示器重复“呼叫秘书”，然后如果用户输入“是的”，在方框207中产生一个命令，使得与电话簿中词“秘书”对应的电话号码被该电话连接，如方框209所指明的那样，语音识别系统被断开。

图3中示出一种移动电话301的方框图，包括以上连同图1被描述的语音识别系统。这样，移动电话301具有输入装置303，可以是一种被连到A/D变换器305的通常类型的话筒。A/D变换器305的输出端被连到数字信号处理(DSP)方框307，包括语音编码器/解码器(SPE/D)309，免提信号处理(HFSP)方框311和自动语音识别(ASR)方框313。

DSP方框307也被连到微控制(MC)单元315，无线电发送单元317，包括无线电发射机/接收机方框319和信道编码器/解码器方框321，连到存储器323和D/A变换器325。微控制单元315处理移动电话内部的所有信息流，并被设置成控制DSP 307和无线电发射机/接收机方框319。

这样微控制单元315也被连到无线电发送单元317，依次连到天线327,D/A变换器325的输出端被连到输出装置329，例如通常类型的扬声器。

然后移动电话可按以上连同图2所描述的方式操作。当接通时，MC单元可自动地将移动电话设置成允许口头输入命令的模式。如果需要的话，如以上所描述的那样利用语音编码器309,D/A变换器325和输出端329，通过话音提示器输出指令。

接着，当命令已经给出后，MC单元断开语音识别系统(ASR)，并通过单元317和天线327发送与所给出的命令对应的电话号码。

由此，利用通常的方法建立电话呼叫，DSP 307被设置成执行通常的处理，如声音回波消除，噪声压制，和对语音进行有效的编码。当呼叫被终止时，MC单元315可再次将DSP单元设置成接收口头给出的命令。

在此所描述的用于移动电话的语音识别系统与以前所知的话音拨号系统相比有许多优点。这样，许多词可被存入词汇表，即使在有噪声的环境中，移动电话的话音拨号功能仍然可以正确地进行，这是由于词汇表的格子结构。词汇表的格子结构是独立于所用的语音识别算法。当利用在此所描述的系统时，词汇表外排斥(OVR)功能的性能也将得以增加，因为可能输入的词数保持为最少。

Claims

1．一种移动电话中的语音识别系统包括一个词汇表，其特征在于在词汇表中的词(字)被安排在包括许多词组的格子结构中，使得每次为一个词搜索整个词汇表中有限的组数。

2．依据权利要求1的系统，其特征在于词汇表被安排成树状结构。

3．依据权利要求1或2中任一项的系统，其特征在于：

-用于输出在特定时刻该系统被设置要识别的词的装置。

4．依据权利要求3的系统，其特征在于所述的装置是一种话音提示器。

5．依据权利要求1-4中任一项的系统，其特征在于：

-如果在一个组中的词数超过一定的，预先设置的阈值值时，用于自动产生一个新组的装置。

6．一种在移动电话的语音识别系统中的语音识别方法包括一个词汇表，其中在词汇表中的词被安排在包括许多词组的格子结构中，其特征在于每次为一个词只搜索整个词汇表中的一组或有限的组数。

8．依据权利要求7的方法，其特征在于将词汇表安排成树状结构。

9．依据权利要求7或8中任一项的方法，其特征在于将该系统设置到的在特定的时刻识别的可用的词从该系统输出。

10．依据权利要求9的方法，其特征在于该可用的词由话音提示器产生。

11．依据权利要求7-10中任一项的方法，其特征在于如果在一个组中的词数超过一定的，预先设置的阈值值时，自动地产生一个新组。