CN100345185C

CN100345185C - 用于显示语音识别结果的方法和设备

Info

Publication number: CN100345185C
Application number: CNB2003801071061A
Authority: CN
Inventors: 马克·T·阿勒纽斯
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC
Priority date: 2002-12-18
Filing date: 2003-11-18
Publication date: 2007-10-24
Anticipated expiration: 2023-11-18
Also published as: US6993482B2; AU2003298685A1; CN1729511A; WO2004061750A3; AU2003298685A8; EP1573718A2; PL377219A1; US20040122666A1; EP1573718A4; WO2004061750A2

Abstract

用于显示语音识别结果的方法和设备，包括识别过滤器(102)，它接收识别结果列表(106)，包括多个语音识别项(122)，其中每个语音识别项(122)都具有特定项的识别置信度值(124)。识别过滤器(102)会产生修正的识别结果列表(108)，它包括具有特定项的识别置信度值的一个或多个语音识别项。此方法和设备还包括显示发生器(104)，它接收修正的识别结果列表(108)并产生图形化的识别结果列表(110)。图形化的识别结果列表(110)包括语音识别项和非字母数字的符号，它作为特定项的识别置信度值(128)和语音识别项(126)的图形化表示。

Description

用于显示语音识别结果的方法和设备

技术领域

本发明通常涉及语音识别，更具体地说，本发明涉及一种关联语音识别结果的置信度数值的图形化表示。

背景技术

随着语音识别能力的发展，语音识别应用软件和用途的数量也有了相应的增长。根据语音识别的用户位置，不同类型的语音识别应用软件和系统已得到开发。一个这样的示例就是本地或嵌入式的语音识别引擎，例如SpeechToGo语音识别引擎，它是由位于695 AtlanticAvenue，Boston，Massachusetts，02111的Speech Works International，Inc.销售的。另一种类型的语音识别引擎是基于网络的语音识别引擎，例如Speech Works 6，它是由位于695 Atlantic Avenue，Boston，Massachusetts，02111的Speech Works International，Inc.销售的。

嵌入式或本地语音识别引擎为识别此语音输入提供了额外的优势，其中语音输入中包括了任何类型的可听得到或基于音频的输入信号。嵌入式语音或本地语音识别引擎的一个缺点是这些引擎只能包含有限的词汇表。由于存储容量限制和系统处理的要求，再加上能量消耗的限制，嵌入式或本地语音识别引擎仅仅能够识别基于网络的语音识别引擎可以识别的音频输入信号的一小部分。

在减少存储和处理限制条件的基础上，基于网络的语音识别引擎为容量更多的词汇表提供了额外的优势。然而也存在一个不利方面，就是在用户提供语音输入时和对语音输入进行识别并返回给用户确认时之间存在额外的等待时间。在典型的语音识别系统中，用户提供音频输入信号，音频输入信号经由通信路径提供给服务器，然后进行识别。在另一个实施例中，音频输入信号也可以提供给嵌入式语音识别引擎。

当识别结果包括大量的识别项，并且其中每个识别项都具有预设门限范围内的关联置信度值时，问题就出现了。为用户提供落在预设门限范围内的识别项列表是非常重要的，这样用户就可以选择合适的识别项。而且，在只有有限显示数量的设备中，需要一种有效的方法来显示识别结果及其关联的置信度值，从而为用户提供自动和直接的语音识别反馈。尽管存在某些系统为了在有限的显示空间内显示识别置信度值而为终端用户提供产生的N-最优列表(N-best list)，但是没有系统会提供表示关联置信度等级的非字母数字的符号。例如，典型的语音识别结果列表可能包括按数字排序的项列表，但是不会提供不同项置信度等级之间差异的指示。为终端用户提供带有识别结果的关联表示的识别结果列表是有好处的，这样用户就可以更好地理解语音识别引擎的关联性能。此外，在显示空间非常有限的显示区域中，提供语音识别列表和关联置信度值以及关联列表中每个项之间差异的可视指示，这是非常困难的。

附图说明

参考下列附图，本发明将更易于理解：

图1示出了显示语音识别结果的设备的一个示例。

图2示出了语音识别N-最优列表和关联置信度等级的一个示例。

图3示出了带有置信度等级和关联Δ值的N-最优语音识别列表的另一个示例。

图4示出了显示语音识别结果的设备的另一个示例。

图5示出了显示语音识别结果的方法的一个示例。

图6示出了显示语音识别结果的设备的另一个示例。

图7示出了显示语音识别结果的方法的另一个示例。

图8示出了N-最优语音识别结果列表的非字母数字表示的一个示例。

图9示出了N-最优语音识别结果列表的非字母数字表示的另一个示例。

图10示出了N-最优语音识别结果列表的非字母数字表示的另一个示例。

图11示出了N-最优语音识别结果列表的非字母数字表示的另一个示例。

图12示出了带有有限显示屏幕来显示语音识别结果的一种便携式设备。

具体实施方式

简而言之，用于显示语音识别结果的方法和设备包括一个识别过滤器，它能够接收包括大量语音识别项的识别结果列表。每个语音识别项都具有特定的识别置信度值，这样识别过滤器会产生修正的识别结果列表，其中包括具有特定的识别关联置信度值的语音识别项中的至少一个。

用于显示语音识别结果的方法和设备还包括与识别过滤器相关的显示发生器。显示发生器接收修正的识别结果列表，并产生图形化的识别结果列表。图形化的识别结果列表包括语音识别项中的一个或多个，对于每一个语音识别项都有一个特定的识别置信度值的图形化表示。特定项的识别置信度值的图形化表示是一个非字母数字的符号。这种设备和方法还包括显示识别项和特定项置信度值的图形化表示。

图1示出了便携式设备100，它包括识别过滤器102和显示发生器104。识别过滤器102包括在硬件或软件方面易于组合的所有设备，它可以接收识别结果列表106并产生修正的识别结果列表108。显示发生器104接收修正的识别结果列表108并产生图形化的识别结果列表110。便携式设备100包括能够接收音频输入(未示出)并接收识别结果列表106的所有设备，例如能够与服务器或其他通信网络进行通信的无线或有线设备，包括但不仅限于蜂窝式电话、笔记本电脑、台式电脑、寻呼机、智能电话、个人数字助理或其他能够进行或接收语音识别的便携式设备。

识别过滤器102可能包含最小置信度门限值和最大置信度门限值，由此对识别结果列表106进行过滤，从而去除不在置信度门限值内的所有语音识别项。在另一个实施例中，如果存在至少一个或多个识别项的置信度值高于最大置信度门限值，识别过滤器还可能丢弃识别值低于特定置信度值的所有项。而且，在另一个实施例中，如果不存在任何语音识别项的识别置信度等级高于最小门限置信度值，识别过滤器102还可能产生误差消息。应该注意，在一个实施例中，识别置信度门限值可以由终端用户来决定。

显示发生器104在接收到修正的识别结果列表时，会产生非字母数字的符号作为每个特定项识别置信度值的图形化表示。由此，图形化的识别结果列表110包括语音识别项和关联的图形化表示。在一个实施例中，可向包括在便携式设备100内的显示器(未示出)提供图形化识别结果列表110。

为了说明的目的，图2示出了语音识别引擎提供的识别结果列表。识别结果列表120包括项列表122和置信度值列表124。识别结果列表106通常是对提供给语音识别引擎的语音输入的响应。使用示例项122，识别结果列表会包括具有置信度值“68”128的项“New York”126，具有置信度值“64”132的项“Newark”130，具有置信度值“62”136的项“Newtown”134，具有置信度值“52”140的项“New London”138，具有置信度值“44”144的项“New Castle”142，具有置信度值“36”148的项“New Haven”146，具有置信度值“30”152的项“Nevada”150。在一个实施例中，这个识别结果列表106中会被提供给图1中的识别过滤器102。

图3用表格的形式示出了基于识别结果列表106的修正的识别结果列表108。修正的识别结果列表108包括项160、Δ值162和置信度值164。仅为了示例的目的，假定识别过滤器102包括最大置信度门限值70％和最小置信度门限值50％，因此项“New York”126、“Newark”130、“Newtown”134、“New London”138是唯一在修正的识别结果列表108中的项。而且，关联的置信度值128、132、136和144分别也都在修正的识别结果列表108中。此外还包括指示关联项置信度值之间差异的Δ值162，例如Δ值为4表示具有置信度值“64％”132的项“Newark”130与具有置信度值“68％”128的项“NewYork”126之间的置信度值差异为4个百分点。

图4示出了的系统170带有便携式设备100，它带有音频输入设备174，例如麦克风或其他所有能够接收音频输入176的设备。音频输入176通常是由终端用户提供的口头命令，但也可能是由音频输入设备174提供的任何类型的可听得见的输入。便携式设备100还包括嵌入式语音识别引擎178。便携式设备100还包括识别过滤器102和显示发生器104。

识别过滤器102与存储器180和处理器182相连接，显示发生器104与显示设备184相连接。处理器182可能但不仅限于是一个处理器、多个处理器、DSP、微处理器、ASIC、状态机、或是其他所有能够处理并执行软件或离散逻辑的实现方式，或是其他所有硬件、软件和/或固件的适当组合。项处理器不应被解释为专指能够执行软件的硬件，而可能暗中包括DSP硬件、用来存储软件的ROM、RAM和其他所有易失或非易失性的存储媒介。存储器180可能但不仅限于是单独的存储器、多个存储单元、共享的存储器、CD、DVD、ROM、RAM、EEPROM、光学存储器或其他所有能够存储数字数据给处理器182使用的非易失存储器。正如本领域普通技术人员所能认识到的，显示设备184可以是用于音频输出的扬声器、用于视频输出的显示器或监视器、或其他所有提供输出的适当接口。

音频输入设备174可以为嵌入式语音识别引擎178提供编码后的音频输入184A，然后产生识别结果列表106A。在另一个实施例中，如果便携式设备100是能够经由通信网络186进行通信的有线或无线设备，音频输入设备174就可以向通信网络提供编码后的音频输入184B，这样通信网络就可以向外部的语音识别引擎190提供语音输入188。外部语音识别引擎190或基于网络的语音识别引擎可能是SpeechWorks 6，它是由位于695 Atlantic Avenue，Boston，Massachusetts，02111的Speech Works International，Inc.销售的。通信网络186可以是无线区域网络、无线局域网、蜂窝式通信网络、或者其他所有提供便携式设备100和外部语音识别引擎190之间通信的适当网络。因此，通信网络186可以为识别过滤器102提供基于网络的识别结果列表106B。

在前面讨论过的一个实施例中，识别过滤器102会产生修正的识别结果列表108以提供给显示发生器104，这样就可以向显示发生器104提供图形化的识别结果列表110。

识别过滤器102可以从存储器180接收过滤器信息192，或从处理器182接收信息194。在一个实施例中，识别过滤器102可以直接从存储器180中恢复过滤器信息192，在另一个实施例中，处理器182可以执行由存储器180提供的可执行指令196，作为那些可执行指令的响应，它可以向识别过滤器102提供过滤器信息194。在一个实施例中，过滤器信息可能包括最大置信度门限值和最小置信度门限值，这样考虑到这些门限值而产生识别结果列表104。过滤器信息192或194还可能包括能够用于每个语音识别项的加权指示，由此调整特定项的识别置信度值。

显示发生器104还可以从处理器182接收优选信号198，或从存储器180接收优选信号200，这与识别过滤器接收过滤器信息192和194的情形相同。优选信号198或200包括用来指示图形化识别结果列表110的图形化表示的信息。分布在显示发生器104中的图形化表示可以是带有不同颜色的多个线条、具有不同宽度的多个线条、其间具有不同间隔的多个线条、或者其间具有至少一线条指示的几何元素，诸如下面参考图8-10所讨论的。

图5示出了显示语音识别结果方法的一个实施例步骤的流程图，此方法通过接收包括至少一个语音识别项的识别结果列表而开始于步骤210，步骤212中，至少一个语音识别项中的每一个都具有特定项的置信度值。如参考图1所说明的，识别结果列表106有大量的识别项122，每个都带有特定项的置信度值124。此方法的下个步骤214会产生图形化表示，它表示了至少一个识别项和至少一个识别项中每一个的特定项的置信度值，这样图形化表示就会包括至少一个非字母数字的符号，它指示了至少一个特定项的置信度值中的每一个。

在另一个实施例中，产生了修正的识别结果列表108，而由显示发生器104产生的至少一个识别项的图形化表示是基于修正的识别结果列表108的，如前面参考图1所讨论的。下个步骤216包括了显示至少一个识别项和特定项的置信度值的图形化表示。然后，在步骤218中完成此方法。

按照一个实施例，图6示出了带有最大门限过滤器230、最小门限过滤器232。由应用决定的加权施加器234，Δ计算器235和Δ加权施加器238的识别过滤器102。最大门限过滤器230接收分别来自存储器180或处理器182的信号192或194内的识别结果列表106和最大置信度门限值。最大门限过滤器230对输入的识别结果列表106进行过滤以确定是否存在置信度值高于最大门限值的识别项。最大门限过滤器230接着会产生最大过滤列表240以提供给最小门限过滤器232或由应用决定的加权施加器234。在一个实施例中，如果最大门限过滤器230确定有一个或多个识别项高于最大置信度门限值，所有其他项将被丢弃，因此最大门限识别列表不需要由最小门限过滤器232进行过滤。在另一个实施例中，最小门限过滤器232会消除掉来自存储器180或处理器194的置信度值低于最小置信度门限值的所有识别项。

因此，将过滤后的列表242提供给由应用决定的加权施加器234，作为对来自于存储器180或处理器194的加权命令的响应，将加权因子施加用于识别结果列表中的项。例如，如果处理器182在执行涉及到机场的应用程序，由应用决定的加权施加器234可以向所有项提供更进一步的加权因子，比如带有机场的特定城市的名称。

因此，将加权后的列表244提供给Δ计算器236，它可以根据不同项之间的置信度等级差异计算出Δ值，如图3中所示，项160的Δ值162是基于置信度值164的。Δ计算的列表246被提供给Δ加权施加器238，在一个实施例中，它还可以提供特定项的加权，这是根据指示特定值之间差异的Δ因子确定的。例如，Δ加权因子可以为Δ值高于特定门限值的所有项提供特定的加权，这就说明后面最邻近的识别项间存在特定的置信度差异。此处，Δ加权施加器238会产生修正的识别结果列表108以提供给显示发生器104，如上面参考图1和4所讨论的那样。在一个实施例中，显示发生器104因此会产生图形化的识别结果列表110，并作为优选信号198和/或200的响应。

图7示出了显示语音识别结果方法的步骤的另一个示例。此方法通过接收包括至少一个语音识别项的识别结果列表而开始于步骤250，步骤252中，至少一个语音识别项中的每一个都具有特定项的置信度值。下个步骤254包括将至少一个语音识别项中每一个的特定项的置信度值与最小门限值进行比较，并将至少一个语音识别项中其特定项的置信度值低于最小门限值的所有项丢弃。

接下来，在步骤256中，将至少一个语音识别项中每一个的特定项的置信度值与最大门限值进行比较，并将至少一个语音识别项中其特定项的置信度值高于最大门限值的所有项丢弃。在步骤258中，会产生至少一个语音识别项的图形化表示和至少一个语音识别项中每一个的特定项的置信度值，这样图形化表示中会包括至少一个非字母数字的符号以说明至少一个特定项中每一个的置信度值。这样，通过显示出至少一个识别项和特定项的置信度值的图形化表示，此方法在步骤260中得到结论。因此，在步骤262中完成此方法。

图8示出了多个识别项和每个特定项的置信度值的图形化表示的显示270。第一个项“New York”272包括一个具有特定长度的实心长方条，它比其他项的长方条的长度要长，因此如图3中所示出的那样，项“New York”具有最高的置信度值128。项“Newark”276显示为稍短的长方条278，它用图形化的方式表明了其置信度值低于项“New York”272的。如图3中所示出的，项“New Town”280和“NewLondon”282分别与长方条284和286相关联，它用图形化的方式表示出了相关联的置信度值。

图9示出了具有多个项272、276、280和282并分别与置信度值指标288、290、292和294相关联的另一个实施例。特定项的置信度值的图形化表示288-294指示出了几何形状，在这里是一个三角形，其中分布着大量的竖条，竖条的分布与其到三角形左边缘的距离有关，它表示了每个项之间关联的置信度值和关联的Δ值。

在另一种更加简单直接的方法中，图10还包括分别与项272、276、280和282相关联的标准图形化表示长方条296、298、300和302。图形化表示296-302包括大量的具有标准厚度的竖条，每个都有不同的特定分布，并与长方形的左边缘有一定的距离，它指示了不同项之间的关联的置信度值和关联的Δ值。

图11示出了另一个实施例，它包括为不同项提供不同的字体和可能的颜色表示，来为多个项提供置信度值和关联的Δ值的指示。在显示270中，第一个项“New York”304用一个大的长方形来表示可能增大的字体，项304的实际显示尺寸也会增大来表示更高的置信度值。并且，关于显示306、308和310，较小的长方形说明使用不同的字体尺寸为特定项提供较小的显示，因此也表示和说明了语音识别结果的相关联的置信度值。

正如本领域普通技术人员所能认识到的，显示270包括较大的显示区域，它能够在同一时间显示所有项。在某些便携式设备中，显示区域可能是受限制的，因此提供多个项可能是有问题的。因此，图12示出了典型的便携式设备320，它具有可选的键区322和显示324，声音输入326和声音输出328。如图12中所示出的，显示324给出了一个航班预订系统的示例，在其中用户输入来源城市330和目的城市332。在此实施例中，有限的显示区域不允许显示所有的多个项，因此与项336关联的图形化表示334会让用户能够在列表模式中看到多个语音识别项，这种每次只能看到一个项的方式是易于观看的，并且图形化表示的存在也指示了可能会存在识别项。模块334指示存在更多的项，也指示了示出的特定项的识别置信度等级。

因此在此实施例中，会给用户提供语音识别引擎具有的直接的可视反馈能力，以及识别引擎具有的检测与用户本身输入有关的语音识别项的能力。通过允许用户快速有效地识别那些在语音识别引擎和用户之间存在有歧义的项、或者是语音识别引擎存在正确识别困难的项，可视的自动反馈可以有助于将来改进的语音识别能力。因此，可以结合N-最优识别列表的显示为用户提供自动反馈，这样用户就可以根据便携式设备，例如蜂窝电话320中执行的应用程序快速有效地选择正确的语音识别项。

在另一个实施例中，显示发生器104也会产生可听到的识别结果列表，它包括多个识别项中的至少一个和特定项的识别置信度值的可听到的表示。正如上面所讨论过的，显示发生器104会给出非字母数字的图形化表示，同时会给出特定项的识别置信度值的可听到的表示。在此实施例中，显示发生器将可听到的识别结果提供给显示设备，例如扬声器，在这里显示设备会接收可听到的识别结果列表并输出此可听到的识别结果列表。在一个实施例中，可听到的表示包括对识别项的基频调整、音量调整、发音速度调整或对发音增加一个或多个声调。

应该理解的是，本发明及其不同方面存在着其他变化和修正的实现方式，正如本领域普通技术人员易于弄清楚的，并且本发明不限于此处描述的特定实施例。例如，嵌入式语音识别引擎178和外部语音识别引擎190都可以用于向识别过滤器提供N-最优列表，因此识别过滤器102可以基于两种语音识别引擎产生修正的识别结果列表108。因此当前的发明预期并包含了所有的修正、变化或落入本发明权利要求公开了的潜在原理的精神和范围之内的等同物。

Claims

1.一种便携式设备，包括：

识别过滤器，接收识别结果列表，所述识别结果列表包括多个语音识别项，每个语音识别项都具有特定项的识别置信度值，所述识别过滤器用于产生修正的识别结果列表，所述修正的识别结果列表包括具有相关联的特定项识别置信度值的多个语音识别项中的至少一个；以及

与识别过滤器相连接的显示发生器，所述显示发生器用于接收修正的识别结果列表并产生图形化的识别结果列表，其中，图形化的识别结果列表包括多个语音识别项，以及为所述多个语音识别项中的每一个产生的对应的特定项的识别置信度值的图形化表示，其中，每一图形化表示是非字母数字的符号。

2.权利要求1中的便携式设备，还包括：

与显示发生器相连接的显示设备，所述显示设备用于接收图形化的识别结果列表并将图形化的识别结果列表显示出来。

3.权利要求2中的便携式设备，还包括：

能够接收音频输入的音频输入设备，其中，音频输入设备与语音识别引擎相连接，以将音频输入提供给语音识别引擎。

4.权利要求1中的便携式设备，其中，所述的图形化表示包括以下至少一项：具有不同颜色的多个的线条，具有不同间隔的多个的线条，其间具有不同间隔的多个的线条，具有在其间分布的至少一个指示线条的几何元素。

5.权利要求1中的便携式设备，其中，所述的识别过滤器接收最大置信度门限值和最小置信度门限值，从而，考虑下列至少一个来产生修正的识别结果列表：最大置信度门限值和最小置信度门限值。

6.权利要求1中的便携式设备，其中，所述的识别过滤器接收能够施加到多个语音识别项中的每一个的加权指示，以调整特定项的识别置信度值。

7.一种用于显示语音识别结果的方法，包括：

接收识别结果列表，所述识别结果列表包括多个语音识别项，其中语音识别项中的每一个都具有特定项的置信度值；

为语音识别项中的每一个产生多个识别项和特定项的置信度值的图形化表示，以使图形化表示包括至少一个非字母数字的符号，该符号指示了至少一个特定项的置信度值中的每一个；以及

显示所述多个识别项及对应的特定项的置信度值的图形化表示。

8.权利要求7中的方法，还包括：在产生多个语音识别项和特定项的置信度值的图形化表示之前，

将语音识别项中的每一个的特定项的置信度值与最小门限值进行比较，并将语音识别项中特定项的置信度值低于最小门限值的所有项丢弃；

将语音识别项中的每一个的特定项的置信度值与最大门限值进行比较，并将语音识别项中特定项的置信度值高于最大门限值的所有项丢弃。

9.权利要求8中的方法，还包括：

对于图形化识别列表的至少一个语音识别项中的每一个，接收加权因子。

10.权利要求9中的方法，其中，所述的加权因子是从以下至少一个中接收到的：存储器和可执行应用程序。

11.权利要求7中的方法，其中，所述的图形化表示包括以下的至少一个：具有不同颜色的多个的线条，具有不同宽度的多个的线条，其间具有不同间隔的多个的线条，具有在其间分布的至少一个指示线条的几何元素。