CN101796577A

CN101796577A - 自动语音识别(asr)语境

Info

Publication number: CN101796577A
Application number: CN200880105388A
Authority: CN
Inventors: J·W·凯尔; P·M·卢茨; K·A·博尔顿
Original assignee: Garmin Ltd Kayman
Current assignee: Garmin Ltd Kayman
Priority date: 2007-07-11
Filing date: 2008-06-05
Publication date: 2010-08-04
Also published as: WO2009009239A1; EP2176857A4; US20090018842A1; EP2176857A1

Abstract

本发明涉及一种位置确定装置及相应的方法。描述了创建用于自动语音识别中的语境的技术。在实现中，确定由位置确定装置接收的哪个数据可被选择以启动位置确定装置的一种或多种功能，其中，所述功能中的至少一种涉及位置确定功能。基于所述确定产生包含取自数据的一个或多个短语的动态语境。通过使用来自动态语境的一个或多个所述短语由位置确定装置翻译音频输入。

Description

自动语音识别(ASR)语境

(相关申请)

本正式申请要求在2007年7月11日提交的发明名称为“AUTOMATED SPEECH RECOGNITION(ASR)CONTENT”的美国临时申请No.60/949140和在2007年7月11日提交的发明名称为“AUTOMATED SPEECH RECOGNITION(ASR)LISTS”的美国临时申请No.60/949151的权益，在此通过引用并入以上每一个申请的全部内容。

背景技术

自动语音识别(ASR)一般被用于翻译语音以找到“意思”，该“意思”然后可被用于执行期望的功能。但是，常规的用于提供ASR的技术消耗大量的资源(例如，处理和存储资源)，因此实现起来会是昂贵的。并且，当遇到会在执行ASR时导致等待时间(latency)增加以及精度下降的大量的数据时，这种实现会进一步复杂化。会遇到大量的数据的一种实现是在具有位置确定功能的装置中。

例如，定位系统(例如，全球定位系统(GPS))可采用大量的数据以提供位置确定功能，以诸如向名胜提供逐圈(turn-by-turn)驱动指令。这些名胜(和有关的数据)会消耗巨量的资源，因此在执行ASR以诸如定位特定的名胜时导致延迟。并且，当诸如由于类似的发音的名胜导致对于音频输入的翻译可用的选项的数量增多时，ASR的精度会降低。

发明内容

描述创建用于自动语音识别中的动态语境(context)的技术。在实现中，确定由位置确定装置接收的哪个数据可被选择以启动位置确定装置的一种或多种功能，其中，所述功能中的至少一种涉及位置确定功能。基于所述确定产生包含取自数据的一个或多个短语(phrase)的动态语境。通过使用来自动态语境的一个或多个所述短语由位置确定装置翻译音频输入。

本发明内容仅被提供用于介绍在具体实施方式和附图中完整描述的主题。因此，发明内容不应被认为是描述基本特征，也不应被用于确定权利要求的范围。

附图说明

参照附图进行详细的描述。在图中，附图标记的最左侧数字表示首先出现该附图标记的图。相同的附图标记在说明书和附图中的不同实例中的使用可表示类似或相同的项目。

图1是可操作以执行自动语音识别(ASR)语境技术的示例性定位系统环境的示图。

图2是在将图1的位置确定装置更详细地显示为采用使用语境的ASR技术的示例性实现中的系统的示图。

图3是示出示例性实现中的过程的流程图，其中，基于当前在用户界面中显示的短语产生语境并且动态地维护语境以反映用户界面的变化。

图4是示出示例性实现中的过程的流程图，其中，由装置从另一装置输入短语以向要在装置之间的交互作用中使用的ASR提供语境。

具体实施方式

常规的用于提供自动语音识别(ASR)的技术一般消耗大量的资源(例如，处理和存储资源)。并且，当遇到诸如会在具有音乐播放功能(例如，具有带有关联元数据的几千首歌曲的便携式音乐播放器，所述元数据包含标题、艺术家等)、地址功能(例如，具有大规模电话簿的无线电话)、定位功能(例如，包含名胜、地址和电话号码的定位数据库)等的装置中遇到的数据量的大量数据时，ASR的实现会进一步复杂化。

例如，当与诸如服务器或桌上型计算机的不被配置为用于便携式用途的装置相比时，个人全球定位系统(GPS)装置可被配置为用于便携式用途，因此具有相对有限的资源(例如，处理资源)。但是，个人GPS装置可包含大量的用于确定地理位置并基于确定的地理位置提供附加的功能的数据。例如，用户可说出期望的餐馆的名称。在响应中，个人GPS装置可转换所说出的名称以找到“意思”，这会消耗大量的资源。个人GPS装置也可确定当前的地理位置，然后使用该位置来搜索数据，以定位具有该名称或类似的名称的最近的餐馆，这也会消耗大量的资源。

因此，描述了提供用于自动语音识别(ASR)中的动态语境的技术，这些技术可被用于改善ASR的效率和精度。在实现中，以可被选择以启动装置的功能的短语创建动态语境。例如，语境可被配置为包含可由用户选择以启动装置的功能的短语。因此，该语境可以与ASR一起使用以更加迅速地定位这些短语，由此在执行ASR时减少等待时间(例如，通过分析较少量的数据)并改善精度(例如，通过减少可用的选项的数量并因此减少具有类似发音的短语的可能性)。也想到了各种其它的例子，可关于以下的附图找到其进一步的讨论。

在另一实现中，至少部分地通过在局域网络连接上从另一装置获得的数据定义语境。继续前面的例子，用户可采用个人GPS装置以利用导航功能。GPS装置还可包含启动另一装置的功能的功能，以诸如在局域无线连接上通过使用ASR经由用户的无线电话拨号和通信。为了通过GPS装置提供用于无线电话中的ASR的语境，GPS装置可从无线电话获得数据。例如，GPS装置可输入地址簿并从包含于地址簿中的短语产生语境。然后，当与无线电话交互作用时，可由GPS装置将该语境用于ASR。以此方式，可通过GPS装置利用(leverage)无线电话的数据以改善效率(例如，减少等待时间和对处理和存储资源的使用)，并且还改善精度。可关于图2和图4找到从另一装置输入数据以产生语境的进一步的讨论。

在以下的讨论中，首先描述可操作以产生和利用自动语音识别(ASR)技术的语境的示例性环境。然后，描述可在示例性环境中使用以及在其它环境中使用而不背离其精神和范围的示例性过程。虽然关于位置确定环境描述了ASR语境技术，但应容易清楚，可以诸如通过便携式音乐播放器、无线电话等在各种环境中采用这些技术，以提供便携式音乐播放功能、交通状况(traffic)获知功能(例如，涉及意外事故的信息和用于产生路线的交通流量)、因特网搜索功能等。

图1示出可操作以执行自动语音识别(ASR)语境技术的示例性定位系统环境100。可以采用各种定位系统来提供位置确定技术，其例子在图1中被示为全球定位系统(GPS)。环境100可包含任意数量的位置发射平台102(1)～102(N)，诸如GPS平台、卫星、转播站、飞机和/或任何其它类型的启用定位系统的发射装置或系统。环境100还包含位置确定装置104，诸如任意类型的移动基于地面的、基于海洋的和/或基于空运的接收器，可以在后面的描述中找到其进一步的讨论。虽然关于图1描述和示出了GPS系统，但应清楚，也可采用各种各样的其它定位系统，诸如基于陆地的系统(例如，从蜂窝式塔广播位置数据的基于无线电话的系统)、发射定位信号的无线网络等。例如，可通过使用基于服务器的结构中的服务器、从基于地面的基础结构、通过一个或多个传感器(例如，陀螺仪、里程表、磁力计)、使用“船位推算法(dead reckoning)”技术等实现位置确定功能。

在图1的环境100中，位置发射平台102(1)～102(N)被描述为被示为包含一个或多个相应的天线106(1)～106(N)的GPS卫星。一个或多个天线106(1)～106(N)分别向位置确定装置104发射可包含定位信息和导航信号的相应的信号108(1)～108(N)。虽然示出了三个位置发射平台102(1)～102(N)，但应容易清楚，环境可包含另外的位置发射平台102(1)～102(N)以提供诸如冗余等的另外的位置确定功能。例如，可以使用三个示出的位置发射平台102(1)～102(N)以提供二维导航，同时，可以使用四个位置发射平台以提供三维导航。也想到了各种其它的例子，包括使用前述的基于陆地的发射器。

位置确定功能出于以下的讨论的目的可涉及各种不同的导航技术和可通过“知道”一个或多个位置支撑的其它技术。例如，可以采用位置确定功能以提供位置信息、定时信息、速度信息和各种其它的与导航有关的数据。因此，可以以各种方式配置位置确定装置104以执行各种各样的功能。例如，位置确定装置104可被配置用于示出的车辆导航、航空导航(例如，用于飞机、直升机)、海洋导航、个人用途(例如，作为与健康有关的设备的一部分)等。因此，位置确定装置104可包含通过使用前述技术中的一种或多种来确定位置的各种装置。

图1的示出的位置确定装置104包含与位置接收器112通信耦合的位置天线110。位置接收器112、输入设备114(例如，触摸屏、按钮、麦克风、无线输入设备、数据输入等)、输出设备116(例如，屏幕、扬声器和/或数据连接)和存储器118也被示为与处理器120通信耦合。

处理器120不受形成它们的材料或其中采用的处理机制的限制，因而，可通过半导体和/或晶体管(例如，电子集成电路(IC))等被实现。另外，虽然示出单一的存储器118，但是，可以采用诸如随机存取存储器(RAM)、硬盘存储器、可移动介质存储器(例如，可通过接收可移动存储器卡的插槽实现的存储器118)和其它类型的计算机可读介质的各种各样类型的存储器和它们的组合。

虽然位置确定装置104的部件被单独地示出，但应清楚，这些部件也可被进一步分割(例如，输出设备116可实现为扬声器和显示装置)和/或组合(例如，输入和输出设备114、116可通过触摸屏被组合)而不背离其精神和范围。

示出的位置天线110和位置接收器112被配置为接收通过各位置发射平台102(1)～102(N)的各天线106(1)～106(N)发射的信号108(1)～108(N)。这些信号被提供给处理器120以被导航模块122处理，该导航模块122被示为在处理器120上被执行并且可被存储在存储器118中。导航模块122代表诸如通过处理从位置发射平台102(1)～102(N)获得的信号108(1)～108(N)来确定地理位置以提供前述的位置确定功能、以诸如确定位置、速度、时间等的功能。

导航模块122例如可被执行为使用存储在存储器118中的位置数据124以产生导航指令(例如，对于输入目的地的逐圈指令)、在地图上表示当前的位置等。导航模块122还可被执行以提供其它的位置确定功能，以诸如确定当前的速度、计算到达时间等。还想到了各种各样的其它例子。

导航模块122还被示为包含语音识别模块126，该语音识别模块126代表可被位置确定装置104采用的自动语音识别(ASR)功能。语音识别模块126例如可包含转换通过输入设备114(例如，麦克风、蓝牙头戴式送受话器等)从用户128接收的音频输入以找到诸如文本、数字表现等的“意思”的功能。也可采用各种技术来翻译音频输入。

语音识别模块126还可采用ASR语境技术以创建用于ASR中的语境130以提高精度和效率。例如，可采用这些技术以减少执行ASR的数据搜索量。通过减少数据搜索量，可以在增加ASR精度的同时减少实现ASR所采用的资源量，可关于以下的图找到其进一步的讨论。

图2是将图1的位置确定装置104更详细地表示为输出用户界面202并采用使用语境的ASR技术的示例性实现中的系统200的示图。在该示例性的实现中，语音识别模块126被示为包含语音引擎204和语境模块206。语音引擎204代表翻译音频输入以找到意思的功能。语境模块206代表创建具有一个或多个短语210(w)(这里，“w”可以是从1到“W”的任意整数)的语境208的功能。从而，语境208、特别是语境208中的短语210(w)可被语音引擎204用来翻译音频输入。可以以各种方式由语境模块206产生语境208。

例如，语境模块206可通过被配置为供给诸如通过使用射频实现的局域无线连接的局域网络连接的网络216从无线电话214输入地址簿212。因此，当位置确定装置104与无线电话214交互作用时，可利用地址簿212，以通过在与无线电话214交互作用时包含可能被用户128使用的短语210(w)而向该交互作用提供语境208。虽然已描述了无线电话214，但各种的装置组合可采用输入技术来创建用于ASR中的语境，可关于图4找到其进一步的讨论。

在另一例子中，语境模块206可基于当前由位置确定装置显示的内容产生包含短语210(w)的语境208。例如，位置确定装置104可通过卫星无线电220接收无线电内容218、当网络216被配置为因特网时通过网络216从网络服务器224接收网络内容222，等等。因此，本例子中的位置确定装置104可使用语境模块206以基于当前由位置确定装置104显示的内容创建还定义什么交互作用可用的语境208。语境208还可反映当前没有被显示的可用于选择的诸如对于要被滚动的列表中的歌曲的其它功能、可从多个菜单访问的导航功能，等等。

如图2所示，位置确定装置104示出多个部分226(1)～226(4)，所述多个部分226(1)～226(4)可在用户界面中被选择以启动被描述为可被选择以导致输出相应的歌曲的艺术家/歌曲标题组合的功能。语境模块206可检查用户界面以定位包含于用户界面中的短语210(w)并在语境208中包含它们。因此，该语境208可被语音引擎204使用以使得用户128能够说出短语210(w)中的一个或多个以导致启动相应的功能。例如，用户128可说出多个词“Beethoven’s Fifth”、“Beethoven”和/或“Symphony”以导致选择相应部分226(1)，如同用户手动与用户界面交互作用，例如，通过使用手指“按压”部分226(1)。

在实现中，语境模块206被配置为动态维护语境208以反映在用户界面中进行的改变。例如，可通过卫星无线电220使得另一首歌曲可用，这在用户界面中导致相应的改变。来自该新歌曲的短语可被添加到语境208上以保持语境208“最新”。类似地，该另一首歌曲可替代用户界面中的先前显示的歌曲。因此，语境模块206可从语境208去除与被替代的歌曲对应的短语。可关于以下的过程找到语境208的创建、使用和维护的进一步的讨论。

可通过使用软件、固件、硬件(例如，固定逻辑电路)、手动处理或这些实现的组合实现这里描述的功能中的任何功能。这里使用的术语“模块”和“功能”一般代表软件、固件、硬件和它们的组合。在软件实现的情况下，例如，模块代表当在诸如图1的位置确定装置104的处理器120的处理器上被执行时执行特定任务的可执行指令。程序代码可被存储在一个或多个计算机可读介质中，该计算机可读介质的例子是图1的位置确定装置104的存储器118。以下描述的ASR语境技术的特征是与平台无关，这意味着可以在具有各种处理器的各种商业计算平台上实现所述技术。

以下的讨论描述可通过利用前面描述的系统和装置实现的ASR语境技术。可以以硬件、固件、软件或它们的组合实现这些过程中的每一个的各方面。这些过程被示为规定通过一个或多个装置执行的操作的一组框，并且，未必限于由各框表示的用于执行操作的次序。在以下的讨论的各部分中，将参照图1的环境100和/或图2的系统200。

图3示出基于当前在用户界面中显示的短语产生语境并且动态维护语境以反映用户界面的改变的示例性实现中的过程300。接收包含短语的数据(框302)。如前所述，可以诸如通过输入局域网络连接上的数据、包含于通过卫星无线电流动的无线电语境中的元数据、通过因特网获得的网络内容等以各种方式接收该数据。

确定可通过用户界面选择短语中的哪一个以启动装置的功能(框304)。例如，语境模块206可分析用于形成用户界面的下层代码以确定哪些功能是通过用户界面可用的。语境模块206然后可从该代码确定要被显示于用户界面中以代表该功能并且/或者以其他方式可被选择以启动该功能的短语。出于以下讨论的目的，应当注意，“短语”不限于常规的说出的语言(例如，常规的英语词)，而是可包含可用于代表功能的字母数字和符号字符的任意组合。换句话说。“短语(phrase)”可包含词的一部分，例如，一个“发音(utterance)”。并且，应当容易清楚，也想到了短语的多种组合，诸如多个词、多个发音和句子。

然后产生包含当前可被选择以启动装置的功能的短语的语境(框306)。语境例如可引用当前显示的可选择的短语。在实现中，可以过滤包含于语境中的短语以去除不是对于特定的功能可唯一识别的短语而保留诸如“交响乐”的短语，诸如“to”、“the”、“or”等。以此方式，语境可基于当前显示的内容定义供用户选择的选项，并且还可包含当前没有被显示但可被选择的选项，诸如前述的当前没有被显示的列表的成员。

也可在装置上动态维护语境(框308)。例如，一个或多个短语可在被添加到用户界面时被动态添加到语境(框310)。类似地，来自语境的短语中的一个或多个在被从用户界面被去除时被去除(框312)。

装置例如可被配置为通过卫星无线电220接收无线电内容218。可以在图2所示的用户界面中显示歌曲名称。当歌曲名称在用户界面中改变时，语境208中的短语210(w)也可改变。因此，语境模块206可保证包含于语境208中的短语210(w)精确地反映在用户界面中显示的短语。也想到了各种其它的例子。

然后通过使用语境翻译由该装置接收的音频输入(框314)并且基于翻译的音频输入执行装置的一种或多种功能(框316)。继续前面的实例，音频输入可导致输出特定的歌曲。也想到了各种其它的实例。

图4示出由装置从另一装置输入短语以向在装置之间的交互作用中使用的ASR提供语境的示例性实现中的过程400。在装置和另一装置之间启动局域网络连接(框402)。例如，位置确定装置104可启动与图2的无线电话214的局域无线连接(例如，蓝牙)。

由装置在另一装置上定位要用于创建用于自动语音识别(ASR)中的语境的短语(框404)。位置确定装置104例如可确定无线电话214包含地址簿212。然后，从另一装置向一装置输入短语(框406)，由此与位置确定装置104“共享”无线电话214的地址簿212。

语境产生为包含输入的短语中的一个或多个(框408)。语境208例如可产生为包含取自地址簿212的名称和地址(例如，街道、城市和州名称)。例如，语境模块206可输入缩写“KS”并在语境208中提供词“堪萨斯(Kansas)”和/或缩写“KS”。

该装置通过使用来自语境的短语中的一个或多个来翻译音频输入(框410)。位置确定装置104例如可确定用户已经选择了位置确定装置104上的选项来与无线电话214交互作用。因此，取得(例如，在存储器118中定位并且从存储器118加载)被创建用于帮助定义电话交互作用的语境208。语音引擎204然后可使用语境208特别是语境208中的短语210(w)来翻译来自用户128的音频输入以确定音频输入的诸如文本、数字表现等的“意思”。

然后可为各种目的使用翻译的音频输入，诸如基于翻译的音频输入启动另一装置的一种或多种功能(框412)。继续前面的例子，位置确定装置104可接收请求拨打特定的电话号码的音频输入。然后可通过使用该语境翻译该音频输入，以诸如定位电话号码薄中的被叫人(addressee)的特定名称。然后可由便携式导航装置104使用该名称以导致无线电话214拨打该号码。然后可在用户128和位置确定装置104之间执行通信以利用无线电话214的功能。也想到了各种其它的例子。

虽然以结构特征和/或方法动作特定的语言描述了本发明，但应理解，在所附的权利要求中限定的本发明不必限于描述的具体的特征或动作。而是，具体的特征和动作作为实现要求保护的本发明的示例性形式被公开。

Claims

1.一种方法，包括：

确定由位置确定装置接收的哪个数据可被选择以启动所述位置确定装置的一种或多种功能，其中，至少一种所述功能涉及位置确定功能；

基于所述确定步骤产生包含取自所述数据的一个或多个短语的动态语境；和

通过使用来自所述动态语境的一个或多个所述短语由所述位置确定装置翻译音频输入。

2.如权利要求1所述的方法，其中，动态执行所述产生步骤，以在向所述位置确定装置的用户界面添加一个或多个短语时在所述语境中添加所述一个或多个短语。

3.如权利要求1所述的方法，其中，动态执行所述产生步骤，以在从所述位置确定装置的用户界面去除所述短语中的一个或多个时从所述语境去除所述短语中的所述一个或多个。

4.如权利要求1所述的方法，还包括：

接收包含所述短语的数据；和

确定所述短语可被选择以启动所述位置确定装置的一种或多种功能，使得包含于所述数据中但不可选择的至少一个短语不被包含于所产生的动态语境中。

5.如权利要求4所述的方法，其中，所述位置确定装置通过由卫星发射的信号来接收所述数据。

6.如权利要求4所述的方法，其中，所述位置确定装置通过因特网来接收所述数据。

7.如权利要求4所述的方法，其中，所述位置确定装置通过局域无线网络连接导入数据。

8.如权利要求7所述的方法，其中，从无线电话导入所述数据。

9.如权利要求1所述的方法，还包括：

接收规定地理位置的输入；和

获得与地理位置有关的自动语音识别ASR数据；和

在语境中包含所获得的ASR数据，使得至少部分地通过使用所述语境中的所获得的ASR数据来执行音频输入的翻译。

10.一种方法，包括：

产生包含由位置确定装置通过局域网络连接从另一装置导入的一个或多个短语的语境；

通过使用来自所述语境的一个或多个所述短语由所述位置确定装置翻译音频输入；和

通过使用所翻译的音频输入执行与所述位置确定装置的位置确定功能有关的一种或多种功能。

11.如权利要求10所述的方法，其中，所述另一装置被配置为无线电话。

12.如权利要求10所述的方法，其中，由所述位置确定装置启动并由所述另一装置执行所述功能中的至少一种。

13.如权利要求10所述的方法，其中，

所述短语中的至少一个供给地址的一部分；和

所述一种或多种功能包含找到从另一地址到前一地址的方向。

14.如权利要求13所述的方法，其中，所述另一地址是通过使用所述装置的位置确定功能所确定的所述位置确定装置的当前位置。

15.一种位置确定装置，包含通过使用具有取自自动语音识别ASR数据的一个或多个短语的语境来翻译音频输入的一个或多个模块，其中，所述语境是动态的，从而短语被添加到所述语境或从所述语境被去除，以与可被选择以启动与位置确定功能有关的位置确定装置的功能的短语一致。

16.如权利要求15所述的装置，所述一个或多个模块进一步被配置为：

接收包含要在用户界面中显示的短语的数据；和

确定短语是可在用户界面中被选择以启动所述装置的功能的，使得包含于用户界面中但不可选择的至少一个词不被包含于所产生的语境中。

17.如权利要求15所述的装置，所述一个或多个模块进一步被配置为：

接收规定地理位置的输入；和

获得与所述地址位置有关的自动语音识别ASR数据，

其中，通过使用所述语境中的ASR数据来执行所述音频输入的翻译。

18.如权利要求15所述的装置，其中，所述一个或多个模块进一步被配置为采用位置确定功能。

19.如权利要求15所述的装置，其中，所述一个或多个模块进一步被配置为采用音乐播放功能。