CN103430232A

CN103430232A - 利用设备停靠情境的语音识别

Info

Publication number: CN103430232A
Application number: CN2012800125190A
Authority: CN
Inventors: M·I·劳埃德; P·里斯布德
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2011-01-21
Filing date: 2012-01-13
Publication date: 2013-12-04
Anticipated expiration: 2032-01-13
Also published as: EP2666159B1; US8396709B2; KR20130133832A; US20120191448A1; US20120191449A1; US8296142B2; CN103430232B; WO2012099788A1; KR101932181B1; EP2666159A1

Abstract

用于利用停靠情境来，执行语音识别的方法、系统以及包括被编码在计算机存储介质上的计算机程序的装置。在一个方面，一种方法包括访问包括经编码的语音的音频数据。指示客户端设备的停靠情境的信息被访问，停靠情境与音频数据相关联。多个语言模型被标识。多个语言模型中的至少一个语言模型基于停靠情境被选择。利用所选择的语音模型对音频数据执行语音识别，以标识针对音频数据的一部分的转录。

Description

利用设备停靠情境的语音识别

与相关申请的交叉引用

本申请要求2011年1月21日递交的美国临时申请No.61／435,022和2011年3月4日递交的美国申请No.13／040,553的优先权。这些申请的全部内容通过引用被合并于此。

背景技术

语音识别的使用正变得越来越普遍。随着技术的改进，计算设备的用户已经获得了对语音识别功能的更多使用。很多用户在他们的工作以及日常生活的其它方面中依赖语音识别。

发明内容

就一个总的方面而言，一种计算机实现的方法包括访问包括经编码的语音的音频数据；访问指示客户端设备的停靠情境的信息，停靠情境与音频数据相关联；标识多个语言模型；基于停靠情境来选择多个语言模型中的至少一个；并且使用所选择的语言模型对音频数据执行语音识别，以标识针对音频数据的一部分的转录。

实现方式可以包括以下特征中的一个或多个特征。例如，指示客户端设备的停靠情境的信息指示客户端设备与第二设备之间的连接，客户端设备被物理连接到的第二设备。指示客户端设备的停靠情境的信息指示客户端设备与客户端设备被无线连接到的第二设备之间的连接。方法包括针对多个语言模型中的每个语言模型，基于停靠情境来确定要分配给语言模型的加权值，加权值指示语言模型将指示针对经编码的语音的正确转录的概率，其中基于停靠情境选择多个语言模型中的至少一个包括基于被分配的加权值来选择多个语言模型中的至少一个。音频数据中所编码的语音被客户端设备检测，并且指示停靠情境的信息指示音频数据中所编码的语音被客户端设备检测到时客户端设备是否被连接到停靠站台。音频数据中所编码的语音被客户端设备检测，并且其中指示停靠情境的信息指示音频数据中所编码的语音被客户端设备检测到时客户端设备被连接到的停靠站台的类型。经编码的语音包括一个或多个口述查询短语，转录包括口述查询短语的转录，并且方法还包括使得搜索引擎利用一个或多个口述查询短语的转录执行搜索并且向客户端设备提供指示搜索查询的结果的信息。确定针对多个语言模型中的每个语言模型的加权值包括访问与停靠情境相关联的所存储的加权值。确定针对多个语言模型中的每个语言模型的加权值包括访问所存储的加权值并且基于停靠情境改变所存储的加权值。多个语言模型中的每个语言模型针对特定的词语话题类别被训练。基于停靠情境确定加权值包括确定客户端设备被连接到车辆停靠站台并且针对被训练为输出地址的导航语言模型，确定提高导航语言模型相对于多个语言模型中的其它语言模型被选择的概率的加权值。

就另一个总的方面而言，一种计算机实现的方法包括在客户端设备处检测包括语音的音频；将所检测到的音频编码为音频数据；将音频数据传输至服务器系统；标识客户端设备的停靠情境；将指示停靠情境的信息传输至服务器系统；以及在客户端设备处接收音频数据中的至少一部分的转录，服务器系统已经基于指示停靠情境的信息从多个语言模型中选择了语言模型，通过利用所选择的语言模型对音频数据执行语音识别生成了转录，并且将转录传输至客户端设备。

实现方式可以包括以下特征中的一个或多个特征。例如，被标识的停靠情境是在声音被检测到时客户端设备的停靠情境。指示客户端设备的停靠情境的信息指示客户端设备与客户端设备被物理连接到的第二设备之间的连接。指示客户端设备的停靠情境的信息指示客户端设备与客户端设备被无线连接到的第二设备之间的连接。

这些方面的其它实现方式包括系统、装置以及被编码在计算机存储设备上被配置为执行方法的动作的计算机程序。

关于一个或更多个实现方式的细节在附图和下面的描述中被给出。根据说明书、附图和权利要求，其它特征和优点将变得清楚。

附图说明

图1是用于利用客户端设备的停靠情境来执行语音识别的系统的示例的示图。

图2A是图示了语言模型的表征的示例的示图。

图2B是图示了声音模型结合图2A中所示的语言模型的使用示例的示图。

图3是图示了用于利用客户端设备的停靠情境执行语音识别的过程的示例的流程图。

图4是计算设备的框图。

具体实施方式

在各种实现方式中，客户端设备的停靠情境可以被用于提高语音识别的准确性。语音识别系统可以包括多个语言模型，每个语言模型针对不同的词语话题或类别被训练。当访问包括经编码的语音的音频数据时，语音识别也可以访问指示与语音相关联的停靠情境的信息。停靠情境可以包括例如当语音被检测到时检测到语音的设备的停靠情境。语音识别系统可以利用该停靠情境来选择特定的语言模型，以用于识别在该停靠情境中被输入的语音。

在很多实例中，设备的停靠情境可以指示当设备在该停靠情境中时设备的用户可能发出的语音的类型。例如，对被连接到车辆停靠站台的客户端设备讲话的用户可能使用与导航或地址相关的词语。当语音在车辆停靠站台中的设备上被输入时，语音识别系统可以选择针对与导航相关的词语被训练的语言模型并使用该模型来识别语音。通过基于停靠情境选择特定的语言模型，语音识别系统可以将语音识别过程倾向于在该停靠情境中最可能被讲出的词语。因此，利用基于停靠情境选择的语言模型的语音识别可以产生比利用通用的语言模型的语音识别更准确的转录。

图1是图示了用于利用客户端设备102的停靠情境来执行语音识别的系统100的示例的示图。系统100包括客户端通信设备(“客户端设备”)102、语音识别系统104(例如自动语音识别(“ASR”引擎))和搜索引擎系统109。客户端设备102、语音识别系统104以及搜索引擎系统109通过一个或多个网络108彼此通信。图1还图示了在状态(A)到(G)期间的数据流。

客户端设备102可以是移动设备，例如蜂窝电话或智能电话。客户端设备102的其它示例包括全球定位系统(GPS)、导航系统、平板计算机、笔记本型计算机和台式计算机。

客户端设备102可以被连接到停靠站台106。停靠站台106可以被物理地耦接到客户端设备102，并且可以与客户端设备102通信以例如通过有线或无线链路传递功率和／或数据。停靠站台106可以在客户端设备102与停靠站台106通信的同时物理地(例如在支架或机座中)支持或稳定客户端设备102。客户端设备102可以被直接连接到停靠站台106或者可以通过线缆或其它接口被连接。

在状态(A)期间，客户端设备102的用户101向客户端设备102的麦克风讲出一个或多个短语。在所图示的示例中，用户101讲出短语103(“10号大街”)作为搜索查询的一部分。与所讲出的短语103相对应的发声被编码为音频数据105。短语103可以基于例如被显示在客户端设备102上的搜索界面或者在客户端设备102的用户界面上被选择的搜索控制被标识为查询短语。

客户端设备102还标识停靠情境，例如当用户101讲出短语103时客户端设备102的停靠情境。在所图示的示例中，当用户101讲出短语103时，客户端设备102被连接到车辆停靠站台106。客户端设备102确定例如客户端设备102被连接到停靠站台106(例如客户端设备102当前是“被停靠的”)，停靠站台106是车辆停靠站台，以及停靠站台106是被加电的。

停靠情境可以是短语103在其中被讲出的情境。例如，停靠情境可以包括在与被讲出的查询短语103相对应的声音被客户端设备102检测到时客户端设备102的状态。检测语音可以包括但不限于感知、接收或记录语音。检测语音可以不要求确定所接收的声音包括语音或者标识包括经编码的语音的声音的一部分，但是这些情况可能发生在一些实现方式中。

停靠情境可以包括客户端设备102被连接到的停靠站台的身份和特征。例如，停靠情境可以包括以下事项中的一个或多个：(i)客户端设备102是否被连接到任何停靠站台106，(ii)客户端设备102被连接到的停靠站台106的类型(例如车辆停靠站台、计算机或音乐播放器)，(iii)停靠站台106的操作状态(例如，停靠站台106处于开启、关闭、空闲还是省电模式下)，以及(iv)客户端设备102与停靠站台106之间的关系(例如客户端设备102正在充电、下载信息、上传信息或播放媒体或者连接处于空闲状态)。

停靠情境还包括与客户端设备102与停靠站台106之间的连接相关的其它因素，例如客户端设备102与停靠站台106已被连接的时间长度。停靠情境可以包括停靠站台106的一个或多个能力(例如GPS接收器、视觉显示、声音输出和网络接入)。停靠情境还可以包括指示停靠站台106的型号、制造商和软件版本的一个或多个标识符。停靠情境还可以包括针对多个设备的上述因素，多个设备包括被连接到客户端设备102的外围设备(例如打印机、外部存储设备和成像设备)。

在一些实现方式中，停靠情境指示关于例如通过线缆或者直接的物理链路被物理地耦接到客户端的停靠站台的信息。在一些实现方式中，停靠情境指示被确定为与客户端设备102的地理位置相邻的并且通过诸如蓝牙之类的无线协议被连接的停靠站台106。例如，当客户端设备102在车辆中时，客户端设备102可以无线地连接到被物理地连接到车辆的停靠站台106。即使客户端设备102未被物理地连接到车辆停靠站台106，无线连接也可以被包括在停靠情境中。又例如，停靠情境可以指示与客户端设备102通信的一个或多个其它设备，例如被无线地连接的听筒。停靠情境可以包括客户端设备102与之通信的设备中的任意设备。

客户端设备102生成指示停靠情境的一个或多个方面的停靠情境信息107。停靠情境信息107与音频数据105相关联。例如，停靠情境信息107可以指示其中音频数据105中被编码的语音被客户端设备102检测到的客户端设备102的停靠情境。客户端设备102或者另一系统可以存储与音频数据105相关联的停靠情境信息107。

在状态(B)期间，语音识别系统104访问停靠情境信息107。语音识别系统104还访问音频数据105。例如，客户端设备102可以将停靠情境信息107和音频数据105传输给语音识别系统104。作为附加方式或替代方式，停靠情境信息107、音频数据105或者这两者可以从被连接到语音识别系统104的存储设备中或者从另一系统中被访问。

在一些实现方式中，停靠情境信息107可以在音频数据105或者甚至是音频数据105中被编码的短语103被讲出之前被访问。例如，客户端设备102可以被配置为当客户端设备102的停靠情境改变时向语音识别系统104提供更新后的停靠情境信息107。因此，最近被接收的停靠情境信息107可以被假设为指示当前的停靠情境。语音识别系统104可以利用停靠情境信息107来选择要用于识别语音序列中的第一个词语的语言模型。在一些实现方式中，语音识别系统104甚至可以在用户101开始讲话之前基于停靠情境信息107选择语言模型。

在状态(C)期间，语音识别系统104标识出多个语言模型111a-111d。语言模型111a-111d可以指示例如短语序列中一个短语基于序列中的其它短语的出现概率。语言模型以及它们可以如何被使用将参考图2A和2B被更详细地描述。

语言模型111a-111d可以分别被单独聚焦在特定的话题(例如导航或购物)或短语类型(例如名字或地址)上。在一些实例中，语言模型111a-111d可以专用于特定动作(例如语音拨号或播放媒体)或者专用于特定的停靠情境(例如未被停靠、被连接到车辆停靠站台或者被连接到媒体停靠站台)。因此，语言模型111a-111d可以包括通用语言模型中所包括的词汇的子集。例如，针对导航的语言模型111a可以包括被用在导航中的短语，例如数字和地址。

语音识别系统可以标识比所示出的那些语言模型更精细粒度的语言模型。例如，代替针对媒体的单个语言模型111d，语音识别系统104可以标识与视频、音频或图像相关的不同的语言模型(或者语言模型111d的多个部分)。

在一些实现方式中，被标识的语言模型111a-111d可以是被包括在更大的通用语言模型中的子模型。通用语言模型可以包括被专门训练用于准确预测特定类型的词语的若干个语言模型。例如，一个语言模型可以被训练为预测名字，另一个语言模型被训练为预测数字，以及另一个语言模型被训练为预测地址等等。

语音识别系统104可以标识与停靠情境信息107中所指示的停靠情境相关联的语言模型111a—111d。例如，语音识别系统104可以标识至少具有匹配用户101所讲出的短语103的阈值概率的语言模型111a-111d。又例如，特定的一组语言模型111a-111d可以被预先确定以对应于特定的停靠情境。

作为附加方式或替代方式，语音识别系统104可以基于之前所识别的语音标识语言模型111a-111d。例如，语音识别系统104可以确定基于之前所识别的词语“玩(play)”，针对游戏的语言模型和针对媒体的语言模型最可能匹配序列中接下来的短语。因此，语音识别系统104可以标识出针对游戏的语言模型和针对媒体的语言模型作为可以被用于识别音频数据105中被编码的语音的语言模型。

在状态(D)期间，语音识别系统104基于停靠情境信息107中所指示的停靠情境来确定针对所标识的语言模型111a-111d中的每个语言模型的加权值。在一些实现方式中，针对所标识的语言模型111a-111d中的每个语言模型的加权值还基于其它信息，例如来自基于语音序列中已经被识别的短语的语言模型的输出。所确定的加权值被分配给语言模型111a-111d中的相应的语言模型。

加权值可以指示用户101所讲出的短语103与相应的语言模型111a—111d中所包括的短语的类型相匹配的概率，并且从而指示语言模型111a-111d将指示短语103的正确转录的概率。例如，被分配给导航语言模型111a的加权值可以指示音频数据105中被编码的语音包括导航短语的概率。被分配给web搜索语言模型111b的加权值可以指示音频数据中被编码的语音包括web搜索中通常使用的常见短语的概率。

在一些实现方式中，语音识别系统104可以从所存储的加权值的多个组112、113、114、115中选择。每个加权值的集合112、113、114、115可以对应于特定的停靠情境。在所示出的示例中，加权值的集合113对应于车辆停靠站台106。因为停靠情境信息107指示客户端设备102被连接到车辆停靠站台106，所以语音识别系统选择与车辆停靠站台106相对应的加权值的集合113。集合113内的加权值被分配给相应的语言模型111a-111d。

各个组112、113、114、115中的加权值可以例如通过对在各种停靠情境中的各种用户所讲出的大量短语进行统计分析而被确定。针对给定特定的停靠情境情况下的特定语言模型的加权值可以基于所观察到的语言模型在该停靠情境中产生正确结果的频率。如果例如导航语言模型111a对于客户端设备102在车辆停靠站台中时出现的语音的50％正确地预测语音，则集合113中针对导航语音模型111a的加权值可以为0.5。关于语言模型如何预测语音的示例在下面参考图2A和2B被描述。

在一些实现方式中，语音识别系统104可以通过调节初始的一组加权值来确定针对语言模型111a-111d的加权值。例如，当停靠情境信息107指示客户端设备102未被停靠时或者当客户端设备102的停靠情境未知时，一组加权值112可以被使用。当停靠情境信息107指示客户端设备102被停靠，则组112中的各个加权值可以基于停靠情境的各个方面被改变。加权值可以利用公式、查找表以及其它方法被确定。在一些实现方式中，语音识别系统104可以利用停靠情境从分别与关键短语相对应的所存储的加权值的集合中进行选择。加权值的组112，113，114，115不需要直接与单一停靠情境相关联。例如，集合112可以与关键短语“导航至(navigate to)”相关联。当用户101讲出短语“导航至”时，不管停靠情境是否已知，集合112都被选择。此外，当客户端设备102被已知在车辆停靠站台106中时，集合112可以被选择，就像用户已经讲出关键短语“导航至”一样，即使用户101没有讲出该关键短语。

停靠情境可以影响最终被用于选择语言模型的各种决定以及加权值的类型，例如从开始状态到与一个或多个关键短语相关联的状态，或者从与关键短语相关联的加权值到特定语言模型的选择。停靠情境可以被用于确定被用于选择与关键短语相对应的一个或多个状态的加权值，并且与关键短语相对应的状态可以又与针对语言模型111a-111d的加权值相关联。例如，车辆停靠情境可以被用于确定针对与短语“导航至”相对应的状态的加权值“0.6”以及针对与短语“呼叫(call)”相对应的状态的加权值“0.4”。每个关键短语状态可以与指示源自该状态的各个语言模型的可能性的一组加权值相关联。

即使在与关键短语相对应的状态已被选择之后，并且指示各个语言模型111a-111d的概率的一组加权值已被选择之后，停靠情境仍然可以被用于修改加权值。例如，与短语“导航至”相关联的状态可以包括指示导航语言模型的可能性是商业语言模型的两倍的加权值。停靠情境可以被用于修改加权值以使得，对于当前口述的识别，导航语言模型的可能性是商业语言模型的三倍。

在状态(E)期间，语音识别系统104基于被分配的加权值来选择语言模型。如表116中所示，来自组113的加权值113a-113d被分配给语言模型111a-111d。这些加权值113a—113d基于停靠情境信息107中所指示的停靠情境指示相应的语言模型111a-111d与用户101所讲出的短语103相匹配的概率。针对导航的语言模型111a具有最高的加权值113a，这指示基于停靠情境，语言模型111a最可能正确预测语音数据中被编码的短语103的内容。基于这些加权值，语音识别系统104选择语言模型111a以用于对音频数据105的语音识别。

在一些实现方式中，单个语言模型111a基于加权值113a-113d被选择。在一些实现方式中，多个语言模型111a-111d可以基于加权值113a-113d被选择。例如，包括最好的N个语言模型111a-111d的子集可以被选择并且之后被用于标识针对音频数据105的候选转录。

语音识别系统104还可以利用加权值与其它因素的组合来选择语言模型。例如，语音识别系统104可以确定加权值113a—113d及其它加权值的加权组合，例如基于语音序列中被识别的之前的词语或者基于之前的转录的加权值。

例如，语音识别系统104可以将序列中的第一个短语转录为“玩”。仅仅基于停靠情境的加权值可能指示导航语言模型或者媒体语言模型应当被用于识别后续的语音。基于其它信息的第二组加权值(例如之前被用于识别第一个短语“玩”的语言模型的输出)可以指示游戏语言模型或媒体语言模型应当被使用。考虑这两组加权值，语音识别系统104可以选择媒体语言模型为最可能产生序列中的下一个短语的正确转录的语言模型。如该示例中，在一些实例中，不同的语言模型可以被用于识别序列中的不同短语，即使对于序列中的每个短语，停靠情境可能是相同的。

在状态(F)期间，语音识别系统104利用所选择的语言模型111a对音频数据105执行语音识别。语音识别系统104标识针对音频数据105的至少一部分的转录。语音识别系统104利用所选择的语言模型111a比利用通用的语言模型更可能正确地识别短语103。这是因为停靠情境指示了在音频数据105中最可能被编码的短语的类型，并且所选择的语言模型111a被选择为最佳地预测那些可能的短语。

通过利用所选择的语言模型111a，语音识别系统104可以将针对短语103的可能转录的范围缩窄为由所选择的语言模型111a指示的那些转录。这可以实质上改进语音识别，尤其是对于词组中的第一个词语。一般来说，在语音序列开始时有非常大量的短语可能出现。对于序列中的第一个短语，语音识别系统不能受益于序列中之前的词语来指示接下来可能的短语。然而，即使没有指示话题的之前的短语(例如“至...的驾驶路线(driving directions to)”或者“示出...处的地图(show map at)”)，语音识别系统104仍然将识别侧重于正确的短语集合，因为基于停靠情境选择的被选择的语言模型111a已经针对短语103的可能内容被修整。利用基于停靠情境选择的语言模型因而可以允许语音识别与用户已经在前缀短语中指定了语音话题的情况一样准确或者甚至更准确。

鉴于相同的原因，语音识别可以针对单个短语以及针对短的短语序列被改进，其中几乎没有词语之间的相互关系引导语音识别。因为搜索查询通常包括短的短语序列，所以使用基于停靠情境的语言模型可以大大提高在该应用中的准确性。

在该示例中，被讲出的短语103包括地址“10号大街”，并且没有指示短语103包括地址的口述前缀短语(例如“导航至”)。基于其中短语103被讲出的停靠情境，语音识别系统104还选择针对地址被训练(例如被优化或专门设计)的专门的语言模型111a。这个语言模型111a可以指示音频数据105中被编码的第一个短语将是数字并且第一个短语后面跟着街名的高概率。所选择的语言模型111a中所包括的专门的词汇和模式可以提高音频数据105的语音识别的准确性。例如在所选择的语言模型111a的焦点以外的短语(例如与导航不相关的短语)可以被排除在语言模型111a以外，从而排除它们作为针对短语103的可能转录。作为对比，那些短语可能被包括为通用语言模型中的有效转录可能，通用语言模型可能包括看上去是有效可能转录的很多短语，但是实际上对于识别当前的短语103来说是不相干的。

利用所选择的语言模型，语音识别系统104选择针对音频数据105的转录“10号大街”。该转录可以被传输至搜索引擎系统109。该转录也可以被传输给客户端设备102，这允许用户101可以验证转录的准确性并且在必要的情况下做出修正。

在状态(G)期间，搜索引擎系统109利用对口述查询短语103的转录来执行搜索。该搜索可以是web搜索、针对导航方向的搜索或者另一种类型的搜索。指示搜索查询的结果的信息被传输给客户端设备102。转录利用基于停靠情境选择的专门的语言模型111a被确定。因此，该转录与用户101所讲出的查询短语103匹配的可能性大于使用通用语言模型的可能性。因此，包括该转录的搜索查询更可能是用户101所意图的搜索。

虽然短语103的转录被描述为用在搜索中，但是该转录的各种其它使用也是可能的。在其它实现方式中，转录可以被用于例如访问地图或方向、找到并播放音乐或其它媒体、标识联系信息并启动通信、选择并发起应用、定位并打开文档、移动设备102的活动功能(例如照相机)等等。对于这些使用中的每种使用，利用转录所访问的信息可以被服务器系统、客户端设备102或者停靠站台106中的一个或多个标识。

在一些实现方式中，不同的语言模型111a-111d可以被选择并用于识别音频数据105的不同部分中的语音。即使当音频数据105与单一停靠情境相关联，其它信息(例如序列中其它被识别的词语)也可能影响语言模型111a-111d的选择。因此，序列中的不同短语可以利用不同的语言模型111a-111d被识别。

图2A是图示了语言模型200的表征的示例的图。一般来说，语音识别系统接收包括语音的音频数据并输出最佳匹配音频数据的一个或多个转录。语音识别系统可以同时或者顺序地执行多个功能以识别来自音频数据的一个或多个术语。例如，语音识别系统可以包括声音模型和语言模型200。语言模型200和声音模型可以被一起用于选择音频数据中的语音的一个或多个转录。

声音模型可以被用于标识匹配音频数据的一部分的短语。对于音频数据的特定部分，声音模型可以输出匹配音频数据的各个方面的短语以及指示每个短语与音频数据的匹配程度的加权值或置信分值。

语言模型200可以包括关于语音模式中的短语之间的关系的信息。例如，语言模型200可以包括关于常被使用的短语的序列以及符合语法规则和其它语言习惯的序列。语言模型200可以被用于指示语音序列中的一个短语基于序列中的一个或多个其它短语的出现的概率。例如，语言模型200可以基于词语序列中之前的词语标识哪个词语具有出现在词语序列的特定部分中的最高概率。

语言模型200包括一组节点201a-201i以及节点201a-201i之间的转换202a-202h。每个节点201a-201i代表单个短语(例如词语)在语音序列中被选择的判决点。从节点201a-201i向外的每个转换202a-202h与可以被选择作为序列的成员的短语相关联。每个转换202a-202h还与加权值相关联，该加权值例如指示与转换202a-202h相关联的短语在序列中的点处出现的概率。加权值可以基于序列中的多个之前的短语被设置。例如，每个节点处的转换和针对这些转换的加权值可以基于在语音序列中的该节点之前出现的N个短语而被确定。

例如，第一节点201a代表语音序列中的第一个短语被选择的判决点。源自节点201a的唯一转换是与短语“the”相关联的转换202a。顺着转换202a意味着选择短语“the”作为语音序列中的第一个短语，导致在节点201b处的下一个判决。

在节点201b处，有两种可能的转换：(1)转换202b，该转换与短语“帽子(hat)”相关联并且具有加权值0.6；以及(2)转换202c，该转换与短语“多个帽子(hats)”相关联并且具有加权值0.4。转换202b具有比转换202c更高的加权值，指示短语“帽子”比短语“多个帽子”更可能出现在语音序列中的该点处。通过在每个节点201a-201i处选择具有最高加权值的转换202a-202h，指示最可能的短语序列的路径204被创建，在该示例中，最可能的短语序列为“帽子是黑色的(the hat is black)”。

语言模型中的转换的加权值可以基于展示有效短语序列的示例文本库中的语言模式被确定。以下技术中的一个或多个技术可以被使用。诸如区分性训练之类的机器学习技术可以被用于利用隐式马尔可夫模型(“HMM”)设置转换的概率。加权后的有限状态机转换器可以被用于手动地指定和建立语法模型。N元文法平滑(N-gramsmoothing)可以被用于对示例短语库中的n元文法的出现次数进行计数，并且由那些计数值导出转换概率。诸如Baum-Welch算法之类的期望-最大化技术可以被用于设置使用示例文本库的HMM中的概率。

图2B是图示了声音模型结合图2A中所示的语言模型的使用示例的图。语言模型的输出可以与声音模型的输出组合以选择针对音频数据的转录。例如，图2B图示了针对与单个短语相对应的音频数据的一部分的来自声音模型和语言模型的输出的组合。具体而言，图2B图示了针对以下音频数据的输出，该音频数据与源自图2A中的节点201d的转换202f-202h所选择的短语相对应。语言模型输出短语212a-212c以及与源自节点201d的最高加权的转换相关联的相应的加权值。声音模型输出最佳匹配音频数据的短语216a-216c，以及指示短语216a-216c与音频数据匹配的程度的相应的加权值217a-217c。

加权值213a-213c和217a-217c被组合以生成组合加权值223a-223e，这些组合加权值被用于对组合的一组短语222a-222e进行排名。如图所示，基于声音模型和语言模型的输出，短语222a“黑色(black)”具有最高的组合加权值，并且因而是针对音频数据的相应部分的最可能的转录。虽然声音模型和语言模型所输出的加权值213a-213c，217a-217c被显示为在确定组合加权值223a-223e上具有等同的影响力，但是加权值213a-213c，217a-217c也可以被不等同地组合并且可以与其它类型的数据组合。

图3是图示了用于利用客户端设备的停靠情境执行语音识别的过程300的示例的流程图。简单地说，过程300包括访问包括经编码的语音的音频数据。指示客户端设备的停靠情境的信息被访问。多个语言模型被标识。这些语言模型中的至少一个基于停靠情境被选择。利用所选择的语言模型，对音频数据进行语音识别。

更详细地说，包括经编码的语音的音频数据被访问(302)。音频数据可以从客户端设备处被接收。经编码的语音可以是被客户端设备检测的语音，例如由客户端设备记录的语音。经编码的语音可以包括一个或多个口述查询短语。

指示客户端设备的停靠情境的信息被访问(304)。停靠情境可以与音频数据相关联。指示停靠情境的信息可以从客户端设备处被接收。例如，指示停靠情境的信息可以指示当音频数据中被编码的语音被客户端设备检测到时客户端设备是否被连接到停靠站台。指示停靠情境的信息还可以指示当音频数据中被编码的语音被客户端设备检测到时客户端设备被连接到的停靠站台的类型。

指示停靠情境的信息可以指示客户端设备与客户端设备被无线连接到的第二设备之间的连接。指示停靠情境的信息可以指示客户端设备与客户端设备被物理连接到的第二设备之间的连接。

多个语言模型被标识(306)。多个语言模型中的每个语言模型可以指示短语序列中的一个短语基于序列中的其它短语的出现的概率。多个语言模型中的每个语言模型可以针对特定话题类别的词语被训练。对于每个语言模型，词语的话题类别可以是不同的。多个语言模型中的一个或多个语言模型可以包括语言模型的一部分或子集。例如，多个语言模型中的一个或多个语言模型可以是另一语言模型的子模型。

被标识的语言模型中的至少一个语言模型基于停靠情境被选择(308)。例如，针对被标识的语言模型中的每个语言模型的加权值可以基于停靠情境被确定。加权值可以被分配给相应的语言模型。每个加权值可以指示其被分配给的语言模型将指示经编码的语音的正确转录的概率。确定针对语言模型中的每个语言模型的加权值可以包括访问与停靠情境相关联的所存储的加权值。确定针对多个语言模型中的每个语言模型的加权值包括访问所存储的加权值并且基于停靠情境改变所存储的加权值。

基于停靠情境确定加权值可以包括例如确定客户端设备被连接到车辆停靠站台，并且针对被训练为输出地址的导航语言模型，确定提高导航语言模型相对于其它被标识的语言模型被选择的概率的加权值。

利用所选择的语言模型对音频数据执行语音识别(310)。针对音频数据的至少一部分的转录被标识。例如，针对音频数据中被编码的一个或多个口述短语的转录可以被生成。

音频数据中的被编码的语音可以包括口述查询短语，并且音频数据的一部分的转录可以包括口述查询短语的转录。过程300可以包括使得搜索引擎利用一个或多个口述查询短语的转录执行搜索并且向客户端设备提供标识搜索查询的结果的信息。

图4是作为客户端或者作为服务器或多个服务器、可以被用于实现本文档中所描述的系统和方法的计算设备400，450的框图。计算设备400意在代表各种形式的数字计算机，例如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片式服务器、主机和其它合适的计算机。计算设备450意在代表各种形式的客户端设备，例如个人数字助理、蜂窝电话、智能电话和其它类似的计算设备。这里所示出的组件、它们的连接及关系以及它们的功能只是示例性，而不是要限制本文档中所描述和／或要求保护的发明的实现方式。

计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404和高速扩展端口410的高速接口控制器408，以及连接到低速扩展端口414和存储设备406的低速接口控制器412。组件402、404、406、408、410和412中的每个组件利用各个总线被互连，并且可以被安装在共用的母板上或者以其它合适的方式被安装。处理器402可以处理用于在计算设备400内执行的指令，包括存储在存储器404中或者存储设备406上的指令，以将针对GUI的图形信息显示在外部输入／输出设备上，例如被耦接到高速接口408的显示器416上。在其它实现方式中，多个处理器和／或多个总线可以适当地与多个存储器和多种类型的存储器一起被使用。此外，多个计算设备400可以被连接，每个设备提供必要的操作的若干部分(例如作为服务器阵列、一组刀片式服务器或者多处理器系统)。

存储器404存储计算设备400内的信息。在一种实现方式中，存储器404是易失性存储器单元。在另一种实现方式中，存储器404是非易失性存储器单元。存储器404也可以是另一种形式的计算机可读介质，例如磁盘或光盘。

存储设备406能够为计算设备400提供海量存储。在一种实现方式中，存储设备406可以是计算机可读介质或者包括计算机可读介质，例如柔性盘设备、硬盘设备、光盘设备或者磁带设备、闪存存储器或者其它类似的固态存储器设备或者一组设备，包括在存储区域网络或者其它配置中的设备。计算机程序产品可以被有形地包括在信息载体中。计算机程序产品还可以包括在被执行时执行例如上述那些方法的一个或多个方法的指令。信息载体是计算机或机器可读的介质，例如存储器404、存储设备406或者处理器402上的存储器。

此外，计算设备400或450可以包括通用串行总线(USB)闪存驱动。USB闪存驱动可以存储操作系统和其它应用。USB闪存驱动可以包括输入／输出组件，例如可以被插入到另一计算设备的USB端口中的无线发射器或USB连接器。

高速接口控制器408管理针对计算设备400的带宽密集型操作，而低速接口控制器412管理较低带宽密集程度的操作。这种对功能的分配只是示例性的。在一种实现方式中，高速控制器408被耦接到存储器404、显示器416(例如通过图形处理器或加速器)以及可以接受各种扩展卡(未被示出)的高速扩展端口410。在该实现方式中，低速控制器412被耦接到存储设备406和低速扩展端口414。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口414可以被耦接到一个或多个输入／输出设备，例如键盘、定点设备、扫描仪或者例如通过网络适配器的联网设备，例如交换机或路由器。

计算设备400可以按很多种不同的形式被实现，如图中所示。例如，它可以作为标准服务器420被实现，或者在一组这样的服务器中多次被实现。计算设备400也可以作为机架式服务器系统424的一部分被实现。此外，它可以在诸如膝上型计算机422之类的个人计算机中被实现。或者，计算设备400的组件可以与客户端设备(未被示出)中的其它组件组合，例如设备450。这样的设备中的每个设备可以包括一个或多个计算设备400，450，并且整个系统可以由彼此通信的多个计算设备400，450构成。

计算设备450包括处理器452、存储器464、诸如显示器454之类的输入／输出设备、通信接口466和收发器468等等。设备450还可以被提供有存储设备，例如微驱动、固态存储组件或者其它设备，以提供额外的存储。组件452、464、454、466和468中的每个组件利用各个总线被互连，并且这些组件中的若干个组件可以被安装在共用的母板上或者以其它合适的方式被安装。

处理器452可以执行计算设备400的指令，包括存储在存储器464中的指令。处理器可以被实现为包括独立的多个模拟和数字处理器的芯片的芯片组。此外，处理器可以利用很多种体系结构中的任意体系结构来实现。例如，处理器402可以是CISC(复杂指令集计算机)处理器、RISC(简化指令集计算机)处理器、或者MISC(最小指令集计算机)处理器。处理器可以实现例如设备450的其它组件的协作，例如对用户接口、设备450所运行的应用以及设备450的无线通信的控制。

处理器452可以通过被耦接到显示器454的控制接口458和显示器接口456与用户通信。显示器454可以例如是TFT(薄膜晶体管液晶显示器)显示器或者OLED(有机发光二极管)显示器或者其它合适的显示技术。显示器接口456可以包括用于驱动显示器454向用户呈现图形和其它信息的合适的电路。控制接口458可以接收来自用户的命令并将将它们转化以提交给处理器452。此外，外部接口462可以被提供为与处理器452通信，以实现设备450与其它设备的近距离通信。外部接口462可以例如在一些实现方式中提供有线通信，或者在其它实现方式中提供无线通信，并且多个接口也可以被使用。

存储器464存储计算设备450内的信息。存储器464可以作为计算机可读介质、易失性存储器单元或者非易失性存储器单元中的一个或多个被实现。扩展存储器474也可以被提供并且通过扩展接口472被连接到设备450，扩展接口472可以包括例如SIMM(单列存储器模块)卡接口。这种扩展存储器474可以为设备450提供额外的存储空间，或者也可以存储用于设备450的应用或其它信息。具体而言，扩展存储器474可以包括用以执行或补充上述过程的指令，并且还可以包括安全信息。因而，例如，扩展存储器474可以作为用于设备450的安全模块被提供，并且可以被编程有允许设备450的安全使用的指令。此外，安全应用可以通过SIMM卡与附加的信息一起被提供，例如以不可破解的方式在SIMM卡上放置标识信息。

存储器可以包括例如闪存和／或NVRAM存储器，如下面所讨论的。在一个实现方式中，计算机程序产品被有形地包括在信息载体中。计算机程序产品包括在被执行时执行例如上述那些方法的一个或多个方法的指令。信息载体是计算机或机器可读介质，例如可以例如通过收发器468或外部接口462被接收的存储器464、扩展存储器474或者处理器452上的存储器。

设备450可以通过通信接口466无线地通信，必要时，该通信接口466可以包括数字信号处理电路。通信接口466可以实现在各种模式或协议下的通信，例如GSM语音呼叫、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或者GPRS等等。这种通信可以例如通过射频收发器468进行。此外，短程通信可以例如使用蓝牙、WiFi或者其它这样的收发器(未被示出)进行。此外，GPS(全球定位系统)接收器模块470可以向设备450提供附加的导航及位置相关的无线数据，这些数据可以适当地被运行在设备450上的应用使用。

设备450也可以利用音频编解码器460进行有声通信，音频编解码器460可以接收来自用户的口述信息并将其转化为可用的数字信息。音频编解码器460同样可以生成针对用户的可听到的声音，例如通过例如设备450的手持机中的扬声器。这样的声音可以包括来自语音电话呼叫的声音，可以包括被记录的声音(例如语音消息、音乐文件等)并且也可以包括由运行在设备450上的应用生成的声音。

计算设备450可以按很多种不同的形式被实现，如图中所示。例如，它可以被实现为蜂窝电话480。它也可以被实现为智能电话482、个人数字助理或者其它类似的客户端设备的一部分。

这里所描述的系统和技术的各种实现方式可以在数字电子线路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和／或它们的组合中被实现。这些各种实现方式可以包括在一个或多个计算机程序中的实现方式，计算机程序是在包括至少一个可编程处理器的可编程系统上可以执行和／或解析的，至少一个可编程处理器可以是专用的也可以是通用的，并且至少一个可编程处理器被耦接以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令并且向它们发送数据和指令。

这些计算机程序(也被公知为程序、软件、软件应用或代码)包括针对可编程处理器的机器指令，并且可以用高级过程和／或面向对象的编程语言来实现，以及／或者用汇编／机器语言来实现。如这里所使用的，术语“机器可读介质”、“计算机可读介质”指被用于向可编程处理器提供机器指令和／或数据的任何计算机程序产品、装置和／或设备(例如磁盘、光盘、存储器、可编程逻辑器件(PLD))，包括作为机器可读信号接收机器指令的机器可读介质。术语“机器可读信号”指被用于向可编程处理器提供机器指令和／或数据的任何信号。

为了提供与用户的交互，这里所描述的系统和技术可以在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)和用户可以用其向计算机提供输入的键盘和定点设备(例如鼠标或跟踪球)的计算机上被实现。其它类型的设备也可以被用于提供与用户的交互；例如，被提供给用户的反馈可以是任何形式的知觉反馈(例如视觉反馈、听觉反馈或触觉反馈)；并且来自用户的输入可以按任何形式被接收，包括声音、语音或触觉输入。

这里所描述的系统和技术可以在包括后端组件(例如作为数据服务器)或者包括中间组件(例如应用服务器)或者包括前端组件(例如具有图形用户接口的客户端计算机或者用户可以通过其与这里所描述的系统和技术的实现方式进行交互的web浏览器)或者这些后端、中间或前端组件的任意组合的计算系统中被实现。系统的组件可以通过任何数字数据通信的形式或介质(例如通信为了)被互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)、对等网络(具有自组织成员或者静态成员)、网格计算架构和互联网。、

计算系统可以包括客户端和服务器。客户端和服务器一般是彼此远程的并且通常通过通信网络进行交互。客户端与服务器的关系通过运行在相应的计算机上并且彼此具有客户端-服务器关系的计算机程序呈现。

多个实现方式已经被描述。然而，应当理解各种修改可以被进行。例如，以上所示出的流程的各种形式可以被使用，其中的步骤可以被重新排序、添加或删除。此外，虽然已经描述了提供针对媒体共享的激励和方法的若干应用已被描述，但是应当意识到多种其它应用也可以被设想。因此，其它实现方式也在所附权利要求的范围内。

Claims

1.一种计算机实现的方法，包括：

在服务器系统处接收包括经编码的语音的音频数据，所述经编码的语音已被客户端设备检测到；

在所述服务器系统处接收指示所述音频数据中所编码的语音被所述客户端设备检测到时所述客户端设备的停靠情境的信息；

标识多个语言模型，所述多个语言模型中的每个语言模型指示短语序列中一个短语基于所述序列中的其它短语的出现概率；

针对所述多个语言模型中的每个语言模型，通过访问与所述停靠情境相关联的所存储的加权值，基于所述停靠情境来确定要分配给所述语言模型的加权值，所述加权值指示使用所述语言模型将生成对所述经编码的语音的正确转录的概率；

基于所分配的加权值来选择所述多个语言模型中的至少一个语言模型；以及

使用所选择的语言模型对所述音频数据执行语音识别，以标识针对所述音频数据的一部分的转录。

2.根据权利要求1所述的方法，其中所述停靠情境指示所述音频数据中所编码的语音被所述客户端设备检测到时所述客户端设备被连接到的停靠站台的类型。

3.根据权利要求1或2所述的方法，其中所述经编码的语音包括一个或多个查询短语，并且其中所述转录包括所述查询短语，并且其中所述方法还包括：

生成包括所述查询短语的搜索查询；

使用所述搜索查询来执行搜索；以及

向所述客户端设备提供指示所述搜索的结果的信息。

4.根据权利要求1至3中的任一项所述的计算机实现的方法，其中所述多个语言模型中的每个语言模型针对特定的词语话题类别被训练。

5.根据权利要求1至4中的任一项所述的计算机实现的方法，其中基于所述停靠情境来确定加权值包括：

确定所述客户端设备被连接到车辆停靠站台；以及

针对被训练为输出地址的导航语言模型，确定提高所述导航语言模型相对于所述多个语言模型中的其它语言模型被选择的概率的加权值。

6.一种计算机实现的方法，包括：

访问包括经编码的语音的音频数据；

访问指示客户端设备的停靠情境的信息，所述停靠情境与所述音频数据相关联；

标识多个语言模型；

基于所述停靠情境来选择所述多个语言模型中的至少一个语言模型；以及

7.根据权利要求6所述的计算机实现的方法，其中指示所述客户端设备的停靠情境的所述信息指示所述客户端设备与第二设备之间的连接，所述客户端设备被物理连接到所述第二设备。

8.根据权利要求6或7所述的计算机实现的方法，其中指示所述客户端设备的停靠情境的所述信息指示所述客户端设备与第二设备之间的连接，所述客户端设备被无线连接到所述第二设备。

9.根据权利要求6至8中的任一项所述的计算机实现的方法，还包括针对所述多个语言模型中的每个语言模型，基于所述停靠情境来确定要分配给所述语言模型的加权值，所述加权值指示所述语言模型将指示针对所述经编码的语音的正确转录的概率；

其中基于所述停靠情境选择所述多个语言模型中的至少一个语言模型包括基于所分配的加权值来选择所述多个语言模型中的至少一个语言模型。

10.根据权利要求6至9中的任一项所述的计算机实现的方法，其中所述音频数据中所编码的语音被所述客户端设备检测，并且其中指示停靠情境的所述信息指示所述音频数据中所编码的语音被所述客户端设备检测到时所述客户端设备是否被连接到停靠站台。

11.根据权利要求6至10中的任一项所述的计算机实现的方法，其中所述音频数据中所编码的语音被所述客户端设备检测，并且其中指示停靠情境的所述信息指示所述音频数据中所编码的语音被所述客户端设备检测到时所述客户端设备被连接到的停靠站台的类型。

12.根据权利要求6至11中的任一项所述的计算机实现的方法，其中所述经编码的语音包括一个或多个口述查询短语，并且其中所述转录包括对所述口述查询短语的转录，并且其中所述方法还包括：

使得搜索引擎使用对所述一个或多个口述查询短语的转录来执行搜索；以及

向所述客户端设备提供指示所述搜索查询的结果的信息。

13.根据权利要求6至12中的任一项所述的计算机实现的方法，其中确定针对所述多个语言模型中的每个语言模型的加权值包括访问与所述停靠情境相关联的所存储的加权值。

14.根据权利要求6至13中的任一项所述的计算机实现的方法，其中确定针对所述多个语言模型中的每个语言模型的加权值包括访问所存储的加权值，并且基于所述停靠情境改变所存储的加权值。

15.根据权利要求6至14中的任一项所述的计算机实现的方法，其中所述多个语言模型中的每个语言模型针对特定的词语话题类别被训练。

16.根据权利要求6至15中的任一项所述的计算机实现的方法，其中基于所述停靠情境来确定加权值包括：

确定所述客户端设备被连接到车辆停靠站台；以及

17.一种系统，包括：

一个或多个处理器；以及

计算机可读介质，其上存储有指令，所述计算机可读介质被耦接到所述一个或多个处理器，所述指令在被所述一个或多个处理器执行时使得所述系统执行包括以下操作的操作：

访问包括经编码的语音的音频数据；

标识多个语言模型；

18.根据权利要求17所述的系统，其中所述操作还包括针对所述多个语言模型中的每个语言模型，基于所述停靠情境来确定要分配给所述语言模型的加权值，所述加权值指示所述语言模型将指示针对所述经编码的语音的正确转录的概率；

其中基于所述停靠情境来选择所述多个语言模型中的至少一个语言模型包括基于所分配的加权值来选择所述多个语言模型中的至少一个语言模型。

19.根据权利要求17或18所述的系统，其中所述音频数据中所编码的语音被所述客户端设备检测，并且其中指示停靠情境的所述信息指示所述音频数据中所编码的语音被所述客户端设备检测到时所述客户端设备是否被连接到停靠站台。

20.根据权利要求17至19中的任一项所述的系统，其中所述音频数据中所编码的语音被所述客户端设备检测，并且其中指示停靠情境的所述信息指示所述音频数据中所编码的语音被所述客户端设备检测到时所述客户端设备被连接到的停靠站台的类型。

21.一种计算机存储介质，所述计算机存储介质被编码有计算机程序，所述程序包括指令，所述指令在被一个或多个计算机执行时使得所述一个或多个计算机执行包括以下操作的操作：

访问包括经编码的语音的音频数据；

22.根据权利要求21所述的计算机存储介质，其中所述操作还包括针对所述多个语言模型中的每个语言模型，基于所述停靠情境来确定要分配给所述语言模型的加权值，所述加权值指示所述语言模型将指示针对所述经编码的语音的正确转录的概率；

其中基于所述停靠情境来选择所述多个语言模型中的至少一个语言模型包括基于所分配的加权值选择所述多个语言模型中的至少一个语言模型。

23.根据权利要求21或22所述的计算机存储介质，其中所述音频数据中所编码的语音被所述客户端设备检测，并且其中指示停靠情境的所述信息指示所述音频数据中所编码的语音被所述客户端设备检测到时所述客户端设备是否被连接到停靠站台。

24.根据权利要求21至23中的任一项所述的计算机存储介质，其中所述音频数据中所编码的语音被所述客户端设备检测，并且其中指示停靠情境的所述信息指示所述音频数据中所编码的语音被所述客户端设备检测到时所述客户端设备被连接到的停靠站台的类型。

25.根据权利要求21至24中的任一项所述的计算机存储介质，其中所述经编码的语音包括一个或多个口述查询短语，并且其中所述转录包括对所述口述查询短语的转录，并且其中所述操作还包括：

向所述客户端设备提供指示所述搜索查询的结果的信息。

26.一种计算机实现的方法，包括：

在客户端设备处检测包括语音的音频；

将所检测到的音频编码为音频数据；

将所述音频数据传输至服务器系统；

标识所述客户端设备的停靠情境；

将指示所述停靠情境的信息传输至所述服务器系统；并且

在所述客户端设备处接收所述音频数据中的至少一部分的转录，所述服务器系统已经：

基于指示所述停靠情境的信息从多个语言模型中选择语言模型，

通过使用所选择的语言模型对所述音频数据执行语音识别来生成所述转录，以及

将所述转录传输至所述客户端设备。

27.根据权利要求26所述的计算机实现的方法，其中所述被标识的停靠情境是在所述音频被检测到时所述客户端设备的停靠情境。

28.根据权利要求26或27所述的计算机实现的方法，其中指示所述客户端设备的停靠情境的所述信息指示所述客户端设备与第二设备之间的连接，所述客户端设备被物理连接到所述第二设备。

29.根据权利要求26至28中的任一项所述的计算机实现的方法，其中指示所述客户端设备的停靠情境的所述信息指示所述客户端设备与第二设备之间的连接，所述客户端设备被无线连接到所述第二设备。