CN104509079A

CN104509079A - 基于位置标记的语音识别模型

Info

Publication number: CN104509079A
Application number: CN201380040775.5A
Authority: CN
Inventors: G·陶布曼; B·斯特罗普
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-08-01
Filing date: 2013-07-23
Publication date: 2015-04-08
Anticipated expiration: 2033-07-23
Also published as: EP2880844A1; WO2014022148A1; US8831957B2; US20140039888A1; CN104509079B; EP2880844B1

Abstract

公开了用于使用模型执行语音识别的方法、系统和包括编码在计算机存储介质上的计算机程序的装置，该模型基于其中说话者做出话语的建筑物内的位置。所述方法、系统和装置包括接收对应于话语的数据和获得用于其中话语被说出的建筑物内的区域的位置标记的动作。进一步的动作包括基于位置标记选择用于语音识别的一个或多个模型，其中每个所选择的一个或多个模型与基于位置标记的权重相关联。此外，动作还包括使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重生成复合模型。所述动作还包括使用复合模型生成话语的转录。

Description

基于位置标记的语音识别模型

相关申请的交叉引用

本申请要求于2012年8月1日提交的序列号为61/678,277和于2012年10月15日提交的序列号为13/651,566的美国临时申请的权益，其整体如同完全记载于此一样通过引用的方式并入。

技术领域

本说明书总体上涉及自动语音识别。

背景技术

语音识别通常依赖于所说语言的语音识别模型。然而，对于给定的语言(或给定语言的方言)，取决于在何处发出词语而不同地使用词语。例如，当人在他们的客厅中时，他们可能频繁地使用与电视节目和媒体播放器的控制相关的词语，而当人在他们的厨房中时，他们可能使用与食物类型或烹饪相关的词语。用于语音识别的典型语言模型通常没有考虑到在说出词语处的位置特定情境，特别是对于在建筑物(例如在家)内的词语使用的变化。

发明内容

一般而言，本说明书中所描述的主题的一方面可以包括自动语音识别引擎(ASR)，该自动语音识别引擎使用基于说话者在建筑物中何处做出话语的模型，执行语音识别。在一些实现方式中，该语音识别模型可以是基于两个或更多情境特定模型的复合模型。ASR引擎可以将话语转录成文本，例如用于语音查询，或者通过处理器执行将话语转换成命令。

在某些方面，本说明书中所描述的主题可以体现为方法，该方法包括接收对应于话语的数据和获得用于其中该话语被说出的建筑物内的区域的位置标记的动作。进一步的动作包括基于位置标记选择用于语音识别的一个或多个模型，其中每个所选择的一个或多个模型与基于位置标记的权重相关联。此外，所述动作还包括使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型。所述动作还包括使用复合模型生成话语的转录。

主题的另一方面可以体现为方法，该方法包括在客户端设备处接收话语和在客户端设备处获得用于其中该话语被说出的建筑物内的区域的位置标记的动作。所述动作还包括从客户端设备向服务器传送对应于话语和用于其中话语被说出的建筑物内的区域的位置标记的数据。并且所述动作包括在客户端设备处接收话语的转录。在一些方面，使用复合模型生成话语的转录，并且使用一个或多个模型和基于位置标记而选择的一个或多个模型的相应权重来生成复合模型。

其他版本包括相对应的系统、装置和被配置为执行所述方法的动作的计算机程序，该计算机程序编码在计算机存储设备上。

这些和其他的版本可以每个可选择地包括以下特征中的一个或多个特征。例如，一些实现方式涉及到从客户端设备接收对应于话语的数据，从客户端设备接收用于其中该话语被说出的建筑物内的区域的位置标记。该位置标记可以为基于在客户端设备处接收的短程无线电传输的位置数据。

一些实现方式涉及到使用位置无关语言模型生成话语的一个或多个候选转录，并且然后基于将一个或多个候选转录与一个或多个位置相关语言模型中的短语进行比较，标识建筑物内的一个或多个候选区域。

某些实现方式涉及到从在建筑物处的处理系统接收对应于话语的数据，并且从在建筑物处的处理系统接收用于其中话语被说出的建筑物内的区域的位置标记。在一些方面，位置标记为从处理系统获得的位置数据。处理系统使用被布置在建筑物中的麦克风阵列定位话语，其中麦克风阵列可操作地耦合到处理系统。

此外，在一些实现方式中，所选择的用于语音识别的模型为语言模型，并且复合模型为复合语言模型。在一些实现方式中，所选择的用于语音识别的模型为声学模型，并且复合模型为复合声学模型。并且在一些实现方式中，所选择的用于语音识别的模型为语言模型和声学模型，并且复合模型为复合语言模型和复合声学模型。

在下文的附图和描述中记载了本说明书所描述的主题的一个或多个实施例的细节。所述主题的其他特征、方面以及优点将根据描述、附图和权利要求而变得清楚。

附图说明

图1a和1b是生成位置相关语音识别模型和使用位置相关语音识别模型执行语音识别的示例系统的图。

图2是生成和获得位置相关声学模型以用于在语音识别中使用的样本ASR引擎的组件的图。

图3a和3b是生成和获得位置相关语音模型以用于在语音识别中使用的样本ASR引擎的组件的图。

图4是用于使用基于位置标记的语音识别模型来执行语音识别的示例过程的流程图。

在不同附图中相同的附图的标记表示相同的元件。

具体实施方式

如下所述，ASR引擎可以基于在建筑物(例如用户的家)中用户做出话语所处的区域(例如房间)，使语音识别模型偏向，或者选择完全不同的语音识别模型。这可以涉及到若干特征。第一，安装在建筑物中的客户端设备和/或应答器系统被用来当用户在建筑物中移动并做出话语时估计他们的位置。第二，在训练阶段期间，ASR引擎使用位置无关语音识别模型来执行语音识别，并从遍及建筑物的各个位置收集话语的转录。第三，转录可以被用来生成位置相关语音识别模型，该位置相关语音识别模型可以随后被用来执行语音识别。在一些方面，可以将来自多个用户和/或多个建筑物的转录组合以生成聚合的位置相关语音识别模型。例如，可以将处于或者靠近位于各个建筑物的厨房的多个话语的转录组合以生成厨房特定语音识别模型。

如在本公开中使用的，位置相关语音识别模型是被偏向于与建筑物的给定区域相关的主题、词语、噪声和/或声学特征(signature)的模型。本公开中所使用的区域指的是建筑物的功能部分(例如厨房、餐厅、卧室、客厅、洗手间、办公室)。在不同的建筑物中，相同类型的区域(例如厨房)可以具有不同的尺寸和声学特性(例如混响)，但是可以共享相似的噪声特征和词汇。例如，一室公寓中的厨房与大的独户住宅中的厨房相比可能具有不同的声学特性，但是仍然可以具有共同的噪声和语义主题。因此，与厨房区域相关联的位置相关模型可以包括与食物和烹饪主题和/或在厨房中最常发现的噪声(例如微波炉、搅拌器、洗碗机等)相关的词语。位置无关语音识别模型是不偏向于住宅的任何特定区域的模型。

此外，在本公开中，人说出的短语被称为话语。一般而言，话语可以包含一个或多个词语。话语可以表示任何语音通信类型，例如(例如为了操作家庭自动化系统的)基于语音的指令、命令或动作，基于语音的搜索查询、口述(dictation)、对话系统或者使用经转录的语音或者调用使用经转录的语音来执行动作的软件应用的任何其他输入。

图1a示出了生成位置相关语音识别模型和使用位置相关语音识别模型执行语音识别的示例系统100。图1a还示出了语音识别在执行时处理器系统102中的数据流。参照图1a，首先描述了用于执行语音识别方法的一般性描述，然后提供了更详细的描述。

初始地，在图1a中，当用户102位于客厅120中时，用户102做出话语104(即“苹果和香料”)。例如，用户102可以具有家庭自动化系统，该家庭自动化系统控制客厅里包括音乐播放器(例如MP3播放器)的娱乐系统，用户102可以打算播放叫做“苹果&香料”乐队的“精选集”专辑。响应于该话语，客户端设备106将话语104编码成音频信号，并通过检测来自无线电应答器112的信号来获得位置标记。客户端设备106然后将音频信号和位置标记(例如无线电应答器112的标识符)经由网络110发送到处理系统108。处理系统108执行接收了位置标记和音频信号的ASR引擎116。

假定ASR引擎116已经被训练，位置确定组件130访问位置标记，并获得用户102在说出话语时的估计位置。在本实施例中，由于位置确定组件130接收到无线电应答器110(与客厅相关联)的标识符，因此位置确定组件130会输出与客厅120对应的估计位置。这一估计位置然后被输出至声学模型生成器134和语言模型生成器140。声学模型生成器134从声学模型的集合136中选择与客厅区域相关联的位置相关声学模型。语言模型生成器140从语言模型的集合142中选择也与客厅区域相关联的位置相关语言模型142b。

ASR引擎116然后使用所选择的声学模型132和语言模型138来将对应于话语104的音频信号转换成转录。在这一情况下，用于客厅142b的语言模型包括短语“苹果&香料”，ASR引擎116将其识别为针对话语104的最佳匹配。例如，客厅语言模型142b可以通过用户媒体库(例如电影、音乐、电视节目、视频游戏等)来编程。应当注意，词语“苹果”和“香料”也在用于厨房142a的语言模型中，这在没有附加情境信息的情况下可能导致歧义。有利的是，因为ASR引擎116使语言模型的选择基于位置标记，这表明当说出话语时，用户102在客厅120中而不是厨房122中，所以，ASR引擎116可以容易地解决歧义。

最后，ASR引擎116可以经由输出组件144传达转录“苹果&香料”。例如，输出组件144可以提供去往在处理器系统108上执行的媒体播放器控制程序的接口，反过来可以使得媒体播放器排队等候“苹果&香料的精选集”专辑以用于重放。

更详细地，用户102位于具有多个区域(例如客厅120和厨房122)的建筑物(例如在用户的家中)中。当在客厅102中时，用户102说出话语104至客户端设备106中(例如“苹果和香料”)。客户端设备106是在用户的控制下并且能够通过网络请求和接收资源的电子设备。客户端设备(其示例包括图1a和1b的设备)可以包括一个或多个处理设备，并且可以为或者包括移动电话(例如智能电话)、膝上型计算机、手持计算机、平板计算机、网络设备、相机、增强通用分组无线业务(EGPRS)移动电话，媒体播放器、导航设备、电子邮件设备、可穿戴式计算机、游戏控制台、交互式或者所谓“智能”电视、或者任何两个或更多这些数据处理设备或者其他数据处理设备的组合。

用户102可以记录话语104，例如通过按压客户端设备106上的按钮来在说话之前发起对话，说出该、话语，并然后释放移动设备上的按钮。在另一示例中，客户端设备106可以通过说话者的话语来激活。在另一示例中，用户可以在说出话语之前选择客户端设备106上的用户接口控制(例如麦克风图标)。作为又一示例，麦克风可以在用户说话之前被激活，或者可以处于“始终开启(always on)”状态，来允许用户不需要手动激活麦克风就能说话。例如，客户端设备可以使用连续记录缓冲器。

客户端设备106然后将用户的话语104转换成一系列音频信号(例如样本或波形)，该音频信号例如可以为两秒(或更多)相对高质量音频(例如16kHz无损音频)的片段。例如，客户端设备106可以在记录话语时创建声音文件或者数据流。此外，响应于接收到话语104，客户端设备106发起用以获得用于其中话语被说出的建筑物的区域的位置标记的过程。本公开所指的位置标记为指示信号从特定位置获得的相对可能性的数据。

在一些实现方式中，例如在图1a中示出的示例，位置标记可以为描述从无线电应答器发送的无线电信号的数据(例如无线电应答器标识符和信号强度)，该无线电信号由位于建筑物的特定区域中的客户端设备所接收。例如，如下所述，无线电应答器130可以被定位在遍及建筑物的各个区域中。无线电应答器可以为任何合适的短程无线电系统，例如蓝牙、近场通信(NFC)或者WiFi。

无线电应答器可以被安装在遍及建筑物的各个区域中，并然后与建筑物中的相应区域相关联。例如，无线电应答器112可以与客厅区域120相关联，无线电应答器114可以与厨房区域122相关联。可以使用任何合适的手段使无线电应答器与建筑物的不同区域相关联。例如，处理系统108可以提供接口，以使得用户可以将每个无线电应答器标记为处于特定类别的房间(例如厨房、客厅、卧室、办公室、餐厅、浴室)中。在一些实现方式中，处理系统108可以呈现网络接口，通过网络接口，用户能够经由网络浏览器进行交互。在其他方面，可以经由客户端设备106上的图形用户接口访问处理器系统108，该图形用户接口例如在客户端设备上执行的移动应用。

一旦客户端设备106将话语104编码成音频信号，并获得用于其中话语被说出的建筑物内的区域的位置标记，客户端设备就经由网络110将音频信号和位置标记发送至处理系统108。在一些实现方式中，客户端设备106可以建立与处理系统108的通信会话，并在会话期间将音频信号和位置标记发送至处理系统108。在替代实现方式中，客户端设备106周期性地(例如每30秒、每1分钟、每5分钟)获得并发送位置标记，而不管是否接收到话语。在其他实现方式中，客户端设备106可以在客户端设备106识别到改变时发送位置标记，该改变例如是客户端设备检测到：(i)新的无线电应答器标识符，(ii)无线电应答器的相对信号强度改变，或(iii)无线电应答器已经停止被检测到。在这样的实现方式中，位置标记的改变可以表明客户端106已经被重新定位到建筑物中的不同区域。

处理系统108接收与话语对应的音频信号和位置标记，该音频信号和位置标记用于执行语音识别和/或训练位置相关语音识别模型。处理系统108可以为一个或多个计算设备(例如包括一个或多个处理器和计算机可读存储介质的服务器)，该计算设备使用ASR引擎116将语音转换成文本，以及其他能力。ASR引擎116可以为处理语音转文本的软件实现的输入/输出系统。例如，ASR引擎116可以为例如库的软件代码、平台、软件开发包或者对象。

处理系统108可以物理地位于与用户102相同的建筑物中或者远程地定位。网络110可以因此包括一个或多个网络。网络可以在各种模式或协议下提供通信，例如全球移动通信系统(GSM)语音电话、短消息服务(SMS)、增强消息服务(EMS)、多媒体信息服务(MMS)消息、码分多址(CDMA)、时分多址(TDMA)、个人数字蜂窝电话(PDC)、宽带码分多址(WCDMA)、CDMA2000、通用分组无线电系统(GPRS)或者一个或多个电视或者电缆网络，以及其他。例如，通信可以通过射频收发器发生。此外，可以使用例如蓝牙、WiFi或其他这样的收发器发生短程通信。此外，在一些实现方式中，本公开所描述的处理系统108中的一个、几个或所有功能可以由客户端设备106来执行。

ASR引擎116可以在训练模式和操作模式两种模式中操作。在训练模式中，ASR引擎116：(i)使用位置无关(例如无偏向的)语音识别模型执行语音识别；和(ii)收集使话语的转录和其中做出话语的位置相关的数据，来训练位置相关语音识别模型。在操作模式中，ASR引擎116使用经训练的位置相关语音识别模型来执行语音识别。然而，在一些实现方式中，ASR引擎116在操作模式中继续训练位置相关语音识别模型。ASR引擎116可以基于若干输入来确定在哪个模式中操作。例如，用户102可以被提示为经由与处理系统108的接口来选择模式。备选地或另外地，ASR引擎116可以包括用于在模式之间切换的预定阈值(例如给定区域中的特定数目的话语或给定区域中的特定数目的标识出的词语)。在一些实现方式中，可以触发ASR引擎116切换模式的外部训练数据可以被提供给ASR引擎116。例如，ASR引擎116可以从应用服务器接收经训练的位置相关语音识别模型，该应用服务器聚集来自多个建筑物和用户的位置相关语音识别模型。

ASR引擎116包括用于执行语音到文字转换和训练位置相关语音识别模型的多种组件(例如软件模块或库)。具体而言，ASR引擎116包括估计做出话语104时的客户端设备106位置的位置确定组件130。位置确定组件130将估计位置输出至声学模型生成器134和语言模型生成器140。在训练模式期间，声学模型生成器134收集针对各种类别的房间的话语，来更新声学模型的集合136。另外，声学模型生成器134可以提供位置无关声学模型以用于执行语音识别。在操作模式期间，声学模型生成器134根据声学模型的集合136生成位置相关声学模型132。在训练模式期间，语言模型生成器140收集针对各种类别的房间的话语，来更新语言模型的集合142。另外，语言模型生成器140可以提供位置无关声学模型以用于执行语音识别。在操作模式期间，语言模型生成器140根据语言模型的集合142生成位置相关语言模型140。ASR引擎116使用声学模型132和语言模型138以将来自话语104的音频信号转换成转录。输出组件144然后输出转录，例如输出至客户端设备106或处理系统108的另一组件(例如家庭自动化系统)。

更详细地，位置确定组件130基于位置标记(例如从无线电应答器中发现的信号)估计在做出话语时客户端设备106的位置。例如，客户端设备106可能已经检测到无线电应答器112，因此位置标记可以包括相对应的无线电应答器标识符(例如“应答器1”)，在一些实现方式中，也可以为无线电应答器的信号强度(例如-60dBm)。因此，位置确定组件130可以确定当话语104被说出时，客户端设备106在客厅区域120中。

在一些实现方式中，客户端设备106可能检测到多于一个应答器，并且可以将来自多个应答器的信号加权来估计位置。例如，客户端设备106可能检测到来自两个无线电应答器的信号，并确定所接收到信号的信号强度(例如接收信号强度指示器(RSSI))。客户端设备106可以将描述两个信号的位置标记发送至处理系统108，处理系统108可以利用信号强度之间的相对差来估计在做出话语时客户端设备106的位置。

例如，假定客户端设备106检测到来自无线电应答器112和无线电应答器114的信号。客户端设备106可以确定来自无线电应答器112的信号具有-60dBm的RSSI，并且来自无线电应答器114的信号具有-63dBm的RSSI。因为无线电应答器112的信号强度比来自无线电应答器114的信号多3dB，因此这表明来自无线电应答器112的信号是来自无线电应答器114的信号的两倍强度，并且应答器112可能比应答器114更接近客户端设备106。因此，位置确定组件130可以使得与应答器112相关联的位置(例如客厅区域120)的权重比与应答器114相关联的位置(例如厨房区域122)重。这些权重可以对应于该话语在相关联的区域中被说出的概率或者可能性。因此，使用基于相对信号强度的加权，位置标记可以表明其中话语被说出的区域67％的可能性为客厅，并且33％的可能性为厨房。下表1示出了根据这一示例的位置标记。

表1

位置确定组件130的输出可以然后用来生成用于执行语音识别的统计模型，或者用来训练语音识别模型。一般而言，ASR引擎116使用统计模型来处理语音。ASR引擎116可以使用声学模型132以用于处理音频信号来生成子词序列。例如，声学模型可以被实施为隐马尔可夫模型(HMM)或者高斯混合模型(GMM)。在一些方面，如下所述，ASR引擎116可以使用由声学模型生成器134基于位置标记生成的复合声学模型。下面将更详细地描述，声学模型生成器134是接收位置确定组件130输出的组件，其根据声学模型136库生成声学模型，并输出声学模型以供ASR引擎116使用。在训练模式中，声学模型生成器134可以训练位置相关声学模型。

ASR引擎116使用来自声学模型132的子词序列作为对语言模型138的输入。语言模型138处理子词序列来确定最佳匹配子词序列的一个或多个词语。例如，ASR引擎116可以将子词序列与包括在语言模型138中的词汇表进行比较。在一些方面，如下所述，ASR引擎116可以使用由语言模型生成器140基于位置标记生成的复合语言模型。下面将更详细地描述，语言模型生成器140是接收位置确定组件130的输出的组件，其根据语言模型142a、142b的集合生成语言模型，并输出语言模型以供ASR引擎116使用。在训练模式中，语言模型生成器140可以训练位置相关语言模型。

一旦ASR引擎116生成话语104的转录，输出组件144就将转录路由至合适的系统。在一些实现方式中，输出组件144可以将转录发送回客户端设备106。在其他实现方式中，输出组件144可以将转录发送至在处理系统108上执行的另一组件，例如，家庭自动化系统、基于语音的搜索服务、口述应用、文字处理应用、或使用经转录的语音或者调用使用经转录的语音来执行动作的软件应用的任何其他应用。在一些实现方式中，输出组件144可以将说话者的话语的转录提交给搜索服务。搜索服务通过抓取或者索引网站上内容出版商提供的资源来识别资源。可以基于数据与之对应的资源对关于资源的数据进行索引。例如，响应于搜索查询，匹配输入关键词的资源的经索引和可选地经高速缓存的副本可以被检索到并被输出，。

参考图1b，在一些实现方式中，可以使用麦克风阵列而不是无线电应答器来确定说出话语时用户102的位置。作为示例，在图1b的系统150中，当用户102位于客厅120中时，用户102做出话语104(即“苹果和香料”)。然而，安装在客厅120中的语音检测设备160检测话语104，而不是使用客户端设备检测话语。语音检测设备160将话语104转换成音频信号，然后，其将音频信号和位置标记(例如语音检测设备160的标识符和/或话语的声压级)经由网络110发送至处理系统108。处理系统108正在执行ASR引擎116，ASR引擎116如上文进行操作将话语104转换成与“苹果&香料的精选集”相对应的语音命令。

语音检测设备160、162可以为任何合适的组件或组件的集合，其适于检测话语，将话语转换成音频信号，将音频信号和位置标记传达至处理系统108。例如，语音检测设备可以为可操作地耦合到处理系统108的麦克风。在其他实现方式中，语音检测设备可以包括麦克风、模数转换器、处理器、计算机可读存储介质和能够用于经由网络110与处理系统108进行通信的网络接口。在一些实现方式中，语音检测设备可以包括一个或多个用户输入/输出组件(例如按钮、LCD和/或存在敏感显示器)。麦克风可以为用于将声音转换成音频信号的任何合适的声电换能器，例如单向的、双向的或者全方向的有线或无线麦克风。

语音检测设备(例如麦克风阵列)可以被安装在遍及建筑物的各个区域，然后与建筑物的相应区域相关联。例如，语音检测设备160可以与客厅区域120相关联，并且语音检测设备162可以与厨房区域相关联。语音检测设备可以使用任何合适的手段与建筑物的不同区域相关联。例如，处理系统108可以提供接口，以便用户可以将每个语音检测设备标记为被安装在特定类别的房间中(例如厨房、客厅、卧室、办公室、餐厅、浴室)。在一些实现方式中，处理系统108可以提供网络接口，通过该网络接口，用户可以经由网络浏览器进行交互。在其他方面，可以经由客户端设备106上的图形用户接口访问处理器系统108，例如执行于客户端设备上的移动应用。在一些方面，一个或多个语音检测设备可以包括针对建筑物的具体区域的定向麦克风，在这种情况下，来自定向麦克风的话语可以与特定区域更高度相关。

用户102可以发起话语104，例如通过按压语音检测设备160、162上的按钮来在说话之前发起对话，说出话语，然后释放按钮。在另一示例中，语音检测设备160可以通过说话者的话语来被激活。在又一示例中，麦克风可以在用户说话被激活，或者可以处于“始终开启”状态，以允许用户不需要手动激活麦克风就能说话。例如，客户端设备可以使用连续的记录缓冲器。

语音检测设备160、162将用户的话语104转换成一系列音频信号(例如样本或波形)，该一系列音频信号例如可以为两秒(或更多)相对高质量音频(例如16kHz无损音频)的片段。例如，语音检测设备160、162可以在记录话语时创建声音文件或者数据流。

此外，响应于接收到话语104，语音检测设备160、162获得位置标记。位置标记可以包括描述语音检测设备的标识符的数据，和/或在语音检测设备处所接收到的话语的声压级(例如dB re 20μPaRMS)。例如，假定语音检测设备160检测到声压级为60dB的话语104。假定语音检测设备162也检测到话语104，但声压级为57dB。因为语音检测设备160处的声压级比语音检测设备162处的声压级多3dB，这表明语音检测设备160处的声压级是语音检测设备162处的声压级的两倍强度，并且表明，话语104可能与语音检测设备162相比更接近语音检测设备160而做出。因此，位置确定组件130可以使得与语音检测设备160相关联的位置(例如客厅区域120)的权重比与语音检测设备162相关联的位置(例如厨房区域122)重。这些权重可以对应于话语在相关联区域中被说出的概率或者可能性。因此，使用基于相对声压级的加权，位置标记可以表明话语的区域67％的可能性为客厅，并且33％的可能性为厨房。下表2示出了根据这一示例的位置标记。

表2

在一些实现方式中，可以使用话语本身，而不是使用无线电应答器或语音检测设备的标识符来作为位置标记。例如，客户端设备106或者语音检测设备160、162可以生成对应于话语104的音频信号，并将其发送至处理系统108。ASR引擎116可能随后使用位置无关语音识别模型来生成话语104的一个或多个候选转录。然后，ASR引擎116可以将候选转录与一个或多个位置相关语言模型中的短语进行比较。与最佳匹配位置相关语言模型相关联的区域可随后被用作做出话语104的估计位置。例如，如果使用位置无关语音模型的转录是“苹果&香料”，并且这一短语仅仅在厨房语言模型中被找到，则位置可以被确定为厨房。如果短语在多个语言模型中被找到，则位置估计可以基于词语出现的概率对相关联的区域进行加权，以生成经加权的位置估计(例如33％厨房，67％客厅)，或者可以选择与对于该词语具有最高概率的语言模型相关联的区域作为估计位置。

图2示出了生成和获得用于在语音识别中使用的位置相关声学模型的样本ASR引擎的组件。具体而言，该组件包括基于位置标记向声学模型生成器134提供估计位置的位置确定组件130。声学模型生成器134使用估计位置来从声学模型的集合136中选择或者生成声学模型，或者，在训练模式中，训练声学模型的集合136中的声学模型。声学模型的集合136存储了位置相关声学模型，包括厨房声学模型208、办公室声学模型210、卧室声学模型212和客厅声学模型214。

如上所述，客户端设备或者语音检测设备向处理系统108提供位置标记，处理系统108在合适的存储器中存储数据。位置确定组件130访问存储的位置标记202，并针对相关联的话语在建筑物中哪里被做出而生成估计位置。具体而言，建筑物区域映射器组件204(例如软件库或功能)解析位置标记来生成估计位置。估计位置可以为话语在各种类别房间中被做出的可能性或概率的形式。估计位置可以被输出到任何合适的数据结构中，例如，对象或者一组变量。

例如，假定位置标记仅包括(例如用于无线电应答器和/或语音检测设备的)一个标识符。然后，建筑物映射器204可以基于与标识符相关联的区域来生成建筑物内的估计位置。因此，如果位置标记包括与客厅区域120相关联的无线电应答器112的标识符，则估计位置可能是1.0客厅。

假定位置标记包括两个标识符。建筑物区域映射204继而可以基于内插与标识符相关联的区域来生成建筑物内的估计位置。因此，如果位置标记包括用于与客厅区域120相关联的无线电应答器112的标识符，和用于与厨房区域122相关联的无线电应答器114的标识符，则估计位置可能是0.5客厅和0.5厨房。

进一步假定位置标记包括两个标识符和相对应的信号强度(例如无线电应答器处的RSSI或语音检测设备处的声压级)。建筑物区域映射器204可以基于内插与标识符相关联的区域与基于相对信号强度的加权一起生成建筑物内的估计位置。因此，如果位置标记包括用于与客厅区域120相关联的无线电应答器112的标识符和-60dBm的RSSI，以及用于与厨房区域122相关联的无线电应答器114的标识符和-63dBm的RSSI，则估计位置可能是0.67客厅和0.33厨房。注意这一基于信号强度确定估计位置的示例是为了说明的目的，并且实现方式可以包含更为经微调和精细的模型来改进估计位置的准确度。此外，尽管出于示例性目的描述了仅从两个源接收位置标记，但是在实现方式中位置标记可以从任何数目的来源进行接收。

在接收到估计位置之后，声学模型生成器134执行取决于ASR引擎116在训练模式还是在操作模式进行操作的操作。在训练模式中，声学模型生成器134接收训练数据(例如用于与位置标记相关联的话语的音频信号)，并训练存储在声学模型的集合136中的一个或多个声学模型。此外，声学模型生成器提供位置无关声学模型以用于在执行语音识别中使用。在操作模式中，声学模型生成器134基于估计位置获得(例如选择或生成)位置相关声学模型以用于在执行语音识别中使用。

声学模型的集合136可以被存储在文件结构(例如网络文件系统)中或者数据库(例如MySQL,PostgreSQL,MS SQL Server,MongoDB)中，或者可以被处理系统108访问的任何其他合适的数据结构中。在一些实现方式中，处理系统108可以经由网络服务存储和访问所存储的声学模型的集合136，网络服务例如表述性状态转移(REST)形式服务。

集合136中的声学模型最初可以用与用户通常遇到的各种声学空间匹配的之前经训练的声学模型填充。在训练模式中，声学模型生成器134接收与话语相关联的音频信号，并做出相对应的声学空间是否匹配之前存储的声学模型的确定。分析音频信号可以提供关于周围空间的声学特性的信息。那些特性可以包括房间的大小、噪声源和混响特性，噪声源例如为通风管或外窗。

如果声学空间与之前存储的声学模型不匹配，则声学模型生成器134可以初始化并适配新的声学模型。基于周围空间的大小，声学模型生成器134还可以调整声学模型以考虑混响。可以使用各种方法来完成这一调整，包括使用模型自适应，例如对于已知目标的最大似然线性回归。目标转换可以在之前在该位置遇到时已经被估计，或者可以从与空间相关联的混响时间推断出。一旦位置被充分地建模，则声学模型生成器134在声学模型136的集合中存储声学模型。

在操作模式中，当ASR引擎116执行语音识别时，声学模型生成器134选择由位置估计所标识的位置相关声学模型。例如，如果位置估计标识出客厅120和厨房122很可能为其中做出话语的区域，然后，声学模型生成器134选择客厅声学模型214和厨房声学模型208。

然后，声学模型生成器134使用所选择的位置相关声学模型生成声学模型。具体而言，复合声学模型220可以与一个或多个基础声学模型222相联系，基础声学模型222对应于存储在声学模型的集合136中的声学模型，复合声学模型220和基础声学模型222之间的联系可以被加权。在一些实现方式中，来自一个复合声学模型的联系的权重的总和可以为1或者被归一化为1。

声学模型生成器134可以使用任何合适的技术合并基础声学模型来形成复合声学模型。例如，假定每个声学模型包括高斯分布和相关联的隐马尔可夫模型(HMM)的集合。声学模型生成器134可以使用基于估计位置的权重，通过映射高斯分布和HMM来生成复合声学模型。因此，如果估计位置为0.67客厅和0.33厨房，则可以映射高斯分布和HMM以生成复合声学模型，该复合声学模型具有权重为67％的客厅声学模型214的高斯分布和HMM，以及权重为33％的厨房声学模型208的高斯分布和HMM。

应当理解，虽然示出了复合声学模型220、基础声学模型222和联系的特定数目和配置，但是其他数目和配置也是可行的。例如，可以存在足够的复合声学模型220，使得基础声学模型222的每个经加权的组合具有联系的复合声学模型220。在一些示例中，复合声学模型可以与更多或更少基础声学模型222相联系。在一些实现方式中，可以存在复合声学模型220和基础声学模型222之间不同的联系权重，例如正整数、概率或维距离(例如四维空间中的W,X,Y,Z值)。

在一些实现方式中，复合声学模型220可以根据需要被创建，例如当接收到与之前存储的声学模型不对应的位置估计时。复合声学模型220可以通过存储在可以由声学模型生成器134可访问的存储器结构中持续存在。在一些实现方式中，多个可能的复合声学模型220可以被预生成。例如，这可在预处理时间可用时，和/或当预期有很少的基础声学模型222时被使用。

图3a和3b示出了生成和获得位置相关语言模型以用于在语音识别中使用的样本ASR引擎的组件。具体而言，该组件包括向语言模型生成器140提供基于位置标记的估计位置的位置确定组件130。语言模型生成器140使用估计位置来从语言模型的集合142中选择或者生成语言模型，或者，在训练模式中，训练语言模型的集合142中的语言模型。

在图3a中，语言模型142的集合存储位置相关语言模型，包括厨房语言模型142a、客厅语言模型142b、办公室语言模型142c和卧室语言模型142d。如图所示，厨房语言模型142a包括与食物和烹饪相关的词语，例如“搅拌机”、“苹果”和“烤箱”；客厅语言模型142b包括媒体和娱乐相关的词语，例如“电视”、“电影”和“音乐”；办公室语言模型142c包括办公相关的词语，例如“邮件”、“传真”和“口述”；并且卧室语言模型142d包括睡眠相关的词语，例如“闹钟”、“睡眠”和“灯光”。

在图3b中，语言模型的集合142存储了核心语言模型160和与网络浏览、媒体和食物分别相关的各种主题特定语言模型162、164、166。每个主题可以与一个或多个区域相关联，并且可以使用核心语言模型和主题特定语言模型中的一个或多个主题特定语言模型来生成复合语言模型。如图所示，核心语言模型160包括与建筑控制、例如“灯光”、“空调”和“加热”相关联的通用词语，网络浏览语言模型162包括例如“购物”、“新闻”和“名人”的词语；并且媒体语言模型164包括例如“电视”、“电影”和“音乐”的词语；并且食物语言模型166包括例如“爆米花”、“苹果”和“烤箱”的词语。

如上所述，位置确定组件130提供估计位置。在接收到估计位置之后，语言模型生成器140取决于ASR引擎116在训练模式还是在操作模式中进行操作来执行操作。在训练模式中，语言模型生成器140接收训练数据(例如使用与位置标记相关联的位置无关语言模型所做出的转录)，并训练存储在语言模型的集合142中的一个或多个语言模型。另外，语言模型生成器提供位置无关语言模型以用于在执行语音识别中使用。在操作模式中，语言模型生成器140基于估计位置获得(例如选择或生成)位置相关语言模型以用于在执行语音识别中使用。

语言模型的集合142可以被存储在文件结构中(例如网络文件系统)或者数据库中(例如MySQL,PostgreSQL,MS SQL Server,MongoDB)，或者可以被处理系统108访问的任何其他合适的数据结构中。在一些实现方式中，处理系统108可以经由网络服务存储和访问所存储的语言模型的集合142，网络服务例如表述性状态转移(REST)形式服务。

集合142中的语言模型可以用包括与房间或主题的类别相对应的常用词的之前训练的语言模型填充。例如，第三方网络服务可以组合来自多个用户和/或多个建筑物中的转录，从而生成用于潜在类别的房间(例如厨房、客厅、办公室、卧室)的聚合位置相关语言模型。此外，用于一些类别房间的语言模型可以通过参考用户所拥有的内容或产品来填充。例如，ASR引擎116可能访问来自用户的媒体库(例如电影、音乐、电视节目、视频游戏等)的主题来填充用于可能具有媒体播放器(例如客厅或卧室)的房间类别的语言模型。类似的技术可以用于填充主题特定的语言模型。在训练模式中，语言模型生成器140接收与估计位置相关联的转录，并使用来自转录的词语来训练相对应的位置相关语言模型和/或主题特定语言模型。

参考图3a的示例系统，在操作模式中，语言模型生成器140选择由位置估计所标识的位置相关语言模型。例如，如果位置估计标识出客厅120和厨房122很可能为做出话语的区域，则语言模型生成器140选择客厅语言模型142a和厨房语言模型142b。

然后，语言模型生成器140使用所选择的位置相关语言模型生成语言模型。具体而言，复合语言模型320可以与一个或多个基础语言模型322相联系，基础语言模型322对应于存储在语言模型的集合140中的语言模型，复合语言模型320和基础语言模型322之间的联系可以被加权。在一些示例中，来自一个复合语言模型的联系的权重的总和可以为1或者可以被归一化为1。

虽然示出了复合语言模型320、基础语言模型322和联系的特定数目和配置，但是其他数目和配置也是可行的。例如，可以存在足够的复合语言模型320，使得基础语言模型322的每个经加权的组合具有与相联系的复合语言模型320。在一些示例中，复合语言模型可以与更多或更少基础语言模型322相联系。在一些示例中，可以存在复合语言模型320和基础语言模型322之间的不同的联系权重，例如正整数、概率或维距离(例如四维空间中的W,X,Y,Z值)。

在一些实现方式中，复合语言模型320可以根据需要被创建，例如在接收到与之前存储的语言模型不对应的位置估计时。复合语言模型320可以通过存储在可以由语言模型生成器140可访问的存储器结构中持续存在。在一些实现方式中，多个可能的复合语言模型320可以被预生成。例如，这可以在预处理时间可用时被使用，和/或在预期有很少的基础语言模型322时。

参考图3b的样本系统，在操作模式中，语言模型生成器140通过两个步骤生成复合位置相关语言模型：1)从主题特定语言模型中生成区域特定语言模型；2)从区域特定语言模型中生成复合位置相关语言模型。

在第一步骤中，语言模型生成器140使用各种权重，通过组合主题特定语言模型来创建区域特定语言模型(例如厨房语言模型、客厅语言模型和办公室语言模型)。每个区域特定语言模型可以在不同程度上包括核心语言模型。在一些实现方式中，主题特定语言模型334可以与一个或多个区域特定语言模型332相联系。复合语言模型330和区域特定语言模型332之间的联系可以被加权。在一些示例中，来自一个复合语言模型的联系的权重的总和可以为1或者被归一化为1。

权重可以基于经验分析预先确定，和/或它们可以在训练模式中被训练。权重也可以基于用户习惯周期性地更新。例如，如果用户主要在客厅中执行网络浏览，则用于网络浏览主题的权重可以基于他的使用随时间增加。在另一示例中，在训练期间，语言模型生成器140可以确定后端语义服务是否响应于给定话语。后端语义服务可以为家庭自动化系统中的功能、搜索服务、应用或者可以接收语音命令的任何其他服务。例如，如果电视相关后端语义服务响应于给定话语，则话语可以被标识为对应于媒体主题相关语言模型。如果媒体主题相关语言模型与客厅相关联，则这将表明话语很可能是在客厅中做出的。语言模型生成器140可以在任何合适的存储结构中持久存储这些权重，存储结构例如为数据库或文件系统。

如图所示，样本厨房语言模型332a包括75％的食物语言模型166的权重和25％的核心语言模型160的权重；样本客厅语言模型332b包括50％的媒体语言模型164的权重、25％的网络浏览模型162的权重和25％的核心语言模型160的权重；并且样本办公室语言模型332c包括50％的网络浏览语言模型162的权重和50％的核心语言模型160的权重。

在第二步骤中，语言模型生成器140使用所选择的区域特定语言模型生成位置相关复合语言模型，区域特定语言模型在来自位置确定组件130的位置估计中被标识。具体而言，复合语言模型330可以与在第一个步骤中被生成的一个或多个区域特定语言模型332相联系。复合语言模型330和区域特定语言模型332之间的联系可以被加权。在一些示例中，来自一个复合语言模型的联系的权重的总和可以为1或者被归一化为1。

虽然示出了复合语言模型330、区域特定语言模型332、主题特定语言模型334和联系的特定数目和配置，但是其他数目和配置也是可行的。例如，可以存在足够的复合语言模型330，使得区域特定语言模型332的每个经加权的组合具有与联系的复合语言模型330。在一些示例中，复合语言模型可以与更多或更少区域特定语言模型332相联系。在一些示例中，可以存在复合语言模型330和区域特定语言模型332之间不同的联系权重，例如正整数、概率或维距离(例如四维空间中的W,X,Y,Z值)。

在一些实现方式中，复合语言模型330可以根据需要被创建，例如当接收到与之前存储的语言模型不对应的位置估计时。复合语言模型330可以通过存储在可以由语言模型生成器140可访问的存储器结构中持续存在。在一些实现方式中，多个可能的复合语言模型330可以被预生成。例如，这可用于在预处理时间可用时，和/或当预期有很少的区域特定语言模型332时被使用。

语言模型生成器140可以使用任何合适的技术合并语言模型。例如，假定每个语言模型包括词语和每个词语的相关联的计数(例如频率)。语言模型生成器140可以使用计数合并策略，例如最大后验(MAP)自适应。这样的计数合并策略可以生成词语的概率p(w|h)，如下面的公式(1)中示出：

p (w | h) = \frac{{xc}_{1} (hw) + (1 + x) c_{2} (hw)}{{xc}_{1} (w) + (1 - x) c_{2} (w)} - - - (1)

在公式(1)中，hw是在具有上下文h的词语w中的N元文法结尾，c1(hw)和c2(hw)分别为在第一和第二语言模型中hw的计数，并且x是控制每个语言模型语料库向组合的语言模型的贡献的常量。

备选地，语言模型生成器140可以使用语言模型联合策略生成复合语言模型。这可以生成词语的概率，下面的公式(2)中示出了p(w)：p(w)＝max(xp₁(w)，(1-x)p₂(w)) (2)

在公式(2)中，p₁(w)和p₂(w)分别为在第一个和第二语言模型中w的概率，x是控制每个语言模型语料库向组合的语言模型的贡献的常量。

图4示出了用于使用基于位置标记的语音识别模型来执行语音识别的示例过程400。简而言之，过程400包括接收对应于话语的数据(404)，获得其中话语被说出的建筑物内的区域的位置标记(406)，基于位置标记选择用于语音识别的一个或多个模型，其中每个所选择的一个或多个模型与基于位置标记的权重相关联(408)，使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型(410)，以及使用复合模型生成话语的转录(412)。

更详细地，过程400从步骤404开始，此时ASR引擎116从客户端设备160或语音检测设备160、162接收对应于话语的数据，。例如，语音信号可以为相对高质量音频(例如16kHz无损音频)的片段。

如上所述，在步骤406中，然后ASR引擎116获得其中话语被说出的建筑物内的区域的位置标记。例如，位置标记可以为无线电应答器或语音检测设备的标识符，并且还可以包括信号强度(例如RSSI和/或声压级)。在一些实现方式中，位置标记可以为基于在客户端设备处接收的短程无线电传输的位置数据。备选地，位置标记可以根据话语生成。具体而言，ASR引擎116可以使用位置无关语言模型生成话语的一个或多个候选转录。然后，所ASR引擎116可以基于将一个或多个候选转录与一个或多个位置相关语言模型中的短语进行比较，标识建筑物内的一个或多个候选区域。在这种实现方式中，ASR引擎116从在建筑物处的处理系统接收对应于话语的数据。在又一实现方式中，位置标记可以为从处理系统获得的位置数据。在这种实现方式中，处理系统可以使用被布置在建筑物中的麦克风阵列(例如语音检测设备)来定位话语，该麦克风阵列可操作地耦合到处理系统。

接下来，在步骤408中，ASR引擎116基于位置标记选择用于语音的一个或多个语音模型(例如声学模型和/或语言模型)。每个所选择的语音模型可以与基于位置标记的权重相关联。例如，如果ASR引擎116接收到与分别为33％和67％的厨房区域和客厅区域对应标识符，则所选择的用于厨房和客厅的语音模型会相应地将被选择和加权。

然后，在步骤410中，ASR引擎116使用所选择的一个或多个语音模型和相应权重生成复合语音模型。如上文所详细描述，ASR引擎166可以组合语言模型(例如声学模型和/或语音模型)。最后，在步骤412中，ASR引擎116使用复合语音模型生成话语的转录。

对于其中收集关于用户的信息的此处所讨论的系统的情形，可以向用户提供选择打开/关闭可以收集用户信息(例如关于用户的偏好或者用户的目前位置)的程序或功能的机会。此外，特定数据可以在其被存储或使用之前以一种或多种方式匿名化，使得个人可标识的信息被移除。例如，用户的身份可以匿名化。

可以在数字电子电路装置中或者在有形地体现的计算机软件、固件或者在计算机硬件(包括在本说明书中公开的结构及其结构等效物)中或者在它们中的一项或者多项的组合中实施在本说明书中描述的主题、功能操作和过程的实现方式。可以将在本说明书中描述的主题的实施例实施为一个或者多个计算机程序、即编码在有形非易失程序载体上的用于由数据处理装置执行或者控制数据处理装置的操作的一个或者多个计算机程序指令模块。备选地或者附加地，可以在人为生成的传播的信号(例如，机器生成的电、光或者电磁信号)上对程序指令编码，该信号被生成用于对信息编码以用于向适当接收器设备发送以供数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储衬底、随机或者串行存取存储器设备或者它们中的一项或者多项的组合。

术语“数据处理装置”涵盖各种用于处理数据的装置、设备和机器，举例而言包括可编程处理器、计算机、多个处理器或计算机。该设备可以包括专用逻辑电路装置，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。该装置除了硬件之外也可以包括为讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统的代码或者它们中的一项或者多项的组合。

计算机程序(也被称为或描述为程序、软件、软件应用、模块、软件模块、脚本或者代码)可以用任何形式的编程语言编写，包括编译或者解译语言、或说明或者过程语言，并且计算机程序可以用任何形式部署，包括部署为独立程序或者部署为适合于在计算环境中使用的模块、组件、子例程或者其他单元。计算机程序可以、但是无需对应于文件系统中的文件。程序可以被存储于保持其他程序或者数据的文件(例如，存储于标记语言文档中的一个或者多个脚本)的一部分中、专用于讨论的程序的单个文件中，或者多个协同文件(例如，存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署用于在一个计算机上或者在位于一个地点或者跨多个地点分布并且由通信网络互连的多个计算机上执行。

在本说明书中描述的过程和逻辑流程可以由一个或者多个可编程处理器执行，该一个或者多个可编程计算机执行一个或者多个计算机程序以通过对输入数据操作并且生成输出来执行功能。该过程和逻辑流也可以由专用逻辑电路装置(例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)执行并且也可以将设备实施为专用逻辑电路装置。

举例而言，适合于执行计算机程序的计算机可以基于通用微处理器或者专用微处理器，或者其两者，或者任何其他种类的中央处理器。一般而言，中央处理器将从只读存储器或者随机存取存储器或者二者接收指令和数据。计算机的必要元件是用于执行指令的中央处理器单元以及用于存储指令和数据的一个或者多个存储器设备。一般而言，计算机还将包括用于存储数据的一个或者多个海量存储装置(例如，磁盘、磁光盘或者光盘)或者被操作地耦合用于从该一个或者多个海量存储设备接收数据或者向该一个或者多个海量存储设备发送数据或者接收和发送二者。然而，计算机无需具有这样的设备。另外，计算机可以被嵌入于另一设备中，聊举数例，例如，移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏控制台、全球定位系统(GPS)接收器或者便携存储设备(例如，通用串行总线(USB)闪存驱动)。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，举例而言包括半导体存储器设备，例如，EPROM、EEPROM和闪速存储器设备；磁盘，例如，内部硬盘或者可去除盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路装置补充或者并入于专用逻辑电路装置中。

为了提供与用户的交互，可以在计算机上实施在本说明书中描述的主题的实施例，该计算机具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)以及用户可以用来向计算机提供输入的键盘和指向设备，例如，鼠标或者轨迹球。其他种类的设备也可以用来提供与用户的交互；例如，向用户提供的反馈可以是任何形式的感官反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且可以用包括声音、语音或者触觉输入的任何形式接收来自用户的输入。此外，计算机可以通过向用户使用的设备发送文档和从该设备接收文档(例如，通过响应于从用户的客户端设备上的web浏览器接收的请求向web浏览器发送网页)来与用户交互。

在本说明书中描述的主题的实施例可以在计算系统中实施，该计算系统包括例如作为数据服务器的后端组件或者包括中间件组件(例如，应用服务器)或者包括前端组件(例如，具有图形用户接口或者Web浏览器(用户可以通过该图形用户接口或者Web浏览器与在本说明书中描述的主题的实现方式交互——)的客户端计算机)或者一个或者多个这样的后端、中间件或者前端部件的任何组合。系统的组件可以通过任何数字数据通信形式或者介质(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如，因特网。

计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助在相应计算机上运行并且相互具有客户端-服务器关系的计算机程序而产生。

尽管本说明书包含许多具体实现方式细节，但是不应将这些解释为限制可以要求保护的内容的范围，而是解释为对具体实现方式特有的特征的解释。在本说明书中在分开的实施例的背景中描述的某些特征也可以在单个实施例中被组合实施。相反地，在单个实施例的背景中描述的各种特征也可以在多个实施例中分开地或者在任何适当子组合中被实施。另外，虽然上文可以将特征描述为在某些组合中动作并且甚至起初这样要求保护，但是来自要求保护的组合的一个或者多个特征可以在一些情况下从该组合中被删除，并且要求保护的组合可以涉及子组合或者子组合的变型。

类似地，尽管在附图中以特定顺序描绘操作，但是这不应被理解为要求以所示特定顺序或者以依次顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中，多任务和并行处理可以是有利的。另外，在上文描述的实施例中的各种系统部件的分离不应被理解为在所有实施例中要求这样的分离，并且应当理解描述的程序组件和系统一般可以一起集成于单个软件产品中或者被封装到多个软件产品中。

家庭自动化系统是将房中的电子设备互相集成的软件、固件和/或硬件系统。家庭自动化可以包括照明、HVAC(加热，通风和空调)、电器和其他系统的集中控制。家庭自动化系统还可以控制家中的活动，例如家庭娱乐系统、室内植物和院内浇水、宠物喂食和/或家中机器人。家中的设备可以通过计算机网络连接以允许处理系统的控制，并可以允许来自因特网的远程访问。

描述了主题的具体实施例。其他实现方式在所附权利要求的范围内。例如，在权利要求中记载的动作可以按不同顺序被执行而仍然实现希望的结果。作为一个示例，在附图中描绘的过程未必需要所示特定顺序或者依次顺序以实现希望的结果。在某些实现方式中，多任务和并行处理可以是有利的。可以提供或者除去上述过程中的其他步骤。因此，其他实现方式也在所附权利要求的范围之内。

Claims

1.一种计算机实现的方法，包括：

接收对应于话语的数据；

获得用于其中所述话语被说出的建筑物内的区域的位置标记；

基于所述位置标记选择用于语音识别的一个或多个模型，其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联；

使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型；

使用所述复合模型生成所述话语的转录。

2.根据权利要求1所述的方法，

其中接收对应于所述话语的数据包括：从客户端设备接收对应于所述话语的数据，

其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括：从所述客户端设备接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。

3.根据权利要求2所述的方法，其中所述位置标记包括：基于在所述客户端设备处接收的短程无线电传输的位置数据。

4.根据权利要求1所述的方法，其中获得所述位置标记包括：

使用位置无关语言模型生成所述话语的一个或多个候选转录；

基于将所述一个或多个候选转录与一个或多个位置相关语言模型中的短语进行比较，标识所述建筑物内的一个或多个候选区域。

5.根据权利要求1所述的方法，

其中接收对应于所述话语的数据包括：从在所述建筑物处的处理系统接收对应于所述话语的数据，并且

其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括：从在所述建筑物处的所述处理系统接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。

6.根据权利要求5所述的方法，其中所述位置标记包括从所述处理系统获得的位置数据，其中所述处理系统使用被布置在所述建筑物中的麦克风阵列定位所述话语，并且其中所述麦克风阵列可操作地耦合到所述处理系统。

7.根据权利要求1所述的方法，

其中基于所述位置标记选择用于语音识别的一个或多个模型，其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联包括：基于所述位置标记选择一个或多个语言模型，其中所述一个或多个语言模型中的每个语言模型与基于所述位置标记的权重相关联；

其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括：使用所选择的一个或多个语言模型和所选择的一个或多个语言模型的所述相应权重来生成复合语言模型；

其中使用所述复合模型生成所述话语的转录包括：使用所述复合语言模型生成所述话语的所述转录。

8.根据权利要求1所述的方法，

其中基于所述位置标记选择用于语音识别的一个或多个模型，其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联包括：基于所述位置标记选择一个或多个声学模型，其中所述一个或多个声学模型中的每个声学模型与基于所述位置标记的权重相关联；

其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括：使用所选择的一个或多个声学模型和所选择的一个或多个声学模型的所述相应权重来生成复合声学模型；并且

其中使用所述复合模型生成所述话语的转录包括：使用所述复合声学模型生成所述话语的所述转录。

9.一种系统，包括：

一个或多个计算机和存储指令的一个或多个存储设备，所述指令在被所述一个或多个计算机执行时，使得所述一个或多个计算机执行操作，所述操作包括：

接收对应于话语的数据；

使用所述复合模型生成所述话语的转录。

10.根据权利要求9所述的系统，

11.根据权利要求10所述的系统，其中所述位置标记包括：基于在所述客户端设备处接收的短程无线电传输的位置数据。

12.根据权利要求9所述的系统，其中获得所述位置标记包括：

13.根据权利要求9所述的系统，

14.根据权利要求13所述的系统，其中所述位置标记包括从所述处理系统获得的位置数据，其中所述处理系统使用被布置在所述建筑物中的麦克风阵列定位所述话语，并且其中所述麦克风阵列可操作地耦合到所述处理系统。

15.根据权利要求9所述的系统，

16.根据权利要求9所述的系统，

17.一种存储软件的非瞬态的计算机可读介质，所述软件包括由一个或多个计算机可执行的指令，所述指令在所述执行时，使得所述一个或多个计算机执行操作，所述操作包括：

接收对应于话语的数据；

使用所述复合模型生成所述话语的转录。

18.根据权利要求17所述的计算机可读介质，

19.根据权利要求18所述的计算机可读介质，其中所述位置标记包括：基于在所述客户端设备处接收的短程无线电传输的位置数据。

20.根据权利要求17所述的计算机可读介质，其中获得所述位置标记包括：

21.根据权利要求17所述的计算机可读介质，

22.根据权利要求21所述的计算机可读介质，其中所述位置标记包括从所述处理系统获得的位置数据，其中所述处理系统使用被布置在所述建筑物中的麦克风阵列定位所述话语，并且其中所述麦克风阵列可操作地耦合到所述处理系统。

23.根据权利要求17所述的计算机可读介质，

24.根据权利要求17所述的计算机可读介质，

25.一种客户端设备，包括：

一个或多个处理器和存储指令的一个或多个存储设备，所述指令当由所述一个或多个处理器执行时、可操作用于使得所述一个或多个处理器执行操作，所述操作包括：

在客户端设备处接收话语；

在所述客户端设备处获得用于其中所述话语被说出的建筑物内的区域的位置标记；

从所述客户端设备向服务器传送对应于所述话语的数据和用于其中所述话语被说出的所述建筑物内的所述区域的所述位置标记；以及

在所述客户端设备处接收所述话语的转录，其中使用复合模型生成所述话语的所述转录，并且其中使用一个或多个模型和基于所述位置标记而被选择的所述一个或多个模型的相应权重来生成所述复合模型。

26.根据权利要求25所述的客户端设备，其中所述位置标记包括基于在所述客户端设备处接收的短程无线电传输的位置数据。

27.根据权利要求25所述的客户端设备，

其中在所述客户端设备处接收所述话语包括：从在所述建筑物处的处理系统接收对应于所述话语的数据，

其中在所述客户端设备处获得用于其中所述话语被说出的建筑物内的区域的位置标记包括：从在所述建筑物处的所述处理系统接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。

28.根据权利要求27所述的客户端设备，其中所述位置标记包括从所述处理系统获得的位置数据，其中所述处理系统使用被布置在所述建筑物中的麦克风阵列定位所述话语，并且其中所述麦克风阵列可操作地耦合到所述处理系统。

29.根据权利要求25所述的客户端设备，其中所述复合模型包括复合声学模型，并且其中所述一个或多个模型和所述一个或多个模型的相应权重包括一个或多个声学模型和所述一个或多个声学模型的相应权重。

30.根据权利要求25所述的客户端设备，其中所述复合模型包括复合语言模型，并且其中所述一个或多个模型和所述一个或多个模型的相应权重包括一个或多个语言模型和所述一个或多个语言模型的相应权重。