CN104575493A

CN104575493A - 使用地理信息的声学模型适配

Info

Publication number: CN104575493A
Application number: CN201410723927.8A
Authority: CN
Inventors: M·I·洛伊德; T·克里斯特詹森
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2010-05-26
Filing date: 2011-05-23
Publication date: 2015-04-29
Anticipated expiration: 2031-05-23
Also published as: US20120022869A1; EP2577653B1; US8219384B2; WO2011149837A1; AU2011258531A1; AU2014202785B2; CN104575493B; US20110295590A1; CN103038817B; AU2014202785A1; US8468012B2; US20130297313A1; AU2011258531B2; EP2577653A1; CN103038817A

Abstract

用于增强语音识别准确度的方法、系统和装置、包括在计算机存储介质上编码的计算机程序。在一个方面中，一种方法包括：接收与移动设备记录的讲话对应的音频信号；确定与移动设备关联的地理位置；针对地理位置适配一个或者多个声学模型；并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。

Description

使用地理信息的声学模型适配

本申请是申请号为201180021722.X、申请日为2011年5月23日、发明名称为“使用地理信息的声学模型适配”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求标题为ACOUSTIC MODEL ADAPTATION USINGGEOGRAPHIC INFORMATION、于2010年5月26日提交的第12/787,568号美国申请的优先权，通过援引将其公开内容并入于此。

技术领域

本说明书涉及语音识别。

背景技术

移动设备的用户可以例如通过在键盘上键入或者向麦克风中口述来录入文字。在话音输入的背景中，自动化搜索识别(“ASR”)引擎可能在与特定语言关联的声音基于用户的口音而变化时准确识别口述单词有困难。例如在由纽约人或者波士顿人口述时，典型ASR引擎可能识别单词“park”分别为单词“pork”或者“pack”。

发明内容

一般而言，在本说明书中描述的主题内容的一个创新方面可以体现于方法中，这些方法用于ASR引擎自动地训练、选择、生成或者否则适配在地理位置上专属(或者“地理专属”)于一个或者多个地理区域的一个或者多个声学模型。声学模型应用于用位置信息进行“地理标注”的音频信号(或者“采样”或者“波形”)以通过比较音频信号与声音的统计表示来执行语音识别，这些声音组成特定语言的每个单词。一个或者多个声学模型可以包括在地理位置上专属于单个地理区域或者多个地理区域的单个声学模型。

如本说明书中所用，“地理标注”的音频信号指代已经与位置元数据(例如地理位置元数据或者相对位置元数据)或者地理空间元数据关联或者用该元数据“标注”的信号。除其他以外，位置元数据可以包括导航坐标如纬度和经度、海拔信息、方位或者航向信息、与位置关联的名称或者地址信息、相对位置或者方向信息或者引用位置类型的信息。

用于适配声学模型的方法包括接收多个移动设备在多个地理位置记录的地理标注的音频信号并且使用地理标注的音频信号中的至少部分来适配一个或者多个声学模型。在接收移动设备在地理位置之一内或者附近记录的讲话时，ASR引擎可以使用一个或者多个适配的声学模型对讲话执行语音识别。显然可以在接收讲话之前、期间或者之后适配声学模型。

讲话可以对应于任何类型的话音输入、比如向话音搜索查询系统、口授系统或者对话系统的输入。在话音搜索查询系统的情境中，“搜索查询”包括在用户请求搜索引擎执行搜索查询时用户向搜索引擎提交的一个或者多个查询检索词，其中“检索词”或者“查询检索词”包括一个或者多个全部或者部分单词、字符或者字符串。除其他以外，搜索查询的“结果”(或者“搜索结果”)包括引用如下资源的统一资源标识符(URI)，搜索引擎确定该资源响应于搜索查询。除其他以外，搜索结果可以比如包括标题、预览图像、用户等级、地图或者方向、对应资源的描述或者已经从对应资源自动或者手动提取或者否则与对应资源关联的文字摘录。

一般而言，在本说明书中描述的主题内容的另一创新方面可以实现于包括以下动作的方法中：接收与移动设备记录的讲话对应的音频信号；确定与移动设备关联的地理位置；针对地理位置适配一个或者多个声学模型；并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。

这些方面的其它实施例包括配置成执行方法的动作的对应系统、装置和在计算机存储设备上编码的计算机程序。

这些和其它实施例可以各自可选地包括以下特征中的一个或者多个特征。在各种例子中，适配一个或者多个声学模型还包括在接收与讲话对应的音频信号之前适配一个或者多个声学模型；适配一个或者多个声学模型还包括在接收与讲话对应的音频信号之后适配一个或者多个声学模型；动作还包括接收与多个移动设备在多个地理位置记录的音频对应的地理标注的音频信号；并且针对地理位置适配一个或者多个声学模型还包括使用地理标注的音频信号的子集针对地理位置适配一个或者多个声学模型；动作还包括：针对地理标注的音频信号中的每个地理标注的音频信号确定在与移动设备关联的地理位置和与地理标注的音频信号关联的地理位置之间的距离；并且选择与在与移动设备关联的地理位置的预定距离内的地理位置关联、或者与在与关联于移动设备的地理位置最近的N个地理位置之中的地理位置关联的地理标注的音频信号作为地理标注的音频信号的子集；动作还包括选择与也与移动设备关联的地理位置关联的地理标注的音频信号作为地理标注的音频信号的子集；动作还包括基于与移动设备关联的地理位置和基于与讲话关联的情境数据选择地理标注的音频信号的子集；情境数据包括对移动设备记录讲话时的时间或者日期进行引用的数据、对移动设备在记录讲话时测量的速度或者运动量进行引用的数据、引用移动设备的设置的数据或者引用移动设备的类型的数据；适配声学模型包括使用地理标注的音频信号的子集作为训练集来训练高斯混合模型(GMM)；讲话代表话音搜索查询或者向数字口授应用或者对话系统的输入；确定地理位置还包括从移动设备接收引用地理位置的数据；确定地理位置还包括确定与移动设备关联的以往地理位置或者默认地理位置；动作还包括：生成讲话的一个或者多个候选转录；并且使用一个或者多个候选转录来执行搜索查询；针对地理位置适配一个或者多个声学模型还包括从已经针对多个地理位置生成的多个声学模型之中选择针对与移动设备关联的地理位置生成的一个或者多个声学模型；针对地理位置适配一个或者多个声学模型还包括向单个声学模型使用的特征空间中并入引用地理位置的数据；向单个声学模型使用的特征空间中并入引用地理位置的数据还包括向单个声学模型使用的特征空间中并入值，其中值包括梅尔频率倒频谱系数和地理坐标；针对地理位置适配一个或者多个声学模型还包括向在单个声学模型中包括的状态信息中并入引用地理位置的数据；和/或针对地理位置适配一个或者多个声学模型还包括：推导与地理位置关联的变换矩阵；并且将变换矩阵应用于单个通用声学模型。

可以实施在本说明书中描述的主题内容的具体实施例以实现以下优点中的一个或者多个优点。可以提高语音识别准确度。可以使用准确地反映口音、方言或存在于给定语言中的语音模式中的差异的讲话以及可以跨不同的地理区域发生的讲话来适配声学模型。语音识别可以在服务器侧处执行，而非在客户端设备上执行，以允许增强处理优化并且增加计算效率。

在附图和下文描述中阐述在本说明书中描述的主题内容的一个或者多个实施例的细节。主题内容的其它潜在特征、方面和优点将从该描述、附图和权利要求中变得清楚。

附图说明

图1是使用地理标注的音频以增强语音识别准确度的例子系统的图。

图2和图3是例子过程的流程图。

图4是例子过程的泳道图。

各种附图中的相似标号指示相似要素。

具体实施方式

图1是使用地理标注的音频以增强语音识别准确度的例子系统100的图。图1也图示了在状态(a)至(i)期间在系统100内的数据流以及在状态(i)期间在系统100的移动设备102上显示的用户接口101。简言之，系统100适配地理专属于一个或者多个地理区域的一个或者多个声学模型。声学模型应用于用位置信息进行地理标注的音频信号，以通过比较音频信号与声音的统计表示来执行语音识别，这些声音组成特定语言的每个单词。

更具体而言，系统100包括通过一个或者多个网络106与服务器104和ASR引擎105通信的移动设备102。服务器104可以是搜索引擎、口授引擎、对话系统或者任何如下其它引擎或者系统，该引擎或者系统使用转录的语音或者调用使用转录的语音的软件应用以执行某个动作。网络106可以包括无线蜂窝网络、无线局域网(WLAN)或者Wi-Fi网络、第三代(3G)或者第四代(4G)移动电信网络、专用网络如内部网、公用网络如因特网或者其任何适当组合。状态(a)至(i)描绘当系统100执行例子过程时出现的数据流。状态(a)至(i)可以是时序状态，或者它们可以在与所示序列不同的序列中出现。

根据图1中所示例子过程，ASR引擎105从各种设备(例如移动设备102或者其它移动或者非移动设备)接收地理标注的音频信号107至109并且使用地理标注的音频信号107至109针对一个或者多个地理位置适配一个或者多个地理专属声学模型111。地理专属声学模型111可以包括适配成地理专属于一个地理位置或者多个地理位置的一个单个声学模型，或者地理专属声学模型111可以包括共同适配成地理专属于一个地理位置或者各自适配成地理专属于不同地理位置的两个或者更多声学模型。

当接收与移动设备102记录的讲话113对应的音频信号112时，确定与移动设备102(或者移动设备102的用户114(“波士顿Bob”))关联的一个或者多个地理位置。ASR引擎105使用地理专属声学模型111来转录讲话113，这些声学模型匹配于与移动设备102(或者移动设备102的用户114)关联的地理位置或者ASR引擎105确定这些声学模型适合于这些地理位置。从ASR引擎105向服务器104传达一个或者多个候选转录115。当服务器104是搜索引擎时，服务器104使用候选转录115来执行一个或者多个搜索查询、生成搜索结果116并且向移动设备102传达搜索结果116用于显示。

更具体而言，在状态(a)期间，通过网络106向ASR引擎105传达地理标注的音频信号107至109。一般而言，地理标注的音频信号107至109中的一个或者多个音频信号包括不同用户的话音。可以在状态(a)期间向ASR引擎105传达更少或者更多地理标注的音频信号。

虽然在地理标注的音频信号107至109中编码的话音中的若干语音可以共享共同语言，但是口述共同语言的不同话音可以具有与不同地理区域相关的不同口音(即“地理相关”语音)。因而与音频信号107至109关联的地理位置可以用来按照地理区域(并且因此按照口音、方言或者语音模式)对音频信号聚类并且适配一个或者多个声学模型111以更好地识别表现特定地理相关口音、方言或者语音模式的语音。除了话音之外，地理标注的音频信号107至109也可以包括在特定位置(自然地或者以别的方式)出现的周围声音或者环境噪声。

在状态(b)期间，ASR引擎105接收地理标注的音频信号107至109并且在音频信号汇集中(例如在计算机可读存储介质上)存储地理标注的音频信号107至109(或者其部分)。如下文描述的那样，ASR引擎105存储的音频信号汇集用于训练、构建、生成或者否则适配一个或者多个地理专属声学模型111，这些声学模型用来对地理标注的音频信号和讲话执行语音识别。

在图1中，ASR引擎105接收已经用引用位置“纽约市”的元数据117标注的音频信号107。另外，ASR引擎105接收已经用引用位置“波士顿”的元数据118和引用“城市”地理位置类型(即因为“波士顿”是城市)的元数据119标注的音频信号108。此外，ASR引擎105接收已经用引用位置“新英格兰”的元数据120和引用位置“波士顿”(“波士顿”是“新英格兰”内的城市)的元数据121标注的音频信号109。与相应音频信号关联的地理标注的位置可以指代移动设备的位置、用户、讲话引用的位置、默认位置、ASR引擎105、网络106或者网络106的部分或者一些其它位置。

元数据117至121(或者其一些部分)可以如图所示由向ASR引擎105传达元数据117至121的设备与音频信号107至109关联。取而代之，元数据117至121(或者其一些部分)可以由ASR引擎105、搜索引擎104或者由另一服务器在接收未标注的音频信号之后基于推断移动设备102(或者移动设备102的用户114)的位置来与音频信号107至109关联。

音频信号107至109可以各自包括相对高质量音频、比如十六千赫兹无损音频的两秒(或者更多)摘录。元数据可以引用设备(或者设备的用户)在记录、捕获、生成或者否则获得音频时的位置，或者元数据可以引用设备(或者设备的用户)在记录、捕获、生成或者否则获得音频之前或者之后的时间的位置。可以向ASR引擎105人工上传音频信号107至109，或者对于选择参与的用户，可以自动获得并且向ASR引擎105传达音频信号107至109而无需在向ASR引擎105传达每个音频信号之前的显式用户激励。

元数据117至121可以用任何数目的不同格式或者细节或者粒度水平描述位置。例如，元数据117至121可以包括标识地理区域的二维坐标(例如纬度和经度)、地址或者信息。当在移动车辆中记录音频信号时，元数据117至121可以描述车辆的路径(例如包括起点和终点以及运动数据)。此外，元数据117至121可以在位置类型方面描述位置(例如“移动车辆”、“在海滩上”、“在饭馆中”、“在高楼中”、“南亚”、“农村区域”、“有建筑噪声的某处”、“游乐园”、“在船艇上”、“室内”、“地下”、“在街道上”、“森林”)。

另外，元数据117至121可以在有界区域方面描述位置(例如表达为限定有界区域的坐标集)或者可以使用区域标识符、比如州名或者标识符、城市名、惯用名(例如“中央公园”、“唐人街”、“TriBeca”)、国名或者任意限定区域的标识符(例如“房间/区域ABC123”)。单个音频信号可以与描述一个位置或者位置类型或者多个位置和/或位置类型的元数据关联。

ASR引擎105或者移动设备102可以处理元数据117至121以调整位置信息的细节水平(例如以确定与特定坐标集关联的州)，或者位置信息可以被离散化(例如通过选择沿着路径的具体点或者与路径关联的区域)。可以通过指定或者添加位置类型元数据、例如通过向其关联地理坐标与海滩位置关联的音频信号添加“在海滩上”标签或者通过向包括在背景中交谈的多个人的声音的音频信号添加“有许多人的某处”标签来调整元数据的细节水平，当特定音频信号与引用两个或者更多位置的元数据关联时，ASR引擎105可以通过去除引用位置中的一个或者多个位置的元数据来过滤音频信号。

元数据引用的地理位置也可以转换成离散化的特征以减少可能不同位置的数目。这可以例如通过减少纬度和经度坐标的分辨率(例如从0.001度减少至1度或者5度)或者通过将纬度和经度坐标转换成地理位置的名称(例如通过使用在国家、州、城市或者省份之间的边界限定的区域)来完成。

由于ASR引擎105适配一个或者多个声学模型111以增强对包括不同口音的话音的识别，所以用来适配一个或者多个声学模型111的音频信号应当包括不同用户在不同地理位置的语音、口音和方言。就这一点而言，ASR引擎105可以使用语音活动检测器以验证ASR引擎105存储的音频信号汇集包括语音存在于其中的音频信号并且滤除或者以别的方式标识或者排除仅包括环境噪音或者环境声音的音频信号(或者音频信号的部分)。例如ASR引擎105可以去除音频信号的与在用户口述之前或者之后出现或者在单词之间的停顿之间出现的背景噪声对应的部分。ASR引擎105存储的音频信号汇集可以包括数以十计、数以百计、数以千计、数以百万计或者数以亿计的音频信号。

ASR引擎105对存储或者不存储特定音频信号(或者其部分)的判决可以分别基于确定用户的语音在音频信号中被编码或者未被编码。取而代之，ASR引擎105存储音频信号可以包括标识音频信号的包括用户的语音的部分、通过去除未包括用户的语音的部分或者通过关联元数据、该元数据引用包括用户的语音的部分来变更音频信号并且存储变更的音频信号。音频信号的环境噪声或者环境声音部分可以由ASR引擎105存储用于其它目的、例如构建地理专属噪声模型。

与音频信号107或者109关联的其它情境数据或者元数据也可以由ASR引擎105存储。例如ASR引擎105存储的音频信号可以在一些实施方式中包括其它元数据标签、比如指示背景语音(例如自助餐厅聊天)是否存在于音频信号内的标签、标识获得特定音频信号的日期的标签(例如用来确定采样年龄)、标识移动设备102的用户114的口音的标签、标识移动设备102的用户114设置的地点的标签(例如标识用户114偏好英国英语或者美国英语的标签)或者标识特定音频信号是否以一些方式从汇集的在相同或者相似位置获得的其它音频信号偏离的标签。例如标签可以标识无口音或者有重口音(例如南非口音)的用户正在与不同重口音(例如澳大利亚口音)关联的地理区域中使用移动设备以避免使用未准确反映与特定地理区域关联的口音的音频信号来适配声学模型。

ASR引擎105可以可选地过滤音频信号以排除满足或者未满足其它标准的特定音频信号。例如ASR引擎105可以判决不存储如下音频信号，该音频信号比某一年龄更老或者包括可以唯一标识个人或者可以用别的方式在性质上专有或者私有的背景聊天。在附加例子中，可以在与音频信号关联的元数据中标注如下数据，该数据引用是否人工或者自动上传ASR引擎105存储的音频信号，并且可以仅使用自动上传的那些音频信号或者仅使用人工上传的那些音频信号来适配一个或者多个声学模型111，或者可以在适配声学模型期间向每个上传类别分配不同加权。

虽然显式标签可以应用于ASR引擎105存储的音频信号以引用特定地理位置，但是在其它实施方式中，可以比如当可以推导在音频信号与地理位置之间的关联性时，无需或者未使用显式标签。例如可以通过处理搜索日志(例如用服务器104存储)以推断用于特定音频信号的地理位置来隐式地关联地理位置与音频信号。因而，ASR引擎105‘接收’地理标注的音频信号可以包括获得未用地理位置明确标注的音频信号并且推导和关联用于音频信号的一个或者多个地理标签。

在状态(c)期间，通过网络106从移动设备102向ASR引擎105传达音频信号112。音频信号112包括移动设备012(例如在用户隐式地或者显式地发起语音搜索查询时)记录的讲话113(如本地波士顿人、比如“波士顿Bob”可以口述的“Pahk yah kah”，它是措词“停放您的汽车”的表音转录)。音频信号112包括引用地理位置“波士顿”的元数据123。除了包括讲话113之外，音频信号112也可以包括环境音频摘录、比如在口述讲话113之前或者之后记录的两秒音频摘录。尽管在图1中图示了讲话113为语音查询，但是在其它例子实施方式中，讲话可以是向口授系统或者相对话系统的语音输入。

可以使用与ASR引擎105存储的音频信号关联的地理位置相同或者不同的细节水平来限定与音频信号112关联的地理位置(“波士顿”)。例如可以表达与ASR引擎105存储的音频信号关联的地理位置为地理区域，而可以表达与音频信号112关联的地理位置为地理坐标。当细节水平不同时，ASR引擎105可以处理元数据117至121的地理元数据123以对准相应细节水平，从而可以更容易执行子集选择过程。

元数据123可以由移动设备102(或者移动设备102对用户114)在记录讲话113时基于当前地理位置来与音频信号112关联并且可以与音频信号112一起从移动设备102向ASR引擎105传达。取而代之，元数据可以由ASR引擎105基于ASR引擎105推断的用于移动设备102(或者移动设备102的用户114)的地理位置来与音频信号112关联。

ASR引擎105或者移动设备102可以使用用户的日历时间表、(例如如存储于ASR引擎105或者服务器104的用户账户中或者如从移动设备102传达的)用户偏好、默认位置、以往位置(例如移动设备102的GPS模块计算的最新位置)、用户在提交语音搜索查询时显式提供的信息、根据讲话113本身、三角测量(例如WiFi或者小区塔三角测量)、在移动设备102中的GPS模块或者推算定位(dead reckoning)来推断地理位置。元数据123可以包括准确度信息，该信息指定地理位置确定的准确度，从而表示移动设备102(或者移动设备102的用户114)在记录讲话113时的时间实际上在元数据123指定的特定地理位置的可能性。

在附加例子中，ASR引擎105或者移动设备102可以使用用户在所有他的讲话内的平均位置、用户的“家乡位置”(例如如用户显式地指定或者根据口音推断的、用户当前居住的位置或者他成长并且他的口音来自的位置)、代表用户在一些近来时间段内的位置的‘平滑’、当前位置与用户的家乡位置的组合(例如根据两个二维纬度和经度推导的四维信号)或者作为连续二维纬度和经度信号的当前位置位置来推断地理位置。

也可以与音频信号112一起包括其它元数据。例如与音频信号一起包括的元数据可以包括与相应移动设备102关联的位置或者地点。例如地点可以描述移动设备102在其中注册的区域或者移动设备102的用户114的语言或者方言以及其它可选参数。语音识别模块124可以使用这一信息以选择、训练、生成或者以别的方式适配与移动设备102的情境匹配的噪声、话音、声学、流行度或者其它模型。

在状态(d)期间，ASR引擎105选择ASR引擎105已经接收的音频信号的子集并且使用声学模型适配模块125以使用音频信号的子集来训练、生成或者以别的方式适配一个或者多个声学模型111(例如高斯混合模型(GMM))。例如可以使用ASR引擎105选择的音频信号的子集作为用于一个或者多个声学模型111的训练集。

子集可以包括ASR引擎105存储的音频信号中的所有或者少于所有音频信号。这一选择可以通过比较来自音频信号107至109的声学信息与来自音频信号112的声学信息来出现以产生更准确反应在不同口音之间的实际地理边界的子集。

一般而言，一个或者多个声学模型111与噪声模型、语言模型和/或其它模型一起应用于音频信号112以将口述讲话113转译或者转录成一个或者多个文字候选转录115并且向候选转录115生成语音识别置信度分数。具体而言，一个或者多个声学模型111包括组成特定语言的每个单词的声音的统计表示，并且噪声模型用于噪声抑制或者噪声补偿。两种模型增强口述讲话113在ASR引擎105看来的可理解性。

更具体而言，声学模型适配模块125可以使用音频信号108和109针对与音频信号112关联的地理位置(“波士顿”)适配声学模型，因为地理标注音频信号108和109为已经在该地理位置或者附近或者在相同或者相似类型的位置被记录。另外，除了音频信号108和109之外或者取而代之，音频信号112本身也可以用来适配一个或者多个声学模型111。在针对特定地理位置适配声学模型时，声学模型适配模块125基于可以与特定口音、方言或者话音模式相关的标准来适配声学模型。

在另一例子中，声学模型适配模块125可以使用被地理标注为已经在另一地理位置(例如“纽约市”)或者附近或者在相同或者相似类型的位置被记录的音频信号107针对另一地理位置适配声学模型。如果声学模型适配模块125被配置成选择被地理标注为已经在与音频信号112关联的地理位置附近(例如在预定义距离内)被记录的音频信号，那么如果“纽约市”在“波士顿”的预定义距离内，则声学模型视频模块125也可以使用标注“纽约市”的音频信号107针对“波士顿”适配一个或者多个声学模型111。

除了使用位置标准之外，其它情境数据也可以用来选择由ASR引擎105用来适配一个或者多个声学模型111的音频信号的子集或者调整特定音频信号对一个或者多个声学模型111的适配具有的影响的权值。例如ASR引擎15可以选择如下音频信号的子集，这些音频信号的情境数据指示它们比预定义时间段更长或者更短，或者这些音频信号的情境数据指示它们满足某一质量或者近因标准。另外，ASR引擎105可以选择如下音频信号作为子集，这些音频信号的情境信息指示它们是使用具有与移动设备102相似的音频子系统的移动设备来记录的。

可以用来选择音频信号的子集的其它情境数据可以在一些例子中包括时间信息、日期信息、对特定移动设备在记录期间测量的速度或者运动数量进行引用的数据、其它设备传感器数据、设备状态数据(例如蓝牙耳机、扬声器电话或者传统输入方法)、用户标识符(如果用户选择提供用户标识符)或者标识移动设备类型或者机型的信息。情境数据例如可以提供在音频信号112的记录周围环境的条件的指示。

在一个例子中，移动设备102与音频信号112一起供应的情境数据可以指示移动设备102在与水体关联的区域中在步行速度以上行进。使用这一情境数据，ASR 105可以推断音频信号112在船艇上被记录并且可以选择与“在船艇上”位置类型关联的音频信号的子集以更好地识别“在船艇上”位置类型共有的口音、方言或者话音模式、比如渔夫或者水手使用的口音、方言或者话音模式。

在另一例子中，移动设备102与音频信号112一起供应的情境数据可以指示移动设备102在农村区域中。基于这一情境数据，ASR引擎105可以推断如果子集包括在城市区域中记录的音频信号则不会提高语音识别的准确度。因而情境数据可以由声学模型适配模块125用来选择将用来适配一个或者多个声学模型的音频信号或者选择用来识别特定讲话的适当声学模型111。在一些实施方式中，声学模型适配模块125可以基于与音频信号关联的地理位置和与音频信号112关联的地理位置的邻近度来选择ASR引擎105存储的音频信号的加权组合。

声学模型适配模块125也可以使用音频信号112本身中包括的音频来适配一个或者多个声学模型111。例如声学模型适配模块125可以相对于音频信号112的质量确定ASR引擎105存储的音频信号的质量并且可以选择仅使用ASR引擎105存储的音频信号、仅使用音频信号112或者使用其任何适当加权或者未加权组合来适配一个或者多个声学模型111。例如声学模型适配模块125可以确定音频信号112包括很少讲话或者ASR引擎105针对该特定地理位置存储包括多个讲话的其它高质量音频信号并且可以选择适配声学模型而未使用音频信号112(或者向音频信号112给予很少加权)。

在一些实施方式中，声学模型适配模块125选择与N(例如五个、二十个或者五十个)与关联于音频信号112的地理位置最近的地理位置关联的音频信号作为子集。当与音频信号112关联的地理位置描述点或者地方(例如坐标)时，可以相对于该地理位置的几何形状(例如圆形或者方形)限定几何形状，并且声学模型适配模决125可以选择ASR引擎105存储的与全部或者部分位于限定的几何形状内的地理区域关联的音频信号作为子集。当与音频信号112关联的地理位置描述区域时，声学模型适配模块125可以选择ASR引擎105存储的与在区域的任何点的预定距离内的地理区域关联的音频信号作为子集。

如果已经在位置类型(即“在海滩上”、“城市”)方面限定与音频信号112关联的地理位置，ASR引擎105可以选择与相同或者相似位置类型关联的音频信号，即使与选择的音频信号关联的物理地理位置在物理上未在与音频信号112关联的地理位置附近。例如由于全世界的冲浪运动员可以使用相似口音或者方言，所以可以用“在海滩上”元数据标注用于在佛罗里达海滩上记录的音频信号的声学模型。在这样做时，声学模型适配模块125可以选择如下音频信号作为子集，这些音频信号的关联元数据指示它们也在海滩上被记录，尽管事实是可能已经在澳大利亚、夏威夷或者在冰岛的海滩上记录它们。

如果与音频信号112关联的地理位置未匹配于与ASR引擎105存储的音频信号关联的任何物理地理位置或者无高质量匹配(即匹配未满足预定质量阈值)，则声学模型适配模块125可以基于匹配位置类型而不是匹配实际物理地理位置来选择音频信号的子集。其它匹配过程、比如聚类算法可以用来匹配音频信号112与ASR引擎105存储的音频信号。

除了生成‘通用’地理专属声学模型111之外，声学模型适配模块125也可以适配以其它标准为目标或者专属于其它标准的地理专属声学模型、比如进一步专属于不同设备类型或者当天时间的地理专属声学模型。可以基于检测已经满足阈值、比如确定ASR引擎105存储的阈值数目的音频信号指代相同地理位置并且共享另一相同或者相似情境(例如当天时间、当周日子、运动特性、设备类型等)来适配作为目标的声学子模型。

可以在移动设备102已经记录讲话113之前、期间或者之后适配一个或者多个声学模型111。例如来自与讲话113相同或者相似的位置的多个音频信号可以与处理讲话113并行处理并且可以用来实时或者近实时适配一个或者多个声学模型111以更好地逼近在记录讲话113时在包围移动设备102的地理区域中居住的人的口音、方言或者其它话音模式。

适配一个或者多个声学模型111可以使用至少四种方式来出现。例如可以针对每个地理位置地理区域或者地点构建单独声学模型。根据这一方式，适配声学模型114包括从ASR引擎105已经针对多个地理位置构建的多个声学模型之中选择与关联于音频信号112的地理位置匹配的特定地理专属声学模型。

根据第二方式，位置信息可以并入于声学模型中。例如二维连续纬度和经度坐标矢量可以直接堆叠于声学模型使用的已经包括声学特征如梅尔频率对数倒频谱系数(“MFCC”)的特征空间中。根据这一方式，需要构建更少声学模型，因为位置信息可以视为用于单个声学模型的规则训练过程的部分。

更具体而言，用来适配模型的音频信号(例如音频信号107至109)划分成帧(例如25毫秒帧)。例如使用十个到四十个MFCC来推导每帧的对数倒频谱表示以描述每个特定帧的声音。当使用特定帧来训练模型时，如下数据集用来代表帧，该数据集包括与特定帧关联的MFCC和指代地理位置(例如地理坐标)的值二者。

根据第三方式，可以并入离散化的位置信息作为在声学模型中包括的状态信息的部分。具体而言，声学模型将状态映射至特征空间内的概率分布，从而除了当前音素以及关于先前和后继音素的一些情境信息之外也可以扩充状态以包括位置信息。在训练期间，对于每帧，状态可能未确切已知；有时仅状态内的概率分布已知；在这一情况下，可以向状态内的概率分布中并入离散化的位置内的平滑连续位置分布或者概率密度函数。因而模型在音素水平而不是声学特征水平存储位置信息。

根据无需重新训练声学模型的第四方式，单个声学模型用于语言内的所有位置，然而基于地理位置以轻量级方式适配声学模型。一种这样的用于适配声学模型的已知技术使用最大似然线性回归(“MLLR”)，该MLLR推导变换矩阵，该变换矩阵应用于声学模型空间中的高斯系数或者声学模型的输入特征应用以调整模型以与适配讲话集匹配。音频信号112的地理位置可以用来限定地理区域，并且可以向MLLR适配算法中馈送ASR引擎105存储的与区域关联的所有训练音频信号以产生可以用来变换声学模型以与在该区域中发现的口音匹配的矩阵。

更具体而言，可以针对特定区域和/或语言生成单个通用声学模型、比如代表“美国英语”的声学模型。用来适配模型的音频信号(例如音频信号107至109)用来生成线性变换，这些线性变换通过将通用声学模型的系数与适当线性变换进行矩阵相乘来变换通用模型以与特定子区域中的口音匹配。生成线性变换和通过矩阵乘法适配通用声学模型可以在飞行中、例如在ASR引擎105已经接收音频信号112之后出现。

在状态(e)期间，ASR引擎105的语音识别模块124使用用于与音频信号112关联的地理位置的一个或者多个地理专属声学模型111对音频信号112执行语音识别。当音频信号112包括对移动设备102的设备类型进行描述的元数据时，ASR引擎105可以应用专属于与音频信号关联的地理位置和移动设备102的设备类型二者的声学模型。语音识别模块124可以生成与在音频信号112中编码的讲话匹配的一个或者多个候选转录115和用于候选转录的语音识别置信度值。

在状态(f)期间，从ASR引擎105向服务器104传达语音识别模块124生成的候选转录115中的一个或者多个候选转录。当服务器104是搜索引擎时，可以使用候选转录115作为由搜索引擎用来执行一个或者多个搜索查询的候选查询检索词。ASR引擎105可以在向服务器104发送之前至少部分基于候选转录115的相应语音识别置信度分数对它们排行。通过转录口述讲话并且服务器104提供候选转录，ASR引擎105可以向移动设备102提供话音搜索查询能力、口授能力或者对话系统能力。

服务器104可以使用候选查询检索词来执行一个或者多个搜索查询并且可以生成引用搜索结果126和127的文件116。文件116可以是标记语言文件、比如可扩展标记语言(XML)或者超文本标记语言(HTML)文件。

服务器104在一些例子中可以包括用来在因特网内发现参考文献的网上搜索引擎、用来发现企业或者个人的电话簿型搜索引擎或者另一专门化搜索引擎(例如提供对诸如餐馆和电影院信息、医疗和药品信息等娱乐清单的引用的搜索引擎)。在状态(h)期间，服务器104向移动设备102提供引用搜索结果126至127的文件116。

在状态(i)期间，移动设备102在用户接口101上显示搜索结果126和127。用户接口101包括：搜索框129，该搜索框显示具有最高语音识别置信度分数的候选查询检索词(“停放您的汽车”)；替代查询检索词建议区域130，该区域显示简化113可能已经预计的另一候选查询检索词(“Parker Cole”或者“Parka Card”)；搜索结果126，该搜索结果包括指向用于“波士顿停车”的资源的链接；以及搜索结果127，该搜索结果包括指向用于“剑桥停车场”的资源的链接。

图2是例子过程200的流程图。简言之，过程200包括：接收与移动设备记录的讲话对应的音频信号；确定与移动设备关联的地理位置；针对地理位置适配一个或者多个声学模型；并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。

更具体而言，当过程200开始时，接收与移动设备记录的讲话对应的音频信号(202)。讲话可以包括语音搜索查询或者可以是向口授或者对话应用或者系统的输入。讲话可以包括关联情境数据、比如时间、日期、在记录地理标注的音频信号期间测量的速度或者运动数量或者记录地理标注的音频信号的设备类型。

确定与移动设备关联的地理位置(204)。例如可以从移动设备接收引用特定地理位置的数据或者可以标识与移动设备关联的以往地理位置或者默认地理位置。

针对地理位置适配一个或者多个声学模型(206)。可以通过针对每个地理标注的音频信号确定在特定地理位置和与地理标注的音频信号关联的地理位置之间的距离并且选择在特定地理位置的预定距离内或者与在与特定地理位置最近的N个地理位置之中的地理位置关联的那些地理标注的音频信号来选择用于适配音频模型的地理标注的音频信号的子集。

适配一个或者多个声学模型可以包括从已经针对多个地理位置生成的多个声学模型之中选择针对与移动设备关联的地理位置生成的一个或者多个声学模型或者向一个或者多个声学模型使用的特征空间中并入引用地理位置的数据(例如地理坐标)。取而代之，适配一个或者多个声学模型可以包括向在声学模型中包括的状态信息中并入引用地理位置的数据或者推导与地理位置关联的变换矩阵；并且将变换矩阵应用于通用声学模型。

可以通过标识与特定地理位置关联的地理标注的音频信号和/或通过标识与讲话在声学上相似的地理标注的音频信号来选择地理标注的音频信号的子集。可以基于特定地理位置和与讲话关联的情境数据选择地理标注的音频信号的子集。生成声学模型可以包括使用地理标注的音频信号的子集作为训练集来训练GMM。

对音频信号执行语音识别(208)。执行语音识别可以包括生成讲话的一个或者多个候选转录。可以使用一个或者多个候选转录来执行搜索查询，或者可以提供候选转录中的一个或者多个候选转录作为数字口授应用的输出。取而代之，可以提供候选转录中的一个或者多个候选转录作为向对话系统的输入以允许计算机系统与特定移动设备的用户对话。

图3是另一例子过程300的流程图。简言之，过程300包括接收地理标注的音频信号并且至少部分基于与每个地理标注的音频信号关联的特定地理位置生成多个声学模型。可以在基于讲话执行语音识别时至少部分基于与讲话的地理位置选择这些声学模型中的一个或者多个声学模型。

更具体而言，当过程300开始时，接收与音频对应的地理标注的音频信号(302)。地理标注的音频信号可以在特定地理位置由移动设备记录。可以处理接收的地理标注的音频信号以排除音频信号的部分，这些部分未包括移动设备对用户的语音。可以接收并且存储在一个或者多个地理位置记录的多个地理标注的音频信号。

可选地，接收与地理标注的音频信号关联的情境数据(304)。地理标注的音频信号可以包括时间、日期、在记录地理标注的音频信号期间测量的速度或者运动数量或者记录地理标注的音频信号的设备类型。

适配一个或者多个声学模型(306)。可以针对特定地理位置或者可选地针对位置类型使用地理标注的音频信号的子集来适配每个声学模型。可以通过针对每个地理标注的音频信号确定在特定地理位置和与地理标注的音频信号关联的地理位置之间的距离并且选择在特定地理位置的预定距离内或者与在与特定地理位置最近的N个地理位置之中的地理位置关联的那些地理标注的音频信号来选择理标注的音频信号的子集。可以通过标识与特定地理位置关联的地理标注的音频信号来选择地理标注的音频信号的子集。可以基于特定地理位置和与地理标注的音频信号关联的情境数据二者选择地理标注的音频信号的子集。生成声学模型可以包括使用地理标注的音频信号的子集来训练高斯混合模型(GMM)。

接收特定移动设备记录的讲话(308)。讲话可以包括语音搜索查询。讲话可以包括关联情境数据、比如时间、日期、在记录地理标注的音频信号期间测量的速度或者运动数量或者记录地理标注的音频信号的设备类型。

确定地理位置(310)。例如可以从移动设备的GPS模块接收引用特定地理位置的数据。

选择声学模型(312)。可以从针对多个地理位置适配的多个声学模型之中选择声学模型。情境数据可以可选地有助于从用于特定地理位置的多个声学模型之中选择特定声学模型。

使用选择的声学模型对讲话执行语音识别(314)。执行语音识别可以包括生成讲话的一个或者多个候选转录。可以使用一个或者多个候选转录来执行搜索查询。

图4示出了用于使用地理标注的音频来增强语音识别准确度的过程400的例子的泳道图。过程400可以由移动设备402、ASR引擎404和搜索引擎406实施。移动设备402可以向ASR引擎404提供音频信号、比如音频信号或者与讲话对应的音频信号。虽然图示了仅一个移动设备，但是移动设备402可以代表向过程400贡献音频信号和语音查询的大量移动设备402。ASR引擎404可以基于音频信号适配声学模型并且可以在执行语音识别时将一个或者多个声学模型应用于传入语音搜索查询。ASR引擎405可以向搜索引擎406提供对语音搜索查询内的讲话的转录以完成语音搜索查询请求。

过程400始于移动设备402向ASR引擎404提供408地理标注的音频信号。音频信号可以将移动设备402的语音的音频与关于记录音频的位置的指示一起包括。可选地，地理标注的音频信号可以包括例如形式为元数据的情境数据。ASR引擎404可以在音频数据存储库中存储地理标注的音频信号。

移动设备402向ASR引擎404提供410讲话。讲话例如可以包括语音搜索查询。记录讲话可以可选地包括例如在记录讲话之前或者之后简短记录的音频采样。

移动设备402向ASR引擎404提供412地理位置。移动设备在一些例子中可以提供使用GPS模块来检测的导航坐标、最新(但是未必与记录并行的)GPS读数、默认位置、根据先前提供的讲话推导的位置或者通过推算定位或者发射塔三角测量来估计的位置。移动设备402可以可选地向ASR引擎404提供情境数据、比如传感器数据、设备机型标识或者设备设置。

ASR引擎404适配414声学模型。可以部分通过训练GMM来适配声学模型。可以基于移动设备402提供的地理位置适配声学模型。例如从在移动设备402的位置或者附近的位置提交的地理标注的音频信号可以有助于声学模型。可选地，移动设备402提供的情境数据可以用来过滤地理标注的音频信号以选择与其中记录讲话的条件最适合的音频信号。例如可以按照当周日子或者当天时间过滤在移动设备402提供的地理位置附近的地理标注的音频信号。如果与移动设备402提供的讲话一起包括音频采样，则可以可选地在声学模型中包括音频采样。

ASR引擎104对提供的讲话执行语音识别416。可以使用由ASR引擎适配的声学模型将移动设备402提供的讲话转录成一个或者多个查询检索词集。

ASR引擎404向搜索引擎406转发418生成的转录。如果ASR引擎404生成多个转录，则可以可选地以置信度为序对转录排行。ASR引擎404可以可选地向搜索引擎406提供情境数据、比如地理位置，搜索引擎406可以使用该情境数据对搜索结果过滤或者排行。

搜索引擎406可以使用转录来执行420搜索操作。搜索引擎406可以对与转录检索词有关的一个或者多个URI定位。

搜索引擎406向移动设备402提供422搜索查询结果。例如搜索引擎406可以转发HTML代码，该代码生成定位的URI的可视列表。

已经描述多个实施方式。然而将理解可以进行各种修改而未脱离公开内容的精神实质和范围。例如可以在重新排序、添加或者去除步骤时使用上文所示流程的各种形式。因而其它实施方式在所附权利要求的范围内。

可以在数字电子电路中或者在包括本说明书中公开的结构及其结构等效物的计算机软件、固件或者硬件中或者在它们中的一项或者多项的组合中实施本说明书中描述的实施例和所有功能操作。实施例可以实施为一个或者多个计算机程序产品、即在计算机可读介质上编码的用于由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或者多个模块。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、实现机器可读传播信号的物质组成或者它们中的一项或者多项的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器、例如包括一个可编程处理器、一个计算机或者多个处理器或者计算机。装置除了包括硬件之外还可以包括为讨论的计算机程序创建执行环境的代码、例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一项或者多项的组合的代码。传播信号是人为生成的信号、例如为了对信息编码用于向适当接收器装置发送而生成的、机器生成的电、光学或者电磁信号。

可以用包括编译或者解译语言的任何形式的编程语言编写计算机程序(也称为程序、软件、软件应用、脚本或者代码)，并且可以用任何形式部署它、包括作为独立程序或者作为适合用于在计算环境中使用的模块、部件、子例程或者其它单元。计算机程序未必对应于文件系统中的文件。程序可以存储于保持其它程序或者数据的文件的部分中(例如存储于标记语言文档中的一个或者多个脚本)、专用于讨论的程序的单个文件中或者多个协同文件(例如存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署成在一个计算机上或者在位于一个地点或者分布于多个地点并且由通信网络互连的多个计算机上执行。

在本说明书中描述的过程和逻辑流程可以由一个或者多个可编程处理器执行，该处理器执行一个或者多个计算机程序以通过对输入数据操作并且生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路、例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)执行，并且装置也可以实施为该专用逻辑电路。

适合于执行计算机程序的处理器例如包括通用和专用微处理器二者和任何种类的数字计算机的任何一个或者多个处理器。一般而言，处理器将从只读存储器或者随机存取存储器或者二者接收指令和数据。

计算机的基本单元是用于执行指令的处理器以及用于存储指令和数据的一个或者多个存储器设备。一般而言，计算机也将包括用于存储数据的一个或者多个海量存储设备、比如磁盘、光磁盘或者光盘或者操作地耦合成从该海量存储设备接收数据或者向该海量存储设备传送数据或者二者。然而计算机无需具有这样的设备。另外，计算机可以嵌入于另一设备中，聊举数例，该另一设备例如是写字板计算机、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备、例如包括半导体存储器设备如EPROM、EEPROM和闪存设备；磁盘如内部硬盘或者可拆卸盘；光磁盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者并入于专用逻辑电路中。

为了提供与用户的交互，实施例可以实施于计算机上，该计算机具有用于向用户显示信息的显示设备、例如CRT(阴极射线管)或者LCD(液晶显示器)监视器以及用户可以用来向计算机提供输入的键盘和指示设备、比如鼠标或者跟踪球。其它种类的设备也可以用来提供与用户的交互；例如向用户提供的反馈可以是任何形式的感官反馈比如视觉反馈、听觉反馈或者触觉反馈；并且可以用包括声音、话音或者触觉输入的任何形式接收来自用户的输入。

实施例可以实施于计算系统中，该计算系统包括后端部件、例如作为数据服务器或者包括中间件部件、例如应用服务器或者包括前端部件、例如具有如下图形用户接口或者网上浏览器的客户端计算机或者这样的后端、中间件或者前端部件中的一个或者多个部件的任何组合，用户可以通过该图形用户接口或者网上浏览器与实施方式交互。系统的部件可以由任何数字数据通信形式或者介质、比如通信网络互连。通信网络的例子包括局域网(“LAN”)和广域网(“WAN”)、例如因特网。

计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助计算机程序来出现，这些计算机程序在相应计算机上运行并且相互具有客户端-服务器关系。

尽管本说明书包含许多细节，但是这些不应解释为对公开内容的或者可以要求保护的内容的范围的限制、但是实际上解释为对具体实施方式特有的特征的描述。也可以在单个实施例组合实施本说明书中在单独实施例的背景中描述的某些特征。反言之，也可以在多个实施例中单独或者在任何适当子组合中实施在单个实施例的背景中描述的各种特征。另外，虽然上文可以描述特征为在某些实施例中作用并且甚至起初这样要求保护，但是在一些情况下可以从要求保护的组合中去除来自该组合的一个或者多个特征，并且要求保护的组合可以涉及子组合或者子组合的变化。

类似地，尽管在附图中以特定顺序描绘操作，但是这不应理解为要求以所示特定顺序或者以依次顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中，多任务和并行处理可以是有利的。另外，在上文描述的实施例中分离各种系统部件不应理解为在所有实施例中要求这样的分离，并且应当理解描述的程序部件和系统一般可以一起集成于单个软件产品中或者封装到多个软件产品中。

在其中提到HTML文件的每个实例中，可以替换为其它文件类型或者格式。例如HTML文件可以替换为XML、JSON、明文或者其它类型的文件。另外当提到表或者散列表时，可以使用其它数据结构(比如电子数据表、关系数据库或者结构化文件)。

这样已经描述具体实施例。其它实施例在所附权利要求的范围内。例如在权利要求中记载的动作可以按不同顺序来执行并且仍然实现希望的结果。

Claims

1.一种系统，包括：

一个或者多个计算机；以及

计算机可读介质，耦合到所述一个或者多个计算机，具有存储于所述计算机可读介质上的指令，所述指令在由所述一个或者多个计算机执行时，使所述一个或者多个计算机执行操作，所述操作包括：

接收与移动设备记录的讲话对应的音频信号；

确定与所述移动设备关联的地理位置；

确定与所述地理位置关联的地理位置类型；

基于与所述移动设备的所述地理位置关联的所述地理位置类型以及基于与所述讲话关联的情境数据选择地理标注的音频信号的子集，其中所述情境数据包括对所述移动设备记录所述讲话时的时间或者日期进行引用的数据、对所述移动设备在记录所述讲话时测量的速度或者运动量进行引用的数据、引用所述移动设备的设置的数据或者引用所述移动设备的类型的数据；

针对所述地理位置类型适配一个或者多个声学模型；以及

使用针对所述地理位置类型适配的所述一个或者多个声学模型对所述音频信号执行语音识别。

2.根据权利要求1所述的系统，其中适配一个或者多个声学模型还包括在接收与所述讲话对应的所述音频信号之前适配一个或者多个声学模型。

3.根据权利要求1所述的系统，其中适配一个或者多个声学模型还包括在接收与所述讲话对应的所述音频信号之后适配一个或者多个声学模型。

4.根据权利要求1所述的系统，其中所述操作还包括基于与所述移动设备关联的所述地理位置类型和基于与所述讲话关联的情境数据来选择所述地理标注的音频信号的所述子集。

5.根据权利要求4所述的系统，其中所述情境数据包括对所述移动设备记录所述讲话时的时间或者日期进行引用的数据、对所述移动设备在记录所述讲话时测量的速度或者运动量进行引用的数据、引用所述移动设备的设置的数据或者引用所述移动设备的类型的数据。

6.根据权利要求1所述的系统，其中适配所述声学模型包括使用所述地理标注的音频信号的所述子集作为训练集来训练高斯混合模型(GMM)。

7.根据权利要求1所述的系统，其中所述讲话代表语音搜索查询或者向数字口授应用或者对话系统的输入。

8.根据权利要求1所述的系统，其中确定所述地理位置类型还包括从所述移动设备接收引用所述地理位置类型的数据。

9.根据权利要求1所述的系统，其中确定所述地理位置类型还包括确定与所述移动设备关联的以往地理位置或者默认地理位置。

10.根据权利要求1所述的系统，其中所述操作还包括：

生成所述讲话的一个或者多个候选转录；以及

使用所述一个或者多个候选转录来执行搜索查询。

11.根据权利要求1所述的系统，其中针对所述地理位置类型适配一个或者多个声学模型还包括：

从已经针对多个地理位置类型生成的多个声学模型之中选择针对与所述移动设备的地理位置关联的所述地理位置类型生成的所述一个或者多个声学模型。

12.根据权利要求1所述的系统，其中针对所述地理位置类型适配一个或者多个声学模型还包括：

向单个声学模型使用的特征空间中并入引用所述地理位置类型的数据。

13.根据权利要求12所述的系统，其中向所述单个声学模型使用的特征空间中并入引用所述地理位置类型的数据还包括向所述单个声学模型使用的特征空间中并入值，其中所述值包括梅尔频率倒频谱系数和地理坐标。

14.根据权利要求1所述的系统，其中针对所述地理位置类型适配一个或者多个声学模型还包括向在单个声学模型中包括的状态信息中并入引用所述地理位置类型的数据。

15.根据权利要求1所述的系统，其中针对所述地理位置类型适配一个或者多个声学模型还包括：

推导与所述地理位置类型关联的变换矩阵；以及

将所述变换矩阵应用于单个通用声学模型。

16.根据权利要求1所述的系统，其中所述地理位置类型包括海滩地理位置类型、饭馆地理位置类型、高楼地理位置类型、城市地理位置类型、国家地理位置类型、农村地理位置类型、城镇地理位置类型、建筑地理位置类型、游乐园地理位置类型、森林地理位置类型、室内地理位置类型或地下地理位置类型。

17.一种用计算机程序编码的计算机永久性存储介质，所述程序包括在由一个或者多个计算机执行时使所述一个或者多个计算机执行操作的指令，所述操作包括：

接收与移动设备记录的讲话对应的音频信号；

确定与所述移动设备关联的地理位置；

确定与所述地理位置关联的地理位置类型；

在接收与所述讲话对应的所述音频信号后，基于与所述移动设备的所述地理位置关联的所述地理位置类型以及基于与所述讲话关联的情境数据选择地理标注的音频信号的子集，其中所述情境数据包括对所述移动设备记录所述讲话时的时间或者日期进行引用的数据、对所述移动设备在记录所述讲话时测量的速度或者运动量进行引用的数据、引用所述移动设备的设置的数据或者引用所述移动设备的类型的数据；

使用在接收与所述讲话对应的所述音频信号后选择的所述地理标注的音频信号的子集来针对所述地理位置类型适配一个或者多个声学模型；以及

18.一种计算机实现的方法，包括：

接收与移动设备记录的讲话对应的音频信号；

接收与所述音频信号关联的数据标签，其中所述数据标签标识所述移动设备的用户的口音；

确定与所述移动设备关联的地理位置；

确定与所述地理位置关联的地理位置类型；

基于所述移动设备的所述用户的口音来针对所述地理位置类型适配一个或者多个声学模型；以及