CN104508739A

CN104508739A - 动态语言模型

Info

Publication number: CN104508739A
Application number: CN201380038870.1A
Authority: CN
Inventors: 佩德罗·J·莫雷诺·门希瓦尔; 迈克尔·H·科恩
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-06-21
Filing date: 2013-06-18
Publication date: 2015-04-08
Anticipated expiration: 2033-06-18
Also published as: US20190138539A1; US9043205B2; WO2013192218A2; US20150254334A1; US20130346077A1; US10140362B2; US9418143B2; US20160342682A1; JP2015526797A; CN107845382A; US20160140218A1; KR102137767B1; EP3754651A1; US9251251B2; EP3754651B1; US10380160B2; EP2864981B1; EP2864981A2; CN104508739B; JP6254583B2

Abstract

用于语音识别的方法、系统和设备，包括在计算机存储介质上编码的计算机程序。其中一种方法包括：接收用于语音识别的基本语言模型，基本语言模型包括具有基本概率值的第一词语序列；接收与查询场境相关联的话音搜索查询；当查询场境满足与定制语言模型相关联的一个或多个准则时，确定要使用定制语言模型；获得定制语言模型，定制语言模型包括具有经过调节的概率值的第一词语序列，经过调节的概率值是基本概率值被根据查询场境来调节的；以及基于一个或多个概率，将话音搜索查询转换为文本搜索查询，每个概率对应于一个或多个词语序列的群组中的词语序列，群组包括具有经过调节的概率值的第一词语序列。

Description

动态语言模型

技术领域

本说明书涉及语音识别。

背景技术

传统的话音(voice)搜索系统目的是将来自用户的话音输入转换为文本搜索查询。在典型的话音搜索系统中，话音接口接收用户的话音输入并将语音输入提供给语音(speech)识别引擎。语音识别引擎可以基于语言模型，将话音输入中的所说出的词语(spoken words)转换为文本搜索查询。然后，话音搜索系统将文本搜索查询提交给搜索引擎。因此，话音搜索系统允许用户在不键入文本搜索查询的情况下执行搜索。

发明内容

话音搜索系统应用定制语言模型将语音输入转换为文本搜索查询。话音搜索系统获得例如使用匿名搜索日志数据的集合构成的基本语言模型。话音搜索系统基于一个或多个定制准则(例如，地理位置、时间或气象)定制基本语言模型。在定制语言模型中，调节分配给与定制准则有关的一个或多个词语序列(word sequence)的概率值。

当话音搜索系统接收话音搜索查询时，话音搜索系统确定话音搜索查询的场境(context)。当场境成分满足定制准则时，话音搜索系统确定定制语言模型。然后，话音搜索系统使用定制语言模型将话音搜索查询转换为文本搜索查询。

一般而言，本说明书中所描述的主题的一个创新性方面可以在这样的方法中具体实施，所述方法包括以下动作：接收用于语音识别的基本语言模型，所述基本语言模型包括具有基本概率值的第一词语序列；接收话音搜索查询，所述话音搜索查询与查询场境相关联；当所述查询场境满足与定制语言模型相关联的一个或多个准则时，确定要使用所述定制语言模型；获得所述定制语言模型，所述定制语言模型包括具有经过调节的概率值的第一词语序列，所述经过调节的概率值是所述基本概率值被根据所述查询场境来调节的；以及基于一个或多个概率，将所述话音搜索查询转换为文本搜索查询，所述一个或多个概率的每一个对应于一个或多个词语序列的群组中的词语序列，所述一个或多个词语序列的群组包括所述具有经过调节的概率值的第一词语序列。该方案的其他实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序，每个被配置为执行所述方法的动作。一个或多个计算机的系统可以被配置为借助于将在操作中使得系统执行动作的软件、固件、硬件或者它们的组合安装在系统上，执行特定的操作或动作。一个或多个计算机程序可以被配置为借助于包括指令来执行特定的操作或动作，当通过数据处理装置执行时，指令使得设备执行所述动作。

前述和其他实施例可以分别可选地包括一个或多个以下特征，单独或组合。获得所述定制语言模型包括基于所述查询场境从一个或多个定制语言模型中选择所述定制语言模型。获得所述定制语言模型包括使用一个或多个语言调节规则，基于接收的查询场境调节所述基本语言模型。

所述查询场境包括从其接收到所述话音搜索查询的用户设备的地理位置。所述方法包括确定所述词语序列与所述地理位置相关，其中所述经过调节的概率值包括所述基本概率值被基于所述词语序列与所述地理位置之间的关系程度来调节。所述词语序列包括位于所述地理位置或者接近所述地理位置的特征的名称；以及在所述查询场境中基于所述特征与所述地理位置之间的距离确定所述关系程度。所述词语序列包括以超过阈值的频率从所述地理位置接收的过去查询的词(term)；以及基于所述频率确定所述关系程度。所述地理位置是一组或多组经纬度坐标限定的地理区域。所述查询场境包括用户提供的标识符，用于与所述话音搜索查询相关联。所述方法包括：确定与所述用户提供的标识符相关联的社团，所述社团包括与所述用户提供的标识符有关的一个或多个用户标识符；使用与所述社团中的所述用户标识符相关联的存储的查询日志，确定所述词语序列的出现频率；以及基于所述出现频率调节所述基本概率值。调节所述基本概率值进一步基于每个所述用户标识符与所述用户提供的标识符之间在所述社团中的关系程度。所述查询场境包括所述话音搜索查询的时间戳。获得所述定制语言模型包括：识别一个或多个电子文档，根据查询日志，所述一个或多个电子文档与搜索查询的数目相关联，所述搜索查询的数目满足阈值数目，所述搜索查询在所述时间戳的指定时间窗口中出现，所述一个或多个电子文档的每一个包括所述词语序列；以及基于所述搜索查询的数目调节所述基本概率值。所述一个或多个电子文档的每一个是新闻文章。所述方法包括：作为所述话音搜索查询的响应，提供所述文本搜索查询的一个或多个搜索结果，以用于在显示设备上显示。将所述话音搜索查询转换为文本搜索查询包括：基于所述定制语言模型中对应的经过调节的概率值，将所述话音搜索查询转换为包括所述第一词语序列的文本搜索查询。

本说明书中所述主题的特定实施例可以被实施为实现一个或多个以下优点。与传统的话音搜索系统相比，使用动态语言模型的话音搜索系统可以基于接收的话音输入提供更恰当的文本搜索查询。因为系统考虑了语音-文本转换中话音输入的特定环境，例如包括接收话音输入的时间、发出话音输入的位置和/或提供话音输入的用户的用户简档，根据特定环境可以定制所得的查询。因此，系统可以提供增强的用户体验。

下面的附图和说明书阐述动态语言建模技术的一个或多个实施例的细节。根据说明书和附图以及根据权利要求书，本技术的其他特征、目的和优点将显而易见。

附图说明

图1是提供用于提供话音搜索的示例系统的概述的框图。

图2是图示用于生成动态语言模型的示例规则的框图。

图3是图示动态语言模型的示例的基于地理的规则的视图。

图4是图示动态语言模型的示例的基于社团的规则的视图。

图5A和图5B是图示动态语言模型的示例实施方式的框图。

图6是使用定制语言模型的示例方法的流程图。

不同附图中相同的附图标记表示相同的元件。

具体实施方式

图1是提供用于提供话音搜索的示例系统的概述的框图。话音搜索系统102包括一个或多个计算机，计算机被编程为从用户接收用户的语音输入，使用动态语言模型将语音输入转换为文本搜索查询，接收响应于文本搜索查询的搜索结果，并响应于语音输入将搜索结果提供给用户。话音搜索系统102例如可以被实施在包括服务器的一个或多个计算机上，或者用户设备上。

话音搜索系统102包括被配置为从用户接收语音输入106的话音接口104。话音接口104例如可包括耦合到用户设备的声学-电学变换器或传感器(例如，麦克风)。语音输入106可包括口语词语序列。

话音搜索系统102包括语音识别子系统108。语音识别子系统108可以是话音搜索系统102的软件组件，其被配置为将语音输入106中的口语词语转换为文本搜索查询115。语音识别子系统108包括基本语言模型110。基本语言模型110可包括与词语序列相关联的概率值。在基本语言模型110中，例如(Wa,Wb,...,Wm)的给定的词语序列与例如P(Wa,Wb,...,Wm)的概率值相关联，其中，每个Wa,Wb,...,Wm包括词语、短语或句子。基本语言模型110可包括多个词语序列以及与每个词语序列相关联的概率值。

基本语言模型110可以是N元模型(例如，一元模型或多元模型)。在所示示例中，基本语言模型110是二元语言模型。基本语言模型包括与词语序列(Wx,Wy)相关联的概率值P(Wx,Wy)。可以使用以下公式计算概率值P(Wx,Wy)：

P(Wx，Wy)≈P(Wx|<s>)P(Wy|Wx)， (1)

其中P(Wx,Wy)是搜索查询中出现的词语序列(Wx,Wy)的概率，<s>指示搜索查询的开始，P(Wx|<s>)指示给定<s>、词语Wx跟随<s>的条件概率，而P(Wy|Wx)指示给定词语Wx、词语Wy跟随词语Wx的条件概率。

此外，基本语言模型110可包括与词语序列(Wp,Wq,Wr)相关联的概率值P(Wp,Wq,Wr)。可以在例如使用以下公式的二元模型中计算概率值P(Wp,Wq,Wr)：

P(Wp，Wq，Wr)≈P(Wp|<s>)P(Wq|Wp)P(Wr|Wq) (2)

为了说明，词语序列(Wp,Wq,Wr)可以表示公众当中流行的搜索查询，例如与其他搜索查询相比出现更频繁的搜索查询。词语序列(Wx,Wy)可以表示只在特殊环境下流行的搜索查询。例如，(Wx,Wy)可以是位于地理区域(例如，城镇ABC)的风味餐厅的名称。话音搜索相同102更有可能从地理区域ABC中的用户而不是从地理区域ABC之外的用户接收具有查询词(Wx,Wy)的搜索查询。

在该示例中，地理区域ABC并非从其接收查询的多个地理区域当中特别流行的地理区域。因此，在基本语言模型中，P(Wp,Wq,Wr)可以大于P(Wx,Wy)，指示一般而言，语音识别子系统108更有可能将语音输入106转换为文本搜索查询(Wp,Wq,Wr)而不是转换为文本搜索查询(Wx,Wy)。根据概率值的排序，在基本语言模型110中可将(Wp,Wq,Wr)排序第一，而将(Wx,Wy)排序在第一后面大约第n个位置。

语音识别子系统108包括模型定制模块112。模型定制模块112可以是语音识别子系统108的软件组件，其被配置为使得计算设备基于一个或多个调节因素动态地调节基本语言模型110，并生成定制语言模型114。调节因素是与基本语言模型110无关的信息项，可以影响将语音输入106转换为特定文本搜索查询的可能性。模型定制模块112例如可以基于位置、查询时间戳或其他参数中的一个或多个来确定调节因素。

例如，对于给定的语音输入，在基本语言模型110中概率值P(Wx,Wy)可以低于概率值P(Wp,Wq,Wr)。当考虑一个或多个调节因素，例如当满足特定位置条件时，模型定制模块112可以增加概率值P(Wx,Wy)，使得定制语言模型114中的概率值P(Wx,Wy)高于基本语言模型110中的概率值P(Wx,Wy)。模型定制模块112可将定制语言模型114与位置(例如，地理区域ABC)相关联。模型定制模块112可以动态地调节基本语言模型110，以在查询时间生成定制语言模型114，使得定制语言模型114中一个或多个特定词语序列的概率不同于基本语言模型110中那些相同词语序列的概率。

语音识别子系统108被配置为接收与语音输入106相关联的查询场境117。查询场境117包括描述生成语音输入106的环境的数据。查询场境117可包括指示在哪里发出语音输入106的位置信息。例如，位置信息可包括基于其估计位置的经度和纬度参数、全球定位系统坐标、或者互联网协议(IP)地址。可以从用户设备获得位置信息。

语音识别子系统108被配置为确定是使用基本语言模型110还是定制语言模型114来将语音输入106转换为文本搜索查询115。例如，如果语音识别子系统108基于查询场境117确定提供语音输入106的用户位于地理区域ABC中，则语音识别子系统108可以使用定制语言模型114。但是，如果语音识别子系统108基于查询场境117确定提供语音输入106的用户不是位于地理区域ABC中，则语音识别子系统108可以使用基本语言模型110将语音输入106转换为文本搜索查询115。

因此，如果语音识别子系统108确定提供语音输入106的用户位于地理区域ABC中，则语音识别子系统108在语音识别中应用定制语言模型114，并根据语音输入106生成文本串。根据定制语言模型114中概率值的排序，如果其他一切相同，那么语音输入106更有可能与(Wx,Wy)而不是与(Wp,Wq,Wr)有关，因为在定制语言模型114中增加的概率值P(Wx,Wy)高于概率值P(Wp,Wq,Wr)。因此，语音识别子系统108将语音输入106转换为包括词(Wx,Wy)的文本串，或者提供显示选项列表，其中将(Wx,Wy)放置为高于(Wp,Wq,Wr)，例如，放置在查询建议列表顶部处或附近，用于用户选择文本搜索查询。

如果语音识别子系统108确定提供语音输入106的用户不是位于与定制语言模型相关联的特定地理区域中，那么语音识别子系统108在语音识别中应用基本语言模型110，并根据语音输入106生成例如包括词(Wp,Wq,Wr)的文本串。

话音搜索系统102将由语音识别子系统108生成的文本串作为文本搜索查询115提交给搜索引擎116。文本搜索查询115可以包括基于定制语言模型114的搜索词“Wx Wy”，或者基于基本语言模型110的“WpWq Wr”。搜索引擎116可包括耦合到话音搜索系统102的web搜索引擎。话音搜索系统102从搜索引擎116接收一个或多个查询结果118，并提供查询结果118以用于在呈现界面120上显示，呈现界面120可以是用户设备上的组件(例如，web浏览器)，或者可以是服务器上的组件，例如动态网页。呈现界面120可包括显示接口或话音输出接口。呈现界面120可以向用户呈现一个或多个查询结果118，例如显示的查询结果页面122，查询结果页面122例如可包括结果“Wx Wy餐厅”。

图2是图示用于生成定制语言模型(例如，定制语言模型114)的示例规则的框图。实施动态语言模型的系统获得基本语言模型202。系统可以从另一系统获得基本语言模型202。替代地，系统可以使用公开可用的语言建模技术(例如，RandLM或者CMU-Cambridge统计语言建模工具包)，根据搜索日志204建立基本语言模型202。系统可以从搜索引擎获得搜索日志，搜索引擎与系统通信，或者是系统的一部分。在一些实施方式中，系统为系统所支持的每种语言获得单独的基本语言模型202。

系统可以使用地理语言模型规则206定制基本语言模型202。地理语言模型规则206包括当词语序列与指定地理区域中的地理特征有关，或者是从指定地理区域接收时，用于调节基本语言模型202中词语序列的概率值的调节因素。词语序列可以借助于例如是地理特征的名称、地址或者特性而与地理特征相关。

地理特征可包括与地理区域有关的任何特征或者位于地理区域处的任何实体。例如，地理特征可包括通常在特定位置出现的企业、地标、当地政府、街道、公园、学校或者事件。地理区域可包括国家、州、县、城市、企业区或者通过纬度和经度确定的坐标方格。

地理语言模型规则206可以通过地理区域分组。对于每个地理区域，系统将与地理区域中的地理特征有关的词语序列与调节因素相关联。调节因素可以指示与其他地理区域相比，来自指定地理区域的搜索查询更有可能包括与指定地理区域中的地理特征有关的词语序列的可能性。调节因素可包括乘子，在基本语言模型202中乘子应用于与词语序列相关联的概率值。

例如，地理语言模型规则包括用于词语序列(Wx,Wy)的调节因素，在本示例中，词语序列是位于地理区域ABC中的企业的名称。调节因素可包括乘子，乘子增加词语序列(Wx,Wy)的概率值P(Wx,Wy)。系统将乘子应用于基本语言模型202中的概率值P(Wx,Wy)，以创建定制语言模型。定制语言模型可以与地理区域ABC相关联。当系统确定提供语音输入(例如，话音查询)的用户位于地理区域ABC中时，系统将定制语言模型用于语音识别。

系统可以基于来自地理数据存储器208、搜索日志204或者这两者的信息生成地理语言模型规则206。地理数据存储器208存储与每个地理区域相关联的地理特征的名称和位置。系统可以从登记的企业名称、公开的记录或者用户输入的列表获得名称和位置。例如，在地理区域ABC中具有名称(Wx,Wy)的餐厅的经营者可以将关联于地理区域ABC的名称(Wx,Wy)登记在web“黄页”或者地理数据存储器208中的公共企业列表的其他数据库。基于该数据库，系统可将名称(Wx,Wy)与地理区域ABC相关联。在地理数据存储器208中存储的名称可以被归一化(例如，去除大写、拼写校正，或者其他标准化)，以映射到基本语言模型202中的词语序列。

系统可以分析搜索日志204，以生成系统用以确定调节因素的大小的查询频率信息。查询频率信息包括通过系统或者通过搜索引擎已经接收到特定查询的次数的计数。系统可以使用阈值来过滤查询频率信息。系统可以使用阈值来确定是否增加概率值。使用在搜索日志204中存储的信息，系统可以确定包括从不同位置的用户接收到的查询词(Wx,Wy)的话音或文本搜索查询的频率。当用户位于地理区域ABC处或者附近时，如果系统确定频率超过阈值，则系统可以指定具有调节因素的地理语言模型规则，所述调节因素增加基本语言模型202中的值P(Wx,Wy)。

系统可以使用社团语言模型规则210附加性或替代性地定制基本语言模型202。社团语言模型规则210包括基于用户的社团，用于调节基本语言模型202中的概率值的调节因素。基于用户A的社团中的用户提交的信息，为用户A调节用于基本语言模型202中的词语序列的概率值。信息例如可包括社团中的用户的一个或多个存储的查询。

如果系统以超过阈值的频率从用户A的社团当中的用户接收特定查询，则系统可以调节与查询相对应的词语序列的概率值。例如，基于来自用户A的社团中的用户的查询，系统可以确定，系统接收包括词语序列(Wa,Wb,Wc,Wd)的搜索查询的阈值数目。在一些实施方式中，在查询日志中将查询匿名，使得掩盖提交用户(例如，通过从存储的查询中消除源标识信息)。基于该确定，系统可以调节基本语言模型202，以为用户A、也为用户A的社团中的用户增加用于词语序列(Wa,Wb,Wc,Wd)的概率值。因此，对于用户A的社团中的用户，系统可以增加将语音输入识别为词语序列(Wa,Wb,Wc,Wd)的可能性，而不是在基本语言模型202中具有较高概率的某些其他词语序列，例如(We,Wf,Wg,Wh)。

系统可以基于从社团数据存储器212、搜索日志204或者这两者获得的信息生成社团语言模型规则210。社团数据存储器212可以存储与用户相关、并且每个相关用户选择提交给系统用于定制语言模型的信息。信息可包括相连接用户的圈子，相连接用户的圈子包括被标识为在社会上连接用户的一个或多个用户。可以从社交站点、虚拟群组、虚拟聊天室、联系人列表或者以上的任何组合检索信息。搜索日志204存储查询频率信息，查询频率信息可包括通过系统已经接收到的特定查询的次数的计数，并且对应于用户社团中的用户标识符。

系统可以附加性或替代性地使用事件语言模型规则214来定制基本语言模型202。事件语言模型规则214包括调节因素，用于调节基本语言模型202中的概率值。当词语序列与流行事件相关联时，可以增加与词语序列相关联的概率值。系统基于时间数据存储器216、或者搜索日志204、或者这两者中存储的信息生成事件语言模型规则214。指定事件可包括可以影响语音输入转换为特定词语序列的概率的任何事件。

在一些实施方式中，系统基于时间事件调节概率值。系统可以基于一天的时刻或者一周的某天来生成事件语言模型规则214。例如，系统可以确定在一天的指定时刻(例如，在中午和下午1点之间，或者在下午6点与下午8点之间)，系统接收与餐厅有关的查询的数目或百分比，其中，数目或百分比超过阈值。系统可以基于数目或百分比，增加与餐厅有关的基本语言模型202中词语序列的概率值。

在一些实施方式中，系统基于气象事件调节概率值。系统可以基于气象信息生成事件语言模型规则214。可将系统配置为使得在给定的气象条件下，向词语序列的指定集合给予经过调节的概率值。事件数据存储器216可包括从一个或多个气象服务接收到的信息。当每个气象服务提供下雨的概率超过指定阈值的气象预报时，可以向有关于道路条件报道、洪水警告或者屋顶修缮的服务的名称给予较高的加权。

在一些实施方式中，系统使用流行新闻事件。系统可以基于一个或多个新闻报道中主题的流行性生成特定事件语言模型规则214。例如，事件数据存储器216可以存储来自不同新闻源的信息。当词语序列以超过阈值的频率在新闻源中出现时，系统可以生成事件语言模型规则214，该事件语言模型规则214增加与词语序列相关联的概率值。

图3是图示基于地理信息的示例动态语言模型的视图。在基于地理信息实施动态语言模型的系统中，系统通过地理信息来注释词语序列。在查询时间，系统基于从其接收语音输入的用户设备的地理位置来使用动态语言模型。

系统包括位置接口，该位置接口被配置为接收来自用户设备的位置信息。在一些实施方式中，位置接口可包括配置为接收来自位置已知的用户设备的纬度、经度或海拔信息的各种模块。在一些实施方式中，位置接口可包括配置为基于用户设备的互联网协议(IP)地址、用户设备所连接的无线接入点或者其他信息来确定用户设备的位置的各种模块。当用户设备位于不同的地理位置时，系统可将相同的语音输入转换为不同的文本搜索查询。

系统将地理区域划分为虚拟块的集合310。虚拟块的集合310的每个块可以对应于为块定制的语言模型。可以基于每个块的中心的纬度和经度坐标或者每个块的一个或多个顶点来限定所述块。在一些实施方式中，可以基于每个块的角以及块尺寸来限定所述块。可以按照公里、英里或者纬度或经度的度数来限定块尺寸。

系统标识位于虚拟块的集合310的块7的实体312。实体312可以是与块7永久性或者基本上永久性关联的特征。例如，实体312可以是位于块7中的企业，企业具有在系统中登记或者在耦合到系统的记录器中登记的企业名称，例如，词语序列(Wx,Wy)。系统可以创建与块7相关联的动态语言模型。在此动态语言模型中，通过乘子调节与实体相关联的词语序列的概率值P(Wx,Wy)，使得增加概率值。

系统可以为虚拟块的集合310的每个块创建定制语言模型。在每个定制语言模型中，通过基于块7与动态语言模型所关联的块之间的距离确定的量，调节与实体312相关联的词语序列的概率值。特别地，可以基于距离将量打折。距离例如可以是欧几里得距离、曼哈顿距离或者通过估计的行进时间测量的距离。对于是块7的近邻的那些块(例如，块4、5和8)，对应的动态语言模型可以具有用于概率值P(Wx,Wy)的第一调节量。对于是块7的远邻的那些块(例如，块1-3、6和9)，对应的动态语言模型可以具有用于概率值P(Wx,Wy)的第二调节量，其中第二调节量小于第一调节量。对于远离块7的那些块(未示出)，概率值P(Wx,Wy)可以保持不调节。

当系统接收来自用户设备的语音输入时，系统确定用户设备位于虚拟块的集合310的哪一个。然后系统应用与块相关联的语言模型，将语音输入转换为文本搜索查询。

图4是图示基于用户的社团的示例动态语言模型400的视图。对于给定用户，当通过用户的社团中的用户以满足阈值的频率使用词语序列时，系统调节语言模型中词语序列的概率值。频率可以是绝对频率或相对频率。

系统可以接收特定社交站点的登记用户(用户A)的用户数据402。用户数据402可包括用于用户A的用户标识符，以及在用户A请求语音识别改善之后通过用户A提交的用户信息。用户信息例如可包括用户的家庭位置、用户喜好以及与用户相关联的其他信息。

系统基于用户数据402生成用于用户A的语言模型调节规则404。系统可以基于位置、喜好以及其他信息来生成语言模型调节规则。例如，如果用户A提交了包括特定查询词的查询，并且如果用户A提交了该查询指定次数(例如，一次，或者一次以上)，则系统可以创建语言模型调节规则404中的规则，增加包括查询词的词语序列的概率。

系统可以基于用户提供或授权的用户数据402标识用户A的社交网络。社交网络可包括用户指定的社交连接圈子(例如，朋友圈)，基于用户A的联系人列表的用户的列表，或者基于用户与用户A之间的常见活动(例如，聊天室参与)的用户的列表。系统可以确定用户与用户A之间的关系程度。例如，系统可以确定用户B和用户C与用户A直接相关，并且因此以第一程度与用户A相关。系统可以确定用户D、E、F和G通过用户B和用户C与用户A相关，并且因此以第二程度与用户A相关。

在用户A的社交网络中的用户(用户B到用户G)请求为他们以及他们的社交连接圈子中的用户改善语音识别之后，系统接收来自这些用户的用户数据412、414、416、418、420和422。系统可以对于用户B到用户G分别创建模型调节规则432、434、436、438、440和442。系统可以基于用户数据412-422，或者模型调节规则4320442，或者这两者生成语言模型调节规则404的至少一部分。

在一些实施方式中，系统使用用户的社交连接的查询来建立定制语言模型。例如，根据用户数据412，用户B已经使用包含某些查询词的查询执行搜索一次或以上。系统基于用户B的搜索频率以及用户B与用户A之间的关系程度，增加包括查询词的词语序列的概率值。

在一些实施方式中，系统使用除了用户朋友的查询之外的信息来建立定制语言模型。例如，如果用户B和用户C在有用户A的参与或者没有用户A的参与的情况下讨论了具有名称“Wx Wy”的餐厅，或者已经使用查询“Wx Wy”搜索，那么系统可以为用户A在定制语言模型中增加用于词语序列(Wx,Wy)的概率。

用户A的社交网络的应用可以基于每个用户的隐私设置。例如，如果每个用户B和用户C允许在朋友圈当中共享搜索信息，或者如果每个用户B和用户C允许使用用户信息来调整朋友的语言模型，那么系统可以使用用户B和用户C的搜索来调节用户A的语言模型。

系统可以基于关系程度来确定调节量。较低的关系程度表示两个用户之间较近的关系，并且可以指示两个用户共享兴趣和搜索习惯的较高可能性。因此，当关系程度增加时，系统减少调节量。例如，如果增加是基于用户B执行的查询，那么系统可以以第一量为用户A增加用于词语序列的概率值。如果增加是基于用户D执行的查询，那么系统可以以第二量为用户A增加用于词语序列的概率值。第一量可以大于第二量。

系统可以使用在查询时间标识的语言模型调节规则404来定制基本语言模型，或者在查询时间之前存储定制的语言模型。当系统接收来自用户A的语音输入时，系统可以基于用户A的标识符来标识用于用户A的语言模型调节规则404，并使用语言模型调节规则404来定制基本语言模型。替代性或附加性地，系统可以使用专用于用户A的预先存储的定制语言模型来执行语音识别。

图5A和图5B是图示动态语言模型的示例实施方式的框图。实施动态语言模型技术的系统可以采用参照图5A、图5B所述的实施方式，或者两者的组合。

图5A是图示系统创建与话音查询不同步(例如，在除了响应于接收的查询之外的某个时间)的定制语言模型502、504、506和508的示例实施方式的框图500。每个定制语言模型502、504、506和508包括基本语言模型中的词语序列的一部分或全部，并且与用于应用定制语言模型的一个或多个准则相关联。基于应用准则确定定制语言模型中与各个词语序列相关联的概率值。每个应用准则可以指定位置、时间、气象或其他因素(例如，通过年龄、性别、收入水平或者普通人群的购买习惯限定的用户分段)。例如，动态语言模型506与应用准则相关联，所述应用准则在指定的气象条件下指定在指定的时间窗口中的指定位置应用动态语言模型506。系统可以周期性地或者通过触发事件建立或者更新定制语言模型502、504、506和508。触发事件例如可包括已经实施的划分用户的新方式。

在查询时间，系统接收语音输入并获得语音输入的场境。例如，系统可以确定用户的位置、语音输入的时间，并基于位置和时间检索来自气象服务的气象信息。当用户登录系统时，系统可以使用与由用户提供的用户标识符相关联的简档标识用户所属的用户分段。系统将场境提交给语言模型选择器510。语言模型选择器510是系统的组件，其被配置为将语音输入的场境与关联于定制语言模型502、504、506或508的应用准则匹配，并基于该匹配来标识动态语言模型。

例如，系统可以接收用户位置、查询时间以及用户位置处的查询时间气象。语言模型选择器510可以确定用户位置与关联于动态语言模型506的应用准则的可应用位置相交，查询时间在应用准则的可应用时间窗口中，并且用户位置处的查询时间气象与应用准则的可应用气象匹配。因此，语言模型选择器510选择定制语言模型506。然后系统执行语音识别，以使用定制语言模型506将用户的语音输入转换为文本搜索查询。例如，如果系统在不同位置或者在不同时间接收相同的语音输入，则系统可以应用不同的语言模型(例如，语言模型504)。

图5B是图示系统动态地调节语言模型522的示例实施方式的框图520。语言模型522可以是基本语言模型或者定制语言模型。

系统包括语言模型修改器524。语言模型修改器是用户设备或者服务器设备的组件，其被配置为应用一个或多个规则526来调节语言模型522。语言模型修改器524接收来自一个或多个用户的输入，包括个性化信息、位置信息、日期/时间信息、气象信息、近期新闻/当前事务信息或者查询流。语言模型修改器524基于输入将规则526应用于语言模型522。在应用规则526之后，语言模型522可以变为定制语言模型。

例如，规则526中的一个可以指定，当词在指定时间周期(例如，将规则526应用于语言模型522之前的最后3天)中并且以满足阈值的频率出现时，系统增加包括该词的词语序列的概率值。另一个规则可以指定，如果用户选择允许系统收集信息，则用户可以允许系统分析用户在过去提交的查询，并确定与用户相关联的搜索模式。

在一些实施方式中，语言模型修改器524可以在查询时间调节语言模型522。在一些实施方式中，语言模型修改器524可以对于特定用户或者响应于特定的当前事件，创建定制语言模型，并将定制语言模型存储于用户设备或者服务器设备上。

图6是用于使用定制语言模型的示例方法600的流程图。为了方便起见，例如将针对如上所述执行方法600的系统来描述方法。系统接收(602)用于语音识别的基本语言模型。基本语言模型包括多个词语序列，每个词语序列与概率值相关联。词语序列可以表示为文本串、压缩文本串、对象或者索引。基本语言模型可以根据用户的集合的匿名查询日志来生成。

系统接收(604)话音搜索查询。话音搜索查询与查询场境相关联。查询场境可包括从其接收话音搜索查询的用户设备的地理位置。地理位置可以是点或地理区域。点或地理区域例如通过纬度、经度或海拔坐标的一个或多个集合来限定。查询场境例如可以包括查询的时间戳，或者提供话音搜索查询的用户的用户标识符。

系统确定(605)当查询场境满足与定制语言模型相关联的一个或多个准则时要使用定制语言模型。如果查询场境不满足任何准则，那么系统可以使用基本语言模型，以将话音搜索查询转换为文本搜索查询。

系统获得(606)定制语言模型。定制语言模型包括与经过调节的概率值相对应的一个或多个词语序列。经过调节的概率值是当查询场境与一个或多个调节准则匹配时基本概率值被根据查询场境来调节的。获得定制语言模型可包括以下至少其中一个：(1)基于查询场境从一个或多个预先存储的定制语言模型选择定制语言模型；或者(2)使用一个或多个语言调节规则，基于接收的查询场境，调节查询时间的基本语言模型，以生成定制语言模型。定制语言模型可以如同以上针对图1至图5所述来获得。

在一些实施方式中，查询场境包括从其接收话音搜索查询的用户设备的地理位置。系统可以标识与地理位置相关的一个或多个词语序列。词语序列的经过调节的概率值包括基于词语序列与地理位置之间的关系程度调节的概率值。例如，词语序列可包括位于用户设备的地理位置处或者附近的特征(例如，企业、公园或街道)的名称。在查询场境中基于特征与地理位置之间的距离来确定关系程度。地理位置可以是通过纬度、经度或海拔坐标的一个或多个集合限定的地理区域。

在一些实施方式中，词语序列包括以超过阈值的频率从地理位置接收的过去查询的词。基于频率确定关系程度。例如，如果系统接收在特定位置包括词“气候最好由政府试验”的查询足够数目或百分比，那么系统可以在与特定位置相关联的定制语言模型中增加用于词语序列“气候最好由政府试验”的概率值。在一些实施方式中，数目或百分比越高，增加概率值就越高。

在一些实施方式中，查询场境包括用于与话音搜索查询相关联的用户提供的标识符(例如，用户名或用户标识符)。系统确定与用户提供的标识符相关联的社团。社团可以是存储的用户的社交网络。社团可包括在社交网络中与用户提供的标识符相关的一个或多个用户标识符。系统使用存储的与社团中的用户标识符相关联的查询日志来确定词语序列的出现频率，并基于出现频率来调节基本概率值。例如，系统可以确定在有关于教养的团体中高频出现包括搜索词“游泳比赛”的搜索查询，或者是话音，或者是文本。系统可以创建定制语言模型，其中用于词语序列“游泳比赛”的概率值高于基本语言模型中的概率值，并将定制语言模型应用于通过教养团体(parenting group)中的用户输入的语音输入。系统可以附加性或替代性地基于社团中的关系程度来调节基本概率值。

在一些实施方式中，查询场境包括话音搜索查询的时间戳。获得定制语言模型包括标识一个或多个电子文档(例如，新闻文章)。根据查询日志，电子文档个别地或者作为集合与搜索查询的数目相关联。如果通过搜索引擎将电子文档指定为查询的搜索结果，或者通过用户从搜索结果的列表将电子文档选择为目的地，就可以将它与查询相关联。系统标识分别包括一个或多个词语序列的电子文档。如果根据时间戳，关联的搜索查询在指定的时间窗口(例如，一天或一周)中出现，那么系统可以在定制语言模型中增加与一个或多个词语序列相关联的概率值。例如，如果对于一时间周期，许多教育相关的新闻文章包括词语序列“虎妈”，那么在基本语言模型中可能与低概率值相关联的词语序列“虎妈”在定制语言模型中可以与高概率值相关联。

系统基于定制语言模型中对应的经过调节的概率值，将话音搜索查询转换为(608)包括词语序列的文本搜索查询。系统可以提供(610)文本搜索查询的一个或多个搜索结果，作为对话音搜索查询的响应，用于在显示设备上显示。

本主题的实施例以及本说明书中所描述的操作可以在数字电子电路中实施，或者在计算机软件、固件或硬件中实施，包括本说明书中公开的结构以及它们的结构性等同物，或者它们的一个或多个的组合。本说明书中所描述的本主题的实施例可以实施为一个或多个计算机程序，即，在计算机存储介质上编码、用于通过数据处理装置执行，或者控制数据处理装置的操作的计算机程序指令的一个或多个模块。替代性或附加性地，可以在人工生成的传播信号(例如，机器生成的电学、光学或电磁学信号)上将程序指令编码，生成传播信号从而将信息编码，用于传输给合适的接收器装置，用于由数据处理装置执行。计算机存储介质可以是或者包括在计算机可读存储设备、计算机可读存储衬底、随机或串行访问存储器阵列或设备、或者它们的一个或多个的组合。此外，虽然计算机存储介质并非传播信号，但是计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质也可以是或者包括在一个或多个单独的物理组件或介质中，例如，多个CD、磁盘或其他存储设备。

本说明书中所描述的操作可以实施为通过数据处理装置对于一个或多个计算机可读存储设备上存储的数据或者从其他源接收的数据执行的操作。

术语“数据处理装置”涵盖用于处理数据的所有种类的装置、设备和机器，作为示例，包括可编程处理单元、计算机、芯片上系统、个人计算机系统、台式计算机、膝上型电脑、笔记本电脑、网络本电脑、主机计算机系统、手持计算机、工作站、网络计算机、应用服务器、存储设备、消费电子设备(诸如相机、录像机、机顶盒、移动设备、视频游戏控制台、手持视频游戏设备)、外设(诸如交换机、调制解调器、路由器)，或者通常是任何类型的计算设备或电子设备，或者是前述的多个或组合。所述装置可包括专用逻辑电路，例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件之外，所述装置也可包括创建用于所讨论的计算机程序的执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时间环境、虚拟机、或者它们的一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础结构，诸如web服务、分布式计算和网格计算基础结构。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以按照任何形式的编程语言来编写，包括编译或解释语言、声明性或程序性语言，并且它可以按照任何形式部署，包括作为独立程序，或者作为模块、组件、子例程、对象或适合于在计算环境中使用的其他单元。计算机程序可以但是不一定对应于文件系统中的文件。可将程序存储在保存其他程序或数据的一部分文件中(例如，存储在标记语言文档中的一个或多个脚本)、存储在专用于所讨论的程序的单个文件中、或者存储在多个协同的文件中(例如，存储一个或多个模块、子程序或部分代码的文件)。可将计算机程序部署为在一个计算机上执行，或者在位于一个地点或分布于多个地点并通过通信网络互连的多个计算机上执行。

本说明书所述的处理和逻辑流程可通过执行一个或多个计算机程序的一个或多个可编程处理器来执行，以通过在输入数据上操作并生成输出来执行动作。处理和逻辑流程也可通过专用逻辑电路进行，并且装置也可实施为专用逻辑电路，例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。

作为示例，适合于执行计算机程序的处理单元包括通用和专用微处理器两者，以及任何种类的数字计算机的任何一个或多个处理单元。一般而言，处理单元将接收来自只读存储器或随机访问存储器或者两者的指令和数据。计算机的必要元件是用于根据指令执行动作的处理器以及用于存储指令和数据的一个或多个存储器设备。一般而言，计算机也可包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘、或光盘)，或者可操作地耦合到一个或多个大容量存储设备，以往来接收或传送数据或者皆可。但是，计算机不一定具有这样的设备。此外，可将计算机嵌入另一个设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、网络路由设备、或者便携存储设备(例如，通用串行总线(USB)闪存驱动器)，仅举几例。适合于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备，作为示例，包括半导体存储器设备，例如EPROM、EEPROM以及闪存存储器设备；磁盘，例如内部硬盘或者可拆卸盘；磁光盘；以及CD ROM和DVD-ROM盘。处理单元和存储器可以通过专用逻辑电路来补充，或者合并在其中。

为了提供与用户的互动，本说明书中所述本主题的实施例可以在具有显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器，用于向用户显示信息)以及键盘和点击设备(例如，鼠标或轨迹球，用户可以由其向计算机提供输入)的计算机上实施。也可将其他种类的设备用于提供与用户的互动；例如，提供给用户的反馈可以是任何形式的传感器反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以按照任何形式接收来自用户的输入，包括声学、语言或触觉输入。此外，计算机可通过与用户使用的设备往来发送文档和接收文档，与用户互动；例如，通过响应于从web浏览器接收的请求，向用户的客户端设备上的web浏览器发送网页。

本说明书中所述本主题的实施例可以在包括后端组件(例如，作为数据服务器)的计算系统、或者包括中间件组件(例如，应用服务器)的计算系统、或者包括前端组件(例如，具有图形用户接口的客户端计算机或者用户可以由其与本说明书中所述本主题的实施方式互动的网络浏览器)或路由设备(例如，网络路由器)的计算系统中实施，或者在一个或多个这样的后端、中间件或前端组件的任何组合中实施。系统的组件可以通过数字数据通信的任何形式或介质(例如，通信网络)来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互连网络(例如互联网)以及对等网络(例如，自组织对等网络)。

计算系统可包括客户端和服务器。客户端和服务器通常相互远离且典型地通过通信网络互动。客户端和服务器的关系借助于各个计算机上执行且相互具有客户端-服务器关系的计算机程序而发生。在一些实施例中，服务器(例如，为了向与客户端设备交互的用户显示数据以及从用户接收用户输入的目的)向客户端设备传输数据(例如，HTML网页)。在客户端设备生成的数据(例如，用户互动的结果)可以在服务器处从客户端设备接收。

一个或多个计算机的系统可以被配置为借助于将在操作中使得系统执行动作的软件、固件、硬件或者它们的组合安装在系统上而执行特定动作。一个或多个计算机程序可以被配置为借助于包括指令而执行特定动作，当通过数据处理装置执行时，指令使得所述装置执行动作。

电子文档(为了简单起见，简称为文档)可以对应于文件A，但是并非需要。可以在专用于讨论中的文档的单个文件中，或者在多个协作的文件中，将文档存储在保存其他文档的一部分文件中。

虽然本说明书包含具体实施方式的很多细节，但是这些不应被视为对于任何发明或者任何权利要求所主张的范围的限制，而是专用于特定发明的特定实施例的特征的描述。在单独实施例的背景下，在本说明书中所述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的背景下所述的各个特征也可以独立地在多个实施例中实施，或者按照任何适合的子组合实施。此外，虽然上面将特征描述为在某些组合中起作用，甚至一开始就这样主张，但是在一些情况下可将来自所主张组合的一个或多个特征从组合中删除，并且所主张的组合可以指向子组合或者子组合的变型。

类似地，虽然在附图中按照特定顺序描述操作，但是不应将此理解为要求按照所示特定顺序或者按照连续的顺序执行这样的操作，或者要求执行全部所示操作，以得到期望的结果。在某些情况下，多任务和平行处理可以是有利的。此外，不应将上述实施例中各种系统组件的分离理解为在所有实施例中都要求这样的分离，而是应当理解为所描述的程序组件和系统可以一般性地一起集成在单个软件产品中或者打包在多个软件产品中。

因此，已经描述了本主题的特定实施例。其他实施例也落入所附权利要求书的范围中。在一些情况下，可以按照不同的顺序执行权利要求中引用的动作，且仍然得到期望的结果。此外，附图中所示处理不一定要求所示的特定顺序或连续顺序，以得到期望的结果。在某些实施方式中，多任务和平行处理可以是有利的。因此，其他实施例在所附权利要求书的范围内。

Claims

1.一种方法，包括：

接收用于语音识别的基本语言模型，所述基本语言模型包括具有基本概率值的第一词语序列；

接收话音搜索查询，所述话音搜索查询与查询场境相关联；

当所述查询场境满足与定制语言模型相关联的一个或多个准则时，确定要使用所述定制语言模型；

获得所述定制语言模型，所述定制语言模型包括具有经过调节的概率值的所述第一词语序列，所述经过调节的概率值是所述基本概率值被根据所述查询场境来调节的；以及

基于一个或多个概率，将所述话音搜索查询转换为文本搜索查询，所述一个或多个概率的每一个对应于一个或多个词语序列的群组中的词语序列，所述一个或多个词语序列的群组包括所述具有经过调节的概率值的第一词语序列。

2.根据权利要求1所述的方法，其中获得所述定制语言模型包括：

基于所述查询场境从一个或多个定制语言模型中选择所述定制语言模型。

3.根据权利要求1所述的方法，其中获得所述定制语言模型包括：

使用一个或多个语言调节规则，基于接收到的查询场境来调节所述基本语言模型。

4.根据权利要求1所述的方法，其中所述查询场境包括用户设备的地理位置，其中所述话音搜索查询是从所述用户设备接收的。

5.根据权利要求4所述的方法，包括：

确定所述词语序列与所述地理位置相关，其中所述经过调节的概率值包括所述基本概率值被基于所述词语序列与所述地理位置之间的关系程度来调节。

6.根据权利要求5所述的方法，其中：

所述词语序列包括位于所述地理位置处或者接近所述地理位置的特征的名称；以及

所述关系程度是在所述查询场境中基于所述特征与所述地理位置之间的距离来确定的。

7.根据权利要求5所述的方法，其中：

所述词语序列包括以超过阈值的频率从所述地理位置接收到的过去查询的词；以及

所述关系程度是基于所述频率来确定的。

8.根据权利要求4所述的方法，其中所述地理位置是通过一组或多组经纬度坐标来限定的地理区域。

9.根据权利要求1所述的方法，其中所述查询场境包括用于与所述话音搜索查询相关联的用户提供的标识符。

10.根据权利要求9所述的方法，包括：

确定与所述用户提供的标识符相关联的社团，所述社团包括与所述用户提供的标识符有关的一个或多个用户标识符；

使用与所述社团中的所述用户标识符相关联的存储的查询日志，确定所述词语序列的出现频率；以及

基于所述出现频率调节所述基本概率值。

11.根据权利要求10所述的方法，其中调节所述基本概率值还基于每个所述用户标识符与所述用户提供的标识符之间在所述社团中的关系程度。

12.根据权利要求1所述的方法，其中所述查询场境包括所述话音搜索查询的时间戳。

13.根据权利要求12所述的方法，其中获得所述定制语言模型包括：

标识一个或多个电子文档，所述一个或多个电子文档根据查询日志与搜索查询的数目相关联，所述搜索查询的数目满足阈值数目，所述搜索查询在所述时间戳的指定时间窗口中出现，所述一个或多个电子文档的每一个包括所述词语序列；以及

基于所述搜索查询的数目调节所述基本概率值。

14.根据权利要求13所述的方法，其中所述一个或多个电子文档的每一个是新闻文章。

15.根据权利要求1所述的方法，包括：

在显示设备上提供所述文本搜索查询的一个或多个搜索结果以供显示，作为对于所述话音搜索查询的响应。

16.根据权利要求1所述的方法，其中将所述话音搜索查询转换为文本搜索查询包括：基于所述定制语言模型中对应的经过调节的概率值，将所述话音搜索查询转换为包括所述第一词语序列的文本搜索查询。

17.一种系统，包括：

一个或多个计算机以及存储指令的一个或多个存储设备，当由所述一个或多个计算机执行时，所述指令能操作为使得所述一个或多个计算机执行以下操作，包括：

接收话音搜索查询，所述话音搜索查询与查询场境相关联；

18.一种编码有计算机程序的计算机存储介质，所述程序包括指令，当由数据处理装置执行时，所述指令能操作为使得所述数据处理装置执行以下操作，包括：

接收话音搜索查询，所述话音搜索查询与查询场境相关联；

获得所述定制语言模型，所述定制语言模型包括具有经过调节的概率值的第一词语序列，所述经过调节的概率值是所述基本概率值被根据所述查询场境来调节的；以及