CN103714104A

CN103714104A - 使用环境上下文回答问题

Info

Publication number: CN103714104A
Application number: CN201310394518.3A
Authority: CN
Inventors: M·沙里菲; G·波斯特尔尼丘
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-09-10
Filing date: 2013-04-05
Publication date: 2014-04-09
Anticipated expiration: 2033-04-05
Also published as: KR102140177B1; CN103714104B; KR102029276B1; KR20200093489A; KR20190113712A; CN106250508A; KR20140034034A; KR102241972B1; WO2014039106A1; CN106250508B

Abstract

本发明的各实施方式涉及使用环境上下文回答问题。包括在计算机存储介质上编码的计算机程序的方法、系统和装置，用于接收编码发声和环境数据的音频数据；获取发声的转写文本；使用环境数据标识实体；向自然语言查询处理引擎提交查询，其中查询至少包括转写文本的一部分和标识实体的数据；以及获取查询的一个或多个结果。

Description

使用环境上下文回答问题

相关申请的交叉引用

本申请要求以下美国专利申请的权益，在此通过引用合并其全部内容：2012年9月10目提交的，专利申请号为No.61／698,934的美国临时专利申请；2012年9月10日提交的，专利申请号为No.61／698,949的美国临时专利申请；2012年9月25日提交的，专利申请号为No.13／626,439的美国专利申请；2012年9月25日提交的，专利申请号为No.13／626,351的美国专利申请；以及2013年2月15日提交的，专利申请号为No.13／768,232的美国专利申请。

技术领域

本说明书涉及标识基于自然语言查询和环境信息的查询结果，例如使用环境信息作为上下文来回答问题。

背景技术

通常，搜索查询包括当用户请求搜索引擎执行搜索时用户提交给搜索引擎的一个或多个术语。除了其它方式之外，用户可以通过在键盘上打字或在话音查询的上下文中通过将查询术语口述到移动设备的麦克风中来录入搜索查询的查询术语。可以使用语音识别技术来处理话音查询。

发明内容

根据本说明书中描述的主题的一些创新方面，环境信息(诸如环境噪声)可以辅助查询处理系统回答自然语言查询。例如，用户可以询问关于他们正在收看的电视节目的问题，诸如“这部电影中的演员是谁?”。用户的移动设备检测用户的发声(utterance)和环境数据，环境数据可以包括电视节目的配乐音频。移动计算设备将发声和环境数据编码为波形数据，并将该波形数据提供给基于服务器的计算环境。

计算环境将发声从波形数据的环境数据分离，并且继而获取发声的转写文本。计算环境诸如通过标识电影的名称进一步标识与环境数据和发声相关的实体数据。计算环境继而可以从转写文本和实体数据标识一个或多个结果，例如，响应于用户的问题的结果。特别地，一个或多个结果可以包括对用户的“这部电影中的演员是谁”的问题的回答(例如，演员的姓名)。计算环境可以向移动计算设备的用户提供这种结果。

本说明书中所描述的主题的创新方面可以体现于方法中，该方法包括以下动作：接收编码发声和环境数据的音频数据，获取发声的转写文本，使用环境数据标识实体，向自然语言查询处理引擎提交查询，其中查询至少包括转写文本的—部分和标识实体的数据，以及获取查询的一个或多个结果。

这些方面的其它实施方式包括对应的系统、装置和在计算机存储设备上编码的计算机程序，其被配置为执行方法的动作。

这些和其它实施方式可以各自可选地包括下列特征中的一个或多个特征。例如，输出结果中的至少一个结果的表示。进一步使用发声标识实体。生成查询。生成查询包括将转写文本与标识实体的数据关联。关联进一步包括使用标识实体的数据标记转写文本。关联进一步包括使用标识实体的数据代替转写文本的一部分。代替进一步包括使用标识实体的数据代替转写文本的一个或多个单词。接收环境数据进一步包括接收环境音频数据、环境图像数据或者二者。接收环境音频数据进一步包括接收包括背景噪声的附加的音频数据。

根据本发明书中描述的主题的一些创新方面，基于环境音频数据和口述的自然语言查询标识媒体内容的项目。例如，用户可以询问关于他们正在收看的电视节目的问题，诸如“我们正在观看什么?”。问题可以包括关键词，诸如“观看”，其建议问题是关于电视节目而不是一些其它类型的媒体内容。用户的移动设备检测用户的发声和环境数据，环境数据可以包括电视节目的配乐音频。移动计算设备将发声和电视环境数据编码为波形数据，并将该波形数据提供给基于服务器的计算环境。

计算环境将发声与波形数据的环境数据分离，并且继而处理发声以获得发声的转写文本。计算环境从该转写文本检测任意特定内容类型的关键词，诸如关键词“观看”。计算环境可以继而基于环境数据标识媒体内容的项目，并可以从标识的项目选择媒体内容的特定项目，其与和关键词关联的特定内容类型匹配。计算环境向移动计算设备的用户提供媒体内容的特定项目的表示。

本说明书中描述的主题的创新方面可以体现于方法中，其包括以下动作：接收(i)编码口述自然语言查询的音频数据，以及(ii)环境音频数据，获取口述自然语言查询的转写文本，确定与转写文本中的一个或多个关键词关联的特定内容类型，向内容识别引擎提供至少环境音频数据的一部分，标识已经由内容识别引擎输出并匹配特定内容类型的内容项目。

这些和其它实施方式可以各自可选地包括下列特征中的一个或多个。例如，特定内容类型是电影内容类型、音乐内容类型、电视节目内容类型、音频播客内容类型、书籍内容类型、艺术品内容类型、预告片内容类型、视频播客内容类型、因特网视频内容类型或视频游戏内容类型。接收环境音频数据进一步包括接收包括背景噪声的附加的音频数据。背景噪声与特定内容类型关联。接收包括视频数据或图像数据的附加的环境数据。视频数据或图像数据与特定内容类型关联。向内容识别引擎提供至少环境音频数据的该一部分进一步包括向音频指纹识别引擎提供环境音频数据的该一部分。确定特定内容类型进一步包括使用一个或多个数据库标识一个或多个关键词，对于多个内容类型中每个内容类型，数据库将关键词中的至少一个关键词映射到多个内容类型中的至少一个内容类型。多个内容类型包括特定内容类型，并且其中映射进一步包括将关键词中的至少一个关键词映射到特定内容类型。输出标识内容项目的数据。

特征进一步包括，例如，提供进一步包括将标识特定内容类型的数据提供给内容识别引擎，以及标识内容项目进一步包括从内容识别引擎接收标识内容项目的数据。从内容识别系统接收两个或更多个内容识别候选者，以及标识内容项目进一步包括基于特定内容类型选择特定内容识别候选者。两个或更多个内容识别候选者中的每个内容识别候选者与排名得分关联，该方法进一步包括基于特定内容类型调整两个或更多个内容识别候选者的排名得分。基于调整的排名得分对两个或更多个内容识别候选者排名。

本说明书中描述的主题的一个或多个实施方式的细节在附图和下面的描述中阐明。主题的其它潜在特征、方面和优点将从说明书、附图和权利要求中变得明显。

附图简要描述

图1描绘了用于基于环境音频数据和口述自然语言查询标识内容项目数据的示例系统。

图2描绘了用于基于环境音频数据和口述自然语言查询标识内容项目数据的示例过程的流程图。

图3A-图3B描绘了用于标识内容项目的示例系统的多个部分。

图4描绘了用于基于环境图像数据和口述自然语言查询标识媒体内容项目的示例系统。

图5描绘了用于基于环境音频数据和发声标识一个或多个结果的系统。

图6描绘了用于基于环境数据和发声标识一个或多个结果的示例过程的流程图。

图7描绘了可以用于实现此处所描述的技术的计算机设备和移动计算机设备。

不同附图中的相同参考标记表示同样的元件。

具体实施方式

使用环境信息作为上下文回答口述自然语言查询的计算环境可以使用多个过程处理查询。在一些过程的示例中，如图1到图4中所示，计算环境可以基于环境信息(诸如周围噪声)来标识媒体内容。在其它过程的示例中，如图5和图6中所示，为了提供对口述自然语言查询的更加满意的回答，计算环境可以用源自环境信息的上下文(诸如标识媒体内容的数据)来扩展口述自然语言查询。

图1更详细地描绘了用于基于环境音频数据和口述自然语言查询标识内容项目数据的系统100。简而言之，系统100可以标识基于环境音频数据并匹配与口述自然语言查询关联的特定内容类型的内容项目数据。系统100包括移动计算设备102、消除歧义引擎104、语音识别引擎106、关键词映射引擎108和内容识别引擎110。移动计算设备102通过一个或多个网络与消除歧义引擎104通信。移动设备110可以包括麦克风、照相机或其它用于从用户112和／或与用户112关的环境数据检测发声的检测机构。

在一些示例中，用户112正在明看电视节目。在所示的示例中，用户112想要知道谁导演了当前正在播放的电视节目。在一些示例中，用户112可能不知道当前正在播放的电视节目的名称，并为此提出问题“谁导演了这个节目?”移动计算设备102检测这个发声和与用户112的环境关联的环境音频数据。

在一些示例中，与用户112的环境关联的环境音频数据可以包括用户112的环境的背景噪声。例如，环境音频数据包括电视节目的声音。在一些示例中，与当前显示的电视节目关联的环境音频数据可以包括当前显示的电视节目的音频(例如，当前显示的电视节目的对话、当前显示的电视节目关联的配乐音频等等)。

在一些示例中，移动计算设备102在检测到发声之后检测环境音频数据；检测发声的同时检测环境音频数据；或者两种方式都采用。在操作(A)期间，移动计算设备102处理检测到的发声和环境音频数据以生成表示检测到的发声和环境音频数据的波形数据114，并将该波形数据114传输给消除歧义引擎104(例如，通过网络)。在一些示例中，从移动计算设备110流传输环境音频数据。

消除歧义引擎104从移动计算设备102接收波形数据114。在操作(B)期间，消除歧义引擎104处理波形数据114，包括将发声从波形数据114的其它部分分离(或提取)以及将发声传输给语音识别引擎106(例如，通过网络)。例如，消除歧义引擎104将发声(“谁导演了这个节目?”)从用户112的环境的的背景噪声(例如，当前显示的电视节目)分离。

在一些示例中，消除歧义引擎104使用话音检测器以有助于通过标识波形数据114的包括话音活动或与计算设备102的用户关联的话音活动的一部分从背景噪声分离发声。在一些示例中，发声涉及查询(例如，涉及当前显示的电视节目的查询)。在一些示例中，波形数据114包括检测到的发声。作为响应，消除歧义引擎104可以从涉及发声的移动计算设备102请求环境音频数据。

语音识别引擎106从消除歧义引擎104接收波形数据114的对应于发声的部分。在操作(C)期间，语音识别引擎106获取发声的转写文本并将该转写文本提供给关键词映射引擎108。特别地，语音识别引擎106处理接收自语音识别引擎106的发声。在一些示例中，由语音识别系统106处理发声包括生成发声的转写文本。生成发声的转写文本可以包括将该发声转写为文本或文本相关数据。换句话说，语音识别系统106可以按照发声的书面形式提供语言的表示。

例如，语音识别系统106转写发声以生成“谁导演了这个节目?”的转写文本。在一些实施方式中，语音识别系统106提供发声的两个或更多个转写文本。例如，语音识别系统106转写发声以生成“谁导演了这个节目?”和“谁导演了这只鞋?”的转写文本。

关键词映射引擎108从语音识别引擎106接收转写文本。在操作(D)期间，关键词映射引擎108标识转写文本中的与特定内容类型关联的一个或多个关键词并将该特定内容类型提供给消除歧义引擎104。在一些实施方式中，一个或多个内容类型可以包括“电影”、“音乐”、“电视节目”、“音频播客”、“图像”、“艺术品”、“书籍”、“杂志”、“预告片”、“视频播客”、“因特网视频”或“视频游戏”。

例如，关键词映射引擎108从“谁导演了这个节目”的转写文本标识关键词“导演”。关键词“导演”与“电视节目”内容类型关联。在一些实施方式中，由关键词映射引擎108标识的转写文本的关键词与两个或更多个内容类型关联。例如，关键词“导演”与“电视节目”和“电影”内容类型关联。

在一些实施方式中，关键词映射引擎108标识转写文本中的与特定内容类型关联的两个或更多个关键词。例如，关键词映射引擎108标识与特定内容类型关联的关键词“导演”和“节目”。在一些实施方式中，标识的两个或更多个关键词与同一个内容类型关联。例如，标识的关键词“导演”和“节目”都与“电视节目”内容类型关联。在一些实施方式中，标识的两个或更多个关键词与不同的内容类型关联。例如，标识的关键词“导演”与“电影”内容类型关联并且标识的关键词“节目”与“电视节目”内容类型关联。关键词映射引擎108将特定内容类型传输(例如，通过网络)到消除歧义引擎108。

在一些实施方式中，关键词映射引擎108使用一个或多个数据库(对于多个内容类型中的每个内容类型，该数据库将关键词中的至少一个关键词映射到多个内容类型中的至少一个内容类型)标识转写文本中的与特定内容类型关联的一个或多个关键词。特别地，关键词映射引擎108包括数据库(或多个数据库)或与数据库(或多个数据库)通信。数据库包括关键词和内容类型之间的映射或与该映射关联。特别地，数据库提供了关键词和内容类型之间的连接(例如，映射)从而使得关键词映射引擎108能够标识转写文本中的与特定内容类型关联的一个或多个关键词。

在一些实施方式中，关键词与内容类型之间的映射中的一个或多个映射可以包括单方向(例如，单向)映射(即，从关键词到内容类型的映射)。在一些实施方式中，关键词与内容类型之间的映射中的一个或多个映射可以包括双方向(例如，双向)映射(即，从关键词到内容类型以及从内容类型到关键词的映射)。在一些实施方式中，一个或多个数据库将关键词中的一个或多个关键词映射到两个或更多个内容类型。

例如，关键词映射引擎108使用将关键词“导演”映射到“电影”和“电视节目”内容类型的一个或多个数据库。在一些实施方式中，关键词和内容类型之间的映射可以包括多个不同版本的根关键词(例如，词族)和内容类型之间的映射。不同版本的关键词可以包括不同的语法种类，诸如时态(例如，过去时，现在时，将来时)和词类(例如，名词，动词)。例如，数据库可以包括交根词“导演(direct)”的词族(诸如“导演们(directors)”和“导演(direction)”)映射到一个或多个内容类型的映射。

消除歧义引擎104从关键词映射引擎108接收标识与发声的转写文本关联的特定内容类型的数据。此外，如上所述，消除歧义引擎104从移动计算设备102接收波形数据114，其包括与发声关联的环境音频数据。继而，在操作(E)期间，消除歧义引擎104向内容识别引擎110提供环境音频数据和特定内容类型。

例如，消除歧义引擎104向内容识别引擎110传送包括当前显示的电视节目的音频的涉及当前显示的电视节目的环境音频数据(例如，当前显示的电视节目的对话，与当前显示的电视节目关联的配乐音频，等等)和特定内容类型的发声的转写文本(例如，“电视节目”内容类型)。

在一些实施方式中，消除歧义引擎104向内容识别引擎110提供环境音频数据的一部分。在一些示例中，环境音频数据的一部分可以包括由移动计算设备102在检测发声之后检测的背景噪声。在一些示例中，环境音频数据的一部分可以包括由移动计算设备102在检测发声的同时检测的背景噪声。

在一些实施方式中，(波形数据114的)背景噪声与特定内容类型关联，该特定内容类型与转写文本的关键词关联。例如，转写文本“谁导演了这个节目”的关键词“导演”与“电视节目”内容类型关联，并且背景噪声(例如，涉及当前显示的电视节目的环境音频数据)也与“电视节目”内容类型关联。

内容识别引擎110从消除歧义引擎104接收环境音频数据和特定内容类型。在操作(F)期间，内容识别引擎110标识基于环境音频数据并与特定内容类型相匹配的内容项目数据，并将该内容项目数据提供给消除歧义引擎104。特别地，内容识别引擎110适当地处理环境音频数据以标识与环境音频数据关联的内容项目数据(例如，电视节目的名称、歌曲的名称，等等)。另外，内容识别引擎110将标识的内容项目数据与特定内容类型(例如，发声的转写文本的内容类型)匹配。内容识别引擎110将标识的内容项目数据传输(例如，通过网络)给消除歧义引擎104。

例如，内容识别引擎110标识基于涉及当前显示的电视节目的环境音频数据并进一步匹配“电视节目”内容类型的内容项目数据。为此，依靠由内容识别引擎110接收的部分环境音频数据，内容识别引擎110可以基于当前显示的电视节目的对话或者与当前显示的电视节目关联的配乐音频标识内容项目数据。

在一些实施方式中，内容识别引擎110是音频指纹引擎，其利用使用小波(wavelet)的内容指纹以标识内容项目数据。特别地，内容识别引擎110将波形数据114转换为频谱图。内容识别引擎110从频谱图提取频谱图像。频谱图像可以被表示为小波。对于提取自频谱图的频谱图像中的每个频谱图像，内容识别引擎110基于小波的各自量值提取“顶部”小波。对于每个频谱图像，内容识别引擎110计算图像的小波签名。在一些示例中，小波签名是图像的小波分解的截断的、量化的版本。

例如，为了使用小波描述m×n的图像，返回m×n的小波而无需压缩。此外，内容识别引擎110利用最能特征化歌曲的小波子集。特别地，选择t个“顶部”小波(通过量值)，其中t<<m×n。此外，内容识别引擎110创建上述稀疏小波向量的紧凑表示，例如，使用Minhash计算这些稀疏位向量的子指纹。

在一些示例中，当环境音频数据至少包括与当前显示的电视节目关联的配乐音频时，内容识别引擎110标识内容项目数据，该内容项目数据基于与当前显示的电视节目关联的配乐音频并也与“电视节目”内容类型相匹配。因此，在一些示例中，内容识别引擎110标识涉及当前显示的电视节目名称的内容项目数据。例如，内容识别引擎110可以确定特定内容项目(例如，具体电视节目)与主题歌(例如，配乐音频)关联，以及特定内容项目(例如，具体电视节目)匹配特定内容类型(例如，“电视节目”内容类型)。因此，内容识别引擎110可以标识涉及特定内容项目(例如，当前显示的电视节目)的数据(例如，具体电视节目的名称)，该特定内容项目基于环境音频数据(例如，配乐音频)，并进一步匹配特定内容类型(例如，“电视节目”内容类型)。

消除歧义引擎104从内容识别引擎110接收标识的内容项目数据。在操作(G)，消除歧义引擎104继而将标识的内容项目数据提供给移动计算设备102。例如，消除歧义引擎104将涉及当前显示的电视节目的标识的内容项目数据(例如，当前显示的电视节目的名称)传输给移动计算设备102。

在一些示例中，移动计算设备102、消除歧义引擎104，语音识别引擎106、关键词映射引擎108和内容识别引擎110中的一个或多个可以与移动计算设备102、消除歧义引擎104、语音识别引擎106、关键词映射引擎108和内容识别引擎110的子集(或其中的每一个)通信。在一些实施方式中，消除歧义引擎104、语音识别引擎106、关键词映射引擎108和内容识别引擎110中的一个或多个可以使用一个或多个计算设备(诸如一个或多个计算服务器、分布式计算系统或服务器群或集群)来实现。

在一些实施方式中，如上所述，从移动计算设备110向消除歧义引擎104流传输环境音频数据。当环境音频数据被流传输时，随着环境音频数据由消除歧义引擎104接收执行上述的过程(例如，操作(A)-(H))(即，递增地执行)。换句话说，随着环境音频数据的每个部分由消除歧义引擎104接收(例如，流传输到消除歧义引擎104)，迭代执行操作(A)-(H)直到标识内容项目数据。

图2描绘了用于基于环境音频数据和口述自然语言查询标识内容项目数据的示例过程200的流程图。可以使用一个或多个计算设备执行示例过程200。例如，移动计算设备102、消除歧义引擎104、语音识别引擎106、关键词映射引擎108和／或内容识别引擎110可以用于执行示例过程200。

接收编码口述自然语言查询和环境音频数据的音频数据(202)。例如，消除歧义引擎104从移动计算设备102接收波形数据114。波形数据114包括用户的口述自然语言查询(例如，“谁导演了这个节目?”)和环境音频数据(例如，当前显示的电视节目的音频)。消除歧义引擎104将口述自然语言查询(“谁导演了这个节目”)从用户112的环境的背景噪声(例如，当前显示的电视节目)分离。

获取自然语言查询的转写文本(204)。例如，语音识别系统106转写自然语言查询以生成自然语言查询的转写文本(例如，“谁导演了这个节目?”)。

确定与转写文本中的一个或多个关键词关联的特定内容类型(206)。例如，关键词映射引擎108标识转写文本(例如，“谁导演了这个节目”)中的与特定内容类型(例如，“电视节目”内容类型)关联的一个或多个关键词(例如，“导演”)。在一些实施方式中，关键词映射引擎108使用一个或多个数据库确定与转写文本中的一个或多个关键词关联的特定内容类型，对于多个内容类型中的每个内容类型，该数据库将关键词中的至少一个关键词映射到多个内容类型中的至少一个内容类型。数据库提供了关键词(例如，“导演”)和内容类型(例如，“电视节目”内容类型)之间的连接(例如，映射)。

向内容识别引擎提供至少环境音频数据的一部分(208)。例如，消除歧义引擎104向内容识别引擎110提供由波形数据114编码的至少环境音频数据的一部分(例如，当前显示的电视节目的音频)。在一些示例中，消除歧义引擎104还向内容识别引擎110提供与转写文本中的一个或多个关键词(例如，“导演”)关联的特定内容类型(例如，“电视节目”内容类型)。

内容识别引擎输出标识的内容项目，标识的内容匹配特定内容类型(210)。例如，内容识别引擎110标识内容项目或基于环境音频数据(例如，当前显示的电视节目的音频)并与特定内容类型(例如，“电视节目”内容类型)匹配的内容项目数据。

图3A和图3B分别描绘了用于标识内容项目数据的系统的部分300a和300b。特别地，图3A和图3B分别包括消除歧义引擎304a和304b；并分别包括内容识别引擎310a和310b。消除歧义引擎304a和304b与图1中所描绘的系统100的消除歧义引擎104类似；内容识别引擎310a和310b与图1中所描绘的系统100的内容识别引擎110类似。

图3A描绘了包括内容识别引擎310a的部分300a。内容识别引擎310a能够标识基于环境数据并匹配特定内容类型的内容项目数据。换句话说，内容识别引擎310a能够适当处理环境数据以基于环境数据标识内容项目数据，并进一步的选择标识的内容项目数据中的一个或多个标识的内容项目数据，从而使得所选择的内容项目数据与特定内容类型匹配。

特别地，在操作(A)期间，消除歧义引擎304a向内容识别引擎310a提供环境数据和特定内容类型。在一些实施方式中，消除歧义引擎304a向内容识别引擎310a提供环境数据的一部分。

内容识别引擎310a从消除歧义引擎304a接收环境数据和特定内容类型。在操作(B)期间，内容识别引擎310a继而标识基于环境数据并与特定内容类型匹配的内容项目数据，并将标识的内容项目数据提供给消除歧义引擎304a。特别地，内容识别引擎310a标识基于环境数据的内容项目数据(例如，电视节目的名称、歌曲的名称，等等)。内容识别引擎310a继而选择与特定内容类型相匹配的标识的内容项目数据中的一个或多个标识的内容项目数据。换句话说，内容识别引擎310a基于特定内容类型过滤标识的内容项目数据。内容识别引擎310a将标识的内容项目数据传输(例如，通过网络)给消除歧义引擎304a。

在一些示例中，当环境数据至少包括与当前显示的电视节目关联的配乐音频时，如以上关于图1所提及的那样，则内容识别引擎310a标识基于与当前显示的电视节目关联的配乐音频的内容项目数据。内容识别引擎310a继而基于“电视节目”内容类型过滤标识的内容项目数据。例如，内容识别引擎310a标识与配乐音频关联的“主题歌名称”和“电视节目名称”。内容识别引擎310a继而过滤标识的内容项目数据，从而使得标识的内容项目数据也匹配“电视节目”内容类型。例如，内容识别引擎310a选择“电视节目名称”标识数据，并将“电视节目名称”标识数据传输给消除歧义引擎304a。

在一些示例中，内容识别引擎310a基于内容类型(例如，“电视节目”内容类型)选择语料库(或索引)。特别地，内容识别引擎310a可以访问关于“电视节目”内容类型的第一索引和关于“电影”内容类型的第二索引。内容识别引擎310a基于“电视节目”内容类型适当地选择第一索引。因此，通过选择第一索引(而不选择第二索引)，内容识别引擎310a可以更有效率地标识内容项目数据(例如，电视节目的名称)。

消除歧义引擎304a从内容识别引擎310a接收内容项目数据。例如，消除歧义引擎304a从内容识别引擎310a接收“电视节目名称”标识数据。在操作(C)期间，消除歧义引擎304a继而向第三方(例如，图1的移动计算设备102)提供标识数据。例如，消除歧义引擎304a向第三方提供“电视节目名称”标识数据。

图3b描绘了包括内容识别引擎310b的部分300b。内容识别引擎310b能够基于环境数据标识内容项目数据。换句话说，内容识别引擎310b能够适当地处理环境数据以基于环境数据标识内容项目数据，并向消除歧义引擎304b提供内容项目数据。消除歧义引擎310b选择标识的内容项目数据中的一个或多个标识的内容项目数据，从而使得所选择的内容项目数据匹配特定内容类型。

特别地，在操作(A)期间，消除歧义引擎304b向内容识别引擎310b提供环境数据。在一些实施方式中，消除歧义引擎304b向内容识别引擎310b提供环境教据的一部分。

内容识别引擎310b从消除歧义引擎304b接收环境数据。在操作(B)期间，内容识别引擎310b继而标识基于环境数据的内容项目数据，并向消除歧义引擎304b提供标识的内容项目数据。特别地，内容识别引擎310b标识基于环境数据的、与两个或更多个内容项目(例如，电视节目的名称、歌曲的名称，等等)关联的内容项目数据。内容识别引擎310b将表示标识的内容项目数据的两个或更多个候选者传输(例如，通过网络)给消除歧义引擎304b。

在一些示例中，当环境数据至少包括与当前显示的电视节目相关联的配乐音频时，如图1中所提到的那样，内容识别引擎310b标识涉及两个或更多个内容项目的内容项目数据，该内容项目基于与当前显示的电视节目相关联的配乐音频。例如，内容识别引擎310b标识与配乐音频相关联的“主题曲名称”和“电视节目名称”，并将“主题曲名称”和“电视节目名称”识别数据发送到消除歧义引擎304b。

消除歧义引擎304b从内容识别引擎310b接收两个或更多个候选者。例如，消除歧义引擎304b从内容识别引擎310b接收“主题曲名称”和“电视节目名称”候选者。在操作(C)期间，消除歧义引擎304b继而基于特定内容类型选择两个或更多个候选者中的一个候选者，并将所选的候选者提供给第三方(例如，图1的移动计算设备102)。特别地，如关于图1所描述的，消除歧义引擎304b预先接收特定内容类型(例如，与发声关联的特别类型)。消除歧义引擎304b基于特定内容类型选择两个或更多个候选者中的特定候选者。特别地，消除歧义引擎304b选择两个或更多个候选者中匹配特定内容类型的特定候选者。例如，消除歧义引擎304b选择“电视节目名称”候选者，因为“电视节目名称”候选者与“电视节目”内容类型相匹配。

在一些实施方式中，来自内容识别引擎310b的两个或更多个候选者与排名得分关联。排名得分可以与由消除歧义引擎304b确定的任意评分度量关联。消除歧义引擎304b可以基于特定内容类型进一步调整两个或更多个候选者的排名得分。特别地，当各个候选者与特定内容类型匹配时，消除歧义引擎304b可以增加候选者中的一个或多个候选者的排名得分。例如，可以增加候选者“电视节目名称”的排名得分，因为其与“电视节目”内容类型匹配。此外，当各个候选者与特定内容类型不匹配时，消除歧义引擎304b可以降低一个或多个候选者的排名得分。例如，可以降低候选者“主题曲名称”的排名得分，因为其与“电视节目”内容类型不匹配。

在一些实施方式中，可以基于消除歧义引擎304b的各自调整的排名得分对两个或更多个候选者进行排名。例如，消除歧义引擎304b可以将“电视节目名称”候选者排名在“主题曲名称”候选者之上，因为“电视节目名称”候选者相比于“主题曲名称”候选者的调整的排名得分而言具有较高的调整的排名得分。在一些示例中，消除歧义引擎304b选择排名最高的候选者(也就是，具有最高调整的排名得分的候选者)。

图4描绘了用于基于环境图像数据和口述自然语言查询标识内容项目数据的系统400。简而言之，系统400可以标识基于环境图像数据并与和口述自然语言查询关联的特定内容类型匹配的内容项目数据。系统400包括移动计算设备402、消除歧义引擎404、语音识别引擎406、关键词映射引擎408和内容识别引擎410，它们分别类似于图1中所示的系统100的移动计算设备102、消除歧义引擎104、语音识别引擎106、关键词映射引擎108和内容识别引擎110。

在一些示例中，用户112正在观看电影的配乐的CD唱片集封面。在所示的示例中，用户112想要了解在配乐中有那些歌曲。在一些示例中，用户112可能不知道电影配乐的名称，并且因此可能会问“这上面有什么歌曲?”或者“电影中播放的是什么歌曲?”移动计算设备402检测这个发声，以及与用户112的环境关联的环境图像数据。

在一些示例中，与用户112的环境相关联的环境图像数据包括用户112的环境图像数据。例如，环境图像数据包括描绘了与电影相关图像(例如，相关电影的电影海报的图像)的CD唱片集封面的图像。在一些示例中，移动计算设备402使用移动计算设备402的照相机捕获CD唱片集封面的图像(或视频)，以此来检测环境图像数据。

在操作(A)期间，移动计算设备402处理检测到的发声以生成表示检测到的发声的波形数据414，并将波形数据414和环境图像数据发送到消除歧义引擎404(例如，通过网络)。

消除歧义引擎404从移动计算设备402接收波形数据414和环境图像数据。在操作(B)期间，消除歧义引擎404处理波形数据414并将发声传送到语音识别引擎406(例如，通过网络)。在一些示例中，发声涉及查询(例如，涉及电影配乐的查询)。

语音识别系统406从消除歧义引擎404接收发声。在操作(C)期间，语音识别系统406获取发声的转写文本，并将转写文本提供给关键词映射引擎408。特别地，语音识别系统406通过生成发声的转写文本处理接收自语音识别引擎406的发声。

例如，语音识别系统406转写发声以生成“这上面有什么歌曲?”的转写文本。在一些实施方式中，语音识别系统406提供发声的两个或更多个转写文本。例如，语音识别系统406转写发声以生成“这上面有什么歌曲?”和“这上面有什么水池?”的转写文本。

关键词映射引擎408从语音识别引擎406接收转写文本。在操作(D)期间，关键词映射引擎408标识转写文本中的与特定内容类型关联的一个或多个关键词，并将特定内容类型提供给消除歧义引擎404。

例如，关键词映射引擎408标识来自转写文本“这上面有什么歌曲?”的的关键词“歌曲”。关键词“歌曲”与“音乐”内容类型关联。在一些实施方式中，由关键词映射引擎408标识的转写文本的关键词与两个或更多个内容类型关联。例如，关键词“歌曲”与“音乐”和“歌手”内容类型关联。关键词映射引擎408将特定内容类型传输(例如，通过网络)给消除歧义引擎408。

在一些实施方式中，类似于上面提到的，关键词映射引擎408使用一个或多个数据库标识转写文本中的与特定内容类型关联的一个或多个关键词，对于多个内容类型中的每个内容类型，该数据库将关键词中的至少一个关键词映射到多个内容类型中的至少一个内容类型。例如，关键词映射引擎408使用将关键词“歌曲”映射到“音乐”和“歌手”内容类型的一个或多个数据库。

消除歧义引擎404从关键词映射引擎408接收与发声的转写文本关联的特定内容类型。此外，如上所述，消除歧义引擎404接收与发声关联的环境图像数据。在操作(E)期间，消除歧义引擎404继而向内容识别引擎410提供环境图像数据和特定内容类型。

例如，消除歧义引擎404向内容识别引擎410传输涉及电影配乐的环境图像数据(例如，电影海报CD唱片集封面的图像)和发声的转写文本的特定内容类型(例如，“音乐”内容类型)。

内容识别引擎410从消除歧义引擎404接收环境图像数据和特定内容类型。在操作(F)期间，内容识别引擎410继而标识基于环境图像数据并与特定内容类型匹配的内容项目数据，并将标识的内容项目数据提供给消除歧义引擎404。特别地，内容识别引擎410适当地处理环境图像数据以标识内容项目数据(例如，内容项目的名称)。此外，内容识别引擎410用特定内容类型(例如，发声的转写文本的内容类型)匹配标识的内容项目。内容识别引擎408向消除歧义引擎408传输(例如，通过网络)标识的内容项目数据。

例如，内容识别引擎410标识基于环境图像数据并进一步匹配于“音乐”内容类型的数据，该环境图像数据涉及电影海报CD唱片集封面的图像。

在一些示例中，当环境图像数据至少包括与CD唱片集封面关联的电影海报图像时，内容识别引擎410标识基于与CD唱片集封面关联的电影海报并也与“音乐”内容类型匹配的内容项目数据。因此，在一些示例中，内容识别引擎410标识涉及电影配乐名称的内容项目数据。例如，内容识别引擎410可以确定特定内容项目(例如，具体电影配乐)与电影海报关联，并且特定内容项目(例如，具体电影配乐)与特定内容类型(例如，“音乐”内容类型)匹配。因此，内容识别引擎410可以标识涉及基于环境图像数据(例如，CD唱片集封面的图像)并进一步与特定内容类型(例如，“音乐”内容类型)匹配的特定内容项目(例如，具体电影配乐)的数据(例如，具体电影配乐的名称)。

消除歧义引擎404从内容识别引擎410接收标识的内容项目数据。在操作(G)期间，消除歧义引擎404继而向移动计算设备402提供标识的内容项目数据。例如，消除歧义引擎404向移动计算设备402传输涉及电影配乐的标识的内容项目数据(例如，电影配乐的名称)。

如上所述，图1到图4示出了其中计算环境可以基于环境信息(诸如周围噪声)标识媒体内容(或其它内容)的几个示例过程。也可以使用用于标识内容的其它过程。图5和图6大体上示出了其它示例过程，其中为了提供对口述自然语言查询的更加满意的回答，计算环境可以使用源自环境信息的上下文(诸如标识媒体内容的数据)扩展口述自然语言查询。

图5更详细地描绘了用于基于环境音频数据和发声标识一个或多个结果的系统500。在一些示例中，一个或多个结果可以表示对自然语言查询的一个或多个回答。系统500包括移动计算设备502、协作引擎504、语音识别引擎506、内容标识引擎508、，和自然语言查询处理引擎510。移动计算设备502通过一个或多个网络与协作引擎504通信。移动设备510可以包括麦克风、照相机或其它用于从用户512和／或与用户512关联的环境数据检测发声的检测结构。

与图1的系统100类似，用户512正在观看电视节目。在所示的示例中，用户512想要知道谁导演了正在播放的电视节目(例如，实体)。在一些示例中，用户512可能不知道当前播放的电视节目的名称，并且因为可能会提问问题“谁导演了这个节目?”移动计算设备502检测这个发声以及与用户512的环境关联的环境数据。

在一些示例中，与用户512的环境关联的环境数据可以包括用户512的环境的背景噪声。例如，环境数据包括电视节目(例如，实体)的声音。在一些示例中，与当前显示的电视节目关联的环境数据可以包括当前显示的电视节目的音频(例如，当前显示的电视节目的对话、与当前显示的电视节目关联的配乐音频，等等)。在一些示例中，环境数据可以包括环境音频数据、环境图像数据或二者都包括。在一些示例中，移动计算设备502在检测发声之后检测环境音频数据；在检测发声的同时检测环境音频数据；或二者。在操作(A)期间，移动计算设备502处理检测到的发声和环境数据以生成表示检测到的发声和检测到的环境音频数据(例如，电视节目的声音)的波形数据514，并将波形数据514传输给协作引擎504(例如，通过网络)。

协作引擎504从移动计算设备502接收波形数据514。在操作(B)期间，协作引擎504处理波形数据514，包括，将发声从波形数据514的其它部分分离(或提取)，将波形数据514的对应于发声的部分传输给语音识别引擎506(例如，通过网络)。例如，协作引擎504将发声(“谁导演了这个节目”)从用户512的环境的背景噪声(例如，当前显示的电视节目的音频)分离。在一些示例中，协作引擎504使用话音检测器以有助于通过标识波形数据514的包括话音活动的一部分将发声从背景噪声分离。在一些示例中，发声涉及查询(例如，涉及当前显示的电视节目的查询)。

语音识别引擎506从协作引擎504接收波形数据514的对应于发声的一部分。在操作(C)期间，协作引擎506获取发声的转写文本并将转写文本提供给协作引擎504。特别地，语音识别系统506适当地处理波形数据514的对应于接收自协作引擎504的发声的一部分。在一些示例中，语音识别引擎506处理波形数据514的对应于发声的一部分包括生成发声的转写文本。生成发声的转写文本可以包括将发声转写为文本或文本相关数据。换句话说，语音识别引擎506可以按照发声的书面形式提供语言的表示。

例如，语音识别引擎506转写发声以生成“谁导演了这个节目?”的转写文本。在一些实施方式中，语音识别引擎506提供发声的两个或更多个转写文本。例如，语音识别引擎506转写发声以生成“谁导演了这个节目?”和“谁导演了这只鞋?”的转写文本。

协作引擎504从语音识别引擎506接收发声的转写文本。此外，如上所述，协作引擎504从移动计算设备502接收包括与发声关联的环境音频数据的波形数据514。协作引擎504继而使用环境数据标识实体。特别地，协作引擎504从内容标识引擎508获取标识实体的数据。为此，在操作(D)期间，协作引擎504向内容标识引擎508提供环境音频数据和波形数据514的对应于发声的一部分(例如，通过网络)。

例如，协作引擎504向内容标识引擎508传输涉及当前显示的电视节目(例如，实体)的环境数据和波形514的对应于发声(“谁导演了这个节目?”)的一部分，该环境数据包括当前显示的电视节目的音频(例如，当前显示的电视节目的对话、与当前显示的电视节目关联的配乐音频，等等)。

在一些实施方式中，协作引擎504向内容标识引擎508提供环境数据的一部分。在一些示例中，环境教据的一部分可以包括由移动计算设备502在检测发声之后检测的背景噪声。在一些示例中，环境数据的一部分可以包括由移动计算设备502在检测发声的同时检测的背景噪声。

内容标识引擎508从协作引擎504接收环境数据和波形514的对应于发声的一部分。在操作(E)期间，内容标识引擎508标识如下数据(例如，内容项目数据)，该数据标识基于环境数据和发声的实体，并将标识实体的数据提供给协作引擎504(例如，通过网络)。特别地，内容标识引擎508适当地处理环境数据和波形514的对应于发声的一部分以标识如下数据(例如，内容项目数据)，该数据标识实体，其与环境数据(例如，电视节目的名称、歌曲的名称，等等)关联。

例如，内容标识引擎508处理环境音频数据以标识与当前显示的电视节目关联的内容项目数据。在一些实施方式中，内容标识引擎508是图1的系统100。

协作引擎504从内容标识引擎508接收标识实体的数据(例如，内容项目数据)。此外，如上所述，协作引擎504从语音识别引擎506接收转写文本。在操作(F)期间，协作引擎504继而向自然语言查询处理引擎510提供包括转写文本和标识实体的数据的查询(例如，通过网络)。例如，协作引擎504向自然语言查询处理引擎510提交查询，其包括发声(“谁导演了这个节目?”)的转写文本和内容项目数据(“电视节目名称”)。

在一些示例中，协作引擎504生成查询。在一些示例中，协作引擎504获取查询(例如，从第三方服务器处)。例如，协作引擎504可以向第三方服务器提交发声的转写文本和标识实体的数据，并接收回基于转写文本和标识实体的数据的查询。

在一些实施方式中，由协作引擎504生成查询可以包括将发声的转写文本与标识实体的数据(例如，内容项目数据)关联。在一些示例中，将发声的转写文本与标识内容项目数据关联可以包括使用标识实体的数据标记转写文本。例如，协作引擎504可以使用“电视节目名称”或其它与内容项目数据关联的标识信息(例如，标识(ID)号)标记转写文本“谁导演了这个节目?”在一些示例中，将发声的转写文本与标识实体的数据关联可以包括使用标识实体的数据代替转写文本的一部分。例如，协作引擎504可以使用“电视节目名称”或标识“电视节目名称”的数据代替转写文本“谁导演了这个节目?”的一部分。在一些示例中，使用标识实体的数据代替转写文本的一部分可以包括使用标识实体的数据代替发声的转写文本的一个或多个单词。例如，协作引擎504可以代替转写文本“谁导演了这个节目?”中的“电视节目名称”或标识“电视节目名称”的数据。例如，这种代替会导致包括“谁导演了“电视节目名称”?”或“谁导演了“标识号”?”的转写文本。

自然语言查询处理引擎510从协作引擎504接收包括转写文本和标识实体的数据(例如，内容项目数据)的查询。在操作(G)期间，自然语言查询处理引擎510适当地处理查询，并且基于该处理，向协作引擎504提供一个或多个结果(例如，通过网络)。换句话说，协作引擎510(例如，从自然语言查询处理引擎510)获取查询的一个或多个结果。

特别地，自然语言查询处理引擎510(从信息资源的汇集)获取与查询(发声的转写文本和内容项目数据)相关的信息资源。在一些示例中，自然语言查询处理引擎510将查询与数据库信息(例如，文本文档、图像、音频、视频，等等)匹配，并且计算数据库中的每个对象在多大程度上匹配查询的得分。自然语言查询处理引擎510基于匹配的对象(例如，具有在阈值得分之上的得分的对象)标识一个或多个结果。

例如，自然语言处理引擎510接收包括“电视节目名称”(或其它标识信息)和发声“谁导演了这个节目?”的转写文本的查询。自然语言查询处理引擎510将查询与数据库信息匹配，并提供匹配查询的一个或多个结果。自然语言查询处理引擎510计算匹配对象中的每个匹配对象的得分。

协作引擎504从自然语言处理引擎510接收一个或多个结果。在操作(H)，协作引擎504继而向移动计算设备502提供一个或多个结果(例如，通过网络)。例如，协作引擎504向移动计算设备502传输一个或多个结果(例如，电视节目的导演的姓名)。

在一些示例中，移动计算设备502、协作引擎504、语音识别引擎506、内容标识引擎508和自然语言查询处理引擎510中的一个或多个可以与移动计算设备502、协作引擎504、语音识别引擎506、内容标识引擎508和自然语言查询处理引擎510的子集(或其中的每一个)通信。在一些实施方式中，可以使用一个或多个计算设备(诸如一个或多个服务器、分布式计算系统或服务器群或集群)实现协作引擎504、语音识别引擎506、内容标识引擎508和自然语言查询处理引擎510中的一个或多个。

图6描绘了用于基于环境数据和发声标识一个或多个结果的示例过程600的流程图。示例过程600可以使用一个或多个计算设备执行。例如，移动计算设备502、协作引擎504、语音识别引擎506、内容标识引擎508和／或自然语言查询处理引擎510可以用于执行示例过程600。

接收编码发声和环境数据的音频数据(602)。例如，协作引擎504从移动计算设备502接收波形数据514。波形数据514包括用户的发声(例如，“谁导演了这个节目?”)和环境数据(例如，当前显示的电视节目的音频)。在一些示例中，接收环境数据可以包括接收环境音频数据、环境图像数据或者二者。在一些示例中，接收环境数据包括接收包括背景噪声的附加的音频数据。

获取发声的转写文本(604)。例如，协作引擎504使用语音识别引擎506获取发声的转写文本。语音识别引擎506转写发声以生成发声的转写文本(例如，“谁导演了这个节目?”)。

使用环境数据标识实体(606)。例如，协作引擎504使用内容标识引擎508获取标识实体的数据。内容标识引擎508可以适当地处理环境数据(例如，与显示的电视节目关联的环境音频数据)以标识如下数据(例如，内容项目数据)，该数据标识与环境教据(例如，电视节目的名称、歌曲的名称，等等)关联的实体。在一些示例中，内容标识引擎508可以进一步处理对应于发声的波形514(与处理环境数据同时或在处理环境数据之后)以标识实体。

在一些示例中，协作引擎504生成查询。在一些示例中，由协作引擎504生成查询可以包括将发声的转写文本与标识实体的数据关联。在一些示例中，将发声的转写文本与内容项目数据关联可以包括用标识实体的数据代替转写文本的一部分。在一些示例中，使用标识实体的数据代替转写文本的一部分可以包括使用标识实体的数据代替发声的转写文本中的一个或多个单词。

向自然语言处理引擎提交查询(608)。例如，协作引擎504向自然语言查询处理引擎510提交查询。查询可以至少包括转写文本的一部分和标识实体的数据(例如，内容项目数据)。例如，协作引擎504向自然语言查询处理引擎510提交包括发声(“谁导演了这个节目?”)的转写文本和内容项目数据(“电视节目名称”)的查询。

获取查询的一个或多个结果(610)。例如，协作引擎510从自然语言查询处理引擎510获取查询的一个或多个结果(例如，电视节目的导演的姓名)。在一些示例中，协作引擎504继而向移动计算设备502提供一个或多个结果。

图7描绘了通用计算机设备700和通用移动计算机设备750的示例，其可以与此处所描述的技术一起使用。计算设备700旨在表示各种形式的数字计算机，诸如膝上型计算机，台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其它适当的计算机。计算设备750旨在表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话和其它类似的计算设备。此处所示的组件、它们的连接和关系以及它们的功能仅仅是示例性的，而不是用于限制本文档中描述和／或请求保护的发明的实现方式。

计算设备700包括处理器702、存储器704、存储设备706、连接到存储器704和高速扩展端口710的高速接口708以及连接到低速总线714和存储设备706的低速接口712。组件702、704、706、708、710和712中的每个组件使用各种总线互连，并可以安装于通用主板上或以其它合适的方式安装。处理器702可以处理用于在计算设备700内执行的指令，包括存储于存储器704或存储设备706上的指令，以便在外部输入／输出设备(诸如耦合到高速接口708的显示器716)上显示GUI的图形信息。在其它实现方式中，在合适时，可以使用多个处理器和／或多个总线，连同多个存储器和多个存储器类型。此外，多个计算机设备700可以与提供必要操作的部分的每个设备(例如，作为服务器阵列、刀片服务器组或多处理器系统)连接。

存储器704储存计算设备700内的信息。在一个实现方式中，存储器704是一个或多个易失性存储器单元。在另一实现方式中，存储器704是一个或多个非易失性存储器单元。存储器704还可以是另一形式的计算机可读介质，诸如磁盘或光盘。

存储设备706能够为计算设备700提供大规模存储。在一个实现方式中，存储设备706可以是或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备，或磁带设备、闪存或其它类似的固态存储设备、或设备的阵列，其包括存储区域网络中的设备或其它配置。计算机程序产品可以有形地嵌入于信息载体中。计算机程序产品还可以包括指令，当执行该指令时，执行一种或多个方法，诸如以上所述的那些方法。信息载体是计算机或机器可读介质，诸如存储器704、存储设备706或处理器702上的存储器。

高速控制器708管理计算设备700的带宽密集型操作，而低速控制器712管理较低的带宽密集型操作。这种功能分配仅仅是示例性的。在一个实现方式中，高速控制器708耦合到存储器704、显示器716(例如，通过图形处理器或加速器)和高速扩展端口710，其可以接受各种扩展卡(未示出)。在该实现方式中，低速控制器712耦合到存储设备706和低速扩展端口714。其可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器耦合到一个或多个输入／输出设备，诸如键盘、指点设备、扫描仪或网络设备(诸如交换机或路由器)。

如图中所示，计算设备700可以按照多种不同方式实现。例如，其可以被实施为标准服务器720，或在这样的服务器群中的多次实施。其还可以被实施为架式服务器系统724的一部分。此外，可以在个人计算机(诸如膝上型计算机722中)实现它。备选地，来自计算设备700的组件可以与移动设备(未示出)(诸如设备750)中的其它组件组合。这样的设备中的每个设备可以包括计算设备700、750中的一个或者多个计算设备，并且整个系统可以由彼此通信的多个计算设备700、750组成。

计算设备750包括处理器752、存储器764、输入／输出设备，诸如显示器754、通信接口766和收发器768以及其他组件。设备750可以具有用于提供附加存储装置的存储设备，诸如微驱动器或其它设备。组件750、752、754、766和768中的每个组件使用各种总线互连，并且几个组件可以安装于通用主板上或以其它合适的方式安装。

处理器752可以执行计算设备750内的指令，包括存储于存储器764中的指令。处理器可以被实施为包括单独和多个模拟和数字处理器的芯片的芯片组。处理器可以例如提供协调设备750的其它部件，诸如控制用户接口、设备750运行的应用和设备750的无线通信。

处理器752可以通过控制接口758和耦合到显示器754的显示接口756与用户通信。显示器754可以是例如TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二级管)显示器或其它适当的显示技术。显示器接口756可以包括用于驱动显示器754以向用户呈现图形和其它信息的合适的电路装置。控制接口758可以从用户接收命令并将其转化以用于向处理器752提交。此外，可以提供与处理器752通信的外部接口以便实现设备750与其它设备近距离通信。在一些实现方式中，外部接口762可以提供例如有线通信，或者在其它实现方式中提供无线通信，还可以使用多个接口。

存储器764存储计算设备750内的信息。存储器764可以被实施为一个或多个计算机可读介质、一个或多个易失性存储器单元或一个或多个非易失性存储器单元。还可以提供扩展存储器754并通过扩展接口752将其连接到设备750，其可以包括例如SIMM(单列直插存储器模块)卡接口。这种扩展存储器754可以为设备750提供额外的存诸空间，或者还可以存储设备750的应用或其它信息。特别地，扩展存储器754可以包括指令以执行或补充上述过程，并且可以包括安全信息。因此，例如，可以提供扩展存储器754作为设备750的安全模块，并且可以用允许设备750的安全使用的指令对其编程。此外，可以经由SIMM卡将安全应用与附加信息一起提供，诸如以不可黑客的方式将标识信息放置于SIMM卡上。

如下文讨论的那样，存储器可以例如包括闪存和／或NVRAM存储器。在一个实现方式中，在信息载体中有形地实现计算机程序产品。计算机程序产品包含在被执行时执行一种或者多种方法(诸如上文描述的方法)的指令。信息载体是计算机或者机器可读介质，诸如存储器764、扩展存储器774、在处理器752上的存储器或者可以例如通过收发器768或者外部接口762接收的传播的信号。

设备750可以通过通可以在必要时可以包括数字信号处理电路装置的通信接口766无线地通信。通信接口766可以在各种模式或者协议(诸如GSM语音呼叫、SMS、EMS或者MMS消息接发、CDMA、TDMA、PDC、wCDMA、CDMA2000或者GPRS以及其它模式或者协议之下)提供通信。可以例如通过射频收发器768发生这样的通信。此外，可以诸如使用蓝牙、WiFi或者其它这样的收发器(未示出)来发生短程通信。此外，GPS(全球定位系统)接收器模块770可以向设备750提供附加的与导航和位置有关的无线数据，该数据可以如适当的那样由在设备750上运行的应用使用。

设备750也可以使用音频编码解码器760来可听地通信，该编码解码器可以从用户接收口述言息并且将它转换成可用数字信息。音频编码解码器760可以类似地诸如通过例如在设备750的头戴式受话器中的扬声器生成用于用户的可听声音。这样的声音可以包括来自语音电话呼叫的声音、可以包括记录的声音(例如，语音消息、音乐文件等)并且也可以包括由在设备750上操作的应用生成的声音。

如图中所示，可以用多个不同形式实施计算设备750。例如，可以将它实施为蜂窝电话780。也可以将它实施为智能电话782、个人数字助理或者其它相似移动设备的部分。

可以在数字电子电路装置、集成电路装置、特殊设计的ASIC(专用集成电路)、计算机硬件、固件、软件和／或其组合中实现这里描述的系统和技术的各种实现方式。这些各种实现方式可以包括在如下可编程系统上可执行和／或可解译的一个或者多个计算机程序中的实现方式，该可编程系统包括可以是特殊或者通用的至少一个可编程处理器、至少一个输入设备和至少一个输出设备，该可编程处理器被耦合用于从存储系统接收数据和指令以及向存储系统传输数据和指令。

这些计算机程序(也被称为程序、软件、软件应用或者代码)包括用于可编程处理器的机器指令并且可以用高级过程和／或面向对象编程语言和／或用汇编／机器语言来实施。如这里所用，术语“机器可读介质”、“计算机可读介质”指代用来向可编程处理器提供机器指令和／或数据的任何计算机程序产品、装置和／或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(PLD))，该计算机程序产品、装置和／或设备包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指代用来向可编程处理器提供机器指令和／或数据的任何信号。

为了提供与用户的交互，可以在如下计算机上实施这里描述的系统和技术，该计算机具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或者LCD(液晶显示器)监视器)以及用户可以用来向计算机提供输入的键盘和指点设备(例如，鼠标或者跟踪球)。其它种类的设备也可以用来提供与用户的交互；例如向用户提供的反馈可以是任何形式的感官反馈(例如，视觉反馈、听觉反馈或者触觉反馈)；并且可以用包括声音、话音或者触觉输入的任何形式接收来自用户的输入。

可以在如下计算系统中实施这里描述的系统和技术，该计算系统包括后端部件(例如，作为数据服务器)或者包括中间件部件(例如，应用服务器)或者包括前端部件(例如，具有如下图形用户接口或者Web浏览器的客户端计算机，用户可以通过该图形用户接口或者Web浏览器来与这里描述的系统和技术的实现方式交互)或者这样的后端、中间件或者前端部件的任何组合。系统的部件可以由任何数字数据通信形式或者介质(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此相距遥远而且典型地通过通信网络交互。借助在相应计算机上运行的并且相互具有客户端一服务器关系的计算机程序产生客户端和服务器关系。

尽管本公开内容包含许多细节，但是这些不应被解释为对公开内容的或者可以要求保护的内容的范围的限制，而是实际上解释为对公开内容的具体实现方式特有的特征的描述。也可以在单个实现方式中组合提供本公开内容中的在单独实现方式的背景中描述的某些特征。反言之，也可以在多个实现方式中单独或者在任何适当子组合中提供在单个实现方式的背景中描述的各种特征。另外，虽然上文可以描述特征为在某些组合中作用并且甚至起初这样要求保护，但是在一些情况下可以从要求保护的组合中去除来自该组合的一个或者多个特征，并且要求保护的组合可以涉及子组合或者子组合的变化。

类似地，尽管在附图中按特定顺序描绘操作，但是这不应理解为要求按所示特定顺序或者按依次顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中，多任务和并行处理可以是有利的。另外，在上文描述的实现方式中分离各种系统部件不应理解为在所有实现方式中要求这样的分离，并且应当理解，描述的程序部件和系统一般可以一起集成于单个软件产品中或者封装到多个软件产品中。

已经这样描述了本公开内容的具体实现方式。其它实现方式在所附权利要求的范围内。例如，在权利要求中记载的动作可以按不同顺序来执行而仍然实现希望的结果。已经描述了多个实现方式。不过，可以理解，可以在不脱离本公开内容的精神和范围的情况下进行各种修改。例如，可以使用各种形式的上述流程，其中对步骤进行重新排序、添加或移除。因此，其它实现方式也在下列权利要求的范围内。

Claims

1.一种计算机实施的方法，包括：

接收编码发声和环境数据的音频数据；

获取所述发声的转写文本；

使用所述环境数据标识实体；

向自然语言查询处理引擎提交查询，其中所述查询至少包括所述转写文本的一部分和标识所述实体的数据；以及

获取所述查询的一个或多个结果。

2.如权利要求1所述的计算机实施的方法，进一步包括输出所述结果中的至少一个结果的表示。

3.如权利要求1所述的计算机实施的方法，其中进一步使用所述发声标识所述实体。

4.如权利要求1所述的计算机实施的方法，进一步包括生成所述查询。

5.如权利要求4所述的计算机实施的方法，其中生成所述查询包括将所述转写文本与标识所述实体的所述数据关联。

6.如权利要求5所述的计算机实施的方法，其中关联进一步包括使用标识所述实体的所述数据标记所述转写文本。

7.如权利要求5所述的计算机实施的方法，其中关联进一步包括使用标识所述实体的所述数据代替所述转写文本的一部分。

8.如权利要求7所述的计算机实施的方法，其中代替进一步包括使用标识所述实体的所述数据代替所述转写文本的一个或多个单词。

9.如权利要求1所述的计算机实施的方法，其中接收所述环境数据进一步包括接收环境音频数据、环境图像数据或者二者。

10.如权利要求9所述的计算机实施的方法，其中接收所述环境音频数据进一步包括接收包括背景噪声的附加的音频数据。

11.一种系统，包括：

一个或多个计算机以及存储可操作的指令的一个或多个存储设备，当由所述一个或多个计算机执行所述指令时，使得所述一个或多个计算机执行操作，包括：

接收编码发声和环境数据的音频数据；

获取所述发声的转写文本；

使用所述环境数据标识实体；

获取所述查询的一个或多个结果。

12.如权利要求11所述的系统，所述操作进一步包括生成查询，其中生成所述查询包括将所述转写文本与标识所述实体的所述数据关联。

13.如权利要求12所述的系统，其中关联进一步包括使用标识所述实体的所述数据标记所述转写文本。

14.如权利要求12所述的系统，其中关联进一步包括使用标识所述实体的所述数据代替所述转写文本的一部分。

15.如权利要求14所述的系统，其中代替进一步包括使用标识所述实体的所述数据代替所述转写文本的一个或多个单词。

16.如权利要求11所述的系统，其中接收所述环境数据进一步包括接收环境音频数据、环境图像数据或者二者。

17.如权利要求16所述的系统，其中接收所述环境音频数据进一步包括接收包括背景噪声的附加的音频数据。

18.一种存储软件的计算机可读介质，所述软件包括可由一个或多个计算机执行的指令，执行所述指令导致所述一个或多个计算机执行操作，包括：

接收编码发声和环境数据的音频数据；

获取所述发声的转写文本；

使用所述环境数据标识实体；

获取所述查询的一个或多个结果。

19.如权利要求18所述的计算机可读介质，所述操作进一步包括生成查询，其中生成所述查询包括将所述转写文本与标识所述实体的所述数据关联。

20.如权利要求19所述的计算机可读介质，其中关联进一步包括使用标识所述实体的所述数据标记所述转写文本。

21.如权利要求19所述的计算机可读介质，其中关联进一步包括使用标识所述实体的所述数据代替所述转写文本的一部分。

22.如权利要求21所述的计算机可读介质，其中代替进一步包括使用标识所述实体的所述数据代替所述转写文本的一个或多个单词。

23.一种计算机实施的方法，包括：

接收(i)编码口述自然语言查询的音频数据，以及(ii)环境音频数据；

获取所述口述自然语言查询的转写文本；

确定与所述转写文本中的一个或多个关键词关联的特定内容类型；

向内容识别引擎提供至少所述环境音频数据的—部分；以及

标识已由所述内容识别引擎输出并与所述特定内容类型匹配的内容项目。

24.如权利要求23所述的计算机实施的方法，其中所述特定内容类型是电影内容类型、音乐内容类型、电视节目内容类型、音频播客内容类型、书籍内容类型、艺术品内容类型、预告片内容类型、视频播客内容类型、因特网音频内容类型或视频游戏内容类型。

25.如权利要求23所述的计算机实施的方法，其中接收所述环境音频数据进一步包括接收包括背景噪声的附加的音频数据。

26.如权利要求23所述的计算机实施的方法，进一步包括接收包括视频数据或图像数据的附加的环境数据。

27.如权利要求23所述的计算机实施的方法，进一步包括输出标识所述内容项目的数据。

28.如权利要求23所述的计算机实施的方法，其中向所述内容识别引擎提供至少所述环境音频数据的所述一部分进一步包括向音频指纹引擎提供所述环境音频数据的所述一部分。

29.如权利要求23所述的计算机实施的方法，其中确定所述特定内容类型进一步包括使用一个或多个数据库标识所述一个或多个关键词，对于多个内容类型中的每个内容类型，所述数据库将所述关键词中的至少一个关键词映射到所述多个内容类型中的至少一个内容类型。

30.如权利要求29所述的计算机实施的方法，其中所述多个内容类型包括所述特定内容类型，并且其中映射进一步包括将所述关键词中的至少一个关键词映射到所述特定内容类型。

31.如权利要求23所述的计算机实施的方法，其中提供进一步包括向所述内容识别引擎提供标识所述特定内容类型的数据，以及

其中标识所述内容项目进一步包括从所述内容识别引擎接收标识所述内容项目的数据。

32.如权利要求23所述的计算机实施的方法，进一步包括从所述内容识别系统接收两个或更多个内容识别候选者，以及

其中标识所述内容项目进一步包括基于所述特定内容类型选择特定内容识别候选者。

33.如权利要求32所述的计算机实施的方法，其中所述两个或更多个内容识别候选者中的每个内容识别候选者与排名得分关联，所述方法进一步包括基于所述特定内容类型调整所述两个或更多个内容识别候选者的所述排名得分。

34.如权利要求33所述的计算机实施的方法，进一步包括基于调整的排名得分对所述两个或更多个内容识别候选者排名。

35.一种系统，包括：

获取所述口述自然语言查询的转写文本；

向内容识别引擎提供至少所述环境音频数据的一部分；以及

36.如权利要求35所述的系统，其中接收所述环境音频数据进一步包括接收包括背景噪声的附加的音频数据。

37.如权利要求35所述的系统，所述操作进一步包括接收包括视频数据或图像数据的附加的环境数据。

38.如权利要求35所述的系统，其中向所述内容识别引擎提供至少所述环境音频数据的所述一部分进一步包括向音频指纹引擎提供所述环境音频数据的所述一部分。

39.如权利要求35所述的系统，其中确定所述特定内容类型进一步包括使用一个或多个数据库标识所述一个或多个关键词，对于多个内容类型中的每个内容类型，所述数据库将所述关键词中的至少一个关键词映射到所述多个内容类型中的至少一个内容类型。

40.如权利要求39所述的系统，其中所述多个内容类型包括所述特定内容类型，并且其中映射进一步包括将所述关键词中的至少一个关键词映射到所述特定内容类型。

41.如权利要求35所述的系统，其中提供进一步包括向所述内容识别引擎提供标识所述特定内容类型的数据，以及

42.如权利要求35所述的系统，所述操作进一步包括从所述内容识别系统接收两个或更多个内容识别候选者，以及

43.如权利要求42所述的系统，其中所述两个或更多个内容识别候选者中的每个内容识别候选者与排名得分关联，所述方法进一步包括基于所述特定内容类型调整所述两个或更多个内容识别候选者的所述排名得分。

44.如权利要求43所述的系统，所述操作进一步包括基于调整的排名得分对所述两个或更多个内容识别候选者排名。

45.一种存储软件的非瞬态计算机可读介质，所述软件包括可由一个或多个计算机执行的指令，执行所述指令导致所述一个或多个计算机执行操作，包括：

获取所述口述自然语言查询的转写文本；

向内容识别引擎提供至少所述环境音频数据的一部分；以及

46.如权利要求45所述的计算机可读介质，其中向所述内容识别引擎提供至少所述环境音频数据的所述一部分进一步包括向音频指纹引擎提供所述环境音频数据的所述一部分。

47.如权利要求45所述的计算机可读介质，其中确定所述特定内容类型进一步包括使用一个或多个数据库标识所述一个或多个关键词，对于多个内容类型中的每个内容类型，所述数据库将所述关键词中的至少一个关键词映射到所述多个内容类型中的至少一个内容类型。

48.如权利要求47所述的计算机可读介质，其中所述多个内容类型包括所述特定内容类型，并且其中映射进一步包括将所述关键词中的至少一个关键词映射到所述特定内容类型。

49.如权利要求45所述的计算机可读介质，所述操作进一步包括输出标识所述内容项目的数据。

50.如权利要求45所述的计算机可读介质，其中提供进一步包括向所述内容识别引擎提供标识所述特定内容类型的数据，以及

51.如权利要求45所述的计算机可读介质，所述操作进一步包括从所述内容识别系统接收两个或更多个内容识别候选者，以及

52.如权利要求51所述的计算机可读介质，其中所述两个或更多个内容识别候选者中的每个内容识别候选者与排名得分关联，所述方法进一步包括基于所述特定内容类型调整所述两个或更多个内容识别候选者的所述排名得分。