CN106095766A

CN106095766A - 使用选择性重新讲话来校正话音识别

Info

Publication number: CN106095766A
Application number: CN201610273179.7A
Authority: CN
Inventors: 德鲁夫·巴克希; 扎希德·撒布尔; 蒂尔克·玛丽·尤德; 尼古拉斯·G·非
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-04-28
Filing date: 2016-04-28
Publication date: 2016-11-09
Anticipated expiration: 2036-04-28
Also published as: EP3089159B1; US20160322049A1; US10354647B2; EP3089159A1; CN106095766B

Abstract

公开了使用选择性重新讲话来校正话音识别。本公开的实施方式包括以下的动作：提供用于在用户的计算设备上的显示的第一文本，第一文本基于从所述计算设备的第一语音而从第一语音识别引擎来提供，并且作为搜索查询显示，从所述计算设备接收语音校正指示，所述语音校正指示指示第一文本要校正的部分，从所述计算设备接收第二语音，基于所述第二语音从第二语音识别引擎接收第二文本，所述第二语音识别引擎不同于所述第一语音识别引擎，使用所述第二文本代替所述第一文本的所述部分以提供组合文本，以及提供组合文本以用于作为修正搜索查询在所述计算设备上显示。

Description

使用选择性重新讲话来校正话音识别

背景技术

互联网提供对诸如图像文件、音频文件、视频文件、和网页的多种资源的访问。搜索系统可以响应于由用户提交的查询来识别资源并且以对于用户有用的方式提供关于该资源的信息。用户可以通过例如点击来导航搜索结果以获取感兴趣的信息。

发明内容

本说明书涉及在搜索系统中的语音识别，例如话音至文本。

本公开的实施方式一般地指向使用选择性的重新讲出而校正语音识别。更具体地，本公开的实施方式指向基于(由用户)重新讲出文本搜索查询的部分，来校正该文本搜索查询的该部分。在一些示例中，文本搜索查询的该部分被校正以提供校正的文本搜索查询。

一般地，在本说明书中描述的主题内容的创造方面可以在包括以下动作的方法中实现，所述动作包括：提供第一文本以用于在用户的计算设备上显示，所述第一文本基于从所述计算设备的第一语音而从第一语音识别引擎来提供，并且作为搜索查询显示，从所述计算设备接收语音校正指示，所述语音校正指示用于指示所述第一文本的要校正的部分，从所述计算设备接收第二语音，基于所述第二语音从第二语音识别引擎接收第二文本，所述第二语音识别引擎不同于所述第一语音识别引擎，使用所述第二文本代替所述第一文本的所述部分以提供组合文本，以及提供所述组合文本以用于作为修正搜索查询在所述计算设备上显示。本方面的其他的实施方式包括被配置成执行在计算机存储设备上编码的方法的动作的对应系统、装置、和计算机程序。

这些和其他的实施方式每个都可以实施方式地包括以下的特征中的一个或多个：所述部分包括所述第一文本的整体；所述部分包括小于所述第一文本的整体；所述第二语音识别引擎包括所述第一语音识别引擎和至少一个附加的功能；所述至少一个附加的功能包括基于与所述第一文本相关联的一个或多个实体选择潜在的文本作为所述第二文本；所述动作还包括：接收基于所述第一文本的第一搜索结果，以及提供所述第一搜索结果以用于在所述计算设备上显示；所述动作还包括：接收基于所述第二文本的第二搜索结果，以及提供所述第二搜索结果以用于在所述计算设备上代替所述第一搜索结果显示；并且所述语音校正指示包括对所述第一文本的多个单词中的至少一个单词的用户选择。

在本说明书中描述的本主题的特定实施方式可以被实施从而实现以下优点中的一个或多个优点。在一些示例中，对初始查询的部分的校正是更快的并且资源效率更高的。例如，从用户观点，重新讲出该部分而不是重新讲出初始查询的整体是更快/更容易的。从资源观点，与对初始查询的整体执行语音识别相对，对该部分执行语音识别需要更少的带宽以及更少的计算机处理能力和/或存储器。在一些示例中，与计算设备的用户交互被简化，例如，用户拼写出单个单词而不是整个查询。在一些示例中，可以在不消耗增加的资源的情况下，将更复杂的语音识别可以用于将第二语音更精确地转换为文本，例如，因为第二语音比初始查询的整体短。

在本说明书中描述的本主题的一个或多个实施方式的细节在下文的附图和描述中提出。本主题的其他特征、方面、和优点将从描述、附图、和权利要求变得明显。

附图说明

图1描绘了示例在其中搜索系统提供搜索结果的示例环境。

图2A-2D描绘了根据本公开的实施方式的示例使用案例。

图3描绘了根据本公开的实施方式的示例语音识别系统。

图4描绘了可以根据本公开的实施方式执行的示例过程。

在各个附图中的相似的附图标记和指代指示相似的元件。

具体实施方式

本公开的实施方式一般地指向使用选择性的再说话校正语音识别。更具体地，本公开的实施方式指向基于用户重新讲出搜索查询的部分来校正该部分。在一些实施方式中，提供第一文本以用于向用户显示，该第一文本基于从计算设备的用户的第一语音而从第一语音识别引擎来提供。在一些示例中，该第一文本是提交至搜索系统的搜索查询。在一些实施方式中，用户可以指示第一文本的要校正的部分，并且可以提供第二语音，使用第二语音识别引擎对其进行处理以提供第二文本。在一些实施方式中，该第一文本的该部分被该第二文本代替以提供组合文本。在一些示例中，组合文本是提交至搜索系统的修正搜索查询。

图1描绘了在其中搜索系统基于用户查询提供搜索结果的示例环境100。在一些示例中，示例环境100使得用户能够与一个或多个计算机实现的服务交互。示例的计算机实现的服务可以包括搜索服务、电子邮件服务、聊天服务、文档共享服务、日程表共享服务、照片共享服务、视频共享服务、博客服务、微博服务、社交网络服务、定位(地点认知)服务、登记服务、以及评级和检查服务。在图1的示例中，描绘了搜索系统120，其提供搜索服务，如在本文中更详细地描述的。

继续参照图1，示例环境100包括连接网站104、用户设备106、和搜索系统120的网络102，网络102例如局域网(LAN)、广域网(WAN)、互联网、或其组合。在一些示例中，可以经过有线和/或无线通信链路访问网络102。例如，诸如智能电话的移动计算设备可以利用蜂窝网络来访问网络102。环境100可以包括上百万的网站104和用户设备106。

在一些示例中，提供网站104作为与域名相关联并且由一个或多个服务器托管的一个或多个资源105。示例的网站是以合适的机器可读语言(例如超文本标记语言(HTML))格式化的网页的集合，其可以包含文本、图像、多媒体内容、和例如脚本的编程元素。每个网站104被发布者维护，例如管理和/或拥有该网站的实体。

在一些示例中，资源105是通过网络102提供的并且与资源地址(例如统一资源定位符(URL))相关联的数据。在一些示例中，可以由网站104提供的资源105包括网页、单词处理文档、和便携文档格式(PDF)文档、图像、视频、和馈送源，以及其他的合适的数字内容。资源105可以包括例如单词、短语、图像、和声音的内容，并且可以包括嵌入信息，例如，元信息和超链接、和/或嵌入的指令(例如，脚本)。

在一些示例中，用户设备106是能够通过网络102请求和接收资源105的电子设备。示例的用户设备106包括可以通过网络102发送和接收数据的个人计算机、膝上型计算机、和移动计算设备，例如，智能电话和/或平板计算设备。如在整个文档中使用的，术语移动计算设备(“移动设备”)是指被配置成通过移动通信网络通信的用户设备。智能电话(例如实现通过互联网通信的电话)是移动设备的一个示例。用户设备106可以执行用户应用(例如web浏览器)以有助于通过网络102发送和接收数据。

在一些示例中，为了有助于资源105的搜索，搜索系统120通过爬行和索引在网站104上提供的资源105来识别资源105。关于资源105的数据可以基于该数据所对应的资源来索引。资源105的经索引并且可选地缓存的副本存储在搜索索引122中。

用户设备106将搜索查询109提交至搜索系统120。在一些示例中，用户设备106可以包括一个或多个输入模式。示例的模式可以包括键盘、触摸屏、和/或麦克风。例如，用户可以使用键盘和/或触摸屏在搜索查询中打字。作为另一个示例，用户可以说出搜索查询，用户语音通过麦克风来捕获，并且通过语音识别来处理以提供搜索查询。

响应于接收到搜索查询109，搜索系统120访问搜索索引122以识别与搜索查询109相关(例如具有对于搜索查询109的至少一个最小的指定相关性评分)的资源105。搜索系统120识别资源105，产生包括识别资源105的搜索结果112的搜索结果显示111，并且将搜索结果显示111返回至用户设备106。在一个示例场境中，搜索结果显示可以包括一个或多个网页，例如，一个或多个搜索结果页面。在一些示例中，可以基于可以以任何合适的机器可读语言编写的web文档来提供网页。然而，设想，本公开的实施方式可以包括其他合适的显示类型。例如，可以在由在计算设备上执行的应用所生成的显示中和/或由操作系统(例如移动操作系统)生成的显示中提供搜索结果。在一些示例中，可以基于任何合适的形式(例如，Javascript-html、纯文本)来提供搜索结果。

搜索结果112是由搜索系统120生成的数据，其识别对特定搜索查询作出响应的资源105，并且包括指向该资源105的链接。示例的搜索结果112可以包括网页标题、从网页提取的文本片段或图像部分、和网页的URL。在一些示例中，可以从资源数据存储库中检索到在搜索结果112中提供的数据。例如，搜索系统120可以提供搜索结果显示111，其显示搜索结果112。在一些示例中，可以用从资源数据存储库提供的信息填入搜索结果显示111，例如网页标题、从网页提取的文本片段或图像部分。

在一些示例中，用于在用户会话期间提交的搜索查询109的数据存储在数据存储库中，诸如历史数据存储库124。例如，搜索系统120可以将的搜索查询存储在历史数据存储库124中。

在一些示例中，指定响应于对每个搜索查询109作出响应而提供的搜索结果112而采取的动作的选择数据也(例如，由搜索系统120)存储在历史数据存储库124中。这些动作可以包括搜索结果112是否被选择，例如，用指针点击或悬停。对于搜索结果112的每个选择，选择数据可以还包括识别针对其提供搜索结果112的搜索查询109的数据。

在一些实施方式中，用户可以基于语音提交搜索查询109。例如，用户可以对着用户设备106的麦克风讲话，并且用户的语音可以作为语音数据(也称为第一语音)被捕获在数据文件中。在一些示例中，提供语音数据作为通过网络102提交至搜索系统120的搜索查询109。在一些实施方式中，搜索系统120可以将语音数据提供至语音识别系统130。在一些示例中，语音识别系统130可以处理语音数据以提供文本。例如，语音识别系统130可以使用话音至文本引擎(也称为第一语音识别引擎)来处理语音数据以提供文本。在一些示例中，语音识别系统130将文本提供至搜索系统120，搜索系统120将该文本作为搜索查询处理以提供搜索结果112。在一些示例中，可以提供搜索查询以用于向用户显示，例如，与搜索结果一起。以这种方式，用户可以看到如何识别语音，以及搜索结果所基于的搜索查询。

虽然搜索系统120和语音识别系统130在图1的示例中描绘为分立的系统，应意识到，搜索系统120和语音识别系统130可以被包括在同一个系统中，例如，搜索系统120可以包括其中的语音识别系统130。

根据本公开的实施方式，用户可以校正搜索查询的一部分，例如一个或多个单词。在一些示例中，用户可以确定搜索查询的一部分是不正确的，例如，对于该部分的语音识别不精确地识别用户的语音，并且可以指示该部分是要校正的。例如，用户可以选择被使用用户设备106向用户显示的该搜索查询的该部分。在一些实施方式中，用户再次对着用户设备106的麦克风讲话，并且用户的语音可以作为部分语音数据(也称为第二语音)被捕获在数据文件中。在一些示例中，提供该部分语音数据作为搜索查询的该部分的重新讲话，并且通过网络102提交至搜索系统120。在一些实施方式中，搜索系统120可以将该部分语音数据提供至语音识别系统130，并且可以包括与语音输入的重新讲话相对应的该部分语音数据的指示。在一些示例中，语音识别系统130可以处理该部分语音数据以提供修正文本。例如，语音识别系统130可以使用话音至文本引擎(也称为第二语音识别引擎)处理该部分语音数据。

在一些实施方式中，用于处理语音数据的第一语音识别引擎不同于用于处理部分语音数据的第二语音识别引擎。在一些示例中，相对于第二语音识别引擎，第一语音识别引擎可以被用于利用不那么严格的精确度阈值提供语音数据的相对迅速的处理。例如，第一语音识别引擎可以使用更少的资源，例如，处理器、存储器，并且可以比第二语音识别引擎更迅速地提供结果。在一些示例中，相对于第一语音识别引擎，第二语音识别引擎可以被用于提供对部分语音数据的更精确的处理，例如，更严格的精确度阈值。例如，第二语音识别引擎可以使用更多的资源，例如，处理器、存储器，并且可以提供比第一语音识别引擎更精确的结果。在一些示例中，虽然第二语音识别引擎比第一语音识别引擎更复杂，并且可能消耗更多的资源，但是提供结果的速度可以是相似的。例如，并且如在本文中更详细地描述的，第一语音识别引擎可以正在处理比第二语音识别引擎多的语音，例如，第二语音识别引擎正在仅处理原始提交的语音的部分。

在一些实施方式中，语音识别系统130将修正文本提供至搜索系统120，搜索系统120基于搜索查询和该修正文本提供修正的搜索查询。例如，搜索系统120用修正的文本代替搜索查询的该部分以提供修正的搜索查询。搜索系统120处理修正的搜索查询以提供已修正的搜索结果112。在一些示例中，可以提供修正的搜索查询以用于向用户显示，例如，与搜索结果一起。以这种方式，用户可以看到语音如何被修正，以及搜索结果所基于的搜索查询。

图2A-2D描绘了根据本公开的实施方式的示例使用案例。具体地参照图2A，用户200使用计算设备202进行搜索。更具体地，用户200使用计算设备202将搜索查询提交至搜索系统，例如，图1的搜索系统120，搜索系统提供搜索结果以用于在计算设备202上向用户显示。在所描绘的示例中，提供计算设备202作为移动计算设备，例如，智能电话、平板。然而，应意识到，可以使用任何合适类型的计算设备来实现本公开的实施方式，例如，桌面型计算机、膝上型计算机、诸如智能手表的可穿戴计算设备。

在所描绘的示例中，计算设备202显示用户200可以使用其提交搜索查询和接收搜索结果的搜索界面204。示例的搜索界面204包括搜索框206、搜索按钮208、搜索结果区域210和麦克风按钮212。在一些示例中，被提交至搜索系统的搜索查询在搜索框206中显示，并且所得到的搜索结果在搜索结果区域210中显示。在一些示例中，用户200可以选择搜索按钮208以启动提交搜索查询至搜索系统。在一些示例中，搜索查询被自动地提交至搜索系统，而不要求用户选择搜索按钮208。

根据本公开的实施方式，用户200提供第一语音220作为至搜索界面204的输入。在所描绘的示例中，第一语音220包括查询[给我看Maradona的图片]。在一些示例中，计算设备202使用麦克风记录第一语音220，并且生成将第一语音220作为音频数据存储的一个或多个数据文件(例如.wav文件、.mp3文件)。在一些实施方式中，计算设备202将第一语音220提供至搜索系统。在一些示例中，将第一语音220自动地提供至搜索系统，例如，不要求用户选择搜索按钮208。在一些示例中，在用户已经说出第一语音220的整体之后，第一语音220被传送至搜索系统。例如，搜索系统120在一个请求中接收第一语音220的整体。在一些示例中，第一语音220的部分在它们被说出时传送至搜索系统。例如，在第一语音220的每个部分被说出时，搜索系统这些部分(例如单词)。

在一些实施方式中，并且如在本文中更详细地描述的，第一语音220被语音识别系统(例如图1的语音识别系统130)处理以提供第一文本(例如文本搜索查询)。例如，搜索系统可以将音频数据提供至语音识别系统以用于处理。在一些示例中，语音识别系统使用第一语音识别引擎处理第一语音220以提供第一文本。

在一些实施方式中，提供第一文本以用于在计算设备202上显示。在一些示例中，搜索系统从语音识别系统接收第一文本并且将第一文本传送至计算设备202。在一些示例中，第一文本作为搜索查询222显示在搜索框206中。在一些示例中，搜索系统将第一文本作为搜索查询处理以提供搜索结果，其中的至少一些被发送至计算设备202并且作为搜索结果224被显示在搜索结果区域210中。在一些示例中，在计算设备202搜索结果224和显示其之前，将搜索查询222显示给用户。例如，第一文本可以并且作为搜索查询222在搜索框206中显示，并且可以随后并显示搜索结果224，例如，在搜索查询222的显示和搜索结果224的显示之间存在时间滞后。

在所描绘的示例中，搜索查询222被提供为[给我看Madonna的图片]。据此，单词[Maradona]被语音识别系统不正确地识别为[Madonna]。因此，搜索结果224包括歌手-作曲家、女演员、和制片人Madonna的图像。即，搜索结果224所基于的搜索查询222是不正确的，因为其应当被提供为[给我看Maradona的图片]。

根据本公开的实施方式，用户200可以校正搜索查询222的部分以提供修正的搜索查询，可以将所述修正的搜索查询提交至搜索系统。在一些实施方式中，用户200可以提供语音校正指示，其指示搜索查询222(例如第一文本)要校正的部分。例如，用户可以选择搜索查询222的要校正的一个或多个单词。在一些示例中，用户200可以在该部分上敲击，例如，包括触摸屏设备的计算设备202。

图2B描绘了搜索查询222的要校正的部分230。在所描绘的示例中，用户200选择要校正的单词[Madonna]。

图2C描绘了用户200重新讲出部分230。在所描绘的示例中，用户200提供第二语音232作为至搜索界面204的输入。在所描绘的示例中，第二语音232包括[Maradona]。在一些示例中，用户200可以拼写出要校正的部分230。在图2A-2C的示例中，用户200可以拼写出第二文本232，例如，“M-A-R-A-D-O-N-A”。在一些示例中，计算设备202使用麦克风记录第二语音232，并且生成将第二语音232作为音频数据存储的一个或多个数据文件，例如.wav文件、.mp3文件。在一些实施方式中，计算设备202将第二语音232提供至搜索系统。在一些示例中，第二语音232被自动地提供至搜索系统，例如，不要求用户选择搜索按钮208。

在一些实施方式中，并且如在本文中更详细地描述的，将第二语音232和第二语音232与要校正的部分相对应的指示(也称为校正指示)提供至语音识别系统。在一些示例中，第二语音232被语音识别系统处理以提供第二文本。在一些示例中，并且也响应于校正指示，语音识别系统使用第二语音识别引擎处理第二语音232以提供第二文本。在一些示例中，并且如在本文中更详细地描述的，第二语音识别引擎不同于第一语音识别引擎。

根据本公开的实施方式，基于第一文本和第二文本提供组合文本。在一些实施方式中，第一文本的该部分，例如在所描绘的示例中，将[Madonna]从第一文本删除并且被例如[Maradona]的第二文本代替以提供组合文本。在一些实施方式中，搜索系统从语音识别系统接收第二文本并且基于第一文本和第二文本提供组合文本。

现在参照图2D，并且在一些实施方式中，提供组合文本以用于在计算设备202上的显示。在一些示例中，搜索系统将组合文本传送至计算设备202。在一些示例中，组合文本在搜索框206中作为修正的搜索查询222'显示。在一些示例中，搜索系统将组合文本作为搜索查询处理以提供搜索结果，其至少一些被发送至计算设备202并且作为搜索结果240在搜索结果区域210中显示。在一些示例中，在计算设备202并显示搜索结果240之前，将修正的搜索查询222'显示给用户。例如，可以组合文本并且作为修正的搜索查询222'在搜索框206中显示，并且可以随后并显示搜索结果240，例如，在修正的搜索查询222'的显示和搜索结果240的显示之间可以存在时间滞后。

在一些实施方式中，并且如在图2A-2D的示例中描绘的，用户选择文本的要校正的部分，并且说出该校正，例如，选择[Madonna]并说出[Maradona]例如作为第二语音。在一些示例中，响应于对文本要校正的部分的用户选择，自动地激活计算设备的麦克风。在一些示例中，用户选择文本的要校正的部分，并且用户激活麦克风，例如，选择麦克风按钮212。

在一些实施方式中，代替重新讲出该要校正的部分，用户讲出向该要校正的部分提供上下文的短语。例如，并且继续图2A-2D的示例，代替说出[Maradona]或[M-A-R-A-D-O-N-A]，如上文描述的，用户可以说出[我的意思是那个足球运动员]，例如，作为第二语音，其向要校正的部分提供上下文。在一些示例中，该上下文可以被用于在该部分的潜在校正之间做出辨别，如在本文中更详细地描述的。

在一些实施方式中，要校正的部分未被用户明确地选择。在图2A-2D的示例中，用户选择单词[Madonna]，例如通过在计算设备的触摸屏上敲击[Madonna]。在一些示例中，并且代替选择部分，用户可以提供第二语音以提供该校正的上下文，处理该第二语音以确定要校正的部分，并且提供用于校正该部分的第二文本。例如，并且继续图2A-2D的示例，第二语音可以包括[不，我的意思是那个足球运动员]、[我的意思是Maradona]、[将Madonna改为Maradona]、或[删除Madonna]。据此，第二语音提供上下文来选择要校正的部分，并且可以用于在对该部分的潜在校正之间做出辨别，如在本文中更详细地描述的。在一些示例中，用户在提供第二语音之前激活麦克风，例如选择麦克风按钮212。

在一些实施方式中，在一部分要被校正的情况下自动地激活麦克风。例如，并且如上文讨论的，响应于对要校正的部分的用户选择，可以自动地激活麦克风。在一些示例中，在搜索查询被显示至用户之后可以自动地激活麦克风。以这种方式，用户可以提供第二语音，而不要求用户首先激活麦克风。

图3描绘了根据本公开的实施方式的示例语音识别系统300。示例语音识别系统300包括第一语音识别引擎302和第二语音识别引擎304。在一些示例中，语音识别系统300接收输入数据306，使用第一语音识别引擎302或第二语音识别引擎304处理输入数据306，并且提供输出数据308。在一些示例中，输入数据306被从搜索系统提供至语音识别系统300，并且语音识别系统300将输出数据提供至搜索系统。

在一些实施方式中，输入数据306包括由用户提供至搜索系统的第一语音的音频数据(语音数据)。参照图2A-2D的示例，输入数据306可以包括第一语音[给我看Maradona的图片]的音频文件。在一些示例中，第一语音识别引擎302处理输入数据306以提供输出数据308。在一些实施方式中，输出数据308是基于音频数据的第一文本。参照图2A-2D的示例，输出数据308可以包括包含例如[给我看Madonna的图片]的第一文本的文本文件。

在一些示例中，第一文本可以由第一语音识别引擎基于潜在文本的集合来选择。在一些示例中，基于与潜在文本相关联的相应置信度评分而从潜在文本的集合中选择第一文本。例如，并且使用图2A-2D的示例，可以处理第一语音以提供[给我看Madonna的图片]和[给我看Maradona的图片]。在本示例中，[给我看Madonna的图片]与第一置信度评分(例如95％)相关联，并且[给我看Maradona的图片]与第二置信度评分(例如92％)相关联。可以确定，第一置信度评分超过第二置信度评分。因此，选择[给我看Madonna的图片]作为第一文本。换句话说，可以选择在潜在文本的集合中具有最高的置信度评分的潜在文本作为第一文本。

在一些实施方式中，输入数据306包括由用户提供至搜索系统的第二语音的音频数据(部分语音数据)，以及校正指示。参照图2A-2D的示例，输入数据306可以包括第二语音[Maradona]的音频文件，以及校正指示。在一些示例中，第二语音识别引擎304处理输入数据306以提供输出数据308。例如，响应于输入数据306包括校正指示，将第二语音识别引擎304用于处理该音频数据。在一些实施方式中，输出数据308是基于该音频数据的第二文本。参照图2A-2D的示例，输出数据308可以包括包含例如[Maradona]的第二文本的文本文件。

在一些实施方式中，第一语音识别引擎302不同于第二语音识别引擎304。在一些示例中，相对于第二语音识别引擎304，第一语音识别引擎302可以被用于使用的不那么严格的精确度阈值来提供语音数据的相对更迅速的处理。例如，相对于第二语音识别引擎304，第一语音识别引擎302可以实现更不复杂、更不精确的语音识别算法。以这种方式，相比于第二语音识别引擎304，第一语音识别引擎302可以相对更迅速地提供结果并且可以使用更少的例如处理器、存储器的资源。在一些示例中，相对于第一语音识别引擎302，第二语音识别引擎304可以被用于提供对部分语音数据的更精确的处理，例如更严格的精确度阈值。例如，相对于第一语音识别引擎302，第二语音识别引擎304可以实现更复杂的、更精确的语音识别算法。以这种方式，如果处理相同的音频数据的话，相比于第一语音识别引擎304，第二语音识别引擎304将相对更慢地提供结果并且可以使用更多的例如处理器、存储器的资源，。

在一些实施方式中，虽然第二语音识别引擎302是比第一语音识别引擎304更复杂的，但是提供结果的速度和用于提供结果的资源的量可以是相似的。例如，并且如在本文中更详细地描述的，第一语音识别引擎302可以正在处理比第二语音识别引擎304更多的音频数据，例如，第二语音识别引擎304正在仅处理原始提交的语音的部分。参照图2A-2D的示例，第一语音识别引擎302处理文本[给我看Maradona的图片]，而第二语音识别引擎304仅处理文本[Maradona]。

如上文描述的，第一语音识别引擎不同于第二语音识别引擎。在一些示例中，第二语音识别是不同的，因为第二语音识别包括第一语音识别引擎，以及用于处理第二语音的附加的功能和/或不同的参数。也就是说，并且在一些示例中，第二语音识别引擎是第一语音识别以及用于处理第二语音的附加的功能和/或不同的参数。

在一些实施方式中，处理第二语音以提供潜在文本的集合，可以根据其确定第二文本。在一些示例中，从对基于第二语音所提供的潜在文本的集合的选择中排除包括在第一文本中的文本。例如，从对潜在文本的集合的选择中排除文本的要校正的部分。继续图2A-2D的示例，第二语音可以包括[Maradona]，可以对其进行处理以提供包括[Madonna]和[Maradona]的潜在文本的集合，例如。因为[Madonna]已经包括在例如第一文本中并且经选择以用于校正，所以从对于第二文本的选择中排除[Madonna]。因此，选择潜在文本[Maradona]作为潜在文本。

在一些实施方式中，并且响应于第二语音，可以处理用于确定第一文本的潜在文本以使相应实体彼此相关联。在一些示例中，可以处理第二语音并且一个或多个实体可以与其相关联。在一些实施方式中，与第二语音相关联的实体可以与和潜在文本的集合中的潜在文本中的每一个相关联的实体进行比较。在一些示例中，选择具有至少一个实体的潜在文本，所述实体与和第二语音相关联的实体相匹配。

以示例的方式，并且使用图2A-2D的示例，可以处理第一语音以提供[给我看Madonna的图片]和[给我看Maradona的图片]作为潜在文本的集合中的潜在的文本。在一些示例中，[给我看Madonna的图片]可以与实体[歌手]、[女演员]、[制片人]、和[音乐家]等相关联，并且[给我看Maradona的图片]可以与实体[运动员]、[足球运动员]、和[踢足球的]等相关联。在一些示例中，第二语音被提供为[我的意思是那个足球运动员]，并且可以与实体[体育]、[足球]、和[足球运动员]相关联。可以确定，潜在文本和第二语音共同地具有实体[足球运动员]。因此，可以选择潜在文本[给我看Maradona的图片]作为校正的文本，例如组合文本。

在一些实施方式中，多个实体和与其相关联的信息可以作为结构数据存储在知识图中。在一些示例中，知识图包括多个节点和在节点之间的边。在一些示例中，节点代表实体，并且边代表实体之间的关系。在一些示例中，可以基于以域、类型、和性质为基础的结构数据的方案而提供知识图。在一些示例中，域包括共享命名空间的一个或多个类型。在一些示例中，提供命名空间作为唯一命名的对象的目录，其中命名空间中的每个对象具有唯一名称，例如，标识符。在一些示例中，类型表示关于话题的“是”关系，并且用于保存性质的集合。在一些示例中，话题代表诸如人、地点或事物的实体。在一些示例中，每个话题可以具有与其相关联的一个或多个类型。在一些示例中，性质与话题相关联并且定义该话题和该性质的值之间的“具有”关系。在一些示例中，该性质的值可以包括另一个话题。

图4描绘了根据本公开的实施方式的可以执行的示例过程400。示例过程400可以例如被图1的示例环境100实现，例如，搜索系统120和/或语音识别系统130。在一些示例中，示例过程400可以由使用一个或多个计算设备所执行的一个或多个计算机可执行程序来提供。

接收第一语音数据(402)。例如，搜索系统(例如图1的搜索系统120)从用户设备接收第一语音数据。接收基于第一语音数据的第一文本(404)。例如，搜索系统从语音识别系统(例如图1的语音识别系统130)接收第一文本。在一些示例中，搜索系统将第一语音数据提供至语音识别系统。提供第一文本以用于显示(406)。例如，搜索系统将用于显示的第一文本传送至用户设备，例如，将第一文本作为搜索查询在搜索界面的搜索框中显示。确定是否已经指示对第一文本的校正(408)。例如，搜索系统可以从用户设备接收校正指示。在一些示例中，可以响应于用户设备的用户选择第一文本的部分而提供校正指示。在一些示例中，可以响应于用户提供后续的语音输入而提供校正指示。如果未接收到校正指示，则提供搜索结果以用于显示(410)。例如，搜索系统可以确定对作为搜索查询的第一文本作出响应的搜索结果，并且可以提供该搜索结果以用于显示。

如果接收到校正指示，则第二语音数据(412)。例如，搜索系统从用户设备接收第二语音数据。基于第二语音数据的第二文本(414)。例如，搜索系统从语音识别系统第二文本。在一些示例中，搜索系统将第二语音数据提供至语音识别系统。提供组合文本以用于显示(416)。例如，搜索系统将用于显示的组合文本传送至用户设备，例如将组合文本作为修正的搜索查询显示在搜索界面的搜索框中。在一些示例中，搜索系统基于第一文本和第二文本提供组合文本。例如，该第一文本的要校正的部分可以被第二文本代替。在一些示例中，该第一文本的该部分是第一文本的整体。在一些示例中，该第一文本的该部分小于第一文本的整体。提供搜索结果以用于显示(410)。例如，搜索系统可以确定对作为修正的搜索查询的组合文本作出响应的搜索结果，并且可以提供该搜索结果以用于显示。

图4的示例过程400包括在已经提供了第一文本(例如，作为搜索查询)以用于显示之后，或在已经提供了组合文本(例如，作为已修正的搜索查询)以用于显示之后，提供搜索结果以用于显示。然而，设想搜索结果可以与第一文本或组合文本的显示相对同时地显示。例如，在一些实施方式中，第一文本和基于第一文本的搜索结果可以在确定是否对第一文本进行校正之前显示。

在本说明书中描述的主题内容的实施方式和操作可以在包括在本说明书中公开的结构和它们的结构等同物的数字电子电路中或在计算机软件、固件或硬件中，或在它们中的一个或多个的组合中实现。在本说明书中描述的主题的实施方式可以使用一个或多个计算机程序，即计算机程序指令的一个或多个模块来实现，所述一个或多个计算机程序在计算机存储介质上编码以用于由数据处理装置执行或用于控制数据处理装置的操作。替选地或另外地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光、或电磁信号，所述信号被生成以对用于向合适的接收器装置传输以用于由数据处理装置执行的信息进行编码。计算机存储介质可以是或被包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备、或它们中的一个或多个的组合中。此外，当计算机存储介质不是传播信号时，计算机存储介质可以是在人工生成的传播信号中编码的计算机程序指令的源或目的地。计算机存储介质也可以是或被包括在一个或多个分立的物理组件或介质(例如，多个CD、盘、或其他的存储设备)中。

在本说明书中描述的操作可以被实现为由数据处理装置对存储在一个或多个计算机可读的存储部设备上的数据或从其他源的数据所执行的操作。

术语“数据处理装置”涵盖用于处理数据的所有类型的装置、设备和机器，包括以示例方式的可编程处理器、计算机、芯片上系统、或前述的多个或组合。该装置可以包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括创建用于所讨论的计算机程序的执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机、或它们中的一个或多个的组合的代码。该装置和执行环境可以实现各种不同的计算模型基础架构，诸如web服务、分布式计算和网格计算基础架构。

计算机程序(也被称为程序、软件、软件应用、脚本、或代码)可以被以任何形式的编程语言编写，包括汇编或解释语言、说明性或过程语言，并且其可以被以任何形式部署，包括作为独立程序或作为模块、组件、子例程、对象、或适合于在计算环境中使用的其他单元。计算机程序可以但不需要，与文件系统中的文件相对应。程序可以被存储在保持其他程序或数据的文件的部分(例如，在标记语言文档中存储的一个或多个脚本)中，在专用于所讨论的程序的单个的文件中，或在多个协同文件(例如，存储一个或多个模块、子程序、或代码部分的文件)中。计算机程序可以被部署，以在一个计算机上、或在位于一个站点处或被跨多个站点分布并且被通信网络互连的多个计算机上执行。

在本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行，以通过对于输入数据进行操作并且生成输出来执行动作。所述过程和逻辑流也可以由例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)的专用逻辑电路来执行，并且装置也可以被实现为例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)的专用逻辑电路。

以示例方式，适合于执行计算机程序的处理器包括，通用微处理器和专用微处理器二者，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或二者接收指令和数据。计算机的元件可以包括用于执行根据指令的动作的处理器，和用于存储指令和数据的一个或多个存储器设备。通常，计算机将还包括或操作地耦合用于存储数据的一个或多个大量存储部设备，以从其接收数据或向其转移数据，或二者，例如，磁盘、磁光盘、或光盘。然而，计算机不需要具有这样的设备。此外，计算机可以被嵌入在另一个设备中，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或便携式存储设备(例如，通用串行总线(USB)闪速驱动)，仅举几个例子。适合于存储计算机程序指令和数据的设备包括所有的形式的非易失性存储器、介质、和存储器设备，以示例的方式包括半导体存储器设备(例如，EPROM、EEPROM、和闪速存储器设备)；磁盘(例如，内部硬盘或可移动盘)；磁光盘；和CD ROM和DVD-ROM盘。处理器和存储器可以被专用逻辑电路补充或被合并在专用逻辑电路中。

为了提供与用户的交互，在本说明书中描述的主题的实施方式可以被实现在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)，和用户可以通过其向计算机提供输入的键盘和指示设备(例如鼠标或轨迹球)的计算机上。也可以提供其他类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈、或触觉反馈；并且来自用户的输入可以被以任何形式接收，包括声学的、语音的、或触觉的输入。此外，计算机可以通过向用户使用的设备发送文档和从其接收文档来与用户交互；例如，通过响应于从web浏览器的请求而将网页发送至在用户的客户端设备上的该web浏览器。

在本说明书中描述的本主题的实施方式可以被实现在包括后端组件(例如作为数据服务器)、或包括中间件组件(例如应用服务器)、或包括前端组件(例如通过其用户可以与在本说明书中描述的主题的实施方式交互的具有图形用户界面或Web浏览器的客户端计算机)、或一个或多个这样的后端、中间件或前端组件的任何组合的计算系统中。系统的组件可以被例如通信网络数字数据通信的任何形式或介质互连，例如通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如，互联网)、和对等网络(例如，自组织对等网络)。

计算系统可以包括客户端和服务器。客户端和服务器通常是彼此远离并且通常通过通信网络交互的。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施方式中，服务器将数据(例如HTML页面)传送至客户端设备(例如，出于向与客户端设备交互的用户显示数据以及从其接收用户输入的目的)。在客户端设备处生成的数据(例如，用户交互的结果)可以在服务器处从客户端设备来接收。

虽然本说明书包含许多特定的实施方式细节，但是这些不应当被视为对本公开的任何实施方式或可以被要求保护的范围的限制，而是视为对特定于示例实施方式的特征的描述。在本说明书中以分立实施方式的场境所描述的特征，也可以在单个实施方式的组合中来实现。相反地，在单个实施方式的场境中所描述的各种特征也可以分立地实现在多个实施方式中，或在任何合适的子组合中。此外，虽然上文可能将特征描述为以某些组合来起作用，并且甚至初始也是这样要求保护的，但是来自要求保护的组合的一个或多个特征可以在某些情况下从该组合去除，并且该要求保护的组合可以指向子组合或子组合的变化。

相似地，虽然操作在附图中以特定的顺序描绘，但是这不应当被理解为要求这样的操作应当以所示出的特定的顺序或以相继的顺序执行，或所有所图示的操作应当被执行以实现期望的结果。在一些情况下，多任务和并行处理可以是有利的。此外，在上文描述的实施方式中的各种系统组件的分离不应当被理解为要求在所有的实施方式中的这样的分离，并且应当理解，所描述的程序组件和系统可以通常在单一的软件产品中被集成在一起或被封装到多个软件产品中。

因此，已经描述了本主题的特定实施方式。其他实施方式在以下权利要求的范围内。在一些情况下，在权利要求中记载的动作可以以不同的顺序来执行并且仍然实现期望的结果。此外，在附图中描绘的过程不一定要求所示出的特定的顺序或相继的顺序来实现期望的结果。在某些实施方式中，多任务和并行处理可以是有利的。

Claims

1.一种计算机实现的方法，所述方法包括：

提供第一文本以用于在用户的计算设备上显示，基于从所述计算设备接收的第一语音，所述第一文本从第一语音识别引擎被提供，并且作为搜索查询被显示；

从所述计算设备接收语音校正指示，所述语音校正指示用于指示所述第一文本中要被校正的部分；

从所述计算设备接收第二语音；

基于所述第二语音而从第二语音识别引擎接收第二文本，所述第二语音识别引擎不同于所述第一语音识别引擎；

使用所述第二文本代替所述第一文本的所述部分，以提供组合文本；以及

提供所述组合文本，以用于作为修正搜索查询在所述计算设备上显示。

2.根据权利要求1所述的方法，其中，所述部分包括所述第一文本的整体。

3.根据权利要求1所述的方法，其中，所述部分包括小于所述第一文本的整体。

4.根据权利要求1-3中任一项所述的方法，其中，所述第二语音识别引擎包括所述第一语音识别引擎和至少一个附加的功能。

5.根据权利要求4所述的方法，其中，所述至少一个附加的功能包括：基于与所述第一文本相关联的一个或多个实体，选择潜在的文本作为所述第二文本。

6.根据权利要求1-3中任一项所述的方法，还包括：

接收基于所述第一文本的第一搜索结果；以及

提供所述第一搜索结果，以用于在所述计算设备上显示。

7.根据权利要求6所述的方法，还包括：

接收基于所述第二文本的第二搜索结果；以及

提供所述第二搜索结果，以用于在所述计算设备上代替所述第一搜索结果来显示。

8.根据权利要求1-3中任一项所述的方法，其中，所述语音校正指示包括所述对第一文本的多个单词中至少一个单词的用户选择。

9.一种计算机实现的方法，所述方法包括：

从所述计算设备接收第二语音；

10.根据权利要求9所述的方法，其中，所述部分包括所述第一文本的整体。

11.根据权利要求9所述的方法，其中，所述部分包括小于所述第一文本的整体。

12.根据权利要求9至11中任一项所述的方法，其中，所述第二语音识别引擎包括所述第一语音识别引擎和至少一个附加的功能。

13.根据权利要求12所述的方法，其中，所述至少一个附加的功能包括：基于与所述第一文本相关联的一个或多个实体，选择潜在的文本作为所述第二文本。

14.根据权利要求9至11中任一项所述的方法，还包括：

接收基于所述第一文本的第一搜索结果；以及

提供所述第一搜索结果，以用于在所述计算设备上显示。

15.根据权利要求14所述的方法，其中所述操作还包括：

接收基于所述第二文本的第二搜索结果；以及

16.根据权利要求9至11中任一项所述的方法，其中，所述语音校正指示包括对所述第一文本的多个单词中的至少一个单词的用户选择。

17.一种计算机实现的系统，包括

用于提供第一文本以用于在用户的计算设备上显示的装置，基于从所述计算设备接收的第一语音，所述第一文本从第一语音识别引擎被提供，并且作为搜索查询被显示；

用于从所述计算设备接收语音校正指示的装置，所述语音校正指示用于指示所述第一文本中要被校正的部分；

用于从所述计算设备接收第二语音的装置；

用于基于所述第二语音而从第二语音识别引擎接收第二文本的装置，所述第二语音识别引擎不同于所述第一语音识别引擎；

用于使用所述第二文本代替所述第一文本的所述部分以提供组合文本的装置；以及

用于提供所述组合文本以用于作为修正搜索查询在所述计算设备上显示的装置。

18.根据权利要求17所述的系统，其中，所述部分包括所述第一文本的整体。

19.根据权利要求17所述的计算机实现的系统，其中，所述部分包括小于所述第一文本的整体。

20.根据权利要求17至19中任一项所述的计算机实现的系统，其中，所述第二语音识别引擎包括所述第一语音识别引擎和至少一个附加的功能。

21.根据权利要求20所述的计算机实现的系统，其中，所述至少一个附加的功能包括：基于与所述第一文本相关联的一个或多个实体，选择潜在的文本作为所述第二文本。

22.根据权利要求17至19中任一项所述的系统，包括：

用于接收基于所述第一文本的第一搜索结果的装置；以及

用于提供所述第一搜索结果以用于在所述计算设备上显示的装置。

23.根据权利要求22所述的计算机实现的系统，其中，所述操作还包括：

用于接收基于所述第二文本的第二搜索结果的装置；以及

用于提供所述第二搜索结果以用于在所述计算设备上代替所述第一搜索结果来显示的装置。

24.根据权利要求17至19中任一项所述的计算机实现的系统，其中，所述语音校正指示包括对所述第一文本的多个单词中至少一个单词的用户选择。

25.一种计算机实现的系统，包括

用于从所述计算设备接收第二语音的装置；

26.根据权利要求25所述的系统，其中，所述部分包括所述第一文本的整体。

27.根据权利要求25所述的计算机实现的系统，其中，所述部分包括小于所述第一文本的整体。

28.根据权利要求25至27中任一项所述的计算机实现的系统，其中，所述第二语音识别引擎包括所述第一语音识别引擎和至少一个附加的功能。

29.根据权利要求28所述的计算机实现的系统，其中，所述至少一个附加的功能包括：基于与所述第一文本相关联的一个或多个实体，选择潜在的文本作为所述第二文本。

30.根据权利要求25至27中任一项所述的系统，还包括：

用于接收基于所述第一文本的第一搜索结果的装置；以及

31.根据权利要求30所述的计算机实现的系统，其中，所述操作还包括：

用于接收基于所述第二文本的第二搜索结果的装置；以及

32.根据权利要求25至27中任一项所述的计算机实现的系统，其中，所述语音校正指示包括对所述第一文本的多个单词中至少一个单词的用户选择。