CN102915733A

CN102915733A - 交互式语音识别

Info

Publication number: CN102915733A
Application number: CN201210462722XA
Authority: CN
Inventors: M.S.B.塞加尔; M.M.拉扎
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2011-11-17
Filing date: 2012-11-16
Publication date: 2013-02-06
Also published as: WO2013074381A1; US20130132079A1

Abstract

一种交互式语音识别。可以获取与第一话语关联的第一多个音频特征。可以根据与所述音频特征关联的音频信号分析，获取与所述第一话语的第一语音到文本转化关联的第一文本结果，所述第一文本结果包至少一个第一单词。可以获取与关联于至少一个第一单词的第一语音到文本转化的至少第一部分相关的第一组音频特征。可以启动显示包括至少一个第一单词的第一文本结果的至少一部分。可接收指示第一语音到文本转化中错误的选择指示，所述错误与至少一个第一单词关联。

Description

交互式语音识别

背景技术

电子设备用户逐渐依赖于从因特网获取的信息作为新闻报道、评级、物品描述、公告、事件信息以及用户可能感兴趣的其他各类信息的来源。此外，用户逐渐依赖于自动语音识别系统减轻在针对诸如搜索、请求地图（map）、请求自动拨号电话呼叫和发短信（texting）等应用手动输入文本时遇到的困难。

发明内容

根据一个一般方面，一种有形地包含在计算机可读存储介质中的计算机程序产品可以包括能够使至少一个数据处理装置获取与第一话语（utterance）关联的音频数据的可执行代码。进一步地，所述至少一个数据处理装置可根据与所述音频数据关联的音频信号分析，通过设备处理器获取与所述第一话语的第一语音到文本转化关联的文本结果，所述文本结果包括多个对应于至少一个单词的可选文本替代。进一步地，所述至少一个数据处理装置可以启动显示包括文本替代中第一个的文本结果的至少一部分。进一步地，所述至少一个数据处理装置可以接收指示文本替代中第二个的选择指示。

根据另一方面，可以获取与第一话语关联的第一多个音频特征。可根据与所述音频特征关联的音频信号分析，获取与所述第一话语的第一语音到文本转化关联的第一文本结果，所述第一文本结果包括至少一个第一单词。可获取与关联于至少一个第一单词的第一语音到文本转化的至少第一部分相关的第一组音频特征。可启动显示包括至少一个第一单词的第一文本结果的至少一部分。可接收指示第一语音到文本转化中错误的选择指示，所述错误与至少一个第一单词关联。

根据另一方面，一种系统可以包括输入获取组件，所述组件获取与第一话语关联的第一多个音频特征。所述系统还可以包括语音转文本组件，所述组件根据与音频特征关联的音频信号分析，通过设备处理器获取与所述第一话语的第一语音到文本转化关联的第一文本结果，所述第一文本结果包括至少一个第一单词。所述系统还可以包括片段（clip）相关组件，所述组件获取第一多个音频特征的第一相关部分，所述第一相关部分与第一语音到文本转化到至少一个第一单词关联。所述系统还可以包括结果递送组件，所述组件启动输出第一文本结果和第一多个音频特征的第一相关部分。所述系统还可以包括校正请求获取组件，所述组件获取包括有关至少一个第一单词是第一语音到文本转化错误的指示，以及第一多个音频特征的第一相关部分的校正请求。

本发明内容以简单的形式介绍了一系列概念，这些概念将在具体实施方式中进一步描述。本发明内容不旨在识别所要保护的主题的关键特征或必要特征，不旨在用于限定所要保护的主题的范围。下面的附图和描述将阐述一个或多个实现细节。根据描述、附图以及权利要求，其他特征将变得显而易见。

附图说明

图1是用于交互式语音识别的系统实例的方框图。

图2a-2b是示出图1中系统的实例操作的流程图。

图3a-3b是示出图1中系统的实例操作的流程图。

图4 a-4c是示出图1中系统的实例操作的流程图。

图5描绘与图1中系统的实例交互。

图6描绘与图1中系统的实例交互。

图7描绘与图1中系统的实例交互。

图8描绘与图1中系统的实例交互。

图9描绘与图1中系统的实例交互。

图10a-10c描绘图1中系统的实例用户接口。

具体实施方式

当电子设备用户逐渐依赖于从设备本身或因特网获取的信息时，他们也在逐渐依赖于自动语音识别系统减轻在针对诸如搜索、请求地图、请求自动拨号电话呼叫和发短信等许多应用手动输入文本时遇到的困难。

例如，从用户角度来看，用户可能希望对着移动设备说出一个或多个单词并几乎立即通过该移动设备接收到结果。例如，移动设备可以在用户说出（多个）单词时接收语音信号，并且既可以在设备本身上处理语音信号，也可以将语音信号（或从语音信号提取的预处理的音频特征）发送到一个或多个其他设备（例如，后端服务器或“云”）进行处理。识别引擎然后可以识别信号并将相应文本发送到设备。如果所述识别引擎对用户话语的一个或多个单词进行错误分类（例如，返回用户所说的一个或多个单词的同音异义词或近同音异义词），则用户希望避免再次说出他/她之前话语的所有单词，或者避免说出不同的单词或短语以希望该识别能够通过不同的（多个）单词识别出用户的意图，或者避免再次手动输入文本来替代对语音识别的依赖。

此处讨论的实例技术可以根据音频片段与对应于由语音信号（例如，音频特征）对应的相关音频数据部分转化而来的各单词或短语的话语部分的关联来提供语音转文字识别。

此处讨论的实例技术可以提供带有语音转文本结果显示的用户接口，所述结果包括用于接收与不正确转化（即，错误分类）的单词或短语相关的用户输入的可选文本。根据一个实例实施例，用户可以触摸不正确转化的单词，并且可以接收不包括不正确转化的单词或短语的校正结果显示。

根据实例实施例，用户可以触摸不正确转化的单词，并且可以接收包括下面k个最可能的替代转化单词（而非不正确转化的单词）的校正结果显示。

根据实例实施例，用户可以触摸不正确转化的单词，并且可以接收显示下面k个最可能的替代转化单词（而非不正确转化的单词）的下拉菜单显示。

根据实例实施例，用户可以接收包括源自文本到语音转化的替代单词列表的转化结果显示，所述替代单词用圆括号或方括号之类的分隔符括住。用户可以随后选择正确的替代单词，并且可以接收底层应用的进一步结果（例如，搜索结果、地图结果，发送文本）。

根据实例实施例，用户可以利用初始转化和每个校正转化接收转化结果显示，所述转化结果可以包括底层应用的进一步结果（例如，搜索结果、地图结果）。

如在此进一步讨论的那样，图1是用于交互式语音识别的系统100的方框图。如图1所示，系统100可以包括交互式语音识别系统102，语音识别系统102包括可以获取与第一话语关联的第一多个音频特征106的输入获取组件104。例如，所述音频特征可以包括与可包括一个或多个单词的人类短语话语关联的音频信号。例如，所述音频特征可以包括与人类字母表字母话语（例如，人拼出一个或多个单词）关联的音频信号。例如，所述音频特征可以包括处理与话语关联的音频信号（例如，从模拟信号到数值化数字形式的处理）所得到的音频数据，所述音频数据还能被压缩以用于保存，或者用于网络上的轻型传输。

根据实例实施例，交互式语音识别系统102可以包括能够存储在计算机可读存储介质中的可执行指令，如下所论述。根据一个实例实施例，所述计算机可读存储介质可以包括任何数量的存储设备，以及任何数量的存储介质类型，包括分布式设备。

例如，实体存储库（repository）108可以包括一个或多个数据库，并且可通过数据库接口组件110进行访问。数据处理领域的技术人员将理解，存在许多用于存储此处所述存储库信息的技术，例如各类数据库配置（例如，SQL SERVERS）和非数据库配置。

根据实例实施例，交互式语音识别系统102可以包括存储第一多个音频特征106的存储器112。在此上下文中，“存储器”可以包括被配置为存储数据和/或指令的单个存储器设备或多个存储器设备。进一步地，存储器112可以跨多个分布式存储设备。

根据实例实施例，用户接口组件114可以管理用户116和交互式语音识别系统102之间的通信。用户116可以与接收设备118关联，接收设备118可以与显示器120和其他输入/输出设备关联。例如，显示器120可以被配置为通过内部设备总线通信或通过至少一个网络连接与接收设备118通信。

根据实例实施例，交互式语音识别系统102可以包括网络通信组件122，该组件可以管理交互式语音识别系统102和能够通过至少一个网络124与交互式语音识别系统102通信的其他实体之间的网络通信。例如，该至少一个网络124可以包括因特网、至少一个无线网络或至少一个有线网络中的至少一个。例如，至少一个网络124可以包括蜂窝网络、无线电网络或任何支持交互式语音识别系统102的数据传输的网络类型。例如，网络通信组件122可以管理交互式语音识别系统102和接收设备118之间的网络通信。例如，网络通信组件122可以管理用户接口组件114和接收设备118之间的网络通信。

根据实例实施例，交互式语音识别系统102可以与接收设备118直接通信（图1未示出），而非通过网络124执行（如图1所示）。例如，交互式语音识别系统102可以驻留在一个或多个后端服务器上，或者驻留在桌面设备或移动设备上。例如，尽管图1未示出，但是用户116可以与接收设备118直接交互，接收设备118可以承载至少一部分交互式语音识别系统102、至少一部分设备处理器128和显示器120。根据实例实施例，系统100的各部分可以作为多个设备上的分布式模块操作，也可以通过一个或多个网络或连接与其他部分通信，或者可以托管在单个设备上。

语音转文本组件126可以根据与音频特征106关联的音频信号分析，通过设备处理器128获取与第一话语的第一语音到文本转化132关联的第一文本结果130，第一文本结果130包括至少一个第一单词134。例如，可以通过语音识别操作，通过语音识别系统136获取第一语音到文本转化132。例如，语音识别系统136可以驻留在与交互式语音识别系统102的其他组件相同的设备上，或者可以通过网络连接与交互式语音识别系统102通信。

在本上下文中，“处理器”可以包括被配置为处理与处理系统关联的指令的单个处理器或多个处理器。因此，处理器可以包括多个以并行和/或分布的方式处理指令的处理器。尽管在图1中将设备处理器128描绘为交互式语音识别系统102的外部处理器，但是数据处理领域的技术人员将理解，设备处理器128可以实现为单个组件，或者实现为位于交互式语音识别系统102和/或其任何元件内部或外部的分布式单元。

片段相关组件138可以获取第一多个音频特征106的第一相关部分140，所述相关部分与第一语音到文本转化132到至少一个第一单词134关联。例如，用户116发出的诸如多单词短语“ONE MICROSOFT WAY”的街道地址的话语可以与音频特征关联，所述音频特征包括与“ONE”话语关联的第一组音频特征，与“MICROSOFT”话语关联的第二组音频特征，与“WAY”话语关联的第三组音频特征。由于这三个单词话语可以按顺序产生，因此所述第一、第二和第三组音频特征可以基于这三组当中基本不重叠的定时间隔。对于该实例，片段相关组件138可以获取第一相关部分140（例如，第一组音频特征），所述相关部分与第一语音到文本转化132到至少一个第一单词134关联（例如，第一组音频特征106的第一语音到文本转化132部分，与“ONE”话语关联）。

结果递送组件142可以启动输出第一文本结果130和第一多个音频特征106的第一相关部分140。例如，第一文本结果130可以包括指示“WON”是同音异义词“ONE”话语的语音到文本转化的第一单词134。例如，“WON”和“ONE”均可与关联于“ONE”话语的第一组音频特征相关。对于该实例，结果递送组件142可以启动输出文本结果130和相关部分140（例如，与“ONE”话语关联的第一组音频特征）。

校正请求获取组件144可以获取包括至少一个第一单词是第一语音到文本转化错误的指示，以及音频特征的第一相关部分140的校正请求146。例如，校正请求获取组件144可以获取包括“WON”是第一语音到文本转化错误的指示，以及相关部分140（例如，与“ONE”话语关联的第一组音频特征）的校正请求146。

根据实例实施例，搜索请求组件148可以根据与第一话语的第一语音到文本转化132关联的第一文本结果130启动第一搜索操作。例如，搜素请求组件148可以将搜索请求150发送到搜索引擎152。例如，如果第一文本结果130包括“WON MICROSOFT WAY”，则可以针对“WON MICROSOFT WAY”请求搜索。

根据实例实施例，结果递送组件142可以启动输出带有所述第一搜索操作的结果154的第一文本结果130和第一多个音频特征106的第一相关部分140。例如，结果递送组件142可以启动输出与“WON MICROSOFT WAY”关联的带有搜索结果的第一文本结果130。

根据实例实施例，语音转文本组件126可以根据与第一多个音频特征106关联的音频信号分析，通过设备处理器128获取与第一话语的第一语音到文本转化132关联的第一文本结果130，第一文本结果130包括多个文本替代156，至少一个第一单词134包括在所述多个第一文本替代156中。例如，用户116发出的诸如多单词短语“ONE MICROSOFT WAY”街道地址的话语可以与音频特征关联（相关），所述音频特征包括与“ONE”话语关联的第一组音频特征，与“MICROSOFT”话语关联（相关）的第二组音频特征，与“WAY”话语关联（相关）的第三组音频特征。例如，多个文本替代156（例如，与 “ONE” 话语关联的音频特征转化）可以包括同音异义词或近同音异义词“WON”、“ONE”、“WAN”和“EUN”。

根据实例实施例，与第一语音到文本转化132到至少一个第一单词134关联的第一多个音频特征106的第一相关部分140与多个第一文本替代156关联。对于“ONE MICROSOFT WAY”实例，第一相关部分140可以包括与“ONE”话语关联的第一组音频特征。因此，该实例第一相关部分140可以与多个第一文本替代156或“WON”、“ONE”、“WAN”和“EUN”关联。

根据实例实施例，多个第一文本替代156中的每个替代与指示文本到语音转化正确概率的相应转化分数158关联。例如，语音识别系统136可以执行与“ONE MICROSOFT WAY”话语关联的音频特征106的文本转语音分析，并且可以提供短语中包括的三个单词中每个单词的文本替代。例如，每个替代可以与指示特定关联替代为音频特征106的相关部分140的“正确”文本到语音转化的概率的转化分数158关联。根据实例实施例，可以提供具有最高转化分数158的（多个）替代作为第一单词134（例如，针对面向用户116的第一显示，或针对第一搜索请求）。

根据实例实施例，至少一个第一单词134可以与指示多个第一文本替代156当中最高文本到语音转化正确概率的第一转化分数158关联。

根据实例实施例，输出第一文本结果130包括输出多个第一文本替代156和相应转化分数158。例如，结果递送组件142可以启动输出第一文本替代156和相应转化分数158。

根据实例实施例，结果递送组件142可以启动输出第一文本结果130、第一多个音频特征106的第一相关部分140，以及至少一部分相应转化分数158。对于“ONE MICROSOFT WAY”实例用户话语，结果递送组件142可以启动输出“WON MICROSOFT WAY”以及每个单词的替代（例如，“WON”、“ONE”、“WAN”、“EUN”- 以及“WAY”、“WEIGH”、“WHEY”）、第一多个音频特征106的相关部分（例如，与“ONE”话语关联的第一组音频特征以及与“WAY”话语关联的第三组音频特征），以及它们的相应转化分数（例如，“WON”的分数为0.5，“ONE”的分数为0.4，“WAY”的分数为0.4，“WEIGH”的分数为0.3）。

根据实例实施例，校正请求获取组件144可以获取校正请求146，其包括有关至少一个第一单词134是第一语音到文本转化错误的指示，以及第一多个音频特征106的一个或多个第一相关部分140，以及至少一部分相应转化分数158或与第二话语关联的第二多个音频特征106，该第二话语对应于与基于至少一个第一单词134的第一语音到文本转化错误的校正关联的言语输入。例如，校正请求146可以包括有关“WON”是第一语音到文本转化错误的指示，以及第一相关部分140（例如，与“ONE”话语关联的第一组音频特征），以及相应转化分数158（例如，“WON”的分数为0.5，“ONE”的分数为0.4）。例如，校正请求146可以包括有关“WON”是第一语音到文本转化错误的指示，以及与“ONE”的另一话语关联的第二多个音频特征106，作为校正话语。

图2是示出根据实例实施例的图1中系统的实例操作的流程图。在图2a的实例中，可以获取与第一话语关联的第一多个音频特征(202)。例如，输入获取组件104可以获取与第一话语关联的第一多个音频特征106，如上所述。

可以根据与音频特征关联的音频信号分析，获取与第一话语的第一语音到文本转化关联的第一文本结果，所述第一文本结果包括至少一个第一单词(204)。例如，可以根据与音频特征106关联的音频信号分析，通过设备处理器128获取与所述第一话语的第一语音到文本转化132关联的第一文本结果130，第一文本结果130包括至少一个第一单词134，如上所述。

可以获取与第一语音到文本转化到至少一个第一单词关联的第一多个音频特征的第一相关部分(206)。例如，片段相关组件138可以获取与第一语音到文本转化132到至少一个第一单词134关联的第一多个音频特征106的第一相关部分(140)，如上所述。

可以启动输出第一文本结果和第一多个音频特征的第一相关部分(208)。例如，结果递送组件142可以启动输出第一文本结果130和第一多个音频特征106的第一相关部分140，如上所述。

可以获取包括有关至少一个第一单词是第一语音到文本转化错误的指示，以及第一多个音频特征的第一相关部分的校正请求(210)。例如，校正请求获取组件144可以获取包括有关至少一个第一单词是第一语音到文本转化错误的指示，以及音频特征的第一相关部分140的校正请求146，如上所述。

根据实例实施例，可以根据与第一话语的第一语音到文本转化关联的第一文本结果，启动第一搜索操作(212)。例如，搜索请求组件148可以根据与第一话语的第一语音到文本转化132关联的第一文本结果130启动第一搜索操作，如上所述。

根据实例实施例，可以启动输出带有所述第一搜索操作结果的第一文本结果和第一多个音频特征的第一相关部分(214)。例如，结果递送组件142可以启动输出带有所述第一搜索操作结果154的第一文本结果130和第一多个音频特征106的第一相关部分140，如上所述。

在图2b中，根据实例实施例，可以根据与第一多个音频特征关联的音频信号分析，获取与第一话语的第一语音到文本转化关联的第一文本结果，所述第一文本结果包括多个文本替代，至少一个第一单词包括在所述多个第一文本替代中(216)。例如，语音转文本组件126可以根据与第一多个音频特征106关联的音频信号分析，通过设备处理器128获取与第一话语的第一语音到文本转化132关联的第一文本结果130，第一文本结果130包括多个文本替代156，至少一个第一单词134包括在多个第一文本替代156中，如上所述。

根据实例实施例，与第一语音到文本转化到至少一个第一单词关联的第一多个音频特征的第一相关部分与多个第一文本替代关联(218)。例如，与第一语音到文本转化132到至少一个第一单词134关联的第一多个音频特征106的第一相关部分140与多个第一文本替代156关联，如上所述。

根据实例实施例，多个第一文本替代中的每个替代可以与指示文本到语音转化正确概率的相应转化分数关联(220)。例如，多个第一文本替代156中的每个替代与指示文本到语音转化正确概率的相应转化分数158关联，如上所述。

根据实例实施例，至少一个第一单词可以与指示多个第一文本替代当中最高文本到语音转化正确概率的第一转化分数关联。根据实例实施例，输出第一文本结果可以包括输出多个第一文本替代和相应转化分数(222)，例如，至少一个第一单词134可以与指示多个第一文本替代156当中最高文本到语音转化正确概率的第一转化分数158关联，如上所述。例如，输出第一文本结果130可以包括输出多个第一文本替代156和相应转化分数158，如上所述。

根据实例实施例，可以启动输出第一文本结果、第一多个音频特征的第一相关部分，以及至少一部分相应转化分数(224)。例如，结果递送组件142可以启动输出第一文本结果130、第一多个音频特征106的第一相关部分140，以及至少一部分相应转化分数158，如上所述。

根据实例实施例，可以获取校正请求，其包括有关至少一个第一单词是第一语音到文本转化错误的指示，以及第一多个音频特征的一个或多个第一相关部分，以及至少一部分相应转化分数或与第二话语关联的第二多个音频特征(226)，该第二话语对应于与基于至少一个第一单词的第一语音到文本转化错误的校正关联的言语输入。例如，校正请求获取组件144可以获取包括有关至少一个第一单词134是第一语音到文本转化错误的指示，以及第一多个音频特征106的第一相关部分140的一个或多个，以及至少一部分相应转化分数158或与第二话语关联的第二多个音频特征106，该第二话语对应于与基于至少一个第一单词134的第一语音到文本转化错误的校正关联的言语输入，如上所述。

图3是示出根据实例实施例的图1中系统的实例操作的流程图。在图3a的实例中，可以获取与第一话语关联的音频数据(302)。例如，输入获取组件104可以获取与第一话语关联的音频数据，如上所述。

可以根据与音频数据关联的音频信号分析，获取与第一话语的第一语音到文本转化关联的文本结果，所述文本结果包括多个对应于至少一个单词的可选文本替代(304)。例如，语音转文本组件126可以根据与音频特征106关联的音频信号分析，通过设备处理器128获取与第一话语的第一语音到文本转化132关联的第一文本结果130，如上所述。

可以启动显示包括文本替代中的第一个的文本结果的至少一部分(306)。例如，可通过显示器120上的接收设备118启动显示。

可以接收指示文本替代中第二个的选择指示(308)。例如，可以通过接收设备118接收所述选择指示，如下面进一步描述的那样。

根据实例实施例，所述获取文本结果可以包括通过设备处理器根据基于文本替代的第一个的搜索查询获取搜索结果(310)。例如，可以在接收设备118上接收文本结果130和搜索结果154，如下面进一步描述的那样。例如，结果递送组件142可以启动输出带有第一搜索操作的结果154的第一文本结果130，如上所述。

在图3b中，根据实例实施例，音频数据可以包括根据基于第一话语获取的音频信号的定量分析，或基于第一话语获取的音频信号，确定的一个或多个音频特征(312)。

根据实例实施例，可以根据基于文本替代中的第二个的搜索查询获取搜索结果(314)。例如，可以在接收设备118上接收搜索结果154，如下面进一步描述的那样。例如，搜索请求组件148可以根据文本替代中的第二个启动搜索操作。

根据实例实施例，可以启动显示搜索结果的至少一部分(316)。例如，可以通过显示器120上的接收设备118启动显示搜索结果154的至少一部分，如下面进一步描述的那样。

根据实例实施例，所述获取与第一话语的第一语音到文本转化关联的文本结果可以包括获取与第一话语的第一语音到文本转化的转化部分到文本替代中的第二个相关的第一段音频数据，以及多个转化分数，其中所述多个可选文本替代中的每个替代与指示文本到语音转化正确概率的转化分数中相应的一个关联。根据实例实施例，文本替代中的第一个与指示多个可选文本替代当中最高文本到语音转化正确概率的第一转化分数关联(318)。

根据实例实施例，可以启动传输指示文本替代中第二个的选择指示和音频数据的第一部分(320)。例如，接收设备118可以启动将指示文本替代中的第二个的选择指示和音频数据的第一部分传输到交互式语音识别系统102。例如，接收设备118可以启动将校正请求146传输到交互式语音识别系统102。

根据实例实施例，所述启动显示包括文本替代中的第一个的文本结果的至少一部分可以包括启动显示以下一项或多项：由文本分隔符分隔的列表、下拉列表，或者包括与弹出显示框中至少文本替代中的第二个的显示关联的可选链接的文本替代中的第一个的显示(322)。

图4是示出根据实例实施例的图1中系统的实例操作的流程图。在图4a的实例中，可以获取与第一话语关联的第一多个音频特征(402)。例如，输入获取组件104可以获取与第一话语关联的第一多个音频特征106，如上所述。

可以根据与音频特征关联的音频信号分析获取与第一话语的第一语音到文本转化关联的第一文本结果，所述第一文本结果包括至少一个第一单词(404)。例如，语音转文本组件126通过设备处理器128获取第一文本结果130，如上所述。例如，接收设备118例如可以通过结果递送组件142从交互式语音识别系统102接收第一文本结果130。

可以获取与至少一个第一单词关联的第一语音到文本转化的至少第一部分相关的第一组音频特征(406)。例如，片段相关组件138可以获取与第一语音到文本转化132到至少一个第一单词134关联的第一多个音频特征106的第一相关部分(140)，如上所述。例如，接收设备118例如可以通过结果递送组件142从交互式语音识别系统102获取与至少一个第一单词关联的第一语音到文本转化的至少第一部分。

可以启动显示包括至少一个第一单词的第一文本结果的至少一部分(408)。例如，接收设备118可以启动显示，如下面进一步描述的那样。

可以接收指示第一语音到文本转化中错误的选择指示，所述错误与至少一个第一单词关联(410)。例如，接收设备118可以启动显示，如下面进一步讨论的那样。例如，校正请求获取组件144可以通过校正请求146获取选择指示，如上所讨论的那样。

根据实例实施例，第一话语的第一语音到文本转化可以包括第一话语的非特定人语音识别转化(412)。

在图4b中，根据实例实施例，可以根据指示错误的选择指示和第一话语的第一语音到文本转化的分析获取第二文本结果(414)。例如，语音转文本组件126可以获取第二文本结果。例如，结果递送组件142可以启动输出第二文本结果。例如，接收设备118可以获取第二文本结果。

根据实例实施例，可以启动传输指示第一语音到文本转化中错误的选择指示，以及与关联于至少一个第一单词的第一语音到文本转化的至少第一部分相关的音频特征集(416)。例如，接收设备118可以启动到交互式语音识别系统102的传输。

根据实例实施例，可以接收指示第一语音到文本转化中错误的选择指示，所述错误与至少一个第一单词关联，可以包括以下一项或多项：接收有关用户触摸至少一个第一单词显示的指示，根据包括至少一个第一单词的替代列表的显示接收用户选择指示，根据与至少一个第一单词关联的一个或多个替代的下拉菜单的显示接收用户选择指示，或者根据与至少一个第一单词关联的一个或多个替代显示的弹出窗口显示接收用户选择指示(418)。例如，接收设备118可以从用户116处接收选择指示，如下面进一步讨论的那样。例如，输入获取组件104例如可以从接收设备118接收选择指示。

在图4c中，根据实例实施例，第一文本结果可以包括不同于至少一个单词的第二单词(420)。例如，第一文本结果130可以包括从音频特征106转化而来的多单词短语中的第二单词。例如，所述第二单词可以包括用户116输入的搜索查询的第二关键字的语音识别转化。

根据实例实施例，可以获取与关联于所述第二单词的第一语音到文本转化的至少第二部分相关的第二组音频特征，其中与至少一个单词相比，所述第二组音频特征基于第一话语中基本不重叠的定时间隔(422)。例如，所述第二组音频特征可以包括与关联于多单词短语中不同于至少一个单词的第二单词的用户话语的音频信号关联的音频特征。例如，多单词短语“ONE MICROSOFT WAY”的用户116的话语可以与音频特征关联，所述音频特征包括与“ONE”话语关联的第一组音频特征，与“MICROSOFT”话语关联的第二组音频特征，与“WAY”话语关联的第三组音频特征。由于这三个单词话语按顺序出现，因此所述第一、第二和第三组音频特征可以基于这三组当中3个基本不重叠的定时间隔。

根据实例实施例，可以获取与第二话语关联的第二多个音频特征，所述第二话语与关联于至少一个第一单词的错误校正关联的言语输入关联(424)。例如，用户116可以选择第一返回文本结果130中的单词进行校正，并且可以再次说出想说的单词作为第二话语。然后可以将与所述第二话语关联的第二多个音频特征发送到校正请求获取组件（例如，通过校正请求146）以便由交互式语音识别系统102进一步处理，如上所述。根据实例实施例，校正请求146可以包括有关至少一个第一单词不是第二多个音频特征的文本到语音转化候选的指示。

根据实例实施例，可以根据关联于第二多个音频特征的音频信号分析，获取与第二话语的第二语音到文本转化关联的第二文本结果，所述第二文本结果包括至少一个不同于第一单词的校正单词(426)。例如，接收设备118例如可以通过结果递送组件142从交互式语音识别系统102获取第二文本结果130。例如，可以响应于校正请求146来获取第二文本结果130。

根据实例实施例，可以启动传输指示第一文本到语音转化中错误的选择指示，以及与第二话语关联的第二多个音频特征(428)。例如，接收设备118可以启动将选择指示传输到交互式语音识别系统102。

图5描绘了与图1中系统的实例交互。如图5所示，交互式语音识别系统102可以从用户设备503（例如，接收设备118）获取音频特征502（例如，音频特征106）。例如，用户（例如，用户116）可以说出短语（例如，“ONE MICROSOFT WAY”），并且用户设备503可以接收此话语作为音频信号，所述音频信号可以由交互式语音识别系统102获取作为音频特征502，如上所述。

交互式语音识别系统102获取音频特征识别，并提供包括文本结果130的响应504。如图5所示，响应504包括相关音频片段506（例如，音频特征106的部分140）、文本字符串508以及与每个转化单词关联的转化概率510。例如，响应504可以由用户设备503获取。

根据实例实施例，如下所述，语音信号（例如，音频特征106）可以被发送到云处理系统进行识别。然后可以将识别的语句发送到用户设备。如果所述语句被正确识别，则用户设备503可以执行与应用有关的操作（例如，搜索地图）。数据处理领域的技术人员将理解，可以使用多种类型设备作为用户设备503。例如，用户设备503可以包括一个或多个移动设备、一个或多个桌面设备，或者一个或多个服务器。进一步地，交互式语音识别系统102可以驻留在后端服务器上，与用户设备503分离，或者可以整体地或部分地驻留在用户设备503上。

如果交互式语音识别系统102对一个或多个单词进行错误分类，则用户（例如，用户116）可以指示不正确识别的单词。错误分类的单词（或其指示符）可以被发送到交互式语音识别系统102。根据实例实施例，可以返回下一可能的单词（在淘汰不正确识别的单词之后），也可以将k个类似单词发送到用户设备503，具体取决于用户设置。在第一种情况下，如果单词是正确转化，则用户设备503可以执行所需动作，在第二种情况下，用户可以从类似发音单词中选择一个（例如，其中文本替代156中的一个）。

如图5所示，根据实例实施例，在给定从音频信号提取的特征S（例如，梅尔频率倒谱系数（MFCC），这是一个发音建模数学系数）的情况下，可使用“P(W|S)”概率分布表指示单词W的概率。

图6描绘了根据实例实施例的与图1中系统的实例交互。如图6所示，交互式语音识别系统102可以从用户设备503（例如，接收设备118）获取音频特征602（例如，音频特征106）。例如，用户（例如，用户116）可以说出短语（例如，“ONE MICROSOFT WAY”），并且用户设备503可以接收此话语作为音频信号，所述音频信号可以由交互式语音识别系统102获取作为音频特征602，如上所述。

交互式语音识别系统102获取音频特征识别，并提供包括文本结果130的响应604。如图6所示，响应604包括相关音频片段606（例如，音频特征106的部分140）、文本字符串608以及与每个转化的单词关联的转化概率610。例如，响应604可以由用户设备503获取。

系统发送识别的语句“WON MICROSOFT WAY”(608)之后，用户然后可以指示不正确识别的单词“WON”612。单词“WON”612然后可以由交互式语音识别系统102获取。交互式语音识别系统102然后可以提供包括相关音频片段616（例如，相关部分140）、下一可能的单词618（例如，“ONE”），以及与每个转化的单词关联的转化概率620的响应614；然而，不正确识别的单词“WON”可以从显示给用户的文本替代中省略。因此，用户设备503可以获取用户初始话语要表达的短语（例如“ONE MICROSOFT WAY”）。

图7描绘了与图1中系统的实例交互。如图7所示，交互式语音识别系统102可以从用户设备503（例如，接收设备118）获取音频特征702（例如，音频特征106）。如上所述，用户（例如，用户116）可以说出短语（例如，“ONE MICROSOFT WAY”），并且用户设备503可以接收此话语作为音频信号，所述音频信号可以由交互式语音识别系统102获取作为音频特征702。

交互式语音识别系统102获取音频特征702的识别，并提供包括文本结果130的响应704。如图7所示，响应704包括相关音频片段706（例如，音频特征106的部分140）、文本字符串708以及与每个转化单词关联的转化概率710。例如，响应704可以由用户设备503获取。

系统发送识别的语句“WON MICROSOFT WAY”(708)之后，用户然后可以指示不正确识别的单词“WON”712。单词“WON”712然后可以由交互式语音识别系统102获取。交互式语音识别系统102然后可以提供包括相关音频片段716（例如，相关部分140）、下面可能的单词718（例如，“ONE、WHEN、ONCE...”），以及与每个转化单词关联的转化概率720的响应714；然而，不正确识别的单词“WON”可以从显示给用户的文本替代中省略。因此，用户设备503然后可以选择其中一个单词并且可以执行他/她的所需动作（例如，搜索地图）。

根据实例实施例，交互式语音识别系统102可以为用户提供再次说出不正确识别的单词的选择。如果所需单词不包括在k个类似发音单词（例如，文本替代156）中，则此功能很有用。根据实例实施例，用户可以再次说出不正确识别的单词，如下面进一步讨论的那样。再次说出的单词的音频信号（或音频特征）以及指示不正确识别的单词（例如，“WON”）的标记然后可以被发送到交互式语音识别系统102。交互式语音识别系统102 然后可以识别单词并在给定信号S或k个可能的单词的情况下，将可能的单词W提供给用户设备503，如下面进一步讨论的那样。

图8描绘了与图1中系统的实例交互。如图8所示，交互式语音识别系统102可以从用户设备503（例如，接收设备118）获取音频特征802（例如，音频特征106）。如上所述，用户（例如，用户116）可以说出短语（例如，“ONE MICROSOFT WAY”），并且用户设备503可以接收此话语作为音频信号，所述音频信号可以由交互式语音识别系统102获取作为音频特征802。

交互式语音识别系统102获取音频特征802的识别，并提供包括文本结果130的响应804。如图8所示，响应804包括相关音频片段806（例如，音频特征106的部分140）、文本字符串808以及与每个转化单词关联的转化概率810。例如，响应804可以由用户设备503获取。

系统发送识别的语句“WON MICROSOFT WAY”(808)之后，用户然后可以指示不正确识别的单词“WON”，并且可以再次说出单词“ONE”。单词“WON”以及与再次说出的单词812关联的音频特征然后可以由交互式语音识别系统102获取。交互式语音识别系统102然后可以提供包括相关音频片段816（例如，相关部分140）、下一最可能的单词818（例如，“ONE”），以及与每个转化单词关联的转化概率820的响应814；然而，不正确识别的单词“WON”可以从显示给用户的文本替代中省略。

图9描绘了与图1中系统的实例交互。如图9所示，交互式语音识别系统102可以从用户设备503（例如，接收设备118）获取音频特征902（例如，音频特征106）。如上所述，用户（例如，用户116）可以说出短语（例如，“ONE MICROSOFT WAY”），并且用户设备503可以接收此话语作为音频信号，所述音频信号可以由交互式语音识别系统102获取作为音频特征902。

交互式语音识别系统102获取音频特征902的识别，并提供包括文本结果130的响应904。如图9所示，响应904包括相关音频片段906（例如，音频特征106的部分140）、文本字符串908以及与每个转化单词关联的转化概率910；然而，不正确识别的单词“WON”可以从显示给用户的文本替代中省略。例如，响应904可以由用户设备503获取。

系统发送识别的短语“WON MICROSOFT WAY”(908)之后，用户然后可以指示不正确识别的单词“WON”，并且可以再次说出单词“ONE”。单词“WON”以及与再次说出的单词912关联的音频特征然后可以由交互式语音识别系统102获取。交互式语音识别系统102然后可以提供包括相关音频片段916（例如，相关部分140）、下面k个最可能的单词918（例如，“ONE、WHEN、ONCE...”），以及与每个转化单词关联的转化概率920的响应914。这样，用户然后可以选择其中一个单词并且可以执行他/她的所需动作（例如，搜索地图）。

图10描绘了根据实例实施例的图1中系统的实例用户接口。如图10a所示，用户设备1002可以包括文本框1004和应用活动区域1006。如图10a所示，交互式语音识别系统102提供对“WON MICROSOFT WAY”话语的响应，所述响应可以在文本框1004中显示。根据实例实施例，用户然后可以根据选择技术选择不正确转化的单词（例如，“WON”），所述选择技术包括触摸不正确的单词或通过在不正确的单词上执行拖动来选择它。根据实例实施例，用户设备1002可以在显示应用活动区域1106中显示应用活动（例如，搜索结果）。例如，所述应用活动可以随着文本框1004中显示的每个文本字符串版本（例如，原始转化短语、校正的转化短语）进行修改。

如图10b所示，用户设备1002可以包括文本框1008和应用活动区域1006。如图10b所示，交互式语音识别系统102提供对“{WON、ONE} MICROSOFT {WAY、WEIGH}”话语的响应，所述响应可以在文本框1008中显示。因此，替代字符串列表在分隔符文本括号内显示（例如，替代“WON”和“ONE”），以便用户可以从每个列表选择正确的替代。

如图10c所示，用户设备1002可以包括文本框1010和应用活动区域1006。如图10c所示，交互式语音识别系统102提供对“WON MICROSOFT WAY”话语的响应，所述响应可以在文本框1010中显示，其中单词“WON”和“WAY”显示为文本替代下拉列表的下拉菜单。例如，与“WON”关联的下拉菜单可以显示为由菜单1012指示（例如，指示文本替代“WON”、“WHEN”、“ONCE”、“WAN”、“EUN”）。根据实例实施例，菜单1012还可以显示为响应于选择可选文本的弹出菜单，所述可选文本包括文本框1004或1008中的“WON”。

此处讨论的实例技术可以在校正请求中提供错误分类的单词，从而通过用户反馈提供系统学习，从可能的候选中删除先前尝试中返回的单词，从而提供识别精确性，降低系统负荷，并且降低首次尝试之后的转化尝试的带宽需求。

此处讨论的实例技术可以提供改进的识别精确性，因为会从将来考虑作为话语部分转化的候选中省略被用户识别为错误分类的单词。

此处讨论的实例技术可以通过发送错误分类的单词而非发送整个语句的语音信号来提供降低的系统负荷，其可以降低处理和带宽资源的负荷。

此处讨论的实例技术可以根据分段语音识别（例如，一次校正一个单词）提供识别精确性。

根据实例实施例，交互式语音识别系统102可以根据神经网络、隐马尔可夫模型、线性判别分析中的一项或多项，或者任何应用于识别语音的建模技术来利用识别系统。例如，可以使用Lawrence Rabiner和Biing-Hwang Juang所著的“Fundamentals of Speech Recognition（Prentice-Hall出版，1993年）”或Lawrence R. Rabiner所著的“A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition（发表于电子电气工程师协会(IEEE)会报，第77卷，No. 2，1989年）”中讨论的语音识别技术。

多年以来，线上环境一直注重客户隐私和保密性。因此，确定交互式语音到文本转化的实例技术可以使用通过与关联应用或服务的一个或多个订阅协议提供许可的用户所提供的数据。

此处描述的各种技术实现可以实现在数字电子电路，或计算机硬件、固件、软件，或者它们的组合中。所述实现可以被实施为计算机程序产品，即，有形地包含在信息载体中的计算机程序，例如，包含在机器可用或机器可读存储设备（例如，诸如通用串行总线（USB）存储设备、磁带、硬盘驱动器、紧致盘、数字视频盘（DVD）等之类的磁介质或数字介质）或传播信号中，以便由数据处理装置（例如，可编程处理器、计算机或多台计算机）执行或控制所述数据处理装置的操作。诸如上述（多个）计算机程序之类的计算机程序可通过包括编译语言或解释语言的任何形式的编程语言来编写，并且可通过任何形式来部署，其中包括部署为单独的程序或部署为模块、组件、子例程，或者适合于在计算环境中使用的其他单元。可实现上述技术的计算机程序可被部署为在一台计算机，或者位于一个站点或跨多个站点分布且通过通信网络互连的多台计算机上执行。

方法步骤可由执行计算机程序的一个或多个可编程处理器来执行，从而通过操作输入数据并产生输出来执行功能。所述一个或多个可编程处理器可以并行地执行指令，以及/或者可以通过分布式配置进行布置以执行分布式处理。所述方法步骤还可以由可实现为例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）的专用逻辑电路来执行并且装置可以实现为该专用逻辑电路。

适合于执行计算机程序的处理器例如包括通用和专用微处理器，以及任何类型的数字计算机的任何一个或多个处理器。一般而言，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机元件可以包括至少一个用于执行指令的处理器以及一个或多个用于存储指令和数据的存储设备。一般而言，计算机还可以包括一个或多个用于存储数据的海量存储设备，或者在操作上连接到所述一个或多个海量存储设备，以便从海量存储设备接收数据或向其传送数据或二者，所述海量存储设备例如包括磁盘、磁光盘或光盘。适合于承载计算机程序指令和数据的信息载体包括所有形式的非易失性存储器，例如其中包括诸如EPROM、EEPROM及闪存设备的半导体存储设备；诸如内置硬盘或可移动磁盘的磁盘；磁光盘；以及CD ROM和DVD-ROM盘。所述处理器和存储器可以附带专用逻辑电路或集成在专用逻辑电路中。

为了提供与用户的交互，可以在计算机上实施所述实现，该计算机具有诸如阴极射线管（CRT）或液晶显示屏（LCD）监视器的用于向用户显示信息的显示设备、以及用户向计算机提供输入所用的键盘和指点设备（例如，鼠标或轨迹球）。也可以使用其他类型设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈或触觉反馈；来自用户的输入可以通过任何形式接收，其中包括声学输入、语音输入或触觉输入。

所述实现可以在包括后端组件（例如，作为数据服务器）或包括中间件组件（例如，应用服务器）或包括前端组件（例如，具有用户与所述实现交互所用的图形用户接口或Web浏览器的客户端计算机），或此类后端、中间件或前端组件的任何组合的计算系统中实施。组件可以通过任何数字数据通信形式或介质（例如，通信网络）进行互连。通信网络实例包括局域网（LAN）和诸如因特网的广域网（WAN）。

尽管以特定于结构特征和/或方法行为的语言描述主题，但是需要理解，所附权利要求中定义的主题并不一定限于上述特定特征或行为。相反，公开上述特定特征和行为是作为实现权利要求的实例形式。尽管如此处描述的那样，已经示出所述实现的特定特征，但是本领域的技术人员将想打许多修改、替代、更改以及等价操作。因此将理解，所附权利要求旨在涵盖落在实施例范围内的所有此类修改和变化。

Claims

1.一种有形地包含在计算机可读存储介质中并包括可执行代码的计算机程序产品，所述可执行代码导致至少一个数据处理装置：

获取(302)与第一话语关联的音频数据；

根据与所述音频数据关联的音频信号分析，通过设备处理器(128)获取(304)与所述第一话语的第一语音到文本转化(132)关联的文本结果(130)，文本结果(130)包括多个对应于至少一个单词的可选文本替代(156)；

启动(306)显示包括文本替代(156)中第一个的文本结果(130)的至少一部分；以及

接收（308）指示文本替代(156)中第二个的选择指示。

2.根据权利要求1的计算机程序产品，其中所述可执行代码被配置为导致至少一个数据处理装置：

根据基于文本替代(156)中第二个的搜索查询获取(314)搜索结果(154)；以及

启动(316)显示搜索结果(154)的至少一部分。

3.一种方法，包括：

获取(402)与第一话语关联的第一多个音频特征(106)；

根据与音频特征(106)关联的音频信号分析，通过设备处理器(128)获取(404)与所述第一话语的第一语音到文本转化(132)关联的第一文本结果(130)，第一文本结果(130)包括至少一个第一单词(134)；

获取(406)与关联于至少一个第一单词(134)的第一语音到文本转化(132)的至少第一部分相关的第一组音频特征；

启动(408)显示包括至少一个第一单词(134)的第一文本结果(130)的至少一部分；以及

接收(410)指示第一语音到文本转化(132)中错误的选择指示，所述错误与至少一个第一单词(134)关联。

4.根据权利要求3的方法，其中：

所述第一话语的第一语音到文本转化(132)包括(412)所述第一话语的非特定人语音识别转化。

5.根据权利要求3的方法，进一步包括：

根据所述指示错误的选择指示和所述第一话语的第一语音到文本转化(132)的分析获取(414)第二文本结果。

6.根据权利要求3的方法，其中：

接收指示第一语音到文本转化(132)中错误的选择指示，其中所述错误与至少一个第一单词(134)关联，包括(418)以下一项或多项：

接收有关用户触摸至少一个第一单词显示的指示，

根据包括至少一个第一单词的替代列表显示接收用户选择指示，

根据与至少一个第一单词关联的一个或多个替代的下拉菜单显示接收用户选择指示，或者

根据与至少一个第一单词关联的一个或多个替代的显示的弹出窗口显示接收用户选择指示。

7.根据权利要求3的方法，进一步包括：

获取(424)与第二话语关联的第二多个音频特征(106)，所述第二话语与关联于至少一个第一单词(134)的错误校正关联的言语输入关联；以及

根据与第二多个音频特征(106)关联的音频信号分析，通过设备处理器(128)获取(426)与所述第二话语的第二语音到文本转化(132)关联的第二文本结果(130)，第二文本结果(130)包括至少一个不同于第一单词(134)的校正单词。

8.根据权利要求7的方法，进一步包括：

启动(428)传输指示第一语音到文本转化(132)中错误的选择指示，以及与所述第二话语关联的第二多个音频特征(106)。

9.一种系统，包括：

输入获取组件(104)，用于获取与第一话语关联的第一多个音频特征(106)；

语音转文本组件(126)，用于根据与音频特征(106)关联的音频信号分析，通过设备处理器(128)获取与所述第一话语的第一语音到文本转化(132)关联的第一文本结果(130)，第一文本结果(130)包括至少一个第一单词(134)；

片段相关组件(138)，用于获取第一多个音频特征(106)的第一相关部分(140)，所述第一相关部分与第一语音到文本转化(132)到至少一个第一单词(134)关联；

结果递送组件(142)，用于启动输出第一文本结果(130)和第一多个音频特征(106)的第一相关部分(140)；以及

校正请求获取组件(144)，用于获取包括有关至少一个第一单词是第一语音到文本转化错误的指示，以及第一多个音频特征(106)的第一相关部分(140)的校正请求(146)。

10.根据权利要求9的系统，进一步包括：

搜索请求组件(148)，用于根据与所述第一话语的第一语音到文本转化(132)关联的第一文本结果(130)启动第一搜索操作，其中：

结果递送组件(142)启动输出带有所述第一搜索操作的结果(154)的第一文本结果(130)和第一多个音频特征(106)的第一相关部分(140)。

11. 一个或多个存储指令的计算机可读存储介质，当由计算设备执行时，导致所述计算设备执行如权利要求3-8中任一项所述的方法。