CN105068987A

CN105068987A - 语音输入的字词级纠正

Info

Publication number: CN105068987A
Application number: CN201510420200.7A
Authority: CN
Inventors: M·J·勒鲍; W·J·伯恩; J·N·吉科夫; B·M·巴林格尔; T·克里斯简森
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2010-01-05
Filing date: 2011-01-05
Publication date: 2015-11-18
Anticipated expiration: 2031-01-05
Also published as: EP3318981A1; US20150294668A1; CA2977076A1; US20210295842A1; US9881608B2; CN108733655A; EP3318983A1; US20160163308A1; US9542932B2; US9263048B2; US20180114530A1; CA2786313A1; CA2977063A1; EP3318984A1; US20200251113A1; KR20130006596A; US9711145B2; US20170270926A1; WO2011084998A2; CN102971725A

Abstract

本发明的各实施例涉及语音输入的字词级纠正。可以在一种计算机实施的方法以及其它实施方式中实施本说明书的主题内容，其中该方法用于纠正转录的文字中的字词，该方法包括从麦克风接收语音音频数据。该方法还包括向转录系统发送语音音频数据。该方法还包括接收转录系统从语音音频数据转录的字词网格。该方法还包括呈现来自字词网格的一个或者多个转录的字词。该方法还包括接收呈现的转录的字词中的至少一个转录的字词的用户选择。该方法还包括呈现来自字词网格的用于所选转录的字词的一个或者多个替代字词。该方法还包括接收替代字词中的至少一个替代字词的用户选择。该方法还包括用所选替代字词取代呈现的转录的字词中的所选转录的字词。

Description

语音输入的字词级纠正

分案申请说明

本申请是于2011年1月5日提交的、于2012年8月9日进入中国国家阶段的、申请号为201180008973.4、名称为“语音输入的字词级纠正”的中国发明专利申请的分案申请。

相关申请的交叉引用

本申请要求对通过引用将内容结合于此、于2010年1月5日提交并且标题为“Word-LevelCorrectionofSpeechInput”的第61/292,440号美国临时申请以及于2010年10月27日提交并且标题为“Word-LevelCorrectionofSpeechInput”的第12/913,407号美国申请的优先权。

技术领域

本说明书涉及纠正从向计算设备的语音输入转录的文字中的一个或者多个字词。

背景技术

语音输入的转录是一种越来越流行的向计算设备中输入信息的方式。对于移动计算设备(比如移动电话和智能电话)而言甚至更是如此，其中可用于容用户进行用户输入的接口不如桌面型计算机中的用户接口(比如全尺寸键盘)那样易于操纵。例如一些移动计算设备使用最小硬件键盘(例如完全QWERTY键盘的子集)、虚拟/软件键盘(例如触屏键盘)或者甚至十二个键的电话键区(例如ITU-T文字录入)。通常，这些用户输入接口比传统桌面型用户接口更小，并且用户经常使用他们的拇指来键入或者在键入之时看一个键打一个字。这可以至少部分说明越来越多地使用向移动计算设备的语音输入。

发明内容

总体上，本文献描述纠正从向计算设备的语音输入转录的文字中的一个或者多个字词。在一些实施方式中，计算设备是无线移动设备(比如移动电话或者智能电话)。计算设备例如从用户接收语音输入并且向与计算设备分离的转录系统发送语音输入。转录系统转录语音输入并且向计算设备提供对应字词网格。计算设备允许用户使用来自字词网格的替代字词和/或短语对转录的文字中的一个或者多个字词进行纠正。

在第一方面中，一种用于纠正转录的文字中的字词的计算机实施的方法包括从移动计算设备中的麦克风接收语音音频数据。该方法还包括向转录系统发送来自移动计算设备的语音音频数据。该方法还包括在移动计算设备接收转录系统从语音音频数据转录的字词网格。该方法还包括在移动计算设备的显示器屏幕上呈现来自字词网格的一个或者多个转录的字词。该方法还包括在移动计算设备接收呈现的转录的字词中的至少一个转录的字词的用户选择。该方法还包括响应于接收转录的字词的用户选择，在显示器屏幕上呈现来自字词网格的用于所选转录的字词的一个或者多个替代字词。该方法还包括在移动计算设备接收替代字词中的至少一个替代字词的用户选择。该方法还包括响应于接收替代字词的用户选择，用所选替代字词取代呈现的转录的字词中的所选转录的字词。

实施方式可以包括以下特征中的任何、所有或者零个特征。该方法可以包括：响应于接收转录的字词的用户选择，在显示器屏幕上呈现用于所选转录的字词的去除命令；在移动计算设备接收去除命令的用户选择；并且响应于接收去除命令的用户选择，从呈现的转录的字词去除所选转录的字词。该方法可以包括：在显示器屏幕上呈现来自字词网格的用于呈现的转录的字词的至少一个替代短语；在移动计算设备接收替代短语的用户选择；并且响应于接收替代短语的用户选择，用所选替代短语取代呈现的转录的字词。该方法可以包括：响应于接收去除命令或者替代字词的用户选择，自动基于所选替代字词或者去除的转录的字词从字词网格选择至少一个新的替代短语；并且用新的替代短语取代呈现的替代短语。接收呈现的字词的用户选择和替代字词的用户选择可以包括通过移动计算设备的触屏接口接收呈现的字词的用户选择和替代字词的用户选择。字词网格可以包括与转录的字词和替代字词对应的节点、在节点之间的边，边标识经过字词网格的可能路径，并且每个路径可以具有路径正确的关联概率。该方法可以包括从字词网格中所选转录的字词的开始节点与结束节点之间的一个或者多个替代路径识别用于所选转录的字词的替代字词。该方法可以包括从字词网格中呈现的转录的字词的开始节点与结束节点之间的至少一个替代路径识别用于呈现的转录的字词的替代短语。

在第二方面中，一种在计算机可读介质上编码的计算机程序产品，可操作用于使一个或者多个处理器执行用于纠正转录的文字中的字词的操作，操作包括从移动计算设备中的麦克风接收语音音频数据。操作还包括向转录系统发送来自移动计算设备的语音音频数据。操作还包括在移动计算设备接收转录系统从语音音频数据转录的字词网格。操作还包括在移动计算设备的显示器屏幕上呈现来自字词网格的一个或者多个转录的字词。操作还包括在移动计算设备接收呈现的转录的字词中的至少一个转录的字词的用户选择。操作还包括响应于接收转录的字词的用户选择，在显示器屏幕上呈现来自字词网格的用于所选转录的字词的一个或者多个替代字词。操作还包括在移动计算设备接收替代字词中的至少一个替代字词的用户选择。操作还包括响应于接收替代字词的用户选择，用所选替代字词取代呈现的转录的字词中的所选转录的字词。

实施方式可以包括以下特征中的任何、所有或者零个特征。操作可以包括：响应于接收转录的字词的用户选择，在显示器屏幕上呈现用于所选转录的字词的去除命令；在移动计算设备接收去除命令的用户选择；并且响应于接收去除命令的用户选择，从呈现的转录的字词去除所选转录的字词。操作可以包括：在显示器屏幕上呈现来自字词网格的用于呈现的转录的字词的至少一个替代短语；在移动计算设备接收替代短语的用户选择；并且响应于接收替代短语的用户选择，用所选替代短语取代呈现的转录的字词。操作可以包括：响应于接收去除命令或者替代字词的用户选择，自动基于所选替代字词或者去除的转录的字词从字词网格选择至少一个新的替代短语；并且用新的替代短语取代呈现的替代短语。接收呈现的字词的用户选择和替代字词的用户选择可以包括通过移动计算设备的触屏接口接收呈现的字词的用户选择和替代字词的用户选择。字词网格可以包括与转录的字词和替代字词对应的节点、在节点之间的边，边标识经过字词网格的可能路径，并且每个路径可以具有路径正确的关联概率。操作可以包括从字词网格中所选转录的字词的开始节点与结束节点之间的一个或者多个替代路径识别用于所选转录的字词的替代字词。操作可以包括从字词网格中呈现的转录的字词的开始节点与结束节点之间的至少一个替代路径识别用于呈现的转录的字词的替代短语。

在第三方面中，一种用于纠正转录的文字中的字词的计算机实施的系统包括：转录系统，可操作用于接收语音音频数据并且作为响应将语音音频数据转录成字词网格。该系统还包括移动计算设备，移动计算设备包括：麦克风，可操作用于接收语音音频并且生成语音音频数据，网络接口，可操作用于向转录系统发送语音音频数据并且作为响应从转录系统接收字词网格，显示器屏幕，可操作用于呈现来自字词网格的一个或者多个转录的字词，用户接口，可操作用于接收转录的字词中的至少一个转录的字词的用户选择，一个或者多个处理器和存储指令的存储器，指令在由处理器执行时执行以下操作：在显示器屏幕上呈现来自字词网格的用于所选转录的字词的一个或者多个替代字词；接收替代字词中的至少一个替代字词的用户选择；并且用所选替代字词取代呈现的转录的字词中的所选转录的字词。

这里描述的系统和技术可以提供以下优点中的一个或者多个优点。首先，系统可以用最少用户输入(比如一个、两个或者三个用户输入)对转录的文字中的一个或者多个字词进行纠正。第二，系统可以提供在远程转录系统的对语音输入向文字的转录而在纠正转录的文字中的一个或者多个字词期间无或者最少的与远程转录系统的附加通信。第三，系统可以在具有有限输入接口(比如小型触屏)的计算设备中提供对转录的文字的纠正的高效用户选择。

在附图和下文描述中阐述一个或者多个实施方式的细节。根据说明书和附图并且根据权利要求书将清楚其它特征和优点。

附图说明

图1是示出了用于纠正转录的文字中的一个或者多个字词的系统的例子的示意图。

图2是示出了用于纠正转录的文字中的一个或者多个字词的移动计算设备的例子的框图。

图3A-B是用于纠正转录的文字中的一个或者多个字词的字词网格的例子。

图4A-D是用于纠正转录的文字中的一个或者多个字词的图形用户接口的例子。

图5是示出了用于纠正转录的文字中的一个或者多个字词的过程的例子的流程图。

图6示出了可以与在本文中描述的计算机实施的方法和系统结合使用的计算设备和移动计算设备的例子。

在各图中的相似标号指示相似要素。

具体实施方式

图1是示出了用于纠正转录的文字中的一个或者多个字词的系统100的例子的示意图。一般而言，系统允许用户的设备向服务器系统发送语音的音频数据并且让服务器系统发送回用于转录语音的可能解决方案的排列，从而如果第一建议解决方案不准确，则用户可以容易替换被服务器系统确定为其它可能解决方案的其它字词或者字词集。

系统100包括通过网络106与转录系统104通信的移动计算设备102。移动计算设备102从用户接收语音音频输入并且将语音音频转换成语音数据输出108。移动计算设备102通过网络106向转录系统104发送语音数据输出108。转录系统104将语音数据输108转录成多个字词并且在字词网格110中排列字词。字词网格110包括用于语音数据输出108转录的最可能或者最佳假设以及替代转录或者假设。转录系统104向移动计算设备102发送字词网格110。

移动计算设备102向用户呈现来自字词网格110的最可能转录。移动计算设备102然后从用户接收一个或者多个字词选择112、呈现用于所选字词的对应替代字词并且从用户接收一个或者多个替代选择114。字词选择112指示向用户呈现的转录的文字中的一个或者多个不正确转录的字词。在一些实施方式中，替代字词是用于不正确字词的下一最佳假设。响应于替代选择114，移动计算设备102用所选替代字词替换呈现的转录的文字中的不正确字词。

在一些实施方式中，移动计算设备102也呈现用于转录的文字的一个或者多个替代短语。例如替代短语可以是用于语音数据输出108或者语音数据输出108的包括多个字词的部分的转录的下一最佳假设。移动计算设备102可以从用户接收替代短语的选择并且用所选替代短语取代呈现的转录的文字的对应部分。

在一些实施方式中，移动计算设备102是移动电话或者智能电话并且包括有限的用户输入接口(比如小型QWERTY硬件键盘、小型触屏或者数字键区)。移动计算设备102使用无线连接(比如蜂窝电话数据连接、Wi-Fi连接或者可以用于向转录系统104发送数据和从转录系统104接收数据的其它无线连接)来接入网络106。

在一些实施方式中，网络106包括一个或者多个网络(比如局域网、广域网和/或因特网)。网络106中的一个或者多个网络可以是无线的(比如蜂窝电话网络或者Wi-Fi网络)。

转录系统104包括将语音数据输出108转录成字词网格110的语音识别器。一般而言，字词网格110包括用于语音数据输出108转录的多个假设。在一些实施方式中，字词网格110包括特定字词在转录的文字中出现于特定位置的一个或者多个加权因子或者概率。用于说话声转录的每个假设代表经过字词网格110的可能路径。在一些实施方式中，从假设中的一个字词向下一字词的分叉点依赖于假设中的其它字词。例如字词网格110中的特定字词可以具有依赖于假设中包括的其它字词的多个权值或者概率。此外，字词网格110可以包括用于字词网格110中包括的字词集或者来自字词网格110的字词的最可能组合的子集的所有可能假设。移动计算设备102选择通过字词网格110的最有可能路径，并且向用户呈现该假设。

图2是示出了用于纠正转录的文字中的一个或者多个字词的移动计算设备200的例子的框图。移动计算设备200包括负责呈现从用户说话声转录的文字并且用于接收一个或者多个用户输入以纠正转录的文字的字词纠正模块202。

具体而言，移动计算设备200包括从用户接收语音音频输入206的语音输入接口204。例如语音输入接口204可以是将来自用户的说话声中的声音转换成语音数据输出208的麦克风。语音输入接口204向字词纠正模块202传递语音数据输出208，并且字词纠正模块202向转录系统发送语音数据输出208。

转录系统对语音数据输出208执行语音识别操作以生成字词网格210。转录系统向移动计算设备200发送字词网格210。

字词纠正模块202接收字词网格210并且在显示器接口214中呈现来自字词网格210的转录的文字212。在一些实施方式中，显示器接口214是硬件显示器屏幕(比如液晶显示器(LCD)屏幕)。呈现的转录的文字212包括来自字词网格210的多个字词，并且转录的字词网格212包括待由用户纠正的一个或者多个字词。字词纠正模块202从用户接收转录的文字212中的不正确字词(即不是用户说出的字词)的选择216。字词纠正模块202通过用户输入接口218(比如触屏、跟踪球或者其它指示设备或者键盘)接收选择216。

字词纠正模块202呈现用于选择216的一个或者多个替代字词220。字词纠正模块202使用显示器接口214来显示替代字词220。字词纠正模块202通过用户输入接口218从用户接收呈现的替代字词之一的选择222。字词纠正模块202用从替代字词的选择222取代从转录的文字212的选择216并且在显示器接口214中向用户呈现更新的转录的字词。

图3A是用于纠正转录的字词中的一个或者多个字词的字词网格300的例子。这里呈现字词网格300为有限状态转录器。字词网格300包括与在字词之间的可能边界对应的一个或者多个节点302a-g。字词网格300包括用于由字词网格300产生的转录假设中的可能字词的多个边304a-I。此外，每个边304a-I可以具有该边是来自对应节点的正确边的一个或者多个权值或者概率。权值由转录系统确定并且可以例如基于在语音数据与用于该边的字词之间的匹配的置信度以及字词有多么好地在语法和/或词汇上与字词网格300中的其它字词相配。

例如起初，经过字词网格300的最可能路径可以包括具有文字“We’recomingabout11:30”的边304c、304e、304i和304k。第二最佳路径可以包括具有文字“deerhuntingscouts7:30”的边304d、304h、304j和304I。

每对节点可以具有与各种转录假设中的替代字词对应的一个或者多个路径。例如开始于节点302a并且结束于节点302c的在节点对之间的初始最可能路径是边304c“we’re”。这一路径具有包括边304a-b“weare”和边304d“deer”的替代路径。因而边304e“coming”具有包括边304f-g“comeat”和边304h“hunting”的替代字词。边304i“about”具有包括边304j“scouts”的替代字词，并且边304k“11:30”具有包括边304I“7:30”的替代字词。

图3B是用于纠正转录的文字中的一个或者多个字词的字词网格350的例子。字词网格350是分层次的。字词网格350包括多个节点352a-I，这些节点代表用于转录的文字的各种假设中的字词。在节点352a-I之间的边示出了可能假设包括节点352c、352e、352i和352k“we’recomingabout11:30”、节点352a、352b、352e、352i和352k“wearecomingabout11:30”、节点352a、352b、352f、352g、352i和352k“wearecomeatabout11:30”、节点352d、352f、352g、352i和352k“deercomeatabout11:30”、节点352d、352h、352j和352k“deerhuntingscouts11:30”以及节点352d、352h、352j和352I“deerhuntingscouts7:30”。

同样，在节点352a-I之间的边可以具有基于语音识别的置信度和所得文字的语法/词汇分析的关联权值或者概率。在这一例子中，“we’recomingabout11:30”目前可以是最佳假设，并且“deerhuntingscouts7:30”可以是次最佳假设。可以在字词网格350中进行将字词及其替代分组在一起的一个或者多个划分354a-d。例如划分354a包括字词“we’re”以及替代“weare”和“deer”。划分354b包括字词“coming”以及替代“comeat”和“hunting”。划分354c包括字词“about”和替代“scouts”，并且划分354d包括字词“11:30”和替代“7:30”。

随着用户从最佳假设选择字词用于纠正而从其它假设选择替代用于取代不正确字词，其它假设之一可以变成最佳假设。例如，如果用户选择“we’re”、然后选择替代“deer”以取代“we’re”，则“deerhuntingscouts7:30”可以变成最佳假设。

在一些实施方式中，字词纠正模块仅呈现和/或允许用户选择如下替代，存在从这些替代到转录的文字中的其它字词的边。例如，如果当前呈现“we’recomingabout11:30”作为最佳假设，则字词纠正模块可以呈现“weare”而不是“deer”作为用于“we’re”的替代，因为“deer”无如下边，该边连接到转录的文字的其余字词“…comingabout11:30”。字词“weare”具有通向“…comingabout11:30”的边，因此包含于“we’re”的替代列表中。在另一例子中，如果用户选择字词“coming”用于纠正，则字词纠正模块可以扩展选择以包括“we’recoming”、然后呈现包括“wearecomeat”和“deercomeat”的替代。

图4A是用于纠正转录的文字中的一个或者多个字词的GUI400的例子。GUI400可以与接收文字输入的应用(比如即时消息应用、电子邮件应用或者字处理器应用)关联。GUI400包括文字输入区域402和用于向文字输入区域402中输入文字的键盘404。在一些实施方式中，键盘404是触屏键盘。在一些实施方式中提供GUI400的计算设备可以包括用于向文字输入区域402中进行输入的物理键盘。此外，提供GUI400的计算设备可以接收发声或者语音输入。例如键盘404可以包括用于发起向文字输入区域402中的语音到文字输入的控件或者图标。字词纠正模块向转录系统发送接收的语音数据并且接收字词。

GUI400在文字输入区域402中呈现最佳假设“we’recomingabout11:30”。用户可以通过选择字词来请求纠正字词。例如用户可以通过在屏幕上按压来进行字词“we’re”的选择406。取而代之，GUI400可以具有用于选择文字输入区域402中的字词的关联指示设备或者其它导航控件。

GUI在替代短语控件408中呈现次最佳假设“Deerhuntingscouts7:30”。用户可以选择替代短语控件408以用替代短语控件408中所示文字取代文字输入区域402中的转录的文字。

图4B是用于纠正转录的文字中的一个或者多个字词的GUI420的例子。GUI420示出了来自字词网格的用于所选字词“we’re”的替代字词的列表422。列表422包括替代“weare”和“deer”。列表422也包括用于从文字输入区域402去除字词而未用替代取代它的去除控件。这里，用户对去除控件进行选择424以请求GUI420从文字输入区域402去除字词“we’re”。

图4C是用于纠正转录的文字中的一个或者多个字词的GUI440的例子。字词纠正模块已经更新GUI440以不再在呈现于文字输入区域402中的转录假设中包括字词“we’re”。此外，字词纠正模块已经基于文字输入区域402中的由于用户进行的纠正而产生的当前最佳假设来更新替代短语控件408以包括新的次最佳假设“Comeatabout11:30”。用户可以对替代短语控件408进行选择442以请求用“comeatabout11:30”取代文字输入区域402中的文字。

图4D是用于纠正转录的文字中的一个或者多个字词的GUI460的例子。字词纠正模块已经更新GUI460以包括通过用户选择替代短语控件408来请求的新的最佳转录假设“Comeatabout11:30”。

在一些实施方式中，字词纠正模块允许用户通过进行仅两个简单用户输入来纠正字词。例如用户可以触摸屏幕以选择不正确字词、然后第二次触摸屏幕以选择用于取代不正确字词的替代。

在一些实施方式中，字词选择模块可以响应于单个用户输入来纠正一个或者多个字词。例如用户可以选择替代短语控件408以用次最优假设取代最优假设。在另一例子中，当仅一个替代字词存在时，字词纠正模块可以自动响应于选择不正确字词来取代不正确字词而未提供替代列表。在又一例子中，当一个替代正确的概率明显大于其它替代时，字词纠正模块可以自动响应于选择不正确字词用最佳替代取代不正确字词而未提供替代列表。替代正确的概率明显更大可以例如包括概率接近百分之一百的最佳替代和概率接近零的其它替代或者概率比次最佳替代大若干倍的最佳替代。在一些实施方式中，对字词的长按可以指示应当从文字输入区域402和假设去除字词。取而代之，对不正确字词的长按可以指示对用次最佳替代取代不正确字词的请求。

图5是示出了用于纠正转录的文字中的一个或者多个字词的过程500的例子的流程图。过程500可以例如由系统(比如系统100、移动计算设备200、字词网格300和/或GUI400、420、440和460)执行。为了呈现清楚，下文描述使用系统100、移动计算设备200、字词网格300和/或GUI400、420、440和460作为用于描述过程500的例子的基础。然而另一系统或者系统组合可以用来执行过程500。

过程500开始于从移动计算设备中的麦克风接收(502)语音音频数据。例如用户可以向蜂窝电话或者智能电话上的麦克风中输入说话声。

过程500向转录系统发送(504)来自移动计算设备的语音音频数据。例如移动计算设备102可以向转录系统104发送语音数据输出108。

过程500在移动计算设备接收转录系统从语音音频数据转录的字词网格。例如移动计算设备200可以接收从语音数据输出208转录的字词网格210。

过程500在移动计算设备的显示器屏幕上呈现(508)来自字词网格的一个或者多个转录的字词。例如字词纠正模块202可以在GUI400中呈现转录的文字212。

如果过程500在移动计算设备接收(510)呈现的转录字词中的至少一个转录的字词的用户选择，则响应于接收转录的字词的用户选择，过程500在显示器屏幕上呈现(512)来自字词网格的用于所选转录的字词的一个或者多个替代字词。例如字词纠正模块202可以接收转录的字词“we’re”的选择406并且作为响应呈现替代字词的列表422。

过程500在移动计算设备接收(514)替代字词中的至少一个替代字词的用户选择。例如字词纠正模块202可以接收去除控件的选择424或者列表422中的替代字词“weare”和“deer”中的一个或者多个替代字词的选择。

响应于接收替代字词的用户选择，过程500用所选替代字词取代(508)呈现的转录的字词中的所选转录的字词。例如字词纠正模块202可以在GUI440的文字输入区域402中呈现更新的转录的文字“comingabout11:30”。

图6示出了可以用来实施这里描述的技术的计算设备600和移动计算设备的例子。计算设备600旨在于代表各种形式的数字计算机(比如膝上型计算机、桌面型计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其它适当计算机)。移动计算设备旨在于代表各种形式的移动设备(比如个人数字助理、蜂窝电话、智能电话和其它相似计算设备)。这里所示部件、它们的连接和关系以及它们的功能是为了仅举例并且不是为了限制本文中描述和/或要求保护的本发明的实施方式。

计算设备600包括处理器602、存储器604、存储设备606、连接到存储器604和多个高速扩展端口610的高速接口608以及连接到低速扩展端口614和存储设备606的低速接口612。处理器602、存储器604、存储设备606、高速接口608、高速扩展端口610和低速接口612中的每个部件使用各种总线来互连并且可以装配于公共母板上或者以如适当的其它方式来装配。处理器602可以处理用于在计算设备600内执行的指令(包括存储于存储器604中或者存储设备606上以在外部输入/输出设备(比如耦合到高速接口608的显示器616)上显示GUI的图形信息的指令)。在其它实施方式中，多个处理器和/或多个总线可以如适当的那样与多个存储器和存储器类型一起使用。也可以连接多个计算设备而每个设备提供必需操作的部分(例如作为服务器组、一组刀片服务器或者多处理器系统)。

存储器604存储计算设备600内的信息。在一些实施方式中，存储器604是一个或者多个易失性存储器单元。在一些实施方式中，存储器604是一个或者多个非易失性存储器单元。存储器604也可以是另一形式的计算机可读介质(比如磁盘或者光盘)。

存储设备606能够提供用于计算设备600的海量存储。在一些实施方式中，存储设备606可以是或者包含计算机可读介质(比如软盘设备、硬盘设备、光盘设备或者磁带设备、闪存或者其它相似固态存储器设备或者设备阵列(包括在存储区域网络或者其它配置中的设备))。计算机程序产品可以有形地具体化于信息载体中。计算机程序产品也可以包含在被执行时执行一种或者多种方法(比如上文描述的方法)的指令。计算机程序产品也可以有形地具体化于计算机或者机器可读介质(比如存储器604、存储设备606或者处理器602上的存储器)中。

高速接口608管理用于计算设备600的带宽密集操作，而低速接口612管理较低带宽密集操作。这样的功能分配仅为举例。在一些实施方式中，高速接口608耦合到存储器604、显示器616(例如通过图形处理器或者加速器)并且耦合到可以接受各种扩展卡(未示出)的高速扩展端口610。在该实施方式中，低速接口612耦合到存储设备606和低速扩展端口614。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口614可以耦合到一个或者多个输入/输出设备(比如键盘、指示设备、扫描仪或者通过网络适配器连接到网络设备(比如交换机或者路由器))。

可以如图中所示以多个不同形式实施计算设备600。例如它可以实施为标准服务器620或者多次实施于一组这样的服务器中。此外，它可以实施于个人计算机(比如膝上型计算机622)中。它也可以实施为机架服务器系统624的部分。取而代之，来自计算设备600的部件可以与移动设备(比如移动计算设备650)中的其它部件(未示出)组合。这样的设备中的每个设备可以包含计算设备600和移动计算设备650中的一个或者多个设备，并且整个系统可以由相互通信的多个计算设备组成。

移动计算设备650包括处理器652、存储器664、输入/输出设备(比如显示器654)、通信接口666和收发器668以及其它部件。移动计算设备650也可以具有用于提供附加存储的存储设备(比如微驱动或者其它设备)。使用各种总线来互连处理器652、存储器664、显示器654、通信接口666和收发器668中的每个部件，并且若干部件可以装配于公共母板上或者如适当的那样以其它方式来装配。

处理器652可以执行移动计算设备650内的指令(包括存储于存储器664中的指令)。处理器652可以实施为包括单独和多个模拟和数字处理器的芯片的芯片组。处理器652可以例如提供移动计算设备650的其它部件的协调(比如控制用户接口、移动计算设备650运行的应用和移动计算设备650的无线通信)。

处理器652可以通过耦合到显示器654的控制接口658和显示器接口656来与用户通信。显示器654可以例如是TFT(薄膜晶体管液晶显示器)显示器或者OLED(有机发光二极管)显示器或者其它适当显示器技术。显示器接口656可以包括用于驱动显示器654以向用户呈现图形和其它信息的适当电路。控制接口658可以从用户接收命令并且转换它们用于向处理器652提交。此外，外部接口662可以提供与处理器652的通信以便实现移动计算设备650与其它设备的近场通信。外部接口662可以在一些实施方式中提供有线通信或者在其它实施方式中提供无线通信，并且也可以使用多个接口。

存储器664存储移动计算设备650内的信息。存储器664可以实施为一个或者多个计算机可读介质、一个或者多个易失性存储器单元或者一个或者多个非易失性存储器单元中的一项或者多项。扩展存储器674也可以被提供并且通过可以例如包括SIMM(单列直插式存储器模块)卡接口的扩展接口672连接到移动计算设备650。扩展存储器674可以提供用于移动计算设备650的额外存储空间或者也可以存储用于移动计算设备650的应用或者其它信息。具体而言，扩展存储器674可以包括用于实现或者补充上文描述的过程的指令并且也可以包括安全信息。因此例如扩展存储器674可以被提供作为用于移动计算设备650的安全模块并且可以用允许安全使用移动计算设备650的指令来编程。此外，可以经由SIMM卡将安全应用与附加信息一起提供(比如以不可黑客方式在SIMM卡上放置识别信息)。

如上文讨论的那样，存储器可以例如包括闪存和/或NVRAM存储器(非易失性随机存取存储器)。在一些实施方式中，计算机程序产品有形地具体化于信息载体中。计算机程序产品包含在执行时执行一种或者多种方法(比如上文描述的方法)的指令。计算机程序产品可以是计算机或者机器可读介质(比如存储器664、扩展存储器674或者处理器652上的存储器)。在一些实施方式中，可以例如通过收发器668或者外部接口662在传播的信号中接收计算机程序产品。

移动计算设备650可以通过可以在必需时包括数字信号处理电路的通信接口666进行无线通信。通信接口666可以提供在各种模式或者协议(比如GSM(全球移动通信系统)语音呼叫、SMS(短消息服务)、EMS(增强型消息接发服务)或者MMS消息接发(多媒体消息接发服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或者GPRS(通用分组无线电服务)以及其它模式或者协议)之下的通信。这样的通信例如可以通过使用射频的收发器668来出现。此外，短程通信可以比如使用蓝牙、WiFi或者其它这样的收发器(未示出)来出现。此外，GPS(全球定位系统)接收器模块670可以向移动计算设备650提供附加的与导航和位置有关的无线数据，该数据可以如适当的那样由在移动计算设备650上运行的应用使用。

移动计算设备650也可以使用音频编码解码器660来可听地通信，该编码解码器可以从用户接收口头信息并且将它转换成可用数字信息。音频编码解码器660可以类似地比如通过例如移动计算设备650的听筒中的扬声器生成用于用户的可听声音。这样的声音可以包括来自语音电话呼叫的声音、可以包括记录的声音(例如语音消息、音乐文件等)并且也可以包括由在移动计算设备650上操作的应用生成的声音。

可以如图中所示以多个不同形式实施移动计算设备650。例如它可以实施为蜂窝电话680。它也可以实施为智能电话682、个人数字助理或者其它相似移动设备的部分。

这里描述的系统和技术的各种实施方式可以实施于数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中。这些各种实施方式可以包括在包括可以是专用或者通用的至少一个可编程处理器(该处理器被耦合成从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令并且向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令)的可编程系统上可执行和/或可解译的一个或者多个计算机程序中的实施方式。

这些计算机程序(也称为程序、软件、软件应用或者代码)包括用于可编程处理器的机器指令并且可以用高级过程和/或面向对象的编程语言和/或用汇编/机器语言来实施。如这里所用，术语机器可读介质和计算机可读介质指代用来向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如磁盘、光盘、存储器、可编程逻辑器件(PLD))(包括接收作为机器可读信号的机器指令的机器可读介质)。术语机器可读信号指代用来向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里描述的系统和技术可以实施于如下计算机上，该计算机具有用于向用户显示信息的显示器设备(例如CRT(阴极射线管)或者LCD(液晶显示器)监视器)以及用户可以向计算机提供输入的键盘和指示设备(例如鼠标或者跟踪球)。其它种类的设备也可以用来提供与用户的交互；例如向用户提供的反馈可以是任何形式的感官反馈(例如视觉反馈、听觉反馈或者触觉反馈)；并且可以用包括声学、语音或者触觉输入的任何形式接收来自用户的输入。

这里描述的系统和技术可以实施于如下计算系统中，该计算系统包括后端部件(例如作为数据服务器)或者包括中间件部件(例如应用服务器)或者包括前端部件(例如具有如下图形用户接口或者Web浏览器的客户端计算机，用户可以通过该图形用户接口或者Web浏览器来与这里描述的系统和技术的实施交互)或者这样的后端、中间件或者前端部件的任何组合。系统的部件可以由任何数字数据通信形式或者介质(例如通信网络)互连。通信网络的例子包括局域网(LAN)、广域网(WAN)和因特网。

计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助在相应计算机上运行并且相互具有客户端-服务器关系的计算机程序来产生。

虽然上文已经具体描述少数实施方式，但是其它修改是可能的。此外，在图中描绘的逻辑流程无需所示特定顺序或者依次顺序以实现希望的结果。此外，可以提供其它步骤或者可以从描绘的流程消除步骤，并且可以向描述的系统添加或者从描述的系统去除其它部件。因而其它实施方式在所附权利要求的范围内。

Claims

1.一种计算机实施的方法，包括：

在计算设备的显示器屏幕上呈现包括来自字词网格的一个或者多个转录的字词的第一短语；

在所述计算设备处接收对来自所述第一短语的字词的用户选择；

响应于接收到对所述字词的所述用户选择，在所述计算设备的所述显示器屏幕上呈现(i)各自对应于用于来自所述字词网格的用户选择的所述字词的一个或者多个替代字词的一个或者多个控件，以及(ii)与用于去除用户选择的所述字词的去除命令对应的控件；

在所述计算设备处接收对与所述去除命令对应的所述控件的用户选择；以及

响应于接收到对与所述去除命令对应的所述控件的所述用户选择，(i)从所述字词网格选择不包括用户选择的所述字词的第二短语，以及(ii)在所述显示器屏幕上用所述第二短语取代所述第一短语。

2.根据权利要求1所述的方法，其中所述显示器屏幕包括触摸屏显示器，并且其中所述用户选择通过所述触摸屏显示器被接收。

3.根据权利要求1所述的方法，其中各自对应于一个或者多个替代字词的所述一个或者多个控件和与所述去除命令对应的所述控件正在与用户选择的所述字词相邻的下拉菜单中被呈现。

4.根据权利要求1所述的方法，其中所述字词网格包括与所述转录的字词和所述替代字词对应的节点、在所述节点之间的标识经过所述字词网格的可能路径的边，并且每个路径具有为正确的关联概率。

5.根据权利要求4所述的方法，还包括从所述字词网格中的用户选择的所述字词的开始节点与结束节点之间的一个或者多个替代路径标识用于用户选择的所述字词的所述替代字词。

6.根据权利要求4所述的方法，还包括从所述字词网格中的所述第一短语的开始节点与结束节点之间的至少一个替代路径标识用于呈现的所述转录的字词的第二替代短语。

7.一种用于纠正转录的文字中的字词的计算机实施的系统，所述系统包括：

转录系统，可操作用于接收语音音频数据并且作为响应将所述语音音频数据转录成字词网格；以及

计算设备，包括：

麦克风，可操作用于接收语音音频并且生成所述语音音频数据，

网络接口，可操作用于向所述转录系统发送所述语音音频数据并且作为响应从所述转录系统接收所述字词网格，

显示器屏幕，可操作用于呈现来自所述字词网格的一个或者多个转录的字词，

用户接口，可操作用于接收对所述转录的字词中的至少一个转录的字词的用户选择，

一个或者多个处理器和存储指令的存储器，所述指令在由所述处理器执行时使得所述计算设备执行以下操作：

在所述计算设备处接收由所述转录系统从所述语音音频数据转录的字词网格，

8.根据权利要求7所述的系统，其中各自对应于一个或者多个替代字词的所述一个或者多个控件和与所述去除命令对应的所述控件正在与用户选择的所述字词相邻的下拉菜单中被呈现。

9.一种计算机实施的方法，包括：

从自动化语音识别器获得说话声的第一转录和第二转录，其中所述说话声的所述第二转录代表对所述说话声的所述第一转录的替代识别结果，并且其中所述说话声的所述第一转录的一部分不同于所述说话声的所述第二转录的对应部分；

提供所述说话声的所述第一转录以用于输出；

接收指示对所述说话声的所述第一转录的所述一部分的单个选择的数据；以及

响应于接收到指示所述单个选择的所述数据，提供所述说话声的所述第二转录以用于输出。

10.根据权利要求9所述的计算机实施的方法，其中所述说话声的所述第一转录包括来自字词网格的一个或者多个字词，并且所述说话声的所述第二转录包括来自所述字词网格的一个或者多个替代字词，所述一个或者多个替代字词对应于所述说话声的所述第一转录的所述一部分。

11.根据权利要求10所述的计算机实施的方法，其中所述字词网格包括与所述说话声的所述第一转录的字词和所述说话声的所述第二转录的字词对应的节点以及在所述节点之间的边，所述边标识经过所述字词网格的可能路径，其中每个路径具有为正确的关联概率。

12.根据权利要求9所述的计算机实施的方法，其中所述说话声的所述第一转录对应于来自所述自动化语音识别器的具有最高语音识别置信度分值的识别结果。

13.根据权利要求9所述的计算机实施的方法，其中所述说话声的所述第二转录对应于来自所述自动化语音识别器的、包括与所述说话声的所述第一转录的所述一部分对应的一个或者多个替代字词并且具有为正确的最高概率的识别结果。

14.根据权利要求9所述的计算机实施的方法，其中获得所述说话声的所述第二转录包括：

标识所述说话声的所述第一转录的所述一部分；

确定与所述说话声的所述第一转录的所述一部分对应的替代部分是最可能为正确替代部分的所述替代部分；以及

获得所述说话声的所述第二转录，所述说话声的所述第二转录包括最可能为正确替代部分的所述替代部分。

15.根据权利要求9所述的计算机实施的方法，其中：

所述说话声的所述第一转录和所述说话声的所述第二转录被提供用于在计算设备的触摸屏显示器处输出；以及

指示对所述说话声的所述第一转录的所述一部分的所述单个选择的所述数据响应于在所述计算设备的所述触摸屏显示器处的用户输入而被接收。

16.一种用于纠正转录的文字中的字词的计算机实施的系统，所述系统包括：

自动化语音识别器，可操作用于接收语音音频数据并且作为响应将所述语音音频数据转录成字词网格；以及

计算设备，包括：

网络接口，可操作用于向所述自动化语音识别器发送所述语音音频数据并且作为响应从所述自动化语音识别器接收所述字词网格，

提供所述用户接口，所述用户接口包括(i)用于输出说话声的第一转录的输出区域，以及(ii)与所述说话声的第二转录相关联的控件，其中所述说话声的所述第二转录代表对所述说话声的所述第一转录的替代识别结果，并且其中所述说话声的所述第一转录的一部分不同于所述说话声的所述第二转录的对应部分；

在所述输出区域处呈现所述说话声的所述第一转录，其中所述说话声的所述第一转录包括来自所述字词网格的一个或者多个字词；

接收指示对与所述说话声的所述第二转录相关联的所述控件的选择；以及

更新所述输出区域以用所述说话声的所述第二转录取代所述说话声的所述第一转录。

17.根据权利要求16所述的系统，其中所述字词网格包括与所述说话声的所述第一转录和所述说话声的所述第二转录的字词对应的节点以及在所述节点之间的边，所述边标识经过所述字词网格的可能路径，其中每个路径具有为正确的关联概率。

18.根据权利要求17所述的系统，其中所述说话声的所述第一转录对应于经过所述字词网格的具有为正确的最高概率的路径。

19.根据权利要求17所述的系统，其中所述说话声的所述第二转录对应于经过所述字词网格的具有为正确的次最高概率的路径。

20.根据权利要求17所述的系统，其中所述说话声的所述第二转录对应于经过所述字词网格的作为除了经过所述字词网格的对应于所述说话声的所述第一转录的路径之外经过所述字词网格的唯一路径的路径。

21.根据权利要求16所述的系统，其中所述用户接口包括用于输出所述说话声的所述第二转录的第二输出区域。