CN104412219B

CN104412219B - 语音识别的文本输入的视觉确认

Info

Publication number: CN104412219B
Application number: CN201380033856.2A
Authority: CN
Inventors: 安德鲁·斯图尔特; 彼得·恩古; 亚历山大·法贝格; 马蒂亚斯·贡萨洛·杜阿尔特; 丹尼尔·马克·贾坦·希普拉科夫; 比约恩·埃里克·布林格特; 理查德·扎雷克·科恩; 卢卡·扎诺林; 帕维尔·彼得里卡; 彼得·约翰·霍奇森; 西蒙·蒂克纳; 亨里克·彭哈
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-06-25
Filing date: 2013-06-21
Publication date: 2016-02-17
Anticipated expiration: 2033-06-21
Also published as: EP2680130A3; CN104412219A; IN2014KN02726A; WO2014004325A1; EP2680130B1; US20130346076A1; US8606577B1; EP2680130A2

Abstract

一种计算设备从用户接收音频输入。该计算设备基于该音频输入确定一系列词。该计算设备输出一个或多个替代符号以显示。该一个或多个替代符号对应于该系列词的至少一部分。响应于确定该音频输入的接收已经完成，该计算设备输出包括该系列词的字母数字字符来替换一个或多个替代符号以显示。

Description

语音识别的文本输入的视觉确认

背景技术

一些计算设备(例如，移动电话)被配置有话音到文本功能以便将所讲的语言转换为书写形式。例如，计算设备能够被配置有能够接收音频输入(例如，用户的语音)并且基于该音频输入确定文本内容(例如，SMS消息或电子邮件)的话音到文本功能。

通常，计算设备将来自所讲出的词的音频输入接收到计算设备的麦克风中。在用户讲话时，计算设备能够识别该音频输入中所讲的词。计算设备随后能够输出所识别的词以便进行显示(例如，在计算设备的屏幕上)。当前的技术可以允许计算设备近乎实时地执行话音到文本的转换并且向用户提供几乎即时反馈。

然而，用户可能在他们完成讲话之前由于观看显示在屏幕上的讲话文本的近乎实时的文本转换而分神—特别是在计算设备已经出现转译错误时。例如，如果计算设备没有正确识别并且显示了不正确的词，则用户可能会在一句话中间暂停讲话而尝试回退和/或以其它方式纠正该错误。这样的讲话暂停可能会导致更多转译错误，因为计算设备会依赖自然讲话的模式来执行话音到文本的转换，并且依赖于词上下文来自动执行转译错误纠正。

发明内容

在一个实施例中，本公开涉及一种方法。该方法可以包括由计算设备接收音频输入。该方法可以进一步包括由计算设备基于该音频输入确定一系列词。此外，该方法可以包括由计算设备输出一个或多个替代符号以便进行显示，其中该一个或多个替代符号对应于该系列词的至少一部分。响应于确定该音频输入的接收已经完成，该方法可以进一步包括由计算设备输出替换一个或多个替代符号的包括该系列词的字母数字字符以便进行显示。

在另一个示例中，本公开涉及一种计算机可读存储介质。该计算机可读存储介质可以包括指令，该指令在被计算设备的至少一个处理器执行时接收音频输入。该指令在被执行时进一步使得该计算设备的至少一个处理器基于该音频输入确定一系列词。该指令在被执行时进一步使得该计算设备的至少一个处理器输出一个或多个替代符号以便进行显示。该一个或多个替代符号可以对应于该系列词的至少一部分。该操作可以进一步包括确定该音频输入已经结束。响应于确定该音频输入的接收已经完成，该指令在被执行时可以进一步使得该计算设备的至少一个处理器输出替换一个或多个替代符号的包括该系列词的字母数字字符以便进行显示。

在另一个示例中，本公开涉及一种计算设备。该计算设备可以包括被配置为接收音频输入的一个或多个处理器。该一个或多个处理器进一步被配置为基于该音频输入确定一系列词。该一个或多个处理器进一步被配置为输出一个或多个替代符号以便进行显示。该一个或多个替代符号可以对应于该系列词的至少一部分。响应于确定该音频输入的接收已经完成，该一个或多个处理器进一步被配置为输出替换一个或多个替代符号的包括该系列词的字母数字字符以便进行显示。

一个或多个示例的细节在附图和以下的描述中给出。本公开的其它特征、目标和优势将从该描述和附图以及权利要求而是显而易见的。

附图说明

图1是图示示例计算设备的概念图。

图2是图示计算设备的示例配置的框图。

图3是图示计算设备的示例操作的概念图。

图4是图示计算设备的示例操作的流程图。

图5是图示具有内嵌转译错误纠正的计算设备的示例操作的流程图。

图6是图示计算设备可以输出以便进行显示的用户界面的多个示例的框图。

图7是图示计算设备可以输出以便进行显示的另外示例用户界面的框图。

图8是图示计算设备可以输出以便进行显示的另外经放大的示例用户界面的框图。

具体实施方式

图1是图示示例计算设备10的概念图。在图1的示例中，计算设备10是智能电话。然而，在其它示例中，计算设备10可以是蜂窝电话、个人数字助理(PDA)、膝上计算机、平板计算机、便携式游戏设备、便携式媒体播放器、电子书阅读器、手表、或者另一种类型的便携式或移动计算设备。此外，在其它示例中，计算设备10可以是非便携式计算设备，诸如台式计算机、路线电话或电视机。

在图1的示例中，计算设备10输出用户界面16A和16B(统称为“用户界面16”)以便在屏幕14进行显示。计算设备10还包括用于接收音频输入(例如，来自用户的话音)的麦克风12。

计算设备10的屏幕14包括存在敏感显示器。屏幕14可以包括被配置为接收来自计算设备10的用户或其它用户的触摸用户输入的触摸屏。屏幕14可以包括以下中的一个或多个：液晶显示器(LCD)、点矩阵显示器、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、电子墨水、或者能够向计算设备10的用户提供可视信息以及用于接收来自用户的触觉输入的类似的单色或彩色显示器。屏幕14可以呈现与计算设备10所提供的功能相关的用户界面(例如，用户界面16)。例如，屏幕14可以呈现各种功能和应用，例如包括电子邮件客户端、文本消息客户端以及存储在计算设备10上的地址簿。在另一个示例中，屏幕14可以呈现与计算设备10的功能和操作相关的选项的菜单，上述选项诸如屏幕亮度以及其它可配置的移动电话设置。

用户界面16可以包括在屏幕14的多个位置呈现的用于从用户接收触觉输入或者向用户提供图形输出的图形元素。例如，用户界面16可以包括作为针对用户的图形输出而在屏幕14呈现的字符串。该字符串可以形成用户所编写的电子邮件或SMS文本消息的主体。通过在用户界面16内包括消息主体，在由计算设备10发送该消息之前，计算设备可以向用户提供该消息不包括文本错误的视觉确认(例如反馈)。

麦克风12可以接收音频输入(例如，来自用户的话音)。在图1中，麦克风12被布置在计算设备10的屏幕14下方。然而，在其它示例中，麦克风12可以被布置在计算设备10的另一个适当位置以便接收可听输入。

计算设备10可以利用话音至文本系统。例如，计算设备10可以被配置为接收来自用户的输入并且将该音频输入所表示的词作为文本输出(例如，以便在屏幕14进行显示)。以这种方式，用户可以利用计算设备10口述而不是键入消息。例如，图1示出了计算设备10，其接收由用户向计算设备10的麦克风12中所讲出的包括所讲词的音频输入“didyouwatchthegamelastnightthelionsalwayswin”。典型的话音至文本系统可以将包括这些所讲的词的音频输入转译为由字母数字字符的串所表示的一系列词。然而，依据本公开的技术，不同于向用户界面16A输出字母数字字符的串，计算设备10可以向用户界面16A输出一个或多个替代符号来替换该字母字符的串。该替代符号可以基于数字、大小和方位而类似于该字母数字字符的串。来自该一个或多个替代符号的每个替代符号可以对应于该系列词中的不同字母数字字符。

该替代符号可以提供音频输入的话音转译已经进行或者正在没有表现出任何潜在转译错误的情况下进行的指示。输出替代符号可以使得从用户接收的音频输入中的话音暂停最小化并且可以有助于确保用户在接收到音频输入时自然地讲话。通过帮助确保用户自然地讲出音频捕捉，话音至文本系统可以执行更为有效的转译并且因此可以消耗更少的处理资源。

在确定音频输入的接收已经完成时，计算设备10可以利用表示该系列词的字母数字字符(如图1中被描述为用户界面16B)来替换用户界面16A中的替代符号。

如图1中所描绘的并且依据本公开的技术，计算设备10可以接收音频输入并且至少部分基于该音频输入确定一系列词。计算设备10可以输出一个或多个替代符号(例如，在屏幕14)以便进行显示。该替代符号可以对应于该系列词的至少一部分。例如，每个替代符号可以对应于该系列词中的不同字母数字字符。

在另一个示例中，除了至少部分基于音频输入确定一系列词之外，计算设备10可以至少部分基于音频输入确定波形。该波形可以包括形状。来自该系列词的每个词可以对应于波形的一部分。波形的每个部分的形状可以对应于来自该系列词的每个词并且该形状可以从被输出以便进行显示的替代符号可见。例如，该波形可以将音频输入的音频参数(例如，音量、音调、音高等)表示为与随时间变化的参数相关联的数值。当在屏幕14进行呈现时，该替代符号可以描绘波形的形状。更具体地，当在屏幕14进行呈现时，该替代符号可以描绘该波形中与每个词相对应的每个部分的形状。在屏幕14输出替代符号可以使一系列词不可读。响应于确定音频输入的接收已经完成，计算设备10可以输出替换一个或多个替代符号的包括该系列词的字母数字字符以便进行显示(例如，在屏幕14)。

图2是图示计算设备10的示例配置的框图。图2仅图示了计算设备10的一个特定示例，并且计算设备10的许多其它示例配置是可能的。如图2的具体示例中所示，计算设备10包括一个或多个处理器30、一个或多个输入设备34、一个或多个输出设备36、以及一个或多个存储设备40。在该示例中，计算设备10的存储设备40还包括话音至文本模块24、文本至符号模块36和错误检查模块28。通信信道38可以对组件30、34、36、40、24、26和28中的每一个进行互连以便进行组件之间的通信(物理地、通信地和/或操作地)。在一些示例中，通信信道38可以包括系统总线、网络连接、进程间通信数据结构、或者任意其它用于传输数据的方法。

一个或多个处理器30可以在计算设备10内实施功能和/或执行指令。例如，处理器30可以对存储在存储设备40中的执行话音至文本模块24的功能的指令进行处理。

计算设备10内的一个或多个存储设备40可以存储用于在计算设备10的操作期间使用的所需信息。在一些示例中，存储设备40的主要目的是短期而非长期的计算机可读存储介质。计算设备10上的存储设备40可以是易失性存储器，并且因此在断电的情况下不保存所存储的内容。易失性存储器的示例包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、以及本领域已知的其它形式的易失性存储器。存储设备40可以进一步被配置用于作为非易失性存储器空间的信息的长期存储并且在开/关机循环之后保留信息。非易失性存储器配置的示例包括磁性硬盘、光盘、软盘、闪存、或者为电可编程存储器(EPROM)或电可擦除可编程存储器(EEPROM)的形式。在一些示例中，计算设备10上的处理器30读取并执行存储设备40所存储的指令。此外，在计算设备10上运行的话音至文本模块24、文本至符号模块36和错误检查模块28可以存储在程序执行期间存储设备40内的信息。

计算设备10可以包含一个或多个计算设备10用来经由触觉、音频或视频反馈接收来自用户的输入的输入设备34。在一个示例中，计算设备10的输入设备34包括存在敏感屏幕、触摸敏感屏幕、鼠标、键盘、语音响应系统、视频相机、麦克风或者用于检测来自人或机器的命令的任意其它类型的设备。输入设备34可以包括图1的屏幕14和麦克风12。

计算设备10可以包含一个或多个计算设备10用来经由触觉、音频或视频刺激提供输出的输出设备36。在一个示例中，计算设备10的输出设备36包括存在敏感屏幕、声卡、视频图形适配卡或者用于将信号转换为人或机器能够理解的适当形式的其它类型的设备。输出设备36的另外示例包括扬声器、阴极射线管(CRT)监视器、液晶显示器(LCD)或者能够向用户和/或机器生成可理解输出的任意其它类型的设备。输出设备36可以包括图1的屏幕14。

存储设备40可以存储与话音至文本模块24、文本至符号模块36和错误检查模块28相关联的程序指令和/或数据。例如，文本至符号模块36可以包括使得计算设备10的处理器30执行在本公开中所描述的一个或多个操作和动作的指令。

依据本公开的技术，计算设备10可以在输入设备34接收音频输入(例如，计算设备10可以在图1的麦克风12接收音频输入)。该音频输入可以表示电子邮件、SMS文本消息、即时消息或者构成文档主体的电子词部分的口述。当接收到音频输入的指示时，输入设备34可以将与该音频输入相关联的数据通过内部通信信道38传送至计算设备10的话音至文本模块24。

当接收到与音频输入相关联的数据时，话音至文本模块24可以执行话音转译功能并且基于该音频输入确定一系列词。该系列词可以包括一个或多个字母数字字符。例如，话音至文本模块24可以利用隐马尔科夫模型(HMM)、动态时间规整(DTM)、神经网络或者本领域已知的其中模型基于可听话音输出文本的任意其它已知话音至文本转译模型来执行基于统计的话音至文本转译。在将音频输入转译为一系列词之后，话音至文本模块24可以将包括该系列词的一个或多个字母数字字符输出至文本至符号模块26。

虽然如以上所描述的，计算设备10可以利用本地处理器30来基于音频输入确定一系列词，但是本公开的另一个示例可以利用远程计算设备来执行这些话音至文本转译功能。例如，计算设备10可以将音频输入传送至远程计算设备(未示出)并且从远程计算设备接收基于该音频输入的系列词(以及相对应的字母数字字符)。远程计算设备的示例可以包括个人计算机、膝上计算机、手持计算机、工作站、数据存储系统、超级计算机、大型计算机、常规web服务器、专用媒体服务器或者其它类型的计算设备，包括但并不局限于以上所提到的计算设备10的示例。换句话说，话音至文本模块24可以在远程计算设备上远程执行，从计算设备10接收与音频输入相关联的数据并且代表计算设备10对音频数据进行转译。

当从话音至文本模块24接收到与该系列词相关联的一个或多个字母数字字符时，文本至符号模块26可以确定与该系列词的至少一部分相对应的一个或多个替代符号。文本至符号模块26可以将该一个或多个替代符号传送至输出设备36。输出设备36输出该一个或多个替代符号以便进行显示。例如，输出设备36可以将一个或多个替代符号作为图1的屏幕14处的用户界面16A的一部分进行输出以便进行显示。

话音至文本模块24可以确定音频输入的接收已经完成并且向文本至符号模块26通知音频输入的接收已经完成。响应于接收到音频输入的接收已经完成的通知，文本至符号模块26可以将从话音至文本模块24原始接收的一个或多个字母数字字符传送至输出设备36。当接收到一个或多个字母数字字符时，输出设备36可以输出替换该替代符号的一个或多个字母数字符号以便进行显示。例如，输出设备36可以将一个或多个字母数字字符作为图1的屏幕14处的用户界面16B的一部分输出以便进行显示。

计算设备10可以在接收音频输入期间输出一个或多个替代符号以便进行显示。例如，输入设备34可以在计算设备10对音频输入进行处理的同时利用缓冲器来捕捉并临时存储与音频输入相关联的数据。通过以这种方式利用缓冲器，话音至文本模块24、文本至符号模块26以及输出设备36可以执行以上所描述的操作以在首次接收到音频输入的开头之后近似实时地转译并显示替代符号。该缓冲器可以允许计算设备10在确定音频输入的接收已经完成之前对该音频输入的一部分进行处理。换句话说，计算设备10可以在输入设备34接收到音频输入的部分之后对该部分进行处理而并不等待用户完成讲出该音频输入。以这种方式配置计算设备10可以有助于确保用户尽可能自然地讲出音频输入(例如，没有疑虑)。

计算设备10可以包括文本至符号模块26，除了以上所描述的能力之外，其可选地可以响应于接收到指示替代符号被输出来字母数字符号的输入(例如，在输入设备34)而将一个或多个替代符号发送至输出设备36。

例如，在缺省模式中，计算设备10可以在话音至文本的转译期间显示字母数字字符。用户界面16可以包括在屏幕14所显示的选项，当其被选择时向计算设备10指示在话音至文本转译期间显示替代符号。计算设备10可以在输入设备34接收对应于该选项的选择的用户输入的指示。文本至符号模块26可以从输入设备34接收该选项并且至少部分基于用户输入的指示对计算设备10进行配置以输出替代符号来代替字母数字字符。换句话说，代替在话音至文本转译期间向输出设备36发送字母数字字符，文本至符号模块26可以向输出设备36发送替代符号。

计算设备10可以依赖于话音至文本模块24来确定已经完成了音频输入的接收以便由文本至符号模块26触发响应以如以上所描述的向输出设备36传送一个或多个字母数字字符。话音至文本模块24可以通过接收在存在敏感屏幕所检测到的手势输入的指示来确定音频输入的接收已经完成。例如，当完成讲出音频输入时，输入设备34可以接收在存在敏感屏幕(例如，图1的屏幕14)的一个位置接收的手势输入的指示。计算设备10可以接收该手势输入的指示并且可以将与该手势输入相关联的数据传送至话音至文本模块24。话音至文本模块24可以将与该手势输入相关联的数据解释为表明音频输入的接收已经完成。因此，话音至文本模块24可以触发由文本至符号模块26作出响应以输出字母数字字符来替换替代符号。

计算设备10的话音至文本模块24可以通过确定没有在其间检测到话音的时间量来确定音频输入的接收已经完成，并且响应于确定该时间量满足阈值而确定音频输入的接收已经完成。例如，话音至文本模块24可以确定音频输入的分段，其指示静音音频(例如，缺少话音音频)的分段。话音至文本模块24可以确定该静音音频的分段流逝了一段时间。该段时间可以超过话音至文本模块24所设置的阈值以便指示音频输入的接收已经完成(例如，1.5秒至10秒)。以这种方式，话音至文本模块24可以识别用户(例如，图1的用户)何时停止讲话。

除了在音频输入的接收已经完成的时候之外，计算设备10的话音至文本模块24可以确定显示字母数字字符来替换替代符号的适当时间。例如，话音至文本模块24可以确定自从计算设备开始接收音频输入起已经流逝了一段时间。响应于确定该段时间满足阈值，话音至文本模块24可以输出字母数字字符的至少一部分来替换一个或多个替代符号的至少一部分以便进行显示(例如，在图1的屏幕14)。例如，在接收很长的电子邮件口述(例如，包括多个句子)的音频输入期间，计算设备10可以确定音频输入跨越满足时间阈值的足够长的持续时间。话音至文本模块24可以输出与该电子邮件口述的第一部分相关联的字母数字字符的至少一部分来替换与该电子邮件的第一部分相关联的一个或多个替代符号的至少一部分，同时继续接收该电子邮件口述的其余部分，这可以不导致用户的讲话不自然。

计算设备10的话音至文本模块24可以识别出音频输入中的字母、数字、首字母缩写、缩写形式和词。话音至文本模块24还可以识别出字母、数字和词的上下文并且可以识别句子。话音至文本模块24从音频输入转译输出的字母数字字符的类型可以包括字母、数字或标点符号。

计算设备10的话音至文本模块24可以将每个字母数字字符转译为大写字母和小写字母。计算设备10的文本至符号模块26可以确定包括一系列词的字母数字字符包括大写和小写字母数字符号。文本至符号模块26可以确定一个或多个替代符号中对应于大写字母数字字符的每一个与来自一个或多个替代符号中对应于小写字母数字符号的每一个替代符号不同。例如，文本至符号模块26可以从话音至文本模块24接收具有大写和小写指示的一个或多个字母数字字符。基于该指示，文本至符号模块26可以对每个大写字母数字字符输出一个替代符号并且对每个小写字母数字字符输出不同的替代符号。

计算设备10的文本至符号模块26可以从一个或多个替代符号生成不同类型的替代符号，包括矩形、圆形、星形、星号、线段以及其它类型的形状和符号。以下详细描述的图6图示了替代符号的一些不同示例。

计算设备10的文本至符号模块26可以确定来自一个或多个替代符号中的每个替代符号具有尺寸。该尺寸可以包括高度、宽度和半径中的至少一个。来自一个或多个替代符号中的对应于大写字母数字字符的每个替代符号的尺寸可以超过来自一个或多个替代符号中的对应于小写字母数字字符的每个替代符号的尺寸。例如，文本至符号模块26可以对大写字母“D”向输出设备36传送一个替代符号并且对小写字母“d”传送不同的替代符号。输出设备36可以在屏幕14针对字母“D”和“d”呈现两个替代符号。对应于大写字母“D”的替代符号可以看上去比对应于小写字母“d”的替代符号具有更高的高度。

计算设备10的文本至符号模块26可以将一个或多个替代符号中对应于大写字母数字字符的每个替代符号表示为一个或多个替代符号中对应于小写字母数字字符的至少两个替代符号。例如，文本至符号模块26可以对大写字母“D”向输出设备36传送一个替代符号并且对小写字母“d”传送不同的替代符号。输出设备36可以在图1中的屏幕14呈现针对字母“D”和“d”的替代符号。对应于大写字母“D”的替代符号在屏幕14上可以表现为两个重叠的对应于小写字母“d”的符号

在另一个示例中，除了基于音频输入确定一系列词之外，计算设备10可以至少部分地基于该音频输入确定波形。该波形可以具有形状。该波形的形状(即该波形的波峰和波谷的高度和宽度)可以基于随时间针对与音频输入相关联的一个或多个音频参数的变化而改变。例如，计算设备10的麦克风12可以捕捉音频输入。该音频输入可以包含音量水平、音调、音高或者在用户讲出一系列词时随时间变化的其它特性。来自该系列词中的每个词可以对应于该波形的一部分。来自一个或多个替代符号中的每个替代符号的形状可以反映该波形中对应于来自该系列词的每个词的每个部分的形状。换句话说，该波形的一部分可以对应于用户所讲出的每个词，并且由文本至符号模块24在音频输入的捕捉期间所输出以便进行在屏幕14进行显示的替代符号可以描绘该波形的每个部分的形状。以下更为详细描述的图7描绘了显示具有音频输入的波形的形状的替代符号的计算设备的一个示例。

图3是图示计算设备的示例操作的概念图。如关于图2所讨论的，计算设备10可以包括错误检查模块28。在另一个示例中，就像以上关于话音至模块24可以处于远程计算设备上并在其上执行的示例那样，远程计算设备可以执行错误检查模块28的功能。错误检查模块28可以自动(即没有来自用户或机器的人工介入)执行文本至话音模块24输出的词或字母数字字符的转译错误校验。转译错误检查可以包括识别文本至话音模块24产生的错误的功能。转译错误可以包括拼写错误、语法错误或者词选择错误(例如，基于话音至文本模块24之前和后续所识别的上下文或周边词替换同义词)。

如图3所示，计算设备10可以基于音频输入300的第一分段确定第一词。响应于基于音频输入300的第一分段确定了第一词，计算设备10的错误检查模块28可以基于音频输入300的第二分段确定第二词以替换第一词。响应于确定了第二词，错误检查模块28可以利用与第二词相对应的至少一个不同替代符号来替换与第一词相对应的至少一个替代符号。

例如，话音至文本模块24可以基于音频输入300输出字母数字字符310(例如，如以上在图2下所讨论的)。在该示例中，话音至文本模块24所接收的音频输入表示所讲出的词“Youshouldbuytheircar”的音频，并且话音至文本模块24所输出的字母数字字符310表示字符串“Eweshouldbythey’recar”。

除了接收话音至文本模块24输出的字母数字字符310的文本至符号模块26之外，错误检查模块28也可以接收字母数字字符310。文本至符号模块26可以输出替代符号320以便在屏幕进行显示(例如，如以上在图2下所讨论的)。错误检查模块28可以接收字母数字字符310并且确定第一词“Ewe”出现了转译错误。错误检查模块28可以利用第二词“You”替换第一词“Ewe”。错误检查模块28可以对字母数字字符310的其余分段执行后续的类似检查，基于音频输入300的后续分段识别并修正音频输入300中较早分段中的转译错误，直至错误检查模块28输出字母数字字符330“Youshouldbytheircar”。

话音至文本模块24可以从错误检查模块28接收字母数字字符330并且向文本至符号模块26输出字母数字字符340。文本至符号模块26可以识别出字母数字字符340表示音频输入300中已经被作为替代符号320所显示的分段。文本至符号模块26可以利用替代符号350替换替代符号320并且最终利用替代符号360替换替代符号350。

使用错误检查模块28，计算设备10可以使用统计语言模型来执行转译错误检测和转译错误校正。音频输入可以包括第一分段以及在第一分段之后接收的第二分段。计算设备10可以基于音频输入的第二分段确定一个或多个词。计算设备10可以至少部分地基于该一个或多个词来确定基于音频输入的第一分段的第一词的概率以及基于音频输入的第一分段的第二词的概率。响应于确定第二词的概率超过第一词的概率，计算设备10可以输出对应于第二词的字母数字符号的替代符号的不同群组来替换对应于第一词的字母数字符号的一个或多个替代符号。

第一词的概率可以基于第一词位于包括该系列词的词序列中的语言模型概率，并且第二词的概率可以基于第二词位于包括该系列词的词序列中的语言模型概率。例如，错误检查模块28可以包括语言模型，其使用n-gram语言模型和辞典来确定词位于词序列(例如，句子)中的概率。或者换句话说，该语言模型确定词位于特定词序列之前、跟随特定词序列或者位于特定词序列之内的概率。

例如，如以上所描述的，计算设备10可以输出对应于来自音频输入300的初始词的替代符号320以便进行显示。至少部分地基于从音频输入300的后续分段确定的一个或多个词，错误检查模块28可以确定基于第一分段确定第一词的概率以及基于第一分段确定第二词的概率。响应于错误检查模块28确定第二词的概率超过第一词的概率，错误检查模块28可以使得计算设备10输出对应于第二词的字母数字符号的替代符号350以便进行显示来替换对应于第一词的字母数字符号的替代符号320。

除了显示替代符号和基于所检测的转译错误更新替代符号之外，计算设备10的文本至符号模块26可以改变所更新的替代符号的颜色以在屏幕14上指示计算设备10校正了转译错误。换句话说，对应于(例如，在错误检查模块28进行校正之前的)第一词的至少一个替代符号可以包括第一颜色，而对应于(例如，在错误检查模块28进行校正之后的)第二词的至少一个不同替代符号可以包括不同于第一颜色的第二颜色。

例如，计算设备10可以以蓝色显示所有原始的替代符号，包括对应于与转译错误相关联的词的替代符号。在对转译错误进行校正的过程中，计算设备10可以以红色显示对应于与针对转译错误的校正相关联的词的替代符号。

继续图3的示例，文本至符号模块26可以以蓝色显示替代符号320。在更新之后，文本至符号模块26可以以红色显示表示被错误检查模块28所校正的词(例如，“You”、“buy”和“their”)的替代符号360，而继续以蓝色显示其它的替代符号360。

文本至符号模块26可以在屏幕上校正转译并更新替代符号，同时继续接收音频输入。换句话说，利用对应于第二词的至少一个不同替代符号替换对应于第一词的至少一个替代符号可以在计算设备接收音频输入时进行。例如，在计算设备10继续接收音频输入时，计算设备10可以利用对应于与转译校正相关联的词的替代符号替换对应于与转译错误相关联的词的替代符号。

在接收音频输入的开头之后，话音至文本模块24可以进行转译并且错误检查模块28可以更新字母数字字符310，而并不等待用户完成讲出音频输入300的其余部分。以这种方式对计算设备10进行配置可以确保用户尽可能自然地讲出音频输入300(例如，没有疑虑)并且还可以确保转译在显示字母数字字符来替换替代符号之后是准确的。

图4是图示计算设备的示例操作的流程图。图4的步骤可以由诸如图2所示的计算设备10的计算设备的一个或多个处理器来执行。出于说明的目的，在下文中在图1、2和3的计算设备10的上下文内对图4进行描述。

计算设备10可以接收音频输入(400)。例如，计算设备10可以在麦克风12接收来自用户的电子邮件的口述。计算设备10可以基于音频输入确定一系列词(410)。例如，计算设备10的话音至文本模块24可以基于音频输入输出一个或多个字母数字字符，其中该字母数字字符表示组成所口述的电子邮件的文本的该系列词。计算设备10可以输出与该系列词的至少一部分相对应的一个或多个替代符号以便进行显示(420)。例如，为了促进音频输入(例如，电子邮件口述)的自然话音模式，计算设备10的文本至符号模块26可以显示一个或多个替代符号来替代由话音至文本模块24所确定的一个或多个字母数字字符。计算设备10可以确定音频输入的接收已经完成(430)。例如，话音至文本模块24可以检测音频输入内的长暂停(例如，音频输入中无法检测到话音的三秒钟)并且基于该长暂停确定音频输入的接收已经完成。响应于确定音频输入的接收已经完成，计算设备10可以输出替换替代符号的包括该系列词的字母数字字符以便进行显示(440)。例如，响应于确定音频输入(例如，电子邮件口述)的接收已经完成，计算设备10的文本至符号模块26可以显示从话音至文本模块24输出的字母数字字符(即，电子邮件口述的转译)来替换替代符号。

图5是图示具有内嵌转译错误校正的计算设备的示例操作的流程图。图5的步骤可以由诸如图2所示的计算设备10的计算设备的一个或多个处理器来执行。仅出于说明的目的，在下文中在图1、2和3的计算设备10的上下文内对图5进行描述。

如关于图4所描述的，计算设备10可以接收音频输入(例如，电子邮件口述)，基于该音频输入确定一个或多个字母数字字符，并且输出均对应于不同字母数字字符的一个或多个替代符号以便进行显示。计算设备10可以基于音频输入的第一分段确定第一词(500)。例如，计算设备10的错误检查模块28可以接收从话音至文本模块24所输入的音频输入转译的一个或多个字母数字符号。错误检查模块28可以确定一个或多个字母数字符号的一部分(例如，音频输入的一部分)所表示的第一词。

计算设备10可以基于音频输入的第二分段确定第二词以替换第一词(510)。例如，错误校验模块28可以基于从话音至文本模块24接收的一个或多个字母数字字符的之前和后续部分来识别第一词中的转译错误。

计算设备10可以利用对应于第二词的至少一个替代符号替换对应于第一词的至少一个替代符号(520)。例如，话音至文本模块24可以从错误检查模块28接收到对一个或多个字母数字字符的校正。基于该校正，话音至文本模块24可以对输出至文本至符号模块26的一个或多个字母数字字符进行更新。文本至符号模块26可以检测对一个或多个字符的更新并且可以利用对应于该校正的替代符号替换对应于转译错误的替代符号。

图6是图示计算设备可以输出以便进行显示的用户界面的多个示例的框图。在图6的示例中，用户界面60A至60F表示计算设备10可以在所接收的如“Didyouwatchthegamelastnight？TheLionsalwayswin.”的音频输入的转译期间可以显示的替代符号的各种示例。

用户界面60A图示了计算设备10将圆圈或点显示为替代符号的示例。用户界面60B图示了计算设备10将星形或星号显示为替代符号的示例。用户界面60C图示了计算设备10将圆圈或点显示为替代符号并且通过显示对应于小写字母数字字符的两个垂直对准的替代符号来指示对应于大写字母数字字符的替代符号的示例。

用户界面60D图示了计算设备10将矩形或线段显示为替代符号并且通过改变替代符号的宽度来指示对应于大写字母数字字符的替代符号的示例。用户界面60E图示了计算设备10将圆圈或点显示为替代符号并且通过改变替代符号的半径来指示对应于大写字母数字字符的替代符号的示例。用户界面60F图示了计算设备10将矩形或线段显示为替代符号并且通过改变替代符号的高度来指示对应于大写字母数字字符的替代符号的示例。

图7是图示计算设备10可以输出以便进行显示的另外的示例用户界面的框图。在图7的示例中，用户界面72A至72C表示计算设备可以在被计算设备所捕捉并且被转译为“Didyouwatchthegamelastnight？TheLionsalwayswin.”的音频输入70的转译期间可以输出以便进行显示的替代符号的各种示例。在图7的示例中，音频输入70除了表示一系列词之外还表示具有形状的波形。该形状可以将与音频输入相关联的音频参数或变量指示为随时间变化的参数或变量。用户界面72A至72C描绘了计算设备10如何随时间利用替代符号呈现对应于该音频输入的每个词的波形部分。类似于呈现替代符号以表示该系列词中的每个字母数字字符的计算设备10(图6所示)，计算设备10可以以波形形状而不是实际的字母数字字符来呈现符号以潜在地确保用户在口述期间自然地讲话。

图8是图示计算设备10可以输出以便进行显示的另外的经放大的示例用户界面的框图。除了视图82A和82B以放大视图示出了用户界面80A和80B之外，图8的示例类似于图7的示例。视图82A和82B描绘了计算设备10可以如何对在其识别了音频输入中的每个词之后显示的替代符号所描绘的波形的形状进行转换。如以上所讨论的，替代符号原本可以反映音频输入所表示的波形的形状。然而，当计算设备10识别音频输入中的每个词时，计算设备10可以基于其最终在屏幕上显示的字母数字字符的高度和宽度对替代符号所描绘的波形的形状进行适配。

计算设备10可以对对应于每个词的波形的每个部分的形状进行拉伸，从而替代符号所描绘的波形的每个部分的宽度与每个词呈现在屏幕上时的宽度相匹配。同样，计算设备10可以对对应于每个词的波形的每个部分的形状进行拉伸或收缩，从而替代符号所描绘的波形的高度与每个词在屏幕上呈现时的高度相当。在该示例中，在屏幕呈现的替代符号描绘了音频输入所表示的波形的形状以及每个词的字母数字字符。

例如，视图82A中的替代符号可以对应于视图82B中的字母数字字符“Did”。视图82A中的替代符号可以描绘与音频输入相关联的波形的形状。在显示字母数字字符“Did”之前，计算设备10可以对该替代符号进行拉伸或收缩而使得视图82A中的替代符号与示图82B中所示的字母数字字符“Did”在屏幕上跨越相同的宽度和高度。以这种方式拉伸和/或收缩替代符号可以提供从描绘音频输入所表示的波形到显示系列词的转换。该转换可以确保显示通知但是不会使得用户在计算设备10对音频输入进行转译时分神。

可能存在替代符号以及用于在大写和小写表示之间进行区分的方法的许多其它变化形式。在一个或多个示例中，所描述的功能可以以硬件、软件、固件或者其任意组合来实施。如果以软件来实施，则该功能可以作为一个或多个指令或代码而存储在计算机可读介质上或者通过其进行传送并且由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质，其对应于诸如数据存储介质的有形介质，或者是包括促成计算机程序例如根据通信协议从一个地方传输至另一个地方的任意介质的通信介质。以这种方式，计算机可读介质通常可以对应于(1)有形的计算机可读存储介质，其是非瞬态的，或者(2)诸如信号或载波的通信介质。数据存储介质可以是能够由一个或多个计算机或者一个或多个处理器访问以获取指令、代码和/或数据结构以便实施本公开中所描述的技术的任意可用介质。计算机程序产品可以包括计算机可读介质。

作为示例而非限制，这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或者其它光盘存储、磁盘存储或者其它磁性存储设备、闪存，或者任意其它能够被用来以指令或数据结构的形式存储所期望程序代码并且能够被计算机访问的介质。而且，任意连接都被适当称之为计算机可读介质。例如，如果指令使用同轴线缆、光纤线缆、双绞线、数字订户线路(DSL)、或者诸如红外、无线电和微波的无线技术从网站、服务器或者其它远程源进行传送，则该同轴线缆、光纤线缆、双绞线、DSL、或者诸如红外、无线电和微波的无线技术包括在介质的定义之内。然而，应当理解的是，计算机可读存储介质和数据存储介质不包括连接、载波、信号或者其它瞬态介质，而是指代非瞬态的有形存储介质。如这里所使用的磁盘或碟片包括紧致盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘，其中磁盘通常磁性地再现数据，而碟片则利用激光光学地再现数据。以上的组合也应当被包括在计算机可读介质的范围内。

指令可以由一个或多个处理器来执行，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或者其它等同的集成或离散逻辑电路。因此，如这里所使用的术语“处理器”可以是指任意的以上结构或者任意其它适于实施这里所描述的技术的结构。此外，在一些方面，这里所描述的功能可以在专用硬件和/或软件模块内提供。而且，该技术可以完全以一个或多个电路或逻辑部件来实施。

本公开的技术可以以各种设备或装置来实施，包括无线手机、集成电路(IC)或者IC的集合(例如，芯片组)。各种组件、模块或单元在本公开中描述是为了强调被配置为执行所公开的技术的设备的功能方面，而并非必然要求由不同硬件单元来实施。相反，如以上所描述的，各个单元可以被组合在硬件单元中或者由交互操作的硬件单元的集合结合适当软件和/或固件来提供，上述硬件单元包括如以上所描述的一个或多个处理器。

已经对各个示例进行了描述。这些和其它示例都处于所附权利要求的范围之内。

Claims

1.一种用于对语音识别的文本输入进行视觉确认的方法，所述方法包括：

在计算设备处接收音频输入；

由所述计算设备基于所述音频输入确定一系列词，所述一系列词包括一个或多个字母数字字符；

由所述计算设备输出一个或多个替代符号以显示，其中所述一个或多个替代符号对应于所述一系列词的至少一部分，并且其中所述一个或多个替代符号中的每一个对应于所述一个或多个字母数字字符中的单个相应字母数字字符；以及

响应于确定所述音频输入的接收已经完成，由所述计算设备输出所述一个或多个字母数字字符来替换所述一个或多个替代符号以显示。

2.根据权利要求1所述的方法，其中输出所述一个或多个替代符号发生在接收所述音频输入期间。

3.根据权利要求1所述的方法，进一步包括：

由所述计算设备至少部分地基于所述音频输入确定具有形状的波形，其中来自所述一系列词中的每个词对应于所述波形的一部分，并且其中来自所述一个或多个替代符号的每个替代符号的形状反映所述波形中与来自所述一系列词的每个词相对应的每个部分的形状。

4.根据权利要求1所述的方法，其中确定所述一系列词进一步包括：

由所述计算设备向远程计算设备传送所述音频输入；以及

由所述计算设备从所述远程计算设备处接收基于所述音频输入的所述一系列词。

5.根据权利要求1所述的方法，进一步包括：

由所述计算设备接收用户输入的指示；以及

由所述计算设备至少部分地基于所述用户输入的指示对所述计算设备进行配置以输出替代符号来替换字母数字字符。

6.根据权利要求1所述的方法，其中确定所述音频输入的接收已经完成包括：

由所述计算设备接收在存在敏感屏幕处检测到手势输入的指示。

7.根据权利要求1所述的方法，其中确定所述音频输入的接收已经完成包括：

由所述计算设备确定没有检测到话音的时间量；以及

响应于确定所述时间量满足阈值而由所述计算设备确定所述音频输入的接收已经完成。

8.根据权利要求1所述的方法，进一步包括：

由所述计算设备确定自从所述计算设备开始接收所述音频输入起已经流逝了一段时间；以及

响应于确定所述一段时间满足阈值，由所述计算设备输出所述一个或多个字母数字字符的至少一部分替换所述一个或多个替代符号的至少一部分以显示。

9.根据权利要求1所述的方法，其中来自所述一个或多个替代符号的每个替代符号对应于所述一系列词中的不同字母数字字符。

10.根据权利要求1所述的方法，其中所述一个或多个字母数字字符中的每一个是大写或小写的字母数字字符，并且其中来自所述一个或多个替代符号中的对应于大写字母数字字符的每个替代符号与来自所述一个或多个替代符号中的对应于小写字母数字字符的每个替代符号不同。

11.根据权利要求10所述的方法，其中来自所述一个或多个替代符号的每个替代符号具有尺寸，所述尺寸包括长度、高度、宽度和半径中的至少一个，并且其中来自所述一个或多个替代符号中的对应于大写字母数字字符的每个替代符号的尺寸超过来自所述一个或多个替代符号中的对应于小写字母数字字符的每个替代符号的尺寸。

12.根据权利要求10所述的方法，其中来自所述一个或多个替代符号中的对应于大写字母数字字符的每个替代符号由来自所述一个或多个替代符号中的对应于小写字母数字字符的至少两个替代符号表示。

13.根据权利要求1所述的方法，其中来自所述一个或多个替代符号中的每个替代符号为矩形、圆形、星形、星号或线段。

14.根据权利要求1所述的方法，进一步包括：

响应于基于所述音频输入的第一分段确定第一词，由所述计算设备基于所述音频输入的第二分段确定第二词以替换所述第一词；以及

响应于确定所述第二词，由所述计算设备利用对应于所述第二词的至少一个不同替代符号替换对应于所述第一词的至少一个替代符号。

15.根据权利要求14所述的方法，其中对应于所述第一词的所述至少一个替代符号包括第一颜色并且对应于所述第二词的所述至少一个不同替代符号包括不同于所述第一颜色的第二颜色。

16.根据权利要求14所述的方法，其中在所述计算设备接收所述音频输入的同时利用对应于所述第二词的所述至少一个不同替代符号替换对应于所述第一词的所述至少一个替代符号。

17.根据权利要求1所述的方法，其中所述音频输入包括第一分段以及在所述第一分段之后接收的第二分段，所述方法进一步包括：

由所述计算设备基于所述音频输入的第二分段确定一个或多个词；

由所述计算设备至少部分地基于所述一个或多个词确定基于所述音频输入的第一分段的第一词的概率以及基于所述音频输入的第二分段的第二词的概率；以及

响应于确定所述第二词的概率超过所述第一词的概率，由所述计算设备输出对应于所述第二词的字母数字符号的一组不同的替代符号，来替换对应于所述第一词的所述一个或多个字母数字符号的所述一个或多个替代符号。

18.根据权利要求17所述的方法，其中所述第一词的概率基于所述第一词位于包括所述一系列词的词序列中的语言模型概率，并且所述第二词的概率基于所述第二词位于包括所述一系列词的词序列中的语言模型概率。

19.一种用于对语音识别的文本输入进行视觉确认的系统，所述系统包括：

用于接收音频输入的装置；

用于基于所述音频输入确定一系列词的装置，所述一系列词包括一个或多个字母数字字符；

用于输出一个或多个替代符号以显示的装置，其中所述一个或多个替代符号对应于所述一系列词的至少一部分，并且其中所述一个或多个替代符号中的每一个对应于所述一个或多个字母数字字符中的相应字母数字字符；

用于确定所述音频输入的接收已经完成的装置；以及

用于响应于确定所述音频输入的接收已经完成，输出所述一个或多个字母数字字符来替换所述一个或多个替代符号以显示的装置。