CN106104677B

CN106104677B - 所识别的语音发起的动作的视觉指示

Info

Publication number: CN106104677B
Application number: CN201580014219.XA
Authority: CN
Inventors: 亚历山大·法贝格; 古斯塔沃·索诺达; 乔舒亚·罗宾·卡普兰
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-03-17
Filing date: 2015-02-12
Publication date: 2019-10-25
Anticipated expiration: 2035-02-12
Also published as: EP3120344A1; US9430186B2; US20160335052A1; US20150261496A1; US9990177B2; CN106104677A; WO2015142441A1; EP3120344B1

Abstract

本发明描述了一种计算设备，该计算设备输出具有至少一个元素的初始话音识别图形用户界面(GUI)以用于显示。所述计算设备接收音频数据并且基于所述音频数据来确定语音发起的动作。响应于确定所述语音发起的动作，所述计算设备输出用于显示的具有所述至少一个元素的位置变化的动画的所更新的话音识别GUI，以指示所述语音发起的动作已经被确定。

Description

所识别的语音发起的动作的视觉指示

技术领域

本申请涉及用于提供所识别的语音发起的动作的视觉指示的方法、计算设备和计算机可读存储介质。

背景技术

一些计算设备(例如，移动电话、平板计算机、可穿戴计算设备、个人数字助理等)是“语音激活”的并且能够基于音频输入(例如，用户的语音)来识别语音命令。例如，计算设备可以用麦克风来接收语音输入(例如，音频数据)。计算设备可以使用话音识别技术来分析语音输入以确定命令(例如，“搜索”、“导航”、“播放”、“暂停”、“呼叫”等)并且之后执行与命令相关联的语音发起的动作(例如，提供搜索选项、执行地图应用、开始播放媒体文件、停止播放媒体文件、拨打电话呼叫等)。这样，语音激活的计算设备可以为用户提供通过在计算设备处说出命令来操作计算设备的一些特征的能力。

虽然免提计算能够提供超越替选形式的输入(例如，触摸)的一些益处，但是一些语音激活的计算设备可能使用起来很繁琐。例如，当用户仍在说话时，用户可能无法确定计算设备是否已经识别出语音命令，这可能会使得用户在提供语音输入时犹豫和/或停顿。而音频数据中的犹豫和/或停顿的时段可能会导致语音激活的计算设备执行的语音识别技术中出现偏差。

发明内容

在一个示例中，本公开涉及一种方法，该方法包括：由计算设备输出具有至少一个元素的初始话音识别图形用户界面(GUI)以用于显示，由所述计算设备接收音频数据，以及由所述计算设备基于所述音频数据来确定语音发起的动作。所述方法进一步包括：响应于确定所述语音发起的动作，由所述计算设备输出更新的话音识别GUI以用于显示，所述更新的话音识别GUI具有用于指示所述语音发起的动作已经被确定的、所述至少一个元素的位置变化的动画。

在另一示例中，本公开涉及一种计算设备，该计算设备包括至少一个处理器以及至少一个模块，所述至少一个模块可被所述至少一个处理器操作以：输出具有至少一个元素的初始话音识别图形用户界面(GUI)以用于显示，接收音频数据，以及基于所述音频数据来确定语音发起的动作。所述至少一个模块可进一步由所述至少一个处理器操作以：响应于确定所述语音发起的动作，输出更新的话音识别GUI以用于显示，所述更新的话音识别GUI具有用于指示所述语音发起的动作已经被确定的、所述至少一个元素的位置变化的动画。

在另一示例中，本公开涉及一种包括指令计算机可读存储介质，所述指令在被执行时将至少一个处理器配置为：输出具有至少一个元素的初始话音识别图形用户界面(GUI)以用于显示，接收音频数据，以及基于所述音频数据来确定语音发起的动作。所述计算机可读存储介质进一步包括指令，所述指令在被执行时将所述至少一个处理器配置为：响应于确定所述语音发起的动作，输出更新的话音识别GUI以用于显示，所述更新的话音识别GUI具有用于指示所述语音发起的动作已经被确定的、所述至少一个元素的位置变化的动画。

附图说明

图1是图示了根据本公开的一个或多个方面的、被配置来提供话音识别图形用户界面的示例计算设备的概念图，所述图形用户界面具有所识别的语音发起的动作的视觉指示。

图2是图示了根据本公开的一个或多个方面的、用于提供话音识别图形用户界面的示例计算设备的框图，所述图形用户界面具有所识别的语音发起的动作的视觉指示。

图3是图示了根据本公开的一个或多个技术的、输出图形内容以用于在远程设备处显示的示例计算设备的框图。

图4A至4H是图示了根据本公开的一个或多个技术的示例话音识别图形用户界面的概念图，所述图形用户界面具有所识别的语音发起的动作的视觉指示。

图5是图示了根据本公开的一个或多个技术的、呈现所识别的语音发起的动作的视觉确认的示例计算设备的示例操作的流程图。

具体实施方式

通常，本公开的技术可以使得计算设备能够提供计算设备已经识别出语音命令以用于基于音频数据(例如，语音输入)来执行语音发起的动作的视觉确认。当计算设备的用户对计算设备的麦克风说话时，计算设备可以接收音频数据。当音频数据被接收时，计算设备可以输出传达与音频数据相关的视觉信息(例如，视觉反馈)的话音识别图形用户界面(GUI)以用于显示。例如，在基于音频数据来识别语音命令之前，计算设备可以在话音识别GUI内呈现图形元素以在视觉上指示正在接收音频数据。例如，该图形元素可以是一个或多个图形图标、图像、文本(基于例如所接收的音频数据的转录(transcription))的词语、或其任何组合。在一些示例中，图形元素可以是交互式用户界面图形元素。

无论如何，计算设备可以执行话音识别技术来分析音频数据并且确定一个或多个语音命令，以用于使得计算设备执行语音发起的动作。为了指示已经根据音频数据确定了语音命令，计算设备可以在确定语音命令之前输出所更新的话音识别GUI，其包括在话音识别GUI内显示过的图形元素的可观察动画。该图形元素的动画可以包括话音识别GUI内的图形元素的位置的可观察变化。该图形元素的位置的可观察变化可以提供计算设备已经识别出语音发起的动作的视觉确认。

例如，当计算设备基于音频数据来确定语音发起的动作时，计算设备可以使得图形元素在话音识别GUI内上下移动以模仿人点头来作为肯定响应的指示。在一些示例中，如果计算设备基于音频数据没有确定任何语音发起的动作，则图形元素可能会在话音识别GUI内表现出左右移动以模仿人在摇头时提供的否定响应。

通过呈现动画图形元素来作为接收到语音命令的视觉确认，计算设备可以防止用户在提供语音输入时停顿和/或犹豫。计算设备可以使得用户能够在提供语音命令时更自然地说话，并且可以为用户提供更加容易和快速的方式来确定计算设备是否已经正确地识别出语音发起的动作。

图1是图示了根据本公开的一个或多个方面的、被配置来提供话音识别图形用户界面16的示例计算设备2的概念图，所述图形用户界面16具有所识别的语音发起的动作的视觉指示。在图1的示例中，计算设备2表示能够接收音频数据作为输入并且输出基于该音频数据的图形信息以用于显示的任何类型的计算设备。例如，计算设备2可以是移动计算设备，诸如移动电话、平板计算机、个人数字助理(PDA)、膝上型计算机、便携式游戏设备、便携式媒体播放器、全球定位系统(GPS)设备、电子书阅读器、可穿戴计算设备、计算机化的眼部穿戴物、计算机化的手表、自动导航系统等。在一些示例中，计算设备2可以是固定计算设备，诸如桌面计算机、大型计算机、服务器计算机、电视平台、或者另一类型的计算设备。

如图1所示，计算设备2包括用户界面设备(UID)4。计算设备2的UID4可以充当计算设备2的输入设备和/或输出设备。可以使用各种技术来实现UID4。例如，UID4可以充当使用存在敏感输入显示器的输入设备，该存在敏感输入显示器诸如电阻式触摸屏、表面声波触摸屏、电容式触摸屏、投射式电容触摸屏、压力敏感屏幕、声学脉冲识别触摸屏、或者另一存在敏感显示技术。UID4可以充当使用任何一个或多个显示设备的输出(例如，显示)设备，所述显示设备诸如液晶显示器(LCD)、点阵显示器、发光二极管(LED)显示器、有机发光二级管(OLED)显示器、电子墨水、或者能够向计算设备2的用户输出可见信息的类似的单色或彩色显示器。

计算设备2的UID4可以包括存在敏感显示器，其可以从计算设备2的用户接收触觉输入。UID4可以通过检测来自计算设备2的用户的一个或多个手势(例如，用户用手指或触控笔来触摸或指向UID4的一个或多个位置)来接收触觉输入的指示。例如，UID4可以在存在敏感显示器处向用户呈现输出。UID4可以将输出呈现为可以与由计算设备2提供的功能相关联的图形用户界面(例如，用户界面16)。例如，UID4可以呈现在计算设备2处执行或者可由计算设备2访问的应用(例如，电子消息应用、导航应用、互联网浏览器应用、媒体播放器应用等)的各个用户界面。用户可以与应用的相应用户界面交互以使得计算设备2执行与功能相关的操作。

计算设备2也包括麦克风12。麦克风12可以是计算设备2的一个或多个输入设备中的一个。麦克风12是用于接收诸如音频数据的听觉输入的设备。麦克风12可以从用户接收包括话音的音频数据。麦克风12检测到音频并向计算设备2的其它组件提供相关音频数据以用于处理。除麦克风12之外，计算设备2还可以包括其它输入设备。

计算设备2包括用户界面设备(UI)模块6、话音识别模块8、以及语音激活模块10。模块6、8、和10可以使用驻留在计算设备2中并在其上执行的软件、硬件、固件、或者硬件、软件及固件的混合来执行所描述的动作。计算设备2可以利用多个处理器来执行模块6、8、和10。计算设备2可以将模块6、8、和10作为在底层硬件上执行的虚拟机来执行。模块6、8、和10可以作为操作系统、计算平台的一个或多个服务来执行。模块6、8、和10可以作为一个或多个远程计算服务来执行，所述远程计算服务诸如由基于云和/或集群的计算系统提供的一个或多个服务。模块6、8、和10可以作为计算平台的应用层处的一个或多个可执行程序来执行。

计算设备2的话音识别模块8可以从麦克风12接收音频输入(例如，音频数据)的一个或多个指示并且使用话音识别技术来分析该音频输入或音频数据的指示以识别与该音频数据相关联的话音的部分(例如，所说的词语)。话音识别模块8可以将与音频数据相关联的话音转录(transcribe)成文本数据(例如，文本字符或词语的一个或多个指示)，话音识别模块8将该文本数据提供至UI识别模块6。如以下进一步详述的，UI识别模块6可以指令UID4基于从话音识别模块6接收的文本数据来输出文本以用于在UID4处显示，所述文本诸如用户界面16的非命令文本20。

在话音识别模块8转录来自在麦克风12处所检测到的音频数据的话音之后，计算设备2的语音激活模块10可以从话音识别模块8接收文本数据。语音激活模块10可以分析所转录的文本数据以确定该文本数据是否包括匹配一个或多个关键词或关键词的群组的一个或多个词语或词语的群组，所述关键词组成激活语音发起动作的命令或短语。如以下所更详细描述的，一旦语音激活模块10识别出与语音发起的动作相对应的关键词词语或短语，语音激活模块10便可以将关键词或短语输出至UI模块20，其可以使得UI模块20命令UID4在话音识别用户界面内呈现图形元素的位置变化的动画，以指示已经根据所接收的音频数据来确定语音发起的动作。

UI模块6可以使得UID4呈现图形用户界面(GUI)作为输出并且在计算设备2的用户与在UID4处显示的GUI交互时对UID4处检测到的输入进行解释。例如，UI模块6可以使得UID4输出话音识别图形用户界面16(简称为“用户界面16)。用户可以在UID4的位置处或附近提供输入(例如，一个或多个轻敲或非轻敲手势等)，所述UID4的位置对应于在用户与用户界面16交互以命令计算设备2执行功能时显示一个或多个图形元素的用户界面16的位置。UI模块6可以解释在UID4处检测到的输入并且将该输入的一个或多个指示(例如，输入数据)转发至模块8和10以使得计算设备2执行与该输入相关联的功能。

贯穿本公开描述了示例，其中，仅当计算设备和/或计算系统从用户接收对分析信息的许可时，计算设备和/或计算系统才可以分析与计算设备和/或计算系统相关联的信息(例如，音频数据、语音输入、位置、速度、日历、通信等)。例如，在下面讨论的计算设备和/或计算系统可以收集或者使用基于由用户提供的语音输入的音频数据和/或与计算设备相关联的场境信息的情形下，可以向用户提供机会来提供输入以控制计算设备和/或计算系统的程序或者特征是否能够收集和利用用户信息(例如，关于用户的当前位置、当前速度等的信息)或者规定计算设备是否和/或如何可以接收可能与用户相关的内容。此外，某些数据在由计算设备和/或计算系统存储或者使用之前，可以以一个或多个方式来被处理使得个人可识别信息被去除。例如，用户的身份可以被处理，使得无法确定关于该用户的个人可识别信息，或者可以在获得地理位置的情况下将用户的地理位置一般化(诸如到城市、邮政编码、或者州层级)，使得无法确定用户的具体位置。因此，用户可以控制计算设备和/或计算系统收集和使用关于用户的信息的方式。

图1示出用户界面16，其具有在用户界面16的各个位置处显示的一个或多个图形指示或图形元素。每个图形元素被呈现在与用户界面16的位置相对应的UID4的各个位置处。例如，用户界面16将图形元素24示出为麦克风图标，其在被动画化时能够在用户界面的位置26A、26B、26C与26D之间移动。

在图1的示例中，用户界面16被分成两个区域：编辑区18-A和动作区18-B。编辑区18-A和动作区18-B均可以包括诸如所转录的文本、图像、对象、超链接、文本的字符、菜单、栏、虚拟按钮、虚拟键等相应的图形元素。如本文所使用的，以上列出的图形元素中的任一个可以是用户界面元素。图1仅示出了用户界面16的一个示例布局。在其他示例中，用户界面16可以具有与图1中所示的不同的布局、区域数目、外观、格式、版本、色彩方案、或者其他视觉特性。

UI模块6可以使得UID4在被配置为接收输入或者输出信息的UID4的区域处呈现编辑区18-A。例如，计算设备2可以接收语音输入，话音识别模块8将该语音输入识别为话音并且编辑区18-A输出与该语音输入相关的信息。例如，如图1中所示，用户界面16在编辑区18-A中显示非命令文本20。在其他示例中，编辑区18-A可以基于触摸或者基于手势的输入来更新所显示的信息。

UI模块6可以使得UID4在被配置为接受来自用户的输入或者提供计算设备2在过去已采取、当前正在采取、或者将要采取的动作的图形指示的UID4的区域处呈现动作区18-B。在一些示例中，动作区18-B可以包括图形键盘，其包括被显示为键的图形元素。在一些示例中，在计算设备2处于话音识别模式的同时，动作区18-B不输出用于显示的图形键盘。

UI设备模块6可以充当计算设备2的各个组件之间的中介以基于由UID4检测到的输入来进行确定并且生成由UID4呈现的输出。例如，UI模块6可以接收信息作为来自语音激活模块10的输入，该信息将图形元素24识别为与由语音激活模块10基于在麦克风12处接收到的音频数据来确定的语音发起的动作相对应或相关联的。在UID4呈现用户界面16以用于显示时，响应于计算设备2从音频输入的指示识别出语音发起的动作，UI模块6可以更新用户界面16以使得图形元素24具有图形元素24的位置变化的动画，使得图形元素24可以表现出在位置26A、26B、26C、与26D之间移动。

位置26A至26D(统称为“位置26”)在图1中被示出为被显示在UID4处的用户界面16的各个位置处的阴影圆。在一些示例中，位置26可以不被显示为阴影圆。在一些示例中，位置26表示覆盖于UID4和用户界面16处的虚拟网格处的坐标位置。为便于图示，示出位置26来示出UI模块20可以如何导致图形元素24的动画，该动画导致图形元素24的位置发生变化以使得图形元素24当被呈现在UID4处时可以表现出在位置26之间移动。

在话音识别模块8对在麦克风12处接收到的音频数据执行话音转文本的技术时，UI模块6可以从话音识别模块8接收文本数据作为输入。UI模块6使得UID4在编辑区18-A处以第一视觉格式(例如，特定的色彩、大小、字体等)来显示所转录的文本字符。例如，图1示出UI模块6可以使得UID4基于音频数据来以第一视觉格式将非命令文本20呈现为文本字符。

UI模块6可以从语音激活模块10接收信息，该信息将编辑区18-A处所显示的文本字符中的至少一部分识别为与命令文本相对应。基于所识别的信息，UI模块6可以以与第一视觉格式——最初以该第一视觉格式格式来显示命令文本或者图形元素——不同的第二视觉格式来显示与语音命令相关联的文本或者另一图形元素。例如，图1进一步示出UI模块6可以使得UID4基于音频数据来以不同于与非命文本20相关联的第一视觉格式的第二视觉格式将命令文本22呈现为文本字符。

根据本公开的技术，计算设备2可以输出具有至少一个元素的初始话音识别用户界面以用于显示。当计算设备2基于所接收的音频数据来识别语音发起的动作时，计算设备2可以输出用于显示的所更新的话音识别用户界面来指示语音发起的动作被识别，所更新的话音具有至少一个元素的位置变化的动画。

例如，计算设备2的用户可以在麦克风12处说话。响应于检测到音频数据正被麦克风12接收的指示，话音识别模块8和UI模块6可以使得UID4呈现用户界面16。UI设备模块6可以向UID4发送信息，该信息包括对于在UID4的存在敏感显示器处显示用户界面16的指令。UI模块6可以使得UID4呈现具有在位置26A处的图形元素24的用户界面16，直到命令或者语音发起的动作被语音激活模块10识别。在动作区18-B内的图形元素24的该初始位置可以在视觉上向用户指示计算设备2正在检测他或她的话音以及“收听”语音命令。

除呈现图形元素24之外，UI模块6可以基于所接收的音频输入来呈现所转录的文本作为向用户的对计算设备2正在检测他或她的话音的进一步指示。例如，话音识别模块8可以将与在麦克风12处接收到的音频数据的转录相关联的文本数据输出至UI模块6。UI模块6可以在编辑区18-A处将文本数据呈现为一个或多个图形元素。在图1的示例中，用户可以在麦克风12处说出话语“我想要听爵士乐(I would like to listen to jazz)”。话音识别模块8以及UI模块20可以使得UID4在编辑区18-A内以第一视觉模式(例如，未大写、未加下划线等)来呈现非命令文本20。

计算设备2可以基于音频数据来确定语音发起的动作。例如，当UI模块6在UID4处呈现非命令文本20时，语音激活模块10可以接收来自麦克风12的音频数据和/或来自话音识别模块8的文本数据并且针对与所识别的语音命令相关联的一个或多个匹配的关键词或短语来分析音频数据和/或文本数据，以用于使得计算设备2执行对应的语音发起的动作。换言之，计算设备2可以分析音频数据和/或文本数据以确定命令(例如，“搜索”、“导航”、“播放”、“暂停”、“呼叫”等)，其可以使得计算设备2执行与该命令相关联的语音发起的动作(例如，提供搜索选项、执行地图应用、开始播放媒体文件、停止播放媒体文件、拨打电话等)。存在命令和语音发起的动作的各种示例。通常，语音发起的动作表示能够经由用户输入来发起的计算设备2的任何功能。

响应于确定语音发起的动作，计算设备2可以输出具有至少一个元素的位置变化的动画的所更新的话音识别图形用户界面以用于显示，以指示所述语音发起的动作已被确定。例如，图1示出语音激活模块10可以向UI模块6输出信息，该信息指示短语，文本数据的转录部分中的与该短语＝相关的部分(例如，与短语“听(listen to)”相关联的文本)与被语音激活模块10识别的语音命令相关联。

在命令或者语音发起的动作“听”被语音激活模块10识别之后，UI模块6可以使得UID4呈现用户界面16，其具有图形元素24的位置变化的动画。换言之，UI模块6可以使得图形元素24从初始位置26A转变到位于位置26A上方的位置26B、再到位于初始位置26A和26B下方的位置26C，并且之后再到位于初始位置26A处或者十分接近初始位置26A的位置26D。图形元素24的位置变化的动画可以表现出类似于人点头来作为肯定手势。这种类型的动画可以向计算设备2的用户指示语音命令或语音发起的动作已经被计算设备2识别和确定。

在一些示例中，在接收到附加的音频数据时，计算设备可以输出用于显示的具有至少一个元素的位置变化的动画的所更新的话音识别图形用户界面，以指示语音发起的动作已经被确定。换言之，麦克风12在计算设备12的用户继词语“听”后说出词语“爵士乐(jazz)”时可以继续接收音频，并且UI模块6在由麦克风12接收到的附加音频数据被话音识别模块8和语音激活模块10分析时可以输出文本“爵士乐(jazz)”。通过这种方式，计算设备2能够提供图形元素24的动画作为语音命令或者语音发起的动作被识别的可观察指示，而不会使得用户在提供语音输入时停顿或犹豫。

在一些示例中，为了进一步指示计算设备2从音频数据中识别出命令，UI模块6可以将对非命令文本20的呈现更新为包括命令文本22的指示。换言之，在语音激活模块10确定用户说出命令“听”之前，UI模块6可以使得UID4以未加下划线并且未大写的格式来在编辑区18-A处呈现文本“我想要听(I would like to listen to)”。在UI模块6从语音激活模块10接收到关于所识别的语音命令“听”的信息之后，UI模块20可以对用户界面16的呈现进行更新来以大写且加下划线的格式呈现命令文本20(例如，词语“听”)。

通过这种方式，本公开的技术可以使得计算设备能够呈现动画化的图形元素作为接收到语音命令的视觉确认。以这种方式呈现动画化的图形元素可以防止用户在提供语音输入时停顿和/或犹豫。计算设备可以使得用户能够在提供语音命令时说话更加自然，并且可以为用户提供更加简单和快速的方式来确定计算设备是否已经正确地识别出语音发起的动作。通过提供所识别的语音发起的动作的视觉指示，计算设备可以改善对话音识别特征的总体用户满意度。所描述的技术可以利用根据本公开的各种技术所配置的计算设备的语音控制来改善用户的体验。

贯穿本公开描述了示例，其中，仅当计算设备和/或计算系统从用户接收对信息进行分析的许可时，计算设备和/或计算系统才可以分析与计算设备和/或计算系统相关联的信息(例如，音频数据、语音输入、位置、速度、日历、通信等)。例如，在下面讨论的计算设备和/或计算系统可以收集或者使用基于由用户提供的语音输入的音频数据和/或与计算设备相关联的场境信息的情形下，可以向用户提供机会来提供输入以控制计算设备和/或计算系统的程序或者特征是否能够收集和利用用户信息(例如，关于用户的当前位置、当前速度等的信息)或者规定计算设备是否和/或如何可以接收可能与用户相关的内容。此外，某些数据在由计算设备和/或计算系统存储或者使用之前，可以以一个或多个方式来被处理，使得个人可识别信息被去除。例如，用户的身份可以被处理，使得无法确定关于该用户的个人可识别信息，或者可以在获得地理位置的情况下将用户的地理位置一般化(诸如到城市、邮政编码、或者州层级)，使得无法确定用户的具体位置。因此，用户可以控制计算设备和/或计算系统收集和使用关于用户的信息的方式。

图2是图示了根据本公开的一个或多个方面的、用于提供话音识别图形用户界面的计算设备2的框图，所述图形用户界面具有所识别的语音发起的动作的视觉指示。下面在图1的场境内对图2的计算设备2进行描述。图2仅图示了计算设备2的一个特定示例，并且在其它实例下可以使用计算设备2的许多其它示例。计算设备2的其它示例可以包括被包括在示例计算设备2中的组件的子集，或者可以包括图2中未示出的附加组件。

如图2的示例中所示，计算设备2包括用户界面设备(“UID”)4、一个或多个处理器40、一个或多个输入设备42、一个或多个麦克风12、一个或多个通信单元44、一个或多个输出设备46、以及一个或多个存储设备48。计算设备2的存储设备48还包括UID模块6、话音识别模块8、语音激活模块10、应用模块14A-14N(统称为“应用模块14”)、语言数据存储56、以及动作数据存储58。一个或多个通信信道50可以将组件4、6、8、10、14、40、42、44、46、48、56、以及58中的每一个互连以用于组件间通信(在物理上、在通信上、和/或在操作上通信)。在一些示例中，通信信道50可以包括系统总线、网络连接、进程间通信数据结构、或者用于传输数据的任何其它技术。

计算设备2的一个或多个输入设备42可以接收输入。输入的示例是触觉输入、动作(motion)输入、音频输入、以及视频输入。在一个示例中，计算设备2的输入设备42包括存在敏感显示器5、触摸敏感屏幕、鼠标、键盘、语音响应系统、视频摄像头、麦克风(诸如麦克风12)、或者用于检测来自人或机器的输入的任何其它类型的设备。

计算设备2的一个或多个输出设备42可以生成输出。输出的示例是触觉输出、音频输出、电磁输出、以及视频输出。在一个示例中，计算设备2的输出设备46包括存在敏感显示器、扬声器、阴极射线管(CRT)监视器、液晶显示器(LCD)、马达、致动器、电磁体、压电传感器、或者用于向人或机器生成输出的任何其它类型的设备。输出设备46可以利用声卡或者视频图形适配卡中的一个或多个来分别产生听觉或视觉输出。

计算设备2的一个或多个通信单元44可以通过在一个或多个网络上发射和/或接收网络信号经由该一个或多个网络来与外部设备进行通信。通信单元44可以连接到任何公共通信网络或专用通信网络。例如，计算设备2可以使用通信单元44来在诸如蜂窝无线电网络的无线电网络上发射和/或接收无线电信号。同样地，通信单元44可以在诸如全球定位系统(GPS)的全球导航卫星系统(GNNS)上发射和/或接收卫星信号。通信单元44的示例包括网络接口卡(例如，以太网卡)、光学收发器、射频收发器、GPS接收器、或者能够发送或接收信息的任何其它类型的设备。通信单元44的其它示例可以包括短波无线电、蜂窝式数据无线电、无线以太网网络无线电、以及通用串行总线(USB)控制器。

在一些示例中，计算设备2的UID12可以包括输入设备42和/或输出设备46的功能。在图2的示例中，UID4可以是或者可以包括存在敏感显示器5。在一些示例中，存在敏感显示器5可以检测在存在敏感显示器5处和/或附近的对象。作为一个示例，存在敏感显示器5可以检测到在存在敏感显示器5的六厘米或少于六厘米内的诸如手指或触针笔的对象。存在敏感显示器5可以确定在该处检测到对象的存在敏感显示器5的位置(例如，(x,y)坐标)。在另一示例中，存在敏感显示器5可以检测到距存在敏感显示器5十五厘米或少于十五厘米的对象，并且其它范围也是可能的。存在敏感显示器5可以使用电容识别技术、电感识别技术、和/或光学识别技术来确定由用户的手指选择的屏幕的位置。在一些示例中，存在敏感显示器5使用关于输出设备46所描述的触觉、音频、或者视频刺激来向用户提供输出。在图2的示例中，UID4在UID4的存在敏感显示器5处呈现用户界面(诸如图1的用户界面16)。

尽管UID4被图示为计算设备2的内部组件，但UID4也表示与计算设备2共享数据路径以用于传送和/或接收输入和输出的外部组件。例如，在一个示例中，UID4表示位于计算设备2的外部封装物内并被物理连接到该外部封装物的计算设备2的内置组件(例如，移动电话上的屏幕)。在另一示例中，UID4表示位于计算设备2的封装物外面并在物理上与其分离的计算设备2的外部组件(例如，与平板计算机共享有线和/或无线数据路径的监视器、投影仪等)。

计算设备2内的一个或多个存储设备48可以存储信息以用于在计算设备2的操作期间进行处理(例如，计算设备2可以将数据存储于在计算设备2处的执行期间由话音识别模块8和语音激活模块10访问的语言数据存储56和动作数据存储58中)。在一些示例中，存储设备48充当暂时存储器，意指存储设备48不被用于长期存储。计算设备2上的存储设备48可以作为易失性存储器被配置用于信息的短期存储，并且因此如果被断电则无法保持所存储的内容。易失性存储器的示例包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、以及在本领域中已知的其它形式的易失性存储器。

在一些示例中，存储设备48还包括一个或多个计算机可读存储介质。存储设备48可以被配置来比易失性存储器存储更大量的信息。存储设备48可以作为非易失性存储器被配置用于信息的长期存储并且在电源开/关过程(cycle)之后保持信息。非易失性存储器的示例包括磁性硬盘、光盘、软盘、闪存、或者电可编程存储器(EPROM)或电可擦可编程(EEPROM)存储器的形式。存储设备48可以存储与模块6、8、10、和14相关联的程序指令和/或数据。

一个或多个处理器40可以实施功能和/或执行在计算设备2内的指令。例如，计算设备2上的处理器40可以接收和执行由存储设备48存储的执行UID模块6、话音识别模块8、语音激话模块10、以及应用模块14的功能的指令。由处理器40执行的这些指令可以使得计算设备2在程序执行期间将信息存储在存储设备48内。处理器40可以执行模块6、8、和10中的指令以使得UID4在计算设备2识别出语音发起的动作后显示具有图形元素的用户界面16，该图形元素具有不同于先前视觉格式的视觉格式。也就是说，模块6、8、和10可以是可由处理器40操作以执行各种动作，包括转录所接收的音频数据、针对语音发起的动作分析该音频数据、以及更新UID4的存在敏感显示器5以呈现与语音发起的动作相关联的具有位置变化的动画的图形元素和/或具有图形元素的视觉格式变化的图形元素。此外，UID模块6可以是可由处理器40操作以执行各种动作，包括在UID4的存在敏感显示器5的位置处接收手势的指示以及使得UID4在UID4的存在敏感显示器5处呈现用户界面14。

根据本公开的方面，图2的计算设备2可以在UID4处输出具有至少一个元素的初始话音识别图形用户界面。例如，当用户在麦克风12处说话时，计算设备2的麦克风12可以接收音频数据以提供语音命令或者以其他方式通过他或她的语音来发起动作。在基于音频数据来执行语音发起的动作之前并且在接收到附加音频数据的同时(例如，在与语音发起的动作相关联的数据之前和/或在与语音发起的动作相关联的数据之后所接收的音频数据)，UI模块6可以使得UID4输出图1的用户界面16的初始表示。在UI模块20从语音激活模块10接收到基于所接收的音频数据来指示所识别的语音发起的动作的信息之后，UI模块20可以使得UID4呈现所更新的话音识别GUI。例如，UI模块20可以使得UID4呈现具有包含位置变化的动画的图形元素24，以指示与音频数据相关联的语音发起的动作被确定。

计算设备2的话音识别模块8可以从麦克风12接收例如在麦克风12处检测到的音频数据的一个或多个指示。通常，麦克风12可以提供所接收的音频数据或者音频数据的指示，话音识别模块8可以从麦克风12接收该音频数据。话音识别模块8可以确定与从麦克风12接收到的音频数据相对应的信息是否包括话音。使用话音识别技术，话音识别模块8可以转录音频数据。如果该音频数据确实包括话音，则话音识别模块8可以使用语言数据存储6来转录音频数据。

话音识别模块8还可以确定音频数据是否包括特定用户的语音。在一些示例中，如果音频数据对应于人类语音，则话音识别模块8确定该语音是否属于计算设备2的先前用户。如果该音频数据中的语音确实属于先前用户，则话音识别模块8可以基于该用户的话音的某些特性来修改话音识别技术。这些特性可以包括声调、变音符号(accent)、节奏、连贯(flow)、发音(articulation)、音高(pitch)、共鸣性(resonance)、或者话音的其它特性。考虑到与用户话音有关的已知特性，话音识别模块8可以改善转录该用户的音频数据的结果。

在计算设备2具有使用话音识别的多于一个用户的示例中，计算设备2可以具有每个用户的简档。话音识别模块8可以响应于从用户接收到附加语音输入来更新该用户的简档，以便将来改善对于该用户的话音识别。也就是说，话音识别模块8可以适应于计算设备2的每个用户的特定特性。话音识别模块8可以通过使用机器学习技术来适应每个用户。话音识别模块8的这些语音识别特征对于计算设备2的每个用户能够是可选的。例如，在话音识别模块8可以存储、分析、或以其他方式处理与用户话音的特定特性相关的信息之前，计算设备2可能有必要接收用户选择进入可适应话音识别的指示。

在一些示例中，话音识别模块8转录话音识别模块8直接地或间接地从麦克风12接收到的音频数据中的话音。话音识别模块8可以向UI设备4提供与所转录的话音相关的文本数据。例如，话音识别模块8向UI设备4提供所转录的文本的字符。UI设备4可以在用户界面16处输出在与所转录的话音相关的信息中识别出的与所转录的话音相关的文本以用于显示。

计算设备2的语音激活模块10可以从话音识别模块8接收例如来自在麦克风12处检测到的音频数据的所转录的话音的文本字符。语音激活模块10可以分析所转录的文本或者音频数据以确定其是否包括激活语音发起的动作的关键词或短语。在一些示例中，语音激活模块10将来自音频数据的词语或短语与能够通过语音激活来触发的动作列表相比较。例如，该动作列表可以是一列动词，诸如运行、播放、关闭、打开、开始、发电子邮件等。语音激活模块10可以使用动作数据存储58来确定词语或短语是否对应于动作。即，语音激活模块10可以将来自音频数据的词语或短语与动作数据存储58相比较。动作数据存储58可以包含与动作相关联的词语或短语的数据。

一旦语音激活模块10识别出激活语音发起的动作的词语或短语，语音激活模块10便使得UI模块6和UID4在用户界面16内显示具有位置变化的动画的图形元素以指示语音发起的动作已经被成功地识别。例如，当语音激活模块10确定所转录的文本中的词语与语音发起的动作相对应时，UID4将该词语的输出从第一视觉格式(其可以是与所转录的文本的其余部分相同的视觉格式)变成不同的第二视觉格式。例如，与语音发起的动作相关的关键词或短语立刻地或者近似立刻地在该转录的显示中采取不同风格以指示计算设备2识别出语音发起的动作。在另一示例中，当计算设备2识别出语音发起的动作时，图标或者其他图像从一个视觉格式形变(morph)为另一视觉格式，其可以基于所识别的语音发起的动作。

换言之，话音识别模块8可以基于由麦克风12所接收的音频数据来确定转录，并且语音激活模块10可以识别与语音发起的动作相关联的该转录的一个或多个词语。在一些示例中，具有指示所识别的语音发起的动作的动画的图形元素可以进一步包括由话音识别模块8所识别的一个或多个词语中的至少一部分。

在一些示例中，通过至少部分地基于将基于音频数据的转录的词语或短语与动作的预配置的集合的比较来确定语音发起的动作，语音激活模块10可以确定语音发起的动作。换言之，语音激活模块10可以从动作数据存储58内比较和“查找”由话音识别模块8所转录的文本数据的部分以识别匹配文本数据的所述部分的任何已存储的语音发起的动作。

在一些示例中，语音激活模块10可以识别转录中的至少一个动词，并且将所述至少一个动词与来自动词集合的一个或多个动词进行比较，所述动词集合中的每个动词与来自包括语音发起的动作的多个动作中的至少一个动作相关联。换言之，话音识别模块8和/或语音激活模块10可以针对动作词语、短语、或者计算设备2可以使用作为语音命令的其他类型的词语来解析基于所接收的音频数据所转录的文本。一旦已经从音频数据中识别出动词，语音激活模块10便可以执行从动作数据存储58内对动词的查找。如果动作数据存储58返回与动词搜索相关联的语音发起的动作，则语音激活模块10可以向UI模块6输出信息以使得UID4呈现图形元素24的动画，以标明动词以及对应的语音发起的动作被识别。

计算设备2可以进一步包括一个或多个应用模块14-A至14-N。除在本公开中具体描述的其他模块之外，应用模块14还可以包括计算设备2可以执行的任何其他应用。例如，应用模块14可以包括web浏览器、媒体播放器、文件系统、地图或导航程序、或者计算设备2可以包括的任何其他数目的应用或特征。

本文所述的技术可以使得计算设备能够在使用语音命令来控制该计算设备时改善用户的体验。例如，本公开的技术可以使得计算设备能够在不使用户从提供附加语音输入分心的情况下输出计算设备已经准确识别出语音发起的动作的可观察指示。换言之，话音识别GUI的图形元素的位置变化的微妙动画可以起到双重作用：向用户指示语音发起的动作被计算设备确定，同时也用于鼓励而不阻碍用户继续提供语音输入。通过以这种方式来提供图形元素的位置变化的可观察动画，计算设备可以为用户提供对计算设备正在正确地解读他或她的命令并且将实施或正在实施正确的语音发起的动作的更大把握。

本文所述的技术可以进一步使得计算设备2能够为用户提供选项以确认计算设备2是否正确地使用音频数据来对动作进行确定。在一些示例中，如果计算设备2接收到其并未正确地确定动作的指示，则其可以取消动作。在另一示例中，计算设备2仅在接收到计算设备2正确地确定了动作的指示后才执行语音发起的动作。本文所述的技术可以改善计算设备2的效能和总体易用性。

当提供语音输入时，计算设备的用户可能不知道计算设备何时已经理解命令并且可能犹豫，这可能降低语音命令的准确度并且导致低于预期水平的用户体验。在一些示例中，本公开的技术可以使得计算设备能够提供计算设备识别出与由用户提供的语音命令相关联的动作的视觉指示。例如，当用户发起移动平台的语音识别特征时，图标可以出现在屏幕处，该图标包括在其中部具有麦克风的圆圈。当用户说话时，图标可以不改变外观。然而，一旦计算设备识别语音命令中的动词(动作)和/或当用户完成说话时，图标便可以通过垂直跳动一次或多次来“点头”。该点头可以指示对用户的语音输入进行肯定的人点头。

在一些示例中，垂直跳动可以与从麦克风到与所识别动作相关联的图标的图标变化相结合。例如，如果所识别的动作是播放音乐，则图标可以从麦克风变成播放按钮。在一些示例中，不同于“点头”运动，图标可以在圆圈中左右移动或者执行任何其他移动以指示计算设备识别出动词/动作。在一些示例中，不同于在识别动作时使图标“点头”，计算设备可以使得话音识别GUI的另一方面改变来指示计算设备识别出了动作，诸如改变背景颜色、改变与语音命令相关联的文本的外观、改变图标来指示所识别的语音命令等。

图3是图示了根据本公开的一个或多个技术的、输出图形内容以用于在远程设备处显示的示例计算设备100的框图。通常，图形内容可以包括可以被输出用于显示的任何视觉信息，诸如文本、图像、一组运动图像等。图3中所示的示例包括计算设备100、存在敏感显示器101、通信单元110、投影仪120、投影屏幕122、移动设备126、以及视觉显示设备130。虽然出于示例的目的在图1和2中被示出为独立计算设备2，但是诸如计算设备100的计算设备通常可以是任何组件或系统，其包括处理器或者用于执行软件指令的其他合适的计算环境并且例如不必包括存在敏感显示器。

如图3的示例中所示，计算设备100可以是包括关于图2中的处理器40所述的功能的处理器。在这样的示例中，计算设备100可以通过通信信道102A来被可操作地耦合至存在敏感显示器101，所述通信信道102A可以是系统总线或者其他合适的连接。进一步如下所述，计算设备100也可以通过通信信道102B来被可操作地耦合至通信单元110，所述通信信道102B也可以是系统总线或者其他合适的连接。尽管图3中作为示例被单独示出，但计算设备100可以通过任何数目的一个或多个通信信道来被可操作地耦合至存在敏感显示器101以及通信单元110。

在其他示例中，诸如先前通过图1至2中的计算设备2所图示的，计算设备可以指代便携设备或移动设备，诸如移动电话(包括智能电话)、膝上型计算机等。在一些示例中，计算设备可以是桌面计算机、平板计算机、智能电视平台、相机、个人数字助理(PDA)、服务器、主机等。

诸如图1中所示的用户界面设备4的示例的存在敏感显示器101可以包括显示设备103以及存在敏感输入设备105。例如，显示设备103可以从计算设备100接收数据并且显示与该数据相关联的图形内容。在一些示例中，存在敏感输入设备105可以使用电容、电感、和/或光学识别技术来确定存在敏感显示器101处的一个或多个用户输入(例如，连续手势、多点触摸手势、单点触摸手势等)，并且使用通信信道102A将这样的用户输入的指示发送至计算设备100。在一些示例中，存在敏感输入设备105可以在物理上位于显示设备103的上方，使得当用户将输入单元置于由显示设备103显示的图形元素上方时，存在敏感输入设备105所处的位置对应于在该处显示图形元素的显示设备103的位置。在其他示例中，存在敏感的输入设备105可以在物理上与显示设备103分离安置，并且存在敏感输入设备105的位置可以对应于显示设备103的位置，使得能够在存在敏感的输入设备105处作出输入，以用于与在显示设备103的对应位置处所显示的图形元素交互。

如图3中所示，计算设备100还可以包括通信单元110和/或与其可操作地耦合。通信单元110可以包括如图2中所述的通信单元44的功能。通信单元110的示例可以包括网络接口卡、以太网卡、光学收发器、射频收发器、或者能够发送和接收信息的任何其它类型的设备。这样的通信单元的其他示例可以包括Bluetooth、3G、以及Wi-Fi无线电、通用串行总线(USB)接口等。计算设备100还可以包括一个或多个其他设备和/或与其可操作地耦合，例如，诸如在图1和2中所示的那些的输入设备、输出设备、存储器、存储设备等。

图3还图示了投影仪120以及投影屏幕122。投影设备的其他这样的示例可以包括电子白板、全息显示设备、以及用于显示图形内容的任何其他合适的设备。投影仪120以及投影屏幕122可以包括使得相应设备能够与计算设备100进行通信的一个或多个通信单元。在一些示例中，一个或多个通信单元可以使得投影仪120与投影屏幕122之间能够通信。投影仪120可以从计算设备100接收包括图形内容的数据。响应于接收数据，投影仪120可以将图形内容投射到投影屏幕122上。在一些示例中，投影仪120可以使用光学识别或其它合适的技术来确定投影屏幕处的一个或多个用户输入(例如，连续手势、多点触摸手势、单点触摸手势等)，并且使用一个或多个通信单元来将这样的用户输入的指示发送至计算设备100。在这样的示例中，投影仪屏幕122可以是不必要的，并且投影仪120可以将图形内容投射在任何适当介质上，并且使用光学识别或者其他这样的合适的技术来检测一个或多个用户输入。

在一些示例中，投影屏幕122可以包括存在敏感显示器124。存在敏感显示器124可以包括本公开中所述的UI设备4的功能的子集或者其全部功能。在一些示例中，存在敏感显示器124可以包括附加功能。投影屏幕122(例如，电子白板)可以从计算设备100接收数据并且显示图形内容。在一些示例中，存在敏感显示器124可以使用电容、电感、和/或光学识别技术来确定投影屏幕122处的一个或多个用户输入(例如，连续手势、多点触摸手势、单点触摸手势等)，并且使用一个或多个通信单元将这样的用户输入的指示发送到计算设备100。

图3还图示了移动设备126以及视觉显示设备130。移动设备126和视觉显示设备130均可以包括计算能力和连通能力。移动设备126的示例可以包括电子阅读器设备、可转换笔记本设备、混合板式设备等。视觉显示设备130的示例可以包括其他半固定式设备，诸如电视机、计算机监视器等。如图3中所示，移动设备126可以包括存在敏感显示器128。视觉显示设备130可以包括存在敏感显示器132。存在敏感显示器128、132可以包括如在本公开中所述的存在敏感显示器4的功能的子集或所有功能。在一些示例中，存在敏感显示器128、132可以包括附加功能。在任何情况下，例如，存在敏感显示器132可以从计算设备100接收数据并且显示图形内容。在一些示例中，存在敏感显示器132可以使用电容、电感、和/或光学识别技术来确定投影屏幕处的一个或多个用户输入(例如，连续手势、多点触摸手势、单点触摸手势等)，并且使用一个或多个通信单元将这样的用户输入的指示发送至计算设备100。

如上所述，在一些示例中，计算设备100可以输出图形内容以用于在通过系统总线或者其他适当通信信道耦合至计算设备100的存在敏感显示器101处显示。计算设备100还可以输出图形内容以用于在一个或多个远程设备处显示，该远程设备诸如投影仪120、投影屏幕122、移动设备126、以及视觉显示设备130。例如，根据本公开的技术，计算设备100可以执行一个或多个指令以生成和/或修改图形内容。计算设备100可以将包括图形内容的数据输出至计算设备100的通信单元，诸如通信单元110。通信单元110可以将数据发送至诸如投影仪120、投影屏幕122、移动设备126、和/或视觉显示设备130的远程设备中的一个或多个。通过这种方式，计算设备100可以输出图形内容以用于在远程设备中的一个或多个处显示。在一些示例中，远程设备中的一个或多个可以在存在敏感显示器处输出图形内容，该存在敏感显示器被包括在相应的远程设备中和/或可操作地耦合至该相应的远程设备。

在一些示例中，计算设备100可以不在被可操作地耦合至计算设备100的存在敏感显示器101处输出图形内容。在其他示例中，计算设备100可以输出图形内容以用于在通过通信信道102A耦合到计算设备100的存在敏感显示器101以及一个或多个远程设备这两者处显示。在这样的示例中，图形内容可以被基本上同时地显示于每个相应的设备处。例如，可能因向远程设备发送包括图形内容的数据的通信延时而引起一些延迟。在一些示例中，由计算设备100生成并且输出以用于在存在敏感显示器101处显示的图形内容可以不同于输出以用于在一个或多个远程设备处显示的图形内容。

计算设备100可以使用任何合适的通信技术来发送和接收数据。例如，计算设备100可以使用网络链路112A来被可操作地耦合至外部网络114。图3中所图示的远程设备中的每一个都可以通过相应网络链路112B、112C、和112D中的一个来被可操作地耦合至外部网络114。外部网络114可以包括可操作地互相耦合的网络集线器、网络交换机、网络路由器等，由此提供图3中所图示的计算设备100与远程设备之间的信息交换。在一些示例中，网络链路112A-112D可以是以太网、ATM、或者其他网络连接。这样的连接可以是无线和/或有线连接。

在一些示例中，计算设备100可以使用直接设备通信118来被可操作地耦合至图3中所包括的远程设备中的一个或多个。直接设备通信118可以包括计算设备100通过其直接与远程设备使用有线或无线通信来发送和接收数据的通信。即，在直接设备通信118的一些示例中，在远程设备处接收到由计算设备100所发送的数据之前，可以不通过一个或多个附加设备来转发该数据，并且反之亦然。直接设备通信118的示例可以包括Bluetooth、近场通信、通用串行总线、Wi-Fi、红外线等。图3中所图示的远程设备中的一个或多个可以通过通信链路116A-116D来与计算设备100可操作地耦合。在一些示例中，通信链路116A-116D可以是使用Bluetooth、近场通信、通用串行总线、红外线等的连接。这样的连接可以是无线和/或有线的连接。

根据本公开的技术，计算设备100可以使用外部网络114来被可操作地耦合至视觉显示设备130。计算设备100可以输出图形键盘以用于在存在敏感显示器132处显示。例如，计算设备100可以向通信单元110发送包括图形键盘的表示的数据。通信单元110可以使用外部网络114向视觉显示设备130发送包括图形键盘的表示的数据。响应于使用外部网络114接收到数据，视觉显示设备130可以使得存在敏感显示器132输出图形键盘。响应于用户在存在敏感显示器132处(例如，在输出图形键盘的存在敏感显示器132的区域处)执行手势，视觉显示设备130可以使用外部网络114来向计算设备100发送手势的指示。通信单元110可以接收手势的指示，并且将该指示发送至计算设备100。

响应于接收到被包括在音频数据中的话音，计算设备100可以或可以不将话音转录成文本。计算设备100可以使得诸如存在敏感输入显示器105、投影仪120、存在敏感显示器128、或者存在敏感显示器132的显示设备中的一个输出指示音频数据正被接收的图形元素。该图形元素可以包括或者可以不包括所转录的文本的至少一部分。计算设备100可以确定音频数据和/或所转录的文本包括语音发起的动作，并且使得显示设备105、120、128、或132中的一个输出与语音发起的动作相关的图形元素的位置变化的动画。该动画可以使得图形元素表现出在点头或以其他方式肯定计算设备100已经检测到语音发起的动作。计算设备100可以执行该语音发起的动作。

图4A至4H是图示了根据本公开的一个或多个技术的示例话音识别图形用户界面的概念图，所述图形用户界面具有所识别的语音发起的动作的视觉指示。图4A至4H的计算设备200可以是如上文关于图1至3所讨论的任何计算设备，包括移动计算设备、固定计算设备、和/或可穿戴计算设备。此外，计算设备200可以被配置为包括本文所描述的特征和技术的任何子集以及附加特征和技术。图4A至图4H包括能够具有不同视觉格式的图形元素204-A至204-D(统称为“图形元素204”)。

图4A描绘了具有图形用户界面(GUI)202A并且在计算设备200可以接收音频数据的状态操作的计算设备200。例如，诸如图1和图2的麦克风12的麦克风可以被初始化并且能够检测包括话音的音频数据。GUI202A可以是话音识别GUI。GUI 202A包括图形元素202和204-A。图形元素202是文本并且标示“现在说话(speak now)”，其可以指示计算设备200能够接收音频数据。图形元素204-A是表示麦克风的图标。因此，图形元素204-A可以指示计算设备200能够执行记录音频数据的动作。

图4B图示了计算设备200响应于在图4A中接收到音频数据来输出GUI 202B。GUI202B包括图形元素204-A、208、和210。在本示例中，计算设备200已经使用例如话音识别模块8和语言数据存储56来转录所接收的音频数据。如由麦克风图标204-A所指示，计算设备200可能仍在接收附加音频数据。所转录的音频数据在图形元素208中被输出为文本并且包括词语“我想要导航至(I want to navigate to)”。图形元素210可以进一步指示计算设备200可能仍在接收附加音频数据或者指示话音识别模块8可能仍在转录所接收的音频数据。

GUI 202B包括处于第一视觉格式的图形元素208。即，图形元素208包括具有特定字体、大小、颜色、位置等的文本。词语“导航至(navigate to)”被包括作为图形元素208的一部分并且以第一视觉格式呈现。同样地，GUI 202B包括处于第一视觉格式的图形元素204-A。图形元素204-A的第一视觉格式是包括麦克风的图像的图标。图形元素204-A可以指示计算设备200正在执行或将要执行的动作。

GUI 202B包括在GUI 202B的初始位置处的图形元素204-A。正在该处显示图形元素204-A的GUI 202B的初始位置可以对应于当计算设备200接收音频数据时在此处主要或较经常显示图形元素204-A的GUI 202B的主要位置。

图4C至图4E描绘了计算设备200以时间排序方式输出所更新的GUI 202C至GUI202E以向计算设备200的用户指示基于所接收的音频数据来确定了语音发起的动作。例如，计算设备200可以首先在位于GUI 202A和GUI 202B的图形元素204-A的初始位置上方的所更新的GUI 202C的第一位置处呈现包括图形元素204-A的所更新的GUI 202C。接下来，计算设备200可以在位于GUI 202A和202B的图形元素204-A的初始位置下方并且位于GUI 202C的图形元素204-A的第一位置下方的所更新的GUI 202D的第二位置处呈现包括图形元素204-A的所更新的GUI 202D。最后，计算设备200可以在与GUI 202B的图形元素204-A的初始位置相对应的所更新的GUI 202E的初始位置处呈现包括图形元素204-A的所更新的GUI202E。

在本示例中，语音激话模块10可能已经分析了所转录的音频数据并且识别出语音发起的动作。例如，语音激活模块10可能已经将图形元素208中所示的所转录的文本中的一个或多个词语或短语与动作数据存储58进行了比较。在本示例中，语音激活模块10确定短语“导航至”与语音发起的动作指令相对应。响应于检测到动作指令，语音激活模块10可能已经指令UID模块6在例如存在敏感显示器5处输出所更新的GUI 202C至GUI 202E。所更新的GUI 202C至GUI 202E具有图形元素204-A的动画以指示由计算设备200从与用户的话音相关联的音频数据识别出语音发起的动作。

换言之，图4B至图4E示出了：在输出图形元素204-A以用于在GUI 202-C的第一位置处显示之后，计算设备200可以输出图形元素204-A以用于在GUI 202-D的第二位置处显示。然后，在输出图形元素204-A以用于在GUI 202-D的第二位置处显示之后，计算设备200可以输出图形元素204-A以用于在GUI 202-B和GUI 202-E的初始位置处显示。图4B至图4E示出GUI 202-C的第一位置处于GUI 202-B的初始位置上方并且GUI 202-D的第二位置处于GUI 202-C的第一位置以及GUI 202-B和GUI 202-E的初始位置下方。

虽然在图4B至图4D中示为“点头”类型动画，但在一些示例中，在图4B至4D中描绘的图形元素204-A的位置变化的动画可以包括跳动动画、摇动动画、折叠动画、和褶皱动画、旋转动画、缩放动画、以及形状变化动画。换言之，图形元素204-A可以表现出上下跳动一次或多次、在各个方向上摇动、折叠或弯曲、像纸那样褶皱、绕一个或多个轴旋转、放大和/或缩小、以及/或者从一个形状变成另一形状。可以使用其他各种动画来指示图形元素204-A的位置变化以及对语音发起的动作被计算设备200检测到的肯定。

在一些示例中，在计算设备200输出每个所更新的GUI 202B至GUI 202E以用于显示时，在输出GUI 202B至GUI 202E中的下一个来替换GUI202B至202E中的最初的GUI之前，计算设备200可以停止输出GUI 202B至GUI 202E中的最初的GUI。换句话说，为了呈现所更新的GUI 202C至GUI 202E，计算设备200可以停止输出用于显示的GUI 202B，并且在停止输出用于显示的GUI 202B之后，计算设备200可以以连续顺序输出GUI 202B至GUI 202E来替换GUI 202B。在一些示例中，在输出第二GUI来替换第一GUI之前停止输出第一GUI 可能不可由查看计算设备200在该处呈现每个GUI的屏幕的人察觉。

图4F描绘了计算设备200输出所更新的GUI 202F。所更新的GUI202F包括图形元素204-B、208、210、以及214。在本示例中，语音激话模块10可能已经分析了所转录的音频数据并且识别出语音发起的动作。例如，语音激活模块10可能已经将图形元素208中所示的所转录的文本中的一个或多个词语或短语与动作数据存储58进行了比较。在本示例中，语音激活模块10确定短语“导航至”与语音发起的动作指令相对应。响应于检测到动作指令，语音激活模块10可能已经指令UID模块6在例如存在敏感显示器5处输出所更新的GUI 202F。

所更新的GUI 202F包括具有第二视觉格式的所更新的图形元素204-B。图形元素204-B是描绘了箭头的图像的图标，其可以与计算设备200的导航特征相关联。相反地，图形元素204-A是描绘了麦克风的图标。因此，图形元素204-B具有第二视觉格式，而图形元素204-A具有第一视觉格式。图形元素204-B的图标指示计算设备200可以执行语音发起的动作，诸如执行导航功能。

同样地，所更新的GUI 202F还包括所更新的图形元素214。图形元素214包括具有不同于GUI202A中的视觉格式的第二视觉格式的词语“导航至”。在GUI 202F中，图形元素214的第二视觉格式包括由词语周围的有颜色的或颜色加深的形状提供的突出显示以及对词语的加粗。在其他示例中，可以将包括大小、颜色、字体、样式、位置等的“导航至”的其他特性或视觉方面从第一视觉格式变成第二视觉格式。图形元素214提供对计算设备200已经识别出音频数据中的语音发起的动作的指示。在一些示例中，GUI 212提供指示计算设备2在执行该语音发起的动作之前需要确认的指示的附加图形元素。

在一些示例中，计算设备200可以使得GUI 202E的图形元素204-A在被呈现为GUI202F的一部分时形变为图形元素204-B。换言之，计算设备200可以呈现所更新的GUI 202F，其具有表示话音识别模式的图像变成表示语音发起的动作的图像的形变动画。

在图4G中，计算设备200自显示GUI 202F以来持续接收并且转录音频数据。计算设备200输出所更新的GUI 202G。GUI 202G包括图形元素204-C、208、214、218、220、和222。图形元素204-C已经重新采取了第一视觉格式——麦克风的图像，因为计算设备200已经执行了语音发起的动作并且正在继续检测音频数据。

在图4D中，计算设备200接收到并且转录附加词语“商店(The Store)”。总而言之，在本示例中，计算设备200已经检测到并且转录语句“我想要导航至商店(I want tonavigate to The Store)”。语音激活模块10可能已经确定“商店”是说话者(例如，用户)希望导航到的地点。计算设备200已经执行了语音发起的动作所识别的动作——导航至“商店”。因此，计算设备200已经执行导航应用并且执行对于星巴克(Starbucks)的搜索。在一个示例中，计算设备200使用场境信息来确定语音发起的动作是什么以及如何执行该动作。例如，计算设备200可能已经使用计算设备200的当前位置来在以其为中心来进行对于本地的星巴克位置的搜索。

图形元素208可以仅包括所转录的文本的一部分，以便在GUI 216中可以包括表示语音发起的动作的图形元素——图形元素214。GUI216包括示出“商店”的各个位置的地图图形元素220。图形元素222可以包括“商店”的位置的交互式列表。

通过这种方式，在图4A至图4E和图4H中所示的图形元素204-A的动画单独地或者与图4F和4G中所示的图形元素204B和214结合地，表示计算设备200已经或者尚未基于音频数据而识别出语音发起的动作的可观察确认或者视觉指示。根据本文所述的技术所配置的计算设备可以为用户提供经由语音命令来与计算设备进行交互的改善的体验。

在图4H中，计算设备200自显示GUI 202A至GUI 202G以来已经持续接收附加音频数据并且转录该附加音频数据。图4H示出了计算设备200最初可以输出GUI 202H以用于显示，其中图形元素204-D在GUI 202H的初始位置处。计算设备200可以分析由计算设备200所接收的音频数据，同时GUI 202H正被显示并且可以呈现图形元素308、314、和310作为对计算设备200的用户的他或她正提供的音频正被接收的视觉反馈。

图4H示出了：通过图形元素314，计算设备200可能没有识别语音发起的动作或者可以确定音频数据缺乏可识别的语音命令或者语音发起的动作。在计算设备200没有确定语音发起的动作的情况下，计算设备200可以使得图形元素204-D“摇动”，作为尚未从语音输入确定语音发起的动作的指示。换言之，箭头312A、312B、和312C示出与图形元素204-D相关联的一系列移动，其使得图形元素204-D来回移动、左右移动、或者以其他方式模仿人摇头表示“不”。

换句话说，计算设备200可以基于音频数据来确定语音发起的动作的缺乏，并且响应于确定语音发起的动作的缺乏而不输出用于显示以指示语音发起动作已被确定的图4B至图4E中所示的图形元素204-A的位置变化的第一动画。作为替代，计算设备200可以输出不同于GUI 202B至GUI 202E的第一动画的具有图形元素204-D的位置变化的第二动画的GUI 202H，以指示没有确定语音发起的动作。

换言之，GUI 202H的第一位置可以位于GUI 202H的初始位置的左边或右边，并且第二位置可以位于与该第一位置相对且在初始位置的左边或右边。通过在首先输出图形元素204-D以用于在GUI 202H的第一位置处显示之后至少在GUI 202H的第二位置处输出图形元素204-D，计算设备202可以呈现第二动画以指示缺乏语音发起的动作。并且在输出图形元素204-D以用于在GUI 202H的第二位置处显示之后，计算设备202可以在GUI 202H的初始位置处输出图形元素204-D。

图5是图示了根据本公开的一个或多个技术的、呈现所识别的语音发起的动作的视觉确认的示例设备的示例操作的流程图。图5的过程500的操作可以由诸如图1和图2中图示的计算设备2的计算设备的一个或多个处理器来执行。出于图示目的，下面在图1中所图示的计算设备2的场境内对图5进行描述。

图5图示了计算设备可以输出具有至少一个用户界面元素的初始话音识别GUI以用于显示(510)。例如，计算设备2的UI模块6可以使得UID4呈现具有图形元素24的用户界面16。图形元素24可以是图标或者文本。图形元素24可以以第一视觉格式来呈现，该第一视觉格式包括诸如麦克风的第一图像或者诸如非命令文本208的一个或多个词语。

图5示出计算设备可以接收音频数据(520)。例如，当计算设备2的用户说话时，计算设备2的麦克风12可以接收音频数据。麦克风12可以检测到环境噪声以及用户的话音这两者。话音识别模块8可以从麦克风12接收音频数据。

图5图示了计算设备可以基于音频数据来确定语音发起的动作(530)。例如，计算设备2的话音识别模块8可以根据音频数据来确定语音发起的动作。语音发起的动作的示例可以包括发送文本消息、输出音乐、获得导航方向、发起电话呼叫、致电联系人、发送电子邮件、呈现可导航地图、检索网页、生成文本记录、重拨先前致电的号码、打开并执行应用、致电语音信箱、呈现日历和/或约会日程、搜索互联网、确定通信信号强度、检索网络效能的统计数据或状态、输出电池信息、或者能够由计算设备执行的任何其他动作。

例如，计算设备2可以转录来自音频数据的话音并且通过将所转录的话音和与语音动作相关联的一个或多个预定义的话音模式进行匹配来确定一个或多个语音发起的动作。

图5示出了计算设备输出用于显示的具有至少一个元素的位置变化的动画的所更新的话音识别GUI，以指示语音发起的动作已经被确定(540)。例如，话音识别模块8可以向UI模块6输出信息，该信息使得UID12更新用户界面16并且呈现在位置26A与26D之间移动的图形元素24，以指示从由麦克风12接收的音频数据确定语音发起的动作。图形元素24可以表现出在初始位置(例如，在位置26A和26D处)的上方(例如，在位置26B处)和下方(例如，在位置26C处)以指示语音发起的动作被确定。由于UID呈现了图形元素24的移动的变化的动画，图形元素24可以表现出类似于人点头的“点头”以提供肯定的响应。在一些示例中，计算设备2可以在麦克风12和话音识别模块8持续接收和分析音频数据的同时输出所更新的用户界面16。在一些示例中，计算设备2可以在语音激活模块10执行所确定的语音发起的动作之前输出所更新的用户界面16。

条款1.一种方法，包括：由计算设备输出具有至少一个元素的初始话音识别图形用户界面(GUI)以用于显示；由所述计算设备接收音频数据；由所述计算设备基于所述音频数据来确定语音发起的动作；以及响应于确定所述语音发起的动作，由所述计算设备输出更新的话音识别GUI以用于显示，所述更新的话音识别GUI具有用于指示所述语音发起的动作已经被确定的、所述至少一个元素的位置变化的动画。

条款2.根据条款1所述的方法，其中：所述音频数据包括初始音频数据，并且在接收到附加音频数据的同时，具有所述至少一个元素的位置变化的所述动画的所更新的话音识别GUI被输出以用于显示。

条款3.根据条款1至2中任一项所述的方法，其中，在基于所述音频数据来执行所述语音发起的动作之前，具有所述至少一个元素的位置变化的所述动画的所更新的话音识别GUI被输出以用于显示。

条款4.根据条款1至3中任一项所述的方法，其中：输出所述初始话音识别GUI以用于显示包括由所述计算设备在所述初始话音识别GUI的初始位置处输出所述至少一个元素以用于显示，以及输出所更新的话音识别GUI以用于显示包括在所更新的话音识别GUI的第一位置处输出所述至少一个元素以用于显示之后，由所述计算设备在所更新的话音识别GUI的第二位置处输出所述至少一个元素以用于显示；以及在所更新的话音识别GUI的所述第二位置处输出所述至少一个元素以用于显示之后，由所述计算设备在所述初始位置处输出所述至少一个元素以用于显示，其中，所述第一位置在所述初始位置上方，其中，所述第二位置在所述第一位置以及所述初始位置下方。

条款5.根据条款1至4中任一项所述的方法，其中，用于指示所述语音发起的动作已经被确定的所述至少一个元素的位置变化的所述动画是第一动画，所述方法进一步包括：由所述计算设备基于所述音频数据来确定所述语音发起的动作的缺乏；以及响应于确定所述语音发起的动作的缺乏：禁止由所述计算设备输出具有用于指示所述语音发起的动作已经被确定的、所述至少一个元素的位置变化的所述第一动画的所更新的话音识别GUI以用于显示；以及由所述计算设备输出具有用于指示所述语音发起的动作的缺乏已经被确定的、所述至少一个元素的位置变化的第二动画的所更新的话音识别GUI以用于显示，其中，所述第二动画不同于所述第一动画。

条款6.根据条款5所述的方法，其中：输出所述初始话音识别GUI以用于显示包括由所述计算设备在所述初始话音识别GUI的初始位置处输出所述至少一个元素以用于显示，以及输出所更新的话音识别GUI以用于显示包括：在所更新的话音识别GUI的第一位置处输出所述至少一个元素以用于显示之后，由所述计算设备在所更新的话音识别GUI的第二位置处输出所述至少一个元素以用于显示；并且在所更新的话音识别GUI的所述第二位置处输出所述至少一个元素以用于显示之后，由所述计算设备在所述初始位置处输出所述至少一个元素以用于显示，其中，所述第一位置位于所述初始位置的左边或右边，其中，所述第二位置被定位成与所述第一位置相对并且在所述初始位置的左边或右边。

条款7.根据条款1至6中任一项所述的方法，其中，所述至少一个元素的位置变化的所述动画包括跳动动画、摇动动画、折叠动画、褶皱动画、旋转动画、缩放动画、或者形状变化动画中的至少一个。

条款8.根据条款1至7中任一项所述的方法，进一步包括：在确定所述语音发起的动作之前，由所述计算设备输出具有第一视觉格式的所述至少一个元素以用于显示；以及在确定所述语音发起的动作之后，由所述计算设备输出用于显示的具有不同于所述第一视觉格式的第二视觉格式的所述至少一个元素，以进一步指示所述语音发起的动作已经被确定。

条款9.根据条款1至8中任一项所述的方法，进一步包括：由所述计算设备基于所述音频数据来确定转录；以及识别与所述语音发起的动作相关联的所述转录的一个或多个词语，其中，所述至少一个元素包括所述一个或多个词语的至少一部分。

条款10.根据条款1至9中任一项所述的方法，其中：输出所述初始话音识别GUI以用于显示包括由所述计算设备输出具有表示所述计算设备的话音识别模式的图像的所述至少一个元素以用于显示，并且输出所更新的话音识别GUI以用于显示包括由所述计算设备输出具有表示所述语音发起的动作的图像的所述至少一个元素以用于显示。

条款11.根据条款10所述的方法，其中，所述至少一个元素的位置变化的所述动画包括表示所述话音识别模式的所述图像变成表示所述语音发起的动作的所述图像的形变动画。

条款12.根据条款1至11中任一项所述的方法，进一步包括：响应于基于所述音频数据来确定所述语音发起的动作，由所述计算设备执行所述语音发起的动作。

条款13.根据条款1至15中任一项所述的方法，其中，确定所述语音发起的动作进一步包括：由所述计算设备至少部分地基于所述音频数据来生成所述音频数据的转录；以及由所述计算设备至少部分地基于将来自所述转录的至少一个词语或者来自所述转录的短语与预配置的动作集合的比较来确定所述语音发起的动作。

条款14.根据条款13所述的方法，其中，确定所述语音发起的动作进一步包括：由所述计算设备识别所述转录中的至少一个动词；以及由所述计算设备将所述至少一个动词与来自动词集合的一个或多个动词进行比较，所述动词集合中的每个动词与来自多个动作的至少一个动作相对应，所述多个动作包括所述语音发起动作。

条款15.根据条款13至14中任一项所述的方法，其中，确定所述语音发起的动作进一步包括：由所述计算设备至少部分地基于来自所述计算设备的数据来确定场境；由所述计算设备至少部分地基于所述场境来确定所述语音发起的动作。

条款16.根据条款1至15中任一项所述的方法，其中，输出所更新的话音识别GUI以用于显示包括：停止由所述计算设备输出所述初始话音识别GUI以用于显示；以及由所述计算设备输出所更新的话音识别GUI以用于显示。

条款17.一种计算设备，包括：至少一个处理器；以及至少一个模块，所述至少一个模块能够由所述至少一个处理器操作以：输出具有至少一个元素的初始话音识别图形用户界面(GUI)以用于显示；接收音频数据；基于所述音频数据来确定语音发起的动作；以及响应于确定所述语音发起的动作，输出具有用于指示所述语音发起的动作已经被确定的、所述至少一个元素的位置变化的动画的所更新的话音识别GUI以用于显示。

条款18.根据条款17所述的计算设备，其中：所述音频数据包括初始音频数据，并且所述至少一个模块进一步能够由所述至少一个处理器操作以在所述至少一个模块接收到附加音频数据的同时并且在所述至少一个模块基于所述音频数据来执行所述语音发起的动作之前，输出所更新的话音识别GUI以用于显示。

条款19.根据条款17至18中任一项所述的计算设备，其中，所述至少一个元素的位置变化的所述动画包括跳动动画、摇动动画、折叠动画、褶皱动画、旋转动画、缩放动画、以及形状变化动画中的至少一个。

条款20.根据条款17至19中任一项所述的计算设备，其中，所述至少一个模块进一步能够由所述至少一个处理器操作以：在确定所述语音发起的动作之前，输出具有第一视觉格式的所述至少一个元素以用于显示；以及在确定所述语音发起的动作之后，输出用于显示的具有不同于所述第一视觉格式的第二视觉格式的所述至少一个元素，以进一步指示所述语音发起的动作已经被确定。

条款21.根据条款17至20中任一项所述的计算设备，其中，所述至少一个模块进一步能够由所述至少一个处理器操作以：基于所述音频数据来确定转录；以及识别与所述语音发起的动作相关联的所述转录的一个或多个词语，其中，所述至少一个元素包括所述一个或多个词语的至少一部分。

条款22.根据条款17至21中任一项所述的计算设备，其中：所述至少一个模块进一步能够由所述至少一个处理器操作以通过至少输出具有表示所述计算设备的话音识别模式的图像的至少一个元素以用于显示，来输出所述初始话音识别GUI以用于显示，并且所述至少一个模块进一步能够由所述至少一个处理器操作以通过至少输出具有表示所述语音发起的动作的图像的所述至少一个元素以用于显示，来输出所更新的话音识别GUI以用于显示。

条款23.根据条款17至22中任一项所述的计算设备，其中，所述至少一个元素的位置变化的所述动画包括表示所述话音识别模式的所述图像变成表示所述语音发起的动作的所述图像的形变动画。

条款24.根据条款17至23中任一项所述的计算设备，其中，所述至少一个模块进一步能够由所述至少一个处理器操作以响应于基于所述音频数据来确定所述语音发起的动作，由所述计算设备执行所述语音发起的动作。

条款25.一种包括指令的计算机可读存储介质，所述指令在被执行时将至少一个处理器配置为：输出具有至少一个元素的初始话音识别图形用户界面(GUI)以用于显示；接收音频数据；基于所述音频数据来确定语音发起的动作；以及响应于确定所述语音发起的动作，输出具有用于指示所述语音发起的动作已经被确定的、所述至少一个元素的位置变化的动画的所更新的话音识别GUI以用于显示。

条款26.根据条款25所述的计算机可读存储介质，其中：所述音频数据包括初始音频数据，并且所述计算机可读存储介质包括附加指令，所述附加指令在被执行时进一步将所述至少一个处理器配置为在所述至少一个处理器接收到附加音频数据的同时并且在所述至少一个处理器基于所述音频数据来执行所述语音发起的动作之前，输出所更新的话音识别GUI以用于显示。

条款27.根据条款25至26中任一项所述的计算机可读存储介质，其中，所述至少一个元素的位置变化的所述动画包括跳动动画、摇动动画、折叠动画、褶皱动画、旋转动画、缩放动画、以及形状变化动画中的至少一个。

条款28.根据条款25至27中任一项所述的计算机可读存储介质，其中，所述计算机可读存储介质包括附加指令，所述附加指令在被执行时将所述至少一个处理器配置为：在确定所述语音发起的动作之前，输出具有第一视觉格式的所述至少一个元素以用于显示；以及在确定所述语音发起的动作之后，输出具有不同于所述第一视觉格式的第二视觉格式的所述至少一个元素以用于显示，以进一步指示所述语音发起的动作已经被确定。

条款29.根据条款25至28中任一项所述的计算机可读存储介质，其中，所述计算机可读存储介质包括附加指令，所述附加指令在被执行时将所述至少一个处理器配置为：基于所述音频数据来确定转录；以及识别与所述语音发起的动作相关联的所述转录的一个或多个词语，其中，所述至少一个元素包括所述一个或多个词语的至少一部分。

条款30.根据条款25至29中任一项所述的计算机可读存储介质，其中：所述计算机可读存储介质包括附加指令，所述附加指令在被执行时将所述至少一个处理器配置为通过至少输出具有表示所述计算设备的话音识别模式的图像的至少一个元素以用于显示，来输出所述初始话音识别GUI以用于显示，并且所述计算机可读存储介质包括附加指令，所述附加指令在被执行时将所述至少一个处理器配置为通过至少输出具有表示所述语音发起的动作的图像的所述至少一个元素以用于显示，来输出所更新的话音识别GUI以用于显示。

条款31.根据条款25至30中任一项所述的计算机可读存储介质，其中，所述至少一个元素的位置变化的所述动画包括表示所述话音识别模式的所述图像变成表示所述语音发起的动作的所述图像的形变动画。

条款32.根据条款25至31中任一项所述的计算机可读存储介质，其中，所述计算机可读存储介质包括附加指令，所述附加指令在被执行时将所述至少一个处理器配置为：响应于基于所述音频数据来确定所述语音发起的动作，由所述计算设备执行所述语音发起的动作。

条款33.一种计算设备，所述计算设备包括用于执行条款1至16所述的方法中的任一方法的装置。

条款34.一种包括指令的计算机可读存储介质，所述指令在被执行时将一个或多个处理器配置为执行条款1至16所述的方法中的任一方法。

条款35.一种方法，包括：由计算设备输出包括至少一个元素的初始话音识别图形用户界面(GUI)以用于显示；由所述计算设备接收指示语音输入的初始部分的初始音频数据；由所述计算设备至少部分地基于所述初始音频数据来生成所述初始音频数据的转录；由所述计算设备至少部分地基于对来自所述转录的至少一个词语与预配置的动作集合的比较来确定与所述语音输入的所述初始部分相关联的语音发起的动作；以及响应于确定所述语音发起的动作并且在接收到指示所述语音输入的第二部分的附加音频数据的同时，由所述计算设备输出包括用于指示所述语音发起的动作已经基于所述初始音频数据来被确定的、来自所述初始话音识别GUI的所述至少一个元素的位置变化的动画的所更新的话音识别GUI以用于显示。

条款36.一种计算设备，包括至少一个处理器以及至少一个模块，所述至少一个模块能够由所述至少一个处理器操作以执行条款36所述的方法。

条款37.一种包括指令的计算机可读存储介质，所述指令在被执行时将一个或多个处理器配置为执行条款36所述的方法。

在一个或多个示例中，所述的功能可以以硬件、软件、固件、或者其任何组合来被实现。如果以软件来实现，则所述功能可以作为一个或多个指令或代码来被存储在计算机可读媒介上或者通过该计算机可读媒介传送，并且由基于硬件的处理单元来执行。计算机可读媒介可以包括：计算机可读介质。计算机可读介质可以包括计算机可读存储介质，其对应于诸如数据存储介质的有形媒介；或者通信介质，其包括例如根据通信协议来促进计算机程序从一个地点向另一个地点传输的任何媒介。通过这种方式，计算机可读介质大体上可以对应于(1)非瞬时性的有形计算机可读存储介质，或者(2)通信媒介，诸如信号或者载波。数据存储介质可以是能够由一个或多个计算机或者一个或多个处理器访问来取得指令、代码、和/或数据结构以用于实现本公开所述的技术的任何可用的介质。计算机程序产品可以包括计算机可读媒介。

通过示例而非限定的方式，这样的计算机可读存储介质能够包括RAM、ROM、EEPROM、CD-ROM、或者其他光盘存储器、磁盘存储器、或其他磁存储设备、闪存、或者是能够被用于存储以指令或数据结构形式的所需程序代码并且能够由计算机访问的任何其他介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤光缆、双绞线、数字订户线路(DSL)、或者诸如红外、无线电、和微波的无线技术来从网站、服务器、或者其他远程源传送指令，则同轴线缆、光纤线缆、双绞线、DSL、或者诸如红外、无线电、和微波的无线技术均被包括在媒介的定义中。然而，应当理解的是，计算机可读存储介质以及数据存储介质不包括连接、载波、信号、或者其他暂时性介质，但是作为替代涉及非暂时性、有形存储介质。如本文中所用的，磁盘(disk)和光盘(disc)包括压缩盘(CD)、激光盘、光学盘、数字多功能盘(DVD)、软盘、和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘则利用激光来以光学方式再现数据。上述各项的组合也应当被包括在计算机可读介质的范围内。

指令可以由一个或多个处理器来执行，所述一个或多个处理器诸如：一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或者其他等效的集成或分立的逻辑电路。因此，本文中所用的术语“处理器”可以指代前述结构或者适于实现本问所描述的技术的任何其他结构中的任一结构。此外，在一些方面，本文中所述的功能可以在专门的硬件和/或软件模型内来提供。此外，所述技术可以完全以一个或多个电路或者逻辑元件来实现。

本公开的技术可以以广泛多种设备或者装置来实现，包括无线手持机、集成电路(IC)或者IC组(例如，芯片组)。本公开描述了各种组件、模块、或单元以强调被配置来执行本公开的技术的设备的功能方面，但不一定需要通过不同硬件单元实现。相反，如上所述，各个单元可以被组合在硬件单元中或者由包括如上所述的一个或多个处理器的相互操作的硬件单元的集合结合合适的软件和/或固件来提供。已经描述各种示例。这些和其他示例在所附权利要求书的范围内。

Claims

1.一种用于提供话音识别图形用户界面的方法，包括：

在接收指示语音输入的初始部分的初始音频数据的同时，由计算设备输出包括至少一个元素的初始话音识别图形用户界面以用于显示，其中所述至少一个元素是以指示所述计算设备正在接收所述初始音频数据的第一视觉格式被输出以用于显示的；

由所述计算设备至少部分地基于所述初始音频数据来生成所述初始音频数据的转录；以及

在接收指示所述语音输入的第二部分的附加音频数据的同时：

由所述计算设备至少部分地基于对来自所述转录的至少一个词语与预配置的动作集合的比较来确定与所述语音输入的所述初始部分相关联的语音发起的动作；

响应于确定所述语音发起的动作并且在执行所述语音发起的动作之前，由所述计算设备输出第一更新的话音识别图形用户界面以用于显示，所述第一更新的话音识别图形用户界面包括来自所述初始话音识别图形用户界面的所述至少一个元素的位置变化的动画，其中所述位置变化的所述动画指示所述语音发起的动作已经基于所述初始音频数据来被确定的；以及

在输出所述第一更新的话音识别图形用户界面之后，由所述计算设备输出第二更新的话音识别图形用户界面以用于显示，所述第二更新的话音识别图形用户界面包括来自所述初始话音识别图形用户界面的所述至少一个元素，来自所述初始话音识别图形用户界面的所述至少一个元素以不同于所述第一视觉格式的第二视觉格式被显示，以进一步指示所述语音发起的动作已经被确定。

2.根据权利要求1所述的方法，其中：

输出所述初始话音识别图形用户界面以用于显示包括由所述计算设备在所述初始话音识别图形用户界面的初始位置处输出所述至少一个元素以用于显示，以及

输出所述第一更新的话音识别图形用户界面以用于显示包括：

在所述第一更新的话音识别图形用户界面的第一位置处输出所述至少一个元素以用于显示之后，由所述计算设备在所述第一更新的话音识别图形用户界面的第二位置处输出所述至少一个元素以用于显示；以及

在所述第一更新的话音识别图形用户界面的所述第二位置处输出所述至少一个元素以用于显示之后，由所述计算设备在所述初始位置处输出所述至少一个元素以用于显示，其中，所述第一位置在所述初始位置上方，其中，所述第二位置在所述第一位置以及所述初始位置下方。

3.根据权利要求1至2中任一项所述的方法，其中，用于指示所述语音发起的动作已经被确定的、所述至少一个元素的位置变化的所述动画是第一动画，所述方法进一步包括：

由所述计算设备基于所述初始音频数据来确定所述语音发起的动作的缺乏；以及

响应于确定所述语音发起的动作的缺乏：

禁止由所述计算设备输出所述第一更新的话音识别图形用户界面以用于显示；以及

由所述计算设备输出包括用于指示所述语音发起的动作的缺乏已经被确定的、来自所述初始话音识别图形用户界面的所述至少一个元素的位置变化的第二动画的第三更新的话音识别图形用户界面以用于显示，其中，所述第二动画不同于所述第一动画。

4.根据权利要求3所述的方法，其中：

在所述第一更新的话音识别图形用户界面的所述第二位置处输出所述至少一个元素以用于显示之后，由所述计算设备在所述初始位置处输出所述至少一个元素以用于显示，其中，所述第一位置位于所述初始位置的左边或右边，其中，所述第二位置被定位成与所述第一位置相对并且在所述初始位置的左边或右边。

5.根据权利要求1所述的方法，其中，确定所述语音发起动作进一步包括：

由所述计算设备识别所述转录中的至少一个动词；以及

由所述计算设备将所述至少一个动词与来自动词集合的一个或多个动词进行比较，所述动词集合中的每个动词与来自多个动作的至少一个动作相对应，所述多个动作包括所述语音发起动作。

6.根据权利要求1所述的方法，其中，确定所述语音发起的动作进一步包括：

由所述计算设备至少部分地基于来自所述计算设备的数据来确定场境；以及

由所述计算设备至少部分地基于所述场境来确定所述语音发起的动作。

7.根据权利要求1所述的方法，其中，输出所述第一更新的话音识别图形用户界面以用于显示包括：

停止由所述计算设备输出所述初始话音识别图形用户界面以用于显示；以及

由所述计算设备输出所述第一更新的话音识别图形用户界面以用于显示。

8.根据权利要求1所述的方法，其中，所述至少一个元素的位置变化的所述动画包括跳动动画、摇动动画、折叠动画、褶皱动画、旋转动画、缩放动画、或者形状变化动画中的至少一个。

9.根据权利要求1所述的方法，其中，所述语音输入的所述第二部分包括所述语音发起的动作的一个或多个参数。

10.根据权利要求1所述的方法，其中，所述语音输入的所述第二部分补充所述语音发起的动作并且完成所述语音发起的动作。

11.一种用于提供话音识别图形用户界面的计算设备，包括：

至少一个处理器；以及

至少一个模块，所述至少一个模块能够由所述至少一个处理操作以：

在接收指示语音输入的初始部分的初始音频数据的同时，输出包括至少一个元素的初始话音识别图形用户界面以用于显示，其中所述至少一个元素是以指示所述计算设备正在接收所述初始音频数据的第一视觉格式被输出以用于显示的；

至少部分地基于所述初始音频数据来生成所述初始音频数据的转录；以及

至少部分地基于对来自所述转录的至少一个词语与预配置的动作集合的比较来确定与所述语音输入的所述初始部分相关联的语音发起的动作；

响应于确定所述语音发起的动作并且在执行所述语音发起的动作之前，输出第一更新的话音识别图形用户界面以用于显示，所述第一更新的话音识别图形用户界面包括来自所述初始话音识别图形用户界面的所述至少一个元素的位置变化的动画，其中所述位置变化的所述动画指示所述语音发起的动作已经基于所述初始音频数据来被确定的；以及

在输出所述第一更新的话音识别图形用户界面之后，输出第二更新的话音识别图形用户界面以用于显示，所述第二更新的话音识别图形用户界面包括来自所述初始话音识别图形用户界面的所述至少一个元素，来自所述初始话音识别图形用户界面的所述至少一个元素以不同于所述第一视觉格式的第二视觉格式被显示，以进一步指示所述语音发起的动作已经被确定。

12.根据权利要求11所述的计算设备，其中，所述至少一个模块进一步能够由所述至少一个处理器操作以执行根据权利要求1至10所述的方法中的任一方法。

13.一种系统，所述系统包括用于执行根据权利要求1至10所述方法中的任一方法的装置。