CN105283837A

CN105283837A - 适于在语音用户界面中使用的用于找出web页面中的元素的方法（消歧）

Info

Publication number: CN105283837A
Application number: CN201480029482.1A
Authority: CN
Inventors: A.S.蔡勒; M.H.金; R.本森; R.萨林; Y-C.巨
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-05-21
Filing date: 2014-05-21
Publication date: 2016-01-27
Also published as: US20140350941A1; EP3000027A1; WO2014189987A1

Abstract

一种用于针对web页面或其他文档的语音界面的消歧过程。所述过程标识诸如链接之类的交互式元素，获取每个交互式元素的一个或多个短语（诸如链接文本、标题文本和图像的可替换文本），以及将所述短语添加到用于话音识别的语法中。当不存在单个、明确的最佳匹配时，一组交互式元素被标识为对于语音命令的潜在最佳匹配。所述消歧过程修改所述文档的显示，以便为所述组中的每个交互式元素提供唯一标记，以及提示用户提供随后的口述命令来标识所述唯一标记中的一个唯一标记。标识所选唯一标记，并且为对应的交互式元素生成点击事件。

Description

适于在语音用户界面中使用的用于找出web页面中的元素的方法（消歧）

背景技术

web页面是由诸如膝上电脑、个人计算机、游戏控制台和智能电话之类的客户端计算设备渲染的文档的示例。web页面可以使用例如超文本标记语言（HTML）来编码，以及由web浏览器代码来渲染以便显示。文档中的诸如超链接之类的交互式元素可以被用户选择以便查看附加的内容，诸如通过使用鼠标或对触摸屏进行触摸来选择链接。然而，web页面不常被设计用于语音交互。此外，某些确实存在的解决方案要求web页面被专门针对语音交互进行编码。

发明内容

本文中描述的技术提供各种实施例，以用于为文档的交互式元素提供针对语音用户界面的消歧（disambiguation）过程。

在一种方法中，对文档进行分析以标识该文档中的例如超链接或其他链接、按钮或输入栏之类的交互式元素。每个交互式元素由关联的代码定义，所述关联代码包括一个或多个关联于所述交互式元素的短语。用户然后提供语音命令来选择所述交互式元素中的一个。所述语音命令被转换成文本，并被与候选短语的语法中的一个或多个短语进行比较。如果不存在任何单个、清楚的最佳匹配，则使用消歧过程来允许所述用户从具有相对于所述语音命令的最高匹配分数的交互式元素组中进行选择。

所述消歧过程可以涉及将所述文档的显示修改为提供靠近所述组中的交互式元素中的每个交互式元素的唯一标记（例如第一，第二，第三……）。这些交互式元素的链接文本也可以在视觉上进行区别，而其他交互式元素的文本可以被移除或视觉上不再强调（例如显示为灰色），以便将用户的注意力引导到所述最佳匹配交互式元素。

所述用户然后可以提供随后的语音命令，其标识所述唯一标记中的一个唯一标记。一旦所述唯一标记被标识，则为对应的交互式元素生成点击事件。即，所述交互式单元就像其被诸如鼠标之类的指向设备点击一样被选择。

提供本摘要用于以简化形式介绍下面在详细说明书中进一步描述的概念的选择。本摘要不旨在标识所要求权利的主题的关键特征或基本特征，其也不旨在被用作在确定所要求权利的主题的范围时的辅助。

附图说明

在附图中，相同编号的元件彼此对应。

图1描绘了包括客户端计算设备145、网络通信介质170和服务器180的计算系统。

图2A描绘了图1的客户端计算设备145的一个示例实施例。

图2B描绘了针对图2A的代码155的组件的一个示例过程流。

图3以诸如游戏控制台之类的多媒体控制台100的形式描绘了图1的客户端计算设备145的一个示例框图。

图4以计算系统200的形式描绘了图1的客户端计算设备145的另一示例框图。

图5A描绘了用于将语音用户界面提供给文档的过程概览。

图5B提供图5A的步骤502的用于分析文档以标识交互式元素和关联短语的示例细节。

图5C提供图5A的步骤504的用于将语音命令与交互式元素的关联短语进行比较的示例细节。

图5D提供图5C的步骤524的用于将候选短语与口述单词的序列进行比较的示例细节。

图5E提供图5A的步骤506的用于执行消歧过程的示例细节。

图5F提供图5A的步骤508的用于检测和处理已更新交互式元素的示例细节。

图6A描绘了在显示设备的显示区域中的文档顶部的显示。

图6B描绘了在显示设备的显示区域中的图6A的文档底部的显示。

图6C描绘了图6A的文档的顶部，其中，消歧标签被添加到链接文本610和612。

图6D描绘了图6C的文档的顶部，其中，添加了链接文本610和612的改变的外观，以及移除了来自图6C的链接文本614。

图7A1描绘了图6A的交互式元素640的示例代码。

图7A2描绘了对应于图7A1的示例语法条目。

图7B1描绘了图6A的交互式元素641的示例代码。

图7B2描绘了对应于图7B1的示例语法条目。

图7C1描绘了图6A的交互式元素642的链接614的示例代码。

图7C2描绘了图6A的交互式元素642的图像616的示例代码。

图7C3描绘了对应于图7C1和7C2的示例语法条目。

图7D1描绘了图6A的交互式元素643的示例代码。

图7D2描绘了对应于图7D1的示例语法条目。

图7E1描绘了图6A的交互式元素644的示例代码。

图7E2描绘了对应于图7E1的示例语法条目。

图7F1描绘了交互式元素的一个示例，所述交互式元素是按钮。

图7F2描绘了图7F1的交互式元素的示例代码。

图7F3描绘了对应于图7F2的示例语法条目。

图7G1描绘了作为提交类型的输入的交互式元素的一个示例。

图7G2描绘了图7G1的交互式元素的示例代码。

图7G3描绘了对应于图7G2的示例语法条目。

图7H1描绘了作为复选框类型的输入的交互式元素的一个示例。

图7H2描绘了图7H1的交互式元素的示例代码。

图7H3描绘了对应于图7H2的示例语法条目。

图7I1描绘了作为单选（radio）类型的输入的交互式元素的一个示例。

图7I2描绘了图7I1的交互式元素的示例代码。

图7I3描绘了对应于图7I2的示例语法条目。

图7J1描绘了作为选择选项的交互式元素的一个示例。

图7J2描绘了图7J1的交互式元素的示例代码。

图7J3描绘了对应于图7J2的示例语法条目。

具体实施方式

本文中描述的技术为诸如web页面的文档提供针对语音用户界面的消歧过程。自然用户界面（NUI）在允许用户与计算设备上的应用进行交互的方面已变得流行，所述计算设备诸如是web使能的游戏控制台、电视和其他多媒体设备。NUI允许用户使用语音命令和手势的组合。例如，诸如挥手或其他身体移动之类的手势可以用于与应用进行交互，以便输入命令或玩游戏。运动检测相机可以用于识别手势。类似地，可以将语音命令与用于调用函数的命令匹配。例如，某个命令可以用于做出菜单选择（例如使用诸如“播放电影”或“玩游戏”之类的短语）。在播放电影的情况下，用户可以说出诸如“暂停”、“快进”和“倒回”之类的命令。

使用语音命令来浏览web的能力在人工输入设备不可用或不方便的场景中特别有用。

一般说来，语音界面可以包括：用户可以说的一组短语、绑定到那些短语的一组动作、以及使用户知道他们可以说哪些短语的用户体验。语音界面呈现通过说短语所执行的动作的结果。用户体验可以例如使用另一人类语音、视频显示、可刷新盲文显示（brailledisplay）或任何可以用于向用户传达信息的设备来呈现所述结果。

将被识别的一组短语和对应的动作在这些情况下可以相对有限，并且一般是预定的。相反，在为诸如web页面之类的文档提供语音用户界面时，将被识别的一组短语和对应的动作一般不是预定的。通常，web页面包括采用HTML（标记）、JAVASCRIPT（程序代码）和层叠样式表或CSS（样式）形式的代码。尽管存在来自W3C的采用标准和非标准跟踪规范形式的针对向web页面添加语音界面的一些成果，但不存在被广泛部署的解决方案。因此，web页面现今未被设计用于语音交互。

本文中提供的技术使能实现针对web页面的语音界面的自动构造和执行。这允许用户在没有诸如控制器、遥控器、鼠标、电话或平板之类的人工输入设备的情况下容易地浏览web。给定web页面，则语音用户界面可以通过对定义该web页面的交互式元素的HTML、CSS和JAVASCRIPT代码进行处理来创建。所述代码包括可以用于构建用于进行语音识别的候选短语的语法或词典的短语。所述语法允许用户说出与在页面上可见（或者在某些情况下不可见）的短语一致的短语，以便对web站点或其他数据源进行导航。

此外，所述技术自动确定适于构建语音界面的web页面的组件。例如，通常包含文本和链接的超文本链接对构建语音界面有用。然而，未关联于交互式元素并且没有绑定到其的动作的文本一般不是语音界面的有用组件。除构建语法之外，所述技术可以包括对语法进行智能过滤，从而使与语音命令的匹配限于与页面的当前显示部分中的交互式元素相关联的短语。所述技术还包括使用关联于交互式元素的代码但未被渲染在显示上的短语，以及将语法与对单个交互式元素的更新同步。

所述技术还包括消歧过程，其允许用户从具有相对于语音命令的最高匹配分数的交互式元素的组中进行选择。

图1描绘了包括客户端计算设备145、网络通信介质170和服务器180的计算系统。所述客户端计算设备可以例如是膝上型电脑、个人计算机、游戏控制台、智能电话、可穿戴计算设备或web使能的电视。所述服务器表示作为诸如web页面之类的文档的宿主的计算设备。所述网络通信介质允许客户端计算设备与服务器进行通信。在一个场景中，客户端计算设备运行提供web浏览器应用的web浏览器代码。当该web浏览器被启动时，其加载主页文档的文档代码。随后，用户可以选择文档的交互式元素以执行动作。例如，该动作可以是经由网络从服务器加载另一web页面。在另一示例中，所述动作诸如通过在客户端计算设备处执行文档代码的JAVASCRIPT代码在客户端计算设备本地被执行。所述动作可以导致对文档显示的更新，例如，通过显示文档的不同部分或变更文档的内容。

图2A描绘了图1的客户端计算设备145的一个示例实施例。该计算设备包括诸如硬盘、固态驱动器或便携式介质之类的存储设备151。这些是非易失性的存储器类型。诸如网络接口卡之类的网络接口152允许计算设备经由网络通信介质170进行通信。处理器153执行工作存储器154中的代码。工作存储器可以是诸如RAM之类的易失性类型的，其存储从存储设备151加载的代码155以便被处理器使用。代码的进一步细节在图2B中提供。

用户界面163包括例如屏幕之类的显示设备164、接收口述用户命令并将其提供给话音识别代码的麦克风165、以及可选的人工输入设备166，诸如鼠标或键盘。

所述存储设备和工作存储器是有形、非瞬态计算机或处理器可读存储设备的示例。存储设备包括采用任何用于存储信息的方法或技术实现的易失性和非易失性、可移除和非可移除的设备，所述信息诸如是计算机可读指令、数据结构、程序模块或其他数据。计算机存储设备包括：RAM、ROM、EEPROM、高速缓存、闪存器或其他存储器技术，CD-ROM、数字多功能盘（DVD）或其他光盘存储，存储棒或卡、盒式磁带、磁带、介质驱动器、硬盘、磁盘存储装置或其他磁存储设备，或者任何其他可以用于存储所期望的信息并且可以被计算机访问的设备。

图2B描绘了针对图2A的代码155的组件的一个示例过程流。文档167可以由诸如文本页面中的文档代码（例如HTML、CSS和/或JAVASCRIPT代码）提供。所述文档可以当web页面被加载时被提供给元素选择和短语标识代码157。适于语音用户界面的交互式元素被选择，以及关联于所述交互式元素的短语被标识。所述交互式元素和关联短语的身份被提供给语法生成代码158。交互式元素的可执行代码（点击事件代码）也可以被标识并被提供给语法生成代码。当交互式元素通过对其生成点击事件而被选择时，所述可执行代码被执行。例如，该代码可以是指向当该元素被选择时要加载的页面的链接。语法可以包括针对链接到一个或多个关联短语的每个交互式元素的条目。在一种方法中，语法生成是使用关联于交互式元素的短语进行训练的统计语言模型（SLM）语法。另一种方法使用短语语法模型。

特别地，SLM语法可以使用web页面中的短语来训练。在一种方法中，每个短语成对地链接到交互式元素。多个短语可以链接到相同交互式元素。因此将一组配对提供给SLM语法。进一步地，短语可以被解析为n元语法（n-gram）子短语以便用作附加训练短语。此外，SLM语法可以当页面改变时被更新。对潜在识别的匹配和计分可以基于短语中匹配的单词数量、单词次序以及关联于每个单词和短语的置信水平。

更新检测代码156检测对文档的更新，并且可以修改语法。例如，不再关联于交互式元素的短语可以从针对该交互式元素的条目中移除。

话音识别代码159接收语音命令，将其转换为短语，并将其与语法中的短语进行比较以标识匹配。匹配的短语和置信度被提供给模糊匹配代码160。模糊匹配代码确定不存在合适的匹配、存在单个合适的匹配还是存在多个合适的匹配。如果不存在合适的匹配，则可以提示用户重复语音命令以便被话音识别代码处理。如果存在单个合适的匹配，则点击事件生成器162为交互式元素生成点击事件。该点击事件选择交互式元素，就像该交互式元素已被指向设备点击一样。如果存在多个合适的匹配，则消歧代码161可以被调用，其中，消歧用户界面代码诸如通过添加标记来修改文档的显示，所述标记标识作为多个合适的匹配的交互式元素并对其进行排名。可以提示用户通过语音命令选择标记之一，所述语音命令被话音识别代码处理。随后，点击事件生成器为所选择的交互式元素生成点击事件。

图3以诸如游戏控制台之类的多媒体控制台100的形式描绘了图1的客户端计算设备145的一个示例框图。所述多媒体控制台具有中央处理单元（CPU）101，该中央处理单元101具有级别1的高速缓存102、级别2的高速缓存104和闪存ROM（只读存储器）106。级别1的高速缓存102和级别2的高速缓存104临时存储数据，并且因此减少存储器访问周期的数量，由此提升处理速度和吞吐量。CPU101可以被提供为具有多于一个核，以及由此的附加级别1和级别2的高速缓存102和104。诸如闪存ROM之类的存储器106可以存储可执行代码，所述可执行代码当多媒体控制台被通电时在启动过程的初始阶段被加载。

图形处理单元（GPU）108和视频编码器/视频编解码器（编码器/解码器）114形成用于高速和高分辨率图形处理的视频处理管线。经由总线将数据从图形处理单元108运送到视频编码器/视频编解码器114。所述视频处理管线将数据输出到A/V（音频/视频）端口140以便向电视或其他显示传输。存储器控制器110连接到GPU108，以便促进处理器访问诸如RAM（随机访问存储器）之类的各种类型的存储器112。

所述多媒体控制台包括优选在模块118上实现的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口124、第一USB主机控制器126、第二USB控制器128和前面板I/O子部件130。USB控制器126和128充当外围控制器142（1）-142（2）、无线适配器148和外部存储器设备146（例如闪存器、外部CD/DVDROM驱动器、可移除介质等）的宿主。网络接口（NWIF）124和/或无线适配器148提供对网络（例如互联网、家庭网络等）的访问，并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的多种多样的各种有线或无线适配器组件中的任一个。

提供系统存储器143以便存储在启动过程中加载的应用数据。介质驱动器144被提供，并且可以包括DVD/CD驱动器、硬盘驱动器或其他可移除介质驱动器。介质驱动器144可以在多媒体控制台内部或外部。应用数据可以经由介质驱动器144被访问以便由多媒体控制台进行执行、回放等。介质驱动器144经由诸如串行ATA总线或其他高速连接之类的总线连接到I/O控制器120。还可以提供用于接收语音输入的麦克风261。

系统管理控制器122提供各种各样的与确保多媒体控制台的可用性相关的服务功能。音频处理单元123和音频编解码器132形成具有高保真和立体声处理的对应音频处理管线。经由通信链路在音频处理单元123和音频编解码器132之间运送音频数据。音频处理管线将数据输出到A/V端口140以便被外部音频播放器或具有音频能力的设备重现。

前面板I/O子部件130支持电源按钮150和弹出按钮152以及暴露在多媒体控制台的外表面上的任何LED（发光二极管）或其他指示器的功能性。系统电源模块136为多媒体控制台的组件提供电力。风扇138冷却多媒体控制台内的电路。

CPU101、GPU108、存储器控制器110以及多媒体控制台内的各种其他组件经由一个或多个总线互连，所述总线包括串行和并行总线、存储器总线、外围总线以及使用各种各样总线体系结构中的任一个的处理器或本地总线。

当多媒体控制台被通电时，应用数据可以从系统存储器143加载到存储器112和/或高速缓存102、104中，并且在CPU101上处理。应用可以呈现图形用户界面，所述图形用户界面当导航到在多媒体控制台上可用的不同媒体类型时提供一致的用户体验。在操作时，包含在介质驱动器144内的应用和/或其他介质可以被启动，或者从介质驱动器144被播放，以便为多媒体控制台提供附加的功能性。

多媒体控制台可以通过简单地将系统连接到电视或其他显示而作为独立系统进行操作。在该独立模式下，多媒体控制台允许一个或多个用户与系统进行交互、观看电影或听音乐。然而，在通过网络接口124或无线适配器148使宽带连通性的集成可用的情况下，多媒体控制台可以进一步操作为较大网络社区中的参与者。

当多媒体控制台被通电时，指定量的硬件资源被多媒体控制台操作系统预留，以供系统使用。这些资源可以包括对存储器（例如16MB）、CPU和GPU周期（例如5%）、联网带宽（例如8kbs）等的预留。因为这些资源在系统启动时被预留，所以所预留的资源从应用的角度看不存在。

特别地，存储器预留优选大到足够包含启动内核、并发系统应用和驱动器。CPU预留优选恒定不变，从而如果预留的CPU使用未被系统应用使用，则空闲线程将消费任何未被使用的周期。

关于GPU预留，由系统应用（例如弹出窗口）生成的轻量消息通过使用GPU中断来调度代码以便将弹出窗口渲染到覆盖中而被显示。覆盖所需的存储器量取决于覆盖区域大小，并且覆盖优选随着屏幕分辨率而缩放。在全用户界面被并发系统应用使用的情况下，优选使用独立于应用分辨率的分辨率。可以使用定标器来设置该分辨率，从而消除对改变频率和导致TV再同步的需求。

在多媒体控制台启动并且系统资源被预留之后，并发系统应用执行以便提供系统功能性。系统功能性被封装在在上面描述的预留系统资源内执行的一组系统应用中。操作系统内核标识线程是系统应用线程还是游戏应用线程。系统应用优选以预定的时间和间隔被调度到CPU101上运行，以便为应用提供一致的系统资源视图。所述调度将最小化对正在控制台上运行的游戏应用的高速缓存中断。

当并发系统应用需要音频时，由于时间敏感性，音频处理被异步地调度给游戏应用。多媒体控制台应用管理器（在下面描述）控制当系统应用活跃时的游戏应用音频水平（例如静音、减弱）。

输入设备（例如控制器142（1）和142（2））被游戏应用和系统应用共享。输入设备不是预留的资源，而将在系统应用和游戏应用之间被切换，从而每个都将具有设备的焦点。应用管理器在不知道游戏应用的知识的情况下优选控制输入流的切换，以及，驱动器保存关于焦点切换的状态信息。控制台100可以从深度相机系统接收附加输入。

图4以计算系统200的形式描绘了图1的客户端计算设备145的另一示例框图。在交互式系统中，所述计算系统可以用于解释一个或多个手势或其他移动，以及作为响应，更新显示上的视觉空间。所述计算系统包括计算机241，该计算机241通常包括各种各样有形计算机可读存储介质。这可以是可以被计算机访问的任何可用介质，并且包括易失性和非易失性介质、可移除和非可移除介质两者。系统存储器222包括采用易失性和/或非易失性存储器形式的计算机存储介质，诸如只读存储器（ROM）223和随机访问存储器（RAM）260。包含诸如在启动期间帮助在计算机内的元件之间传输信息的基本例程的基本输入/输出系统224（BIOS）通常被存储在ROM223中。RAM260通常包含可被处理单元259立即访问和/或当前正被处理单元259操作的数据和/或程序模块。图形接口231与GPU229通信。还提供了操作系统225、应用程序226、其他程序模块227和程序数据228。

所述计算机还可以包括其他可移除/非可移除、易失性/非易失性计算机存储介质，例如从非可移除、非易失性磁介质读取或向其写入的硬盘驱动器238，从可移除、非易失性磁盘254读取或向其写入的磁盘驱动器239，以及从诸如CDROM或其他光学介质之类的可移除、非易失性光盘253读取或向其写入的光盘驱动器240。其他可以在示例性操作环境中使用的可移除/非可移除、易失性/非易失性有形计算机可读存储介质包括但不限于，盒式磁带、闪存卡、数字多功能盘、数字视频磁带、固态RAM、固态ROM等。硬盘驱动器238通常通过诸如接口234之类的非可移除存储器接口连接到系统总线221，以及，磁盘驱动器239和光盘驱动器240通常通过诸如接口235之类的可移除存储器接口连接到系统总线221。

所述驱动器及其关联的计算机存储介质提供对计算机可读指令、数据结构、程序模块和其他用于计算机的数据的存储。例如，硬盘驱动器238被描绘为存储操作系统258、应用程序257、其他程序模块256和程序数据255。应当指出，这些组件可以与操作系统225、应用程序226、其他程序模块227和程序数据228相同或不同。操作系统258、应用程序257、其他程序模块256和程序数据255此处被给以不同的数字以描绘至少它们是不同的副本。用户可以通过输入设备向计算机输入命令和信息，所述输入设备诸如是键盘251和通常称为鼠标、轨迹球或触摸板的指向设备252。其他输入设备可以包括麦克风261、操纵杆、游戏板、卫星天线、扫描仪等。这些和其他输入设备通常通过耦合到系统总线的用户输入接口236连接到处理单元259，但也可以通过诸如并行端口、游戏端口或通用串行总线（USB）之类的其他接口和总线结构来连接。监视器242或其他类型的显示设备也经由诸如视频接口232之类的接口连接到系统总线221。除监视器以外，计算机还可以包括可以通过输出外围接口233来连接的、诸如扬声器244和打印机243之类的其他外围输出设备。

所述计算机可以使用与诸如远程计算机246之类的一个或多个远程计算机的逻辑连接在联网环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、对等设备或其他常见网络节点，并且通常包括上面关于所述计算机描述的元件中的许多或全部，尽管仅仅描绘出了存储器存储设备247。所述逻辑连接包括局域网（LAN）245和广域网（WAN）249，但也可以包括其他网络。所述联网环境在办公室、企业范围的计算机网络、内联网和互联网中是常见的。

当在LAN联网环境中使用时，所述计算机通过网络接口或适配器237连接到LAN245。当在WAN联网环境中使用时，所述计算机通常包括调制解调器250或其他用于建立通过诸如互联网之类的WAN249的通信的装备。可以在内部或外部的调制解调器250可以经由用户输入接口236或其他合适机制连接到系统总线221。在联网环境中，相对于所述计算机或其部分所描绘的程序模块可以存储在远程存储器存储设备中。远程应用程序248驻留在存储器设备247上。应当领会到，所示的网络连接是示例性的，并且可以使用其他在计算机之间建立通信链路的装备。

所述计算系统可以包括在其上体现了计算机可读软件以用于将至少一个处理器编程为执行如本文中所描述的方法的有形计算机可读存储设备或装置。有形计算机可读存储设备可以包括例如组件222、234、235、230、253和254中的一个或多个。进一步地，所述计算系统的一个或多个处理器可以提供处理器实现的方法，如本文中所描述的。GPU229和处理单元259是处理器的示例。

图5A描绘了一种用于为文档提供语音用户界面的过程概览。所述过程包括步骤：在web浏览器处加载文档，500；为显示设备渲染文档，501；对文档的所显示部分进行分析以标识交互式元素和关联的短语，502（进一步的细节见图5B）；接收（初始）用户语音命令，503；将语音命令与交互式元素的关联短语进行比较，504（进一步的细节见图5C）；执行可选的消歧过程，505（进一步的细节见图5E）；为交互式元素中的一个交互式元素生成点击事件，506（例如，使用图2A的点击事件生成器代码162）；以及检测和处理已更新的交互式元素，507（进一步的细节见图5F）。所述文档可以是web页面、书签列表或其他文档。

在一种方法中，所述步骤可以在客户端计算设备处执行。一种可替换方法在于，在服务器处分析文档并获得短语的语法，然后将所述语法与所请求的文档一起提供给客户端计算设备。另一种可替换方法在于，在服务器处保存所述语法，将语音命令从客户端计算设备传送到服务器，在服务器处执行语音到短语转换，将口述短语与文档的所提取语法进行比较以便标识作为最佳匹配的所述文档中的交互式元素，并向客户端计算设备通知该最佳匹配。另一种可替换方法与上文类似，但在客户端计算设备处执行语音到短语转换，并且将口述短语传送给服务器。服务器然后将口述短语与所述语法进行比较。此外，所示的步骤不必作为分立的步骤或按所示的次序来执行。例如，对已更新交互式元素的检测和处理可以在所述过程中的任何时间发生。在本文中提供了关于所述步骤中的每个步骤的进一步细节。

图5B提供图5A的步骤502的用于分析文档以标识交互式元素和关联的短语的示例细节。该过程可以例如由图2B的元素选择和短语标识代码157执行。步骤510包括对文档代码进行解析。例如，这可以包括对文档的HTML源代码进行分析。另一种方法在于，准备表示所述文档的树型数据结构。例如，万维网联盟（W3C）的文档对象模型（DOM）提供了一个用于对HTML、可扩展超文本标记语言（XHTML）和可扩展标记语言（XML）文档中的对象进行表示和与之交互的公约。DOM提供一种树型数据结构。DOM树中的对象可以通过使用对象上的方法来寻址和操纵。

步骤511包括标识文档的交互式元素。在过程的初始关口（pass）中，这可以涉及根据文档中的标签标识文档中的第一交互式元素。例如，可以检测信号通知交互式元素的存在的特定标签。例如，锚标签在HTML代码中由“<a>”代表，并且代表超链接，“<button>”标签定义点击按钮，“<input>”标签定义输入控制，以及，“<option>”标签定义下拉列表中的选项。对文档的交互式元素的标识可以限于当前被显示的交互式元素。

在特定实现方式中，交互式元素可以由下面的函数表述：语音界面元素=找到界面元素（文档）（VoiceInterfaceElements=findInterfaceElement（Document）），其中，文档是HTML文档，并且其对应的DOM（文档对象模型）可以包含零个或多个子文档。语音界面元素是将主DOM元素与文本短语相关的一组元组（DOM元素*（DOMElement*），短语）的集合。DOM元素是将是语音交互的目标的HTML文档中的元素。DOM元素可以是“点击”事件，该“点击”事件通常由诸如鼠标之类的指向设备生成。“短语”是当被说出时将促使该元素被调用的零个或多个短语的列表。

所述函数通过执行如下面描述的、对DOM搜索任何具有特定特性的元素来操作。一种示例类型的交互式元素是由锚标签“（<a></a>）”定义的锚。由格式“<ahref=“foo”></a>”代表的锚链接组成web页面上的链接的绝大部分。这些被每个web浏览器理解，并且在对于向诸如屏幕阅读器之类的辅助技术表述语义意义方面做得很好。锚标签通常包含文本。然而，在某些情况下，其可以仅包含图像。如果锚包含文本，则锚文本将被使用。例如在代码“<a>这是链接</a>”中，锚文本（链接文本）是“这是链接”。如果锚包含图像且不包含显示的文本，但包含alt（可替换）文本，则该alt文本可以用于与语音命令进行匹配。一个示例为：“<a><imgsrc=”bat.png”alt=“Abaseballbat”></a>，其中，“Abaseballbat”是alt文本，以及bat.png是图像文件。如果锚不具有任何可用文本（例如锚之下没有子文本节点，以及没有具有alt属性的子节点），则可以不带文本地添加所述链接，并使其经由诸如“显示未命名链接”之类的命令可由用户访问。

另一个示例交互式元素是由标签：（<button></button>）定义的按钮，在此情况下，<button>标签内的文本节点可以用于与语音命令进行匹配。另一个示例交互式元素是由标签：“<inputtype=”submit”></input>”定义的类型=提交（type=submit）的输入。在该示例代码中，“value”属性下的文本可以用于与语音命令进行匹配：<inputtype=“submit”value=“clickme”></input>。这些元素还可以通过“示出未命名类型”命令来访问。

可以在文档代码中被标识的其他示例交互式元素是具有点击事件句柄的DOM元素。例如，具有JAVASCRIPT点击、双击或鼠标按下事件的DOM元素可以具有与链接相同的语义意义。例如，页面可以具有<div>元素，该<div>元素操控点击事件，并且然后将浏览器导航到不同的URL。<div>标签定义HTML文档中的部分或分段。在此情况下，可以对具有已注册事件句柄的该元素下的文本节点进行搜索。

另一个示例交互式元素是由：“<option>”定义的选择选项或下拉，在此情况下，包含在每个选项标签内的文本可以用于与语音命令进行匹配。

步骤512在针对交互式元素的代码中标识短语。例如，这可以是标识针对交互式元素的第一短语。如已讨论的，该短语可以是例如HTML文档中的链接文本（也被已知为链接标记）、标题文本、输入文本或可替换图像文本。还有可能的是，短语在指示交互式元素的类型（例如链接、按钮、复选框）的情况下被提供。

另一选项是检查具有“htmlFor”属性的HTML<label>元素，“htmlFor”属性包含被假设为交互式元素的页面上的另一元素的ID（标识符）。如果已确定htmlFor属性有效，则<label>和</label>之间的文本可以包括如下这样的短语，即：所述短语可以被添加到语法以激活由htmlFor指向的交互式元素。例如对于复选框和单选按钮，该方法是有用的。

步骤513涉及将链接到交互式元素的短语包括（添加）到候选短语的语法中。所述语法可以例如由图2B的语法生成代码158提供。进一步的细节例如见图7A1-7J3。步骤514涉及对所述短语进行解析，以便在候选短语的语法中提供链接到交互式元素的所述短语的n元语法子集。例如，对于作为五个单词的序列的短语，存在该短语的4元语法、3元语法、2元语法和1元语法子集。进一步的细节例如见图7A1和7A2。一般说来，短语表示一个或多个单词的序列，并且具有Np个单词的长度，其中，Np是一或更大的整数。

在决定步骤515处，如果存在针对当前交互式元素的下一个要分析的短语，则重复步骤512-514。如果不存在针对当前交互式元素的下一个要分析的短语，则决定步骤516确定文档中是否存在下一个要分析的交互式元素。如果决定步骤516被评估为“是”，则对于下一个交互式元素重复步骤511-514。如果决定步骤516被评估为“否”，则过程在步骤517处完成。

图5C提供了图5A的步骤504的用于将语音命令与交互式元素的关联短语进行比较的示例细节。步骤520识别语音命令中的口述单词的序列。该序列可以是一个或多个单词的已排序序列，并且表示一个短语。存在用于语音命令和短语之间的转换的各种技术。这可以例如由图2B的话音识别代码159执行。

步骤521确定口述单词的序列有Nv个单词长，其中，Nv是一或更大的整数。步骤522在显示设备的当前显示区域内选择具有表示（例如文本或图像）的交互式元素。例如，这可以是处在当前显示区域内的文档中的第一交互式元素。当文档被渲染以用于在显示设备上进行显示时，渲染代码知道文档的被渲染大小，例如如由如下这样的矩形度量的，即：所述矩形在宽度上具有指定数量的水平像素，并且在高度上具有特定数量的垂直像素。显示器的像素大小也已知。如果被渲染大小大于显示器的大小，则插入滚动条，该滚动条允许用户滚动图像以看见文档的不同部分。通常，使用垂直滚动。渲染代码可以被配置为指出哪些交互式元素当前正被显示，和/或哪些交互式元素当前未被显示。

步骤523选择链接到交互式元素的候选短语。可以存在一个或多个链接到一个交互式元素的短语。步骤524将候选短语与口述单词的序列进行比较。这可以例如由图2B的话音识别代码159提供。进一步的细节例如见图5D。步骤525确定针对该候选短语的匹配分数。该分数指示候选短语与口述单词的序列匹配的程度。在一种方法中，分数基于每个被匹配的单词和每个未被匹配的单词。在一种方法中，匹配分数可以是基于短语中与口述单词的序列匹配的单词的数量。相对更多的匹配单词可以导致相对更高的分数。在一种方法中，匹配分数基于口述单词序列中的单词的不同重要性级别。

与相对更重要的单词的匹配可以导致相对更高的分数。例如，在链接文本中，初始单词（例如第一个、第二个）可以更重要。作为另一示例，在英语中诸如“那个”、“一”和“一个”之类的被归类为冠词的单词可以较不重要。可以基于单词或短语的外观特点为单词或短语指派相对重要性。例如，使用相对较大字体或粗体、带下划线或斜体字体渲染的单词或短语可以比使用相对较小字体或非粗体、非带下划线、非斜体字体渲染的单词或短语更重要。还可以基于标题标签的相对重要性来为单词或短语指派相对重要性。例如，文档可以包括如下这样的短语，即：使用不同级别的标题标签<h1>到<h6>为所述短语加标签，其中，<h1>定义最重要的标题，而<h6>定义最不重要的标题。可以基于单词或短语在文档中的位置来为单词或短语指派相对重要性。例如，可以为较靠近文档顶部的位置指派比较靠近文档底部的位置更高的重要性。该过程假设用户相对更可能选择具有更突出外观的交互式元素。

也可以基于其他元数据为单词或短语指派相对重要性。匹配分数由此可以基于多个短语中的不同短语的不同重要性级别。

在一种方法中，当语音命令中包括不匹配短语的额外单词时，在分数中施加小的惩罚。如果语音命令不包括短语中的全部单词，则可以施加较大的惩罚。进一步地，所述过程可以适应于特定用户。例如，用户可以倾向于在链接文本之前和/或之后添加额外单词。例如，用户可以在链接文本之前添加额外单词，诸如“我选择”（例如，针对图6A的链接文本610的“我选择医疗保险文章”），或者用户可以在链接文本之后添加额外单词，诸如“链接”或“文章”（例如，针对链接文本610的“医疗保险文章”）。一旦已得知这种情况，则多余单词可以被忽略，并且不影响匹配分数。

每个单词的匹配的置信度也可以在分数中被考虑。决定步骤526确定是否存在链接到当前交互式元素以与口述单词的序列进行比较的下一个候选短语。如果决定步骤526被评估为“是”，则对于下一个候选短语重复步骤523-525。在一种方法中，如果决定步骤526被评估为“否”，则步骤527将针对所述交互式元素的匹配分数设置为其候选短语中的最高匹配分数。

决定步骤528确定处在当前显示区域内的文档中是否存在要分析的下一个交互式元素。如果决定步骤528被评估为“是”，则对下一个交互式元素重复步骤522-527。如果决定步骤528被评估为“否”，则步骤529根据其匹配分数对交互式元素进行排名，例如最高分数在第一个。

图5D提供图5C的步骤524的用于将候选短语与口述单词的序列进行比较的示例细节。置信水平可以指示每个口述单词与文档中的短语的每个单词之间的匹配程度。在某些情况下，如果置信水平超过阈值置信水平，则可以在两个单词之间声明匹配。阈值置信水平可以是预定水平或相对水平。进一步地，置信水平可以指示一个或多个口述单词的集合和文档中的短语的一个或多个单词的集合之间的匹配程度。例如，对于候选短语与口述短语的匹配的整体置信水平可以基于与所述短语的组成单词的匹配的置信水平。

决定步骤530解决其中Np（来自文档的候选短语中的单词数量）=Nv（语音命令中的口述单词数量）的情况。该决定步骤确定候选短语的Np个单词的集合与Nv个口述单词的集合之间是否存在精确匹配。当匹配的置信水平超过阈值时，精确匹配可以发生。如果该决定步骤被评估为“是”，则过程在步骤534处完成。

如果该决定步骤被评估为“否”，则决定步骤531解决其中Np＞Nv的情况。该决定步骤确定候选短语的Np个单词的子集与Nv个口述单词的集合之间是否存在精确匹配。对于Np＞Nv，将存在短语的Np个单词的Np-Nv+1个子集（严格子集）要与Nv个口述单词进行比较。如果该决定步骤被评估为“是”，则过程在步骤534处完成。

如果该决定步骤被评估为“否”，则决定步骤532解决其中Np＜Nv的情况。该决定步骤确定候选短语的Np个单词的集合与Nv个口述单词的子集之间是否存在精确匹配。对于Np＜Nv，将存在Nv个口述单词的Nv-Np+1个子集（严格子集）要与短语的Np个单词进行比较。如果该决定步骤被评估为“是”，则过程在步骤534处完成。

如果决定步骤被评估为“否”，则决定步骤533解决如下这样的情况，即：其中不存在针对完整的口述单词集合或短语的完整单词集合的匹配。该决定步骤确定候选短语的Np个单词中的一个或多个单词的任何子集与Nv个口述单词中的一个或多个单词的任何子集之间是否存在精确匹配。如果该决定步骤被评估为“是”，则过程在步骤534处完成。如果该决定步骤被评估为“否”，则语音命令在步骤535处被拒绝，并且可以要求用户重复该语音命令。

所述过程由此可以涉及将用户的语音命令与多个短语进行比较，其中，所述多个短语包括多个链接的链接文本，并且，所述比较包括将单词的序列与语音命令进行比较，以及确定匹配语音命令的所述单词序列的最长子集。基于所述比较，过程针对每个链接确定指示其关联的链接文本与语音命令的匹配程度的匹配分数。针对链接中的至少一个的匹配分数基于匹配语音命令的单词序列中的最长子集中的单词数量。所述过程将链接中的一个基于其匹配分数标识为与语音命令的最接近匹配。

图5E提供图5A的步骤506的用于执行消歧过程的示例细节。消歧过程是如下这样的过程，即：当存在交互式元素与语音命令的多个可行匹配时，该过程移除歧义。对于web页面，有可能包含在该页面上被复制许多次但仍然是用户体验的关键部分的链接。例如，新闻web页面可以具有几个新闻文章摘要以及将导航到完整文章的读作“阅读更多…”的链接。附加地，某些VUI（语音用户界面）实现方式允许用户为方便而说出短语的部分（取代完整短语）。在此情况下，用户可以说出在多个短语中出现的有歧义的子短语，并且用户代理（agent）应当确定用户打算调用的元素。如果用户说出有歧义的短语，则用户代理（浏览器）应当确定要调用哪个界面元素。一种解决方案在于针对有歧义的元素中的每个元素提供唯一标记，用户可以通过语音命令对其进行选择以调用所期望的交互式元素。

在一种方法中，屏幕上标记靠近作为多个可行匹配的交互式元素的屏幕上文本或图像表示而被提供。步骤539开始过程，以便决定是否要执行消歧过程。步骤540标识具有最高匹配分数的交互式元素组。例如，这可以包括具有阈值之上的匹配分数的全部交互式元素，或者具有阈值之上的匹配分数的有限数量的交互式元素（例如顶部三个交互式元素）。在另一方法中，步骤540可以标识基于当前显示在显示设备上的交互式元素总数的若干交互式元素（例如不多于三分之一的交互式元素）。该方法确保了在消歧过程中涉及的交互式元素的数量不过多。

还有可能得知用户的兴趣，并且基于关联于交互式元素的内容中的假设的用户感兴趣水平来调整针对交互式元素的分数。例如，当用户简档指示对体育的兴趣时，关联于体育内容的交互式元素可以接收其匹配分数的增大。这与用于基于用户简档修改来自搜索引擎的结果的过程相似。

决定步骤541确定最高匹配分数是否大于第一阈值（阈值1）。如果该决定步骤被评估为“否”，则语音命令在步骤551处被拒绝。在此情况下，交互元素中没有一个是对于语音命令的合适匹配。如果该决定步骤被评估为“是”，则决定步骤542确定最高匹配分数是否比下一个最高匹配分数大出第二阈值（阈值2）。如果该决定步骤被评估为“是”，则步骤552前进到图5A的步骤506的点击事件。在此情况下，对于所述组中的交互式元素中的作为最接近匹配的一个交互式元素，如果其匹配分数按绝对项（absoluteterms）计算足够高（例如在阈值1之上），并且比下一个较低匹配分数高出足够多（例如基于阈值1比阈值2高出足够多），则生成点击事件。这样的交互式元素是明确匹配。在此情况下，一个短语是对用户的语音命令的最佳匹配，以及作为响应，在没有来自用户的进一步语音命令的情况下对交互式元素生成点击事件。

如果决定步骤542被评估为“否”，则步骤543开始消歧过程。在此情况下，如果交互式元素中的作为最接近匹配的一个交互式元素的匹配分数为以下中的至少一项，则启动消歧过程：按绝对项计算并非足够高，或者不比下一个较低匹配分数高出足够多。步骤544修改显示以标识所述组中的交互式元素。例如，这可以涉及步骤545-547中的一个或多个。步骤545为组中的交互式元素的每个在显示上提供唯一标记（可选地带有排名）。例如见图6C和6D的标记630和631。步骤546改变组中的交互式元素的关联短语在显示上的外观。例如，见图6D中对链接文本610和612使用粗体字体。步骤547移除或视觉上不再强调（例如显示为灰色）未在组中的交互式元素的关联短语的文本。例如，见图6D，其中移除了交互式元素642的链接文本614、附加文本615和图像616。

一旦对组中的交互式元素显示了标记，则可以提示用户说出随后的语音命令以选择对应于所期望的交互式元素的标记中的一个。步骤548接收随后的用户语音命令。步骤549将随后的语音命令与唯一标记进行比较。步骤550标识唯一标记中的作为对于随后语音命令的最佳匹配的一个唯一标记。例如，用户可以通过说出“一”或“第一”或类似内容来选择“国会中的医疗保险预算讨论”的链接文本。

所述过程还可以收听用于退出消歧的唯一命令，其等价于“不是这些中任一个”命令。当听到此时，候选项被默默地拒绝，并且消歧过程退出。

有利地，消歧过程允许用户从所显示元素的有限子集中选择，所述有限子集最可能是对用户打算选择的项的匹配。可以为包括那些较不可能是匹配的每个所显示交互式元素提供标记，但这对于用户是较繁重和较不自然的，特别当存在大量元素时。

图5F提供了图5A的步骤508的用于检测和处理已更新交互式元素的示例细节。在文档已被加载并被渲染以便显示之后，可以例如从文档所取自的服务器接收对交互式元素的更新。交互式元素的一个或多个属性可以在动态更新过程中被更新。已改变的交互式元素可以被重新渲染，从而其在不重新加载整个文档的情况下在显示上被更新。有利地，可以将语法与这样的更新同步，从而使语法中的候选短语表示已更新的交互式元素。

步骤560检测针对交互式元素的更新事件。在一种方法中，客户端计算设备处的软件收听来自服务器的更新事件。一个示例实现方式使用收听突变事件的W3C的突变事件模块。该突变事件模块被设计为允许通知对文档结构的任何改变，所述改变包括属性和文本修改。所述更新可以涉及修改、添加或移除。例如，所述更新可以包括替换初始短语的新短语。作为示例，“国会中的医疗保险预算讨论”的链接文本可以被“医疗保险预算讨论现在正在进行中”替换。web页面编辑者有时例如随故事发展而改变文章的链接文本。为对语法进行同步，诸如“国会”之类的初始短语中的单词被移除，并被诸如“进行”之类的新短语中的单词替换。

在此情况下，步骤561在显示上重新渲染交互式元素。步骤562检测在显示上的交互式元素的新短语。步骤563在候选短语的语法中用新短语替换初始或以前的短语，并且该新短语被链接到交互式元素。过程在步骤564处完成。

图6A描绘了在显示设备的显示区域中的文档顶部的显示。如已提到的，文档的被渲染大小通常大于显示器大小，从而用户使用诸如滚动条603之类的工具来上滚或下滚、或者左滚和右滚，以便查看文档的不同部分。随着用户滚动，当前被显示的交互式元素可以改变。通过将语法限于当前被显示的交互式元素，可以促进与语音命令进行匹配的过程，因为用户一般将不会对当前未被显示的交互式元素输入语音命令。由此，从当前被显示的交互式元素导出的语法中的短语可以被认为是用于匹配的活跃短语，而从当前未被显示的交互式元素导出的语法中的短语可以被认为是不用于匹配的非活跃短语。此外，活跃和非活跃短语可以随着用户在显示中滚动文档而被更新。

文档600包括当前被显示在显示设备上的已渲染顶部602。这里，交互式元素640包括链接文本610和附加文本611，交互式元素641包括链接文本612和附加文本613，以及交互式元素642包括链接文本614和附加文本615。在该视图中，预期用户输入对应于链接文本610、612或614的语音命令。链接文本可以针对超链接或其他链接。

文档600还包括当前未被显示在显示设备上的未渲染底部604。这里，交互式元素643包括链接文本618和附加文本619，所述链接文本618是超链接或其他链接。交互式元素644包括链接文本620。

由此，所述文档可以针对所述显示设备被渲染，从而文档的被渲染大小大于显示设备的大小，由此需要用户进行滚动来查看文档的不同部分。文档的一部分（例如顶部602）当前位于显示设备的显示区域内，而文档的另一部分（例如底部604）当前不在显示设备的显示区域内。当前位于显示设备的显示区域内的交互式元素640、641或642在文档的所述一部分中，而另一交互式元素643或644在文档的所述另一部分中。

图6B描绘了在显示设备的显示区域中的图6A的底部660的显示。被渲染的底部660包括具有链接文本618和附加文本的交互式元素643以及具有链接文本620的交互式元素644。该被渲染的底部还包括其他交互式元素640-642的附加文本和图像616的一部分。在该视图中，预期用户输入对应于链接文本618或620的语音命令。

图6C描绘了带有添加到链接文本610和612的消歧标记的图6A的文档顶部。符合图5E的步骤545，该链接文本关联于在具有相对于口述短语的最高匹配分数的交互式元素组中的交互式元素。带有文本“1”的标记630紧挨着链接文本610被提供，而带有文本“2”的标记631紧挨着链接文本612被提供。在该视图中，预期用户输入对应于标记630或631的语音命令。可选地，用户可以重复原始语音命令。

图6D描绘了其中添加了针对链接文本610和612的已改变外观并移除了交互式元素642的文本和图像的图6C的文档顶部。符合图5E的步骤546，链接文本610和612关联于在具有相对于口述短语的最高匹配分数的交互式元素组中的交互式元素。符合图5E的步骤547，交互式元素642不在该组中。已改变的外观可以对链接文本610和612使用更突出的字体、加粗、颜色等。已改变的外观向用户通知关联于最佳匹配链接和对应的最佳匹配交互式元素的链接文本。

图7A1描绘了图6A的交互式元素640的示例代码。在一个示例实现方式中，所述文档包括HTML代码，所述HTML代码包括定义交互式元素的标签。在该示例代码中，锚标签定义了超链接。锚标签之间存在“href”属性，该“href”属性指定当交互式元素被选择时被加载的链接页面（“www.todaynews.com/MedicareBudget.htm”）的统一资源定位符（URL）。锚标签之间还存在如由关键字“title=”代表的标题文本（“医疗保险预算讨论文章（Medicaretalksarticle）”），该标题文本指定了关于交互式元素的额外信息。例如，描述性文本可以提供交互式元素的速记总结。所述标题文本提供了即使该标题文本不被显示也在与语音命令匹配时有用的短语（一个短语）。除非用户执行特定动作，否则该描述性文本通常不出现在屏幕上。该特定动作可以是执行鼠标悬停（将光标移动到链接文本上），在此情况下，描述性文本可以看起来像工具提示。

所述代码进一步包括位于“>”和“</a>”之间的链接文本（“国会中的医疗保险预算讨论(MedicarebudgettalksinCongress)”）。该描述性文本通常作为超链接出现在屏幕上，所述超链接带有通过加下划线和着色提供的特殊外观。

其他标签可以在交互式元素周围使用，诸如例如<body>和段落“<p>”标签（未示出）。<body>标签定义文档的主体，并且包含HTML文档的全部内容，诸如文本、超链接、图像、表格和列表。还可以使用诸如换行符<br>之类的其他标签。

图7A2描绘了对应于图7A1的示例性语法条目。所述语法条目链接到点击事件代码（元素的可执行代码），以便链接到具有特定URL的文档或其他内容。交互式元素链接到语法中的两个短语。第一短语（短语1）是“医疗保险预算讨论文章”。该短语中的单词数量为Np=3。相应地，有可能如所指示那样构造2元语法子短语和1元语法子短语。2元语法子短语包括与单词次序一致的、3单词短语的全部2单词组合。1元语法子短语包括3单词短语的单个单词。

第二短语（短语2）是“国会中的医疗保险预算讨论”。该短语中的单词数量为Np=5。相应地，有可能如所指示那样构造4元语法、3元语法、2元语法和1元语法子短语。4元语法子短语包括与单词次序一致的、5单词短语的全部4单词组合。3元语法子短语包括与单词次序一致的、5单词短语的全部3单词组合。2元语法子短语包括与单词次序一致的、5单词短语的全部2单词组合。1元语法子短语包括5单词短语的单个单词。

一般说来，预期语音命令将包括短语的一个或多个单词。然而，某些用户可能不会小心地提供全部遵循精确链接文本的语音命令。同样，即使用户打算提供这样的语音命令，单词中的某些单词可以不被准确地识别。此外，某些用户可能会说出链接文本的第一个单词或最初几个单词而其他人说出他们相信是最重要的特定单词，并且其他人说出单词中的一个或多个单词的同义词。使用子短语可以提供关于用户说了或打算什么的附加线索。

例如，参考图6A，用户可以以选择链接文本610“国会中的医疗保险预算讨论”为意图说出“医疗保险文章”。在此情况下，可以由于单词“医疗保险”的匹配而对短语“国会中的医疗保险预算讨论”、以及由于单词“医疗保险”和“文章”的匹配而对短语“医疗保险文章”生成高匹配分数。在一种方法中，对于交互式元素的总分可以基于链接到该交互式元素的每个短语的匹配分数。变型是可能的。例如，可以相比于不可见的短语对与可见短语的匹配给予较高权重。

应当指出，由于相同单词——“医疗保险”的匹配，还生成了针对关联于交互式元素641的短语的高匹配分数，该交互式元素641带有链接文本612“医疗保险削减是不可避免的吗”。在此情况下，消歧过程可以被触发，从而导致图6C或6D的显示。由于单词次序——“医疗保险”是链接文本610中的第一个单词以及链接文本612中的第二个单词，所以与链接文本610中的“医疗保险”的匹配可以获得比与链接文本641中的相同单词的匹配更高的分数。

由于没有匹配的单词，所以还生成了针对带有链接文本614“以预算为生活得很好”的关联交互式元素的低匹配分数。

由于交互式元素643和644（例如其链接文本）当前未被显示，所以不生成针对交互式元素643和644的匹配分数。例如，语音命令“医疗保险预算”不导致产生对链接文本620“预算银行”的匹配分数，即使单词“预算”出现在链接文本中。

图7B1-7E2提供了针对图6A和6B中的其他交互式元素的示例代码和短语。

图7B1描绘了图6A的交互式元素641的示例代码。在锚标签之间存在链接页面的URL地址（“www.todaynews.com/MedicareCuts.htm”）、标题文本（“医疗保险削减文章（Medicarecutsarticle）”）和链接文本（“医疗保险削减是不可避免的吗?”）。

图7B2描绘了对应于图7B1的示例语法条目。该语法条目链接到包括URL的点击事件代码。所述语法包括第一短语（“医疗保险削减是不可避免的吗?”）和第二短语（“医疗保险削减文章”）。可以如结合图7A2所讨论那样提供n元语法。

图7C1描绘了图6A的交互式元素642的链接614的示例代码。锚标签之间的是链接页面的URL地址（“www.todaynews.com/LivingWell/051013.htm”）、标题文本（“活得很好文章”）和链接文本（“以预算为生活得很好”）。还提供了附加文本（“TomJones，画像在下面，已找到某些惊人的方式来节俭使用一美元……”）。

图7C2描绘了图6A的交互式元素642的图像616的示例代码。该代码可以调用与图7C1的代码相同的URL。该交互式元素是如由标签“img”代表的图像。术语“src”代表对于图像文件的源路径（“/images/TomJones.gif”）。术语“alt”代表关联于图像但通常不被显示的可替换文本（“TomJones”）。

图7C3描绘了对应于图7C1和7C2的示例语法条目。该语法条目链接到包括URL的点击事件代码。该语法包括第一短语（“以预算为生活得很好”）、第二短语（“活得很好文章”）和第三短语（“TomJones”）。在此情况下，图像的alt文本链接到URL，并且可以用于确定用户期望选择该链接。例如，即使短语“TomJones”不在链接文本中，用户在看到被标识为具有该名字的人的图像之后可以说出该短语。例如，语音命令可以是“TomJones文章”。如果单独依赖于链接文本，则将不存在与该语音命令的匹配。使用甚至未被显示的alt文本可以允许与语音命令的匹配。可以如结合图7A2讨论的那样提供n元语法。

图7D1描绘了图6A的交互式元素643的示例代码。锚标签之间的是链接页面的URL地址（“www.todaynews.com/Weather”）、标题文本（“天气主页面”）和链接文本（“天气”）。还提供了附加文本（“晴，最高60度”）。

图7D2描绘了对应于图7D1的示例语法条目。该语法条目链接到包括URL的点击事件代码。该语法包括第一短语（“天气”）和第二短语（“天气主页面”）。可以如结合图7A2讨论那样提供n元语法。应当指出，通过使用所述两个短语而非仅链接文本，诸如“天气页面”之类的语音命令由于与标题中的“页面”的匹配将具有与该交互式元素的更强匹配。

图7E1描绘了图6A的交互式元素644的示例代码。锚标签之间的是链接页面的URL地址（“www.budgetbank.com”）和链接文本（“预算银行”）。该示例不具有标题文本。

图7E2描绘了对应于图7E1的示例语法条目。该语法条目链接到包括URL的点击事件代码。该语法包括短语（“预算银行”）。可以如结合图7A2讨论那样提供n元语法。

图7F1-7J3提供除链接之外的交互式元素以及其关联代码和语法中的条目的示例。

图7F1描绘了作为按钮的交互式元素示例。按钮700包括文本“点击我！”。<button>标签定义可以包括诸如文本或图像之类的内容的按钮。当诸如通过语音命令进行选择时，所指定的动作（点击事件）被触发。例如，语音命令可以是按钮的文本，例如“点击我!”。动作可以例如是显示附加文本或图像。

图7F2描绘了图7F1的交互式元素的示例代码。该代码基于如下按钮标签：<buttontype="button"onclick=function()>点击我!</button>，其中，“MyFunction()”表示要执行的JAVASCRIPT函数。

图7F3描绘了对应于图7F2的示例语法条目。该语法条目链接到执行JAVASCRIPT函数“MyFunction()”的点击事件代码。该语法包括第一短语（“点击我!”）。可以如结合图7A2讨论那样提供n元语法。如已提到的，还有可能使得短语在指示交互式元素的类型（例如链接、按钮、复选框）的情况下被提供。在此情况下，单词“按钮”也可以被添加到语法。由此，通过使用短语“按钮”和“点击”而非仅短语“点击”，诸如“点击按钮”之类的语音命令由于与“按钮”的附加匹配将具有与该交互式元素的更强匹配。

图7G1描绘了作为类型为提交的输入的交互式元素示例。该交互式元素的所显示表示包括文本710“输入搜索项”、输入框711和带有文本“搜索”的按钮712。

图7G2描绘了图7G1的交互式元素的示例代码。该代码指示出，提供了HTML表单。一个动作是使用被输入到输入框中的搜索项来执行称为“search.asp”的文件。这是可包含文本、HTML标签和脚本的动态服务器页面文件。ASP文件中的脚本在服务器上被执行。

图7G3描绘了对应于图7G2的示例语法条目。该语法条目链接到点击事件代码，以使用被输入到输入框中的搜索项（“SearchTerm”）执行“search.asp”文件。该语法包括关联于该事件的第一短语（“输入搜索项”）。可以如结合图7A2讨论那样提供n元语法。进一步地，附加语法条目链接到当“搜索”被选择时使用搜索项执行搜索的点击事件代码。语法包括关联于该事件的第一短语（“搜索”）。可以基于交互式元素的类型添加附加短语“输入”。

图7H1描绘了作为复选框类型的输入的交互式元素的示例。该交互式元素的所显示表示包括文本720“今日投票：谁将赢得选举？”、复选框721和关联的文本722“Gov.JimSmith”以及复选框723和关联的文本724“参议员LukeJones”。

图7H2描绘了图7H1的交互式元素的示例代码。该代码指示出，使用了带有类型“checkbox”的输入标签的表单。“name”和“value”可以用作帮助与语音命令进行匹配的短语。类型“checkbox”（“复选框”）也可以被添加到语法。

图7H3描绘了对应于图7H2的示例语法条目。该语法条目链接到用于为值“Smith”设置复选框的值（指示其已被选中）的点击事件代码。语法包括关联于该事件的第一短语（“Gov.JimSmith”）。进一步地，附加语法条目链接到用于为值“Jones”设置复选框的值（指示其已被选中）的点击事件代码。该语法包括关联于该事件的第一短语（“参议员LukeJones”）。可以如结合图7A2讨论那样提供n元语法。

图7I1描绘了作为单选类型的输入的交互式元素的示例。该交互式元素的所显示表示包括文本730“描述你自己”、单选按钮731和关联的文本732“男性”以及单选按钮733和关联的文本734“女性”。

图7I2描绘了图7I1的交互式元素的示例代码。该代码指示出，第一单选按钮具有名称“gender”和值“male（男性）”。所述代码还指示出，第二单选按钮具有名称“gender”和值“female（女性）”。“name”和“value”可以用作帮助与语音命令进行匹配的短语。

图7I3描绘了对应于图7I2的示例语法条目。第一语法条目链接到用于为值“male”设置单选按钮的值（指示其已被选择）的点击事件代码。所述语法包括关联于该事件的第一短语（“男性”）。进一步地，附加语法条目链接到用于为值“female”设置单选按钮的值（指示其已被选择）的点击事件代码。所述语法包括关联于该事件的第一短语（“女性”）。

图7J1描绘了作为选择选项的交互式元素的示例。该交互式元素的所显示表示包括文本740“车型（Typeofcar）”以及当前选择是“Volvo”的下拉菜单。

图7J2描绘了图7J1的交互式元素的示例代码。该代码指示出，第一选择具有值“CarTypeVolvo”。“value”可以用作帮助与语音命令进行匹配的短语。在此情况下，“CarTypeVolvo”可以被解析以便标识短语“车型”。所述代码还指示出，第二选择具有值“CarTypeSaab”。也可以提供附加选择。

图7J3描绘了对应于图7J2的示例语法条目。第一语法条目链接到用于针对选项值“CarTypeVolvo”设置值的点击事件代码。语法包括关联于该事件的第一短语（“Volvo”）。进一步地，附加语法条目链接到用于针对选项值“CarTypeSaab”设置值的点击事件代码。该语法包括关联于该事件的第一短语（“Saab”）。

尽管已使用专用于结构特征和/或方法动作的语言描述了主题，但应当理解，在所附权利要求书中限定的主题不必限于上面描述的特定特征或动作。相反，上面描述的特定特征和动作作为实现权利要求书的示例形式被公开。

Claims

1.一种用于提供语音用户界面的方法，其包括：

分析文档以标识在所述文档中的多个交互式元素，所述多个交互式元素中的每个交互式元素包括关联的短语；

渲染所述文档以提供在显示设备上的显示，在所述显示中提供所述关联的短语；

将用户的语音命令与多个短语进行比较，所述多个短语包括所述多个交互式元素的关联短语；

基于所述比较，对于每个交互式元素确定指示其关联短语与所述语音命令的匹配程度的匹配分数；

将所述交互式元素中的一个交互式元素基于其匹配分数而标识作为对于所述语音命令的最接近匹配；以及

基于所述匹配分数，决定是否对所述交互式元素中的作为最接近匹配的交互式元素生成点击事件，或者是否启动消歧过程，所述消歧过程允许所述用户从包括所述多个交互式元素中最高的匹配分数的交互式元素组中进行选择。

2.根据权利要求1所述的方法，其中：

对于所述交互式元素中的作为最接近匹配的交互式元素，如果其匹配分数按绝对项计算足够高并且比下一较低的匹配分数高出足够多，则生成所述点击事件。

3.根据权利要求1或2所述的方法，其中：

如果所述交互式元素中的作为最接近匹配的交互式元素的匹配分数是以下中的至少一项，则启动所述消歧过程：按绝对项计算并非足够高，或者不比下一较低的匹配分数高出足够多。

4.根据权利要求1到3中的任一项所述的方法，其中：

所述消歧过程包括修改所述显示，以便识别所述组中的交互式元素中的每个交互式元素。

5.根据权利要求4所述的方法，其中：

修改所述显示包括提供靠近所述组中的交互式元素中的每个交互式元素在显示上的唯一标记；

所执行的方法进一步包括：

　　将用户的随后语音命令与每个唯一标记进行比较；

　　基于对所述随后语音命令进行的比较，标识所述唯一标记中的作为对于所述随后语音命令的最佳匹配的唯一标记；以及

　　针对由唯一标记中的所述那个唯一标记所标识的所述交互式元素中的一个交互式元素，生成点击事件。

6.根据权利要求5所述的方法，其进一步包括：

根据所述组中的交互式元素的匹配分数，在所述唯一标记的每个唯一标记上显示排名。

7.根据权利要去4到6中的任一项所述的方法，其中，

修改所述显示包括改变所述组中的交互式元素中的每个交互式元素的关联短语在所述显示上的外观。

8.根据权利要求4到7中的任一项所述的方法，其中：

修改所述显示包括从所述显示中移除或在所述显示上在视觉上不再强调不在所述组中的所述多个交互式元素中的交互式元素的关联短语。

9.一种计算设备，其包括：

显示设备；

存储设备，其存储代码和文档；以及

处理器，其关联于所述显示设备和所述存储设备，所述处理器执行所述代码，从而：

　　分析所述文档以标识所述文档中的多个交互式元素，所述多个交互式元素中的每个交互式元素包括关联的短语；

　　基于所述比较，对于每个交互式元素确定指示其关联短语与所述语音命令的匹配程度的匹配分数，所述匹配分数基于所述关联短语中匹配单词序列的单词数量；

　　将所述交互式元素中的一个交互式元素基于其匹配分数标识为对于所述语音命令的最接近匹配；以及

　　基于所述标识，对所述交互式元素中的作为最接近匹配的交互式元素生成点击事件。

10.根据权利要求9所述的方法，其中：

所述消歧过程包括修改所述显示，以便标识所述组中的交互式元素中的每个交互式元素；

修改所述显示包括提供靠近所述组中的交互式元素中的每个交互式元素在显示上的唯一标记；以及

所执行的方法进一步包括：

　　将用户的随后语音命令与每个唯一标记进行比较；

　　基于对所述随后语音命令进行的比较，标识所述唯一标记中的作为对于所述随后语音命令的最佳匹配的一个唯一标记；以及

　　对于由所述标记中的所述那个唯一标记标识的所述交互式元素中的一个交互式元素，生成点击事件。