CN106463119A

CN106463119A - 用于支持改进语音识别的对视觉内容的修改

Info

Publication number: CN106463119A
Application number: CN201580029986.8A
Authority: CN
Inventors: A·施特尔克; G·茨威格; M·斯拉尼
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-06-06
Filing date: 2015-06-03
Publication date: 2017-02-22
Anticipated expiration: 2035-06-03
Also published as: CA2948523A1; EP3152754A2; EP3152754B1; KR20170016399A; WO2015187756A3; WO2015187756A2; CN106463119B; RU2684475C2; MX2016016131A; BR112016026904B1; AU2015271726A1; RU2016147071A; JP6545716B2; US20150356971A1; AU2015271726B2; BR112016026904A8; BR112016026904A2; JP2017525002A; MX361307B; KR102393147B1

Abstract

本文中描述的技术涉及修改用于在显示器上呈现的视觉内容以支持改进自动语音识别(ASR)系统的性能。视觉内容被修改以将元素移动为进一步远离彼此，其中被移动的元素引起来自ASR系统的角度的歧义。视觉内容被修改以考虑凝视跟踪的准确性。当用户查看所修改的视觉内容中的元素时，ASR系统根据正被用户查看的元素来被定制。

Description

用于支持改进语音识别的对视觉内容的修改

背景技术

自动语音识别(ASR)系统被配置为识别由用户陈述的口头话语。更具体地，麦克风响应于捕获到音频而生成电信号，其中音频包括口头话语。电信号被处理以从音频中过滤噪声并提取可以被用于识别口头话语的特征。尽管ASR系统的性能(例如，速度和准确性)已经在过去几年里大大改进，但是当考虑大词汇量时、当ASR系统尚未利用代表特定口音或方言的适当的训练数据被训练时或当其他次优条件存在时，传统ASR系统继续具有困难。此外，ASR系统常常具有识别被陈述在有噪声的环境中的口头话语的困难，诸如当话语被陈述在拥挤的机场中、正在移动的汽车中时。

发明内容

下文是在本文中更详细地描述的主题的简要概述。本概述不旨在为对权利要求的范围的限制。

本文中所描述的是支持接收用于在显示器上呈现的页面的技术，该页面包括处于彼此相距第一距离处的第一视觉元素和第二视觉元素。页面被修改以生成经修改的页面，经修改的页面包括处于彼此相距第二距离处的第一视觉元素和第二视觉元素，其中页面的修改基于在与第一视觉元素相对应的至少一个词语和与第二视觉元素相对应的至少一个词语之间的发音的相似性。之后使页面被显示在显示器上。

附图说明

图1是被配置为修改视觉内容的示例性系统的功能框图。

图2是被配置为修改视觉内容的布局的示例性布局生成器组件的功能框图。

图3是可以基于所估计的视觉注意来定制的自动语音识别(ASR)系统的功能框图。

图4图示了由布局生成器组件执行的视觉内容的示例性修改。

图5图示了由布局生成器组件执行的视觉内容的另一示例性修改。

图6图示了将图形反馈提供到用户。

图7是图示了用于修改视觉内容以支持消除什么正被用户查看的歧义的示例性方法的流程图。

图8是图示了用于基于指示在视觉内容中的元素之间的混淆性的值来修改视觉内容的布局的示例性方法的流程图。

图9是示例性计算系统。

具体实施方式

现在参考附图描述与修改视觉内容有关的各种技术，其中类似的附图标记被用于在其中指示类似的元件。在下面的描述中，为了解释的目的，阐述了许多具体细节以便提供对一个或多个方面的透彻理解。然而，可能显而易见的是，这样的方面可以在没有这些具体细节的情况下来实践。在其他实例中，以框图形式示出了公知的结构和设备以便支持描述一个或多个方面。另外，要理解，被描述为由某些系统组件执行的功能可以由多个组件执行。类似地，例如，组件可以被配置为执行被描述为由多个组件执行的功能。

此外，术语“或者”旨在意指包含性的“或者”而非排他性的“或者”。也就是说，除非另行说明，或者从上下文很清楚，术语“X采用A或B”旨在意指自然包含性排列中的任何排列。也就是说，术语“X采用A或B”由以下实例中的任何实例满足：X采用A；X采用B；或者X采用A和B两者。另外，如在本申请和所附权利要求中使用的词语“一”和“一个”应当一般地被理解为意指“一个或多个”，除非另行说明或者从上下文很清楚指向单数形式。

另外，如本文中所使用的，术语“组件”和“系统”旨在包含利用在由处理器执行时使特定功能被执行的计算机可执行指令来配置的计算机可读数据存储装置。计算机可执行指令可以包括例程、函数等。还要理解，组件或系统可以被本地化在单个设备上或者跨若干设备分布。另外，如本文中所使用的，术语“示例性”旨在意指用作某种事物的说明或示例，并且不旨在指示偏好。

本文中描述的是与修改显示器上的视觉内容以支持当用户陈述口头话语时消除用户的意图的歧义有关的各种技术。消除用户的意图的歧义包括与(随时间)被示出在显示器上的视觉内容相呼应地识别由用户陈述的口头话语。显示器被配置为在其上呈现视觉内容，其中视觉内容可以为或包括文本、图像、字段(表单可填充字段)、视频、按钮、下拉式按钮等。因此，视觉内容可以被包括在要被显示在显示器上的页面中，该页面诸如应用的网页或页面(例如，文字处理应用、幻灯片演示应用等)。

相对于显示器来监视用户的视觉注意。例如，显示器可以具有与之靠近或嵌入到其中的相机(例如，红绿蓝(RGB)相机和/或深度相机)。可以被分析以确定头部姿势和取向的相机输出信号(例如，图像)转而被用于推断用户的视觉注意(例如，凝视方向)。在另一示例中，图像可以被分析以标识眼睛的部分，例如瞳孔、虹膜、角膜等，并且视觉注意可以基于眼睛的所标识的部分来推断。

麦克风被配置为生成指示靠近显示器的环境中的音频的信号。音频可以包括用户的口头话语，并且由麦克风输出的信号可以被提供到ASR系统，ASR系统被配置为识别口头话语。本文中描述的技术支持对视觉注意的使用以当用户陈述口头话语时消除用户的意图的歧义。然而，由于视觉注意的确定可能在某种程度上是不精确的，所以本文中更详细地描述的方面与修改用于在显示器上呈现的视觉内容有关，其中该修改负责支持消除正被用户查看的视觉元素的歧义。

依照示例，要被呈现在显示器上的视觉内容可以包括第一词语序列和第二词语序列，其中第一词语序列在某种方式上与第二词语序列是混淆地相似的。例如，第一词语序列可以与第二词语序列是声学上相似的。在另一示例中，第一词语序列和第二词语序列可以是话题上相似的。视觉内容可以被分析，并且针对视觉元素对的分数可以被生成，其中分数指示(例如，来自ASR系统的角度)在该对中的视觉元素之间的混淆性。例如，可以基于比较词语发音来对声学相似性进行评分。基于分数，可以修改视觉内容，其中对视觉内容的修改可以包括改变在视觉内容中的视觉元素之间的距离。

继续以上阐述的示例，针对第一词语序列和第二词语序列的对计算的分数可以指示两个词语序列是混淆地相似的，并且可以是针对ASR系统的歧义的来源。基于分数，视觉内容可以被修改，使得第一词语序列被定位为距第二词语序列更远。该经修改的视觉内容可以之后被呈现在显示器上。当用户正在查看显示器时，可以监视用户的视觉注意，并且基于所监视的视觉注意，可以(以某种概率)确定用户正在查看第一词语序列而非第二词语序列。ASR系统可以之后基于第一词语序列来定制。换言之，用户的当前上下文(例如，用户正在显示器上查看什么)被用于定制ASR系统，从而支持对即将到来的话语的改进的识别。总之，之后，对视觉内容的修改负责支持消除什么正被用户查看的歧义，其转而被用于定制ASR系统。

在另一示例中，可以提供与被呈现在显示器上的视觉元素有关的线索，其中该线索通知用户认为用户正在关注该视觉元素。该线索可以为音频线索、图形图标(例如，鼠标指针)、视觉元素的突出显示等。因此，当用户陈述口头话语时，用户可以具有基于视觉元素来定制ASR系统的知识。为了进一步帮助消除哪个视觉元素或哪些视觉元素正被用户查看的歧义，还可以识别手势。例如，除了视觉注意跟踪以外，由相机捕获的图像可以被分析以标识用户正在指向哪里、点头等，其转而可以被用于标识正由用户关注的视觉元素。

现在参考图1，图示了支持被呈现在显示器上的视觉内容的示例性系统100，其中对视觉内容的修改负责支持消除正在陈述口头话语的用户的意图的歧义。系统100包括计算系统102，计算系统102包括但不限于台式计算设备、膝上型计算设备、移动计算设备(诸如移动电话或从计算设备)、视频游戏控制台、机顶盒、电视等。在其他示例中，计算系统102可以跨几个计算设备分布。此外，计算系统102的至少部分可以被包括在数据中心中。计算系统102包括处理器104和存储器106，其中存储器106包括由处理器104执行的组件和/或系统。下面将更详细地描述这样的组件和系统。

系统100附加地包括与计算系统102通信的显示器108。尽管显示器108被图示为与计算系统102分离，但是在另一示例中，显示器108可以被并入到计算系统102中。因此，例如，显示器108可以为移动计算设备的显示器、膝上型计算设备的显示器、电视的显示器等。在另一示例中，显示器108可以为投影式显示器。

系统100还包括相机110，相机可以为红绿蓝(RGB)相机、灰度相机和/或深度相机。相机110被配置为随着用户112查看被呈现在显示器108上的视觉内容而捕获用户112(的至少头部)的图像。系统100还包括被定位为靠近用户112和/或显示器108的麦克风114，并且因此被配置为捕获由用户112陈述的口头话语。尽管相机110和麦克风114在图1中被图示为将显示器108和/或计算系统102分离，但是要理解，相机110和/或麦克风114可以被集成到显示器108和/或计算系统102中。

计算系统102的存储器106可以包括要被呈现在显示器108上的视觉内容116。在示例中，视觉内容116可以被包括在网页中。因此，视觉内容116可以包括文本、图像、视频、动画等。在另一示例中，视觉内容116可以被配置为由诸如文字处理应用、电子表格应用、幻灯片应用、视频播放器等的计算机可执行应用显示。在再一示例中，视觉内容116可以为视频节目、广告、视频游戏的部分或其他适当的视觉内容。视觉内容116可以包括几个视觉元素，诸如词语、词语的序列、图像、视频剪辑等。视觉内容116可以具有第一布局并且元素可以根据第一布局被包括在视觉内容116中。

存储器106还包括自动语音识别(ASR)系统118，其被配置为基于麦克风114的输出来识别由用户112陈述的口头话语。存储器106还包括视觉注意跟踪器组件120，其被配置为基于由相机110输出的图像(RGB和/或深度图像)来标识用户112的凝视方向。在示例中，视觉注意跟踪器组件120可以标识用户112的头部姿势和转动，并且视觉注意跟踪器组件可以基于用户112的头部姿势和转动来推断用户112正在关注哪里(例如，用户112的凝视方向)。在另一示例中，视觉注意跟踪器组件120可以分析由相机110输出的图像并且可以标识这样的图像中的用户112的眼睛。例如，凝视跟踪器组件120可以标识眼睛的元素，诸如瞳孔、虹膜和/或角膜，并且可以基于这样的眼睛元素的检测到的位置(例如，结合头部姿势和转动)来推断用户112的凝视方向。

假定相机110的位置相对于显示器108是至少大致已知的，并且用户112的位置相对于显示器108是至少大致已知的，则视觉注意跟踪器组件120可以(例如，以某种适当的概率)估计正由用户112查看的显示器108上的区域。视觉注意跟踪器组件120相对于显示器108的准确性可以在校准阶段期间(例如，在制造期间或在实际使用期间)被确定。这样的准确性可以为显示器108的形成因子(例如，显示器的大小)、相机110(无论是深度还是RGB)的分辨率、处理器104的容量、存储器106的大小等的函数。视觉注意跟踪器组件120的准确性可以允许区域的边界(大小)被标识，其中用户112可以正在查看区域中的任何视觉元素。

存储器106还可以包括布局生成器组件122，其尤其很好地适于包括在支持ASR和视觉注意监视两者的计算设备中。布局生成器组件122被配置为修改视觉内容116以创建经修改的视觉内容(其还可以被称为“新的”视觉内容)，其中布局生成器组件122在视觉内容116被呈现在显示器108上之前执行这样的修改。布局生成器组件122执行这样的修改以支持当用户112正在查看显示器108和/或否则与显示器交互时消除用户112的意图的歧义(例如，发出与被示出在显示器上的内容有关的口头话语)。

一般地，布局生成器组件122接收计算系统102支持视觉注意监视的指示。布局生成器组件122可以任选地接收计算系统102包括ASR系统118的指示。布局生成器组件122接收要被呈现在显示器108上的视觉内容116，并且在视觉内容116被呈现在显示器108上之前修改这样的视觉内容以生成经修改的(新的)视觉内容。布局生成器组件122基于(如下面将更详细地描述的)视觉内容116中的元素、视觉内容116的第一布局以及视觉注意跟踪器组件120的以上提及的准确性来修改视觉内容116。

利用关于基于视觉内容116中的元素来修改视觉内容116的更多细节，布局生成器组件122可以接收视觉内容116并且可以标识其中的元素。布局生成器组件122可以计算元素之间的距离，并且针对元素对，可以计算指示相对于ASR系统118的在该对中的元素之间的歧义的值。例如，视觉内容116的第一布局可以包括彼此紧密靠近的两个词语序列，其发音彼此相似，由此潜在地致使当由用户112说出这样的序列中的一个时ASR系统118难以消除在两个词语序列之间的歧义。布局生成器组件122可以修改视觉内容116以生成经修改的视觉内容，其中经修改的视觉内容具有第二布局，并且在第二布局中，两个词语序列被移动为进一步远离彼此(或被其他内容分离)。因此，布局生成器组件122已经修改了视觉内容116以使得具有相似的发音的词语序列被移动为进一步远离彼此。

在另一示例中，布局生成器组件122可以通过改变视觉内容116的缩放水平来修改视觉内容116。即，视觉内容116可以具有向其分配的默认缩放水平。布局生成器组件122可以分析视觉内容116并识别其中的彼此紧密靠近的并且可以以某种方式对于ASR系统118可能造成歧义的元素。布局生成器组件122可以使视觉内容在特定位置处被“放大”，使得元素当被呈现在显示器108上时被定位为距彼此更远。

存储器106还包括渲染器组件124，其使经修改的视觉内容被呈现在显示器108上，其中经修改的视觉内容可以由用户112查看。存储器106还包括定制器组件126，其基于用户112的查看内容(例如，基于视觉注意跟踪器组件120的输出)来定制ASR系统118。对ASR系统118的定制旨在包含：1)基于用户的查看内容来修改ASR系统118中的模型中的权重；2)对ASR系统118的输出进行加权；以及3)修改ASR系统118中的模型中的权重并且对ASR系统118的输出进行加权。

现在阐述当用户112正在查看显示器108时的系统100的操作。用户112对她自身进行定位以查看显示器108。存储器106包括要在显示器108上向用户112呈现的视觉内容116。当计算系统102支持视觉注意跟踪并且包括ASR系统118时，布局生成器组件122可以被触发以分析视觉内容116以用于修改。布局生成器组件122接收视觉内容116并针对视觉内容116中的当用户112阐述与这样的元素中的至少一个有关的口头话语时可能引起相对于ASR系统118的歧义的元素来搜索视觉内容116。例如，布局生成器组件122可以识别声学上相似的词语或词语序列、话题上相似的元素、彼此紧密靠近的表单可填充字段、彼此紧密靠近的按钮等。

依照示例，布局生成器组件122可以采用箱簧型模型，其中视觉内容116中的元素基于它们相对于ASR系统118的潜在歧义利用将它们分开或将它们拉在一起的“弹簧”连接。歧义元素要被移动为彼此分开的距离可以为视觉注意跟踪器组件120的准确性的函数(例如，视觉注意跟踪能力越准确，歧义元素需要被移动得越不那么远离，而随着视觉注意跟踪的准确性减小，歧义元素被移动为进一步远离)。当视觉内容116中的元素是表单可填充字段时对元素进行重新定位可以是尤其有益的，因为ASR系统118可以针对不同的表单可填充字段分别使用不同的语言模型。因此，与两个不同的语言模型相关联的两个表单可填充字段可以由布局生成器组件122被移动为进一步远离。

渲染器组件124将(由布局生成器组件122修改的)经修改的视觉内容渲染在显示器108上。在图1中示出的示例中，经修改的视觉内容可以包括元素128、130和132。在视觉内容116中，元素128和132可以彼此相邻。然而，布局生成器组件122可能已经确定元素128和132可以引起相对于ASR系统118的歧义(例如，当用户112阐述口头话语时，ASR系统118可能具有识别用户112正在提及元素128或元素132中的哪个元素的困难)。因此，布局生成器组件122已经修改了视觉内容116，使得元素128和元素132被移动为彼此进一步远离。

视觉注意跟踪器组件120从相机110接收图像，并且基于由相机110输出的图像来估计例如用户112的凝视方向。因为可以估计用户112的凝视的方向，所以可以生成关于元素128-132中的哪个元素(如果存在)正由用户112查看的估计。依照示例，当视觉注意跟踪器组件120估计用户112正在查看特定元素时，布局生成器组件122可以生成向用户112指示视觉注意跟踪器组件120已经估计到用户112正在查看该特定元素的输出。由布局生成器组件122生成的输出可以为可听见的输出、图形图标在特定元素(例如，游标)上的添加、特定元素的突出显示等。

定制器组件126可以接收关于元素128-132中的哪个元素正由用户112查看的指示。响应于接收到该指示，定制器组件126可以基于(如由视觉注意跟踪器组件120确定的)显示器108上的正由用户112查看的元素来定制ASR系统118。例如，定制器组件可以基于被确定为正由用户112查看的元素来改变ASR系统118的声学模型、词素模型和/或语言模型中的权重。附加地或备选地，定制器组件126可以基于被确定为正由用户112查看的元素来选择(潜在地未经修改的)ASR系统118的输出。定制器组件126可以对针对不同上下文的ASR系统118的输出标签进行加权。在另一示例中，定制器组件126可以使用规则来选择ASR系统118的输出(例如，当被配置为接收城市名称的表单可填充字段正由用户112查看时，规则可以使城市名称从ASR系统118的潜在输出中被选择)。有效地，之后，定制器组件126基于用户112正在查看什么的上下文来定制ASR系统118，由此支持ASR系统118将正确地识别用户112的口头话语的概率的增强。

当用户112陈述口头话语时，麦克风114可以捕获这样的口头话语并输出代表该口头话语的信号。由定制器组件126定制的ASR系统118可以基于由麦克风114输出的信号来识别口头话语。用于准确地确定什么正被用户112查看的能力通过由布局生成器组件122执行的对视觉内容116的修改来增强。总之，系统100支持对视觉内容116的修改，使得潜在歧义的元素被移动得足够远地分开以使得视觉注意跟踪器组件120更易于在正被查看的元素之间进行区分。布局生成器组件122可以通过考虑视觉注意跟踪器组件120的准确性以及视觉内容116的元素和布局来自动执行该操作。另外，因为视觉注意跟踪器组件120具有关于什么正被用户112查看的知识，所以可以做出关于用户112将说什么的推断。该信息可以被提供到ASR系统118，从而帮助ASR系统118理解用户112的意图。因此，例如，当元素132是用于接收目的城市的表单可填充字段并且视觉注意跟踪器组件120确定用户112正在注视这样的表单可填充字段时，则定制器组件126可以预期用户112将发出包括城市或机场的名称的口头话语。定制器组件126可以因此修改ASR系统118的语言模型以对城市和/或机场名称进行显著地加权。

尽管该示例已经讨论了在渲染的时间修改视觉内容116，但是本文中描述的概念也很好地适于在创建的时间修改视觉内容。例如，设计者可以生成针对网页的布局，并且布局生成器组件122可以接收该布局。布局生成器组件122可以之后对布局进行修改，并且将修改呈现给设计者(其可以之后选择接受或拒绝所建议的布局修改)。同样，布局生成器组件122可以做出这些布局改变以帮助ASR系统118识别由网页的查看者陈述的口头话语。

根据又一示例，除了监视视觉注意，存储器106可以包括被配置为识别手势(诸如，用户112正在指向元素)的组件(未示出)。对用户112正在指向哪里并且用户112正在查看显示器108上哪里的识别的组合可以被用于推断什么是用户112感兴趣的并且用于进一步推断用户112接下来将要说什么。因此，定制器组件126可以基于什么被推断为是用户112感兴趣的来定制ASR系统118。

此外，尽管本文中描述的各方面已经关于ASR系统118被描述，但是要理解，如以上所描述的布局修改可以被使用在其他上下文中。例如，已经开发了个人数字助理，其被配置预期计算机用户的希望，使得例如个人数字助理可以在没有从用户接收到口头话语的情况下将数据提供到用户。视觉内容可以被修改为减小关于用户正在显示器查看什么的歧义，并且个人数字助理可以使用经修改的布局来提供内容。例如，视觉内容116可以包括两个元素：代表意大利饭店的第一元素和代表意大利庆典的第二元素。布局生成器组件122可以使两个元素被移动为与彼此进一步远离；因此，当辨别到用户112正在查看第一元素时，个人数字助理可以使针对饭店的菜单被呈现，或者询问用户112是否用户想要在该饭店处进行预定。相反，当辨别到用户112正在查看第二元素时，个人数字助理可以使庆典的时间和位置被呈现在显示器108上。

因此，可以确定系统100支持用于基于来自ASR系统118的角度在与视觉内容中的第一视觉元素相对应的至少一个词语和与视觉内容中的第二视觉元素相对应的至少一个词语之间的潜在歧义来修改视觉内容116的装置。在示例中，潜在歧义可以基于在与第一视觉元素相对应的至少一个词语和与第二视觉元素相对应的至少一个词语之间的发音之间的相似性。在另一示例中，潜在歧义可以基于视觉元素的相应类型之间的相似性(例如，两个视觉元素是表单可填充字段)。系统100还支持用于显示经修改的视觉内容的装置，其中在第一视觉元素和第二视觉元素之间的距离已经改变。

现在参考图2，图示了布局生成器组件122的功能框图。布局生成器组件122包括准确性分析器组件202。准确性分析器组件202被配置为确定凝视跟踪器组件120在(基于由相机110输出的图像)确定凝视方向时的精确性(准确性)。例如，准确性分析器组件202可以基于显示器108的大小、相机110的分辨率、处理器104的处理能力、存储器106的大小、用户112距显示器108的距离等来确定准确性。依照示例，准确性分析器组件202可以标识与由凝视跟踪器组件120做出的与凝视方向的确定相对应的误差的量。准确性分析器组件202例如可以根据用户112被确定为(例如，由凝视跟踪器组件120)正在查看的显示器108上的位置来输出在显示器108中的像素上的概率分布。

布局生成器组件122还包括内容分析器组件204，其分析视觉内容116中的元素。具体地，如以上所提及的，内容分析器组件204可以标识视觉内容116中的可能引起来自ASR系统118(和/或个人数字助理)的角度的歧义的元素。例如，视觉内容116可以包括可能引起来自ASR系统118的角度的歧义的彼此紧密靠近的两个表单可填充字段。在另一示例中，包括或引用具有某种阈值相似性的对象的图像可能引起来自ASR系统118的角度的歧义。在又一示例中，声学上相似的两个词语或两个词语的序列可能引起来自ASR系统118的角度的歧义。在再一示例中，话题上相似的图像、词语或词语的序列可能引起来自ASR系统118的角度的歧义。

因此，依照以上阐述的示例，内容分析器组件204可以识别视觉内容116中的可能引起来自ASR系统118的角度的歧义的元素。因此，内容分析器组件204可以标识视觉内容116中的相对于彼此紧密靠近的相似的元素(例如，表单可填充字段)。另外，内容分析器组件204可以计算指示在视觉内容116中提及的词语或序列之间的发音的相似性的值。例如，词语发音可以由值的向量表示，并且基于距离的算法可以被用于计算向量之间的距离。类似地，内容分析器组件204可以标识视觉内容116中的彼此话题上相似的元素。此外，内容分析器组件204可以标识视觉内容116中引用或描绘可能引起来自ASR系统118的角度的歧义的对象的图像。例如，内容分析器组件204可以包括执行图像中的对象识别的系统或与之通信，其中这样的识别可以基于图像的特征(例如，颜色特征、梯度特征等)。在示例中，视觉内容116可以具有包括或引用汽车的第一图像，并且可以具有包括或引用星星的第二图像。内容分析器组件204可以输出两幅图像可能由于“汽车”和“星星”的发音之间的相似性而引起来自ASR系统118的角度的歧义的指示。

如以上所提及的，内容分析器组件204可以利用基于距离的算法来计算针对元素对的距离值，其中该距离值指示在元素之间的相似性(并且因此指示潜在的歧义)。这样的基于距离的算法可以很好地适于以下情况：其中元素(或元素发音)可以由向量表示，并且在向量之间的距离可以被用于确定词语或词语序列之间的(声学)相似性、图像之间的相似性等。关于确定两个元素是话题上相似的，内容分析器组件204可以具有(例如，由搜索引擎)对被分配给元素的话题的访问。当发现两个元素共享话题时，内容分析器组件204可以生成指示两个元素是话题上相似的输出。内容分析器组件204还可以分析视觉内容116中的元数据。例如，图像和网页常常具有嵌入到其中的元数据，并且内容分析器组件204可以将被分配到视觉内容116中的元素的元数据进行比较。内容分析器组件204可以之后基于元数据的比较来输出指示元素之间的相似性的值。

布局生成器组件122还包括修改器组件206，其基于以下来修改视觉内容116：1)由准确性分析器组件202输出的准确性信息；以及2)针对由内容分析器组件204输出的元素对的相似性值(例如，混淆性值)。例如，当准确性分析器组件202确定视觉注意跟踪器组件120高度准确时，之后甚至当内容分析器组件204确定视觉内容116中的两个元素高度相似(并且因此可以引起来自ASR系统118的角度的歧义)时，修改器组件206不需要剧烈地改变视觉内容116中的元素的位置。在另一示例中，当视觉注意跟踪器组件120较不准确并且内容分析器组件204标识到引起来自ASR系统118的角度的歧义的两个元素时，则修改器组件206可以修改视觉内容116使得在经修改的视觉内容中，两个元素被放置为彼此进一步远离。

布局生成器组件122还可以包括反馈组件208，其向用户112提供关于视觉注意跟踪器组件120已经将什么识别为正在由用户112查看的元素的反馈。例如，当视觉注意跟踪器组件120确定用户112正在查看特定元素时，反馈组件208可以生成通知用户112ASR系统118正在被定制以基于这样的元素来预料输入的反馈。输出可以是可听见的，其中可听见的输出向用户112通知视觉注意跟踪器组件120已经确定用户112正在查看的元素。在另一示例中，反馈组件208可以使图形图标(诸如鼠标指针)被显示在元素上。在又一示例中，元素可以被突出显示。当经修改的视觉内容包括表单可填充字段时突出显示的元素可以是尤其有益的。对表单可填充字段的突出显示将向用户112指示ASR系统118预料从用户112接收到的内容的类型。例如，如果表单可填充字段对应于航线出发，则表单可填充字段可以被突出显示，从而向用户112指示ASR系统118预料到接收位置的名称(城市、机场代码等)。

现在参考图3，图示了ASR系统118和定制器组件126的功能框图。ASR系统118包括声学模型302、词素模型304以及语言模型306。声学模型302对由人类发出的声学声音(音素)进行建模。词素模型304对声学声音的序列进行建模，声学声音通常是特定语言的词语。语言模型306对特定语言的词语的序列进行建模。模型302-306中的每个模型具有向其分配的权重，其中权重(例如，潜在地基于先前观察)指示观察到什么正被建模的概率。然而，在一些情况下，可能期望针对不同上下文来改变权重。

视觉注意跟踪器组件120可以基于所确定的凝视方向来提供上下文信息(例如，在显示器108上什么是用户感兴趣的)。定制器组件126可以接收用户112当前正在查看或最近已经查看了什么的指示，并且可以基于这样的指示来定制ASR系统118。例如，定制器组件126可以基于用户当前正在查看或最近已经查看了什么来定制模型302-306中的一个或多个模型的权重。例如，当用户112正在凝视针对出发城市的表单可填充字段时，语言模型304和/或词素模型306可以被定制为将较高的权重分配给与位置(例如，具有机场和/或机场代码的城市)相对应的词语和词语序列。在另一示例中，当视觉注意跟踪器组件120确定用户112正在查看描述特定饭店的元素时，定制器组件126可以接收该上下文并且更新ASR系统118的模型302-306中的一个或多个模型以使ASR系统118更有可能识别用户112的口头话语中的食物项。

另外，如以上所提到的，不是修改向模型302-306分配的权重或除了修改向模型302-306分配的权重之外，定制器组件126可以基于从视觉注意跟踪器组件120接收到的关于什么正被用户112查看的指示来选择ASR系统118的输出。例如，ASR系统118可以输出潜在词语和/或词语序列上的概率分布。甚至当词语或词语序列不是最可能的词语或词语序列时，定制器组件126可以基于从凝视跟踪器组件120接收到的指示来使词语或词语序列被选择。

现在参考图4，图示了可以由布局生成器组件122执行的对视觉内容的示例性修改。在该示例中，视觉内容116包括三个元素：1)词语序列“印度琥珀-山景城”，2)词语序列“琥珀月光印度餐厅”，以及3)词语“Sakoon”。内容分析器组件204可以确定元素1和元素2与彼此相似，但是元素3既不与元素1相似也不与元素2相似。因此，布局生成器组件122可以修改视觉内容116以生成经修改的视觉内容400，经修改的视觉内容400包括相同的三个元素，但是以第二布局来放置。具体地，代替彼此相邻的元素1和元素2，元素3被定位在元素1和元素2之间。该经修改的视觉内容400帮助视觉注意跟踪器组件120消除在当用户112正在注视元素1时和当用户112正在注视元素2时之间的歧义。因此，例如，当用户112正在注视元素1并且陈述“对印度琥珀进行预订”时，ASR系统118可以被定制以更好地确定用户112的意图。

现在参考图5，图示了可以由布局生成器组件122执行的对视觉内容的另一示例性修改。在该示例中，视觉内容116包括两个元素：第一表单可填充字段502，其被配置为接收出发城市；以及第二表单可填充字段504，其被配置为接收到达城市。在视觉内容116中，第一元素502与第二元素504紧密靠近。因此，当用户注视第一元素502或第二元素504时，凝视跟踪器组件120可能不能够以适当的置信度确定用户112实际上正在查看元素502或元素504中的哪个元素。

因此，布局生成器组件122可以修改视觉内容116以创建经修改的视觉布局506，其中第一元素502和第二元素504与彼此相距一定距离。即，在视觉内容116中，第一元素502与第二元素504相距第一距离，而在经修改的视觉内容506中，第一元素502与第二元素504相距第二距离，第二距离大于第一距离。在该示例中，之后，用户112可以查看第一元素502，并且凝视跟踪器组件120可以以相对高的置信度确定用户112正在查看第一元素502(而非第二元素504)。当用户112说出出发城市的名称或机场代码时，ASR系统118可以识别由用户112说出的出发城市或机场，并且第一元素502(而非第二元素504)可以利用用户112说出的城市或机场来填充。

现在转到图6，图示了可以由布局生成器组件122执行的对视觉内容的另一示例性修改。在该示例中，布局生成器组件122接收包括第一元素502和第二元素504的经修改的视觉内容506。布局生成器组件122还可以接收如由凝视跟踪器组件122标识的凝视输入。响应于接收到凝视输入，布局生成器组件122可以提供输出，该输出通知用户112关于凝视跟踪器组件122已经估计到用户112正在查看元素502或元素504中的哪个元素。在该示例中，估计到用户112正在查看第一元素502，并且因此第一元素502被突出显示。用户112可以之后预料到当她陈述口头话语时，这样的口头话语将被输入到元素502(而非元素504)中。

图7-8图示了与为了定制ASR系统的目的而对视觉内容的修改有关的示例性方法。尽管该方法被示出并被描述为在序列中执行的一系列动作，但是要理解并认识到该方法不受该序列的顺序限制。例如，一些动作可以以与本文描述的顺序不同的顺序发生。另外，动作可以与另一动作并发地发生。另外，在一些实例中，实施本文描述的方法可以不需要所有动作。

此外，本文描述的动作可以是可以由一个或多个处理器实施的和/或存储在计算机可读介质或媒介上的计算机可执行指令。计算机可执行指令可以包括例程、子例程、程序、执行的线程等。此外，方法的动作的结果可以被存储在计算机可读介质中、被显示在显示设备上等。

现在参考图7，图示了用于修改视觉内容的示例性方法700。方法700在702开始，并且在704，接收计算设备包括ASR系统的指示。在706，接收相对于显示器监视视觉注意的指示，以及在708，接收用于在显示器上呈现的视觉内容。

在710，在使视觉内容被呈现在显示器上之前，修改视觉内容以生成经修改的视觉内容。该修改基于计算设备包括ASR系统的指示和相对于显示器监视视觉注意的指示。如以上所指示的，修改可以包括改变视觉内容的布局以生成第二布局。在另一示例中，这样的修改可以包括改变用于视觉内容的默认缩放。在712，使经修改的视觉内容被呈现在显示器上。此后，例如，可以估计显示器的阅读器的眼睛凝视，并且可以基于什么被标识为正由阅读器查看来定制ASR系统。方法700在714完成。

现在参考图8，图示了用于修改视觉内容的另一示例性方法800。方法800在802开始，并且在804，接收相对于显示器监视视觉注意的指示。在806，接收关于显示器上的内容的语音输入可接收的指示。在808，接收用于在显示器上呈现的页面，其中该页面包括处于彼此相距第一距离处的第一视觉元素和第二视觉元素。例如，页面可以为网页，尽管方法800不受此限制。

在810，计算指示在页面上的第一视觉元素和第二视觉元素之间的第一距离的第一值。如先前所指示的，第一视觉元素和第二视觉元素可以分别为第一词或词语序列和第二词或词语序列。在另一示例中，第一视觉元素和第二视觉元素可以分别为第一表单可填充字段和第二表单可填充字段。此外，第一视觉元素和第二视觉元素可以分别为第一图像和第二图像。元素还可以为这些类型的元素(或其他元素)的组合。

在812，计算第二值，其中第二值指示在第一视觉元素和第二视觉元素之间的声学相似性。在814，修改页面以生成经修改的页面，其中经修改的页面包括处于彼此相距第二距离处的第一视觉元素和第二视觉元素。另外，在814处对页面的修改基于分别在810和812处计算的第一值和第二值。在816，使经修改的页面被呈现在显示器上。方法800在818结束。

现在阐述各种示例。

示例1：一种由计算设备执行的方法，该方法包括：接收用于在显示器上呈现的视觉内容；在使视觉内容被呈现在显示器上之前，基于以下来修改视觉内容以生成新的视觉内容：计算设备支持自动语音识别(ASR)；并且计算设备支持视觉注意监视；以及响应于修改视觉内容，使新的视觉内容被呈现在显示器上。

示例2：根据示例1所述的方法，视觉内容具有第一布局，并且其中修改视觉内容以生成新的视觉内容包括将第一布局变换为第二布局。

示例3：根据示例1所述的方法，第一布局包括第一元素和第二元素，在第一元素和第二元素之间具有第一距离，并且其中修改视觉内容以生成新的视觉内容包括改变在第一元素和第二元素之间的距离，使得在第二布局中第二距离将第一元素与第二元素分离。

示例4：根据示例1所述的方法，其中第一元素包括第一词语或词语序列，第二元素包括第二词语或词语序列，该方法还包括：计算指示在第一词语或词语序列和第二词语或词语序列之间的声学相似性的值；以及基于指示在第一词语或词语序列和第二词语或词语序列之间的声学相似性的值来修改视觉内容以生成经修改的视觉内容。

示例5：根据示例1-4中的任一项所述的方法，视觉内容具有第一缩放水平，并且其中修改视觉内容以生成新的视觉内容包括将第一缩放水平改变为第二缩放水平。

示例6：根据示例1-5中的任一项所述的方法，还包括接收包括显示器的阅读器的图像；基于该图像，标识被呈现在显示器上的新的视觉内容中的正被查看的元素；以及基于对该元素的标识来定制ASR系统。

示例7：根据示例1-6中的任一项所述的方法，还包括从麦克风接收信号，该信号代表口头话语；以及响应于定制ASR系统，识别该口头话语。

示例8：根据示例1所述的方法，还包括接收包括显示器的阅读器的信号；基于该信号，估计新的视觉内容中的元素正被查看；以及响应于估计该元素正被查看，生成指示该元素已经被估计为正被查看的输出。

示例9：根据示例8所述的方法，其中生成输出包括向经修改的视觉内容中的元素分配视觉指示符。

示例10：根据示例8-9中的任一项所述的方法，其中元素是表单可填充字段。

示例11：根据示例1-10中的任一项所述的方法，视觉内容包括第一表单可填充字段和第二表单可填充字段，并且修改视觉内容以生成新的视觉内容包括对第一表单可填充字段或第二表单可填充字段中的至少一项进行重新定位，使得第一表单可填充字段被定位为进一步远离第二表单可填充字段。

示例12：一种计算设备，包括：处理器；以及存储器，存储器包括由处理器执行的多个组件，多个组件包括：布局生成器组件，布局生成器组件接收要被呈现在显示器上的视觉内容，视觉内容具有第一布局，布局生成器组件在视觉内容被呈现在显示器上之前修改视觉内容使得视觉内容当被修改时具有第二布局，布局生成器组件基于正被跟踪的相对于显示器的视觉注意来修改视觉内容，其中第二布局与第一布局不同；以及渲染器组件，渲染器组件与布局生成器组件通信，渲染器组件利用第二布局来渲染视觉内容以用于在显示器上呈现。

示例13：根据示例12所述的计算设备，多个组件还包括：凝视跟踪器组件，凝视跟踪器组件从相机接收图像，凝视跟踪器组件基于该图像来标识凝视方向，凝视跟踪器组件基于凝视方向来估计正在显示器上被查看的元素，其中部件生成器组件使指示该元素被估计为正被查看的图形数据被呈现在显示器上。

示例14：根据示例13所述的计算设备，元素是表单可填充字段，并且图形数据是表单可填充字段的突出显示。

示例15：根据示例12-14中的任一项所述的计算设备，多个组件还包括凝视跟踪器组件，凝视跟踪器组件从相机接收图像，凝视跟踪器组件基于该图像来标识凝视方向，凝视跟踪器组件基于凝视方向来估计正在显示器上被查看的元素，存储器还包括由处理器执行的自动语音识别(ASR)系统，ASR系统被配置为接收音频信号并识别音频信号中的口头话语，语音识别系统基于该元素由凝视跟踪器组件估计为正被查看来识别口头话语。

示例16：根据示例15所述的计算设备，多个组件还包括定制器组件，定制器组件基于该元素由凝视跟踪器组件估计为正被查看来定制ASR系统。

示例17：根据示例12-16中的任一项所述的计算设备，第一布局包括处于相对于彼此的第一位置处的第一元素和第二元素，并且其中第二布局包括处于相对于彼此的第二位置处的第一元素和第二元素。

示例18：根据示例17所述的计算设备，其中布局生成器组件基于指示在第一元素和第二元素之间的声学相似性的值来修改视觉内容。

示例19：根据示例12-18中的任一项所述的计算设备，视觉内容被包括在要被显示在显示器上的网页中。

示例20：一种计算机可读存储介质，包括指令，该指令当由处理器执行时使处理器执行动作，该动作包括：接收用于在显示器上呈现的页面，该页面包括处于彼此相距第一距离处的第一视觉元素和第二视觉元素；修改该页面以生成经修改的页面，经修改的页面包括处于彼此相距第二距离处的第一视觉元素和第二视觉元素，对页面的修改基于在与第一视觉元素相对应的至少一个词语和与第二视觉元素相对应的至少一个词语之间的发音的相似性；以及使经修改的页面被显示在显示器上。

示例21：在本文中描述了一种计算系统，其中该计算系统包括：用于执行视觉注意跟踪的装置；用于执行自动语音识别的装置；以及用于基于用于执行视觉注意跟踪的装置和用于执行自动语音识别的装置来修改页面的图形布局的装置。

现在参考图9，图示了可以根据本文公开的系统和方法使用的示例性计算设备900的高级图示。例如，计算设备900可以被使用在支持视觉注意跟踪的系统中。通过另一示例的方式，计算设备900可以被使用在支持ASR的系统中。计算设备900包括执行存储在存储器904中的指令的至少一个处理器902。指令可以例如为用于实施被描述为由以上讨论的一个或多个组件执行的功能的指令或者用于实施以上描述的方法中的一个或多个方法的指令。处理器902可以借助于系统总线906来访问存储器904。除了存储可执行指令，存储器904还可以存储视觉内容、口头话语等。

计算设备900附加地包括可由处理器902借助于系统总线906访问的数据存储库908。数据存储库908可以包括可执行指令、视觉内容、口头话语等。计算设备900还包括允许外部设备与计算设备900通信的输入接口910。例如，输入接口910可以用于从外部计算机设备、从用户等接收指令。计算设备900还包括将计算设备900与一个或多个外部设备接口连接的输出接口912。例如，计算设备900可以借助于输出接口912显示文本、图像等。

预见到经由输入接口910和输出接口912与计算设备900通信的外部设备可以被包含在基本上提供用户可以与其交互的任何类型的用户接口的环境中。用户接口类型的示例包括图形用户接口、自然用户接口等。例如，图形用户接口可以从采用诸如键盘、鼠标、远程控制等的输入设备的用户接受输入并且将输出提供在诸如显示器的输出设备上。另外，自然用户接口可以使得用户可以以不受由诸如键盘、鼠标、远程控制等的输入设备施加的约束的方式与计算设备900交互。更确切地说，自然用户接口可以依赖于语音识别、触摸和触笔识别、在屏幕上以及邻近屏幕的手势识别、空中手势、头部和眼部跟踪、声音和语音、视觉、触摸、手势、机器智能等。

附加地，尽管被图示为单个系统，但是要理解的是计算设备900可以为分布式系统。因此，例如，若干设备可以借助于网络连接来进行通信并且可以共同地执行被描述为由计算设备900执行的任务。

本文描述的各种功能可以被实施在硬件、软件或其任何组合中。如果被实施在软件中，功能可以被存储在计算机可读介质上或者作为一个或多个指令或代码通过计算机可读介质传输。计算机可读介质包括计算机可读存储介质。计算机可读存储介质可以是可以由计算机访问的任何可用存储介质。通过示例而非限制的方式，这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁性存储设备或者可以用于承载或存储形式为指令或数据结构并且可以由计算机访问的期望程序代码的任何其他介质。如本文中所使用的盘和磁盘包括紧凑盘(CD)、激光盘、光盘、数字多用盘(DVD)、软盘以及蓝光盘(BD)，其中磁盘通常磁性地再生数据并且磁盘通常利用激光光学地再生数据。另外，传播信号未被包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质，其包括支持计算机程序从一个地方到另一地方的传输的任何介质。连接例如可以为通信介质。例如，如果软件使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外、无线电和微波的无线技术从网站、服务器或其他远程源被传输，则同轴线缆、光纤线缆、双绞线、DSL或诸如红外、无线电和微波的无线技术被包括在通信介质的定义中。以上的组合还应当被包括在计算机可读介质的范围内。

备选地或附加地，本文描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可以被使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

以上已经描述的内容包括一个或多个实施例的示例。当然，出于描述前述方面的目的，不可能描述以上设备或方法的每个可设想的修改和更改，但是本领域普通技术人员可以意识到各个方面的许多另外的修改和置换是可能的。因此，所描述的方面旨在包含落入所附权利要求的精神和范围内的所有这样的更改、修改和变型。另外，在具体实施方式或权利要求中使用了术语“包含”的程度上，这样的术语旨在以与术语“包括”类似的方式为包含性的，如同“包括”在被用作权利要求中的连接词时被理解的那样。

Claims

1.一种由计算设备执行的方法，所述方法包括：

接收用于在显示器上呈现的视觉内容；

在使所述视觉内容被呈现在所述显示器上之前，基于以下来修改所述视觉内容以生成新的视觉内容：

所述计算设备支持自动语音识别(ASR)；并且

所述计算设备支持视觉注意监视；以及

响应于修改所述视觉内容，使所述新的视觉内容被呈现在所述显示器上。

2.根据权利要求1所述的方法，所述视觉内容具有第一布局，并且其中修改所述视觉内容以生成所述新的视觉内容包括将所述第一布局变换为第二布局。

3.根据权利要求2所述的方法，所述第一布局包括第一元素和第二元素，在所述第一元素和所述第二元素之间具有第一距离，并且其中修改所述视觉内容以生成所述新的视觉内容包括改变在所述第一元素和所述第二元素之间的距离，使得在所述第二布局中第二距离将所述第一元素与所述第二元素分离。

4.根据权利要求3所述的方法，其中所述第一元素包括第一词语或词语序列，所述第二元素包括第二词语或词语序列，所述方法还包括：

计算指示在所述第一词语或词语序列和所述第二词语或词语序列之间的声学相似性的值；以及

基于指示在所述第一词语或词语序列和所述第二词语或词语序列之间的所述声学相似性的所述值来修改所述视觉内容以生成经修改的所述视觉内容。

5.根据权利要求1所述的方法，还包括：

接收包括所述显示器的阅读器的图像；

基于所述图像，标识被呈现在所述显示器上的所述新的视觉内容中的正被查看的元素；以及

基于对所述元素的所述标识来定制ASR系统。

6.根据权利要求1所述的方法，还包括：

接收包括所述显示器的阅读器的信号；

基于所述信号，估计所述新的视觉内容中的元素正被查看；以及

响应于估计所述元素正被查看，生成指示所述元素已经被估计为正被查看的输出。

7.根据权利要求6所述的方法，其中生成所述输出包括向经修改的所述视觉内容中的所述元素分配视觉指示符。

8.根据权利要求1所述的方法，所述视觉内容包括第一表单可填充字段和第二表单可填充字段，并且修改所述视觉内容以生成所述新的视觉内容包括对所述第一表单可填充字段或所述第二表单可填充字段中的至少一项进行重新定位，使得所述第一表单可填充字段被定位为进一步远离所述第二表单可填充字段。

9.一种计算系统，包括：

处理器；以及

存储器，所述存储器包括由所述处理器执行的多个组件，所述多个组件包括：

布局生成器组件，所述布局生成器组件接收要被呈现在显示器上的视觉内容，所述视觉内容具有第一布局，所述布局生成器组件在所述视觉内容被呈现在所述显示器上之前修改所述视觉内容使得所述视觉内容当被修改时具有第二布局，所述布局生成器组件基于正被跟踪的相对于所述显示器的视觉注意来修改所述视觉内容，其中所述第二布局与所述第一布局不同；以及

渲染器组件，所述渲染器组件与所述布局生成器组件通信，所述渲染器组件利用所述第二布局来渲染所述视觉内容以用于在所述显示器上呈现。

10.根据权利要求9所述的计算系统，所述多个组件还包括：

凝视跟踪器组件，所述凝视跟踪器组件从相机接收图像，所述凝视跟踪器组件基于所述图像来标识凝视方向，所述凝视跟踪器组件基于所述凝视方向来估计正在所述显示器上被查看的元素，其中所述布局生成器组件使指示所述元素被估计为正被查看的图形数据被呈现在所述显示器上。

11.根据权利要求10所述的计算系统，所述元素是表单可填充字段，并且所述图形数据是所述表单可填充字段的突出显示。

12.根据权利要求9所述的计算系统，所述多个组件还包括凝视跟踪器组件，所述凝视跟踪器组件从相机接收图像，所述凝视跟踪器组件基于所述图像来标识凝视方向，所述凝视跟踪器组件基于所述凝视方向来估计正在所述显示器上被查看的元素，所述存储器还包括由所述处理器执行的自动语音识别(ASR)系统，所述ASR系统被配置为接收音频信号并识别所述音频信号中的口头话语，所述语音识别系统基于所述元素由所述凝视跟踪器组件估计为正被查看来识别所述口头话语。

13.根据权利要求12所述的计算系统，所述多个组件还包括定制器组件，所述定制器组件基于所述元素由所述凝视跟踪器组件估计为正被查看来定制所述ASR系统。

14.根据权利要求9所述的计算系统，其中所述第一布局包括处于相对于彼此的第一位置处的第一元素和第二元素，并且其中所述第二布局包括处于相对于彼此的第二位置处的所述第一元素和所述第二元素。

15.根据权利要求9所述的计算系统，其中所述视觉内容被包括在要被显示在所述显示器上的网页中。