CN104520849B

CN104520849B - 使用外在物理表达的搜索用户界面

Info

Publication number: CN104520849B
Application number: CN201380041904.2A
Authority: CN
Inventors: A.C.克鲁克; N.丹德卡; O.K.曼亚姆; G.克迪亚; S.萨基佐瓦; S.贾文马迪; D.理布林; R.W.怀特; K.科林斯-汤普森
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2012-08-08
Filing date: 2013-08-06
Publication date: 2019-01-15
Anticipated expiration: 2033-08-06
Also published as: EP2883161A1; CN104520849A; US20140046922A1; WO2014025711A1

Abstract

公开的架构使得能够以一个或多个用户的手势和可选地话音信号的形式来进行用户反馈以便与搜索引擎框架进行交互。例如，文档相关性、文档排序以及该搜索引擎的输出可以基于用户物理手势的捕获和解释来被修改。基于用户的关节的物理位置和移动来检测特定手势的识别。该架构在导航话音驱动和手势驱动的界面的同时捕获感情的响应，并且指示适当的反馈已经被捕获。除了许多别的以外，该反馈可以被用来变更搜索查询，使用通过搜索/浏览会话收集到的反馈来使该响应个性化，修改结果排序、对用户界面导航以及对整个结果页面的修改等。

Description

使用外在物理表达的搜索用户界面

背景技术

在查询信息时，用户具有自然的倾向来利用身体的物理移动或面部表达进行反应。在使用搜索引擎来查找信息时，用户键入查询并被呈现结果的列表。为了得到对于查询的结果，通过使用外部判断来标记文档相关性或使用通过用户与结果页面主要使用鼠标驱动输入（例如，点击）的交互所收集的反馈来训练排序器。但是，这种常规的输入设备交互技术是很麻烦的，在数据可靠性以及因而所捕获的数据的效用性方面有限制。

发明内容

下面的内容提出了本发明简化的发明内容，以便提供本文描述的一些新颖的实施例的基本理解。本发明内容不是一个广泛的概览，它并不旨在标识核心/关键元素，也不旨在描述其范围。它唯一的目的是以简化的方式来提出一些概念，作为稍后提出的更详细的描述的前序。

公开的架构使得能够实现外在物理表达形式的用户反馈，以便与搜索引擎框架进行交互，所述外在物理表达包括一个或多个用户的手势以及可选地包括一个或多个用户的话音信号。例如，文档相关性，文档排序以及搜索引擎的输出可以基于物理手势（以及可选地，话音命令）的捕获和解释来修改。该反馈包括操作界面特征的控制反馈（显式的）以及用户在其中表达由架构所捕获和解释的感情的情感反馈（隐式的）。

基于用户的关节的物理位置以及相对于该关节的身体附属物移动，来检测特定手势（包括一个或多个姿势）的识别。这个能力被具体化为用户交互设备，通过该用户交互设备用户交互被解释为系统指令并被执行用于诸如滚动、项目选择等之类的用户界面操作。该架构在导航话音驱动以及手势驱动的界面的同时捕获感情的响应，并指示适当的反馈已被捕获。该反馈可以被用来变更（alter）搜索查询、修改结果排序、页面元素/内容和/或布局，以及使用通过搜索/浏览会话所收集的反馈来将响应个性化（personalize）。

为了完成前述和相关目的，本文结合下面的描述以及附图一起来描述确定的说明性的方面。这些方面指示了本文公开的原理可以被实践的各种不同的方式并且所有的方面及其等价物旨在处于要求保护的主题的范围之内。在结合附图一起考虑时，其他优点和新颖的特征根据下述具体实施方式将变得明显。

附图说明

图1图示了根据公开的架构的系统。

图2图示了使得能够通过手势和/或话音来进行用户交互的示例性用户界面。

图3图示了使得能够通过手势和/或用于异议手势的话音来进行用户交互的示例性用户界面。

图4图示了使用于搜索的用户手势和输入的检测和显示更容易的系统。

图5图示了可以被用来计算用于搜索的人类手势的一般化人体模型的一种示例性技术。

图6图示了可以被用于搜索输入以及反馈自然的用户界面的示例性手势和输入的表格。

图7图示了根据公开的架构的方法。

图8 图示了图7的方法的进一步的方面。

图9图示了根据公开的架构的可替换的方法。

图10图示了图9的方法的进一步的方面。

图11图示了根据公开的架构在搜索引擎框架中执行手势捕获和处理的计算系统的框图。

具体实施方式

公开的架构捕获和解释身体/手部手势以便与搜索引擎框架进行交互。在一个示例中，作为训练数据收集阶段一部分，可以利用手势来修改搜索结果。例如，可以使用手势来提供用于训练数据的文档（结果）的相关性反馈以便优化搜索引擎。另一个手势可以被配置和被利用来变更结果排序，并因此变更搜索引擎的输出。例如，用户表达的反馈可以是通过手势的方式，其中上述手势动态地修改搜索引擎结果页面（SERP）或向下更深入地挖掘（例如，向下导航数据的分层结构）特定的主题或领域。

在一个实现中，手势可以包括拇指向上的姿势来表示同意，拇指向下的手部姿势来表示异议，以及手部捂到脸上的姿势来表示疑惑(或绝望)。但是，将被理解的是，手势的数量和类型不限于上述三个，例如可以包括诸如用于部分同意(例如，以手掌向上的方向挥手)以及部分异议（例如，以手掌向下的方向挥手）的手势之类的其他手势。因此，可以有多种多样不同的表示感情的外在物理表达以及可以通过这种方式被配置和传达的操作命令。换句话说，手势姿势（与时间无关的）以及与时间相关的运动（例如，挥击）的类型和数量可以视期望被改变或扩展。

公开的架构尤其有助于自然用户界面（NUI）。NUI可以被定义为使得用户能够以“自然的”方式，没有诸如鼠标、键盘、遥控等之类的输入设备所施加的人工限制来与设备进行交互的任何界面技术。

NUI方法的示例包括那些依赖语音识别、触摸和指示笔识别、在屏幕上以及邻近屏幕的手势识别、悬浮手势（air gesture）、头部以及眼睛跟踪、话音和语音、视觉、触觉、手势以及机器智能的示例。NUI技术的具体分类包括触觉敏感的显示、话音和语音识别、意图和目的理解、使用深度摄像机（例如，立体摄像机系统、红外线摄像机系统，RGB（红绿蓝）摄像机系统及其组合）的运动手势检测、使用加速计/陀螺仪的运动手势检测、面部识别，三维（3D）显示、头部、眼睛以及凝视跟踪、沉浸式增强显示以及虚拟现实系统，上述所有技术提供了更自然的界面，也提供了用于使用电场感知电极（EEG（脑电图学）和相关方法）来感知大脑活动的技术。

可以适用于该公开架构的合适的系统包括系统用户界面，诸如由通用计算系统或多媒体控制台的操作系统所提供的，使用象征的手势来控制的那些。象征的手势移动在拥有或没有输入设备辅助的情况下由用户来实行。目标跟踪系统分析这些移动来确定预定义的手势何时已经被实行。捕获系统产生包括人类目标的捕获区域的深度图像。该捕获设备生成包括该人类目标的捕获区域的3D表示的深度图像。该人类目标通过使用骨骼映射捕获该用户的运动来被跟踪。该骨骼映射数据被用来通过使用手势过滤器来识别对应于预定义的手势的移动，其中上述手势过滤器阐明用来确定目标移动何时指示可行的手势的参数。当手势被检测时，实行一个或多个预先定义的用户界面控制动作。

在一个实施例中，用户界面可以使用人类目标的移动来被控制。人类目标的移动可以通过使用来自捕获设备的图像生成该人类目标的骨骼映射来被跟踪。从该骨骼映射中，确定该人类目标的移动是否满足一个或多个用于特定手势的过滤器。例如，一个或多个过滤器可以指定手势由特定的一只手或由两只手来实行。如果人类目标的移动满足了一个或多个过滤器，则对应于该手势的一个或多个用户界面动作被实行。

根据一种用于跟踪用户移动来控制用户界面的技术，该系统包括提供用户界面的操作系统、跟踪系统、手势库以及手势识别引擎。该跟踪系统与图像捕获设备通信以便接收捕获区域（包括人类目标）的深度信息以及创建随着时间来映射人类目标的移动的骨骼模型。手势库存储了多个手势过滤器，其中每个手势过滤器定义用于至少一个手势的信息。例如，手势过滤器可以指定相应的手势由特定的一只手、双手、手臂、诸如肩膀的躯干部分、头部移动等来被实行。

手势识别引擎与跟踪系统通信以便接收骨骼模型，以及使用手势库来确定人类目标（或其部分）的移动是否满足多个手势过滤器中的一个或多个。当人类目标的移动满足多个手势过滤器中的一个或多个的时候，手势识别引擎将指示提供给该操作系统，该操作系统可以实行相应的用户界面控制动作。

在一个示例中，与多个手势中的每个相对应的多个手势过滤器被提供来控制操作系统用户界面。例如，多个手势可以包括水平摆动手势（fling gesture）（其中，用户通常沿着水平面来运动手部或手部/手臂，好像是在翻书的页面），垂直摆动手势（其中，用户通常沿着垂直面来运动手部或手部/手臂，好像是在提起或关闭容器的盖子），单手按压手势，后退手势（back gesture），双手按压手势，和双手压缩手势等。人类目标的移动可以通过在已知的3D坐标系统中使用人类目标的骨骼映射从多个深度图像中被跟踪。从骨骼映射中，确定人类目标的移动是否满足用于多个手势中的每个的至少一个手势过滤器。作为对确定人类目标的移动满足手势过滤器中的一个或多个的响应，该操作系统用户界面被控制。

在另一个适合于公开架构的系统中，用户移动在运动捕获系统中被跟踪。用户手部可以随着时间在该运动捕获系统的视野中被跟踪，包括得到在不同时间点上的手部的3D深度图像。例如，该3D深度图像可以被用来提供用户身体的骨骼模型。视野中手部的位置的初始估计可以基于跟踪来得到。该初始估计可以由任何类型的运动跟踪系统来提供。由于运动跟踪系统所引入的误差，位置的初始估计可能是有些不精确，其中上述误差包括噪声、抖动以及所使用的跟踪算法。因此，该初始估计相对于先前时间点的相应估计的差可以被确定，并且此外，如果该差低于阈值。该阈值可以定义将先前时间点的估计作为其中心的2D区域或3D立体（volume）。如果差低于该阈值，可以将平滑过程应用于该初始估计以便通过以低于该差的数量来改变该初始估计，从而提供位置的当前估计。上述平滑操作也可以被应用于手部/手臂姿势识别。

在另一方面，如果差是相对较大以至于不低于阈值，则位置的当前估计可以基本上被提供来作为初始估计，在这种情况下不应用平滑效果。这个技术在平滑了更小的移动的同时，最小化了对于手部较大的帧到帧的移动的等待时间。基于当前估计，在视野中将诸如矩形（包括立方体）或球形立体之类的立体定义为搜索立体。3D深度图像在立体中被搜索以便在视野中确定手部的位置的新的估计。该搜索可以包括识别手部在立体中的位置以及确定该位置的平均。控制输入可以被提供给应用，其中该应用至少部分基于位置的新的估计或从位置的新的估计中推导得到的数值来在视野中表示手部。这个控制输入可以被用于导航菜单、控制化身（avatar）的移动等。

例如，合适的手势识别实现可以使用关节映射，其中模型可以被定义以使得人体的关节可以被识别为诸如头顶、头的底部或下颚、右肩、右肘、右手腕以及由指尖区域表示的右手等之类的参考点。右侧和左侧可以从面向摄像机的用户的角度来定义。这可以作为手部位置的初始估计。该手部位置可以基于手部的确定的边缘区域（周围）。另一种方法是通过手部的中心点来表示手部位置。该模型也可以包括与左肩、左肘、左手腕以及左手相关联的关节。腰部区域可以被定义为肚脐处的关节，并且该模型还包括定义在右臀部、右膝盖、右脚、左臀部、左膝盖和左脚的关节。

用户交互组件可以被使用以及作为设备出现，其中该设备包括摄像机系统、麦克风系统、音频系统、话音识别系统、网络接口系统以及其他至少可以驱动显示器的系统。该设备在某时间瞬间和在变迁（transitionary）路径（例如，挥击(swipe)）上来捕获物理关节位置。该设备使得能够进行用户关节位置的骨骼跟踪，能够通过光学以及红外线（IR）传感器来对用户和/或用户环境成像，以及能够使用波束成形或其他音频信号处理技术捕获和识别包括方向和位置确定的话音命令。这个应用程序接口（API）使得能够跟踪作为时间的函数的用户关节的位置。连同在预定义的序列中的英文口语单词的识别一起，使用手臂和手部的挥击运动的特定手势可以被用来在用户界面内控制导航。

手势可以包括自然的行为手势以及非自然（或学习的）行为手势。自然的行为手势（例如，用于提供相关性反馈）可以包括伸出的拇指向上的手部，来将文档标记为“喜欢”（“LIKE”），该“喜欢”可以通过在线的社交网络与朋友分享。另一个自然行为手势可以是耸肩膀，该手势可以被检测和识别为关于所提供的结果的困惑的指示。又一个自然行为手势可以被定义为将用户头部放在手中，这可以被识别和关联于绝望的感情。非自然的行为手势可以是分开双手来控制用户界面的挥击运动。

换句话说，手势和话音信号可以被用来提供查询的输入，实行搜索引擎动作（例如，结果选择），以及微调搜索结果的相关性，这仅仅是几个例子。如下文所述，历史的偏好，原型的偏好或者结果集合分布可以被用来确定被分配给相关性的不同维度的初始权重。

除了从用户捕获表达的反馈（例如，人类的判断）以外，手势和话音可以被用作查询输入以及结果选项的选择。该用户交互组件使得一个或多个用户能够连续地或同时地调整不同维度（例如，新近性、多样性、复杂度）的权重，例如用于结果（文档）相关性。被分配给不同维度的新的权重可以被用来动态地重新排序显示给用户的搜索结果。

通过说出系统应该采取的动作（例如，“选择结果 3”），通过提供手势（例如，通过在搜索结果上悬停来选择它）或通过话音和手势的组合，可以实行选择。话音和手势技术与搜索引擎重排序算法相耦合来辅助用户表达需求以及探究搜索结果。

现在参考附图，其中相似的参考数字自始至终用来指代相似的元素。在下面的描述中，为了解释的目的，许多特定的细节被阐明以便提供对它们的透彻的理解。但是，可能显然的是，新颖的实施例可以在没有这些特定细节的情况下被实践。在其他实例中，已知的结构和设备被以框图的形式显示以便使得对它们的描述更容易。意图是覆盖所有落入要求保护的主题的精神和范围以内的修改、等价物以及替换物。

图1图示了根据公开的架构的系统100。该系统100可以包括与搜索引擎框架 104相关联的用户交互组件 102，其中用户交互组件102使用手势识别组件106来捕获和解释用户110的手势108来作为与该搜索引擎框架104的交互。该手势108是关于用户110与搜索结果112（搜索引擎结果页面（SERP）114的）的交互的用户反馈，以便收集用于通过搜索引擎框架104来改善用户搜索体验的数据（例如，训练，评估）。例如，该交互可以是涉及标注（tag）用于相关性的结果（文档）、变更结果排序、向下深入挖掘特定的主题、向下深入挖掘特定的领域（内容的类型）以及向下深入挖掘属性（网站）维度。尽管被显示为一个有顺序的列表，但是不要求结果112按照这样的列表来显示。

例如，用户交互组件102可以使用微软公司的Kinect^TM设备来被实现。用户交互组件102基于被组件102理解用来控制用户界面120的导航的命令（例如，学习的）来捕获（图像，视频）和处理（解释）至少以自然行为移动（例如，手部挥击、手臂下降、手部移动、手臂移动、头部移动、手指移动等）以及语音116（话音信号）（通过语音识别组件118）的形式的手势。诸如来自波束成形（例如，通过方向来区分来自不同扬声器的话音命令）的音频方向寻找和/或位置寻找技术也可以被使用。更一般地，用户交互组件102可以使用语音识别组件118来识别接收自用户的使得与搜索引擎框架104的用户界面120进行交互更容易的话音信号。该话音信号可以包括启用（enable）或禁用（disable）手势108的捕获以及解释的信号。

例如，用户交互组件102也可以被配置来检测一般的用户移动，诸如，向左移动（例如，向左移步、向左倾斜）、向右移动（例如，向右移步、向右倾斜）、向上移动（例如，跳跃、伸手）以及向下移动（例如，蜷缩、弯腰、蹲伏）。可以从用户接收手势和/或话音信号来作为开始手势识别、停止手势识别、捕获用户移动、开始/停止语音识别等的触发器。

用户交互可以是单独地基于手势、单独地基于语音或者手势和语音的组合。例如，可以使用手势来与搜索结果112交互，并且语音（话音信号）可以被用来导航用户界面120 。在另一个示例中，手势可以被用来与搜索结果112进行交互（例如，拇指向上的手部配置指示对结果的同意，拇指向下的手部配置指示对结果的异议，闭合的拳头指示疑惑等）以及导航用户界面120（例如，使用向上/向下的手部运动来滚动，左/右手部挥击来导航到不同的页面等）。

手势108基于关于关节和/或接近用户的骨骼框架的关节的物理位置和移动和/或由图像、视频或IR组件所提供的信号的捕获和分析由手势识别组件106来识别，其中上述所有这些或其一部分可以作为时间的函数来被检测。换句话说，人体可以根据关节（例如，在手腕处的手部到前臂，在肘部的前臂到上臂，在肩处的上臂到驱干，头部到躯干，在臀部的腿部到躯干等等）以及与这些关节有关的运动（变迁路径）来被映射。另外，该物理关节位置可以作为时间的函数而被捕获。参照图5会更详细地描述这一点。

由将右手（打开，或闭合为拳头）以近似水平的运动从右边移动到左边来定义的变迁路径可以被配置来指示从现有的UI页面（文档或视图）导航回到先前的UI页面（文档或视图），其中上述路径被手势识别组件106所捕获和检测。如前所述，用户交互组件102可以被用来收集数据，其中该数据被用来作为通过与搜索结果（例如，结果₂）相关的手势108的手势识别来解释对于结果的用户反应的标记。被收集的数据可以被用于训练、评估、动态调整（多个）界面（比如，页面）的各方面，以及用于其他目的。用户110的手势108可以被捕获和解释以便与主题或领域相关联地来导航。换句话说，手势被捕获和解释用于在一个或多个主题和/或领域内、关于一个或多个主题和/或领域或偏好于一个或多个主题和/或领域导航的目的。手势108被捕获和被解释来动态修改SERP 114的结果。这包括，但是不限于，修改页面，生成新的结果集合以及更新现有的集合（例如，通过重新排序）。手势108涉及用户界面120（例如，生成新的页面）以及与搜索引擎框架104相关联的用户界面元件的控制。

被捕获和被解释的手势108作为在用户界面120上与手势相似的手势可视表示122被确认。例如，如果用户110对结果（例如，结果₁）给出拇指向上的手势，其中该拇指向上的手势指示同意将结果选择和标注为相关，则手势可视表示122可以是拇指向上的手部姿势的计算机生成的图形来指示手势被收到。然后用户110可以确认手势可视表示122与用户110所意图的相一致，在这之后执行相关联的指令（标注为相关）。

可能的情况是，手势可视表示122是诸如单词“同意”那样的简单的文本和/或如被说出的单词“同意”或“喜欢”的音频输出，其与用户意图相匹配，从而将结果标注为相关。用户确认也可以是通过话音信号（例如，“喜欢”或“是的”）或确认手势（例如，指示继续前进的手部的圆周运动）。因此，手势108是一组手势中的一个，该手势从物理关节分析中被解释为表示同意（例如，拇指向上、向上/向下的头部运动等）、异议（例如，拇指向下、从一边到另一边的头部运动等）或困惑（例如，闭合的拳头、耸肩膀、手捂在脸上等）的自然物理运动。该手势108可以包括被捕获和解释为反馈的基础的多个自然行为动作。换句话说，手势108可以是拇指向上的手部加上手部的向上运动。

可以响应于通过手势108对结果（例如，结果₁和结果₂）的相关性标注来改变结果112的结果排序。用户与结果的交互包括通过手势对相关性进行标注来改变结果的排序。例如，如果判断用户在第一列举的结果（结果₁）之前选择第二结果（结果₂），则在第二结果上面的第一结果的当前排序可以然后被改变来将第二结果移动到第一结果之上。

手势108可以被解释来使得基于给用户110呈现的查询或变更的查询进行web文档的检索更容易。例如，在用户（或系统）键入查询（例如，通过键盘，通过话音等）之后，手势108（例如，闭合拳头的圆周运动）可以被捕获和解释，从而然后执行查询以便为那个查询检索web文档。如果然后用户（或系统）基于以前查询的结果输入变更的查询，则手势108（例如，闭合拳头的圆周运动）可以被捕获以及解释，从而然后执行变更后的查询以便检索与那个变更的查询相关联的web文档。

手势108和/或手势的效果（例如，重新排序结果）可以被电子地传送给另一个用户（例如，在社交网络上）。例如，可以是这样情况：用户是正在将结果112判断为训练数据的一组用户中的成员，其中成员中的一些或全部被远离地分布，而不是在同一场景中（例如，房间）。因此，对于成员来说看到例如正在担任这个训练过程的人类判断者的其他成员的手势是有益的。用户110的手势108可以通过文本消息（“我喜欢”）、图像捕获（具有拇指向上手势的用户的图像）、话音信号（用户110说出单词“喜欢”）、被传送给其他成员的实况视频等被传送给一个或多个判断者。在另一个示例中，这个信息可以与社交网络中的其他用户（“朋友”）共享。

在一个群组场景中，其中多个用户在用户交互组件102的相同视野下，用户交互组件102可以操作来从正在共同地与搜索引擎框架交互以便提供反馈的该用户和其他用户中单独地（区别的）捕获和解释手势（和/或音频/话音信号）。例如，该用户和其他用户可以分别与结果相关性的各方面进行交互并作为每个用户交互的响应，搜索引擎框架动态地操作，以便适应给定的用户交互。

换句话说，用户界面使得一个或多个用户能够形成动态地控制搜索引擎提供的搜索结果的列表的排序的手势。这个控制使得能够实现对结果空间的快速探索以及对不同结果属性的重要性的快速调整。可以贯穿搜索会话使用自然行为手势，以消除在未来模糊的查询中的用户意图的歧义。手势驱动的界面针对所检测的手势提供可视的屏幕上的响应。该架构包括被用来控制用户界面（例如，通过向左/向右挥击）的时变的手势检测组件。语音接口处理单词以便开始和停止该检测的提示是可用的（例如，用单词“必应”（“Bing”）来开始语音）。该架构基于被显示给用户的查询/更改的查询来使得web文档的检索更容易。响应于通过手势所获取的标记，可以重新排序该搜索结果。该语音机制还使用用于语音检测的阈值以便将话音信号从背景噪声中区分开来并且以便在多用户场景下在每个用户的基础上从另一个用户中检测一个用户的输入。

图2图示了示例性的用户界面120，其中该用户界面使得能够通过手势和/或用于同意手势200的话音进行用户交互。在用户界面120的一个实现中，被置顶的骨骼图形202描绘了系统的两个用户：搜索者1和搜索者2，如通过用户交互组件102的骨骼跟踪所表示的。左边的结果是为搜索者1所返回的结果，并且右边的结果是为搜索者2所返回的结果。搜索引擎返回的结果112的仅一小部分（例如，前五个）被显示以防止用户必须进行滚动。用于每个搜索者的结果也可以是不同的集合。但是，这是可配置的场景，并且如果希望有较大的集合，也可以允许滚动。

作为对通过键盘、语音或手势输入（例如，在单词轮上）被传送的初始查询的响应，结果的集合被返回给每个搜索者。搜索结果的多个集合也可被返回，通常每个用户返回一个集合。每个结果拥有沿着不同维度的权重，并且使得用户（搜索者）能够有一种方法来动态地控制被用来在他们集合中排序结果的权重。在用于相关性处理的一个实现中，针对每个相关性维度为每个结果计算权重，在这种情况下，相关性维度包括图片内容的数量，信息的新近性（与特定日期、事件的靠近程度）以及内容的高级性质。该维度可以被作为紧邻每个结果（例如，在这个结果的左边）的图表（例如，条）来被显示。

可以离线地或在查询时间为每个搜索结果计算这些权重。例如，图像的数目可以通过解析文档的内容来计算，文档的高级性质可以通过被使用的语言的复杂度来计算，以及新近性可以使用文档被创建或最后被修改的日期和时间来计算。

一旦权重已经被沿着相关性的不同维度分配给搜索结果的相关联的集合，（多个）用户（搜索者）可以调整界面控件来反映用户的偏好以及使结果列表得到更新。在一个示例中，界面控件可以是（绘图204的）雷达绘图，通过该绘图用户调整被分配给不同相关性维度的权重。可以使每个用户有一个雷达绘图。用户可以独立地和同时地调整他们的绘图。应该被意识到的是，雷达绘图只是用于表示不同相关性维度的一种技术。例如，每一面（face）表示一个维度的3维（3D）形状可以被使用和操作来反映不同维度的重要性。

维度可以被控制（例如，通过水平或垂直地移动右手的手势），但是多个维度也可以通过使用身体的其他部分（例如，通过在相同的时间移动右手和左手，手加脚等）来被同时地控制。搜索者2可以选择“图片”维度并且通过举起右手（该行为在搜索者1的骨骼中是可视的）来调整其权重。需要注意的是，如本文所述，架构也可以由一个单独用户而不是由多个用户使用。另外，尽管只有三维被描述，但是这可以被扩大来包括任意数量的维度，包括随着查询而变化的和/或为（多个）用户个性化的维度。

为了帮助用户更有效地与控件交互，该控件也可以指示关于集合中结果分布的信息（例如，通过在维度的每一个上放置一个柱状图以便显示前n个结果上权重的分布）。给定关于搜索者的人口统计信息或其他信息的附加信息（例如，小孩可能偏好图片而较少地偏好高级内容），该控件也可以被预先加载来反映用户的偏好或可能的偏好。

当用户扩大结果（结果₁）来观察相关联的结果内容206时，用户110此处通过做出拇指向上的手势作为同意手势200来决定同意该结果及其内容。作为确认，系统为用户110呈现它所解释的手势208。其后，用户110可以说出命令（例如，“下一个”）来移动到下一个结果，或在被解释的手势208被呈现后为超时（例如，三秒钟）的发生而暂停等。可替换地，可以使用其他命令/手势，例如使用手臂下降来指示“继续前进”。

图3图示了示例性的用户界面120，该界面使得能够通过手势和/或用于异议手势的话音来进行用户交互。为了简洁起见，对于同意手势200的上述描述可以基本上被应用到异议手势。当用户扩大结果（结果₁）来观察相关联的结果内容206时，用户110此处通过做出拇指向下的手势作为异议手势300来决定不同意该结果及其内容。作为确认，该系统为用户110呈现其所解释的手势302。其后，用户110可以讲出命令（例如，“下一个”）来移动到下一个结果，或在被解释的手势302被显示之后等待超时（例如，三秒钟）的发生等。可替换地，可以使用其他命令/手势，例如使用手臂下降来指示“继续前进”。

图4图示了系统400，该系统使用户手势以及用于搜索的输入的检测和显示更容易。系统400包括显示器402（例如，计算机、游戏监视器、数字电视等），该显示器可以被用户110用来至少对用于本文公开的搜索结果和导航的用户界面120的可视的感知。计算单元404包括用于语音识别的感知子组件、图像和视频识别、红外线处理、用户输入设备（例如，游戏控制器、键盘、鼠标等）、音频输入/输出（麦克风、扬声器）、图形显示驱动器和管理、（多个）微处理器、存储器、存储装置、应用以及操作系统等。

在此处，拇指向上的手势被作为对结果的同意手势而显示。该手势是被捕获的图像（例如，通过本文描述的关节方法）和用于同意显示结果和结果内容的被解释的同意手势208。

图5图示了一般化的人体模型500的一种示例性技术，该一般化的人体模型可以被用于为搜索者计算人类手势。根据一个实施例，该模型500可以被表征为具有用于手臂、肩膀、腹部、臀部和腿部的13个关节j1-j13，然后该模型500可以被转换成3D模型。例如，关节j1可以是左肩，关节j2可以是左肘，以及关节j3可以是左手。另外，每个关节可以具有例如用于移动方向、移动速度、移动距离的相关联的向量。因此，该向量可以被用于与其他向量（或关节）进行比较以用于向手势的转换，其中上述手势被用于自然用户界面的公开的架构所识别。

然后，两个或多个关节的组合也定义了人体部分，例如关节j2-j13定义左前臂。该左前臂独立地移动，并且可以被独立地或与通过关节j6-j17表征的右前臂组合地使用。因此，在预定运动中左前臂和右前臂的两个运动例如可以被解释来在搜索界面中向上或向下滚动。

这个模型500例如可以被扩展到诸如指尖、指节的关节以及手腕之类的手部的各方面，来分别地或与手臂、手臂移动等结合地解释拇指向上的手势。因此，手部502的静态的方向可以被用来指示停止命令（手掌水平地朝向以及远离身体）以及疑问（手掌面向上）,垂直地以及向下地(减少音量）等。在这个特定的图示中，在拇指向上的姿势中左手被解释为同意被呈现在搜索引擎的用户界面中的内容。

作为3D表示，角度的（或轴向的）旋转可以被进一步用于自然用户界面中用于搜索和反馈的解释和转换。例如，手部相对于其相关联的上臂的轴向旋转可以被识别和转换来“增加音量”或“减小音量”，而食指在向前方向的突出和移动可以被解释为向该方向移动。

将被意识到的是，话音命令和其它类型的识别技术可以被分别地或与自然用户界面中的手势相结合地使用。

图6图示了可以被用于搜索输入以及反馈自然用户界面的示例性的手势和输入的表格600。拇指向上的手势602可以被配置和被解释来表示同意。该拇指向下的手势604可以被配置和被解释来表示异议。手掌在面部的手势606可以被配置和被解释来表示绝望。耸肩手势608可以被配置和被解释来表示疑惑。手臂向上的移动610可以被配置和被解释来表示用于向上滚动的导航操作。手臂向下移动612可以被配置和被解释来表示用于向下滚动的导航操作。“停止”的话音命令614可以被配置和被解释来表示停止自动滚动操作的导航操作。“下一个”的话音命令616可以被配置和被解释来表示选择下一个项目的导航操作。“打开”的话音命令618可以被配置和被解释来表示打开视窗或将选择的项目扩大到下一个等级的导航操作。

如本文所公开的，这些仅是手势和其它类型的用户输入（例如，语音）如何被分别地或一起地使用来使得搜索以及反馈更容易的一些例子。该架构是用户可配置的以便用户可以按照希望来定制手势和命令。

被包含在此的是一组流程图，该组流程图代表用于实行公开架构的新颖方面的示例性的方法。尽管为了简化解释的目的，例如以流程图或流程图表的形式在本文中显示的一个或多个方法被作为一系列的动作而被显示和描述，但是将被理解和被意识到的是，由于一些动作可以根据其自身以不同的顺序发生和/或与来自本文所显示和描述的其他动作同时地发生，所以动作的顺序并不限制该方法。例如，本领域技术人员将理解和意识到方法可以被替换地表示为一系列诸如状态图中的相互关联的状态或者事件。另外，对于新颖的实现方式而言，并非需要在方法中被图示的所有动作。

图7图示了根据公开的架构的方法。在700处，用户的手势作为数据搜索体验的一部分而被捕获（其中，该“体验”包括该用户所采取的与用户界面的元素进行交互来实施控制、导航、数据输入以及数据结果查询的动作，例如诸如相关于但是不限于键入查询、在SERP上接收结果、修改（多个）结果、导航用户界面、滚动、翻页以及重新排序等），该手势是与搜索体验相关的交互式反馈。捕获动作是用于后续处理的手势的图像或视频捕获。在702处，被捕获的手势与被作为时间的函数分析的用户关节特性数据进行比较。该关节特性包括一个关节相对于另一个关节的位置（例如，相对于肘关节的手腕关节）、所使用的特定的关节（例如，手臂、手部、手腕、肩膀等）、关节的变迁路径（例如，在挥击的轨迹中所跟踪的手腕关节）、固定的（静态的）姿势（例如，手部上的拇指向上）等等。

在704处，手势被解释为被定义为与搜索引擎框架相兼容的命令。该解释动作确定与手势相关联的命令，其中上述手势是通过捕获（多个）图像以及将处理后的（多个）图像与关节数据相比较来找到最后的手势而被确定。此后，得到了与所给出的手势相关联的命令。在706处，该命令通过该搜索引擎框架被执行。在708处，用户根据命令与搜索界面进行交互。在710处，通过搜索界面将与手势相关的可视表示呈现给用户。该可视表示可以是被捕获的手势的证实的图形（用户的拇指向上的手势在界面中被呈现为拇指向上的图形）。可替换地，该可视表示可以是执行与被检测到的手势相关联的命令的结果，诸如界面导航（例如，滚动、翻页等）。

图8图示了图7的方法的进一步的方面。注意的是，该流程指示每个框可以表示可以分别地或者与其他框相结合地被包含作为由图7的流程图所表示的方法的附加方面的步骤。将被理解的是，本文描述的手势、用户输入以及作为结果的程序和应用动作、操作、响应等仅仅是可以被实现的示例中的一些示例。

其他可能的搜索引擎交互的示例包括，但是不限于，实行导致获取关于给定的搜索结果的附加信息的手势，实行从相关搜索UI窗格发出的新的查询的手势等。在800处，该用户通过话音命令与该搜索引擎框架进行交互以便导航该用户界面。在802处，基于手势，将搜索结果标注为与查询相关。在804处，基于手势，更改搜索结果在其他搜索结果中的排序。在806处，用户同意、用户异议以及用户疑惑被定义为手势以便与搜索引擎框架进行交互。在808处，基于手势，搜索体验的控制被更精细或更宽泛地导航。

图9图示了根据公开的架构的可替换的方法。在900处，从观察搜索引擎框架的搜索结果用户界面的用户中接收手势，该手势是与搜索结果相关的用户交互式反馈。在902处，基于作为时间的函数的用户被捕获的图像特征，分析该用户的手势。在904处，该手势被解释为与该搜索引擎框架相兼容的命令。在906处，该命令被执行以便使通过搜索引擎框架的用户界面与结果页面的搜索结果进行交互更容易。在908处，话音命令被识别，从而导航用户界面。在910处，通过搜索引擎框架的用户界面，将手势的可视表示和手势的效果呈现给用户。

图10图示了图9的方法的进一步的方面。注意的是该流程指示每个框可以表示可以分别地或者与其他框相结合地被包含作为由图9的流程图所表示的方法的附加方面的步骤。在1000处，单独地从共同地与搜索引擎框架交互以提供反馈的用户和其他用户中捕获和解释手势。在1002处，从与结果相关性的各方面相关的用户和其他用户中的每一个中单独地捕获和解释手势，该搜索引擎框架动态地适应该用户以及其他用户的每个用户交互。在1004处，基于查询或者更改的查询来检索和呈现结果文档。在1006处，为相关性标记结果以及更改结果排序和搜索引擎框架的输出的手势被使用。

如在本申请中被使用的，术语“组件”和“系统”旨在指代计算机相关的实体，或者是硬件、软件和有形的硬件的组合、软件，或者是执行中的软件。例如，组件可以是，但是不限于，诸如处理器、芯片存储器、大型存储设备（例如，光驱、固态驱动和/或磁性存储媒体驱动）以及计算机之类的有形组件，以及诸如运行在处理器上的进程、对象、可执行体、数据结构（存储在易失性或非易失性存储媒体中）、模块、执行的线程和/或程序之类的软件组件。

作为图示，运行在服务器上的应用以及该服务器都可以是组件。一个或者多个组件可以驻留在执行的进程和/或线程中，并且组件可以在一台计算机本地和/或者被分布在两个或者多个计算机之间。单词“示例性的”可以在本文中被用来表示用于示例、实例或者图示。本文被描述为“示例性的”的任何方面或设计并不是必须被解释为优先于或者有利于其他方面或者设计。

现在参考图11，图示了计算系统1100的框图，该计算系统1100根据公开架构在搜索引擎框架中执行手势捕获以及处理。但是，应该被意识到的是，公开的方法和/或系统的一些或者所有方面可以被实现为片上系统，其中模拟的、数字的、混合的信号以及其他功能都被制备在单个的芯片衬底上。

为了提供针对其中各种方面的附加背景，图11和如下的描述旨在提供对合适的计算系统1100的简要的、一般的描述，其中各种方面可在所述计算系统1100中被实现。虽然上面的描述是在可以在一个或者多个计算机上运行的计算机可执行指令的一般上下文中进行的，但是本领域的技术人员将能认识到，新颖的实施例也可以与其他程序模块相结合地和/或作为硬件和软件的组合来被实现。

用于实现各个方面的计算系统1100包括具有（多个）处理单元1104、诸如系统存储器1106之类的计算机可读存储装置以及系统总线1108的计算机1102。（多个）处理单元1104可以是各种商业上可获得的处理器中的任何一个，例如单处理器、多处理器、单核单元以及多核单元。另外，本领域的技术人员将意识到新颖的方法可以与其他计算机系统配置一起被实践，上述计算机系统配置包括微型计算机、大型计算机以及个人计算机（例如，台式、膝上型等）、手持的计算设备、基于微处理器的或可编程的消费电子装置等，其中每一个可与一个或者多个相关联的设备可操作地耦合。

系统存储器1106可以包括计算机可读存储装置（物理存储媒体），例如易失性的（VOL）存储器1110（例如，随机存取存储器（RAM））以及非易失性的存储器（NON-VOL）1112（例如，ROM、EPROM、EEPROM等）。基本输入/输出系统（BIOS）可以被存储在非易失性的存储器1112中，并且包括基本的例程，该基本的例程诸如在启动期间使得在计算机1102内的组件之间的数据和信号的传送更容易。易失性的存储器1110也可以包括诸如用于缓存数据的静态RAM之类的高速RAM。

系统总线1108提供用于系统组件的接口，上述系统组件包括，但是不限于系统存储器1106到（多个）处理单元1104。该系统总线1108可以是几种总线结构中的任何一种，上述总线结构可以进一步使用各种各样商业上可获得的总线架构中的任何一种来与存储器总线（具有存储器控制器或者没有存储器控制器）以及外围总线（例如，PCI、PCIe、AGP、LPC等）相互连接。

计算机1102进一步包括（多个）机器可读的存储子系统1114以及用于将（多个）存储子系统1114与系统总线1108以及其他合期望的计算机组件相连接的（多个）存储接口1116。（多个）存储系统1114（物理存储媒体）可以包括例如硬盘驱动（HDD）、磁性软盘驱动（FDD）、固态驱动（SSD）和/或光盘存储驱动（例如，CD-ROM驱动、DVD驱动）中的一个或者多个。（多个）存储接口1116例如可以包括诸如EIDE、ATA、SATA、以及IEEE 1394之类的接口技术。

一个或者多个程序和数据可以被存储在存储器子系统1106、机器可读和可移除的存储器子系统1118（例如，闪盘驱动形状因数技术）和/或（多个）存储子系统1114（例如，光、磁、固态）中，包括操作系统1120、一个或多个应用程序1122、其他程序模块1124以及程序数据1126。

操作系统1120、一个或者多个应用程序1122、其他程序模块1124和/或程序数据1126可以包括例如图1的系统100的实体和组件、图2的用户界面120的实体和组件、图3的用户界面120的实体和组件、图4的系统400的实体和组件、图5的技术、图6的表格以及由图7到图10的流程图所表示的方法。

一般地，程序包括执行特定任务或实现特定抽象数据类型的例程、方法、数据结构以及其他软件组件等。例如，操作系统1120、应用1122、模块1124和/或数据1126的全部或者一部分也可以被缓存在诸如易失性存储器1110之类的存储器中。将被意识到的是，公开的架构可以利用各种商业上可获得的操作系统或者操作系统（例如，虚拟机）的组合而被实现。

（多个）存储子系统1114和存储器子系统（1106和1118）用作是用于数据、数据结构、计算机可执行指令等的易失性和非易失性存储的计算机可读介质。当这样的指令被计算机或者其他机器执行的时候，该指令可以导致计算机或者其他机器执行方法的一个或者多个动作。用于实行该动作的指令可以被存储在介质上或者可以被跨多个媒体来被存储，以便于这些指令看起来共同地在一个或者多个计算机可读存储媒体上，而不管所有的这些指令是否都在相同的媒体上。

计算机可读媒体可以是任何可用的媒体，其不使用传播的信号并且可以由计算机1102来访问并且包括可移除或者不可移除的易失性的以及非易失性的内部和/或外部媒体。对于该计算机1102，该媒体以任意合适的数字格式来容纳数据的存储。应该被本领域的技术人员意识到的是，可以使用诸如压缩驱动、磁带、闪存卡、闪存驱动、盘式磁带等之类的其它类型的计算机可读媒体，以用于存储计算机可执行的指令来实行所公开架构的新颖的方法。

用户可以使用诸如键盘和鼠标之类的外部用户输入设备1128以及通过由语音识别使得更容易实现的话音命令来与计算机1102、程序和数据进行交互。其他外部用户输入设备1128可以包括麦克风、IR（红外的）遥控、操纵杆、游戏板、摄像头识别系统、指示笔、触摸屏、手势系统（例如，眼部移动、头部移动等等）等。该用户例如可以使用诸如触摸板、麦克风、键盘等之类的机载用户输入设备1130与计算机1102、程序以及数据进行交互，其中计算机1102是便携式计算机。

这些以及其他输入设备经由系统总线1108通过（多个）输入/输出（I/O）设备接口1132来被连接到（多个）处理单元1104上，但是可以通过诸如并行端口、IEEE 1394串行端口、游戏端口、USB端口、IR接口、短距离无线（比如，蓝牙）以及其他个人局域网（PAN）技术等之类的其他接口来被连接。（多个）I/O设备接口1132也使得易于使用诸如打印机、音频设备、摄像机设备等之类的外围装置1134，例如声卡和/或机载的音频处理能力。

一个或多个图形接口1136（通常也被称之为图形处理单元（GPU））在计算机1102与（多个）外部显示器1138（例如，LCD、等离子体）和/或机载的显示器1140（例如，对于便携式计算机而言）之间提供图形和视频信号。（多个）图形接口1136也可以作为计算机系统板卡的一部分而被制造。

计算机1102可以在联网的环境中(例如，基于IP的)使用通过有线/无线通信子系统1142与一个或多个网络和/或其他计算机的逻辑连接来运行。其他的计算机可以包括工作站、服务器、路由器、个人计算机、基于微处理器的娱乐装置、对等设备或者其他公共的网络节点，并且典型地包括许多或者所有的与计算机1102相关地描述的元件。该逻辑连接可以包括与局域网（LAN）、广域网（WAN）、热点等的有线的/无线的连接。LAN和WAN网络环境在办公室和公司是普遍存在的，并且使得易于实现诸如内联网之类的企业范围的计算机网络，该网络可以被连接到诸如因特网之类的全球通信网络中。

当在网络环境中使用计算机1102的时候，计算机1102通过有线/无线通信子系统1142（例如，网络接口适配器、机载的收发信机子系统等）连接到网络以便与有线/无线网络、有线/无线打印机、有线/无线输入设备1144等来通信。该计算机1102可以包括调制解调器或者其他用于在网络上建立通信的装置。在联网的环境中，与计算机1102相关的程序和数据可以被存储在与分布式系统相关联的远程存储器/存储设备中。将被意识到的是，被显示的网络连接是示例性的并且在计算机之间建立通信链路的其他装置可以被使用。

计算机1102可操作来与使用诸如IEEE802.xx标准族的无线电技术的有线/无线设备或者实体来进行通信，例如被可操作地部署在与例如打印机、扫描仪、台式和/或便携式计算机、个人数字助手（PDA）、通信卫星、与可被无线检测的标签（例如，公用电话亭、报摊、洗手间）相关联的装置和位置的任何一种、和电话的无线通信（例如，IEEE 802.11无线调制技术）中的无线设备。这至少包括用于热点的Wi-Fi^TM（被用来保证无线计算机网络设备的互操作性）、WiMax以及Bluetooth^TM无线技术。因此，通信可以是与常规的网络或者简单地在至少两个设备之间的自组通信相同的预定义结构。Wi-Fi网络使用被称为IEEE802.11x(a,b,g等)的无线电技术来提供安全、可靠、快速的无线连接。Wi-Fi网络可以被用来将计算机彼此连接、将计算机连接到因特网以及将计算机连接到有线网络（其使用IEEE 802.3相关的媒体和功能）。

上文所描述的内容包括公开的架构的示例。当然，不可能描述组件和/或方法的每一个可能想到的组合，但是本领域的普通技术人员中的一个可以认识到的是，多种进一步的组合和置换是可能的。因此，该新颖的架构旨在包含在所附权利要求的精神和范围内的所有这样的变更、修改和变化。另外，就术语“包含”被用在具体实施方式或权利要求中的程度来说，这样的术语旨在以类似于术语“包括”的方式为包括性的，因为在使用“包括”时其被解释为权利要求中的过渡性词语。

Claims

1.一种系统，包括：

硬件处理器；以及

存储器设备，其存储有计算机可执行指令，所述计算机可执行指令在由所述硬件处理器执行时，使得所述硬件处理器执行一种方法，包括：

接收搜索结果集合；

使得显示所述搜索结果集合；

在所述搜索结果集合被显示的同时，捕获手势；

基于所捕获的手势，调整所述搜索结果集合内的特定搜索结果的相关性，其中，调整所述搜索结果集合内的特定搜索结果的相关性包括调整被分配给一个或多个不同相关性维度的权重；

响应于所调整的相关性，调整所述搜索结果集合内的搜索结果的排序；以及

使得利用所调整的排序重新显示所述搜索结果集合。

2.权利要求1的系统，其中所述手势是基于作为时间的函数的与用户的骨骼框架的关节相关的物理位置和移动的解释来识别的。

3.权利要求1的系统，其中所述手势包括第一手势并且所述方法还包括响应于重新显示的搜索结果集合而捕获第二手势，所述第二手势指示对重新显示的搜索结果集合的用户反应。

4.权利要求1的系统，其中所述手势包括第一手势并且所述方法还包括捕获第二手势，所述第二手势向下导航搜索结果的分层结构到特定的主题或者领域；其中所述搜索结果集合和利用所调整的排序的所述搜索结果集合每个均被显示在搜索引擎结果页面中；或者其中所述手势包括第一手势并且所述方法还包括捕获导航搜索的第二手势。

5.权利要求1的系统，其中所述手势由在搜索界面中或在包括所述搜索界面的用户界面中呈现的图形手势来表示。

6.权利要求1的系统，其中所述手势是手势集合中的一个，所述手势从物理关节分析中被解释为表示同意、异议、或疑惑的自然行为运动。

7.权利要求1的系统，其中所述手势包括第一手势并且所述方法还包括捕获第二手势，所述第二手势使得基于呈现给用户的查询或者更改的查询进行的对web文档的检索更容易。

8.权利要求1的系统，其中所述方法还包括识别接收到的使得与搜索引擎的用户界面的交互更容易的话音信号。

9.权利要求1的系统，其中所述方法还包括单独地捕获来自共同地与搜索引擎交互以提供反馈的多个用户的手势。

10.一种方法，包括：

响应于数据搜索，使得搜索结果集合的视觉表示被显示；

在所述搜索结果集合的视觉表示被显示的同时，捕获用户的物理手势；

将所捕获的物理手势与被作为时间的函数分析的用户关节特征数据进行比较；

基于所述比较，将所述物理手势解释为命令，该命令要调整所述搜索结果集合内的特定搜索结果的相关性以便于改变包括在所述搜索结果集合中的至少一个搜索结果的排序，其中，调整所述搜索结果集合内的特定搜索结果的相关性包括调整被分配给一个或多个不同相关性维度的权重；以及

使得重新排序的搜索结果的视觉表示被显示。

11.权利要求10的方法，还包括通过话音命令与执行所述数据搜索的搜索引擎进行交互以便导航搜索界面。

12.权利要求10的方法，其中所述手势包括第一手势并且所述方法还包括捕获第二手势，所述第二手势使得至少一个搜索结果被标注为与查询相关。

13.权利要求10的方法，还包括使得所捕获的手势的图形表示被显示。

14.权利要求10的方法，其中所述手势包括第一手势并且所述方法还包括捕获第二手势，所述第二手势表示用户同意、用户异议、或用户疑惑中的一个。

15.权利要求10的方法，其中所述手势包括第一手势并且所述方法还包括捕获第二手势，所述第二手势控制搜索界面的导航。