CN106484098B

CN106484098B - 用户界面的实时交互操作系统和方法

Info

Publication number: CN106484098B
Application number: CN201610737363.2A
Authority: CN
Inventors: 娜蒂塔·M·娜雅卡; 加深·土菲戈; 顾海松
Original assignee: Konica Minolta Laboratory USA Inc
Current assignee: Konica Minolta Laboratory USA Inc
Priority date: 2015-08-31
Filing date: 2016-08-26
Publication date: 2019-09-03
Anticipated expiration: 2036-08-26
Also published as: US20170060250A1; EP3136203A1; JP6771996B2; EP3136203B1; CN106484098A; US9703387B2; JP2017084335A

Abstract

公开一种用于与识别手势的用户界面实时交互的方法和系统。所述方法包括捕捉被摄物体上的三维(3D)数据；从3D数据检测被摄物体的指向动作；根据指向动作，计算目标区域的初始估计，该目标区域的初始估计具有绕中心点的规定的半径；以及跟踪被摄物体的指向动作并进行一系列的迭代，在所述一系列迭代中，目标区域的规定的半径根据检测的指向动作而变化。

Description

用户界面的实时交互操作系统和方法

技术领域

本公开涉及用户界面的实时交互操作系统和方法，更特别地，涉及识别指向操作(pointing operation)、考虑用户相对于屏幕的位置并跟踪用户的手位置的系统和方法，所述手位置用作反馈以精确地识别用户指向的屏幕上的位置或目标。

背景技术

从远处操作基于手势的用户界面可能是一项挑战性的任务。例如，归因于视差误差，用户通常不能指向他或她打算指向的屏幕上的准确位置或目标。现有系统还存在关于精确指向识别的技术限制。

目前，几乎不存在能够允许用户从例如大于约3米的距离利用手势操作用户界面并且能够交互地获得来自用户的反馈以提高指向的精度、并且利用可能的目标位置引导用户进行快速和精确指向的系统。

发明内容

考虑到以上问题，希望得到一种识别指向操作、考虑用户相对于屏幕的位置并跟踪用户的手位置的系统和方法，所述手位置用作反馈以精确地识别用户指向的屏幕上的位置或目标。

按照示例性的实施例，公开一种识别用于与用户界面实时交互的手势的方法，包括：捕捉被摄物体上的三维(3D)数据；从3D数据检测被摄物体的指向动作；根据指向动作，计算目标区域的初始估计，该目标区域的初始估计具有绕中心点的规定的半径；以及跟踪被摄物体的指向动作并进行一系列的迭代，在所述一系列迭代中，目标区域的规定的半径根据检测到的指向动作而变化。

按照示例性的实施例，公开一种识别用于与用户界面实时交互的手势的系统，包括：用于捕捉被摄物体上的三维(3D)数据的运动和深度传感器；以及处理器，所述处理器被配置成：捕捉被摄物体上的三维(3D)数据；从3D数据检测被摄物体的指向动作；根据指向动作，计算目标区域的初始估计，该目标区域的初始估计具有绕中心点的规定的半径；和跟踪被摄物体的指向动作并进行一系列的迭代，在所述一系列迭代中，目标区域的规定的半径根据检测到的指向动作而变化。

按照示例性的实施例，公开一种识别用于与用户界面实时交互的手势的方法，包括：捕捉被摄物体上的三维(3D)数据；从3D数据检测被摄物体的指向动作以开始指向操作；确定指向动作在实际屏幕上的交点；确定实际屏幕上的一个或多个目标是否在围绕实际屏幕上的计算点的规定的半径之内；如果存在至少一个目标，那么确定目标的数目是等于1还是大于1，并且其中如果目标的数目等于1，那么选择目标，如果目标的数目大于1，那么减小规定的半径以减小在规定的半径内的目标的数目，直到留下单一目标为止。

应明白上面的一般性说明和下面的详细说明都是示例性的和说明性的，用于提供请求保护的发明的进一步解释。

附图说明

附图用于提供本发明的进一步理解，附图并入本说明书中并构成本说明书的一部分。附图图解说明本发明的实施例，并和所述说明一起，用于解释本发明的原理。

图1是表示按照示例性的实施例的用户界面的实时交互操作的情形的例示。

图2是表示按照示例性的实施例的会议情形的示例性的用户界面系统的概况的例示。

图3表示按照示例性的实施例的用于得出特征的接合点(joint)的三维(“3D”)位置。

图4表示按照示例性的实施例的在系统中用于手势识别的特征。

图5表示按照示例性的实施例把一系列的帧分割成用不同颜色和/或背景标记的不同手势的例子。

图6表示按照示例性的实施例利用虚拟屏幕映射的屏幕上的指向位置的估计的示例性的例子。

图7是按照示例性的实施例的交互目标选择的流程图。

图8A-8C表示按照示例性的实施例，关于真实对象的交互目标选择的3个阶段。

具体实施方式

现在参考附图，详细说明本发明的目前优选的实施例，附图中图解说明了优选实施例的例子。只要可能，附图和说明书中使用相同的附图标记指的是相同或相似的部分。

在涉及多人信息共享的应用中(比如在会议100中)，或者在用户界面120(比如大屏幕或监视器122)的基于手势的操作中，使用户110能够从例如大于3米的距离150操作会非常有用并且直观。图1中表示了示例性的情形的图示。通过利用屏幕或监视器122上的可能目标的位置引导搜索，并获得来自用户的基于手势的实时反馈来定位对象，这能够有助于克服这些挑战。另外，通过映射用户110相对于屏幕122的距离和角度，能够使站在不同位置的多个用户112、114、116操作用户界面(UI)120，如图1中所示。

如图1中所示，会议(或会议室)100可包括用户界面120，用户界面120可以是例如用于把投影图像显示在墙壁或屏幕上的投影(即，实际屏幕)、电视屏幕、触摸屏、视频监视器和/或视频屏幕122。会议或会议室100还可包括例如一个或多个数据输入设备130，所述一个或多个数据输入设备130可包括运动和/或深度传感器相机132。运动和/或深度传感器相机132例如可以是RGB-D相机，RGB-D相机例如具有带有深度或距离能力的红、绿、蓝颜色空间并且可用于获得颜色图像(RGB颜色空间)和被摄物体或用户110、112、114、116在各个图像中的深度或距离。更优选地，例如，运动和/或深度传感器相机132是能够捕捉被摄物体或用户110、112、114、116在各个图像中的深度和/或距离的运动和深度传感器相机。

按照示例性的实施例，一个或多个数据输入设备130中的每一个可包括存储器、处理器、操作系统和用于执行如这里公开的各个模块210、220、230、240、250(图2)的过程或算法的一个或多个软件应用。

另外，按照示例性的实施例，会议室可包括计算机或处理设备140，计算机或处理设备140具有存储器、处理器、操作系统、用于执行如这里公开的各个模块210、220、230、240、250(图2)的过程或算法的一个或多个软件应用。计算机或处理设备140可包括显示器或图形用户界面(GUI)142。可以领会显示器142可以是独立计算机的一部分，或者可以包含在一个或多个计算机或处理设备内。

按照示例性的实施例，所述一个或多个数据输入设备130可经因特网或网络连接(比如LAN(局域网)或WAN(广域网))和/或无线技术(包括但不限于射频(RF)、和/或红外(IR)传输)连接到计算机或处理设备140。

图2是适用于会议或集会情形下的用户界面操作的系统200的示图。例如，集会可由多个参与者110、112、114、116组成，所述多个参与者中的任何一个将是操作者110，而其它参与者可以是被动参与者112、114、116。按照示例性的实施例，交互用户界面120中的组件可包括特征提取模块210、操作者鉴定模块220、手势分割和识别模块230、目标区域映射和估计模块240和交互模块250，所述交互模块250进行手跟踪，并可根据用户的手移动减小所选择的区域。

按照示例性的实施例，具有实时骨骼提取的节约成本的深度传感器的采用引发了对人类手势识别的关注。按照示例性的实施例，例如，来自运动和深度传感器132的骨骼数据流可用作输入。按照示例性的实施例，例如，运动和深度传感器132可安装在如图1中所示那样所有用户110、112、114、116可见的已知位置。

图3是按照示例性的实施例可用于得到特征的骨骼接合点300和对应的三维(3D)位置的例示。如图3中所示，优选可利用深度相机和运动传感器132检测人类骨骼系统中的主要接合点(例如16个主要接合点)的3D位置。然而，按照示例性的实施例，并不需要所有的接合点，可以使用少于16个接合点。例如，按照示例性的实施例，可以只使用左右臀部及以上(例如上身和头部)的接合点。按照示例性的实施例，对于手势识别，可以认为腿部的接合点是冗余的。

特征提取模块

按照示例性的实施例，根据骨骼数据300，特征制取模块210可以提取如图4中所示的特征400用于用户状态检测、操作者鉴别、动作分割和识别。具有T帧并且每帧中有N个接合点的动作视频可被表示成写为的一组3D点序列。按照示例性的实施例，在示例性的系统中，N＝15并且T随不同的序列而改变。特征提取的第一步骤是计算每帧的基本特征，所述基本特征描述单一帧中的每个接合点的姿态、速度和移动信息。

姿态特征410描述帧t中的接合点n和每个其它接合点之间的相对位置，写为于是，对于N个接合点中的每个接合点，在每帧中存在具有(N-1)维元素(相减结果)的T-长度序列。按照示例性的实施例，姿态特征410捕捉每帧中的身体姿态。

速度特征420描述帧t中的接合点n和在前帧(t-k)中的每个接合点之间的相对位置，其中k是速度估计步长的参数。该参数取决于记录的动作视频的帧速率，如果在该段时间内接合点n具有显著的活动，那么该参数应是帧(t-k)和帧t之间的最小间隔，以显示接合点n的明显移动。于是，速度特征被写为正如其名称所示，速度特征420提供在每帧中身体移动有多快的信息。

移动特征430描述帧t中的接合点n和第一帧中的各个接合点之间的相对位置，写为对于恰当分割或对齐的动作视频，起始帧总是被假定最初是静止的。移动特征430捕捉与初始状态相比每帧中的身体移动。图4表示上述3种基本特征，所述3种基本特征包括姿态特征410、速度特征420和移动特征430。

按照示例性的实施例，随后通过把特征410、420和430变换成球面坐标，可以计算特征410、420、430的同心球容器表达(bin representation)。最终的描述符是这些特征的方向梯度直方图。

用户状态检测和操作者鉴别模块

在其中多人110、112、114、116在相机132的视野内的情形下，最多一人是操作者而其他的人将是被动参与者。用户状态检测和操作者鉴别模块220能够将参与者的状态鉴别为活跃/空闲。利用所提取的特征和骨骼信息，模块220鉴别呈现站立姿势的人。例如，按照示例性的实施例，该人可举起手，以便被认为是操作者。利用在动作分割和识别模块中规定的的相同过程，识别举手手势。所鉴别出(ID)的人被标记为操作者110，而其他人被认为是被动参与者112、114、116，直到某个其他人举起他或她的手为止。

动作分割和识别模块

按照示例性的实施例，在其中在较长一段时间内发生连续动作的系统中，可能必须鉴别(或分割出)不同的有意义动作，忽略无意义的动作，并执行各个有意义动作的所要求的任务。按照示例性的实施例，这些任务可由动作分割和识别模块(或者手势分割和识别模块)230执行。图5表示分成用不同颜色(或背景)标记的不同手势的一系列帧500的例示。

动作分割可由3个步骤组成：第一步骤可以应用最大均值差异(Maximum MeanDiscrepancy，MMD)标准来检测连续手势内的变化点作为手势过渡的初始估计剪辑(cut)；第二步骤利用运动学约束来把初始估计剪辑修正到准确的手势过渡位置；以及最后，第三步，可以利用概率密度估计来估计两个剪辑之间的手运动，以消除无意的移动和非手势片段。

一旦执行了分割，就可以识别有意义的手势。按照示例性的实施例，可以利用由执行相同的一组有意义的手势的几个动作者组成的训练组来提取特征和训练支持向量机(Support Vector Machine，SVM分类器)。来自所提取的片段的特征随后可被提供给SVM以便识别动作。

供指向的屏幕上的初始区域估计

图6表示按照利用目标区域映射和估计模块240的示例性的实施例的利用虚拟屏幕映射600的屏幕122上的指向位置的估计。在检测到指向动作之后，利用指向手(手腕)和对应肩部的三维(3D)坐标，可从骨骼数据获得用户正在指向的位置的初始估计。例如，按照示例性的实施例，深度坐标可以用毫米(mm)表示。例如，令手的3D坐标为(x_h，y_h，z_h)。应首先从肩部和手的深度坐标中减去相机相对于屏幕或虚拟屏幕的深度偏移。

前一帧和当前帧中的肩部点的欧几里德距离可以用作正确性的度量。在自遮挡的情况下，肩部点会不精确并必须被变换成前一帧的位置。

可以人为中心、平行于人并且在距人一臂之长的地方创建固定大小的虚拟屏幕610。指向线620被投影到虚拟屏幕610上。

随后相对于实际投影屏幕或墙壁122比例缩放和重新定位虚拟点612，以获得指向614的真实坐标。按照示例性的实施例，指向614的真实坐标可对应于目标616。

对于用下标s和e表示的手(肩部和手腕)的起点和终点，可如下给出指向线:

假定方向无变化，从骨骼的深度坐标中减去传感器相对于屏幕的深度。随后根据交点，可以计算逻辑像素坐标。

这里，W和H是屏幕的实际高度和宽度，而x_res和y_res是屏幕的空间分辨率。

交互模块

在计算出用户指向的位置的初始估计之后，交互模块250获得来自用户110的实时反馈，从而获得用户意图指向的精确位置。

根据初始估计，为用户突出显示在初始估计周围的屏幕的一部分。用户随后继续移动他的手。可以执行手跟踪以获得手的运动的方向。根据该运动，持续修改屏幕上的突出显示的区域。在每次迭代中，突出显示的区域根据运动的方向，以固定系数扩大或缩小或位移。按照示例性的实施例，这种操作可继续，直到用户110放下他的手示意取消操作或者区域缩小到单一点(这表示已到达所要求的位置)为止。

按照示例性的实施例，交互模块250可如下起作用：

给定在指向识别之时由系统最初估计的实际屏幕上的点(x_s,y_s)614，构成以c为中心，并具有预置(或规定)的半径r的圆：

(x-x_s)²+(y-y_s)²=r²

如果人无显著运动地继续指向，那么所述圆朝着相同的中心，按固定速率缩小。

r=αr，α＜1

如果人在特定方向上移动他的手，那么系统检测人的手是仍然在所述圆内，还是已在所述圆之外。

如果人的手在所述圆内，那么圆停止缩小并按与运动的速度v_m成比例的速率，沿运动方向d位移。

c＝c+β·v_m·d

如果人的手在圆之外，那么圆按与运动的速度成比例的速率扩大并且中心按与运动的速度成比例的速率位移。

C＝C+β·v_m·d

r＝γ·v_m·r，γ＞1

有利的是，例如在用户进行指向并且手摆动和/或移动的情况下，这里公开的系统和方法能够避免点或区域的抖动或连续移动。

如果任务涉及多个目标之中的目标选择，那么如下所述，沿着相同的线进行交互目标选择。

交互目标选择

图7是按照示例性的实施例的交互目标选择700的流程图。在通过指向在屏幕上的已知数字的目标之中选择单一目标的情形下，利用相同的系统进行交互目标选择。如图7中所示，在步骤710，特征提取模块210和操作者鉴别模块220能够检测发言者和/或用户110，和/或鉴别操作者。

在步骤720，手势识别模块230鉴别指向手势。在步骤730、732中，创建虚拟屏幕(730)，其中找出指向线与虚拟屏幕的交点(732)。在步骤740中，利用指向方向和屏幕映射，在屏幕上鉴别出初始的一组目标。在步骤750中，找出和/或鉴别出位于在围绕所计算点的固定半径的圆内的所有目标。在步骤760中，可确定是否存在至少一个目标。在步骤770中，确定目标的数目是否等于1。如果在步骤770，目标的数目等于1，那么选择该目标。如果在步骤770中，目标的数目不等于1，那么过程进入步骤774。如果步骤760中的目标的数目为0，那么过程进入步骤762，在步骤762中指向操作被取消。

如果在步骤774中确定用户110仍然在进行指向，那么在步骤776中算法继续跟踪进行指向的手并且在步骤778中可判定手是否仍然在圆内。在步骤782中，如果手未显示显著的运动，那么圆继续按固定的步幅缩小以减小所选目标的数目。如果手在指定的圆内移动，那么圆的中心沿手的运动方向移动。所鉴别出的一组目标被更新以排除已移动到圆之外的那些目标，并包括在圆之内的那些目标。或者在步骤780中，如果手的位置在圆之外，那么圆开始扩大以容纳手并沿手的方向移动。目标被更新以包括在当前圆内的所有目标。扩大和缩小过程继续，直到只剩下一个目标(步骤770)或者人取消该操作(步骤762)为止。一旦鉴别出单一目标(即目标的数目等于1)，则在步骤772中选择该单一目标。过程(或算法)可利用屏幕上的目标的已知位置来加快指向过程。在步骤790中，用户的手的移动是对系统的输入，并且在屏幕上鉴别出的目标可向用户提供反馈。

按照示例性的实施例，例如，对于诸如描画或书写之类的其它操作，系统可利用将由用户进行的任务的知识来加快该过程并提高系统的准确性。例如，如果人在描画几何形状，那么光标可以采取用户试图在突出显示的区域内描画的最近似的几何形状的路径。如果用户试图按已知的笔迹书写，那么系统可检测该笔迹并按照帮助用户字迹清楚地书写的方式智能地移动光标。

对于真实对象的交互目标选择

按照示例性的实施例，在通过指向在已知数目的对象810之中选择单一真实对象811的情形下，可以利用如这里公开的系统进行交互目标选择800。这种情形下，例如，如图8A-8C中所示，可以使用针对3D空间中的指向的初始区域估计的类似过程。

如前所述，手势分割和识别模块230可鉴别指向手势。在空间中可以鉴别初始的一组真实对象810，例如消费品812，并且操作者(或用户)110将会收到反馈以了解哪些对象810在初始估计中。如果只存在一个对象，那么可以通过指向该对象810来选择对象810。

在多个靠近的对象810的情况下，例如如图8A中所示，初始估计是在中心位于初始估计点的假想圆820内的一组对象810。每个对象具有表示该对象是否是供选择的候选物的指示器814。例如，如图8A中所示，通过它们的指示器变成例如红色，可以选择在初始估计的圆内的候选对象810上的指示器814，并且其中系统的指向动作向操作者110提供基于操作者的指向动作的初始估计。

过程(或算法)可继续跟踪进行指向的手，并修改所述一组选择出的对象810。例如，如果操作者110的手未显示显著的运动，那么可能对象的数目按固定步幅继续减少。如果手在指定的圆内移动，那么圆的中心沿手的运动方向移动。如果手的位置在圆之外，那么圆开始扩大以容纳手并沿手的方向移动。按照示例性的实施例，例如，对象指示器814可被更新以包括在当前圆内的所有对象810，并排除不在当前圆内的那些对象。如图8B和8C中所示，扩大和缩小过程继续，直到只剩下一个目标(或对象)或者人取消该操作为止。一旦鉴别出单一对象811(图8C)，就选择该对象811，并且指示器向操作者(或用户)110提供关于他的最终选择的反馈。

图8B表示假想圆820根据手的移动而缩小的例子。按照示例性的实施例，例如，如果操作者110在假想圆820内轻微移动他或她的手，那么假想圆将缩小，并且系统继续跟踪操作者110的手的移动。指示器814可变成例如绿色，以根据系统的检测和操作者的指向动作向操作者110提供反馈。

如图8C中所示，例如，如果在指示器814例如已把颜色变成例如绿色之后，操作者110继续指向单个对象811，那么系统将确定操作者110对对象811的选择感到满意。此时，其它指示器812可被关闭，所选对象811的指示器可保持例如绿色。

按照示例性的实施例，例如，可如上所述进行具有大量货架和产品的主流超市中的购物。每个产品可具有作为选择指示器的LED。当消费者指向一个位置时，在以初始指向估计为中心的假想圆内的LED可被开启。可以跟踪消费者的手以更新所选择的对象。一旦鉴别出单个产品，除了所选出的产品(或消费品)外的所有LED都将被关闭，并向消费者显示最终的选择。指示器系统不限于对于产品的各个位置使用LED。

按照示例性的实施例，公开一种包含计算机程序的非临时性计算机可读介质，所述计算机程序保存用于识别与用户界面实时交互的手势的计算机可读代码，所述程序由计算机执行以使计算机进行包含以下步骤的过程：捕捉被摄物体上的三维(3D)数据；从3D数据检测被摄物体的指向动作；根据指向动作，计算目标区域的初始估计，目标区域的初始估计具有绕中心点的规定的半径；和跟踪被摄物体的指向动作并进行一系列的迭代，在所述一系列迭代中，目标区域的规定的半径根据检测出的指向动作而变化。

计算机可读记录介质可以是磁记录介质、磁光记录介质或者未来开发的任何其它记录介质，所有这些记录介质都可被认为按照完全相同的方式适用于本发明。这些介质的复制品，包括一次和二次复制产品及其它复制产品被认为当然等同于上述介质。此外，即使本发明的实施例是软件和硬件的组合，它也根本不偏离本发明的原理。可把其软件部分预先写在记录介质上，并在操作中按要求读取所述软件部分从而实现本发明。

对本领域的技术人员来说，显然可对本发明的结构作出各种修改和变化，而不脱离本发明的范围或精神。鉴于上面所述，本发明覆盖本发明的各种修改和变化，只要它们落入以下权利要求及其等同物的范围之内。

Claims

1.一种识别用于与用户界面实时交互的手势的方法，包括：

捕捉被摄物体上的三维数据；

从三维数据检测被摄物体的指向动作；

计算位于由所述指向动作所指向的屏幕上的位置的目标区域的初始估计，该目标区域的初始估计具有绕中心点的规定的半径；以及

跟踪被摄物体的指向动作，突出显示所述目标区域，执行被摄物体的手跟踪以获得手的运动的方向，持续修改屏幕上的所述目标区域，并进行一系列的迭代直到所述目标区域到达所要求的位置为止，在所述一系列迭代中目标区域根据检测出的指向动作的方向而以固定系数扩大或缩小或位移。

2.按照权利要求1所述的方法，包括：

如果由指向动作所指向的屏幕上的位置在规定的半径之内，那么减小目标区域的规定的半径；以及

如果由被摄物体的指向动作所指向的屏幕上的位置在规定的半径之外，那么扩大规定的半径。

3.按照权利要求1所述的方法，包括：

当检测到由用户的指向动作所指向的屏幕上的位置的移动在规定的半径之内并且检测到由指向动作所指向的屏幕上的位置相对于所述中心点的变化时，移动所述中心点。

4.按照权利要求1所述的方法，包括：

按固定速率，按与由被摄物体的指向动作所指向的屏幕上的位置的运动速度成比例的速率减小和扩大规定的半径。

5.按照权利要求1所述的方法，包括：

选择目标区域内的目标，目标的选择包括：

确定是否一个或多个目标在规定的半径之内；以及

如果存在至少一个目标，那么确定目标的数目是等于1还是大于1，并且其中如果目标的数目等于1，那么选择目标，并且如果目标的数目大于1，那么减小规定的半径以减小规定的半径内的目标的数目，直到留下单一目标为止。

6.一种识别用于与用户界面实时交互的手势的系统，包括：

用于捕捉被摄物体上的三维数据的运动和深度传感器；以及

处理器，所述处理器被配置成：

捕捉被摄物体上的三维数据；

从三维数据检测被摄物体的指向动作；

计算位于所述指向动作所指向的屏幕上的位置的目标区域的初始估计，该目标区域的初始估计具有绕中心点的规定的半径；以及

7.按照权利要求6所述的系统，其中处理器被配置成：

8.按照权利要求6所述的系统，其中处理器被配置成：

9.按照权利要求6所述的系统，其中处理器被配置成：

10.按照权利要求6所述的系统，其中处理器被配置成：

选择目标区域内的目标，目标的选择包括：

判定是否一个或多个目标在规定的半径之内；以及

如果存在至少一个目标，那么判定目标的数目是等于1还是大于1，其中如果目标的数目等于1，那么选择目标，如果目标的数目大于1，那么减小规定的半径以减小规定的半径内的目标的数目，直到留下单一目标为止。

11.一种识别用于与用户界面实时交互的手势的方法，包括：

捕捉被摄物体上的三维数据；

从三维数据检测对象的指向动作以开始指向操作；

确定由指向动作所指向的在实际屏幕上的交点；

确定实际屏幕上的一个或多个目标是否在围绕实际屏幕上的所确定的交点的规定的半径之内；以及

如果存在至少一个目标，那么确定目标的数目是等于1还是大于1，其中如果目标的数目等于1，那么选择目标，和如果目标的数目大于1，那么减小规定的半径以减小在规定的半径内的目标的数目，直到留下单一目标为止。

12.按照权利要求11所述的方法，包括：

如果被摄物体的指向动作在虚拟屏幕上的交点发生变化，那么移动所述交点；以及

通过排除在规定的半径之外的目标和包括在规定的半径内的目标，更新在规定的半径内的目标的数目。

13.按照权利要求11所述的方法，包括：

如果由被摄物体的指向动作所指向的在实际屏幕上的交点在规定的半径之外，那么扩大规定的半径；

更新在规定的半径内的目标的数目以包括在扩大后的规定的半径内的目标；以及

减小扩大后的规定的半径和扩大规定的半径，直到在规定的半径内只鉴别出一个目标为止。

14.按照权利要求11所述的方法，包括：

利用运动和深度传感器捕捉三维数据；以及

其中实际屏幕是投影屏幕或视频屏幕。

15.按照权利要求14所述的方法，其中实际屏幕是多个选择指示器，所述多个选择指示器中的每一个对应于一件消费品。