CN103999018A - 响应三维显示对象的用户选择姿势的方法和系统 - Google Patents

响应三维显示对象的用户选择姿势的方法和系统 Download PDF

Info

Publication number
CN103999018A
CN103999018A CN201180075374.4A CN201180075374A CN103999018A CN 103999018 A CN103999018 A CN 103999018A CN 201180075374 A CN201180075374 A CN 201180075374A CN 103999018 A CN103999018 A CN 103999018A
Authority
CN
China
Prior art keywords
user
posture
coordinate
distance
select
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201180075374.4A
Other languages
English (en)
Other versions
CN103999018B (zh
Inventor
宋建平
杜琳
宋文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
International Digital Madison Patent Holding SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN103999018A publication Critical patent/CN103999018A/zh
Application granted granted Critical
Publication of CN103999018B publication Critical patent/CN103999018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements

Abstract

本发明涉及一种用于对以三维显示的对象的用户选择姿势进行响应的方法。该方法包含:使用显示器显示至少一个对象;使用图像捕获设备来对所捕获的用户选择姿势进行检测;基于图像捕获设备的输出,随着用户眼睛位置而变地并且随着用户姿势和显示器之间的距离而变地,来确定所述用户是否选择所述至少一个对象之中的对象。

Description

响应三维显示对象的用户选择姿势的方法和系统
技术领域
本发明涉及用于对用户在3D系统中的点击操作进行响应的一种方法和一种系统。更具体地,本发明涉及使用响应概率值来对用户在3D系统中的点击操作进行响应的一种容错方法和系统。
背景技术
在20世纪90年代早期那样久远的时候,用户通过诸如微软的MS-DOSTM操作系统和UNIX多种变形中的任意一种之类的字符用户界面(CUI)来与大多数计算机进行交互。基于文字的界面为了提供完整的功能通常包含晦涩的命令和选项,所述命令和选项对于没有经验的用户而言是很不直观的。键盘如果不是唯一的设备,也曾是用户向计算机发出命令的最重要的设备。
大多数当前计算机系统使用二维图形用户界面。这些图形用户界面(GUI)通常使用窗口以管理信息并且使用按钮以录入用户的输入。该新范例连同鼠标的引入一起变革了人们使用计算机的方式。用户不再需要记忆神秘的关键词和命令。
尽管图形用户界面比字符用户界面更为直观和便利,但是用户仍然受诸如键盘和鼠标之类的设备的束缚。触摸屏幕是使得用户可以直接与所显示的内容进行直接交互而无需任何需要手持的中间设备的关键设备。然而,用户仍然需要触摸屏幕,这限制用户的活动。
最近,提升感知现实(perceptual reality)已经成为驱动下一代显示器的主要力量之一。这些显示器使用三维(3D)图形用户界面,以提供更为直观的交互。相应地设计多种概念性的3D输入设备,使得用户可以便利地与计算机进行交流。然而,由于3D空间的复杂性,这些3D输入设备通常并不如传统的诸如鼠标之类的2D输入设备便利。此外,用户仍然受束缚于使用一些输入设备,该事实极大地降低了交互的性质。
请注意,语音和姿势(gesture)是人之间交流最常使用的方式。随着3D用户界面,例如虚拟现实和增强现实的发展,存在对于语音和姿势识别系统的真实需求,所述语音和姿势识别系统使得用户能够便利地并且自然地与计算机进行交互。尽管语音识别系统正在应用到计算机中,但是对于典型的家庭或商业用户,当用户除了他们的手之外并不依赖任何设备时,姿势识别系统在提供鲁棒的、准确的并且实时的操作上遇到很大的困难。在2D图形用户界面中,尽管可以通过简单的鼠标设备来便利地实施点击命令,但点击命令可能是最重要的操作。可惜的是,由于很难准确地获取手指相对于用户正在观看的3D用户界面的空间位置,点击操作可能是在姿势识别系统中最难的操作。
在具有姿势识别系统的3D用户界面中,很难准确地获取手指相对于用户正在观看的按钮的3D位置的空间位置。因此,可能是在传统计算机中最重要操作的点击操作很难被实施。本发明提供解决该问题的一种方法和一种系统。
作为相关领域,GB2462709A公开一种用于确定复合姿势输入的方法。
发明内容
根据本发明的一个方面,提供一种用于对三维显示对象的用户选择姿势进行响应的方法。所述方法包含:使用显示设备显示至少一个对象,对使用图像捕获设备所捕获的用户选择姿势进行检测以及随着用户眼睛位置而变地并且随着用户姿势和显示设备之间的距离而变地,基于图像捕获设备的输出来确定所述用户是否选择在所述至少一个对象中的对象。
根据本发明的另一方面,提供一种用于对三维显示对象的用户选择姿势进行响应的系统。所述系统包含:用于使用显示设备显示至少一个对象的部件,对使用图像捕获设备所捕获的用户选择姿势进行检测的部件,以及随着用户眼睛位置而变地并且随着用户姿势和显示设备之间的距离而变地,基于图像捕获设备的输出来确定所述用户是否选择在所述至少一个对象中的对象的部件。
附图说明
从下面结合附图的描述中,本发明的这些和其他方面、特征和优点将会变得显而易见,其中,
图1是示出根据本发明的交互系统的基本计算机终端实施例的示例图;
图2是示出在图1的示例性的交互系统中所使用的一组姿势的示例的示例图;
图3是示出双眼视觉(binocular vision)的几何模型的示例图;
图4是示出两个相机图像上的场景点(scene point)的透视投影的几何表示的示例图;
图5是示出在屏幕坐标系和3D真实世界坐标系之间的关系的示例图;
图6是示出如何通过屏幕坐标和眼睛位置来计算3D真实世界坐标的示例图;
图7是示出用于根据本发明实施例对在3D真实世界坐标系中的用户点击操作进行响应的方法的流程图;
图8是根据本发明实施例的计算机设备的示例性方框图。
具体实施方式
在下面的描述中,将描述本发明的实施例的不同方面。为了解释的目的,陈述特定的配置和细节,以提供深入的理解。然而,对于本领域技术人员而言也明显的是,不具有在此呈现的特定细节也可以实现本发明。
本实施例公开一种对用户在3D系统中的点击姿势进行响应的方法。该方法定义了显示的按钮应当对用户点击姿势进行响应的概率值。根据当触发点击时手指的位置、依赖于用户眼睛位置的按钮位置和按钮大小来计算概率值。具有最高点击概率的按钮将被激活,作为对用户点击操作的响应。
图1图示根据本发明实施例的计算机交互系统的基本配置。两个相机10和11分别位于监视器12(例如60英寸对角屏幕尺寸的TV)的上表面的每一侧。相机连接至PC计算机13(相机可以集成至监视器中)。用户14通过佩戴一副红蓝眼镜(red-blue glasses)15、快门眼镜或其他类型的眼镜或者如果监视器12是自动立体显示器则无需佩戴任何眼镜,来观看监视器12上显示的立体内容。
在操作中,用户14通过在相机10和11的三维视场内做姿势来控制计算机13上运行的一个或多个应用。使用相机10和11来捕获姿势,并将姿势转换成视频信号。计算机13然后使用任何被编程以便对用户14做出的特定手势进行检测和识别的软件来处理视频信号。应用对控制信号进行响应并且将结果显示在监视器12上。
系统可以容易地运行在配备有廉价相机的标准家用或商业计算机上,并且因此对于大多数用户而言比其他已知系统更容易获得。此外,该系统可以使用于需要3D空间交互的任何类型的计算机应用。示例应用包含3D游戏和3D TV。
尽管图1结合传统的独立计算机13示出了交互系统的操作,但是该系统当然可以应用于其他类型的信息处理设备,例如膝上型便携电脑、工作站、平板电脑、电视、机顶盒等。如在此使用的术语“计算机”意欲包含这些设备和其他基于处理器的设备。
图2示出在示例性实施例中由交互系统所识别的一组姿势。所述系统使用识别技术(例如以手的边界分析为基础的那些识别技术)和跟踪技术以识别姿势。所识别的姿势可以被映射至诸如“点击”、“关门”、“向左滚动”、“向右翻”等的应用命令。容易识别诸如推、左挥、右挥之类的姿势。点击姿势也容易设别,但是比较难识别点击点相对于用户观看的3D用户界面的准确位置。
理论上,在双相机系统中,若给定相机的焦距和两个相机之间的距离,则可以通过在两个相机上的点的图像的位置来获得任何空间点的位置。然而,对于在场景中的相同对象,如果用户观看在不同位置上的立体内容,则用户可以认为对象位置在空间上是不同的。在图2中,使用右手来图示姿势,但是我们可以替代地使用左手或身体其它部分。
参考图3,使用针对远距点在屏幕平面上的左视图和右视图,来示出双眼视觉的几何模型。如在图3中所示,点31和30分别是在左视图和右视图中相同场景点的图像点。换言之,点31和30是在场景中的3D点在左屏幕平面和右屏幕平面上的投影点。当用户站在其中点34和35分别是左眼和右眼的位置时,用户将认为场景点位于点32的位置处,尽管左眼和右眼分别从点31和30处看到它。当用户站在其中点36和37分别是左眼和右眼的另一位置时,他将认为场景点位于点33的位置处。因此,对于相同的场景对象,用户将发现,所述场景对象的空间位置已经随着用户位置的变化而变化。当用户试图使用其手来“点击”对象时,他将在不同的空间位置处点击。结果,姿势识别系统将认为用户在不同的位置进行点击。计算机将识别出,用户正在在应用的不同项目上点击,并且因此将向应用发出不正确的命令。
解决该问题的常见方法是,系统显示“虚拟手”以向用户告知系统认为用户的手所处的位置。明显地,虚拟手将损坏裸手交互的逼真度(naturalness)。
另一解决该问题的常见方法是,用户每次改变其位置时,他将请求姿势识别系统重新校正它的坐标系,使得系统可以将用户的点击点正确地映射至界面对象(interface object)处。有时这是非常不方便的。在很多情况下,用户仅仅轻微地改变身体的姿态,而不改变用户的位置,并且在更多的情况下,用户仅仅改变其头部的位置,而他并没有意识到该改变。在这些情况下,每次用户眼睛的位置改变时都重新校正坐标系是不现实的。
此外,即使用户不改变其眼睛的位置,他也经常发现他不能总是准确地点击到对象上,尤其是当他点击相对小的对象时。原因是,在空间中点击是困难的。用户可能不是足够灵巧得能够精确地控制其食指的方向和速度,他的手可能颤抖,或者他的手指或手可能隐藏对象。姿势识别系统的准确性也影响点击命令的正确性。例如,手指可能过快地移动,而无法由相机跟踪系统准确地识别,尤其当用户远离相机时。
因此,存在强烈的需求,即,交互系统是容错的以使得用户眼睛位置的小变化和姿势识别系统的不准确性不会频繁地导致不正确的命令。也就是说,即使系统检测到用户没有在任何对象上点击,在一些情况下,系统对用户点击姿势进行响应以确定对象的激活也是合理的。明显地,点击点越靠近对象,对象对点击(例如激活)姿势做出响应的概率越高。
此外,明显的是,用户至相机的距离极大地影响姿势识别系统的准确性。如果用户远离相机,那么系统倾向于不正确地识别点击点。另一方面,按钮的大小或更一般地在屏幕上待激活的对象的大小也对正确性具有较大的影响。较大的对象更容易被用户点击。
因此,基于点击点与相机的距离、点击点与对象的距离和对象的大小来确定对象的响应度。
图4图示在相机2D图像坐标系(430和431)和3D真实世界坐标系400之间的关系。更具体地,3D真实世界坐标系400的原点被定义在在左侧相机节点A410和右侧相机节点B411之间的线的中心。分别用点P1(X′P1,Y′P1)440和P2(X″P2,Y″P2)441,来表示3D场景点P(XP,YP,ZP)460在左图像和右图像上的透视投影。点P1和P2的视差被定义为
dXP=X″P2-X′P1   等式(1)
dYP=Y″P2-Y′P1   等式(2)。
在实践中,以这样的方式布置相机,使得视差之一的值始终被认为是零。不失一般性地,在本发明中,图1中的两个相机10和11被水平地布置。因此,dYP=0。假设相机10和11是相同的并且因此具有相同的焦距£450。左图像和右图像之间的距离是两个相机的基线b420。
分别用点C(XP,O,ZP)461和D(XP,O,O)462,来表示3D场景点P(XP,YP,ZP)460在XZ平面和X轴上的透视投影。观察图4,点P1和P2之间的距离是b-dxp。观察三角形PAB,我们可以得到:
b - d XP b = PP 1 PA    等式(3)
观察三角形PAC,我们可以得到:
Y ′ P 1 Y P = P 1 A PA = 1 - PP 1 PA    等式(4)
观察三角形PDC,我们可以得到:
Y ′ P 1 Y P = f Z P     等式(5)
观察三角形ACD,我们可以得到:
b 2 - X P + X ′ P 1 b 2 - X P = Z P - f Z P       等式(6)
根据等式(3)和(4),我们得到:
b - d XP b = 1 - Y ′ P 1 Y P     等式(7)
因此,我们得到
Y P = b d XP Y ′ P 1    等式(8)
根据等式(5)和等式(8),我们得到:
Z P = b d XP f       等式(9)
根据等式(6)和(9),我们得到:
X P = b 2 + b d XP X ′ P 1    等式(10)
从等式(8)、(9)和(10)中,可以根据场景点在左和右图像中的2D图像坐标来计算场景点P的3D真实世界坐标(XP,YP,ZP)。
点击点至相机的距离是点击点在3D真实世界坐标系中的Z坐标值,其可以通过点击点在左图像和右图像中的2D图像坐标来计算。
图5图示在屏幕坐标系和3D真实世界坐标系之间的关系,以解释如何转换屏幕系统的坐标和3D真实世界坐标系的坐标。假设屏幕坐标系的原点Q的坐标在3D真实世界坐标系中是(XQ,YQ,ZQ)(这对于系统是已知的)。屏幕点P具有屏幕坐标(a,b)。那么,点P在3D真实世界坐标系中的坐标是P(XQ+a,YQ+b,ZQ)。因此,若给定屏幕坐标,我们可以将其转换至3D真实世界坐标。
接下来,图6图示以解释如何通过屏幕坐标和眼睛位置来计算3D真实世界坐标。在图6中,所有给定的坐标都是3D真实世界坐标。合理的是,假设用户左眼和右眼的Y和Z坐标分别是相同的。根据等式(8)、(9)和(10),可以通过眼睛在左侧和右侧相机图像中的图像坐标来计算用户左眼坐标EL(XEL,YE,ZE)510和右眼坐标ER(XER,YE,ZE)511。如上文中所描述的,可以通过其屏幕坐标来计算对象在左视图的坐标QL(XQL,YQ,ZQ)520和在右视图的坐标QR(XQR,YQ,ZQ)521。用户将感觉对象处于位置P(XP,YP,ZP)500处。
观察三角形ABD和FGD,我们可以得到:
AD FD = AB FG = X ER - X EL X QL - X QR    等式(11)
观察三角形FDE和FAC,我们可以得到:
AD FD = CE FE = Z E - Z P Z P - Z Q     等式(12)
根据等式(11)和(12),我们得到:
X ER - X EL X QL - X QR = Z E - Z P Z P - Z Q
因此
Z P = ( X QL - X QR ) Z E + ( X ER - X EL ) Z Q ( X ER - X EL ) + ( X QL - X QR )     等式(13)
观察三角形FDE和FAC,我们得到
DE AC = FD FA    等式(14)
因此
DE AC - DE = FD FA - FD = FD AD    等式(15)
根据等式(11)和(15),我们得到
DE AC - DE = FG AB
也就是,
X P - X QR ( X ER - X QR ) - ( X P - X QR ) = X QL - X QR X ER - X EL
因此,我们得到
X P = X QL X ER - X QR X EL ( X ER - X EL ) + ( X QL - X QR )    等式(16)
相似地,观察梯形QRFDP和QRFAER,我们得到:
PD - Q R F E R A - Q R F = FD FA    等式(17)
因此,
PD - Q R F ( E R A - Q R F ) - ( PD - Q R F ) = FD FA - FD = FD AD    等式(18)
根据等式(11)和(18),我们得到:
PD - Q R F E R A - PD = FG AB
也就是,
Y P - Y Q Y E - Y P = X QL - X QR X ER - X EL
因此,
Y P = Y E ( X QL - X QR ) + Y Q ( X ER - X EL ) ( X ER - X EL ) + ( X QL - X QR )    等式(19)
从等式(13)、(16)和(19)中,可以通过对象在左和右视图中的屏幕坐标和用户左眼和右眼的位置来计算对象的3D真实世界坐标。
如上文中所描述的,根据点击点到相机的距离d、点击点到对象的距离C和对象的大小S,来确定对象的响应度。
可以通过点击点和对象在3D真实世界坐标系中的坐标来计算点击点到对象的距离C。假设点击点在3D真实世界坐标系中的坐标是(X1,Y1,Z1),所述坐标是通过点击点在左和右图像中的2D图像坐标计算的,并且假设对象在3D真实世界坐标系中的坐标是(X2,Y2,Z2),所述坐标是通过对象在左和右视图中的屏幕坐标以及用户左眼和右眼的3D真实世界坐标计算的。点击点(X1,Y1,Z1)到对象(X2,Y2,Z2)的距离可以被计算为:
c = ( x 1 - x 2 ) 2 + ( y 1 - y 2 ) 2 + ( z 1 - z 2 ) 2     等式(20)
点击点至相机的距离d是点击点在3D真实世界坐标系中的Z坐标值,其可以通过点击点在左图像和右图像中的2D图像坐标来计算。如在图4中图示的,3D真实世界坐标系的坐标轴X恰好是连接两个相机的线,并且原点是线的中心。因此,两个相机坐标系的X-Y平面与3D真实世界坐标系的X-Y平面重叠。结果,点击点到任何相机坐标系的X-Y平面的距离是点击点在3D真实世界坐标系中的Z坐标值。应当注意到,“d”的精确定义是“点击点到3D真实世界坐标系的X-Y平面的距离”或者“点击点到任何相机坐标系的X-Y平面的距离”。假设点击点在3D真实世界坐标系中的坐标是(X1,Y1,Z1),由于点击点在3D真实世界坐标系中的Z坐标值是Z1,那么点击点(X1,Y1,Z1)到相机的距离可以被计算为:
d=z1   等式(21)
一旦对象的3D真实世界坐标被计算,则可以计算对象的大小S。在计算机图形学中,包围盒(bouding box)是具有最小度量(面积、体积或在更高维度的超体积)的、完全包含对象的密闭盒。在本发明中,对象大小是对象的包围盒的度量的普通定义。在大多数情况下,“s”被定义为对象的包围盒的长度、宽度和高度中的最大者。
基于上述的点击点到相机的距离d、点击点到对象的距离C和对象的大小S,来对对象应当响应用户点击姿势的响应概率值进行定义。一般原则是,点击点越远离相机,或者点击点越接近对象,或者对象越小,则对象的响应概率就越大。如果点击点在对象的体积内,则该对象的响应概率是1并且该对象将肯定地响应点击姿势。
为了示例响应概率的计算,与点击点到相机的距离d有关的概率可以被计算为:
P ( d ) = exp ( - a 3 a 1 - a 2 ) d ≤ a 1 exp ( - a 3 d - a 2 ) d > a 1    等式(22)
并且与点击点到对象的距离C有关的概率可以被计算为:
P ( c ) = 0 c > a 5 exp ( - a 4 c ) c ≤ a 5    等式(23)
并且与对象的大小S有关的概率可以被计算为:
P ( s ) = a 6 s > a 8 exp ( - a 7 s ) s ≤ a 8    等式(24)
最终响应概率是上述三个概率的乘积。
P=P(d)P(c)P(s)
在此,a1、a2、a3、a4、a5、a6、a7、a8是常数值。
下面是关于a1、a2、a3、a4、a5、a6、a7、a8的实施例。
应当注意到,参数依赖于显示设备的类型,显示设备自身对在屏幕和用户之间的平均距离具有影响。例如,如果显示设备是TV系统,则在屏幕和用户之间的平均距离比在计算机系统或便携式游戏系统中的平均距离变得更长。
对于P(d),原则是,点击点越远离相机,对象的响应概率越大。最大的概率是1。当对象靠近用户眼睛时,用户可以容易地点击在对象上。对于特定的对象,用户离相机越近,对象距离用户的眼睛越近。因此,如果用户距离相机足够得近,但是他没有点击在对象上,他确实非常可能不想点击该对象。因此,当d小于特定值时并且系统检测到用户没有点击到对象上时,对象的响应概率将是极小的。
例如,在TV系统中,可以设计系统,使得当d是1米或更小时响应概率P(d)将是0.1,而当d是8米时P(d)将是0.99。也就是,a1=1,并且
当d=1时,
exp ( 1 - a 3 1 - a 2 ) = 0.1 , 并且
当d=8时,
exp ( 1 a 3 8 - a 2 ) = 0.99 .
对于这两个等式,a2和a3被计算为a2=0.9693和a3=0.0707。
然而,在计算机系统中,用户将更接近屏幕。因此,可以设计系统,使得当d是20厘米或更小时响应概率P(d)将是0.1,而当d是2米时响应概率P(d)将是0.99。也就是,a1=0.2,并且
当d=0.2时,
exp ( - a 2 0.2 - a 2 ) = 0.1 , 并且
当d=2时,
exp ( - a 3 2 - a 2 ) = 0.99
然后,a2和a3被计算为a1=0.2、a2=0.1921和a3=0.0182。
对于P(c),如果用户在距离对象2厘米的位置处点击,则响应概率应当接近0.01。然后,可以设计系统,使得当c是2厘米或者更大时,响应概率P(c)是0.01。也就是,
a5=0.02,并且
exp(-a4×0.02)=0.01
然后,a5和a4被计算为a5=0.02和a4=230.2585。
相似地,对于P(s),可以设计系统,使得当对象的大小s是5厘米或者更大时,响应概率P(s)为0.01。也就是,
a6=0.01,并且
当a8=0.05时,
exp(-a7×0.05)=0.01
然后,a6、a7和a8被计算为a6=0.01、a7=92.1034和a8=0.05。
在该实施例中,当检测到点击操作时,将计算所有对象的响应概率。具有最大响应概率的对象将对用户点击操作进行响应。
图7是示出根据本发明实施例对3D真实世界坐标系中的用户点击操作进行响应的方法的流程图。下面参考图1、4、5和6来描述所述方法。
在步骤701,多个可选择对象显示在屏幕上。例如如图1所示,用户可以佩戴眼镜或者不佩戴眼镜地识别在3D真实世界坐标系中的每个可选择对象。然后用户点击一个可选择对象,以便实现用户想要做的任务。
在步骤702,使用设置在屏幕上的两个相机来捕获用户的点击操作,并且将点击操作转换为视频信号。然后计算机13使用任何被编程以便对用户的点击操作进行检测和识别的软件来处理视频信号。
在步骤703,如图4中所示,计算机13计算用户点击操作的位置的3D坐标。这些坐标根据场景点在左和右图像中的2D图像坐标来计算。
在步骤704,如图4所示,通过计算机13来计算用户眼睛位置的3D坐标。通过两个相机10和11来检测用户眼睛的位置。通过相机10和11所生成的视频信号捕获用户的眼睛位置。根据场景点在左和右图像中的2D图像坐标来计算3D坐标。
在步骤705,如图6所示,计算机13根据用户眼睛的位置计算所有在屏幕上的可选择对象的位置的3D坐标。
在步骤706,计算机计算点击点到相机的距离、点击点到每个可选择对象的距离和每个可选择对象的大小。
在步骤707,计算机13使用点击点到相机的距离、点击点到每个可选择对象的距离和每个可选择对象的大小,来计算对针对每个可选择对象的点击操作进行响应的概率值。
在步骤708,计算机13选择具有最大概率值的对象。
在步骤709,计算机13对具有最大概率值的选择对象的点击操作进行响应。因此,即使用户没有准确地点击在其想要点击的对象上,对象也可以对用户点击操作进行响应。
图8图示根据本发明的实施例的系统810的示例性方框图。系统810可以是3D电视机、计算机系统、平板电脑、便携式游戏机、智能手机等。系统810包含CPU(中央处理单元)811、图像捕获设备812、存储装置813、显示器814和用户输入模块815。如图8所述,诸如RAM(随机存取存储器)之类的存储器816可以连接至CPU811。
图像捕获设备812是用于捕获用户点击操作的单元。然后CPU811处理用户点击操作的视频信号,以便对用户的点击操作进行检测和识别。图像捕获设备812也捕获用户的眼睛,并且然后CPU811计算用户眼睛的位置。
显示器814被配置为向系统810的用户视觉呈现文字、图像、视频和任何其他内容。显示器814可以应用任何与3D内容相适应的类型。
存储装置813被配置为存储用于CPU811的软件程序和数据,以驱动和操作图像捕获设备812,并且以如上所说明的那样对检测和计算进行处理。
用户输入模块815可以包含用于输入字符或命令的键或按钮,并且也包含用于对使用键或按钮输入的字符或命令进行识别的功能。根据系统的使用应用,在系统中可以省略用户输入模块815。
根据本发明的实施例,系统是容错的。即使用户没有准确地点击在对象上,如果点击点靠近对象、对象非常小和/或点击点远离相机,对象也可以响应点击。
基于在此的教导,相关领域的普通技术人员可以容易地确定本发明的原理的这些其他特征和优点。要理解的是,可以以硬件、软件、固件、专用处理器或其组合的各种形式,来实现本发明的原理的教导。
最优选地,本发明的原理的教导被实施为硬件和软件的组合。此外,软件可以被实施为有形地实现在程序存储单元上的应用程序。应用程序可以被上载至包含任何合适架构的机器,并且由其执行。优选地,机器被实现在计算机平台上,该计算机平台具有诸如一个或中央处理单元(“CPU”)、随机存取存储器(“RAM”)和输入/输出(“I/O”)接口之类的硬件。计算机平台也可以包含操作系统和微指令代码。在此描述的各种过程和功能可以是可由CPU执行的微指令代码的部分或者是应用程序的部分,或者是其二者的组合。此外,各种其他外围单元可以连接至诸如附加数据存储单元之类的计算机平台。
还要理解的是,由于在附图中描述的一些组成系统部件和方法优选地实施为软件,因此根据本发明的原理被编程的方式,在系统组件或处理功能块之间的实际连接可能不同。给定在此的教导,相关领域的普通技术人员将能够想到本发明的原理的这些和相似的实施或配置。
尽管已经在此参考附图描述了示例性实施例,但要理解的是,本发明的原理并不局限于这些确切的实施例,并且其中相关领域的普通技术人员可以进行各种改变和修改,而不超出本发明的原理的范围或精神。如在所附权利要求中阐明的那样,所有这样的改变和修改意欲包含在本发明的原理的范围之内。

Claims (10)

1.一种用于对以三维显示的对象的用户选择姿势进行响应的方法,包含:
在显示设备上显示至少一个对象(701);
使用图像捕获设备来对所捕获的用户选择姿势进行检测(702);
基于图像捕获设备的输出,随着用户眼睛位置而变地并且随着用户选择姿势的位置和显示设备之间的距离而变地,来确定所述用户是否选择所述至少一个对象之中的对象。
2.根据权利要求1所述的方法,所述确定步骤包含:
计算用户选择姿势的位置的3D坐标(703);
计算用户眼睛位置的3D坐标(704);
随着用户眼睛的位置而变地,计算至少一个对象的位置的3D坐标(705);
计算用户选择姿势的位置到图像捕获设备的距离、用户选择姿势的位置到每个对象的距离和每个对象的大小(706);
使用用户选择姿势的位置到图像捕获设备的距离、用户选择姿势的位置到每个对象的距离和每个对象的大小,来计算针对每个对象对用户选择姿势进行响应的概率值(707);
选择具有最大概率值的一个对象(708);以及
对所述一个对象的用户选择姿势进行响应(709)。
3.根据权利要求2所述的方法,其中,所述图像捕获设备包含水平布置的并且具有相同焦距的两个相机。
4.根据权利要求3所述的方法,其中,基于选择姿势的左和右图像的2D坐标、相机的焦距和相机之间的距离,来计算3D坐标。
5.根据权利要求4所述的方法,其中,基于用户右眼和左眼的位置的3D坐标和对象在左和右视图中的3D坐标,来计算对象位置的3D坐标。
6.一种用于对以三维显示的对象的用户选择姿势进行响应的系统,包含:
用于在显示设备上显示至少一个对象的部件(814);
用于使用图像捕获设备(812)来对所捕获的用户选择姿势进行检测的部件(811);
用于基于图像捕获设备的输出,随着用户眼睛位置而变地并且随着在用户选择姿势的位置和显示设备之间的距离而变地,来确定所述用户是否选择所述至少一个对象之中的对象的部件(811)。
7.根据权利要求6所述的系统,用于确定的部件包含:
用于计算用户选择姿势的位置的3D坐标的部件(811);
用于计算用户眼睛位置的3D坐标的部件(811);
用于随着用户眼睛的位置而变地,计算至少一个对象在屏幕上的位置的3D坐标的部件(811);
用于计算用户选择姿势的位置到图像捕获设备的距离、用户选择姿势的位置到每个对象的距离和每个对象的大小的部件(811);
用于使用用户选择姿势的位置到图像捕获设备的距离、用户选择姿势的位置到每个对象的距离和每个对象的大小,来计算针对每个对象对用户选择操作进行响应的概率值的部件(811);
用于选择具有最大概率值的一个对象的部件(811);以及
用于对所述一个对象的用户选择姿势进行响应的部件(811)。
8.根据权利要求7所述的系统,其中,所述图像捕获设备包含水平布置的并且具有相同焦距的两个相机。
9.根据权利要求8所述的系统,其中,基于选择姿势的左和右图像的2D坐标、相机的焦距和相机之间的距离,来计算3D坐标。
10.根据权利要求9所述的系统,其中,基于用户右眼和左眼的位置的3D坐标和对象在左和右视图中的3D坐标,来计算对象位置的3D坐标。
CN201180075374.4A 2011-12-06 2011-12-06 响应三维显示对象的用户选择姿势的方法和系统 Active CN103999018B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/083552 WO2013082760A1 (en) 2011-12-06 2011-12-06 Method and system for responding to user's selection gesture of object displayed in three dimensions

Publications (2)

Publication Number Publication Date
CN103999018A true CN103999018A (zh) 2014-08-20
CN103999018B CN103999018B (zh) 2016-12-28

Family

ID=48573488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180075374.4A Active CN103999018B (zh) 2011-12-06 2011-12-06 响应三维显示对象的用户选择姿势的方法和系统

Country Status (6)

Country Link
US (1) US20140317576A1 (zh)
EP (1) EP2788839A4 (zh)
JP (1) JP5846662B2 (zh)
KR (1) KR101890459B1 (zh)
CN (1) CN103999018B (zh)
WO (1) WO2013082760A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016169409A1 (en) * 2015-04-22 2016-10-27 Boe Technology Group Co., Ltd. A method and apparatus for displaying a virtual object in three-dimensional (3d) space
CN106873778A (zh) * 2017-01-23 2017-06-20 深圳超多维科技有限公司 一种应用的运行控制方法、装置和虚拟现实设备
CN109725703A (zh) * 2017-10-27 2019-05-07 中兴通讯股份有限公司 人机交互的方法、设备及计算机可存储介质

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10321990B4 (de) * 2003-05-15 2005-10-13 Microcuff Gmbh Trachealbeatmungungsvorrichtung
US10152136B2 (en) * 2013-10-16 2018-12-11 Leap Motion, Inc. Velocity field interaction for free space gesture interface and control
US9891712B2 (en) 2013-12-16 2018-02-13 Leap Motion, Inc. User-defined virtual interaction space and manipulation of virtual cameras with vectors
US9804753B2 (en) * 2014-03-20 2017-10-31 Microsoft Technology Licensing, Llc Selection using eye gaze evaluation over time
CN104835060B (zh) * 2015-04-29 2018-06-19 华为技术有限公司 一种虚拟产品对象的对比方法和装置
WO2017169158A1 (ja) * 2016-03-29 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2017187708A1 (ja) 2016-04-26 2017-11-02 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9983684B2 (en) 2016-11-02 2018-05-29 Microsoft Technology Licensing, Llc Virtual affordance display at virtual target
CN107506038B (zh) * 2017-08-28 2020-02-25 荆门程远电子科技有限公司 一种基于移动终端的三维虚拟地球交互方法
US11875012B2 (en) 2018-05-25 2024-01-16 Ultrahaptics IP Two Limited Throwable interface for augmented reality and virtual reality environments
KR102102309B1 (ko) * 2019-03-12 2020-04-21 주식회사 피앤씨솔루션 머리 착용형 디스플레이 장치의 3차원 가상공간을 위한 객체 인식 방법
US11144194B2 (en) * 2019-09-19 2021-10-12 Lixel Inc. Interactive stereoscopic display and interactive sensing method for the same
KR102542641B1 (ko) * 2020-12-03 2023-06-14 경일대학교산학협력단 핸드 트래킹을 이용한 재활 훈련 장치 및 작동 방법
CN113191403A (zh) * 2021-04-16 2021-07-30 上海戏剧学院 一种剧场动态海报的生成与展示系统

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2077173C (en) * 1991-11-22 2003-04-22 Michael Chen Method and apparatus for direct manipulation of 3-d objects on computer displays
US5523775A (en) * 1992-05-26 1996-06-04 Apple Computer, Inc. Method for selecting objects on a computer display
US5485565A (en) * 1993-08-04 1996-01-16 Xerox Corporation Gestural indicators for selecting graphic objects
US5894308A (en) * 1996-04-30 1999-04-13 Silicon Graphics, Inc. Interactively reducing polygon count in three-dimensional graphic objects
JPH10207620A (ja) * 1997-01-28 1998-08-07 Atr Chinou Eizo Tsushin Kenkyusho:Kk 立体インタラクション装置および立体インタラクション方法
JP3698523B2 (ja) 1997-06-27 2005-09-21 富士通株式会社 アプリケーションプログラム起動方法,そのコンピュータプログラムを記録した記録媒体及びコンピュータシステム
US6072498A (en) * 1997-07-31 2000-06-06 Autodesk, Inc. User selectable adaptive degradation for interactive computer rendering system
US20020036617A1 (en) * 1998-08-21 2002-03-28 Timothy R. Pryor Novel man machine interfaces and applications
EP0905644A3 (en) * 1997-09-26 2004-02-25 Matsushita Electric Industrial Co., Ltd. Hand gesture recognizing device
US6064354A (en) * 1998-07-01 2000-05-16 Deluca; Michael Joseph Stereoscopic user interface method and apparatus
US7227526B2 (en) * 2000-07-24 2007-06-05 Gesturetek, Inc. Video-based image control system
JP2002352272A (ja) * 2001-05-29 2002-12-06 Hitachi Software Eng Co Ltd 3次元オブジェクトの生成方法および生成された3次元オブジェクトの選択制御方法並びに3次元オブジェクトのデータ構造
JP2003067135A (ja) 2001-08-27 2003-03-07 Matsushita Electric Ind Co Ltd タッチパネル入力方法、並びにタッチパネル入力装置
US6982697B2 (en) * 2002-02-07 2006-01-03 Microsoft Corporation System and process for selecting objects in a ubiquitous computing environment
US7170492B2 (en) * 2002-05-28 2007-01-30 Reactrix Systems, Inc. Interactive video display system
JP2004110356A (ja) * 2002-09-18 2004-04-08 Hitachi Software Eng Co Ltd オブジェクトの選択制御方法
US7665041B2 (en) * 2003-03-25 2010-02-16 Microsoft Corporation Architecture for controlling a computer using hand gestures
JP4447865B2 (ja) * 2003-08-01 2010-04-07 ソニー株式会社 地図表示システム、地図データ加工装置、地図表示装置及び地図表示方法
US9274598B2 (en) * 2003-08-25 2016-03-01 International Business Machines Corporation System and method for selecting and activating a target object using a combination of eye gaze and key presses
US7719523B2 (en) * 2004-08-06 2010-05-18 Touchtable, Inc. Bounding box gesture recognition on a touch detecting interactive display
WO2006108017A2 (en) * 2005-04-04 2006-10-12 Lc Technologies, Inc. Explicit raytracing for gimbal-based gazepoint trackers
US20070035563A1 (en) * 2005-08-12 2007-02-15 The Board Of Trustees Of Michigan State University Augmented reality spatial interaction and navigational system
US8972902B2 (en) 2008-08-22 2015-03-03 Northrop Grumman Systems Corporation Compound gesture recognition
CA2685976C (en) * 2007-05-23 2013-02-19 The University Of British Columbia Methods and apparatus for estimating point-of-gaze in three dimensions
US9171391B2 (en) * 2007-07-27 2015-10-27 Landmark Graphics Corporation Systems and methods for imaging a volume-of-interest
US8149210B2 (en) * 2007-12-31 2012-04-03 Microsoft International Holdings B.V. Pointing device and method
GB2471036B (en) * 2008-03-03 2012-08-22 Videoiq Inc Object matching for tracking, indexing, and search
US8259163B2 (en) * 2008-03-07 2012-09-04 Intellectual Ventures Holding 67 Llc Display with built in 3D sensing
US8146020B2 (en) * 2008-07-24 2012-03-27 Qualcomm Incorporated Enhanced detection of circular engagement gesture
CN101344816B (zh) * 2008-08-15 2010-08-11 华南理工大学 基于视线跟踪和手势识别的人机交互方法及装置
US8649554B2 (en) * 2009-05-01 2014-02-11 Microsoft Corporation Method to control perspective for a camera-controlled computer
TW201104494A (en) * 2009-07-20 2011-02-01 J Touch Corp Stereoscopic image interactive system
JP5614014B2 (ja) * 2009-09-04 2014-10-29 ソニー株式会社 情報処理装置、表示制御方法及び表示制御プログラム
US8213708B2 (en) * 2010-03-22 2012-07-03 Eastman Kodak Company Adjusting perspective for objects in stereoscopic images
EP2372512A1 (en) * 2010-03-30 2011-10-05 Harman Becker Automotive Systems GmbH Vehicle user interface unit for a vehicle electronic device
JP5485470B2 (ja) * 2010-04-30 2014-05-07 トムソン ライセンシング 3d系内でプッシュ及びプルのジェスチャーを認識する方法及び装置
US8396252B2 (en) * 2010-05-20 2013-03-12 Edge 3 Technologies Systems and related methods for three dimensional gesture recognition in vehicles
US8594425B2 (en) * 2010-05-31 2013-11-26 Primesense Ltd. Analysis of three-dimensional scenes
US20120005624A1 (en) * 2010-07-02 2012-01-05 Vesely Michael A User Interface Elements for Use within a Three Dimensional Scene
US20130154913A1 (en) * 2010-12-16 2013-06-20 Siemens Corporation Systems and methods for a gaze and gesture interface
US9354718B2 (en) * 2010-12-22 2016-05-31 Zspace, Inc. Tightly coupled interactive stereo display
US9285874B2 (en) * 2011-02-09 2016-03-15 Apple Inc. Gaze detection in a 3D mapping environment
US8686943B1 (en) * 2011-05-13 2014-04-01 Imimtek, Inc. Two-dimensional method and system enabling three-dimensional user interaction with a device
WO2013033842A1 (en) * 2011-09-07 2013-03-14 Tandemlaunch Technologies Inc. System and method for using eye gaze information to enhance interactions
US10503359B2 (en) * 2012-11-15 2019-12-10 Quantum Interface, Llc Selection attractive interfaces, systems and apparatuses including such interfaces, methods for making and using same

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016169409A1 (en) * 2015-04-22 2016-10-27 Boe Technology Group Co., Ltd. A method and apparatus for displaying a virtual object in three-dimensional (3d) space
CN106873778A (zh) * 2017-01-23 2017-06-20 深圳超多维科技有限公司 一种应用的运行控制方法、装置和虚拟现实设备
CN106873778B (zh) * 2017-01-23 2020-04-28 深圳超多维科技有限公司 一种应用的运行控制方法、装置和虚拟现实设备
CN109725703A (zh) * 2017-10-27 2019-05-07 中兴通讯股份有限公司 人机交互的方法、设备及计算机可存储介质

Also Published As

Publication number Publication date
JP5846662B2 (ja) 2016-01-20
WO2013082760A1 (en) 2013-06-13
JP2015503162A (ja) 2015-01-29
CN103999018B (zh) 2016-12-28
EP2788839A4 (en) 2015-12-16
EP2788839A1 (en) 2014-10-15
US20140317576A1 (en) 2014-10-23
KR101890459B1 (ko) 2018-08-21
KR20140107229A (ko) 2014-09-04

Similar Documents

Publication Publication Date Title
CN103999018A (zh) 响应三维显示对象的用户选择姿势的方法和系统
US10732725B2 (en) Method and apparatus of interactive display based on gesture recognition
US20220382379A1 (en) Touch Free User Interface
JP2019087279A (ja) デジタルデバイスとの対話のための直接的なポインティング検出のためのシステムおよび方法
WO2013035758A1 (ja) 情報表示システム、情報表示方法、及び記憶媒体
JP2011022984A (ja) 立体映像インタラクティブシステム
US9703400B2 (en) Virtual plane in a stylus based stereoscopic display system
EP2590060A1 (en) 3D user interaction system and method
CN111459264B (zh) 3d对象交互系统和方法及非暂时性计算机可读介质
CN113961107B (zh) 面向屏幕的增强现实交互方法、装置及存储介质
US9122346B2 (en) Methods for input-output calibration and image rendering
WO2024012268A1 (zh) 虚拟操作方法、装置、电子设备及可读存储介质
CN117130518A (zh) 控件显示方法、头显设备、电子设备及可读存储介质
CN103440036A (zh) 三维图像的显示和交互操作方法及装置
WO2019127325A1 (zh) 信息处理方法、装置、云处理设备及计算机程序产品
US9465483B2 (en) Methods for input-output calibration and image rendering
EP3059664A1 (en) A method for controlling a device by gestures and a system for controlling a device by gestures
CN112534379B (zh) 媒体资源推送装置、方法、电子设备及存储介质
Chanda et al. Analysis of Multi Touch Interactive Device for a Cost Effective Architecture
Jung et al. Interactive auto-stereoscopic display with efficient and flexible interleaving
CN117453037A (zh) 交互方法、头显设备、电子设备及可读存储介质
CN105511599A (zh) 信息处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190201

Address after: Paris France

Patentee after: International Digital Madison Patent Holding Co.

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING

Effective date of registration: 20190201

Address after: I Si Eli Murli Nor, France

Patentee after: THOMSON LICENSING

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING