CN108572730B - 用于使用深度感知相机与计算机实现的交互式应用程序进行交互的系统和方法 - Google Patents
用于使用深度感知相机与计算机实现的交互式应用程序进行交互的系统和方法 Download PDFInfo
- Publication number
- CN108572730B CN108572730B CN201810195418.0A CN201810195418A CN108572730B CN 108572730 B CN108572730 B CN 108572730B CN 201810195418 A CN201810195418 A CN 201810195418A CN 108572730 B CN108572730 B CN 108572730B
- Authority
- CN
- China
- Prior art keywords
- user
- coordinates
- controller
- computer
- passive object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/0304—Detection arrangements using opto-electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/20—Input arrangements for video game devices
- A63F13/21—Input arrangements for video game devices characterised by their sensors, purposes or types
- A63F13/213—Input arrangements for video game devices characterised by their sensors, purposes or types comprising photodetecting means, e.g. cameras, photodiodes or infrared cells
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/80—Special adaptations for executing a specific game genre or game mode
- A63F13/814—Musical performances, e.g. by evaluating the player's ability to follow a notation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/10—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
- A63F2300/1087—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/80—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
- A63F2300/8047—Music games
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种系统,所述系统用于在计算机实现的交互式应用程序与位于所述系统的交互区域(2)中的用户(1)之间的交互,所述系统包括:‑被动对象(3),包括用于接纳用户的手的抓握部分和包括具有独特视觉属性的独特点(4)的标记部分;‑深度感知相机(5);‑控制器(7),用于接收由所述深度感知相机(5)产生的图像并被配置成用于根据以下知识计算所述独特点(4)的3D坐标的两种可能性:(i)所述用户的手腕关节(9)的3D坐标;(ii)所述独特点(4)在从所述深度感知相机接收的对比度图像(6)中的2D坐标(M,N);以及(iii)握持被动对象(3)的所述用户的手的手腕与所述被动对象(3)的独特点(4)之间的估计距离R。
Description
技术领域
本发明涉及一种用于使用深度感知相机在握持被动对象的用户和计算机实现的交互式应用程序之间进行交互的系统和方法。
背景技术
深度感知相机或距离相机是能够产生包括与存在于所述相机的成像场中的场景物体的距离有关的数据的图像的设备。所得到的图像即所谓的深度或距离图像(或深度图)包括深度值的阵列,其对应于相机的深度传感器与存在于成像场中的物体的表面之间的距离。除此之外,可以根据存储在深度图像中的深度值来计算存在于成像场中的物体的表面在笛卡尔系统中的坐标。
深度感知相机具有许多当前和潜在的未来应用,特别是在需要人机交互(HCI)的技术领域。在这些应用中,从现有技术中已知生成借助被动设备执行姿势的用户和连接到深度感知相机的计算系统之间的交互。响应于用户的姿势,计算系统例如在屏幕上显示信息或者在交互式环境中激活连接对象。
文献US 8,149,210公开了一种HCI系统,其中使用深度感知相机以便生成经过眼睛之一和用户的指向手指或者指向被动对象上的两点之间的指向线。所述系统随后计算所述指向线与屏幕之间的交点的坐标,这允许用户指向所述屏幕上的所选择的图形对象。在本文献中公开的实现方式中,必须从深度图像中检索若干点的3D坐标。这在计算上是昂贵的,并且这在需要高处理速度和精确度时限制了实现方式的适用性。
SBC交互式系统期刊(SBC Journal on Interactive Systems)第6卷2015年第22-29页公开了一种在飞行时间深度感知相机的帮助下追踪被动魔法棒的位置和定向的方法。飞行时间深度感知相机还包括RGB传感器。由于棒上存在两个彩色点而执行对魔法棒的追踪,这些彩色点由计算机在RGB传感器获取的彩色图像上定位。一旦已经由于分割算法而在彩色图像上定位所述彩色点,则从深度图像提取关于彩色点的深度数据。这种实现方式对被动魔法棒的美学施加了一些限制,因为其必须包含多个彩色点。此外,产生和提取魔法棒的多个点的深度数据在计算上是昂贵的,并且这在需要高处理速度和精确度时限制了实现方式的适用性。
文献WO2014/130884公开了一种用于追踪被动棒并基于检测到的棒路径来致动效果的系统和方法。所述系统利用用于将电磁辐射发射到玩耍区域中的源和用于在电磁辐射从放置在玩耍区域中的物品的回归反射材料反射之后接收所述电磁辐射的感测设备。所述系统还包括用于执行姿势识别的控制器,但是由于没有实现深度成像,所公开的系统仅能够处理二维运动。
发明内容
本发明的目的是提供一种具有高处理速度和高可靠性的用于计算机实现的交互式应用程序和握持对象的用户之间的交互的系统和方法。
另一个目的是提供一种用于计算机实现的交互式应用程序和握持对象的用户之间的交互的系统和方法,其中对所述对象的设计施加低水平的限制并且在交互区域中对所述对象的3D追踪是可能的。
根据第一方面,本发明涉及一种系统,所述系统用于在计算机实现的交互式应用程序与位于系统系统的交互区域中的用户之间的交互,所述系统包括:
-被动对象,包括用于接纳所述用户的手的抓握部分和包括具有独特视觉属性的独特点的标记部分;
-深度感知相机,所述深度感知相机能够产生所述交互区域的深度图像,所述深度感知相机还能够产生表示来自至少部分地与所述交互区域重叠的视场的电磁谱的至少一部分的强度度量的对比度图像;
-控制器,用于接收由所述深度感知相机产生的所述深度图像和所述对比度图像,所述控制器能够根据所述深度图像计算属于所述用户的一组骨骼关节在所述交互区域中的3D坐标,所述组骨骼关节包括所述用户的手腕关节,所述控制器还能够在所述被动对象由用户在所述视场中握持时提取所述独特点在所述对比度图像中的2D坐标(M,N),所述控制器能够标识所述用户在哪只手中握持所述被动对象,
所述控制器被配置成用于根据以下知识计算所述独特点的3D坐标的两种可能性:(i)所述用户的手腕关节的3D坐标;(ii)所述独特点在所述对比度图像中的2D坐标(M,N);以及(iii)在握持被动对象的用户的手的手腕与所述被动对象的独特点之间的距离R,
所述控制器被配置成用于基于从所述计算机实现的交互式应用程序接收的信息来选择所述两种可能性中的一种,所述控制器被配置成用于将所述独特点的3D坐标的所选择的可能性提供给所述计算机实现的交互式应用程序。
在有利的实施例中,深度感知相机是距离选通飞行时间相机,所述距离选通飞行时间相机包括用于照亮交互区域的红外照明单元和用于测量在交互区域中反射的红外光的红外图像传感器。
在前面的实施例中,所述独特点有利地包括反射材料,并且所述控制器被配置成用于提取所述独特点在由所述红外图像传感器产生的对比度图像中的2D坐标。
在另一个有利的实施例中,独特点是具有特定颜色的点,并且深度感知相机包括RGB颜色传感器,所述控制器被配置成用于提取所述独特点在由RGB颜色传感器产生的对比度图像中的2D坐标。
在有利的实施例中,被动对象具有细长主体,所述细长主体包括近侧部分和远侧部分,所述近侧部分包括用于接纳所述用户的手的抓握部分并且所述标记部分位于所述远侧部分的末端。
在前面的实施例中,控制器有利地被配置成用于计算经过用户的手腕和所述远侧部分的末端的指向线p在交互区域中的坐标。
在前面的实施例中,控制器被配置成用于在已经根据所述独特点的3D坐标的所述两种可能性计算出两条指向线并且已经标识出所述两条指向线与所述交互区域中的元素之间的交点之后基于从所述计算机实现的交互式应用程序接收的信息选择所述独特点的3D坐标的两种可能性中的一种。
在有利的实施例中,控制器被配置成用于根据从人类操作者或从所述计算机交互式应用程序接收的输入信息来标识所述用户在哪只手中握持所述被动对象。
在另一个有利的实施例中,控制器被配置成用于通过评估用户的右手腕和左手腕的3D位置在所述对比度图像中的投影与所述独特点在对比度图像中的2D坐标(M,N)之间在一段时间期间的相关性来检测用户在其右手还是左手中握持被动对象。
根据第二方面,本发明涉及一种用于使用如上所述的系统在位于交互区域中的用户和计算机实现的交互式应用程序之间进行交互的方法,包括:
-使用深度感知相机获取所述交互区域的深度图像和对比度图像;
-根据所述深度图像计算包括所述用户的手腕的一组骨骼关节的3D坐标;
-提取所述被动对象的独特点在所述对比度图像中的2D坐标(M,N);
-标识所述用户在哪只手中握持所述被动对象;
-根据以下知识计算所述独特点的3D坐标的两种可能性:(i)所述用户的手腕关节的3D坐标;(ii)所述独特点在所述对比度图像中的2D坐标(M,N);以及(iii)握持被动对象的用户的手的手腕与所述被动对象的独特点之间的距离R;
-基于从所述计算机实现的交互式应用程序接收的信息来选择所述两种可能性中的一种;
-将所述独特点的3D坐标的所选择的可能性提供给所述计算机实现的交互式应用程序。
根据有利的实现方式,根据本发明的方法包括以下附加步骤:计算经过用户的手腕和所述被动对象的独特点的指向线p在交互区域中的坐标;以及将所述指向线p提供给所述计算机实现的交互式应用程序。
根据第三方面,本发明涉及一种计算机程序,其包括用于使根据本发明的系统执行前面的方法的步骤的指令。
根据第四方面,本发明涉及一种其上存储有上述计算机程序的计算机可读介质。
附图说明
将通过示例的方式并参照附图对本发明的这些和进一步方面进行更详细解释,附图中:
图1示出了根据本发明的系统和方法所涉及的主要组件的框图;
图2示出了根据本发明的系统的实施例;
图3示出了根据本发明的方法的实现方式的流程图。
具体实施方式
深度感知相机
深度感知相机因此是显示与来自与所述相机的传感器相关联的特定点的场景中的点的距离的相机。存在用于实现深度感知相机的多种技术。
距离选通飞行时间相机实现了一种方法,其中辐射源向场景中的物体发送脉冲光,通常是红外光。脉冲光行进到身体并被反射回摄像机,所述摄像机配备快门以控制光接收到其传感器上的时间。因为每个返回脉冲的部分根据其到达时间被快门阻挡,所以接收到的光量与脉冲已行进的距离有关。因此,由传感器收集的能量的量与所述点距传感器的距离成反比。
直接飞行时间成像仪测量单个激光脉冲离开相机并反射回焦平面阵列所需的直接飞行时间。也称为“触发模式”,使用此方法捕获的3D图像包括完整的空间和时间日期,从而使用单个激光脉冲记录完整的3D场景。这允许对场景信息的快速采集和快速实时处理。
结构光使用投影到场景上的光图案(通常是网格或水平条)。当击打表面时这些光图案变形的方式允许结构光3D扫描仪计算场景中的物体的深度和表面信息。
根据本发明的系统和方法
如图1和图2所描述,本发明涉及一种系统,所述系统用于在计算机实现的交互式应用程序16与位于所述系统的交互区域2中的用户1之间的交互,所述系统包括:
-被动对象3,包括用于接纳所述用户的手的抓握部分和包括具有独特视觉属性的独特点的标记部分4;
-深度感知相机5,所述深度感知相机5能够产生所述交互区域的深度图像51,所述深度感知相机5还能够产生表示来自至少部分地与所述交互区域2重叠的视场的电磁谱的至少一部分的强度度量的对比度图像6;
-控制器7,用于接收由所述深度感知相机5产生的深度图像51和对比度图像6,所述控制器7能够根据所述深度图像51计算属于所述用户1的一组骨骼关节8的所述交互区域2中的3D坐标,所述组骨骼关节8包括所述用户的手腕关节9,所述控制器7还能够在所述被动对象由用户1在所述视场中握持时提取所述独特点4在所述对比度图像6中的2D坐标(M,N),所述控制器7能够标识所述用户1在哪只手中握持所述被动对象3,
所述控制器7被配置成用于根据以下知识计算所述独特点4的3D坐标的两种可能性:(i)所述用户的手腕关节9的3D坐标;(ii)所述独特点4在所述对比度图像6中的2D坐标(M,N);以及(iii)握持被动对象3的用户的手的手腕与所述被动对象3的独特点4之间的距离R,
所述控制器7被配置成用于基于从所述计算机实现的交互式应用程序16接收的信息14来选择所述两种可能性中的一种,所述控制器7被配置成用于将所述独特点4的3D坐标的所选择的可能性15提供给所述计算机实现的交互式应用程序16。
在现有技术中已经广泛地描述了借助于深度感知相机来追踪人的骨骼关节的系统和方法。例如在文献US20140022161中介绍了根据场景的深度图像来追踪人体的强大方法。根据所述方法,当使用考虑到关节具有空间范围的方法时,可以为给定关节提供特定3D坐标或多个3D坐标。当为手腕9的位置提供多个3D坐标时,控制器7可以被配置成用于随机选择这些点中的一个或有利地计算这些点的空间平均值。
知道所述被动对象3的独特点4的3D坐标将允许应用姿势识别算法来检测握持被动对象3的用户1与存在于交互区域2中并由计算机实现的交互式应用程序16监视的连接对象或其他用户之间的各种各样的交互。计算机实现的交互式应用程序16因此是在计算机上运行并具有所述交互区域2的内部表示的应用程序,所述内部表示有利地包括连接或不连接的各种对象以及交互区域2中的用户1。计算机实现的交互式应用程序16从控制器7接收关于独特点4的位置的数据作为输入。其也可以从存在于交互区域2中的其他设备接收数据,例如直接从深度感知相机5或从交互区域2收集数据的其他相机或麦克风。响应于来自握持被动对象3的用户1的交互,可操作地连接到所述控制器7并由所述计算机实现的交互式应用程序16管理的任何计算设备可以触发来自存在于交互区域2中的连接对象的动作。计算机实现的交互式应用程序16可以是管理各自握持被动对象3的多个用户和放置在交互区域2内的连接对象之间的交互的娱乐应用程序。计算机实现的交互式应用程序16可以使用屏幕向用户1显示视频图像。在有利的实施例中,计算机实现的交互式应用程序16在屏幕上提供计算机游戏环境,其中用户1通过借助其被动对象3执行动作来与游戏进行交互。
从一般观点来看,表述“控制器”必须被理解为表示用于处理上面所述的不同任务的一个或多个电子计算设备。这种控制器7可以包括物理地集成到深度感知相机5的电子组件以及远程位于管理计算机实现的交互式应用程序的计算机或多个计算机中的其他组件。在有利的实施例中,控制器7的与骨骼关节的3D坐标的计算有关的任务由集成到深度感知相机5的电子组件执行,而其他任务由可操作地连接到所述深度感知相机5的远程计算机执行。
贯穿全文,表述“被动对象”必须被理解为表示由所述用户1握持以通过根据本发明的系统与计算机实现的交互式应用程序16进行交互的对象3。这意味着此对象3必须包括具有可从对比度图像6中提取其2D坐标(M,N)的独特点4的标记部分,从而允许所述用户1与所述交互式实现应用程序16之间的交互而无需被动对象3和控制器7之间的电子双向通信。术语“被动”不会进一步限制被动对象3的设计的预定范围。就此而言,被动对象3可以例如包括具有发光部分的独特点4。
在图1中,被动对象3具有魔法棒的形状并且由用户用作计算机实现的交互式应用程序16中的指针,所述指针控制用于娱乐目的的连接对象。在图1中,在被激活时能够自己弹奏的连接的钢琴10确实存在。通常将在交互式娱乐公园中看到根据本发明的系统的这种实施例。因此魔法棒具有细长主体,其中抓握部分是棒的近侧部分,并且标记部分位于棒的末端。
为了定位魔法棒的末端,根据本发明的系统依靠从深度感知相机提供的深度图像和对比度图像提取的信息的组合。由于存在根据深度图像追踪人体的强大方法,因此根据本发明的系统根据对人类用户的手腕的3D位置的知识来推断握持在所述用户的手中的魔法棒的末端的3D位置。当然,需要一些附加的信息来推断棒的3D位置。因此从由所述深度感知相机产生的对比度图像提取一些信息,其中提取所述独特点的2D坐标。由于分割算法,有利地提取所述独特点的2D坐标(M,N)。所述分割算法的结果可以是对比度图像6中的对应于独特点4的多个点(像素)。在这种情况下,可以在这些点中随机选择2D坐标(M,N)或者有利地对应于这些点的空间平均值。从对比度图像6中提取2D坐标可以是非常快速的过程。控制器还需要接纳握持被动对象3的用户的手的手腕与所述被动对象3的独特点4之间的估计距离作为输入。所述距离的精确值取决于被动对象3的大小和形状并且还取决于用户1的形态以及用户1在特定时间握持被动对象3的方式。因此,不能将精确的通用值作为输入提供给控制器7。就此而言,相反将估计值输入到根据本发明的系统作为输入。如果被动对象是具有位于其末端的独特点的魔法棒,则观察到棒的长度是握持被动对象3的用户的手的手腕与独特点4之间的距离的适当估计值。
当计算独特点的3D坐标时,控制器7将需要知道在哪只手中握持被动对象3以便根据适当的手腕9的3D坐标来执行其计算。在简单的实现方式中,控制器可以被配置成用于预先接收来自人类操作者或来自所述计算机交互式应用程序的这种信息作为输入。然后用户1将被通知其必须用其左手或右手握持被动对象3并且不能更换。
在其他实现方式中,控制器7将被配置成用于通过评估用户的右手腕和左手腕的3D位置在对比度图像中的投影与所述独特点4在对比度图像6中的2D坐标(M,N)之间在一段时间期间的相关性来自己确定用户1在其右手还是左手中握持被动对象3。通常,控制器3将假定适当的手腕是在所述对比度图像中具有距离所述独特点4在一段时间内不超过给定阈值的投影距离的手腕,所述给定阈值例如是用户的手腕与预先作为输入接收的独特点之间的距离的估计值。
在一些实现方式中,根据本发明的系统将被配置成用于管理多个用户1和计算机实现的交互式应用程序16之间的交互。当存在多个用户1时,需要确定哪个用户1正握持给定的被动对象3。就此而言,可以评估每个用户1的身体关节8的3D位置在对比度图像中的投影与所述独特点4在对比度图像6中的2D坐标(M,N)之间在一段时间期间的相关性。通常,控制器3将假定握持被动对象3的用户1是其关节8在所述对比度图像中具有距离所述独特点4在一段时间内不超过给定阈值的投影距离的用户1。
在图1中,深度感知相机5是距离选通飞行时间相机,其包括用于照亮交互区域2的红外照明单元11和用于测量从交互区域2反射的红外光的红外图像传感器12。由深度感知相机5根据由红外图像传感器12产生的红外对比度图像来计算深度图像。在图1所示的本发明的有利实施例中,独特点4包括反射材料,其有利地为回归反射材料,并且控制器7被配置成用于提取独特点4在由所述红外图像传感器12产生的对比度图像中的2D坐标(M,N)。在本实现方式中,红外图像传感器12因此被用于产生用于计算交互区域2的深度图像和提取独特点4的2D坐标(M,N)两者的红外对比度图像。可以容易地从对比度图像中检索独特点4的2D坐标(M,N),例如使用分割算法,因为由反射材料制成的独特点在红外对比度图像上表现为亮点。由于获取和处理红外对比度图像的低等待时间,从红外对比度图像中提取2D坐标(M,N)的本实现方式证明是非常有效的。此外,红外对比度图像的使用和用于独特点4的反射材料的存在是有利的,因为系统甚至可以用于具有黑暗环境的交互区域2。此外,反射材料通常是慎重考虑的材料,因此其不会显著影响被动对象3的外观。还必须注意的是,由于电子传感器在这些非常亮的点处饱和,因此通常不能直接从由选通飞行时间深度感知相机生成的深度图像提取反射材料的精确深度信息。根据本发明的系统不能解决这个问题,因为深度图像仅用于计算用户1的骨骼关节的3D位置。
在替代实施例中,独特点4是具有特定颜色的点并且深度感知相机包括RGB颜色传感器13。控制器然后被配置成用于提取所述独特点在由RGB颜色传感器13产生的对比度图像中的2D坐标。
在数学上,根据用户的手腕在所述交互区域中的3D坐标、独特点在与所述交互区域重叠的视场的对比度图像中的2D坐标(M,N)的知识并且根据所述手腕与独特点之间的近似距离R来确定独特点的3D坐标对应于确定以用户的手腕9为中心的半径R的球体S与表示对比度图像中的给定2D坐标(M,N)的可能3D坐标的直线D之间的交点。球体和直线之间通常有两个交点。这就是为什么根据本发明的系统中的控制器被配置成用于在计算出的坐标的两种可能性之间做出选择的原因。
此选择决定系统将两种可能性中的哪一种作为所述独特点4的真实3D坐标。根据所实现的交互式应用程序的特性,可以以各种方式实现此特征。例如,当被动对象3意图用作指针以定义经过所述独特点和例如属于所述用户1的骨骼的另一点的指向线时,将基于所述独特点的所述3D坐标的两种可能性来计算两条不同的指向线p。根据所述指示线,将根据由计算机实现的交互式应用程序16提供给控制器7的信息14来计算交互区域2中的两个不同影响点,所述信息与计算机实现的交互式应用程序16中的交互区域2的内部表示有关。在此阶段,控制器7将通过例如查看交互区域2中的两个不同影响点来选择可能性中的一种并选择被认为触发用户1与交互式应用程序16之间的交互的那一种可能性。例如,如果用户1被认为正在与屏幕交互,则控制器7将选择所述独特点4的对应于指向屏幕的线的3D坐标。在其他实施例中,选择可以基于与用户1的骨骼关节的位置有关的信息,或者也可以基于与用户1在其交互体验期间的过去动作有关的信息,只要计算机实现的交互式应用程序16监视这种信息。在另外其他实施例中,选择可以基于交互区域2中的其他用户的动作。
在图1所示的系统的情况下,其中被动对象是用作指针的魔法棒3,计算经过手腕和所述魔法棒的末端的指向线p的坐标。随后可以由计算机实现的交互式应用程序16计算这样的指向线与存在于交互区域2中的对象或其他用户之间的交点。已经观察到用于计算指向线的这种实现方式是非常有效的,因为这样的指向线满足用户对直观性的期望。此外,对用户1的手腕关节9的3D追踪(对于其存在强大算法,如上所述)使得本实现方式成为可能。还必须注意的是,本实现方式只需要在指针上存在一个独特点。一旦知道这样的指向线p,可以由计算机实现的交互式应用程序16计算与交互区域2中存在的元素(例如连接对象)的交点的坐标。当计算机实现的交互式应用程序16提供显示在屏幕上的计算机游戏环境时,可以计算指向线p在屏幕内部的游戏环境坐标系统中的影响点,使得用户1通过使用其被动对象3作为游戏环境中的指针来与游戏进行交互。
如图3所描述,本发明还涉及位于交互区域2中的用户1与计算机实现的交互式应用程序之间使用如上所述的系统的以下计算机实现的方法,包括:
-使用深度感知相机5获取S1所述交互区域2的深度图像51和对比度图像6;
-根据所述深度图像51计算S2包括用户1的手腕9的一组骨骼关节8的3D坐标;
-提取S3所述被动对象3的独特点4在所述对比度图像6中的2D坐标(M,N);
-标识S4所述用户1在哪只手中握持所述被动对象3;
-根据以下知识来计算S5所述独特点4的3D坐标的两种可能性:(i)所述用户的手腕关节9的3D坐标;(ii)所述独特点4在所述对比度图像6中的2D坐标M,N;以及(iii)握持被动对象3的用户的手的手腕与所述被动对象3的独特点4之间的距离R;
-基于从所述计算机实现的交互式应用程序接收的信息来选择S6所述两种可能性中的一种;
-将所述独特点4的3D坐标的所选择的可能性提供S7给所述计算机实现的交互式应用程序16。
在有利的实现方式中,根据本发明的方法包括以下附加步骤:计算经过用户1的手腕9和所述被动对象3的独特点4的指向线p在交互区域2中的坐标;以及将所述指向线p提供给所述计算机实现的交互式应用程序16。
Claims (15)
1.一种系统,所述系统用于在计算机实现的交互式应用程序(16)与位于所述系统的交互区域(2)中的用户(1)之间的交互,所述系统包括:
-被动对象(3),包括用于接纳所述用户(1)的手的抓握部分和包括具有独特视觉属性的独特点(4)的标记部分;
-深度感知相机(5),所述深度感知相机(5)能够产生所述交互区域(2)的深度图像(51),所述深度感知相机(5)还能够产生表示来自至少部分地与所述交互区域(2)重叠的视场的电磁谱的至少一部分的强度度量的对比度图像(6);
-控制器(7),用于接收由所述深度感知相机(5)产生的所述深度图像(51)和所述对比度图像(6),
所述控制器(7)能够根据所述深度图像(51)计算属于所述用户(1)的一组骨骼关节(8)在所述交互区域(2)中的3D坐标,所述组骨骼关节(8)包括所述用户的手腕关节(9),所述控制器(7)还能够在所述被动对象由用户(1)在所述视场中握持时提取所述独特点(4)在所述对比度图像(6)中的2D坐标(M,N),所述控制器(7)能够标识所述用户(1)在哪只手中握持所述被动对象(3),
所述控制器(7)被配置成用于根据以下知识计算所述独特点(4)的3D坐标的两种可能性:(i)所述用户的手腕关节(9)的3D坐标;(ii)所述独特点(4)在所述对比度图像(6)中的2D坐标(M,N);以及(iii)握持所述被动对象(3)的所述用户的手的手腕与所述被动对象(3)的独特点(4)之间的距离R,
所述控制器(7)被配置成用于基于从所述计算机实现的交互式应用程序(16)接收的信息(14)来选择所述两种可能性中的一种,所述控制器(7)被配置成用于将所述独特点(4)的3D坐标的所选择的可能性(15)提供给所述计算机实现的交互式应用程序(16)。
2.根据权利要求1所述的系统,其中,所述深度感知相机(5)是距离选通飞行时间相机,所述距离选通飞行时间相机包括用于照亮所述交互区域(2)的红外照明单元(11)以及用于测量在交互区域(2)中反射的红外光的红外图像传感器(12)。
3.根据权利要求2所述的系统,其中,所述独特点(4)包括反射材料,所述控制器被配置成用于提取所述独特点(4)在由所述红外图像传感器(12)产生的对比度图像中的2D坐标。
4.根据权利要求1所述的系统,其中,所述独特点(4)是具有特定颜色的点,所述深度感知相机包括RGB颜色传感器(13),所述控制器(7)被配置成用于提取所述独特点(4)在由RGB颜色传感器(13)产生的对比度图像(6)中的2D坐标。
5.根据权利要求2所述的系统,其中,所述独特点(4)是具有特定颜色的点,所述深度感知相机包括RGB颜色传感器(13),所述控制器(7)被配置成用于提取所述独特点(4)在由RGB颜色传感器(13)产生的对比度图像(6)中的2D坐标。
6.根据权利要求1至5中任一项所述的系统,其中,所述被动对象(3)具有细长主体,所述细长主体包括近侧部分和远侧部分,所述近侧部分包括用于接纳所述用户(1)的手的抓握部分并且所述标记部分位于所述远侧部分的末端。
7.根据权利要求6所述的系统,其中,所述控制器(7)被配置成用于计算经过所述用户(1)的手腕和所述远侧部分的末端的指向线(p)在
交互区域(2)中的坐标。
8.根据权利要求7所述的系统,其中,所述控制器被配置成用于在已经根据所述独特点(4)的3D坐标的所述两种可能性计算出两条指向线(p)并且已经标识出所述两条指向线(p)与所述交互区域(2)中的元素之间的交点之后基于从所述计算机实现的交互式应用程序(16)接收的信息(14)选择所述独特点(4)的3D坐标的两种可能性中的一种。
9.根据权利要求1-5和7-8中任一项所述的系统,其中,所述控制器(7)被配置成用于根据从人类操作者或从所述计算机交互式应用程序(16)接收的输入信息来标识所述用户(1)在哪只手中握持所述被动对象(3)。
10.根据权利要求6所述的系统,其中,所述控制器(7)被配置成用于根据从人类操作者或从所述计算机交互式应用程序(16)接收的输入信息来标识所述用户(1)在哪只手中握持所述被动对象(3)。
11.根据权利要求1-5和7-8中任一项所述的系统,其中,所述控制器被配置成用于通过评估用户(1)的右手腕和左手腕的3D位置在所述对比度图像(6)中的投影与所述独特点(4)在所述对比度图像(6)中的2D坐标(M,N)之间在一段时间期间的相关性来检测用户(1)在其右手还是左手中握持所述被动对象(3)。
12.根据权利要求6所述的系统,其中,所述控制器被配置成用于通过评估用户(1)的右手腕和左手腕的3D位置在所述对比度图像(6)中的投影与所述独特点(4)在所述对比度图像(6)中的2D坐标(M,N)之间在一段时间期间的相关性来检测用户(1)在其右手还是左手中握持所述被动对象(3)。
13.一种用于使用根据权利要求1至12中任一项所述的系统在位于交互区域(2)中的用户(1)和计算机实现的交互式应用程序(16)之间进行交互的方法,包括:
-使用深度感知相机(5)获取(S1)所述交互区域(2)的深度图像(51)和对比度图像(6);
-根据所述深度图像(51)计算(S2)包括所述用户(1)的手腕的一组骨骼关节(8)的3D坐标;
-提取(S3)所述被动对象(3)的独特点(4)在所述对比度图像(6)中的2D坐标(M,N);
-标识(S4)所述用户(1)在哪只手中握持所述被动对象(3);
-根据以下知识计算(S5)所述独特点(4)的3D坐标的两种可能性:(i)所述用户的手腕关节(9)的3D坐标;(ii)所述独特点(4)在所述对比度图像(6)中的2D坐标(M,N);以及(iii)握持所述被动对象(3)的所述用户的手的手腕与所述被动对象(3)的独特点(4)之间的距离R;
-基于从所述计算机实现的交互式应用程序接收的信息来选择(S6)所述两种可能性中的一种;
-将所述独特点(4)的3D坐标的所选择的可能性提供(S7)给所述计算机实现的交互式应用程序。
14.根据权利要求13所述的方法,其中,所述方法包括以下附加步骤:计算经过所述用户(1)的手腕和所述被动对象(3)的独特点(4)的指向线(p)在交互区域(2)中的坐标;以及将所述指向线(p)提供给所述计算机实现的交互式应用程序(16)。
15.一种其上存储有计算机程序的计算机可读介质,其中,所述计算机程序包括指令,所述指令使根据权利要求1至12中任一项所述的系统执行根据权利要求13或14所述的方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17160439.0 | 2017-03-10 | ||
EP17160439.0A EP3373114B1 (en) | 2017-03-10 | 2017-03-10 | Tracking system and method using a depth aware camera |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108572730A CN108572730A (zh) | 2018-09-25 |
CN108572730B true CN108572730B (zh) | 2023-08-01 |
Family
ID=58266986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810195418.0A Active CN108572730B (zh) | 2017-03-10 | 2018-03-09 | 用于使用深度感知相机与计算机实现的交互式应用程序进行交互的系统和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10606372B2 (zh) |
EP (1) | EP3373114B1 (zh) |
CN (1) | CN108572730B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8059894B1 (en) | 2006-12-19 | 2011-11-15 | Playvision Technologies, Inc. | System and associated methods of calibration and use for an interactive imaging environment |
US11551374B2 (en) * | 2019-09-09 | 2023-01-10 | Snap Inc. | Hand pose estimation from stereo cameras |
CN111258410B (zh) * | 2020-05-06 | 2020-08-04 | 北京深光科技有限公司 | 一种人机交互设备 |
CN114449069A (zh) * | 2020-11-04 | 2022-05-06 | 索尼半导体解决方案公司 | 电子设备、方法和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693006A (zh) * | 2011-02-25 | 2012-09-26 | 微软公司 | 用户界面呈现和交互 |
CN103399637A (zh) * | 2013-07-31 | 2013-11-20 | 西北师范大学 | 基于kinect人体骨骼跟踪控制的智能机器人人机交互方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8149210B2 (en) * | 2007-12-31 | 2012-04-03 | Microsoft International Holdings B.V. | Pointing device and method |
US8253746B2 (en) * | 2009-05-01 | 2012-08-28 | Microsoft Corporation | Determine intended motions |
US8564534B2 (en) | 2009-10-07 | 2013-10-22 | Microsoft Corporation | Human tracking system |
US8659658B2 (en) * | 2010-02-09 | 2014-02-25 | Microsoft Corporation | Physical interaction zone for gesture-based user interfaces |
US9251701B2 (en) * | 2013-02-14 | 2016-02-02 | Microsoft Technology Licensing, Llc | Control device with passive reflector |
US10134267B2 (en) | 2013-02-22 | 2018-11-20 | Universal City Studios Llc | System and method for tracking a passive wand and actuating an effect based on a detected wand path |
-
2017
- 2017-03-10 EP EP17160439.0A patent/EP3373114B1/en active Active
-
2018
- 2018-03-07 US US15/914,026 patent/US10606372B2/en active Active
- 2018-03-09 CN CN201810195418.0A patent/CN108572730B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693006A (zh) * | 2011-02-25 | 2012-09-26 | 微软公司 | 用户界面呈现和交互 |
CN103399637A (zh) * | 2013-07-31 | 2013-11-20 | 西北师范大学 | 基于kinect人体骨骼跟踪控制的智能机器人人机交互方法 |
Also Published As
Publication number | Publication date |
---|---|
US20180260039A1 (en) | 2018-09-13 |
US10606372B2 (en) | 2020-03-31 |
CN108572730A (zh) | 2018-09-25 |
EP3373114B1 (en) | 2019-10-09 |
EP3373114A1 (en) | 2018-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108572730B (zh) | 用于使用深度感知相机与计算机实现的交互式应用程序进行交互的系统和方法 | |
JP6690041B2 (ja) | 三次元物体上の注視点決定方法及び装置 | |
US11652965B2 (en) | Method of and system for projecting digital information on a real object in a real environment | |
US8149210B2 (en) | Pointing device and method | |
JP6343718B2 (ja) | ジェスチャインタフェース | |
EP3262439B1 (en) | Using intensity variations in a light pattern for depth mapping of objects in a volume | |
JP6598617B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR101650799B1 (ko) | 가변 자세를 포함하는 이미지를 컴퓨터를 사용하여 실시간으로 분석하는 방법 | |
JP5931215B2 (ja) | 姿勢を推定する方法及び装置 | |
US9429417B2 (en) | Touch and motion detection using surface map, object shadow and a single camera | |
US8428306B2 (en) | Information processor and information processing method for performing process adapted to user motion | |
CN104364733A (zh) | 注视位置检测装置、注视位置检测方法和注视位置检测程序 | |
US20130257720A1 (en) | Information input apparatus, information input method, and computer program | |
US20180225837A1 (en) | Scenario extraction method, object locating method and system thereof | |
JP2017529635A5 (zh) | ||
JP7363962B2 (ja) | 処理装置、検出装置、システム及びプログラム | |
KR101396488B1 (ko) | 신호 입력 장치 및 신호 입력 방법 | |
JP2011028573A (ja) | 操作装置 | |
US20210327160A1 (en) | Authoring device, authoring method, and storage medium storing authoring program | |
JP2003076488A (ja) | 指示位置判断装置及び方法 | |
JP2000222098A (ja) | ハンドポインティング装置、指示位置表示方法及び記録媒体 | |
KR20200032990A (ko) | 실제 손에 대응하는 가상 손 모델링 방법 및 이를 위한 장치 | |
Haubner et al. | Recognition of dynamic hand gestures with time-of-flight cameras | |
CN113228117B (zh) | 创作装置、创作方法和记录有创作程序的记录介质 | |
JP6597277B2 (ja) | 投影装置、投影方法及び投影用コンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |