CN106030457A

CN106030457A - 在过程期间跟踪对象

Info

Publication number: CN106030457A
Application number: CN201580010959.6A
Authority: CN
Inventors: C.怀特; A.曹; D.莫林诺瓦
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-02-27
Filing date: 2015-02-25
Publication date: 2016-10-12
Anticipated expiration: 2035-02-25
Also published as: KR102403579B1; US9911351B2; US20150243013A1; CN106030457B; EP3111297A1; KR20160125428A; EP3111297B1; WO2015130718A1

Abstract

公开了涉及在利用对象的过程期间跟踪一个或多个对象的实施例。例如，一个实施例提供用于监控涉及一个或多个对象的过程的执行的方法，其中该方法包括接收规定过程的一个或多个部分的一组规则以及接收关于一个或多个对象的对象识别信息。该方法还包括：对于过程的选定部分，接收物理场景的图像信息，从图像信息和对象识别信息识别对物理场景中的所识别的对象执行的操作，以及基于操作是否满足这组规则中的与过程的选定部分相关的规则来采取行动。

Description

在过程期间跟踪对象

背景技术

很多过程涉及对象的操纵。例如，系统（例如一件家具或引擎的组装或拆卸）可包括很多单独的步骤，每个步骤涉及可能大量对象的运动、放置和/或修改。因此，用于在涉及操纵对象的过程期间制造错误的很多机会可能存在。

发明内容

公开了涉及在利用对象的过程期间跟踪一个或多个对象的实施例。例如，一个所公开的实施例提供用于监控涉及一个或多个对象的过程的执行的方法，其中该方法包括接收规定过程的一个或多个部分的一组规则以及接收关于一个或多个对象的对象识别信息。该方法还包括：对于过程的选定部分，接收物理场景的图像信息，从图像信息和对象识别信息识别对物理场景中的所识别的对象执行的操作，以及基于操作是否满足这组规则中的与过程的选定部分相关的规则来采取行动。

这个发明内容被提供来以简化的形式介绍一系列概念，其在下面在具体实施方式中被进一步描述。这个发明内容并不打算识别所主张的主题的关键特征或必要特征，也不打算用作限制所主张的主题的范围。此外，所主张的主题不限于解决在本公开的任何部分中提到的任何或所有缺点的实施方式。

附图说明

图1-3示出根据本公开的实施例的用户执行在示例环境中的过程的示意性描述。

图4示出图示用于在过程的执行期间跟踪一个或多个对象的方法的实施例的流程图。

图5示出用于培训计算系统以识别对一个或多个对象执行的过程的方法的实施例。

图6示意性示出非限制性计算系统。

具体实施方式

可提供各种形式的指令以帮助人学习或以其它方式遵循涉及操纵对象的复杂过程。例如，指令可采取演示该过程的静态图和/或文本或视频的形式。然而，这样的指令在一些情况下可能难以理解并遵循，或以其它方式令用户困惑。此外，用户可能难以确定他们是否正确地执行过程。

相应地，在本文公开了涉及自动观察用户执行过程以确定用户是否正确地执行过程的实施例。此外，可向用户提供反馈以帮助用户正确地执行过程。简要地，图像传感器例如深度摄像机可收集捕获执行过程的用户的图像数据。基于所收集的图像数据，可识别并跟踪用户和在场景中的对象。从图像数据检测的对象的运动可与规定过程的每个步骤的一组规则比较。基于这些比较，用户可被通知他或她是否正确地执行过程，且如果否，则可指导他或她如何正确地执行过程。所公开的实施例也可用于质量控制，用于检查工人生产率，并用于其它任务，其中过程如何被执行的观察可能是有价值的。

图1示出非限制性例子使用环境100，其包括通信地连接到显示设备104和传感器系统106的计算设备102。虽然环境100被示为房间，使用环境可以是任何适当的物理空间，包括户内和/或户外环境。计算设备102可用于玩各种不同的游戏，播放一种或多种不同的媒体类型，和/或控制或操纵非游戏应用和/或操作系统。计算设备102可从一个或多个控制设备接收输入，一个或多个控制设备可包括任何适当的控制设备例如游戏控制器、遥控器、移动计算设备等。

传感器系统106可包括可见光摄像机（例如RGB摄像机）、立体声或阵列摄像机系统和/或深度摄像机（例如飞行时间和/或结构化光深度摄像机）。例如，传感器系统106可包括配置成对环境100成像的一个或多个传感器、透镜元件和/或光源。由深度摄像机捕获的深度图像可指示由每个像素成像的表面的深度，以便提供关于环境100的一个或多个特征的信息。传感器系统106可包括额外的传感器，包括但不限于一个或多个麦克风（例如定向麦克风阵列）。传感器系统106可经由一个或多个接口经由任何适当的有线或无线数据连接来产生并发送图像到计算设备102。虽然在图1中示出单个传感器系统106，应理解，一个或额外的摄像机可被包括在环境中，且一个或多个摄像机可以在环境（例如集成到移动设备（例如智能电话、平板计算机或膝上型计算机）内的摄像机）内是可移动的。

计算设备可利用来自传感器系统106的信息来通过下列操作观察用户110对在真实世界环境中的一个或多个对象执行过程：当对象在该过程的执行期间被操纵时跟踪用户和在环境中的一个或多个对象的运动，以及将该运动与规定过程步骤的规则比较。在提供反馈的实施例中，如果在该过程中的操作不满足那个操作的规则的条件，则可例如通过经由显示设备、扬声器和/或以其它适当的形式输出指导信息而指导用户如何满足规则。

计算设备102可得到对象识别信息以帮助识别在过程中使用的一个或多个对象。所得到的对象识别信息可连同从传感器系统106实时（即当用户对对象执行过程时）接收的图像信息一起被使用以识别在物理场景中的一个或多个对象。对象识别信息可包括允许对象被识别的任何适当的信息。例如，对于每个对象，对象识别信息可包括三维对象数据（例如用于执行图案匹配）和/或识别功能（例如用于执行分类）。

对象识别信息可由计算设备102以任何适当的方式得到。作为一个非限制性例子，对象识别信息可从远程服务被得到——用户可在远程服务处得到用于特定过程的指导信息（例如用于经由过程将被组装的产品的指导网站），并可连同待执行的过程的一组规则一起被得到。同样，也可得到用于在过程中未特别使用的对象的识别信息。例如，可针对利用工具来帮助区分开不正确的工具与正确的工具的过程得到用于常见工具的识别信息。

对象识别信息可用于将所成像的物理场景分割成一个或多个已分割的对象，且也将已分割的对象分类以便确定每个对象的身份而不考虑对象的方位如何。例如，扳手的对象识别信息可允许扳手114从任何角度或位置被识别，且可能当它由用户110的手握住并因此被部分地挡住时。此外，当对象被操纵时，对象的运动可在六个自由度中被跟踪，且在整个步骤中对象的位置可被跟踪并与那个步骤的规则比较。

在图1的例子中，用户110可修理在自行车112上的后变速器系统。因此，用于跟踪过程的执行的这组规则可规定用于修理后变速器系统的多个步骤。过程的每个步骤可由这样的参数规定为开始位置、结束位置和可能在开始位置和结束位置之间的路径。当用户执行修理过程时，计算设备102使用对象识别信息来识别在操作中使用的对象（例如变速器滑轮、变速器滑轮螺栓、自行车后轮和在该过程中使用的工具）。

如在本文使用的，可根据适当的坐标系来规定所识别的对象的各种位置、地点和路径。在一个例子中，坐标系可基于摄像机。在另一例子中，坐标系可以是绝对世界坐标系，其中系统维持在摄像机的视野和世界坐标系之间的映射。又一例子是相对于系统中的其它部件的坐标系（例如可相对于自行车的位置来规定自行车变速器过程的对象的路径和位置）。

在这样的修理过程中的一个可能的步骤可以是使变速器滑轮螺栓122变紧。这样的步骤可包括规定将用于该步骤的工具、变速器滑轮螺栓的开始位置（例如未完全拧到变速器滑轮内，如由在螺栓头和滑轮之间的较大偏移规定的）和结束位置（例如完全拧到变速器滑轮内，如由较小偏移规定的）的规则。当用户执行该过程时，这些条件中的每个在该步骤被确定为被正确地执行之前被满足。此外，在未正确地执行任何步骤的场合，可将反馈提供给用户。

在图1的例子中，在过程中的步骤可包括选择搁置在桌子120上的阿伦扳手116。因此，针对在过程中的这个步骤的规则可能在该规则被满足之前需要阿伦扳手116的选择。如图1所示，用户110已选择扳手114而不是阿伦扳手116。计算设备102可识别出用户已选择扳手114，以及该扳手114不满足该规则。在这个实例中，计算设备102可警告用户错误的工具被选择，并可指导用户如何满足规则。图2示出以房间的一部分的增强现实视图130的形式的由计算设备102提供的指导输出的例子，增强现实视图130示出桌子121的图像或表示、在桌子上的阿伦扳手117和螺丝起子119的图像或表示并且高亮以向用户110演示选择阿伦扳手116。替代地或此外，计算设备102可输出指示用户110应选择阿伦扳手116的听觉指令124。应理解，这些特定的指导输出为了例子的目的而被描述且并且非旨在以任何方式是限制性的。

如前面规定的，一旦计算设备102确定了由用户执行的操作满足规则，过程就可前进到过程的随后部分。例如，图3示出用户捡起阿伦扳手116，且因此满足该规则。在过程中的下一步骤可包括将滑轮螺栓122移动到特定的结束位置。作为指导助手，计算设备102经由显示设备104输出另一增强现实图像140。增强现实视图140显示围绕滑轮螺栓122的自行车113的一部分的表示。阿伦扳手117的表示被显示在自行车113的表示之上。此外，指导手111在规定的位置上握住阿伦扳手117的表示，使得阿伦扳手117的表示啮合滑轮螺栓的表示。箭头被显示为顺时针旋转阿伦扳手116的指令。此外，听觉指令126还指导用户110顺时针旋转阿伦扳手116。

如上所述，用户可被指导如何执行过程的步骤，如果用户未能正确地执行该步骤的话。此外，在一些实施例中，用户也可在试图执行该步骤之前被指导如何满足规则。在这样的情况下，当确定以前的规则被满足时可输出指令。

可以用任何适当的方式规定过程的步骤。例如，过程可被规定为在六个自由度的至少一个中的对象的运动。以这种方式，对象的运动可包括扭转、旋转、拉或其它类型的运动。此外，可以不充分规定在操作期间对象的运动。例如在一些规则中，可以不规定开始位置或结束位置。作为更特定的例子，步骤可包括从自行车移除特定的对象（例如踏板），其中未规定结束位置。在这个方面中，一旦踏板从自行车被移除，操作就可满足规则，而不考虑踏板在移除之后放置在哪里。同样，可以或可以不在各种规则中规定在过程期间的对象的路径。

图4和5示出用于在过程期间跟踪对象的方法的实施例。图4示出用于在观察和/或教导模式中指导用户的方法400的实施例，而图5示出用于在学习模式中指导用户的方法500的实施例。在观察模式中，可观察到执行过程的用户，但可以不提供关于步骤的指令。观察模式可用于质量控制、审计和其它这样的目的。类似地，指导模式可用于观察执行过程的用户并提供教导用户执行过程的反馈。相反，学习模式可用于培训计算设备来识别过程并规定过程的规则。可根据所存储的指令并使用从图像传感器例如合并在传感器系统106中的图像传感器接收的物理场景的图像信息由一个或多个计算设备（例如计算设备102）执行方法400和500。

在支持在多个模式中操作的实施例中，方法400可包括在402设置操作模式。设置操作模式可包括例如接收关于操作模式的用户输入。设置操作模式还可包括观察用户和在物理场景中的任何识别出的对象的运动以及确定用户是否正执行已知或未知的过程。如果用户正执行已知的过程（例如用户以前执行的和/或计算设备识别的过程），则计算设备可在教导和观察模式的一个或多个中操作。如果用户正执行未知的过程，则计算设备可请求用户是否希望在学习模式中操作，并且在确认之后在学习模式中操作。在多个操作模式不被支持的场合，可省略这样的步骤。

如果计算设备正在教导或观察模式中操作，则方法400继续进行到406以在学习模式中操作，这将关于图5更详细被解释。另一方面，如果计算设备正在学习或观察模式中操作，则方法400包括在408接收规定将由用户使用一个或多个对象来执行的过程的一个或多个部分的一组规则以及也接收在过程中使用的对象的对象识别信息。

每个规则可指定预期对象、预期对象的预期第一位置、预期对象的预期第二位置、在第一和第二位置之间的预期路径以及关于对象从第一位置到第二位置的运动的时间约束中的一个或多个。预期对象的运动可包括在六个自由度中的至少一个中的运动。同样，对象识别信息可包括用于从场景的图像数据识别对象的任何适当的信息（包括但不限于识别功能、三维对象模型等）。

可根据被执行的过程来将这组规则排序。例如，第一规则可与过程的第一部分相关，而第二随后的规则可与过程的第二随后的部分相关。然而，根据该过程，一些规则可被排序而其它规则可以不被排序。例如，第三规则可指定在第一和第二规则被满足之后将被执行的行动，而不考虑由第一规则指定的行动是在由第二规则指定的行动之前还是之后被执行。

这组规则和对象识别信息可从远程服务被接收、从可移动存储设备被接收、存储在计算设备的存储设备上或以任何其它适当的方式得到。可响应于用户输入或响应于由计算设备对用户正执行过程的确定或当任何其它适当的触发时接收这组规则和对象识别信息。

在410，方法400包括接收物理场景的图像信息。物理场景可以是真实世界环境，在该环境中用户正执行过程。图像信息可从图像传感器例如传感器系统106被接收，并可包括深度图像信息和彩色图像信息（例如RGB信息）中的一个或多个。在一个例子中，可扫描物理场景，以便使用一个或多个摄像机从一个或多个视角捕获一个或多个图像。在扫描期间，可在运动的六个自由度的一个或多个中跟踪摄像机运动以确定摄像机的视野的位置和方位。

在414，方法400包括识别由用户使用所识别的对象执行的操作。为了识别操作，可基于图像信息和对象识别信息来识别用户正交互于的一个或多个对象（例如存在于物理场景中的对象），如在416指示的。例如，可执行深度和/或彩色图像数据与对象识别信息的比较来识别对象。

识别操作还可包括识别对象在六个自由度中的至少一个中从开始位置移动到结束位置，如在418指示的。如前面解释的，在规则中，可规定开始和结束位置，或开始和结束位置中的一个或多个可以是开放式的。例如，回来参考上面关于图1-3解释的自行车修理过程，操作可包括滑轮螺栓被拧入。因此，当滑轮螺栓头相对于滑轮移动时，对象的开始和结束位置可每个被规定。在另一示例操作中，阿伦扳手可从与滑轮螺栓的啮合被移除。因此，可规定阿伦扳手的开始位置（与滑轮螺栓啮合），但结束位置可以是开放式的（其中阿伦扳手的最终搁置位置是不相关的）。

在420，确定操作是否满足与被执行的过程的部分相关的规则。确定操作满足规则可包括确定由规则规定的一个或多个条件（包括预期对象、预期对象的预期第一位置、预期对象的预期第二位置、在第一和第二位置之间的预期路径和/或预期时间条件（例如步骤多快或多慢被执行，例如预期对象是否在阈值时间量内从预期第一位置移动到预期第二位置））是否由操作满足。

如果操作满足规则，则方法400可包括在422可选地存储操作满足规则的指示。当例如计算设备正在观察模式中操作时，存储操作满足规则的指示可出现。方法400包括在424继续进行到过程的随后部分。这可包括提供操作满足规则的反馈（视觉、听觉和/或其它），如在426指示的。继续进行到过程的随后部分还可包括从图像信息和对象识别信息识别由用户使用在物理场景中的所识别的对象和不同的所识别的对象中的一个或多个来执行的随后操作，以及基于随后的操作是否满足与过程的随后选定部分相关的随后规则来采取行动。对象的识别和跟踪以及对象运动与规则的比较可重复，直到所有规则被满足或过程以其它方式终止为止。

返回到420，如果操作不满足规则，则方法400继续进行到428以可选地存储操作不满足规则的指示（例如，如果在观察模式中操作）。此外，方法400可包括在430输出指导用户如何满足规则的指令。这样的指令可包括音频指令和视觉指令中的一个或多个。在一些实施例中，视觉指令可被显现为显示在显示设备上的所成像的物理场景的增强现实视图。作为一个非限制性的例子，执行步骤的虚拟手的动画可覆盖在物理场景的表示上以向用户演示如何执行那个步骤的预期操作以满足规则。在另一例子中，代表在物理场景中的预期对象的虚拟对象可覆盖在物理场景的表示上并移动以演示如何针对过程的那个步骤操纵对象。方法400然后循环回到414以继续识别由用户执行的操作以确定操作是否满足规则。

图5示出描绘用于观察用户执行过程同时在学习模式中操作的方法500的实施例的流程图。可执行方法500以学习未知的过程用于未来的观察和/或指导。方法500包括在502接收关于在所成像的场景中的一个或多个对象的对象识别信息。例如，用户可以用摄像机（例如合并到传感器系统内的深度摄像机和/或RGB摄像机）扫描每个对象。用户也可提供每个所扫描的对象的身份。在对象是未知对象的场合，可为那些对象省略这样的扫描过程，且可利用现有的对象识别信息。

在504，方法500包括接收场景的图像信息，以及在506观察用户对场景中的一个或多个所识别的对象执行过程。如上面解释的，对象识别信息和图像信息可用于识别在场景中的对象以及跟踪用户和所识别的对象的运动。

当所识别的对象由用户移动同时用户执行过程时，运动可被特征化为操作（例如分配开始位置和结束位置）。例如，用户可在过程被执行时例如通过使用语音命令为过程的每个步骤提供开始和结束点的指示，以及指示路径和/或时间约束将在哪里被应用。同样，也可在算法上（例如通过观察对特定对象的特定行动何时开始和停止）规定操作。基于所规定的操作，可为过程规定一组规则，如在508指示的，其中这组规则指定由用户对所识别的对象可执行的一个或多个操作或行动。这组规则可存储在计算设备上和/或被发送到远程服务，其中它们可随后可用于指导用户执行过程。

在一些实施例中，本文所述的方法和过程可被捆绑到一个或多个计算设备的计算系统。特别是，这样的方法和过程可被实施为计算机应用程序或服务、应用编程接口（API）、库和/或其它计算机程序产品。

图6示意性示出可实施上文所述的一个或多个方法和过程的计算系统600的非限制性实施例。例如，计算设备102是计算系统600的非限制性例子。在简化形式中示出计算系统600。计算系统600可采取一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备（例如智能电话）和/或其它计算设备的形式。

计算系统600包括逻辑设备602和存储设备604。计算系统600可以可选地包括显示子系统606、输入子系统608、通信子系统610和/或未在图6中示出的其它部件。

逻辑设备602包括配置成执行指令的一个或多个物理设备。例如，逻辑设备可配置成执行机器可读指令，其为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其它逻辑结构的部分。这样的指令可被实施来执行任务、实施数据类型、转换一个或多个实施的状态、实现技术效果或以其它方式达成期望结果。

逻辑设备可包括配置成执行软件指令的一个或多个处理器。此外或替代地，逻辑设备可包括配置成执行硬件或固件指令的一个或多个硬件或固件逻辑设备。逻辑设备的处理器可以是单核或多核的，且在其上执行的指令可配置成用于连续、并行和/或分布式处理。逻辑设备的单独部件可选地可分布在可远程定位和/或配置成用于协作处理的两个或多个单独的设备当中。逻辑设备的方面可由在云计算配置中配置的远程可访问的联网计算设备虚拟化和执行。

存储设备604包括配置成保存由逻辑设备可执行来实施本文所述的方法和过程的指令的一个或多个物理设备。当这样的方法和过程被实施时，存储设备604的状态可被转换，以例如保存不同的数据。

存储设备604可包括可移除和/或内置设备。存储设备604可包括光学存储器（例如CD、DVD、HD-DVD、蓝光盘等）、半导体存储器（例如RAM、EPROM、EEPROM等）和/或磁性存储器（例如硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等）连同其它存储器。存储设备604可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。

将认识到，存储设备604包括一个或多个物理设备。然而，本文所述的指令的方面替代地可由在有限的持续时间期间未由物理设备保持的通信介质（例如电磁信号、光学信号等）传播。

逻辑设备602和存储设备604的方面可一起集成到一个或多个硬件逻辑部件内。这样的硬件逻辑部件可包括例如现场可编程门阵列（FPGA）、程序和应用特定集成电路（PASIC/ASIC）、程序和应用特定标准产品（PSSP/ASSP）、片上系统（SOC）和复杂可编程逻辑器件（CPLD）。

将认识到，如本文使用的“服务”是在多个用户会话当中可执行的应用程序。服务可以是一个或多个系统组件、程序和/或其它服务可采用的。在一些实施方式中，服务可在一个或多个服务器计算设备上运行。

当被包括时，显示子系统606可用于显现由存储设备604保存的数据的表示。这个视觉表示可采取图形用户界面（GUI）的形式。当本文所述的方法和过程改变由存储设备保存的数据并因此转换存储设备的状态时，显示子系统606的状态可同样被转换以视觉地表示在基础数据中的变化。显示子系统606可包括实际上利用任何类型的技术的一个或多个显示设备。这样的显示设备可与在共用的外壳中的逻辑设备602和/或存储设备604组合或这样的显示设备可以是外围显示设备。

当被包括时，输入子系统608可包括一个或多个用户输入设备例如键盘、鼠标、触摸屏或游戏控制器或与一个或多个用户输入设备例如键盘、鼠标、触摸屏或游戏控制器通过接口连接。在一些实施例中，输入子系统可包括选定自然用户输入（NUI）部件或与选定自然用户输入（NUI）部件通过接口连接。这样的部件可以是集成的或外围的，且输入行动的转换和/或处理可在板上或板外被处理。示例NUI部件可包括用于语音和/或话音识别的麦克风；用于机器视觉和/或手势识别的红外、彩色、立体和/或深度摄像机；用于运动检测和/或意图识别的头跟踪器、眼跟踪器、加速计和/或陀螺仪；以及用于评估大脑活动的电场感测部件。

当被包括时，通信子系统610可配置成通信地耦合计算系统600与一个或多个其它计算设备。例如，如所示，计算系统600可经由网络614与远程服务612通信，以便访问例如对象和规则数据库616，其例如存储对象识别信息和/或一个或多个过程的规则组。通信子系统610可包括与一个或多个不同的通信协议兼容的有线和/或无线通信设备。作为非限制性的例子，通信子系统可配置成经由无线电话网络或有线或无线局域或广域网进行通信。在一些实施例中，通信子系统可允许计算系统600经由网络例如互联网将消息发送到其它设备和/或从其它设备接收消息。

将认识到，本文所述的配置和/或方法本质上是示例性的，以及这些特定的实施例或例子不应在限制性意义上被考虑，因为很多变化是可能的。本文所述的特定例程或方法可代表任何数量的处理策略中的一个或多个。因此，所示和/或所述的各种行动可以按所示和/或所述的顺序、按其它顺序、并行地被执行或被省略。同样，可改变上述过程的顺序。

本公开的主题包括各种过程、系统和配置及本文公开的其它特征、功能、行动和/或特性以及其任何和所有等效形式的所有新颖和非显而易见的组合和子组合。

Claims

1.一种在计算设备上的用于监控利用一个或多个对象的过程的执行的方法，所述方法包括：

接收规定所述过程的一个或多个部分的一组规则的输入；

接收关于所述一个或多个对象的对象识别信息的输入；

对于所述过程的选定部分，

从图像传感器接收物理场景的图像信息的输入；

从所接收的所述图像信息和所述对象识别信息识别所识别的对象；

从所接收的所述图像信息和对象信息识别对在所述物理场景中的所识别的对象执行的操作；

比较在所述图像信息中识别的所述操作与所述组规则；以及

向显示设备输出所述操作是否满足所述组规则中的与所述过程的选定部分相关的规则的指示。

2.如权利要求1所述的方法，其中所述图像传感器包括深度图像传感器，其中所述图像信息包括三维图像信息，以及其中所述对象识别信息包括可用于从所述图像信息识别在多个不同的方位上的所述一个或多个对象的三维对象数据。

3.如权利要求1所述的方法，其中所述规则指定预期对象、所述预期对象的预期第一位置、所述预期对象的预期第二位置、以及在所述第一位置和第二位置之间的预期路径中的一个或多个，其中所述预期对象在所述第一位置与第二位置之间的运动包括在六个自由度中的至少一个中的运动。

4.如权利要求3所述的方法，还包括如果所述预期对象、所述预期对象的所述预期第一位置、所述预期对象的所述预期第二位置、以及在所述第一位置和第二位置之间的所述预期路径中的一个或多个被所述操作满足，则确定所述操作满足所述规则。

5.如权利要求3所述的方法，还包括如果所识别的对象、所识别的对象的开始位置、在所述操作期间所识别的对象的路径以及所识别的对象的结束位置中的一个或多个不匹配与所述规则的所述预期对象、所述预期第一位置、所述预期路径、以及所述预期第二位置中的一个或多个有关的一个或多个条件，则确定所述操作不满足所述规则。

6.如权利要求5所述的方法，其中所述规则还指定给定时间阈值，在所述给定时间阈值内，所述预期对象从所述第一位置移动到所述第二位置，以及还包括如果所识别的对象到所述给定时间阈值时不从所述开始位置移动到所述结束位置则确定所述操作不满足所述规则。

7.如权利要求1所述的方法，其中如果所述操作满足所述规则，则所述方法包括对于所述过程的随后的选定部分：

从所述图像传感器接收所述物理场景的额外图像信息的输入；

从所述额外图像信息和所述对象识别信息识别对在所述物理场景中的所识别的对象和不同的所识别的对象中的一个或多个执行的随后操作；以及

向所述显示设备输出所述随后操作是否满足所述组规则中的与所述过程的所述随后的选定部分相关的随后规则的指示。

8.如权利要求1所述的方法，还包括如果所述操作不满足所述规则，则输出指导如何满足所述规则的指令，其中所述指令包括到显示设备的视频指令输出和到扬声器的听觉指令输出中的一个或多个。

9.如权利要求1所述的方法，其中所述显示设备包括增强现实显示设备。

10.一种保存由逻辑设备可执行的指令的硬件存储设备，所述指令用于：

接收规定在过程期间对一个或多个对象执行的一个或多个行动的一组规则；

从深度图像传感器接收物理场景的深度图像信息；

接收包括可用于从所述深度图像信息识别在多个不同的方位上的所述一个或多个对象的三维对象数据的对象识别信息；

对于所述过程的选定部分：

从所述深度图像信息和所述对象识别信息识别对在所述物理场景中的所识别的对象执行的操作；

如果所述操作不满足所述规则，则输出指导如何执行预期操作以满足所述规则的指令；以及

如果所述操作满足所述规则，则前进到所述过程的随后的选定部分。