CN112783700A

CN112783700A - 用于基于网络的远程辅助系统的计算机可读介质

Info

Publication number: CN112783700A
Application number: CN202011180239.3A
Authority: CN
Inventors: 金哲暄; P·邱; Y·贾亚迪; D·G·金贝尔; 刘琼
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-11-08
Filing date: 2020-10-29
Publication date: 2021-05-11
Also published as: JP2021078104A; US20210142568A1; US11288871B2

Abstract

用于基于网络的远程辅助系统的计算机可读介质。本文描述的示例实现涉及经由浏览器至浏览器连接向远程装置传输来自用户手部或其它对象的手部信息，使得基于从远程装置接收到的方位测量结果将手部或其它对象正确地定向在远程装置上。这样的示例实现可以便于远程辅助，在远程辅助中远程装置的用户需要查看由专家提供的用于指导的手部或对象运动。

Description

用于基于网络的远程辅助系统的计算机可读介质

技术领域

本公开总体涉及远程辅助系统，并且更具体地涉及一种基于实时视频的手势辅助系统。

背景技术

当前相关技术的视频会议技术使人们即使处于不同的位置时也保持协作。然而，在远程专家正在帮助本地客户执行复杂的物理任务的远程辅助场景中，通过使用相关技术的视频和音频通信媒体传达的指导导致误解来自专家的意图和指令的风险高，这可能导致低效的协作体验和性能。

在相关技术中，诸如肢体语言和手势之类的非语言通信可以显著提高远程辅助/协作场景中的远程协作活动的性能。在相关技术的实现中已经测试了在远程辅助/协作场景中使用手势视觉提示的有效性。

发明内容

然而，这样的相关技术实现没有并入上下文和内容信息。本文描述的示例实现考虑了可以通过分析客户工作空间的视图而捕获的多个上下文和内容方面。这种分析可用于更改手部模型的可视化参数，例如其大小、方位或颜色，这能够得到更好的协作体验和任务性能的提高。

本文描述的示例实现涉及一种远程辅助系统，该远程辅助系统便于位于远程的专家使用手势向在不同位置执行物理任务的客户提供指导。该系统是建立在基于网络的实时媒体通信框架顶上的，该基于网络的实时媒体通信框架允许客户使用商品智能电话向专家发送实时视频馈送，专家可以从实时视频馈送中观看客户工作空间的视图并且在视频上实时示出他们的手势。用手部跟踪装置捕获专家的手势，并且用受操纵的三维(3D)手部模型将手势可视化在实时视频馈送上。系统可以是经由网络浏览器可访问的，并且不需要在客户装置上安装任何预先需要的软件。系统通过利用关于客户环境的上下文和内容信息来可视化手部模型的各方面(例如，方位、比例和颜色等)以及基于音频提示的导航指导，从而改善了协作体验。该系统还支持手部运动的捕获和回放。

在本文描述的示例实现中，存在基于轻量级网络的系统，其支持使用来自位于远程的专家的手势给本地客户的远程指导。通过使用基于网络的实时媒体通信技术(例如，WebRTC)，该系统允许本地客户使用商品智能电话装置通过视频会议与远程专家助手共享客户工作空间的视图，并且来自专家的手势数据可以在网络浏览器中在共享的实时视频流上实时传输和可视化。由于能够经由大多数现代网络浏览器从末端用户通过简单地浏览指定的网页可访问该系统，因此不需要在用户智能电话装置上安装任何预先需要的软件。专家侧的系统利用跟踪装置(例如，手部跟踪装置)来跟踪专家的手部运动。另外，本文描述的示例实现不限于手部跟踪，而是根据期望的实现还可以扩展到其它类型的跟踪(例如，脚部、工具)。

本公开的各方面可以涉及一种非暂时性计算机可读介质，该非暂时性计算机可读介质存储用于执行移动装置的处理的指令，该移动装置包括方位传感器和相机，所述指令包括：向另一装置发送来自相机的视频和来自方位传感器的测量结果；从另一装置接收与用户手部相关联的手部信息；以及基于手部信息将用户手部的表示叠置在视频上以供由移动装置进行显示，用户手部的表示是按照从来自方位传感器的测量结果所确定的方位而叠置在视频上。

本公开的各方面可以涉及一种用于执行移动装置的处理的方法，该移动装置包括方位传感器和相机，该指令包括：向另一装置发送来自相机的视频和来自方位传感器的测量结果；从另一装置接收与用户手部相关联的手部信息；以及基于手部信息将用户手部的表示叠置在视频上以供由移动装置进行显示，用户手部的表示是按照从来自方位传感器的测量结果所确定的方位而叠置在视频上。

本公开的方面可以涉及一种移动装置，该移动装置包括方位传感器、相机、以及处理器，该处理器涉及用于以下的指令：向另一装置发送来自相机的视频和来自方位传感器的测量结果；从另一装置接收与用户手部相关联的手部信息；以及基于手部信息将用户手部的表示叠置在视频上以供由移动装置进行显示，用户手部的表示是按照从来自方位传感器的测量结果所确定的方位而叠置在视频上。

本公开的各方面可以涉及一种移动装置，该移动装包括方位传感器装置、相机装置、用于向另一装置发送来自相机的视频和来自方位传感器的测量结果的装置；用于从另一装置接收与用户手部相关联的手部信息的装置；以及用于基于手部信息将用户手部的表示叠置在视频上以供由移动装置进行显示的装置，用户手部的表示是按照从来自方位传感器的测量结果所确定的方位而叠置在视频上。

本公开的各方面可以涉及一种非暂时性计算机可读介质，其存储用于执行用于在通信上联接至跟踪装置的装置的处理的指令，指令包括：从移动装置接收视频和方位传感器测量结果；从另一装置发送与用户手部相关联的来自装置的手部信息，手部信息是基于从跟踪装置获得的测量结果而生成的；以及基于手部信息将用户手部的表示叠置在视频上以供由装置进行显示，用户手部的表示按照从来自方位传感器的测量结果而确定的方位叠置在视频上。

本公开的各方面可以涉及一种用于在通信上联接至跟踪装置的装置的方法，该方法包括：从移动装置接收视频和方位传感器测量结果；从另一装置发送与用户手部相关联的来自装置的手部信息，手部信息是基于从跟踪装置获得的测量结果而生成的；以及基于手部信息将用户手部的表示叠置在视频上以供由装置进行显示，用户手部的表示按照从来自方位传感器的测量结果而确定的方位叠置在视频上。

本公开的各方面可以涉及在通信上联接至跟踪装置的装置，该装置包括被配置为执行指令的处理器，指令包括：从移动装置接收视频和方位传感器测量结果；从另一装置发送与用户手部相关联的来自装置的手部信息，手部信息是基于从跟踪装置获得的测量结果而生成的；以及基于手部信息将用户手部的表示叠置在视频上以供由装置进行显示，用户手部的表示按照从来自方位传感器的测量结果而确定的方位叠置在视频上。

本公开的各方面可以涉及一种在通信上联接至跟踪装置的装置，该装置包括：用于从移动装置接收视频和方位传感器测量结果的装置；用于从另一装置发送与用户手部相关联的来自装置的手部信息的装置，手部信息是基于从跟踪装置获得的测量结果而生成的；以及用于基于手部信息将用户手部的表示叠置在视频上以供由装置进行显示的装置，用户手部的表示按照从来自方位传感器的测量结果而确定的方位叠置在视频上。

本公开的方面涉及一种非暂时性计算机可读介质，其用于服务器的指令，指令包括：从移动装置接收第一连接；从在通信上联接到跟踪装置的另一装置接收第二连接；在移动装置和另一装置之间建立第三连接，以便于视频和方位传感器测量结果从移动装置向另一装置的传输，并且便于手部信息从另一装置向移动装置的传输。

本公开的方面涉及一种方法，该方法包括：从移动装置接收第一连接；从在通信上联接到跟踪装置的另一装置接收第二连接；在移动装置和另一装置之间建立第三连接，以便于视频和方位传感器测量结果从移动装置向另一装置的传输，并且便于手部信息从另一装置向移动装置的传输。

本公开的方面涉及一种服务器，该服务器包括：用于从移动装置接收第一连接的装置；用于从在通信上联接到跟踪装置的另一装置接收第二连接的装置；用于在移动装置和另一装置之间建立第三连接的装置，以便于视频和方位传感器测量结果从移动装置向另一装置的传输，并且便于手部信息从另一装置向移动装置的传输。

附图说明

图1(a)和图1(b)例示了根据示例实现的示例系统。

图2例示了根据示例实现的系统的基于网络的实时通信框架。

图3例示了根据示例实现的用户可以发起会话的示例网页。

图4(a)至图4(c)例示了根据示例实现的交互框和相应对准。

图5(a)至图5(c)例示了根据示例实现的各种配置下的指向姿势和交互空间的示例可视化。

图6(a)和图6(b)例示了根据示例实现的自适应着色或加阴影。

图7(a)和图7(b)例示了根据示例实现的调整手指尺寸的示例。

图8(a)和图8(b)例示了根据示例实现的具有突出显示的相应包围盒的检测到的团块的示例。

图9例示了根据示例实现的访问先前捕获的操控的、对象回放功能的示例。

图10例示了根据示例实现的移动装置的示例。

图11例示了根据示例实现的包括跟踪装置的系统的示例。

图12例示了具有适合于在一些示例实现中使用的示例计算机装置的示例计算环境。

具体实施方式

以下详细描述提供了本申请的附图和示例实现的进一步细节。为了清楚起见，省略了附图之间的冗余元件的附图标记和描述。整个说明书中使用的术语仅作为示例而提供，并非旨在进行限制。例如，术语“自动”的使用依据实践本发明的实现的本领域普通技术人员的期望的实现可以涉及全自动实现或涉及用户或管理员对实现的一些方面的控制的半自动实现。选择可以由用户通过用户接口或其它输入手段来进行，或者可以通过期望算法来实现。本文描述的示例实现可以单独地使用或组合地使用，并且可以根据期望实现通过任何手段来实现示例实现的功能。

本文中描述的是基于网络的远程辅助系统，其中上下文和内容的不同方面用于增强手势可视化和其它可视化。

图1(a)和图1(b)例示了根据示例实现的示例系统。具体而言，图1(a)例示了专家系统的设置，并且图1(b)例示了客户系统的设置。在图1(a)中，远程专家观看从客户发送的实时视频馈送，并在跟踪装置100上方移动他/她的手部以提供基于手势的指导。在图1(b)中，顾客使用智能电话来共享顾客工作空间及其内的对象(打印机102)的视图，并且通过在智能电话屏幕上观看专家手部运动103来被指示。

远程专家使用放置在具有位于跟踪装置100前方的计算机监视器101的桌子上的跟踪装置100(例如，配置为跟踪手部、工具等)。从客户相机发送的实时视频馈送(例如，来自图1(b)所示的智能电话装置)在监视器101上显示，专家可以从监视器101实时查看客户工作空间及其内的对象(例如，图1(b)中的打印机102)。通过观看实时视频并在跟踪装置100上方执行交互，专家向顾客提供基于手势/工具姿势的指导(例如，用指向姿势检查文档进给辊的指导)。在涉及手势的示例实现中，手势在同时显示在专家装置和客户装置二者上的视频上被可视化为具有半透明效果的被操纵的3D手部模型103。通过在如图1(b)中的智能电话屏幕上查看来自专家的手部可视化103，可以针对与对象有关的物理任务对客户进行指示(例如，检查打印机监视器上的消息、检查文档进给辊等)。

图2例示了根据示例实现的系统的基于网络的实时通信框架。如图2所绘制，系统建立在网络实时通信框架(WebRTC)上。WebRTC中的中介信令服务器200在客户和专家之间建立点对点(P2P)连接，以进行实时媒体通信，并且每个末端用户可以通过使用相关技术中已知的任何兼容的现代网络浏览器浏览由服务器主持的网页来参与该直接媒体通信会话。在图10中提供了对客户装置的进一步描述。在图11中提供了对专家系统的进一步描述。如将在本文中描述并且如图2中所示，P2P连接促进诸如视频(例如，实时)、装置方位、音频、手部骨骼关节和手部模型可视化参数之类的信息的交换。

图3例示了根据示例实现的用户可以发起会话的示例网页。由于两个对等体之间的数据通信以及对用户装置(例如，相机、麦克风、跟踪装置)的数据访问由驻留在用户网络浏览器中的WebRTC和JavaScript应用编程接口(API)控制，因此本文所述的示例实现不需要为其装置或浏览器安装任何预先需要的软件或插件。

为了在用户网络浏览器中实时创建和显示3D手部模型，本文所述的示例实现利用了基于WebGL的Three.js API。Three.js使用作为网站的一部分的JavaScript语言，因此不需要安装任何网络浏览器插件。从专家的跟踪装置获得的手部骨骼关节数据用于在Three.js场景中操纵3D手部模型。为了在客户和专家之间同步渲染的3D手部模型的立体图及其姿态，在专家侧设置手部骨骼关节数据和从Three.js立体相机参数提供的手部模型可视化参数(例如，视场、视线方向、位置等)，然后向客户侧传输，如图2中例示了客户与专家之间的数据流的箭头所示。传输的手部骨骼关节数据和Three.js相机参数用于在客户网络浏览器上的相同立体图中操纵和显示客户的手部模型。在示例实现中，将3D手部模型数据嵌入到网页中，使得系统不需要向客户发送大的3D网格数据，而是仅向客户传输少量的手部骨骼关节和相机参数。

所提出的系统还可以利用关于客户环境和目标对象的上下文和内容信息来改变手部模型的诸如其颜色、尺寸或方位之类的可视化方面。上下文和内容的这种可视化和利用由专家侧的上下文和内容感知可视化模块管理，该模块处理从客户传输的媒体数据和从专家装置捕获的数据二者，并产生被传输并应用于客户手部模型的手部模型的经更新的可视化参数。

图4(a)至图4(c)例示了根据示例实现的交互框和相应对准。具体而言，图4(a)例示了专家系统的跟踪装置上的示例交互框，图4(b)例示了将传感器交互空间与客户相机视图空间对准的示例，并且图4(c)例示了交互空间的重力感知对准的示例。

在本文所述的示例实现中，专家的虚拟手部相对于客户的真实环境和其内的感兴趣对象的精确定位对于专家传达关于对对象的所需物理操作的准确指导和信息是重要的。为了促进这样的示例实现，利用了专家的跟踪装置的交互空间(以及因此其内的虚拟手部)与客户相机视图空间之间的适当对准。在本文所描述的示例实现中，存在1)基于客户环境的重力方向的交互空间的上下文感知对准，以将交互空间对齐到客户的真实世界的地面上，这帮助专家以更直观和自然的方式操控虚拟手部，就像他们实际地存在于客户环境中一样；2)基于客户场景的视觉外观和对象的内容感知对准，以更改虚拟手部的比例或颜色，这帮助客户通过查看具有正确比例和与对象相比的显著颜色的虚拟手部的运动来遵循专家的指示。

考虑的上下文的方面是相对于客户环境的客户的摄像机视图方位，以使来自专家的虚拟手部对准到客户的实际世界。这样的示例实现帮助专家与跟踪装置的传感器执行更自然和直观的交互，其中专家可以移动他的手部，就像他实际存在于客户工作空间中一样。更准确地说，示例实现使用客户智能电话中的惯性传感器估计客户工作空间的重力方向，并使用它来连续更改客户相机视图空间中的交互空间的方位(并且从而其内的虚拟3D手部模型)并且在客户可以自由移动他们的手持相机的同时稳定它相对于客户工作空间地面的相对姿态。

图4(a)例示了作为跟踪装置401上方的3D框表示402的交互空间。框的正面可以是颜色编码的或颜色/灰度编码的(例如，具有红色或红色色调)。图4(b)例示了在没有重力感知的情况下将交互空间配准到客户相机的示例，其中，交互空间置于相机前方，并且其典范轴与相机的典范轴对准。

图4(c)示出了通过将交互空间的垂直轴与客户的相机空间中的重力方向对准的重力感知配准。通过这种重力感知对准，专家在自己实际世界中的真实手部的运动与虚拟手部模型在客户的实际世界中的运动相匹配，这帮助专家轻松而直观地执行在跟踪装置上的交互，以操控客户相机视图空间中的虚拟手部。

图5(a)至图5(c)例示了根据示例实现的各种配置下的指向姿势和交互空间的示例可视化。具体而言，图5(a)和图5(c)例示了专家环境(顶部框)中的跟踪装置上的手部运动，以操纵其虚拟手部指向客户工作空间(底部框)中的立方体的顶部边缘。图5(a)和图5(c)中的顶部框表示在跟踪装置上做出的指向姿势。图5(a)和图5(c)中的底部框例示了叠加在客户视图上的交互框表示和3D手部模型的可视化。

在没有重力感知对准的情况下，专家通常会在观察渲染在实时视频馈送上的他的虚拟手部运动的同时，沿对角线向上移动手部，以使虚拟手部的食指指尖从朝向立方体的顶部边缘(图5(a))。在具有重力感知对准的情况下，专家可以按照与仿佛他实际存在于客户工作空间中并与立方体的顶边缘平行地移动他的手部(图5(c))那样他要做的一样的方式来移动他的手部。

在没有重力感知的情况下交互空间的配准的另一个局限性在于，这通常导致以处于指向姿势的手部的并不赏心悦目的可视化，尤其是在手掌近似平行于传感器的情况下。例如，图5(b)示出了模型的食指指尖由于相机视点在手部模型正后方而被其手掌和其它手指遮住了。为了解决这个问题，专家必须有目的地旋转他的手部以示出虚拟手部的食指的完整视图，如图5(a)的顶部框中所示。但是，这也经常使专家将手部移到太靠近跟踪装置的传感器的位置，从而导致跟踪姿态困难，并且传感器的视觉提示很少(例如，从跟踪装置的视图来看，食指可能被其它手指遮挡，如图5(a)的顶部框中)，这会降低跟踪性能。

示例实现还被配置为基于正被查看的对象的内容来适配手部的外观和尺寸。

图6(a)和图6(b)例示了根据示例实现的自适应着色或对比度的改变。依据期望的实现，可以通过基于背景/对象的颜色来调整虚拟手部在一些部分或全部部分上的突出显示颜色来调整虚拟手部与背景的对比度。在图6(a)和图6(b)的示例中，调整了手部的所有部分，然而，作为代替根据期望的实现可以调整一些部分(例如，仅拇指和食指)。图6(a)和图6(b)例示出了通过改变虚拟手部的对比度而交叠在塑料牙齿模型上的适配的虚拟手部外观，这使得手部从背景中更加突出。另选地，依据期望的实现，也可以根据期望的实现来改变突出显示的颜色(例如，从红色到蓝色)。在选择手部的突出显示颜色的这种示例实现中，可以获得相机图像中虚拟手部附近的平均色调值，并且将互补色调值用于对比度。因此，在示例实现中，手部模型的色调值从红色适配为蓝色，以增强其可视性。

图7(a)和图7(b)例示了根据示例实现的调整手指尺寸的示例。通过对网络浏览器窗口内相机馈送的2D画布图像执行内容分析，示例实现能够基于指向食指附近对象的估计尺寸来适配手指的尺寸。例如，在图7(a)中，手指太大，难以看到所指的是电路板上的两个对象中的哪一个。在图7(b)中，调整手指尺寸，并且显然，左对象是目标对象。

图8(a)和图8(b)例示了根据示例实现的具有突出显示的相应包围盒的检测到的团块(blob)的示例。为了估计手指附近对象的尺寸，示例实现应用了团块检测。团块检测的一个示例处理是在阈值二值化图像上使用轮廓检测。阈值二值化图像应用于图8(a)的图像的结果示于图8(b)中，其中在图7(a)和7(b)中的指向手指附近检测到的对象及其尺寸被示为有界盒。然后，可以通过将手指的尺寸缩放为附近检测到的对象的平均尺寸来调整手指的尺寸。

在手部的尺寸适配到图像中的另一示例实现中，可以估计对象在真实世界空间中的3D位置，于是虚拟手部放置在对象附近，使得基于相机和对象(或附近放置的手部)之间的距离自动调整手部在相机图像中的比例。可以通过根据所需实现的使用如本领域普通技术人员公知的运动恢复结构(SfM)技术或者基于深度学习的深度图估计方法从一系列相机图像重建场景(包括对象)的3D模型，来估计对象在空间中的3D位置。另一种方法是相对于预建立的3D参考模型直接获得对象的3D姿态。该模型由使用SfM的3D点云组成，每个3D点与一个局部特征描述符相关联。通过在对象的相机图像和参考模型之间建立2D-3D局部特征匹配，并基于这些匹配来解决“透视n点(PnP)问题”，可以获得对象的六个自由度姿态。

示例实现可以根据期望的实现进一步提供上下文感知音频提示。在示例实现中，可以存在一种类型的设置，该设置基于合成客户绕着其移动智能电话的场景便于专家在重建的3D环境中导航。这有效地扩展了客户智能电话的视野。

附加地，示例实现可以被配置为解决专家的手部运动在客户智能电话的视野之外的问题。为了帮助客户将智能电话导向看到手部运动的视点，由于专家正在进行手部指向或讲话，最好使用其它方式。一种技术是使用音频提示来指示专家手部当前所在的方向。该系统确定相关方向并合成立体声信号，该立体声信号被添加到向客户传输的视频流中。客户可以使用立体声耳机听到将智能电话移动到哪个方向以查看专家的手部运动。

图9例示了根据示例实现的访问先前捕获的操纵的、对象回放功能的示例。具体而言，图9通过提供回放图标来便于这种功能。示例实现可以根据期望的实现进一步便于对手部运动的捕获和回放。通常，客户对特定问题有相同的疑问。示例是清洁打印机的辊的任务。为了节省重复使用专家人员的时间的成本，可以通过记录已渲染手部操作的帧来拍摄任务，然后由客户进行回放。示例场景将是客户将智能电话指向目标对象。系统识别出对象，并且如果存在相关联的已拍摄任务，它将在当前智能电话相机视图的顶部上显示渲染的图标，如图9所示。然后，客户可以点击该图标以在当前智能电话相机视图的顶部上回放渲染的手部操作。在这样的示例实现中，可以存储视频和方位传感器测量结果或方位测量结果，以供以后使用和由专家系统进行处理，使得视频回放与记录的方位测量结果相关联。

示例实现通过使用基于Web的系统而与相关技术有所不同，该基于Web的系统不需要在客户装置或网络浏览器上安装任何特殊的应用或插件，并且可以在利用本领域普通技术人员公知的大多数网络浏览器连接到互联网的任何装置上可访问该基于Web的系统以供使用。

示例实现进一步便于上下文和内容感知的手部可视化，因为通过关于客户环境和目标对象的上下文和内容信息来适配调整手部模型的诸如姿态、颜色、比例等的视觉方面。

图10例示了根据示例实现的移动装置的示例。移动装置1000可以包括相机1001、麦克风1002、处理器1003、存储器1004、显示器1005、接口(I/F)1006和方位传感器1007。根据期望的实现，相机1001可以包括被配置为记录任何形式的视频的任何类型的相机。根据期望的实现，麦克风1002可以包括被配置为来记录任何形式的音频的任何形式的麦克风。根据期望的实现，显示器1005可以包括被配置为接收触摸输入以便于执行本文所述的功能的指示的触摸屏显示器、或者诸如液晶显示器(LCD)之类的普通显示器或任何其它显示器。根据期望的实现，I/F 1006可以包括便于移动装置1000到诸如服务器之类的外部元件和任何其它装置的连接的网络接口。根据期望的实现，处理器1003可以是诸如中央处理单元(CPU)之类的硬件处理器的形式，或者是硬件和软件单元的组合。根据期望的实现，方位传感器1007可以包括被配置为测量诸如倾斜角，相对于x、y、z的方位，入口、加速度(例如，重力)等的任何类型的方位测量的任何形式的陀螺仪和/或加速度计。根据期望的实现，方位传感器测量还可以包括重力矢量测量，以指示装置的重力矢量。

处理器1003可以被配置为通过I/F 1006向另一装置(例如，诸如图11所示的装置)发送来自相机的视频和来自方位传感器1007的测量结果，如图1(b)和2所示。如图2所示，处理器1003可以从另一装置接收与用户手部相关的手部信息；并且基于手部信息将用户手部的表示叠置在视频上以供由移动装置显示，用户手部的表示按照从方位传感器1007的测量结果所确定的方位叠置在视频上。在如图1(b)所示并且如本文所描述的涉及实时视频的示例实现中，视频可以是来自移动装置的相机的实时视频，测量结果可以是来自方位传感器的实时测量结果，并且手部信息可以包括从用户手部的实时运动中确定的手部可视化参数以及手部骨骼关节测量结果，如图4(a)至图4(c)以及图5(a)至图5(c)所示。

在示例实现中，处理器1003可以被配置为通过基于手部骨骼关节测量结果生成用户手部的3D手部模型作为表示，来基于手部信息将用户手部的表示叠置在视频上以供由移动装置(例如，在显示器1005上)进行显示，以及基于视频的色调信息和视频上检测到的对象中的一种或更多种，调整叠置在视频上的3D模型的颜色和尺寸中的一种或更多种，如图5(a)至图5(c)、图6(a)、图6(b)、图7(a)、图7(b)、图8(a)和图8(b)所示。

如图2和图3所示，处理器1003可以被配置为通过网络浏览器建立从移动装置到另一装置的另一网络浏览器的浏览器至浏览器连接；其中处理器1003被配置为向另一装置发送来自相机1001的视频和来自方位传感器1007的测量结果，并通过浏览器至浏览器连接从另一装置接收手部信息。

如图2所示，可以从客户装置或专家装置发送音频。在这样的示例实现中，处理器1003可以被配置为向另一装置发送(例如，经由I/F 1006)从麦克风1002记录的音频；并根据期望的实现通过任何传统扬声器输出从另一装置接收到的音频。

如图9所示，例如，涉及先前记录的视频的实现，视频可以是先前记录的视频，并且来自方位传感器的测量结果可以是先前记录的测量结果。

图11例示了根据示例实现的包括跟踪装置的系统的示例。根据期望的实现，该系统可以包括诸如计算机、膝上型计算机、平板电脑或其它装置之类的装置1100。这样的装置可以包括相机1101、麦克风1102、处理器1103、存储器1104、显示器1005和接口(I/F)1106，其硬件可以类似于图10的移动装置1000的硬件，或可以根据期望的实现来修改。

跟踪装置1110可以包括传感器1111，该传感器1111可以被配置为跟踪运动，并且可以采用任何运动跟踪传感器的形式，诸如红外、射频等。跟踪装置1110可以被配置为根据与Three.js兼容的任何期望的实现，生成诸如手部骨骼关节之类的手部信息和相机可视化参数。

如图2所示，处理器1103可以被配置为通过I/F 1106从移动装置接收视频和方位传感器测量结果，发送来自另一装置的与用户手部相关联的手部信息，该手部信息是基于从跟踪装置(例如，来自传感器1111)获得的测量结果生成的，如图4(a)至图4(c)以及图5(a)至图5(c)所示；并且基于手部信息将用户的手部的表示叠置在视频上，以供由装置进行显示，用户的手部的表示按照从来自方位传感器的测量结果所确定的方位叠置在视频上，如图1(a)、图4(a)至图4(c)、图5(a)至图5(c)、图6(a)、图6(b)、图7(a)、图7(b)、图8(a)和图8(b)所示。通过从方位传感器的测量结果确定客户环境的重力方向来确定方位。

依据期望的实现，如图1(b)和图2所示，视频可以是来自移动装置的实时视频，方位传感器测量结果可以是来自移动装置的实时方位传感器测量结果，而手部信息可以包括根据从来自跟踪装置的用户手部的实时测量结果而确定的手部可视化参数以及手部骨骼关节测量结果。

依据期望的实现，处理器1103可以被配置为通过基于手部骨骼关节测量结果生成用户手部的3D手部模型作为表示，来基于手部信息将用户手部的表示叠置在视频上，以供由设备进行显示，并基于视频的色调信息和视频上检测到的对象中的一个或更多个，来调整叠置在视频上的3D模型的颜色和尺寸中的一个或更多个，如图6(a)至图6(b)、图7(a)至图7(b)以及图8(a)至图8(b)所示。

如图2和图3所示，处理器1103可以被配置为通过网络浏览器建立从装置到移动装置的另一网络浏览器的浏览器至浏览器连接；其中，通过浏览器至浏览器连接，从移动装置接收视频和方位传感器测量结果，以及从装置发送手部信息。

依据期望的实现，处理器1103可以被配置为经由I/F 1106向移动装置发送从麦克风1102记录的音频；以及根据期望的实现，通过任何传统扬声器输出从移动装置接收的音频。

如图9所示，视频可以是先前记录的视频，并且方位传感器测量结果是先前记录的方位传感器测量结果。

图12例示了具有适合于在一些示例性实现中使用的示例计算装置的示例计算环境，诸如在客户装置与已建立装置之间建立连接的服务器(例如，WebRTC信令服务器200)。计算环境1200中的计算装置1205可以包括一个或更多个处理单元、核心或处理器1210，存储器1215(例如，RAM、和/或ROM等)，内部储存器1220(例如，磁储存器、光储存器、固态储存器和/或有机物)和/或I/O接口1225，它们中的任何一个可以联接在通信机制或总线1230上以用于通信信息或嵌入计算装置1205中。I/O接口1225还被配置为依据期望的实现而接收来自相机的图像或向投影仪或显示器提供图像。

计算装置1205可以在通信上联接到输入/用户接口1235和输出装置/接口1240。输入/用户接口1235和输出装置/接口1240中的任一者或两者可以是有线接口或无线接口，并且可以是可拆卸的。输入/用户接口1235可以包括可用于提供输入的任何装置、组件、传感器、或物理或虚拟接口(例如，按钮、触摸屏接口、键盘、指向/光标控件、麦克风、相机、盲文、运动传感器、和/或光学阅读器等)。输出装置/接口1240可以包括显示器、电视、监视器、打印机、扬声器、盲文等。在一些示例实现中，输入/用户接口1235和输出装置/接口1240可以嵌入或物理联接至计算装置1205。在其它示例实现中，其它计算装置可以起到计算装置1205的输入/用户接口1235以及输出设备/接口1240的作用或提供计算装置1205的输入/用户接口1235以及输出设备/接口1240的功能。

计算装置1205的示例可以包括但不限于高度移动的装置(例如，智能电话、车辆和其它机器中的装置、由人类和动物携带的装置等)、移动装置(例如，平板电脑、笔记本电脑、膝上型计算机、个人计算机、便携式电视、收音机等)、以及并非为移动性而设计的装置(例如，台式计算机、其它计算机、信息亭、具有嵌入其内和/或联接至其的一个或更多个处理器的电视、收音机等)。

计算装置1205可以在通信上联接(例如，经由I/O接口1225)至外部储存器1245和网络1250，以与任意数量的联网组件、装置和系统(包括相同或不同配置的一个或更多个计算装置)通信。计算装置1205或任何连接的计算装置可以用作或被称为服务器、客户端、瘦服务器、通用机器、专用机器或另一标签，或提供服务器、客户端、瘦服务器、通用机器、专用机器或另一标签的服务。

I/O接口1225可以包括但不限于使用任何通信或I/O协议或标准(例如，以太网、802.11x、通用系统总线，WiMax、调制解调器、蜂窝网络协议等)的有线和/或无线接口，用于向和/或从计算环境1200中的至少所有已连接组件、装置和网络通信信息。网络1250可以是任何网络或网络的组合(例如，互联网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。

计算装置1205可以使用包括暂时性介质和非暂时性介质的计算机可用或计算机可读介质和/或使用包括暂时性介质和非暂时性介质的计算机可用或计算机可读介质来通信。暂时性介质包括传输介质(例如，金属电缆、光纤)、信号、载波等。非暂时性介质包括磁介质(例如，盘和带)、光学介质(例如，CD ROM、数字视频盘、蓝光盘)、固态介质(例如，RAM、ROM、闪存、固态储存器)以及其它非易失性储存器或存储器。

计算装置1205可以用于在一些示例计算环境中实现技术、方法、应用、过程或计算机可执行指令。可以从暂时性介质中取回计算机可执行指令，并将其存储在非暂时性介质中并从该非暂时性介质中取回。可执行指令可以源自任何编程、脚本和机器语言(例如，C、C++、C#、Java、Visual Basic、Python、Perl、JavaScript等)中的一种或更多种。

处理器1210可以在本机或虚拟环境中的任何操作系统(OS)(未示出)下执行。可以部署一个或更多个应用，包括逻辑单元1260、应用编程接口(API)单元1265、输入单元1270、输出单元1275、以及用于不同单元彼此通信、与OS通信以及与其它应用(未示出)通信的单元间通信机制1295。所描述的单元和元件可以在设计、功能、配置或实现上变化，并且不限于所提供的描述。处理器1210可以是诸如中央处理单元(CPU)之类的硬件处理器的形式，或者是硬件和软件单元的组合

在一些示例实现中，当信息或执行指令被API单元1265接收到时，它可以被通信给一个或更多个其它单元(例如，逻辑单元1260、输入单元1270、输出单元1275)。在一些实例中，在上述一些示例实现中，逻辑单元1260可以被配置为控制单元之间的信息流，并引导由API单元1265、输入单元1270、输出单元1275提供的服务。例如，一个或更多个处理或实现的流程可以由逻辑单元1260单独控制或与API单元1265结合进行控制。输入单元1270可以配置为获取用于示例实现中描述的计算的输入，并且输出单元1275可以被配置为基于示例实现中描述的计算来提供输出。

如图2和图3所示，处理器1210可以被配置为从移动装置接收第一连接(例如，通过浏览器并且选择图3的“我是客户”按钮)，从在通信上联接到跟踪装置的另一装置接收第二连接(例如，通过浏览器并且选择图3的“我是专家”按钮)；并在移动装置和另一装置之间建立第三连接，以便于视频和方位传感器测量结果从移动装置向另一装置的传输，以及便于手部信息从另一装置向移动装置的传输，如图2所示。如图3所示，可以通过网络浏览器来接收第一连接和第二连接，其中，建立第三连接包括在图10的移动装置和诸如图11的系统之类的另一装置之间建立直接的浏览器至浏览器连接。

如图1(a)、图1(b)和图2所示，视频可以是来自移动装置的实时视频，方位传感器测量结果可以是来自移动装置的实时方位传感器测量结果，而手部的信息可以包括根据来自跟踪装置的用户手的实时测量结果而确定的手部可视化参数以及手部骨骼关节测量结果。

如图9所示，视频可以是先前记录的视频，并且方位传感器测量结果可以是先前记录的方位传感器测量结果。

尽管本文参照测量用户手部描述了示例实现，但是根据期望的实现，示例实现可以扩展到除用户手部以外的对象(例如，用户脚部、手写笔、任何种类的工具)，只要对象的形式已知并且可以转换为骨骼关节和可视化参数以便于期望的实现即可。

按照计算机内的算法和操作的符号表示来呈现详细描述的一些部分。这些算法描述和符号表示是数据处理领域技术人员用来向本领域其它技术人员传达其创新实质的手段。算法是得到期望的最终状态或结果的一系列已定义的步骤。在示例实现中，执行步骤需要对有形数量的物理操纵以实现有形结果。

除非另外特别说明，否则从讨论中可明显看出，应理解，在整个说明书中，利用诸如“处理”、“计算”、“计算出”、“确定”、“显示”等术语的讨论可以包括计算机系统或其它信息处理装置的动作和过程，该动作和过程将在计算机系统的寄存器和存储器内表示为物理(电子)量的数据操纵和变换成在计算机系统的存储器或寄存器或其它信息存储、传输或显示装置内类似地呈现为物理量的其它数据。

示例性实现还可以涉及用于执行本文操作的设备。该设备可以是为所需目的而专门构造的，或者它可以包括通过一个或更多个计算机程序选择性地激活或重新配置的一个或更多个通用计算机。这样的计算机程序可以存储在计算机可读介质中，诸如计算机可读存储介质或计算机可读信号介质。计算机可读存储介质可以包括有形介质，诸如但不限于光盘、磁盘、只读存储器、随机存取存储器、固态装置和驱动器、或者适于存储电子信息的任何其它类型的有形或非暂时性介质。计算机可读信号介质可以包括诸如载波的介质。本文呈现的算法和显示并非固有地与任何特定计算机或其它设备相关。计算机程序可以包括纯软件实现，纯软件实现包括执行期望实现的操作的指令。

根据本文的示例，各种通用系统可以与程序和模块一起使用，或者可以证明便于构造更专用设备以执行期望的方法步骤。另外，未参照任何特定编程语言描述示例性实现。将理解，可以使用各种编程语言来实现如本文所述的示例性实现的教导。编程语言的指令可以由一个或更多个处理装置(例如，中央处理单元(CPU)、处理器或控制器)执行。

如本领域中已知的，上述操作可以由硬件、软件或软件和硬件的一些组合来执行。可以使用电路和逻辑装置(硬件)来实现示例性实现的各个方面，而其它方面可以使用机器可读介质上存储的指令(软件)来实现，如果由处理器执行该指令则将使处理器执行实施本申请的实现的方法。此外，本申请的一些示例性实现可以仅在硬件中执行，而其它示例性实现可以仅在软件中执行。此外，所描述的各种功能可以在单个单元中执行，或者可以以任何数量的方式分布在多个组件上。当由软件执行时，该方法可以基于计算机可读介质上存储的指令由诸如通用计算机的处理器来执行。如果需要，指令可以以压缩和/或加密格式存储在介质上。

此外，考虑到说明书及实践本申请的教导，本申请的其它实现对于本领域技术人员而言将是显而易见的。所描述的示例实现的各个方面和/或组件可以单独使用或以任何组合来使用。旨在将说明书和示例实现仅视为示例，本申请的真实范围和精神由所附权利要求指示。

Claims

1.一种非暂时性计算机可读介质，该非暂时性计算机可读介质存储用于执行移动装置的处理的指令，所述移动装置包括方位传感器和相机，所述指令包括：

向另一装置发送来自所述相机的视频和来自所述方位传感器的测量结果；

从所述另一装置接收与用户手部相关联的手部信息；以及

基于所述手部信息将所述用户手部的表示叠置在所述视频上以供由所述移动装置进行显示，所述用户手部的所述表示按照从来自所述方位传感器的所述测量结果所确定的方位而叠置在所述视频上。

2.根据权利要求1所述的非暂时性计算机可读介质，其中，所述视频是来自所述移动装置的所述相机的实时视频，所述测量结果是来自所述方位传感器的实时测量结果，并且所述手部信息包括从所述用户手部的实时运动而确定的手部可视化参数和手部骨骼关节测量结果。

3.根据权利要求2所述的非暂时性计算机可读介质，其中，基于所述手部信息将所述用户手部的表示叠置在所述视频上以供由所述移动装置进行显示包括：基于所述手部骨骼关节测量结果而生成所述用户手部的3D手部模型作为所述表示，并且基于所述视频的色调信息和所述视频上检测到的对象中的一种或更多种，调整叠置在所述视频上的所述3D手部模型的颜色和尺寸中的一种或更多种。

4.根据权利要求1所述的非暂时性计算机可读介质，所述指令还包括：

通过网络浏览器，建立从所述移动装置到所述另一装置的另一网络浏览器的浏览器至浏览器连接；

其中，通过所述浏览器至浏览器连接来进行向所述另一装置发送来自所述相机的所述视频以及来自所述方位传感器的所述测量结果，以及接收来自所述另一装置的所述手部信息。

5.根据权利要求1所述的非暂时性计算机可读介质，其中，所述指令还包括：

向所述另一装置发送从麦克风记录的音频；以及

输出从所述另一装置接收的音频。

6.根据权利要求1所述的非暂时性计算机可读介质，其中，所述视频是先前记录的视频，其中，来自所述方位传感器的所述测量结果是先前记录的测量结果。

7.一种非暂时性计算机可读介质，该非暂时性计算机可读介质存储用于执行在通信上联接至跟踪装置的装置的处理的指令，所述指令包括：

从移动装置接收视频和方位传感器测量结果；

从另一装置发送与用户手部相关联的手部信息，所述手部信息是基于从所述跟踪装置获得的测量结果而生成的；以及

基于所述手部信息将所述用户手部的表示叠置在所述视频上以供由所述装置进行显示，所述用户手部的所述表示按照从来自所述方位传感器的所述测量结果而确定的方位而叠置在所述视频上。

8.根据权利要求7所述的非暂时性计算机可读介质，其中，所述视频是来自移动装置的实时视频，所述方位传感器测量结果是来自所述移动装置的实时方位传感器测量结果，并且所述手部信息包括从来自所述跟踪装置的所述用户手部的实时测量结果而确定的手部可视化参数和手部骨骼关节测量结果。

9.根据权利要求8所述的非暂时性计算机可读介质，其中，基于所述手部信息将所述用户手部的表示叠置在所述视频上以供由所述装置进行显示包括：基于所述手部骨骼关节测量结果而生成所述用户手部的3D手部模型作为所述表示，并且基于所述视频的色调信息和所述视频上检测到的对象中的一种或更多种，调整叠置在所述视频上的所述3D手部模型的颜色和尺寸中的一种或更多种。

10.根据权利要求7所述的非暂时性计算机可读介质，所述指令还包括：

通过网络浏览器，建立从所述装置到所述移动装置的另一网络浏览器的浏览器至浏览器连接；

其中，通过所述浏览器至浏览器连接来进行从所述移动装置接收所述视频以及所述方位传感器测量结果，以及从所述装置发送手部信息。

11.根据权利要求7所述的非暂时性计算机可读介质，其中，所述指令还包括：

向所述移动装置发送从麦克风记录的音频；以及

输出从所述移动装置接收的音频。

12.根据权利要求7所述的非暂时性计算机可读介质，其中，所述视频是先前记录的视频，其中，所述方位传感器测量结果是先前记录的方位传感器测量结果。

13.一种非暂时性计算机可读介质，该非暂时性计算机可读介质存储用于服务器的指令，所述指令包括：

从移动装置接收第一连接；

从在通信上联接到跟踪装置的另一装置接收第二连接；

在所述移动装置和所述另一装置之间建立第三连接，以便于视频和方位传感器测量结果从所述移动装置到所述另一装置的传输并且便于手部信息从所述另一装置到所述移动装置的传输。

14.根据权利要求13所述的非暂时性计算机可读介质，其中，所述第一连接和所述第二连接是通过网络浏览器接收的，其中，建立所述第三连接包括在所述移动装置与所述另一装置之间建立直接的浏览器至浏览器连接。

15.根据权利要求13所述的非暂时性计算机可读介质，其中，所述视频是来自所述移动装置的实时视频，所述方位传感器测量结果是来自所述移动装置的实时方位传感器测量结果，并且所述手部信息包括从来自所述跟踪装置的用户手部的实时测量结果而确定的手部可视化参数和手部骨骼关节测量结果。

16.根据权利要求13所述的非暂时性计算机可读介质，其中，所述视频是先前记录的视频，其中，所述方位传感器测量结果是先前记录的方位传感器测量结果。