CN112394810A

CN112394810A - 捕获和渲染远程呈现文档图像上的手部骨架的系统和方法

Info

Publication number: CN112394810A
Application number: CN201910763145.XA
Authority: CN
Inventors: 金哲暄; P·邱; J·A·A·德拉佩娜; L·德努; 新宫淳
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2021-02-23

Abstract

捕获和渲染远程呈现文档图像上的手部骨架的系统和方法。在远程用户讨论文档或幻灯片的远程呈现场景中，可能难以紧跟正在讨论文档的哪些部分。解决这个问题的一种方式是通过显示用户手部正指着文档上的哪个位置来提供反馈，这也使得能够进行比简单的远程光标更具表现力的手势通信。重要的实际问题是如何高效地将该远程反馈与高分辨率文档图像一起发送。对于分辨率不足的标准视频会议系统，这是不可能的。提出了一种基于使用手部骨骼提供反馈的方法。可以使用深度相机或(具有深度网络算法的)网络摄像头捕获骨架，并且可以(在没有视频编解码器的情况下)以高帧速率发送小数据。

Description

捕获和渲染远程呈现文档图像上的手部骨架的系统和方法

技术领域

所公开的实施方式总体上涉及用户间的远程交互的系统和方法，并且更具体地，涉及用于捕获和渲染在远程呈现的文档图像上方的手部骨架的系统和方法。

背景技术

在远程用户正在通过文档或幻灯片进行讨论的远程呈现场景中，可能难以紧跟讨论。通常，文档图像的实时视图被示出在其自身的窗口中，与远程用户的面部和身体的视频图像的视图分开，参见图1(a)、图1(b)、图1(c)、图1(d)和图1(e)。当用户正在谈论或提到文档中的不同部分时，难以紧跟正在讨论哪个部分。

一种解决方案是提供作为远程图形光标的远程指针，但是这带来的不足是，如果光标太小，则在电话会议设置中难以被看到，而如果光标太大，则这造成内容被过多遮挡。此外，图形光标不太具有表现力。关于交互，如果使用鼠标控制光标，则交互不像用户指着文档中的部分一样简单和直接。

更好的解决方案是允许用户指着文档中的一些部分并且使用视频会议系统在远程站点处示出它，例如参见图2(a)和图2(b)。然而，现有的标准视频会议技术并不支持以足够高的分辨率读取文档页。因此，重要的实际问题是如何高效地将手部移动连同高分辨率文档图像一起发送。因此，需要新的改进的系统和方法。

发明内容

本文中描述的实施方式涉及基本上消除了与传统远程呈现技术关联的以上问题和其它问题中的一个或更多个的方法和系统。

按照本文中描述的发明构思的一方面，提供了一种计算机实现的方法，所述方法在包括相机和中央处理单元的计算机化系统中执行，所述计算机实现的方法涉及：a.使用所述相机跟踪用户的手部和文档的表面，以获得用户手部数据和文档跟踪数据；b.使用所述相机基于所述文档跟踪数据来捕获所述文档的高分辨率图像；c.将所述文档的高分辨率图像发送到远程计算系统；d.将所获得的用户手部数据发送到所述远程计算系统；以及e.在所述远程计算系统上，渲染插入在所述文档的高分辨率图像上方的所述用户手部数据的表现。

在一个或更多个实施方式中，所述用户手部数据与所述文档的高分辨率图像是分开的且不同的。

在一个或更多个实施方式中，所述用户手部数据包括用户的手部关节的坐标。

在一个或更多个实施方式中，所述用户手部数据包括用户的21个手部关节的坐标。

在一个或更多个实施方式中，所述用户手部数据被归一化。

在一个或更多个实施方式中，所述用户手部数据是手部骨架数据。

在一个或更多个实施方式中，所述方法还包括校正所捕获的所述文档的高分辨率图像。

在一个或更多个实施方式中，所述方法还包括裁剪所捕获的所述文档的高分辨率图像。

在一个或更多个实施方式中，所述相机是网络相机。

在一个或更多个实施方式中，所述相机是深度相机。

在一个或更多个实施方式中，渲染所述用户手部数据的表现包括生成所述用户手部的虚拟阴影。

在一个或更多个实施方式中，基于所述用户手部与所述文档之间的距离进行所述虚拟阴影的渲染。

在一个或更多个实施方式中，使用深度相机确定所述用户手部与所述文档之间的距离。

在一个或更多个实施方式中，所述方法还包括循环重复步骤c、d和e。

在一个或更多个实施方式中，所述方法还包括当所述文档改变时重复步骤a和b。

在一个或更多个实施方式中，在网络浏览器中执行所述渲染。

在一个或更多个实施方式中，使用基于深度学习的手部姿势估计器来跟踪所述用户的手部。

在一个或更多个实施方式中，渲染所述用户手部数据的表现包括重新缩放并平移所述用户手部数据。

按照本文中描述的发明构思的另一方面，提供了一种非临时计算机可读介质，所述非临时计算机可读介质包括计算机可执行指令的集合，当与包括中央处理单元和相机的计算机化系统相关地执行时，所述计算机可执行指令使所述计算机化系统执行涉及以下步骤的方法：使用所述相机跟踪用户的手部和文档的表面，以获得用户手部数据和文档跟踪数据；使用所述相机基于所述文档跟踪数据来捕获所述文档的高分辨率图像；将所述文档的高分辨率图像发送到远程计算系统；将所获得的用户手部数据发送到所述远程计算系统；以及在所述远程计算系统上，渲染插入在所述文档的高分辨率图像上方的所述用户手部数据的表现。

按照本文中描述的发明构思的又一方面，提供了一种包括中央处理单元、相机和存储器的计算机化系统，所述存储器存储使所述计算机化系统执行涉及以下步骤的方法的计算机可读指令的集合：使用所述相机跟踪用户的手部和文档的表面，以获得用户手部数据和文档跟踪数据；使用所述相机基于所述文档跟踪数据来捕获所述文档的高分辨率图像；将所述文档的高分辨率图像发送到远程计算系统；将所获得的用户手部数据发送到所述远程计算系统；以及在所述远程计算系统上，渲染插入在所述文档的高分辨率图像上方的所述用户手部数据的表现。

与本发明相关的另外的方面将在随后的描述中被部分地阐明，并且部分地将根据描述而显而易见，或者可通过本发明的实践而获知。通过在以下及具体实施方式和所附权利要求书中特别指出的元件和各种元件和方面的组合，可以实现并获得本发明的各方面。

要理解，以上描述和以下描述二者都仅是示例性和说明性的，并不旨在以任何方式限制要求保护的发明或其应用。

附图说明

并入且构成本说明书的一部分的附图例示了本发明的实施方式，并且与描述一起用于说明和例示发明构思的原理。具体地：

图1(a)、图1(b)、图1(c)、图1(d)和图1(e)例示了用于查看纸文档页上的远程手部反馈的各种选项，包括：(a)没有反馈、(b)与文档交互的手部的视频、(c)、(d)、(e)被发送的和在高分辨率捕获文档图像上渲染的检测到的骨架。

图2(a)和图2(b)例示了：(a)骨架被渲染的高分辨率捕获文档的特写、(b)骨架数据被用加粗和成为半透明之前的线段表示。

图3例示了用于捕获和渲染在远程呈现的文档图像上方的手部骨架的计算机化系统的示例性实施方式。

图4例示了用于捕获和渲染在远程呈现的文档图像上方的手部骨架的计算机化系统的实施方式的示例性操作序列。

图5例示了用于捕获和发送后续在远程计算机系统上渲染的高分辨率文档图像数据以及手部骨架数据的示例性流程。

图6(a)和图6(b)例示了使用人工阴影来更好地理解手部与纸的距离并且提供3D效果以便更好地远程呈现。

图7例示了用于捕获和渲染在远程呈现的文档图像上方的手部骨架的计算机化系统的示例性实施方式。

具体实施方式

在下面的详细描述中将参照附图，在附图中，用相同的标号指定相同的功能元件。以上提到的附图通过例示的方式而非限制的方式示出了符合本发明原理的特定实施方式和实现方式。足够详细地描述了这些实现方式，以使本领域的技术人员能够实践本发明，并且要理解，可以利用其它实现方式，并且可以在不脱离本发明的范围和精神的情况下进行各种元件的结构改变和/或替换。因此，将不以限制含义理解以下详细描述。另外，所描述的本发明的各种实施方式可以以在通用计算机上运行的软件的形式、以专用硬件的形式或者软件和硬件的组合的形式来实现。

根据本文中描述的实施方式的一方面，提供了基于使用手部骨架在远程用户交互期间提供反馈的系统和方法。在各种实施方式中，使用深度相机或(具有深度网络算法的)网络摄像头捕获骨架，并且(在没有视频编解码器的情况下)以高帧速率发送小数据。相结合地，用高分辨率相机捕获文档图像，并且只有在文档页改变时才发送文档图像。使用在远程站点处的网络浏览器上执行的轻量级客户端软件应用来处理骨架数据和文档图像二者。

图3例示了用于捕获和渲染在远程呈现的文档图像上方的手部骨架的计算机化系统300的示例性实施方式。在一个实施方式中，所描述的系统使用安装在书桌上方的高分辨率相机301来捕获高分辨率文档页图像。可选地，相机301可以被安装在倾斜支架302上。除了高分辨率相机301之外，还可以提供可以作为网络摄像头或深度相机的第二相机311，第二相机311也被安装在书桌上方，以捕获与文档页304交互的用户手部305的视频帧。由相机311获取的图像数据被发送到计算机系统306，以进行下面详细描述的处理。最后，处理后的数据通过计算机网络被发送到远程计算机系统307，从而执行用于向远程用户显示数据的浏览器应用308。在另选的实施方式中，仅一个相机可以被用于进行文档捕获和手部跟踪二者。

图4例示了用于捕获和渲染在远程呈现的文档图像上方的手部骨架的计算机化系统的实施方式的示例性操作序列400。在步骤401中，几乎实时地跟踪手部骨架和文档页的边界。在一个实施方式中，可以例如以每秒6帧的速率执行上述的跟踪。在一个实施方式中，可以使用基于二者均在本领域中公知的例如Zimmermann，C.、Brox，T的Learning toEstimate 3D Hand Pose from Single RGB Images(arXiv:1705.01389v1[cs.CV]，2017年5月3日)中描述的基于例如手势估计器Hand3D进行的现有技术的深度学习以及DropBox公司提供的文档检测方法来执行上述跟踪。在一个实施方式中，DropBox的文档检测方法在具有OpenCV 3.2的Python中实现，并且以12fps运行，以便检测简单背景中的文档页。Hand3D的Python和TensorFlow实现方式可在作者的网页上获得，并且以15fps在具有GPU的桌面上运行。所得的帧速率为6fps。

在步骤402中，高分辨率质量的经校正和裁剪的文档页图像由相机301捕获，并且准备好使用例如Kim,C.、Chiu,P.、Tang,H.的High-quality capture of documents on acluttered tabletop with a 4K video camera以及美国专利申请序列号No.14/637,391中描述的系统(Proceedings of ACM DocEng 2015，第219-222页)发送到服务器。最后，在所述步骤402中，高分辨率文档页图像被发送到远程计算机系统307。

在步骤403中，基于前述跟踪的结果，使用相机301捕获两个手部骨架数据并且进行处理。在一个或更多个实施方式中，所捕获的骨架数据包括描述形成手部骨架的线段的数字的集合。如本领域的普通技术人员所理解的，上述的骨架数据相对紧凑，因此，可以以高帧速率经由数据网络被发送，而不需要采用视频编解码器。

如本领域的普通技术人员将理解的，高分辨率文档图像是静态的并且只需要由相机301捕获一次。只有在文档页改变时才需要重新捕获新的文档图像，参见图4中的步骤404。因此，因为文档的图像是静态的，所以仅需要将其发送到远程服务器一次，并且只有在文档页改变时才需要发生后续发送。这极大地节省了所需的网络带宽以及远程客户端上的处理资源。

一旦远程计算系统307经由数据网络接收到手部骨架数据和高分辨率文档图像数据，就插入相应的数据，并且渲染所得的文档和用户手部的视觉表现并且向用户进行显示。因为高分辨率文档图像数据是静态的并且手部骨架数据相对紧凑，所以在一个实施方式中，可以使用在远程计算机系统处的网络浏览器上执行的轻量级客户端应用来处理手部骨架数据和高分辨率文档图像两者的渲染。图5例示了用于捕获和发送后续在远程计算机系统307上的网络浏览器画布506、507上渲染的高分辨率文档图像数据503以及手部骨架数据502的示例性流程。在一个实施方式中，通过服务器505发送高分辨率文档图像数据(当文档页面改变时)和手部骨架数据。

在一个或更多个实施方式中，在远程计算机系统307处渲染所得的叠加图时，可以通过另外提供人手部阴影的表现来增强3D远程呈现效果，例如参见图6(a)和图6(b)。

在一个或更多个实施方式中，为了在经校正的高分辨率文档页图像上根据透视图像渲染手部骨架，需要在校正手部骨架数据之后将其发送到远程计算机系统307。此外，因为在远程计算机系统307处远程用户的网络浏览器308上渲染的高分辨率文档页图像的比例尺可以变化，所以所描述的系统发送归一化的手部骨架数据并且允许远程方选择适宜的比例尺进行最终渲染。在一个实施方式中，系统使用被跟踪的文档页边界和规范方框(用于归一化)之间的投影变换(用于透视失真消除)。在一个示例性实施方式中，手部骨架数据502包括21个手部关节，并且通过该投影变换504映射每个关节(透视图像中的点)，参见图5。

在一个或更多个实施方式中，在远程计算机系统307处，所发送的高分辨率文档页图像在网络浏览器308的画布上被渲染，并且基于其在画布上的大小和位置(分别地，图5中的(W，H)和v)，将归一化的手部骨架数据重新缩放并平移。在一个或更多个实施方式中，因为手部骨架的数据大小小(21个浮置数据类型2-向量)，所以可以以相对高的帧速率发送它，而只有当页改变时，才发送高分辨率文档页图像，参见图4中的步骤404。在远程计算机系统307处的网络浏览器308上运行的轻量级客户端应用将手部骨架渲染为在高分辨率文档页上方成为半透明的，如图1(c)所示出的。

在一个或更多个实施方式中，还可以通过示出阴影来增强反馈的可视化。在一个实施方式中，添加人造阴影，以更好地理解手部与纸的距离并且提供3D效果以进行更好地远程呈现，参见图6(a)和图6(b)。在一个实施方式中，出于计算阴影的目的，该系统不依赖于3D坐标。如本领域的普通技术人员将理解的，这样减少了计算负荷和网络流量。为此，在一个实施方式中，2D手部骨架简单地在方向v上移位距离d，骨架的大小按s缩放，其中，d值和s值相对于手部与文档页之间的距离是线性的。当手部更靠近文档时，d和s变小。类似地，阴影的颜色透明度和线条粗细分别为p和t；这些值也相对于手部与文档页之间的距离是线性的。在一个实施方式中，手部与文档页之间的距离可以从深度相机获得，或者通过用手部的相对大小和纸的大小估计它而从网络摄像头获得。

在一个或更多个实施方式中，通过向用本领域公知的OpenCV实现的文档页的四个角应用例如在Hartley,R.和Zisseman,A.的Multiple View Geometry in ComputerVision(Cambridge University Press 2004)中描述的归一化直接线性变换(DLT)算法来获得投影变换。

在一个或更多个实施方式中，在网络浏览器308中，使用多种技术将手部骨架数据叠加在文档图像上方。因为高分辨率图像的大小有可能大，所以利用当前浏览器技术将其渲染为CANVAS并且将手部绘制在所述CANVAS中将使帧速率降低。另选地，在一个实施方式中，系统渲染静态处于高分辨率页图像上方的叠加图中的手部。叠加图可以被实现为CANVAS元素和使用CANVAS的2D图形背景下可用的绘画命令绘制的手部。另选地，叠加图可以被实现为动态生成的SVG图形。所有SVG图形基元都可以被用于渲染手部。因为SVG是基于向量的，所以它在任何屏幕分辨率下精确地缩放；利用CANVAS实现方式，高分辨率显示器(诸如iOS装置上发现的视网膜显示器)将会需要将CANVAS缩放至可见像素大小的3倍，从而将再次放慢帧速率。除了SVG之外，叠加图还可以使用WebGL：它的3D绘图API例如可以被用于渲染具有更逼真渲染选项的3D手部模型，以例如在页图像上方重建投射阴影，而无需使用来自SVG或CANVAS的2D图形背景的低级图形基元。

另外，在一个或更多个实施方式中，可以使用本领域公知的诸如<DIV>这样的HTML元素渲染在文档页图像上方的手部骨架。结合CSS变换，可以使用适宜的变换，实时地旋转和移动每个手部片段。此外，CSS不透明度值和渐变可以被用于修改每个手部片段的纹理。也可以通过在主DIV元素下方创建更多元素来实现阴影。这种方法广泛可用并且是基于向量的，所以它在任何显示分辨率上进行原生缩放，而没有对帧速率产生负担。

示例性计算机平台

图7例示了用于捕获和渲染在远程呈现的文档图像上方的手部骨架的计算机化系统700的示例性实施方式。在一个或更多个实施方式中，计算机化系统700可以在本领域的技术人员公知的台式计算机的形状因子内实现。在另选实施方式中，可以基于膝上型计算机或笔记本计算机或诸如智能电话或平板计算机这样的任何其它移动计算装置来实现计算机化系统700。

计算机化系统700可以包括数据总线704或跨计算机化系统700的各种硬件部件以及在这些硬件部件之间进行信息通信的其它互连或通信机构以及与数据总线704电联接以便处理信息并且执行其它计算任务和控制任务的中央处理单元(CPU或简称处理器)701。计算机化系统700还包括联接到数据总线704以便存储各种信息以及将由处理器701执行的指令的诸如随机存取存储器(RAM)或其它动态存储装置这样的存储器712。存储器712还可以包括诸如磁盘、光盘、固态闪存装置或其它非易失性固态存储装置这样的持久性存储装置。

在一个或更多个实施方式中，存储器712还可以被用于在处理器701执行指令期间存储临时变量或其它中间信息。可选地，计算机化系统700还可以包括只读存储器(ROM或EPROM)702或诸如计算机化系统700、基本输入-输出系统(BIOS)以及计算机化系统700的各种配置参数的操作所必需的固件这样的联接到数据总线704以便存储用于处理器701的静态信息和指令的其它静态存储装置。

在一个或更多个实施方式中，计算机化系统700可以包含显示装置711，显示装置711也可以被电联接到数据总线704，以便向计算机化系统700的用户显示各种信息，诸如，示出预测用户关注状态的用户界面。在另选实施方式中，显示装置711可以与图形控制器和/或图形处理器(未示出)关联。显示装置711可以被实现为例如使用薄膜晶体管(TFT)技术或有机发光二极管(OLED)技术制造的液晶显示器(LCD)，这两种技术都是本领域的普通技术人员公知的。在各种实施方式中，显示装置711可以与计算机化系统700的其余部件一起装入同一通用外壳中。在另选实施方式中，显示装置711可以位于此外壳的外部，诸如，在桌子或书桌的表面上。在一个或更多个实施方式中，计算机化系统700还可以装入诸如麦克风这样的音频捕获装置703中。

在一个或更多个实施方式中，计算机化系统700还可以装入音频回放装置725，音频回放装置725电连接到数据总线704并且被配置为播放本领域的普通技术人员公知的诸如MPEG-3文件的各种音频文件或诸如MPEG-4文件这样的各种视频文件的音轨。为此，计算机化系统700还可以装入声波处理器或类似装置(未示出)。

在一个或更多个实施方式中，计算机化系统700可以装入用于与处理器701进行直接信息的通信和命令选择并且用于控制光标在显示器711上的移动的诸如鼠标/指示装置710(诸如，鼠标、跟踪球、触摸板或光标方向键)这样的一个或更多个输入装置。该输入装置通常在两个轴(即，第一轴(例如，x)和第二轴(例如，y))上具有两个自由度，以允许装置指定平面中的位置。

计算机化系统700还可以装入网络相机726以及键盘706，网络相机726以及键盘706都可以联接到数据总线704以便向处理器701传送信息，包括但不限于图像和视频以及用户命令(包括手势)。网络相机726可以被用于跟踪桌面上的文档角，从而捕获文档页的高分辨率图像同时获得手部骨架坐标。

在一个或更多个实施方式中，计算机化系统700可以还包括诸如联接到数据总线704的网络接口705这样的通信接口。网络接口705可以被配置为使用WiFi接口707、蜂窝网络(GSM或CDMA)适配器708和/或局域网(LAN)适配器709中的至少一种在计算机化系统700与互连网724之间建立连接。网络接口705可以被配置为使计算机化系统700与互联网724之间能够进行双向数据通信。WiFi适配器707可以遵循802.11a、802.11b、802.11g和/或802.11n协议以及本领域的普通技术人员公知的蓝牙协议进行操作。计算机化系统700的LAN适配器709可以例如使用集成服务数字网(ISDN)卡或调制解调器来实现，以提供与对应类型的电话线的数据通信连接，该电话线使用互联网服务提供商的硬件(未示出)与互联网724通过接口连接。作为另一示例，LAN适配器709可以是局域网接口卡(LAN NIC)，以提供与兼容的LAN和互联网724的数据通信连接。在示例性实现方式中，WiFi适配器707、蜂窝网络(GSM或CDMA)适配器708和/或LAN适配器709发送和接收承载表示各种类型信息的数字数据流的电信号或电磁信号。

在一个或更多个实施方式中，互联网724通常通过一个或更多个子网络提供与其它网络资源的数据通信。因此，计算机化系统700能够访问诸如远程媒体服务器、网络服务器、其它内容服务器以及其它网络数据存储资源这样的位于互联网724上任何位置处的各种网络资源。在一个或更多个实施方式中，计算机化系统700被配置为借助于网络接口705将包括应用程序代码的消息、媒体和其它数据通过包括互联网724的各种网络进行发送和接收。在互联网示例中，当计算机化系统700充当网络客户端时，它可以请求用于在计算机化系统700上执行的应用程序的代码或数据。类似地，它可以将各种数据或计算机代码发送到其它网络资源。

在一个或更多个实施方式中，响应于处理器701执行存储器712中所包含的一条或更多条指令的一个或更多个序列，由计算机化系统700实现本文描述的功能。可以从其它计算机可读介质将这些指令读入存储器712中。执行存储器712中所包含的指令序列致使处理器701能够执行本文中描述的各种处理步骤。在另选实施方式中，可以使用硬连线电路取代软件指令或者结合软件指令使用硬件电路来实现本发明的实施方式。因此，所描述的本发明的实施方式不限于硬件电路和/或软件的任何特定组合。

本文中使用的术语“计算机可读介质”是指参与向处理器701提供指令以供执行的任何介质。计算机可读介质仅仅是机器可读介质的一个示例，其可以承载用于实现本文中描述的任何方法和/或技术的指令。这种介质可以采用许多形式，包括但不限于非易失性介质和易失性介质。

常见形式的非临时计算机可读介质包括例如软盘、柔性盘、硬盘、磁带、或任何其它磁性介质、CD-ROM、任何其它光学介质、穿孔卡、纸带、任何具有孔图案的其它物理介质、RAM、PROM、EPROM、FLASH-EPROM、闪存驱动器、存储卡、任何其它存储芯片或盒式磁带或计算机可以读取的任何其它介质。在将一条或更多条指令的一个或更多个序列承载到处理器1501以供执行的过程中可以涉及各种形式的计算机可读介质。例如，指令最初可以被承载在远程计算机中的磁盘上。另选地，远程计算机可以将指令加载到其动态存储器中并且通过互联网724发送指令。具体地，可以使用本领域中公知的各种网络数据通信协议经由互联网724将计算机指令从上述远程计算机下载到计算机化系统700的存储器712中。

在一个或更多个实施方式中，计算机化系统700的存储器712可以存储以下软件程序、应用或模块中的任一种：

1.用于实现基本系统服务并管理计算机化系统700的各种硬件部件的操作系统(OS)713。操作系统713的示例性实施方式对于本领域的技术人员来说是公知的，并且可以包括任何现在已知或以后开发的移动操作系统。

2.应用714可以包括例如由计算机化系统700的处理器701执行的软件应用的集合，这些指令致使计算机化系统700执行诸如在显示装置711上显示图形用户界面这样的某些预定功能，或者执行捕获或渲染在远程呈现的文档图像上方的手部骨架。在一个或更多个实施方式中，应用714可以包括用于捕获在远程呈现的文档图像上方的手部骨架的创新的应用715。

3.数据存储器721可以例如存储诸如高分辨率文档图像数据722和手部骨架坐标数据723这样的在捕获或渲染远程呈现的文档图像上方的手部骨架时使用的各种数据结构。

在一个或更多个实施方式中，捕获和渲染在远程呈现的文档图像上方的手部骨架的创新应用715装入跟踪器模块716、校正器模块717、归一化模块718、数据传输模块719以及渲染模块720。

最后，应该理解，本文中描述的处理和技术并非固有地与任何特定设备相关，并且可以通过任何合适的部件组合来实现。另外，按照本文中描述的教导，可以使用各种类型的通用装置。构造专用设备以执行本文中描述的方法步骤也证实是有利的。已关于特定示例描述了本发明，这些示例在所有方面都旨在是例示性的而非限制性的。本领域的技术人员将理解，硬件、软件和固件的许多不同组合将适于实践本发明。例如，所描述的软件可以用诸如汇编程序、C/C++、Objective-C、perl、shell、PHP、Java以及任何现在已知的或以后开发的编程或脚本语言这样的各种编程或脚本语言来实现。

此外，在考虑到本文中公开的本发明的说明书和实践的情况下，本发明的其它实现方式对于本领域的技术人员而言将是显而易见的。所描述的实施方式的各个方面和/或部件可以被单独地或以任何组合方式用在捕获和渲染在远程呈现的文档图像上方的手部骨架的系统和方法中。说明书和示例仅仅被认为是示例性的，由随附权利要求指示本发明的真实范围和精神。

Claims

1.一种计算机实现的方法，所述方法在包括相机和中央处理单元的计算机化系统中执行，所述计算机实现的方法包括以下步骤：

a.使用所述相机跟踪一表面上的文档和用户的手部，以获得用户手部数据和文档跟踪数据；

b.使用所述相机基于所述文档跟踪数据来捕获所述文档的高分辨率图像；

c.将所述文档的高分辨率图像发送到远程计算系统；

d.将所获得的用户手部数据发送到所述远程计算系统；以及

e.在所述远程计算系统上，渲染插入在所述文档的高分辨率图像上方的所述用户手部数据的表现。

2.根据权利要求1所述的计算机实现的方法，其中，所述用户手部数据与所述文档的高分辨率图像是分开的且不同的。

3.根据权利要求1所述的计算机实现的方法，其中，所述用户手部数据包括所述用户的手部关节的坐标。

4.根据权利要求1所述的计算机实现的方法，其中，所述用户手部数据包括所述用户的21个手部关节的坐标。

5.根据权利要求1所述的计算机实现的方法，其中，所述用户手部数据被归一化。

6.根据权利要求1所述的计算机实现的方法，其中，所述用户手部数据是手部骨架数据。

7.根据权利要求1所述的计算机实现的方法，所述方法还包括以下步骤：校正所捕获的所述文档的高分辨率图像。

8.根据权利要求1所述的计算机实现的方法，所述方法还包括以下步骤：裁剪所捕获的所述文档的高分辨率图像。

9.根据权利要求1所述的计算机实现的方法，其中，所述相机是网络相机。

10.根据权利要求1所述的计算机实现的方法，其中，所述相机是深度相机。

11.根据权利要求1所述的计算机实现的方法，其中，渲染所述用户手部数据的表现包括生成用户手部的虚拟阴影。

12.根据权利要求11所述的计算机实现的方法，其中，基于所述用户手部与所述文档之间的距离来进行所述虚拟阴影的渲染。

13.根据权利要求12所述的计算机实现的方法，其中，使用深度相机来确定所述用户手部与所述文档之间的距离。

14.根据权利要求1所述的计算机实现的方法，所述方法还包括以下步骤：循环重复步骤a、d和e。

15.根据权利要求1所述的计算机实现的方法，所述方法还包括以下步骤：当所述文档改变时，重复步骤b和c。

16.根据权利要求1所述的计算机实现的方法，其中，所述渲染是在网络浏览器中执行的。

17.根据权利要求1所述的计算机实现的方法，其中，使用基于深度学习的手部姿势估计器来跟踪所述用户的手部。

18.根据权利要求1所述的计算机实现的方法，其中，所述文档跟踪数据包括所述文档的四个角的坐标。

19.根据权利要求1所述的计算机实现的方法，其中，渲染所述用户手部数据的表现包括重新缩放并平移所述用户手部数据。

20.一种非临时计算机可读介质，所述非临时计算机可读介质包括计算机可执行指令的集合，当与包括中央处理单元和相机的计算机化系统相关地执行所述计算机可执行指令时，所述计算机可执行指令使所述计算机化系统执行包括以下步骤的方法：

c.将所述文档的高分辨率图像发送到远程计算系统；

d.将所获得的用户手部数据发送到所述远程计算系统；以及

21.一种包括中央处理单元、相机和存储器的计算机化系统，所述存储器存储使所述计算机化系统执行包括以下步骤的方法的计算机可读指令的集合：

c.将所述文档的高分辨率图像发送到远程计算系统；

d.将所获得的用户手部数据发送到所述远程计算系统；以及