CN110336973B

CN110336973B - 信息处理方法及其装置、电子设备和介质

Info

Publication number: CN110336973B
Application number: CN201910693234.1A
Authority: CN
Inventors: 崔恒利; 肖剑锋; 庄凯
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2021-04-13
Anticipated expiration: 2039-07-29
Also published as: CN110336973A

Abstract

本公开提供了一种由交互本端设备执行的信息处理方法，方法包括：接收来自交互对端设备的第一视频帧图像，其中，第一视频帧图像是包含有目标对象的二维图像；检测第一视频帧图像中是否存在姿态信息；在第一视频帧图像中存在姿态信息的情况下，将姿态信息从第一视频帧图像中剔除，以获得第二视频帧图像；解码第二视频帧图像，以获得包含有目标对象的RGB图像和深度图像；对RGB图像、深度图像和姿态信息进行三维重建，以获得包含有目标对象的三维图像；以及展示三维图像在交互本端设备上。另外，本公开还提供了一种应用于交互本端设备的信息处理装置。

Description

信息处理方法及其装置、电子设备和介质

技术领域

本公开涉及一种信息处理方法及其装置、电子设备和介质。

背景技术

对于通过电子设备进行交互的本端设备来讲，通常只能看到交互对端设备呈现的二维平面图像，无法给用户带来真实的沉浸感，降低用户的感官体验。

发明内容

本公开的一个方面提供了一种由交互本端设备执行的信息处理方法，上述方法包括：接收来自交互对端设备的第一视频帧图像，其中，所述第一视频帧图像是包含有目标对象的二维图像；检测所述第一视频帧图像中是否存在姿态信息；在所述第一视频帧图像中存在所述姿态信息的情况下，将所述姿态信息从所述第一视频帧图像中剔除，以获得第二视频帧图像；解码所述第二视频帧图像，以获得包含有所述目标对象的RGB图像和深度图像；对所述RGB图像、所述深度图像和所述姿态信息进行三维重建，以获得包含有所述目标对象的三维图像；以及展示所述三维图像在所述交互本端设备上。

可选地，接收针对所述目标对象的标记请求；响应于所述标记请求，在所述三维图像中获得标记点的标记深度信息和标记位置信息；以及发送所述标记深度信息和标记位置信息至所述交互对端设备，以使所述交互对端设备能基于所述标记深度信息和标记位置信息标记所述目标对象。

可选地，接收针对所述目标对象的特定操作请求；响应于所述特定操作请求，在所述三维图像中获得对所述目标对象执行所述特定操作之后所述目标对象的目标深度信息和目标位置信息；以及发送所述目标深度信息和目标位置信息至所述交互对端设备，以使所述交互对端设备能基于所述目标深度信息和目标位置信息对所述目标对象执行所述特定操作。

本公开的另一个方面提供了一种由交互对端设备执行的信息处理方法，上述方法包括：采集包含有目标对象的RGB图像、深度图像和姿态信息；基于所述RGB图像和所述深度图像，生成第三视频帧图像；编码所述第三视频帧图像，以获得第四视频帧图像；在所述第四视频帧图像中插入所述姿态信息，以生成第五视频帧图像；以及发送所述第五视频帧图像至交互本端设备，以使所述交互本端设备能基于接收到的所述第五视频帧图像，将所述姿态信息从所述第五视频帧图像中剔除，以获得第六视频帧图像，解码所述第六视频帧图像，以获得包含有所述目标对象的RGB图像和深度图像，对所述RGB图像、所述深度图像和所述姿态信息进行三维重建，以获得并展示包含有所述目标对象的三维图像。

可选地，上述方法还包括：接收来自所述交互本端设备发送的用于标记所述目标对象的标记点的标记深度信息和标记位置信息，其中，所述标记深度信息和标记位置信息是所述交互本端设备响应于在所述三维图像中针对所述目标对象的标记请求获得的；以及基于所述标记深度信息和标记位置信息标记所述目标对象。

可选地，上述方法还包括：接收来自所述交互本端设备发送的对所述目标对象执行特定操作之后所述目标对象的目标深度信息和目标位置信息，其中，所述目标深度信息和目标位置信息是所述交互本端设备响应于在所述三维图像中针对所述目标对象执行的特定操作请求获得的；以及基于所述目标深度信息和目标位置信息对所述目标对象执行所述特定操作。

本公开的另一个方面提供了一种信息处理装置，应用于交互本端设备，所述装置包括：接收模块，被配置为接收来自交互对端设备的第一视频帧图像，其中，所述第一视频帧图像包含有目标对象的二维图像；检测模块，被配置为检测所述第一视频帧图像中是否存在姿态信息；第一处理模块，被配置为在所述第一视频帧图像中存在所述姿态信息的情况下，将所述姿态信息从所述第一视频帧图像中剔除，以获得第二视频帧图像；解码模块，被配置为解码所述第二视频帧图像，以获得包含有所述目标对象的RGB图像和深度图像；重建模块，被配置为对所述RGB图像、所述深度图像和所述姿态信息进行三维重建，以获得包含有所述目标对象的三维图像；以及展示模块，被配置为展示所述三维图像在所述交互本端设备上。

可选地，上述装置还被配置为：接收针对所述目标对象的标记请求；响应于所述标记请求，在所述三维图像中获得标记点的标记深度信息和标记位置信息；以及发送所述标记深度信息和标记位置信息至所述交互对端设备，以使所述交互对端设备能基于所述标记深度信息和标记位置信息标记所述目标对象。

可选地，上述装置还被配置为：接收针对所述目标对象的特定操作请求；响应于所述特定操作请求，在所述三维图像中获得对所述目标对象执行所述特定操作之后所述目标对象的目标深度信息和目标位置信息；以及发送所述目标深度信息和目标位置信息至所述交互对端设备，以使所述交互对端设备能基于所述目标深度信息和目标位置信息对所述目标对象执行所述特定操作。

本公开的另一个方面提供了一种信息处理装置，应用于交互对端设备，所述装置包括：采集模块，被配置为采集包含有目标对象的RGB图像、深度图像和姿态信息；生成模块，被配置为基于所述RGB图像和所述深度图像，生成第三视频帧图像；编码模块，被配置为编码所述第三视频帧图像，以获得第四视频帧图像；第二处理模块，被配置为在所述第四视频帧图像中插入所述姿态信息，以生成第五视频帧图像；以及第三发送模块，被配置为发送所述第五视频帧图像至交互本端设备，以使所述交互本端设备能基于接收到的所述第五视频帧图像，将所述姿态信息从所述第五视频帧图像中剔除，以获得第六视频帧图像，解码所述第六视频帧图像，以获得包含有所述目标对象的RGB图像和深度图像，对所述RGB图像、所述深度图像和所述姿态信息进行三维重建，以获得并展示包含有所述目标对象的三维图像。

可选地，上述装置还被配置为：接收来自所述交互本端设备发送的用于标记所述目标对象的标记点的标记深度信息和标记位置信息，其中，所述标记深度信息和标记位置信息是所述交互本端设备响应于在所述三维图像中针对所述目标对象的标记请求获得的；以及基于所述标记深度信息和标记位置信息标记所述目标对象。

可选地，上述装置还被配置为：接收来自所述交互本端设备发送的对所述目标对象执行特定操作之后所述目标对象的目标深度信息和目标位置信息，其中，所述目标深度信息和目标位置信息是所述交互本端设备响应于在所述三维图像中针对所述目标对象执行的特定操作请求获得的；以及基于所述目标深度信息和目标位置信息对所述目标对象执行所述特定操作。

本公开的另一个方面提供了一种电子设备，包括：图像传感器，用于采集包含有目标对象的RGB图像和深度图像；姿态传感器，用于采集所述目标对象的姿态信息；一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任一所述的方法。

本公开的另一个方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令被执行时用于实现上述任一所述的方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例的信息处理方法的应用场景；

图2示意性示出了根据本公开实施例的由交互本端设备执行的信息处理方法的流程图；

图3示意性示出了根据本公开实施例的由交互对端设备执行的信息处理方法的流程图；

图4示意性示出了根据本公开实施例的应用于交互本端设备的信息处理装置的框图；

图5示意性示出了根据本公开实施例的应用于交互对端设备的信息处理装置的框图；以及

图6示意性示出了适用于执行本公开实施例的信息处理方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程信息处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

在视频通话的场景中，对于通过电子设备进行交互的本端设备来讲，通常只能看到对端设备呈现的二维平面图像，无法给用户带来真实的沉浸感，降低用户的感官体验。

基于此，本公开提供了一种由交互本端设备执行的信息处理方法，方法包括：接收来自交互对端设备的第一视频帧图像，其中，第一视频帧图像是包含有目标对象的二维图像；检测第一视频帧图像中是否存在姿态信息；在第一视频帧图像中存在姿态信息的情况下，将姿态信息从第一视频帧图像中剔除，以获得第二视频帧图像；解码第二视频帧图像，以获得包含有目标对象的RGB图像和深度图像；对RGB图像、深度图像和姿态信息进行三维重建，以获得包含有目标对象的三维图像；以及展示三维图像在交互本端设备上。

图1示意性示出了根据本公开实施例的信息处理方法的应用场景100。需要注意的是，图1所示仅为可以应用本公开实施例的应用场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

本公开可以应用在电子设备之间进行视频通话的应用场景中。本公开实施例中涉及的电子设备可以是同时具备显示屏和摄像装置的便携式电子设备，例如，智能手机、上网本、平板电脑(PAD)、笔记本电脑、个人数字助理(PDA)、或者电纸书等。当然，本公开实施例中涉及的电子设备也可以是同时具备显示屏和摄像装置的非便携式电子设备，例如台式计算机等。本公开不限制实施例中的电子设备的具体表现形式。作为处于通信两端的电子设备，互为交互本端和交互对端的关系。

需要说明的是，本发明实施例中所谓的交互本端设备和交互对端设备仅是针对电子设备在通信过程中充当不同角色而冠以的一个称谓，并不表示交互本端设备和交互对端设备一定是两种完全不同类型的电子设备，也就是说，本发明中的交互本端设备和交互对端设备可以是同一类型的电子设备，也可以是不同类型的电子设备。

例如，在智能手机与平板电脑之间进行视频通话的应用场景中，交互本端设备可以是智能手机，交互对端设备可以是平板电脑，交互本端设备也可以是平板电脑，交互对端设备也可以是智能手机。在智能手机与膝上型便携计算机之间进行视频通话的应用场景中，还可以应用在膝上型便携计算机与台式计算机之间进行视频通话的应用场景。

以智能手机与平板电脑之间进行视频通话的应用场景为例，对本公开提供的信息处理方法进行详细说明，但是并不是对应用场景的限定。

如图1所示，该应用场景100可以包括智能手机110、网络120以及膝上型便携计算机130。网络120用以在智能手机110和膝上型便携计算机130之间提供通信链路的介质。网络120可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

智能手机110和膝上型便携计算机130作为通信两端的电子设备，互为交互本端设备和交互对端设备。若智能手机110作为交互本端设备，则膝上型便携计算机130作为交互对端设备。若膝上型便携计算机130作为交互本端设备，则智能手机110作为交互对端设备。

用户可以使用智能手机110通过网络120与膝上型便携计算机130进行视频通信交互，以接收来自膝上型便携计算机130的视频信息或向膝上型便携计算机130发送视频消息等。

图2示意性示出了根据本公开实施例的由交互本端设备执行的信息处理方法的流程图。

如图2所示，该信息处理方法可以包括操作S210～操作S260。

在操作S210，接收来自交互对端设备的第一视频帧图像。

在操作S220，检测第一视频帧图像中是否存在姿态信息。

在操作S230，在第一视频帧图像中存在姿态信息的情况下，将姿态信息从第一视频帧图像中剔除，以获得第二视频帧图像。

在操作S240，解码第二视频帧图像，以获得包含有目标对象的RGB图像和深度图像。

在操作S250，对RGB图像、深度图像和姿态信息进行三维重建，以获得包含有目标对象的三维图像。

在操作S260，展示三维图像在交互本端设备上。

根据本公开的实施例，在视频通话的过程中，可以在交互本端设备和交互对端设备之间实时传送语音和视频。交互本端设备可以接收交互对端设备发送的第一视频帧图像，该视频帧图像是包含有目标对象的二维图像。

根据本公开的实施例，通过姿态信息可以获取拍摄设备的姿态。RGB图像也称为彩色图像，R、G、B三个分量对应于红(Red)、绿(Green)、蓝(Blue)三个通道的颜色，通过对红、绿、蓝三个颜色通道的变化以及相互之间的颜色叠加，可以组成图像像素的不同灰度级。因此，RGB图像可以表征目标对象的颜色信息。

根据本公开的实施例，深度(Depth)图像也称为距离图像，与灰度图像中的像素点存储亮度值不同，其像素点存储的是该点到图像采集装置之间的距离，即深度值。

可以理解，由于深度值的大小只与距离有关，而与环境、光线、方向等因素无关。因此，深度图像能够真实准确的体现景物的几何深度信息。通过建立物体的空间模型，能够为深层次的计算机视觉应用提供更坚实的数据基础。深度图像可以表征目标对象的深度信息。

考虑到交互本端设备分辨率的限制，可以对深度图像进行去噪或修复等图像增强处理，以为后续三维重构提供高质量的深度图像。

由于获取到用于表征目标对象的颜色信息的RGB图像，也获取到用于表征目标对象的在三维空间的深度信息的深度图像，基于颜色信息和深度信息，采用三维重建技术可以得到包含该目标对象的三维模型。

具体地，三维重建技术是通过深度数据获取，预处理、点云配准与融合、生成表面等过程，把真实场景刻画成符合计算机逻辑表达的数学模型。根据本公开的实施例，基于视觉的三维重构，指的是通过摄像机获取场景物体的数据图像，并对此图像进行分析处理，再结合计算机视觉知识推导出现实环境中物体的三维信息。

在三维空间中，所有的点必须以坐标的形式来表示，并且可以在不同的坐标系之间进行转换，例如，图像坐标系、摄像机坐标系、世界坐标系。

图像坐标系分为图像像素坐标系和图像物理坐标系。数字图像的信息矩阵形式存储，即一幅像素的图像数据存储在矩阵中。图像像素坐标系以原点、以像素为基本单位，U、V轴分别为水平、垂直方向的坐标轴。图像物理坐标系以摄像机光轴与图像平面的交点作为原点、以米或毫米为基本单位，其X、Y轴分别与U、V轴平行。

需要说明的是，RGB图像与深度图像的配准的，即像素点之间具有一对一的对应关系。对于现实场景中目标对象所处的位置点M，其在RGB图像中的成像点XM，对应到深度图中深度信息DM，DM表示M的深度值。以相机位置为原点，相机所朝方向为Z轴，相机的垂直平面的两个轴向为X、Y轴，可以建立相机的局部三维坐标系，即RGB图像中的每个像素点，都会对应一个在相机的局部坐标系中的三维点，将这些三维点在一个立体空间中渲染出来，可以生成一个立体的三维图像。

可以理解，对获取到的每一视频帧均执行相同的处理过程。在相关技术中，在交互本端设备上通常只能看到对端的二维平面图像。针对无法看到对端的三维立体图像的缺陷，也提供了一些解决方案。例如，在远程专家中使用的方式，在交互本端设备上(控制端)对接收到的静态图像选中特定区域，再把平面上的信息传递给交互对端设备(被控制端)，交互对端设备再把二维的区域投射到三维空间中在呈现出来。该解决方案的三维空间定位误差大，容易出现二维图像中选中的特定区域与实际三维空间中的不匹配的现象，且场景不直观，导致沟通不方便。

通过本公开的实施例，采用三维重构技术，在交互本端设备上实现三维图像的展示，场景更直观，可以给用户带来真实的沉浸感。

在相关技术中，由于在交互本端设备上通常只能看到对端的二维平面图像，没有深度信息和方位信息，无法实现对交互对端设备的目标对象执行标记操作。

作为一种可选的实施例，该方法除了可以包括前述操作S210～操作S260(基于接收来自交互对端设备的第一视频帧图像进行三维重构已生成三维图像)之外，还可以对交互对端设备的目标对象执行标记操作。

具体地，首先，交互本端设备接收针对目标对象的标记请求。然后，响应于该标记请求，在展示的三维图像中获得标记点的标记深度信息和标记位置信息，并发送该标记深度信息和标记位置信息至交互对端设备，以使交互对端设备能基于标记深度信息和标记位置信息标记目标对象。

通过本公开的实施例，交互对端设备根据接收到深度信息和位置信息对目标对象进行标记操作，可以实现对远程空间内的目标对象的定位。

在相关技术中，由于在交互本端设备上通常只能看到对端的二维平面图像，没有深度信息和方位信息，无法实现对交互对端设备的目标对象执行特定操作。可以理解的是，对目标对象执行特定操作需要交互对端设备接有机械臂等操作设备，来配合实现对目标对象的实时控制操作。

作为一种可选的实施例，该方法除了可以包括前述操作S210～操作S260(基于接收来自交互对端设备的第一视频帧图像进行三维重构已生成三维图像)之外，还可以对交互对端设备的目标对象执行特定操作。

具体地，首先，接收针对目标对象的特定操作请求。然后，响应于该特定操作请求，在三维图像中获得对目标对象执行特定操作之后目标对象的目标深度信息和目标位置信息，并发送目标深度信息和目标位置信息至交互对端设备，以使交互对端设备能基于目标深度信息和目标位置信息对目标对象执行特定操作。

例如，特定操作可以是针对目标对象的移动操作请求，目标深度信息和目标位置信息可以是目标对象将要移动的最终位置对应的目标深度信息和目标位置信息。

通过本公开的实施例，交互对端设备根据接收到目标深度信息和目标位置信息对目标对象进行特定操作，可以实现对远程空间内的目标对象的控制操作。

图3示意性示出了根据本公开实施例的由交互对端设备执行的信息处理方法的流程图。

如图3所示，该方法可以包括操作S310～操作S350。

在操作S310，采集包含有目标对象的RGB图像、深度图像和姿态信息。

在操作S320，基于RGB图像和深度图像，生成第三视频帧图像。

在操作S330，编码第三视频帧图像，以获得第四视频帧图像。

在操作S340，在第四视频帧图像中插入姿态信息，以生成第五视频帧图像。

在操作S350，发送第五视频帧图像至交互本端设备，以使交互本端设备能基于接收到的第五视频帧图像，将姿态信息从第五视频帧图像中剔除，以获得第六视频帧图像，解码第六视频帧图像，以获得包含有目标对象的RGB图像和深度图像，对RGB图像、深度图像和姿态信息进行三维重建，以获得并展示包含有目标对象的三维图像。

根据本公开的实施例，交互对端设备为了使交互本端设备获取足够丰富的目标对象信息，可以变换不同的角度来拍摄该目标对象。例如，可以固定交互对端设备来拍摄旋转平台上的目标对象，也可以是交互对端设备通过变化不同的拍摄角度来拍摄固定的该目标对象。

交互对端设备可以同时采集的包含有目标对象的RGB图像、深度图像和姿态信息，其中，RGB图像可以参见图2的相关描述，此处不再赘述。

根据本公开的实施例，可以采用任意公知的方法采集获得深度图像。例如，可以通过被动测距传感的方法获取，也可以通过主动测距传感的方法获取。

根据本公开的实施例，姿态信息可以采用惯性测量单元(Inertial MeasurementUnit，简称为IMU)获取。IMU一般由三轴陀螺仪、三轴加速度计和三轴磁力计组成，通过对三个传感器检测到的信息进行信息融合，可以得到图像采集装置的姿态信息。

根据本公开的实施例，在获取RGB图像和深度图像之后，首先可以将RGB图像和深度图像组合行成一帧图像。然后，经由编码器对得到的该帧图像进行编码处理。最后，在编码得到的视频帧中插入姿态信息，经由网络传输视频流到交互本端设备。

通过本公开的实施例，作为交互对端设备，可以同时采集包含有目标对象的RGB图像、深度图像和姿态信息，并生成包含有深度信息和姿态信息的视频帧，给交互本端设备提供三维重构的数据基础，使得交互本端设备在接收到该视频帧之后，可以基于该视频帧进行三维重构，以获得三维图像。

作为一种可选的实施例，上述方法还包括：在接收到来自交互本端设备发送的用于标记目标对象的标记点的标记深度信息和标记位置信息之后，基于该标记深度信息和标记位置信息标记目标对象。

在本公开中，该标记深度信息和标记位置信息是交互本端设备响应于在三维图像中针对目标对象的标记请求获得的。

作为一种可选的实施例，上述方法还包括：在接收到来自交互本端设备发送的对目标对象执行特定操作之后目标对象的目标深度信息和目标位置信息之后，基于目标深度信息和目标位置信息对目标对象执行特定操作。

在本公开中，该目标深度信息和目标位置信息是交互本端设备响应于在三维图像中针对目标对象执行的特定操作请求获得的。

图4示意性示出了根据本公开实施例的应用于交互本端设备的信息处理装置的框图。

如图4所示，该信息处理装置400可以包括接收模块410、检测模块420、第一处理模块430、解码模块440、重建模块450以及展示模块460。

接收模块410，被配置为执行例如前述操作S210，接收来自交互对端设备的第一视频帧图像，其中，第一视频帧图像包含有目标对象的二维图像。

检测模块420，被配置为执行例如前述操作S220，检测第一视频帧图像中是否存在姿态信息。

第一处理模块430，被配置为执行例如前述操作S230，在第一视频帧图像中存在姿态信息的情况下，将姿态信息从第一视频帧图像中剔除，以获得第二视频帧图像。

解码模块440，被配置为执行例如前述操作S240，解码第二视频帧图像，以获得包含有目标对象的RGB图像和深度图像。

重建模块450，被配置为执行例如前述操作S250，对RGB图像、深度图像和姿态信息进行三维重建，以获得包含有目标对象的三维图像。

展示模块460，被配置为执行例如前述操作S260，展示三维图像在交互本端设备上。

作为一种可选的实施例，前述装置还被配置为：接收针对目标对象的标记请求；响应于标记请求，在三维图像中获得标记点的标记深度信息和标记位置信息；以及发送标记深度信息和标记位置信息至交互对端设备，以使交互对端设备能基于标记深度信息和标记位置信息标记目标对象。

作为一种可选的实施例，前述装置还被配置为：接收针对目标对象的特定操作请求；响应于特定操作请求，在三维图像中获得对目标对象执行特定操作之后目标对象的目标深度信息和目标位置信息；以及发送目标深度信息和目标位置信息至交互对端设备，以使交互对端设备能基于目标深度信息和目标位置信息对目标对象执行特定操作。

图5示意性示出了根据本公开实施例的应用于交互对端设备的信息处理装置的框图。

如图5所示，该信息处理装置500可以包括：采集模块510、生成模块520、编码模块530、第二处理模块540以及发送模块550。

采集模块510，被配置为执行例如前述操作S310，采集包含有目标对象的RGB图像、深度图像和姿态信息。

生成模块520，被配置为执行例如前述操作S320，基于RGB图像和深度图像，生成第三视频帧图像。

编码模块530，被配置为执行例如前述操作S330，编码第三视频帧图像，以获得第四视频帧图像。

第二处理模块540，被配置为执行例如前述操作S340，在第四视频帧图像中插入姿态信息，以生成第五视频帧图像。

发送模块550，被配置为执行例如前述操作S350，发送第五视频帧图像至交互本端设备，以使交互本端设备能基于接收到的第五视频帧图像，将姿态信息从第五视频帧图像中剔除，以获得第六视频帧图像，解码第六视频帧图像，以获得包含有目标对象的RGB图像和深度图像，对RGB图像、深度图像和姿态信息进行三维重建，以获得并展示包含有目标对象的三维图像。

作为一种可选的实施例，前述装置还被配置为：接收来自交互本端设备发送的用于标记目标对象的标记点的标记深度信息和标记位置信息，以及基于标记深度信息和标记位置信息标记目标对象。

在本公开中，标记深度信息和标记位置信息是交互本端设备响应于在三维图像中针对目标对象的标记请求获得的。

作为一种可选的实施例，前述装置还被配置为：接收来自交互本端设备发送的对目标对象执行特定操作之后目标对象的目标深度信息和目标位置信息，以及基于目标深度信息和目标位置信息对目标对象执行所述特定操作。

在本公开中，目标深度信息和目标位置信息是交互本端设备响应于在三维图像中针对目标对象执行的特定操作请求获得的。

根据本公开的实施例的模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，接收模块410、检测模块420、第一处理模块430、解码模块440、重建模块45、展示模块460、采集模块510、生成模块520、编码模块530、第二处理模块540以及发送模块550中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，接收模块410、检测模块420、第一处理模块430、解码模块440、重建模块45、展示模块460、采集模块510、生成模块520、编码模块530、第二处理模块540以及发送模块550中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，接收模块410、检测模块420、第一处理模块430、解码模块440、重建模块45、展示模块460、采集模块510、生成模块520、编码模块530、第二处理模块540以及发送模块550中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图6示意性示出了适用于执行本公开实施例的信息处理方法的电子设备的框图。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，该电子设备600可以包括图像传感器610、姿态传感器620、一个或多个处理器630以及计算机可读存储介质640。

图像传感器610，用于采集包含有目标对象的RGB图像和深度图像。

姿态传感器620，用于采集所述目标对象的姿态信息。

处理器630例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器630还可以包括用于缓存用途的板载存储器。处理器630可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质640，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；等等。

计算机可读存储介质640可以包括计算机程序641，该计算机程序641可以包括代码/计算机可执行指令，其在由处理器630执行时使得处理器630执行根据本公开实施例的方法或其任何变形。

计算机程序641可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序641中的代码可以包括一个或多个程序模块，例如包括641A、模块641B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器630执行时，使得处理器630可以执行根据本公开实施例的方法或其任何变形。

根据本公开的实施例，处理器630可以与图像传感器610和姿态传感器620进行交互，来执行根据本公开实施例的方法或其任何变形。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机防问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种由交互本端设备执行的信息处理方法，应用于远程控制领域，所述方法包括：

接收来自交互对端设备的第一视频帧图像，其中，所述第一视频帧图像是包含有目标对象的二维图像；

检测所述第一视频帧图像中是否存在姿态信息；

在所述第一视频帧图像中存在所述姿态信息的情况下，将所述姿态信息从所述第一视频帧图像中剔除，以获得第二视频帧图像；

解码所述第二视频帧图像，以获得包含有所述目标对象的RGB图像和深度图像；

对所述RGB图像、所述深度图像和所述姿态信息进行三维重建，以获得包含有所述目标对象的三维图像；

展示所述三维图像在所述交互本端设备上；

接收针对所述目标对象的控制操作请求；

响应于所述控制操作请求，在所述三维图像中获得对所述目标对象执行所述控制操作之后所述目标对象的目标深度信息和目标位置信息；以及

发送所述目标深度信息和目标位置信息至所述交互对端设备，以使所述交互对端设备能基于所述目标深度信息和目标位置信息对所述目标对象执行所述控制操作。

2.根据权利要求1所述的方法，所述方法还包括：

接收针对所述目标对象的标记请求；

响应于所述标记请求，在所述三维图像中获得标记点的标记深度信息和标记位置信息；以及

发送所述标记深度信息和标记位置信息至所述交互对端设备，以使所述交互对端设备能基于所述标记深度信息和标记位置信息标记所述目标对象。

3.一种由交互对端设备执行的信息处理方法，应用于远程控制领域，所述方法包括：

采集包含有目标对象的RGB图像、深度图像和姿态信息；

基于所述RGB图像和所述深度图像，生成第三视频帧图像；

编码所述第三视频帧图像，以获得第四视频帧图像；

在所述第四视频帧图像中插入所述姿态信息，以生成第五视频帧图像；

发送所述第五视频帧图像至交互本端设备，以使所述交互本端设备能基于接收到的所述第五视频帧图像，将所述姿态信息从所述第五视频帧图像中剔除，以获得第六视频帧图像，解码所述第六视频帧图像，以获得包含有所述目标对象的RGB图像和深度图像，对所述RGB图像、所述深度图像和所述姿态信息进行三维重建，以获得并展示包含有所述目标对象的三维图像；

接收来自所述交互本端设备发送的对所述目标对象执行控制操作之后所述目标对象的目标深度信息和目标位置信息，其中，所述目标深度信息和目标位置信息是所述交互本端设备响应于在所述三维图像中针对所述目标对象执行的控制操作请求获得的；以及

基于所述目标深度信息和目标位置信息对所述目标对象执行所述控制操作。

4.根据权利要求3所述的方法，所述方法还包括：

接收来自所述交互本端设备发送的用于标记所述目标对象的标记点的标记深度信息和标记位置信息，其中，所述标记深度信息和标记位置信息是所述交互本端设备响应于在所述三维图像中针对所述目标对象的标记请求获得的；以及

基于所述标记深度信息和标记位置信息标记所述目标对象。

5.一种信息处理装置，应用于交互本端设备，应用于远程控制领域，所述装置包括：

接收模块，被配置为接收来自交互对端设备的第一视频帧图像，其中，所述第一视频帧图像包含有目标对象的二维图像；

检测模块，被配置为检测所述第一视频帧图像中是否存在姿态信息；

第一处理模块，被配置为在所述第一视频帧图像中存在所述姿态信息的情况下，将所述姿态信息从所述第一视频帧图像中剔除，以获得第二视频帧图像；

解码模块，被配置为解码所述第二视频帧图像，以获得包含有所述目标对象的RGB图像和深度图像；

重建模块，被配置为对所述RGB图像、所述深度图像和所述姿态信息进行三维重建，以获得包含有所述目标对象的三维图像；以及

展示模块，被配置为展示所述三维图像在所述交互本端设备上；

所述装置还被配置为：接收针对目标对象的控制操作请求；响应于控制操作请求，在三维图像中获得对目标对象执行控制操作之后目标对象的目标深度信息和目标位置信息；以及发送目标深度信息和目标位置信息至交互对端设备，以使交互对端设备能基于目标深度信息和目标位置信息对目标对象执行控制操作。

6.一种信息处理装置，应用于交互对端设备，应用于远程控制领域，所述装置包括：

采集模块，被配置为采集包含有目标对象的RGB图像、深度图像和姿态信息；

生成模块，被配置为基于所述RGB图像和所述深度图像，生成第三视频帧图像；

编码模块，被配置为编码所述第三视频帧图像，以获得第四视频帧图像；

第二处理模块，被配置为在所述第四视频帧图像中插入所述姿态信息，以生成第五视频帧图像；以及

发送模块，被配置为发送所述第五视频帧图像至交互本端设备，以使所述交互本端设备能基于接收到的所述第五视频帧图像，将所述姿态信息从所述第五视频帧图像中剔除，以获得第六视频帧图像，解码所述第六视频帧图像，以获得包含有所述目标对象的RGB图像和深度图像，对所述RGB图像、所述深度图像和所述姿态信息进行三维重建，以获得并展示包含有所述目标对象的三维图像；

所述装置还被配置为：接收来自交互本端设备发送的对目标对象执行控制操作之后目标对象的目标深度信息和目标位置信息，以及基于目标深度信息和目标位置信息对目标对象执行所述控制操作。

7.一种电子设备，包括：

图像传感器，用于采集包含有目标对象的RGB图像和深度图像；

姿态传感器，用于采集所述目标对象的姿态信息；

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至4中任一项所述的方法。

8.一种计算机可读存储介质，存储有计算机可执行指令，所述指令被处理器执行时用于实现权利要求1至4中任一项所述的方法。