CN110784728A

CN110784728A - 一种图像数据处理方法、装置、以及计算机可读存储介质

Info

Publication number: CN110784728A
Application number: CN201911002718.3A
Authority: CN
Inventors: 廖中遠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-11
Anticipated expiration: 2039-10-21
Also published as: CN110784728B

Abstract

本申请公开了一种图像数据处理方法、装置以及计算机可读存储介质，该方法包括：获取针对目标物体的二维图像数据以及三维图像数据；根据二维图像数据确定针对目标物体的纹理信息向量，根据三维图像数据确定针对目标物体的坐标形状向量；根据纹理信息向量和坐标形状向量，构建针对目标物体的三维影像模型；将三维影像模型转换为目标物体对应的三维影像数据。采用本申请，可获取到针对目标物体真实准确的三维影像数据。

Description

一种图像数据处理方法、装置、以及计算机可读存储介质

技术领域

本申请涉及数据处理的技术领域，尤其涉及一种图像数据处理方法、装置以及计算机可读存储介质。

背景技术

随着互联网技术的不断发展，直播逐渐在各个领域中热门起来。直播的内容也在不断丰富，例如美食直播、户外运动直播、游戏直播以及好物分享直播等等，对于直播的画面展示效果也提出了更高的要求。

当前技术中，旨在通过主播的三维影像数据立体显示镜头前的主播，而获取主播的三维影像数据主要是通过在直播过程中获取镜头前针对主播的二维图像数据，进而通过画面位移以及画面填补等手段，生成针对主播的三维影像数据。但是，此间过程中，仅仅将二维图像数据作为生成三维影像数据的依据，所生成的三维影像数据并不真实，而且会导致所生成的三维影像数据的三维结构信息有误，从而导致所生成的三维影像数据不准确。

申请内容

本申请提供了一种图像数据处理方法、装置以及计算机可读存储介质，可获取针对目标物体真实准确的三维影像数据。

本申请一方面提供了一种图像数据处理方法，包括：

获取针对目标物体的二维图像数据以及三维图像数据；

根据所述二维图像数据确定针对所述目标物体的纹理信息向量，根据所述三维图像数据确定针对所述目标物体的坐标形状向量；

根据所述纹理信息向量和所述坐标形状向量，构建针对所述目标物体的三维影像模型；

将所述三维影像模型转换为所述目标物体对应的三维影像数据。

其中，所述三维图像数据是由第一终端采用结构光发射器以及第一摄像头获取到的针对所述目标物体的深度图像数据；所述二维图像数据是由所述第一终端采用第二摄像头获取到的针对所述目标物体的平面图像数据；

则，所述获取针对目标物体的二维图像数据以及三维图像数据，包括：

获取所述第一终端发送的针对所述目标物体的所述二维图像数据以及所述三维图像数据。

其中，所述根据所述二维图像数据确定针对所述目标物体的纹理信息向量，根据所述三维图像数据确定针对所述目标物体的坐标形状向量，包括：

提取所述二维图像数据中的第一图像特征点，将每个第一图像特征点所对应的多个纹理维度参数值组合为所述纹理信息向量；

提取所述三维图像数据中的第二图像特征点，将每个第二图像特征点所对应的多个坐标维度参数值组合为所述坐标形状向量。

其中，所述纹理信息向量中包含每个第一图像特征点的纹理信息以及第一序号；所述坐标形状向量中包含每个第二图像特征点的坐标信息以及第二序号；所述第一序号的序号总数与所述第二序号的序号总数相等；

所述根据所述纹理信息向量和所述坐标形状向量，构建针对所述目标物体的三维影像模型，包括：

将所述纹理信息向量和所述坐标形状向量进行拼接，得到高维向量；

将所述高维向量中所述第一序号与所述第二序号相同的第一图像特征点和第二图像特征点，合并为目标图像特征点；

根据所述高维向量中每个目标图像特征点的纹理信息以及坐标信息，构建所述三维影像模型。

其中，所述目标物体是由第一终端采用距离传感器检测到的摄像头下的多个对象中镜头远离距离小于距离阈值的对象。

其中，所述将所述三维影像模型转换为所述目标物体对应的三维影像数据，包括：

确定所述三维影像模型在模拟空间中的第一位置，确定模拟左眼在所述模拟空间中的第二位置，确定模拟右眼在所述模拟空间中的第三位置；

根据所述第一位置、所述第二位置和所述第三位置，确定所述二维图像数据在所述模拟空间中的第四位置；

根据在所述模拟空间中，所述第一位置、所述第二位置、所述第三位置、所述第四位置、所述三维影像模型以及所述二维图像数据，生成所述三维影像数据。

其中，所述确定模拟左眼在所述模拟空间中的第二位置，确定模拟右眼在所述模拟空间中的第三位置，包括：

根据所述模拟左眼和所述模拟右眼的模拟眼距，确定所述模拟左眼和所述模拟右眼之间的第一相对距离；

根据所述目标物体针对摄像头的镜头远离距离，确定所述模拟左眼和所述模拟右眼针对所述三维影像模型的第二相对距离；

根据所述第一相对距离和所述第二相对距离，确定所述模拟左眼在所述模拟空间中的所述第二位置以及所述模拟右眼在所述模拟空间中的所述第三位置。

其中，所述根据所述目标物体针对摄像头的镜头远离距离，确定所述模拟左眼和所述模拟右眼针对所述三维影像模型的第二相对距离，包括：

获取距离适用倍数，将所述距离适用倍数与所述目标物体针对所述摄像头的镜头远离距离的乘积，确定为所述模拟左眼和所述模拟右眼针对所述三维影像模型的所述第二相对距离。

其中，所述根据在所述模拟空间中，所述第一位置、所述第二位置、所述第三位置、所述第四位置、所述三维影像模型以及所述二维图像数据，生成所述三维影像数据，包括：

在所述模拟空间中，获取处于所述第二位置的所述模拟左眼的视野下，针对处于所述第一位置的所述三维影像模型和处于所述第四位置的所述二维图像数据的第一视野图像；所述第一视野图像中包括在所述模拟左眼的视野下的所述二维图像数据中未被所述三维影像模型遮挡的图像数据、所述三维影像模型的图像数据；

在所述模拟空间中，获取处于所述第三位置的所述模拟右眼的视野下，针对处于所述第一位置的所述三维影像模型和处于所述第四位置的所述二维图像数据的第二视野图像；所述第二视野图像中包括在所述模拟右眼的视野下的所述二维图像数据中未被所述三维影像模型遮挡的图像数据、所述三维影像模型的图像数据；

将所述第一视野图像和所述第二视野图像确定为所述三维影像数据。

其中，所述获取针对目标物体的二维图像数据以及三维图像数据，包括：

在第一时刻，获取所述二维图像数据以及所述三维图像数据；

还包括：

将所述三维影像数据传输至显示装置，以使所述显示装置在第二时刻，通过立体成像技术输出所述三维影像数据；所述第一时刻和所述第二时刻的时间差小于时间差阈值。

本申请另一方面提供了一种图像数据处理方法，包括：

第一终端响应直播业务启动请求，控制摄像头采集针对所述摄像头下的直播用户的二维图像数据以及三维图像数据；

根据所述二维图像数据和所述三维图像数据，构建针对所述直播用户的三维影像模型；

将所述三维影像模型转换为所述直播用户对应的三维影像数据。

本申请一方面提供了一种图像数据处理装置，包括：

获取模块，用于获取针对目标物体的二维图像数据以及三维图像数据；

确定模块，用于根据所述二维图像数据确定针对所述目标物体的纹理信息向量，根据所述三维图像数据确定针对所述目标物体的坐标形状向量；

构建模块，用于根据所述纹理信息向量和所述坐标形状向量，构建针对所述目标物体的三维影像模型；

转换模块，用于将所述三维影像模型转换为所述目标物体对应的三维影像数据。

则，所述获取模块，还用于：

其中，所述确定模块，包括：

第一提取单元，用于提取所述二维图像数据中的第一图像特征点，将每个第一图像特征点所对应的多个纹理维度参数值组合为所述纹理信息向量；

第二提取单元，用于提取所述三维图像数据中的第二图像特征点，将每个第二图像特征点所对应的多个坐标维度参数值组合为所述坐标形状向量。

所述构建模块，包括：

拼接单元，用于将所述纹理信息向量和所述坐标形状向量进行拼接，得到高维向量；

合并单元，用于将所述高维向量中所述第一序号与所述第二序号相同的第一图像特征点和第二图像特征点，合并为目标图像特征点；

构建单元，用于根据所述高维向量中每个目标图像特征点的纹理信息以及坐标信息，构建所述三维影像模型。

其中，所述转换模块，包括：

第一确定单元，用于确定所述三维影像模型在模拟空间中的第一位置，确定模拟左眼在所述模拟空间中的第二位置，确定模拟右眼在所述模拟空间中的第三位置；

第二确定单元，用于根据所述第一位置、所述第二位置和所述第三位置，确定所述二维图像数据在所述模拟空间中的第四位置；

生成单元，用于根据在所述模拟空间中，所述第一位置、所述第二位置、所述第三位置、所述第四位置、所述三维影像模型以及所述二维图像数据，生成所述三维影像数据。

其中，所述第一确定单元，包括：

第一确定子单元，用于根据所述模拟左眼和所述模拟右眼的模拟眼距，确定所述模拟左眼和所述模拟右眼之间的第一相对距离；

第二确定子单元，用于根据所述目标物体针对摄像头的镜头远离距离，确定所述模拟左眼和所述模拟右眼针对所述三维影像模型的第二相对距离；

第三确定子单元，用于根据所述第一相对距离和所述第二相对距离，确定所述模拟左眼在所述模拟空间中的所述第二位置以及所述模拟右眼在所述模拟空间中的所述第三位置。

其中，所述第二确定子单元，具体还用于：

其中，所述生成单元，包括：

第一获取子单元，用于在所述模拟空间中，获取处于所述第二位置的所述模拟左眼的视野下，针对处于所述第一位置的所述三维影像模型和处于所述第四位置的所述二维图像数据的第一视野图像；所述第一视野图像中包括在所述模拟左眼的视野下的所述二维图像数据中未被所述三维影像模型遮挡的图像数据、所述三维影像模型的图像数据；

第二获取子单元，用于在所述模拟空间中，获取处于所述第三位置的所述模拟右眼的视野下，针对处于所述第一位置的所述三维影像模型和处于所述第四位置的所述二维图像数据的第二视野图像；所述第二视野图像中包括在所述模拟右眼的视野下的所述二维图像数据中未被所述三维影像模型遮挡的图像数据、所述三维影像模型的图像数据；

第四确定子单元，用于将所述第一视野图像和所述第二视野图像确定为所述三维影像数据。

其中，所述获取模块，还用于：

则，所述图像数据处理装置，还用于：

本申请另一方面提供了一种图像数据处理装置，包括：

采集模块，用于响应直播业务启动请求，控制摄像头采集针对所述摄像头下的直播用户的二维图像数据以及三维图像数据；

模型构建模块，用于根据所述二维图像数据和所述三维图像数据，构建针对所述直播用户的三维影像模型；

立体显示模块，用于将所述三维影像模型转换为所述直播用户对应的三维影像数据。

本申请一方面提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述一方面/另一方面中的方法。

本申请一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述一方面/另一方面中的方法。

本申请首先获取针对目标物体的二维图像数据以及三维图像数据；根据所述二维图像数据确定针对所述目标物体的纹理信息向量，根据所述三维图像数据确定针对所述目标物体的坐标形状向量；根据所述纹理信息向量和所述坐标形状向量，构建针对所述目标物体的三维影像模型；将所述三维影像模型转换为所述目标物体对应的三维影像数据。由此可见，本申请提出的方法可以获取到针对目标物体真实的二维资讯(即二维图像数据)以及三维资讯(即三维图像数据)。通过所获取到的二维资讯可以确定针对目标物体的纹理信息，通过所获取到的三维资讯可以确定针对目标物体的立体结构信息，因此根据该二维资讯以及三维资讯可以获取到针对目标物体真实准确的三维影像数据。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请提供的一种网络架构示意图；

图1b是本申请提供的一种图像数据处理的场景示意图；

图2是本申请提供的一种图像数据处理方法的流程示意图；

图3是本申请提供的另一种图像数据处理方法的流程示意图；

图4是本申请提供的另一种图像数据处理方法的流程示意图；

图5是本申请提供的一种获取图像的场景示意图；

图6是本申请提供的一种获取深度图像的原理示意图；

图7是本申请提供的一种获取三维影像数据的场景示意图；

图8是本申请提供的一种立体成像的原理示意图；

图9是本申请提供的另一种图像数据处理方法的流程示意图；

图10是本申请提供的一种图像数据处理装置的结构示意图；

图11是本申请提供的另一种图像数据处理装置的结构示意图；

图12是本申请提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1a，是本申请提供的一种网络架构示意图。如图1a所示，该网络架构示意图包括多个终端设备(具体包括终端200a、终端200b、终端200c、终端200d)和服务器100。其中，服务器100可以与每个终端设备相互通信。终端设备可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobileinternet device,MID)、可穿戴设备(例如智能手表、智能手环等)。

请参见图1b，是本申请提供的一种图像数据处理的场景示意图。若终端设备200d为用户A对应的终端设备，终端设备200a为用户B对应的终端设备，则以终端设备200d、服务器100和终端设备200a之间的通信为例进行本申请的说明。其中，用户A可以是正在使用终端设备200d在直播平台进行直播的主播，用户B可以是正在使用终端设备200a在直播平台观看用户A的直播的观众，终端设备200d包括高清摄像头(可以是终端设备200d用于拍照/摄像的前置摄像头)、结构光发射器、红外摄像头以及距离传感器。如图1b所示，在用户A使用终端设备200d直播时，终端设备200d可以使用距离传感器检测用户A离终端设备200d的距离，当检测到该距离小于距离阈值(该距离阈值可以根据实际应用场景自行设置，例如，设置距离阈值为10厘米、30厘米、50厘米或者1米等)时，终端设备200d可以使用高清摄像头对镜头前的用户A进行拍摄，得到用户A的平面图像，可以将该平面图像称之为用户A的二维图像数据。同时，终端设备200d可以采用结构光发射器向终端设备200d前的用户A投射若干个(例如30000个)肉眼不可见的光点，该光点可以覆盖在终端设备200d前的用户A上(包括用户A相较于终端设备200d的距离小于距离阈值的身体部位上，例如脸部和身体上)。通过投射在用户A上的光点可以绘制得到用户A的具有深度信息的图像，可以将该具有深度信息的图像称之为用户A的三维图像数据，终端设备200d可以使用红外摄像头收集由该若干个光点绘制得到的三维图像数据。终端设备200d可以将获取到的用户A的二维图像数据和三维图像数据发送至服务器100，以图像101e为终端设备200d发送给服务器100的二维图像数据，图像100e为终端设备200d发送给服务器100的三维图像数据为例进行说明。服务器100可以提取所获取到的二维图像数据101e中的图像特征点，并得到提取到的每个图像特征点的纹理信息(该纹理信息可以包括图像特征点的颜色信息)，通过每个图像特征点的纹理信息可以得到用户A的纹理信息向量。同样，服务器100可以提取所获取到的三维图像数据100e中的图像特征点，并得到所提取的每个图像特征点的位置信息，该位置信息可以包括图像特征点的横坐标(x轴坐标)信息、众坐标(y轴坐标)信息以及空间坐标(z轴坐标)信息。服务器100可以通过在三维图像数据中所提取得到的每个图像特征点的位置信息得到用户A的坐标形状向量。其中，上述服务器100提取得到的二维图像数据中的图像特征点与提取得到的三维图像数据中的图像特征点一一对应，即三维图像数据中的每个图像特征点的位置信息分别对应于二维图像数据中的每个图像特征点的纹理信息。换句话说，三维图像数据中的一个图像特征点唯一对应于二维图像数据中的一个图像特征点，反之也成立，二维图像数据中的一个图像特征点唯一对应于三维图像数据中的一个图像特征点。

服务器100可以通过上述得到的纹理信息向量和坐标形状向量，构建针对用户A的三维影像模型102e，该三维影像模型102e可以用纹理信息向量和坐标形状向量拼接得到的一个向量进行表示，该三维影像模型102e同时包括上述二维图像数据中的纹理信息以及三维图像数据中的位置信息。服务器100可以模拟出观众(例如用户B)的左眼以及右眼，可以将服务器100模拟出的观众的左眼称之为模拟左眼，将服务器100模拟出的观众的右眼称之为模拟右眼。服务器100可以将上述所构建的三维影像模型102e放置(可以理解为服务器投射显示)在模拟左眼以及模拟右眼所在的模拟空间中，并且模拟左眼、模拟右眼以及三维影像模型102e在模拟空间的分布位置同样也是分别模拟的观众的左眼(例如用户B的左眼)、观众的右眼(例如用户B的右眼)以及观众的终端设备(例如观众B的终端设备200a)之间实际的分布位置。因此，服务器100可以得到在模拟左眼的视野下，所看到的三维影像模型102e的画面，并得到该画面所对应的一个图像103e，可以将图像103e称之为左眼视野图像。同理，服务器100可以得到在模拟右眼的视野下，所看到的三维影像模型102e的画面，并得到该画面的一个图像104e，可以将图像104e称之为右眼视野图像。图像103e和图像104e即是服务器通过三维影像模型102e得到的三维影像数据105e。

服务器100可以将所获取得到的三维影像数据105e发送给用户B的终端设备200a。其中，服务器100还可以获取用户A发送的背景图像，该背景图像可以是用户A自行选择的任意一张图像，服务器100可以将该背景图像与上述三维影像数据105e一起发送给终端设备200a。实际上，观众(例如用户B)在观看直播时，能看到三维立体画面(例如主播用户A的立体画面)的原因是因为观众的左眼以及右眼的视差。终端设备200a可以通过立体成像技术将获取到的三维影像数据105e进行显示，通过偏振光的原理(也可以是其他原理)让用户B的左眼看到三维影像数据105e中的左眼视野图像103e，让用户B的右眼看到三维影像数据105e中的右眼视野图像104e，给用户B营造一个视觉差，用户B可以通过这种视觉差自行在大脑中将双眼所看到的两幅图像结合成一幅立体图像，实现观看到直播中的用户A的3D(3维)立体画面。可选的，在终端设备200a显示三维影像数据105e时，可以将所获取到的服务器发送的背景图像显示于三维影像数据105e的后面作为背景，即观众可以通过终端200a可以观看到背景图像以及背景图像上方的用户A的3D立体画面，期间，随着用户A在终端200d的镜头前的移动，观众通过终端200a所看到的背景图像也会不同(因为随着用户A在终端200d的镜头前的移动，背景图像被遮挡的部分图像也在变)。

通过本申请所提供的方法，可以构建得到需要进行立体成像的目标物体(例如实时直播中的主播)真实准确的三维影像模型，进而通过该三维影像模型得到三维影像数据，观众的终端设备可以对该三维影像数据进行显示，使得观众可以看到目标物体实时以及真实的3D立体画面。通过本申请提升了主播直播的画面显示效果，增强了观众的直播临场感，从而提升了观众的直播体验。

请参见图2，是本申请提供的一种图像数据处理方法的流程示意图，如图2所示，所述方法可以包括：

步骤S101，获取针对目标物体的二维图像数据以及三维图像数据；

具体的，服务器可以获取针对目标物体的二维图像数据以及三维图像数据，其中，服务器所获取的二维图像数据以及三维图像数据可以是由第一终端采集并发送给服务器的。第一终端可以是直播中的主播对应的终端设备，还可以是其他需要进行实时传输画面的用户的终端设备，例如直播中的记者对应的终端设备或者直播中的博主对应的终端设备等。第一终端具备距离传感器，第一终端可以通过该距离传感器检测在第一终端的摄像头前的所有物体(即第一终端的摄像头下的多个对象)距离摄像头的距离(可以将该距离称之为镜头远离距离)，当检测到摄像头下的某个对象的镜头远离距离小于距离阈值时，可以将该个对象作为目标物体。其中，可以存在多个目标物体，每个目标物体距离第一终端的摄像头的距离均小于距离阈值。距离阈值的大小可以根据实际应用场景自行设置，例如设置距离阈值的大小为20cm(厘米)、50cm、1m(米)或者2m等，对此不做限制。例如，当主播拿着吉他在第一终端的摄像头前弹吉他，并且主播以及主播拿着的吉他距离第一终端的摄像头的距离均小于距离阈值，则可以将主播以及主播拿着的吉他都作为目标物体。再例如，记者拿着话筒在实时报道新闻，并且记者以及话筒距离第一终端的摄像头的距离均小于距离阈值，则可以将记者以及话筒都作为目标物体。还例如，第一终端的摄像头前没有用户，但是有动物、植物或者其他景物，并且，该动物、植物或者其他景物距离第一终端的摄像头的距离均小于距离阈值，则可以将该动物、植物或者其他景物作为目标物体。即可以将与第一终端的摄像头的距离小于距离阈值的所有物体均作为目标物体。可选的，第一终端还可以对摄像头前的多个物体的属性进行识别检测，当识别出摄像头前的物体的属性为“人”，则可以将摄像头前的“人”作为目标物体，而其他不是“人”的物体(例如话筒、吉他或者其他动物等)则不作为目标物体。其中，距离传感器检测摄像头前的物体的距离是通过TOF(TimeOfFlight，时差测距技术)实现的，时差测距技术又可以称之为飞行时间法。时差测试技术具体指：距离传感器向物体发射光脉冲，并检测此光脉冲从发射到被反射回来所用的时间，根据该时间来预测物体的距离。其中，距离传感器可以是光学距离传感器、红外距离传感器、超声波距离传感器等类型的传感器中的任意一种。

第一终端可以采用高清摄像头(可以是第一终端用于拍照或者摄像的前置摄像头)获取在镜头前的目标物体的平面图像(可以是采用高清摄像头对目标物体进行拍摄所得到的照片)，可以将该平面图像称之为上述二维图像数据。第一终端还可以采用红外摄像头获取在镜头前的目标物体的深度图像(具有目标物体的深度信息的图像)，可以将该深度图像称之为上述三维图像数据。第一终端可以将获取到的二维图像数据以及三维图像数据发送给服务器。可选的，服务器还可以是具备上述第一终端的功能的设备，则服务器可以按照与上述第一终端采集二维图像数据以及三维图像数据同样的方法，直接采集得到针对目标物体的二维图像数据以及三维图像数据。

步骤S102，根据所述二维图像数据确定针对所述目标物体的纹理信息向量，根据所述三维图像数据确定针对所述目标物体的坐标形状向量；

具体的，服务器可以提取获取到的二维图像数据中的图像特征点，该二维图像数据中包含了目标物体的纹理信息，该纹理信息可以指颜色信息，因此，提取得到的二维图像数据中的每个图像特征点均具备对应的纹理信息(即颜色信息)。服务器可以根据所提取得到的二维图像数据中的每个图像特征点的纹理信息，得到针对目标物体的纹理信息向量。服务器还可以提取获取到的三维图像数据中的图像特征点，该三维图像数据中包含了目标物体的位置信息，该位置信息可以包括横坐标(x轴上的坐标)信息、众坐标(y轴上的坐标)信息以及空间坐标(z轴上的坐标)信息，因此，提取得到的三维图像数据中的每个图像特征点均具备对应的位置信息。服务器可以根据所提取得到的三维图像数据中的每个图像特征点的位置信息，得到针对目标物体的坐标形状向量。

步骤S103，根据所述纹理信息向量和所述坐标形状向量，构建针对所述目标物体的三维影像模型；

具体的，服务器可以根据上述所获取到的针对目标物体的纹理信息向量和坐标形状向量，构建针对目标物体的三维影像模型。具体为，服务器在上述二维图像数据中所提取到的每个图像特征点与在上述三维图像数据中所提取到的每个图像特征点一一对应，服务器可以将上述坐标形状向量和纹理信息向量进行拼接，得到用于表示三维影像模型的一个高维向量。所构建的三维影像模型同时具备上述目标物体的纹理信息以及位置信息，所构建的三维影像模型为针对目标物体真实的立体影像模型。

步骤S104，将所述三维影像模型转换为所述目标物体对应的三维影像数据；

具体的，服务器可以将上述三维影像模型转换为目标物体对应的三维影像数据，具体为：服务器可以模拟出观看上述第一终端的显示屏前的主播(也可以是记者或者博主)的直播的观众的左眼以及右眼。可以将模拟的观众的左眼称之为模拟左眼，可以将模拟的观众的右眼称之为模拟右眼。服务器可以将模拟出的模拟左眼和模拟右眼与上述三维影像模型放置在同一模拟空间下，此处放置在同一模拟空间下可以理解为显示在同一模型空间中。其中，模拟左眼、模拟右眼以及三维影像模型在模拟空间的分布位置同样也是分别模拟的观众的左眼、观众的右眼以及观众的终端设备之间实际的分布位置。通过处于同一模拟空间下的模拟左眼、模拟右眼以及三维影像模型，服务器可以获取在模拟左眼的视野下，所看见的三维影像模型的画面，通过该画面可以得到在模拟左眼的视野下三维影像模型的平面图像，可以将该平面图像称之为第一视野图像。服务器可以获取在模拟右眼的视野下，所看见的三维影像模型的画面，通过该画面可以得到模拟右眼的视野下三维影像模型的平面图像，可以将该平面图像称之为第二视野图像。可以将上述得到的第一视野图像和第二视野图像统称为上述目标物体对应的三维影像数据。

请参见图3，是本申请提供的另一种图像数据处理方法的流程示意图。如图3所示，捕捉三维资讯，首先由第一终端捕捉目标物体的三维资讯，该三维资讯为上述三维图像数据，同时，第一终端还会获取目标物体的二维资讯，该二维资讯即是上述二维图像数据。智能运算产生3D影像模型：第一终端可以将获取到的二维资讯以及三维资讯发送给服务器，服务器可以对该二维资讯以及三维资讯进行智能运算(智能运算的具体过程可以参见上述步骤S102-步骤S103)，产生针对目标物体的3D影像模型，该3D影像模型即是上述三维影像模型。实时转化为高精度3D影像：首先，服务器可以根据该3D影像模型得到三维影像数据，进而，服务器可以将获取到的三维影像数据发送给第二终端，第二终端可以通过立体成像技术，根据该三维影像数据显示针对目标物体的高精度3D影像。

更多的，服务器可以将获取到的目标物体对应的三维影像数据发送到观众对应的终端设备，可以将观众对应的终端设备称之为第二终端，第二终端可以通过立体成像技术将获取到三维影像数据进行显示。其中，立体成像技术可以包括彩色眼镜(anaglyph)技术、偏光(polarizer)技术、以及波长多路式技术。通过使用不同的立体成像技术，第二终端可以对三维影像数据的显示方式也不同。例如，第二终端可以通过三维影像数据直接显示出目标物体的立体影像数据，观众可以无需额外佩戴彩色眼镜(例如3D眼镜)即可观看到目标物体的立体影像，第二终端还可以分别显示三维影像数据中的第一视野图像和第二视野图像，则观众需要额外佩戴3D眼镜，即可观看到目标物体的立体影像。同理，服务器也可以将获取到的三维影像数据返回给第一终端，第一终端也可以通过与上述第二终端同样的方式显示获取到的三维影像数据，以供第二终端对应的用户(例如主播、记者或者博主等)观看到自己的直播。

通过上述图像处理过程(包括第一终端获取针对目标物体的二维图像数据和三维图像数据，服务器通过二维图像数据和三维图像数据得到针对目标物体的三维影像数据，第二终端显示该三维影像数据的过程)，即实现了对目标物体一帧的影像画面的计算和显示，即让观众观看到在这一帧影像画面下的目标物体的立体影像画面。上述图像处理过程可以实时并持续进行，其中，针对上述图像处理过程中对目标物体的每帧影像画面的计算频率由第一终端(即直播的用户的终端)的终端配置决定，例如，某些第一终端支持的计算频率为1秒500次，即1秒计算500帧影像画面，某些第一终端支持的计算频率为1秒1000次，即1秒计算1000帧影像画面。

服务器可以通过高速网络(例如5G网络，即第五代计算机网络)将获取到的针对目标物体的三维影像数据传输到第二终端，使得第二终端可以实时地显示针对目标物体的三维影像数据，进而使得观众可以实时观看到直播的用户的直播内容。可选的，第一终端也可以通过高速网络将获取到的针对目标物体的二维图像数据和三维图像数据发送给服务器。通过此种方法，可以使得观众所观看到的直播的时延极小。其中，通过本申请所提供的方法，当服务器在第一时刻获取到针对目标物体的二维图像数据和三维图像数据，并将通过该二维图像数据和三维图像数据得到的三维影像数据发送给第二终端，第二终端可以在第二时刻输出所获取到的三维影像数据，并且，第一时刻和第二时刻之间的时间差会小于时间差阈值(可以理解为时延)，该时间差阈值可以是0.1秒或者更小，因此，可以实现观众通过第二终端实时观看到在第一终端前的用户的直播。

请参见图4，是本申请提供的另一种图像数据处理方法的流程示意图，如图4所示，所述方法可以包括：

步骤S201，获取针对目标物体的二维图像数据以及三维图像数据；

具体的，服务器获取针对目标物体的二维图像数据和三维图像数据的具体过程可以参见上述步骤S101，即服务器可以获取第一终端向其发送的针对目标物体的二维图像数据以及三维图像数据，服务器也可以自行采集到针对目标物体的二维图像数据以及三维图像数据。其中，第一终端获取二维图像数据以及三维图像数据的具体过程为：第一终端还具有结构光发射器、红外摄像头和高清摄像头(可以是第一终端用于拍摄以及摄像的前置摄像头)。请参见图5，是本申请提供的一种获取图像的场景示意图。如图5所示，终端104b为用户100b对应的终端，用户100b可以是正在直播的主播、记者或者博主等，则终端104b可以为上述第一终端。此处，以用户100b为目标物体为例进行说明，终端104b可以使用高清摄像头对镜头前的用户100b进行拍摄，拍摄得到的照片102b即是上述二维图像数据，该二维图像数据包含了所拍摄的目标物体的纹理信息，该纹理信息可以是目标物体的颜色信息。请一并参见图6，是本申请提供的一种获取深度图像的原理示意图。如图6所示，结构光发射器102c可以向目标物体101c投射若干个光点(包括光点100c)。由于结构光发射器是借助红外线投射的若干个光点，因此，在黑暗的环境中也能进行目标物体的识别。在目标物体101c上所投射的若干个光点可以在目标物体的表明绘制形成具有深度信息的面部图像，红外摄像头103c可以采集到由该若干个光点所绘制成的目标物体的具有深度信息的面部图像，该具有深度信息的面部图像即是上述目标物体的三维图像数据。因此，如图5所示，可以理解的是，终端104b可以使用结构光发射器向镜头前的用户100b投射若干个光点，其中，光点101b为结构光发射器投射的若干个光点中的一个。投射到用户100b的面部的若干个光点可以绘制成用户100b具有深度信息的面部图像，终端104b可以采用红外摄像头采集由结构光发射器投射在用户100b的面部上的若干个光点所绘制的具有深度信息的面部图像103b，将该具有深度信息的面部图像103b作为用户100b的三维图像数据。该三维图像数据包括了目标物体的坐标形状信息，该坐标信息包括目标物体的深度信息(即空间位置信息)。

步骤S202，提取所述二维图像数据中的第一图像特征点，将每个第一图像特征点所对应的多个纹理维度参数值组合为所述纹理信息向量；提取所述三维图像数据中的第二图像特征点，将每个第二图像特征点所对应的多个坐标维度参数值组合为所述坐标形状向量；

具体的，服务器可以提取所获取到的二维图像数据中的图像特征点，可以将提取得到的二维图像数据中的图像特征点称之为第一图像特征点。每个第一图像特征点均具有针对目标物体的纹理信息，该纹理信息包括颜色信息，该颜色信息包括R(红色)、G(绿色)和B(蓝色)3种颜色的深浅程度(也可以理解为色光的比例)。由于红色、绿色和蓝色为光学三原色，可以通过将该三种颜色按照不同比例相加，得到其他多种色光，因此，只需获取每个第一图像特征点对于红色、绿色和蓝色的深浅程度即可表征每个第一图像特征点的颜色。可以将每个第一图像特征点所对应的R(红色)、G(绿色)和B(蓝色)3种颜色的深浅程度的数值，分别称之为每个第一图像特征点对应的纹理维度参数值，可以将每个第一图像特征点所对应的多个纹理维度参数值组合得到上述纹理信息向量。例如，假设提取得到n个第一图像特征点，则每个第一图像特征点的纹理维度参数值均使用具有下标序号的R、G、B来表示，具体表示为：第1个第一图像特征点的纹理维度参数值可以表示为R₁，G₁，B₁；第2个第一图像特征点的纹理维度参数值可以表示为R₂，G₂，B₂；第3个第一图像特征点的纹理维度参数值可以表示为R₃，G₃，B₃；……；第n个第一图像特征点的纹理维度参数值可以表示为R_n，G_n，B_n。可以将每个第一图像特征点所对应的R、G、B的下标序号称之为第一序号，例如，上述第1个第一图像特征点的第一序号为1，第2个第一图像特征点的第一序号为2，第3个第一图像特征点的第一序号为3，……，第n个第一图像特征点的第一序号为n。用T来表示得到的纹理信息向量，请参见公式(1)，则将每个第一图像特征点分别对应的纹理维度参数值组合得到的纹理信息向量为：

T＝(R₁,G₁,B₁,R₂,G₂,B₂,R₃,G₃,B₃,...,R_n,G_n,B_n) (1)

服务器可以提取所获取到的三维图像数据中的图像特征点，可以将提取得到的三维图像数据中的图像特征点称之为第二图像特征点。每个第二图像特征点均具有针对目标物体的坐标形状信息，该坐标形状信息包括每个第二图像特征点的x维坐标信息、y维坐标信息以及z维坐标信息，其中，x维坐标信息可以理解为横坐标信息，y维坐标信息可以理解为纵坐标信息，z维坐标信息可以理解为空间坐标信息(即深度信息)。即上述三维图像数据为针对目标物体的立体轮廓形状的图像。可以将每个第二图像特征点对应的x维坐标信息、y维坐标信息以及z维坐标信息的数值分别称之为每个第二图像特征点的坐标维度参数值，可以将每个第二图像特征点对应的多个坐标维度参数值组合为上述坐标形状向量。其中，在三维图像数据中所提取得到的第二图像特征点与在二维图像数据中所提取得到的第一图像特征点一一对应，即一个第二图像特征点对应于一个第一图像特征点。则同样假设提取得到n个第二图像特征点，每个第二图像特征点的坐标维度参数值均使用具有下标序号的x、y、z来表示，具体表示为：第1个第二图像特征点的坐标维度参数值可以表示为x₁，y₁，z₁，第2个第二图像特征点的坐标维度参数值可以表示为x₂，y₂，z₂，第3个第二图像特征点的坐标维度参数值可以表示为x₃，y₃，z₃，……，第n个第二图像特征点的坐标维度参数值可以表示为x_n，y_n，z_n。可以将每个第二图像特征点所对应的x、y、z的下标序号称之为第二序号，例如，上述第1个第二图像特征点的第二序号为1，第2个第二图像特征点的第二序号为2，第3个第二图像特征点的第二序号为3，……，第n个第二图像特征点的第二序号为n。用S来表示得到的坐标形状向量，请参见公式(2)，则将每个第二图像特征点分别对应的坐标维度参数值组合得到的坐标形状向量为：

S＝(x₁,y₁,z₁,x₂,y₂,z₂,x₃,y₃,z₃,...,x_n,y_n,z_n) (2)

步骤S203，将所述纹理信息向量和所述坐标形状向量进行拼接，得到高维向量；将所述高维向量中第一序号与第二序号相同的第一图像特征点和第二图像特征点，合并为目标图像特征点；根据所述高维向量中每个目标图像特征点的纹理信息以及坐标信息，构建所述三维影像模型；

具体的，服务器可以将上述纹理信息向量和上述坐标形状向量进行拼接，得到高维向量，可以用M来表示高维向量，则请参见公式(3)，纹理信息向量T和坐标形状向量S进行拼接得到的高维向量M为：

M＝(S,T) (4)

也就是

M＝(x₁,y₁,z₁,...,x_n,y_n,z_n,R₁,G₁,B₁,...,R_n,G_n,B_n)

上述高维向量M即是三维影像模型的向量表示。

上述第一序号的序号总数与第二序号的序号总数相同，例如都为n个。由于第一图像特征点与第二图像特征点一一对应，因此，第一序号也与第二序号一一对应。第一序号和第二序号的数值相同的第一图像特征点和第二图像特征点为针对目标物体的同一位置的图像特征点，只是第一图像特征点表征了该位置的纹理信息，而第二图像特征点表征了该位置的坐标形状信息。因此，可以将高维向量中第一序号和第二序号相同的第一图像特征点和第二图像特征点，合并为目标图像特征点，因此，每个目标图像特征点均具备目标物体对应位置的纹理信息以及坐标形状信息。服务器可以通过高维向量中每个目标图像特征点的纹理信息(通过第一图像特征点的第一序号在高维向量中获取)以及坐标信息(通过第二图像特征点的第二序号在高维向量中获取)，构建针对目标物体的三维影像模型。该三维影像模型为根据获取到的目标物体真实的二维资讯以及三维资讯而构建得到的针对目标物体真实的立体影像模型，该立体影像模型同时具有目标物体的纹理信息以及坐标形状信息。

步骤S204，根据在模拟空间中，三维影像模型的第一位置、模拟左眼的第二位置、模拟右眼的第三位置、二维影像模型的第四位置、所述三维影像模型以及所述二维图像数据，生成所述三维影像数据；

具体的，请参见图7，是本申请提供的一种获取三维影像数据的场景示意图。服务器可以模拟出观众观看直播的左眼以及右眼，可以将模拟出的观众的左眼称之为模拟左眼，将模拟的观众的右眼称之为模拟右眼。如图7所示，此处的模拟左眼为模拟左眼102d，模拟右眼为模拟右眼103d。需要在模拟空间中确定模拟左眼、模拟右眼以及三维影像模型之间的相对位置，才能获取到三维影像数据。具体过程为：

服务器可以确定所述三维影像模型在模拟空间中的第一位置，确定模拟左眼在所述模拟空间中的第二位置，确定模拟右眼在所述模拟空间中的第三位置：

首先，服务器可以在模拟空间中确定三维影像模型107d的位置，可以将所确定的三维影像模型在模拟空间中的位置称之为第一位置。接着，可以将模拟左眼102d以及模拟右眼103d对称放置(即模拟左眼102d到三维影像模型107d的距离与模拟右眼103d到三维影像模型107d的距离相同)在三维影像模型的正前方(该正前方可以理解为目标物体在第一终端的镜头前的方向，此处相当于为模拟的目标物体在观众对应的第二终端中所显示的方向)。其中，模拟左眼102d和模拟右眼103d之间的模拟眼距106d可以根据实际应用场景或者经验自行设置，例如设置模拟眼距106d为6.5公分。可以将模拟左眼102d和模拟右眼103d之间的模拟眼距106d称之为模拟左眼102d和模拟右眼103d之间的第一相对距离。同时，服务器还可以获取到第一终端发送的针对目标物体针对第一终端的摄像头(可以是高清摄像头)的镜头远离距离，该镜头远离距离是由第一终端采用距离传感器所检测到的，该镜头远离距离为目标物体针对第一终端的摄像头的距离。服务器可以根据该镜头远离距离确定所述模拟左眼102d和所述模拟右眼103d针对所述三维影像模型107d的第二相对距离105d：服务器可以获取距离适用倍数，该距离适用倍数是针对目标物体的镜头远离距离的倍数，服务器可以将该距离适用倍数与目标物体针对第一终端的摄像头的镜头远离距离的乘积，作为模拟左眼102d和模拟右眼103d针对三维影像模型107d的第二相对距离105d。以目标物体为主播为例进行说明，由于主播在使用第一终端直播时，距离第一终端的距离为上述镜头远离距离，而观众在使用第二终端观看主播直播时，也会距离第二终端一定的距离，可以将该一定的距离也模拟为主播针对第一终端的镜头远离距离。因此，上述距离适用倍数可以是2倍，即服务器可以将目标物体针对第一终端的镜头远离距离的两倍距离作为上述第二相对距离105d。可选的，也可以根据实际应用场景自行设置距离适用倍数的大小，例如，设置距离适用倍数为1.6倍或者2.2倍等。通过上述第一相对距离106d和第二相对距离105d，则可以确定模拟左眼102d以及模拟右眼103d相较于三维影像模型107d的位置，也就是确定了模拟左眼102d以及模拟右眼103d在模拟空间中的位置。可以将模拟左眼102d在模拟空间中的位置称之为第二位置，将模拟右眼103d在模拟空间中的位置称之为第三位置。

在已经确定了模拟左眼102d、模拟右眼103d和三维影像模型107d在模拟空间中的位置的基础上，也就是在已经确定了第一位置、第二位置和第三位置的基础上，还可以确定上述二维图像数据108d在模拟空间中的位置，该二维图像数据108d用于确定针对目标物体的背景图像。如图7所示，可以将二维图像数据108d放置在三维影像模型107d的正后方(该正后方是相较于模拟左眼102d和模拟右眼103d针对三维影像模型107d的位置的正后方)。可以将二维图像数据108d在模拟空间中的位置称之为第四位置。

至此，即已经确定了三维影像模型107d在模拟空间中的第一位置，模拟左眼102d在模拟空间中的第二位置，模拟右眼103d在模拟空间中的第三位置，二维图像数据108d在模拟空间中的第四位置。服务器可以在所述模拟空间中，获取处于所述第二位置的所述模拟左眼的视野下，针对处于所述第一位置的所述三维影像模型和处于所述第四位置的所述二维图像数据的第一视野图像；所述第一视野图像中包括在所述模拟左眼的视野下的所述三维影像模型以及所述二维图像数据中未被所述三维影像模型遮挡的图像数据：

如图7所示，服务器可以在模拟空间中，获取处于第二位置的模拟左眼102d的视野下，针对处于第一位置的三维影像模型107d以及处于第四位置的二维图像数据108d的第一视野图像100d。其中，第一视野图像100d中包括在模拟左眼102d的视野下的三维影像模型107d的图像，即视野图像109d。视线s1和视线s2所构成的夹角(偏小的夹角)下的三维影像模型107d，即是模拟左眼102d的视野下的三维影像模型107d。第一视野图像100d中除了视野图像109d之外的图像为在模拟左眼102d的视野下，所看见的未被三维影像模型107d遮挡住的二维图像数据108d所构成的背景图像。其中，第一视野图像100d可以看成是在模拟左眼102d的视野下，将三维影像模型107d和二维图像数据108d，投影到平面所得到的图像，或者，由于二维图像数据为平面图像，则第一视野图像100d也可以理解为是将三维影像模型107d投影到二维图像数据中所得到的图像。同理，视野图像109d可以看成是在模拟左眼102d的视野下，将三维影像模型107d投影到平面所得到的图像。

服务器还可以在所述模拟空间中，获取处于所述第三位置的所述模拟右眼的视野下，针对处于所述第一位置的所述三维影像模型和处于所述第四位置的所述二维图像数据的第二视野图像；所述第二视野图像中包括在所述模拟右眼的视野下的所述三维影像模型以及所述二维图像数据中未被所述三维影像模型遮挡的图像数据：

同理，与上述获取第一视野图像100d的方法相同。服务器也可以获取在模拟右眼103d的视野下的第二视野图像101d，第二视野图像101d中还包括在模拟右眼的视野下的三维影像模型107d的图像，即图像110d。在第二视野图像101d中除了视野图像110d之外的图像为在模拟右眼103d的视野下，所看见的未被三维影像模型107d遮挡住的二维图像数据108d所构成的背景图像。视线s3和视线s4所构成的夹角(偏小的夹角)下的三维影像模型107d，即是模拟右眼103d的视野下的三维影像模型107d。

可以将上述所获取到的第一视野图像100d和第二视野图像101d作为针对目标物体的三维影像数据。

步骤S205，将所述三维影像数据传输至第二终端，以使所述第二终端在第二时刻，通过立体成像技术输出所述三维影像数据；

具体的，服务器可以将上述获取到的三维影像数据传输至第二终端，即观众对应的终端，可以存在多个第二终端。第二终端可以通过立体成像技术输出三维影像模型。其中，立体成像技术可以包括彩色眼镜(anaglyph)技术、偏光(polarizer)技术、以及波长多路式技术。通过使用不同的立体成像技术，第二终端可以对三维影像数据的显示方式也不同。例如，第二终端可以通过获取到的三维影像数据直接显示出目标物体的立体影像数据，观众可以无需额外佩戴彩色眼镜(例如3D眼镜)即可通过第二终端观看到目标物体的立体影像，第二终端还可以分别显示三维影像数据中的第一视野图像和第二视野图像，则观众需要额外佩戴3D眼镜，即可通过第二终端观看到目标物体的立体影像。同理，服务器也可以将获取到的三维影像数据返回给第一终端，即直播的用户的终端，第一终端也可以通过与上述第二终端同样的方式显示获取到的三维影像数据，以供第二终端对应的用户(例如主播、记者或者博主等)观看到自己的直播。

请参见图8，是本申请提供的一种立体成像的原理示意图。如图8所示，其中，图像L是第一终端通过偏振光方法让观众的左眼所看到的图像(例如上述第一视野图像)，图像R是第一终端通过偏振光方法让观众的右眼所看到的图像(例如上述第二视野图像)。观众通过佩戴3D眼镜g，则可以通过大脑自动将上述左眼所看到的图像L和右眼所看到的图像R自定合并成一幅立体图像，即实现了立体成像，也就是看到了针对目标物体的立体影像画面。

其中，由于观众通过第二终端所看到的三维影像数据为立体的，而将二维图像数据作为三维影像数据的背景图像时，观众所看到的的背景图像是平面的，服务器在通过三维影像模型与二维图像数据生成三维影像数据时，会先将二维图像数据中目标物体对应的平面图像挖空(即去掉)，由于三维影像模型是立体的，挖去的目标物体的平面图像是平面的，因此，在模拟左眼与模拟右眼的视野下，三维影像模型与挖去的目标物体的平面图像并不完全重合，因此两者之间会有间隙(该间隙为挖去的目标物体的部分平面图像)，该间隙可以理解为缺失的背景图像。因此，后面帧在计算三维影像数据的过程中，可以通过之前帧所捕获到的二维图像数据提取到之后帧的间隙对应的真实图像内容进行背景图像的填补。其中，通过之前帧捕获的二维图像数据捕获后面帧的间隙的过程具体为：在第一终端的摄像头下目标物体移动(即目标物体可以在摄像头下晃动，例如直播的主播在摄像头下的晃动)的过程中，第一终端可以通过摄像头(例如高清摄像头)采集到若干帧对应的二维图像数据，由于第一终端的摄像头下的目标物体的晃动，每一帧所采集到的二维图像数据也会不同(即每一帧所采集到的二维图像数据在将目标物体挖去之后的图像不同，可以理解为每一次所获取到的平面的目标物体的背景图像不同)，因此，上述若干帧对应的若干个二维图像数据很大可能会存在后面帧的三维影像数据中的间隙对应的真实的图像内容。服务器可以在上述若干个二维图像数据中识别出后面帧的三维影像数据中所缺失的间隙的真实的图像内容进行填补(即将三维影像数据中三维影像模型缺失的背景图像填补完全)，服务器可以将填补完成的三维影像数据发送给第一终端和/或第二终端，第一终端和/或第二终端可以通过立体成像技术显示出获取到的填补完成的三维影像数据。

请参见图9，是本申请提供的另一种图像数据处理方法的流程示意图，可应用于第一终端，如图9所示，所述方法可以包括：

步骤S301，响应直播业务启动请求，控制摄像头采集针对所述摄像头下的直播用户的二维图像数据以及三维图像数据；

具体的，第一终端可以响应直播业务启动请求，其中，直播业务启动请求可以是在第一终端对应的直播用户在触发直播业务时生成的。例如，第一终端可以安装支持直播业务的直播应用(例如支持主播进行直播的直播应用，即第一终端对应的直播用户为主播)，当直播用户在第一终端中打开该直播应用，并点击“直播启动”按钮时，则可以触发第一终端生成直播业务启动请求。再例如，上述第一终端也可以是第一用户对应的终端，上述第二终端可以是第二用户对应的终端。第一终端和第二终端均可以安装支持视频通话的通讯应用，第一用户以及第二用户均可以在该通讯应用中注册账号。当第一用户通过第一终端中的通讯应用向第二用户发起视频通话，并且第二用户通过第二终端中的通讯应用成功接通第一用户发起的视频通话时，第一终端可以生成上述直播业务启动请求，与此同时，第二终端也可以生成上述直播业务启动请求，此处，直播业务即是指第一用户与第二用户实时的视频通话，上述第一用户可以称为第一终端对应的直播用户，上述第二用户可以称为第二终端对应的直播用户。可选的，直播业务也可以是针对多用户实时的视频通话，则接通该视频通话的每个用户对应的终端均可以生成上述直播业务启动请求，每个用户均可以分别称为其对应的终端的直播用户。

当第一终端生成上述直播业务启动请求时，第一终端可以响应该直播业务启动请求，打开摄像头(可以包括高清摄像头和红外摄像头)，通过该摄像头采集针对摄像头下的第二终端对应的直播用户的二维图像数据以及三维图像数据。其中，通过第一终端通过摄像头采集直播用户的二维图像数据以及三维图像数据的具体过程，可以参见上述图2中的步骤S101或者上述图4中的步骤S201，此处，第一终端下的直播用户即是步骤S101或者步骤S201中的目标物体。同理，若上述直播业务为第一终端与第二终端之间的视频通话，并且上述第二终端也生成了上述直播业务启动请求，则第二终端也可以采集其所对应的直播用户的二维图像数据以及三维图像数据。同理，若上述直播业务为针对多用户的视频通话，则每个用户对应的终端均可以采集到对应的直播用户的二维图像数据以及三维图像数据。

步骤S302，根据所述二维图像数据和所述三维图像数据，构建针对所述直播用户的三维影像模型；

具体的，第一终端可以根据所对应的直播用户的二维图像数据和三维图像数据，构建针对所对应的直播用户的三维影像模型。其中，第一终端根据所对应的直播用户的二维图像数据和三维图像数据构建该直播用户的三维影像模型的过程，与上述服务器根据目标物体的二维图像数据和三维图像数据构建该目标物体的三维影像模型的过程相同，具体过程可以参见上述图4中的步骤S202-步骤S203。同理，若上述直播业务为第一终端与第二终端之间的视频通话，并且上述第二终端也接通了该视频通话，则第二终端也可以根据所对应的直播用户的二维图像数据和三维图像数据构建对应的直播用户的三维影像模型。同理，若上述直播业务为针对多用户的视频通话，则每个用户对应的终端均可以根据所对应的直播用户的二维图像数据以及三维图像数据分别构建所对应的直播用户的三维影像模型。

步骤S303，将所述三维影像模型转换为所述直播用户对应的三维影像数据；

具体的，第一终端可以将上述所构建的三维影像模型转换为所对应的直播用户的三维影像数据。其中，第一终端将所构建的三维影像模型转换为所对应的直播用户的三维影像数据的具体过程，与上述服务器将目标物体对应的三维影像模型转化为该目标物体对应的三维影像数据的过程相同，具体过程可以参见上述步骤S204。同理，若上述直播业务为第一终端与第二终端之间的视频通话，并且上述第二终端也接通了该视频通话，则第二终端也可以将所对应的直播用户的三维影像模型转换为对应的直播用户的三维影像数据。同理，若上述直播业务为针对多用户的视频通话，则每个用户对应的终端均可以将所对应的直播用户的三维影像模型分别转换为所对应的直播用户的三维影像数据。

后续，若上述第一终端为主播对应的终端(即上述第一终端的直播用户为主播)，则第一终端可以将上述获取到的主播对应的三维影像数据发送给服务器，服务器可以将该主播对应的三维影像数据发送给正在观看该主播的直播的所有观众的终端，每个观众的终端均可以通过立体成像技术显示该主播的三维影像数据，每个观众均可以通过分别所对应的终端观看到该主播的3D立体画面的直播。可选的，第一终端也可以通过立体成像技术将生成的所对应的直播用户的三维影像数据进行显示，使得第一终端的直播用户可以观看到自己的3D立体直播画面。同理，若上述直播业务为第一终端与第二终端之间的视频通话，则第一终端可以将其所对应的直播用户的三维影像数据发送给第二终端，第二终端可以通过立体成像技术显示接收到的三维影像数据，第二终端对应的直播用户可以通过第二终端观看到第一终端的直播用户的3D立体画面。同样，第二终端也可以将其所对应的直播用户的三维影像数据发送给第一终端，第一终端可以通过立体成像技术显示接收到的三维影像数据，第一终端对应的直播用户可以通过第一终端观看到第二终端的直播用户的3D立体画面。同理，若上述直播业务为针对多用户的视频通话，则该多个用户所对应的终端之间可以相互发送所对应的直播用户的三维影像数据，使得每个用户均可以分别通过所对应的终端观看到处于同一个视频通话中的其他所有用户的3D立体画面。

请参见图10，是本申请提供的一种图像数据处理装置的结构示意图。如图10所示，该图像数据处理装置1可以包括：获取模块11、确定模块12、构建模块13和转换模块14；

获取模块11，用于获取针对目标物体的二维图像数据以及三维图像数据；

确定模块12，用于根据所述二维图像数据确定针对所述目标物体的纹理信息向量，根据所述三维图像数据确定针对所述目标物体的坐标形状向量；

构建模块13，用于根据所述纹理信息向量和所述坐标形状向量，构建针对所述目标物体的三维影像模型；

转换模块14，用于将所述三维影像模型转换为所述目标物体对应的三维影像数据。

其中，所述获取模块11、确定模块12、构建模块13和转换模块14的具体功能实现方式请参见图2对应的实施例中的步骤S101-步骤S104，这里不再进行赘述。

则，所述获取模块11，还用于：

其中，所述确定模块12，包括：第一提取单元121和第二提取单元122；

第一提取单元121，用于提取所述二维图像数据中的第一图像特征点，将每个第一图像特征点所对应的多个纹理维度参数值组合为所述纹理信息向量；

第二提取单元122，用于提取所述三维图像数据中的第二图像特征点，将每个第二图像特征点所对应的多个坐标维度参数值组合为所述坐标形状向量。

其中，所述第一提取单元121和第二提取单元122的具体功能实现方式请参见图4对应的实施例中的步骤S202，这里不再进行赘述。

所述构建模块13，包括：拼接单元131、合并单元132和构建单元133；

拼接单元131，用于将所述纹理信息向量和所述坐标形状向量进行拼接，得到高维向量；

合并单元132，用于将所述高维向量中所述第一序号与所述第二序号相同的第一图像特征点和第二图像特征点，合并为目标图像特征点；

构建单元133，用于根据所述高维向量中每个目标图像特征点的纹理信息以及坐标信息，构建所述三维影像模型。

其中，所述拼接单元131、合并单元132和构建单元133的具体功能实现方式请参见图4对应的实施例中的步骤S203，这里不再进行赘述。

其中，所述转换模块14，包括：第一确定单元141、第二确定单元142和生成单元143；

第一确定单元141，用于确定所述三维影像模型在模拟空间中的第一位置，确定模拟左眼在所述模拟空间中的第二位置，确定模拟右眼在所述模拟空间中的第三位置；

第二确定单元142，用于根据所述第一位置、所述第二位置和所述第三位置，确定所述二维图像数据在所述模拟空间中的第四位置；

生成单元143，用于根据在所述模拟空间中，所述第一位置、所述第二位置、所述第三位置、所述第四位置、所述三维影像模型以及所述二维图像数据，生成所述三维影像数据。

其中，所述第一确定单元141、第二确定单元142和生成单元143的具体功能实现方式请参见图4对应的实施例中的步骤S204，这里不再进行赘述。

其中，所述第一确定单元141，包括：第一确定子单元1411、第二确定子单元1412和第三确定子单元1413；

第一确定子单元1411，用于根据所述模拟左眼和所述模拟右眼的模拟眼距，确定所述模拟左眼和所述模拟右眼之间的第一相对距离；

第二确定子单元1412，用于根据所述目标物体针对摄像头的镜头远离距离，确定所述模拟左眼和所述模拟右眼针对所述三维影像模型的第二相对距离；

第三确定子单元1413，用于根据所述第一相对距离和所述第二相对距离，确定所述模拟左眼在所述模拟空间中的所述第二位置以及所述模拟右眼在所述模拟空间中的所述第三位置。

其中，所述第一确定子单元1411、第二确定子单元1412和第三确定子单元1413的具体功能实现方式请参见图4对应的实施例中的步骤S204，这里不再进行赘述。

其中，所述第二确定子单元1412，具体还用于：

其中，所述生成单元143，包括：第一获取子单元1431、第二获取子单元1432和第四确定子单元1433；

第一获取子单元1431，用于在所述模拟空间中，获取处于所述第二位置的所述模拟左眼的视野下，针对处于所述第一位置的所述三维影像模型和处于所述第四位置的所述二维图像数据的第一视野图像；所述第一视野图像中包括在所述模拟左眼的视野下的所述二维图像数据中未被所述三维影像模型遮挡的图像数据、所述三维影像模型的图像数据；

第二获取子单元1432，用于在所述模拟空间中，获取处于所述第三位置的所述模拟右眼的视野下，针对处于所述第一位置的所述三维影像模型和处于所述第四位置的所述二维图像数据的第二视野图像；所述第二视野图像中包括在所述模拟右眼的视野下的所述二维图像数据中未被所述三维影像模型遮挡的图像数据、所述三维影像模型的图像数据；

第四确定子单元1433，用于将所述第一视野图像和所述第二视野图像确定为所述三维影像数据。

其中，所述第一获取子单元1431、第二获取子单元1432和第四确定子单元1433的具体功能实现方式请参见图4对应的实施例中的步骤S204，这里不再进行赘述。

其中，所述获取模块11，还用于：

则，所述图像数据处理装置1，还用于：

请参见图11，是本申请提供的另一种图像数据处理装置的结构示意图。如图11所示，该图像数据处理装置2可以包括：采集模块21、模型构建模块22和立体显示模块23；

采集模块21，用于响应直播业务启动请求，控制摄像头采集针对所述摄像头下的直播用户的二维图像数据以及三维图像数据；

模型构建模块22，用于根据所述二维图像数据和所述三维图像数据，构建针对所述直播用户的三维影像模型；

立体显示模块23，用于将所述三维影像模型转换为所述直播用户对应的三维影像数据。

其中，所述采集模块21、模型构建模块22和立体显示模块23的具体功能实现方式请参见图9对应的实施例中的步骤S301-步骤S303，这里不再进行赘述。

请参见图12，是本申请提供的一种计算机设备的结构示意图。如图12所示，所述计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，所述图像数据处理装置1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图12所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现前文图2、图4和图9中任一个所对应实施例中对所述图像数据处理方法的描述。

应当理解，本申请中所描述的图像数据处理装置1000可执行前文图2、图4和图9中任一个所对应实施例中对所述图像数据处理方法的描述，也可执行前文图10所对应实施例中对所述图像数据处理装置1以及前文图11所对应实施例中对所述图像数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的图像数据处理装置1和图像数据处理装置2所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2、图4和图9中任一个所对应实施例中对所述图像数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖范围。

Claims

1.一种图像数据处理方法，其特征在于，包括：

获取针对目标物体的二维图像数据以及三维图像数据；

2.根据权利要求1所述的方法，其特征在于，所述三维图像数据是由第一终端采用结构光发射器以及第一摄像头获取到的针对所述目标物体的深度图像数据；所述二维图像数据是由所述第一终端采用第二摄像头获取到的针对所述目标物体的平面图像数据；

3.根据权利要求1所述的方法，其特征在于，所述根据所述二维图像数据确定针对所述目标物体的纹理信息向量，根据所述三维图像数据确定针对所述目标物体的坐标形状向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述纹理信息向量中包含每个第一图像特征点的纹理信息以及第一序号；所述坐标形状向量中包含每个第二图像特征点的坐标信息以及第二序号；所述第一序号的序号总数与所述第二序号的序号总数相等；

5.根据权利要求1所述的方法，其特征在于，所述目标物体是由第一终端采用距离传感器检测到的摄像头下的多个对象中镜头远离距离小于距离阈值的对象。

6.根据权利要求1所述的方法，其特征在于，所述将所述三维影像模型转换为所述目标物体对应的三维影像数据，包括：

7.根据权利要求6所述的方法，其特征在于，所述确定模拟左眼在所述模拟空间中的第二位置，确定模拟右眼在所述模拟空间中的第三位置，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述目标物体针对摄像头的镜头远离距离，确定所述模拟左眼和所述模拟右眼针对所述三维影像模型的第二相对距离，包括：

9.根据权利要求6所述的方法，其特征在于，所述根据在所述模拟空间中，所述第一位置、所述第二位置、所述第三位置、所述第四位置、所述三维影像模型以及所述二维图像数据，生成所述三维影像数据，包括：

10.根据权利要求1所述的方法，其特征在于，所述获取针对目标物体的二维图像数据以及三维图像数据，包括：

还包括：

将所述三维影像数据传输至第二终端，以使所述第二终端在第二时刻，通过立体成像技术输出所述三维影像数据；所述第一时刻和所述第二时刻的时间差小于时间差阈值。

11.一种图像数据处理方法，其特征在于，包括：

12.一种图像数据处理装置，其特征在于，包括：

13.一种图像数据处理装置，其特征在于，包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-11中任一项所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-11任一项所述的方法。