CN115100276A

CN115100276A - 处理虚拟现实设备的画面图像的方法、装置及电子设备

Info

Publication number: CN115100276A
Application number: CN202210802768.5A
Authority: CN
Inventors: 王熊辉; 舒向前; 郭亨凯; 王一同
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2022-05-10
Filing date: 2022-07-07
Publication date: 2022-09-23
Anticipated expiration: 2042-07-07
Also published as: EP4296947A4; EP4296947A1; WO2023216526A1; CN115100276B

Abstract

本公开涉及一种处理虚拟现实设备的画面图像的方法、装置及电子设备，尤其涉及图像技术领域。包括：获取虚拟现实设备确定的在虚拟现实世界坐标系中目标设备对应的3D关键点坐标，以及在虚拟现实世界坐标系中目标设备对应的位姿；目标设备与虚拟现实设备关联；获取图像采集设备所采集的目标图像，基于目标图像，获取在相机坐标系中目标设备对应的2D关键点坐标；根据2D关键点坐标、3D关键点坐标、目标设备对应的位姿和图像采集设备的位姿，确定图像采集设备在虚拟现实世界坐标系中的标定信息，标定信息包括位置信息和朝向信息，基于标定信息和虚拟现实设备发送的第一画面图像，确定以图像采集设备为视角的第二画面图像。

Description

处理虚拟现实设备的画面图像的方法、装置及电子设备

技术领域

本公开涉及图像技术领域，尤其涉及一种处理虚拟现实设备的画面图像的方法、装置及电子设备。

背景技术

在虚拟现实(Virtual Reality，VR)游戏场景中，为了得到混合现实捕捉(MixedReality Capture，MRC)图像，需要重复的穿戴和摘下VR设备、移动手柄，通过手机拍摄在不同情况下图像，并计算手机(或手机的相机)在VR设备的VR世界坐标系下的位置信息和朝向信息，之后再基于手机在VR设备的VR世界坐标系下的标定信息，这样的标定过程非常繁琐，使得基于标定信息处理虚拟现实设备的画面图像的过程繁琐，效率低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种处理虚拟现实设备的画面图像的方法、装置及电子设备，可以简化标定过程，可以简单高效的确定相机在VR世界坐标系中的标定信息，以及时处理虚拟现实设备的画面图像。

为了实现上述目的，本公开实施例提供的技术方案如下：

第一方面，提供一种处理虚拟现实设备的画面图像的方法，包括：

获取虚拟现实设备确定的在虚拟现实世界坐标系中目标设备对应的3D关键点坐标，以及在所述虚拟现实世界坐标系中所述目标设备对应的位姿；所述目标设备与所述虚拟现实设备关联；

获取图像采集设备所采集的目标图像，基于所述目标图像，获取在相机坐标系中所述目标设备对应的2D关键点坐标；

根据所述2D关键点坐标、所述3D关键点坐标、所述目标设备对应的位姿和所述图像采集设备的位姿，确定所述图像采集设备在所述虚拟现实世界坐标系中的标定信息，所述标定信息包括位置信息和朝向信息；

基于所述标定信息和所述虚拟现实设备发送的第一画面图像，确定以所述图像采集设备为视角的第二画面图像。

作为本公开实施例一种可选的实施方式，所述获取虚拟现实设备确定的在虚拟现实世界坐标系中目标设备手柄对应的3D关键点坐标，以及在所述虚拟现实世界坐标系中所述手柄目标设备对应的位姿，包括：

接收所述虚拟现实设备发送的所述3D关键点坐标，以及在所述虚拟现实世界坐标系中所述目标设备对应的位姿。

作为本公开实施例一种可选的实施方式，所述获取图像采集设备所采集的目标图像，包括：

获取图像采集设备所采集的所述目标设备的原始图像；

确定所述原始图像中的目标设备区域图像，从所述原始图像中裁剪所述目标设备区域的图像作为所述目标图像。

作为本公开实施例一种可选的实施方式，所述基于所述目标图像，获取在相机坐标系中所述目标设备对应的2D关键点坐标，包括：

将所述目标图像输入关键点提取模型，获取所述关键点提取模型输出的所述目标设备的2D关键点坐标；

其中，所述关键点提取模型是基于样本信息训练得到的卷积神经网络模型，所述样本信息中包括所述目标设备的多个样本图像和与每个样本图像对应的所述目标设备的2D关键点坐标。

作为本公开实施例一种可选的实施方式，所述确定所述相机在虚拟现实世界坐标系中的标定信息之后，所述方法还包括：

获取所述图像采集设备所采集的所述虚拟现实设备的用户的真实场景图像；

从所述真实场景图像中获取所述用户画面图像；

获取以所述图像采集设备为视角的道具画面图像，所述道具画面图像为所述目标设备所关联的道具的画面图像；

所述基于所述标定信息和所述虚拟现实设备发送的第一画面图像，确定以所述图像采集设备为视角的第二画面图像之后，所述方法还包括：

将所述第二画面图像、所述用户画面图像和所述道具画面图像进行融合，得到混合现实捕捉图像。

作为本公开实施例一种可选的实施方式，所述将所述第二画面图像、所述用户画面图像和所述道具画面图像进行融合，得到混合现实捕捉图像之前，所述方法还包括：

确定第一图层关系和/或第二图层关系，其中，所述第一图层关系为所述用户画面图像和所述第二画面图像之间的图层关系，所述第二图层关系为所述所述用户画面图像与所述道具画面图像之间的图层关系；

根据所述第一图层关系和/或所述第二图层关系，将所述第二画面图像、所述用户图像和所述道具画面图像进行融合，得到所述混合现实捕捉图像。

作为本公开实施例一种可选的实施方式，所述确定第一图层关系包括：

对所述真实场景图像进行深度估计，得到真实场景图像的第一深度信息；

获取所述第二画面图像的第二深度信息；

根据所述第一深度信息和/或所述第二深度信息，确定所述用户画面图像和所述第二画面图像之间的第一图层关系。

通过检测所述真实场景图像中所述用户的目标部位是否可见，确定所述用户画面图像与所述道具画面图像之间的第二图层关系，所述目标部位为穿戴或握持所述目标设备的部位。

作为本公开实施例一种可选的实施方式，所述从所述真实场景图像中获取所述用户画面图像，包括：

将所述真实场景图像输入目标抠图模型；

获取所述目标抠图模型输出的所述真实场景图像的用户画面图像；

其中，所述目标抠图模型为基于样本图像集训练后得到的，所述样本图像集中包括多帧合成图像，每帧合成图像为基于用户图像和室内场景图像融合得到的，所述用户图像中用户的目标部位穿戴或握持所述目标设备，和/或，所述用户穿戴所述虚拟现实设备。

作为本公开实施例一种可选的实施方式，所述将所述真实场景图像输入目标抠图模型之前，所述方法还包括：

获取用户绿幕视频，所述用户绿幕视频为采集的用户在绿幕场景中的视频；

根据所述用户绿幕视频的全图区域、所述用户绿幕视频中各帧图像的绿幕区域，确定各帧图像的用户图像；

将所述各帧图像的用户图像与室内场景图像融合，以得到所述多帧合成图像；

基于所述多帧合成图像确定样本图像集，基于所述样本图像集对初始抠图模型进行训练，以得到所述目标抠图模型。

作为本公开实施例一种可选的实施方式，所述根据所述用户绿幕视频的全图区域、所述用户绿幕视频中各帧图像的绿幕区域，确定各帧图像的用户图像，包括：

获取所述用户绿幕视频中所述各帧图像的绿幕区域；

对所述各帧图像的绿幕区域进行像素补全，得到各帧图像的绿幕补全区域；

计算所述各帧图像的绿幕补全区域的交集，得到最小绿幕补全区域；

在所述用户绿幕视频的所述全图区域中去除所述最小绿幕补全区域，得到绿幕外区域；

计算所述绿幕外区域与各帧图像的绿幕抠图区域的并集，以得到各帧图像的非用户图像区域，所述各帧图像的绿幕抠图区域为基于所述各帧图像的绿幕区域进行用户图像的抠图之后得到的剩余绿幕区域；

根据所述全图区域和所述各帧图像的非用户图像区域，确定所述各帧图像的用户图像。

作为本公开实施例一种可选的实施方式，所述将所述各帧图像的用户图像与室内场景图像融合，以得到所述多帧合成图像，包括：

确定目标用户图像对应的用户定位点的第一坐标向量，所述目标用户图像为所述各帧图像中任一帧图像的用户图像；

确定所述室内场景图像中目标定位点的第二坐标向量；

根据所述第一坐标向量和所述第二坐标向量计算得到偏移向量；

基于所述偏移向量，将所述目标用户图像融合至所述室内场景图像，以使得所述用户图像对应的用户定位点处于所述室内场景图像中的所述目标定位点，以得到目标合成图像。

作为本公开实施例一种可选的实施方式，所述用户定位点为所述目标用户图像的外接矩形中底边的中心点；所述目标定位点为所述室内场景图像中的任意点。

作为本公开实施例一种可选的实施方式，

所述目标用户图像中包括用户脚部特征；

所述目标定位点为所述室内场景图像中地面区域中的地面中心点；

或，

所述目标用户图像中不包括用户脚部特征；

所述目标定位点为所述室内场景图像的底边上的任意点。

第二方面，提供一种处理虚拟现实设备的画面图像的装置，包括：

获取模块，用于获取虚拟现实设备确定的在虚拟现实世界坐标系中目标设备对应的3D关键点坐标，以及在所述虚拟现实世界坐标系中所述目标设备对应的位姿；所述目标设备与所述虚拟现实设备关联；获取图像采集设备所采集的目标图像，基于所述目标图像，获取在相机坐标系中所述目标设备对应的2D关键点坐标；

标定模块，用于根据所述2D关键点坐标、所述3D关键点坐标、所述目标设备对应的位姿和所述图像采集设备的位姿，确定所述图像采集设备在所述虚拟现实世界坐标系中的标定信息，所述标定信息包括位置信息和朝向信息；

图像生成模块，用于基于所述标定信息和所述虚拟现实设备发送的第一画面图像，确定以所述图像采集设备为视角的第二画面图像。

作为本公开实施例一种可选的实施方式，所述获取模块，具体用于：

获取图像采集设备所采集的所述目标设备的原始图像；

作为本公开实施例一种可选的实施方式，所述图像生成模块，还用于：

从所述真实场景图像中获取所述用户画面图像；

在将所述第二画面图像、所述用户画面图像和所述道具画面图像进行融合，得到混合现实捕捉图像之前，确定第一图层关系，和/或，第二图层关系，其中，所述第一图层关系为所述用户画面图像和所述第二画面图像之间的图层关系，所述第二图层关系为所述用户画面图像与所述道具画面图像之间的图层关系；

所述图像生成模块，具体用于：

作为本公开实施例一种可选的实施方式，所述图像生成模块，具体用于：对所述真实场景图像进行深度估计，得到真实场景图像的第一深度信息；

获取所述第二画面图像的第二深度信息；

根据所述第一深度信息和所述第二深度信息，确定所述用户画面图像和所述第二画面图像之间的第一图层关系。

作为本公开实施例一种可选的实施方式，所述图像生成模块，具体用于：

将所述真实场景图像输入目标抠图模型；

作为本公开实施例一种可选的实施方式，所述装置还包括：模型训练模块，用于在所述图像生成模块将所述真实场景图像输入目标抠图模型之前，获取用户绿幕视频，所述用户绿幕视频为采集的用户在绿幕场景中的视频；

作为本公开实施例一种可选的实施方式，所述模型训练模块，具体用于：

获取所述用户绿幕视频中所述各帧图像的绿幕区域；

确定所述室内场景图像中目标定位点的第二坐标向量；

作为本公开实施例一种可选的实施方式，

所述目标用户图像中包括用户脚部特征；

作为本公开实施例一种可选的实施方式，

所述目标用户图像中不包括用户脚部特征；

所述目标定位点为所述室内场景图像的底边上的任意点。

第三方面，提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面或其任意一种可选的实施方式所述的处理虚拟现实设备的画面图像的方法。

第四方面，提供一种计算机可读存储介质，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面或其任意一种可选的实施方式所述的处理虚拟现实设备的画面图像的方法。

第五方面，提供一种计算机程序产品，其特征在于，包括：当所述计算机程序产品在计算机上运行时，使得所述计算机实现如第一方面或其任意一种可选的实施方式所述的处理虚拟现实设备的画面图像的方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：获取虚拟现实设备确定的在虚拟现实世界坐标系中目标设备对应的3D关键点坐标，以及在虚拟现实世界坐标系中目标设备对应的位姿；目标设备与虚拟现实设备关联；获取图像采集设备所采集的目标图像，基于目标图像，获取在相机坐标系中目标设备对应的2D关键点坐标；根据2D关键点坐标、3D关键点坐标、目标设备对应的位姿和图像采集设备的位姿，确定图像采集设备在虚拟现实世界坐标系中的标定信息，标定信息包括位置信息和朝向信息，基于标定信息和虚拟现实设备发送的第一画面图像，确定以图像采集设备为视角的第二画面图像。通过该方案，在标定过程中无需人为移动图像采集设备的位置来计算图像采集装置在VR世界坐标系中的标定信息的相关数据，并且在获取上述2D关键点坐标、3D关键点坐标、目标设备的位姿和图像采集装置的位姿这些参数时，也无需重复穿戴和摘下VR设备，因此可以简化标定过程，可以简单高效的确定图像采集装置在VR世界坐标系中的标定信息，进而可以及时处理虚拟现实设备的画面图像。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种处理虚拟现实设备的画面图像的方法的流程示意图；

图2为本公开实施例提供的一种处理虚拟现实设备的画面图像的方法的实现场景示意图；

图3为本公开实施例提供的另一种处理虚拟现实设备的画面图像的方法方法的流程示意图；

图4A为本公开实施例提供的一种生成MRC图像的示意图；

图4B为本公开实施例提供的一种从真实场景图像中获取用户画面图像的流程示意图；

图4C为本公开实施例提供的一种确定用户图像的实现过程示意图；

图4D为本公开实施例提供的一种将目标用户图像融合至室内场景图像的示意图；

图4E为本公开实施例提供的另一种将目标用户图像融合至室内场景图像的示意图；

图5为本公开实施例提供的一种处理虚拟现实设备的画面图像的装置的结构框图；

图6为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

目前，在VR游戏场景中，为了得到混合现实捕捉(Mixed Reality Capture，MRC)图像，需要重复的穿戴和摘下VR设备、移动手柄，来记录手机在不同位置的相关数据，并根据记录的相关数据计算手机的相机在VR设备的VR世界坐标系下的位置信息和朝向信息，这样的标定过程非常繁琐，标定信息的获取方式复杂，效率低。

为了解决上述问题，本公开实施例提供了一种处理虚拟现实设备的画面图像的方法、装置和电子设备，可以在标定过程中无需人为移动图像采集设备的位置来计算图像采集装置在VR世界坐标系中的标定信息的相关数据，并且在获取上述2D关键点坐标、3D关键点坐标、目标设别的位姿和图像采集装置的位姿这些参数时，也无需重复穿戴和摘下VR设备，因此可以简化标定过程，可以简单高效的确定图像采集装置在VR世界坐标系中的标定信息，从而可以及时处理虚拟现实设备的画面图像。

本公开实施例中提供的处理虚拟现实设备的画面图像的方法，可以为通过电子设备或者处理虚拟现实设备的画面图像的装置实现，处理虚拟现实设备的画面图像的装置为电子设备中用于实现该处理虚拟现实设备的画面图像的方法的功能模块或者功能实体。

其中，上述电子设备可以为计算机、平板电脑、手机、笔记本电脑、掌上电脑、车载终端、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)、个人计算机(personalcomputer，PC)等，本公开实施例对此不作具体限定。

如图1所示，为本公开实施例提供的一种处理虚拟现实设备的画面图像的方法的流程示意图，该方法包括：

101、获取VR设备确定的在VR世界坐标系中目标设备对应的3D关键点坐标，以及在VR世界坐标系中目标设备对应的位姿。

本公开实施例中，处理虚拟现实设备的画面图像的方法实现时包括但不限于VR设备、图像采集设备和目标设备。

一种情况下，上述处理虚拟现实设备的画面图像的装置可以上述图像采集设备。

另一种情况下，上述处理虚拟现实设备的画面图像的装置可以为集成在VR设备中的功能模块和/或功能实体。

还一种情况下，上述处理虚拟现实设备的画面图像的装置可以为VR设备、图像采集设备和目标设备之外的一个独立设备。

一种实施例中，处理虚拟现实设备的画面图像的装置为图像采集设备，VR设备可以实时的向图像采集设备发送在VR世界坐标系中目标设备对应3D关键点坐标，以及在VR世界坐标系中目标设备对应的位姿，相应的，图像采集设备可以接收VR设备发送的在VR世界坐标系中目标设备的3D关键点坐标，以及在VR世界坐标系中目标设备对应的位姿。

进一步的，在VR设备向图像采集设备发送在VR世界坐标系中目标设备的3D关键点坐标，以及在VR世界坐标系中目标设备对应的位姿的同时还可以将获取该3D关键点坐标和目标设备对应的位姿的时间戳发送至图像采集设备。

上述实施例中，处理虚拟现实设备的画面图像的装置为图像采集设备时，图像采集设备可以通过与VR设备通信来获取3D关键点坐标，以及在VR世界坐标系中目标设备对应的位姿，这样的参数获取方式，无需重复穿戴或摘下VR设备、移动图像采集设备的位置以及复杂的运算，可以通过与VR设备的通信轻松实现参数获取过程。

其中，VR设备分别与目标设备和图像采集设备建立了通信连接。

本公开实施例中，VR设备可以为VR头显设备、图像采集设备可以为照相机、手机、平板电脑、智能手表等设备。

其中，上述目标设备可以与用户的目标部分关联，并采集用户的目标部位的动作参数，并将这些动作参数传输至VR设备，示例性的，该目标设备可以为可被用户的任意部位穿戴或握持的设备，例如，可以为手柄、手环、面具、鞋子、脚环等。

上述3D关键点坐标可以包括一个或多个目标设备对应关键特征点的坐标。示例性的，可以将目标设备上任意一个特征点作为关键特征点，或者将目标设备上可以表征目标设备轮廓的多个特征点作为关键特征点；又示例性的，可以将目标设备上部分特殊结构对应的多个特征点作为关键特征点。

102、获取图像采集设备所采集的目标图像。

上述目标图像可以为通过图像采集设备采集目标设备的原始图像，也可以为该原始图像中的部分图像。

在一些实施例中，可以通过图像采集设备采集目标设备的原始图像，之后确定原始图像中的目标设备区域图像，从原始图像中裁剪目标设备区域的图像作为目标图像。

其中，目标设备区域图像是指原始图像中，目标设备在原始图像中的部分区域的图像，例如，可以先确定在原始图像中目标设备对应的外接矩形，将该外接矩形所对应区域图像，作为目标图像。

在一些实施例中，通过图像采集设备采集目标设备的原始图像可以为，通过图像采集设备采集真实场景图像，以获取用户握持或穿戴目标设备的原始图像，然后通过检测原始图像中的目标设备，来确定目标设备区域图像，之后从原始图像中裁剪目标设备区域图像作为目标图像。

通过上述实施例，在基于图像采集装置所采集的原始图像，目标设备对应的2D关键点坐标的过程中，先对原始图像进行目标设备的检测，来从较大尺寸的原始图像中，确定出较小尺寸的目标设备区域图像，如此可以减少后续确定目标设备对应的2D关键点坐标的过程中的计算量，提高参数获取效率，减少功耗。

如图2所示，为本公开实施例提供的一种标定信息确定方法的实现场景示意图，例如图像采集设备为手机，目标设备为手柄，图2所示的场景中包括VR设备21、手柄22和手机23，手机23通过三脚架24固定，手机23中的相机231可以采集真实场景图像，VR设备21可以向手机23发送游戏画面图像，以使得手机23在确定相机231在VR世界坐标系下的标定信息之后，可以根据VR设备发送的游戏画面图像和该标定信息，得到在相机231视角下的游戏画面图像。其中，VR设备和手机建立通信连接，VR设备和手柄也建立通信连接。

需要说明的是，图2中所示的手机与用户之间的相对位置是一种示例性的展示，在实际场景中，还可以有其他的相对位置，也就是说，在实际场景中，通过手机(图像采集设备)采集的真实场景图像中可以包括针对用户任意角度的图像画面，例如，用户正面的图像画面、用户侧面的图像画面，或者，用户背面的图像画面等。

103、基于目标图像，获取在相机坐标系中目标设备对应的2D关键点坐标。

在一些实施例中，基于目标图像，获取在相机坐标系中目标设备对应的2D关键点坐标的方式可以为：将目标图像输入关键点提取模型，获取关键点提取模型输出的目标设备的2D关键点坐标；其中，关键点提取模型是基于样本信息训练得到的卷积神经网络模型，样本信息中包括目标设备的多个样本图像和与每个样本图像对应的目标设备的2D关键点坐标。

其中目标图像中2D关键点的个数可以为一个或者多个。

上述实施例中，通过预先根据样本信息训练用于目标设备的关键点提取模型，这样在后续计算2D关键点坐标时，可以快速根据该关键点提取模型实时确定，节省了从目标图像中，确定目标设备对应的2D关键点坐标的时间，提高了参数获取效率。

104、根据2D关键点坐标、3D关键点坐标、目标设备对应的位姿和图像采集设备的位姿，确定图像采集设备图像采集设备在VR世界坐标系中的标定信息。

其中，3D关键点坐标为目标设备在VR世界坐标系中3D关键点的坐标。3D关键点与2D关键点对应，3D关键点的数量可以与2D关键点的数量相同，相应的3D关键点和2D关键点可以对应目标设备中相同的特征点。

上述标定信息包括位置信息和朝向信息。其中，上述图像采集设备的位姿可以为图像采集设备在即时定位及地图构建(Simultaneous Localization and Mapping，SLAM)世界坐标系中对应的位姿。

在一些实施例中，根据目标设备对应的2D关键点坐标、目标设备对应的3D关键点坐标、目标设备对应的位姿和图像采集设备的位姿，确定图像采集设备在VR世界坐标系中的标定信息的过程中，需要计算的是图像采集设备的位姿从SLAM世界坐标系到VR世界坐标系的一个变换，因此需要先获取目标设备在SLAM世界坐标系中的位姿和目标设备在VR世界坐标系的位姿(这个直接从VR设备拿到)，然后求出目标设备在SLAM世界坐标系中的位姿和目标设备在VR世界坐标系的位姿的相对变换，最后结合SLAM世界坐标系下图像采集设备的位姿就可以得到图像采集设备在VR世界坐标系中的标定信息。

在一些实施例中，根据目标设备对应的2D关键点坐标、目标设备对应的3D关键点坐标、目标设备对应的位姿和图像采集设备的位姿，确定图像采集设备在VR世界坐标系中的标定信息的方式可以为：首先，根据目标设备的2D关键点坐标、目标设备的3D关键点坐标和图像采集设备内参计算目标设备在相机坐标系的位姿；其次根据目标设备在相机坐标系的位姿以及从相机坐标系到SLAM世界坐标系的变换矩阵，计算目标设备在SLAM世界坐标系的位姿，然后根据目标设备在SLAM世界坐标系的位姿、目标设备在VR世界坐标系中位姿，计算出SLAM世界坐标系到VR世界坐标系的变换矩阵，之后根据计算出的SLAM世界坐标系到VR世界坐标系的变换矩阵和SLAM世界坐标系下图像采集设备的位姿，就可以计算出图像采集设备在VR世界坐标系中的标定信息。

针对图像采集设备所在设备的软件操作系统为IOS软件操作系统的情况，在SLAM世界坐标系下图像采集设备的位姿和图像采集设备内参可以根据图像采集设备所在设备获取的真实场景的ARKit图像得到；针对图像采集设备所在设备的软件

针对操作系统为安卓软件操作系统的情况，在SLAM世界坐标系下图像采集设备的位姿和图像采集设备内参则需要根据图像采集设备拍摄的真实场景的图像结合自研的SLAM软件算法计算得到。其中，ARKit图像为基于应用工具(ARKit)获取的图像，ARKit为苹果公司推出的增强现实开发套件，ARKit为可以通过整合设备摄像头图像信息与设备运动传感器信息，在应用中提供AR体验的开发套件,ARKit是一种用于开发AR应用的软件开发工具包(Software Development Kit，SDK)。

本公开实施例提供的技术方案与现有技术相比具有如下优点：获取虚拟现实设备确定的在虚拟现实世界坐标系中目标设备对应的3D关键点坐标，以及在虚拟现实世界坐标系中目标设备对应的位姿；目标设备与虚拟现实设备关联；获取图像采集设备采集的目标图像，基于目标图像，获取在相机坐标系中目标设备对应的2D关键点坐标；根据2D关键点坐标、3D关键点坐标、目标设备对应的位姿和图像采集设备的位姿，确定图像采集设备在虚拟现实世界坐标系中的标定信息，标定信息包括位置信息和朝向信息。通过该方案，在标定过程中无需人为移动图像采集设备的位置来计算图像采集装置在VR世界坐标系中的标定信息的相关数据，并且在获取上述2D关键点坐标、3D关键点坐标、目标设别的位姿和图像采集装置的位姿这些参数时，也无需重复穿戴和摘下VR设备，因此可以简化标定过程，可以简单高效的确定图像采集装置在VR世界坐标系中的标定信息。

105、基于标定信息和虚拟现实设备发送的第一画面图像，确定以图像采集设备为视角的第二画面图像。

上述VR设备和图像采集设备所在设备(如手机)建立了通信连接，图像采集设备所在设备可以接收VR设备发送的第一画面图像。

其中，根据相机在VR世界坐标系下的位置信息和朝向信息，以及第一画面图像，可以确定出以图像采集设备为视角的第二画面图像。

在可以实现简单高效的确定图像采集装置在VR世界坐标系中的标定信息的基础上，可以及时处理虚拟现实设备发送的第一画面图像。

如图3所示，为本公开实施例提供的另一种处理虚拟现实设备的画面图像的方法的流程示意图，该方法包括：

301、获取VR设备确定的在VR世界坐标系中目标设备对应的3D关键点坐标，以及在VR世界坐标系中目标设备对应的位姿。

其中，VR世界坐标系是指VR设备的世界坐标系。

302、获取图像采集设备所采集的目标图像。

303、基于目标图像，获取在相机坐标系中目标设备对应的2D关键点坐标。

304、根据2D关键点坐标、3D关键点坐标、目标设备对应的位姿和图像采集设备的位姿，确定图像采集设备在虚拟现实世界坐标系中的标定信息。

针对上述301至304的相关描述可以参考上述针对101至104的相关描述，此处不再赘述。

在上述标定图像采集设备过程中无需人为移动图像采集设备的位置来计算图像采集设备在VR世界坐标系中的标定信息的相关数据，并且在获取目标设备对应的2D关键点坐标、3D关键点坐标，以及目标设备对应的位姿和相机的位姿这些参数时，也无需重复穿戴和摘下VR设备，因此可以简化标定过程，可以简单高效的确定图像采集设备在VR世界坐标系中的标定信息。

305、接收VR设备发送的第一画面图像。

VR设备和图像采集设备所在设备(如手机)建立了通信连接，图像采集设备所在设备可以接收VR设备发送的第一画面图像。

306、基于标定信息和第一画面图像，获取以图像采集设备为视角的第二画面图像。

307、通过图像采集设备获取VR设备的用户的真实场景图像。

其中，用户的真实场景图像，是指拍摄的真实场景图像中包括有用户的画面。

308、从真实场景图像中获取用户画面图像。

其中，可以利用抠图(Matting)算法，从真实场景图像中获取用户画面图像。

在一些实施例中，可以将真实场景图像输入目标抠图模型；然后获取目标抠图模型输出的真实场景图像的用户画面图像；其中，目标抠图模型为基于样本图像集训练后得到的，样本图像集中包括多帧合成图像，每帧合成图像为基于用户图像和室内场景图像融合得到的，用户图像中用户的目标部位穿戴或握持目标设备，和/或，用户穿戴虚拟现实设备。

由于在一些抠图算法中对用户图像进行抠图时，可能会将用户的目标部位穿戴或握持的目标设备抠掉，以及将用户穿戴的虚拟现实设备抠掉，这样会导致最终生成VR设备的画面图像时，与实际场景中用户画面不相符合，导致最终生成的VR设备的画面图像不够真实自然。上述实施例中，通过基于用户图像和室内场景图像融合得到的多帧合成图像加入样本图像集，并训练得到目标抠图模型，因此该抠图模型在进行抠图时，可以保留用户图像中用户的目标部位穿戴或握持目标设备，和/或，用户穿戴虚拟现实设备的这些特征，从而可以使得抠图效果更加准确，使得生成的VR设备的画面图像更加符合实际场景。

309、基于标定信息，获取以图像采集设备为视角的道具画面图像。

与获取第二画面图像的方式类似，可以基于标定信息，获取以图像采集设备为视角的道具画面图像。

310、将第二画面图像、用户画面图像和道具画面图像进行融合，得到MRC图像。

其中，道具画面图像为目标设备所关联的道具的画面图像。

示例性的，假设目标设备为手柄，则道具画面图像可以为手持道具的画面图像，假设目标设备为脚环，则道具画面图像可以为脚部穿戴道具的画面图像。如图4A所示，为本公开实施例提供的一种生成MRC图像的示意图。假设图像采集设备为相机，目标设备为手柄，如图4A中所示的图像41为用户的真实场景图像，可以从中抠图得到用户画面图像，如图4A中所示的图像42为获取的相机视角下的画面图像，即第二画面图像，如图4A中所示的图像43为获取的相机视角下的道具画面图像，将第二画面图像、用户画面图像和道具画面图像进行融合，可以得到如图4A中所示的图像44所示的MRC图像。

本公开实施例提供的方法，首先可以基于标定信息结合VR设备的画面图像，去确定出以图像采集设备为视角的第二画面图像，进一步的，还结合该第二画面图像、真实场景中用户画面图像和道具画面图像，这样可以实现将真实场景中用户画面、以图像采集设备为视角的虚拟场景画面、以及虚拟道具画面三者的图像融合，实现将虚拟画面和真实画面的融合，得到MRC图像。

在一些实施例中，在将第二画面图像、用户图像和道具画面图像进行融合，得到混合现实捕捉MRC图像之前，先确定用户画面图像和画面图像之间的第一图层关系和/或第二图层关系。

在一些实施例中，获取第一图层关系的方式可以包括：对真实场景图像进行深度估计得到第一深度信息，并且可以获取第二画面图像的第二深度信息；并根据该第一深度信息和第二深度信息，确定用户画面图像和画面图像之间的第一图层关系。

需要说明的是，还可以采用其他方式来确定用户画面图像和画面图像之间的第一图层关系，例如，限定固定的图层关系，或者通过其他方式计算用户画面图像和画面图像之间的图层关系，本公开实施例中不做限定。

在一些实施例中，获取第二图层关系的方式可以包括：检测真实场景图像中用户的目标部位是否可见，以确定用户画面图像与道具画面图像的第二图层关系；然后根据上述第一图层关系和/或第二图层关系，将第二画面图像、用户图像和道具画面图像进行融合，得到MRC图像。在真实场景图像中，如果用户的目标部位不可见，那么可以确定用户画面图像所处图层为道具画面图像所处图层的上层图层，如果用户的目标部位可见，那么可以确定用户画面图像所处图层为道具画面图像所处图层的下层图层。

上述目标部位可以包括但不限于手部、脚部、面部等，本公开实施例不做限定。

需要说明的是，还可以采用其他方式来确定第二图层关系，例如，限定固定的图层关系，或者通过其他方式计算第二图层关系，本公开实施例中不做限定。

上述实施例中，通过对真实场景图像的深度估计，去确定用户画面图像和画面图像之间的第一图层关系，并通过检测真实场景图像中用户的目标部位是否可见，去确定用户画面图像与道具画面图像的第二图层关系，可以还原3D场景中用户与游戏场景，以及用户与道具之间在渲染时的图层关系，这样得到MRC图像之后，最终渲染出的画面可以有清晰的图层关系，可以呈现真实3D效果。

如图4B所示，为本公开实施例提供的一种从真实场景图像中获取用户画面图像的流程示意图，该流程中可以包括模型训练过程和模型应用过程，该流程包括以下步骤：

401、获取用户绿幕视频。

其中，用户绿幕视频为采集的用户在绿幕场景中的视频。可以通过图像采集设备采集用户在绿幕场景中的视频，用户的目标部位穿戴或握持目标设备，和/或，用户穿戴虚拟现实设备。

402、根据用户绿幕视频的全图区域、用户绿幕视频中各帧图像的绿幕区域，确定各帧图像的用户图像。

在一些实施例中，根据用户绿幕视频的全图区域、用户绿幕视频中各帧图像的绿幕区域，确定各帧图像的用户图像具体可以包括但不限于通过以下步骤402a至402f实现：

402a、先获取用户绿幕视频中各帧图像的绿幕区域。

其中，各帧图像的绿幕区域为各帧图像全图区域中，绿幕所在区域，该各帧图像的绿幕区域包括处于绿幕区域内的用户图像。

示例性的，如图4C所示，为本公开实施例提供的一种确定用户图像的实现过程示意图。图4C中所示的绿幕区域G表示全图区域中绿幕所在区域。

402b、对各帧图像的绿幕区域进行像素补全，得到各帧图像的绿幕补全区域。

示例性的，如图4C所示，针对绿幕区域G进行像素补全，可以得到对应的绿幕补全区域A。针对各帧图像的绿幕区域均可以执行如图4所示的过程，得到各帧图像的绿幕区域对应的补全区域A。

402c、计算各帧图像的绿幕补全区域的交集，得到最小绿幕补全区域。

由于在用户绿幕视频中，不同帧图像中绿幕补全区域可能处于不同的位置，因此计算各帧图像的绿幕补全区域的交集，可以确定出各帧图像的绿幕补全区域的交叠区域，也即最小绿幕补全区域。

示例性的，如图4C所示，在得到各帧图像的绿幕补全区域A之后，可以针对各帧图像的绿幕补全区域计算交集，计算得到最小绿幕补全区域A1。

402d、在用户绿幕视频的全图区域中去除最小绿幕补全区域，得到绿幕外区域。

如图4C所示，在全图区域中去除最小绿幕补全区域A1之后，可以得到绿幕外区域B。

402e、计算绿幕外区域与各帧图像的绿幕抠图区域的并集，以得到各帧图像的非用户图像区域。

其中，各帧图像的绿幕抠图区域为基于各帧图像的绿幕区域进行用户图像的抠图之后得到的剩余绿幕区域。

402f、根据全图区域和各帧图像的非用户图像区域，确定各帧图像的用户图像。

示例性的，如图4C所示，针对用户绿幕视频中每帧图像的绿幕区域G进行用户图像的抠图之后可以得到每帧图像的绿幕抠图区域，然后基于每帧图像的绿幕抠图区域与绿幕外区域B求并集，可以计算得到各帧图像的非用户图像区域E，最后确定全图区域中各帧图像的非用户图像区域E以外的区域，即为各帧图像的用户图像，示例性的，如图4C所示的用户图像R。

上述实施例中，提供了基于用户绿幕视频进行处理，一次获取到用户绿幕视频中各个图像对应的用户图像的方法，该方法可以一次获取到大量用户图像，提高了计算效率。

在另一些实施例中，还可以基于单帧用户绿幕图像进行处理，获取对应的用户图像的方式，分别对多帧用户绿幕图像进行处理，以得到多帧用户图像，之后再将获取的多帧用户图像与室内场景图像融合。

403、将各帧图像的用户图像与室内场景图像融合，以得到多帧合成图像。

其中，每帧合成图像为基于用户图像和室内场景图像融合得到的，用户图像中用户的目标部位穿戴或握持目标设备，和/或，用户穿戴虚拟现实设备。

在一些实施例中，将各帧图像的用户图像与室内场景图像融合，以得到多帧合成图像可以包括但不限于通过以下步骤403a至403d实现：

403a、确定目标用户图像对应的用户定位点的第一坐标向量。

其中，目标用户图像为各帧图像中任一帧图像对应的用户图像。所述用户定位点可以为目标用户图像的外接矩形中底边的中心点；目标定位点为室内场景图像中的任意点。

在一些实施例中，该用户定位点可以为用户某些部位特征所对应的点。

上述将外接矩形中底边的中心点确定为用户定位点是由于通常用户脚部特征靠近外接矩形中底边的中心点，因此以该点作为用户定位点，可以定位到用户脚部特征，这里底边的中线点也可以理解为外接矩形底边的中心点为距离用户脚部特征最近的矩形边的中心点。

上述方案中，将目标用户图像融合至室内场景图像，可以模拟用户在室内场景中的图像，这样得到的样本图像集更加贴合实际场景，以此训练得到的模型也会符合场景需求。

在一些情况下，目标用户图像中包括完整的用户特征，另一些情况下目标用户图像中不包括完整的用户特征。

以基于用户脚部位置确定用户定位点，并将用户图像融合至室内场景图像的目标定位点为例，可以包括但不限于以下两种情况：

情况1：目标用户图像中包括用户脚部特征，目标定位点为室内场景图像中地面区域中的地面中心点。

在确定目标定位点时，先针对室内场景图像中地面区域进行识别，确定出室内场景图像中的地面区域，然后计算识别出的地面区域的地面中心点。

示例性的，如图4D所示，为本公开实施例提供的一种将目标用户图像融合至室内场景图像的示意图，首先确定目标用户图像的外接矩形，并确定该外接矩形中底边的中心点M1，该情况下目标用户图像中包括用户脚部特征，那么此时确定目标定位点为室内场景图像中地面区域中的地面中心点N1为待融合到的目标点，最后根据M1和N1两个点之间的偏移向量，将目标用户图像融合至室内场景图像，以使得用户图像对应的用户定位点M1处于室内场景图像中的目标定位点N1。

情况2：目标用户图像中不包括用户脚部特征，目标定位点为室内场景图像的底边上的任意点。

示例性的，如图4E所示，为本公开实施例提供的另一种将目标用户图像融合至室内场景图像的示意图，可以确定目标用户图像的外接矩形，并确定该外接矩形中底边的中心点M2，该情况下目标用户图像中不包括用户脚部特征，那么此时确定目标定位点为室内场景图像的底边上的任意点N2为待融合到的目标点，最后根据M2和N2两个点之间的偏移向量，将目标用户图像融合至室内场景图像，以使得用户图像对应的用户定位点M2处于室内场景图像中的目标定位点N2。

上述实施例中，针对目标用户图像中是否包括用户脚部特征的不同情况，设置了室内场景图像中的不同目标定位点，以使得融合后的图像，可以更加符合真实场景中用户在室内场景中所拍摄图像的画面，从而可以使得最终得到的目标融合图像更加真实自然。

403b、确定室内场景图像中目标定位点的第二坐标向量。

其中，用户定位点为目标用户图像的外接矩形中底边的中心点；目标定位点为室内场景图像中的任意点。

403c、根据第一坐标向量和第二坐标向量计算得到偏移向量。

403d、基于偏移向量，将目标用户图像融合至室内场景图像，以得到目标合成图像。

其中，基于偏移向量，将目标用户图像融合至室内场景图像，以使得用户图像对应的用户定位点处于室内场景图像中的目标定位点，以得到目标合成图像。

需要说明的是，在基于偏移向量，将目标用户图像融合至室内场景图像的过程中，可以先对目标用户图像进行随机大小增强，即对目标用户图像进行随机缩放，之后再基于偏移向量，将目标用户图像融合至室内场景图像。

404、基于多帧合成图像确定样本图像集，基于样本图像集对初始抠图模型进行训练，以得到目标抠图模型。

在一些实施例中，基于多帧合成图像确定样本图像集可以是指将该多帧合成图像作为样本图像集的全部或部分样本图像。

在另一些实施例中，上述基于多帧合成图像确定样本图像集还可以是基于该多帧合成图像对图像进行旋转、缩放等处理得到更多处理后的图像之后，将处理后的图像作为样本图像集中的全部或部分样本图像。

405、将真实场景图像输入目标抠图模型。

406、获取目标抠图模型输出的真实场景图像的用户画面图像。

上述实施例中，通过基于用户图像和室内场景图像融合得到的多帧合成图像加入样本图像集，并训练得到目标抠图模型，因此该抠图模型在进行抠图时，可以保留用户图像中用户的目标部位穿戴或握持目标设备，和/或，用户穿戴虚拟现实设备的这些特征，从而可以使得抠图效果更加准确，使得生成的VR设备的画面图像更加符合实际场景。

如图5所示，为本公开实施例提供的一种处理虚拟现实设备的画面图像的装置的结构框图，该装置包括：

获取模块501，用于获取虚拟现实设备确定的在虚拟现实世界坐标系中目标设备对应的3D关键点坐标，以及在所述虚拟现实世界坐标系中所述目标设备对应的位姿；所述目标设备与所述虚拟现实设备关联；获取图像采集设备所采集的目标图像，基于所述目标图像，获取在相机坐标系中所述目标设备对应的2D关键点坐标；

标定模块502，用于根据所述2D关键点坐标、所述3D关键点坐标、所述目标设备对应的位姿和所述图像采集设备的位姿，确定所述图像采集设备在所述虚拟现实世界坐标系中的标定信息，所述标定信息包括位置信息和朝向信息；

图像生成模块503，用于基于所述标定信息和所述虚拟现实设备发送的第一画面图像，确定以所述图像采集设备为视角的第二画面图像。

作为本公开实施例一种可选的实施方式，所述获取模块501，具体用于：

获取图像采集设备所采集的所述目标设备的原始图像；

作为本公开实施例一种可选的实施方式，所述图像生成模块503，还用于：

从所述真实场景图像中获取所述用户画面图像；

在将所述第二画面图像、所述用户画面图像和所述道具画面图像进行融合，得到混合现实捕捉图像之前，确定第一图层关系和/或第二图层关系，其中，所述第一图层关系为所述用户画面图像和所述第二画面图像之间的图层关系，所述第二图层关系为所述用户画面图像与所述道具画面图像之间的图层关系；

所述图像生成模块503，具体用于：

作为本公开实施例一种可选的实施方式，所述图像生成模块503，具体用于：对所述真实场景图像进行深度估计，得到真实场景图像的第一深度信息；

获取所述第二画面图像的第二深度信息；

作为本公开实施例一种可选的实施方式，所述图像生成模块503，具体用于：

将所述真实场景图像输入目标抠图模型；

作为本公开实施例一种可选的实施方式，所述装置还包括：模型训练模块504，用于在所述图像生成模块将所述真实场景图像输入目标抠图模型之前，获取用户绿幕视频，所述用户绿幕视频为采集的用户在绿幕场景中的视频；

作为本公开实施例一种可选的实施方式，所述模型训练模块504，具体用于：

获取所述用户绿幕视频中所述各帧图像的绿幕区域；

确定所述室内场景图像中目标定位点的第二坐标向量；

作为本公开实施例一种可选的实施方式，

所述目标用户图像中包括用户脚部特征；

作为本公开实施例一种可选的实施方式，

所述目标用户图像中不包括用户脚部特征；

所述目标定位点为所述室内场景图像的底边上的任意点。

如图6所示，为本公开实施例提供的一种电子设备的结构示意图，该电子设备包括：处理器601、存储器602及存储在所述存储器602上并可在所述处理器601上运行的计算机程序，所述计算机程序被所述处理器601执行时实现上述方法实施例中处理虚拟现实设备的画面图像的方法的各个过程。且能达到相同的技术效果，为避免重复，这里不再赘述。

本公开实施例提供一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述方法实施例中处理虚拟现实设备的画面图像的方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以为只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本公开实施例提供一种计算程序产品，该计算机程序产品存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中处理虚拟现实设备的画面图像的方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本公开中，处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开中，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

本公开中，计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储，信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。根据本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种处理虚拟现实设备的画面图像的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取虚拟现实设备确定的在虚拟现实世界坐标系中目标设备对应的3D关键点坐标，以及在所述虚拟现实世界坐标系中所述目标设备对应的位姿，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取图像采集设备所采集的目标图像，包括：

获取图像采集设备所采集的所述目标设备的原始图像；

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像，获取在相机坐标系中所述目标设备对应的2D关键点坐标，包括：

5.根据权利要求要求1所述的方法，其特征在于，所述确定所述相机在虚拟现实世界坐标系中的标定信息之后，所述方法还包括：

从所述真实场景图像中获取所述用户画面图像；

6.根据权利要求5所述的方法，其特征在于，所述将所述第二画面图像、所述用户画面图像和所述道具画面图像进行融合，得到混合现实捕捉图像之前，所述方法还包括：

确定第一图层关系和/或第二图层关系，其中，所述第一图层关系为所述用户画面图像和所述第二画面图像之间的图层关系，所述第二图层关系为所述用户画面图像与所述道具画面图像之间的图层关系；

所述将所述第二画面图像、所述用户画面图像和所述道具画面图像进行融合，得到混合现实捕捉图像，包括：

7.根据权利要求6所述的方法，其特征在于，所述确定第一图层关系包括：

获取所述第二画面图像的第二深度信息；

8.根据权利要求6所述的方法，其特征在于，所述确定第一图层关系包括：

在检测到真实场景图像中所述用户的目标部位可见的情况下，确定所述用户画面图像与所述道具画面图像之间的第二图层关系；

其中，所述目标部位为穿戴或握持所述目标设备的部位。

9.根据权利要求5所述的方法，其特征在于，所述从所述真实场景图像中获取所述用户画面图像，包括：

将所述真实场景图像输入目标抠图模型；

10.根据权利要求9所述的方法，其特征在于，所述将所述真实场景图像输入目标抠图模型之前，所述方法还包括：

11.根据权利要求10所述的方法，所述根据所述用户绿幕视频的全图区域、所述用户绿幕视频中各帧图像的绿幕区域，确定各帧图像的用户图像，包括：

获取所述用户绿幕视频中所述各帧图像的绿幕区域；

12.根据权利要求10所述的方法，其特征在于，所述将所述各帧图像的用户图像与室内场景图像融合，以得到所述多帧合成图像，包括：

确定所述室内场景图像中目标定位点的第二坐标向量；

13.根据权利要求12所述的方法，其特征在于，

所述用户定位点为所述目标用户图像的外接矩形中底边的中心点；所述目标定位点为所述室内场景图像中的任意点。

14.根据权利要求13所述的方法，其特征在于，

所述目标用户图像中包括用户脚部特征；

或，

所述目标用户图像中不包括用户脚部特征；

所述目标定位点为所述室内场景图像的底边上的任意点。

15.一种处理虚拟现实设备的画面图像的装置，其特征在于，包括：

16.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至14中任一项所述的处理虚拟现实设备的画面图像的方法。

17.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至14中任一项所述的处理虚拟现实设备的画面图像的方法。