CN116645309A

CN116645309A - 图像合成方法、图像合成装置、存储介质及电子设备

Info

Publication number: CN116645309A
Application number: CN202310764999.6A
Authority: CN
Inventors: 李凡; 肖戈; 方力; 徐伟俊; 邵寅亮; 孙冰晶
Original assignee: Beijing Kaishida Technology Co ltd
Current assignee: Beijing Kaishida Technology Co ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-08-25

Abstract

本公开涉及一种图像合成方法、图像合成装置、存储介质及电子设备，以提高合成图像的效果。图像合成方法包括：分别获取第一时刻和第三时刻之间的第一延迟时长、以及第二时刻和第三时刻之间的第二延迟时长；根据第一延迟时长、第一相机在所述第三时刻的第三位姿、以及记录的位姿队列，确定在将原始背景画面投影到屏幕模型时第一相机的第一位姿；根据第二延迟时长、第一相机在第三时刻的第三位姿、以及位姿队列，确定第一相机在采集第一真实图像时的第二位姿；根据第一位姿和第二位姿，对原始背景画面进行修正，得到目标背景画面；对目标背景画面、第一真实图像以及屏幕遮罩图像进行画面合成，得到合成图像。

Description

图像合成方法、图像合成装置、存储介质及电子设备

技术领域

本公开涉及扩展现实技术领域，具体地，涉及一种图像合成方法、图像合成装置、存储介质及电子设备。

背景技术

扩展现实是一种将虚拟世界与真实世界相结合的技术，它可以将虚拟对象叠加到真实场景中，使得用户可以看到虚拟世界和真实世界的混合图像。在扩展现实应用中，动态追踪和实时同步是非常重要的技术，它可以使虚拟对象与真实场景保持同步，从而提高用户的体验和交互性。

相机在移动时，针对待合成的相机拍摄的真实图像和采集的用于背景图像的渲染画面的位姿不同，即，真实图像和渲染图像的视角不同，在合成时真实图像和渲染画面无法对齐，导致合成画面出现撕裂现象，从而导致合成图像的效果较差。

发明内容

本公开的目的是提供一种图像合成方法、图像合成装置、存储介质及电子设备，以提高合成图像的效果。

为了实现上述目的，本公开第一方面提供一种图像合成方法，应用于虚拟现实设备中的处理设备，所述虚拟现实设备还包括显示设备和第一相机，所述图像合成方法包括：

分别获取第一时刻和第三时刻之间的第一延迟时长、以及第二时刻和所述第三时刻之间的第二延迟时长，其中，所述第一时刻为将原始背景画面投影到屏幕模型上得到屏幕成像图像的时刻，所述第二时刻为所述第一相机对显示有所述屏幕成像图像的所述显示设备进行拍摄得到第一真实图像的时刻，所述第三时刻为所述处理设备接收到所述第一真实图像的时刻；

根据所述第一延迟时长、所述第一相机在所述第三时刻的第三位姿、以及记录的位姿队列，确定在将所述原始背景画面投影到所述屏幕模型时所述第一相机的第一位姿，所述位姿列队中包括所述第一相机在所述第三时刻的第三位姿以及在所述第三时刻之前的每一历史时刻的位姿；

根据所述第二延迟时长、所述第一相机在所述第三时刻的第三位姿、以及所述位姿队列，确定所述第一相机在采集所述第一真实图像时的第二位姿；

根据所述第一位姿和所述第二位姿，对所述原始背景画面进行修正，得到目标背景画面；

对所述目标背景画面、所述第一真实图像以及屏幕遮罩图像进行画面合成，得到合成图像。

本公开第二方面提供一种图像合成装置，应用于虚拟现实设备中的处理设备，所述虚拟现实设备还包括显示设备和第一相机，所述图像合成装置包括：

第一获取模块，用于分别获取第一时刻和第三时刻之间的第一延迟时长、以及第二时刻和所述第三时刻之间的第二延迟时长，其中，所述第一时刻为将原始背景画面投影到屏幕模型上得到屏幕成像图像的时刻，所述第二时刻为所述第一相机对显示有所述屏幕成像图像的所述显示设备进行拍摄得到第一真实图像的时刻，所述第三时刻为所述处理设备接收到所述第一真实图像的时刻；

第一确定模块，用于根据所述第一延迟时长、所述第一相机在所述第三时刻的第三位姿、以及记录的位姿队列，确定在将所述原始背景画面投影到所述屏幕模型时所述第一相机的第一位姿，所述位姿列队中包括所述第一相机在所述第三时刻的第三位姿以及在所述第三时刻之前的每一历史时刻的位姿；

第二确定模块，用于根据所述第二延迟时长、所述第一相机在所述第三时刻的第三位姿、以及所述位姿队列，确定所述第一相机在采集所述第一真实图像时的第二位姿；

修正模块，用于根据所述第一位姿和所述第二位姿，对所述原始背景画面进行修正，得到目标背景画面；

合成模块，用于对所述目标背景画面、所述第一真实图像以及屏幕遮罩图像进行画面合成，得到合成图像。

本公开第三方面提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面所述图像合成方法的步骤。

本公开第四方面提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一饭馆所述图像合成方法的步骤。

采用上述技术方案，根据第一延迟时长、第二延迟时长、第一相机在第三时刻的第三位姿以及位姿队列，分别确定出在将原始背景画面投影到屏幕模型时第一相机的第一位姿和第一相机在采集第一真实图像时的第二位姿，进而根据第一位姿和第二位姿对原始背景画面进行修正得到目标背景画面，并基于目标背景画面、第一真实图像以及屏幕遮罩图像进行画面合成，得到合成图像。如此，考虑到第一相机位姿的变化，对原始背景画面进行修正得到目标背景画面，使得目标背景画面能够与第一真实图像对齐，从而使合成图像在视觉上更加连贯和真实，提升了扩展现实技术的应用体验和合成图像的效果。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种虚拟现实设备的示意图。

图2是根据一示例性实施例示出的一种虚拟现实设备的工作流程示意图。

图3是根据一示例性实施例示出的一种图像合成方法的流程图。

图4是根据一示例性实施例示出的一种图像合成装置的框图。

图5是根据一示例性实施例示出的一种电子设备的框图。

图6是根据一示例性实施例示出的另一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

首先需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。其次需要说明的是，在本公开中所描述的第一相机的位姿均是指第一相机相对于屏幕模型的位姿。

目前的扩展技术中，在图像合成过程中，主要关注的是背景画面和抓拍的真实图像之间的延时问题，没有充分考虑到相机位姿的变化对合成图像的影响，尤其是在涉及到背景画面和抓拍的真实图像之间存在较大位姿变化的情况下。在实际应用中，由于相机位姿的变化(如旋转、平移等)，背景画面和抓拍的真实图像之间的对位可能会产生较大的差异，这会导致背景画面中虚拟对象的位置不准确，降低了扩展现实应用的真实感和稳定性，使得扩展现实技术的应用体验较差。

为了提高扩展现实技术的应用体验和合成图像的效果，本公开提供一种图像合成方法、图像合成装置、存储介质及电子设备。

在对本公开所提供的图像合成方法进行详细描述之前，首先，对该图像合成方法所适用的虚拟现实设备进行说明。

图1是根据一示例性实施例示出的一种虚拟现实设备的示意图。如图1所示，该虚拟现实设备100可以包括：处理设备101、显示设备102和第一相机103。其中，处理设备101分别与显示设备102、第一相机103相连。其中，显示设备102用于显示基于原始背景画面生成的屏幕成像图像A，第一相机103为真实相机，用于对显示有屏幕成像图像显示设备102进行拍摄得到第一真实图像。其中，第一相机103的拍摄范围如图1中两条虚线之间的范围。

此外，虚拟现实设备还可以包括场景相机、OGRE相机(OGRE Camera)、屏幕模型。其中，处理设备还分别与场景相机和OGRE相机相连。其中，场景相机用于采集和渲染虚拟场景中的一帧画面，该画面可以称为原始背景画面，OGRE相机将场景相机采集和渲染得到的原始背景画面投影到虚拟三维空间中的屏幕模型上，得到屏幕成像图像，进而在现实设备中显示该屏幕成像图像，即，OGRE相机能够确定显示设备上显示的内容。第一相机为真实摄像机，用于拍摄真实世界中的真实图像，例如处理设备控制第一相机拍摄对显示有屏幕成像图像的显示设备进行拍摄得到第一真实图像。

应当理解的是，场景相机在采集和渲染得到原始背景图像时，处理设备获取第一相机的位姿P0，进而控制场景相机处于位姿P0时进行采集和渲染得到原始背景图像。类似地，OGRE相机在将原始背景图像投影到屏幕模型上时，处理设备获取第一相机的位姿P1，进而控制OGRE相机在处于位姿P1时将原始背景图像投影到屏幕模型上生成屏幕成像图像。之后，处理设备控制显示设备显示屏幕成像图像，并控制第一相机拍摄显示设备得到第一真实图像。之后，采集卡将第一真实图像回传至处理设备。其中，处理设备会记录其接收到第一真实图像时的第一相机的位姿以及历史时刻的第一相机的位姿，以确保在图像合成阶段可以使用历史时刻的位姿数据。

图2是根据一示例性实施例示出的一种虚拟现实设备的工作流程示意图。如图2所示，以一帧图像为例，首先，在T0时刻场景相机进行画面渲染得到原始背景画面，接着，在T1时刻OGRE相机将原始背景画面投影到屏幕模型得到屏幕成像图像，之后，在T2时刻显示设备显示屏幕成像图像，并控制第一相机拍摄，最后，在T3时刻采集卡将第一相机采集的第一真实图像回传至处理设备。

应当理解的是，在实际应用中，场景相机、OGRE相机以及第一相机并行运行，即，在T0时刻至T3时刻的时间段内，场景相机一直进行画面渲染的操作、OGRE相机一直进行投影的操作、以及第一相机一直进行拍摄操作。

下面对本公开所提供的图像合成方法进行详细描述。

图3是根据一示例性实施例示出的一种图像合成方法的流程图，该方法应用于虚拟现实设备中的处理设备，虚拟现实设备还包括显示设备和第一相机。如图3所示，该图像合成方法可以包括以下步骤。

在步骤S31中，分别获取第一时刻和第三时刻之间的第一延迟时长、以及第二时刻和第三时刻之间的第二延迟时长。

其中，第一时刻为将原始背景画面投影到屏幕模型上得到屏幕成像图像的时刻，第二时刻为第一相机对显示有屏幕成像图像的显示设备进行拍摄得到第一真实图像的时刻，第三时刻为处理设备接收到第一真实图像的时刻。此外，原始背景画面可以为场景相机在第一时刻之前的任一时刻渲染得到的画面。

在本公开中，屏幕模型提供了虚拟屏幕的位置和形状信息，确保合成图像与虚拟屏幕的位置和形状匹配，从而实现合成画面的准确显示和自然融合。

应当理解的是，第三时刻可以为处理设备执行如图3所示的图像合成方法的当前时刻，也即是，处理设备可以在接收到回传的第一真实图像时开始执行如图3所示的图像合成方法。

在步骤S32中，根据第一延迟时长、第一相机在第三时刻的第三位姿、以及记录的位姿队列，确定在将原始背景画面投影到屏幕模型时第一相机的第一位姿。

在本公开中，第一相机在第三时刻的第三位姿是指处理设备在接收到第一真实图像时第一相机的当前位姿。因此，处理设备在接收到该第一真实图像时获取第一相机在第三时刻的第三位姿。

此外，处理设备记录了接收到第一真实图像的当前时刻的位姿以及历史时刻的位姿，即，处理设备记录了第一相机在第三时刻的第三位姿以及在第三时刻之前的每一历史时刻的位姿。

示例地，处理设备根据第一延迟时长和第三时刻的第三位姿，在位姿队列中查找到在将原始背景画面投影到屏幕模型时第一相机的第一位姿，即，第一相机在第一时刻的第一位姿。例如，假设第三时刻t3对应的第三位姿为p3，第一延迟时长为△t1，则将t3-△t1时刻对应的位姿确定为第一相机的第一位姿。

在步骤S33中，根据第二延迟时长、第一相机在第三时刻的第三位姿、以及位姿队列，确定第一相机在采集第一真实图像时的第二位姿。

其中，确定第二位姿的方式与确定第一位姿的方式类似，本公开对此不做赘述。

应当理解的是，步骤S32和步骤S33可以同时执行，也可以先执行步骤S32再执行步骤S33，还可以先执行步骤S33再执行步骤S32，本公开对此不作限定。在图3中以先执行步骤S32再执行步骤S33进行示例。

在步骤S34中，根据第一位姿和第二位姿，对原始背景画面进行修正，得到目标背景画面。

应当理解的是，显示设备中显示的屏幕成像图像是OGRE相机处于第一位姿时对原始背景画面进行投影得到的，而第一真实图像是第一相机处于第二位姿时拍摄得到的图像，因此，投影原始背景画面得到屏幕成像图像时的视角与第一相机拍摄第一真实图像时的视角不匹配，在合成原始背景画面和第一真实图像时，第一真实图像和原始背景画面无法对齐，导致合成画面出现撕裂现象，从而导致合成图像的效果较差。

在本公开中，利用第一位姿和第二位姿对原始背景画面进行修正，得到目标背景画面。其中，对原始背景画面进行修正也即是将投影背景画面的视角从第一位姿的视角转化为第二位姿的视角，即，目标背景画面的视觉为第二位姿的视角。如此，目标背景画面的视角与第一相机拍摄第一真实图像时的视角一致，使得第一真实图像和目标背景画面能够对齐。

在步骤S35中，对目标背景画面、第一真实图像以及屏幕遮罩图像进行画面合成，得到合成图像。

按照步骤S34能够得到与第一真实图像对其的目标背景画面，进而基于该目标背景画面、第一真实图像以及屏幕遮罩图像进行画面合成，得到合成图像，避免合成图像出现撕裂的问题，提升合成图像的效果。

示例地，可以通过以下公式对目标背景画面、第一真实图像以及屏幕遮罩图像进行画面合成：P_target_i＝V_mask_i·P_background_i+(1-V_mask_i)·P_real_i；其中，P_target_i表征合成图像中的第i个像素的像素值；V_mask_i表征屏幕遮罩图像中第i个像素的像素值，屏幕遮罩图像中的每一像素值用于表征该像素值对应的位置为目标背景画面区域还是第一真实图像的区域的权重，其取值范围为[0,1]；P_background_i表征目标背景画面中第i个像素的像素值；P_real_i表征第一真实图像中第i个图像的像素值，其中，i为整数，取值范围为[1,N]，N为合成图像的像素值的总数量，目标背景画面、第一真实图像和屏幕遮罩图像的像素值总数量也为N。

在第一种实施例中，第一延迟时长的确定方式为：首先，控制OGRE相机在屏幕模型上投影出一帧全白画面，并记录该时刻为第一时刻。其中，在OGRE相机不投影时，屏幕模型上会显示一帧全黑画面。接着，在显示设备中显示投影出的全白画面。之后，控制第一相机拍摄显示设备得到真实图像，并通过采集卡回传该真实图像。最后，处理设备记录接收到采集卡回传的真实图像的时刻为第三时刻，将第三时刻与第一时刻的差值确定为第一延迟时长。

在另一种实施例中，第一延迟时长的确定方式为：首先，针对携带有帧数信息的视频流中的每一视频图像帧，依次将视频图像帧投影到屏幕模型，得到第二屏幕成像图像，将第二屏幕成像图像显示在显示设备上，并控制第一相机对显示有第二屏幕成像图像的显示设备进行拍摄得到第二真实图像；之后，在接收到第二真实图像时，确定第二真实图像中包括的目标视频图像帧的帧数信息，并根据目标视频图像帧的帧数信息和当前投影到屏幕模型上的视频图像帧的帧数信息，确定第一延迟时长。

示例地，假设第二真实图像包括的目标视频图像帧的帧数信息表征该目标视频图像帧为视频流中的第二帧图像帧，在接收到第二真实图像时当前投影到屏幕模型上的视频图像帧的帧数信息表征当前投影的视频图像帧为视频流中的第十帧图像帧，则可以将第二帧图像帧至第十帧图像帧中的各图像帧的帧长之和确定为第一延迟时长。

在一种实施例中，第二延迟时长的确定方式为：首先，在连续移动第一相机过程中记录实时的位姿和时间戳，并且，第一相机在移动过程中实时采集真实图像，并通过采集卡将真实图像回传至处理设备。处理设备在接收到真实图像时，可以记录接收到任意一帧真实图像的时刻为第三时刻。之后，针对所记录的每一位姿，利用该位姿将屏幕模型转化为屏幕边缘网格，得到多个屏幕边缘网格。最后，将多个屏幕边缘网格分别与第三时刻接收的真实图像中的屏幕区域匹配，将匹配度最高的屏幕边缘网格的位姿对应的时刻确定为第二时刻，并将第三时刻与第二时刻的差值确定为第二延迟时长。

在另一种实施例中，第二延迟时长的确定方式为：首先，在第一相机处于移动状态时，在接收到第一相机拍摄的第三真实图像时获取第一相机的第四位姿。其中，第一相机可以设置在云台上，通过控制云台移动以使第一相机处于移动状态。接着，根据第四位姿、第一相机的内参和屏幕模型，在第三真实图像中添加用于表征屏幕模型区域的屏幕边缘网格。之后，对屏幕网格延时参数进行调节，以使该屏幕边缘网格表征的屏幕模型区域与第三真实图像中的屏幕区域一致。最后，将屏幕边缘网格表征的屏幕模型区域与真实图像中的屏幕区域一致时的屏幕网格延时参数确定为第二延迟时长。

由于第一相机处于移动状态，第一相机拍摄第三真实图像时的位姿与处理设备接收到第三真实图像时第一相机的第四位姿不同，因此，在第三真实图像中添加的屏幕边缘网格所表征的屏幕模型区域与第三真实图像中的屏幕区域不重合。为了使两者重合，可以调整屏幕网格延时参数。示例地，可以按照固定数值调整屏幕网格延时参数。例如，固定数值为0.5，每次调整屏幕网格延时参数增大或减少0.5，直至屏幕边缘网格表征的屏幕模型区域与真实图像中的屏幕区域一致时停止调整，并将当前的屏幕网格延时参数确定为第二延迟时长。

至此，利用上述实施例中提供的方式可以分别确定出第一延迟时长和第二延迟时长。

应当理解的是，第一延迟时长和第二延迟时长可以是在执行图3所示的图像合成方法之前预先确定出来的，并且，针对一个虚拟现实设备，可以只计算一次第一延迟时长和第二延迟时长即可，后续在执行图像合成方法时直接获取该第一延迟时长和第二延迟时长即可。此外，针对一个虚拟现实设备，还可以在每一次进行图像合成之前均计算一次第一延迟时长和第二延迟时长，本公开对此不作具体下定。

下面对对原始背景画面进行修正得到目标背景画面的具体实施方式进行说明。

在一种实施例中，图3中步骤S34根据第一位姿和第二位姿，对原始背景画面进行修正，得到目标背景画面的具体实施方式为：首先，对屏幕模型进行扩展，以使第一OGRE相机在处于第一位姿时能够将原始背景画面完整投影在扩展后的屏幕模型上；接着，将第二OGRE相机的位姿调整为第二位姿，并在第二OGRE相机处于第二位姿时，控制第二OGRE相机对投影有原始背景画面的屏幕模型进行拍摄；最后，将第二OGRE相机拍摄得到的图像确定为目标背景画面。

在该实施例中，虚拟现实设备中至少包括两个OGRE相机，第一OGRE相机用于在第一位姿下进行投影，将原始背景画面完整投影在扩展后的屏幕模型上，第二OGRE相机用于在第二位姿下对投影有原始背景画面的屏幕模型进行拍摄，如此，第二OGRE相机拍摄图像的视角与第一相机拍摄第一真实图像的视角一致，即，第二OGRE相机拍摄图像即为目标背景画面。

此外，虚拟现实设备中设置的屏幕模型可以为一个或多个，在该实施例中，可以对多个屏幕模型中的一个屏幕模型进行扩展，也可以对所有的屏幕模型进行扩展，本公开对此不作具体限制。此外，在对屏幕模型进行扩展时可以沿边缘进行扩展。示例地，若屏幕模型为多个拼接的屏幕模型，则沿着除拼接边缘之外的其他边缘进行扩展。

在另一种实施例中，图3中步骤S34根据第一位姿和第二位姿，对原始背景画面进行修正，得到目标背景画面的具体实施方式为：首先，确定目标屏幕模型，目标屏幕模型可以为多个屏幕模型中的一个屏幕模型，或者，为多个屏幕模型中位于同一平面的至少两个屏幕模型。其中，在目标屏幕模型为多个屏幕模型中的一个屏幕模型时，确定目标屏幕模型的具体实施方式可以为：确定投影到每一屏幕模型的原始背景画面的区域，将区域最大的屏幕模型确定为目标屏幕模型。

接着，根据第一位姿、第二位姿和第一相机的内参，分别确定目标屏幕模型的顶点对应的第一图像像素坐标和第二图像像素坐标。示例地，根据第一位姿和第一相机的内参确定目标屏幕模型的顶点对应的第一图像像素坐标，以及，根据第二位姿与第一相机的内参确定目标屏幕模型的顶点对应的第二图像像素坐标。其中，可以通过相机标定确定第一相机的内参。应当理解的是，根据位姿和相机的内参确定顶点对应的图像像素坐标属于较为成熟的技术，本公开对此不再赘述。

最后，根据第一图像像素坐标和第二图像像素坐标，对原始背景画面进行修正，得到目标背景画面。

示例地，可以根据第一图像像素坐标和第二图像像素坐标确定投影变化关系，之后，根据该投影变化关系对原始背景画面进行修正，得到目标背景画面。

在本公开中，可以采用上述任意一实施例所描述的方式对原始背景画面进行修正，得到能够与第一真实图像对齐的目标背景画面。

在确定出第二位姿之后，图像合成方法还可以包括：

获取第一OGRE相机在处于第二位姿时生成的屏幕遮罩图像。其中，在合成图像时，目标背景画面、第一真实图像的视角均为第二位姿的视角，为了进一步提高合成图像的效果，在合成图像时，还需采用第二位姿的视角下的屏幕遮罩图像。即，在确定出第二位姿之后，获取第一OGRE相机处于第二位姿时生成的屏幕遮罩图像。

对屏幕遮罩图像进行处理，得到处理后的目标屏幕遮罩图像。其中，对屏幕遮罩图像进行处理可以是对屏幕遮罩图像进行膨胀羽化等处理。其中，在屏幕遮罩图像中，表征背景画面屏幕区域的像素值为0.0，表征真实图像屏幕区域的像素值为1.0。对屏幕遮罩图像进行膨胀处理能够减小真实图像屏幕区域，之后，再进行羽化处理，逐渐减小真实图像屏幕区域的边缘部分的权重从1.0到0.0。

对目标背景画面、真实图像以及目标屏幕遮罩图像进行画面合成，得到合成图像。

采用上述技术方案，获取第一OGRE相机处于第二位姿时生成的屏幕遮罩图像，并对屏幕遮罩图像进行处理后再进行图像合成。如此，能够使屏幕遮罩图像、目标背景画面和第一真实图像的视角一致，进一步提高合成图像在视觉上的连贯性和真实性。此外，对屏幕遮罩图像进行处理后，再进行图像合成，使得合成图像中的真实图像与背景图像的融合更加自然和平滑，提高合成图像的质量和真实感。

基于同一发明构思，本公开还提供一种图像合成装置，图4是根据一示例性实施例示出的一种图像合成装置的框图，图像合成装置应用于虚拟现实设备中的处理设备，所述虚拟现实设备还包括显示设备和第一相机。如图4所示，该图像合成装置400可以包括：

第一获取模块401，用于分别获取第一时刻和第三时刻之间的第一延迟时长、以及第二时刻和所述第三时刻之间的第二延迟时长，其中，所述第一时刻为将原始背景画面投影到屏幕模型上得到屏幕成像图像的时刻，所述第二时刻为所述第一相机对显示有所述屏幕成像图像的所述显示设备进行拍摄得到第一真实图像的时刻，所述第三时刻为所述处理设备接收到所述第一真实图像的时刻；

第一确定模块402，用于根据所述第一延迟时长、所述第一相机在所述第三时刻的第三位姿、以及记录的位姿队列，确定在将所述原始背景画面投影到所述屏幕模型时所述第一相机的第一位姿，所述位姿列队中包括所述第一相机在所述第三时刻的第三位姿以及在所述第三时刻之前的每一历史时刻的位姿；

第二确定模块403，用于根据所述第二延迟时长、所述第一相机在所述第三时刻的第三位姿、以及所述位姿队列，确定所述第一相机在采集所述第一真实图像时的第二位姿；

修正模块404，用于根据所述第一位姿和所述第二位姿，对所述原始背景画面进行修正，得到目标背景画面；

合成模块405，用于对所述目标背景画面、所述第一真实图像以及屏幕遮罩图像进行画面合成，得到合成图像。

可选地，所述修正模块404可以包括：

扩展子模块，用于对所述屏幕模型进行扩展，以使第一OGRE相机在处于所述第一位姿时能够将所述原始背景画面完整投影在扩展后的屏幕模型上；

控制子模块，用于将第二OGRE相机的位姿调整为所述第二位姿，并在所述第二OGRE相机处于所述第二位姿时，控制所述第二OGRE相机对投影有所述原始背景画面的屏幕模型进行拍摄；

第一确定子模块，用于将所述第二OGRE相机拍摄得到的图像确定为目标背景画面。

可选地，所述修正模块404可以包括：

第二确定子模块，用于确定目标屏幕模型，所述目标屏幕模型为多个所述屏幕模型中的一个屏幕模型，或者为多个所述屏幕模型中位于同一平面的至少两个屏幕模型；

第三确定子模块，用于根据所述第一位姿、所述第二位姿和所述第一相机的内参，分别确定所述目标屏幕模型的顶点对应的第一图像像素坐标和第二图像像素坐标；

修正子模块，用于根据所述第一图像像素坐标和所述第二图像像素坐标，对所述原始背景画面进行修正，得到目标背景画面。

可选地，所述目标屏幕模型为多个所述屏幕模型中的一个屏幕模型，所述第二确定子模块用于：确定投影到每一所述屏幕模型的所述原始背景画面的区域；将所述区域最大的屏幕模型确定为目标屏幕模型。

可选地，所述在确定出所述第二位姿之后，所述图像合成装置400还包括：

第二获取模块，用于获取第一OGRE相机在处于所述第二位姿时生成的屏幕遮罩图像；

处理模块，用于对所述屏幕遮罩图像进行处理，得到处理后的目标屏幕遮罩图像；

所述合成模块405用于：对所述目标背景画面、所述真实图像以及所述目标屏幕遮罩图像进行画面合成，得到合成图像。

可选地，所述述第一延迟时长通过以下方式确定：

针对携带有帧数信息的视频流中的每一视频图像帧，依次将所述视频图像帧投影到屏幕模型，得到第二屏幕成像图像，将所述第二屏幕成像图像显示在所述显示设备上，并控制所述第一相机对显示有所述第二屏幕成像图像的显示设备进行拍摄得到第二真实图像；

在接收到所述第二真实图像时，确所述第二真实图像中包括的目标视频图像帧的帧数信息，并根据所述目标视频图像帧的帧数信息和当前投影到所述屏幕模型上的视频图像帧的帧数信息，确定第一延迟时长。

可选地，所述第二延迟时长通过以下方式确定：

在所述第一相机处于移动状态时，在接收到所述第一相机拍摄的第三真实图像时获取所述第一相机的第四位姿；

根据所述第四位姿、所述第一相机的内参和所述屏幕模型，在所述第三真实图像中添加用于表征所述屏幕模型区域的屏幕边缘网格；

对屏幕网格延时参数进行调节，以使所述屏幕边缘网格表征的所述屏幕模型区域与所述第三真实图像中的屏幕区域一致；

将所述屏幕边缘网格表征的所述屏幕模型区域与所述真实图像中的屏幕区域一致时的所述屏幕网格延时参数确定为所述第二延迟时长。

关于上述实施例中的图像合成装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备的框图。如图5所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的图像合成方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的图像合成方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的图像合成方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的图像合成方法。

图6是根据一示例性实施例示出的另一种电子设备的框图。例如，电子设备1900可以被提供为一服务器。参照图6，电子设备1900包括处理器1922，其数量可以为一个或多个，以及存储器1932，用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1922可以被配置为执行该计算机程序，以执行上述的图像合成方法。

另外，电子设备1900还可以包括电源组件1926和通信组件1950，该电源组件1926可以被配置为执行电子设备1900的电源管理，该通信组件1950可以被配置为实现电子设备1900的通信，例如，有线或无线通信。此外，该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的图像合成方法的步骤。例如，该非临时性计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的图像合成方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的图像合成方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种图像合成方法，其特征在于，应用于虚拟现实设备中的处理设备，所述虚拟现实设备还包括显示设备和第一相机，所述图像合成方法包括：

2.根据权利要求1所述的图像合成方法，其特征在于，所述根据所述第一位姿和所述第二位姿，对所述原始背景画面进行修正，得到目标背景画面，包括：

对所述屏幕模型进行扩展，以使第一OGRE相机在处于所述第一位姿时能够将所述原始背景画面完整投影在扩展后的屏幕模型上；

将第二OGRE相机的位姿调整为所述第二位姿，并在所述第二OGRE相机处于所述第二位姿时，控制所述第二OGRE相机对投影有所述原始背景画面的屏幕模型进行拍摄；

将所述第二OGRE相机拍摄得到的图像确定为目标背景画面。

3.根据权利要求1所述的图像合成方法，其特征在于，所述根据所述第一位姿和所述第二位姿，对所述原始背景画面进行修正，得到目标背景画面，包括：

确定目标屏幕模型，所述目标屏幕模型为多个所述屏幕模型中的一个屏幕模型，或者为多个所述屏幕模型中位于同一平面的至少两个屏幕模型；

根据所述第一位姿、所述第二位姿和所述第一相机的内参，分别确定所述目标屏幕模型的顶点对应的第一图像像素坐标和第二图像像素坐标；

根据所述第一图像像素坐标和所述第二图像像素坐标，对所述原始背景画面进行修正，得到目标背景画面。

4.根据权利要求3所述的图像合成方法，其特征在于，所述目标屏幕模型为多个所述屏幕模型中的一个屏幕模型，所述确定目标屏幕模型包括：

确定投影到每一所述屏幕模型的所述原始背景画面的区域；

将所述区域最大的屏幕模型确定为目标屏幕模型。

5.根据权利要求1所述的图像合成方法，其特征在于，在确定出所述第二位姿之后，所述图像合成方法还包括：

获取第一OGRE相机在处于所述第二位姿时生成的屏幕遮罩图像；

对所述屏幕遮罩图像进行处理，得到处理后的目标屏幕遮罩图像；

所述对所述目标背景画面、所述真实图像以及屏幕遮罩图像进行画面合成，得到合成图像，包括：

对所述目标背景画面、所述真实图像以及所述目标屏幕遮罩图像进行画面合成，得到合成图像。

6.根据权利要求1所述的图像合成方法，其特征在于，所述第一延迟时长通过以下方式确定：

在接收到所述第二真实图像时，确定所述第二真实图像中包括的目标视频图像帧的帧数信息，并根据所述目标视频图像帧的帧数信息和当前投影到所述屏幕模型上的视频图像帧的帧数信息，确定第一延迟时长。

7.根据权利要求1所述的图像合成方法，其特征在于，所述第二延迟时长通过以下方式确定：

8.一种图像合成装置，其特征在于，应用于虚拟现实设备中的处理设备，所述虚拟现实设备还包括显示设备和第一相机，所述图像合成装置包括：

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述图像合成方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述图像合成方法的步骤。