CN113837978A

CN113837978A - 图像合成方法、装置、终端设备以及可读存储介质

Info

Publication number: CN113837978A
Application number: CN202111144617.7A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-24
Anticipated expiration: 2041-09-28
Also published as: CN113837978B

Abstract

本申请提供了一种图像合成方法、装置、终端设备以及可读存储介质。该方法应用于一种数据传输系统，该数据传输系统包括：主播端、服务器以及播放端。该方法对直播场景中设备之间的数据传输方式进行了改进，由服务器在直播开始前获得各个真实视角下的背景图像数据，由主播端在直播过程中实时获得各个真实视角下的前景图像数据，由播放端根据背景图像数据和前景图像数据合成待观看视角下的虚拟视角图像。该方法将服务器原有的部分工作分配到主播端和播放端执行，一方面降低了服务器合成图像的工作量，提升了服务器的工作效率，另一方面由于多个播放端可以并行合成各自待播放的直播图像，因此进一步提升了图像合成效率，增强了用户的直播观看体验。

Description

图像合成方法、装置、终端设备以及可读存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像合成方法、装置、终端设备以及可读存储介质。

背景技术

在视频拍摄场景中，为了更好地拍摄视频，通常会在拍摄点的周围布设多个摄像装备。然而，这种布设方式需要较多的摄像装备，增大了摄像装备的安装、校准、调试、数据传输同步等工作量。相关技术中采用一种自由视角合成算法，利用摄像装备采集的真实图像合成未安装摄像装备的视角的虚拟视角图像，从而降低摄像装备的布设数量。然而，如果直接将上述自由视角合成算法应用到网络直播场景中，即由主播端采集直播图像，由服务器根据直播图像合成未安装摄像装备的视角下的虚拟视角图像，由播放端播放合成的虚拟视角图像，图像合成效率并不高。因此，如何提升网络直播场景中图像合成的效率，成为亟待解决的问题。

发明内容

本申请实施例的目的在于提供一种图像合成方法、装置、终端设备以及可读存储介质，该方法从网络直播场景中各个设备之间的数据传输方式入手，对对各个设备的数据处理过程及相互之间的交互方式进行了改进，可有效提升网络直播场景中图像合成的效率。具体技术方案如下：

在本申请实施例的第一方面，首先提供了一种图像合成方法，应用于数据传输系统，所述数据传输系统包括：主播端、服务器以及播放端，所述服务器分别与所述主播端和所述播放端通信连接，所述方法包括：

在直播开始前，所述服务器获得各个真实视角下的背景图像数据，所述背景图像数据包括各个真实视角下的背景图像及各帧背景图像对应的深度信息，所述真实视角为可采集真实图像的视角；

在直播过程中，所述主播端获得各个真实视角下的前景图像数据，并将所述前景图像数据发送至所述服务器，所述前景图像数据包括各个真实视角下的前景图像及各帧前景图像对应的深度信息；

所述服务器在接收到所述播放端发送的直播观看请求时，确定所述播放端的待观看视角，向所述播放端发送一次与所述待观看视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述待观看视角匹配的前景图像数据；

所述播放端根据接收的所述背景图像数据和所述前景图像数据合成所述待观看视角下的虚拟视角图像，将所述虚拟视角图像作为从所述待观看视角处采集的直播图像并播放。

在本申请实施例的第二方面，首先提供了一种图像合成方法，应用于服务器，所述方法包括：

在直播开始前，获得各个真实视角下的背景图像数据，所述背景图像数据包括各个真实视角下的背景图像及各帧背景图像对应的深度信息，所述真实视角为可采集真实图像的视角；

在直播过程中，接收所述主播端发送的各个真实视角下的前景图像数据，所述前景图像数据包括各个真实视角下的前景图像及各帧前景图像对应的深度信息；

在接收到所述播放端发送的直播观看请求时，确定所述播放端的待观看视角，向所述播放端发送一次与所述待观看视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述待观看视角匹配的前景图像数据，以使所述播放端根据所述背景图像数据和所述前景图像数据合成所述待观看视角下的虚拟视角图像，将所述虚拟视角图像作为从所述待观看视角采集的直播图像并播放。

在本申请实施例的第三方面，首先提供了一种图像合成方法，应用于播放端，所述方法包括：

根据用户输入的视角参数生成直播观看请求，将所述直播观看请求发送至服务器；

接收所述服务器发送的背景图像数据，所述背景图像数据包括各个真实视角下的背景图像及各帧背景图像对应的深度信息，所述真实视角为可采集真实图像的视角；

接收所述服务器在直播过程中实时发送的前景图像数据，所述前景图像数据包括各个真实视角下的前景图像及各帧前景图像对应的深度信息；

根据所述前景图像数据与所述背景图像数据合成虚拟视角图像，并将所述虚拟视角图像作为从待观看视角处采集的直播图像，所述待观看视角根据所述视角参数确定的；

播放所述虚拟视角图像。

在本申请实施例的第四方面，首先提供了一种图像合成装置，应用于服务器，所述装置包括：

获得模块，用于在直播开始前，获得各个真实视角下的背景图像数据，所述背景图像数据包括各个真实视角下的背景图像及各帧背景图像对应的深度信息，所述真实视角为可采集真实图像的视角；

第一接收模块，用于在直播过程中，接收所述主播端发送的各个真实视角下的前景图像数据，所述前景图像数据包括各个真实视角下的前景图像及各帧前景图像对应的深度信息；

第一发送模块，用于在接收到所述播放端发送的直播观看请求时，确定所述播放端的待观看视角，向所述播放端发送一次与所述待观看视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述待观看视角匹配的前景图像数据，以使所述播放端根据所述背景图像数据和所述前景图像数据合成所述待观看视角下的虚拟视角图像，将所述虚拟视角图像作为从所述待观看视角采集的直播图像并播放。

在本申请实施例的第五方面，首先提供了一种图像合成装置，应用于播放端，所述装置包括：

第二发送模块，用于根据用户输入的视角参数生成直播观看请求，将所述直播观看请求发送至服务器；

第二接收模块，用于接收所述服务器发送的背景图像数据，所述背景图像数据包括各个真实视角下的背景图像及各帧背景图像对应的深度信息，所述真实视角为可采集真实图像的视角；

第三接收模块，用于接收所述服务器在直播过程中实时发送的前景图像数据，所述前景图像数据包括各个真实视角下的前景图像及各帧前景图像对应的深度信息；

合成模块，用于根据所述前景图像数据与所述背景图像数据合成虚拟视角图像，并将所述虚拟视角图像作为从待观看视角处采集的直播图像，所述待观看视角根据所述视角参数确定的；

播放模块，用于播放所述虚拟视角图像。

在本申请实施例的第六方面，还提供了一种终端设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现本申请实施例的第一方面，或第二方面或第三方面所述的图像合成方法中的步骤。

在本申请实施例的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的图像合成方法中的步骤。

本申请对直播场景中设备之间的数据传输方式进行了改进，服务器在直播开始前获得各个真实视角下的背景图像数据，由主播端在直播过程中实时获得各个真实视角下的前景图像数据，由播放端根据背景图像数据和前景图像数据合成待观看视角下的虚拟视角图像。改进后的图像合成方法具备如下多个效果：

一、将服务器原有的部分工作分配到主播端和播放端执行，一方面降低了服务器合成图像的工作量，提升了服务器的工作效率，另一方面由于多个播放端可以并行合成各自待播放的直播图像，因此进一步提升了图像合成效率，增强了用户的直播观看体验。

二、利用直播过程中各个摄像装备的空间位置和朝向不会发生变化的特性，服务器只需向播放端发送一次背景图像数据便可完成播放端的多次图像合成工作，进一步降低了服务器的工作量，提升了服务器的工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本申请一实施例示出的一种直播环境示意图；

图2是本申请一实施例示出的一种实施环境示意图；

图3是本申请一实施例示出的一种图像合成方法的流程图；

图4是本申请一实施例示出的另一种图像合成方法的流程图；

图5是本申请一实施例示出的另一种图像合成方法的流程图；

图6是本申请一实施例示出的一种图像合成方法的完整过程示意图；

图7是本申请一实施例示出的一种图像合成装置的结构框图；

图8是本申请一实施例示出的另一种图像合成装置的结构框图；

图9是本申请一实施例示出的一种终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

在视频拍摄场景中，为了向观众提供沉浸式体验，通常会在拍摄点的周围布设多个摄像装备，以从多方位拍摄视频。例如，为了对舞台上的节目进行较好拍摄，通常会在舞台周围每隔一定距离布设摄像装备。然而，这种布设方式需要较多的摄像装备，增大了摄像装备的安装、校准、调试、数据传输同步等工作量，需要耗费大量的财力和物力。

相关技术中的一种解决方式为：采用自由视角合成算法，从安装有摄像装备的真实视角采集真实图像，利用该真实图像中间合成一个中间的虚拟视角图像，将该虚拟视角图像等效为与该真实视角相似的虚拟视角处采集的图像，从而降低摄像装备的布设数量。图1是本申请一实施例示出的一种直播环境示意图。在图1中，深色阴影部分(包括：L1-L2和R1-R2)为安装的摄像装备，浅色阴影部分(包括：O)为未安装摄像装备的位置点。那么可以采用自由视角合成算法，利用L1或R1处采集的直播图像合成一个虚拟视角图像，将该虚拟视角图像等效为从O处采集的直播图像。

然而，在传统的网络直播场景中，当采用自由视角合成算法合成某个虚拟视角的直播图像时，由主播端将采集的各个真实视角的直播图像传输给服务器，服务器根据真实视角下的直播图像合成虚拟视角下的虚拟视角图像，并将合成的虚拟视角图像发送给播放端，再由播放端播放虚拟视角图像。在上述过程中，所有的图像合成步骤均由服务器执行，导致图像合成效率低下，影响用户直播观看体验。因此，针对网络直播场景下的图像合成方法还可以做进一步优化。

图2是本申请一实施例示出的一种实施环境示意图。图2中给出了一种适用于直播场景下的数据传输系统，包括主播端、服务器以及播放端。根据图2，直播场景中布设有主播端和多个用于采集直播图像的摄像装备(包括：摄像装备1-摄像装备N)，摄像装备可以安装在多个不同的方位，以从不同的视角采集直播过程中的图像，主播端和各个摄像装备通信连接，各个摄像装备可以将实时采集的直播图像上传到主播端。服务器一端与主播端通信连接，另一端与多个用户终端(包括：用户终端1-用户终端N)连接，用户终端也即播放端。服务器对主播端上传的实时直播图像进行处理后，发送到请求收看直播的用户终端显示。用户终端(播放端)上安装有收看直播的客户端，用户可以在客户端上发起收看直播的请求，客户端将请求发送到服务器，由服务器将主播端实时上传的直播数据发送到客户端显示。

本申请提供了一种图像合成方法，可应用于图2所示的数据传输系统。图3是本申请一实施例示出的一种图像合成方法的流程图。参照图3，本申请的图像合成方法可以包括如下步骤：

步骤S31：在直播开始前，所述服务器获得各个真实视角下的背景图像数据，所述背景图像数据包括各个真实视角下的背景图像及各帧背景图像对应的深度信息，所述真实视角为可采集真实图像的视角。

在本实施例中，真实视角可以理解为摄像装备的镜头所观看到的视角。主播(镜头内进行直播的主体对象)周围可以布设多个摄像装备。在直播过程中，每一个摄像装备的空间位置和朝向不会发生变化。每一个摄像装备对应一个固定的真实视角，例如，摄像装备X对应的真实视角为视角X，那么从摄像装备X采集的真实图像为对应视角X处的直播图像。

每个真实视角下的背景图像数据均包括背景图像及背景图像对应的深度信息。深度信息可以是对背景图像进行深度值估计得到的。

在网络直播场景中，网络直播的场景较为固定，主要画面由前景的主播和背景的面画组成。因此，摄像装备采集的直播图像主要包括背景图像和前景图像。背景图像是指进行直播的主播所处的背景环境，前景图像是指进行直播的主播，例如带货主播、游戏主播等。

在本实施例中，网络直播的背景通常不变，因此每一个真实视角对应一帧背景图像。

在直播开始前，各个摄像装备的镜头内没有主播，此时能较好地采集到背景图像。因此，本实施例中，服务器可以在直播开始前获得各个真实视角下的背景图像数据。

示例地，有真实视角1、真实视角2以及真实视角3，I₁、I₂以及I₃分别表示直播开始前从真实视角1、真实视角2以及真实视角3采集的图像，此时可以直接将I₁作为真实视角1对应的背景图像I_bg1，将I₂作为真实视角2对应的背景图像I_bg2，将I₃作为真实视角3对应的背景图像I_bg3。接着，获得I_bg1对应的深度信息D_bg1、I_bg2对应的深度信息D_bg2以及I_bg3对应的深度信息D_bg3,，将背景图像I_bg1和D_bg1作为真实视角1下的背景图像数据，将背景图像I_bg2和D_bg2作为真实视角2下的背景图像数据，将背景图像I_bg3和D_bg3作为真实视角3下的背景图像数据。

步骤S32：在直播过程中，所述主播端获得各个真实视角下的前景图像数据，并将所述前景图像数据发送至所述服务器，所述前景图像数据包括各个真实视角下的前景图像及各帧前景图像对应的深度信息。

在本实施例中，每个真实视角下的前景图像数据均包括前景图像及前景图像对应的深度信息。深度信息可以是对前景图像进行深度值估计得到的。

在本实施例中，在开始直播后，由主播端从各个摄像装备获得各个真实视角下的前景图像，并对前景图像进行深度估计得到深度信息，然后将各个真实视角下的前景图像及对应的深度信息作为前景图像数据发送至服务器。

在本实施例中，由于主播在直播时姿势、神态等会发生变化，因此每一个真实视角可以对应有多帧不同的前景图像。

步骤S33：所述服务器在接收到所述播放端发送的直播观看请求时，确定所述播放端的待观看视角，向所述播放端发送一次与所述待观看视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述待观看视角匹配的前景图像数据。

在本实施例中，播放端可以在任意时刻向服务器发送直播观看请求，直播观看请求中包括一组视角参数(本申请的视角参数是指相机内参和相机外参)。服务器接收到直播观看请求后，根据其中的视角参数确定出待观看视角。在确定出待观看视角后，服务器向播放端发送与待观看视角匹配的背景图像数据，且只发送一次，其次，在直播过程中，服务器将实时获得的与待观看视角匹配的前景图像数据发送至播放端。

在一种实施方式中，播放端可以在直播开始前向服务器发送直播观看请求。服务器确定出待观看视角后，如果已经获得与该待观看视角匹配的背景图像数据，那么直接将该背景图像数据发送至播放端。如果服务器还没有获得与该待观看视角匹配的背景图像数据，那么服务器首先获得与该待观看视角匹配的背景图像数据，再将该背景图像数据发送至播放端。在直播过程中，服务器将实时获得的与待观看视角匹配的前景图像数据发送至播放端。

在一种实施方式中，播放端可以在直播开始后向服务器发送直播观看请求。服务器确定出待观看视角后，直接将与该待观看视角匹配的背景图像数据发送至播放端，同时，将实时获得的与待观看视角匹配的前景图像数据发送至播放端。

步骤S34：所述播放端根据接收的所述背景图像数据和所述前景图像数据合成所述待观看视角下的虚拟视角图像，将所述虚拟视角图像作为从所述待观看视角处采集的直播图像并播放。

在本实施例中，播放端每接收到一次前景图像数据后，利用该前景图像数据和第一次接收到的背景图像数据合成待观看视角下的虚拟视角图像，并播放该虚拟视角图像。该待观看视角下的虚拟视角图像可以等效为从待观看视角处采集的直播图像。

结合以上实施例，在一种实施方式中，服务器获得各个真实视角下的背景图像数据，具体可以包括：

所述服务器从所述主播端中获得各个真实视角下的背景图像数据；或者

所述服务器从所述主播端中获得各个真实视角下的背景图像，对各帧所述背景图像进行深度估计，得到深度信息，并将各帧所述背景图像及各帧所述背景图像对应的深度信息作为各个真实视角下的背景图像数据。

在本实施例中，服务器可以通过如下两种方式获得各个真实视角下的背景图像数据：

方式一：

主播端获得各个真实视角下的背景图像，对各帧背景图像进行深度估计，得到深度信息，并将各帧背景图像及各帧背景图像对应的深度信息作为各个真实视角下的背景图像数据发送给服务器。

方式二：

主播端获得各个真实视角下的背景图像，将各个真实视角下的背景图像发送给服务器，由服务器对各帧背景图像进行深度估计，得到深度信息，从而得到各个真实视角下的背景图像数据。

在具体实施时，可以根据实际需求选择由主播端获得背景图像数据还是由服务器获得背景图像数据。

本实施例中提供了两种获得背景图像数据的方式，增强了图像合成方法的灵活性。

结合以上实施例，在一种实施方式中，主播端获得各个真实视角下的前景图像数据，具体可以包括：

所述主播端获得各个真实视角下的直播图像，对各帧所述直播图像进行图像分割，获得各个真实视角下的前景图像；

所述主播端对各个真实视角下的前景图像进行深度估计，得到各帧所述前景图像对应的深度信息；

将各帧所述前景图像及各帧所述前景图像对应的深度信息作为各个真实视角下的前景图像数据。

在本实施例中，主播端可以从各个摄像装备中获得各个真实视角下的直播图像，对直播图像进行图像分割，获得其中的前景图像，进而获得各个真实视角下的前景图像。接着，针对每一个真实视角下的前景图像，主播端可以对其进行深度估计，得到对应的深度信息，进而得到每一个真实视角下前景图像对应的深度信息。最后，主播端将各帧前景图像及各帧前景图像对应的深度信息作为各个真实视角下的前景图像数据发送至服务器。

在本实施例中，由主播端获得前景图像数据后再发送至服务器，与相关技术中由服务器获得前景图像数据的方式相比，降低了服务器的数据处理量，提升了服务器的工作效率。

结合以上实施例，在一种实施方式中，对各帧所述背景图像进行深度估计，得到深度信息，具体可以包括：

通过第一深度估计模型对各帧所述背景图像进行深度估计，得到深度信息。

在此基础上，所述主播端对各个真实视角下的前景图像进行深度估计，得到各帧所述前景图像对应的深度信息，具体可以包括：

所述主播端通过第二深度估计模型对各个真实视角下的前景图像进行深度估计，得到各帧所述前景图像对应的深度信息，所述第二深度估计模型的精度低于所述第一深度估计模型的精度。

在本实施例中，由于播放端在合成虚拟视角图像时会多次使用到背景图像数据，因此需要使用质量较高的背景图像数据才能保证最终合成的图像具备较高的质量。考虑到此种情况，本实施例可以采用相对较高精度的第一深度估计模型对背景图像进行深度估计，得到深度信息，进而得到质量较高的背景图像数据。

其次，由于前景图像数据在直播过程中可能是时刻改变的，因此主播端需要不断地获得当前的前景图像数据并通过服务器发送给播放端。此时，如果依旧对前景图像进行较高精度的深度估计，那么主播端需要需要花费大量的时间才能获得前景图像数据。考虑到此种情况，本实施例可以采用相对较低精度的第二深度估计模型对前景图像进行深度估计得到深度信息，从而降低每一次获得前景图像数据的时长，保证播放端能及时获得前景图像数据并进行图像合成，提升图像合成的效率。

其中，第一深度估计模型和第二深度估计模型可以是任意类型的深度估计模型，本实施例对此不作具体限制。

在本实施例中，对背景图像进行高精度的深度估计，对前景图像进行低精度的深度估计，既能保证播放端合成的图像具有较高的质量，也能保证播放端合成图像的效率。

结合以上实施例，在一种实施方式中，对各帧所述直播图像进行图像分割，获得各个真实视角下的前景图像，具体可以包括：

通过前景分割模型获得各帧所述直播图像前景蒙版；

根据所述前景蒙版和所述直播图像获得各个真实视角下的前景图像。

在本实施例中，主播端可以借助前景分割模型获得前景蒙版。前景蒙版为一个矩阵，在前景蒙版中，属于前景区域的像素的值为1，不属于前景区域的像素的值为0，因此，将直播图像和前景蒙版相乘可以获得前景图像。

在本实施例中，前景分割模型可以获得直播图像的前景蒙版，然后将直播图像和对应的前景蒙版相乘，得到前景图像。因此，主播端在获得各帧直播图像后，将各帧直播图像输入前景分割模型，便可得到各个真实视角下的前景图像。其中，前景分割模型可以是任意可提取出前景图像的模型，本实施例对前景分割模型的类型不作具体限制。

结合以上实施例，在一种实施方式中，在服务器获得各个真实视角下的背景图像数据后，本申请的图像合成方法还可以包括如下步骤：

所述服务器向所述主播端发送直播开始信号。

相应地，在直播过程中，所述主播端获得各个真实视角下的前景图像数据，可以包括：

所述主播端在接收到所述直播开始信号后，实时获得各个真实视角下的直播图像，并根据获得的直播图像获得各个真实视角下的前景图像数据。

在本实施例中，服务器在获得各个真实视角下的背景图像数据后，向主播端发送直播开始信号。主播端在接收到直播开始信号后，从各个摄像装备中实时获得各个真实视角下的直播图像，并根据获得的直播图像获得各个真实视角下的前景图像数据。

在本实施例中，由服务器控制主播端进行图像采集，实现了服务器对图像采集和调度的统一控制，保证了图像的顺利合成。

本申请提供了一种图像合成方法，可应用于图2所示的数据传输系统中的服务器。图4是本申请一实施例示出的另一种图像合成方法的流程图。参照图4，本申请的图像合成方法可以包括如下步骤：

步骤S41：在直播开始前，获得各个真实视角下的背景图像数据，所述背景图像数据包括各个真实视角下的背景图像及各帧背景图像对应的深度信息，所述真实视角为可采集真实图像的视角。

在本实施例中，服务器可以在直播开始前获得各个真实视角下的背景图像数据，具体获得方式可参照前文所述，本实施例在此不作赘述。

步骤S42：在直播过程中，接收所述主播端发送的各个真实视角下的前景图像数据，所述前景图像数据包括各个真实视角下的前景图像及各帧前景图像对应的深度信息。

在本实施例中，在开始直播后，服务器接收主播端发送的各个真实视角下的前景图像数据。

步骤S43：在接收到所述播放端发送的直播观看请求时，确定所述播放端的待观看视角，向所述播放端发送一次与所述待观看视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述待观看视角匹配的前景图像数据，以使所述播放端根据所述背景图像数据和所述前景图像数据合成所述待观看视角下的虚拟视角图像，将所述虚拟视角图像作为从所述待观看视角采集的直播图像并播放。

在本实施例中，服务器接收到直播观看请求后，根据其中的视角参数确定出待观看视角。在确定出待观看视角后，服务器向播放端发送与待观看视角匹配的背景图像数据，且只发送一次，其次，在直播过程中，服务器将实时获得的与待观看视角匹配的前景图像数据发送至播放端。

播放端每接收到一次前景图像数据后，利用该前景图像数据和第一次接收到的背景图像数据合成待观看视角下的虚拟视角图像，并播放该虚拟视角图像。该待观看视角下的虚拟视角图像可以等效为从待观看视角处采集的直播图像。

在本实施例中，由于直播时背景图像基本不变，因此服务器可以只向播放端发送一次背景图像数据，避免重复向播放端发送背景图像数据时带来的时间成本和流量成本，同时播放端可以在接收到背景图像数据时尽早合成待观看视角下的背景投影图像，在后续直播时不再重复合成背景投影图像，因此可以提升播放端处理图像数据的效率。

结合以上实施例，在一种实施方式中，向所述播放端发送一次与所述待观看视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述待观看视角匹配的前景图像数据，具体可以包括：

在所述多个真实视角中确定出与所述待观看视角相似度最高的目标真实视角；

向所述播放端发送一次与所述目标真实视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述目标真实视角匹配的前景图像数据。

在本实施例中，待观看视角可以是多个真实视角中的任意一个真实视角，也可以是除了真实视角外的其它虚拟视角。每一个真实视角或每一个虚拟视角均对应一组视角参数，根据一组视角参数可以唯一确定一个视角。

当用户需要收看直播时，可以在播放端上操作，选择待观看视角。播放端根据用户选择的待观看视角获得视角参数，然后根据视角参数生成直播观看请求，并将直播观看请求发送至服务器。服务器接收到直播观看请求后，提取其中的视角参数确定出待观看视角。其中，直播观看请求中还可以包含其他信息，例如用户终端类型、终端标识、用户登录的账号标识等，以便于服务器更好地确定用户的特征以及用户所处的观看环境，并对待发送的直播流进行调整。

在实际实施时，可以将待观看视角的视角参数，与各个真实视角的视角参数比较，从而在多个真实视角中确定出与待观看视角相似度最高的目标真实视角。接着，服务器可以向播放端发送一次与目标真实视角匹配的背景图像数据，以及，在直播过程中实时向播放端发送与目标真实视角匹配的前景图像数据，使得播放端可以观看到待观看视角下的直播图像。

在本实施例中，如果待观看视角不是真实视角，那么待观看视角是不具备对应的背景图像数据和前景图像数据的，因此，为了使得用户可以在待观看视角下观看到直播图像，可以将与待观看视角相似度最高的真实视角对应的背景图像数据和前景图像数据发送至播放端，使得播放端根据接收到的背景图像数据和前景图像数据合成虚拟视角图像，该合成的虚拟视角图像就可以等效为从待观看视角处采集的直播图像。

同理，如果待观看视角是真实视角，那么待观看视角是具备对应的背景图像数据和前景图像数据的，此时可以直接将对应的背景图像数据和前景图像数据发送至播放端，使得播放端根据接收到的背景图像数据和前景图像数据合成虚拟视角图像。

在本实施例中，由于虚拟视角处无法采集到真实的直播图像，而与虚拟视角最相似的真实视角处采集的直播图像通常与虚拟视角处观看到的直播图像最为相似，因此可以首先确定出与虚拟视角最相似的真实视角，然后利用该最相似的真实视角下的背景图像数据和前景图像数据合成虚拟视角下的直播图像。示例地，在图1中，如果待观看视角为O处的视角，且与O处的视角最相似的视角为摄像装备L1对应的真实视角V1，那么可以利用真实视角V1下的背景图像数据和前景图像数据合成O处的视角下的直播图像。

在本实施例中，服务器可以直接将与待观看视角相似度最高的真实视角对应的背景图像数据和前景图像数据发送至播放端，使得播放端能快速合成图像，提升了图像合成效率。

结合以上实施例，在一种实施方式中，向所述播放端发送一次与所述待观看视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述待观看视角匹配的前景图像数据，还可以包括：

在各个真实视角对应的摄像位置中，确定出与所述待观看视角的位置距离最近的摄像位置，并将距离最近的摄像位置对应的真实视角确定为目标真实视角；

在本实施例中，视角对应的位置之间的距离可以反映视角之间的相似程度。视角对应的位置之间距离越近，视角之间的相似程度越高。因此，可以在多个真实视角对应的摄像位置中，确定出与待观看视角对应的摄像位置距离最近的那个位置，然后将这个位置所对应的真实视角作为与待观看视角相似度最高的目标真实视角。

接着，服务器可以向播放端发送一次与目标真实视角匹配的背景图像数据，以及，在直播过程中实时向播放端发送与目标真实视角匹配的前景图像数据，使得播放端可以观看到待观看视角下的直播图像。该部分可参照前文所述，本实施例在此不作赘述。

在本实施例中，无需复杂的计算，可根据视角对应的摄像位置之间的距离快速确定出与待观看视角相似度最高的目标真实视角，进而提升图像合成效率。

本申请提供了一种图像合成方法，可应用于图2所示的数据传输系统中的播放端。图5是本申请一实施例示出的另一种图像合成方法的流程图。参照图5，本申请的图像合成方法可以包括如下步骤：

步骤S51：根据用户输入的视角参数生成直播观看请求，将所述直播观看请求发送至服务器。

当用户需要收看直播时，可以在播放端上操作，选择待观看视角。播放端根据用户选择的待观看视角获得视角参数，然后根据视角参数生成直播观看请求，并将直播观看请求发送至服务器。

步骤S52：接收所述服务器发送的背景图像数据，所述背景图像数据包括各个真实视角下的背景图像及各帧背景图像对应的深度信息，所述真实视角为可采集真实图像的视角。

关于背景图像数据的说明请参见前文所述。

步骤S53：接收所述服务器在直播过程中实时发送的前景图像数据，所述前景图像数据包括各个真实视角下的前景图像及各帧前景图像对应的深度信息。

关于前景图像数据的说明请参见前文所述。

步骤S54：根据所述前景图像数据与所述背景图像数据合成虚拟视角图像，并将所述虚拟视角图像作为从待观看视角处采集的直播图像，所述待观看视角是根据所述视角参数确定的。

步骤S55：播放所述虚拟视角图像。

在本实施例中，用户可以通过播放端上安装的客户端软件收看直播。

在本实施例中，将服务器原有的图像合成工作分配到播放端执行，降低了服务器合成图像的工作量，提升了服务器的工作效率，另一方面由于多个播放端可以并行合成各自待播放的直播图像，因此进一步提升了图像合成效率，增强了用户的直播观看体验。

结合以上实施例，在一种实施方式中，根据所述前景图像数据与所述背景图像数据合成虚拟视角图像，具体可以包括：

根据所述背景图像数据合成背景投影图像；

根据所述前景图像数据合成前景投影图像；

将所述前景投影图像覆盖到所述背景投影图像中，得到所述待观看视角下的虚拟视角图像。

在本实施例中，播放端可以采用自由视角合成算法，根据接收到的背景图像数据获得待观看视角下的背景投影图像，该背景投影图像即作为后续直播过程中待观看视角下的直播背景图。当主播端处于直播状态时，服务器继续将主播端实时采集的前景图像数据发送至播放端，播放端可以采用自由视角合成算法，根据接收的前景图像数据获得待观看视角下的实时的前景投影图像，该前景投影图像即直播过程中待观看视角下的主播的画面。最后，播放端将前景投影图像覆盖到背景投影图像上，即可获得最终合成的直播图像。

下面首先介绍自由视角合成过程中的几个参数，再介绍自由视角合成算法。

(一)、参数

图像数据：I_cam

深度数据：D_cam

相机内参：f_cam(焦距)、cx_cam(原点x轴偏移量)、cy_cam(原点y轴偏移量)

相机外参：

(相机旋转矩阵)

(相机位移向量)

其中，cam表示相机序号，如I_L1为从摄像装备L1采集的图像数据。本申请各个实施例中所指的视角参数主要是指相机内参和相机外参。

(二)自由视角合成算法

以利用从摄像装备L1采集的背景图像及对应的深度信息(图像的长为W、宽为H)合成待观看视角对应的虚拟摄像装备O处的背景投影图像为例，用src表示摄像装备L1，tar表示虚拟摄像装备O，有如下步骤：

步骤1：首先生成内参矩阵intrinsics_src和外参矩阵extrinsics_src：

步骤2：假设src采集的背景在图像坐标系下的一点P，坐标为(u_src，v_src)，该点的颜色为(r，g，b)，深度为d，构成齐次坐标

步骤3：计算点P在src相机坐标系下的坐标

步骤4：计算点P在世界坐标系下的坐标

步骤5：将世界坐标系下的P点投影到待观看视角的tar相机坐标系：

P点在tar相机坐标系下的坐标为：

步骤6：P点在tar相机坐标系下的坐标：

假设src采集的背景图像中的一点P，坐标为(u_src＝0，v_src＝0)，那么：

通过计算可知：

点P在src相机坐标系下的坐标

点P在世界坐标系下的坐标

点P在tar相机坐标系下的坐标

点P在tar图像坐标系下的坐标

按照上述步骤1-步骤6，可根据背景图像和对应的深度信息以及待观看视角的视角参数获得待观看视角下的背景投影图像。按照相同原理，可根据前景图像、对应的深度信息以及待观看视角的视角参数获得待观看视角下的前景投影图像。当然，在实际操作时，也可以采用其它算法获得背景投影图像和前景投影图像，本实施例对此不作具体限制。

结合以上实施例，在一种实施方式中，前景图像数据中还包括前景图像对应的最大矩形框。在此基础上，根据前景图像数据与背景图像数据合成虚拟视角图像，具体包括：

根据所述背景图像数据合成背景投影图像；

根据存储的所述前景图像数据合成前景投影图像；

根据所述最大矩形框，将所述前景投影图像覆盖到所述背景投影图像中，得到所述待观看视角下的虚拟视角图像，所述最大矩形框用于确定所述前景投影图像在所述背景投影图像中的位置。

在本实施例中，根据前景蒙版可以获得最大矩形框。该最大矩形框可以表示前景图像的边框。根据该最大矩形框可以确定前景投影图像在背景投影图像中的位置。因此在将前景投影图像覆盖到背景投影图像中时，可以首先利用最大矩形框在背景投影图像中划定前景区域，然后将前景投影图像填充到该前景区域中，得到最终的虚拟视角图像。

在本实施例中，背景图像数据中还包含有最大矩形框的信息，保证了最终合成的直播图像具有较高的质量，增强了用户的直播观看体验。

图6是本申请一实施例示出的一种图像合成方法的完整过程示意图。下面将集结合图6，以一个具体实施例对本申请的数据传输方法进行详细说明。

主播端共有n个摄像装备，图像合成的整个过程包括初始化阶段和直播阶段：

(一)初始化阶段

Step1：主播端获得无人时的直播背景图1～n(每一个摄像装备采集一帧无人时的直播背景图)，将直播背景图像1～n输入离线的高精度深度估计模型，获得对应的背景深度图1～n。

Step2：主播端将直播背景图1～n、背景深度图1～n发送给服务器。

Step3：服务器收到直播背景图1～n、背景深度图1～n后，向主播端返回直播就绪信号。

其中，主播端也可以将采集的直播背景图1～n直接发送给服务器，由服务器获得对应的背景深度图1～n，具体可根据实际需求设置，本实施例对此不作具体限制。

(二)直播阶段

Step1：主播端接收到直播就绪信号后，如果检测到主播点击开始，则进入直播状态，通过n个摄像装备分别采集实时的直播图像1～n。

Step2：主播端将实时采集的直播图像1～n输入实时人像分割模型，获得人像图像1～n，然后将人像图像1～n输入实时的轻量化深度估计模型，获得人像深度图1～n。

Step3：主播端将人像图像1～n、人像深度图1～n发送至服务器。

(Step2-Step3持续进行)

Step4：用户a收看直播时，在播放端中发起收看请求，收看请求中设置有待观看直播的虚拟视角，播放端将收看请求发送给服务器。

Step5：服务器接收到收看请求后，根据虚拟视角的视角参数确定虚拟视角对应的虚拟摄像位置，在多个真实视角对应的摄像位置中，确定距离该虚拟摄像位置最近的摄像位置，获得该摄像位置对应的摄像装备d。

Step6：服务器向用户a的播放端发送直播背景图d和背景深度图d，播放端根据直播背景图d和背景深度图d合成虚拟视角下的直播背景图(仅发一次，虚拟视角变化后重新执行该阶段的Step4-Step6)。

Step7：服务器向该用户a的播放端发送实时的人像图像d和人像深度图d。

Step8：播放端根据实时的人像图像d和人像深度图d合成虚拟视角下的直播前景图(每次获得新的人像图像d和人像深度图d均发送给播放端)(如果虚拟视角没变，重复上述Step7-Step8)。

Step9：播放端将直播前景图覆盖在直播背景图中，获得虚拟视角下的直播图像。

在Step2中采集到直播图像后，可以先进行人像分割，获得人像的蒙版，然后根据人像的蒙版获取人像的最大矩形框，保留最大矩形框的信息，最后只保留矩形框内的图像，再将矩形框内的图像输入到轻量化深度估计模型估计人像深度。

在Step3中发送人像图像和人像深度图时，可以发送矩形框大小的人像图像，进一步减少网络流量。矩形框的信息也要发送，用于在合成直播图像时确定前景投影图像在背景投影图像中的位置。

本实施例对直播场景中设备之间的数据传输方式进行了改进，由主播端对采集的真实图像进行初步处理，获得合成图像的中间数据(背景深度图、前景深度图)，由播放端根据主播端采集的真实图像(直播背景图、直播前景图)和处理后得到的中间数据来合成待观看视角下的直播图像，由服务器负责整个过程的调度，从而将服务器原有的部分工作分配到主播端和播放端执行，一方面降低了服务器合成图像的工作量，提升了服务器的工作效率，另一方面由于多个播放端可以并行合成各自待播放的直播图像，因此进一步提升了图像合成效率，增强了用户的直播观看体验。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

基于同一发明构思，本申请一实施例提供一种图像合成装置700，应用于服务器。参考图7，图7是本申请一实施例示出的一种图像合成装置的结构框图。如图7所示，该装置700包括：

获得模块701，用于在直播开始前，获得各个真实视角下的背景图像数据，所述背景图像数据包括各个真实视角下的背景图像及各帧背景图像对应的深度信息，所述真实视角为可采集真实图像的视角；

第一接收模块702，用于在直播过程中，接收所述主播端发送的各个真实视角下的前景图像数据，所述前景图像数据包括各个真实视角下的前景图像及各帧前景图像对应的深度信息；

第一发送模块703，用于在接收到所述播放端发送的直播观看请求时，确定所述播放端的待观看视角，向所述播放端发送一次与所述待观看视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述待观看视角匹配的前景图像数据，以使所述播放端根据所述背景图像数据和所述前景图像数据合成所述待观看视角下的虚拟视角图像，将所述虚拟视角图像作为从所述待观看视角采集的直播图像并播放。

可选地，所述第一发送模块703包括：

第一确定子模块，用于在所述多个真实视角中确定出与所述待观看视角相似度最高的目标真实视角；

第一发送子模块，用于向所述播放端发送一次与所述目标真实视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述目标真实视角匹配的前景图像数据。

可选地，所述第一发送模块703包括：

第二确定子模块，用于在各个真实视角对应的摄像位置中，确定出与所述待观看视角的位置距离最近的摄像位置，并将距离最近的摄像位置对应的真实视角确定为目标真实视角；

第二发送子模块，用于向所述播放端发送一次与所述目标真实视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述目标真实视角匹配的前景图像数据。

基于同一发明构思，本申请一实施例提供一种图像合成装置800，应用于播放端。参考图8，图8是本申请一实施例示出的另一种图像合成装置的结构框图。如图8所示，该装置800包括：

第二发送模块801，用于根据用户输入的视角参数生成直播观看请求，将所述直播观看请求发送至服务器；

第二接收模块802，用于接收所述服务器发送的背景图像数据，所述背景图像数据包括各个真实视角下的背景图像及各帧背景图像对应的深度信息，所述真实视角为可采集真实图像的视角；

第三接收模块803，用于接收所述服务器在直播过程中实时发送的前景图像数据，所述前景图像数据包括各个真实视角下的前景图像及各帧前景图像对应的深度信息；

合成模块804，用于根据所述前景图像数据与所述背景图像数据合成虚拟视角图像，并将所述虚拟视角图像作为从待观看视角处采集的直播图像，所述待观看视角根据所述视角参数确定的；

播放模块805，用于播放所述虚拟视角图像。

可选地，所述合成模块804包括：

第一合成子模块，用于根据所述背景图像数据合成背景投影图像；

第二合成子模块，用于根据所述前景图像数据合成前景投影图像；

第一获得子模块，用于将所述前景投影图像覆盖到所述背景投影图像中，得到所述待观看视角下的虚拟视角图像。

可选地，所述合成模块804包括：

第三合成子模块，用于根据所述背景图像数据合成背景投影图像；

第四合成子模块，用于根据存储的所述前景图像数据合成前景投影图像；

第二获得子模块，用于根据所述最大矩形框，将所述前景投影图像覆盖到所述背景投影图像中，得到所述待观看视角下的虚拟视角图像，所述最大矩形框用于确定所述前景投影图像在所述背景投影图像中的位置。本申请实施例还提供了一种终端设备，如图9所示。图9是本申请一实施例示出的一种终端设备的结构示意图。参照图9，终端设备包括处理器91、通信接口92、存储器93和通信总线94，其中，处理器91，通信接口92，存储器93通过通信总线94完成相互间的通信；

存储器93，用于存放计算机程序；

处理器91，用于执行存储器93上所存放的程序时，实现如下步骤：

接收主播端发送的第一图像数据和第二图像数据，所述第一图像数据包括各个真实视角下的直播背景图和对应的背景深度图，所述第二图像数据包括各个真实视角下的直播前景图和对应的前景深度图，所述真实视角为可采集真实图像的视角；

接收播放端发送的直播观看请求，并根据所述直播观看请求中的视角参数确定待观看视角；

在各个所述真实视角中确定与所述待观看视角相似度最高的目标真实视角；

将所述目标真实视角下的第一图像数据发送至所述播放端，并在所述主播端处于直播状态时，将所述目标真实视角下的第二图像数据发送至所述播放端，以使所述播放端根据所述第一图像数据和所述第二图像数据合成所述待观看视角下的直播图像。

或者处理器91在执行存储器93上所存放的程序时，实现上述其他方法实施例中的步骤。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的网页显示方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的网页显示方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像合成方法，其特征在于，应用于数据传输系统，所述数据传输系统包括：主播端、服务器以及播放端，所述服务器分别与所述主播端和所述播放端通信连接，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述服务器获得各个真实视角下的背景图像数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述主播端获得各个真实视角下的前景图像数据，包括：

4.根据权利要求3所述的方法，其特征在于，对各帧所述背景图像进行深度估计，得到深度信息，包括：

通过第一深度估计模型对各帧所述背景图像进行深度估计，得到深度信息；

所述主播端对各个真实视角下的前景图像进行深度估计，得到各帧所述前景图像对应的深度信息，包括：

5.根据权利要求3所述的方法，其特征在于，对各帧所述直播图像进行图像分割，获得各个真实视角下的前景图像，包括：

通过前景分割模型获得各帧所述直播图像前景蒙版；

6.根据权利要求1所述的方法，其特征在于，在所述服务器获得各个真实视角下的背景图像数据后，所述方法还包括：

所述服务器向所述主播端发送直播开始信号；

在直播过程中，所述主播端获得各个真实视角下的前景图像数据，包括：

7.一种图像合成方法，其特征在于，应用于服务器，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，向所述播放端发送一次与所述待观看视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述待观看视角匹配的前景图像数据，包括：

9.根据权利要求7所述的方法，其特征在于，向所述播放端发送一次与所述待观看视角匹配的背景图像数据，以及，在直播过程中实时向所述播放端发送与所述待观看视角匹配的前景图像数据，包括：

10.一种图像合成方法，其特征在于，应用于播放端，所述方法包括：

播放所述虚拟视角图像。

11.根据权利要求10所述的方法，其特征在于，根据所述前景图像数据与所述背景图像数据合成虚拟视角图像，包括：

根据所述背景图像数据合成背景投影图像；

根据所述前景图像数据合成前景投影图像；

12.根据权利要求10所述的方法，其特征在于，所述前景图像数据中还包括前景图像的最大矩形框；根据所述前景图像数据与所述背景图像数据合成虚拟视角图像，包括：

根据所述背景图像数据合成背景投影图像；

根据存储的所述前景图像数据合成前景投影图像；

13.一种图像合成装置，其特征在于，应用于服务器，所述装置包括：

14.一种图像合成装置，其特征在于，应用于播放端，所述装置包括：

播放模块，用于播放所述虚拟视角图像。

15.一种终端设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如权利要求1-6，或者如权利要求7-9，或者如权利要求10-12任一所述的图像合成方法中的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6，或者如权利要求7-9，或者如权利要求10-12中任一所述的图像合成方法中的步骤。