CN113837979A

CN113837979A - 直播图像合成方法、装置、终端设备以及可读存储介质

Info

Publication number: CN113837979A
Application number: CN202111146482.8A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-24
Anticipated expiration: 2041-09-28
Also published as: CN113837979B

Abstract

本申请提供了一种直播图像合成方法、装置、终端设备以及可读存储介质。该方法包括：确定与目标视角相似度最高的真实视角，目标视角为无法采集真实图像的视角，真实视角为可采集真实图像的视角；利用从真实视角采集的背景图像获得目标视角的背景投影图像；利用从真实视角采集的前景图像获得目标视角的前景投影图像；合成背景投影图像和前景投影图像，将合成的图像作为从目标视角采集的图像。该方法在应用于网络直播场景时，利用了直播过程中摄像装备的空间位置和朝向不会发生变化而使得直播背景图不会变化的特性，合成一次背景投影图像，并将该合成的背景投影图像用于采集到前景图像时的直播图像合成，降低了图像合成量，提升了图像合成的效率。

Description

直播图像合成方法、装置、终端设备以及可读存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种直播图像合成方法、装置、终端设备以及可读存储介质。

背景技术

在视频拍摄场景中，为了更好地拍摄视频，通常会在拍摄点的周围布设多个摄像装备。然而，这种布设方式需要较多的摄像装备，增大了摄像装备的安装、校准、调试、数据传输同步等工作量。为解决该问题，相关技术中采用的方案是：通过摄像装备实时采集完整的真实图像，然后利用自由视角合成算法，将这些完整的真实图像投影到未安装摄像装备的虚拟视角下，以合成虚拟视角处的虚拟视角图像，这些合成的虚拟视角图像就可以等效为从虚拟视角处实际采集的图像，从而能降低摄像装备的布设数量。然而，如果直接将上述方案应用到网络直播场景中，图像合成效率并不高。因此，如何在网络直播场景中提升虚拟视角图像的图像合成效率，成为亟待解决的问题。

发明内容

本申请实施例的目的在于提供一种直播图像合成方法、装置、终端设备以及可读存储介质，该方法可在网络直播场景中提升自由视角合成算法的图像合成效率。具体技术方案如下：

在本申请实施例的第一方面，首先提供了一种直播图像合成方法，所述方法包括：

确定与目标视角相似度最高的真实视角，所述目标视角为无法采集真实图像的视角，所述真实视角为可采集真实图像的视角；

利用从所述真实视角采集的背景图像获得所述目标视角的背景投影图像；

利用从所述真实视角采集的前景图像获得所述目标视角的前景投影图像；

合成所述背景投影图像和所述前景投影图像，将合成的图像作为从所述目标视角采集的图像。

可选地，利用从所述真实视角采集的背景图像获得所述目标视角的背景投影图像，包括：

利用直播开始前从所述真实视角采集的背景图像获得所述目标视角的背景投影图像；

利用从所述真实视角采集的前景图像获得所述目标视角的前景投影图像，包括：

利用直播开始后实时从所述真实视角采集的前景图像获得所述目标视角的实时的前景投影图像；

合成所述背景投影图像和所述前景投影图像，将合成的图像作为从所述目标视角采集的图像，包括：

合成所述背景投影图像和所述实时的前景投影图像，将合成的图像作为实时从所述目标视角采集的图像。

获得所述背景图像对应的深度图像；

根据所述背景图像、所述深度图像以及所述目标视角的视角参数获得所述目标视角的背景投影图像。

可选地，利用从所述真实视角采集的前景图像获得所述真实视角的前景投影图像，包括：

获得从所述真实视角采集的完整图像；

对所述完整图像进行图像分割，获得前景图像；

利用所述前景图像获得所述真实视角的前景投影图像。

可选地，利用所述前景图像获得所述真实视角的前景投影图像，包括：

获得所述前景图像对应的深度图像；

根据所述前景图像、所述深度图像以及所述目标视角处的视角参数获得所述目标视角的前景投影图像。

可选地，确定与目标视角相似度最高的真实视角，包括：

在多个真实视角对应的图像采集位置中，确定出与所述目标视角对应的图像采集位置距离最近的位置；

将确定出的位置所对应的真实视角作为与所述目标视角相似度最高的真实视角。

可选地，所述方法还包括：

对所述背景投影图像进行高斯模糊处理；

合成所述背景投影图像和所述前景投影图像，包括：

合成处理后的背景投影图像和所述前景投影图像。

在本申请实施例的第二方面，还提供了一种直播图像合成装置，所述装置包括：

确定模块，用于确定与目标视角相似度最高的真实视角，所述目标视角为无法采集真实图像的视角，所述真实视角为可采集真实图像的视角；

第一获得模块，用于利用从所述真实视角采集的背景图像获得所述目标视角的背景投影图像；

第二获得模块，用于利用从所述真实视角采集的前景图像获得所述目标视角的前景投影图像；

合成模块，用于合成所述背景投影图像和所述前景投影图像，将合成的图像作为从所述目标视角采集的图像。

可选地，所述第一获得模块包括：

第一获得子模块，用于利用直播开始前从所述真实视角采集的背景图像获得所述目标视角的背景投影图像；

所述第二获得模块包括：

第二获得子模块，用于利用直播开始后实时从所述真实视角采集的前景图像获得所述目标视角的实时的前景投影图像；

所述合成模块包括：

第一合成子模块，用于合成所述背景投影图像和所述实时的前景投影图像，将合成的图像作为实时从所述目标视角采集的图像。

可选地，所述第一获得模块包括：

第三获得子模块，用于获得所述背景图像对应的深度图像；

第四获得子模块，用于根据所述背景图像、所述深度图像以及所述目标视角的视角参数获得所述目标视角的背景投影图像。

可选地，所述第二获得模块包括：

第五获得子模块，用于获得从所述真实视角采集的完整图像；

第六获得子模块，用于对所述完整图像进行图像分割，获得前景图像；

第七获得子模块，用于利用所述前景图像获得所述真实视角的前景投影图像。

可选地，所述第七获得子模块包括：

第八获得子模块，用于获得所述前景图像对应的深度图像；

第九获得子模块，用于根据所述前景图像、所述深度图像以及所述目标视角处的视角参数获得所述目标视角的前景投影图像。

可选地，所述确定模块包括：

第一确定子模块，用于在多个真实视角对应的图像采集位置中，确定出与所述目标视角对应的图像采集位置距离最近的位置；

第二确定子模块，用于将确定出的位置所对应的真实视角作为与所述目标视角相似度最高的真实视角。

可选地，所述装置还包括：

处理模块，用于对所述背景投影图像进行高斯模糊处理；

所述合成模块包括：

第二合成子模块，用于合成处理后的背景投影图像和所述前景投影图像。

在本申请实施例的第三方面，还提供了一种终端设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现本申请实施例的第一方面所述的直播图像合成方法中的步骤。

在本申请实施例的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的直播图像合成方法中的步骤。

采用本申请的直播图像合成方法，首先确定与目标视角相似度最高的真实视角，目标视角为无法采集真实图像的视角，真实视角为可采集真实图像的视角。接着利用从真实视角采集的背景图像获得目标视角的背景投影图像。然后利用从真实视角采集的前景图像获得真实视角的前景投影图像。最后合成背景投影图像和前景投影图像，将合成的图像等效为从目标视角采集的图像。该方法在应用于网络直播场景时，利用了直播过程中摄像装备的空间位置和朝向不会发生变化而使得直播背景图不会变化的特性，可以合成一次背景投影图像，并将该合成的背景投影图像用于采集到前景图像时的直播图像合成，与相关技术中每一次都利用最相似的完整真实直播图像合成目标视角的虚拟直播图像的方法而言，降低了图像合成时的计算量，进一步提升了图像合成的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本申请一实施例示出的一种实施场景示意图；

图2是本申请一实施例示出的一种直播图像合成方法的流程图；

图3是本申请一实施例示出的另一种直播图像合成方法的流程图；

图4是本申请一实施例示出的一种合成深度图像的过程示意图；

图5是本申请一实施例示出的一种合成直播图像的过程示意图；

图6是本申请一实施例示出的一种直播图像合成装置的结构框图；

图7是本申请一实施例示出的一种终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

在视频拍摄场景中，为了向观众提供沉浸式体验，通常会在拍摄点的周围布设多个摄像装备，以从多方位拍摄视频。例如，为了对舞台上的节目进行较好拍摄，通常会在舞台周围每隔一定距离布设摄像装备。然而，这种布设方式需要较多的摄像装备，增大了摄像装备的安装、校准、调试、数据传输同步等工作量，需要耗费大量的财力和物力。

相关技术中的一种解决方式为：从安装有摄像装备的真实视角采集真实图像，利用实时采集的完整的真实图像合成一个中间的虚拟视角图像，将该虚拟视角图像等效为与该真实视角相似的虚拟视角处采集的图像，从而降低摄像装备的布设数量。图1是本申请一实施例示出的一种实施场景示意图。在图1中，深色阴影部分(包括：L1-L3和R1-R3)为安装的摄像装备，浅色阴影部分(包括：O)为未安装摄像装备的位置点。那么可以采用上述方式，利用L1或R1合成一个虚拟视角图像，将该虚拟视角图像等效为从O处(位置点O处的视角与L1或R1处的视角比较相似)采集的图像。

然而，在网络直播场景中，由于网络直播的场景较为固定，即主要画面由前景的单人主播和背景的面画组成，且直播过程中摄像装备的空间位置和朝向不会发生变化，如果直接采用上述方式，在每一次进行虚拟视角图像的合成时，都需要利用实时的完整的真实图像，由于直播过程中的图像合成量较大，且利用每一帧完整的真实图像合成虚拟视角图像时需要耗费的时间较长，因此直接采用上述方式时图像合成效率并不高。因此，针对网络直播场景下的虚拟视角图像的合成方式还可以做进一步优化。

为了进一步提升网络直播场景下直播图像合成效率，本申请提供了一种直播图像合成方法，可应用于一种直播服务器，该直播服务器在合成直播图像后，将直播图像推送到客户端以供用户收看直播。图2是本申请一实施例示出的一种直播图像合成方法的流程图。参照图2，本申请的直播图像合成方法可以包括如下步骤：

步骤S21：确定与目标视角相似度最高的真实视角，所述目标视角为无法采集真实图像的视角，所述真实视角为可采集真实图像的视角。

在本实施例中，针对某一网络直播场景，可以布设多个摄像装备来采集直播图像。各个摄像装备对应的视角为真实视角，如图1中的摄像装备L1-L3和R1-R3所示，其对应的视角则为真实视角，待合成虚拟直播图像的位置点(未安装摄像装备)对应的视角为目标视角，例如图1中的O所示。

在本实施例中，直播服务器可根据用户的选择操作确定目标视角。

本实施例可采用任意方式获得与目标视角相似度最高的真实视角。

步骤S22：利用从所述真实视角采集的背景图像获得所述目标视角的背景投影图像。

在本实施例中，由于真实视角对应的摄像装备在直播过程中的空间位置和朝向不会发生变化，因此可以在开始进行图像合成之前的任意时刻采集各个真实视角下的直播背景图。在步骤S21中确定与目标视角相似度最高的真实视角后，接着从预先采集的多个直播背景图中获得与目标视角相似度最高的真实视角的直播背景图，再利用该直播背景图来获得目标视角下的背景投影图像。

其中，本实施例可采用任意方式根据背景图像获得背景投影图像。

在本实施例中，目标视角是指一个视角，当需要对多个视角进行直播图像合成时，其原理与一个视角下的合成原理相同。在目标视角下，可以只采集一次背景图像且只合成一次背景投影图像，该合成的背景投影图像可用于每一次采集到前景图像时的直播图像合成。

步骤S23：利用从所述真实视角采集的前景图像获得所述目标视角的前景投影图像。

在本实施例中，一帧直播图像中包含背景图像和前景图像，前景图像是指进行直播的主体对象，例如带货主播、游戏主播等，背景对象是指主体对象所处的背景环境。

在直播过程中，可以采集到多帧前景图像，每帧前景图像可以是不同的，例如主体对象的神态、姿势等发生了变化而导致的不同。每采集到一帧直播图像后，可以获得该直播图像中的前景图像，再利用该前景图像来获得目标视角下的前景投影图像。

其中，本实施例可采用任意方式根据前景图像获得前景投影图像。

步骤S24：合成所述背景投影图像和所述前景投影图像，将合成的图像作为从所述目标视角采集的图像。

在本实施例中，可以将获得的前景投影图像覆盖到背景投影图像上，得到合成的图像，该合成的图像可以等效为从目标视角采集的直播图像。接着，直播服务器可将合成的直播图像发送到客户端中以供用户收看。

本实施例中，利用直播过程中摄像装备的空间位置和朝向不会发生变化而使得直播背景图不会变化的特性，将背景投影图像的获取和前景投影图像的获取分开进行，再将前景投影图像覆盖到背景投影图像上得到最终的虚拟视角图像(直播图像)。该种方式不需要在每一次合成虚拟视角图像时使用完整的真实图像，可以只获得一次背景投影图像，减少了图像合成量，显著提升了图像合成效率。

采用本实施例的直播图像合成方法，首先确定与目标视角相似度最高的真实视角，目标视角为无法采集真实图像的视角，真实视角为可采集真实图像的视角。接着利用从真实视角采集的背景图像获得目标视角的背景投影图像。然后利用从真实视角采集的前景图像获得真实视角的前景投影图像。最后合成背景投影图像和前景投影图像，将合成的图像等效为从目标视角采集的图像。该方法在应用于网络直播场景时，利用了直播过程中摄像装备的空间位置和朝向不会发生变化而使得直播背景图不会变化的特性，可以合成一次背景投影图像，然后将该合成的背景投影图像用于采集到前景图像时的直播图像合成，相较于相关技术中每一次都利用完整真实直播图像合成目标视角的虚拟直播图像的方法而言，降低了图像合成时的计算量，进一步提升了图像合成的效率。

图3是本申请一实施例示出的另一种直播图像合成方法的流程图。参照图3，本申请的直播图像合成方法可以包括如下步骤：

步骤S31：确定与目标视角相似度最高的真实视角，所述目标视角为无法采集真实图像的视角，所述真实视角为可采集真实图像的视角。

关于步骤S31的介绍请参照步骤S21，本实施例在此不作赘述。

步骤S32：利用直播开始前从所述真实视角采集的背景图像获得所述目标视角的背景投影图像。

在本实施例中，在直播开始前，可以利用在直播环境中布设的摄像装备采集各自对应的视角下的直播背景图，此时由于未开始直播，镜头内没有进行直播的主体对象，因此能较为方便地采集到直播背景图。例如在图1中，摄像装备L1可以采集对应的视角下的直播背景图，摄像装备L2也可以采集对应的视角下的直播背景图，即L1-L3和R1-R3中每一个摄像装备均可以采集对应的视角下的直播背景图。

接着，在步骤S31中确定出与目标视角相似度最高的真实视角X后，可以获得真实视角X下的直播背景图，利用该直播背景图X合成目标视角下的背景投影图像。

步骤S33：利用直播开始后实时从所述真实视角采集的前景图像获得所述目标视角的实时的前景投影图像。

在直播开始后，各个摄像装备可以实时采集到前景图像。因此，针对与目标视角相似度最高的真实视角，可以将其对应的摄像装备采集的每一帧前景图像均投影到目标视角下，获得对应的前景投影图像。

示例地，以图1为例，若目标视角为位置点O处的视角，与位置点O处的视角最相似的视角为摄像装备L1对应的真实视角，摄像装备L1在某一时刻采集到一帧前景图像P1后，将前景图像P1投影到目标视角下，获得前景投影图像P1’，摄像装备L1在下一时刻采集到一帧前景图像P2后，继续将前景图像P2投影到目标视角下，获得前景投影图像P2’，以此类推，每采集到一帧前景图像，均投影到目标视角下，获得前景投影图像。

步骤S34：合成所述背景投影图像和所述实时的前景投影图像，将合成的图像作为实时从所述目标视角采集的图像。

在本实施例中，每合成一帧前景投影图像后，可以将该前景投影图像覆盖到步骤S32中合成的背景投影图像上，得到一帧合成的直播图像，该直播图像可以等效为从目标视角处采集的直播图像。

示例地，以图1为例，若目标视角为位置点O处的视角，与位置点O处的视角最相似的视角为摄像装备L1对应的真实视角，在直播开始前，首先利用摄像装备L1采集的直播背景图获得目标视角下的背景投影图像P_back。直播开始后，在t0时刻，摄像装备L1采集到一帧前景图像P1，将前景图像P1投影到目标视角下，获得前景投影图像P1’，再将前景投影图像P1’覆盖到背景投影图像P_back，获得t0时刻的合成图像，该合成图像可以作为t0时刻从位置点O处采集的直播图像。在t1时刻，摄像装备L1集到一帧前景图像P2，将前景图像P2投影到目标视角下，获得前景投影图像P2’，再将前景投影图像P2’覆盖到背景投影图像P_back，获得t1时刻的合成图像，该合成图像可以作为t1时刻从位置点O处采集的直播图像，以此类推，在合成一次背景投影图像P_back后，可以将该合成的背景投影图像P_back用于每一次采集到前景图像时的直播图像合成，从而可以达到从目标视角实时采集直播图像的效果。

本申请中将直播图像的合成分为两步进行，在直播开始前采集直播背景图并合成目标视角下的背景投影图像，在直播开始后实时采集前景图像并合成目标视角下的前景投影图像，由于背景投影图像可以一次合成多次使用，因此每次在采集到前景图像后只需要合成前景投影图像，无需对完整的真实图像进行合成操作，减少了图像的合成量，提升了图像合成效率。

在本实施例中，利用了直播过程中摄像装备的空间位置和朝向不会发生变化而使得直播背景图不会变化的特性，在直播开始前采集背景图像，在确定目标视角后合成一次背景投影图像，并将该合成的背景投影图像用于直播开始后每一次采集到前景图像时的直播图像合成，与相关技术中每一次都利用最相似的完整真实直播图像合成目标视角的虚拟直播图像的方法而言，降低了图像合成时的计算量，进一步提升了图像合成的效率。

结合以上实施例，在一种实施方式中，利用从所述真实视角采集的背景图像获得所述目标视角的背景投影图像，具体可以包括：

获得所述背景图像对应的深度图像；

在一种实施方式中，获得所述背景图像对应的深度图像，可以包括：将背景图像输入离线的高精度深度估计模型，获得深度图像。本实施例对高精度深度估计模型的类型不作具体限制。

在本实施例中，目标视角可以是在直播开始前确定的，也可以是在直播开始后确定的。如果目标视角是在直播开始前确定的，那么可以在直播开始前，根据从真实视角采集的背景图像获得对应的深度图像，并根据背景图像、深度图像以及目标视角的视角参数获得目标视角的背景投影图像。也即，在直播开始前就完成背景图像的采集、背景图像对应的深度图像的获取以及背景投影图像的获取等步骤，从而减少在直播开始后图像合成的计算量。

如果目标视角是在直播开始后确定的，那么可以在直播开始前，根据从真实视角采集的背景图像获得对应的深度图像，并在直播过程中确定目标视角后，再根据背景图像、深度图像以及目标视角的视角参数获得目标视角的背景投影图像。也即，在直播开始前就完成背景图像的采集和背景图像对应的深度图像的获取步骤，在直播开始后再执行背景投影图像的获取步骤。如此也可以在一定程度上减少在直播开始后图像合成的计算量。

在本实施例中，背景图像对应的深度图像可以是在采集到背景图像时获取，也可以是在确定目标视角后才获取，具体可根据实际需求设置，本实施例对此不作具体限制。

其中，目标视角的视角参数是指：摄像装备在目标视角处的相机内参和相机外参。关于相机内参和相机外参将在下文介绍。

在本实施例中，可以采用自由视角合成算法根据背景图像、深度图像以及目标视角的视角参数获得目标视角的背景投影图像。下面首先介绍合成过程中的几个参数，再介绍自由视角合成算法。

(一)、参数

图像数据：I_cam

深度数据：D_cam

相机内参：f_cam(焦距)、cx_cam(原点x轴偏移量)、cy_cam(原点y轴偏移量)

相机外参：

其中，cam表示相机序号，如I_L1为从摄像装备L1采集的图像数据。在合成背景投影图像时，I_cam表示直播背景图像数据，D_cam表示直播背景的深度图像数据。(二)自由视角合成算法

以利用从摄像装备L1采集的直播背景图像(图像的长为W、宽为H)合成位置点O处的直播背景图像为例，用src表示摄像装备L1，tar表示虚拟摄像装备O，有如下步骤：

步骤1：首先生成内参矩阵intrinsics_src和外参矩阵extrinsics_src：

步骤2：假设src采集的真实直播背景图像在图像坐标系下的一点P，坐标为(u_src，v_src)，该点的颜色为(r，g，b)，深度为d(根据D_cam获得)，构成齐次坐标

步骤3：计算点P在src相机坐标系下的坐标

步骤4：计算点P在世界坐标系下的坐标

步骤5：将世界坐标系下的P点投影到目标视角的tar相机坐标系：

P点在tar相机坐标系下的坐标为：

步骤6：P点在tar相机坐标系下的坐标：

例如，src采集的真实直播背景图像中的一点P，坐标(u_src＝0，v_src＝0)，内外参数如下：

通过计算可知：

点P在src相机坐标系下的坐标

点P在世界坐标系下的坐标

点P在tar相机坐标系下的坐标

点P在tar图像坐标系下的坐标

按照上述坐标转换方式，将真实直播背景图像中的每一个点在src图像坐标系下的坐标转换到在tar图像坐标系下的坐标，即可得到背景投影图像。

根据直播前景图像得到前景投影图像的原理，与根据直播背景图像得到背景投影图像的原理相同，在合成前景投影图像时，I_cam表示直播前景图像数据，D_cam表示直播前景图的深度图像数据，本实施例对前景投影图像的合成过程不作赘述。在本实施例中，可在直播开始前完成背景图像的采集和背景图像对应的深度图像的获取，可有效减少在直播开始后图像合成的计算量，提升图像合成的效率。

结合以上实施例，在一种实施方式中，利用从所述真实视角采集的前景图像获得所述真实视角的前景投影图像，具体可以包括：

获得从所述真实视角采集的完整图像；

对所述完整图像进行图像分割，获得前景图像；

利用所述前景图像获得所述真实视角的前景投影图像。

在直播过程中，摄像装备采集到的完整图像包含前景图像和背景图像。针对完整图像进行图像分割，获得前景区域，将前景区域的图像作为前景图像。通常情况下，在网络直播场景中，作为前景图像的主体对象通常是人，此时可以采用人像分割技术，将人物从完整图像中分割出来作为前景图像。

在一种实施方式中，利用所述前景图像获得所述真实视角的前景投影图像，具体可以包括：

获得所述前景图像对应的深度图像；

在一种实施方式中，获得所述前景图像对应的深度图像，可以包括：将前景图像输入实时的轻量化深度估计模型，获得深度图像。本实施例对深度估计模型的类型不作具体限制。

在本申请中，在获得背景图像时，由于此时还没有开始直播，因此可以采用离线的高精度深度估计模型获得深度图像，以保证获得的背景投影图像具备较高的质量。而前景图像是在直播开始后获得的，在直播时待估计深度的前景图像较多，因此可以采用轻量化深度估计模型来获得前景图像对应的深度图像，从而加快深度图像的获取速率，提升图像合成效率。

接着，可以按照前述合成背景投影图像的原理，根据前景图像、深度图像以及目标视角处的视角参数获得目标视角的前景投影图像，本实施例在此不作赘述。

结合以上实施例，在一种实施方式中，确定与目标视角相似度最高的真实视角，具体可以包括：

在本实施例中，视角对应的位置之间的距离可以反映视角之间的相似程度。视角对应的位置之间距离越近，视角之间的相似程度越高。因此，可以在多个真实视角对应的图像采集位置中，确定出与目标视角对应的图像采集位置距离最近的那个位置，然后将这个位置所对应的真实视角作为与目标视角相似度最高的真实视角。

示例地，在图1中，若目标视角为位置点O处的视角，由于L1或R1与位置点O之间的距离最近，那么可以将L1处的视角作为与目标视角相似度最高的真实视角，或者将R1处的视角作为与目标视角相似度最高的真实视角。在本实施例中，无需复杂的计算，可根据视角对应的图像采集位置之间的距离快速确定出与目标视角相似度最高的真实视角，降低了直播图像合成方法的操作复杂度，提高了图像合成效率。

结合以上实施例，在一种实施方式中，本申请的直播图像合成方法还可以包括如下步骤：

对所述背景投影图像进行高斯模糊处理；

合成所述背景投影图像和所述前景投影图像，包括：

合成处理后的背景投影图像和所述前景投影图像。

在本实施例中，得到的背景投影图像可能会存在毛细的空洞，为提高背景投影图像的质量，还可以采用高斯模糊(Gaussian Blur，也称高斯平滑)将背景进行模糊，去除毛细空洞，可以理解为对背景投影图像进行虚化。然后再将前景投影图像覆盖到处理后的背景投影图像上，得到合成后的图像。

通过本实施例，可以提升背景投影图像的图像质量，进而提升最终合成的直播图像的质量。

下面将以一个网络直播中的一个具体实施例对本申请的直播图像合成方法进行说明，该过程包括步骤一至步骤八。

步骤一：在直播开始前，引导主播布置好直播环境，布设多个直播相机，在镜头内无人时采集每个相机C_i的图像

(也就是每个相机采集无人的背景图)，其中i为相机的编号，bg表示背景。

步骤二：利用离线的高精度深度估计模型计算每个背景图

对应的深度图

上述步骤一和步骤二为直播开始前的准备工作。

步骤三：直播开始后，每个相机开始采集数据，用户设定虚拟相机C_vir的视角数据即相机外参。

步骤四：确定目标视角为虚拟相机C_vir对应的视角，获得距离用户设定虚拟相机C_vir最近的相机C_d的图像

对其进行人像分割，获得人像区域

(

为矩阵，矩阵中表示人像区域的元素为1，表示非人像区域的元素为0)，估计人体区域的深度信息获得人体深度

步骤五：根据内外参数、

将背景图投影到虚拟相机C_vir对应的视角(可采用自由视角合成算法)，获得背景投影图像

步骤六：投影后的背景投影图会出现毛细的空洞，可以利用高斯模糊对背景投影图进行模糊，去除毛细空洞。

步骤七：根据图像

和人像区域

获得前景图像(具体是将

和

相乘)，然后根据内外参数、前景图像、

将前景图像投影到虚拟相机C_vir对应的视角，获得前景投影图像

步骤八：将前景投影图像

与背景投影图像

合成，即将人像部分覆盖叠加到背景图上，至此目标视角的当前帧图像完成合成。

上述步骤一至步骤八还可以结合图4和图5理解。图4是本申请一实施例示出的一种合成深度图像的过程示意图。图5是本申请一实施例示出的一种合成直播图像的过程示意图。在图4中，在直播开始前，每个布设的摄像装备可以采集镜头内无人时的直播背景图，再通过离线的高精度深度估计模型获得对应的背景深度图。例如摄像装备1将采集的直播背景图1输入高精度深度估计模型，获得背景深度图1，摄像装备2将采集的直播背景图2输入高精度深度估计模型，获得背景深度图2，摄像装备n将采集的直播背景图n输入高精度深度估计模型，获得背景深度图n。

在图5中，如果与目标视角相似度最高的真实视角为相机C_d对应的视角，那么可以采用自由视角合成算法，利用相机C_d采集的直播背景图、背景深度图以及内外参数获得背景投影图像，再利用高斯模糊对背景投影图像进行模糊处理，得到处理后的背景投影图像。针对直播过程中相机Cd采集的完整图像，可以将其输入人体分割模型，获得人体蒙版，接着将完整图像和人体蒙版相乘获得人体图像，将人体图像输入实时的轻量化深度估计模型，获得人体深度图像，接着根据人体图像、人体深度图像以及内外参数获得前景投影图像。最后，将前景投影图像覆盖到处理后的背景投影图像上，得到最终合成的图像。

本申请利用了主播直播过程中相机空间位置朝向不会变化的特性，假定直播背景的深度不会发生变化，在直播开始前对直播背景图进行高精度深度估计，在直播过程中对主播进行人体图像分割，对人体部分区域进行深度估计。再利用自由视角合成算法根据直播背景图投影得到背景投影图像，将人体部分区域投影得到前景投影图像，最后将背景投影图像覆盖到背景投影图像上，获得最终的合成图像。该方法将一次合成的背景投影图像用于每一次采集到前景图像时的直播图像合成，与相关技术中每一次都利用最相似的完整真实直播图像合成目标视角的虚拟直播图像的方法而言，降低了图像合成时的计算量，进一步提升了图像合成的效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

基于同一发明构思，本申请一实施例提供一种直播图像合成装置600。参考图6，图6是本申请一实施例示出的一种直播图像合成装置的结构框图。如图6所示，该装置600包括：

确定模块601，用于确定与目标视角相似度最高的真实视角，所述目标视角为无法采集真实图像的视角，所述真实视角为可采集真实图像的视角；

第一获得模块602，用于利用从所述真实视角采集的背景图像获得所述目标视角的背景投影图像；

第二获得模块603，用于利用从所述真实视角采集的前景图像获得所述目标视角的前景投影图像；

合成模块604，用于合成所述背景投影图像和所述前景投影图像，将合成的图像作为从所述目标视角采集的图像。

可选地，所述第一获得模块602包括：

所述第二获得模块603包括：

所述合成模块604包括：

可选地，所述第一获得模块602包括：

第三获得子模块，用于获得所述背景图像对应的深度图像；

可选地，所述第二获得模块603包括：

可选地，所述第七获得子模块包括：

第八获得子模块，用于获得所述前景图像对应的深度图像；

可选地，所述确定模块601包括：

可选地，所述装置600还包括：

处理模块，用于对所述背景投影图像进行高斯模糊处理；

所述合成模块604包括：

本申请实施例还提供了一种终端设备，如图7所示。图7是本申请一实施例示出的一种终端设备的结构示意图。参照图7，终端设备包括处理器71、通信接口72、存储器73和通信总线74，其中，处理器71，通信接口72，存储器73通过通信总线74完成相互间的通信；

存储器73，用于存放计算机程序；

处理器71，用于执行存储器73上所存放的程序时，实现如下步骤：

或者处理器71在执行存储器73上所存放的程序时，实现上述其他方法实施例中的步骤。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称A SIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的网页显示方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的网页显示方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种直播图像合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，利用从所述真实视角采集的背景图像获得所述目标视角的背景投影图像，包括：

3.根据权利要求1或2所述的方法，其特征在于，利用从所述真实视角采集的背景图像获得所述目标视角的背景投影图像，包括：

获得所述背景图像对应的深度图像；

4.根据权利要求1或2所述的方法，其特征在于，利用从所述真实视角采集的前景图像获得所述真实视角的前景投影图像，包括：

获得从所述真实视角采集的完整图像；

对所述完整图像进行图像分割，获得前景图像；

利用所述前景图像获得所述真实视角的前景投影图像。

5.根据权利要求4所述的方法，其特征在于，利用所述前景图像获得所述真实视角的前景投影图像，包括：

获得所述前景图像对应的深度图像；

6.根据权利要求1所述的方法，其特征在于，确定与目标视角相似度最高的真实视角，包括：

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：

对所述背景投影图像进行高斯模糊处理；

合成所述背景投影图像和所述前景投影图像，包括：

合成处理后的背景投影图像和所述前景投影图像。

8.一种直播图像合成装置，其特征在于，包括：

9.一种终端设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1至7任一所述的直播图像合成方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一所述的直播图像合成方法中的步骤。