CN117750043A

CN117750043A - 一种直播中背景融合方法、系统、存储介质及直播设备

Info

Publication number: CN117750043A
Application number: CN202311555228.2A
Authority: CN
Inventors: 张勇; 王文熹; 陈宇
Original assignee: Zhuhai Shixi Technology Co Ltd
Current assignee: Zhuhai Shixi Technology Co Ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-03-22

Abstract

本申请公开了一种直播中背景融合方法、系统、存储介质及直播设备，用于实现更高质量的合成效果，增强直播内容的真实感和沉浸感。本申请方法包括：获取录播素材，并对所述录播素材进行图像分割得到所述录播素材中的前景物体和背景图像；对所述前景物体进行图像理解，并根据图像理解的结果将所述前景物体转换为第一3D点云；获取实时人像，并获取所述实时人像的第二3D点云；根据所述第一3D点云、所述第二3D点云以及所述背景图像合成目标直播图像。

Description

一种直播中背景融合方法、系统、存储介质及直播设备

技术领域

本申请涉及图像处理领域，尤其涉及一种直播中背景融合方法、系统、存储介质及直播设备。

背景技术

随着数字技术的不断进步和用户需求的增长，直播已经成为了一种全新的沟通方式和娱乐方式出现在人们的日常生活中。在直播中，虚拟背景是一种较常出现的功能，它可以让主播在不改变现实环境的情况下，创造出各种不同的场景和氛围，增强直播的视觉效果和观赏性。

为了让观看的用户觉得主播是在真实场景开播，会在直播间通过绿幕抠图的方式进行背景替换，将主播融合在提前录好的背景视频下进行开播。但如果需要在直播中更换背景，就需要技术人员针对新的背景视频，去重新调试开播机位，也需要重新去调整主播的影像参数，包含调整肤色、服装的色彩表现等。并且现有技术中的背景替换，实际上只是将主播图层与背景图层的简单叠加，空间位置关系实际上是缺失的，背景替换后效果不真实。

发明内容

本申请提供了一种直播中背景融合方法、系统、存储介质及直播设备，用于实现更高质量的合成效果，增强直播内容的真实感和沉浸感。

本申请第一方面提供了一种直播中背景融合方法，包括：

获取录播素材，并对所述录播素材进行图像分割得到所述录播素材中的前景物体和背景图像；

对所述前景物体进行图像理解，并根据图像理解的结果将所述前景物体转换为第一3D点云；

获取实时人像，并获取所述实时人像的第二3D点云；

根据所述第一3D点云、所述第二3D点云以及所述背景图像合成目标直播图像。

可选的，所述对所述前景物体进行图像理解，并根据图像理解的结果将所述前景物体转换为第一3D点云，包括：

对所述前景物体进行图像理解，得到所述前景物体的分割掩码和深度信息；

根据所述分割掩码和深度信息将所述前景物体转换为3D点云信息；

根据所述深度信息计算第一转换系数，并通过所述第一转换系数对所述前景物体的3D点云信息进行缩放，得到第一3D点云。

可选的，所述根据所述深度信息计算目标转换系数，包括：

根据所述深度信息确定所述前景物体中心位置的第一深度值；

根据所述3D点云信息确定所述前景物体中心位置的第二深度值；

根据所述第一深度值和第二深度值的比例确定第一转换系数。

可选的，获取实时人像包括：

通过拍摄设备在预设时间段内连续拍摄N张主播图像；

在N张主播图像中确定中间时刻的目标图像，并基于所述目标图像抠图得到实时人像。

可选的，所述获取所述实时人像的第二3D点云，包括：

将所述实时人像转换为3D点云信息；

确定主播到所述拍摄设备的目标距离；

根据所述目标距离计算第二转换系数，并通过第二转换系数对所述实时人像的3D点云信息进行缩放，得到第二3D点云。

可选的，当所述前景物体中包含人像时，所述根据所述第一3D点云、所述第二3D点云以及所述背景图像合成目标直播图像包括：

在所述第一3D点云中确定属于人像的目标点云，并确定所述目标点云的第一中心位置；

确定所述第二3D点云的第二中心位置；

将所述目标点云替换为所述第二3D点云，替换后所述第二中心位置与所述第一中心位置保持一致；

根据替换后的第一3D点云以及所述背景图像合成目标直播图像。

可选的，在所述根据所述第一3D点云、所述第二3D点云以及所述背景图像合成目标直播图像之前，所述方法还包括：

对所述第一3D点云和所述第二3D点云进行去噪和平滑操作。

本申请第二方面提供了一种直播中背景融合系统，包括：

获取单元，用于获取录播素材，并对所述录播素材进行图像分割得到所述录播素材中的前景物体和背景图像；

第一转换单元，用于对所述前景物体进行图像理解，并根据图像理解的结果将所述前景物体转换为第一3D点云；

第二转换单元，用于获取实时人像，并获取所述实时人像的第二3D点云；

合成单元，用于根据所述第一3D点云、所述第二3D点云以及所述背景图像合成目标直播图像。

可选的，所述第一转换单元包括：

处理模块，用于对所述前景物体进行图像理解，得到所述前景物体的分割掩码和深度信息；

转换模块，用于根据所述分割掩码和深度信息将所述前景物体转换为3D点云信息；

缩放模块，用于根据所述深度信息计算第一转换系数，并通过所述第一转换系数对所述前景物体的3D点云信息进行缩放，得到第一3D点云。

可选的，所述缩放模块具体用于：

可选的，所述第二转换单元具体用于：

通过拍摄设备在预设时间段内连续拍摄N张主播图像；

可选的，所述第二转换单元具体还用于：将所述实时人像转换为3D点云信息；

确定主播到所述拍摄设备的目标距离；

可选的，当所述前景物体中包含人像时，所述合成单元具体用于：

确定所述第二3D点云的第二中心位置；

可选的，所述系统还包括：

后处理单元，用于对所述第一3D点云和所述第二3D点云进行去噪和平滑操作。

本申请第三方面提供了一种直播中背景融合装置，所述装置包括：

处理器、存储器、输入输出单元以及总线；

所述处理器与所述存储器、所述输入输出单元以及所述总线相连；

所述存储器保存有程序，所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的直播中背景融合方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上保存有程序，所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的直播中背景融合方法。

本申请第五方面提供了一种直播设备，所述直播设备包括一体设置或分体设置的摄像头和主机，所述主机在运行时执行如第一方面中任一项所述方法。

从以上技术方案可以看出，本申请具有以下优点：

通过视觉类大模型对录播素材进行图像分割和图像理解，并基于图像理解结果将录播素材中的前景物体转换为第一3D点云，将实时拍摄的实时人像转换为第二3D点云，再将前景物体的第一3D点云和实时人像的第二3D点云以及录播素材中的背景图像进行合成，得到目标直播图像。由于3D点云中包含物体的深度信息，使得前景物体以及实时人像与其周围环境的相对位置和距离更加真实，从而实现更高质量的合成效果，使合成的直播图像更加真实。并且3D点云的引入还能够增加后期编辑的灵活性，提供视角变换和互动性，增强直播内容的真实感和沉浸感，为用户提供更丰富的观看体验。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的直播中背景融合方法一个实施例流程示意图；

图2为本申请提供的直播中背景融合方法中图像分割的一个实施例示意图；

图3为本申请提供的直播中背景融合方法另一个实施例流程示意图；

图4为本申请提供的直播中背景融合系统一个实施例结构示意图；

图5为本申请提供的直播中背景融合系统另一个实施例结构示意图；

图6为本申请提供的直播中背景融合装置一个实施例结构示意图。

具体实施方式

需要说明的是，本申请提供的直播中背景融合方法，可以应用于终端，还可以应用于服务器上，例如终端可以是直播设备、智能手机、电脑、平板电脑、智能电视、智能手表、便携计算机终端也可以是台式计算机等固定终端。为方便阐述，本申请中以终端为执行主体进行举例说明。

请参阅图1，图1为本申请提供的直播中背景融合方法的一个实施例，该方法包括：

101、获取录播素材，并对录播素材进行图像分割得到录播素材中的前景物体和背景图像；

终端首先需要获取录播素材，该录播素材可以是图像或视频，录播素材中可以包含各种道具、背景布景、装饰物等用于丰富场景。该录播素材中还可以包含人像，以便于在后续融合过程中用实时人像进行替代。终端使用视觉类大模型对该录播素材进行图像分割，通过图像分割可以分离出录播素材中的前景物体和背景图像，以便后续的图像处理和合成操作。该录播素材中的前景物体主要是指在录播素材中占据显著位置并与背景区分明显的对象或元素，具体可以是物理对象，例如家具、装饰品、工具、车辆等，还可以是可以是人物对象，如主播、演员、讲师等。请参阅图2，图2为图像分割的示意图，其中包含衣服、鞋子、包等前景物体，以及墙面的背景图像。

在一些具体的实施例中，该视觉类大模型可采用Segment Anything模型(SegmentAngthing Model，SAM)。Segment Anything模型由图像分割的工具、数据集和模型构成，可用于需要在任何图像中查找和分割任何对象的应用。

102、对前景物体进行图像理解，并根据图像理解的结果将前景物体转换为第一3D点云；

终端使用深度学习模型来对前景物体进行图像理解，并使用图像理解的结果将前景物体转换为第一3D点云。图像理解是指使用人工智能对图像进行语义理解，分析图像中有什么目标、目标之间的相互关系等。3D点云是一个由三维点组成的集合，用于表示三维空间中的对象、场景或物体的几何形状和拓扑结构。每个点在点云中都有其三维坐标(X、Y、Z)，用来描述其在空间中的位置。将前景物体转换为第一3D点云可以非常准确地表达前景物体的外部形状，包括曲线、边缘、表面凹凸等细节。

在一些具体的实施例中，可以使用One-2-3-45方案来实现前景物体到第一3D点云的转换，即利用2D扩散模型生成前景物体的多视角图像，然后对多视角图像抽取2D图像特征，再重建前景物体的3D模型，从而得到前景物体的第一3D点云。

103、获取实时人像，并获取实时人像的第二3D点云；

终端在处理完录播素材中的前景物体后，还需要获取实时人像，该实时人像可以是主播、演员、讲师等的人像。终端还需要获取该实时人像的第二3D点云，以捕捉实时人体的位置和动作。

需要说明的是，在获取实时人像的第二3D点云时，可以是直接使用具有三维成像能力设备进行拍摄得到第二3D点云，也可以是先通过普通相机拍摄2D的实时人像，再通过One-2-3-45方案来将2D的实时人像转换为第二3D点云，具体获取方式此处不做限定。

104、根据第一3D点云、第二3D点云以及背景图像合成目标直播图像。

终端根据第一3D点云、第二3D点云和背景图像合成得到目标直播图像，具体的，终端使用第一3D点云、第二3D点云和相机参数(视角、焦距等)将3D点投影到2D图像空间，为3D点云中的每个点生成其在背景图像上的位置，再将每个点的颜色信息与背景图像上的对应像素进行合成，从而得到目标直播图像。目标直播图像中实现了将前景物体、实时人像与背景融为一体，将目标直播图像实时传送给观众，为观众提供更加真实的观看体验。

在一些具体的实施例中，终端在得到前景物体的第一3D点云和实时人像的第二3D点云后，可以先将第一3D点云和第二3D点云进行融合，具体是将第一3D点云和第二3D点云放置在同一坐标系下，保证第二3D点云覆盖在第一3D点云之上，再去除冗余的点(例如去除重叠区域的点)，再根据处理结果创建一个整体的点云数据，得到目标3D点云。目标3D点云将前景物体和实时人像的3D特征融合在一起，创造了一个统一的三维场景，再将目标3D点云和背景图像进行合成得到目标直播图像，从而能够进一步提高后续合成的一致性和逼真性。

在本实施例中，通过视觉类大模型对录播素材进行图像分割和图像理解，并基于图像理解结果将录播素材中的前景物体转换为第一3D点云，将实时拍摄的实时人像转换为第二3D点云，再将前景物体的第一3D点云和实时人像的第二3D点云以及录播素材中的背景图像进行合成，得到目标直播图像。由于3D点云中包含物体的深度信息，使得前景物体以及实时人像与其周围环境的相对位置和距离更加真实，从而实现更高质量的合成效果，使合成的直播图像更加真实。并且3D点云的引入还能够增加后期编辑的灵活性，提供视角变换和互动性，增强直播内容的真实感和沉浸感，为用户提供更丰富的观看体验。

下面对本申请提供的直播中背景融合方法进行详细说明，请参阅图3，图3为本申请提供的直播中背景融合方法一个实施例，该方法包括：

301、获取录播素材，并对录播素材进行图像分割得到录播素材中的前景物体和背景图像；

在本实施例中，步骤301与前述实施例步骤101类似，此处不再赘述。

302、对前景物体进行图像理解，得到前景物体的分割掩码和深度信息；

终端通过图像理解将图像中的每个像素分配到不同的类别或实例，从而生成分割掩码以及对应的物体类别信息，再估计每个像素到相机的深度值，得到前景物体的深度信息。在得到前景物体的分割掩码和深度信息之后，终端还可以对分割掩码和深度信息进行后处理，例如去除噪声、填充孔洞或进行其他图像处理操作，以提高结果的质量。

需要说明的是，终端可使用一个模型同时实现录播素材的图像分割和图像理解，这样的模型可以共享底层的特征提取器，使得模型更加紧密地集成两个任务之间的信息，提高模型的效率和泛化能力。即终端将录播素材输入至一个训练好的图像处理模型后，该模型可以直接输出背景图像、前景物体的分割掩码和前景物体的深度信息以及其它在后续合成过程中可能使用到的信息，以提高处理效率。

303、根据分割掩码和深度信息将前景物体转换为3D点云信息；

终端使用图像理解的结果，即前景物体的分割掩码和深度信息，将前景物品转换为3D点云。具体的，终端对于分割掩码中的每个前景像素，使用深度信息和像素坐标计算三维坐标(X，Y，Z)，如果有颜色信息，将颜色信息与相应的三维坐标关联起来，以为每个点云点添加颜色属性，重复上述过程直至覆盖整个前景物体区域。在将前景物体转换为3D点云信息时，还可以考虑该前景物体对应的物体类别信息，从而增强3D点云信息的语义和信息丰富度。

304、根据深度信息计算第一转换系数，并通过第一转换系数对前景物体的3D点云信息进行缩放，得到第一3D点云；

步骤303中转换得到的3D点云信息没有绝对尺寸，只有与该前景物体一致的相对尺寸，此时终端可以根据前景物体的深度信息计算一个转换系数e1，将该相对尺寸转换为更加真实的绝对尺寸。即终端根据前景物体的深度信息计算得到第一转换系数，再通过该第一转换系数对前景物体的3D点云信息进行缩放，得到真实的第一3D点云。

具体的，该第一转换系数的计算方式为：

A、根据深度信息确定前景物体中心位置的第一深度值；

终端通过图像理解得到的前景物体的深度信息，获取前景物体中心位置[X_center,Y_center]的第一深度值Z0，该前景物体中心位置具体通过可以是所有前景物体像素的平均值来确定，还可以是通过用户手动选定，具体此处不做限定。

需要说明的是，如果已知该前景物体中心位置相对于拍摄设备的实际深度值(在拍摄录播素材时提前标记)，则可以直接根据该实际深度值确定第一深度值。

B、根据3D点云信息确定前景物体中心位置的第二深度值；

终端通过前景物体的3D点云信息，再获取相同中心位置[X_center,Y_center]的点云深度，即第二深度值Z1。

C、根据第一深度值和第二深度值的比例确定第一转换系数。

终端通过Z0/Z1得到第一转换系数e1。

在计算得到第一转换系数e1之后，则通过第一转换系数e1对前景物体的3D点云信息进行缩放，假定前景物体点云任意一点的坐标是[Xi,Yi,Zi]，那么经转换系数后的3D坐标就是e1*[Xi,Yi,Zi]。

305、通过拍摄设备在预设时间段内连续拍摄N张主播图像，在N张主播图像中确定中间时刻的目标图像，并基于目标图像抠图得到实时人像；

在本实施例中，先通过普通相机拍摄2D的实时人像，再通过One-2-3-45方案来将2D的实时人像转换为第二3D点云。在获取实时人像时，先通过拍摄设备连续存图，在预设时间段内连续拍摄N张主播图像，再取中间时刻的一张主播图像进行抠图得到实时人像，这样做的目的是避免存图开始时刻人物存在轻微晃动，保证抠图的准确性。

306、将实时人像转换为3D点云信息，确定主播到拍摄设备的目标距离，根据目标距离计算第二转换系数，并通过第二转换系数对实时人像的3D点云信息进行缩放，得到第二3D点云；

终端具体可通过One-2-3-45方案来得到实时人像的3D点云信息，每个点都具有三维坐标信息，这些点能够表示实时人像的表面。此时转换得到的实时人像的3D点云信息也没有绝对尺寸，只有相对尺寸，因此终端还需要根据主播的深度信息计算另一个转换系数e2，将该相对尺寸转换为更加真实的绝对尺寸。具体的，先确定主播身上某个位置到拍摄设备的目标距离Z2，为了保证效果，该目标距离Z2绝对偏差尽量控制在1％以内。再基于该目标距离以及3D点云信息中对应位置的点云深度值Z3计算第二转换系数e2，e2＝Z2/Z3。

在计算得到第二转换系数e2之后，则通过第二转换系数e1对实时人像的3D点云信息进行缩放，假定实时人像点云任意一点的坐标是[Xq,Yq,Zq]，那么经转换系数后的3D坐标就是e2*[Xq,Yq,Zq]。

307、对第一3D点云和第二3D点云进行去噪和平滑操作；

在本实施例中，在将第一3D点云、第二3D点云和背景图像合成之前，还需要对第一3D点云和第二3D点云进行去噪和平滑操作。去噪操作是为了去除第一3D点云和第二3D点云中的离群点和噪声，以提高3D点云的质量，去噪的方法包括统计滤波、高斯滤波、基于距离的滤波等，这些方法可以消除不符合点云结构的孤立点或异常点。平滑操作是为了减少点云中的高频噪声和不规则性，平滑具体可以通过滑动窗口、平均值滤波或基于曲线的方法来实现，平滑操作有助于产生更连续和自然的点云表面。这些处理步骤均有助于改善3D点云的质量，从而提高后续合成目标直播图像的质量。

308、根据第一3D点云、第二3D点云和背景图像合成目标直播图像。

在一些具体的实施例中，在录播素材中已经存在主播的情况下，此时主播可以参照录播素材中的人体姿势(最优为简单的站着或者坐着)，可以实现更加真实的背景融合。在这种情况下，可以直接用实时人像的第二3D点云替换掉第一3D点云中确定属于人像的点云，再进行直播图像的合成。具体的，终端先确定第一3D点云中确定属于人像的目标点云，并确定目标点云的第一中心位置(素材中人物的中心)；再确定第二3D点云的第二中心位置(实时人像的中心)，最后将目标点云替换为第二3D点云，替换后第二中心位置与第一中心位置保持一致，保证第一3D点云和第二3D点云融合的准确度，再将替换后的第一3D点云与背景图像进行合成即可得到目标直播图像。

在本实施例中，通过视觉类大模型对录播素材进行图像分割和图像理解，并基于图像理解结果将录播素材中的前景物体转换为第一3D点云，将实时拍摄的实时人像转换为第二3D点云，再将前景物体的第一3D点云和实时人像的第二3D点云以及录播素材中的背景图像进行合成，得到目标直播图像。在3D点云的转换过程中还考虑了转换系数，使得3D点云能够还原实际的物体以及人像的大小，使得前景物体以及实时人像与其周围环境的相对位置和距离更加真实，从而实现更高质量的合成效果，使合成的直播图像更加真实。并且3D点云的引入还能够增加后期编辑的灵活性，提供视角变换和互动性，增强直播内容的真实感和沉浸感，为用户提供更丰富的观看体验。

请参阅图4，图4为本申请提供的直播中背景融合系统一个实施例，该系统包括：

获取单元401，用于获取录播素材，并对录播素材进行图像分割得到录播素材中的前景物体和背景图像；

第一转换单元402，用于对前景物体进行图像理解，并根据图像理解的结果将前景物体转换为第一3D点云；

第二转换单元403，用于获取实时人像，并获取实时人像的第二3D点云；

合成单元404，用于根据第一3D点云、第二3D点云以及背景图像合成目标直播图像。

在本实施例系统中，通过获取单元401对录播素材进行图像分割，并通过第一转换单元402将录播素材中的前景物体转换为第一3D点云，通过第二转换单元403将实时拍摄的实时人像转换为第二3D点云，再通过合成单元404将前景物体的第一3D点云和实时人像的第二3D点云以及录播素材中的背景图像进行合成，得到目标直播图像。由于3D点云中包含物体的深度信息，使得前景物体以及实时人像与其周围环境的相对位置和距离更加真实，从而实现更高质量的合成效果，使合成的直播图像更加真实。并且3D点云的引入还能够增加后期编辑的灵活性，提供视角变换和互动性，增强直播内容的真实感和沉浸感，为用户提供更丰富的观看体验。

下面对本申请提供的直播中背景融合系统进行详细说明，请参阅图5，图5为本申请提供的直播中背景融合系统另一个实施例，该系统包括：

获取单元501，用于获取录播素材，并对录播素材进行图像分割得到录播素材中的前景物体和背景图像；

第一转换单元502，用于对前景物体进行图像理解，并根据图像理解的结果将前景物体转换为第一3D点云；

第二转换单元503，用于获取实时人像，并获取实时人像的第二3D点云；

合成单元504，用于根据第一3D点云、第二3D点云以及背景图像合成目标直播图像。

可选的，第一转换单元502包括：

处理模块5021，用于对前景物体进行图像理解，得到前景物体的分割掩码和深度信息；

转换模块5022，用于根据分割掩码和深度信息将前景物体转换为3D点云信息；

缩放模块5023，用于根据深度信息计算第一转换系数，并通过第一转换系数对前景物体的3D点云信息进行缩放，得到第一3D点云。

可选的，缩放模块5023具体用于：

根据深度信息确定前景物体中心位置的第一深度值；

根据3D点云信息确定前景物体中心位置的第二深度值；

根据第一深度值和第二深度值的比例确定第一转换系数。

可选的，第二转换单元503具体用于：

通过拍摄设备在预设时间段内连续拍摄N张主播图像；

在N张主播图像中确定中间时刻的目标图像，并基于目标图像抠图得到实时人像。

可选的，第二转换单元503具体还用于：将实时人像转换为3D点云信息；

确定主播到拍摄设备的目标距离；

根据目标距离计算第二转换系数，并通过第二转换系数对实时人像的3D点云信息进行缩放，得到第二3D点云。

可选的，当前景物体中包含人像时，合成单元504具体用于：

在第一3D点云中确定属于人像的目标点云，并确定目标点云的第一中心位置；

确定第二3D点云的第二中心位置；

将目标点云替换为第二3D点云，替换后第二中心位置与第一中心位置保持一致；

根据替换后的第一3D点云以及背景图像合成目标直播图像。

可选的，系统还包括：

后处理单元505，用于对所述第一3D点云和所述第二3D点云进行去噪和平滑操作。

本实施例系统中，各单元的功能与前述图3所示方法实施例中的步骤对应，此处不再赘述。

本申请还提供了一种直播中背景融合装置，请参阅图6，图6为本申请提供的直播中背景融合装置一个实施例，该装置包括：

处理器601、存储器602、输入输出单元603、总线604；

处理器601与存储器602、输入输出单元603以及总线604相连；

存储器602保存有程序，处理器601调用程序以执行如上任一直播中背景融合方法。

本申请还涉及一种计算机可读存储介质，计算机可读存储介质上保存有程序，其特征在于，当程序在计算机上运行时，使得计算机执行如上任一直播中背景融合方法。

本申请还涉及一种直播设备，该直播设备包括一体设置或分体设置的摄像头和主机，该主机在运行时执行如上任一直播中背景融合方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种直播中背景融合方法，其特征在于，所述方法包括：

获取实时人像，并获取所述实时人像的第二3D点云；

2.根据权利要求1所述的方法，其特征在于，所述对所述前景物体进行图像理解，并根据图像理解的结果将所述前景物体转换为第一3D点云，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述深度信息计算目标转换系数，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取实时人像包括：

通过拍摄设备在预设时间段内连续拍摄N张主播图像；

5.根据权利要求1所述的方法，其特征在于，所述获取所述实时人像的第二3D点云，包括：

将所述实时人像转换为3D点云信息；

确定主播到所述拍摄设备的目标距离；

6.根据权利要求1所述的方法，其特征在于，当所述前景物体中包含人像时，所述根据所述第一3D点云、所述第二3D点云以及所述背景图像合成目标直播图像包括：

确定所述第二3D点云的第二中心位置；

7.根据权利要求1至6中任一项所述的方法，其特征在于，在所述根据所述第一3D点云、所述第二3D点云以及所述背景图像合成目标直播图像之前，所述方法还包括：

对所述第一3D点云和所述第二3D点云进行去噪和平滑操作。

8.一种直播中背景融合系统，其特征在于，所述系统包括：

9.一种直播中背景融合装置，其特征在于，所述装置包括：

处理器、存储器、输入输出单元以及总线；

所述存储器保存有程序，所述处理器调用所述程序以执行如权利要求1至7中任一项所述方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上保存有程序，所述程序在计算机上执行时执行如权利要求1至7中任一项所述方法。