CN117611778A

CN117611778A - 一种直播中背景替换方法、系统、存储介质及直播设备

Info

Publication number: CN117611778A
Application number: CN202311555267.2A
Authority: CN
Inventors: 张勇; 李涛; 黄昌松
Original assignee: Zhuhai Shixi Technology Co Ltd
Current assignee: Zhuhai Shixi Technology Co Ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-02-27

Abstract

本申请公开了一种直播中背景替换方法、系统、存储介质及直播设备，用于为用户提供背景的个性化定制，并且提高背景替换的真实性。本申请方法包括：获取背景素材，并对所述背景素材进行图像分割得到所述背景素材中的前景物体和背景图像；对所述前景物体进行图像理解，并根据图像理解的结果将所述前景物体转换为第一3D点云；获取用户的编辑指令，并根据所述编辑指令对所述第一3D点云进行编辑操作；根据所述前景物体所在的区域对所述背景图像进行补全，得到目标背景；获取实时人像，并根据所述实时人像、所述第一3D点云以及所述目标背景合成目标直播图像。

Description

一种直播中背景替换方法、系统、存储介质及直播设备

技术领域

本申请涉及图像处理领域，尤其涉及一种直播中背景替换方法、系统、存储介质及直播设备。

背景技术

随着数字技术的不断进步和用户需求的增长，直播已经成为了一种全新的沟通方式和娱乐方式出现在人们的日常生活中。在直播中，虚拟背景是一种较常出现的功能，它可以让主播在不改变现实环境的情况下，创造出各种不同的场景和氛围，增强直播的视觉效果和观赏性。

现有技术中，为了让观看的用户觉得主播是在真实场景开播，会在直播间通过绿幕抠图的方式进行背景替换，但在抠除原背景中的被替换物后，由于被替换物与原生背景之间必然存在前后遮挡，对于抠除被替换物后的背景则必然存在背景部分缺失的情况。这时如果替换物与被替换物之间的轮廓存在差异，那么替换边缘就会出现失真现象，从而导致背景替换效果较差，最终合成的直播图像不够真实。

发明内容

本申请提供了一种直播中背景替换方法、系统、存储介质及直播设备，用于为用户提供背景的个性化定制，并且提高背景替换的真实性。

本申请第一方面提供了一种直播中背景替换方法，包括：

获取背景素材，并对所述背景素材进行图像分割得到所述背景素材中的前景物体和背景图像；

对所述前景物体进行图像理解，并根据图像理解的结果将所述前景物体转换为第一3D点云；

获取用户的编辑指令，并根据所述编辑指令对所述第一3D点云进行编辑操作；

根据所述前景物体所在的区域对所述背景图像进行补全，得到目标背景；

获取实时人像，并根据所述实时人像、所述第一3D点云以及所述目标背景合成目标直播图像。

可选的，所述对所述前景物体进行图像理解，并根据图像理解的结果将所述前景物体转换为第一3D点云，包括：

对所述前景物体进行图像理解，得到所述前景物体的分割掩码和深度信息；

根据所述分割掩码和深度信息将所述前景物体转换为3D点云信息；

根据所述深度信息计算第一转换系数，并通过所述第一转换系数对所述前景物体的3D点云信息进行缩放，得到第一3D点云。

可选的，所述根据所述前景物体所在的区域对所述背景图像进行补全，得到目标背景包括：

基于图像分割后得到的背景图像，对所有前景物体所在的区域进行补全，得到目标背景；

或，

根据对所述第一3D点云的编辑操作确定所述背景图像中的缺失区域，并对所述缺失区域进行补全，得到目标背景。

可选的，所述根据所述前景物体所在的区域对所述背景图像进行补全，得到目标背景，包括：

将所述背景图像中的像素转换为第二3D点云；

根据所述前景物体所在的区域对所述第二3D点云进行补全；

将补全后的第二3D点云转换为目标背景。

可选的，所述根据所述前景物体所在的区域对所述第二3D点云进行补全，包括：

将所述第二3D点云划分为规则的三维网格单元，得到所述第二3D点云的三维网格；

对所述三维网格进行反向网格化，将所述三维网格单元转换为粗点云，所述粗点云包含所述三维网格的结构和局部关系；

对所述粗点云进行特征提取，并将所述粗点云以及特征输入深度学习模型对所述粗点云进行补全，得到补全后的第二3D点云。

可选的，所述对所述三维网格进行反向网格化，将所述三维网格单元转换为粗点云，包括：

计算每个三维网格单元中八个顶点坐标的加权和，并将所述加权和作为新点的坐标；

将所有计算得到的新点的坐标组成粗点云。

可选的，所述获取实时人像，并根据所述实时人像、所述第一3D点云以及所述目标背景合成目标直播图像，包括：

获取实时人像，并获取所述实时人像的第三3D点云；

根据所述第三3D点云、第一3D点云以及所述目标背景合成目标直播图像。

可选的，所述编辑指令包括：缩放、旋转、移动、删除以及新增。

本申请第二方面提供了一种直播中背景替换系统，包括：

获取单元，用于获取背景素材，并对所述背景素材进行图像分割得到所述背景素材中的前景物体和背景图像；

转换单元，用于对所述前景物体进行图像理解，并根据图像理解的结果将所述前景物体转换为第一3D点云；

编辑单元，用于获取用户的编辑指令，并根据所述编辑指令对所述第一3D点云进行编辑操作；

补全单元，用于根据所述前景物体所在的区域对所述背景图像进行补全，得到目标背景；

合成单元，用于获取实时人像，并根据所述实时人像、所述第一3D点云以及所述目标背景合成目标直播图像。

可选的，所述转换单元具体用于：

可选的，所述补全单元具体用于：

或，

可选的，所述补全单元具体包括：

第一转换模块，用于将所述背景图像中的像素转换为第二3D点云；

补全模块，用于根据所述前景物体所在的区域对所述第二3D点云进行补全；

第二转换模块，用于将补全后的第二3D点云转换为目标背景。

可选的，所述补全模块具体用于：

可选的，所述补全模块具体还用于：

将所有计算得到的新点的坐标组成粗点云。

可选的，所述合成单元具体用于：

获取实时人像，并获取所述实时人像的第三3D点云；

本申请第三方面提供了一种直播中背景替换装置，所述装置包括：

处理器、存储器、输入输出单元以及总线；

所述处理器与所述存储器、所述输入输出单元以及所述总线相连；

所述存储器保存有程序，所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的直播中背景替换方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上保存有程序，所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的直播中背景替换方法。

本申请第五方面提供了一种直播设备，所述直播设备包括一体设置或分体设置的摄像头和主机，所述主机在运行时执行如第一方面中任一项所述方法。

从以上技术方案可以看出，本申请具有以下优点：

通过视觉类大模型对背景素材进行图像分割和图像理解，并基于图像理解结果将背景素材中的前景物体转换为第一3D点云，此后用户则可以通过编辑指令对第一3D点云进行编辑操作，实现对前景物体的个性化定制，使用户能够根据自己的需求调整和改变背景素材中的物体。在此基础上，为了保证背景替换的效果，还需要对背景图像进行补全，避免了由于遮挡所导致的背景图像缺失以及背景图像与前景物体的突兀过渡，提高了图像的整体协调性。最后再根据实时人像、前景物体的第一3D点云以及目标背景合成目标直播图像，将三者更自然地融合在一起，避免了虚拟元素与实时人像之间的不协调，大大提高了背景替换的真实性，且有助于提升观众对直播内容的信任度。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的直播中背景替换方法一个实施例流程示意图；

图2为本申请提供的直播中背景替换方法中图像分割的一个实施例示意图；

图3为本申请提供的直播中背景替换方法关于背景补全的另一个实施例流程示意图；

图4为本申请提供的直播中背景替换方法关于的另一个实施例流程示意图；

图5为本申请提供的直播中背景替换系统一个实施例结构示意图；

图6为本申请提供的直播中背景替换系统另一个实施例结构示意图；

图7为本申请提供的直播中背景替换装置一个实施例结构示意图。

具体实施方式

需要说明的是，本申请提供的直播中背景替换方法，可以应用于终端，还可以应用于服务器上，例如终端可以是直播设备、智能手机、电脑、平板电脑、智能电视、智能手表、便携计算机终端也可以是台式计算机等固定终端。为方便阐述，本申请中以终端为执行主体进行举例说明。

请参阅图1，图1为本申请提供的直播中背景替换方法的一个实施例，该方法包括：

101、获取背景素材，并对背景素材进行图像分割得到背景素材中的前景物体和背景图像；

终端首先需要获取背景素材，该背景素材可以是图像或视频，背景素材中可以包含各种道具、背景布景、装饰物等用于丰富场景。该背景素材中还可以包含人像，以便于在后续替换过程中用实时人像进行替代。终端使用视觉类大模型对该背景素材进行图像分割，通过图像分割可以分离出背景素材中的前景物体和背景图像，以便后续的图像处理和合成操作。该背景素材中的前景物体主要是指在背景素材中占据显著位置并与背景区分明显的对象或元素，具体可以是物理对象，例如家具、装饰品、工具、车辆等，还可以是可以是人物对象，如主播、演员、讲师等。请参阅图2，图2为图像分割的示意图，其中包含衣服、鞋子、包等前景物体，以及墙面的背景图像。

在一些具体的实施例中，该视觉类大模型可采用Segment Anything模型(SegmentAngthing Model，SAM)。Segment Anything模型由图像分割的工具、数据集和模型构成，可用于需要在任何图像中查找和分割任何对象的应用。

102、对前景物体进行图像理解，并根据图像理解的结果将前景物体转换为第一3D点云；

终端使用深度学习模型来对前景物体进行图像理解，并使用图像理解的结果将前景物体转换为第一3D点云。图像理解是指使用人工智能对图像进行语义理解，分析图像中有什么目标、目标之间的相互关系等。3D点云是一个由三维点组成的集合，用于表示三维空间中的对象、场景或物体的几何形状和拓扑结构。每个点在点云中都有其三维坐标(X、Y、Z)，用来描述其在空间中的位置。将前景物体转换为第一3D点云可以非常准确地表达前景物体的外部形状，包括曲线、边缘、表面凹凸等细节。

在一些具体的实施例中，可以使用One-2-3-45方案来实现前景物体到第一3D点云的转换，即利用2D扩散模型生成前景物体的多视角图像，然后对多视角图像抽取2D图像特征，再重建前景物体的3D模型，从而得到前景物体的第一3D点云。

103、获取用户的编辑指令，并根据编辑指令对第一3D点云进行编辑操作；

终端获取用户输入的编辑指令，该编辑指令具体可以是通过界面按钮、滑块、文本框等形式输入，具体此处不作限定。终端根据获取到的编辑指令，对第一3D点云进行相应的编辑，更新第一3D点云的表示，具体涉及对第一3D点云的坐标、法向量等信息进行相应的调整。

在一些具体的实施例中，该编辑指令包括但不限于对第一3D点云(前景物体)进行缩放、旋转、移动、删除以及新增。具体的，如果用户想要调整某个前景物体的位置，终端则对相应的3D点云坐标进行平移操作，平移3D点云至指定位置；如果用户想要调整某个前景物体的大小，终端则对相应的3D点云坐标进行缩放操作，调整3D点云的尺寸；如果用户想要改变物体的方向，终端则对相应的3D点云坐标进行旋转操作，围绕指定轴旋转3D点云；此外，用户还可以对前景物体进行删除和新增，例如删除图2中的包和鞋子，终端则移除包包和鞋子对应的3D点云，使其不在场景中显示，还可以在指定位置添加新的3D点云，添加其它款式的包和鞋子。通过这一步骤，用户能够直接对直播背景进行编辑，调整前景物体的位置、大小和方向，还可以删除前景物体或新增其它前景物体，从而个性化定制直播场景。

对于需要新增的前景物体，终端具体可以采用运动恢复结构(Structure fromMotion，SfM)技术来实现其在三维空间的重建，从而得到其3D点云的表示。SfM技术主要是从多张不同视角的图像中恢复出场景的结构信息和拍摄相机的位姿，是计算机三维视觉的关键技术之一。借助SfM技术，用户无需使用昂贵的传感器，只通过易于获取的影像数据就可以恢复目标场景或者目标物体的数字化结构信息。SfM技术所恢复的物体结构信息也提供了一种低成本的三维模型生成方案，可以将大量现实物体“复制”到虚拟空间，从而丰富和扩展混合现实应用功能。通过这种方式，用户不仅可以将前景物体以3D点云的方式添加进背景素材中，还可以对新增的前景物体进行编辑，从而灵活地调整其位置、大小和形状。

104、根据前景物体所在的区域对背景图像进行补全，得到目标背景；

在本实施例中，终端在合成直播图像之前，还需要根据前景物体所在的区域对背景图像进行补全，从而得到一个完整的目标背景，以使得在后续合成直播图像时前景物体和背景之间的过渡是平滑且逼真的，避免突兀或不协调的情况出现。终端具体可以使用图像补全算法填充缺失的背景，图像补全算法可以是基于纹理合成、内容感知填充或深度学习的方法，根据周围背景的特征来合成缺失的区域，具体使用的方法此处不作限定。

105、获取实时人像，并根据实时人像、第一3D点云以及目标背景合成目标直播图像。

终端在编辑完背景素材中的前景物体，以及对背景图像进行补全后，还需要获取实时人像，该实时人像可以是主播、演员、讲师等的人像，具体此处不作限定。终端根据实时人像、第一3D点云以及目标背景合成得到目标直播图像，具体的，终端使用第一3D点云和相机参数(视角、焦距等)将3D点云投影到2D的目标背景上，为第一3D点云中的每个点生成其在背景图像上的位置，再将每个点的颜色信息与目标背景上的对应像素进行合成，从而得到目标直播图像。

目标直播图像中实现了将编辑过的前景物体、实时人像与补全后的目标背景融为一体，避免了虚拟元素与实时人像之间的不协调，终端再将目标直播图像实时传送给观众，为观众提供更加真实的观看体验。

在本实施例中，通过视觉类大模型对背景素材进行图像分割和图像理解，并基于图像理解结果将背景素材中的前景物体转换为第一3D点云，此后用户则可以通过编辑指令对第一3D点云进行编辑操作，实现对前景物体的个性化定制，使用户能够根据自己的需求调整和改变背景素材中的物体。在此基础上，为了保证背景替换效果，还需要对背景图像进行补全，避免了由于遮挡所导致的背景图像缺失以及背景图像与前景物体的突兀过渡，提高了图像的整体协调性。最后再根据实时人像、前景物体的第一3D点云以及目标背景合成目标直播图像，将三者更自然地融合在一起，避免了虚拟元素与实时人像之间的不协调，大大提高了背景替换的真实性，且有助于提升观众对直播内容的信任度。

下面对本申请中背景补全的过程进行详细描述，请参阅图2，图2为本申请提供的直播中背景替换方法的另一个实施例，该方法包括：

301、获取背景素材，并对背景素材进行图像分割得到背景素材中的前景物体和背景图像；

在本实施例中，步骤301与前述实施例步骤101类似，此处不再赘述。

302、对前景物体进行图像理解，得到前景物体的分割掩码和深度信息；

终端通过图像理解将图像中的每个像素分配到不同的类别或实例，从而生成分割掩码以及对应的物体类别信息，再估计每个像素到相机的深度值，得到前景物体的深度信息。在得到前景物体的分割掩码和深度信息之后，终端还可以对分割掩码和深度信息进行后处理，例如去除噪声、填充孔洞或进行其他图像处理操作，以提高结果的质量。

需要说明的是，终端可使用一个模型同时实现背景素材的图像分割和图像理解，这样的模型可以共享底层的特征提取器，使得模型更加紧密地集成两个任务之间的信息，提高模型的效率和泛化能力。即终端将背景素材输入至一个训练好的图像处理模型后，该模型可以直接输出背景图像、前景物体的分割掩码和前景物体的深度信息以及其它在后续合成过程中可能使用到的信息，以提高处理效率。

303、根据分割掩码和深度信息将前景物体转换为3D点云信息；

终端使用图像理解的结果，即前景物体的分割掩码和深度信息，将前景物体转换为第一3D点云。具体的，终端对于分割掩码中的每个前景像素，使用深度信息和像素坐标计算三维坐标(X，Y，Z)，如果有颜色信息，将颜色信息与相应的三维坐标关联起来，以为每个点云点添加颜色属性，重复上述过程直至覆盖整个前景物体区域。在将前景物体转换为3D点云信息时，还可以考虑该前景物体对应的物体类别信息，从而增强3D点云信息的语义和信息丰富度。

304、根据深度信息计算第一转换系数，并通过第一转换系数对前景物体的3D点云信息进行缩放，得到第一3D点云；

步骤303中转换得到的3D点云信息没有绝对尺寸，只有与该前景物体一致的相对尺寸，此时终端可以根据前景物体的深度信息计算一个转换系数e1，将该相对尺寸转换为更加真实的绝对尺寸。即终端根据前景物体的深度信息计算得到第一转换系数，再通过该第一转换系数对前景物体的3D点云信息进行缩放，得到真实的第一3D点云。

具体的，该第一转换系数的计算方式为：

A、根据深度信息确定前景物体中心位置的第一深度值；

终端通过图像理解得到的前景物体的深度信息，获取前景物体中心位置[X_center,Y_center]的第一深度值Z0，该前景物体中心位置具体通过可以是所有前景物体像素的平均值来确定，还可以是通过用户手动选定，具体此处不做限定。

需要说明的是，如果已知该前景物体中心位置相对于拍摄设备的实际深度值(在拍摄背景素材时提前标记)，则可以直接根据该实际深度值确定第一深度值。

B、根据3D点云信息确定前景物体中心位置的第二深度值；

终端通过前景物体的3D点云信息，再获取相同中心位置[X_center,Y_center]的点云深度，即第二深度值Z1。

C、根据第一深度值和第二深度值的比例确定第一转换系数。

终端通过Z0/Z1得到第一转换系数e1。

在计算得到第一转换系数e1之后，则通过第一转换系数e1对前景物体的3D点云信息进行缩放，假定前景物体点云任意一点的坐标是[Xi,Yi,Zi]，那么经转换系数后的3D坐标就是e1*[Xi,Yi,Zi]。

305、获取用户的编辑指令，并根据编辑指令对第一3D点云进行编辑操作；

在本实施例中，步骤305与前述实施例步骤103类似，此处不再赘述。

在本实施例中，对于背景图像的补全有两种不同的实现机制，下面分别进行说明：

机制一：基于图像分割后得到的背景图像，对所有前景物体所在的区域进行补全，得到目标背景。

在该机制一中，终端将直接基于图像分割后得到的背景图像，对所有前景物体所在的区域进行补全，即对所有缺失区域都进行补全，从而得到一个完整连续的目标背景。机制一需要对所有前景物体所在的区域进行全覆盖的补全，其操作步骤相较于机制二更加简单，但需要补全的范围较大，需要占用较多的计算资源。

机制二：根据对第一3D点云的编辑操作确定背景图像中的缺失区域，并对缺失区域进行补全，得到目标背景。

在该机制二中，需要先根据对第一3D点云的编辑操作来确定背景图像中的缺失区域，如果前景物体没有被修改，那么其对应的区域则不属于缺失区域，不需要进行补全，后续直接进行替换即可。机制二会保留未编辑过的部分，仅对编辑过的前景物体所对应的区域进行补全，从而实现有选择性地补全，避免对不需要修改的区域进行多余的补全。机制二可以更精准地控制背景图像的补全区域，并且节省计算资源。

在本实施例中，优选将背景图像转换为3D点云再进行补全，具体请参阅下述步骤306至步骤308。

306、将背景图像中的像素转换为第二3D点云；

终端对背景图像进行处理，将每个像素转换为相应的三维坐标，形成第二3D点云，如果背景图像中已经带有深度信息，则可以将深度值映射到三维坐标实现转换，如果背景图像中没有深度信息则可以使用神经网络模型实现转换，具体的转换方式此处不作限定。终端将背景图像转换为第二3D点云是由于3D点云信息能够更好地保留空间结构和一致性，且能够更准确地表示场景的几何形状，包括物体的形状、表面曲率等。这有助于在后续补全过程中更好地保持背景的几何细节，从而能够更好地处理背景中的遮挡，更准确地补全背景图像，使后续合成的直播图像更自然。

307、根据前景物体所在的区域对第二3D点云进行补全；

终端将背景图像中的像素转换为第二3D点云后，则根据前景物体所在的区域对第二3D点云进行补全，填充缺失或不完整的部分，使其更完整和真实。实现补全的方法有许多，例如可以使用空间插值方法、局部模型拟合方法或深度学习模型等技术进行补全。

在一些具体的实施例中，对第二3D点云补全的过程具体包括：

A、将第二3D点云划分为规则的三维网格单元，得到第二3D点云的三维网格；

终端将三维空间中的点云划分为规则的三维网格单元，对于每个网格单元，确定其在三维空间中的边界，包括确定每个单元的顶点坐标以及连接这些顶点的边和面，从而得到一个完整的三维网格来表示第二3D点云，该三维网格有助于规整无序的点云信息，在点云处理过程中引入结构化的表示，提高对点云数据的处理效率和精度。划分后的三维网格作为中间表示，将明确保留第二3D点云的结构和局部关系。

B、对三维网格进行反向网格化，将三维网格单元转换为粗点云，粗点云包含三维网格的结构和局部关系；

终端对该三维网格进行反向网格化，在反向网格化中，涉及到将三维网格单元映射回点云空间，确定新的点云的坐标，从而得到一个粗点云，这个粗点云仍然会保留原三维网格的结构和局部关系。

该反向网格化的具体实现过程如下：

b1、计算每个三维网格单元中八个顶点坐标的加权和，并将加权和作为新点的坐标；

对于每个三维网格单元，终端计算其八个顶点的坐标加权和。加权和的权重可以根据具体需求选择，具体可使用插值函数对八个顶点进行加权求和，该插值函数明确地测量了几何学上的点云的关系。

b2、将所有计算得到的新点的坐标组成粗点云。

终端使用上一步计算得到的加权和作为新点的坐标，这个新点将替代原三维网格单元的位置，形成粗点云的初始表示，对三维网格中的所有网格单元都执行上述计算步骤，最终得到一个初始的、由新点组成的粗点云。

C、对粗点云进行特征提取，并将粗点云以及特征输入深度学习模型对粗点云进行补全，得到补全后的第二3D点云。

针对粗点云中的每个点，通过串联其所在的三维网格单元的八个顶点的特征，提取每个新点的特征，特征可以包括点的坐标、法线、颜色等信息，具体根据应用需求选择。再将粗点云的坐标和提取的特征结合起来，形成粗点云的表示，这个表示可以作为深度学习模型的输入，以进行后续的点云补全。通过将粗点云和其特征输入到已训练的深度学习模型中，模型将生成或推断缺失的点云部分，从而得到补全后的第二3D点云。

308、将补全后的第二3D点云转换为目标背景；

经过补全的第二3D点云包含了被遮挡的背景信息，终端将补全后的第二3D点云转换回图像，即使用逆向的点云到图像的映射，将点云数据投影回图像平面，得到最终的背景图像，形成目标背景。

309、获取实时人像，并根据实时人像、第一3D点云以及目标背景合成目标直播图像。

在本实施例中，步骤309与前述实施例步骤105类似，此处不再赘述。

在本实施例中，通过视觉类大模型对背景素材进行图像分割和图像理解，并基于图像理解结果将背景素材中的前景物体转换为第一3D点云，此后用户则可以通过编辑指令对第一3D点云进行编辑操作，实现对前景物体的个性化定制，使用户能够根据自己的需求调整和改变背景素材中的物体。在此基础上，为了保证背景替换效果，还需要对背景图像进行补全，具体需要将背景图像转换为第二3D点云，再对第二3D点云进行补全以及二维映射，得到目标背景。将背景图像转换为第二3D点云再进行补全有助于在后续补全过程中更好地保持背景的几何细节，从而能够更好地处理背景中的遮挡，更准确地补全背景图像。最后再根据实时人像、前景物体的第一3D点云以及目标背景合成目标直播图像，将三者更自然地融合在一起，避免了虚拟元素与实时人像之间的不协调，大大提高了背景替换的真实性，且有助于提升观众对直播内容的信任度。

为了进一步提升背景替换的真实性，还可以将主播人像也转换为3D点云再进行合成，下面进行详细描述。请参阅图4，图4为本申请提供的直播中背景替换方法的另一个实施例，该方法包括：

401、获取背景素材，并对背景素材进行图像分割得到背景素材中的前景物体和背景图像；

402、对前景物体进行图像理解，得到前景物体的分割掩码和深度信息；

403、根据分割掩码和深度信息将前景物体转换为3D点云信息；

404、根据深度信息计算第一转换系数，并通过第一转换系数对前景物体的3D点云信息进行缩放，得到第一3D点云；

405、获取用户的编辑指令，并根据编辑指令对第一3D点云进行编辑操作；

406、将背景图像中的像素转换为第二3D点云；

407、根据前景物体所在的区域对第二3D点云进行补全；

408、将补全后的第二3D点云转换为目标背景；

在本实施例中，步骤301-308与前述实施例步骤201-208类似，此处不再赘述。

409、获取实时人像，并获取实时人像的第三3D点云；

终端在编辑完前景物体以及补全背景图像后，还需要获取实时人像，该实时人像可以是主播、演员、讲师等的人像。在本实施例中，终端具体需要获取该实时人像的第三3D点云，以捕捉实时人体的位置和动作。需要说明的是，在获取实时人像的第三3D点云时，可以是直接使用具有三维成像能力设备进行拍摄得到第三3D点云，也可以是先通过普通相机拍摄2D的实时人像，再通过One-2-3-45方案来将2D的实时人像转换为第三3D点云。

在一些具体的实施例中，终端可通过One-2-3-45方案来得到实时人像的3D点云信息，每个点都具有三维坐标信息，这些点能够表示实时人像的表面。终端先通过普通相机拍摄2D的实时人像，再通过One-2-3-45方案来将2D的实时人像转换为第二3D点云。在获取实时人像时，先通过拍摄设备连续存图，在预设时间段内连续拍摄N张主播图像，再取中间时刻的一张主播图像进行抠图得到实时人像，这样做的目的是避免存图开始时刻人物存在轻微晃动，保证抠图的准确性。

进一步的，此时转换得到的实时人像的3D点云信息也没有绝对尺寸，只有相对尺寸，因此终端还需要根据主播的深度信息计算另一个转换系数e2，将该相对尺寸转换为更加真实的绝对尺寸。具体的，先确定主播身上某个位置到拍摄设备的目标距离Z2，为了保证效果，该目标距离Z2绝对偏差尽量控制在1％以内。再基于该目标距离以及3D点云信息中对应位置的点云深度值Z3计算第三转换系数e2，e2＝Z2/Z3。在计算得到第三转换系数e2之后，则通过第三转换系数e1对实时人像的3D点云信息进行缩放，假定实时人像点云任意一点的坐标是[Xq,Yq,Zq]，那么经转换系数后的3D坐标就是e2*[Xq,Yq,Zq]。

410、根据第三3D点云、第一3D点云以及目标背景合成目标直播图像。

在本实施例中，终端根据实时人像的第三3D点云、前景物体的第一3D点云和目标背景合成得到目标直播图像，具体的，终端使用第三3D点云、第一3D点云和相机参数(视角、焦距等)将3D点投影到2D图像空间，为3D点云中的每个点生成其在目标背景上的位置，再将每个点的颜色信息与目标背景上的对应像素进行合成，从而得到目标直播图像。目标直播图像中实现了将前景物体、实时人像与补全后的目标背景融为一体，将目标直播图像实时传送给观众，为观众提供更加真实的观看体验。

在本实施例中，终端不仅需要将前景物体转换为第一3D点云，将背景图像转换为第二3D点云再进行合成，还需要将实时拍摄的实时人像转换为第三3D点云，再将前景物体的第一3D点云和实时人像的第三3D点云以及补全后的目标背景进行合成，得到目标直播图像。由于3D点云中包含物体的深度信息，使得前景物体以及实时人像与其周围环境的相对位置和距离更加真实，在个性化定制直播背景的条件下仍然能够实现高质量的合成效果，使合成的直播图像更加真实。

请参阅图5，图5为本申请提供的直播中背景替换系统一个实施例，该系统包括：

获取单元501，用于获取背景素材，并对背景素材进行图像分割得到背景素材中的前景物体和背景图像；

转换单元502，用于对前景物体进行图像理解，并根据图像理解的结果将前景物体转换为第一3D点云；

编辑单元503，用于获取用户的编辑指令，并根据编辑指令对第一3D点云进行编辑操作；

补全单元504，用于根据前景物体所在的区域对背景图像进行补全，得到目标背景；

合成单元505，用于获取实时人像，并根据实时人像、第一3D点云以及目标背景合成目标直播图像。

在本实施例中，通过获取单元501对背景素材进行图像分割和图像理解，并通过转换单元502基于图像理解结果将背景素材中的前景物体转换为第一3D点云，此后编辑单元503则可以通过编辑指令对第一3D点云进行编辑操作，实现对前景物体的个性化定制，使用户能够根据自己的需求调整和改变背景素材中的物体。在此基础上，为了保证背景替换效果，补全单元504还需要对背景图像进行补全，避免了由于遮挡所导致的背景图像缺失以及背景图像与前景物体的突兀过渡，提高了图像的整体协调性。最后合成单元505再根据实时人像、前景物体的第一3D点云以及目标背景合成目标直播图像，将三者更自然地融合在一起，避免了虚拟元素与实时人像之间的不协调，大大提高了背景替换的真实性，且有助于提升观众对直播内容的信任度。

下面对本申请提供的直播中背景替换系统进行详细说明，请参阅图6，图6为本申请提供的直播中背景替换系统另一个实施例，该系统包括：

获取单元601，用于获取背景素材，并对背景素材进行图像分割得到背景素材中的前景物体和背景图像；

转换单元602，用于对前景物体进行图像理解，并根据图像理解的结果将前景物体转换为第一3D点云；

编辑单元603，用于获取用户的编辑指令，并根据编辑指令对第一3D点云进行编辑操作；

补全单元604，用于根据前景物体所在的区域对背景图像进行补全，得到目标背景；

合成单元605，用于获取实时人像，并根据实时人像、第一3D点云以及目标背景合成目标直播图像。

可选的，转换单元602具体用于：

对前景物体进行图像理解，得到前景物体的分割掩码和深度信息；

根据分割掩码和深度信息将前景物体转换为3D点云信息；

根据深度信息计算第一转换系数，并通过第一转换系数对前景物体的3D点云信息进行缩放，得到第一3D点云。

可选的，补全单元604具体用于：

或，

根据对第一3D点云的编辑操作确定背景图像中的缺失区域，并对缺失区域进行补全，得到目标背景。

可选的，补全单元604具体包括：

第一转换模块6041，用于将背景图像中的像素转换为第二3D点云；

补全模块6042，用于根据前景物体所在的区域对第二3D点云进行补全；

第二转换模块6043，用于将补全后的第二3D点云转换为目标背景。

可选的，补全模块6042具体用于：

对三维网格进行反向网格化，将三维网格单元转换为粗点云，粗点云包含三维网格的结构和局部关系；

对粗点云进行特征提取，并将粗点云以及特征输入深度学习模型对粗点云进行补全，得到补全后的第二3D点云。

可选的，补全模块6042具体还用于：

计算每个三维网格单元中八个顶点坐标的加权和，并将加权和作为新点的坐标；

将所有计算得到的新点的坐标组成粗点云。

可选的，合成单元605具体用于：

获取实时人像，并获取实时人像的第三3D点云；

根据第三3D点云、第一3D点云以及目标背景合成目标直播图像。

可选的，编辑指令包括：缩放、旋转、移动、删除以及新增。

本实施例系统中，各单元的功能与前述图3或图4所示方法实施例中的步骤对应，此处不再赘述。

本申请还提供了一种直播中背景替换装置，请参阅图7，图7为本申请提供的直播中背景替换装置一个实施例，该装置包括：

处理器701、存储器702、输入输出单元703、总线704；

处理器701与存储器702、输入输出单元703以及总线704相连；

存储器702保存有程序，处理器701调用程序以执行如上任一直播中背景替换方法。

本申请还涉及一种计算机可读存储介质，计算机可读存储介质上保存有程序，其特征在于，当程序在计算机上运行时，使得计算机执行如上任一直播中背景替换方法。

本申请还涉及一种直播设备，该直播设备包括一体设置或分体设置的摄像头和主机，该主机在运行时执行如上任一直播中背景替换方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种直播中背景替换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述前景物体进行图像理解，并根据图像理解的结果将所述前景物体转换为第一3D点云，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述前景物体所在的区域对所述背景图像进行补全，得到目标背景包括：

或，

4.根据权利要求1所述的方法，其特征在于，所述根据所述前景物体所在的区域对所述背景图像进行补全，得到目标背景，包括：

将所述背景图像中的像素转换为第二3D点云；

根据所述前景物体所在的区域对所述第二3D点云进行补全；

将补全后的第二3D点云转换为目标背景。

5.根据权利要求4所述的方法，其特征在于，所述根据所述前景物体所在的区域对所述第二3D点云进行补全，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述三维网格进行反向网格化，将所述三维网格单元转换为粗点云，包括：

将所有计算得到的新点的坐标组成粗点云。

7.根据权利要求1所述的方法，其特征在于，所述获取实时人像，并根据所述实时人像、所述第一3D点云以及所述目标背景合成目标直播图像，包括：

获取实时人像，并获取所述实时人像的第三3D点云；

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述编辑指令包括：缩放、旋转、移动、删除以及新增。

9.一种直播中背景替换系统，其特征在于，所述系统包括：

10.一种直播中背景替换装置，其特征在于，所述装置包括：

处理器、存储器、输入输出单元以及总线；

所述存储器保存有程序，所述处理器调用所述程序以执行如权利要求1至8中任一项所述方法。