CN116563303A

CN116563303A - 一种场景可泛化的交互式辐射场分割方法

Info

Publication number: CN116563303A
Application number: CN202310842854.3A
Authority: CN
Inventors: 裴文杰; 唐嵩林; 贾棠惠; 陈芳林; 卢光明
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-08-08
Anticipated expiration: 2043-07-11
Also published as: CN116563303B

Abstract

本发明提供一种场景可泛化的交互式辐射场分割方法，涉及图像处理技术领域，方法包括：获取2D图像中的点击点，根据点击点生成2D交互引导图；对2D交互引导图进行扩散处理，得到3D交互引导图，3D交互引导图中的各个网格点对应的值分别反映3D辐射场的各个网格点与点击点之间的相似性；将3D交互引导图和3D辐射场对应的3D不透明度体素模型连接后输入至3D分割神经网络模型，获取前景概率预测体素模型，前景概率预测体素模型中的各个网格点对应一个前景概率预测值，前景概率预测值反映网格点为前景部分的概率；基于前景概率预测体素模型输出3D场景中的前景部分以实现辐射场分割。本发明可以实现场景可泛化的辐射场分割。

Description

一种场景可泛化的交互式辐射场分割方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种场景可泛化的交互式辐射场分割方法。

背景技术

神经辐射场是一种3D场景表征方式，其具有良好的3D场景表征能力以及高质量的2D图像渲染效果，在近几年得到很大发展。交互式辐射场分割通过用户在2D图像上的交互标注例如点击或者划线，实现3D辐射场分割。辐射场分割对3D场景编辑、多视角一致的2D图像编辑等下游应用具有重要意义。

现有的辐射场分割方法为NVOS算法，在NVOS算法中，首先把用户的划线标注投影到3D体素，随后利用划线标注学习一个场景特定的体素二分类器，使用该二分类器对体素化的辐射场的每一个体素进行前景-背景二分类，得到粗糙的分割结果，最后使用3D图割算法对分割结果进行后处理。这种方法学习二分类器需要大范围的用户划线标注作为监督，并且学习到的场景特定的二分类器不能泛化到新的场景。

发明内容

本发明提供一种场景可泛化的交互式辐射场分割方法，用以解决现有技术中辐射场分割局限于单个场景，不能泛化到新场景的缺陷，实现场景可泛化的交互式辐射场分割。

本发明提供一种场景可泛化的交互式辐射场分割方法，包括：

获取2D图像中的点击点，所述点击点是用户对所述2D图像中的像素点进行选择得到的点，根据所述点击点生成2D交互引导图，所述2D交互引导图中的各个点对应的值分别反映所述2D图像中的各个点与所述点击点的相似程度，所述2D图像为3D辐射场对应的3D场景中一个视角下的平面图像；

对所述2D交互引导图进行扩散处理，得到3D交互引导图，所述3D交互引导图中的各个网格点对应的值分别反映所述3D辐射场的各个网格点与所述点击点之间的相似性；

将所述3D交互引导图和所述3D辐射场对应的3D不透明度体素模型连接后输入至3D分割神经网络模型，获取所述3D分割神经网络模型输出的前景概率预测体素模型，所述前景概率预测体素模型中的各个网格点对应一个前景概率预测值，所述前景概率预测值反映网格点为前景部分的概率，所述3D不透明度体素模型中的每个网格点对应一个不透明度，所述不透明度是对通过所述3D辐射场映射得到的体密度进行归一化处理得到的；

基于所述前景概率预测体素模型输出所述3D场景中的前景部分以实现辐射场分割。

本发明提供的场景可泛化的交互式辐射场分割方法，所述对所述2D交互引导图进行扩散处理，得到3D交互引导图，包括：

将所述2D交互引导图中的每个点依次作为目标点，基于所述目标点，确定所述2D交互引导图对应的3D中间引导图中的至少一个网格点对应的值以生成所述3D交互引导图；

当所述点击点有多个时，对各个所述点击点对应的3D中间引导图进行融合，得到3D融合引导图，对所述3D融合引导图进行滤波和卷积处理，得到所述3D交互引导图；

其中，所述基于所述目标点，确定所述2D交互引导图对应的3D中间引导图中的至少一个网格点对应的值，包括：

确定目标直线，所述目标直线经过所述目标点，所述目标直线的方向为所述2D图像在所述3D场景中所在的成像平面的相机光线方向；

在所述目标直线穿过所述3D场景的部分采样若干个采样点，获取各个所述采样点对应的权重，所述权重基于所述采样点通过所述3D辐射场映射的体密度得到；

将权重最大的所述采样点作为目标采样点，将所述目标采样点在所述2D交互引导图对应的3D中间引导图中的N个近邻网格点的值设置为所述2D交互引导图中所述目标点对应的值。

本发明提供的场景可泛化的交互式辐射场分割方法，所述基于所述目标点，确定所述2D交互引导图对应的3D中间引导图中的至少一个网格点对应的值以生成所述3D交互引导图，包括：

当所述2D交互引导图中的每个点均作为所述目标点之后：

若所述3D中间引导图中存在没有被设置对应的值的网格点，则将没有被设置对应的值的网格点对应的值设置为0；

若所述3D中间引导图中存在被设置了多个对应的值的网格点，则将被设置了多个对应的值的网格点对应的值更新为所述多个对应的值中的最大值。

本发明提供的场景可泛化的交互式辐射场分割方法，所述对所述3D融合引导图进行滤波和卷积处理，得到所述3D交互引导图，包括：

对所述3D融合引导图进行不透明度域和空间域的双边滤波，得到滤波引导图；

对所述滤波引导图进行部分卷积，得到所述3D交互引导图；

所述部分卷积的公式为：；

其中，为所述3D交互引导图，/>表示双边滤波操作，/>是滤波核中心的位置，为所述3D融合引导图，/>表示所述滤波引导图，/>为3D掩膜，/>用于指示所述3D融合引导图中存在所述2D交互引导图中对应的所述目标点的网格点，/>为常数。

本发明提供的场景可泛化的交互式辐射场分割方法，所述3D分割神经网络模型包括低分分割网络和高分分割网络，所述将所述3D交互引导图和所述3D辐射场对应的3D不透明度体素模型连接后输入至3D分割神经网络模型，获取所述3D分割神经网络模型输出的前景概率预测体素模型，包括：

将所述3D交互引导图和所述3D辐射场对应的3D不透明度体素模型连接后输入至所述低分分割网络，获取所述低分分割网络输出的前景概率预测低分模型，所述前景概率预测低分模型的分辨率低于预设阈值；

通过所述高分分割网络对所述前景概率预测低分模型中对应的目标网格点进行多层划分，得到所述前景概率预测体素模型，其中，所述目标网格点对应的前景概率预测值与0.5之间的差值在预设范围内；

本发明提供的场景可泛化的交互式辐射场分割方法，所述通过所述高分分割网络对所述前景概率预测低分模型中对应的目标网格点进行多层划分，包括：

获取所述目标网格点对应的体密度特征、前景概率特征和位置特征，所述目标网格点对应的体密度特征是对基于所述目标网格点在所述3D辐射场映射得到的对应分辨率的体密度值进行采样得到的，所述前景概率特征经激活函数激活后得到前景概率预测值，所述位置特征反映所述目标网格点在所述3D辐射场中的位置；

将所述目标网格点对应的所述体密度特征、所述前景概率特征和所述位置特征输入至所述高分分割网络中，获取所述高分分割网络输出的M个中间网格点的前景概率特征并采用激活函数激活后得到所述M个中间网格点对应的前景概率预测值，前景概率预测值，所述M个中间网格点是对所述目标网格点进行划分后得到的网格点；

在所述中间网格点中确定新的所述目标网格点，重新执行获取所述目标网格点对应的体密度特征、前景概率特征和位置特征的步骤，直至不存在新的所述目标网格点，或者被划分后的网格点的尺寸达到预设尺寸。

本发明提供的场景可泛化的交互式辐射场分割方法，所述3D分割神经网络模型基于多组训练数据进行有监督训练得到，每组所述训练数据包括：样本数据集合以及所述样本数据集合对应的2D前景标签图，所述样本数据集合包括样本3D辐射场、样本点击点、样本2D图像；所述3D分割神经网络模型的训练过程包括：

基于样本3D交互引导图和样本3D不透明度体素模型生成样本前景概率预测体素模型，基于所述样本前景概率预测体素模型中的各个网格点对应的前景概率特征对所述前景概率预测体素模型在全景辐射场中进行体渲染，得到第一2D前景概率特征图，其中，所述前景概率特征被激活函数激活后得到所述前景概率预测值，所述样本3D交互引导图是基于所述样本点击点和所述样本2D图像得到的，所述样本3D不透明度体素模型是基于所述样本3D辐射场得到的；

对所述样本前景概率预测体素模型进行分割，得到样本前景模型，基于所述样本前景模型中的各个网格点对应的所述前景概率特征对所述样本前景模型在前景辐射场中进行体渲染，得到第二2D前景概率特征图；

对所述第一2D前景概率特征图使用激活函数激活后得到第一2D前景概率预测图；

对所述第二2D前景概率特征图使用激活函数激活后得到第二2D前景概率预测图；

基于所述第一2D前景概率预测图和所述2D前景标签图生成第一训练损失；

基于所述第二2D前景概率预测图和所述2D前景标签图生成第二训练损失；

基于所述样本前景模型和所述3D辐射场得到样本前景体密度模型，所述样本前景体密度模型中的每个网格点对应的值为该网格点通过所述3D辐射场映射得到的体密度值，对所述样本前景体密度模型进行体渲染，得到2D不透明度图；

基于所述2D不透明度图和所述2D前景标签图生成第三训练损失；

基于所述第一训练损失、所述第二训练损失和所述第三训练损失得到目标训练损失；

基于所述目标训练损失更新所述3D分割神经网络模型的参数。

本发明还提供一种场景可泛化的交互式辐射场分割装置，包括：

2D交互引导图生成模块，用于获取2D图像中的点击点，所述点击点是用户对所述2D图像中的像素点进行选择得到的点，根据所述点击点生成2D交互引导图，所述2D交互引导图中的各个点对应的值分别反映所述2D图像中的各个点与所述点击点的相似程度，所述2D图像为3D辐射场对应的3D场景中一个视角下的平面图像；

3D交互引导图生成模块，用于对所述2D交互引导图进行扩散处理，得到3D交互引导图，所述3D交互引导图中的各个网格点对应的值分别反映所述3D辐射场的各个网格点与所述点击点之间的相似性；

前景预测模块，用于将所述3D交互引导图和所述3D辐射场对应的3D不透明度体素模型连接后输入至3D分割神经网络模型，获取所述3D分割神经网络模型输出的前景概率预测体素模型，所述前景概率预测体素模型中的各个网格点对应一个前景概率预测值，所述前景概率预测值反映网格点为前景部分的概率，所述3D不透明度体素模型中的每个网格点对应一个不透明度，所述不透明度是对通过所述3D辐射场映射得到的体密度进行归一化处理得到的；

分割模块，用于基于所述前景概率预测体素模型输出所述3D场景中的前景部分以实现辐射场分割。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述场景可泛化的交互式辐射场分割方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述场景可泛化的交互式辐射场分割方法。

本发明提供的场景可泛化的交互式辐射场分割方法，首先利用语义相似性在2D特征空间对稀疏的交互引导图进行扩散，并投影到3D空间，得到3D交互引导图，高效地实现了把稀疏的离散2D交互点扩散到3D空间的连续区域，随后将3D交互引导图和3D辐射场对应的不透明度体素模型输入至3D分割神经网络模型，利用3D分割神经网络模型输出包括各个网格点是否为前景部分的概率的前景概率预测体素模型，基于该前景概率预测体素模型进行前景部分的输出，实现辐射场分割，本发明提供的方法中，不需要对于每个场景训练一个二分类器，可以适用于多种3D场景，实现场景泛化的辐射场分割。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的场景可泛化的交互式辐射场分割方法的流程示意图；

图2是本发明提供的场景可泛化的交互式辐射场分割方法与现有的NVOS分割方法的比较示意图；

图3是本发明提供的场景可泛化的交互式辐射场分割方法的总体框架图；

图4是本发明提供的场景可泛化的交互式辐射场分割方法中生成3D互动引导图的过程示意图；

图5是本发明提供的场景可泛化的交互式辐射场分割方法中生成前景概率预测体素模型的过程示意图；

图6是本发明提供的场景可泛化的交互式辐射场分割方法的效果验证结果图一；

图7是本发明提供的场景可泛化的交互式辐射场分割方法的效果验证结果图二；

图8是本发明提供的场景可泛化的交互式辐射场分割方法的效果验证结果图三；

图9是本发明提供的场景可泛化的交互式辐射场分割方法的效果验证结果图四；

图10是本发明提供的场景可泛化的交互式辐射场分割装置的结构示意图；

图11是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图9描述本发明提供的场景可泛化的交互式辐射场分割方法。

如图1所示，本发明提供的场景可泛化的交互式辐射场分割方法，包括步骤：

S110、获取2D图像中的点击点，点击点是用户对2D图像中的像素点进行选择得到的点，根据点击点生成2D交互引导图，2D交互引导图中的各个点对应的值分别反映2D图像中的各个点与点击点的相似程度，2D图像为3D辐射场对应的3D场景中一个视角下的平面图像；

S120、对2D交互引导图进行扩散处理，得到3D交互引导图，3D交互引导图中的各个网格点对应的值分别反映3D辐射场的各个网格点与点击点之间的相似性；

S130、将3D交互引导图和3D辐射场对应的3D不透明度体素模型连接后输入至3D分割神经网络模型，获取3D分割神经网络模型输出的前景概率预测体素模型，前景概率预测体素模型中的各个网格点对应一个前景概率预测值，前景概率预测值反映网格点为前景部分的概率，3D不透明度体素模型中的每个网格点对应一个不透明度，不透明度是对通过3D辐射场映射得到的体密度进行归一化处理得到的；

S140、基于前景概率预测体素模型输出3D场景中的前景部分以实现辐射场分割。

如图2所示，图2左侧体现的是本发明提供的方法，右侧是现有的辐射场分割方法NVOS，NVOS首先把用户的划线标注投影到3D体素，随后利用划线标注学习一个场景特定的体素二分类器，使用该二分类器对体素化的辐射场的每一个体素进行前景-背景二分类，得到粗糙的分割结果，最后使用3D图割算法对分割结果进行后处理。这种方法学习二分类器需要大范围的用户划线标注作为监督，并且学习到的场景特定的二分类器不能泛化到新的场景。并且在后处理步骤中使用的3D图割算法运行速度缓慢，无法实现在线交互分割。

针对现有技术中无法实现场景泛化的辐射场分割的缺陷，本发明提供的方法，通过上述步骤，采用3D分割神经网络模型实现辐射场分割，过程中不需要对于每个场景训练一个二分类器，预训练好的神经网络模型无需重新训练就可以泛化到新场景中，实现场景泛化的辐射场分割。

神经辐射场将三维场景表征为连续的函数，输入3D空间中任意位置的坐标，输出对应位置的辐射颜色和体密度，通过传统的体渲染可以得到2D图像，辐射场函数可以被建模成不同的表达形式，例如神经网络、点云、体密度网格和三角网格。为了获得辐射场的统一表达形式来实现本发明提供的方法，从3D空间中均匀地采样离散的位置，然后从辐射场函数中获得它们的体密度从而获得3D场景的体密度网格表示，并进一步归一化，得到3D辐射场对应的3D不透明度体素模型，该3D不透明度体素中包括多个网格点，每个网格点对应一个不透明度。值得说明的是，为了便于说明，在下文中，在没有特别说明时，3D辐射场指的是3D辐射场对应的网格模型表达形式。

如图3所示，本发明提供的方法中，包括几个主要步骤：2D交互引导图的生成、3D交互引导图的生成以及前景概率预测体素模型的生成。下面对本发明提供的方法的各个步骤进行详细说明。

首先，本发明提供的方法通过跨维度引导扩散把2D空间的稀疏的用户点击点编码成3D空间的信息丰富的交互引导图。这个过程主要包括2D交互引导图和3D交互引导图生成。

具体来说，根据点击点生成2D交互引导图，包括：

将2D图像输入至特征提取模型中，获取特征提取模型输出的2D图像中的各个点对应的特征向量；

基于点击点的特征向量和2D图像中其他点的特征向量之间的余弦相似性分数生成2D交互引导图中，2D交互引导图中的第一点对应的值为点击点的特征向量和2D图像中的第二点的特征向量之间的第一相似性分数，其中，第一点在2D交互引导图中的坐标与第二点在2D图像中的坐标相同。

也就是说，对于每个用户点击，本发明提供的方法，根据2D图像像素间的语义相似性把交互信息从源点扩散到整个2D图像以获得2D交互引导图。

随后，进一步通过体渲染的逆过程把每个用户点击对应的2D交互引导图提升到3D空间，使得能够把用户点击编码成3D交互引导图。具体来说，对2D交互引导图进行扩散处理，得到3D交互引导图，包括：

将2D交互引导图中的每个点依次作为目标点，基于目标点，确定2D交互引导图对应的3D中间引导图中的至少一个网格点对应的值以生成3D交互引导图；

当点击点有多个时，对各个点击点对应的3D中间引导图进行融合，得到3D融合引导图，对3D融合引导图进行滤波和卷积处理，得到3D交互引导图；

其中，基于目标点，确定2D交互引导图对应的3D中间引导图中的至少一个网格点对应的值，包括：

确定目标直线，目标直线经过目标点，目标直线的方向为2D图像在3D场景中所在的成像平面的相机光线方向；

在目标直线穿过3D场景的部分采样若干个采样点，获取各个采样点对应的权重，权重基于采样点通过3D辐射场映射的体密度得到；

将权重最大的采样点作为目标采样点，将目标采样点在2D交互引导图对应的3D中间引导图中的N个近邻网格点的值设置为2D交互引导图中目标点对应的值。

如图4所示，对于2D交互引导图上的每个像素点，从它发出一条相机光线投射到3D辐射场，相机光线指的是指依据该光线的方向对3D场景进行平面成像能够得到上述的2D图像。在相机光线上采样若干个点。体渲染的正向过程是对相机光线上若干个采样点的颜色进行加权求和，因为权重最大的点在体渲染的过程中对像素的影响最大，因此在本发明中，近似地认为权重最大的点就是2D像素在3D空间中的对应点（即上述的目标采样点），找到3D对应点在体素网格中的N个近邻点，然后把2D交互引导图中对应的像素的值赋值给这N个网格点。在可能的实现方式中，N可以取8，当然，结合使用者的实际需求进行实验，也可以对N设置其他的值。

采样点对应的权重基于采样点对应的体密度得到，具体地，输入采样点对应的坐标，通过辐射场可以输出采样点对应的体密度，将体密度最大的采样点作为权重最大的采样点。

当2D交互引导图中的每个点均作为目标点之后：

若3D中间引导图中存在没有被设置对应的值的网格点，则将没有被设置对应的值的网格点对应的值设置为0；

若3D中间引导图中存在被设置了多个对应的值的网格点，则将被设置了多个对应的值的网格点对应的值更新为多个对应的值中的最大值。

在将2D交互引导图扩散至三维空间的过程中，可能存在3D交互引导图中的每个网格点均不能被覆盖的情况，也可能存在3D交互引导图中的有些网格点被多个2D交互引导图中的点扩散到。将3D中间引导图中没有被设置对应的值的网格点对应的值设置为0，将3D中间引导图中被设置了多个对应的值的网格点对应的值更新为最大值。

通过以上基于体渲染逆过程的2D-3D投影方法，将2D交互引导图提升到了3D空间，因此得到了粗糙的三维交互引导图（即上述的3D中间引导图）。还需要对3D中间引导图进行进一步处理，以得到用于辐射场分割的3D交互引导图。

从前面的说明不难看出，一个点击点可以对应生成一个3D中间引导图，当点击点有多个时，对各个点击点对应的3D中间引导图进行融合。具体来说，对各个点击点对应的3D中间引导图进行融合，得到3D融合引导图，包括：

3D融合引导图中的第一网格点对应的值为各个第二网格点对应的值中的最大值，第一网格点在3D融合引导图中的坐标与第二网格点在各个3D中间引导图中的坐标相同。

得到3D融合引导图后，对其进行滤波和部分卷积处理。具体来说，对3D融合引导图进行滤波和卷积处理，得到3D交互引导图，包括：

对3D融合引导图进行不透明度域和空间域的双边滤波，得到滤波引导图；

对滤波引导图进行部分卷积，得到3D交互引导图；

部分卷积的公式为：；

其中，为3D交互引导图，/>表示双边滤波操作，/>是滤波核中心的位置，/>为3D融合引导图，/>表示滤波引导图，/>为3D掩膜，/>用于指示3D融合引导图中在2D交互引导图中存在对应的目标点的网格点，/>为常数，/>是一个小的常数，用于保持除法的数值稳定性，防止分母为0。

如图4所示，本发明提供的方法中，使用不透明度域和空间域的3D双边滤波来对3D融合引导图进行局部扩散，从辐射场中采样的不透明度网格是由体密度归一化得到的，因此它实际上表征了场景的几何信息，所以本发明中采用3D双边滤波同时考虑了场景的几何连续性和空间连续性。

进一步地，由于2D像素平面投影到3D体素空间的投影面只占据3D体素网格的小部分区域，剩余的部分区域是没有对应的2D交互引导图的投影信息的，因此使用双边滤波对3D融合引导图进行扩散时不应该把这些未投影的区域计算在内，最直接的解决方法是把这些未投影区域对应的值初始化为0，然后再对整个体素网格模型使用双边滤波。然而这种简单解决方案会导致引导信息在扩散过程中被过度稀释或者变得过度平滑，特别是对于那些周围有许多未投影点的网格点，为了解决这个问题，本发明在双边滤波之后使用部分卷积来使之归一化，以防止生成的3D交互引导图过度平滑。

下面介绍前景概率预测体素模型的生成过程。

3D分割神经网络模型包括低分分割网络和高分分割网络，将3D交互引导图和3D辐射场对应的3D不透明度体素模型连接后输入至3D分割神经网络模型，获取3D分割神经网络模型输出的前景概率预测体素模型，包括：

将3D交互引导图和3D辐射场对应的3D不透明度体素模型连接后输入至低分分割网络，获取低分分割网络输出的前景概率预测低分模型，前景概率预测低分模型的分辨率低于预设阈值，前景概率预测低分模型中每个网格点对应一个前景概率预测值，反映该网格点为前景的概率；

通过高分分割网络对前景概率预测低分模型中对应的目标网格点进行多层划分，得到前景概率预测体素模型，其中，目标网格点对应的前景概率预测值与0.5之间的差值在预设范围内；

通过高分分割网络对前景概率预测低分模型中对应的目标网格点进行多层划分，包括：

获取目标网格点对应的体密度特征、前景概率特征和位置特征，目标网格点对应的体密度特征是对基于目标网格点在3D辐射场映射得到的对应分辨率的体密度值进行采样得到的，前景概率特征经激活函数激活后得到前景概率预测值，位置特征反映目标网格点在3D辐射场中的位置；

将目标网格点对应的体密度特征、前景概率特征和位置特征输入至高分分割网络中，获取所述高分分割网络输出的M个中间网格点的前景概率特征并采用激活函数激活后得到所述M个中间网格点对应的前景概率预测值，M个中间网格点是对目标网格点进行划分后得到的网格点；

在中间网格点中确定新的目标网格点，重新执行获取目标网格点对应的体密度特征、前景概率特征和位置特征的步骤，直至不存在新的目标网格点，或者被划分后的网格点的尺寸达到预设尺寸。

本发明提供的方法中，采用已有的经过充分研究的分割网络架构作为3D分割神经网络模型中的低分分割网络，例如可以采用3D-Unet网络作为低分分割网络。将表征3D场景的不透明度网格和3D交互引导图在通道维度拼接之后输入至低分分割网络，低分分割网络对每个体素网格点进行前景-背景二分类得到前景概率预测低分模型。虽然说，使用更高分辨率的体素网格能够产生更加精准的分割结果，但是3D卷积的计算和内存靠小也会变大。为了实现精准并且高效的3D分割，本发明采用渐进式分割方式。如图5所示，首先从低分分割模型得到低分辨率的粗粒度3D前景概率预测低分模型，然后只在小部分区域上对不确定度大的网格点进行精细化分割。本发明中，体素模型的分辨率值指的是模型中的网格点数量，具有16*16个网格点的体素模型的分辨率大于具有3*4个网格点的体素模型的分辨率。

具体来说，将低分分割网络预测的前景概率接近0.5的网格点作为不确定区域（即上述的目标网格点），这些不确定区域通常分布在分割对象的边缘处，本发明中的逐层渐进式分割方式仅对这些不确定区域在更高的分辨率上进行精细化分割，而对于高前景预测概率的确定区域，直接将低分分割网络输出的这些网格点的前景概率预测值插值到更高的分辨率。

如图5所示，本发明提供的方法中，使用M叉树（例如八叉树等）约束来建立不同分辨率体素网格的不确定区域的位置对应关系，在高分辨率的体素网格点分割中，联合使用从高分辨率的辐射场采样得到的细粒度体密度特征和从低分分割网络输出的未激活的前景概率特征。具体来说，根据目标网格点对应的分辨率和3D辐射场，生成一个和目标网格点对应的分辨率相同的体密度模型，也就是说，该体密度模型中的分辨率与将目标网格点作为最小网格时的分辨率一致，在该体密度模型中目标网格点对应的区域进行采样，目标网格点对应的体密度特征。

为了利用多尺度的辐射场体密度特征进行分割，融合不同尺度分辨率的体素网格点，使用Transformer作为高分分割网络对多尺度体素网格点进行同时建模，使得能够以极小的计算开销快速获得高分辨率的分割结果。利用M叉树的位置约束，高效地对不确定区域，即目标网格点对应的前景概率特征进行逐层修正。从粗粒度的分辨率层级开始，使用Transformer的预测值来修正不确定区域的前景概率特征。为了提高计算效率和存储效率，在高分辨率层级上只采样了有限的不确定区域网格点，为了扩大高分辨率层级的修正区域的范围，首先将粗层级的修正值传播到M叉树对应的高分辨率网格点（即上述的被划分后的网格点），然后再适用Transformer的预测值来修正高分辨率层级不确定区域的前景概率特征。

下面对本发明中的3D分割神经网络模型的训练过程进行说明。值得说明的是，本发明中的3D分割神经网络模型可以是单独被训练，也可以是和提取上述2D图像的特征的特征提取模型一同被训练。当3D分割神经网络模型是单独被训练时，上述特征提取模型可以采用现有的基于通用图像数据库训练得到的特征提取模型。

本发明提供的方法中，3D分割神经网络模型的训练采用有监督的训练学习。可以采用两种类型的监督共同实现训练：（1）全局辐射场的整体体渲染监督：对前景和背景都进行监督，使模型能够根据交互信息粗略地分辨前景和背景，从而产生基本的分割。（2）前景辐射场的体渲染监督：专注于分割的前景，纠正由于3D到2D的体渲染过程的信息损耗造成的3D错误分割区域。

3D分割神经网络模型基于多组训练数据进行有监督训练得到，每组训练数据包括：样本数据集合以及样本数据集合对应的2D前景标签图，样本数据集合包括样本3D辐射场、样本点击点、样本2D图像。在生成3D场景对应的3D辐射场时，是基于大量的带标签视频数据生成的，这些视频帧中带有2D前景标签，也就是说，可以直接从样本3D辐射的训练视频数据中得到样本点击点和样本2D图像对应的2D前景标签图，所述样本数据集合对应的所述2D前景标签图反映所述样本数据集合对应的前景分割结果的真实值。

3D分割神经网络模型的训练过程包括：

基于样本3D交互引导图和样本3D不透明度体素模型生成样本前景概率预测体素模型，基于样本前景概率预测体素模型中的各个网格点对应的前景概率特征对前景概率预测体素模型在全景辐射场中进行体渲染，得到第一2D前景概率特征图，其中，前景概率特征被激活函数激活后得到前景概率预测值，样本3D交互引导图是基于样本点击点和样本2D图像得到的，样本3D不透明度体素模型是基于样本3D辐射场得到的；

对样本前景概率预测体素模型进行分割，得到样本前景模型，基于样本前景模型中的各个网格点对应的前景概率特征对样本前景模型在前景辐射场中进行体渲染，得到第二2D前景概率特征图；

对第一2D前景概率特征图使用激活函数激活后得到第一2D前景概率预测图；

对第二2D前景概率特征图使用激活函数激活后得到第二2D前景概率预测图；

基于第一2D前景概率预测图和2D前景标签图生成第一训练损失；

基于第二2D前景概率预测图和2D前景标签图生成第二训练损失；

基于样本前景模型和3D辐射场得到样本前景体密度模型，样本前景体密度模型中的每个网格点对应的值为该网格点通过3D辐射场映射得到的体密度值，对样本前景体密度模型进行体渲染，得到2D不透明度图；

基于2D不透明度图和2D前景标签图生成第三训练损失；

基于第一训练损失、第二训练损失和第三训练损失得到目标训练损失。

基于目标训练损失更新3D分割神经网络模型的参数。

其中，在全景辐射场中进行体渲染指的使用分割前的辐射场的体密度（包含前景和背景）进行加权渲染，在前景辐射场中进行体渲染，指的是使用分割后的辐射场的体密度（只包括前景）进行加权渲染。具体来说，对于全景体渲染监督，按照辐射场分割的典型渲染方式，使用样本前景概率预测体素模型中的各个网格点对应的前景概率特征来替换体渲染方程的颜色值，从而渲染出2D的前景概率特征图，进一步应用sigmoid激活函数把2D前景概率特征图激活后转化得到2D前景概率预测图，最后计算前景-背景的二值交叉熵作为损失函数。

对于前景体渲染监督，单独体渲染模型预测的前景辐射场，把背景辐射场排出在外，因此能够避免背景辐射场中体密度较大的点在体渲染过程中把3D错误分割区域掩盖掉。具体设计了两个前景辐射场体渲染监督损失函数，首先，基于样本前景概率预测体素模型中的前景概率特征单独渲染前景辐射场得到2D的前景概率特征图，利用二值交叉熵作为损失函数来监督。其次，单独体渲染前景辐射场的体密度长得到2D不透明度场（即上述的2D不透明度图），利用均方误差作为损失函数来监督。

从前文的说明可知，本发明先利用语义相似性在2D特征空间对稀疏的交互点击引导图进行扩散，扩散后的2D交互引导图被投影到3D空间，进一步利用几何连续性在3D特征空间进行扩散，高效地实现了把稀疏的离散2D交互点扩散到3D空间的连续区域。随后，以已有3D分割网络为3D分割神经网络模型的主干，引入交互引导扩散方式构建了通用的辐射场交互式分割网络架构，并且进一步利用M叉树约束对难分割区域进行不确定性消除。最后，把全景辐射场的3D前景概率预测体素模型体渲染成2D前景概率预测图，利用二值交叉熵作为损失函数来监督3D分割神经网络模型网络，仅利用2D标注图作为监督，实现了3D辐射场分割，可以降低计算量。本发明还进一步提出了基于前景辐射场体渲染的监督来纠正由于3D到2D的信息损耗而被掩盖的3D错误分割区域。经过试验证明，本发明在真实场景下的辐射场分割任务中，预训练好的模型无需重新训练就能泛化到新场景，仅利用少量的用户标注就能实现在线的交互式辐射场分割，无论是定性还是定量分析比较，本发明具有现有的模型不具备的场景泛化能力并能取得更快更好的辐射场分割结果。

下面对本发明的实验验证结果进行说明。

在实验中，测试了本发明在两类真实场景测试集上的辐射场分割结果，其中，NeRF-LLFF测试集包含直面拍摄方式的背景复杂的场景，CO3D测试集包含360度环绕拍摄方式的背景较为简单的场景。由于目前没有3D真值来直接评价辐射场分割的质量，实验中采用现有技术NVOS提出的评价方式来间接地评价3D分割质量：使用新视角下的2D前景渲染mask的像素分类精度（Acc）和前景mask的像素分类交并比（IoU）来评估3D分割的精度；使用新视角下的前景渲染RGB图像的结构相似性（SSIM）、峰值信噪比（PSNR）和学习感知图像块相似度 (LPIPS)来评估前景辐射场的渲染质量。为了评估我们的交互式分割模型的性能上限，我们报告了不同点击次数的前景mask的IoU曲线。

定量分析：表1和表2中显示了本发明与同类型的其他技术（NVOS）在两类真实场景测试集的性能比较，值得注意的是，NVOS需要逐场景进行优化即训练和测试都是在同一个场景上，而本发明提供的方法中模型在训练阶段没有见过测试场景，尽管这对于本发明提供的方法而言是不公平的比较，但是本发明提供的方法分割出的前景辐射场渲染的2Dmask的两个评价指标都明显领先于NVOS，本发明提供的方法分割出的前景辐射场的RGB图像渲染质量的评价指标总体上领先于NVOS。

表1

表2

定性分析：图6和图7中显示了本发明提供的方法与同类型的其他技术相比，在真实场景的辐射场分割任务中取得更好的性能。图6是本发明提供的方法与同类型的其他技术在NERF-LLFF数据集的分割质量定性性能比较图，图7是本发明提供的方法与同类型的其他技术在CO3D数据集的分割质量定向性能比较图，可以看出，特别是在CO3D数据集上，NVOS在交互视图和新视图之间存在明显的性能退化，而本发明提供的方法在交互视图和新视图上都表现良好。

交互性能分析：图8展示了本发明提供的方法的IoU指标随用户点击此处的变化，可以看出，本发明提供的方法仅需要少量的用户点击（8次左右）就能到模型的性能瓶颈，高效低获得精度较高的分割结果。图9展示了本发明提供的方法的交互式迭代分割过程，仅需3次迭代的交互点击，本发明提供的方法就能获得视觉上令人满意的3D分割结果，并且能渲染出前景辐射场在新视角下的高质量图像。

下面对本发明提供的场景可泛化的交互式辐射场分割装置进行描述，下文描述的场景可泛化的交互式辐射场分割装置与上文描述的场景可泛化的交互式辐射场分割方法可相互对应参照。如图10所示，本发明提供的场景可泛化的交互式辐射场分割装置包括：

2D交互引导图生成模块1010，用于获取2D图像中的点击点，所述点击点是用户对所述2D图像中的像素点进行选择得到的点，根据所述点击点生成2D交互引导图，所述2D交互引导图中的各个点对应的值分别反映所述2D图像中的各个点与所述点击点的相似程度，所述2D图像为3D辐射场对应的3D场景中一个视角下的平面图像；

3D交互引导图生成模块1020，用于对所述2D交互引导图进行扩散处理，得到3D交互引导图，所述3D交互引导图中的各个网格点对应的值分别反映所述3D辐射场的各个网格点与所述点击点之间的相似性；

前景预测模块1030，用于将所述3D交互引导图和所述3D辐射场对应的3D不透明度体素模型连接后输入至3D分割神经网络模型，获取所述3D分割神经网络模型输出的前景概率预测体素模型，所述前景概率预测体素模型中的各个网格点对应一个前景概率预测值，所述前景概率预测值反映网格点为前景部分的概率，所述3D不透明度体素模型中的每个网格点对应一个不透明度，所述不透明度是对通过所述3D辐射场映射得到的体密度进行归一化处理得到的；

分割模块1040，用于基于所述前景概率预测体素模型输出所述3D场景中的前景部分以实现辐射场分割。

图11示例了一种电子设备的实体结构示意图，如图11所示，该电子设备可以包括：处理器（processor）1110、通信接口（Communications Interface）1120、存储器（memory）1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行场景可泛化的交互式辐射场分割方法，该方法包括：

此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的场景可泛化的交互式辐射场分割方法，该方法包括：获取2D图像中的点击点，所述点击点是用户对所述2D图像中的像素点进行选择得到的点，根据所述点击点生成2D交互引导图，所述2D交互引导图中的各个点对应的值分别反映所述2D图像中的各个点与所述点击点的相似程度，所述2D图像为3D辐射场对应的3D场景中一个视角下的平面图像；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种场景可泛化的交互式辐射场分割方法，其特征在于，包括：

2.根据权利要求1所述的场景可泛化的交互式辐射场分割方法，其特征在于，所述对所述2D交互引导图进行扩散处理，得到3D交互引导图，包括：

在所述目标直线穿过所述3D场景的部分采样若干个采样点，获取各个所述采样点对应的权重，所述权重是基于所述采样点通过所述3D辐射场映射的体密度得到的；

3.根据权利要求2所述的场景可泛化的交互式辐射场分割方法，其特征在于，所述基于所述目标点，确定所述2D交互引导图对应的3D中间引导图中的至少一个网格点对应的值以生成所述3D交互引导图，包括：

当所述2D交互引导图中的每个点均作为所述目标点之后：

4.根据权利要求2所述的场景可泛化的交互式辐射场分割方法，其特征在于，所述对所述3D融合引导图进行滤波和卷积处理，得到所述3D交互引导图，包括：

对所述滤波引导图进行部分卷积，得到所述3D交互引导图；

所述部分卷积的公式为：；

其中，为所述3D交互引导图，/>表示双边滤波操作，/>是滤波核中心的位置，/>为所述3D融合引导图，/>表示所述滤波引导图，/>为3D掩膜，/>用于指示所述3D融合引导图中在所述2D交互引导图中存在对应的所述目标点的网格点，/>为常数。

5.根据权利要求1所述的场景可泛化的交互式辐射场分割方法，其特征在于，所述3D分割神经网络模型包括低分分割网络和高分分割网络，所述将所述3D交互引导图和所述3D辐射场对应的3D不透明度体素模型连接后输入至3D分割神经网络模型，获取所述3D分割神经网络模型输出的前景概率预测体素模型，包括：

通过所述高分分割网络对所述前景概率预测低分模型中对应的目标网格点进行多层划分，得到所述前景概率预测体素模型，其中，所述目标网格点对应的前景概率预测值与0.5之间的差值在预设范围内。

6.根据权利要求5所述的场景可泛化的交互式辐射场分割方法，其特征在于，所述通过所述高分分割网络对所述前景概率预测低分模型中对应的目标网格点进行多层划分，包括：

将所述目标网格点对应的所述体密度特征、所述前景概率特征和所述位置特征输入至所述高分分割网络中，获取所述高分分割网络输出的M个中间网格点的前景概率特征并采用激活函数激活后得到所述M个中间网格点对应的前景概率预测值，所述M个中间网格点是对所述目标网格点进行划分后得到的网格点；

7.根据权利要求1所述的场景可泛化的交互式辐射场分割方法，其特征在于，所述3D分割神经网络模型基于多组训练数据进行有监督训练得到，每组所述训练数据包括：样本数据集合以及所述样本数据集合对应的2D前景标签图，所述样本数据集合包括样本3D辐射场、样本点击点、样本2D图像；所述3D分割神经网络模型的训练过程包括：

8.一种场景可泛化的交互式辐射场分割装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述场景可泛化的交互式辐射场分割方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述场景可泛化的交互式辐射场分割方法。