CN116342776A

CN116342776A - 三维场景解耦方法、电子设备及存储介质

Info

Publication number: CN116342776A
Application number: CN202310204589.6A
Authority: CN
Inventors: 戚迪
Original assignee: Nanjing Kuangyun Technology Co ltd; Beijing Megvii Technology Co Ltd
Current assignee: Nanjing Kuangyun Technology Co ltd; Beijing Megvii Technology Co Ltd
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-06-27

Abstract

本申请实施例提供了一种三维场景解耦方法、电子设备及存储介质，该方法包括：通过卷积神经网络对输入图像进行特征提取，得到输入图像的特征图；通过表征提取单元对特征图进行物体特征的提取，得到目标数量的物体表征向量；分别将每个物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元；通过目标数量的物体神经辐射场单元分别对目标视角范围内的三维坐标和视角进行处理，得到目标数量组目标视角范围内的多对颜色值和体积密度；对目标数量组目标视角范围内的多对颜色值和体积密度分别进行体积渲染，得到目标数量的目标图像，每个目标图像包括输入图像中的单个物体。本申请实施例可以提高三维场景解耦的准确性。

Description

三维场景解耦方法、电子设备及存储介质

技术领域

本申请实施例涉及三维场景处理技术领域，特别是涉及一种三维场景解耦方法、电子设备及存储介质。

背景技术

构建可分解的、以物体为中心的场景表示是人类视觉的一项基本能力，也是计算机视觉和机器学习中持续关注的话题。槽注意力机制(Slot Attention)是当下解耦精度较高的以物体为中心的表征学习方法之一，通过解释图像的形成过程，以迭代的方式，从特征图中聚类并抽象出一系列物体特征表示，完成无监督场景解耦。

由于从三维到二维图像形成过程是复杂且不可微的，槽注意力机制把场景解耦问题简单表述为二维分割，针对二维图像进行处理，忽略了现实视觉场景的复杂三维本质，即缺少三维感知能力，无法从场景的多个观察视角中聚合信息。近期，神经辐射场(NeuralRadiance Fields，NeRF)的出现将三维场景的连续、隐式表示与基于梯度的推理模型(例如深度网络)相结合，它用函数来描述场景几何，通过可微分体积渲染从一组RGB图像中恢复三维场景。换句话说，NeRF构造了一个从三维场景到二维图像的可微形成过程。基于此，无监督物体辐射场(unsupervised discovery of Object Radiance Fields，uORF)将条件神经辐射场作为三维物体表征，用于无监督三维场景分解。

uORF将槽注意力机制模块生成的物体表征作为NeRF网络的条件输入，从而构建出一组物体辐射场，并根据各物体辐射场的输出，将所有物体辐射场组合为整体的场景辐射场，在训练过程中，整体的场景辐射场在多个视图中进行神经渲染，像素空间中的重建损失作为训练监督；在测试期间，uORF从单个图像中推断出一组物体辐射场，作为物体的特征表示，从而完成场景解耦。

然而，uORF没有充分利用NeRF对场景的隐式表达，NeRF将场景几何拟合到网络参数中，而uORF仅根据网络的部分输出大小判断场景中各个位置属于哪一个物体，并完成物体辐射场的组合，显然不能完全挖掘出网络参数中的几何信息，导致三维场景解耦的准确性不足；而且uORF无法根据二维输入图像给出显式的物体表征，uORF将物体辐射场定义为物体的特征表示，这种隐式的特征表示难以被用来执行检测、分割等下游任务。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种三维场景解耦方法、电子设备及存储介质。

依据本申请实施例的第一方面，提供了一种三维场景解耦方法，包括：

通过卷积神经网络对输入图像进行特征提取，得到所述输入图像的特征图；

通过表征提取单元对所述特征图进行物体特征的提取，得到目标数量的物体表征向量；

分别将每个所述物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元；

通过目标数量的所述物体神经辐射场单元分别对目标视角范围内的三维坐标和视角进行处理，得到目标数量组所述目标视角范围内的多对颜色值和体积密度；

对所述目标数量组所述目标视角范围内的多对颜色值和体积密度分别进行体积渲染，得到目标数量的目标图像，每个所述目标图像包括所述输入图像中的单个物体。

依据本申请实施例的第二方面，提供了一种三维场景解耦装置，包括：

图像特征提取模块，用于通过卷积神经网络对输入图像进行特征提取，得到所述输入图像的特征图；

物体特征提取模块，用于通过表征提取单元对所述特征图进行物体特征的提取，得到目标数量的物体表征向量；

参数映射模块，用于分别将每个所述物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元；

神经辐射处理模块，用于通过目标数量的所述物体神经辐射场单元分别对目标视角范围内的三维坐标和视角进行处理，得到目标数量组所述目标视角范围内的多对颜色值和体积密度；

体积渲染模块，用于对所述目标数量组所述目标视角范围内的多对颜色值和体积密度分别进行体积渲染，得到目标数量的目标图像，每个所述目标图像包括所述输入图像中的单个物体。

依据本申请实施例的第三方面，提供了一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面中所述的三维场景解耦方法。

依据本申请实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的三维场景解耦方法。

本申请实施例提供的三维场景解耦方法、电子设备及存储介质，通过卷积神经网络对输入图像进行特征提取得到输入图像的特征图后，通过表征提取单元对特征图进行物体特征的提取，得到目标数量的物体表征向量，分别将每个物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元，通过目标数量的物体神经辐射场单元分别对目标视角范围内的三维坐标和视角进行处理的，得到目标数量组目标视角范围内的多对颜色值和体积密度，对目标数量组目标视角范围内的多对颜色值和体积密度分别进行体积渲染，得到目标数量的目标图像，每个目标图像包括输入图像中的单个物体，实现了对输入图像所对应三维场景的解耦，而且充分使用了物体神经辐射场单元对三维场景的隐式表达，能够充分使用物体神经辐射场单元网络参数中的几何结构信息，可以提高三维场景解耦的准确性，而且基于表征提取单元可以给出显示的物体表征，便于用来执行检测、分割等下游任务。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。

图1是本申请实施例提供的一种三维场景解耦方法的步骤流程图；

图2是本申请实施例中表征提取单元的网络结构的示例图；

图3是本申请实施例中物体神经辐射场单元的网络结构示例图；

图4是本申请实施例中进行模型训练的流程图；

图5是本申请实施例中坐标物体匹配单元的网络结构示例图；

图6是本申请实施例中进行模型训练的结构示意图；

图7是本申请实施例提供的一种三维场景解耦装置的结构框图；

图8是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安全防控、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。本申请实施例也是涉及计算机视觉技术，具体是一种三维场景的解耦方法，用于基于一个输入图像获取目标视角下各个物体的图像，具体方案如下：

图1是本申请实施例提供的一种三维场景解耦方法的步骤流程图，该方法可以应用服务器等电子设备中，如图1所示，该方法可以包括：

步骤101，通过卷积神经网络对输入图像进行特征提取，得到所述输入图像的特征图。

其中，卷积神经网络用于对输入图像进行特征提取，得到输入图像的特征图。

步骤102，通过表征提取单元对所述特征图进行物体特征的提取，得到目标数量的物体表征向量。

其中，表征提取单元用于从特征图中提取每个物体的物体特征。所述表征提取单元可以包括多层线性层和激活函数。

由于uORF中槽注意力机制模块较为复杂，且影响网络收敛速度并消耗较高内存，本申请实施例使用表征提取单元来代替槽注意力机制模块。在语义未知的情况下，人脑可凭借几何结构信息完成场景中各个物体的分离，借鉴于此，既然NeRF的网络参数中已经包含了解耦所需的几何结构信息，可以将物体表征的优化完全交给NeRF网络，即削弱表征提取单元的能力，本申请实施例可以用简单的多层线性层作为表征提取单元，完成物体特征的初始提取。

图2是本申请实施例中表征提取单元的网络结构的示例图，如图2所示，表征提取单元可以使用三层线性层(Linear layer)和神经元激活函数(例如ReLU等)的堆叠，完成从大小为(H×W)×C₁的特征图到大小为N×C₂的N个物体表征向量的转换。为了减少计算量，可以分别在两个维度进行线性变换，因此需要两次维度交换(permutation)操作。其中，H表示特征图的高度，W表示特征图的宽度，C₁表示特征图中的通道数，C₂表示物体表征向量的维度，N表示特征图中物体(包括背景)的数量。

以图2所示的表征提取单元为例，将(H×W)×C₁的特征图输入表征提取单元后，由表征提取单元中的第一层线性层进行处理，得到(H×W)×C₂的特征图，之后由Relu激活函数进行激活后，由第二层线性层进行处理，得到(H×W)×C₂的特征图，之后由Relu激活函数进行激活后，进行维度转换操作，得到C₂×(H×W)的特征图，经过第三层线性层处理，得到C₂×N的向量，对该向量进行维度转换，得到N×C₂的物体表征向量，即得到N个维度为C₂的物体表征向量。其中，N是特征图中物体的数量，也就是物体表征向量的数量，即目标数量。

步骤103，分别将每个所述物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元。

其中，所述目标神经网络是一个具有特定结构但是网络参数不确定的神经网络，包括多层线性层和激活函数。每个所述物体神经辐射场单元用于表征对应物体的神经辐射场，包括多层线性层和激活函数。目标神经网络为多层感知器(Multilayer Perceptron，MLP)，包括多层线性层和激活函数。

与uORF的条件辐射场不同，本申请实施例将上一步提取的物体表征向量作为各物体神经辐射场单元的“参数”，即通过对物体表征向量进行映射，得到物体辐射场单元的网络参数。对于每个物体表征向量，分别将该物体表征向量映射为目标神经网络的网络参数，得到一个物体神经辐射场单元，通过对目标数量的物体表征向量分别进行映射后，得到目标数量的物体神经辐射场单元。假设输入图像的场景中有K个物体与背景，则可以构造出K+1个物体辐射场单元(背景看作一个物体)，也就是得到K+1个物体辐射场，K+1为目标数量。

在本申请的一个实施例中，所述分别将每个所述物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元，包括：通过超网络分别将每个所述物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元。

可以使用一个超网络函数(hypernetwork)，通过该函数将物体表征向量映射为其对应物体神经辐射场单元的网络参数。因此物体神经辐射场单元的优化过程等价于物体表征向量的优化。其中，超网络提供了一种使用一个网络(也称为超网络)为另一个网络生成权重的方法。

在本申请的一个实施例中，所述目标神经网络包括背景神经网络和物体神经网络；

所述分别将每个所述物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元，包括：

将所述目标数量的物体表征向量中针对背景的物体表征向量映射为背景神经网络的网络参数，得到针对背景的物体神经辐射场单元；

将所述目标数量的物体表征向量中针对前景物体的物体表征向量分别映射为所述物体神经网络的网络参数，得到针对每个前景物体的物体神经辐射场单元；

其中，针对背景的物体神经辐射场单元隐藏层的特征维度小于针对前景物体的物体神经辐射场单元隐藏层的特征维度。

其中，背景神经网络用于背景进行处理，物体神经网络用于前景物体进行处理，背景神经网络隐藏层的特征维度小于物体神经网络隐藏层的特征维度，也就是背景神经网络的参数量小于物体神经网络的参数量。

在三维场景中，背景的几何形状和外观与前景对象有很大不同。对它们进行难以区分的建模通常会导致物体表示与模糊的背景片段纠缠在一起，考虑到背景的结构复杂程度低于前景物体，可以使得背景的物体神经辐射场单元的参数量少于前景物体的物体神经辐射场单元的参数量，例如可以将背景的物体神经辐射场单元的参数量设计为前景物体的物体神经辐射场单元的参数量的一半。

可以基于目标数量的物体表征向量中各物体表征向量的位置确定其中针对背景的物体表征向量和针对前景物体的物体表征向量，例如，可以将目标数量的物体表征向量中的第一个物体表征向量固定为针对背景的物体表征向量，将目标数量的物体表征向量中的其他物体表征向量固定为针对前景物体的物体表征向量。可以通过超网络将针对背景的物体表征向量映射为背景神经网络的网络参数，得到针对背景的物体神经辐射场单元，通过超网络将针对每个前景物体的物体表征向量映射为物体神经网络的网络参数，得到针对每个前景物体的物体神经辐射场单元。针对背景的物体神经辐射场单元隐藏层的特征维度小于针对前景物体的物体神经辐射场单元隐藏层的特征维度，这样可以更好的将前景物体与背景进行分割开来，防止前景物体和背景混淆。

步骤104，通过目标数量的所述物体神经辐射场单元分别对目标视角范围内的三维坐标和视角进行处理，得到目标数量组所述目标视角范围内的多对颜色值和体积密度。

其中，三维坐标是在视角所对应三维射线上采样得到的。目标视角范围可以结合拍摄输入图像的相机的内参矩阵和外参矩阵来指定，目标视角范围可以与输入图像的视角范围相同，也可以不同。目标视角范围内的每个视角对应相机在该位姿下的一个像素点。

图3是本申请实施例中物体神经辐射场单元的网络结构示例图，如图3所示，物体神经辐射场单元是一个从三维坐标x和视角方向d到用于体积渲染的粒子颜色RGB和体积密度σ的连续映射ｇ：(x，d)→(RGB，σ)，这种映射由MLP网络参数化。具体地，首先应用位置编码γ到三维坐标x得到γ(x)，即对三维坐标进行位置编码，然后与视角方向d一起输入物体神经辐射场单元，该物体神经辐射场单元可以由四个线性层(Linear layer)和激活函数(例如ReLU、sigmoid等)构成的模块堆叠而成，第一个模块和第四个模块之间可以使用跳跃连接，方便网络优化。最后网络输出4维特征，分别为颜色RGB和体积密度σ。针对背景的物体神经辐射场单元，在隐藏层可以使用针对物体的物体神经辐射场单元隐藏层一半的特征维度，来拟合比较简单的几何结构与外观信息，防止前背景混淆。

针对目标视角范围内的每个视角和对应的三维坐标均通过一个物体神经辐射场单元进行处理后，得到一组目标视角范围内的多对颜色值和体积密度，使用目标数量的物体神经辐射场单元进行处理后，得到目标数量组目标视角范围内的多对颜色值和体积密度。一对颜色值和体积密度用于生成一个像素点的像素值。

步骤105，对所述目标数量组所述目标视角范围内的多对颜色值和体积密度分别进行体积渲染，得到目标数量的目标图像，每个所述目标图像包括所述输入图像中的单个物体。

针对一组目标视角范围内的多对颜色值和体积密度分别进行体积渲染，得到目标图像中每个像素点的像素值，将像素值填充到空白的图像中对应位置，得到一个目标图像。一个目标图像中包括输入图像中的一个物体，如果一个视角所对应像素点不是该物体的位置，则该像素点所对应的三维场景点是透明的，而在目标图像中该像素点的像素值是0，这样在一个目标图像中只包括一个物体。

本实施例提供的三维场景解耦方法，通过卷积神经网络对输入图像进行特征提取得到输入图像的特征图后，通过表征提取单元对特征图进行物体特征的提取，得到目标数量的物体表征向量，分别将每个物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元，通过目标数量的物体神经辐射场单元分别对目标视角范围内的三维坐标和视角进行处理的，得到目标数量组目标视角范围内的多对颜色值和体积密度，对目标数量组目标视角范围内的多对颜色值和体积密度分别进行体积渲染，得到目标数量的目标图像，每个目标图像包括输入图像中的单个物体，实现了对输入图像所对应三维场景的解耦，而且充分使用了物体神经辐射场单元对三维场景的隐式表达，能够充分使用物体神经辐射场单元网络参数中的几何结构信息，可以提高三维场景解耦的准确性，而且基于表征提取单元可以给出显示的物体表征，便于用来执行检测、分割等下游任务，例如针对下游检测任务，可以基于物体表征向量确定物体位置，并将该物体位置作为下游检测任务的先验知识。

图4是本申请实施例中进行模型训练的流程图，在所述通过卷积神经网络对输入图像进行特征提取，得到所述输入图像的特征图之前，需要对卷积神经网络、表征提取单元和物体神经辐射场单元进行模型训练，如图4所示，对卷积神经网络和表征提取单元进行模型训练的过程包括：

步骤401，通过初始的卷积神经网络对样本输入图像进行特征提取，得到所述样本输入图像的样本特征图。

样本输入图像是目标任务数据集中的样本，基于目标任务数据集来对卷积神经网络、表征提取单元和物体神经辐射场单元进行模型训练。

步骤402，通过初始的表征提取单元对所述样本特征图进行物体特征的提取，得到目标数量的样本物体表征向量。

步骤403，分别将每个所述样本物体表征向量映射为目标神经网络的网络参数，得到目标数量的初始物体神经辐射场单元。

步骤404，通过目标数量的初始物体神经辐射场单元分别对目标视角和目标三维坐标进行处理，得到目标数量组样本颜色值和样本体积密度。

其中，目标视角是对该目标视角所对应视图中的像素点进行采样而确定的。所述视图和所述样本输入图像是使用相同相机对同一三维场景进行拍摄而得到的相同视角或不同视角的图像。目标三维坐标是在目标视角所对应三维射线上进行采样得到的三维空间坐标。

通过一个初始物体神经辐射场单元对目标视角和目标三维坐标进行处理后，得到一组样本颜色值和样本体积密度，通过目标数量的初始物体神经辐射场单元分别对目标视角和目标三维坐标进行处理后，得到目标数量组样本颜色值和样本体积密度。

步骤405，根据目标数量组所述样本颜色值和样本体积密度，确定所述目标视角所对应像素点的预测像素值。

分别对每组样本颜色值和样本体积密度进行处理，确定目标视角所对应像素点的预测像素值。

在本申请的一个实施例中，所述根据目标数量组所述样本颜色值和样本体积密度，确定所述目标视角所对应像素点的预测像素值，包括：通过坐标物体匹配单元根据所述目标三维坐标和所述目标数量的样本物体表征向量，确定所述目标三维坐标对应每个所述样本物体表征向量的权重；根据所述目标三维坐标对应每个所述样本物体表征向量的权重，对目标数量组的所述样本颜色值进行聚合处理，得到聚合颜色值，并对目标数据量组的所述样本体积密度进行聚合处理，得到聚合体积密度；对所述聚合颜色值和所述聚合体积密度进行体积渲染，得到所述目标视角所对应像素点的预测像素值。

其中，坐标物体匹配单元用于实现三维坐标与样本物体表征向量的匹配，为输入的目标三维坐标匹配到正确的样本物体表征向量，从而完成多个物体神经辐射场的耦合。

由于优化过程中监督信号是整个三维场景的渲染图像，可以使用坐标物体匹配单元为输入的目标三维坐标匹配到正确的样本物体表征向量，根据匹配结果将所有物体辐射场组合为整体场景的辐射场。

通过坐标物体匹配单元将目标三维坐标进行位置编码后，分别与目标数量的样本物体表征向量进行匹配，得到目标三维坐标对应每个样本物体表征向量的权重。根据目标三维坐标对应每个样本物体表征向量的权重，对目标数量组的样本颜色值进行聚合处理，将目标数量组的样本颜色值聚合为一个聚合颜色值，并对目标数量组的样本体积密度进行聚合处理，将目标数量组的样本体积密度聚合为一个样本体积密度。对聚合颜色值和聚合体积密度进行体积渲染，得到目标视角所对应像素点的预测像素值。

通过坐标物体匹配单元来实现多个物体神经辐射场在目标三维坐标处的耦合，可以得到较为准确的预测像素值。

在本申请的一个实施例中，所述坐标物体匹配单元包括特征聚集模块和注意力模块；

所述通过坐标物体匹配单元根据所述目标三维坐标和所述目标数量的样本物体表征向量，确定所述目标三维坐标对应每个所述样本物体表征向量的权重，包括：通过所述特征聚集模块根据所述目标数量的样本物体表征向量，确定所述目标三维坐标所对应的特征向量；通过所述注意力模块根据所述特征向量，确定所述目标三维坐标对应每个所述样本物体表征向量的权重。

图5是本申请实施例中坐标物体匹配单元的网络结构示例图，如图5所示，坐标物体匹配单元包括特征聚集模块(Feature Aggregation)和注意力模块(Attention)。其中，特征聚集模块(Feature Aggregation)是一个仅含有交叉注意力操作(cross attention)的转换(Transformer)网络，以位置编码后的目标三维坐标点γ(x)为查询向量，聚集样本物体表征向量(Slots)S，从而得到目标三维坐标γ(x)对应的特征向量x_slot；之后将样本物体表征向量S和特征向量x_slot一起送入注意力模块(Attention)，通过注意力模块分别对样本物体表征向量S和特征向量x_slot进行线性处理后，计算特征向量与每个样本物体表征向量的相似度，得到γ(x)在样本物体表征向量S上的概率分布w，也就是目标三维坐标对应每个样本物体表征向量的权重，上述注意力模块的处理过程可以通过如下公式表示：

Q＝W_Qx_slot

K＝W_KS^T

w＝softmax(K^TQ)

其中，x_slot表示目标三维坐标γ(x)对应的特征向量，W_Q表示注意力模块中对x_slot进行线性处理的参数矩阵，Q表示对x_sloｔ线性处理后的值，K表示对样本物体表征向量线性处理后的值，W_K是注意力模块中对样本物体表征向量进行线性处理的参数矩阵，w是γ(x)在样本物体表征向量S上的概率分布。

通过特征聚集模块和注意力模块来配合进行处理，可以还原整体的三维场景，提高权重确定的准确性。

在本申请的一个实施例中，所述根据所述目标三维坐标对应每个所述样本物体表征向量的权重，对目标数量组的所述样本颜色值进行聚合处理，得到聚合颜色值，包括：根据所述目标三维坐标对应每个样本所述物体表征向量的权重，对目标数量组的所述样本颜色值进行加权求和，得到所述聚合颜色值；

所述对目标数据量组的所述样本体积密度进行聚合处理，得到聚合体积密度，包括：根据所述目标三维坐标对应每个所述样本物体表征向量的权重，对目标数量组的所述样本体积密度进行加权求和，得到所述聚合体积密度。

在对目标数量组的样本颜色值进行聚合处理时，可以基于目标三维坐标对应每个样本物体表征向量的权重，对目标数量组的样本颜色值进行加权求和，实现对样本颜色值的聚合处理，得到聚合颜色值。同样的，在对目标数量组的样本体积密度进行聚合处理时，可以基于目标三维坐标对应每个样本物体表征向量的权重，对目标数量组的样本体积密度进行加权求和，实现对样本体积密度的聚合处理，得到聚合体积密度。即通过如下公式进行聚合处理：

其中，σ为聚合体积密度，K+1表示目标数量，w_i表示对应第i个样本物体表征向量的权重，σ_i表示对应第i个样本物体表征向量(也就是对应第i个初始物体神经辐射场单元)的样本体积密度，RGb为聚合颜色值，RGB_i表示对应第i个样本物体表征向量的样本颜色值。

步骤406，根据所述预测像素值和所述目标视角所对应视图的原始像素值，对所述初始的卷积神经网络、初始的表征提取单元和初始物体神经辐射场单元进行参数调整，获得训练完成的卷积神经网络和表征提取单元。

其中，原始像素值是在所述视图中目标视角所对应像素点的像素值。

根据预测像素值和原始像素值之间的差异，对初始的卷积神经网络、初始的表征提取单元和初始物体神经辐射场单元进行参数调整，以对卷积神经网络、表征提取单元和物体神经辐射场单元进行优化，由于物体神经辐射场单元的网络参数是由表征提取单元所提取的物体表征向量映射而来，所以对物体神经辐射场单元的优化过程相当于是对物体表征向量的优化，在训练完成后，获得训练完成的卷积神经网络和表征提取单元，用于进行三维场景的解耦处理。

uORF方法中，槽注意力机制的引入大大减慢了网络的收敛速度，增大了网络的训练难度，因此在训练阶段，相较于原始NeRF方法中对图像像素点的随机采样，uORF方法需要将图像中所有像素点都渲染出来，避免有噪声的渲染，这无疑增加了训练的时间和内存的消耗。为了解决该技术问题，本申请实施例使用表征提取单元替代了槽注意力机制模块，而且在训练的过程中，可以基于对图像像素点的随机采样获得目标视角，进而只需要对目标视角所对应视图的部分像素点进行渲染，基于部分渲染的像素点来指导进行模型训练，这样节省了训练的时间，并减少了内存消耗。

在本申请的一个实施例中，所述根据所述预测像素值和所述目标视角所对应视图的原始像素值，对所述初始的卷积神经网络、初始的表征提取单元和初始物体神经辐射场单元进行参数调整，获得训练完成的卷积神经网络和表征提取单元，包括：根据所述预测像素值和所述目标视角所对应视图的原始像素值，确定重建损失值；根据所述重建损失值，对所述初始的卷积神经网络、初始的表征提取单元、初始物体神经辐射场单元和所述坐标物体匹配单元进行参数调整，获得训练完成的卷积神经网络和表征提取单元。

在对述初始的卷积神经网络、初始的表征提取单元、初始物体神经辐射场单元和所述坐标物体匹配单元进行训练的过程中，可以使用重建损失函数来进行监督，以训练模型。根据预测像素值和目标视角所对应视图的原始像素值之间的差异，确定重建损失值，重建损失函数可以是MSE(Mean Square Error，均方误差)损失函数，基于重建损失值，进行反向传播，对初始的卷积神经网络、初始的表征提取单元、初始物体神经辐射场单元和所述坐标物体匹配单元进行参数调整，迭代执行基于目标任务数据集中的样本输入图像对初始的卷积神经网络、初始的表征提取单元、初始物体神经辐射场单元和所述坐标物体匹配单元进行训练的过程，直至满足训练结束条件，获得训练完成的卷积神经网络和表征提取单元，用于进行三维场景的解耦处理。

本申请实施例在得到整体场景辐射场后，在场景多个视图中进行神经渲染，并以像素空间中的重建损失作为训练监督，与uORF方法不同，优化过程中不需要任何额外的监督信号(例如，感知损失函数)。

图6是本申请实施例中进行模型训练的结构示意图，如图6所示，对于样本输入图像通过卷积神经网络进行特征提取得到样本特征图后，通过表征提取单元对样本特征图进行物体特征的提取，得到目标数量的样本物体表征向量，包括背景的样本物体表征向量和各个前景物体的样本物体表征向量；通过超网络将各样本物体表征向量映射为对应物体神经辐射场单元的网络参数；通过目标数量的物体神经辐射场单元分别对目标视角和目标三维坐标(x，d)进行处理，其中，x表示目标三维坐标，d表示目标视角，得到目标数量组样本颜色值和样本体积密度；通过坐标物体匹配单元根据目标三维坐标和目标数量的物体表征向量，确定目标三维坐标对应每个样本物体表征向量的权重w；根据目标三维坐标对应每个样本物体表征向量的权重w，对样本颜色值和样本体积密度分别进行聚合处理(Compose)，得到聚合颜色值和聚合体积密度(RGB，σ)；对聚合颜色值和聚合体积密度(RGB，σ)进行体积渲染，得到目标视角所对应像素点的预测像素值；基于预测像素值和目标视角所对应视图的原始像素值，确定重建损失值，进而对卷积神经网络、表征提取单元、物体神经辐射场单元和坐标物体匹配单元进行参数调整，获得训练完成的卷积神经网络和表征提取单元。

本申请实施例充分利用了场景隐式表示中的几何结构信息，完成三维场景的解耦及显式物体表征的提取。具体来说，通过超网络与坐标物体匹配单元，一方面将NeRF网络参数中几何结构信息引入物体表征向量中，进一步增强了模型的三维感知能力；另一方面完成了对输入图像的显式的物体表征的提取，方便其在下游任务上的应用。此外，槽注意力机制模块的去除加速了模型的收敛速度，训练过程中仅使用随机采样的部分像素点(即目标视角所对应的像素点)，就可以做高质量图像渲染，降低了模型优化过程中对设备显存的需求。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

图7是本申请实施例提供的一种三维场景解耦装置的结构框图，如图7所示，该三维场景解耦装置可以包括：

图像特征提取模块701，用于通过卷积神经网络对输入图像进行特征提取，得到所述输入图像的特征图；

物体特征提取模块702，用于通过表征提取单元对所述特征图进行物体特征的提取，得到目标数量的物体表征向量；

参数映射模块703，用于分别将每个所述物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元；

神经辐射处理模块704，用于通过目标数量的所述物体神经辐射场单元分别对目标视角范围内的三维坐标和视角进行处理，得到目标数量组所述目标视角范围内的多对颜色值和体积密度；

体积渲染模块705，用于对所述目标数量组所述目标视角范围内的多对颜色值和体积密度分别进行体积渲染，得到目标数量的目标图像，每个所述目标图像包括所述输入图像中的单个物体。

可选的，所述参数映射模块具体用于：

通过超网络分别将每个所述物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元。

可选的，所述目标神经网络包括背景神经网络和物体神经网络；

所述参数映射模块包括：

背景网络参数映射单元，用于将所述目标数量的物体表征向量中针对背景的物体表征向量映射为背景神经网络的网络参数，得到针对背景的物体神经辐射场单元；

前景网络参数映射单元，用于将所述目标数量的物体表征向量中针对前景物体的物体表征向量分别映射为所述物体神经网络的网络参数，得到针对每个前景物体的物体神经辐射场单元；

可选的，所述装置还包括模型训练模块，所述模型训练模块包括：

样本特征图像提取单元，用于通过初始的卷积神经网络对样本输入图像进行特征提取，得到所述样本输入图像的样本特征图；

样本物体特征提取单元，用于通过初始的表征提取单元对所述样本特征图进行物体特征的提取，得到目标数量的样本物体表征向量；

样本参数映射单元，用于分别将每个所述样本物体表征向量映射为目标神经网络的网络参数，得到目标数量的初始物体神经辐射场单元；

样本神经辐射单元，用于通过目标数量的初始物体神经辐射场单元分别对目标视角和目标三维坐标进行处理，得到目标数量组样本颜色值和样本体积密度；

预测像素值确定单元，用于根据目标数量组所述样本颜色值和样本体积密度，确定所述目标视角所对应像素点的预测像素值；

模型训练单元，用于根据所述预测像素值和所述目标视角所对应视图的原始像素值，对所述初始的卷积神经网络、初始的表征提取单元和初始物体神经辐射场单元进行参数调整，获得训练完成的卷积神经网络和表征提取单元。

可选的，所述预测像素值确定单元包括：

坐标物体匹配子单元，用于通过坐标物体匹配单元根据所述目标三维坐标和所述目标数量的样本物体表征向量，确定所述目标三维坐标对应每个所述样本物体表征向量的权重；

聚合子单元，用于根据所述目标三维坐标对应每个所述样本物体表征向量的权重，对目标数量组的所述样本颜色值进行聚合处理，得到聚合颜色值，并对目标数据量组的所述样本体积密度进行聚合处理，得到聚合体积密度；

体积渲染子单元，用于对所述聚合颜色值和所述聚合体积密度进行体积渲染，得到所述目标视角所对应像素点的预测像素值。

可选的，所述坐标物体匹配单元包括特征聚集模块和注意力模块；

所述坐标物体匹配子单元具体用于：

通过所述特征聚集模块根据所述目标数量的样本物体表征向量，确定所述目标三维坐标所对应的特征向量；

通过所述注意力模块根据所述特征向量，确定所述目标三维坐标对应每个所述样本物体表征向量的权重。

可选的，所述聚合子单元具体用于：

根据所述目标三维坐标对应每个所述样本物体表征向量的权重，对目标数量组的所述样本颜色值进行加权求和，得到所述聚合颜色值；

根据所述目标三维坐标对应每个所述样本物体表征向量的权重，对目标数量组的所述样本体积密度进行加权求和，得到所述聚合体积密度。

可选的，所述模型训练单元包括：

损失值确定子单元，用于根据所述预测像素值和所述目标视角所对应视图的原始像素值，确定重建损失值；

参数调整子单元，用于根据所述重建损失值，对所述初始的卷积神经网络、初始的表征提取单元、初始物体神经辐射场单元和所述坐标物体匹配单元进行参数调整，获得训练完成的卷积神经网络和表征提取单元。

可选的，所述表征提取单元包括多层线性层和激活函数；每个所述物体神经辐射场单元包括多层线性层和激活函数。

本申请实施例提供的装置中各个模块、单元所对应功能的具体实现过程可参考图1-6所示方法实施例，此处不再赘述装置部分各个模块、单元所对应功能的具体实现过程。

本实施例提供的三维场景解耦装置，通过卷积神经网络对输入图像进行特征提取得到输入图像的特征图后，通过表征提取单元对特征图进行物体特征的提取，得到目标数量的物体表征向量，分别将每个物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元，通过目标数量的物体神经辐射场单元分别对目标视角范围内的三维坐标和视角进行处理的，得到目标数量组目标视角范围内的多对颜色值和体积密度，对目标数量组目标视角范围内的多对颜色值和体积密度分别进行体积渲染，得到目标数量的目标图像，每个目标图像包括输入图像中的单个物体，实现了对输入图像所对应三维场景的解耦，而且充分使用了物体神经辐射场单元对三维场景的隐式表达，能够充分使用物体神经辐射场单元网络参数中的几何结构信息，可以提高三维场景解耦的准确性，而且基于表征提取单元可以给出显示的物体表征，便于用来执行检测、分割等下游任务。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图8是本申请实施例提供的一种电子设备的结构框图，如图8所示，该电子设备800可以包括一个或多个处理器810以及与处理器810连接的一个或多个存储器820。电子设备800还可以包括输入接口830和输出接口840，用于与另一装置或系统进行通信。被处理器810执行的程序代码可存储在存储器820中。

电子设备800中的处理器810调用存储在存储器820的程序代码，以执行上述实施例中的三维场景解耦方法。

根据本申请的一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现前述实施例所述的三维场景解耦方法。

根据本申请的一个实施例，还提供了一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现上述实施例所述的三维场景解耦方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种三维场景解耦方法、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种三维场景解耦方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别将每个所述物体表征向量映射为目标神经网络的网络参数，得到目标数量的物体神经辐射场单元，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标神经网络包括背景神经网络和物体神经网络；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述卷积神经网络和表征提取单元的训练过程包括：

通过初始的卷积神经网络对样本输入图像进行特征提取，得到所述样本输入图像的样本特征图；

通过初始的表征提取单元对所述样本特征图进行物体特征的提取，得到目标数量的样本物体表征向量；

分别将每个所述样本物体表征向量映射为目标神经网络的网络参数，得到目标数量的初始物体神经辐射场单元；

通过目标数量的初始物体神经辐射场单元分别对目标视角和目标三维坐标进行处理，得到目标数量组样本颜色值和样本体积密度；

根据目标数量组所述样本颜色值和样本体积密度，确定所述目标视角所对应像素点的预测像素值；

根据所述预测像素值和所述目标视角所对应视图的原始像素值，对所述初始的卷积神经网络、初始的表征提取单元和初始物体神经辐射场单元进行参数调整，获得训练完成的卷积神经网络和表征提取单元。

5.根据权利要求4所述的方法，其特征在于，所述根据目标数量组所述样本颜色值和样本体积密度，确定所述目标视角所对应像素点的预测像素值，包括：

通过坐标物体匹配单元根据所述目标三维坐标和所述目标数量的样本物体表征向量，确定所述目标三维坐标对应每个所述样本物体表征向量的权重；

根据所述目标三维坐标对应每个所述样本物体表征向量的权重，对目标数量组的所述样本颜色值进行聚合处理，得到聚合颜色值，并对目标数据量组的所述样本体积密度进行聚合处理，得到聚合体积密度；

对所述聚合颜色值和所述聚合体积密度进行体积渲染，得到所述目标视角所对应像素点的预测像素值。

6.根据权利要求5所述的方法，其特征在于，所述坐标物体匹配单元包括特征聚集模块和注意力模块；

所述通过坐标物体匹配单元根据所述目标三维坐标和所述目标数量的样本物体表征向量，确定所述目标三维坐标对应每个所述样本物体表征向量的权重，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述目标三维坐标对应每个所述样本物体表征向量的权重，对目标数量组的所述样本颜色值进行聚合处理，得到聚合颜色值，包括：

所述对目标数据量组的所述样本体积密度进行聚合处理，得到聚合体积密度，包括：

8.根据权利要求5-7任一项所述的方法，其特征在于，所述根据所述预测像素值和所述目标视角所对应视图的原始像素值，对所述初始的卷积神经网络、初始的表征提取单元和初始物体神经辐射场单元进行参数调整，获得训练完成的卷积神经网络和表征提取单元，包括：

根据所述预测像素值和所述目标视角所对应视图的原始像素值，确定重建损失值；

根据所述重建损失值，对所述初始的卷积神经网络、初始的表征提取单元、初始物体神经辐射场单元和所述坐标物体匹配单元进行参数调整，获得训练完成的卷积神经网络和表征提取单元。

9.根据权利要求1所述的方法，其特征在于，所述表征提取单元包括多层线性层和激活函数；每个所述物体神经辐射场单元包括多层线性层和激活函数。

10.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-9任一项所述的三维场景解耦方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的三维场景解耦方法。

12.一种计算机程序产品，其特征在于，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现权利要求1至9任一项所述的三维场景解耦方法。