CN117252984A

CN117252984A - 三维模型生成方法、装置、设备、存储介质及程序产品

Info

Publication number: CN117252984A
Application number: CN202311205626.1A
Authority: CN
Inventors: 杨嘉宇; 程子昂; 段云飞; 李宏东; 嵇盼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-12-19

Abstract

本申请公开了一种三维模型生成方法、装置、设备、存储介质及程序产品，涉及计算机技术领域。该方法包括：获取加噪特征表示；在通过多个视角分别对应的去噪网络层对加噪特征表示进行去噪处理时，确定多个视角分别对应的去噪网络层的输入特征表示；提取多个输入特征表示分别对应的三维转换矩阵之间共有的三维共享信息；以三维共享信息对多个输入特征表示进行调整，并多个调整特征表示生成多个视角下分别对应的视角图像。通过以上方式，能够借助三维共享信息对输入特征表示表征进行约束，从而使得视角图像之间存在较强的关联性，有利于基于多个视角图像整合生成几何一致性更强的三维模型。本申请可应用于云技术、人工智能、智慧交通等各种场景。

Description

三维模型生成方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种三维模型生成方法、装置、设备、存储介质及程序产品。

背景技术

多视图学习也称为多视角学习(Multi-view Learning)，其研究主旨在于如何对针对实体采集得到的二维图像进行建模与发掘，以得到能够较好展现实体立体形状的三维模型。

相关技术中，通常在基于二维图像建模得到三维模型时，采用Zero123方法进行处理，该方法采用扩散模型作为生成模型，在获取到针对实体采集得到图像后，通过视觉语言(Vision-Language)模型将该图像转化成对实体的抽象描述，在通过生成模型对该图像以及其他视角分别对应的相机参数进行分析时，以该抽象描述为样式生成条件，从而使得扩散模型在样式生成条件的限制下生成360°视角的三维模型。

上述Zero123方法中，作为生成模型在三维模型生成过程中的样式生成条件仅仅为针对图像的抽象描述，这使得生成的360°的三维模型无法保证绝对的几何一致性。例如：输入为一辆汽车的图片，由Vision-Language模型产生的抽象描述为汽车的样式颜色和外貌，但是由此产生的多视角图像通常仅仅满足上述抽象描述，而无法保证多视角图像表达的是同一辆汽车。

发明内容

本申请实施例提供了一种三维模型生成方法、装置、设备、存储介质及程序产品，能够借助三维共享信息对输入特征表示表征进行约束，加强不同视角进行去噪处理过程中的关联性，从而使得视角图像之间存在较强的关联性，有利于基于多个视角图像整合生成几何一致性更强的三维模型。所述技术方案如下。

一方面，提供了一种三维模型生成方法，所述方法包括：

获取噪声数据对应的加噪特征表示，所述加噪特征表示用于在多个视角下分别进行去噪处理，得到实体元素在所述多个视角下分别对应的视角图像；

在通过所述多个视角分别对应的去噪网络层对所述加噪特征表示进行去噪处理时，确定所述多个视角分别对应的去噪网络层的输入特征表示，所述输入特征表示是待输入所述去噪网络层进行去噪的特征表示；

提取多个输入特征表示分别对应的三维转换矩阵之间共有的三维共享信息，其中，所述三维转换矩阵是对所述输入特征表示进行维度转换得到的；

以所述三维共享信息对所述多个输入特征表示进行调整，得到多个调整特征表示，其中，多个输入特征表示和多个调整特征表示之间存在对应关系；

基于所述多个调整特征表示生成实体元素在所述多个视角下分别对应的视角图像，多个视角图像用于整合生成表征所述实体元素的三维模型。

另一方面，提供了一种三维模型生成装置，所述装置包括：

获取模块，用于获取噪声数据对应的加噪特征表示，所述加噪特征表示用于在多个视角下分别进行去噪处理，得到实体元素在所述多个视角下分别对应的视角图像；

确定模块，用于在通过所述多个视角分别对应的去噪网络层对所述加噪特征表示进行去噪处理时，确定所述多个视角分别对应的去噪网络层的输入特征表示，所述输入特征表示是待输入所述去噪网络层进行去噪的特征表示；

提取模块，用于提取多个输入特征表示分别对应的三维转换矩阵之间共有的三维共享信息，其中，所述三维转换矩阵是对所述输入特征表示进行维度转换得到的；

调整模块，用于以所述三维共享信息对所述多个输入特征表示进行调整，得到多个调整特征表示，其中，多个输入特征表示和多个调整特征表示之间存在对应关系；

生成模块，用于基于所述多个调整特征表示生成表征所述实体元素在所述多个视角下分别对应的视角图像，多个视角图像用于整合生成所述实体元素的三维模型。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述三维模型生成方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的三维模型生成方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的三维模型生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过多个视角分别对应的去噪网络层对噪声数据对应的加噪特征表示进行去噪处理时，确定多个视角分别对应的去噪网络层的输入特征表示，以提取多个输入特征表示分别对应的三维转换矩阵之间共有的三维共享信息，对多个输入特征表示分别进行调整，从而得到多个调整特征表示，多个调整特征表示能够生成实体元素在多个视角下分别对应的视角图像。通过对多个输入特征表示进行统筹分析，能够对多个输入特征表示在三维尺度上的相同信息予以获取，从而提取得到三维共享信息，借助三维共享信息对输入特征表示表征进行约束，从而避免不同视角通过对应去噪网络层进行独立去噪处理时的割裂问题，通过三维共享信息对输入特征表示进行调整，有利于加强不同视角进行去噪处理过程中的关联性，从而使得视角图像之间存在较强的关联性，有利于基于多个视角图像整合生成几何一致性更强的三维模型，提高通过三维模型表征实体元素的真实性和细致性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的三维模型生成方法的流程图；

图3是本申请另一个示例性实施例提供的三维模型生成方法的流程图；

图4是本申请再一个示例性实施例提供的三维模型生成方法的流程图；

图5是本申请又一个示例性实施例提供的三维模型生成方法得到流程图；

图6是本申请一个示例性实施例提供的通过两个视角分别对应的降噪自编码器进行去噪过程的示意图；

图7是本申请一个示例性实施例提供的注意力机制的池化层的内部结构示意图；

图8是本申请一个示例性实施例提供的传统扩散模型循环调用的降噪自编码器的示意图；

图9是本申请一个示例性实施例提供的三维模型生成方法的生成结果与Zero123生成结果的对比示意图；

图10是本申请另一个示例性实施例提供的三维模型生成方法的生成结果与Zero123生成结果的对比示意图；

图11是本申请一个示例性实施例提供的三维模型生成装置的结构框图；

图12是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

相关技术中，通常在基于二维图像建模得到三维模型时，采用Zero123方法进行处理，该方法采用扩散模型作为生成模型，在获取到针对实体采集得到图像后，通过视觉语言(Vision-Language)模型将该图像转化成对实体的抽象描述，在通过生成模型对该图像以及其他视角分别对应的相机参数进行分析时，以该抽象描述为样式生成条件，从而使得扩散模型在样式生成条件的限制下生成360°视角的三维模型。上述Zero123方法中，作为生成模型在三维模型生成过程中的样式生成条件仅仅为针对图像的抽象描述，这使得生成的360°的三维模型无法保证绝对的几何一致性。例如：输入为一辆汽车的图片，由Vision-Language模型产生的抽象描述为汽车的样式颜色和外貌，但是由此产生的多视角图像通常仅仅满足上述抽象描述，而无法保证多视角图像表达的是同一辆汽车。

在本申请实施例中，介绍了一种三维模型的生成方法，通过三维模型的生成方法，在多个视角下分别对加噪特征表示进行去噪处理过程，并在去噪处理过程中提取输入特征表示之间的三维共享信息，从而能够借助三维共享信息对输入特征表示表征进行约束，加强不同视角进行去噪处理过程中的关联性，使得视角图像之间存在较强的关联性，有利于基于多个视角图像整合生成几何一致性更强的三维模型。上述三维模型的生成方法可以应用于游戏建模领域、医疗领域(如建模医学研究物体)、电影领域、科学领域(如建模化合物的精确模型)、建筑领域、地质领域等各种三维模型建模场景下，本申请实施例对此不加以限定。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。例如，本申请中涉及到的加噪数据、去噪网络层等内容都是在充分授权的情况下获取的。

其次，对本申请实施例中涉及的实施环境进行说明，本申请实施例提供的三维模型生成方法可以由终端单独执行实现，也可以由服务器执行实现，或者由终端和服务器通过数据交互实现，本申请实施例对此不加以限定。可选地，以终端和服务器交互执行三维模型生成方法为例进行说明。

示意性的，请参考图1，该实施环境中涉及终端110、服务器120，终端110和服务器120之间通过通信网络130连接。

在一些实施例中，终端110具有噪声生成功能或者噪声获取功能，用于获取得到噪声数据。

可选地，终端110通过通信网络130向服务器120发送噪声数据，服务器120能够基于噪声数据获取得到加噪特征表示，加噪特征表示用于在多个视角下分别进行去噪处理，得到实体元素在多个视角下分别对应的视角图像。

示意性的，多个视角为预先选择的不同视角，加噪特征表示在每一个视角下分别进行去噪处理过程。

在一些实施例中，服务器120在通过多个视角分别对应的去噪网络层对加噪特征表示进行去噪处理时，确定多个视角分别对应的去噪网络层的输入特征表示。其中，输入特征表示是待输入去噪网络层进行去噪的特征表示。

示意性的，多个视角分别对应至少一个去噪网络层，每个视角各自对应的至少一个去噪网络层之间，存在一一对应关系，如视角A对应的第一个去噪网络层与视角B对应的第一个去噪网络层之间具有对应关系。在服务器120基于加噪特征表示在多个视角下分别进行去噪处理时，将加噪特征表示通过多个视角分别对应的至少一个去噪网络层进行解码处理，对于与多个视角分别对应的任意一个去噪网络层而言，确定输入至该去噪网络层的特征表示作为输入特征表示。

在一些实施例中，服务器120提取多个输入特征表示分别对应的三维转换矩阵之间共有的三维共享信息。

其中，三维转换矩阵是对输入特征表示进行维度转换得到的。

示意性的，针对任意一个去噪网络层而言，基于多个视角分别对应的至少一个去噪网络层之间存在一一对应关系，因此能够确定多个视角在相应的去噪网络层的输入特征表示，即确定与多个视角分别对应的输入特征表示。

可选地，为了基于多个二维的输入特征表示分析三维的实体元素的三维信息，对多个输入特征表示分别进行维度转换，从而得到与多个输入特征表示分别对应的三维转换矩阵，即得到多个三维转换矩阵。进而对多个三维转换矩阵进行分析，以从中提取到共有的三维共享信息，即：三维共享信息能够表征多个二维的输入特征表示在转换为三维特征后保有的元素信息内容。

在一些实施例中，服务器120以三维共享信息对多个输入特征表示进行调整，得到多个调整特征表示。

其中，多个输入特征表示和多个调整特征表示之间存在对应关系。

示意性的，三维共享信息能够在三维尺度上展现多个输入特征表示之间的关联性，从而能够对借助三维共享信息对多个视角下加噪特征表示的解码过程进行约束。将三维共享信息对多个输入特征表示分别进行调整，从而得到多个调整特征表示，多个调整特征表示之间在三维尺度上具有较好的几何一致性。

在一些实施例中，服务器120基于多个调整特征表示生成实体元素在多个视角下分别对应的视角图像。

其中，多个视角图像用于整合生成表征实体元素的三维模型。

示意性的，服务器120基于每一个调整特征表示得到对应视角下的视角图像，该视角图像是通过该视角对实体元素进行预测得到的图像。可选地，借助多个视角图像能够整合生成表征实体元素的三维模型。

在一些实施例中，服务器120将用于渲染显示三维模型的渲染数据通过通信网络130发送至终端110。可选地，终端110基于渲染数据渲染显示三维模型。

值得注意的是，上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端，也可以实现为台式电脑等；上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。

结合上述名词简介和应用场景，对本申请提供的三维模型生成方法进行说明，以该方法应用于服务器为例进行说明，如图2所示，该方法包括如下步骤210至步骤250。

步骤210，获取噪声数据对应的加噪特征表示。

示意性的，噪声数据是用于表示噪声的数据。可选地，噪声数据为随机选取的噪声。

加噪特征表示是用于表征噪声数据的数据信息的特征表示。可选地，基于噪声数据从预先获取的高斯分布中采样得到加噪特征表示。

其中，加噪特征表示用于在多个视角下分别进行去噪处理，得到实体元素在多个视角下分别对应的视角图像。

示意性的，实体元素是三维的立体元素，是需要进行三维模型合成的元素。例如：实体元素为真实世界中存在的物体元素，如：建筑物、树木、书本等；或者，实体元素为虚拟世界中合成的物体元素，如：虚拟人物、虚拟建筑物等。

示意性的，多个视角是不同的视角，视角是用于表征对实体元素进行观测时采用的观测角度。

可选地，多个视角是预先选取的内容。例如：多个视角包括用于展示实体元素正视图的正视角、用于展示实体元素侧视图的侧视角、用于展示实体元素视图的俯视角等。示意性的，多个视角还可以分别通过不同的空间角度的形式进行表征。

在一些实施例中，多个视角分别对应一个去噪模型，去噪模型是基于该视角进行训练后得到的模型。示意性的，针对视角A对应的去噪模型1，去噪模型1是基于视角A采集得到多个样本图像进行训练后得到的模型。

当在多个视角下分别对加噪特征表示进行去噪处理时，将加噪特征表示输入多个视角分别对应的去噪模型，每一个去噪模型都会基于对应视角对加噪特征表示进行去噪处理，从而得到表征在该视角下对实体元素进行预计观测后生成的视角图像。

例如：将加噪特征表示输入视角A对应的去噪模型1，通过去噪模型1对加噪特征表示进行去噪处理，得到通过视角A对实体元素进行预计观测后生成的视角图像a；此外，还会将加噪特征表示输入视角B对应的去噪模型2，通过去噪模型2对加噪特征表示进行去噪处理，得到通过视角B对实体元素进行预计观测后生成的视角图像b等。

步骤220，在通过多个视角分别对应的去噪网络层对加噪特征表示进行去噪处理时，确定多个视角分别对应的去噪网络层的输入特征表示。

可选地，针对多个视角中的任意一个视角，该视角对应至少一个去噪网络层，去噪网络层是用于执行去噪处理过程的网络层。示意性的，与多个视角分别对应的去噪模型中包括至少一个去噪网络层，在将加噪特征表示输入至与每个视角分别对应的去噪模型后，通过其中的至少一个去噪网络层基于加噪特征表示进行去噪处理过程。

示意性的，多个视角分别对应的多个去噪网络层，且多个视角分别对应的多个去噪网络层之间存在一一对应关系。例如：与多个视角分别对应的去噪模型存在相同的模型结构，其中每个视角对应的多个去噪网络层之间一一对应，如视角A对应的第一个去噪网络层与视角B对应的第一去噪网络层之间存在对应关系。

可选地，基于与多个视角分别对应的至少一个去噪网络层是基于该视角训练得到的去噪网络层，因此虽然不同视角下具有对应关系的多个去噪网络层之间存在相同的网络层结构，但是多个去噪网络层之间的网络层参数可能存在差异。

示意性的，视角A下的第一个去噪网络层与视角B下的第二个去噪网络层之前具有对应关系，但是视角A下的第一个去噪网络层的网络层参数以参数β表示，视角B下的第一个去噪网络层的网络层参数以参数θ表示，其中参数β与参数θ不同。

值得注意的是，以上仅为示意性的举例，本申请实施例对此不加以限定。

其中，输入特征表示是待输入去噪网络层进行去噪的特征表示。

示意性的，去噪网络层在基于加噪特征表示进行去噪处理时，还会对加噪特征表示的特征维度进行调整，针对任意一个去噪网络层而言，首先确定待输入至该去噪网络层的特征表示作为输入特征表示，该输入特征表示相比加噪特征表示，存在去噪处理后的噪声减少后的变化，也可能存在特征维度上的变化等。

在一个可选的实施例中，去噪网络层中包括解码网络层，在通过多个视角分别对应的去噪网络层对加噪特征表示进行去噪处理时，通过多个视角分别对应的解码网络层对加噪特征表示进行解码处理，并确定多个视角分别对应的、待输入解码网络层进行解码的特征表示作为输入特征表示。

示意性的，每一个视角分别对应多个解码网络层，针对多个视角中任意一个视角而言，确定待输入每一个解码网络层进行解码的输入特征表示，即会基于一个视角确定与多个解码网络层分别对应的输入特征表示。

在一些实施例中，每一个视角分别对应至少一个去噪网络层(如：解码网络层)，多个视角分别对应的至少一个去噪网络层之间存在一一对应关系，针对任意一个去噪网络层而言，确定针对该解码网络层而言，与多个视角分别对应的输入特征表示，从而会基于具有对应关系的一种解码网络层以及多个视角，确定与该解码网络层对应的多个输入特征表示。

示意性的，以去噪网络层为解码网络层为例，视角1对应两层解码网络层，视角2对应两层解码网络层，视角1对应的第一个解码网络层与视角2对应的第一个解码网络层之间存在对应关系；视角1对应的第二个解码网络层与视角2对应的第二个解码网络层之间存在对应关系。因此，针对第一个解码网络层而言，确定与多个视角(视角1和视角2)分别对应的输入特征表示，得到与第一个解码网络层对应的多个输入特征表示；同理，针对第二个解码网络层而言，确定与多个视角(视角1和视角2)分别对应的输入特征表示，得到与第二个解码网络层对应的多个输入特征表示等。

步骤230，提取多个输入特征表示分别对应的三维转换矩阵之间共有的三维共享信息。

示意性的，每个视角对应至少一个去噪网络层，且多个视角分别对应的至少一个去噪网络层之间存在一一对应关系；在提取三维共享信息时，针对至少一个去噪网络层中的任意一个去噪网络层进行分析，基于多个视角下的该种去噪网络层，确定与该种解码网络层对应的多个输入特征表示。

例如：视角A对应的第一个去噪网络层与视角B对应的第一个去噪网络层之间存在对应关系，确定待输入至视角A对应的第一个去噪网络层的输入特征表示1，确定待输入至视角B对应的第一个去噪网络层的输入特征表示2，将输入特征表示1和输入特征表示2作为与第一个去噪网络层对应的多个输入特征表示。

示意性的，输入特征表示是基于二维的加噪特征表示进行去噪处理和/或特征尺度转换得到的特征表示，因此输入特征表示为二维的特征表示。

在一些实施例中，为了能够在三维尺度上研究输入特征表示，在获取得到针对具有对应关系的多个去噪网络层分别对应的输入特征表示后，对多个输入特征表示分别进行维度转换，从而得到与多个输入特征表示分别对应的三维转换矩阵，即得到多个三维转换矩阵，三维转换矩阵是三维的特征表示，多个三维转换矩阵与多个输入特征表示之间一一对应。

也即：三维转换矩阵是对输入特征表示进行维度转换得到的。

在一些实施例中，在得到多个三维转换矩阵后，对多个三维转换矩阵进行分析，以提取得到多个三维转换矩阵之间共有的三维共享信息。

可选地，采用具有注意力机制的池化层对多个三维转换矩阵进行分析，从而提取得到多个三维转换矩阵之间共有的三维共享信息。

示意性的，三维共享信息用于表征在三维尺度上多个输入特征表示之间的共享关联关系。例如：通过三维共享信息能够知悉表征多个输入特征表示的、多个三维转换矩阵之间的几何一致性，也能够大致知悉所表征的实体元素的形状、结构、颜色等各种属性信息。如：通过三维共享信息大致知悉实体元素的某个棱角存在缺口；或者，实体元素的中心位置的颜色不同等。

可选地，借助三维共享信息能够对不同视角下分别进行的去噪过程进行约束，避免不同视角分别对应的去噪网络层仅仅在先前的训练过程的基础上，对加噪特征表示进行单独的去噪处理，影响多个视角针对同一加噪特征表示的分析关联性；也即：能够借助表征共有信息的三维共享信息，提高多个视角下具有对应关系的去噪网络层之间的分析关联性。

示意性的，基于三维共享信息是基于具有对应关系的多个去噪网络层的多个输入特征表示得到的信息，因此三维共享信息与去噪网络层之间存在对应关系；当针对每一个视角而言存在多个去噪网络层，则综合多个视角而言，会提取得到与一个视角下多个去噪网络层分别对应的三维共享信息。

例如：基于多个视角分别对应的第一个去噪网络层的多个输入特征表示，提取得到三维共享信息1，该三维共享信息1与第一个去噪网络层相对应；若每个视角下包括多个去噪网络层，则还会基于多个视角分别对应的第二个去噪网络层提取得到三维共享信息2，该三维共享信息2与第二个去噪网络层相对应等。

步骤240，以三维共享信息对多个输入特征表示进行调整，得到多个调整特征表示。

示意性的，基于三维共享信息是基于多个输入特征表示提取得到共有信息，能够综合展现多个输入特征表示之间的相同内容和/或相似内容。

在一些实施例中，在得到与多个输入特征表示对应的三维共享信息后，通过三维共享信息对多个输入特征表示分别进行调整，从而得到与多个输入特征表示分别对应的调整特征表示，即得到多个调整特征表示。

也即：多个输入特征表示和多个调整特征表示之间存在对应关系。

示意性的，以三维共享信息对视角A下的第一个去噪网络层的输入特征表示1进行调整，从而得到与输入特征表示1对应的调整特征表示1'；此外，以三维共享信息对视角B下的第一个去噪网络层的输入特征表示2进行调整，从而得到与输入特征表示2对应的调整特征表示2'等。

步骤250，基于多个调整特征表示生成实体元素在多个视角下分别对应的视角图像。

示意性的，在得到多个输入特征表示对应的多个调整特征表示后，以调整特征表示代替输入特征表示，输入至与输入特征表示对应的去噪网络层，从而通过去噪网络层对蕴含有三维共享信息的调整特征表示进行特征尺寸转换和/去噪处理过程，避免通过不同视角分别对应的去噪网络层进行独立分析时缺乏关联性的问题。

例如：以针对多个视角下分别对应的第一个去噪网络层进行分析为例，综合视角A对应的第一个去噪网络层的输入特征表示1，以及视角B对应的第一个去噪网络层的输入特征表示2得到三维共享信息，该三维共享信息与第一个去噪网络层相对应；通过该三维共享信息对输入特征表示1进行调整，得到与输入特征表示1对应的调整特征表示1'，通过该三维共享信息对输入特征表示2进行调整，得到与输入特征表示2对应的调整特征表示2'。

将调整特征表示1'输入至视角A对应的第一个去噪网络层，以使得视角A对应的第一个去噪网络层能够对包括三维共享信息的调整特征表示1'进行处理；同理，将调整特征表示2'输入至视角A对应的第一个去噪网络层，以使得视角B对应的第一个去噪网络层能够对包括三维共享信息的调整特征表示2'进行处理等。

可选地，当去噪网络层实现为解码网络层，将调整特征表示1'输入至视角A对应的第一个解码网络层，以使得视角A对应的第一个解码网络层能够对包括三维共享信息的调整特征表示1'进行解码处理，如对调整特征表示1'进行特征尺寸转换；同理，将调整特征表示2'输入至视角B对应的第一个解码网络层，以使得视角B对应的第一个解码网络层能够对包括三维共享信息的调整特征表示2'进行解码处理，如对调整特征表示2'进行与等尺度的特征尺寸转换等。

在一个可选的实施例中，在通过与每一个视角分别对应的去噪网络层对调整特征表示进行去噪处理后，得到与每一个视角分别对应的去噪特征表示。

其中，去噪特征表示是对加噪特征表示进行去噪处理后得到的特征表示。

可选地，每个视角分别对应多个去噪网络层，针对任意一个视角而言，通过该视角下的最后一个去噪网络层对最后一个调整特征表示进行去噪处理，从而得到与该视角对应的去噪特征表示。

例如：通过视角A对应的最后一个去噪网络层对最后一个调整特征表示o进行去噪处理，从而得到与视角A对应的去噪特征表示o'；同理，通过视角B对应的最后一个去噪网络层对最后一个调整特征表示p进行去噪处理，从而得到与视角B对应的去噪特征表示p'等。

在一个可选的实施例中，通过解码器对多个去噪特征表示分别进行处理，得到与多个去噪特征表示分别对应的视角图像，得到多个视角图像。

示意性的，借助解码器对多个去噪特征表示分别进行解码处理，从而根据去噪特征表示还原得到视角图像；多个去噪特征表示与多个视角一一对应，还原得到的视角图像是预测得到的通过对应视角观测实体元素时的图像内容。

例如：视角A对应去噪特征表示o'，通过解码器对去噪特征表示o'进行解码处理，从而还原得到与视角A对应的视角图像a，该视角图像a是预测得到的通过对应视角A观测实体元素时的图像内容；同理，视角B对应去噪特征表示p'，通过解码器对去噪特征表示p'进行解码处理，从而还原得到与视角B对应的视角图像b，该视角图像b是预测得到的通过对应视角B观测实体元素时的图像内容等。

可选地，多个视角分别对应一个编码器，通过对应视角的编码器对该视角对应的去噪特征表示进行处理；或者，多个视角对应一个编码器，通过该编码器对每个视角分别对应的去噪特征表示进行处理，此处不加以限定。

示意性的，多个视角图像是从不同视角展现实体元素的图像内容，在得到多个视角图像后，借助预设程序对多个视角图像进行处理，从而将多个视角图像整合生成表征实体元素的三维模型，该三维模型能够从多个视角展现实体元素，且三维模型的形状、结构等属性信息符合多个视角图像。

在一些实施例中，为了使得三维模型更加接近真实的实体元素，选取较多视角进行上述过程，从而能够更加细致准确地描述实体元素，得到真实度更高的三维模型。

综上所述，通过对多个输入特征表示进行统筹分析，能够对多个输入特征表示在三维尺度上的相同信息予以获取，从而提取得到三维共享信息，借助三维共享信息对输入特征表示表征进行约束，从而避免不同视角通过对应去噪网络层进行独立去噪处理时的割裂问题，通过三维共享信息对输入特征表示进行调整，有利于加强不同视角进行去噪处理过程中的关联性，从而使得视角图像之间存在较强的关联性，有利于基于多个视角图像整合生成几何一致性更强的三维模型，提高通过三维模型表征实体元素的真实性和细致性。

在一个可选的实施例中，在提取三维共享信息时，首先获取多个输入特征表示分别对应的三维转换矩阵，进而借助具有注意力机制的池化层对多个三维转换矩阵进行分析，以提取得到代表共有结构信息的三维共享信息。示意性的，如图3所示，上述图2所示出的步骤230还可以实现为如下步骤310至步骤320。

步骤310，对多个输入特征表示分别进行反投影处理，得到与多个输入特征表示分别对应的三维转换矩阵。

示意性的，输入特征表示为二维尺度的特征表示，如：输入特征表示是以二维矩阵的形式进行表示的特征。

可选地，在得到多个输入特征表示后，为将二维尺度的特征表示调整为表征空间信息的三维尺度，对多个输入特征表示分别进行反投影处理。

其中，反投影处理即表征基于二维的图像重建得到一个三维的物体空间，基于对输入特征表示进行处理，则针对输入特征表示进行的反投影处理表征将二维的输入特征表示重建得到一个三维的三维转换矩阵。

在一个可选的实施例中，对多个输入特征表示分别进行反投影处理，得到与多个视角分别对应的投影特征表示。

可选地，通过预先选取的反投影函数对输入特征表示进行反投影处理。

示意性的，通过反投影函数对多个输入特征表示分别进行反投影处理，从而将每一个输入特征表示转化为三维尺度的特征表示，并将该特征表示称为投影特征表示。也即：投影特征表示用于以三维尺度表征输入特征表示的特征信息，也是在空间维度上对输入特征表示进行表达的信息。

其中，基于在针对具有对应关系的多个去噪网络层进行处理时，获取的多个输入特征表示与多个视角一一对应，因此基于对输入特征表示分别进行反投影处理后，得到的多个投影特征表示与多个视角一一对应。

在一个可选的实施例中，获取多个视角分别对应的参数特征表示。

可选地，在将输入特征表示转化为三维尺度的投影特征表示外，为了能够更加突出不同视角下对投影特征表示的影响情况，还获取与多个视角分别对应的参数特征表示，参数特征表示是基于视角对应的相机参数得到的特征表示，用于表征对应视角的空间信息。

其中，多个参数特征表示与多个投影特征表示之间存在对应关系。

在一些实施例中，获取多个视角分别对应的相机参数。

示意性的，视角与相机相对应，视角的确定不仅会受相机所处位置的影响，也会受到相机所处方向的影响；相机是用于表征对实体元素进行采集时的抽象表达，基于对多个视角的选取，能够确定与多个视角分别对应的相机所表征的相机参数。

基于多个视角是用于预计关系实体元素的视角，因此基于多个视角与相机参数之间的对应关系，代表相机参数表征相机与预计的实体元素之间的相对位置情况。

可选地，相机参数包括相机位置和相机方向，相机位置即表征相机所处的位置，相机方向即表征相机所处的方向；如：相机位置表征相机在世界坐标系中相对实体元素的位置，相机方向表征相机在世界坐标系中相对实体元素的方向等。

值得注意的是，此处表征的相机是为了表明视角的抽象表达，将相机与实体元素之间的相对位置情况称为相机参数，相机参数是预先确定的已知参数，但是基于相机/视角获取的视角图像并未预先获取的，而是基于相机参数等信息预测得到的图像内容，即：确定相机参数的目的在于通过对应的视角进行预测分析过程，以基于相机所处相机位置对应的视角，生成对应视角的视角图像。

在一些实施例中，对多个相机参数分别进行体积表达，得到与多个相机参数分别对应的参数体积表达。

示意性的，参数体积表达是在三维空间内对相机参数进行表达得到的特征表示。

可选地，在针对输入特征表示进行反投影处理的三维空间中，确定三维空间内的多个体素。

体素是体积元素(Volume Pixel)的简称，是像素(pixel)、体积(volume)和元素(element)的组合词，相当于三维(3Dimension，3D)空间中的像素。

示意性的，多个体素实现为组成三维空间的全部体素；或者，多个体素实现为三维空间中的部分体素等。

可选地，反投影处理所投射的三维空间是由大量体素组成的空间，在对多个相机参数分别进行体积表达时，确定每一个相机参数对应的相机以及在反投影处理时投射的三维空间，进而综合相机和三维空间中的多个体素得到与相机参数对应的参数体积表达。

示意性的，以针对多个相机参数中的相机参数Q进行分析为例，与该相机参数Q对应的相机为相机C，对应的视角为视角A，视角A对应输入特征表示1，输入特征表示1所投射的三维空间为三维空间S，确定三维空间S内的多个体素(如体素s1、体素s2等)，从而综合相机C和三维空间S中的多个体素得到与相机参数Q对应的参数体积表达。

可选地，确定相机与多个体素之间的相对位置情况，从而得到多个体素分别对应的视角方向和视角深度；将与每个体素分别对应的视角方向和视角深度记录在该体素中，综合多个体素得到与相机参数对应的参数体积表达。

其中，视角方向是基于体素相对于相机中心的方向确定的内容；视角深度是基于体素相对于相机中心的距离确定的内容。

示意性的，将每个体素连接到对应相机的相机中心，将连线方向记为视角方向；将连线在相机主光轴方向的投影长度记为视角深度。

例如：以针对多个相机参数中的相机参数Q进行分析为例，与该相机参数Q对应的相机为相机C，对应的三维空间为三维空间S，其中包括体素s1、体素s2等多个体素；针对体素s1而言，确定体素s1相对于相机C的相机中心c的视角方向，以及确定体素s1相对于相机C的相机中心c的视角深度；此外，还会确定体素s2相对于相机C的相机中心c的视角方向，以及确定体素s2相对于相机C的相机中心c的视角深度等。进而综合多个体素分别记录的是视角方向和视角深度，得到与该相机参数对应的参数体积表达。

可选地，通过上述过程确定多个相机参数分别对应参数体积表达。

在一些实施例中，通过预设特征编码函数对参数体积表达进行位置编码，得到与多个视角分别对应的参数特征表示。

其中，预设特征编码函数用于对参数体积表达进行规范化处理，以针对多个视角分别对应的参数体积表达，得到多个参数特征表示，多个参数特征表示与多个参数体积表达一一对应。

在一个可选的实施例中，基于对应关系，对同一视角下的投影特征表示和参数特征表示进行特征拼接处理，得到与多个输入特征表示分别对应的三维转换矩阵。

示意性的，在得到多个参数特征表示和多个投影特征表示后，基于多个参数特征表示与多个视角一一对应，多个投影特征表示与多个视角也是一一对应的关系，确定多个参数特征表示与多个投影特征表示之间的一一对应关系；从而基于对应关系，对同一视角对应的投影特征表示和参数特征表示进行特征拼接处理，得到与每一个视角分别对应的三维转换矩阵，也即得到与多个输入特征表示分别对应的三维转换矩阵。

在一些实施例中，将每个视角所表征的位置点称为视点，以通过N个视点进行三维模型的生成任务为例进行说明。

示意性的，对于N个视点的生成任务，计视点标号为i＝1…N。

可选地，以去噪网络层实现为解码网络层为例，输入为N张特征图像(输入特征表示)，每个输入特征表示为解码网络层部分的特征图像。

示意性的，将视点i的输入特征表示记为m_i，对m_i进行反投影处理，以得到反投影至三维空间中的三维转换矩阵vⁱ，如下公式一所示。

公式一：

其中，Π^-1为将二维尺度的输入特征表示转化为三维的投影特征表示的反投影函数；表示特征维度的特征拼接处理；PosEncode表示预设特征编码函数；/>表示相机参数对应的参数体积表达，其中包括视角方向和视角深度。

步骤320，对多个三维转换矩阵进行注意力池化处理，得到体积特征表示。

可选地，通过具有注意力机制的池化层进行注意力池化处理过程；在得到针对具有对应关系的去噪网络层的多个三维转换矩阵后，为了对多个三维转换矩阵所表征的具有关联性的空间信息进行分析，对多个三维转换矩阵进行注意力池化处理，以关注多个三维转换矩阵之间共有的三维共享信息。

基于注意力池化处理得到体积特征表征，也即：该体积特征表示用于表征多个三维转换矩阵之间共有的三维共享信息。

在一个可选的实施例中，确定多个三维转换矩阵分别表征的体素集合。

基于三维转换矩阵是综合表征输入特征表示的投影特征表示和表征相机属性的参数特征表示得到的矩阵，因此多个三维转换矩阵都能表征对应视角的特征信息。

可选地，在确定多个三维转换矩阵分别表征的体素集合时，确定得到三维转换矩阵时的三维空间，将三维空间内参与确定参数体积表达的多个体素组成上述体素集合。例如：将三维空间内的全部体素组成上述体素集合。

示意性的，体素集合用于表征得到三维转换矩阵时三维空间内的多个体素的集合。

在一个可选的实施例中，对多个体素集合中处于相同体素位置的多个体素进行关注，得到多个注意力值。

可选地，每一个三维转换矩阵对应一个体素集合，则会得到多个体素集合。基于在得到三维转换矩阵时，对参数体积表达下三维空间内的多个体素进行过程位置编码，因此能够较快地基于位置编码过程确定多个体素集合中的相同体素位置。

示意性的，以任意一个体素位置为例，确定每一个体素集合中该体素位置对应的体素，从而得到多个体素；对多个体素进行并行关注，以提取得到属于相同体素位置的不同体素之间的共有信息，并以注意力值表征共有信息。

同理，对多个体素位置分别进行上述分析，从而基于同一体素位置对应的多个体素进行并行关注，以提取到与多个体素位置分别对应的共有信息，从而得到与多个体素位置分别对应的注意力值。

在一个可选的实施例中，对多个注意力值进行池化处理，得到体积特征表示。

示意性的，综合多个注意力值进行池化处理，从而得到结合多个共有信息得到的体积特征表示，该体积特征表示不仅基于同一体素位置对多个视角下该体素位置对应的体素进行并行分析，更基于不同体素位置分别对应的注意力值进行了统筹分析，能够更准确且细致地展现多个输入特征表示之间共有的三维共享信息。

在一些实施例中，针对上述公式一计算得到的三维转换矩阵vⁱ，通过注意力池化机制，将N个视点的三维转换矩阵vⁱ统一为一个体积特征表示如下公式二所示。

公式二：

其中，Pool用于表示池化处理；用于表示哈达玛积(Hadamard product)，是矩阵的一类计算，用于表征矩阵元素之间一一对应相乘；Attention用于表示注意力层进行注意力处理；x用于表示三维转换矩阵中的体素(或称体素块)；vⁱ[x]用于表示针对同一体素位置而言，在多个不同视角分别对应的体素之间的关系，可以视为上述的注意力值；Attention({vⁱ[x]|i＝1...N})用于对多个体素位置分别对应的注意力值进行统筹关注。

在本申请实施例中，介绍了提取三维共享信息的内容。首先对二维尺度的输入特征表示进行反投影处理，得到与输入特征表示对应的三维转换矩阵；进而对三维转换矩阵进行注意力池化处理，得到体积特征表示作为三维共享信息的特征表达形式。通过将二维尺度转化为三维尺度，有利于对输入特征表示所表征的几何信息进行更针对性的分析，从而能够借助体积特征表示更细致地表征三维共享信息，进而有利于基于体积特征表示在空间维度上进行分析，也有利于基于体积特征表示进行后续的调整过程。

在一个可选的实施例中，在通过三维共享信息对输入特征表示进行调整时，首先基于三维尺寸的三维共享信息进行维度转换得到二维尺寸的残差特征表示，进而将残差特征表示与输入特征表示一同进行特征拼接处理，从而得到调整特征表示。示意性的，如图4所示，上述图2所示出的步骤240可以实现为如下步骤410至步骤430。

步骤410，获取表征三维共享信息的体积特征表示。

示意性的，对多个输入特征表示分别进行维度转换得到三维转换矩阵，通过多个三维转换矩阵得到的三维共享信息是以三维尺度表示的信息，可以以体积特征表示表征该三维尺度的三维共享信息。

示意性的，体积特征表示是通过世界坐标系确定的特征表示，世界坐标系是基于选定的原点、横轴、纵轴以及竖轴建立得到的坐标系。

步骤420，基于多个输入特征表示分别对应的视角以及体积特征表示，得到与多个视角分别对应的三维特征表示。

示意性的，体积特征表示是与多个输入特征表示共同对应的特征表示；在通过体积特征表示对输入特征表示进行调整时，考虑与多个输入特征表示分别对应的视角，从而综合视角和体积特征表示，得到包含有视角信息的三维特征表示。

其中，三维特征表示用于表征体积特征表示对输入特征表示在空间维度上的影响；也能够侧面展现视角在体积特征表示对输入特征表示进行调整时的作用。

基于多个三维特征表示与多个视角之间存在一一对应关系，多个输入特征表示与多个视角之间存在一一对应关系，即：多个三维特征表示和多个输入特征表示之间具有对应关系。

在一个可选的实施例中，确定多个视角分别对应的相机坐标系。

其中，相机坐标系是基于确定对应视角时采用的相机为参考点建立的坐标系。

示意性的，多个视角分别是基于不同相机所处的相机位置和相机方向确定的位置信息，因此多个视角分别对应一个相机。相机坐标系是以相机为参考点确定的原点、横轴、纵轴以及竖轴建立得到的坐标系。例如：以相机中心为相机坐标系的原点，选取横轴、竖轴和纵轴以创建得到相机坐标系；或者，以相机上的任一点为原点，选取横轴、竖轴和纵轴以创建得到相机坐标系等。

可选地，基于多个视角分别对应一个相机，基于每一个相机分别建立一个相机坐标系，则会通过多个相机创建得到多个相机坐标系，多个视角分别对应一个相机坐标系。

在一个可选的实施例中，以视角方向对应的相机坐标系为参考，对体积特征表示进行三维坐标映射，得到表征与多个视角分别对应的坐标特征表示。

可选地，体积特征表示是通过三维空间展现的三维尺度的特征表示，三维空间是基于世界坐标系建立得到的空间，该世界坐标系能够将不同的特征表示映射至相同的向量空间。

示意性的，以每一个视角分别对应的相机坐标系为参考，对体积特征表示进行三维坐标映射，从而将通过世界坐标系中展现的体积特征表示映射至每一个视角分别对应的相机坐标系，并得到与多个视角分别对应的坐标特征表示。

基于不同视角对应的坐标特征表示是基于不同相机为参考点获取得到的特征表示，因此多个视角分别对应的坐标特征表示之间可能存在一定差异。

例如：视角A对应相机坐标系a，以相机坐标系a为参考，将世界坐标系中的体积特征表示映射至相机坐标系a，从而实现对体积特征表示的三维坐标映射过程，得到与视角A对应坐标特征表示1；同理，视角B对应相机坐标系b，以相机坐标系b为参考，将世界坐标系中的体积特征表示映射至相机坐标系b，从而实现对体积特征表示的三维坐标映射过程，得到与视角B对应坐标特征表示2等。

在一些实施例中，通过预设的三维坐标转换函数执行上述坐标转换过程。示意性的，通过三线性插值将世界坐标系下的体积特征表示转换成相机坐标系下的坐标特征表示。

在一个可选的实施例中，基于多个视角和对应的坐标特征表示，得到在三维空间中多个视角分别对应的三维特征表示。

示意性的，在得到多个视角分别对应的坐标特征表示后，在同一视角下，基于该视角与坐标特征表示，得到该视角在三维空间中的三维特征表示。

在一些实施例中，获取多个视角分别表征的视角深度。

示意性的，视角深度是基于体素相对于相机中心的距离确定的内容，其中，体素是三维空间内的组成元素，将每个体素连接到对应相机的相机中心，将连线在相机主光轴方向的投影长度记为视角深度，从而使得每个体素都对应一个视角深度。

可选地，多个视角分别对应多个体素，每个体素分别对应一个视角深度。

在一些实施例中，在同一视角下，基于视角深度和坐标特征表示，得到在三维空间中多个视角分别对应的三维特征表示。

示意性的，针对任意一个视角进行分析，确定该视角对应的坐标特征表示，以及该视角下多个体素分别对应的视角深度。

可选地，确定与多个视角分别对应的三维转换矩阵表征的体素集合。

示意性的，体素集合中包括多个体素，每个体素对应一个视角深度。

可选地，以体素对应的视角深度为体素值，对体素集合中的多个体素块分别进行填充，得到具有体素值的体素块集合。

示意性的，以视角A对应的体素集合S为例，视角A对应的体素集合S中包括体素s1、体素s2等，以体素s1对应的视角深度为该体素s1对应的体素值，以体素s2对应的视角深度为该体素s2对应体素值等；基于对体素集合的上述填充过程，得到多个具有体素值的体素块，即得到具有体素值的体素块集合。

在一些实施例中，基于体素块集合和坐标特征表示，得到在三维空间中多个视角分别对应的三维特征表示。

示意性的，多个视角分别对应一个体素块集合，从而得到多个体素块集合；多个视角分别对应一个坐标特征表示，即存在多个坐标特征表示；基于同一视角下的体素块集合和坐标特征表示，得到与该视角对应的三维特征表示，即得到多个三维特征表示。

在一些实施例中，以预设位置编码函数对体素块集合进行位置编码，得到体素特征表示。

示意性的，通过预设位置编码函数对具有体素值的体素块集合进行位置编码处理，并将位置编码后的结果称为体素特征表示。

在一些实施例中，在同一视角下，对体素特征表示和坐标特征表示进行拼接处理，得到在三维空间中多个视角分别对应的三维特征表示。

示意性的，在同一视角下，对体素特征表示和坐标特征表示进行特征拼接处理，从而得到该视角下的三维特征表示；基于对多个视角下分别对应的体素特征表示和坐标特征表示进行特征拼接处理，得到与多个视角分别对应的三维特征表示，即得到多个三维特征表示。

在一些实施例中，针对上述公式二计算得到的体积特征表示首先通过坐标映射对体积特征表示/>进行处理，以差值成每个视点对应的相机坐标系下的三维特征表示/>如下公式三所示：

公式三：

其中，Warp是三维坐标转换函数，用于将世界坐标系下的体积特征表示转换为相机坐标系下的体积表达(即上述的坐标特征表示)；/>是体积特征表示/>的简称；/>表示特征维度的特征拼接处理；PosEncode是预设位置编码函数；/>表示基于相机参数中的相机深度确定的体素特征表示。

步骤430，基于对应关系，通过同一视角下的三维特征表示和输入特征表示得到多个调整特征表示。

示意性的，在确定借助与多个视角分别对应的相机坐标系得到对应三维特征表示后，即得到多个三维特征表示，基于多个三维特征表示和多个视角之间的对应关系，以及多个输入特征表示与多个视角之间的对应关系，通过同一视角下的三维特征表示和输入特征表示得到调整特征表示。

可选地，考虑到三维特征表示为三维尺度的特征表示，输入特征表示为二维尺度的特征表示，若需要将三维特征表示与输入特征表示一同进行分析，则需要将三维特征表示还原为二维尺度的特征表示。

在一些实施例中，将多个视角分别对应的三维特征表示投影至二维空间，得到与多个视角分别对应的残差特征表示。

示意性的，与上述反投影处理相反，采用投影处理对三维特征表示进行投影，以得到二维尺度的残差特征表示。

可选地，为便于后续的特征处理过程，设置反投影处理所采用的投影维度与投影处理所采用的投影维度相同。以相同投影维度对多个视角分别对应的三维特征表示进行投影处理，从而将投影至二维空间的特征表示称为残差特征表示，即得到与多个视角分别对应的残差特征表示。

在一些实施例中，在采用投影方式对三维特征表示进行投影时，采用如下公式四所示的内容，通过相同投影维度的注意力池化操作，将每个三维特征表示投影为残差特征表示

公式四：

基于在反投影过程中，二维尺度的像素会投影产生一条射线，从而基于多个二维尺度的像素会投影产生多条射线，形成三维空间；相应地，在投影过程中，每个射线会投影为对应的二维尺度的像素。

其中，用于表示以相同投影维度对三维特征表示/>进行投影处理；r用于表示二维尺度的残差特征表示(可以视为一个图像特征)中的像素(即：三维空间中的射线)；d用于表示射线上的深度，在投影还原过程中，针对d从进平面d_near到远平面d_far中均匀采样。

可选地，通过一个多层感知器(Multilayer Perceptron，MLP)，转化为和上述输入特征表示m_i具有相同尺寸的残差特征表示。

在一些实施例中，在同一视角下，将残差特征表示和输入特征表示进行特征拼接处理，得到与多个视角分别对应的调整特征表示。

示意性的，获取得到与多个视角分别对应的残差特征表示，基于多个残差特征表示与多个输入特征表示之间基于视角确定的对应关系，在同一视角下，对该视角对应的残差特征表示和该视角对应的输入特征表示进行特征拼接处理，得到与该视角分别对应的调整特征表示；基于对多个视角分别进行上述过程，得到与多个视角分别对应的调整特征表示。

可选地，在相同特征维度上，对残差特征表示和输入特征表示进行特征拼接处理，从而得到调整特征表示。

在本申请实施例中，介绍了通过三维共享信息对输入特征表示进行调整的内容。综合视角和体积特征表示，得到三维特征表示，进而在同一视角下，将三维特征表示投影至二维空间以得到与多个视角分别对应的残差特征表示，借助残差特征表示对输入特征表示进行调整，使得调整后的调整特征表示中蕴含有残差特征表示表征的三维共享信息，还与视角相对应，从而有利于基于调整特征表示进行更准确地去噪处理过程，以便得到更细致、且多个视角之间存在关联性的多个视角图像。

在一个可选的实施例中，在对加噪特征表示进行去噪处理的过程中，获取图像生成数据作为去噪处理的引导条件。示意性的，如图5所示，上述图2所示出的实施例还可以实现为如下步骤510至步骤560。

步骤510，获取噪声数据对应的加噪特征表示。

示意性的，实体元素是三维的立体元素，是需要进行三维模型合成的元素；多个视角是不同的视角，视角是用于表征对实体元素进行观测时采用的观测角度。

步骤520，获取图像生成数据。

其中，图像生成数据是针对实体元素采集得到的数据。

示意性的，在基于加噪特征表示进行去噪处理的过程中，需要设置引导条件，以对加噪特征表示进行针对性的去噪过程。

示意性的，图像生成数据用于生成表征实体元素的视角图像。

在一个可选的实施例中，获取针对实体元素采集得到的至少一个图像数据作为图像生成数据。

其中，图像数据是针对实体元素在预设视角采集得到的图像。

示意性的，预设视角是预先设定的视角，实现为至少一个视角，如视角A、视角K等；从预设视角对实体元素进行图像采集过程，从而采集得到至少一个图像数据。

可选地，基于视角与相机相对应，在通过预设视角采集得到图像时，通过预设视角对应的相机对图像数据进行采集。

示意性的，通过预设视角A对应的相机采集得到图像数据1，将图像数据1作为图像生成数据；或者，通过预设视角A对应的相机采集得到图像数据1；通过预设视角B对应的相机采集得到图像数据2，将图像数据1和图像数据2作为图像生成数据；或者，通过预设视角A对应的相机采集得到图像数据1和图像数据2，将图像数据1和图像数据2作为图像生成数据等。

在一些实施例中，用于对加噪特征表示进行分析的多个视角既可以包括上述预设视角，也可以不包括上述预设视角，本申请实施例对此不加以限定。

在一个可选的实施例中，获取用于描述实体元素的文本数据作为图像生成数据。

示意性的，文本数据是针对实体元素进行描述后得到的数据，用于以文本形式展现实体元素。如：文本数据为一只兔子在吃胡萝卜；或者，文本数据为一个虚拟战士在虚拟场景中站立等。

步骤530，在通过多个视角分别对应的去噪网络层对加噪特征表示进行去噪处理时，以图像生成数据为去噪条件，确定多个视角分别对应的去噪网络层的输入特征表示。

示意性的，将图像生成数据作为去噪条件，即引导加噪特征表示进行去噪处理过程中的调整方式。

可选地，获取针对实体元素采集得到的图像生成数据作为去噪处理过程中采用的引导条件，以便在对加噪特征表示进行去噪处理的过程中，以图像生成数据为参考信息，向着趋近于图像生成数据所表征信息的程度执行去噪处理过程。

示意性的，去噪条件用于确定对加噪特征表示进行去噪处理时的噪声预测情况。当对加噪特征表示进行去噪处理时，以图像生成数据为参考信息的条件下，以减小加噪特征表示中的噪声为目标，预测对加噪特征表示进行去噪(减噪)的噪声数据。

可选地，借助图像生成数据预测得到的噪声数据，能够在通过去噪网络层对加噪特征表示进行去噪处理的过程中，获取得到去除噪声数据后得到的特征表示；若存在多个去噪网络层，则会基于多个去噪网络层分别得到对应的噪声数据，从而基于每一个去噪网络层对应的去噪数据进行去噪处理过程。

在一些实施例中，多个视角分别对应至少一个去噪网络层，且多个视角下的至少一个去噪网络层之间存在一一对应关系；进而以具有对应关系的去噪网络层为分析对应，确定多个视角分别对应的去噪网络层的输入特征表示，该输入特征表示是待输入去噪网络层进行去噪的特征表示。

示意性的，去噪网络层实现为解码网络层，在通过多个视角分别对应的解码网络层对加噪特征表示进行解码处理时，以图像生成数据为去噪条件，确定多个视角分别对应的解码网络层的输入特征表示。

在一个可选的实施例中，多个视角分别对应m个去噪网络层，m为正整数。

示意性的，m为多个视角分别对应的去噪网络层的网络层数，多个视角分别对应的m个去噪网络层之间存在一一对应关系。

例如：视角A下的第一个去噪网络层与视角B下的第一个去噪网络层之间一一对应；视角A下的第m个去噪网络层与视角B下的第m个去噪网络层之间一一对应等。

示意性的，如图6所示，以多个视角中的两个视角为例进行说明，每个视角分别对应至少一个降噪自编码器(为便于展现迭代去噪过程，因此展示为每个视角分别对应一串降噪自编码器)，如视角A对应降噪自编码器610，视角B对应降噪自编码器620等，降噪自编码器用于执行去噪过程。

其中每个降噪自编码器包括多个去噪网络层，多个去噪网络层用于执行去噪过程以及特征尺寸转换过程；以通过去噪网络层中的解码网络层进行上述分析为例。

多个去噪网络层之间一一对应，解码网络层作为去噪网络层的组成部分，多个解码网络层之间也一一对应。如图6所示，视角A对应的解码网络层611与视角B对应的解码网络层621存在对应关系，视角A对应的解码网络层612与视角B对应的解码网络层622存在对应关系等。

步骤540，提取多个输入特征表示分别对应的三维转换矩阵之间共有的三维共享信息。

在一些实施例中，对多个输入特征表示分别进行维度转换，从而得到与多个输入特征表示分别对应的三维转换矩阵，即：三维转换矩阵是对输入特征表示进行维度转换得到的。

示意性的，三维共享信息用于表征在三维尺度上多个输入特征表示之间的共享关联关系。

在一个可选的实施例中，多个视角分别对应一个图像生成模型，多个图像生成模型具有相同的模型结构。

示意性的，图像生成模型中包括用于执行去噪处理的去噪网络层。可选地，去噪网络层中包括至少一个编码网络层和至少一个解码网络层，编码网络层与解码网络层之间一一对应，用于进行相反的特征尺寸转换。编码网络层用于逐步压缩特征尺寸，解码网络层用于逐步还原特征尺寸。

在一些实施例中，确定多个图像生成模型分别对应的多个去噪网络层之间的一一对应关系。

示意性的，基于不同视角下具有对应关系的去噪网络层而言，确定输入该多个去噪网络层的输入特征表示。

可选地，通过与多个视角分别对应的图像生成模型对加噪特征表示进行处理，并在通过图像生成模型中任意一个去噪网络层对加噪特征表示进行去噪处理时，确定对应视角的输入特征表示，从而基于多个视角得到多个输入特征表示。

在一些实施例中，将多个输入特征表示输入具有对应关系的多个去噪网络层之间的注意力池化层。

其中，注意力池化层是预先将具有对应关系的多个去噪网络层之间相连接的网络层。

在一些实施例中，通过注意力池化层提取多个输入特征表示分别对应的三维转换矩阵之间共有的三维共享信息。

可选地，注意力池化层用于对多个输入特征表示分别进行反投影处理，得到与多个输入特征表示分别对应的三维转换矩阵；对多个三维转换矩阵进行注意力池化处理，得到体积特征表示。该体积特征表示用于表征多个三维转换矩阵之间共有的三维共享信息。

示意性的，如图6所示，视角A对应的解码网络层611与视角B对应的解码网络层621存在对应关系，视角A对应的解码网络层612与视角B对应的解码网络层622存在对应关系。

确定将输入至解码网络层611的输入特征表示a1，确定将输入至解码网络层621的输入特征表示b1，将输入特征表示a1和输入特征表示b1输入至与解码网络层611和解码网络层621共同对应的注意力池化层631，得到与解码网络层611和解码网络层621共同对应的三维共享信息1；

同理，确定将输入至解码网络层612的输入特征表示a2，确定将输入至解码网络层622的输入特征表示b2，将输入特征表示a2和输入特征表示b2输入至与解码网络层612和解码网络层622共同对应的注意力池化层631，得到与解码网络层611和解码网络层622共同对应的三维共享信息2等。

在一些实施例中，对注意力池化层进行进一步说明，如图7所示，为注意力机制的池化层的内部结构示意图。

以多个视角中的两个视角(视角A和视角B)为例进行说明，视角A对应的编码网络层当前的输入特征表示为输入特征表示711；视角B对应的编码网络层当前的输入特征表示为输入特征表示721，这两个编码网络层之间存在对应关系。

对视角A的输入特征表示711和视角B的输入特征表示721分别进行反投影处理，得到与输入特征表示711对应的三维转换矩阵712，以及得到与输入特征表示721对应的三维转换矩阵722。

此外，对三维转换矩阵712和三维转换矩阵722进行注意力池化处理，得到体积特征表示730，体积特征表示用于表征多个三维转换矩阵之间共有的三维共享信息。

步骤550，以三维共享信息对多个输入特征表示进行调整，得到多个调整特征表示。

在一些实施例中，如图7所示，在得到表征多个三维转换矩阵之间共有三维共享信息的体积特征表示730后，对体积特征表示730进行坐标映射，以将体积特征表示730映射至对应视角的相机坐标系下，得到视角A对应的坐标特征表示741以及视角B对应的坐标特征表示742。

此外，对坐标特征表示741和坐标特征表示742分别进行投影维度的注意力池化操作，得到与视角A对应的三维特征表示751以及与视角B对应的三维特征表示752；进而基于三维特征表示751输出与视角A对应的残差特征表示，以及基于三维特征表示752输出与视角B对应的残差特征表示。

步骤560，基于多个调整特征表示生成实体元素在多个视角下分别对应的视角图像。

在一个可选的实施例中，针对多个视角分别对应的第n个去噪网络层的调整特征表示进行去噪处理，得到多个视角分别对应的第n+1个去噪网络层的输入特征表示。

其中，n为不大于m的正整数。示意性的，基于上述得到调整特征表示的过程，在得到对第n个去噪网络层的输入特征表示进行调整后的调整特征表示后，通过第n个去噪网络层对该调整特征表示进行去噪处理，从而得到待输入至第n+1个去噪网络层的输入特征表示。

在一些实施例中，响应于经过第m个去噪网络层，获取与多个视角分别对应的第m个去噪网络层输出的去噪特征表示。

示意性的，第m个去噪网络层是最后一个去噪网络层，在将对第m个去噪网络层对应输入特征表示进行调整后的调整特征表示经过第m个去噪网络层后，得到去噪特征表示；基于多个视角参与上述过程，因此会得到与多个视角分别对应的第m个去噪网络层输出的去噪特征表示。

示意性的，如图6所示，经过第m个去噪网络层后，获取与多个视角分别对应的第m个去噪网络层输出的去噪特征表示，从而将z_t去噪为z_t+1，当未经过去噪处理过程，z_t为加噪特征表示；当经过去噪处理过程，z_t为中间层的加噪特征表示，z_t+1为去噪特征表示，也为即将进行下一次迭代去噪过程的中间层的加噪特征表示；z_t+1作为加噪特征表示后，z_t+2为基于z_t+1得到的去噪特征表示等。

在一些实施例中，在多个视角下基于去噪特征表示进行迭代去噪处理，直至达到迭代次数后，得到与多个视角分别对应的解码特征表示。

示意性的，将每一个视角分别对应去噪特征表示再通过上述去噪处理过程进行迭代去噪过程，并在达到迭代此处后得到解码特征表示。

其中，解码特征表示用于表征对加噪特征表示进行去噪后得到的特征表示。

在一些实施例中，将多个解码特征表示分别通过解码器，生成实体元素在多个视角下分别对应的视角图像。

示意性的，解码器是与视角对应的图像生成模型中配置的解码层，能够对解码特征表示进行解码处理，从而生成与视角对应的视角图像；或者，解码器是图像生成模型之外的解码层，能够对解码特征表示进行解码处理，从而生成与视角对应的视角图像等。

在本申请实施例中，介绍了以图像生成数据为去噪处理的引导条件，并在多个视角下对加噪特征表示进行去噪处理的过程。以图像生成数据为去噪条件，引导加噪特征表示进行去噪处理过程中的调整方式，以调整特征表示替代输入特征表示，通过去噪网络层进行去噪处理；并可以在存在多个去噪网络层时，通过多个去噪网络层的依次去噪，从而生成实体元素在多个视角下分别对应的视角图像，进而得到一致性更强、视角关联度更高的三维模型，提高三维模型的生成真实性。

在一个可选的实施例中，将三维模型生成方法称为“利用多视维度和深度维度的注意力机制构建3D一致的多视图生成扩散模型”，其中进行去噪处理的过程由稳定扩散模型(Stable Diffusion)执行实现。

示意性的，基于扩散式生成模型(扩散模型)予以改进。

传统扩散式生成模型的输入为指定文本，输出为符合文本描述的一张图像。如图8所示，传统扩散模型核心为一个循环调用的降噪自编码器810，初始输入是高斯噪声图像，每次降噪后图像都会更接近生成的图像，直至最后噪声被完全移除，生成满足用户输入文本描述的图像。

本申请实施例基于传统扩散式生成模型进行改良，使多个扩散式生成模型通过文本输入，并行的生成满足文本描述的一个物体的不同角度的多张视角图像，其中每个扩散模型生成一个视点(视角)下的图像，并使得这些视角图像拥有几何一致性，如上述图6所示。

在如图6所示的模型结构中，通过并行调用降噪自编码器生成多个视点下的视角图像。为了保证图像的一致性，加入注意力机制的池化模块(如：AtnPool)，其输入为所有视点下降噪自编码器的解码器部分的特征图像(上述的输入特征表示)，输出为这些视角图像的残差特征表示。通过将残差特征表示加回输入特征表示，使得所有视点下的降噪自编码器具备三维一致性。

示意性的，三维模型生成方法的核心是在并行的多个传统扩散式生成模型管线中插入一个基于多视点三维表达的模块，可以将该模块称之为注意力机制的池化模块(即上述的注意力机制的池化层)，借助注意力机制的池化模块以保证彼此的一致性。

其中，注意力机制的池化模块的输入是每个扩散模型的特征图像(上述的输入特征表示)，池化模块将不同视点下的特征图像投影到三维空间，并通过注意力机制融合成统一的特征体积表达(体积特征表示)，然后将该表达通过注意力机制重投影到每个视点上，输出一致的特征图像的残差(残差特征表示)。

如图7所示，为注意力机制的池化层的内部结构示意图。

其中，注意力机制的池化层的输入为每个视点下降噪自编码器的特征图像(即上述的输入特征表示)；首先通过反投影将特征图像投回3D空间，将二维尺度的输入特征表示变为三维尺度的特征体积表达(即上述的三维转换矩阵)。然后在多视点维度通过注意力池化机制，将所有视点下的特征体积归一成统一的特征体积表达(即得到上述表征三维共享信息的体积特征表示)；接着通过坐标映射将统一的体积特征表示重新映射回每个视点的坐标系(即上述与视角对应的相机坐标系)下；之后通过投影的深度维度上的注意力池化机制，把3D特征体积(体积特征表示)重投影回2D特征图像(即上述的坐标特征表示)；最后的输出是和输入同等大小的一张特征残差图像(残差特征表示)。

可选地，以下内容对如图7中所示的“多视点维度的注意力池化(multiviewattention pooling)”过程以及“投影维度的注意力池化(ray attention pooling)”过程进行说明。

(一)多视点维度的注意力池化

示意性的，对于N个视点的生成任务，计视点标号为i＝1…N，多视点的注意力池化模块的输入为N张特征图像(输入特征表示)，每个特征图像为降噪自编码器的解码器部分的特征图像。将视点i的特征图像记为m_i，首先将其反投影到三维空间中的三维转换矩阵v_i，如上公式一所示。

之后，通过注意力池化机制，将N个视点的体积表达统一成一个体积表达——体积特征表示如上公式二所示。

值得注意的是，在注意力机制的池化层中，当训练过程时，其中可以优化的参数为注意力层的参数。

(二)投影维度的注意力池化

示意性的，此处负责将统一的体积特征表示重投影回特征图像(如上述的残差特征表示)，以使得重回后的特征图像中记录了具备三维几何一致性的特征信息，并以残差的形式加回每个视点输入的特征图像m_i(输入特征表示)，得到如上述的去噪特征表示。

首先是将体积特征表示通过坐标映射，差值成每个视点对应的相机坐标下的体积表达/>如上公式三所示的三维特征表示。

然后通过投影维度的注意力池化将每个三维特征表示投影为2D特征图像/>如上公式四所示。

可选地，将通过一个MLP转化为和输入特征表示m_i具有相同特征尺寸的残差特征表示，并加回到降噪自编码器对应的输入特征表示中。

其中，MLP多层感知器的参数初始值设为全零。

值得注意的是，在投影维度的注意力池化过程中，当训练过程时，其中可以优化的参数为注意力层的参数和MLP的参数。

在一些实施例中，对训练过程进行简要说明。以每个视角对应一个扩散模型作为图像生成模型为例，类似于传统扩散模型，在针对每个视角分别对应的扩散模型进行训练时，对每个视点下的图像加上相对独立的噪声进行训练。

示意性的，扩散模型在训练过程的本质在于，通过对源图像P进行加噪后，借助扩散模型中的潜在空间执行去噪过程，并去噪后得到目标图像P'，比较源图像P和目标图像P'之间的差异，从而对扩散模型进行训练。

如图8所示，在扩散模型中，通过循环调用降噪自编码器810，使得传统的扩散式模型基于输入特征表示进行去噪过程，通过不断地移除输入特征表示中的噪声，直到生成满足用户输入文本描述的图像；本申请实施例提供的如图6所示的过程中，虽然也存在循环调用降噪自编码器的过程，但是去噪过程是基于对输入特征表示进行调整后的调整特征表示进行的去噪过程，调整特征表示具有较好的几何一致性；通过不断地移除调整特征表示中的噪声，直到生成满足用户输入文本描述的图像。

可选地，可以选择性地固定扩散模型中的模型参数，只训练上述提及的模型参数。如：针对多视点维度的注意力池化过程，只优化注意力层的参数；针对投影维度的注意力池化，只优化注意力层的参数和/或MLP的参数等。

其中，扩散模型的优化目标仍为对每步加入的噪声的估计，与传统扩散模型无异。由于每个视点下的源图像加入的噪声独立，在训练时可以对每个视点下的注意力池化模块单独训练从而节省显存。

其中，在模型训练过程汇总，每个视点下的源图像加入的噪声既可以是相同的，也可以是不同的，此处不加以限定。

在一些实施例中，通过小数据集和简单的训练(如几百至几千次迭代训练)，使不同视点下的生成器满足几何一致性。

示意性的，如图9所示，将应用本方案提出的三维模型生成方法进行三维模型生成的结果与相关技术中Zero123生成的结果进行对比。

其中示出了三个视角(视点)下的举例说明，分别为视点1、视点2以及视点3。

如图9所示的区域910中，实体元素为一个标识符号，该标识符号为三维元素；与真值相比，在相关技术中Zero123生成的结果中，视点1和视点2尚有一定相似度，但是视点3处完全失真；相比之下，应用本方案提出的三维模型生成方法，无论是视点1、视点2还是视点3，都与真值存在较高的相似度，从而能够还原得到更准确的三维模型。

同理，如图9所示的区域920中，实体元素为一个轮船，该轮船为三维元素；与真值相比，在相关技术中Zero123生成的结果中，视点1、视点2视点3虽然能大致还原轮船的形状，但是与真值的差异仍然较大；相比之下，应用本方案提出的三维模型生成方法，无论是视点1、视点2还是视点3，都与真值存在较高的相似度，从而能够还原得到更准确的三维模型。

同理，如图9所示的区域930中，实体元素为一个油桶，该油桶为三维元素；与真值相比，在相关技术中Zero123生成的结果中，视点1尚有一定相似度，但是视点2和视点3与真值的差异仍然较大；相比之下，应用本方案提出的三维模型生成方法，无论是视点1、视点2还是视点3，都与真值存在较高的相似度，从而能够还原得到更准确的三维模型。

也即：以真值为参考可以注意到，应用本方案提出的三维模型生成方法得到的结果，同Zero123得到的结果进行对比，观察到多视图的3D一致性以及材料一致性均存在明显改善。

在一些实施例中，如图10所示，实体元素为一个虚拟战士，以输入图像1010为图像生成数据，即以输入图像1010为去噪条件，在应用上述图像生成方法进行处理后，得到另一个视角的视角图像1020；以Zero123方法进行处理后，得到与视角图像1020相同视角的视角图像1030，可以明显看出Zero123方法预测的视角图像与输入图像1010差异较大。

图11是本申请一个示例性实施例提供的三维模型生成装置的结构框图，如图11所示，该装置包括如下部分：

获取模块1110，用于获取噪声数据对应的加噪特征表示，所述加噪特征表示用于在多个视角下分别进行去噪处理，得到实体元素在所述多个视角下分别对应的视角图像；

确定模块1120，用于在通过所述多个视角分别对应的去噪网络层对所述加噪特征表示进行去噪处理时，确定所述多个视角分别对应的去噪网络层的输入特征表示，所述输入特征表示是待输入所述去噪网络层进行去噪的特征表示；

提取模块1130，用于提取多个输入特征表示分别对应的三维转换矩阵之间共有的三维共享信息，其中，所述三维转换矩阵是对所述输入特征表示进行维度转换得到的；

调整模块1140，用于以所述三维共享信息对所述多个输入特征表示进行调整，得到多个调整特征表示，其中，多个输入特征表示和多个调整特征表示之间存在对应关系；

生成模块1150，用于基于所述多个调整特征表示生成实体元素在所述多个视角下分别对应的视角图像，多个视角图像用于整合生成表征所述实体元素的三维模型。

在一个可选的实施例中，所述确定模块1120还用于获取图像生成数据，所述图像生成数据是针对所述实体元素采集得到的数据，所述图像生成数据用于生成表征所述实体元素的所述视角图像；以所述图像生成数据为去噪条件，确定所述多个视角分别对应的去噪网络层的所述输入特征表示，所述去噪条件用于确定对所述加噪特征表示进行减噪处理时的噪声预测情况。

在一个可选的实施例中，所述确定模块1120还用于获取针对所述实体元素采集得到的至少一个图像数据作为所述图像生成数据，所述图像数据是针对所述实体元素在预设视角采集得到的图像；或者，获取用于描述所述实体元素的文本数据作为所述图像生成数据。

在一个可选的实施例中，所述提取模块1130还用于对所述多个输入特征表示分别进行反投影处理，得到与所述多个输入特征表示分别对应的所述三维转换矩阵；对多个三维转换矩阵进行注意力池化处理，得到体积特征表示，所述体积特征表示用于表征多个三维转换矩阵之间共有的所述三维共享信息。

在一个可选的实施例中，所述提取模块1130还用于对所述多个输入特征表示分别进行反投影处理，得到与所述多个视角分别对应的投影特征表示；获取所述多个视角分别对应的参数特征表示，所述参数特征表示是基于视角对应的相机参数得到的特征表示，所述参数特征表示用于表征对应视角的空间信息，其中多个参数特征表示与多个投影特征表示之间存在对应关系；基于所述对应关系，对同一视角下的所述投影特征表示和所述参数特征表示进行特征拼接处理，得到与所述多个输入特征表示分别对应的所述三维转换矩阵。

在一个可选的实施例中，所述提取模块1130还用于获取所述多个视角分别对应的相机参数，所述相机参数用于表征生成对应视角图像的相机位置信息，所述相机参数包括相机位置和相机方向，所述相机位置用于表征相机在世界坐标系中相对所述实体元素的位置，所述相机方向即表征相机在所述世界坐标系中相对所述实体元素的方向；对多个相机参数分别进行体积表达，得到与所述多个相机参数分别对应的参数体积表达，所述参数体积表达是在三维空间内对所述相机参数进行表达得到的特征表示，所述参数体积表达视角方向和视角深度，所述视角方向基于所述三维空间内的体素相对于相机中心的方向确定，所述视角深度基于所述体素相对于相机中心的距离确定；通过预设特征编码函数对所述参数体积表达进行位置编码，得到与所述多个视角分别对应的所述参数特征表示。

在一个可选的实施例中，所述提取模块1130还用于确定所述多个三维转换矩阵分别表征的体素集合，所述体素集合用于表征得到所述三维转换矩阵时三维空间内的多个体素的集合；对多个体素集合中处于相同体素位置的多个体素进行关注，得到多个注意力值；对所述多个注意力值进行池化处理，得到所述体积特征表示。

在一个可选的实施例中，所述调整模块1140还用于获取表征所述三维共享信息的体积特征表示；基于所述多个输入特征表示分别对应的视角以及所述体积特征表示，得到与多个视角分别对应的三维特征表示，所述三维特征表示用于表征所述体积特征表示对所述输入特征表示在空间维度上的影响，其中多个三维特征表示和多个输入特征表示之间具有对应关系；基于所述对应关系，通过同一视角下的所述三维特征表示和所述输入特征表示得到所述多个调整特征表示。

在一个可选的实施例中，所述调整模块1140还用于确定所述多个视角分别对应的相机坐标系，所述相机坐标系是基于确定对应视角时采用的相机为参考点建立的坐标系；以所述视角方向对应的相机坐标系为参考，对所述体积特征表示进行三维坐标映射，得到表征与所述多个视角分别对应的坐标特征表示；基于所述多个视角和对应的坐标特征表示，得到在所述三维空间中所述多个视角分别对应的所述三维特征表示。

在一个可选的实施例中，所述调整模块1140还用于获取所述多个视角分别表征的视角深度；在同一视角下，基于所述视角深度和所述坐标特征表示，得到在所述三维空间中所述多个视角分别对应的所述三维特征表示。

在一个可选的实施例中，所述调整模块1140还用于确定与多个视角分别对应的三维转换矩阵表征的体素集合，所述体素集合中包括多个体素，每个体素对应一个视角深度；以所述体素对应的视角深度为体素值，对所述体素集合中的多个体素进行填充，得到具有相同体素值的体素块集合；基于所述体素块集合和所述坐标特征表示，得到在所述三维空间中所述多个视角分别对应的所述三维特征表示。

在一个可选的实施例中，所述调整模块1140还用于以预设编码函数对所述体素块集合进行位置编码，得到体素特征表示；在同一视角下，对所述体素特征表示和所述坐标特征表示进行拼接处理，得到在所述三维空间中所述多个视角分别对应的所述三维特征表示。

在一个可选的实施例中，所述调整模块1140还用于将多个视角分别对应的所述三维特征表示投影至二维空间，得到与多个视角分别对应的残差特征表示；在同一视角下，将所述残差特征表示和所述输入特征表示进行特征拼接处理，得到与多个视角分别对应的所述调整特征表示。

在一个可选的实施例中，每个视角各自对应有m个去噪网络层，m为正整数；

所述调整模块1140还用于针对所述多个视角分别对应的第n个去噪网络层的调整特征表示进行去噪处理，得到所述多个视角分别对应的第n+1个去噪网络层的输入特征表示，n为不大于m的正整数；响应于经过第m个去噪网络层，获取与所述多个视角分别对应的第m个去噪网络层输出的去噪特征表示；基于多个去噪特征表示生成所述实体元素在所述多个视角下分别对应的所述视角图像。

在一个可选的实施例中，所述调整模块1140还用于在所述多个视角下基于所述去噪特征表示进行迭代去噪处理，直至达到迭代次数后，得到与所述多个视角分别对应的解码特征表示，所述解码特征表示用于表征对所述加噪特征表示进行去噪后得到的特征表示；将多个解码特征表示分别通过解码器，生成所述实体元素在所述多个视角下分别对应的所述视角图像。

需要说明的是：上述实施例提供的三维模型生成装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的三维模型生成装置与三维模型生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器1200包括中央处理单元(Central Processing Unit，CPU)1201、包括随机存取存储器(RandomAccess Memory，RAM)1202和只读存储器(Read Only Memory，ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。服务器1200还包括用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1206。

大容量存储设备1206通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1206及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说，大容量存储设备1206可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。上述的系统存储器1204和大容量存储设备1206可以统称为存储器。

根据本申请的各种实施例，服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的三维模型生成方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的三维模型生成方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的三维模型生成方法。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种三维模型生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述多个视角分别对应的去噪网络层的输入特征表示，包括：

获取图像生成数据，所述图像生成数据是针对所述实体元素采集得到的数据，所述图像生成数据用于生成表征所述实体元素的所述视角图像；

以所述图像生成数据为去噪条件，确定所述多个视角分别对应的去噪网络层的所述输入特征表示，所述去噪条件用于确定对所述加噪特征表示进行减噪处理时的噪声预测情况。

3.根据权利要求2所述的方法，其特征在于，所述获取图像生成数据，包括：

获取针对所述实体元素采集得到的至少一个图像数据作为所述图像生成数据，所述图像数据是针对所述实体元素在预设视角采集得到的图像；或者，

获取用于描述所述实体元素的文本数据作为所述图像生成数据。

4.根据权利要求1至3任一所述的方法，其特征在于，所述提取多个输入特征表示分别对应的三维转换矩阵之间共有的三维共享信息，包括：

对所述多个输入特征表示分别进行反投影处理，得到与所述多个输入特征表示分别对应的所述三维转换矩阵；

对多个三维转换矩阵进行注意力池化处理，得到体积特征表示，所述体积特征表示用于表征多个三维转换矩阵之间共有的所述三维共享信息。

5.根据权利要求4所述的方法，其特征在于，所述对所述多个输入特征表示分别进行反投影处理，得到与所述多个输入特征表示分别对应的所述三维转换矩阵，包括：

对所述多个输入特征表示分别进行反投影处理，得到与所述多个视角分别对应的投影特征表示；

获取所述多个视角分别对应的参数特征表示，所述参数特征表示是基于视角对应的相机参数得到的特征表示，所述参数特征表示用于表征对应视角的空间信息，其中多个参数特征表示与多个投影特征表示之间存在对应关系；

基于所述对应关系，对同一视角下的所述投影特征表示和所述参数特征表示进行特征拼接处理，得到与所述多个输入特征表示分别对应的所述三维转换矩阵。

6.根据权利要求5所述的方法，其特征在于，所述获取所述多个视角分别对应的参数特征表示，包括：

获取所述多个视角分别对应的相机参数，所述相机参数用于表征生成对应视角图像的相机位置信息，所述相机参数包括相机位置和相机方向，所述相机位置用于表征相机在世界坐标系中相对所述实体元素的位置，所述相机方向即表征相机在所述世界坐标系中相对所述实体元素的方向；

对多个相机参数分别进行体积表达，得到与所述多个相机参数分别对应的参数体积表达，所述参数体积表达是在三维空间内对所述相机参数进行表达得到的特征表示，所述参数体积表达视角方向和视角深度，所述视角方向基于所述三维空间内的体素相对于相机中心的方向确定，所述视角深度基于所述体素相对于相机中心的距离确定；

通过预设特征编码函数对所述参数体积表达进行位置编码，得到与所述多个视角分别对应的所述参数特征表示。

7.根据权利要求4所述的方法，其特征在于，所述对多个三维转换矩阵进行注意力池化处理，得到体积特征表示，包括：

确定所述多个三维转换矩阵分别表征的体素集合，所述体素集合用于表征得到所述三维转换矩阵时三维空间内的多个体素的集合；

对多个体素集合中处于相同体素位置的多个体素进行关注，得到多个注意力值；

对所述多个注意力值进行池化处理，得到所述体积特征表示。

8.根据权利要求1至3任一所述的方法，其特征在于，所述以所述三维共享信息对所述多个输入特征表示进行调整，得到多个调整特征表示，包括：

获取表征所述三维共享信息的体积特征表示；

基于所述多个输入特征表示分别对应的视角以及所述体积特征表示，得到与多个视角分别对应的三维特征表示，所述三维特征表示用于表征所述体积特征表示对所述输入特征表示在空间维度上的影响，其中多个三维特征表示和多个输入特征表示之间具有对应关系；

基于所述对应关系，通过同一视角下的所述三维特征表示和所述输入特征表示得到所述多个调整特征表示。

9.根据权利要求8所述的方法，其特征在于，所述基于所述多个输入特征表示分别对应的视角以及所述体积特征表示，得到与多个视角分别对应的三维特征表示，包括：

确定所述多个视角分别对应的相机坐标系，所述相机坐标系是基于确定对应视角时采用的相机为参考点建立的坐标系；

以所述视角方向对应的相机坐标系为参考，对所述体积特征表示进行三维坐标映射，得到表征与所述多个视角分别对应的坐标特征表示；

基于所述多个视角和对应的坐标特征表示，得到在所述三维空间中所述多个视角分别对应的所述三维特征表示。

10.根据权利要求9所述的方法，其特征在于，所述基于所述多个视角和对应的坐标特征表示，得到在所述三维空间中所述多个视角分别对应的所述三维特征表示，包括：

获取所述多个视角分别表征的视角深度；

在同一视角下，基于所述视角深度和所述坐标特征表示，得到在所述三维空间中所述多个视角分别对应的所述三维特征表示。

11.根据权利要求10所述的方法，其特征在于，所述在同一视角下，基于所述视角深度和所述坐标特征表示，得到在所述三维空间中所述多个视角分别对应的所述三维特征表示，包括：

确定与多个视角分别对应的三维转换矩阵表征的体素集合，所述体素集合中包括多个体素，每个体素对应一个视角深度；

以所述体素对应的视角深度为体素值，对所述体素集合中的多个体素进行填充，得到具有相同体素值的体素块集合；

基于所述体素块集合和所述坐标特征表示，得到在所述三维空间中所述多个视角分别对应的所述三维特征表示。

12.根据权利要求11所述的方法，其特征在于，所述基于所述体素块集合和所述坐标特征表示，得到在所述三维空间中所述多个视角分别对应的所述三维特征表示，包括：

以预设编码函数对所述体素块集合进行位置编码，得到体素特征表示；

在同一视角下，对所述体素特征表示和所述坐标特征表示进行拼接处理，得到在所述三维空间中所述多个视角分别对应的所述三维特征表示。

13.根据权利要求8所述的方法，其特征在于，所述基于所述对应关系，对同一视角下的所述三维特征表示和所述输入特征表示进行特征拼接处理，得到所述多个调整特征表示：

将多个视角分别对应的所述三维特征表示投影至二维空间，得到与多个视角分别对应的残差特征表示；

在同一视角下，将所述残差特征表示和所述输入特征表示进行特征拼接处理，得到与多个视角分别对应的所述调整特征表示。

14.根据权利要求1至3任一所述的方法，其特征在于，每个视角各自对应有m个去噪网络层，m为正整数；

所述基于所述多个调整特征表示生成实体元素在所述多个视角下分别对应的视角图像，包括：

针对所述多个视角分别对应的第n个去噪网络层的调整特征表示进行去噪处理，得到所述多个视角分别对应的第n+1个去噪网络层的输入特征表示，n为不大于m的正整数；

响应于经过第m个去噪网络层，获取与所述多个视角分别对应的第m个去噪网络层输出的去噪特征表示；

基于多个去噪特征表示生成所述实体元素在所述多个视角下分别对应的所述视角图像。

15.根据权利要求1至3任一所述的方法，其特征在于，所述基于多个去噪特征表示生成所述实体元素在所述多个视角下分别对应的所述视角图像，包括：

在所述多个视角下基于所述去噪特征表示进行迭代去噪处理，直至达到迭代次数后，得到与所述多个视角分别对应的解码特征表示，所述解码特征表示用于表征对所述加噪特征表示进行去噪后得到的特征表示；

将多个解码特征表示分别通过解码器，生成所述实体元素在所述多个视角下分别对应的所述视角图像。

16.一种三维模型生成装置，其特征在于，所述装置包括：

生成模块，用于基于所述多个调整特征表示生成实体元素在所述多个视角下分别对应的视角图像，多个视角图像用于整合生成表征所述实体元素的三维模型。

17.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至15任一所述的三维模型生成方法。

18.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至15任一所述的三维模型生成方法。

19.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1至15任一所述的三维模型生成方法。