CN117581232A

CN117581232A - 基于NeRF的机器学习模型的加速训练

Info

Publication number: CN117581232A
Application number: CN202180087326.0A
Authority: CN
Inventors: 赵富强; 吴旻烨; 许岚; 虞晶怡
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2024-02-20
Also published as: US20230360372A1; WO2022155933A1

Abstract

本发明公开用于获得对用于对象识别的基于神经辐射场(NeRF)的机器学习模型进行训练的一组内容项的系统、方法及非暂时性计算机可读介质。其中，可确定所述一组内容项中所描绘的对象的深度图，并可根据该深度图，生成包括仅描绘所述对象的重建内容项的第一组训练数据。此外，根据所述深度图，还可生成包括与所述一组内容项相关联的一条或多条最优训练路径的第二组训练数据。所述一条或多条最优训练路径至少部分根据与所述一组内容项相关联的相异度矩阵生成。根据所述第一组训练数据和所述第二组训练数据，可以对所述基于NeRF的机器学习模型进行训练。

Description

基于NeRF的机器学习模型的加速训练

技术领域

本发明涉及一种基于NeRF的机器学习模型的加速训练方法及系统，还涉及一种基于前述方法实现的非暂时性存储器。

背景技术

基于深度学习的机器学习技术已经在面部识别、检测及分割技术方面取得了众多成果。最近，将神经辐射场(Neural Radiance Field，NeRF)用于表面重建的技术在面部识别方面取得了关注。在神经辐射场中，对三维空间中的对象的体积渲染进行建模，并将对象的体积密度用作权重，对面部识别所使用的神经网络进行训练。与传统面部识别技术相比，基于NeRF的机器学习模型(如神经网络)能够重建出更为圆滑，更加连续且空间分辨率更高的表面。在一些情形中，与传统技术相比，基于NeRF的机器学习模型使用的计算存储空间可更少。虽然基于NeRF的机器学习模型在面部识别方面比传统技术具有众多优点，但是此类机器学习模型所需要的训练可能较为费力和耗时。例如，用于面部识别的基于NeRF的机器学习模型可能需要数周时间的训练。

发明内容

在本发明的各种实施方式中，描述用于获得对用于对象识别的基于神经辐射场(NeRF)的机器学习模型进行训练的一组内容项的系统、方法及非暂时性计算机可读介质。其中，可确定所述一组内容项中所描绘的对象的深度图，并可根据该深度图，生成包括仅描绘所述对象的重建内容项的第一组训练数据。此外，根据所述深度图，还可生成包括与所述一组内容项相关联的一条或多条最优训练路径的第二组训练数据。所述一条或多条最优训练路径至少部分根据与所述一组内容项相关联的相异度矩阵生成。根据所述第一组训练数据和所述第二组训练数据，可以对所述基于NeRF的机器学习模型进行训练。

在一些实施方式中，可通过计算拍摄所述一组内容项的相机的内参和外参，确定所述一组内容项中所描绘的所述对象的所述深度图。根据所述内参和外参，可确定与所述一组内容项中所描绘的所述对象相关联的粗略点云。根据所述粗略点云，可确定所述一组内容项中所描绘的所述对象的网格。根据所述对象的所述网格，可确定所述内容项中所描绘的所述对象的所述深度图。

在一些实施方式中，所述相机的所述内参和外参可通过运动恢复结构(SfM)技术确定，而且所述对象的所述网格可通过泊松(Poisson)重建技术确定。

在一些实施方式中，所述相机的所述内参和外参以及所述对象的所述网格通过多视角深度融合技术确定。

在一些实施方式中，所述第一组训练数据可通过根据所述深度图确定所述一组内容项当中每一内容项中待滤除的像素的方式确定。随后，可滤除所述一组内容项当中每一内容项中的所述像素。此外，可对所述一组内容项当中每一内容项中的剩余像素进行采样，以生成所述重建内容项。

在一些实施方式中，所述一组内容项当中每一内容项中待滤除的所述像素可通过如下方式确定：确定所述一组内容项当中每一内容项中处于每一内容项的相应深度图所表明的深度阈值范围之外的像素。所述深度阈值范围可表明每一内容项中所描述的至少一个对象的深度范围。

在一些实施方式中，所述第二组训练数据可通过确定所述一组内容项的深度图匹配度量值的方式生成。此外，还可确定所述一组内容项的轮廓匹配度量值。根据所述深度图匹配度量值和所述轮廓匹配度量值，可生成与所述一组内容项相关联的相异度矩阵。根据所述相异度矩阵，可生成与所述一组内容项相关联的连通图。通过将最小生成树技术应用至所述连通图，可生成与所述一组内容项相关联的所述一条或多条最优训练路径。所述最小生成树技术可将所述连通图重新排列成多个子树，而且所述多个子树的每一路径可均为最优训练路径。

在一些实施方式中，所述一组内容项的所述深度图匹配度量值可通过比较所述一组内容项当中两个内容项的深度图的方式确定。所述两个内容项可描绘一个对象。此外，可计算所述两个内容项的所述深度图中每一深度点的相异度值。另外，还可将所述两个内容项的所述深度图中深度点的相异度值相加，以生成所述两个内容项的深度图匹配度量值。

在一些实施方式中，所述对象的所述轮廓匹配度量值可通过比较所述一组内容项当中两个内容项的深度图的方式确定。所述两个内容项可描绘一个对象。此外，可对与所述两个内容项的所述深度图中所含的所述对象相关联的轮廓信息进行比较。根据所述轮廓信息的比较结果，可计算所述两个内容项的轮廓匹配度量值。

在一些实施方式中，所述相异度矩阵的列和行可对应于与所述一组所述内容项相关联的帧号。所述相异度矩阵的值可表明所述一组内容项当中由相应帧号表明的任意两个内容项之间的相异度。所述相异度矩阵的所述值可根据所述一组内容项当中任意两个内容项的相应深度图匹配度量值和所述轮廓匹配度量值确定。

通过参考附图，对以下详细描述以及下附权利要求加以考虑，本文公开的装置、系统、方法及非暂时性计算机可读介质的上述和其他特征以及相关结构元件的操作方式与功能、部件组合方式及制造的经济性将变得显而易见。所有附图构成本说明书的一部分，其中，类似参考数字表示附图中的对应部分。然而，应该明确理解的是，附图仅用于说明和描述目的，并不旨在构成对本发明的限制。

附图说明

下附权利要求书中，具体阐述了本技术各种实施方式的某些特征。参考以下对采用本发明原理的说明性实施方式的具体描述及附图，可更好地理解本技术的特征和优点。附图中：

图1所示为根据本发明公开各种实施方式的一种包括对对象进行识别的对象识别模块的例示系统；

图2所示为根据本发明公开各种实施方式的一种例示训练数据准备模块；

图3A所示为根据本发明公开各种实施方式描绘对象的例示重建内容项以及例示深度范围；

图3B所示为根据本发明公开各种实施方式的一种生成仅描绘所关注对象的重建内容项的方法，其中，所述重建内容项用于对用于对象识别的基于NeRF的机器学习模型进行训练；

图3C所示为根据本发明公开各种实施方式生成用于对用于对象识别的基于NeRF的机器学习模型进行训练的一条或多条最优训练路径的流程图；

图4所示为根据本发明公开各种实施方式的一种对用于对象识别的基于NeRF的机器学习模型进行训练的方法；

图5为可供本发明所述各种实施方式当中的任何一种实施的计算机系统的框图。

具体实施方式

基于深度学习的机器学习技术已经在面部识别、检测及分割技术方面取得了众多成果。最近，将神经辐射场(Neural Radiance Field，NeRF)用于表面重建的技术在面部识别方面取得了关注。在神经辐射场中，对三维空间中的对象的体积渲染进行建模，并将对象的体积密度用作权重，对面部识别所使用的神经网络进行训练。与传统面部识别技术相比，基于NeRF的机器学习模型(如神经网络)能够重建出更为圆滑，更加连续且空间分辨率更高的表面。在一些情形中，与传统技术相比，基于NeRF的机器学习模型使用的计算存储空间可更少。虽然基于NeRF的机器学习模型在面部识别方面比传统技术具有众多优点，但是此类机器学习模型所需要的训练可能较为费力和耗时。例如，用于面部识别的基于NeRF的机器学习模型可能需要数周时间的训练。因此，基于NeRF的机器学习模型可能不适于商业应用。

本发明描述上述问题的一种解决方案。在各种实施方式中，可基于与对象(或人物面部)相关联的神经辐射场，对多层感知器(MLP)神经网络等机器学习模型进行训练，以识别该对象的特征(或面部特征)。如上所述，与传统对象识别技术相比，基于经过训练的基于NeRF的机器学习模型的对象识别(或面部识别)具有众多优点。然而，此类机器学习模型的训练可能较为费时。因此，为了减少基于NeRF的机器学习模型的训练所需时间，可以对基于NeRF的机器学习模型的训练所用训练数据进行预处理。通过对训练数据进行预处理，可以减少基于NeRF的机器学习模型的训练所需时间。在本发明中，“对象识别”与“面部识别”可以互换使用。本发明描述的技术可用于对象识别和/或面部识别应用。

在各种实施方式中，用于对象识别的基于NeRF的机器学习模型的训练所用训练数据可包括一组内容项(如图像、视频、循环视频等)。所述一组内容项可描绘各种对象和/或对象特征。在一些实施方式中，可对所述一组内容项进行预处理，以确定该组内容项中所描绘的对象深度图。例如，针对描绘某一场景中人物的图像，可对图像拍摄相机与人物之间的距离进行估计。在该例中，可先估计距人物身上各种点(如头部、躯体等)的距离，然后利用此类距离生成人物的深度图。深度图通常含有内容项中所描绘对象的表面在与内容项相关联的视角下的深度(如距离)相关信息。对象深度图可根据对象(如对象的几何形状或多边形表示形式)网格确定。对象网格可根据所述一组内容项中所描绘对象的粗略点云确定。对象的粗略点云可根据拍摄所述一组内容项所使用的相机的内参和外参计算。在确定对象深度图后，可生成两组对用于对象识别的基于NeRF的机器学习模型进行训练的训练数据。

在一些实施方式中，所述两组训练数据中的第一组可包括重建内容项。重建内容项可根据对象深度图，以所述一组内容项生成。例如，对于描绘人物的图像，可以将人物的深度图叠加该所述图像上。在该例中，通过将深度图叠加在图像上，可以确定人物在图像视角下的深度(如距离)。在确定人物深度后，仅对与人物对应的图像像素进行采样，以构建仅描绘人物的重建图像。在该例中，将图像的其他像素丢弃不用，或者不对其进行采样。通过这种方式，可以大大减小训练数据的大小(如文件大小)。此外，由于将重建内容项而非普通内容项用于训练，因此还可减少基于NeRF的机器学习模型的训练所需时间。例如，对于前景描绘人物且背景描绘树木的图像而言，所关注的对象为人物。通过对重建图像中仅与人物对应的像素进行采样，使得用于对象识别的基于NeRF的机器学习模型的训练仅仅对所述人物加以考虑，而不考虑所述树木。如此，基于NeRF的机器学习模型的训练可仅针对基于NeRF的机器学习模型的识别训练对象(在本情形中为人物)。

在一些实施方式中，所述两组训练数据中的第二组可包括基于NeRF的机器学习模型的一条或多条最优训练路径。所述一条或多条最优训练路径可使得基于NeRF的机器学习模型并行训练，从而加速基于NeRF的机器学习模型的训练。在一些实施方式中，所述一条或多条最优训练路径中的每一条可包括按顺序(如时间顺序、动作顺序等)或在不同视角下描绘同一对象的一个或多个内容项。在一些实施方式中，所述一条或多条最优训练路径可根据与训练数据的所述一组内容项相对应的全连通图生成。全连通图可根据与所述一组内容项相关联的相异度矩阵构建而得。在本发明中，相异度矩阵通常表示描绘相同或相似对象的所述一组内容项的任意两个内容项(如图像或图像帧)之间的相异程度。相异度矩阵可通过对按顺序或在不同视角下描绘相同或相似对象的内容项进行识别或分组而加速基于NeRF的机器学习模型的多帧训练。在一些实施方式中，相异度矩阵的值可根据所述一组内容项的深度图匹配度量值和轮廓匹配度量值确定。深度图匹配度量值可通过对按顺序或在不同视角下描绘相同或相似对象的任意两个内容项的深度图的方式确定。轮廓匹配度量值可通过对按顺序或在不同视角下描绘对象的任意两个内容项的深度图中所含的相同或相似对象的轮廓进行比较的方式确定。在构建全连通图后，可以最小生成树技术对全连通图进行评价，以生成所述一条或多条最优训练路径，其中，相异度矩阵的值为最小生成树技术中的边权值。最小生成树技术可以最大程度减小训练路径中所述一组内容项中所描绘的对象之间的相异度的方式对所述一组内容项进行排列。通过这种方式，可以优化基于NeRF的机器学习模型的训练，从而减少训练所需的时间。以下，将进一步详细描述本解决方案的上述及其他特征。

图1所示为根据本发明开各种实施方式的一种例示系统100，该系统包括用于识别对象的对象识别模块110。在各种实施方式中，对象识别模块110可实施为基于NeRF的机器学习模型，该模型训练为通过对象的体积渲染，识别内容项(如图像、视频、循环视频等)中描绘的对象。内容项中所描绘的对象可例如包括人物面部、面部特征、动物、车辆类型、车辆牌照等。基于NeRF的机器学习模型可通过任何合适的机器学习技术实现。例如，基于NeRF的机器学习模型可通过多层感知器(MLP)神经网络实现。在一些情形中，基于NeRF的机器学习模型可通过一个或多个基于逻辑回归的分类器实现。除此之外，还存在许多其他实现方式。在一些实施方式中，对象识别模块110可部分或全部实现为软件、硬件或其任意组合。在一些实施方式中，对象识别模块110可部分或全部实现为允许于云计算系统等一个或多个计算装置或系统中运行的软件。例如，经过训练的基于NeRF的机器学习模型可部分或全部实现于云计算系统中，以识别拍摄图像或视频馈给中描绘的对象或对象特征。除此之外，还存在许多其他实现方式。

在一些实施方式中，如图1所示，系统100可进一步包括至少一个数据存储器120。对象识别模块110可用于与所述至少一个数据存储器120通信和/或操作。所述至少一个数据存储器120可存储与对象识别模块110相关联的各种类型的数据。例如，所述至少一个数据存储器120可存储用于对象识别的基于NeRF的机器学习模型的训练所用训练数据。训练数据可例如包括描绘各种对象的图像、视频和/或循环视频。例如，所述至少一个数据存储器120可存储描绘猫的多幅图像，以训练基于NeRF的机器学习模型对猫进行识别。在一些实施方式中，所述至少一个数据存储器120可存储可供对象识别模块110访问的相机的各种内参和外参、粗略点云、深度图等。在一些实施方式中，所述至少一个数据存储器120可存储可供对象识别模块110访问的各种度量值和相异度度量值。在一些实施方式中，所述至少一个数据存储器120可存储机器可读指令(如代码)，这些指令在被执行时，使得一个或多个计算系统对用于对象识别的基于NeRF的机器学习模型进行训练，或者识别基于NeRF的机器学习模型的识别训练对象。在一些实施方式中，所述至少一个数据存储器120可包括存储人物面部相关信息的数据库。例如，所述至少一个数据存储器120可包括存储人物面部特征的数据库。这一数据库可用于识别经过训练的基于NeRF的机器学习模型所认识的人物。例如，可将经过训练的基于NeRF的机器学习模型所认识的面部与存有罪犯或犯罪嫌疑人面部特征的数据库相比较。

在一些实施方式中，对象识别模块110可包括训练数据准备模块112以及机器学习训练模块114。训练数据准备模块112用于对用于对象识别的基于NeRF的机器学习模型的训练所用训练数据进行预处理。通过对训练数据进行预处理，可以缩短或减少基于NeRF的机器学习模型的训练所需时间。在一些实施方式中，训练数据准备模块112可获得对基于NeRF的机器学习模型进行训练的一组内容项。该组内容项可例如包括描绘各种对象的图像、视频、循环视频。例如，可利用含描绘各种面部特征的一组图像的训练数据对基于NeRF的神经网络进行训练，以使其识别脸部，并将识别出的面部与所述至少一个数据存储器120内存储的信息相比较。在一些实施方式中，训练数据准备模块112可确定所述一组内容项中所描绘的对象的深度图。深度图通常含有内容项中所描绘对象的表面在与内容项相关联的视角下的深度(如距离)相关信息。根据对象深度图，训练数据准备模块112可生成：含仅描绘对象的重建内容项的第一组训练数据；以及含待用于训练基于NeRF的机器学习模型的一条或多条最优训练路径的第二组训练数据。以下，结合图2，进一步详细描述训练数据准备模块112。

在一些实施方式中，机器学习训练模块114可用于对用于对象识别的基于NeRF的机器学习模型进行训练。机器学习训练模块114可基于训练数据准备模块112所生成的第一组和第二组训练数据，对基于NeRF的机器学习模型进行训练。基于第一组训练数据所含的重建内容项以及第二组训练数据所含的一条或多条最优训练路径，机器学习训练模块114可对用于对象识别的基于NeRF的机器学习模型进行并行训练。例如，可将仅描绘面部特征的重建图像作为基于NeRF的MLP神经网络的输入训练数据，并将一条或多条最优图像训练路径作为基于NeRF的MLP神经网络的权重，对基于NeRF的MLP神经网络进行同时训练，以使基于NeRF的MLP神经网络在训练后能够识别人物面部。通过这种方式，可以缩短或减少基于NeRF的MLP神经网络的训练所需时间。如上所述，基于NeRF的机器学习模型的传统训练方法可能极为耗时。通过对基于NeRF的机器学习模型的训练所用训练数据进行预处理，可以将训练所需时间缩减若干个数量级。

图2所示为根据本发明公开各种实施方式的例示训练数据准备模块200。在一些实施方式中，图1训练数据准备模块112可实施为训练数据准备模块200。如图2所示，在一些实施方式中，训练数据准备模块200可包括深度图确定模块202，对象重建模块204以及内容项序列生成模块206。以下对每一模块进行详细描述。

在一些实施方式中，深度图确定模块202可用于确定训练数据内容项中所描绘对象的深度图。如上所述，深度图通常含有与内容项中所描绘对象的表面相对于内容项相关联的视角的深度(如距离)相关的信息。例如，针对描绘某一场景中人物的图像，深度图确定模块202可确定在与人物相关联的每一深度点(如头部、躯干等)处人物相对于场景视角的深度(如距离)。在一些实施方式中，深度图确定模块202可通过首先计算拍摄内容项所用的相机的内参和外参而确定内容项中所描绘对象的深度图。相机的内参(或内部参数)可例如包括相机的焦距和镜头畸变。相机的外参(或外部参数)可例如包括描述相机与其外部环境之间转换的参数。例如，外参可包括用于旋转或平移内容项中所描绘对象的旋转矩阵。在一些实施方式中，深度图确定模块202可利用运动恢复结构(Structure from Motion，SfM)技术，确定相机的内参和外参。运动恢复结构技术为摄影测量学中的一种测距技术，用于通过相机的移动，测定内容项中所描绘对象的空间和几何形状。在一些情形中，深度图确定模块202可利用多视角深度融合技术确定相机的内参和外参。除此之外，还存在许多其他实现方式。

在一些实施方式中，深度图确定模块202可根据相机的内参和外参生成内容项中所描绘对象的粗略点云。对象的粗略点云可将对象的形状和/或轮廓表示为三维空间内的三维表面。例如，可利用描绘人物面部的图像，估计图像拍摄所用相机的内参或外参。在该例中，深度图确定模块202可根据内参或外参生成面部的粗略点云。在该粗略点云中，面部的面部特征表示为具有凸显面部轮廓(如面部特征)的各种局部高峰和低谷的三维表面。

在一些实施方式中，深度图确定模块202可根据粗略点云生成内容项中所描绘对象的网格。网格通常为表示粗略点云所表示的对象形状和/或轮廓的三维空间内多边形形状(如三角形、正方形、矩形等)。例如，深度图确定模块202可根据面部粗略点云生成面部网格。在该例中，面部的各种轮廓由多个三角形等多边形形状表示，以凸显面部的各种面部特征。通过这种方式，可在易于将表面轮廓可视化的同时，减小渲染此类表面所需的计算负荷。根据这些网格，深度图确定模块202可确定内容项中所描绘对象的深度图。深度图中的对象深度可通过追踪至对象的每一网格点(如多边形形状的点)的像素光线进行估计。在一些实施方式中，深度图确定模块202可根据泊松(Poisson)重建技术生成对象的网格。

在一些实施方式中，对象重建模块204可用于对训练数据中构建重建内容项中的内容项中所描绘对象所需的内容项中的像素进行采样。采样像素可用于生成重建内容项，而重建内容项随后可用于对用于对象识别的基于NeRF的机器学习模型进行训练。例如，第一图像可描绘前景中的人物以及背景中的树木。在该例中，对象重建模块204可用于对第一图像中仅与人物对应的像素进行采样。采样像素用于构建第二图像中的人物，而第二图像用于对基于NeRF的机器学习模型进行训练，以供其识别该人物。如上所述，通过这种方式，可以减少基于NeRF的机器学习模型的训练所需时间。此外，还可减小基于NeRF的机器学习模型的训练所用内容项(即重建内容项仅描绘所关注的对象)的文件大小。

在一些实施方式中，对象重建模块204可根据对象深度图，识别构建内容项中所描绘对象所需要的内容项中的像素。对象深度图可包括与对象表面相对于内容项相关联的视角的深度(如距离)相关的信息。此类深度可构成用于对与对象相应的像素进行过滤的深度阈值范围的基础。例如，由于与深度阈值范围之外的深度对应的像素并非为表示对象的像素，因此这些像素舍弃不用(滤除或不进行采样)。与此同时，仅对与深度阈值范围内的深度对应的像素进行采样，以用于构建重建内容项中的对象。如此，对象重建模块204可根据内容项的像素是否处于以对象深度图为依据的对象深度阈值范围内而对与内容项中所描绘对象对应的像素进行采样。根据采样像素，对象重建模块204可对一组重建内容项中的对象进行构建，以对用于对象识别的基于NeRF的机器学习模型进行训练。所述一组重建内容项可用作对基于NeRF的机器学习模型进行训练的输入(如训练数据)。以下，参考图3A和图3B，进一步详细描述对象重建模块204。

在一些实施方式中，对象重建模块204可在N个均匀间隔采样区内对与内容项中所描绘对象对应的像素进行均匀采样，并对N个均匀间隔采样区内的像素进行采样，以供在重建内容项内构建对象。这一方法可进一步减小基于NeRF的机器学习模型的训练所用内容项的文件大小。然而，这一方法可导致采样空间利用率较低，从而可能会对重建内容项的质量产生不利影响。相应地，为了最大程度避免采样空间利用率低的问题，可对N个均匀间隔采样区内的像素采样进行动态调节。例如，可从存储于N个均匀间隔采样区内的像素数据，进行重建图像所绘面部的采样。在该例中，面部的分辨率可能不足以表示面部的各种轮廓。相应地，可通过使与面部相应的更多像素数据采样用于重建图像的构建的方式，对自N个均匀间隔采样区的采样进行调节。

在一些实施方式中，对象重建模块204可用于消除与与重建内容项相关联的噪声。滤除不与内容项中所描绘对象对应的像素时通常会导致仅描绘对象的重建内容项中产生噪声。此类噪声尤其普遍出现于重建内容项中所描绘对象的边缘或轮廓周围。相应地，在一些实施方式中，对象重建模块204可用于通过处于用户指示或指导下的密度监督技术，消除或最大程度减少噪声。在密度监督技术中，需要以人工监督对与重建内容项相关联的网格进行监测，以消除非采样像素(即滤除的像素)导致的噪声。在一些情形中，密度监督技术可实现用于对象识别的基于NeRF的机器学习模型的加速训练。

在一些实施方式中，最优内容项序列生成模块206可用于生成训练数据内容项的一条或多条最优训练路径。所述一条或多条最优训练路径可加速用于对象识别的基于NeRF的机器学习模型的训练。所述一条或多条最优训练路径中的每一条可包括按顺序(如时间顺序、动作顺序等)或在不同视角下描绘同一对象的一个或多个内容项。例如，用于对象识别的基于NeRF的机器学习模型的训练所用训练数据可包括描绘各种对象的多幅图像。该多幅图像可按照使该多幅图像中描绘同一对象的一幅或多幅图像可按照顺序排列的方式组织。在一些实施方式中，最优内容项序列生成模块206可根据与训练数据内容项相关联的全连通图生成所述一条或多条最优训练路径。全连通图内的每一节点可对应于训练数据中的一个内容项。在一些实施方式中，可根据与训练数据内容项相关联的相异度矩阵，构建全连通图。相异度矩阵的行和列可代表内容项的帧号，而相异度矩阵的值或相异度度量值可用作以最小生成树技术对全连通图进行评价的边权。在最小生成树技术中，可根据相异度矩阵的值，将全连通图重新排列成多个子树。多个子树的每条路径可代表最优训练路径的一个或多个内容项。

在一些实施方式中，可按照如下方式，确定相异度矩阵的值(如相异度度量值)：

F_i，j＝D_i，j·(1-S_i，j)

其中，F_i,j为相异度矩阵i行(如训练数据内容项的帧i)j列(如训练数据内容项的帧j)的值(如相异度度量值)，D_i,j为帧i和帧j之间的深度图匹配度量值，S_i,j为帧i和帧j之间的轮廓匹配度量值。深度图匹配度量值用于比较两个内容项(如帧i和帧j)的深度图差异。在一些实施方式中，训练数据的任意两个内容项之间的深度图匹配度量值可按照如下方式确定：

其中，d_Fi为视角c下帧F_i的深度图，d_Fj为视角c下帧F_j的深度图，M为帧F_i和帧F_j的深度图的总视角数。因此，深度图匹配度量值为描绘对象的任意两个内容项(如帧i和帧j)的深度图之间所有深度差异的总和。轮廓匹配度量值用于根据两个内容项的深度图比较两个内容项(如帧i和帧j)所绘对象的轮廓或轮廓信息。在一些实施方式中，可按照如下方式，确定训练数据的任意两个内容项之间的轮廓匹配度量值：

其中，I^c _i,j为视角c下帧i和帧j的轮廓交集，U^c _i,j为视角c下帧i和帧j的轮廓并集，M为帧F_i和帧F_j的深度图的总视角数。以下，结合图3C，进一步详细描述最优内容项序列生成模块206。

图3A所示为根据本公开各种实施方式描绘对象的例示重建内容项300以及例示深度范围320。如图3A所示，重建内容项300(如图像)仅描绘对象302，而不描绘任何其他事物(如重建内容项300的暗色区域)。在各种实施方式中，可通过对描绘对象302的原始内容项的像素(如“光线”)进行采样而生成重建内容项300。其中，仅对与原始内容项中与对象302对应的像素(如“光线采样区域”)进行采样，而不对不与原始内容项中的对象302对应的像素(如“光线舍弃区域”)进行采样。

在一些实施方式中，原始内容项中的每一像素可与深度范围(如深度范围320)相关联。每一像素的深度范围可根据原始内容项的深度图确定，并包括表示每一像素所代表的原始内容项中所描绘对象302的深度的深度阈值范围(如深度阈值范围322)。此外，可将每一像素的深度范围与深度阈值范围进行比较。如果像素的深度范围处于深度阈值范围之外，则表明该像素并不代表对象302，因此不对其进行针对重建内容项300的采样。如果像素的深度范围处于深度阈值范围内，则表明该像素代表对象302，因此对其进行针对重建内容项300的采样。例如，如图3A所示，深度范围320具有“d”这一深度。由于该深度处于深度阈值范围322之外，因此不对与深度范围320相应的这一像素进行针对重建内容项300的采样。

图3B所示为根据本发明公开各种实施方式的一种生成仅描绘所关注对象的重建内容项的方法340，所述重建内容项用于对用于对象识别的基于NeRF的机器学习模型进行训练。如图3B所示，在方框342中，计算系统的处理器可渲染内容项中所描绘对象的深度图。在方框344中，处理器可根据深度图，从内容项中滤除像素(如“光线”)。在方框346中，如果内容项的像素(如“d”)不与深度图(如“Di”)对应，则将像素舍弃。如果内容项的像素与深度图相对应，则根据深度图分别评价各像素的深度。在方框348中，处理器根据深度图获得各像素的深度。在方框350和方框352中，处理器根据各深度是否处于深度阈值范围内，判断是否为了在重建内容项中构建对象而对相应像素进行采样。如果像素深度小于深度阈值范围，则将像素舍弃。如果像素深度大于或等于深度阈值范围，则对像素进行采样，以供在重建内容项中构建对象。在方框354中，可利用用户输入进行密度监督，以最大程度减小与代表重建内容项中对象轮廓的像素相关联的噪声。在方框356中，处理器可利用重建内容项，对基于NeRF的机器学习模型进行训练。

图3C所示为根据本发明公开各种实施方式生成用于对用于对象识别的基于NeRF的机器学习模型进行训练的一条或多条最优训练路径的流程图380。如图3C所示，计算系统的处理器可获得按顺序描绘对象的一组内容项(如“帧序列”)，以用于对基于NeRF的机器学习模型进行训练(如附图标记382所示)。根据对象深度图，处理器可构建与所述一组内容项相关联的全连通图(如附图标记384所示)。全连通图中的每一节点代表所述一组内容项中的一个内容项。其中，可根据所述一组内容项的相异度矩阵，构建全连通图。这一相异度矩阵可表示所述一组内容项中所描绘对象之间的相异程度。处理器可通过最小生成树技术对全连通图进行评价，从而将全连通图重新排列为多个子树(如附图标记386所示)。多个子树中的每条途径对应于用于对基于NeRF的机器学习模型进行训练的最优训练路径中的内容项。处理器可从多个子树中提取一条或多条最优训练路径(如附图标记388所示)。处理器可以利用所述一条或多条最优训练路径对基于NeRF的机器学习模型进行训练。

图4所示为根据本发明公开各种实施方式的一种对用于对象识别的基于NeRF的机器学习模型进行训练的方法400。在该流程图以及其他流程图中，以举例方式将方法400示为一系列方框。应当理解的是，在适用情况下，各方框可理解为并行进行，或者按其他顺序进行。此外，为了清楚起见，图中可能省略了某些本应纳入的方框，以避免提供不必要的信息。此外，虽然某些方框能够省略，但出于清楚说明的目的，图中仍旧将其列出。针对其他附图的描述可能也适用于图4。

在方框402中，处理器(如与图1对象识别模块110相关联的处理器)可获得用于对基于NeRF的机器学习模型进行训练的一组内容项。在方框404中，处理器可确定所述一组内容项中所描绘对象的深度图。在方框406中，处理器可根据深度图，生成含仅描绘对象的重建内容项的第一组训练数据。在方框408中，处理器可根据深度图，生成含与所述一组内容项相关联的一条或多条最优训练路径的第二组训练数据。在方框410中，处理器可根据第一组训练数据和第二组训练数据，对基于NeRF的机器学习模型进行训练。

本发明所述的技术例如由一个或多个专用计算装置实现。专用计算装置可通过硬连线执行所述技术，或者可包括一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA)等永久编程为执行所述技术的电路系统或数字电子设备，或者可包括编程为根据固件、存储器、其他存储设备或其组合中的程序指令执行所述技术的一个或多个硬件处理器。

图5为可供本发明所述各种实施方式当中的任何一种实施的计算机系统500的框图。计算机系统500包括用于传递信息的总线502或其他通信机构以及与总线502连接的用于处理信息的一个或多个硬件处理器504。“设备所执行的任务”这一说法旨在表示由硬件处理器504当中的一个或多个执行的任务。

计算机系统500还包括与总线502连接且用于存储信息及待由处理器504执行的指令的主存储器506，如随机存取存储器(RAM)、高速缓存和/或其他动态存储设备。主存储器506还可用于在待由处理器504执行的指令被执行的过程中存储临时变量或其他中间信息。此类指令在存储于可供处理器504访问的存储介质中时，使得计算机系统500成为专门用于执行此类指令所规定的操作的专用机器。

计算机系统500还包括与总线502连接且用于存储静态信息以及处理器504所用指令的只读存储器(ROM)508或其他静态存储设备。此外，还提供与总线502连接的磁盘、光盘、U盘(闪存)等存储设备510，用于存储信息和指令。

计算机系统500可通过总线502连接至阴极射线管(CRT)显示器或液晶显示器(LCD)(或触摸屏)等输出设备512，以将信息显示给计算机用户。除此之外，总线502上还连接包括字母数字键及其他键的输入设备514，用于向处理器504传递信息及命令选择结果。另一类用户输入设备为光标控制器516。计算机系统500还包括与总线502连接的通信接口518。

除非上下文另有要求，否则在整个说明书和权利要求书中，“包括”一词应理解为具有开放且包容的涵义，也就是说，应理解为“包括但不限于”。整个说明书中列出的数值范围均旨在作为分别单独指代落入包括限值在内的该范围内的每一单个值的一种简写形式，而且说明书中的每一单个值均旨在在本文中分别单独列出。此外，除非上下文另有明确规定，否则当未指明数量时，同时包括单个和多个两种情形。“……当中的至少一个”、“选自……组中的至少一个”、“选自由……组成的组中的至少一个”等说法应按照选言方式理解(例如，不应理解为“甲当中的至少一个和乙当中的至少一个”)。

整个说明书中使用的“一种实施方式”或“一实施方式”是指，结合该实施方式描述的特定特征、结构或特性含于本发明的至少一种实施方式中。相应地，说明书各处使用的“在一种实施方式中”或“在一实施方式中”的说法虽然有时可指同一实施方式，但并不一定都指同一实施方式。此外，特定特征、结构或特性可在一种或多种实施方式中按照任何合适的方式组合。

当一个部件被描述为实施为另一部件时，可将该部件理解为与另一部件按照相同或相似方式操作，并且/或者包括与另一部件相同或相似的特征、特性及参数。

Claims

1.一种用于对象识别的基于神经辐射场(NeRF)的机器学习模型的训练方法，其特征在于，该方法包括：

获得用于训练所述基于NeRF的机器学习模型的一组内容项；

确定所述一组内容项中所描绘的对象的深度图；

根据所述深度图，生成包括仅描绘所述对象的重建内容项的第一组训练数据；

根据所述深度图，生成包括与所述一组内容项相关联的一条或多条最优训练路径的第二组训练数据，其中，所述一条或多条最优训练路径至少部分根据与所述一组内容项相关联的相异度矩阵生成；以及

根据所述第一组训练数据和所述第二组训练数据，训练所述基于NeRF的机器学习模型。

2.如权利要求1所述的方法，其特征在于，确定所述一组内容项中所描绘的所述对象的深度图包括：

根据所述一组内容项，计算拍摄所述一组内容项的相机的内参和外参；

根据所述内参和外参，确定与所述一组内容项中所描绘的所述对象相关联的粗略点云；

根据所述粗略点云，确定所述一组内容项中所描绘的所述对象的网格；以及

根据所述对象的所述网格，确定所述内容项中所描绘的所述对象的所述深度图。

3.如权利要求2所述的方法，其特征在于，所述相机的所述内参和外参通过运动恢复结构(SfM)技术确定，所述对象的所述网格通过泊松重建技术确定。

4.如权利要求2所述的方法，其特征在于，所述相机的所述内参和外参以及所述对象的所述网格通过多视角深度融合技术确定。

5.如权利要求1所述的方法，其特征在于，生成包括所述重建内容项的所述第一组训练数据包括：

根据所述深度图，确定所述一组内容项当中的每一内容项中待滤除的像素；

滤除所述一组内容项当中的每一内容项中的所述像素；以及

对所述一组内容项当中的每一内容项中的剩余像素进行采样，以生成所述重建内容项。

6.如权利要求5所述的方法，其特征在于，确定所述一组内容项当中的每一内容项中待滤除的所述像素包括：

确定所述一组内容项当中的每一内容项中处于每一内容项的相应深度图所表明的深度阈值范围之外的像素，其中，所述深度阈值范围表明每一内容项中所描述的至少一个对象的深度范围。

7.如权利要求1所述的方法，其特征在于，生成包括所述一条或多条最优训练路径的所述第二组训练数据包括：

确定所述一组内容项的深度图匹配度量值；

确定所述一组内容项的轮廓匹配度量值；

根据所述深度图匹配度量值和所述轮廓匹配度量值，生成与所述一组内容项相关联的所述相异度矩阵；

根据所述相异度矩阵，生成与所述一组内容项相关联的连通图；以及

通过将最小生成树技术应用至所述连通图，生成与所述一组内容项相关联的所述一条或多条最优训练路径，其中，所述最小生成树技术将所述连通图重新排列成多个子树，且所述多个子树的每一路径均为最优训练路径。

8.如权利要求7所述的方法，其特征在于，通过以下方式确定所述一组内容项的所述深度图匹配度量值：

比较所述一组内容项当中的两个内容项的深度图，所述两个内容项描绘一对象；

计算所述两个内容项的所述深度图中的每一深度点的相异度值；以及

将所述两个内容项的所述深度图中的深度点的相异度值相加，以生成所述两个内容项的深度图匹配度量值。

9.如权利要求7所述的方法，其特征在于，通过以下方式确定所述一组内容项的所述轮廓匹配度量值：

比较与所述两个内容项的所述深度图中所含的所述对象相关联的轮廓信息；以及

根据所述轮廓信息的比较结果，计算所述两个内容项的轮廓匹配度量值。

10.如权利要求7所述的方法，其特征在于，所述相异度矩阵的列和行对应于与所述一组内容项相关联的帧号，所述相异度矩阵的值表明所述一组内容项当中由相应帧号表明的任意两个内容项之间的相异度，其中，所述相异度矩阵的所述值根据所述一组内容项当中的任意两个内容项的相应的所述深度图匹配度量值和所述轮廓匹配度量值确定。

11.一种系统，其特征在于，包括：

至少一个处理器；以及

存储有指令的存储器，所述指令在由所述至少一个处理器执行时，使得该系统实施一种用于对象识别的基于神经辐射场(NeRF)的机器学习模型的训练方法，该方法包括：

获得用于训练所述基于NeRF的机器学习模型的一组内容项；

确定所述一组内容项中所描绘的对象的深度图；

12.如权利要求11所述的系统，其特征在于，确定所述一组内容项中所描绘的所述对象的深度图包括：

13.如权利要求11所述的系统，其特征在于，生成包括所述重建内容项的所述第一组训练数据包括：

滤除所述一组内容项当中的每一内容项中的所述像素；以及

14.如权利要求13所述的系统，其特征在于，确定所述一组内容项当中的每一内容项中待滤除的所述像素包括：

15.如权利要求11所述的系统，其特征在于，生成包括所述一条或多条最优训练路径的所述第二组训练数据包括：

确定所述一组内容项的深度图匹配度量值；

确定所述一组内容项的轮廓匹配度量值；

16.一种计算系统的非暂时性存储器，该非暂时性存储器存有指令，其特征在于，该指令在由至少一个处理器执行时，使得该计算系统实施一种用于对象识别的基于神经辐射场(NeRF)的机器学习模型的训练方法，该方法包括：

获得用于训练所述基于NeRF的机器学习模型的一组内容项；

确定所述一组内容项中所描绘的对象的深度图；

17.如权利要求16所述的非暂时性存储器，其特征在于，确定所述一组内容项中所描绘的所述对象的深度图包括：

18.如权利要求16所述的非暂时性存储器，其特征在于，生成包括所述重建内容项的所述第一组训练数据包括：

滤除所述一组内容项当中的每一内容项中的所述像素；以及

19.如权利要求18所述的非暂时性存储器，其特征在于，确定所述一组内容项当中的每一内容项中待滤除的所述像素包括：

20.如权利要求16所述的系统，其特征在于，生成包括所述一条或多条最优训练路径的所述第二组训练数据包括：

确定所述一组内容项的深度图匹配度量值；

确定所述一组内容项的轮廓匹配度量值；