CN116310385A

CN116310385A - 3d点云数据中的单一数据集域泛化方法

Info

Publication number: CN116310385A
Application number: CN202310251452.6A
Authority: CN
Inventors: 黄思渊; 石博天; 张铂; 李怡康; 窦民
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-23

Abstract

本发明公开了一种3D点云数据中的单一数据集域泛化方法。该方法包括：基于源域数据集，基于设定的分类损失函数预训练深度学习模型，获得基线模型，所述源域数据集反映三维点云数据与类别标签之间的对应关系；以适配多个目标域为优化目标，基于设定的总体目标函数对所述基线模型进行训练，获得域泛化模型，其中该总体目标函数包含所述分类损失；利用所述域泛化模型针对目标域的点云数据进行类别预测。利用本发明，可以在不接触目标域的限制下，对多个不同的目标域实现良好的迁移能力。

Description

3D点云数据中的单一数据集域泛化方法

技术领域

本发明涉及无人驾驶技术领域，更具体地，涉及一种3D点云数据中的单一数据集域泛化方法。

背景技术

作为描述现实世界的常用数据格式，点云表示保留了更多的三维场景中的几何信息，已成为自动驾驶、AR/VR和机器人等现实应用的重要数据类型之一。近年来，基于点云的视觉任务在公共基准上取得了巨大的进展，这很大程度上归功于收集的点云数据集往往标注精细、数据量大和仅有较低噪声。但在现实世界中，从一个新的目标领域获取此类数据并手动标注这些3D数据高度依赖于该领域的专业人员，这使得数据的获取和标注更加困难、劳动密集和耗时。

将模型从完全标记的源域迁移到一个不需要额外人力的新域的有效解决方案是无监督域适应(UDA)，其目的是在有标签的源域和无标签的目标域之间学习更可泛化的表征，使模型可以适应目标域的数据分布。然而，这些技术高度依赖于目标领域数据的可访问性，这一假设在自动驾驶、智慧医疗等领域并不能得到完全保证。因此，研究零样本目标域约束下模型的跨域泛化能力具有重要意义，从而衍生出三维场景的域泛化(DG)任务。

在现有技术中，主要有基于二维图像的域适应方案以及基于三维点云分类的域自适应方案。基于2D图像的域适应(DA)工作大致可以分为两类：1)基于对抗学习的方法，其研究重点是利用领域标签判别器来减少域间差异；2)基于矩匹配的方法，即对特征分布的一阶或二阶矩进行对齐。但在目标域数据不可用的情况下，上述数据泛化方法无法直接应用于DG问题。为此，一些研究人员开始探索如何仅使用源数据将预训练模型从源域适应到分布外域。例如，一些工作试图使用混合域来提高模型的泛化能力，从多域的混合中产生新的数据分布。此外，自监督学习(SSL)也被应用于DG问题，以通过利用设计的前置任务来增强可迁移的特征。

对于基于三维点云分类的域自适应方案，已有工作通常试图设计一种伪装任务来解决扫描点云中的差异导致的常见几何变形。例如，DefRec通过变形点的区域形状并重建该形状的原始区域，可以在不同的域偏移场景下取得良好的域适应结果。PointDAN提出了一种具有节点级注意力的自适应(SA)节点学习，以呈现点的几何形状信息。

经分析，目前零样本域自适应即域泛化的研究是在不使用任何目标样本的情况下，将一个训练好的源域模型自适应到未见过的目标域。然而，已有域泛化的研究在三维点云数据上的探索仍然不足，并受到点云数据结构不规则和类间模态分布不均匀等挑战。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种3D点云数据中的单一数据集域泛化方法。该方法包括包括以下步骤：

基于源域数据集，基于设定的分类损失函数预训练深度学习模型，获得基线模型，所述源域数据集反映三维点云数据与类别标签之间的对应关系；

以适配多个目标域为优化目标，基于设定的总体目标函数对所述基线模型进行训练，获得域泛化模型，其中该总体目标函数包含所述分类损失；

利用所述域泛化模型针对目标域的点云数据进行类别预测。

与现有技术相比，本发明的优点在于，与现有的面向图像的2D DG相比，本发明针对3D DG问题，提出了一种单数据集统一域泛化(SUG)框架，即仅利用单一源域数据来缓解预训练良好的源模型所面临的不可预见的域差异，从而提升了对不同目标域的泛化能力。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的3D点云数据中的单一数据集域泛化方法的流程图；

图2是根据本发明一个实施例的单数据集统一域泛化框架示意图；

图3是根据本发明一个实施例的3D点云数据集中的独特特征示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本发明所提供的3D点云数据中的单一数据集域泛化方法中，设计了一种单数据集统一域泛化(SUG)框架(也称为模型或网络)。SUG框架包含多粒度子域对齐(MSA)模块，其通过在单一源域数据集中分离的子域之间执行多粒度特征对齐，约束模型学习到域无关且有区分性的特征表征。此外，SUG框架还包含样本级域可知注意力(SDA)策略，根据样本级域间距离有选择地增强来自不同子域的易于适应的样本，以避免负迁移。本发明是一种一对多(单训练源域到多目标域)3D DG问题的解决范式。

具体地，参见图1所示，所提供的3D点云数据中的单一数据集域泛化方法包括以下步骤：

步骤S110，以单训练源域到多目标域迁移为目标，定义一对多的3D域泛化问题。

假设域由联合分布P_XY定义，其中X和Y分别代表输入空间和标签空间。在DG的研究范畴中，K个源域

可用于训练过程，其中每个不同的源域都有不同的联合分布。DG的目标是获得一个模型f，该模型在源域上进行训练，并在未见过的目标域上获得最小的预测误差。3D点云数据是一组无序的三维点x＝{pi|i＝1，...，n}，其中每个点pi通常由它的三维坐标(x，y，z)表示，n是一个三维物体的采样点数。用(x，y)表示一个训练样本对，.y是它的标签。

在单一数据集DG问题中，模型训练仅能够接触到一个带有标注的数据集S，并要求训练所得的模型可以在M个不可见的目标数据集T上进行评估。在本发明的问题设定中，需要解决3D点云分类问题，目标函数可以定义为：

表示期望。

其中，预测结果由下式得到：

式中，x是输入点云实例，

是预测标签。/>

是由/>

参数化的嵌入式网络，/>

是参数化的分类器，/>

表示神经网络特征提取器部分的参数，θ表示神经网络分类头部分的参数。

步骤S120，构建深度学习模型，该深度学习模型是基于单一数据集的统一化域泛化框架，包括嵌入网络、多粒度子域对齐模块和样本级域可知注意力模块。

在一个实施例中，所提供的SUG框架参见图2所示。除了嵌入网络(标记为

)外，该框架还包含两个新的即插即用模块，即多粒度子域对齐(MSA)模块和样本级域可知注意力(SDA)模块，它们可以插入到现有的3D骨干网络中以学习更多的域无关表示。

首先，基于预定义的启发式算法，将单源数据集输入到数据集切分模块，获取原始源数据集的多个子域，图2中示意了两个子域。然后，嵌入网络将所有分割的子域作为网络输入，并将点云实例x转换为多层级特征向量

以及/>

分别表示低层级和高层级的特征向量。为了处理不同子域的特征差异，采用MSA模块对多粒度特征进行低层和高层的对齐，从而约束网络聚焦于领域不可知表示。同时，利用SDA模块有选择地增强易于迁移样本的对齐约束，以保证不同子域之间的均匀适应。

步骤S130，针对多粒度子域对齐模块设置损失项，包括类别分布损失项、几何差异损失项和语义差异损失项。

1)类别分布对齐。

三维点云已经被部署在大量的应用场景中，而在这些场景中物体类别的分布发生了显著的变化，从而导致不同的分布模式。为了处理这样的跨数据集类不平衡问题，在原有的分类损失函数中引入类别权重，并形成加权分类损失函数，如下：

其中，

表示一个batch，即一批，为神经网络一次载入的数据量，L(θ；x)表示神经网络参数为θ情况下，输入一个样本x，得到的损失loss(在有监督信号下)，x表示点云数据，y表示类别标签，w(y)表示与类别相关的权重向量，θ表示可学习的模型参数。

在实际应用于中，加权向量可以按照不同的启发式进行设置，如FocalLoss、DLSA等。例如，可延续DLSA中的定义，将各训练样本的权重定义为：

其中，n_i代表第i类别中的样本数量，q是一个正数，用于控制权重的分布。

2)几何漂移对齐。

由于物体在不同场景中的几何差异和不一致的数据采集过程，来自不同数据集的同一类别的物体呈现出不同的几何外观，如图3(a)所示的椅子外观。同时，物体的几何外观在特定的类别或单个数据集中有很大的差异，这为利用单一数据集中的几何差异来有效地模拟不同数据集之间的几何差异提供了可能。

更具体地说，从特征嵌入网络

的浅层网络中提取得到低层特征向量f_l，并通过最小化最大均值差异(MMD)损失来对齐来自不同子域的几何特征，如下：

其中，κ是核函数，下标t和s分别表示用单一数据集采样得到的两个不同子域，n_s表示子域s中样本数量，n_t表示子域t中样本数量，i表示子域s的样本索引，j表示子域t中的样本索引。

3)语义差异对齐。

在获取高层特征向量f_h后，采用语义方差对齐方法，在输入分类器之前尽量减少不同子域特征之间的语义层次差异。语义对齐方法的直觉源于观察到来自不同类别的样本，可能具有相似的几何外观。如图3(b)所示，桌子类别和柜子类别中的样本和椅子类别中的一些样本很相似，因为它们都具有四条腿。通过进行语义差异对齐，将会促使模型学习更少的单域几何偏差的表征。语义对齐约束

可以利用高层特征向量带入上式进行计算所得。需说明的是，/>

的表达是与/>

类似，在此不再赘述。

步骤S140，针对样本级域可知注意力模块设置损失项，以增强易于迁移样本的对齐约束。

上述提到的MSA模块引导模型学习更多的领域无关的表征。然而，来自不同子域的小批量特征对子域对齐过程的贡献并不相同，因为它们可能包含不同的特征分布。忽略这种多样性而对不同样本施加同等重要性将导致难以转移的样本负面泛化的现象。同时，SUG框架中所设计的数据集切分模块不可避免地对不同子区域引入了随机性，从而影响了模型的泛化性能。为了更安全鲁棒的迁移学习，本发明提出了SDA模块来增强易于迁移样本的对齐约束。更具体地说，在对齐约束中增加样本级别的权重，该权重和域距离成反比，可通用表示为：

其中，

表示增加样本级别权重后的对齐约束，ω表示样本级别的权重，L_MMD表示最大均值差异正则化损失，d表示域距离。

对于几何漂移对齐，使用三维重建度量作为距离函数。在一个实施例中，使用了倒角距离(CD)，它可以表述为：

其中X和Y是两个点云实例。几何权重更加关注于显式的几何一致性，如图3(a)的第一列所示，其中具有几何相似性的样本具有相对较小的CD距离，即使它们可能来自不同的类别。而对于具有不同几何外观的样本，CD距离更高，相应的MMD约束将被放松。

对于语义差异对齐，可采用Jensen-Shannon(JS)散度作为度量标准。考虑到度量的对称性，JS距离写作：

其中的D_KL是KL散度的离散形式，具体写作：

式中，x(c)以及Y(c)描述了预测属于C类样本的概率。与几何权重相比，语义权重更加关注语义的一致性，倾向于在同属于一类的样本之间进行对比。

步骤S150，设置总体目标函数并训练深度学习模型，获得域泛化模型。

例如，根据前述的对齐约束及对齐权重，完整的MMD损失函数表示为：

其中，

是语义对齐约束，/>

是几何差异约束，ω_Geo和ω_Sem是对应的权重。

结合公式(6)，对于ω_Geo，其相关的域距离是倒角距离；对于ω_Sem，其相关的域距离是Jensen-Shannon(JS)距离。

而完整的训练损失(即总体目标函数)包括了前文所描述的分类损失函数以及上述的MMD损失，合并可以写作：

L＝L_cls+L_MMD (11)

其中，L_MMD是最大平均差异正则化损失，用于对齐不同域之间的分布。

具体地，为了实现域泛化策略，以端到端方式训练深度学习模型，包括：

步骤1：首先，使用分类损失L_cls对深度学习模型进行训练，这可以确保训练后的基线模型学习具有代表性的特征，为后续的迁移做准备。

步骤2：为了学习一个可以推广到不同目标数据集的鲁棒表示，使用完整的损失函数L对基线模型(即经步骤1训练的模型)进行训练，经训练的基线模型即作为域泛化模型，可用于后续迁移到多个不同的目标域。

为进一步验证本发明的效果，在各种点云分类数据集中进行了广泛验证，包括ShapeNet，ModelNet和ScanNet等。实验结果表明，相比于现有的UDA方法，本发明的SUG框架可以有效地提高模型对未见过的目标域的泛化能力，甚至优于现有的需要访问目标域数据的无监督域适应方法。

综上所述，本发明考虑到单一训练数据集中的多子域分布的存在性，及基于此多样性实现域泛化的表征学习，提供了基于域适配算法与域泛化的策略在点云分类中的应用。在源域训练阶段设计了MSA模块来学习与域无关且具有判别性的特征，并在源域训练阶段设计了SDA策略来计算样本级域间距离，并以此平衡不同子域的适应程度。本发明能兼顾集合层面和语义层面的域泛化特征学习，确保更加安全鲁棒的迁移过程。总之，本发明第一次提出了3D点云领域的单一数据集的域泛化方案，可以在不接触目标域的限制下，即可实现较为良好的迁移能力。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种3D点云数据中的单一数据集域泛化方法，包括以下步骤：

利用所述域泛化模型针对目标域的点云数据进行类别预测。

2.根据权利要求1所述的方法，其特征在于，所述分类损失函数设置为：

其中，ω(y)是训练样本的类别权重，

表示深度学习模型一次载入的数据量，L(θ；x)表示深度学习模型在参数为θ情况下，输入一个点云数据x，得到的损失，x表示点云数据，y表示类别标签。

3.根据权利要求2所述的方法，其特征在于，所述训练样本的类别权重定义为：

其中，n_i代表第i类别中的样本数量，q是设定的正数。

4.根据权利要求1所述的方法，其特征在于，所述总体目标函数设置为：

L＝L_cls+L_MMD

其中，L_MMD是最大均值差异正则化损失函数，L_cls表示分类损失函数。

5.根据权利要求4所述的方法，其特征在于，所述最大均值差异正则化损失函数表示为：

其中，

是语义对齐约束项，/>

是几何差异约束项，ω_Geo和ω_Sem是对应的权重。

6.根据权利要求5所述的方法，其特征在于，所述几何差异约束项表示为：

其中，κ是核函数，下标t和s分别表示用单一数据集采样得到的两个不同子域，n_s表示子域s中样本数量，n_t表示子域t中样本数量，i表示子域s的样本索引，j表示子域t中的样本索引，

和/>

表示子域s的样本对应的多层级特征，/>

和/>

表示子域t中的样本对应的多层级特征。

7.根据权利要求5所述的方法，其特征在于，ω_Geo是样本的倒角距离的倒数，ω_Sem是JS距离的倒数。

8.根据权利要求1所述的方法，其特征在于，所述深度学习模型包括嵌入网络、多粒度子域对齐模块和样本级域可知注意力模块，所述嵌入网络以源域数据集的多个子域作为输入，提取点云实例的多粒度特征；所述多粒度子域对齐模块用于对所述多粒度特征进行低层和高层的对齐，并利用所述样本级域可知注意力模块增强易于迁移样本的对齐约束。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。