CN115294296A

CN115294296A - 一种基于图像预训练模型提示学习的三维物体识别方法

Info

Publication number: CN115294296A
Application number: CN202210737105.XA
Authority: CN
Inventors: 周杰; 鲁继文; 王紫颐; 于旭敏; 饶永铭
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-11-04

Abstract

本发明提出一种基于图像预训练模型提示学习的三维物体识别方法，包括，获取三维点云数据；根据预设角度将三维点云数据投影为二维图像，根据三维点云数据各点与二维图像各像素之间的投影对应关系生成二维特征图；获取二维特征图中每个像素点的颜色值，根据颜色值生成二维特征图对应的彩色投影图像；将彩色投影图像输入至预训练的二维图像识别模型中，得到识别结果。本发明提出了基于点到像素的提示学习方法，从三维物体渲染得到彩色图像，从而以较低可学习参数量实现图像预训练知识到三维领域的迁移和应用，在经典的三维物体识别和分割任务上取得了更好的性能。

Description

一种基于图像预训练模型提示学习的三维物体识别方法

技术领域

本发明涉及计算机三维物体识别、预训练模型提示学习等领域技术。

背景技术

随着深度学习和计算硬件资源的快速发展，神经网络的规模逐渐增长，有效地提高了模型的表征能力。近期的相关研究中，大模型在经过大规模预训练后，通过微调(fine-tuning)或提示学习(prompt tuning)在下游任务中取得了巨大的成功。微调是一种经典的预训练模型迁移方法，需要对大量的参数进行重新学习调整；提示学习是一种新出现的预训练模型迁移方法，通过设计可学习提示内容，将下游任务转换为大模型可以理解的预训练任务或相似任务。

值得注意的是，上述预训练-调优的学习范式在预训练阶段需要用到大量的基础训练数据，才能优化得到表征能力强、迁移能力强的预训练大模型。在自然语言处理领域和计算机视觉的图像分析领域，都有大规模数据集作为预训练阶段的支撑，因此能够不断提高基础模型的规模，例如自然语言处理领域的Megatron-Turing NLG模型的5300亿参数在15个数据集上进行训练优化，计算机视觉图像分析领域的Vision MoE模型的147亿参数在包含3.05亿张图片的JFT数据集上进行训练优化。然而，这样的大规模训练数据在三维视觉领域仍然较为匮乏。

三维视觉是近年来新出现的计算机视觉研究分支，主要针对三维点云等数据形式进行认知理解，在自动驾驶、机器人视觉、虚拟现实等领域有丰富的应用前景。但是囿于三维数据采集的困难性与昂贵性，当前并不能像采集图像一样简便地得到大量训练数据，例如常用的物体识别数据集ShapeNet仅包含5万个虚拟三维物体模型。因此，在有限训练数据下，针对三维视觉模型的预训练方法的发展收到了限制。

因此，本发明的主要目的是探索如何将二维图像中表征能力强、可迁移性强的预训练知识迁移到三维视觉理解领域中。二维图像和三维点云都是对视觉空间的表示形式，因此他们之间包含了许多可以共享的视觉信息；此外，二维图像领域有更大规模的数据集和更大规模的预训练模型，如果能够较好地迁移到三维视觉领域，将会对三维物体的理解带来更大的帮助和性能提升。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的目的在于提出一种基于图像预训练模型提示学习的三维物体识别方法，用于以极少的可学习参数将输入的三维物体点云转换为二维图像，变为二维预训练模型能够识别理解的研究对象。

为达上述目的，本发明第一方面实施例提出了一种基于图像预训练模型提示学习的三维物体识别方法，包括：

S101：获取三维点云数据；

S102：根据预设角度将所述三维点云数据投影为二维图像，根据所述三维点云数据各点与所述二维图像各像素之间的投影对应关系生成二维特征图；

S103：获取所述二维特征图中每个像素点的颜色值，根据所述颜色值生成所述二维特征图对应的彩色投影图像；

S104：将所述彩色投影图像输入至预训练的二维图像识别模型中，得到识别结果。

另外，根据本发明上述实施例的基于图像预训练模型提示学习的三维物体识别方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述根据预设角度将所述三维点云数据投影为二维图像，包括：

所述预设角度基于任意角度选择。

进一步地，在本发明的一个实施例中，所述根据所述三维点云数据各点与所述二维图像各像素之间的投影对应关系生成二维特征图，包括：

根据所述三维点云数据中各点与所述二维图像中各像素之间的对应关系对所述三维点云的几何特征进行重新排列加和，以得到所述二维特征图。

进一步地，在本发明的一个实施例中，在获取所述二维特征图中每个像素点的颜色值之前，包括：

对所述二维特征图进行平滑处理。

为达上述目的，本发明第二方面实施例提出了一种基于图像预训练模型提示学习的三维物体识别的装置，包括以下模块：

获取模块，用于获取三维点云数据；

投影模块，用于根据预设角度将所述三维点云数据投影为二维图像，根据所述三维点云数据各点与所述二维图像各像素之间的投影对应关系生成二维特征图；

上色模块，用于获取所述二维特征图中每个像素点的颜色值，根据所述颜色值生成所述二维特征图对应的彩色投影图像；

识别模块，用于将所述彩色投影图像输入至预训练的二维图像识别模型中，得到识别结果。

进一步地，在本发明的一个实施例中，还包括：

所述预设角度基于任意角度选择。

进一步地，在本发明的一个实施例中，所述投影模块，还用于：

进一步地，在本发明的一个实施例中，所述上色模块，还包括：

计算单元，用于对所述二维特征图进行平滑处理。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的基于图像预训练模型提示学习的三维物体识别方法。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的基于图像预训练模型提示学习的三维物体识别方法。

本发明实施例提出的基于图像预训练模型提示学习的三维物体识别方法，主要优点是：(1)提出了几何信息保留的投影模块和几何信息敏感的上色模块。上述两个基础单元有效解决了将无色的三维物体点云转换为有色的二维物体图像的问题，在模态转换的过程中最大程度保留了三维视觉中的空间几何信息；(2)提出了一种点到像素(Point-to-Pixel)的提示学习方法。该方法作为计算机视觉中首个跨模态预训练模型迁移方法，利用极少的可学习参数实现了二维预训练模型向三维视觉的迁移；(3)提出了迁移利用二维预训练知识的三维物体识别模型架构。该架构能够有效利用二维图像视觉领域中成功的大模型预训练成果，在三维物体识别与分割任务上取得优秀卓越的性能，有潜力成为三维视觉学习新范式。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于图像预训练模型提示学习的三维物体识别方法流程示意图。

图2为本发明实施例所提供的二维投影图像示意图。

图3为本发明实施例所提供的三维物体识别模型架构示意图。

图4为本发明实施例所提供的一种基于图像预训练模型提示学习的三维物体识别装置流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于图像预训练模型提示学习的三维物体识别方法。

图1为本发明实施例所提供的一种基于图像预训练模型提示学习的三维物体识别方法的流程示意图。

如图1所示，该基于图像预训练模型提示学习的三维物体识别方法包括以下步骤：

S101：获取三维点云数据；

具体地，使用几何特征编码模块(如动态图卷积模块等)，得到输入点云的高维几何特征，作为点到像素提示学习模块的输入。

S102：根据预设角度将三维点云数据投影为二维图像，根据三维点云数据各点与二维图像各像素之间的投影对应关系生成二维特征图；

其中，首先对三维点云选择一个任意角度，从该角度将点云投影为一张二维图像，根据三维点云中的点和二维图像中的像素的对应关系对点云的高维几何特征进行重新排列加和，得到对应的二维特征图。

进一步地，在本发明的一个实施例中，根据预设角度将三维点云数据投影为二维图像，包括：

预设角度基于任意角度选择。

进一步地，在本发明的一个实施例中，根据三维点云数据各点与二维图像各像素之间的投影对应关系生成二维特征图，包括：

根据三维点云数据中各点与二维图像中各像素之间的对应关系对三维点云的几何特征进行重新排列加和，以得到二维特征图。

具体地，在投影的过程中，投影角度选择的任意性有效避免了投影过程中产生的遮挡问题，尽可能地保留了较多的几何信息。在对点云几何特征进行重新排列加和时，投影到同一个像素的不同三维点的特征被加在一起，这样的设计保证了三维点云中每个点都能经过梯度下降得到优化，也通过特征值的相对大小在二维特征图中保留了三维点云原本的密度信息，有效地避免了几何信息的过度损失。

S103：获取二维特征图中每个像素点的颜色值，根据颜色值生成二维特征图对应的彩色投影图像；

进一步地，在本发明的一个实施例中，在获取二维特征图中每个像素点的颜色值之前，包括：

对二维特征图进行平滑处理。

具体地，得到二维特征图后，利用具有一定感受野的深度视觉模块(如ResNet模型中的Basic Block)对特征图进行平滑处理，预测每个像素点的RGB值，得到彩色投影图像。由于三维点云的稀疏性，具有一定感受野的二维平面卷积计算能够让二维特征图更加平滑连续，有助于渲染得到更加逼近真实世界图像的投影图像。此外，以投影得到的二维几何特征为出发点对RGB颜色的显式预测，能够让渲染得到的彩色图片中的颜色在一定程度上反映出原本三维物体的几何信息，增强图片的表征能力。

基于S102、S103，本发明提出了点到像素的提示学习方法。其中，提示学习是一个概念，它通过一些方法，将两个任务变得相似或者统一；这里是通过把点云变成了图像，即点变成像素，来拉近3D任务和2D任务的距离。该方法借鉴了自然语言处理领域中提示学习方法的核心思想，将下游任务通过一定的提示转化与模型预训练阶段相似的任务。因此，点到像素的提示学习方法显式地将三维无色点云转化为二维彩色图像，使得在大规模二维图像上预训练的模型能够对输入数据进行辨认和理解。通过提示学习方法得到的二维投影图像示例如附图2所示。

基于点到像素的提示学习方法，本发明设计了迁移二维预训练知识的三维物体识别模型架构，提出了三维物体识别的全新学习范式，如附图3所示。通过点到像素提示学习方法得到的彩色投影图像被输入到在二维图像数据集上经过预训练的图像模型中，得到最终的识别预测结果。该架构仅需要对提示学习模块和少量的图像模型中的归一化参数进行学习优化，以极少的参数量达到了优越的识别性能，超越了当前基于三维点云表示学习的方法。同时，该架构能够充分挖掘利用二维预训练网络的表征能力，迁移到三维物体识别任务中的表现与预训练模型在二维图像识别任务中的表现呈现出显著的正相关关系。因此，在该架构中应用更优越的预训练模型可以预期达到更优越的三维物体识别性能。

本发明实施例提出的基于图像预训练模型提示学习的三维物体识别方法，设计了将图像预训练知识迁移到三维视觉领域的方法，有效解决三维视觉中大规模数据集匮乏、三维预训练模型发展受限的问题，提升三维视觉模型的感知能力。本发明提出了基于点到像素的提示学习方法，从三维物体渲染得到彩色图像，从而以较低可学习参数量实现图像预训练知识到三维领域的迁移和应用，在经典的三维物体识别和分割任务上取得了更好的性能。

为了实现上述实施例，本发明还提出一种基于图像预训练模型提示学习的三维物体识别装置。

图4为本发明实施例提供的一种基于图像预训练模型提示学习的三维物体识别装置的结构示意图。

如图4所示，该基于图像预训练模型提示学习的三维物体识别装置包括：获取模块100，投影模块200，上色模块300，识别模块400，其中，

获取模块，用于获取三维点云数据；

投影模块，用于根据预设角度将三维点云数据投影为二维图像，根据三维点云数据各点与二维图像各像素之间的投影对应关系生成二维特征图；

上色模块，用于获取二维特征图中每个像素点的颜色值，根据颜色值生成二维特征图对应的彩色投影图像；

识别模块，用于将彩色投影图像输入至预训练的二维图像识别模型中，得到识别结果。

进一步地，在本发明的一个实施例中，还包括：

预设角度基于任意角度选择。

进一步地，在本发明的一个实施例中，投影模块，还用于：

进一步地，在本发明的一个实施例中，上色模块，还包括：

计算单元，用于对二维特征图进行平滑处理。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于图像预训练模型提示学习的三维物体识别方法，其特征在于，包括以下步骤：

获取三维点云数据；

根据预设角度将所述三维点云数据投影为二维图像，根据所述三维点云数据各点与所述二维图像各像素之间的投影对应关系生成二维特征图；

获取所述二维特征图中每个像素点的颜色值，根据所述颜色值生成所述二维特征图对应的彩色投影图像；

将所述彩色投影图像输入至预训练的二维图像识别模型中，得到识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据预设角度将所述三维点云数据投影为二维图像，包括：

所述预设角度基于任意角度选择。

3.根据权利要求1所述的方法，其特征在于，所述根据所述三维点云数据各点与所述二维图像各像素之间的投影对应关系生成二维特征图，包括：

4.根据权利要求1所述的方法，其特征在于，在获取所述二维特征图中每个像素点的颜色值之前，包括：

对所述二维特征图进行平滑处理。

5.一种基于图像预训练模型提示学习的三维物体识别装置，其特征在于，包括以下模块：

获取模块，用于获取三维点云数据；

6.根据权利要求5所述的装置，其特征在于，还包括：

所述预设角度基于任意角度选择。

7.根据权利要求5所述的装置，其特征在于，所述投影模块，还用于：

8.根据权利要求5所述的装置，其特征在于，所述上色模块，还包括：

计算单元，用于对所述二维特征图进行平滑处理。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-4中任一所述的基于图像预训练模型提示学习的三维物体识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任意一项所述的基于图像预训练模型提示学习的三维物体识别方法。