CN114239560A

CN114239560A - 三维图像分类方法、装置、设备和计算机可读存储介质

Info

Publication number: CN114239560A
Application number: CN202111474470.8A
Authority: CN
Inventors: 张仁瑞; 郭子瑜; 张伟; 黎昆昌; 苗旭鹏; 崔斌; 乔宇; 高鹏; 李鸿升
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-25

Abstract

本申请实施例公开了一种三维图像分类方法、装置、设备和计算机可读存储介质。该方法包括：获取三维图像和多个文本标签；将三维图像投影到多个视角，得到多个视角深度图像；对多个视角深度图像和多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；根据多个视角对应的图像特征和多个文本特征计算相似度，得到第一文本相似度。通过将物体分类任务转换成图文匹配任务，不受固定文本标签集的限制，具有对没见过的物体和概念的泛化能力。第一文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度，根据第一文本相似度确定三维图像中物体的类别，提高了三维图像的分类准确性。

Description

三维图像分类方法、装置、设备和计算机可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种三维图像分类方法、装置、设备和计算机可读存储介质。

背景技术

随着网络技术的不断发展，越来越多的领域需要用到分类完成的三维图像，例如，机器学习模型训练、大量三维图像的分类和识别等。以机器学习模型训练为例，在对待分类的三维图像进行识别之前，需要提供分类完成的三维图像样本集，以供机器学习模型进行训练。

现有技术中，在对三维图像进行分类时，通过预先训练完成的机器学习模型，实现对三维图像的检测和识别过程。在训练机器学习模型时，需要采集大量的三维图像样本以及三维图像样本对应的文本标签集，文本标签集表征三维图像样本中物体的类别对应的文本，例如，三维图像中物体的类别是“狗”，文本标签是“这是一只狗”。从而通过大量的三维图像样本和文本标签集，对机器学习模型进行训练，得到能够对三维图像进行分类的模型。

然而，该预先训练完成的机器学习模型只能对训练过程中用到过的物体进行分类，即，受固定文本标签集的限制，无法对新类别的物体进行分类，降低了三维图像分类的准确性。

发明内容

本申请实施例期望提供一种三维图像分类方法、装置、设备和计算机可读存储介质，通过对二维的视角深度图像和文本标签分别进行编码，以及计算特征之间的相似度的方案，将物体分类任务转换成图文匹配(即，图像与文本配对)任务，具有对没见过的物体和概念的泛化能力，提高了三维图像的分类准确性。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种三维图像分类方法，所述方法包括：获取三维图像和多个文本标签；将所述三维图像投影到多个视角，得到多个视角深度图像；对所述多个视角深度图像和所述多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；根据所述多个视角对应的图像特征和所述多个文本特征计算相似度，得到第一文本相似度，其中，所述第一文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；根据所述第一文本相似度确定所述三维图像中物体的类别。

第二方面，本申请实施例提供一种三维图像分类装置，所述装置包括：获取模块，用于获取三维图像和多个文本标签；投影模块，用于将所述三维图像投影到多个视角，得到多个视角深度图像；编码模块，用于对所述多个视角深度图像和所述多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；计算模块，用于根据所述多个视角对应的图像特征和所述多个文本特征计算相似度，得到第一文本相似度，其中，所述第一文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；根据所述第一文本相似度确定所述三维图像中物体的类别。

第三方面，本申请实施例提供一种三维图像分类设备，所述设备包括存储器，用于存储可执行指令，处理器，用于执行所述存储器中存储的可执行指令时，实现上述三维图像分类方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有可执行指令，用于被处理器执行时，实现上述三维图像分类方法。

本申请实施例提供了一种三维图像分类方法、装置、设备和计算机可读存储介质。根据本申请实施例提供的方案，获取三维图像和多个文本标签；将三维图像投影到多个视角，得到多个视角深度图像；对多个视角深度图像和多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；根据多个视角对应的图像特征和多个文本特征计算相似度，得到第一文本相似度。在本申请实施例中，通过对二维的视角深度图像和文本标签分别进行编码，以及计算特征之间的相似度的方案，将物体分类任务转换成图文匹配(即，图像与文本配对)任务，不受固定文本标签集的限制，具有对没见过的物体和概念的泛化能力。第一文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度，根据第一文本相似度确定三维图像中物体的类别，提高了三维图像的分类准确性。

附图说明

图1为本申请实施例提供的一种三维图像分类的应用场景的示例性示意图；

图2为本申请实施例提供的另一种三维图像分类的应用场景的示例性示意图；

图3为本申请实施例提供的一种三维图像分类方法的可选的步骤流程图；

图4为本申请实施例提供的另一种三维图像分类方法的可选的步骤流程图；

图5为本申请实施例提供的一种PointCLIP模型的示例性的网络结构图；

图6为本申请实施例提供的一种视角间适配器的示例性的结构示意图；

图7为本申请实施例提供的一种PointCLIP模型与3D图像分类模型联合的示例性的结构图；

图8为本申请实施例提供的一种三维图像分类装置的结构示意图；

图9为本申请实施例提供的一种三维图像分类设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。应当理解的是，此处所描述的一些实施例仅仅用以解释本申请的技术方案，并不用于限定本申请的技术范围。

为便于理解本方案，在对本申请实施例进行说明之前，对本申请实施例中的相关技术进行说明。

相关技术中，通过三维图像分类模型对三维图像进行分类，得到三维图像中物体的类别。三维图像分类模型是指通过三维图像样本进行训练完成的模型。如图1所示，图1为本申请实施例提供的一种三维图像分类的应用场景的示例性示意图，图1中以三维图像分类模型是PointNet++为例进行说明，训练(train)表示训练PointNet++模型，在训练过程中，需要采集3D训练集(3D Training Set)，3D Training Set包括三维图像样本的点云，以及根据三维图像样本中物体类别转换的文本标签集，文本标签是关于物体类别的句子，示例性的，文本标签的形式可以是A photo of a{label}，lable表示类别，例如，dog、train，文本标签也可以是其他的形式，例如，A beautiful dog，对此本申请实施例不作限制。通过采集大量的三维图像样本和文本标签集，对PointNet++模型进行训练，训练完成的PointNet++模型可以用于对三维图像进行分类。测试(Test)表示通过训练完成的PointNet++对待分类的3D图像(3D Test Set)进行测试，将3D Test Set输入训练完成的PointNet++模型，输出与文本标签对应的文本相似度，文本相似度包括3D Test Set中物体的类别与三个文本标签中类别(chair、plane和lamp)之间的相似度。图1中以条形图对文本相似度进行示出，从而确定3D Test Set中物体的类别是“plane”。

由于图1中PointNet++模型在训练过程中，需要采集大量的三维图像样本的点云，三维图像样本的点云需要通过3d相机、高精度传感器等设备进行采集，因此，相较于二维图像样本的采集方式，三维图像样本的采集成本较高。并且，PointNet++模型受固定(预先定义)文本标签集的限制，无法对新类别的物体进行分类，在对物体的类别进行识别时，仅能识别出在训练时所用到过的物体的类别，也就是训练集中文本标签中类别，降低了三维图像分类的准确性。

本申请实施例中提供一种三维图像分类方法，如图2所示，图2为本申请实施例提供的另一种三维图像分类的应用场景的示例性示意图，图2中为本申请实施例提供的PointCLIP模型，通过采集大量的二维图像样本和文本标签集，也可以是采集大量的2D图像与文本匹配对(2D Image-Text Pairs)，对PointCLIP模型进行训练，其中，文本标签集包括“A brown chair、A table lamp、A cool airplane”，训练完成的PointCLIP模型可以用于对三维图像进行分类。将待分类3D图像(3D Test Set)输入训练完成的PointCLIP模型，输出与文本标签对应的文本相似度，图2中以条形图对文本相似度进行示出，从而确定3DTest Set中物体的类别是“plane”。

由于本申请实施例是采用二维图像样本对PointCLIP模型进行训练，与三维图像样本的采集方法相比，二维图像样本的采集成本较低，对采集设备没有要求。相较于图1中PointNet++模型的训练集，降低了数据获取难度，从而提高数据采集效率。

需要说明的是，PointCLIP模型是在对比语言图像预训练(ContrastiveLanguage-Image Pre-training，CLIP)的基础上进行改进，实现对三维图像进行分类。CLIP模型具有对未知类别进行推理的能力，通过采集图文(二维图像-文本)数据集，将文本作为图像标签，将图像分类任务转换成图文匹配任务，对CLIP模型进行训练。大量的预训练通常可以产生更好的泛化能力，不受固定文本标签集的限制，具有对没见过的物体和概念的推理能力。通过在大量的图文匹配对上训练CLIP，训练完成的CLIP模型在各种视觉任务中表现出很强的零样本迁移能力。在测试时，基于输入的二维图像，在类别描述中检索，找到最合适的类别，使得CLIP模型实现对未知类别进行推理。然而，虽然CLIP模型可以对图像中未知类别进行推理，但是，CLIP模型仅能对二维图像进行未知类别的识别，不能直接对三维图像中物体进行分类。因此，本申请实施例提出PointCLIP模型，通过二维图像样本和文本标签集进行训练，提高数据采集效率，可以对三维图像中未知类别进行分类，提高三维图像分类的准确性。

本申请实施例提供一种三维图像分类方法，如图3所示，图3为本申请实施例提供的一种三维图像分类方法的可选的步骤流程图，三维图像分类方法包括以下步骤：

S301、获取三维图像和多个文本标签。

在本申请实施例中，三维图像是待分类的三维图像，三维图像包括物体多个视角下的点云。文本标签是关于物体类别的句子，是预设的文本标签，例如，一只强壮的牛。示例性的，该多个文本标签可以是训练PointCLIP模型时所使用的文本标签集；也可以后续通过训练完成的PointCLIP模型，对待分类三维图像进行分类，得到三维图像中物体类别之后，根据物体类别对训练时所使用的文本标签集进行不断完善，对此本申请实施例不作限制。

S302、将三维图像投影到多个视角，得到多个视角深度图像。

在本申请实施例中，将三维图像的点云在多个视角上进行投影，视角的数量和具体方位可以由本领域技术人员进行设置，可以通过大量的实验数据进行分析中确定。多个视角包括但不限于前(Front)、后(Back)、左(Left)、右(Right)、上(Top)、下(Down)、左上、左下、右上、右下中的至少两个，其中，前后左右上下也可以分别称为正视、后视、左视、右视、俯视、仰视，本申请实施例对于多个视角的数量和具体方位不作限制。

在本申请实施例中，为了使显示的物体能以合适的位置、大小和方向显示出来，需要通过投影降低维数。可以通过投影变换(Projection Transformation)的方法将三维图像投影到多个视角，得到多个视角深度图像，视角深度图像是二维图像。投影变换可以理解为定义一个视角，使得视角外多余的部分裁剪掉，最终进入图像的只是视角内的有关部分。投影包括但不限于透视投影(Perspective Projection)和正视投影(OrthographicProjection)。

S303、对多个视角深度图像和多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征。

在本申请实施例中，图像特征和文本特征可以是以向量的形式表示，以便于后续对两个向量之间计算向量相似度。通过预先训练完成的PointCLIP模型对多个视角深度图像进行特征提取，得到多个图像特征，一个视角对应一个图像特征。图像特征包括图像的颜色特征、纹理特征、形状特征和空间关系特征。

在本申请实施例中，通过预先训练完成的PointCLIP模型对多个文本标签进行编码，得到多个文本特征，文本特征可以用于聚类、分类和计算相似度等。可以将PointCLIP模型中用于进行编码的网络理解为神经网络(Neural Networks，NNs)，示例性的，通过以下方式对文本标签进行编码，由于自然语言(文本标签是一个表达句子)无法直接作为神经网络输入，需要先对文本标签进行分词，对每个词进行编号，得到词向量映射。将词向量映射作为神经网络的输入，进行文本编码，得到文本特征。本申请实施例中用于文本编码的神经网络包括但不限于：卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、长短期记忆神经网络(Long-Short Term Memory，LSTM)，对此本申请实施例不作限制，只要该神经网络可以用于自然语言处理(NaturalLanguage Processing，NLP)即可。

S304、根据多个视角对应的图像特征和多个文本特征计算相似度，得到第一文本相似度，其中，第一文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度。

在本申请实施例中，图像特征和文本特征的形式可以是向量，图像特征中包括表征不同视角下物体的本身固有的特征(例如，颜色、形状、文本和空间关系等)，文本标签包括表征文本所表达的物体类别(例如，飞机、椅子、狗等)，计算每个视角对应的图像特征和每个文本特征之间的向量相似度，得到多个文本相似度。根据文本标签，将多个文本相似度进行合并，得到第一文本相似度。该第一文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度。

在本申请实施例中，文本相似度包括但不限于以下形式：余弦相似度(cosine)、欧氏距离(Euclidean)、曼哈顿距离(Manhattan distance)、皮尔逊相关系数(Pearsoncorrelation coefficient，PC)、斯皮尔曼(等级)相关系数(Spearman Rank Correlation，SRC)、杰卡德相似系数(Jaccard距离)、SimHash+汉明距离(Hamming Distance)等，对此本申请实施例不作限制。

需要说明的是，本申请实施例中第一和第二只是为了区分名称，并不代表顺序关系，不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，例如，第一文本相似度和第二文本相似度。

在一些实施例中，上述S304可以包括S3041和S3042。

S3041、将多个视角对应的图像特征和多个文本特征分别配对，计算每个文本特征和每个视角对应的图像特征之间的文本相似度，得到第二文本相似度，第二文本相似度包括多个文本标签对应的多个视角的文本相似度。

S3042、将第二文本相似度中同一文本标签对应的多个视角的文本相似度相加，得到第一文本相似度；其中，第二文本相似度的数量大于第一文本相似度的数量。

示例性的，将每个视角对应的图像特征和每个文本特征进行配对，计算每个文本特征和每个视角对应的图像特征之间的文本相似度，得到第二文本相似度，第二文本相似度包括多个文本标签对应的多个视角的文本相似度。例如，文本标签的数量为20000个，视角为8个，计算每个视角对应的图像特征和每个文本特征之间的向量相似度，得到160000个第二文本相似度，将160000个第二文本相似度中同一文本标签对应的8个视角对应的文本相似度进行合并，在合并时。可以通过将相似度相加的方式，得到20000个第一文本相似度。即，第二文本相似度的数量远大于第一文本相似度的数量。

在本申请实施例中，通过将多个视角对应的图像特征和多个文本特征分别配对，计算每个文本特征和每个视角对应的图像特征之间的文本相似度，得到第二文本相似度。第二文本相似度包括多个文本标签对应的多个视角的文本相似度，将第二文本相似度中同一文本标签对应的多个视角的文本相似度相加，得到第一文本相似度，提高了文本相似度的准确性。

在一些实施例中，上述S3042可以通过以下方式实现。针对同一文本标签，将多个视角的文本相似度和每个视角对应的权重，进行加权求和，得到该文本标签下的文本相似度；将多个文本标签下的文本相似度作为第一文本相似度。

在本申请实施例中，每个视角对应的权重可以由本领域技术人员根据实际情况进行适当设置，例如，将某些关键视角或对物体的类别识别影响较大的视角，所对应的权重值设置的大一些。也可以对大量的实验数据进行分析确定，示例性的，对于同一文本标签，通过预先训练完成的PointCLIP模型，PointCLIP模型包括用于进行文本编码的网络和用于进行图像特征提取的网络，这两个网络在训练过程中是同时训练的。训练输入的是二维图像样本以及二维图像样本对应的文本标签，训练输出的是二维图像样本中物体的类别，直至达到训练终止条件，例如，训练次数达到预设次数，或者，损失值达到预设阈值等。在训练完成后，将两个网络的网络参数固定，再将三维图像样本在多个视角上进行投影，得到多个视角深度图像样本。视角深度图像样本是二维图像，将多个视角深度图像样本输入到PointCLIP模型中，此时，PointCLIP模型中用于进行文本编码的网络和用于进行图像特征提取的网络的网络参数是固定的，从而对每个视角的权重进行训练，通过训练结果中预测类别的准确度，选取适当的每个视角对应的权重值，对此本申请实施例不做限制。

在本申请实施例中，通过添加视角权重的方式，对同一文本标签下的多个视角的文本相似度进行加权求和，从而得到多个文本标签下的文本相似度，提高了文本相似度的准确性。

S305、根据第一文本相似度确定三维图像中物体的类别。

在本申请实施例中，第一文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度，可以选择第一文本相似度中超过预设相似度的文本相似度，将文本相似度对应的文本标签中相关的类别，以及类别对应相似概率，作为三维图像中物体的类别的输出结果。也可以选择第一文本相似度中超过预设数量的文本相似度，例如，前三个，将文本相似度对应的文本标签中相关的类别，以及类别对应相似概率，作为三维图像中物体的类别的输出结果。预设相似度和预设数量可以由本领域技术人员根据实际情况进行适当设置，也可以对大量的实验数据进行分析确定，对此本申请实施例不作限制。通过选择至少一个文本相似度，确定物体类别的输出结果的方案，提高了输出结果的多样性。

在一些实施例中，上述S305可以通过以下方式实现。将第一文本相似度中最大文本相似度对应的文本标签相关的类别，确定为三维图像中物体的类别。

在本申请实施例中，通过选择第一文本相似度中最大文本相似度，将最大文本相似度对应的文本标签中相关的类别，作为三维图像中物体的类别的输出结果，从而确定物体的类别，提高了三维图像分类的准确度。

根据本申请实施例提供的方案，获取三维图像和多个文本标签；将三维图像投影到多个视角，得到多个视角深度图像；对多个视角深度图像和多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；根据多个视角对应的图像特征和多个文本特征计算相似度，得到第一文本相似度。在本申请实施例中，通过对二维的视角深度图像和文本标签分别进行编码，以及计算特征之间的相似度的方案，将物体分类任务转换成图文匹配(即，图像与文本配对)任务，不受固定文本标签集的限制，具有对没见过的物体和概念的泛化能力。第一文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度，根据第一文本相似度确定三维图像中物体的类别，提高了三维图像的分类准确性。

在一些实施例中，上述S303可以包括S401和S402。如图4所示，图4为本申请实施例提供的另一种三维图像分类方法的可选的步骤流程图。

S401、根据视觉编码模型对多个视角深度图像进行图像编码，得到多个视角对应的图像特征。

S402、根据文本编码模型对多个文本标签进行文本编码，得到多个文本特征。

在本申请实施例中，预先训练完成的PointCLIP模型包括视觉编码模型和文本编码模型，通过视觉编码模型对视角深度图像进行图像特征提取，得到图像特征，一个视角深度图像对应一个图像特征；通过文本编码模型对文本标签进行编码，得到文本特征，一个文本标签对应一个文本特征。视觉编码模型和文本编码模型可以是任意结构的基于神经网络的编码器(encoder)，在神经网络中分为有监督学习和无监督学习，本申请是实施例中的编码器包括但不限于：无监督学习的自编码器(Autoencoder)，例如，变分自编码器(variational autoencoder，VAE)和生成式对抗网络(Generative AdversarialNetworks，GAN)。

在本申请实施例中，通过视觉编码模型对视角深度图像进行图像编码，通过文本编码模型对文本标签进行文本编码，提高了图像特征和文本特征的准确性。

在一些实施例中，视觉-语言匹配任务模型包括上述S401中的文本编码模型和S402中的视觉编码模型，视觉-语言匹配任务模型通过以下方式获取：获取第二图像样本，第二图像样本包括多个第二物体样本的二维图像样本和多个第二物体样本的文本标签；根据第二图像样本对初始视觉-语言匹配任务模型进行训练，得到视觉-语言匹配任务模型。

在本申请实施例中，视觉-语言匹配任务模型表示PointCLIP模型，根据二维图像样本及其二维图像样本对应的文本标签，对PointCLIP模型进行训练，也就是说文本编码模型和视觉编码模型是同时训练的。

示例性的，将第二图像样本输入初始PointCLIP模型中，输出第二物体样本的预测类别；根据第二物体样本的预测类别和预设的损失函数，获得损失值；根据损失值对初始PointCLIP模型进行训练，直至达到训练终止条件，例如，训练次数达到预设次数，或者，损失值达到预设阈值等，得到PointCLIP模型。

需要说明的是，预设的损失函数(loss function)可以由本领域技术人员根据实际需求进行设置，包括但不限于交并比值(DiceLoss)、平滑Smooth L1损失函数和交叉熵损失函数等。此外，由于PointCLIP模型是在更加多样化和大规模的数据源上进行训练，不受固定标签集的限制，并且具有对没见过的对象和概念的泛化能力。因此第二图像样本也可以是已经匹配完成的图像-文本对，几乎不需要人工标注，从而进一步降低了数据采集成本。

在本申请实施例中，通过第二物体样本的二维图像样本对PointCLIP模型进行训练，训练完成后的PointCLIP模型可以对待分类的三维图像进行分类。与三维图像样本的采集方法相比，二维图像样本的采集成本较低，对采集设备没有要求，降低了数据获取难度，从而提高数据采集效率。而且，PointCLIP模型将图像分类任务转换成图文匹配任务，可以产生更好的泛化能力，不受固定文本标签集的限制，具有对没见过的物体和概念的推理能力。提高了三维图像分类的准确性。

下面，列举一个具体的示例对三维图像分类方法的应用场景进行说明，如图5所示，图5为本申请实施例提供的一种PointCLIP模型的示例性的网络结构示意图。图5中Point clound depth map of a[class]表示文本标签，该文本标签可以理解为带类别的句子模板，其中，模板中的class表示不同的物体的类别，例如，chair、lamp、plane等，当然在实际训练和测试时，文本标签的数量是很多的，对文本标签的数量不作限制。文本编码模型(Textual Encoder)也可以称为语言编码器，C表示每个文本特征的特征维度，K＝3，表示文本标签的数量，W_t ^T中W^T表示多个文本特征所构成的矩阵，t表示文本(text)text，Classifer表示分类器，用于对多个视角的对应的图像特征进行分类。将待分类的3D图像的点云(3DPoint Cloud)投影(Projection)到多个视角，得到多个2D视角深度图像(2D Depth Maps)，图5中以左视、右视、后视和俯视，4个视角进行示出，M＝4，M视角(views)表示4个视角当然在实际训练和测试时，对视角的数量不作限制。视觉编码模型(Visual Encoder)对多个2D视角深度图像进行特征提取，得到多个视角对应的图像特征(Multi-view Features)，f₁、f₂、f₃、f₄表示4个视角对应的图像特征，C表示图像特征的特征维度，与文本特征的特征维度相同，M＝4，表示4个视角。

在本申请实施例中，Zero-shot表示零发或零次识别，也可以表示零发或零次检测，也就是通过编码得到图像特征和文本特征，然后直接计算图像特征和文本特征之间的文本相似度的方案，可以称为Zero-shot识别，Zero-shot识别可以理解为在训练过程中不是直接对二维图像进行图像分类，而是采用图文匹配的方式。在本申请实施例中，Zero-shot识别还可以理解为没有采用三维图像样本进行训练，即可完成对待分类的三维图像进行分类。

在本申请实施例中，还可以根据多个视角的图像特征，通过特征连接、全局特征提取、不同视角的适配处理以及残差连接，也就是通过视角间适配器的处理，得到图像特征，然后计算图像特征和文本特征之间的文本相似度，由于视角间适配器是通过少量的三维图像样本进行训练的，因此，相对于上述Zero-shot识别，可以将该方案称为Few-shot识别。在本申请实施例中，Few-shot识别可以理解为在训练过程中采用少量的三维图像样本进行训练，即可完成对待分类的三维图像进行分类。

在本申请实施例中，图5中开关用于选择Zero-shot识别或Few-shot识别，视角间适配器(Inter-view Adapter)用于将不同视角的初始图像特征进行融合，得到图像特征。图5中

表示将每个图像特征和每个文本特征进行文本相似度计算，对多个视角深度图像进行物体类别的预测(Multi-view Predictions)，得到每个图像特征与每个文本特征之间的文本相似度。f₁W_t ^T表示第1个视角对应的图像特征与3个文本特征之间的文本相似度，f₂W_t ^T表示第2个视角对应的图像特征与3个文本特征之间的文本相似度，f₃W_t ^T表示第3个视角对应的图像特征与3个文本特征之间的文本相似度，f₄W_t ^T表示第4个视角对应的图像特征与3个文本特征之间的文本相似度，共12个文本相似度。a₁、a₂、a₃、a₄表示4个视角对应的权重，将同一文本标签下的4个视角对应的文本相似度，结合每个视角对应的权重，进行加权求和，图5中以线性拟合(Linear Combination)表示加权求和的过程，得到该文本标签下的文本相似度，共3个文本相似度。在图5中以条形图的形式示出3个文本标签(chair、lamp、plane)下的文本相似度，在本申请实施例中物体类别可以是概率的形式示出，3个文本标签下的类别概率之和为1。

在本申请实施例中，图5表示PointCLIP模型的网络结构图，PointCLIP分为两个分支，上面的分支通过CLIP模型的文本编码模型，将带类别的句子模板编码为文本特征。下面的模态转换分支将三维图像的点云投影到多个视角，得到多个视角深度图像，再通过视觉编码模型得到每个视角的图像特征。CLIP模型中的分类器用于对多个视角的对应的图像特征进行分类。对于zero-shot learning(零发检测)，不同视角的图像特征直接和分类器分别配对。而对于few-shot识别，则将每个图像特征分别输入到Inter-view adapter(视角间适配器)中，以一种可学习的方式，更新图像特征。在将每个图像特征和每个文本特征进行配对后，会得到不同视角的预测结果(即文本相似度)，将同一文本标签下不同视角的文本相似度进行加权求和，得到多个文本标签下的文本相似度。

相关技术中，CLIP模型只在2D领域中train和test，PointNet++模型只在3D领域中train和test，不能将2D中已经学习到的知识，在不经过任何3D训练的情况下进行3D物体的识别。如图1中的PointNet++模型只能在3D样本集上进行训练并且预测，不能实现跨模态的转换。

本申请实施例中提供的PointCLIP模型在2D的图像-文本对上进行对比训练，但是可以直接拿来预测3D物体的类别，不需要任何3D的训练。在对待分类图像进行分类时，PointCLIP模型将3D点云投影到多个视角的2D深度图上，然后通过训练完成的CLIP模型(文本编码模型和视觉编码模型)对其分类，提高了三维图像分类的准确性。并且利用CLIP模型的特性，还可以实现对未见过类别的3D物体进行识别，实现了2D到3D的跨模态“零发”知识转移(或传输)的方法，并且在图像样本很少的时候，依旧能够提高三维图像分类的准确性。

在一些实施例中，上述S402可以包括S4021和S4022。

S4021、根据视觉编码模型对多个视角深度图像进行图像编码，得到多个视角对应的初始图像特征。

S4022、将多个视角对应的初始图像特征输入视角间适配器，对多个视角对应的初始图像特征进行融合，确定多个视角对应的图像特征。

在本申请实施例中，将视觉编码模型对视角深度图像进行图像编码，得到图像特征称为初始图像特征，由于初始图像特征是多个视角对应的图像特征，多个视角均属于同一三维图像，因此，这些图像特征之间既相互独立，又存在一定的联系。视角间适配器用于将不同视角的初始图像特征进行融合，可以理解为不同视角下初始图像特征的相互补充、交互，也可以理解为图像三维重建。

在本申请实施例中，对于同一物体，由于物体自遮挡等原因，视角不同，所看到的内容不同，即初始图像特征所侧重的表达信息不同。对于每个视角对应的初始图像特征来说，其表达信息均是局部的、不完整的，因此，将多个视角对应的初始图像特征输入视角间适配器，对多个视角对应的初始图像特征进行融合，融合后的图像特征更完整、全面，将融合后的图像特征进行适配处理，也可以理解为融合的反过程，从而得到多个视角对应的图像特征，相较于初始图像特征，该图像特征能够更准确的表示三维图像，提高了图像特征的准确性。

在一些实施例中，上述S4022可以包括S4022a、S4022b和S4022c。

S4022a、将多个视角对应的初始图像特征进行连接，得到连接图像特征。

S4022b、对连接图像特征进行全局特征提取，得到全局图像特征，全局图像特征表征不同视角间信息交互后的特征。

S4022c、将全局图像特征进行不同视角的适配处理，得到多个视角对应的图像特征。

在本申请实施例中，视角间适配器可以完成S4022a-S4022c，视角间适配器包括三个线性层，线性层可以理解为神经网络。在对多个视角对应的初始图像特征进行处理时，将多个视角对应的初始图像特征在特征维度上连接起来，得到连接图像特征。前两个线性层用于对连接图像特征进行全局特征提取，将不同视角间信息进行交互，得到全局图像特征。第三个线性层用于将全局图像特征进行不同视角的适配处理，得到多个视角对应的图像特征，第三个线性层可以理解为全连接网络(fully connected neural network)。

在本申请实施例中，通过特征连接、全局特征提取以及不同视角的适配处理，得到多个视角对应的图像特征，提高了图像特征的全面性、完整性。

在一些实施例中，上述S4022c可以通过以下方式实现。将全局图像特征进行不同视角的适配处理，得到多个视角对应的增强图像特征；将初始图像特征和增强图像特征，按照各个视角分别进行残差连接，得到多个视角对应的图像特征。

在本申请实施例中，对全局图像特征进行不同视角的适配处理，得到增强图像特征，通过残差连接(skip connect)的方式与初始图像特征进行连接，通过视角间适配器输出，得到多个视角对应的图像特征。视角间适配器本质是一个神经网络，神经网络会存在退化问题，虽然是一个很高维的矩阵，但是大部分维度却没有信息，表达能力没有看起来那么强大。残差连接可以强制打破了网络的对称性，提升了网络的表征能力，可以改善反向传播过程中的梯度消散问题。

在本申请实施例中，通过对全局图像特征进行不同视角的适配处理，结合初始图像特征进行残差连接，得到多个视角对应的图像特征，提高了图像特征的准确性。

下面，列举一个具体的示例对三维图像分类方法的应用场景进行说明。如图6所示，图6为本申请实施例提供的一种视角间适配器的示例性的结构示意图。图6中多个视角对应的图像特征(Multi-view Features)与图5中的内容一致，由于图6中需要对图像特征进行融合处理，为便于区分，将多个视角对应的图像特征(Multi-view Features)称为多个视角对应的初始图像特征，包括f₁、f₂、f₃和f₄。视角间适配器(Inter-view adapter)一共包括3层线性层组成，将不同视角的图像特征在特征维度上连接起来，通过前两个线性层提取到全局特征，图6中f_global表示全局特征(Global Features)。该全局特征通过交互不同视角间的信息，能够全面概括3D点云的属性。然后，通过一层线性层得到不同视角的适配特征，通过残差连接(Residual Connection)的方式和初始图像特征加和，得到最终的图像特征，即，图6中经过视角间适配器后的图像特征(Adapted Features)，包括f₁ ^a、f₂ ^a、f₃ ^a和f₄ ^a，输出视角间适配器。视角间适配器是采用少量的三维图像样本训练得到的，是可学习的模型，包含3D数据集中的方法。通过视角间适配器结合PointCLIP实现三维图像分类的方法，将2D预训练知识(多个文本标签与多个二维图像分别配对，计算文本相似度)和3D学习的知识(采用三维图像样本训练的视角间适配器，对图像特征进行融合处理)结合在一起，从而实现对待分类的三维图像进行分类，提高了三维图像分类的准确性。

在一些实施例中，上述S4022中的视角间适配器可以通过以下方式获取：获取第一图像样本，第一图像样本包括多个第一物体样本的三维图像样本和多个第一物体样本的文本标签；根据第一图像样本，结合文本编码模型和视觉编码模型，对初始视角间适配器进行训练，得到视角间适配器。

在本申请实施例中，在训练PointCLIP模型时，是根据大量的二维图像样本及其二维图像样本对应的文本标签，对PointCLIP模型进行训练，PointCLIP模型中的文本编码模型和视觉编码模型是同时训练的，从而得到训练完成后的文本编码模型和视觉编码模型。然后采集少量的三维图像样本及其三维图像样本对应的文本标签，这里的少量是相对于大量的二维图像样本而言。三维图像样本的数量远小于二维图像样本数量，三维图像样本，例如，8个、16个、32个、64个、128个。根据少量的三维图像样本及其三维图像样本对应的文本标签对视角间适配器进行训练，从而得到训练完成的视角间适配器。

示例性的，将多个物体样本的三维图像样本投影到多个视角，得到多个视角深度图像样本；通过训练完成后的文本编码模型对预先采集多个文本标签样本进行编码，得到多个文本特征样本，通过训练完成的视觉编码模型对多个视角深度图像样本进行编码，得到多个视角对应的初始图像特征样本；将多个视角对应的初始图像特征样本输入初始视角间适配器，得到多个视角对应的图像样本；根据多个视角对应的图像样本和多个文本特征样本进行类别预测，得到第一物体样本的预测类别。根据第一物体样本的预测类别和预设的损失函数，获得损失值；根据损失值对初始视角间适配器进行训练，直至达到训练终止条件，例如，训练次数达到预设次数，或者，损失值达到预设阈值等。

需要说明的是，上述多个第一物体样本的文本标签与第一物体样本的三维图像样本一一对应的，是已知准确的标签真值，文本标签样本是预先采集的文本标签。多个第一物体样本的文本标签可以用于PointCLIP模型中有监督式学习模式，即，将多个第一物体样本的文本标签作为样本输入PointCLIP模型中进行监督学习，或者用于PointCLIP模型中强化学习模式，真值滞后反馈，用于累积多次决策才知道结果好坏。

在本申请实施例中，通过少量的三维图像样本和三维图像样本中第一物体样本的文本标签，结合文本编码模型和视觉编码模型，对初始视角间适配器进行训练，得到视角间适配器。相较于采集大量的三维图像样本对三维分类模型进行训练的方式，在训练视角间适配器时，仅需要采集少量的三维图像样本，降低了数据获取难度，从而提高数据采集效率。

在一些实施例中，在上述S305之前，该三维图像分类方法还可以包括S501。

S501、将三维图像输入到三维图像分类模型，得到第三文本相似度，第三文本相似度表征三维图像中物体所对应的类别与多个文本标签之间的相似度。

在本申请实施例中，将三维图像输入到三维图像分类模型，得到第三文本相似度，该第三文本相似度与第一文本相似度所表征的信息相同。三维图像分类模型是指通过三维图像样本进行训练完成的模型，可以是任意结构的神经网络，包括但不限于PointNet、PointNet++、SimpleView、DGGNN、CurveNet，对此本申请实施例不作限制。

在本申请实施例中，结合上述S501中得到的第三文本相似度，上述图3中S305可以通过以下方式实现，将第一文本相似度和第三文本相似度中同一文本标签的文本相似度相加，得到第四文本相似度；根据第四文本相似度，确定三维图像中物体的类别。

在本申请实施例中，由于三维图像分类模型是采用三维图像样本进行训练，PointCLIP模型是采用二维图像样本进行训练，因此，三维图像分类模型和PointCLIP模型对于待分类的三维图像的分类结果是恰好相反的，这是由两个模型的训练机制所带来的。也可以理解为，对于某些待分类的三维图像，两个模型所预测的结果是相反的，也就是，一个模型预测的类别是对的，另一个模型预测的类别是错的，将两者结果相加，会有一个纠偏的功能，将错的类别纠正为对的类别。然而对于两个三维图像分类模型来说，其均是用三维图像样本进行训练的，所以预测结果的错误或正确的方向是一致的，也就是，一个模型预测的是错的类别，另一个模型预测的也是错的类别，两者相加，只会让对的更对，错的更错。

在本申请实施例中，将待分类的三维图像输入PointCLIP模型，输出第一文本相似度；将待分类的三维图像输入三维图像分类模型，输出第三文本相似度。第三文本相似度与第一文本相似度均表征三维图像中物体所对应的类别与多个文本标签之间的相似度，对同一文本标签对应的文本相似度求和，得到第四文本相似度，第四文本相似度能够更准确的表征三维图像中物体所对应的类别与多个文本标签之间的相似度，提高了文本相似度的准确性。

下面，列举一个具体的示例对三维图像分类方法的应用场景进行说明。如图7所示，图7为本申请实施例提供的一种PointCLIP模型与3D图像分类模型联合的示例性的结构图。图7中多模型联合学习(Multi-knowledge Ensembling)表示将PointCLIP模型和Classical 3D Networks测试结果进行联合，本申请实施例中通过PointCLIP模型，对待分类的三维图像进行分类，得到分类结果，分类结果包括多个文本标签下的文本相似度，由于PointCLIP模型是基于二维图像样本进行训练得到的，因此该分类过程可以称为2D Pre-trained Knowledge。相关技术中，通过三维分类模型Classical 3D Networks，例如，PointNet、PointNet++、DGGNN、CurveNetdeg等，实现对待分类的三维图像进行分类，得到分类结果，由于Classical 3D Networks是采用三维图像样本进行训练得到的，因此该分类过程也可以称为3D Learned Knowledge。图7中将PointCLIP作为模型集成(ensemble)，将整个训练好的PointCLIP模型，当做一个即插即用的增强模块，可以增强相关技术中Classical 3D Networks的性能，即，通过直接将两者预测的结果进行加和。由于2D预训练的知识(PointCLIP模型)可以和完全在3D上学习的知识(Classical 3D Networks)进行互补，从而进一步提高三维图像分类的准确性。但是简单的结合两个Classical 3D Networks只会造成性能损失。

基于本申请实施例的三维图像分类方法，本申请实施例还提供一种三维图像分类装置，如图8所示，图8为本申请实施例提供的一种三维图像分类装置的结构示意图，该三维图像分类装置80包括：获取模块801，用于获取三维图像和多个文本标签；

投影模块802，用于将所述三维图像投影到多个视角，得到多个视角深度图像；

编码模块803，用于对所述多个视角深度图像和所述多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；

相似度计算模块804，用于根据所述多个视角对应的图像特征和所述多个文本特征计算相似度，得到第一文本相似度，其中，所述第一文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；

分类模块805，还用于根据所述第一文本相似度确定所述三维图像中物体的类别。

在一些实施例中，相似度计算模块804，还用于将所述多个视角对应的图像特征和所述多个文本特征分别配对，计算每个文本特征和每个视角对应的图像特征之间的文本相似度，得到第二文本相似度，所述第二文本相似度包括所述多个文本标签对应的多个视角的文本相似度；将所述第二文本相似度中同一文本标签对应的多个视角的文本相似度相加，得到所述第一文本相似度；其中，所述第二文本相似度的数量大于所述第一文本相似度的数量。

在一些实施例中，相似度计算模块804，还用于针对同一文本标签，将所述多个视角的文本相似度和每个视角对应的权重，进行加权求和，得到该文本标签下的文本相似度；将所述多个文本标签下的文本相似度作为所述第一文本相似度。

在一些实施例中，编码模块803包括视觉编码单元和文本编码单元；

视觉编码单元，用于根据视觉编码模型对所述多个视角深度图像进行图像编码，得到所述多个视角对应的图像特征；

文本编码单元，用于根据文本编码模型对所述多个文本标签进行文本编码，得到所述多个文本特征。

在一些实施例中，视觉编码单元，还用于还用于根据所述视觉编码模型对所述多个视角深度图像进行图像编码，得到所述多个视角对应的初始图像特征；将所述多个视角对应的初始图像特征输入视角间适配器，对所述多个视角对应的初始图像特征进行融合，确定所述多个视角对应的图像特征。

在一些实施例中，视觉编码单元，还用于将所述多个视角对应的初始图像特征进行连接，得到连接图像特征；对所述连接图像特征进行全局特征提取，得到全局图像特征，所述全局图像特征表征不同视角间信息交互后的特征；将所述全局图像特征进行不同视角的适配处理，得到所述多个视角对应的图像特征。

在一些实施例中，视觉编码单元，还用于将所述全局图像特征进行不同视角的适配处理，得到所述多个视角对应的增强图像特征；将所述初始图像特征和所述增强图像特征，按照各个视角分别进行残差连接，得到所述多个视角对应的图像特征。

在一些实施例中，所述视角间适配器通过以下方式获取：获取第一图像样本，所述第一图像样本包括多个第一物体样本的三维图像样本和多个第一物体样本的文本标签；根据所述第一图像样本，结合所述文本编码模型和所述视觉编码模型，对初始视角间适配器进行训练，得到所述视角间适配器。

在一些实施例中，视觉-语言匹配任务模型包括所述文本编码模型和所述视觉编码模型，所述视觉-语言匹配任务模型通过以下方式获取：获取第二图像样本，所述第二图像样本包括多个第二物体样本的二维图像样本和多个第二物体样本的文本标签；根据所述第二图像样本对初始视觉-语言匹配任务模型进行训练，得到所述视觉-语言匹配任务模型。

在一些实施例中，分类模块805，还用于将所述第一文本相似度中最大文本相似度对应的文本标签相关的类别，确定为所述三维图像中物体的类别。

在一些实施例中，相似度计算模块804，还用于将所述三维图像输入到三维图像分类模型，得到第三文本相似度，所述第三文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；

分类模块805，还用于将所述第一文本相似度和所述第三文本相似度中同一文本标签的文本相似度相加，得到第四文本相似度；根据所述第四文本相似度，确定所述三维图像中物体的类别。

需要说明的是，上述实施例提供的三维图像分类装置在进行三维图像分类时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的三维图像分类装置与三维图像分类方法实施例属于同一构思，其具体实现过程及有益效果详见方法实施例，这里不再赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

在本申请实施例中，图9为本申请实施例提出的三维图像分类设备组成结构示意图，如图9所示，本申请实施例提出的设备90还可以包括处理器901、存储有处理器901可执行指令的存储器902，在一些实施例中，三维图像分类设备90还可以包括通信接口903，和用于连接处理器901、存储器902以及通信接口903的总线904。

在本申请实施例中，上述处理器901可以为特定用途集成电路(ApplicationSpecific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(ProgRAMmable Logic Device，PLD)、现场可编程门阵列(Field ProgRAMmable GateArray，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

在本申请实施例中，总线904用于连接通信接口903、处理器901以及存储器902以及这些器件之间的相互通信。

在本申请实施例中，上述处理器901，用于获取三维图像和多个文本标签；将所述三维图像投影到多个视角，得到多个视角深度图像；对所述多个视角深度图像和所述多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；根据所述多个视角对应的图像特征和所述多个文本特征计算相似度，得到第一文本相似度，其中，所述第一文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；根据所述第一文本相似度确定所述三维图像中物体的类别。

三维图像分类设备90中存储器902可以与处理器901连接，存储器902用于存储可执行程序代码和数据，该程序代码包括计算机操作指令，存储器902可能包含高速RAM存储器，也可能还包括非易失性存储器，例如，至少两个磁盘存储器。在实际应用中，上述存储器902可以是易失性存储器(volatile memory)，例如随机存取存储器(Random-AccessMemory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(Read-OnlyMemory，ROM)，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器901提供指令和数据。

另外，在本申请实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上任一实施例所述的三维图像分类方法。

示例性的，本实施例中的一种三维图像分类方法对应的程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种三维图像分类方法对应的程序指令被一电子设备读取或被执行时，可以实现如上述任一实施例所述的三维图像分类方法。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种三维图像分类方法，其特征在于，所述方法包括：

获取三维图像和多个文本标签；

将所述三维图像投影到多个视角，得到多个视角深度图像；

对所述多个视角深度图像和所述多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；

根据所述多个视角对应的图像特征和所述多个文本特征计算相似度，得到第一文本相似度，其中，所述第一文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；

根据所述第一文本相似度确定所述三维图像中物体的类别。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个视角对应的图像特征和所述多个文本特征计算相似度，得到第一文本相似度，包括：

将所述多个视角对应的图像特征和所述多个文本特征分别配对，计算每个文本特征和每个视角对应的图像特征之间的文本相似度，得到第二文本相似度，所述第二文本相似度包括所述多个文本标签对应的多个视角的文本相似度；

将所述第二文本相似度中同一文本标签对应的多个视角的文本相似度相加，得到所述第一文本相似度；其中，所述第二文本相似度的数量大于所述第一文本相似度的数量。

3.根据权利要求2所述的方法，其特征在于，所述将所述第二文本相似度中同一文本标签对应的多个视角的文本相似度相加，得到所述第一文本相似度，包括：

针对同一文本标签，将所述多个视角的文本相似度和每个视角对应的权重，进行加权求和，得到该文本标签下的文本相似度；

将所述多个文本标签下的文本相似度作为所述第一文本相似度。

4.根据权利要求1所述的方法，其特征在于，所述对所述多个视角深度图像和所述多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征，包括：

根据视觉编码模型对所述多个视角深度图像进行图像编码，得到所述多个视角对应的图像特征；

根据文本编码模型对所述多个文本标签进行文本编码，得到所述多个文本特征。

5.根据权利要求4所述的方法，其特征在于，所述根据视觉编码模型对所述多个视角深度图像进行图像编码，得到所述多个视角对应的图像特征，包括：

根据所述视觉编码模型对所述多个视角深度图像进行图像编码，得到所述多个视角对应的初始图像特征；

将所述多个视角对应的初始图像特征输入视角间适配器，对所述多个视角对应的初始图像特征进行融合，确定所述多个视角对应的图像特征。

6.根据权利要求5所述的方法，其特征在于，所述将所述多个视角对应的初始图像特征输入视角间适配器，对所述多个视角对应的初始图像特征进行融合，确定所述多个视角对应的图像特征，包括：

将所述多个视角对应的初始图像特征进行连接，得到连接图像特征；

对所述连接图像特征进行全局特征提取，得到全局图像特征，所述全局图像特征表征不同视角间信息交互后的特征；

将所述全局图像特征进行不同视角的适配处理，得到所述多个视角对应的图像特征。

7.根据权利要求6所述的方法，其特征在于，所述将所述全局图像特征进行不同视角的适配处理，得到所述多个视角对应的图像特征，包括：

将所述全局图像特征进行不同视角的适配处理，得到所述多个视角对应的增强图像特征；

将所述初始图像特征和所述增强图像特征，按照各个视角分别进行残差连接，得到所述多个视角对应的图像特征。

8.根据权利要求5所述的方法，其特征在于，所述视角间适配器通过以下方式获取：

获取第一图像样本，所述第一图像样本包括多个第一物体样本的三维图像样本和多个第一物体样本的文本标签；

根据所述第一图像样本，结合所述文本编码模型和所述视觉编码模型，对初始视角间适配器进行训练，得到所述视角间适配器。

9.根据权利要求4所述的方法，其特征在于，视觉-语言匹配任务模型包括所述文本编码模型和所述视觉编码模型，所述视觉-语言匹配任务模型通过以下方式获取：

获取第二图像样本，所述第二图像样本包括多个第二物体样本的二维图像样本和多个第二物体样本的文本标签；

根据所述第二图像样本对初始视觉-语言匹配任务模型进行训练，得到所述视觉-语言匹配任务模型。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述根据所述第一文本相似度确定所述三维图像中物体的类别，包括：

将所述第一文本相似度中最大文本相似度对应的文本标签相关的类别，确定为所述三维图像中物体的类别。

11.根据权利要求1-9任一项所述的方法，其特征在于，所述根据所述第一文本相似度确定所述三维图像中物体的类别之前，所述方法还包括：

将所述三维图像输入到三维图像分类模型，得到第三文本相似度，所述第三文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；

所述根据所述第一文本相似度确定所述三维图像中物体的类别，包括：

将所述第一文本相似度和所述第三文本相似度中同一文本标签的文本相似度相加，得到第四文本相似度；

根据所述第四文本相似度，确定所述三维图像中物体的类别。

12.一种三维图像分类装置，其特征在于，所述装置包括：

获取模块，用于获取三维图像和多个文本标签；

投影模块，用于将所述三维图像投影到多个视角，得到多个视角深度图像；

编码模块，用于对所述多个视角深度图像和所述多个文本标签分别进行编码，得到多个视角对应的图像特征和多个文本特征；

相似度计算模块，用于根据所述多个视角对应的图像特征和所述多个文本特征计算相似度，得到第一文本相似度，其中，所述第一文本相似度表征所述三维图像中物体所对应的类别与所述多个文本标签之间的相似度；

分类模块，还用于根据所述第一文本相似度确定所述三维图像中物体的类别。

13.一种三维图像分类设备，其特征在于，所述设备包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-11任一项所述方法。

14.一种计算机可读存储介质，其特征在于，其上存储有可执行指令，用于被处理器执行时，实现权利要求1-11任一项所述的方法。