CN117557871A

CN117557871A - 三维模型标注方法、装置、设备及存储介质

Info

Publication number: CN117557871A
Application number: CN202410043041.2A
Authority: CN
Inventors: 李志�; 伍琦; 李志刚; 石博文; 陈宇; 谭龙; 刘孝卫; 邱德顺
Original assignee: Zihai Technology Chengdu Co ltd
Current assignee: Zihai Technology Chengdu Co ltd
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-02-13
Anticipated expiration: 2044-01-11
Also published as: CN117557871B

Abstract

本发明提供了三维模型标注方法、装置、设备及存储介质，属于三维模型标注技术领域。方法通过将三维模型导入预设的三维渲染引擎，通过预设视角对三维模型进行渲染，获得二维图集；对二维图集进行语义分割，获得分割图像集；利用多个多模态大语言模型对分割图像集进行图像识别，获得多个图集内容；对多个图集内容进行交集运算，并将交集运算的结果标注到三维模型的模型文件中。本申请利用多模态大语言模型来对语义分割后的二维图像进行图像识别处理，极大程度的拓展了识别内容，能够快速得到标注结果，且避免了预先训练的过程，从而降低模型标注的训练成本，无需再次对模型进行识别训练，提高了三维模型标注技术的适应性。

Description

三维模型标注方法、装置、设备及存储介质

技术领域

本发明涉及三维模型标注技术领域，尤其涉及三维模型标注方法、装置、设备及存储介质。

背景技术

随着人工智能的兴起和发展，采用机器学习方法对三维图像或三维模型进行图像处理被广泛应用于多个领域之中，如游戏、影视、三维动画等相关领域。通过模型对三维图像进行标注或特征提取，实现对图像进行分类识别。

目前采用模型对图像分类的方法分为两种，第一种方法基于三维数据的直接标注和分类方法：在这种技术中，三维模型的原始数据，如点云或体素，直接被用于标注和分类。这种方法的优点是能够保留和利用模型的所有三维空间信息。首先，通过数据预处理步骤，将原始三维模型转换为适合机器学习处理的格式。接着，特征提取步骤会用深度学习模型，如PointNet或者VoxNet，从预处理后的数据中提取有用的特征。然后，这些特征被送入分类器进行标注和分类。最后，通过大量的已标注数据来训练和优化分类器。

第二种方法是基于二维图像的标注和分类方法：在这种方法中，三维模型首先被渲染成二维图像集。然后，这些图像被用于标注和分类。首先，通过三维渲染技术，将三维模型转化为一系列二维图像，每个图像从一个特定的角度和距离展示模型。然后，通过使用传统的二维图像处理和深度学习技术，例如卷积神经网络（CNN），对这些图像进行处理和特征提取。接着，这些特征被送入分类器进行标注和分类。最后，通过大量的已标注图像来训练和优化分类器。

以上两种方法都需要有大量的已标注的数据进行大量训练，且训练成本较高，实际操作中难以实现。同时方法在对不同图像类别的识别时均需要再次训练模型，适应性较差。

发明内容

有鉴于此，本发明实施例提供了三维模型标注方法、装置、设备及存储介质，用以解决现有三维模型标注技术训练成本较高，且适应性较差的问题。

本发明采用的技术方案是：

第一方面，本发明提供了一种三维模型标注方法，包括：

将三维模型导入预设的三维渲染引擎，通过预设视角对三维模型进行渲染，获得二维图集；

对所述二维图集进行语义分割，获得分割图像集；

利用多个多模态大语言模型对所述分割图像集进行图像识别，获得多个图集内容；

对多个图集内容进行交集运算，并将交集运算的结果标注到所述三维模型的模型文件中。

进一步地，所述利用多个多模态大语言模型对所述分割图像集进行图像识别，获得多个图集内容，包括：

预先分级构建标签库，形成多个层级标签，每个标签包含多个父类标签或多个子类标签；

多个多模态大语言模型分别利用所述标签库的所有顶层标签，对所述分割图像集进行第一轮标签标注，并将已标注的标签添加到已标注标签列表；

根据第一轮标签标注的结果检索所有子类标签进行下一轮标注，直至所有子类标签完成标注，若子类标签在已标注标签列表中则不再进行标注；

将每个多模态大语言模型的所有标签标注结果作为对应的图集内容。

进一步地，所述多个多模态大语言模型分别利用所述标签库的所有顶层标签，对所述分割图像集进行第一轮标签标注，包括：

通过多个多模态大语言模型分别对所述分割图像集中的三维模型与所述标签库中的顶层标签的相似度进行判断，获得三维模型的标签相似度；

基于预设的模糊度量值范围，根据三维模型的标签相似度确定所述三维模型的置信度，为所述三维模型标注出具有置信度的顶层标签。

第二方面，本发明提供一种三维模型标注装置，包括：

视图渲染模块，用于将三维模型导入预设的三维渲染引擎，通过预设视角对三维模型进行渲染，获得二维图集；

图像语义分割模块，用于对所述二维图集进行语义分割，获得分割图像集；

图像识别模块，用于利用多个多模态大语言模型对所述分割图像集进行图像识别，获得多个图集内容；

信息标注模块，用于对多个图集内容进行交集运算，并将交集运算的结果标注到所述三维模型的模型文件中。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的三维模型标注方法的步骤。

第四方面，一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的三维模型标注方法的步骤。

综上所述，本发明的有益效果如下：

本发明提供的一种三维模型标注方法，通过利用预设的三维渲染引擎来对三维模型进行渲染，得到对应二维图集，能够较低图像背景和其他光影效果对后续三维模型的图像识别干扰，提高模型的识别准确率。同时，利用多模态大语言模型来对语义分割后的二维图像进行图像识别处理，极大程度的拓展了识别内容，能够快速得到标注结果，且避免了预先训练的过程，从而降低模型标注的训练成本。此外，多模态大语言模型能够对不同图像类别的输入图像进行内容识别，无需再次对模型进行识别训练，提高了三维模型标注技术的适应性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1为本发明的一种三维模型标注方法流程示意图；

图2为本发明的一种三维模型标注装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。如果不冲突，本发明以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。

实施例1：

请参见图1，图1为本发明实施例1中一种三维模型标注方法流程示意图，本发明提供的所述方法包括：

S1：将三维模型导入预设的三维渲染引擎，通过预设视角对三维模型进行渲染，获得二维图集。

其中，本发明实施例渲染所使用的三维渲染引擎为现有成熟的引擎，如虚幻引擎、Blender引擎等。在预设视角下，通过三维渲染引擎将三维模型转化为一系列二维图像，形成二维图集。

S2：对所述二维图集进行语义分割，获得分割图像集。其中，本发明实施例在对二维图集进行语义分割时，主要采用开源的算法进行图像语义分割，如FCN算法、U-net算法、Deeplab算法、Mask-RCNN算法等。语义分割描述了将每个像素与类标签相关联的过程。不同类的物体产生不同的语义，而语义分割就是要将这些属于不同类别的像素进行归类，把属于同一类的像素归为一起。

具体的，本发明实施例使用Segment Anything算法进行图像语义分割，将图像切分开，得到分割后的二维图集。Segment Anything算法是一种AI图像分割算法。通过利用现行成熟的图像分割工具对渲染后的二维图像进行语义分割预处理，能够帮助后续模块准确识别模型区域，避免背景及其他光影效果干扰。

S3：利用多个多模态大语言模型对所述分割图像集进行图像识别，获得多个图集内容。

其中，本发明使用的多模态大语言模型来对分割图像集进行图像内容识别标注，如百度文心一言、讯飞星火大语言模型。借助当下多模态大语言模型能够识别图片并准确提取图片要素的特点，进行三维模型的信息标注及分类，极大程度的拓展了识别内容，避免了预先训练的过程，能够快速得到标注结果。多模态大语言模型的核心思想是将不同模态的数据进行融合，从而提供更加丰富、准确的语言输出。它可以通过对多模态数据进行联合训练，学习到不同模态之间的关联关系，从而实现对多模态输入的理解和处理。

S4：对多个图集内容进行交集运算，并将交集运算的结果标注到所述三维模型的模型文件中。

进一步地，在一个实施例中，本发明步骤S3中利用多个多模态大语言模型对所述分割图像集进行图像识别，获得多个图集内容，包括以下子步骤：

S301：预先分级构建标签库，形成多个层级标签，每个标签包含多个父类标签或多个子类标签；

S302：多个多模态大语言模型分别利用所述标签库的所有顶层标签，对所述分割图像集进行第一轮标签标注，并将已标注的标签添加到已标注标签列表；

S303：根据第一轮标签标注的结果检索所有子类标签进行下一轮标注，直至所有子类标签完成标注，若子类标签在已标注标签列表中则不再进行标注；

S304：将每个多模态大语言模型的所有标签标注结果作为对应的图集内容。

具体的，经过反复测试发现，大模型在少数类别差异较大的标签中能正常进行标注，在多个类别且相似度较高的标签中难以分辨并进行正常标注。因此，本发明通过预先构建层级标签库的方式来存储设置多种图像类型标签，且每种类型的标签之间具有一定的关联性，可以提高方法的应用范围，方便后续对图像类别进行标注，提升模型的分类识别准确率。

进一步地，本发明实施例中，上述步骤S302中的多个多模态大语言模型分别利用所述标签库的所有顶层标签，对所述分割图像集进行第一轮标签标注，包括：

具体的，本发明实施例使用模糊度量的方式进行标注，即通过大模型判断一个三维模型符合某个标签的程度，依据不同程度给出对应的置信度，置信度越大说明越符合标签描述，例如：一辆银灰色轿车会标注一个置信度为0.7的白色标签。

通过模糊度量的标注方式能有效提供标注的准确性，其次在使用过程可以通过控制模糊度量值的范围来查找三维模型资产。

本发明实施例通过利用预设的三维渲染引擎来对三维模型进行渲染，得到对应二维图集，能够较低图像背景和其他光影效果对后续三维模型的图像识别干扰，提高模型的识别准确率。同时，利用多模态大语言模型来对语义分割后的二维图像进行图像识别处理，极大程度的拓展了识别内容，能够快速得到标注结果，且避免了预先训练的过程，从而降低模型标注的训练成本。此外，多模态大语言模型能够对不同图像类别的输入图像进行内容识别，无需再次对模型进行识别训练，提高了三维模型标注技术的适应性。

实施例2：

参照图2所示，本发明提供一种三维模型标注装置，包括：

具体的，本发明提供的三维模型标注装置，其通过视图渲染模块将三维模型导入三维渲染引擎（如虚幻、Blender等），使用预设的视角进行模型渲染，得到二维图集。然后调用图像语义分割模块，使用Segment Anything算法进行图像语义分割，将图像切分开，得到分割后的二维图集。并进一步地调用图像识别模块，使用多个多模态大预言模型（如百度文心一言、讯飞星火大语言模型）对分割后的二维图集进行图像的内容识别，得到图集内容。最后通过信息标注模块对多个大语言模型的结果求交集，将最终结果保存为模型信息，并标注到模型文件中，完成三维模型的标注。

进一步地，本发明提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的三维模型标注方法的步骤。

进一步地，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的三维模型标注方法的步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种三维模型标注方法，其特征在于，包括：

对所述二维图集进行语义分割，获得分割图像集；

2.根据权利要求1所述的三维模型标注方法，其特征在于，所述利用多个多模态大语言模型对所述分割图像集进行图像识别，获得多个图集内容，包括：

3.根据权利要求2所述的三维模型标注方法，其特征在于，所述多个多模态大语言模型分别利用所述标签库的所有顶层标签，对所述分割图像集进行第一轮标签标注，包括：

4.一种三维模型标注装置，其特征在于，包括：

5.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述三维模型标注方法的步骤。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述三维模型标注方法的步骤。