CN117437366B

CN117437366B - 一种多模态大规模场景数据集的构建方法

Info

Publication number: CN117437366B
Application number: CN202311756517.9A
Authority: CN
Inventors: 蒋滔; 姜金圻; 郑桂勇; 冯宸; 周博宇; 谷德峰
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-04-12
Anticipated expiration: 2043-12-20
Also published as: CN117437366A

Abstract

本发明公开了一种多模态大规模场景数据集的构建方法，如下：对获取的原始大场景3D模型进行场景分割形成多个单一场景3D模型；对得到的每个单一场景3D模型进行不同视角的图像渲染生成对应多个视角的单一场景3D模型的深度图像和RGB图像；对渲染后得到的RGB图像进行文字说明并生成描述性文本；对渲染后得到的深度图像进行复原并生成部分点云信息；将渲染后得到的深度图像和RGB图像、RGB图像对应的描述性文本、深度图像对应的部分点云信息添加到多模态大规模场景数据集中，由此完成多模态大规模场景数据集的构建。本发明构建的多模态大规模场景数据集，能满足当前深度学习算法的训练需求、促进表面预测和补全技术的发展。

Description

一种多模态大规模场景数据集的构建方法

技术领域

本发明涉及计算机技术领域，更具体的，涉及一种多模态大规模场景数据集的构建方法。

背景技术

表面预测和补全技术是当前在高质量三维重建、自主导航、数字遗产等领域的重要研究课题。随着人工智能领域模型和算法的进步、完善，尤其是AI生成模型的发展，使得基于深度学习的算法已成为用于表面预测和补全最先进的算法。同时，表面预测和补全技术已形成从小规模到大规模、从模拟到现实、从单模态到多模态三个方面的研究趋势。无论是基于深度学习的算法还是这些研究趋势的需要，都对现有的数据集提出了很大挑战。

首先，现有数据集主要由一些桌子椅子等小对象组成，以前的学习方法通常是在这些对象级数据集上实现出色性能，然而，由于复杂性急剧增加，这些方法在应用于大规模场景时呈现出显著差距。其次，现有数据集中的三维模型大多是在3D软件中制作，很难满足实际需求，使用这些数据集训练的模型在处理现实世界中遇到的潜在噪声和不确定性时，表现出难以让人满意的鲁棒性，因此需要大量的现实数据以增强预测模型对现实世界应用的泛化能力。最后，现有数据集大多是单模态的，无法满足多模态学习方法的需求，许多研究人员必须开发相关工具来处理数据集并生成其他模式，例如RGB图像或描述性文本。然而，很少有人开发出高效、多功能、高度自动化的工具链，这迫使研究人员做大量重复性手动工作来生成多模态数据。为了解决上述问题并促进该研究领域的发展，构建一个具有表面预测和补全功能的多模态大规模场景数据集具有重要意义。

发明内容

本发明为了解决以上现有的数据集无法满足多模态学习方法需求的问题，提供了一种多模态大规模场景数据集的构建方法。

为实现上述本发明目的，采用的技术方案如下：

一种多模态大规模场景数据集的构建方法，所述方法包括步骤如下：

对获取的原始大场景3D模型进行场景分割形成多个单一场景3D模型；

对得到的每个单一场景3D模型进行不同视角的图像渲染生成对应多个视角的单一场景3D模型的深度图像和RGB图像；

对渲染后得到的RGB图像进行文字说明并生成描述性文本；

对渲染后得到的深度图像进行复原并生成部分点云信息；

将渲染后得到的深度图像和RGB图像、RGB图像对应的描述性文本、深度图像对应的部分点云信息添加到多模态大规模场景数据集中，由此完成多模态大规模场景数据集的构建。

优选地，对获取的原始大场景3D模型进行场景分割形成多个单一场景3D模型，包括：

对获取的原始大场景3D模型的俯视图渲染成对应的深度图像或RGB图像；

采用任意分割模型对获取的原始大场景3D模型的俯视图的深度图像或RGB图像进行自动分割形成分割轮廓线，或对获取的原始大场景3D模型的俯视图的RGB图像手动选择分割对象形成分割轮廓线，再根据分割轮廓线的参数信息对原始大场景3D模型分割形成多个单一场景3D模型。

进一步地，所述任意分割模型包括图像编码器、提示编码器、掩模编码器、解码器；

所述图像编码器对输入的原始大场景3D模型的俯视图图像转换为高维特征表示；

所述提示编码器对输入的包括有关场景上下文信息的提示信息编码成第一特征表示；

所述掩模编码器对输入的用于分割的标签信息编码成第二特征表示；

将高维特征表示、第一特征表示、第二特征表示进行融合，将融合后的特征输入到解码器中；所述解码器生成基于原始大场景3D模型的俯视图图像的分割轮廓线。

进一步地，在采用任意分割模型对获取的原始大场景3D模型的俯视图图像生成分割轮廓线、在再根据分割轮廓线的参数信息对原始大场景3D模型分割形成多个单一场景3D模型之后，所述方法还包括：使用多模态预训练模型对分割后得到的多个单一场景3D模型进行辅助分割，过滤非目标场景。

优选地，对得到的每个单一场景3D模型进行不同视角的图像渲染生成对应多个视角的单一场景3D模型的深度图像和RGB图像，包括：

对于得到的多个单一场景3D模型，将单一场景3D模型标准化为边界立方体，基于用户选择照明配置，通过光线追踪算法来模拟光在场景中的传播和相互作用，并通过不断迭代计算生成深度图像和RGB图像；所述照明配置包括光源方向、光源位置、光源颜色和光源强度。

进一步地，在渲染过程中，从用户的视点进行渲染；所述视点包括随机视点、按轨迹设定视点；

其中，所述随机视点是通过随机化摄像机视角来确定视点；

所述按轨迹设定视点是摄像机视角按照设定的轨迹进行移动得到。

优选地，对渲染后得到的RGB图像进行文字说明并生成描述性文本，包括：

将渲染后得到的RGB图像输入到引导式语言图像预训练模型，生成描述性文本；

所述引导式语言图像预训练模型，用于统一的视觉语言理解和生成。

再进一步地，所述引导式语言图像预训练模型包括单模态编码器、基于图像的文本编码器、基于图像的文本解码器；

所述单模态编码器，使用图像文本对比学习损失进行训练，以对齐视觉和语言表示，所述单模态编码器对输入图像或文本进行编码，生成对应的高维语义特征表示；

所述基于图像的文本编码器，用于建模视觉语言描述，通过图像文本匹配损失进行训练，以区分正面和负面的图像文本对；所述基于图像的文本编码器对输入的图像高维语义特征和文本高维语义特征通过共享参数将图像和文本的信息进行融合，生成图像和文本的联合语义表示；

所述基于图像的文本解码器，通过语言建模损失进行训练，以生成图像的描述性文本；所述基于图像的文本解码器对输入的图像和文本的联合语义表示进行线性变换，再通过迭代生成输出序列的每个元素，从而生成描述性文本。

将渲染后得到的RGB图像输入到参数高效的视觉指令调整系统，生成描述性文本。

优选地，对渲染后得到的深度图像进行复原并生成部分点云信息，包括：

利用渲染后得到的深度图像，结合相机当前时刻的内部参数和世界坐标系下的外部参数信息，从深度图像中反投影点云并分配颜色到世界坐标系中的每个点，从而生成点云信息。

本发明的有益效果如下：

本发明构建了一个多模态大规模场景数据集，该数据集中的数据具有完整性、已分割、场景级、纹理丰富的特点，能极大满足当前深度学习算法的训练需求、促进表面预测和补全技术的发展，同时，该数据集中的数据具有各种模态，包括深度图像、RGB图像、描述性文本、部分点云等，可用于训练和测试不同的学习方法。

本发明可以从广泛的开源项目和资源中收集原始大场景3D模型进行处理，收集的原始大场景3D模型主要来源于在建模软件中创建的以及在现实世界捕获的两类，利用本发明提供的多模态大规模场景数据集的构建方法来处理这些原始大场景3D模型并生成该数据集中的多模态数据。

本发明实现了第一个由多模态场景级数据组成的数据集，在生成该数据集中数据的过程中，通过本发明提供的方法，可以快速、无缝衔接且自动化地将原始大场景3D模型通过场景分割、渲染、生成文本描述、生成部分点云等一系列过程得到许多单个3D模型的深度图像、RGB图像、描述性文本和部分点云等多模态数据，并自动将这些多模态数据添加到数据集中。

附图说明

图1是本发明一种多模态大规模场景数据集的构建方法的步骤流程图。

图2是本发明场景分割的示意图。

图3是本发明生成描述性文本的示例图。

具体实施方式

以下将参照附图和优选实施例来说明本发明的实施方式，本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例1

如图1所示，一种多模态大规模场景数据集的构建方法，所述方法包括步骤如下：

S1：对获取的原始大场景3D模型进行场景分割形成多个单一场景3D模型；

S2：对S1得到的每个单一场景3D模型进行不同视角的图像渲染生成对应多个视角的单一场景3D模型的深度图像和RGB图像；

S3：对S2渲染后得到的RGB图像进行文字说明并生成描述性文本；

S4：对S2渲染后得到的深度图像进行复原并生成部分点云信息；

S5：将渲染后得到的深度图像和RGB图像、RGB图像对应的描述性文本、深度图像对应的部分点云信息添加到多模态大规模场景数据集中，由此完成多模态大规模场景数据集的构建。

在本实施例中，以上各个步骤之间的执行顺序只是一种实施例，需要说明的是，在实际应用中，也可以先执行对渲染后得到的深度图像进行复原并生成部分点云信息，再执行对渲染后得到的RGB图像进行文字说明并生成描述性文本。

本实施例中，对渲染后得到的深度图像进行复原并生成部分点云信息，其中所述部分点云信息指的是每个单一场景3D模型的部分点云信息。

本实施例得到的多模态大规模场景数据集包括单一场景3D模型多视角下的深度图像和RGB图像、每个视角对应单一场景3D模型的深度图像的部分点云信息、及每个视角对应单一场景3D模型的RGB图像对应的描述性文本。

在一个具体的实施例中，如图2所示，对获取的原始大场景3D模型进行场景分割形成多个单一场景3D模型，包括：

采用任意分割模型对获取的原始大场景3D模型的俯视图的深度图像或RGB图像进行自动分割形成分割轮廓线，或对获取的原始大场景3D模型的俯视图的RGB图像手动选择分割对象形成分割轮廓线，再根据分割轮廓线的参数信息对原始大场景3D模型分割形成多个单一场景3D模型；其中，所述任意分割模型采用深度学习网络，其包括图像编码器、提示编码器、掩模编码器、解码器。

所述图像编码器对输入的原始大场景3D模型的俯视图图像转换为高维特征表示，包括：将原始大场景3D模型的俯视图图像输入图像编码器，基于卷积神经网络（CNN）将俯视图图像转换为高维的特征表示，这个编码过程捕捉了图像中的空间信息。

所述提示编码器对输入的包括有关场景上下文信息的提示信息编码成第一特征表示，包括：将包括有关场景上下文信息的提示信息输入提示编码器，提示信息可以是场景的整体特征、上下文关系、或其他与场景相关的信息；所述提示编码器将提示信息编码成第一特征表示，使其能够与图像编码器的输出相结合，从而融合全局。

所述掩模编码器对输入的用于分割的标签信息编码成第二特征表示，包括：将用于分割的标签输入掩模编码器，用于分割的标签可以是包括有关场景中每个区域的信息的标签图；所述掩模编码器将标签信息编码成第二特征表示，使其能够与图像编码器和提示编码器的输出相结合，以提供关于分割任务的更详细的信息。

将图像编码器、提示编码器和掩模编码器输出的高维特征表示、第一特征表示、第二特征表示进行融合，将融合后的特征输入到解码器中；所述解码器生成基于原始大场景3D模型的俯视图图像的分割轮廓线；所述分割轮廓线能将输入的原始大场景3D模型的俯视图图像分割成单一场景3D模型的俯视图图像。在训练过程中，图像编码器、提示编码器、掩模编码器和解码器之间的参数都会得到优化，以最大程度地提高整体模型的分割性能，从而实现对原始大场景3D模型的俯视图图像进行分割形成分割轮廓线；具体训练可以采用多次迭代训练。

本实施例中，根据分割轮廓线的参数信息对原始大场景3D模型分割形成多个单一场景3D模型，具体可以根据分割轮廓线的参数信息导入到建模软件中，在建模软件中将原始大场景3D模型按照分割轮廓线分割形成多个单一场景3D模型。

本发明使用一种任意分割模型来对原始大场景3D模型的俯视图图像进行分割，以往的交互式分割和自动分割两种类型，均没有提供通用的且全自动的分割方法，而任意分割模型集合了交互式分割（也即手动分割）和自动分割两种分割类型的优势，任意分割模型是一个单一模型，可以轻松执行交互式分割和自动分割，既允许分割任何类别的对象，也允许对提前定义的特定对象类别进行分割，能够对复杂多样的图像执行全景分割。

所述任意分割模型允许用户通过单击或交互式单击来分割对象，以包含和排除对象，也可以用边界框来提示用户；当被分割对象比较模糊时，任意分割模型可以输出多个有效掩码以提高分割质量；同时，任意分割模型还可以自动查找并屏蔽分割对象中的所有对象；最后，任意分割模型在预先计算图像嵌入后可以实时生成任何提示的分割掩模，从而达到与模型实时交互。

本实施例，还可以让用户选择使用图像中的矩形工具或者单击任意分割模型识别的分割区域来选择所需区域生成分割轮廓线，使得用户能够直接访问详细的3D模型，实现手动分割。

在一个具体的实施例中，如图2所示，在采用任意分割模型对获取的原始大场景3D模型的俯视图图像生成分割轮廓线、在再根据分割轮廓线的参数信息对原始大场景3D模型分割形成多个单一场景3D模型之后，所述方法还包括：使用多模态预训练模型对分割后得到的多个单一场景3D模型进行辅助分割，过滤非目标场景。

在本实施例中，由于任意分割模型没有场景的语义信息，在对原始大场景3D模型的俯视图图像进行分割形成分割轮廓线的过程中，不可避免地会遇到一些非目标场景，如对建筑图像进行分割时，不可避免地会遇到一些非建筑结构，如道路、树木等。为了提高分割质量，得到本发明所构建的多模态大规模场景数据集想要的数据，本发明使用多模态预训练模型对建模软件分割后得到的多个单一场景3D模型进行辅助分割，以去除非建筑结构。

所述多模态预训练模型是一种使用自然语言作为训练信息来学习语言以外领域的模型，可以利用大规模自然语言监督去学习其他领域高质量感知系统。该多模态预训练模型在预训练期间学习执行各种任务，并实现向许多现有数据集的零样本迁移；它使用更详细的图像文本描述进行预训练，然后再使用带有目标场景和非目标场景的标注数据对场景分割任务进行微调，以使其适应目标场景的分割任务；接着用户可以提供自然语言提示，引导该多模态预训练模型专注于目标场景，进行场景分割；分割后用户可通过设置阈值或其他后处理技术将非目标场景的部分过滤掉，使得用户能够更精确地分割出目标场景。本发明先使用任意分割模型和建模软件对原始大场景3D模型的所有场景进行分割，再使用多模态预训练模型通过场景渲染的图像判断其是否属于目标场景，从而过滤掉非目标场景。

在一个具体的实施例中，对得到的每个单一场景3D模型进行不同视角的图像渲染生成对应多个视角的单一场景3D模型的深度图像和RGB图像，包括：

对于得到的多个单一场景3D模型，将单一场景3D模型标准化为边界立方体，基于用户自由选择照明配置，通过光线追踪算法来模拟光在场景中的传播和相互作用，并通过不断迭代计算生成深度图像和RGB图像；其中所述照明配置包括光源方向、光源位置、光源颜色和光源强度等。

本实施例中，渲染是从单一场景3D模型生成二维图像的过程。渲染可以从用户的视点高效渲染任何3D模型，这些视点包括随机视点和按轨迹设定视点两种模式，用户可以根据自身需求选择输出深度图像或者RGB图像。

本实施例在渲染过程中，通过调整每个单一场景3D模型的不同视角，比如说俯视、正视、侧视等，每个视角渲染后能生成对应的深度图像和RGB图像；也就是说基于每个单一场景3D模型的俯视视角可以生成俯视视角对应的深度图像和RGB图像，基于每个单一场景3D模型图像的正视视角可以正视视角生成对应的深度图像和RGB图像。

本实施例，在渲染过程中，从用户的视点进行渲染；所述视点包括随机视点、按轨迹设定视点；

其中，所述随机视点是通过随机化摄像机视角来确定视点；

本实施例中，可以使用随机视点模式和按轨迹设定视点模式选择视点来对3D模型进行渲染。所述随机视点模式是通过完全随机化摄像机角度来确保视点的多样化选择，有助于避免训练过程中潜在的过度拟合，因为如果摄像机视角始终设置在特定姿势，则可能会发生过度拟合的情况。相比于随机模式，所述按轨迹设定视点模式允许用户输入5维轨迹，包括X、Y、Z、Pitch和Yaw的参数值，让摄像机视角按照设定好的轨迹进行移动，从而得到用户想要相应视角下的渲染图像。

在一个具体的实施例中，对渲染后得到的RGB图像进行文字说明并生成描述性文本，包括：

所述引导式语言图像预训练模型，用于统一的视觉语言理解和生成；

所述引导式语言图像预训练模型包括单模态编码器、基于图像的文本编码器、基于图像的文本解码器；

所述单模态编码器，使用图像文本对比学习损失进行训练，以对齐视觉和语言表示；所述单模态编码器对输入图像或文本进行编码，生成对应的高维语义特征表示，具体表现在，在所述单模态编码器中，输入的是单模态数据，包括图像或者文本，对输入的单模态数据进行编码，将其转化为高维语义特征表示。

所述基于图像的文本编码器，用于建模视觉语言描述，通过图像文本匹配损失进行训练，以区分正面和负面的图像文本对；所述基于图像的文本编码器对输入的图像高维语义特征和文本高维语义特征通过共享参数将图像和文本的信息进行融合，生成图像和文本的联合语义表示，具体表现在，在所述基于图像的文本编码器，输入的图像高维语义特征和文本高维语义特征，通过共享参数和其他机制，使得图像和文本的高维语义特征在相同的语义空间中更加接近，从而将图像和文本的信息进行融合，生成图像和文本的联合语义表示。

所述基于图像的文本解码器，通过语言建模损失进行训练，以生成图像的描述性文本；所述基于图像的文本解码器对输入的图像和文本的联合语义表示进行线性变换，再通过迭代生成输出序列的每个元素，从而生成描述性文本；具体表现在，在所述基于图像的文本解码器中，输入的是图像和文本的联合语义表示，通过循环神经网络、长短时记忆网络或者Transformer解码器，将图像和文本的联合语义表示进行线性变换，再通过迭代生成输出序列的每个元素，从而生成描述性文本。

将渲染后得到的RGB图像输入参数高效的视觉指令调整系统，生成描述性文本。

所述视觉指令调整系统可以将预训练的大型语言模型转换为零镜头视觉指令模型，并融合偏置调整策略和视觉特征，先是对RGB图像进行预处理，调整大小和像素值，确保图像格式符合视觉指令调整系统的输入要求，接着利用卷积神经网络（CNN）从图像中提取特征表示，然后基于用户以自然语言文本的形式提供相关的视觉指令，对图像进行调整或分析，最后将融合后的图像特征和视觉指令输入解码器进行解码，转化为自然语言的描述性文本。视觉指令调整系统实现了更强的语言指令跟随性能，同时该系统也集成了OCR等专业视觉系统，可以提供更准确的图像相关信息。

为了获得更好、更一致的文本描述，本发明结合S2中多个视角渲染的RGB图像进行文本生成。另外，在视觉指令调整系统中，用户可以提出“这座建筑的建筑风格是什么？”、“这座建筑来自哪个地区？”等多个视觉指令，本发明可以提供额外的建筑风格和地域特色等方面的描述性文字，为用户提供包括点云预测在内的更多更好的服务。

在一个具体的实施例中，对渲染后得到的深度图像进行复原并生成部分点云信息，包括：

具体公式表达如下为：

其中，（，/>，/>）表示图像中任意一个像素点m在世界坐标系下的坐标位置，（/>，/>，/>）表示像素点m在摄像机坐标系下的坐标位置，（/>，/>）表示其在像素坐标系下的坐标位置，（/>，/>）表示像素点m在图像物理坐标系下的坐标位置；（/>，/>）指的是图像物理坐标系中原点的位置，/>和/>表示图像上每个点在x轴和y轴方向上的物理尺寸；/>是3*3的相机余弦变换矩阵，/>是3*1的相机距离向量，/>是相机焦距，/>是3*3的零矩阵；

表示相机标定的内部参数矩阵，/>表示相机的外部参数矩阵。

本发明能够实现对经过S1分割后的每个单一场景3D模型生成多个不同视角的该单一场景3D模型的部分点云信息。S2能够对同一个单一场景3D模型进行随机渲染以及按轨迹渲染，渲染时不同方位不同角度的调整能生成单一场景3D模型的多个深度图像和RGB图像，每一个深度图像和RGB图像都能代表该单一场景3D模型的不同视角，利用该不同视角下的深度图像就可以生成不同视角下的部分点云信息。但这些不同视角下的部分点云信息均表示该3D模型的一部分，展示该3D模型不同程度的残缺，这能很好地帮助用户在不同程度的信息缺乏下测试模型的预测能力。

本实施例提出的多模态大规模场景数据集的构建方法中，文本描述示例图。如图3所示，本发明使用大型视觉语言模型对S2渲染后生成的RGB图像进行文字说明并生成描述性文本。在文本描述的过程中本发明利用自由标准和问答标准相结合，自由标准则在于允许用户自由输入关于该3D模型的自然语言描述，包括外观结构和光照等，让模型能够捕捉到用户对于该场景的整体印象，问答标准则在于用户可以在模型中设计一系列问题，例如“这座建筑的建筑风格是什么？”、“这座建筑来自哪个地区？”等，然后再回答这些问题以提供更具体和结构化的信息，通过自由标准和问答标准相结合，以生成更多的、更全面的、富有层次的描述性文本，从而为用户提供包括点云预测在内的更多更好的服务。

本发明构建的多模态大规模场景数据集已搜集了一千多个大规模场景模型，每个场景都被很好地分割，具有精细的几何特征和丰富的纹理，使得每个场景都有很大可能被渲染出高质量的图像；并且在这一千多个大规模场景模型构成的数据集中，本发明将一些真实世界捕获的数据添加其中，使数据集更具有挑战性。

本发明提出的方法，具有高效率、多功能、高度自动化、通用性的特点，该方法能仅从获取的原始大场景3D模型生成多模态数据集，可用于处理各种结构化环境中的3D数据，如洞穴、森林、建筑、城市等。

在一个具体的实施例中，还提供了一种计算机系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述多模态大规模场景数据集的构建方法的步骤。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

在一个具体的实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述的计算机程序被处理器执行时，实现如上所述多模态大规模场景数据集的构建方法的步骤。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种多模态大规模场景数据集的构建方法，其特征在于：所述方法包括步骤如下：

对渲染后得到的RGB图像进行文字说明并生成描述性文本；

对渲染后得到的深度图像进行复原并生成点云信息；

将渲染后得到的深度图像和RGB图像、RGB图像对应的描述性文本、深度图像对应的点云信息添加到多模态大规模场景数据集中，由此完成多模态大规模场景数据集的构建；

对获取的原始大场景3D模型进行场景分割形成多个单一场景3D模型，包括：

采用分割模型对获取的原始大场景3D模型的俯视图的深度图像或RGB图像进行自动分割形成分割轮廓线，或对获取的原始大场景3D模型的俯视图的RGB图像手动选择分割对象形成分割轮廓线，再根据分割轮廓线的参数信息对原始大场景3D模型分割形成多个单一场景3D模型；

所述分割模型包括图像编码器、提示编码器、掩模编码器、解码器；

2.根据权利要求1所述的多模态大规模场景数据集的构建方法，其特征在于：在采用分割模型对获取的原始大场景3D模型的俯视图图像生成分割轮廓线、再根据分割轮廓线的参数信息对原始大场景3D模型分割形成多个单一场景3D模型之后，所述方法还包括：使用多模态预训练模型对分割后得到的多个单一场景3D模型进行辅助分割，过滤非目标场景。

3.根据权利要求1所述的多模态大规模场景数据集的构建方法，其特征在于：对得到的每个单一场景3D模型进行不同视角的图像渲染生成对应多个视角的单一场景3D模型的深度图像和RGB图像，包括：

4.根据权利要求3所述的多模态大规模场景数据集的构建方法，其特征在于：在渲染过程中，从用户的视点进行渲染；所述视点包括随机视点、按轨迹设定视点；

其中，所述随机视点是通过随机化摄像机视角来确定视点；

5.根据权利要求1所述的多模态大规模场景数据集的构建方法，其特征在于：对渲染后得到的RGB图像进行文字说明并生成描述性文本，包括：

6.根据权利要求5所述的多模态大规模场景数据集的构建方法，其特征在于：所述引导式语言图像预训练模型包括单模态编码器、基于图像的文本编码器、基于图像的文本解码器；

7.根据权利要求1所述的多模态大规模场景数据集的构建方法，其特征在于：对渲染后得到的RGB图像进行文字说明并生成描述性文本，包括：

将渲染后得到的RGB图像输入到视觉指令调整系统，生成描述性文本。

8.根据权利要求1所述的多模态大规模场景数据集的构建方法，其特征在于：对渲染后得到的深度图像进行复原并生成点云信息，包括：