CN112949647A

CN112949647A - 三维场景描述方法、装置、电子设备和存储介质

Info

Publication number: CN112949647A
Application number: CN202110221577.5A
Authority: CN
Inventors: 于强; 王颖; 潘春洪
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-11
Anticipated expiration: 2041-02-26
Also published as: CN112949647B

Abstract

本发明提供一种三维场景描述方法、装置、电子设备和存储介质，其中方法包括：确定待描述场景的三维点云数据；基于已训练的三维场景描述模型，对所述三维点云数据进行特征提取，得到所述三维点云数据的点云特征，并基于所述点云特征，生成所述待描述场景的描述文本；其中，所述三维场景描述模型是基于样本场景的样本三维点云数据及其样本描述文本训练得到的。本发明提供的三维场景描述方法、装置、电子设备和存储介质，基于已训练的三维场景描述模型，对三维点云数据进行特征提取，得到三维点云数据的点云特征，并基于点云特征，生成待描述场景的描述文本，可以实现三维场景的自动化智能描述，且场景描述准确率高、对数据适应范围广泛。

Description

三维场景描述方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机视觉和自然语言处理技术领域，尤其涉及一种三维场景描述方法、装置、电子设备和存储介质。

背景技术

三维场景的智能化描述方法，是指对数字化表示的三维场景数据，利用三维视觉处理方法和自然语言模型，生成对应场景的自然语言描述语句的方法。场景理解是当前人工智能领域中的一项重要任务，场景理解的一种直观实现方法就是对场景中存在的事物生成一段合理、清晰且完整的描述语句，即场景描述方法。场景描述方法能够被广泛应用于机器人、自动导航、自动驾驶与智能导盲等领域中，同时基于场景描述实现的信息检索可以被应用于生物医学、商业、军事、教育和网络搜索等领域，因此对人类社会的智能化发展意义重大。随着现代视觉图像采集设备的更新换代，人类获取的视觉信息逐渐复杂化、多元化。相较于通过普通相机拍摄的简单二维图像表示的场景，通过深度相机、激光雷达等设备能够方便快捷地获取得到更为复杂、信息更加丰富的三维场景数据。因此，三维场景智能化描述方法将在场景理解任务中发挥重要作用。

(1)三维场景数据的表示与处理方法

不同于规则的二维图像，三维场景数据一般是不规则的、无序的。典型的三维场景数据的表示方法包括：点云结构、网格结构和体素结构。其中，体素结构是对三维数据进行栅格化处理，一般会导致信息丢失，且占用存储空间较大。因此目前主流的三维数据处理方法大多使用点云结构和网格结构表示三维数据。

在点云结构中，三维场景被表示为三维空间中的一系列点的三维坐标。这些点一般是无序的，也就是说，点数量与坐标相同但顺序不同的点云被认为表示的是同一个场景。网格结构是在点云结构的基础上，按照一定规则，将相邻的点连接形成若干面片，以表示物体的表面。网格结构有利于计算机图形学中对三维数据的渲染显示，但相对于点云结构并未增加太多的信息量，因此点云结构是三维处理方法中被使用最广泛的一种数据表示方法。

点云场景数据中隐藏着大量信息，因此需要设计各种不同的数据处理方法挖掘这些信息，以完成各种场景理解任务，包括点云分类、目标检测、识别、语义分割、配准和描述等任务。传统的点云数据处理方法，通过手工设计的特征对点云中的点进行特征提取，并对其使用聚类等方法进行分析，包括凹凸性分割，分水岭分析，层次聚类，区域增长及频谱聚类等方法。这些传统方法需要人工参与设计特征计算方式，且严重依赖人类的先验知识。

点云分类方法：根据用于点特征学习的网络结构的不同，点云分类方法可以分为基于逐点多层感知器(MLP)的方法、基于卷积的方法、基于图的方法和基于分层结构的方法等。

基于逐点MLP的方法，利用共享的MLP处理全部点数据，提取得到每个点的局部特征，然后通过一个对称聚合函数得到点云的全局特征，最后使用Softmax等方法对全局特征进行分类。PointNet模型是此类方法的开创性工作，它以点云为输入，通过多个MLP层独立学习点特征，并通过最大池化层提取得到全局特征。由于在PointNet中每个点的特征是独立学习的，点与点之间的局部结构信息无法被有效获取到。在此基础上，分层结构PointNet++模型被提出，它通过集成采样层、分组层和基于PointNet的学习层，从每个点的邻域捕获精细的几何结构信息，并逐层抽象局部特征，从而大大提升特征表达能力。由于其优异的特征表达能力，很多后续学者提出的点云处理方法都是基于PointNet或PointNet++实现的。例如：PointWeb模型基于PointNet++，利用局部邻域的上下文信息，通过自适应特征调整来改进点特征；SRINet模型通过投影获得点云的旋转不变表达，然后通过基于PointNet的骨干网络提取全局特征，同时利用基于图的聚合方法提取局部特征。

基于卷积的方法，使用类似于二维图像卷积核的操作，在三维空间中对给定点的邻域子集计算加权和，其中加权的权重取决于相对于卷积核中心点的空间分布。例如RS-CNN模型将给定点邻域中的局部点集作为输入，通过MLP实现卷积操作，学习得到从几何距离和相对位置等低层关系到高层抽象关系的映射。

基于图的方法，将点云中的每个点看作一个顶点，并根据一定规则将每个点与邻域点连接生成有向边，从而将点云表达为图结构，然后在空间域或谱域进行特征学习。在空间域上，DGCNN模型利用点云数据在特征空间构造图结构，并通过网络的各层更新图结构。其中，MLP被用于学习图结构中各边的特征，通道对称聚合函数被用于整合节点邻域各边的特征。在谱域上，RGCNN模型在网络各层更新图的拉普拉斯矩阵；HGNN模型在图上应用谱域卷积构建了边的卷积操作。基于分层结构的方法，依据点云数据构建不同层次的数据结构(如八叉树和KD树等)，然后沿着树从叶节点到根节点逐层学习点特征。OctNet模型在八叉树结构表示的点云中使用一种球形卷积操作，网络的每一层对应八叉树的一层，同时对应一个球形卷积核，即当前层卷积核的输出为上一层球形邻域内相关节点的加权平均值。KD-Net模型在每一次迭代中构建多个不同分裂方向的KD树，通过将MLP应用于各子节点从而计算得到父节点的值。

点云语义分割方法：语义分割的目的是根据点的语义属性将点云划分为多个语义不同的子集。与点云分类方法类似，点云语义分割方法同样大多使用MLP和三维卷积等方法提取点云的局部邻域特征和全局特征，不同的是，点云分类方法提取得到全局特征之后直接利用Softmax等方法得到全局类别信息，而点云语义分割方法需要通过设计专用的网络恢复计算出每个点的语义类别。上述提到的很多点云分类模型同时也提供了用于语义分割的网络结构。PointNet++模型在其分类网络的基础上，通过上采样和单位PointNet从抽象特征逐步恢复得到分割结果。KPConv模型同样依赖于其分类网络，构建了一种全卷积分割网络，它通过使用半径邻域采样来保持一致的感受野，从而适应不同密度的点云输入。RandLA-Net模型实现了一种用于大规模点云语义分割的高效轻量级网络结构，它采用随机采样方法，在计算时间和存储空间方面取得了显著的提升效果。

(2)图像描述生成方法

目前，图像描述生成方法大多是基于二维图像生成描述语句的方法，而很少有基于三维数据的描述生成方法。图像描述任务是为输入图片生成一个描述语句，它要求识别图像中的重要目标及其属性和相互关系等特征，然后通过解码生成语法和语义正确的句子。现有的图像描述方法主要包括三大类：基于模板的方法、基于检索的方法和基于生成的方法。

基于模板的方法，使用固定的含有若干空白项的模板，首先在图像中检测不同的对象及其属性，据此来填写模板中的空白项。例如采用条件随机场来推断对象、属性和介词等，填充模板得到描述语句。这种方法可以得到语法正确的描述，但由于模板是预先固定的，所以不能生成可变长度的描述。基于检索的方法，从一组现有的描述语句中检索出与对应图像相似的描述。此类方法虽然也能够得到语法正确的描述，但仍然存在一定的局限性，不能生成特定于图像且语义正确的描述。基于生成的方法，一般是首先提取图像的视觉特征，然后使用视觉特征通过语言模型生成描述。这类方法可以为每幅图像生成新的且语义更加准确的描述。近年来，主流的图像描述方法为基于深度学习的基于生成的方法。

虽然目前已有的三维数据处理技术和图像描述生成技术能够完成一些特定任务，但他们都存在一定的侧重点和缺陷。即，三维数据处理技术无法生成合理、清晰且完整的描述语句，而图像描述生成技术通常应用于二维图像数据，因此二者并不适用于直接结合，难以实现三维场景的智能化描述。

发明内容

本发明提供一种三维场景描述方法、装置、电子设备和存储介质，用以解决现有技术中难以实现三维场景的智能化描述的缺陷。

本发明提供一种三维场景描述方法，包括：

确定待描述场景的三维点云数据；

基于已训练的三维场景描述模型，对所述三维点云数据进行特征提取，得到所述三维点云数据的点云特征，并基于所述点云特征，生成所述待描述场景的描述文本；

其中，所述三维场景描述模型是基于样本场景的样本三维点云数据及其样本描述文本训练得到的。

根据本发明提供的一种三维场景描述方法，所述基于已训练的三维场景描述模型，对所述三维点云数据进行特征提取，得到所述三维点云数据的点云特征，并基于所述点云特征，生成所述待描述场景的描述文本，具体包括：

基于所述三维场景描述模型的特征提取层，对所述三维点云数据中各点的三维坐标和RGB颜色信息进行特征提取，得到所述点云特征；

基于所述三维场景描述模型的描述文本生成层，利用自注意力机制对所述点云特征和各点的三维坐标进行编码，得到三维场景特征编码，并对所述三维场景特征编码进行解码，得到所述描述文本。

根据本发明提供的一种三维场景描述方法，所述特征提取层包括多个卷积块，每个卷积块由多个空间点卷积层组合而成；

其中，任一卷积块中，首个空间点卷积层带有降采样操作，各个空间点卷积层之间顺序连接，且每两个不相邻的空间点卷积层的输出之间通过稠密跨层方式连接。

根据本发明提供的一种三维场景描述方法，所述空间点卷积层用于基于所述三维点云数据中各点的三维坐标和RGB颜色信息进行空间卷积计算；

所述空间卷积计算公式为：

其中，x为卷积核的中心点；N_x为点x的邻域点集合；

为点i的D维特征向量，

为所述三维点云数据中所有点的特征集合；N为所述三维点云数据中点的总数；kernel为卷积核函数；

其中，K_x为卷积核参考点的集合；

为特征映射矩阵，是可学习参数；λ表示卷积核参考点的影响范围；Δ_k为卷积核参考点x_k的位置偏移量，是可学习参数。

根据本发明提供的一种三维场景描述方法，所述基于所述三维场景描述模型的描述文本生成层，利用自注意力机制对所述点云特征和各点的三维坐标进行编码，得到三维场景特征编码，并对所述三维场景特征编码进行解码，得到所述描述文本，具体包括：

基于所述描述文本生成层的融合层，对所述点云特征和各点的三维坐标进行融合，得到位置融合向量；

基于所述描述文本生成层的编码层，利用自注意力机制，对所述位置融合向量进行编码，得到所述三维场景特征编码；

基于所述描述文本生成层的解码层，对所述三维场景特征编码进行解码，得到所述描述文本。

根据本发明提供的一种三维场景描述方法，所述三维场景描述模型是基于样本场景的样本三维点云数据、所述样本三维点云数据中每一点的语义类别和所述样本场景的样本描述文本，结合三维点云语义分割层训练得到的；

所述三维点云语义分割层用于基于所述样本三维点云数据的样本点云特征，对所述样本三维点云数据中的每一点进行语义分割。

根据本发明提供的一种三维场景描述方法，所述三维场景描述模型是基于如下步骤训练得到的：

语义分割训练步骤：基于样本场景的样本三维点云数据和所述样本三维点云数据中每一点的语义类别，训练所述特征提取层和所述三维点云语义分割层；

描述文本生成训练步骤：基于样本场景的样本三维点云数据和所述样本场景的样本描述文本，训练所述特征提取层和所述描述文本生成层；

迭代步骤：若所述三维场景描述模型未收敛，则轮流执行所述语义分割训练步骤和所述描述文本生成训练步骤。

本发明还提供一种三维场景描述装置，包括：

点云数据获取单元，用于确定待描述场景的三维点云数据；

描述文本生成单元，用于基于已训练的三维场景描述模型，对所述三维点云数据进行特征提取，得到所述三维点云数据的点云特征，并基于所述点云特征，生成所述待描述场景的描述文本；

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述三维场景描述方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述三维场景描述方法的步骤。

本发明提供的三维场景描述方法、装置、电子设备和存储介质，基于已训练的三维场景描述模型，对三维点云数据进行特征提取，得到三维点云数据的点云特征，并基于点云特征，生成待描述场景的描述文本，可以实现三维场景的自动化智能描述，且场景描述准确率高、对数据适应范围广泛。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的三维场景描述方法的流程示意图；

图2为本发明提供的三维场景描述模型和三维点云语义分割层的示意图；

图3为本发明提供的三维场景描述装置的结构示意图；

图4为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的三维场景描述方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待描述场景的三维点云数据；

步骤120，基于已训练的三维场景描述模型，对三维点云数据进行特征提取，得到三维点云数据的点云特征，并基于点云特征，生成待描述场景的描述文本；

其中，三维场景描述模型是基于样本场景的样本三维点云数据及其样本描述文本训练得到的。

具体地，待描述场景为需要进行文本描述的三维场景。在对待描述场景进行描述之前，可以获取待描述场景的三维点云数据。其中，待描述场景的三维点云数据可以是利用深度相机、激光雷达等设备采集到的，也可以是接收到的已有三维点云数据，本发明实施例对此不作具体限定。

将上述三维点云数据输入至已训练的三维场景描述模型中，该三维场景描述模型会对该三维点云数据进行特征提取，得到三维点云数据的点云特征。其中，三维点云数据的点云特征可以用于表征该待描述场景中的全局特征，以及点云数据中各点之间的局部特征。基于三维点云数据的点云特征，可以知晓待描述场景中的各描述对象以及描述对象之间的关联关系。因此，三维场景描述模型可以基于三维点云数据的点云特征进行场景理解，从而生成得到待描述场景的描述文本。其中，描述文本中包含针对待描述场景中各描述对象的属性特征以及各描述对象之间的关联关系的描述语句。

在执行步骤120之前，还预先训练得到三维场景描述模型，具体可以通过如下方式训练得到三维场景描述模型：首先，收集大量样本场景的样本三维点云数据，并根据样本场景中各样本对象的颜色、形状、位置等属性和关联关系，标注各样本场景的样本描述文本。随即，基于样本场景的样本三维点云数据及其样本描述文本训练初始模型，从而得到三维场景描述模型。

三维场景描述模型在训练过程中，可以学习如何提取样本三维点云数据的样本点云特征，使得提取得到的样本点云特征可以准确表征样本场景中各样本对象的属性特点以及各样本对象之间的关联关系，并在样本描述文本的指导下，学习如何根据样本点云特征生成对应的描述文本。因此，训练好的三维场景描述模型可以准确提取待描述场景的点云特征，从而生成准确、清晰和完整的描述文本。

本发明实施例提供的方法，基于已训练的三维场景描述模型，对三维点云数据进行特征提取，得到三维点云数据的点云特征，并基于点云特征，生成待描述场景的描述文本，可以实现三维场景的自动化智能描述，且场景描述准确率高、对数据适应范围广泛。

基于上述实施例，步骤120具体包括：

基于三维场景描述模型的特征提取层，对三维点云数据中各点的三维坐标和RGB颜色信息进行特征提取，得到点云特征；

基于三维场景描述模型的描述文本生成层，利用自注意力机制对点云特征和各点的三维坐标进行编码，得到三维场景特征编码，并对三维场景特征编码进行解码，得到描述文本。

具体地，三维场景描述模型包括特征提取层和描述文本生成层。其中，特征提取层用于将三维点云数据中各点的三维坐标和RGB颜色信息作为初始特征，通过空间卷积实现局部特征的逐步抽象提取，得到点云特征；描述文本生成层用于对点云特征和各点的三维坐标进行融合，将位置信息融合到点云特征中后，利用自注意力机制强化融合后的向量中的重要信息，从而编码得到三维场景特征编码，然后对三维场景特征编码进行解码，生成语法正确且语义准确的描述文本。

基于上述任一实施例，特征提取层包括多个卷积块，每个卷积块由多个空间点卷积层组合而成；

具体地，首先对输入数据进行网格采样，记初始采样单元格大小为d₀，并通过一个带有下采样的卷积层和一个无下采样卷积层，将输入点数降为输入的约一半，同时提升特征维度。为了提升特征抽象层次，特征提取层被设计为由多个卷积块构成，其中每个卷积块由多个空间点卷积层组合而成。例如，每4个空间点卷积层可以组成1个卷积块，4个卷积块组成特征提取层。每个卷积块中仅第1个空间点卷积层带有降采样操作，且每次降采样的单元格大小为前一次降采样单元格的2倍，即d_i＝d_i-1×2。

卷积块内的空间点卷积层之间除了顺序连接之外，在每两个不相邻的空间点卷积层的输出之间增加稠密跨层连接，以提升网络表达能力，同时相应地减少网络参数量。最后一个卷积块的输出作为提取得到的点云特征，用于后续的描述文本生成。

基于上述任一实施例，空间点卷积层用于基于三维点云数据中各点的三维坐标和RGB颜色信息进行空间卷积计算。

具体地，空间点卷积层用于基于三维点云数据中各点的三维坐标和RGB颜色信息，通过基于半径邻域的多层点卷积实现局部特征的逐步抽象提取。假设点云数据中点的数量为N，记

为点i的三维坐标，

为点云数据中所有点的坐标集合，

为点i的D维特征向量(如对于RGB颜色特征，D＝3)，

为点云数据中所有点的特征集合。定义三维点云数据上的空间卷积操作为邻域点特征的加权平均，计算公式如下：

其中，x为卷积核的中心点；N_x为点x的邻域点集合；

为点i的D维特征向量(如对于RGB颜色特征，D＝3)，

为三维点云数据中所有点的特征集合；N为三维点云数据中点的总数；kernel为卷积核函数。根据半径邻域搜索规则，N_x＝{x_i∈P|‖x_i-x‖≤r}，

为邻域半径。参考KPConv模型的实现方式，在邻域点集合中按一定规则选取若干个点作为卷积核函数kernel的载体，称这些点为卷积核参考点，记它们组成的集合为K_x，那么卷积核函数kernel的计算公式为：

其中，

为特征映射矩阵，用于将特征维度从D_i映射为D_o，是可学习参数；λ表示卷积核参考点的影响范围，可根据点云密度和邻域半径值设置经验值，当邻域点与卷积核参考点的距离大于λ时，该邻域点即不参与该卷积核参考点的计算；Δ_k为卷积核参考点x_k的位置偏移量，也是可学习参数，该偏移量可以使得卷积操作适应对不同尺度和形状的物体提取特征。

在上述定义的卷积操作的基础上，还可以加入批归一化和激活函数，从而形成空间点卷积层，其计算公式如下：

B(x)＝activation(batchnorm(g(x)))

其中，g(x)为空间卷积计算结果，batchnorm为批归一化函数，用于将输入数据经过线性映射，归一化到均值为0且方差为1的分布中，可以加快模型收敛速度；activation为激活函数，如ReLU函数、Sigmoid函数等，可以提升模型的非线性表达能力。

基于上述任一实施例，基于三维场景描述模型的描述文本生成层，利用自注意力机制对点云特征和各点的三维坐标进行编码，得到三维场景特征编码，并对三维场景特征编码进行解码，得到描述文本，具体包括：

基于描述文本生成层的融合层，对点云特征和各点的三维坐标进行融合，得到位置融合向量；

基于描述文本生成层的编码层，利用自注意力机制，对位置融合向量进行编码，得到三维场景特征编码；

基于描述文本生成层的解码层，对三维场景特征编码进行解码，得到描述文本。

具体地，描述文本生成层包括融合层、编码层和解码层。其中，编码层中包含多个顺序连接的相同编码模块，解码层中包含与编码模块数量相同的顺序连接的相同解码模块。例如，编码层可以包括6个顺序连接的相同编码模块，解码层中包含6个顺序连接的相同解码模块。

其中，融合层用于对点云特征和各点的三维坐标进行融合，得到位置融合向量。若特征提取层输出的点云特征为

各点的三维坐标为

(其中N_f为特征点数量，C_f为特征维度)，融合层可以通过嵌入编码将点云特征和三维坐标分别转换到固定维度d_m后相加，得到融合位置编码的位置融合向量

编码层用于利用自注意力机制，对位置融合向量进行编码，得到三维场景特征编码。解码层用于对三维场景特征编码进行解码，得到描述文本。

编码模块由1个自注意力子模块和1个前馈网络子模块组成。自注意力子模块用于将输入X变换为三组变量：查询向量Q、键向量K和值向量V，计算公式如下：

Q＝XW_Q,K＝XW_K,V＝XW_V

其中，

和

是可学习的投影矩阵。自注意力子模块根据查询向量Q和键向量K的相似分布计算注意力值作为权重，对值向量V进行加权求和，得到输出。自注意力子模块可以按如下公式定义：

其中，d为缩放因子，一般设d＝d_k，即等于自注意力模块Q、K和V向量的维度。

自注意力子模块后接的前馈网络子模块包含2个全连接层，即：

FFN(X)＝max(XW₁+b₁,0)W₂+b₂

其中，W₁、b₁、W₂和b₂分别为2个全连接层的权重矩阵和偏置向量。自注意力子模块与前馈网络子模块分别使用跨层连接增强表达能力。

解码模块的结构与编码模块相似，但增加了一个注意力子模块，使用来自编码模块的键向量K和值向量V，并将上一层解码模块的输出作为查询向量Q，通过相似的加权求和计算得到输出。

在实际解码生成描述文本时，解码层的第一次输出为描述文本的第一个单词或短语；之后，将解码层的输出返回作为解码层的输入，再次经过解码层计算得到的输出为第二个单词或短语，依次循环直至输出结束标识符，即表示得到一条完整的描述文本。

基于上述任一实施例，三维场景描述模型是基于样本场景的样本三维点云数据、样本三维点云数据中每一点的语义类别和样本场景的样本描述文本，结合三维点云语义分割层训练得到的；

三维点云语义分割层用于基于样本三维点云数据的样本点云特征，对样本三维点云数据中的每一点进行语义分割。

具体地，图2为本发明实施例提供的三维场景描述模型和三维点云语义分割层的示意图，如图2所示，特征提取层和描述文本生成层用于共同完成三维场景描述任务，而特征提取层和三维点云语义分割层用于共同完成三维点云的语义分割任务。其中，三维点云语义分割层用于基于特征提取层输出的样本点云特征，对样本三维点云数据中的每一点进行语义分割。

由于共有两项任务，其中一项为指导优化特征提取层的三维点云语义分割任务，另一项为作为最终目的的三维场景描述任务，因此，本发明实施例利用多任务训练方法，使用监督学习方式，轮流在上述两项任务上训练三维场景描述模型。根据基于样本场景的样本三维点云数据、样本三维点云数据中每一点的语义类别和样本场景的样本描述文本，使用多任务监督学习方法训练三维场景描述模型和三维点云语义分割层，对两个任务中共有的特征进行了有效融合和取长补短，同时实现两个任务的最优化，得到最优化的三维场景描述模型。其中，为了训练特征提取层，使其能够通过学习达到能够提取有效特征的最优化状态，在特征提取层的输出后连接了三维点云语义分割层，通过监督学习的方法和用于语义分割的交叉熵损失函数，逐步迭代指导优化特征提取层直至收敛状态。

此处，三维点云语义分割层可以包括最近邻上采样层和特征降维层。对应于特征提取层，三维点云语义分割层共包含4个上采样层，每个上采样层后均接1个特征降维层，同时将特征提取层中对应维度的层的输出和上采样层的输出合并作为特征降维层的输入，以实现相同维度特征融合。最后一个特征降维层的输出通过一个转换矩阵将维度转换为语义类别数量，再通过Softmax分类，即可得到每个点对应每个语义类别的概率。

基于上述任一实施例，三维场景描述模型是基于如下步骤训练得到的：

语义分割训练步骤：基于样本场景的样本三维点云数据和样本三维点云数据中每一点的语义类别，训练特征提取层和三维点云语义分割层；

描述文本生成训练步骤：基于样本场景的样本三维点云数据和样本场景的样本描述文本，训练特征提取层和描述文本生成层；

迭代步骤：若三维场景描述模型未收敛，则轮流执行语义分割训练步骤和描述文本生成训练步骤。

具体地，首先执行语义分割训练步骤，训练三维点云语义分割层，同时连带训练特征提取层。其中，可以使用带有动量的梯度下降法优化逐点交叉熵损失函数，设置批样本数量为16，动量为0.98，在训练集数据上依次迭代。此处，每次训练完成整个训练集称为1个epoch。特征提取层和三维点云语义分割层的学习率可以设置为从训练开始到第5个epoch以线性递增方式从10^-7增加到10^-2，然后以指数形式每40个epoch下降为原来的0.1倍。

三维点云语义分割层训练50个epoch后，固定该层，开始描述文本生成训练步骤。其中，可以使用Adam优化器优化逐单词交叉熵损失函数，设置批样本数量为50，学习率策略与语义分割训练步骤类似，但上升阶段从10^-7增加到10^-3，特征提取层参数同时更新，但学习率为描述文本生成层的0.1倍。

描述文本生成层训练100个epoch后，固定该层，继续执行语义分割训练步骤，依此类推轮流执行语义分割训练步骤和描述文本生成训练步骤。其中，同一个层在每次轮流后学习率下降为原来的0.1倍，且每次训练时特征提取层的学习率为三维点云语义分割层或描述文本生成层的0.1倍。经过多个轮次后，整个三维场景描述模型达到收敛状态，训练过程结束。

此外，训练过程中，每训练1个epoch后可以在验证集点云数据上计算相应层的准确率。整个训练过程结束后，在测试集点云数据上预测生成描述文本，查看模型训练效果。

基于上述任一实施例，在训练三维场景描述模型之前，需要收集训练样本。采集样本场景的样本三维点云数据，然后对样本三维点云数据分别逐点标注语义类别，即标注所属物体名称，并由5名不同的人员对每个样本场景分别标注一个不少于10个单词的描述文本，将样本三维点云数据和标注数据作为训练数据。

为了达到更好的可靠性和泛化性，可以保证用于训练的样本场景中包含多种不同尺度、类型、颜色、形状和位置的物体和背景。如果需要应用于已知的特定种类的场景中，也可以使用从不同角度采集的该特定种类场景的样本场景，比如室内场景数据等。为了保证模型训练后的拟合程度，采集的样本场景数量不少于1000个，且每个样本场景中的点数量不少于10000个。每个样本场景的样本三维点云数据分别单独保存为一个PLY格式文件，其中包含每个点的三维坐标和RGB三通道颜色信息。

上述数据准备完毕后，开始标注工作。首先标注语义类别。假设全部场景中的语义类别数量为N_c，各类别名称分别为

各类别的整数类型ID分别为

其中C_i＝i,

0表示未标注(包括背景和不关注的部分)。使用三维点云显示与标注软件，分别打开每一个场景点云文件，标注每个点所属的语义类别ID，将该ID信息作为一项属性保存到该场景对应的PLY文件中。全部场景的逐点语义类别标注完毕后，开始标注每个场景的描述文本。对于每个场景，分别由5名不同的人员，根据已标注的一个或多个类别名称以及他们的颜色、形状、位置等属性和相关关系，输入一个完整准确的描述句子，保存到与场景点云文件同名的TXT文件中。至此，所有数据标注完毕。

假设全部场景点云数量为N_s，从其中随机抽取

个点云及其标注作为验证集，用于计算评价指标，评估模型性能，选择最优超参数等；再随机抽取

个点云作为测试集，这部分点云仅用于测试，可不进行标注；剩余

部分作为训练集，用于训练三维场景描述模型，优化其中的参数。

下面对本发明提供的三维场景描述装置进行描述，下文描述的三维场景描述装置与上文描述的三维场景描述方法可相互对应参照。

图3为本发明实施例提供的三维场景描述装置的结构示意图，如图3所示，该装置包括：点云数据获取单元310和描述文本生成单元320。

其中，点云数据获取单元310用于确定待描述场景的三维点云数据；

描述文本生成单元320用于基于已训练的三维场景描述模型，对三维点云数据进行特征提取，得到三维点云数据的点云特征，并基于点云特征，生成待描述场景的描述文本；

本发明实施例提供的装置，基于已训练的三维场景描述模型，对三维点云数据进行特征提取，得到三维点云数据的点云特征，并基于点云特征，生成待描述场景的描述文本，可以实现三维场景的自动化智能描述，且场景描述准确率高、对数据适应范围广泛。

基于上述任一实施例，描述文本生成单元320具体用于：

基于上述任一实施例，空间点卷积层用于基于三维点云数据中各点的三维坐标和RGB颜色信息进行空间卷积计算；

空间卷积计算公式为：

其中，x为卷积核的中心点；N_x为点x的邻域点集合；

为点i的D维特征向量，

为三维点云数据中所有点的特征集合；N为三维点云数据中点的总数；kernel为卷积核函数；

其中，K_x为卷积核参考点的集合；

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行三维场景描述方法，该方法包括：确定待描述场景的三维点云数据；基于已训练的三维场景描述模型，对所述三维点云数据进行特征提取，得到所述三维点云数据的点云特征，并基于所述点云特征，生成所述待描述场景的描述文本；其中，所述三维场景描述模型是基于样本场景的样本三维点云数据及其样本描述文本训练得到的。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的三维场景描述方法，该方法包括：确定待描述场景的三维点云数据；基于已训练的三维场景描述模型，对所述三维点云数据进行特征提取，得到所述三维点云数据的点云特征，并基于所述点云特征，生成所述待描述场景的描述文本；其中，所述三维场景描述模型是基于样本场景的样本三维点云数据及其样本描述文本训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的三维场景描述方法，该方法包括：确定待描述场景的三维点云数据；基于已训练的三维场景描述模型，对所述三维点云数据进行特征提取，得到所述三维点云数据的点云特征，并基于所述点云特征，生成所述待描述场景的描述文本；其中，所述三维场景描述模型是基于样本场景的样本三维点云数据及其样本描述文本训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种三维场景描述方法，其特征在于，包括：

确定待描述场景的三维点云数据；

2.根据权利要求1所述的三维场景描述方法，其特征在于，所述基于已训练的三维场景描述模型，对所述三维点云数据进行特征提取，得到所述三维点云数据的点云特征，并基于所述点云特征，生成所述待描述场景的描述文本，具体包括：

3.根据权利要求2所述的三维场景描述方法，其特征在于，所述特征提取层包括多个卷积块，每个卷积块由多个空间点卷积层组合而成；

4.根据权利要求3所述的三维场景描述方法，其特征在于，所述空间点卷积层用于基于所述三维点云数据中各点的三维坐标和RGB颜色信息进行空间卷积计算；

所述空间卷积计算公式为：

其中，x为卷积核的中心点；N_x为点x的邻域点集合；

为点i的D维特征向量，

其中，K_x为卷积核参考点的集合；

5.根据权利要求2所述的三维场景描述方法，其特征在于，所述基于所述三维场景描述模型的描述文本生成层，利用自注意力机制对所述点云特征和各点的三维坐标进行编码，得到三维场景特征编码，并对所述三维场景特征编码进行解码，得到所述描述文本，具体包括：

6.根据权利要求2至5任一项所述的三维场景描述方法，其特征在于，所述三维场景描述模型是基于样本场景的样本三维点云数据、所述样本三维点云数据中每一点的语义类别和所述样本场景的样本描述文本，结合三维点云语义分割层训练得到的；

7.根据权利要求6任一项所述的三维场景描述方法，其特征在于，所述三维场景描述模型是基于如下步骤训练得到的：

8.一种三维场景描述装置，其特征在于，包括：

点云数据获取单元，用于确定待描述场景的三维点云数据；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述三维场景描述方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述三维场景描述方法的步骤。