CN112115744A

CN112115744A - 点云数据的处理方法及装置、计算机存储介质、电子设备

Info

Publication number: CN112115744A
Application number: CN201910538563.9A
Authority: CN
Inventors: 李艳丽; 孙晓峰; 赫桂望; 蔡金华
Original assignee: Beijing Jingdong Three Hundred And Sixty Degree E Commerce Co ltd
Current assignee: Beijing Jingdong Three Hundred And Sixty Degree E Commerce Co ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2020-12-22
Anticipated expiration: 2039-06-20
Also published as: CN112115744B

Abstract

本公开涉及人工智能技术领域，提供了一种点云数据的处理方法、点云数据的处理装置、计算机存储介质、电子设备，其中，点云数据的处理方法包括：获取输入点云对应的特征参数；对所述特征参数进行编码处理，以确定所述输入点云对应的编码信息；将所述编码信息输入至文本描述模型中进行解码，以获取所述输入点云对应的文本信息；其中，所述文本描述模型为对所述编码信息进行解码处理的机器学习模型。本公开中的点云数据的处理方法不仅能够解决现有技术中缺乏点云数据处理方法的技术问题，而且能够提高对点云进行文本描述的准确性。

Description

点云数据的处理方法及装置、计算机存储介质、电子设备

技术领域

本公开涉及人工智能技术领域，特别涉及一种点云数据的处理方法、点云数据的处理装置、计算机存储介质及电子设备。

背景技术

随着人工智能技术的飞速发展，科技已经在不知不觉中影响着人们生活中的方方面面。随着三维打印、智能驾驶的推进，对点云数据的智能化处理和应用逐渐成为学术和工业界的研究热点。

目前，对于图像/视频的处理方法较多，而对于点云数据的处理方法却很少见。一方面，图像/视频是由二维空间下的规整像素合成的，而点云数据是由三维空间下的离散扫描点合成的。另一方面，点云数据的规模较大，一般是由时间序列上的单帧点云数据拼接而成，且这些单帧点云数据之间存在时空一致性关系(即在对点云数据进行处理时需要考虑到单帧点云数据采集时的时间先后关系)，然而，现有的相关处理方法无法体现出时空一致性。因而，点云数据与图像/视频的处理方法存在本质性区别，无法将对图像/视频的处理方法直接应用于对点云数据的处理上。

鉴于此，本领域亟需开发一种新的点云数据的处理方法及装置。

需要说明的是，上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

发明内容

本公开的目的在于提供一种点云数据的处理方法、点云数据的处理装置、计算机存储介质及电子设备，进而至少在一定程度上避免了现有技术中缺乏相关点云数据处理方法的技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种点云数据的处理方法，包括：获取输入点云对应的特征参数；对所述特征参数进行编码处理，以确定所述输入点云对应的编码信息；将所述编码信息输入至文本描述模型中进行解码，以获取所述输入点云对应的文本信息；其中，所述文本描述模型为对所述编码信息进行解码处理的机器学习模型。

在本公开的示例性实施例中，所述获取输入点云对应的特征参数，包括：对所述输入点云中的单帧点云数据进行拆分，以获取第一点云数据与第二点云数据；获取所述第一点云数据对应的特征参数与所述第二点云数据对应的特征参数；将所述第一点云数据对应的特征参数与所述第二点云数据对应的特征参数进行合并，以确定所述输入点云对应的特征参数。

在本公开的示例性实施例中，所述将所述第一点云数据对应的特征参数与所述第二点云数据对应的特征参数进行合并，以确定所述输入点云对应的特征参数，包括：将所述第一点云数据对应的特征参数与所述第二点云数据对应的特征参数进行合并，以获取所述单帧点云数据对应的特征参数；根据所述单帧点云数据对应的特征参数，确定所述输入点云对应的特征参数。

在本公开的示例性实施例中，所述对所述特征参数进行编码处理，以确定所述输入点云对应的编码信息，包括：基于注意力机制对所述特征参数进行数值转换，以得到调整参数；基于循环神经网络对所述调整参数进行数值更新，以确定所述输入点云对应的编码信息。

在本公开的示例性实施例中，所述对所述输入点云中的单帧点云数据进行拆分，以获取第一点云数据与第二点云数据，包括：基于卷积神经网络，对所述输入点云中的单帧点云数据进行拆分，以获取第一点云数据与第二点云数据。

在本公开的示例性实施例中，所述方法还包括：基于所述卷积神经网络，所述循环神经网络以及所述注意力机制构建所述机器学习模型。

在本公开的示例性实施例中，所述方法还包括：获取点云样本数据并标注所述点云样本数据对应的文本信息；根据所述点云样本数据与所述点云样本数据对应的文本信息对所述机器学习模型进行训练，以获取所述文本描述模型。

根据本公开的第二方面，提供一种点云数据的处理装置，包括：获取模块，用于获取输入点云对应的特征参数；编码模块，用于对所述特征参数进行编码处理，以确定所述输入点云对应的编码信息；解码模块，用于将所述编码信息输入至文本描述模型中进行解码，以获取所述输入点云对应的文本信息；其中，所述文本描述模型为对所述编码信息进行解码处理的机器学习模型。

根据本公开的第三方面，提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的点云数据的处理方法。

根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的点云数据的处理方法。

由上述技术方案可知，本公开示例性实施例中的点云数据的处理方法、点云数据的处理装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的一些实施例所提供的技术方案中，一方面，获取输入点云对应的特征参数，并对上述特征参数进行编码处理，以确定输入点云对应的编码信息。另一方面，将编码信息输入至文本描述模型(对编码信息进行解码处理的机器学习模型)中进行解码，以获取输入点云对应的文本信息，能够将编码信息解码为文本信息，从而能够解决现有技术中缺乏点云数据处理方法的技术问题，提高对于点云数据处理的准确性与处理效率本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开一示例性实施例中点云数据的处理方法的流程示意图；

图2示出本公开一示例性实施例中点云数据的处理方法的示意图；

图3示出本公开另一示例性实施例中点云数据的处理方法的示意图；

图4示出本公开另一示例性实施例中点云数据的处理方法的流程示意图；

图5示出本公开再一示例性实施例中点云数据的处理方法的流程示意图；

图6示出本公开再一示例性实施例中点云数据的处理方法的示意图；

图7示出本公开又一示例性实施例中点云数据的处理方法的示意图；

图8示出本公开一示例性实施例中点云数据的处理方法的示意图；

图9示出本公开另一示例性实施例中点云数据的处理方法的示意图；

图10示出本公开再一示例性实施例中点云数据的处理方法的示意图；

图11示出本公开示例性实施例中点云数据的处理装置的结构示意图；

图12示出本公开示例性实施例中计算机存储介质的结构示意图；

图13示出本公开示例性实施例中电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

目前，对于图像/视频的处理方法较多，而对于点云数据的处理方法却很少见。一方面，图像/视频是由二维空间下的规整像素合成的，而点云数据是由三维空间下的离散扫描点合成的。另一方面，点云数据的规模较大，一般是由时间序列上的单帧点云数据拼接而成，且这些单帧点云数据之间存在时空一致性关系(即在对点云数据进行处理时需要考虑到单帧点云数据采集时的时间先后关系)，然而，现有的相关处理方法无法体现出时空一致性。因而，点云数据与图像/视频的处理方法存在本质性区别，无法将对图像/视频的处理方法直接应用于对点云数据的处理上。因此，本领域亟需开发一种新的数据处理方法点云数据的处理方法及装置。

在本公开的实施例中，首先提供了一种点云数据的处理方法，至少在一定程度上克服现有技术中缺乏相关点云数据处理方法的缺陷。

图1示出本公开一示例性实施例中点云数据的处理方法的流程示意图，该点云数据的处理方法的执行主体可以是对点云数据进行处理的服务器。

参考图1，根据本公开的一个实施例的点云数据的处理方法包括以下步骤：

步骤S110，获取输入点云对应的特征参数；

步骤S120，对所述特征参数进行编码处理，以确定所述输入点云对应的编码信息；

步骤S130，将所述编码信息输入至文本描述模型中进行解码，以获取所述输入点云对应的文本信息；

其中，所述文本描述模型为对所述编码信息进行解码处理的机器学习模型。

在图1所示实施例所提供的技术方案中，一方面，获取输入点云对应的特征参数，并对上述特征参数进行编码处理，以确定输入点云对应的编码信息。另一方面，将编码信息输入至文本描述模型(对编码信息进行解码处理的机器学习模型)中进行解码，以获取输入点云对应的文本信息，能够将编码信息解码为文本信息，从而能够解决现有技术中缺乏点云数据处理方法的技术问题，提高对于点云数据处理的准确性与处理效率。

以下对图1中的各个步骤的具体实现过程进行详细阐述：

在本公开的示例性实施例中，示例性的，可以基于卷积神经网络、循环神经网络以及注意力机制构建一机器学习模型。

在本公开的示例性实施例中，卷积神经网络(Convolutional Neural Networks，简称：CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward NeuralNetworks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类。

在本公开的示例性实施例中，上述卷积神经网络是改进之后的PointNet网络，示例性的，可以命名为PointNetII，通过PointNetII网络可以实现对三维物体的特征提取，确保三维数据之间的时空一致性关系。

在本公开的示例性实施例中，上述卷积神经网络可以包含三种神经元T-Net，matrix multiply和MLP。其中，T-Net是一种数据转换单元，可以对输入点云的特征参数(特征向量)进行矩阵变换。matrix multiply是矩阵叉乘单元，T-Net联合matrix multily能够保证模型对特定空间转换的不变性。MLP(多层感知器，Multi-Layer Perceptron，简称：MLP)是一种前向结构的人工神经网络单元，包含多层感知单元，映射一组输入向量到一组输出向量。MLP的每层感知单元均为卷积操作，共享权重独立作用到每个点云数据，例如：感知单元3*64和数据层1*3进行卷积输出1*64，感知单元128*1024跟数据层1*128进行卷积输出1*1024。

在本公开的示例性实施例中，示例性的，可以参考图2，图2示出本公开一示例性实施例中点云数据的处理方法的示意图，具体示出上述PointNetII网络的结构示意图，参考图2，201所示为矩阵变换单元，由T-Net神经元2011和matrix multiply神经元2012构成。通过上述T-Net神经元2011，可以对输入矩阵(数据)进行矩阵变换，例如：可以根据实际需要将输入矩阵转换为其对应的平移矩阵、旋转矩阵以及缩放矩阵等。通过上述matrixmultiply神经元2012，可以对T-Net神经元2011输出的矩阵与方阵进行矩阵相乘操作(例如：与3*3的方阵或者64*64的方阵相乘)。

在本公开的示例性实施例中，202所示为MLP(64，64)，表示两层感知单元3*64和64*64。

在本公开的示例性实施例中，203所示为矩阵变换单元，与上述201相同，均为矩阵变换单元，由T-Net神经元2031和matrix multiply神经元2032构成。上述T-Net神经元2031与上述2011功能相同。上述matrix multiply神经元2032与上述matrix multiply神经元2012功能相同。

在本公开的示例性实施例中，204所示为MLP(64，128，1024)，表示三层感知单元64*64，64*128，128*1024。

在本公开的示例性实施例中，205所示为池化层，通过将数据传递至池化层进行特征选择和信息过滤，能够把一个大的矩阵降采样成一个小的矩阵，从而减少计算量，缩减模型的大小，提高计算速度，同时提高所提取特征的鲁棒性(是Robust的音译，也就是健壮和强壮，是指系统在一定(结构，大小)的参数摄动下，维持其它某些性能的特性)。

在本公开的示例性实施例中，206所示为上述卷积神经网络的输出数据。

在本公开的示例性实施例中，继续参考图2，以对三维点云(1*3)进行特征提取为例进行说明，首先，可以将1*3的3维点云输入上述矩阵变换单元201中，通过矩阵变换单元201中的T-Net神经元2011对1*3的3维点云进行矩阵变换(可以根据实际需要进行任意矩阵变换，属于本公开的保护范围)，可以得到变换后的1*3的3维点云。进而，可以通过矩阵变换单元201中的matrix multiply神经元2012将上述变换后的3维点云与3*3的方阵相乘，得到1*3的相乘矩阵。进一步的，可以将上述1*3的相乘矩阵输入202两层感知单元MLP(64，64)中，得到1*64的矩阵，具体的，(1*3)*(3*64)＝(1*64)；(1*64)*(64*64)＝(1*64)，即可以得到1*64的64维矩阵。之后，可以将上述1*64的64维矩阵输入矩阵变换单元203中，通过矩阵变换单元203的T-Net神经元2031对1*64的64维矩阵进行变换之后，可以通过矩阵变换单元203中的matrix multiply神经元2032将上述变换之后的64维矩阵与64*64的矩阵相乘，得到1*64的矩阵。进一步的，可以将上述1*64的矩阵输入204三层感知单元MLP(64，128，1024)中，得到1*1024的矩阵，具体的，参考上述步骤的相关解释，(1*64)*(64*64)＝(1*64)；(1*64)*(64*128)＝(1*128)；(1*128)*(128*1024)＝(1*1024)。进而，在对上述1*1024的矩阵输入池化层205之后，可以将池化结果(1*1024)作为上述3维点云对应的特征206输出。

在本公开的示例性实施例中，上述循环神经网络(Recurrent neural network，简称：RNN)是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。循环神经网络具有记忆性、参数共享并且图灵完备(Turing completeness)，因此能以很高的效率对序列的非线性特征进行学习。示例性的，上述循环神经网络可以是长短期记忆网络(Long Short-Term Memory，简称：LSTM)是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。需要说明的是，上述循环神经网络还可以是双向循环神经网络(BidirectionalRNN，简称：Bi-RNN)，门控循环神经网络(Gated Recurrent Unit，简称：GRU)等，本公开对此不作特殊限定。

在本公开的示例性实施例中，图3示意性示出本公开另一示例性实施例中点云数据的处理方法的示意图，具体示出上述循环神经网络为LSTM神经网络的示意图，以下结合图3对具体的实施方式进行解释。LSTM借助输入门、遗忘门和输出门来忘掉无用久远的记忆，过滤有价值输入和输出想要的结果。如图3所示，其中，输入门定义为i＝σ(x_tU_i+s_t-1w_i)，这里的σ(·)为Sigmoid函数。遗忘门定义为f＝σ(x_tU_f+s_t-1w_f)，输出门定义为o＝σ(x_tU_o+s_t- ₁w_o)，候选隐藏状态定义为g＝tanh(x_tU_g+s_t-1w_g)，内部记忆状态为c_t＝c_t-1·i+f·g，隐藏状态为s_t＝tanh(c_t)·o。

在本公开的示例性实施例中，注意力机制(Attention Mechanism)是指在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息，上述机制通常被称为注意力机制。通过注意力机制可以使得神经网络具备专注于其输入/特征子集的能力，选择特定的输入，将计算资源分配给更重要的任务。

在本公开的示例性实施例中，通过将循环神经单元LSTM与上述PointNetII网络进行组合以构建机器学习模型，能够将单帧的PointNet网络扩展成时空序列帧下的PointNetII网络，提升特征提取的时空一致性。

在本公开的示例性实施例中，在构建上述机器学习模型之后，可以对上述机器学习模型进行训练，以得到文本描述模型。具体的，可以参考图4，图4示意性示出本公开另一示例性实施例中点云数据的处理方法的流程图，具体示出对上述机器学习模型进行训练，得到文本描述模型的流程图，以下结合图4对具体的实施方式进行解释。

在步骤S401中，获取点云样本数据并标注所述点云样本数据对应的文本信息。

在本公开的示例性实施例中，点云是在同一空间参考系下表达目标空间分布和目标表面特性的海量点集合，能够可视化地还原现实世界。点云样本数据即采集到的海量点云数据，点云样本数据对应的文本信息即点云样本数据对应的文字描述，示例性的，当点云样本数据为“一段车载系统扫描的街景点云”时，上述点云样本数据对应的文本信息可以是“道路上有一个摩托车骑手”。

在本公开的示例性实施例中，可以通过激光扫描仪或照相式扫描仪对现实情景进行采集，以获取点云样本数据。示例性的，可以设定采集轨迹，在某些轨迹点获取关键帧点云(例如：沿着采集轨迹，每隔0.1米采集一次点云作为关键帧点云)，并标注关键帧点云对应的文本作为上述点云样本数据对应的文本信息。

在本公开的示例性实施例中，还可以通过虚拟方式来采集点云样本数据，即在仿真环境下设定采集轨迹，在某些轨迹点获取关键帧点云，并标注关键帧点云对应的文本信息作为上述点云样本数据对应的文本信息。

在步骤S402中，根据所述点云样本数据与所述点云样本数据对应的文本信息对所述机器学习模型进行训练，以得到所述文本描述模型。

在本公开的示例性实施例中，在获取到上述点云样本数据与上述点云样本数据对应的文本信息之后，可以根据上述点云样本数据与上述文本信息训练机器学习模型。示例性的，可以将上述点云样本数据与各点云样本数据对应的文本信息输入上述机器学习模型中，多次调整参数以训练上述机器学习模型，使上述机器学习模型的损失函数趋于收敛，以得到一文本描述模型。

继续参考图1，在步骤S110中，获取输入点云对应的特征参数。

在本公开的示例性实施例中，可以获取输入点云对应的特征参数。

在本公开的示例性实施例中，参考上述步骤S201的相关解释，输入点云即输入上述文本描述模型的点云数据。输入点云可以是以时间序列输入的点云数据，示例性的，输入点云可以是特征向量n_t，n_t＝{n₁，n₂，n₃，……n_t}，t表示点云的数量。每个单帧数据(例如：n₁或n₂)均为7维向量，可以表示为n₁＝(X，Y，Z，I，R，G，B)。其中，(X，Y，Z)表示点云在三维空间中的坐标，I表示点云强度，(R，G，B)表示点云颜色。

在本公开的示例性实施例中，特征参数能够代表图像或目标的整体属性，示例性的，特征参数可以是点云的全局特征(包括颜色、形状以及纹理特征等)。全局特征具有良好的不变性，性能稳定，计算简单，表示直观，通过提取点云的全局特征能够完整全面的表示点云的整体属性。

在本公开的示例性实施例中，图5示意性示出本公开再一示例性实施例中点云数据的处理方法的流程图，具体示出获取输入点云对应的特征参数的流程图，以下结合图5对步骤S110进行解释。

在步骤S501中，对所述输入点云中的单帧点云数据进行拆分，以获取第一点云数据与第二点云数据。

在本公开的示例性实施例中，参考上述步骤的相关解释，单帧点云数据即上述输入点云中的任意一个时间点对应的点云数据，例如：n₁或n_t。

在本公开的示例性实施例中，第一点云数据即对上述单帧点云数据进行拆分后得到的第一个点云数据，第二点云数据即对上述单帧点云数据进行拆分之后得到的第二个(另一个)点云数据。

在本公开的示例性实施例中，可以基于卷积神经网络(PointNetII网络)对上述单帧点云数据进行拆分，以获得第一点云数据与第二点云数据。示例性的，可以将上述单帧点云数据n₁拆分为第一点云数据n₁₁和第二点云数据n₁₂，其中，第一点云数据n₁₁可以是3维特征向量(X，Y，Z)，第二点云数据n₁₂可以是4维特征向量(I，R，G，B)。

在步骤S502中，获取所述第一点云数据对应的特征参数与所述第二点云数据对应的特征参数。

在本公开的示例性实施例中，在得到上述单帧点云数据之后，可以获取上述第一点云数据对应的特征参数与上述第二点云数据对应的特征参数。

在本公开的示例性实施例中，可以参考上述图2以及图2的相关解释，将上述第一点云数据n₁₁(1*3)输入上述卷积神经网络中，根据卷积神经网络的输出，可以得到第一点云数据n₁₁对应的特征参数206(1*1024的特征向量)。

在本公开的示例性实施例中，示例性的，可以参考图6，图6示意性示出本公开再一示例性实施例中点云数据的处理方法的示意图，具体示出获取上述第二点云数据n₁₂(1*4)对应的特征参数的示意图，结合图6，可以将1*4的4维点云输入上述矩阵变换单元601中，通过矩阵变换单元601中的T-Net神经元6011对1*4的4维点云进行矩阵变换(可以根据实际需要进行任意矩阵变换，属于本公开的保护范围)，可以得到变换后的1*4的4维点云，进而，可以通过矩阵变换单元601中的matrix multiply神经元6012将上述变换后的4维点云与4*4的方阵相乘，得到1*4的相乘矩阵。进一步的，可以将上述1*4的相乘矩阵输入602两层感知单元MLP(64，64)中，得到1*64的矩阵，具体的，(1*4)*(4*64)＝(1*64)；(1*64)*(64*64)＝(1*64)，即可以得到1*64的64维矩阵。之后，可以将上述1*64的矩阵输入矩阵变换单元603中，通过矩阵变换单元603的T-Net神经元6031对1*64的64维矩阵进行矩阵变换之后，可以通过矩阵变换单元603中的matrix multiply神经元6032将上述变换之后的64维矩阵与64*64的矩阵相乘，得到1*64的矩阵。进一步的，可以将上述1*64的矩阵输入604三层感知单元MLP(64，128，1024)中，得到1*1024的矩阵，具体的，参考上述步骤的相关解释，(1*64)*(64*64)＝(1*64)；(1*64)*(64*128)＝(1*128)；(1*128)*(128*1024)＝(1*1024)。进而，在对上述1*1024的矩阵输入池化层605之后，可以将池化结果作为上述4维点云n₁₂对应的特征参数606(1*1024的特征向量)输出。

在步骤S503中，将所述第一点云数据对应的特征参数与所述第二点云数据对应的特征参数进行合并，以获取所述输入点云对应的特征参数。

在本公开的示例性实施例中，在得到第一点云数据对应的特征参数与第二点云数据对应的特征参数之后，可以将上述第一点云数据对应的特征参数与第二点云数据对应的特征参数进行合并，以获取输入点云对应的特征参数。

在本公开的示例性实施例中，可以先将上述第一点云数据对应的特征参数与第二点云数据对应的特征参数进行合并，得到单帧点云数据对应的特征参数，示例性的，可以参考图7，图7示意性示出本公开又一示例性实施例中点云数据的处理方法的示意图，具体示出根据第一点云数据与第二点云数据获取单帧点云数据对应的特征参数的示意图，具体的，可以参考方框701中所示的流程，可以将上述第一点云数据n₁₁对应的特征参数206(1*1024的特征向量)与上述第二点云数据n₁₂对应的特征参数406(1*1024的特征向量)通过concat函数(连接字符串，用于连接两个或多个数组，不会改变现有的数组，而仅仅会返回一个新的数组)进行合并，得到单帧点云数据n₁对应的特征参数702(1*2048的特征向量)。

在本公开的示例性实施例中，参考上述步骤的相关解释，可以根据输入点云中包含的每个单帧点云数据对应的第一点云数据与第二点云数据，获取到每个单帧点云数据对应的特征参数(1*2048的特征向量)。进而，可以将上述每个单帧点云数据对应的特征参数组合起来得到输入点云对应的特征参数。

在步骤S120中，对所述特征参数进行编码处理，以确定所述输入点云对应的编码信息。

在本公开的示例性实施例中，在获取到输入点云对应的特征参数之后，可以对上述特征参数进行编码处理，以确定输入点云对应的编码信息。

在本公开的示例性实施例中，编码信息即对上述特征参数进行编码处理之后得到的参数信息。

在本公开的示例性实施例中，图8示意性示出本公开一示例性实施例中点云数据的处理方法的流程图，具体示出对上述特征参数进行编码处理，以确定输入点云对应的编码信息的流程图，以下结合图8对步骤S120进行解释。

在步骤S801中，基于注意力机制对所述特征参数进行数值转换，以得到调整参数。

在本公开的示例性实施例中，参照上述步骤的相关解释，注意力机制(AttentionMechanism)是指在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息，上述机制通常被称为注意力机制。通过注意力机制可以使得神经网络具备专注于其输入/特征子集的能力，选择特定的输入，将计算资源分配给更重要的任务。

在本公开的示例性实施例中，调整参数即基于注意力机制，对上述特征参数各通道的数值进行数值转换(权重调整)之后，得到的参数值。

在本公开的示例性实施例中，注意力机制可以根据“局部重视”的策略对上述特征参数各个通道的参数值进行随机调整，具体的，可以通过注意力机制，动态调整特征参数中各个通道数值的权重值。示例性的，当输入点云中包含人像信息以及人像背景信息(例如：人像所处的环境)时，通过注意力机制，可以将人像信息乘以相应的权重值(例如：7)，使该数值所占的比重较大。也可以将人像背景信息乘以相应的权重值(例如：3)使该数值所占的比重较小。通过注意力机制动态调整数值的权重，有助于后续进行文本描述时，更加贴近人类的思维方式，从而能够提升文本的描述性能。

在本公开的示例性实施例中，示例性的，可以参考图9，图9示意性示出本公开另一示例性实施例中点云数据的处理方法的示意图，具体示出基于注意力机制(ATT模块)对上述特征参数进行调整的流程框图，示例性的，通过ATT对上述特征参数n_t＝{n₁，n₂，n₃，......n_t}进行调整之后得到的调整参数可以是m_t＝{m₁，m₂，m₃，……m_t}，其中，每个通道值对应的维度相同，仍为1*2048，即m₁，m₂……m_t对应的调整参数均为1*2048。

在步骤S802中，基于循环神经网络对所述调整参数进行数值更新，以确定所述输入点云对应的编码信息。

在本公开的示例性实施例中，在得到上述调整参数之后，可以基于循环神经网络对上述调整参数进行数值更新，以确定上述输入点云对应的编码信息。

在本公开的示例性实施例中，示例性的，可以参考图10，图10示意性示出本公开一示例性实施例中点云数据的处理方法的示意图，具体示出在获取到上述调整参数之后，基于循环神经网络对调整参数进行数值更新，以确定输入点云对应的编码信息的流程框图，可以将上述调整参数m_t＝{m₁，m₂，m₃，……m_t}输入上述循环神经网络模型中，具体的，循环神经网络可以根据调整参数m₁，将隐含数据层h₀更新为h₁，根据调整参数m₂，将隐含数据层h₁更新为h₂，根据调整参数m₃，将隐含数据层h₂更新为h₃……直至根据最后一个调整参数m_t，将隐含数据层h_T-1更新为h_T，进而，可以将上述h_T作为上述编码信息。

在步骤S130中，将所述编码信息输入至文本描述模型中进行解码，以获取所述输入点云对应的文本信息。

在本公开的示例性实施例中，在获取到上述编码信息之后，可以将上述编码信息输入至上述文本描述模型中进行解码，进而，可以根据上述文本描述模型的输出得到上述输入点云对应的文本信息。通过文本描述模型，能够提高对编码信息进行解码的准确性以及处理效率，从而提高对于点云数据进行文本描述的准确性。

在本公开的示例性实施例中，具体的，可以根据上述文本描述模型的长短期记忆网络(LSTM)来对上述编码信息h_T进行解码，以确定出上述输入点云对应的文本信息。示例性的，解码阶段的数据隐含层可以表示为H_t，即可以先根据上述编码信息h_T来顺序输出文本序列y＝{y₁，y₂，y₃…y_t}，每输出一个序列值y_t的同时，可以将数据隐含层H_t导入到上述长短期记忆网络中，计算出下一个数据隐含层H_t+1，以更新下一个文本序列y_t+1，直至完成全部文本序列的输出。在得到全部文本序列之后，可以根据文本序列确定出上述文本信息。

在本公开的示例性实施例中，具体的，每个序列值可以采用一维有效编码(One-Hot Encoding)来表示，例如，可以令y_i＝[0,0,…,1,…,0]，即对第i个单词在第j位编码为1，其他位编码均为0。假设文本库为固定单词库W，包含1024个单词{W₁,W₂,……,W₁₀₂₄}。进而，可以通过令y_i＝W_j(与固定单词库W中对应第j位的数据进行比对)，得知y_i对应的文本信息(例如：单词)。参考上述步骤的相关解释，可以得到上述文本序列y对对应的文本信息，从而完成对输入点云的文本描述。通过设置一维有效编码，能够简化处理步骤，提高解码效率。

本公开还提供了一种点云数据的处理装置，图11示出本公开示例性实施例中点云数据的处理装置的结构示意图；如图11所示，点云数据的处理装置1100可以包括获取模块1101、编码模块1102和解码模块1103。其中：

获取模块1101，用于获取输入点云对应的特征参数。

在本公开的示例性实施例中，获取模块用于获取输入点云对应的特征参数。

在本公开的示例性实施例中，获取模块用于对输入点云中的单帧点云数据进行拆分，以获取第一点云数据与第二点云数据；获取第一点云数据对应的特征参数与第二点云数据对应的特征参数；将第一点云数据对应的特征参数与第二点云数据对应的特征参数进行合并，以确定输入点云对应的特征参数。

在本公开的示例性实施例中，获取模块用于基于卷积神经网络，对输入点云中的单帧点云数据进行拆分，以获取第一点云数据与第二点云数据。

在本公开的示例性实施例中，获取模块用于将第一点云数据对应的特征参数与第二点云数据对应的特征参数进行合并，以获取单帧点云数据对应的特征参数；根据单帧点云数据对应的特征参数，确定输入点云对应的特征参数。

在本公开的示例性实施例中，获取模块还用于基于卷积神经网络，循环神经网络以及注意力机制构建机器学习模型。

在本公开的示例性实施例中，获取模块还用于获取点云样本数据并标注点云样本数据对应的文本信息；根据点云样本数据与点云样本数据对应的文本信息对上述机器学习模型进行训练，以获取文本描述模型。

编码模块1102，用于对所述特征参数进行编码处理，以确定所述输入点云对应的编码信息。

在本公开的示例性实施例中，编码模块用于对特征参数进行编码处理，以确定输入点云对应的编码信息。

在本公开的示例性实施例中，编码模块用于基于注意力机制对上述特征参数进行数值转换，以得到调整参数；基于循环神经网络对上述调整参数进行数值更新，以确定输入点云对应的编码信息。

解码模块1103，用于将所述编码信息输入至文本描述模型中进行解码，以获取所述输入点云对应的文本信息；其中，所述文本描述模型为对所述编码信息进行解码处理的机器学习模型。

在本公开的示例性实施例中，解码模块用于将编码信息输入至文本描述模型中进行解码，以获取输入点云对应的文本信息；其中，文本描述模型为对上述编码信息进行解码处理的机器学习模型。

上述点云数据的处理装置中各模块的具体细节已经在对应的点云数据的处理方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

在本公开示例性实施方式中，还提供了一种能够实现上述方法的计算机存储介质。其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图12所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品1200，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图13来描述根据本公开的这种实施方式的电子设备1300。图13显示的电子设备1300仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图13所示，电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于：上述至少一个处理单元1310、上述至少一个存储单元1320、连接不同系统组件(包括存储单元1320和处理单元1310)的总线1330。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1310执行，使得所述处理单元1310执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元1310可以执行如图1中所示的：步骤S110，获取输入点云对应的特征参数；步骤S120，对所述特征参数进行编码处理，以确定所述输入点云对应的编码信息；步骤S130，将所述编码信息输入至文本描述模型中进行解码，以获取所述输入点云对应的文本信息；其中，所述文本描述模型为对所述编码信息进行解码处理的机器学习模型。

存储单元1320可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)13201和/或高速缓存存储单元13202，还可以进一步包括只读存储单元(ROM)13203。

存储单元1320还可以包括具有一组(至少一个)程序模块13205的程序/实用工具13204，这样的程序模块13205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1330可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1300也可以与一个或多个外部设备1400(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1300交互的设备通信，和/或与使得该电子设备1300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1350进行。并且，电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1360通过总线1330与电子设备1300的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种点云数据的处理方法，其特征在于，包括：

获取输入点云对应的特征参数；

对所述特征参数进行编码处理，以确定所述输入点云对应的编码信息；

将所述编码信息输入至文本描述模型中进行解码，以获取所述输入点云对应的文本信息；

2.根据权利要求1所述的方法，其特征在于，所述获取输入点云对应的特征参数，包括：

对所述输入点云中的单帧点云数据进行拆分，以获取第一点云数据与第二点云数据；

获取所述第一点云数据对应的特征参数与所述第二点云数据对应的特征参数；

将所述第一点云数据对应的特征参数与所述第二点云数据对应的特征参数进行合并，以确定所述输入点云对应的特征参数。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一点云数据对应的特征参数与所述第二点云数据对应的特征参数进行合并，以确定所述输入点云对应的特征参数，包括：

将所述第一点云数据对应的特征参数与所述第二点云数据对应的特征参数进行合并，以获取所述单帧点云数据对应的特征参数；

根据所述单帧点云数据对应的特征参数，确定所述输入点云对应的特征参数。

4.根据权利要求1或2所述的方法，其特征在于，所述对所述特征参数进行编码处理，以确定所述输入点云对应的编码信息，包括：

基于注意力机制对所述特征参数进行数值转换，以得到调整参数；

基于循环神经网络对所述调整参数进行数值更新，以确定所述输入点云对应的编码信息。

5.根据权利要求4所述的方法，其特征在于，所述对所述输入点云中的单帧点云数据进行拆分，以获取第一点云数据与第二点云数据，包括：

基于卷积神经网络，对所述输入点云中的单帧点云数据进行拆分，以获取第一点云数据与第二点云数据。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述卷积神经网络，所述循环神经网络以及所述注意力机制构建所述机器学习模型。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取点云样本数据并标注所述点云样本数据对应的文本信息；

根据所述点云样本数据与所述点云样本数据对应的文本信息对所述机器学习模型进行训练，以获取所述文本描述模型。

8.一种点云数据的处理装置，其特征在于，包括：

获取模块，用于获取输入点云对应的特征参数；

编码模块，用于对所述特征参数进行编码处理，以确定所述输入点云对应的编码信息；

解码模块，用于将所述编码信息输入至文本描述模型中进行解码，以获取所述输入点云对应的文本信息；

9.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～7中任意一项所述的点云数据的处理方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～7中任意一项所述的点云数据的处理方法。