CN110942110A

CN110942110A - 一种三维模型的特征提取方法和装置

Info

Publication number: CN110942110A
Application number: CN201911401118.4A
Authority: CN
Inventors: 牛辰庚; 陈旭晖; 李响
Original assignee: Xinao Shuneng Technology Co Ltd
Current assignee: Xinao Shuneng Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-03-31

Abstract

本发明公开了一种三维模型的特征提取方法和装置，该特征提取方法包括：对三维模型进行预处理获得原始点云数据；将所述原始点云数据作为预先构建的神经网络的输入，获取所述三维模型融合有局部特征的全局特征，具体的为以所述原始点云数据为输入，在预先构建的神经网络中所述原始点云数据经过差异性对称函数处理和姿态转换网络处理分别获得第一局部特征和第二局部特征；将所述第一局部特征与所述第二局部特征整合得到所述三维模型的全局特征。本发明面向三维模型特征提取，解决了三维数据识别、检索和分割等任务精度较低、速度慢的问题。

Description

一种三维模型的特征提取方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种三维模型的特征提取方法和装置。

背景技术

随着信息技术和三维成像技术的快速发展，低成本、小型化三维传感器(Kinect、RealSense、Tango等)可以很好地捕获场景的三维信息，降低了人们以三维的方式获取真实世界信息的门槛。无论是便携式扫描设备还是工业应用中的机器人、无人驾驶汽车，对其获取的三维数据进行处理，本质上是提取三维模型更具鲁棒性、鉴别力、不变性和计算效率的特征。

当前对于获取到的三维数据，更倾向于直接从数据中提取特征，也即以深度学习为工具用数据驱动的方法获取模型的深度特征。这种方法相比于手工设计特征的处理方式，在三维模型识别、三维目标检测以及三维语义分割等任务上更具有普适性和鲁棒性。然而经研究发现，当前诸多方法多为将三维模型转换为多视图或体素等格式进行特征提取，预处理过程复杂且造成了模型结构损失。

又如图1所示现在常用的按照KD树(K-dimension tree)的数据结构进行分割并建立树形索引结构，从而将规范化的数据形式输入到深度网络中，抽取深度特征。该方法由于预处理过程相对复杂以及树形索引结构没有临近点信息的缺陷，导致方法在性能和分割精度上没有取得理想的结果。

又如现在常用的利用MLP(Multi-layer Perceptrons，多层感知器)“普适近似”原理，即具有连续输入和输出的任意函数都可以用多层感知器近似逼近。所以对于三维数据可以先通过多层感知机映射到高维特征空间，然后再将这些特征聚合为全局特征。但是利用多层感知器对三维模型进行处理的方法，其处理过程是对每个点单独进行处理，然后用对称函数进行特征融合。其中缺少了点之间的特征联系，使得全局特征中缺少了局部信息，因此在分割任务上精度较低。

更值得注意的是，在三维目标识别和三维模型分割等任务上，当前相关方法由于速度较慢，精度低且对三维模型要求较高，使得技术落地成为一个难题。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种三维模型的特征提取方法和装置。

第一方面，本发明提供了一种三维模型的特征提取方法，该特征提取方法包括：

对三维模型进行预处理获得原始点云数据；

将所述原始点云数据作为预先构建的神经网络的输入，获取所述三维模型融合有局部特征的全局特征。

可选地，所述对三维模型进行预处理获得原始点云数据，包括：

将所述三维模型的所有点坐标进行归一化到预设区间内。

将所述三维模型沿预设坐标轴进行随机角度的旋转；

对所述三维模型增加均值为0、标准差为预设数值的高斯噪声。

可选地，将所述原始点云数据作为预先构建的神经网络的输入，获取所述三维模型融合有局部特征的全局特征，包括：

以所述原始点云数据为输入，在预先构建的神经网络中所述原始点云数据经过差异性对称函数处理和姿态转换网络处理分别获得第一局部特征和第二局部特征；

将所述第一局部特征与所述第二局部特征整合得到所述三维模型的全局特征。

可选地，以所述原始点云数据为输入，在预先构建的神经网络中所述原始点云数据经过差异性对称函数处理和姿态转换网络处理分别获得第一局部特征和第二局部特征，包括：

以所述原始点云数据为输入，经过仿射变换获得仿射点云数据；

所述仿射点云数据经过至少一个卷积层运算后进行特征变换；

对特征变换后的数据经过差异性对称函数处理获得第一局部特征；

所述仿射点云数据经过姿态转换网络处理获得第二局部特征。

可选地，所述差异性对称函数中一个卷积层运算结果输入到所述姿态转换网络的一个卷积层。

第二方面，本发明提供了一种三维模型的特征提取装置，该特征提取装置包括：预处理模块和特征获取模块，其中，

所述预处理模块，用于对三维模型进行预处理获得原始点云数据；

所述特征获取模块，用于将所述原始点云数据作为预先构建的神经网络的输入，获取所述三维模型融合有局部特征的全局特征。

可选地，所述预处理模块包括归一化单元、旋转单元和加噪单元，其中，所述归一化单元，用于将所述三维模型的所有点坐标进行归一化到预设区间内。

所述旋转单元，用于将所述三维模型沿预设坐标轴进行随机角度的旋转；

所述加噪单元，用于对所述三维模型增加均值为0、标准差为预设数值的高斯噪声。

可选地，所述特征获取模块包括：局部获取单元和整合特征单元，其中，

所述局部获取单元，用于以所述原始点云数据为输入，在预先构建的神经网络中所述原始点云数据经过差异性对称函数处理和姿态转换网络处理分别获得第一局部特征和第二局部特征；

所述整合特征单元，用于将所述第一局部特征与所述第二局部特征整合得到所述三维模型的全局特征。

可选地，所述局部获取单元包括：仿射变换子单元、特征变换子单元、差异性对称函数子单元和姿态转换网络子单元，其中，

所述仿射变换子单元，用于以所述原始点云数据为输入，经过仿射变换获得仿射点云数据；

所述特征变换子单元，用于所述仿射点云数据经过至少一个卷积层运算后进行特征变换；

所述差异性对称函数子单元，用于对特征变换后的数据经过差异性对称函数处理获得第一局部特征；

所述姿态转换网络子单元，用于所述仿射点云数据经过姿态转换网络处理获得第二局部特征。

第三方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述三维模型的特征提取方法。

第四方面，本发明提供了一种计算设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面中任一项所述三维模型的特征提取方法。

与现有技术相比，本发明至少具有以下有益效果：

本发明面向三维模型特征提取，解决了三维数据识别、检索和分割等任务精度较低、速度慢的问题。即以原始点云数据作为输入，构造深度神经网络提取深度特征用于目标识别、模型检索等任务。本发明方法的关键在于深度神经网络模块的设计，借鉴其在三维点云数据特征提取上的一部分网络框架，本发明以记录空间坐标的原始点云数据直接作为网络的输入，学习点云模型的空间编码，然后转换为全局特征描述子用于目标分类和模型分割任务。同时为了增强特征表达能力，将二维空间中处理仿射变换的网络模块拓展到三维空间，进一步提升部分分割和模型语义分割的表现。综合实验分析，本发明采用的方法在精度和性能上有更好的表现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中KD树的数据结构。

图2是本发明一个实施例提供的一种三维模型的特征提取方法流程示意图；

图3是本发明一个实施例提供的一种具有后续流程的三维模型的特征提取方法流程示意图；

图4是本发明一个实施例提供的一种预先构建的神经网络结构示意图；

图5是本发明一个实施例提供的一种目标分类任务网络结构图；

图6是本发明一个实施例提供的鲁棒性测试结构示意图；

图7是本发明一个实施例提供的一种三维模型的特征提取装置结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图2和3所示，本发明实施例提供了一种三维模型的特征提取方法，该方法可以包括以下步骤：

对三维模型进行预处理获得原始点云数据；

在本发明的一个实施例中，所述对三维模型进行预处理获得原始点云数据，包括：

将所述三维模型的所有点坐标进行归一化到预设区间内。

将所述三维模型沿预设坐标轴进行随机角度的旋转；

在该实施例中，归一化的预设区间可以根据需求进行设定，例如将所有点坐标归一化到(-1,1)范围区间。同时为了达到数据增广的目的，可以坐标轴对每个模型进行随机角度的旋转，并且为了增强模型的鲁棒性，对每个模型添加均值为0，标准差为0.02的高斯噪声。高斯噪声的均值和标准差也是可以根据需求进行设定的。

在本发明一个实施例中，将所述原始点云数据作为预先构建的神经网络的输入，获取所述三维模型融合有局部特征的全局特征，包括：

在本发明一个实施例中，以所述原始点云数据为输入，在预先构建的神经网络中所述原始点云数据经过差异性对称函数处理和姿态转换网络处理分别获得第一局部特征和第二局部特征，包括：

在本发明一个实施例中，所述差异性对称函数中一个卷积层运算结果输入到所述姿态转换网络的一个卷积层。

如图4所示，在本发明一个实施例中，深度神经网络(也称深度网络)以原始点云数据为输入，经过5个卷积层，差异性对称函数和姿态转换网络(也称姿态变换网络)处理，将池化特征和姿态特征串联得到最终的全局特征。对于k类三维目标识别任务，深度网络以记录空间信息{x,y,z}的原始点云数据直接作为输入，对每个模型上的点做单独处理，输出对应所属类别概率的k维向量。对于有m个语义标签的三维模型语义分割任务，深度网络以从每个场景目标模型中采样得到的n个点的点云模型作为输入，输出对应每个点语义标签的n×m维特征矩阵。本发明所使用的深度网络可以分为3个部分：深度卷积神经网络单独提取每个点的深度信息，差异性双对称函数提取模型不同显著性特征，空间转换网络预测出姿态变换矩阵，进而融合为带有局部信息的全局特征。

由于集合中的点以记录空间坐标信息、颜色和法向信息的点集形式存在，所以是一种不规则形式的三维数据，不能直接输入到传统卷积深度神经网络。此外，在点云上提取模型特征时还需要考虑到点序对最终特征的影响，避免模型在仿射变换之后产生错误识别，或者模型上的点对应的语义标签发生改变的情况。通过调整深度卷积网络适应点云数据的输入形式，先对模型上的每个点进行处理，然后在得到的特征层面进行点序的处理。

本实施例通过设置卷积核大小为1×1来实现对表示模型的点集的特征提取，即对于点云模型上记录空间坐标等信息的n个点{p₁,p₂,K,p_n|p_i＝(x_i,y_i,z_i)}，深度卷积网络单独将其每个点映射为中层特征K(p₁),K(p₂),K,K(p_n)，为接下来局部拓扑信息处理和全局特征提取做准备。相比于模型表示形式的转换和先对点集进行排序预处理的方式，本发明方法可以充分发挥点云数据本身的优势，同时避免了排序预处理情况下需要考虑n！种不同的组合情况。

在经过深度神经网络的处理之后，可以得到模型上每个点对应的中层特征向量K(p₁),K(p₂),K,K(p_n)，通过训练支持向量机(Support Vector Machine,SVM)分类器或者多层感知器网络可以实现对模型的分类。但是对于点云数据上的语义分割任务，需要模型局部信息和全局信息的融合，也就是需要增加模型局部拓扑信息。在得到的中层点集特征上进行卷积操作可用获得局部拓扑信息，同时容易实现不同尺度的特征融合。但是由于点集的无序性导致需要考虑大量的排列组合情况，多种同类别卷积特征的融合会损失模型识别精度。

对称函数具有输出对输入顺序不变的性质，因此可以用来解决点云模型上特征对点序不变性的问题。并且不同的对称函数代表着不同的输入到输出映射关系，因此可以通过差异性对称函数的结合获得模型不同显著性的特征，增强模型语义分割任务特征的表达能力。本实施例结合3种不同的对称函数进行对比实验，最终选择最大池化和平均池化特征相结合作为模型最终的全局特征。从函数逼近的角度看，对于从深度网络中得到的中层特征K(p₁),K(p₂),K,K(p_n)，假设

为2种差异性对称函数，那么可以得到：

其中，{f₁,f₂,…,f_n}为点集映射得到的高层全局特征。

现有方法中使用模型全局特征和网络中间层的点特征进行串联用于进行后续的分割任务，但是由于特征不够精细且缺少局部上下文信息，容易产生失真的情况，并且在细粒度模式识别和复杂场景的识别问题上效果不佳。后续的工作增加模型输入到深度网络前的预处理步骤来解决缺少局部上下文信息的问题。但是重复进行最远点采样、采样点聚集和调用现有方法网络提取特征，一定程度上增大了问题复杂度，同时在不同尺度、不同密度下非端到端地使用现有方法网络提取高层特征也增加了时间开销。

本发明上述得到的结果融入了更多不同显著性信息的全局特征，在模型分类任务精度上相较于现有方法有一定的提高。

如图5所示，本实施例中姿态转换网络包含了3个卷积层和2个全连接层用来从点云数据中预测出变换矩阵，将点集映射到对姿态不变的空间同时获得点之间局部拓扑联系。其中输入点集大小为B×N×k，B为输入模型个数，N为每个模型采样点个数，k为输入特征维度，在模型识别任务中取k＝3，语义分割任务中取k＝9。由于增加了新的局部网络模块，且姿态变换矩阵较于网络输入层的仿射变换矩阵维度较高(3×3～32×32/64×64)，不易进行优化调整，所以在网络损失定义中增加正则项，使得对齐矩阵趋向于正交阵，即

其中，P为姿态对齐网络输出对齐矩阵。正交阵不会损失输入信息，并且损失中增加正则项提高优化速度的同时也带来了一定程度上精度的提升。

本发明实施例并做了对照实验，①融入双对称函数的深度网络在三维目标识别任务上测试；②加入姿态转换网络和双对称函数的深度网络在三维模型语义分割任务上进行的测试；③网络鲁棒性测试以及相关对比实验；④对实验结果的可视化和相关分析。本发明实验所用数据集通过在三维面片模型表面采样取点的方式得到，将三维模型表示为记录空间坐标信息和表面颜色、法向信息的一系列三维点集{p_i|i＝1,2,…,n}的集合。本实施例实验环境配置为英特尔Xeon E5-2675处理器，128G运行内存，Titan Xp 12G显存显卡。

对于三维目标识别任务，本实施例充分利用端到端的深度网络学习到具有不同显著性的模型特征，并在ModelNet40模型分类数据集上进行测试。ModelNet40模型库包含40类12311个CAD模型，其中训练集有9843个模型，测试集有2468个模型。2017年之前的大部分工作是转换模型表达方式，以视图或者体素化的三维模型作为处理对象，本实施例是基于点云数据进行实验。

本实施例对于所有模型在表面按照面积的不同均匀地采集1024个点，每个点记录空间坐标信息，且为了便于训练将所有点的坐标标准化到单元球中。在训练阶段，为了增强网络对模型仿射变换的特征不变性以及增加训练数据，对训练集模型进行随机角度的沿Z轴旋转以及添加均值为零，方差0.03的高斯噪声。实验中设置dropout参数为0.7，实验结果对比见表1。

表1 目标识别任务实验对比

本发明方法同之前基于体素的基准方法有了4.5％的精度提升，取得了最佳的结果。并且由于本发明采用端到端的方式对模型进行处理，网络主要结构为处理点云空间坐标信息的卷积，双对称函数映射模块和全连接，可以通过GPU进行高效的并行计算。相比于在点云数据上提取手工特征(点云密度，测地线距离等)再利用多层感知器提取深度特征的方式(表1中MLP方法)以及通过PointNet提取模型全局特征的方法，本发明的方法取得了最佳的效果。

相比于模型分类任务，三维模型语义分割需要输入更为精细的点特征，因此是一项更具有挑战性的细粒度任务。本发明方法中结合姿态估计网络(姿态转换网络)和多层感知器网络对原始点云数据进行处理，同目标识别任务采用相似的方法在每个三维模型表面均匀地采集4096个点，并且将每个点对应的RGB值和法向信息同空间坐标统一作为本发明深度网络的输入。

本实施例在斯坦福大学三维语义分割标准数据集上进行实验。该数据集包含了6个区域271个房间的Matterport扫描数据，其中所有的点标注为桌子、地板、墙壁等13个类别。在网络训练阶段，将所有点按照房间编号分开，并且将每个房间划分为棱长1m的小区域。语义分割网络将整个区域的点云数据作为输入，输出每个区域中点的类别信息。

将本发明语义分割结果与其余三种方法分割结果通过平均交并比和整体精度的评价指标进行比较，实验结果如表2所示。其中MLP方法为首先在点云数据上提取手工特征，然后通过多层感知器网络获得语义分割特征。本发明方法相比于MLP方法在平均交并比和整体分类精度指标上产生了巨大的提升。并且相比于PointNet，由于更好的融入了局部拓扑信息，精度提高了6.64％。同PointNet++相比，由于本发明采用端到端方式的处理，在训练时间上缩短了20％。

表2 分割结果

方法	mean loU	overall accuracy
			MLP	20.12	53.19
PointNet[1]	47.71	78.62
			PointNet++[2]	-	83.34
本发明方法	50.11	82.26

为了验证本发明深度网络对于模型采样点个数的鲁棒性，随机丢弃测试集50％,75％,87.5％的采样点，最终在ModelNet40上测试结果如图6所示。即在只保留256个采样点的条件下，本发明深度网络依然可以达到85.3％的识别精度。

本发明通过深度网络端到端处理三维点云模型的方法，在目标识别和模型分割精度上有所提升，同时降低了模型训练时间和复杂度。利用多层感知机网络单独地提取三维点云模型那个每个点的深度特征，然后引入与空间转换网络(Spatial TransformerNetworks，STN)相似的网络结构模块学习模型的拓扑信息，同时利用双对称函数对点集特征进行编码，消除点序对全局特征的影响并且进一步产生更有鉴别力和稳健性更强的深度特征。

如图7所示，本发明提供了一种三维模型的特征提取装置，该特征提取装置包括：预处理模块和特征获取模块，其中，

在本发明一个实施例中，所述特征获取模块包括：局部获取单元和整合特征单元，其中，

在本发明一个实施例中，所述局部获取单元包括：仿射变换子单元、特征变换子单元、差异性对称函数子单元和姿态转换网络子单元，其中，

上述装置内的各模块和单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述三维模型的特征提取方法。

计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明还提供了一种计算设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面中任一项所述三维模型的特征提取方法。

本公开实施例的计算设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种三维模型的特征提取方法，其特征在于，该特征提取方法包括：

对三维模型进行预处理获得原始点云数据；

2.根据权利要求1所述三维模型的特征提取方法，其特征在于，所述对三维模型进行预处理获得原始点云数据，包括：

将所述三维模型的所有点坐标进行归一化到预设区间内。

将所述三维模型沿预设坐标轴进行随机角度的旋转；

3.根据权利要求1所述三维模型的特征提取方法，其特征在于，将所述原始点云数据作为预先构建的神经网络的输入，获取所述三维模型融合有局部特征的全局特征，包括：

4.根据权利要求3所述三维模型的特征提取方法，其特征在于，以所述原始点云数据为输入，在预先构建的神经网络中所述原始点云数据经过差异性对称函数处理和姿态转换网络处理分别获得第一局部特征和第二局部特征，包括：

5.根据权利要求4所述三维模型的特征提取方法，其特征在于，所述差异性对称函数中一个卷积层运算结果输入到所述姿态转换网络的一个卷积层。

6.一种三维模型的特征提取装置，其特征在于，该特征提取装置包括：预处理模块和特征获取模块，其中，

7.根据权利要求6所述三维模型的特征提取装置，其特征在于，所述预处理模块包括归一化单元、旋转单元和加噪单元，其中，

所述归一化单元，用于将所述三维模型的所有点坐标进行归一化到预设区间内。

8.根据权利要求6所述三维模型的特征提取装置，其特征在于，所述特征获取模块包括：局部获取单元和整合特征单元，其中，

9.根据权利要求8所述三维模型的特征提取装置，其特征在于，所述局部获取单元包括：仿射变换子单元、特征变换子单元、差异性对称函数子单元和姿态转换网络子单元，其中，

10.根据权利要求9所述三维模型的特征提取装置，其特征在于，所述差异性对称函数中一个卷积层运算结果输入到所述姿态转换网络的一个卷积层。