CN110633640A

CN110633640A - 优化PointNet对于复杂场景的识别方法

Info

Publication number: CN110633640A
Application number: CN201910744339.5A
Authority: CN
Inventors: 颜成钢; 郭凡锋; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-12-31

Abstract

本发明公开了一种优化PointNet对于复杂场景的识别方法。本方法提出用金字塔池化模块优化PointNet在复杂场景中的识别能力。将经过PointNet处理后得到的特征向量接入金字塔池化模块。金字塔池化模块能改善复杂场景解析中的开放词汇对象和填充识别的性能。利用全局文本信息基于不同区域的上下文聚合的能力。我们的全局先验表示对于在场景解析任务中产生高质量结果是有效的，对于复杂场景解析金字塔模块为整体场景解释提供了良好的描述，知识图依赖于场景上下文的先验信息，而金字塔池化模块能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。因此金字塔模块的加入能让对于在三维空间中的对象分类，部分分割和语义分割等任务具有更高的准确度。

Description

优化PointNet对于复杂场景的识别方法

技术领域

本发明属于图像检索领域，涉及一种优化PointNet对于复杂场景的识别方法。

背景技术

随着互联网及深度学习的快速发展，我们对二维图像已经有了大量研究，但是对于3D点云，任然对我们是一个挑战。3D点云数据是一种无序的点集，典型的卷积结构需要高度规则的输入数据格式，所以我们要将将这些数据转换为常规3D体素网格或图像集合(例如视图)，然后将其提供给深网络体系结构。然而，这种数据表示变换使得得到的数据不必要地大量增加。同时引入了可以模糊数据的自然不变性的定量化伪像。PointNet网络直接将点云作为输入并输出整个输入的类标签或输入的每个点的每个点段/部件标签。从这一点上来说，PointNet具有极其重要的意义。在处理一些复杂场景的识别任务中，先验信息有着至关重要的地位。例如：不匹配的关系语境，由于缺乏可靠性选择的背景信息可能会造成预测错误，若提前告知当前语境则可以很容易避免该错误。不显眼的类场景包含任意大小的对象，这些细节对于复杂场景的识别也很重要，在没有先验信息的辅助下可能无法解析出细节的对象。总结这些观察结果，许多错误与不同接收领域的背景关系和全球信息部分或完全相关。因此，具有合适的全局场景级先验的深度网络可以大大提高场景解析的性能。金字塔池化模块(pyramid pooling module)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。为了结合合适的全局特征，我们引入了金字塔场景解析模块(PyramidPooling Module)。

发明内容

本发明的目的是对于PointNet在复杂场景中的识别能力的优化，PointNet能够很好的处理三维空间中的点云数据，但是由于PointNet只捕获由度量空间点引起的局部结构，限制了它识别细粒度图案和泛化到复杂场景的能力。基于此，提出了PointNet网络与金字塔池化模块(Pyramid Pooling Module)相结合的方法，优化PointNet网络对于复杂场景中的识别能力。

本发明解决其技术问题所采用的技术方案如下：

步骤1、将原始的点云数据输入到PointNet网络中，并将点云数据的n个点的三维点云作为输入，即：

N1＝3×n；其中，N1为三维点云个数，n为点云数据中点的个数；

步骤2、对原始的点云数据应用第一次输入变换，通过一个3D空间变换矩阵预测网络T-Net(3)实现数据的对齐。对齐之后通过卷积层进行特征提取，对齐后的数据会以点为单位，通过一个共享参数的双层感知机模型(mlp)进行特征提取。

步骤3、对步骤2提取出的特征应用第二次输入变换，通过特征空间变换矩阵预测网络T-Net(64)实现特征的对齐。对齐之后通过卷积层进行特征提取，即同步骤2一样利用三层感知机(mlp)进行特征提取，得到维度为1024的特征。

步骤4、把提取出的特征在特征空间的维度上进行最大池化聚合，提取出点云数据的全局特征向量图。

步骤5、将提取出的全局特征向量图输入到金字塔模块中，为了充分获取全局信息，对输入的全局特征向量图进行全局平均池化处理，获取处理后的全局特征向量图。

步骤6、利用金字塔模块(Pyramid Pooling Module)来收集全局特征向量图中不同的子区域的特征表示，即用金字塔模块的不同等级将特征向量图分为不同的级别，例如第一级别不将特征向量图分解，第二级别将特征向量图分为四块，不同级别的输出包含具有不同大小的特征映射。为了维持全局特征的权值，在每一级别使用一个1×1卷积层来降低维度。

步骤7、对低维特征向量图进行上采样，使其和原始输入特征图尺寸一样大小。最后将不同级别的特征向量图相连接。

步骤8、最后通过一个卷积层得到最终输出的预测图。

本发明的特点及有益效果：

本发明实现了一种在三维空间中处理3D识别任务，包括对象分类，部分分割和语义分割等任务。点云是三维空间中的重要数据，由于其不规则的格式，大多数研究人员改变了这些数据的三维图像或图像。然而，这会使数据不必要地大量增加并导致计算量过大，像素点失真问题，同时引入了可以模糊数据的自然不变性的定量化伪像。出于这个原因我们只使用点云来关注3D几何的不同输入表示。本方法引用了PointNet网络来直接处理点云数据。PointNet是一种直接消耗点云的新型神经网络，它很好地尊重了输入点的置换不变性，为对象分类，部分分割到场景语义分析等各种应用提供统一的架构。PointNet有三大模块：最大池层作为对称函数，用于聚合来自所有点的信息，本地和全局信息组合结构，以及两个对齐输入点和点要素的联合对齐网络。解决了点云数据输入的无序性，本地和全局信息聚合，三维图像旋转的不变性三个问题。根据实验数据验证了PointNet非常有效且高效。但PointNet不捕获由度量空间点引起的局部结构，限制了它识别细粒度图案和泛化到复杂场景的能力。本方法提出用金字塔池化模块(Pyramid Pooling Module)优化PointNet在复杂场景中的识别能力。我们把经过PointNet处理后得到的特征向量接入金字塔池化模块。金字塔池化模块能改善复杂场景解析中的开放词汇对象和填充识别的性能。利用全局文本信息基于不同区域的上下文聚合的能力。我们的全局先验表示对于在场景解析任务中产生高质量结果是有效的，对于复杂场景解析金字塔模块为整体场景解释提供了良好的描述，知识图依赖于场景上下文的先验信息，而金字塔池化模块能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。因此金字塔模块的加入能让对于在三维空间中的对象分类，部分分割和语义分割等任务具有更高的准确度。

附图说明

图1为本发明流程图

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1所示，本发明实现了一种在三维空间中处理3D识别任务，包括对象分类，部分分割和语义分割等任务，具体实现步骤如下：

S1、输入数据：将点云数据的n个点的三维点云(n*3)作为输入。

S2、通过迷你网络(T-net)预测一个有效的变换矩阵，并直接将这种变换应用于输入点的坐标。进行输入变化，对空间中的点云(无序向量)进行调整，旋转出一个更利于予以分割的角度。输入点云数据，首先进行T-Net进行仿射变换，具体表现为原始数据通过一个3D空间变换矩阵预测网络T-Net(3)，估计出3x3的变换矩阵T(3)并作用在原始数据上，实现数据的对齐。对齐后的数据会以点为单位，通过一个共享参数的双层感知机模型进行特征提取。

S3、进行相同的特征变换，具体操作为乘以64*64的转换矩阵，随后通过卷积层进行特征提取，对提取出的64维特征进行对齐，即在特征层面对点云进行变换。以上两部能解决3维图像在空间中旋转的不变性，当我们进行例如旋转、上移等操作时，不论是目标分类还是部分分割，都应保证其结果不变。经过两个空间变换网络和两个mlp神经网络之后，对每一个点提取1024维特征，经过变成1x1024的全局特征。其中，mlp是通过共享权重的卷积实现的，第一层卷积核大小是1x3，之后的每一层卷积核大小都是1x1。

S4、通过最大池化聚合点特征，网络对每个点进行了一定程度的特征提取之后，最大池化可以对点云的整体提取出全局特征。PointNet中，作者使用了Max Pooling层做为主要的对称函数。为了解决点云数据的无序性，PointNet使用简单对称函数来聚合每个点的信息。对称函数将n个向量作为输入，并输出对输入顺序不变的新向量。PointNet中+是通过在集合中应用非对称函数转换元素来近似定义a point set上的一般函数：

f({x₁,…,x_n})≈g(h(x₁),…,h(x_n)) (1)

是对称函数

h表示特征提取层，g为对称方法；

S5、随后将全局特征生成特征图作为金字塔池化模块(Pyramid Pooling Module)的输入，将提取出的特征值向量输入到金字塔模块中，为了充分获取全局信息，对输入的特征向量图进行全局平均池化处理。

S6、使用金字塔池模块来收集上下文信息。使用我们的4级金字塔，池化内核覆盖图像的整个，一半和一小部分。它们融合为全球先验。该模块融合了4种不同金字塔尺度的特征，第一行红色是最粗糙的特征–全局池化生成单个bin输出，后面三行是不同尺度的池化特征。为了保持全局特征的权重，我们在每个金字塔等级之后使用1×1卷积层，以便在金字塔的等级大小为N的情况下将上下文表示的维度减少到原始值的1/N；最后，不同级别的特征被连接为最终的金字塔汇集全局特征。

S7、然后我们直接上采样低维特征映射到目标特征映射特征映射随机插值。最后将经过金字塔池化模块的得到的特征向量图与在上采样与池化前的特征向量图相连接。

S8、最后来再通过一层卷积层输出最终预测图。

Claims

1.优化PointNet对于复杂场景的识别方法，其特征在于包括如下步骤：

步骤2、对原始的点云数据应用第一次输入变换，通过一个3D空间变换矩阵预测网络T-Net(3)实现数据的对齐；对齐之后通过卷积层进行特征提取，对齐后的数据会以点为单位，通过一个共享参数的双层感知机模型进行特征提取；

步骤3、对步骤2提取出的特征应用第二次输入变换，通过特征空间变换矩阵预测网络T-Net实现特征的对齐；对齐之后通过卷积层进行特征提取，即同步骤2一样利用三层感知机进行特征提取，得到维度为1024的特征；

步骤4、把提取出的特征在特征空间的维度上进行最大池化聚合，提取出点云数据的全局特征向量图；

步骤5、将提取出的全局特征向量图输入到金字塔模块中，为了充分获取全局信息，对输入的全局特征向量图进行全局平均池化处理，获取处理后的全局特征向量图；

步骤6、利用金字塔模块来收集全局特征向量图中不同的子区域的特征表示，即用金字塔模块的不同等级将特征向量图分为不同的级别：第一级别不将特征向量图分解，第二级别将特征向量图分为四块，不同级别的输出包含具有不同大小的特征映射；为了维持全局特征的权值，在每一级别使用一个1×1卷积层来降低维度；

步骤7、对低维特征向量图进行上采样，使其和原始输入特征图尺寸一样大小；最后将不同级别的特征向量图相连接；

步骤8、最后通过一个卷积层得到最终输出的预测图。