CN109753995A

CN109753995A - 一种基于3d目标分类和场景语义分割的网络优化结构

Info

Publication number: CN109753995A
Application number: CN201811535562.0A
Authority: CN
Inventors: 程俊; 张锲石; 王胜文
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-05-14
Anticipated expiration: 2038-12-14
Also published as: WO2020119619A1; CN109753995B

Abstract

本发明涉及机器人与强化学习领域，具体而言，涉及一种基于3D目标分类和场景语义分割的网络优化结构，其在得到点的特征的时候，对每一个点进行打分，分数的高低代表该点对于任务的贡献程度；对分数进行排序，取前N个点(N为想要采样的点的个数)。在进行中心点采样时，所采集得到的点集都是上一层点集的子集，根据这一特性，相同点在每一层中所拥有的特征都不一样，所以在进行下一层特征提取的时候，可以把之前层的位于同一个点的不同特征进行融合，这种融合方式是对指定点的细粒度的特征融合。本发明不仅可以提高PointNet++对物体的分类性能，还可以提高对场景分割的性能。

Description

一种基于3D目标分类和场景语义分割的网络优化结构

技术领域

本发明涉及机器人与强化学习领域，具体而言，涉及一种基于3D目标分类和场景语义分割的网络优化结构。

背景技术

PointNet++是近期提出的用于3D目标分类和场景语义分割的网络结构。虽然它已经取得了比较理想的效果，但仍然存在以下两个问题：

1)PointNet++在选择质心点的时候采用的是最远点采样(FPS)算法，该算法虽然与随机选点相比能更好的覆盖整个数据集，但是它忽略了每个点的特征对分类和分割任务的贡献不同这样一个事实。因此，FPS不能保证所选择的质心点的点集能够正确地表示物体的主体特征；

2)PointNet++中用Multi-scalegrouping(MSG)和Multi-resolution grouping(MRG)解决了点云的密度不均匀难题，但是MSG是对同一层同一点的多尺度特征融合，MRG是对不同层的全局特征融合。这种征融合方式忽视了同一点在不同级别之间的特征。

发明内容

为解决上述背景技术中存在的问题，本发明提出一种基于3D目标分类和场景语义分割的网络优化结构，不仅可以提高PointNet++对物体的分类性能，还可以提高对场景分割的性能。

本发明解决上述问题的技术方案是：一种基于3D目标分类和场景语义分割的网络优化结构，其特殊之处在于，包括以下步骤：

1)构建PS模块

1.1)获取点的特征；

1.2)对每一个点进行打分，分数的高低代表该点对于任务的贡献程度；

1.3)对分数进行排序，取前N个点，其中，所述N为想要采样的点的个数；

2)MLPF特征提取和融合

在进行中心点采样时，所采集得到的点集都是上一层点集的子集，根据这一特性，相同点在每一层中所拥有的特征都不一样，所以在进行下一层特征提取的时候，我们可以把之前层的位于同一个点的不同特征进行融合，这种融合方式是对指定点的细粒度的特征融合。

进一步地，步骤1.2)中，对每一个点进行打分时，是用打分函数α(f_n；θ)对每一个点进行打分，其中f_n∈R^d,n＝1,2,…,N代表d维特征,θ代表学习得到的参数；

在训练该PS模块时，模块的输出为Y:

其中W∈R^M×d,代表最后一层输出层的权重，M是需要预测的类别个数；

在训练的时候，使用crossentropyloss函数来收敛，loss函数公式如下：

L＝-[y*ln^p+(1-y^*)ln^(1-p)] (2)，

其中y^*代表标签，

PS模块使用的是2层的CNN层且每层的卷积核大小都是1x1。

本发明的优点：

1)本发明一种基于3D目标分类和场景语义分割的网络优化结构，其提出一种新的方法选择质心点，对特征提取之前的点进行贡献度的打分，使得选出的点集能体现目标的主体特征；

2)提出了Multi-level-pointfeature(MLPF)结构，MLPF方法可以对每个感兴趣的中心点分别提取不同层级的特征进行融合，虽然MLPF也是利用的不同层级的特征，但是作用对象却是点而不是区域。而且这种特征提取的方法更具有普适性，可以用到其他网络中；

3)另外，提出一种新的特征融合的方式，从而可以提取更细粒度的特征。此外，这两种结构不仅适用于PointNet++，而且可以应用于其他网络结构当中，从而提高网络的整体性能，并且可以有效地防止过拟合问题。所以我们的结构对于场景的目标分类和场景语义分割具有重要的使用和参考价值。

附图说明

图1是本发明实施例提供的PS的结构示意图(点的不同编号代表不同的重要性)；

图2是本发明实施例提供的层级间的中心点的筛选和同一点的特征的多级融合示意图(其中l_i代表第i层的特征)。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

一种基于3D目标分类和场景语义分割的网络优化结构，包括以下步骤：

1)构建PS模块，所述PS模块用新的选点方式Point-selection选择特征点，新的选点方式Point-selection是基于注意力机制的新方法来选择那些对任务有更多贡献的特征点，以便所选择的点集更能代表整个被采样空间，PS模块结构示意图如图1(点的不同编号代表不同的重要性)所示；

1.1)获取点的特征；

1.3)对分数进行排序，取前N个点，其中，所述N为想要采样的点的个数。这样一来，同样取相同个数的点，使用该方法得到的点比FPS算法选取的点集更具代表性，特征更加明显。

2)MLPF特征提取和融合

在进行中心点采样时，所采集得到的点集都是上一层点集的子集，根据这一特性，相同点在每一层中所拥有的特征都不一样，所以在进行下一层特征提取的时候，我们可以把之前层的位于同一个点的不同特征进行融合，这种融合方式是对指定点的细粒度的特征融合，该过程如图2所示：

图2是层级间的中心点的筛选和同一点的特征的多级融合，其中l_i代表第i层的特征。

从图2可以看出，每层特征点集，都是上一层的子集，且同一个点在不同层所包含的特征信息都不太一样，所以我们可以把这些特征进行融合，得到更强大的特征。例如，第l_i+1层包含了3个点：1号点，2号点和3号点。这些点是经过前面两层特征筛选得到的。原始的PointNet++中下一层的点的特征都只与上一层有关，并没有考虑到更前面的特征。相对应图示就是只有l_i-1到l_i和l_i到l_i+1的虚线2，而没有l_i-1到l_i+1的虚线1。我们经过这样多层级的同一点的特征融合达到一种细粒度特征的融合。这样的特征所包含的信息更加丰富。具体流程如下：

其中，C_i代表第i层输出的质心点的集合，表示C_i中第n_j个质心点；而F_i代表C_i中相对应点的特征集合，为点的特征。

在进行第i+1层特征提取的时候，首先会进行第i+1质心点集C_i+1 (其中k＝1，2，…，i)的选取。在得到C_i+1后，我们以C_i+1为索引筛选出C_i+1中点在前i层的特征并进行特征拼接F_fuse：

其中代表C_i+1中的点在第i层中的特征。故最终i+1层的输入为 {C_i+1，F_fuse}，而原始网络中的输入为

在训练该PS模块时，模块的输出为Y:

L＝-y^*ln^p+(1-y^*)ln^(1-p)] (2)

其中y^*代表标签，

PS模块使用的是2层的CNN层且每层的卷积核大小都是1x1。

我们在ModelNet40和ScanNet数据集上进行了一些实验，并与其他先进的方法相比较，结果如表1和表2所示，可以验证本发明优于其他方法。

表1：在ModelNet40数据集上的物体分类结果

方式	Mean loss	Accuracy(％)	Avg.Acc(％)
				Subvolume	-	89.2	86.0
MVCNN	-	90.1	-
				PointNet	0.491	89.2	86.2
PointNet++(SSG)	0.445	90.2	87.9
				Ours(PS)	0.386	90.6	88.1
Ours(MLPF)	0.342	91.1	87.8

表2：在ScanNet数据集上的场景语义分割结果

方式	Accuracy(％)
		3DCNN	73.0
PointNet	73.9
		PointNet++(SSG)	83.3
Ours(MLPF)	85.1

以上所述仅为本发明的实施例，并非以此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的系统领域，均同理包括在本发明的保护范围内。

Claims

1.一种基于3D目标分类和场景语义分割的网络优化结构，其特殊之处在于，包括以下步骤：

1)构建PS模块

1.1)获取点的特征；

2)MLPF特征提取和融合

在进行中心点采样时，所采集得到的点集都是上一层点集的子集，根据这一特性，相同点在每一层中所拥有的特征都不一样，所以在进行下一层特征提取的时候，可以把之前层的位于同一个点的不同特征进行融合，这种融合方式是对指定点的细粒度的特征融合。

2.根据权利要求1所述的一种基于3D目标分类和场景语义分割的网络优化结构，其特殊之处在于：

步骤1.2)中，对每一个点进行打分时，是用打分函数α(f_n；θ)对每一个点进行打分，其中f_n∈R^d,n＝1,2,…,N代表d维特征,θ代表学习得到的参数；

在训练该PS模块时，模块的输出为Y:

L＝-[y^*ln^p+(1-y^*)ln^(1-p)](2)，

其中y^*代表标签，

PS模块使用的是2层的CNN层且每层的卷积核大小都是1x1。