CN109753995A - 一种基于3d目标分类和场景语义分割的网络优化结构 - Google Patents

一种基于3d目标分类和场景语义分割的网络优化结构 Download PDF

Info

Publication number
CN109753995A
CN109753995A CN201811535562.0A CN201811535562A CN109753995A CN 109753995 A CN109753995 A CN 109753995A CN 201811535562 A CN201811535562 A CN 201811535562A CN 109753995 A CN109753995 A CN 109753995A
Authority
CN
China
Prior art keywords
point
layer
feature
module
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811535562.0A
Other languages
English (en)
Other versions
CN109753995B (zh
Inventor
程俊
张锲石
王胜文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201811535562.0A priority Critical patent/CN109753995B/zh
Publication of CN109753995A publication Critical patent/CN109753995A/zh
Priority to PCT/CN2019/123947 priority patent/WO2020119619A1/zh
Application granted granted Critical
Publication of CN109753995B publication Critical patent/CN109753995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及机器人与强化学习领域,具体而言,涉及一种基于3D目标分类和场景语义分割的网络优化结构,其在得到点的特征的时候,对每一个点进行打分,分数的高低代表该点对于任务的贡献程度;对分数进行排序,取前N个点(N为想要采样的点的个数)。在进行中心点采样时,所采集得到的点集都是上一层点集的子集,根据这一特性,相同点在每一层中所拥有的特征都不一样,所以在进行下一层特征提取的时候,可以把之前层的位于同一个点的不同特征进行融合,这种融合方式是对指定点的细粒度的特征融合。本发明不仅可以提高PointNet++对物体的分类性能,还可以提高对场景分割的性能。

Description

一种基于3D目标分类和场景语义分割的网络优化结构
技术领域
本发明涉及机器人与强化学习领域,具体而言,涉及一种基于3D目标分类 和场景语义分割的网络优化结构。
背景技术
PointNet++是近期提出的用于3D目标分类和场景语义分割的网络结构。虽 然它已经取得了比较理想的效果,但仍然存在以下两个问题:
1)PointNet++在选择质心点的时候采用的是最远点采样(FPS)算法,该算 法虽然与随机选点相比能更好的覆盖整个数据集,但是它忽略了每个点的特征 对分类和分割任务的贡献不同这样一个事实。因此,FPS不能保证所选择的质心 点的点集能够正确地表示物体的主体特征;
2)PointNet++中用Multi-scalegrouping(MSG)和Multi-resolution grouping(MRG)解决了点云的密度不均匀难题,但是MSG是对同一层同一点的多尺度特 征融合,MRG是对不同层的全局特征融合。这种征融合方式忽视了同一点在不 同级别之间的特征。
发明内容
为解决上述背景技术中存在的问题,本发明提出一种基于3D目标分类和场 景语义分割的网络优化结构,不仅可以提高PointNet++对物体的分类性能,还可 以提高对场景分割的性能。
本发明解决上述问题的技术方案是:一种基于3D目标分类和场景语义分割 的网络优化结构,其特殊之处在于,包括以下步骤:
1)构建PS模块
1.1)获取点的特征;
1.2)对每一个点进行打分,分数的高低代表该点对于任务的贡献程度;
1.3)对分数进行排序,取前N个点,其中,所述N为想要采样的点的个 数;
2)MLPF特征提取和融合
在进行中心点采样时,所采集得到的点集都是上一层点集的子集,根据这 一特性,相同点在每一层中所拥有的特征都不一样,所以在进行下一层特征提 取的时候,我们可以把之前层的位于同一个点的不同特征进行融合,这种融合 方式是对指定点的细粒度的特征融合。
进一步地,步骤1.2)中,对每一个点进行打分时,是用打分函数α(fn;θ)对 每一个点进行打分,其中fn∈Rd,n=1,2,…,N代表d维特征,θ代表学习得到的 参数;
在训练该PS模块时,模块的输出为Y:
其中W∈RM×d,代表最后一层输出层的权重,M是需要预测的类别个数;
在训练的时候,使用crossentropyloss函数来收敛,loss函数公式如下:
L=-[y*lnp+(1-y*)ln(1-p)] (2),
其中y*代表标签,
PS模块使用的是2层的CNN层且每层的卷积核大小都是1x1。
本发明的优点:
1)本发明一种基于3D目标分类和场景语义分割的网络优化结构,其提出 一种新的方法选择质心点,对特征提取之前的点进行贡献度的打分,使得选出 的点集能体现目标的主体特征;
2)提出了Multi-level-pointfeature(MLPF)结构,MLPF方法可以对每个 感兴趣的中心点分别提取不同层级的特征进行融合,虽然MLPF也是利用的不 同层级的特征,但是作用对象却是点而不是区域。而且这种特征提取的方法更 具有普适性,可以用到其他网络中;
3)另外,提出一种新的特征融合的方式,从而可以提取更细粒度的特征。 此外,这两种结构不仅适用于PointNet++,而且可以应用于其他网络结构当中, 从而提高网络的整体性能,并且可以有效地防止过拟合问题。所以我们的结构 对于场景的目标分类和场景语义分割具有重要的使用和参考价值。
附图说明
图1是本发明实施例提供的PS的结构示意图(点的不同编号代表不同的重 要性);
图2是本发明实施例提供的层级间的中心点的筛选和同一点的特征的多级 融合示意图(其中li代表第i层的特征)。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发 明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述, 显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。 基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下 所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图 中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范 围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域 普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属 于本发明保护的范围。
一种基于3D目标分类和场景语义分割的网络优化结构,包括以下步骤:
1)构建PS模块,所述PS模块用新的选点方式Point-selection选择特征点, 新的选点方式Point-selection是基于注意力机制的新方法来选择那些对任务有更 多贡献的特征点,以便所选择的点集更能代表整个被采样空间,PS模块结构示 意图如图1(点的不同编号代表不同的重要性)所示;
1.1)获取点的特征;
1.2)对每一个点进行打分,分数的高低代表该点对于任务的贡献程度;
1.3)对分数进行排序,取前N个点,其中,所述N为想要采样的点的个 数。这样一来,同样取相同个数的点,使用该方法得到的点比FPS算法选取的 点集更具代表性,特征更加明显。
2)MLPF特征提取和融合
在进行中心点采样时,所采集得到的点集都是上一层点集的子集,根据这 一特性,相同点在每一层中所拥有的特征都不一样,所以在进行下一层特征提 取的时候,我们可以把之前层的位于同一个点的不同特征进行融合,这种融合 方式是对指定点的细粒度的特征融合,该过程如图2所示:
图2是层级间的中心点的筛选和同一点的特征的多级融合,其中li代表第i层 的特征。
从图2可以看出,每层特征点集,都是上一层的子集,且同一个点在不同 层所包含的特征信息都不太一样,所以我们可以把这些特征进行融合,得到更 强大的特征。例如,第li+1层包含了3个点:1号点,2号点和3号点。这些点 是经过前面两层特征筛选得到的。原始的PointNet++中下一层的点的特征都只与 上一层有关,并没有考虑到更前面的特征。相对应图示就是只有li-1到li和li到li+1的虚线2,而没有li-1到li+1的虚线1。我们经过这样多层级的同一点的特征融合 达到一种细粒度特征的融合。这样的特征所包含的信息更加丰富。具体流程如 下:
其中,Ci代表第i层输出的质心点的集合,表示Ci中第nj个质心点;而Fi代 表Ci中相对应点的特征集合,为点的特征。
在进行第i+1层特征提取的时候,首先会进行第i+1质心点集Ci+1 (其中k=1,2,…,i)的选取。在得到Ci+1后,我们以Ci+1为索 引筛选出Ci+1中点在前i层的特征并进行特征拼接Ffuse
其中代表Ci+1中的点在第i层中的特征。故最终i+1层的输入为 {Ci+1,Ffuse},而原始网络中的输入为
进一步地,步骤1.2)中,对每一个点进行打分时,是用打分函数α(fn;θ)对 每一个点进行打分,其中fn∈Rd,n=1,2,…,N代表d维特征,θ代表学习得到的 参数;
在训练该PS模块时,模块的输出为Y:
其中W∈RM×d,代表最后一层输出层的权重,M是需要预测的类别个数;
在训练的时候,使用crossentropyloss函数来收敛,loss函数公式如下:
L=-y*lnp+(1-y*)ln(1-p)] (2)
其中y*代表标签,
PS模块使用的是2层的CNN层且每层的卷积核大小都是1x1。
我们在ModelNet40和ScanNet数据集上进行了一些实验,并与其他先进的方 法相比较,结果如表1和表2所示,可以验证本发明优于其他方法。
表1:在ModelNet40数据集上的物体分类结果
方式 Mean loss Accuracy(%) Avg.Acc(%)
Subvolume - 89.2 86.0
MVCNN - 90.1 -
PointNet 0.491 89.2 86.2
PointNet++(SSG) 0.445 90.2 87.9
Ours(PS) 0.386 90.6 88.1
Ours(MLPF) 0.342 91.1 87.8
表2:在ScanNet数据集上的场景语义分割结果
方式 Accuracy(%)
3DCNN 73.0
PointNet 73.9
PointNet++(SSG) 83.3
Ours(MLPF) 85.1
以上所述仅为本发明的实施例,并非以此限制本发明的保护范围,凡是利 用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运 用在其他相关的系统领域,均同理包括在本发明的保护范围内。

Claims (2)

1.一种基于3D目标分类和场景语义分割的网络优化结构,其特殊之处在于,包括以下步骤:
1)构建PS模块
1.1)获取点的特征;
1.2)对每一个点进行打分,分数的高低代表该点对于任务的贡献程度;
1.3)对分数进行排序,取前N个点,其中,所述N为想要采样的点的个数;
2)MLPF特征提取和融合
在进行中心点采样时,所采集得到的点集都是上一层点集的子集,根据这一特性,相同点在每一层中所拥有的特征都不一样,所以在进行下一层特征提取的时候,可以把之前层的位于同一个点的不同特征进行融合,这种融合方式是对指定点的细粒度的特征融合。
2.根据权利要求1所述的一种基于3D目标分类和场景语义分割的网络优化结构,其特殊之处在于:
步骤1.2)中,对每一个点进行打分时,是用打分函数α(fn;θ)对每一个点进行打分,其中fn∈Rd,n=1,2,…,N代表d维特征,θ代表学习得到的参数;
在训练该PS模块时,模块的输出为Y:
其中W∈RM×d,代表最后一层输出层的权重,M是需要预测的类别个数;
在训练的时候,使用crossentropyloss函数来收敛,loss函数公式如下:
L=-[y*lnp+(1-y*)ln(1-p)](2),
其中y*代表标签,
PS模块使用的是2层的CNN层且每层的卷积核大小都是1x1。
CN201811535562.0A 2018-12-14 2018-12-14 一种基于PointNet++的3D点云目标分类和语义分割网络的优化方法 Active CN109753995B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811535562.0A CN109753995B (zh) 2018-12-14 2018-12-14 一种基于PointNet++的3D点云目标分类和语义分割网络的优化方法
PCT/CN2019/123947 WO2020119619A1 (zh) 2018-12-14 2019-12-09 一种基于3d目标分类和场景语义分割的网络优化结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811535562.0A CN109753995B (zh) 2018-12-14 2018-12-14 一种基于PointNet++的3D点云目标分类和语义分割网络的优化方法

Publications (2)

Publication Number Publication Date
CN109753995A true CN109753995A (zh) 2019-05-14
CN109753995B CN109753995B (zh) 2021-01-01

Family

ID=66403851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811535562.0A Active CN109753995B (zh) 2018-12-14 2018-12-14 一种基于PointNet++的3D点云目标分类和语义分割网络的优化方法

Country Status (2)

Country Link
CN (1) CN109753995B (zh)
WO (1) WO2020119619A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210431A (zh) * 2019-06-06 2019-09-06 上海黑塞智能科技有限公司 一种基于点云语义标注和优化的点云分类方法
CN110245709A (zh) * 2019-06-18 2019-09-17 西安电子科技大学 基于深度学习和自注意力的3d点云数据语义分割方法
CN110837811A (zh) * 2019-11-12 2020-02-25 腾讯科技(深圳)有限公司 语义分割网络结构的生成方法、装置、设备及存储介质
WO2020119619A1 (zh) * 2018-12-14 2020-06-18 中国科学院深圳先进技术研究院 一种基于3d目标分类和场景语义分割的网络优化结构
CN112085123A (zh) * 2020-09-25 2020-12-15 北方民族大学 基于显著点采样的点云数据分类和分割方法
CN112818999A (zh) * 2021-02-10 2021-05-18 桂林电子科技大学 一种基于卷积神经网络的复杂场景3d点云语义分割方法
US11295170B1 (en) 2021-08-17 2022-04-05 FPT USA Corp. Group-equivariant convolutional neural networks for 3D point clouds

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850816B (zh) * 2020-06-28 2024-06-21 中国人民解放军空军军医大学 一种宫颈癌mri图像的分割装置及方法
CN112257597B (zh) * 2020-10-22 2024-03-15 中国人民解放军战略支援部队信息工程大学 一种点云数据的语义分割方法
CN114419372A (zh) * 2022-01-13 2022-04-29 南京邮电大学 一种多尺度点云分类方法及系统
CN114241110B (zh) * 2022-02-23 2022-06-03 北京邮电大学 基于邻域聚合蒙特卡罗失活的点云语义不确定度感知方法
CN117078923B (zh) * 2023-07-19 2024-07-16 苏州大学 面向自动驾驶环境的语义分割自动化方法、系统及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372111A (zh) * 2016-08-22 2017-02-01 中国科学院计算技术研究所 局部特征点筛选方法及系统
CN106815604A (zh) * 2017-01-16 2017-06-09 大连理工大学 基于多层信息融合的注视点检测方法
CN108596924A (zh) * 2018-05-17 2018-09-28 南方医科大学 一种基于距离场融合和椭球先验的mr前列腺图像分割方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564097B (zh) * 2017-12-05 2020-09-22 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108345887B (zh) * 2018-01-29 2020-10-02 清华大学深圳研究生院 图像语义分割模型的训练方法及图像语义分割方法
CN108509949B (zh) * 2018-02-05 2020-05-15 杭州电子科技大学 基于注意力地图的目标检测方法
CN109753995B (zh) * 2018-12-14 2021-01-01 中国科学院深圳先进技术研究院 一种基于PointNet++的3D点云目标分类和语义分割网络的优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372111A (zh) * 2016-08-22 2017-02-01 中国科学院计算技术研究所 局部特征点筛选方法及系统
CN106815604A (zh) * 2017-01-16 2017-06-09 大连理工大学 基于多层信息融合的注视点检测方法
CN108596924A (zh) * 2018-05-17 2018-09-28 南方医科大学 一种基于距离场融合和椭球先验的mr前列腺图像分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHARLES R QI等: ""PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space"", 《HTTPS://ARXIV.ORG/PDF/1706.02413.PDF》 *
杜军平 等: "《多源运动图像的跨尺度融合研究》", 30 June 2018, 北京邮电大学出版社 *
甄志龙: "《文本分类中的特征选择方法研究》", 30 November 2016, 吉林大学出版社 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119619A1 (zh) * 2018-12-14 2020-06-18 中国科学院深圳先进技术研究院 一种基于3d目标分类和场景语义分割的网络优化结构
CN110210431A (zh) * 2019-06-06 2019-09-06 上海黑塞智能科技有限公司 一种基于点云语义标注和优化的点云分类方法
CN110245709A (zh) * 2019-06-18 2019-09-17 西安电子科技大学 基于深度学习和自注意力的3d点云数据语义分割方法
CN110245709B (zh) * 2019-06-18 2021-09-03 西安电子科技大学 基于深度学习和自注意力的3d点云数据语义分割方法
CN110837811A (zh) * 2019-11-12 2020-02-25 腾讯科技(深圳)有限公司 语义分割网络结构的生成方法、装置、设备及存储介质
CN112085123A (zh) * 2020-09-25 2020-12-15 北方民族大学 基于显著点采样的点云数据分类和分割方法
CN112818999A (zh) * 2021-02-10 2021-05-18 桂林电子科技大学 一种基于卷积神经网络的复杂场景3d点云语义分割方法
CN112818999B (zh) * 2021-02-10 2022-10-28 桂林电子科技大学 一种基于卷积神经网络的复杂场景3d点云语义分割方法
US11295170B1 (en) 2021-08-17 2022-04-05 FPT USA Corp. Group-equivariant convolutional neural networks for 3D point clouds

Also Published As

Publication number Publication date
WO2020119619A1 (zh) 2020-06-18
CN109753995B (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN109753995A (zh) 一种基于3d目标分类和场景语义分割的网络优化结构
Fan et al. Cian: Cross-image affinity net for weakly supervised semantic segmentation
CN104966104B (zh) 一种基于三维卷积神经网络的视频分类方法
CN106372648A (zh) 基于多特征融合卷积神经网络的浮游生物图像分类方法
CN110837836A (zh) 基于最大化置信度的半监督语义分割方法
CN109934241A (zh) 可集成到神经网络架构中的图像多尺度信息提取方法及应用
CN109255334A (zh) 基于深度学习语义分割网络的遥感影像地物分类方法
CN109145939A (zh) 一种小目标敏感的双通道卷积神经网络语义分割方法
CN108171266A (zh) 一种多目标深度卷积生成式对抗网络模型的学习方法
CN108875076B (zh) 一种基于Attention机制和卷积神经网络的快速商标图像检索方法
CN109086437A (zh) 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法
CN106022300A (zh) 基于级联深度学习的交通标志识别方法和系统
CN106096727A (zh) 一种基于机器学习的网络模型构造方法及装置
CN107967484A (zh) 一种基于多分辨率的图像分类方法
CN104679863A (zh) 一种基于深度学习的以图搜图方法和系统
CN104216974B (zh) 基于词汇树分块聚类的无人机航拍图像匹配的方法
KR102036957B1 (ko) 딥 러닝 기반의 데이터특징을 이용한 도시영상의 안전도 분류방법
CN101706950A (zh) 一种遥感影像多尺度分割的高性能实现方法
CN105354593B (zh) 一种基于nmf的三维模型分类方法
CN106203296B (zh) 一种属性辅助的视频动作识别方法
CN102915448B (zh) 一种基于AdaBoost的三维模型自动分类方法
CN109978050A (zh) 基于svm-rf的决策规则提取及约简方法
CN101980251A (zh) 二叉树多类支持向量机遥感分类方法
CN106156798A (zh) 基于环形空间金字塔和多核学习的场景图像分类方法
CN116665054A (zh) 一种基于改进YOLOv3的遥感影像小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant