CN112396137A - 一种融合上下文语义的点云语义分割方法 - Google Patents
一种融合上下文语义的点云语义分割方法 Download PDFInfo
- Publication number
- CN112396137A CN112396137A CN202011464131.7A CN202011464131A CN112396137A CN 112396137 A CN112396137 A CN 112396137A CN 202011464131 A CN202011464131 A CN 202011464131A CN 112396137 A CN112396137 A CN 112396137A
- Authority
- CN
- China
- Prior art keywords
- semantic
- features
- level
- representing
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000008713 feedback mechanism Effects 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 6
- 230000002708 enhancing effect Effects 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合上下文语义的的点云语义分割方法。属于人工智能技术领域;具体操作步骤:利使用高层编码特征反馈机制增强低层编码特征,从而使高层语义特征在级联过程中获取高区分度,改善基础的点云语义分割结果;利用高层语义特征的局部上下文信息以自适应地调整每个点的语义特征,从而进一步的优化分割结果的细节信息。本发明设计合理,得到的点云语义分割模型具有分割精度高、噪声小的优点。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种融合上下文语义的点云语义分割方法。
背景技术
语义分割作为计算机视觉的一个重要分支,在工业界具有广阔的应用前景并得到迅速发展。随着深度传感器的出现,对于三维场景下的语义感知也得到了广泛关注。点云作为三维场景中最简单的数据形式,三维场景下点云语义分割在近年来得到了迅速发展。现有的点云语义分割方法大都遵循对称的编码-解码结构,其中编码器通过对点进行降采样以及局部特征学习以不断扩大点的局部特征感受野;解码器通过近邻点插值的方法逐步恢复点云的分辨率,这一操作使得解码器的插值特征不具备区分性,因此会通过将编码器与解码器相对称的层特征进行简单级联以增加高层语义特征的区分度。这种方法忽略了编码特征与解码特征之间的语义差异,最低层的编码特征直接来源于点云的坐标信息,具有高度的空间相似性;而最高层的解码特征经过大量的非线性变换,具有丰富的语义相似性,这两者是互补的,因此直接融合这两者特征会使得高层语义特征具有一定的空间特性,这对语义分割性能产生一定的影响。此外,现有的点云语义分割方法在预测每个点的语义类别时都采用多层感知机对每个点独立地处理,这一操作会使得每个点忽略其周围的局部信息,使得最终的分割结果存在局部不一致性。
发明内容
针对上述问题,本发明提供了一种融合上下文语义的点云语义分割方法,该方法能够为高层语义特征提供高度可区分的语义相似性,使得点云语义分割算法的分割精度获得一定的提升,具有更好的局部一致性,从而更好的应用到自动驾驶、机器人等领域中。
本发明的技术方案是:一种融合上下文语义的的点云语义分割方法,具体操作步骤如下:
步骤(1.1)、使用高层编码特征反馈机制增强低层编码特征,从而使高层语义特征在级联过程中获取高区分度,改善基础的点云语义分割结果;
步骤(1.2)、利用高层语义特征的局部上下文信息以自适应地调整每个点的语义特征,从而进一步的优化分割结果的细节信息。
进一步的,在步骤(1.1)中,所述的高层编码特征反馈机制具体是:将高层编码特征以注意力图的形式与低层编码特征进行融合,指导低层编码特征的学习,增强其语义信息,使其为高层解码特征提供语义指导。
进一步的,在步骤(1.1)中,为使高层编码特征进行信息的反馈,确保该高层编码特征与低层编码特征具有相同的分辨率,其具体操作步骤如下:
首先,通过一层非线性变换对X2进行特征映射,使其与X1具有相同的特征维度;如下式所示:
其中,X2表示高层编码特征值,MLP(·)表示特征映射,X2表示对X2进行特征映射后得到的值;
其次,通过上采样操作获取高层编码特征的反馈值,如下式所示:
再次,将获取的反馈值以注意力图的形式与低层编码特征进行融合,该融合过程如下式所示:
最后,将该融合后的特征级联到高层语义特征中生成含更高区分度的语义特征,该操作如下所示:
Y1e=Y1+X1e (4)
其中,Y1表示高层语义特征值,Y1e表示级联后具有高区分度的语义特征值。
进一步的,在步骤(1.2)中,所述的高层语义特征上下文信息具体是:设计一个局部图模型结构,使每个点根据其自身的局部上下文信息以自适应的调整其语义特征,使得最终的语义分割结果具有局部一致性。
进一步的,所述的高层语义特征上下文信息是通过构建一个局部图模型结构实现,具体的的操作步骤如下:
首先,通过K近邻算法寻找每个点在欧式空间中K个近邻点的特征{fi 1,fi 2,...,fi K},通过每个点与其K个近邻点之间通过边进行相互连接,接下来利用K个近邻点的特征计算边的特征,具体如下式所示:
接着,通过最大值操作聚合边的特征以更新该节点的特征,如下式所示:
最后,通过利用一个残差连接的方式将点原始语义特征与更新后的语义特征相加,如下式所示:
本发明的有益效果是:(1)、引入反馈机制,利用高层编码特征弥补低层语义信息的不足,使得高层语义特征高度可区分;(2)、捕获语义特征的上下文信息,使其自适应地调整语义特征,从而优化分割的细节信息,使分割结果更加平滑。
附图说明
图1是本发明的结构流程图;
图2是本发明中点云语义分割示意图;
图3是本发明的实施例示意图。
具体实施方式
为了更清楚地说明本发明的技术方案,下面结合附图对本发明的技术方案做进一步的详细说明:
如图1所述;一种融合上下文语义的的点云语义分割方法,具体操作步骤如下:
步骤(1.1)、使用高层编码特征反馈机制增强低层编码特征,从而使高层语义特征在级联过程中获取高区分度,改善基础的点云语义分割结果;所述的高层编码特征反馈机制具体是:以注意力图的形式与低层编码特征进行融合,从而丰富低层特征的语义信息,并为高层解码特征提供语义指导;
具体是:利用高层编码特征为低层编码特征提供丰富的语义信息,从而减少编码器与解码器之间的语义差异,使得高层语义特征高度可区分,从而提升分割结果;
步骤(1.2)、利用高层语义特征的局部上下文信息以自适应地调整每个点的语义特征,从而进一步的优化分割结果的细节信息;
设计一个局部图模型结构,在高层语义特征引入上下文信息,使每个点充分考虑局部的上下文信息,使其根据局部语义信息来自适应的调整其语义特征,使得最终的语义分割结果具有局部一致性。
具体的,如图2所示,
本发明在现有的语义分割网络的基础上提出了高层编码特征反馈机制和高层语义特征的上下文机制;其具体实施方式如下所述:
1、高层编码特征的反馈机制:
该机制是利用高层编码特征具有低分辨率、高语义信息的特点,向低层的编码特征进行反馈并有效融合,以丰富低层的语义信息;
首先需要确保该高层特征具有与低层特征相同的分辨率,因此首先通过一层非线性变换对X2进行特征映射,使其与X1具有相同的特征维度,该过程可通过一层多层感知器即可实现:即
其中,X2表示高层编码特征值,MLP(·)表示特征映射,X2表示对X2进行特征映射后得到的值;
该操作可以通过近邻点插值实现,通过这一操作,高层编码特征具有与低层编码特征相同的分辨率以及特征维度;
再次,将获取的反馈值以注意力图的形式与低层编码特征进行融合,以丰富低层的语义信息,该融合过程如下式所示:
基于此操作,高层编码特征与低层编码特征实现了有效融合,从而丰富底层的语义信息;但是该操作中使用残差连接的形式,为X1a带来一定的低层空间信息,
因此;最后,将该融合后的特征级联到高层语义特征中生成含更高区分度的语义特征,该操作如下所示:
Y1e=Y1+X1e (4)
其中,Y1表示高层语义特征值,Y1e表示级联后具有高区分度的语义特征值。
通过上述操作,本发明实现了高层编码特征向低层特征的反馈机制,从而丰富低层编码特征的语义信息,将该特征X1e与相对应层的解码特征进行融合,以更准确的指导高层特征的语义感知。
2、高层语义特征上下文信息:
本发明提出在最终的分类器中引入高层语义特征的上下文信息,以进一步优化其局部细节信息;该机制可通过构建局部图模型结构实现,具体而言,假设每个点为图模型的一个节点,其特征为,其中fi表示第i个节点的特征,C为特征维度,
首先,通过K近邻算法寻找每个点在欧式空间中K个近邻点的特征{fi 1,fi 2,...,fi K},通过每个点与其K个近邻点之间通过边进行相互连接,接下来利用K个近邻点的特征计算边的特征,具体如下式所示:
接着,通过最大值操作聚合边的特征以更新该节点的特征,如下式所示:
为了防止该操作会造成分割结果过平滑的情况;
最后,通过利用一个残差连接的方式将点原始语义特征与更新后的语义特征相加,如下式所示:
通过此操作以保留每个点的特有性质,使得点综合考虑其周围的局部信息以及其自身的信息,使得分割结果既具有局部一致性,又确保不同类别之间具有高度区分性。
具体实施例:本发明在室内点云数据中进行了案例验证,该数据是通过Matterport设备采集获取,从而在室内产生了密集的点云数据,分割结果如图3所示,通过与现有的方法相比,本发明得到的分割结果在细节方面得到了很好的优化。
最后,应当理解的是,本发明中所述实施例仅用以说明本发明实施例的原则;其他的变形也可能属于本发明的范围;因此,作为示例而非限制,本发明实施例的替代配置可视为与本发明的教导一致;相应地,本发明的实施例不限于本发明明确介绍和描述的实施例。
Claims (5)
1.一种融合上下文语义的的点云语义分割方法,其特征在于,具体操作步骤如下:
步骤(1.1)、使用高层编码特征反馈机制增强低层编码特征,从而使高层语义特征在级联过程中获取高区分度,改善基础的点云语义分割结果;
步骤(1.2)、利用高层语义特征的局部上下文信息以自适应地调整每个点的语义特征,从而进一步的优化分割结果的细节信息。
2.根据权利要求1所述的一种融合上下文语义的的点云语义分割方法,其特征在于,在步骤(1.1)中,所述的高层编码特征反馈机制具体是:将高层编码特征以注意力图的形式与低层编码特征进行融合,指导低层编码特征的学习,增强其语义信息,使其为高层解码特征提供语义指导。
3.根据权利要求1所述的一种融合上下文语义的的点云语义分割方法,其特征在于,在步骤(1.1)中,为使高层编码特征进行信息的反馈,确保该高层编码特征与低层编码特征具有相同的分辨率,其具体操作步骤如下:
首先,通过一层非线性变换对X2进行特征映射,使其与X1具有相同的特征维度;如下式所示:
其中,X2表示高层编码特征值,MLP(·)表示特征映射,X1表示对X2进行特征映射后得到的值;
其次,通过上采样操作获取高层编码特征的反馈值,如下式所示:
再次,将获取的反馈值以注意力图的形式与低层编码特征进行融合,该融合过程如下式所示:
最后,将该融合后的特征级联到高层语义特征中生成含更高区分度的语义特征,该操作如下所示:
Y1e=Y1+X1e (4)
其中,Y1表示高层语义特征值,Y1e表示级联后具有高区分度的语义特征值。
4.根据权利要求1所述的一种融合上下文语义的的点云语义分割方法,其特征在于,在步骤(1.2)中,所述的高层语义特征上下文信息具体是:设计一个局部图模型结构,使每个点根据其自身的局部上下文信息以自适应的调整其语义特征,使得最终的语义分割结果具有局部一致性。
5.根据权利要求1、4所述的一种融合上下文语义的的点云语义分割方法,其特征在于,所述的高层语义特征上下文信息是通过构建一个局部图模型结构实现,具体的的操作步骤如下:
首先,通过K近邻算法寻找每个点在欧式空间中K个近邻点的特征{fi 1,fi 2,...,fi K},通过每个点与其K个近邻点之间通过边进行相互连接,接下来利用K个近邻点的特征计算边的特征,具体如下式所示:
接着,通过最大值操作聚合边的特征以更新该节点的特征,如下式所示:
最后,通过利用一个残差连接的方式将点原始语义特征与更新后的语义特征相加,如下式所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011464131.7A CN112396137B (zh) | 2020-12-14 | 2020-12-14 | 一种融合上下文语义的点云语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011464131.7A CN112396137B (zh) | 2020-12-14 | 2020-12-14 | 一种融合上下文语义的点云语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112396137A true CN112396137A (zh) | 2021-02-23 |
CN112396137B CN112396137B (zh) | 2023-12-15 |
Family
ID=74624789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011464131.7A Active CN112396137B (zh) | 2020-12-14 | 2020-12-14 | 一种融合上下文语义的点云语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112396137B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011430A (zh) * | 2021-03-23 | 2021-06-22 | 中国科学院自动化研究所 | 大规模点云语义分割方法及系统 |
CN113516663A (zh) * | 2021-06-30 | 2021-10-19 | 同济大学 | 点云语义分割方法及装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190146497A1 (en) * | 2017-11-15 | 2019-05-16 | Uber Technologies, Inc. | Sparse Convolutional Neural Networks |
CN109977834A (zh) * | 2019-03-19 | 2019-07-05 | 清华大学 | 从深度图像中分割人手与交互物体的方法和装置 |
WO2019183568A1 (en) * | 2018-03-23 | 2019-09-26 | Google Llc | Controlling a robot based on free-form natural language input |
CN111696049A (zh) * | 2020-05-07 | 2020-09-22 | 中国海洋大学 | 基于深度学习的水下扭曲图像重建方法 |
US20200357143A1 (en) * | 2019-05-09 | 2020-11-12 | Sri International | Semantically-aware image-based visual localization |
CN111950467A (zh) * | 2020-08-14 | 2020-11-17 | 清华大学 | 基于注意力机制的融合网络车道线检测方法及终端设备 |
-
2020
- 2020-12-14 CN CN202011464131.7A patent/CN112396137B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190146497A1 (en) * | 2017-11-15 | 2019-05-16 | Uber Technologies, Inc. | Sparse Convolutional Neural Networks |
WO2019183568A1 (en) * | 2018-03-23 | 2019-09-26 | Google Llc | Controlling a robot based on free-form natural language input |
CN109977834A (zh) * | 2019-03-19 | 2019-07-05 | 清华大学 | 从深度图像中分割人手与交互物体的方法和装置 |
US20200357143A1 (en) * | 2019-05-09 | 2020-11-12 | Sri International | Semantically-aware image-based visual localization |
CN111696049A (zh) * | 2020-05-07 | 2020-09-22 | 中国海洋大学 | 基于深度学习的水下扭曲图像重建方法 |
CN111950467A (zh) * | 2020-08-14 | 2020-11-17 | 清华大学 | 基于注意力机制的融合网络车道线检测方法及终端设备 |
Non-Patent Citations (2)
Title |
---|
LIU, Z等: "CSAF-CNN: Cross-Layer Spatial Attention Map Fusion Network for Organ-at-Risk Segmentation in Head and Neck CT Images", 《IEEE 17TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING》, pages 1 - 3 * |
叶语同等: "智能驾驶中点云目标快速检测与跟踪", 《武汉大学学报(信息科学版)》, vol. 44, no. 1, pages 139 - 144 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011430A (zh) * | 2021-03-23 | 2021-06-22 | 中国科学院自动化研究所 | 大规模点云语义分割方法及系统 |
CN113011430B (zh) * | 2021-03-23 | 2023-01-20 | 中国科学院自动化研究所 | 大规模点云语义分割方法及系统 |
CN113516663A (zh) * | 2021-06-30 | 2021-10-19 | 同济大学 | 点云语义分割方法及装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112396137B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107767384B (zh) | 一种基于对抗训练的图像语义分割方法 | |
CN112435282B (zh) | 一种基于自适应候选视差预测网络的实时双目立体匹配方法 | |
CN111539887B (zh) | 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法 | |
CN108594816B (zh) | 一种通过改进orb-slam算法实现定位与构图的方法和系统 | |
CN111462210B (zh) | 一种基于极线约束的单目线特征地图构建方法 | |
CN111783838A (zh) | 一种用于激光slam的点云特征空间表征方法 | |
US20210018615A1 (en) | Methods and systems for object detection | |
CN112396137A (zh) | 一种融合上下文语义的点云语义分割方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN116385761A (zh) | 一种融合rgb与红外信息的3d目标检测方法 | |
CN111353988A (zh) | Knn动态自适应的双图卷积图像分割方法和系统 | |
CN115809327B (zh) | 一种多模融合和话题的实时社交网络谣言检测方法 | |
CN115035172B (zh) | 基于置信度分级及级间融合增强的深度估计方法及系统 | |
CN116844004A (zh) | 一种面向数字孪生场景的点云自动语义化建模方法 | |
CN110390336B (zh) | 一种提高特征点匹配精度的方法 | |
CN116739940A (zh) | 一种点云补全的方法、装置、设备及介质 | |
CN116701781A (zh) | 一种基于图卷积神经网络的物品同质图邻域聚合推荐算法 | |
CN116597154A (zh) | 一种图像去噪模型的训练方法及系统 | |
CN114742988B (zh) | 多阶段检测器进行点标注到框标注转换的方法 | |
CN113160247B (zh) | 基于频率分离的抗噪孪生网络目标跟踪方法 | |
CN115393735A (zh) | 基于改进U-Net的遥感影像建筑物提取方法 | |
CN113628140A (zh) | 一种基于深度学习的点云稠密补全方法 | |
CN114615505A (zh) | 基于深度熵编码的点云属性压缩方法、装置和存储介质 | |
CN110119779B (zh) | 基于自编码器的跨网络数据任意维度融合方法和装置 | |
Chen et al. | A Robust Visual Loop-Closure Detection Method of VSLAM for Ambiguous Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |