CN114926636A - 一种点云语义分割方法、装置、设备及存储介质 - Google Patents
一种点云语义分割方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114926636A CN114926636A CN202210518958.4A CN202210518958A CN114926636A CN 114926636 A CN114926636 A CN 114926636A CN 202210518958 A CN202210518958 A CN 202210518958A CN 114926636 A CN114926636 A CN 114926636A
- Authority
- CN
- China
- Prior art keywords
- point
- point cloud
- cloud data
- information
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Processing (AREA)
Abstract
本申请提供了一种点云语义分割方法、装置、设备及存储介质,该语义分割方法包括:获取待分割的点云数据;通过语义分割网络中的编码模块,对点云数据进行空间几何形状信息编码和点云数量下采样,得到点云数据中目标数量个点云的第一特征信息;通过语义分割网络中的解码模块,对目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到点云数据的第二特征信息;根据点云数据的第二特征信息,预测点云数据中每个点对应的语义类别。这样在点云语义分割过程中,通过对点云数据进行空间几何形状信息编码,保留了点云数据的几何空间特征,进而能够更准确地预测点云数据中每个点的语义类别。
Description
技术领域
本申请实施例涉及人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种点云语义分割方法、装置、设备及存储介质。
背景技术
随着信息化时代的到来,人工智能领域的研究成为大势所趋。如何在复杂场景中进行物体识别是深度学习中重要的研究内容。点云语义分割是分析理解三维场景的重要手段,在多个领域中有着广阔的应用前景。
近年来,深度学习和三维点云数据采集技术的迅猛发展,使用深度学习的方式对点云数据直接进行语义分割处理得到了更多关注,基于深度学习的方法可以提取点云深层次的语义信息,挖掘数据之间的重要特征。
然而,目前很多深度神经网络对点云数据的语义分割精度不高。
发明内容
本申请实施例提供一种点云语义分割方法、装置、设备及存储介质,可以实现对点云数据语义的准确分割。
第一方面,本申请实施例提供一种点云语义分割方法,包括:
获取待分割的点云数据;
通过语义分割网络中的编码模块,对点云数据进行空间几何形状信息编码和点云数量下采样,得到点云数据中目标数量个点云的第一特征信息;
通过语义分割网络中的解码模块,对目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到点云数据的第二特征信息;
根据点云数据的第二特征信息,预测点云数据中每个点对应的语义类别。
第二方面,本申请实施例提供一种点云语义分割装置,包括:
获取单元,用于获取待分割的点云数据;
编码单元,用于通过语义分割网络中的编码模块,对点云数据进行空间几何形状信息编码和点云数量下采样,得到点云数据中目标数量个点云的第一特征信息;
解码单元,用于通过语义分割网络中的解码模块,对目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到点云数据的第二特征信息;
预测单元,用于根据点云数据的第二特征信息,预测点云数据中每个点对应的语义类别。
第三方面,本申请实施例提供一种电子设备,包括:存储器,处理器;该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,以执行上述第一方面或其各实现方式中的方法。
第四方面,提供了一种芯片,用于实现上述第一方面或其各实现方式中的方法。具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备执行如上述第一方面或其各实现方式中的方法。
第五方面,提供了一种计算机可读存储介质,用于存储计算机程序,该计算机程序使得计算机执行上述第一方面或其各实现方式中的方法。
第六方面,提供了一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行上述第一方面或其各实现方式中的方法。
第七方面,提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或其各实现方式中的方法。
综上所述,通过本申请的技术方案,在对点云数据进行语义分割时,获取待分割的点云数据;通过语义分割网络中的编码模块,对该点云数据进行空间几何形状信息编码和点云数量下采样,得到点云数据中目标数量个点云的第一特征信息;通过语义分割网络中的解码模块,对目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到点云数据的第二特征信息;根据点云数据的第二特征信息,预测点云数据中每个点对应的语义类别。即本申请,在进行点云语义分割时,通过语义分割网络中的编码模块对点云数据进行空间几何形状信息编码,得到每个点的聚合特征信息,充分利用了点云数据的空间信息,提升了每个点的感受野,使得每个点包含更多邻域点的信息。在对点云数据进行下采样后,虽然点云数据的数量减少,但下采样后的点云数据包含丰富的特征信息,仍然可以表达整体点云数据的结构信息,进而能够更准确地预测点云数据中每个点的语义类别。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的三维体素网络结构示意图;
图3为本申请实施例提供的基于体素的卷积神经网络中的笛卡尔坐标系;
图4本申请实施例提供的基于多视图的卷积神经网络中二维数据示意图;
图5为本申请实施例提供的一种点云语义分割方法的示意性流程图;
图6为本申请实施例提供的语义分割网络的一种网络结构示意图;
图7本申请实施例提供的编码模块的一种结构示意图;
图8为本申请实施例提供的一种编码单元与注意力单元的连接示意图;
图9为本申请实施例提供的一种局部特征聚合过程示意图;
图10为本申请实施例提供的一种点云数据感受野的变化示意图;
图11为本申请实施例提供的语义分割网络的一种网络结构示意图;
图12为本申请实施例提供的一种解码模块的结构示意图;
图13为本申请实施例提供的一种解码模块的结构示意图;
图14为本申请实施例提供的一种点云语义分割网络示意图;
图15为本申请实施例提供的点云语义分割装置的结构示意图;
图16为本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在介绍本申请技术方案之前,下面将对本申请技术方案的相关知识进行说明:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
应理解,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
MLP(Multi-Layer Perceptron,多层感知器)是一种前向结构的人工神经网络(Artificial Neural Network,简称ANN),映射一组输入向量到一组输出向量。MLP可以被看作是一个有向图,由多个节点层组成,每一层全连接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元。使用BP(back propagation,反向传播)算法的监督学习方法来训练MLP。MLP是感知器的推广,克服了感知器不能对线性不可分数据进行识别的弱点。相对于单层感知器,MLP多层感知器输出端从一个变到了多个;输入端和输出端之间有两层:输出层和隐藏层。基于反向传播学习的是典型的前馈网络,其信息处理方向从输入层到各隐藏层再到输出层,逐层进行。隐藏层实现对输入空间的非线性映射,输出层实现线性分类,非线性映射方式和线性判别函数可以同时学习。
点云(Point Clouds)通常是欧式空间内带有三维信息点的集合,依据不同采集方式获取到的点云数据拥有不同的信息,但是点云数据的基本信息是三维XYZ坐标,以此来表示每个点在欧式空间中所处的位置信息,与此同时,物体具有的RGB(Red,Green,Blue,红,绿,蓝)颜色信息也可以视为点云的特征信息,而根据这些信息可以为点云数据添加高维的法线或曲率特征。
本申请可应用于各种需要进行点云分割的场景,包括但不限于云技术、人工智能、增强现实、智慧交通、自动驾驶等。
图1为本申请实施例涉及的一种应用场景示意图,包括终端设备101和服务器102。
其中,终端设备101具有交互功能,即可以接收对象(例如用户)输入的操作指令,例如可以接收对象输入的点云语义分割操作。本申请实施例的终端设备101可包括但不限于:PC(Personal Computer,个人计算机)、 PDA(平板电脑)、手机、可穿戴智能设备、智能语音交互设备、智能家电、车载终端、飞行器等等。终端设备101往往配置有显示装置,显示装置也可为显示器、显示屏、触摸屏等等,触摸屏也可为触控屏、触控面板等等,显示装置可用来显示最终的点云语义分割结果等等。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、 CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102也可以成为区块链的节点。
终端设备101与服务器102之间可以通过有线通信或者无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一些实施例中,终端设备101中安装并运行点云语义分割平台,对象通过该点云语义分割平台可以实现对点云数据的语义分割,例如,对象在该点云语义分割平台上输入点云语义分割操作,例如触发点云语义分割平台上的点云语义分割控件。点云语义分割平台检测到点云语义分割操作时,通过终端设备101向服务器102发送点云语义分割请求,服务器102在接收到点云语义分割请求后,对点云数据进行语义分割,并返回语义分割结果数据给点云语义分割平台,点云语义分割平台通过终端设备向对象显示点云数据的语义分割结果。
目前对点云数据进行语义分割的深度神经网络主要是以下三种。
基于体素化的卷积神经网络:如图2所示,对三维空间进行划分,将整体划分为规则化的三维体素网络结构,如图3所示,将坐标建立在笛卡尔坐标系中。然而,虽然体素化可以将点云数据规则表示,但是点云数据的分布是不均匀的,如果将点云全部划分到一个个体素格中,会出现很多空体素格的问题,另外随着体素分辨率的增高,会致使在计算的过程中效率降低,训练时间提高,并导致一些有用信息丢失,影响点云语义的分割精度。
基于多视图的卷积神经网络:将三维数据转化为二维数据,如图4所示。对三维数据而言,处在空间中不同位置时得到的二维图像是不同的,因此可以在不同位置放置相机来获取二维图像数据,再将多个位置的图像使用卷积神经网络提取特征,并根据基于各个位置的特征信息进行聚合,再将拥有高维信息的特征输入到卷积神经分类网络中得到分割结果。然而,因为多个位置的二维图像无法体现整体的几何结构信息,致使语义分割结果出现误差。
基于点云的深度神经网络:使用多层感知器去提取单个点独立的特征信息,使用最大池化层来聚合特征,得到聚合后的特征相当于点云的全局特征。然而该方法没有考虑到点云的局部特征信息对于整体点云分割的重要性,使得针对点云的语义分割精度不高。
如上所述,目前的点云语义分割方法,没有很好地利用点云之间的空间信息,无法应对在对点云数据下采样后,部分有用信息丢失的问题,导致分割精度不高。
为了解决上述技术问题,本申请实施例,在进行点云语义分割时,获取待分割的点云数据;通过语义分割网络中的编码模块,对点云数据进行空间几何形状信息编码和点云数量下采样,得到点云数据中目标数量个点云的第一特征信息;通过语义分割网络中的解码模块,对目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到点云数据的第二特征信息;根据点云数据的第二特征信息,预测该点云数据中每个点对应的语义类别。即本申请,在进行点云语义分割时,首先获取待分割的点云数据,为了提高点云的分割精度,通过语义分割网络中的编码模块对点云数据进行空间几何形状信息编码和点云数量下采样,得到点云数据中目标数量个点云的第一特征信息,充分利用了点云数据的空间信息,提升了每个点的感受野。在对点云数据进行下采样后,虽然点云数据的数量减少,但下采样后的点云数据包含丰富的特征信息,仍然可以表达整体点云数据的结构信息,进而能够更准确地预测点云数据中每个点的语义类别,提高了点云语义的分割精度。
下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图5为本申请实施例提供的一种点云语义分割方法的示意性流程图,该方法可以由具有数据处理功能的电子设备执行,例如由台式电脑、笔记本电脑、平板电脑等终端设备执行,和/或由一个或多个服务器执行。
如图5所示,该方法包括如下步骤:
S210:获取待分割的点云数据。
本申请实施例对点云数据的获取方式不做限制。
在一些实施例中,上述点云数据是对象输入的。
在一些实施例中,上述点云数据是从点云数据存储器中获取的。
本申请实施例对点云数据的采集方式不做限制。
在一种示例中,通过三维扫描系统,例如深度相机或三维激光扫描仪采集点云数据。
在另一种示例中,通过三维模型反向重塑采集点云数据。
S220:通过语义分割网络中的编码模块,对点云数据进行空间几何形状信息编码和点云数量下采样,得到该点云数据中目标数量个点云的第一特征信息。
图6为本申请实施例涉及的语义分割网络的一种网络结构示意图,如图6所示,本申请实施例的语义分割网络包括编码模块和解码模块,其中编码模块用于对输入的点云数据进行空间几何形状信息编码和点云数量下采样,得到目标数量个点云的第一特征信息,解码模块用于对目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到该点云数据的第二特征信息。
在一些实施例中,采用随机采样的方式对点云数据进行下采样。
在面对大规模的点云数据时,采用随机采样的方法对大规模的点云数据进行下采样,具有更高的计算效率。但是随机采样也有其弊端,因其随机性,采样时有可能丢失具有较为重要特征的点云数据,使得选择出的点云数据不能充分表达整个点云数据的信息,进而影响点云语义的分割精度。本申请实施例通过对点云数据进行空间几何形状信息编码,得到点云数据中每个点的局部特征聚合信息,可以弥补随机采样的缺陷,使得下采样后的点云数据仍然可以表达整个点云数据的空间结构信息。
在一些实施例中,上述S220中的编码模块包括N个编码层,该编码层包括M个局部空间编码单元和一个点云数量下采样单元,N、M均为正整数。
图7为本申请实施例涉及的编码模块的一种结构示意图,示例性的,如图7所示,本申请实施例的编码模块包括N个编码层,每个编码层包括M 个局部空间编码单元和一个点云数量下采样单元。其中局部空间编码单元用于对输入的点云数据进行空间几何形状信息编码,点云数量下采样单元用于对输入的点云数据进行下采样。
上述S220中通过语义分割网络中的编码模块,对点云数据进行空间几何形状信息编码和点云数量下采样,得到点云数据中目标数量个点云的第一特征信息,包括如下S220-A、S220-B和S220-C步骤:
S220-A:针对N个编码层中的第i个编码层,通过第i个编码层中的M 个局部空间编码单元,对第i-1个编码层输出的点云数据中第i-1数量个点云的第i-1个第一特征信息进行空间几何形状信息编码,得到该点云数据中第 i-1数量个点云的第i个第一特征信息,i为从1到N的正整数,若i=1时,第i-1数量个点云的第i-1个第一特征信息为点云数据的初始特征信息。
例如,编码模块包括3个编码层,每个编码层包括2个局部空间编码单元。
针对第1个编码层,通过第1个编码层中的2个局部空间编码单元,对输入第1个编码层的点云数据的初始特征信息进行空间几何形状信息编码,得到该点云数据的原始数量的第1个第一特征信息。
针对第2个编码层,通过第2个编码层中的2个局部空间编码单元,对第1个编码层输出的点云数据中第1数量个点云的第1个第一特征信息进行空间几何形状信息编码,得到该点云数据中第1数量个点云的第2个第一特征信息。
针对第3个编码层,通过第3个编码层中的2个局部空间编码单元,对第2个编码层输出的点云数据中第2数量个点云的第2个第一特征信息进行空间几何形状信息编码,得到该点云数据中第2数量个点云的第3个第一特征信息。
在一些实施例中,上述S220-A中的编码层还包括M个注意力提升单元,一个局部空间编码单元与一个注意力提升单元连接。
如图8为本申请实施例提供的一种局部空间编码单元与注意力提升单元的连接示意图。
如图8所示,该编码层包括两个局部空间编码单元,每个局部空间编码单元都与一个注意力提升单元连接。
在对点云数据进行语义分割时,点云数据进过下采样,可能会把一些具有重要特征信息的点丢掉。而如果某个重要的点被丢掉,只要这个点的信息已经传播到了很多点上,那么即使这个点被丢掉了,只要被传播的点没有被全部丢掉,那么这个点的信息还是存在的。一个点的信息传播的点越多,这个点的信息全部被丢掉的概率就越小,所以,增大点云数据中每个点的传播范围有助于降低重要的点被丢掉的影响,进而提高点云语义分割的精确度。而增大每个点的感受野,相当于间接增大了每个点的传播范围。本申请实施例的编码层通过堆叠多个局部空间编码单元+注意力提升单元的组合,增大点云数据中每个点的感受野,提高点云语义分割的精确度。
在一些实施例中,上述S220-A中通过第i个编码层中的M个局部空间编码单元,对第i-1个编码层输出的点云数据中第i-1数量个点云的第i-1个第一特征信息进行空间几何形状信息编码,得到该点云数据中第i-1数量个点云的第i个第一特征信息得到点云数据中第i-1数量个点云的第i个第一特征信息,包括如下S220-A1、S220-A2、S220-A3和S220-A4步骤:
S220-A1:针对第i个编码层中的第j个局部空间编码单元和第j个注意力提升单元,j为1到M的正整数,通过第j个局部空间编码单元,确定第 j-1个注意力提升单元输出的第i-1数量个点云中每个点的K个邻域点和该K 个邻域点的第j个初始特征信息。
本申请实施例对确定点云数据中每个点的K个邻域点的具体方式不做限定。
在一些实施例中,通过最近邻搜索算法寻找点云数据中每个点的K个邻域点。
在一些实施例中,针对点云数据中每个点,获取该点与点云数据中其他点之间的距离,选择距离较小的K个点作为该点的邻域点。
S220-A2:针对第i-1数量个点云中每个点,以及点的K个邻域点中的每个邻域点,对邻域点进行空间几何形状信息编码,得到邻域点的第j个空间位置特征信息,将该邻域点的第j个初始特征信息与该邻域点的第j个空间位置特征信息融合,得到该邻域点的第j个增强特征信息。
在一些实施例中,上述S220-A2中对该邻域点进行空间几何形状信息编码,得到该邻域点的第j个空间位置特征信息包括如下S220-A21和S220- A22步骤:
S220-A21:针对第i-1数量个点云中每个点,以及该点的K个邻域点中的每个邻域点,确定该点与其邻域点之间相对位置和绝对位置;
S220-A22:将该点的位置信息、其邻域点的位置信息、以及该点与其邻域点之间相对位置和绝对位置进行融合,得到邻域点的第j个空间位置特征信息。
本申请实施例的绝对位置可以理解为两点之间距离的绝对值。例如,该绝对位置为该点与其领域点之间的曼哈顿距离。再例如,该绝对位置为该点与其领域点之间的欧式距离。
本申请实施例的相对位置可以理解为两点之间距离的相对值。例如,该相对位置为邻域点与该点之间的相对坐标差。
在一种示例中,本申请实施例的绝对位置为点云数据中点和其邻域点之间的欧式距离。本申请实施例的相对位置为点云数据中点与其邻域点之间的相对坐标差。
将该点的三维坐标、其邻域点的三维坐标、以及该点与其邻域点之间相对坐标差和欧式距离进行融合,得到邻域点的第j个空间位置特征信息。
本申请对该点的三维坐标、其邻域点的三维坐标、以及该点与其邻域点之间相对坐标差和欧式距离进行融合的具体方式不做限制。
在一些实施例中,将该点的三维坐标、其邻域点的三维坐标、以及该点与其邻域点之间相对坐标差和欧式距离进行相加,得到邻域点的第j个空间位置特征信息。
在一些实施例中,将该点的三维坐标、其邻域点的三维坐标、以及该点与其邻域点之间相对坐标差和欧式距离进行拼接,得到邻域点的第j个空间位置特征信息,包括如下S220-A22-1和S220-A22-2步骤:
S220-A22-1:将该点的位置信息、其邻域点的位置信息、以及该点与其邻域点之间相对位置和绝对位置进行拼接,得到邻域点的空间几何形状编码信息;
S220-A22-2:将该邻域点的空间几何形状编码信息通过共享多层感知器处理,得到该邻域点的第j个空间位置特征信息。
示例性地,若绝对位置为点云数据中点和其邻域点之间的欧式距离。相对位置为点云数据中点与其邻域点之间的相对坐标差。则本申请实施例,将该点的三维坐标、其邻域点的三维坐标、以及该点与其邻域点之间相对坐标差和欧式距离进行拼接,得到邻域点的空间几何形状信息编码信息;接着,将该邻域点的空间几何形状编码信息通过共享多层感知器处理,得到该邻域点的第j个空间位置特征信息。
例如,根据如下公式(1)对邻域点进行空间几何形状编码,并得到邻域点的空间位置特征信息:
通过卷积核提取邻域点的空间位置特征信息,速度较慢,本申请实施例采用多层感知器提取邻域点的空间位置特征信息,具有更高的计算效率。
本申请实施例对将该邻域点的第j个初始特征信息与该邻域点的第j个空间位置特征信息进行融合的具体方式不做限定。
在一种示例中,将邻域点的第j个初始特征信息与该邻域点的第j个空间位置特征信息进行相加,得到该邻域点的第j个增强特征信息。
在另一种示例中,将邻域点的第j个初始特征信息与该邻域点的第j个空间位置特征信息进行相乘,得到该邻域点的第j个增强特征信息。
在另一种示例中,将邻域点的第j个初始特征信息与该邻域点的第j个空间位置特征信息进行拼接,得到该邻域点的第j个增强特征信息。
S220-A3:针对第i-1数量个点云中每个点,通过第j个注意力提升单元对该点的K个邻域点各自的第j个增强特征信息进行特征聚合,得到该点的第j个聚合特征信息。
在一些实施例中,第j个注意力提升单元包括至少一个卷积层,这样将该点的K个邻域点各自的第j个增强特征信息输入第j个注意力提升单元的至少一个卷积层中进行特征融合,得到该点的第j个聚合特征信息。
在一些实施例中,可以通过如下S220-A31和S220-A32步骤进行特征融合:
S220-A31:针对第i-1数量个点云中每个点,通过第j个注意力提升单元对点的K个邻域点各自的第j个增强特征信息进行处理,确定该点的K个邻域点各自的注意力分数。
本申请实施例对于确定K个邻域点各自的注意力分数的具体方式不做限定。
在一些实施例中,上述注意力提升单元将加性注意力机制作为K个邻域点的评分函数,通过该加性注意力机制确定该点的K个邻域点各自的注意力分数。
在一些实施例中,上述注意力提升单元包括共享函数,上述S220-A31 中通过第j个注意力提升单元对该点的K个邻域点各自的第j个增强特征信息进行处理,确定该点的K个邻域点各自的注意力分数,包括:
通过该共享函数对点的K个邻域点各自的第j个增强特征信息进行处理,得到点的K个邻域点各自的注意力分数。
在一种可能的实现方式中,根据如下公式(2)确定该点的K个邻域点各自的注意力分数:
S220-A32:根据该点的K个邻域点各自的注意力分数,对该点其K个邻域点各自的第j个增强特征信息进行加权求和,得到该点的第j个聚合特征信息。
本申请实施例对K个邻域点各自的第j个增强特征信息进行加权求和的具体方式不做限制。
在一些实施例中,筛选掉注意力分数低于设定阈值的邻域点,对剩余的邻域点各自的第j个增强特征信息进行加权求和,得到该点的第j个聚合特征信息。
在一些实施例中,根据如下公式(3)对上述K个邻域点各自的第j个增强特征信息进行加权求和,得到该点的第j个聚合特征信息:
图9为本申请实施例提供的一种局部特征聚合过程的示意图。
如图9所示,对点云数据进行局部特征聚合的过程为:对于输入数量为 N,维度为(3+d)的点云数据,3表示点云特征中的三维XYZ坐标,为点云数据中每一个点寻找该中心点i的K个邻域点,对其K个邻域点的三维 XYZ坐标进行如上所述的空间几何形状信息编码,添加和中心点相关的冗余信息,经过一次MLP将维度提升到d,形成点云数量为K,维度为d的空间位置特征,然后将其与邻域点的初始d维特征fi k拼接在一起,形成点云数量为K,维度为2d的点云增强特征,针对K个邻域点的增强特征,通过 softmax分类器计算出每个邻域点的注意力分数,根据该注意力分数,对K 个邻域点的增强特征进行加权求和,再经过一次MLP,得到该中心点的聚合特征。对点云数据中每个点进行局部特征聚合,得到点云数据的聚合特征 (N,d’)。
不同于直接将各个点的三维坐标作为一个普通的通道特征输入到语义分割神经网络中,本申请实施例通过局部空间编码单元确定点云数据中每个点的K个邻域点和该K个邻域点的初始特征信息,对该K个邻域点进行空间几何形状信息编码,得到该K个邻域点的空间位置特征信息,将初始特征信息和空间位置特征信息进行融合,得到每个邻域点的增强特征信息,根据该增强特征信息,通过注意力提升单元计算每个邻域点的注意力分数,再根据每个邻域点的注意力分数,对K的邻域点的增强特征信息进行加权求和,得到点云数据中每个点的聚合特征信息。
从而使得点云语义分割网络能够从点云数据中各个点的相对位置以及距离信息中更好地学习到空间的几何结构信息,提升了每个点的感受野,使得每个点包含更多邻域点的信息。在对点云数据进行下采样后,虽然点云数据的数量减少,但下采样后的点云数据包含丰富的特征信息,仍然可以表达整体点云数据的结构信息,进而能够更准确地预测点云数据中每个点的语义类别,提高了点云语义的分割精度。
图10为本申请实施例提供的一种点云数据经过局部特征聚合后感受野的变化示意图。
如图10所示,5A为原始未找寻邻域点的点云数据,找寻邻域点的个数 K取5,经过一次局部特征聚合后,5B中3个中心点包含各自圆圈内所有邻域点的信息,至此三个中心点所能“看到”的范围仅仅是各自的圆圈区域,再次经过局部特征聚合,5C中最中间的中心点可以“看到”的范围扩大为整个圆圈内所有的点云数据。以此类推于点云数据的其他点,每一个点的感受野都被进一步扩大,包含更多邻域点的信息。此时的点云数据经过下采样后,虽然点云数据量减少,但采样后的点云数据包含丰富的特征信息,仍然可以表达整体点云的空间结构信息。
在一些实施例中,上述S220中语义分割网络还包括输入层。
图11为本申请实施例涉及的语义分割网络的一种网络结构示意图。如图11所示,本申请实施例的语义分割网络还包括输入层,该输入层用于对点云数据进行特征提取,得到点云数据的初始特征信息。
上述S220中通过语义分割网络中的编码模块,对点云数据进行空间几何形状信息编码和点云数量下采样,得到点云数据中目标数量个点云的第一特征信息,包括如下S220-D和S220-E步骤:
S220-D:通过输入层对点云数据进行特征提取,得到点云数据的初始特征信息;
S220-E:通过编码模块对点云数据的初始特征信息进行空间几何形状信息编码和点云数量下采样,得到点云数据中目标数量个点云的第一特征信息。
本申请实施例对输入层的具体网络结构不做限制,可以为任意具有特征提取功能的网络结构。
在一种示例中,该输入层为全连接层。
在另一种示例中,该输入层为卷积层。
S230:通过语义分割网络中的解码模块,对目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到点云数据的第二特征信息。
在一些实施例中,上述S230中的解码模块包括N个解码层,解码层包括一个点云数量上采样单元。
图12为本申请实施例涉及的一种解码模块的结构示意图。如图12所示,该解码模块包括N个解码层,解码层包括一个点云数量上采样单元,该点云数量上采样单元用于对输入解码层的点云数据进行上采样。
上述S230中通过语义分割网络中的解码模块,对目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到该点云数据的第二特征信息,包括如下S230-A、S230-B和S230-C步骤:
S230-A:针对N个解码层中的第i个解码层,通过第i个解码层中的点云数量上采样单元,对第i-1个解码层输出的点云数据中第i-1数量个点云的第i-1个第二特征信息进行点云数量上采样,得到点云数据中第i数量个点云的第i-1个第二特性信息,i为从1到N的正整数,若i=1时,则第i-1数量个点云的第i-1个第二特征信息为目标数量个点云的第一特征信息。
例如,解码模块包括3个解码层,每个编码层包括一个点云数量上采样单元。
针对第1个解码层,通过第一个解码层中的点云数量上采样单元,对输入第1个解码层的目标数量个点云的第一特征信息进行点云数量上采样,得到第1数量个点云的第一特征信息。
针对第2个解码层,通过第2个解码层中的点云数量上采样单元,对第 1个解码层输出的点云数据中第1个数量个点云的第1个第二特征信息进行点云数量上采样,得到该点云数据中第2数量个点云的第1个第二特性信息。
针对第3个解码层,通过第3个解码层中的点云数量上采样单元,对第 2个解码层输出的点云数据中第2个数量个点云的第2个第二特征信息进行点云数量上采样,得到该点云数据中第3数量个点云的第2个第二特性信息。
在一些实施例中,上述S230-A中对第i-1个解码层输出的点云数据中第 i-1数量个点云的第i-1个第二特征信息进行点云数量上采样,得到点云数据中第i数量个点云的第i-1个第二特性信息,包括:
针对第i-1个解码层输出的点云数据中第i-1数量个点云中每个点,通过点云数量上采样单元查询该点的邻域点,将点的第i-1个第二特征信息赋予该邻域点,得到点云数据中第i数量个点云的第i-1个第二特性信息。
S230-B:对第i数量个点云的第i-1个第二特性信息进行特征解码,得到该点云数据中第i数量个点云的第i个第二特征信息。
在一些实施例中,解码层还包括一个共享多层感知器,第i个解码层与第i个编码层桥接。
图13为本申请实施例涉及的解码模块的结构示意图。如图13所示,解码层包括一个共享多层感知器,第i个解码层与第i个编码层桥接。该共享多层感知器用于对点云数量上采样单元输出的点云数据进行维度变换。
上述S230-B中对第i数量个点云的第i-1个第二特性信息进行特征解码,得到该点云数据中第i数量个点云的第i个第二特征信息,包括如下S230- B1和S230-B2步骤:
S230-B1:通过第i个解码层中的共享多层感知器将第i数量个点云的第i-1个第二特性信息的特征维数转换至与第i个编码层输出第一特性信息同维数的第三特征信息;
S230-B2:将第i个编码层输出的第i数量个点云的第i个第一特性信息和第i个解码层中共享多层感知器输出的第i数量个点云的第三特性信息进行融合,得到点云数据中第i数量个点云的第i个第二特征信息。
本申请实施例通过解码层中的上采样单元将点云数量还原至对应编码层的点云数量,具体过程为,针对第i-1个解码层输出的所述点云数据中第i-1 数量个点云中每个点,通过点云数量上采样单元查询该点的邻域点,将该点的第i-1个第二特征信息赋予所述邻域点,得到点云数据中第i数量个点云的第i-1个第二特性信息。第i-1个解码层的点云数据较少,该第i-1个第二特性信息包含的深层语义特征信息更多,但其分辨率较差,第i个解码层对应的第i个编码层中的点云数据量大,该第i个第一特性信息分辨率高,本申请实施例将第i-1个第二特性信息的特征维数转换至与第i个编码层输出第一特性信息同维数的第三特征信息,再将第i个编码层输出的第i数量个点云的第i个第一特性信息和第i个解码层中共享多层感知器输出的第i数量个点云的第三特性信息进行融合,得到的点云数据中第i数量个点云的第i 个第二特征信息不仅包含深层语义信息,且可以更好的保留点云数据的细节信息,使得点云的语义分割精度更高。
S240:根据点云数据的第二特征信息,预测点云数据中每个点对应的语义类别。
图14为本申请实施例提供的一种语义分割网络结构示意图。
如图14所示,整体网络架构遵循编码器-解码器的基本结构。
首先对于网络输入的点云数据,使用全连接层FC(Fully Connected Layer,全连接层)将该点云数据映射到特征空间,输出维度为8的特征,然后使用四个编码层来学习每个点的特征。以第一个编码层为例,该层包括 LFE(Local Feature Extraction,局部特征聚合)单元和RS(Random Sampling,随机采样)单元,该LFE单元包括局部空间编码单元和与该局部空间编码单元相连接的注意力提升单元。首先对点云数据的8维特征使用 LFE单元聚合点云数据中每个点的特征,提升每个点的感受野,然后使用 RS采样算法减少点云的数量,降低内存的消耗和计算的复杂度,此处设置的下采样抽取比率为四倍,如此做在逐渐减少点云数量的同时增加每个点的特征尺寸,每层保留25%的输入点云数据,同时特征维数增加为每层保留更多的深层语义信息。以这样的方式将点云数据量减少到N/4、N/16、N/64和N/256,将点云的特征维数增加至32、128、256和512。在四层编码层之后使用MLP(Multi-Layer Perceptron,,多层感知器)控制输出特征维数不变。之后进入到解码层,通过解码层的上采样单元US(Up-sampling,上采样) 对输入的点云数据查询每个点的邻域点,以该点的特征赋予邻域点相同的特征,通过插值的方式将输入点云数量还原至对应编码层的点云数量,之后输入到MLP转换特征维数,然后把维数转换后含有深层语义信息的特征与对应编码层以skip-link跳跃连接的方式级联融合,融合后输入到随后的解码层。
经过如图的四层编码层和解码层得到含有深层语义信息的(N,8)点云数据,通过全连接层将输出维度提升到64维,再通过全连接层和一个DP (Dropout,丢弃层)降维至32维,然后通过全连接层输出预测语义标签的结果。
本申请实施例提供的点云语义分割方法,在对点云数据进行语义分割时,获取待分割的点云数据;通过语义分割网络中的编码模块,对该点云数据进行空间几何形状信息编码和点云数量下采样,得到该点云数据中目标数量个点云的第一特征信息;通过语义分割网络中的解码模块,对目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到该点云数据的第二特征信息;根据该点云数据的第二特征信息,预测该点云数据中每个点对应的语义类别。即本申请实施例,在进行点云语义分割时,首先获取待分割的点云数据,为了提高点云的分割精度,通过语义分割网络中的编码模块对点云数据进行空间几何形状信息编码和点云数量下采样,得到点云数据中目标数量个点云的第一特征信息,充分利用了点云数据的空间信息,提升了每个点的感受野,使得每个点包含更多邻域点的信息。在对点云数据进行下采样后,虽然点云数据的数量减少,但下采样后的点云数据包含丰富的特征信息,仍然可以表达整体点云数据的结构信息,进而能够更准确地预测点云数据中每个点的语义类别,提高了点云语义的分割精度。
以上结合附图详细描述了本申请的优选实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。例如,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。又例如,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
还应理解,在本申请的各种方法实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图15本申请一实施例提供的一种点云语义分割装置的结构示意图。如图11所示,该数据检测装置10包括:
获取单元11,用于获取待分割的点云数据;
编码单元12,用于通过语义分割网络中的编码模块,对点云数据进行空间几何形状信息编码和点云数量下采样,得到点云数据中目标数量个点云的第一特征信息;
解码单元13,用于通过语义分割网络中的解码模块,对目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到点云数据的第二特征信息;
预测单元14,用于根据点云数据的第二特征信息,预测点云数据中每个点对应的语义类别。
在一些实施例中,编码单元12中的编码模块包括N个编码层,编码层包括M个局部空间编码单元和一个点云数量下采样单元,N、M均为正整数,编码单元12具体用于针对N个编码层中的第i个编码层,通过第i个编码层中的M个局部空间编码单元,对第i-1个编码层输出的点云数据中第i-1数量个点云的第i-1个第一特征信息进行空间几何形状信息编码,得到点云数据中第i-1数量个点云的第i个第一特征信息,i为从1到N的正整数,若 i=1时,第i-1数量个点云的第i-1个第一特征信息为点云数据的初始特征信息;通过第i个编码层中的点云数量下采样单元,对第i-1数量个点云的第i 个第一特征信息进行点云数量下采样,得到第i数量个点云的第i个第一特征信息;将编码模块中第N个编码层输出的第N数量个点云的第N个第一特征信息,确定为目标数量个点云的第一特征信息。
在一些实施例中,编码单元12中的编码层还包括M个注意力提升单元,一个局部空间编码单元与一个注意力提升单元连接,编码单元12具体用于针对第i个编码层中的第j个局部空间编码单元和第j个注意力提升单元,j 为1到M的正整数,通过第j个局部空间编码单元,确定第j-1个注意力提升单元输出的第i-1数量个点云中每个点的K个邻域点和K个邻域点的第j 个初始特征信息,K为正整数;针对第i-1数量个点云中每个点,以及该点的K个邻域点中的每个邻域点,对邻域点进行空间几何形状信息编码,得到该邻域点的第j个空间位置特征信息,将邻域点的第j个初始特征信息与邻域点的第j个空间位置特征信息融合,得到邻域点的第j个增强特征信息;针对第i-1数量个点云中每个点,通过第j个注意力提升单元对该点的K个邻域点各自的第j个增强特征信息进行特征聚合,得到该点的第j个聚合特征信息;将第M个注意力提升单元输出的第i-1数量个点云的第M个聚合特征信息,确定为第i-1数量个点云的第i个第一特征信息。
在一些实施例中,编码单元12具体用于针对第i-1数量个点云中每个点,以及该点的K个邻域点中的每个邻域点,确定邻域点与该点之间相对位置和绝对位置;将该点的位置信息、邻域点的位置信息、以及该点与邻域点之间相对位置和绝对位置进行融合,得到邻域点的第j个空间位置特征信息。
在一些实施例中,编码单元12具体用于将该点的位置信息、邻域点的位置信息、以及该点与邻域点之间相对位置和绝对位置进行拼接,得到邻域点的空间几何形状编码信息;将邻域点的空间几何形状编码信息通过共享多层感知器处理,得到邻域点的第j个空间位置特征信息。
在一些实施例中,编码单元12具体用于针对第i-1数量个点云中每个点,通过第j个注意力提升单元对点的K个邻域点各自的第j个增强特征信息进行处理,确定该点的K个邻域点各自的注意力分数;根据该点的K个邻域点各自的注意力分数,对K个邻域点各自的第j个增强特征信息进行加权求和,得到该点的第j个聚合特征信息。
在一些实施例中,编码单元12中的注意力提升单元包括共享函数,编码单元12具体用通过共享函数对该点的K个邻域点各自的第j个增强特征信息进行处理,得到该点的K个邻域点各自的注意力分数。
在一些实施例中,解码单元13中的解码模块包括N个解码层,解码层包括一个点云数量上采样单元。解码单元13具体用于针对N个解码层中的第i个解码层,通过第i个解码层中的点云数量上采样单元,对第i-1个解码层输出的点云数据中第i-1数量个点云的第i-1个第二特征信息进行点云数量上采样,得到点云数据中第i数量个点云的第i-1个第二特性信息,i为从1 到N的正整数,若i=1时,则第i-1数量个点云的第i-1个第二特征信息为目标数量个点云的第一特征信息;对第i数量个点云的第i-1个第二特性信息进行特征解码,得到点云数据中第i数量个点云的第i个第二特征信息;根据第N个解码层输出的第N数量个点云的第N个第二特征信息,确定点云数据的第二特征信息。
在一些实施例中,解码单元13具体用于针对第i-1个解码层输出的点云数据中第i-1数量个点云中每个点,通过点云数量上采样单元查询该点的邻域点,将该点的第i-1个第二特征信息赋予邻域点,得到点云数据中第i数量个点云的第i-1个第二特性信息。
在一些实施例中,解码单元13中的解码层还包括一个共享多层感知器,解码单元13具体用于通过第i个解码层中的共享多层感知器将第i数量个点云的第i-1个第二特性信息的特征维数转换至与第i个编码层输出第一特性信息同维数的第三特征信息;将第i个编码层输出的第i数量个点云的第i个第一特性信息和第i个解码层中共享多层感知器输出的第i数量个点云的第三特性信息进行融合,得到点云数据中第i数量个点云的第i个第二特征信息。
在一些实施例中,编码单元12还用于通过随机采样对点云数量进行下采样。
在一些实施例中,编码单元12寻找点云数据中每个点的K个邻域点为点云数据中距离该点最近的K个点。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图10所示的装置可以执行上述模型训练方法的实施例,并且装置中的各个模块的前述和其它操作和/或功能分别为了实现计算设备对应的模型训练方法实施例,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图16是本申请实施例提供的电子设备的示意性框图,该电子设备可以为可以用于执行上述点云语义分割方法。
如图16所示,该电子设备60可包括:
存储器61和处理器62,该存储器61用于存储计算机程序,并将该程序代码传输给该处理器62。换言之,该处理器62可以从存储器61中调用并运行计算机程序,以实现本申请实施例中的方法。
例如,该处理器62可用于根据该计算机程序中的指令执行上述方法实施例。
在本申请的一些实施例中,该处理器62可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本申请的一些实施例中,该存储器61包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器 (Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleData Rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在本申请的一些实施例中,该计算机程序可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器61中,并由该处理器62执行,以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该视频制作设备中的执行过程。
如图16所示,该电子设备60还可包括:
收发器63,该收发器63可连接至该处理器62或存储器61。
其中,处理器62可以控制该收发器63与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器63可以包括发射机和接收机。收发器63还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该设备中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
根据本申请的一个方面,提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
根据本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算设备执行上述方法实施例的方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。
Claims (16)
1.一种点云语义分割方法,其特征在于,包括:
获取待分割的点云数据;
通过语义分割网络中的编码模块,对所述点云数据进行空间几何形状信息编码和点云数量下采样,得到所述点云数据中目标数量个点云的第一特征信息;
通过所述语义分割网络中的解码模块,对所述目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到所述点云数据的第二特征信息;
根据所述点云数据的第二特征信息,预测所述点云数据中每个点对应的语义类别。
2.根据权利要求1所述的方法,其特征在于,所述编码模块包括N个编码层,所述编码层包括M个局部空间编码单元和一个点云数量下采样单元,所述N、M均为正整数,所述通过语义分割网络中的编码模块,对所述点云数据进行空间几何形状信息编码和点云数量下采样,得到所述点云数据中目标数量个点云的第一特征信息,包括:
针对所述N个编码层中的第i个编码层,通过所述第i个编码层中的M个局部空间编码单元,对第i-1个编码层输出的所述点云数据中第i-1数量个点云的第i-1个第一特征信息进行空间几何形状信息编码,得到所述点云数据中第i-1数量个点云的第i个第一特征信息,所述i为从1到N的正整数,若所述i=1时,所述第i-1数量个点云的第i-1个第一特征信息为所述点云数据的初始特征信息;
通过所述第i个编码层中的点云数量下采样单元,对所述第i-1数量个点云的第i个第一特征信息进行点云数量下采样,得到第i数量个点云的第i个第一特征信息;
将所述编码模块中第N个编码层输出的第N数量个点云的第N个第一特征信息,确定为所述目标数量个点云的第一特征信息。
3.根据权利要求2所述的方法,其特征在于,所述编码层还包括M个注意力提升单元,一个局部空间编码单元与一个注意力提升单元连接,所述通过所述第i个编码层中的M个局部空间编码单元,对第i-1个编码层输出的所述点云数据中第i-1数量个点云的第i-1个第一特征信息进行空间几何形状信息编码,得到所述点云数据中第i-1数量个点云的第i个第一特征信息,包括:
针对所述第i个编码层中的第j个局部空间编码单元和第j个注意力提升单元,所述j为1到M的正整数,通过所述第j个局部空间编码单元,确定第j-1个注意力提升单元输出的第i-1数量个点云中每个点的K个邻域点和所述K个邻域点的第j个初始特征信息,所述K为正整数;
针对所述第i-1数量个点云中每个点,以及所述点的K个邻域点中的每个邻域点,对所述邻域点进行空间几何形状信息编码,得到所述邻域点的第j个空间位置特征信息,将所述邻域点的第j个初始特征信息与所述邻域点的第j个空间位置特征信息融合,得到所述邻域点的第j个增强特征信息;
针对所述第i-1数量个点云中每个点,通过所述第j个注意力提升单元对所述点的K个邻域点各自的第j个增强特征信息进行特征聚合,得到所述点的第j个聚合特征信息;
将第M个注意力提升单元输出的所述第i-1数量个点云的第M个聚合特征信息,确定为所述第i-1数量个点云的第i个第一特征信息。
4.根据权利要求3所述的方法,其特征在于,所述对所述邻域点进行空间几何形状信息编码,得到所述邻域点的第j个空间位置特征信息,包括:
针对所述第i-1数量个点云中每个点,以及所述点的K个邻域点中的每个邻域点,确定所述邻域点与所述点之间相对位置和绝对位置;
将所述点的位置信息、所述邻域点的位置信息、以及所述点与所述邻域点之间相对位置和绝对位置进行融合,得到所述邻域点的第j个空间位置特征信息。
5.根据权利要求4所述的方法,其特征在于,所述将所述点的位置信息、所述邻域点的位置信息、以及所述点与所述邻域点之间相对位置和绝对位置进行融合,得到所述邻域点的第j个空间位置特征信息,包括:
将所述点的位置信息、所述邻域点的位置信息、以及所述点与所述邻域点之间相对位置和绝对位置进行拼接,得到所述邻域点的空间几何形状编码信息;
将所述邻域点的空间几何形状编码信息通过共享多层感知器处理,得到所述邻域点的第j个空间位置特征信息。
6.根据权利要求3-5任一项所述的方法,其特征在于,所述通过所述第j个注意力提升单元对所述点的K个邻域点各自的第j个增强特征信息进行特征聚合,得到所述点的第j个聚合特征信息,包括:
针对所述第i-1数量个点云中每个点,通过所述第j个注意力提升单元对所述点的K个邻域点各自的第j个增强特征信息进行处理,确定所述点的K个邻域点各自的注意力分数;
根据所述点的K个邻域点各自的注意力分数,对所述K个邻域点各自的第j个增强特征信息进行加权求和,得到所述点的第j个聚合特征信息。
7.根据权利要求6所述的方法,其特征在于,所述第j个注意力提升单元包括共享函数,所述通过所述第j个注意力提升单元对所述点的K个邻域点各自的第j个增强特征信息进行处理,确定所述点的K个邻域点各自的注意力分数,包括:
通过所述共享函数对所述点的K个邻域点各自的第j个增强特征信息进行处理,得到所述点的K个邻域点各自的注意力分数。
8.根据权利要求2-7任一项所述的方法,其特征在于,所述解码模块包括N个解码层,所述解码层包括一个点云数量上采样单元,所述通过所述语义分割网络中的解码模块,对所述目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到所述点云数据的第二特征信息,包括:
针对所述N个解码层中的第i个解码层,通过所述第i个解码层中的点云数量上采样单元,对第i-1个解码层输出的所述点云数据中第i-1数量个点云的第i-1个第二特征信息进行点云数量上采样,得到所述点云数据中第i数量个点云的第i-1个第二特性信息,所述i为从1到N的正整数,若i=1时,则所述第i-1数量个点云的第i-1个第二特征信息为所述目标数量个点云的第一特征信息;
对所述第i数量个点云的第i-1个第二特性信息进行特征解码,得到所述点云数据中第i数量个点云的第i个第二特征信息;
根据第N个解码层输出的第N数量个点云的第N个第二特征信息,确定所述点云数据的第二特征信息。
9.根据权利要求8所述的方法,其特征在于,所述对第i-1个解码层输出的所述点云数据中第i-1数量个点云的第i-1个第二特征信息进行点云数量上采样,得到所述点云数据中第i数量个点云的第i-1个第二特性信息,包括:
针对第i-1个解码层输出的所述点云数据中第i-1数量个点云中每个点,通过所述点云数量上采样单元查询所述点的邻域点,将所述点的第i-1个第二特征信息赋予所述邻域点,得到所述点云数据中第i数量个点云的第i-1个第二特性信息。
10.根据权利要求8所述的方法,其特征在于,所述解码层还包括一个共享多层感知器,所述第i个解码层与所述第i个编码层桥接,所述对所述第i数量个点云的第i-1个第二特性信息进行特征解码,得到所述点云数据中第i数量个点云的第i个第二特征信息,包括:
通过所述第i个解码层中的共享多层感知器将所述第i数量个点云的第i-1个第二特性信息的特征维数转换至与第i个编码层输出第一特性信息同维数的第三特征信息;
将所述第i个编码层输出的第i数量个点云的第i个第一特性信息和所述第i个解码层中共享多层感知器输出的第i数量个点云的第三特性信息进行融合,得到所述点云数据中第i数量个点云的第i个第二特征信息。
11.根据权利要求2所述的方法,其特征在于,所述点云数量下采样单元通过随机采样对所述点云数量进行下采样。
12.根据权利要求3所述的方法,其特征在于,所述点的K个邻域点为所述点云数据中距离所述点最近的K个点。
13.根据权利要求1所述的方法,其特征在于,所述语义分割网络还包括输入层,所述通过语义分割网络中的编码模块,对所述点云数据进行空间几何形状信息编码和点云数量下采样,得到所述点云数据中目标数量个点云的第一特征信息,包括:
通过所述输入层对所述点云数据进行特征提取,得到所述点云数据的初始特征信息;
通过所述编码模块对所述点云数据的初始特征信息进行空间几何形状信息编码和点云数量下采样,得到所述点云数据中目标数量个点云的第一特征信息。
14.一种点云语义分割装置,其特征在于,包括:
获取单元,用于获取待分割的点云数据;
编码单元,用于通过语义分割网络中的编码模块,对所述点云数据进行空间几何形状信息编码和点云数量下采样,得到所述点云数据中目标数量个点云的第一特征信息;
解码单元,用于通过所述语义分割网络中的解码模块,对所述目标数量个点云的第一特征信息进行点云数量上采样和特征解码,得到所述点云数据的第二特征信息;
预测单元,用于根据所述点云数据的第二特征信息,预测所述点云数据中每个点对应的语义类别。
15.一种电子设备,其特征在于,包括:存储器,处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现如上述权利要求1至13任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至13任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210518958.4A CN114926636A (zh) | 2022-05-12 | 2022-05-12 | 一种点云语义分割方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210518958.4A CN114926636A (zh) | 2022-05-12 | 2022-05-12 | 一种点云语义分割方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114926636A true CN114926636A (zh) | 2022-08-19 |
Family
ID=82807842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210518958.4A Pending CN114926636A (zh) | 2022-05-12 | 2022-05-12 | 一种点云语义分割方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114926636A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091778A (zh) * | 2023-03-28 | 2023-05-09 | 北京五一视界数字孪生科技股份有限公司 | 一种数据的语义分割处理方法、装置及设备 |
CN117557796A (zh) * | 2024-01-12 | 2024-02-13 | 山东省凯麟环保设备股份有限公司 | 一种3d点云语义分割方法、系统、设备及介质 |
WO2024082105A1 (zh) * | 2022-10-17 | 2024-04-25 | Oppo广东移动通信有限公司 | 编解码方法、解码器、编码器及计算机可读存储介质 |
-
2022
- 2022-05-12 CN CN202210518958.4A patent/CN114926636A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024082105A1 (zh) * | 2022-10-17 | 2024-04-25 | Oppo广东移动通信有限公司 | 编解码方法、解码器、编码器及计算机可读存储介质 |
CN116091778A (zh) * | 2023-03-28 | 2023-05-09 | 北京五一视界数字孪生科技股份有限公司 | 一种数据的语义分割处理方法、装置及设备 |
CN117557796A (zh) * | 2024-01-12 | 2024-02-13 | 山东省凯麟环保设备股份有限公司 | 一种3d点云语义分割方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114926636A (zh) | 一种点云语义分割方法、装置、设备及存储介质 | |
CN112258512B (zh) | 点云分割方法、装置、设备和存储介质 | |
CN113688304A (zh) | 搜索推荐模型的训练方法、搜索结果排序的方法及装置 | |
WO2022156561A1 (zh) | 一种自然语言处理方法以及装置 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
Yang et al. | Spatio-temporal domain awareness for multi-agent collaborative perception | |
CN112215332A (zh) | 神经网络结构的搜索方法、图像处理方法和装置 | |
JP2022078310A (ja) | 画像分類モデル生成方法、装置、電子機器、記憶媒体、コンピュータプログラム、路側装置およびクラウド制御プラットフォーム | |
CN113592041B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
WO2023165361A1 (zh) | 一种数据处理方法及相关设备 | |
CN113095370A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
US20210383224A1 (en) | Machine learning method and machine learning system involving data augmentation | |
CN114492723A (zh) | 神经网络模型的训练方法、图像处理方法及装置 | |
US20230154157A1 (en) | Saliency-based input resampling for efficient object detection | |
CN114298122A (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
Yi et al. | Elanet: effective lightweight attention-guided network for real-time semantic segmentation | |
US20220101539A1 (en) | Sparse optical flow estimation | |
WO2023207531A1 (zh) | 一种图像处理方法及相关设备 | |
Li et al. | Multi-view convolutional vision transformer for 3D object recognition | |
CN116958624A (zh) | 指定材质的识别方法、装置、设备、介质及程序产品 | |
CN110717405A (zh) | 人脸特征点定位方法、装置、介质及电子设备 | |
CN114281933A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN112805723A (zh) | 一种图像处理系统、方法以及包括该系统的自动驾驶车辆 | |
US20240086493A1 (en) | Method for diagnosing a dataset to generate synthetic data, and a computing device and system for performing such a method | |
CN115880574A (zh) | 一种水下光学图像轻量化目标识别方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 314500 988 Tong Tong Road, Wu Tong Street, Tongxiang, Jiaxing, Zhejiang Applicant after: United New Energy Automobile Co.,Ltd. Address before: 314500 988 Tong Tong Road, Wu Tong Street, Tongxiang, Jiaxing, Zhejiang Applicant before: Hezhong New Energy Vehicle Co.,Ltd. |