CN111192265A - 一种基于点云的语义实例确定方法、装置、电子设备及存储介质 - Google Patents
一种基于点云的语义实例确定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111192265A CN111192265A CN201911360880.2A CN201911360880A CN111192265A CN 111192265 A CN111192265 A CN 111192265A CN 201911360880 A CN201911360880 A CN 201911360880A CN 111192265 A CN111192265 A CN 111192265A
- Authority
- CN
- China
- Prior art keywords
- point
- module
- information
- feature
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013589 supplement Substances 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims description 50
- 238000000605 extraction Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 5
- 238000007499 fusion processing Methods 0.000 claims description 5
- 230000009469 supplementation Effects 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 18
- 230000000295 complement effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 230000000153 supplemental effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于点云的语义实例确定方法、装置、电子设备及存储介质,所述方法包括:将点云输入训练后的编码模块,得到多个点集中每个点集对应的包含集合补充信息和集合关系信息的特征信息;所述编码模块包含区域特征补充模块和区域关系推理模块;所述多个点集中的点的并集为所述点云,至少有两个点集中存在交集;基于训练后的语义实例确定模块对所述每个点集对应的包含集合补充信息和集合关系信息的特征信息进行语义和实例的确定,得到所述点云中每个点的语义标签和实例标签;所述语义标签用于表征所述每个点所属的类别;所述实例标签用于表征所述每个点所属的实例,可以降低稀疏区域的点云分割的错误率。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种基于点云的语义实例确定方法、装置、电子设备及存储介质。
背景技术
基于3D点云的场景理解包括点云语义分割、点云目标分割、点云实例分割等任务。点云语义实例分割任务是点云语义分割和实例分割的联合任务,是一种新兴的点云分割任务。这项技术可以应用于室外自主驾驶和室内服务机器人等领域,具有巨大的应用价值,比如室内的送餐机器人可以根据分割出的语义和实例,判断出房间内的物体类别和个数,根据指令找到指定的桌子和具体的顾客。
3D点云语义实例分割算法往往包括两个分支,即实例分支和语义分支。对于实例分支,可分为有候选框的和无候选框的。有候选框的方法首先利用神经网络生成很多候选框,然后对候选框采用各种算法(如非极大值抑制)加以筛选删减,再进一步在候选框内求实例掩模,得到实例分割结果;无候选框的方法首先利用神经网络的编码和解码生成每个点的特征表示,然后利用聚类算法对这些点的特征表示进行聚类组合以分割实例。对于语义分支,则一般采用PointNet++的结构,利用Softmax分类器得到每个点属于每个类的概率,然后取最大概率对应的类作为该点的初始语义标签。最后,以实例为基准,取每个实例内的语义类别众数作为该实例的语义标签,得到最终的语义实例分割结果。
然而,在实例分支和语义分支之前,编码模块在编码部分忽略了点云密度不一致性。具体的,在点云数据的获取中,点云大多是稀疏且不均匀的,但是,现有的语义实例分割任务的编码部分大多采用的PointNet++的SA模块在进行编码时并没有考虑到这一点,导致稀疏区域的点云容易分割错误。
发明内容
本申请实施例提供了一种基于点云的语义实例确定方法、装置、电子设备及存储介质,可以降低稀疏区域的点云分割的错误率。
一方面,本申请实施例提供了一种基于点云的语义实例确定方法,该方法包括:
将点云输入训练后的编码模块,得到多个点集中每个点集对应的包含集合补充信息和集合关系信息的特征信息;所述编码模块包含区域特征补充模块和区域关系推理模块;所述多个点集中的点的并集为所述点云,至少有两个点集中存在交集;
基于训练后的语义实例确定模块对所述每个点集对应的包含集合补充信息和集合关系信息的特征信息进行语义和实例的确定,得到所述点云中每个点的语义标签和实例标签;
所述语义标签用于表征所述每个点所属的类别;所述实例标签用于表征所述每个点所属的实例。
另一方面提供了一种基于点云的语义实例确定装置,该装置包括:
特征信息确定模块,用于将点云输入训练后的编码模块,得到多个点集中每个点集对应的包含集合补充信息和集合关系信息的特征信息;所述编码模块包含区域特征补充模块和区域关系推理模块;所述多个点集中的点的并集为所述点云,至少有两个点集中存在交集;
语义实例确定模块,用于基于训练后的语义实例确定模块对所述每个点集对应的包含集合补充信息和集合关系信息的特征信息进行语义和实例的确定,得到所述点云中每个点的语义标签和实例标签;
所述语义标签用于表征所述每个点所属的类别;所述实例标签用于表征所述每个点所属的实例。
另一方面提供了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行如上述的基于点云的语义实例确定方法。
另一方面提供了一种计算机可读存储介质,计算机存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述的基于点云的语义实例确定方法。
本申请实施例提供的基于点云的语义实例确定方法、装置、电子设备及存储介质,具有如下技术效果:
将点云输入训练后的编码模块,得到多个点集中每个点集对应的包含集合补充信息和集合关系信息的特征信息;所述编码模块包含区域特征补充模块和区域关系推理模块;所述多个点集中的点的并集为所述点云,至少有两个点集中存在交集;基于训练后的语义实例确定模块对所述每个点集对应的包含集合补充信息和集合关系信息的特征信息进行语义和实例的确定,得到所述点云中每个点的语义标签和实例标签;所述语义标签用于表征所述每个点所属的类别;所述实例标签用于表征所述每个点所属的实例,可以降低稀疏区域的点云分割的错误率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种基于点云的语义实例确定方法的流程示意图;
图3是本申请实施例提供的一种编码模块的结构示意图;
图4是本申请实施例提供的一种编码模块的结构示意图;
图5是本申请实施例提供的一种当前点集在当前补充处理层中的处理的流程示意图;
图6是本申请实施例提供的一种当前点集在区域关系推理模块中的处理的流程示意图;
图7是本申请实施例提供的一种推理的具体示意图;
图8是本申请实施例提供的一种语义实例确定模块的结构示意图;
图9是本申请实施例提供的一种基于点云的语义实例确定装置的结构示意图;
图10是本申请实施例提供的一种基于点云的语义实例确定方法的服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,包括服务器101和终端设备102,其中,服务器101包括编码模块和语义实例确定模块,可以通过编码模块和语义实例确定模块对每个点集对应的包含集合补充信息和集合关系信息的特征信息进行语义和实例的确定,得到所述点云中每个点的语义标签和实例标签。且服务器101可以为下游的终端设备102提供语义和实例的确定的服务器。比如,终端设备102获取点云后,可以向服务器101上传该点云,以使服务器101可以对该点云进行语义和实例的确定。
具体的,服务器101将点云输入训练后的编码模块,得到多个点集中每个点集对应的包含集合补充信息和集合关系信息的特征信息,其中,编码模块包含区域特征补充模块和区域关系推理模块,多个点集中的点的并集为点云,至少有两个点集中存在交集。服务器101基于训练后的语义实例确定模块对每个点集对应的包含集合补充信息和集合关系信息的特征信息进行语义和实例的确定,得到点云中每个点的语义标签和实例标签;语义标签用于表征每个点所属的类别;实例标签用于表征每个点所属的实例。
本申请实施例中,执行主语可以是图1所示的服务器,还可以是一个服务器平台或者服务器集群,该平台或者集群中可以包括多个服务器。
本申请实施例中,服务器101和终端设备102可以通过无线链路连接。
本申请实施例中,该平台或者集群中包括的多个服务器可以通过无线链路连接,还可以通过有线链路连接。通信链路类型的选择可以根据实际的应用情况和应用环境而定。可选的,该平台或者集群中包括的多个服务器可以被设置在同一个空间内。
本申请实施例中。服务器101还可以是计算机终端或者类似的运算装置。终端设备102可以是智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备;其中,智能可穿戴设备可以包括智能手环、智能手表、智能眼镜、智能头盔等。当然,所述终端设备102并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软体,例如,所述终端设备102可以为服务商提供给用户的网页页面或应用。
以下介绍本申请一种基于点云的语义实例确定方法的具体实施例,图2是本申请实施例提供的一种基于点云的语义实例确定方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:
S201:将点云输入训练后的编码模块,得到多个点集中每个点集对应的包含集合补充信息和集合关系信息的特征信息;所述编码模块包含区域特征补充模块和区域关系推理模块;所述多个点集中的点的并集为所述点云,至少有两个点集中存在交集。
可选的,点云是服务器通过3D相机获得的,或者服务器通过激光雷达获得的。
本申请实施例中,编码模块除了包括区域特征补充模块和区域关系推理模块,还可以包括特征信息提取模块,该特征信息提取模块的个数可以是一个,还可以是多个。可选的,该特征信息提取模块可以是PointNet++中的集合抽象(Set abstraction,SA)模块。可选的,区域特征补充模块的个数可以是一个,还可以是多个。可选的,区域关系推理模块的个数可以是一个,还可以是多个。
一种可选的实施方式中,多个特征信息提取模块中的每个特征信息提取模块包含多个卷积层,多个特征信息提取模块、区域特征补充模块和区域关系推理模块之间串联连接;多个特征信息提取模块中,至少存在一个特征信息提取模块位于区域特征补充模块之前,且至少存在一个的特征信息提取模块位于区域特征补充模块之后;至少存在一个的特征信息提取模块位于区域关系推理模块之前;且区域特征补充模块位于区域关系推理模块之前。
现有技术中,如图3所示,编码模块包括4个SA模块,其中,SA模块的输入为N×d,比如4096*9,4096表示输入该SA模块的点云中的点的个数为4096个,9表示每个点的维度信息为9维的[xyzr gbx′y′z′],其中,x′y′z′是归一化的xyz。输出为N′×d′,N′个中心点是通过对N个点实行最远点采样得到的,然后找到这些中心点的固定半径内的点,随机采样成固定数目,利用PointNet的逐点特征学习(通过多层感知机MLP实现)和最大池化操作得到该中心点的特征表示。
具体地,SA(K,r,[l1,...,ld])表示SA模块。K是输入的中心点或区域(之所以说区域,是因为该中心点包含了局部区域的上下文信息)数目,r是固定的球形查找半径,li(i=1,...,d)表示PointNet结构中1×1卷积层的输出通道。所以,图3所示的4个SA模块的编码部分如下:
第一个SA模块:SA(1024,0.1,[32,32,64]),总体而言,是指输入为4096个点,每个点包括9个维度信息,输出为1024个点,每个点包括64个维度信息。具体地,该SA模块包括3个卷积层,第一个卷积层输入的每个点包括9个维度信息,输出的每个点包括32个维度信息;第二个卷积层输入的每个点包括32个维度信息,输出的每个点包括32个维度信息;第三个卷积层输入的每个点包括32个维度信息,输出的每个点包括64个维度信息。同理可解释第二个SA模块:SA(256,0.2,[64,64,128])、第三个SA模块SA(64,0.4,[128,128,256])和第四个SA模块SA(16,0.8,[256,256,512])。
然而,编码模块忽略了点云密度不一致性。在点云数据的获取中,点云大多是稀疏且不均匀的,PointNet++的SA模块没有考虑到这一点,导致稀疏区域的点云容易分割错误。且区域关系推理在人类理解场景中扮演了重要的角色,区域关系推理指的是区域与区域之间的交互或逻辑关系。比如桌子的旁边往往有椅子,椅子的四条腿是对称的等等,这些都是区域之间的推理关系。然而编码模块的SA模块并未考虑区域与区域之间的推理关系,导致分割结果有较多的实例混淆或部件混淆(实例混淆举例:比如相邻的两把椅子被组合成一个实例;部件混淆举例:比如由于桌子和椅子离得过近,桌子的腿或其他部件和旁边的椅子组合成一个实例)。
为了解决上述为题,如图4所示,编码模块包括4个SA模块,2个区域特征补充模块和2个区域关系推理模块,串联关系为SA模块-区域特征补充模块-SA模块-区域特征补充模块-SA模块-区域关系推理模块-SA模块-区域关系推理模块。
本申请实施例中,每个区域特征补充模块包括至少一层补充处理层。可选的,本申请还包括待处理的当前点集在当前补充处理层中的处理步骤,当前补充处理层为至少一层补充处理层中当前执行的补充处理层,当前点集为多个点集中当前处理的点集,如图5所示,包括:
以图4中的第一个区域特征补充模块为例,从上一个模块,也就是第一个SA模块输出了1024个点,在这里,可以看做是1024个点集,1024个点集中每个点集都需要在当前补充处理层进行处理,处理每个点集时,可以把该点集看做当前点集。且每个点集包括64个维度信息。
S501:从多个点集中确定出当前点集对应的多个邻近点集。
可选的,服务器可以从其他1023个点集中确定中当前点集对应的多个邻近点集,比如找到4个邻近点集。
S502:基于最大聚合器从多个邻近点集中每个邻近点集的特征信息和当前点集的特征信息确定出当前点集的相关特征信息;特征信息为输入当前补充处理层的特征信息。
可选地,若当前补充处理层为第一层补充处理层,则每个邻近点集的特征信息和当前点集的特征信息都是64个维度信息,也就是64个维度的特征信息,并不包含集合补充信息,若当前补充处理层为第一层之后的补充处理层,则每个邻近点集的特征信息和当前点集的特征信息为64个维度的包含集合补充信息的特征信息。
具体的,服务器可以基于最大聚合器确定4个邻近点集中每个邻近点集的特征信息和当前点集的特征信息之间的64个维度的相对特征信息,总共得到了4个64个维度的相对特征信息,服务器可以从同一个维度的4个相对特征信息中确定最大的相对特征信息作为代表,得到当前点集的相关特征信息,相关特征信息为64个维度的特征信息。
具体的公式如下:
S503:通过多层感知机MLP基于当前点集的相关特征信息和当前点集的特征信息确定当前点集的待补充特征信息。
将相关特征信息和当前点集的特征信息拼接,得到128个维度的特征信息,通过多层感知机MLP做融合处理,得到当前点集的待补充特征信息,待补充特征信息为64个维度的特征信息。
S504:基于待补充特征信息和当前点集的特征信息之和确定当前点集在当前补充处理层输出的包含集合补充信息的特征信息。
待补充特征信息和当前点集的特征信息之和是指将同一个维度的2个特征信息相加,因此,当前点集在当前补充处理层输出的包含集合补充信息的特征信息为64维度的。
具体公式如下:
每一个点集都可以做如S501-S504的处理。
一种可选的实施方式中,若第一个区域特征补充模块仅仅包含一个补充处理层,则在S501中,利用空间位置坐标xyz计算距离找k个近邻点集。且当前补充处理层输出的包含集合补充信息的特征信息就是该第一个区域特征补充模块输出的包含集合补充信息的特征信息。
另一种可选的实施方式中,若第一个区域特征补充模块包含多层补充处理层,比如3层补充处理层,通过上述S501-S504得到每一层补充处理层输出的包含集合补充信息的特征信息和待处理的当前点集在第一个区域特征补充模块的处理步骤,包括:通过多层感知机对区域特征补充模块中每一层补充处理层输出的包含集合补充信息的特征信息和进行融合处理,得到当前点集在第一个区域特征补充模块输出的包含集合补充信息的特征信息。
具体公式如下:
比如,将上述3个包含集合补充信息的特征信息和拼接,得到192个维度的特征信息,随后利用多层感知机对192个维度的特征信息进行融合处理,得到当前点集在第一个区域特征补充模块输出的包含集合补充信息的特征信息,该包含集合补充信息的特征信息是64个维度的。若第一个区域特征补充模块包含多个补充处理层,每一层补充处理层利用上一层补充处理层得到的特征信息表示计算距离。
基于上述阐述,1024个点集中每个点集对应64个维度的包含集合补充信息的特征信息。
本申请实施例还包括待处理的当前点集在区域关系推理模块中的处理步骤,当前点集为多个点集中当前处理的点集,整体可以用如下公式表示:
其中,fr表示推理的具体动作,具体步骤如图6所示,包括:
S601:根据每个非当前点集的位置信息和当前点集的位置信息确定出每个非当前点集对应的位置亲和度;
S602:根据每个非当前点集的特征信息和当前点集的特征信息确定出每个非当前点集对应的特征亲和度;特征信息为输入区域关系推理模块的特征信息;
S603:基于多层感知机、拼接机制和聚合处理对同一个非当前点集对应的位置亲和度和特征亲和度进行处理,得到当前点集的关系推理特征信息。
其中的聚合处理,用公式表示如下,
S604:根据当前点集的关系推理特征信息和当前点集的特征信息之和确定述当前点集在点集关系推理模输出的包含集合关系信息的特征信息。
fr表示推理的具体动作可以如图7所示。
如此,上述的区域特征补充模块旨在对稀疏区域的低级特征进行自适应补充,弥补点云本身的稀疏和密度不一致性,上述的区域关系推理模块旨在对具有大接收野区域的高级特征进行关系推理,减少部件混淆或实例混淆。
S202:基于训练后的语义实例确定模块对每个点集对应的包含集合补充信息和集合关系信息的特征信息进行语义和实例的确定,得到点云中每个点的语义标签和实例标签;语义标签用于表征每个点所属的类别;实例标签用于表征每个点所属的实例。
本申请实施例中,如图8所示,语义实例确定模块包括语义确定模块和实例确定模块;语义确定模块和实例确定模块并联连接;语义确定模块包括语义解码模块,逐点语义特征确定模块,语义标签输出模块,语义解码模块的输入端和编码模块的输出端相连;实例确定模块包括实例解码模块,逐点实例特征确定模块,实例标签输出模块,实例解码模块的输入端和编码模块的输出端相连。
现有技术中,该实例确定模块的判别损失函数为:
L=Ltntra+Ltnter+α·Lreg
其中,I表示真值实例的个数,Nt表示实例i中的点数,μt表示实例i的均值特征表示,||·||1表示l1范数距离,ej表示一个点的特征表示,δv和δd都是超参数,[x]+=max(0,x)。Ltntra的目的是让同一个实例的点的特征表示相似;Ltnter的目的是让不同实例的点的特征表示远离;Lreg是正则项。
然而,现有的判别损失函数只考虑了特征空间,忽略了三维空间的结构信息。
本申请实施例中的实例确定模块的判别损失函数为:
L=Ltntra+Ltnter+α·Lreg;
其中,I表示真值实例的个数,Nt表示实例i中的点数,μf,t表示实例i的均值特征空间的特征表示,||·||1表示l1范数距离,fj表示一个点的特征空间的特征表示,lj表示一个点的空间位置xyz,ul,i表示实例i的均值位置空间的特征表示,δv和δd都是超参数,[x]+=max(0,x)。
下面进行具体阐述,在同一个实例内,越是靠近实例中心的点与中心的点的特征表示越容易相似,而远离实例中心(如边缘)的点与中心的点的特征表示很可能不同。因此,本发明结合这一原理,引入了空间结构信息,根据一个点与中心点的距离施加不同的惩罚强度,即:
当实例内的某个点几乎与中心点重合时,即||lj-μl,i||1→0,那么wi,j→1;当||lj-μl,i||1变大,那么wi,j变大。||lj-μl,i||1的大小和场景中实例的尺寸有关。至于实例的中心位置坐标μi,t,并非简单的求和平均实例内所有点的位置坐标,而是利用主成分分析的方法,先对实例内的点进行筛选信息量大的,然后对这些点求和取平均得到。
在不同实例内,两个相距较近的实例往往更容易得到相似的特征表示,进而导致被聚类成一个实例,而两个相距较远的实例的特征表示是不同的,不容易被聚类成一个实例。因此,本发明结合这一原理,引入了空间结构信息,根据两个实例中心的距离施加不同的惩罚强度,即
如此,双空间感知的判别损失函数旨在对同一实例(内部空间)和不同实例(外部空间)的点的特征表示利用三维空间结构信息辅助使其更加可判别。具体地,同一实例的点距离实例中心越远惩罚力度越大,即拉力越大;不同实例的中心相距越近惩罚力度越大,即斥力越大。
综上,通过本申请实施例中的技术方案,可以对点云进行更精确的语义和实例分割,降低点云分割的错误率。如此,可以在后续的语义标签和实例标签的输出中,得到更准确的结果。
本申请实施例还提供了一种基于点云的语义实例确定装置,图9是本申请实施例提供的一种基于点云的语义实例确定装置的结构示意图,如图9所示,该装置包括:
特征信息确定模块901用于将点云输入训练后的编码模块,得到多个点集中每个点集对应的包含集合补充信息和集合关系信息的特征信息;编码模块包含区域特征补充模块和区域关系推理模块;多个点集中的点的并集为点云,至少有两个点集中存在交集;
语义实例确定模块902用于基于训练后的语义实例确定模块对每个点集对应的包含集合补充信息和集合关系信息的特征信息进行语义和实例的确定,得到点云中每个点的语义标签和实例标签;语义标签用于表征每个点所属的类别;实例标签用于表征每个点所属的实例。
在一种可选的实施方式中,特征信息确定模块901用于:
从多个点集中确定出当前点集对应的多个邻近点集;基于最大聚合器从多个邻近点集中每个邻近点集的特征信息和当前点集的特征信息确定出当前点集的相关特征信息;特征信息为输入当前补充处理层的特征信息;通过多层感知机基于当前点集的相关特征信息和当前点集的特征信息确定当前点集的待补充特征信息;基于待补充特征信息和当前点集的特征信息之和确定当前点集在当前补充处理层输出的包含集合补充信息的特征信息。
在一种可选的实施方式中,特征信息确定模块901用于:
通过多层感知机对区域特征补充模块中每一层补充处理层输出的包含集合补充信息的特征信息进行融合处理,得到当前点集在区域特征补充模块输出的包含集合补充信息的特征信息。
在一种可选的实施方式中,特征信息确定模块901用于:
根据每个非当前点集的位置信息和当前点集的位置信息确定出每个非当前点集对应的位置亲和度;根据每个非当前点集的特征信息和当前点集的特征信息确定出每个非当前点集对应的特征亲和度;特征信息为输入区域关系推理模块的特征信息;基于多层感知机、拼接机制和聚合处理对同一个非当前点集对应的位置亲和度和特征亲和度进行处理,得到当前点集的关系推理特征信息;根据当前点集的关系推理特征信息和当前点集的特征信息之和确定述当前点集在点集关系推理模输出的包含集合关系信息的特征信息。
本申请实施例中的装置与方法实施例基于同样地申请构思。
本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图10是本申请实施例提供的一种基于点云的语义实例确定方法的服务器的硬件结构框图。如图10所示,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030,一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中,存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1010可以设置为与存储介质1020通信,在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1040,和/或,一个或一个以上操作系统1021,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中,输入输出接口1040包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1040可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1000还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
本申请的实施例还提供了一种计算机存储介质,所述计算机存储介质可设置于服务器之中以保存用于实现方法实施例中一种基于点云的语义实例确定方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述基于点云的语义实例确定方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的基于点云的语义实例确定方法、设备或存储介质的实施例可见,本申请中通过将点云输入训练后的编码模块,得到多个点集中每个点集对应的包含集合补充信息和集合关系信息的特征信息;所述编码模块包含区域特征补充模块和区域关系推理模块;所述多个点集中的点的并集为所述点云,至少有两个点集中存在交集;基于训练后的语义实例确定模块对所述每个点集对应的包含集合补充信息和集合关系信息的特征信息进行语义和实例的确定,得到所述点云中每个点的语义标签和实例标签;所述语义标签用于表征所述每个点所属的类别;所述实例标签用于表征所述每个点所属的实例,可以降低稀疏区域的点云分割的错误率。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于点云的语义实例确定方法,其特征在于,所述方法包括:
将点云输入训练后的编码模块,得到多个点集中每个点集对应的包含集合补充信息和集合关系信息的特征信息;所述编码模块包含区域特征补充模块和区域关系推理模块;所述多个点集中的点的并集为所述点云,至少有两个点集中存在交集;
基于训练后的语义实例确定模块对所述每个点集对应的包含集合补充信息和集合关系信息的特征信息进行语义和实例的确定,得到所述点云中每个点的语义标签和实例标签;
所述语义标签用于表征所述每个点所属的类别;所述实例标签用于表征所述每个点所属的实例。
2.根据权利要求1所述的方法,其特征在于,所述编码模块还包括多个特征信息提取模块;
所述多个特征信息提取模块中的每个特征信息提取模块包含多个卷积层;
所述多个特征信息提取模块、所述区域特征补充模块和所述区域关系推理模块之间串联连接;
所述多个特征信息提取模块中,至少存在一个所述特征信息提取模块位于所述区域特征补充模块之前,且至少存在一个所述特征信息提取模块位于所述区域特征补充模块之后;至少存在一个所述特征信息提取模块位于所述区域关系推理模块之前;且所述区域特征补充模块位于所述区域关系推理模块之前。
3.根据权利要求2所述的方法,其特征在于,所述区域特征补充模块包括至少一层补充处理层;所述方法包括待处理的当前点集在当前补充处理层中的处理步骤,所述当前补充处理层为所述至少一层补充处理层中当前执行的补充处理层;所述当前点集为所述多个点集中当前处理的点集,包括:
从所述多个点集中确定出所述当前点集对应的多个邻近点集;
基于最大聚合器从所述多个邻近点集中每个邻近点集的特征信息和所述当前点集的特征信息确定出所述当前点集的相关特征信息;所述特征信息为输入所述当前补充处理层的特征信息;
通过多层感知机基于所述当前点集的相关特征信息和所述当前点集的特征信息确定所述当前点集的待补充特征信息;
基于所述待补充特征信息和所述当前点集的特征信息之和确定所述当前点集在所述当前补充处理层输出的包含集合补充信息的特征信息。
4.根据权利要求3所述的方法,其特征在于,所述方法包括待处理的所述当前点集在所述区域特征补充模块的处理步骤,包括:
通过多层感知机对所述区域特征补充模块中每一层所述补充处理层输出的包含集合补充信息的特征信息进行融合处理,得到所述当前点集在所述区域特征补充模块输出的包含集合补充信息的特征信息。
5.根据权利要求2所述的方法,其特征在于,所述方法包括待处理的当前点集在所述区域关系推理模块中的处理步骤,所述当前点集为所述多个点集中当前处理的点集,包括:
根据每个非当前点集的位置信息和所述当前点集的位置信息确定出每个所述非当前点集对应的位置亲和度;
根据每个非当前点集的特征信息和所述当前点集的特征信息确定出每个所述非当前点集对应的特征亲和度;所述特征信息为输入所述区域关系推理模块的特征信息;
基于多层感知机、拼接机制和聚合处理对所述同一个非当前点集对应的位置亲和度和特征亲和度进行处理,得到所述当前点集的关系推理特征信息;
根据所述当前点集的关系推理特征信息和所述当前点集的特征信息之和确定所述述当前点集在所述点集关系推理模输出的包含集合关系信息的特征信息。
6.根据权利要求1所述的方法,其特征在于,所述语义实例确定模块包括语义确定模块和实例确定模块;所述语义确定模块和所述实例确定模块并联连接;
所述语义确定模块包括语义解码模块,逐点语义特征确定模块,语义标签输出模块,所述语义解码模块的输入端和所述编码模块的输出端相连;
所述实例确定模块包括实例解码模块,逐点实例特征确定模块,实例标签输出模块,所述实例解码模块的输入端和所述编码模块的输出端相连。
8.一种基于点云的语义实例确定装置,其特征在于,所述装置包括:
特征信息确定模块,用于将点云输入训练后的编码模块,得到多个点集中每个点集对应的包含集合补充信息和集合关系信息的特征信息;所述编码模块包含区域特征补充模块和区域关系推理模块;所述多个点集中的点的并集为所述点云,至少有两个点集中存在交集;
语义实例确定模块,用于基于训练后的语义实例确定模块对所述每个点集对应的包含集合补充信息和集合关系信息的特征信息进行语义和实例的确定,得到所述点云中每个点的语义标签和实例标签;
所述语义标签用于表征所述每个点所属的类别;所述实例标签用于表征所述每个点所属的实例。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-7任一项所述的基于点云的语义实例确定方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-7任一项所述的基于点云的语义实例确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911360880.2A CN111192265B (zh) | 2019-12-25 | 2019-12-25 | 一种基于点云的语义实例确定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911360880.2A CN111192265B (zh) | 2019-12-25 | 2019-12-25 | 一种基于点云的语义实例确定方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111192265A true CN111192265A (zh) | 2020-05-22 |
CN111192265B CN111192265B (zh) | 2020-12-01 |
Family
ID=70709383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911360880.2A Active CN111192265B (zh) | 2019-12-25 | 2019-12-25 | 一种基于点云的语义实例确定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111192265B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931782A (zh) * | 2020-08-12 | 2020-11-13 | 中国科学院上海微系统与信息技术研究所 | 语义分割方法、系统、介质及装置 |
CN112614134A (zh) * | 2020-12-17 | 2021-04-06 | 北京迈格威科技有限公司 | 图像分割方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102800125A (zh) * | 2012-06-18 | 2012-11-28 | 浙江大学 | 一种支持套索的大规模点云选择方法 |
US20180158197A1 (en) * | 2016-12-01 | 2018-06-07 | Skydio, Inc. | Object tracking by an unmanned aerial vehicle using visual sensors |
CN109034077A (zh) * | 2018-08-01 | 2018-12-18 | 湖南拓视觉信息技术有限公司 | 一种基于多尺度特征学习的三维点云标记方法和装置 |
CN109493407A (zh) * | 2018-11-19 | 2019-03-19 | 腾讯科技(深圳)有限公司 | 实现激光点云稠密化的方法、装置及计算机设备 |
CN109767446A (zh) * | 2018-12-28 | 2019-05-17 | 北京市商汤科技开发有限公司 | 一种实例分割方法及装置、电子设备、存储介质 |
CN109886272A (zh) * | 2019-02-25 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 点云分割方法、装置、计算机可读存储介质和计算机设备 |
CN110570429A (zh) * | 2019-08-30 | 2019-12-13 | 华南理工大学 | 一种基于三维点云的轻量级实时语义分割方法 |
-
2019
- 2019-12-25 CN CN201911360880.2A patent/CN111192265B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102800125A (zh) * | 2012-06-18 | 2012-11-28 | 浙江大学 | 一种支持套索的大规模点云选择方法 |
US20180158197A1 (en) * | 2016-12-01 | 2018-06-07 | Skydio, Inc. | Object tracking by an unmanned aerial vehicle using visual sensors |
CN109034077A (zh) * | 2018-08-01 | 2018-12-18 | 湖南拓视觉信息技术有限公司 | 一种基于多尺度特征学习的三维点云标记方法和装置 |
CN109493407A (zh) * | 2018-11-19 | 2019-03-19 | 腾讯科技(深圳)有限公司 | 实现激光点云稠密化的方法、装置及计算机设备 |
CN109767446A (zh) * | 2018-12-28 | 2019-05-17 | 北京市商汤科技开发有限公司 | 一种实例分割方法及装置、电子设备、存储介质 |
CN109886272A (zh) * | 2019-02-25 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 点云分割方法、装置、计算机可读存储介质和计算机设备 |
CN110570429A (zh) * | 2019-08-30 | 2019-12-13 | 华南理工大学 | 一种基于三维点云的轻量级实时语义分割方法 |
Non-Patent Citations (2)
Title |
---|
HUIFANG MA 等: "A Semantic Labeling Strategy to Reject Unknown Objects in Large Scale 3D Point Clouds", 《PROCEEDINGS OF THE 35TH CHINESE CONTROL CONFERENCE》 * |
杨永涛 等: "一种利用曲率约束的改进K-means三维点云数据分割方法", 《小型微型计算机系统》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931782A (zh) * | 2020-08-12 | 2020-11-13 | 中国科学院上海微系统与信息技术研究所 | 语义分割方法、系统、介质及装置 |
CN111931782B (zh) * | 2020-08-12 | 2024-03-01 | 中国科学院上海微系统与信息技术研究所 | 语义分割方法、系统、介质及装置 |
CN112614134A (zh) * | 2020-12-17 | 2021-04-06 | 北京迈格威科技有限公司 | 图像分割方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111192265B (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zeng et al. | Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching | |
Ghosh et al. | Edge-cloud computing for Internet of Things data analytics: Embedding intelligence in the edge with deep learning | |
Hossain et al. | Improving consumer satisfaction in smart cities using edge computing and caching: A case study of date fruits classification | |
CN113011282A (zh) | 图数据处理方法、装置、电子设备及计算机存储介质 | |
Furukawa | SOM of SOMs | |
CN111931002B (zh) | 一种匹配方法以及相关设备 | |
CN109344314B (zh) | 一种数据处理方法、装置及服务器 | |
CN109409994A (zh) | 模拟用户穿戴服装饰品的方法、装置和系统 | |
CN111192265B (zh) | 一种基于点云的语义实例确定方法、装置、电子设备及存储介质 | |
CN110807379B (zh) | 一种语义识别方法、装置、以及计算机存储介质 | |
WO2022161387A1 (zh) | 一种神经网络的训练方法及相关设备 | |
CN110225368A (zh) | 一种视频定位方法、装置及电子设备 | |
Güçlü et al. | End-to-end semantic face segmentation with conditional random fields as convolutional, recurrent and adversarial networks | |
Aziz et al. | Automated solutions for crowd size estimation | |
Liu et al. | Efficient neural networks for edge devices | |
CN110427564A (zh) | 将深度学习集成到广义加性混合效应(game)框架中 | |
CN108959664A (zh) | 基于图片处理器的分布式文件系统 | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
CN113887501A (zh) | 行为识别方法、装置、存储介质及电子设备 | |
CN112805723B (zh) | 一种图像处理系统、方法以及包括该系统的自动驾驶车辆 | |
Lin et al. | LA-Net: LSTM and attention based point cloud down-sampling and its application | |
US20230244985A1 (en) | Optimized active learning using integer programming | |
CN114462526B (zh) | 一种分类模型训练方法、装置、计算机设备及存储介质 | |
CN116955698A (zh) | 一种匹配模型训练方法、装置、电子设备及存储介质 | |
CN113298628B (zh) | 智能货柜摆放方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |