CN112883979A - 三维实例分割方法、装置、设备和计算机可读存储介质 - Google Patents
三维实例分割方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN112883979A CN112883979A CN202110267819.4A CN202110267819A CN112883979A CN 112883979 A CN112883979 A CN 112883979A CN 202110267819 A CN202110267819 A CN 202110267819A CN 112883979 A CN112883979 A CN 112883979A
- Authority
- CN
- China
- Prior art keywords
- candidate frame
- prediction
- point
- network
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开提供一种三维实例分割方法、装置、设备和计算机可读存储介质,将待分割点云输入骨干网络中提取特征,得到点云特征;将点云特征输入语义分割网络和中心预测网络,语义分割网络预测每个点的语义类别,从而确定目标点,中心预测网络预测点所属实例的中心点,得到多个目标点分别对应的预测中心点,目标点为待分割点云中属于目标对象的点,将所有的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框,获取三维候选框覆盖的点云特征,根据三维候选框覆盖的点云特征,得到三维候选框对应的候选框特征,根据三维候选框对应的候选框特征和掩码预测网络,得到每个目标对象分别对应的目标点云。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种三维实例分割方法、装置、设备和计算机可读存储介质。
背景技术
随着计算机技术的发展,基于点云进行三维(3-dimension,简称3D)实例分割的应用已经越来越多,例如,在齿科数字化技术领域,基于口腔扫描数据或桌面扫描数据得到的口腔点云,对口腔点云进行牙齿分割,可广泛应用于正畸诊断、口腔外科手术、治疗计划的制定等场景。
基于深度学习的方法使得三维实例分割取得了显著的进步。目前常见的三维实例分割的方法,将点云进行语义分割后通过一系列的聚类操作来实现实例分割。
但是,这类方法的输出结果的物体性较差;此外,对于密集排布的物体的分割效果不好,例如,密集排列的牙齿,容易将相邻的不同牙齿的点分配到同一个牙齿中。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种三维实例分割方法、装置、设备和计算机可读存储介质。
第一方面,本公开提供一种三维实例分割方法,包括:将待分割点云输入骨干网络中提取特征,得到点云特征;根据点云特征、语义分割网络和中心预测网络,得到多个目标点分别对应的预测中心点,其中,目标点为待分割点云中属于目标对象的点,目标点对应的预测中心点为预测的目标点所属目标对象的中心点;将所有的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框;获取三维候选框覆盖的点云特征,根据三维候选框覆盖的点云特征,得到三维候选框对应的候选框特征;根据三维候选框对应的候选框特征和掩码预测网络,得到每个目标对象分别对应的目标点云。
可选的,将所有的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框之前,还包括:对所有的预测中心点进行滤波处理,得到滤波后的预测中心点;对滤波后的预测中心点进行抽样处理,得到抽样后的预测中心点;相应的,将所有的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框,包括:将所有的抽样后的目标点对应的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框。
可选的,对所有的预测中心点进行滤波处理,得到滤波后的预测中心点,包括:针对每个预测中心点,获取预测中心点对应球体内的所有的预测中心点,其中,预测中心点对应球体以预测中心点为球心,且以预设半径为半径,预设半径大于零;若预测中心点对应球体内的所有的预测中心点的数量大于或等于预设阈值,确定预测中心点为滤波后的预测中心点。
可选的,获取三维候选框覆盖的点云特征,根据三维候选框覆盖的点云特征,得到三维候选框对应的候选框特征,包括:针对每个三维候选框,将三维候选框内的区域划分成多个相同大小的单元区域;获取每个单元区域的点云特征,提取单元区域的点云特征的特征,得到单元区域对应的单元特征;根据每个单元区域内的点云特征,得到三维候选框对应的候选框特征。
可选的,根据点云特征、语义分割网络和中心预测网络,得到多个目标点分别对应的预测中心点,包括:将点云特征输入语义分割网络,得到点云特征中每个点的类别,类别包括目标对象的类别和非目标对象的类别;根据点云特征中的每个点的类别,确定多个目标点,目标点为点云特征中的目标对象的类别的点;将点云特征输入中心预测网络,得到点云特征中的每个点对应的预测中心点,其中,点云特征中的每个点对应的预测中心点为预测的点云特征中的每个点所属目标对象的中心点;根据多个目标点和点云特征中的每个点对应的预测中心点,得到多个目标点分别对应的预测中心点。
可选的,根据点云特征、语义分割网络和中心预测网络,得到多个目标点分别对应的预测中心点,包括:将点云特征输入语义分割网络,得到点云特征中每个点的类别,类别包括目标对象的类别和非目标对象的类别;根据点云特征中的每个点的类别,确定多个目标点,目标点为点云特征中的目标对象的类别的点;将多个目标点输入中心预测网络,得到多个目标点分别对应的预测中心点。
可选的,掩码预测网络包括置信度预测网络、候选框调整网络、非极大抑制网络和子掩码预测网络,根据三维候选框对应的候选框特征和掩码预测网络,得到每个目标对象分别对应的目标点云,包括:将三维候选框对应的候选框特征输入到置信度预测网络,得到三维候选框对应的置信度;将三维候选框对应的候选框特征输入到候选框调整网络,得到调整后的三维候选框;将三维候选框对应的置信度和调整后的三维候选框输入到非极大抑制网络,得到目标三维候选框;将目标候选框对应的候选框特征输入子掩码预测网络,得到每个目标对象分别对应的目标点云。
第二方面,本公开提供一种三维实例分割装置,包括:
特征提取模块,用于将待分割点云输入骨干网络中提取特征,得到点云特征;
预测中心模块,用于根据点云特征、语义分割网络和中心预测网络,得到多个目标点分别对应的预测中心点,其中,目标点为待分割点云中属于目标对象的点,目标点对应的预测中心点为预测的目标点所属目标对象的中心点;
候选框生成模块,用于将所有的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框;
候选框特征模块,用于获取三维候选框覆盖的点云特征,根据三维候选框覆盖的点云特征,得到三维候选框对应的候选框特征;
掩码预测模块,用于根据三维候选框对应的候选框特征和掩码预测网络,得到每个目标对象分别对应的目标点云。
可选的,装置还包括:滤波模块,用于对所有的预测中心点进行滤波处理,得到滤波后的预测中心点;
抽样模块,用于对滤波后的预测中心点进行抽样处理,得到抽样后的预测中心点;
相应的,候选框生成模块具体用于:将所有的抽样后的目标点对应的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框。
可选的,滤波模块具体用于:针对每个预测中心点,获取预测中心点对应球体内的所有的预测中心点,其中,预测中心点对应球体以预测中心点为球心,且以预设半径为半径,预设半径大于零;若预测中心点对应球体内的所有的预测中心点的数量大于或等于预设阈值,确定预测中心点为滤波后的预测中心点。
可选的,候选框特征模块具体用于:针对每个三维候选框,将三维候选框内的区域划分成多个相同大小的单元区域;获取每个单元区域的点云特征,提取单元区域的点云特征的特征,得到单元区域对应的单元特征;根据每个单元区域内的点云特征,得到三维候选框对应的候选框特征。
可选的,预测中心模块具体用于:将点云特征输入语义分割网络,得到点云特征中每个点的类别,类别包括目标对象的类别和非目标对象的类别;根据点云特征中的每个点的类别,确定多个目标点,目标点为点云特征中的目标对象的类别的点;将点云特征输入中心预测网络,得到点云特征中的每个点对应的预测中心点,其中,点云特征中的每个点对应的预测中心点为预测的点云特征中的每个点所属目标对象的中心点;根据多个目标点和点云特征中的每个点对应的预测中心点,得到多个目标点分别对应的预测中心点。
可选的,预测中心模块具体用于:将点云特征输入语义分割网络,得到点云特征中每个点的类别,类别包括目标对象的类别和非目标对象的类别;根据点云特征中的每个点的类别,确定多个目标点,目标点为点云特征中的目标对象的类别的点;将多个目标点输入中心预测网络,得到多个目标点分别对应的预测中心点。
可选的,掩码预测网络包括置信度预测网络、候选框调整网络、非极大抑制网络和子掩码预测网络,掩码预测模块具体用于:将三维候选框对应的候选框特征输入到置信度预测网络,得到三维候选框对应的置信度;将三维候选框对应的候选框特征输入到候选框调整网络,得到调整后的三维候选框;将三维候选框对应的置信度和调整后的三维候选框输入到非极大抑制网络,得到目标三维候选框;将目标候选框对应的候选框特征输入子掩码预测网络,得到每个目标对象分别对应的目标点云。
第三方面,本公开提供一种电子设备,包括:
存储器,用于存储处理器可执行指令的存储器;
处理器,用于在计算机程序被执行时,实现如上述第一方面的三维实例分割方法。
第四方面,本公开提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如上述第一方面的三维实例分割方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
通过将待分割点云输入骨干网络中提取特征,得到点云特征;将点云特征输入语义分割网络和中心预测网络,语义分割网络确定每个点的语义类别,确定目标点,中心预测网络预测点所属实例的中心点,则可以得到多个目标点分别对应的预测中心点,其中,目标点为待分割点云中属于目标对象的点,目标点对应的预测中心点为预测的目标点所属目标对象的中心点,将所有的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框,获取三维候选框覆盖的点云特征,根据三维候选框覆盖的点云特征,得到三维候选框对应的候选框特征,根据三维候选框对应的候选框特征和掩码预测网络,得到每个目标对象分别对应的目标点云。从而根据预测中心点确定三维候选框,使得获得的三维候选框更加准确,且利用三维候选框进行实例分割充分考虑目标对象的物体性,提高了三维实例分割的准确率,三维实例分割的效果更佳。
附图说明
图1为本公开实施例提供的一种三维实例分割方法的流程示意图;
图2为本公开提供的另一种三维实例分割的流程示意图;
图3为本公开提供的另一种三维实例分割的流程示意图;
图4为本公开提供的另一种三维实例分割方法的流程示意图;
图5为本公开提供的一种滤波原理示意图;
图6为本公开提供的一种三维分牙方法的原理示意图;
图7为本公开提供的一种三维分牙方法的流程示意图;
图8A为本公开提供的一种口腔点云的的示意图;
图8B为本公开提供的一种牙齿点云经过语义分割网络的输出结果的示意图;
图8C为本公开提供的一种中心预测网络的输出结果的示意图;
图8D为本公开提供的一种抽样后的预测中心点的示意图;
图8E为本公开提供的一种三维候选框的尺寸示意图;
图8F为本公开提供的一种三维候选框示意图;
图8G为本公开提供的一种三维候选框划分单元区域的示意图;
图8H为本公开提供的一种口腔分割结果示意图;
图9为本公开提供的一种三维实例分割装置的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
基于点云进行三维实例分割的应用已经越来越多,例如,在齿科数字化技术领域,基于口腔扫描数据或桌面扫描数据得到的口腔点云进行三维实例分割,区分出口腔中的不同牙齿,可广泛应用于正畸诊断、口腔外科手术、治疗计划的制定等场景。
基于深度学习的方法使得三维实例分割取得了显著的进步。目前常见的三维实例分割的方法,将点云进行语义分割后通过一系列的聚类操作来实现三维实例分割。
然而,这类方法的没有显式的检测物体,导致实例分割结果的物体性较差。且对于密集排布的物体的分割效果不佳,例如,密集排列的牙齿,使用上述方法容易将相邻的不同牙齿的点分配到同一个牙齿中。
为解决上述问题,本公开提供一种三维实例分割方法、装置、设备和计算机可读存储介质,通过预测每个实例的中心点,根据预测的每个实例的中心点预测每个实例的三维候选框,根据三维候选框和聚类相结合的方式,进行三维实例分割,使得三维实例分割充分考虑了实例的物体性,对于密集排布的实例的分割效果更佳。
下面以具体的实施例说明本公开的技术方案和本公开的技术方案如何解决上述技术问题。
图1为本公开实施例提供的一种三维实例分割方法的流程示意图,如图1所示,本实施例的方法由电子设备执行,电子设备可以是计算机,手机,平板设备等,本公开对此不做限制,本实施例的方法如下:
S101、将待分割点云输入骨干网络中提取特征,得到点云特征。
可以将待分割点云直接输入到骨干网络中提取特征,得到点云特征。也可以将待分割点云体素化,得到待分割体素,将待分割体素输入到骨干网络中提取特征,得到特征体素,将特征体素转换为点云特征。其中,骨干网络用于提取三维的语义特征,骨干网络在检测和分割等分析任务中的作用非常重要,骨干网络可以为三维卷积神经网络(Convolutional Neural Networks,简称CNN),也可以为三维点网络等,本公开对此不作限定。点云特征中包含待分割点云中每个点的特征。
在一些实施例中,将待分割点云体素化后,得到的待分割体素输入至骨干网络提取特征,骨干网络采用三维CNN提取语义特征,然而这种规则化空间的方法增加了计算量和显存消耗。在另外一些场景中,骨干网络采用点网络,直接得到点云特征,例如,点网络(PointNet)、点网络++(PointNet++)等点网络,然而,点网络中多层感知机(multilayerperceptron,简称MLP)的使用也增加了计算量和显存消耗。
进一步地,骨干网络可以采用基于子流形稀疏卷积(submanifold sparseconvolution,简称SSC)的3D语义分割网络(U-Net)的网络结构,从而平衡有效性和处理效率。其中,3D U-Net可以包括:编码器和解码器,其中,编码器用于分析输入数据并提取抽象特征,解码器用于恢复数据尺寸,从而得到逐体素预测结果。其中,每个尺度的残差学习用于提升辨识能力并减轻梯度消失问题。一系列的SSC仅在激活点上进行计算,从而在整个骨干网络上保证数据的稀疏程度。其中,SSC的卷积核的尺寸可以根据待分割点云确定,例如,可以为3×3×3,也可以为2×2×2的卷积核,本公开对此不作限定。
可选的,3D U-Net可以包括多个尺度的处理,例如,可以包括4个尺度的处理,每个尺度得到的特征图通道数分别为64、128、256和512。
S103、根据点云特征、语义分割网络和中心预测网络,得到多个目标点分别对应的预测中心点。
其中,目标点为待分割点云中属于目标对象的点,目标点对应的预测中心点为预测的目标点所属目标对象的中心点。
点云特征经过语义分割网络和中心预测网络,可以得到多个目标点分别对应的预测中心点。其中,可以先得到目标点所属目标对象的预测的中心偏移量,从而根据目标点的位置和预测的中心偏移量相叠加,得到目标点对应的预测中心点。
上述语义分割网络为一种分类网络,用于确定每个点的语义类别,语义分割网络可以预测出输入到语义分割网络中的点云特征中的每个点的语义类别,其中,语义类别为该点是否是目标点,从而确定出所有的目标点。也就是语义分割网络可以用于区分目标对象与非目标对象,也就是区分前景区域和背景区域,在语义分割网络中,所有的目标对象可以叫做前景区域,除目标对象外的其他区域可以叫做背景区域。例如,在对口腔点云进行分牙的过程中,语义分割网络能区分出口腔点云中的点为牙齿和非牙齿,所有的牙齿可以叫做前景区域,非牙齿部分可以叫做背景区域。其中,语义分割网络可以为MLP等结构,其输出维度可以是类别数。
一种可能的实现方式中,对于输入到语义分割网络中的每个点,可以得到每个点为目标点的概率值,通过概率值与第一阈值比较,确定每个点是否为目标点,若点的概率值大于第一阈值,则确定该点为目标点,若点的概率值小于等于第一阈值,则确定该点不是目标点。
另一种可能的实现方式中,对于输入到语义分割网络中的每个点,语义分割网络的输出可以为独热(one-hot)形式的点的类别向量,可以用Si∈Rv表示,其中v是语义分割网络输出的类别数。
上述中心预测网络用于预测每个输入点所属的实例(也可以叫做对象)的中心点。对于输入中心预测网络的点云中的每个点,中心预测网络可以预测出每个点所属的实例的中心点。其中,中心预测网络可以为MLP结构,其输出维度可以为3。
S105、将所有的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框。
候选框生成网络用于根据预测中心点生成预测中心点对应的三维候选框,其中,预测中心点对应的三维候选框用于指示该预测中心点所属的目标对象的范围,即该预测中心点所属的目标对象包括的点在三维候选框内。
一个预测中心点可以生成N个三维候选框,N为大于等于1的整数。
三维候选框的尺寸为预先设定的,可以根据目标对象的尺寸确定,例如,可以根据目标对象的平均尺寸的经验值确定,或者,根据训练数据中目标对象的平均尺寸确定,本公开对此不作限定。
三维候选框的形状可以根据目标对象的形状确定,可以为长方体或者正方体,也可以为其他规则或者不规则的立方体,本公开对此不作限定。
S107、获取三维候选框覆盖的点云特征,根据三维候选框覆盖的点云特征,得到三维候选框对应的候选框特征。
可以获取三维候选框覆盖的点云特征,该点云特征可以为骨干网络输出的点云特征,三维候选框覆盖的点云特征,即点云特征中在该三维候选框内的所有点。
根据三维候选框覆盖的点云特征,得到三维候选框对应的候选框特征,可以对三维候选框覆盖的点云特征进行进一步的特征提取,得到更高维度的特征,即为候选框特征。
可选的,对三维候选框覆盖的点云特征提取特征,得到三维候选框对应的候选框特征的一种可能的实现方式中,可以将三维选框进一步划分为M个单元,其中,M为大于1的整数。确定M个单元中每个单元覆盖的点云特征,根据每个单元覆盖的点云特征分别得到每个单元的单元特征,将M个单元分别对应的单元特征集成,并进一步提取特征,得到该三维候选框对应的候选框特征。
这样对每个单元进行单独处理,神经网络再进行集成并进一步提取特征时,计算的复杂程度较低,节约了处理时间和资源,降低分割的复杂度。
S109、根据三维候选框对应的候选框特征和掩码预测网络,得到每个目标对象分别对应的目标点云。
掩码预测网络用于从三维候选框中确定目标候选框,并确定目标候选框中的待分割点云中的点是否为目标对象的点。上述步骤生成的三维候选框的数量可能比较多,需要根据三维候选框的置信度,确定置信度大于预设第二阈值的三维候选框为目标候选框,对于目标候选框覆盖的每个点可以进行聚类操作,确定其是否为目标对象的点,以及是否为同一个目标对象的点,目标候选框中为目标对象的所有点组成了一个目标对象,从而实现了三维实例分割。
本实施例,通过将待分割点云输入骨干网络中提取特征,得到点云特征;将点云特征输入语义分割网络和中心预测网络,语义分割网络确定目标点,中心预测网络预测点所属实例的中心点,则可以得到多个目标点分别对应的预测中心点,其中,目标点为待分割点云中属于目标对象的点,目标点对应的预测中心点为预测的目标点所属目标对象的中心点,将所有的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框,获取三维候选框覆盖的点云特征,根据三维候选框覆盖的点云特征,得到三维候选框对应的候选框特征,根据三维候选框对应的候选框特征和掩码预测网络,得到每个目标对象分别对应的目标点云。从而根据预测中心点确定三维候选框,使得获得的三维候选框更加准确,且利用三维候选框和聚类的方式进行实例分割,充分考虑目标对象的物体性,提高了三维实例分割的准确率,三维实例分割的效果更佳。
在上述实施例的基础上,进一步地,步骤S103的一种可能的实现方式中,可以将点云特征分别输入到语义分割网络和中心预测网络中,从而得到多个目标点分别对应的预测中心点。下面以具体的实施例进行详细说明。请参见图2,图2为本公开提供的另一种三维实例分割的流程示意图,图2是在图1所示实施例的基础上,S103可以包括:
S1031、将点云特征输入语义分割网络,得到点云特征中每个点的类别,类别包括目标对象的类别和非目标对象的类别。
S1032、根据点云特征中的每个点的类别,确定多个目标点,目标点为点云特征中的目标对象的类别的点。
S1033、将点云特征输入中心预测网络,得到点云特征中的每个点对应的预测中心点。
其中,点云特征中的每个点对应的预测中心点为预测的点云特征中的每个点所属目标对象的中心点。
将点云特征分别输入语义分割网络和中心预测网络。
点云特征输入语义分割网络,得到点云特征中每个点的语义类别,从而确定多个目标点,从而将点云特征中的前景区域与背景区域区分开,得到点云特征中的前景区域,也就是目标点。
点云特征输入中心预测网络,得到预测的点云特征中每个点所属对象的中心点。
S1034、根据多个目标点和点云特征中的每个点对应的预测中心点,得到多个目标点分别对应的预测中心点。
从每个点对应的预测中心点中获取目标点对应的预测中心点。
本实施例,将点云特征分别输入语义分割网络和中心预测网络,从而使得两个网络可以并行处理,缩短了处理时间。
在上述实施例的基础上,步骤S103的另一种可能的实现方式中,可以将点云特征依次输入到语义分割网络和中心预测网络中,从而得到多个目标点分别对应的预测中心点。下面以具体的实施例进行详细说明。请参见图3,图3为本公开提供的另一种三维实例分割的流程示意图,图3是在图1所示实施例的基础上,S103可以包括:
S103a、将点云特征输入语义分割网络,得到点云特征中每个点的类别,类别包括目标对象的类别和非目标对象的类别。
S103b、根据点云特征中的每个点的类别,确定多个目标点,目标点为点云特征中的目标对象的类别的点。
S103c、将多个目标点输入中心预测网络,得到多个目标点分别对应的预测中心点。
本实施例,通过点云特征依次输入语义分割网络和中心预测网络,从而根据将根据语义分割网络得到的目标点输入中心预测网络,使得中心预测网络的输出为目标点分别对应的预测中心点,减少了中心预测网络的处理量,节约了处理资源。
在上述实施例的基础上,一般物体的点云中包含的点的数量是很庞大的,点云中包含的点的数量越多,步骤S103中得到的多个目标点分别对应的预测中心点的数量就越多,在S105及其之后的步骤中,对预测中心点进行后续处理的计算量和显存消耗就越大,因此,可以在S105之前先进行先对预测中心点进行滤波和/或抽样操作。下面以具体的实施例进行详细说明。
请参见图4,图4为本公开提供的另一种三维实例分割方法的流程示意图,图4是在图1-图3任一所示实施例的基础上,进一步地,在执行S105之前还可以执行S1041和/或S1042,相应的,S105包括S1051:
S1041、对所有的预测中心点进行滤波处理,得到滤波后的预测中心点。
对所有的预测中心点进行滤波处理,得到滤波后的预测中心点。其中,滤波处理用于去除离群的预测中心点。从而通过滤波操作将不准确的预测中心点去除,且能够大大减少预测中心点的数量,简化后续处理的计算量以及显存消耗。
可选的,针对每个预测中心点,获取预测中心点对应球体内的所有的预测中心点,其中,预测中心点对应球体以预测中心点为球心,且以预设半径为半径,预设半径大于零。
若预测中心点对应球体内的所有的预测中心点的数量大于或等于预设阈值,确定预测中心点为滤波后的预测中心点。
进一步地,若预测中心点对应球体内的所有的预测中心点的数量小于预设阈值,去除预测中心点。
以预测中心点为球心,预设半径为半径做球体,则计算球体内部的预测中心点的数量,该数量越小说明该预测中心点越可能是离群的预测中心点,则可以将其删除。
请参见图5,图5为本公开提供的一种滤波原理示意图,图5中示例性示出了在预测中心点中的一个预测中心点,右侧的虚线圆形表示左侧的虚线圆形的放大图,图中的圆形为示意,实际为球体。针对该预测中心点,以预测中心点为球心,且以预设半径rf为半径做一个球体,获取该球体内的所有的预测中心点,如图5示出的共4个预测中心点。假设预设阈值为20,4小于20,则该预测中心点为离群点,需要去除。
S1042、对滤波后的预测中心点进行抽样处理,得到抽样后的预测中心点。
经过上述滤波之后,得到的滤波后的预测中心点的数量可能还是很多,后续计算量和显存消耗较大,所以滤波之后进行抽样。抽样处理用于抽取滤波后的预测中心点的部分,为抽样后的预测中心点。从而降低后续计算的复杂度。
抽样处理可以采用最远点采样(farthest point sampling,简称FPS)或者随机采样等方式,本公开对此不作限定。
进一步地,由于最远点采样偏好采集距离目标对象的中心点远的离群点,因此,可以采用随机采样的方式,。
S1051、将所有的抽样后的目标点对应的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框。
经过滤波处理和抽样处理以后,可以对抽样后的目标点对应的预测中心进行后续处理。
本实施例,通过对预测中心点进行滤波处理和抽样处理,从而去除预测中心点中的离群点,并将预测中心点的数量降低,从而提高了后续计算的准确度,并降低后续计算的复杂度,节约后续处理的时间和资源。
在上述实施例的基础上,进一步地,在步骤S107中,可以将三维候选框均匀的划分为M个单元,获取每个单元的单元特征,并根据M个单元特征,得到三维候选框对应的候选框特征。下面以具体的实施例进行详细的介绍。S107包括如下步骤:
针对每个三维候选框,将三维候选框内的区域划分成多个相同大小的单元区域。
例如,三维候选框为正方体,则可以将该三维候选框均分成8个边长为三维候选框的二分之一的小正方体,每个小正方体为一个单元区域。
获取每个单元区域的点云特征,提取单元区域的点云特征的特征,得到单元区域对应的单元特征。
其中,单元区域的点云特征为单元区域覆盖的点云特征,该点云特征可以为骨干网络输出的点云特征。从而无需再搭建骨干网络进行提取点云特征,节约处理时间和资源。
可以利用多层感知机等结构对每个单元区域的点云特征提取特征,从而得到每个单元区域对应的单元特征。
根据每个单元区域内的点云特征,得到三维候选框对应的候选框特征。
集成三维候选框中所有的单元特征,进一步地,再利用多层感知机等结构对集成三维候选框中所有的单元特征进行特征提取,从而得到更高维度的候选框特征。
本实施例,通过将三维候选框内的区域划分成多个相同大小的单元区域。这样得到的每个单元的大小和形状均相同,神经网络在进行单元特征提取,以及将单元特征集成并进一步提取特征,得到候选框特征的过程中,计算的复杂程度较低,节约了处理时间和资源,降低分割的复杂度。
在上述实施例的基础上,掩码预测网络包括置信度预测网络、候选框调整网络、非极大抑制网络和子掩码预测网络,S109可以包括如下步骤:
将三维候选框对应的候选框特征输入到置信度预测网络,得到三维候选框对应的置信度。
其中,置信度预测网络用于确定三维候选框的置信度,也就是三维候选框的准确度。其中,置信度预测网络可以包括2个输出维度分别是64和1的全连接层。
将三维候选框对应的候选框特征输入到候选框调整网络,得到调整后的三维候选框。
其中,候选框调整网络用于对候选框进行调整,从而使得候选框的位置更加准确。候选框调整网络可以包括2个输出维度分别是64和7的全连接层。
将三维候选框对应的置信度和调整后的三维候选框输入到非极大抑制网络,得到目标三维候选框。
根据上述置信度预测网络和候选框调整网络以后输入到非极大抑制网络中,去除置信度相对较低的候选框,得到少量的目标三维候选框,并对目标三维候选框重新提取候选框特征。
将目标候选框对应的候选框特征输入子掩码预测网络,得到每个目标对象分别对应的目标点云。
其中,子掩码预测网络用于根据目标候选框内的点进行聚类,得到每个点对应的类别,其中,该点对应的类别是指点所属的目标对象。
本实施例,通过掩码预测网络包括置信度预测网络、候选框调整网络、非极大抑制网络和子掩码预测网络,将对三维候选框进行微调,并获取置信度较大的三维候选框为目标候选框,从而根据目标候选框进行三维实例分割,提高了分割结果准确率。
下面以齿科数字化领域中,对口腔点云进行分牙为例进行说明本公开的方法,可以理解,本示例并不构成对本公开的限定。
请参见图6和图7,图6为本公开提供的一种三维分牙方法的原理示意图,图7为本公开提供的一种三维分牙方法的流程示意图,对口腔点云进行牙齿分割的整体方法可以使用齿科实例分割模型完成,其中,齿科实例分割模型可以包括:多任务学习网络、候选框生成网络和掩码预测网络,多任务学习模型可以包括:骨干网络、语义分割网络和中心预测网络。
步骤1:将口腔点云输入骨干网络中提取特征,得到点云特征。
其中,本步骤1对应上述实施例中的步骤S101。
可以通过口扫或桌扫等设备获取如图8A示出的口腔点云61(也可以叫做牙模数据),牙模数据为口腔内包括牙齿和牙龈部分的点云,牙模数据不包含视觉信息,即牙模数据中包含的所有的点都是同种颜色,而是包含几何信息,即牙模数据可以用表示,其中,N为牙模数据中包含的点的数量,Kbi为点的几何信息的维度,其中,点的几何信息可以包括但不限于:点的3D位置、法相、曲率等。
牙模数据经过体素化,得到牙模数据的体素。
骨干网络采用基于SSC的三维U-Net的网络结构,从而可以平衡有效性和效率问题。
步骤2:将点云特征输入至语义分割网络,确定牙齿的点。
其中,本步骤2对应上述实施例中的步骤S1031和S1032。
语义分割网络为输出维度是类别数的MLP的结构,可以将点云特征输入至语义分割网络,获得独热形式的点云特征中的点i的类别向量其中,v是语义分割类别数,从而得到点云中每个点是否为牙齿,去除点云特征中非牙部分(牙龈部分)的点云特征,得到如图8B示出的牙齿部分的点云特征62。
步骤3:将点云特征输入中心预测网络,得到点云特征中的每个点所属牙齿的预测中心点。
其中,本步骤3对应上述实施例中的步骤S1033。
中心预测网络由一个输出维度是3的MLP组成,将点云特征输入至中心预测网络,得到预测的每个点(可以用i表示)到所属牙齿的中心点的偏移向量,可以用Qi=(Δxi,Δyi,Δzi)表示。
步骤4:根据多个牙齿的点和点云特征中的每个点对应的预测中心点,得到多个牙齿的点分别对应的牙齿中心点。
其中,本步骤4对应上述实施例中的步骤S1034。
将点云特征中每个点的当前位置和该点到所属牙齿的中心点的偏移向量相叠加,可以得到每个点预测的所属牙齿的中心位置,也就是得到如图8C所示的预测的牙齿中心点63。
步骤5:对所有的预测中心点进行滤波处理,得到滤波后的预测中心点。
其中,本步骤5对应上述实施例中的步骤S1041。
每个预测的牙齿中心位置的半径为rf区域内的点数将会被统计,如果点数大于门限τf,则当前点会被保留,否则会被当做离群点而去除,从而得到滤波后的预测中心点。
步骤6:对滤波后的预测中心点进行抽样处理,得到抽样后的预测中心点。
其中,本步骤6对应上述实施例中的步骤S1042。
由于滤波之后剩余的预测牙齿中心点数(一般大于104)依然非常庞大,对后续计算量和显存消耗都是很大的考验,所以滤波之后还有抽样阶段。抽样的作用除了降低后续计算复杂度,还包括:1)根据预测牙齿中心点生成三维候选框的中心点;2)作为特征立方体和候选框微调网络的中介。
采样阶段推荐采用随机采样,而不是最远点采样,这是因为最远点采样偏好距离真实牙齿中心远的离群点。通过抽样,可得到n个抽样点{p1,p2,...,pn},其中每个点pi包括三维位置坐标pi=(xi,yi,zi)。
经过抽样以后,得到如图8D所示的抽样后的预测中心点。
步骤7:将所有的抽样后的目标点对应的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框。
其中,本步骤7对应上述实施例中的步骤S105。
由于不同牙齿之间的大小差异不大,可以根据训练数据中牙齿的平均尺寸,每个预测中心点对应生成3个候选框,3个三维候选框的尺寸分别为训练数据中目标对象的平均尺寸的0.8倍、1倍和1.2倍,该3个候选框的尺寸可以涵盖到大部分的牙齿的大小。由于一个牙齿的形状类似正方体,且正方体这种规则立方体可以使得后续处理时更加简便,节省处理时间和资源,因此,候选框的形状可以选择正方体。三维候选框可以用Pi=(xi,yi,zi,lx,i,ly,i,lz,i,θi)表示,其中,gi=(xi,yi,zi)是三维候选框中心点,(lx,i,ly,i,lz,i)分别是三维候选框的宽、高、深度,θi是XY平面的转角。三维候选框的尺寸根据训练数据中相应类别牙齿的平均尺寸、1.2倍平均尺寸、0.8倍平均尺寸得到,即每个牙齿候选中心点可以得到如图8E所示的3种不同尺寸的三维候选框。
从而得到如图8F所示的三维候选框64。
步骤8:针对每个三维候选框,将三维候选框内的区域划分成多个相同大小的单元区域。
其中,本步骤8对应上述实施例中的步骤S1071。
步骤9:获取每个单元区域的点云特征,提取单元区域的点云特征的特征,得到单元区域对应的单元特征。
其中,本步骤9对应上述实施例中的步骤S1072。
步骤10:根据每个单元区域内的点云特征,得到三维候选框对应的候选框特征。
其中,本步骤10对应上述实施例中的步骤S1073。
得到每个单元特征后,通过集成单元特征并通过多层感知机变换可得到256维的候选框特征。
步骤11:将三维候选框对应的候选框特征输入到置信度预测网络,得到三维候选框对应的置信度。
其中,本步骤11对应上述实施例中的步骤S1091。
置信度预测网络,也可以叫做检测框置信度预测分支,包括2个输出维度分别是64和1的全连接层。
步骤12:将三维候选框对应的候选框特征输入到候选框调整网络,得到调整后的三维候选框。
其中,本步骤11对应上述实施例中的步骤S1092。
候选框调整网络,也可以叫做框定位微调分支,包括2个输出维度分别是64和7的全连接层。
微调后的候选框,如果其置信度低于固定门限0.7,将会被去除;在多个候选框距离非常近的情况下,非极大抑制去除置信度相对较低的候选框。
步骤13:将三维候选框对应的置信度和调整后的三维候选框输入到非极大抑制网络,得到目标三维候选框。
其中,本步骤13对应上述实施例中的步骤S1093。
非极大抑制网络可以由2个输出维度是256的多层感知机构成。
根据微调后的候选框位置和上述提取三维候选框特征的方法重新提取候选框特征,得到候选框特征输入非极大抑制网络,输出嵌入特征。
步骤14:将目标候选框对应的候选框特征输入子掩码预测网络,得到每个目标对象分别对应的目标点云。
其中,本步骤14对应上述实施例中的步骤S1094。
子掩码预测网络,也可以叫做嵌入网络,根据候选框在嵌入特征上进行聚类操作,可以得到如图8H所示的分割结果65,即每个点得到所属牙齿的类别。
在上述实施例的基础上,进一步地,本公开的上述相关网络搭建的模型均是训练得到的收敛的模型(上述相关网络是指:骨干网络、语义分割网络、中心预测网络、候选框生成网络和掩码预测网络,还可以包括置信度预测网络、候选框调整网络、非极大抑制网络和子掩码预测网络),因此,本公开的上述方法执行之前,还可以包括:对上述相关网络组成的模型进行训练的过程。下面以具体的实施例说明本公开的一种模型训练的方法。
在上述实施例的基础上,进一步地,将上述网络搭建完成,训练时可以逐个对由网络组成的模型进行训练,也可以对搭建完成的所有网络组成的模型进行训练。
获取训练样本数据及样本分别对应的标签数据。将训练样本数据及其分别对应的标签数据输入到模型中进行训练。根据损失确定模型是否收敛。
相关损失的一种计算方式如下:
语义分割网络对应的交叉熵损失可以用来更新语义分割网络的权重。语义分割网络对应的交叉熵损失函数可以通过如下公式(1)得到:
中心预测网络对应的交叉熵损失可以用来更新中心预测网络的权重。语义分割网络对应的交叉熵损失函数可以通过如下公式(2)得到:
Lcen=||oi-ui||2 公式(2)
上述多任务学习网络的总代价函数可以为语义分割网络和中心预测网络分别对应的代价函数的线性组合,如下述公式(3)所示:
Lmul=Lseg+λLcen 公式(3)
其中,λ为代价函数的混合系数,用于控制语义分割任务和中心预测任务的影响,可以通过实验选择混合系数的具体取值。
置信度预测网络对应的交叉熵损失函数可以通过如下公式(4)得到:
候选框调整网络对应的损失函数可以通过如下公式(5)得到:
子掩码预测网络对应的类内差异误差Lvar使得每个牙齿内的点嵌入特征尽可能一致,类内差异误差Lvar可以通过如下公式(6)得到:
其中,C是图像中真实牙齿个数,c是牙齿标号,Nc是牙齿c包含的点数,i是点的标号,μc是牙齿c的平均点特征,fi是点i的特征,预定义门限δvar是属于牙齿c的点特征fi到牙齿平均特征的最大距离,||||表示二阶范数,[x]+=max(0,x)表示铰链损失(hinge loss)函数。
类间相似误差Ldist鼓励不同牙齿尽可能能区分,类间相似误差Ldist可以通过如下公式(7)得到:
正则化项Lreg使得每个牙齿的平均特征趋向于原点从而保持激活函数的上限,正则化项Lreg可以通过如下公式(8)得到:
子掩码预测网络对应的损失函数是类内差异误差Lvar、类间相似误差Ldist、正则化项Lreg的线性组合,可以通过如下公式(9)得到:
Lemb=Lvar+βdistLdist+βregLreg 公式(9)
其中,βdist和βreg是控制类间相似误差和正则化项的混合系数。
总代价函数是置信度预测、3D框候选回归预测、嵌入特征预测的线性组合,可以通过如下公式(10)得到:
Ltotal=Lconf+γlocLloc+γembLemb 公式(10)
其中,γloc为第一混合系数,γemb为第二混合系数,二者均用于控制定位误差和嵌入特征误差的影响。
图9为本公开提供的一种三维实例分割装置的结构示意图,如图9所示,本实施例的装置包括:
特征提取模块901,用于将待分割点云输入骨干网络中提取特征,得到点云特征;
预测中心模块902,用于根据点云特征、语义分割网络和中心预测网络,得到多个目标点分别对应的预测中心点,其中,目标点为待分割点云中属于目标对象的点,目标点对应的预测中心点为预测的目标点所属目标对象的中心点;
候选框生成模块903,用于将所有的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框;
候选框特征模块904,用于获取三维候选框覆盖的点云特征,根据三维候选框覆盖的点云特征,得到三维候选框对应的候选框特征;
掩码预测模块905,用于根据三维候选框对应的候选框特征和掩码预测网络,得到每个目标对象分别对应的目标点云。
可选的,装置还包括:
滤波模块,用于对所有的预测中心点进行滤波处理,得到滤波后的预测中心点;
抽样模块,用于对滤波后的预测中心点进行抽样处理,得到抽样后的预测中心点;
相应的,候选框生成模块903具体用于:
将所有的抽样后的目标点对应的预测中心点输入候选框生成网络,得到每个预测中心点对应的三维候选框。
可选的,滤波模块具体用于:
针对每个预测中心点,获取预测中心点对应球体内的所有的预测中心点,其中,预测中心点对应球体以预测中心点为球心,且以预设半径为半径,预设半径大于零;
若预测中心点对应球体内的所有的预测中心点的数量大于或等于预设阈值,确定预测中心点为滤波后的预测中心点。
可选的,候选框特征模块904具体用于:
针对每个三维候选框,将三维候选框内的区域划分成多个相同大小的单元区域;
获取每个单元区域的点云特征,提取单元区域的点云特征的特征,得到单元区域对应的单元特征;
根据每个单元区域内的点云特征,得到三维候选框对应的候选框特征。
可选的,预测中心模块902具体用于:
将点云特征输入语义分割网络,得到点云特征中每个点的类别,类别包括目标对象的类别和非目标对象的类别;
根据点云特征中的每个点的类别,确定多个目标点,目标点为点云特征中的目标对象的类别的点;
将点云特征输入中心预测网络,得到点云特征中的每个点对应的预测中心点,其中,点云特征中的每个点对应的预测中心点为预测的点云特征中的每个点所属目标对象的中心点;
根据多个目标点和点云特征中的每个点对应的预测中心点,得到多个目标点分别对应的预测中心点。
可选的,预测中心模块902具体用于:
将点云特征输入语义分割网络,得到点云特征中每个点的类别,类别包括目标对象的类别和非目标对象的类别;
根据点云特征中的每个点的类别,确定多个目标点,目标点为点云特征中的目标对象的类别的点;
将多个目标点输入中心预测网络,得到多个目标点分别对应的预测中心点。
可选的,掩码预测网络包括置信度预测网络、候选框调整网络、非极大抑制网络和子掩码预测网络,掩码预测模块905具体用于:
将三维候选框对应的候选框特征输入到置信度预测网络,得到三维候选框对应的置信度;
将三维候选框对应的候选框特征输入到候选框调整网络,得到调整后的三维候选框;
将三维候选框对应的置信度和调整后的三维候选框输入到非极大抑制网络,得到目标三维候选框;
将目标候选框对应的候选框特征输入子掩码预测网络,得到每个目标对象分别对应的目标点云。
上述实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本公开提供一种电子设备,包括:
存储器,用于存储处理器可执行指令的存储器;
处理器,用于在计算机程序被执行时,实现上述三维实例分割方法。
本公开提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述三维实例分割方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种三维实例分割方法,其特征在于,包括:
将待分割点云输入骨干网络中提取特征,得到点云特征;
根据所述点云特征、语义分割网络和中心预测网络,得到多个目标点分别对应的预测中心点,其中,所述目标点为所述待分割点云中属于目标对象的点,所述目标点对应的预测中心点为预测的所述目标点所属目标对象的中心点;
将所有的所述预测中心点输入候选框生成网络,得到每个所述预测中心点对应的三维候选框;
获取所述三维候选框覆盖的点云特征,根据所述三维候选框覆盖的点云特征,得到所述三维候选框对应的候选框特征;
根据所述三维候选框对应的候选框特征和掩码预测网络,得到每个目标对象分别对应的目标点云。
2.根据权利要求1所述的方法,其特征在于,所述将所有的所述预测中心点输入候选框生成网络,得到每个所述预测中心点对应的三维候选框之前,还包括:
对所有的所述预测中心点进行滤波处理,得到滤波后的预测中心点;
对所述滤波后的预测中心点进行抽样处理,得到抽样后的预测中心点;
相应的,所述将所有的所述预测中心点输入候选框生成网络,得到每个所述预测中心点对应的三维候选框,包括:
将所有的所述抽样后的目标点对应的预测中心点输入候选框生成网络,得到每个所述预测中心点对应的三维候选框。
3.根据权利要求2所述的方法,其特征在于,所述对所有的所述预测中心点进行滤波处理,得到滤波后的预测中心点,包括:
针对每个所述预测中心点,获取所述预测中心点对应球体内的所有的预测中心点,其中,所述预测中心点对应球体以所述预测中心点为球心,且以预设半径为半径,预设半径大于零;
若所述预测中心点对应球体内的所有的预测中心点的数量大于或等于预设阈值,确定所述预测中心点为滤波后的预测中心点。
4.根据权利要求1所述的方法,其特征在于,所述获取所述三维候选框覆盖的点云特征,根据所述三维候选框覆盖的点云特征,得到所述三维候选框对应的候选框特征,包括:
针对每个所述三维候选框,将所述三维候选框内的区域划分成多个相同大小的单元区域;
获取每个所述单元区域的点云特征,提取所述单元区域的点云特征的特征,得到所述单元区域对应的单元特征;
根据每个所述单元区域内的所述点云特征,得到所述三维候选框对应的候选框特征。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述点云特征、语义分割网络和中心预测网络,得到多个目标点分别对应的预测中心点,包括:
将所述点云特征输入语义分割网络,得到所述点云特征中每个点的类别,所述类别包括目标对象的类别和非目标对象的类别;
根据所述点云特征中的每个点的类别,确定多个目标点,所述目标点为所述点云特征中属于目标对象的类别的点;
将所述点云特征输入中心预测网络,得到点云特征中的每个点对应的预测中心点,其中,所述点云特征中的每个点对应的预测中心点为预测的点云特征中的每个点所属目标对象的中心点;
根据所述多个目标点和所述点云特征中的每个点对应的预测中心点,得到多个目标点分别对应的预测中心点。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述点云特征、语义分割网络和中心预测网络,得到多个目标点分别对应的预测中心点,包括:
将所述点云特征输入语义分割网络,得到所述点云特征中每个点的类别,所述类别包括目标对象的类别和非目标对象的类别;
根据所述点云特征中的每个点的类别,确定多个目标点,所述目标点为所述点云特征中的目标对象的类别的点;
将所述多个目标点输入中心预测网络,得到所述多个目标点分别对应的预测中心点。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述掩码预测网络包括置信度预测网络、候选框调整网络、非极大抑制网络和子掩码预测网络,所述根据所述三维候选框对应的候选框特征和掩码预测网络,得到每个目标对象分别对应的目标点云,包括:
将所述三维候选框对应的候选框特征输入到置信度预测网络,得到所述三维候选框对应的置信度;
将所述三维候选框对应的候选框特征输入到候选框调整网络,得到调整后的三维候选框;
将所述三维候选框对应的置信度和所述调整后的三维候选框输入到非极大抑制网络,得到目标三维候选框;
将所述目标候选框对应的候选框特征输入子掩码预测网络,得到每个目标对象分别对应的目标点云。
8.一种三维实例分割装置,其特征在于,包括:
特征提取模块,用于将待分割点云输入骨干网络中提取特征,得到点云特征;
预测中心模块,用于根据所述点云特征、语义分割网络和中心预测网络,得到多个目标点分别对应的预测中心点,其中,所述目标点为所述待分割点云中属于目标对象的点,所述目标点对应的预测中心点为预测的所述目标点所属目标对象的中心点;
候选框生成模块,用于将所有的预测中心点输入候选框生成网络,得到每个所述预测中心点对应的三维候选框;
候选框特征模块,用于获取所述三维候选框覆盖的点云特征,根据所述三维候选框覆盖的点云特征,得到所述三维候选框对应的候选框特征;
掩码预测模块,用于根据所述三维候选框对应的候选框特征和掩码预测网络,得到每个目标对象分别对应的目标点云。
9.一种电子设备,其特征在于,包括:
存储器,用于存储处理器可执行指令的存储器;
处理器,用于在计算机程序被执行时,实现如上述权利要求1至7中任一项所述的三维实例分割方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的三维实例分割方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110267819.4A CN112883979A (zh) | 2021-03-11 | 2021-03-11 | 三维实例分割方法、装置、设备和计算机可读存储介质 |
PCT/CN2022/080466 WO2022188882A1 (zh) | 2021-03-11 | 2022-03-11 | 三维实例分割方法、装置、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110267819.4A CN112883979A (zh) | 2021-03-11 | 2021-03-11 | 三维实例分割方法、装置、设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112883979A true CN112883979A (zh) | 2021-06-01 |
Family
ID=76042580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110267819.4A Pending CN112883979A (zh) | 2021-03-11 | 2021-03-11 | 三维实例分割方法、装置、设备和计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112883979A (zh) |
WO (1) | WO2022188882A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591869A (zh) * | 2021-08-03 | 2021-11-02 | 北京地平线信息技术有限公司 | 点云实例分割方法和装置、电子设备和存储介质 |
CN113868733A (zh) * | 2021-09-01 | 2021-12-31 | 浙江大学 | 一种基于三维点云的既有结构bim模型自动化生成方法 |
CN114240991A (zh) * | 2021-12-16 | 2022-03-25 | 浙江大学 | 一种rgb图像的实例分割方法 |
CN114882046A (zh) * | 2022-03-29 | 2022-08-09 | 驭势科技(北京)有限公司 | 三维点云数据的全景分割方法、装置、设备及介质 |
WO2022188882A1 (zh) * | 2021-03-11 | 2022-09-15 | 先临三维科技股份有限公司 | 三维实例分割方法、装置、设备和计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11004202B2 (en) * | 2017-10-09 | 2021-05-11 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and methods for semantic segmentation of 3D point clouds |
CN111340766A (zh) * | 2020-02-21 | 2020-06-26 | 北京市商汤科技开发有限公司 | 目标对象的检测方法、装置、设备和存储介质 |
CN111753698A (zh) * | 2020-06-17 | 2020-10-09 | 东南大学 | 一种多模态三维点云分割系统和方法 |
CN112396655B (zh) * | 2020-11-18 | 2023-01-03 | 哈尔滨工程大学 | 一种基于点云数据的船舶目标6d位姿估计方法 |
CN112883979A (zh) * | 2021-03-11 | 2021-06-01 | 先临三维科技股份有限公司 | 三维实例分割方法、装置、设备和计算机可读存储介质 |
-
2021
- 2021-03-11 CN CN202110267819.4A patent/CN112883979A/zh active Pending
-
2022
- 2022-03-11 WO PCT/CN2022/080466 patent/WO2022188882A1/zh active Application Filing
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022188882A1 (zh) * | 2021-03-11 | 2022-09-15 | 先临三维科技股份有限公司 | 三维实例分割方法、装置、设备和计算机可读存储介质 |
CN113591869A (zh) * | 2021-08-03 | 2021-11-02 | 北京地平线信息技术有限公司 | 点云实例分割方法和装置、电子设备和存储介质 |
CN113868733A (zh) * | 2021-09-01 | 2021-12-31 | 浙江大学 | 一种基于三维点云的既有结构bim模型自动化生成方法 |
CN114240991A (zh) * | 2021-12-16 | 2022-03-25 | 浙江大学 | 一种rgb图像的实例分割方法 |
CN114882046A (zh) * | 2022-03-29 | 2022-08-09 | 驭势科技(北京)有限公司 | 三维点云数据的全景分割方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022188882A1 (zh) | 2022-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112883979A (zh) | 三维实例分割方法、装置、设备和计算机可读存储介质 | |
US11636306B2 (en) | Implementing traditional computer vision algorithms as neural networks | |
CN110427970B (zh) | 图像分类方法、装置、计算机设备和存储介质 | |
Ruan et al. | Evaluation of methods for generative modeling of cell and nuclear shape | |
CN108229347B (zh) | 用于人识别的拟吉布斯结构采样的深层置换的方法和装置 | |
Lepsøy et al. | Statistical modelling of outliers for fast visual search | |
JP2015506026A (ja) | 画像分類 | |
CN109165309B (zh) | 负例训练样本采集方法、装置及模型训练方法、装置 | |
CN111914908B (zh) | 一种图像识别模型训练方法、图像识别方法及相关设备 | |
Chica | Authentication of bee pollen grains in bright‐field microscopy by combining one‐class classification techniques and image processing | |
CN111178196B (zh) | 一种细胞分类的方法、装置及设备 | |
CN114419378B (zh) | 图像分类的方法、装置、电子设备及介质 | |
CN111325276A (zh) | 图像分类方法及装置、电子设备、计算机可读存储介质 | |
CN111311593B (zh) | 一种多椭圆检测和评估算法、装置及终端 | |
Priya | Resnet based feature extraction with decision tree classifier for classificaton of mammogram images | |
CN114299343A (zh) | 一种多粒度信息融合细粒度图像分类方法及系统 | |
CN116543261A (zh) | 用于图像识别的模型训练方法、图像识别方法设备及介质 | |
Juang et al. | Stereo-camera-based object detection using fuzzy color histograms and a fuzzy classifier with depth and shape estimations | |
Al-Jubouri et al. | A comparative analysis of automatic deep neural networks for image retrieval | |
CN113920382A (zh) | 基于类一致性结构化学习的跨域图像分类方法和相关装置 | |
CN108388869A (zh) | 一种基于多重流形的手写数据分类方法及系统 | |
CN114972737B (zh) | 基于原型对比学习的遥感图像目标检测系统及方法 | |
CN115984671A (zh) | 模型在线更新方法、装置、电子设备及可读存储介质 | |
CN111104911A (zh) | 一种基于大数据训练的行人重识别方法及装置 | |
Dalara et al. | Entity Recognition in Indian Sculpture using CLAHE and machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |