CN116630623A - 一种面向工业场景的工件点云实例分割方法 - Google Patents

一种面向工业场景的工件点云实例分割方法 Download PDF

Info

Publication number
CN116630623A
CN116630623A CN202310581737.6A CN202310581737A CN116630623A CN 116630623 A CN116630623 A CN 116630623A CN 202310581737 A CN202310581737 A CN 202310581737A CN 116630623 A CN116630623 A CN 116630623A
Authority
CN
China
Prior art keywords
point cloud
instance
data
workpiece
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310581737.6A
Other languages
English (en)
Inventor
吴盟
庄开宇
杨根科
褚健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Original Assignee
Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University filed Critical Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Priority to CN202310581737.6A priority Critical patent/CN116630623A/zh
Publication of CN116630623A publication Critical patent/CN116630623A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30164Workpiece; Machine component
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向工业场景的工件点云实例分割方法,涉及3D机器视觉和深度学习技术领域,包括:步骤1、进行图像采集与数据转换,获得工件的点云数据;步骤2、点云预处理,滤除点云数据中的无效点和工作台平面;步骤3、点云标注,对预处理后的点云数据进行实例标注得到标注文件;标注文件和点云数据构成模型训练所需的点云实例分割数据集;步骤4、数据增强;步骤5、点云实例分割模型构建;步骤6、点云实例分割模型训练;步骤7、点云实例分割模型预测,使用训练好的点云实例分割模型进行推理,输入验证集中的数据,输出并显示预测得到的实例类别及点云组成。

Description

一种面向工业场景的工件点云实例分割方法
技术领域
本发明涉及3D机器视觉和深度学习技术领域,尤其涉及一种面向工业场景的工件点云实例分割方法。
背景技术
近年来,随着科技的进步和社会的发展,工业机械臂广泛应用于各个工业生产领域。然而,工业机械臂缺乏对周围环境的感知能力,只能依靠预先设定的程序重复完成工作,对于堆垛、码料、摆盘等常见的工业生产过程,依赖人工辅助完成前序处理码放步骤,已经满足不了智能化生产制造的需求。为适应当前制造业高度智能化、信息化的趋势,需要通过传感器技术和深度学习方法弥补工业机械臂感知不足的缺陷,使得工业机械臂能够独立完成较复杂的工业生产过程。随着3D数据采集技术的迅速发展,使用3D扫描仪、激光雷达、RGB-D相机等传感器很容易获取原始3D数据。相较于2D图像,3D数据能够提供更加丰富的特征信息,如几何形状和尺度大小等信息。如果能够通过对原始3D数据的预处理和特征提取来构建一个智能感知模块,工业机械臂就可以获得对周围环境的一定的感知能力,从而协助工业机械臂完成工业生产过程。
然而,如果使用传统的点云实例分割方法作为核心推理模块,由于这类方法主要通过点云中点与点间的距离、法向量等几何特征来对比点云中某点与其邻域内其它点的特征来判断该点与其邻域点是否属于同一个集合来实现分割,存在严重依赖于特征的选取和先验知识、分割精度不高、效率低下等缺点,难以满足工业生产中对于精度和效率的要求。
近年来,随着深度学习和2D目标检测、实例分割的迅速发展,3D目标检测、点云语义分割、点云实例分割也成为了研究热点,为工业场景下的智能感知模块构建提供了新的解决方案。相较于传统的点云实例分割方法,深度学习方法有如下优势:1、深度学习方法以数据为驱动,可以在大规模数据集上进行预训练得到泛化模型,进而在小规模特定场景数据集上进行微调得到针对特定场景的模型,因而模型能够有更强的泛化能力;2、深度学习方法通过多层非线性运算单元提取高维抽象特征,能够提取点云颜色、点云密度、几何信息、语义等多方面较高级别的信息,对于目标实例的边界处理更加精确,因而能够实现更高准确度的分割;3、深度学习方法通常使用GPU加速计算,因而模型能够有更快的推理速度。
李宗民等人在中国发明专利申请“一种基于transformer的点云实例分割方法”(申请号为CN202111319758.8)中通过使用深度学习与计算机视觉算法来实现点云实例分割。该方法包括通过激光雷达获取点云场景信息、对原始点云数据进行下采样、对采样后的点云数据进行区域划分、使用Self-attention结构对各区域点云数据进行处理,通过MLP提取各区域点云特征,得到各区域的Q、K和V等步骤。该方法能够充分挖掘各区域局部与全局之间的关系特征,达到对各实例进行分割的目的,但基于Transformer的模型计算复杂度较高、推理时间较长,不适用于工业场景下的工件点云实例分割。
综上分析,目前将基于深度学习的点云实例分割方法应用于工业场景仍然存在以下问题:
1、目前大多数点云实例分割主干网络使用融合子流形稀疏卷积(SubmanifoldSparse Convolution)的3D U-Net网络。该网络对于大场景点云有较好的特征提取效果,但针对工业场景下工件这类体积较小的物体,其特征提取效果不佳,无法满足对于工件的高精度分割。
2、点云实例分割方法可能难以处理工件表面存在反射或阴影的情况。当工件表面出现反射或阴影时,会影响3D相机的数据采集,使得点云数据不够完整,导致分割效果不准确,因而需要在算法中加入更加鲁棒的处理逻辑。
3、基于深度学习的点云实例分割方法对于硬件的要求较高,需要耗费更多的计算资源和时间来处理点云及预测实例分割结果,而工业场景的任务对于实时性的要求较高,因而需要设计更轻量级的网络模型以提高推理速度。
因此,本领域的技术人员致力于开发一种新的面向工业场景的工件点云实例分割方法,解决现有技术中存在的上述问题。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何实现工件点云实例分割中更好的特征提取,包括克服工件表面出现反射或阴影对分割效果的影响,以及如何实现工件点云实例分割在速度与精度之间的更好权衡。
为实现上述目的,本发明提供了一种基于MinkowskiNet和多层级特征融合的工业场景下工件点云实例分割方法。首先,通过MinkowskiNet提供的Minkowski稀疏卷积构建ResNet-34主干网络提取点云特征,然后,以中心偏移向量预测作为辅助任务,经过语义类别预测分支、中心偏移向量预测分支以及聚类模块后输出初步的分割预测实例,再进一步使用Minkowski稀疏卷积构建ResNet-18进行特征重提取及跨层级特征融合,并基于融合后的特征经过掩码预测分支和掩码评分分支生成最终的预测实例结果。
本发明提供的一种面向工业场景的工件点云实例分割方法,包括以下步骤:
步骤1、进行图像采集与数据转换,获得工件的点云数据;
步骤2、点云预处理,滤除所述点云数据中的无效点和工作台平面,保存剩余的点云数据作为所述工件的点云表示;
步骤3、点云标注,对预处理后的所述点云数据进行实例标注得到标注文件;所述标注文件和所述点云数据构成模型训练所需的点云实例分割数据集;
步骤4、数据增强,对所述点云实例分割数据集进行数据增强;
步骤5、点云实例分割模型构建,包括构建主干网络模块、语义类别及偏移向量预测模块、聚类模块、特征重提取及融合模块、掩码预测及掩码评分模块;
步骤6、点云实例分割模型训练,将经过数据增强的所述点云实例分割数据集按照8:2的比例划分为训练集和验证集,将所述训练集输入到所述点云实例分割模型中进行训练;
步骤7、点云实例分割模型预测,使用训练好的所述点云实例分割模型进行推理,输入所述验证集中的数据,输出并显示预测得到的实例类别及点云组成。
进一步地,所述步骤5中包括以下子步骤:
步骤5.1、所述主干网络模块通过MinkowskiNet提取多尺度的点云特征,其中,所述MinkowskiNet引入Minkowski张量和Minkowski卷积构建ResNet-34作为所述点云特征的提取网络;
步骤5.2、对于所述步骤5.1提取的所述点云特征,所述语义类别及偏移向量预测模块通过多层MLP分别预测出所述点云实例分割数据集中每个点的语义类别及所述每个点到该点所属的实例几何中心的偏移向量,其中,所述语义类别和所述偏移向量分别用N×Nclasses维和N×3维的向量来表示,N为所述点云实例分割数据集中点的个数,Nclasses为所述工件的类别数;
步骤5.3、所述聚类模块根据所述偏移向量将所述点云实例分割数据集中的所述每个点向该点所属的所述实例几何中心移动,获取以所述实例几何中心为中心的半径为r的球内的所有点,将与所述实例几何中心有相同所述语义类别的点聚为一簇,得到若干个初步分割预测实例;
步骤5.4、所述特征重提取及融合模块使用Minkowski稀疏卷积构建ResNet-18作为特征重提取网络,使用所述ResNet-18提取若干个所述初步分割预测实例的实例级特征,并与所述ResNet-34提取的所述点云特征进行融合,得到融合特征;
步骤5.5、所述掩码预测及掩码评分模块基于所述融合特征,通过两层MLP预测出实例级的掩码,滤除所述初步分割预测实例中的背景点;同时,通过一个掩码评分分支来生成最终分割预测实例的置信度评分。
进一步地,所述步骤5.5中的所述掩码评分分支也基于所述融合特征,通过一层全局平均池化层和一层MLP,计算所述掩码与ground truth之间的IoU,输出所述最终分割预测实例的所述置信度评分,输出结果用K×Nclasses维向量表示,其中,K为所述点云实例分割数据集中所述最终分割预测实例的数量。
进一步地,在所述步骤6中,所述点云实例分割模型的训练总损失Loss包含:语义分支损失、中心偏移量损失、掩码分支损失、掩码评分损失,具体表示为:
Loss=Lsemantic+Loffset+Lmask+Lscore
其中,Lsemantic为所述语义分支损失,使用交叉熵损失;Loffset为所述中心偏移量损失,使用l1回归损失;Lmask为所述掩码分支损失,使用二值交叉熵损失;Lscore为所述掩码评分损失,使用l2回归损失。
进一步地,在所述步骤6中,所述点云实例分割模型的超参数设置如下:将所述训练集内的点数随机裁剪到最多250k个,使用Adam优化器进行50轮训练,每个batch大小设置为4,学习率初始化为0.001,并通过余弦退火算法进行调整。
进一步地,在所述步骤1中,使用RGB-D相机采集所述工件的RGB图像和深度图像,并通过Open3D库可将所述RGB图与所述深度图转换为所述点云数据。
进一步地,在所述步骤2中,使用所述Open3D库中的remove_statistical_outlier()函数通过统计学方法滤除所述点云数据中的离群点,即所述无效点,再使用voxel_down_sample()和uniform_down_sample()函数进行所述点云数据的降噪和下采样,使用segment_plane()函数拟合所述工作台平面得到表示所述工作台平面的所有内点,在降噪处理后的所述点云数据中去除表示所述工作台平面的所述所有内点,保存剩余的所述点云数据作为所述工件的点云表示,并保存为.pcd格式。
进一步地,在所述步骤3中,使用开源标注工具CloudCompare对所述点云数据进行实例标注得到所述标注文件;所述标注文件为txt标注文件,每行内依次存储所述点云数据中的点的坐标信息、颜色信息以及语义类别信息。
进一步地,所述txt标注文件的格式与S3DIS数据集的标注格式相同。
进一步地,在所述步骤4中,所述数据增强的方式包括随机旋转、随机平移、随机缩放、随机噪声、随机镜像和颜色变换。
本发明提供的一种面向工业场景的工件点云实例分割方法至少具有以下技术效果:
1、本发明所提供的技术方案通过使用MinkowskiNet构建主干网络,其使用的Minkowski稀疏卷积相较于其它稀疏卷积模块和传统卷积模块具有计算高效、感受野大、特征提取能力强的特点,适用于处理稀疏的点云数据,能够提高对于工件的点云分割效果;
2、本发明所提供的技术方案通过合理安排光源、相机与工件的相对位置,能够避免或减轻某些工件表面对于光的反射,使得采集到的数据包含更多关键信息,同时通过点云滤波等一系列预处理过程,能够提高点云的完整性,降低点云内的噪点数量,进一步提高了模型对于工件的点云分割效果;
3、本发明所提供的技术方案通过使用Minkowski稀疏卷积构建轻量级的ResNet-34和ResNet-18网络作为特征提取网络,能够提高模型的推理速度、减少存储空间、提高泛化能力、并且更易于优化和调试,尽可能满足工业场景下的实时性要求;
4、本发明所提供的技术方案通过上述的各部分改进,使得模型具有较强的鲁棒性和泛化能力并提升了工件点云实例分割的精度。相较于现有工件点云实例分割方法,本发明所提供的技术方案对于工业场景下的各类工件都能快速实现点云实例分割,实现了工件点云实例分割速度与精度更好的权衡。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的工件点云实例分割方法的流程示意图;
图2是图1所示实施例的数据采集、数据预处理流程及点云实例分割模型结构图;
图3是图1所示实施例的轻量级特征重提取网络ResNet-18的架构示意图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在本发明的实施例中,提出使用MinkowskiNet构建主干网络提取点云特征,并形成多层次特征图表示,可进行层级特征之间的特征融合增强特征表示。针对点云的稀疏性这一特征,使用能够有效处理大规模稀疏数据的Minkowski稀疏卷积构建模型,同时该网络模型能够在GPU上高效地并行运算。本发明的实施例也引入分阶段预测模式,将点云实例分割任务分成粗预测阶段和细预测阶段,同时在粗预测阶段以中心偏移向量预测任务作为辅助任务,计算其损失,引入额外监督信号,从而能够学习更好的特征表示,提升模型性能;在细预测阶段通过跨层级的特征融合,提高了特征的表示能力,从而提升了模型的预测精度。本发明实施例所提供的技术方案突出解决了工业场景下的工件点云实例分割方法精度不够的问题,通过多方面模型改进提升模型性能,同时较好地平衡了推理速度和预测精度两个关键任务指标。
实施例1
本发明实施例提供的一种面向工业场景的工件点云实例分割方法,包括以下步骤,如图1所示:
步骤1、进行图像采集与数据转换,获得工件的点云数据;
步骤2、点云预处理,滤除点云数据中的无效点和工作台平面,保存剩余的点云数据作为工件的点云表示;
步骤3、点云标注,对预处理后的点云数据进行实例标注得到标注文件;标注文件和点云数据构成模型训练所需的点云实例分割数据集;
步骤4、数据增强,对点云实例分割数据集进行数据增强;
步骤5、点云实例分割模型构建,包括构建主干网络模块、语义类别及偏移向量预测模块、聚类模块、特征重提取及融合模块、掩码预测及掩码评分模块;
步骤6、点云实例分割模型训练,将经过数据增强的点云实例分割数据集按照8:2的比例划分为训练集和验证集,将训练集输入到点云实例分割模型中进行训练;
步骤7、点云实例分割模型预测,使用训练好的点云实例分割模型进行推理,输入验证集中的数据,输出并显示预测得到的实例类别及点云组成。
实施例2
在实施例1的基础上,步骤5首先通过MinkowskiNet提取多尺度的点云特征,然后进行多尺度特征融合以增强特征表示,最后基于融合特征后的多尺度特征,通过语义预测分支和中心偏移向量预测分支分别预测语义类别及中心偏移向量,经聚类模块得到初步的分割预测实例。基于初步预测分割实例进一步提取特征并与主干网络提取的特征融合,得到融合后的特征向量,通过掩码预测分支和掩码评分分支生成最终的预测实例结果。
具体来说,步骤5包括以下子步骤,如图2所示:
步骤5.1、主干网络模块通过MinkowskiNet提取多尺度的点云特征,其中,MinkowskiNet引入Minkowski张量和Minkowski卷积构建ResNet-34作为点云特征的提取网络;MinkowskiNet是一个构建稀疏卷积的深度学习框架,可用于处理稀疏高维数据,其提供的Minkowski稀疏卷积相较于子流形稀疏卷积有更高的灵活性、更好的感受野、更高的计算效率,能够更好地提取点云特征;
步骤5.2、对于步骤5.1提取的点云特征,语义类别及偏移向量预测模块通过多层MLP(Multilayer Perceptron)分别预测出点云实例分割数据集中每个点的语义类别及每个点到该点所属的实例几何中心的偏移向量,其中,语义类别和偏移向量分别用N×Nclasses维和N×3维的向量来表示,N为点云实例分割数据集中点的个数,Nclasses为工件的类别数;
步骤5.3、聚类模块根据偏移向量将点云实例分割数据集中的每个点向该点所属的实例几何中心移动,获取以实例几何中心为中心的半径为r的球内的所有点,将与实例几何中心有相同语义类别的点聚为一簇,按照以上算法流程得到若干个初步分割预测实例;
步骤5.4、特征重提取及融合模块使用Minkowski稀疏卷积构建ResNet-18作为特征重提取网络,使用ResNet-18提取若干个初步分割预测实例的实例级特征,并与ResNet-34提取的点云特征进行融合,得到融合特征,融合后的特征具有更强的表达能力(如图3所示);ResNet-18相较于ResNet-34更浅,能够减小模型的参数量、提高模型训练速度、减小内存消耗;
步骤5.5、由于初步分割预测实例中包含前景点和背景点,需要构造一个掩码预测分支来预测每个初步分割预测实例中的实例掩码。掩码预测及掩码评分模块基于融合特征,通过两层MLP预测出实例级的掩码,滤除初步分割预测实例中的背景点;同时,通过一个掩码评分分支来生成最终分割预测实例的置信度评分。
特别地,步骤5.5中的掩码评分分支也基于融合特征,通过一层全局平均池化层和一层MLP,计算掩码与ground truth之间的IoU(Intersection over Union),输出最终分割预测实例的置信度评分,输出结果用K×Nclasses维向量表示,其中,K为点云实例分割数据集中最终分割预测实例的数量。
实施例3
在实施例1和实施例2的基础上,在步骤6中,点云实例分割模型的训练总损失Loss包含:语义分支损失、中心偏移量损失、掩码分支损失、掩码评分损失,具体表示为:
Loss=Lsemantic+Loffset+Lmask+Lscore
其中,Lsemantic为语义分支损失,使用交叉熵损失;Loffset为中心偏移量损失,使用l1回归损失;Lmask为掩码分支损失,使用二值交叉熵损失;Lscore为掩码评分损失,使用l2回归损失。
特别地,在步骤6中,点云实例分割模型的超参数设置如下:将训练集内的点数随机裁剪到最多250k个,使用Adam优化器进行50轮训练,每个batch大小设置为4,学习率初始化为0.001,并通过余弦退火算法进行调整。
实施例4
在上述实施例的基础上,在步骤1中,使用RGB-D相机采集工件的RGB图像和深度图像,并通过Open3D库可将RGB图与深度图转换为点云数据。
具体地,首先在光照充足的环境下将装有多类别工件的料框放置于工作台上,使用工作台正上方的工业RGB-D相机拍摄高质量的RGB图像和深度图像,再结合相机内参、外参等参数,通过Open3D库中的create_from_color_and_depth()函数将RGB图像和深度图像转换为RGBD图像,最后使用create_from_rgbd_image()函数将RGBD图像转换为点云,每个点使用(x,y,z,r,g,b)表示,其中,x,y,z为坐标信息、r,g,b为颜色信息。
在步骤2中,首先使用Open3D库体素滤波、高斯滤波、基于统计方法的滤波、均匀下采样等方法滤除点云的无效点,再通过RANSAC(Random Sample Consensus)算法拟合出工作台平面并滤除该平面,保存剩余的点云数据作为工件的点云表示,减少点云中噪点的数量,提高点云整体质量。
具体地,使用Open3D库中的remove_statistical_outlier()函数通过统计学方法滤除点云数据中的离群点,即无效点,再使用voxel_down_sample()和uniform_down_sample()函数进行点云数据的降噪和下采样,使用segment_plane()函数拟合工作台平面得到表示工作台平面的所有内点,在降噪处理后的点云数据中去除表示工作台平面的所有内点,保存剩余的点云数据作为工件的点云表示,并保存为.pcd格式。
在步骤3中,使用点云标注工具对预处理后的点云数据进行实例标注。标注内容为工件的类别及其包含的点云,利用得到的标注文件及点云数据构成模型训练所需的点云实例分割数据集。
具体地,使用开源标注工具CloudCompare对点云数据进行实例标注得到标注文件;标注文件为txt标注文件,每行内依次存储点云数据中的点的坐标信息、颜色信息以及语义类别信息。txt标注文件的格式与S3DIS数据集的标注格式相同。
在步骤4中,由于手动标注数据集的效率较低,采集并标注完成的点云数据不足以训练网络模型,因此对制作的工件点云实例分割数据集进行数据增强以增强其数据多样性,提高模型的泛化能力和鲁棒性。为增强点云数据的多样性,对制作好的点云实例分割数据集进行数据增强,包括随机旋转、随机缩放、随机镜像、随机噪声、颜色变换等方法。
具体地,随机旋转:绕着某个随机轴,随机旋转点云的角度;随机平移:随机在x,y,z三个轴上平移点云;随机缩放:随机生成某一缩放因子,将所有点云坐标乘以该缩放因子,以改变点云中每个点的位置及点云密度;随机噪声:在一定范围内生成噪声值,将所有点云坐标加上该噪声值得到新的坐标值;随机镜像:随机选取x、y或z轴,根据选取的轴对点云进行镜像翻转;颜色变换:随机生成RGB值并用该值替换原来的点的RGB值以改变点云颜色。
实施例5
在上述实施例的基础上,在步骤7中,使用训练好的点云实例分割模型进行推理,输入验证集中的工件点云数据,输出并显示预测得到的实例类别及点云组成,计算模型在制作的工件点云实例分割数据集上的mAP及FPS。将划分好的验证集输入到步骤六训练好的点云实例分割模型中,经模型预测后输出点云中的语义类别及实例标签,并使用不同颜色表示不同的实例,通过Open3D库绘制点云。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种面向工业场景的工件点云实例分割方法,其特征在于,所述方法包括以下步骤:
步骤1、进行图像采集与数据转换,获得工件的点云数据;
步骤2、点云预处理,滤除所述点云数据中的无效点和工作台平面,保存剩余的点云数据作为所述工件的点云表示;
步骤3、点云标注,对预处理后的所述点云数据进行实例标注得到标注文件;所述标注文件和所述点云数据构成模型训练所需的点云实例分割数据集;
步骤4、数据增强,对所述点云实例分割数据集进行数据增强;
步骤5、点云实例分割模型构建,包括构建主干网络模块、语义类别及偏移向量预测模块、聚类模块、特征重提取及融合模块、掩码预测及掩码评分模块;
步骤6、点云实例分割模型训练,将经过数据增强的所述点云实例分割数据集按照8:2的比例划分为训练集和验证集,将所述训练集输入到所述点云实例分割模型中进行训练;
步骤7、点云实例分割模型预测,使用训练好的所述点云实例分割模型进行推理,输入所述验证集中的数据,输出并显示预测得到的实例类别及点云组成。
2.如权利要求1所述的面向工业场景的工件点云实例分割方法,其特征在于,所述步骤5中包括以下子步骤:
步骤5.1、所述主干网络模块通过MinkowskiNet提取多尺度的点云特征,其中,所述MinkowskiNet引入Minkowski张量和Minkowski卷积构建ResNet-34作为所述点云特征的提取网络;
步骤5.2、对于所述步骤5.1提取的所述点云特征,所述语义类别及偏移向量预测模块通过多层MLP分别预测出所述点云实例分割数据集中每个点的语义类别及所述每个点到该点所属的实例几何中心的偏移向量,其中,所述语义类别和所述偏移向量分别用N×Nclasses维和N×3维的向量来表示,N为所述点云实例分割数据集中点的个数,Nclasses为所述工件的类别数;
步骤5.3、所述聚类模块根据所述偏移向量将所述点云实例分割数据集中的所述每个点向该点所属的所述实例几何中心移动,获取以所述实例几何中心为中心的半径为r的球内的所有点,将与所述实例几何中心有相同所述语义类别的点聚为一簇,得到若干个初步分割预测实例;
步骤5.4、所述特征重提取及融合模块使用Minkowski稀疏卷积构建ResNet-18作为特征重提取网络,使用所述ResNet-18提取若干个所述初步分割预测实例的实例级特征,并与所述ResNet-34提取的所述点云特征进行融合,得到融合特征;
步骤5.5、所述掩码预测及掩码评分模块基于所述融合特征,通过两层MLP预测出实例级的掩码,滤除所述初步分割预测实例中的背景点;同时,通过一个掩码评分分支来生成最终分割预测实例的置信度评分。
3.如权利要求2所述的面向工业场景的工件点云实例分割方法,其特征在于,所述步骤5.5中的所述掩码评分分支也基于所述融合特征,通过一层全局平均池化层和一层MLP,计算所述掩码与ground truth之间的IoU,输出所述最终分割预测实例的所述置信度评分,输出结果用K×Nclasses维向量表示,其中,K为所述点云实例分割数据集中所述最终分割预测实例的数量。
4.如权利要求1所述的面向工业场景的工件点云实例分割方法,其特征在于,在所述步骤6中,所述点云实例分割模型的训练总损失Loss包含:语义分支损失、中心偏移量损失、掩码分支损失、掩码评分损失,具体表示为:
Loss=Lsemantic+Loffset+Lmask+Lscore
其中,Lsemantic为所述语义分支损失,使用交叉熵损失;Loffset为所述中心偏移量损失,使用l1回归损失;Lmask为所述掩码分支损失,使用二值交叉熵损失;Lscore为所述掩码评分损失,使用l2回归损失。
5.如权利要求1所述的面向工业场景的工件点云实例分割方法,其特征在于,在所述步骤6中,所述点云实例分割模型的超参数设置如下:将所述训练集内的点数随机裁剪到最多250k个,使用Adam优化器进行50轮训练,每个batch大小设置为4,学习率初始化为0.001,并通过余弦退火算法进行调整。
6.如权利要求1所述的面向工业场景的工件点云实例分割方法,其特征在于,在所述步骤1中,使用RGB-D相机采集所述工件的RGB图像和深度图像,并通过Open3D库可将所述RGB图与所述深度图转换为所述点云数据。
7.如权利要求7所述的面向工业场景的工件点云实例分割方法,其特征在于,在所述步骤2中,使用所述Open3D库中的remove_statistical_outlier()函数通过统计学方法滤除所述点云数据中的离群点,即所述无效点,再使用voxel_down_sample()和uniform_down_sample()函数进行所述点云数据的降噪和下采样,使用segment_plane()函数拟合所述工作台平面得到表示所述工作台平面的所有内点,在降噪处理后的所述点云数据中去除表示所述工作台平面的所述所有内点,保存剩余的所述点云数据作为所述工件的点云表示,并保存为.pcd格式。
8.如权利要求1所述的面向工业场景的工件点云实例分割方法,其特征在于,在所述步骤3中,使用开源标注工具CloudCompare对所述点云数据进行实例标注得到所述标注文件;所述标注文件为txt标注文件,每行内依次存储所述点云数据中的点的坐标信息、颜色信息以及语义类别信息。
9.如权利要求8所述的面向工业场景的工件点云实例分割方法,其特征在于,所述txt标注文件的格式与S3DIS数据集的标注格式相同。
10.如权利要求1所述的面向工业场景的工件点云实例分割方法,其特征在于,在所述步骤4中,所述数据增强的方式包括随机旋转、随机平移、随机缩放、随机噪声、随机镜像和颜色变换。
CN202310581737.6A 2023-05-19 2023-05-19 一种面向工业场景的工件点云实例分割方法 Pending CN116630623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310581737.6A CN116630623A (zh) 2023-05-19 2023-05-19 一种面向工业场景的工件点云实例分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310581737.6A CN116630623A (zh) 2023-05-19 2023-05-19 一种面向工业场景的工件点云实例分割方法

Publications (1)

Publication Number Publication Date
CN116630623A true CN116630623A (zh) 2023-08-22

Family

ID=87641169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310581737.6A Pending CN116630623A (zh) 2023-05-19 2023-05-19 一种面向工业场景的工件点云实例分割方法

Country Status (1)

Country Link
CN (1) CN116630623A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496309A (zh) * 2024-01-03 2024-02-02 华中科技大学 建筑场景点云分割不确定性评估方法、系统及电子设备
CN118247781A (zh) * 2024-01-31 2024-06-25 九众九机器人有限公司 一种基于深度学习的工业机器人目标识别方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496309A (zh) * 2024-01-03 2024-02-02 华中科技大学 建筑场景点云分割不确定性评估方法、系统及电子设备
CN117496309B (zh) * 2024-01-03 2024-03-26 华中科技大学 建筑场景点云分割不确定性评估方法、系统及电子设备
CN118247781A (zh) * 2024-01-31 2024-06-25 九众九机器人有限公司 一种基于深度学习的工业机器人目标识别方法和系统

Similar Documents

Publication Publication Date Title
CN111462120B (zh) 一种基于语义分割模型缺陷检测方法、装置、介质及设备
CN112529015B (zh) 一种基于几何解缠的三维点云处理方法、装置及设备
CN116630623A (zh) 一种面向工业场景的工件点云实例分割方法
CN113065546B (zh) 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统
CN109919013A (zh) 视频图像中基于深度学习的人脸检测方法及装置
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及系统
CN113807355A (zh) 一种基于编解码结构的图像语义分割方法
Geng et al. Using deep learning in infrared images to enable human gesture recognition for autonomous vehicles
CN110399840B (zh) 一种快速的草坪语义分割及边界检测方法
CN111507357B (zh) 一种缺陷检测语义分割模型建模方法、装置、介质及设备
CN115032648B (zh) 一种基于激光雷达密集点云的三维目标识别与定位方法
CN116912804A (zh) 一种高效的无锚框3-d目标检测及跟踪方法及模型
CN112967271A (zh) 一种基于改进DeepLabv3+网络模型的铸件表面缺陷识别方法
CN113888505A (zh) 一种基于语义分割的自然场景文本检测方法
CN110889854B (zh) 一种基于多尺度深度学习的草图部件分割方法、系统、装置及存储介质
Ouyang et al. Aerial target detection based on the improved YOLOv3 algorithm
Liu et al. PolishNet-2d and PolishNet-3d: Deep learning-based workpiece recognition
CN117557779A (zh) 一种基于yolo的多尺度目标检测方法
CN112950786A (zh) 一种基于神经网络的车辆三维重建方法
Si et al. Image semantic segmentation based on improved DeepLab V3 model
Qu et al. Lightweight oriented detector for insulators in drone aerial images
CN115115917A (zh) 基于注意力机制和图像特征融合的3d点云目标检测方法
Bai et al. DHRNet: A Dual-Branch Hybrid Reinforcement Network for Semantic Segmentation of Remote Sensing Images
Yang et al. A lightweight defect detection algorithm of insulators for power inspection
Sun et al. Intelligent Site Detection Based on Improved YOLO Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination