CN114494276A - 一种两阶段多模态三维实例分割方法 - Google Patents

一种两阶段多模态三维实例分割方法 Download PDF

Info

Publication number
CN114494276A
CN114494276A CN202210402415.6A CN202210402415A CN114494276A CN 114494276 A CN114494276 A CN 114494276A CN 202210402415 A CN202210402415 A CN 202210402415A CN 114494276 A CN114494276 A CN 114494276A
Authority
CN
China
Prior art keywords
features
dimensional
feature
depth
point cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210402415.6A
Other languages
English (en)
Inventor
陈光柱
唐在作
韩银贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Univeristy of Technology
Original Assignee
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Univeristy of Technology filed Critical Chengdu Univeristy of Technology
Priority to CN202210402415.6A priority Critical patent/CN114494276A/zh
Publication of CN114494276A publication Critical patent/CN114494276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种两阶段多模态三维实例分割方法。该方法包括二维先验信息获取与三维实例分割两个部分。二维先验信息获取部分采用RGBD多模态融合二维实例分割网络,其中针对深度图质量低的问题设计深度特征校正模块与针对深度图的数据增强策略,并在特征金字塔模块中加入特征对齐模块。三维实例分割部分根据获取到的二维先验信息,结合深度图利用坐标变换的方法生成具有实例分割信息的点云,之后使用直通滤波与统计滤波去除点云中的噪声点,实现目标的三维实例分割。本发明的有益效果是:两阶段多模态三维实例分割方法在少量二维标注数据、没有三维标注数据的应用场景中,能对场景目标进行精准三维实例分割,并具有高实时性的优点。

Description

一种两阶段多模态三维实例分割方法
技术领域
本发明属于计算机视觉、深度学习领域,具体涉及一种两阶段多模态三维实例分割方法。
背景技术
随着工业互联网的兴起,制造业逐渐向智能化方向发展。智能车间是制造过程中的重要组成部分,场景感知程度是其智能化水平的重要指标。作为一种有效的场景感知方法,三维实例分割方法可以通过生成三维对象边界以获得二维实例分割方法无法获得的对象类别信息和目标空间位置信息。此外,三维实例分割已应用于自动驾驶、机器人导航和虚拟/增强现实等领域。然而,智能车间中的大多数应用仅基于二维场景感知。因此,研究智能车间场景中的三维实例分割方法具有重要意义。然而由于智能车间场景的特殊性与复杂性,对智能车间场景目标的识别面临以下两方面的难题:
(1)由于智能车间场景下三维信息采集困难,三维标签标注成本极高,因此在缺少三维实例分割标签的情况下,实现对智能车间场景目标准确的三维实例分割是难以避免的难题;
(2)智能车间场景中生产线上存在大量相同的机床,它们具有相似的色彩特征与形状特征,导致现有识别方法难以区分他们的边界,在这种情况下准确地分割每个实例是另一个难题。
综上所述,针对以上难题,提出了两阶段多模态三维实例分割方法,在无需三维标签的情况下实现了准确的三维实例分割,同时对于智能车间内相似外观特征的目标具有准确的识别精度。
发明内容
鉴于上述问题,本发明的目的在于提供一种两阶段多模态三维实例分割方法。该方法通过改进Yolact网络模型提高智能车间场景中相似外观特征目标的识别精度,同时该方法在少量二维标注数据,不依赖于三维标注数据的情况下实现高效的三维实例分割。
一种两阶段多模态三维实例分割方法,包括以下步骤:
S1.建立智能车间目标实例分割数据集:数据集中目标种类包括人、机器人、普通车床、数控车床、普通铣床、数控铣床、踏板七类,数据集中图像类型包含彩色图、深度图和对应的实例分割图像数据标签。
S2.建立三维实例分割模型:所述三维实例分割模型包括二维先验信息获取模块与三维实例分割模块;
所述二维先验信息获取模块即RGBD多模态融合二维实例分割网络,包括多模态特征融合主干网络、特征金字塔模块与网络预测头部。所述多模态特征融合主干网络用于将彩色图与深度图两种模态的特征进行融合,生成不同尺寸大小特征;所述特征金字塔模块用于对多模态特征融合主干网络生成的不同尺寸大小特征进行融合处理,得到多尺寸融合后的特征;所述网络预测头部,利用特征金字塔模块生成的多尺寸融合后的特征进行二维实例区域的预测。
所述三维实例分割模块,包括点云生成单元与点云过滤单元。所述点云生成单元利用所述网络预测头部生成的二维实例区域结合深度图像生成带有实例信息的点云;所述点云过滤单元对所述点云生成单元生成的带有实例信息的点云进行过滤处理得到准确的三维实例分割结果。
S3.进行RGBD多模态融合二维实例分割网络训练:将彩色图、深度图与其对应的实例分割图像数据标签输入到所述RGBD多模态融合二维实例分割网络中进行端到端的训练,得到训练后的RGBD多模态融合二维实例分割网络。
S4.三维实例分割:将待测图片输入训练后的RGBD多模态融合二维实例分割网络,得到二维先验信息即二维实例区域,之后将二维先验信息与深度图输入三维实例分割模块中生成最终三维实例分割结果。
进一步地,所述的RGBD多模态融合二维实例分割网络训练采用了针对深度图的数据增强策略,用以提升网络对深度图质量的鲁棒性。首先构建由三角形,矩形,圆形组成的掩码形状池,和由缩放,旋转,拉伸组成的掩码操作池,之后随机从掩码形状池中选择随机数量的掩码形状,再从掩码操作池中随机选择掩码操作对掩码进行处理,使得生成的掩码具有高度随机性。最后利用处理后的掩码对深度图进行遮盖处理,抹除深度图上掩码对应位置的深度值。使得网络在不依靠此区域深度信息单纯依靠彩色信息的情况下实现语义信息的推理。
进一步地,所述的多模态特征融合主干网络由两路ResNet-50主干网络与四个特征融合模块构成。所述两路ResNet-50主干网络由两个结构相同的ResNet-50主干网络构成,分别用于提取彩色特征与深度特征,并在其第一至第四特征提取层后将提取出的特征传入四个特征融合模块中;所述四个特征融合模块对所述两路ResNet-50主干网络提取出的彩色特征与深度特征进行特征融合处理。
进一步地,所述四个特征融合模块具有相同的框架结构,包括特征校正单元与特征融合单元。特征校正单元针对深度图质量较低的问题,首先利用深度特征校正模块对深度特征进行校正,得到校正后的深度特征,之后将校正后的深度特征与彩色特征利用通道注意力机制进行两种特征之间的相互补充校正,得到校正后的彩色特征与深度特征。特征融合单元结合空间注意力机制对校正后的彩色特征与深度特征进行特征融合处理,得到不同尺寸大小特征。
进一步地,所述深度特征校正模块,首先将输入的彩色特征与深度特征按照通道维度进行特征拼接,并利用拼接后的特征获取得到彩色特征与深度特征各自的语义流图,其中语义流图的获取由卷积层完成,之后利用语义流图对两种模态特征进行位置调整操作,实现彩色特征与深度特征位置的对齐,最后将对齐后的彩色特征利用元素相加的方式添加到深度特征中,实现对深度特征的补充校正,以上深度特征校正模块中的操作用以下公式表示为:
Figure 255926DEST_PATH_IMAGE001
式中,RGB in Depth in 分别表示输入的彩色特征与深度特征,Concat表示将特征按照通道维度进行合并,
Figure 749355DEST_PATH_IMAGE002
分别用于获取彩色特征与深度特征的语义流图,其由卷积核大小为3×3的卷积层构成,Flow RGB Flow Depth 分别表示彩色特征与深度特征的语义流图,Warp表示对特征的位置调整操作,Depth Aligned 表示校正之后的深度特征。
进一步地,所述的特征金字塔模块基于Yolact网络中的特征金字塔结构,添加了特征对齐模块用以两种不同尺寸特征之间的融合,特征对齐模块首先对高层特征进行通道调整与上采样操作以获得与低层特征相同尺寸大小的特征,之后将获得的相同尺寸大小的特征与低层特征按照通道维度拼接后传入偏移流场生成模块,获得高层特征偏移流场,最后利用高层特征偏移流场对高层特征进行位置调整后与低层特征进行元素相加的融合操作,上述特征对齐模块中的操作利用以下公式表示:
Figure 162011DEST_PATH_IMAGE003
式中,F High F Low 分别表示高层与低层的特征,
Figure 865525DEST_PATH_IMAGE004
分别表示对高层与低层的特征的通道数量调整操作,实现通道数量的统一,由卷积核大小为1×1的卷积层构成,Up表示上采样操作,
Figure 692667DEST_PATH_IMAGE005
表示偏移流场生成模块,由卷积核大小为3×3的卷积层构成,FLOW High 表示高层特征偏移流场,Warp High 表示对高层特征的位置调整操作,F OUT 表示多尺寸融合后的特征。
进一步地,所述的点云过滤单元包括直通滤波与统计滤波。
所述的直通滤波,针对生成的实例点云中包含的大量背景噪声,根据距离阈值过滤掉距离超范围的点云噪声,如以下公式所示:
Figure 696395DEST_PATH_IMAGE006
式中,xyz表示三维点云的像素坐标,X 1 X 2 Y 1 Y 2 Z 1 Z 2 表示距离阈值超参数;
所述统计滤波针对目标周围的离散噪声点进行过滤,通过点云中每个点的分布差异对噪声点进行判别;首先遍历整片点云中所有m个点,确定每个点的邻近点,所述邻近点为以该点为中心且最接近该点的k个点,计算该点与k个邻近点的距离平均值,其中第i个点对应的距离平均值为Dis i i=1~mk=40,之后利用所求的距离平均值获取整片点云的距离均值μ与方差σ,以获取最大距离阈值d max ,最后再次遍历整片点云,对距离平均值超过最大距离阈值d max 的点进行滤除,计算方法如以下公式所示:
Figure 465637DEST_PATH_IMAGE007
式中,Dis i 表示第i个点与邻居点之间的平均距离,d ij 表示点云中第i个点与第j个点之间的欧式距离,k表示每次计算的邻居点的个数,m表示当前点云中所包含点的个数,α表示比例系数,用于评估标准差的影响程度。
与现有技术相比,本发明具有以下有益效果:
1、能有效提高智能车间场景中相似外观目标的分割精度;
2、在少量二维标注数据,没有三维标注数据的情况下实现准确三维实例分割;
3、两阶段多模态三维实例分割方法满足三维实例分割实时性和精度要求。
附图说明
图1是车间目标实例分割数据集标签样例;
图2是两阶段多模态三维实例分割方法整体流程图;
图3是RGBD多模态融合二维实例分割网络(Feature improvement and fusion -Yolact,FIF-Yolact);
图4是多模态特征融合主干网络;
图5是特征校正单元;
图6是特征融合单元;
图7是深度特征校正模块;
图8是特征金字塔模块;
图9是特征对齐模块;
图10是带有实例信息的点云;
图11是直通滤波处理后的点云;
图12是统计滤波处理后的点云;
图13是针对深度图的数据增强效果图;
图14为三维实例分割的最终效果图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明。
一种两阶段多模态三维实例分割方法,以数字化车间为例,具体包括以下步骤:
S1.建立智能车间目标实例分割数据集:智能车间目标实例分割数据集的数量将在很大程度上影响分割网络的精度,现如今面向智能车间目标的实例分割数据集尚不存在,需要建立智能车间目标实例分割数据集,数据集目标种类包括人、数控车床,普通车床、数控铣床、普通铣床、踏板、移动机器人七类,该数据集使用Intel RealSense D435相机拍摄,Labelme标注软件标注,图像类型包含彩色图、深度图以及对应的实例分割图像数据标签,如附图1所示。
S2.建立三维实例分割模型:如附图2所示,三维实例分割模型包括二维先验信息获取模块与三维实例分割模块。
其中,如附图3所示,二维先验信息获取模块即RGBD多模态融合二维实例分割网络,包括多模态特征融合主干网络、特征金字塔模块与网络预测头部。多模态特征融合主干网络用于将彩色图与深度图两种模态的特征进行融合,生成不同尺寸大小特征;特征金字塔模块用于对多模态特征融合主干网络生成的不同尺寸大小特征进行融合处理,得到多尺寸融合后的特征;网络预测头部,利用特征金字塔模块生成的多尺寸融合后的特征进行二维实例区域的预测;
其中三维实例分割模块,包括点云生成单元与点云过滤单元。点云生成单元利用网络预测头部生成的二维实例区域结合深度图像生成带有实例信息的点云;点云过滤单元对点云生成单元生成的带有实例信息的点云进行过滤处理得到准确的三维实例分割结果;
如附图4所示,上述的多模态特征融合主干网络由两路ResNet-50主干网络与四个特征融合模块构成。所述两路ResNet-50主干网络由两个结构相同的ResNet-50主干网络构成,分别用于提取彩色特征与深度特征,并在其第一至第四特征提取层后将提取出的特征传入四个特征融合模块中;所述四个特征融合模块对所述两路ResNet-50主干网络提取出的彩色特征与深度特征进行特征融合处理。
上述四个特征融合模块具有相同的框架结构,包括特征校正单元与特征融合单元。
其中,由于深度图相较于彩色图成像质量较低,如图5所示,所述特征校正单元首先利用深度特征校正模块对深度特征进行校正,之后将校正之后的深度特征与彩色特征拼接并利用全连接层获取得到两种模态特征各自的通道注意力向量,最后根据获取到的通道注意力向量采用元素相乘的方式对输入的彩色特征与深度特征中具有代表性的通道特征给予突出,并在突出处理后加入到对方特征中实现彩色特征与深度特征的补充校正。
其中,如附图6所示,所述特征融合单元首先将补充校正后的彩色特征与深度特征按照通道维度进行特征拼接,并利用卷积层获取得到两种模态各自空间注意力向量,之后根据获取得到的空间注意力向量采用元素相乘的方式对输入的两种模态特征中具有代表性的空间特征给予突出,最后将处理后的两种模态特征按照元素相加的方式进行融合。
如附图7所示,上述深度特征校正模块,首先将输入的彩色特征与深度特征按照通道维度进行特征拼接,并利用拼接后的特征获取得到彩色特征与深度特征各自的语义流图,其中语义流图的获取由卷积层完成,之后利用语义流图对彩色特征与深度特征进行位置调整操作,实现深度特征与彩色特征位置的对齐,最后将对齐后的彩色特征利用元素相加的方式添加到深度特征中,实现对深度特征的补充校正,以上深度特征校正模块中的操作用以下公式表示为:
Figure 594130DEST_PATH_IMAGE008
式中,RGB in Depth in 分别表示输入的彩色特征与深度特征,Concat表示将特征按照通道维度进行合并,
Figure 349596DEST_PATH_IMAGE009
分别用于获取彩色特征与深度特征的语义流图,其由卷积核大小为3×3的卷积层构成,Flow RGB Flow depth 分别表示彩色特征与深度特征的语义流图,Warp表示对特征的位置调整操作,Depth Aligned 表示校正之后的深度特征。
如附图8所示,上述特征金字塔模块基于Yolact网络中特征金字塔结构,添加了特征对齐模块。特征金字塔模块首先将输入的第四层特征进行连续两次下采样操作,产生第五层特征与第六层特征,之后将第四层特征与第三层特征利用特征对齐模块进行对齐与融合生成融合后的第三层特征,最后将融合后的第三层特征与输入的第二层特征利用特征对齐模块进行对齐与融合生成融合后的第二层特征。
如附图9所示,上述特征对齐模块首先对高层特征进行通道调整与上采样操作以获得与低层特征相同尺寸大小的特征,之后将获得的相同尺寸大小的特征与低层特征按照通道维度拼接后传入偏移流场生成模块,获得高层特征偏移流场,最后利用高层特征偏移流场对高层特征进行位置调整后与低层特征进行元素相加的融合操作,上述特征对齐模块中的操作利用以下公式表示:
Figure 801306DEST_PATH_IMAGE010
式中,F High F Low 分别表示高层与低层的特征,
Figure 616815DEST_PATH_IMAGE011
分别表示对高层与低层的特征的通道数量调整操作,实现通道数量的统一,由卷积核大小为1×1的卷积层构成,Up表示上采样操作,
Figure 435867DEST_PATH_IMAGE012
表示偏移流场生成模块,由卷积核大小为3×3的卷积层构成,FLOW High 表示高层特征偏移流场,Warp High 表示对高层特征的位置调整操作,F OUT 表示多尺寸融合后的特征。
如附图10所示,上述点云生成单元,利用获取的二维实例区域对深度图进行裁剪,将裁剪后的深度图中的像素值利用坐标变换公式投影为带有实例信息的点云,如以下公式所示:
Figure 995024DEST_PATH_IMAGE013
式中,K d 表示深度相机的内参矩阵,Rt表示深度相机的外参,R表示深度相机的旋转矩阵,t表示深度相机的位移矢量,
Figure 832399DEST_PATH_IMAGE014
表示三维点云的z轴坐标值,s表示比例尺度,d为深度图uv位置上的深度像素值,xyz表示三维空间中的坐标。
上述点云过滤单元,针对点云中包含的大量噪声进行有针对性的过滤,包括直通滤波与统计滤波两部分。
如附图11所示,直通滤波针对生成的带有实例信息的点云中包含的大量背景噪声,设定距离阈值为一至四米,对超出此距离阈值的点云进行过滤,如以下公式所示:
Figure 225334DEST_PATH_IMAGE006
式中,xyz表示三维点云的像素坐标,X 1 X 2 Y 1 Y 2 Z 1 Z 2 表示距离阈值超参数。
如附图12所示,统计滤波针对目标周围的离散噪声点进行过滤,通过点云中每个点的分布差异对噪声点进行判别;;首先遍历整片点云中所有m个点,确定每个点的邻近点,所述邻近点为以该点为中心且最接近该点的k个点,计算该点与k个邻近点的距离平均值,其中第i个点对应的距离平均值为Dis i i=1~mk=40,之后利用所求的距离平均值获取整片点云的距离均值μ与方差σ,以获取最大距离阈值d max ,最后再次遍历整片点云,对距离平均值超过最大距离阈值d max 的点进行滤除,计算方法如以下公式所示:
Figure 347661DEST_PATH_IMAGE015
式中,Dis i 表示第i个点与邻近点之间的平均距离,d ij 表示点云中第i个点与第j个点之间的欧式距离,k表示每次计算的邻近点的个数,m表示当前点云中所包含点的个数,α表示比例系数,用于评估标准差的影响程度。
S3.进行RGBD多模态融合二维实例分割网络训练:将彩色图、深度图与其对应的实例分割图像数据标签输入到所述RGBD多模态融合二维实例分割网络中进行端到端的训练,得到训练后的RGBD多模态融合二维实例分割网络。
其中,针对实际智能车间场景中获取的深度图质量较低的问题,本发明采用针对深度图的数据增强策略,用以提升网络对深度图质量的鲁棒性。首先构建由三角形,矩形,圆形组成的掩码形状池,和由缩放,旋转,拉伸组成的掩码操作池,之后随机从掩码形状池中选择随机数量的掩码形状,再从掩码操作池中随机选择掩码操作对掩码进行处理,使得生成的掩码具有高度随机性。最后利用处理后的掩码对深度图进行遮盖处理,抹除深度图上掩码对应位置的深度值。使得网络在不依靠此区域深度信息单纯依靠彩色信息的情况下实现语义信息的推理。效果图如附图13所示。
S4.三维实例分割:将待测图片输入训练后的RGBD多模态融合二维实例分割网络,得到二维先验信息即二维实例区域,之后将二维先验信息与深度图输入三维实例分割模块中生成最终三维实例分割结果如附图14所示。
整个三维实例分割完整描述如下:
步骤1:将整个网络输入的彩色图与深度图分辨率大小统一设定为 480 X 640像素;
步骤2:利用针对深度图的数据增强策略对深度图进行增强,获得数据增强后的深度图;
步骤3:数据增强后的深度图与彩色图传入多模态特征融合主干网络中进行特征融合;其中特征融合主干网络利用两路ResNet-50主干网络分别提取彩色特征与深度特征,并将提取出的彩色特征与深度特征传入四个特征融合模块;四个特征融合模块中的特征校正单元首先利用深度特征校正模块对深度特征进行单独校正,之后再将校正后的深度特征与彩色特征进行相互补充校正,四个特征融合模块中的特征融合单元再将相互补充校正后的深度特征与彩色特征进行相互融合,生成不同尺寸大小特征;
步骤4:将生成的不同尺寸大小特征的后三层特征传入特征金字塔模块中,利用特征对齐模块进行不同尺寸特征之间的融合,生成多尺寸融合后的特征;
步骤5:网络预测头部利用多尺寸融合后的特征预测生成二维实例区域;
步骤6:点云生成单元根据所述二维实例区域对深度图进行裁剪,并将裁剪后的深度图投影为带有实例信息的点云;
步骤7:点云过滤单元首先利用直通滤波对点云中的背景噪声进行过滤;点云过滤单元利用统计滤波对点云中目标周围的离散噪声进行过滤,完成最终的三维实例分割。

Claims (7)

1.一种两阶段多模态三维实例分割方法,其特征在于,包括如下步骤:
S1.建立智能车间目标实例分割数据集:所述智能车间目标实例分割数据集中目标种类包括人、机器人、普通车床、数控车床、普通铣床、数控铣床、踏板七类,数据集中图像类型包含彩色图、深度图和对应的实例分割图像数据标签;
S2.建立三维实例分割模型:所述三维实例分割模型包括二维先验信息获取模块与三维实例分割模块;
所述二维先验信息获取模块即RGBD多模态融合二维实例分割网络,包括多模态特征融合主干网络、特征金字塔模块与网络预测头部;所述多模态特征融合主干网络用于将彩色图与深度图两种模态的特征进行融合,生成不同尺寸大小特征;所述特征金字塔模块用于对所述多模态特征融合主干网络生成的不同尺寸大小特征进行融合处理,得到多尺寸融合后的特征;所述网络预测头部,利用所述特征金字塔模块生成的多尺寸融合后的特征进行二维实例区域的预测;
所述三维实例分割模块,包括点云生成单元与点云过滤单元;所述点云生成单元利用所述网络预测头部生成的二维实例区域结合深度图像生成带有实例信息的点云;所述点云过滤单元对所述点云生成单元生成的带有实例信息的点云进行过滤处理得到准确的三维实例分割结果;
S3.进行RGBD多模态融合二维实例分割网络训练:将彩色图,深度图与其对应的实例分割图像数据标签输入到所述RGBD多模态融合二维实例分割网络中进行端到端的训练,得到训练后的RGBD多模态融合二维实例分割网络;
S4.三维实例分割:将待测图片输入到训练后的RGBD多模态融合二维实例分割网络,得到二维先验信息即二维实例区域,将二维先验信息与深度图输入三维实例分割模块中生成三维实例分割结果。
2.根据权利要求1所述的一种两阶段多模态三维实例分割方法,其特征在于,所述的RGBD多模态融合二维实例分割网络训练采用了针对深度图的数据增强策略;
所述针对深度图的数据增强策略,首先构建由三角形,矩形,圆形组成的掩码形状池,和由缩放,旋转,拉伸组成的掩码操作池,之后随机从掩码形状池中选择随机数量的掩码形状,再从掩码操作池中随机选择掩码操作对掩码进行处理,最后利用处理后的掩码对深度图进行遮盖处理,抹除深度图上掩码对应位置的深度值。
3.根据权利要求1所述的一种两阶段多模态三维实例分割方法,其特征在于,所述多模态特征融合主干网络由两路ResNet-50主干网络与四个特征融合模块构成;
所述两路ResNet-50主干网络分别用于提取彩色特征与深度特征,并在其第一至第四特征提取层后将特征传入四个特征融合模块;所述四个特征融合模块对所述两路ResNet-50主干网络提取出的彩色特征与深度特征进行特征融合处理。
4.根据权利要求3所述的一种两阶段多模态三维实例分割方法,其特征在于,所述的四个特征融合模块具有相同的框架结构,包括特征校正单元与特征融合单元;
所述特征校正单元首先利用深度特征校正模块对深度特征进行校正,之后将校正之后的深度特征与彩色特征拼接并利用全连接层获取得到两种模态特征各自的通道注意力向量,最后根据获取到的通道注意力向量采用元素相乘的方式对输入的彩色特征与深度特征中具有代表性的通道特征给予突出,并在突出处理后加入到对方模态中实现彩色特征与深度特征的补充校正;
所述特征融合单元首先将补充校正后的彩色特征与深度特征按照通道维度进行特征拼接,并利用卷积层获取得到两种模态各自空间注意力向量,之后根据获取得到的空间注意力向量采用元素相乘的方式对输入的彩色特征与深度特征中具有代表性的空间特征给予突出,最后将处理后的彩色特征与深度特征按照元素相加的方式进行融合。
5.根据权利要求4所述的一种两阶段多模态三维实例分割方法,其特征在于,所述深度特征校正模块,首先将输入的彩色特征与深度特征按照通道维度进行特征拼接,并利用拼接后的特征获取得到两种模态特征各自的语义流图,其中语义流图的获取由卷积层完成,之后利用语义流图对两种模态特征进行位置调整操作,实现彩色特征与深度特征位置的对齐,最后将对齐后的彩色特征利用元素相加的方式添加到深度特征中,实现对深度特征的补充校正,以上深度特征校正模块中的操作用以下公式表示为:
Figure 286452DEST_PATH_IMAGE001
式中,RGB in Depth in 分别表示输入的彩色特征与深度特征,Concat表示将特征按照通道维度进行合并,
Figure 729066DEST_PATH_IMAGE002
分别用于获取彩色特征与深度特征的语义流图,其由卷积核大小为3×3的卷积层构成,Flow RGB Flow depth 分别表示彩色特征与深度特征的语义流图,Warp表示对特征的位置调整操作,Depth Aligned 表示校正之后的深度特征。
6.根据权利要求1所述的一种两阶段多模态三维实例分割方法,其特征在于,所述特征金字塔模块包括特征对齐模块,用于相邻两层不同尺寸特征之间的融合;
所述特征对齐模块首先对高层特征进行通道调整与上采样操作以获得与低层特征相同尺寸大小的特征,之后将获得的相同尺寸大小的特征与低层特征按照通道维度拼接后传入偏移流场生成模块,获得高层特征偏移流场,最后利用高层特征偏移流场对高层特征进行位置调整后与低层特征进行元素相加的融合操作,上述特征对齐模块中的操作利用以下公式表示:
Figure 620798DEST_PATH_IMAGE003
式中,F High F Low 分别表示高层特征与低层特征,
Figure 460447DEST_PATH_IMAGE004
分别表示对高层特征与低层特征的通道调整操作,实现通道数量的统一,由卷积核大小为1×1的卷积层构成,Up表示上采样操作,
Figure 236773DEST_PATH_IMAGE005
示偏移流场生成模块,由卷积核大小为3×3的卷积层构成,FLOW High 表示高层特征偏移流场,Warp High 表示对高层特征的位置调整操作,F OUT 表示多尺寸融合后的特征。
7.根据权利要求1所述的一种两阶段多模态三维实例分割方法,其特征在于,所述的点云过滤单元包括直通滤波与统计滤波;
所述的直通滤波,针对生成的带有实例信息的点云中包含的大量背景噪声,设定距离阈值,对超出距离阈值的点云进行过滤,如以下公式所示:
Figure 392948DEST_PATH_IMAGE006
式中,xyz表示三维点云的像素坐标,X 1 X 2 Y 1 Y 2 Z 1 Z 2 表示距离阈值超参数;
所述的统计滤波,针对目标周围的离散噪声点进行过滤,通过点云中每个点的分布差异对噪声点进行判别;首先遍历整片点云中所有m个点,确定每个点的邻近点,所述邻近点为以该点为中心且最接近该点的k个点,计算该点与k个邻近点的距离平均值,其中第i个点对应的距离平均值为Dis i i=1~mk=40,之后利用所求的距离平均值获取整片点云的距离均值μ与方差σ,以获取最大距离阈值d max ,最后再次遍历整片点云,对距离平均值超过最大距离阈值d max 的点进行滤除,计算方法如以下公式所示:
Figure 642533DEST_PATH_IMAGE007
式中,Dis i 表示第i个点与邻近点之间的距离均值,d ij 表示点云中第i个点与第j个点之间的欧式距离,k表示每次计算的邻近点的个数,m表示当前点云中所包含点的个数,α表示比例系数,用于评估标准差的影响程度。
CN202210402415.6A 2022-04-18 2022-04-18 一种两阶段多模态三维实例分割方法 Pending CN114494276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210402415.6A CN114494276A (zh) 2022-04-18 2022-04-18 一种两阶段多模态三维实例分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210402415.6A CN114494276A (zh) 2022-04-18 2022-04-18 一种两阶段多模态三维实例分割方法

Publications (1)

Publication Number Publication Date
CN114494276A true CN114494276A (zh) 2022-05-13

Family

ID=81489481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210402415.6A Pending CN114494276A (zh) 2022-04-18 2022-04-18 一种两阶段多模态三维实例分割方法

Country Status (1)

Country Link
CN (1) CN114494276A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972763A (zh) * 2022-07-28 2022-08-30 香港中文大学(深圳)未来智联网络研究院 激光雷达点云分割方法、装置、设备及存储介质
CN114952809A (zh) * 2022-06-24 2022-08-30 中国科学院宁波材料技术与工程研究所 工件识别和位姿检测方法、系统及机械臂的抓取控制方法
CN115565260A (zh) * 2022-12-05 2023-01-03 成都宜泊信息科技有限公司 基于声波通讯和手机网络的停车场收费管理方法及系统
WO2024108377A1 (zh) * 2022-11-22 2024-05-30 上海成电福智科技有限公司 一种多模态多任务车间目标识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822232A (zh) * 2021-11-19 2021-12-21 华中科技大学 一种基于金字塔注意力的场景识别方法、训练方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822232A (zh) * 2021-11-19 2021-12-21 华中科技大学 一种基于金字塔注意力的场景识别方法、训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZAIZUO TANG等: "Bi-stage multi-modal 3D instance segmentation method for production workshop scene", 《ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE》 *
易佳等: "数字化车间目标轻量级语义分割", 《计算机集成制造系统》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114952809A (zh) * 2022-06-24 2022-08-30 中国科学院宁波材料技术与工程研究所 工件识别和位姿检测方法、系统及机械臂的抓取控制方法
CN114972763A (zh) * 2022-07-28 2022-08-30 香港中文大学(深圳)未来智联网络研究院 激光雷达点云分割方法、装置、设备及存储介质
CN114972763B (zh) * 2022-07-28 2022-11-04 香港中文大学(深圳)未来智联网络研究院 激光雷达点云分割方法、装置、设备及存储介质
WO2024108377A1 (zh) * 2022-11-22 2024-05-30 上海成电福智科技有限公司 一种多模态多任务车间目标识别方法
CN115565260A (zh) * 2022-12-05 2023-01-03 成都宜泊信息科技有限公司 基于声波通讯和手机网络的停车场收费管理方法及系统
CN115565260B (zh) * 2022-12-05 2023-03-10 成都宜泊信息科技有限公司 基于声波通讯和手机网络的停车场收费管理方法及系统

Similar Documents

Publication Publication Date Title
Alonso et al. 3d-mininet: Learning a 2d representation from point clouds for fast and efficient 3d lidar semantic segmentation
CN114494276A (zh) 一种两阶段多模态三维实例分割方法
CN109544456B (zh) 基于二维图像和三维点云数据融合的全景环境感知方法
CN111563415B (zh) 一种基于双目视觉的三维目标检测系统及方法
CN112700499B (zh) 一种辐照环境下基于深度学习的视觉定位仿真方法及系统
CN111340797A (zh) 一种激光雷达与双目相机数据融合检测方法及系统
CN113673444B (zh) 一种基于角点池化的路口多视角目标检测方法及系统
CN112766136B (zh) 一种基于深度学习的空间车位检测方法
CN111998862B (zh) 一种基于bnn的稠密双目slam方法
CN102831427A (zh) 一种融合视觉显著性和灰度共生矩的纹理特征提取方法
CN110443849B (zh) 一种基于深度图像的双流卷积神经网络回归学习的目标定位方法
CN111127401B (zh) 一种基于深度学习的机器人立体视觉机械零件检测方法
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
Hong et al. USOD10K: a new benchmark dataset for underwater salient object detection
CN114219855A (zh) 点云法向量的估计方法、装置、计算机设备和存储介质
CN116778288A (zh) 一种多模态融合目标检测系统及方法
CN115082254A (zh) 一种变电站精益管控数字孪生系统
CN117132914B (zh) 通用电力设备识别大模型方法及系统
CN112419496A (zh) 一种基于深度学习的语义地图构建方法
CN113592015B (zh) 定位以及训练特征匹配网络的方法和装置
CN116403275B (zh) 基于多目视觉检测封闭空间中人员行进姿态的方法及系统
CN116883767A (zh) 一种基于多源信息多尺度融合的目标检测方法
Wang et al. Absolute depth measurement of objects based on monocular vision
CN116182894A (zh) 一种单目视觉里程计方法、装置、系统及存储介质
CN113033470B (zh) 一种轻量型目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220513