CN117523206B - 一种基于跨源点云与多模态信息的自动化装配方法 - Google Patents

一种基于跨源点云与多模态信息的自动化装配方法 Download PDF

Info

Publication number
CN117523206B
CN117523206B CN202410009972.0A CN202410009972A CN117523206B CN 117523206 B CN117523206 B CN 117523206B CN 202410009972 A CN202410009972 A CN 202410009972A CN 117523206 B CN117523206 B CN 117523206B
Authority
CN
China
Prior art keywords
point cloud
dimensional
assembly
local
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410009972.0A
Other languages
English (en)
Other versions
CN117523206A (zh
Inventor
汪俊
张嘉麟
李超
李子宽
荆文科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202410009972.0A priority Critical patent/CN117523206B/zh
Publication of CN117523206A publication Critical patent/CN117523206A/zh
Application granted granted Critical
Publication of CN117523206B publication Critical patent/CN117523206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于跨源点云与多模态信息的自动化装配方法,包括获取待装配物体全局三维点云和二维图像,从而生成相应的待装配物体的局部三维点云;将二维图像、局部三维点云和全局三维点云的特征提取后聚合,最终语义分割出多对装配特征;根据点云中分割出的多对装配特征,使用ICP方法进行点云配准,使用BA优化算法进行位姿参数的融合,得到融合后的旋转矩阵和平移矩阵,完成位姿计算;将点云配准得到的旋转矩阵和平移矩阵分解到执行机构,对装配物体进行位姿调整,完成自动化装配。本发明采用深度学习的方法,结合跨源点云和多模态信息,从中提取分割特征,并进行点云的配准以及优化融合得到调姿参数,最后进行装配,完成自动化装配过程。

Description

一种基于跨源点云与多模态信息的自动化装配方法
技术领域
本发明涉及自动装配技术领域,尤其涉及一种基于跨源点云与多模态信息的自动化装配方法。
背景技术
与传统的人工手动装配方法相比,根据跨源点云和多模态信息的自动装配技术有着诸多优势。根据跨源点云与多模态信息的自动装配技术可以通过结合跨源得到的局部点云和整体点云并结合二维图像,以此来分割特征,然后进行点云的配准,最后对物体进行装配,从而提高装配的精度。这减少了装配错误的可能性,尤其是对于精细和复杂的装配任务。同时可以更快速地执行装配任务,减少了人工操作所需的时间,从而提高了装配效率。这对于大规模生产和高产能要求的情况尤为重要。而传统的人工手动装配依赖人力操作,这使得人工装配容易受到人为误差的影响,且需要培训时间和成本。并且人工装配通常速度较慢,尤其是在大规模和复杂的装配任务中。传统装配可能受到操作员技能水平的影响,装配的精度可能有限。传统装配有时难以适应零件变形、位置偏差或不确定性,而自动化装配技术可以通过实时数据反馈和自适应算法来应对这些情况。
发明内容
针对现有技术的不足,本发明提供了一种基于跨源点云与多模态信息的自动化装配方法,解决了现有技术中装配速度慢、精度不高、难以应对变化和不确定性问题,采用深度学习的方法,结合跨源点云和多模态信息,从中提取分割特征,并进行点云的配准以及优化融合得到调姿参数,最后进行装配,完成自动化装配过程。
为解决上述技术问题,本发明提供了如下技术方案:一种基于跨源点云与多模态信息的自动化装配方法,包括以下步骤:
S1、获取待装配物体全局三维点云和二维图像,根据全局三维点云和二维图像生成相应的待装配物体的局部三维点云;
S2、将待装配物体的二维图像、局部三维点云和全局三维点云输入基于自注意力机制的跨源多模态语义分割网络,将二维图像、局部三维点云和全局三维点云的特征提取后聚合,得到语义分割结果点云,最终语义分割出多对装配特征;
S3、根据待装配物体点云中分割出的多对装配特征,使用ICP(Iterative ClosestPoint迭代最近点)方法进行点云配准,使用BA(Bundle Adjustment光束法平差)优化算法进行位姿参数的融合,得到融合后的旋转矩阵和平移矩阵/>,完成位姿计算;
S4、将点云配准得到融合后的旋转矩阵和平移矩阵/>分解到执行机构,对装配物体进行位姿调整,完成自动化装配。
进一步地,在步骤S1中,具体过程包括以下步骤:
S11、对待装配物体进行扫描从而获得全局三维点云;
S12、根据结构光投影的原理对待装配物体进行拍照获得与待装配物体表面形状相关的二维图像,然后借助这些图像数据,还原待装配物体的三维形状信息,生成相应的待装配物体的局部三维点云。
进一步地,在步骤S2中,具体过程包括以下步骤:
S21、将待装配物体的二维图像输入跨源多模态语义分割网络,该网络加载一个在大规模图像数据集上训练的ResNet-50模型结构,深度残差网络(Deep ResidualNetworks,简称ResNet),在前向传播的过程中,截断模型,即在最后的分类头部之前停止网络的前向传播,从而不执行最终的分类任务直接获取图像的256 通道特征图;
S22、通过相机的外部参数和相机的内部参数/>将从ResNet得到的二维图像的256 维特征/>反投影到局部三维点云中,并与局部三维点云中对应点的坐标连接起来;
S23、将根据结构光投影原理转换得到的局部三维点云进行下采样得到以保留结构细节的相对密集的点云,该点云的点数约为局部三维点云点数的50%;下采样后的局部三维点云中每个点除了欧几里得坐标外,还连接了来自ResNet的256维特征/>和顶点的法线/>,以此得到了262维特征/>的点,获得的点云用作后续阶段的局部三维点云;将扫描得到的全局三维点云下采样得到一个相对稀疏的点云,以此用于学习全局特征,该点云的点数约为全局三维点云点数的10%,获得的点云用作后续阶段的全局三维点云;
S24、将带有262维特征的局部三维点云和点云相对稀疏的全局三维点云输入跨源多模态语义分割网络中,首先经过四个Transition Down向下过渡模块下采样,每次Transition Down模块将点数减少为之前的四分之一的同时进行特征编码,其中每一次的下采样后都经过了包含有Point Transformer点云变换器层的PointTransformer块,促进局部特征向量之间的信息交换,为所有数据点生成新的特征向量作为其输出;
S25、将全局三维点云的特征与局部三维点云的特征进行串联,特征串联后的局部三维点云经过四个Transition Up向上过渡模块,将点数恢复至初始状态并将特征解码,同时每个Transition Up模块后同样跟有Point Transformer块,最终的解码器阶段为输入点集中的每个点生成一个特征向量,应用 MLP(Multi-Layer Perception多层感知器)将此特征映射,生成语义标签,根据语义标签即可完成装配特征的分割,得到语义分割结果点云。
进一步地,在步骤S21中,所述ResNet-50卷积层中的卷积核的大小为3x3,步长为1,用于捕获图像中的局部特征,在卷积层之间,使用最大池化层来减小特征图的尺寸;最大池化层使用2x2的池化窗口并且步长为2,用以减小特征图的分辨率,其中每层卷积运算后均经过ReLu激活函数处理。
进一步地,在步骤S24中,所述Point Transformer层基于向量注意力,使用减法关系并将位置编码添加到注意力向量/>和变换后的特征/>中,可以表示为:
其中,是输出特征,/>,/>和/>是逐点变换后的特征,例如线性投影或 MLP。/>是位置编码函数,/>是归一化函数,例如softmax函数。/>是映射函数,具有两个线性层和一个 ReLU 非线性层的 MLP,用于生成用于特征聚合的注意向量。子集/>是/>的局部邻域k个最近邻中的点集,采用最近的自注意力网络进行图像分析的做法,在每个数据点周围的局部邻域内局部应用自注意力;
对任意数据点,使用k近邻法 (k-Nearest Neighbor,kNN)寻找距离该点最近的n个点,这些点组成集合/>。然后计算/>和邻居点相关的注意力的值,相加得到PointTransformer层在/>上的输出/>
其中注意力值的计算过程为:送到线性层/>中,邻点/>送入线性层/>中,得到Q和K,二者做差,接着加上位置编码/>,再将上述部分送入中/>,/>是具有两个线性层和一个ReLU激活函数的 MLP,得到了注意力的权重;然后将/>送入/>中得到Value,同样加上位置编码/>。将注意力的权重通过/>进行归一化(softmax函数),最后两个部分相乘即可得到注意力的值。
进一步地,在步骤S3中,具体过程包括以下步骤:
S31、将源点云和目标点云/>之间对应的装配特征进行ICP配准,通过SVD(Single Value Decomposition奇异值分解)分解计算得到最优旋转/>和最优平移/>,每一次迭代得到当前的最优变换参数/>,/>,其中/>是每一次迭代得到的旋转矩阵,/>是每一次迭代得到的平移矩阵;
S32、将该变换作用于当前源点云,并寻找最近对应点和求解最优变换参数这两步不停迭代进行,直到满足迭代终止条件,完成一对装配特征的待装配物体点云的位姿计算,随后对每一对装配特征重复此过程;
S33、将每个旋转矩阵和平移矩阵结合为变换矩阵,变换矩阵作为要优化的变量参数,建立目标函数为:/>,其中/>是误差项的向量,/>是第i个变换的权重,根据不同的装配特征应用对应的值,/>是第i个变换矩阵的误差项,使用变换矩阵后点云之间的欧氏距离;
S34、对根据多对装配特征使用ICP得到的旋转矩阵和位移矩阵通过BA算法来最小化目标函数,找到最佳的参数向量,即最佳融合的变换矩阵,得到融合后的旋转矩阵/>和平移矩阵/>,完成位姿计算。
进一步地,在步骤S4中,具体过程包括以下步骤:
S41、根据装配环境中标志点的三维坐标和调姿机构上标志点的三维坐标,分别建立全局坐标系和调姿机构坐标系;
S42、通过考虑装配场景中各装配件之间的相对关系,将融合得到的旋转矩阵和平移矩阵/>映射到装配调姿机构坐标系中,以获得装配调姿机构在三个方向上的位移值和旋转角度/>、/>、/>
S43、调姿机构以三个方向的位移和旋转角度/>、/>、/>为依据进行运动,完成装配。
借由上述技术方案,本发明提供了一种基于跨源点云与多模态信息的自动化装配方法,至少具备以下有益效果:
与传统的装配方法相比,本发明旨在解决传统装配方式存在的精度不高和效率低的问题,采用基于跨源点云和多模态信息的自动化装配方法。该方法通过将图像和点云的多模态信息进行联接,将二维图像中的特征反映到局部点云中,有助于提取局部点云的特征。同时,通过网络将来自不同源的局部点云和整体点云的特征串联在一起,从而使局部点云包含了全局的特征信息,有助于特征的分割。同时在进行点云配准得到变换矩阵后使用了优化算法完成了参数的融合,这些提供了更全面和准确的信息,最终提高了装配的精度。本发明将跨源点云和多模态信息结合起来,以分割装配特征,执行点云配准算法,进而使用BA优化算法实现参数的融合,得出融合后的旋转矩阵和平移矩阵,并根据该值进行位姿调整,实现自动化装配。这提高了装配的效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明的系统框架图;
图2为本发明跨源多模态语义分割网络结构模型图;
图3为本发明Point Transformer块的详细结构设计图;
图4为本发明Transition Down和Transition Up模块的详细结构设计图;
图5是装配效果图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图 和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
请参照图1 -图5,示出了本实施例的一种具体实施方式,本实施例通过将跨源点云和多模态信息结合起来,以分割装配特征,执行点云配准算法,进而使用BA优化算法实现参数的融合,得出旋转矩阵和平移矩阵,并根据该值进行位姿调整,实现自动化装配。这提高了装配的效率。
请参照图1,本实施例提出了一种基于跨源点云与多模态信息的自动化装配方法,该方法包括以下步骤:
S1、获取待装配物体全局三维点云和二维图像,根据全局三维点云和二维图像生成相应的待装配物体的局部三维点云;
作为步骤S1的优选实施方式,具体过程包括以下步骤:
S11、对待装配物体进行扫描从而获得全局三维点云;
S12、根据结构光投影的原理对待装配物体进行拍照获得与待装配物体表面形状相关的二维图像,然后借助这些图像数据,还原待装配物体的三维形状信息,生成相应的待装配物体的局部三维点云。
在本实施例中,该方法通过将图像和点云的多模态信息进行联接,将二维图像中的特征反映到局部点云中,有助于提取局部点云的特征。
S2、将待装配物体的二维图像、局部三维点云和全局三维点云输入基于自注意力机制的跨源多模态语义分割网络,将二维图像、局部三维点云和全局三维点云的特征提取后聚合,得到语义分割结果点云,最终语义分割出多对装配特征;
作为步骤S2的优选实施方式,具体过程包括以下步骤:
S21、将待装配物体的二维图像输入跨源多模态语义分割网络,该网络加载一个在大规模图像数据集上训练的ResNet-50模型结构,在前向传播的过程中,截断模型,即在最后的分类头部之前停止网络的前向传播,从而不执行最终的分类任务直接获取图像的256通道特征图;
更为具体的是,在步骤S21中,所述ResNet-50卷积层中的卷积核的大小为3x3,步长为1,用于捕获图像中的局部特征,在卷积层之间,使用最大池化层来减小特征图的尺寸。最大池化层使用2x2的池化窗口并且步长为2,用以减小特征图的分辨率,其中每层卷积运算后均经过ReLu激活函数处理;
S22、通过相机的外部参数和相机的内部参数/>将从ResNet得到的二维图像的256 维特征/>反投影到局部三维点云中,并与局部三维点云中对应点的坐标连接起来;
S23、将根据结构光投影原理转换得到的局部三维点云进行下采样得到以保留结构细节的相对密集的点云,该点云的点数约为局部三维点云点数的50%;下采样后的局部三维点云中每个点除了欧几里得坐标外,还连接了来自ResNet的256维特征/>和顶点的法线/>,以此得到了262维特征/>的点,获得的点云用作后续阶段的局部三维点云;将扫描得到的全局三维点云下采样得到一个相对稀疏的点云,以此用于学习全局特征,该点云的点数约为全局三维点云点数的10%,获得的点云用作后续阶段的全局三维点云;
S24、将带有262维特征的局部三维点云和点云相对稀疏的全局三维点云输入跨源多模态语义分割网络中,首先经过四个Transition Down向下过渡模块下采样,每次Transition Down模块将点数减少为之前的四分之一的同时进行特征编码,其中每一次的下采样后都经过了包含有Point Transformer点云变换器层的PointTransformer块,促进局部特征向量之间的信息交换,为所有数据点生成新的特征向量作为其输出。
更为具体的是,在步骤S24中,跨源多模态语义分割网络中使用了基于自注意力机制的Point Transformer 层结构。向量自注意力是本网络中的重要部分,向量自注意力层可以表示为:
其中,为一组特征向量,其中/>是输出特征;/>,/>和/>是逐点变换后的特征,例如线性投影或 MLP;/>是位置编码函数,/>是归一化函数,例如softmax函数;/>是关系函数(例如减法),/>是映射函数(例如 MLP),用于生成用于特征聚合的注意向量。
如图3所示的所述Point Transformer层基于向量注意力,使用减法关系并将位置编码添加到注意力向量/>和变换后的特征/>中,可以表示为:
其中,是输出特征;/>,/>和/>是逐点变换后的特征,例如线性投影或 MLP;/>是位置编码函数,/>是归一化函数,例如softmax函数;/>是映射函数,具有两个线性层和一个 ReLU 非线性层的 MLP,用于生成用于特征聚合的注意向量。子集/>是/>的局部邻域k个最近邻中的点集,采用最近的自注意力网络进行图像分析的做法,在每个数据点周围的局部邻域内局部应用自注意力;
位置编码:位置编码在自注意力中起着重要作用,它允许算子适应数据中的局部结构。位置编码函数定义如下:/>
这里和/>是点i和j的3D点坐标;编码函数/>是一个具有两个线性层和一个ReLU 非线性层的 MLP。
对任意数据点,使用kNN方法寻找距离该点最近的n个点,这些点组成集合/>。然后计算/>和邻居点相关的注意力的值,相加得到Point Transformer层在/>上的输出
其中注意力值的计算过程为:送到线性层/>中,邻点/>送入线性层/>中,得到Q和K,二者做差,接着加上位置编码/>,再将上述部分送入中/>,/>是具有两个线性层和一个ReLU激活函数的 MLP,得到了注意力的权重;然后将/>送入/>中得到Value,同样加上位置编码/>。将注意力的权重通过/>进行归一化(softmax函数),最后两个部分相乘即可得到注意力的值。
Point Transformer 块:Point Transformer 块集成了自注意力层,可以降低维度并加速处理的线性投影以及残差连接,如图3所示。输入是一组特征向量以及关联的3D坐标/>;Point Transformer块促进这些局部特征向量之间的信息交换,为所有数据点生成新的特征向量作为其输出;输入点的位置和特征后,首先经过线性层,接着进入PointTransformer层,再经过线性层,最后和未经过处理的输入数据相加,得到输出。
Transition Down模块:Transition Down模块会将输入n个点降采样为n/4个点,我们在输入的点中执行最远点采样,以降采样得到具有良好分布的子集/>。在/>上使用 kNN 图,从而将/>的特征向量汇集到/>上。每个输入的特征都经过线性变换,然后经过批量归一化和ReLU激活函数,最后通过最大池化操作将特征对应到/>中的每个点,如图4所示。
S25、将全局三维点云的特征与局部三维点云的特征进行串联,从而为局部点云的每个点串联两个不同的特征,添加了全局的特征信息,有利于特征提取。然后特征串联后的局部三维点云经过四个Transition Up向上过渡模块,将点数恢复至初始状态并将特征解码,同时每个Transition Up模块后同样跟有Point Transformer块,最终的解码器阶段为输入点集中的每个点生成一个特征向量,应用 MLP 将此特征映射,生成语义标签,根据语义标签即可完成装配特征的分割,得到语义分割结果点云。
S25中更为具体的是,对于本发明中的语义分割这类的密集预测任务,整个网络采用 U-net 设计,其中编码器与解码器对称耦合;
Transition Up模块:解码器中各层级通过如图4所示的Transition Up模块连接。它们的主要功能是将降采样输入点集中的特征映射到其超集/>上。为此,每个输入点的特征都先经过线性层处理,然后进行批量归一化和ReLU激活函数,接着通过三线性插值将特征映射到更高分辨率的点集/>上。最后这些来自先前解码器层级的内插特征与来自相应编码器层级的特征进行总结相加,连接后输出点集/>及其特征。
在本实施例中,本发明通过网络将来自不同源的局部点云和整体点云的特征串联在一起,从而使局部点云包含了全局的特征信息,有助于特征的有效分割。
S3、根据待装配物体点云中分割出的多对装配特征,使用ICP方法进行点云配准,使用BA优化算法进行位姿参数的融合,得到融合后的旋转矩阵和平移矩阵/>,完成位姿计算;
作为步骤S3的优选实施方式,具体过程包括以下步骤:
S31、将源点云和目标点云/>之间对应的装配特征进行ICP配准,通过SVD 分解计算得到最优旋转/>和最优平移/>,其公式如下所示:
其中,和/>是源点云和目标点云中的对应点,R和t是迭代中第i次配准的旋转矩阵和平移矩阵,经过迭代得到最优解;
使用SVD 分解来计算,和/>分别表示源点云和目标点云的质心,令,/>,令/>,这是一个 3x3 矩阵,对/>进行SVD 分解得/>,则最优旋转为:/>。最优平移为:/>。每一次迭代得到当前的最优变换参数/>,/>,其中/>是每一次迭代得到的旋转矩阵,/>是每一次迭代得到的平移矩阵。
S32、将该变换作用于当前源点云,并寻找最近对应点和求解最优变换参数这两步不停迭代进行,直到满足迭代终止条件,使用的终止条件有:,/>的变化量小于5%,loss变化量小于0.1,达到最大迭代次数1000,完成一对装配特征的待装配物体点云的位姿计算,随后对每一对装配特征重复此过程;
S33、将每个旋转矩阵和平移矩阵结合为变换矩阵,变换矩阵作为要优化的变量参数,建立目标函数为:/>,其中/>是误差项的向量,/>是第i个变换的权重,根据不同的装配特征应用对应的值,/>是第i个变换矩阵的误差项,使用变换矩阵后点云之间的欧氏距离;
S34、对根据多对装配特征使用ICP得到的旋转矩阵和位移矩阵通过BA算法来最小化目标函数,找到最佳的参数向量,即最佳融合的变换矩阵,得到融合后的旋转矩阵/>和平移矩阵/>,完成位姿计算。
其中使用了LM(Levenberg-Marquardt列文伯格-马夸尔特)最小二乘优化算法,是非线性回归中回归参数最小二乘估计的一种估计方法:初始化 LM 参数,/>用于控制牛顿步和梯度下降步之间的权衡。计算目标函数的梯度(Jacobian矩阵)/>和误差项/>。构建增量方程式(增量矩阵):/>,其中/>是参数的增量,/>是单位矩阵。解增量方程式,计算出/>。计算新的参数向量/> 。计算新的目标函数值/>。如果/>比/>更小(目标函数值减小),则接受新的参数/>,减小/>,然后返回算法。如果/>比/>更大,说明增量/>使目标函数值增加,这时增加/>,然后返回算法。
当BA收敛,得到最佳的参数估计,这些参数表示最终的融合变换矩阵,得到融合后的旋转矩阵和平移矩阵/>,完成位姿计算。
在本实施例中,在进行点云配准得到变换矩阵后使用了优化算法完成了参数的融合,这些提供了更全面和准确的信息,最终提高了装配的精度。
S4、将点云配准得到融合后的旋转矩阵和平移矩阵/>分解到执行机构,对装配物体进行位姿调整,完成自动化装配。
作为步骤S4的优选实施方式,具体过程包括以下步骤:
S41、根据装配环境中标志点的三维坐标和调姿机构上标志点的三维坐标,分别建立全局坐标系和调姿机构坐标系;
具体而言,我们首先获取装配环境中标志点的三维空间坐标,并采用光束平差法构建全局坐标系。然后对调姿机构的各个支撑机构进行轴向、垂直和水平方向的位移,每次位移一段距离/>。同时,通过跟踪各个支撑机构上的标志点在这三个方向上的位移。这些位移分别用作所构建坐标系的坐标轴。当支撑机构停止运动后,标志点所在的位置被定义为相对应支撑机构坐标系的原点。综合这些信息,我们可以建立调姿机构的坐标系。
S42、通过考虑装配场景中各装配件之间的相对关系,将融合得到的旋转矩阵和平移矩阵/>映射到装配调姿机构坐标系中,以获得装配调姿机构在三个方向上的位移值和旋转角度/>、/>、/>
假设,旋转矩阵,平移矩阵/>
提取位移和旋转:从平移矩阵中提取位移值:/>
从旋转矩阵中提取旋转角度:/>
其中,是偏航角,/>是俯仰角,/>是滚转角;/>是反正切函数,/>是反正弦函数。
S43、调姿机构以三个方向的位移和旋转角度/>、/>、/>为依据进行运动,完成装配。
在本实施例中,本发明将跨源点云和多模态信息结合起来,以分割装配特征,执行点云配准算法,进而使用BA优化算法实现参数的融合,得出优化融合后的变化矩阵参数,并根据该值进行位姿调整,实现自动化装配。这提高了装配的效率,旨在解决传统装配方式存在的精度不高和效率低的问题。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
以上实施方式对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于跨源点云与多模态信息的自动化装配方法,其特征在于,包括以下步骤:
S1、获取待装配物体全局三维点云和二维图像,根据全局三维点云和二维图像生成相应的待装配物体的局部三维点云;
S2、将待装配物体的二维图像、局部三维点云和全局三维点云输入基于自注意力机制的跨源多模态语义分割网络,将二维图像、局部三维点云和全局三维点云的特征提取后聚合,得到语义分割结果点云,最终语义分割出多对装配特征;
具体过程包括以下步骤:
S21、将待装配物体的二维图像输入跨源多模态语义分割网络,该网络加载一个在大规模图像数据集上训练的ResNet-50模型结构,在前向传播的过程中,截断模型,即在最后的分类头部之前停止网络的前向传播,从而不执行最终的分类任务直接获取图像的256通道特征图;
S22、通过相机的外部参数[R|T]和相机的内部参数[K]将从ResNet得到的二维图像的256维特征F反投影到局部三维点云中,并与局部三维点云中对应点的坐标连接起来;
S23、将根据结构光投影原理转换得到的局部三维点云进行下采样得到以保留结构细节的点云D1,该点云D1的点数为局部三维点云点数的50%;下采样后的局部三维点云中每个点除了欧几里得坐标x,y,z外,还连接了来自ResNet的256维特征F和顶点的法线nx,ny,nz,以此得到了262维特征x,y,z,nx,ny,nz,F的点,获得的点云D1用作后续阶段的局部三维点云;将扫描得到的全局三维点云下采样得到点云D2,以此用于学习全局特征,该点云D2的点数为全局三维点云点数的10%,获得的点云D2用作后续阶段的全局三维点云;
S24、将点云D1和点云D2输入跨源多模态语义分割网络中,首先经过四个TransitionDown向下过渡模块下采样,每次Transition Down模块将点数减少为之前的四分之一的同时进行特征编码,其中每一次的下采样后都经过了包含有Point Transformer点云变换器层的Point Transformer块,促进局部特征向量之间的信息交换,为所有数据点生成新的特征向量作为其输出;
S25、将全局三维点云的特征与局部三维点云的特征进行串联,特征串联后的局部三维点云经过四个Transition Up向上过渡模块,将点数恢复至初始状态并将特征解码,同时每个Transition Up模块后同样跟有Point Transformer块,最终的解码器阶段为输入点集中的每个点生成一个特征向量,应用MLP将此特征映射,生成语义标签,根据语义标签即可完成装配特征的分割,得到语义分割结果点云;
S3、根据待装配物体点云中分割出的多对装配特征,使用ICP方法进行点云配准,使用BA优化算法进行位姿参数的融合,得到融合后的旋转矩阵R和平移矩阵T,完成位姿计算;
S4、将点云配准得到融合后的旋转矩阵R和平移矩阵T分解到执行机构,对装配物体进行位姿调整,完成自动化装配。
2.根据权利要求1所述的一种基于跨源点云与多模态信息的自动化装配方法,其特征在于:在步骤S1中,具体过程包括以下步骤:
S11、对待装配物体进行扫描从而获得全局三维点云;
S12、根据结构光投影的原理对待装配物体进行拍照获得与待装配物体表面形状相关的二维图像,然后借助这些图像数据,还原待装配物体的三维形状信息,生成相应的待装配物体的局部三维点云。
3.根据权利要求1所述的一种基于跨源点云与多模态信息的自动化装配方法,其特征在于:在步骤S21中,所述ResNet-50卷积层中的卷积核的大小为3x3,步长为1,用于捕获图像中的局部特征,在卷积层之间,使用最大池化层来减小特征图的尺寸;最大池化层使用2x2的池化窗口并且步长为2,用以减小特征图的分辨率,其中每层卷积运算后均经过ReLu激活函数处理。
4.根据权利要求1所述的一种基于跨源点云与多模态信息的自动化装配方法,其特征在于:在步骤S24中,所述Point Transformer层基于向量注意力,使用减法关系并将位置编码δ添加到注意力向量γ和变换后的特征α中,可以表示为:
其中,yi是输出特征,ψ和α是逐点变换后的特征,δ是位置编码函数,ρ是归一化函数,γ是映射函数,具有两个线性层和一个ReLU非线性层的MLP,用于生成用于特征聚合的注意向量,对任意数据点xi,使用kNN方法寻找距离该点最近的n个点,这些点组成集合X(i),子集/>是xi的局部邻域k个最近邻中的点集,xj表示邻点。
5.根据权利要求1所述的一种基于跨源点云与多模态信息的自动化装配方法,其特征在于:在步骤S3中,具体过程包括以下步骤:
S31、将源点云ps和目标点云pt之间对应的装配特征进行ICP配准,通过SVD分解计算得到最优旋转R*和最优平移t*,每一次迭代得到当前的最优变换参数Rk,Tk,其中Rk是每一次迭代得到的旋转矩阵,Tk是每一次迭代得到的平移矩阵;
S32、将该变换作用于当前源点云,并寻找最近对应点和求解最优变换参数这两步不停迭代进行,直到满足迭代终止条件,完成一对装配特征的待装配物体点云的位姿计算,随后对每一对装配特征重复此过程;
S33、将每个旋转矩阵和平移矩阵结合为变换矩阵,变换矩阵作为要优化的变量参数x,建立目标函数为:min||f(x)||2=min∑(wi*||εi(x)||2),其中f(x)是误差项的向量,wi是第i个变换的权重,根据不同的装配特征应用对应的值,εi(x)是第i个变换矩阵的误差项,使用变换矩阵后点云之间的欧氏距离;
S34、对根据多对装配特征使用ICP得到的旋转矩阵和位移矩阵通过BA算法来最小化目标函数,找到最佳的参数向量x,即最佳融合的变换矩阵,得到融合后的旋转矩阵R和平移矩阵T,完成位姿计算。
6.根据权利要求1所述的一种基于跨源点云与多模态信息的自动化装配方法,其特征在于:在步骤S4中,具体过程包括以下步骤:
S41、根据装配环境中标志点的三维坐标和调姿机构上标志点的三维坐标,分别建立全局坐标系Oworld和调姿机构坐标系;
S42、通过考虑装配场景中各装配件之间的相对关系,将融合得到的旋转矩阵R和平移矩阵T映射到装配调姿机构坐标系中,以获得装配调姿机构在三个方向上的位移值x、y、z和旋转角度yaw、pitch、roll;
S43、调姿机构以三个方向的位移x、y、z和旋转角度yaw、pitch、roll为依据进行运动,完成装配。
CN202410009972.0A 2024-01-04 2024-01-04 一种基于跨源点云与多模态信息的自动化装配方法 Active CN117523206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410009972.0A CN117523206B (zh) 2024-01-04 2024-01-04 一种基于跨源点云与多模态信息的自动化装配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410009972.0A CN117523206B (zh) 2024-01-04 2024-01-04 一种基于跨源点云与多模态信息的自动化装配方法

Publications (2)

Publication Number Publication Date
CN117523206A CN117523206A (zh) 2024-02-06
CN117523206B true CN117523206B (zh) 2024-03-29

Family

ID=89744241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410009972.0A Active CN117523206B (zh) 2024-01-04 2024-01-04 一种基于跨源点云与多模态信息的自动化装配方法

Country Status (1)

Country Link
CN (1) CN117523206B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448034A (zh) * 2018-10-24 2019-03-08 华侨大学 一种基于几何基元的零件位姿获取方法
CN113421291A (zh) * 2021-07-16 2021-09-21 北京华睿盛德科技有限公司 利用点云配准技术和三维重建技术的工件位置找正方法
CN113537208A (zh) * 2021-05-18 2021-10-22 杭州电子科技大学 一种基于语义orb-slam技术的视觉定位方法及系统
CN114742883A (zh) * 2022-03-30 2022-07-12 华中科技大学 一种基于平面类工件定位算法的自动化装配方法及系统
CN115131268A (zh) * 2021-03-25 2022-09-30 南京知谱光电科技有限公司 一种基于图像特征提取与三维模型匹配的自动化焊接系统
CN116468731A (zh) * 2023-03-08 2023-07-21 中国矿业大学 基于跨模态Transformer的点云语义分割方法
CN117237660A (zh) * 2023-08-23 2023-12-15 浙江点创信息科技有限公司 一种基于深度学习特征聚合的点云数据处理和分割方法
CN117315146A (zh) * 2023-09-22 2023-12-29 武汉大学 基于跨尺度多源数据的三维模型的重建方法及存储方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3457357B1 (en) * 2017-09-13 2021-07-07 Tata Consultancy Services Limited Methods and systems for surface fitting based change detection in 3d point-cloud

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448034A (zh) * 2018-10-24 2019-03-08 华侨大学 一种基于几何基元的零件位姿获取方法
CN115131268A (zh) * 2021-03-25 2022-09-30 南京知谱光电科技有限公司 一种基于图像特征提取与三维模型匹配的自动化焊接系统
CN113537208A (zh) * 2021-05-18 2021-10-22 杭州电子科技大学 一种基于语义orb-slam技术的视觉定位方法及系统
CN113421291A (zh) * 2021-07-16 2021-09-21 北京华睿盛德科技有限公司 利用点云配准技术和三维重建技术的工件位置找正方法
CN114742883A (zh) * 2022-03-30 2022-07-12 华中科技大学 一种基于平面类工件定位算法的自动化装配方法及系统
CN116468731A (zh) * 2023-03-08 2023-07-21 中国矿业大学 基于跨模态Transformer的点云语义分割方法
CN117237660A (zh) * 2023-08-23 2023-12-15 浙江点创信息科技有限公司 一种基于深度学习特征聚合的点云数据处理和分割方法
CN117315146A (zh) * 2023-09-22 2023-12-29 武汉大学 基于跨尺度多源数据的三维模型的重建方法及存储方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RGB-D-Based Pose Estimation of Workpieces with Semantic Segmentation and Point Cloud Registration;Hui Xu等;Sensors;20190419;第19卷(第8期);1-21 *
基于深度学习的点云数据语义分割和配准算法研究;曹晓辉;https://d.wanfangdata.com.cn/thesis/Y4057552;20230530;1-64 *
基于语义分割和点云配准的物体检测与位姿估计;陈廷炯等;电子技术;20200120;第1卷;36-40 *

Also Published As

Publication number Publication date
CN117523206A (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN111325797B (zh) 一种基于自监督学习的位姿估计方法
Jiang et al. An overview of hand-eye calibration
EP3304492B1 (en) Modelling a three-dimensional space
WO2019174377A1 (zh) 一种基于单目相机的三维场景稠密重建方法
CN102722697B (zh) 一种无人飞行器视觉自主导引着陆的目标跟踪方法
CN111667535B (zh) 一种针对遮挡场景下的六自由度位姿估计方法
US11874133B2 (en) Mapping an environment using a state of a robotic device
CN113392584B (zh) 基于深度强化学习和方向估计的视觉导航方法
CN113298947B (zh) 一种基于多源数据融合的变电站三维建模方法介质及系统
CN111062326A (zh) 一种基于几何驱动的自监督人体3d姿态估计网络训练方法
CN112085849A (zh) 基于航拍视频流的实时迭代三维建模方法、系统及可读介质
CN114596382A (zh) 一种基于全景相机的双目视觉slam方法及系统
CN116363205A (zh) 基于深度学习的空间目标位姿解算方法及计算机程序产品
Saxena et al. Generalizable pose estimation using implicit scene representations
CN113012268B (zh) 静态行人图像的运动动态化方法、系统、装置及介质
Mahe et al. Real-time rgb-d semantic keyframe slam based on image segmentation learning from industrial cad models
CN117710468A (zh) 基于关节网格形变的姿态重定向方法、装置、设备及介质
CN118096819A (zh) 一种基于时空联合的无人机图像目标跟踪方法
Miao et al. Pseudo-lidar for visual odometry
CN117788544A (zh) 一种基于轻量级注意力机制的图像深度估计方法
CN117523206B (zh) 一种基于跨源点云与多模态信息的自动化装配方法
Wan et al. Boosting image-based localization via randomly geometric data augmentation
CN115219492B (zh) 一种三维物体的外观图像采集方法及装置
CN112927304B (zh) 一种基于卷积神经网络的鱼眼镜头标定方法
Hwang et al. Primitive object grasping for finger motion synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant