CN117523206B

CN117523206B - 一种基于跨源点云与多模态信息的自动化装配方法

Info

Publication number: CN117523206B
Application number: CN202410009972.0A
Authority: CN
Inventors: 汪俊; 张嘉麟; 李超; 李子宽; 荆文科
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-03-29
Anticipated expiration: 2044-01-04
Also published as: CN117523206A

Abstract

本发明涉及一种基于跨源点云与多模态信息的自动化装配方法，包括获取待装配物体全局三维点云和二维图像，从而生成相应的待装配物体的局部三维点云；将二维图像、局部三维点云和全局三维点云的特征提取后聚合，最终语义分割出多对装配特征；根据点云中分割出的多对装配特征，使用ICP方法进行点云配准，使用BA优化算法进行位姿参数的融合，得到融合后的旋转矩阵和平移矩阵，完成位姿计算；将点云配准得到的旋转矩阵和平移矩阵分解到执行机构，对装配物体进行位姿调整，完成自动化装配。本发明采用深度学习的方法，结合跨源点云和多模态信息，从中提取分割特征，并进行点云的配准以及优化融合得到调姿参数，最后进行装配，完成自动化装配过程。

Description

一种基于跨源点云与多模态信息的自动化装配方法

技术领域

本发明涉及自动装配技术领域，尤其涉及一种基于跨源点云与多模态信息的自动化装配方法。

背景技术

与传统的人工手动装配方法相比，根据跨源点云和多模态信息的自动装配技术有着诸多优势。根据跨源点云与多模态信息的自动装配技术可以通过结合跨源得到的局部点云和整体点云并结合二维图像，以此来分割特征，然后进行点云的配准，最后对物体进行装配，从而提高装配的精度。这减少了装配错误的可能性，尤其是对于精细和复杂的装配任务。同时可以更快速地执行装配任务，减少了人工操作所需的时间，从而提高了装配效率。这对于大规模生产和高产能要求的情况尤为重要。而传统的人工手动装配依赖人力操作，这使得人工装配容易受到人为误差的影响，且需要培训时间和成本。并且人工装配通常速度较慢，尤其是在大规模和复杂的装配任务中。传统装配可能受到操作员技能水平的影响，装配的精度可能有限。传统装配有时难以适应零件变形、位置偏差或不确定性，而自动化装配技术可以通过实时数据反馈和自适应算法来应对这些情况。

发明内容

针对现有技术的不足，本发明提供了一种基于跨源点云与多模态信息的自动化装配方法，解决了现有技术中装配速度慢、精度不高、难以应对变化和不确定性问题，采用深度学习的方法，结合跨源点云和多模态信息，从中提取分割特征，并进行点云的配准以及优化融合得到调姿参数，最后进行装配，完成自动化装配过程。

为解决上述技术问题，本发明提供了如下技术方案：一种基于跨源点云与多模态信息的自动化装配方法，包括以下步骤：

S1、获取待装配物体全局三维点云和二维图像，根据全局三维点云和二维图像生成相应的待装配物体的局部三维点云；

S2、将待装配物体的二维图像、局部三维点云和全局三维点云输入基于自注意力机制的跨源多模态语义分割网络，将二维图像、局部三维点云和全局三维点云的特征提取后聚合，得到语义分割结果点云，最终语义分割出多对装配特征；

S3、根据待装配物体点云中分割出的多对装配特征，使用ICP（Iterative ClosestPoint迭代最近点）方法进行点云配准，使用BA（Bundle Adjustment光束法平差）优化算法进行位姿参数的融合，得到融合后的旋转矩阵和平移矩阵/>，完成位姿计算；

S4、将点云配准得到融合后的旋转矩阵和平移矩阵/>分解到执行机构，对装配物体进行位姿调整，完成自动化装配。

进一步地，在步骤S1中，具体过程包括以下步骤：

S11、对待装配物体进行扫描从而获得全局三维点云；

S12、根据结构光投影的原理对待装配物体进行拍照获得与待装配物体表面形状相关的二维图像，然后借助这些图像数据，还原待装配物体的三维形状信息，生成相应的待装配物体的局部三维点云。

进一步地，在步骤S2中，具体过程包括以下步骤：

S21、将待装配物体的二维图像输入跨源多模态语义分割网络，该网络加载一个在大规模图像数据集上训练的ResNet-50模型结构，深度残差网络（Deep ResidualNetworks，简称ResNet），在前向传播的过程中，截断模型，即在最后的分类头部之前停止网络的前向传播，从而不执行最终的分类任务直接获取图像的256 通道特征图；

S22、通过相机的外部参数和相机的内部参数/>将从ResNet得到的二维图像的256 维特征/>反投影到局部三维点云中，并与局部三维点云中对应点的坐标连接起来；

S23、将根据结构光投影原理转换得到的局部三维点云进行下采样得到以保留结构细节的相对密集的点云，该点云的点数约为局部三维点云点数的50%；下采样后的局部三维点云中每个点除了欧几里得坐标外，还连接了来自ResNet的256维特征/>和顶点的法线/>，以此得到了262维特征/>的点，获得的点云用作后续阶段的局部三维点云；将扫描得到的全局三维点云下采样得到一个相对稀疏的点云，以此用于学习全局特征，该点云的点数约为全局三维点云点数的10%，获得的点云用作后续阶段的全局三维点云；

S24、将带有262维特征的局部三维点云和点云相对稀疏的全局三维点云输入跨源多模态语义分割网络中，首先经过四个Transition Down向下过渡模块下采样，每次Transition Down模块将点数减少为之前的四分之一的同时进行特征编码，其中每一次的下采样后都经过了包含有Point Transformer点云变换器层的PointTransformer块，促进局部特征向量之间的信息交换，为所有数据点生成新的特征向量作为其输出；

S25、将全局三维点云的特征与局部三维点云的特征进行串联，特征串联后的局部三维点云经过四个Transition Up向上过渡模块，将点数恢复至初始状态并将特征解码，同时每个Transition Up模块后同样跟有Point Transformer块，最终的解码器阶段为输入点集中的每个点生成一个特征向量，应用 MLP（Multi-Layer Perception多层感知器）将此特征映射，生成语义标签，根据语义标签即可完成装配特征的分割，得到语义分割结果点云。

进一步地，在步骤S21中，所述ResNet-50卷积层中的卷积核的大小为3x3，步长为1，用于捕获图像中的局部特征，在卷积层之间，使用最大池化层来减小特征图的尺寸；最大池化层使用2x2的池化窗口并且步长为2，用以减小特征图的分辨率，其中每层卷积运算后均经过ReLu激活函数处理。

进一步地，在步骤S24中，所述Point Transformer层基于向量注意力，使用减法关系并将位置编码添加到注意力向量/>和变换后的特征/>中，可以表示为：

；

其中，是输出特征，/>，/>和/>是逐点变换后的特征，例如线性投影或 MLP。/>是位置编码函数，/>是归一化函数，例如softmax函数。/>是映射函数，具有两个线性层和一个 ReLU 非线性层的 MLP，用于生成用于特征聚合的注意向量。子集/>是/>的局部邻域k个最近邻中的点集，采用最近的自注意力网络进行图像分析的做法，在每个数据点周围的局部邻域内局部应用自注意力；

对任意数据点，使用k近邻法 (k-Nearest Neighbor，kNN）寻找距离该点最近的n个点，这些点组成集合/>。然后计算/>和邻居点相关的注意力的值，相加得到PointTransformer层在/>上的输出/>。

其中注意力值的计算过程为：送到线性层/>中，邻点/>送入线性层/>中，得到Q和K，二者做差，接着加上位置编码/>，再将上述部分送入中/>，/>是具有两个线性层和一个ReLU激活函数的 MLP，得到了注意力的权重；然后将/>送入/>中得到Value，同样加上位置编码/>。将注意力的权重通过/>进行归一化（softmax函数），最后两个部分相乘即可得到注意力的值。

进一步地，在步骤S3中，具体过程包括以下步骤：

S31、将源点云和目标点云/>之间对应的装配特征进行ICP配准，通过SVD（Single Value Decomposition奇异值分解）分解计算得到最优旋转/>和最优平移/>，每一次迭代得到当前的最优变换参数/>，/>，其中/>是每一次迭代得到的旋转矩阵，/>是每一次迭代得到的平移矩阵；

S32、将该变换作用于当前源点云，并寻找最近对应点和求解最优变换参数这两步不停迭代进行，直到满足迭代终止条件，完成一对装配特征的待装配物体点云的位姿计算，随后对每一对装配特征重复此过程；

S33、将每个旋转矩阵和平移矩阵结合为变换矩阵，变换矩阵作为要优化的变量参数，建立目标函数为：/>，其中/>是误差项的向量，/>是第i个变换的权重，根据不同的装配特征应用对应的值，/>是第i个变换矩阵的误差项，使用变换矩阵后点云之间的欧氏距离；

S34、对根据多对装配特征使用ICP得到的旋转矩阵和位移矩阵通过BA算法来最小化目标函数，找到最佳的参数向量，即最佳融合的变换矩阵，得到融合后的旋转矩阵/>和平移矩阵/>，完成位姿计算。

进一步地，在步骤S4中，具体过程包括以下步骤：

S41、根据装配环境中标志点的三维坐标和调姿机构上标志点的三维坐标，分别建立全局坐标系和调姿机构坐标系；

S42、通过考虑装配场景中各装配件之间的相对关系，将融合得到的旋转矩阵和平移矩阵/>映射到装配调姿机构坐标系中，以获得装配调姿机构在三个方向上的位移值和旋转角度/>、/>、/>；

S43、调姿机构以三个方向的位移和旋转角度/>、/>、/>为依据进行运动，完成装配。

借由上述技术方案，本发明提供了一种基于跨源点云与多模态信息的自动化装配方法，至少具备以下有益效果：

与传统的装配方法相比，本发明旨在解决传统装配方式存在的精度不高和效率低的问题，采用基于跨源点云和多模态信息的自动化装配方法。该方法通过将图像和点云的多模态信息进行联接，将二维图像中的特征反映到局部点云中，有助于提取局部点云的特征。同时，通过网络将来自不同源的局部点云和整体点云的特征串联在一起，从而使局部点云包含了全局的特征信息，有助于特征的分割。同时在进行点云配准得到变换矩阵后使用了优化算法完成了参数的融合，这些提供了更全面和准确的信息，最终提高了装配的精度。本发明将跨源点云和多模态信息结合起来，以分割装配特征，执行点云配准算法，进而使用BA优化算法实现参数的融合，得出融合后的旋转矩阵和平移矩阵，并根据该值进行位姿调整，实现自动化装配。这提高了装配的效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明的系统框架图；

图2为本发明跨源多模态语义分割网络结构模型图；

图3为本发明Point Transformer块的详细结构设计图；

图4为本发明Transition Down和Transition Up模块的详细结构设计图；

图5是装配效果图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

请参照图1 -图5，示出了本实施例的一种具体实施方式，本实施例通过将跨源点云和多模态信息结合起来，以分割装配特征，执行点云配准算法，进而使用BA优化算法实现参数的融合，得出旋转矩阵和平移矩阵，并根据该值进行位姿调整，实现自动化装配。这提高了装配的效率。

请参照图1，本实施例提出了一种基于跨源点云与多模态信息的自动化装配方法，该方法包括以下步骤：

作为步骤S1的优选实施方式，具体过程包括以下步骤：

S11、对待装配物体进行扫描从而获得全局三维点云；

在本实施例中，该方法通过将图像和点云的多模态信息进行联接，将二维图像中的特征反映到局部点云中，有助于提取局部点云的特征。

作为步骤S2的优选实施方式，具体过程包括以下步骤：

S21、将待装配物体的二维图像输入跨源多模态语义分割网络，该网络加载一个在大规模图像数据集上训练的ResNet-50模型结构，在前向传播的过程中，截断模型，即在最后的分类头部之前停止网络的前向传播，从而不执行最终的分类任务直接获取图像的256通道特征图；

更为具体的是，在步骤S21中，所述ResNet-50卷积层中的卷积核的大小为3x3，步长为1，用于捕获图像中的局部特征，在卷积层之间，使用最大池化层来减小特征图的尺寸。最大池化层使用2x2的池化窗口并且步长为2，用以减小特征图的分辨率，其中每层卷积运算后均经过ReLu激活函数处理；

S24、将带有262维特征的局部三维点云和点云相对稀疏的全局三维点云输入跨源多模态语义分割网络中，首先经过四个Transition Down向下过渡模块下采样，每次Transition Down模块将点数减少为之前的四分之一的同时进行特征编码，其中每一次的下采样后都经过了包含有Point Transformer点云变换器层的PointTransformer块，促进局部特征向量之间的信息交换，为所有数据点生成新的特征向量作为其输出。

更为具体的是，在步骤S24中，跨源多模态语义分割网络中使用了基于自注意力机制的Point Transformer 层结构。向量自注意力是本网络中的重要部分，向量自注意力层可以表示为：

；

其中，为一组特征向量，其中/>是输出特征；/>，/>和/>是逐点变换后的特征，例如线性投影或 MLP；/>是位置编码函数，/>是归一化函数，例如softmax函数；/>是关系函数（例如减法），/>是映射函数（例如 MLP），用于生成用于特征聚合的注意向量。

如图3所示的所述Point Transformer层基于向量注意力，使用减法关系并将位置编码添加到注意力向量/>和变换后的特征/>中，可以表示为：

；

其中，是输出特征；/>，/>和/>是逐点变换后的特征，例如线性投影或 MLP；/>是位置编码函数，/>是归一化函数，例如softmax函数；/>是映射函数，具有两个线性层和一个 ReLU 非线性层的 MLP，用于生成用于特征聚合的注意向量。子集/>是/>的局部邻域k个最近邻中的点集，采用最近的自注意力网络进行图像分析的做法，在每个数据点周围的局部邻域内局部应用自注意力；

位置编码：位置编码在自注意力中起着重要作用，它允许算子适应数据中的局部结构。位置编码函数定义如下：/>；

这里和/>是点i和j的3D点坐标；编码函数/>是一个具有两个线性层和一个ReLU 非线性层的 MLP。

对任意数据点，使用kNN方法寻找距离该点最近的n个点，这些点组成集合/>。然后计算/>和邻居点相关的注意力的值，相加得到Point Transformer层在/>上的输出；

Point Transformer 块：Point Transformer 块集成了自注意力层，可以降低维度并加速处理的线性投影以及残差连接，如图3所示。输入是一组特征向量以及关联的3D坐标/>；Point Transformer块促进这些局部特征向量之间的信息交换，为所有数据点生成新的特征向量作为其输出；输入点的位置和特征后，首先经过线性层，接着进入PointTransformer层，再经过线性层，最后和未经过处理的输入数据相加，得到输出。

Transition Down模块：Transition Down模块会将输入n个点降采样为n/4个点，我们在输入的点中执行最远点采样，以降采样得到具有良好分布的子集/>。在/>上使用 kNN 图，从而将/>的特征向量汇集到/>上。每个输入的特征都经过线性变换，然后经过批量归一化和ReLU激活函数，最后通过最大池化操作将特征对应到/>中的每个点，如图4所示。

S25、将全局三维点云的特征与局部三维点云的特征进行串联，从而为局部点云的每个点串联两个不同的特征，添加了全局的特征信息，有利于特征提取。然后特征串联后的局部三维点云经过四个Transition Up向上过渡模块，将点数恢复至初始状态并将特征解码，同时每个Transition Up模块后同样跟有Point Transformer块，最终的解码器阶段为输入点集中的每个点生成一个特征向量，应用 MLP 将此特征映射，生成语义标签，根据语义标签即可完成装配特征的分割，得到语义分割结果点云。

S25中更为具体的是，对于本发明中的语义分割这类的密集预测任务，整个网络采用 U-net 设计，其中编码器与解码器对称耦合；

Transition Up模块：解码器中各层级通过如图4所示的Transition Up模块连接。它们的主要功能是将降采样输入点集中的特征映射到其超集/>上。为此，每个输入点的特征都先经过线性层处理，然后进行批量归一化和ReLU激活函数，接着通过三线性插值将特征映射到更高分辨率的点集/>上。最后这些来自先前解码器层级的内插特征与来自相应编码器层级的特征进行总结相加，连接后输出点集/>及其特征。

在本实施例中，本发明通过网络将来自不同源的局部点云和整体点云的特征串联在一起，从而使局部点云包含了全局的特征信息，有助于特征的有效分割。

S3、根据待装配物体点云中分割出的多对装配特征，使用ICP方法进行点云配准，使用BA优化算法进行位姿参数的融合，得到融合后的旋转矩阵和平移矩阵/>，完成位姿计算；

作为步骤S3的优选实施方式，具体过程包括以下步骤：

S31、将源点云和目标点云/>之间对应的装配特征进行ICP配准，通过SVD 分解计算得到最优旋转/>和最优平移/>，其公式如下所示：

；

其中，和/>是源点云和目标点云中的对应点，R和t是迭代中第i次配准的旋转矩阵和平移矩阵，经过迭代得到最优解；

使用SVD 分解来计算,和/>分别表示源点云和目标点云的质心，令，/>，令/>，这是一个 3x3 矩阵，对/>进行SVD 分解得/>，则最优旋转为：/>。最优平移为：/>。每一次迭代得到当前的最优变换参数/>，/>，其中/>是每一次迭代得到的旋转矩阵，/>是每一次迭代得到的平移矩阵。

S32、将该变换作用于当前源点云，并寻找最近对应点和求解最优变换参数这两步不停迭代进行，直到满足迭代终止条件，使用的终止条件有：，/>的变化量小于5%，loss变化量小于0.1，达到最大迭代次数1000，完成一对装配特征的待装配物体点云的位姿计算，随后对每一对装配特征重复此过程；

其中使用了LM（Levenberg-Marquardt列文伯格-马夸尔特）最小二乘优化算法，是非线性回归中回归参数最小二乘估计的一种估计方法：初始化 LM 参数，/>用于控制牛顿步和梯度下降步之间的权衡。计算目标函数的梯度（Jacobian矩阵）/>和误差项/>。构建增量方程式（增量矩阵）：/>，其中/>是参数的增量，/>是单位矩阵。解增量方程式，计算出/>。计算新的参数向量/> 。计算新的目标函数值/>。如果/>比/>更小（目标函数值减小），则接受新的参数/>，减小/>，然后返回算法。如果/>比/>更大，说明增量/>使目标函数值增加，这时增加/>，然后返回算法。

当BA收敛，得到最佳的参数估计，这些参数表示最终的融合变换矩阵，得到融合后的旋转矩阵和平移矩阵/>，完成位姿计算。

在本实施例中，在进行点云配准得到变换矩阵后使用了优化算法完成了参数的融合，这些提供了更全面和准确的信息，最终提高了装配的精度。

作为步骤S4的优选实施方式，具体过程包括以下步骤：

具体而言，我们首先获取装配环境中标志点的三维空间坐标，并采用光束平差法构建全局坐标系。然后对调姿机构的各个支撑机构进行轴向、垂直和水平方向的位移，每次位移一段距离/>。同时，通过跟踪各个支撑机构上的标志点在这三个方向上的位移。这些位移分别用作所构建坐标系的坐标轴。当支撑机构停止运动后，标志点所在的位置被定义为相对应支撑机构坐标系的原点。综合这些信息，我们可以建立调姿机构的坐标系。

假设，旋转矩阵，平移矩阵/>；

提取位移和旋转：从平移矩阵中提取位移值：/>；

从旋转矩阵中提取旋转角度：/>；

其中，是偏航角，/>是俯仰角，/>是滚转角；/>是反正切函数，/>是反正弦函数。

在本实施例中，本发明将跨源点云和多模态信息结合起来，以分割装配特征，执行点云配准算法，进而使用BA优化算法实现参数的融合，得出优化融合后的变化矩阵参数，并根据该值进行位姿调整，实现自动化装配。这提高了装配的效率，旨在解决传统装配方式存在的精度不高和效率低的问题。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

以上实施方式对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于跨源点云与多模态信息的自动化装配方法，其特征在于，包括以下步骤：

具体过程包括以下步骤：

S22、通过相机的外部参数[R|T]和相机的内部参数[K]将从ResNet得到的二维图像的256维特征F反投影到局部三维点云中，并与局部三维点云中对应点的坐标连接起来；

S23、将根据结构光投影原理转换得到的局部三维点云进行下采样得到以保留结构细节的点云D₁，该点云D₁的点数为局部三维点云点数的50％；下采样后的局部三维点云中每个点除了欧几里得坐标x,y,z外，还连接了来自ResNet的256维特征F和顶点的法线n_x,n_y,n_z，以此得到了262维特征x,y,z,n_x,n_y,n_z,F的点，获得的点云D₁用作后续阶段的局部三维点云；将扫描得到的全局三维点云下采样得到点云D₂，以此用于学习全局特征，该点云D₂的点数为全局三维点云点数的10％，获得的点云D₂用作后续阶段的全局三维点云；

S24、将点云D₁和点云D₂输入跨源多模态语义分割网络中，首先经过四个TransitionDown向下过渡模块下采样，每次Transition Down模块将点数减少为之前的四分之一的同时进行特征编码，其中每一次的下采样后都经过了包含有Point Transformer点云变换器层的Point Transformer块，促进局部特征向量之间的信息交换，为所有数据点生成新的特征向量作为其输出；

S25、将全局三维点云的特征与局部三维点云的特征进行串联，特征串联后的局部三维点云经过四个Transition Up向上过渡模块，将点数恢复至初始状态并将特征解码，同时每个Transition Up模块后同样跟有Point Transformer块，最终的解码器阶段为输入点集中的每个点生成一个特征向量，应用MLP将此特征映射，生成语义标签，根据语义标签即可完成装配特征的分割，得到语义分割结果点云；

S3、根据待装配物体点云中分割出的多对装配特征，使用ICP方法进行点云配准，使用BA优化算法进行位姿参数的融合，得到融合后的旋转矩阵R和平移矩阵T，完成位姿计算；

S4、将点云配准得到融合后的旋转矩阵R和平移矩阵T分解到执行机构，对装配物体进行位姿调整，完成自动化装配。

2.根据权利要求1所述的一种基于跨源点云与多模态信息的自动化装配方法，其特征在于：在步骤S1中，具体过程包括以下步骤：

S11、对待装配物体进行扫描从而获得全局三维点云；

3.根据权利要求1所述的一种基于跨源点云与多模态信息的自动化装配方法，其特征在于：在步骤S21中，所述ResNet-50卷积层中的卷积核的大小为3x3，步长为1，用于捕获图像中的局部特征，在卷积层之间，使用最大池化层来减小特征图的尺寸；最大池化层使用2x2的池化窗口并且步长为2，用以减小特征图的分辨率，其中每层卷积运算后均经过ReLu激活函数处理。

4.根据权利要求1所述的一种基于跨源点云与多模态信息的自动化装配方法，其特征在于：在步骤S24中，所述Point Transformer层基于向量注意力，使用减法关系并将位置编码δ添加到注意力向量γ和变换后的特征α中，可以表示为：

其中，y_i是输出特征，ψ和α是逐点变换后的特征，δ是位置编码函数，ρ是归一化函数，γ是映射函数，具有两个线性层和一个ReLU非线性层的MLP，用于生成用于特征聚合的注意向量，对任意数据点x_i，使用kNN方法寻找距离该点最近的n个点，这些点组成集合X(i)，子集/>是x_i的局部邻域k个最近邻中的点集，x_j表示邻点。

5.根据权利要求1所述的一种基于跨源点云与多模态信息的自动化装配方法，其特征在于：在步骤S3中，具体过程包括以下步骤：

S31、将源点云p_s和目标点云p_t之间对应的装配特征进行ICP配准，通过SVD分解计算得到最优旋转R^*和最优平移t^*，每一次迭代得到当前的最优变换参数R_k,T_k，其中R_k是每一次迭代得到的旋转矩阵，T_k是每一次迭代得到的平移矩阵；

S33、将每个旋转矩阵和平移矩阵结合为变换矩阵，变换矩阵作为要优化的变量参数x，建立目标函数为：min||f(x)||²＝min∑(w_i*||ε_i(x)||²)，其中f(x)是误差项的向量，w_i是第i个变换的权重，根据不同的装配特征应用对应的值，ε_i(x)是第i个变换矩阵的误差项，使用变换矩阵后点云之间的欧氏距离；

S34、对根据多对装配特征使用ICP得到的旋转矩阵和位移矩阵通过BA算法来最小化目标函数，找到最佳的参数向量x，即最佳融合的变换矩阵，得到融合后的旋转矩阵R和平移矩阵T，完成位姿计算。

6.根据权利要求1所述的一种基于跨源点云与多模态信息的自动化装配方法，其特征在于：在步骤S4中，具体过程包括以下步骤：

S41、根据装配环境中标志点的三维坐标和调姿机构上标志点的三维坐标，分别建立全局坐标系O_world和调姿机构坐标系；

S42、通过考虑装配场景中各装配件之间的相对关系，将融合得到的旋转矩阵R和平移矩阵T映射到装配调姿机构坐标系中，以获得装配调姿机构在三个方向上的位移值x、y、z和旋转角度yaw、pitch、roll；

S43、调姿机构以三个方向的位移x、y、z和旋转角度yaw、pitch、roll为依据进行运动，完成装配。