CN113858217A

CN113858217A - 多机器人交互的三维视觉位姿感知方法及系统

Info

Publication number: CN113858217A
Application number: CN202111449750.3A
Authority: CN
Inventors: 李默; 牛建伟; 李青锋; 豆渊博
Original assignee: Changzhou Weishi Intelligent Iot Innovation Center Co ltd
Current assignee: Changzhou Weishi Intelligent Iot Innovation Center Co ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2021-12-31
Anticipated expiration: 2041-12-01
Also published as: CN113858217B

Abstract

本发明提供了一种多机器人交互的三维视觉位姿感知方法及系统，其中，一种多机器人交互的三维视觉位姿感知方法包括：获取并建立多模态信息的机器人位姿数据集；依据机器人位姿数据集训练位姿感知模型；将深度相机安装在每个机器人上；通过深度相机获取协作机器人的点云图，并利用位姿感知模型获取协作机器人的相对位姿；依据机器人相对位姿，规划机器人运动并完成交互任务。通过深度相机来实现良好的位姿感知效果，并且通过三维点云与已知的机器人关节信息的融合，将位姿感知问题转化为机器人基坐标系和相机坐标系的坐标转换问题，能够实现较高的位姿感知精度，深度相机作为一种低成本设备，能够真正在工业中应用。

Description

多机器人交互的三维视觉位姿感知方法及系统

技术领域

本发明涉及机器人交互领域，具体涉及一种多机器人交互的三维视觉位姿感知方法及系统。

背景技术

现有的机器人多机交互场景主要有两种：

第一种是底座固定的机器人交互场景，通过机器人通信和正运动学解算的方式直接计算出对方机器人的准确关节位置，这种方法能够保证超高的精度，但标定调试过程复杂繁琐，无法适应环境变化，不具备灵活性和智能性。

第二种是机器人交互场景，可用于工业流水线生产，通过二维码标定等方式标定交互点在全局坐标系中的坐标位置，并控制机器人运动到指定位置，这种方式目前只能在示教层面实现演示，无法真正投入使用，也可以采用高精度定位追踪设备，由于这类设备价格昂贵，通常在20万以上，尽管其精度很高，但投入到工业中是不现实的。

上述问题是目前亟待解决的。

发明内容

本发明的目的是提供一种多机器人交互的三维视觉位姿感知方法及系统。

为了解决上述技术问题，本发明提供了一种多机器人交互的三维视觉位姿感知方法，所述方法包括：

获取并建立多模态信息的机器人位姿数据集；

依据机器人位姿数据集训练位姿感知模型；

将深度相机安装在每个机器人上；

通过深度相机获取协作机器人的点云图，并利用位姿感知模型获取协作机器人的相对位姿；

依据机器人相对位姿，获取协作的两个机器人的每个关节的相对空间位置，规划机器人运动并完成交互任务。

进一步的，所述获取并建立多模态信息的机器人位姿数据集的步骤包括：

建立相机坐标系；

获取标定机器人每个姿态在相机坐标系中每个点的点云图以及相应的标定机器人当前关节角度信息；

依据标定机器人的当前关节角度信息对机器人进行三维重现，从而获取机器人三维模型；

对点云图进行分割标注以及位姿标注，获取机器人点云图以及机器人三维模型到点云图的刚性变换矩阵。

进一步的，所述建立相机坐标系的步骤包括：

以深度相机的质点为中心，在地面上按照预设间隔画同心圆；

以标定机器人正前方做0°，逆时针从0到360度每预设角度画一条线，与同心圆之间的交点就是每个坐标系的坐标点。

进一步的，

所述依据机器人位姿数据集训练位姿感知模型的步骤包括：

对未标注时的机器人位姿数据集进行语义分割获取机器人点云图，下采样后记为P_tgt；

将P_tgt输入到位姿估计网络中获取旋转四元数Q_pred和平移向量T_pred；

机器人三维模型记为P_src，用作损失函数计算，P_tgt和P_src分别采样为

个点；

通过旋转四元数获取旋转矩阵R_pred；

R_pred和T_pred代表网络预测的旋转和平移矩阵结果，将估计的R_pred和T_pred作用到P_src上得到预测的变换到相机坐标系的三维模型P_pred：

；

其中，p_tgt是P_tgt中的每一个三维坐标点，N为三维坐标点的数量，

R_gt和T_gt代表数据集中标注的三维模型到点云的旋转和平移矩阵真实值，将真实的R_gt和T_gt矩阵作用到P_src上得到真实的变换到相机坐标系的三维模型P_gt：

；

计算P_pred和Pgt的对应点之间的平均距离Loss，即：

；其中，p_gt是Pgt中的每一个三维坐标点，N为三维坐标点的数量，p_pred是P_pred中的每一个三维坐标点，

使Loss充分收敛后，得到网络输出的R_pred和T_pred即机器人基坐标系到相机坐标系的位姿变换矩阵，从而完成位姿感知模型的训练。

进一步的，所述对未标注时的机器人位姿数据集进行语义分割获取机器人点云图，下采样后记为P_tgt的步骤包括;

通过点云滤波方式对获取的点云图进行预处理，去除点云中的无效点和离群点；

处理后的点云图作为网络输入，使用PointNet网络进行语义分割，将所有点云中的点归为机器人或背景，使机器人和背景分离，得到机器人点云图。

进一步的，

所述将P_tgt输入到位姿估计网络中获取旋转四元数Q_pred和平移向量T_pred的步骤包括：

位姿估计网络的两个分支分别对输入的P_tgt进行特征提取；

然后两个分支分别使用三层MLP回归得到旋转四元数Q_pred和平移向量T_pred。

进一步的，所述位姿估计网络的两个分支分别对输入的P_tgt进行特征提取的步骤，即：

以PointNet作为主干网络对P_tgt进行特征提取，并使用SELayer注意力机制对PointNet提取出的1024维特征进行特征融合，为P_tgt中点的不同重要程度赋予不同的权重。

进一步的，所述通过深度相机获取协作机器人的点云图，并利用位姿感知模型获取协作机器人的相对位姿的步骤包括：

深度相机获取视角内协作机器人的点云图，同时通过IP地址在机器人之间进行通信，获取协作机器人的关节在基坐标系下的坐标；

将获取的协作机器人的点云图输入到位姿感知模型，得到协作对象的基坐标系到相机坐标系的位姿变换矩阵；

将位姿变换矩阵作用到协作机器人基坐标系下的每个关节的坐标上，得到协作机器人每个关节在相机坐标系下对应的坐标。

进一步的，所述依据机器人相对位姿，获取协作的两个机器人的每个关节的相对空间位置，规划机器人运动并完成交互任务的步骤，即，机器人得到协作机器人的关节坐标在相机坐标系下的位置，利用事先手眼标定得到的变换矩阵得到机器人基坐标系下的坐标，并控制机器人末端运动到该位置，不断重复此过程直到目标位置小于一定的阈值则停止运动，完成交互任务。

本发明还提供了一种多机器人交互的三维视觉位姿感知系统，包括：

数据集建立模块，适于获取并建立多模态信息的机器人位姿数据集；

训练模块，适于依据机器人位姿数据集训练位姿感知模型；

安装模块，适于将深度相机安装在每个机器人上；

相对位姿获取模块，适于通过深度相机获取协作机器人的点云图，并利用位姿感知模型获取协作机器人的相对位姿；

交互模块，适于依据机器人相对位姿，获取协作的两个机器人的每个关节的相对空间位置，规划机器人运动并完成交互任务。

本发明的有益效果是，本发明提供了一种多机器人交互的三维视觉位姿感知方法及系统，其中，一种多机器人交互的三维视觉位姿感知方法包括：获取并建立多模态信息的机器人位姿数据集；依据机器人位姿数据集训练位姿感知模型；将深度相机安装在每个机器人上；通过深度相机获取协作机器人的点云图，并利用位姿感知模型获取协作机器人的相对位姿；依据机器人相对位姿，获取协作的两个机器人的每个关节的相对空间位置，规划机器人运动并完成交互任务。通过深度相机来实现良好的位姿感知效果，并且通过三维点云与已知的机器人关节信息的融合，将位姿感知问题转化为机器人基坐标系和相机坐标系的坐标转换问题，能够实现较高的位姿感知精度，深度相机作为一种低成本设备，能够真正在工业中应用。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明所提供的多机器人交互的三维视觉位姿感知方法的流程图。

图2是本发明所提供的相机坐标系的结构示意图。

图3是本发明所提供的位姿估计网络结构图。

图4是本发明所提供的多机器人交互的三维视觉位姿感知系统的原理框图。

图5是本发明所提供的电子设备的部分原理框图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

实施例1

如图1所示，本实施例1提供了一种多机器人交互的三维视觉位姿感知方法，通过深度相机来实现良好的位姿感知效果，深度相机作为一种低成本设备，能够真正在工业中应用。并且通过三维点云与已知的机器人关节信息的融合，将位姿感知问题转化为机器人基坐标系和相机坐标系的坐标转换问题，能够实现较高的位姿感知精度。所述方法包括：

S110：获取并建立多模态信息的机器人位姿数据集。

在本实施例中，步骤S110包括：

S111：建立相机坐标系；

其中，建立相机坐标系，即，以深度相机的质点为中心，在地面上按照预设间隔画同心圆；以标定机器人正前方做0°，逆时针从0到360度每预设角度画一条线，与同心圆之间的交点就是每个坐标系的坐标点。

如图2所示，在本实施例中，间隔分别为1米，1.5米，2米，2.5米，每20°画一条线，从而获取相机坐标系，坐标点一共72个点。

S112：获取标定机器人每个姿态在相机坐标系中每个点的点云图以及相应的标定机器人当前关节角度信息。在标定机器人的数据采集过程中，可以控制机器人面朝深度相机在每个间隔的同心圆处自转360°进行数据采集。机器人具有多个姿态，需要对每个姿态进行数据采集。

S113：依据标定机器人的当前关节角度信息对机器人进行三维重现，从而获取机器人三维模型。

具体地，从机器人配备的控制软件获取机器人当前关节角度信息，结合机器人D-H参数建立原始三维模型，利用VTK三维渲染工具生成机器人当前姿态的三维模型。D-H参数表示三维模型包括机器人的三维结构，关节的轴位置，臂长等信息。

S114：对点云图进行分割标注以及位姿标注，获取机器人点云图以及机器人三维模型到点云图的刚性变换矩阵。

S120：依据机器人位姿数据集训练位姿感知模型；

具体来说，步骤S120包括以下步骤;

S121：对未标注时的机器人位姿数据集进行语义分割获取机器人点云图，下采样后记为P_tgt；

具体来说，步骤S121，即，通过点云滤波方式对获取的点云图进行预处理，去除点云中的无效点和离群点；处理后的点云图作为网络输入，使用PointNet网络进行语义分割，将所有点云中的点归为机器人或背景，使机器人和背景分离，得到机器人点云图。

S122：将P_tgt输入到位姿估计网络中获取旋转四元数Q_pred和平移向量T_pred；

具体来说，如图3所示，位姿估计网络的两个分支分别对输入的P_tgt进行特征提取，以PointNet作为主干网络对P_tgt进行特征提取，并使用SELayer注意力机制对PointNet提取出的1024维特征进行特征融合，为P_tgt中点的不同重要程度赋予不同的权重。然后两个分支分别使用三层MLP回归得到旋转四元数Q_pred和平移向量T_pred。其中，MLP是非参数估计的机器学习方法，是一种人工神经网络结构，通过若干个全连接层进行特征和回归问题，SELayer注意力模块使用平均池化实现，将每个通道的空间特征编码为一个实数，得到通道级的全局特征，之后，使用两个全连接层学习各个通道之间的关系，得到不同通道的权重，第一个全连接层用于降维，使用ReLU函数作为激活函数，第二个全连接层用于恢复原始维度，使用Sigmoid函数作为激活函数，输出每个特征通道的重要性。最后，将学习到的权重系数逐通道加权乘到原始特征上，完成在通道级上对原始特征的重标定。

其中，旋转四元数

，平移向量

，

表示旋转轴，a、b、c表示不同的旋转角度，i、j、k是虚数，且，i²=-1，j²=-1，k²=-1，

表示基坐标的原点到相机坐标系的三轴距离。

S123：机器人三维模型记为P_src，用作损失函数计算，P_tgt和P_src分别采样为N个点；

S124：通过旋转四元数获取旋转矩阵R_pred；

具体来说，

S125：R_pred和T_pred代表网络预测的旋转和平移矩阵结果，将估计的R_pred和T_pred作用到P_src上得到预测的变换到相机坐标系的三维模型P_pred；

；

其中，p_tgt是P_tgt中的每一个三维坐标点，N为三维坐标点的数量。

S126：R_gt和T_gt代表数据集中标注的三维模型到点云的旋转和平移矩阵真实值，将真实的R_gt和T_gt矩阵作用到P_src上得到真实的变换到相机坐标系的三维模型P_gt：

；

S127：计算P_pred和Pgt的对应点之间的平均距离Loss，即：

；其中，p_gt是Pgt中的每一个三维坐标点，N为三维坐标点的数量，p_pred是P_pred中的每一个三维坐标点；

S128：使Loss充分收敛后，得到网络输出的R_pred和T_pred即机器人基坐标系到相机坐标系的位姿变换矩阵，从而完成位姿感知模型的训练。

S130：将深度相机安装在每个机器人上。

S140：通过深度相机获取协作机器人的点云图，并利用位姿感知模型获取协作机器人的相对位姿；

具体来说，机器人的多机交互场景由深度相机和机器人组成，每台机器人的移动底座上方仰角固定一台深度相机，首先对机器人和深度相机进行手眼标定，使得相机坐标系下的坐标可以转化成机器人运动所需的坐标，初始时机器人可处于场景中的任意位置。步骤S140包括以下步骤：

S141：深度相机获取视角内协作机器人的点云图，同时通过IP地址在机器人之间进行通信，获取协作机器人的关节在基坐标系下的坐标

，其中j表示关节数量，协作机器人的含义是：两个交互的机器人互相为对方的协作机器人。

S142：将获取的协作机器人的点云图输入到位姿感知模型，得到协作对象的基坐标系到相机坐标系的位姿变换矩阵；

S143：将位姿变换矩阵作用到协作机器人基坐标系下的每个关节的坐标上，得到协作机器人每个关节在相机坐标系下对应的坐标，即，

其中，

表示协作机器人第i个关节在相机坐标系下对应的坐标，

表示协作机器人第i个关节在基坐标系下对应的坐标，R、T表示协作对象的基坐标系到相机坐标系的位姿变换矩阵。

S150：依据机器人相对位姿，获取协作的两个机器人的每个关节的相对空间位置，规划机器人运动并完成交互任务。

具体来说，步骤S150，即，机器人得到协作机器人的关节坐标在相机坐标系下的位置，利用事先手眼标定得到的变换矩阵得到机器人基坐标系下的坐标，并控制机器人末端运动到该位置，不断重复此过程直到目标位置小于一定的阈值则停止运动，完成交互任务。当与协作机器人距离超出机械臂的臂展范围时，移动机器人的底盘来拉近两个机器人底座的距离；当距离在机械臂可达范围内时，计算目标点与当前末端位置的中心点作为真正的目标点以避免出现碰撞。

实施例2

请参阅图4，本实施例提供了一种多机器人交互的三维视觉位姿感知系统，通过深度相机来实现良好的位姿感知效果，深度相机作为一种低成本设备，能够真正在工业中应用。并且通过三维点云与已知的机器人关节信息的融合，将位姿感知问题转化为机器人基坐标系和相机坐标系的坐标转换问题，能够实现较高的位姿感知精度。

具体来说，该系统包括：

数据集建立模块，适于获取并建立多模态信息的机器人位姿数据集。具体来说，数据集建立模块用于执行以下步骤：

S111：建立相机坐标系；

训练模块，适于依据机器人位姿数据集训练位姿感知模型。具体来说训练模块用于执行以下步骤：

其中，旋转四元数

，平移向量

，

表示基坐标的原点到相机坐标系的三轴距离。

S124：通过旋转四元数获取旋转矩阵R_pred；

具体来说，

；

；

S127：计算P_pred和Pgt的对应点之间的平均距离Loss，即：

安装模块，适于将深度相机安装在每个机器人上。

相对位姿获取模块，适于通过深度相机获取协作机器人的点云图，并利用位姿感知模型获取协作机器人的相对位姿。具体来说，机器人的多机交互场景由深度相机和机器人组成，每台机器人的移动底座上方仰角固定一台深度相机，首先对机器人和深度相机进行手眼标定，使得相机坐标系下的坐标可以转化成机器人运动所需的坐标，初始时机器人可处于场景中的任意位置。相对位姿获取模块用于执行以下步骤：

其中，

表示协作机器人第i个关节在相机坐标系下对应的坐标，

交互模块，适于依据机器人相对位姿，获取协作的两个机器人的每个关节的相对空间位置，规划机器人运动并完成交互任务。即，机器人得到协作机器人的关节坐标在相机坐标系下的位置，利用事先手眼标定得到的变换矩阵得到机器人基坐标系下的坐标，并控制机器人末端运动到该位置，不断重复此过程直到目标位置小于一定的阈值则停止运动，完成交互任务。当与协作机器人距离超出机械臂的臂展范围时，移动机器人的底盘来拉近两个机器人底座的距离；当距离在机械臂可达范围内时，计算目标点与当前末端位置的中心点作为真正的目标点以避免出现碰撞。

实施例3

本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储至少一条的指令，以上所述指令由处理器执行时实现实施例1所提供的多机器人交互的三维视觉位姿感知方法，通过深度相机来实现良好的位姿感知效果，并且通过三维点云与已知的机器人关节信息的融合，将位姿感知问题转化为机器人基坐标系和相机坐标系的坐标转换问题，能够实现较高的位姿感知精度，深度相机作为一种低成本设备，能够真正在工业中应用。

实施例4

请参阅图5，本实施例提供了一种电子设备，包括：存储器502和处理器501；所述存储器502中存储有至少一条程序指令；所述处理器501，通过加载并执行所述至少一条程序指令以实现如实施例1所提供的多机器人交互的三维视觉位姿感知方法。

存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器501。

处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。

综上所述，本发明提供了一种多机器人交互的三维视觉位姿感知方法及系统，其中，一种多机器人交互的三维视觉位姿感知方法包括：获取并建立多模态信息的机器人位姿数据集；依据机器人位姿数据集训练位姿感知模型；将深度相机安装在每个机器人上；通过深度相机获取协作机器人的点云图，并利用位姿感知模型获取协作机器人的相对位姿；依据机器人相对位姿，获取协作的两个机器人的每个关节的相对空间位置，规划机器人运动并完成交互任务。通过深度相机来实现良好的位姿感知效果，并且通过三维点云与已知的机器人关节信息的融合，将位姿感知问题转化为机器人基坐标系和相机坐标系的坐标转换问题，能够实现较高的位姿感知精度，深度相机作为一种低成本设备，能够真正在工业中应用。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种多机器人交互的三维视觉位姿感知方法，其特征在于，所述方法包括：

获取并建立多模态信息的机器人位姿数据集；

依据机器人位姿数据集训练位姿感知模型；

将深度相机安装在每个机器人上；

2.如权利要求1所述的多机器人交互的三维视觉位姿感知方法，其特征在于，所述获取并建立多模态信息的机器人位姿数据集的步骤包括：

建立相机坐标系；

3.如权利要求2所述的多机器人交互的三维视觉位姿感知方法，其特征在于，所述建立相机坐标系的步骤包括：

4.如权利要求2所述的多机器人交互的三维视觉位姿感知方法，其特征在于，所述依据机器人位姿数据集训练位姿感知模型的步骤包括：

个点；

通过旋转四元数获取旋转矩阵R_pred；

；

；

计算P_pred和Pgt的对应点之间的平均距离Loss，即：

5.如权利要求4所述的多机器人交互的三维视觉位姿感知方法，其特征在于，所述对未标注时的机器人位姿数据集进行语义分割获取机器人点云图，下采样后记为P_tgt的步骤包括;

6.如权利要求4所述的多机器人交互的三维视觉位姿感知方法，其特征在于，所述将P_tgt输入到位姿估计网络中获取旋转四元数Q_pred和平移向量T_pred的步骤包括：

位姿估计网络的两个分支分别对输入的P_tgt进行特征提取；

7.如权利要求6所述的多机器人交互的三维视觉位姿感知方法，其特征在于，所述位姿估计网络的两个分支分别对输入的P_tgt进行特征提取的步骤，即：

8.如权利要求4所述的多机器人交互的三维视觉位姿感知方法，其特征在于，所述通过深度相机获取协作机器人的点云图，并利用位姿感知模型获取协作机器人的相对位姿的步骤包括：

9.如权利要求1所述的多机器人交互的三维视觉位姿感知方法，其特征在于，所述依据机器人相对位姿，获取协作的两个机器人的每个关节的相对空间位置，规划机器人运动并完成交互任务的步骤，即，机器人得到协作机器人的关节坐标在相机坐标系下的位置，利用事先手眼标定得到的变换矩阵得到机器人基坐标系下的坐标，并控制机器人末端运动到该位置，不断重复此过程直到目标位置小于一定的阈值则停止运动，完成交互任务。

10.一种多机器人交互的三维视觉位姿感知系统，其特征在于，包括：

训练模块，适于依据机器人位姿数据集训练位姿感知模型；

安装模块，适于将深度相机安装在每个机器人上；