CN115617036B

CN115617036B - 一种多模态信息融合的机器人运动规划方法及设备

Info

Publication number: CN115617036B
Application number: CN202211107397.5A
Authority: CN
Inventors: 董琦; 吕友豪; 庄圆; 贾袁骏; 陆军
Original assignee: China Academy of Electronic and Information Technology of CETC
Current assignee: China Academy of Electronic and Information Technology of CETC
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2024-05-28
Anticipated expiration: 2042-09-13
Also published as: CN115617036A

Abstract

本申请公开了一种多模态信息融合的机器人运动规划方法及设备，包括：获取机器人的模态信息，所述模态信息包括本体状态信息、视觉信息及点云信息；将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码，并将编码后的特征转化为用于Transformer模型编码的tokens；利用所述Transformer模型基于编码后的特征，输出相应的模态特征向量；拼接各模态特征向量，作为全连接网络的输入；利用所述全连接网络输出预测值和机器人的动作选择，以实现运动规划。本申请解决了现有运动规划方法中机器人路径规划能力差和运动灵活度不足的问题。

Description

一种多模态信息融合的机器人运动规划方法及设备

技术领域

本申请涉及无人机技术领域，尤其涉及一种多模态信息融合的机器人运动规划方法及设备。

背景技术

运动规划是机器人研究的核心问题之一。它扩大了机器人的作业范围，使他们能够解决从日常生活物流运输到在具有挑战性的不平坦地形中进行自主探索等各种各样的任务，但随之带来的地形复杂问题对机器人的运动控制难度也陡然上升。自主化、智能化是无人系统发展的重要方向。

传统建模的控制方法根据机器人的观测信息进行状态估计，以获取准确的位姿，然后根据当前位姿与目标位姿作为输入由控制器做运动学控制结算。但对于现实环境的非结构性以及作为高阶非线性系统的四足机器人本体结构复杂性，使得被控对象建模困难。

深度强化学习的控制方法无需精确建模，能够通过环境探索与交互自动生成控制策略，能够有效减少对先验专家知识的依赖并且理论上可以达到近似最优的控制结果。但大多数方法都侧重于学习一种仅使用本体感觉状态的盲四足运动的鲁棒控制器，以试图通过复杂地形，机器人自我状态估计与环境感知都受到明显影响。

使用模型预测控制(Model Predictive Control,MPC)计算地面作用力和质心轨迹以及进行轨迹优化，其面临的主要问题为：此类方法需要对环境有深入的了解和大量的手动参数调整，这使得这些方法难以应用于复杂的环境。

仅使用状态信息作为输入的强化学习(Reinforcement Learning,RL)可以在模拟环境中生成能够通过复杂地形的通用策略，使用动态随机化来泛化不同环境以缩小模拟环境与现实环境中的策略的差别，其面临的主要问题为：输入状态信息仅有本体状态信息，与生物运动机理存在差别，无法满足对复杂环境强鲁棒性要求。

发明内容

本申请实施例提供一种多模态信息融合的机器人运动规划方法及设备，用以解决现有运动规划方法中机器人路径规划能力差和运动灵活度不足的问题。

本申请实施例提供一种多模态信息融合的机器人运动规划方法，包括：

获取机器人的模态信息，所述模态信息包括本体状态信息、视觉信息及点云信息；

将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码，并将编码后的特征转化为用于Transformer模型编码的tokens；

利用所述Transformer模型基于编码后的特征，输出相应的模态特征向量；

拼接各模态特征向量，作为全连接网络的输入；

利用所述全连接网络输出预测值和机器人的动作选择，以实现运动规划。

可选的，将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码包括：

采用多层感知机对所述本体状态信息进行特征编码；

采用ConvNet编码器对所述视觉信息进行特征编码；

采用PointNet对所述点云信息进行特征编码。

可选的，将编码后的特征转化为用于Transformer模型编码的tokens满足：

其中分别表示视觉特征、雷达特征，E^prop和W^prop表示空间位置(i,j)处的标记，t^prop、b^prop分别表示本体感受tokens嵌入的线性投影的权重和偏差，/>表示图像通道对应维向量空间；

将T₀作为所述Transformer模型的输入标记序列。

可选的，利用所述Transformer模型基于编码后的特征，输出相应的模态特征向量包括：

为每个模态分别汇集信息，计算来自同一模态的所有tokens的平均值以获得相应模态的特征向量，满足：

其中，D为自注意层的维度，T^q,T^k,T^v分别表示自注意力机制在每个输入Tokens T上通过单独的线性变换产生的输出，U^q,U^k,U^v分别表示自注意力层参数，表示C×C维向量空间；

对计算输入Tokens的加权和，将每个tokens对(t_i；t_j)的权重和计算为元素t_i和t_j的点积，按/>缩放，并通过Softmax操作进行归一化，满足：

其中，t_i、t_j分别表示，N表示视觉特征的尺寸参数，W^sum表示注意力权重；

将加权和转发至线性层，所述线性层具有参数U^SA，满足：

其中，SA(T)表示线性层的输出。

可选的，还包括在仿真环境中利用Actor-Critic框架和PPO算法训练机器人运动规划器：

构建观测空间，以利用所述观测空间提供模态信息；

将机器人与观测空间之间的交互建模为马尔可夫决策过程(S,A,P,r,H,γ)，其中s∈S表示状态，a∈A表示动作，P(s'|s,a)表示转移函数，R表示奖励函数，H表示有限回合范围，γ表示折扣因子；

将运动规划策略的动作空间定义为机器人各关节的目标关节角度；

定义奖励函数，满足：

R＝α_forwardR_forward+α_energeR_energy+α_timeR_time+α_conflictR_conflict

其中，R_forward表示前进奖励，R_energy表示确保能耗最佳，R_time表示鼓励机器人生存更长时间，R_conflict表示碰撞惩罚，α_forward表示前进奖励权重，a_energe表示能耗奖励权重，α_time表示生存奖励权重，α_conflict表示安全奖励权重；

依照上述设计配置参数训练所述马尔可夫决策过程，以获得运动规划策略。

可选的，在训练期间，在每个时间步从本体状态输入和外部状态输入中随机选择少部分值，将选中区域读数设置为其中最大值，以模拟现实环境中机器人硬件误差以及嘈杂的视觉观测。

本申请实施例还提供一种计算机设备，包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如前述的多模态信息融合的机器人运动规划方法的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现前述的多模态信息融合的机器人运动规划方法的步骤。

本申请实施例提出了一种基于transformer架构的信息融合方法，利用多传感器信息和神经网络强大的表征能力，使得机器感知对场景变化具有更强的鲁棒性，解决了现有运动规划方法中机器人路径规划能力差和运动灵活度不足的问题。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例的机器人运动规划方法的基本流程图；

图2为本申请实施例的神经网络模型架构示例；

图3为本申请实施例的训练神经网络模型的架构示例；

图4为本申请实施例一种具体示例的训练曲线。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

感知能力是运动的基础，通过研究人类运动过程中的眼球运动，人类在行走时严重依赖眼体协调，并且凝视会根据环境特征而变化，这一发现促使人们使用视觉感官输入来改善四足动物在不平坦地形上的运动。虽然在没有视觉的情况下仍然可以凭借鲁棒控制通过不平坦的地形，但盲人无法始终如一地避开大型障碍物。为了绕过这些障碍物，智能体需要感知远处的障碍物，并动态调整其轨迹以避免任何碰撞。同样，在崎岖地形中导航的智能体也可以通过在接触之前预测地形的变化而从视觉中受益，因此视觉感知可以在提高运动能力方面发挥重要作用。

基于此本申请实施例提供一种多模态信息融合的机器人运动规划方法，如图1所示，包括：

在步骤S101中，获取机器人的模态信息，所述模态信息包括本体状态信息、视觉信息及点云信息。具体可以首先构建机器人与仿真环境，本示例中的机器人以四足机器人为例进行举例说明，其他无人机或机器人设备也可以采用类似的方式进行运动规划。在仿真中，可以利用开源的Pybullet软件构建四足机器人仿真环境，包括四足机器人物理模型和周围环境的物理属性；四足机器人的视觉、激光雷达、惯性测量单元等传感器通过插件形式加装在模型上，由此来获取机器人的模态信息，包括本体状态信息、视觉信息及点云信息。

在步骤S102中，将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码，并将编码后的特征转化为用于Transformer模型编码的tokens。在一些实施例中，将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码包括：采用多层感知机对所述本体状态信息进行特征编码；采用ConvNet编码器对所述视觉信息进行特征编码；采用PointNet对所述点云信息进行特征编码。通过该步骤能使机器人更好的进行状态估计，并且能够在隐藏空间中对三种模态特征实现统一表示。

在步骤S103中，利用所述Transformer模型基于编码后的特征，输出相应的模态特征向量。在一些实施例中，将编码后的特征转化为用于Transformer模型编码的tokens满足：

将T₀作为所述Transformer模型的输入标记序列。

如图2所示，采用Transformer模型共享编码三种tokens信息，生成本体特征、视觉特征、点云特征。将Transformer编码器层堆叠起来，在多个层级上融合来自三种模态的tokens信息。

在步骤S104中，拼接各模态特征向量，作为全连接网络的输入。

在步骤S105中，利用所述全连接网络输出预测值和机器人的动作选择，以实现运动规划。

对于模态级融合，在所有上直接应用池化操作将很容易稀释本体感受信息，因为感知信息的数量远远超过本体感觉的数量。在一些实施例中，利用所述Transformer模型基于编码后的特征，输出相应的模态特征向量包括：

将加权和转发至线性层，所述线性层具有参数U^SA，满足：

其中，SA(T)表示线性层的输出。

在一些实施例中，如图3所示，还包括在仿真环境中利用Actor-Critic框架和PPO算法训练机器人运动规划器，训练完成后运动规划器可用以执行对应的运动规划策略，包括：

构建观测空间，以利用所述观测空间提供模态信息，在一些具体示例中，观测空间设计包含三部分：(i)本体感觉数据：本体向量由IMU读数，局部关节旋转角度以及机器人在最近三个采取的历史行动序列组成；(ii)视觉数据：从安装在机器人头部的深度摄像头实时稠密深度图像，为智能体提供空间和时间视觉信息；(iii)点云数据：从安装在机器人背部的激光雷达获取雷达点云图像，为机器人提供周边障碍物距离信息。

将机器人与观测空间之间的交互建模为马尔可夫决策过程(S,A,P,R,H,γ)，其中s∈S表示状态，a∈A表示动作，P(s'|s,a)表示转移函数，R表示奖励函数，H表示有限回合范围，γ表示折扣因子。

本示例中，智能体学习由θ参数化的策略π_θ，以输出基于当前状态的动作概率分布。智能体的目标是学习最大化折扣集回报的θ：其中是时间步长t的奖励，τ～p_θ(τ)是轨迹。

将运动规划策略的动作空间定义为机器人各关节的目标关节角度，目标角度使用默认PD控制器转换为电机扭矩。

定义奖励函数，满足：

R＝α_forwardR_forward+α_energeR_energy+α_timeR_time+α_conflictR_conflict

其中，R_forward表示前进奖励，R_energy表示确保能耗最佳，R_time表示鼓励机器人生存更长时间，R_conflict表示碰撞惩罚，α_forward表示前进奖励权重，α_energe表示能耗奖励权重，α_time表示生存奖励权重，α_conflict表示安全奖励权重。

在训练过程中，对本体状态信息、视觉信息及点云信息进行随机化，提高最终策略的鲁棒性。在一些实施例中，可以在训练期间，在每个时间步从本体状态输入和外部状态输入中随机选择少部分值，例如5％，将选中区域读数设置为其中最大值，以模拟现实环境中机器人硬件误差以及嘈杂的视觉观测。在具体实施过程中，通过域随机化方法减少仿真环境与真实环境的差异性，提高状态感知及后续规划的鲁棒性。

本申请对于四足机器人运动控制方法通过在仿真环境预训练生成运动规划策略，然后迁移至四足机器人平台部署，仿真环境预训练阶段包括动力学仿真引擎、强化学习训练模块、奖励计算模块、策略神经网络控制器和仿真底层控制器。使用深度强化学习进行端到端训练产生动作策略，在训练过程中从动力学仿真引擎的仿真环境中获取观测值-动作指令数据进而学习到能够使奖励计算模块得到的奖励函数值最大的运动控制策略，保证模拟训练的安全性和效率优势。

本申请提出了一种基于多模态信息融合的四足机器人运动控制方法，为验证效果，申请人搭建实验环境，实例训练过程和效果如图4、表1所示：

表1

	移动距离(m)	碰撞发生概率(％)
			模型预测控制	5.2±1.2	45.5±3.7
本体信息	8.1±1.3	44.2±10.2
			多模态信息	12.2±2.3	12.8±6.3

每类方法采样1500万次，记录最终策略的平均值和标准差。评估指标：移动距离：机器人沿里程计标定方向移动的垂直距离；碰撞发生概率：发生碰撞事件的回合数/总验证回合数。

实践证明，本申请实施例的多模态信息有助于机器人在训练过程中获取更高的奖励，从而在评估实验中达到更好的运动效果，尤其在碰撞发生概率指标上得益于视觉、雷达信息的输入具有明显的提升，能够生成灵活鲁棒的运动规划策略，实现高效的障碍物躲避。本申请的控制策略训练框架设计对专家先验知识依赖较少，可基于模拟环境实现四足机器人控制策略端到端生成，有效减少人工成本。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本申请的保护之内。

Claims

1.一种多模态信息融合的机器人运动规划方法，其特征在于，包括：

拼接各模态特征向量，作为全连接网络的输入；

利用所述全连接网络输出预测值和机器人的动作选择，以实现运动规划；

利用所述Transformer模型基于编码后的特征，输出相应的模态特征向量包括：

其中，D为自注意层的维度，T^q,T^k,T^v分别表示自注意力机制在每个输入TokensT上通过单独的线性变换产生的输出，U^q,U^k,U^v分别表示自注意力层参数，表示C×C维向量空间；

计算输入Tokens的加权和，将每个tokens对(t_i；t_j)的权重和计算为元素t_i和t_j的点积，按/>缩放，并通过Softmax操作进行归一化，满足：

其中，(t_i、t_j)分别表示任意tokenpair，N表示视觉特征的尺寸参数，W^sum表示注意力权重；

将加权和转发至线性层，所述线性层具有参数U^SA，满足：

其中，SA(T)表示线性层的输出。

2.如权利要求1所述的多模态信息融合的机器人运动规划方法，其特征在于，将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码包括：

采用多层感知机对所述本体状态信息进行特征编码；

采用ConvNet编码器对所述视觉信息进行特征编码；

采用PointNet对所述点云信息进行特征编码。

3.如权利要求1所述的多模态信息融合的机器人运动规划方法，其特征在于，将编码后的特征转化为用于Transformer模型编码的tokens满足：

将T₀作为所述Transformer模型的输入标记序列。

4.如权利要求1所述的多模态信息融合的机器人运动规划方法，其特征在于，还包括在仿真环境中利用Actor-Critic框架和PPO算法训练机器人运动规划器：

构建观测空间，以利用所述观测空间提供模态信息；

定义奖励函数，满足：

R＝α_forwardR_forward+α_energeR_energy+α_timeR_time+α_conflictR_conflict

其中，R_forward表示前进奖励，R_energy表示确保能耗最佳，R_time表示鼓励机器人生存更长时间，R_conflict表示碰撞惩罚，α_forward表示前进奖励权重，α_energe表示能耗奖励权重，α_time表示生存奖励权重，α_conflict表示安全奖励权重；

5.如权利要求4所述的多模态信息融合的机器人运动规划方法，其特征在于，在训练期间，在每个时间步从本体状态输入和外部状态输入中随机选择少部分值，将选中区域读数设置为其中最大值，以模拟现实环境中机器人硬件误差以及嘈杂的视觉观测。

6.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的多模态信息融合的机器人运动规划方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的多模态信息融合的机器人运动规划方法的步骤。