CN115617036B - 一种多模态信息融合的机器人运动规划方法及设备 - Google Patents
一种多模态信息融合的机器人运动规划方法及设备 Download PDFInfo
- Publication number
- CN115617036B CN115617036B CN202211107397.5A CN202211107397A CN115617036B CN 115617036 B CN115617036 B CN 115617036B CN 202211107397 A CN202211107397 A CN 202211107397A CN 115617036 B CN115617036 B CN 115617036B
- Authority
- CN
- China
- Prior art keywords
- information
- robot
- motion planning
- modal
- tokens
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000004927 fusion Effects 0.000 title claims abstract description 18
- 230000000007 visual effect Effects 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 22
- 238000004088 simulation Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000005265 energy consumption Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000009023 proprioceptive sensation Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000004083 survival effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 7
- 230000004438 eyesight Effects 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000011217 control strategy Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000272 proprioceptive effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000037147 athletic performance Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0234—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons
- G05D1/0236—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
- G05D1/028—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using a RF signal
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
- G05D1/0285—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using signals transmitted via a public communication network, e.g. GSM network
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Electromagnetism (AREA)
- Optics & Photonics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Manipulator (AREA)
Abstract
本申请公开了一种多模态信息融合的机器人运动规划方法及设备,包括:获取机器人的模态信息,所述模态信息包括本体状态信息、视觉信息及点云信息;将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码,并将编码后的特征转化为用于Transformer模型编码的tokens;利用所述Transformer模型基于编码后的特征,输出相应的模态特征向量;拼接各模态特征向量,作为全连接网络的输入;利用所述全连接网络输出预测值和机器人的动作选择,以实现运动规划。本申请解决了现有运动规划方法中机器人路径规划能力差和运动灵活度不足的问题。
Description
技术领域
本申请涉及无人机技术领域,尤其涉及一种多模态信息融合的机器人运动规划方法及设备。
背景技术
运动规划是机器人研究的核心问题之一。它扩大了机器人的作业范围,使他们能够解决从日常生活物流运输到在具有挑战性的不平坦地形中进行自主探索等各种各样的任务,但随之带来的地形复杂问题对机器人的运动控制难度也陡然上升。自主化、智能化是无人系统发展的重要方向。
传统建模的控制方法根据机器人的观测信息进行状态估计,以获取准确的位姿,然后根据当前位姿与目标位姿作为输入由控制器做运动学控制结算。但对于现实环境的非结构性以及作为高阶非线性系统的四足机器人本体结构复杂性,使得被控对象建模困难。
深度强化学习的控制方法无需精确建模,能够通过环境探索与交互自动生成控制策略,能够有效减少对先验专家知识的依赖并且理论上可以达到近似最优的控制结果。但大多数方法都侧重于学习一种仅使用本体感觉状态的盲四足运动的鲁棒控制器,以试图通过复杂地形,机器人自我状态估计与环境感知都受到明显影响。
使用模型预测控制(Model Predictive Control,MPC)计算地面作用力和质心轨迹以及进行轨迹优化,其面临的主要问题为:此类方法需要对环境有深入的了解和大量的手动参数调整,这使得这些方法难以应用于复杂的环境。
仅使用状态信息作为输入的强化学习(Reinforcement Learning,RL)可以在模拟环境中生成能够通过复杂地形的通用策略,使用动态随机化来泛化不同环境以缩小模拟环境与现实环境中的策略的差别,其面临的主要问题为:输入状态信息仅有本体状态信息,与生物运动机理存在差别,无法满足对复杂环境强鲁棒性要求。
发明内容
本申请实施例提供一种多模态信息融合的机器人运动规划方法及设备,用以解决现有运动规划方法中机器人路径规划能力差和运动灵活度不足的问题。
本申请实施例提供一种多模态信息融合的机器人运动规划方法,包括:
获取机器人的模态信息,所述模态信息包括本体状态信息、视觉信息及点云信息;
将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码,并将编码后的特征转化为用于Transformer模型编码的tokens;
利用所述Transformer模型基于编码后的特征,输出相应的模态特征向量;
拼接各模态特征向量,作为全连接网络的输入;
利用所述全连接网络输出预测值和机器人的动作选择,以实现运动规划。
可选的,将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码包括:
采用多层感知机对所述本体状态信息进行特征编码;
采用ConvNet编码器对所述视觉信息进行特征编码;
采用PointNet对所述点云信息进行特征编码。
可选的,将编码后的特征转化为用于Transformer模型编码的tokens满足:
其中分别表示视觉特征、雷达特征,Eprop和Wprop表示空间位置(i,j)处的标记,tprop、bprop分别表示本体感受tokens嵌入的线性投影的权重和偏差,/>表示图像通道对应维向量空间;
将T0作为所述Transformer模型的输入标记序列。
可选的,利用所述Transformer模型基于编码后的特征,输出相应的模态特征向量包括:
为每个模态分别汇集信息,计算来自同一模态的所有tokens的平均值以获得相应模态的特征向量,满足:
其中,D为自注意层的维度,Tq,Tk,Tv分别表示自注意力机制在每个输入Tokens T上通过单独的线性变换产生的输出,Uq,Uk,Uv分别表示自注意力层参数,表示C×C维向量空间;
对计算输入Tokens的加权和,将每个tokens对(ti;tj)的权重和计算为元素ti和tj的点积,按/>缩放,并通过Softmax操作进行归一化,满足:
其中,ti、tj分别表示,N表示视觉特征的尺寸参数,Wsum表示注意力权重;
将加权和转发至线性层,所述线性层具有参数USA,满足:
其中,SA(T)表示线性层的输出。
可选的,还包括在仿真环境中利用Actor-Critic框架和PPO算法训练机器人运动规划器:
构建观测空间,以利用所述观测空间提供模态信息;
将机器人与观测空间之间的交互建模为马尔可夫决策过程(S,A,P,r,H,γ),其中s∈S表示状态,a∈A表示动作,P(s'|s,a)表示转移函数,R表示奖励函数,H表示有限回合范围,γ表示折扣因子;
将运动规划策略的动作空间定义为机器人各关节的目标关节角度;
定义奖励函数,满足:
R=αforwardRforward+αenergeRenergy+αtimeRtime+αconflictRconflict
其中,Rforward表示前进奖励,Renergy表示确保能耗最佳,Rtime表示鼓励机器人生存更长时间,Rconflict表示碰撞惩罚,αforward表示前进奖励权重,aenerge表示能耗奖励权重,αtime表示生存奖励权重,αconflict表示安全奖励权重;
依照上述设计配置参数训练所述马尔可夫决策过程,以获得运动规划策略。
可选的,在训练期间,在每个时间步从本体状态输入和外部状态输入中随机选择少部分值,将选中区域读数设置为其中最大值,以模拟现实环境中机器人硬件误差以及嘈杂的视觉观测。
本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如前述的多模态信息融合的机器人运动规划方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的多模态信息融合的机器人运动规划方法的步骤。
本申请实施例提出了一种基于transformer架构的信息融合方法,利用多传感器信息和神经网络强大的表征能力,使得机器感知对场景变化具有更强的鲁棒性,解决了现有运动规划方法中机器人路径规划能力差和运动灵活度不足的问题。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例的机器人运动规划方法的基本流程图;
图2为本申请实施例的神经网络模型架构示例;
图3为本申请实施例的训练神经网络模型的架构示例;
图4为本申请实施例一种具体示例的训练曲线。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
感知能力是运动的基础,通过研究人类运动过程中的眼球运动,人类在行走时严重依赖眼体协调,并且凝视会根据环境特征而变化,这一发现促使人们使用视觉感官输入来改善四足动物在不平坦地形上的运动。虽然在没有视觉的情况下仍然可以凭借鲁棒控制通过不平坦的地形,但盲人无法始终如一地避开大型障碍物。为了绕过这些障碍物,智能体需要感知远处的障碍物,并动态调整其轨迹以避免任何碰撞。同样,在崎岖地形中导航的智能体也可以通过在接触之前预测地形的变化而从视觉中受益,因此视觉感知可以在提高运动能力方面发挥重要作用。
基于此本申请实施例提供一种多模态信息融合的机器人运动规划方法,如图1所示,包括:
在步骤S101中,获取机器人的模态信息,所述模态信息包括本体状态信息、视觉信息及点云信息。具体可以首先构建机器人与仿真环境,本示例中的机器人以四足机器人为例进行举例说明,其他无人机或机器人设备也可以采用类似的方式进行运动规划。在仿真中,可以利用开源的Pybullet软件构建四足机器人仿真环境,包括四足机器人物理模型和周围环境的物理属性;四足机器人的视觉、激光雷达、惯性测量单元等传感器通过插件形式加装在模型上,由此来获取机器人的模态信息,包括本体状态信息、视觉信息及点云信息。
在步骤S102中,将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码,并将编码后的特征转化为用于Transformer模型编码的tokens。在一些实施例中,将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码包括:采用多层感知机对所述本体状态信息进行特征编码;采用ConvNet编码器对所述视觉信息进行特征编码;采用PointNet对所述点云信息进行特征编码。通过该步骤能使机器人更好的进行状态估计,并且能够在隐藏空间中对三种模态特征实现统一表示。
在步骤S103中,利用所述Transformer模型基于编码后的特征,输出相应的模态特征向量。在一些实施例中,将编码后的特征转化为用于Transformer模型编码的tokens满足:
其中分别表示视觉特征、雷达特征,Eprop和Wprop表示空间位置(i,j)处的标记,tprop、bprop分别表示本体感受tokens嵌入的线性投影的权重和偏差,/>表示图像通道对应维向量空间;
将T0作为所述Transformer模型的输入标记序列。
如图2所示,采用Transformer模型共享编码三种tokens信息,生成本体特征、视觉特征、点云特征。将Transformer编码器层堆叠起来,在多个层级上融合来自三种模态的tokens信息。
在步骤S104中,拼接各模态特征向量,作为全连接网络的输入。
在步骤S105中,利用所述全连接网络输出预测值和机器人的动作选择,以实现运动规划。
本申请实施例提出了一种基于transformer架构的信息融合方法,利用多传感器信息和神经网络强大的表征能力,使得机器感知对场景变化具有更强的鲁棒性,解决了现有运动规划方法中机器人路径规划能力差和运动灵活度不足的问题。
对于模态级融合,在所有上直接应用池化操作将很容易稀释本体感受信息,因为感知信息的数量远远超过本体感觉的数量。在一些实施例中,利用所述Transformer模型基于编码后的特征,输出相应的模态特征向量包括:
为每个模态分别汇集信息,计算来自同一模态的所有tokens的平均值以获得相应模态的特征向量,满足:
其中,D为自注意层的维度,Tq,Tk,Tv分别表示自注意力机制在每个输入Tokens T上通过单独的线性变换产生的输出,Uq,Uk,Uv分别表示自注意力层参数,表示C×C维向量空间;
对计算输入Tokens的加权和,将每个tokens对(ti;tj)的权重和计算为元素ti和tj的点积,按/>缩放,并通过Softmax操作进行归一化,满足:
其中,ti、tj分别表示,N表示视觉特征的尺寸参数,Wsum表示注意力权重;
将加权和转发至线性层,所述线性层具有参数USA,满足:
其中,SA(T)表示线性层的输出。
在一些实施例中,如图3所示,还包括在仿真环境中利用Actor-Critic框架和PPO算法训练机器人运动规划器,训练完成后运动规划器可用以执行对应的运动规划策略,包括:
构建观测空间,以利用所述观测空间提供模态信息,在一些具体示例中,观测空间设计包含三部分:(i)本体感觉数据:本体向量由IMU读数,局部关节旋转角度以及机器人在最近三个采取的历史行动序列组成;(ii)视觉数据:从安装在机器人头部的深度摄像头实时稠密深度图像,为智能体提供空间和时间视觉信息;(iii)点云数据:从安装在机器人背部的激光雷达获取雷达点云图像,为机器人提供周边障碍物距离信息。
将机器人与观测空间之间的交互建模为马尔可夫决策过程(S,A,P,R,H,γ),其中s∈S表示状态,a∈A表示动作,P(s'|s,a)表示转移函数,R表示奖励函数,H表示有限回合范围,γ表示折扣因子。
本示例中,智能体学习由θ参数化的策略πθ,以输出基于当前状态的动作概率分布。智能体的目标是学习最大化折扣集回报的θ: 其中是时间步长t的奖励,τ~pθ(τ)是轨迹。
将运动规划策略的动作空间定义为机器人各关节的目标关节角度,目标角度使用默认PD控制器转换为电机扭矩。
定义奖励函数,满足:
R=αforwardRforward+αenergeRenergy+αtimeRtime+αconflictRconflict
其中,Rforward表示前进奖励,Renergy表示确保能耗最佳,Rtime表示鼓励机器人生存更长时间,Rconflict表示碰撞惩罚,αforward表示前进奖励权重,αenerge表示能耗奖励权重,αtime表示生存奖励权重,αconflict表示安全奖励权重。
依照上述设计配置参数训练所述马尔可夫决策过程,以获得运动规划策略。
在训练过程中,对本体状态信息、视觉信息及点云信息进行随机化,提高最终策略的鲁棒性。在一些实施例中,可以在训练期间,在每个时间步从本体状态输入和外部状态输入中随机选择少部分值,例如5%,将选中区域读数设置为其中最大值,以模拟现实环境中机器人硬件误差以及嘈杂的视觉观测。在具体实施过程中,通过域随机化方法减少仿真环境与真实环境的差异性,提高状态感知及后续规划的鲁棒性。
本申请对于四足机器人运动控制方法通过在仿真环境预训练生成运动规划策略,然后迁移至四足机器人平台部署,仿真环境预训练阶段包括动力学仿真引擎、强化学习训练模块、奖励计算模块、策略神经网络控制器和仿真底层控制器。使用深度强化学习进行端到端训练产生动作策略,在训练过程中从动力学仿真引擎的仿真环境中获取观测值-动作指令数据进而学习到能够使奖励计算模块得到的奖励函数值最大的运动控制策略,保证模拟训练的安全性和效率优势。
本申请提出了一种基于多模态信息融合的四足机器人运动控制方法,为验证效果,申请人搭建实验环境,实例训练过程和效果如图4、表1所示:
表1
移动距离(m) | 碰撞发生概率(%) | |
模型预测控制 | 5.2±1.2 | 45.5±3.7 |
本体信息 | 8.1±1.3 | 44.2±10.2 |
多模态信息 | 12.2±2.3 | 12.8±6.3 |
每类方法采样1500万次,记录最终策略的平均值和标准差。评估指标:移动距离:机器人沿里程计标定方向移动的垂直距离;碰撞发生概率:发生碰撞事件的回合数/总验证回合数。
实践证明,本申请实施例的多模态信息有助于机器人在训练过程中获取更高的奖励,从而在评估实验中达到更好的运动效果,尤其在碰撞发生概率指标上得益于视觉、雷达信息的输入具有明显的提升,能够生成灵活鲁棒的运动规划策略,实现高效的障碍物躲避。本申请的控制策略训练框架设计对专家先验知识依赖较少,可基于模拟环境实现四足机器人控制策略端到端生成,有效减少人工成本。
本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如前述的多模态信息融合的机器人运动规划方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的多模态信息融合的机器人运动规划方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本申请的保护之内。
Claims (7)
1.一种多模态信息融合的机器人运动规划方法,其特征在于,包括:
获取机器人的模态信息,所述模态信息包括本体状态信息、视觉信息及点云信息;
将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码,并将编码后的特征转化为用于Transformer模型编码的tokens;
利用所述Transformer模型基于编码后的特征,输出相应的模态特征向量;
拼接各模态特征向量,作为全连接网络的输入;
利用所述全连接网络输出预测值和机器人的动作选择,以实现运动规划;
利用所述Transformer模型基于编码后的特征,输出相应的模态特征向量包括:
为每个模态分别汇集信息,计算来自同一模态的所有tokens的平均值以获得相应模态的特征向量,满足:
其中,D为自注意层的维度,Tq,Tk,Tv分别表示自注意力机制在每个输入TokensT上通过单独的线性变换产生的输出,Uq,Uk,Uv分别表示自注意力层参数,表示C×C维向量空间;
计算输入Tokens的加权和,将每个tokens对(ti;tj)的权重和计算为元素ti和tj的点积,按/>缩放,并通过Softmax操作进行归一化,满足:
其中,(ti、tj)分别表示任意tokenpair,N表示视觉特征的尺寸参数,Wsum表示注意力权重;
将加权和转发至线性层,所述线性层具有参数USA,满足:
其中,SA(T)表示线性层的输出。
2.如权利要求1所述的多模态信息融合的机器人运动规划方法,其特征在于,将所获取的本体状态信息、视觉信息及点云信息分别利用相应的编码器进行特征编码包括:
采用多层感知机对所述本体状态信息进行特征编码;
采用ConvNet编码器对所述视觉信息进行特征编码;
采用PointNet对所述点云信息进行特征编码。
3.如权利要求1所述的多模态信息融合的机器人运动规划方法,其特征在于,将编码后的特征转化为用于Transformer模型编码的tokens满足:
其中分别表示视觉特征、雷达特征,Eprop和Wprop表示空间位置(i,j)处的标记,tprop、bprop分别表示本体感受tokens嵌入的线性投影的权重和偏差,/>表示图像通道对应维向量空间;
将T0作为所述Transformer模型的输入标记序列。
4.如权利要求1所述的多模态信息融合的机器人运动规划方法,其特征在于,还包括在仿真环境中利用Actor-Critic框架和PPO算法训练机器人运动规划器:
构建观测空间,以利用所述观测空间提供模态信息;
将机器人与观测空间之间的交互建模为马尔可夫决策过程(S,A,P,R,H,γ),其中s∈S表示状态,a∈A表示动作,P(s'|s,a)表示转移函数,R表示奖励函数,H表示有限回合范围,γ表示折扣因子;
将运动规划策略的动作空间定义为机器人各关节的目标关节角度;
定义奖励函数,满足:
R=αforwardRforward+αenergeRenergy+αtimeRtime+αconflictRconflict
其中,Rforward表示前进奖励,Renergy表示确保能耗最佳,Rtime表示鼓励机器人生存更长时间,Rconflict表示碰撞惩罚,αforward表示前进奖励权重,αenerge表示能耗奖励权重,αtime表示生存奖励权重,αconflict表示安全奖励权重;
依照上述设计配置参数训练所述马尔可夫决策过程,以获得运动规划策略。
5.如权利要求4所述的多模态信息融合的机器人运动规划方法,其特征在于,在训练期间,在每个时间步从本体状态输入和外部状态输入中随机选择少部分值,将选中区域读数设置为其中最大值,以模拟现实环境中机器人硬件误差以及嘈杂的视觉观测。
6.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的多模态信息融合的机器人运动规划方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的多模态信息融合的机器人运动规划方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211107397.5A CN115617036B (zh) | 2022-09-13 | 2022-09-13 | 一种多模态信息融合的机器人运动规划方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211107397.5A CN115617036B (zh) | 2022-09-13 | 2022-09-13 | 一种多模态信息融合的机器人运动规划方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115617036A CN115617036A (zh) | 2023-01-17 |
CN115617036B true CN115617036B (zh) | 2024-05-28 |
Family
ID=84859679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211107397.5A Active CN115617036B (zh) | 2022-09-13 | 2022-09-13 | 一种多模态信息融合的机器人运动规划方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115617036B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116038716B (zh) * | 2023-03-14 | 2023-07-18 | 煤炭科学研究总院有限公司 | 机器人的控制方法和机器人的控制模型的训练方法 |
CN116540701B (zh) * | 2023-04-19 | 2024-03-05 | 广州里工实业有限公司 | 一种路径规划方法、系统、装置及存储介质 |
CN117875407B (zh) * | 2024-03-11 | 2024-06-04 | 中国兵器装备集团自动化研究所有限公司 | 一种多模态持续学习方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021238303A1 (zh) * | 2020-05-29 | 2021-12-02 | 华为技术有限公司 | 运动规划的方法与装置 |
WO2022033208A1 (zh) * | 2020-08-12 | 2022-02-17 | 腾讯科技(深圳)有限公司 | 视觉对话方法、模型训练方法、装置、电子设备及计算机可读存储介质 |
CN114463825A (zh) * | 2022-04-08 | 2022-05-10 | 北京邮电大学 | 基于多模态融合的人脸预测方法及相关设备 |
CN114660934A (zh) * | 2022-03-03 | 2022-06-24 | 西北工业大学 | 一种基于视觉-触觉融合的机械臂自主操作策略学习方法 |
-
2022
- 2022-09-13 CN CN202211107397.5A patent/CN115617036B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021238303A1 (zh) * | 2020-05-29 | 2021-12-02 | 华为技术有限公司 | 运动规划的方法与装置 |
WO2022033208A1 (zh) * | 2020-08-12 | 2022-02-17 | 腾讯科技(深圳)有限公司 | 视觉对话方法、模型训练方法、装置、电子设备及计算机可读存储介质 |
CN114660934A (zh) * | 2022-03-03 | 2022-06-24 | 西北工业大学 | 一种基于视觉-触觉融合的机械臂自主操作策略学习方法 |
CN114463825A (zh) * | 2022-04-08 | 2022-05-10 | 北京邮电大学 | 基于多模态融合的人脸预测方法及相关设备 |
Non-Patent Citations (2)
Title |
---|
Aditya Prakash,Kashyap Chitta.Multi-Modal Fusion Transformer for End-to-End Autonomous Driving.《CVPR 2021》.2021,全文. * |
郭非 ; 汪首坤 ; 王军政.轮足复合移动机器人运动规划发展现状及关键技术分析.《控制与决策》.2022,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN115617036A (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115617036B (zh) | 一种多模态信息融合的机器人运动规划方法及设备 | |
US20220212342A1 (en) | Predictive robotic controller apparatus and methods | |
Zhang et al. | Robot navigation of environments with unknown rough terrain using deep reinforcement learning | |
CN111578940B (zh) | 一种基于跨传感器迁移学习的室内单目导航方法及系统 | |
Narasimhan et al. | Seeing the un-scene: Learning amodal semantic maps for room navigation | |
US9384443B2 (en) | Robotic training apparatus and methods | |
US9630318B2 (en) | Feature detection apparatus and methods for training of robotic navigation | |
Leiva et al. | Robust rl-based map-less local planning: Using 2d point clouds as observations | |
Liu et al. | A hybrid control architecture for autonomous robotic fish | |
Mahadevuni et al. | Navigating mobile robots to target in near shortest time using reinforcement learning with spiking neural networks | |
Jiang et al. | iTD3-CLN: Learn to navigate in dynamic scene through Deep Reinforcement Learning | |
Xue et al. | A UAV navigation approach based on deep reinforcement learning in large cluttered 3D environments | |
de Jesus et al. | Depth-cuprl: Depth-imaged contrastive unsupervised prioritized representations in reinforcement learning for mapless navigation of unmanned aerial vehicles | |
Prasetyo et al. | Spatial Based Deep Learning Autonomous Wheel Robot Using CNN | |
Sebastian et al. | Neural network based heterogeneous sensor fusion for robot motion planning | |
Zhu et al. | Autonomous reinforcement control of visual underwater vehicles: Real-time experiments using computer vision | |
Oikonomou et al. | A framework for active vision-based robot planning using spiking neural networks | |
Paudel | Learning for robot decision making under distribution shift: A survey | |
Weerakoon et al. | Vapor: Holonomic legged robot navigation in outdoor vegetation using offline reinforcement learning | |
Sivashangaran | Application of deep reinforcement learning for intelligent autonomous navigation of car-like mobile robot | |
Jha | Intelligent Control and Path Planning of Multiple Mobile Robots Using Hybrid Ai Techniques | |
De Villiers et al. | Learning fine-grained control for mapless navigation | |
Tao et al. | Fast and robust training and deployment of deep reinforcement learning based navigation policy | |
Musić et al. | Adaptive fuzzy mediation for multimodal control of mobile robots in navigation-based tasks | |
Ibrahim et al. | Evolving decision-making functions in an autonomous robotic exploration strategy using grammatical evolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |