发明内容
本说明书实施例的目的是提供一种机器人的轨迹规划系统和方法,可以将高层次的粗略运动意图指令实时在线的转换为具体的关节运动指令,进而实现机器人的载人行走。
为解决上述技术问题,本说明书实施例通过以下方式实现的:
第一方面,提供一种机器人的轨迹规划系统,包括:路径规划器、步态规划器和关节轨迹规划器,
所述路径规划器生成避障路径与步态周期,构成落脚点序列;
所述步态规划器接收到来自所述路径规划器的落脚点序列和步态周期,输出机器人质心轨迹、左脚轨迹、右脚轨迹以及经过重采样后的落脚点序列;
所述关节轨迹规划器根据机器人质心轨迹、左脚轨迹、右脚轨迹和经过重采样后的落脚点序列计算得到驱动机器人的关节轨迹。
第二方面,提供一种机器人的轨迹规划方法,包括如下步骤:
步骤100、信息输入,利用传感器从环境中获取环境点云图以及通过人机交互接口获取机器人目的地信息;
步骤200、路径规划,机器人目的地信息和环境点云图信息被预处理并导入到路径规划器中训练好的深度强化学习智能体中,生成从机器人当前位置到目的位置的避障路径与步态周期,构成落脚点序列;
步骤300、步态规划,接收到来自落脚点序列和步态周期,输出机器人质心轨迹、左脚轨迹、右脚轨迹以及经过重采样后的落脚点序列;
步骤400、关节轨迹规划,根据机器人质心轨迹、左脚轨迹、右脚轨迹和落脚点序列计算得到驱动机器人的关节轨迹。
由以上本说明书实施例提供的技术方案可见,
(1)本发明提出一种多层次轨迹规划算法,可以实时在线的为外骨骼机器人规划出落脚点路径、满足双足动态稳定要求的步态轨迹以及带动力学误差补偿的关节轨迹,最终可以将输出的关节轨迹作为驱动外骨骼机器人的运动指令来实现外骨骼机器人按穿戴者的意图行走;
(2)本发明首次提出了针对外骨骼机器人的系统性的端到端全自主轨迹规划算法,将粗略的高层次运动意图指令转换为具体的关节轨迹指令进而驱动外骨骼机器人实现载人自平衡行走,这可以提高外骨骼机器人的智能性、易用性与适用范围,可以让外骨骼机器人的应用范围扩展到高位截瘫、高位偏瘫等失去上下肢运动能力的患者;
(3)本发明的路径规划器为基于深度强化学习算法的在线实时路径规划算法,该层规划器的算法中还融入了外骨骼运动学约束和人工势场理论,该算法框架适用于动态环境,可以在线实时的输出驱动外骨骼机器人的关节运动轨迹指令,可用于在动态环境中生成满足步行安全稳定要求、符合人类行走思维、且能顺利避障的机器人双足落脚点路径;
(4)本发明的步态规划器中,模型预观测控制(MPC)理论和零力矩点理论(ZMP)的构成了在线双足步态轨迹生成算法,可用于生成满足双足步行稳定要求的机器人质心(COM)轨迹和左右脚轨迹;
(5)本发明的关节轨迹规划器中,融合了动力学过滤器及神经网络的机器人关节轨迹规划算法,可用于补偿步态规划器中的动力学建模误差带来的行走稳定性影响;建立了人机耦合11杆动力学模型,并利用该模型计算的零力矩点理论(ZMP)位置误差与模型预观测理论相结合用作动力学过滤器作用,用于生成步态轨迹中质心位置的补偿量,进而补偿步态规划层中采用小车-桌子简化模型所带来的建模误差影响;建立了“质心位置—腰部中心位置”的映射神经网络,用于将步态规划层输出的质心位置映射为机器人运动学模型所需要的腰部中心位置,解决了难以利用传统建模手段获得从机器人质心位置求得机器人腰部中心位置的难题。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
参照图1所示,本说明书实施例一提供的一种机器人的轨迹规划系统的结构示意图,优选的为一种面向自平衡下肢外骨骼机器人的多层次轨迹规划系统,所述轨迹规划系统采用三层规划器,分别为:路径规划器、步态规划器和关节轨迹规划器。
其中,所述轨迹规划系统所面向的使用环境为穿戴者自平衡外骨骼机器人的患者行走在包含静态障碍物和动态障碍物的日常环境,输入为利用传感器从环境中获取环境点云图以及通过人机交互接口获取机器人目的地信息;
其中,所述路径规划器获取机器人目的地信息和环境点云图信息,机器人目的地信息和环境点云图信息被预处理并导入到所述路径规划器中训练好的深度强化学习智能体中,生成从机器人当前位置到目的位置的避障路径与步态周期,从而构成区分左右脚的离散落脚点序列;
所述路径规划器采用基于深度强化学习算法的在线实时路径规划算法,所述路径规划器融入了外骨骼运动学约束和人工势场理论,可以获得快速收敛的深度强化学习策略网络,用于在动态环境中生成满足步行安全稳定要求、符合人类行走思维、且能顺利避障的机器人双足落脚点路径。
其中,所述步态规划器接收到来自所述路径规划器的落脚点序列和步态周期,落脚点序列被所述步态规划器看作未来若干个步态周期的零力矩点(ZMP)参考值,根据零力矩点(ZMP)理论和预观测控制理论(MPC)生成机器人质心(COM)轨迹。同时,在每个落脚点之间利用多次样条曲线拟合出左脚轨迹和右脚轨迹。所述步态规划器的最终输出为机器人质心(COM)、左脚轨迹、右脚轨迹以及经过重采样后的落脚点序列;
所述步态规划器采用基于模型预观测控制(MPC)理论和零力矩点(ZMP)理论的在线双足步态轨迹生成算法,用于生成满足双足步行稳定要求的机器人质心(COM)轨迹和左右脚轨迹;
其中,所述关节轨迹规划器接收来自步态规划器的机器人质心(COM)轨迹、左脚轨迹、右脚轨迹和落脚点序列。关节轨迹规划器利用“质心位置—腰部中心位置”的神经网络(CWNN),将机器人质心(COM)轨迹、左脚轨迹、右脚轨迹转换为机器人腰部中心位置,利用模型预观测控制(MPC)理论和人机耦合11杆动力学模型求得补偿动力学建模误差后的修正机器人质心(COM)轨迹,利用神经网络(CWNN)和机器人运动学逆解模型求得驱动机器人所需要的关节轨迹。
所述关节轨迹规划器融合了动力学过滤器及神经网络(CWNN)的机器人关节轨迹规划算法,用于补偿步态规划器中的动力学建模误差带来的行走稳定性影响,并利用神经网络(CWNN)将机器人质心(COM)轨迹映射为机器人腰部轨迹,结合机器人运动学模型求得驱动机器人所需要的关节轨迹;
进一步地,所述轨迹规划系统输入为利用传感器从环境中获取环境点云图M(如公式5.2所示)以及通过人机交互接口获取机器人目的地信息Ptar(如公
式5.1所示)。
其中,Ptarx、Ptary为目标位置在地图坐标中的X、Y位置,θtar为机器人相对当前位置的偏转方向。
其中
是环境点云图M坐标中的第(i,j)元素的X,Y,Z位置。
进一步地,参照图2所示,所述路径规划器获取到机器人目的地信息Ptar和环境点云图信息M,这些信息被预处理并导入到路径规划器中训练好的深度强化学习智能体中,生成从机器人当前位置到目的位置的避障路径Pnzp与步态周期Tgait,避障路径Pnzp为区分左右脚的离散落脚点序列;
进一步地,参照图3所示,所述步态规划器的输入为来自路径规划器的落脚点序列Pnzp和步态周期Tgait,落脚点序列被所述步态规划器看作未来若干个步态周期的零力矩点(ZMP)参考值。采样周期Δt由控制系统的伺服周期决定。所述步态规划器的最终输出为机器人质心(COM)Pcom(如式5.3所示)、左脚轨迹Plf(如式5.4所示)、右脚轨迹Prf(如式5.5所示)以及经过重采样后的落脚点序列Pnzp。
参照图4a-4b所示,当机器人以单腿站立在第i个规划的落脚点
时,即第i个ZMP参考位置
它的动力学模型简化为空间三维小车-桌子模型,即机器人所有重量集中在小车中心处,假定机器人的机器人质心(COM)的高度为H
C,则质心位置P
comk=(x
k,y
k)为k时刻的质心位置向量,则Nt个时刻的质心位置P
comk组成的质心位置序列组成机器人质心(COM)P
com,质心位置P
comk与规划落脚点位置(即ZMP位置)P
k=(P
xk,P
yk)的关系可以用式5.6所计算。
C=[1,0,-Hc/g]
其中,
其中,rx
k和ry
k分别为k时刻质心在x方向和y方向的位置、速度、加速度组成的三维向量,
g为重力常数。
所述路径规划器的落脚点序列P
nzp被以采样周期Δt重采样为
NL个规划落脚点位置
被作为未来参考ZMP点位置输入到一个先进先出缓存器里,利用预观测控制器理论可以求得sx
k和sy
k,其中,
为质心在x方向的加速度的导数,
为质心在y方向的加速度的导数,如式5.7所示。
此式中,
K
e,K
r,K
Pj为设定的增益系数。因而通过式5.6和式5.7来求得质心位置P
comk。
如果第i个规划的落脚点
为为左脚的落脚点,则
和
均为左脚的落脚点,而
和
均为右脚的落脚点。
和
之间的左脚轨迹用式5.8来拟合,同理
和
之间的右脚轨迹用式5.9来拟合。
上两式中,A0→A5为多项式系数矩阵。
所述关节轨迹规划器接收来自步态规划器的机器人质心(COM)P
com、左脚轨迹P
lf、右脚轨迹P
rf和落脚点序列P
nzp。关节轨迹规划器利用一个“质心位置—腰部中心位置”的神经网络(CWNN),将P
com、P
lf、P
rf转换为机器人腰部中心位置P
w,然后利用模型预观测控制(MPC)理论和人机耦合11杆动力学模型求得补偿动力学建模误差后的修正的机器人质心(COM)轨迹
最后再利用神经网络(CWNN)和机器人运动学逆解模型求得驱动机器人所需要的关节轨迹θ
joint。
进一步地,参照图5所示,所述关节轨迹规划器的输入为来自步态规划器的机器人质心(COM)轨迹Pcom、左脚轨迹Plf、右脚轨迹Prf以及经过重采样后的落脚点序列Pnzp。所述关节轨迹规划器的输出为外骨骼机器人的关节轨迹指令θjoint,如式5.10所示。
θjoint=[θ1,…,θj,…,θ10]T (5.10)
其中,输入的机器人质心(COM)P
com、左脚轨迹P
lf、右脚轨迹P
rf一方面被存入先入先出缓存器A中,参照图6a所示,另一方面机器人质心(COM)P
com、左脚轨迹P
lf、右脚轨迹P
rf被输入预先训练好的“质心位置—腰部中心位置”映射神经网络(CWNN)中,求得腰部中心位置轨迹P
w、左脚轨迹P
lf、右脚轨迹P
rf,利用机器人运动学逆解模型,求得规划的关节位置序列θ
joint,利用数值解法求得关节速度序列
和加速度序列
通过机器人运动学正解模型求得机器人各个连杆的位置序列P
links,速度序列V
links以及加速度序列A
links,利用建立的人机耦合11杆动力学模型,求得各个连杆的动量序列Mo和角动量序列L,求得连杆的动量导数序列
和角动量导数序列
得到这些变量值后,真实的ZMP值
通过式5.11求得。真实的ZMP值
与规划的ZMP值P
nzp之间的差值ΔP
zp通过式5.12求得,这些ZMP差值存入先进先出缓存器B中。利用缓存器B中的NL个ZMP差值
利用模型预观测控制器理论求得用于补偿动力学建模误差的机器人质心(COM)轨迹修正值
修正后的机器人质心(COM)
通过式5.13求得。将修正后的机器人质心(COM)轨迹值
与存入先入先出缓存器A的左脚轨迹
与右脚轨迹
输入至神经网络(CWNN)中,求得修正后的腰部位置值
将
输入值机器人运动学逆解模型中,求得用于驱动机器人的关节轨迹指令θ
joint。
此式中,mall为人机系统的总质量,Pnzpz为落脚点的离地间隙高度。
参照图6a所示,上述过程中所提到的“质心位置—腰部中心位置”神经网络(CWNN)的输入为机器人质心(COM)位置与左脚位置的差值Pcl、机器人质心(COM)位置与右脚位置的差值Pcr、左脚位置与右脚位置的差值Plr,神经网络(CWNN)的输出为质心位置与腰部中心位置的差值Pwc。参照图6b所示,神经网络(CWNN)的网络结构含有三个隐藏层,每个隐藏层的节点均为128个,两层之间使用Relu激活函数。
实施例二
本说明书实施例二提供的一种机器人的轨迹规划方法,优选的为一种面向自平衡下肢外骨骼机器人的多层次轨迹规划方法,包括如下步骤:
步骤100、信息输入,轨迹规划所面向的使用环境为穿戴者自平衡外骨骼机器人的患者行走在包含静态障碍物和动态障碍物的日常环境,输入为利用传感器从环境中获取环境点云图以及通过人机交互接口获取机器人目的地信息。
步骤200、路径规划,机器人目的地信息和环境点云图信息被预处理并导入到路径规划器中训练好的深度强化学习智能体中,生成从机器人当前位置到目的位置的避障路径与步态周期,从而构成区分左右脚的离散落脚点序列;
路径规划采用基于深度强化学习算法的在线实时路径规划算法,路径规划融入了外骨骼运动学约束和人工势场理论,可以获得快速收敛的深度强化学习策略网络,用于在动态环境中生成满足步行安全稳定要求、符合人类行走思维、且能顺利避障的机器人双足落脚点路径。
步骤300、步态规划,接收到来自落脚点序列和步态周期,落脚点序列看作未来若干个步态周期的零力矩点(ZMP)参考值,根据零力矩点(ZMP)理论和预观测控制理论(MPC)生成机器人质心(COM)轨迹。同时,在每个落脚点之间利用多次样条曲线拟合出左脚轨迹和右脚轨迹,最终输出为机器人质心(COM)、左脚轨迹、右脚轨迹以及经过重采样后的落脚点序列;
步态规划采用基于模型预观测控制(MPC)理论和零力矩点(ZMP)理论的在线双足步态轨迹生成算法,用于生成满足双足步行稳定要求的机器人质心(COM)轨迹和左右脚轨迹。
步骤400、关节轨迹规划,接收来自步态规划的机器人质心(COM)、左脚轨迹、右脚轨迹和落脚点序列,利用“质心位置—腰部中心位置”的神经网络(CWNN),将机器人质心(COM)、左脚轨迹、右脚轨迹转换为机器人腰部中心位置,利用模型预观测控制(MPC)理论和人机耦合11杆动力学模型求得补偿动力学建模误差后的修正机器人质心(COM),利用神经网络(CWNN)和机器人运动学逆解模型求得驱动机器人所需要的关节轨迹。
关节轨迹规划融合了动力学过滤器及神经网络(CWNN)的机器人关节轨迹规划算法,用于补偿步态规划器中的动力学建模误差带来的行走稳定性影响,并利用神经网络(CWNN)将机器人质心(COM)轨迹映射为机器人腰部轨迹,结合机器人运动学模型求得驱动机器人所需要的关节轨迹;
进一步地,所述步骤100具体为:利用传感器从环境中获取环境点云图M(如公式5.2所示)以及通过人机交互接口获取机器人目的地信息Ptar(如公式5.1所示)。
其中,Ptarx、Ptary为目标位置在地图坐标中的X、Y位置,θtar为机器人相对当前位置的偏转方向。
其中
是环境点云图M坐标中的第(i,j)元素的X,Y,Z位置。
进一步地,所述步骤200具体为:
机器人目的地信息Ptar和环境点云图信息M被预处理并导入到路径规划器中训练好的深度强化学习智能体中,生成从机器人当前位置到目的位置的避障路径Pnzp与步态周期Tgait,避障路径Pnzp为区分左右脚的离散落脚点序列;
进一步地,所述步骤300具体为:
步骤310、输入为来自路径规划器的落脚点序列Pnzp和步态周期Tgait,落脚点序列Pnzp被看作未来若干个步态周期的零力矩点(ZMP)参考值;
步骤320、控制系统伺服周期决定采样周期Δt;
步骤330、输出为机器人质心(COM)Pcom(如式5.3所示)、左脚轨迹Plf(如
式5.4所示)、右脚轨迹P
rf(如式5.5所示)以及经过重采样后的落脚点序列
其中,所述步骤330中的机器人质心(COM)Pcom求解具体为:
参照图4a-4b所示,当机器人以单腿站立在第i个规划的落脚点
时,即第i个ZMP参考位置
它的动力学模型简化为空间三维小车-桌子模型,即机器人所有重量集中在小车中心处,假定机器人的机器人质心(COM)的高度为H
C,则质心位置P
comk=(x
k,y
k)为k时刻的质心位置向量,则Nt个时刻的质心位置P
comk组成的质心位置序列组成机器人质心(COM)P
com,质心位置P
comk与规划落脚点位置(即ZMP位置)P
k=(P
xk,P
yk)的关系可以用式5.6所计算。
C=[1,0,-Hc/g]
其中,
其中,rx
k和ry
k分别为k时刻质心在x方向和y方向的位置、速度、加速度组成的三维向量,
g为重力常数。
所述路径规划器的落脚点序列P
nzp被以采样周期Δt重采样为
NL个规划落脚点位置
被作为未来参考ZMP点位置输入到一个先进先出缓存器里,利用预观测控制器理论可以求得sx
k和sy
k,其中,
为质心在x方向的加速度的导数,
为质心在y方向的加速度的导数,如式5.7所示。
此式中,
K
e,K
r,K
Pj为设定的增益系数。因而通过式5.6和式5.7来求得质心位置P
comk。
其中,所述步骤330中的左脚轨迹Plf和右脚轨迹Prf的求解具体为:
如果第i个规划的落脚点
为为左脚的落脚点,则
和
均为左脚的落脚点,而
和
均为右脚的落脚点。
和
之间的左脚轨迹用式5.8来拟合,同理
和
之间的右脚轨迹用式5.9来拟合。
上两式中,A0→A5为多项式系数矩阵。
进一步地,所述步骤400具体为:
步骤401、参照图5所示,输入的机器人质心(COM)Pcom、左脚轨迹Plf、右脚轨迹Prf一方面被存入先入先出缓存器A中,另一方面机器人质心(COM)Pcom、左脚轨迹Plf、右脚轨迹Prf被输入预先训练好的“质心位置—腰部中心位置”映射神经网络(CWNN)中,求得腰部中心位置轨迹Pw、左脚轨迹Plf、右脚轨迹Prf;
步骤402、利用机器人运动学逆解模型,求得规划的关节位置序列θjoint;
步骤403、利用数值解法求得关节速度序列
和加速度序列
步骤404、通过机器人运动学正解模型求得机器人各个连杆的位置序列Plinks、速度序列Vlinks以及加速度序列Alinks;
步骤405、利用建立的人机耦合11杆动力学模型,求得各个连杆的动量序列Mo和角动量序列L,求得连杆的动量导数序列
和角动量导数序列
步骤406、通过式5.11求得真实的零力矩点(ZMP)值
通过式5.12求得真实的零力矩点(ZMP)值
与规划的零力矩点(ZMP)值P
nzp之间的差值ΔP
zp;
式中,mall为人机系统的总质量,Pnzpz为落脚点的离地间隙高度;
步骤407、差值ΔPzp存入先进先出缓存器B中;
步骤408、利用缓存器B中的NL个零力矩点(ZMP)差值
根据模型预观测控制器理论求得用于补偿动力学建模误差的机器人质心(COM)轨迹修正值
修正后的机器人质心(COM)
通过式5.13求得;
步骤409、将修正后的机器人质心(COM)值
与存入先入先出缓存器A的左脚轨迹
与右脚轨迹
输入至神经网络(CWNN)中,求得修正后的腰部位置值
步骤410、将
输入值机器人运动学逆解模型中,求得用于驱动机器人的关节轨迹指令θ
joint。
其中,所述步骤400中,参照图6a所示,的“质心位置—腰部中心位置”神经网络(CWNN)的输入为机器人质心(COM)位置与左脚位置的差值Pcl、机器人质心(COM)位置与右脚位置的差值Pcr、左脚位置与右脚位置的差值Plr,神经网络(CWNN)的输出为质心位置与腰部中心位置的差值Pwc。参照图6b所示,神经网络(CWNN)的网络结构含有三个隐藏层,每个隐藏层的节点均为128个,两层之间使用Relu激活函数。
此外,参照图7a所示的多层轨迹规划算法的路径规划层输出的落脚点路径,结果表明该路径可以顺利抵达目的地区域(图7a中的圆圈),并且以自然的曲度绕开了所有障碍物;参照图7b所示的步态规划层输出的步态轨迹以及经关节轨迹规划层校正后的步态轨迹,结果表明经关节轨迹规划层校正后,质心与腰部位置轨迹曲线变得更加光滑;参照图7c所示的关节轨迹规划层输出的关节位置轨迹,该结果表明关节轨迹曲线足够光滑,能保证机器人运动的顺滑性。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、笔记本电脑、行动电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。