CN107856035A - 一种基于强化学习和全身控制器的鲁棒性动态运动方法 - Google Patents
一种基于强化学习和全身控制器的鲁棒性动态运动方法 Download PDFInfo
- Publication number
- CN107856035A CN107856035A CN201711075790.XA CN201711075790A CN107856035A CN 107856035 A CN107856035 A CN 107856035A CN 201711075790 A CN201711075790 A CN 201711075790A CN 107856035 A CN107856035 A CN 107856035A
- Authority
- CN
- China
- Prior art keywords
- com
- walking
- acceleration
- task
- vertex
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000001133 acceleration Effects 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000006243 chemical reaction Methods 0.000 claims abstract description 19
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 230000002787 reinforcement Effects 0.000 claims description 39
- 230000006399 behavior Effects 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000010587 phase diagram Methods 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims 1
- 230000036544 posture Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 230000004075 alteration Effects 0.000 description 3
- 231100000136 action limit Toxicity 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000747 cardiac effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
Abstract
本发明提出了一种基于强化学习和全身控制器的鲁棒性动态运动方法,设计了一个围绕相空间规划框架(PSP)的一个强化学习过程,利用PSP固有的定向行走约束简化模型,进行相空间规划、强化学习问题以及学习策略评价,同时采用全身动态控制器,在运算空间中作为加速度指令计算,利用微分正运动将其转换为关节加速度,根据加速度优化非驱动机器人的反作用力,可同时计算位置或时间为输出的两个参数,可产生多种步行走模式,过程速度适用于实时控制。本发明提出了由一个动态运动计划程序,一种鲁棒性的强化学习过程,和一个新型全身运动控制器构成的一种鲁棒动态步行控制器,实现较高的计算效率并获得优异的鲁棒性。
Description
技术领域
本发明涉及机器人动态运动领域,尤其是涉及了一种基于强化学习和全身控制器的鲁棒 性动态运动方法。
背景技术
移动能力是机器人的一项重要性能指标,是近年来机器人研究领域的热点之一,涉及了 计算机视觉、作业规划、路径规划、静态和动态步行控制等诸多方面,常用于智能家居、智 能交通、医疗、军用以及工业等前瞻性领域,在为人类设计的环境中进行服务,在危险环境 中代替人类进行工作,在一定程度上代替人类并服务于人类,对人类工作生活发展具有重要 意义,但是由于机器人关节众多,活动点过多,系统涉及的领域较多,使得动态步行控制的 难度很大。现有的机器人动态运动规划研究在量化鲁棒性方面一直表现不佳,而且计算效率 低,限制了机器人动态步行控制的应用。此外,基于相空间规划动力学和强化学习的三维全 身的仿人动态步行至今尚未研究。
本发明提出了一种基于强化学习和全身控制器的鲁棒性动态运动方法,设计了一个围绕 相空间规划框架(PSP)的一个强化学习过程,利用PSP固有的定向行走约束简化模型,进 行相空间规划、强化学习问题以及学习策略评价,同时采用全身动态控制器,在运算空间中 作为加速度指令计算,利用微分正运动将其转换为关节加速度,根据加速度优化非驱动机器 人的反作用力,可同时计算位置或时间为输出的两个参数,可产生多种步行走模式,过程速 度适用于实时控制。本发明提出了由一个动态运动计划程序,一种鲁棒性的强化学习过程, 和一个新型全身运动控制器构成的一种鲁棒动态步行控制器,实现较高的计算效率并获得优 异的鲁棒性。
发明内容
针对计算效率低以及鲁棒性不高的问题,本发明提出了由一个动态运动计划程序,一种 鲁棒性的强化学习过程,和一个新型全身运动控制器构成的一种鲁棒动态步行控制器,实现 较高的计算效率并获得优异的鲁棒性。
为解决上述问题,本发明提供一种基于强化学习和全身控制器的鲁棒性动态运动方法, 其主要内容包括:
基于强化学习的相空间规划方法(一);
全身的动态控制(二)。
其中,所述的基于强化学习的相空间规划方法(一),设计了一个围绕相空间规划框架 (PSP)的一个强化学习过程,利用PSP固有的定向行走约束简化模型,利用简化模型产生有 效步长切换信息,运动的组成部分(CoM)的矢状面和基于棱形倒立摆模型动态的侧向相图的多个步行步骤的相位图中,在矢状面上,路径包括连接的抛物线,在正面,行走路线依据 一个封闭的循环半周期的抛物线,将x代表矢状面,y代表正面,相空间规划方法主要包括相 空间规划、强化学习问题以及学习策略评价。
进一步地,所述的相空间规划,引导步进规划生成器,查找CoM路径的给定位置和时间 作为输入信息,给定矢状脚位置和心尖速,PSP获取步骤切换时间和横向脚位置,顶点状态 是矢状面CoM速度最小时的状态,连接到站立脚的局部框架上的矢状面CoM位置为零的状态, 机器人当前的CoM的状态和下一个的顶点状态之间进行转换状态,切换时间和顶点时间,计 时是用来寻找下一个外侧脚位置py,2,假如是一个正数,由此产生的运动轨迹 是直线前进的,对算法进行简单的修改,允许动态地引导两足动物向任何方向行走,需要转 向移动方向时,重新初始化本地边框的方向为新的方向,并将当前状态投射到新的边框中, 原本PSP算法是通过数值积分设计运动轨迹,为了达到一定的算法速度,假定CoM的高度是 线性的,提供一个初始的CoM状态和一个目标状态PSP发现下一步的位 置和时间行走方向用顶点速度表示,通过减少学习状态变量 的维数,PSP算法可提升强化学习问题的解决效率。
进一步地,所述的强化学习问题,行走方法的核心部分通过强化学习来实现鲁棒性,使 用可追踪策略梯度值函数的计算方法,定义s为CoM的顶点值,xapex在局部中被视为0,s并不包含变量xapex,设定动作为PSP过程的参数 输入,转换函数T(s,a)计算下一个顶点值s′和瞬时反馈值,转换函数包含两个阶段:1)通过PSP 寻找步时和位置值;2)通过线性倒立摆模型的解析计算下一个顶点状态。
进一步地,所述的两个阶段,第一个阶段允许通过当前的顶点状态寻找Tswitch,Tapex和py, 第二阶段,使用CoM动态分析方案寻找下一个顶点值,网络使用由CoM顶点状态组成的三维 输入向量:
隐藏层由偏置项和在沿输入三维网格中心间距2cm的18×30×56的高斯函数组成,决策函 数由径向基函数(RBF)神经网络组成,基于随机评价选择动作,考虑所需的步行速度和步 长限制,RBF神经网络的输出手段和截断正态分布的标准偏差π(a|s,θ),分布的范围如下:
网络的输出通过θ进行线性加权,寻找最小化的权重θ,瞬时反馈值由前进速度误差和横 向步长误差定义:
设定目标学习过程是实现恢复性行为,保持直线前进的方向,同时保持横向方 向步长,选择和顶点和动作状态选择截断分布,反馈来自转 换函数,如果下一个预测的顶点状态产生终端条件,则转换函数给出一个负反馈-5.0,进程终 止并开始一个新的迭代,安全条件集(即与终端条件相反)是以下条件的交集:
上式反映了机器人摆动腿和横向步长的能力,没有包含矢状步长度的条件,因为在可允 许的作用范围限定内,当学习策略的变化变得足够小(设定为<0.07个点),学习过程结束。
进一步地,所述的学习策略评价,随着循环次数的增加,基于强化学习的规划程序的性 能也随之增加,通过观察不同CoM状态下机器人的姿态,最终选择标称顶点态为根据各种外力和方向模拟CoM的推干扰,使用最终学习策略的平均值,经过多次循环后获得学习策略及其对行走模式的增强。
其中,所述的全身动态控制(二),全身运动控制使用层次结构的加速度同时采用二次 规划确定的接触力,主要包括基于加速的层次结构和优化非驱动机器人的反作用力两部分。
进一步地,所述的基于加速的层次结构,任务控制器在运算空间中作为加速度指令计算, 利用微分正运动将其转换为关节加速度,
其中和分别代表任务的操作坐标和关节位置,J是相应的雅可比矩阵,任务 联合加速度计算为:
这里表示J1动态一致的逆向,
其中,表示机器人刚体模型的质量/惯性矩阵,考虑两个任务的映射和提出以下层次映射:
其中,代表与第二个任务关联的雅可比,J2是投影到第一个任务的零空间, 与第一个任务J1相关的雅可比正交,等式(8)使用下面的层次结构扩展到一 般的(n≥2)任务情况:
其中:
此方法更简明,用于控制规范的结果所需的计算较少,不需要预先计算雅可比矩阵导数。
进一步地,所述的优化非驱动机器人的反作用力,基于公式(9)给定的关节加速度,全身 动态控制通过以下方程获得转矩命令:
其中,和g(q)分别代表联合空间的科里奥利/离心和重力项,Fr和Jr代表 反作用力和相应的雅可比矩阵的接触力,和代表执行器扭矩指令和浮动 基座动力学的矩阵映射驱动力矩,为:
Nn|prec(n)=Nprec(n)Nn|n-1 (13)
其中,是剩余的加速命令。
进一步地,所述的反作用力,为了找到反作用力Fr,指定一个质心动量操作任务,包括 线性和角动量的部分,对应机器人的CoM行为的线性部分,Fcm,lin用于运动规划,另一方面, 角度行为Fcm,ang通常设置为零值,将角任务设置为零会与其他任务如身体转动任务产生冲突, 将角度行为作为一个低优先级任务,有时不可能同时满足线性和角动量规范,特定的CoM行 为作为一个硬约束,同时释放角行为:
其中,和为质心动量操作中所需的直线和角度,μ表示与接触表面有关的摩 擦系数,Q是一个加权矩阵,Wang和Wlin是角动量和线性行为反作用力的映射,基于优化的Fr结果,角度行为任务中所需的值可通过下方的算法计算:
其中,Icm是一个空间惯性项,所需的角度行为可能违反摩擦约束,WangFr可能和不同,质心动量操作加速命令用于控制器层次,其中括号中的第一个 术语是需要的CoM加速指令,第二个术语是需要的角度加速指令,在算式(9)中,两种命令分 开使用产生联合加速指令在算式(12)中产生代入公式(11),可获得:
可以写为矩阵模式:
其中,
通过伪逆运算解出:
其中(.)+代表Moore-Penrose伪逆运算。
附图说明
图1是本发明一种基于强化学习和全身控制器的鲁棒性动态运动方法的系统框架图。
图2是本发明一种基于强化学习和全身控制器的鲁棒性动态运动方法的PIPM和CoM的 相位图。
图3是本发明一种基于强化学习和全身控制器的鲁棒性动态运动方法的相位空间规划 (PSP)图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合, 下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于强化学习和全身控制器的鲁棒性动态运动方法的系统框架图。主要 包括基于强化学习的相空间规划方法和全身的动态控制。
基于强化学习的相空间规划方法(一),设计了一个围绕相空间规划框架(PSP)的一 个强化学习过程,利用PSP固有的定向行走约束简化模型,利用简化模型产生有效步长切换 信息,相空间规划方法主要包括相空间规划、强化学习问题以及学习策略评价。
相空间规划,引导步进规划生成器,查找CoM路径的给定位置和时间作为输入信息。
强化学习问题,行走方法的核心部分通过强化学习来实现鲁棒性,使用可追踪策略梯度 值函数的计算方法,定义s为CoM的顶点值,xapex在局部中被视为0, s并不包含变量xapex,设定动作为PSP过程的参数输入,转换函数 T(s,a)计算下一个顶点值s′和瞬时反馈值,转换函数包含两个阶段:1)通过PSP寻找步时和位 置值;2)通过线性倒立摆模型的解析计算下一个顶点状态。
第一个阶段允许通过当前的顶点状态寻找Tswitch,Tapex和py,第二阶段,使用CoM动态 分析方案寻找下一个顶点值,网络使用由CoM顶点状态组成的三维输入向量:
隐藏层由偏置项和在沿输入三维网格中心间距2cm的18×30×56的高斯函数组成,决策函 数由径向基函数(RBF)神经网络组成,基于随机评价选择动作,考虑所需的步行速度和步 长限制,RBF神经网络的输出手段和截断正态分布的标准偏差π(a|s,θ),分布的范围如下:
网络的输出通过θ进行线性加权,寻找最小化的权重θ,瞬时反馈值由前进速度误差和横 向步长误差定义:
设定目标学习过程是实现恢复性行为,保持直线前进的方向,同时保持横向方 向步长,选择和顶点和动作状态选择截断分布,反馈来自转 换函数,如果下一个预测的顶点状态产生终端条件,则转换函数给出一个负反馈-5.0,进程终 止并开始一个新的迭代,安全条件集(即与终端条件相反)是以下条件的交集:
上式反映了机器人摆动腿和横向步长的能力,没有包含矢状步长度的条件,因为在可允 许的作用范围限定内,当学习策略的变化变得足够小(设定为<0.07个点),学习过程结束。
学习策略评价,随着循环次数的增加,基于强化学习的规划程序的性能也随之增加,通 过观察不同CoM状态下机器人的姿态,最终选择标称顶点态为 根据各种外力和方向模拟CoM的推干扰,使用最终学习策略的平均值,经过多次循环后获得学习策略及其对行走模式的增强。
全身动态控制,使用层次结构的加速度同时采用二次规划确定的接触力,主要包括基于 加速的层次结构和优化非驱动机器人的反作用力两部分。
基于加速的层次结构,任务控制器在运算空间中作为加速度指令计算,利用微分正运动 将其转换为关节加速度,
其中和分别代表任务的操作坐标和关节位置,J是相应的雅可比矩阵,任务 联合加速度计算为:
这里表示J1动态一致的逆向,
其中,表示机器人刚体模型的质量/惯性矩阵,考虑两个任务的映射和提出以下层次映射:
其中,代表与第二个任务关联的雅可比,J2是投影到第一个任务的零空间, 与第一个任务J1相关的雅可比正交,等式(8)使用下面的层次结构扩展到一 般的(n≥2)任务情况:
其中:
此方法更简明,用于控制规范的结果所需的计算较少,不需要预先计算雅可比矩阵导数。
优化非驱动机器人的反作用力,基于公式(9)给定的关节加速度,全身动态控制通过以下 方程获得转矩命令:
其中,和g(q)分别代表联合空间的科里奥利/离心和重力项,Fr和Jr代表 反作用力和相应的雅可比矩阵的接触力,和代表执行器扭矩指令和浮动 基座动力学的矩阵映射驱动力矩,为:
Nn|prec(n)=Nprec(n)Nn|n-1 (13)
其中,是剩余的加速命令。
为了找到反作用力Fr,指定一个质心动量操作任务,包括线性和角动量的部分,对应机 器人的CoM行为的线性部分,Fcm,lin用于运动规划,另一方面,角度行为Fcm,ang通常设置为 零值,将角任务设置为零会与其他任务如身体转动任务产生冲突,将角度行为作为一个低优 先级任务,有时不可能同时满足线性和角动量规范,特定的CoM行为作为一个硬约束,同时 释放角行为:
其中,和为质心动量操作中所需的直线和角度,μ表示与接触表面有关的摩 擦系数,Q是一个加权矩阵,Wang和Wlin是角动量和线性行为反作用力的映射,基于优化的Fr结果,角度行为任务中所需的值可通过下方的算法计算:
其中,Icm是一个空间惯性项,所需的角度行为可能违反摩擦约束,WangFr可能和不同,质心动量操作加速命令用于控制器层次,其中括号中的第一个 术语是需要的CoM加速指令,第二个术语是需要的角度加速指令,在算式(9)中,两种命令分 开使用产生联合加速指令在算式(12)中产生代入公式(11),可获得:
可以写为矩阵模式:
其中,
通过伪逆运算解出:
其中(.)+代表Moore-Penrose伪逆运算。
图2是本发明一种基于强化学习和全身控制器的鲁棒性动态运动方法的PIPM和CoM的 相位图。显示了运动的组成部分(CoM)的矢状面和基于棱形倒立摆模型动态的侧向相图的 多个步行步骤的相位图,在矢状面上,路径包括连接的抛物线,在正面,行走路线依据一个 封闭的循环半周期的抛物线,将x代表矢状面,y代表正面。
图3是本发明一种基于强化学习和全身控制器的鲁棒性动态运动方法的相位空间规划 (PSP)图。给定矢状脚位置和心尖速度,PSP获取步骤切换时间和横向脚位置,顶点状态是 矢状面CoM速度最小时的状态,连接到站立脚的局部框架上的矢状面CoM位置为零的状态, 图3(a)中,机器人当前的CoM的状态和下一个的顶点状态之间进行转换状态,切换时间和顶 点时间,计时是用来寻找下一个外侧脚位置py,2,假如是一个正数,由此产生 的运动轨迹是直线前进的,对算法进行简单的修改,允许动态地引导两足动物向任何方向行 走,图3(b)中,需要转向移动方向时,重新初始化本地边框的方向为新的方向,并将当前状 态投射到新的边框中,原本PSP算法是通过数值积分设计运动轨迹,为了达到一定的算法速 度,假定CoM的高度是线性的,提供一个初始的CoM状态和一个目标状态 PSP发现下一步的位置和时间[py,tswitch]T,行走方向用顶点速度表示,通过 减少学习状态变量的维数,PSP算法可提升强化学习问题的解决效率。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范 围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行 各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。 因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于强化学习和全身控制器的鲁棒性动态运动方法,其特征在于,主要包括基于强化学习的相空间规划方法(一);全身的动态控制(二)。
2.基于权利要求书1所述的基于强化学习的相空间规划方法(一),其特征在于,设计了一个围绕相空间规划框架(PSP)的一个强化学习过程,利用PSP固有的定向行走约束简化模型,利用简化模型产生有效步长切换信息,运动的组成部分(CoM)的矢状面和基于棱形倒立摆模型动态的侧向相图的多个步行步骤的相位图中,在矢状面上,路径包括连接的抛物线,在正面,行走路线依据一个封闭的循环半周期的抛物线,将x代表矢状面,y代表正面,相空间规划方法主要包括相空间规划、强化学习问题以及学习策略评价。
3.基于权利要求书2所述的相空间规划,其特征在于,引导步进规划生成器,查找CoM路径的给定位置和时间作为输入信息,给定矢状脚位置和心尖速,PSP获取步骤切换时间和横向脚位置,顶点状态是矢状面CoM速度最小时的状态,连接到站立脚的局部框架上的矢状面CoM位置为零的状态,机器人当前的CoM的状态和下一个的顶点状态之间进行转换状态,切换时间和顶点时间,计时是用来寻找下一个外侧脚位置py,2,假如是一个正数, 由此产生的运动轨迹是直线前进的,对算法进行简单的修改,允许动态地引导两足动物向任何方向行走,需要转向移动方向时,重新初始化本地边框的方向为新的方向,并将当前状态投射到新的边框中,原本PSP算法是通过数值积分设计运动轨迹,为了达到一定的算法速度,假定CoM的高度是线性的,提供一个初始的CoM状态和一个目标状态PSP发现下一步的位置和时间[py,tswitch]T,行走方向用顶点速度表示,通过减少学习状态变量的维数,PSP算法可提升强化学习问题的解决效率。
4.基于权利要求书2所述的强化学习问题,其特征在于,行走方法的核心部分通过强化学习来实现鲁棒性,使用可追踪策略梯度值函数的计算方法,定义s为CoM的顶点值, xapex在局部中被视为0,s并不包含变量xapex,设定动作 为PSP过程的参数输入,转换函数T(s,a)计算下一个顶点值s′和瞬时反馈值,转换函数包含两个阶段:1)通过PSP寻找步时和位置值;2)通过线性倒立摆模型的解析计算下一个顶点状态。
5.基于权利要求书4所述的两个阶段,其特征在于,第一个阶段允许通过当前的顶点状态寻找Tswitch,Tapex和py,第二阶段,使用CoM动态分析方案寻找下一个顶点值,网络使用由CoM顶点状态组成的三维输入向量:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<mo>-</mo>
<mn>0.14</mn>
<mo>&le;</mo>
<msub>
<mi>y</mi>
<mrow>
<mi>a</mi>
<mi>p</mi>
<mi>e</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>&le;</mo>
<mn>0.2</mn>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0.03</mn>
<mo>&le;</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mrow>
<mi>a</mi>
<mi>p</mi>
<mi>e</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>&le;</mo>
<mn>0.61</mn>
<mrow>
<mo>(</mo>
<mrow>
<mi>m</mi>
<mo>/</mo>
<mi>s</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>-</mo>
<mn>0.55</mn>
<mo>&le;</mo>
<msub>
<mover>
<mi>y</mi>
<mo>&CenterDot;</mo>
</mover>
<mrow>
<mi>a</mi>
<mi>p</mi>
<mi>e</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>&le;</mo>
<mn>0.55</mn>
<mrow>
<mo>(</mo>
<mrow>
<mi>m</mi>
<mo>/</mo>
<mi>s</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
隐藏层由偏置项和在沿输入三维网格中心间距2cm的18×30×56的高斯函数组成,决策函数由径向基函数(RBF)神经网络组成,基于随机评价选择动作,考虑所需的步行速度和步长限制,RBF神经网络的输出手段和截断正态分布的标准偏差π(a|s,θ),分布的范围如下:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<mn>0.1</mn>
<mo>&le;</mo>
<msub>
<mi>p</mi>
<mi>x</mi>
</msub>
<mo>&le;</mo>
<mn>0.5</mn>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0.03</mn>
<mo>&le;</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mrow>
<mi>a</mi>
<mi>p</mi>
<mi>e</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>&le;</mo>
<mn>0.37</mn>
<mrow>
<mo>(</mo>
<mrow>
<mi>m</mi>
<mo>/</mo>
<mi>s</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>-</mo>
<mn>0.25</mn>
<mo>&le;</mo>
<msub>
<mover>
<mi>y</mi>
<mo>&CenterDot;</mo>
</mover>
<mrow>
<mi>a</mi>
<mi>p</mi>
<mi>e</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>&le;</mo>
<mn>0.25</mn>
<mrow>
<mo>(</mo>
<mrow>
<mi>m</mi>
<mo>/</mo>
<mi>s</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
网络的输出通过θ进行线性加权,寻找最小化的权重θ,瞬时反馈值由前进速度误差和横向步长误差定义:
<mrow>
<mi>R</mi>
<mo>=</mo>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mrow>
<mi>a</mi>
<mi>p</mi>
<mi>e</mi>
<mi>x</mi>
</mrow>
<mrow>
<mi>n</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
</mrow>
</msubsup>
<mo>-</mo>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mrow>
<mi>a</mi>
<mi>p</mi>
<mi>e</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>-</mo>
<mn>15</mn>
<mo>&times;</mo>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>p</mi>
<mi>y</mi>
<mrow>
<mi>n</mi>
<mi>o</mi>
<mi>r</mi>
<mi>m</mi>
</mrow>
</msubsup>
<mo>-</mo>
<msub>
<mi>p</mi>
<mi>y</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>y</mi>
<mo>&CenterDot;</mo>
</mover>
<mrow>
<mi>a</mi>
<mi>p</mi>
<mi>e</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>.</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
设定目标学习过程是实现恢复性行为,保持直线前进的方向,同时保持横向方向步长,选择和顶点和动作状态选择截断分布,反馈来自转换函数,如果下一个预测的顶点状态产生终端条件,则转换函数给出一个负反馈-5.0,进程终止并开始一个新的迭代,安全条件集(即与终端条件相反)是以下条件的交集:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>t</mi>
<mrow>
<mi>a</mi>
<mi>p</mi>
<mi>e</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>></mo>
<mn>0.12</mn>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>t</mi>
<mrow>
<mi>s</mi>
<mi>w</mi>
<mi>i</mi>
<mi>t</mi>
<mi>c</mi>
<mi>h</mi>
</mrow>
</msub>
<mo>></mo>
<mn>0.12</mn>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0.1</mn>
<mo><</mo>
<msub>
<mi>p</mi>
<mi>y</mi>
</msub>
<mo><</mo>
<mn>0.5</mn>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
上式反映了机器人摆动腿和横向步长的能力,没有包含矢状步长度的条件,因为在可允许的作用范围限定内,当学习策略的变化变得足够小(设定为<0.07个点),学习过程结束。
6.基于权利要求书2所述的学习策略评价,其特征在于,随着循环次数的增加,基于强化学习的规划程序的性能也随之增加,通过观察不同CoM状态下机器人的姿态,最终选择标称顶点态为根据各种外力和方向模拟CoM的推干扰,使用最终学习策略的平均值,经过多次循环后获得学习策略及其对行走模式的增强。
7.基于权利要求书1所述的全身动态控制(二),其特征在于,全身运动控制使用层次结构的加速度同时采用二次规划确定的接触力,主要包括基于加速的层次结构和优化非驱动机器人的反作用力两部分。
8.基于权利要求书7所述的基于加速的层次结构,其特征在于,任务控制器在运算空间中作为加速度指令计算,利用微分正运动将其转换为关节加速度,
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mn>1</mn>
</msub>
<mo>=</mo>
<msub>
<mi>J</mi>
<mn>1</mn>
</msub>
<mover>
<mi>q</mi>
<mo>&CenterDot;</mo>
</mover>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mover>
<mi>x</mi>
<mo>&CenterDot;</mo>
</mover>
<mn>1</mn>
</msub>
<mo>=</mo>
<msub>
<mi>J</mi>
<mn>1</mn>
</msub>
<mover>
<mi>q</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mo>+</mo>
<msub>
<mover>
<mi>J</mi>
<mo>&CenterDot;</mo>
</mover>
<mn>1</mn>
</msub>
<mover>
<mi>q</mi>
<mo>&CenterDot;</mo>
</mover>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
其中和分别代表任务的操作坐标和关节位置,J是相应的雅可比矩阵,任务联合加速度计算为:
<mrow>
<msub>
<mover>
<mi>q</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mn>1</mn>
</msub>
<mo>=</mo>
<msub>
<mover>
<mi>J</mi>
<mo>&OverBar;</mo>
</mover>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mover>
<mi>x</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mn>1</mn>
<mi>d</mi>
</msubsup>
<mo>-</mo>
<msub>
<mover>
<mi>J</mi>
<mo>&CenterDot;</mo>
</mover>
<mn>1</mn>
</msub>
<mover>
<mi>q</mi>
<mo>&CenterDot;</mo>
</mover>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mover>
<mi>J</mi>
<mo>&OverBar;</mo>
</mover>
<mn>1</mn>
</msub>
<msubsup>
<mover>
<mi>e</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mn>1</mn>
<mi>d</mi>
</msubsup>
<mo>,</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
这里表示J1动态一致的逆向,
其中,表示机器人刚体模型的质量/惯性矩阵,考虑两个任务的映射和提出以下层次映射:
<mrow>
<mover>
<mi>q</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mo>=</mo>
<msub>
<mover>
<mi>J</mi>
<mo>&OverBar;</mo>
</mover>
<mn>1</mn>
</msub>
<msubsup>
<mover>
<mi>e</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mn>1</mn>
<mi>d</mi>
</msubsup>
<mo>+</mo>
<mover>
<msub>
<mi>J</mi>
<mrow>
<mn>2</mn>
<mo>|</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mo>(</mo>
<msubsup>
<mover>
<mi>e</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mn>2</mn>
<mi>d</mi>
</msubsup>
<mo>-</mo>
<msub>
<mi>J</mi>
<mn>2</mn>
</msub>
<msub>
<mover>
<mi>q</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,代表与第二个任务关联的雅可比,J2是投影到第一个任务的零空间,与第一个任务J1相关的雅可比正交,等式(8)使用下面的层次结构扩展到一般的(n≥2)任务情况:
<mrow>
<msub>
<mover>
<mi>q</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mo>&lsqb;</mo>
<mi>t</mi>
<mi>a</mi>
<mi>s</mi>
<mi>k</mi>
<mo>&rsqb;</mo>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mover>
<mi>J</mi>
<mo>&OverBar;</mo>
</mover>
<mn>1</mn>
</msub>
<msubsup>
<mover>
<mi>e</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mn>1</mn>
<mi>d</mi>
</msubsup>
<mo>+</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>2</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mover>
<mi>q</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mi>k</mi>
</msub>
<mo>,</mo>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>&GreaterEqual;</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
其中:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mover>
<mi>q</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mi>k</mi>
</msub>
<mo>=</mo>
<msub>
<mover>
<mi>J</mi>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mi>k</mi>
<mo>|</mo>
<mi>p</mi>
<mi>r</mi>
<mi>e</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msubsup>
<mover>
<mi>e</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mi>k</mi>
<mi>d</mi>
</msubsup>
<mo>-</mo>
<msub>
<mi>J</mi>
<mi>k</mi>
</msub>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>k</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</munderover>
<msub>
<mover>
<mi>q</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mn>1</mn>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>J</mi>
<mrow>
<mi>k</mi>
<mo>|</mo>
<mi>p</mi>
<mi>r</mi>
<mi>e</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mi>k</mi>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>J</mi>
<mi>k</mi>
</msub>
<msub>
<mi>N</mi>
<mrow>
<mi>p</mi>
<mi>r</mi>
<mi>e</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>N</mi>
<mrow>
<mi>p</mi>
<mi>r</mi>
<mi>e</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<mo>=</mo>
<munderover>
<mi>&Pi;</mi>
<mrow>
<mi>s</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>k</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</munderover>
<msub>
<mi>N</mi>
<mrow>
<mi>s</mi>
<mo>|</mo>
<mi>s</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>,</mo>
<mrow>
<mo>(</mo>
<mrow>
<mi>k</mi>
<mo>&GreaterEqual;</mo>
<mn>2</mn>
<mo>,</mo>
<msub>
<mi>N</mi>
<mrow>
<mn>1</mn>
<mo>|</mo>
<mn>0</mn>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>N</mi>
<mn>1</mn>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>N</mi>
<mrow>
<mi>s</mi>
<mo>|</mo>
<mi>s</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<mi>I</mi>
<mo>-</mo>
<msub>
<mover>
<mi>J</mi>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mi>s</mi>
<mo>|</mo>
<mi>p</mi>
<mi>r</mi>
<mi>e</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<msub>
<mi>J</mi>
<mrow>
<mi>s</mi>
<mo>|</mo>
<mi>p</mi>
<mi>r</mi>
<mi>e</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<mo>,</mo>
<mrow>
<mo>(</mo>
<mrow>
<mi>s</mi>
<mo>&GreaterEqual;</mo>
<mn>2</mn>
</mrow>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
此方法更简明,用于控制规范的结果所需的计算较少,不需要预先计算雅可比矩阵导数。
9.基于权利要求书7所述的优化非驱动机器人的反作用力,其特征在于,基于公式(9)给定的关节加速度,全身动态控制通过以下方程获得转矩命令:
其中,和g(q)分别代表联合空间的科里奥利/离心和重力项,Fr和Jr代表反作用力和相应的雅可比矩阵的接触力,和代表执行器扭矩指令和浮动基座动力学的矩阵映射驱动力矩,为:
<mrow>
<msup>
<mover>
<mi>q</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mi>d</mi>
</msup>
<mo>=</mo>
<msub>
<mover>
<mi>q</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mo>&lsqb;</mo>
<mi>t</mi>
<mi>a</mi>
<mi>s</mi>
<mi>k</mi>
<mo>&rsqb;</mo>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>N</mi>
<mrow>
<mi>n</mi>
<mo>|</mo>
<mi>p</mi>
<mi>r</mi>
<mi>e</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<msub>
<mover>
<mi>q</mi>
<mo>&CenterDot;&CenterDot;</mo>
</mover>
<mrow>
<mi>r</mi>
<mi>e</mi>
<mi>s</mi>
</mrow>
</msub>
<mo>,</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>12</mn>
<mo>)</mo>
</mrow>
</mrow>
Nn|prec(n)=Nprec(n)Nn|n-1 (13)
其中,是剩余的加速命令。
10.基于权利要求书9所述的反作用力,其特征在于,为了找到反作用力Fr,指定一个质心动量操作任务,包括线性和角动量的部分,对应机器人的CoM行为的线性部分,Fcm,lin用于运动规划,另一方面,角度行为Fcm,ang通常设置为零值,将角任务设置为零会与其他任务如身体转动任务产生冲突,将角度行为作为一个低优先级任务,有时不可能同时满足线性和角动量规范,特定的CoM行为作为一个硬约束,同时释放角行为:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<mi>&mu;</mi>
<mo>|</mo>
<msub>
<mi>F</mi>
<mrow>
<mi>r</mi>
<mo>,</mo>
<mi>z</mi>
</mrow>
</msub>
<mo>|</mo>
<mo>&GreaterEqual;</mo>
<mo>|</mo>
<msub>
<mi>F</mi>
<mrow>
<mi>r</mi>
<mo>,</mo>
<mi>x</mi>
</mrow>
</msub>
<mo>|</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>&mu;</mi>
<mo>|</mo>
<msub>
<mi>F</mi>
<mrow>
<mi>r</mi>
<mo>,</mo>
<mi>z</mi>
</mrow>
</msub>
<mo>|</mo>
<mo>&GreaterEqual;</mo>
<mo>|</mo>
<msub>
<mi>F</mi>
<mrow>
<mi>r</mi>
<mo>,</mo>
<mi>y</mi>
</mrow>
</msub>
<mo>|</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msubsup>
<mi>F</mi>
<mrow>
<mi>c</mi>
<mi>m</mi>
<mo>,</mo>
<mi>l</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>d</mi>
</msubsup>
<mo>-</mo>
<msub>
<mi>W</mi>
<mrow>
<mi>l</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
</msub>
<msub>
<mi>F</mi>
<mi>r</mi>
</msub>
<mo>=</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>14</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,和为质心动量操作中所需的直线和角度,μ表示与接触表面有关的摩擦系数,Q是一个加权矩阵,Wang和Wlin是角动量和线性行为反作用力的映射,基于优化的Fr结果,角度行为任务中所需的值可通过下方的算法计算:
其中,Icm是一个空间惯性项,所需的角度行为可能违反摩擦约束,WangFr可能和不同,质心动量操作加速命令用于控制器层次,其中括号中的第一个术语是需要的CoM加速指令,第二个术语是需要的角度加速指令,在算式(9)中,两种命令分开使用产生联合加速指令在算式(12)中产生代入公式(11),可获得:
可以写为矩阵模式:
其中,
通过伪逆运算解出:
其中(.)+代表Moore-Penrose伪逆运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711075790.XA CN107856035A (zh) | 2017-11-06 | 2017-11-06 | 一种基于强化学习和全身控制器的鲁棒性动态运动方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711075790.XA CN107856035A (zh) | 2017-11-06 | 2017-11-06 | 一种基于强化学习和全身控制器的鲁棒性动态运动方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107856035A true CN107856035A (zh) | 2018-03-30 |
Family
ID=61700884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711075790.XA Withdrawn CN107856035A (zh) | 2017-11-06 | 2017-11-06 | 一种基于强化学习和全身控制器的鲁棒性动态运动方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107856035A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN109164821A (zh) * | 2018-09-26 | 2019-01-08 | 中科物栖(北京)科技有限责任公司 | 一种无人机姿态训练方法及装置 |
CN110147891A (zh) * | 2019-05-23 | 2019-08-20 | 北京地平线机器人技术研发有限公司 | 应用于强化学习训练过程的方法、装置及电子设备 |
CN111452022A (zh) * | 2020-03-24 | 2020-07-28 | 东南大学 | 基于贝叶斯优化的上肢康复机器人主动训练参考轨迹复杂度调节方法 |
CN111596691A (zh) * | 2020-07-07 | 2020-08-28 | 福州大学 | 一种基于人在回路的多机器人系统的决策建模与协同控制方法及系统 |
WO2021008691A1 (en) | 2019-07-16 | 2021-01-21 | Huawei Technologies Co., Ltd. | Learning to robustly control a system |
US11540781B2 (en) | 2019-03-29 | 2023-01-03 | Tata Consultancy Services Limited | Modeling a neuronal controller exhibiting human postural sway |
-
2017
- 2017-11-06 CN CN201711075790.XA patent/CN107856035A/zh not_active Withdrawn
Non-Patent Citations (1)
Title |
---|
DONGHYUN KIM等: "Robust Dynamic Locomotion via Reinforcement Learning and Novel Whole Body Controller", 《ARXIV:1708.02205V1》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN108803321B (zh) * | 2018-05-30 | 2020-07-10 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN109164821A (zh) * | 2018-09-26 | 2019-01-08 | 中科物栖(北京)科技有限责任公司 | 一种无人机姿态训练方法及装置 |
CN109164821B (zh) * | 2018-09-26 | 2019-05-07 | 中科物栖(北京)科技有限责任公司 | 一种无人机姿态训练方法及装置 |
US11540781B2 (en) | 2019-03-29 | 2023-01-03 | Tata Consultancy Services Limited | Modeling a neuronal controller exhibiting human postural sway |
CN110147891A (zh) * | 2019-05-23 | 2019-08-20 | 北京地平线机器人技术研发有限公司 | 应用于强化学习训练过程的方法、装置及电子设备 |
WO2021008691A1 (en) | 2019-07-16 | 2021-01-21 | Huawei Technologies Co., Ltd. | Learning to robustly control a system |
CN111452022A (zh) * | 2020-03-24 | 2020-07-28 | 东南大学 | 基于贝叶斯优化的上肢康复机器人主动训练参考轨迹复杂度调节方法 |
CN111452022B (zh) * | 2020-03-24 | 2021-04-13 | 东南大学 | 基于贝叶斯优化的上肢康复机器人主动训练参考轨迹复杂度调节方法 |
CN111596691A (zh) * | 2020-07-07 | 2020-08-28 | 福州大学 | 一种基于人在回路的多机器人系统的决策建模与协同控制方法及系统 |
CN111596691B (zh) * | 2020-07-07 | 2021-08-31 | 福州大学 | 一种基于人在回路的多机器人系统的决策建模与协同控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107856035A (zh) | 一种基于强化学习和全身控制器的鲁棒性动态运动方法 | |
Roy et al. | Effects of turning gait parameters on energy consumption and stability of a six-legged walking robot | |
CN106054876B (zh) | 一种针对空间多任务的避障路径最优逐次操作规划方法 | |
Fahimi et al. | Real-time obstacle avoidance for multiple mobile robots | |
Xiao et al. | Fuzzy controller for wall-climbing microrobots | |
Xu et al. | Study on non-holonomic cartesian path planning of a free-floating space robotic system | |
Heydari et al. | Robust model predictive control of biped robots with adaptive on-line gait generation | |
CN114077256A (zh) | 一种水上无人船路径规划方法 | |
Huang et al. | PSO-based time-optimal trajectory planning for space robot with dynamic constraints | |
Jha et al. | On-line stable gait generation of a two-legged robot using a genetic–fuzzy system | |
Samy et al. | QP-based adaptive-gains compliance control in humanoid falls | |
Wu et al. | Genetic algorithm trajectory plan optimization for EAMA: EAST Articulated Maintenance Arm | |
Huang et al. | Minimum-torque path planning of space robots using genetic algorithms | |
Watanabe et al. | Control strategy for a snake-like robot based on constraint force and verification by experiment | |
Le Boudec et al. | Modeling and adaptive control of redundant robots | |
Mombaur et al. | An optimal control model unifying holonomic and nonholonomic walking | |
Li et al. | A specialized particle swarm optimization for global path planning of mobile robots | |
Liu et al. | Hierarchical RRT for humanoid robot footstep planning with multiple constraints in complex environments | |
Chang et al. | Study on falling backward of humanoid robot based on dynamic multi objective optimization | |
Amin et al. | Particle swarm fuzzy controller for behavior-based mobile robot | |
Chevallereau et al. | Asymptotic stabilization of a five-link, four-actuator, planar bipedal runner | |
DeHart | Dynamic Balance and Gait Metrics for Robotic Bipeds | |
Shkolnik | Sample-based motion planning in high-dimensional and differentially-constrained systems | |
Gong et al. | Gradient optimization of inverse dynamics for robotic manipulator motion planning using combined optimal control | |
Kulkarni et al. | Path planning for a statically stable biped robot using PRM and reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180330 |