CN111552301A - 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法 - Google Patents

一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法 Download PDF

Info

Publication number
CN111552301A
CN111552301A CN202010570039.2A CN202010570039A CN111552301A CN 111552301 A CN111552301 A CN 111552301A CN 202010570039 A CN202010570039 A CN 202010570039A CN 111552301 A CN111552301 A CN 111552301A
Authority
CN
China
Prior art keywords
robot
leg
target
controller
salamander
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010570039.2A
Other languages
English (en)
Other versions
CN111552301B (zh
Inventor
方勇纯
张学有
郭宪
朱威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202010570039.2A priority Critical patent/CN111552301B/zh
Publication of CN111552301A publication Critical patent/CN111552301A/zh
Application granted granted Critical
Publication of CN111552301B publication Critical patent/CN111552301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/12Target-seeking control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)

Abstract

一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法。针对蝾螈仿生机器人的路径跟踪问题,建立了分层控制框架,包括基于强化学习的上层控制器和基于逆运动学的底层控制器,实现了蝾螈仿生机器人跟踪目标路径。具体地,对于上层控制器,在softActor‑Critic(演员‑评论)算法的基础上设计了状态空间表示、动作空间表示和奖励函数,可以提高跟踪精度,消除静态误差。对于底层控制器,建立了基于逆运动学腿部控制器和脊柱控制器。最终,将机器人在仿真环境中训练好的控制器迁移到真实环境中,来验证算法的可行性与泛化能力。实验结果表明,本发明能够较好的完成控制目标,在仿真到实际的迁移性与泛化性方面表现出了更好的控制效果。

Description

一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
技术领域
本发明属于仿生机器人路径跟踪控制的技术领域,特别是涉及一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法。
背景技术
开发用于野外搜索和救援的机器人已成为一个热门的机器人研究领域,搜救场景通常很狭小,并且地形复杂,这些地方很危险,救援人员很难到达,利用机器人来辅助救援队进行探索获取信息,可以提高救援的效率。动物的一个关键特征是它们在环境中有效移动的能力,这种基本但令人惊叹的能力是数百万年进化的结果,它的灵活性和能源利用效率远远超过机器人的水平。所以仿生机器人根据动物的身体构造来设计结构,希望可以实现相同的控制效果,仿生机器人正是为了完成非常具有挑战性的野外任务而开发的,例如在灾难后的废墟中进行搜救,在不适合人类和其他普通机器人的危险环境中进行勘测探索。
对于在地面执行任务,蝾螈机器人在结构上具有四只腿和可以摆动的脊柱,所以具有穿越复杂环境的能力,同时重心较低,不容易倾倒,通过脊柱摆动配合四条腿的运动可以提高运动速度并且保持稳定性。
国内外相关领域的学者对仿生机器人开展了大量的研究工作,其中一大类是多关节仿生类机器人的研究。针对仿生类蝾螈机器人,早期开发的蝾螈仿生机器人没有腿,因此限制了它们的运动能力,后来提出的机器人,比如Salamandra robotica II,它具有四条腿和一个可以摆动的躯干,能够在借助腿在地面和浅水区运动,但是它的腿部结构只有一个关节,这严重限制了在更复杂地形运动的能力,只能在一个平面运动。下一代提出的蝾螈机器人Pleurobot与生物学上的结构极为相似,每条腿都有四个关节,具备高度的运动灵活性,这极大提高了它在复杂地形运动的能力。
众所周知,蝾螈类机器人由于其冗余度高,控制起来非常困难,在各种控制方法中,采用信息融合和平滑输出信号的中央模式发生器是一种有效的控制方法,但由于其复杂的耦合关系,所涉及的参数的优化比较复杂,难以获得比较合适的震荡参数。另一种方法是通过逆运动学规划机器人的轨迹,利用力反馈设计机器人的控制律。此外,有学者提出了一种实时的脊柱腿协调控制算法,该算法消耗大量的计算资源,在研究转弯运动时没有考虑左右步幅长度差值对转弯半径的影响。后来也有团队使用IMU和相机来收集环境信息,但是在将传感器融合算法的输出用来实现闭环控制时并没有成功。
发明内容
本发明的目的是解决现有蝾螈类机器人控制方法涉及的参数优化比较复杂、算法消耗大量的计算资源等问题,提供一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法。
本发明为了解决蝾螈机器人路径跟踪的问题采用了分层控制的方法,上层的策略网络用强化学习训练,提供复杂的全局决策,而底层的传统控制器实现来自上层控制器的命令。与其他控制算法相比,本发明的分层控制框架充分利用了强化学习和传统控制算法的特点,也就是说,上层控制器通常适合于处理缓慢变化的、高维的信息来做出全局决策,而底层的传统控制器则擅长于跟踪特定的命令。此外,针对直线路径跟踪的具体任务,将状态积分补偿引入到soft Actor-Critic算法中,实验结果表明,与普通soft Actor-Critic算法相比,该算法取得了明显的改进。
本发明的技术方案
一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法,该方法采用分层控制框架,所述蝾螈机器人跟踪路径根据任务不同分为两层控制器,分别是基于强化学习的上层控制器和基于逆运动学的底层控制器,其中基于强化学习的上层控制器包括状态空间的设计、动作空间的设计和奖励函数的设计,底层控制器包括脊柱控制器和腿部控制器,腿部控制器由轨迹生成模块和逆运动学求解模块构成。具体地,蝾螈机器人在t时刻的状态和动作分别表示为st,at,上一时刻得到的奖励表示为r(st-1,at-1),在训练阶段,上层控制器在t时刻输入r(st-1,at-1)和st,然后输出动作at,动作at作为底层控制器的输入,底层控制器根据输入的指令输出蝾螈机器人19个关节的位置,并在仿真环境中执行,根据执行指令后机器人的状态,生成下一时刻的奖励r(st,at),再将r(st,at)和st+1反馈给上层控制器,依次循环。在实验阶段,上层控制器的输入和环境的反馈只有状态st,中间步骤相同。两层控制器的具体设计方法如下:
第1、基于强化学习的上层控制器的设计:
蝾螈机器人跟踪路径的问题建模为一个马尔可夫决策过程(Markov decisionprocess),通过一个元组来定义
Figure BDA0002549238860000021
其中
Figure BDA0002549238860000022
是连续的状态空间,
Figure BDA0002549238860000023
表示连续的动作空间,p表示状态转移概率,r是在每次状态转移过程中来自环境的奖励。π(at|st)表示策略,在状态为st时采取动作at,用ρπ(st,at)表示状态-动作的轨迹分布边际,soft Actor-Critic强化学习算法的目标是学习一个最优策略π(at|st)使得奖励与交叉熵的累积加权和最大,即
Figure BDA0002549238860000031
其中,α是超参数,权衡奖励与交叉熵的重要性,最大熵目标可以有效地扩大探索范围,加快强化学习的收敛速度。
第1.1、状态空间的设计
对于路径跟踪问题,本发明将目标路径离散为一系列散点,用一个滑动窗口从路径起点滑向终点,将滑动窗口中的n个散点在机器人坐标系中的坐标作为状态,即
Figure BDA0002549238860000032
Figure BDA0002549238860000033
其中,RPi t表示滑动窗口中第i个散点在机器人坐标系中的坐标。滑动窗口的移动取决于窗口中第一个点与机器人之间的距离,如果距离小于设定的阈值,则滑动窗口向前移动一步,滑动窗口中第一个点将被移除,在队列末尾将增加一个点。当扫描完目标路径上的所有点后,路径跟踪任务就完成了,变化较快的传感器数据不被选择作为状态的一部分,从而使训练好的网络更容易应用到真实的机器人上。
在路径跟踪任务中容易出现稳态误差,为了有效地消除跟踪的稳态误差,引入状态积分补偿项,即
Figure BDA0002549238860000034
Figure BDA0002549238860000035
其中,
Figure BDA0002549238860000036
是积分补偿项,表示滑动窗口中第一个点的坐标的累积求和。
第1.2、动作空间设计
在分层控制框架中,上层控制器输出的动作作为底层控制器的输入,动作是一个抽象的命令,包括向前、向左、向右运动一个很小的距离,而不是具体的关节位置或者速度,这样做的优点是能够对任何路径有效,即任何路径的跟踪可以转化为机器人向前、向左、向右运动一个很小的距离。在本发明中,对于蝾螈机器人跟踪路径,动作是左腿的步长、右腿的步长和脊柱的偏置,如果左腿的步长比右腿的步长大,机器人则向右运动,脊柱偏置对转弯有一定的影响,动作空间设计如下:
Figure BDA0002549238860000037
其中,lleft表示左腿步长,lright表示右腿步长,
Figure BDA0002549238860000038
表示脊柱偏置。
第1.3、奖励函数的设计
强化学习利用奖励来引导机器人学习到一个最优的策略,在机器人跟踪路径的任务中,机器人与滑动窗口内所有散点的距离的加权和的相反数作为奖励函数,直观意义是距离越小,奖励越大,即
Figure BDA0002549238860000041
其中,ki是权重系数,用来调整每个目标点的重要性,随着i的增加,相应的目标点距离机器人越远,所以权重系数越小,注意到滑动窗口中的n个目标点表示跟踪路径的前视距离,机器人可以据此决定前进的方向,将奖励定义为负值,以激励机器人以最少的控制步数到达目标位置。
第2、基于逆运动学的底层控制器的设计
第2.1、腿部控制器设计
每条腿有四个关节,通过解逆运动学得到每个关节的角度,使末端执行器按照给定的轨迹运动。这四条腿的参数相同,所以下面的分析适用于每条腿,下面对一条腿建立运动学模型,从腿部末端点到基座的四个坐标变换矩阵如下:
Figure BDA0002549238860000042
Figure BDA0002549238860000043
Figure BDA0002549238860000044
Figure BDA0002549238860000045
其中sθ=sin(θ),cθ=cos(θ)腿部末端点在第四个坐标系下的位置为4P=[0 -960 1]T,则末端点在基座坐标系下的位置为
Figure BDA0002549238860000051
如此便找到了四个关节角与腿部末端点在基坐标系的对应关系,基坐标系固定在机器人上,通过改变四个关节角就可以改变末端点的位置。腿部的控制是通过在基坐标系下给定一条轨迹,让末端点跟踪这条轨迹。末端点相对地面静止,利用腿部末端与地面的反作用力推动身体前进,轨迹通过贝塞尔曲线生成,通过改变控制点可以改变轨迹的步幅长度和高度。在每条轨迹上等间隔取样100个点pi=[xi yi zi]T作为腿部末端点的目标位置,通过逆运动学求解出所对应的四个关节角,以固定频率向四个舵机发送求解出的目标角度便可以让腿部走出对应的轨迹。
机器人腿部末端在基坐标系下的笛卡尔空间坐标为:
Figure BDA0002549238860000052
机器人腿部末端点的速度
Figure BDA0002549238860000053
与四个关节角速度
Figure BDA0002549238860000054
满足:
Figure BDA0002549238860000055
其中,
Figure BDA0002549238860000056
Figure BDA0002549238860000057
Figure BDA0002549238860000058
雅可比矩阵J是3×4阶的矩阵不可以对其求逆,否则利用雅可比逆矩阵,通过给定腿部末端点的目标位置与当前位置的误差项,便可以求出控制项关节角速度。现在将求解关节角转换为一个优化问题:
Figure BDA0002549238860000059
其中Δq=qt-q表示目标角度与当前角度的误差;
Δp=pt-p表示腿部末端点在笛卡尔空间下目标位置与当前的误差;
J是雅可比矩阵,λ是常数阻尼项,目的是避免关节角进入极点,转速太快,损坏舵机。
f(Δq)=||Δp-JΔq||2+λ||Δq||2
=tr[(Δp-JΔq)(Δp-JΔq)T]+λtr(ΔqΔqT) (19)
=tr(ΔpΔpT-ΔpΔqTJT-JΔqΔpT+JΔqΔqT)+λtr(ΔqΔqT)
再求导
Figure BDA0002549238860000061
得到目标角度和当前角度的误差的最优解如下
Δq=(JTJ+λI)-1JTΔp (21)
根据公式(21)得到当前角度与目标角度的差值,通过积分得到当前角度,再运用正运动学公式(13)得到当前腿部末端点在基坐标系下的位置,计算腿部末端点的目标位置与当前位置的误差项Δp,如果误差项大于给定的阈值,则将误差项Δp继续带入公式(21)求解Δq,如果误差项小于给定的阈值,则将当前角度作为当前目标位置的解,然后更新下一个目标位置和雅可比矩阵,重新计算位置误差项Δp作为公式(21)的输入项,得到目标角度和当前角度的误差Δq,如此迭代计算可以求解出所有样本目标位置所对应的四个舵机的目标角度,如果计算机性能允许,可以实现在线规划腿部末端位置,再求解得到所对应的舵机角度。
与蝾螈爬行相似,本文考虑了四足蝾螈机器人以静态稳定、规则对称的爬行步态行走,先放下空中的腿,再抬起地面上的腿,至少有三条腿始终接地。在走路的过程中,前腿从摆动阶段切换到站立阶段,然后后腿的相对一侧切换到摆动阶段,然后前腿进入摆动阶段。
四只腿的相位如下所示:
ψRF=0,ψLH=0.25,ψLF=0.5,ψRH=0.75 (22)
其中RF、LH、LF、RH分别代表右前肢、左后肢、左前肢、右后肢。
第2.2、脊柱控制器设计
脊柱的运动可以改变重心的位置,增加运动的平稳性,还可以增大腿迈出的步幅长度,从而加快运动的速度。脊柱按照正弦信号摆动控制器设置如下
Figure BDA0002549238860000071
其中bi是脊柱第i个舵机按正弦信号摆动的振幅,f是摆动的频率,通过与腿部运动频率配合能够改变运动速度,φi是第i个舵机正弦信号的初相位,
Figure BDA0002549238860000072
是第i个舵机正弦信号的偏置项。
由于脊柱关节数目较少,中间关节的运动幅度较大。脊柱的正弦信号周期的四分之一是一个相位,有四个相位,因此
φ1=0,φ2=π,φ3=0 (24)
Figure BDA0002549238860000073
在公式(24)中给出了偏置项的选取原则,当机器人直行的时候,偏置项为零,脊柱按照正弦信号摆动,当机器人需要转弯的时候,脊柱向转弯相反的方向弯曲,偏置项的大小与转弯的半径成正比。
本发明的优点和有益效果:
本发明提出一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法。针对蝾螈仿生机器人的路径跟踪问题,建立了分层控制框架,包括基于强化学习的上层控制器和基于逆运动学的底层控制器,实现了蝾螈仿生机器人跟踪目标路径。具体地,首先构建蝾螈机器人的仿真环境,对于上层控制器,在soft Actor-Critic(演员-评论)算法的基础上引入状态积分补偿,可以提高跟踪精度,消除静态误差,此外,提出更为紧凑的机器人状态表示和更为抽象的动作表示。最终,将机器人在仿真环境中训练好的控制器迁移到真实环境中,来验证算法的可行性与泛化能力。实验结果表明,本发明能够较好的完成控制目标,在仿真到实际的迁移性与泛化性方面表现出了更好的控制效果。
附图说明
图1是基于强化学习的分层控制框架图;
图2是蝾螈机器人的仿真和实际模型;
图3是蝾螈机器人路径跟踪的实验环境;
图4是蝾螈机器人的动作空间表示示意图;
图5是蝾螈机器人在真实环境中跟踪直线的结果图;
图6是蝾螈机器人在真实环境中跟踪正弦曲线的结果图。
具体实施方式
一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法,该方法采用分层控制框架(如图1所示),
将蝾螈机器人跟踪路径根据任务不同分为两层控制器,分别是基于强化学习的上层控制器和基于逆运动学的底层控制器,其中基于强化学习的上层控制器包括状态空间的设计、动作空间的设计和奖励函数的设计,底层控制器包括脊柱控制器和腿部控制器,腿部控制器由轨迹生成模块和逆运动学求解模块构成。具体地,机器人在t时刻的状态和动作分别为st,at,上一时刻得到的奖励为r(st-1,at-1),在训练阶段,上层控制器在t时刻输入r(st-1,at-1)和st,然后输出动作at,动作at作为底层控制器的输入,底层控制器根据输入的指令输出蝾螈机器人19个关节的位置,并在仿真环境中执行,根据执行指令后机器人的状态,生成下一时刻的奖励r(st,at),再将r(st,at)和st+1反馈给上层控制器,依次循环。在实验阶段,高层控制器的输入和环境的反馈只有状态st,中间流程相同。两层控制器的具体设计方法如下:
第1、基于强化学习的上层控制器的设计
蝾螈机器人跟踪路径的问题建模为一个Markov decision process(马尔可夫决策过程),通过一个元组来定义
Figure BDA0002549238860000081
其中
Figure BDA0002549238860000082
是连续的状态空间,
Figure BDA0002549238860000083
表示连续的动作空间,p表示状态转移概率,r是在每次状态转移过程中来自环境的奖励。π(at|st)表示策略,在状态为st时采取动作at,用ρπ(st,at)表示状态-动作的轨迹分布边际,soft Actor-Critic强化学习算法的目标是学习一个最优策略π(at|st)使得奖励与交叉熵的累积加权和最大,即
Figure BDA0002549238860000084
其中,α是超参数,权衡奖励与交叉熵的重要性,最大熵目标可以有效地扩大探索范围,加快强化学习的收敛速度。
第1.1、状态空间的设计
对于路径跟踪问题,本发明将目标路径离散为一系列散点,用一个滑动窗口从路径起点滑向终点,将滑动窗口中的n个散点在机器人坐标系中的坐标作为状态,即
Figure BDA0002549238860000091
Figure BDA0002549238860000092
其中,RPi t表示滑动窗口中第i个散点在机器人坐标系中的坐标。滑动窗口的移动取决于窗口中第一个点与机器人之间的距离,如果距离小于设定的阈值,则滑动窗口向前移动一步,滑动窗口中第一个点将被移除,在队列末尾将增加一个点。当扫描完目标路径上的所有点后,路径跟踪任务就完成了,变化较快的传感器数据不被选择作为状态的一部分,从而使训练好的网络更容易应用到真实的机器人上。
在路径跟踪任务中容易出现稳态误差,为了有效地消除跟踪的稳态误差,引入状态积分补偿项,即
Figure BDA0002549238860000093
Figure BDA0002549238860000094
其中,
Figure BDA0002549238860000095
是积分补偿项,表示滑动窗口中第一个点的坐标的累积求和。
第1.2、动作空间设计
在分层控制框架中,上层控制器输出的动作作为底层控制器的输入,动作是一个抽象的命令,比如向前、向左、向右运动一个很小的距离,而不是具体的关节位置或者速度,这样做的优点是能够对任何路径有效,即任何路径的跟踪可以转化为机器人向前、向左、向右运动一个很小的距离。在本发明中,对于蝾螈机器人跟踪路径,动作是左腿的步长、右腿的步长和脊柱的偏置,如果左腿的步长比右腿的步长大,机器人则向右运动,脊柱偏置对转弯有一定的影响,动作空间设计如下:
Figure BDA0002549238860000096
其中,lleft表示左腿步长,lright表示右腿步长,
Figure BDA0002549238860000097
表示脊柱偏置。
第1.3、奖励函数的设计
强化学习利用奖励来引导机器人学习到一个最优的策略,在机器人跟踪路径的任务中,机器人与滑动窗口内所有散点的距离的加权和的相反数作为奖励函数,直观意义是距离越小,奖励越大,即
Figure BDA0002549238860000098
其中,ki是权重系数,用来调整每个目标点的重要性,随着i的增加,相应的目标点距离机器人越远,所以权重系数越小,注意到滑动窗口中的n个目标点表示跟踪路径的前视距离,机器人可以据此决定前进的方向,将奖励定义为负值,以激励机器人以最少的控制步数到达目标位置。
第2、基于逆运动学的底层控制器的设计
第2.1、腿部控制器设计
每条腿有四个关节,通过解逆运动学得到每个关节的角度,使末端执行器按照给定的轨迹运动。这四条腿的参数相同,所以下面的分析适用于每条腿,下面对一条腿建立运动学模型,从腿部末端点到基座的四个坐标变换矩阵如下:
Figure BDA0002549238860000101
Figure BDA0002549238860000102
Figure BDA0002549238860000103
Figure BDA0002549238860000104
其中sθ=sin(θ),cθ=cos(θ)腿部末端点在第四个坐标系下的位置为4P=[0 -960 1]T,则末端点在基座坐标系下的位置为
Figure BDA0002549238860000105
如此便找到了四个关节角与腿部末端点在基坐标系的对应关系,基坐标系固定在机器人上,通过改变四个关节角就可以改变末端点的位置。腿部的控制是通过在基坐标系下给定一条轨迹,让末端点跟踪这条轨迹。末端点相对地面静止,利用腿部末端与地面的反作用力推动身体前进,轨迹通过贝塞尔曲线生成,通过改变控制点可以改变轨迹的步幅长度和高度。在每条轨迹上等间隔取样100个点pi=[xi yi zi]T作为腿部末端点的目标位置,通过逆运动学求解出所对应的四个关节角,以固定频率向四个舵机发送求解出的目标角度便可以让腿部走出对应的轨迹。
机器人腿部末端在基坐标系下的笛卡尔空间坐标为:
Figure BDA0002549238860000111
机器人腿部末端点的速度
Figure BDA0002549238860000112
与四个关节角速度
Figure BDA0002549238860000113
满足:
Figure BDA0002549238860000114
其中,
Figure BDA0002549238860000115
Figure BDA0002549238860000116
Figure BDA0002549238860000117
雅可比矩阵J是3×4阶的矩阵不可以对其求逆,否则利用雅可比逆矩阵,通过给定腿部末端点的目标位置与当前位置的误差项,便可以求出控制项关节角速度。现在将求解关节角转换为一个优化问题:
Figure BDA0002549238860000118
其中Δq=qt-q表示目标角度与当前角度的误差;
Δp=pt-p表示腿部末端点在笛卡尔空间下目标位置与当前的误差;
J是雅可比矩阵,λ是常数阻尼项,目的是避免关节角进入极点,转速太快,损坏舵机。
f(Δq)=||Δp-JΔq||2+λ||Δq||2
=tr[(Δp-JΔq)(Δp-JΔq)T]+λtr(ΔqΔqT) (19)
=tr(ΔpΔpT-ΔpΔqTJT-JΔqΔpT+JΔqΔqT)+λtr(ΔqΔqT)
再求导
Figure BDA0002549238860000121
得到目标角度和当前角度的误差的最优解如下
Δq=(JTJ+λI)-1JTΔp (21)
根据公式(21)得到当前角度与目标角度的差值,通过积分得到当前角度,再运用正运动学公式(13)得到当前腿部末端点在基坐标系下的位置,计算腿部末端点的目标位置与当前位置的误差项Δp,如果误差项大于给定的阈值,则将误差项Δp继续带入公式(21)求解Δq,如果误差项小于给定的阈值,则将当前角度作为当前目标位置的解,然后更新下一个目标位置和雅可比矩阵,重新计算位置误差项Δp作为公式(21)的输入项,得到目标角度和当前角度的误差Δq,如此迭代计算可以求解出所有样本目标位置所对应的四个舵机的目标角度,如果计算机性能允许,可以实现在线规划腿部末端位置,再求解得到所对应的舵机角度。
与蝾螈爬行相似,本文考虑了四足蝾螈机器人以静态稳定、规则对称的爬行步态行走,先放下空中的腿,再抬起地面上的腿,至少有三条腿始终接地。在走路的过程中,前腿从摆动阶段切换到站立阶段,然后后腿的相对一侧切换到摆动阶段,然后前腿进入摆动阶段。
四只腿的相位如下所示:
ψRF=0,ψLH=0.25,ψLF=0.5,ψRH=0.75 (22)
其中RF、LH、LF、RH分别代表右前肢、左后肢、左前肢、右后肢。
第2.2、脊柱控制器设计
脊柱的运动可以改变重心的位置,增加运动的平稳性,还可以增大腿迈出的步幅长度,从而加快运动的速度。脊柱按照正弦信号摆动控制器设置如下
Figure BDA0002549238860000122
其中bi是脊柱第i个舵机按正弦信号摆动的振幅,f是摆动的频率,通过与腿部运动频率配合能够改变运动速度,φi是第i个舵机正弦信号的初相位,
Figure BDA0002549238860000131
是第i个舵机正弦信号的偏置项。
由于脊柱关节数目较少,中间关节的运动幅度较大。脊柱的正弦信号周期的四分之一是一个相位,有四个相位,因此
φ1=0,φ2=π,φ3=0 (24)
Figure BDA0002549238860000132
在公式(25)中给出了偏置项的选取原则,当机器人直行的时候,偏置项为零,脊柱按照正弦信号摆动,当机器人需要转弯的时候,脊柱向转弯相反的方向弯曲,偏置项的大小与转弯的半径成正比。
第3、仿真与实验效果描述
第3.1、仿真结果
如图2所示,在机器人物理仿真引擎Gazebo中设计了完整的机器人模型,并在此基础上进行了上层控制器的策略训练,策略函数和值函数都用全连通神经网络表示,在执行允许的步数或机器人到达目标位置时训练过程结束,蝾螈机器人的动作空间可以用图4表示。
为了测试训练后的上层控制器的性能,首先在仿真环境中跟踪直线路径。进一步,考虑到神经网络通常对不同的状态输入敏感,由于机器人的宽度为0.467m,且机器人中心与直线路径的最大距离小于0.3m,因此在不同的状态输入下,机器人都能很好地沿目标路径运动。事实上,腿足式机器人依靠腿与地面之间的摩擦力向前移动,在移动过程中有一个身体摆动,即使有这些因素,机器人也不会偏离目标路径。
为了进一步测试控制器的泛化能力,我们尝试将在直线目标路径上训练的上层控制器转移到其他更复杂的路径上。为此,利用正弦路径作为目标曲线进行跟踪,即使正弦曲线呈现出更陡峭的斜率,并且上层控制器从未经过这样一个数据集的训练,它仍然能够产生令人满意的跟踪性能。仍进行三次不同的测试,机器人成功地跟踪目标路径,它可以将跟踪急剧变化的目标路径,验证了分层控制框架提供了良好的泛化能力,目标路径可以拆分成许多小线段作为上层控制器的状态。
第3.2、实验结果
将在仿真环境中训练的上层控制器迁移到实际环境中验证算法的可行性,实验环境如图3所示,其中我们使用了一个运动捕捉系(Qualysis)测量机器人的位置和姿态,从而通过位姿变换得到目标点在机器人坐标系中的坐标,作为上层控制器的输入。上层控制器在PC机上运行,底层控制器在TX2上运行,高级网络的操作输出通过无线网络发布到底层系统。
在第一组实验中,利用设计的基于强化学习的层次控制算法控制蝾螈机器人沿给定的直线运动。考虑到前面描述的稳态误差问题,我们对路径跟踪任务分别采用了普通的soft Actor-Critic算法和针对直线路径设计的带积分补偿的soft Actor-Critic算法,同时,采用比例积分控制器进行实验对比,三种方法的结果如图5所示。从跟踪结果曲线上可以看出,三种算法都能使机器人成功地沿着给定的直线运动,而SAC-IC算法由于有积分补偿成分,其性能明显优于其他两种算法。
在第二组实验中,我们仍然利用设计的基于强化学习的控制算法和比较比例积分控制器使机器人沿正弦曲线运动,为简洁起见,采用无积分补偿的soft Actor-Critic算法作为基于强化学习的方法。为了得到最好的结果,比例积分控制器的参数进行了重新调整,得到的值与第一次实验的值不同。然而,对于基于强化学习的方法,系统的结构和参数与第一次实验完全相同,这表明该方法的方便性,实验的结果如图6所示,从这可以看出,基于强化学习的方法的真实轨迹显然更接近目标路径,主要是由于神经网络可以输入大量的信息,并且输入的一组目标点对跟踪控制可以起到预测作用。除了直线路径和正弦曲线外,所提出的基于强化学习的分层控制算法还可以使机器人无需再训练就可以跟踪其他路径,这清楚地表明了所提出的分层控制框架的可行性。
参考文献
[1]Ijspeert A J,Crespi A,Cabelguen J M.Simulation and roboticsstudies of salamander locomotion[J].Neuroinformatics,2005,3(3):171-195.
[2]Karakasiliotis K,Ijspeert A J.Analysis of the terrestriallocomotion of a salamander robot[C]//2009IEEE/RSJ International Conference onIntelligent Robots and Systems.IEEE,2009:5015-5020.
[3]Crespi A,Karakasiliotis K,Guignard A,et al.Salamandra robotica II:an amphibious robot to study salamander-like swimming and walking gaits[J].IEEE Transactions on Robotics,2013,29(2):308-320.
[4]Karakasiliotis K,Thandiackal R,Melo K,et al.From cineradiographyto biorobots:an approach for designing robots to emulate and study animallocomotion[J].Journal of The Royal Society Interface,2016,13(119):20151089.
[5]Horvat T,Karakasiliotis K,Melo K,et al.Inverse kinematics andreflex based controller for body-limb coordination of a salamander-like robotwalking on uneven terrain[C]//2015IEEE/RSJ International Conference onIntelligent Robots and Systems(IROS).IEEE,2015:195-201.
[6]Horvat T,Melo K,Ijspeert A J.Spine controller for a sprawlingposture robot[J].IEEE Robotics and Automation Letters,2017,2(2):1195-1202.
[7]Parsapour M,Melo K,Horvat T,et al.Challenges in visual andinertial information gathering for a sprawling posture robot[C]//2017 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).IEEE,2017:2691-2697.
[8]John R Rebula,Peter D Neuhaus,Brian V Bonnlander,Matthew JJohnson,and Jerry E Pratt.A controller for the littledog quadruped walking on roughterrain.In Proceedings 2007 IEEE International Conference on Robotics andAutomation,pages 1467–1473.IEEE,2007.
[9]J Zico Kolter,Mike P Rodgers,and Andrew Y Ng.A controlarchitecture for quadruped locomotion over rough terrain.In 2008 IEEEInternational Conference on Robotics and Automation,pages 811–818.IEEE,2008.
[10]Mrinal Kalakrishnan,Jonas Buchli,Peter Pastor,Michael Mistry,andStefan Schaal.Learning,planning,and control for quadruped locomotion overchallenging terrain.The International Journal of Robotics Research,30(2):236–258,2011.
[11]Matt Zucker,Nathan Ratliff,Martin Stolle,Joel Chestnutt,J AndrewBagnell,Christopher G Atkeson,and James Kuffner.Optimization and learning forrough terrain legged locomotion.The International Journal of RoboticsResearch,30(2):175–191,2011.
[12]J Zico Kolter,Pieter Abbeel,and Andrew Y Ng.Hierarchicalapprenticeship learning with application to quadruped locomotion.In Advancesin Neural Information Processing Systems,pages 769–776,2008.
[13]Alexander Winkler,Ioannis Havoutis,Stephane Bazeille,Jesus Ortiz,Michele Focchi,Rudiger Dillmann,Darwin Caldwell,and Claudio Semini.Pathplanning with force-based foothold adaptation and virtual model control fortorque controlled quadruped robots.In2014 IEEE International Conference onRobotics and Automation(ICRA),pages6476–6482.IEEE,2014.
[14]Farbod Farshidian,Edo Jelavic,Asutosh Satapathy,MarkusGiftthaler,and Jonas Buchli.Real-time motion planning of legged robots:Amodel predictive control approach.In 2017IEEE-RAS 17th InternationalConference on Humanoid Robotics(Humanoids),pages577–584.IEEE,2017.
[15]Alexander W Winkler,Carlos Mastalli,Ioannis Havoutis,MicheleFocchi,Darwin G Caldwell,and Claudio Semini.Planning and execution of dynamicwhole-body locomotion for a hydraulic quadruped on challenging terrain.In2015 IEEE International Conference on Robotics and Automation(ICRA),pages5148–5154.IEEE,2015.
[16]Timothy P.Lillicrap,Jonathan J.Hunt,Alexander Pritzel,NicolasHeess,Tom Erez,Yuval Tassa,David Silver,and Daan Wierstra.Continuous controlwith deep reinforcement learning.In 4th International Conference on LearningRepresentations,ICLR 2016,San Juan,Puerto Rico,May 2-4,2016,Conference TrackProceedings,2016.
[17]John Schulman,Filip Wolski,Prafulla Dhariwal,Alec Radford,andOleg Klimov.Proximal policy optimization algorithms.CoRR,abs/1707.06347,2017.
[18]Jie Tan,Tingnan Zhang,Erwin Coumans,Atil Iscen,Yunfei Bai,DanijarHafner,Steven Bohez,and Vincent Vanhoucke.Sim-toreal:Learning agilelocomotion for quadruped robots.In Robotics:Science and Systems XIV,CarnegieMellon University,Pittsburgh,Pennsylvania,USA,June 26-30,2018,2018.
[19]Jemin Hwangbo,Joonho Lee,Alexey Dosovitskiy,Dario Bellicoso,Vassilios Tsounis,Vladlen Koltun,and Marco Hutter.Learning agile and dynamicmotor skills for legged robots.Science Robotics,4(26):eaau5872,2019.
[20]Tuomas Haarnoja,Sehoon Ha,Aurick Zhou,Jie Tan,George Tucker,andSergey Levine.Learning to walk via deep reinforcement learning.arXiv preprintarXiv:1812.11103,2018.
[21]Dong Jin Hyun,Sangok Seok,Jongwoo Lee,and Sangbae Kim.High speedtrot-running:Implementation of a hierarchical controller using proprioceptiveimpedance control on the mit cheetah.The International Journal of RoboticsResearch,33(11):1417–1445,2014.

Claims (3)

1.一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法,其特征在于该方法采用
分层控制框架,所述蝾螈机器人跟踪路径根据任务不同分为两层控制器,分别是基于强化学习的上层控制器和基于逆运动学的底层控制器;其中,基于强化学习的上层控制器包括状态空间的设计、动作空间的设计和奖励函数的设计,底层控制器包括脊柱控制器和腿部控制器,腿部控制器由轨迹生成模块和逆运动学求解模块构成;具体地,蝾螈机器人在t时刻的状态和动作分别表示为st,at,上一时刻得到的奖励为表示r(st-1,at-1),在训练阶段,上层控制器在t时刻输入r(st-1,at-1)和st,然后输出动作表示为at,动作at作为底层控制器的输入,底层控制器根据输入的指令输出蝾螈机器人19个关节的位置,并在仿真环境中执行,根据执行指令后机器人的状态,生成下一时刻的奖励r(st,at),再将r(st,at)和st+1反馈给上层控制器,依次循环;在实验阶段,上层控制器的输入和环境的反馈只有状态st,中间步骤相同。
2.根据权利要求1所述的基于强化学习的蝾螈机器人路径跟踪的分层控制方法,其特征在于,
基于强化学习的上层控制器的设计如下:
蝾螈机器人跟踪路径的问题建模为一个马尔可夫决策过程(Markov decisionprocess),通过一个元组来定义
Figure FDA0002549238850000011
其中
Figure FDA0002549238850000012
是连续的状态空间,
Figure FDA0002549238850000013
表示连续的动作空间,p表示状态转移概率,r是在每次状态转移过程中来自环境的奖励;π(at|st)表示策略,在状态为st时采取动作at,用ρπ(st,at)表示状态-动作的轨迹分布边际,soft Actor-Critic强化学习算法的目标是学习一个最优策略π(at|st)使得奖励与交叉熵的累积加权和最大,即
Figure FDA0002549238850000014
其中,α是超参数,权衡奖励与交叉熵的重要性,最大熵目标可以有效地扩大探索范围,加快强化学习的收敛速度;上层控制器包括状态空间的设计、动作空间的设计和奖励函数的设计,这三部分的设计保证了最终训练的控制器收敛,三部分属于并列关系;
(1)、状态空间的设计
对于路径跟踪问题,将目标路径离散为一系列散点,用一个滑动窗口从路径起点滑向终点,将滑动窗口中的n个散点在机器人坐标系中的坐标作为状态,即
Figure FDA0002549238850000015
Figure FDA0002549238850000021
其中,RPi t表示滑动窗口中第i个散点在机器人坐标系中的坐标;滑动窗口的移动取决于窗口中第一个点与机器人之间的距离,如果距离小于设定的阈值,则滑动窗口向前移动一步,滑动窗口中第一个点将被移除,在队列末尾将增加一个点;当扫描完目标路径上的所有点后,路径跟踪任务就完成了,变化较快的传感器数据不被选择作为状态的一部分,从而使训练好的网络更容易应用到真实的机器人上;
在路径跟踪任务中容易出现稳态误差,为了有效地消除跟踪的稳态误差,引入状态积分补偿项,即
Figure FDA0002549238850000022
Figure FDA0002549238850000023
其中,
Figure FDA0002549238850000024
是积分补偿项,表示滑动窗口中第一个点的坐标的累积求和;
(2)、动作空间设计
在分层控制框架中,上层控制器输出的动作作为底层控制器的输入,动作是一个抽象的命令,包括向前、向左、向右运动一个很小的距离,而不是具体的关节位置或者速度,这样做的优点是能够对任何路径有效,即任何路径的跟踪可以转化为机器人向前、向左、向右运动一个很小的距离;对于蝾螈机器人跟踪路径,动作是左腿的步长、右腿的步长和脊柱的偏置,如果左腿的步长比右腿的步长大,机器人则向右运动,脊柱偏置对转弯有一定的影响,动作空间设计如下:
Figure FDA0002549238850000025
其中,lleft表示左腿步长,lright表示右腿步长,
Figure FDA0002549238850000026
表示脊柱偏置;
(3)、奖励函数的设计
强化学习利用奖励来引导机器人学习到一个最优的策略,在机器人跟踪路径的任务中,机器人与滑动窗口内所有散点的距离的加权和的相反数作为奖励函数,直观意义是距离越小,奖励越大,即
Figure FDA0002549238850000027
其中,ki是权重系数,用来调整每个目标点的重要性,随着i的增加,相应的目标点距离机器人越远,所以权重系数越小,注意到滑动窗口中的n个目标点表示跟踪路径的前视距离,机器人可以据此决定前进的方向,将奖励定义为负值,以激励机器人以最少的控制步数到达目标位置。
3.根据权利要求1所述的基于强化学习的蝾螈机器人路径跟踪的分层控制方法,其特征在于,基于逆运动学的底层控制器的设计如下:
(1)、腿部控制器设计
每条腿有四个关节,通过解逆运动学得到每个关节的角度,使末端执行器按照给定的轨迹运动;这四条腿的参数相同,所以下面的分析适用于每条腿,下面对一条腿建立运动学模型,从腿部末端点到基座的四个坐标变换矩阵如下:
Figure FDA0002549238850000031
Figure FDA0002549238850000032
Figure FDA0002549238850000033
Figure FDA0002549238850000034
其中sθ=sin(θ),cθ=cos(θ)腿部末端点在第四个坐标系下的位置为4P=[0 -96 0 1]T,则末端点在基座坐标系下的位置为
Figure FDA0002549238850000035
如此便找到了四个关节角与腿部末端点在基坐标系的对应关系,基坐标系固定在机器人上,通过改变四个关节角就可以改变末端点的位置;腿部的控制是通过在基坐标系下给定一条轨迹,让末端点跟踪这条轨迹;末端点相对地面静止,利用腿部末端与地面的反作用力推动身体前进,轨迹通过贝塞尔曲线生成,通过改变控制点可以改变轨迹的步幅长度和高度;在每条轨迹上等间隔取样100个点pi=[xi yi zi]T作为腿部末端点的目标位置,通过逆运动学求解出所对应的四个关节角,以固定频率向四个舵机发送求解出的目标角度便可以让腿部走出对应的轨迹;
机器人腿部末端在基坐标系下的笛卡尔空间坐标为:
Figure FDA0002549238850000041
机器人腿部末端点的速度
Figure FDA0002549238850000042
与四个关节角速度
Figure FDA0002549238850000043
满足:
Figure FDA0002549238850000044
其中,
Figure FDA0002549238850000045
Figure FDA0002549238850000046
Figure FDA0002549238850000047
雅可比矩阵J是3×4阶的矩阵不可以对其求逆,否则利用雅可比逆矩阵,通过给定腿部末端点的目标位置与当前位置的误差项,便可以求出控制项关节角速度;现在将求解关节角转换为一个优化问题:
Figure FDA0002549238850000048
其中Δq=qt-q表示目标角度与当前角度的误差;
Δp=pt-p表示腿部末端点在笛卡尔空间下目标位置与当前的误差;
J是雅可比矩阵,λ是常数阻尼项,目的是避免关节角进入极点,转速太快,损坏舵机;
Figure FDA0002549238850000049
再求导
Figure FDA0002549238850000051
得到目标角度和当前角度的误差的最优解如下
Δq=(JTJ+λI)-1JTΔp (21)
根据公式(21)得到当前角度与目标角度的差值,通过积分得到当前角度,再运用正运动学公式(13)得到当前腿部末端点在基坐标系下的位置,计算腿部末端点的目标位置与当前位置的误差项Δp,如果误差项大于给定的阈值,则将误差项Δp继续带入公式(21)求解Δq,如果误差项小于给定的阈值,则将当前角度作为当前目标位置的解,然后更新下一个目标位置和雅可比矩阵,重新计算位置误差项Δp作为公式(21)的输入项,得到目标角度和当前角度的误差Δq,如此迭代计算可以求解出所有样本目标位置所对应的四个舵机的目标角度;
与蝾螈爬行相似,考虑四足蝾螈机器人以静态稳定、规则对称的爬行步态行走,先放下空中的腿,再抬起地面上的腿,至少有三条腿始终接地;在走路的过程中,前腿从摆动阶段切换到站立阶段,然后后腿的相对一侧切换到摆动阶段,然后前腿进入摆动阶段;四只腿的相位如下所示:
ψRF=0,ψLH=0.25,ψLF=0.5,ψRH=0.75 (22)
其中RF、LH、LF、RH分别代表右前肢、左后肢、左前肢、右后肢;
(2)、脊柱控制器设计
脊柱的运动可以改变重心的位置,增加运动的平稳性,还可以增大腿迈出的步幅长度,从而加快运动的速度;脊柱按照正弦信号摆动控制器设置如下
Figure FDA0002549238850000052
其中bi是脊柱第i个舵机按正弦信号摆动的振幅,f是摆动的频率,通过与腿部运动频率配合能够改变运动速度,φi是第i个舵机正弦信号的初相位,
Figure FDA0002549238850000053
是第i个舵机正弦信号的偏置项;
由于脊柱关节数目较少,中间关节的运动幅度较大;脊柱的正弦信号周期的四分之一是一个相位,有四个相位,因此
φ1=0,φ2=π,φ3=0 (24)
Figure FDA0002549238850000061
在公式(25)中给出了偏置项的选取原则,当机器人直行的时候,偏置项为零,脊柱按照正弦信号摆动,当机器人需要转弯的时候,脊柱向转弯相反的方向弯曲,偏置项的大小与转弯的半径的大小成正比。
CN202010570039.2A 2020-06-21 2020-06-21 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法 Active CN111552301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010570039.2A CN111552301B (zh) 2020-06-21 2020-06-21 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010570039.2A CN111552301B (zh) 2020-06-21 2020-06-21 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法

Publications (2)

Publication Number Publication Date
CN111552301A true CN111552301A (zh) 2020-08-18
CN111552301B CN111552301B (zh) 2022-05-20

Family

ID=72003466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010570039.2A Active CN111552301B (zh) 2020-06-21 2020-06-21 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法

Country Status (1)

Country Link
CN (1) CN111552301B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112034888A (zh) * 2020-09-10 2020-12-04 南京大学 一种固定翼无人机自主控制协作策略训练方法
CN112631131A (zh) * 2020-12-19 2021-04-09 北京化工大学 一种四足机器人运动控制自生成和实物迁移方法
CN112987742A (zh) * 2021-02-08 2021-06-18 扬州大学 一种机器人路径规划方法和规划系统
CN113305879A (zh) * 2021-04-09 2021-08-27 南开大学 基于关节角度和肌肉长度测量的机器人控制系统及方法
CN113467249A (zh) * 2021-07-23 2021-10-01 福州大学 基于跟踪误差和时变系数预测的蛇形机器人自适应路径跟随控制器及其设计方法
CN114355897A (zh) * 2021-12-15 2022-04-15 同济大学 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法
CN114526738A (zh) * 2022-01-25 2022-05-24 中国科学院深圳先进技术研究院 一种基于深度强化学习的移动机器人视觉导航方法及装置
CN114609918A (zh) * 2022-05-12 2022-06-10 齐鲁工业大学 一种四足机器人运动控制方法、系统、存储介质及设备
WO2022166067A1 (zh) * 2021-02-04 2022-08-11 武汉工程大学 一种多机重载搬运机器人协同牵引的系统与方法
WO2022241556A1 (en) * 2021-05-20 2022-11-24 Ai Redefined Inc. Systems and methods for real-time reinforcement learning
CN116540553A (zh) * 2023-07-05 2023-08-04 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于强化学习的移动机器人安全运动方法
CN116690588A (zh) * 2023-08-07 2023-09-05 南京云创大数据科技股份有限公司 多机械臂多任务的目标获取方法、装置、设备及存储介质
WO2023202312A1 (zh) * 2022-04-19 2023-10-26 贵州翰凯斯智能技术有限公司 基于深度强化学习的双点渐进成形制造方法及装置
WO2023212808A1 (en) * 2022-05-06 2023-11-09 Ai Redefined Inc. Systems and methods for managing interaction records between ai agents and human evaluators
CN117409517A (zh) * 2023-10-19 2024-01-16 光谷技术有限公司 基于视频ai行为分析的语音告警系统及方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473851B1 (en) * 1999-03-11 2002-10-29 Mark E Plutowski System for combining plurality of input control policies to provide a compositional output control policy
CN102708377A (zh) * 2012-04-25 2012-10-03 中国科学院计算技术研究所 虚拟人组合任务规划方法
WO2014201422A2 (en) * 2013-06-14 2014-12-18 Brain Corporation Apparatus and methods for hierarchical robotic control and robotic training
US20140371912A1 (en) * 2013-06-14 2014-12-18 Brain Corporation Hierarchical robotic controller apparatus and methods
CN105881525A (zh) * 2016-03-09 2016-08-24 北京大学 类蝾螈机器人
CN110032782A (zh) * 2019-03-29 2019-07-19 银江股份有限公司 一种城市级智能交通信号控制系统及方法
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110764416A (zh) * 2019-11-11 2020-02-07 河海大学 基于深度q网络的仿人机器人步态优化控制方法
CN110764415A (zh) * 2019-10-31 2020-02-07 清华大学深圳国际研究生院 一种四足机器人腿部运动的步态规划方法
CN110928189A (zh) * 2019-12-10 2020-03-27 中山大学 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
US20210162589A1 (en) * 2018-04-22 2021-06-03 Google Llc Systems and methods for learning agile locomotion for multiped robots
US20210325894A1 (en) * 2018-09-14 2021-10-21 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473851B1 (en) * 1999-03-11 2002-10-29 Mark E Plutowski System for combining plurality of input control policies to provide a compositional output control policy
CN102708377A (zh) * 2012-04-25 2012-10-03 中国科学院计算技术研究所 虚拟人组合任务规划方法
WO2014201422A2 (en) * 2013-06-14 2014-12-18 Brain Corporation Apparatus and methods for hierarchical robotic control and robotic training
US20140371912A1 (en) * 2013-06-14 2014-12-18 Brain Corporation Hierarchical robotic controller apparatus and methods
CN105881525A (zh) * 2016-03-09 2016-08-24 北京大学 类蝾螈机器人
US20210162589A1 (en) * 2018-04-22 2021-06-03 Google Llc Systems and methods for learning agile locomotion for multiped robots
US20210325894A1 (en) * 2018-09-14 2021-10-21 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
CN110032782A (zh) * 2019-03-29 2019-07-19 银江股份有限公司 一种城市级智能交通信号控制系统及方法
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110764415A (zh) * 2019-10-31 2020-02-07 清华大学深圳国际研究生院 一种四足机器人腿部运动的步态规划方法
CN110764416A (zh) * 2019-11-11 2020-02-07 河海大学 基于深度q网络的仿人机器人步态优化控制方法
CN110928189A (zh) * 2019-12-10 2020-03-27 中山大学 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
GEORGIOS PIERRIS: "Learning Robot Control Using a Hierarchical SOM-Based Encoding", 《IEEE TRANSACTIONS ON COGNITIVE AND DEVELOPMENTAL SYSTEMS》 *
ROBERT KOZMA等: "Implementing Reinforcement Learning in the ~ Chaotic KIV Model using Mobile Robot AIBO", 《2004 IEEERSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS)》 *
SHUICHI FUKUNAGA等: "Reinforcement learning for a snake-like robot", 《IEEE CONFERENCE ON ROBOTICS, AUTOMATION AND MECHATRONICS, 2004》 *
YOUNGGIL CHO等: "Adaptation to environmental change using reinforcement learning for robotic salamander", 《INTELLIGENT SERVICE ROBOTICS》 *
方勇纯等: "基于路径积分强化学习方法的蛇形机器人目标导向运动", 《模式识别与人工智能》 *
薛方正等: "基于CPG的双足机器人多层步行控制器设计", 《控制与决策》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112034888A (zh) * 2020-09-10 2020-12-04 南京大学 一种固定翼无人机自主控制协作策略训练方法
CN112631131A (zh) * 2020-12-19 2021-04-09 北京化工大学 一种四足机器人运动控制自生成和实物迁移方法
WO2022166067A1 (zh) * 2021-02-04 2022-08-11 武汉工程大学 一种多机重载搬运机器人协同牵引的系统与方法
CN112987742A (zh) * 2021-02-08 2021-06-18 扬州大学 一种机器人路径规划方法和规划系统
CN113305879A (zh) * 2021-04-09 2021-08-27 南开大学 基于关节角度和肌肉长度测量的机器人控制系统及方法
WO2022241556A1 (en) * 2021-05-20 2022-11-24 Ai Redefined Inc. Systems and methods for real-time reinforcement learning
CN113467249A (zh) * 2021-07-23 2021-10-01 福州大学 基于跟踪误差和时变系数预测的蛇形机器人自适应路径跟随控制器及其设计方法
CN113467249B (zh) * 2021-07-23 2023-01-06 福州大学 基于跟踪误差和时变系数预测的蛇形机器人自适应路径跟随控制器及其设计方法
CN114355897A (zh) * 2021-12-15 2022-04-15 同济大学 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法
CN114355897B (zh) * 2021-12-15 2023-08-29 同济大学 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法
CN114526738B (zh) * 2022-01-25 2023-06-16 中国科学院深圳先进技术研究院 一种基于深度强化学习的移动机器人视觉导航方法及装置
CN114526738A (zh) * 2022-01-25 2022-05-24 中国科学院深圳先进技术研究院 一种基于深度强化学习的移动机器人视觉导航方法及装置
WO2023202312A1 (zh) * 2022-04-19 2023-10-26 贵州翰凯斯智能技术有限公司 基于深度强化学习的双点渐进成形制造方法及装置
WO2023212808A1 (en) * 2022-05-06 2023-11-09 Ai Redefined Inc. Systems and methods for managing interaction records between ai agents and human evaluators
CN114609918B (zh) * 2022-05-12 2022-08-02 齐鲁工业大学 一种四足机器人运动控制方法、系统、存储介质及设备
CN114609918A (zh) * 2022-05-12 2022-06-10 齐鲁工业大学 一种四足机器人运动控制方法、系统、存储介质及设备
CN116540553A (zh) * 2023-07-05 2023-08-04 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于强化学习的移动机器人安全运动方法
CN116540553B (zh) * 2023-07-05 2023-08-25 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于强化学习的移动机器人安全运动方法
CN116690588A (zh) * 2023-08-07 2023-09-05 南京云创大数据科技股份有限公司 多机械臂多任务的目标获取方法、装置、设备及存储介质
CN116690588B (zh) * 2023-08-07 2023-10-10 南京云创大数据科技股份有限公司 多机械臂多任务的目标获取方法、装置、设备及存储介质
CN117409517A (zh) * 2023-10-19 2024-01-16 光谷技术有限公司 基于视频ai行为分析的语音告警系统及方法
CN117409517B (zh) * 2023-10-19 2024-05-07 光谷技术有限公司 基于视频ai行为分析的语音告警系统及方法

Also Published As

Publication number Publication date
CN111552301B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN111552301B (zh) 一种基于强化学习的蝾螈机器人路径跟踪的分层控制方法
Mac et al. Heuristic approaches in robot path planning: A survey
Liu et al. A survey on underactuated robotic systems: bio-inspiration, trajectory planning and control
CN112666939B (zh) 一种基于深度强化学习的机器人路径规划算法
Chai et al. A survey of the development of quadruped robots: Joint configuration, dynamic locomotion control method and mobile manipulation approach
Ren et al. A new fuzzy intelligent obstacle avoidance control strategy for wheeled mobile robot
Kashyap et al. Optimization of stability of humanoid robot NAO using ant colony optimization tuned MPC controller for uneven path
Sabelhaus et al. Model-predictive control of a flexible spine robot
Zhu et al. A survey of sim-to-real transfer techniques applied to reinforcement learning for bioinspired robots
Gienger et al. Task maps in humanoid robot manipulation
Zhao et al. Intelligent control of multilegged robot smooth motion: a review
Hu et al. Learning a faster locomotion gait for a quadruped robot with model-free deep reinforcement learning
Liu et al. Modeling and control of robotic manipulators based on artificial neural networks: a review
Yu et al. Multi-modal legged locomotion framework with automated residual reinforcement learning
Xu et al. Learning strategy for continuous robot visual control: A multi-objective perspective
Yue Learning locomotion for legged robots based on reinforcement learning: A survey
Jiang et al. Evolutionary gait transfer of multi-legged robots in complex terrains
Wright et al. Intelligent approaches in locomotion
Zhang et al. Reinforcement learning-based hierarchical control for path following of a salamander-like robot
Fan et al. A Review of Quadruped Robots: Structure, Control, and Autonomous Motion
Wang et al. Obstacle detection and obstacle-surmounting planning for a wheel-legged robot based on Lidar
Chemin et al. Learning to steer a locomotion contact planner
Fukuda et al. Multilocomotion robot: novel concept, mechanism, and control of bio-inspired robot
Sørensen et al. Modular neural control for object transportation of a bio-inspired hexapod robot
Abdulwahab et al. Quadruped Robots Mechanism, Structural Design, Energy, Gait, Stability, and Actuators: A Review Study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant