CN106094817B - 基于大数据方式的强化学习仿人机器人步态规划方法 - Google Patents
基于大数据方式的强化学习仿人机器人步态规划方法 Download PDFInfo
- Publication number
- CN106094817B CN106094817B CN201610423029.XA CN201610423029A CN106094817B CN 106094817 B CN106094817 B CN 106094817B CN 201610423029 A CN201610423029 A CN 201610423029A CN 106094817 B CN106094817 B CN 106094817B
- Authority
- CN
- China
- Prior art keywords
- function
- value
- robot
- tuple
- gait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于大数据方式的强化学习仿人机器人步态规划方法,首先,通过装配在仿人机器人上的传感器获取状态信息;然后使用Q学习算法计算动作,对离线步态进行修正,同时获得立即回报值;接着将以上信息以四元组的形式,使用大数据存储方法保存到文件中;最后随机抽取四元组结合RBF神经网络更新Q函数。本发明方法能够对仿人机器人在不平整环境情况下的步行运动进行平稳调控,相较于仅利用离线步态指导机器人行走的方法,拥有更高的效率和优势,实验证明了该方法的可行性和有效性。
Description
技术领域
本发明涉及仿人机器人技术领域,尤其是指一种基于大数据方式的强化学习仿人机器人步态规划方法。
背景技术
仿人机器人不仅具有与人类相似的外观,更重要的是能够模仿人类的运动方式,决策思维方式以及拥有对环境的学习与适应能力,从而到达“类人”的效果。
相较于履带式、轮式机器人,仿人机器人的步行方式更加灵活,能够在多种复杂地形中自由活动,移动空间更加广阔,适应能力也更加强大。目前,完成仿人机器人腿部结构的设计和制造并不困难,如何进行动态步行控制才是实现仿人机器人基本功能的核心问题。因为仿人机器人的组成结构涉及到多门学科技术,具有变结构、耦合关系强、模块独立性差等特点,使得对机器人在活动过程的操控更加困难。加上模型应用的误差,能量消耗等现实问题,导致机器人的实际运行与理论最优状态有较大出入。如果仿人机器人的基本运动功能都不能很好地实现,那么在执行其他高级任务时,例如识别并搬运物体,从摔倒状态恢复站立状态等就会遇到很大困难。稳定的步行功能是其他高级功能的基础。所以,解决仿人机器人步态控制问题对于仿人机器人的发展和完善有重要意义。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于大数据方式的强化学习仿人机器人步态规划方法,该方法能够使仿人机器人在复杂地形环境下平稳行走,也增强了机器人的自主学习和适应能力。
为实现上述目的,本发明所提供的技术方案为:基于大数据方式的强化学习仿人机器人步态规划方法,首先,需要通过装配在仿人机器人上的传感器获取状态信息,仿人机器人行走时的稳定程度主要受支撑脚上俯仰方向的舵机影响,因此在所定义的状态信息中,应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息,此外还应指明躯干在俯仰方向的倾斜角度,俯仰方向的角速度表明了仿人机器人的稳定程度;
其次,使用倒立摆模型预先生成仿人机器人的离线步态,用于仿人机器人步行的基本标准;
假设在时刻t,智能主体通过执行动作at,使环境状态从st变为st+1,立即回报值为r,则Q函数按照以下公式进行更新:
Q(st,a,t+1)=λQ(st,a,t)+(1-λ)[r+γmax{Q(st+1,b,t)/b∈A}]
其中,A为所有可能的动作集合;λ为学习率,取值为[0,1];γ为衰减因子,取值为(0,1);在该公式当中,Q(st+1,b,t)为一个稍晚的值,以γ的概率对其折扣并加上立即奖励,并以一定的学习率对前一个Q值进行更新估计;当Q函数的值收敛于最优值Q时,则停止更新;此时智能主体可以根据Q值选择相应的最优的动作序列;
当获得动作之后,调整髋关节的舵机方向,改变其角度值;智能主体每次执行动作之后都会获得一个四元组(st,at,st+1,r),该四元组储存了t时刻的经验;获取四元组后,使用大数据存储的方法把四元组保存到外部文件中或云端以便后续过程的使用,文件中每一行数据就是四元经验组,每经过设定的迭代次数,在文件中抽取四元组对Q函数进行更新,使规划的策略达到最优;
接下来随机抽取数据更新Q函数,利用随机函数生成的结果如果小于预设值,就抽取并使用当前这组数据,否则跳过;
在Q函数的更新过程中,使用RBF神经网络对连续空间下的状态和行为进行拟合,RBF神经网络的输入节点为7个,隐藏层1个,输出节点为1个;输入向量是s(t)和a(t),分别表示Q函数在t时刻输入的状态和动作,y(t)是隐藏层的激活函数,对于第i个神经元而言,使用以下函数计算输出:
其中,μi和σi分别是第i个神经元的中心和标准差;
输出层中,Q(t)是Q函数的输出,用如下公式进行更新:
下式定义了Q学习的误差δ,该误差表明了Q函数在学习过程中的收敛程度,定义判断该系统的学习性能的标准:
应用后向传播算法和梯度下降法,对RBF神经网络中每个神经元的输出权重进行更新:
其中,αw为学习率,对于E(t)和wi(t),有以下关系:
根据链式法则,对于权重wi,更新公式变为:
wi(t+1)=wi(t)+αwδQ(t)yi(t)
对于每个神经元径向基函数的中心和标准差μi和σi,有以下更新公式:
其中,αμ和ασ分别为RBF函数中心和标准差的学习率。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明方法在已有强化学习Q学习的基础上,采取大数据方法,提高了信息的利用率,加快了收敛速度。
2、本发明方法简单易行,能够在线控制仿人机器人的步行运动,适时调整机器人的步态,帮助仿人机器人在不平整的地面上实现稳定行走,具有一定的现实意义和应用价值。
附图说明
图1为大数据抽取流程图。
图2为利用RBF神经网络对Q函数进行拟合。
图3为算法整体流程框架。
图4为基于控制器的仿人机器人行走初期示意图。
图5为基于控制器的仿人机器人行走初期的角速度变化。
图6为基于控制器的仿人机器人行走后期示意图。
图7为基于控制器的仿人机器人行走后期的角速度变化。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所述的基于大数据方式的强化学习仿人机器人步态规划方法,具体情况如下:
首先,需要通过装配在仿人机器人上的传感器获取状态信息。仿人机器人行走时的稳定程度主要受支撑脚上俯仰方向的舵机影响,因此在所定义的状态信息中,应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息。此外还应指明躯干在俯仰方向的倾斜角度。俯仰方向的角速度表明了仿人机器人的稳定程度。然后应用本文提出的基于大数据方式的强化学习仿人机器人步态规划方法对离线步态做出实时调整,以便能够适应不平整的地形环境。
其次利用现有的仿人机器人理论,如三维倒立摆模型等,生成仿人机器人的离线步态,用于仿人机器人步行的基本标准。
假设在时刻t,智能主体通过执行动作at,使环境状态从st变为st+1,立即回报值为r,则Q函数按照以下公式进行更新:
Q(st,a,t+1)=λQ(st,a,t)+(1-λ)[r+γmax{Q(st+1,b,t)/b∈A}]
其中,A为所有可能的动作集合;λ为学习率,取值为[0,1];γ为衰减因子,取值为(0,1);在该公式当中,Q(st+1,b,t)为一个稍晚的值,因此具有较高的概率是正确的。以γ的概率对其折扣并加上立即奖励,并以一定的学习率对前一个Q值进行更新估计。当Q函数的值收敛于最优值Q时,则停止更新。此时智能主体可以根据Q值选择相应的最优的动作序列。
当获得动作之后,调整髋关节的舵机方向,改变其角度值。在传统的Q学习过程中,智能主体每次执行动作之后都会获得一个四元组(st,at,st+1,r),该四元组储存了t时刻的经验。如果按照一般Q函数的更新方式,容易造成收敛缓慢或无法收敛的情况。利用大数据的方法可以提高了数据的利用率,有效地解决这些问题。获取四元组后,使用大数据存储的方法把四元组保存到外部文件中或云端以便后续过程的使用。文件中每一行数据就是四元经验组。每经过一定的迭代次数,在文件中抽取四元组对Q函数进行更新,使规划的策略达到最优。
接下来随机抽取数据更新Q函数。例如文件内一共有1000行数据,我们需要使用其中的100组数据更新Q,则每组被抽到的概率为1/10。利用随机函数生成的结果如果小于1/10,就抽取并使用当前这组数据,否则跳过。在这里我们使用变量random_rate表示抽取数据占所有数据的比例。该方法保证了在当前时刻下任意一组四元组都有均等的机会被抽取。具体流程见图1。
在Q函数的更新过程中,我们使用RBF神经网络对连续空间下的状态和行为进行拟合,如图2所示。输入向量是s(t)和a(t),分别表示Q函数在t时刻输入的状态和动作。y(t)是隐藏层的激活函数。对于第i个神经元而言,可以使用以下函数计算输出:
其中,μi和σi分别是第i个神经元的中心和标准差;
输出层中,Q(t)是Q函数的输出,用如下公式进行更新:
下式定义了Q学习的误差δ,该误差表明了Q函数在学习过程中的收敛程度,定义判断该系统的学习性能的标准:
应用后向传播算法和梯度下降法,对RBF神经网络中每个神经元的输出权重进行更新:
其中,αw为学习率,对于E(t)和wi(t),有以下关系:
根据链式法则,对于权重wi,更新公式变为:
wi(t+1)=wi(t)+αwδQ(t)yi(t)
对于每个神经元径向基函数的中心和标准差μi和σi,有以下更新公式:
其中,αμ和ασ分别为RBF函数中心和标准差的学习率,具体流程见图3。
在实验中,使用角速度ω来评判仿人机器人步行时的平稳程度。仿人机器人的角速度可以使用陀螺仪来获取。陀螺仪能够测量机器人在俯仰、偏转和滚动三个方向上的角速度。角速度越小,说明仿人机器人越稳定,给出仿人机器人行走过程中的稳定程度的判定标准:
其中ω(t)是t时刻获取的机器人角速度,Δt角速度获取的时间间隔,n是采样总次数。为了使结果更加客观,规定如果机器人在行走过程中失败,则在此次获得的error_sum加上一个比较大的值,本实验中设置的是50。即如果仿人机器人摔倒,则在error_sum上加50,区别其他普通的实验情况。这能够保证实验结果更加具有说服力。
在实验中,我们使用了基于RBF神经网络和大数据方法的Q学习控制器对仿真模型的步行运动进行调整。该控制器的输出直接作用在仿人机器人的髋关节上,改变髋关节的舵机方向,其他关节的动作则使用离线步态生成的动作进行规划。
在实验初期,即还没有进行充分的在线学习时,仿人机器人的行走是不稳定的,甚至会出现摔倒的结果,我们可以从图4和图5中看到,仿人机器人在摔倒时,机器人躯干俯仰方向上的角速度发生了十分剧烈的变化,因为我们设定如果机器人摔倒,就视作本次行走失败,在error_sum上加50,所以实验初期error_sum一度接近80。
经过大量的训练之后,仿人机器人的行走逐渐趋于稳定,我们可以从图6和图7中看到,仿人机器人能够在不平整地面上实现平稳行走。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (1)
1.基于大数据方式的强化学习仿人机器人步态规划方法,其特征在于:首先,需要通过装配在仿人机器人上的传感器获取状态信息,仿人机器人行走时的稳定程度受支撑脚上俯仰方向的舵机影响,因此在所定义的状态信息中,应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息,此外还应指明躯干在俯仰方向的倾斜角度,俯仰方向的角速度表明了仿人机器人的稳定程度;
其次,使用倒立摆模型预先生成仿人机器人的离线步态,用于仿人机器人步行的基本标准;
假设在时刻t,智能主体通过执行动作at,使环境状态从st变为st+1,立即回报值为r,则Q函数按照以下公式进行更新:
Q(st,a,t+1)=λQ(st,a,t)+(1-λ)[r+γmax{Q(st+1,b,t)/b∈A}]
其中,A为所有可能的动作集合;λ为学习率,取值为[0,1];γ为衰减因子,取值为(0,1);在该公式当中,Q(st+1,b,t)为一个稍晚的值,以γ的概率对其折扣并加上立即奖励,并以一定的学习率对前一个Q值进行更新估计;当Q函数的值收敛于最优值Q时,则停止更新;此时智能主体可以根据Q值选择相应的最优的动作序列;
当获得动作之后,调整髋关节的舵机方向,改变其角度值;智能主体每次执行动作之后都会获得一个四元组(st,at,st+1,r),该四元组储存了t时刻的经验;获取四元组后,使用大数据存储的方法把四元组保存到外部文件中或云端以便后续过程的使用,文件中每一行数据就是四元经验组,每经过设定的迭代次数,在文件中抽取四元组对Q函数进行更新,使规划的策略达到最优;
接下来随机抽取数据更新Q函数,利用随机函数生成的结果如果小于预设值,就抽取并使用当前这组数据,否则跳过;
在Q函数的更新过程中,使用RBF神经网络对连续空间下的状态和行为进行拟合,RBF神经网络的输入节点为7个,隐藏层1个,输出节点为1个;输入向量是s(t)和a(t),分别表示Q函数在t时刻输入的状态和动作,y(t)是隐藏层的激活函数,对于第i个神经元而言,使用以下函数计算输出:
其中,μi和σi分别是第i个神经元的中心和标准差;
输出层中,Q(t)是Q函数的输出,用如下公式进行更新:
下式定义了Q学习的误差δ,该误差表明了Q函数在学习过程中的收敛程度,定义判断该系统的学习性能的标准:
应用后向传播算法和梯度下降法,对RBF神经网络中每个神经元的输出权重进行更新:
其中,αw为学习率,对于E(t)和wi(t),有以下关系:
根据链式法则,对于权重wi,更新公式变为:
wi(t+1)=wi(t)+αwδQ(t)yi(t)
对于每个神经元径向基函数的中心μi和标准差σi,有以下更新公式:
其中,αμ和ασ分别为RBF函数中心和标准差的学习率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610423029.XA CN106094817B (zh) | 2016-06-14 | 2016-06-14 | 基于大数据方式的强化学习仿人机器人步态规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610423029.XA CN106094817B (zh) | 2016-06-14 | 2016-06-14 | 基于大数据方式的强化学习仿人机器人步态规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106094817A CN106094817A (zh) | 2016-11-09 |
CN106094817B true CN106094817B (zh) | 2018-12-11 |
Family
ID=57846010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610423029.XA Active CN106094817B (zh) | 2016-06-14 | 2016-06-14 | 基于大数据方式的强化学习仿人机器人步态规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106094817B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933100A (zh) * | 2017-03-19 | 2017-07-07 | 北京工业大学 | 一种基于人体运动捕捉数据的仿人机器人步态规划方法 |
CN107065867B (zh) * | 2017-03-28 | 2019-05-31 | 浙江大学 | 一种面向未知崎岖地形的四足机器人运动规划方法 |
CN108762249B (zh) * | 2018-04-26 | 2019-11-08 | 常熟理工学院 | 基于近似模型多步优化的清洁机器人最优路径规划方法 |
CN108549237B (zh) * | 2018-05-16 | 2020-04-28 | 华南理工大学 | 基于深度增强学习的预观控制仿人机器人步态规划方法 |
CN112476429B (zh) * | 2020-10-10 | 2022-06-21 | 华南理工大学广州学院 | 一种机器人步态控制方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3443077B2 (ja) * | 1999-09-20 | 2003-09-02 | ソニー株式会社 | ロボットの運動パターン生成装置及び運動パターン生成方法、並びにロボット |
CN100569579C (zh) * | 2008-07-04 | 2009-12-16 | 清华大学 | 一种双足机器人动力式行走方法 |
CN100590554C (zh) * | 2008-07-15 | 2010-02-17 | 华南理工大学 | 基于确定学习理论的机器人行走控制方法 |
CN101414189A (zh) * | 2008-10-28 | 2009-04-22 | 北京理工大学 | 仿人机器人稳定行走的上身姿态控制的方法和装置 |
JP5330138B2 (ja) * | 2008-11-04 | 2013-10-30 | 本田技研工業株式会社 | 強化学習システム |
JP5465137B2 (ja) * | 2010-04-22 | 2014-04-09 | 本田技研工業株式会社 | ロボットおよび制御システム |
CN104932264B (zh) * | 2015-06-03 | 2018-07-20 | 华南理工大学 | 基于rbf网络的q学习框架仿人机器人稳定控制方法 |
-
2016
- 2016-06-14 CN CN201610423029.XA patent/CN106094817B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106094817A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106094817B (zh) | 基于大数据方式的强化学习仿人机器人步态规划方法 | |
CN108549237B (zh) | 基于深度增强学习的预观控制仿人机器人步态规划方法 | |
CN110989576B (zh) | 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法 | |
Mastalli et al. | Trajectory and foothold optimization using low-dimensional models for rough terrain locomotion | |
Shahbazi et al. | Unified modeling and control of walking and running on the spring-loaded inverted pendulum | |
CN104932264B (zh) | 基于rbf网络的q学习框架仿人机器人稳定控制方法 | |
Yi et al. | Online learning of a full body push recovery controller for omnidirectional walking | |
Lin et al. | Gait balance and acceleration of a biped robot based on Q-learning | |
Yang et al. | Learning whole-body motor skills for humanoids | |
CN108931988B (zh) | 一种基于中枢模式发生器的四足机器人的步态规划方法、中枢模式发生器及机器人 | |
CN109597310A (zh) | 一种基于扰动观测器的轮式移动机器人轨迹跟踪方法 | |
CN113031528B (zh) | 一种基于深度确定性策略梯度的多足机器人非结构性地面运动控制方法 | |
CN103204193A (zh) | 一种欠驱动双足机器人行走控制方法 | |
CN111290389B (zh) | 一种双足机器人落脚位置控制系统与方法 | |
Wu et al. | Motion control for biped robot via DDPG-based deep reinforcement learning | |
CN108572553A (zh) | 一种四足机器人的运动闭环控制方法 | |
Wu et al. | Posture self-stabilizer of a biped robot based on training platform and reinforcement learning | |
Deng et al. | Bifurcation gait suppression of a bipedal walking robot with a torso based on model predictive control | |
Rodriguez et al. | Combining simulations and real-robot experiments for Bayesian optimization of bipedal gait stabilization | |
US20220324109A1 (en) | Method and apparatus for controlling multi-legged robot, and storage medium | |
Hu et al. | Learning a faster locomotion gait for a quadruped robot with model-free deep reinforcement learning | |
Singh et al. | Learning bipedal walking on planned footsteps for humanoid robots | |
Bhounsule et al. | Control policies for a large region of attraction for dynamically balancing legged robots: a sampling-based approach | |
Wang et al. | Locomotion planning for quadruped robot over rough terrain | |
CN116237943A (zh) | 一种结合地形约束的四足机器人控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |