CN106094813A - 基于模型相关强化学习的仿人机器人步态控制方法 - Google Patents

基于模型相关强化学习的仿人机器人步态控制方法 Download PDF

Info

Publication number
CN106094813A
CN106094813A CN201610363756.1A CN201610363756A CN106094813A CN 106094813 A CN106094813 A CN 106094813A CN 201610363756 A CN201610363756 A CN 201610363756A CN 106094813 A CN106094813 A CN 106094813A
Authority
CN
China
Prior art keywords
intensified learning
model
action
robot
correlated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610363756.1A
Other languages
English (en)
Other versions
CN106094813B (zh
Inventor
毕盛
陈奇石
董敏
闵华清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201610363756.1A priority Critical patent/CN106094813B/zh
Publication of CN106094813A publication Critical patent/CN106094813A/zh
Application granted granted Critical
Publication of CN106094813B publication Critical patent/CN106094813B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于模型相关强化学习的仿人机器人步态控制方法,包括步骤:1)为仿人机器人行走前后稳定控制任务定义强化学习框架;2)使用基于稀疏在线高斯过程的模型相关强化学习方法对仿人机器人进行步态控制;3)使用PID控制器对强化学习仿人机器人控制器的动作选择方法进行改进,改进操作为使用PID控制器获取强化学习控制器动作选择操作的寻优初始点。本发明使用强化学习来对仿人机器人行走过程中的步态进行控制,从而使仿人机器人的行走控制能通过与环境交互来进行自主调节,达到更好的控制效果,使仿人机器人在前后方向上保持稳定。

Description

基于模型相关强化学习的仿人机器人步态控制方法
技术领域
本发明涉及仿人机器人步行稳定控制和强化学习领域,尤其是指一种基于模型相关强化学习的仿人机器人步态控制方法。
背景技术
在控制仿人机器人步行时,我们通常使用正逆运动学等理论的出仿人机器人各关节的静态轨迹,然后使用这些轨迹控制仿人机器人进行行走。只是这样得出的机器人关节轨迹只能用于理想平整地面上的行走,而无法在不平整的地面上行走,因为这些关节轨迹在规划时就假设了所处的环境是平整的地面,没有其它因素的干扰,而在非平整地面脚底与地面的接触面与在平整地面上是不同的。因此,当机器人在非平整的平面上行走时需要加入在线反馈式平稳控制器,对仿人机器人行走进行在线调整。反馈式平稳控制器即利用传感器等手段,收集当前机器人的一些信息,来判断当前机器人是否稳定,如果不稳定,则在线输出对静态步态的调整,让机器人重新达到稳定,使机器人能在非平整面上平稳地行走。
目前为止,比较常用的控制器有PID控制器,PID控制器实现简单,但其也有较大的局限性。PID是一个线性的控制器,其要求环境为线性近似模型,但仿人机器人系统是一个复杂的非线性模型,因此PID控制器并不能完美的符合系统的控制需求。
为了能更好地对仿人机器人行走稳定进行控制,使用强化学习对仿人器人进行控制获得了广泛的关注,但将强化学习应用于仿人机器人的行走稳定控制也面临着许多问题,仿人机器人的状态和控制动作皆为连续,空间过大,传统的强化学习不方便应用。仿人机器人的实验成本过高,而强化学习需要进行多次的学习训练才能达到较好的控制效果。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于模型相关强化学习的仿人机器人步态控制方法,使用强化学习来对仿人机器人行走过程中的步态进行控制,从而使仿人机器人的行走控制能通过与环境交互来进行自主调节,达到更好的控制效果,使仿人机器人在前后方向上保持稳定。
为实现上述目的,本发明所提供的技术方案为:基于模型相关强化学习的仿人机器人步态控制方法,包括以下步骤:
1)为仿人机器人行走前后稳定控制任务定义强化学习框架;
2)使用基于稀疏在线高斯过程的模型相关强化学习方法对仿人机器人进行步态控制;
3)使用PID控制器对强化学习仿人机器人控制器的动作选择方法进行改进,改进操作为使用PID控制器获取强化学习控制器动作选择操作的寻优初始点。
在步骤1)中,所述的强化学习框架,包含以下要素定义:
1.1)仿人机器人的状态定义为:
s(t)=[k(t),qhl(t),qhr(t),θxz(t),ω(t)]
t表示当前的时刻,其中k(t)为指示支撑脚的情况,1代表支撑脚为左脚,0代表支撑脚位双脚,-1代表支撑脚为右脚;qhl(t),qhr(t)为t时刻左右髋关节俯仰舵机的角度;θxz(t)为俯仰方向上的躯干倾斜角度,ω(t)为俯仰方向上的角速度;
1.2)仿人机器人的动作定义为:
a(t)=[Δq]
其中,Δq是对支撑脚的髋关节俯仰舵机的离线步态轨迹的在线角度调整量;
1.3)仿人机器人的立即回报值定义为:
r ( t ) = a 1 a 2 · r 1 ( t ) r 2 ( t )
r 1 ( t ) = 0 | θ x z ( t ) | ≤ ϵ - | θ x z ( t ) | o t h e r w i s e
r2(t)=-(|ω(t)|-|ω(t-1)|)
其中,a1、a2为立即回报函数权值,ε为容许误差。
在步骤2)中,所述的基于稀疏在线高斯过程的模型相关强化学习方法,主要包含以下几个步骤:
2.1)使用稀疏在线高斯过程构建环境模型,该环境模型一共包含6个稀疏在线高斯过程模型,以仿人机器人的状态和动作为输入,以下一状态和立即回报值的预测为输出;
2.2)对Q值函数采用批更新的方法,只有当新获取的经验数目达到200个时,才对Q值函数进行更新;
2.3)使用一个基于UCB的连续动作选择方法,使用稀疏在线高斯过程的方差输出和利用环境模型对仿人机器人后继状态和立即回报值的预测,构建了一条基于UCB的动作评判函数:
F ( s , a ) = m a x a ′ γ U C B ( f e a t u r e ( s ′ , a ′ ) ) + U C B ( r s , a )
其中:
UCB(fs,a)=y(fs,a)+κδ(fs,a)
UCB(rs,a)=E(rs,a)+2σ(rs,a)
y(fs,a)是对该点的Q值的预测均值,δ(fs,a)是对该点的Q值的预测方差,E(rs,a)是立即回报值rs,a的预测均值,σ(rs,a)是rs,a的预测方差;
使用梯度下降法求解该函数来选择动作,并参考ε-greedy策略的思想,以ε的概率随机选取动作。
在步骤3)中,所述的使用PID控制器动作选择方法进行改进方法为:根据机器人的状态,获得同等条件下PID方法的控制动作,将该动作作为强化学习动作选择过程中所使用的梯度下降方法的寻优初始点;
改进后,控制器具体步骤描述如下:
①初始化强化学习控制器的模型和所要用到的参数;
②使用卡尔曼滤波等方法获取当前的仿人机器人状态;
③根据当前状态,获取相对应的PID控制器的输出;
④利用PID控制器的输出,再根据当前状态和Q值函数,使用梯度下降法求解出最优的控制动作;
⑤使用该控制动作对仿人机器人的静态行走轨迹进行调整;
⑥获取仿人机器人新的状态和立即回报值,从而得到新的训练经验,并用新的训练经验进行环境模型的更新;
⑦判断新的训练经验是否达到设定的数目,是则进行Q值函数的更新,否则回到②;
所述值函数更新流程为:
①使用模型产生一组虚拟的训练数据;
②使用该组训练数据更新按照稀疏在线高斯过程更新方法更新值函数;
③判断是否满足迭代条件,满足则停止,否则回到①。
本发明与现有技术相比,具有如下优点与有益效果:
本发明解决了传统仿人机器人步态控制器过于简单,没有自主学习能力的问题,通过使用强化学习来对仿人机器人行走过程中的步态进行控制,从而使仿人机器人的行走控制能通过与环境交互来进行自主调节,达到更好的控制效果,使仿人机器人在前后方向上保持稳定。为了能将强化学习用于仿人机器人行走前后稳定控制的任务,本发明分析仿人机器人行走的特点,为仿人机器人行走前后稳定控制任务设计了合适的强化学习框架。而为了解决传统强化学习方法不方便用于连续空间的问题(仿人机器人状态和动作空间皆为连续)以及传统Q强化学习的学习效率低下的问题,本发明使用的强化学习方法为一种基于稀疏在线高斯过程的模型相关强化学习方法。该模型相关强化学习主要的特点是使用有监督学习中的稀疏在线高斯过程回归方法对Dyna-Q强化学习中的Q值函数进行拟合和对Dyna-Q方法中的环境模型进行建模,比起传统的Dyna-Q强化学习方法需要人工对连续状态进行合适划分的处理,其能方便地应对仿人机器人的状态和动作空间皆为连续的情况。且为了提高该强化学习方法的收敛概率,使用批更新方法对Q值函数进行更新,即每获得200个新训练经验时,才对Q值函数进行更新。且本发明利用在线稀疏高斯过程能提供不确定描述的特点,使用一种改进的UCB方法进行动作选择,能指导仿人机器人控制器进行更有效的探索(即指示最有可能成为最优的动作),比起传统的强化学习,其有更高地学习效率。为了解决仿人机器人状态动作空间过大,导致控制器收敛难的问题以及提高控制性能,本发明首先通过PID控制器获取一个有一定效用的控制输出动作,并将该动作指定为强化学习中动作选择操作的寻优初始点,从而使动作选择不需要盲目的便利整个动作空间,而是在有效动作的附近进行遍历,从而提高这种强化学习控制器的学习效率和控制性能。
附图说明
图1为模型相关强化学习方法中值函数、环境模型以及实际经验的关系图。
图2为基于稀疏高斯过程的环境模型的结构图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所述的基于模型相关强化学习的仿人机器人步态控制方法,包括以下步骤:
1)为仿人机器人行走前后稳定控制任务定义强化学习框架;
2)使用基于稀疏在线高斯过程的模型相关强化学习方法对仿人机器人进行步态控制;
3)使用PID控制器对强化学习仿人机器人控制器的动作选择方法进行改进,改进操作为使用PID控制器获取强化学习控制器动作选择操作的寻优初始点。
本发明将强化学习用于仿人机器人行走前后稳定的控制,首先为该任务定义用于强化学习的框架,即定义状态、动作以及立即回报值三个要素。仿人机器人行走前后稳定控制任务的强化学习框架定义如下:
1)仿人机器人的t时刻状态定义为:
s(t)=[k(t),qhl(t),qhr(t),θxz(t),ω(t)]
t表示当前的时刻,其中k(t)为指示支撑脚的情况,1代表支撑脚为左脚,0代表支撑脚位双脚,-1代表支撑脚为右脚;qhl(t),qhr(t)为t时刻左右髋关节俯仰舵机的角度;θxz(t)为俯仰方向上的躯干倾斜角度,ω(t)为俯仰方向上的角速度。
2)仿人机器人的动作定义为:
a(t)=[Δq]
其中,Δq是对支撑脚的髋关节俯仰舵机的离线步态轨迹的在线角度调整量。
3)仿人机器人的立即回报值定义为:
r ( t ) = a 1 a 2 · r 1 ( t ) r 2 ( t )
r 1 ( t ) = 0 | θ x z ( t ) | ≤ ϵ - | θ x z ( t ) | o t h e r w i s e
r2(t)=-(|ω(t)|-|ω(t-1)|)
其中,a1、a2为立即回报函数权值,ε为容许误差。
定义好仿人强化学习框架后,就要使用具体的强化学习方法对其进行控制,以下将详细介绍基于稀疏在线高斯过程模型相关强化学习方法,该方法主要包括环境模型,Q值函数,以及动作选择方法等部分,将一一介绍:
1)总体架构:
在强化学习方法中,每次Agent与环境进行交互都会获取一个四元组的经验(st-1,at-1,st,r),其中st-1代表t-1时刻状态,at-1代表动作,st是st-1执行at-1后转移的状态,r为立即回报值,模型相关强化学习的值函数、环境模型以及实际经验的关系结构如图1所示。
从图1可以看出,本发明使用环境模型进行规划的方法是使用环境模型产生虚拟的四元组经验,然后将这些虚拟的经验按照实际经验的方式处理来进行模型规划。我们将环境模型定义为M(s,a),其对于任何一对输入(s,a),会返回对下一状态s'和立即回报值r的预测,则该方法的大致流程描述如下:
①初始化Q函数和环境模型M
②根据当前状态s按照一定策略(如ε-greedy策略)选取动作a,并执行。
③观察新的状态和立即回报值r,获取四元组经验,按照一定策略使用(1)式更新Q值函数,并更新模型M
Q(sk-1,ak-1)=r+γmax{Q(sk,a)/a∈A} (1)
④利用新的环境模型产生指定k个虚拟经验,并按照一定策略进行值函数更新
⑤判断算法是否已结束,否则回到②。
2)环境模型介绍:
2.1)环境模型的结构
环境模型M是对于任意一个的状态动作对(s,a),都会返回其预测后继状态s',以及预测立即回报值r的模型。因此模型M的输出个数应该是L+1个,其中L是状态s的维数。因为SOGP的输出只有一个,我们使用SOGP来构建这个模型时一共需要建立L+1个SOGP模型,即M={SGP1,...SGPL,SGPL+1}。这些SOGP模型都是以feature(s,a)为输入的。前L个SOGP模型分别对Agent状态的每一维进行预测,第L+1个模型对环境立即回报值进行预测。另外,前L个SOGP模型的输出不是对该维的直接预测值的概率分布,而是该维的相对变化值的概率分布,即对于某一(s,a),第i个模型的输出均值为di,则对(s,a)的后继状态s'的第i维的预测均值为:
si'=si+di (2)
综上所述,其环境模型的结构如图2所示。
2.2)环境模型输出预测
当要对(s,a)进行后继状态和立即回报值预测时,将feature(s,a)输入到每一个SOGP模型,则可以得到预测状态中每一个维数的相对变化值和立即回报值的预测概率分布,即对一个(s,a),通过模型M,可以得到一组概率分布函数{p1(d1),...pL(dL),pL+1(dL+1)},简单假设状态的每个维数以及立即回报值之间是相互独立的,于是对于每个(s,a),其后继预测状态的概率分布函数为式(3),在进行采样操作时可以分别对每个维数进行独立采样。
p(s')=p1(s1'-s1)×...×pL(s'L-sL) (3)
在IDSBQ中,我们简单的将每个维数的预测均值输出拼接在一起,作为对(s,a)的后继状态和立即回报值的预测输出(s',r)。即对于一个(s,a),模型M有均值预测输出D=(d1,...,dL)和dL+1,则有s'=s+D,r=dL+1
2.3)环境模型的更新
与值函数的更新方式不同,每获得一个四元组经验,我们立即对环境模型更新。由于环境模型M由L+1个SOGP模型组成,因此,每当获取到一个四元组经验(st-1,at-1,st,r)时,我们将其拆分成一组训练用的数据然后将每对数据用于对应SOGP模型的更新,则环境模型更新过程描述如下:
①与环境交互,获取一个经验(st-1,at-1,st,r)
②对该经验进行拆分,获得一组训练数据如下:
{ ( f e a t u r e ( s t - 1 , a t - 1 ) , s t 1 - s t - 1 1 ) , ... , ( f e a t u r e ( s t - 1 , a t - 1 ) , s t L - s t - 1 L ) , ( f e a t u r e ( s t - 1 , a t - 1 ) , r ) }
③将对应的训练数据按照SOGP模型更新方式更新对应的SOGP模型。
3)Q值函数介绍:
除了使用稀疏在线高斯过程对环境模型建模,我们也使用其对Q值函数进行拟合,并使用批更新的方式对值函数进行更新,详细介绍如下:
本发明在对值函进行更新时,希望该更新能对值函数带来重大的改变,因此使用式(4)来描述某个经验e=(s,a,s',r)的更新能对当前值函数带来的信息量I(e),
I ( e ) = | r + max a ′ Q ( s ′ , a ′ ) - Q ( s , a ) | - - - ( 4 )
对于一组经验U,我们定义其使用该组经验更新使值函数增加的信息量I(U)为:该组经验的单个经验更新所带来的信息量之和,即:
I ( U ) = Σ e I ( e ) , e ∈ U - - - ( 5 )
于是每当使用一组经验U进行更新时,我们通过判断其更新为值函数所带来的信息量是否大于指定阀值he作为迭代停止条件之一,另一迭代停止条件为迭代次数是否大于最大迭代次数Nmax。综上所述,每次进行值函数更新时,其操作流程如下:
①初始化迭代次数j=1
②根据模型随机生成W个状态的集合{s1,...,sW|si∈S(agent)},S(agent)为Agent的合法状态集合
③根据状态集合,随机生成合法的动作集合{a1,...,aW|ai∈A(si)},A(si)为状态si的合法动作集合,并将动作和相应的状态合并成一个集合{(s1,a1),...,(sW,aw)}
④根据动作状态集合和环境模型M,生成一组经验{(s1,a1,s1',r1),...,(sW,aw,s'W,rW)},将该组经验添加到集合U(初始时可能包含实际经验)
⑤根据式(5)求I(U),如果I(U)<he或j>Nmax,则迭代更新结束,否则根据式(6)、(7)将U中的经验转换成一组机器学习的训练数据,然后按照SOGP模型更新方法更新SOGP值函数模型,清空集合U,j=j+1,返回②;
y = r + γ m a x a Q ( s t , a ) - - - ( 6 )
x=feature(st-1,at-1) (7)
每次执行动作获取实际经验,当实际经验达到一定数目时,做上述值函数更新。
4)动作选择方法介绍:
本发明使用改进的UCB方法进行选择,详细介绍如下:
本发明定义动作评判函数如下:
F ( s , a ) = m a x a ′ γ U C B ( f e a t u r e ( s ′ , a ′ ) ) + U C B ( r s , a ) - - - ( 8 )
其中:
UCB(fs,a)=y(fs,a)+κδ(fs,a) (9)
UCB(rs,a)=E(rs,a)+2σ(rs,a) (10)
y(fs,a)是对该点的Q值的预测均值,δ(fs,a)是对该点的Q值的预测方差,E(rs,a)是立即回报值rs,a的预测均值,σ(rs,a)是rs,a的预测方差。
本发明使用梯度下降法求解令(8)最大的动作来进行控制动作的选择。
本发明使用髋关节上的陀螺仪PD控制器对强化学习控制器进行改进,改进方法为获取动作选择中的寻优初始点,以下将详细介绍:
本发明在选择动作的时候采用了梯度下降法的寻优方法对式(8)寻优来选择动作,这种方法所需要的计算资源和时间都比较大,且其所花费的时间和最优化效果往往与搜索初始点有较大的关系。因此我们使用具有良好的陀螺仪PD控制器,为梯度下降寻优方法提供一个较好的寻优初始点,来改善寻优的结果和所需要的时间,每次选择动作时,通过仿人机器人状态s中的角速度变量,我们就可以通过式(11)求得相同条件下陀螺仪控制器的输出u。
u = K p · ω + K d · d ω d t - - - ( 11 )
令梯度下降法中的搜索初始点a(0)=u,然后执行梯度下降法求解(8)的最优点即可。
改进的整个控制器的控制流程描述如下:
①初始化强化学习控制器的模型和所要用到的参数;
②使用卡尔曼滤波等方法获取当前的仿人机器人状态;
③根据当前状态,获取陀螺仪PD控制器的输出(即式(11)的值);
④将陀螺仪PD控制器的输出作为寻优初始点,再根据当前状态和Q值函数,使用梯度下降法求解出令式(8)最大的控制动作;
⑤使用该控制动作对仿人机器人的静态行走轨迹进行调整;
⑥获取仿人机器人新的状态和立即回报值,从而得到新的训练经验,并用新的训练经验进行环境模型的更新;
⑦判断新的训练经验是否达到一定的数目,是则进行Q值函数的更新,否则回到②。
所述值函数更新流程为:
①使用模型产生一组虚拟的训练数据;
②使用该组训练数据更新按照稀疏在线高斯过程更新方法更新值函数;
③判断是否满足迭代条件,满足则停止,否则回到①。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.基于模型相关强化学习的仿人机器人步态控制方法,其特征在于,包括以下步骤:
1)为仿人机器人行走前后稳定控制任务定义强化学习框架;
2)使用基于稀疏在线高斯过程的模型相关强化学习方法对仿人机器人进行步态控制;
3)使用PID控制器对强化学习仿人机器人控制器的动作选择方法进行改进,改进操作为使用PID控制器获取强化学习控制器动作选择操作的寻优初始点。
2.根据权利要求1所述的基于模型相关强化学习的仿人机器人步态控制方法,其特征在于,在步骤1)中,所述的强化学习框架,包含以下要素定义:
1.1)仿人机器人的状态定义为:
s(t)=[k(t),qhl(t),qhr(t),θxz(t),ω(t)]
t表示当前的时刻,其中k(t)为指示支撑脚的情况,1代表支撑脚为左脚,0代表支撑脚位双脚,-1代表支撑脚为右脚;qhl(t),qhr(t)为t时刻左右髋关节俯仰舵机的角度;θxz(t)为俯仰方向上的躯干倾斜角度,ω(t)为俯仰方向上的角速度;
1.2)仿人机器人的动作定义为:
a(t)=[Δq]
其中,Δq是对支撑脚的髋关节俯仰舵机的离线步态轨迹的在线角度调整量;
1.3)仿人机器人的立即回报值定义为:
r ( t ) = a 1 a 2 · r 1 ( t ) r 2 ( t )
r 1 ( t ) = 0 | θ x z ( t ) | ≤ ϵ - | θ x z ( t ) | o t h e r w i s e
r2(t)=-(|ω(t)|-|ω(t-1)|)
其中,a1、a2为立即回报函数权值,ε为容许误差。
3.根据权利要求1所述的基于模型相关强化学习的仿人机器人步态控制方法,其特征在于,在步骤2)中,所述的基于稀疏在线高斯过程的模型相关强化学习方法,主要包含以下几个步骤:
2.1)使用稀疏在线高斯过程构建环境模型,该环境模型一共包含6个稀疏在线高斯过程模型,以仿人机器人的状态和动作为输入,以下一状态和立即回报值的预测为输出;
2.2)对Q值函数采用批更新的方法,只有当新获取的经验数目达到200个时,才对Q值函数进行更新;
2.3)使用一个基于UCB的连续动作选择方法,使用稀疏在线高斯过程的方差输出和利用环境模型对仿人机器人后继状态和立即回报值的预测,构建了一条基于UCB的动作评判函数:
F ( s , a ) = m a x a ′ γ U C B ( f e a t u r e ( s ′ , a ′ ) ) + U C B ( r s , a )
其中:
UCB(fs,a)=y(fs,a)+κδ(fs,a)
UCB(rs,a)=E(rs,a)+2σ(rs,a)
y(fs,a)是对该点的Q值的预测均值,δ(fs,a)是对该点的Q值的预测方差,E(rs,a)是立即回报值rs,a的预测均值,σ(rs,a)是rs,a的预测方差;
使用梯度下降法求解该函数来选择动作,并参考ε-greedy策略的思想,以ε的概率随机选取动作。
4.根据权利要求1所述的基于模型相关强化学习的仿人机器人步态控制方法,其特征在于,在步骤3)中,所述的使用PID控制器动作选择方法进行改进方法为:根据机器人的状态,获得同等条件下PID方法的控制动作,将该动作作为强化学习动作选择过程中所使用的梯度下降方法的寻优初始点;
改进后,控制器具体步骤描述如下:
①初始化强化学习控制器的模型和所要用到的参数;
②使用卡尔曼滤波等方法获取当前的仿人机器人状态;
③根据当前状态,获取相对应的PID控制器的输出;
④利用PID控制器的输出,再根据当前状态和Q值函数,使用梯度下降法求解出最优的控制动作;
⑤使用该控制动作对仿人机器人的静态行走轨迹进行调整;
⑥获取仿人机器人新的状态和立即回报值,从而得到新的训练经验,并用新的训练经验进行环境模型的更新;
⑦判断新的训练经验是否达到设定的数目,是则进行Q值函数的更新,否则回到②;
所述值函数更新流程为:
①使用模型产生一组虚拟的训练数据;
②使用该组训练数据更新按照稀疏在线高斯过程更新方法更新值函数;
③判断是否满足迭代条件,满足则停止,否则回到①。
CN201610363756.1A 2016-05-26 2016-05-26 基于模型相关强化学习的仿人机器人步态控制方法 Expired - Fee Related CN106094813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610363756.1A CN106094813B (zh) 2016-05-26 2016-05-26 基于模型相关强化学习的仿人机器人步态控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610363756.1A CN106094813B (zh) 2016-05-26 2016-05-26 基于模型相关强化学习的仿人机器人步态控制方法

Publications (2)

Publication Number Publication Date
CN106094813A true CN106094813A (zh) 2016-11-09
CN106094813B CN106094813B (zh) 2019-01-18

Family

ID=57230209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610363756.1A Expired - Fee Related CN106094813B (zh) 2016-05-26 2016-05-26 基于模型相关强化学习的仿人机器人步态控制方法

Country Status (1)

Country Link
CN (1) CN106094813B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970594A (zh) * 2017-05-09 2017-07-21 京东方科技集团股份有限公司 一种柔性机械臂的轨迹规划方法
CN107179077A (zh) * 2017-05-15 2017-09-19 北京航空航天大学 一种基于elm‑lrf的自适应视觉导航方法
CN107315573A (zh) * 2017-07-19 2017-11-03 北京上格云技术有限公司 建筑机电系统的控制方法、存储介质和终端设备
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法
CN108255059A (zh) * 2018-01-19 2018-07-06 南京大学 一种基于模拟器训练的机器人控制方法
CN108693851A (zh) * 2017-03-31 2018-10-23 发那科株式会社 行为信息学习装置、机器人控制系统及行为信息学习方法
CN109116854A (zh) * 2018-09-16 2019-01-01 南京大学 一种基于强化学习的多组机器人协作控制方法及控制系统
CN110147891A (zh) * 2019-05-23 2019-08-20 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备
CN110712201A (zh) * 2019-09-20 2020-01-21 同济大学 基于感知器模型的机器人多关节自适应补偿方法和稳定器
CN111223141A (zh) * 2019-12-31 2020-06-02 东华大学 基于强化学习的自动化流水线作业效率优化系统及方法
CN111241952A (zh) * 2020-01-03 2020-06-05 广东工业大学 一种离散制造场景中的强化学习奖励自学习方法
CN112060075A (zh) * 2020-07-21 2020-12-11 深圳先进技术研究院 步态生成网络的训练方法、训练设备以及存储介质
CN112232350A (zh) * 2020-10-27 2021-01-15 广东技术师范大学 基于强化学习的水田机器人机械腿长度调整方法与系统
CN112363402A (zh) * 2020-12-21 2021-02-12 杭州未名信科科技有限公司 基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质
CN112596534A (zh) * 2020-12-04 2021-04-02 杭州未名信科科技有限公司 基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质
CN114609918A (zh) * 2022-05-12 2022-06-10 齐鲁工业大学 一种四足机器人运动控制方法、系统、存储介质及设备
CN117420760A (zh) * 2023-11-24 2024-01-19 东莞市新佰人机器人科技有限责任公司 适用于机器人自主协作的多模态控制算法融合方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103204193A (zh) * 2013-04-08 2013-07-17 浙江大学 一种欠驱动双足机器人行走控制方法
CN104932264A (zh) * 2015-06-03 2015-09-23 华南理工大学 基于rbf网络的q学习框架仿人机器人稳定控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103204193A (zh) * 2013-04-08 2013-07-17 浙江大学 一种欠驱动双足机器人行走控制方法
CN104932264A (zh) * 2015-06-03 2015-09-23 华南理工大学 基于rbf网络的q学习框架仿人机器人稳定控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YUTAKA ET AL.: "Reinforcement learning for a biped robot based on a CPG-actor-critic method", 《NEURAL NETWORKS》 *
吴娇娇: "RBF一ARX模型预侧控制在倒立摆系统稳摆控制中的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王丽杨: "基于能效优化的双足机器人自学习控制方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *
黄铨雍: "基于强化学习的仿人机器人步行控制研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108693851B (zh) * 2017-03-31 2020-05-26 发那科株式会社 行为信息学习装置、机器人控制系统及行为信息学习方法
US10730182B2 (en) 2017-03-31 2020-08-04 Fanuc Corporation Action information learning device, robot control system and action information learning method
CN108693851A (zh) * 2017-03-31 2018-10-23 发那科株式会社 行为信息学习装置、机器人控制系统及行为信息学习方法
CN106970594A (zh) * 2017-05-09 2017-07-21 京东方科技集团股份有限公司 一种柔性机械臂的轨迹规划方法
CN106970594B (zh) * 2017-05-09 2019-02-12 京东方科技集团股份有限公司 一种柔性机械臂的轨迹规划方法
CN107179077A (zh) * 2017-05-15 2017-09-19 北京航空航天大学 一种基于elm‑lrf的自适应视觉导航方法
CN107315573A (zh) * 2017-07-19 2017-11-03 北京上格云技术有限公司 建筑机电系统的控制方法、存储介质和终端设备
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法
CN108255059A (zh) * 2018-01-19 2018-07-06 南京大学 一种基于模拟器训练的机器人控制方法
CN108255059B (zh) * 2018-01-19 2021-03-19 南京大学 一种基于模拟器训练的机器人控制方法
CN109116854A (zh) * 2018-09-16 2019-01-01 南京大学 一种基于强化学习的多组机器人协作控制方法及控制系统
CN110147891A (zh) * 2019-05-23 2019-08-20 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备
CN110712201A (zh) * 2019-09-20 2020-01-21 同济大学 基于感知器模型的机器人多关节自适应补偿方法和稳定器
CN110712201B (zh) * 2019-09-20 2022-09-16 同济大学 基于感知器模型的机器人多关节自适应补偿方法和稳定器
CN111223141A (zh) * 2019-12-31 2020-06-02 东华大学 基于强化学习的自动化流水线作业效率优化系统及方法
CN111223141B (zh) * 2019-12-31 2023-10-24 东华大学 基于强化学习的自动化流水线作业效率优化系统及方法
CN111241952A (zh) * 2020-01-03 2020-06-05 广东工业大学 一种离散制造场景中的强化学习奖励自学习方法
CN112060075A (zh) * 2020-07-21 2020-12-11 深圳先进技术研究院 步态生成网络的训练方法、训练设备以及存储介质
CN112232350B (zh) * 2020-10-27 2022-04-19 广东技术师范大学 基于强化学习的水田机器人机械腿长度调整方法与系统
CN112232350A (zh) * 2020-10-27 2021-01-15 广东技术师范大学 基于强化学习的水田机器人机械腿长度调整方法与系统
CN112596534A (zh) * 2020-12-04 2021-04-02 杭州未名信科科技有限公司 基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质
CN112363402A (zh) * 2020-12-21 2021-02-12 杭州未名信科科技有限公司 基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质
CN114609918A (zh) * 2022-05-12 2022-06-10 齐鲁工业大学 一种四足机器人运动控制方法、系统、存储介质及设备
CN114609918B (zh) * 2022-05-12 2022-08-02 齐鲁工业大学 一种四足机器人运动控制方法、系统、存储介质及设备
CN117420760A (zh) * 2023-11-24 2024-01-19 东莞市新佰人机器人科技有限责任公司 适用于机器人自主协作的多模态控制算法融合方法

Also Published As

Publication number Publication date
CN106094813B (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN106094813A (zh) 基于模型相关强化学习的仿人机器人步态控制方法
Williams et al. Information theoretic mpc for model-based reinforcement learning
Li et al. A policy search method for temporal logic specified reinforcement learning tasks
Weinstein et al. Open-loop planning in large-scale stochastic domains
Bhattacharyya et al. Simulating emergent properties of human driving behavior using multi-agent reward augmented imitation learning
Doya Reinforcement learning in continuous time and space
Badgwell et al. Reinforcement learning–overview of recent progress and implications for process control
Rubies-Royo et al. A classification-based approach for approximate reachability
Saglam et al. Robust Policies via Meshing for Metastable Rough Terrain Walking.
Higuera et al. Synthesizing neural network controllers with probabilistic model-based reinforcement learning
CN112666939A (zh) 一种基于深度强化学习的机器人路径规划算法
Xu et al. Hierarchical approximate policy iteration with binary-tree state space decomposition
Jin et al. High-speed quadrupedal locomotion by imitation-relaxation reinforcement learning
CN113821045A (zh) 一种腿足机器人强化学习动作生成系统
Fawcett et al. Toward a data-driven template model for quadrupedal locomotion
Wang et al. Deep koopman data-driven optimal control framework for autonomous racing
Xi et al. Walking control of a biped robot on static and rotating platforms based on hybrid reinforcement learning
Fahmi et al. Vital: Vision-based terrain-aware locomotion for legged robots
Lee et al. Time-dependent genetic algorithm and its application to quadruped’s locomotion
Brandao et al. Multi-controller multi-objective locomotion planning for legged robots
Rabault et al. 18 Deep Reinforcement Learning Applied to Active Flow Control
Rottmann et al. Adaptive autonomous control using online value iteration with gaussian processes
CN116604532A (zh) 一种上肢康复机器人智能控制方法
Abdolmaleki et al. Contextual policy search for linear and nonlinear generalization of a humanoid walking controller
Zhang et al. Optimization of robust formation tracking control for traffic cone robots with matching and mismatching uncertainties: A fuzzy-set theory-based approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190118