CN100590554C - 基于确定学习理论的机器人行走控制方法 - Google Patents

基于确定学习理论的机器人行走控制方法 Download PDF

Info

Publication number
CN100590554C
CN100590554C CN200810029478A CN200810029478A CN100590554C CN 100590554 C CN100590554 C CN 100590554C CN 200810029478 A CN200810029478 A CN 200810029478A CN 200810029478 A CN200810029478 A CN 200810029478A CN 100590554 C CN100590554 C CN 100590554C
Authority
CN
China
Prior art keywords
neural network
robot
gait
model
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200810029478A
Other languages
English (en)
Other versions
CN101320251A (zh
Inventor
王聪
薛珍贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN200810029478A priority Critical patent/CN100590554C/zh
Publication of CN101320251A publication Critical patent/CN101320251A/zh
Application granted granted Critical
Publication of CN100590554C publication Critical patent/CN100590554C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

一种基于确定学习理论的机器人行走控制方法。该方法包括建立机器人行走的模型、建立参考步态模型、神经网络的学习、建立常数神经网络和利用常数RBF神经网络完成行走任务等过程,克服了已有神经网络学习与控制方法在学习能力上的不足,能够实现对机器人闭环控制系统未知动力学模型沿机器人所经历周期步态轨迹在局部区域内的准确学习;能够在稳定的动态控制过程中学习到系统动力学的有效知识,并将其成功地应用到后续的相同或相似的任务当中去。该方法能够在节约能量的基础上实现快速步行,并为拟人机器人的发展提供了有力的支撑。

Description

基于确定学习理论的机器人行走控制方法
技术领域
本发明涉及一种拟人的机器人行走控制方法,具体是指基于确定学习理论的机器人步态学习与控制方法。
背景技术
在科学技术高度发展的今天,机器人系统在诸多领域得到了越来越广泛的应用,如医疗,工业,等。随着机器人系统的广泛应用,智能化、人性化成为其发展的一个重要方向。双足机器人的步态控制是机器人控制领域的一个热点问题。双足机器人本身固有的不稳定性,高阶耦合动力学特性以及其步态的多阶段性,导致了其步行控制是一个具有很大挑战性的课题。
随着神经计算科学的发展,神经网络已经在分类问题、模式识别、数字信号处理等许多领域取得了很大的成就。目前关于神经网络拓扑结构的选择以及神经网络权值的调整都已经有了严格的理论分析方法。鉴于神经网络的学习能力以及它与非线性系统理论中一系列已经发展成熟的工具的融合能力,基于神经网络的控制方法在机器人领域被广泛研究。
基于神经网络的通用逼近性(学习能力),几种神经网络控制方法在机器人这个具有不确定性的高度非线性系统中应运而生,包括:基于神经网络的逆运动学控制方法,基于模糊神经网络产生双足机器人稳定步态的方法,基于模糊神经网络及H∞控制的机器人步态跟踪混合控制方法,间接自适应神经网络控制方法,以及直接自适应神经网络控制方法等等。
自适应控制从上个世纪50年代发展到今天,已经成为一个十分活跃的研究领域。尽管线性系统的自适应控制领域已经趋于成熟,但是传统的自适应控制方法对于解决非线性自适应控制问题仍存在一定的困难。自适应神经网络的提出为解决这一难题开辟了蹊径。神经网络与自适应控制方法的结合使自适应控制领域的发展迈向了一个新的台阶。
目前,自适应神经网络控制日趋成熟并取得了很大的成绩,如,在保证系统稳定性方面有着越来越严格的系统化的理论分析。合理设计的稳定自适应神经网络在机器人控制中,有着很大的优越性,如,在不需要系统精确的动力学模型的情况下,神经网络控制器仍能够在线实时地应对系统的变化,并能保证闭环系统的稳定。与传统的自适应控制方法相比,神经网络自适应控制方法并不需要像传统自适应控制方法一样计算复杂的递归矩阵。
人工神经网络这种有效的模型逼近器已经在机器人步态行走控制中得到广泛的应用。已有的基于人工神经网络的机器人行走控制方法大都以利用神经网络的通用逼近性为出发点,采用神经网络来逼近机器人系统未知动力学模型。基于人工神经网络的通用逼近性,所提控制方法可以不依赖于系统的动力学模型,因而在系统存在未知动力学模型的情况下仍然可以达到控制目的。神经网络估计参数(即神经网络权值)的收敛性与持续激励条件的满足息息相关。然而,人工神经网络隐含层输出递归向量的持续激励条件的满足是一件很困难的事情。已有的神经网络机器人行走控制方法没有对持续激励条件的满足进行深入的研究,因而在已有的控制方法中通用逼近性的实现实际上并没有得到保证,神经网络的学习能力是相当有限的。这导致了在已有的控制策略中,即使是对于完全相同的步态跟踪控制任务,神经网络都需要重复冗余而繁琐的训练过程。机器人神经网络行走控制问题中,随着机器人系统复杂性的提高,神经网络的规模会相应的增大。神经网络的重复训练过程将涉及到庞大的计算量,从而造成时间及能量的浪费。
对于许多实际系统而言,其固有的动态性能以及系统本身的确定性决定了它更希望有一种具有确定性的学习策略来对其进行控制。确定学习提供了一种动态的确定性的学习策略。确定性学习理论的命名是相对于随机理论而言的,它源于自适应控制理论。
确定学习理论具有如下主要特点,使得它能够有效地应用于机器人系统的学习控制当中(Wang C.and Hill D.J..Learning From Neural Control[J].IEEE Transactionson Neural Networks,2006,17(1):130-145):
(1)径向基函数的采用;
(2)反馈闭环控制系统中部分持续激励条件的满足;
(3)在动态的闭环控制过程中实现真正意义上的学习;
(4)闭环系统控制性能的提高。
期望步态轨迹是控制机器人行走的参考信号,直接关系到机器人步态跟踪控制系统的稳定性。机器人稳定步态的产生有几种方式:如基于傅立叶展开及遗传算法,基于零力矩点方法,基于人类的行走模式等等。
发明内容
本发明的目的在于克服上述已有方法在学习能力上的不足,提供一种基于确定学习理论的机器人行走控制方法,利用一种确定性的动态的学习方法(确定学习方法)来完成对机器人系统的行走控制,该方法能在节约能量的基础上实现机器人快速步行。
本发明的目的通过以下步骤实现:
一种基于确定学习理论的机器人行走控制方法,包括如下步骤:
(1)建立机器人行走的模型,建立以机器人关节角的位置以及关节角的角加速度作为状态变量的机器人行走模型,该模型包括已知的动力学模型、未知的动力学模型和有界的干扰;(2)建立参考步态模型,建立一个参考步态模型,来产生期望周期步态轨迹,并作为机器人各个状态变量的跟踪信号;(3)神经网络的学习,根据步骤(1)建立的机器人行走的模型和步骤(2)建立的参考步态模型建立自适应控制器,并嵌入RBF神经网络,根据李亚普诺夫稳定性理论调节RBF神经网络的权值,实现机器人步态轨迹对期望周期步态轨迹跟踪,以及RBF神经网络对机器人系统中的未知动力学模型的逼近;(4)建立常数神经网络,根据确定学习理论,沿机器人系统轨迹的RBF神经网络的神经元满足持续激励条件,其权值收敛到最优值,取权值收敛后的一段时间内各权值的均值作为学习训练结果,并利用这些结果建立常数神经网络;(5)利用常数RBF神经网络完成行走任务,采用步骤(3)所述的自适应控制器,并用步骤(4)所述常数RBF神经网络来代替步骤(3)中自适应控制器的RBF神经网络,实现机器人步态轨迹对期望周期步态轨迹的跟踪,所述常数RBF神经网络用来消除未知动力学模型的影响,提高机器人步态轨迹对期望周期步态轨迹的跟踪精度。
上述方法中,步骤(1)中所述模型包括单足支撑阶段模型和落地阶段模型,
单足支撑阶段模型为:
X · 1 = X 2 X · 2 = - M ( q ) - 1 ( C m ( q , q · ) q · + Cg ( q ) + F ( q · ) + τ d ) + M ( q ) - 1 τ ,
其中,X1=q,关节角位置向量q=[q1,q2,q3,q4,q5]T
Figure C20081002947800093
是关节角加速度向量,
Figure C20081002947800094
为摩擦项,是未知的动力学模型;τd为未知有界干扰;τ为输入力矩,M(q)是惯性矩阵,
Figure C20081002947800095
是向心矩阵,C是重力矩阵,g(q)是重力向量;
落地阶段模型为: q · + = q · - + M - 1 ( q ) J T ( JM - 1 ( q ) J T ) - 1 ( - X · sw - ) ,
其中,
Figure C20081002947800097
Xsw=[xsw,zsw]T为机器人舞动腿末端的轨迹位置,
Figure C20081002947800098
为舞动腿碰撞地面之前的瞬时速度,
Figure C20081002947800099
Figure C200810029478000910
分别为碰撞地面前后的关节角速度。
上述方法中,步骤(2)中所述参考步态模型由以下模型表征:
x a = a π [ 2 π T s t - sin ( 2 π T s t ) ] - a
z a = d 2 [ 1 - cos ( 2 π T s t ) ]
x h = 1 2 x a + a 2 - a
z h = 1 2 x a + l 1 + l 2 - d 2 ,
其中,t表示时间,xa、za为舞动腿末端的坐标,xh、zh代表机器人臀部的坐标位置,a为半步长,d为舞动腿抬脚的最大高度,l1、l2为舞动腿两连杆的长度,Ts是完成一次步态行走期望的时间。
上述方法中,步骤(3)中所述自适应控制器如下:
τ = - Z 1 - c 2 Z 2 + C m ( q , q · ) q · + Cg ( q ) + F d ( q · ) + M ( q ) α · 1 + W ^ T S ( Z ) , 其中,
Z1=X1-Xd1
α 1 = c 1 Z 1 + X · d 1
Z2=X21
α · 1 = - c 1 X 2 + c 1 X · d 1 + X · · d 1 ,
Xd1是参考步态模型的状态向量,
Figure C20081002947800104
是Xd1的导数,
Figure C20081002947800105
的导数,c1,c2是自适应控制器的反馈增益,
Figure C20081002947800107
表示神经网络,
Figure C20081002947800108
是神经网络权值向量,S(Z)是高斯函数。
上述方法中,步骤(3)所述RBF神经网络的神经元的中心点均匀分布于机器人步态轨迹所在的状态空间里,其初始值均为零,RBF神经网络权值的调节律如下:
W ^ · = Γ [ - S ( Z ) Z 2 T - σ W ^ ] ,
其中Γ、σ是调节律的调节参数,Γ>0,σ>0。
上述方法中,步骤(3)中期望步态轨迹规定了每一步的时间,若机器人舞动腿在期望的步态时间内并没有着地,则引入额外的比例微分控制器,
所述比例微分控制器由如下式子表征:
τ ′ = - Z 1 - c 2 Z 2 + C m ( q , q · ) q · + Cg ( q ) + F d ( q · ) + M ( q ) α · 1 + W ^ ′ T S ( Z ) - K p ( Z 1 + K v Z · 1 )
其中,
Figure C200810029478001011
代表了在期望的一步时间末端时刻的神经网络权值向量,Kp,Kv是比例微分控制器的控制参数。
上述方法中,步骤(3)所述的自适应控制器根据机器人步态轨迹对期望周期步态轨迹的跟踪误差的大小选择反馈增益c1,c2,跟踪误差越大,则所选择的反馈增益越大,所述反馈增益用来抑制系统未知动力学和干扰的影响,使得机器人步态轨迹对期望周期步态轨迹的跟踪误差在设定的范围内。
上述方法中,步骤(4)所述常数神经网络的权值选取方式由如下式子表征:
W ‾ mea n t ∈ [ t a , t b ] W ^ ( t )
其中,[ta,tb]代表神经网络权值在完成向其最优值收敛的过渡过程之后的一个时间段,所述常数RBF神经网络是经验知识的表达方式,能够在沿步态轨迹的局部区域里逼近机器人系统中的未知动力学模型。
本发明与现有技术相比具有如下优点和有益效果:(1)所提机器人行走控制方法能够实现对机器人闭环控制系统未知动力学模型沿机器人所经历周期步态轨迹在局部区域内的真正学习。这使得了解未知动力学模型的物理特性成为可能。(2)所提机器人行走控制方法并非无记忆式的依靠重新训练神经网络来实现跟踪控制。它能够在稳定的动态控制过程中学习到闭环系统中的有效知识,并将这些知识成功地应用到后续的相同或相似的控制任务当中去。这个知识的再利用过程无需进行冗余的神经网路参数重新调整。在实际应用中,这在节约时间及能量方面有着很重要的意义
(3)所提机器人行走控制方法为进一步地实现真正意义上的人类的学习能力,如进步展开基于模式的机器人学习与控制,提供了强有力的支撑。
附图说明
图1为5连杆平面机器人示意图。
图2为神经网络对闭环系统未知动力学模型Fv1的学习阶段的权值收敛的仿真图。
图3为神经网络对闭环系统未知动力学模型Fv2的学习阶段的权值收敛的仿真图。
图4为神经网络对闭环系统未知动力学模型Fv3的学习阶段的权值收敛的仿真图。
图5为神经网络对闭环系统未知动力学模型Fv4的学习阶段的权值收敛的仿真图。
图6为神经网络对闭环系统未知动力学模型Fv5的学习阶段的权值收敛的仿真图。
图7为收敛后的神经网络对闭环系统未知动力学模型Fv1的准确逼近的仿真图。
图8为收敛后的神经网络对闭环系统未知动力学模型Fv2的准确逼近的仿真图。
图9为收敛后的神经网络对闭环系统未知动力学模型Fv3的准确逼近的仿真图。
图10为收敛后的神经网络对闭环系统未知动力学模型Fv4的准确逼近的仿真图。
图11为收敛后的神经网络对闭环系统未知动力学模型Fv5的准确逼近的仿真图。
图12为基于经验知识的控制阶段的神经网络对闭环系统未知动力学模型Fv1的局部准确逼近的仿真图。
图13为基于经验知识的控制阶段的神经网络对闭环系统未知动力学模型Fv2的局部准确逼近的仿真图。
图14为基于经验知识的控制阶段的神经网络对闭环系统未知动力学模型Fv3的局部准确逼近的仿真图。
图15为基于经验知识的控制阶段的神经网络对闭环系统未知动力学模型Fv4的局部准确逼近的仿真图。
图16为基于经验知识的控制阶段的神经网络对闭环系统未知动力学模型Fv5的局部准确逼近的仿真图。
图17为基于经验知识的控制阶段的机器人的关节角q1、q2的跟踪情况的仿真图。
图18为基于经验知识的控制阶段的机器人的关节角q3的跟踪情况的仿真图。
图19为基于经验知识的控制阶段的机器人的关节角q4、q5的跟踪情况的仿真图。
具体实施方式
以下结合实施例及附图对本发明作进一步地详细说明,但本发明的具体实施方式不限于此。
实施例:5连杆平面机器人对期望步态的跟踪控制问题
(1)5连杆平面机器人系统模型
5连杆平面机器人的结构如图1如示,其中x表示机器人前进的距离,z表示高度,m1~m5表示各连杆的质量,l1~l5表示各连杆的长度,q1~q5表示各关节点的关节角,a1~a5表示各连杆的重心到关节点的距离,xsw,zsw为机器人舞动腿末端的轨迹位置,机器人有5个连杆组成,在着地的端点和连杆的各个关节点装有传感器来测量关节角位置,控制器来输出力矩,并通过关节角计算角速度,其行走时的动力学模型如下:
单足支撑阶段模型:
X · 1 = X 2 X · 2 = - M ( q ) - 1 ( C m ( q , q · ) q · + Cg ( q ) + F ( q · ) + τ d ) + M ( q ) - 1 τ
其中,X1=q,
Figure C20081002947800132
关节角位置向量q=[q1,q2,q3,q4,q5]T
Figure C20081002947800133
为未知的摩擦项;τd为未知有界干扰;τ为输入力矩。
M(q)={rijcos(qi-qj)+pij};
C m ( q , q · ) = { r ij sin ( q i - q j ) q · i } ;
C=diag{-hi};
g(q)=[sinq1,sinq2,sinq3,sinq4,sinq5]T
rij,pij,hi,i=1,2,…5,j=1,2,…5取值如下:
(1)rij,i=1,2,…5,j=1,2,…5给出如下:
r 11 = m 1 a 1 2 + ( m 2 + m 3 + m 4 + m 5 ) l 1 2 + I 1 ; r 22 = m 2 a 2 2 + ( m 3 + m 4 + m 5 ) l 2 2 + I 2 ;
r 33 = m 3 a 3 2 + I 3 ; r 44 = m 4 ( l 4 - a 4 ) 2 + m 5 l 4 2 + I 4 ; r55=m5(l5-a5)2+I5
ri2=m2l1a2+(m3+m4+m5)1l12;r13=m3l1a3;r14=-m4l1(l4-a4)-m5l1l4
r15=-m5l1(l5-a5);r23=m3l2l3;r24=-m4l2(l4-a4)-m5l2l4;r25=-m5l2(l5-a5);
r34=0;r35=0;r45=m5l4(15-a5);rij=rji,i=1,2,…5,j=1,2,…5.
(2)pij,i=1,2,…5,j=1,2,…5给出如下:
p 11 = p 55 = I M G 1 2 ; p 22 = p 44 = I M ( G 2 2 + G 1 2 - 2 G 1 + 1 ) ; p33=2IM(1-G2)2
p12=p21=p45=p54=IMG1(1-G1);p23=p32=p34=p43=IMG2(1-G2);
p13=p31=p14=p41=p15=p51=p24=p42=p25=p52=p35=p53=0.
IM为伺服电机的转动惯量;
G1为膝关节的驱动装置的自动传动比;
G2为臀部的驱动装置的自动传动比.
(3)hi,i=1,2,…5给出如下:
h1=(m1a1+m2l1+m3l1+m4l1+m5l1)g;h2=(m2a2+m3l2+m4l2+m5l2)g;
h3=m3a3g;h4=(m4a4-m4l4-m5l4)g;h5=(m5a5-m5l5)g.
m1=0.5kg,m2=0.5kg,m3=0.5kg,m4=0.5kg,m5=0.5kg;
l1=0.14m,l2=0.1m,l3=0.12m,l4=0.1m,l5=0.14m;
a1=0.07m,a2=0.05m,a3=0.06m,a4=0.05m,a5=0.07m;
I1=0.000883kg·m2;I2=0.000483kg·m2,I3=0.000667kg·m2,I4=0.000483kg·m2,I5=0.000883kg.m2
IM=0.05kg·m2;G1=0.5,G2=0.5;g=9.8m/s2
F d ( q · ) = diag ( 0.5,0.5,0.5,0.5,0.5 ) * sign ( q · ) ;
落地阶段模型:
假设机器人支撑腿与舞动腿之间的转换在瞬间完成。在这短暂的时间段内,机器人的关节角位置保持不变,而关节角速度在这一瞬间发生改变。
q · + = q · - + M - 1 ( q ) J T ( J M - 1 ( q ) J T ) - 1 ( - X · sw - )
其中,
Figure C20081002947800145
Xsw=[xsw,zsw]T为舞动腿末端的轨迹位置,
Figure C20081002947800146
为舞动腿碰撞地面之前的瞬时速度,
Figure C20081002947800151
分别为碰撞地面前后的关节角速度。
(2)控制目标
在系统含有未知动力学模型的情况下,实现真正的对参考步态的步态跟踪控制与学习,且像人类的步行行为一样具有一定的应对外界干扰的能力。
本实施例中,一个类似于人类步态的摆线轨迹被作为参考步态,参考步态如以下方程所描述:
x a = a π [ 2 π T s t - sin ( 2 π T s t ) ] - a
z a = d 2 [ 1 - cos ( 2 π T s t ) ]
x h = 1 2 x a + a 2 - a
z h = 1 2 x a + l 1 + l 2 - d 2
其中,xa、za为舞动腿末端的坐标,xh、zh代表机器人臀部的坐标位置,a为半步长,d为舞动腿抬脚的最大高度,l1、l2如图1所示为每一连杆的长度。基于以上这种简单的方程,针对不同的环境要求可以地通过改变方程的参数来产生不同的期望步态,Ts是完成一次步态行走期望的时间。
(3)神经网络学习阶段
神经网络学习阶段暂不考虑干扰项τd,即为零干扰阶段。
本实施例中假设:对于严格设计好的确定性机器人系统,仅仅摩擦
Figure C20081002947800158
含有未知项。
将摩擦项表示为:
F ( q · ) = F d ( q · ) + F v ( q · )
其中,
Figure C200810029478001510
Kd=diag(ki)代表已知动摩擦;为连续的未知粘性摩擦。
采用神经网络
Figure C200810029478001512
逼近未知摩擦项其中,神经网络的输入Z=X2。选取直接自适应控制器形式如下:
τ = - Z 1 - c 2 Z 2 + C m ( q , q · ) q · + Cg ( q ) + F d ( q · ) + M ( q ) α · 1 + W ^ T S ( Z )
其中,
Z1=X1-Xd1
Z2=X21
α 1 = - c 1 Z 1 + X · d 1
α · 1 = - c 1 X 2 + c 1 X · d 1 + X · · d 1
Figure C20081002947800164
调节律如下:
W ^ · = Γ [ - S ( Z ) Z 2 T - σ W ^ ]
每一步落地阶段的考虑:
期望轨迹规定了每一步的时间。若舞动腿在期望的步态时间内并没有着地,则引入额外的比例微分控制器,迫使其着地,即
τ ′ = - Z 1 - c 2 Z 2 + C m ( q , q · ) q · + Cg ( q ) + F d ( q · ) + M ( q ) α · 1 + W ^ ′ T S ( Z ) - K p ( Z 1 + K v Z · 1 )
其中,
Figure C20081002947800167
代表了在期望的一步时间末端时刻的神经网络权值向量。
本实施例中一些主要参数:
系统初始条件
X(0)=[-0.3017,-0.0044,0,0.3159,0.0186,0.0381,-0.0346,0,0.0412,-0.0406]T
控制器参数
神经网络权值初始值
Figure C20081002947800168
神经网络中心点数N=3×3×3×3×3=243,中心点均匀地分布在[-22]×[-22]×[-22]×[-22]×[-22]上;c1=2;c2=14;Γ=diag{10};σ=0.001;Kp=diag(7,7,7,7,7);Kv=diag(4,4,4,4,4);
机器人行走训练总步数Nstep=300。
图2~图6所示为神经网络权值的收敛情况,其中,W1~W5分别为5个神经网络的权值。图2为神经网络对闭环系统未知动力学模型Fv1的学习阶段的权值收敛的仿真图。图3为神经网络对闭环系统未知动力学模型Fv2的学习阶段的权值收敛的仿真图。图4为神经网络对闭环系统未知动力学模型Fv3的学习阶段的权值收敛的仿真图。图5为神经网络对闭环系统未知动力学模型Fv4的学习阶段的权值收敛的仿真图。图6为神经网络对闭环系统未知动力学模型Fv5的学习阶段的权值收敛的仿真图。特别地,只有部分神经网络的权值收敛。这与部分持续激励条件的满足是相符合的。
神经网络通用逼近性的实现,即WTS(Z)沿周期步态轨迹对未知摩擦项
Figure C20081002947800171
的逼近情况如图7~图11所示,Fv1~Fv5分别表示五个关节点对应的粘性摩擦
Figure C20081002947800172
图7为收敛后的神经网络对闭环系统未知动力学模型Fv1的准确逼近的仿真图。图8为收敛后的神经网络对闭环系统未知动力学模型Fv2的准确逼近的仿真图。图9为收敛后的神经网络对闭环系统未知动力学模型Fv3的准确逼近的仿真图。图10为收敛后的神经网络对闭环系统未知动力学模型Fv4的准确逼近的仿真图。图11为收敛后的神经网络对闭环系统未知动力学模型Fv5的准确逼近的仿真图。
(4)基于经验知识的控制阶段
基于经验知识的控制阶段考虑外界干扰项τd
选取
其中,
Figure C20081002947800174
设计矩阵∧为正定对称阵。
对于相同的跟踪任务,在加入了外界干扰τd的情况下,引入控制器
τ = - Z 1 - c 2 Z 2 + C m q · + Cg + F d + M α · 1 + W ‾ T S ( Z ) - k D S
此外,考虑到落地问题,为保证步态跟踪性能,当落地问题发生时,与神经网络训练过程中的落地控制类似,需引入额外的比例微分控制器。
考虑系统存在外部有界干扰τd=[0.4cos(t),0.4exp(-t),2-t,0.1cos(3t),0.5cos(t)]T
系统具有与神经网络学习阶段不同的初始状态
X(0)=[-0.3491,-0.0175,0,0.2618,0.2695,0.03,-0.03,0,0.05,-0.05]T
控制器参数
KD=diag(7,7,7,7,7),∧=diag(3,3,3,3,3);其余设计参数与前面的神经网络训练学习阶段相同。
机器人行走训练总步数Nstep=50。
神经网络WTS(Z)可以沿轨迹对闭环系统未知摩擦项完成准确的逼近,如图12~图16所示。系统的步态跟踪性能如图17~图19所示,其中q1~q5表示各关节点的关节角,图17为基于经验知识的控制阶段的机器人的关节角q1、q2的跟踪情况的仿真图。图18为基于经验知识的控制阶段的机器人的关节角q3的跟踪情况的仿真图。图19为基于经验知识的控制阶段的机器人的关节角q4、q5的跟踪情况的仿真图。从图17~图19可以看到在很短的时间内(Nstep=50;Nstep=300)系统便能够完成很好的跟踪。

Claims (8)

1、一种基于确定学习理论的机器人行走控制方法,其特征在于包括如下步骤:
(1)建立机器人行走的模型:建立以机器人关节角的位置以及关节角的角加速度作为状态变量的机器人行走模型,该模型包括已知的动力学模型、未知的动力学模型和有界的干扰;
(2)建立参考步态模型:建立一个参考步态模型,来产生期望周期步态轨迹,并作为机器人各个状态变量的跟踪信号;
(3)神经网络的学习:根据步骤(1)建立的机器人行走的模型和步骤(2)建立的参考步态模型建立自适应控制器,并嵌入RBF神经网络,根据李亚普诺夫稳定性理论调节RBF神经网络的权值,实现机器人步态轨迹对期望周期步态轨迹跟踪,以及RBF神经网络对机器人系统中的未知动力学模型的逼近;
(4)建立常数神经网络:根据确定学习理论,沿机器人系统轨迹的RBF神经网络的神经元满足持续激励条件,其权值收敛到最优值,取权值收敛后的一段时间内各权值的均值作为学习训练结果,并利用这些结果建立常数神经网络;
(5)利用常数神经网络完成行走任务:采用步骤(3)所述的自适应控制器,并用步骤(4)所述常数神经网络来代替步骤(3)中自适应控制器的RBF神经网络,实现机器人步态轨迹对期望周期步态轨迹的跟踪,所述常数神经网络用来消除未知动力学模型的影响,提高机器人步态轨迹对期望周期步态轨迹的跟踪精度。
2、根据权利要求1所述的方法,其特征在于步骤(1)中所述机器人行走模型包括单足支撑阶段模型和落地阶段模型,
单足支撑阶段模型为:
X . 1 = X 2 X . 2 = - M ( q ) - 1 ( C m ( q , q . ) q . + Cg ( q ) + F ( q . ) + τ d . ) + M ( q ) - 1 τ n ,
其中,X1=q, X 2 = q , . q=[q1,q2,q3,q4,q5]T,q1~q5表示各关节点的关节角; q . = [ q . 1 , q . 2 , q . 3 , q . 4 , q . 5 ] T 是关节角加速度向量,
Figure C2008100294780003C3
为摩擦项,是未知的动力学模型;τd为未知有界干扰;τ″为输入力矩,M(q)是惯性矩阵,
Figure C2008100294780003C4
是向心矩阵,C是重力矩阵,g(q)是重力向量;
落地阶段模型为: q . + = q . - + M - 1 ( q ) J T ( J M - 1 ( q ) J T ) - 1 ( - X . sw - ) ,
其中, J = ∂ X sw ∂ q , Xsw=[xsw,zsw]T,xsw,zsw为机器人舞动腿末端的轨迹位置,机器人舞动腿末端的轨迹位置,
Figure C2008100294780003C7
为舞动腿碰撞地面之前的瞬时速度,
Figure C2008100294780003C8
Figure C2008100294780003C9
分别为碰撞地面前后的关节角速度。
3、根据权利要求1所述的方法,其特征在于步骤(2)中所述参考步态模型由以下模型表征:
x a = a π [ 2 π T s t - sin ( 2 π T s t ) ] - a
z a = d 2 [ 1 - cos ( 2 π T s t ) ]
x h = 1 2 x a + a 2 - a
z h = 1 2 x a + l 1 + l 2 - d 2 ,
其中,t表示时间,xa、za为舞动腿末端的坐标,xh、zh代表机器人臀部的坐标位置,a为半步长,d为舞动腿抬脚的最大高度,l1、l2为舞动腿两连杆的长度,Ts是完成一次步态行走期望的时间。
4、根据权利要求2所述的方法,其特征在于步骤(3)中所述自适应控制器如下:
τ = - Z 1 - c 2 Z 2 + C m ( q , q . ) q . + Cg ( q ) + F d ( q . ) + M ( q ) α . 1 + W ^ T S ( Z ) , 其中,
Z1=X1-Xd1
α 1 = - c 1 Z 1 + X . d 1
Z2=X21
α . 1 = - c 1 X 2 + c 1 X . d 1 + X . . d 1 ,
Xd1是参考步态模型的状态向量,是Xd1的导数,
Figure C2008100294780004C3
Figure C2008100294780004C4
的导数,c1,c2是自适应控制器的反馈增益, F d ( q . ) = K d sgn ( q . ) , Kd=diag(ki)代表已知动摩擦,
Figure C2008100294780004C6
表示神经网络,
Figure C2008100294780004C7
是神经网络权值向量,S(Z)是高斯函数。
5、根据权利要求4所述的方法,其特征在于步骤(3)所述RBF神经网络的神经元的中心点均匀分布于机器人步态轨迹所在的状态空间里,其初始值均为零,RBF神经网络权值的调节律如下:
W ^ . = Γ [ - S ( Z ) Z 2 T - σ W ^ ] ,
其中Γ、σ是调节律的调节参数,Γ>0,σ>0。
6、根据权利要求4所述的方法,其特征在于步骤(3)中期望周期步态轨迹规定了每一步的时间,若机器人舞动腿在期望的步态时间内并没有着地,则引入额外的比例微分控制器,
所述比例微分控制器由如下式子表征:
τ ′ = - Z 1 - c 2 Z 2 + C m ( q , q . ) q . + Cg ( q ) + F d ( q . ) + M ( q ) α . 1 + W ^ ′ T S ( Z ) - K p ( Z 1 + K v Z . 1 )
其中,
Figure C2008100294780004C10
代表了在期望的一步时间末端时刻的神经网络权值向量,Kp,Kv是比例微分控制器的控制参数。
7、根据权利要求4所述的方法,其特征在于步骤(3)所述的自适应控制器根据机器人步态轨迹对期望周期步态轨迹的跟踪误差的大小选择反馈增益c1,c2,跟踪误差越大,则所选择的反馈增益越大,所述反馈增益用来抑制系统未知动力学和干扰的影响,使得机器人步态轨迹对期望周期步态轨迹的跟踪误差在设定的范围内。
8、根据权利要求1所述的方法,其特征在于步骤(4)所述常数神经网络的权值选取方式由如下式子表征:
W ‾ = mean t ∈ [ t a , t b ] W ^ ( t )
其中,[ta,tb]代表神经网络权值在完成向其最优值收敛的过渡过程之后的一个时间段,
Figure C2008100294780005C2
为神经网络权值向量,所述常数神经网络是经验知识的表达方式,能够在沿步态轨迹的局部区域里逼近机器人系统中的未知动力学模型。
CN200810029478A 2008-07-15 2008-07-15 基于确定学习理论的机器人行走控制方法 Expired - Fee Related CN100590554C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810029478A CN100590554C (zh) 2008-07-15 2008-07-15 基于确定学习理论的机器人行走控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810029478A CN100590554C (zh) 2008-07-15 2008-07-15 基于确定学习理论的机器人行走控制方法

Publications (2)

Publication Number Publication Date
CN101320251A CN101320251A (zh) 2008-12-10
CN100590554C true CN100590554C (zh) 2010-02-17

Family

ID=40180339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810029478A Expired - Fee Related CN100590554C (zh) 2008-07-15 2008-07-15 基于确定学习理论的机器人行走控制方法

Country Status (1)

Country Link
CN (1) CN100590554C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102554938A (zh) * 2010-12-31 2012-07-11 中国科学院计算技术研究所 机器人的机械手末端轨迹跟踪方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604167B (zh) * 2009-07-15 2011-05-25 南京航空航天大学 一种基于几何特征辅助和混沌感知的机器人自主定向方法
CN102375412B (zh) * 2010-08-13 2013-05-01 同济大学 基于韵律模式的机器人未知环境下行走学习信息处理方法
CN101953727B (zh) * 2010-09-11 2013-07-24 山东科技大学 多自由度上假肢关节空间参数的求解方法
CN102402712B (zh) * 2011-08-31 2014-03-05 山东大学 基于神经网络的机器人强化学习初始化方法
CN102521653B (zh) * 2011-11-23 2015-01-21 河海大学常州校区 井下多机器人联合搜救的生物刺激神经网络设备及其方法
CN103279037B (zh) * 2013-05-24 2015-10-28 华南理工大学 基于六维力/力矩传感器的机器人力跟随运动控制方法
CN103612267A (zh) * 2013-12-09 2014-03-05 天津工业大学 一种用于并联机器人的自适应控制器
CN105538325B (zh) * 2015-12-30 2018-10-30 哈尔滨理工大学 一种液压四足机器人单腿关节解耦控制方法
CN105963100B (zh) * 2016-04-19 2018-07-17 西安交通大学 按患者运动所需辅助的下肢康复机器人自适应控制方法
CN106094817B (zh) * 2016-06-14 2018-12-11 华南理工大学 基于大数据方式的强化学习仿人机器人步态规划方法
CN108237531B (zh) * 2016-12-26 2021-07-13 电子科技大学中山学院 一种仿人机器人步态自学习控制方法
CN107544261B (zh) * 2017-10-26 2020-07-24 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法
CN108459606A (zh) * 2018-03-29 2018-08-28 哈尔滨理工大学 一种基于神经网络的智能寻迹竞速平衡车
CN109483530B (zh) * 2018-10-18 2020-11-20 北京控制工程研究所 一种基于深度强化学习的足式机器人运动控制方法及系统
CN113031579B (zh) * 2019-12-25 2023-10-10 深圳市优必选科技股份有限公司 双足机器人的行走控制方法、装置及双足机器人
CN112306060B (zh) * 2020-10-16 2021-06-25 连云港市第二人民医院(连云港市临床肿瘤研究所) 一种基于深度学习的训练步态控制方法
CN112631134A (zh) * 2021-01-05 2021-04-09 华南理工大学 一种基于模糊神经网络的智能小车避障方法
CN113297798B (zh) * 2021-06-10 2022-10-11 重庆邮电大学工业互联网研究院 一种基于人工神经网络的机器人外界接触力估计方法
TWI811156B (zh) * 2022-11-16 2023-08-01 英業達股份有限公司 機器人的運動步態的過渡方法
CN116619383B (zh) * 2023-06-21 2024-02-20 山东大学 基于确定学习的机械臂pid控制方法及系统
CN117539153B (zh) * 2023-11-21 2024-05-28 山东大学 基于确定学习的上肢康复机器人自适应控制方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102554938A (zh) * 2010-12-31 2012-07-11 中国科学院计算技术研究所 机器人的机械手末端轨迹跟踪方法
CN102554938B (zh) * 2010-12-31 2014-12-03 北京中科广视科技有限公司 机器人的机械手末端轨迹跟踪方法

Also Published As

Publication number Publication date
CN101320251A (zh) 2008-12-10

Similar Documents

Publication Publication Date Title
CN100590554C (zh) 基于确定学习理论的机器人行走控制方法
CN102289204A (zh) 基于确定学习理论的机械臂通用控制方法
CN102411304B (zh) 一种航天器小角度姿态机动控制参数优化方法
CN107160398B (zh) 基于确定学习的全状态受限刚性机械臂安全可靠控制方法
US10962976B1 (en) Motion control method and system for biomimetic robotic fish based on adversarial structured control
CN104950678A (zh) 一种柔性机械臂系统的神经网络反演控制方法
CN103204193A (zh) 一种欠驱动双足机器人行走控制方法
CN106406085A (zh) 基于跨尺度模型的空间机械臂轨迹跟踪控制方法
CN103926839A (zh) 一种轮式移动机器人的运动分段控制方法
Özbek et al. Swing up and stabilization control experiments for a rotary inverted pendulum—An educational comparison
CN106930898A (zh) 一种基于自适应扰动补偿的漂浮式风力机功率控制方法
Subavathi et al. Adaptive modified backpropagation algorithm based on differential errors
CN106094817A (zh) 基于大数据方式的强化学习仿人机器人步态规划方法
CN115990888A (zh) 一种具有死区和时变约束功能的机械臂控制方法
CN112947071B (zh) 基于Backstepping的下肢外骨骼控制方法
Asadi et al. CPG-based gait transition of a quadruped robot
Xie et al. Online whole-stage gait planning method for biped robots based on improved Variable Spring-Loaded Inverted Pendulum with Finite-sized Foot (VSLIP-FF) model
Prakash et al. Neuro-PI controller based model reference adaptive control for nonlinear systems
Hsu Adaptive PI Hermite neural control for MIMO uncertain nonlinear systems
Shen Robotic trajectory tracking control system based on fuzzy neural network
CN105467841A (zh) 一种类人机器人上肢运动的类神经控制方法
CN112894819A (zh) 一种基于双神经网络的机器人动力学运动控制方法及装置
Mekki et al. Variable structure neural networks for adaptive robust control using evolutionary artificial potential fields
Bi et al. Efficient Dynamic Locomotion of Quadruped Robot via Adaptive Diagonal Gait
Chen et al. Adaptive sliding mode control based on a filter for four-wheel omni-directional mobile robots

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100217

Termination date: 20200715