CN106094817B

CN106094817B - 基于大数据方式的强化学习仿人机器人步态规划方法

Info

Publication number: CN106094817B
Application number: CN201610423029.XA
Authority: CN
Inventors: 毕盛; 陈奇石; 刘云达; 董敏; 闵华清
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-06-14
Filing date: 2016-06-14
Publication date: 2018-12-11
Anticipated expiration: 2036-06-14
Also published as: CN106094817A

Abstract

本发明公开了一种基于大数据方式的强化学习仿人机器人步态规划方法，首先，通过装配在仿人机器人上的传感器获取状态信息；然后使用Q学习算法计算动作，对离线步态进行修正，同时获得立即回报值；接着将以上信息以四元组的形式，使用大数据存储方法保存到文件中；最后随机抽取四元组结合RBF神经网络更新Q函数。本发明方法能够对仿人机器人在不平整环境情况下的步行运动进行平稳调控，相较于仅利用离线步态指导机器人行走的方法，拥有更高的效率和优势，实验证明了该方法的可行性和有效性。

Description

基于大数据方式的强化学习仿人机器人步态规划方法

技术领域

本发明涉及仿人机器人技术领域，尤其是指一种基于大数据方式的强化学习仿人机器人步态规划方法。

背景技术

仿人机器人不仅具有与人类相似的外观，更重要的是能够模仿人类的运动方式，决策思维方式以及拥有对环境的学习与适应能力，从而到达“类人”的效果。

相较于履带式、轮式机器人，仿人机器人的步行方式更加灵活，能够在多种复杂地形中自由活动，移动空间更加广阔，适应能力也更加强大。目前，完成仿人机器人腿部结构的设计和制造并不困难，如何进行动态步行控制才是实现仿人机器人基本功能的核心问题。因为仿人机器人的组成结构涉及到多门学科技术，具有变结构、耦合关系强、模块独立性差等特点，使得对机器人在活动过程的操控更加困难。加上模型应用的误差，能量消耗等现实问题，导致机器人的实际运行与理论最优状态有较大出入。如果仿人机器人的基本运动功能都不能很好地实现，那么在执行其他高级任务时，例如识别并搬运物体，从摔倒状态恢复站立状态等就会遇到很大困难。稳定的步行功能是其他高级功能的基础。所以，解决仿人机器人步态控制问题对于仿人机器人的发展和完善有重要意义。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于大数据方式的强化学习仿人机器人步态规划方法，该方法能够使仿人机器人在复杂地形环境下平稳行走，也增强了机器人的自主学习和适应能力。

为实现上述目的，本发明所提供的技术方案为：基于大数据方式的强化学习仿人机器人步态规划方法，首先，需要通过装配在仿人机器人上的传感器获取状态信息，仿人机器人行走时的稳定程度主要受支撑脚上俯仰方向的舵机影响，因此在所定义的状态信息中，应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息，此外还应指明躯干在俯仰方向的倾斜角度，俯仰方向的角速度表明了仿人机器人的稳定程度；

其次，使用倒立摆模型预先生成仿人机器人的离线步态，用于仿人机器人步行的基本标准；

假设在时刻t，智能主体通过执行动作a_t，使环境状态从s_t变为s_t+1，立即回报值为r，则Q函数按照以下公式进行更新：

Q(s_t,a,t+1)＝λQ(s_t,a,t)+(1-λ)[r+γmax{Q(s_t+1,b,t)/b∈A}]

其中，A为所有可能的动作集合；λ为学习率，取值为[0,1]；γ为衰减因子，取值为(0,1)；在该公式当中，Q(s_t+1,b,t)为一个稍晚的值，以γ的概率对其折扣并加上立即奖励，并以一定的学习率对前一个Q值进行更新估计；当Q函数的值收敛于最优值Q时，则停止更新；此时智能主体可以根据Q值选择相应的最优的动作序列；

当获得动作之后，调整髋关节的舵机方向，改变其角度值；智能主体每次执行动作之后都会获得一个四元组(s_t,a_t,s_t+1,r)，该四元组储存了t时刻的经验；获取四元组后，使用大数据存储的方法把四元组保存到外部文件中或云端以便后续过程的使用，文件中每一行数据就是四元经验组，每经过设定的迭代次数，在文件中抽取四元组对Q函数进行更新，使规划的策略达到最优；

接下来随机抽取数据更新Q函数，利用随机函数生成的结果如果小于预设值，就抽取并使用当前这组数据，否则跳过；

在Q函数的更新过程中，使用RBF神经网络对连续空间下的状态和行为进行拟合，RBF神经网络的输入节点为7个，隐藏层1个，输出节点为1个；输入向量是s(t)和a(t)，分别表示Q函数在t时刻输入的状态和动作，y(t)是隐藏层的激活函数，对于第i个神经元而言，使用以下函数计算输出：

其中，μ_i和σ_i分别是第i个神经元的中心和标准差；

输出层中，Q(t)是Q函数的输出，用如下公式进行更新：

下式定义了Q学习的误差δ，该误差表明了Q函数在学习过程中的收敛程度，定义判断该系统的学习性能的标准：

应用后向传播算法和梯度下降法，对RBF神经网络中每个神经元的输出权重进行更新：

其中，α_w为学习率，对于E(t)和w_i(t)，有以下关系：

根据链式法则，对于权重w_i，更新公式变为：

w_i(t+1)＝w_i(t)+α_wδ_Q(t)y_i(t)

对于每个神经元径向基函数的中心和标准差μ_i和σ_i，有以下更新公式：

其中，αμ和α_σ分别为RBF函数中心和标准差的学习率。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明方法在已有强化学习Q学习的基础上，采取大数据方法，提高了信息的利用率，加快了收敛速度。

2、本发明方法简单易行，能够在线控制仿人机器人的步行运动，适时调整机器人的步态，帮助仿人机器人在不平整的地面上实现稳定行走，具有一定的现实意义和应用价值。

附图说明

图1为大数据抽取流程图。

图2为利用RBF神经网络对Q函数进行拟合。

图3为算法整体流程框架。

图4为基于控制器的仿人机器人行走初期示意图。

图5为基于控制器的仿人机器人行走初期的角速度变化。

图6为基于控制器的仿人机器人行走后期示意图。

图7为基于控制器的仿人机器人行走后期的角速度变化。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所述的基于大数据方式的强化学习仿人机器人步态规划方法，具体情况如下：

首先，需要通过装配在仿人机器人上的传感器获取状态信息。仿人机器人行走时的稳定程度主要受支撑脚上俯仰方向的舵机影响，因此在所定义的状态信息中，应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息。此外还应指明躯干在俯仰方向的倾斜角度。俯仰方向的角速度表明了仿人机器人的稳定程度。然后应用本文提出的基于大数据方式的强化学习仿人机器人步态规划方法对离线步态做出实时调整，以便能够适应不平整的地形环境。

其次利用现有的仿人机器人理论，如三维倒立摆模型等，生成仿人机器人的离线步态，用于仿人机器人步行的基本标准。

Q(s_t,a,t+1)＝λQ(s_t,a,t)+(1-λ)[r+γmax{Q(s_t+1,b,t)/b∈A}]

其中，A为所有可能的动作集合；λ为学习率，取值为[0,1]；γ为衰减因子，取值为(0,1)；在该公式当中，Q(s_t+1,b,t)为一个稍晚的值，因此具有较高的概率是正确的。以γ的概率对其折扣并加上立即奖励，并以一定的学习率对前一个Q值进行更新估计。当Q函数的值收敛于最优值Q时，则停止更新。此时智能主体可以根据Q值选择相应的最优的动作序列。

当获得动作之后，调整髋关节的舵机方向，改变其角度值。在传统的Q学习过程中，智能主体每次执行动作之后都会获得一个四元组(s_t,a_t,s_t+1,r)，该四元组储存了t时刻的经验。如果按照一般Q函数的更新方式，容易造成收敛缓慢或无法收敛的情况。利用大数据的方法可以提高了数据的利用率，有效地解决这些问题。获取四元组后，使用大数据存储的方法把四元组保存到外部文件中或云端以便后续过程的使用。文件中每一行数据就是四元经验组。每经过一定的迭代次数，在文件中抽取四元组对Q函数进行更新，使规划的策略达到最优。

接下来随机抽取数据更新Q函数。例如文件内一共有1000行数据，我们需要使用其中的100组数据更新Q，则每组被抽到的概率为1/10。利用随机函数生成的结果如果小于1/10，就抽取并使用当前这组数据，否则跳过。在这里我们使用变量random_rate表示抽取数据占所有数据的比例。该方法保证了在当前时刻下任意一组四元组都有均等的机会被抽取。具体流程见图1。

在Q函数的更新过程中，我们使用RBF神经网络对连续空间下的状态和行为进行拟合，如图2所示。输入向量是s(t)和a(t)，分别表示Q函数在t时刻输入的状态和动作。y(t)是隐藏层的激活函数。对于第i个神经元而言，可以使用以下函数计算输出：

其中，μ_i和σ_i分别是第i个神经元的中心和标准差；

输出层中，Q(t)是Q函数的输出，用如下公式进行更新：

其中，α_w为学习率，对于E(t)和w_i(t)，有以下关系：

根据链式法则，对于权重w_i，更新公式变为：

w_i(t+1)＝w_i(t)+α_wδ_Q(t)y_i(t)

其中，αμ和α_σ分别为RBF函数中心和标准差的学习率,具体流程见图3。

在实验中，使用角速度ω来评判仿人机器人步行时的平稳程度。仿人机器人的角速度可以使用陀螺仪来获取。陀螺仪能够测量机器人在俯仰、偏转和滚动三个方向上的角速度。角速度越小，说明仿人机器人越稳定，给出仿人机器人行走过程中的稳定程度的判定标准：

其中ω(t)是t时刻获取的机器人角速度，Δt角速度获取的时间间隔，n是采样总次数。为了使结果更加客观，规定如果机器人在行走过程中失败，则在此次获得的error_sum加上一个比较大的值，本实验中设置的是50。即如果仿人机器人摔倒，则在error_sum上加50，区别其他普通的实验情况。这能够保证实验结果更加具有说服力。

在实验中，我们使用了基于RBF神经网络和大数据方法的Q学习控制器对仿真模型的步行运动进行调整。该控制器的输出直接作用在仿人机器人的髋关节上，改变髋关节的舵机方向，其他关节的动作则使用离线步态生成的动作进行规划。

在实验初期，即还没有进行充分的在线学习时，仿人机器人的行走是不稳定的，甚至会出现摔倒的结果，我们可以从图4和图5中看到，仿人机器人在摔倒时，机器人躯干俯仰方向上的角速度发生了十分剧烈的变化，因为我们设定如果机器人摔倒，就视作本次行走失败，在error_sum上加50，所以实验初期error_sum一度接近80。

经过大量的训练之后，仿人机器人的行走逐渐趋于稳定，我们可以从图6和图7中看到，仿人机器人能够在不平整地面上实现平稳行走。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于大数据方式的强化学习仿人机器人步态规划方法，其特征在于：首先，需要通过装配在仿人机器人上的传感器获取状态信息，仿人机器人行走时的稳定程度受支撑脚上俯仰方向的舵机影响，因此在所定义的状态信息中，应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息，此外还应指明躯干在俯仰方向的倾斜角度，俯仰方向的角速度表明了仿人机器人的稳定程度；

Q(s_t,a,t+1)＝λQ(s_t,a,t)+(1-λ)[r+γmax{Q(s_t+1,b,t)/b∈A}]

其中，μ_i和σ_i分别是第i个神经元的中心和标准差；

输出层中，Q(t)是Q函数的输出，用如下公式进行更新：

其中，α_w为学习率，对于E(t)和w_i(t)，有以下关系：

根据链式法则，对于权重w_i，更新公式变为：

w_i(t+1)＝w_i(t)+α_wδ_Q(t)y_i(t)

对于每个神经元径向基函数的中心μ_i和标准差σ_i，有以下更新公式：

其中，αμ和α_σ分别为RBF函数中心和标准差的学习率。