CN105549384B

CN105549384B - 一种基于神经网络和强化学习的倒立摆控制方法

Info

Publication number: CN105549384B
Application number: CN201510553000.9A
Authority: CN
Inventors: 丁世飞; 孟令恒; 王婷婷; 许新征
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2015-09-01
Filing date: 2015-09-01
Publication date: 2018-11-06
Anticipated expiration: 2035-09-01
Also published as: CN105549384A

Abstract

本发明一种基于神经网络和强化学习的倒立摆控制方法，涉及一种神经网络和强化学习算法，可以进行自学习，完成对倒立摆的控制装置，属于人工智能及控制技术领域，其特征在于：步骤1:获取倒立摆系统模型信息；步骤2：获取倒立摆的状态信息，初始化神经网络；步骤3：使用训练样本SAM，完成对ELM的训练；步骤4：由强化学习控制器对倒立摆进行控制；步骤5：更新训练样本，和BP神经网络；步骤6：查看控制结果查看是否满足学习终止条件，若不满足，则返回到步骤2继续循环。否则结束算法。本方法能够在连续状态空间中解决易出现的“维数灾难”问题，有效解决具有连续状态的非线性系统的控制问题，具有更快的更新速度。

Description

一种基于神经网络和强化学习的倒立摆控制方法

技术领域

本发明一种基于神经网络和强化学习的倒立摆控制方法，涉及一种神经网络和强化学习算法，可以进行自学习，完成对倒立摆的控制装置，属于人工智能及控制技术领域。特别涉及将强化学习算法与ELM-BP相结合，利用神经网络的泛化性能，采用actor-critic架构，设计出一种新的能够有效控制具有连续状态空间的倒立摆系统的方法。

背景技术

倒立摆控制系统是一个不稳定、复杂的、非线性系统，是检验控制理论和方法的理想模型和进行控制理论教学及开展各种控制实验的理想实验平台。对倒立摆系统的研究能有效的反映控制中的许多典型问题如非线性问题、鲁棒性问题、镇定问题、随动问题以及跟踪问题等。对倒立摆的控制通常用来检验新的控制方法是否有较强的处理非线性和不稳定性问题的能力。同时，倒立摆的控制方法在军工、航天、机器人和一般工业过程领域中都有着广泛的用途。目前，国内外对于倒立摆系统的研究主要是采用倒立摆系统的数学模型，使用更为先进的控制算法对倒立摆进行控制，检验算法的有效性，对算法进行理论验证，并作为实验教学平台进行使用。

多年来，人们对倒立摆的研究越来越感兴趣。这其中的原因不仅在于倒立摆系统在人工智能领域的广泛应用，而且在于新的控制方法不断出现，人们试图通过倒立摆这样一个控制对象，检验新的控制方法是否具有较强的处理多变量、非线性和绝对不稳定的能力。因此，倒立摆系统作为控制理论研究中的一种较为理想的实验手段通常用来验证控制策略的效果，它适合用多种理论和方法进行控制，并起到检验算法的作用。

但是在目前的研究领域所提出的控制方法中，对倒立摆系统的控制，均需要人为先收集获取倒立摆系统的相关输出或参数进行学习，而在实际应用中，倒立摆的某些参数是需要经过大量实验训练才能确定的，没有办法实现在线更新，所以，给倒立摆系统的控制带来了很大的困难。

发明内容

为了解决上述问题，本发明一种基于神经网络和强化学习的倒立摆控制方法，不仅能够对倒立摆系统实现快速的稳定性控制，而且运用人工智能领域的强化学习算法，能在无标记、无导师的情况下，建立和更新一个神经网络，以维持倒立摆的平衡。同时，本发明一种基于神经网络和强化学习的倒立摆控制方法具有更为广泛的应用性。

本发明一种基于神经网络和强化学习的倒立摆控制方法，主要包括以下步骤：

步骤1:获取倒立摆系统模型信息

步骤2：获取倒立摆的状态信息，初始化神经网络

初始化强化学习各参数、评价网络ELM隐藏层权值和偏置以及BP连结权进行随机赋值，检测系统所处状态s_t。

步骤3：使用训练样本SAM，完成对评价网络ELM的训练。根据当前所处状态s_t，通过动作网络(9)计算当前状态下的控制量U(t),得出当前状态下的动作a_t，并通过评价网络ELM计算对应的Q值，然后根据智能体获取的环境信息作为输入信号，输入到倒立摆系统中。

步骤4：由强化学习控制器对倒立摆进行控制

根据当前状态s_t和要执行的动作a_t，通过评价网络ELM计算强化学习评价函数Q(t)(3)的Q值,执行动作a_t于倒立摆(7)系统,获得倒立摆新状态s_t+1，与立即回报r_t+1；然后根据式Q_t+1(s,a)＝(1-α)Q_t(s,a)+α[r_t+γQ(s_t+1,a_t+1)]更新Q值；

步骤5：更新训练样本，和BP神经网络

将新样本(s_t,a_t,Q_t)加入训练样本SAM，同时滚动时间窗(27)向前移动，抛弃最旧样本；根据误差反向传播公式w(t+1)＝w(t)+Δw(t)调节动作网络(9)。

步骤6：查看控制结果

查看是否满足学习终止条件，若不满足，则返回到步骤2继续循环。否则结束算法。

在实际控制中，倒立摆的状态初始化为平衡位置附近的随机值，系统从一个随机的初始状态开始，直到控制失败，即摆倒下或是小车超过导轨的长度，控制器则重新进行学习，如果系统能够在一次试探过程中保持6000步的平衡则判定学习成功，或者试探次数超过1000次依然无法保持平衡则判定为失败。

本发明具有如下优点及效果：

(1)本方法能够在连续状态空间中解决易出现的“维数灾难”问题，可以有效解决具有连续状态的非线性系统的控制问题。

(2)基于滚动时间窗机制能够实现在线学习，具有更快的更新速度。

(3)采用自适应启发式算法，能够降低倒立摆控制问题的处理难度，加速控制量的产生，提高算法的效率。

附图说明

附图1为本发明一种基于神经网络和强化学习的倒立摆控制方法中的强化学习控制器结构示意图。

附图2为本发明一种基于神经网络和强化学习的倒立摆控制方法中的BP网络结构示意图。

附图3为本发明一种基于神经网络和强化学习的倒立摆控制方法中的ELM网络结构示意图。

附图4为本发明一种基于神经网络和强化学习的倒立摆控制方法中的滚动时间窗原理示意图。

附图5为本发明一种基于神经网络和强化学习的倒立摆控制方法中的倒立摆结构示意图。

附图6为本发明一种基于神经网络和强化学习的倒立摆控制方法中的偏离角度图。

附图7为本发明一种基于神经网络和强化学习的倒立摆控制方法中的偏离位移图。

附图8为本发明一种基于神经网络和强化学习的倒立摆控制方法中的系统对倒立摆的控制曲线图。

其中各部分为：状态变量(1)，评价网络(2)，评价函数(3)，折扣因子(4)，累计折扣回报(5)，外部再励信号r(t)(6)，倒立摆(7)，控制量(8)，动作网络(9)，BP网络输入向量(10)，BP网络输入层(11)，BP网络输入层和隐含层之间的权值矩阵(12)，BP网络隐含层(13)，BP网络隐含层与输出层之间的权值矩阵(14)，BP网络输出向量(15)，BP网络输出层(16)，ELM影响因子(17)，ELM输出层(18)，ELM输出向量(19)，ELM输出权值(20),ELM隐节点的激活函数(21)，ELM偏置值(22)，ELM隐含层(23)，ELM输入层(24)，ELM输入向量(25)，ELM输入权值向量(26)，宽度为L的时间窗(27)，控制力(28)，小车(29)，铰链(30)，摆杆偏离垂直方向的角度(31)，摆杆的角速度(32)，摆杆(33)，水平速度(34)，水平位移(35)，有限导轨(36)。

具体实施方式

本发明一种基于神经网络和强化学习的倒立摆控制方法的实施过程为：

本发明的整体控制框架为强化学习控制器，假设在每个时间步t＝1,2，…，Agent观察马尔科夫决策过程的状态为s_t，选择动作a，收到即时回报r_t，并使系统转移到下一个状态s_t+1，转移概率为p(s_t,a_t,s_t+1)。所以，系统前n步的演化过程如下：

强化学习系统的目标是学习到一个策略π，使得在未来时间步内获得的累计折扣回报

最大(0≤γ≤1为折扣因子)，该策略为最优策略，但是现实许多情况中，环境的状态转移概率函数P和回报函数R未知。Agent要学习到最优策略，只有回报r_t可用，这样Agent不用考虑环境模型，可以直接优化一个可迭代计算的Q值函数。Sarsa算法是强化学习领域最重要的一类算法，其实质是离策略TD控制算法的延伸，由Rummery和Niranjan于1994年提出^[24,25]。算法的基本迭代公式如下：

Q_t+1(s,a)＝(1-α)Q_t(s,a)+α[r_t+γQ(s_t+1,a_t+1)]

式中：α为学习步长，折扣因子(4)γ表示Agent的远视程度，如果取值小，则表示Agent更关注最近动作；如果取值较大，则在较长时间内都会对之后动作加以关注。

本发明中的强化学习系统基于“动作网络/评价网络”的框架结构。动作网络(9)的输入为状态变量(1)X(t),输出为实际控制量(8)U(t),控制的目的是寻求一个最优控制策略，使得在未来时间步内，所获得的累计折扣回报(5)和的期望最大，即评价函数(3)Q(t)最大，动作网络(9)的作用就是利用状态变量(1)，产生最优控制量(8)U(t)，使评价函数(3)Q(t)最大，使失败的概率最小化。评价网络(2)以状态变量X(t)和控制量U(t)作为网络的输入，而网络的输出为评价函数Q(t),即评价函数在学习过程中起到重要的作用。

步骤1:获取倒立摆系统模型信息

本发明所针对的系统是一阶车载式倒立摆(7)系统，该系统主要由小车(29)和摆杆(33)构成，小车可在有限导轨(36)上作直线运动，摆杆(33)与小车(29)通过铰链(30)连接在一起，可在竖直平面内作半圆周运动。在忽略了空气阻力和各种摩擦之后，可将直线型一级倒立摆系统抽象成运动小车和均匀摆杆组成的系统。再根据牛顿-欧拉法，对倒立摆系统进行数学分析，便可得到其如下的数学模型：

其中x_t,θ_t,位系统的4个状态变量，分别表示小车在轨道上的水平位移(35)、水平速度(34)、摆杆偏离垂直方向的角度(31)和摆杆的角速度(32)，g为重力加速度，m_p为摆杆的质量，m为摆杆和小车的总质量，l为摆杆长度的一半，F_t为控制力(28)。

倒立摆平衡控制的目标为:小车水平位移(35)必须保持在离轨道中心±2.4m以内，同时摆杆偏离垂直方向的角度(31)必须保持在与垂直方向相夹±0.21rad以内。强化学习控制器唯一能从环境得到的反馈是当倒立摆偏离垂直方向的角度超出±0.21rad或小车在±2.4m处和轨道两端相撞时环境给出的一个失败信号，回报函数为：

仿真过程中，倒立摆系统的结构参数为：g＝-9.8m/s2,m_p＝0.1kg,m＝1.1kg,l＝0.5m,F_t＝{-10,+10}N；神经网络的学习参数折扣因子γ＝0.9；ELM隐含层(23)节点数N1＝100,隐含层为sigmoid型函数；BP网络隐含层(13)节点数N2＝6，网络学习速率隐含层为tan-sigmoid函数。在每次实验中，倒立摆的状态初始化为平衡位置附近的随机值，系统从一个随机的初始状态开始，直到控制失败(摆倒下或是小车超过导轨的长度)，控制器则重新进行学习，直到系统能够在一次试探过程中保持6000步的平衡(成功)或者试探次数超过1000次(失败)。

步骤2：获取倒立摆的状态信息，初始化神经网络

ELM输入向量(25)通过ELM输入层(24)，经过ELM隐含层(23)中ELM隐节点的激活函数(21)的计算得到隐含层激活值，隐含层激活值传递给ELM输出层(18)就可以得到ELM输出向量(19)，ELM的整个输出过程可以表示成如下形式：

其中α_i是ELM输入权值向量(26)，b_i是第i个隐节点的ELM偏置值(22)，α_i·x表示这两项的内积。ELM隐节点的激活函数(21)可以是任何有界的非常数的分段连续函数。

实际使用中ELM的算法分为以下3步：

1)随机分配ELM输入权值向量(26)α_i及ELM影响因子(17)β_i，i＝1,2,...N；

2)计算ELM隐含层(23)输出矩阵H；

3)计算ELM输出权值(20)T＝H’Y。

其中，N为ELM隐含层(23)中隐层节点数，H’为H的Moore Penose广义逆矩阵。

将ELM应用于本发明中的目的是用ELM作为评价网络用来逼近Q值函数，需要先对ELM网络进行训练。从环境中获取训练样本(s_t,a_t,Q_t)，t＝1,2,...,N,训练ELM输出权值(20)T，以逼近样本Q函数。在训练过程中，对于N个任意的不同的训练样本(s_t,a_t,Q_t)，其中，(s_t,a_t)为样本输入，Q_t为样本输出，只要存在ELM输入权值向量(24)α_i，ELM偏置值(22)β_i以及ELM输出权值(20)T满足以下公式：

ELM就能以零误差逼近样本函数。

以上N个等式可简化为：HT＝Y

根据式计算隐层输出矩阵H，由式计算ELM输出权值(20)T，完成对ELM神经网络的训练，α_i为ELM输入权值向量(24)，β_i为ELM偏置值(22)。

由于是连续状态，全部存贮样本难以实现，也会使ELM的学习速度大大降低，为了充分利用数据的信息,本发明采用滚动时间窗机制，随着进程不断吸纳最新样本数据，丢弃最久数据，实际使用中可以使用宽度为L的时间窗(27)。

根据当前所处状态s_t，通过动作网络(9)BP，由BP网络输入层(11)将BP网络输入向量(10)输入到BP网络中，然后由式Y＝U(t)＝f(w₂*f(w₁*t))计算当前状态下的BP网络输出向量(15)即强化学习系统中的控制量U(t)(8),得出当前状态下的动作a_t。w1为BP网络输入层和隐含层之间的权值矩阵(12)，w2是BP网络隐含层与输出层之间的权值矩阵(14)，BP网络隐含层(13)和BP网络输出层(16)的函数f(.)为tan-sigmoid函数，即f(x)＝(1-e^-x)/(1+e^-x)。

步骤4：由强化学习控制器对倒立摆进行控制

根据当前状态s_t和要执行的动作a_t，通过评价网络(2)ELM计算强化学习评价函数Q(t)(3)的Q值,执行动作a_t于倒立摆(7)系统,获得倒立摆新状态s_t+1，与立即回报r_t+1；然后根据式Q_t+1(s,a)＝(1-α)Q_t(s,a)+α[r_t+γQ(s_t+1,a_t+1)]更新Q值；

步骤5：更新训练样本，和BP神经网络

将新样本(s_t,a_t,Q_t)加入训练样本集SAM，同时滚动时间窗(27)向前移动，抛弃最旧样本；根据误差反向传播公式w(t+1)＝w(t)+Δw(t)调节动作网络(9)BP神经网络。

步骤6：查看控制结果

在实际控制中，倒立摆的状态初始化为平衡位置附近的随机值，系统从一个随机的初始状态开始，直到控制失败(摆倒下或是小车超过导轨的长度)，控制器则重新进行学习，如果系统能够在一次试探过程中保持6000步的平衡则判定学习成功，或者试探次数超过1000次依然无法保持平衡则判定为失败。

本发明一种基于神经网络和强化学习的倒立摆控制方法，在仿真过程中，经过10次的独立仿真运行，在初始状态不同的情况下分别经过60,18,14,16,20,13,2,7,35,39次尝试达到稳定状态，平均需要22.3次尝试。每次达到平衡所花费时间为34.82s,5.72s,5.44s,2.94s,37.38s,8.68s,0.16s,1.32s,30.8,17.32s。平均需要14.50s达到平衡，这表明本发明提供的方法能够加快强化学习的收敛速度。

图6和图7反映了本发明对倒立摆的控制性能，与基于双BP的方法进行了比较。本发明提供的方法相比于双BP强化学习能够快速进入稳定状态，偏离也较小。经过大约560步后，倒立摆趋于稳定，摆动幅度变小，位移变小，能够保持6000步，此时认为倒立摆达到平衡状态。

图8反映了一次倒立摆达到平衡状态所经历的尝试过程，显示倒立摆经过20次尝试学习，在第21次成功达到平衡状态。仿真结果表明在有限的尝试次数内，本发明所提控制的方法可以达到预定的控制目标，验证了本发明的有效性。

Claims

1.一种基于神经网络和强化学习的倒立摆控制方法，主要包括：

步骤1:获取倒立摆系统模型信息；

步骤2：获取倒立摆的状态信息，初始化神经网络；

初始化强化学习各参数、评价网络ELM隐藏层权值和偏置以及BP连结权进行随机赋值，检测系统所处状态s_t；

步骤3：使用训练样本SAM，完成对评价网络ELM的训练，根据当前所处状态s_t，通过动作网络(9)计算当前状态下的控制量U(t),得出当前状态下的动作a_t，并通过评价网络ELM计算对应的Q值，然后根据智能体获取的环境信息作为输入信号，输入到倒立摆系统中；

步骤4：由强化学习控制器对倒立摆进行控制

步骤5：更新训练样本，和BP神经网络

将新样本(s_t,a_t,Q_t)加入训练样本SAM，同时滚动时间窗(27)向前移动，抛弃最旧样本；根据误差反向传播公式w(t+1)＝w(t)+Δw(t)调节动作网络(9)；

步骤6：查看控制结果

查看是否满足学习终止条件，若不满足，则返回到步骤2继续循环，否则结束算法；在实际控制中，倒立摆的状态初始化为平衡位置附近的随机值，系统从一个随机的初始状态开始，直到控制失败，即摆倒下或是小车超过导轨的长度，控制器则重新进行学习，如果系统能够在一次试探过程中保持6000步的平衡则判定学习成功，或者试探次数超过1000次依然无法保持平衡则判定为失败。

2.根据权利要求1所述一种基于神经网络和强化学习的倒立摆控制方法，其特征在于，其中的强化学习系统基于“动作网络/评价网络”的框架结构，动作网络的输入为状态变量X(t),输出为实际控制量U(t),控制的目的是寻求一个最优控制策略，使得在未来时间步内，所获得的累计折扣回报期望值最大，即评价函数Q(t)最大，动作网络的作用就是利用状态变量，产生最优控制量U(t)，使评价函数Q(t)最大，使失败的概率最小化，评价网络以状态变量X(t)和控制量U(t)作为评价网络的输入，而评价网络的输出为评价函数Q(t),即评价函数在学习过程中起到重要的作用。

3.根据权利要求1所述一种基于神经网络和强化学习的倒立摆控制方法，其特征在于，在步骤1中，仿真过程中，倒立摆系统的结构参数为：g＝-9.8m/s2,m_p＝0.1kg,m＝1.1kg,l＝0.5m,F_t＝{-10,+10}N；神经网络的学习参数折扣因子γ＝0.9；ELM隐含层节点数N1＝100,隐含层为sigmoid型函数；BP网络隐含层节点数N2＝6，网络学习速率隐含层为tan-sigmoid函数。

4.根据权利要求1所述一种基于神经网络和强化学习的倒立摆控制方法，其特征在于，在步骤3中，用ELM作为评价网络用来逼近Q值函数，需要先对评价网络ELM进行训练，从环境中获取训练样本(s_t,a_t,Q_t)，t＝1,2,...,N,训练ELM输出权值T，以逼近样本Q函数，在训练过程中，对于N个任意的不同的训练样本(s_t,a_t,Q_t)，其中，(s_t,a_t)为样本输入，Q_t为样本输出，只要存在ELM输入权值向量α_i，ELM偏置值β_i以及ELM输出权值T满足以下公式：

ELM就能以零误差逼近样本函数；

以上N个等式可简化为：HT＝Y；

根据式计算隐层输出矩阵H，由式计算ELM输出权值T，完成对ELM神经网络的训练，α_i为ELM输入权值向量，β_i为ELM偏置值。

5.根据权利要求4所述一种基于神经网络和强化学习的倒立摆控制方法，其特征在于，由于输入样本是连续状态，全部存贮样本难以实现，也会使ELM的学习速度大大降低，为了充分利用数据的信息,采用滚动时间窗机制，随着进程不断吸纳最新样本数据，丢弃最久数据，实际使用中可以使用宽度为L的时间窗。

6.根据权利要求4所述一种基于神经网络和强化学习的倒立摆控制方法，其特征在于，根据当前所处状态s_t，通过动作网络BP，由BP网络输入层将BP网络输入向量输入到BP网络中，然后由式Y＝U(t)＝f(w₂*f(w₁*t))计算当前状态下的BP网络输出向量即强化学习系统中的控制量U(t),得出当前状态下的动作a_t；w1为BP网络输入层和隐含层之间的权值矩阵，w2是BP网络隐含层与输出层之间的权值矩阵，BP网络隐含层和BP网络输出层的函数f(.)为tan-sigmoid函数，即f(x)＝(1-e^-x)/(1+e^-x)。