CN105549384B - 一种基于神经网络和强化学习的倒立摆控制方法 - Google Patents

一种基于神经网络和强化学习的倒立摆控制方法 Download PDF

Info

Publication number
CN105549384B
CN105549384B CN201510553000.9A CN201510553000A CN105549384B CN 105549384 B CN105549384 B CN 105549384B CN 201510553000 A CN201510553000 A CN 201510553000A CN 105549384 B CN105549384 B CN 105549384B
Authority
CN
China
Prior art keywords
network
elm
inverted pendulum
neural network
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510553000.9A
Other languages
English (en)
Other versions
CN105549384A (zh
Inventor
丁世飞
孟令恒
王婷婷
许新征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201510553000.9A priority Critical patent/CN105549384B/zh
Publication of CN105549384A publication Critical patent/CN105549384A/zh
Application granted granted Critical
Publication of CN105549384B publication Critical patent/CN105549384B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32329Real time learning scheduler, uses ANN, fuzzy

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明一种基于神经网络和强化学习的倒立摆控制方法,涉及一种神经网络和强化学习算法,可以进行自学习,完成对倒立摆的控制装置,属于人工智能及控制技术领域,其特征在于:步骤1:获取倒立摆系统模型信息;步骤2:获取倒立摆的状态信息,初始化神经网络;步骤3:使用训练样本SAM,完成对ELM的训练;步骤4:由强化学习控制器对倒立摆进行控制;步骤5:更新训练样本,和BP神经网络;步骤6:查看控制结果查看是否满足学习终止条件,若不满足,则返回到步骤2继续循环。否则结束算法。本方法能够在连续状态空间中解决易出现的“维数灾难”问题,有效解决具有连续状态的非线性系统的控制问题,具有更快的更新速度。

Description

一种基于神经网络和强化学习的倒立摆控制方法
技术领域
本发明一种基于神经网络和强化学习的倒立摆控制方法,涉及一种神经网络和强化学习算法,可以进行自学习,完成对倒立摆的控制装置,属于人工智能及控制技术领域。特别涉及将强化学习算法与ELM-BP相结合,利用神经网络的泛化性能,采用actor-critic架构,设计出一种新的能够有效控制具有连续状态空间的倒立摆系统的方法。
背景技术
倒立摆控制系统是一个不稳定、复杂的、非线性系统,是检验控制理论和方法的理想模型和进行控制理论教学及开展各种控制实验的理想实验平台。对倒立摆系统的研究能有效的反映控制中的许多典型问题如非线性问题、鲁棒性问题、镇定问题、随动问题以及跟踪问题等。对倒立摆的控制通常用来检验新的控制方法是否有较强的处理非线性和不稳定性问题的能力。同时,倒立摆的控制方法在军工、航天、机器人和一般工业过程领域中都有着广泛的用途。目前,国内外对于倒立摆系统的研究主要是采用倒立摆系统的数学模型,使用更为先进的控制算法对倒立摆进行控制,检验算法的有效性,对算法进行理论验证,并作为实验教学平台进行使用。
多年来,人们对倒立摆的研究越来越感兴趣。这其中的原因不仅在于倒立摆系统在人工智能领域的广泛应用,而且在于新的控制方法不断出现,人们试图通过倒立摆这样一个控制对象,检验新的控制方法是否具有较强的处理多变量、非线性和绝对不稳定的能力。因此,倒立摆系统作为控制理论研究中的一种较为理想的实验手段通常用来验证控制策略的效果,它适合用多种理论和方法进行控制,并起到检验算法的作用。
但是在目前的研究领域所提出的控制方法中,对倒立摆系统的控制,均需要人为先收集获取倒立摆系统的相关输出或参数进行学习,而在实际应用中,倒立摆的某些参数是需要经过大量实验训练才能确定的,没有办法实现在线更新,所以,给倒立摆系统的控制带来了很大的困难。
发明内容
为了解决上述问题,本发明一种基于神经网络和强化学习的倒立摆控制方法,不仅能够对倒立摆系统实现快速的稳定性控制,而且运用人工智能领域的强化学习算法,能在无标记、无导师的情况下,建立和更新一个神经网络,以维持倒立摆的平衡。同时,本发明一种基于神经网络和强化学习的倒立摆控制方法具有更为广泛的应用性。
本发明一种基于神经网络和强化学习的倒立摆控制方法,主要包括以下步骤:
步骤1:获取倒立摆系统模型信息
步骤2:获取倒立摆的状态信息,初始化神经网络
初始化强化学习各参数、评价网络ELM隐藏层权值和偏置以及BP连结权进行随机赋值,检测系统所处状态st
步骤3:使用训练样本SAM,完成对评价网络ELM的训练。根据当前所处状态st,通过动作网络(9)计算当前状态下的控制量U(t),得出当前状态下的动作at,并通过评价网络ELM计算对应的Q值,然后根据智能体获取的环境信息作为输入信号,输入到倒立摆系统中。
步骤4:由强化学习控制器对倒立摆进行控制
根据当前状态st和要执行的动作at,通过评价网络ELM计算强化学习评价函数Q(t)(3)的Q值,执行动作at于倒立摆(7)系统,获得倒立摆新状态st+1,与立即回报rt+1;然后根据式Qt+1(s,a)=(1-α)Qt(s,a)+α[rt+γQ(st+1,at+1)]更新Q值;
步骤5:更新训练样本,和BP神经网络
将新样本(st,at,Qt)加入训练样本SAM,同时滚动时间窗(27)向前移动,抛弃最旧样本;根据误差反向传播公式w(t+1)=w(t)+Δw(t)调节动作网络(9)。
步骤6:查看控制结果
查看是否满足学习终止条件,若不满足,则返回到步骤2继续循环。否则结束算法。
在实际控制中,倒立摆的状态初始化为平衡位置附近的随机值,系统从一个随机的初始状态开始,直到控制失败,即摆倒下或是小车超过导轨的长度,控制器则重新进行学习,如果系统能够在一次试探过程中保持6000步的平衡则判定学习成功,或者试探次数超过1000次依然无法保持平衡则判定为失败。
本发明具有如下优点及效果:
(1)本方法能够在连续状态空间中解决易出现的“维数灾难”问题,可以有效解决具有连续状态的非线性系统的控制问题。
(2)基于滚动时间窗机制能够实现在线学习,具有更快的更新速度。
(3)采用自适应启发式算法,能够降低倒立摆控制问题的处理难度,加速控制量的产生,提高算法的效率。
附图说明
附图1为本发明一种基于神经网络和强化学习的倒立摆控制方法中的强化学习控制器结构示意图。
附图2为本发明一种基于神经网络和强化学习的倒立摆控制方法中的BP网络结构示意图。
附图3为本发明一种基于神经网络和强化学习的倒立摆控制方法中的ELM网络结构示意图。
附图4为本发明一种基于神经网络和强化学习的倒立摆控制方法中的滚动时间窗原理示意图。
附图5为本发明一种基于神经网络和强化学习的倒立摆控制方法中的倒立摆结构示意图。
附图6为本发明一种基于神经网络和强化学习的倒立摆控制方法中的偏离角度图。
附图7为本发明一种基于神经网络和强化学习的倒立摆控制方法中的偏离位移图。
附图8为本发明一种基于神经网络和强化学习的倒立摆控制方法中的系统对倒立摆的控制曲线图。
其中各部分为:状态变量(1),评价网络(2),评价函数(3),折扣因子(4),累计折扣回报(5),外部再励信号r(t)(6),倒立摆(7),控制量(8),动作网络(9),BP网络输入向量(10),BP网络输入层(11),BP网络输入层和隐含层之间的权值矩阵(12),BP网络隐含层(13),BP网络隐含层与输出层之间的权值矩阵(14),BP网络输出向量(15),BP网络输出层(16),ELM影响因子(17),ELM输出层(18),ELM输出向量(19),ELM输出权值(20),ELM隐节点的激活函数(21),ELM偏置值(22),ELM隐含层(23),ELM输入层(24),ELM输入向量(25),ELM输入权值向量(26),宽度为L的时间窗(27),控制力(28),小车(29),铰链(30),摆杆偏离垂直方向的角度(31),摆杆的角速度(32),摆杆(33),水平速度(34),水平位移(35),有限导轨(36)。
具体实施方式
本发明一种基于神经网络和强化学习的倒立摆控制方法的实施过程为:
本发明的整体控制框架为强化学习控制器,假设在每个时间步t=1,2,…,Agent观察马尔科夫决策过程的状态为st,选择动作a,收到即时回报rt,并使系统转移到下一个状态st+1,转移概率为p(st,at,st+1)。所以,系统前n步的演化过程如下:
强化学习系统的目标是学习到一个策略π,使得在未来时间步内获得的累计折扣回报
最大(0≤γ≤1为折扣因子),该策略为最优策略,但是现实许多情况中,环境的状态转移概率函数P和回报函数R未知。Agent要学习到最优策略,只有回报rt可用,这样Agent不用考虑环境模型,可以直接优化一个可迭代计算的Q值函数。Sarsa算法是强化学习领域最重要的一类算法,其实质是离策略TD控制算法的延伸,由Rummery和Niranjan于1994年提出[24,25]。算法的基本迭代公式如下:
Qt+1(s,a)=(1-α)Qt(s,a)+α[rt+γQ(st+1,at+1)]
式中:α为学习步长,折扣因子(4)γ表示Agent的远视程度,如果取值小,则表示Agent更关注最近动作;如果取值较大,则在较长时间内都会对之后动作加以关注。
本发明中的强化学习系统基于“动作网络/评价网络”的框架结构。动作网络(9)的输入为状态变量(1)X(t),输出为实际控制量(8)U(t),控制的目的是寻求一个最优控制策略,使得在未来时间步内,所获得的累计折扣回报(5)和的期望最大,即评价函数(3)Q(t)最大,动作网络(9)的作用就是利用状态变量(1),产生最优控制量(8)U(t),使评价函数(3)Q(t)最大,使失败的概率最小化。评价网络(2)以状态变量X(t)和控制量U(t)作为网络的输入,而网络的输出为评价函数Q(t),即评价函数在学习过程中起到重要的作用。
步骤1:获取倒立摆系统模型信息
本发明所针对的系统是一阶车载式倒立摆(7)系统,该系统主要由小车(29)和摆杆(33)构成,小车可在有限导轨(36)上作直线运动,摆杆(33)与小车(29)通过铰链(30)连接在一起,可在竖直平面内作半圆周运动。在忽略了空气阻力和各种摩擦之后,可将直线型一级倒立摆系统抽象成运动小车和均匀摆杆组成的系统。再根据牛顿-欧拉法,对倒立摆系统进行数学分析,便可得到其如下的数学模型:
其中xt,θt,位系统的4个状态变量,分别表示小车在轨道上的水平位移(35)、水平速度(34)、摆杆偏离垂直方向的角度(31)和摆杆的角速度(32),g为重力加速度,mp为摆杆的质量,m为摆杆和小车的总质量,l为摆杆长度的一半,Ft为控制力(28)。
倒立摆平衡控制的目标为:小车水平位移(35)必须保持在离轨道中心±2.4m以内,同时摆杆偏离垂直方向的角度(31)必须保持在与垂直方向相夹±0.21rad以内。强化学习控制器唯一能从环境得到的反馈是当倒立摆偏离垂直方向的角度超出±0.21rad或小车在±2.4m处和轨道两端相撞时环境给出的一个失败信号,回报函数为:
仿真过程中,倒立摆系统的结构参数为:g=-9.8m/s2,mp=0.1kg,m=1.1kg,l=0.5m,Ft={-10,+10}N;神经网络的学习参数折扣因子γ=0.9;ELM隐含层(23)节点数N1=100,隐含层为sigmoid型函数;BP网络隐含层(13)节点数N2=6,网络学习速率隐含层为tan-sigmoid函数。在每次实验中,倒立摆的状态初始化为平衡位置附近的随机值,系统从一个随机的初始状态开始,直到控制失败(摆倒下或是小车超过导轨的长度),控制器则重新进行学习,直到系统能够在一次试探过程中保持6000步的平衡(成功)或者试探次数超过1000次(失败)。
步骤2:获取倒立摆的状态信息,初始化神经网络
初始化强化学习各参数、评价网络ELM隐藏层权值和偏置以及BP连结权进行随机赋值,检测系统所处状态st
步骤3:使用训练样本SAM,完成对评价网络ELM的训练。根据当前所处状态st,通过动作网络(9)计算当前状态下的控制量U(t),得出当前状态下的动作at,并通过评价网络ELM计算对应的Q值,然后根据智能体获取的环境信息作为输入信号,输入到倒立摆系统中。
ELM输入向量(25)通过ELM输入层(24),经过ELM隐含层(23)中ELM隐节点的激活函数(21)的计算得到隐含层激活值,隐含层激活值传递给ELM输出层(18)就可以得到ELM输出向量(19),ELM的整个输出过程可以表示成如下形式:
其中αi是ELM输入权值向量(26),bi是第i个隐节点的ELM偏置值(22),αi·x表示这两项的内积。ELM隐节点的激活函数(21)可以是任何有界的非常数的分段连续函数。
实际使用中ELM的算法分为以下3步:
1)随机分配ELM输入权值向量(26)αi及ELM影响因子(17)βi,i=1,2,...N;
2)计算ELM隐含层(23)输出矩阵H;
3)计算ELM输出权值(20)T=H’Y。
其中,N为ELM隐含层(23)中隐层节点数,H’为H的Moore Penose广义逆矩阵。
将ELM应用于本发明中的目的是用ELM作为评价网络用来逼近Q值函数,需要先对ELM网络进行训练。从环境中获取训练样本(st,at,Qt),t=1,2,...,N,训练ELM输出权值(20)T,以逼近样本Q函数。在训练过程中,对于N个任意的不同的训练样本(st,at,Qt),其中,(st,at)为样本输入,Qt为样本输出,只要存在ELM输入权值向量(24)αi,ELM偏置值(22)βi以及ELM输出权值(20)T满足以下公式:
ELM就能以零误差逼近样本函数。
以上N个等式可简化为:HT=Y
根据式计算隐层输出矩阵H,由式计算ELM输出权值(20)T,完成对ELM神经网络的训练,αi为ELM输入权值向量(24),βi为ELM偏置值(22)。
由于是连续状态,全部存贮样本难以实现,也会使ELM的学习速度大大降低,为了充分利用数据的信息,本发明采用滚动时间窗机制,随着进程不断吸纳最新样本数据,丢弃最久数据,实际使用中可以使用宽度为L的时间窗(27)。
根据当前所处状态st,通过动作网络(9)BP,由BP网络输入层(11)将BP网络输入向量(10)输入到BP网络中,然后由式Y=U(t)=f(w2*f(w1*t))计算当前状态下的BP网络输出向量(15)即强化学习系统中的控制量U(t)(8),得出当前状态下的动作at。w1为BP网络输入层和隐含层之间的权值矩阵(12),w2是BP网络隐含层与输出层之间的权值矩阵(14),BP网络隐含层(13)和BP网络输出层(16)的函数f(.)为tan-sigmoid函数,即f(x)=(1-e-x)/(1+e-x)。
步骤4:由强化学习控制器对倒立摆进行控制
根据当前状态st和要执行的动作at,通过评价网络(2)ELM计算强化学习评价函数Q(t)(3)的Q值,执行动作at于倒立摆(7)系统,获得倒立摆新状态st+1,与立即回报rt+1;然后根据式Qt+1(s,a)=(1-α)Qt(s,a)+α[rt+γQ(st+1,at+1)]更新Q值;
步骤5:更新训练样本,和BP神经网络
将新样本(st,at,Qt)加入训练样本集SAM,同时滚动时间窗(27)向前移动,抛弃最旧样本;根据误差反向传播公式w(t+1)=w(t)+Δw(t)调节动作网络(9)BP神经网络。
步骤6:查看控制结果
查看是否满足学习终止条件,若不满足,则返回到步骤2继续循环。否则结束算法。
在实际控制中,倒立摆的状态初始化为平衡位置附近的随机值,系统从一个随机的初始状态开始,直到控制失败(摆倒下或是小车超过导轨的长度),控制器则重新进行学习,如果系统能够在一次试探过程中保持6000步的平衡则判定学习成功,或者试探次数超过1000次依然无法保持平衡则判定为失败。
本发明一种基于神经网络和强化学习的倒立摆控制方法,在仿真过程中,经过10次的独立仿真运行,在初始状态不同的情况下分别经过60,18,14,16,20,13,2,7,35,39次尝试达到稳定状态,平均需要22.3次尝试。每次达到平衡所花费时间为34.82s,5.72s,5.44s,2.94s,37.38s,8.68s,0.16s,1.32s,30.8,17.32s。平均需要14.50s达到平衡,这表明本发明提供的方法能够加快强化学习的收敛速度。
图6和图7反映了本发明对倒立摆的控制性能,与基于双BP的方法进行了比较。本发明提供的方法相比于双BP强化学习能够快速进入稳定状态,偏离也较小。经过大约560步后,倒立摆趋于稳定,摆动幅度变小,位移变小,能够保持6000步,此时认为倒立摆达到平衡状态。
图8反映了一次倒立摆达到平衡状态所经历的尝试过程,显示倒立摆经过20次尝试学习,在第21次成功达到平衡状态。仿真结果表明在有限的尝试次数内,本发明所提控制的方法可以达到预定的控制目标,验证了本发明的有效性。

Claims (6)

1.一种基于神经网络和强化学习的倒立摆控制方法,主要包括:
步骤1:获取倒立摆系统模型信息;
步骤2:获取倒立摆的状态信息,初始化神经网络;
初始化强化学习各参数、评价网络ELM隐藏层权值和偏置以及BP连结权进行随机赋值,检测系统所处状态st
步骤3:使用训练样本SAM,完成对评价网络ELM的训练,根据当前所处状态st,通过动作网络(9)计算当前状态下的控制量U(t),得出当前状态下的动作at,并通过评价网络ELM计算对应的Q值,然后根据智能体获取的环境信息作为输入信号,输入到倒立摆系统中;
步骤4:由强化学习控制器对倒立摆进行控制
根据当前状态st和要执行的动作at,通过评价网络ELM计算强化学习评价函数Q(t)(3)的Q值,执行动作at于倒立摆(7)系统,获得倒立摆新状态st+1,与立即回报rt+1;然后根据式Qt+1(s,a)=(1-α)Qt(s,a)+α[rt+γQ(st+1,at+1)]更新Q值;
步骤5:更新训练样本,和BP神经网络
将新样本(st,at,Qt)加入训练样本SAM,同时滚动时间窗(27)向前移动,抛弃最旧样本;根据误差反向传播公式w(t+1)=w(t)+Δw(t)调节动作网络(9);
步骤6:查看控制结果
查看是否满足学习终止条件,若不满足,则返回到步骤2继续循环,否则结束算法;在实际控制中,倒立摆的状态初始化为平衡位置附近的随机值,系统从一个随机的初始状态开始,直到控制失败,即摆倒下或是小车超过导轨的长度,控制器则重新进行学习,如果系统能够在一次试探过程中保持6000步的平衡则判定学习成功,或者试探次数超过1000次依然无法保持平衡则判定为失败。
2.根据权利要求1所述一种基于神经网络和强化学习的倒立摆控制方法,其特征在于,其中的强化学习系统基于“动作网络/评价网络”的框架结构,动作网络的输入为状态变量X(t),输出为实际控制量U(t),控制的目的是寻求一个最优控制策略,使得在未来时间步内,所获得的累计折扣回报期望值最大,即评价函数Q(t)最大,动作网络的作用就是利用状态变量,产生最优控制量U(t),使评价函数Q(t)最大,使失败的概率最小化,评价网络以状态变量X(t)和控制量U(t)作为评价网络的输入,而评价网络的输出为评价函数Q(t),即评价函数在学习过程中起到重要的作用。
3.根据权利要求1所述一种基于神经网络和强化学习的倒立摆控制方法,其特征在于,在步骤1中,仿真过程中,倒立摆系统的结构参数为:g=-9.8m/s2,mp=0.1kg,m=1.1kg,l=0.5m,Ft={-10,+10}N;神经网络的学习参数折扣因子γ=0.9;ELM隐含层节点数N1=100,隐含层为sigmoid型函数;BP网络隐含层节点数N2=6,网络学习速率隐含层为tan-sigmoid函数。
4.根据权利要求1所述一种基于神经网络和强化学习的倒立摆控制方法,其特征在于,在步骤3中,用ELM作为评价网络用来逼近Q值函数,需要先对评价网络ELM进行训练,从环境中获取训练样本(st,at,Qt),t=1,2,...,N,训练ELM输出权值T,以逼近样本Q函数,在训练过程中,对于N个任意的不同的训练样本(st,at,Qt),其中,(st,at)为样本输入,Qt为样本输出,只要存在ELM输入权值向量αi,ELM偏置值βi以及ELM输出权值T满足以下公式:
ELM就能以零误差逼近样本函数;
以上N个等式可简化为:HT=Y;
根据式计算隐层输出矩阵H,由式计算ELM输出权值T,完成对ELM神经网络的训练,αi为ELM输入权值向量,βi为ELM偏置值。
5.根据权利要求4所述一种基于神经网络和强化学习的倒立摆控制方法,其特征在于,由于输入样本是连续状态,全部存贮样本难以实现,也会使ELM的学习速度大大降低,为了充分利用数据的信息,采用滚动时间窗机制,随着进程不断吸纳最新样本数据,丢弃最久数据,实际使用中可以使用宽度为L的时间窗。
6.根据权利要求4所述一种基于神经网络和强化学习的倒立摆控制方法,其特征在于,根据当前所处状态st,通过动作网络BP,由BP网络输入层将BP网络输入向量输入到BP网络中,然后由式Y=U(t)=f(w2*f(w1*t))计算当前状态下的BP网络输出向量即强化学习系统中的控制量U(t),得出当前状态下的动作at;w1为BP网络输入层和隐含层之间的权值矩阵,w2是BP网络隐含层与输出层之间的权值矩阵,BP网络隐含层和BP网络输出层的函数f(.)为tan-sigmoid函数,即f(x)=(1-e-x)/(1+e-x)。
CN201510553000.9A 2015-09-01 2015-09-01 一种基于神经网络和强化学习的倒立摆控制方法 Expired - Fee Related CN105549384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510553000.9A CN105549384B (zh) 2015-09-01 2015-09-01 一种基于神经网络和强化学习的倒立摆控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510553000.9A CN105549384B (zh) 2015-09-01 2015-09-01 一种基于神经网络和强化学习的倒立摆控制方法

Publications (2)

Publication Number Publication Date
CN105549384A CN105549384A (zh) 2016-05-04
CN105549384B true CN105549384B (zh) 2018-11-06

Family

ID=55828636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510553000.9A Expired - Fee Related CN105549384B (zh) 2015-09-01 2015-09-01 一种基于神经网络和强化学习的倒立摆控制方法

Country Status (1)

Country Link
CN (1) CN105549384B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106094530B (zh) * 2016-07-22 2018-11-13 吉林大学 倒立摆的非线性控制器设计方法
CN108051999B (zh) * 2017-10-31 2020-08-25 中国科学技术大学 基于深度强化学习的加速器束流轨道控制方法及系统
CN109960246B (zh) 2017-12-22 2021-03-30 华为技术有限公司 动作控制方法及装置
CN108803328B (zh) * 2018-06-14 2021-11-09 广东惠禾科技发展有限公司 摄像头自适应调整方法、装置和摄像头
CN109190270B (zh) * 2018-09-12 2022-12-27 北京化工大学 一种基于apso-bp的双配重盘自动平衡控制方法
US11540781B2 (en) 2019-03-29 2023-01-03 Tata Consultancy Services Limited Modeling a neuronal controller exhibiting human postural sway
CN110908280B (zh) * 2019-10-30 2023-01-03 宁波大学 一种小车-二级倒立摆系统优化控制方法
CN111079936B (zh) * 2019-11-06 2023-03-14 中国科学院自动化研究所 基于强化学习的波动鳍推进水下作业机器人追踪控制方法
CN111240344B (zh) * 2020-02-11 2023-04-07 哈尔滨工程大学 基于强化学习技术的自主水下机器人无模型控制方法
CN111753468B (zh) * 2020-06-28 2021-09-07 中国科学院自动化研究所 基于深度强化学习的电梯系统自学习最优控制方法及系统
CN115981149B (zh) * 2022-12-09 2024-01-09 中国矿业大学 基于安全强化学习的高超声速飞行器最优控制方法
CN117313826B (zh) * 2023-11-30 2024-02-23 安徽大学 一种基于强化学习的任意角度倒立摆模型训练方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115309A (ja) * 1994-10-18 1996-05-07 Mitsubishi Electric Corp 学習制御方法
US5555439A (en) * 1991-06-12 1996-09-10 Hitachi, Ltd. Learning system and a learning pattern showing method for a neural network
CN101539781A (zh) * 2009-04-22 2009-09-23 北京中冶设备研究设计总院有限公司 电镀锌锌层厚度bp神经网络控制方法及其在plc上的应用
CN103049791A (zh) * 2011-10-13 2013-04-17 何阳 模糊自组织神经网络的训练方法
CN103064292A (zh) * 2013-01-15 2013-04-24 镇江市江大科技有限责任公司 基于神经网络逆的生物发酵自适应控制系统及控制方法
CN103472726A (zh) * 2013-09-22 2013-12-25 上海无线电设备研究所 一种提高空间活动部件寿命的非线性跟踪控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489619B2 (en) * 2010-12-10 2016-11-08 Siemens Aktiengesellschaft Method for the computer-assisted modeling of a technical system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555439A (en) * 1991-06-12 1996-09-10 Hitachi, Ltd. Learning system and a learning pattern showing method for a neural network
JPH08115309A (ja) * 1994-10-18 1996-05-07 Mitsubishi Electric Corp 学習制御方法
CN101539781A (zh) * 2009-04-22 2009-09-23 北京中冶设备研究设计总院有限公司 电镀锌锌层厚度bp神经网络控制方法及其在plc上的应用
CN103049791A (zh) * 2011-10-13 2013-04-17 何阳 模糊自组织神经网络的训练方法
CN103064292A (zh) * 2013-01-15 2013-04-24 镇江市江大科技有限责任公司 基于神经网络逆的生物发酵自适应控制系统及控制方法
CN103472726A (zh) * 2013-09-22 2013-12-25 上海无线电设备研究所 一种提高空间活动部件寿命的非线性跟踪控制方法

Also Published As

Publication number Publication date
CN105549384A (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN105549384B (zh) 一种基于神经网络和强化学习的倒立摆控制方法
Garnier et al. A review on deep reinforcement learning for fluid mechanics
Song et al. Policy search for model predictive control with application to agile drone flight
Hein et al. Particle swarm optimization for generating interpretable fuzzy reinforcement learning policies
Tian et al. Adaptive neuro-fuzzy control of a flexible manipulator
Wang et al. Backward Q-learning: The combination of Sarsa algorithm and Q-learning
CN106970594B (zh) 一种柔性机械臂的轨迹规划方法
CN104932267B (zh) 一种采用资格迹的神经网络学习控制方法
Couceiro et al. Application of fractional algorithms in the control of a robotic bird
Zheng et al. Learning for attitude holding of a robotic fish: An end-to-end approach with sim-to-real transfer
CN107967513B (zh) 多机器人强化学习协同搜索方法及系统
US11604941B1 (en) Training action-selection neural networks from demonstrations using multiple losses
CN105487376A (zh) 一种基于数据驱动单网络结构的最优控制方法
Yang et al. Fatigue life prediction for welding components based on hybrid intelligent technique
Wang et al. Model-based meta reinforcement learning using graph structured surrogate models and amortized policy search
Ramamurthy et al. Leveraging domain knowledge for reinforcement learning using MMC architectures
Liang et al. Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network
Jin et al. A game-theoretic reinforcement learning approach for adaptive interaction at intersections
Jiang et al. Generative adversarial interactive imitation learning for path following of autonomous underwater vehicle
Saunders et al. Designing for interest and novelty: Motivating design agents
Mishra et al. A Huber reward function-driven deep reinforcement learning solution for cart-pole balancing problem
Sumiea et al. Enhanced Deep Deterministic Policy Gradient Algorithm using Grey Wolf Optimizer for continuous Control Tasks
Mishra et al. Double Deep Q Network with Huber Reward Function for Cart-Pole Balancing Problem
Gomez et al. Transfer of neuroevolved controllers in unstable domains
Xu et al. Discounted sampling policy gradient for robot multi-objective visual control

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181106

Termination date: 20190901