CN114002957A - 一种基于深度强化学习的智能控制方法及系统 - Google Patents

一种基于深度强化学习的智能控制方法及系统 Download PDF

Info

Publication number
CN114002957A
CN114002957A CN202111289079.0A CN202111289079A CN114002957A CN 114002957 A CN114002957 A CN 114002957A CN 202111289079 A CN202111289079 A CN 202111289079A CN 114002957 A CN114002957 A CN 114002957A
Authority
CN
China
Prior art keywords
network
training
delta
online
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111289079.0A
Other languages
English (en)
Other versions
CN114002957B (zh
Inventor
徐金雄
张先勇
熊建斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202111289079.0A priority Critical patent/CN114002957B/zh
Publication of CN114002957A publication Critical patent/CN114002957A/zh
Application granted granted Critical
Publication of CN114002957B publication Critical patent/CN114002957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度强化学习的智能控制方法及系统,该方法包括:构建经验池和网络并进行参数初始化;构建训练样本并对前馈神经网络进行训练;基于训练完成网络输出控制量并对系统进行控制;采集系统运行过程的过程变量并存储到经验池;检测经验池数据是否存满;判断到满足迭代条件,系统结束运行,保存网络参数并停止控制量输出。该系统包括:参数初始化模块、预训练模块、控制模块、采集模块、判断模块和迭代模块。通过使用本发明,能够克服PID控制器在非线性复杂系统上的不足。本发明作为一种基于深度强化学习的智能控制方法及系统,可广泛应用于电机运动控制领域。

Description

一种基于深度强化学习的智能控制方法及系统
技术领域
本发明涉及电机运动控制领域,尤其涉及一种基于深度强化学习的智能控制方法及系统。
背景技术
运动控制系统是一种通过控制电动机的电压、电流、频率等输入量,来改变电机输出转矩、转速等机械量,使各种工作机械按人们期望的要求运行以满足生产工艺及其他应用需求的自动化系统。目前运动控制系统已在工业领域中广泛应用,例如工业机器人、无人机、运动平台等等,都是通过运动控制系统对机械运动部件的位置、速度等进行实时的控制管理,使其按照预期的运动轨迹和规定的运动参数进行运动。现有的控制方法虽然解决了PID参数的估算和自适应调整问题,但本质上仍然是一个PID控制器,对于非线性复杂系统的控制仍然存在局限性。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于深度强化学习的智能控制方法及系统,克服了PID控制器在非线性复杂系统上的不足。
本发明所采用的第一技术方案是:一种基于深度强化学习的智能控制方法,包括以下步骤:
S1、构建经验池和前馈神经网络,并进行参数初始化;
S2、构建训练样本并对前馈神经网络进行训练,得到训练完成网络;
S3、基于训练完成网络输出控制量并对系统进行控制;
S4、采集系统运行过程的过程变量并存储到经验池;
S5、检测经验池数据是否存满,若经验池的数据已满,每间隔预设时间对网络参数进行训练并跳转步骤S6,若经验池的数据未满则直接跳转步骤S6;
S6、返回步骤S3直至判断到满足迭代条件,系统结束运行,保存网络参数并停止控制量输出。
进一步,所述建经验池和前馈神经网络,并进行参数初始化这一步骤,其具体包括:
S11、构建经验池、在线策略网络、目标策略网络、在线评论网络和目标评论网络;
S12、对在线策略网络、目标策略网络、在线评论网络和目标评论网络的网络参数进行随机设置,并让目标评论网络的网络参数等于目标评论网络的网络参数。
进一步,所述构建训练样本并对前馈神经网络进行训练,得到训练完成网络这一步骤,其具体包括:
S21、将系统的控制模式切换成PI控制输出;
S22、按预设的时间间隔记录过程变量数据,包括第t时刻给定量与目标量之状态偏差e(t)、第t时刻状态偏差变化量Δe(t)和第t时刻控制量变化值ΔUc(t);
S23、以第t时刻给定量与目标量之状态偏差e(t)和第t时刻状态偏差变化量Δe(t)作为输入,第t时刻控制量变化值ΔUc(t)作为输出训练在线策略网络,生成新的网络参数,得到训练完成的在线策略网络。
进一步,所述基于训练完成网络输出控制量并对系统进行控制这一步骤,其具体包括:
S31、切断PI控制器的输出;
S32、记录前一时刻的输出控制量Uc(t-1);
S33、将当前时刻的e(t)和Δe(t)输入到在线策略网络中,得到网络的输出ΔUc(t);
S34、将前一时刻的输出控制量Uc(t-1)与网络的输出ΔUc(t)相加,得到控制输出量Uc(t);
S35、切换完成,重复步骤S32~S34实现在线策略网络对系统进行控制。
进一步,所述采集系统运行过程的过程变量并存储到经验池这一步骤,其具体包括:
实时采集系统的过程变量,包括第t时刻给定量与目标量之状态偏差e(t)、第t时刻状态偏差变化量Δe(t)、第t时刻控制量变化值ΔUc(t)、第t+1时刻给定量与目标量之状态偏差e(t+1)、第t+1时刻状态偏差变化量Δe(t+1)、第t时刻的奖励值R(t);
将过程变量存储到经验池。
进一步,所述对网络参数进行训练,其具体包括:
从经验池中随机抽取50条数据作为训练样本,每条训练样本包括t时刻和t+1时刻的参数,e(t)、Δe(t)、ΔUc(t)、e(t+1)、Δe(t+1)和R(t);
将训练样本中的第i条(i=1,2,…,50)数据的e(t)、Δe(t)输入到在线策略网络,得到在线策略网络输出ΔUi(i=1,2,…,50);
将训练样本中第i条(i=1,2,…,50)数据的e(t+1)、Δe(t+1)输入到目标策略网络,得目标策略网络输出ΔU′i+1(i=1,2,…,50);
将训练样本中第i条(i=1,2,…,50)数据的e(t)、Δe(t)和在线策略网络输出ΔUi(i=1,2,…,50)输入到在线评论网络得到在线评论网络输出Qi(i=1,2,…,50);
将训练样本中的e(t+1)、Δe(t+1)和目标策略网络输出ΔU′i+1(i=1,2,…,50)输入到目标评论网络,得到目标评论输出Q′t+1
基于损失函数利用神经网络反向传播算法对在线评论网络的网络参数进行更新,得到更新后的在线评论网络的网络参数;
基于随机梯度下降算法更新在线策略网络的网络参数,得到更新后的在线策略网络的网络参数;
根据更新后的在线评论网络的网络参数和更新后的在线策略网络的网络参数对目标策略网络和目标评论网络的网络参数进行更新。
进一步,所述损失函数公式表示如下:
Figure BDA0003333964270000031
上式中,
Figure BDA0003333964270000032
yi=R(t)+0.9×Q′i+1
上式中,i表示随机从经验库中抽取的第i条训练数据(i=1,2,…,50),R(t)表示第i条训练数据中的奖励值R(t),Qi和Q′i+1分别表示将第i条训练数据输入到在线评论网络和目标评论网络对应得到的网络输出值。
本发明所采用的第二技术方案是:一种基于深度强化学习的智能控制系统,包括:
参数初始化模块,用于构建经验池和前馈神经网络,并进行参数初始化;
预训练模块,用于构建训练样本并对前馈神经网络进行训练,得到训练完成网络;
控制模块,基于训练完成网络输出控制量并对系统进行控制;
采集模块,用于采集系统运行过程的过程变量并存储到经验池;
判断模块,用于检测经验池数据是否存满;
迭代模块,用于判断到满足迭代条件,系统结束运行,保存网络参数并停止控制量输出。
本发明方法及系统的有益效果是:本发明通过搭建经验池,使得每次学习时从经验池随机抽取训练样本,避免了由于数据强关联性所带来的陷入局部最小值无法找到全局最优解的问题;另外,基于深度强化学习方法对网络进行训练后,最终输出的是控制量的修正量,能有效避免PID控制器对于非线性复杂系统控制的局限性。
附图说明
图1是本发明一种基于深度强化学习的智能控制方法的步骤流程图;
图2是本发明一种基于深度强化学习的智能控制系统的结构框图;
图3是本发明具体实施例的应用示意图;
图4是本发明具体实施例的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
本发明在实际应用中如图3所示,首先将目标给定参量Ya(t)与被控对象反馈回来的实际参量Y(t)之差e(t)输入到本发明所述的智能控制器中,例如在电动机转速控制系统中,Ya(t)为目标转速值,Y(t)为电动机的实际转速,e(t)=Ya(t)-Y(t)为当前的转速偏差值。本发明的智能控制器经过以下一系列的数据处理流程后,输出控制量UC(t)经功率方法装置放大后对被控对象(如电动机拖动系统)进行控制,使其反馈参量与目标给定参量相同(例如控制实际转速使其等于目标给定转速)。
参照图1和图4,本发明提供了一种基于深度强化学习的智能控制方法,该方法包括以下步骤:
S1、构建经验池和前馈神经网络,并进行参数初始化;
S2、构建训练样本并对前馈神经网络进行训练,得到训练完成网络;
S3、基于训练完成网络输出控制量并对系统进行控制;
具体地,智能控制器的输出控制量UC(t)由在线策略网络和输出运算器联合运算得到。首先输出运算器屏蔽PI控制器的输入。然后输入到智能控制器的e(t)经输入寄存器处理后输出e(t)和Δe(t)到在线策略网络中,得到网络的输出ΔUc(t)。最后ΔUc输入到输出运算器后,运算器对其进行累加得到输出量UC(t)。
S4、采集系统运行过程的过程变量并存储到经验池;
S5、检测经验池数据是否存满,若经验池的数据已满,每间隔预设时间对网络参数进行训练并跳转步骤S6,若经验池的数据未满则直接跳转步骤S6;
S6、返回步骤S3直至判断到满足迭代条件,系统结束运行,保存网络参数并停止控制量输出。
进一步作为本方法的优选实施例,所述构建经验池和前馈神经网络,并进行参数初始化这一步骤,其具体包括:
S11、构建经验池、在线策略网络、目标策略网络、在线评论网络和目标评论网络;
S12、对在线策略网络、目标策略网络、在线评论网络和目标评论网络的网络参数进行随机设置,并让目标评论网络的网络参数等于目标评论网络的网络参数θQ′=θQ
具体地,(1)构建可存储1000条数据的经验池,每条数据最多可存储6个浮点型变量;(2)构建4个4层架构的前馈神经网络,网络的网络参数随机设置,网络命名分别为:在线策略网络、目标策略网络、在线评论网络、目标评论网络。其中在线策略网络和目标策略网络为2输入1输出的网络,在线评论网络和目标评论网络为3输入1输出的网络。
进一步作为本方法的优选实施例,所述构建训练样本并对前馈神经网络进行训练,得到训练完成网络这一步骤,其具体包括:
S21、将系统的控制模式切换成PI控制输出,其中PI控制器的P参数为2、I参数为1。
S22、按预设的时间间隔记录过程变量数据,包括第t时刻给定量与目标量之状态偏差e(t)、第t时刻状态偏差变化量Δe(t)和第t时刻控制量变化值ΔUc(t);
具体地,记录200条运动控制系统的过程变量数据。
S23、以第t时刻给定量与目标量之状态偏差e(t)和第t时刻状态偏差变化量Δe(t)作为输入,第t时刻控制量变化值ΔUc(t)作为输出训练在线策略网络,生成新的网络参数,得到训练完成的在线策略网络。
具体地,对在线策略网络进行初始化训练。训练时先以200条数据中的e(t)和Δe(t)作为在线策略网络的输入,经网络运算后得到输出值ΔUt(t=1,2,…,200)。定义在线策略网络的损失函数为:
Figure BDA0003333964270000051
根据损失函数,利用随机梯度下降算法对网络的网络参数进行训练,得到新的网络参数θμ。最后让目标策略网络的网络参数θμ′=θμ
进一步作为本方法的优选实施例,所述基于训练完成网络输出控制量并对系统进行控制这一步骤,其具体包括:
S31、切断PI控制器的输出;
S32、记录前一时刻的输出控制量Uc(t-1);
S33、将当前时刻的e(t)和Δe(t)输入到在线策略网络中,得到网络的输出ΔUc(t);
S34、将前一时刻的输出控制量Uc(t-1)与网络的输出ΔUc(t)相加,得到控制输出量Uc(t);
S35、切换完成,重复步骤S32~S34实现在线策略网络对系统进行控制。
进一步作为本方法优选实施例,所述采集系统运行过程的过程变量并存储到经验池这一步骤,其具体包括:
实时采集系统的过程变量,包括第t时刻给定量与目标量之状态偏差e(t)、第t时刻状态偏差变化量Δe(t)、第t时刻控制量变化值ΔUc(t)、第t+1时刻给定量与目标量之状态偏差e(t+1)、第t+1时刻状态偏差变化量Δe(t+1)、第t时刻的奖励值R(t);
具体地,采集运动系统运行过程的过程变量并将数据存储到经验池中。在这一过程中e(t)和e(t+1)直接通过外部输入得到,ΔUc(t)通过输出运算模块得到,Δe(t)、Δe(t+1)和R(t)通过奖励值计算器得到。其中R(t)的计算公式为:
Figure BDA0003333964270000061
上式中,δ表示系统所允许的偏差量,Tanh(*)为双曲正切函数。
将过程变量存储到经验池。
进一步作为本方法优选实施例,所述对网络参数进行训练,其具体包括:
从经验池中随机抽取50条数据作为训练样本,每条训练样本包括t时刻和t+1时刻的参数,e(t)、Δe(t)、ΔUc(t)、e(t+1)、Δe(t+1)和R(t);
将训练样本中的第i条(i=1,2,…,50)数据的e(t)、Δe(t)输入到在线策略网络,得到在线策略网络输出ΔUi(i=1,2,…,50);
将训练样本中第i条(i=1,2,…,50)数据的e(t+1)、Δe(t+1)输入到目标策略网络,得目标策略网络输出ΔU′i+1(i=1,2,…,50);
具体地,训练器1将每条训练样本中的状态量e(t)、Δe(t)输入到在线策略网络得到网络的输出ΔUt(t=1,2,…,50);训练器2将e(t+1)、Δe(t+1)输入到目标策略网络得到网络的输出ΔU′t+1(t=1,2,…,50)。
将训练样本中第i条(i=1,2,…,50)数据的e(t)、Δe(t)和在线策略网络输出ΔUi(i=1,2,…,50)输入到在线评论网络得到在线评论网络输出Qi(i=1,2,…,50);
将训练样本中的e(t+1)、Δe(t+1)和目标策略网络输出ΔU′i+1(i=1,2,…,50)输入到目标评论网络,得到目标评论输出Q′t+1
具体地,训练器2将e(t)、Δe(t)和ΔUt(t=1,2,…,50)输入到在线评论网络得到网络输出Qt;e(t+1)、Δe(t+1)和ΔU′t+1(t=1,2,…,50)输入到目标评论网络得到网络输出Q′t+1
基于损失函数利用神经网络反向传播算法对在线评论网络的网络参数进行更新,得到更新后的在线评论网络的网络参数θQ
具体地,所述损失函数公式表示如下:
Figure BDA0003333964270000071
上式中,yi=R(t)+0.9×Q′i+1,i表示随机从经验库中抽取的第i条训练数据(i=1,2,…,50),R(t)表示第i条训练数据中的奖励值R(t),Qi和Q′i+1分别表示将第i条训练数据输入到在线评论网络和目标评论网络对应得到的网络输出值。
基于随机梯度下降算法更新在线策略网络的网络参数,得到更新后的在线策略网络的网络参数θμ
根据更新后的在线评论网络的网络参数和更新后的在线策略网络的网络参数对目标策略网络目标评论网络的网络参数进行更新。
具体地,根据下式对目标策略网络和目标评论网络的网络参数进行更新:
Figure BDA0003333964270000072
例如:θQ=[10,15,8,25]T、θQ′=[7,13,21,30]T
则更新后的参数为θQ′=[7.006,13.004,20.974,29.99]T
如图2所示,一种基于深度强化学习的智能控制系统,包括:
参数初始化模块,用于构建经验池和前馈神经网络,并进行参数初始化;
预训练模块,用于构建训练样本并对前馈神经网络进行训练,得到训练完成网络;
控制模块,基于训练完成网络输出控制量并对系统进行控制;
采集模块,用于采集系统运行过程的过程变量并存储到经验池;
判断模块,用于检测经验池数据是否存满;
迭代模块,用于判断到满足迭代条件,系统结束运行,保存网络参数并停止控制量输出。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种基于深度强化学习的智能控制方法,其特征在于,包括以下步骤:
S1、构建经验池和前馈神经网络,并进行参数初始化;
S2、构建训练样本并对前馈神经网络进行训练,得到训练完成网络;
S3、基于训练完成网络输出控制量并对系统进行控制;
S4、采集系统运行过程的过程变量并存储到经验池;
S5、检测经验池数据是否存满,若经验池的数据已满,每间隔预设时间对网络参数进行训练并跳转步骤S6,若经验池的数据未满则直接跳转步骤S6;
S6、返回步骤S3直至判断到满足迭代条件,系统结束运行,保存网络参数并停止控制量输出。
2.根据权利要求1所述一种基于深度强化学习的智能控制方法,其特征在于,所述构建经验池和前馈神经网络,并进行参数初始化这一步骤,其具体包括:
S11、构建经验池、在线策略网络、目标策略网络、在线评论网络和目标评论网络;
S12、对在线策略网络、目标策略网络、在线评论网络和目标评论网络的网络参数进行随机设置,并让目标评论网络的网络参数等于目标评论网络的网络参数。
3.根据权利要求2所述一种基于深度强化学习的智能控制方法,其特征在于,所述构建训练样本并对前馈神经网络进行训练,得到训练完成网络这一步骤,其具体包括:
S21、将系统的控制模式切换成PI控制输出;
S22、按预设的时间间隔记录过程变量数据,包括第t时刻给定量与目标量之状态偏差e(t)、第t时刻状态偏差变化量Δe(t)和第t时刻控制量变化值ΔUc(t);
S23、以第t时刻给定量与目标量之状态偏差e(t)和第t时刻状态偏差变化量Δe(t)作为输入,第t时刻控制量变化值ΔUc(t)作为输出训练在线策略网络,生成新的网络参数,得到训练完成的在线策略网络。
4.根据权利要求3所述一种基于深度强化学习的智能控制方法,其特征在于,所述基于训练完成网络输出控制量并对系统进行控制这一步骤,其具体包括:
S31、切断PI控制器的输出;
S32、记录前一时刻的输出控制量Uc(t-1);
S33、将当前时刻的e(t)和Δe(t)输入到在线策略网络中,得到网络的输出ΔUc(t);
S34、将前一时刻的输出控制量Uc(t-1)与网络的输出ΔUc(t)相加,得到控制输出量Uc(t);
S35、切换完成,重复步骤S32~S34实现在线策略网络对系统进行控制。
5.根据权利要求4所述一种基于深度强化学习的智能控制方法,其特征在于,所述采集系统运行过程的过程变量并存储到经验池这一步骤,其具体包括:
实时采集系统的过程变量,包括第t时刻给定量与目标量之状态偏差e(t)、第t时刻状态偏差变化量Δe(t)、第t时刻控制量变化值ΔUc(t)、第t+1时刻给定量与目标量之状态偏差e(t+1)、第t+1时刻状态偏差变化量Δe(t+1)、第t时刻的奖励值R(t);
将过程变量存储到经验池。
6.根据权利要求5所述一种基于深度强化学习的智能控制方法,其特征在于,所述对网络参数进行训练,其具体包括:
从经验池中随机抽取50条数据作为训练样本,每条训练样本包括t时刻和t+1时刻的参数,e(t)、Δe(t)、ΔUc(t)、e(t+1)、Δe(t+1)和R(t);
将训练样本中的第i条(i=1,2,…,50)数据的e(t)、Δe(t)输入到在线策略网络,得到在线策略网络输出ΔUi(i=1,2,…,50);
将训练样本中第i条(i=1,2,…,50)数据的e(t+1)、Δe(t+1)输入到目标策略网络,得目标策略网络输出ΔU′i+1(i=1,2,…,50);
将训练样本中第i条(i=1,2,…,50)数据的e(t)、Δe(t)和在线策略网络输出ΔUi(i=1,2,…,50)输入到在线评论网络得到在线评论网络输出Qi(i=1,2,…,50);
将训练样本中的e(t+1)、Δe(t+1)和目标策略网络输出ΔU′i+1(i=1,2,…,50)输入到目标评论网络,得到目标评论输出Q′t+1
基于损失函数利用神经网络反向传播算法对在线评论网络的网络参数进行更新,得到更新后的在线评论网络的网络参数;
基于随机梯度下降算法更新在线策略网络的网络参数,得到更新后的在线策略网络的网络参数;
根据更新后的在线评论网络的网络参数和更新后的在线策略网络的网络参数对目标策略网络和目标评论网络的网络参数进行更新。
7.根据权利要求6所述一种基于深度强化学习的智能控制方法,其特征在于,所述损失函数公式表示如下:
Figure FDA0003333964260000021
yi=R(t)+0.9×Q′i+1
上式中,i表示随机从经验库中抽取的第i条训练数据(i=1,2,…,50),R(t)表示第i条训练数据中的奖励值R(t),Qi和Q′i+1分别表示将第i条训练数据输入到在线评论网络和目标评论网络对应得到的网络输出值。
8.一种基于深度强化学习的智能控制系统,其特征在于,包括:
参数初始化模块,用于构建经验池和前馈神经网络,并进行参数初始化;
预训练模块,用于构建训练样本并对前馈神经网络进行训练,得到训练完成网络;
控制模块,基于训练完成网络输出控制量并对系统进行控制;
采集模块,用于采集系统运行过程的过程变量并存储到经验池;
判断模块,用于检测经验池数据是否存满;
迭代模块,用于判断到满足迭代条件,系统结束运行,保存网络参数并停止控制量输出。
CN202111289079.0A 2021-11-02 2021-11-02 一种基于深度强化学习的智能控制方法及系统 Active CN114002957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111289079.0A CN114002957B (zh) 2021-11-02 2021-11-02 一种基于深度强化学习的智能控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111289079.0A CN114002957B (zh) 2021-11-02 2021-11-02 一种基于深度强化学习的智能控制方法及系统

Publications (2)

Publication Number Publication Date
CN114002957A true CN114002957A (zh) 2022-02-01
CN114002957B CN114002957B (zh) 2023-11-03

Family

ID=79926494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111289079.0A Active CN114002957B (zh) 2021-11-02 2021-11-02 一种基于深度强化学习的智能控制方法及系统

Country Status (1)

Country Link
CN (1) CN114002957B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103490413A (zh) * 2013-09-27 2014-01-01 华南理工大学 一种基于智能体均衡算法的智能发电控制方法
CN106877766A (zh) * 2017-02-10 2017-06-20 华南理工大学 基于强化学习算法的双馈感应风力发电机自校正控制方法
CN108805268A (zh) * 2018-06-08 2018-11-13 中国科学技术大学 基于进化算法的深度强化学习策略网络训练方法
CN110443447A (zh) * 2019-07-01 2019-11-12 中国电力科学研究院有限公司 一种基于深度强化学习调整电力系统潮流的方法及系统
CN111300390A (zh) * 2020-03-20 2020-06-19 苏州大学 基于蓄水池采样和双经验池的机械臂智能控制系统
CN111309907A (zh) * 2020-02-10 2020-06-19 大连海事大学 一种基于深度强化学习的实时Bug分派方法
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN111766782A (zh) * 2020-06-28 2020-10-13 浙江大学 基于深度强化学习中Actor-Critic框架的策略选择方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103490413A (zh) * 2013-09-27 2014-01-01 华南理工大学 一种基于智能体均衡算法的智能发电控制方法
CN106877766A (zh) * 2017-02-10 2017-06-20 华南理工大学 基于强化学习算法的双馈感应风力发电机自校正控制方法
CN108805268A (zh) * 2018-06-08 2018-11-13 中国科学技术大学 基于进化算法的深度强化学习策略网络训练方法
CN110443447A (zh) * 2019-07-01 2019-11-12 中国电力科学研究院有限公司 一种基于深度强化学习调整电力系统潮流的方法及系统
CN111309907A (zh) * 2020-02-10 2020-06-19 大连海事大学 一种基于深度强化学习的实时Bug分派方法
CN111300390A (zh) * 2020-03-20 2020-06-19 苏州大学 基于蓄水池采样和双经验池的机械臂智能控制系统
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN111766782A (zh) * 2020-06-28 2020-10-13 浙江大学 基于深度强化学习中Actor-Critic框架的策略选择方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JIAWEN LI , TAO YU , AND BO YANG: "Adaptive Controller of PEMFC Output Voltage Based on Ambient Intelligence Large-Scale Deep Reinforcement Learning", 《IEEE ACCESS》, pages 6063 - 6075 *
WILLIAM J. SHIPMAN;LOUTJIE C. COETZEE: "Reinforcement Learning and Deep Neural Networks for PI Controller Tuning", 《IFAC PAPERSONLINE》, pages 111 - 116 *
冉润东: "基于深度强化学习的高速公路入口匝道控制方法研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》, pages 034 - 333 *
房学鑫等: "基于强化学习的电机位置伺服系统的研究", 《自动化与仪表》, pages 21 - 24 *
窦飞等: "基于深度强化学习的多端背靠背柔性直流系统直流电压控制", 《电力系统自动化》, pages 155 - 162 *
贾金岭: "面向5G的智能化纵向协作缓存研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 136 - 169 *

Also Published As

Publication number Publication date
CN114002957B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
JP6774637B2 (ja) 制御装置及び制御方法
CN105773623B (zh) 基于预测型间接迭代学习的scara机器人轨迹跟踪控制方法
US20190299406A1 (en) Controller and machine learning device
CN105807607A (zh) 一种遗传算法优化预测模糊pid焦化炉温度控制方法
JP6841852B2 (ja) 制御装置及び制御方法
DE102019204949A1 (de) Maschinelle lernvorrichtung, steuervorrichtung und maschinelles lernverfahren
CN105022269A (zh) 仿生机器鱼关节的控制方法及装置
CN114002957A (zh) 一种基于深度强化学习的智能控制方法及系统
CN113428218A (zh) 一种车辆转向控制方法、装置、设备及存储介质
Seghiri et al. Fractional order adaptive MRAC controller design for high-accuracy position control of an industrial robot arm
CA2874269C (en) Model predictive controller and method with correction parameter to compensate for time lag
CN108089442B (zh) 一种基于预测函数控制与模糊控制的pi控制器参数自整定方法
CN114193458B (zh) 一种基于高斯过程在线学习的机器人控制方法
Tran et al. PID speed controller optimization using online genetic algorithm for induction motor drive
CN113325694B (zh) 一种基于机器学习的模型预测控制参数的整定方法
CN113296398A (zh) 一种柔性单链机械臂基于事件触发的命令滤波控制方法
Ennen et al. Automated production ramp-up through self-learning systems
CN109039166B (zh) 一种永磁同步直线伺服系统速度环pi-ip控制参数自校正方法
CN114411858B (zh) 一种基于强化学习的绞吸式挖泥船智能控制系统及方法
Tiong et al. Process Proportional-Integral PI Control with Deep Reinforcement Learning
CN105867378B (zh) 一种通过自动创建抽象动作控制移动机器人的方法
Wahrburg et al. Extending dynamic movement primitives towards high-performance robot motion
JP2019136807A (ja) 制御装置及び機械学習装置
CN112810227B (zh) 一种新型的伺服压力机控制方法
CN115674191B (zh) 一种基于数字孪生的机械臂控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant