CN114002957A

CN114002957A - 一种基于深度强化学习的智能控制方法及系统

Info

Publication number: CN114002957A
Application number: CN202111289079.0A
Authority: CN
Inventors: 徐金雄; 张先勇; 熊建斌
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-02-01
Anticipated expiration: 2041-11-02
Also published as: CN114002957B

Abstract

本发明公开了一种基于深度强化学习的智能控制方法及系统，该方法包括：构建经验池和网络并进行参数初始化；构建训练样本并对前馈神经网络进行训练；基于训练完成网络输出控制量并对系统进行控制；采集系统运行过程的过程变量并存储到经验池；检测经验池数据是否存满；判断到满足迭代条件，系统结束运行，保存网络参数并停止控制量输出。该系统包括：参数初始化模块、预训练模块、控制模块、采集模块、判断模块和迭代模块。通过使用本发明，能够克服PID控制器在非线性复杂系统上的不足。本发明作为一种基于深度强化学习的智能控制方法及系统，可广泛应用于电机运动控制领域。

Description

一种基于深度强化学习的智能控制方法及系统

技术领域

本发明涉及电机运动控制领域，尤其涉及一种基于深度强化学习的智能控制方法及系统。

背景技术

运动控制系统是一种通过控制电动机的电压、电流、频率等输入量，来改变电机输出转矩、转速等机械量，使各种工作机械按人们期望的要求运行以满足生产工艺及其他应用需求的自动化系统。目前运动控制系统已在工业领域中广泛应用，例如工业机器人、无人机、运动平台等等，都是通过运动控制系统对机械运动部件的位置、速度等进行实时的控制管理，使其按照预期的运动轨迹和规定的运动参数进行运动。现有的控制方法虽然解决了PID参数的估算和自适应调整问题，但本质上仍然是一个PID控制器，对于非线性复杂系统的控制仍然存在局限性。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于深度强化学习的智能控制方法及系统，克服了PID控制器在非线性复杂系统上的不足。

本发明所采用的第一技术方案是：一种基于深度强化学习的智能控制方法，包括以下步骤：

S1、构建经验池和前馈神经网络，并进行参数初始化；

S2、构建训练样本并对前馈神经网络进行训练，得到训练完成网络；

S3、基于训练完成网络输出控制量并对系统进行控制；

S4、采集系统运行过程的过程变量并存储到经验池；

S5、检测经验池数据是否存满，若经验池的数据已满，每间隔预设时间对网络参数进行训练并跳转步骤S6，若经验池的数据未满则直接跳转步骤S6；

S6、返回步骤S3直至判断到满足迭代条件，系统结束运行，保存网络参数并停止控制量输出。

进一步，所述建经验池和前馈神经网络，并进行参数初始化这一步骤，其具体包括：

S11、构建经验池、在线策略网络、目标策略网络、在线评论网络和目标评论网络；

S12、对在线策略网络、目标策略网络、在线评论网络和目标评论网络的网络参数进行随机设置，并让目标评论网络的网络参数等于目标评论网络的网络参数。

进一步，所述构建训练样本并对前馈神经网络进行训练，得到训练完成网络这一步骤，其具体包括：

S21、将系统的控制模式切换成PI控制输出；

S22、按预设的时间间隔记录过程变量数据，包括第t时刻给定量与目标量之状态偏差e(t)、第t时刻状态偏差变化量Δe(t)和第t时刻控制量变化值ΔU_c(t)；

S23、以第t时刻给定量与目标量之状态偏差e(t)和第t时刻状态偏差变化量Δe(t)作为输入，第t时刻控制量变化值ΔU_c(t)作为输出训练在线策略网络，生成新的网络参数，得到训练完成的在线策略网络。

进一步，所述基于训练完成网络输出控制量并对系统进行控制这一步骤，其具体包括：

S31、切断PI控制器的输出；

S32、记录前一时刻的输出控制量U_c(t-1)；

S33、将当前时刻的e(t)和Δe(t)输入到在线策略网络中，得到网络的输出ΔU_c(t)；

S34、将前一时刻的输出控制量U_c(t-1)与网络的输出ΔU_c(t)相加，得到控制输出量U_c(t)；

S35、切换完成，重复步骤S32～S34实现在线策略网络对系统进行控制。

进一步，所述采集系统运行过程的过程变量并存储到经验池这一步骤，其具体包括：

实时采集系统的过程变量，包括第t时刻给定量与目标量之状态偏差e(t)、第t时刻状态偏差变化量Δe(t)、第t时刻控制量变化值ΔU_c(t)、第t+1时刻给定量与目标量之状态偏差e(t+1)、第t+1时刻状态偏差变化量Δe(t+1)、第t时刻的奖励值R(t)；

将过程变量存储到经验池。

进一步，所述对网络参数进行训练，其具体包括：

从经验池中随机抽取50条数据作为训练样本，每条训练样本包括t时刻和t+1时刻的参数，e(t)、Δe(t)、ΔU_c(t)、e(t+1)、Δe(t+1)和R(t)；

将训练样本中的第i条(i＝1,2,…,50)数据的e(t)、Δe(t)输入到在线策略网络，得到在线策略网络输出ΔU_i(i＝1,2,…,50)；

将训练样本中第i条(i＝1,2,…,50)数据的e(t+1)、Δe(t+1)输入到目标策略网络，得目标策略网络输出ΔU′_i+1(i＝1,2,…,50)；

将训练样本中第i条(i＝1,2,…,50)数据的e(t)、Δe(t)和在线策略网络输出ΔU_i(i＝1,2,…,50)输入到在线评论网络得到在线评论网络输出Q_i(i＝1,2,…,50)；

将训练样本中的e(t+1)、Δe(t+1)和目标策略网络输出ΔU′_i+1(i＝1,2,…,50)输入到目标评论网络，得到目标评论输出Q′_t+1；

基于损失函数利用神经网络反向传播算法对在线评论网络的网络参数进行更新，得到更新后的在线评论网络的网络参数；

基于随机梯度下降算法更新在线策略网络的网络参数，得到更新后的在线策略网络的网络参数；

根据更新后的在线评论网络的网络参数和更新后的在线策略网络的网络参数对目标策略网络和目标评论网络的网络参数进行更新。

进一步，所述损失函数公式表示如下：

上式中，

y_i＝R(t)+0.9×Q′_i+1

上式中，i表示随机从经验库中抽取的第i条训练数据(i＝1,2,…,50)，R(t)表示第i条训练数据中的奖励值R(t)，Q_i和Q′_i+1分别表示将第i条训练数据输入到在线评论网络和目标评论网络对应得到的网络输出值。

本发明所采用的第二技术方案是：一种基于深度强化学习的智能控制系统，包括：

参数初始化模块，用于构建经验池和前馈神经网络，并进行参数初始化；

预训练模块，用于构建训练样本并对前馈神经网络进行训练，得到训练完成网络；

控制模块，基于训练完成网络输出控制量并对系统进行控制；

采集模块，用于采集系统运行过程的过程变量并存储到经验池；

判断模块，用于检测经验池数据是否存满；

迭代模块，用于判断到满足迭代条件，系统结束运行，保存网络参数并停止控制量输出。

本发明方法及系统的有益效果是：本发明通过搭建经验池，使得每次学习时从经验池随机抽取训练样本，避免了由于数据强关联性所带来的陷入局部最小值无法找到全局最优解的问题；另外，基于深度强化学习方法对网络进行训练后，最终输出的是控制量的修正量，能有效避免PID控制器对于非线性复杂系统控制的局限性。

附图说明

图1是本发明一种基于深度强化学习的智能控制方法的步骤流程图；

图2是本发明一种基于深度强化学习的智能控制系统的结构框图；

图3是本发明具体实施例的应用示意图；

图4是本发明具体实施例的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

本发明在实际应用中如图3所示，首先将目标给定参量Y_a(t)与被控对象反馈回来的实际参量Y(t)之差e(t)输入到本发明所述的智能控制器中，例如在电动机转速控制系统中，Y_a(t)为目标转速值，Y(t)为电动机的实际转速，e(t)＝Y_a(t)-Y(t)为当前的转速偏差值。本发明的智能控制器经过以下一系列的数据处理流程后，输出控制量U_C(t)经功率方法装置放大后对被控对象(如电动机拖动系统)进行控制，使其反馈参量与目标给定参量相同(例如控制实际转速使其等于目标给定转速)。

参照图1和图4，本发明提供了一种基于深度强化学习的智能控制方法，该方法包括以下步骤：

S1、构建经验池和前馈神经网络，并进行参数初始化；

S3、基于训练完成网络输出控制量并对系统进行控制；

具体地，智能控制器的输出控制量U_C(t)由在线策略网络和输出运算器联合运算得到。首先输出运算器屏蔽PI控制器的输入。然后输入到智能控制器的e(t)经输入寄存器处理后输出e(t)和Δe(t)到在线策略网络中，得到网络的输出ΔU_c(t)。最后ΔU_c输入到输出运算器后，运算器对其进行累加得到输出量U_C(t)。

S4、采集系统运行过程的过程变量并存储到经验池；

进一步作为本方法的优选实施例，所述构建经验池和前馈神经网络，并进行参数初始化这一步骤，其具体包括：

S12、对在线策略网络、目标策略网络、在线评论网络和目标评论网络的网络参数进行随机设置，并让目标评论网络的网络参数等于目标评论网络的网络参数θ^Q′＝θ^Q。

具体地，(1)构建可存储1000条数据的经验池，每条数据最多可存储6个浮点型变量；(2)构建4个4层架构的前馈神经网络，网络的网络参数随机设置，网络命名分别为：在线策略网络、目标策略网络、在线评论网络、目标评论网络。其中在线策略网络和目标策略网络为2输入1输出的网络，在线评论网络和目标评论网络为3输入1输出的网络。

进一步作为本方法的优选实施例，所述构建训练样本并对前馈神经网络进行训练，得到训练完成网络这一步骤，其具体包括：

S21、将系统的控制模式切换成PI控制输出，其中PI控制器的P参数为2、I参数为1。

具体地，记录200条运动控制系统的过程变量数据。

具体地，对在线策略网络进行初始化训练。训练时先以200条数据中的e(t)和Δe(t)作为在线策略网络的输入，经网络运算后得到输出值ΔU_t(t＝1,2,…,200)。定义在线策略网络的损失函数为：

根据损失函数，利用随机梯度下降算法对网络的网络参数进行训练，得到新的网络参数θ^μ。最后让目标策略网络的网络参数θ^μ′＝θ^μ。

进一步作为本方法的优选实施例，所述基于训练完成网络输出控制量并对系统进行控制这一步骤，其具体包括：

S31、切断PI控制器的输出；

S32、记录前一时刻的输出控制量U_c(t-1)；

进一步作为本方法优选实施例，所述采集系统运行过程的过程变量并存储到经验池这一步骤，其具体包括：

具体地，采集运动系统运行过程的过程变量并将数据存储到经验池中。在这一过程中e(t)和e(t+1)直接通过外部输入得到，ΔU_c(t)通过输出运算模块得到，Δe(t)、Δe(t+1)和R(t)通过奖励值计算器得到。其中R(t)的计算公式为：

上式中，δ表示系统所允许的偏差量，Tanh(*)为双曲正切函数。

将过程变量存储到经验池。

进一步作为本方法优选实施例，所述对网络参数进行训练，其具体包括：

具体地，训练器1将每条训练样本中的状态量e(t)、Δe(t)输入到在线策略网络得到网络的输出ΔU_t(t＝1,2,…,50)；训练器2将e(t+1)、Δe(t+1)输入到目标策略网络得到网络的输出ΔU′_t+1(t＝1,2,…,50)。

具体地，训练器2将e(t)、Δe(t)和ΔU_t(t＝1,2,…,50)输入到在线评论网络得到网络输出Q_t；e(t+1)、Δe(t+1)和ΔU′_t+1(t＝1,2,…,50)输入到目标评论网络得到网络输出Q′_t+1。

基于损失函数利用神经网络反向传播算法对在线评论网络的网络参数进行更新，得到更新后的在线评论网络的网络参数θ^Q；

具体地，所述损失函数公式表示如下：

上式中，y_i＝R(t)+0.9×Q′_i+1，i表示随机从经验库中抽取的第i条训练数据(i＝1,2,…,50)，R(t)表示第i条训练数据中的奖励值R(t)，Q_i和Q′_i+1分别表示将第i条训练数据输入到在线评论网络和目标评论网络对应得到的网络输出值。

基于随机梯度下降算法更新在线策略网络的网络参数，得到更新后的在线策略网络的网络参数θ^μ；

根据更新后的在线评论网络的网络参数和更新后的在线策略网络的网络参数对目标策略网络目标评论网络的网络参数进行更新。

具体地，根据下式对目标策略网络和目标评论网络的网络参数进行更新：

例如：θ^Q＝[10,15,8,25]^T、θ^Q′＝[7,13,21,30]^T，

则更新后的参数为θ^Q′＝[7.006,13.004,20.974,29.99]^T

如图2所示，一种基于深度强化学习的智能控制系统，包括：

判断模块，用于检测经验池数据是否存满；

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于深度强化学习的智能控制方法，其特征在于，包括以下步骤：

S1、构建经验池和前馈神经网络，并进行参数初始化；

S3、基于训练完成网络输出控制量并对系统进行控制；

S4、采集系统运行过程的过程变量并存储到经验池；

2.根据权利要求1所述一种基于深度强化学习的智能控制方法，其特征在于，所述构建经验池和前馈神经网络，并进行参数初始化这一步骤，其具体包括：

3.根据权利要求2所述一种基于深度强化学习的智能控制方法，其特征在于，所述构建训练样本并对前馈神经网络进行训练，得到训练完成网络这一步骤，其具体包括：

S21、将系统的控制模式切换成PI控制输出；

4.根据权利要求3所述一种基于深度强化学习的智能控制方法，其特征在于，所述基于训练完成网络输出控制量并对系统进行控制这一步骤，其具体包括：

S31、切断PI控制器的输出；

S32、记录前一时刻的输出控制量U_c(t-1)；

5.根据权利要求4所述一种基于深度强化学习的智能控制方法，其特征在于，所述采集系统运行过程的过程变量并存储到经验池这一步骤，其具体包括：

将过程变量存储到经验池。

6.根据权利要求5所述一种基于深度强化学习的智能控制方法，其特征在于，所述对网络参数进行训练，其具体包括：

7.根据权利要求6所述一种基于深度强化学习的智能控制方法，其特征在于，所述损失函数公式表示如下：

y_i＝R(t)+0.9×Q′_i+1

8.一种基于深度强化学习的智能控制系统，其特征在于，包括：

判断模块，用于检测经验池数据是否存满；