CN109001981A

CN109001981A - 一种污水处理的强化学习控制方法

Info

Publication number: CN109001981A
Application number: CN201811027864.7A
Authority: CN
Inventors: 黄孝平; 文芳; 文芳一; 黄文哲
Original assignee: Nanning Institute
Current assignee: Nanning University; Nanning Institute
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2018-12-14
Anticipated expiration: 2038-09-04
Also published as: CN109001981B

Abstract

本发明提供了一种污水处理的强化学习控制方法；在现场控制器控制的过程中，获取现场控制器的输入信号，并将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制，其中强化学习模型的输出指令中数值在最终输出指令总数值的占比为N，N从0逐渐增大至100％。本发明通过渐进比例提高强化学习模型控制权的方式，能有效在将强化学习模型的数据收集过程、训练学习过程放在实际场景中，而避免原始数据积累和虚拟环境搭建的过程，从而有效降低企业在应用强化学习的方式进行自动控制时所需的成本，方便用户完成从传统控制倒强化学习控制的过程。

Description

一种污水处理的强化学习控制方法

技术领域

本发明涉及一种污水处理的强化学习控制方法。

背景技术

目前，强化学习在工业控制中的应用逐渐增多，但一般都限于特定的模型，其主要原因在于强化学习的训练需要环境支持，而在很多污水处理控制方面，完全模拟真实场景的环境所需要的计算量远远大于强化学习模型训练本身所需要的计算量，导致得不偿失，而且就目前的企业技术发展而言，原始的数据积累也很成问题。

发明内容

为解决上述技术问题，本发明提供了一种污水处理的强化学习控制方法，该污水处理的强化学习控制方法通过渐进比例提高强化学习模型控制权的方式，能有效在将强化学习模型的数据收集过程、训练学习过程放在实际场景中，而避免原始数据积累和虚拟环境搭建的过程。

本发明通过以下技术方案得以实现。

本发明提供的一种污水处理的强化学习控制方法；在现场控制器控制的过程中，获取现场控制器的输入信号，并将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制，其中强化学习模型的输出指令中数值在最终输出指令总数值的占比为N，N从0逐渐增大至100％；当强化学习模型的输出指令中数值在最终输出指令总数值的占比为100％时，切断现场控制器控制的输入和输出。

所述将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出，采用如下步骤：

a.获取现场控制器的输出指令和强化学习模型的输出指令；

b.将现场控制器的输出指令和强化学习模型的输出指令中的数值取出为现场控制器输出指令数值和强化学习模型输出指令数值；

c.将强化学习模型输出指令数值乘以系数N后更新为新的强化学习模型输出指令数值；

d.将现场控制器输出指令数值乘以系数(1-N)后更新为新的现场控制器输出指令数值；

e.将新的现场控制器输出指令数值和新的强化学习模型输出指令数值叠加得到输出指令叠加值；

f.将输出指令叠加值封装为输出指令发送指令。。

所述N初始为0，每经过M次将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制的步骤后，N自加0.5％。

所述M取值由用户设定，但限定为5～20。

所述强化学习模型采用带值函数逼近的TD学习算法。

所述强化学习模型的值函数为高斯核函数。

所述强化学习模型采用如下方式更新：

a.获取现场控制器的输入作为当前现场控制器输入，将当前现场控制器输入作为值函数的输出反向计算值函数的输入，计算结果作为当前模拟输入；

b.根据当前模拟输入和前一现场控制器输入的误差值更新值函数，如无前一现场控制器输入，则将当前模拟输入直接作为误差值；

c.将当前现场控制器输入代入至更新后的值函数中计算输出指令值；

d.当前现场控制器输入更新至前一现场控制器输入，将输出指令值封装为输出指令发送，然后进入下一时序，等待获取现场控制器的输入。

每一时序时长一小时。

本发明的有益效果在于：通过渐进比例提高强化学习模型控制权的方式，能有效在将强化学习模型的数据收集过程、训练学习过程放在实际场景中，而避免原始数据积累和虚拟环境搭建的过程，从而有效降低企业在应用强化学习的方式进行自动控制时所需的成本，方便用户完成从传统控制倒强化学习控制的过程。

附图说明

图1是本发明所应用的污水处理控制系统的连接示意图。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

本发明应用于如图1所示的一种污水处理控制系统的控制，具体为一种污水处理的强化学习控制方法；在现场控制器控制的过程中，获取现场控制器的输入信号，并将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制，其中强化学习模型的输出指令中数值在最终输出指令总数值的占比为N，N从0逐渐增大至100％；当强化学习模型的输出指令中数值在最终输出指令总数值的占比为100％时，切断现场控制器控制的输入和输出。

a.获取现场控制器的输出指令和强化学习模型的输出指令；

f.将输出指令叠加值封装为输出指令发送指令。。

所述M取值由用户设定，但限定为5～20。

所述强化学习模型采用带值函数逼近的TD学习算法。

所述强化学习模型的值函数为高斯核函数。

所述强化学习模型采用如下方式更新：

每一时序时长一小时。

强化学习模型的训练，在于根据环境反馈更新值函数，对于较为复杂的污水处理而言，虚拟环境搭建不容易，需要考虑的变量过多，但强化学习的方式在工业控制上的应用成效卓著，如何将强化学习的优势应用在污水处理方面且有效降低采集数据、搭建虚拟环境，是本发明首先要解决的问题。在本发明的方案中，强化学习模型初始化完成后，先是在N＝0的情况下，通过完全接受现场控制器(即现有技术中的现场PLC控制单元)的输入输出，完成第二次初始化，然后逐步提高控制权占比的过程中，逐渐完善模型，从而将实际环境实时采集并直接利用真实环境进行训练；另一方面，考虑到环境的复杂程度，预先建立环境模型难免失真，且很可能在环境模型的训练方面就会需要过多的计算资源，得不偿失，因此本发明采用无模型的强化学习方式，直接更新值函数，以有效降低计算量。

Claims

1.一种污水处理的强化学习控制方法，其特征在于：在现场控制器控制的过程中，获取现场控制器的输入信号，并将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制，其中强化学习模型的输出指令中数值在最终输出指令总数值的占比为N，N从0逐渐增大至100％；当强化学习模型的输出指令中数值在最终输出指令总数值的占比为100％时，切断现场控制器控制的输入和输出。

2.如权利要求1所述的污水处理的强化学习控制方法，其特征在于：所述将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出，采用如下步骤：

a.获取现场控制器的输出指令和强化学习模型的输出指令；

f.将输出指令叠加值封装为输出指令发送指令。。

3.如权利要求1所述的污水处理的强化学习控制方法，其特征在于：所述N初始为0，每经过M次将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制的步骤后，N自加0.5％。

4.如权利要求3所述的污水处理的强化学习控制方法，其特征在于：所述M取值由用户设定，但限定为5～20。

5.如权利要求1所述的污水处理的强化学习控制方法，其特征在于：所述强化学习模型采用带值函数逼近的TD学习算法。

6.如权利要求1所述的污水处理的强化学习控制方法，其特征在于：所述强化学习模型的值函数为高斯核函数。

7.如权利要求1所述的污水处理的强化学习控制方法，其特征在于：所述强化学习模型采用如下方式更新：

8.如权利要求7所述的污水处理的强化学习控制方法，其特征在于：每一时序时长一小时。