CN109001981A - 一种污水处理的强化学习控制方法 - Google Patents

一种污水处理的强化学习控制方法 Download PDF

Info

Publication number
CN109001981A
CN109001981A CN201811027864.7A CN201811027864A CN109001981A CN 109001981 A CN109001981 A CN 109001981A CN 201811027864 A CN201811027864 A CN 201811027864A CN 109001981 A CN109001981 A CN 109001981A
Authority
CN
China
Prior art keywords
intensified learning
output order
learning model
value
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811027864.7A
Other languages
English (en)
Other versions
CN109001981B (zh
Inventor
黄孝平
文芳
文芳一
黄文哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanning University
Nanning Institute
Original Assignee
Nanning Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanning Institute filed Critical Nanning Institute
Priority to CN201811027864.7A priority Critical patent/CN109001981B/zh
Publication of CN109001981A publication Critical patent/CN109001981A/zh
Application granted granted Critical
Publication of CN109001981B publication Critical patent/CN109001981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种污水处理的强化学习控制方法;在现场控制器控制的过程中,获取现场控制器的输入信号,并将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制,其中强化学习模型的输出指令中数值在最终输出指令总数值的占比为N,N从0逐渐增大至100%。本发明通过渐进比例提高强化学习模型控制权的方式,能有效在将强化学习模型的数据收集过程、训练学习过程放在实际场景中,而避免原始数据积累和虚拟环境搭建的过程,从而有效降低企业在应用强化学习的方式进行自动控制时所需的成本,方便用户完成从传统控制倒强化学习控制的过程。

Description

一种污水处理的强化学习控制方法
技术领域
本发明涉及一种污水处理的强化学习控制方法。
背景技术
目前,强化学习在工业控制中的应用逐渐增多,但一般都限于特定的模型,其主要原因在于强化学习的训练需要环境支持,而在很多污水处理控制方面,完全模拟真实场景的环境所需要的计算量远远大于强化学习模型训练本身所需要的计算量,导致得不偿失,而且就目前的企业技术发展而言,原始的数据积累也很成问题。
发明内容
为解决上述技术问题,本发明提供了一种污水处理的强化学习控制方法,该污水处理的强化学习控制方法通过渐进比例提高强化学习模型控制权的方式,能有效在将强化学习模型的数据收集过程、训练学习过程放在实际场景中,而避免原始数据积累和虚拟环境搭建的过程。
本发明通过以下技术方案得以实现。
本发明提供的一种污水处理的强化学习控制方法;在现场控制器控制的过程中,获取现场控制器的输入信号,并将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制,其中强化学习模型的输出指令中数值在最终输出指令总数值的占比为N,N从0逐渐增大至100%;当强化学习模型的输出指令中数值在最终输出指令总数值的占比为100%时,切断现场控制器控制的输入和输出。
所述将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出,采用如下步骤:
a.获取现场控制器的输出指令和强化学习模型的输出指令;
b.将现场控制器的输出指令和强化学习模型的输出指令中的数值取出为现场控制器输出指令数值和强化学习模型输出指令数值;
c.将强化学习模型输出指令数值乘以系数N后更新为新的强化学习模型输出指令数值;
d.将现场控制器输出指令数值乘以系数(1-N)后更新为新的现场控制器输出指令数值;
e.将新的现场控制器输出指令数值和新的强化学习模型输出指令数值叠加得到输出指令叠加值;
f.将输出指令叠加值封装为输出指令发送指令。。
所述N初始为0,每经过M次将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制的步骤后,N自加0.5%。
所述M取值由用户设定,但限定为5~20。
所述强化学习模型采用带值函数逼近的TD学习算法。
所述强化学习模型的值函数为高斯核函数。
所述强化学习模型采用如下方式更新:
a.获取现场控制器的输入作为当前现场控制器输入,将当前现场控制器输入作为值函数的输出反向计算值函数的输入,计算结果作为当前模拟输入;
b.根据当前模拟输入和前一现场控制器输入的误差值更新值函数,如无前一现场控制器输入,则将当前模拟输入直接作为误差值;
c.将当前现场控制器输入代入至更新后的值函数中计算输出指令值;
d.当前现场控制器输入更新至前一现场控制器输入,将输出指令值封装为输出指令发送,然后进入下一时序,等待获取现场控制器的输入。
每一时序时长一小时。
本发明的有益效果在于:通过渐进比例提高强化学习模型控制权的方式,能有效在将强化学习模型的数据收集过程、训练学习过程放在实际场景中,而避免原始数据积累和虚拟环境搭建的过程,从而有效降低企业在应用强化学习的方式进行自动控制时所需的成本,方便用户完成从传统控制倒强化学习控制的过程。
附图说明
图1是本发明所应用的污水处理控制系统的连接示意图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
本发明应用于如图1所示的一种污水处理控制系统的控制,具体为一种污水处理的强化学习控制方法;在现场控制器控制的过程中,获取现场控制器的输入信号,并将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制,其中强化学习模型的输出指令中数值在最终输出指令总数值的占比为N,N从0逐渐增大至100%;当强化学习模型的输出指令中数值在最终输出指令总数值的占比为100%时,切断现场控制器控制的输入和输出。
所述将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出,采用如下步骤:
a.获取现场控制器的输出指令和强化学习模型的输出指令;
b.将现场控制器的输出指令和强化学习模型的输出指令中的数值取出为现场控制器输出指令数值和强化学习模型输出指令数值;
c.将强化学习模型输出指令数值乘以系数N后更新为新的强化学习模型输出指令数值;
d.将现场控制器输出指令数值乘以系数(1-N)后更新为新的现场控制器输出指令数值;
e.将新的现场控制器输出指令数值和新的强化学习模型输出指令数值叠加得到输出指令叠加值;
f.将输出指令叠加值封装为输出指令发送指令。。
所述N初始为0,每经过M次将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制的步骤后,N自加0.5%。
所述M取值由用户设定,但限定为5~20。
所述强化学习模型采用带值函数逼近的TD学习算法。
所述强化学习模型的值函数为高斯核函数。
所述强化学习模型采用如下方式更新:
a.获取现场控制器的输入作为当前现场控制器输入,将当前现场控制器输入作为值函数的输出反向计算值函数的输入,计算结果作为当前模拟输入;
b.根据当前模拟输入和前一现场控制器输入的误差值更新值函数,如无前一现场控制器输入,则将当前模拟输入直接作为误差值;
c.将当前现场控制器输入代入至更新后的值函数中计算输出指令值;
d.当前现场控制器输入更新至前一现场控制器输入,将输出指令值封装为输出指令发送,然后进入下一时序,等待获取现场控制器的输入。
每一时序时长一小时。
强化学习模型的训练,在于根据环境反馈更新值函数,对于较为复杂的污水处理而言,虚拟环境搭建不容易,需要考虑的变量过多,但强化学习的方式在工业控制上的应用成效卓著,如何将强化学习的优势应用在污水处理方面且有效降低采集数据、搭建虚拟环境,是本发明首先要解决的问题。在本发明的方案中,强化学习模型初始化完成后,先是在N=0的情况下,通过完全接受现场控制器(即现有技术中的现场PLC控制单元)的输入输出,完成第二次初始化,然后逐步提高控制权占比的过程中,逐渐完善模型,从而将实际环境实时采集并直接利用真实环境进行训练;另一方面,考虑到环境的复杂程度,预先建立环境模型难免失真,且很可能在环境模型的训练方面就会需要过多的计算资源,得不偿失,因此本发明采用无模型的强化学习方式,直接更新值函数,以有效降低计算量。

Claims (8)

1.一种污水处理的强化学习控制方法,其特征在于:在现场控制器控制的过程中,获取现场控制器的输入信号,并将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制,其中强化学习模型的输出指令中数值在最终输出指令总数值的占比为N,N从0逐渐增大至100%;当强化学习模型的输出指令中数值在最终输出指令总数值的占比为100%时,切断现场控制器控制的输入和输出。
2.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出,采用如下步骤:
a.获取现场控制器的输出指令和强化学习模型的输出指令;
b.将现场控制器的输出指令和强化学习模型的输出指令中的数值取出为现场控制器输出指令数值和强化学习模型输出指令数值;
c.将强化学习模型输出指令数值乘以系数N后更新为新的强化学习模型输出指令数值;
d.将现场控制器输出指令数值乘以系数(1-N)后更新为新的现场控制器输出指令数值;
e.将新的现场控制器输出指令数值和新的强化学习模型输出指令数值叠加得到输出指令叠加值;
f.将输出指令叠加值封装为输出指令发送指令。。
3.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述N初始为0,每经过M次将现场控制器的输出指令和强化学习模型的输出指令合并为最终输出指令输出控制的步骤后,N自加0.5%。
4.如权利要求3所述的污水处理的强化学习控制方法,其特征在于:所述M取值由用户设定,但限定为5~20。
5.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述强化学习模型采用带值函数逼近的TD学习算法。
6.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述强化学习模型的值函数为高斯核函数。
7.如权利要求1所述的污水处理的强化学习控制方法,其特征在于:所述强化学习模型采用如下方式更新:
a.获取现场控制器的输入作为当前现场控制器输入,将当前现场控制器输入作为值函数的输出反向计算值函数的输入,计算结果作为当前模拟输入;
b.根据当前模拟输入和前一现场控制器输入的误差值更新值函数,如无前一现场控制器输入,则将当前模拟输入直接作为误差值;
c.将当前现场控制器输入代入至更新后的值函数中计算输出指令值;
d.当前现场控制器输入更新至前一现场控制器输入,将输出指令值封装为输出指令发送,然后进入下一时序,等待获取现场控制器的输入。
8.如权利要求7所述的污水处理的强化学习控制方法,其特征在于:每一时序时长一小时。
CN201811027864.7A 2018-09-04 2018-09-04 一种污水处理的强化学习控制方法 Active CN109001981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811027864.7A CN109001981B (zh) 2018-09-04 2018-09-04 一种污水处理的强化学习控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811027864.7A CN109001981B (zh) 2018-09-04 2018-09-04 一种污水处理的强化学习控制方法

Publications (2)

Publication Number Publication Date
CN109001981A true CN109001981A (zh) 2018-12-14
CN109001981B CN109001981B (zh) 2021-03-16

Family

ID=64591039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811027864.7A Active CN109001981B (zh) 2018-09-04 2018-09-04 一种污水处理的强化学习控制方法

Country Status (1)

Country Link
CN (1) CN109001981B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007050544A2 (en) * 2005-10-24 2007-05-03 The Regents Of The University Of California An apparatus and a method for a system architecture for multiple antenna wireless communication systems using round robin channel estimation and transmit beam forming algorithms
CN102207928A (zh) * 2011-06-02 2011-10-05 河海大学常州校区 基于强化学习的多Agent污水处理决策支持系统
CN103410660A (zh) * 2013-05-14 2013-11-27 湖南工业大学 基于支持向量机的风力发电变桨距自学习控制方法
WO2015130928A1 (en) * 2014-02-26 2015-09-03 Nancy Packes, Inc. Real estate evaluating platform methods, apparatuses, and media
CN104956359A (zh) * 2012-12-21 2015-09-30 内部销售公司 实例加权学习机器学习模型
WO2015148302A1 (en) * 2014-03-25 2015-10-01 InsideSales.com, Inc. Using machine learning to predict behavior based on local conditions

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007050544A2 (en) * 2005-10-24 2007-05-03 The Regents Of The University Of California An apparatus and a method for a system architecture for multiple antenna wireless communication systems using round robin channel estimation and transmit beam forming algorithms
CN102207928A (zh) * 2011-06-02 2011-10-05 河海大学常州校区 基于强化学习的多Agent污水处理决策支持系统
CN104956359A (zh) * 2012-12-21 2015-09-30 内部销售公司 实例加权学习机器学习模型
CN103410660A (zh) * 2013-05-14 2013-11-27 湖南工业大学 基于支持向量机的风力发电变桨距自学习控制方法
WO2015130928A1 (en) * 2014-02-26 2015-09-03 Nancy Packes, Inc. Real estate evaluating platform methods, apparatuses, and media
WO2015148302A1 (en) * 2014-03-25 2015-10-01 InsideSales.com, Inc. Using machine learning to predict behavior based on local conditions

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
乔俊飞等: "基于迭代ADP算法的污水处理过程最优控制", 《北京工业大学学报》 *
陈海列等: "一种基于DCS的分时训练神经网络", 《自动化应用》 *

Also Published As

Publication number Publication date
CN109001981B (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN109993299A (zh) 数据训练方法及装置、存储介质、电子装置
CN111325223A (zh) 深度学习模型的训练方法、装置和计算机可读存储介质
CN106873380A (zh) 基于pi模型的压电陶瓷模糊pid控制方法
CN109001981A (zh) 一种污水处理的强化学习控制方法
CN109871636A (zh) 一种虚拟仿真实验任务分发及生成方法及系统
CN110533181A (zh) 一种深度学习模型的快速训练方法及系统
CN108345213B (zh) Mimo紧格式无模型控制器基于系统误差的参数自整定方法
CN110826695A (zh) 数据处理方法、装置和计算机可读存储介质
JP4733695B2 (ja) 自動化システムのシミュレーションのための方法及び装置
CN103439882B (zh) 一种控制器参数的调整方法和装置
CN109324508A (zh) 一种基于强化学习的污水处理控制方法
CN111025178B (zh) 一种电源模块主备切换的稳定性测试方法及相关组件
CN109526701B (zh) 滴灌控制方法及装置
JPH1091480A (ja) コンピュータプログラムのシミュレーション装置および方法
Velasquez et al. A low-cost hardware-in-the-loop real time simulation of control systems
CN112416195A (zh) 设备控制功能的生成方法和装置
CN109145479A (zh) 云端部署的两轴机械臂网宇实体自动进化系统
CN111161708A (zh) 语音信息处理方法及装置
JPH06149925A (ja) 回路シミュレーション装置
CN115993844B (zh) 一种群体智能系统自适应事件触发时变分组编队控制方法
CN104443433B (zh) 一种卫星应急系统变周期控制方法
JPH08211903A (ja) モデル予測制御におけるオートチューニング装置
CN117973052A (zh) 一种综合能源仿真的数据交互系统及方法
CN112784647A (zh) 智能运行环境维护系统及方法
CN114065326A (zh) 一种仿真按需迁移执行的建模仿真系统架构的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant