CN112859591A - 一种面向能源系统运行优化的强化学习控制系统 - Google Patents

一种面向能源系统运行优化的强化学习控制系统 Download PDF

Info

Publication number
CN112859591A
CN112859591A CN202011534595.0A CN202011534595A CN112859591A CN 112859591 A CN112859591 A CN 112859591A CN 202011534595 A CN202011534595 A CN 202011534595A CN 112859591 A CN112859591 A CN 112859591A
Authority
CN
China
Prior art keywords
energy
control
model
profit
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011534595.0A
Other languages
English (en)
Other versions
CN112859591B (zh
Inventor
王恒涛
张宇龙
孙思宇
柳玉宾
纪宇飞
程思博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huadian Electric Power Research Institute Co Ltd
Original Assignee
Huadian Electric Power Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huadian Electric Power Research Institute Co Ltd filed Critical Huadian Electric Power Research Institute Co Ltd
Priority to CN202011534595.0A priority Critical patent/CN112859591B/zh
Publication of CN112859591A publication Critical patent/CN112859591A/zh
Application granted granted Critical
Publication of CN112859591B publication Critical patent/CN112859591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向能源系统运行优化的强化学习控制系统,适用于各类能源系统,如燃气分布式能源系统等,包括能源系统(如燃气分布式能源系统)、运行数据模块(数据库)、收益评估模块(奖励项)、偏差计算模块(惩罚项)和智能体(运行优化),通过运行数据模块(数据库)的在线读写,实现了模型训练与能源系统控制隔离;通过收益评估和偏差计算模型对智能体(运行优化)模型的奖励反馈和惩罚反馈,实现了能源系统安全运行要求下的智能体(运行优化)模型训练。模型训练得到的最佳控制输出作用于能源系统,实现在线的闭环控制。

Description

一种面向能源系统运行优化的强化学习控制系统
技术领域
本发明涉及一种面向能源系统运行优化的强化学习控制系统,可应用于各类能源系统(如燃气分布式能源系统等)的运行优化控制。
背景技术
由于能源系统输入燃料,输出电、冷/热能,具有供能多样性,调控复杂等特性,机组结构复杂,耦合性强,人工调控又往往取决于人工经验,不同人员的运行操作水平参差不齐,导致系统运行存在不经济或低效率等情况。同时由于能源系统的流程工艺复杂,设备多,特性多变,又存在多种输入、多种输出的形式,常规机理建模复杂,准确度不够,更难与实际系统运行数据匹配,因此对系统的控制最优化提出了极大挑战。比如发电行业的燃气分布式能源系统,包括燃机、锅炉、汽机、抽汽阀门、减温减压阀等众多设备,工艺流程复杂;并且系统多输入(燃气、水、电)、多输出(冷、热、电)的特点,使得人工调整很难控制在最优运行模式下,效益、效率都难以保证。
发明内容
本发明的目的在于克服现有技术中存在的上述不足,而提供一种面向能源系统运行优化的强化学习控制系统,解决了由于能源系统输入燃料,输出电、冷/热能,具有能源多样性,调控复杂等特性,机组结构复杂,耦合性强,人工调控又往往取决于人工经验,不同人员的运行操作水平参差不齐,导致系统运行存在不经济或低效率等情况的问题。
本发明解决上述问题所采用的技术方案是:一种面向能源系统运行优化的强化学习控制系统,其特征是,包括以下部分:
1)系统结构
强化学习控制系统包括能源系统(如燃气分布式能源系统)、运行数据模块(数据库)、收益评估模块(奖励项)、偏差计算模块(惩罚项)和智能体(运行优化)。
能源系统包括能源输入、供能输出和系统控制(如系统负荷调节量)三部分。
运行数据模块存储能源系统的历史运行数据,包括系统每一时刻的能源输入、供能输出和系统控制三种数据。
收益评估模块用于评估不同控制模式在用户需求约束下的系统运行收益(统计历史上所有满足用户需求的运行数据,给出历史上系统运行模式的收益排序),作为奖励项反馈给智能体模型。
偏差计算模块用于评估用户需求和系统供能输出的差值,作为惩罚项反馈给智能体模型。
智能体通过收益评估模块和偏差计算模块给出系统控制调节增量。系统控制增量表示系统为调整机组运行负荷而增加或者减小调控量。
2)系统模型
运行数据模块采用关系型数据库模型(如MySQL、SQL Server等关系型数据库),记录系统每一时刻的能源输入、供能输出、系统控制三种数据类型。
收益评估模型针对用户需求量参数,通过数据库查询操作,查询数据中所有满足供能输出与用户需求偏差的数据,并将所有数据对应的系统控制模式按照收益排序,本发明提出的收益可以通过效益或者效率表述,效益和效率的计算公式分别描述如下:
效益计算公式
η=∑O·PO-∑I·PI
其中O表示系统的供能输出(如发电、供热),PO对应供能输出价格(如电价格、供热价格),I表示系统的能源输入(如燃气),PI对应能源输入价格(如燃气价格),∑表示数据求和,相同符号下同。
效率计算公式
Figure BDA0002852842570000021
其中QO对应供能输出热值,QI对应能源输入热值。
偏差计算模型
ε=∑|O-R|,
其中R表示用户需求量(如电、热的需求量)。
智能体即系统运行优化模型,采用强化学习训练模型。
由于能源系统的特殊性,无法直接利用能源系统本身进行强化学习训练,故本发明采用运行数据库模型实现模型训练,训练方法如下:
根据用户需求,实时查询数据库中满足需求的系统控制模式,并提取出来,进行收益评估和偏差计算,通过智能体的动作模式调节(增量控制),实时计算出在不同增减量下的系统收益和惩罚,反馈给智能体,强化训练动作调节带来的系统收益最大,从而实现控制模型的训练。系统反馈量表示如下:
r=α·η-β·ε
其中α,β分别表示奖励项和惩罚项的权重,这个根据实际能源系统的控制精度进行设定,权重越大表明奖励项或者惩罚项的反馈力度越大,反之越小。
强化学习训练采用定周期的迭代更新,不断接收能源系统的最新运行数据,实时更新系统的智能体模型。
3)控制模型
智能体通过强化学习,在线学习系统不同用户需求下的最佳运行模式调节方式,实际控制系统时,输出满足用户需求偏差内的系统最佳控制,直接作用在能源系统,实现闭环控制。
进一步的,系统模型中,强化学习的对象不是能源系统本身,而是其运行数据数据库(保证能源系统的安全性,能源系统不能直接进行强化学习的试错训练)。
进一步的,收益评估不仅仅表示经济效益方面的收益,也可表示为以提高系统效率为目标的收益。
强化学习是从系统层面,以交互式目标导向的智能体为主体出发,主动调整自身动作,感知环境变化,通过环境对动作的奖惩反馈,确定自身的动作方向,以达到对环境的最佳适应。类比能源系统,控制系统等同智能体,能源系统等同环境,系统控制等同智能体动作,智能体的不同动作,都会使得能源系统的输入与输出关系发生变化,反应在效益或效率上就会不同。通过定义智能体的收益最大(效益或者效率最大)作为奖励,满足用户需求的输出偏差最小作为惩罚,对智能体的动作进行反馈训练学习,完成控制系统的最优控制学习。
本发明与现有技术相比,具有以下优点和效果:
1、利用强化学习简化了智能体的最优学习方法,通过收益评估函数和偏差计算函数,实现环境对智能体动作的奖励反馈和惩罚反馈,从而实现了智能体的优化运行策略学习。
2、系统综合考虑了能源系统的安全性,模型训练中采用的是运行数据(数据库),同时将最优化的控制模型作用于能源系统,实现在线闭环控制。
附图说明
图1是本发明实施例中面向能源系统运行优化的强化学习控制系统的结构示意图。
具体实施方式
下面结合附图并通过实施例对本发明作进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
实施例。
参见图1,一种面向能源系统运行优化的强化学习控制系统,包括以下部分:
1)系统结构
强化学习控制系统包括能源系统(如燃气分布式能源系统)、运行数据模块(数据库)、收益评估模块(奖励项)、偏差计算模块(惩罚项)和智能体(运行优化)。
能源系统包括能源输入、供能输出和系统控制(如系统负荷调节量)三部分。
运行数据模块存储能源系统的历史运行数据,包括系统每一时刻的能源输入、供能输出和系统控制三种数据。
收益评估模块用于评估不同控制模式在用户需求约束下的系统运行收益(统计历史上所有满足用户需求的运行数据,给出历史上系统运行模式的收益排序),作为奖励项反馈给智能体模型。
偏差计算模块用于评估用户需求和系统供能输出的差值,作为惩罚项反馈给智能体模型。
智能体通过收益评估模块和偏差计算模块给出系统控制调节增量。系统控制增量表示系统为调整机组运行负荷而增加或者减小调控量。
2)系统模型
运行数据模块采用关系型数据库模型(如MySQL、SQL Server等关系型数据库),记录系统每一时刻的能源输入、供能输出、系统控制三种数据类型。
收益评估模型针对用户需求量参数,通过数据库查询操作,查询数据中所有满足供能输出与用户需求偏差的数据,并将所有数据对应的系统控制模式按照收益排序,本发明提出的收益可以通过效益或者效率表述,效益和效率的计算公式分别描述如下:
效益计算公式
η=∑O·PO-∑I·PI
其中O表示系统的供能输出(如发电、供热),PO对应供能输出价格(如电价格、供热价格),I表示系统的能源输入(如燃气),PI对应能源输入价格(如燃气价格),∑表示数据求和,相同符号下同。
效率计算公式
Figure BDA0002852842570000051
其中QO对应供能输出热值,QI对应能源输入热值。
偏差计算模型
ε=∑|O-R|,
其中R表示用户需求量(如电、热的需求量)。
智能体即系统运行优化模型,采用强化学习训练模型。
由于能源系统的特殊性,无法直接利用能源系统本身进行强化学习训练,故本发明采用运行数据库模型实现模型训练,如图1中的虚线框所示,训练方法如下:
根据用户需求,实时查询数据库中满足需求的系统控制模式,并提取出来,进行收益评估和偏差计算,通过智能体的动作模式调节(增量控制),实时计算出在不同增减量下的系统收益和惩罚,反馈给智能体,强化训练动作调节带来的系统收益最大,从而实现控制模型的训练。系统反馈量表示如下:
r=α·η-β·ε
其中α,β分别表示奖励项和惩罚项的权重,这个根据实际能源系统的控制精度进行设定,权重越大表明奖励项或者惩罚项的反馈力度越大,反之越小。
强化学习训练采用定周期的迭代更新,不断接收能源系统的最新运行数据,实时更新系统的智能体模型。
3)控制模型
智能体通过强化学习,在线学习系统不同用户需求下的最佳运行模式调节方式,实际控制系统时,输出满足用户需求偏差内的系统最佳控制,直接作用在能源系统,实现闭环控制。
具体的,系统模型中,强化学习的对象不是能源系统本身,而是其运行数据数据库(保证能源系统的安全性,能源系统不能直接进行强化学习的试错训练)。
具体的,收益评估不仅仅表示经济效益方面的收益,也可表示为以提高系统效率为目标的收益。
本说明书中未作详细描述的内容均属于本领域专业技术人员公知的现有技术。
虽然本发明已以实施例公开如上,但其并非用以限定本发明的保护范围,任何熟悉该项技术的技术人员,在不脱离本发明的构思和范围内所作的更动与润饰,均应属于本发明的保护范围。

Claims (3)

1.一种面向能源系统运行优化的强化学习控制系统,其特征是,包括以下部分:
1)系统结构
强化学习控制系统包括能源系统、运行数据模块、收益评估模块、偏差计算模块和智能体;
能源系统包括能源输入、供能输出和系统控制三部分;
运行数据模块存储能源系统的历史运行数据,包括系统每一时刻的能源输入、供能输出和系统控制三种数据;
收益评估模块用于评估不同控制模式在用户需求约束下的系统运行收益,作为奖励项反馈给智能体模型;
偏差计算模块用于评估用户需求和系统供能输出的差值,作为惩罚项反馈给智能体模型;
智能体通过收益评估模块和偏差计算模块给出系统控制调节增量;系统控制增量表示系统为调整机组运行负荷而增加或者减小调控量;
2)系统模型
运行数据模块采用关系型数据库模型,记录系统每一时刻的能源输入、供能输出、系统控制三种数据类型;
收益评估模型针对用户需求量参数,通过数据库查询操作,查询数据中所有满足供能输出与用户需求偏差的数据,并将所有数据对应的系统控制模式按照收益排序,提出的收益可以通过效益或者效率表述,效益和效率的计算公式分别描述如下:
效益计算公式
η=∑O·PO-∑I·PI.
其中O表示系统的供能输出,PO对应供能输出价格,I表示系统的能源输入,PI对应能源输入价格,∑表示数据求和,相同符号下同;
效率计算公式
Figure FDA0002852842560000011
其中QO对应供能输出热值,QI对应能源输入热值;
偏差计算模型
ε=∑|O-R|.
其中R表示用户需求量;
智能体即系统运行优化模型,采用强化学习训练模型;
由于能源系统的特殊性,无法直接利用能源系统本身进行强化学习训练,故采用运行数据库模型实现模型训练,训练方法如下:
根据用户需求,实时查询数据库中满足需求的系统控制模式,并提取出来,进行收益评估和偏差计算,通过智能体的动作模式调节(增量控制),实时计算出在不同增减量下的系统收益和惩罚,反馈给智能体,强化训练动作调节带来的系统收益最大,从而实现控制模型的训练;系统反馈量表示如下:
r=α·η-β·ε
其中α,β分别表示奖励项和惩罚项的权重,这个根据实际能源系统的控制精度进行设定,权重越大表明奖励项或者惩罚项的反馈力度越大,反之越小;
强化学习训练采用定周期的迭代更新,不断接收能源系统的最新运行数据,实时更新系统的智能体模型;
3)控制模型
智能体通过强化学习,在线学习系统不同用户需求下的最佳运行模式调节方式,实际控制系统时,输出满足用户需求偏差内的系统最佳控制,直接作用在能源系统,实现闭环控制。
2.根据权利要求1所述的面向能源系统运行优化的强化学习控制系统,其特征是,系统模型中,强化学习的对象不是能源系统本身,而是其运行数据数据库。
3.根据权利要求1所述的面向能源系统运行优化的强化学习控制系统,其特征是,收益评估不仅仅表示经济效益方面的收益,也可表示为以提高系统效率为目标的收益。
CN202011534595.0A 2020-12-23 2020-12-23 一种面向能源系统运行优化的强化学习控制系统 Active CN112859591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011534595.0A CN112859591B (zh) 2020-12-23 2020-12-23 一种面向能源系统运行优化的强化学习控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011534595.0A CN112859591B (zh) 2020-12-23 2020-12-23 一种面向能源系统运行优化的强化学习控制系统

Publications (2)

Publication Number Publication Date
CN112859591A true CN112859591A (zh) 2021-05-28
CN112859591B CN112859591B (zh) 2022-10-21

Family

ID=75996306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011534595.0A Active CN112859591B (zh) 2020-12-23 2020-12-23 一种面向能源系统运行优化的强化学习控制系统

Country Status (1)

Country Link
CN (1) CN112859591B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104571068A (zh) * 2015-01-30 2015-04-29 中国华电集团科学技术研究总院有限公司 一种分布式能源系统的运行优化控制方法及系统
CN107844869A (zh) * 2017-11-30 2018-03-27 中国华电集团科学技术研究总院有限公司 燃气分布式能源系统的在线智能学习决策优化方法及系统
CN110276698A (zh) * 2019-06-17 2019-09-24 国网江苏省电力有限公司淮安供电分公司 基于多智能体双层协同强化学习的分布式可再生能源交易决策方法
CN110826723A (zh) * 2019-10-12 2020-02-21 中国海洋大学 一种结合tamer框架和面部表情反馈的交互强化学习方法
WO2020059741A1 (ja) * 2018-09-21 2020-03-26 旭化成株式会社 計画装置、方法、およびプログラム
CN111181201A (zh) * 2020-02-21 2020-05-19 清华大学 基于双层强化学习的多能园区调度方法及系统
US20200160411A1 (en) * 2018-11-16 2020-05-21 Mitsubishi Electric Research Laboratories, Inc. Methods and Systems for Optimal Joint Bidding and Pricing of Load Serving Entity
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104571068A (zh) * 2015-01-30 2015-04-29 中国华电集团科学技术研究总院有限公司 一种分布式能源系统的运行优化控制方法及系统
CN107844869A (zh) * 2017-11-30 2018-03-27 中国华电集团科学技术研究总院有限公司 燃气分布式能源系统的在线智能学习决策优化方法及系统
WO2020059741A1 (ja) * 2018-09-21 2020-03-26 旭化成株式会社 計画装置、方法、およびプログラム
US20200160411A1 (en) * 2018-11-16 2020-05-21 Mitsubishi Electric Research Laboratories, Inc. Methods and Systems for Optimal Joint Bidding and Pricing of Load Serving Entity
CN110276698A (zh) * 2019-06-17 2019-09-24 国网江苏省电力有限公司淮安供电分公司 基于多智能体双层协同强化学习的分布式可再生能源交易决策方法
CN110826723A (zh) * 2019-10-12 2020-02-21 中国海洋大学 一种结合tamer框架和面部表情反馈的交互强化学习方法
CN111181201A (zh) * 2020-02-21 2020-05-19 清华大学 基于双层强化学习的多能园区调度方法及系统
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GUODONG DU: "Deep reinforcement learning based energy management for a hybrid electric vehicle", 《ENERGY》 *
PENG WU: "Cost-effective reinforcement learning energy management for plug-in hybrid fuel cell and battery ships", 《APPLIED ENERGY》 *
刘俊峰: "基于深度强化学习的微能源网能量管理与优化策略研究", 《电网技术》 *
柯钟鸣: "基于强化学习的微电网能源调度算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *
柳玉宾: "基于遗传算法的燃气分布式能源系统负荷优化分配", 《华电技术》 *

Also Published As

Publication number Publication date
CN112859591B (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN101286044B (zh) 一种燃煤锅炉系统蒸汽温度混合建模方法
Schubert et al. Bioprocess optimization and control: Application of hybrid modelling
CN106647325A (zh) 用于操作发电设备的方法
CN1112693A (zh) 过程自适应控制方法及过程控制系统
CN101763089A (zh) 基于电力市场化环境下的火电厂机组出力优化运行方法
WO2007102269A1 (ja) プラントの制御装置と制御方法及び火力発電プラントとその制御方法
CN106933202A (zh) 利用基于所估计的状态信息的间歇重新初始化的前馈控制
CN112394639B (zh) 带有增量式调节功能的核电机组控制棒调节方法及系统
CN115986839A (zh) 一种风-水-火综合能源系统的智能调度方法及系统
CN112859591B (zh) 一种面向能源系统运行优化的强化学习控制系统
CN106200379A (zh) 一种非自衡对象的分布式动态矩阵控制方法
JPH08339204A (ja) 火力発電プラント自律適応最適化制御システム
CN116934375A (zh) 一种天然气定价预测方法和系统
CN105511270A (zh) 一种基于协同进化的pid控制器参数优化方法和系统
CN105259761A (zh) 一种基于特征模型的连续灭菌反复学习自适应控制器
CN115864409A (zh) 一种基于深度强化学习的电网断面功率调整策略
Shi et al. A process-model-free method for model predictive control via a reference model-based proportional-integral-derivative controller with application to a thermal power plant
CN110728031B (zh) 一种基于ann建模平衡复杂石化过程产能的多目标优化方法
CN111222708B (zh) 一种基于迁移学习动态建模的发电厂燃烧炉温度预测方法
Andryushin et al. Method of the Optimal Distribution of Heat and Electrical Loads
CN108984979B (zh) 基于多变量频域法和启发式搜索算法结合的超超临界机组深度调峰控制器设计方法
CN112199813B (zh) 面向工艺系统控制优化问题建模方法与遗传算法求解方法
He et al. Generalized Parameter Estimation Method for HTR-PM Load Changes
CN114881688B (zh) 一种考虑分散式资源互动响应的配电网智能化定价方法
CN113837459B (zh) 一种基于rf-dtw的智能电厂燃煤发电机组短期负荷预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant