CN112859591A

CN112859591A - 一种面向能源系统运行优化的强化学习控制系统

Info

Publication number: CN112859591A
Application number: CN202011534595.0A
Authority: CN
Inventors: 王恒涛; 张宇龙; 孙思宇; 柳玉宾; 纪宇飞; 程思博
Original assignee: Huadian Electric Power Research Institute Co Ltd
Current assignee: Huadian Electric Power Research Institute Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-05-28
Anticipated expiration: 2040-12-23
Also published as: CN112859591B

Abstract

本发明公开了一种面向能源系统运行优化的强化学习控制系统，适用于各类能源系统，如燃气分布式能源系统等，包括能源系统（如燃气分布式能源系统）、运行数据模块（数据库）、收益评估模块（奖励项）、偏差计算模块（惩罚项）和智能体（运行优化），通过运行数据模块（数据库）的在线读写，实现了模型训练与能源系统控制隔离；通过收益评估和偏差计算模型对智能体（运行优化）模型的奖励反馈和惩罚反馈，实现了能源系统安全运行要求下的智能体（运行优化）模型训练。模型训练得到的最佳控制输出作用于能源系统，实现在线的闭环控制。

Description

一种面向能源系统运行优化的强化学习控制系统

技术领域

本发明涉及一种面向能源系统运行优化的强化学习控制系统，可应用于各类能源系统(如燃气分布式能源系统等)的运行优化控制。

背景技术

由于能源系统输入燃料，输出电、冷/热能，具有供能多样性，调控复杂等特性，机组结构复杂，耦合性强，人工调控又往往取决于人工经验，不同人员的运行操作水平参差不齐，导致系统运行存在不经济或低效率等情况。同时由于能源系统的流程工艺复杂，设备多，特性多变，又存在多种输入、多种输出的形式，常规机理建模复杂，准确度不够，更难与实际系统运行数据匹配，因此对系统的控制最优化提出了极大挑战。比如发电行业的燃气分布式能源系统，包括燃机、锅炉、汽机、抽汽阀门、减温减压阀等众多设备，工艺流程复杂；并且系统多输入(燃气、水、电)、多输出(冷、热、电)的特点，使得人工调整很难控制在最优运行模式下，效益、效率都难以保证。

发明内容

本发明的目的在于克服现有技术中存在的上述不足，而提供一种面向能源系统运行优化的强化学习控制系统，解决了由于能源系统输入燃料，输出电、冷/热能，具有能源多样性，调控复杂等特性，机组结构复杂，耦合性强，人工调控又往往取决于人工经验，不同人员的运行操作水平参差不齐，导致系统运行存在不经济或低效率等情况的问题。

本发明解决上述问题所采用的技术方案是：一种面向能源系统运行优化的强化学习控制系统，其特征是，包括以下部分：

1)系统结构

强化学习控制系统包括能源系统(如燃气分布式能源系统)、运行数据模块(数据库)、收益评估模块(奖励项)、偏差计算模块(惩罚项)和智能体(运行优化)。

能源系统包括能源输入、供能输出和系统控制(如系统负荷调节量)三部分。

运行数据模块存储能源系统的历史运行数据，包括系统每一时刻的能源输入、供能输出和系统控制三种数据。

收益评估模块用于评估不同控制模式在用户需求约束下的系统运行收益(统计历史上所有满足用户需求的运行数据，给出历史上系统运行模式的收益排序)，作为奖励项反馈给智能体模型。

偏差计算模块用于评估用户需求和系统供能输出的差值，作为惩罚项反馈给智能体模型。

智能体通过收益评估模块和偏差计算模块给出系统控制调节增量。系统控制增量表示系统为调整机组运行负荷而增加或者减小调控量。

2)系统模型

运行数据模块采用关系型数据库模型(如MySQL、SQL Server等关系型数据库)，记录系统每一时刻的能源输入、供能输出、系统控制三种数据类型。

收益评估模型针对用户需求量参数，通过数据库查询操作，查询数据中所有满足供能输出与用户需求偏差的数据，并将所有数据对应的系统控制模式按照收益排序，本发明提出的收益可以通过效益或者效率表述，效益和效率的计算公式分别描述如下：

效益计算公式

η＝∑O·P_O-∑I·P_I

其中O表示系统的供能输出(如发电、供热)，P_O对应供能输出价格(如电价格、供热价格)，I表示系统的能源输入(如燃气)，P_I对应能源输入价格(如燃气价格)，∑表示数据求和，相同符号下同。

效率计算公式

其中Q_O对应供能输出热值，Q_I对应能源输入热值。

偏差计算模型

ε＝∑|O-R|，

其中R表示用户需求量(如电、热的需求量)。

智能体即系统运行优化模型，采用强化学习训练模型。

由于能源系统的特殊性，无法直接利用能源系统本身进行强化学习训练，故本发明采用运行数据库模型实现模型训练，训练方法如下：

根据用户需求，实时查询数据库中满足需求的系统控制模式，并提取出来，进行收益评估和偏差计算，通过智能体的动作模式调节(增量控制)，实时计算出在不同增减量下的系统收益和惩罚，反馈给智能体，强化训练动作调节带来的系统收益最大，从而实现控制模型的训练。系统反馈量表示如下：

r＝α·η-β·ε

其中α，β分别表示奖励项和惩罚项的权重，这个根据实际能源系统的控制精度进行设定，权重越大表明奖励项或者惩罚项的反馈力度越大，反之越小。

强化学习训练采用定周期的迭代更新，不断接收能源系统的最新运行数据，实时更新系统的智能体模型。

3)控制模型

智能体通过强化学习，在线学习系统不同用户需求下的最佳运行模式调节方式，实际控制系统时，输出满足用户需求偏差内的系统最佳控制，直接作用在能源系统，实现闭环控制。

进一步的，系统模型中，强化学习的对象不是能源系统本身，而是其运行数据数据库(保证能源系统的安全性，能源系统不能直接进行强化学习的试错训练)。

进一步的，收益评估不仅仅表示经济效益方面的收益，也可表示为以提高系统效率为目标的收益。

强化学习是从系统层面，以交互式目标导向的智能体为主体出发，主动调整自身动作，感知环境变化，通过环境对动作的奖惩反馈，确定自身的动作方向，以达到对环境的最佳适应。类比能源系统，控制系统等同智能体，能源系统等同环境，系统控制等同智能体动作，智能体的不同动作，都会使得能源系统的输入与输出关系发生变化，反应在效益或效率上就会不同。通过定义智能体的收益最大(效益或者效率最大)作为奖励，满足用户需求的输出偏差最小作为惩罚，对智能体的动作进行反馈训练学习，完成控制系统的最优控制学习。

本发明与现有技术相比，具有以下优点和效果：

1、利用强化学习简化了智能体的最优学习方法，通过收益评估函数和偏差计算函数，实现环境对智能体动作的奖励反馈和惩罚反馈，从而实现了智能体的优化运行策略学习。

2、系统综合考虑了能源系统的安全性，模型训练中采用的是运行数据(数据库)，同时将最优化的控制模型作用于能源系统，实现在线闭环控制。

附图说明

图1是本发明实施例中面向能源系统运行优化的强化学习控制系统的结构示意图。

具体实施方式

下面结合附图并通过实施例对本发明作进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例。

参见图1，一种面向能源系统运行优化的强化学习控制系统，包括以下部分：

1)系统结构

2)系统模型

效益计算公式

η＝∑O·P_O-∑I·P_I，

效率计算公式

其中Q_O对应供能输出热值，Q_I对应能源输入热值。

偏差计算模型

ε＝∑|O-R|，

其中R表示用户需求量(如电、热的需求量)。

智能体即系统运行优化模型，采用强化学习训练模型。

由于能源系统的特殊性，无法直接利用能源系统本身进行强化学习训练，故本发明采用运行数据库模型实现模型训练，如图1中的虚线框所示，训练方法如下：

r＝α·η-β·ε

3)控制模型

具体的，系统模型中，强化学习的对象不是能源系统本身，而是其运行数据数据库(保证能源系统的安全性，能源系统不能直接进行强化学习的试错训练)。

具体的，收益评估不仅仅表示经济效益方面的收益，也可表示为以提高系统效率为目标的收益。

本说明书中未作详细描述的内容均属于本领域专业技术人员公知的现有技术。

虽然本发明已以实施例公开如上，但其并非用以限定本发明的保护范围，任何熟悉该项技术的技术人员，在不脱离本发明的构思和范围内所作的更动与润饰，均应属于本发明的保护范围。

Claims

1.一种面向能源系统运行优化的强化学习控制系统，其特征是，包括以下部分：

1)系统结构

强化学习控制系统包括能源系统、运行数据模块、收益评估模块、偏差计算模块和智能体；

能源系统包括能源输入、供能输出和系统控制三部分；

运行数据模块存储能源系统的历史运行数据，包括系统每一时刻的能源输入、供能输出和系统控制三种数据；

收益评估模块用于评估不同控制模式在用户需求约束下的系统运行收益，作为奖励项反馈给智能体模型；

偏差计算模块用于评估用户需求和系统供能输出的差值，作为惩罚项反馈给智能体模型；

智能体通过收益评估模块和偏差计算模块给出系统控制调节增量；系统控制增量表示系统为调整机组运行负荷而增加或者减小调控量；

2)系统模型

运行数据模块采用关系型数据库模型，记录系统每一时刻的能源输入、供能输出、系统控制三种数据类型；

收益评估模型针对用户需求量参数，通过数据库查询操作，查询数据中所有满足供能输出与用户需求偏差的数据，并将所有数据对应的系统控制模式按照收益排序，提出的收益可以通过效益或者效率表述，效益和效率的计算公式分别描述如下：

效益计算公式

η＝∑O·P_O-∑I·P_I.

其中O表示系统的供能输出，P_O对应供能输出价格，I表示系统的能源输入，P_I对应能源输入价格，∑表示数据求和，相同符号下同；

效率计算公式

其中Q_O对应供能输出热值，Q_I对应能源输入热值；

偏差计算模型

ε＝∑|O-R|.

其中R表示用户需求量；

智能体即系统运行优化模型，采用强化学习训练模型；

由于能源系统的特殊性，无法直接利用能源系统本身进行强化学习训练，故采用运行数据库模型实现模型训练，训练方法如下：

根据用户需求，实时查询数据库中满足需求的系统控制模式，并提取出来，进行收益评估和偏差计算，通过智能体的动作模式调节(增量控制)，实时计算出在不同增减量下的系统收益和惩罚，反馈给智能体，强化训练动作调节带来的系统收益最大，从而实现控制模型的训练；系统反馈量表示如下：

r＝α·η-β·ε

其中α，β分别表示奖励项和惩罚项的权重，这个根据实际能源系统的控制精度进行设定，权重越大表明奖励项或者惩罚项的反馈力度越大，反之越小；

强化学习训练采用定周期的迭代更新，不断接收能源系统的最新运行数据，实时更新系统的智能体模型；

3)控制模型

2.根据权利要求1所述的面向能源系统运行优化的强化学习控制系统，其特征是，系统模型中，强化学习的对象不是能源系统本身，而是其运行数据数据库。

3.根据权利要求1所述的面向能源系统运行优化的强化学习控制系统，其特征是，收益评估不仅仅表示经济效益方面的收益，也可表示为以提高系统效率为目标的收益。