CN111275572A

CN111275572A - 一种基于粒子群和深度强化学习的机组调度系统及方法

Info

Publication number: CN111275572A
Application number: CN202010043546.0A
Authority: CN
Inventors: 于长军; 林志赟; 韩志敏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-12
Anticipated expiration: 2040-01-15
Also published as: CN111275572B

Abstract

本发明公开了一种基于粒子群和深度强化学习的机组调度系统及方法，系统包括粒子群模块和深入强化学习模型，其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数，其中，所述粒子群模块的输入为负荷需求，输出连接所述评估网络，评估网络输出Q估计值和所述经验回放池；所述经验回放池输出连接所述目标网络，所述目标网络输出Q目标值，Q目标值与Q估计值均输入所述损失函数，损失函数的输出再反馈给评估网络。本发明在优化机组调度的同时，切实从节约燃煤量的角度出发，既要满足负荷要求，也要在每一度电上至少节约出0.1克燃煤量，同时实现底层设备与机组调度控制一体化的控制优化。

Description

一种基于粒子群和深度强化学习的机组调度系统及方法

技术领域

本发明属于信息控制领域，涉及一种基于粒子群和深度强化学习的机组调度系统及方法。

背景技术

电力机组经济调度是电力系统运行中的重要环节，由于其多约束，非线性和高维度的特点，一直成为学术学者的研究对象。机组经济调度优化的意义对电力系统不仅仅是提高工作运行效率，更大大提升了电力企业的综合效益，减小了环境影响，而且人工智能的应用实现了系统自动化和智能化。

电力经济调度可以理解为：在保证满足电力生产的前提下，安全且充分调度各机组的发电生产，使得发电成本最低。目前有很多关于机组经济优化问题的研究，比如遗传算法，蚁群算法，粒子群算法，神经网络，强化学习以及各种不同算法相融合产生的算法。随着电力系统的发展，机组经济调度复杂程度增加，在原有的机组经济优化的问题中添加了不同的约束，如机组启停时间成本，机组爬坡消耗成本等等。然而，所有研究中只是在原有系统中优化了机组调度，但无法实现底层设备参数一体化的控制优化，从而无法进一步优化所需燃煤量。

发明内容

为解决上述问题，本发明的目的在于提供一种基于粒子群和深度强化学习的机组调度系统，包括粒子群模块和深入强化学习模型，其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数，其中，

所述粒子群模块的输入为负荷需求，输出连接所述评估网络，评估网络输出Q估计值和所述经验回放池；所述经验回放池输出连接所述目标网络，所述目标网络输出Q目标值，Q目标值与Q估计值均输入所述损失函数，损失函数的输出再反馈给评估网络。

优选地，所述粒子群模块输出目标燃煤量和底层可控设备参数，目标燃煤量作为输入状态，底层可控设备参数作为输入动作。

优选地，所述评估网络向所述经验回放池输出的为目标燃煤量、底层可控设备参数、预估奖励和下一状态的目标燃煤量。

优选地，所述经验回放池向所述目标网络输出的为下一状态的目标燃煤量。

优选地，所述粒子群模块中粒子数为80，惯性权重w＝1，学习因子c₁＝c₂＝2.01，粒子的最大速度为1，迭代次数为1500次，适应值函数为：

其中a_i,b_i,c_i为各机组能耗系数；粒子位置和速度更新公式为：

其中，k表示迭代步数，α为收缩因子，

pbest为粒子历史中最优位置，gbest为全部粒子中最优位置，rand()为随机函数取值范围是[0,1]。

基于上述目的，本发明还提供了一种上述基于粒子群和深度强化学习的机组调度系统的方法，包括以下步骤：

S10，根据负荷需求利用粒子群模块优化得出所有机组出力：以符合需求指令为目标，在各个机组发力的约束下，利用粒子群模块对所有机组进行合理分配，所得结果为各个机组的生产值；

S20，根据机组出力计算燃煤量：根据燃煤量和机组出力的转化公式计算得到燃煤量和平均燃煤量、即为每度电的燃煤量，目标燃煤量为平均燃煤量至少再减少1g燃煤量每度电；

S30，将目标燃煤量作为输入状态，风水煤等底层可调节设备参数作为输入动作，输入到深度强化学习模型中；

S40，以目标燃煤量为目标，调控底层可控设备参数，所得结果在目标燃煤量的前提下，得到所有底层设备控制器的最优参数；

S50，根据目标燃煤量和机组负荷需求得到新的燃煤量和成本；按照新的成本和负荷需求重新利用粒子群模块规划机组输出，重复S10-S40，根据目标燃煤量得到底层设备最优参数，最后根据新的成本函数重新规划机组出力。

优选地，S40中，将目标燃煤量作为输入状态s，底层可控设备参数作为输入动作a，输入到深度强化学习模型的评估网络中，评估网络自主学习得到达到下一状态的预估奖励，并将Q估计值输入损失函数，将输入状态s，输入动作a，预估奖励r和下一状态s’组合并存输入经验回放池中，以下一状态s’作为输入状态输入到目标网络中得到实际可得的奖励，即为Q目标值，将Q目标值和Q估计值的差作为深度强化学习模型的反馈再次输入评估网络，提升学习性能。

与现有技术相比，本发明至少有以下有益效果：在优化机组调度的同时，切实从节约燃煤量的角度出发，既要满足负荷需求，也要在每一度电上至少节约出0.1克燃煤量，同时实现底层设备与机组调度控制一体化的控制优化。本发明组合了粒子群模块和深度强化学习模型。粒子群模块有参数少、易实现、寻找全局最优等特点，在机组调度优化问题上有着普遍的应用。深度强化学习模型是深度学习和强化学习的结合，深度学习具有较强的感知能力，但缺乏一定的决策能力；而强化学习具有决策能力，将两者结合起来优势互补，对复杂系统感知决策问题提供了解决思路。

附图说明

图1为本发明实施例的基于粒子群和深度强化学习的机组调度系统的结构框图；

图2为本发明具体实施例的基于粒子群和深度强化学习的机组调度方法的步骤流程图；

图3为本发明实施例的基于粒子群和深度强化学习的机组调度的对机组出力分配优化前后的变化图；

图4为本发明实施例的基于粒子群和深度强化学习的机组调度优化机组出力过程中的电厂成本的变化过程示意图；

图5为本发明实施例的基于粒子群和深度强化学习系统的损失函数的变化过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

系统实施例1

参见图1，所示为本发明一实施例的基于粒子群和深度强化学习的机组调度系统包括粒子群模块10和深入强化学习模型20，其中所述深入强化学习模型20包括评估网络21、经验回放池22、目标网络23和损失函数24，其中，

粒子群模块10的输入为负荷需求，输出连接评估网络21，评估网络21输出Q估计值和经验回放池22；经验回放池22输出连接目标网络23，目标网络23输出Q目标值，Q目标值与Q估计值均输入损失函数24，损失函数24的输出再反馈给评估网络21。

系统实施例2

粒子群模块10输出目标燃煤量和底层可控设备参数，目标燃煤量作为输入状态，底层可控设备参数作为输入动作。

评估网络21向经验回放池22输出的为目标燃煤量、底层可控设备参数、预估奖励和下一状态的目标燃煤量。

经验回放池22向目标网络23输出的为下一状态的目标燃煤量。

粒子群模块10中粒子数为80，惯性权重w＝1，学习因子c₁＝c₂＝2.01，粒子的最大速度为1，迭代次数为1500次，适应值函数为：

其中，k表示迭代步数，α为收缩因子，

深度强化学习模型20中的参数设置：使用fixed Q-network和经验回放池22实现深度强化学习。其中fixed Q-network中的评估网络21和目标网络23均为5层隐藏层，每层为20个神经元，每5步替换目标网络的参数，激活函数为

学习率为0.01，ε-greedy设置为0.9，奖励衰减值γ为0.9，记忆存储为500,奖励规则为若高于负荷要求则为+1，若低于负荷要求则为-1，若满足负荷要求则为0，迭代次数为300次，深度强化学习奖励函数是以成本函数为基础设计。输入层为观测值(Observation)，动作(Action)为二次风挡板开度a，磨煤机速度b，皮带转速c，给水量阀门开度d，给水泵功率e。观测表如表1所示，其中，C为平均燃煤量，C-0.1、C-0.2、C-0.3、C-0.4、C-0.5为目标平均燃煤量，即为最少节省0.1g、0.2g、0.3g、0.4g和0.5g燃煤量每度电。

表1观测表

方法实施例

参见图2，一种上述基于粒子群和深度强化学习的机组调度系统的方法，包括以下步骤：

具体实施例中，S40中，将目标燃煤量作为输入状态s，底层可控设备参数作为输入动作a，输入到深度强化学习模型的评估网络中，评估网络自主学习得到达到下一状态的预估奖励，并将Q估计值输入损失函数，将输入状态s，输入动作a，预估奖励r和下一状态s’组合并存输入经验回放池中，以下一状态s’作为输入状态输入到目标网络中得到实际可得的奖励，即为Q目标值，将Q目标值和Q估计值的差作为深度强化学习模型的反馈再次输入评估网络，提升学习性能。

具体实施例中

首先利用粒子群模块根据负荷需求优化各个机组出力，得到的仿真效果参见图3，图4。

图3为利用收缩因子粒子群模块10对机组出力分配优化前后的变化图，横坐标为机组数，共40个机组。纵坐标为每个机组的出力情况。黑色柱状图为优化前的机组初始出力，白色柱状图为优化后的机组出力。

图4为优化机组出力过程中的电厂成本的变化过程。横坐标为方法迭代步数，纵坐标为电厂成本。从图中可以看出随着方法迭代，曲线一直呈现下降趋势，电厂成本也在不断下降。

根据以下公式利用优化后的各机组出力计算出燃煤量：

其中B为锅炉燃烧量(t/h)，N为机组输出功率(MW)，Q_net,ar为燃煤收到基低位发热量(kJ/kg)，29271为标煤低位发热量(kJ/kg)，f_b为发电标煤耗(g/kWh)。

将燃煤量除以负荷需求得出每度电的煤耗量C，划分5个目标燃煤量状态(state)，分别为C-0.1、C-0.2、C-0.3、C-0.4和C-0.5，将观测值(observation)输入深度强化学习模型，所得效果参见图5，

图5为深度强化学习模型20中损失函数的变化过程，横坐标为深度强化学习的学习步数，纵坐标为深度强化学习中预测误差的变化情况。因为输入是一个不断探索的过程，并且输入的数据是根据学习情况所获得，所以曲线并不是光滑的曲线。

根据新的燃煤成本和原有的负荷要求重新利用粒子群模块规划机组出力，完成整个机组调度的优化。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于粒子群和深度强化学习的机组调度系统，其特征在于，包括粒子群模块和深入强化学习模型，其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数，其中，

2.根据权利要求1所述的基于粒子群和深度强化学习的机组调度系统，其特征在于，所述粒子群模块输出目标燃煤量和底层可控设备参数，目标燃煤量作为输入状态，底层可控设备参数作为输入动作。

3.根据权利要求1所述的基于粒子群和深度强化学习的机组调度系统，其特征在于，所述评估网络向所述经验回放池输出的为目标燃煤量、底层可控设备参数、预估奖励和下一状态的目标燃煤量。

4.根据权利要求1所述的基于粒子群和深度强化学习的机组调度系统，其特征在于，所述经验回放池向所述目标网络输出的为下一状态的目标燃煤量。

5.根据权利要求1所述的基于粒子群和深度强化学习的机组调度系统，其特征在于，所述粒子群模块中粒子数为80，惯性权重w＝1，学习因子c₁＝c₂＝2.01，粒子的最大速度为1，迭代次数为1500次，适应值函数为：

其中，k表示迭代步数，α为收缩因子，

6.一种采用权利要求1-5之一所述的基于粒子群和深度强化学习的机组调度系统的方法，其特征在于，包括以下步骤：

7.根据权利要求6所述的方法，其特征在于，所述S40中，将目标燃煤量作为输入状态s，底层可控设备参数作为输入动作a，输入到深度强化学习模型的评估网络中，评估网络自主学习得到达到下一状态的预估奖励，并将Q估计值输入损失函数，将输入状态s，输入动作a，预估奖励r和下一状态s’组合并存输入经验回放池中，以下一状态s’作为输入状态输入到目标网络中得到实际可得的奖励，即为Q目标值，将Q目标值和Q估计值的差作为深度强化学习模型的反馈再次输入评估网络，提升学习性能。