CN108321795B

CN108321795B - 基于深度确定性策略算法的发电机组启停配置方法及系统

Info

Publication number: CN108321795B
Application number: CN201810054828.3A
Authority: CN
Inventors: 程引; 林淑怡; 张卫东; 赵亚东; 何星; 蔡云泽
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2021-01-22
Anticipated expiration: 2038-01-19
Also published as: CN108321795A

Abstract

本发明涉及一种基于深度确定性策略算法的发电机组启停配置方法及系统，该方法将机组组合启停分配问题构造成为强化学习序列决策问题，所述的方法包括以下步骤：1)将前一历史时刻各机组出力值向量作为智能体观测状态，用以作为深度策略网络的输入向量；2)针对连续时间序列机组启停优化问题，使用深度确定性策略梯度算法给出优化决策序列，输出机组在该时刻的启停向量，实现对机组启停状态的分配。与现有技术相比，本发明采用深度确定性策略学习方法，直接得到不同时刻的启停向量，能够适应不同规模机组集群启停表的自动分配，使得系统具有较好的扩展性。

Description

基于深度确定性策略算法的发电机组启停配置方法及系统

技术领域

本发明涉及火力发电技术领域，尤其是涉及一种基于深度确定性策略算法的发电机组启停配置方法及系统。

背景技术

在火力发电生产过程中，制定日前发电计划，预先对发电机组的启停优化配置，有着重要意义。原因在于两个方面：首先，电力系统负荷存在着明显的周期性与峰谷效应，为了满足负荷的需求，系统内机组必须联合运行；其次，在不改变启停机组的数目的条件下，仅仅依靠调整开机机组的出力，很难实现电力供需平衡与发电资源的合理配置。

发电机组启停优化配置是在满足约束条件下，如何合理安排机组的开/停机顺序，从而使得系统发电成本最小。它可以用同时包含离散变量(如机组的启停状态)及连续变量(如负荷的经济分配)的混合型高维、动态非线性优化问题来进行描述。当系统的规模逐渐增加时，从理论上获得准确的最优解将变得十分困难。

目前常规方法是把机组启停分配问题用数学方程描述出来，并用解析法求解，最终得到最优值。拉格朗日松弛法是一种典型的求解复杂组合优化问题的数学优化算法，将其运用于机组启停分配问题中始于70年代，到目前已经取得了大量的理论和应用成果。然而该算法也有明显的缺陷，主要是受制于目标函数的非凸性，求解过程存在对偶间隙，常常不能找到原问题的最优解，需要采取一定的措施进行构造。因此，有必要建立一种有效的决策方法，实现日前发电机组启停优化配置，以期适应不同规模机组集群，从而提高优化系统的扩展性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度确定性策略算法的发电机组启停配置方法及系统，采用深度确定性策略学习方法，直接得到不同时刻的启停向量，能够适应不同规模机组集群启停表的自动分配，使得系统具有较好的扩展性。

本发明的目的可以通过以下技术方案来实现：

一种基于深度确定性策略算法的发电机组启停配置方法，其特征在于，该方法将机组组合启停分配问题构造成为强化学习序列决策问题，所述的方法包括以下步骤：

1)将前一历史时刻各机组出力值向量作为智能体观测状态，用以作为深度策略网络的输入向量；

2)针对连续时间序列机组启停优化问题，使用深度确定性策略梯度算法给出优化决策序列，输出机组在该时刻的启停向量，实现对机组启停状态的分配。

优选地，所述的深度确定性策略梯度算法包括深度策略网络的训练过程和执行过程。

优选地，所述的训练过程包括以下步骤：

首先，通过数据采集单元获得机组历史出力记录数据；

其次，将各个时刻的机组历史出力合并成智能体状态向量，输入至深度策略网络，得到候选启停向量；

然后，在候选启停向量的基础上利用最优潮流解出各机组出力，以对应运行成本作为强化学习奖励函数值；

最后，经过迭代训练使得深度策略网络收敛；

优选地，所述的执行过程包括以下步骤：

首先，重新按时间顺序输入历史机组出力；

其次，通过深度策略网络得到优化启停向量；

然后，根据优化启停向量求解对应时刻最优潮流；

最后，根据最优潮流对应的机组出力生成新的智能体状态向量，依次继续解出后续时段的全部优化启停表。

一种基于深度确定性策略算法的发电机组启停配置系统，包括数据采集单元、强化学习训练单元、最优潮流解算单元和强化学习执行单元；

在系统进行训练过程中，强化学习执行单元退出运行，由搭载深度确定性策略梯度算法的强化学习训练单元作为优化核心；

当系统进入执行状态中，强化学习执行单元替代强化学习训练单元加入运行，直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量。

优选地，所述的系统进行训练过程具体为：

所述的数据采集单元记录当前时刻之前的机组历史出力数据，并合成为当前时刻的强化学习智能体状态向量；

所述的强化学习训练单元由深度策略网络初始参数生成当前时刻对应的候选启停向量；

所述的最优潮流解算单元在启停表确定的基础上，考虑基本系统约束、旋转备用约束、机组特性约束以及网络安全约束，对该时刻各机组出力进行统一解算；

所述的强化学习训练单元利用得到的各机组出力结果，计算出奖励函数值，使用深度确定性策略梯度算法修正候选启停序列，经过多次迭代策略网络收敛。

优选地，所述的系统执行状态具体过程为：

初始时刻再次输入历史机组出力值，合并成为智能体状态向量；

所述的强化学习执行单元直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量；

在优化启停向量基础上由最优潮流解算单元生成对应机组出力；

再由当前时刻机组出力生成下一时刻的智能体状态向量，交由强化学习执行单元生成下一时刻的优化启停向量；

按时间顺序依次逐个解出全部日前机组启停表，从而实现日前机组启停的自动优化配置。

优选地，所述的深度确定性策略梯度算法通过重复计算策略的期望回报梯度的噪声估计，然后依照得到梯度方向来对策略进行更新。

与现有技术相比，本发明具有以下优点：

1)实现了日前机组启停的自动优化配置，替代了常规的解析松弛法，提高了机组启停配置的灵活性和扩展性，免去了伴随规划的复杂求解流程。

2)提出的方法基于深度确定性策略梯度算法，具有依赖数据少、求解方便、计算效率高的优点。相对于基于值函数的强化学习算法，本发明直接对策略的期望收益进行优化，消除了中间媒介；相对于随机性策略梯度算法，本发明在求取期望时不需要在动作空间进行采样积分，从而依赖更少的采样数据，达到更高的计算效率。

附图说明

图1为本发明机求解组启停表的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明基于深度确定性策略算法的发电机组启停配置方法：首先，给出了一种数据采集单元构成的机组历史出力记录装置；其次，将各个时刻的机组历史出力合并成智能体状态向量，输入至深度策略网络，得到候选启停向量；然后，在候选启停向量的基础上利用最优潮流解出各机组出力，以对应运行成本作为强化学习奖励函数值；经过迭代训练使得深度策略网络收敛；

训练完成之后，首先重新按时间顺序输入历史机组出力；其次，通过深度策略网络得到优化启停向量；然后，根据优化启停向量求解对应时刻最优潮流；最后根据最优潮流对应的机组出力生成新的智能体状态向量，依次继续解出后续时段的全部优化启停表。该方法的优点是，算法受系统规模影响小，计算量主要取决于最优潮流的解算时间，具有较好的扩展性。

本发明提出的机组启停配置系统由数据采集单元、强化学习训练单元、最优潮流解算单元、强化学习执行单元、发电机组等组成。在系统进行训练过程中，强化学习执行退出运行，由搭载深度确定性策略梯度算法的强化学习训练单元作为优化核心；由数据采集单元记录当前时刻之前的机组历史出力数据，并合成为当前时刻的强化学习智能体状态向量；强化学习训练单元由深度策略网络初始参数生成当前时刻对应的候选启停向量；最优潮流解算单元在启停表确定的基础上，充分考虑基本系统约束、旋转备用约束、机组特性约束以及网络安全约束等，对该时刻各机组出力进行统一解算；强化学习训练单元利用得到的各机组出力结果，计算出奖励函数值，使用深度确定性策略梯度算法修正候选启停序列，经过多次迭代策略网络收敛。

当系统进入执行状态中，初始时刻再次输入历史机组出力值，合并成为智能体状态向量；强化学习执行单元替代强化学习训练单元加入运行，直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量；在优化启停向量基础上由最优潮流解算单元生成对应机组出力；再由当前时刻机组出力生成下一时刻的智能体状态向量，交由强化学习执行单元生成下一时刻的优化启停向量；按时间顺序依次逐个解出全部日前机组启停表，从而实现日前机组启停的自动优化配置。

深度确定性策略梯度算法通过重复计算策略的期望回报梯度的噪声估计，然后依照得到梯度方向来对策略进行更新。相对于基于值函数的强化学习算法，该方法直接对策略的期望收益进行优化，消除了中间媒介；相对于随机性策略梯度算法，该方法在求取期望时不需要在动作空间进行采样积分，从而依赖更少的采样数据，达到更高的计算效率。

如图1所示，本发明具体求解过程如下：

步骤一：将机组群整体作为智能体，将机组群运行工况作为智能体的交互环境。每个时间步t，机组群的启停选择向量作为智能体决策动作a_t，全部可行启停向量对应强化学习动作集A。从而将日前机组启停分配问题等效为包含T＝24个时间步的马尔科夫决策过程序列。

步骤二：如图1所示，数据采集单元将各机组在t-1时刻的出力值向量P_t-1作为智能体对应时间步t的状态向量s_t。N为机组数量，则有：

步骤三：初始化强化学习训练单元，评判器Q(s,a|θ^Q)和行动器μ(s|θ|^μ)对应的连接权重参数分别为θ^Q和θ^μ。其中s和a分别对应智能体状态和决策。

步骤四：初始化目标网络Q′和μ′，赋以相同的连接权重参数θ^Q和θ^μ，并初始化经验重放缓存库R。

步骤五：使用机组初始出力值向量P₀作为智能体候选状态向量s₁′，行动器产生候选决策a₁′，对应生成候选启停表C₁′。其中

为当前时刻人为引入随机噪声，提供策略探索能力，而行动器依据下式产生候选决策：

步骤六：使用最优潮流解算单元，求解候选启停表C₁′对应各机组出力P₁′，计算对应总运行成本r₁′。

步骤七：使用深度确定性策略梯度算法，对强化学习训练单元中的评判器、行动器和目标网络连接权重进行更新。具体地，行动器依据确定性情况下的策略梯度定理进行更新：

而评判器通过最小化与目标网络的平方误差进行梯度下降更新：

在此基础上将目标网络进行增量式更新，保留部分前序权重信息。

步骤八：依次生成后续候选启停表和候选状态向量，迭代训练直至强化学习训练单元收敛。

步骤九：使用机组初始出力值向量P₀作为智能体状态向量s₁，强化学习执行单元调用行动器θ^μ生成决策a₁，对应生成候选启停表C₁。

步骤十：使用最优潮流解算单元，求解启停表C₁对应各机组出力P₁，计算对应当前时段成本r₁。依次按照上述流程，解算出后续所有启停向量，输出完整启停表，从而优化全体累计期望运行成本

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。