CN110850720A

CN110850720A - 一种基于dqn算法的区域自动发电动态控制方法

Info

Publication number: CN110850720A
Application number: CN201911186894.7A
Authority: CN
Inventors: 张志轩; 李晓宇; 王亮; 麻常辉; 张鹏飞; 李文博; 杨冬; 蒋哲; 周宁; 邢鲁华; 李山; 刘文学; 张冰; 房俏; 赵康; 马欢; 陈博
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-02-28

Abstract

本发明公开了一种基于DQN算法的区域自动发电动态控制方法，通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制。本发明实施例的技术方案通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制，以深度神经网络(DNN)来代替传统Q学习中的“状态‑动作”对，直接构成电网连续状态量与奖励期望之间的映射关系；通过与深度神经网络的有机结合，不仅使Q学习算法拥有了处理复杂的连续状态量的能力，从根本上解决了维数灾问题，同时可以使用深度学习算法对深度神经网络参数进行预学习以有效提高算法的收敛速度。

Description

一种基于DQN算法的区域自动发电动态控制方法

技术领域

本发明涉及一种基于DQN算法的区域自动发电动态控制方法，属于电力系统自动发电控制技术领域。

背景技术

自动发电控制(automatic generation control，AGC)作为能量管理系统(energymanagement system，EMS)的重要环节之一，主要分为2个过程：1)总功率指令的跟踪2)总功率指令的分配。通常以CPS考核合格率作为评价AGC控制性能的重要标准。传统的负荷频率控制，即狭义的自动发电控制(AGC)因为采用了负反馈控制，比例积分环节始终都可以消除误差达到稳定状态。但由于火电系统存在非线性环节，基于线性规划控制的动态性能无法让人满意。同时二次控制回路的比例积分增益系数不仅与系统结构参数有关，还与负荷变化相关，需随着系统负荷的变化实时调节，才能满足负荷变化时频率的变化要求。

CPS标准下的AGC系统可看作“不确定的随机系统”,数学模型以高斯-马尔可夫随机过程建模，功率动态分配问题可理解为一个离散时间马尔可夫决策过程。传统解析方法对电网结构、参数以及运行量测数据的精确程度依赖较高，复杂的迭代求解算法常存在鲁棒性不强的问题。以马尔可夫决策过程(MDP)为严格数学基础的强化学习(RL)算法只需对当前控制效果的评价信息做出反应，具有更高的控制实时性和鲁棒性，以及常规控制方法所不具备的渐进学习寻优能力。近年来涌现大量研究将RL算法广泛应用到电力系统运行与规划的决策之中。

专利申请号为201811407241.2的中国发明专利：“一种考虑预防策略的大规模电力系统自动发电控制方法”，提出一种将深度森林算法与强化学习算法相结合的自动发电控制方法，具有处理表征关系的能力和逐层加强表征学习的能力。深度森林算法作为基于决策树的集成算法，能减少强化学习算法带来的维度灾难；深度森林强化学习算法用于预防性策略，可预测电力系统的下一时刻状态。但该方法仅能削弱维数灾引起的计算困难，并不能从根本上解决维数灾问题。

发明内容

针对以上方法存在的不足，本发明提出了一种基于DQN算法的区域自动发电动态控制方法，其能够从根本上解决维数灾问题，能够让AGC系统在在一定范围内预测下一时刻的状态，提高AGC系统的主动控制能力，更好地实现智能化的发电控制。

本发明解决其技术问题采取的技术方案是：

本发明实施例提供的一种基于DQN算法的区域自动发电动态控制方法，通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制。

作为本实施例一种可能的实现方式，所述DQN算法和深度神经网络相结合的过程包括以下步骤：

(1)设计DQN算法的状态集S、动作集A和奖励函数R；

(2)初始化以下参数：算法记忆库、具有相同结构的Q神经网络和Q_t神经网络、初始状态s₀、以及学习速度α和折扣因子γ；

(3)求解当前状态s下的值函数Q(s,a)，依据贪婪原则选择控制动作a，并考虑机组容量和爬坡速度硬性约束对控制动作a进行额外处理；

(4)将处理过的控制动作a作用于电力系统仿真环境，得到反馈的系统新状态s'，依据奖励函数公式计算出控制动作对应的立即奖励r，并将(s,a,r,s')作为一条样本经验存入算法记忆库；

(5)从算法记忆库中随机抽取部分样本经验，采用批量更新的方式，使用随机梯度下降法更新Q神经网络，与Q神经网络具有相同结构的Q_t神经网络每隔N次迭代复制一次Q神经网络参数；

(6)将DQN算法当前状态s更新至新状态s'，并将迭代次数加一，当目前迭代次数大于最大迭代次数或者值函数收敛时停止迭代。

作为本实施例一种可能的实现方式，在步骤(1)中，DQN算法的状态量取联络线功率偏差ΔP和频率偏差Δf，动作量为各AGC机组出力设定值；奖励函数发CPS1指标指数k_CPS1计算如下：

其中，ACE_AVE-min为区域控制误差ACE在1分钟内的平均值；ΔF_AVE-min为频率偏差ΔF在1分钟内的平均值；B_i为控制区域i的频率偏差系数；ε₁为互联电网对全年1分钟频率平均偏差均方根的控制目标值；n_T为该考核时段的分钟数；

当k_CPS1≥200％或者200％>k_CPS1≥100％且|ACE_AVE-10-min|≤L₁₀时，CPS指标达到标准，奖励函数如下：

其中，ACE_AVE-10-min是区域控制误差在10分钟内的平均值；B_s是互联神经网络中所有控制区域频率偏差的总和；ε₁₀是CPS2指标值的目标频率范围；

作为本实施例一种可能的实现方式，在步骤(2)中，Q代表动作值函数，即考虑折扣因子的最大未来奖励期望，为配合单步模拟的时间差分法，根据贝尔曼最优原理写成递归形式：

式中，E指进行求期望的操作，s和a分别指当前状态及对应选择的控制动作，s'为环境在动作a影响下转移到的新状态，a'为新状态s'下所选择的控制动作。

作为本实施例一种可能的实现方式，在步骤(3)中，利用深度神经网络的输出Q(s,a)作为广义策略迭代中的策略评估；策略提升则使用最简单的贪婪原则，即认为最优策略与最优值函数相对应：

最优值函数a^*(s)所对应的控制动作就是当前最优策略。

作为本实施例一种可能的实现方式，在步骤(5)中，利用深度学习训练深度神经网络来拟合动作值函数，看作是Q值函数的估计值与目标值之间均方差最小的最优化问题：

其中，Q值函数的估计值直接使用Q神经网络的输出Q(s,a)，Q值函数的目标值则使用立即奖励r加上考虑折扣因子的次状态值函数Q_t(s',a')，目标值中的值函数使用了Q神经网络的同结构神经网络Q_t；

Q_t神经网络参数每迭代n步同步一次Q神经网络的参数，即：

通过这种方式将原本的变目标最优化问题转变成了阶段性的定目标优化问题。作为本实施例一种可能的实现方式，在步骤(5)中，Q值函数的增量式迭代更新公式写成如下形式：

其中，

中的

为哈密顿算子，微分运算符号；L则对应式(5)，即

为对式(5)进行微分运算。

本发明实施例的技术方案可以具有的有益效果如下：

本发明实施例的技术方案通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制，以深度神经网络(DNN)来代替传统Q学习中的“状态-动作”对，直接构成电网连续状态量与奖励期望之间的映射关系；通过与深度神经网络的有机结合，不仅使Q学习算法拥有了处理复杂的连续状态量的能力，从根本上解决了维数灾问题，同时可以使用深度学习算法对深度神经网络参数进行预学习以有效提高算法的收敛速度。

本发明使用神经网络来近似Q值函数，使得算法具有了处理复杂场景，即高纬度状态和动作空间的潜力，同时可以一定程度上从已知状态推导未知状态，使得算法具有了处理部分可观测问题的能力。

附图说明：

图1是根据一示例性实施例示出的一种DQN算法和深度神经网络相结合的流程图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明：

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

图1是根据一示例性实施例示出的一种DQN算法和深度神经网络相结合的流程图。如图1所述，本发明实施例提供的一种DQN算法和深度神经网络相结合的过程包括以下步骤：

(1)设计DQN算法的状态集S、动作集A和奖励函数R；

本发明将DQN算法和深度神经网络相结合，以深度神经网络(DNN)来代替传统Q学习中的“状态-动作”对，直接构成电网连续状态量与奖励期望之间的映射关系；通过与深度神经网络的有机结合，不仅使Q学习算法拥有了处理复杂的连续状态量的能力，从根本上解决了维数灾问题，同时可以使用深度学习算法对深度神经网络参数进行预学习以有效提高算法的收敛速度。其具体实施过程如下。

(1)设计DQN算法的状态集S、动作集A和奖励函数R；

算法的状态量取联络线功率偏差ΔP和频率偏差Δf，动作量为各AGC机组出力设定值，因DQN算法可以处理连续的状态和动作量，此处不需离散化处理。奖励函数的设计则参考CPS控制性能标准，CPS1指标指数k_CPS1计算如下：

其中，ACE_AVE-min为区域控制误差ACE在1分钟内的平均值；ΔF_AVE-min为频率偏差ΔF在1分钟内的平均值；B_i为控制区域i的频率偏差系数；ε₁为互联电网对全年1分钟频率平均偏差均方根的控制目标值；n_T为该考核时段的分钟数。当k_CPS1≥200％或者200％>k_CPS1≥100％且|ACE_AVE-10-min|≤L₁₀时，CPS指标达到标准，由此可设计奖励函数如下：

其中，ACE_AVE-10-min是区域控制误差在10分钟内的平均值；B_s是互联网络中所有控制区域频率偏差的总和；ε₁₀是CPS2指标值的目标频率范围；

(2)初始化样本记忆库、具有相同结构的Q和Q_t神经网络、初始状态s₀、以及学习速率α和折扣因子γ等算法参数；

Q代表动作值函数，即考虑折扣因子的最大未来奖励期望，为配合单步模拟的时间差分法，通常根据贝尔曼最优原理写成递归形式：

传统强化学习算法采用表格形式存储每种离散状态和动作下的动作值函数Q，这使得算法在面临复杂问题时难以避免维数灾问题。为了解决这一缺点，以深度神经网络作为函数近似器将状态、动作与Q值间构建映射关系便成为了一种有效的解决方法。引入深度神经网络作为近似函数的DQN算法，面临着严峻的神经网络参数收敛性问题。深度学习要求训练样本相互独立，而强化学习处理的多阶段决策问题前后状态存在关联性。同时，基于广义策略迭代的学习框架导致强化学习算法的目标在迭代过程中一直变化，即使不发生变化，自举也会导致非平稳性，即强化学习训练过程属于变目标函数的最优化问题，近似函数的引入使得策略提升定理失效，收敛性难以保证。

针对上述问题，DQN算法建立记忆库，采取存储-随机取样的方法打破数据之间的关联性，满足了深度学习对于数据独立、同分布的要求；建立结构完全相同的Q和Q_t神经网络，通过引入结构与主神经网络完全一致的辅助神经网络，阶段性时差更新目标函数网络的方式，使得算法训练过程在每个阶段都变为定目标函数的最优化问题。使用神经网络来近似Q值函数，使得DQN算法具有了处理复杂场景，即高纬度状态和动作空间的潜力。同时，近似函数的采用使得DQN算法具有了一定程度上从已知状态推导未知状态的能力，使得算法具有了处理部分可观测问题的能力。

(3)求解当前状态s下的值函数Q(s,a)，依据贪婪原则选择控制动作a，并考虑机组容量和爬坡速度等硬性约束对控制动作a进行额外处理；

利用深度神经网络的输出Q(s,a)作为广义策略迭代中的策略评估；另一方面，策略提升则使用最简单的贪婪原则，即认为最优策略与最优值函数相对应，最优值函数所对应的控制动作就是当前最优策略：

(4)将处理过的控制动作a作用于电力系统仿真环境，得到反馈的系统新状态s'，依据奖励函数公式计算出控制动作对应的立即奖励r，并将(s,a,r,s')作为一条样本经验存入样本记忆库；

(5)从样本记忆库中按照一定规则抽取部分样本经验，采用批量更新的方式，使用随机梯度下降法更新Q网络，与Q网络具有相同结构的Q_t网络每隔N次迭代复制一次Q网络参数；

利用深度学习训练深度神经网络来拟合动作值函数，可以看作是Q值函数的估计值与目标值之间均方差最小的最优化问题：

其中，Q值函数的估计值直接使用Q网络的输出Q(s,a)，Q值函数的目标值则使用立即奖励r加上考虑折扣因子的次状态值函数Q_t(s',a')，目标值中的值函数使用了Q网络的同结构网络Q_t网络。当Q_t网络参数保持不变时，该最优化问题就变成了一般的定目标最优化问题。Q_t网络参数每迭代n步同步一次Q网络的参数，即：

通过这种方式将原本的变目标最优化问题转变成了阶段性的定目标优化问题，且只需优化Q网络，避免了计算量的增加。同时也解决了目标值中max操作引起的Q值过估计的问题。

因此，Q值函数的增量式迭代更新公式可以写成如下形式：

从样本记忆库中抽取样本可以采取随机抽取的方式，也可以借助某些标准，比如样本均方差的大小来评价样本的学习优先度，并根据学习优先度来抽取样本。

(6)将算法当前状态更新至s'，并将迭代次数i＝i+1，当目前迭代次数大于最大迭代次数或者值函数收敛时停止迭代；否则跳转至步骤3。

以上所述只是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也被视作为本发明的保护范围。

Claims

1.一种基于DQN算法的区域自动发电动态控制方法，其特征是，通过DQN算法和深度神经网络相结合来进行区域自动发电动态控制。

2.根据权利要求1所述的一种基于DQN算法的区域自动发电动态控制方法，其特征是，所述DQN算法和深度神经网络相结合的过程包括以下步骤：

(1)设计DQN算法的状态集S、动作集A和奖励函数R；

3.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法，其特征是，在步骤(1)中，DQN算法的状态量取联络线功率偏差ΔP和频率偏差Δf，动作量为各AGC机组出力设定值；奖励函数发CPS1指标指数k_CPS1计算如下：

4.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法，其特征是，在步骤(2)中，Q代表动作值函数，即考虑折扣因子的最大未来奖励期望，为配合单步模拟的时间差分法，根据贝尔曼最优原理写成递归形式：

5.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法，其特征是，在步骤(3)中，利用深度神经网络的输出Q(s,a)作为广义策略迭代中的策略评估；策略提升则使用最简单的贪婪原则，即认为最优策略与最优值函数相对应：

式中，s和a分别指当前状态及对应选择的控制动作；

最优值函数a^*(s)所对应的控制动作就是当前最优策略。

6.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法，其特征是，在步骤(5)中，利用深度学习训练深度神经网络来拟合动作值函数，看作是Q值函数的估计值与目标值之间均方差最小的最优化问题：

Q_t神经网络参数每迭代n步同步一次Q神经网络的参数，即：

通过这种方式将原本的变目标最优化问题转变成了阶段性的定目标优化问题。

7.根据权利要求2所述的一种基于DQN算法的区域自动发电动态控制方法，其特征是，在步骤(5)中，Q值函数的增量式迭代更新公式写成如下形式：

其中，s和a分别指当前状态及对应选择的控制动作，

中的

为哈密顿算子，微分运算符号；L则对应式(5)。