CN114048903B

CN114048903B - 一种基于深度强化学习的电网安全运行策略智能优化方法

Info

Publication number: CN114048903B
Application number: CN202111330875.4A
Authority: CN
Inventors: 朱介北; 徐思旸; 么军; 郝毅; 张利; 陈天恒; 申志鹏; 陈彬彬; 欧开健
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2024-03-26
Anticipated expiration: 2041-11-11
Also published as: CN114048903A

Abstract

本发明涉及一种基于深度强化学习的电网安全运行策略智能优化方法，包括如下步骤：步骤1、构建基于专家系统的电网安全运行策略优化模型，利用电网实际的潮流断面信息，基于专家系统，对机组有功出力和机组电压进行调整，给出下一步电网运行的建议，同时记录专家系统处理的电网状态和电网运行调整策略作为专家经验；步骤2、构建基于专家系统与深度强化学习的电网安全运行策略智能优化方法，将专家系统和深度强化学习相结合，实现超越专家水平的电网运行调整策略。本发明利用双延迟深度确定性策略梯度算法，在智能体进入强化学习训练模块时，在专家系统基础上进一步优化策略，达到超越专家水平的目的。

Description

一种基于深度强化学习的电网安全运行策略智能优化方法

技术领域

本发明属于电网安全技术领域，涉及一种基于深度强化学习的电网安全运行策略智能优化方法。

背景技术

电网安全运行策略，是根据电网实际运行状态，通过调整电网运行方式，保证电网潮流收敛的方法。电网安全运行策略是电网实现安全、低碳、经济运行的基础。随着电力系统各方面发生快速而深刻的变化，新型电力系统在电力平衡、安全运行、运行控制等方面面临严峻挑战。

在实际工程中，直接根据负荷给定大电网运行方式较为困难，通常采取人工潮流计算和调度的方式，通过分区计算，逐级调整电网潮流。基于模型驱动的传统潮流及优化算法，可协助专业人员解决潮流计算问题和电网调度问题。然而，随着电力系统各方面发生快速而深刻的变化，新型电力系统模型拓扑复杂，传统的潮流及优化算法计算时间较长，实时性难以保证，在电网实际调度时，需要具备专业知识人员进行调控，需要大量人工参与，工作效率受到影响。同时，基于模型驱动的传统潮流及优化算法已无法有效挖掘电力大数据中蕴藏的丰富价值和关联关系，无法满足电网低碳、经济运行。

强化学习(Reinforcement Learning,RL)作为机器学习领域的研究热点，已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域。RL的基本思想是通过最大化智能体(agent)从环境中获得的累计奖赏值，以学习到完成目标的最优策略。因此RL方法更加侧重于学习解决问题的策略，被认为是迈向通用人工智能(ArtificialGeneral Intelligence,AGI)的重要途径。基于强化学习的电网安全运行策略智能优化方法，是通过电网历史运行场景数据，利用人工智能方法训练智能体并与仿真器环境交互迭代，快速给出电网安全运行调整策略的方法。

然而，基于电网场景进行强化学习训练，例如在国网SG126节点模型下，共有54个发电机组，存在有功出力及电压调整共108维连续动作空间，智能体存在探索困境问题，训练难以收敛，同时强化学习存在泛化能力较弱的问题。

发明内容

本发明的目的在于解决现有技术的不足，提供一种基于深度强化学习的电网安全运行策略智能优化方法。

本发明解决其技术问题是通过以下技术方案实现的：

一种基于深度强化学习的电网安全运行策略智能优化方法，其特征在于：包括如下步骤：

步骤1、构建基于专家系统的电网安全运行策略优化模型，利用电网实际的潮流断面信息，基于专家系统，对机组有功出力和机组电压进行调整，给出下一步电网运行的建议，同时记录专家系统处理的电网状态和电网运行调整策略作为专家经验；

步骤2、根据步骤1，构建基于专家系统与深度强化学习的电网安全运行策略智能优化方法，将专家系统和深度强化学习相结合，实现超越专家水平的电网运行调整策略。

而且，步骤1所述基于专家系统的电网安全运行策略优化模型包括以下步骤：

步骤1.1、初始化电网环境，选取初始断面，利用仿真器进行模拟，更新观测空间；

步骤1.2、专家系统根据观测空间得到电网实时运行状态s，对机组有功出力、机组电压、火电机组开关进行调整，并返回给电网环境；

步骤1.3、电网环境利用仿真器进行模拟，返回上一步状态-动作的奖励值r、回合结束标志done、当前步观测空间；

步骤1.4、记录并保存专家系统所选择的电网状态s，电网运行策略a作为专家经验；

步骤1.5、判断回合是否结束，若结束，则进入步骤1.6，否则返回步骤1.2；

步骤1.6、判定专家系统是否处理完所有历史数据，若处理完，则结束专家经验收集，否则返回步骤1.1。

而且，所述步骤1.2具体包括以下步骤：

(1)根据电网环境和仿真器模拟返回的观测空间o，构建相应的状态空间s，并传递给专家系统；

(2)通过如下公式确定机组有功出力调整值

ΔLoad＝Load_t+1-Load_t

ΔP_banlance＝P_banlance-P

ΔP＝ΔLoad+ΔP_banlance

式中，Load_t+1为下一时刻负荷所需有功，Load_t为当前时刻负荷所需有功，ΔLoad为负荷调整值，ΔP_banlance为当前时间步平衡机出力超过约束设定值的大小，P_banlance为当前时间步平衡机出力，P为平衡机约束设定值，ΔP为当前时间步有功出力调整值；

(3)进行机组电压调整判定，判定若出现节点电压大于节点电压上界，全网机组电压调整至1标幺，否则，全网机组电压保持在机组电压上界；

(4)根据状态空间s观测线路状态和线路电流负载率，判定是否出现软过载或随机断线，若是，借鉴图卷积神经网络GCN，建立邻接矩阵，寻找待处理线路的上下游机组进行调整，并在接下来的操作中屏蔽已处理机组，防止二次操作，否则，进入步骤(5)；

(5)判定是否满足网损优化条件，若不是，进入步骤(6)；否则，借鉴图卷积神经网络GCN，得到火电机组的度矩阵，获得各火电机组出度，公式如下：

ΔP_i＝ΔP_i ^min if D_i＜4

式中，ΔP_i为火电机组i的有功出力调整值，ΔP_i ^min为火电机组i有功出力调整下限，D_i为火电机组i的出度，该方法可优化全网线路电流负载率，达到网损优化的目的；

(6)剩余机组按照基于机组调节能力同比例调整原则进行调整，在调整时，考虑新能源有功出力调整裕度，最大程度满足新能源满发；

(7)查询全网机组有功出力调节后有功出力调整值ΔP是否剩余差值，若有，寻找可开机火电机组开机，增加电网调节能力；否则进入步骤(8)；

(8)将全网机组电压调整与有功出力调整动作整理，并将下一步电网运行策略a返回环境。

而且，所述步骤2包括以下步骤：

步骤2.1、收集训练数据；

步骤2.2、电网环境设计，包括奖励函数设计及电网运行规则设计；

步骤2.3、基于步骤1所收集的专家经验，利用有监督学习和Dagger算法，对深度强化学习智能体的动作网络进行训练，目的为使智能体在进入深度强化学习训练前达到专家策略水平；

步骤2.4、基于深度强化学习中的双延迟深度确定性策略梯度算法TD3，训练智能体；

步骤2.5、训练完成后的深度强化学习智能体，能够根据电网实时状态，给出电网运行智能安排，实现基于深度强化学习的电网安全运行策略智能优化方法。

而且，所述步骤2.1中收集训练数据包括电网在对潮流进行合理性验证后提供的潮流断面历史数据，包括机组的历史有功出力、机组的历史电压、负荷节点的有功、负荷节点的电压以及下一时间步新能源机组的有功出力上界。

而且，所述步骤2.2中的奖励函数为：

R＝α₁r₁+α₂r₂+α₃r₃+α₄r₄+α₅r₅+α₆r₆

其中r_i表示归一化后的各奖励项，a_i表示各奖励项系数，

r₁为网损优化奖励，r₂为新能源机组消纳量，r₃为平衡机功率越限，r₄为机组运行费用，r₅为无功出力越限，r₆为节点电压越限；

考虑电网安全、低碳、经济运行，各项奖励值权重系数为：

α₁＝1，α₂＝2，α₃＝4，α₄＝1，α₅＝1，α₆＝1。

而且，所述步骤2.2中电网运行规则为：

(1)机组有功出力上下限约束：任意机组，除平衡机外的有功出力注入值不能大于有功出力上限，也不能小于有功出力下限，如果违反，仿真器提示“动作非法”，强制结束该回合；

(2)新能源机组最大出力约束：在任意时间步中，新能源机组的有功出力注入值不能大于最大出力值，如果违反，仿真器提示“动作非法”，强制结束该回合；

(3)机组爬坡约束：任意火电机组的有功出力调整值必须小于爬坡速率，如果违反，仿真器提示“动作非法”，强制结束该回合；

(4)机组启停约束：火电机组停运规则为机组停运前机组有功出力必须调整至出力下限，再调整至0，机组停机后设计指定时间步内不允许重新启动，火电机组启动规则为机组开启前有功出力必须调整至出力下限，机组重新启动后设计指定时间步内不允许停机；

(5)支路越限约束：若支路的电流值超过其热稳限值，表示支路电流越限；若支路电流越限但未超热稳限值上限，表示支路“软过载”；若支路电流超热稳限值上限，表示支路“硬过载”；任意支路指定时间步发生“软过载”，则该支路停运；发生“硬过载”则支路立即停运，支路停运指定时间步之后，重新投运；

(6)随机故障：每个时间步中，设计有联络线支路停运概率，停运指定时间步后，重新投运；

(7)机组无功出力上下限约束：当智能体调整机端电压时，机组的无功出力值超过其上下限则获得负奖励；

(8)电压上下限约束：节点电压超过其上下限则获得负奖励；

(9)平衡机上下限约束：系统设置一台平衡机，用于分担控制策略不合理导致的系统不平衡功率，潮流计算后，平衡机有功出力越界但在允许范围之内的，获得负奖励，平衡机有功出力越界且超过允许范围，则回合终止。

而且，所述步骤2.3具体为：

(1)利用专家系统收集的专家经验D＝{s₁,a₁,…,s_n,a_n}训练actor网络生成策略μ_θ(a_t|s_t)

(2)利用策略μ_θ(a_t|s_t)得到新状态s_n+1；

(3)利用专家系统基于新状态s_n+1输出动作a_n+1，生成新的专家经验D_μ＝{s₁,a₁,…,s_n,a_n,s_n+1,a_n+1}；

(4)专家经验数据聚合：D←D∪D_μ。

而且，所述步骤2.4具体为：

(1)电网环境初始化；

(2)定义Actor网络输入为电网状态s，输出为电网运行策略a，即

a＝μ_θ(s)

式中，θ为Actor网络参数，μ_θ为Actor网络策略轨迹；

Critic网络1、Critic网络2输入为(s,a)，输出为状态-动作评价值Q，即Q_w(s,a)，式中，Q_w为Critic网络评价方式，ω为网络参数；

Actor target网络输入为下一步电网状态s'，输出为下一步电网运行策略a'，Critic target网络1、Critic target网络2输入为(s',a')，输出为Q'；其中Actor网络负责与环境交互并给出运行策略；

(3)Actor网络将状态s作为输入，输出电网运行策略a，并返回环境；

(4)环境根据策略，返回奖励值r和回合结束标志done，并返回智能体下一步状态s'；

(5)将(s,a,r,done,s')五元组存入经验回放池；

(6)进行网络更新，具体更新方法如下：

在从经验池中采样时，采用优先经验回放PER方法，选取权重较大的经验元组(s,a,r,done,s')；

将(s,a)传入Critic网络1，Critic网络2，比较两个网络输出的Q值，用较小的Q传入Loss函数；将s'输入Actortarget网络，并将Actortarget网络输出的动作a'加高斯噪声，起到策略平滑作用，公式如下：

a′(s′)＝clip(μ_θ′(s′)+clip(ε,-c,c),a_Low,a_High),ε～N(0,σ)

式中，μ_θ′为Actor target网络策略轨迹，ε为服从正太分布噪声；

(s',a'+noise)输入Critic target网络1、Critic target网络2，比较两个网络输出的Q'值，用较小的Q'传入Loss函数；将(r,done)传入Loss函数，更新Actor网络、Actortarget网络、Critic网络1、Critic网络2、Critic target网络1、Critic target网络2；Critic网络输出Q值的优化目标Q_target公式如下：

y＝r+γ(1-done)min(Q_ω′(s′,μ_θ′(s′)+ε))

ε～clip(N(0,σ),-c,c)

式中，γ为衰减系数，y为Q_target；

其中Loss函数如下：

式中，N为从经验池中提取的样本数，Critic网络1、Critic网络2根据L利用时间差分法(td_error)更新网络参数ω；

计算策略梯度，公式如下：

式中，为策略梯度，采用梯度上升方式更新Actor网络参数θ。

而且，所述步骤2.5的电网状态s包括：机组有功、无功、电压，负荷节点有功、电压，线路始端有功，机组状态，线路状态，线路电流负载率，下一步负荷有功以及全网节点电压。

本发明的优点和有益效果为：

(1)本发明提供的专家系统，通过电力系统调度经验以及引入图卷积神经网络GCN进行建模，实时根据电网运行状态给出下一步的电网运行专家策略标准，为实际工程中面对复杂电网建模困难问题提供方向。

(2)本发明通过Dagger算法，通过动态学习专家经验的方法，不断减小强化学习智能体actor网络生成的策略轨迹与专家策略之间的误差，解决了智能体在有监督学习训练时无法完全学到专家策略的问题，同时可解决强化学习智能体在高维连续动作空间存在训练难以收敛情况，提高强化学习训练效率。

(3)本发明提供的电网安全运行策略智能优化算法，由于其基于专家系统训练Actor网络初始化参数以达到专家策略水准，并基于TD3算法训练后的深度强化学习模型，因此能够给出超越专家水准的电网安全运行策略。同时，该方法属于自学习机制，智能化程度较高，可实现提升计算效率、实时性强的目的。

附图说明

图1为本发明步骤2的方法流程图；

图2为本发明专家系统的流程图；

图3为本发明基于Dagger算法训练深度强化学习动作网络的流程图；

图4为本发明基于TD3算法的深度强化学习模型训练流程图。

具体实施方式

下面通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

一种基于深度强化学习的电网安全运行策略智能优化方法，其创新之处在于：包括如下步骤：

步骤1所述基于专家系统的电网安全运行策略优化模型包括以下步骤：

步骤1.5、判断回合是否结束，若结束，判定专家系统是否处理完所有历史数据，若是，结束专家经验收集，否则返回步骤1.1，若未结束返回步骤1.2。

所述步骤1.2具体包括以下步骤,具体为：如图2：

(2)通过如下公式确定机组有功出力调整值

ΔLoad＝Load_t+1-Load_t

ΔP_banlance＝P_banlance-P

ΔP＝ΔLoad+ΔP_banlance

(4)根据状态空间s观测线路状态和线路电流负载率，判定是否出现软过载或随机断线，若是，借鉴图卷积神经网络GCN，建立邻接矩阵，寻找待处理线路的上下游机组进行调整，并在接下来的操作中屏蔽已处理机组，防止二次操作，否则，进入下一步骤；

(5)判定是否满足网损优化条件，若不是，进入步骤(6)；若是，借鉴图卷积神经网络GCN，得到火电机组的度矩阵，获得各火电机组出度，公式如下：

ΔP_i＝ΔP_i ^min if D_i＜4

所述的步骤2包括如下步骤：

步骤2.1，收集训练数据；

步骤2.2，电网环境设计，包括奖励函数设计及电网运行规则设计；

步骤2.3，基于专家经验，利用有监督学习和Dagger算法，对深度强化学习智能体的动作网络进行训练，目的为使智能体在进入深度强化学习训练前达到专家策略水平；

步骤2.4，基于深度强化学习中的双延迟深度确定性策略梯度算法TD3，训练智能体；

步骤2.5，训练完成后的深度强化学习智能体，能够根据电网实时状态，给出电网运行智能安排，实现基于深度强化学习的电网安全运行策略智能优化方法。

所述步骤2.1的收集训练数据，指电网在对潮流收敛性、分布合理性、计算准确性、新能源源利用率进行合理性验证后提供的116820个断面历史数据，包括机组的历史有功出力，机组的历史电压，负荷节点的有功，负荷节点的电压，以及下一时间步新能源机组的有功出力上界。

所述步骤2.2的奖励函数设计，指为满足电网安全、低碳、经济运行的目的所涉及的奖励函数，根据基于奖励函数，对智能体返回的动作进行打分。具体步骤为：

(1)网损优化奖励

其中n_line表示电网支路个数，I_i和T_i表示支路i的电流和热极限，δ为一常数取值为0.1，避免出现分母为零的情况。

(2)新能源机组消纳量

其中n_new表示新能源机组个数，p_i表示新能源机组i的实际有功出力，p_i表示新能源机组i在当前时间步的最大出力。

(3)平衡机功率越限

其中n_balanced表示平衡机个数，p表示平衡机的实际有功出力，p^max表示平衡机的出力上限。

(4)机组运行费用

其中n表示机组总个数，p_i表示机组i的实际有功出力，a,b,c表示系数。新能源和平衡机没有关机状态，一直保持开机。火电机组的关机状态通过判断机组有功出力是否为零来确定。

(5)无功出力越限

其中n表示机组总个数，q_i表示机组的实际无功出力，表示机组的无功出力上限，/>表示机组的无功出力下限。

(6)节点电压越限

其中n_sub表示电网节点个数，v_i表示节点i的电压值，表示节点i的电压上限，表示节点i的电压下限。

对奖励项r₄、r₅、r₆进行归一化，公式如下：

r＝e^r-1

奖励项r₁、r₂的域值为[0,1]，奖励项r₃、r₄、r₅、r₆的域值为[-1,0]。

综上，本实例的奖励函数为：

R＝a₁r₁+a₂r₂+a₃r₃+a₄r₄+a₅r₅+a₆r₆

其中r_i表示归一化后的各奖励项，a_i表示各奖励项系数，考虑电网安全、低碳、经济运行，各项奖励值权重系数为：

a₁＝1,a₂＝2,a₃＝4,a₄＝1,a₅＝1,a₆＝1

所述步骤2.2的电网运行规则，为本实例遵循的电网运行规则，具体为：

(1)机组有功出力上下限约束：任意机组(除平衡机外)的有功出力注入值不能大于有功出力上限，也不能小于有功出力下限。如果违反，仿真器提示“动作非法”，强制结束该回合。

(2)新能源机组最大出力约束：在任意时间步中，新能源机组的有功出力注入值不能大于最大出力值。如果违反，仿真器提示“动作非法”，强制结束该回合。

(3)机组爬坡约束：任意火电机组的有功出力调整值必须小于爬坡速率。如果违反，仿真器提示“动作非法”，强制结束该回合。

(4)机组启停约束：火电机组停运规则为机组停运前机组有功出力必须调整至出力下限，再调整至0。机组停机后连续40个时间步内不允许重新启动。火电机组启动规则为机组开启前有功出力必须调整至出力下限。机组重新启动后连续40个时间步内不允许停机。

(5)支路越限约束：若支路的电流值超过其热稳限值，表示支路电流越限。若支路电流越限但未超热稳限值的135％，表示支路“软过载”。若支路电流超热稳限值的135％，表示支路“硬过载”。任意支路连续4个时间步发生“软过载”，则该支路停运。发生“硬过载”则支路立即停运。支路停运16个时间步之后，重新投运。

(6)随机故障：每个时间步中，会有1％联络线支路停运概率，停运16个时间步之后，重新投运。

(7)机组无功出力上下限约束：当智能体调整机端电压时，机组的无功出力值超过其上下限则获得负奖励。

(8)电压上下限约束：节点电压超过其上下限则获得负奖励。

(9)平衡机上下限约束：系统设置一台平衡机，用于分担控制策略不合理导致的系统不平衡功率。潮流计算后，平衡机有功出力大于上限但小于上限的110％，或者，小于下限但大于下限的90％，则获得负奖励。出力大于上限的110％或者小于下限的90％，则回合终止。

所述步骤2.3，具体为如图3：

(2)利用策略μ_θ(a_t|s_t)得到新状态s_n+1；

(3)利用专家系统基于新状态s_n+1输出动作a_n+1,生成新的专家经验D_μ＝{s₁,a₁,…,s_n,a_n,s_n+1,a_n+1}；

(4)专家经验数据聚合：D←D∪D_μ。

所述步骤2.4的双延迟深度确定性策略梯度算法(TD3)，是一种基于Actor-Critic架构的面向连续动作空间的深度强化学习算法。相较于传统深度强化学习算法，其优化部分包括：

(1)双评价网络，解决深度强化学习算法评价网络对动作网络行为过高评价问题；

(2)动作网络延迟更新，使动作网络训练更加稳定；

(3)在动作目标(actor target)网络加入噪声，增加算法稳定性。

所述步骤3.5具体为如图4，具体为：

(1)环境初始化

(2)定义Actor网络输入为电网状态s，输出为电网运行策略a，即

a＝μ_θ(s)

式中，θ为Actor网络参数，μ_θ为Actor网络策略轨迹。

Critic网络1、Critic网络2输入为(s,a)，输出为状态-动作评价值Q，即Q_w(s,a)，式中，Q_w为Critic网络评价方式，ω为网络参数。

Actor target网络输入为下一步电网状态s'，输出为下一步电网运行策略a'，Critic target网络1、Critic target网络2输入为(s',a')，输出为Q'。其中Actor网络负责与环境交互并给出运行策略。

本实例中电网状态s包括：机组有功、无功、电压，负荷节点有功、电压，线路始端有功，机组状态，线路状态，线路电流负载率，下一步负荷有功以及全网节点电压，状态空间共1170维。

(3)Actor网络将状态s作为输入，输出电网运行策略a，并返回环境。

(4)环境根据策略，返回奖励值r和回合结束标志done，并返回智能体下一步状态s'。

(5)将(s,a,r,done,s')五元组存入经验回放池。

(6)进行网络更新，具体更新方法如下：

在从经验池中采样时，采用优先经验回放(PER)方法，选取权重较大的经验元组(s,a,r,done,s')。

将(s,a)传入Critic网络1，Critic网络2，比较两个网络输出的Q值，用较小的Q传入Loss函数。将s'输入Actor target网络，并将Actor target网络输出的动作a'加高斯噪声，起到策略平滑作用，公式如下：

a′(s′)＝clip(μ_θ′(s′)+clip(ε,-c,c),a_Low,a_High),ε～N(0,σ)

式中，μ_θ′为Actor target网络策略轨迹，ε为服从正太分布噪声。

(s',a'+noise)输入Critic target网络1、Critic target网络2，比较两个网络输出的Q'值，用较小的Q'传入Loss函数。将(r,done)传入Loss函数，更新Actor网络、Actortarget网络、Critic网络1、Critic网络2、Critic target网络1、Critic target网络2。Critic网络输出Q值的优化目标Q_target公式如下：

y＝r+γ(1-done)min(Q_ω′(s′,μ_θ′(s′)+ε))

ε～clip(N(0,σ),-c,c)

式中，γ为衰减系数，本实例设置为0.997，y为Q_target。

其中Loss函数的设计如下：

式中，N为从经验池中提取的样本数。Critic网络1、Critic网络2根据L利用时间差分法(td_error)更新网络参数ω。

计算策略梯度，公式如下。

式中，为策略梯度，采用梯度上升方式更新Actor网络参数θ。

注意，Actor网络采用延迟更新策略，即Critic网络更新N次，Actor网络更新一次，本实例N为5。

本实例中，为加快模型训练收敛速度，Critic target网络1、Critic target网络2与Critic网络1、Critic网络2采用参数共享的方式。

所述步骤3.5，基于专家系统训练Actor网络初始化参数以达到专家策略水准，并基于TD3算法训练后的深度强化学习模型，能够根据电网实时状态，快速给出电网安全运行策略。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于深度强化学习的电网安全运行策略智能优化方法，其特征在于：包括如下步骤：

步骤2、根据步骤1，构建基于专家系统与深度强化学习的电网安全运行策略智能优化方法，将专家系统和深度强化学习相结合，实现超越专家水平的电网运行调整策略；

步骤1.6、判定专家系统是否处理完所有历史数据，若处理完，则结束专家经验收集，否则返回步骤1.1；

所述步骤2包括以下步骤：

步骤2.1、收集训练数据；

2.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法，其特征在于：所述步骤1.2具体包括以下步骤：

(2)通过如下公式确定机组有功出力调整值

ΔLoad＝Load_t+1-Load_t

ΔP_banlance＝P_banlance-P

ΔP＝ΔLoad+ΔP_banlance

ΔP_i＝ΔP_i ^min if D_i＜4

3.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法，其特征在于：所述步骤2.1中收集训练数据包括电网在对潮流进行合理性验证后提供的潮流断面历史数据，包括机组的历史有功出力、机组的历史电压、负荷节点的有功、负荷节点的电压以及下一时间步新能源机组的有功出力上界。

4.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法，其特征在于：所述步骤2.2中的奖励函数为：

R＝a₁r₁+a₂r₂+a₃r₃+a₄r₄+a₅r₅+a₆r₆

其中r_i表示归一化后的各奖励项，a_i表示各奖励项系数，

考虑电网安全、低碳、经济运行，各项奖励值权重系数为：

a₁＝1,a₂＝2,a₃＝4,a₄＝1,a₅＝1,a₆＝1。

5.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法，其特征在于：所述步骤2.2中电网运行规则为：

(8)电压上下限约束：节点电压超过其上下限则获得负奖励；

6.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法，其特征在于：所述步骤2.3具体为：

(2)利用策略μ_θ(a_t|s_t)得到新状态s_n+1；

(4)专家经验数据聚合：D←D∪D_μ。

7.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法，其特征在于：所述步骤2.4具体为：

(1)电网环境初始化；

(2)定义Actor网络输入为电网状态s，输出为电网运行策略a，即

a＝μ_θ(s)

式中，θ为Actor网络参数，μ_θ为Actor网络策略轨迹；

Actor target网络输入为下一步电网状态s'，输出为下一步电网运行策略a'，Critictarget网络1、Critic target网络2输入为(s',a')，输出为Q'；其中Actor网络负责与环境交互并给出运行策略；

(5)将(s,a,r,done,s')五元组存入经验回放池；

(6)进行网络更新，具体更新方法如下：

将(s,a)传入Critic网络1，Critic网络2，比较两个网络输出的Q值，用较小的Q传入Loss函数；将s'输入Actor target网络，并将Actor target网络输出的动作a'加高斯噪声，起到策略平滑作用，公式如下：

a′(s′)＝clip(μ_θ′(s′)+clip(ε,-c,c),a_Low,a_High),ε～N(0,σ)

(s',a'+noise)输入Critic target网络1、Critic target网络2，比较两个网络输出的Q'值，用较小的Q'传入Loss函数；将(r,done)传入Loss函数，更新Actor网络、Actor target网络、Critic网络1、Critic网络2、Critic target网络1、Critic target网络2；Critic网络输出Q值的优化目标Q_target公式如下：

y＝r+γ(1-done)min(Q_ω′(s′,μ_θ′(s′)+ε))

ε～clip(N(0,σ),-c,c)

式中，γ为衰减系数，y为Q_target；

其中Loss函数如下：

式中，N为从经验池中提取的样本数，Critic网络1、Critic网络2根据L利用时间差分法更新网络参数ω；

计算策略梯度，公式如下：

式中，为策略梯度，采用梯度上升方式更新Actor网络参数θ。

8.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法，其特征在于：所述步骤2.5的电网状态s包括：机组有功、无功、电压，负荷节点有功、电压，线路始端有功，机组状态，线路状态，线路电流负载率，下一步负荷有功以及全网节点电压。