CN115714382A

CN115714382A - 一种基于安全强化学习的主动配电网实时调度方法及装置

Info

Publication number: CN115714382A
Application number: CN202211470739.XA
Authority: CN
Inventors: 杨旭; 吴文传; 王彬; 蔺晨晖; 孙峰洲; 林毅; 薛静玮
Original assignee: Tsinghua University; State Grid Fujian Electric Power Co Ltd; Economic and Technological Research Institute of State Grid Fujian Electric Power Co Ltd
Current assignee: Tsinghua University; State Grid Fujian Electric Power Co Ltd; Economic and Technological Research Institute of State Grid Fujian Electric Power Co Ltd
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-02-24

Abstract

本发明提出一种基于安全强化学习的主动配电网实时调度方法及装置，属于电力系统运行控制技术领域。其中，所述方法包括：建立含分布式发电资源的主动配电网实时调度模型；将所述实时调度模型转化为带约束的马尔科夫决策过程模型；利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练，得到所述主动配电网实时调度的策略神经网络；利用所述策略神经网络输出所述主动配电网实时调度的最优策略，以实现所述主动配电网的实时调度。本发明可以在缺少主动配电网模型的情况下最大化主动配电网运行的经济性，同时满足主动配电网的安全约束，提升主动配电网运行的安全性，有较高的应用价值。

Description

一种基于安全强化学习的主动配电网实时调度方法及装置

技术领域

本发明属于电力系统运行控制技术领域，特别涉及一种基于安全强化学习的主动配电网实时调度方法及装置。

背景技术

在我国大力发展绿色低碳经济的背景下，大规模的分布式发电资源接入到配电网中，如分布式光伏、微型燃气轮机和分布式储能等。这些分布式发电资源具有清洁环保、维护简单和方便灵活等诸多优点，提高了电力系统清洁能源的比重，也促进了配电网向主动配电网的转型。但大规模的分布式发电资源并网改变了传统配电网单向供电的特点，使得配电网的潮流分布难以控制，容易造成电压不稳定；同时，分布式新能源的出力受到天气和环境的严重影响，存在着巨大的波动性与不确定性，对配电网的控制与调度提出了新的挑战。

为了充分消纳这些分布式发电资源，并降低对电力系统的负面影响，主动配电网需要一套全新的实时调度策略。在保证系统安全运行的前提下，调度配网内部的多类发电资源，提升主动配电网运行的经济性与可靠性。

主动配电网由于规模巨大、模型维护成本高、海量设备异动频繁等原因，其精确的模型参数往往难以获得。同时，主动配电网实时调度问题是一个高维的混合整数二次规划问题。模型缺失以及该问题的复杂性严重限制了基于模型的传统方法的性能，导致实际控制过程中偏离最优运行状态。

强化学习作为机器学习的方法之一，通过智能体与环境的交互来学习策略并达成回报最大化的目标，可以很好地解决模型未知的问题。近年来随着大量算法的提出以及计算能力的增强，强化学习在电力系统多个领域得到了广泛的研究与应用。

但另一方面，安全运行对电力系统而言至关重要。传统强化学习算法的本质是对智能体动作空间进行试探，并找出能够最大化奖励的动作策略，将传统强化学习算法运用到实际电力系统中极易产生违反安全约束的情况。因此，针对主动配电网的实时调度问题，需要提出一种安全的强化学习算法，既能提高其运行经济性，又能够满足其安全约束。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种基于安全强化学习的主动配电网实时调度方法及装置。本发明可以在缺少主动配电网模型的情况下最大化主动配电网运行的经济性，同时满足主动配电网的安全约束，提升主动配电网运行的安全性，有较高的应用价值。

本发明第一方面实施例提出一种基于安全强化学习的主动配电网实时调度方法，包括：

建立含分布式发电资源的主动配电网实时调度模型；

将所述实时调度模型转化为带约束的马尔科夫决策过程模型；

利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练，得到所述主动配电网实时调度的策略神经网络；

利用所述策略神经网络输出所述主动配电网实时调度的最优策略，以实现所述主动配电网的实时调度。

在本发明的一个具体实施例中，所述含分布式发电资源的主动配电网实时调度模型由目标函数和约束条件构成；

所述目标函数为主动配电网调度成本最小化；

所述约束条件包括：主动配电网的潮流约束、分布式发电资源约束和电压约束。

在本发明的一个具体实施例中，所述分布式发电资源包括：微型燃气轮机、分布式光伏和分布式储能。

在本发明的一个具体实施例中，所述目标函数表达式如下：

其中，T为调度周期的总时段数；C^k,mt(t)为t时段第k台微型燃气轮机的运行成本，C^k,es(t)为t时段第k台分布式储能的运行成本；C₀(t)为t时段主动配电网和上级电网交互的成本；K^mt为微型燃气轮机的数量，K^es为分布式储能的数量；

其中，

C^k,mt(t)＝ρ^k,mtP_t ^k,mt (2)

其中，P_t ^k,mt为t时段第k台微型燃气轮机的有功出力，

为t时段第k台微型燃气轮机的无功出力；ρ^k,mt为第k台微型燃气轮机的成本系数；

其中，P_t ^k,es为t时段第k台分布式储能的有功出力，

为第k台分布式储能的充电成本系数，

为第k台分布式储能的放电成本系数；

其中，P_t ⁰为t时段主动配电网与上级电网连接的关口节点处的有功功率，ρ_buy为从上级电网购电的价格，ρ_sell为向上级电网售电的价格；

所述主动配电网的潮流约束为：

其中，令主动配电网为一个无向图G，该无向图中包含N个节点，每个节点分别对应主动配电网中一条母线；节点0为参考节点，即主动配电网与上级电网连接的关口节点；P_i和Q_i分别为节点i的有功注入和无功注入，V_i为节点i的电压幅值；G_ij为主动配电网节点导纳矩阵中第i行第j列的元素Y_ij的实部，B_ij为主动配电网节点导纳矩阵中元素Y_ij的虚部；θ_ij为节点i和节点j之间的电压相角差；

所述分布式发电资源约束，包括：微型燃气轮机约束、分布式光伏约束和分布式储能约束；其中，

微型燃气轮机约束：

其中，

为t时段第k台微型燃气轮机的无功出力；

和

分别为第k台微型燃气轮机的有功出力上限和下限；

和

分别为第k台微型燃气轮机的无功出力上限和下限；

和

分别为第k台微型燃气轮机最大向上爬坡功率和最大向下爬坡功率；

分布式光伏约束：

其中，

为t时段第k台分布式光伏的有功出力，

为t时段第k台分布式光伏的无功出力，S^k,PV为第k台光伏发电设备的装机容量，K^PV为分布式光伏的数量；

分布式储能约束：

其中，

为t时段第k台分布式储能的无功出力，

和

分别为第k台分布式储能的有功出力上限和下限；

和

分别为第k台分布式储能设备的无功出力上限和下限；

为第k台分布式储能在t时段的荷电状态；

和

分别为第k台分布式储能的电量上限和下限；Δt为每次充电或放电持续的时间；η为充放电的效率；

所述电压约束为：

其中，V_min和V_max分别为节点电压幅值的下限和上限。

在本发明的一个具体实施例中，所述将所述实时调度模型转化为带约束的马尔科夫决策过程模型，包括：

1)构建主动配电网实时调度状态变量：

其中，s_t为t时段主动配电网实时调度的状态变量；

和

分别为t-1时段主动配电网内部所有节点的有功负荷和无功负荷；

和

分别为t-1时段主动配电网内部所有微型燃气轮机的有功出力和无功出力；

和

分别为t-1时段主动配电网内部所有分布式光伏的有功出力和无功出力；

和

分别为t-1时段主动配电网内部所有分布式储能的有功出力和无功出力；V_t-1为t-1时段主动配电网内部所有节点的电压幅值；

2)构建主动配电网实时调度动作变量：

其中，a_t为t时段主动配电网实时调度的动作变量，包括：t时段主动配电网内所有微型燃气轮机的有功出力P_t ^mt和无功出力

t时段主动配电网内所有分布式光伏的无功出力

t时段主动配电网内所有分布式储能的有功出力P_t ^es和无功出力

3)构建奖励函数；

其中，t时段的奖励r_t表达式如下：

4)构建罚项函数；

其中，t时段的罚项d_t表达式如下：

其中，[·]₊为线性整流函数，即[x]₊＝max[x,0]；

若t时段的电压约束式(15)被满足，则：

d_t≤0 (20)

5)构建带约束的马尔科夫决策过程模型；

所述马尔科夫决策过程模型由(S,A,p,R,D,γ,γ_c)表示，式(20)为所述马尔科夫过程模型的约束；其中S为状态变量s_t的集合，A为动作变量a_t的集合，p为状态转移函数，R为奖励r_t的集合，D为罚项d_t的集合，γ∈[0,1]为奖励的折扣率，γ_c∈[0,1]为罚项的折扣率。

在本发明的一个具体实施例中，所述利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练，得到所述含分布式发电资源的主动配电网实时调度的策略神经网络，包括：

1)初始化时段t＝0，确定调度周期总时段数T；

2)构建强化学习智能体的策略神经网络π_θ，随机初始化π_θ的参数θ；π_θ的输入为状态变量，输出为动作变量的概率分布，即π_θ:S×A→[0,∞)，a_t～π_θ(·|s_t)；

3)构建强化学习智能体的奖励值函数神经网络

随机初始化

的参数

的输入为状态变量和动作变量，输出为估计的累计折扣奖励的期望；

其中，

表示初始状态为s、初始动作为a后智能体所获得的累计折扣奖励的期望，表达式如下：

其中，τ～π是智能体采取策略π后产生的轨迹，-logπ_θ(·|s_t)为策略的熵项，α为熵的权重；

4)构建强化学习智能体的罚项值函数神经网络

随机初始化

的参数φ；

的输入为状态变量和动作变量，输出为估计的累计折扣罚项的期望；

其中，

表示初始状态为s、初始动作为a后智能体所获得的累计折扣罚项的期望，表达式如下：

5)构建强化学习智能体的目标奖励值函数神经网络

和目标罚项值函数神经网络

的参数为

的参数为φ'；其中，

的结构与

完全相同，并利用

的参数的初始值进行初始化；

的结构与

完全相同，并利用

的参数的初始值进行初始化；

6)构建强化学习智能体的优化问题；

该优化问题的目标函数为：

约束条件为：

其中，d_max为累计折扣罚项的上限；

7)构建强化学习智能体的拉格朗日乘子网络λ，λ的输入为状态变量，输出为该状态变量对应的拉格朗日乘子；

基于该拉格朗日乘子网络，利用拉格朗日松弛法，对约束式(24)进行松弛，将式(23)转化为：

8)构建强化学习智能体的经验池D，将各时段的(s_t,a_t,r_t,d_t,s_t+1)作为样本存入经验池；

9)从经验池D中随机抽取一组样本B，样本数量为|B|，计算奖励值函数神经网络

的损失函数：

其中，y_t为近似

时的目标值，计算表达式为：

计算出

后，通过梯度下降的方式更新

的参数；

10)从经验池D中抽取随机一组样本B，样本数量为|B|，计算罚项值函数神经网络

的损失函数：

其中，

为近似

时的目标值，计算表达式为：

计算出

后，通过梯度下降的方式更新

的参数；

11)从经验池D中随机抽取一组样本B，样本数量为|B|，计算策略神经网络π_θ的损失函数：

计算出L_π(θ)后，通过梯度下降的方式更新π_θ的网络参数；

12)从经验池D中随机抽取一组样本B，样本数量为|B|，计算拉格朗日乘子网络λ的损失函数：

计算出L_λ后，通过梯度下降的方式更新λ的参数；

13)利用更新后

和

的参数分别更新

和

的网络参数：

φ'＝σφ+(1-σ)φ' (33)

其中，σ为目标神经网络的更新率；

14)训练时，按照设定的比例线性降低各神经网络的学习率直至损失函数L_π(θ)小于设定的收敛阈值ε，训练结束，得到最终的奖励值函数神经网络

罚项值函数神经网络

拉格朗日乘子网络λ和策略神经网络π_θ。

在本发明的一个具体实施例中，所述利用所述策略神经网络输出所述含分布式发电资源的主动配电网实时调度的最优策略，以实现所述主动配电网的实时调度，包括：

利用实时量测信息构建t时段的状态变量s_t，将s_t输入训练完毕的策略神经网络π_θ，得到所述主动配电网t时段的动作变量a_t，将a_t下发给所述主动配电网中的对应设备执行即实现所述主动配电网的实时调度。

本发明第二方面实施例提出一种基于安全强化学习的主动配电网实时调度装置，包括：

实时调度模型构建模块，用于建立含分布式发电资源的主动配电网实时调度模型；

马尔科夫决策过程模型构建模块，用于将所述实时调度模型转化为带约束的马尔科夫决策过程模型；

策略神经网络训练模块，用于利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练，得到所述主动配电网实时调度的策略神经网络；

实时调度模块，用于利用所述策略神经网络输出所述主动配电网实时调度的最优策略，以实现所述主动配电网的实时调度。

本发明第三方面实施例提出一种电子设备，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述一种基于安全强化学习的主动配电网实时调度方法。

本发明第四方面实施例提出一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述一种基于安全强化学习的主动配电网实时调度方法。

本发明的特点及有益效果在于：

1)本发明运用了无模型的深度强化学习算法，只需要相应量测的历史数据，就可以构建马尔科夫决策过程，通过强化学习智能体自适应地进行优化。

2)本发明考虑了主动配电网中的多类分布式资源，包括微型燃气轮机、分布式光伏、分布式储能，可以实现多类资源的最优调度。同时，奖励函数中包括了发电成本、储能成本、与上级电网交互的购电成本和售电成本，可以涵盖大部分主动配电网的运行场景。

3)本发明将马尔科夫决策过程拓展至带约束的马尔科夫决策过程，对现有的强化学习算法进行改进，使得训练得到的最优策略在最小化主动配电网运行成本的同时，满足主动配电网的电压约束。保证了强化学习算法的安全性，可以更好地应用于实际调度场景中，实现更优、更安全的控制效果。

附图说明

图1为本发明实施例中一种基于安全强化学习的主动配电网实时调度方法的整体流程图。

具体实施方式

本发明实施例提出的一种基于安全强化学习的主动配电网实时调度方法及装置，下面结合附图和具体实施例进一步详细说明如下。

建立含分布式发电资源的主动配电网实时调度模型；

在本发明的一个具体实施例中，所述分布式发电资源包括：微型燃气轮机、分布式光伏和分布式储能，其数量分别为K^mt、K^PV和K^es。

在本发明的一个具体实施例中，所述一种基于安全强化学习的主动配电网实时调度方法，整体流程如图1所示，包括以下步骤：

1)根据主动配电网潮流方程与分布式发电资源特性，建立含分布式发电资源的主动配电网实时调度模型；具体步骤如下：

1-1)构建主动配电网潮流方程；具体步骤如下：

1-1-1)建立主动配电网仿真模型，利用配电网调度中心的拓扑信息构建主动配电网拓扑结构：

本实施例中，令主动配电网为一个无向图G，该无向图中包含N个节点，每个节点分别对应主动配电网中一条母线，其中节点0为参考节点，即与上级电网连接的关口节点。

1-1-2)在极坐标系下构建主动配电网的潮流方程：

其中，P_i和Q_i分别为无向图中节点i的有功注入和无功注入，V_i为节点i的电压幅值；G_ij为主动配电网节点导纳矩阵中第i行第j列的元素Y_ij的实部，B_ij为主动配电网节点导纳矩阵中元素Y_ij的虚部；θ_ij为节点i和节点j之间的电压相角差。

1-2)构建含分布式发电资源的主动配电网实时调度模型，该模型的优化变量包括微型燃气轮机的有功出力和无功出力、分布式光伏的无功出力以及分布式储能的有功出力和无功出力；该模型由目标函数和约束条件的构成；具体步骤如下：

1-2-1)建立含分布式发电资源的主动配电网实时调度目标函数：

其中，T为调度周期的总时段数；C^k,mt(t)为t时段第k台微型燃气轮机的运行成本，C^k,es(t)为t时段第k台分布式储能的运行成本；C₀(t)为t时段主动配电网和上级电网交互的成本。

定义t时段第k台微型燃气轮机的有功出力为P_t ^k,mt，t时段第k台微型燃气轮机的无功出力为

微型燃气轮机的运行成本与发电功率成正比，定义第k台微型燃气轮机的成本系数为ρ^k,mt，则C^k,mt(t)可表示为：

C^k,mt(t)＝ρ^k,mtP_t ^k,mt (4)

定义t时段第k台分布式储能的有功出力为P_t ^k,es，t时段第k台分布式储能的无功出力为

分布式储能考虑其度电成本，定义第k台分布式储能的充电成本系数为

放电成本系数为

则C^k,es(t)可表示为：

定义t时段主动配电网与上级电网连接的关口节点处的有功功率为P_t ⁰，从上级电网购电的价格为ρ_buy，向上级电网售电的价格为ρ_sell，则C₀(t)可表示为：

1-2-2)建立含分布式发电资源的主动配电网实时调度约束条件，包括：

1-2-2-1)主动配电网的潮流约束，如式(1)-(2)所示；

1-2-2-2)分布式发电资源约束，包括：微型燃气轮机约束、分布式光伏约束和分布式储能约束；

微型燃气轮机约束：

其中，式(7)-(8)为微型燃气轮机出力约束，式(9)为微型燃气轮机爬坡约束。

和

分别为第k台微型燃气轮机的有功出力上限和下限；

和

分别为第k台微型燃气轮机的无功出力上限和下限；

和

分别为第k台微型燃气轮机最大向上爬坡功率和最大向下爬坡功率。

分布式光伏约束：

其中，式(10)为分布式光伏的容量约束，

为t时段第k台分布式光伏的有功出力，

为t时段第k台分布式光伏的无功出力，S^k,PV为第k台光伏发电设备的装机容量。

分布式储能约束：

其中，式(11)-(12)为分布式储能出力约束，式(13)为分布式储能荷电状态约束，式(14)为描述储能充放电过程的等式约束。

和

分别为第k台分布式储能的有功出力上限和下限；

和

分别为第k台分布式储能设备的无功出力上限和下限；

为第k台分布式储能在t时段的荷电状态；

和

分别为第k台分布式储能的电量上限和下限；Δt为每次充电或放电持续的时间；η为充放电的效率。

1-2-2-3)电压约束；

为保证主动配电网的安全运行，还需要加上电压约束，即t时段任意一点的节点电压幅值都在安全范围内：

其中，V_min和V_max分别为节点电压幅值的下限和上限。

2)将含分布式发电资源的主动配电网实时调度模型转化为带约束的马尔科夫决策过程模型；具体步骤如下：

2-1)构建主动配电网实时调度状态变量：

其中，s_t为t时段主动配电网实时调度的状态变量；

和

和

和

和

分别为t-1时段主动配电网内部所有分布式储能的有功出力和无功出力；V_t-1为t-1时段主动配电网内部所有节点的电压幅值。

2-2)构建主动配电网实时调度动作变量：

t时段主动配电网内所有分布式光伏的无功出力

2-3)构建奖励函数；

本发明一个具体实施例中，为最大化实时调度的目标函数，需要基于含分布式发电资源的主动配电网实时调度模型，构建t时段的奖励r_t：

2-4)构建罚项函数；

本发明一个具体实施例中，潮流约束由配电网实际物理模型自动满足；分布式发电资源约束通过强化学习智能体动作空间的设置满足；而为了保证主动配电网的安全运行，处理实时调度的电压约束，需要基于含分布式发电资源的主动配电网实时调度模型，构建t时段的罚项d_t：

其中，[·]₊为线性整流函数，即[x]₊＝max[x,0]。因此，如果t时段的电压约束式(15)被满足，应有：

d_t≤0 (20)

2-5)构建带约束的马尔科夫决策过程模型；

所述马尔科夫决策过程模型可通过(S,A,p,R,D,γ,γ_c)进行表示。其中S为状态变量s_t的集合，A为动作变量a_t的集合，p为状态转移函数，R为奖励r_t的集合，D为罚项d_t的集合，γ∈[0,1]为奖励的折扣率，γ_c∈[0,1]为罚项的折扣率。折扣率接近1表示智能体更关心长期奖励和罚项，接近0表示智能体更关心短期奖励和罚项。本实施例中，取γ＝0.99，γ_c＝0.99。同时，将式(20)构建为该马尔科夫过程模型的约束，根据所述带约束的马尔科夫决策过程模型建立强化学习环境。

3)利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练，得到训练完毕的含分布式发电资源的主动配电网实时调度的策略神经网络。具体步骤如下：

3-1)初始化时段t＝0，确定调度周期总时段数T。本实施例中，主动配电网调度的时间间隔为15分钟，调度周期为1天，即T＝96。

3-2)构建强化学习智能体的策略神经网络π_θ，随机初始化其参数θ。该网络输入为状态变量，输出为动作变量的概率分布，即π_θ:S×A→[0,∞)，a_t～π_θ(·|s_t)，从而进行智能体动作的选择。该网络的结构包含输入层、隐藏层和输出层，输入层的神经元数目为状态变量的维数，输出层的神经元数目为动作变量的维数；本实施例中，隐藏层共2层，每层包含256个神经元。

3-3)构建强化学习智能体的奖励值函数神经网络

随机初始化其参数

该网络的输入为状态变量和动作变量，输出为估计的累计折扣奖励的期望，

表示初始状态为s、初始动作为a后智能体所获得的累计折扣奖励的期望，其定义如式(21)所示。该网络的结构包含输入层、隐藏层和输出层，输入层的神经元数目为状态变量和动作变量的维数之和，输出层的维数为1；本实施例中，隐藏层共2层，每层包含256个神经元。

式(21)中，τ～π是智能体采取策略π后产生的轨迹。值得注意的是，该式中还加入了策略的熵项-logπ_θ(·|s_t)，避免策略过早收敛到局部最优解，以此来鼓励智能体对环境的探索，α为熵的权重。

3-4)构建强化学习智能体的罚项值函数神经网络

随机初始化其参数φ。该网络的输入为状态变量和动作变量，输出为估计的累计折扣罚项的期望，

表示初始状态为s、初始动作为a后智能体所获得的累计折扣罚项的期望，其定义如式(22)所示。该网络的结构包含输入层、隐藏层和输出层，输入层的神经元数目为状态变量和动作变量的维数之和，输出层的维数为1；本实施例中，隐藏层共2层，每层包含256个神经元。

3-5)为保证强化学习训练过程的稳定性，构建强化学习智能体的目标奖励值函数神经网络

(参数为

)和目标罚项值函数神经网络

(参数为φ')。其中，

的结构与

完全相同，并利用

的参数的初始值进行初始化；

的结构与

完全相同，并利用

的参数的初始值进行初始化。在训练过程中，

和

的参数分别根据

和

的参数缓慢更新。

3-6)构建强化学习智能体的优化问题，目标函数为：

约束条件为：

其中，d_max为累计折扣罚项所能接受的上限，在本实施例的主动配电网实时调度问题中设为0。

3-7)构建强化学习智能体的拉格朗日乘子网络λ，该网络的输入为状态变量，输出为该状态变量对应的拉格朗日乘子。该网络的结构包含输入层、隐藏层和输出层，输入层的神经元数目为状态变量的维数，输出层的维数为1；本实施例中，隐藏层共2层，每层包含256个神经元。结合该拉格朗日乘子网络，利用拉格朗日松弛法，对约束式(24)进行松弛，将式(23)转化为：

3-8)构建强化学习智能体的经验池D，该经验池用于储存智能体与环境交互的经验信息。将各时段的(s_t,a_t,r_t,d_t,s_t+1)作为样本存入经验池，神经网络更新参数时从D中随机抽取样本进行训练，本实施例中经验池D的大小为2×10⁴。

3-9)从经验池D中随机抽取一组样本B，样本数量为|B|，本实施例中|B|＝256，计算奖励值函数神经网络

的损失函数：

其中，y_t利用r_t和

计算得出，为近似

时的目标值，其计算方法为：

计算出

后，通过梯度下降的方式更新

的网络参数。

3-10)从经验池D中抽取随机一组样本B，样本数量为|B|，本实施例中|B|＝256，计算罚项值函数神经网络

的损失函数：

其中，

利用d_t和

计算得出，为近似

时的目标值，其计算方法为：

计算出

后，通过梯度下降的方式更新

的网络参数。

3-11)从经验池D中随机抽取一组样本B，样本数量为|B|，本实施例中|B|＝256，计算策略神经网络π_θ的损失函数：

计算出L_π(θ)后，通过梯度下降的方式更新π_θ的网络参数。

3-12)从经验池D中随机抽取一组样本B，样本数量为|B|，本实施例中|B|＝256，计算拉格朗日乘子网络λ的损失函数：

计算出L_λ后，通过梯度下降的方式更新λ的网络参数。

3-13)利用更新后

和

的网络参数分别更新

和

的网络参数：

φ'＝σφ+(1-σ)φ' (33)

其中，σ为两个目标神经网络的更新率，本实施例中取0.005。

3-14)随着训练的进行，按照设定的比例线性降低各神经网络的学习率(本实施例中，π_θ的学习率由2×10^-4线性降低至10^-6，

和

的学习率由10^-3线性降低至10^-6)直至策略稳定，即损失函数L_π(θ)小于设定的收敛阈值ε，本实施例中收敛阈值取10^-3。训练结束，得到最终的奖励值函数神经网络

罚项值函数神经网络

拉格朗日乘子网络λ和策略神经网络π_θ。由于运用了拉格朗日松弛法，π_θ可以保证在满足约束的条件下最大化获得的奖励，实现主动配电网的实时调度。

4)利用步骤3)训练完毕的策略神经网络输出含分布式发电资源的主动配电网实时调度的最优策略，以实现主动配电网的实时调度。

本实施例中，将经过步骤3)训练完毕的π_θ转移至在线使用，实时调度时，利用量测信息构建t时段的状态变量s_t，将s_t输入训练完毕的π_θ，可以得到主动配电网t时段的动作变量a_t，而后将a_t下发给各可控设备，即可实现主动配电网的实时调度。

为实现上述实施例，本公开第二方面实施例提出一种基于安全强化学习的主动配电网实时调度装置，包括：

需要说明的是，前述对一种基于安全强化学习的主动配电网实时调度方法的实施例解释说明也适用于本实施例的一种基于安全强化学习的主动配电网实时调度装置，在此不再赘述。根据本公开实施例提出的一种基于安全强化学习的主动配电网实时调度装置，通过建立含分布式发电资源的主动配电网实时调度模型；将所述实时调度模型转化为带约束的马尔科夫决策过程模型；利用强化学习算法对所述带约束的马尔科夫决策过程模型进行训练，得到所述主动配电网实时调度的策略神经网络；利用所述策略神经网络输出所述主动配电网实时调度的最优策略，以实现所述主动配电网的实时调度。由此可实现在缺少主动配电网模型的情况下最大化主动配电网运行的经济性，同时满足主动配电网的安全约束，提升主动配电网运行的安全性，有较高的应用价值。

为实现上述实施例，本公开第三方面实施例提出一种电子设备，包括：

为实现上述实施例，本公开第四方面实施例提出一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述一种基于安全强化学习的主动配电网实时调度方法。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例的一种基于安全强化学习的主动配电网实时调度方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。