CN112084680B

CN112084680B - 一种基于dqn算法的能源互联网优化策略方法

Info

Publication number: CN112084680B
Application number: CN202011181281.7A
Authority: CN
Inventors: 尤福财; 赵琰; 董香栾; 姜河; 胡博; 王顺江; 罗金鸣; 马艳娟; 王浩; 旋璇; 庄严; 魏莫杋; 辛长庆
Original assignee: Shenyang Institute of Engineering
Current assignee: Shenyang Institute of Engineering
Priority date: 2020-09-02
Filing date: 2020-10-29
Publication date: 2023-12-26
Anticipated expiration: 2040-10-29
Also published as: CN112084680A

Abstract

一种能源互联网优化策略方法，所述能源互联网包括电网单元、气网单元和分布式冷热电系统嵌入式能量互联网单元，所述方法包括：在保证系统运营成本最小的前提下，通过协调优化能源互联网，可以进一步挖掘可再生能源利用率，进行网络优化配置，使其具有快速动态优化的目的以及自学习能力，基于最优输出动作，可以制定能源互联网优化策略，尽可能的减少网络的冗余度，减小系统运营成本。在设定的控制策略下，约束条件包括负载供需平衡约束、发电、输出功率平衡约束、储能元件充放电限制约束和与外电网交互耗能平衡约束，采用DQN算法，该方法使用马尔科夫决策来确定最佳序列，并结合卷积神经网络逐步获得回报值最小的目标集。

Description

一种基于DQN算法的能源互联网优化策略方法

技术领域

本发明涉及一种基于能源互联网的优化策略方法，尤其是涉及一种基于DQN算法的能源互联网优化策略方法。

背景技术

目前，能源系统因发电困难，其预测准确度在很大程度上取决于外部环境条件。另一方面，能源互联网视为解决传统电力系统面临挑战的有效手段，但是当能源互联网中广泛的使用了分布式能源系统，则很难实现能源互联网中能量供需平衡的可靠性管理。

值得注意的是，电力系统中的大多数优化问题都是基于各种电气设备的明确数学模型来解决的。例如，常微分方程用于表示光伏发电、风力发电的动态功率，而随机微分方程用于表示能源互联网中负载的动态功率。尽管随机微分方程可以反映能源互联网系统的随机特性，但很难获得其准确的数学模型。为了表示长时间能源互联网的能量优化问题，需建立带有复杂微分方程的数学模型，在某种程度上对其优化是非常受限制的。

发明内容

本发明的目的是提出一种基于DQN算法的能源互联网优化策略方法，是在保证系统运营成本最小的前提下，通过协调优化能源互联网，可以进一步挖掘可再生能源利用率，进行网络优化配置，使其具有快速动态优化的目的以及自学习能力，基于最优输出动作，可以制定能源互联网优化策略，尽可能的减少网络的冗余度，减小系统运营成本。

为了解决现有技术存在的问题，本发明采用的技术方案如下：

一种基于DQN算法的能源互联网优化策略方法，包括如下步骤：

步骤1：以考虑惩罚函数的能源互联网运营成本最低为目标，建立目标函数；

步骤2：将能源互联网模型构建为MDP(马尔可夫决策过程)，设置迭代次数i，离散时间间隙t。输入t时刻的状态变量，s_t{WT(t)，PV(t)，DG(t),CHP(t),LOAD(t),BES(t),π(t),σ(t),μ(t)}；

步骤3：actor网络输出动作变量a_t；

步骤4：计算回报值r(a_t|s_t)到达下一状态S_t+1；

步骤5：得到序列轨迹{S₁,a₁,r₁,S′₁,S₂,a₂,r₂,S′₂…S_t,a_t,r_t,S′_t}；

步骤6：形成经验池experience pool。并将这些轨迹存储到经验池中，随机抽出数据进行下次迭代；

步骤7：观察是否迭代完所有变量，即t＝T？

步骤8：将S_t状态变量输入到critic网络中，得到输出期望V(s)；

步骤9：构造函数A＝[R(t)-V(S)]²；

步骤10：利用神经网络反向传播更新网络参数；

步骤11：将S′_t状态变量输入到参数为θ的actor神经网络中，利用ε-greedy求出网络采取a_t的动作概率P_θ(S_t,a_t)；

步骤12：同理，计算参数为θ_a的actor网络采取动作的概率P_θa＝(S_t,a_t)；

步骤13：计算损失函数f_loss＝min(A·P_θ,A·P_θa)；

步骤14：由损失函数迭代更新神经网络参数；

步骤15：查看结果是否收敛到最小回报值，若是，则结束，若不是，则返回继续迭代。

进一步地，在DQN算法中，设计应用actor-critic网络体系结构。其中，神经网络critic估计的价值函数V(s)，其参数为θ_c；两个参数分别为θ和θ_a的神经网络actor用来提出控制策略。其中actor-critic网络都是由CNN(卷积神经网络)构造而成，CNN用于提取EI网络观测序列的特征。

本发明所具有的优点和有益效果是：

本发明一种基于DQN算法的能源互联网优化策略方法，是在保证系统运营成本最小的前提下，通过协调优化能源互联网，可以进一步挖掘可再生能源利用率，进行网络优化配置，使其具有快速动态优化的目的以及自学习能力，基于最优输出动作，可以制定能源互联网优化策略，尽可能的减少网络的冗余度，减小系统运营成本。在设定的控制策略下，约束条件包括负载供需平衡约束、发电、输出功率平衡约束、储能元件充放电限制约束和与外电网交互耗能平衡约束，采用DQN算法，该方法使用马尔科夫决策来确定最佳序列，并结合卷积神经网络逐步获得回报值最小的目标集。

附图说明

下面结合附图对本发明作进一步详述：

图1为DQN算法与能源互联网结合图；

图2为各类算法计算速度对比图；

图3为一种基于DQN算法的能源互联网优化策略方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

本发明一种基于DQN算法的能源互联网优化策略方法，考虑了广义能源互联网场景，由多个子系统相互连接。每个系统均假定为由许多电气设备组成，包括PV(光伏发电机)，WT(风力发电机)，DG(分布式发电价)，CHP(热电联产)，BES(能源电池)，LOAD(负载)、π(t)(用户的电需求)、σ(t)(用户的热需求)及μ(t)(外网电价)等。根据能源互联网的能源优化管理原则，将能源互联网最小运营成本定义为目标函数。在此基础上，再制定一系列惩罚函数。接下来，应用DQN算法，将能源管理问题转化为最优成本策略问题。

在DQN算法中，设计应用actor-critic网络体系结构。其中，神经网络critic估计的价值函数V(s)，其参数为θ_c；两个参数分别为θ和θ_a的神经网络actor用来提出控制策略。其中actor-critic网络都是由CNN(卷积神经网络)构造而成，CNN用于提取EI网络观测序列的特征。从这个意义上说，actor神经网络可以在一定时间范围内根据经验情况调整其输出，这将有助于改善算法的性能。DQN算法与能源互联网结合图如附图1所示。

如图3所示，本发明一种基于DQN算法的能源互联网优化策略方法，所述能源互联网包括电网单元、气网单元和分布式冷热电系统嵌入式能量互联网单元，包括如下步骤：

其中包括：电能传输成本

其中，P_i为各发电机输出功率。

能源互联网中各系统运行成本：

其中，C_CHP(t)代表热电联产的运行成本，P_CHP(t)代表热电联产输出的电能，H_CHP(t)代表热电联产输出的热能，C_WP(t)代表风力发电机的运行成本，P_WP(t)代表力发电机的输出功率，C_PV(t)代表光伏发电机的运行成本，P_PV(t)代表光伏发电机的发电成本，C_DG(t)代表分布式发电机的运行成本，P_DG(t)代表分布式发电机输出的电能，C_LOAD(t)代表负载的运行成本，P_LOAD(t)代表负载输出的电能。

其中，a、b、c、d、e、f、g、h、k、l、m、n、o、q为常数成本因子，分别代表着各系统各项运行成本和发电功率的系数。

储能系统充放电成本：

其中，C_BES(t)代表储能系统的充、放电成本，SOC_i(t)代表电池储能单元。

在本文中，上面介绍的几种能量单元没有适当考虑EI系统的约束。为了解决这些限制，考虑了以下几种惩罚函数：

其中，被定义如下：

是BES的累积惩罚函数。如果其没有超出SOC范围，则惩罚项记为0，若其如果违背了SOC的约束，则将其计算为如下：

其中，δ为加权因子。

从这个意义上说，当SOC一直处于正常的范围内，BES的惩罚项将保持为零。一旦SOC违反了这种约束，惩罚将不断累积，直到所有SOC都返回到适当的范围。

同样，外部电网和EI之间的电力交换，惩罚函数考虑如下：

χ^grid(t)＝P_grid ²(t)[P_grid(t)≥P_grid(t)_maxor P_grid(t)≤P_grid(t)_min]

将以上所有罚函数按照不同的权重因子进行加权，在t时刻，其惩罚函数的计算公式为：

其中，Δ_soc为φ^soc(t)的权重因子，Δ_grid为χ^grid(t)与外部电网交换能量的权重因子。

如上所述，根据成本函数的表达式和惩罚函数的定义，每个时间t的综合成本如下：

ψ＝[Δ_folwf_t+Δ_DGC_DG+Δ_CHPC_CHP+Δ_WPC_WP+Δ_PVC_PV+Δ_LOADC_LOAD+Δ_BESC_BES+Δ_socφ^soc(t)+Δ_gridχ^grid(t)]

其中，Δ_folw、Δ_DG、Δ_CHP、Δ_WP、Δ_PV、Δ_LOAD、Δ_BES分别为电能传输、分布式发电机、热电联产、风力发电、光伏发电、负载、能量电池的权重因子。

步骤2：将能源互联网模型构建为MDP(马尔可夫决策过程)，MDP是建立强化学习的有效方法，它描述了系统的当前状态不仅与现在的状态有关，也与下一个状态有关。设置迭代次数i，离散时间间隙t，输入t时刻的状态变量，s_t{WT(t)，PV(t)，DG(t),CHP(t),LOAD(t),BES(t),π(t),σ(t),μ(t)}；

步骤3：actor网络输出动作变量a_t；

步骤4：计算回报值r(a_t|s_t)到达下一状态S_t+1；

步骤5：得到序列轨迹{S₁,a₁,r₁,S′₁,S₂,a₂,r₂,S′₂…S_t,a_t,r_t,S′_t}；形成经验池experience p；并将这些轨迹存储到经验池中，随机抽出数据进行下次迭代；

步骤6：观察是否迭代完所有变量，即t＝T？

步骤7：将S_t状态变量输入到critic网络中，得到输出期望V(s)；

步骤8：由于环境的随机性，如果智能体下次执行相同的操作时，将永远无法确保获得相同的奖励。因此，增加折扣因子，随着过程的继续，使收敛变得更加容易，计算计及折扣因子的未来回报值R_t＝r(a_t|s_t)+γV(S_t+1)。

其中，γ是折扣因子，其取值范围为[0，1]。特别地，当γ等于0时，表示系统仅依赖当前时刻的奖励，而与未来奖励没有联系。如果环境是确定性的，在每个时间段，则行动所产生的未来奖励是确定的，没有随机情况，并且可以是认为γ为1。考虑当前奖励和未来奖励，则将其值设置为介于0和1之间的小数。

步骤9：构造损失函数A＝[R(t)-V(S)]²；

步骤10：利用神经网络反向传播更新网络参数；

步骤12：同理，计算参数为θ_a的actor网络采取a_t动作的概率P_θa＝(S_t,a_t)；

步骤13：计算损失函数f_loss＝min(A·P_θ,A·P_θa)；

步骤14：由损失函数迭代更新神经网络参数；

如图2所示，用本发明所述方法与其他方法计算速度对比，本发明一种基于DQN算法的能源互联网优化策略方法，是在保证系统运营成本最小的前提下，通过协调优化能源互联网，可以进一步挖掘可再生能源利用率，进行网络优化配置，使其具有快速动态优化的目的以及自学习能力，基于最优输出动作，可以制定能源互联网优化策略，尽可能的减少网络的冗余度，减小系统运营成本。

Claims

1.一种基于DQN算法的能源互联网优化策略方法，其特征在于包括如下步骤：

其中包括：电能传输成本

其中，P_i为各发电机输出功率；

能源互联网中各系统运行成本：

其中，C_CHP(t)代表热电联产的运行成本，P_CHP(t)代表热电联产输出的电能，H_CHP(t)代表热电联产输出的热能，C_WP(t)代表风力发电机的运行成本，P_WP(t)代表力发电机的输出功率，C_PV(t)代表光伏发电机的运行成本，P_PV(t)代表光伏发电机的发电成本，C_DG(t)代表分布式发电机的运行成本，P_DG(t)代表分布式发电机输出的电能，C_LOAD(t)代表负载的运行成本，P_LOAD(t)代表负载输出的电能；

其中，a、b、c、d、e、f、g、h、k、l、m、n、o、q为常数成本因子，分别代表着各系统各项运行成本和发电功率的系数；

储能系统充放电成本：

其中，C_BES(t)代表储能系统的充、放电成本，SOC_i(t)代表电池储能单元；

惩罚函数：

其中，被定义如下：

是BES的累积惩罚函数；如果其没有超出SOC范围，则惩罚项记为0，若其如果违背了SOC的约束，则将其计算为如下：

其中，δ为加权因子；

外部电网和EI之间的电力交换，惩罚函数如下：

χ^grid(t)＝P_grid ²(t)[P_grid(t)≥P_grid(t)_maxorP_grid(t)≤P_grid(t)_min]

将以上所有惩罚函数按照不同的权重因子进行加权，在t时刻，其惩罚函数的计算公式为：

其中，Δ_soc为φ^soc(t)的权重因子，Δ_grid为χ^grid(t)与外部电网交换能量的权重因子；

根据成本函数的表达式和惩罚函数的定义，每个时间t的综合成本如下：

ψ＝[Δ_folwf_t+Δ_DGC_DG+Δ_CHPC_CHP+Δ_WPC_WP+Δ_PVC_PV+Δ_LOADC_LOAD+Δ_BESC_BES+Δ_socφ^soc(t)+Δ_gridχ^grid(t)]其中，Δ_folw、Δ_DG、Δ_CHP、Δ_WP、Δ_PV、Δ_LOAD、Δ_BES分别为电能传输、分布式发电机、热电联产、风力发电、光伏发电、负载、能量电池的权重因子；

步骤2：将能源互联网模型构建为MDP，设置迭代次数i，离散时间间隙t，输入t时刻的状态变量，s_t{WT(t)，PV(t)，DG(t),CHP(t),LOAD(t),BES(t),π(t),σ(t),μ(t)}；

步骤3：actor网络输出动作变量a_t；

步骤4：计算回报值r(a_t|s_t)到达下一状态S_t+1；

步骤5：得到序列轨迹{S₁,a₁,r₁,S′₁,S₂,a₂,r₂,S′₂…S_t,a_t,r_t,S′_t}；形成经验池experience pool；并将这些轨迹存储到经验池中，随机抽出数据进行下次迭代；

步骤6：观察是否迭代完所有变量，即t＝T？

步骤8：计算计及折扣因子的未来回报值R_t＝r(a_t|s_t)+γV(S_t+1)；

步骤9：构造损失函数A＝[R(t)-V(S)]²；

步骤10：利用神经网络反向传播更新网络参数；

步骤11：将S_t′状态变量输入到参数为θ的actor神经网络中，利用ε-greedy求出网络采取a_t的动作概率P_θ(S_t,a_t)；

步骤13：计算损失函数f_loss＝min(A·P_θ,A·P_θa)；

步骤14：由损失函数迭代更新神经网络参数；

2.根据权利要求1所述的一种基于DQN算法的能源互联网优化策略方法，其特征在于：设计应用actor-critic网络体系结构；其中，神经网络critic估计的价值函数V(s)，其参数为θ_c；两个参数分别为θ和θ_a的神经网络actor用来提出控制策略；其中actor-critic网络都是由卷积神经网络CNN构造而成，CNN用于提取EI网络观测序列的特征。