CN114123256A

CN114123256A - 一种适应随机优化决策的分布式储能配置方法及系统

Info

Publication number: CN114123256A
Application number: CN202111288522.2A
Authority: CN
Inventors: 吴强; 黄河; 高松; 李妍; 姜家兴; 明威宇
Original assignee: Huazhong University of Science and Technology; State Grid Jiangsu Electric Power Co Ltd
Current assignee: Huazhong University of Science and Technology; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-03-01
Anticipated expiration: 2041-11-02
Also published as: CN114123256B

Abstract

本发明公开了一种适应随机优化决策的分布式储能配置方法及系统，属于配电网规划领域，包括在平时电价时段和峰时电价时段内获取t时刻配电网的观测状态；根据当前状态采取相应的储能放电策略，得到配电网即时回报模型，开展基于竞争深度Q网络的神经网络的训练；获取k时刻实时观测状态输入已经训练完成的神经网络中，输出实时观测状态下的储能放电策略结合充电策略得到完整的典型日周期内的储能充放电策略。本发明建立基于马尔可夫决策过程的储能配置规划模型，分析随机性潮流对储能功率和容量的影响，在满足分布式电源和负荷随机性波动的约束条件下，将储能调度优化嵌入储能配置规划中去，实现分布式储能的规划运行一体化优化。

Description

一种适应随机优化决策的分布式储能配置方法及系统

技术领域

本发明属于配电网规划领域，更具体地，涉及一种适应随机优化决策的分布式储能配置方法及系统。

背景技术

近年来，分布式电源广泛接入，可再生能源出力波动叠加用户用电行为不确定性给配电网的供需平衡带来较大压力，分布式储能参与配电网优化运行是一种新的解决方案。适应配电网优化运行的分布式储能配置方法是实现充分消纳分布式电源的关键技术。

目前分布式储能的优化配置方法一般是基于规划和运行优化的双层耦合模型，如图1所示。外层模型为储能系统参数配置的优化模型，目标函数包括储能系统的投资成本、峰谷套利和辅助服务补偿等；内层模型为调度优化模型，目标函数为系统运行优化的相关目标，如电压改善、提高可再生能源消纳率等。现有规划模型具有非线性、高维度和多目标的特点；模型求解主要使用包括差分进化算法，粒子群算法，遗传算法及其改进算法在内的进化算法求解。

目前所建立的双层模型兼顾投资和运行优化，模型的求解需要采用智能算法基于双层之间互相反馈的优化结果迭代求解，增加了计算难度；目前的求解算法如遗传算法、差分进化算法难以找到最优解。

发明内容

针对现有技术的缺陷，本发明提供一种适应随机优化决策的分布式储能配置规划方法及系统，目的在于将储能的优化调度建模为基于马尔科夫过程的随机优化决策问题，分析随机性潮流对储能功率和容量的影响，在满足分布式电源和负荷随机性波动的约束条件下，得到分布式储能优化配置方案。

为实现上述目的，本发明提供了一种适应随机优化决策的分布式储能配置规划方法及系统，其目的在于，将储能的优化调度建模为基于马尔科夫决策过程的随机序贯决策问题，采用基于竞争深度Q网络的深度强化学习算法，利用其非线性映射能力优化求解非线性高维度的储能规划模型与储能调度策略方案。

本发明提供了一种适应随机优化决策的分布式储能配置方法，如图2所示，包括：

训练阶段：

(1)在平时电价时段和峰时电价时段内获取t时刻配电网的观测状态；

(2)根据当前状态采取相应的储能放电策略，得到配电网即时回报模型；

(3)为了使长远回报最大化，需要采取最佳动作，定义储能放电策略的动作估值函数Q^π(s_t,a_t)，通过即时回报的反馈进行动作估值函数迭代更新，得到动作估值函数的目标值

(4)由目标值

与神经网络输出值Q^π′(s_t,a_t,ω)计算得到神经网络损失值，利用小批量梯度下降法更新神经网络参数，完成增强学习；

应用阶段：

(5)在平时电价时段和峰时电价时段内获取k时刻实时观测状态s_k，输入已经训练完成的神经网络中，输出实时观测状态下的储能放电策略；

(6)设定储能系统在谷时电价时段按照平均功率充电，储能充电电能等于平时电价时段和峰时电价时段的放电电能，结合(5)中的储能放电策略得到完整的典型日周期内的储能充放电策略；

(7)根据储能充放电策略得到分布式储能系统的额定功率P_rate和额定容量C参数。

进一步地，所述t时刻配电网的观测状态表示为：

其中，s_t是t时刻配电网的观测状态，

是t时刻观测节点i的电压，

是t时刻配有分布式储能系统的用户j的功率，N_node、N_user分别为电压可观测节点集合和配有储能系统的用户集合。其中t时刻属于平时电价和峰时电价时段，设定储能在谷时电价时段充电，平时电价和峰时电价时段按照神经网络输出的动作策略放电，因此仅获取平时电价和峰时电价时段的配电网观测状态对神经网络开展训练。

进一步地，还包括对所述电网的观测状态进行归一化处理：

其中，min()表示取最小值，max()表示取最大值。

进一步地，所述步骤(2)包括：

(2.1)根据当前状态采取相应的储能放电策略，按照放电和零功率运行两种状态考虑，相应设定t时刻的动作函数a_t，表示为

j∈N_user，

为编号为j的用户在t+1时刻供电方式的状态变量，只有0或1两种取值，取值为0代表用户由自身配备的分布式储能系统供电，满足储能系统的功率和能量平衡约束；取值为1代表用户由电网供电，满足潮流平衡约束、节点电压幅值及相角约束；

(2.2)建立配电网即时回报模型

即时回报由电压可观测节点i电压改善回报得分

供电方式切换控制回报得分

和用户用电成本回报得分

三部分及其对应的权重w^safe、w^user、w^eoc加权求和得到；

(2.3)对于用户用电成本回报得分

其中，

为该时刻的分时电价；

为第j个用户的分布式储能单位电量供电成本；

(2.4)对于电压改善回报得分

用奖励系数F_reward和惩罚系数F_punish度量电压控制的回报，其中，U_rate为配电网运行的额定电压；

(2.5)对于供电方式切换控制回报得分

采用相邻两个采样时间用户的供电方式的状态改变量来定义，若状态改变，则为-1，否则取值为0。

进一步地，所述储能系统的功率和能量平衡约束包括：

充放电功率约束：分布式储能系统的额定功率满足充放电功率的最大需求，即P_rate＝max(P_dis,P_charge)，其中，P_dis为储能系统的放电功率，P_charge为储能系统的充电功率；

分布式储能系统的能量平衡约束：分布式储能系统在运行周期中满足能量平衡，即

其中，P(t)为储能系统的功率；

所述潮流平衡约束、节点电压幅值及相角约束分别为：

潮流平衡约束：

其中，P_i、Q_i为节点i的节点有功和无功功率，V_i为节点i的电压幅值，θ_ik为节点i、k电压相角的差值，G_ik、B_ik为节点i、k之间支路的导纳；

节点电压幅值及相角约束：

V_i-min≤V_i≤V_i-max

θ_i-min≤θ_i≤θ_i-max

其中，V_i为节点i的电压幅值，θ_i为节点i的电压相量的相角，V_i-min、V_i-max为节点i的电压幅值的最小值和最大值；θ_i-min、θ_i-max为节点i的电压相角的最小值和最大值。

进一步地，所述步骤(3)包括：

定义动作估值函数如下：

其中，π代表控制策略，λ∈[0,1]，称为折合因子，表明未来回报相对于当前回报的重要程度，E代表期望值，r_t+1代表执行完具体动作a_t后的即时回报，动作估值函数的目标值

由贝尔曼方程可推出：

其中，A_t+1代表在t+1时刻所有能执行动作的集合，根据环境的运行状态观测值，通过迭代进行动作估值函数更新，具体公式如下：

其中，α为学习速率，满足0≤α≤1。

进一步地，所述步骤(4)包括：

(4.1)分别用两个神经网络来拟合观测状态下的状态估值函数V(s_t)和当前状态下各个动作的优势估值函数A(s_t,a_t)，得到动作估值函数Q^π(s_t,a_t)；

(4.2)在学习期间，引入ε-greedy策略来进行动作选取，以平衡对环境的探索和利用机制，公式如下：

其中，ε为一固定常数，T为总训练次数，t为当前训练时刻，β(0＜β≤ε)为计算机生成的一个随机数；

(4.3)引入记忆回放机制，当经验池中的样本数超过回放开始容量，从经验池中抽取小批量样本开展神经网络训练；若样本数超出经验池容量，则剔除早期观测样本再存入新样本；

(4.4)计算神经网络损失值，利用小批量梯度下降法进行神经网络训练。

进一步地，所述步骤(5)包括：

获取观测状态，输入训练完成的神经网络执行正向计算，选取最大的估值动作，即最优的储能放电策略。

进一步地，所述步骤(6)包括：

分时电价中包含谷时电价、平时电价和峰时电价，日周期内，设定储能在谷时电价时段以平均功率P_charge充电，充电电能等于放电电能E，

其中，T_dis＝{Δt₁、Δt₂、Δt₃…Δt_m…}为分布式储能系统为用户j提供电能的时间段的集合，P_dis为储能放电功率；

其中，T_charge为充电时长，这里指谷时段时长，η为储能系统能量转换效率。

进一步地，所述步骤(7)包括：

所述储能系统的额定功率为储能平均充电功率P_charge和放电功率P_dis的较大值，即

P_rate＝max(P_dis,P_charge)

所述储能系统的额定容量为

其中，E_dis为储能系统的典型日周期内的放电电能，η为储能系统的能量转换效率。

本发明另一方面提供了一种适应随机优化决策的分布式储能配置系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行上述的适应随机优化决策的分布式储能配置方法。

通过本发明所构思的以上技术方案，与现有技术相比，本发明建立基于马尔可夫决策过程的储能配置规划模型，分析随机性潮流对储能功率和容量的影响，在满足分布式电源和负荷随机性波动的约束条件下，得到分布式储能优化配置方案，能将储能调度优化嵌入储能配置规划中去，实现分布式储能的规划运行一体化优化。采用基于竞争深度Q网络的深度强化学习算法对分布式储能的随机优化调度开展自学习，得到最优的储能充放电策略，规划的方案能满足日周期内分布式储能调度优化配电网的需求。由于深度强化学习是一种无模型的方法，不依赖于先验知识，而且方案将储能调度和规划综合优化，能够取得快速寻优、提高储能投资经济性的有益效果。

附图说明

图1是现有分布式储能配置规划双层模型的示意图；

图2是基于深度强化学习的分布式储能规划调度一体化的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间不构成冲突就可以相互组合。

本发明提供的一种适应随机优化决策的分布式储能配置方法，包括：

训练阶段：

(4)由目标值

应用阶段：

具体地，所述t时刻配电网的观测状态表示为：

其中，s_t是t时刻配电网的观测状态，

是t时刻观测节点i的电压，

具体地，还包括对所述电网的观测状态进行归一化处理：

其中，min()表示取最小值，max()表示取最大值。

具体地，所述步骤(2)包括：

j∈N_user，

为编号为j的用户在t+1时刻供电方式状态变量，只有0或1两种取值，取值为0代表用户由自身配备的分布式储能系统供电，满足储能系统的功率和能量平衡约束；取值为1代表用户由电网供电，满足潮流平衡约束、节点电压幅值及相角约束；

(2.2)建立配电网即时回报模型

即时回报由电压可观测节点i电压改善回报得分

供电方式切换控制回报得分

和用户用电成本回报得分

三部分及其对应的权重w^safe、w^user、w^eoc加权求和得到；

(2.3)对于用户用电成本回报得分

其中，

为该时刻的分时电价；

为第j个用户的分布式储能单位电量供电成本；

(2.4)对于电压改善回报得分

(2.5)对于供电方式切换控制回报得分

具体地，所述储能系统的功率和能量平衡约束包括：

其中，P(t)为储能系统的功率；

所述潮流平衡约束、节点电压幅值及相角约束分别为：

潮流平衡约束：

节点电压幅值及相角约束：

V_i-min≤V_i≤V_i-max

θ_i-min≤θ_i≤θ_i-max

具体地，所述步骤(3)包括：

定义动作估值函数如下：

由贝尔曼方程可推出：

其中A_t+1代表在t+1时刻所有能执行动作的集合，根据环境的运行状态观测值，通过迭代进行动作估值函数更新，具体公式如下：

其中，α为学习速率，满足0≤α≤1。

具体地，所述步骤(4)包括：

具体地，所述步骤(5)包括：

具体地，所述步骤(6)包括：

具体地，所述步骤(7)包括：

P_rate＝max(P_dis,P_charge)

所述储能系统的额定容量为

所述计算机可读存储介质用于存储可执行指令；

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种适应随机优化决策的分布式储能配置方法，其特征在于，包括：

训练阶段：

(3)定义储能放电策略的动作估值函数Q^π(s_t,a_t)，通过即时回报的反馈进行动作估值函数迭代更新，得到动作估值函数的目标值

(4)由目标值

应用阶段：

2.如权利要求1所述的方法，其特征在于，所述t时刻配电网的观测状态表示为：

其中，s_t是t时刻配电网的观测状态，

是t时刻观测节点i的电压，P_t ^j是t时刻配有分布式储能系统的用户j的功率，N_node、N_user分别为电压可观测节点集合和配有储能系统的用户集合。

3.如权利要求1所述的方法，其特征在于，所述步骤(2)包括：

(2.2)建立配电网即时回报模型

即时回报由电压可观测节点i电压改善回报得分

供电方式切换控制回报得分

和用户用电成本回报得分

三部分及其对应的权重w^safe、w^user、w^eoc加权求和得到；

(2.3)对于用户用电成本回报得分

其中，

为该时刻的分时电价；

为第j个用户的分布式储能单位电量供电成本；

(2.4)对于电压改善回报得分

(2.5)对于供电方式切换控制回报得分

4.如权利要求3所述的方法，其特征在于，所述储能系统的功率和能量平衡约束包括：

其中，P(t)为储能系统的功率；

所述潮流平衡约束、节点电压幅值及相角约束分别为：

潮流平衡约束：

节点电压幅值及相角约束：

V_i-min≤V_i≤V_i-max

θ_i-min≤θ_i≤θ_i-max

5.如权利要求1所述的方法，其特征在于，所述步骤(3)包括：

定义动作估值函数如下：

由贝尔曼方程可推出：

其中，α为学习速率，满足0≤α≤1。

6.如权利要求1所述的方法，其特征在于，所述步骤(4)包括：

其中，ε为一固定常数，T为总训练次数，t为当前训练时刻，0＜β≤ε，β为计算机生成的一个随机数；

7.如权利要求1所述的方法，其特征在于，所述步骤(5)包括：

8.如权利要求1所述的方法，其特征在于，所述步骤(6)包括：

其中，T_charge为充电时长，这里指谷时段时长，η为储能系统的能量转换效率。

9.如权利要求1所述的方法，其特征在于，所述步骤(7)包括：

P_rate＝max(P_dis,P_charge)

所述储能系统的额定容量为

10.一种适应随机优化决策的分布式储能配置系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1至9任一项所述的适应随机优化决策的分布式储能配置方法。