CN113705067A

CN113705067A - 一种微网优化运行策略生成方法、系统、设备及存储介质

Info

Publication number: CN113705067A
Application number: CN202111266955.8A
Authority: CN
Inventors: 王继业; 蒲天骄; 周翔; 陈盛; 王新迎
Original assignee: China Electric Power Research Institute Co Ltd CEPRI
Current assignee: China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2021-11-26
Anticipated expiration: 2041-10-29
Also published as: CN113705067B

Abstract

本发明公开了一种微网优化运行策略生成方法、系统、设备及存储介质，包括：建立深度确定性策略梯度算法下的神经网络模型；以微网总运行成本最低以及新能源消纳程度最大为优化目标，基于分类经验回放机制，采用深度确定性策略梯度算法对神经网络模型进行优化；利用优化后的神经网络模型生成微网优化运行策略，该方法、系统、设备及存储介质计算的复杂程度较低，且不依赖新能源出力及负荷的精确建模。

Description

一种微网优化运行策略生成方法、系统、设备及存储介质

技术领域

本发明属于电力系统领域，涉及一种微网优化运行策略生成方法、系统、设备及存储介质。

背景技术

实现微网优化运行，关键在于应对分布式可再生能源出力及负荷的不确定性给微网运行带来的挑战，通过日前优化调度难以实现可再生能源最大化利用及需求响应，需要针对新能源出力和负荷进行实时的优化策略生成。微网优化运行相关研究目前主要是通过随机优化、鲁棒优化或者模型预测控制等方法构建调度模型，随机优化利用随机变量概率分布刻画不确定性会存在一定误差，同时利用场景生成描述研究对象的不确定性会随着问题规模的变大而导致求解困难。鲁棒优化主要针对最恶劣场景下的优化问题，所得结果可能过于保守，不利于微网的经济运行。模型预测控制方法仍然依赖于对新能源出力预测的精确性。，

在模型求解方面，主要是通过解析法和人工智能方法。解析法主要是通过线性化或者凸松弛技术将原问题转化为线性问题或者混合整数规划问题。此类方法适用于精度要求不高但是需要快速计算的场景下，对非线性非凸问题难以求得最优解。启发式算法在求解高维问题时效率较低，求解不稳定，需要对每一个决策都执行一次寻优过程，实时性方面有待提升。

现有技术一般采用多时间尺度微电网能量系统管理调度技术，主要分为2个阶段，在日前调度阶段，结合光伏发电与负荷的日前预测结果，考虑峰谷平各时段电价、分布式电源的运行维护成本、可中断负荷的中断补偿等，建立非线性经济优化调度模型，并进行各单元功率优化分配；在日内调度阶段，结合光伏发电与负荷的日内超短期预测结果以及日前优化计算结果，依据功率的波动、各时段电价以及分布式电源发电成本确定其不同状态下各单元运行的优先级，进而设计微电网的调度流程。

根据电网运行约束、燃料电池运行成本、锂电池寿命运行与维护成本、分时段购售电、可中断负荷考虑在优化目标中，构造混合整数非线性规划，同时考虑到日前光伏、负荷预测可能存在误差，还有可能出现天气突变等情况导致较大功率波动，所以仅采用日前经济优化调度是不够的。因此提出日内调度方案，采用超级电容、燃料电池、联络线交互功率等来平抑功率波动。

参考图1，日内调度计划中，以15min作为单位时段，将全天分为96个时段，并按照峰、谷、平时段划分策略。首先，根据日前预测与日内超短期预测光伏、负荷功率的差异，计算出微网波动功率ΔP，ΔP>0 表示负荷功率大于电源发出功率，ΔP<0 情况相反。然后，结合分时电价与燃料电池发电成本，分别制定出不同时段的调度策略，较全面地平抑功率波动，同时兼顾了微网运行的经济性。

然而现有技术存在调度内容复杂，另外，需要将目标函数转化为混合整数二次规划，需要有数学凸优化要求，同时进行公式推导，过程也较复杂，同时日内调度也依赖于新能源以及负荷的精确建模。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种微网优化运行策略生成方法、系统、设备及存储介质，该方法、系统、设备及存储介质计算的复杂程度较低，且不依赖新能源出力及负荷的精确建模。

为达到上述目的，本发明采用如下技术方案：

本发明一方面，本发明提供了一种微网优化运行策略生成方法，包括：

针对微网，获取深度确定性策略梯度算法的状态空间S，所述深度确定性策略梯度算法的状态空间S包括风光发电出力、用户负荷量、分时段电价、锂电池荷电状态以及所处时段；

将深度确定性策略梯度算法的状态空间S输入到优化后的神经网络模型，以生成微网优化运行策略，其中，在对神经网络模型进行优化的过程中，以微网总运行成本最低以及新能源消纳程度最大为优化目标，基于分类经验回放机制，采用深度确定性策略梯度算法对神经网络模型进行优化。

本发明所述微网优化运行策略生成方法进一步的改进在于：

深度确定性策略梯度算法中的五元组为（S、A、L、r、γ），其中，S为状态空间，A为动作空间，L为状态转移概率，r为奖励函数，γ为折扣因子。

动作空间A包括微型燃气轮机出力及锂电池充放电功率。

在对神经网络模型进行优化的过程中，当没有弃风弃光以及状态动作越限的情况时，则对神经网络模型进行优化过程中的奖励函数为：

其中，

为t时间段微网的总运行成本，d为正数。

微网总运行成本

为：

其中，

为微网中微型燃气轮机在t时段的发电成本，C_WT(t)为风机在t时段的发电成本，C_PV(t)为光伏在t时段的发电成本，C_P(t)为t时段微网向外部电网的购售电成本，C_S(t)为储能成本，T为总的调度时间段，N_g为微网中微型燃气轮机的台数。

在对神经网络模型进行优化的过程中，当存在弃风、弃光情况或者动作、状态不满足约束时，则对神经网络模型进行优化过程中的奖励函数为：

其中，F₁(t)为t时刻弃风/弃光惩罚，F₂(t)及F₃(t)为t时刻可控设备动作及状态越限惩罚。

弃风/弃光惩罚F₁(t)为：

其中，C_w为弃风成本系数，C_p为弃光成本系数，P_{WT_C}(t)为弃风量，P_{PV_C}(t)为弃光量。

可控设备动作及状态越限惩罚F ₂及F ₃分别为：

其中，ω_1,i、ω_2,i、δ_1,i及δ_2,i为动作或状态的越限惩罚系数，a_i,up ^max及a_i,down ^max分别为爬坡率的上下限，b_i ^min及b_i ^max分别为微型燃气轮机出力、联络线功率、储能充放电功率及储能状态约束的上下限。

本发明二方面，本发明提供了一种微网优化运行策略生成系统，包括：

获取模块；用于针对微网，获取深度确定性策略梯度算法的状态空间S，所述深度确定性策略梯度算法的状态空间S包括风光发电出力、用户负荷量、分时段电价、锂电池荷电状态以及所处时段；

生成模块，用于将深度确定性策略梯度算法的状态空间S输入到优化后的神经网络模型，以生成微网优化运行策略，其中，在对神经网络模型进行优化的过程中，以微网总运行成本最低以及新能源消纳程度最大为优化目标，基于分类经验回放机制，采用深度确定性策略梯度算法对神经网络模型进行优化。

本发明所述微网优化运行策略生成系统进一步的改进在于：

还包括：

建立模块，用于建立深度确定性策略梯度算法下的神经网络模型；

优化模块，用于以微网总运行成本最低以及新能源消纳程度最大为优化目标，基于分类经验回放机制，采用深度确定性策略梯度算法对神经网络模型进行优化。

本发明三方面，本发明提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如所述微网优化运行策略生成方法的步骤。

本发明四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如所述微网优化运行策略生成方法的步骤。

本发明具有以下有益效果：

本发明所述的微网优化运行策略生成方法、系统、设备及存储介质在具体操作时，针对微网中风机、光伏等新能源处理的间歇性及负荷随机性的特点，采用深度确定性策略梯度算法对神经网络模型进行优化，以适应上述不确定性的情况，不依赖对新能源出力及负荷的精确建模，并且在优化过程中不需要进行复杂的数据推导，计算的复杂程度较低。另外，在优化过程中，基于分类经验回放机制，优化收敛速度较快，优化时间较短。

进一步，在奖励函数中引入惩罚，对弃风弃光的行为进行惩罚。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为现有技术的流程图；

图2为深度确定性策略梯度算法在优化过程中的示意图；

图3为深度确定性策略梯度算法的原理图；

图4为本发明中神经网络模型在优化时的示意图；

图5为分类经验回放机制的原理图；

图6为本发明的结构示意图。

其中，1为建立模块、2为优化模块、3为生成模块、4为获取模块。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

公知的，参考图3，深度确定性策略梯度算法，即基于Q学习和深度Q网络学习算法，基于Q学习和深度Q网络学习算法的强化学习在处理小型离散状态或动作空间问题时表现良好，但在处理连续动作状态空间问题时，会造成维数爆炸，DDPG算法（深度确定性策略梯度算法）是针对状态、动作空间连续问题采取的确定性策略，与随机性策略输出的是动作概率分布不同，DDPG输出的是具有最大概率的动作。DDPG算法通过在当前状态使用Actor策略网络生成动作，并将动作与状态再输入到Critic评价网络中计算Q值，目标是找到使Q值最大的动作。

实施例一

本发明所述的微网优化运行策略生成方法包括：

1）建立深度确定性策略梯度算法下的神经网络模型；

参考图2，所述深度确定性策略梯度算法中的五元组为（S、A、L、r、γ），其中，S为状态空间，A为动作空间，L为状态转移概率，即智能体在当前状态st执行动作at转移到下一状态st+1的概率，r为奖励函数，γ为折扣因子，即对将来回报的衰减系数。

2）以微网总运行成本最低以及新能源消纳程度最大为优化目标，基于分类经验回放机制，采用深度确定性策略梯度算法对神经网络模型进行优化；

在优化过程中，根据电网运行约束以及设备约束，构建相应的状态空间、动作空间以及奖励函数。

当没有弃风弃光以及状态动作越限情况时，对神经网络模型进行优化过程中的奖励函数为：

其中，

为t时间段微网的总运行成本，d为某一正数，可以加速训练收敛过程。

微网总运行成本

为：

其中，C_MT(t)为微网中微型燃气轮机在t时段的发电成本，C_WT(t)表示风机在t时段的发电成本，C_PV(t)表示光伏在t时段的发电成本，C_P(t)为t时段微网向外部电网购售电成本，C_S(t)为储能成本，T为总的调度时间段，N_g为微网中微型燃气轮机的台数。

当弃风、弃光或者动作、状态不满足约束情况时，对神经网络模型进行优化过程中的奖励函数为：

其中，F₁(t)表示t时刻弃风/弃光惩罚；F₂(t)和F₃(t)表示t时刻约束条件越限惩罚。

弃风弃光惩罚F₁(t)为：

可控设备动作和状态越限惩罚F ₂和F ₃为：

式中：ω_1,i，ω_2,i，δ_1,i,δ_2,i为动作或状态越限惩罚系数；a_i,up ^max，a_i,down ^max分别表示爬坡率的上下限；b_i ^min，b_i ^max表示微型燃气轮机出力、联络线功率、储能充放电功率和储能状态约束上下限。

状态空间S包括风光发电出力、用户负荷量、分时段电价、锂电池荷电状态、所处时段以及上一时段动作，即：

动作空间A包括微型燃气轮机出力及锂电池充放电功率，即：

具体的，优化过程如图4所示，在采用DDPG算法求解微网优化运行模型基础上，首先需要将微网单元定义为强化学习基本元素模型，在优化过程中，将状态空气输入到策略网络中生成动作，再根据动作及状态生成品质因子，目标是寻找品质因子最大的动作。

另外，在优化过程中，本发明在经验池缓冲回放机制方面，采用双经验池存储经验样本，分类经验回放机制示意图如图5所示。根据样本的即时奖励值的大小对样本进行分类。初始化模型时，将两个经验池中的样本即时奖励的平均值r_base设置为0。当智能体和环境互动产生新的经验样本时，首先更新两个经验池中所有样本奖励的平均值，然后将新产生的样本奖励值与平均值进行比较，若该样本的奖励值较大，则将该样本存入经验池1，反之，则存入经验池2。当从经验池取样本进行网络更新计算时，先从经验池1取N1个样本，再从经验池2取N2个样本进行网络参数训练，以提升模型的训练速度及效率。

3）以优化后的神经网络模型作为微网运行优化模型生成微网优化运行策略。

需要说明的是，本发明无需准确预测新能源出力与负荷，能够自适应风光等新能源出力的不确定性与负荷的随机性，不需要复杂的数学推导，可以降低优化问题的求解复杂度。

验证性试验

本实验所采用算例为IEEE-14节点修改所得，仿真时间从0点开始到24点结束，时间间隔为1小时，系统与外部电网联络线功率范围为[-35,35]kW，锂电池储能容量为250kW·h，荷电状态最小值为0.2，最大值为0.9，峰时段为12:00-19:00，平时段为07:00-12:00及19:00-23:00，谷时段为23:00-07:00。本发明的状态表示为长度为7的数组向量，动作表示为长度为5的数组向量，策略网络和值网络的隐含层数量为2，，分别为128、64个神经元，隐含层的激活函数为ReLU。策略网络学习率为0.001，值网络学习率为0.002，软更新衰减系数为0.01，经验回收池1的最大容量为5000，经验回收池2的最大容量为5000，每次批量从经验池1中取出24组，从经验池2中取出12组。

本发明在训练模型中由于采用分类经验回放机制，训练时长为6h，当没有采用分类经验回放机制时，算法训练时间达到10h。因此采用本发明可以大大提高训练速度，同时算法的收敛性能更好。

为证实本发明的有效性，将基于DDPG算法、基于深度Q网络(DQN)算法和基于粒子群优化(PSO)算法的调度方案进行对比。PSO算法的种群规模取为30，最大迭代次数为200，学习因子为c1=c2=1.5，惯性权重因子采取指数下降形式动态自适应调整。对于深度Q网络算法，输入状态为本发明所设定的状态空间，输出为状态-动作对的Q值，将微型燃气轮机出力及储能充放电分别以9kW、10kW为间隔，离散为5个和7个动作值，因此深度Q网络的输入层为15个神经元，输出层为140个神经元，不同调度方法下微网的运行成本有所不同，基于DDPG算法的调度运行成本为2266.75元，本发明相比于基于DQN算法和PSO算法降低了6.43%和11.23%，表明本发明能够更好的对微网的运行调度进行优化。

实施例二

参考图6，本发明所述的微网优化运行策略生成系统包括：

建立模块1，用于建立深度确定性策略梯度算法下的神经网络模型；

优化模块2，用于以微网总运行成本最低以及新能源消纳程度最大为优化目标，基于分类经验回放机制，采用深度确定性策略梯度算法对神经网络模型进行优化。

获取模块4；用于针对微网，获取深度确定性策略梯度算法的状态空间S，所述深度确定性策略梯度算法的状态空间S包括风光发电出力、用户负荷量、分时段电价、锂电池荷电状态以及所处时段；

生成模块3，用于将深度确定性策略梯度算法的状态空间S输入到优化后的神经网络模型，以生成微网优化运行策略。

实施例三

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述微网优化运行策略生成方法的步骤，其中，所述存储器可能包含内存，例如高速随机存储器，也可能还包括非易失性存储器，例如，至少一个磁盘存储器等；处理器、网络接口、存储器通过内部总线互相连接，该内部总线可以是工业标准体系结构总线、外设部件互连标准总线、扩展工业标准结构总线等，总线可以分为地址总线、数据总线、控制总线等。存储器用于存放程序，具体地，程序可以包括程序代码、所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

实施例四

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述微网优化运行策略生成方法的步骤，具体地，所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器可以包括随机存储存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器可以包括只读存储器（ROM）、硬盘、闪存、光盘、磁盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种微网优化运行策略生成方法，其特征在于，包括：

2.根据权利要求1所述的微网优化运行策略生成方法，其特征在于，深度确定性策略梯度算法中的五元组为（S、A、L、r、γ），其中，S为状态空间，A为动作空间，L为状态转移概率，r为奖励函数，γ为折扣因子。

3.根据权利要求2所述的微网优化运行策略生成方法，其特征在于，动作空间A包括微型燃气轮机出力及锂电池充放电功率。

4.根据权利要求3所述的微网优化运行策略生成方法，其特征在于，在对神经网络模型进行优化的过程中，当没有弃风弃光以及状态动作越限的情况时，则对神经网络模型进行优化过程中的奖励函数为：

其中，

为t时间段微网的总运行成本，d为正数。

5.根据权利要求4所述的微网优化运行策略生成方法，其特征在于，微网总运行成本

为：

其中，

6.根据权利要求3所述的微网优化运行策略生成方法，其特征在于，在对神经网络模型进行优化的过程中，当存在弃风、弃光情况或者动作、状态不满足约束时，则对神经网络模型进行优化过程中的奖励函数为：

7.根据权利要求6所述的微网优化运行策略生成方法，其特征在于，弃风/弃光惩罚F₁(t)为：

8.根据权利要求6所述的微网优化运行策略生成方法，其特征在于，可控设备动作及状态越限惩罚F ₂及F ₃分别为：

9.一种微网优化运行策略生成系统，其特征在于，包括：

获取模块（4）；用于针对微网，获取深度确定性策略梯度算法的状态空间S，所述深度确定性策略梯度算法的状态空间S包括风光发电出力、用户负荷量、分时段电价、锂电池荷电状态以及所处时段；

生成模块（3），用于将深度确定性策略梯度算法的状态空间S输入到优化后的神经网络模型，以生成微网优化运行策略，其中，在对神经网络模型进行优化的过程中，以微网总运行成本最低以及新能源消纳程度最大为优化目标，基于分类经验回放机制，采用深度确定性策略梯度算法对神经网络模型进行优化。

10.根据权利要求9所述的微网优化运行策略生成系统，其特征在于，还包括：

建立模块（1），用于建立深度确定性策略梯度算法下的神经网络模型；

优化模块（2），用于以微网总运行成本最低以及新能源消纳程度最大为优化目标，基于分类经验回放机制，采用深度确定性策略梯度算法对神经网络模型进行优化。

11.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述微网优化运行策略生成方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述微网优化运行策略生成方法的步骤。