CN114400704A

CN114400704A - 基于双q学习考虑经济调节的孤岛微电网多模式切换策略

Info

Publication number: CN114400704A
Application number: CN202210079342.1A
Authority: CN
Inventors: 窦春霞; 李桐舟
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-04-26

Abstract

本发明公开了基于双Q学习考虑经济调节的孤岛微电网多模式切换策略，该策略包含两种设计方案：1、设计了一种基于双Q学习的混合控制策略，解决了微电网针对不同的外部环境，选择电气设备最优切换指令问题；2、提出了一种基于共识算法的经济控制方法，该方法采用协商一致性算法，解决了微电网发电边际成本和污染排放的优化问题；本发明对保证微电网稳定运行，提升微电网经济性能，降低微电网污染排放等方面问题具有一定的指导意义。

Description

基于双Q学习考虑经济调节的孤岛微电网多模式切换策略

技术领域

本发明涉及一种基于双Q学习考虑经济调节的孤岛微电网多模式切换策略的设计方法，属于智能电网控制领域。

背景技术

交流微电网系统的主要任务之一是在外部环境发生变化的情况下，充分利用可再生能源来满足负荷需求。为了实现这一目标，需要设计有效的控制机制。然而，由于外部环境的不断变化，连续控制信号(例如，每个分布式能源正常运行所需的控制信号)和离散控制信号(例如，每个分布式能源模式切换所需的信号)将在系统中同时存在，因此交流微电网系统通常被认为是一个混合动力系统。系统运行特点如下：

(1)面对不同的外部条件，交流微电网系统需要频繁地启动和停止各种电气设备，这使得被控系统应具有多模态切换的特点。

(2)由于风力发电机和光伏的不确定性，储能单元和柴油发电机需要在不同情况下调整充放电方式。在这种情况下，储能单元和柴油发电机应具有多模态切换特性。

(3)各种设备连续运行时，切换指令离散生成。由于离散信号和连续信号在交流微电网系统中同时出现，系统的运行过程具有混合特性。

目前已有多种模式切换策略的研究，而现有的这些混合控制策略只考虑了运行稳定性，而没有考虑运行经济性。同时，这些控制策略中大部分的切换指令需要人工计算，这将消耗大量的人力资源。在考虑运营稳定性的同时，也要考虑运营的经济性。在交流微电网系统中，由可再生能源(如风力发电机组和光伏发电机组)产生的电能通常可以帮助用户降低发电成本，但由于可再生能源所产生的随机性，系统不能完全消除供给的不确定性。因此设计储能单元和柴油发电机等相应的配套技术是非常重要的。然而，使用柴油发电机发电会增加发电成本和污染物排放。

正是由于上述原因，目前应设计一种既可行又经济的控制策略，使得交流微电网在考虑系统经济性的同时，能及时应对系统外部环境的不断变化，做出最合理的模式切换指令，从而达到交流微电网系统稳定运行的作用。

发明内容

本发明需要解决的技术问题是提供一种基于双Q学习考虑经济调节的孤岛微电网多模式切换策略，该控制策略既可行又经济，使得交流微电网在考虑系统经济性的同时，能及时应对系统外部环境的不断变化，做出最合理的模式切换指令，从而达到交流微电网系统稳定运行的作用。

为解决上述技术问题，本发明所采用的技术方案是：

基于双Q学习考虑经济调节的孤岛微电网多模式切换策略，其特征在于：设计混合控制结构，该结构为信息物理系统，包括信息层和物理层；

信息层包括D-S融合部分、双Q学习部分和一致性控制部分；其中，D-S融合部分用于产生指示当前运行状况的信号，提供合适的切换策略；双Q学习部分用于针对不同的运行工况独立搜索合适的控制策略；一致性控制部分用于降低柴油发电机的发电成本和污染物排放；

物理层包括为用户负荷提供电能的各能源发电储能单元、传感器和逆变器控制部分；其中，各能源发电储能单元包括风力发电机、光伏发电、储能单元和柴油发电机，用于提供电能维持负荷正常运行；传感器用于传输物理层中各能源发电储能单元的电压数据，构成电压判据；逆变器控制部分用于维持各能源发电储能单元的正常运行；

定义混合控制结构中风力发电机、柴油发电机、光伏发电、储能单元以及用户负荷的运行方式，传感器将物理层母线节点的电压数据传输到信息层，信息层根据传输的电压数据并基于D-S融合部分生成电压准则L，评价系统的整体稳定性，同时为双Q学习提供初始状态值，基于双Q学习算法得到多模态切换策略，将生成的模态切换信号发送到分布式的各能源发电储能单元，完成分布式能源模式切换，同时对柴油发电机进行经济调控，设计经济控制策略，降低发电成本，减少污染物排放。

本发明技术方案的进一步改进在于：定义的风力发电机、柴油发电机、光伏发电、储能单元以及用户负荷的运行方式如下：

风力发电机的运行方式：当风速大于最小允许风速且小于额定风速时，风力发电机在最大功率点MPPT模式下工作；当风速大于额定风速且小于最大允许风速时，风力发电机在恒功率模式下工作；

光伏发电的运行方式：光伏发电是一种利用太阳能发电的方式，将多个光伏电池组合成一个光伏阵列来提供能量，当光强大于阈值时，光伏阵列将以最大功率点MPPT模式工作，否则将关机；

储能单元的运行方式：所述储能单元不仅可以充电，还可以放电；储能单元的充放电过程是电能与化学能相互转换的过程；在充电过程中，电能转化为化学能并储存起来，在放电过程中，转换相反；

柴油发电机的运行方式：在微电网中，柴油发电机作为辅助能量，当风力发电机、光伏发电和储能单元不能满足用户负荷需求时，柴油发电机提供额外的能量，柴油发电机有两种运行模式：工作模式和待机模式；

用户负荷的运行方式：考虑了两种负荷：固定负荷和非临界负荷，微电网必须保证临界负荷的安全供电，当供电远小于负荷需求时，非临界负荷通过减载来起到维持功率平衡的作用。

本发明技术方案的进一步改进在于：基于D-S融合部分生成电压准则L的步骤：首先，所有测量到的母线节点电压偏差将形成一个识别框架U，它代表一个不确定元素

的总体集；然后利用D-S融合理论划分的证据集对电压识别框架进行判断，得到每个个体的信度函数，信度函数是根据研究的思路所设置的认为函数，通过D-S组合原则，对信息进行融合，将电压偏差不符合规定的个体淘汰；最后，利用信息融合规则将多个判断结果整合为一个新的电压判断指标，可作为评价微电网整体电压稳定性的综合指标。

本发明技术方案的进一步改进在于：基于双Q学习算法得到多模态切换策略的方法如下：

步骤一：双Q学习算法采用经验回放机制将采集到的数据以存储单元的形式实时存储，得到样本存储，Q将根据式(1)的方式进行更新：

式(1)中，

是双Q学习经验回放机制下的Q值；Q_target为目标Q值；R_t+1为回报函数；γ为学习因子，通常取0.01；S_t+1为状态值，a为动作值；

另外，Q和Q-有两组不同的参数：θ和θ^-，用于选择Q的最大值所对应的动作；用于评价最优动作所对应的Q值，θ、θ^-分别使用两组参数完成动作选择和策略评估，降低了Q值被高估的风险；在每次迭代中，实际网络Q会用学习系数γ来学习目标网络Q-的；Q-和实际Q之间的误差在很小的范围内，降低了寻找最优解的难度；

步骤二：将随机选取的样本作为当前网络的输入，并得到当前网络Q，损失函数将由具有延迟C步的目标网络获得，θ通过式(2)将损失函数L_i(θ_i)最小化来计算：

式(2)中，S为更新前的状态，a为更新前的动作；S′为更新后的状态，a′为更新后的动作；θ_i是第i次迭代中当前网络的参数；

是第i次迭代中目标网络的参数；θ_i实时更新；

在每次C迭代后更新；如果损失函数L_i(θ_i)不同于θ_i，那么可用步骤三中梯度下降法对参数进行更新；

步骤三：根据式(3)，用梯度下降法更新，每C步更新一次，得到目标Q:

式(3)中，

为损失函数下降梯度；

为S状态下，a动作下Q的下降梯度；通过(3)式，可得θ_i和

的更新公式:

其中θ_i+1和θ_i+c分别是第i+1次迭代和第i+c次迭代的网络参数,α是Q值调整更新的学习速率，取值[0,1],根据公式(3)和(4)，Q可以定义为：

步骤四：发现动作集和状态集将被发送到两个QL过程，而且通过两个网络的合作，可以根据目前的外部环境和微电网的运营情况，有效的得到相应的动作指令。

本发明技术方案的进一步改进在于：对柴油发电机进行经济调控提出了最小发电成本和减少污染物排放的两个目标优化模型，该模型采用一致性算法进行求解，具体设计过程如下：

发电成本与污染物排放成本描述为幂的二次函数，即：

式(6)中，Q₁为发电成本函数；Q₂为污染物排放成本函数；P_DG,i为柴油发电量；α_i、β_i、γ_i分别为发电成本二次项、一次项、常数项系数；α′_i、β′_i、γ′_i分别为污染物排放成本二次项、一次项、常数项系数。

在实现最小发电成本和减少污染物排放这两个目标时，还应确保建立下列等式约束；

式(7)中，P_pv为每台光伏发电机发电量；P_WT,i为每台风力发电机发电量；P_ESU,i为每台储能电池的出力情况；P_DG,i为每台柴油发电机发电量；P_Load,i为负荷量。

确定两个目标函数的权重系数λ和1-λ后，采用协商一致算法求解式(8)所示的目标函数；

在式(8)中加入拉格朗日乘子l，得到：

计算式(8)的偏导数后，得到：

令式(10)等于零，需要满足以下条件:

其中[2α_iλ+2α′_i(1-λ)]P_i+λβ_i+(1-λ)β_i′称为第i次柴油发电机考虑污染物排放的边际成本，将第i次DG记为l_i；获得最优值的条件是柴油发电机的边际成本必须是一致的，因此，使用式(12)这样的控制器来完成任务：

根据上述公式，将最终的边际成本调整为l_L,则得到第i个柴油发电机的输出功率为

每个柴油发电机都有功率限制，最小值P_DG.i.min，最大值P_DG.i.max，则各柴油发电机实际输出为

经济控制策略的设计完成，通过一致性控制器调节边际成本达到一致。

由于采用了上述技术方案，本发明取得的技术进步是：

(1)本发明提出了一种基于双Q学习算法的多模式切换策略，该算法首先利用神经网络生成DQL过程中的价值函数，然后，DQL算法将用于自动生成电气设备的操作指令，使多模式切换能够独立处理各种运行情况。

(2)本发明设计了一种基于一致性算法的控制策略，考虑污染物排放，通过调整微电网的边际成本来来调整柴油发电机的输出功率，在各种运行条件下降低微电网的发电成本和污染物排放。

附图说明

图1是本发明混合控制结构图；

图2是本发明简化的双Q学习结构图；

图3是本发明双Q学习操作的具体流程。

具体实施方式

本发明提出了一种基于双Q学习考虑经济调节的孤岛微电网多模式切换策略，是一种既可行又经济的控制策略，使得交流微电网在考虑系统经济性的同时，能及时应对系统外部环境的不断变化，做出最合理的模式切换指令，从而达到交流微电网系统稳定运行的作用。

大致包括以下流程：

(1)设计混合控制结构图，该结构为信息物理系统，由信息层和物理层组成。对本发明设计的信息物理系统的信息层和物理层的组成部分，工作任务及工作流程进行概括性介绍。

(2)设计实现各种能源模式切换并考虑柴油发电机发电成本及污染排放的切换方法。定义本发明系统中电气设备运行方式和和系统电压判据。采用D-S融合技术，通过电压数据评价系统的整体稳定性，得到L指数；根据分析，设计相应的切换指令，以保持微电网在不同情况下的稳定运行。

(3)设计基于双Q学习算法的多模态切换策略：首先，双Q学习采用经验回放机制将采集到的数据以存储单元的形式实时存储，然后，该算法将随机选取的样本作为当前网络的输入，并得到当前网络Q，损失函数将由具有延迟C步的目标网络获得，最后用梯度下降法更新，每C步更新一次，得到目标Q。发现动作集和状态集将被发送到两个QL过程(即当前网络和目标网络)。而且通过两个网络的合作，可以根据目前的外部环境和微电网的运营情况，有效的得到相应的动作指令。

(4)设计经济控制策略：由于可再生能源和储能装置发电成本较低，且几乎无污染排放，所以本发明的优化重点为柴油发电机，本发明所提出的经济性实际上包含两个方面：1.在保证能源供需平衡的前提下，柴油发电机发电成本最低；2.在优化发电成本的同时，还应尽量减少污染物的排放。

下面结合实施例对本发明做进一步详细说明：

构建如图1所示的混合控制结构图。该结构为信息物理系统，由信息层和物理层组成。其中信息层主要包括以下几部分：1.D-S融合部分，用于产生指示当前运行状况的信号，提供合适的切换策略；2.双Q学习部分，用于针对不同的运行工况独立搜索合适的控制策略；3.一致性控制部分，用于降低柴油发电机的发电成本和污染物排放。物理层包括以下几个部分：1.各能源发电储能单元，用于提供能量维持负荷正常运行；2.传感器，用于传输物理层中各能源的电压数据，构成电压判据；3.逆变器控制部分，用于维持能源的正常运行。

逆变器是将直流电转换成交流电的电网中常见的电力电子设备，电网系统复杂，单元繁多，逆变器作为电网传输的重要节点，也成为了电网相关研究的重点，逆变器控制策略也成为了重要的研究课题，本发明引入逆变器传统控制原理下垂控制，所谓下垂控制就是选择与传统发电机相似的频率一次下垂特性曲线作为微源的控制方式，即分别通过P/f下垂控制和Q/V下垂控制来获取稳定的频率和电压，这种控制方法对微网中的微源输出的有功功率和无功功率分别进行控制，无需机组间的通信协调，实现了微源即插即用和对等控制的目标，保证了孤岛下微电网内电力平衡和频率的统一，具有简单可靠的特点。

在图1中，整体运行过程描述如下：1.将物理层母线节点的电压数据传输到网络层；2.根据传输数据生成电压判据，通过D-S融合部分为双Q学习提供初始状态值。随后，双Q学习将生成的模态切换信号发送到各个分布式各能源发电储能单元，完成操作模式切换；3.对柴油发电机进行经济调控，降低发电成本，减少污染物排放。

设计实现各种能源模式切换并考虑柴油发电机发电成本及污染排放的切换方法。首先，定义本发明系统中电气设备运行方式。在本发明中定义的系统中电气设备运行方式大致如下：

(1)风力发电机的运行方式：当风速小于额定风速而大于最小允许风速时，风力发电机将在最大功率点(MPPT)模式下工作；当风速大于额定风速，小于最大允许风速时，WT将在恒功率模式下工作。

(2)光伏发电的运行方式：光伏发电是一种利用太阳能发电的方式，我们通常将多个光伏电池组合成一个光伏阵列来提供能量。当光强大于阈值时，光伏阵列将以最大功率点(MPPT)模式工作，否则将关机。

(3)储能装置单元的运行方式：一般来说，储能装置不仅可以充电，还可以放电。储能装置的充放电过程是电能与化学能相互转换的过程。在充电过程中，电能转化为化学能并储存起来。在放电过程中，转换相反。

(4)柴油发电机的运行方式：在微电网中，柴油发电机可以作为辅助能量。当可再生能源和储能装置不能满足负载需求时，需要柴油发电机提供额外的能量，柴油发电机有两种运行模式：工作模式和待机模式。

负荷的运行方式在本发明中，考虑了两种负荷：固定负荷(例如临界负荷)和非临界负荷(例如可中断负荷)。微电网必须保证临界负荷的安全供电，当供电远小于负荷需求时，非临界负荷通过减载来起到维持功率平衡的作用。

然后，基于D-S融合生成电压准则L：采用D-S融合技术，通过电压数据评价系统的整体稳定性。其主要过程如下:首先，所有测量到的母线节点电压偏差将形成一个识别框架U，它代表一个不确定元素

的总体集。然后利用D-S融合理论划分的证据集对电压识别框架进行判断，得到每个个体的信度函数，信度函数是根据研究的思路所设置的认为函数，通过D-S组合原则，对信息进行融合，将电压偏差不符合规定的个体淘汰。最后，利用信息融合规则将多个判断结果整合为一个新的电压判断指标，可作为评价微电网整体电压稳定性的综合指标。

设计基于双Q学习算法的多模态切换策略：双Q学习算法简化结构如图2所示，一方面，双Q学习可以使用体验回放机制，以内存单元的形式将来自外部环境的数据作为样本存储，此外，学习算法会随机选取样本作为当前网络的输入，这会干扰样本之间的相关性。另一方面，当我们计算目标函数时，目标网络Q-将选择来代替当前网络Q，经过C步迭代计算，Q-的目标网络也将被更新，即当前网络中的Q将被复制到目标网络中的Q-，用这样的方法，双Q学习可以减少当前网络Q和目标网络Q-之间的相关性。另外，Q和Q-和有两组不同的参数：θ和θ^-，用于选择Q的最大值所对应的动作；用于评价最优动作所对应的Q值，θ、θ^-分别使用两组参数完成动作选择和策略评估，降低了Q值被高估的风险。最后，Q将以以下方式更新：

式(1)中，

是双Q学习经验回放机制下的Q值；Q_target为目标Q值；R_t+1为回报函数(奖励函数)；γ为学习因子，通常取0.01；S_t+1为状态值，a为动作值。另外，Q和Q-有两组不同的参数：θ和θ^-，用于选择Q的最大值所对应的动作；用于评价最优动作所对应的Q值，θ、θ^-分别使用两组参数完成动作选择和策略评估，降低了Q值被高估的风险；在每次迭代中，实际网络Q会用学习系数γ来学习目标网络Q-的；Q-和实际Q之间的误差在很小的范围内，降低了寻找最优解的难度。其中，θ通过将损失函数最小化来计算，如式(2)所示：

其中，S为更新前的状态，a为更新前的动作；S′为更新后的状态，a′为更新后的动作；θ_i是第i次迭代中当前网络的参数；

是第i次迭代中目标网络的参数；θ_i实时更新；

在每次C迭代后更新；如果损失函数L_i(θ_i)不同于θ_i，那么可用步骤三中梯度下降法对参数进行更新；如果损失函数不同于θ_i，那么

其中，

为损失函数下降梯度；

为S状态下，a动作下Q的下降梯度。

由(3)式，可得θ_i和

的更新公式

其中θ_i+1和θ_i+c分别是第i+1次迭代和第i+c次迭代的网络参数。根据公式(3)和(4)，Q可以定义为：

将上述过程概括来讲：首先，双Q学习采用经验回放机制将采集到的数据以存储单元的形式实时存储，然后，该算法将随机选取的样本作为当前网络的输入，并得到当前网络Q，损失函数将由具有延迟C步的目标网络获得，最后用梯度下降法更新，每C步更新一次，得到目标Q。发现动作集和状态集将被发送到两个QL过程(即当前网络和目标网络)。而且通过两个网络的合作，可以根据目前的外部环境和微电网的运营情况，有效的得到相应的动作指令。

可再生能源和储能设备作为微电网中辅助的供电设备，在柴油发电机供电不足的情况下可有效地调节微电网出现的波动，其发电成本低，污染排放小等特点，在本发明中不作为优化的主要对象。本文针对柴油发电机发电成本高，污染排放大的这一特点，提出了以下两目标优化模型，该模型可采用一致性算法进行求解。具体设计过程如下。

在本研究中，在微电网能够满足自身负荷需求的前提下，提出了两个优化目标：1、最小发电成本；2、减少污染物排放。发电成本与污染物排放可以描述为幂的二次函数，即

其中，Q₁为发电成本函数；Q₂为污染物排放成本函数；P_DG,i为柴油发电量；α_i、β_i、γ_i分别为发电成本二次项、一次项、常数项系数；α′_i、β′_i、γ′_i分别为污染物排放成本二次项、一次项、常数项系数。

此外，在实现这两个目标时，还应确保建立下列等式约束：

其中，P_pv为每台光伏发电机发电量；P_WT,i为每台风力发电机发电量；P_ESU,i为每台储能电池的出力情况；P_DG,i为每台柴油发电机发电量；P_Load,i为负荷量。

确定两个目标函数的权重系数λ和¹-λ后，应采用协商一致算法求解如式(8)所示的目标函数：

在式(8)中加入拉格朗日乘子l，得到：

计算式(8)的偏导数后，得到：

令式(10)等于零，可以发现需要满足以下条件:

其中[2α_iλ+2α′_i(1-λ)]P_i+λβ_i+(1-λ)β′_i称为第i次柴油发电机考虑污染物排放的边际成本，将第i次DG的可记为l_i。获得最优值的条件是柴油发电机的边际成本必须是一致的。因此，可以使用式(12)这样的控制器来完成任务。

根据上述公式，将最终的边际成本调整为l_L。则可以得到第i个柴油发电机的输出功率为

每个柴油发电机都有功率限制(最小值P_DG.i.min，最大值P_DG.i.max)，则各柴油发电机实际输出为

经济控制策略的设计已经完成，通过一致性控制器可以调节边际成本达到一致。

本领域的技术人员容易理解，以上所述仅为本发明较佳实施方案而已，并不用以限制本发明，凡是在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。