CN113435793A

CN113435793A - 一种基于强化学习的微电网优化调度方法

Info

Publication number: CN113435793A
Application number: CN202110908101.9A
Authority: CN
Inventors: 张靖; 叶永春; 范璐钦; 何宇; 韩松; 郝正航; 马覃峰
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-09-24

Abstract

本发明涉及一种基于强化学习的微电网优化调度方法，包括：获取微电网风光元件的预测信息以及电源的边界信息，搭建基于强化学习的微电网优化调度强化学习模型；基于强化学习的微电网优化调度强化学习模型进行自学习，并积累自学习过程中学习到的调度知识，得到拥有先验调度知识的微电网；通过迁移学习挖掘和利用学习到的调度知识，搭建相似度计算模型，用于实现所述调度知识的再利用；在新的微电网优化调度任务中利用先验调度知识进行微调学习，获得新任务的优化调度策略。本发明方法将强化学习和迁移学习引入到微电网优化调度中，强化学习具备强大的自学习和记忆能力，并且能够将寻优过程中学习到的经验知识储存在神经网络参数中。

Description

一种基于强化学习的微电网优化调度方法

技术领域

本发明涉及智能电网技术领域，特别是涉及一种基于强化学习的微电网优化调度方法。

背景技术

随着社会电力需求的快速增长，传统电网正面临着化石资源枯竭导致的供需发展不平衡问题，以及使用传统能源而造成的全球变暖、臭氧层破坏等生态环境问题。可再生能源作为一种绿色环保的可持续能源，在生产和消费过程中能够减少对环境的污染，在一定程度上缓解能源短缺和生态环境问题。因此世界各国开始聚焦以可再生能源为核心的分布式发电技术，但受到气候、环境等因素的影响，这类分布式发电技术的供电质量和可靠性无法保证。基于此，美国于2003年首次提出了微电网这一概念，微电网的提出旨在实现大规模分布式电源的高效灵活应用。优化调度作为微电网运行的核心，一直是微电网相关技术研究的热点。微电网优化调度是在满足用户负荷需求和保证系统可靠性的前提下，合理分配系统内部各元件的能量流，最大限度地实现微电网资源的优化配置。如何有效地管理微电网中的能量流，充分发挥微电网的优势，提高能源利用率的同时，保障系统的经济效益，已成为学者们关注的重点，因此，深入研究微电网优化调度问题在理论和实际工程等方面具有十分重要的意义。

目前，国内外学者都非常重视微电网调度优化方面的研究，他们进行了大量的研究工作，研究思路基本是通过协调常规发电、分布式发电、储能和需求侧管理，建立相应的目标函数，然后利用算法求解调度策略。现阶段对于微电网优化调度或其他优化问题的求解算法均是在经典数学方法和启发式算法的基础上做出的改进。1)经典数学方法。例如牛顿法、线性规划、二次规划、内点法等，这些方法在求解速度及收敛可靠性方面具有优势，但当问题是复杂的非线性，目标函数及约束条件是非连续性时，寻优性能无法保证，容易陷入局部最优甚至失效，应用灵活性差。2)智能算法，例如混合整数线性规划方法、动态规划方法、遗传算法、粒子群优化算法、蚁群算法等，相比经典数学方法而言，启发式算法对数学模型依赖较小，容易处理非线性问题，应用灵活性高，在电力系统的不同优化问题中应用广泛，但启发式算法的参数设定随机性较高，结果受其影响较大

通过深入分析，发现这两类算法共同存在一个问题，对于优化任务的求解是孤立的，在学习过程中均没有对学习到的经验知识进行有效的积累，所以在面对新的任务时不得不重头开始学习，简单的来说，就是不具备对优化信息的积累和利用的能力。随着多种微电网组织形式更加的多元化，许多难以预料的控制问题都会呈现出来，因此我们需要加强对学习到的经验知识进行有效的积累和利用，以便能够高效快速的获得优化调度策略，实现较好的经济效益。

通过对机器学习的研究，发现强化学习具备强大的自学和记忆能力，迁移学习能够实现知识的迁移，所以本发明提出了基于强化学习的微电网优化调度方法。

发明内容

本发明的目的是通过引入强化学习，同时结合迁移学习解决上述问题，实现调度知识的自学习积累并实现对积累的调度知识的迁移利用。

为实现上述目的，本发明提供了如下方案：

一种基于强化学习的微电网优化调度方法，包括：

S1、获取微电网风光元件的可观测特征信息，搭建微电网优化调度强化学习模型；

S2、基于所述微电网优化调度强化学习模型进行自学习，并积累自学习过程中学习到的调度知识，得到拥有先验调度知识的微电网；

S3、通过迁移学习挖掘和利用所述学习到的调度知识，搭建相似度计算模型，用于实现所述调度知识的再利用；

S4、在新的微电网优化调度任务中利用先验调度知识进行微调学习，获得优化调度策略。

优选地，S1中，所述微电网由风力发电系统、光伏发电系统、柴油发电机、储能系统以及负荷的典型并网型微电网组成。

优选地，所述微电网优化调度强化学习模型的建立包括三个部分，分别为：

状态空间：用于提供给所述微电网的可观测特征信息；

动作空间：由所述状态空间中参与优化调度的控制变量决定，其中包含完成目标任务的各决策变量；

奖励函数：由所述微电网运行成本和违反蓄电池容量约束条件的惩罚项定义。

优选地，所述可观测特征信息包括：、负荷需求、储能荷电状态、风力发电机输出功率、光伏发电系统输出功率。

优选地，S1中，所述搭建微电网优化调度强化学习模型的过程具体包括：

S1.1、获取风光分布电源的输出功率以及可控分布式电源的输出功率的动态信息，搭建元件模型；

S1.2、根据微电网的实际运行情况，建立微电网的优化调度目标函数，并结合强化学习理论搭建微电网优化调度强化学习模型。

优选地，所述元件模型具体包括：

风力发电模型，用于计算风力发电机的输出功率；

光伏物理模型，结合光伏阵列安装角度、转换效率，建立系统输出功率数学模型；

蓄电池模型，用于衡量蓄电池内部的剩余电量占蓄电池总容量的比重；

柴油发电机模型，用于计算柴油发电机发电过程中所涉及的燃料费用。

优选地，所述微电网的优化调度目标函数包括：

分布式电源运行费用F₁目标函数和微电网的交互费用F₂目标函数。

优选地，S3中，所述迁移学习挖掘的过程具体为：

采用欧式距离的相反数计算不同任务间的相似度：

假设源任务集中有N个源任务，每个源任务各时刻的实际供需电能需求P^m(t)表示为：

其中，

分别表示各源任务t时刻的负荷需求、光伏发电出力和风力发电出力信息。

目标任务各时刻的实际供需电能需求P^obj(t)表示为：

其中，

分别表示目标任务t时刻的负荷需求、光伏发电出力和风力发电出力信息。

任务间的相似度r_m：

其中，P^obj(t)、P^m(t)分别表示目标任务和源任务的t时刻实际供需电能需求。

本发明的有益效果为：

本发明将强化学习和迁移学习引入到微电网优化调度中，强化学习具备强大的自学习和记忆能力，并且能够将寻优过程中学习到的经验知识储存在神经网络参数中。基于强化学习的微电网优化调度方法能够在获取最优调度策略的过程中将学习到的调度知识进行积累，当面对新的且相似的调度任务时，可通过迁移学习的手段实现调度知识(参数)迁移共享，让新调度任务的智能体拥有先验知识，进而提高智能体自身的学习效率，提升寻优速度。相较于传统的优化算法单一的寻优功能，本发明所提方法具备的优势(调度知识积累、调度知识的挖掘利用)是传统优化算法所不能比拟的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于强化学习的微电网优化调度方法示意图；

图2为本发明典型并网型微电网示意图；

图3为本发明实施例中基于深度双Q网络(DDQN)的优化策略的学习效果示意图；

图4为本发明实施例中基于深度确定性策略梯度(DDPG)的优化策略的学习效果示意图；

图5为本发明实施例不同方法策略比较示意图；

图6为本发明实施例的目标任务与各源任务的实际供需电能相似度示意图；

图7为本发明实施例的目标任务调度策略示意图；

图8为本发明实施例学习评分曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

本发明实施例进一步思考了微电网优化调度的基础条件和决策因素。微电网优化调度的本质是在已知风光等分布式电源出力和负荷需求的基础条件下，通过微电网中可控元件和大电网的联合决策，以最优的能量调度策略满足风光等分布式电源出力和负荷需求之间的能量差。风光等分布式电源出力和负荷需求分别受气候和用户行为习惯影响，而气候的变换和用户的行为习惯与地理位置相关，虽然两者具有很强的不确定性，但同一地区和相邻地区的气候和用户行为突变几率较小，因此同一地区相似日及相邻地区的微电网风光等分布式电源出力和负荷需求具有极高的相似性，那么同一地区相似日及相邻地区的微电网的实际供需曲线也具有很强的相似性。

本发明利用这种相似性，设计如附图1所示的微电网优化调度方法。该方法涉及强化学习理论和迁移学习理论。强化学习是指智能体基于状态，并不断通过与环境交互获得策略行为反馈指导动作，并最终学习到有效策略达到回报最大化或特定目标的人工智能算法。迁移学习是一种机器学习的方法，指将在某一领域或任务(称为源任务)中学到的知识迁移到不同但相似的领域或新任务(称为目标任务)中进行应用，进而更好、更快地帮助新任务完成学习。

本发明所提的方法分为两个部分。第一部分是利用强化学习获得最优调度策略，并在学习过程中完成调度知识的学习和积累。首先获取微电网的风光等元件的预测信息(例如：风速、负荷需求等)以及可控分布式电源的边界信息(例如：储能的充放电上下限、柴油发电机的单位爬坡功率限制)，然后搭建强化学习的神经网络结构，让智能体以深度确定性策略梯度和时序差分法的方式进行自学习，并最终获得微电网的优化调度策略。同时以参数化的形式有效积累学习过程中学习到的调度知识。第二部分是通过结合迁移学习充分挖掘和利用所积累的调度知识，搭建以欧式距离相反数为核心的新旧调度任务之间的相似度计算模型，通过参数迁移共享的形式打通调度知识共享渠道，实现调度知识的再利用，随后让智能体在拥有先验调度知识的情况下再次通过强化学习进行微调学习，最终获得一个贴合新调度任务目标的优化调度策略。这一过程实现了调度知识的更新和再积累。

一种基于强化学习的微电网优化调度方法，包括：

(一)、模型搭建：

获取微电网风光元件的可观测特征信息，搭建微电网优化调度强化学习模型；

微电网一般由储能系统、分布式电源及能量转换装置等组成，可独立运行，也可通过联络线与主网并列运行。分布式电源的能源资源根据性质的不同可分为两类，一类是以风光为代表的可再生能源，另一类是以煤炭、柴油为代表的化石能源。本发明实施例以包含风力发电、光伏发电、柴油发电机、储能设备以及负荷的典型并网型微电网作为研究对象(如附图2所示)，对微电网优化调度进行研究。

为了能够获取风光分布电源的输出功率，以及可控分布式电源的输出功率的动态情况，结合实际情况和理论搭建了以下元件模型。随后根据微电网的实际运行情况，建立了微电网的优化调度目标函数。同时结合强化学习理论搭建了基于强化学习的微电网优化调度的强化学习模型，并根据微电网优化调度问题特性设计了迁移学习的知识迁移规则。

1、元件模型

A、风力发电机模型

风力发电机模型的搭建是为了计算风力发电机的输出功率。风力发电机的输出功率主要源于风速，根据风力发电机的功率特性曲线可知，当实际风速小于切入风速时，叶片在摩擦阻尼的作用下不会发生转动，风力发电机无法输出功率；当实际风速大于切入风速小于额定风速时，叶片接收到的旋转动力能够克服自身的静摩擦力，此时风力发电机的输出功率和风速呈正比关系，风速越大，输出功率越大；当实际风速大于额定风速小于切出风速时，风力发电机输出额定功率；当实际风速大于切出风速时，为了避免给叶片等设备带来结构性的损伤，风力发电机启动自我保护机制，切断电源，不再向外输出功率。综上，风力发电机的出力公式可表示为：

其中，P_t ^wind：风力发电机t时刻的出力；p_r：风力发电机的额定功率；v_t：t时刻的风速；v_ci、v_r、v_co分别表示风力发电机的切入风速、额定风速和切出风速。

B、光伏模型

光伏发电系统的输出功率受太阳辐射强度以及太阳能电池板的转换率影响，本实施例中设计的光伏发电系统模型是物理模型，即参照光伏阵列的发电原理，充分对太阳辐射强度和模块自身特性进行考虑，结合光伏阵列安装角度，转换效率等，建立系统输出功率数学模型。任意时刻的光伏发电系统输出功率计算公式表示为：

P_t ^pv＝η^pvA_sR_s(t)

P_t ^pv：光伏发电系统t时刻的输出功率；A_s：光伏电源接收太阳辐射的照射面积；η^pv：光伏发电系统的能量转化率；R_s：太阳辐射强度。

C、蓄电池模型

荷电状态(State of Charge,SOC)是衡量蓄电池的电量的重要指标，它指蓄电池内部的剩余电量占蓄电池总容量的比重，任意时刻的荷电状态由上一时刻的蓄电池的剩余容量和充放电功率决定，所以每个时间步长下蓄电池的荷电状态的动态模型可描述为：

soc_t：t时刻的蓄电池荷电状态；soc_t-1：t-1时刻的蓄电池荷电状态；

t-1时刻蓄电池的充放电功率(

充电。

放电。

闲置。)；η：充电效率；ξ：放电效率；Δt：充放电时间步长；S_ess：蓄电池的额定容量。

为了保证蓄电池的正常运行，降低蓄电池的寿命损耗，需要对蓄电池的荷电状态、充放电功率进行限制。

约束：soc_min≤soc_t≤soc_max

D、柴油发电机

柴油发电机的发电涉及燃料费用的消耗，因此它的运行成本表现为发电过程中产生的燃料费用，与传统火力发电相似，柴油发电机的燃料费用是关于输出功率的二次函数。具体的数学表达式为：

柴油发电机t时刻的输出功率；a、b、c分别为柴油发电机的成本系数。

约束：

分别表示柴油发电机输出功率的上下限；

分别表示柴油发电机爬坡功率的上下限。

2、目标函数

本实施例在考虑微电网运行经济效益的前提下，建立了包含分布式电源运行费用(F₁)和微电网的交互费用(F₂)的目标函数。在本发明的微电网模型中，风光是可再生能源，发电过程中无需消耗燃料，发电成本可以忽略不计，而柴油发电机的发电过程涉及燃料的使用，因此分布式电源运行费用由柴油发电机在运行过程中产生的燃料费用组成。当系统自身无法消纳不平衡电能时，需要依赖大电网完成功率平衡，在交互过程中会产生交易费用，因此微电网的交互费用由微电网与大电网的交易费用组成。

3、强化学习模型

强化学习中，模型建立包含三个部分，状态空间、动作空间和奖励函数。

状态空间：本发明将微电网定义为智能体，微电网的各组成元件共同组成环境，响应智能体的互动，环境提供给智能体的可观测特征信息应包括风力发电机输出功率、光伏发电系统输出功率、负荷需求、储能荷电状态，因此状态空间S对应表示为：

S＝{P_pv，P_wt，P_load,soc}

其中，P_pv、P_wt、P_load、soc分别表示光伏发电系统、风力发电系统、负荷需求、蓄电池的观测特征信息。

t时刻的观测特征信息s_t表示为：

其中，P_pv(t)为光伏发电系统在t时刻的出力；P_wt(t)为风力发电系统在t时刻的出力；P_load(t)为负荷在t时刻的负荷需求；soc(t)为t时刻蓄电池的荷电状态。

动作空间：动作空间由环境中参与优化调度的控制变量定义，包含完成目标任务的各决策变量。为了避免出现无效动作，还要考虑各决策变量的取值限制范围，本发明的微电网优化调度目标函数中，决策变量是柴油发电机输出功率和蓄电池的充放电功率，所以动作空间为：

A＝{P_ess,P_diesel}

同时动作空间的动作范围在柴油发电机的爬坡约束和最大输出功率以及蓄电池的充放电功率约束条件限制区间内，因此，t时刻的动作空间a_t表示为：

其中，P_die(t)表示柴油发电机在t时刻的输出功率；P_ess(t)表示蓄电池在t时刻的充放电功率；

表示蓄电池的最大充电功率；

表示蓄电池的最大放电功率。

奖励函数：本实施例的微电网优化调度目标是微电网运行成本最小化，因此前述的目标函数必然成为奖励函数最主要的一部分(r1_t(a_t))。但为了避免智能体为获取最小运行成本而违反决策变量约束，本研究还考虑将惩罚项(r2_t(a_t))加入奖惩函数的设计中。因此奖励函数由微电网运行成本和违反蓄电池容量约束条件的惩罚项定义，即：

r_t(a_t)＝r1_t(a_t)+r2_t(a_t)

4、迁移学习的迁移规则

本发明根据这一相似性制定了如下的调度知识迁移规则：

1)选择度量函数。选择合适的相似性度量函数评估源任务和目标任务的相似性程度。

2)计算任务间相似度的程度。根据选择的相似度度量函数，计算目标任务与源任务集中各个源任务的相似度的程度。

3)调度知识的迁移。在得到的度量结果中，选出相似度最高的源任务，并把它拥有的调度知识迁移到目标任务中去。

本实施例采用欧式距离的相反数计算不同任务间的相似度。

假设源任务集中有N个源任务，每个源任务各时刻的实际供需电能需求表示为P^m(t)：

目标任务各时刻的实际供需电能需求P^obj(t)表示为：

任务间的相似度r_m：

实施例2

为了验证本发明方法的技术效果，本实施例通过仿真实验来进行进一步验证。

本实验选取自GitHub项目的辐射强度和用户消耗的预测数据，以及风能数据库项目的风速预测数据。

实验一、

该实验对比了传统强化学习(深度双Q网络，DDQN)和本发明所采用的强化学习(深度确定性策略梯度,DDPG)的学习效果(如图3和图4所示)，前者通常将动作空间进行离散化出力，而后者能够出力连续性的动作空间。

两者的调度策略中蓄电池动作功率、柴油发电机动作功率、与大电网的交易功率等方面的比较如图5所示。经济与电量指标如表1所示。

表1

实验二、

该实验，分为源任务学习阶段和目标任务学习阶段，在源任务学习阶段，针对某一地区的微电网A进行了为期一年的调度知识积累，在目标任务学习阶段，本实施例选取了与微电网A具有相似结构的微电网B的典型日的微电网优化调度任务作为目标任务。

通过迁移规则，计算得到了目标任务与各个源任务之间的相似程度，相似度计算结果如图6所示。其中目标任务与源任务330的相似度最高，所以我们将源任务330的调度知识迁移至目标任务。图7是目标任务通过迁移学习最终得到的调度策略。

在进一步研究任务间的相似度高低对目标任务智能体的迁移学习性能影响方面，以智能体所获评分及收敛速度作为评价指标。在完成对源任务330的迁移学习基础上，还从源任务集中随机选取了两个源任务(源任务65、源任务247)的调度知识让目标任务智能体进行迁移学习，学习评分如图8所示。

通过上述两个实验得出以下结论：

1)DDPG的优化调度策略在运行成本、柴油发电机燃料费用、微电网与大电网交易等方面的经济性均好于DDQN的优化调度策略。DDPG的优化调度策略与大电网的交易电量均低于DDQN的优化调度策略，这几项指标进一步表明了动作空间离散化处理对动作选择灵活性的影响。DDQN对动作空间的离散化处理降低了动作选择的灵活性，所以微电网对大电网的依赖性较强，整体性能不如DDPG。综上,深度双Q网络对动作空间离散化处理不能灵活地匹配供需之间的不平衡功率。而深度确定性策略梯度在设定动作空间时，并未对蓄电池动作空间和柴油发电机动作的连续空间进行离散化处理，使得蓄电池和柴油发电机成本更低、对大电网依赖性更低的更优调度策略。

2)从图8的评分曲线中可以观察到，未采用迁移学习时，目标任务智能体迭代学习至epoch＝505左右才得到收敛。而当目标任务的智能体对任一源任务调度知识进行迁移学习时，智能体在学习初期就能快速锁定最优策略区间，在经历微调训练后，对相似度最高的源任务330进行调度知识迁移的智能体在epoch＝152左右时达到收敛，对相似度居中的源任务65进行调度知识迁移的智能体的收敛速度相对优势较小，对相似度较小的源任务247进行调度知识迁移的智能体的收敛结果具有偏差性，得到的调度策略逊于未采用迁移学习的智能体，这是因为源任务与目标任务的相似度较低，源任务提供的先验调度知识的有效性无法保证，不能够对目标任务的学习起到正向指导作用。综上，源任务与目标任务之间的相似度和调度知识的正向作用性成正相关，相似度越高，调度知识的正向驱动性越高，目标任务在学习效率方面的提升更快。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。