CN117691586A

CN117691586A - 基于行为克隆的新能源基地微电网优化运行方法及系统

Info

Publication number: CN117691586A
Application number: CN202311701788.4A
Authority: CN
Inventors: 刘文霞; 莫明山; 何向刚; 胡彬; 马蕊; 胡江; 罗文雲; 娄素华; 奚泽立; 龙家焕; 罗洋; 秦柯; 王寅; 代江; 唐学用
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-03-12

Abstract

本发明公开了基于行为克隆的新能源基地微电网优化运行方法及系统，涉及微电网优化运行技术领域，包括根据新能源电网配置，构建新能源基地微电网系统架构；利用拉丁超立方抽样法生成若干个预训练场景数据；构建新能源基地微电网的环境模型和控制中心智能体模型；将生成的若干个预训练场景下的决策过程作为控制中心智能体的训练集，依次输入到控制中心智能体中，控制中心智能体通过行为克隆方法对训练集进行学习；将次日的预测数据输入到预训练后的控制中心智能体，智能体通过最大熵强化学习算法进行训练，形成新能源基地微电网的日前调度计划。通过实施行为克隆方法，我方发明能够从历史最优决策中学习从而在未来遇到类似场景时做出更高效的决策。

Description

基于行为克隆的新能源基地微电网优化运行方法及系统

技术领域

本发明涉及微电网优化运行技术领域，特别是基于行为克隆的新能源基地微电网优化运行方法及系统。

背景技术

新能源基地是一种解决新能源并网问题、提高新能源消纳率的优秀解决方案，新能源基地主要是将风、光新能源结合储能等资源，将大规模新能源进行外送。

在新能源基地微电网优化运行领域，强化学习经过良好的训练可以在新能源基地微电网的不同场景下做出决策，并展现出良好的性能。在新能源基地微电网中，可能涉及多种设备，决策变量多，导致强化学习算法的动作空间和状态空间很复杂。在新能源基地微电网复杂的动作空间和状态空间下，强化学习算法的智能体要想学习到最优策略就需要从零开始，通过不断地与环境交互、获得相应奖励的方式来学习，要经历一个漫长的训练过程。

强化学习算法应用于新能源基地微电网的优化运行中需要程序开发者设计一个良好的环境模型，包括智能体动作空间、状态空间、环境奖励值和环境变化模型，如果环境模型设计的不好，就很容易降低强化学习智能体的学习效果，即学习到较差的策略。

在《控制与决策》期刊的第37卷第7期中公开了《基于深度强化学习的微电网在线优化调度》的文章，该文章提出了一种基于深度强化学习的微电网在线优化调度策略，结合拉格朗日乘子法与SAC算法,提出一种新的深度强化学习算法来训练该神经网络，能够确保神经网络产生的调度决策满足网络潮流约束。但是，该文章的强化学习智能体是从初始化状态直接开始与环境交互训练，神经网络的参数从初始化状态逐渐更新，且该网络的优化结果受网络的结构参数影响较大，因此在训练效率和模型鲁棒性上存在较大的优化空间。

因此现有技术需要一种提高强化学习训练效率和鲁棒性的方法，来处理新能源基地微电网的优化调度问题。

发明内容

鉴于上述存在的问题，提出了本发明。

因此，本发明所要解决的问题在于：传统方法在环境模型设计的不好，就很容易降低强化学习智能体的学习效果，且受网络的结构参数影响较大。

为解决上述技术问题，本发明提供如下技术方案：基于行为克隆的新能源基地微电网优化运行方法，其包括，根据新能源电网配置，构建新能源基地微电网系统架构；利用拉丁超立方抽样法生成若干个预训练场景数据；构建新能源基地微电网的目标函数和约束条件，并针对生成的若干个预训练场景数据利用粒子群算法对模型进行求解，并记录每个场景下的最优解在调度周期内的决策过程；构建新能源基地微电网的环境模型和控制中心智能体模型，将目标函数替换为实时奖励函数，将约束条件替换为实时惩罚函数；将生成的若干个预训练场景下的决策过程作为控制中心智能体的训练集，依次输入到控制中心智能体中，构建行为克隆的损失函数，控制中心智能体通过行为克隆方法对训练集进行学习；将次日的预测数据输入到预训练后的控制中心智能体，智能体通过最大熵强化学习算法进行训练，形成新能源基地微电网的日前调度计划；次日控制中心智能体根据风电出力、光伏出力的波动，对调度计划进行实时修正。

作为本发明所述基于行为克隆的新能源基地微电网优化运行方法的一种优选方案，其中：所述新能源基地微电网系统架构包括新能源基地微电网系统架构由能源供给侧、能源储蓄侧；所述能源供给侧由光伏、风电和燃气轮机组成；所述能源储蓄侧由蓄电池组成；能源消纳侧由外送负荷组成。

作为本发明所述基于行为克隆的新能源基地微电网优化运行方法的一种优选方案，其中：所述生成若干个预训练场景数据包括，风电出力满足威布尔分布，光伏出力满足贝塔分布，拉丁超立方法分别根据风电出力和光伏出力的分布特性，通过分层抽样的方式生成对应的若干个场景数据；所述约束条件包括燃气轮机运行约束、蓄电池运行约束；所述决策过程包括，在调度周期内的决策过程用二元组(st，at)来描述，其中st表示t时刻观测到的环境状态，at表示t时刻控制中心智能体采取的动作；每个场景下的调度周期为24小时，所以每个预训练场景共产生24个二元组。

作为本发明所述基于行为克隆的新能源基地微电网优化运行方法的一种优选方案，其中：所述新能源基地微电网的环境模型由能源供给侧、能源储蓄侧和能源消纳侧的所有组件的数学模型组成，环境模型的观测空间表示为，

S＝[P^W,P^PV,L^e,P^GT_lasttime,ρ^buye,E^ES]

其中，P^W表示为风电出力，P^PV表示为光伏出力；L^e表示为外送负荷，

P^GT_lasttime表示为燃气轮机出力；ρ^buye表示为新能源基地微电网购电电价；E^ES表示为蓄电池的蓄电量；所述控制中心智能体为新能源基地微电网的控制中心构成，其动作空间表示为，

其中，表示为蓄电池放或充电量，与最大放或充电功率的比值，当取正值时，表示放电，否则表示充电；/>表示为燃气轮机出力与燃气轮机最大输出功率的比值。

作为本发明所述基于行为克隆的新能源基地微电网优化运行方法的一种优选方案，其中：所述奖励函数表示为，

其中，表示售电收益，/>表示购电成本，/>表示燃气轮机发电成本，/>表示污染排放成本，/>表示二氧化碳排放成本，/>表示控制中心智能体的动作越限惩罚，/>表示为燃气轮机的爬坡越限惩罚，/>表示为蓄电池的蓄电量越限惩罚，ρ^GT表示为燃气轮机越限的单位惩罚系数，/>和/>分别表示为燃气机组越爬坡功率越上限和爬坡功率越下限的0-1变量，P_t ^GT表示燃气机组的发电功率，/>表示燃气机组的功率爬坡上限，/>表示燃气机组的功率爬坡下限，ρ^ES表示为蓄电池蓄电量越限的单位惩罚系数，/>和/>分别表示为蓄电池蓄电量越上限和蓄电量越下限的0-1变量，表示蓄电池的蓄电量上限，/>表示蓄电池的蓄电量下限，/>表示蓄电池的蓄电量。

作为本发明所述基于行为克隆的新能源基地微电网优化运行方法的一种优选方案，其中：所述对训练集进行学习包括，通过粒子群算法得出每个预训练场景下的最优解在调度周期内的决策过程(s1，a1)，…，(st，at)，…，(s24，a24)，每个二元组中的动作at即粒子群算法在状态st下做出的动作，也是控制中心智能体做出的动作，将每个二元组的st和at作为控制中心智能体预训练的输入和标签；所述行为克隆包括，从生成的若干个预训练场景中随机抽样，记抽到的序号为i；设当前控制中心智能体的策略网络参数为θ，把st和at作为输入，然后计算梯度，通过梯度下降的方式更新控制中心智能体的网络参数更新策略网络参数表示为：

其中，β表示学习率；表示梯度；重复梯度下降迭代，直至算法收敛结束此流程。

作为本发明所述基于行为克隆的新能源基地微电网优化运行方法的一种优选方案，其中：所述智能体通过最大熵强化学习算法进行训练包括，控制中心智能体同时学习一个策略网络和两个动作价值网络，并且在策略网络和动作价值网络中引入熵正则项表示为，

H(π(·|s_t))＝-E_πlogπ(·|s_t)

其中，E表示取期望，π表示策略。

控制中心智能体学习的最优策略表示为，

其中，γ表示折扣因子，α表示为熵正则化系数，s_t表示t时刻观测到的环境状态，a_t表示t时刻控制中心智能体采取的动作，T表示为总时刻。

训练过程中的状态价值网络的更新公式表示为，

训练过程中的动作价值网络的更新公式表示为，

所述实时修正包括，控制中心智能体在次日的24个时段，将包含实时的风电出力、光伏出力数据的环境观测值输入控制中心智能体，通过策略网络输出实时的动作，形成最优调度计划。

为解决上述技术问题，本发明提供如下技术方案：基于行为克隆的新能源基地微电网优化运行方法的系统，包括：架构设计与预训练模块、模型建立与预训练模块和智能控制与实时调度模块；所述系统架构设计与预训练模块用于构建微电网系统架构以及生成预训练场景数据，根据新能源电网配置，构建新能源基地微电网系统架构，利用拉丁超立方抽样法生成若干个预训练场景数据，构建新能源基地微电网的目标函数和约束条件，并针对生成的若干个预训练场景数据利用粒子群算法对模型进行求解，并记录每个场景下的最优解在调度周期内的决策过程；所述用模型建立与预训练模块用于构建模型，构建新能源基地微电网的环境模型和控制中心智能体模型，将目标函数替换为实时奖励函数，将约束条件替换为实时惩罚函数，将生成的若干个预训练场景下的决策过程作为控制中心智能体的训练集，依次输入到控制中心智能体中，构建行为克隆的损失函数，控制中心智能体通过行为克隆方法对训练集进行学习；所述智能控制与实时调度模块用于制定调度计划，将次日的预测数据输入到预训练后的控制中心智能体，智能体通过最大熵强化学习算法进行训练，形成新能源基地微电网的日前调度计划，次日控制中心智能体根据风电出力、光伏出力的波动，对调度计划进行实时修正。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述基于行为克隆的新能源基地微电网优化运行方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述基于行为克隆的新能源基地微电网优化运行方法的步骤。

本发明有益效果为：通过使用拉丁超立方抽样法生成预训练场景数据，我方发明能够更全面地覆盖可能的运行情境。结合粒子群算法，该方法在预训练阶段就能够找到各种场景下的最优解，为后续的强化学习提供了高质量的初始数据集。这不仅提高了训练效率，还能够确保学习到的策略在实际应用中的有效性和适用性。

通过将目标函数替换为实时奖励函数，约束条件替换为实时惩罚函数，我方发明在设计上更加灵活和适应性强。这种方法可以有效应对新能源输出的不确定性和变动性，从而在实际运行中提高微电网系统的稳定性和鲁棒性。

通过先进的最大熵强化学习算法，控制中心智能体可以根据预测数据形成日前调度计划，并根据实际的风电、光伏出力波动进行实时修正。这意味着我方发明不仅能够提前做好准备，还能够在运行过程中迅速调整，从而确保微电网的高效和平稳运行。

在当前“双碳”目标的驱动下，有效利用新能源并降低废弃率是重要目标。我方发明通过优化微电网的运行，不仅可以提高新能源的消纳率，还有助于减少因运行不佳造成的能源浪费。

通过构建行为克隆的损失函数和实施行为克隆方法，我方发明进一步提升了智能体学习的效果。这种智能体能够从历史最优决策中学习，从而在未来遇到类似场景时做出更加精准和高效的决策。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。其中：

图1为实施例1中基于行为克隆的新能源基地微电网优化运行方法的流程图。

图2为实施例1中基于行为克隆的新能源基地微电网优化运行方法的模仿学习预训练深度强化学习的流程示意图。

图3为实施例3中基于行为克隆的新能源基地微电网优化运行系统的模块结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

实施例1

参照图1和图2，为本发明第一个实施例，该实施例提供了基于行为克隆的新能源基地微电网优化运行方法包括，如图1所示：

步骤S1：构建新能源基地微电网系统架构：

在本实施例中，新能源基地微电网系统架构由新能源基地微电网系统架构由能源供给侧、能源储蓄侧和能源消纳侧组成。能源供给侧由光伏、风电和燃气轮机组成；能源储蓄侧由蓄电池组成；能源消纳侧由电负荷组成。

步骤S2：利用拉丁超立方抽样法生成300个预训练场景数据；假设风电出力满足威布尔分布，光伏出力满足贝塔分布，拉丁超立方法分别根据风电和光伏出力的分布特性，通过分层抽样的方式生成对应的300个场景数据。

步骤S3：提出新能源基地微电网的目标函数和约束条件，并针对生成的300个预训练场景数据利用粒子群算法对模型进行求解，并记录每个场景下的最优解在调度周期内的决策过程。

新能源基地微电网的目标函数为经济性最优，由售电收入、电网购电成本、污染排放成本和碳排放成本组成；售电收入的函数表达式为：

其中，表示微电网在t时段的售电量；/>表示t时段的售电价。

电网购电成本的函数表达式为：

其中，为新能源基地微电网购电量；/>表示新能源基地微电网购电电价。

燃气轮机运行成本的函数表达式为：

燃气轮机通过燃烧天然气发电，本文将燃气轮机的燃料成本描述为二次函数：

其中，a^GT、b^GT和c^GT表示为燃气轮机的成本系数；P_t ^GT为燃气轮机在t时段的出力。

污染排放成本即燃气轮机发电过程排放污染物造成的环境治理成本，本文对燃气轮机排放的污染物考虑硫氧化物SO_X和氮氧化物NO_X：

其中，为燃气轮机的SO_X污染物排放系数，即单位发电量排放的SO_X污染物；为SO_X污染物排放治理成本系数；/>表示为燃气轮机的NO_X污染物排放系数，即单位发电量排放的NO_X污染物；/>表示为NO_X污染物排放治理成本系数。

碳排放的成本即燃气轮机发电过程排放二氧化碳造成的环境治理成本：

其中，表示为燃气轮机的碳排放系数，即单位发电量排放的二氧化碳；/>为碳排放成本系数。

新能源基地微电网的约束条件包括燃气轮机运行约束、蓄电池运行约束。

燃气轮机运行约束的表达式为：燃气轮机运行时要满足输出功率上下限约束和输出功率爬坡约束：

其中，和/>分别为燃气轮机输出功率的上、下限；ΔP^GTmax和ΔP^GTmin为燃气轮机的功率爬坡上限和下限。

蓄电池运行约束的表达式为：

其中，为蓄电池在t时段蓄电池蓄电量；/>和/>分别为蓄电池蓄电量的上限和下限；/>和/>为蓄电池在t时段的充、放电功率；/>和/>分别为蓄电池充、放电功率上限；η^ESch和η^ESdis分别为蓄电池充、放电效率。

针对生成的300个预训练场景数据利用粒子群算法对模型进行求解的最优解在调度周期内的决策过程可以用二元组(st，at)来描述，其中st表示t时刻观测到的环境状态，at表示t时刻控制中心智能体采取的动作。每个场景下的调度周期为24小时，所以每个预训练场景共产生24个二元组。

步骤S4：提出新能源基地微电网的环境模型和控制中心智能体模型，将目标函数替换为实时奖励函数，将约束条件替换为实时惩罚函数。

在本实施例中，新能源基地微电网的环境模型由能源供给侧、能源储蓄侧和能源消纳侧的所有组件的数学模型组成，环境模型的观测空间为：

S＝[P^W,P^PV,L^e,P^GT_lasttime,ρ^buye,E^ES]

其中，P^W表示风电出力；P^PV表示光伏出力；L^e表示外送负荷，P^GT_lasttime表示燃气轮机出力；ρ^buye表示新能源基地微电网购电电价；E^ES表示蓄电池的蓄电量。

控制中心智能体为新能源基地微电网的控制中心构成，其动作空间为：

其中，表示蓄电池放/充电量与最大放/充电功率的比值，当取正值时，表示放电，否则表示充电；/>表示燃气轮机出力与燃气轮机最大输出功率的比值。

新能源基地微电网环境给控制中心智能体的奖励函数为：

其中，表示t时段控制中心智能体的动作越限惩罚。

其中，表示燃气轮机的爬坡越限惩罚；/>表示蓄电池的蓄电量越限惩罚。

其中，ρ^GT表示燃气轮机越限的单位惩罚系数；和/>分别表示燃气机组越爬坡功率上限和爬坡功率下限的0-1变量。

其中，ρ^ES表示蓄电池蓄电量越限的单位惩罚系数；和/>分别表示蓄电池蓄电量上限和蓄电量下限的0-1变量。

步骤S5：将步骤S1得出的300个预训练场景下的决策过程作为控制中心智能体的训练集，依次输入到控制中心智能体中，控制中心智能体通过行为克隆方法对训练集进行学习。

控制中心智能体行为克隆的目的是模仿粒子群算法的动作，优化控制中心智能体初始策略和粒子群算法策略的差异，达到预训练的效果。

通过粒子群算法得出每个预训练场景下的最优解在调度周期内的决策过程{(s1，a1)，…，(st，at)，…，(s24，a24)}，每个二元组中的动作at即粒子群算法在状态st下做出的动作，也是控制中心智能体应该做出的动作。因此每个二元组的st和at可以作为控制中心智能体预训练的输入和标签。

所提的控制中心行为克隆的损失函数为，

其中，μ(s；θ)表示策略网络参数为θ的控制中心智能体在状态s下的动作策略，a为粒子群算法策略做出的动作。

控制中心行为克隆的流程为：

(1)从300个预训练场景中随机抽样，记抽到的序号为i。

(2)设当前控制中心智能体的策略网络参数为θ，把st和at作为输入，然后计算梯度，通过梯度下降的方式更新控制中心智能体的网络参数更新策略网络参数：

其中，β表示学习率；表示梯度。

(3)重复(1)、(2)步骤，直至算法收敛。

步骤S6：将次日的预测数据输入到预训练后的控制中心智能体，智能体通过最大熵强化学习算法进行训练，形成新能源基地微电网的日前调度计划。

在本实施例中，控制中心智能体同时学习一个策略网络和两个动作价值网络，并且在策略网络和动作价值网络中引入熵正则项如下式所示：

H(π(·|s_t))＝-E_πlogπ(·|s_t)

其中，E表示取期望，π表示策略。

控制中心智能体学习的最优策略如下式所示：

训练过程中的状态价值网络的更新公式为：

训练过程中的动作价值网络的更新公式为，该式也称为柔性贝尔曼方程：

步骤S7：次日控制中心智能体根据风电和光伏出力的波动，对调度计划进行实时修正。

由于风速、光照强度的不确定性，次日的风电出力、光伏出力都可能与预测的结果有差异，这时日前的调度计划就不是最优计划了。因此控制中心智能体需要在次日的24个时段，将包含实时的风电出力、光伏出力数据的环境观测值输入控制中心智能体，通过策略网络输出实时的动作，形成最优调度计划。

实施例2

本发明第二个实施例，其不同于第一个实施例的是：基于行为克隆的新能源基地微电网优化运行方法及系统还包括，为对本方法中采用的技术效果加以验证说明，本实施例采用传统技术方案与本发明发放进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

实验设计：将现有技术方案与本发明分别进行仿真对比，针对训练效率、优化效果指标进行实验对比，得到的实验数据如表1所示：

表1：实验数据表格

指标/方案	现有技术方案	我方发明方案
			训练效率(迭代次数)	4,600	2,800
优化效果(总效益/元)	92875.23	95246.02

我方发明方法仅需2800次迭代即可达到良好的训练效果，相比于现有技术的4600次，显著提高了训练效率。这说明通过预训练场景数据和粒子群算法，可以更快地找到最优解。

在效益提高方面，我方发明方案相比现有技术方案显著提高。这表明我方发明的实时奖励和惩罚函数设计，结合最大熵强化学习算法，更有效地优化了微电网运行。

实施例3

参照图3，为本发明第三个实施例，其不同于前两个实施例的是：一种基于行为克隆的新能源基地微电网优化运行方法的系统，包括系统架构设计与预训练模块、模型建立与预训练模块和智能控制与实时调度模块；系统架构设计与预训练模块用于构建微电网系统架构以及生成预训练场景数据，根据新能源电网配置，构建新能源基地微电网系统架构，利用拉丁超立方抽样法生成若干个预训练场景数据，构建新能源基地微电网的目标函数和约束条件，并针对生成的若干个预训练场景数据利用粒子群算法对模型进行求解，并记录每个场景下的最优解在调度周期内的决策过程；模型建立与预训练模块用于构建模型，构建新能源基地微电网的环境模型和控制中心智能体模型，将目标函数替换为实时奖励函数，将约束条件替换为实时惩罚函数，将生成的若干个预训练场景下的决策过程作为控制中心智能体的训练集，依次输入到控制中心智能体中，构建行为克隆的损失函数，控制中心智能体通过行为克隆方法对训练集进行学习；智能控制与实时调度模块用于制定调度计划，将次日的预测数据输入到预训练后的控制中心智能体，智能体通过最大熵强化学习算法进行训练，形成新能源基地微电网的日前调度计划，次日控制中心智能体根据风电出力、光伏出力的波动，对调度计划进行实时修正。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于行为克隆的新能源基地微电网优化运行方法，其特征在于：包括，

根据新能源电网配置，构建新能源基地微电网系统架构；

利用拉丁超立方抽样法生成若干个预训练场景数据；

构建新能源基地微电网的目标函数和约束条件，并针对生成的若干个预训练场景数据利用粒子群算法对模型进行求解，并记录每个场景下的最优解在调度周期内的决策过程；

构建新能源基地微电网的环境模型和控制中心智能体模型，将目标函数替换为实时奖励函数，将约束条件替换为实时惩罚函数；

将生成的若干个预训练场景下的决策过程作为控制中心智能体的训练集，依次输入到控制中心智能体中，构建行为克隆的损失函数，控制中心智能体通过行为克隆方法对训练集进行学习；

将次日的预测数据输入到预训练后的控制中心智能体，智能体通过最大熵强化学习算法进行训练，形成新能源基地微电网的日前调度计划；

次日控制中心智能体根据风电出力、光伏出力的波动，对调度计划进行实时修正。

2.如权利要求1所述的基于行为克隆的新能源基地微电网优化运行方法及系统，其特征在于：所述新能源基地微电网系统架构包括新能源基地微电网系统架构由能源供给侧、能源储蓄侧；所述能源供给侧由光伏、风电和燃气轮机组成；所述能源储蓄侧由蓄电池组成；能源消纳侧由外送负荷组成。

3.如权利要求2所述的基于行为克隆的新能源基地微电网优化运行方法，其特征在于：所述生成若干个预训练场景数据包括，风电出力满足威布尔分布，光伏出力满足贝塔分布，拉丁超立方法分别根据风电出力和光伏出力的分布特性，通过分层抽样的方式生成对应的若干个场景数据；

所述约束条件包括燃气轮机运行约束、蓄电池运行约束；

所述决策过程包括，在调度周期内的决策过程用二元组(st，at)来描述，其中st表示t时刻观测到的环境状态，at表示t时刻控制中心智能体采取的动作；每个场景下的调度周期为24小时，所以每个预训练场景共产生24个二元组。

4.如权利要求3所述的基于行为克隆的新能源基地微电网优化运行方法，其特征在于：所述新能源基地微电网的环境模型由能源供给侧、能源储蓄侧和能源消纳侧的所有组件的数学模型组成，环境模型的观测空间表示为，

S＝[P^W,P^PV,L^e,P^GT_lasttime,ρ^buye,E^ES]

其中，P^W表示为风电出力，P^PV表示为光伏出力；L^e表示为外送负荷，P^GT_lasttime表示为燃气轮机出力；ρ^buye表示为新能源基地微电网购电电价；E^ES表示为蓄电池的蓄电量；

所述控制中心智能体为新能源基地微电网的控制中心构成，其动作空间表示为，

5.如权利要求4所述的基于行为克隆的新能源基地微电网优化运行方法，其特征在于：所述奖励函数表示为，

其中，表示售电收益，/>表示购电成本，/>表示燃气轮机发电成本，/>表示污染排放成本，/>表示二氧化碳排放成本，/>表示控制中心智能体的动作越限惩罚，表示为燃气轮机的爬坡越限惩罚，/>表示为蓄电池的蓄电量越限惩罚，ρ^GT表示为燃气轮机越限的单位惩罚系数，/>和/>分别表示为燃气机组越爬坡功率越上限和爬坡功率越下限的0-1变量，P_t ^GT表示燃气机组的发电功率，/>表示燃气机组的功率爬坡上限，/>表示燃气机组的功率爬坡下限，ρ^ES表示为蓄电池蓄电量越限的单位惩罚系数，/>和/>分别表示为蓄电池蓄电量越上限和蓄电量越下限的0-1变量，/>表示蓄电池的蓄电量上限，/>表示蓄电池的蓄电量下限，/>表示蓄电池的蓄电量。

6.如权利要求5所述的基于行为克隆的新能源基地微电网优化运行方法，其特征在于：所述对训练集进行学习包括，通过粒子群算法得出每个预训练场景下的最优解在调度周期内的决策过程(s1，a1)，…，(st，at)，…，(s24，a24)，每个二元组中的动作at即粒子群算法在状态st下做出的动作，也是控制中心智能体做出的动作，将每个二元组的st和at作为控制中心智能体预训练的输入和标签；

所述行为克隆包括，从生成的若干个预训练场景中随机抽样，记抽到的序号为i；

设当前控制中心智能体的策略网络参数为θ，把st和at作为输入，然后计算梯度，通过梯度下降的方式更新控制中心智能体的网络参数更新策略网络参数表示为：

其中，β表示学习率；表示梯度；

重复梯度下降迭代，直至算法收敛结束此流程。

7.如权利要求6所述的基于行为克隆的新能源基地微电网优化运行方法，其特征在于：所述智能体通过最大熵强化学习算法进行训练包括，控制中心智能体同时学习一个策略网络和两个动作价值网络，并且在策略网络和动作价值网络中引入熵正则项表示为，

H(π(·|s_t))＝-E_πlogπ(·|s_t)

其中，E表示取期望，π表示策略；

控制中心智能体学习的最优策略表示为，

其中，γ表示折扣因子，α表示为熵正则化系数，s_t表示t时刻观测到的环境状态，a_t表示t时刻控制中心智能体采取的动作，T表示为总时刻；

训练过程中的状态价值网络的更新公式表示为，

训练过程中的动作价值网络的更新公式表示为，

8.一种采用如权利要求1～7任一所述的基于行为克隆的新能源基地微电网优化运行方法的系统，其特征在于：包括系统架构设计与预训练模块、模型建立与预训练模块和智能控制与实时调度模块；

所述系统架构设计与预训练模块用于构建微电网系统架构以及生成预训练场景数据，根据新能源电网配置，构建新能源基地微电网系统架构，利用拉丁超立方抽样法生成若干个预训练场景数据，构建新能源基地微电网的目标函数和约束条件，并针对生成的若干个预训练场景数据利用粒子群算法对模型进行求解，并记录每个场景下的最优解在调度周期内的决策过程；

所述用模型建立与预训练模块用于构建模型，构建新能源基地微电网的环境模型和控制中心智能体模型，将目标函数替换为实时奖励函数，将约束条件替换为实时惩罚函数，将生成的若干个预训练场景下的决策过程作为控制中心智能体的训练集，依次输入到控制中心智能体中，构建行为克隆的损失函数，控制中心智能体通过行为克隆方法对训练集进行学习；

所述智能控制与实时调度模块用于制定调度计划，将次日的预测数据输入到预训练后的控制中心智能体，智能体通过最大熵强化学习算法进行训练，形成新能源基地微电网的日前调度计划，次日控制中心智能体根据风电出力、光伏出力的波动，对调度计划进行实时修正。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于行为克隆的新能源基地微电网优化运行方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于行为克隆的新能源基地微电网优化运行方法的步骤。