CN116345578A

CN116345578A - 基于深度确定性策略梯度的微电网运行优化调度方法

Info

Publication number: CN116345578A
Application number: CN202310606312.6A
Authority: CN
Inventors: 林振福; 马溪原; 李鹏; 杨铎烔; 徐全; 张子昊; 姚森敬; 葛俊; 俞靖一; 王鹏宇; 许一泽; 曾博儒
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-06-27
Anticipated expiration: 2043-05-26
Also published as: CN116345578B

Abstract

本申请涉及一种基于深度确定性策略梯度的微电网运行优化调度方法、装置、计算机设备和存储介质。所述方法包括：获取针对目标电网的初始调度策略；根据初始调度策略，确定对应的待筛选调度策略集合；通过目标智能体所采用的强化学习方式，从各待筛选调度策略中筛选出目标调度策略；将目标电网对应的初始状态参数输入至目标调度策略，得到目标调度参数；根据目标调度参数，调度目标电网。采用本方法能够基于目标智能体所采用的强化学习方式，从通过向初始调度策略引入随机噪声得到的待筛选调度策略中筛选出目标调度策略，进而利用目标调度策略对目标电网进行调度，保证目标调度策略的准确性，从而得到准确的调度参数，进而提高目标电网的调度效率。

Description

基于深度确定性策略梯度的微电网运行优化调度方法

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于深度确定性策略梯度的微电网运行优化调度方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着电网系统的发展，以新能源为主体的新型电力系统迅速增长，新能源机组逐渐成为主力电源，微电网得到提出并迅速发展。

传统技术中，针对微电网的调度主要采用转化方法，将微电网调度中的多个不确定性的问题转化为确定性问题，再进行最优解求解，进行确定对应的调度操作。

然而，传统方法不能完全适应微电网的拓扑结构变化，不利于提高微电网的调度效率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高微电网调度效率的基于深度确定性策略梯度的微电网运行优化调度方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种基于深度确定性策略梯度的微电网运行优化调度方法，所述方法包括：

获取针对目标电网的初始调度策略；所述初始调度策略表征所述目标电网对应的状态参数与针对所述目标电网的调度动作之间的映射关系；

根据所述初始调度策略，确定所述初始调度策略对应的待筛选调度策略集合；所述待筛选调度策略集合包括至少一个待筛选调度策略；所述待筛选调度策略包括引入随机噪声后的初始调度策略；

通过目标智能体所采用的强化学习方式，从各所述待筛选调度策略中筛选出目标调度策略；所述目标智能体中的评论者网络用于根据所述目标电网对应的电力设备约束条件，确定各所述待筛选调度策略对应的奖励信息；

将所述目标电网对应的初始状态参数输入至所述目标调度策略，得到目标调度参数；

根据所述目标调度参数，调度所述目标电网。

在其中一个实施例中，所述目标智能体包括执行者网络和评论者网络，所述通过目标智能体所采用的强化学习方式，从各所述待筛选调度策略中筛选出目标调度策略，包括：

将所述目标电网对应的初始状态参数和所述待筛选调度策略输入至所述执行者网络，得到所述待筛选调度策略对应的候选调度参数；

将所述候选调度参数和所述初始状态参数输入至所述评论者网络，得到所述待筛选调度策略对应的奖励信息；

根据所述待筛选调度策略对应的奖励信息，确定所述目标调度策略；所述目标调度策略对应的奖励信息大于其他调度策略对应的奖励信息；所述其他调度策略为各所述待筛选调度策略中除所述目标调度策略以外的待筛选调度策略。

在其中一个实施例中，所述方法还包括：

将样本状态参数和样本待筛选调度策略输入至所述执行者网络，得到所述样本待筛选调度策略对应的样本候选调度参数；

将所述样本候选调度参数和所述样本状态参数输入至所述评论者网络，得到所述样本待筛选调度策略对应的奖励信息；

根据所述样本待筛选调度策略对应的奖励信息，更新所述评论者网络的网络参数。

在其中一个实施例中，所述根据所述样本待筛选调度策略对应的奖励信息，更新所述评论者网络的网络参数，包括：

根据所述样本待筛选调度策略对应的奖励信息，确定所述评论者网络的学习损失函数值；

根据所述学习损失函数值，更新所述评论者网络的网络参数。

在其中一个实施例中，所述获取针对目标电网的初始调度策略，包括：

获取所述目标电网的电力设备约束条件和所述目标电网的初始状态参数；

将所述电力设备约束条件和所述初始状态参数输入至预训练的基学习器，生成所述初始调度策略。

在其中一个实施例中，所述方法还包括：

获取样本状态参数；

将所述样本状态参数输入至初始基学习器，得到所述初始基学习器对应的结果参数；

根据所述样本状态参数和所述电力设备约束条件，确定所述样本状态参数对应的期望参数；

根据所述期望参数与所述初始基学习器对应的结果参数，训练所述初始基学习器，直至所述初始基学习器训练完成，作为所述预训练的基学习器。

在其中一个实施例中，所述根据所述期望参数与所述初始基学习器对应的结果参数，训练所述初始基学习器，直至所述初始基学习器训练完成，作为所述预训练的基学习器，包括：

根据所述期望参数与所述初始基学习器对应的结果参数，确定所述初始基学习器对应的损失函数值；

根据所述初始基学习器对应的损失函数值，确定所述初始基学习器对应的待增加决策树；

将所述待增加决策树加入所述初始基学习器，得到所述初始基学习器对应的待训练基学习器；

确定所述待训练基学习器对应的结果参数，根据所述初始基学习器对应的结果参数和所述待训练基学习器对应的结果参数，确定所述待训练基学习器对应的损失函数值；

在所述待训练基学习器对应的损失函数值小于预设的损失函数值阈值的情况下，将所述待训练基学习器作为所述预训练的基学习器。

第二方面，本申请还提供了一种基于深度确定性策略梯度的微电网运行优化调度装置，所述装置包括：

获取模块，用于获取针对目标电网的初始调度策略；所述初始调度策略表征所述目标电网对应的状态参数与针对所述目标电网的调度动作之间的映射关系；

确定模块，用于根据所述初始调度策略，确定所述初始调度策略对应的待筛选调度策略集合；所述待筛选调度策略集合包括至少一个待筛选调度策略；所述待筛选调度策略包括引入随机噪声后的初始调度策略；

筛选模块，用于通过目标智能体所采用的强化学习方式，从各所述待筛选调度策略中筛选出目标调度策略；所述目标智能体中的评论者网络用于根据所述目标电网对应的电力设备约束条件，确定各所述待筛选调度策略对应的奖励信息；

生成模块，用于将所述目标电网对应的初始状态参数输入至所述目标调度策略，得到目标调度参数；

调度模块，用于根据所述目标调度参数，调度所述目标电网。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述基于深度确定性策略梯度的微电网运行优化调度方法、装置、计算机设备、存储介质和计算机程序产品，通过获取针对目标电网的初始调度策略，从而确定目标电网对应的状态参数与针对目标电网的调度动作之间的映射关系，根据初始调度策略，确定初始调度策略对应的待筛选调度策略集合，从而通过向初始调度策略引入随机噪声，确定待筛选调度策略集合中所包含的至少一个待筛选调度策略，通过目标智能体所采用的强化学习方式，从各待筛选调度策略中筛选出目标调度策略，从而通过目标智能体中的评论者网络，基于目标电网对应的电力设备约束条件，确定各待筛选调度策略对应的奖励信息，并利用奖励信息确定出目标调度策略，将目标电网对应的初始状态参数输入至目标调度策略，得到目标调度参数，根据目标调度参数，调度目标电网，实现向初始调度策略中引入随机噪声得到若干待筛选调度策略，利用目标智能体所采用的强化学习方式，从若干待筛选调度策略中确定出目标调度策略，进而根据目标调度策略和初始状态参数，生成用于对目标电网进行调度的目标调度参数，从而基于目标智能体所采用的强化学习方式，从通过向初始调度策略引入随机噪声得到的待筛选调度策略中筛选出目标调度策略，进而利用目标调度策略对目标电网进行调度，保证了目标调度策略的准确性，从而得到准确的调度参数，进而提高目标电网的调度效率。

附图说明

图1为一个实施例中一种基于深度确定性策略梯度的微电网运行优化调度方法的应用环境图；

图2为一个实施例中一种基于深度确定性策略梯度的微电网运行优化调度方法的流程示意图；

图3为一个实施例中一种模仿学习模型的结构示意图；

图4为一个实施例中一种构建模仿学习模型的流程示意图；

图5为一个实施例中一种训练模仿学习模型的流程示意图；

图6为一个实施例中一种微电网有功优化调度的深度学习模型的示意图；

图7为一个实施例中一种基于深度确定性策略梯度算法的微电网有功优化调度的流程示意图；

图8为一个实施例中一种训练深度确定性策略梯度神经网络结构的流程示意图；

图9为一个实施例中一种基于深度确定性策略梯度的微电网运行优化调度装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的基于深度确定性策略梯度的微电网运行优化调度方法，可以应用于如图1所示的应用环境中。其中，微电网102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104获取针对目标电网的初始调度策略；所述初始调度策略表征所述目标电网对应的状态参数与针对所述目标电网的调度动作之间的映射关系；服务器104根据所述初始调度策略，确定所述初始调度策略对应的待筛选调度策略集合；所述待筛选调度策略集合包括至少一个待筛选调度策略；所述待筛选调度策略包括引入随机噪声后的初始调度策略；服务器104通过目标智能体所采用的强化学习方式，从各所述待筛选调度策略中筛选出目标调度策略；所述目标智能体中的评论者网络用于根据所述目标电网对应的电力设备约束条件，确定各所述待筛选调度策略对应的奖励信息；服务器104将所述目标电网对应的初始状态参数输入至所述目标调度策略，得到目标调度参数；服务器104根据所述目标调度参数，调度所述目标电网。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一些实施例中，如图2所示，提供了一种基于深度确定性策略梯度的微电网运行优化调度方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤S202，获取针对目标电网的初始调度策略。

其中，初始调度策略可以表征目标电网对应的状态参数与针对目标电网的调度动作之间的映射关系，实际应用中，初始调度策略可以包括微电网优化调度数学模型。

其中，目标电网对应的状态参数可以是指目标电网中的电网运行状态数据，实际应用中，目标电网对应的状态参数可以包括目标电网中的电流数据、电压数据、功率数据等。

其中，目标电网可以是指多源微电网。

其中，针对目标电网的调度动作可以是指针对目标电网的参数调度操作。

作为一种示例，基于目标电网的运行特点，服务器构建针对目标电网的优化调度数学模型，服务器将针对目标电网的优化调度数学模型作为针对目标电网的初始调度策略，例如：由于微电网优化调度主要追求经济效益最大化，故主要考虑经济优化目标，服务器基于微电网运行特点，构建目标成本函数表达式，目标成本函数表达式可表示为：

。

其中，F_G为柴油发电机的成本，F_bat为储能装置充放电成本，F_Grid为与微电网系统与大电网之间的购售电成本。

进一步地，柴油发电机的成本函数可表示为：

、

、

、

。

其中，N_G是柴油发电机组的数量，a_i、b_i和c_i为柴油发电机组的燃料成本系数，P_G，i是柴油发电机组的发电功率；SU_i为机组i的固定启动成本，SD_i为机组i的固定停机成本；n_on，i为指示柴油发电机组i状态的二进制变量，n_on，i=1表示机组处于运行状态；n_su，i为指示柴油发电机组i状态的二进制变量，n_su，i=1表示机组处于启动状态；n_sd，i为指示柴油发电机组i状态的二进制变量，n_sd，i=1表示机组处于停机状态。

进一步地，储能装置充放电成本函数可表示为：

。

其中，N_bat是储能电池的数量；c_bat，m是储能电池的单位充放电成本，一般取0.01；η_cha，m和η_dis，m分别为储能电池的充电效率和放电效率，一般取经验值0.95；P_cha，m和P_dis，m分别为储能电池的充电功率和放电功率。

进一步地，微电网系统与大电网之间的购售电成本函数可表示为：

。

其中，p_e为大电网的购售电价，P_Grid是与大电网交换的功率。

目标电网对应的电力设备约束条件可包括柴油发电机组约束函数、负荷元件约束函数、储能元件约束函数、功率平衡约束函数和微电网系统与外部电网联络线约束函数，其中，柴油发电机组约束函数可表示为：

、

、

、/>

、

、

、

、

、

。

机组的爬坡约束可表示为：

。

机组是出力约束可表示为：

。

机组状态指示变量约束可表示为：

、

。

最小启停时间约束可表示为：

、

、

、

、

。

其中，n_on，i为指示柴油发电机组状态的二进制变量，n_on，i=1表示机组处于运行状态；n_su，i为指示柴油发电机组状态的二进制变量，n_su，i=1表示机组处于启动状态；n_sd，i为指示柴油发电机组i状态的二进制变量，n_sd，i=1表示机组处于停机状态；P_G，i，up和P_G，i，down分别表示机组最大向上爬坡功率和最大向下爬坡功率；P_G，i，min和P_G，i,max是机组i最小和最大发电功率；T_on，i和T_off，i是机组i最短启动时间和最短停机时间；I_on，i和I_off，i是机组i初始时刻的运行时间和停机时间；n_on，i，0是柴油机组在初始时刻的运行状态。

负荷元件约束函数可表示为：

、

。

可调节负荷的上下限约束可表示为：

。

可中断负荷的上下限约束可表示为：

。

其中，可调节负荷的下限量可表示为：

。

可调节负荷的上限量可表示为：

。

可中断负荷的下限量可表示为：

。

可中断负荷的上限量可表示为：

。

储能元件约束函数可表示为：

、

、

、

、

。

储能元件充放电状态约束可表示为：

。

储能元件充电功率的上下限约束可表示为：

。

储能元件放电功率的上下限约束可表示为：

。

储能元件的容量约束可表示为：

、

。

其中，储能电池m的最小充电功率可表示为：

。

其中，储能电池的最大充电功率可表示为：

。

其中，储能电池m的最小放电功率可表示为：

。

其中，储能电池m的最大放电功率可表示为：

。

其中，n_cha，m是表示储能电池m充放电状态的二进制变量，n_cha，m=1表示储能电池充电，反之n_cha，m=0；n_dis，m是表示储能电池m充放电状态的二进制变量，n_dis，m=1表示储能电池充电，反之n_dis，m=0；P_ES,t表示储能电池当前时段的容量；E_c表示储能电池的额定容量；soc_min和soc_max是储能电池的最小和最大荷电状态。

功率平衡约束函数可表示为：

。

其中，所有柴油机输出总功率可表示为：

。

其中，所有风力发电机总功率可表示为：

。

其中，所有的光伏组件总功率可表示为：

。

其中，当前时刻与外部电网联络线功率可表示为P_Grid，t。

其中，储能组件充放电功率可表示为：

。

其中，总负荷可表示为：

。

微电网系统与外部电网联络线约束函数可表示为：

。

其中，B为表示固定联络线功率运行目标的二进制指令，B=1表示微电网以固定联络线功率G运行，反之B=0表示微电网离网运行；P_Grid，min和P_Grid,max是联络线允许流过的最小和最大功率。

步骤S204，根据初始调度策略，确定初始调度策略对应的待筛选调度策略集合。

其中，待筛选调度策略集合可以包括至少一个待筛选调度策略。

其中，待筛选调度策略可以包括引入随机噪声后的初始调度策略。

作为一种示例，服务器向初始调度策略引入随机噪声，得到待筛选调度策略，例如：初始调度策略可表示为πθ（s_t）,随机噪声可表示为N，则待筛选调度策略可表示为：

。

其中，s_t为时刻t时目标电网对应的状态参数。

步骤S206，通过目标智能体所采用的强化学习方式，从各待筛选调度策略中筛选出目标调度策略。

其中，目标智能体中的评论者网络可用于根据目标电网对应的电力设备约束条件，确定各待筛选调度策略对应的奖励信息。

其中，目标调度策略可以是指基于目标电网的初始状态参数，确定出符合目标电网运行特点的调度动作的电网调度数学模型。

作为一种示例，服务器将目标电网对应的初始状态参数和待筛选调度策略输入至目标智能体中，目标智能体采用强化学习方式，通过评论者网络根据目标电网对应的电力设备约束条件，确定待筛选调度策略对应的奖励信息，服务器根据各待筛选调度策略对应的奖励信息，从各待筛选调度策略中确定出目标调度策略。

步骤S208，将目标电网对应的初始状态参数输入至目标调度策略，得到目标调度参数。

其中，目标调度参数可以是指基于目标调度策略输出的，用于替换目标电网对应的初始状态参数的数据，实际应用中，目标调度策略可输出针对目标电网的调度动作，服务器基于该调度动作，将目标电网对应的初始状态参数设置为目标调度参数。

作为一种示例，当目标调度策略可表征一种电网调度数学模型时，服务器将目标电网对应的初始状态参数输入至目标调度策略，目标调度策略输出目标调度参数。

步骤S210，根据目标调度参数，调度目标电网。

作为一种示例，当目标调度策略可表征一种电网调度数学模型时，服务器将目标电网对应的初始状态参数输入至目标调度策略，目标调度策略输出目标调度参数或调度动作，服务器基于该调度动作可将目标电网对应的初始状态参数设置为目标调度参数，从而完成针对目标电网的优化调度。

上述基于深度确定性策略梯度的微电网运行优化调度方法中，通过获取针对目标电网的初始调度策略，从而确定目标电网对应的状态参数与针对目标电网的调度动作之间的映射关系，根据初始调度策略，确定初始调度策略对应的待筛选调度策略集合，从而通过向初始调度策略引入随机噪声，确定待筛选调度策略集合中所包含的至少一个待筛选调度策略，通过目标智能体所采用的强化学习方式，从各待筛选调度策略中筛选出目标调度策略，从而通过目标智能体中的评论者网络，基于目标电网对应的电力设备约束条件，确定各待筛选调度策略对应的奖励信息，并利用奖励信息确定出目标调度策略，将目标电网对应的初始状态参数输入至目标调度策略，得到目标调度参数，根据目标调度参数，调度目标电网，实现向初始调度策略中引入随机噪声得到若干待筛选调度策略，利用目标智能体所采用的强化学习方式，从若干待筛选调度策略中确定出目标调度策略，进而根据目标调度策略和初始状态参数，生成用于对目标电网进行调度的目标调度参数，从而基于目标智能体所采用的强化学习方式，从通过向初始调度策略引入随机噪声得到的待筛选调度策略中筛选出目标调度策略，进而利用目标调度策略对目标电网进行调度，保证了目标调度策略的准确性，从而得到准确的调度参数，进而提高目标电网的调度效率。

在一些实施例中，目标智能体包括执行者网络和评论者网络，通过目标智能体所采用的强化学习方式，从各待筛选调度策略中筛选出目标调度策略，包括：将目标电网对应的初始状态参数和待筛选调度策略输入至执行者网络，得到待筛选调度策略对应的候选调度参数；将候选调度参数和初始状态参数输入至评论者网络，得到待筛选调度策略对应的奖励信息；根据待筛选调度策略对应的奖励信息，确定目标调度策略。

其中，目标调度策略对应的奖励信息大于其他调度策略对应的奖励信息。

其中，其他调度策略可以是指各待筛选调度策略中除目标调度策略以外的待筛选调度策略。

作为一种示例，服务器将目标电网对应的初始状态参数和待筛选调度策略输入至执行者网络，以待筛选调度策略为一种电网调度数学模型为例，执行者网络将目标电网对应的初始状态参数输入至待筛选调度策略，得到待筛选调度策略对应的候选调度参数，服务器将候选调度参数和初始状态参数输入至评论者网络，评论者网络根据目标电网对应的电力设备约束条件、候选调度参数和初始状态参数，确定待筛选调度策略对应的奖励信息，服务器对各待筛选调度策略对应的奖励信息进行排序，将各待筛选调度策略对应的奖励信息按照从大到小的顺序依次排列，将奖励信息最大的待筛选调度策略作为目标调度策略。

本实施例中，通过将目标电网对应的初始状态参数和待筛选调度策略输入至执行者网络，得到待筛选调度策略对应的候选调度参数；将候选调度参数和初始状态参数输入至评论者网络，得到待筛选调度策略对应的奖励信息；根据待筛选调度策略对应的奖励信息，确定目标调度策略，能够基于目标智能体所采用的强化学习方式，从各待筛选调度策略中确定出目标调度策略，从而提高目标调度策略与目标电网之间的匹配度，优化目标调度策略对目标电网的调度效果，提高目标电网的调度效率。

在一些实施例中，上述方法还包括：将样本状态参数和样本待筛选调度策略输入至执行者网络，得到样本待筛选调度策略对应的样本候选调度参数；将样本候选调度参数和样本状态参数输入至评论者网络，得到样本待筛选调度策略对应的奖励信息；根据样本待筛选调度策略对应的奖励信息，更新评论者网络的网络参数。

其中，样本状态参数可以是指用于训练执行者网络和评论者网络的电网状态参数，实际应用中，样本状态参数可以包括目标电网的历史状态参数数据。

其中，样本待筛选调度策略可以是指用于训练执行者网络和评论者网络的电网调度数学模型，实际应用中，样本待筛选调度策略可以包括基于目标电网相关的条件约束公式推导得到的电网调度数学模型。

其中，样本候选调度参数可以是指训练执行者网络和评论者网络过程中产生的针对目标电网的调度参数。

其中，评论者网络的网络参数可以是指评论者网络中与确定奖励信息有关的网络模型参数或网络结构参数，实际应用中，评论者网络的网络参数可表示为ω。

作为一种示例，为保证目标调度策略针对目标电网具有良好的调度效果，需要对目标智能体中的评论者网络和执行者网络进行训练，例如，服务器将样本状态参数和样本待筛选调度策略输入至执行者网络，执行者网络基于样本待筛选调度策略，将样本状态参数作为输入，输入至样本待筛选调度策略，得到样本待筛选调度策略对应的样本候选调度参数；服务器将样本候选调度参数和样本状态参数输入至评论者网络，评论者网络根据目标电网对应的电力设备约束条件、样本候选调度参数和样本状态参数，得到样本待筛选调度策略对应的奖励信息；服务器根据样本待筛选调度策略对应的奖励信息，确定评论者网络对应的学习率，服务器根据评论者网络对应的学习率，更新评论者网络的网络参数。

本实施例中，通过将样本状态参数和样本待筛选调度策略输入至执行者网络，得到样本待筛选调度策略对应的样本候选调度参数；将样本候选调度参数和样本状态参数输入至评论者网络，得到样本待筛选调度策略对应的奖励信息；根据样本待筛选调度策略对应的奖励信息，更新评论者网络的网络参数，能够基于样本数据，对目标智能体中的执行者网络和评论者网络进行训练，进而提高目标调度策略与目标电网之间的匹配度，优化目标调度策略对目标电网的调度效果。

在一些实施例中，根据样本待筛选调度策略对应的奖励信息，更新评论者网络的网络参数，包括：根据样本待筛选调度策略对应的奖励信息，确定评论者网络的学习损失函数值；根据学习损失函数值，更新评论者网络的网络参数。

其中，评论者网络的学习损失函数值可以是指表征评论者网络输出的奖励信息的准确率的数据，实际应用中，评论者网络的学习损失函数值可以表示为：

、

。

其中，B可以为从样本数据存储空间中采样出的一组经验样本数据；Q（s，a^-，ω）可以包括评论者网络估计的动作价值或评论者网络输出的奖励信息；Q（s’，π（s’；θ^-）；ω^-）可以包括执行者网络和评论者网络估计的未来动作价值或执行者网络和评论者网络输出的奖励信息。

作为一种示例，在对目标智能体进行训练的过程中，服务器根据样本待筛选调度策略对应的奖励信息，确定评论者网络的学习损失函数值，服务器根据学习损失函数值，更新评论者网络的网络参数。

本实施例中，通过根据样本待筛选调度策略对应的奖励信息，确定评论者网络的学习损失函数值；根据学习损失函数值，更新评论者网络的网络参数，能够基于样本数据，更新评论者网络的网络参数，保证评论者网络输出的奖励信息的准确性。

在一些实施例中，获取针对目标电网的初始调度策略，包括：获取目标电网的电力设备约束条件和目标电网的初始状态参数；将电力设备约束条件和初始状态参数输入至预训练的基学习器，生成初始调度策略。

作为一种示例，服务器获取目标电网的电力设备约束条件和目标电网的初始状态参数，服务器将电力设备约束条件和初始状态参数输入至预训练的基学习器，得到基学习器输出的向量，服务器将基学习器输出的向量求和后，利用Softmax函数生成初始调度策略。

本实施例中，通过获取目标电网的电力设备约束条件和目标电网的初始状态参数；将电力设备约束条件和初始状态参数输入至预训练的基学习器，生成初始调度策略，能够基于目标电网的电力设备约束条件和初始状态参数，确定初始调度策略，能够确定基础的电网调度数学模型，确定基本的电网调度优化方向，减少计算量。

在一些实施例中，上述方法还包括：获取样本状态参数；将样本状态参数输入至初始基学习器，得到初始基学习器对应的结果参数；根据样本状态参数和电力设备约束条件，确定样本状态参数对应的期望参数；根据期望参数与初始基学习器对应的结果参数，训练初始基学习器，直至初始基学习器训练完成，作为预训练的基学习器。

其中，初始基学习器对应的结果参数可以是指初始基学习器基于样本状态参数的输出结果，实际应用中，初始基学习器对应的结果参数可以表征初始基学习器训练过程中生成的针对目标电网的调度参数。

其中，样本状态参数对应的期望参数可以是指根据目标电网的电力设备约束条件和样本状态参数，确定出的目标电网的调度参数理论计算值。

作为一种示例，为了保证初始调度策略的准确性，需要对基学习器进行训练，例如：服务器获取样本状态参数；服务器将样本状态参数输入至初始基学习器，得到初始基学习器对应的结果参数（如针对目标电网的候选调度参数）；服务器根据样本状态参数和电力设备约束条件，确定样本状态参数对应的期望参数（如针对目标电网的理论调度参数）；服务器根据期望参数与初始基学习器对应的结果参数，训练初始基学习器，直至初始基学习器训练完成，服务器将训练完成的初始基学习器作为预训练的基学习器。

本实施例中，通过获取样本状态参数；将样本状态参数输入至初始基学习器，得到初始基学习器对应的结果参数；根据样本状态参数和电力设备约束条件，确定样本状态参数对应的期望参数；根据期望参数与初始基学习器对应的结果参数，训练初始基学习器，直至初始基学习器训练完成，作为预训练的基学习器，能够基于样本状态参数和电力设备约束条件，确定期望参数，通过对比期望参数和初始基学习器对应的结果参数，对初始基学习器进行训练，从而提高初始调度策略的准确性。

在一些实施例中，根据期望参数与初始基学习器对应的结果参数，训练初始基学习器，直至初始基学习器训练完成，作为预训练的基学习器，包括：根据期望参数与初始基学习器对应的结果参数，确定初始基学习器对应的损失函数值；根据初始基学习器对应的损失函数值，确定初始基学习器对应的待增加决策树；将待增加决策树加入初始基学习器，得到初始基学习器对应的待训练基学习器；确定待训练基学习器对应的结果参数，根据初始基学习器对应的结果参数和训练基学习器对应的结果参数，确定待训练基学习器对应的损失函数值；待训练基学习器对应的损失函数值小于预设的损失函数值阈值的情况下，将待训练基学习器作为预训练的基学习器。

其中，待增加决策树可以是指基学习器训练过程中需要加入至初始基学习器中的决策树结构。

其中，损失函数值阈值可以是指用于判断待训练基学习器对应的损失函数值是否符合预设基学习器涉及要求的数据。

其中，初始基学习器对应的损失函数值可以是指表征初始基学习器输出结果准确性的数据，实际应用中，初始基学习器对应的损失函数值可表示为：

。

其中，φ可以是指模型参数，N可以是指训练样本数量，K可以是指模型基学习器数量。

模型在训练样本上的量化误差可表示为：

。

模型复杂度正则化项，可以用以降低过拟合风险，模型复杂度正则化项可表示为：

。

作为一种示例，服务器根据期望参数与初始基学习器对应的结果参数，确定初始基学习器对应的损失函数值；服务器根据初始基学习器对应的损失函数值，确定初始基学习器对应的待增加决策树；服务器将待增加决策树加入初始基学习器，得到初始基学习器对应的待训练基学习器；服务器确定待训练基学习器对应的结果参数，服务器根据初始基学习器对应的结果参数和训练基学习器对应的结果参数，确定待训练基学习器对应的损失函数值；待训练基学习器对应的损失函数值小于预设的损失函数值阈值的情况下，服务器将待训练基学习器作为预训练的基学习器。

本实施例中，通过根据期望参数与初始基学习器对应的结果参数，确定初始基学习器对应的损失函数值；根据初始基学习器对应的损失函数值，确定初始基学习器对应的待增加决策树；将待增加决策树加入初始基学习器，得到初始基学习器对应的待训练基学习器；确定待训练基学习器对应的结果参数，根据初始基学习器对应的结果参数和训练基学习器对应的结果参数，确定待训练基学习器对应的损失函数值；待训练基学习器对应的损失函数值小于预设的损失函数值阈值的情况下，将待训练基学习器作为预训练的基学习器，能够基于期望参数和结果参数，利用初始基学习器构建待训练基学习器，并在待训练基学习器对应的损失函数值小于预设的损失函数值阈值的情况下，将待训练基学习器作为预训练的基学习器，进而保证初始调度策略的准确性。

为了便于本领域技术人员理解，图3示例性地提供了一种模仿学习模型的结构示意图，如图3所示，包含若干基学习器的模仿学习（XGBoost）模型，对于给定的数据集，例如，数据集可表示为：

。

上述模仿学习（XGBoost）模型所包含的树的集成模型可表示为：

、

。

其中，Γ可以为树的集合空间，x_i是第i个数据点的特征向量，q是每一棵树的结构映射到样本所对应的叶子的索引；Λ为树上叶子的数量，每一棵树T_k对应一个独立的树结构q和叶子的权重。

其中，叶子的权重可表示为：

。

XGBoost分类器训练的目标函数O（φ）可表示为：

。

单个基学习器T_k的模型复杂度可表示为：

。

其中，m为基学习器T_k的叶子节点数；

、η为权重系数；节点权值的L2范数可表示为：

。

XGBoost通过集成一系列学习能力较弱的基学习器来获得较好的性能，模型构建过程如图4所示，XGBoost模型中定义的损失函数可表示为：

。

考虑到XGBoost模型中定义的损失函数中集成树模型的目标函数无法用欧式距离、随机梯度下降等传统方法优化，一般情况下，采用增量训练方法训练，即每一次都是在保留原有模型的基础上，添加一个新函数（即一棵新的树）到模型中去，通过集成一系列学习能力较弱的基学习器来获得较好的性能，其训练流程图如图5所示，基于微电网有功调度人工智能模型离线训练样本，不断训练CART基学习器拟合先前模型残差并集成入XGBoost模型中，不断迭代直到训练预设数量基学习器或模型残差小于设定阈值，第i个样本在第t轮的模型预测值可表示为：

、

、

、

…

。

其中，第i个样本在第t轮的模型预测值可表示为：

。

第i个样本在第t-1轮的模型预测值可表示为：

。

第i个样本在第t轮的模型预测值保留t-1轮的模型预测值后，加入一个新的函数T_t（x_i）, 每一轮加入的增量函数尽可能使目标函数最大程度的减少，训练第k个基学习器T_k时的学习目标函数可表示为：

。

其中，φ（k）为T_k的参数；Ω（T_k）为T_k的模型复杂度，学习率ε取值范围（0，1）。

前一轮迭代的模型残差可表示为：

。

T_k的输出可表示为：

。

作为一种示例，模仿学习输出的是一个新的数学模型，模仿学习的流程是：先根据输入数据：微电网真实有效数据的和蒙特卡洛模拟产生的运行数据，输入数据经过统一预置数学模型输出的决策数据，输入输出数据构成的原始的训练样本库，这些输入输出数据经过模仿学习模型进行训练，可以得出微电网运行场景（系统状态）与决策结果（调度动作）之间的映射关系，也就是初始宏观模型。如果没有模仿学习的宏观模仿，单纯的深度确定性策略梯度机器学习，在一个系统状态下，随机产生的调度动作可能是千差万别的，因为这个过程本身就是随机。但是如果有了模仿学习的模型，那么输入当前系统状态，比如在特定功率，电压，电流的情况下，模仿学习的模型输出就是针对目标电网的调度参数，系统可基于调度参数确定所采取的调度动作，例如：是增加某个功率模块的输出，减少某个储能的充电等。

在一些实施例中，如图6所示，提供了一种微电网有功优化调度的深度学习模型的示意图，微电网运行行为决策时输入信息传入宏观决策模块XGBoost模型各基学习器，将各基学习器的输出向量s求和后，利用Softmax函数即可得到宏观决策初始策略π，在此基础上构建了基于深度确定性策略梯度算法（DDPG）的微电网有功调度人工智能模型，基于深度确定性策略梯度（DDPG）算法的微电网有功优化调度的流程如图7所示。具体地，服务器收集当前状态信息以及上一时刻回报值和状态信息，形成样本单元存入数据池中。从样本存储数据池中重采样D个样本单元（s_t，a_t，r_t，s_t+1）(t=1，2，…，D)存入经验池用于训练，即经验样本回放，以此来打破数据之间地关联性，其中，s_t代表当前时刻系统的状态，也就是当前时刻整个系统相关的光伏、储能等的功率数据。a_t代表的是动作，比如可控分布式发电系统的出力，储能充放电情况。r_t代表的是奖励。s_t+1代表是状态的变化，比如储能的剩余电量，比如当前时刻储能的动作是放电，那么下一个时刻，储能的剩余电量就是会继续减少。优化过程中，首先，根据当前未更新的目标网络参数计算动作预估值以及相应的目标评价值，得到评价网络训练的损失函数L，更新主评价网络的参数。然后，更新主策略网络的参数、目标网络的策略网络和评价网络的参数。通过训练深度神经网络，更新主网络和目标网络的参数。当前网络的参数是随着训练而不断更新的，目标网络不进行训练，它的参数是一段时间前的当前网络的参数。根据更新后的目标网络得到当前动作值，并输出到主动配电网中潮流控制模块和各个微电网控制模块。采集t+1时刻微电网的状态信息s_t+1作为新的样本，并进行下一个时刻的学习和计算。确定性策略梯度深度强化学习(DDPG)优化过程运用深度卷积神经网络处理微电网运行数据，具有强大的自主寻优能力；微电网有功优化调度的深度确定性策略梯度（DDPG）神经网络结构训练过程如图8所示，s和s’分别表示输入当前网络和目标网络的智能体的状态，a和a’分别表示输入当前网络和目标网络的智能体的动作。确定性策略梯度深度强化学习(DDPG)在初期首先在连续动作空间中基于下式进行冒险探索，以构建经验回放记忆池：

。

其中，N为噪声，用于随机搜索动作；回放记忆池可表示为：

。

其中，DDPG的训练步数可表示为：

。

定期从经验回放记忆池中随机采样一批经历样本(s，a，r，s’)，训练DDPG的当前执行者网络和评论者网络，训练当前评论者网络以更加准确地评估动作价值函数，其学习损失函数定义为：

。

根据上式计算损失值，当前评论者网络参数ω的更新公式为：

。

使用Adam优化器按设定的学习率α_ω更新评论者网络的网络参数：

。

训练当前执行者网络即更新当前执行者网络参数θ以优化微电网运行行为决策策略，目标函数可表示为：

。

根据下式计算采样策略梯度值：

。

其中，π（s；θ）为确定性策略。当前执行者网络参数θ的更新公式可表示为：

。

使用Adam优化器按设定的学习率α_θ更新执行者网络的网络参数：

。

深度确定性策略梯度算法神经网络分为执行者网络和评价者网络，其中每种网络又分为目标网络和当前网络（即当前执行者网络和目标执行者网络、当前评论者网络和目标评论者网络）。当前网络和目标网络的结构是一样，但是参数不一样。因为当前网络是在不断训练，目标网络是不训练的，是由当前网络去不断更新的，即，如果当前网络经过训练后又更新后，服务器把参数传递目标网络进行更新，目标网络的参数就会跟上一时刻的当前网络的参数一样。但是当前网络在不断变化，目标网络是上一个时刻相对比较稳定的模型，当前网络在此刻的动作可以跟上一个时刻也就是目标网络的模型进行对比，从而判断当前网络的参数是否合适，如果合适就会替换到目标网络；服务器根据基于深度确定性策略梯度训练所得到的微电网优化调度模型，输入微电网实时的运行参数，输入到优化调度模型中，从而得到微电网实时的优化调度结果，并将所得到的优化调度结果输入到模型中进行下一次的训练，提高模型的准确度。

本实施例中，在深度确定性策略梯度训练之前先采用基于模仿学习，从而得到初始宏观决策，避免在模型训练前期盲目寻找初始决策，缩小了前期随机训练的范围，加快了模型收敛的速度；XGBoost与DDPG相结合的算法在初始阶段的探索效率明显提高，可以快速收敛到较高水平，得到更好的优化调度策略，进而提高针对目标电网的调度效率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于深度确定性策略梯度的微电网运行优化调度方法的基于深度确定性策略梯度的微电网运行优化调度装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于深度确定性策略梯度的微电网运行优化调度装置实施例中的具体限定可以参见上文中对于基于深度确定性策略梯度的微电网运行优化调度方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种基于深度确定性策略梯度的微电网运行优化调度装置，包括：获取模块902、确定模块904、筛选模块906、生成模块908和调度模块910，其中：

获取模块902，用于获取针对目标电网的初始调度策略；所述初始调度策略表征所述目标电网对应的状态参数与针对所述目标电网的调度动作之间的映射关系。

确定模块904，用于根据所述初始调度策略，确定所述初始调度策略对应的待筛选调度策略集合；所述待筛选调度策略集合包括至少一个待筛选调度策略；所述待筛选调度策略包括引入随机噪声后的初始调度策略。

筛选模块906，用于通过目标智能体所采用的强化学习方式，从各所述待筛选调度策略中筛选出目标调度策略；所述目标智能体中的评论者网络用于根据所述目标电网对应的电力设备约束条件，确定各所述待筛选调度策略对应的奖励信息。

生成模块908，用于将所述目标电网对应的初始状态参数输入至所述目标调度策略，得到目标调度参数。

调度模块910，用于根据所述目标调度参数，调度所述目标电网。

在一个示例性实施例中，所述目标智能体包括执行者网络和评论者网络，上述筛选模块906具体还用于将所述目标电网对应的初始状态参数和所述待筛选调度策略输入至所述执行者网络，得到所述待筛选调度策略对应的候选调度参数；将所述候选调度参数和所述初始状态参数输入至所述评论者网络，得到所述待筛选调度策略对应的奖励信息；根据所述待筛选调度策略对应的奖励信息，确定所述目标调度策略；所述目标调度策略对应的奖励信息大于其他调度策略对应的奖励信息；所述其他调度策略为各所述待筛选调度策略中除所述目标调度策略以外的待筛选调度策略。

在一个示例性实施例中，上述装置还包括第一训练模块，该第一训练模块具体用于将样本状态参数和样本待筛选调度策略输入至所述执行者网络，得到所述样本待筛选调度策略对应的样本候选调度参数；将所述样本候选调度参数和所述样本状态参数输入至所述评论者网络，得到所述样本待筛选调度策略对应的奖励信息；根据所述样本待筛选调度策略对应的奖励信息，更新所述评论者网络的网络参数。

在一个示例性实施例中，上述第一训练模块具体还用于根据所述样本待筛选调度策略对应的奖励信息，确定所述评论者网络的学习损失函数值；根据所述学习损失函数值，更新所述评论者网络的网络参数。

在一个示例性实施例中，上述装置还包括模仿学习模块，该模仿学习模块具体用于获取所述目标电网的电力设备约束条件和所述目标电网的初始状态参数；将所述电力设备约束条件和所述初始状态参数输入至预训练的基学习器，生成所述初始调度策略。

在一个示例性实施例中，上述装置还包括第二训练模块，该第二训练模块具体用于获取样本状态参数；将所述样本状态参数输入至初始基学习器，得到所述初始基学习器对应的结果参数；根据所述样本状态参数和所述电力设备约束条件，确定所述样本状态参数对应的期望参数；根据所述期望参数与所述初始基学习器对应的结果参数，训练所述初始基学习器，直至所述初始基学习器训练完成，作为所述预训练的基学习器。

在一个示例性实施例中，上述第二训练模块具体还用于根据所述期望参数与所述初始基学习器对应的结果参数，确定所述初始基学习器对应的损失函数值；根据所述初始基学习器对应的损失函数值，确定所述初始基学习器对应的待增加决策树；将所述待增加决策树加入所述初始基学习器，得到所述初始基学习器对应的待训练基学习器；确定所述待训练基学习器对应的结果参数，根据所述初始基学习器对应的结果参数和所述待训练基学习器对应的结果参数，确定所述待训练基学习器对应的损失函数值；在所述待训练基学习器对应的损失函数值小于预设的损失函数值阈值的情况下，将所述待训练基学习器作为所述预训练的基学习器。

上述基于深度确定性策略梯度的微电网运行优化调度中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种微电网运行优化调度方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于深度确定性策略梯度的微电网运行优化调度方法，其特征在于，所述方法包括：

根据所述目标调度参数，调度所述目标电网。

2.根据权利要求1所述的方法，其特征在于，所述目标智能体包括执行者网络和评论者网络，所述通过目标智能体所采用的强化学习方式，从各所述待筛选调度策略中筛选出目标调度策略，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述样本待筛选调度策略对应的奖励信息，更新所述评论者网络的网络参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取针对目标电网的初始调度策略，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取样本状态参数；

7.根据权利要求6所述的方法，其特征在于，所述根据所述期望参数与所述初始基学习器对应的结果参数，训练所述初始基学习器，直至所述初始基学习器训练完成，作为所述预训练的基学习器，包括：

8.一种基于深度确定性策略梯度的微电网运行优化调度装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。