CN112670982A

CN112670982A - 一种基于奖励机制的微电网有功调度控制方法及系统

Info

Publication number: CN112670982A
Application number: CN202011474800.9A
Authority: CN
Inventors: 陈卫东; 吴宁; 冯玉斌; 姚知洋; 肖静; 郭敏
Original assignee: Electric Power Research Institute of Guangxi Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-04-16
Anticipated expiration: 2040-12-14
Also published as: CN112670982B

Abstract

本发明公开了一种基于奖励机制的微电网有功调度控制方法及系统，其方法包括：对采集到的微电网运行数据进行预处理，形成样本数据集；搭建深度双Q网络模型，并以系统总运行成本最低为目标值，确定所述深度双Q网络模型中所依赖的奖励函数；将所述样本数据集导入所述深度双Q网络模型进行训练，输出微电网有功调度的最优控制策略，并结合所述奖励函数对所述最优控制策略进行可靠性评估。本发明实施例可解决预案式控制离线分析场景的局限性问题，提高微电网调度运行的优化水平和智能化程度，从而保障电力系统运行的稳定性。

Description

一种基于奖励机制的微电网有功调度控制方法及系统

技术领域

本发明涉及电力技术领域，尤其涉及一种基于奖励机制的微电网有功调度控制方法及系统。

背景技术

长久以来，电网调度机构通常是通过“离线计算、在线匹配”的模式来解决传统电力系统绝大部分的运行问题，现有的微电网有功优化调度控制策略实质上也是基于工程人员的经验和认知，其研究方向通常偏向于最优化的理论和方法，即对微电网内部各元件进行建模，再对各个模型进行简化处理，最后利用相应的求解算法对各个模型进行求解。

但随着微电网的快速发展，强间歇性可再生能源高比例接入、高渗透率电力电子装备投入使用、多能源耦合运行、能源市场交易多参与主体博弈行为、多时间尺度动态互相影响等因素不断改变甚至颠覆传统电力系统的运行控制模式，使得传统电力系统在运行过程中极有可能出现离线分析无法涵盖的复杂场景，在此情况下，“离线计算、在线匹配”的预案式控制模式也难以达到良好的控制效果，将影响到电力系统运行的稳定性与经济性。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于奖励机制的微电网有功调度控制方法及系统，可解决预案式控制离线分析场景的局限性问题，提高微电网调度运行的优化水平和智能化程度，从而保障电力系统运行的稳定性。

为了解决上述问题，本发明提出了一种基于奖励机制的微电网有功调度控制方法，所述方法包括：

对采集到的微电网运行数据进行预处理，形成样本数据集；

搭建深度双Q网络模型，并以系统总运行成本最低为目标值，确定所述深度双Q网络模型中所依赖的奖励函数；

将所述样本数据集导入所述深度双Q网络模型进行训练，输出微电网有功调度的最优控制策略，并结合所述奖励函数对所述最优控制策略进行可靠性评估。

可选的，所述微电网运行数据包括元素可再生能源发电数据、其他电源发电数据、不可控负荷数据、可控负荷数据、电网购售电价、储能充放电功率以及微电网与电网的交换功率。

可选的，所述对采集到的微电网运行数据进行预处理，形成样本数据集包括：

从所述微电网运行数据中剔除去异常数据以及坏数据，并对剩余的微电网运行数据进行归一化处理，形成样本数据集。

可选的，所述以系统总运行成本最低为目标值，确定所述深度双Q网络模型中所依赖的奖励函数包括：

获取所述系统总运行成本所包含的可控分布式发电机组的燃料成本与启动成本、储能电池的充放电成本以及微电网与大电网之间的购售电成本；

基于所述系统总运行成本，确定所述深度双Q网络模型中所依赖的奖励函数为：

其中，C_{1_i，t}为第i个可控分布式发电机组在t时段内的燃料成本，C_{2_i,t}为第i个可控分布式发电机组在t时段内的启动成本，C_{3_t}为储能电池在t时段内的充放电成本，C_{4_t}为在t时段内微电网与大电网之间的购售电成本，T为调度周期，N为可控分布式发电机组的总数量。

可选的，所述将所述样本数据集导入所述深度双Q网络模型进行训练，输出微电网有功调度的最优控制策略，并结合所述奖励函数对所述最优控制策略进行可靠性评估包括：

基于所述深度双Q网络模型包含有主Q值网络与目标Q值网络，定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θ_target；

将所述样本数据集导入所述主Q值网络中，同时结合给定的初始控制策略进行运算，输出第一网络结果；

从所述样本数据集中随机抽取出批量样本数据，并将所述批量样本数据导入所述主Q值网络，且在所述参数值θ的作用下获取暂态控制策略；

将所述批量样本数据与所述暂态控制策略输入至所述目标Q值网络进行运算，输出第二网络结果；

确定所述第一网络结果与所述第二网络结果之间的损失函数，并判断所述损失函数是否处于收敛状态；

若是，则将所述暂态控制策略作为最优控制策略输出；

若否，则返回重新定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θ_target。

另外，本发明实施例还提供了一种基于奖励机制的微电网有功调度控制系统，所述系统包括：

数据预处理模块，用于对采集到的微电网运行数据进行预处理，形成样本数据集；

模型建立模块，用于搭建深度双Q网络模型，并以系统总运行成本最低为目标值，确定所述深度双Q网络模型中所依赖的奖励函数；

策略优化模块，用于将所述样本数据集导入所述深度双Q网络模型进行训练，输出微电网有功调度的最优控制策略，并结合所述奖励函数对所述最优控制策略进行可靠性评估。

可选的，所述数据预处理模块用于从所述微电网运行数据中剔除去异常数据以及坏数据，并对剩余的微电网运行数据进行归一化处理，形成样本数据集。

可选的，所述模型建立模块用于获取所述系统总运行成本所包含的可控分布式发电机组的燃料成本与启动成本、储能电池的充放电成本以及微电网与大电网之间的购售电成本；以及基于所述系统总运行成本，确定所述深度双Q网络模型中所依赖的奖励函数为：

其中，C_{1_i,t}为第i个可控分布式发电机组在t时段内的燃料成本，C_{2_i,t}为第i个可控分布式发电机组在t时段内的启动成本，C_{3_t}为储能电池在t时段内的充放电成本，C_{4_t}为在t时段内微电网与大电网之间的购售电成本，T为调度周期，N为可控分布式发电机组的总数量。

可选的，所述策略优化模块用于基于所述深度双Q网络模型包含有主Q值网络与目标Q值网络，定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θ_target；将所述样本数据集导入所述主Q值网络中，同时结合给定的初始控制策略进行运算，输出第一网络结果；从所述样本数据集中随机抽取出批量样本数据，并将所述批量样本数据导入所述主Q值网络，且在所述参数值θ的作用下获取暂态控制策略；将所述批量样本数据与所述暂态控制策略输入至所述目标Q值网络进行运算，输出第二网络结果；确定所述第一网络结果与所述第二网络结果之间的损失函数，并判断所述损失函数是否处于收敛状态；若是，则将所述暂态控制策略作为最优控制策略输出；若否，则返回重新定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θ_target。

在本发明实施例中，通过以多类型的微电网历史运行数据为输入变量，并利用深度双Q网络模型在奖励函数的约束下来综合确定微电网在线最优调度控制策略，可解决预案式控制离线分析场景的局限性问题，同时避免需要根据运行机理额外建立复杂的调度对象数学模型所带来的成本问题，将提高微电网调度运行的优化水平和智能化程度，从而保障电力系统运行的稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于奖励机制的微电网有功调度控制方法的流程示意图；

图2是本发明实施例中的基于奖励机制的微电网有功调度控制系统的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例

请参阅图1，图1示出了本发明实施例中的基于奖励机制的微电网有功调度控制方法的流程示意图。

如图1所示，一种基于奖励机制的微电网有功调度控制方法，所述方法包括如下步骤：

S101、对采集到的微电网运行数据进行预处理，形成样本数据集；

本发明实施过程包括：

(1)采集微电网运行数据，包括元素可再生能源发电数据(光伏发电、风力发电)、其他电源发电数据(微型燃气轮机、柴油发电机)、不可控负荷数据、可控负荷数据、电网购售电价、储能充放电功率以及微电网与电网的交换功率；

(2)从所述微电网运行数据中剔除去异常数据以及坏数据，并对剩余的微电网运行数据进行归一化处理，形成样本数据集S，其中的归一化处理方式可用以下公式表示为：

式中：s_i为第i个样本数据的归一化值，s_i.int为第i个样本数据的原始值，s_min为所述样本数据集S中的最小值，s_max为所述样本数据集S中的最大值。

S102、搭建深度双Q网络模型，并以系统总运行成本最低为目标值，确定所述深度双Q网络模型中所依赖的奖励函数；

本发明实施过程包括：

(1)获取所述系统总运行成本所包含的可控分布式发电机组的燃料成本与启动成本、储能电池的充放电成本以及微电网与大电网之间的购售电成本，分别如下：

A.第i个可控分布式发电机组在t时段内的燃料成本为：

B.第i个可控分布式发电机组在t时段内的启动成本为：

C_{2_i,t}＝SU_i×n_{on_i,t}

C.储能电池在t时段内的充放电成本为：

C_{3_t}＝K×(P_cha,t×η_cha+P_dis,t/η_dis)

D.在t时段内微电网与大电网之间的购售电成本为：

C_{4_t}＝P_{ex_t}×P_pr

(2)基于所述系统总运行成本，确定所述深度双Q网络模型中所依赖的奖励函数为：

其中，T为调度周期，N为可控分布式发电机组的总数量，a_i、b_i、c_i均为第i个可控分布式发电机组的燃料成本系数，P_i,t为第i个可控分布式发电机组在t时段内的出力，n_{on_i,t}为第i个可控分布式发电机组在t时段内的状态量(n_{on_i,t}＝1表示机组处于运行状态，n_{on_i,t}＝0表示机组处于停滞不工作状态)，SU_i为第i个可控分布式发电机组的启动成本，K为储能电池的单位充放电成本，P_cha,t为储能电池在t时段内的充电功率，P_dis,t为储能电池在t时段内的放电功率，η_cha为储能电池的充电效率，η_dis为储能电池的放电效率，P_{ex_t}为微电网与大电网在t时段内的交换功率，P_pr为电网在t时段内的电价。

S103、将所述样本数据集导入所述深度双Q网络模型进行训练，输出微电网有功调度的最优控制策略，并结合所述奖励函数对所述最优控制策略进行可靠性评估。

本发明实施过程包括：

(1)基于所述深度双Q网络模型包含有主Q值网络与目标Q值网络，定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θ_target；

(2)将所述样本数据集S导入所述主Q值网络中，同时结合给定的初始控制策略a进行运算，输出第一网络结果Q(S,a,θ)；

(3)从所述样本数据集S中随机抽取出批量样本数据S′，并将所述批量样本数据S′导入所述主Q值网络，且在所述参数值θ的作用下获取暂态控制策略a′；

(4)将所述批量样本数据S′与所述暂态控制策略a′输入至所述目标Q值网络进行运算，输出第二网络结果Q_target；

(5)首先确定所述第一网络结果Q(S,a,θ)与所述第二网络结果Q_target之间的损失函数L为：

接着判断所述损失函数是否处于收敛状态，其相应的判断结果为：若所述损失函数收敛，则将所述暂态控制策略a′作为最优控制策略输出；若所述损失函数发散，则返回步骤(1)进行迭代训练，此时利用梯度反向传播算法可重新定义所述主Q值网络的参数值θ为：

以及所述目标Q值网络的参数值θ_target为：

θ′_target＝θ_t+T

其中，ω为优先级权重，R_t为t时刻下所述暂态控制策略a′运行所获得的奖励值，γ为衰减因子系数，θ_t+1为第t+1次迭代时所述主Q值网络的参数值，θ_t为第t次迭代时所述主Q值网络的参数值，

为学习率，L_t(θ_t)为第t次迭代训练所产生的损失值，θ_t+T为第t+T次迭代时所述目标Q值网络的参数值，其以调度周期T为调整基准。

实施例

请参阅图2，图2示出了本发明实施例中的基于奖励机制的微电网有功调度控制系统的结构组成示意图。

如图2所示，一种基于奖励机制的微电网有功调度控制系统，所述系统包括如下：

数据预处理模块201，用于对采集到的微电网运行数据进行预处理，形成样本数据集；

本发明实施过程包括：

模型建立模块202，用于搭建深度双Q网络模型，并以系统总运行成本最低为目标值，确定所述深度双Q网络模型中所依赖的奖励函数；

本发明实施过程包括：

A.第i个可控分布式发电机组在t时段内的燃料成本为：

B.第i个可控分布式发电机组在t时段内的启动成本为：

C_{2_i,t}＝SU_i×n_{on_i,t}

C.储能电池在t时段内的充放电成本为：

C_{3_t}＝K×(P_cha,t×η_cha+P_dis,t/η_dis)

D.在t时段内微电网与大电网之间的购售电成本为：

C_{4_t}＝P_{ex_t}×P_pr

策略优化模块203，用于将所述样本数据集导入所述深度双Q网络模型进行训练，输出微电网有功调度的最优控制策略，并结合所述奖励函数对所述最优控制策略进行可靠性评估。

本发明实施过程包括：

(5)首先确定所述第一网络结果Q(S,a,θ)与所述第二网络结果θ_target之间的损失函数L为：

以及所述目标Q值网络的参数值θ_target为：

θ′_target＝θ_t+T

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可存储于一计算机可读存储介质中，存储介质可包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

以上对本发明实施例所提供的一种基于奖励机制的微电网有功调度控制方法及系统进行了详细介绍，本文中采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于奖励机制的微电网有功调度控制方法，其特征在于，所述方法包括：

对采集到的微电网运行数据进行预处理，形成样本数据集；

2.根据权利要求1所述的基于奖励机制的微电网有功调度控制方法，其特征在于，所述微电网运行数据包括元素可再生能源发电数据、其他电源发电数据、不可控负荷数据、可控负荷数据、电网购售电价、储能充放电功率以及微电网与电网的交换功率。

3.根据权利要求2所述的基于奖励机制的微电网有功调度控制方法，其特征在于，所述对采集到的微电网运行数据进行预处理，形成样本数据集包括：

4.根据权利要求1所述的基于奖励机制的微电网有功调度控制方法，其特征在于，所述以系统总运行成本最低为目标值，确定所述深度双Q网络模型中所依赖的奖励函数包括：

5.根据权利要求4所述的基于奖励机制的微电网有功调度控制方法，其特征在于，所述将所述样本数据集导入所述深度双Q网络模型进行训练，输出微电网有功调度的最优控制策略，并结合所述奖励函数对所述最优控制策略进行可靠性评估包括：

若是，则将所述暂态控制策略作为最优控制策略输出；

6.一种基于奖励机制的微电网有功调度控制系统，其特征在于，所述系统包括：

7.根据权利要求6所述的基于奖励机制的微电网有功调度控制系统，其特征在于，所述微电网运行数据包括元素可再生能源发电数据、其他电源发电数据、不可控负荷数据、可控负荷数据、电网购售电价、储能充放电功率以及微电网与电网的交换功率。

8.根据权利要求7所述的基于奖励机制的微电网有功调度控制系统，其特征在于，所述数据预处理模块用于从所述微电网运行数据中剔除去异常数据以及坏数据，并对剩余的微电网运行数据进行归一化处理，形成样本数据集。

9.根据权利要求6所述的基于奖励机制的微电网有功调度控制系统，其特征在于，所述模型建立模块用于获取所述系统总运行成本所包含的可控分布式发电机组的燃料成本与启动成本、储能电池的充放电成本以及微电网与大电网之间的购售电成本；以及基于所述系统总运行成本，确定所述深度双Q网络模型中所依赖的奖励函数为：

其中，C_{1_i，t}为第i个可控分布式发电机组在t时段内的燃料成本，C_{2_i，t}为第i个可控分布式发电机组在t时段内的启动成本，C_{3_t}为储能电池在t时段内的充放电成本，C_{4_t}为在t时段内微电网与大电网之间的购售电成本，T为调度周期，N为可控分布式发电机组的总数量。

10.根据权利要求9所述的基于奖励机制的微电网有功调度控制系统，其特征在于，所述策略优化模块用于基于所述深度双Q网络模型包含有主Q值网络与目标Q值网络，定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θ_target；将所述样本数据集导入所述主Q值网络中，同时结合给定的初始控制策略进行运算，输出第一网络结果；从所述样本数据集中随机抽取出批量样本数据，并将所述批量样本数据导入所述主Q值网络，且在所述参数值θ的作用下获取暂态控制策略；将所述批量样本数据与所述暂态控制策略输入至所述目标Q值网络进行运算，输出第二网络结果；确定所述第一网络结果与所述第二网络结果之间的损失函数，并判断所述损失函数是否处于收敛状态；若是，则将所述暂态控制策略作为最优控制策略输出；若否，则返回重新定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θ_target。