CN112670982A - 一种基于奖励机制的微电网有功调度控制方法及系统 - Google Patents

一种基于奖励机制的微电网有功调度控制方法及系统 Download PDF

Info

Publication number
CN112670982A
CN112670982A CN202011474800.9A CN202011474800A CN112670982A CN 112670982 A CN112670982 A CN 112670982A CN 202011474800 A CN202011474800 A CN 202011474800A CN 112670982 A CN112670982 A CN 112670982A
Authority
CN
China
Prior art keywords
network
grid
cost
microgrid
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011474800.9A
Other languages
English (en)
Other versions
CN112670982B (zh
Inventor
陈卫东
吴宁
冯玉斌
姚知洋
肖静
郭敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Guangxi Power Grid Co Ltd filed Critical Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority to CN202011474800.9A priority Critical patent/CN112670982B/zh
Publication of CN112670982A publication Critical patent/CN112670982A/zh
Application granted granted Critical
Publication of CN112670982B publication Critical patent/CN112670982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于奖励机制的微电网有功调度控制方法及系统,其方法包括:对采集到的微电网运行数据进行预处理,形成样本数据集;搭建深度双Q网络模型,并以系统总运行成本最低为目标值,确定所述深度双Q网络模型中所依赖的奖励函数;将所述样本数据集导入所述深度双Q网络模型进行训练,输出微电网有功调度的最优控制策略,并结合所述奖励函数对所述最优控制策略进行可靠性评估。本发明实施例可解决预案式控制离线分析场景的局限性问题,提高微电网调度运行的优化水平和智能化程度,从而保障电力系统运行的稳定性。

Description

一种基于奖励机制的微电网有功调度控制方法及系统
技术领域
本发明涉及电力技术领域,尤其涉及一种基于奖励机制的微电网有功调度控制方法及系统。
背景技术
长久以来,电网调度机构通常是通过“离线计算、在线匹配”的模式来解决传统电力系统绝大部分的运行问题,现有的微电网有功优化调度控制策略实质上也是基于工程人员的经验和认知,其研究方向通常偏向于最优化的理论和方法,即对微电网内部各元件进行建模,再对各个模型进行简化处理,最后利用相应的求解算法对各个模型进行求解。
但随着微电网的快速发展,强间歇性可再生能源高比例接入、高渗透率电力电子装备投入使用、多能源耦合运行、能源市场交易多参与主体博弈行为、多时间尺度动态互相影响等因素不断改变甚至颠覆传统电力系统的运行控制模式,使得传统电力系统在运行过程中极有可能出现离线分析无法涵盖的复杂场景,在此情况下,“离线计算、在线匹配”的预案式控制模式也难以达到良好的控制效果,将影响到电力系统运行的稳定性与经济性。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种基于奖励机制的微电网有功调度控制方法及系统,可解决预案式控制离线分析场景的局限性问题,提高微电网调度运行的优化水平和智能化程度,从而保障电力系统运行的稳定性。
为了解决上述问题,本发明提出了一种基于奖励机制的微电网有功调度控制方法,所述方法包括:
对采集到的微电网运行数据进行预处理,形成样本数据集;
搭建深度双Q网络模型,并以系统总运行成本最低为目标值,确定所述深度双Q网络模型中所依赖的奖励函数;
将所述样本数据集导入所述深度双Q网络模型进行训练,输出微电网有功调度的最优控制策略,并结合所述奖励函数对所述最优控制策略进行可靠性评估。
可选的,所述微电网运行数据包括元素可再生能源发电数据、其他电源发电数据、不可控负荷数据、可控负荷数据、电网购售电价、储能充放电功率以及微电网与电网的交换功率。
可选的,所述对采集到的微电网运行数据进行预处理,形成样本数据集包括:
从所述微电网运行数据中剔除去异常数据以及坏数据,并对剩余的微电网运行数据进行归一化处理,形成样本数据集。
可选的,所述以系统总运行成本最低为目标值,确定所述深度双Q网络模型中所依赖的奖励函数包括:
获取所述系统总运行成本所包含的可控分布式发电机组的燃料成本与启动成本、储能电池的充放电成本以及微电网与大电网之间的购售电成本;
基于所述系统总运行成本,确定所述深度双Q网络模型中所依赖的奖励函数为:
Figure BDA0002834941500000021
其中,C1_i,t为第i个可控分布式发电机组在t时段内的燃料成本,C2_i,t为第i个可控分布式发电机组在t时段内的启动成本,C3_t为储能电池在t时段内的充放电成本,C4_t为在t时段内微电网与大电网之间的购售电成本,T为调度周期,N为可控分布式发电机组的总数量。
可选的,所述将所述样本数据集导入所述深度双Q网络模型进行训练,输出微电网有功调度的最优控制策略,并结合所述奖励函数对所述最优控制策略进行可靠性评估包括:
基于所述深度双Q网络模型包含有主Q值网络与目标Q值网络,定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θtarget
将所述样本数据集导入所述主Q值网络中,同时结合给定的初始控制策略进行运算,输出第一网络结果;
从所述样本数据集中随机抽取出批量样本数据,并将所述批量样本数据导入所述主Q值网络,且在所述参数值θ的作用下获取暂态控制策略;
将所述批量样本数据与所述暂态控制策略输入至所述目标Q值网络进行运算,输出第二网络结果;
确定所述第一网络结果与所述第二网络结果之间的损失函数,并判断所述损失函数是否处于收敛状态;
若是,则将所述暂态控制策略作为最优控制策略输出;
若否,则返回重新定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θtarget
另外,本发明实施例还提供了一种基于奖励机制的微电网有功调度控制系统,所述系统包括:
数据预处理模块,用于对采集到的微电网运行数据进行预处理,形成样本数据集;
模型建立模块,用于搭建深度双Q网络模型,并以系统总运行成本最低为目标值,确定所述深度双Q网络模型中所依赖的奖励函数;
策略优化模块,用于将所述样本数据集导入所述深度双Q网络模型进行训练,输出微电网有功调度的最优控制策略,并结合所述奖励函数对所述最优控制策略进行可靠性评估。
可选的,所述微电网运行数据包括元素可再生能源发电数据、其他电源发电数据、不可控负荷数据、可控负荷数据、电网购售电价、储能充放电功率以及微电网与电网的交换功率。
可选的,所述数据预处理模块用于从所述微电网运行数据中剔除去异常数据以及坏数据,并对剩余的微电网运行数据进行归一化处理,形成样本数据集。
可选的,所述模型建立模块用于获取所述系统总运行成本所包含的可控分布式发电机组的燃料成本与启动成本、储能电池的充放电成本以及微电网与大电网之间的购售电成本;以及基于所述系统总运行成本,确定所述深度双Q网络模型中所依赖的奖励函数为:
Figure BDA0002834941500000041
其中,C1_i,t为第i个可控分布式发电机组在t时段内的燃料成本,C2_i,t为第i个可控分布式发电机组在t时段内的启动成本,C3_t为储能电池在t时段内的充放电成本,C4_t为在t时段内微电网与大电网之间的购售电成本,T为调度周期,N为可控分布式发电机组的总数量。
可选的,所述策略优化模块用于基于所述深度双Q网络模型包含有主Q值网络与目标Q值网络,定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θtarget;将所述样本数据集导入所述主Q值网络中,同时结合给定的初始控制策略进行运算,输出第一网络结果;从所述样本数据集中随机抽取出批量样本数据,并将所述批量样本数据导入所述主Q值网络,且在所述参数值θ的作用下获取暂态控制策略;将所述批量样本数据与所述暂态控制策略输入至所述目标Q值网络进行运算,输出第二网络结果;确定所述第一网络结果与所述第二网络结果之间的损失函数,并判断所述损失函数是否处于收敛状态;若是,则将所述暂态控制策略作为最优控制策略输出;若否,则返回重新定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θtarget
在本发明实施例中,通过以多类型的微电网历史运行数据为输入变量,并利用深度双Q网络模型在奖励函数的约束下来综合确定微电网在线最优调度控制策略,可解决预案式控制离线分析场景的局限性问题,同时避免需要根据运行机理额外建立复杂的调度对象数学模型所带来的成本问题,将提高微电网调度运行的优化水平和智能化程度,从而保障电力系统运行的稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的基于奖励机制的微电网有功调度控制方法的流程示意图;
图2是本发明实施例中的基于奖励机制的微电网有功调度控制系统的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例
请参阅图1,图1示出了本发明实施例中的基于奖励机制的微电网有功调度控制方法的流程示意图。
如图1所示,一种基于奖励机制的微电网有功调度控制方法,所述方法包括如下步骤:
S101、对采集到的微电网运行数据进行预处理,形成样本数据集;
本发明实施过程包括:
(1)采集微电网运行数据,包括元素可再生能源发电数据(光伏发电、风力发电)、其他电源发电数据(微型燃气轮机、柴油发电机)、不可控负荷数据、可控负荷数据、电网购售电价、储能充放电功率以及微电网与电网的交换功率;
(2)从所述微电网运行数据中剔除去异常数据以及坏数据,并对剩余的微电网运行数据进行归一化处理,形成样本数据集S,其中的归一化处理方式可用以下公式表示为:
Figure BDA0002834941500000051
式中:si为第i个样本数据的归一化值,si.int为第i个样本数据的原始值,smin为所述样本数据集S中的最小值,smax为所述样本数据集S中的最大值。
S102、搭建深度双Q网络模型,并以系统总运行成本最低为目标值,确定所述深度双Q网络模型中所依赖的奖励函数;
本发明实施过程包括:
(1)获取所述系统总运行成本所包含的可控分布式发电机组的燃料成本与启动成本、储能电池的充放电成本以及微电网与大电网之间的购售电成本,分别如下:
A.第i个可控分布式发电机组在t时段内的燃料成本为:
Figure BDA0002834941500000061
B.第i个可控分布式发电机组在t时段内的启动成本为:
C2_i,t=SUi×non_i,t
C.储能电池在t时段内的充放电成本为:
C3_t=K×(Pcha,t×ηcha+Pdis,tdis)
D.在t时段内微电网与大电网之间的购售电成本为:
C4_t=Pex_t×Ppr
(2)基于所述系统总运行成本,确定所述深度双Q网络模型中所依赖的奖励函数为:
Figure BDA0002834941500000062
其中,T为调度周期,N为可控分布式发电机组的总数量,ai、bi、ci均为第i个可控分布式发电机组的燃料成本系数,Pi,t为第i个可控分布式发电机组在t时段内的出力,non_i,t为第i个可控分布式发电机组在t时段内的状态量(non_i,t=1表示机组处于运行状态,non_i,t=0表示机组处于停滞不工作状态),SUi为第i个可控分布式发电机组的启动成本,K为储能电池的单位充放电成本,Pcha,t为储能电池在t时段内的充电功率,Pdis,t为储能电池在t时段内的放电功率,ηcha为储能电池的充电效率,ηdis为储能电池的放电效率,Pex_t为微电网与大电网在t时段内的交换功率,Ppr为电网在t时段内的电价。
S103、将所述样本数据集导入所述深度双Q网络模型进行训练,输出微电网有功调度的最优控制策略,并结合所述奖励函数对所述最优控制策略进行可靠性评估。
本发明实施过程包括:
(1)基于所述深度双Q网络模型包含有主Q值网络与目标Q值网络,定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θtarget
(2)将所述样本数据集S导入所述主Q值网络中,同时结合给定的初始控制策略a进行运算,输出第一网络结果Q(S,a,θ);
(3)从所述样本数据集S中随机抽取出批量样本数据S′,并将所述批量样本数据S′导入所述主Q值网络,且在所述参数值θ的作用下获取暂态控制策略a′;
(4)将所述批量样本数据S′与所述暂态控制策略a′输入至所述目标Q值网络进行运算,输出第二网络结果Qtarget
(5)首先确定所述第一网络结果Q(S,a,θ)与所述第二网络结果Qtarget之间的损失函数L为:
Figure BDA0002834941500000071
接着判断所述损失函数是否处于收敛状态,其相应的判断结果为:若所述损失函数收敛,则将所述暂态控制策略a′作为最优控制策略输出;若所述损失函数发散,则返回步骤(1)进行迭代训练,此时利用梯度反向传播算法可重新定义所述主Q值网络的参数值θ为:
Figure BDA0002834941500000072
以及所述目标Q值网络的参数值θtarget为:
θ′target=θt+T
其中,ω为优先级权重,Rt为t时刻下所述暂态控制策略a′运行所获得的奖励值,γ为衰减因子系数,θt+1为第t+1次迭代时所述主Q值网络的参数值,θt为第t次迭代时所述主Q值网络的参数值,
Figure BDA0002834941500000073
为学习率,Ltt)为第t次迭代训练所产生的损失值,θt+T为第t+T次迭代时所述目标Q值网络的参数值,其以调度周期T为调整基准。
在本发明实施例中,通过以多类型的微电网历史运行数据为输入变量,并利用深度双Q网络模型在奖励函数的约束下来综合确定微电网在线最优调度控制策略,可解决预案式控制离线分析场景的局限性问题,同时避免需要根据运行机理额外建立复杂的调度对象数学模型所带来的成本问题,将提高微电网调度运行的优化水平和智能化程度,从而保障电力系统运行的稳定性。
实施例
请参阅图2,图2示出了本发明实施例中的基于奖励机制的微电网有功调度控制系统的结构组成示意图。
如图2所示,一种基于奖励机制的微电网有功调度控制系统,所述系统包括如下:
数据预处理模块201,用于对采集到的微电网运行数据进行预处理,形成样本数据集;
本发明实施过程包括:
(1)采集微电网运行数据,包括元素可再生能源发电数据(光伏发电、风力发电)、其他电源发电数据(微型燃气轮机、柴油发电机)、不可控负荷数据、可控负荷数据、电网购售电价、储能充放电功率以及微电网与电网的交换功率;
(2)从所述微电网运行数据中剔除去异常数据以及坏数据,并对剩余的微电网运行数据进行归一化处理,形成样本数据集S,其中的归一化处理方式可用以下公式表示为:
Figure BDA0002834941500000081
式中:si为第i个样本数据的归一化值,si.int为第i个样本数据的原始值,smin为所述样本数据集S中的最小值,smax为所述样本数据集S中的最大值。
模型建立模块202,用于搭建深度双Q网络模型,并以系统总运行成本最低为目标值,确定所述深度双Q网络模型中所依赖的奖励函数;
本发明实施过程包括:
(1)获取所述系统总运行成本所包含的可控分布式发电机组的燃料成本与启动成本、储能电池的充放电成本以及微电网与大电网之间的购售电成本,分别如下:
A.第i个可控分布式发电机组在t时段内的燃料成本为:
Figure BDA0002834941500000091
B.第i个可控分布式发电机组在t时段内的启动成本为:
C2_i,t=SUi×non_i,t
C.储能电池在t时段内的充放电成本为:
C3_t=K×(Pcha,t×ηcha+Pdis,tdis)
D.在t时段内微电网与大电网之间的购售电成本为:
C4_t=Pex_t×Ppr
(2)基于所述系统总运行成本,确定所述深度双Q网络模型中所依赖的奖励函数为:
Figure BDA0002834941500000092
其中,T为调度周期,N为可控分布式发电机组的总数量,ai、bi、ci均为第i个可控分布式发电机组的燃料成本系数,Pi,t为第i个可控分布式发电机组在t时段内的出力,non_i,t为第i个可控分布式发电机组在t时段内的状态量(non_i,t=1表示机组处于运行状态,non_i,t=0表示机组处于停滞不工作状态),SUi为第i个可控分布式发电机组的启动成本,K为储能电池的单位充放电成本,Pcha,t为储能电池在t时段内的充电功率,Pdis,t为储能电池在t时段内的放电功率,ηcha为储能电池的充电效率,ηdis为储能电池的放电效率,Pex_t为微电网与大电网在t时段内的交换功率,Ppr为电网在t时段内的电价。
策略优化模块203,用于将所述样本数据集导入所述深度双Q网络模型进行训练,输出微电网有功调度的最优控制策略,并结合所述奖励函数对所述最优控制策略进行可靠性评估。
本发明实施过程包括:
(1)基于所述深度双Q网络模型包含有主Q值网络与目标Q值网络,定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θtarget
(2)将所述样本数据集S导入所述主Q值网络中,同时结合给定的初始控制策略a进行运算,输出第一网络结果Q(S,a,θ);
(3)从所述样本数据集S中随机抽取出批量样本数据S′,并将所述批量样本数据S′导入所述主Q值网络,且在所述参数值θ的作用下获取暂态控制策略a′;
(4)将所述批量样本数据S′与所述暂态控制策略a′输入至所述目标Q值网络进行运算,输出第二网络结果Qtarget
(5)首先确定所述第一网络结果Q(S,a,θ)与所述第二网络结果θtarget之间的损失函数L为:
Figure BDA0002834941500000101
接着判断所述损失函数是否处于收敛状态,其相应的判断结果为:若所述损失函数收敛,则将所述暂态控制策略a′作为最优控制策略输出;若所述损失函数发散,则返回步骤(1)进行迭代训练,此时利用梯度反向传播算法可重新定义所述主Q值网络的参数值θ为:
Figure BDA0002834941500000102
以及所述目标Q值网络的参数值θtarget为:
θ′target=θt+T
其中,ω为优先级权重,Rt为t时刻下所述暂态控制策略a′运行所获得的奖励值,γ为衰减因子系数,θt+1为第t+1次迭代时所述主Q值网络的参数值,θt为第t次迭代时所述主Q值网络的参数值,
Figure BDA0002834941500000103
为学习率,Ltt)为第t次迭代训练所产生的损失值,θt+T为第t+T次迭代时所述目标Q值网络的参数值,其以调度周期T为调整基准。
在本发明实施例中,通过以多类型的微电网历史运行数据为输入变量,并利用深度双Q网络模型在奖励函数的约束下来综合确定微电网在线最优调度控制策略,可解决预案式控制离线分析场景的局限性问题,同时避免需要根据运行机理额外建立复杂的调度对象数学模型所带来的成本问题,将提高微电网调度运行的优化水平和智能化程度,从而保障电力系统运行的稳定性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可存储于一计算机可读存储介质中,存储介质可包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上对本发明实施例所提供的一种基于奖励机制的微电网有功调度控制方法及系统进行了详细介绍,本文中采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于奖励机制的微电网有功调度控制方法,其特征在于,所述方法包括:
对采集到的微电网运行数据进行预处理,形成样本数据集;
搭建深度双Q网络模型,并以系统总运行成本最低为目标值,确定所述深度双Q网络模型中所依赖的奖励函数;
将所述样本数据集导入所述深度双Q网络模型进行训练,输出微电网有功调度的最优控制策略,并结合所述奖励函数对所述最优控制策略进行可靠性评估。
2.根据权利要求1所述的基于奖励机制的微电网有功调度控制方法,其特征在于,所述微电网运行数据包括元素可再生能源发电数据、其他电源发电数据、不可控负荷数据、可控负荷数据、电网购售电价、储能充放电功率以及微电网与电网的交换功率。
3.根据权利要求2所述的基于奖励机制的微电网有功调度控制方法,其特征在于,所述对采集到的微电网运行数据进行预处理,形成样本数据集包括:
从所述微电网运行数据中剔除去异常数据以及坏数据,并对剩余的微电网运行数据进行归一化处理,形成样本数据集。
4.根据权利要求1所述的基于奖励机制的微电网有功调度控制方法,其特征在于,所述以系统总运行成本最低为目标值,确定所述深度双Q网络模型中所依赖的奖励函数包括:
获取所述系统总运行成本所包含的可控分布式发电机组的燃料成本与启动成本、储能电池的充放电成本以及微电网与大电网之间的购售电成本;
基于所述系统总运行成本,确定所述深度双Q网络模型中所依赖的奖励函数为:
Figure FDA0002834941490000021
其中,C1_i,t为第i个可控分布式发电机组在t时段内的燃料成本,C2_i,t为第i个可控分布式发电机组在t时段内的启动成本,C3_t为储能电池在t时段内的充放电成本,C4_t为在t时段内微电网与大电网之间的购售电成本,T为调度周期,N为可控分布式发电机组的总数量。
5.根据权利要求4所述的基于奖励机制的微电网有功调度控制方法,其特征在于,所述将所述样本数据集导入所述深度双Q网络模型进行训练,输出微电网有功调度的最优控制策略,并结合所述奖励函数对所述最优控制策略进行可靠性评估包括:
基于所述深度双Q网络模型包含有主Q值网络与目标Q值网络,定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θtarget
将所述样本数据集导入所述主Q值网络中,同时结合给定的初始控制策略进行运算,输出第一网络结果;
从所述样本数据集中随机抽取出批量样本数据,并将所述批量样本数据导入所述主Q值网络,且在所述参数值θ的作用下获取暂态控制策略;
将所述批量样本数据与所述暂态控制策略输入至所述目标Q值网络进行运算,输出第二网络结果;
确定所述第一网络结果与所述第二网络结果之间的损失函数,并判断所述损失函数是否处于收敛状态;
若是,则将所述暂态控制策略作为最优控制策略输出;
若否,则返回重新定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θtarget
6.一种基于奖励机制的微电网有功调度控制系统,其特征在于,所述系统包括:
数据预处理模块,用于对采集到的微电网运行数据进行预处理,形成样本数据集;
模型建立模块,用于搭建深度双Q网络模型,并以系统总运行成本最低为目标值,确定所述深度双Q网络模型中所依赖的奖励函数;
策略优化模块,用于将所述样本数据集导入所述深度双Q网络模型进行训练,输出微电网有功调度的最优控制策略,并结合所述奖励函数对所述最优控制策略进行可靠性评估。
7.根据权利要求6所述的基于奖励机制的微电网有功调度控制系统,其特征在于,所述微电网运行数据包括元素可再生能源发电数据、其他电源发电数据、不可控负荷数据、可控负荷数据、电网购售电价、储能充放电功率以及微电网与电网的交换功率。
8.根据权利要求7所述的基于奖励机制的微电网有功调度控制系统,其特征在于,所述数据预处理模块用于从所述微电网运行数据中剔除去异常数据以及坏数据,并对剩余的微电网运行数据进行归一化处理,形成样本数据集。
9.根据权利要求6所述的基于奖励机制的微电网有功调度控制系统,其特征在于,所述模型建立模块用于获取所述系统总运行成本所包含的可控分布式发电机组的燃料成本与启动成本、储能电池的充放电成本以及微电网与大电网之间的购售电成本;以及基于所述系统总运行成本,确定所述深度双Q网络模型中所依赖的奖励函数为:
Figure FDA0002834941490000031
其中,C1_i,t为第i个可控分布式发电机组在t时段内的燃料成本,C2_i,t为第i个可控分布式发电机组在t时段内的启动成本,C3_t为储能电池在t时段内的充放电成本,C4_t为在t时段内微电网与大电网之间的购售电成本,T为调度周期,N为可控分布式发电机组的总数量。
10.根据权利要求9所述的基于奖励机制的微电网有功调度控制系统,其特征在于,所述策略优化模块用于基于所述深度双Q网络模型包含有主Q值网络与目标Q值网络,定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θtarget;将所述样本数据集导入所述主Q值网络中,同时结合给定的初始控制策略进行运算,输出第一网络结果;从所述样本数据集中随机抽取出批量样本数据,并将所述批量样本数据导入所述主Q值网络,且在所述参数值θ的作用下获取暂态控制策略;将所述批量样本数据与所述暂态控制策略输入至所述目标Q值网络进行运算,输出第二网络结果;确定所述第一网络结果与所述第二网络结果之间的损失函数,并判断所述损失函数是否处于收敛状态;若是,则将所述暂态控制策略作为最优控制策略输出;若否,则返回重新定义所述主Q值网络的参数值θ以及所述目标Q值网络的参数值θtarget
CN202011474800.9A 2020-12-14 2020-12-14 一种基于奖励机制的微电网有功调度控制方法及系统 Active CN112670982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011474800.9A CN112670982B (zh) 2020-12-14 2020-12-14 一种基于奖励机制的微电网有功调度控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011474800.9A CN112670982B (zh) 2020-12-14 2020-12-14 一种基于奖励机制的微电网有功调度控制方法及系统

Publications (2)

Publication Number Publication Date
CN112670982A true CN112670982A (zh) 2021-04-16
CN112670982B CN112670982B (zh) 2022-11-08

Family

ID=75404474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011474800.9A Active CN112670982B (zh) 2020-12-14 2020-12-14 一种基于奖励机制的微电网有功调度控制方法及系统

Country Status (1)

Country Link
CN (1) CN112670982B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114066333A (zh) * 2022-01-17 2022-02-18 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法及装置
WO2022252559A1 (zh) * 2021-05-31 2022-12-08 深圳先进技术研究院 基于规则和双深度q网络的混合动力汽车能量管理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110300059A (zh) * 2019-07-19 2019-10-01 中国科学技术大学 最小化信息在轨传输时延的方法
CN110515303A (zh) * 2019-09-17 2019-11-29 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN110958135A (zh) * 2019-11-05 2020-04-03 东华大学 一种特征自适应强化学习DDoS攻击消除方法及系统
CN111654027A (zh) * 2020-06-15 2020-09-11 江苏方天电力技术有限公司 一种基于强化学习的配电物联网智能决策方法
CN112003269A (zh) * 2020-07-30 2020-11-27 四川大学 并网型共享储能系统的智能化在线控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110300059A (zh) * 2019-07-19 2019-10-01 中国科学技术大学 最小化信息在轨传输时延的方法
CN110515303A (zh) * 2019-09-17 2019-11-29 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN110958135A (zh) * 2019-11-05 2020-04-03 东华大学 一种特征自适应强化学习DDoS攻击消除方法及系统
CN111654027A (zh) * 2020-06-15 2020-09-11 江苏方天电力技术有限公司 一种基于强化学习的配电物联网智能决策方法
CN112003269A (zh) * 2020-07-30 2020-11-27 四川大学 并网型共享储能系统的智能化在线控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴雄等: "微网经济调度问题的混合整数规划方法", 《中国电机工程学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022252559A1 (zh) * 2021-05-31 2022-12-08 深圳先进技术研究院 基于规则和双深度q网络的混合动力汽车能量管理方法
CN114066333A (zh) * 2022-01-17 2022-02-18 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法及装置

Also Published As

Publication number Publication date
CN112670982B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
US11581740B2 (en) Method, system and storage medium for load dispatch optimization for residential microgrid
Sarshar et al. Multi-objective energy management of a micro-grid considering uncertainty in wind power forecasting
Mei et al. Game approaches for hybrid power system planning
WO2020140743A1 (zh) 配电台区源-荷协同接入方法、终端、存储介质
CN107947164A (zh) 一种考虑多重不确定性及相关性的电力系统日前鲁棒调度方法
CN107316125A (zh) 一种基于经济运行域的主动配电网经济运行评价方法
CN111340299B (zh) 一种微电网多目标优化调度方法
CN107977744A (zh) 一种基于传统Benders分解法的电力系统日前鲁棒调度方法
CN104392394B (zh) 一种微电网储能裕度的检测方法
CN112670982B (zh) 一种基于奖励机制的微电网有功调度控制方法及系统
CN111181201B (zh) 基于双层强化学习的多能园区调度方法及系统
CN112821465A (zh) 包含热电联产的工业微网负荷优化调度方法与系统
Varzaneh et al. Optimal energy management for PV‐integrated residential systems including energy storage system
CN116014715A (zh) 一种基于数字孪生的综合能源控制方法及系统
CN110910016A (zh) 一种计及需求响应资源的新能源储能系统调度优化方法
CN110783950A (zh) 一种配电网节点光伏最佳配置容量确定方法
CN112072643A (zh) 一种基于深度确定性梯度策略的光-蓄系统在线调度方法
CN112131712A (zh) 客户侧多能源系统多目标优化方法和系统
CN115065078A (zh) 微网环境下储能容量配置方法及系统
Bartels et al. Influence of hydrogen on grid investments for smart microgrids
Liu et al. Day-ahead economic dispatch of renewable energy system considering wind and photovoltaic predicted output
CN114037209A (zh) 分布式光伏接入直流配电系统综合效益分析方法及装置
CN112633675A (zh) 一种能量调度方法、装置、设备及计算机可读存储介质
CN115622056B (zh) 一种基于线性加权和选解法的储能优化配置方法及系统
CN112600256B (zh) 微网电力控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant