CN116436019A - 一种多资源协调优化方法、装置及存储介质 - Google Patents

一种多资源协调优化方法、装置及存储介质 Download PDF

Info

Publication number
CN116436019A
CN116436019A CN202310384258.5A CN202310384258A CN116436019A CN 116436019 A CN116436019 A CN 116436019A CN 202310384258 A CN202310384258 A CN 202310384258A CN 116436019 A CN116436019 A CN 116436019A
Authority
CN
China
Prior art keywords
resource coordination
energy station
time
network
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310384258.5A
Other languages
English (en)
Other versions
CN116436019B (zh
Inventor
孙磊
郭东亮
肖鹏
杨景刚
邵剑
刘建军
孙蓉
陈杰
杨立恒
陈大兵
张晓琴
杜子韦华
朱洪斌
余翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co Ltd
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co Ltd
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co Ltd, Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co Ltd
Priority to CN202310384258.5A priority Critical patent/CN116436019B/zh
Publication of CN116436019A publication Critical patent/CN116436019A/zh
Application granted granted Critical
Publication of CN116436019B publication Critical patent/CN116436019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L53/00Methods of charging batteries, specially adapted for electric vehicles; Charging stations or on-board charging equipment therefor; Exchange of energy storage elements in electric vehicles
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/12Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
    • H02J3/14Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by switching loads on to, or off from, network, e.g. progressively balanced loading
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)

Abstract

本发明公开了一种多资源协调优化方法、装置及存储介质,本发明基于以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本目标的第一多资源协调模型构建多资源协调优化神经网络,根据捕获的电动汽车、能源站、配电网状态信息、以及多资源协调优化神经网络,获得能源站充电桩继电模块优选的动作时刻,通过控制电动汽车的电气接入时间,实现电动汽车停车时间窗口内的多资源协调优化,能够合理解决充电站超期滞留问题,提高充电站运行效率。

Description

一种多资源协调优化方法、装置及存储介质
技术领域
本发明涉及一种多资源协调优化方法、装置及存储介质,属于电动汽车能源站能量调度技术领域。
背景技术
电动汽车作为环境友好型交通工具在近些年受到了诸多关注,然而,电动汽车用户充电难、充电设施资源分布不均衡等问题阻碍了电动汽车的友好发展,特别地,电动汽车到站后不立即进行充电操作、以及电池充满电后仍占据充电桩的行为普遍存在,即“超期滞留现象”。为了解决用户充电需求与充电站资源不匹配问题,提高电动汽车用户充电良好体验,对电动汽车能源站多资源协调优化调度是实现电动汽车友好互动的必要前提,但是目前还没有相应的技术。
发明内容
本发明提供了一种多资源协调优化方法、装置及存储介质,解决了背景技术中披露的问题。
为了解决上述技术问题,本发明所采用的技术方案是:
一种多资源协调优化方法,包括:
获取电动汽车、能源站、配电网的状态信息;
将当电动汽车、能源站、配电网的状态信息输入预先构建并训练的多资源协调优化神经网络,获得作为多资源协调优化结果的能源站充电桩继电模块优选的动作时刻;其中,多资源协调优化神经网络基于第一多资源协调模型构建,第一多资源协调模型以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标。
电动汽车、能源站、配电网的状态信息包括:
电动汽车抵达能源站的时间、电动汽车抵达能源站的荷电状态、电动汽车离开能源站的时间、电动汽车离开能源站的期望荷电状态、能源站光伏出力、能源站储能系统剩余电量、能源站内总充电负荷和配电网实时电价。
基于第一多资源协调模型构建多资源协调优化神经网络的过程包括:
将第一多资源协调模型,转换为基于有限马尔科夫决策过程的多资源协调模型;
根据基于有限马尔科夫决策过程的多资源协调模型,构建多资源协调优化神经网络。
第一多资源协调模型的优化目标为:
max rEV=-λEV(Sexp-Slea)
式中,rEV为电动汽车充电满意度奖励,λEV为电动汽车充电未完成惩罚系数,Sexp为电动汽车期望荷电状态,Slea为电动汽车离开能源站的实际荷电状态;
Figure BDA0004173244180000021
式中,rCS为能源站运行成本奖励,Tarr为电动汽车抵达能源站的时间,Tlea为电动汽车离开能源站的时间,
Figure BDA0004173244180000022
为t′时刻配电网向能源站提供的功率,/>
Figure BDA0004173244180000023
为t′时刻配电网工业分时电价,Δt′为时间粒度,/>
Figure BDA0004173244180000024
为t′时刻能源站储能系统充放电功率,λESS为能源站储能系统耗损成本系数;
Figure BDA0004173244180000025
式中,rPV为光伏能源消纳奖励,
Figure BDA0004173244180000031
为t′时刻光伏可发电功率,/>
Figure BDA0004173244180000032
为t′时刻光伏实际发电功率,λPV为光伏弃光惩罚系数。
基于有限马尔科夫决策过程的多资源协调模型中:
有限马尔科夫决策过程的状态包括电动汽车、能源站、配电网的状态信息;
有限马尔科夫决策过程的动作为能源站充电桩继电模块动作时刻;
有限马尔科夫决策过程的奖励为电动汽车充电满意度奖励、能源站运行成本奖励和光伏能源消纳奖励之和。
基于有限马尔科夫决策过程的多资源协调模型,包括:
s={Tarr,Sarr,Tlea,Sexp,PPV,EESS,PEVG}
式中,s为状态,Tarr为电动汽车抵达能源站的时间,Sarr为电动汽车抵达能源站的荷电状态,Tlea为电动汽车离开能源站的时间,Sexp为电动汽车离开能源站的期望荷电状态,PPV为能源站光伏出力,EESS为能源站储能系统剩余电量,PEV为能源站内总充电负荷,λG为配电网实时电价;
a=κ,κ∈[0,Ti park]
式中,a为动作,κ为能源站充电桩继电模块动作时刻,Ti park为电动汽车到达能源站车位后的在站等待时间;
r=rEV+rCS+rPV
式中,r为奖励,rEV为电动汽车充电满意度奖励,rCS为能源站运行成本奖励,rPV为光伏能源消纳奖励;
Figure BDA0004173244180000033
式中,π为从状态映射到充电计划的策略,Q为状态-动作值函数,st为t时刻的状态,st+1为t+1时刻的状态,rt为t时刻的奖励,at为t时刻的动作,γ为奖励折扣率,a′为t+1时刻的动作,E为期望。
多资源协调优化神经网络包括结构一致的评估网络和目标网络,均为深度Q网络,由评估网络得到能够获得最大动作-价值函数值的动作S1,再由目标网络计算动作S1所对应的动作-价值函数值;
在训练时,评估网络输入t时刻的状态和动作,目标网络输入t+1时刻的状态,评估网络和目标网络输出动作-价值函数;损失函数根据t时刻的奖励、评估网络的输出和目标网络的输出构建;评估网络每隔预设迭代次数后,将自身的参数复制给目标网络;
训练后,评估网络根据电动汽车、能源站、配电网的状态信息,输出能源站充电桩继电模块动作时刻。
多资源协调优化神经网络的损失函数为:
Figure BDA0004173244180000041
式中,L(θ)为损失函数,rt为t时刻的奖励,γ为奖励折扣率,Q(st,at;θ+)为评估网络输出的动作-价值函数,st为t时刻的状态,at为t时刻的动作,θ+为评估网络参数,
Figure BDA0004173244180000042
为目标网络输出的动作-价值函数,st+1为t+1时刻的状态,a′为t+1时刻的动作,θ-为目标网络参数。
多资源协调优化神经网络基于优先回放缓存机制训练,在优先回放缓存机制中,根据损失函数的损失值设置训练样本的抽取概率,根据抽取概率抽取训练样本,训练多资源协调优化神经网络。
训练样本抽取概率P的公式为:
Figure BDA0004173244180000051
其中,ω为决定分布形状的超参数。
评估网络和目标网络均通过状态价值以及动作优势的组合输出动作-价值函数值。
深度Q网络的学习率根据迭代次数衰减;
衰减公式为:
α=cdecayα0
式中,α为衰减的学习率,α0为初始学习率,
Figure BDA0004173244180000052
为衰减系数,/>
Figure BDA0004173244180000053
为余弦系数,αmin为最小学习率,n为当前迭代次数,depisode当前衰减次数。
一种多资源协调优化装置,包括:
获取模块,用以获取电动汽车、能源站、配电网的状态信息;
协调优化模块,用以将当电动汽车、能源站、配电网的状态信息输入预先构建并训练的多资源协调优化神经网络,获得作为多资源协调优化结果的能源站充电桩继电模块优选的动作时刻;其中,多资源协调优化神经网络基于第一多资源协调模型构建,第一多资源协调模型以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标。
协调优化模块中,多资源协调优化神经网络构建的过程包括:
将第一多资源协调模型,转换为基于有限马尔科夫决策过程的多资源协调模型;
根据基于有限马尔科夫决策过程的多资源协调模型,构建多资源协调优化神经网络。
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行多资源协调优化方法。
本发明所达到的有益效果:本发明基于以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标为目标的第一多资源协调模型构建多资源协调优化神经网络,根据捕获的电动汽车、能源站、配电网状态信息、以及多资源协调优化神经网络,获得能源站充电桩继电模块优选的动作时刻,通过控制电动汽车的电气接入时间,实现电动汽车停车时间窗口内的多资源协调优化,能够合理解决充电站超期滞留问题,提高充电站运行效率。
附图说明
图1为多资源协调优化方法的流程图;
图2为多资源协调优化方法的架构图;
图3为电动汽车能源站协调控制功率平衡图;
图4为电动汽车能源站多运行场景下结果对比图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种多资源协调优化方法,包括以下步骤:
步骤1,获取电动汽车、能源站、配电网的状态信息。
步骤2,将当电动汽车、能源站、配电网的状态信息输入预先构建并训练的多资源协调优化神经网络,获得作为多资源协调优化结果的能源站充电桩继电模块动作时刻;其中,多资源协调优化神经网络基于第一多资源协调模型构建,第一多资源协调模型以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标。
上述方法基于以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标的第一多资源协调模型构建多资源协调优化神经网络,根据捕获的电动汽车、能源站、配电网状态信息、以及多资源协调优化神经网络,获得能源站充电桩继电模块优选的动作时刻,通过控制电动汽车的电气接入时间,实现电动汽车停车时间窗口内的多资源协调优化,能够合理解决充电站超期滞留问题,提高充电站运行效率。
在实施上述方法之前需要预先构建并训练多资源协调优化神经网络,在构建神经网络之前,可以对“电动汽车-能源站-配电网”进行分析,构建以提高电动汽车充电满意度、提高光伏能源消纳、降低能源站运行成本为目标的第一多资源协调模型。
第一多资源协调模型的优化目标具体如下:
A、电动汽车充电满意度
能源站最根本的任务在于满足电动汽车充电需求,电动汽车充电满意度用公式可表示为:
rEV=-λEV(Sexp-Slea)
式中,rEV为电动汽车充电满意度奖励,λEV为电动汽车充电未完成惩罚系数,Sexp为电动汽车期望荷电状态,Slea为电动汽车离开能源站的实际荷电状态。
这里将电动汽车开始充电时间作为动作选择的一部分,可能会出现选取时间过晚导致电动汽车离开时未充满电的情况。
B、能源站运行成本
能源站在运行过程中的成本主要为向电网购电成本,然而,考虑到一体化充电站储能系统充放电对其寿命的影响,这里将购电成本以及储能充放电成本作为能源站运行成本,用公式可表示为:
Figure BDA0004173244180000081
式中,rCS为能源站运行成本奖励,Tarr为电动汽车抵达能源站的时间,Tlea为电动汽车离开能源站的时间,
Figure BDA0004173244180000082
为t′时刻配电网向能源站提供的功率,/>
Figure BDA0004173244180000083
为t′时刻配电网工业分时电价,Δt′为时间粒度,/>
Figure BDA0004173244180000084
为t′时刻能源站储能系统充放电功率,λESS为能源站储能系统耗损成本系数。
C、光伏能源消纳
光伏弃光惩罚的引入可促进能源站设备资源与电动汽车的友好互动,提高光伏系统利用率,促进充电站设备资源的高效利用,这里光伏能源消纳公式可表示为:
Figure BDA0004173244180000085
式中,rPV为光伏能源消纳奖励,
Figure BDA0004173244180000086
为t′时刻光伏可发电功率,/>
Figure BDA0004173244180000087
为t′时刻光伏实际发电功率,λPV为光伏弃光惩罚系数,取0.1元/kWh。
因此具体的目标函数可表示为:
maxrEV=-λEV(Sexp-Slea)
Figure BDA0004173244180000091
Figure BDA0004173244180000092
运行约束条件具体如下:
a、充电时间约束,用公式可表示为:
Tarr≤tst≤Tlea-tc
式中,tst为电动汽车开始充电时间,tc为电动汽车充电时长。
b、功率平衡约束,用公式可表示为:
当储能处于充电状态时:
PEV(t)/η1=PPV(t)η1+PG(t)η2+PB(t)/η1
当储能处于放电状态时:
PEV(t)/η1=PPV(t)η1+PG(t)η2+PB(t)/η1
式中,PEV(t)、PPV(t)、PG(t)分别为t时刻电动汽车充电功率、光伏出力和电网提供的功率,PB(t)为储能系统电池充放电功率,储能处于充电状态时PB(t)为正值,储能处于放电状态时PB(t)为负值,η1、η2分别为DC/DC模块和AC/DC模块的效率。
c、储能系统荷电状态约束,用公式可表示为:
SOCmin≤SOC(t)≤SOCmax
式中,SOC(t)为储能系统荷电状态,SOCmin、SOCmax分别为SOC(t)的下限和上限。
d、储能系统充放电功率约束,用公式可表示为:
|PB(t)|≤PB.max
式中,PB.max为储能系统变流模块的最大功率。
为适配人工智能,需要进一步将第一多资源协调模型,转换为基于有限马尔科夫决策过程的多资源协调模型,该模型主要包括状态、动作、奖励和状态-动作值函数,其中,状态可以包括电动汽车、能源站、配电网的状态信息,动作为能源站充电桩继电模块动作时刻,奖励为电动汽车充电满意度奖励、能源站运行成本奖励和光伏能源消纳奖励之和。
具体可以如下:
1、状态是深度强化学习中智能体对外界环境的感知信息,状态空间则是环境信息的集合。为准确、有效捕捉环境信息,避免信息冗余,将智能体对环境的感知分为电动汽车、能源站、配电网三方面,因此状态可用公式表示为:
s={Tarr,Sarr,Tlea,Sexp,PPV,EESS,PEVG}
式中,s为状态,Tarr为电动汽车抵达能源站的时间,Sarr为电动汽车抵达能源站的荷电状态,Tlea为电动汽车离开能源站的时间,Sexp为电动汽车离开能源站的期望荷电状态,Tarr、Sarr、Tlea和Sexp为电动汽车状态信息,PPV为能源站光伏出力,EESS为能源站储能系统剩余电量,PEV为能源站内总充电负荷,PPV、EESS和PEV为能源站状态信息,λG为配电网实时电价,为配电网状态信息。
2、动作是智能体针对环境状态所采取的行动。针对能源站普遍存在的“超期滞留”问题,结合环境状态进行充电桩继电模块的启动时间控制,因此动作可用公式表示为:
a=κ,κ∈[0,Ti park]
式中,a为动作,κ为能源站充电桩继电模块动作时刻,表示该电动汽车接入充电站直流母线,Ti park为电动汽车到达能源站车位后的在站等待时间。
需要注意到,κ的选取范围并不能保证电动汽车离开时达到期望SOC,因此须通过奖励函数对智能体的动作选取作进一步优化与引导。
3、奖励代表特定状态下智能体选取动作后所获得的及时反馈,是训练智能体学习某一能力或实现某一目标的最重要环节。考虑到电动汽车充电过程涉及多方面参与主体,因此奖励可用公式表示为:
Figure BDA0004173244180000111
式中,r为奖励。
4、强化学习算法中,采用状态-动作值函数Q(st,at)来评价状态st时采取动作at的好坏,动作-价值函数的贝尔曼方程可表示为:
Figure BDA0004173244180000112
式中,π为从状态映射到充电计划的策略,Q为状态-动作值函数,st为t时刻的状态,st+1为t+1时刻的状态,rt为t时刻的奖励,at为t时刻的动作,γ为奖励折扣率,取值范围为[0,1],γ接近于0时意味着智能体更在意短期回报,接近1时说明智能体更在意长期回报,a′为t+1时刻的动作,E为期望。
在Q学习框架基础上,深度Q网络(deep Q network,DQN)以深度神经网络代替Q表进行函数逼近,拟合状态-动作与Q值(即动作-价值函数值)的映射关系,其贝尔曼迭代方程可表示为:
Figure BDA0004173244180000121
式中:Q(st,at;θ+)为动作-价值函数的贝尔曼方程,为Q(st,at)展开后的形式,α为学习率,用于权衡先验知识与当前评估结果的重要性,其接近0时表示智能体倾向于利用先验知识,接近1时则倾向于当前估计值而忽略先前的信息,θ+为评估网络参数,θ-为目标网络参数,rt为t时刻的奖励,st+1为t+1时刻的状态,a′为t+1时刻的动作,st为t时刻的状态,at为t时刻的动作,γ为奖励折扣率。
根据基于有限马尔科夫决策过程的多资源协调模型,可进一步构建多资源协调优化神经网络,见图2。
多资源协调优化神经网络包括结构一致的评估网络和目标网络,两个网络均采用深度Q网络,由评估网络得到能够获得最大Q值的动作S1,再由目标网络计算动作S1所对应的Q值,有效缓解了Q值过估计现象。
为了进一步提高网络的稳定性,本发明对深度Q网络进行了结构改进,具体是通过状态价值以及动作优势的组合输出Q值,在频繁出现智能体采取不同动作但对应值函数差距微小的情形下,能够去除多余自由度,从而提高算法稳定性。
深度Q网络的传统训练方式是:基于均匀概率随机抽样历史样本进行训练,存在泛化性能、收敛性能以及计算性能不足的问题,而本发明基于优先回放缓存机制训练,在优先回放缓存机制中,根据损失函数的损失值设置训练样本的抽取概率,根据抽取概率抽取训练样本,训练多资源协调优化神经网络。
优先回放缓存机制利用损失值规定训练样本优先级别(即抽取概率)。在双Q网络中根据时差误差(the time difference error,TD-Error),以相应的概率Pt进行排序抽取,得益于该机制更频繁的提取偏差较大的样本,算法的收敛速度显著加快。
Figure BDA0004173244180000131
式中,ω是决定分布形状的超参数。
为了兼顾网络训练速度以及算法后期稳定性,本发明将深度Q网络的学习率设置为根据迭代次数衰减,具体采用线性余弦衰减(Linear cosine decay)来调整深度Q网络的学习率,在训练前期,智能体保持较大的学习率以保证其拥有足够的探索能力,而随着迭代次数的增加,智能体学习率逐渐衰减直至维持在一个较低的水平,以保证其在训练后期充分利用前期经验;
用公式可表示为:
α=cdecayα0
式中,α为衰减的学习率,α0为初始学习率,
Figure BDA0004173244180000132
为衰减系数,
Figure BDA0004173244180000133
为余弦系数,αmin为最小学习率,n为当前迭代次数,depisode当前衰减次数。
见图2,训练样本中的元素包括st、at、rt、st+1,在训练时,评估网络输入t时刻(历史时刻)的状态和动作,目标网络输入t+1时刻(历史时刻)的状态,评估网络和目标网络输出动作-价值函数。
损失函数为:
Figure BDA0004173244180000141
式中,L(θ)为损失函数。
在损失函数满足预设条件时,获得评估网络的参数。
在训练过程中,评估网络会每隔预设迭代次数Nf后,将自身的参数复制给目标网络,目标网络采用接收到的参数替换自身原有的参数,从而通过两个网络的配合以提高算法稳定性。
训练后,多资源协调优化神经网络即可进行使用,主要是使用评估网络,具体是将获取电动汽车、能源站、配电网的状态信息输入评估网络,即将电动汽车抵达能源站的时间、电动汽车抵达能源站的荷电状态、电动汽车离开能源站的时间、电动汽车离开能源站的期望荷电状态、能源站光伏出力、能源站储能系统剩余电量、能源站内总充电负荷和配电网实时电价输入评估网络,评估网络输出能源站充电桩继电模块优选的动作时刻,即获得多资源协调优化结果,从而可以控制电动汽车的电气接入时间,实现电动汽车停车时间窗口内的多资源协调优化,能够合理解决充电站超期滞留问题,提高充电站运行效率。
上述状态信息有些可基于现有的系统直接获取,有些可进一步在能源站系统中增设新的模块,主要增设充电功率模块、光伏出力模块和储能系统模块。
充电功率模块用以获取能源站内总充电负荷,该模块计算电动汽车开始充电时间、电动汽车初始SOC计算、电动汽车充电时长计算以及充电功率计算。
虽然电动汽车的充电行为具有随机性,但结合上下班交通高峰期时段以及加油站汽车用户的加油行为来分析,充电负荷仍具有一定规律性。这里建立多时间窗概率密度函数来描述电动汽车开始充电时间,假设电动汽车开始充电时间的分布函数满足:
Figure BDA0004173244180000151
式中,ki为比例系数,ti+1、ti为相邻的两个时间节点,Ai为第i时间段初始时刻概率。
电动汽车到达能源站时动力电池剩余电量具有一定随机性,可用电池荷电状态SOC反映,假设电动汽车初始SOC符合对数正态分布:
Figure BDA0004173244180000152
式中,s0为电动汽车到达能源站时的初始SOC,考虑到电动汽车到达充电站时初始SOC常在10%与60%之间,参数σ=0.48,参数μ=3.2。
电动汽车在充电站的充电时长由初始SOC、终止SOC以及充电功率决定,充电时长满足:
Figure BDA0004173244180000153
式中,s1为充电终止SOC,Q′为电池容量,Pc为充电功率,η为充电效率;
设电池容量30kWh,采用恒功率充电方式,充电倍率为市场常见的2C,即充电功率为60kW,充电效率为0.8。考虑到动力电池充放电深度对电池寿命的影响,取电动汽车离开时的终止SOC均为0.9。
采用蒙特卡洛算法模拟电动汽车用户的随机充电行为,进行规模化电动汽车充电负荷的建模。首先,随机生成符合开始充电时间与初始SOC概率分布的电动汽车初始状态,接着,对每辆电动汽车的充电能量需求、充电时长以及充电结束时间进行计算。最后,在得到每辆电动汽车开始充电时间以及结束充电时间的基础上,统计一天中每一时刻处于充电状态的电动汽车数量,再累加即可得到全天每一时刻的电动汽车充电负荷需求,即得到能源站内总充电负荷。
光伏出力模块用以获取能源站光伏出力,光伏电池板的输出功率与很多因素有关,如环境温度、天气类型以及辐射强度等,其中辐射强度与环境温度是影响光伏出力最大的两个因素。这里采用光伏出力应用最广泛的简化计算模型:
Figure BDA0004173244180000161
Figure BDA0004173244180000162
式中,PPV.th(t)为单块太阳能板理论发出功率,PSTC为单块太阳能板额定功率(标准测试环境:光辐射1kW/h2,环境温度25℃),GSTC为标准光照强度,TSTC为标准环境温度,G(t)为t时刻光照强度,TC(t)为t时刻太阳能电池板表面温度,TEN(t)为t时刻环境温度,k为功率温度系数,一般取-0.47%。
储能系统模块用以获取能源站储能系统剩余电量,储能可平抑新能源的出力,即光伏多发了存储到储能里,光伏没有出力,就用储能里的电量。
充电过程中:
SOC(t)=SOC(t-1)+PB.CηCΔt/EC
式中,SOC(t)、SOC(t-1)为储能中的电池t、t-1时刻的荷电状态,PB.C为储能中的电池充电功率,ηC为充电效率,EC为储能中的电池额定容量,Δt为充电过程中的时间粒度。
放电过程中:
Figure BDA0004173244180000163
式中,PB.D为储能中的电池放电功率,ηD为放电效率,ΔT为放电过程中的时间粒度。
如图2,取购电费用330.35元,循环电量914.87kWh时。在2:00-6:00时段,由于此时配电网处于电价谷时,能源站在购电成本较低时段向配电网购电,减小了储能循环电量。白天时段,在对电动汽车开始充电时间控制下充电负荷峰值明显减小,光储协调可实现能源自给,且储能系统充电功率相对平缓。在18:00-22:00时段由于光伏出力减弱,储能系统协同配电网为电动汽车充电。
在能源站实际运营中,由于光伏出力受天气因素影响较大,在不同光伏出力情况下充电站调度方案有较大区别。为验证为了验证上述方法,设计以下四种能源站在实际运行中可能遇到的场景并进行结果对比。
场景1:光伏出力强,储能初始SOC大;场景2:光伏出力强,储能初始SOC小;场景3:光伏出力弱,储能初始SOC大;场景4:光伏出力弱,储能初始SOC小。比对见图4,可以看出能源站购电费用受光伏出力影响较大,场景1与场景4两种极端情况下,能源站购电费用相差接近一倍。而采用通过本发明获得的多资源协调优化结果,在多种运行场景下均优于常规调度方案,能够实现在平均降低能源站日购电费用87.33元,同时减小储能循环电量288.78kWh,有效提高了能源站运行的经济性。
基于相同的技术方案,本发明还公开了上述方法的软件装置,一种多资源协调优化装置,包括:
获取模块,用以获取电动汽车、能源站、配电网的状态信息。
协调优化模块,用以将当电动汽车、能源站、配电网的状态信息输入预先构建并训练的多资源协调优化神经网络,获得作为多资源协调优化结果的能源站充电桩继电模块优选的动作时刻;其中,多资源协调优化神经网络基于第一多资源协调模型构建,第一多资源协调模型以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标。
协调优化模块中,多资源协调优化神经网络构建的过程包括:将第一多资源协调模型,转换为基于有限马尔科夫决策过程的多资源协调模型;根据基于有限马尔科夫决策过程的多资源协调模型,构建多资源协调优化神经网络。
上述装置各模块的数据处理流程与方法对应步骤的一致,这里不重复描述了。
基于相同的技术方案,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行多资源协调优化方法。
基于相同的技术方案,本发明还公开了一种计算机设备,包括一个或多个处理器、以及一个或多个存储器,一个或多个程序存储在所述一个或多个存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行多资源协调优化方法的指令。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (15)

1.一种多资源协调优化方法,其特征在于,包括:
获取电动汽车、能源站、配电网的状态信息;
将当电动汽车、能源站、配电网的状态信息输入预先构建并训练的多资源协调优化神经网络,获得作为多资源协调优化结果的能源站充电桩继电模块优选的动作时刻;
其中,多资源协调优化神经网络基于第一多资源协调模型构建,第一多资源协调模型以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标。
2.根据权利要求1所述的多资源协调优化方法,其特征在于,电动汽车、能源站、配电网的状态信息包括:
电动汽车抵达能源站的时间、电动汽车抵达能源站的荷电状态、电动汽车离开能源站的时间、电动汽车离开能源站的期望荷电状态、能源站光伏出力、能源站储能系统剩余电量、能源站内总充电负荷和配电网实时电价。
3.根据权利要求1所述的多资源协调优化方法,其特征在于,基于第一多资源协调模型构建多资源协调优化神经网络的过程包括:
将第一多资源协调模型,转换为基于有限马尔科夫决策过程的多资源协调模型;
根据基于有限马尔科夫决策过程的多资源协调模型,构建多资源协调优化神经网络。
4.根据权利要求3所述的多资源协调优化方法,其特征在于,第一多资源协调模型的优化目标为:
max rEV=-λEV(Sexp-Slea)
式中,rEV为电动汽车充电满意度奖励,λEV为电动汽车充电未完成惩罚系数,Sexp为电动汽车期望荷电状态,Slea为电动汽车离开能源站的实际荷电状态;
Figure FDA0004173244170000021
式中,rCS为能源站运行成本奖励,Tarr为电动汽车抵达能源站的时间,Tlea为电动汽车离开能源站的时间,
Figure FDA0004173244170000022
为t′时刻配电网向能源站提供的功率,/>
Figure FDA0004173244170000023
为t′时刻配电网工业分时电价,Δt′为时间粒度,/>
Figure FDA0004173244170000024
为t′时刻能源站储能系统充放电功率,λESS为能源站储能系统耗损成本系数;
Figure FDA0004173244170000025
式中,rPV为光伏能源消纳奖励,
Figure FDA0004173244170000026
为t′时刻光伏可发电功率,/>
Figure FDA0004173244170000027
为t′时刻光伏实际发电功率,λPV为光伏弃光惩罚系数。
5.根据权利要求3所述的多资源协调优化方法,其特征在于,基于有限马尔科夫决策过程的多资源协调模型中:
有限马尔科夫决策过程的状态包括电动汽车、能源站、配电网的状态信息;
有限马尔科夫决策过程的动作为能源站充电桩继电模块动作时刻;
有限马尔科夫决策过程的奖励为电动汽车充电满意度奖励、能源站运行成本奖励和光伏能源消纳奖励之和。
6.根据权利要求5所述的多资源协调优化方法,其特征在于,基于有限马尔科夫决策过程的多资源协调模型,包括:
s={Tarr,Sarr,Tlea,Sexp,PPV,EESS,PEVG}
式中,s为状态,Tarr为电动汽车抵达能源站的时间,Sarr为电动汽车抵达能源站的荷电状态,Tlea为电动汽车离开能源站的时间,Sexp为电动汽车离开能源站的期望荷电状态,PPV为能源站光伏出力,EESS为能源站储能系统剩余电量,PEV为能源站内总充电负荷,λG为配电网实时电价;
a=κ,κ∈[0,Ti park]
式中,a为动作,κ为能源站充电桩继电模块动作时刻,Ti park为电动汽车到达能源站车位后的在站等待时间;
r=rEV+rCS+rPV
式中,r为奖励,rEV为电动汽车充电满意度奖励,rCS为能源站运行成本奖励,rPV为光伏能源消纳奖励;
Figure FDA0004173244170000031
式中,π为从状态映射到充电计划的策略,Q为状态-动作值函数,st为t时刻的状态,st+1为t+1时刻的状态,rt为t时刻的奖励,at为t时刻的动作,γ为奖励折扣率,a′为t+1时刻的动作,E为期望。
7.根据权利要求5所述的多资源协调优化方法,其特征在于,多资源协调优化神经网络包括结构一致的评估网络和目标网络,均为深度Q网络,由评估网络得到能够获得最大动作-价值函数值的动作S1,再由目标网络计算动作S1所对应的动作-价值函数值;
在训练时,评估网络输入t时刻的状态和动作,目标网络输入t+1时刻的状态,评估网络和目标网络输出动作-价值函数;损失函数根据t时刻的奖励、评估网络的输出和目标网络的输出构建;评估网络每隔预设迭代次数后,将自身的参数复制给目标网络;
训练后,评估网络根据电动汽车、能源站、配电网的状态信息,输出能源站充电桩继电模块动作时刻。
8.根据权利要求7所述的多资源协调优化方法,其特征在于,多资源协调优化神经网络的损失函数为:
Figure FDA0004173244170000041
式中,L(θ)为损失函数,rt为t时刻的奖励,γ为奖励折扣率,Q(st,at;θ+)为评估网络输出的动作-价值函数,st为t时刻的状态,at为t时刻的动作,θ+为评估网络参数,
Figure FDA0004173244170000042
为目标网络输出的动作-价值函数,st+1为t+1时刻的状态,a′为t+1时刻的动作,θ-为目标网络参数。
9.根据权利要求8所述的多资源协调优化方法,其特征在于,多资源协调优化神经网络基于优先回放缓存机制训练,在优先回放缓存机制中,根据损失函数的损失值设置训练样本的抽取概率,根据抽取概率抽取训练样本,训练多资源协调优化神经网络。
10.根据权利要求9所述的多资源协调优化方法,其特征在于,训练样本抽取概率P的公式为:
Figure FDA0004173244170000043
其中,ω为决定分布形状的超参数。
11.根据权利要求8所述的多资源协调优化方法,其特征在于,评估网络和目标网络均通过状态价值以及动作优势的组合输出动作-价值函数值。
12.根据权利要求8所述的多资源协调优化方法,其特征在于,深度Q网络的学习率根据迭代次数衰减;
衰减公式为:
α=cdecayα0
式中,α为衰减的学习率,α0为初始学习率,
Figure FDA0004173244170000051
为衰减系数,/>
Figure FDA0004173244170000052
为余弦系数,αmin为最小学习率,n为当前迭代次数,depisode当前衰减次数。
13.一种多资源协调优化装置,其特征在于,包括:
获取模块,用以获取电动汽车、能源站、配电网的状态信息;
协调优化模块,用以将当电动汽车、能源站、配电网的状态信息输入预先构建并训练的多资源协调优化神经网络,获得作为多资源协调优化结果的能源站充电桩继电模块优选的动作时刻;其中,多资源协调优化神经网络基于第一多资源协调模型构建,第一多资源协调模型以最大化电动汽车充电满意度、最大化光伏能源消纳、最小化能源站运行成本为目标。
14.根据权利要求13所述的多资源协调优化装置,其特征在于,协调优化模块中,多资源协调优化神经网络构建的过程包括:
将第一多资源协调模型,转换为基于有限马尔科夫决策过程的多资源协调模型;
根据基于有限马尔科夫决策过程的多资源协调模型,构建多资源协调优化神经网络。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行权利要求1~13所述的任一方法。
CN202310384258.5A 2023-04-12 2023-04-12 一种多资源协调优化方法、装置及存储介质 Active CN116436019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310384258.5A CN116436019B (zh) 2023-04-12 2023-04-12 一种多资源协调优化方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310384258.5A CN116436019B (zh) 2023-04-12 2023-04-12 一种多资源协调优化方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN116436019A true CN116436019A (zh) 2023-07-14
CN116436019B CN116436019B (zh) 2024-01-23

Family

ID=87079268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310384258.5A Active CN116436019B (zh) 2023-04-12 2023-04-12 一种多资源协调优化方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116436019B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117374975A (zh) * 2023-12-06 2024-01-09 国网湖北省电力有限公司电力科学研究院 一种基于近似动态规划的配电网实时协同调压方法
CN118037334A (zh) * 2024-04-11 2024-05-14 国网江苏省电力有限公司电力科学研究院 一种电动汽车充电动态定价方法及相关装置
CN118131045A (zh) * 2024-01-22 2024-06-04 北京大学 基于多孔电极老化模型的移动储能在线决策方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090277A (zh) * 2017-12-15 2018-05-29 燕山大学 一种考虑满意度和调度能力的电动汽车微网双层优化调度方法
CN111799827A (zh) * 2020-05-20 2020-10-20 国网江苏省电力有限公司苏州供电分公司 一种含光储充电站的台区负荷调控方法
CN114444802A (zh) * 2022-01-29 2022-05-06 福州大学 基于图神经网络强化学习的电动汽车充电引导优化方法
CN115879637A (zh) * 2022-12-29 2023-03-31 国网天津市电力公司 基于多智能体深度强化学习的车-站-网互动决策方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090277A (zh) * 2017-12-15 2018-05-29 燕山大学 一种考虑满意度和调度能力的电动汽车微网双层优化调度方法
CN111799827A (zh) * 2020-05-20 2020-10-20 国网江苏省电力有限公司苏州供电分公司 一种含光储充电站的台区负荷调控方法
CN114444802A (zh) * 2022-01-29 2022-05-06 福州大学 基于图神经网络强化学习的电动汽车充电引导优化方法
CN115879637A (zh) * 2022-12-29 2023-03-31 国网天津市电力公司 基于多智能体深度强化学习的车-站-网互动决策方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANING NI 等: "Collaborative Mobile Charging Vehicles Placement: A Reinforcement Learning Approach", 2021 IEEE 23RD INT CONF ON HIGH PERFORMANCE COMPUTING & COMMUNICATIONS; 7TH INT CONF ON DATA SCIENCE & SYSTEMS; 19TH INT CONF ON SMART CITY; 7TH INT CONF ON DEPENDABILITY IN SENSOR, CLOUD & BIG DATA SYSTEMS & APPLICATION (HPCC/DSS/SMARTCITY/DEPENDSYS, pages 920 - 926 *
LEI SUN 等: "User Satisfaction Oriented Elastic Charging Strategy for Electric Vehicles", 2022 IEEE 24TH INT CONF ON HIGH PERFORMANCE COMPUTING & COMMUNICATIONS; 8TH INT CONF ON DATA SCIENCE & SYSTEMS; 20TH INT CONF ON SMART CITY; 8TH INT CONF ON DEPENDABILITY IN SENSOR, CLOUD & BIG DATA SYSTEMS & APPLICATION (HPCC/DSS/SMARTCITY/DEPENDSYS, pages 1912 - 1921 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117374975A (zh) * 2023-12-06 2024-01-09 国网湖北省电力有限公司电力科学研究院 一种基于近似动态规划的配电网实时协同调压方法
CN117374975B (zh) * 2023-12-06 2024-02-27 国网湖北省电力有限公司电力科学研究院 一种基于近似动态规划的配电网实时协同调压方法
CN118131045A (zh) * 2024-01-22 2024-06-04 北京大学 基于多孔电极老化模型的移动储能在线决策方法及装置
CN118037334A (zh) * 2024-04-11 2024-05-14 国网江苏省电力有限公司电力科学研究院 一种电动汽车充电动态定价方法及相关装置

Also Published As

Publication number Publication date
CN116436019B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN116436019B (zh) 一种多资源协调优化方法、装置及存储介质
CN109347149B (zh) 基于深度q值网络强化学习的微电网储能调度方法及装置
CN112713618B (zh) 基于多场景技术的主动配电网源网荷储协同优化运行方法
CN113572157B (zh) 一种基于近端策略优化的用户实时自治能量管理优化方法
CN103997091B (zh) 一种规模化电动汽车智能充电控制方法
CN113410900B (zh) 基于自适应差分鲸鱼优化的微电网hess优化配置方法及系统
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、系统及装置
Lu et al. Online optimization of energy management strategy for FCV control parameters considering dual power source lifespan decay synergy
CN112131733A (zh) 计及电动汽车充电负荷影响的分布式电源规划方法
CN112952820A (zh) 考虑退役电池的智能社区微网超多目标能量管理方法
CN117057553A (zh) 一种基于深度强化学习的家庭能源需求响应优化方法及系统
CN113627993A (zh) 一种基于深度强化学习的智能电动汽车充放电决策方法
CN116316755B (zh) 一种基于强化学习的电气化铁路储能系统能量管理方法
WO2023226368A1 (zh) 电动汽车集群充放电控制方法、系统及相关设备
CN117455183B (zh) 一种基于深度强化学习的综合能源系统优化调度方法
CN115065078A (zh) 微网环境下储能容量配置方法及系统
CN118381095B (zh) 新能源微电网储能充放电智能控制方法及装置
CN114285093B (zh) 一种源网荷储互动调度方法及系统
CN116993128A (zh) 一种综合能源系统深度强化学习低碳调度方法及系统
CN117057634A (zh) 储能电站参与电力现货市场的低碳运行优化方法及系统
CN116811628A (zh) 一种含电动汽车充电的综合能源系统及有序充电方法
CN117318169A (zh) 基于深度强化学习计及新能源消纳的主动配电网调度方法
CN117254529A (zh) 一种计及碳排放与不确定性的配电网实时调度方法及系统
CN117833316A (zh) 一种用户侧储能动态优化运行的方法
CN117937568A (zh) 一种家庭微电网能源管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant