CN109347149B - 基于深度q值网络强化学习的微电网储能调度方法及装置 - Google Patents
基于深度q值网络强化学习的微电网储能调度方法及装置 Download PDFInfo
- Publication number
- CN109347149B CN109347149B CN201811099843.6A CN201811099843A CN109347149B CN 109347149 B CN109347149 B CN 109347149B CN 201811099843 A CN201811099843 A CN 201811099843A CN 109347149 B CN109347149 B CN 109347149B
- Authority
- CN
- China
- Prior art keywords
- value
- battery
- deep
- grid
- energy storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004146 energy storage Methods 0.000 title claims abstract description 52
- 230000002787 reinforcement Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000009471 action Effects 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 238000011156 evaluation Methods 0.000 claims abstract description 17
- 238000013486 operation strategy Methods 0.000 claims abstract description 10
- 230000002860 competitive effect Effects 0.000 claims abstract description 9
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 34
- 230000005611 electricity Effects 0.000 claims description 25
- 238000007599 discharging Methods 0.000 claims description 22
- 238000010248 power generation Methods 0.000 claims description 22
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 4
- 230000005251 gamma ray Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 230000008685 targeting Effects 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 7
- 230000003993 interaction Effects 0.000 abstract description 6
- 239000003795 chemical substances by application Substances 0.000 description 23
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000011217 control strategy Methods 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
- H02J3/32—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Power Engineering (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了基于深度Q值网络强化学习的微电网储能调度方法及装置,建立微电网模型;根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;根据录入的参数特征值,计算得到微电网储能调度的电池运行策略。本发明实施例利用深度Q值网络对微电网能量进行调度管理,智能体通过与环境交互,决策出最优储能调度策略,在不断变化的环境中控制电池的运行模式,基于微电网动态决定储能管理的特征,使微电网在和主电网交互中获得最大的运行收益;通过使用竞争Q值网络模型让网络可以分别计算环境本身的评估价值和动作带来的额外价值,分解这两部分会让学习目标更加稳定、更精确,让深度Q值网络对环境状态的估计能力更强。
Description
技术领域
本发明涉及微电网储能调度的技术领域,尤其涉及基于深度Q值网络强化学习的微电网储能调度方法及装置。
背景技术
当前,机器学习的方法逐渐应用于各行各业中,利用深度Q值网络(Deep Q-Network,DQN)将卷积神经网络与传统的深度学习中Q值学习算法相结合也是一个新兴的研究方向。如果使用经验回放技术,通过存储智能体的经验,在每次训练时随机抽取一部分样本供给网络学习,就可以打破数据之间的关联性,使得神经网络的训练收敛且稳定。
将深度Q值网络应用于微电网储能调度的管理时,目标状态-动作Q值函数存在过估计的问题,并且学习目标不够稳定、精确,深度Q值网络对环境状态的估计能力不够强。
发明内容
为了克服现有技术的不足,本发明的目的在于提供基于深度Q值网络强化学习的微电网储能调度方法及装置,旨在解决将深度Q值网络应用于微电网储能调度的管理时,目标状态-动作Q值函数存在过估计,学习目标不够稳定、精确,深度Q值网络对环境状态的估计能力不够强的问题。
本发明的目的采用以下技术方案实现:
一种基于深度Q值网络强化学习的微电网储能调度方法,包括:
建立步骤,建立微电网模型;
训练步骤,根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;
计算步骤,根据录入的参数特征值,计算得到微电网储能调度的电池运行策略。
在上述实施例的基础上,优选的,所述微电网模型设置有顺序连接的电池组储能系统、光伏发电系统、电力负荷和控制装置,且电力负荷和控制装置通过公共连接点接入配电网。
在上述实施例的基础上,优选的,深度Q值网络的训练模型以元组(st,at,rt+1,st+1)为样本进行训练,其中st为当前状态,at为当前状态下执行的动作,rt+1(at)为在执行动作后获得的即时奖励,st+1为下一个状态,t为时刻;
所述训练步骤,具体为:
在深度Q值网络中引入卷积神经网络;
设置深度Q值网络来计算目标Q值;
使用竞争Q值网络模型将目标状态-动作Q值函数Q(st,at)拆分成V(st)和A(at),即Q(st,at)=V(st)+A(at);其中,V(st)为静态的环境状态本身的评估价值,A(at)为动作带来的额外价值A(at)。
在上述实施例的基础上,优选的,所述训练步骤中,所设置的深度Q值网络有两个,一个用于制造学习目标,一个用于进行实际训练。
在上述实施例的基础上,优选的,以(s1,s2,…,st,st+1,…)为状态空间S,则S=SB×Spv,load×ST,其中,SB为可控的电池部分,Spv,load为不可控的光伏和负荷部分,ST为日期和时间序列;
在上述实施例的基础上,优选的,每个时间步长上,强化学习智能体所采取的离散化动作空间A为(电池充电动作,电池放电动作,电池保持闲置);
将动作空间划分成3个数值,即a∈[0,1,2],其中a=0表示电池充电动作,a=2表示电池保持闲置,a=1表示电池放电动作。
在上述实施例的基础上,优选的,深度Q值网络的训练模型的奖励函数rt(at)为:
其中,rt *(at)为电池充放电获得的奖励,αbuy为购电价格,αsell为卖电价格,Pt grid=lt-Pt pv+Pt B,lt为t时刻的负荷消耗量,Pt pv为t时刻光伏发电输出量,Pt B为t时刻电池的充放电量;并且,
其中,kd为电池放电系数,kc为电池充电系数,为电池放电功率,为电池充电功率,Δt为充放电时间,n为惩罚因子,ad为电池放电动作,ac为电池充电动作,SoCmin、SoCmax分别为SoC的最小值和最大值;
定义状态-动作Q值函数Qh(s,a)为:
其中,h表示某一充放电策略;Eh为所有充放电策略的期望;T为全部调度时间段;γt为折扣因子,根据未来奖励在学习中的重要性而设定;s为某一状态;a为某一动作;
状态-动作Q值函数选择的最优策略h*(a|s)为基于最大Q值的策略,即:
其中,Q*(s,a)为状态-动作Q值函数的最优值;
所述奖励函数需要满足约束条件和最大运行收入的要求。
在上述实施例的基础上,优选的,所述约束条件包括:
电池充放电速率约束;
电池充放电状态约束,即acad=0。
在上述实施例的基础上,优选的,还包括:
评估步骤,利用电池利用率V和年度运营收益I对微电网储能调度的电池运行策略的性能进行评估,其中:
一种基于深度Q值网络强化学习的微电网储能调度装置,包括:
建立模块,用于建立微电网模型;
训练模块,用于根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;
计算模块,用于根据录入的参数特征值,计算得到微电网储能调度的电池运行策略。
相比现有技术,本发明的有益效果在于:
本发明公开了基于深度Q值网络强化学习的微电网储能调度方法及装置,利用深度Q值网络对微电网能量进行调度管理,智能体通过与环境交互,决策出最优储能调度策略,在不断变化的环境中控制电池的运行模式,基于微电网动态决定储能管理的特征,使微电网在和主电网交互中获得最大的运行收益。本发明使用确定性模拟器描述部分环境去生成尽可能多的数据,再利用Q-Learning强化学习算法实现微电网最优储能调度策略,将卷积神经网络与传统的深度学习中Q值学习算法相结合,通过深度强化学习算法设计了一种智能体,再通过对微电网储能调度进行管理,使微电网在和主电网的交互中获得最大的运行收益;通过使用竞争Q值网络模型让网络可以分别计算环境本身的评估价值和动作带来的额外价值,分解这两部分会让学习目标更加稳定、更精确,让深度Q值网络对环境状态的估计能力更强。优选的,本发明还可以通过使用双重DQN网络对目标DQN方法进行改进,双重DQN网络将动作的选择和动作的评估分别用不同的值函数来实现,从而解决了目标DQN网络值函数的过估计问题。优选的,本发明还可以对算法性能进行评估,主要依据是高负荷需求时,增加电池的利用率(或者说减少从外电网购买电能)的性能指标,以及光伏发电量较高时,增加光伏面板发电的利用率的性能指标。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1示出了本发明实施例提供的一种基于深度Q值网络强化学习的微电网储能调度方法的流程示意图;
图2示出了本发明实施例提供的一种基于深度Q值网络的微电网结构图;
图3示出了本发明实施例提供的一种基于深度Q值网络的智能体的控制策略轨迹(S1);
图4示出了本发明实施例提供的一种基于深度Q值网络的智能体的控制策略轨迹(S2);
图5示出了本发明实施例提供的一种基于深度Q值网络的智能体的控制策略轨迹(S3);
图6示出了本发明实施例提供的一种基于深度Q值网络强化学习的微电网储能调度装置的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
具体实施例一
如图1所示,本发明实施例提供了一种基于深度Q值网络强化学习的微电网储能调度方法,包括:
建立步骤S101,建立微电网模型;
训练步骤S102,根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;
计算步骤S103,根据录入的参数特征值,计算得到微电网储能调度的电池运行策略。
如图2所示,优选的,所述微电网模型可以设置有顺序连接的电池组储能系统、光伏发电系统、电力负荷和控制装置,且电力负荷和控制装置通过公共连接点接入配电网。微电网的电价信息可以通过相连的主电网电价来确定,微电网住宅用户通过自身光伏发电或者向主电网购买电能来满足负荷需求,富余的能量通过电池储存起来,或者卖给主电网。微电网既可以与主电网并网运行,也可以离网运行。相对于配电网,微电网表现为可控单元,可同时满足用户对电能质量和供电安全方面的需求。
深度Q值网络是将深度卷积神经网络与传统强化学习中Q值学习算法相结合所提出。在有限马尔科夫决策过程中,Q值网络被证明最终可以找到最优的策略。Q值网络的目标是求解Q值函数,即根据当前环境状态,估算动作的期望价值。优选的,深度Q值网络的训练模型可以以(状态、行为、奖励、下一个状态)构成的元组(st,at,rt+1,st+1)为样本进行训练,其中st为当前状态,at为当前状态下执行的动作,rt+1(at)为在执行动作后获得的即时奖励,st+1为下一个状态,t为时刻;Q值网络的学习目标是rt+1+γ·maxaQ(st+1,a),这个目标状态-动作Q值函数是当前动作获得的奖励加上下一步获得的最大期望价值。下一步获得的最大期望价值通过乘以折扣因子γ来评估未来奖励对当前状态的影响。折扣因子γ根据未来奖励在学习中的重要性而设定,一般γ∈[0,1]。因此Q值网络的迭代过程表示为:
所述训练步骤,可以具体为:
在深度Q值网络中引入卷积神经网络;卷积神经网络利用可提取空间结构信息的卷积层抽取特征,卷积层可以提取微电网中的重要数据特征并传给后面的层做分类;另外,因为深度学习需要大量的样本,但是传统Q值函数在线更新样本的方法不适合DQN,所以需要增大样本量,进行多次样本迭代训练;因此,本发明实施例使用经验回放技术,通过存储智能体的经验,在每次训练时随机抽取一部分样本供给网络学习;这种技术可以打破数据之间的关联性,使得神经网络的训练收敛且稳定;Q值网络反复地利用过往的样本进行学习,创建一个用来存储经验的缓存器,缓存器的里面可以存储一定量比较新的样本;当容量溢出后,缓存器用新样本替换旧样本,这保证了大部分样本有相近的概率被抽到;每次需要训练样本时,智能体从缓存器中随机抽取一定量的样本进行训练,从而保持了对样本较高的利用率,最终让模型学习到比较新的样本;卷积神经网络是一种前馈神经网络,它由卷积层和下采样层以及全连接层)交替层叠而成,卷积层采用权重共享的方式,使得网络的参数减少,降低训练复杂度,另外,由于下采样层采用最大值或均值下采样的方式,因此数据维度降低,并且通过卷积和下采样学习到的特征具有平移、旋转不变性的特点,在前向计算中,数据信息从输入层经过几层卷积层和下采样层的变换后提取特征,被传送到全连接层,最终输出层得到网络的输出,向后传播阶段,卷积神经网络采用误差反向传播算法,将输出误差反向传递到每一层,同时利用梯度下降法对每层的参数求导优化,卷积神经网络结构非常适合处理大型数据,故本发明实施例采用了卷积神经网络;
设置深度Q值网络来计算目标Q值;本发明实施例独立设置了DQN网络来计算目标Q值;本发明实施例使用了两个DQN网络,一个用于制造学习目标,一个用于进行实际训练,这样可以使Q函数训练的目标保持平稳;由于Q值网络每次的学习目标都是变化的,如果更新很频繁、幅度很大,训练过程会非常不稳定,因此让目标DQN进行缓慢的学习,从而Q值网络输出的目标值的波动比较小,减少对训练过程的影响;本发明实施例通过使用双重DQN网络对目标DQN方法进行改进,双重DQN网络将动作的选择和动作的评估分别用不同的值函数来实现,从而解决了目标DQN网络值函数的过估计问题,至此本发明实施例将学习目标改写为:
Target=rt+1+γ·Qtarget(st+1,argmaxa(Qmain(st+1,a)));
使用竞争Q值网络模型将目标状态-动作Q值函数Q(st,at)拆分成V(st)和A(at),即Q(st,at)=V(st)+A(at);其中,V(st)为静态的环境状态本身的评估价值,A(at)为动作带来的额外价值A(at);竞争Q值网络模型的目标就是让网络可以分别计算环境本身的评估价值和动作带来的额外价值,分解这两部分会让学习目标更加稳定、更精确,让DQN对环境状态的估计能力更强。
从电网运行信息和环境信息入手,本发明实施例分析了微电网储能调度策略需对微电网不同运行方式都有良好的适用性。选取有效的特征,能够提升算法效率,对于算法性能有重要影响。从微电网结构和储能方式角度考虑,微电网运行特征可选择为与微电网运行直接相关的物理量,比如光伏发电量,负荷消耗量,电池荷电水平,未来时间的光伏和负荷预测量等物理量,从而提升算法效率,提高算法性能。
优选的,以(s1,s2,…,st,st+1,…)为状态空间S,则S=SB×Spv,load×ST,其中,SB为可控的电池部分,Spv,load为不可控的光伏和负荷部分,ST为日期和时间序列;
不可控部分SPV,load包含光伏发电和负荷消耗两部分,受天气和用户的影响,不受控制策略动作的影响,可以通过对外部因素的确定性预测得到,即:spv,load={PV,load},其中,PV为光伏发电量,load为负荷消费量。
优选的,每个时间步长上,强化学习智能体所采取的离散化动作空间A可以为(电池充电动作,电池放电动作,电池保持闲置);将动作空间划分成3个数值,即a∈[0,1,2],其中a=0表示电池充电动作,a=2表示电池保持闲置,a=1表示电池放电动作。在实际的仿真结果中,本发明实施例将电池充放电的数值以实际的充放电量表示,使仿真结果更加直观。
奖励函数可立即得到动作和环境的优劣评估值,是一种即时奖励函数。在奖励评估过程中,本发明实施例同时考虑了动作产生的奖励和环境本身的奖励,提出一种竞争方法将奖励函数分为两部分,一部分为环境本身的评估价值,另一部分为动作带来的额外价值。基于环境状态集中动作空间的分布,电池在任何时间t时只会采取一个动作,充电和放电不会同时发生。在电池soc约束以及目标函数最优条件下,奖励函数可从以下两个方面设定。优选的,深度Q值网络的训练模型的奖励函数rt(at)可以为:
其中,rt *(at)为电池充放电获得的奖励,αbuy为购电价格,αsell为卖电价格,Pt grid=lt-Pt pv+Pt B,lt为t时刻的负荷消耗量,Pt pv为t时刻光伏发电输出量,Pt B为t时刻电池的充放电量;并且,
其中,kd为电池放电系数,kc为电池充电系数,为电池放电功率,为电池充电功率,Δt为充放电时间,n为惩罚因子,ad为电池放电动作,ac为电池充电动作,SoCmin、SoCmax分别为SoC的最小值和最大值;
即时奖励模型针对的是一个时间点信息做出的评价,无法说明整体策略的好坏,因此需要定义状态-动作值函数表征策略对于状态的长期效果,定义状态-动作Q值函数Qh(s,a)为:
其中,h表示某一充放电策略;Eh为所有充放电策略的期望;T为全部调度时间段;γt为折扣因子,根据未来奖励在学习中的重要性而设定;s为某一状态;a为某一动作;
状态-动作Q值函数是强化学习智能体的学习目标,选择的最优策略h*(a|s)为基于最大Q值的策略,即:
其中,Q*(s,a)为状态-动作Q值函数的最优值;
所述奖励函数需要满足约束条件和最大运行收入的要求。
优选的,所述约束条件可以包括:
电池容量约束,满足:其中,为电池容量,为电池容量最大值,为电池容量最小值;电池容量存在一定物理限制,电池一般用荷电状态SoC反映电量比例,SoC状态应保持在某一范围内并结合具体的能量优化控制要求进行调整,同时兼顾电池的寿命状态因素进行优化运行控制,延长使用寿命;
电池充放电速率约束;基于对电池使用寿命和经济性方面考虑,电池的充放电效率不能太大,也不能太小,可以采用固定的充放电速率1.2kW;
电池充放电状态约束,电池的充放电不能同时进行,ac,ad分别表示充放电动作,用0和1表示,即acad=0。
优选的,本发明实施例还可以包括:
评估步骤,利用电池利用率V和年度运营收益I对微电网储能调度的电池运行策略的性能进行评估,其中:
其中,表示微电网当前小时内向主电网卖电的电量,表示微电网当前小时内从主电网买电的电量。这样做的好处是,对算法性能进行评估,主要依据是高负荷需求时,增加电池的利用率(或者说减少从外电网购买电能)的性能指标,以及光伏发电量较高时,增加光伏面板发电的利用率的性能指标。
本发明实施例利用深度Q值网络对微电网能量进行调度管理,智能体通过与环境交互,决策出最优储能调度策略,在不断变化的环境中控制电池的运行模式,基于微电网动态决定储能管理的特征,使微电网在和主电网交互中获得最大的运行收益。本发明实施例使用确定性模拟器描述部分环境去生成尽可能多的数据,再利用Q-Learning强化学习算法实现微电网最优储能调度策略,将卷积神经网络与传统的深度学习中Q值学习算法相结合,通过深度强化学习算法设计了一种智能体,再通过对微电网储能调度进行管理,使微电网在和主电网的交互中获得最大的运行收益;通过使用竞争Q值网络模型让网络可以分别计算环境本身的评估价值和动作带来的额外价值,分解这两部分会让学习目标更加稳定、更精确,让深度Q值网络对环境状态的估计能力更强。
本发明实施例的一个应用场景可以是:
微电网是住宅用户微电网,电池储能容量大小为15kWh,电池效率η=90%,电池的荷电状态水平限值分别为SoCmax=90%,SoCmin=10%,电池的充放电速率设为1.2kW/h。对于负荷和光伏发电简况,采用LINEAR工程中的数据,采集数据的时间周期为1小时。根据实际输入数据序列维度和数据量,本发明实施例采用两层卷积神经网络进行光伏发电和负荷消费数据的特征提取,每个卷积层神经单元包含了2层神经网络。卷积神神经网络层的输出和其他的输入(比如电池荷电水平Soc,光伏和负荷预测量等)作为两层全连接层的输入,第一层全连接层包含50个神经单元,第二层全连接层包含20个神经单元,最后输出层采用激活函数relu函数输出离散化动作对应的Q值。另外,强化学习算法中学习率初始值设为0.0005,折扣因子初始值设为0.9,贪婪策略概率ε初始值设为1。智能体通过增加折扣因子,减小学习率,获得更好的学习表现。
从微电网实际运行方面考虑,目前国内对于用电电价采取分时电价的模式。以上海市为例,峰时段(6-22时)商业用电电价为1.2元,谷时段(22时-次日6时)商业用电电价为0.35元。另外,微电网的上网电价采用补贴后的固定电价0.85元。
本发明实施例提出的算法主要目标有两个:高负荷需求时,增加电池的利用率(或者说减少从外电网购买电能)。光伏发电量较高时,增加光伏面板发电的利用率。
因此用以下2个参数来评估本发明实施例提出算法的性能表现:
(1)电池利用率V:
(2)年度运营收益:
其中,Pgrid=load-Ppv+PB,Pgrid>0,说明需要从主电网买电,Pgrid<0说明微电网向主网卖电。
在每个场景下,本发明实施例实验使用不同的种子发生器运行5次取平均值,每个场景下迭代200次,每次迭代经过365*24步实验,时间序列的周期为1。
分时电价下,场景一中智能体的观测量只有光伏发电量和负荷消耗量以及电池荷电水平,其他动态变量不考虑。以场景一为基准,场景二中智能体的观测量添加了未来24小时和48小时的光伏预测量和负荷预测量,电池利用率提高了13%,微电网年收益和总奖励都有所增加;和场景二相比,场景三中智能体的观测量多加了日期和小时的时间周期序列,电池利用率进一步增大,微电网收益和总奖励进一步增大,同时惩罚变小;该组实验对比表明,向智能体的输入添加有用的信息能够改善策略。随着智能体观测的信息量增多,策略变得更好,智能体能够控制电池更合理有效的采取充/放电的动作,从而实现最大的运营收入。
基于深度Q值网络的微电网储能调度方法的仿真模型的具体步骤:
S1:由于前一天数据对后一天的影响较大,本发明实施例选择hc=24h,hp=24h,hc为负荷调度时间段,hp为光伏发电量时间段,作为神经网络输入时间序列的长度(ct代表t时刻的负荷消耗量,代表t时刻的光伏发电量),智能体的观测量有3个,如图3所示:
st为t时刻的状态;电池电量代表电池荷电水平;动作值代表控制策略的充/放电动作;主网电量代表微电网与主电网网交易的电能,主网电量大于0代表从主电网买电,主网电量小于0代表向主电网卖电;负荷量代表负荷的消耗量;光伏发电量代表光伏发电输出量。
S2:在S1的基础上,S2外部变量中添加未来24小时和48小时的光伏预测量和负荷消耗量。智能体的观测量有5个,如图4所示:
p24为未来24小时的光伏预测量,p48为未来48小时的光伏预测量;c24为未来24小时的负荷消耗量,c48为未来48小时的负荷消耗量。
在上述的具体实施例一中,提供了基于深度Q值网络强化学习的微电网储能调度方法,与之相对应的,本申请还提供基于深度Q值网络强化学习的微电网储能调度装置。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
具体实施例二
如图6所示,本发明实施例提供了一种基于深度Q值网络强化学习的微电网储能调度装置,包括:
建立模块201,用于建立微电网模型;
训练模块202,用于根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;
计算模块203,用于根据录入的参数特征值,计算得到微电网储能调度的电池运行策略。
本发明实施例利用深度Q值网络对微电网能量进行调度管理,智能体通过与环境交互,决策出最优储能调度策略,在不断变化的环境中控制电池的运行模式,基于微电网动态决定储能管理的特征,使微电网在和主电网交互中获得最大的运行收益。本发明实施例使用确定性模拟器描述部分环境去生成尽可能多的数据,再利用Q-Learning强化学习算法实现微电网最优储能调度策略,将卷积神经网络与传统的深度学习中Q值学习算法相结合,通过深度强化学习算法设计了一种智能体,再通过对微电网储能调度进行管理,使微电网在和主电网的交互中获得最大的运行收益;通过使用竞争Q值网络模型让网络可以分别计算环境本身的评估价值和动作带来的额外价值,分解这两部分会让学习目标更加稳定、更精确,让深度Q值网络对环境状态的估计能力更强。
本发明从使用目的上,效能上,进步及新颖性等观点进行阐述,其具有的实用进步性,己符合专利法所强调的功能增进及使用要件,本发明以上的说明及附图,仅为本发明的较佳实施例而己,并非以此局限本发明,因此,凡一切与本发明构造,装置,待征等近似、雷同的,即凡依本发明专利申请范围所作的等同替换或修饰等,皆应属本发明的专利申请保护的范围之内。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。尽管本发明已进行了一定程度的描述,明显地,在不脱离本发明的精神和范围的条件下,可进行各个条件的适当变化。可以理解,本发明不限于所述实施方案,而归于权利要求的范围,其包括所述每个因素的等同替换。对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (8)
1.一种基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,包括:
建立步骤,建立微电网模型;
训练步骤,根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;
计算步骤,根据录入的参数特征值,计算得到微电网储能调度的电池运行策略,所述微电网模型设置有顺序连接的电池组储能系统、光伏发电系统、电力负荷和控制装置,且电力负荷和控制装置通过公共连接点接入配电网,所述深度Q值网络的训练模型以元组(st,at,rt+1(at),st+1)为样本进行训练,其中st为当前状态,at为当前状态下执行的动作,rt+1(at)为在执行动作后获得的即时奖励,st+1为下一个状态,t为时刻;
所述训练步骤,具体为:
在深度Q值网络中引入卷积神经网络;
设置深度Q值网络来计算目标Q值;
使用竞争Q值网络模型将目标状态-动作Q值函数Q(st,at)拆分成V(st)和A(at),即Q(st,at)=V(st)+A(at);其中,V(st)为静态的环境状态本身的评估价值,A(at)为动作带来的额外价值A(at)。
2.根据权利要求1所述的基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,所述训练步骤中,所设置的深度Q值网络有两个,一个用于制造学习目标,一个用于进行实际训练。
4.根据权利要求3所述的基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,每个时间步长上,强化学习智能体所采取的离散化动作空间A为(电池充电动作,电池放电动作,电池保持闲置);
将动作空间划分成3个数值,即a∈[0,1,2],其中a=0表示电池充电动作,a=2表示电池保持闲置,a=1表示电池放电动作。
5.根据权利要求4所述的基于深度Q值网络强化学习的微电网储能调度方法,其特征在于,深度Q值网络的训练模型的奖励函数rt(at)为:
其中,rt *(at)为电池充放电获得的奖励,αbuy为购电价格,αsell为卖电价格,Pt grid=lt-Pt pv+Pt B,lt为t时刻的负荷消耗量,Pt pv为t时刻光伏发电输出量,Pt B为t时刻电池的充放电量;并且,
其中,kd为电池放电系数,kc为电池充电系数,为电池放电功率,为电池充电功率,Δt为充放电时间,n为惩罚因子,ad为电池放电动作,ac为电池充电动作,SoCmin、SoCmax分别为SoC的最小值和最大值;
定义状态-动作Q值函数Qh(s,a)为:
其中,h表示某一充放电策略;Eh为所有充放电策略的期望;T为全部调度时间段;γt为折扣因子,根据未来奖励在学习中的重要性而设定;s为某一状态;a为某一动作;
状态-动作Q值函数选择的最优策略h*(a|s)为基于最大Q值的策略,即:
其中,Q*(s,a)为状态-动作Q值函数的最优值;
所述奖励函数需要满足约束条件和最大运行收入的要求。
8.一种基于深度Q值网络强化学习的微电网储能调度装置,其特征在于,包括:
建立模块,用于建立微电网模型;
训练模块,用于根据微电网模型,利用深度Q值网络强化学习算法进行人工智能训练;
计算模块,用于根据录入的参数特征值,计算得到微电网储能调度的电池运行策略;
所述深度Q值网络的训练模型以元组(st,at,rt+1(at),st+1)为样本进行训练,其中st为当前状态,at为当前状态下执行的动作,rt+1(at)为在执行动作后获得的即时奖励,st+1为下一个状态,t为时刻;
所述训练模块,具体步骤为:
在深度Q值网络中引入卷积神经网络;
设置深度Q值网络来计算目标Q值;
使用竞争Q值网络模型将目标状态-动作Q值函数Q(st,at)拆分成V(st)和A(at),即Q(st,at)=V(st)+A(at);其中,V(st)为静态的环境状态本身的评估价值,A(at)为动作带来的额外价值A(at)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811099843.6A CN109347149B (zh) | 2018-09-20 | 2018-09-20 | 基于深度q值网络强化学习的微电网储能调度方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811099843.6A CN109347149B (zh) | 2018-09-20 | 2018-09-20 | 基于深度q值网络强化学习的微电网储能调度方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109347149A CN109347149A (zh) | 2019-02-15 |
CN109347149B true CN109347149B (zh) | 2022-04-22 |
Family
ID=65306273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811099843.6A Active CN109347149B (zh) | 2018-09-20 | 2018-09-20 | 基于深度q值网络强化学习的微电网储能调度方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109347149B (zh) |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070185A (zh) * | 2019-04-09 | 2019-07-30 | 中国海洋大学 | 一种从演示和人类评估反馈进行交互强化学习的方法 |
CN110061524B (zh) * | 2019-05-06 | 2020-10-09 | 中国科学院电工研究所 | 一种基于深度神经网络的分布式电源虚拟电厂有功调度等值聚合方法及系统 |
CN110245742A (zh) * | 2019-05-08 | 2019-09-17 | 上海电力学院 | 一种基于Keras平台的自适应深度学习模型优化方法 |
CN110414725B (zh) * | 2019-07-11 | 2021-02-19 | 山东大学 | 预测决策一体化的风电场储能系统调度方法及装置 |
CN110266061B (zh) * | 2019-07-24 | 2020-12-01 | 国网江苏省电力有限公司 | 一种基于多代理系统的港口岸电参与电网调控方法和系统 |
CN110533244B (zh) * | 2019-08-28 | 2023-04-18 | 重庆大学 | 一种梯级水坝优化调度方法、系统与计算机可读存储介质 |
CN110929948B (zh) * | 2019-11-29 | 2022-12-16 | 上海电力大学 | 基于深度强化学习的完全分布式智能电网经济调度方法 |
CN111144728B (zh) * | 2019-12-18 | 2023-08-04 | 东南大学 | 基于深度强化学习的热电联产系统经济调度方法 |
CN111275572B (zh) * | 2020-01-15 | 2023-07-11 | 杭州电子科技大学 | 一种基于粒子群和深度强化学习的机组调度系统及方法 |
CN111200285B (zh) * | 2020-02-12 | 2023-12-19 | 燕山大学 | 一种基于强化学习和多智能体理论的微电网混合协调控制方法 |
CN111369108A (zh) * | 2020-02-20 | 2020-07-03 | 华中科技大学鄂州工业技术研究院 | 一种电网实时定价方法和装置 |
CN111598721B (zh) * | 2020-05-08 | 2022-09-27 | 天津大学 | 一种基于强化学习和lstm网络的负荷实时调度方法 |
CN111515961B (zh) * | 2020-06-02 | 2022-06-21 | 南京大学 | 一种适用于移动机械臂的强化学习奖励方法 |
CN111539492B (zh) * | 2020-07-08 | 2020-11-20 | 武汉格蓝若智能技术有限公司 | 一种基于强化学习的异常用电判决系统及方法 |
CN111884213B (zh) * | 2020-07-27 | 2022-03-08 | 国网北京市电力公司 | 一种基于深度强化学习算法的配电网电压调节方法 |
CN112003269B (zh) * | 2020-07-30 | 2022-06-28 | 四川大学 | 并网型共享储能系统的智能化在线控制方法 |
CN111817349B (zh) * | 2020-07-31 | 2023-08-25 | 三峡大学 | 基于深度q学习的多微网被动并离网切换控制方法 |
CN112117760A (zh) * | 2020-08-13 | 2020-12-22 | 国网浙江省电力有限公司台州供电公司 | 基于双q值网络深度强化学习的微电网能量调度方法 |
CN112101564B (zh) * | 2020-08-17 | 2024-09-06 | 清华大学 | 基于注意力机制的多智能体值函数分解方法及装置 |
CN111934335B (zh) * | 2020-08-18 | 2022-11-18 | 华北电力大学 | 一种基于深度强化学习的集群电动汽车充电行为优化方法 |
CN112072735A (zh) * | 2020-08-28 | 2020-12-11 | 广东电网有限责任公司广州供电局 | 一种基于卷积神经网络的液态金属电池组的均衡管理系统 |
CN112084680B (zh) * | 2020-09-02 | 2023-12-26 | 沈阳工程学院 | 一种基于dqn算法的能源互联网优化策略方法 |
CN112186799B (zh) * | 2020-09-22 | 2022-07-26 | 中国电力科学研究院有限公司 | 基于深度强化学习的分布式能源系统自治控制方法及系统 |
TWI763087B (zh) * | 2020-10-21 | 2022-05-01 | 國立清華大學 | 基於強化學習的點對點能源共享方法及裝置 |
CN112529727A (zh) * | 2020-11-06 | 2021-03-19 | 台州宏远电力设计院有限公司 | 基于深度强化学习的微电网储能调度方法及装置及设备 |
CN112488452B (zh) * | 2020-11-06 | 2023-03-31 | 中电科蓝天科技股份有限公司 | 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法 |
CN112365077B (zh) * | 2020-11-20 | 2022-06-21 | 贵州电网有限责任公司 | 一种电网缺陷物资智能仓储调度系统的构建方法 |
CN112990582A (zh) * | 2021-03-17 | 2021-06-18 | 南方电网科学研究院有限责任公司 | 一种智能电网调度方法及系统 |
CN113270937B (zh) * | 2021-03-30 | 2024-06-21 | 鹏城实验室 | 一种备用电池调度方法、计算机可读存储介质及系统 |
CN113139682B (zh) * | 2021-04-15 | 2023-10-10 | 北京工业大学 | 一种基于深度强化学习的微电网能量管理方法 |
CN113131584B (zh) * | 2021-04-26 | 2023-08-15 | 国家电网有限公司信息通信分公司 | 一种数据中心电池充放电优化控制方法及装置 |
CN113078641B (zh) * | 2021-04-29 | 2023-02-28 | 国网山东省电力公司经济技术研究院 | 一种基于评估器和强化学习的配电网无功优化方法及装置 |
CN113435042B (zh) * | 2021-06-28 | 2022-05-17 | 天津大学 | 一种建筑空调系统需求响应的强化学习建模方法 |
CN113706197A (zh) * | 2021-08-26 | 2021-11-26 | 西安交通大学 | 基于强化和模仿学习的多微网电能交易的定价策略及系统 |
CN113872322A (zh) * | 2021-09-06 | 2021-12-31 | 广西电网有限责任公司电力科学研究院 | 一种基于深度学习的微电网云边协同控制方法 |
CN113809780B (zh) * | 2021-09-23 | 2023-06-30 | 沈阳工程学院 | 一种基于改进q学习惩罚选择的微电网优化调度方法 |
CN114240125B (zh) * | 2021-12-13 | 2024-09-20 | 广东工业大学 | 一种分布式储能电站在线、自适应的电能调度优化方法 |
CN114285075B (zh) * | 2021-12-22 | 2023-09-15 | 浙江工业大学 | 一种基于分布式深度强化学习的微电网能量在线优化方法 |
CN114362218B (zh) * | 2021-12-30 | 2024-03-19 | 中国电子科技南湖研究院 | 基于深度q学习的微电网内多类型储能的调度方法及装置 |
CN114498750A (zh) * | 2022-02-14 | 2022-05-13 | 华北电力大学 | 一种基于Q-Learning算法的分布式多智能体微电网能量管理方法 |
CN114742453A (zh) * | 2022-05-06 | 2022-07-12 | 江苏大学 | 基于Rainbow深度Q网络的微电网能量管理方法 |
CN115333143B (zh) * | 2022-07-08 | 2024-05-07 | 国网黑龙江省电力有限公司大庆供电公司 | 基于双神经网络的深度学习多智能体微电网协同控制方法 |
CN115001002B (zh) * | 2022-08-01 | 2022-12-30 | 广东电网有限责任公司肇庆供电局 | 一种求解储能参与削峰填谷的优化调度方法和系统 |
CN115579943A (zh) * | 2022-10-12 | 2023-01-06 | 广州瑞鑫智能制造有限公司 | 基于交流供电和光伏供电互补的空压站供电系统及方法 |
CN116388279B (zh) * | 2023-05-23 | 2024-01-23 | 安徽中超光电科技有限公司 | 太阳能光伏发电系统中的电网并网控制方法及其控制系统 |
CN116934050A (zh) * | 2023-08-10 | 2023-10-24 | 深圳市思特克电子技术开发有限公司 | 一种基于强化学习的电力智能调度系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106487011A (zh) * | 2016-11-28 | 2017-03-08 | 东南大学 | 一种基于q学习的户用微电网能量优化方法 |
CN106651214A (zh) * | 2017-01-04 | 2017-05-10 | 厦门大学 | 基于强化学习的微电网电能分配方法 |
CN107067190A (zh) * | 2017-05-18 | 2017-08-18 | 厦门大学 | 基于深度强化学习的微电网电能交易方法 |
CN108321795A (zh) * | 2018-01-19 | 2018-07-24 | 上海交通大学 | 基于深度确定性策略算法的发电机组启停配置方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032245A1 (en) * | 2015-07-01 | 2017-02-02 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Providing Reinforcement Learning in a Deep Learning System |
-
2018
- 2018-09-20 CN CN201811099843.6A patent/CN109347149B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106487011A (zh) * | 2016-11-28 | 2017-03-08 | 东南大学 | 一种基于q学习的户用微电网能量优化方法 |
CN106651214A (zh) * | 2017-01-04 | 2017-05-10 | 厦门大学 | 基于强化学习的微电网电能分配方法 |
CN107067190A (zh) * | 2017-05-18 | 2017-08-18 | 厦门大学 | 基于深度强化学习的微电网电能交易方法 |
CN108321795A (zh) * | 2018-01-19 | 2018-07-24 | 上海交通大学 | 基于深度确定性策略算法的发电机组启停配置方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于多智能体强化学习算法的微电网优化研究;李健等;《制造业自动化》;20160229;第80-88页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109347149A (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109347149B (zh) | 基于深度q值网络强化学习的微电网储能调度方法及装置 | |
CN110350523B (zh) | 基于需求响应的多能源互补优化调度方法 | |
Li et al. | Probabilistic charging power forecast of EVCS: Reinforcement learning assisted deep learning approach | |
CN113326994A (zh) | 一种考虑源荷储互动的虚拟电厂能量协同优化方法 | |
CN112800658A (zh) | 一种考虑源储荷互动的主动配电网调度方法 | |
CN113627993A (zh) | 一种基于深度强化学习的智能电动汽车充放电决策方法 | |
CN116451880B (zh) | 一种基于混合学习的分布式能源优化调度方法及装置 | |
CN117057553A (zh) | 一种基于深度强化学习的家庭能源需求响应优化方法及系统 | |
CN111047097A (zh) | 一种综合能源系统日中滚动优化方法 | |
CN115409645A (zh) | 一种基于改进深度强化学习的综合能源系统能量管理方法 | |
CN114123256A (zh) | 一种适应随机优化决策的分布式储能配置方法及系统 | |
CN117833285A (zh) | 一种基于深度强化学习的微电网储能优化调度方法 | |
CN118174355A (zh) | 一种微电网能量优化调度方法 | |
CN109217377A (zh) | 一种基于萤火虫群算法的源网荷储协同人工智能优化方法 | |
CN114202229B (zh) | 基于深度强化学习的微电网的能量管理策略的确定方法 | |
Zhang et al. | Physical-model-free intelligent energy management for a grid-connected hybrid wind-microturbine-PV-EV energy system via deep reinforcement learning approach | |
CN117937568A (zh) | 一种家庭微电网能源管理方法及系统 | |
CN117595392A (zh) | 计及光伏消纳与光储充配置的配电网联合优化方法及系统 | |
CN117543581A (zh) | 考虑电动汽车需求响应的虚拟电厂优化调度方法及其应用 | |
CN111552912B (zh) | 一种微电网并网的双层经济优化方法 | |
CN117277327A (zh) | 一种基于智能体的并网型微电网最优能量管理方法 | |
Kahraman et al. | Home energy management system based on deep reinforcement learning algorithms | |
CN116247676A (zh) | 一种基于实时市场电价的配电网拓扑推导方法 | |
CN115392784A (zh) | 一种主动配电网源-储协同规划方法 | |
Xiong et al. | Optimizing electricity demand scheduling in microgrids using deep reinforcement learning for cost‐efficiency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |