CN111598721A - 一种基于强化学习和lstm网络的负荷实时调度方法 - Google Patents

一种基于强化学习和lstm网络的负荷实时调度方法 Download PDF

Info

Publication number
CN111598721A
CN111598721A CN202010383555.4A CN202010383555A CN111598721A CN 111598721 A CN111598721 A CN 111598721A CN 202010383555 A CN202010383555 A CN 202010383555A CN 111598721 A CN111598721 A CN 111598721A
Authority
CN
China
Prior art keywords
load
time
price
scheduling
lstm network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010383555.4A
Other languages
English (en)
Other versions
CN111598721B (zh
Inventor
孔祥玉
孔德谦
孔令桐
王晟晨
李彬
李志新
田世明
韩凝辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
China Electric Power Research Institute Co Ltd CEPRI
State Grid Jiangsu Electric Power Co Ltd
North China Electric Power University
Original Assignee
Tianjin University
China Electric Power Research Institute Co Ltd CEPRI
State Grid Jiangsu Electric Power Co Ltd
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University, China Electric Power Research Institute Co Ltd CEPRI, State Grid Jiangsu Electric Power Co Ltd, North China Electric Power University filed Critical Tianjin University
Priority to CN202010383555.4A priority Critical patent/CN111598721B/zh
Publication of CN111598721A publication Critical patent/CN111598721A/zh
Application granted granted Critical
Publication of CN111598721B publication Critical patent/CN111598721B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S50/00Market activities related to the operation of systems integrating technologies related to power network operation or related to communication or information technologies
    • Y04S50/14Marketing, i.e. market research and analysis, surveying, promotions, advertising, buyer profiling, customer management or rewards

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习和LSTM网络的负荷实时调度方法,包括:建立负荷实时调度模型,所述模型为奖励最大化模型,同时定义目标函数;将负荷实时调度问题制定为马尔可夫决策过程;在负荷调度时段开始前,获取负荷削减信息和电价范围,并获得最近一次训练的LSTM网络;利用强化学习和LSTM网络进行最优负荷调度价格的虚拟探索;将总奖励f(XT)最大时当前时段的价格xt作为当前时段的负荷调度价格,并公布给用户;当前调度时段结束,得到用户的实际负荷变化;将当前时段的实际价格和用户负荷变化添加至历史数据集,更新历史数据集;根据最新的数据集重新训练LSTM网络。本发明引导用户主动削减高峰负荷,达到精准削减电网高峰负荷、保障电网安全可靠运行的目的。

Description

一种基于强化学习和LSTM网络的负荷实时调度方法
技术领域
本发明涉及负荷调度领域,尤其涉及一种基于强化学习和LSTM网络的负荷实时调度方法。
背景技术
随着可再生能源的大规模并网、电动汽车的大量使用以及空调负荷的不断攀升等多重因素的影响,电网面临的不确定性日益增大,负荷的实时调度可以实现电网负荷水平的实时调节,因而受到越来越广泛的重视。随着信息和通讯技术的进步,使得负荷的实时调度方式得以实现。电力市场化改革的推进让用户负荷参与电网调度成为可能,如何实现用户负荷的实时调度,以达到精准削减电网高峰负荷的目的,成为一个亟需解决的问题。
尽管对于用户负荷的实时调度已经有了很多研究,但在一些方面仍存在局限。首先,很多方法建立了用户的具体负荷变化模型,事实上,在从未实施过用户负荷调度的地区,用户的负荷变化模型是无法得知的。其次,大多数方法忽略了不同时段用户负荷变化的差异,事实上不同时段的用户负荷变化是不相同的,将所有时段统一考虑可能会导致偏差。
因此,在没有任何用户先验知识的情况下,现有的技术无法做到精准调度用户负荷。
发明内容
本发明提供了一种基于强化学习和LSTM网络的负荷实时调度方法,本发明充分利用用户历史信息,引导用户主动削减高峰负荷,达到精准削减电网高峰负荷、保障电网安全可靠运行的目的,详见下文描述:
一种基于强化学习和LSTM网络的负荷实时调度方法,所述方法包括以下步骤:
建立负荷实时调度模型,所述模型为奖励最大化模型,同时定义目标函数;
将负荷实时调度问题制定为马尔可夫决策过程;在负荷调度时段开始前,获取负荷削减信息和电价范围,并获得最近一次训练的LSTM网络;
利用强化学习和LSTM网络进行最优负荷调度价格的虚拟探索;将总奖励f(XT)最大时当前时段的价格xt作为当前时段的负荷调度价格,并公布给用户;
当前调度时段结束,得到用户的实际负荷变化;将当前时段的实际价格和用户负荷变化添加至历史数据集,更新历史数据集;根据最新的数据集重新训练LSTM网络。
其中,所述目标函数为:
Figure BDA0002482987210000021
其中,T表示一日内高峰时段数量,XT={x1,x2,…,xT}表示一日内高峰时段需要设定的负荷调度价格集合。
进一步地,所述将负荷实时调度问题制定为马尔可夫决策过程具体为:
将决策变量即时段t的价格xt作为动作at,将所有用户的总负荷变化Dtotal,t作为环境状态st,将时段t的奖励f(xt)作为环境的奖励rt,将P(st,at,st+1)表示为在环境状态st时采取动作at使环境状态转移到st+1的概率。
其中,所述方法还包括:
建立用户历史数据集,用H1表示,
H1={(x1,D1),(x2,D2),…,(xt-1,Dt-1),(xt,Dt)}
其中,(xt,Dt)为一次负荷调度的数据对;
对历史数据集H1进行扩展,使其包含过去时段的信息,用H2表示,
H2={(I1,D1),(I2,D2),…,(It-1,Dt-1),(It,Dt)}
其中,It表示与当前时段的负荷变化可能相关的特征量,不仅包含了当前时段的价格,还包含了之前时段的价格和负荷变化:
It={xt-L,Dt-L,…,xt-2,Dt-2,xt-1,Dt-1,xt}
其中,L为时间步长。
进一步地,所述方法还包括:
在训练时,用历史数据集H2中的特征量{I1,I2,…,It}作为网络的输入,用对应的用户总负荷变化{D1,D2,…,Dt}作为网络的输出,用来训练LSTM网络。
进一步地,所述利用强化学习和LSTM网络进行最优负荷调度价格的虚拟探索具体为:
在当前虚拟时段t,用贪婪策略选择一个价格xt
将价格xt和最新的历史数据集制定成时间序列形式,输入到LSTM网络,预测得到xt对应的负荷变化;
计算价格xt的对应奖励f(xt);使用价格xt,到达下一个虚拟时段,基于其所有可能的价格,获得下一个时段最大的Q值maxQ(st+1,at+1),更新矩阵Q:
设置下一个时段作为当前时段,最后一个时段结束时计算价格序列对应的总奖励。
本发明提供的技术方案的有益效果是:
(1)相较于现有技术中建立用户具体负荷变化模型的技术方案,本发明通过结合LSTM网络强大的预测能力,利用强化学习算法进行最优负荷调度价格的虚拟探索,可以有效利用用户历史负荷变化信息,从而达到精准削减电网高峰负荷的目的;
(2)相对于现有技术中的短视优化方法,即只对当前时段的负荷进行最优调度,不考虑对未来时段的影响,本发明由于考虑不同时段的负荷最优调度对用户其他时段负荷变化的影响,可以避免进行单个时段负荷的最优调度时对其他时段负荷调度产生的负效用,以减小电网负荷高峰时段实时调度的偏差;
(3)相对于现有技术中将所有时段无偏差考虑的方法,本发明利用历史价格和负荷变化作为当前时段的影响因素,在不同时段训练不同的负荷变化模型,考虑了用户在不同时段的负荷差异。
因此,本发明可以充分利用已有的用户历史负荷变化信息,为用户负荷变化模型未知地区的负荷实时调度问题,提供一个精准削减电网高峰负荷的方案。
附图说明
图1为本发明的流程图;
图2为本发明面向的电力市场架构;
图3为负荷实时调度问题的马尔可夫决策过程定义;
图4为负荷实时调度过程示意图;
图5为LSTM网络的训练和预测过程;
图6为本发明方法的实际实施过程示意图;
图7为300天当天本发明方法和只利用强化学习方法进行负荷实时调度得到的奖励对比。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
为了解决背景技术中存在的问题,本发明实施例利用强化学习进行负荷的实时动态调度,利用LSTM网络预测用户的负荷变化,可以有效利用用户历史负荷变化信息,准确地实时调度用户负荷,避免非充分利用用户历史信息时偏差过大的情形。
实施例1
一种基于强化学习和LSTM网络的负荷实时调度方法,参见图1,该方法包括以下步骤:
101:建立负荷实时调度模型;
其中,该步骤具体为:在每个调度时段t,xt为负荷调度价格,f(xt)为当前调度时段的奖励,其目标是在每个当前时段t,实时制定合适的价格xt,使其一日内的奖励f(XT)最大。将负荷实时调度模型建立为奖励最大化模型,目标函数为
Figure BDA0002482987210000041
其中T表示一日内高峰时段数量,XT={x1,x2,…,xT}表示一日内高峰时段需要设定的负荷调度价格集合。
102:将负荷实时调度问题制定为马尔可夫决策过程;
103:在负荷调度时段开始前,获取负荷削减信息和电价范围,并获得最近一次训练的LSTM网络;
104:在每个负荷调度时段开始时,利用强化学习算法和LSTM网络进行最优负荷调度价格的虚拟探索。
进一步地,在步骤104中,虚拟探索方法由强化学习算法和LSTM网络构成,其基本步骤为:
1041:在当前虚拟时段t,用贪婪策略选择一个价格xt
1042:将价格xt和最新的历史数据集制定成时间序列形式,输入到LSTM网络,预测得到xt对应的负荷变化;
1043:计算价格xt的对应奖励f(xt);
1044:使用价格xt,到达下一个虚拟时段,基于其所有可能的价格,获得下一个时段最大的Q值maxQ(st+1,at+1),更新矩阵Q:
Q(st,at)=Q(st,at)+α(f(xt)+γmaxQ(st+1,at+1)-Q(st,at));
1045:设置下一个时段作为当前时段,最后一个时段结束时计算价格序列对应的总奖励
Figure BDA0002482987210000042
105:将总奖励f(XT)最大时当前时段的价格xt作为当前时段的负荷调度价格,并公布给用户;
106:当前调度时段结束,得到用户的实际负荷变化;
107:将当前时段的实际价格和用户负荷变化添加至历史数据集,更新历史数据集;
108:一天结束时根据最新的数据集重新训练LSTM网络。
实施例2
下面结合具体的计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
本发明所提方法用于进行负荷削减或提升服务时起到聚合用户作用的电力服务机构。电力服务机构进行用户负荷调度的架构如图2所示,图中绘制了电力服务机构在负荷调度的过程中与电网运营机构以及用户之间的关系,以下是实施例的具体实施方式。
201:建立负荷实时调度模型;
将时段t的奖励设定为f(xt),如式(1)所示。
f(xt)=fr(xt)-fp(xt) (1)
其中,xt为在时段t需要制定的负荷调度价格,单位为$/kWh,fr(xt)表示时段t的净收入,fp(xt)表示在时段t由于总负荷变化的偏差带来的惩罚费用,分别如式(2)和(3)所示。
fr(xt)=(λr,t-xt)Dtotal,t (2)
fp(xt)=λp,t|Dtotal,t-Dbid,t| (3)
式(2)中,λr,t表示时段t的单位补偿价格,单位为$/kWh。Dtotal,t表示时段t所有用户的总负荷变化,单位为kWh。式(3)中,λp,t和Dbid,t分别表示时段t的单位惩罚价格和负荷削减量,单位分别为$/kWh和kWh,|Dtotal,t-Dbid,t|表示实际负荷削减与事先确定的负荷削减之间的偏差。
设定负荷调度的目标是在每个当前时段t,实时制定合适的价格xt,使其一日内的奖励f(XT)最大。负荷实时调度模型的目标函数为:
Figure BDA0002482987210000051
其中,T表示一日内高峰时段数量,XT={x1,x2,…,xT}表示一日内高峰时段需要设定的负荷调度价格集合。
约束条件为:
Figure BDA0002482987210000052
其中,
Figure BDA0002482987210000053
表示负荷削减的平衡,即电网获得的总负荷削减等于所有用户的负荷削减之和,di,t为用户i在时段t的负荷削减,单位为kWh,N为用户的数量;
Figure BDA0002482987210000054
表示负荷调度价格范围约束,xt
Figure BDA0002482987210000055
分别表示负荷调度价格的上下限。
202:将负荷实时调度问题制定成马尔可夫决策过程;
负荷实时调度问题可以制定成马尔可夫决策过程,将决策变量即时段t的价格xt看成动作at,将所有用户的总负荷变化Dtotal,t看作是环境状态st
将时段t的奖励f(xt)看成是环境的奖励rt,将P(st,at,st+1)表示为在环境状态st时采取动作at使环境状态转移到st+1的概率。以上就定义了强化学习的四个要素,如图3所示。
采用常用的Q学习算法来解决马尔可夫决策过程。将Q学习算法设置为实时运行,在每个时段开始时进行虚拟探索,通过探索当前时段及其当天剩余时段的奖励序列,获取总奖励最大时的价格序列作为最优价格序列。然后将最优价格序列的第一个价格作为当前时段的实际负荷调度价格公布给用户。
例如在一天的第一个高峰时段,通过Q学习算法探索当天T个时段的奖励序列{r1,r2,…,rT},获取总奖励最大时对应的价格序列{x1,x2,…,xT},然后将第一个价格x1作为一天初始时段的价格。
在第一个时段结束即第二个时段开始时,已获知第一个时段的实际负荷变化Dtotal,1,这时更新历史数据集H1和H2,继续探索剩余T-1个时段的奖励序列{r2,r3…,rT},获取总奖励最大时对应的价格序列{x2,x3,…,xT},然后将a2作为第二个时段的价格。
以此类推,随着一天内前面负荷调度时段价格的不断确定和公布,后续需要探索的时段越来越少,以至于到最后一个时段时,只需要确定使当前时段奖励最大的价格即可。负荷实时调度的过程示意图如图4所示,其中每一行表示当前时段可以探索到的最优负荷调度价格序列,深灰色为当前时段制定的实际负荷调度价格。
203:获取相关负荷削减信息和最近一次训练的LSTM网络;
在负荷调度时段开始前,电力服务机构通过竞价或协商的方式向电网运营机构发送申请信息,然后得到电网运营机构的反馈,得到负荷削减信息和电价范围:
T,Dbid,tr,tp,t,
Figure BDA0002482987210000061
获取最近一次训练的LSTM网络;初始化t=1,为虚拟探索过程做好准备。
训练LSTM网络首先需要建立相关的数据集,在初始实施负荷实时调度的地区,用户负荷变化数据逐渐增多。
为了保存用户的历史负荷变化信息,建立用户历史数据集,用H1表示。
H1={(x1,D1),(x2,D2),…,(xt-1,Dt-1),(xt,Dt)} (6)
其中,(xt,Dt)为一次负荷调度的数据对。
对历史数据集H1进行扩展,使其包含过去时段的信息,用H2表示。
H2={(I1,D1),(I2,D2),…,(It-1,Dt-1),(It,Dt)} (7)
其中,It表示与当前时段的负荷变化可能相关的特征量,不仅包含了当前时段的价格,还包含了之前时段的价格和负荷变化,如下所示。
It={xt-L,Dt-L,…,xt-2,Dt-2,xt-1,Dt-1,xt} (8)
其中,L为时间步长。
在利用LSTM网络进行训练之前,首先需要对数据进行归一化,采用的归一化方法如下。
Figure BDA0002482987210000071
其中,zmax和zmin分别表示数据集z的最大值和最小值,zi和zi*分别为归一化前后的数据。
每次进行训练时,将历史数据集H2划分为训练集和验证集,将前90%的数据作为训练集,将后10%的数据作为验证集,并用后续一天的数据作为测试集。
用均方根误差(Root Mean Square Error,RMSE)作为LSTM网络的损失函数,计算公式为:
Figure BDA0002482987210000072
其中,Di
Figure BDA0002482987210000073
分别代表用户负荷变化的实际值和预测值,n为数据量。
由于每个时段的特性不同,需要分别训练不同时段的网络参数。在训练时,用历史数据集H2中的特征量{I1,I2,…,It}作为网络的输入,用对应的用户总负荷变化{D1,D2,…,Dt}作为网络的输出,用来训练LSTM网络。建立LSTM网络的训练和预测过程,如图5所示。
204:在每个负荷调度时段开始时,利用强化学习算法和LSTM网络进行最优负荷调度价格的虚拟探索;
在每个负荷调度时段开始时,用贪婪策略选择一个价格xt。设置探索策略为ε贪婪策略,即在算法运行过程中,用ε的概率去探索未知的价格,用1-ε的概率利用以往的经验。并且设置ε是随着算法运行次数增加而逐渐增大的,即在初始时段主要用来探索不同的动作,在一定数量的积累之后,主要利用先前的经验。ε的设置如下:
Figure BDA0002482987210000074
其中,episode表示总迭代次数,i表示当前的迭代次数,且i∈[0,episode]。
将价格xt和最新的历史数据集H2制定成时间序列形式,输入到LSTM网络,预测得到xt对应的负荷变化Dtotal,t。在预测时,将t+1时段的特征量It+1输入到训练好的LSTM网络,就可以预测得到对应的负荷变化Dt+1,如图5所示。
计算价格xt的对应奖励f(xt)=(λr,t-xt)Dtotal,tp,t|Dtotal,t-Dbid,t|。
使用价格xt,到达下一个虚拟时段,基于其所有可能的价格,获得下一个时段最大的Q值maxQ(st+1,at+1),更新矩阵Q:
Q(st,at)=Q(st,at)+α(f(xt)+γmaxQ(st+1,at+1)-Q(st,at))
设置下一个时段作为当前时段,最后一个时段结束时计算价格序列对应的总奖励
Figure BDA0002482987210000081
当达到最大迭代次数时,输出总奖励最大时对应的当前时段的价格。
205:将总奖励f(XT)最大时当前时段的价格xt作为当前时段的实际负荷调度价格,并公布给用户,用户自主进行负荷的调整;
206:当前调度时段结束后,得到用户实际负荷变化量Dt
207:将当前时段实际的价格和用户的负荷变化(xt,Dt)添加至历史数据集H2,更新历史数据集。
208:一天结束时根据最新的数据集H2重新训练LSTM网络。
其中,详细的训练过程参见步骤203和图5,在此不再赘述。
本发明的主要步骤在实际中的应用流程如图6所示,电力服务机构通过竞价或协商的方式向电网运营机构发送申请信息,然后得到电网运营机构的反馈,确定负荷削减的时段和信息。在每个调度时段开始时执行虚拟探索的部分。
通过对以上实施例进行仿真分析,本发明得到的有益效果如图7所示。图7对比了300天当天本发明方法和只利用强化学习进行负荷实时调度得到的奖励对比,上图表示只利用强化学习的实际探索过程,下图表示本发明方法的虚拟探索过程。从对比结果可以看出,在实际中只利用强化学习进行实时调度是鲁莽的,现实情况也不允许采用这种探索效率过低的行为。而利用预测的方式进行虚拟探索就可以有效地利用历史信息,避免实际数据过少和波动带来的探索效率过低的弊端,从而达到精准削减高峰负荷的目的。
综上所述,本发明实施例提供了一种基于强化学习和LSTM网络的负荷实时调度方法,可以解决用户负荷变化模型未知地区的负荷实时调度问题。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于强化学习和LSTM网络的负荷实时调度方法,其特征在于,所述方法包括以下步骤:
建立负荷实时调度模型,所述模型为奖励最大化模型,同时定义目标函数;
将负荷实时调度问题制定为马尔可夫决策过程;在负荷调度时段开始前,获取负荷削减信息和电价范围,并获得最近一次训练的LSTM网络;
利用强化学习和LSTM网络进行最优负荷调度价格的虚拟探索;将总奖励f(XT)最大时当前时段的价格xt作为当前时段的负荷调度价格,并公布给用户;
当前调度时段结束,得到用户的实际负荷变化;将当前时段的实际价格和用户负荷变化添加至历史数据集,更新历史数据集;根据最新的数据集重新训练LSTM网络。
2.根据权利要求1所述的一种基于强化学习和LSTM网络的负荷实时调度方法,其特征在于,所述目标函数为:
Figure FDA0002482987200000011
其中,T表示一日内高峰时段数量,XT={x1,x2,…,xT}表示一日内高峰时段需要设定的负荷调度价格集合。
3.根据权利要求1所述的一种基于强化学习和LSTM网络的负荷实时调度方法,其特征在于,所述将负荷实时调度问题制定为马尔可夫决策过程具体为:
将决策变量即时段t的价格xt作为动作at,将所有用户的总负荷变化Dtotal,t作为环境状态st,将时段t的奖励f(xt)作为环境的奖励rt,将P(st,at,st+1)表示为在环境状态st时采取动作at使环境状态转移到st+1的概率。
4.根据权利要求1所述的一种基于强化学习和LSTM网络的负荷实时调度方法,其特征在于,所述方法还包括:
建立用户历史数据集,用H1表示,
H1={(x1,D1),(x2,D2),…,(xt-1,Dt-1),(xt,Dt)}
其中,(xt,Dt)为一次负荷调度的数据对;
对历史数据集H1进行扩展,使其包含过去时段的信息,用H2表示,
H2={(I1,D1),(I2,D2),…,(It-1,Dt-1),(It,Dt)}
其中,It表示与当前时段的负荷变化可能相关的特征量,不仅包含了当前时段的价格,还包含了之前时段的价格和负荷变化:
Figure FDA0002482987200000021
其中,L为时间步长。
5.根据权利要求4所述的一种基于强化学习和LSTM网络的负荷实时调度方法,其特征在于,所述方法还包括:
在训练时,用历史数据集H2中的特征量{I1,I2,…,It}作为网络的输入,用对应的用户总负荷变化{D1,D2,…,Dt}作为网络的输出,用来训练LSTM网络。
6.根据权利要求1所述的一种基于强化学习和LSTM网络的负荷实时调度方法,其特征在于,所述利用强化学习和LSTM网络进行最优负荷调度价格的虚拟探索具体为:
在当前虚拟时段t,用贪婪策略选择一个价格xt
将价格xt和最新的历史数据集制定成时间序列形式,输入到LSTM网络,预测得到xt对应的负荷变化;
计算价格xt的对应奖励f(xt);使用价格xt,到达下一个虚拟时段,基于其所有可能的价格,获得下一个时段最大的Q值maxQ(st+1,at+1),更新矩阵Q:
设置下一个时段作为当前时段,最后一个时段结束时计算价格序列对应的总奖励。
CN202010383555.4A 2020-05-08 2020-05-08 一种基于强化学习和lstm网络的负荷实时调度方法 Expired - Fee Related CN111598721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010383555.4A CN111598721B (zh) 2020-05-08 2020-05-08 一种基于强化学习和lstm网络的负荷实时调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010383555.4A CN111598721B (zh) 2020-05-08 2020-05-08 一种基于强化学习和lstm网络的负荷实时调度方法

Publications (2)

Publication Number Publication Date
CN111598721A true CN111598721A (zh) 2020-08-28
CN111598721B CN111598721B (zh) 2022-09-27

Family

ID=72189371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010383555.4A Expired - Fee Related CN111598721B (zh) 2020-05-08 2020-05-08 一种基于强化学习和lstm网络的负荷实时调度方法

Country Status (1)

Country Link
CN (1) CN111598721B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330077A (zh) * 2021-01-04 2021-02-05 南方电网数字电网研究院有限公司 电力负荷预测方法、装置、计算机设备和存储介质
CN113159982A (zh) * 2021-03-05 2021-07-23 国网山东省电力公司潍坊供电公司 基于在线需求响应的电力调度方法及系统
CN114623569A (zh) * 2021-11-04 2022-06-14 国网浙江省电力有限公司湖州供电公司 一种基于深度强化学习的集群空调负荷差异化调控方法
CN116070888A (zh) * 2023-04-06 2023-05-05 国网浙江省电力有限公司金华供电公司 基于决策树的虚拟电厂可调容量分析方法、装置及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952181A (zh) * 2017-03-08 2017-07-14 深圳市景程信息科技有限公司 基于长短时记忆神经网络的电力负荷预测系统
CN108932671A (zh) * 2018-06-06 2018-12-04 上海电力学院 一种采用深度q神经网络调参的lstm风电负荷预测方法
CN109242193A (zh) * 2018-09-21 2019-01-18 华南理工大学 一种基于强化学习的动态需求响应定价方法
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109461019A (zh) * 2018-09-21 2019-03-12 华南理工大学 一种基于模糊强化学习的动态需求响应定价方法
CN110474339A (zh) * 2019-08-07 2019-11-19 国网福建省电力有限公司 一种基于深度发电负荷预测的电网无功控制方法
CN111105126A (zh) * 2019-10-30 2020-05-05 国网浙江省电力有限公司舟山供电公司 基于用户侧需求反应的增强学习的电网服务价值制定方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952181A (zh) * 2017-03-08 2017-07-14 深圳市景程信息科技有限公司 基于长短时记忆神经网络的电力负荷预测系统
CN108932671A (zh) * 2018-06-06 2018-12-04 上海电力学院 一种采用深度q神经网络调参的lstm风电负荷预测方法
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109242193A (zh) * 2018-09-21 2019-01-18 华南理工大学 一种基于强化学习的动态需求响应定价方法
CN109461019A (zh) * 2018-09-21 2019-03-12 华南理工大学 一种基于模糊强化学习的动态需求响应定价方法
CN110474339A (zh) * 2019-08-07 2019-11-19 国网福建省电力有限公司 一种基于深度发电负荷预测的电网无功控制方法
CN111105126A (zh) * 2019-10-30 2020-05-05 国网浙江省电力有限公司舟山供电公司 基于用户侧需求反应的增强学习的电网服务价值制定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王振宇: "智能电网中基于深度学习的用户短期负荷预测研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330077A (zh) * 2021-01-04 2021-02-05 南方电网数字电网研究院有限公司 电力负荷预测方法、装置、计算机设备和存储介质
CN113159982A (zh) * 2021-03-05 2021-07-23 国网山东省电力公司潍坊供电公司 基于在线需求响应的电力调度方法及系统
CN114623569A (zh) * 2021-11-04 2022-06-14 国网浙江省电力有限公司湖州供电公司 一种基于深度强化学习的集群空调负荷差异化调控方法
CN114623569B (zh) * 2021-11-04 2023-09-29 国网浙江省电力有限公司湖州供电公司 一种基于深度强化学习的集群空调负荷差异化调控方法
CN116070888A (zh) * 2023-04-06 2023-05-05 国网浙江省电力有限公司金华供电公司 基于决策树的虚拟电厂可调容量分析方法、装置及介质

Also Published As

Publication number Publication date
CN111598721B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN111598721B (zh) 一种基于强化学习和lstm网络的负荷实时调度方法
CN112529727A (zh) 基于深度强化学习的微电网储能调度方法及装置及设备
CN112036632B (zh) 一种基于梯级水库生态发电多目标中长期随机调度模型的优化调度方法
CN113326994A (zh) 一种考虑源荷储互动的虚拟电厂能量协同优化方法
CN114626306A (zh) 一种园区分布式能源调控信息新鲜度保障方法及系统
Zhang et al. Two-stage reinforcement learning policy search for grid-interactive building control
CN115829235A (zh) 一种基于大数据分析的用电调度方法
CN115409645A (zh) 一种基于改进深度强化学习的综合能源系统能量管理方法
CN115423539A (zh) 一种考虑用户满意度的需求响应激励价格确定方法及装置
CN113420967B (zh) 一种基于预测的城市供水管网运行评估方法
CN114169916A (zh) 一种适应新型电力系统的市场成员报价策略制定方法
CN112510690B (zh) 考虑风火储联合和需求响应奖惩的优化调度方法及系统
CN116307437A (zh) 基于碳排放权兑换机制的虚拟电厂优化调度方法及系统
CN114239930A (zh) 面向智能电网场景的需求响应参与度模型构建方法
CN109121221B (zh) 一种无线能量分配和用户调度的方法
CN114612001A (zh) 集群电动汽车参与电网削峰的调控指令分解方法和系统
CN115759604B (zh) 一种综合能源系统优化调度方法
CN116128543B (zh) 一种售电公司负荷申报与出清的综合模拟运行方法及系统
CN116307449A (zh) 一种风电储能站实时调控方法与系统
CN117559464B (zh) 一种电力需求响应的调控方法、系统、电子设备及介质
CN117578488B (zh) 考虑不确定性的电动汽车实时灵活性评估方法及系统
CN114818088A (zh) 一种面向含多负荷的楼宇的边端协同能效提升方法、系统及存储介质
CN117808259A (zh) 一种能源调度策略的获取方法及装置
CN117543581A (zh) 考虑电动汽车需求响应的虚拟电厂优化调度方法及其应用
CN117335499A (zh) 基于深度强化学习算法的多能互补系统短期优化调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220927