CN110428345A - 一种基于增强学习的电网定价方法 - Google Patents
一种基于增强学习的电网定价方法 Download PDFInfo
- Publication number
- CN110428345A CN110428345A CN201910276673.2A CN201910276673A CN110428345A CN 110428345 A CN110428345 A CN 110428345A CN 201910276673 A CN201910276673 A CN 201910276673A CN 110428345 A CN110428345 A CN 110428345A
- Authority
- CN
- China
- Prior art keywords
- price
- reliability
- value table
- state
- power grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 21
- 230000005611 electricity Effects 0.000 claims abstract description 60
- 230000006399 behavior Effects 0.000 claims abstract description 42
- 230000009471 action Effects 0.000 claims abstract description 14
- 230000007613 environmental effect Effects 0.000 claims abstract description 12
- 238000004519 manufacturing process Methods 0.000 claims description 25
- 230000007704 transition Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0283—Price estimation or determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S50/00—Market activities related to the operation of systems integrating technologies related to power network operation or related to communication or information technologies
- Y04S50/14—Marketing, i.e. market research and analysis, surveying, promotions, advertising, buyer profiling, customer management or rewards
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于增强学习的电网定价方法,涉及一种电网定价方法。现有的电网定价不全面。本发明包括以下步骤:初始化Q值表和E值表,并设置初始电价;获取增强学习模型的状态空间、行为空间,对初始电价进行调整;将电价调整的行为反馈给电网售电市场环境,等待一个时间间隔T,获取环境信息;利用环境反馈信息和上一个状态下拟定的电力价格信息计算当前时间的回报函数,得到即时回报R,并更新E值表和Q值表;利用更新后的Q值表,选取新的行为,调整电价;每经过一个时间T,循环以上步骤S4‑步骤S7,直到Q值表收敛到设定范围内,得出最优电网定价。本技术方案根据供需平衡、电网可靠性以及实时定价各方面的因素,实现电网实时定价。
Description
技术领域
本发明涉及一种电网定价方法,尤其涉及一种基于增强学习的电网定价方法。
背景技术
受环境和储量等因素的制约,在未来电网电源中,化石能源占比将逐步降低。与此同时,以风能和太阳能为代表的新能源(易变可再生能源)有很大的增长空间,并将逐步取代传统能源。由于可再生能源具有间歇性、波动性、分散性等特点,其并入传统电网时将增加对电网稳定性的冲击。
电价一直以来就是电力市场建设的焦点问题,建设一个统一开放、竞争有序的电力市场,将有利于电力工业又好又快发展,需要不断深化电力体制及电价改革,逐步构建起科学的电价体系和电价机制,发挥价格杠杆对电力工业的调节和引导作用。我国现有的电网定价机制主要系单一制电价,并在部分地区实行对可靠性收取基础电费,以及基于功率因素对无功补偿收取奖惩费用。现有的电网定价机制方法简单,不能反映成本的时间差异,不能向用户提供每个小时的价格信号,也没有考虑电网的供需平衡关系,在未来新能源接入电网后,使得电网稳定性面临巨大挑战。
目前关于电网电价的定价方法已有大量研究,其中包括基于可靠性的定价方法、基于平衡供需关系的定价方法以及实时的定价方法。在基于可靠性的定价方法中,包括高可靠性电价与可靠性赔偿的定价方法,通过预计线路建设、检修、报废处置成本计算可靠性费的方法,基于供电公司收益、用户成本的可靠性分时电价制定方法。在供需关系的定价方法中,主要包括基于多时间尺度需求响应模型方法,面向电力市场的主动需求响应的方法,需求侧节点电价分区结算方法。在实时定价的方法中,主要分为基于能耗调度理论的实时电价算法,基于统计需求弹性模型的实时电价算法,基于效益模型的实时电价算法,基于阻塞管理的实时电价算法等。现有的方法从可靠性、供需平衡以及实时定价三个角度分别考虑对电网定价的优化方案,但是并未将其上述三个方面予以同时考虑,电网定价不全面。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供一种基于增强学习的电网定价方法,以实现全面电网定价的目的。为此,本发明采取以下技术方案。
一种基于增强学习的电网定价方法,包括以下步骤:
1)初始化Q值表和E值表,并设置初始电价;Q值表为状态行为对的价值表,E值表为记录状态行为对效用迹的价值表;
2)获取增强学习模型的状态空间、行为空间,根据当前时刻状态,通过∈-贪婪策略选择相应的行为,对初始电价进行调整;
3)将电价调整的行为反馈给电网售电市场环境,等待一个时间间隔T,获取环境信息,环境信息包括:生产者产电数量,消费者耗电数量,电网可靠性水平,根据环境信息生成当前时刻状态;
4)利用环境反馈信息和上一个状态下拟定的电力价格信息计算当前时间的回报函数,得到即时回报R,并更新E值表和Q值表;
5)利用更新后的Q值表,采用∈-贪婪策略根据当前的状态选取新的行为,并调整电价;
6)每经过一个时间T,循环以上步骤S4-步骤S7,直到Q值表收敛到设定范围内,得出最优电网定价。
作为优选技术手段:增强学习模型为:
MBL=<S,A,P,R>
式中:S表示状态集合,每个状态s∈S是由代理商和消费者的过去几轮行为决定的,具体表示当前时刻的电力价格,每个用户在过去一个单位时间T内的用电消耗量,每个生产者在过去一个单位时间T内的电力产出以及该时刻电网可靠性的状态;
A是行动集合,行动aj表示当前状态下可选择操作,该操作决定了下一个状态的时间;
P是状态转移概率,指由状态s在执行行动a转变为s’的概率;
R是即时回报,指代理商在当前时隙内所获得的利润表示(收入-成本);
模型目标:求解当前状态s下所要采取的最优行为a。
作为优选技术手段:在步骤4)中,回报函数:Rt=销售价格*销售数量-生产价格*生产数量-不平衡惩罚系数+可靠性补偿系数,不平衡罚款系数是由于在[t-1,t]时刻之间销售数量与生产数量不等造成,可靠性补偿系数根据当前可靠性状态(高、中、低)进行相应的加权计算,可靠性状态包括高、中、低。
作为优选技术手段:状态转移概率P是未知的,其在现实环境下取样获得,并根据样本进行实时更新,当样本越多并且样本越多样化,则状态转移概率P越接近真实值。
作为优选技术手段:在步骤1)中,初始化Q值表为零,或者随机值,Q(s,a)=0,其中s∈S,a∈A,或初始化Q值表为随机值;初始化E值表为零,E(s,a)=0,其中s∈S,a∈A;初始的电费价格p1根据实际情况拟定,或直接根据市场环境的现实情况观测得到;
在步骤2)中,观测现实中当前时刻T1的状态,记为S1;根据随机平均策略π,获取状态S1下的行为A1,并根据行为A1调整相应的电价至p2;
在步骤3)中,等待一个时间间隔T,T1->T2,获得[T1,T2]时刻内的销售电量Nc和生产电量Np,并根据T2时刻的电网中电压负载状态获得可靠性估值,根据以上信息得出T2时刻的状态S2,若Nc>Np,则认为供应不足;若Nc<Np,则认为供应过量;若Nc=Np,则认为供需平衡;若当前销售电价大于生产电价与边际利润之和,为定价合理;若当前销售电价小于生产电价与边际利润之和,为定价不合理;可靠性估值直接由电网设备运行情况给出;
在步骤4)中,计算[T1,T2]时刻之间产生的回报值R2=Nc*Pc–Np*Pp–Ψ+δ,其中Nc为销售电量,Pc为销售电价,Np为生产电量,Pp为生产电价,Ψ为不平衡罚款系数,δ为可靠性补偿价格;其中Pc取值为步骤2)中根据行为A1调整的价格p2;
通过效用迹公式:
E0(s,a)=0
Et(s,a)=γλEt-1(s,a)+1(St=s),γ,λ∈[0,1]
更新E1(S1,A1)的值;
根据TD误差迭代公式δt=Rt+1+γ(Q(St+1,At+1)-Q(St,At)),计算T1时刻的时序差分TD误差δ1=R2+γ(Q(S2,A2)-Q(S1,A2));
根据迭代公式Q(S,A)←Q(S,A)+αδtEt(S,A)更新Q值表的Q(S1,A1)记录,Q(S1,A1)←Q(S1,A1)+αδ1E1(S1,A1);
在步骤5)中,根据S2的状态查询更新后的Q值表,采用∈-贪婪策略,如下:
选取S2状态下的行为A2,并根据选取的行为A2调整电费价格表;
在步骤6)中,每经过一个时间段T,重复步骤2)~5);在采样过程中,一边采样一边迭代更新Q值表和E值表,经过有限次迭代过后,Q值表最终收敛至某一范围,即对于任意的状态s和行为a有Qt+1(s,a)-Qt(s,a)<ε,则说明Q值表已经收敛,从而得出最优策略。
作为优选技术手段:S={s1,s2,s3,……,s18},其中:
s1<定价合理,供需平衡,低可靠性>;
s2<定价合理,供需平衡,中可靠性>;
s3<定价合理,供需平衡,高可靠性>;
s4<定价合理,供应不足,低可靠性>;
s5<定价合理,供应不足,中可靠性>;
s6<定价合理,供应不足,高可靠性>;
s7<定价合理,供应过量,低可靠性>;
s8<定价合理,供应过量,中可靠性>;
s9<定价合理,供应过量,高可靠性>;
s10<定价不合理,供需平衡,低可靠性>;
s11<定价不合理,供需平衡,中可靠性>;
s12<定价不合理,供需平衡,高可靠性>;
s13<定价不合理,供应不足,低可靠性>;
s14<定价不合理,供应不足,中可靠性>;
s15<定价不合理,供应不足,高可靠性>;
s16<定价不合理,供应过量,低可靠性>;
s17<定价不合理,供应过量,中可靠性>;
s18<定价不合理,供应过量,高可靠性>;
A={-0.9,-0.8,-0.7,-0.6,-0.5,-0.4,-0.3,-0.2,-0.1,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9},其中负数代表降低价格,正数代表提升价格,数字绝对值的大小决定了价格降低或者提升的程度。
有益效果:本技术方案根据供需平衡、电网可靠性以及实时定价各方面的因素,基于强化学习的方法实现电网实时全面定价,解决可再生能源接入电网后导致的供需不平衡问题以及现有的电价未能反映市场需求以及用户可靠性需求问题,实现了售点公司利益最大化的同时又指导了用户的用电行为,并使得电网输入和流出的电量保持稳定提高用户用电可靠性。
附图说明
图1是本发明流程图。
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,本发明包括以下步骤:
步骤S1:定义增强学习模型中的状态空间,行为空间;
步骤S2:定义增强学习模型中回报函数的具体计算方法;
步骤S3:初始化Q值表(即状态行为对的价值表)和E值表(即记录状态行为对效用迹的价值表),并设置初始电价;
步骤S4:智能代理在初始时刻观测当前时刻状态,并通过∈-贪婪策略选择相应的行为,对初始电价进行调整;
步骤S5:将步骤S4得到的行为反馈给电网售电市场环境,等待一个时间间隔T(可取值为15分钟,30分钟或1个小时),返回环境信息(生产者产电数量,消费者耗电数量,电网可靠性水平),并根据环境信息生成当前时刻状态;
步骤S6:利用环境反馈信息和上一个状态下拟定的电力价格信息计算当前时间的回报函数,得到即时回报R,并更新E值表和Q值表;
步骤S7:利用更新后的Q值表,采用∈-贪婪策略根据当前的状态选取新的行为,并调整电价;
步骤S8:每经过一个时间T,循环以上步骤S4-步骤S7,直到Q值表收敛到一定程度。
其中,增强学习模型如下:
MBL=<S,A,P,R>
式中:S表示状态集合,每个状态s∈S是由代理商和消费者的过去几轮行为决定的,具体表示当前时刻的电力价格,每个用户在过去一个单位时间T内的用电消耗量,每个生产者在过去一个单位时间T内的电力产出以及该时刻电网可靠性的状态;
A是行动集合,行动aj表示当前状态下可选择操作,该操作决定了下一个状态的时间;
P是状态转移概率,指由状态s在执行行动a转变为s’的概率;
R是即时回报,指代理商在当前时隙内所获得的利润表示(收入-成本);
模型目标:求解当前状态s下所要采取的最优行为a。
具体的,步骤S1包括:
模型中状态空间定义:S={s1,s2,s3,……,s18}
s1<定价合理,供需平衡,低可靠性>;
s2<定价合理,供需平衡,中可靠性>;
s3<定价合理,供需平衡,高可靠性>;
s4<定价合理,供应不足,低可靠性>;
s5<定价合理,供应不足,中可靠性>;
s6<定价合理,供应不足,高可靠性>;
s7<定价合理,供应过量,低可靠性>;
s8<定价合理,供应过量,中可靠性>;
s9<定价合理,供应过量,高可靠性>;
s10<定价不合理,供需平衡,低可靠性>;
s11<定价不合理,供需平衡,中可靠性>;
s12<定价不合理,供需平衡,高可靠性>;
s13<定价不合理,供应不足,低可靠性>;
s14<定价不合理,供应不足,中可靠性>;
s15<定价不合理,供应不足,高可靠性>;
s16<定价不合理,供应过量,低可靠性>;
s17<定价不合理,供应过量,中可靠性>;
s18<定价不合理,供应过量,高可靠性>;
模型中定义行为空间:
A={-0.9,-0.8,-0.7,-0.6,-0.5,-0.4,-0.3,-0.2,-0.1,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9},其中负数代表降低价格,正数代表提升价格,数字绝对值的大小决定了价格降低或者提升的程度。
具体的,步骤S2包括:
模型中的回报函数定义为利润,即销售电量的收入减去电量的生产成本,如下:
Rt=销售价格*销售数量-生产价格*生产数量-不平衡惩罚系数+可靠性补偿系数,不平衡罚款系数是由于在[t-1,t]时刻之间销售数量与生产数量不等造成,可靠性补偿系数根据当前可靠性状态(高、中、低)进行相应的加权计算。
模型中的状态转移概率矩阵P是未知的,需要代理机器人在现实环境下取样获得,并根据样本进行实时更新,理论上样本越多并且样本越多样化,评估的状态转移矩阵P越接近真实值。
具体的,步骤S3包括:
该技术利用Sarsa(λ)算法对Q值表进行求解,以及对效用迹E值表进行更新。
初始化Q值表为零(或者随机值),Q(s,a)=0,其中s∈S,a∈A。初始化E值表为零,E(s,a)=0,其中s∈S,a∈A。根据实际情况拟定初始的电费价格p1,该电费价格也可以直接根据市场环境的现实情况观测得到。
具体的,步骤S4包括:
智能代理开始代理时,观测现实中当前时刻(记为T1)的状态,记为S1。
根据随机平均策略π,获取状态S1下的行为A1,并根据行为A1调整相应的电价至p2。
具体的,步骤S5包括:
等待一个时间间隔T,T1->T2,获得[T1,T2]时刻内的销售电量Nc和生产电量Np,并根据T2时刻的电网中电压负载状态获得可靠性估值(高、中、低)。根据以上信息得出T2时刻的状态S2:1.若Nc>Np->供应不足;Nc<Np->供应过量;Nc=Np->供需平衡。2.若当前销售电价大于生产电价与边际利润之和,为定价合理;若当前销售电价小于生产电价与边际利润之和,为定价不合理。3.可靠性估值直接由电网设备运行情况给出。
具体的,步骤S6包括:
计算[T1,T2]时刻之间产生的回报值R2=Nc*Pc–Np*Pp–Ψ+δ,其中Nc为销售电量,Pc为销售电价,Np为生产电量,Pp为生产电价,Ψ为不平衡罚款系数,δ为可靠性补偿价格。其中Pc取值应该为步骤S4中根据行为A1调整的价格p2。
通过效用迹公式:
E0(s,a)=0
Et(s,a)=γλEt-1(s,a)+1(St=s),γ,λ∈[0,1]
更新E1(S1,A1)的值。
根据TD误差迭代公式δt=Rt+1+γ(Q(St+1,At+1)-Q(St,At)),计算T1时刻的TD误差δ1=R2+γ(Q(S2,A2)-Q(S1,A2))。
根据迭代公式Q(S,A)←Q(S,A)+αδtEt(S,A)更新Q值表的Q(S1,A1)记录,Q(S1,A1)←Q(S1,A1)+αδ1E1(S1,A1)。
具体的,步骤S7包括:
根据S2的状态查询更新后的Q值表,采用∈-贪婪策略,如下:
选取S2状态下的行为A2,并根据选取的行为A2调整电费价格表。
具体的,步骤S8包括:
每经过一个时间段T,重复步骤S4-步骤S7。在采样过程中,一边采样一边迭代更新Q值表和E值表,经过有限次迭代过后,Q值表最终能够收敛至某一范围,即对于任意的状态s和行为a有Qt+1(s,a)-Qt(s,a)<ε,说明Q值表已经收敛,从而得出最优策略。
Sarsa(λ)后向传播的算法流程如下述算法所示:
附图1所示的一种基于增强学习的电网定价方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行等同修改,均在本方案的保护范围之列。
Claims (6)
1.一种基于增强学习的电网定价方法,其特征在于包括以下步骤:
1)初始化Q值表和E值表,并设置初始电价;Q值表为状态行为对的价值表,E值表为记录状态行为对效用迹的价值表;
2)获取增强学习模型的状态空间、行为空间,根据当前时刻状态,通过∈-贪婪策略选择相应的行为,对初始电价进行调整;
3)将电价调整的行为反馈给电网售电市场环境,等待一个时间间隔T,获取环境信息,环境信息包括:生产者产电数量,消费者耗电数量,电网可靠性水平,根据环境信息生成当前时刻状态;
4)利用环境反馈信息和上一个状态下拟定的电力价格信息计算当前时间的回报函数,得到即时回报R,并更新E值表和Q值表;
5)利用更新后的Q值表,采用∈-贪婪策略根据当前的状态选取新的行为,并调整电价;
6)每经过一个时间T,循环以上步骤S4-步骤S7,直到Q值表收敛到设定范围内,得出最优电网定价。
2.根据权利要求1所述的一种基于增强学习的电网定价方法,其特征在于:增强学习模型为:
MBL=<S,A,P,R>
式中:S表示状态集合,每个状态s∈S是由代理商和消费者的过去几轮行为决定的,具体表示当前时刻的电力价格,每个用户在过去一个单位时间T内的用电消耗量,每个生产者在过去一个单位时间T内的电力产出以及该时刻电网可靠性的状态;
A是行动集合,行动aj表示当前状态下可选择操作,该操作决定了下一个状态的时间;
P是状态转移概率,指由状态s在执行行动a转变为s’的概率;
R是即时回报,指代理商在当前时隙内所获得的利润表示:收入-成本;
模型目标:求解当前状态s下所要采取的最优行为a。
3.根据权利要求2所述的一种基于增强学习的电网定价方法,其特征在于:在步骤4)中,回报函数:Rt=销售价格*销售数量-生产价格*生产数量-不平衡惩罚系数+可靠性补偿系数,不平衡罚款系数是由于在[t-1,t]时刻之间销售数量与生产数量不等造成,可靠性补偿系数根据当前可靠性状态进行相应的加权计算,可靠性状态包括高、中、低。
4.根据权利要求3所述的一种基于增强学习的电网定价方法,其特征在于:状态转移概率P是未知的,其在现实环境下取样获得,并根据样本进行实时更新,当样本越多并且样本越多样化,则状态转移概率P越接近真实值。
5.根据权利要求4所述的一种基于增强学习的电网定价方法,其特征在于:
在步骤1)中,初始化Q值表为零,或者随机值,Q(s,a)=0,其中s∈S,a∈A,或初始化Q值表为随机值;初始化E值表为零,E(s,a)=0,其中s∈S,a∈A;初始的电费价格p1根据实际情况拟定,或直接根据市场环境的现实情况观测得到;
在步骤2)中,观测现实中当前时刻T1的状态,记为S1;根据随机平均策略π,获取状态S1下的行为A1,并根据行为A1调整相应的电价至p2;
在步骤3)中,等待一个时间间隔T,T1->T2,获得[T1,T2]时刻内的销售电量Nc和生产电量Np,并根据T2时刻的电网中电压负载状态获得可靠性估值,根据以上信息得出T2时刻的状态S2,若Nc>Np,则认为供应不足;若Nc<Np,则认为供应过量;若Nc=Np,则认为供需平衡;若当前销售电价大于生产电价与边际利润之和,为定价合理;若当前销售电价小于生产电价与边际利润之和,为定价不合理;可靠性估值直接由电网设备运行情况给出;
在步骤4)中,计算[T1,T2]时刻之间产生的回报值R2=Nc*Pc–Np*Pp–Ψ+δ,其中Nc为销售电量,Pc为销售电价,Np为生产电量,Pp为生产电价,Ψ为不平衡罚款系数,δ为可靠性补偿价格;其中Pc取值为步骤2)中根据行为A1调整的价格p2;
通过效用迹公式:
E0(s,a)=0
Et(s,a)=γλEt-1(s,a)+1(St=s),γ,λ∈[0,1]
更新E1(S1,A1)的值;
根据TD误差迭代公式δt=Rt+1+γ(Q(St+1,At+1)-Q(St,At)),计算T1时刻的时序差分TD误差δ1=R2+γ(Q(S2,A2)-Q(S1,A2));
根据迭代公式Q(S,A)←Q(S,A)+αδtEt(S,A)更新Q值表的Q(S1,A1)记录,Q(S1,A1)←Q(S1,A1)+αδ1E1(S1,A1);
在步骤5)中,根据S2的状态查询更新后的Q值表,采用∈-贪婪策略,如下:
选取S2状态下的行为A2,并根据选取的行为A2调整电费价格表;
在步骤6)中,每经过一个时间段T,重复步骤2)~5);在采样过程中,一边采样一边迭代更新Q值表和E值表,经过有限次迭代过后,Q值表最终收敛至某一范围,即对于任意的状态s和行为a有Qt+1(s,a)-Qt(s,a)<ε,则说明Q值表已经收敛,从而得出最优策略。
6.根据权利要求2所述的一种基于增强学习的电网定价方法,其特征在于:S={s1,s2,s3,……,s18},其中:
s1<定价合理,供需平衡,低可靠性>;
s2<定价合理,供需平衡,中可靠性>;
s3<定价合理,供需平衡,高可靠性>;
s4<定价合理,供应不足,低可靠性>;
s5<定价合理,供应不足,中可靠性>;
s6<定价合理,供应不足,高可靠性>;
s7<定价合理,供应过量,低可靠性>;
s8<定价合理,供应过量,中可靠性>;
s9<定价合理,供应过量,高可靠性>;
s10<定价不合理,供需平衡,低可靠性>;
s11<定价不合理,供需平衡,中可靠性>;
s12<定价不合理,供需平衡,高可靠性>;
s13<定价不合理,供应不足,低可靠性>;
s14<定价不合理,供应不足,中可靠性>;
s15<定价不合理,供应不足,高可靠性>;
s16<定价不合理,供应过量,低可靠性>;
s17<定价不合理,供应过量,中可靠性>;
s18<定价不合理,供应过量,高可靠性>;
A={-0.9,-0.8,-0.7,-0.6,-0.5,-0.4,-0.3,-0.2,-0.1,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9},其中负数代表降低价格,正数代表提升价格,数字绝对值的大小决定了价格降低或者提升的程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910276673.2A CN110428345A (zh) | 2019-04-08 | 2019-04-08 | 一种基于增强学习的电网定价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910276673.2A CN110428345A (zh) | 2019-04-08 | 2019-04-08 | 一种基于增强学习的电网定价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110428345A true CN110428345A (zh) | 2019-11-08 |
Family
ID=68408374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910276673.2A Pending CN110428345A (zh) | 2019-04-08 | 2019-04-08 | 一种基于增强学习的电网定价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110428345A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111369108A (zh) * | 2020-02-20 | 2020-07-03 | 华中科技大学鄂州工业技术研究院 | 一种电网实时定价方法和装置 |
US20220188852A1 (en) * | 2020-12-10 | 2022-06-16 | International Business Machines Corporation | Optimal pricing iteration via sub-component analysis |
-
2019
- 2019-04-08 CN CN201910276673.2A patent/CN110428345A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111369108A (zh) * | 2020-02-20 | 2020-07-03 | 华中科技大学鄂州工业技术研究院 | 一种电网实时定价方法和装置 |
US20220188852A1 (en) * | 2020-12-10 | 2022-06-16 | International Business Machines Corporation | Optimal pricing iteration via sub-component analysis |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021213192A1 (zh) | 一种基于通用分布的负荷预测方法及负荷预测系统 | |
Sun et al. | Improved energy performance evaluating and ranking approach for office buildings using Simple-normalization, Entropy-based TOPSIS and K-means method | |
CN109087213B (zh) | 一种分散式电力现货市场交易模拟方法 | |
Young et al. | Can agent-based models forecast spot prices in electricity markets? Evidence from the New Zealand electricity market | |
CN107067190A (zh) | 基于深度强化学习的微电网电能交易方法 | |
CN106130066B (zh) | 一种用于独立微电网系统的多目标鲁棒频率控制方法 | |
CN113112099A (zh) | 电网日电量预测模型训练方法和电网日电量预测方法 | |
Chen et al. | Customized rebate pricing mechanism for virtual power plants using a hierarchical game and reinforcement learning approach | |
CN112950098A (zh) | 基于综合能源系统的能源规划方法、装置及终端设备 | |
CN110428345A (zh) | 一种基于增强学习的电网定价方法 | |
CN106709823A (zh) | 一种电力用户用电信息采集系统的运行性能评价方法 | |
Chuang et al. | Deep reinforcement learning based pricing strategy of aggregators considering renewable energy | |
Wainstein et al. | Social virtual energy networks: Exploring innovative business models of prosumer aggregation with virtual power plants | |
CN116388245A (zh) | 光储充一体化电站储能容量配置方法及相关设备 | |
CN109657846A (zh) | 电网交叉补贴规模影响因子筛选方法 | |
CN117010946A (zh) | 一种火电厂生产经营成本核算系统及其使用方法 | |
Zhang et al. | Cycle-life-aware optimal sizing of grid-side battery energy storage | |
Wang et al. | Multi-agent simulation for strategic bidding in electricity markets using reinforcement learning | |
CN106682934A (zh) | 一种购电竞价策略 | |
CN110533247A (zh) | 一种采用气温数据异常点补偿的月度用电量预测方法 | |
CN116244567B (zh) | 基于激励的配电网多阶段增量规划方法及系统 | |
CN107749624A (zh) | 分布式光伏发电运营模式优化设计方法和系统 | |
CN115829141A (zh) | 一种基于短期智能电表数据的储能系统优化配置方法 | |
CN110991750A (zh) | 基于神经网络的短期电力负荷预测方法 | |
CN109615151A (zh) | 一种负荷储能双优化的预测方法、装置和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191108 |