CN110428345A

CN110428345A - 一种基于增强学习的电网定价方法

Info

Publication number: CN110428345A
Application number: CN201910276673.2A
Authority: CN
Inventors: 李懑君; 莫益军; 陈浩; 朱鲁敏; 罗腾; 范舟永; 余凡; 韩叶林
Original assignee: Huazhong University of Science and Technology; State Grid Zhejiang Electric Power Co Ltd; Zhoushan Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Huazhong University of Science and Technology; State Grid Zhejiang Electric Power Co Ltd; Zhoushan Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-11-08

Abstract

本发明公开了一种基于增强学习的电网定价方法,涉及一种电网定价方法。现有的电网定价不全面。本发明包括以下步骤：初始化Q值表和E值表，并设置初始电价；获取增强学习模型的状态空间、行为空间，对初始电价进行调整；将电价调整的行为反馈给电网售电市场环境，等待一个时间间隔T，获取环境信息；利用环境反馈信息和上一个状态下拟定的电力价格信息计算当前时间的回报函数，得到即时回报R，并更新E值表和Q值表；利用更新后的Q值表，选取新的行为，调整电价；每经过一个时间T，循环以上步骤S4‑步骤S7，直到Q值表收敛到设定范围内，得出最优电网定价。本技术方案根据供需平衡、电网可靠性以及实时定价各方面的因素，实现电网实时定价。

Description

一种基于增强学习的电网定价方法

技术领域

本发明涉及一种电网定价方法，尤其涉及一种基于增强学习的电网定价方法。

背景技术

受环境和储量等因素的制约，在未来电网电源中，化石能源占比将逐步降低。与此同时，以风能和太阳能为代表的新能源(易变可再生能源)有很大的增长空间，并将逐步取代传统能源。由于可再生能源具有间歇性、波动性、分散性等特点，其并入传统电网时将增加对电网稳定性的冲击。

电价一直以来就是电力市场建设的焦点问题，建设一个统一开放、竞争有序的电力市场，将有利于电力工业又好又快发展，需要不断深化电力体制及电价改革，逐步构建起科学的电价体系和电价机制，发挥价格杠杆对电力工业的调节和引导作用。我国现有的电网定价机制主要系单一制电价，并在部分地区实行对可靠性收取基础电费，以及基于功率因素对无功补偿收取奖惩费用。现有的电网定价机制方法简单，不能反映成本的时间差异，不能向用户提供每个小时的价格信号，也没有考虑电网的供需平衡关系，在未来新能源接入电网后，使得电网稳定性面临巨大挑战。

目前关于电网电价的定价方法已有大量研究，其中包括基于可靠性的定价方法、基于平衡供需关系的定价方法以及实时的定价方法。在基于可靠性的定价方法中，包括高可靠性电价与可靠性赔偿的定价方法，通过预计线路建设、检修、报废处置成本计算可靠性费的方法，基于供电公司收益、用户成本的可靠性分时电价制定方法。在供需关系的定价方法中，主要包括基于多时间尺度需求响应模型方法，面向电力市场的主动需求响应的方法，需求侧节点电价分区结算方法。在实时定价的方法中，主要分为基于能耗调度理论的实时电价算法，基于统计需求弹性模型的实时电价算法，基于效益模型的实时电价算法，基于阻塞管理的实时电价算法等。现有的方法从可靠性、供需平衡以及实时定价三个角度分别考虑对电网定价的优化方案，但是并未将其上述三个方面予以同时考虑，电网定价不全面。

发明内容

本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进，提供一种基于增强学习的电网定价方法，以实现全面电网定价的目的。为此，本发明采取以下技术方案。

一种基于增强学习的电网定价方法，包括以下步骤：

1)初始化Q值表和E值表，并设置初始电价；Q值表为状态行为对的价值表，E值表为记录状态行为对效用迹的价值表；

2)获取增强学习模型的状态空间、行为空间，根据当前时刻状态，通过∈-贪婪策略选择相应的行为，对初始电价进行调整；

3)将电价调整的行为反馈给电网售电市场环境，等待一个时间间隔T，获取环境信息，环境信息包括：生产者产电数量，消费者耗电数量，电网可靠性水平，根据环境信息生成当前时刻状态；

4)利用环境反馈信息和上一个状态下拟定的电力价格信息计算当前时间的回报函数，得到即时回报R，并更新E值表和Q值表；

5)利用更新后的Q值表，采用∈-贪婪策略根据当前的状态选取新的行为，并调整电价；

6)每经过一个时间T，循环以上步骤S4-步骤S7，直到Q值表收敛到设定范围内，得出最优电网定价。

作为优选技术手段：增强学习模型为：

M^BL＝<S,A,P,R>

式中：S表示状态集合，每个状态s∈S是由代理商和消费者的过去几轮行为决定的，具体表示当前时刻的电力价格，每个用户在过去一个单位时间T内的用电消耗量，每个生产者在过去一个单位时间T内的电力产出以及该时刻电网可靠性的状态；

A是行动集合，行动a_j表示当前状态下可选择操作，该操作决定了下一个状态的时间；

P是状态转移概率，指由状态s在执行行动a转变为s’的概率；

R是即时回报，指代理商在当前时隙内所获得的利润表示(收入-成本)；

模型目标：求解当前状态s下所要采取的最优行为a。

作为优选技术手段：在步骤4)中，回报函数：Rt＝销售价格*销售数量-生产价格*生产数量-不平衡惩罚系数+可靠性补偿系数，不平衡罚款系数是由于在[t-1,t]时刻之间销售数量与生产数量不等造成，可靠性补偿系数根据当前可靠性状态(高、中、低)进行相应的加权计算，可靠性状态包括高、中、低。

作为优选技术手段：状态转移概率P是未知的，其在现实环境下取样获得，并根据样本进行实时更新，当样本越多并且样本越多样化，则状态转移概率P越接近真实值。

作为优选技术手段：在步骤1)中，初始化Q值表为零，或者随机值，Q(s,a)＝0，其中s∈S，a∈A，或初始化Q值表为随机值；初始化E值表为零，E(s,a)＝0，其中s∈S，a∈A；初始的电费价格p₁根据实际情况拟定，或直接根据市场环境的现实情况观测得到；

在步骤2)中，观测现实中当前时刻T₁的状态，记为S₁；根据随机平均策略π，获取状态S₁下的行为A₁，并根据行为A₁调整相应的电价至p₂；

在步骤3)中，等待一个时间间隔T，T₁->T₂，获得[T₁,T₂]时刻内的销售电量Nc和生产电量Np，并根据T₂时刻的电网中电压负载状态获得可靠性估值，根据以上信息得出T₂时刻的状态S₂，若Nc>Np，则认为供应不足；若Nc<Np，则认为供应过量；若Nc＝Np，则认为供需平衡；若当前销售电价大于生产电价与边际利润之和，为定价合理；若当前销售电价小于生产电价与边际利润之和，为定价不合理；可靠性估值直接由电网设备运行情况给出；

在步骤4)中，计算[T1,T2]时刻之间产生的回报值R2＝Nc*Pc–Np*Pp–Ψ+δ，其中Nc为销售电量，Pc为销售电价，Np为生产电量，Pp为生产电价，Ψ为不平衡罚款系数，δ为可靠性补偿价格；其中Pc取值为步骤2)中根据行为A₁调整的价格p₂；

通过效用迹公式：

E₀(s,a)＝0

E_t(s,a)＝γλE_t-1(s,a)+1(S_t＝s),γ,λ∈[0,1]

更新E₁(S₁,A₁)的值；

根据TD误差迭代公式δ_t＝R_t+1+γ(Q(S_t+1,A_t+1)-Q(S_t,A_t))，计算T₁时刻的时序差分TD误差δ₁＝R₂+γ(Q(S₂,A₂)-Q(S₁,A₂))；

根据迭代公式Q(S,A)←Q(S,A)+αδ_tE_t(S,A)更新Q值表的Q(S₁,A₁)记录，Q(S₁,A₁)←Q(S₁,A₁)+αδ₁E₁(S₁,A₁)；

在步骤5)中，根据S₂的状态查询更新后的Q值表，采用∈-贪婪策略，如下：

选取S2状态下的行为A2，并根据选取的行为A2调整电费价格表；

在步骤6)中，每经过一个时间段T，重复步骤2)～5)；在采样过程中，一边采样一边迭代更新Q值表和E值表，经过有限次迭代过后，Q值表最终收敛至某一范围，即对于任意的状态s和行为a有Q_t+1(s,a)-Q_t(s,a)<ε，则说明Q值表已经收敛，从而得出最优策略。

作为优选技术手段：S＝{s1,s2,s3,……,s18}，其中：

s1<定价合理，供需平衡，低可靠性>；

s2<定价合理，供需平衡，中可靠性>；

s3<定价合理，供需平衡，高可靠性>；

s4<定价合理，供应不足，低可靠性>；

s5<定价合理，供应不足，中可靠性>；

s6<定价合理，供应不足，高可靠性>；

s7<定价合理，供应过量，低可靠性>；

s8<定价合理，供应过量，中可靠性>；

s9<定价合理，供应过量，高可靠性>；

s10<定价不合理，供需平衡，低可靠性>；

s11<定价不合理，供需平衡，中可靠性>；

s12<定价不合理，供需平衡，高可靠性>；

s13<定价不合理，供应不足，低可靠性>；

s14<定价不合理，供应不足，中可靠性>；

s15<定价不合理，供应不足，高可靠性>；

s16<定价不合理，供应过量，低可靠性>；

s17<定价不合理，供应过量，中可靠性>；

s18<定价不合理，供应过量，高可靠性>；

A＝{-0.9,-0.8,-0.7,-0.6,-0.5,-0.4,-0.3,-0.2,-0.1,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9}，其中负数代表降低价格，正数代表提升价格，数字绝对值的大小决定了价格降低或者提升的程度。

有益效果：本技术方案根据供需平衡、电网可靠性以及实时定价各方面的因素，基于强化学习的方法实现电网实时全面定价，解决可再生能源接入电网后导致的供需不平衡问题以及现有的电价未能反映市场需求以及用户可靠性需求问题，实现了售点公司利益最大化的同时又指导了用户的用电行为，并使得电网输入和流出的电量保持稳定提高用户用电可靠性。

附图说明

图1是本发明流程图。

具体实施方式

以下结合说明书附图对本发明的技术方案做进一步的详细说明。

如图1所示，本发明包括以下步骤：

步骤S1：定义增强学习模型中的状态空间，行为空间；

步骤S2：定义增强学习模型中回报函数的具体计算方法；

步骤S3：初始化Q值表(即状态行为对的价值表)和E值表(即记录状态行为对效用迹的价值表)，并设置初始电价；

步骤S4：智能代理在初始时刻观测当前时刻状态，并通过∈-贪婪策略选择相应的行为，对初始电价进行调整；

步骤S5：将步骤S4得到的行为反馈给电网售电市场环境，等待一个时间间隔T(可取值为15分钟，30分钟或1个小时)，返回环境信息(生产者产电数量，消费者耗电数量，电网可靠性水平)，并根据环境信息生成当前时刻状态；

步骤S6：利用环境反馈信息和上一个状态下拟定的电力价格信息计算当前时间的回报函数，得到即时回报R，并更新E值表和Q值表；

步骤S7：利用更新后的Q值表，采用∈-贪婪策略根据当前的状态选取新的行为，并调整电价；

步骤S8：每经过一个时间T，循环以上步骤S4-步骤S7，直到Q值表收敛到一定程度。

其中，增强学习模型如下：

M^BL＝<S,A,P,R>

P是状态转移概率，指由状态s在执行行动a转变为s’的概率；

模型目标：求解当前状态s下所要采取的最优行为a。

具体的，步骤S1包括：

模型中状态空间定义：S＝{s1,s2,s3,……,s18}

s1<定价合理，供需平衡，低可靠性>；

s2<定价合理，供需平衡，中可靠性>；

s3<定价合理，供需平衡，高可靠性>；

s4<定价合理，供应不足，低可靠性>；

s5<定价合理，供应不足，中可靠性>；

s6<定价合理，供应不足，高可靠性>；

s7<定价合理，供应过量，低可靠性>；

s8<定价合理，供应过量，中可靠性>；

s9<定价合理，供应过量，高可靠性>；

s10<定价不合理，供需平衡，低可靠性>；

s11<定价不合理，供需平衡，中可靠性>；

s12<定价不合理，供需平衡，高可靠性>；

s13<定价不合理，供应不足，低可靠性>；

s14<定价不合理，供应不足，中可靠性>；

s15<定价不合理，供应不足，高可靠性>；

s16<定价不合理，供应过量，低可靠性>；

s17<定价不合理，供应过量，中可靠性>；

s18<定价不合理，供应过量，高可靠性>；

模型中定义行为空间：

具体的，步骤S2包括：

模型中的回报函数定义为利润，即销售电量的收入减去电量的生产成本，如下：

Rt＝销售价格*销售数量-生产价格*生产数量-不平衡惩罚系数+可靠性补偿系数，不平衡罚款系数是由于在[t-1,t]时刻之间销售数量与生产数量不等造成，可靠性补偿系数根据当前可靠性状态(高、中、低)进行相应的加权计算。

模型中的状态转移概率矩阵P是未知的，需要代理机器人在现实环境下取样获得，并根据样本进行实时更新，理论上样本越多并且样本越多样化，评估的状态转移矩阵P越接近真实值。

具体的，步骤S3包括：

该技术利用Sarsa(λ)算法对Q值表进行求解，以及对效用迹E值表进行更新。

初始化Q值表为零(或者随机值)，Q(s,a)＝0，其中s∈S，a∈A。初始化E值表为零，E(s,a)＝0，其中s∈S，a∈A。根据实际情况拟定初始的电费价格p₁，该电费价格也可以直接根据市场环境的现实情况观测得到。

具体的，步骤S4包括：

智能代理开始代理时，观测现实中当前时刻(记为T₁)的状态，记为S₁。

根据随机平均策略π，获取状态S₁下的行为A₁，并根据行为A₁调整相应的电价至p₂。

具体的，步骤S5包括：

等待一个时间间隔T，T₁->T₂，获得[T₁,T₂]时刻内的销售电量Nc和生产电量Np，并根据T₂时刻的电网中电压负载状态获得可靠性估值(高、中、低)。根据以上信息得出T₂时刻的状态S₂：1.若Nc>Np->供应不足；Nc<Np->供应过量；Nc＝Np->供需平衡。2.若当前销售电价大于生产电价与边际利润之和，为定价合理；若当前销售电价小于生产电价与边际利润之和，为定价不合理。3.可靠性估值直接由电网设备运行情况给出。

具体的，步骤S6包括：

计算[T1,T2]时刻之间产生的回报值R2＝Nc*Pc–Np*Pp–Ψ+δ，其中Nc为销售电量，Pc为销售电价，Np为生产电量，Pp为生产电价，Ψ为不平衡罚款系数，δ为可靠性补偿价格。其中Pc取值应该为步骤S4中根据行为A₁调整的价格p₂。

通过效用迹公式：

E₀(s,a)＝0

E_t(s,a)＝γλE_t-1(s,a)+1(S_t＝s),γ,λ∈[0,1]

更新E₁(S₁,A₁)的值。

根据TD误差迭代公式δ_t＝R_t+1+γ(Q(S_t+1,A_t+1)-Q(S_t,A_t))，计算T₁时刻的TD误差δ₁＝R₂+γ(Q(S₂,A₂)-Q(S₁,A₂))。

根据迭代公式Q(S,A)←Q(S,A)+αδ_tE_t(S,A)更新Q值表的Q(S₁,A₁)记录，Q(S₁,A₁)←Q(S₁,A₁)+αδ₁E₁(S₁,A₁)。

具体的，步骤S7包括：

根据S₂的状态查询更新后的Q值表，采用∈-贪婪策略，如下：

选取S2状态下的行为A2，并根据选取的行为A2调整电费价格表。

具体的，步骤S8包括：

每经过一个时间段T，重复步骤S4-步骤S7。在采样过程中，一边采样一边迭代更新Q值表和E值表，经过有限次迭代过后，Q值表最终能够收敛至某一范围，即对于任意的状态s和行为a有Q_t+1(s,a)-Q_t(s,a)<ε，说明Q值表已经收敛，从而得出最优策略。

Sarsa(λ)后向传播的算法流程如下述算法所示：

附图1所示的一种基于增强学习的电网定价方法是本发明的具体实施例，已经体现出本发明实质性特点和进步，可根据实际的使用需要，在本发明的启示下，对其进行等同修改，均在本方案的保护范围之列。

Claims

1.一种基于增强学习的电网定价方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于增强学习的电网定价方法，其特征在于：增强学习模型为：

M^BL＝<S,A,P,R>

P是状态转移概率，指由状态s在执行行动a转变为s’的概率；

R是即时回报，指代理商在当前时隙内所获得的利润表示：收入-成本；

模型目标：求解当前状态s下所要采取的最优行为a。

3.根据权利要求2所述的一种基于增强学习的电网定价方法，其特征在于：在步骤4)中，回报函数：Rt＝销售价格*销售数量-生产价格*生产数量-不平衡惩罚系数+可靠性补偿系数，不平衡罚款系数是由于在[t-1,t]时刻之间销售数量与生产数量不等造成，可靠性补偿系数根据当前可靠性状态进行相应的加权计算，可靠性状态包括高、中、低。

4.根据权利要求3所述的一种基于增强学习的电网定价方法，其特征在于：状态转移概率P是未知的，其在现实环境下取样获得，并根据样本进行实时更新，当样本越多并且样本越多样化，则状态转移概率P越接近真实值。

5.根据权利要求4所述的一种基于增强学习的电网定价方法，其特征在于：

在步骤1)中，初始化Q值表为零，或者随机值，Q(s,a)＝0，其中s∈S，a∈A，或初始化Q值表为随机值；初始化E值表为零，E(s,a)＝0，其中s∈S，a∈A；初始的电费价格p₁根据实际情况拟定，或直接根据市场环境的现实情况观测得到；

通过效用迹公式：

E₀(s,a)＝0

E_t(s,a)＝γλE_t-1(s,a)+1(S_t＝s),γ,λ∈[0,1]

更新E₁(S₁,A₁)的值；

6.根据权利要求2所述的一种基于增强学习的电网定价方法，其特征在于：S＝{s1,s2,s3,……,s18}，其中：

s1<定价合理，供需平衡，低可靠性>；

s2<定价合理，供需平衡，中可靠性>；

s3<定价合理，供需平衡，高可靠性>；

s4<定价合理，供应不足，低可靠性>；

s5<定价合理，供应不足，中可靠性>；

s6<定价合理，供应不足，高可靠性>；

s7<定价合理，供应过量，低可靠性>；

s8<定价合理，供应过量，中可靠性>；

s9<定价合理，供应过量，高可靠性>；

s10<定价不合理，供需平衡，低可靠性>；

s11<定价不合理，供需平衡，中可靠性>；

s12<定价不合理，供需平衡，高可靠性>；

s13<定价不合理，供应不足，低可靠性>；

s14<定价不合理，供应不足，中可靠性>；

s15<定价不合理，供应不足，高可靠性>；

s16<定价不合理，供应过量，低可靠性>；

s17<定价不合理，供应过量，中可靠性>；

s18<定价不合理，供应过量，高可靠性>；