CN112465303A

CN112465303A - 考虑需求响应基于多代理的双边电力市场优化决策方法

Info

Publication number: CN112465303A
Application number: CN202011233077.5A
Authority: CN
Inventors: 姜子卿; 艾芊; 孙东磊; 李雪亮
Original assignee: Economic and Technological Research Institute of State Grid Shandong Electric Power Co Ltd; Shanghai Jiao Tong University
Current assignee: Economic and Technological Research Institute of State Grid Shandong Electric Power Co Ltd; Shanghai Jiao Tong University
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-03-09

Abstract

本发明公开了一种考虑需求响应基于多代理的双边电力市场优化决策方法，包括：发电商Agent确定报价策略，递交分段报价信息；零售商Agent进行负荷预测，递交购电投标信息；ISO根据收到的报价信息和购电投标信息，生成供给曲线和需求曲线，并调用出清算法，确定市场出清信息；各发电商Agent计算各自的发电成本和收益，根据Q学习算法完善决策；各零售商Agent计算购电成本，并确定零售电价；用户Agent向零售商Agent购电，根据实际情况和价格信号进行响应并调整用电计划；零售商Agent计算其收益，根据Q学习算法完善决策。本发明在双边电力市场机制下考虑了用户、零售商、发电商各方收益，优化了各方决策行为。

Description

考虑需求响应基于多代理的双边电力市场优化决策方法

技术领域

本发明涉及电力市场优化决策技术领域，尤其涉及一种考虑需求响应基于多代理的双边电力市场优化决策方法。

背景技术

电力市场改革是由传统的垂直一体化垄断经营引入竞争的过程。竞争的引入一般从发电侧开始，首先实行厂网分开，通过建立独立的发电企业与独立系统运营商(Independent System Operator,ISO)，发电企业以最大化收益为目标参与竞价，打破传统电网各发电机组按照统一计划发电的模式。

在仅有发电侧开放的电力市场中，价格形成机制不完善，电价长期保持不变或变化不明显，用户需求弹性很低或近乎为零。ISO只接受来自发电商的报价，而认定负荷需求为一定值，用户或负荷聚集商只能被动的接受市场价格。这种体制有诸多弊端，例如发电商可能合谋抬高电价，导致电价高于正常水平，从而攫取不正当利益；另外，为满足负荷的增长，只能不断增加装机容量，长期来看投资成本巨大。

对称电力市场是指发电侧和零售侧同时参与竞价的市场。此时，市场的出清价格由发电侧和零售侧共同决定，竞争机制更加完善，并有利于充分调动需求侧资源，发掘用户的响应潜力，使其积极响应市场价格的变化，从而确保电力市场更加高效的运行，最大化社会福利，并在紧急时刻实施紧急需求响应等以确保系统稳定运行。目前已有许多国家将需求响应(Demand Response,DR)项目纳入了电力市场框架中，如美国PJM电力市场的紧急需求响应项目和经济需求响应项目、德州电力市场ERCORT的自愿负荷响应以及负荷资源参与辅助服务等。

作为研究分布式系统的有效方法，基于多代理(Multi-agent)的计算经济学仿真在电力市场研究中得到了广泛应用。现有技术大多仅研究批发侧市场下的相关问题及发电商报价策略，并没有考虑售电侧放开的市场模式以及零售商的参与，也没有涉及用户需求响应。目前的研究较少考虑用户、零售商、发电商之间的交互以及用户在分时电价下的响应行为特性。

因此，本领域的技术人员致力于开发一种考虑需求响应的双边电力市场优化决策方法。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何在双边电力市场机制下考虑用户、零售商、发电商各方收益，优化各方决策行为。

为实现上述目的，本发明提供了一种考虑需求响应基于多代理的双边电力市场优化决策方法，所述方法包括以下步骤：

步骤1、参与报价的发电商Agent结合自身机组的参数和所知的市场信息，确定报价策略，并按照规定的格式递交分段报价信息，所述报价信息包括供电电量和供电价格；

步骤2、具有购电需求的零售商Agent结合其供电区域内用户的用电特性，进行负荷预测，按照规定格式递交自己的购电投标信息，所述购电投标信息包括购电投标电量和购电投标价格；

步骤3、ISO根据收到的所述报价信息和购电投标信息，生成供给曲线和需求曲线，并调用出清算法，确定市场出清信息，并发布给各发电商Agent和零售商Agent，所述市场出清信息包括市场出清价格、各发电商Agent和零售商Agent所得电量；

步骤4、各发电商Agent获知所述市场出清信息，计算各自的发电成本和收益，并根据Q学习算法完善决策，准备下一次竞价；

步骤5、各零售商Agent获知所述市场出清信息，计算购电成本，并确定零售电价；

步骤6、用户Agent向零售商Agent购电，并根据自己的实际情况和价格信号，进行响应并调整用电计划；

步骤7、零售商Agent计算其收益，并根据Q学习算法完善决策，准备下一次竞价。

进一步地，所述步骤2中所述购电投标价格根据导数跟踪法确定。

进一步地，所述步骤4中所述根据Q学习算法完善决策具体包括以下步骤：

步骤4.1、将市场总负荷和出清价格关联，构建成环境空间S；

步骤4.2、将可能的偏离发电成本的报价集合构建成可行域空间A；

步骤4.3、采用改进的Boltzmannε-greedy探索策略选择报价策略；

步骤4.4、选取市场出清后发电商获得的卖电收益作为即时回报，用于更新每个策略的Q值。

进一步地，所述步骤4.1具体包括：

将市场总负荷L∈[L_min,L_max]N等分，将出清电价ρ∈[0,ρ_max]M等分，其中L_min和L_max分别为系统最小和最大负荷，ρ_max为电力市场出清价格上限，将市场总负荷和出清价格关联，构建N*M环境空间S。

进一步地，所述步骤4.2中，所述可行域空间A为：

式中，A_min和A_max分别为策略系数的最小和最大限制，a为可选策略的数量；

所述发电成本用分段递增的阶梯形曲线表示为：

C＝{(c₁,q₁),(c₂,q₂),...,(c_b,q_b)}

式中，b为阶梯段数，c为价格，q为发电机组出力；

所述报价B_i(q_i)对于某一个确定的A_i用分段递增的阶梯形曲线表示为：

{(A_i·c₁,q₁),(A_i·c₂,q₂),...,(A_i·c_b,q_b)}。

进一步地，所述步骤4.3具体包括：

按照Boltzmann策略和greedy策略各选择一个策略a_r和a_p，随后生成一个随机数ε，若ε满足

则选取策略a_p，反之选取策略a_r，其中，

式中，Q_t(s,a)为第t轮竞价时各策略的Q值；s_t和a_t为第t轮竞价时所处状态和所选策略；p(a_i|s)为s状态下选择策略a_i的概率；T为退火系数，采用等比降温策略进行更新。

进一步地，所述步骤4.4中更新每个策略的Q具体为：

其中，r是即时回报；α是学习率；γ是未来收益的折扣系数。

进一步地，所述步骤7中所述根据Q学习算法完善决策具体包括以下步骤：

步骤7.1、将市场总负荷和购电价格关联，构建成环境空间S；

步骤7.2、将售电价格构建成可行域空间A；

步骤7.3、采用改进的Boltzmannε-greedy探索策略选择报价策略；

步骤7.4、选取市场出清后零售商获得的售电收益作为即时回报，用于更新每个策略的Q值。

进一步地，所述步骤6还包括用户Agent将用户满意度反馈至零售商Agent，若所述用户满意度小于满意度阈值，零售商Agent根据所述用户满意度降低零售电价水平。

进一步地，所述用户满意度为用电方式满意度和电费支出满意度的加权和。

本发明的有益效果：

1)本发明考虑了用户可变的负荷对电力市场价格带来的影响，更加符合电力市场实际情况，可以真实反映市场价格的出清。

2)改进Q学习(Q-learning)算法的Agent决策模型，比常规基于Q-Learning的决策模型更能有效反映用户的决策行为，且能更快的达到收敛。

3)本发明在用户可变负荷基础上，考虑用户对分时电价的响应行为，可以量化用户的需求响应量和行为对市场价格的影响。

附图说明

图1是本发明的一个较佳实施例的多代理的决策优化系统原理框图；

图2是本发明的一个较佳实施例的供给曲线和需求曲线的均衡；

图3是本发明的一个较佳实施例的电力市场决策优化的流程图；

图4是本发明的一个较佳实施例的发电商Agent决策优化的流程图；

图5是本发明的一个较佳实施例的用户用电响应特性曲线。

具体实施方式

以下参考说明书附图介绍本发明的优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

本申请的一个实施例提供了一种基于多代理的决策优化方法，对双边电力市场机制下的出清价格及各方收益进行了研究，并考虑了用户的分时电价响应行为对市场的影响。其给出了日前双边市场的交易、出清机制和决策优化流程；对发电商Agent(GA)、零售商Agent(RA)的决策行为进行了建模，包括以Q学习(Q-learning)算法和改进的Boltzmannε-greedy探索策略描述发电商Agent的报价行为，以导数跟踪法描述零售商Agent的售电行为。还考虑分时电价响应特性和用户满意度，对用户Agent(CA)的决策行为进行了建模。

本实施例构建的多代理的决策优化系统如图1所示。

一、对称电力市场交易机制

日前市场采用电力库的形式，并采用分时竞价机制。在双边市场中，参与交易的Agent类型除了发电商、ISO之外，还应包括零售商和用户。负荷预测工作不再由ISO统一进行，而是由各区域零售商自行负责，负荷预测的精度直接影响其投标和收益。

在日前电力市场中，市场运营商ISO规定一个报价截止时刻，发电商提前一天在该时刻之前递交报价，投标中需标明供电量与对应价格。发电报价按照从低到高的顺序排列，可以得到表示价格和累计数量关系的函数曲线，即市场的供给曲线。同样的，要求零售商也提交包含量价信息的投标，并按照从高到低的顺序进行排列，即为市场的需求曲线。其中零售商一般是以负荷聚集商或者虚拟电厂的形式进行投标。

供给曲线与需求曲线的交点即为市场的均衡点(如图2所示)，所有价格低于或等于均衡点价格(即市场出清价)的报价都会被接受。如果所有的成交电量都以市场出清价结算，称为“统一价格支付”；若按照发电商各自递交的报价结算，称为“按报价支付”。在双边机制下，出清价格由发电侧和零售侧共同决定，发电侧报价过高或零售侧报价过低都会导致其盈利减少或用电需求得不到满足，因此能够有效的抑制电价的不正常抬升。

二、价格出清

实际的电力市场在确定出清价格时，需要考虑系统安全运行约束，如线路最大潮流约束、机组最小启停时间约束等。目前常见的电力市场出清方法有排队法、动态规划法、线性规划法等。本实施例采用多时段竞价的线性规划法进行求解。

在仅开放发电市场的条件下，价格出清的目标函数是购电费用最低，如式(1)；而在发、输、配电市场全面开放的条件下，目标函数是社会效益最高，取供求曲线的交点作为统一出清价格，如图2所示。

式中，H为一天的总时段数，Ng为发电商数量，P_G(i,h)为发电商i竞价所得发电量，ρ(h)为出清电价。

价格出清时需要考虑的约束条件包括负荷平衡约束、机组最大最小出力约束、机组最小启停时间约束、机组爬坡率约束和系统网架约束等。

三、决策优化流程

电力市场决策优化的流程图如3所示，具体如下：

1)参与报价的发电商Agent结合自身机组的参数和所知的市场信息，通过一定算法确定报价策略，并按照规定的格式递交分段报价。

2)具有购电需求的零售商Agent结合其供电区域内用户的用电特性，进行负荷预测，按照规定格式递交自己的购电投标，包括电量和价格。

3)ISO根据收到的报价信息，生成供求曲线，并调用出清算法，确定市场出清价格、各参与者所得电量等，并发布给市场参与者。

4)各发电商Agent获知市场出清信息，计算各自的发电成本和收益，并根据Q学习算法完善自己的决策，准备下一次竞价。

5)各零售商Agent获知市场出清信息，计算购电成本，并确定电力零售价。

6)用户Agent向零售商Agent购电，并根据自己的实际情况和价格信号，进行响应并调整用电计划。

7)零售商Agent计算其收益，并根据Q学习算法完善决策，准备下一次竞价。

四、发电商Agent模型

发电商Agent采用基于边际成本的竞价策略，其模型主要包括发电成本计算，报价策略的选择以及学习算法。电力拍卖市场是典型的重复博弈，适合采用随机选择报价的方法。本实施例应用Q学习(Q-learning)算法来模拟发电商Agent的学习能力，并采用改进的Boltzmannε-greedy探索策略进行决策。具体如下：

应用Q-learning算法首先要构建环境-可行域(S-A)空间。本实施例将市场总负荷L∈[L_min,L_max]N等分，将出清电价ρ∈[0,ρ_max]M等分，其中L_min和L_max分别为系统最小和最大负荷(保留一定裕度)，ρ_max为市场价格帽子。将2个变量关联考虑，则环境空间S共包含N*M种状态。

设发电机的发电成本函数可以用分段递增的阶梯形曲线表示。设成本曲线的段数为b，c为价格，q为发电机出力，则分段发电成本可以表示为：

C＝{(c₁,q₁),(c₂,q₂),...,(c_b,q_b)} (2)

机组采用基于成本的方法进行报价，其可行域空间A即为可能的偏离成本的报价集合，设可选策略的数量为a，则第i个策略可表示为：

其中，A_min和A_max分别为策略系数的最小和最大限制；若A_min＝0，表示按成本报价。

发电商i的报价函数B_i(q_i)也是阶梯段数为b的分段曲线，对于某一个确定的A_i，可以表示为

{(A_i·c₁,q₁),(A_i·c₂,q₂),...,(A_i·c_b,q_b)} (4)

采用改进的Boltzmannε-greedy探索策略选择报价策略。首先按照Boltzmann策略和greedy策略各选择一个策略a_r和a_p，分别如式(5)、(6)。随后生成一个随机数ε，若ε满足式(7)则选取策略a_p，反之选取策略a_r。

其中，Q_t(s,a)为第t轮竞价时各策略的Q值；s_t和a_t为第t轮竞价时所处状态和所选策略；p(a_i|s)为s状态下选择策略a_i的概率；T为退火系数，采用等比降温策略进行更新。

选取市场出清后该发电商获得的卖电收益(即)作为即时回报r，用于更新每个策略的Q_t(s,a)，如式(8)。

其中，α是学习率；γ是未来收益的折扣系数。

随着仿真博弈的不断进行和Q值的不断更新，Q_t(s,a)将以概率1收敛于最优策略，即达到一个均衡策略。完整的发电商Agent决策过程如图4所示。

五、零售商Agent模型

在对称电力市场中，零售商可以看成多个用户的聚合体，它负责一定区域内用户电能的供应，这种聚合的方式更有利于实现用户利益的最大化。

零售商本身一般不具备大型投资成本，因此其准入门槛较低，数量也最多。数量众多的零售商能够增加市场的竞争度，一般来说任何一个零售商都不可能占有绝对大部分市场，也就不可能操纵市场价格形成垄断，市场运行的效率得以提高。

零售商的总购电成本C_pur包括发电侧成本和输配电成本，如式(9)。

C_pur＝C_gen+C_tran+C_cong (9)

其中，C_gen为发电侧购电成本；C_tran为购买电能的输配电损耗成本，与所购电量和系统潮流有关；C_cong为配电网发生时产生的阻塞成本。

零售商Agent的决策目标是使其盈利最大。零售商Agent与发电商Agent模型的不同之处在于，其不仅需要向ISO递交购电投标，还需要确定电能的零售价格，因此其决策环节包括两部分，确定购电价格和售电价格。本实施例采用导数跟踪法确定零售商Agent购电价格；仍采用随机重复报价法和Q-learning算法确定售电价格。

零售商承担着用户的供电工作，如果无法购得用户所需电量会使用户满意度降低，进而选择其他零售商，因此零售商Agent的首要目标是满足用户的用电需求，并在此基础上赚取差价。

导数跟踪法的大致思想为：每一回合，零售商将会对其报价做出一个微小的上下调整；如果零售商当前的报价不能使其购买到用户所需的电量，则零售商会在下一回合投标时增加自己的报价，以求购得所需电量，反之则会尝试逐步降低自己愿意支付的价格；在满足购电量的基础上，如果上一回合的价格调整使零售商的收益增加，那么本回合的价格将按照上一回合调整的方向进行调整，反之则向相反的方向调整。

假设本回合零售商投标的购电价格为ρ_t，价格调整为Δ_t，则下一回合的投标为

ρ_t+1＝ρ_t+Δ_t+1 (10)

0≤q_pur≤q_exp (12)

其中q_pur为购得电量，q_exp为用户所需电量，α、β是相关系数，与Δ_t的变化速率有关。Δ_t不是固定值，而是与已购电量和所需电量的差值有关，每一回合都不相同。

零售商购得所需电量之后，计算C_pur，并在其基础上加收一定的费用，将电能卖给用户。其零售价格为：

p_sell＝C_pur+p_ser (13)

0≤p_ser≤p_max-C_pur (14)

其中，p_max为零售电价的最大值；p_ser由零售商通过随机重复报价和Q-Learning算法确定。考虑到通过导数跟踪法确定的购电价格是变化量，而对于不同的购电价格，零售商Agent制定的售电价格可能是不同的，因此将市场总负荷L和购电价格C_pur作为Q-Learning算法的状态空间S。将市场总负荷L∈[L_min,L_max]N等分，将购电电价C_pur∈[0,ρ_max]M等分，其中L_min和L_max分别为系统最小和最大负荷(保留一定裕度)，ρ_max为市场价格帽子。将2个变量关联考虑，则环境空间S共包含N*M种状态。

将售电价格p_ser作为策略空间A，即

P_ser＝{p_ser,0,p_ser,1,p_ser,2,...,p_ser,m} (15)

m为可选策略数量；P_ser,0＝0，p_ser,m＝p_max-C_pur。

采用改进的Boltzmannε-greedy探索策略选择定价策略。首先按照Boltzmann策略和greedy策略各选择一个策略a_r和a_p，分别如前述式(5)、(6)。随后生成一个随机数ε，若ε满足式(7)则选取策略a_p，反之选取策略a_r。

选取市场出清后该零售商获得的售电收益(即)作为即时回报r，用于更新每个策略的Q_t(s,a)，如前述式(8)。

六、考虑分时电价响应的用户Agent模型

用户在电力市场中扮演着终端消费者的角色。以往用户只能被动的接受市场电价；然而随着售电侧市场的放开，电力的零售价格变得更加灵活，用户可以通过对价格信号(如分时电价、尖峰电价)的响应，改变自己的用电计划，或者削减某些时刻负荷量，以最小化自身的用电支出，同时也能在一定程度上影响市场价格。电力系统的管理者也可以通过制定需求响应项目，与用户签订合同，对需求侧资源进行调度，以保障电力系统的稳定高效运行。

用户Agent的决策目标是在保证用电需求的基础上使支出最少。本实施例利用消费者心理学理论对分时电价机制下用户Agent的响应特性进行建模与分析。

电力用户的电能需求量受价格变化的影响大致可以抽象为如图5所示的曲线。价格的刺激有一个阈值，对应图中A点，用户对低于该阈值的价格变化量基本上无响应或响应非常小，该段称为响应死区；当价格变化超过阈值后，用户将开始根据电价的变化改变自己的负荷计划，大致可以近似为线性关系，该段称为正常响应区；当价格变化量大于一定值时，用户的响应能力达到极限，该段称为饱和区，反映了电力一定程度上的刚性需求。由此，用户响应特性曲线主要由死区阈值(A)、线性区斜率(K)和饱和区阈值(B)决定。用户可以分为商业用户、工业用户和家庭用户三类。对于不同类型的用户Agent，上述三个参数也有所不同，反映出不同个体间的差异。

分时电价实施后，负荷从高电价时段向低电价时段转移的负荷量与高电价时段负荷量的比值，称为负荷转移率。以峰谷时段的负荷转移为例，用户的负荷转移率可以表示为如下的函数关系：

其中，μ_pv为峰谷时段的负荷转移率，Δp_pv为峰谷电价差，a_pv为刺激阈值，b_pv为饱和区阈值，

为响应的最大限度，k_pv为响应区的斜率。

同理，峰平时段转移率μ_pf，平谷时段转移率μ_fv可以用相同的函数关系来表示。

假设从某时段转移出的电量和转移到某时段的电量按时间平均分配，则经过转移后的用户峰谷时段负荷可用式(17)表示。

T_p、T_f、T_v分别表示峰时段、平时段、谷时段，h为其中的任一时段；L₀(h)、L_tou(h)分别为分时电价(TOU)实施前和实施后h时段的负荷量；

分别为未实施TOU时，峰、平时段总负荷在对应时段内的平均值。

用户接受分时电价并调整自身的用电计划，其用电满意度也会产生变化。用户满意度是零售商在制定零售价时需要重点考虑的因素，满意度过低会导致客户流失。本文分别从用电方式满意度和电费支出满意度两个方面来衡量用户总体满意度，并对零售商形成反馈。

用电方式满意度用于表征用户的用电习惯与原来相比改变的程度，如式(18)。

电费支出满意度用于表征用户由于响应分时电价而造成的成本降低的程度，如式(19)。

用户总体满意度θ为两者的加权和，如式(20)；若满意度小于一定值θ′，表示用户满意度较差，则零售商Agent将会根据反馈降低零售电价水平。

θ＝λ₁θ₁+λ₂θ₂,λ₁+λ₂＝1 (20)

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。