CN113191804A - 一种最优竞价策略求解方法 - Google Patents

一种最优竞价策略求解方法 Download PDF

Info

Publication number
CN113191804A
CN113191804A CN202110468471.5A CN202110468471A CN113191804A CN 113191804 A CN113191804 A CN 113191804A CN 202110468471 A CN202110468471 A CN 202110468471A CN 113191804 A CN113191804 A CN 113191804A
Authority
CN
China
Prior art keywords
user
strategy
population
bidding
evolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110468471.5A
Other languages
English (en)
Inventor
韩讴竹
丁涛
孙瑜歌
程兰芬
苏祥瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
CSG Electric Power Research Institute
Research Institute of Southern Power Grid Co Ltd
Original Assignee
Xian Jiaotong University
Research Institute of Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University, Research Institute of Southern Power Grid Co Ltd filed Critical Xian Jiaotong University
Priority to CN202110468471.5A priority Critical patent/CN113191804A/zh
Publication of CN113191804A publication Critical patent/CN113191804A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/08Auctions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本申请属于市场交易技术领域,特别是涉及一种最优竞价策略求解方法。传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解。本申请提供了一种最优竞价策略求解方法,针对参与需求侧竞价的用户提供DR资源最优竞价策略求解问题,建立了以消费者需求曲线为基础的用户参与DR收益模型。综合考虑用户参与市场的目标导向,提出了基于博弈主体有限理性的演化博弈模型;2)考虑市场信息的非完全性和主体决策的不确定性,为求解所建立的基于博弈主体有限理性的演化博弈模型,提出了一种基于Q学习与复合微分进化的最优竞价策略学习算法。建立了基于用户有限理性的演化博弈模型,帮助用户制定最优DR竞价策略。

Description

一种最优竞价策略求解方法
技术领域
本申请属于市场交易技术领域,特别是涉及一种最优竞价策略求解方法。
背景技术
需求响应(Demand Response,简称DR)即电力需求响应的简称,是指当电力批发市场价格升高或系统可靠性受威胁时,电力用户接收到供电方发出的诱导性减少负荷的直接补偿通知或者电力价格上升信号后,改变其固有的习惯用电模式,达到减少或者推移某时段的用电负荷而响应电力供应,从而保障电网稳定,并抑制电价上升的短期行为。它是需求侧管理(DSM)的解决方案之一。
DR技术作为电力市场的核心技术之一,是用以充分挖掘负荷侧资源,实现资源综合优化配置的重要手段。当电力批发价格急剧上升或系统的可靠性受到威胁时,通过DR技术来鼓励用户主动改变其能源消耗状况,以获得负荷削减量的经济补偿。随着负荷聚合商的发展,中小型用户也能通过负荷聚合商为枢纽参与到需求侧竞价中。这既能增加参与辅助服务市场的用户数量,又能降低参与DR的用户准入门槛。
需求侧竞价对于提升电力用户参与市场的积极性起着重要作用。考虑用户基于有限理性参与辅助服务市场竞价,为寻求最优竞价策略,演化博弈论成为国内外学者的研究热点问题。主要研究方法有通过联合演化算法以检测市场中的多重纳什均衡解,通过非对称演化博弈算法以获得稳定的演化均衡解等等。此外,由于强化学习算法在不确定性环境下面对信息的非完全性有着显著的决策能力。强化学习算法被广泛应用于电力市场的竞价策略制定。
但是传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解。
发明内容
1.要解决的技术问题
基于传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解的问题,本申请提供了一种最优竞价策略求解方法。
2.技术方案
为了达到上述的目的,本申请提供了一种最优竞价策略求解方法,所述方法包括如下步骤:步骤1):建立以消费者需求曲线为基础的用户参与需求响应收益模型;步骤2):根据所述用户参与需求响应收益模型,结合用户参与市场的目标导向,构建参与需求响应用户的优化模型;步骤3):基于有限理性的用户参与需求响应优化模型的博弈互动过程,构建基于有限理性的演化博弈模型,所述基于有限理性的演化博弈模型将各用户模拟为多个种群,并且不对博弈主体的决策进行外部干预;步骤4):将稳定演化策略建模为马尔科夫决策过程,将演化博弈模型结合Q学习与复合微分进化的最优竞价策略学习算法进行求解。
本申请提供的另一种实施方式为:所述步骤1)中所述需求响应收益模型为参与辅助服务市场提供需求响应资源用户的满意度目标、市场份额目标、经济补偿目标的数学模型。
本申请提供的另一种实施方式为:所述步骤3)中所述演化博弈模型包括市场信息的非完全性和主体决策的不确定性。
本申请提供的另一种实施方式为:所述步骤2)中优化模型为:
Figure BDA0003044930340000021
Figure BDA0003044930340000022
Figure BDA0003044930340000023
Figure BDA0003044930340000024
Figure BDA0003044930340000025
Figure BDA0003044930340000026
Figure BDA0003044930340000027
Figure BDA0003044930340000028
Figure BDA0003044930340000029
Figure BDA00030449303400000210
Figure BDA00030449303400000211
式中:Fn为用户n的总收益;
Figure BDA00030449303400000212
为用户n在DR时段t的弹性负荷量;
Figure BDA00030449303400000213
为LA在DR时段t发布的负荷削减量需求;
Figure BDA00030449303400000214
Figure BDA00030449303400000215
分别为用户n在DR时段t的最小用电量与最大用电量;
Figure BDA00030449303400000216
Figure BDA00030449303400000217
分别为用户n在时段t最小/最大的负荷转出量/负荷削减量;
Figure BDA00030449303400000218
为用户n在负荷谷时段τ的最大用电量;
Figure BDA00030449303400000219
为用户n在负荷谷时段τ允许的最大负荷转入量。
本申请提供的另一种实施方式为:所述演化博弈模型为:
Figure BDA00030449303400000220
Figure BDA00030449303400000221
Figure BDA00030449303400000222
式中:
Figure BDA00030449303400000223
为用户集合,在演化博弈过程中被模拟为生物种群,用户n对应于种群n;
Figure BDA00030449303400000224
为种群策略集合;
Figure BDA0003044930340000031
为种群收益集合;策略
Figure BDA0003044930340000032
为种群n在时段t的策略集合;
Figure BDA0003044930340000033
为种群n在DR时段t的收益集合。
本申请提供的另一种实施方式为:所述Q学习算法为:
Figure BDA0003044930340000034
Figure BDA0003044930340000035
Figure BDA0003044930340000036
式中:
Figure BDA0003044930340000037
为种群n在时段t的第m个策略;动作
Figure BDA0003044930340000038
为种群n在时段t的第q次学习选择策略
Figure BDA0003044930340000039
Figure BDA00030449303400000310
为对手在时段t的第q次学习采取动作的集合;
Figure BDA00030449303400000311
为种群n选取动作
Figure BDA00030449303400000312
对应的奖励值;
Figure BDA00030449303400000313
为种群n在时段t的第q次学习选择动作
Figure BDA00030449303400000314
对应的Q值;α为学习速率;γ为折扣因子;
Figure BDA00030449303400000315
为种群n依据Q值表在第(q+1)次学习选取最优动作预计获得的最大Q值回报。
本申请提供的另一种实施方式为:所述步骤4)中所述复合微分进化算法进行种群的个体适应度排序、复合微分进化、以及种群重构。
本申请提供的另一种实施方式为:所述复合微分进化算法结合所述演化博弈模型考虑竞价策略对应的竞标电量与竞标价格的非负性并计及个体变异差异性。
本申请提供的另一种实施方式为:所述变异差异性包括变异操作DE/best/1和DE/rand/1,所述变异操作DE/best/1和DE/rand/1为:
Figure BDA00030449303400000316
Figure BDA00030449303400000317
Figure BDA00030449303400000318
Figure BDA00030449303400000319
Figure BDA00030449303400000320
Figure BDA00030449303400000321
式中:e为演化次数;κ为变异缩放因子,有0<κ<1;
Figure BDA00030449303400000322
Figure BDA00030449303400000323
分别为在第(e+1)次演化,种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成策略;
Figure BDA00030449303400000324
Figure BDA00030449303400000325
分别为种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成竞标电量/竞标价格;
Figure BDA00030449303400000326
Figure BDA00030449303400000327
分别为在第e次演化,种群n在时段t的根据Q值表得到的最优竞标电量/竞标价格;
Figure BDA00030449303400000328
Figure BDA00030449303400000329
分别为在第e次演化,种群n在时段t的第m个竞标电量/竞标价格;
Figure BDA0003044930340000041
Figure BDA0003044930340000042
分别为在第e次演化,种群n在时段t互不相同的任意两个竞标电量/竞标价格。
本申请提供的另一种实施方式为:所述演化博弈模型包括复制者动态方程。
3.有益效果
与现有技术相比,本申请提供的一种最优竞价策略求解方法的有益效果在于:
本申请提供的最优竞价策略求解方法,涉及电力市场竞价领域,具体涉及一种基于有限理性的用户提供DR资源最优竞价策略的求解方法,对于帮助用户在非完全信息和不确定性主体决策的电力市场环境下确定竞价策略提供新思路。
本申请提供的最优竞价策略求解方法,建立了基于用户有限理性的演化博弈模型,帮助用户制定最优DR竞价策略,充分考虑市场信息的非完全性和主体决策的不确定性。
本申请提供的最优竞价策略求解方法,基于Q学习与复合微分进化的最优竞价策略学习算法。解决了传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解的问题。
附图说明
图1是本申请的参与DR竞价的用户在DR时段耗能情况示意图;
图2是本申请的参与DR竞价的用户在负荷谷时段耗能情况示意图;
图3是本申请的参与DR对DR时段需求曲线影响示意图;
图4是本申请的参与DR对负荷谷时段需求曲线影响示意图;
图5是本申请的基于Q学习与复合微分进化算法的演化稳定策略求解流程示意图;
图6是本申请的与采取固定策略的激进型对手博弈的收益及报价曲线示意图;
图7是本申请的与采取固定策略的保守型对手博弈的收益及报价曲线示意图;
图8是本申请的用户中标电量及竞标价格演化示意图;
图9是本申请的与采取演化策略对手博弈的收益及报价曲线示意图;
图10是本申请的参与DR对用户的用电量及收益影响示意图;
图11是本申请的θ=1时不同σ下用户收益各目标项占比示意图。
图12是本申请的θ=10时不同σ下用户收益各目标项占比示意图。
具体实施方式
在下文中,将参考附图对本申请的具体实施例进行详细地描述,依照这些详细的描述,所属领域技术人员能够清楚地理解本申请,并能够实施本申请。在不违背本申请原理的情况下,各个不同的实施例中的特征可以进行组合以获得新的实施方式,或者替代某些实施例中的某些特征,获得其它优选的实施方式。
参考图1~12,本申请提供一种最优竞价策略求解方法,所述方法包括如下步骤:步骤1):建立以消费者需求曲线为基础的用户参与需求响应收益模型;以刻画用户参与需求响应对于用户满意度的影响。步骤2):根据所述用户参与需求响应收益模型,结合用户参与市场的目标导向,构建参与需求响应用户的优化模型;步骤3):基于有限理性的用户参与需求响应优化模型的博弈互动过程,构建基于有限理性的演化博弈模型,所述基于有限理性的演化博弈模型将各用户模拟为多个种群,并且不对博弈主体的决策进行外部干预;基于有限理性考虑的演化博弈,充分考虑了信息的非完全性、主体决策的不确定性等因素对主体决策的影响,强调动态均衡过程。因此演化博弈可能更能有效刻画实际交易市场环境下各博弈主体的交易行为。步骤4):将稳定演化策略建模为马尔科夫决策过程,将演化博弈模型结合Q学习与复合微分进化的最优竞价策略学习算法进行求解。
针对参与需求侧竞价的用户提供DR(Demand Response)资源最优竞价策略求解问题,建立了以消费者需求曲线为基础的用户参与DR收益模型。
进一步地,所述步骤1)中所述需求响应收益模型为参与辅助服务市场提供需求响应资源用户的满意度目标、市场份额目标、经济补偿目标的数学模型。
用户参与DR各时段用电量与DR竞标电量模型表达如下:
Figure BDA0003044930340000051
Figure BDA0003044930340000052
Figure BDA0003044930340000053
式中:
Figure BDA0003044930340000054
为用户集合;
Figure BDA0003044930340000055
为DR时段集合;
Figure BDA0003044930340000056
为负荷谷时段集合;
Figure BDA0003044930340000057
Figure BDA0003044930340000058
分别为用户n参与DR在DR时段t和负荷谷时段τ的用电量;
Figure BDA0003044930340000059
Figure BDA00030449303400000519
分别为用户n不参与DR在DR时段t和负荷谷时段τ的用电量;
Figure BDA00030449303400000510
为用户n在DR时段t的DR竞标电量;
Figure BDA00030449303400000511
Figure BDA00030449303400000512
分别为用户n在DR时段t的负荷转出量与负荷削减量;
Figure BDA00030449303400000513
为用户n在负荷谷时段τ的负荷转入量。
用户满意度模型表达如下:
Figure BDA00030449303400000514
式中:
Figure BDA00030449303400000515
Figure BDA00030449303400000516
分别为用户n在DR时段t和负荷谷时段τ的满意度;
Figure BDA00030449303400000517
Figure BDA00030449303400000518
分别为用户n参与需求侧响应在DR时段t和负荷谷时段τ的非弹性负荷量;δDR和δv分别为在DR时段和负荷谷时段τ的电能价格。
用户参与DR的经济补偿模型表达如下:
Figure BDA0003044930340000061
式中:
Figure BDA0003044930340000062
为用户n在DR时段t获得的DR补偿;
Figure BDA0003044930340000063
为用户n在DR时段t发布的竞标价格;
Figure BDA0003044930340000064
为用户n在DR时段t的DR中标电量。
用户参与DR的效用模型表达如下:
Figure BDA0003044930340000065
式中:
Figure BDA0003044930340000066
Figure BDA0003044930340000067
分别为用户n在DR时段t和负荷谷时段τ的效用;σn为满意度权重因子,满足0<σn<1。
用户参与DR的收益模型表达如下:
Figure BDA0003044930340000068
式中:
Figure BDA0003044930340000069
Figure BDA00030449303400000610
分别为用户n在DR时段t和负荷谷时段τ的收益;ηn为效用偏好因子,满足0<ηn<1,反映了用户n对效用目标的偏好程度;θn为效用转换因子,表征用户n单位市场份额所对应的经济效益。
进一步地,所述步骤3)中所述演化博弈模型包括市场信息的非完全性和主体决策的不确定性。
进一步地,所述步骤2)中优化模型为:
Figure BDA0003044930340000071
Figure BDA0003044930340000072
Figure BDA0003044930340000073
Figure BDA0003044930340000074
Figure BDA0003044930340000075
Figure BDA0003044930340000076
Figure BDA0003044930340000077
Figure BDA0003044930340000078
Figure BDA0003044930340000079
Figure BDA00030449303400000710
Figure BDA00030449303400000711
式中:Fn为用户n的总收益;
Figure BDA00030449303400000712
为用户n在DR时段t的弹性负荷量;
Figure BDA00030449303400000713
为LA在DR时段t发布的负荷削减量需求;
Figure BDA00030449303400000714
Figure BDA00030449303400000715
分别为用户n在DR时段t的最小用电量与最大用电量;
Figure BDA00030449303400000716
Figure BDA00030449303400000717
分别为用户n在时段t最小/最大的负荷转出量/负荷削减量;
Figure BDA00030449303400000718
为用户n在负荷谷时段τ的最大用电量;
Figure BDA00030449303400000719
为用户n在负荷谷时段τ允许的最大负荷转入量。
进一步地,所述演化博弈模型为:
Figure BDA00030449303400000720
Figure BDA00030449303400000721
Figure BDA00030449303400000722
式中:
Figure BDA00030449303400000723
为用户集合,在演化博弈过程中被模拟为生物种群,用户n对应于种群n;
Figure BDA00030449303400000724
为种群策略集合;
Figure BDA00030449303400000725
为种群收益集合;策略
Figure BDA00030449303400000726
为种群n在时段t的策略集合;
Figure BDA00030449303400000727
为种群n在DR时段t的收益集合。
进一步地,所述Q学习算法为:
Figure BDA00030449303400000732
Figure BDA00030449303400000728
Figure BDA00030449303400000729
式中:
Figure BDA00030449303400000730
为种群n在时段t的第m个策略;动作
Figure BDA00030449303400000731
为种群n在时段t的第q次学习选择策略
Figure BDA0003044930340000081
Figure BDA0003044930340000082
为对手在时段t的第q次学习采取动作的集合;
Figure BDA0003044930340000083
为种群n选取动作
Figure BDA0003044930340000084
对应的奖励值;
Figure BDA0003044930340000085
为种群n在时段t的第q次学习选择动作
Figure BDA0003044930340000086
对应的Q值;α为学习速率;γ为折扣因子;
Figure BDA0003044930340000087
为种群n依据Q值表在第(q+1)次学习选取最优动作预计获得的最大Q值回报。
由于根据复制者动态方程,种群的进化方向只取决于个体的增长速度。因此,仅由复制者动态方程决定种群的演化进程无法对历史经验进行总结,不具备向对手策略进行学习的能力。为了学习总结对手策略以制定更优的竞价策略,本申请采用Q学习算法学习总结对手策略。
进一步地,所述步骤4)中所述复合微分进化算法进行种群的个体适应度排序、复合微分进化、以及种群重构。提升了种群多样性以及搜索精度。
进一步地,所述复合微分进化算法结合所述演化博弈模型考虑竞价策略对应的竞标电量与竞标价格的非负性并计及个体变异差异性。
进一步地,所述变异差异性包括变异操作DE/best/1和DE/rand/1,所述变异操作DE/best/1和DE/rand/1为:
Figure BDA0003044930340000088
Figure BDA0003044930340000089
Figure BDA00030449303400000810
Figure BDA00030449303400000811
Figure BDA00030449303400000812
Figure BDA00030449303400000813
式中:e为演化次数;κ为变异缩放因子,有0<κ<1;
Figure BDA00030449303400000814
Figure BDA00030449303400000815
分别为在第(e+1)次演化,种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成策略;
Figure BDA00030449303400000816
Figure BDA00030449303400000817
分别为种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成竞标电量/竞标价格;
Figure BDA00030449303400000818
Figure BDA00030449303400000819
分别为在第e次演化,种群n在时段t的根据Q值表得到的最优竞标电量/竞标价格;
Figure BDA00030449303400000820
Figure BDA00030449303400000821
分别为在第e次演化,种群n在时段t的第m个竞标电量/竞标价格;
Figure BDA00030449303400000822
Figure BDA00030449303400000823
分别为在第e次演化,种群n在时段t互不相同的任意两个竞标电量/竞标价格。
进一步地,所述演化博弈模型包括复制者动态方程。
复制者动态方程表达如下:
Figure BDA0003044930340000091
式中:
Figure BDA0003044930340000092
为策略集
Figure BDA0003044930340000093
的策略数集合;Xn.t为种群n在时段t的个体总数;un.m.t为种群n在时段t选择第m个策略的个体比例;Gmax为最大互动博弈次数;
Figure BDA0003044930340000094
为在时段t种群n在第g次迭代采用第m个策略的收益;fn.m.t为在时段t种群n中在第g次迭代采用第m个策略的适应度;
Figure BDA0003044930340000095
为种群n在时段t的平均适应度。
实施例
需求侧竞价对于提升电力用户参与市场的积极性起着重要作用。考虑用户基于有限理性参与辅助服务市场竞价,为寻求最优竞价策略,演化博弈论成为国内外学者的研究热点问题。传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解。本申请建立了基于用户有限理性的演化博弈模型,帮助用户制定最优DR(DemandResponse)竞价策略。充分考虑市场信息的非完全性和主体决策的不确定性,本申请提出了一种基于Q学习与复合微分进化的最优竞价策略学习算法。解决了传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解的问题。
用户参与需求响应模型
通过调整弹性负荷,中小型用户能够提供可靠的DR资源。但由于中小型用户的负荷规模有限,其难以达到市场的准入门槛。因此考虑利用负荷聚合商整合这类用户的DR资源,帮助他们参与辅助服务市场。图1、图2描绘了具有调节能力的用户在参与需求侧响应期间的能量消耗。当用户参与需求侧响应时,它通过减少弹性负荷来提供DR竞标电量。其中非弹性负荷是用户能量消耗的固定部分,与用户是否参与需求侧响应无关。因此,具有调节能力的用户参与DR各时段用电量与DR竞标电量模型表达如下:
Figure BDA0003044930340000096
Figure BDA0003044930340000097
Figure BDA0003044930340000098
式中:
Figure BDA0003044930340000099
为用户集合;
Figure BDA00030449303400000910
为DR时段集合;
Figure BDA00030449303400000911
为负荷谷时段集合;
Figure BDA00030449303400000912
Figure BDA00030449303400000913
分别为用户n参与DR在DR时段t和负荷谷时段τ的用电量;
Figure BDA0003044930340000101
Figure BDA0003044930340000102
分别为用户n不参与DR在DR时段t和负荷谷时段τ的用电量;
Figure BDA0003044930340000103
为用户n在DR时段t的DR竞标电量;
Figure BDA0003044930340000104
Figure BDA0003044930340000105
分别为用户n在DR时段t的负荷转出量与负荷削减量;
Figure BDA0003044930340000106
为用户n在负荷谷时段τ的负荷转入量。
市场消费剩余价值函数常用于表征用户的用能消费情况。在微观经济学中,常以消费者需求曲线来描述商品的价格与需求量的关系。消费者对于商品的需求量与商品价格呈现负相关。该规律表示为:
Figure BDA0003044930340000107
图3、图4描绘了用户参与需求侧响应对需求曲线的影响。当用户进行激励型需求响应时,在电价δDR下用户的负荷消耗量从
Figure BDA0003044930340000108
下降到
Figure BDA0003044930340000109
需求曲线左移。反之,考虑到可转移负荷的转入,需求曲线可能在负荷谷时段右移。图3、图4中的阴影区域反映了净消费者剩余,其面积大小代表了消费者的满意度。用户满意度模型表达如下:
Figure BDA00030449303400001010
式中:
Figure BDA00030449303400001011
Figure BDA00030449303400001012
分别为用户n在DR时段t和负荷谷时段τ的满意度;
Figure BDA00030449303400001013
Figure BDA00030449303400001014
分别为用户n参与需求侧响应在DR时段t和负荷谷时段τ的非弹性负荷量;δDR和δv分别为在DR时段和负荷谷时段τ的电能价格。
在DR时段,用户将负荷减少量以虚拟电厂发电量的形式出售给负荷聚合商从而获得DR经济补偿。用户参与DR的经济补偿模型表达如下:
Figure BDA00030449303400001015
式中:
Figure BDA00030449303400001016
为用户n在DR时段t获得的DR补偿;
Figure BDA00030449303400001017
为用户n在DR时段t发布的竞标价格;
Figure BDA00030449303400001018
为用户n在DR时段t的DR中标电量。
对于可转移负荷和可削减负荷,负荷实际运行时间以及实际运行功率的调整对于用户满意度会产生负效应。因此,用户需要综合考虑DR时段的满意度目标与经济补偿目标。而在负荷谷时段,用户效用仅由其满意度决定。用户参与DR的效用模型表达如下:
Figure BDA00030449303400001019
式中:
Figure BDA0003044930340000111
Figure BDA0003044930340000112
分别为用户n在DR时段t和负荷谷时段τ的效用;σn为满意度权重因子,满足0<σn<1。
考虑到用户基于有限理性参与辅助服务市场,在DR时段一些用户为抢占市场份额为追求自己的市场份额目标,愿意以牺牲部分效用为代价扩大其中标电量。考虑到用户的市场份额目标,用户参与DR的收益模型表达如下:
Figure BDA0003044930340000113
式中:
Figure BDA0003044930340000114
Figure BDA0003044930340000115
分别为用户n在DR时段t和负荷谷时段τ的收益;ηn为效用偏好因子,满足0<ηn<1,反映了用户n对效用目标的偏好程度;θn为效用转换因子,表征用户n单位市场份额所对应的经济效益。
在上述市场目标模型的基础上,考虑相应约束条件,构建参与DR用户的优化模型如下:
Figure BDA0003044930340000116
式中:Fn为用户n的总收益;
Figure BDA0003044930340000117
为用户n在DR时段t的弹性负荷量;
Figure BDA0003044930340000118
为LA在DR时段t发布的负荷削减量需求;
Figure BDA0003044930340000119
Figure BDA00030449303400001110
分别为用户n在DR时段t的最小用电量与最大用电量;
Figure BDA00030449303400001111
Figure BDA00030449303400001112
分别为用户n在时段t最小/最大的负荷转出量/负荷削减量;
Figure BDA00030449303400001113
为用户n在负荷谷时段τ的最大用电量;
Figure BDA00030449303400001114
为用户n在负荷谷时段τ允许的最大负荷转入量。
多策略集演化博弈模型
在基于有限理性的用户参与DR项目的演化博弈中,将各用户模拟为多个种群,并且不对博弈主体的决策进行外部干预。基于以上前提,针对基于有限理性的用户参与DR项目的博弈互动过程,构造基于有限理性的演化博弈模型ψ如下:
Figure BDA0003044930340000121
式中:
Figure BDA0003044930340000122
为用户集合,在演化博弈过程中被模拟为生物种群,用户n对应于种群n;
Figure BDA0003044930340000123
为种群策略集合;
Figure BDA0003044930340000124
为种群收益集合;策略
Figure BDA0003044930340000125
为种群n在时段t的策略集合;
Figure BDA0003044930340000126
为种群n在DR时段t的收益集合。
模型包括以下三个部分:
1)
Figure BDA0003044930340000127
为用户集合,在演化博弈过程中被模拟为生物种群,用户n对应于种群n。
2)
Figure BDA0003044930340000128
为种群策略集合。策略
Figure BDA0003044930340000129
为种群n在时段t的策略集合。记策略集
Figure BDA00030449303400001210
的策略数集合为
Figure BDA00030449303400001211
各种群随机产生
Figure BDA00030449303400001212
个竞价策略。各策略包括竞标电量和竞标价格,表示如下:
Figure BDA00030449303400001213
式中:
Figure BDA00030449303400001214
为种群n在时段t的第m个策略;
Figure BDA00030449303400001215
Figure BDA00030449303400001216
分别为种群n在时段t的第m个策略对应的竞标电量与竞标价格。
3)
Figure BDA00030449303400001217
为种群收益集合。种群n的收益函数集合表示如下:
Figure BDA00030449303400001218
式中:
Figure BDA00030449303400001219
为种群n在DR时段t的收益集合;
Figure BDA00030449303400001220
为在时段t种群n中的第m个策略对应的收益值。
在演化博弈过程中,在每次博弈结束后各主体将基于收益函数对博弈策略进行调整、进化。因此,各种群中各策略的采用比例随着演化博弈进程进行动态调整。演化博弈中的复制动态强调生物界中适者生存的选择机制,常用某一策略在该种群的采用比例的动态过程的复制者动态方程进行描述。记种群n在时段t采用策略
Figure BDA00030449303400001221
的个体数量为xn.m.t,则有:
Figure BDA0003044930340000131
式中:
Figure BDA0003044930340000132
为策略集
Figure BDA0003044930340000133
的策略数集合;Xn.t为种群n在时段t的个体总数;un.m.t为种群n在时段t选择第m个策略的个体比例;Gmax为最大互动博弈次数;
Figure BDA0003044930340000134
为在时段t种群n在第g次迭代采用第m个策略的收益;fn.m.t为在时段t种群n中在第g次迭代采用第m个策略的适应度;
Figure BDA0003044930340000135
为种群n在时段t的平均适应度。
复制者动态方程表示如下:
Figure BDA0003044930340000136
上式决定了选择相应策略个体的增长率。当
Figure BDA0003044930340000137
时,种群n中选择策略
Figure BDA0003044930340000138
的个体数量维持不变。满足
Figure BDA0003044930340000139
被称为复制动态方程的奇点。在演化博弈中,常通过求取复制动态方程的稳定奇点以寻求博弈的稳定演化策略。
推论1:考虑在(8)中定义的博弈ψ。当且仅当策略
Figure BDA00030449303400001310
满足以下条件时,策略
Figure BDA00030449303400001311
构成演化博弈的ESS:
对于
Figure BDA00030449303400001312
有θs∈(0,1),使得:
Figure BDA00030449303400001313
因此,当集合
Figure BDA00030449303400001314
中的所有博弈者都选择了其稳定演化策略时,没有用户能通过选择异于稳定演化策略
Figure BDA00030449303400001315
的其它策略来提高自身收益。
基于Q学习与复合微分进化的最优竞价策略学习算法
基于演化博弈的多代理Q学习算法
根据复制者动态方程,种群的演化方向仅由个体的增长率决定。因此,演化过程既不能积累历史经验,也不能学习对手策略。为解决上述问题,本申请将稳定演化策略建模为马尔科夫决策过程,将演化博弈理论结合Q学习算法以帮助用户制定更优的竞价策略。马尔科夫决策过程表示为
Figure BDA0003044930340000141
其中每个集合
Figure BDA0003044930340000142
中的用户对应一个代理;
Figure BDA0003044930340000143
为动作集合,有
Figure BDA0003044930340000144
Figure BDA0003044930340000145
Figure BDA0003044930340000146
为奖励集合,有
Figure BDA0003044930340000147
由于所有种群同时决策,不存在执行动作的顺序差异,因此演化博弈属于静态博弈,MDP中不存在状态量。由于复制者动态方程不仅衡量了个体适应度与群体平均适应度之间的差距,还反映了种群对策略的动态调整过程,因此构造基于复制者动态方程的奖励函数表示如下:
Figure BDA0003044930340000148
式中:动作
Figure BDA0003044930340000149
为种群n在时段t的第q次学习选择策略
Figure BDA00030449303400001410
为对手在时段t的第q次学习采取动作的集合;
Figure BDA00030449303400001411
为种群n选取动作
Figure BDA00030449303400001412
对应的奖励值。
Q学习算法中Q值表元素的求取及迭代过程表示如下:
Figure BDA00030449303400001413
式中:
Figure BDA00030449303400001414
为种群n在时段t的第q次学习选择动作
Figure BDA00030449303400001415
对应的Q值;α为学习速率;γ为折扣因子;
Figure BDA00030449303400001416
为种群n依据Q值表在第(q+1)次学习选取最优动作预计获得的最大Q值回报。
考虑到在实际求解过程中,若博弈主体仅依据最大化Q值选取策略很容易陷入局部最优。在保证Q学习算法迭代速度的前提下为避免算法陷入局部最优,需要保证一定的随机搜索概率。因此在Q学习中常采用ε-greedy策略,使博弈主体有一定几率选择非最大化Q值的行为。ε-greedy策略表示如下:
Figure BDA00030449303400001417
式中:
Figure BDA00030449303400001418
为种群n在第q次学习执行动作
Figure BDA00030449303400001419
的概率;ε为贪婪因子,有0<ε<1。
由于静态博弈解的一个重要概念是Nash均衡解,且已有文献证明演化稳定策略集合
Figure BDA00030449303400001420
一定是Nash均衡解集合
Figure BDA00030449303400001421
的子集。因此,采用Q学习算法的稳定演化策略集定义为:
Figure BDA00030449303400001422
结合Q学习的复合微分进化算法
由于本申请所采用的基于演化博弈的Q学习算法是在各种群初始随机生成策略个体的基础上进行的学习寻优。然而由于初始策略个体生成的随机性,利用Q学习算法在随机策略中获得的寻优结果与种群最理想的演化稳定策略可能存在一定差距。本申请采用复合微分进化算法以规避上述问题。复合微分进化算法通过进行种群的个体适应度排序、复合微分进化、以及种群重构的操作,平衡了传统微分进化算法算法在收敛速度与寻优深度之间的矛盾,同时确保了算法的寻优能力、种群多样性以及收敛速度。复合微分进化算法中的变异操作是微分进化算法的核心步骤,其中DE/best/1变异操作和DE/rand/1变异操作为最常用的变异方式。结合本申请的演化博弈模型,考虑竞价策略对应的竞标电量与竞标价格的非负性并计及个体变异差异性,DE/best/1和DE/rand/1变异表达式如下:
Figure BDA0003044930340000151
式中:e为演化次数;κ为变异缩放因子,有0<κ<1;
Figure BDA0003044930340000152
Figure BDA0003044930340000153
分别为在第(e+1)次演化,种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成策略;
Figure BDA0003044930340000154
Figure BDA0003044930340000155
分别为种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成竞标电量/竞标价格;
Figure BDA0003044930340000156
Figure BDA0003044930340000157
分别为在第e次演化,种群n在时段t的根据Q值表得到的最优竞标电量/竞标价格;
Figure BDA0003044930340000158
Figure BDA0003044930340000159
分别为在第e次演化,种群n在时段t的第m个竞标电量/竞标价格;
Figure BDA00030449303400001510
Figure BDA00030449303400001511
分别为在第e次演化,种群n在时段t的互不相同的任意两个竞标电量/竞标价格。
随着迭代次数的增加,陷入局部最优的概率逐渐减小。为保证算法的收敛速度,对贪婪因子ε和变异因子κ的动态调整表示如下:
Figure BDA00030449303400001512
式中:Emax为最大演化次数;εmax为最大贪婪因子;κmax为最大变异因子。
基于Q学习的复合微分进化算法的演化稳定策略求解流程图如图5所示。设Qfix为Q学习的次数。算法在DR时段内运行。在初始化Q学习参数和相应约束条件后,各种群随机生成其策略集。在博弈过程中,各种群随机选择一种策略,与其他种群进行竞争性竞标。重复上述过程,直至达到最大博弈次数Gmax。根据低价优先原则,各代理计算各种群的个体适应度、种群平均适应度和奖励。然后应用ε-greedy策略更新Q值表,直到达到Q学习次数Qfix。接着对各策略Q值进行排序,并根据DE/rand/1和DE/best/1将策略分为优势群体和劣势群体。重复上述过程,直至达到最大演化次数Emax。此时,具有最大Q值的策略为演化稳定策略。算法移动至下一个DR时段,并重复上述过程。
算例分析
为验证本申请所提竞价学习算法的有效性,在MATLAB 2016a环境下,利用本申请设计的基于Q学习与复合微分进化的最优竞价策略学习算法进行求解。系统硬件配置为i7-9700,CPU 3.00GHz,16.00GB内存,操作系统为Win10 64bit。本研究考虑一个包含1个LA和3个用户的辅助服务市场。全天分为24个时段,负荷聚合商发布的次日需求响应时段={10,12,20}。负荷聚合商在这三个DR时段发布的负荷削减量请求分别为1500kWh,2000kWh和3000kWh。由于本研究针对的是中小型用户,因此,本研究中参与需求侧响应竞价的用户负荷量为3-13MW。
参与DR竞价的用户按其竞价目标分为激进型用户和保守型用户。激进用户以市场份额最大化为目标,保守用户以效用最大化为目标。假定该市场中存在四种类型的对手:激进对手1(Radical Opponent 1,RO1)、激进对手2(Radical Opponent 2,RO2)、保守对手1(Conservative Opponent 1,CO1)和保守对手2(Conservative Opponent 1,CO2)。在博弈中,对手采取两种不同的策略:固定策略和演化策略。表1和表2分别给出了对手的固定竞标策略和竞标目标参数。当对手采用演化策略时,本申请设计算法生成以固定策略值为均值,竞标电量方差为100kWh,竞标价格方差为0.02¥/kWh符合正态分布的初始竞价策略。
算法的参数设置如下:各种群策略数M=100。最大博弈次数Gmax=100,Q学习固定次数Qfix=5,最大演化次数Emax=4。最大变异因子κmax=0.1,最大贪婪因子εmax=0.1,学习率α=0.01,折扣因子γ=0.9。对于所有博弈主体,需求价格弹性系数εn=-1。使用本申请算法的用户在不参与DR时的用能情况如表3所示,其目标参数分别为θ=1,σ=0.05和η=0.95。
表1对手的固定竞价策略
Figure BDA0003044930340000161
Figure BDA0003044930340000171
表2对手的竞标目标参数
Figure BDA0003044930340000172
表3用户不参与DR时的用能情况
Figure BDA0003044930340000173
与采取固定策略对手的博弈算例
在辅助服务市场中,使用本申请算法的用户与采取固定策略的激进型对手和保守型对手竞标提供DR资源。以第一个DR时段为例(即t=10),随着学习次数的增加,用户收益和竞标价格的演化过程如图6、图7所示。从图中可以看出,本申请算法能快速学习对手的竞价策略。由于用户的效用偏好系数η=0.95,满意度权重系数σ=0.05,这表明用户的主要竞价目标是最大化DR补偿。当竞标对手为激进型时,一旦代理总结出对手采取策略类型为低报价高报量,便给出更低的竞标价格以保证DR补偿收益。而当竞标对手为保守型时,一旦代理总结出对手采取策略类型为高报价低报量,则给出较高的价格以最大化DR补偿收益。图6、图7表明,为使DR补偿收益最大化,算法给出的竞标价格始终低于其他对手给出的价格,不断向对手所给价格的较低值逼近。为逼近全局最优解,本申请算法对初始生成策略采取变异操作生成新策略。由于复合微分进化算法变异方向的不确定性,变异新生成策略的收益值不能确保大于变异前策略的收益值,用户目标函数值出现轻微波动,但总体呈现上升趋势。
以竞标对手为激进型为例,图8展示了用户在所有DR时段的中标DR电量和竞标价格的演化过程。由于与激进型对手博弈时,本申请算法给出的竞标价格处于较低水平,因此应使得DR中标电量尽可能大,以最大化用户的DR补偿。从图中可以看出,本申请算法能够使得用户在各时段的DR中标电量趋近于负荷聚合商在相应时段发出的负荷削减量请求。
为了验证该算法的有效性,选取典型的初始策略如表4所示。RO1和RO2的竞标价格/竞标电量分别为0.16¥/kWh/2700kWh和0.12¥/kWh/3500kWh。以表中所给的前三种策略为例。对于策略1,其竞标价格高于其他所有博弈者所给价格。由于激进型对手给出的竞标电量较大,一旦激进型对手中标,其将占据全部市场份额。因此,采用策略1时,用户的DR中标电量和DR补偿收益始终为零,导致整个学习过程的Q值始终为负。对于策略2和策略3,其竞标价格低于其他所有博弈者所给价格,因此用户的DR补偿收益得以保证。由表4可知,策略2的竞标电量略高于策略3的竞标电量。但由于策略2的竞标价格明显低于策略3的价格,因此策略2对应的Q值更小。
表4用户典型初始策略
Figure BDA0003044930340000181
与采取演化策略对手的博弈算例
在辅助服务市场中,使用本申请算法的用户与采取演化策略的激进型对手竞标提供DR资源。采取演化策略的激进型对手以收益最大化为演化动力选取最优竞价策略。以第一个DR时段为例(即t=10),用户收益和竞标价格的演化过程如图9所示。在初始学习阶段,算法积累经验较少,因此用户收益较小且波动性较大。而随着学习次数的增加,用户积累了足够的经验,总结对手实质为市场份额激进型对手,倾向于采用低报价策略以最大化市场份额。因此,从图7可以看出在后续学习阶段,算法给出的竞标价格始终略低于对手价格,使得用户收益逐渐保持在较高水平。由此可见,本申请算法在处理对手决策的不确定性问题时具有良好的适应性。
图10展示了用户参与DR对其用电量和收益的影响。由图可知一方面,在DR时段(即t=10、12和18)有效地降低了用户的能耗,而在DR时段转出的负荷量也转入到了负荷低谷时段。因此,用户在各时段的能耗差异明显减小,且通过参与DR用户收益也得到了显著提高。由于用户满意度权重因子很小,具有很强的参与DR竞价的意愿,愿意以牺牲其满意度为代价参与DR竞价。因此,与负荷低谷时段的用户收益相比,DR时段的用户收益相对较少。
以第1个DR时段为例,不同的用户满意度权重因子σ和不同效用转换因子θ下的演化稳定策略和DR中标电量如表5所示。稳定演化策略对应收益的各目标项占比情况如图11、图12所示。当满意度权重因子很小时(例如σ=0.05),用户积极参与辅助服务市场竞价。面对市场激进型对手,算法不惜给出更低的竞标价格以保证DR补偿收益。然而,当满意度权重因子很大时(例如σ=0.95),此时用户的核心目标为最大化自身满意度。根据图2可知当用户实施DR后,用能—价格需求曲线左移,导致用户满意度显著降低。因此,对于满意度要求度较高的用户,为保证自身满意度,用户表现为不愿意进行负荷削减,缺乏参与辅助服务市场竞价动力。此外,由图9可以看出,效用转换因子很高(例如θ=10)的用户参与DR竞价更为积极。对于这些用户来说,中标的DR电量对应于很大的收益回报。因此,在与市场激进型对手博弈时,即使用户对满意度有着较高的要求(例如σ=0.75),算法仍不惜以损失满意度为代价,给出足够低的投标价格以使总收益最大化。
表5不同σ和θ下的演化稳定策略和DR中标电量
Figure BDA0003044930340000191
Figure BDA0003044930340000201
考虑到策略数量对计算时间的影响,表6给出了计算时间与生成策略数量的关系。为了更好地分析预生成策略的恰当数量,还考虑了用户收益与预生成策略数量之间的关系。由表6可以看出,随着策略数量的增加,计算时间也随之增加。在初始阶段,随着策略数目的增加,计算时间仅呈现略微增加。对于对手采用固定策略的博弈,当生成策略个数为10时,计算时间为0.499秒;而当生成策略个数增加十倍(即策略个数为100)时,计算时间仅增加1.172秒。最后,当生成策略个数达到1000时,计算时间增加到13.573秒,与生成策略个数为10时相比几乎变慢27倍了。然而,此时的用户收益并没有明显改善。因此,预先生成大量策略对于提高用户收益没有显著作用。因此,策略数量为50到100是一个较为恰当的预生成策略数量。
表6预生成策略数量对计算时间与用户收益的影响
Figure BDA0003044930340000202
采用本申请所提出求解方法的用户收益将保持在较高水平,验证了方法的可行性与有效性,并在此基础上分析了不同的用户满意度权重因子和不同效用转换因子对于用户参与辅助服务市场竞价动力的影响。
尽管在上文中参考特定的实施例对本申请进行了描述,但是所属领域技术人员应当理解,在本申请公开的原理和范围内,可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定,并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。

Claims (10)

1.一种最优竞价策略求解方法,其特征在于:所述方法包括如下步骤:
步骤1):建立以消费者需求曲线为基础的用户参与需求响应收益模型;
步骤2):根据所述用户参与需求响应收益模型,结合用户参与市场的目标导向,构建参与需求响应用户的优化模型;
步骤3):基于有限理性的用户参与需求响应优化模型的博弈互动过程,构建基于有限理性的演化博弈模型,所述基于有限理性的演化博弈模型将各用户模拟为多个种群,并且不对博弈主体的决策进行外部干预;
步骤4):将稳定演化策略建模为马尔科夫决策过程,将演化博弈模型结合Q学习与复合微分进化的最优竞价策略学习算法进行求解。
2.如权利要求1所述的最优竞价策略求解方法,其特征在于:所述步骤1)中所述需求响应收益模型为参与辅助服务市场提供需求响应资源用户的满意度目标、市场份额目标、经济补偿目标的数学模型。
3.如权利要求1所述的最优竞价策略求解方法,其特征在于:所述步骤3)中所述演化博弈模型包括市场信息的非完全性和主体决策的不确定性。
4.如权利要求1所述的最优竞价策略求解方法,其特征在于:所述步骤2)中优化模型为:
Figure FDA0003044930330000011
Figure FDA0003044930330000012
Figure FDA0003044930330000013
Figure FDA0003044930330000014
Figure FDA0003044930330000015
Figure FDA0003044930330000016
Figure FDA0003044930330000017
Figure FDA0003044930330000018
Figure FDA0003044930330000019
Figure FDA00030449303300000110
Figure FDA00030449303300000111
式中:Fn为用户n的总收益;
Figure FDA00030449303300000112
为用户n在DR时段t的弹性负荷量;Pt LA为LA在DR时段t发布的负荷削减量需求;
Figure FDA00030449303300000113
Figure FDA00030449303300000114
分别为用户n在DR时段t的最小用电量与最大用电量;
Figure FDA00030449303300000115
Figure FDA00030449303300000116
分别为用户n在时段t最小/最大的负荷转出量/负荷削减量;
Figure FDA0003044930330000021
为用户n在负荷谷时段τ的最大用电量;
Figure FDA0003044930330000022
为用户n在负荷谷时段τ允许的最大负荷转入量。
5.如权利要求3所述的最优竞价策略求解方法,其特征在于:所述演化博弈模型为:
Figure FDA0003044930330000023
Figure FDA0003044930330000024
Figure FDA0003044930330000025
式中:
Figure FDA0003044930330000026
为用户集合,在演化博弈过程中被模拟为生物种群,用户n对应于种群n;
Figure FDA0003044930330000027
为种群策略集合;
Figure FDA0003044930330000028
为种群收益集合;策略
Figure FDA0003044930330000029
为种群n在时段t的策略集合;
Figure FDA00030449303300000210
为种群n在DR时段t的收益集合。
6.如权利要求1所述的最优竞价策略求解方法,其特征在于:所述Q学习算法为:
Figure FDA00030449303300000211
Figure FDA00030449303300000212
Figure FDA00030449303300000213
式中:
Figure FDA00030449303300000214
为种群n在时段t的第m个策略;动作
Figure FDA00030449303300000215
为种群n在时段t的第q次学习选择策略
Figure FDA00030449303300000216
Figure FDA00030449303300000217
为对手在时段t的第q次学习采取动作的集合;
Figure FDA00030449303300000218
为种群n选取动作
Figure FDA00030449303300000219
对应的奖励值;
Figure FDA00030449303300000220
为种群n在时段t的第q次学习选择动作
Figure FDA00030449303300000221
对应的Q值;α为学习速率;γ为折扣因子;
Figure FDA00030449303300000222
为种群n依据Q值表在第(q+1)次学习选取最优动作预计获得的最大Q值回报。
7.如权利要求1所述的最优竞价策略求解方法,其特征在于:所述步骤4)中所述复合微分进化算法进行种群的个体适应度排序、复合微分进化、以及种群重构。
8.如权利要求7所述的最优竞价策略求解方法,其特征在于:所述复合微分进化算法结合所述演化博弈模型考虑竞价策略对应的竞标电量与竞标价格的非负性并计及个体变异差异性。
9.如权利要求8所述的最优竞价策略求解方法,其特征在于:所述变异差异性包括变异操作DE/best/1和DE/rand/1,所述变异操作DE/best/1和DE/rand/1为:
Figure FDA0003044930330000031
Figure FDA0003044930330000032
Figure FDA0003044930330000033
Figure FDA0003044930330000034
Figure FDA0003044930330000035
Figure FDA0003044930330000036
式中:e为演化次数;κ为变异缩放因子,有0<κ<1;
Figure FDA0003044930330000037
Figure FDA0003044930330000038
分别为在第(e+1)次演化,种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成策略;
Figure FDA0003044930330000039
Figure FDA00030449303300000310
分别为种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成竞标电量/竞标价格;
Figure FDA00030449303300000311
Figure FDA00030449303300000312
分别为在第e次演化,种群n在时段t的根据Q值表得到的最优竞标电量/竞标价格;
Figure FDA00030449303300000313
Figure FDA00030449303300000314
分别为在第e次演化,种群n在时段t的第m个竞标电量/竞标价格;
Figure FDA00030449303300000315
Figure FDA00030449303300000316
分别为在第e次演化,种群n在时段t互不相同的任意两个竞标电量/竞标价格。
10.如权利要求8所述的最优竞价策略求解方法,其特征在于:所述演化博弈模型包括复制者动态方程。
CN202110468471.5A 2021-04-28 2021-04-28 一种最优竞价策略求解方法 Pending CN113191804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110468471.5A CN113191804A (zh) 2021-04-28 2021-04-28 一种最优竞价策略求解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110468471.5A CN113191804A (zh) 2021-04-28 2021-04-28 一种最优竞价策略求解方法

Publications (1)

Publication Number Publication Date
CN113191804A true CN113191804A (zh) 2021-07-30

Family

ID=76980032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110468471.5A Pending CN113191804A (zh) 2021-04-28 2021-04-28 一种最优竞价策略求解方法

Country Status (1)

Country Link
CN (1) CN113191804A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627640A (zh) * 2022-01-21 2022-06-14 中国科学院深圳先进技术研究院 一种智能网联汽车行驶策略的动态演化方法
CN116070888A (zh) * 2023-04-06 2023-05-05 国网浙江省电力有限公司金华供电公司 基于决策树的虚拟电厂可调容量分析方法、装置及介质
CN116679614A (zh) * 2023-07-08 2023-09-01 四川大学 基于演化博弈的多特征刀具综合适配方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627640A (zh) * 2022-01-21 2022-06-14 中国科学院深圳先进技术研究院 一种智能网联汽车行驶策略的动态演化方法
CN114627640B (zh) * 2022-01-21 2023-07-28 中国科学院深圳先进技术研究院 一种智能网联汽车行驶策略的动态演化方法
CN116070888A (zh) * 2023-04-06 2023-05-05 国网浙江省电力有限公司金华供电公司 基于决策树的虚拟电厂可调容量分析方法、装置及介质
CN116679614A (zh) * 2023-07-08 2023-09-01 四川大学 基于演化博弈的多特征刀具综合适配方法
CN116679614B (zh) * 2023-07-08 2024-02-02 四川大学 基于演化博弈的多特征刀具综合适配方法

Similar Documents

Publication Publication Date Title
CN113191804A (zh) 一种最优竞价策略求解方法
Luo et al. Sustainable incentives for mobile crowdsensing: Auctions, lotteries, and trust and reputation systems
Urieli et al. Tactex'13: a champion adaptive power trading agent
Wang et al. Virtual power plant containing electric vehicles scheduling strategies based on deep reinforcement learning
Wang et al. An evolutionary game approach to analyzing bidding strategies in electricity markets with elastic demand
Raglend et al. Solution to profit based unit commitment problem using particle swarm optimization
Dvorkin Can merchant demand response affect investments in merchant energy storage?
Han et al. Evolutionary game based demand response bidding strategy for end-users using Q-learning and compound differential evolution
CN111682526A (zh) 一种基于合作博弈的虚拟电厂能量管理方法
CN108985897A (zh) 一种智能电网发电侧微分演化博弈竞价方法
Heidari et al. Equilibrium state of a price‐maker energy hub in a competitive market with price uncertainties
Zhang et al. Data-driven cooperative trading framework for a risk-constrained wind integrated power system considering market uncertainties
Gao et al. Distributed energy trading and scheduling among microgrids via multiagent reinforcement learning
Chuang et al. Deep reinforcement learning based pricing strategy of aggregators considering renewable energy
Brunekreeft A multiple-unit, multiple-period auction in the British electricity spot market
Anwar et al. Proximal policy optimization based reinforcement learning for joint bidding in energy and frequency regulation markets
Zhang et al. A reinforcement and imitation learning method for pricing strategy of electricity retailer with customers’ flexibility
Samadi et al. Stochastic demand response management using mixed-strategy Stackelberg game
CN111402015A (zh) 一种基于购售风险的虚拟电厂双层竞标方法及系统
Gao et al. Deep reinforcement learning based node pairing scheme in edge-chain for IoT applications
Zhu et al. Transmission loss-aware peer-to-peer energy trading in networked microgrids
Seok et al. An intelligent wind power plant coalition formation model achieving balanced market penetration growth and profit increase
Wu et al. Peer-to-peer energy trading optimization for community prosumers considering carbon cap-and-trade
Xu et al. Deep reinforcement learning for competitive DER pricing problem of virtual power plants
Chowdhury Autonomous trading strategies for dynamic energy markets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination