CN113191804A - 一种最优竞价策略求解方法 - Google Patents
一种最优竞价策略求解方法 Download PDFInfo
- Publication number
- CN113191804A CN113191804A CN202110468471.5A CN202110468471A CN113191804A CN 113191804 A CN113191804 A CN 113191804A CN 202110468471 A CN202110468471 A CN 202110468471A CN 113191804 A CN113191804 A CN 113191804A
- Authority
- CN
- China
- Prior art keywords
- user
- strategy
- population
- bidding
- evolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/042—Backward inferencing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
本申请属于市场交易技术领域,特别是涉及一种最优竞价策略求解方法。传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解。本申请提供了一种最优竞价策略求解方法,针对参与需求侧竞价的用户提供DR资源最优竞价策略求解问题,建立了以消费者需求曲线为基础的用户参与DR收益模型。综合考虑用户参与市场的目标导向,提出了基于博弈主体有限理性的演化博弈模型;2)考虑市场信息的非完全性和主体决策的不确定性,为求解所建立的基于博弈主体有限理性的演化博弈模型,提出了一种基于Q学习与复合微分进化的最优竞价策略学习算法。建立了基于用户有限理性的演化博弈模型,帮助用户制定最优DR竞价策略。
Description
技术领域
本申请属于市场交易技术领域,特别是涉及一种最优竞价策略求解方法。
背景技术
需求响应(Demand Response,简称DR)即电力需求响应的简称,是指当电力批发市场价格升高或系统可靠性受威胁时,电力用户接收到供电方发出的诱导性减少负荷的直接补偿通知或者电力价格上升信号后,改变其固有的习惯用电模式,达到减少或者推移某时段的用电负荷而响应电力供应,从而保障电网稳定,并抑制电价上升的短期行为。它是需求侧管理(DSM)的解决方案之一。
DR技术作为电力市场的核心技术之一,是用以充分挖掘负荷侧资源,实现资源综合优化配置的重要手段。当电力批发价格急剧上升或系统的可靠性受到威胁时,通过DR技术来鼓励用户主动改变其能源消耗状况,以获得负荷削减量的经济补偿。随着负荷聚合商的发展,中小型用户也能通过负荷聚合商为枢纽参与到需求侧竞价中。这既能增加参与辅助服务市场的用户数量,又能降低参与DR的用户准入门槛。
需求侧竞价对于提升电力用户参与市场的积极性起着重要作用。考虑用户基于有限理性参与辅助服务市场竞价,为寻求最优竞价策略,演化博弈论成为国内外学者的研究热点问题。主要研究方法有通过联合演化算法以检测市场中的多重纳什均衡解,通过非对称演化博弈算法以获得稳定的演化均衡解等等。此外,由于强化学习算法在不确定性环境下面对信息的非完全性有着显著的决策能力。强化学习算法被广泛应用于电力市场的竞价策略制定。
但是传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解。
发明内容
1.要解决的技术问题
基于传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解的问题,本申请提供了一种最优竞价策略求解方法。
2.技术方案
为了达到上述的目的,本申请提供了一种最优竞价策略求解方法,所述方法包括如下步骤:步骤1):建立以消费者需求曲线为基础的用户参与需求响应收益模型;步骤2):根据所述用户参与需求响应收益模型,结合用户参与市场的目标导向,构建参与需求响应用户的优化模型;步骤3):基于有限理性的用户参与需求响应优化模型的博弈互动过程,构建基于有限理性的演化博弈模型,所述基于有限理性的演化博弈模型将各用户模拟为多个种群,并且不对博弈主体的决策进行外部干预;步骤4):将稳定演化策略建模为马尔科夫决策过程,将演化博弈模型结合Q学习与复合微分进化的最优竞价策略学习算法进行求解。
本申请提供的另一种实施方式为:所述步骤1)中所述需求响应收益模型为参与辅助服务市场提供需求响应资源用户的满意度目标、市场份额目标、经济补偿目标的数学模型。
本申请提供的另一种实施方式为:所述步骤3)中所述演化博弈模型包括市场信息的非完全性和主体决策的不确定性。
本申请提供的另一种实施方式为:所述步骤2)中优化模型为:
式中:Fn为用户n的总收益;为用户n在DR时段t的弹性负荷量;为LA在DR时段t发布的负荷削减量需求;和分别为用户n在DR时段t的最小用电量与最大用电量;和分别为用户n在时段t最小/最大的负荷转出量/负荷削减量;为用户n在负荷谷时段τ的最大用电量;为用户n在负荷谷时段τ允许的最大负荷转入量。
本申请提供的另一种实施方式为:所述演化博弈模型为:
本申请提供的另一种实施方式为:所述Q学习算法为:
式中:为种群n在时段t的第m个策略;动作为种群n在时段t的第q次学习选择策略 为对手在时段t的第q次学习采取动作的集合;为种群n选取动作对应的奖励值;为种群n在时段t的第q次学习选择动作对应的Q值;α为学习速率;γ为折扣因子;为种群n依据Q值表在第(q+1)次学习选取最优动作预计获得的最大Q值回报。
本申请提供的另一种实施方式为:所述步骤4)中所述复合微分进化算法进行种群的个体适应度排序、复合微分进化、以及种群重构。
本申请提供的另一种实施方式为:所述复合微分进化算法结合所述演化博弈模型考虑竞价策略对应的竞标电量与竞标价格的非负性并计及个体变异差异性。
本申请提供的另一种实施方式为:所述变异差异性包括变异操作DE/best/1和DE/rand/1,所述变异操作DE/best/1和DE/rand/1为:
式中:e为演化次数;κ为变异缩放因子,有0<κ<1;和分别为在第(e+1)次演化,种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成策略;和分别为种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成竞标电量/竞标价格;和分别为在第e次演化,种群n在时段t的根据Q值表得到的最优竞标电量/竞标价格;和分别为在第e次演化,种群n在时段t的第m个竞标电量/竞标价格;和分别为在第e次演化,种群n在时段t互不相同的任意两个竞标电量/竞标价格。
本申请提供的另一种实施方式为:所述演化博弈模型包括复制者动态方程。
3.有益效果
与现有技术相比,本申请提供的一种最优竞价策略求解方法的有益效果在于:
本申请提供的最优竞价策略求解方法,涉及电力市场竞价领域,具体涉及一种基于有限理性的用户提供DR资源最优竞价策略的求解方法,对于帮助用户在非完全信息和不确定性主体决策的电力市场环境下确定竞价策略提供新思路。
本申请提供的最优竞价策略求解方法,建立了基于用户有限理性的演化博弈模型,帮助用户制定最优DR竞价策略,充分考虑市场信息的非完全性和主体决策的不确定性。
本申请提供的最优竞价策略求解方法,基于Q学习与复合微分进化的最优竞价策略学习算法。解决了传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解的问题。
附图说明
图1是本申请的参与DR竞价的用户在DR时段耗能情况示意图;
图2是本申请的参与DR竞价的用户在负荷谷时段耗能情况示意图;
图3是本申请的参与DR对DR时段需求曲线影响示意图;
图4是本申请的参与DR对负荷谷时段需求曲线影响示意图;
图5是本申请的基于Q学习与复合微分进化算法的演化稳定策略求解流程示意图;
图6是本申请的与采取固定策略的激进型对手博弈的收益及报价曲线示意图;
图7是本申请的与采取固定策略的保守型对手博弈的收益及报价曲线示意图;
图8是本申请的用户中标电量及竞标价格演化示意图;
图9是本申请的与采取演化策略对手博弈的收益及报价曲线示意图;
图10是本申请的参与DR对用户的用电量及收益影响示意图;
图11是本申请的θ=1时不同σ下用户收益各目标项占比示意图。
图12是本申请的θ=10时不同σ下用户收益各目标项占比示意图。
具体实施方式
在下文中,将参考附图对本申请的具体实施例进行详细地描述,依照这些详细的描述,所属领域技术人员能够清楚地理解本申请,并能够实施本申请。在不违背本申请原理的情况下,各个不同的实施例中的特征可以进行组合以获得新的实施方式,或者替代某些实施例中的某些特征,获得其它优选的实施方式。
参考图1~12,本申请提供一种最优竞价策略求解方法,所述方法包括如下步骤:步骤1):建立以消费者需求曲线为基础的用户参与需求响应收益模型;以刻画用户参与需求响应对于用户满意度的影响。步骤2):根据所述用户参与需求响应收益模型,结合用户参与市场的目标导向,构建参与需求响应用户的优化模型;步骤3):基于有限理性的用户参与需求响应优化模型的博弈互动过程,构建基于有限理性的演化博弈模型,所述基于有限理性的演化博弈模型将各用户模拟为多个种群,并且不对博弈主体的决策进行外部干预;基于有限理性考虑的演化博弈,充分考虑了信息的非完全性、主体决策的不确定性等因素对主体决策的影响,强调动态均衡过程。因此演化博弈可能更能有效刻画实际交易市场环境下各博弈主体的交易行为。步骤4):将稳定演化策略建模为马尔科夫决策过程,将演化博弈模型结合Q学习与复合微分进化的最优竞价策略学习算法进行求解。
针对参与需求侧竞价的用户提供DR(Demand Response)资源最优竞价策略求解问题,建立了以消费者需求曲线为基础的用户参与DR收益模型。
进一步地,所述步骤1)中所述需求响应收益模型为参与辅助服务市场提供需求响应资源用户的满意度目标、市场份额目标、经济补偿目标的数学模型。
用户参与DR各时段用电量与DR竞标电量模型表达如下:
式中:为用户集合;为DR时段集合;为负荷谷时段集合;和分别为用户n参与DR在DR时段t和负荷谷时段τ的用电量;和分别为用户n不参与DR在DR时段t和负荷谷时段τ的用电量;为用户n在DR时段t的DR竞标电量;和分别为用户n在DR时段t的负荷转出量与负荷削减量;为用户n在负荷谷时段τ的负荷转入量。
用户满意度模型表达如下:
用户参与DR的经济补偿模型表达如下:
用户参与DR的效用模型表达如下:
用户参与DR的收益模型表达如下:
进一步地,所述步骤3)中所述演化博弈模型包括市场信息的非完全性和主体决策的不确定性。
进一步地,所述步骤2)中优化模型为:
式中:Fn为用户n的总收益;为用户n在DR时段t的弹性负荷量;为LA在DR时段t发布的负荷削减量需求;和分别为用户n在DR时段t的最小用电量与最大用电量;和分别为用户n在时段t最小/最大的负荷转出量/负荷削减量;为用户n在负荷谷时段τ的最大用电量;为用户n在负荷谷时段τ允许的最大负荷转入量。
进一步地,所述演化博弈模型为:
进一步地,所述Q学习算法为:
式中:为种群n在时段t的第m个策略;动作为种群n在时段t的第q次学习选择策略 为对手在时段t的第q次学习采取动作的集合;为种群n选取动作对应的奖励值;为种群n在时段t的第q次学习选择动作对应的Q值;α为学习速率;γ为折扣因子;为种群n依据Q值表在第(q+1)次学习选取最优动作预计获得的最大Q值回报。
由于根据复制者动态方程,种群的进化方向只取决于个体的增长速度。因此,仅由复制者动态方程决定种群的演化进程无法对历史经验进行总结,不具备向对手策略进行学习的能力。为了学习总结对手策略以制定更优的竞价策略,本申请采用Q学习算法学习总结对手策略。
进一步地,所述步骤4)中所述复合微分进化算法进行种群的个体适应度排序、复合微分进化、以及种群重构。提升了种群多样性以及搜索精度。
进一步地,所述复合微分进化算法结合所述演化博弈模型考虑竞价策略对应的竞标电量与竞标价格的非负性并计及个体变异差异性。
进一步地,所述变异差异性包括变异操作DE/best/1和DE/rand/1,所述变异操作DE/best/1和DE/rand/1为:
式中:e为演化次数;κ为变异缩放因子,有0<κ<1;和分别为在第(e+1)次演化,种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成策略;和分别为种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成竞标电量/竞标价格;和分别为在第e次演化,种群n在时段t的根据Q值表得到的最优竞标电量/竞标价格;和分别为在第e次演化,种群n在时段t的第m个竞标电量/竞标价格;和分别为在第e次演化,种群n在时段t互不相同的任意两个竞标电量/竞标价格。
进一步地,所述演化博弈模型包括复制者动态方程。
复制者动态方程表达如下:
式中:为策略集的策略数集合;Xn.t为种群n在时段t的个体总数;un.m.t为种群n在时段t选择第m个策略的个体比例;Gmax为最大互动博弈次数;为在时段t种群n在第g次迭代采用第m个策略的收益;fn.m.t为在时段t种群n中在第g次迭代采用第m个策略的适应度;为种群n在时段t的平均适应度。
实施例
需求侧竞价对于提升电力用户参与市场的积极性起着重要作用。考虑用户基于有限理性参与辅助服务市场竞价,为寻求最优竞价策略,演化博弈论成为国内外学者的研究热点问题。传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解。本申请建立了基于用户有限理性的演化博弈模型,帮助用户制定最优DR(DemandResponse)竞价策略。充分考虑市场信息的非完全性和主体决策的不确定性,本申请提出了一种基于Q学习与复合微分进化的最优竞价策略学习算法。解决了传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解的问题。
用户参与需求响应模型
通过调整弹性负荷,中小型用户能够提供可靠的DR资源。但由于中小型用户的负荷规模有限,其难以达到市场的准入门槛。因此考虑利用负荷聚合商整合这类用户的DR资源,帮助他们参与辅助服务市场。图1、图2描绘了具有调节能力的用户在参与需求侧响应期间的能量消耗。当用户参与需求侧响应时,它通过减少弹性负荷来提供DR竞标电量。其中非弹性负荷是用户能量消耗的固定部分,与用户是否参与需求侧响应无关。因此,具有调节能力的用户参与DR各时段用电量与DR竞标电量模型表达如下:
式中:为用户集合;为DR时段集合;为负荷谷时段集合;和分别为用户n参与DR在DR时段t和负荷谷时段τ的用电量;和分别为用户n不参与DR在DR时段t和负荷谷时段τ的用电量;为用户n在DR时段t的DR竞标电量;和分别为用户n在DR时段t的负荷转出量与负荷削减量;为用户n在负荷谷时段τ的负荷转入量。
市场消费剩余价值函数常用于表征用户的用能消费情况。在微观经济学中,常以消费者需求曲线来描述商品的价格与需求量的关系。消费者对于商品的需求量与商品价格呈现负相关。该规律表示为:
图3、图4描绘了用户参与需求侧响应对需求曲线的影响。当用户进行激励型需求响应时,在电价δDR下用户的负荷消耗量从下降到需求曲线左移。反之,考虑到可转移负荷的转入,需求曲线可能在负荷谷时段右移。图3、图4中的阴影区域反映了净消费者剩余,其面积大小代表了消费者的满意度。用户满意度模型表达如下:
在DR时段,用户将负荷减少量以虚拟电厂发电量的形式出售给负荷聚合商从而获得DR经济补偿。用户参与DR的经济补偿模型表达如下:
对于可转移负荷和可削减负荷,负荷实际运行时间以及实际运行功率的调整对于用户满意度会产生负效应。因此,用户需要综合考虑DR时段的满意度目标与经济补偿目标。而在负荷谷时段,用户效用仅由其满意度决定。用户参与DR的效用模型表达如下:
考虑到用户基于有限理性参与辅助服务市场,在DR时段一些用户为抢占市场份额为追求自己的市场份额目标,愿意以牺牲部分效用为代价扩大其中标电量。考虑到用户的市场份额目标,用户参与DR的收益模型表达如下:
在上述市场目标模型的基础上,考虑相应约束条件,构建参与DR用户的优化模型如下:
式中:Fn为用户n的总收益;为用户n在DR时段t的弹性负荷量;为LA在DR时段t发布的负荷削减量需求;和分别为用户n在DR时段t的最小用电量与最大用电量;和分别为用户n在时段t最小/最大的负荷转出量/负荷削减量;为用户n在负荷谷时段τ的最大用电量;为用户n在负荷谷时段τ允许的最大负荷转入量。
多策略集演化博弈模型
在基于有限理性的用户参与DR项目的演化博弈中,将各用户模拟为多个种群,并且不对博弈主体的决策进行外部干预。基于以上前提,针对基于有限理性的用户参与DR项目的博弈互动过程,构造基于有限理性的演化博弈模型ψ如下:
模型包括以下三个部分:
在演化博弈过程中,在每次博弈结束后各主体将基于收益函数对博弈策略进行调整、进化。因此,各种群中各策略的采用比例随着演化博弈进程进行动态调整。演化博弈中的复制动态强调生物界中适者生存的选择机制,常用某一策略在该种群的采用比例的动态过程的复制者动态方程进行描述。记种群n在时段t采用策略的个体数量为xn.m.t,则有:
式中:为策略集的策略数集合;Xn.t为种群n在时段t的个体总数;un.m.t为种群n在时段t选择第m个策略的个体比例;Gmax为最大互动博弈次数;为在时段t种群n在第g次迭代采用第m个策略的收益;fn.m.t为在时段t种群n中在第g次迭代采用第m个策略的适应度;为种群n在时段t的平均适应度。
复制者动态方程表示如下:
基于Q学习与复合微分进化的最优竞价策略学习算法
基于演化博弈的多代理Q学习算法
根据复制者动态方程,种群的演化方向仅由个体的增长率决定。因此,演化过程既不能积累历史经验,也不能学习对手策略。为解决上述问题,本申请将稳定演化策略建模为马尔科夫决策过程,将演化博弈理论结合Q学习算法以帮助用户制定更优的竞价策略。马尔科夫决策过程表示为其中每个集合中的用户对应一个代理;为动作集合,有 为奖励集合,有由于所有种群同时决策,不存在执行动作的顺序差异,因此演化博弈属于静态博弈,MDP中不存在状态量。由于复制者动态方程不仅衡量了个体适应度与群体平均适应度之间的差距,还反映了种群对策略的动态调整过程,因此构造基于复制者动态方程的奖励函数表示如下:
Q学习算法中Q值表元素的求取及迭代过程表示如下:
考虑到在实际求解过程中,若博弈主体仅依据最大化Q值选取策略很容易陷入局部最优。在保证Q学习算法迭代速度的前提下为避免算法陷入局部最优,需要保证一定的随机搜索概率。因此在Q学习中常采用ε-greedy策略,使博弈主体有一定几率选择非最大化Q值的行为。ε-greedy策略表示如下:
结合Q学习的复合微分进化算法
由于本申请所采用的基于演化博弈的Q学习算法是在各种群初始随机生成策略个体的基础上进行的学习寻优。然而由于初始策略个体生成的随机性,利用Q学习算法在随机策略中获得的寻优结果与种群最理想的演化稳定策略可能存在一定差距。本申请采用复合微分进化算法以规避上述问题。复合微分进化算法通过进行种群的个体适应度排序、复合微分进化、以及种群重构的操作,平衡了传统微分进化算法算法在收敛速度与寻优深度之间的矛盾,同时确保了算法的寻优能力、种群多样性以及收敛速度。复合微分进化算法中的变异操作是微分进化算法的核心步骤,其中DE/best/1变异操作和DE/rand/1变异操作为最常用的变异方式。结合本申请的演化博弈模型,考虑竞价策略对应的竞标电量与竞标价格的非负性并计及个体变异差异性,DE/best/1和DE/rand/1变异表达式如下:
式中:e为演化次数;κ为变异缩放因子,有0<κ<1;和分别为在第(e+1)次演化,种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成策略;和分别为种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成竞标电量/竞标价格;和分别为在第e次演化,种群n在时段t的根据Q值表得到的最优竞标电量/竞标价格;和分别为在第e次演化,种群n在时段t的第m个竞标电量/竞标价格;和分别为在第e次演化,种群n在时段t的互不相同的任意两个竞标电量/竞标价格。
随着迭代次数的增加,陷入局部最优的概率逐渐减小。为保证算法的收敛速度,对贪婪因子ε和变异因子κ的动态调整表示如下:
式中:Emax为最大演化次数;εmax为最大贪婪因子;κmax为最大变异因子。
基于Q学习的复合微分进化算法的演化稳定策略求解流程图如图5所示。设Qfix为Q学习的次数。算法在DR时段内运行。在初始化Q学习参数和相应约束条件后,各种群随机生成其策略集。在博弈过程中,各种群随机选择一种策略,与其他种群进行竞争性竞标。重复上述过程,直至达到最大博弈次数Gmax。根据低价优先原则,各代理计算各种群的个体适应度、种群平均适应度和奖励。然后应用ε-greedy策略更新Q值表,直到达到Q学习次数Qfix。接着对各策略Q值进行排序,并根据DE/rand/1和DE/best/1将策略分为优势群体和劣势群体。重复上述过程,直至达到最大演化次数Emax。此时,具有最大Q值的策略为演化稳定策略。算法移动至下一个DR时段,并重复上述过程。
算例分析
为验证本申请所提竞价学习算法的有效性,在MATLAB 2016a环境下,利用本申请设计的基于Q学习与复合微分进化的最优竞价策略学习算法进行求解。系统硬件配置为i7-9700,CPU 3.00GHz,16.00GB内存,操作系统为Win10 64bit。本研究考虑一个包含1个LA和3个用户的辅助服务市场。全天分为24个时段,负荷聚合商发布的次日需求响应时段={10,12,20}。负荷聚合商在这三个DR时段发布的负荷削减量请求分别为1500kWh,2000kWh和3000kWh。由于本研究针对的是中小型用户,因此,本研究中参与需求侧响应竞价的用户负荷量为3-13MW。
参与DR竞价的用户按其竞价目标分为激进型用户和保守型用户。激进用户以市场份额最大化为目标,保守用户以效用最大化为目标。假定该市场中存在四种类型的对手:激进对手1(Radical Opponent 1,RO1)、激进对手2(Radical Opponent 2,RO2)、保守对手1(Conservative Opponent 1,CO1)和保守对手2(Conservative Opponent 1,CO2)。在博弈中,对手采取两种不同的策略:固定策略和演化策略。表1和表2分别给出了对手的固定竞标策略和竞标目标参数。当对手采用演化策略时,本申请设计算法生成以固定策略值为均值,竞标电量方差为100kWh,竞标价格方差为0.02¥/kWh符合正态分布的初始竞价策略。
算法的参数设置如下:各种群策略数M=100。最大博弈次数Gmax=100,Q学习固定次数Qfix=5,最大演化次数Emax=4。最大变异因子κmax=0.1,最大贪婪因子εmax=0.1,学习率α=0.01,折扣因子γ=0.9。对于所有博弈主体,需求价格弹性系数εn=-1。使用本申请算法的用户在不参与DR时的用能情况如表3所示,其目标参数分别为θ=1,σ=0.05和η=0.95。
表1对手的固定竞价策略
表2对手的竞标目标参数
表3用户不参与DR时的用能情况
与采取固定策略对手的博弈算例
在辅助服务市场中,使用本申请算法的用户与采取固定策略的激进型对手和保守型对手竞标提供DR资源。以第一个DR时段为例(即t=10),随着学习次数的增加,用户收益和竞标价格的演化过程如图6、图7所示。从图中可以看出,本申请算法能快速学习对手的竞价策略。由于用户的效用偏好系数η=0.95,满意度权重系数σ=0.05,这表明用户的主要竞价目标是最大化DR补偿。当竞标对手为激进型时,一旦代理总结出对手采取策略类型为低报价高报量,便给出更低的竞标价格以保证DR补偿收益。而当竞标对手为保守型时,一旦代理总结出对手采取策略类型为高报价低报量,则给出较高的价格以最大化DR补偿收益。图6、图7表明,为使DR补偿收益最大化,算法给出的竞标价格始终低于其他对手给出的价格,不断向对手所给价格的较低值逼近。为逼近全局最优解,本申请算法对初始生成策略采取变异操作生成新策略。由于复合微分进化算法变异方向的不确定性,变异新生成策略的收益值不能确保大于变异前策略的收益值,用户目标函数值出现轻微波动,但总体呈现上升趋势。
以竞标对手为激进型为例,图8展示了用户在所有DR时段的中标DR电量和竞标价格的演化过程。由于与激进型对手博弈时,本申请算法给出的竞标价格处于较低水平,因此应使得DR中标电量尽可能大,以最大化用户的DR补偿。从图中可以看出,本申请算法能够使得用户在各时段的DR中标电量趋近于负荷聚合商在相应时段发出的负荷削减量请求。
为了验证该算法的有效性,选取典型的初始策略如表4所示。RO1和RO2的竞标价格/竞标电量分别为0.16¥/kWh/2700kWh和0.12¥/kWh/3500kWh。以表中所给的前三种策略为例。对于策略1,其竞标价格高于其他所有博弈者所给价格。由于激进型对手给出的竞标电量较大,一旦激进型对手中标,其将占据全部市场份额。因此,采用策略1时,用户的DR中标电量和DR补偿收益始终为零,导致整个学习过程的Q值始终为负。对于策略2和策略3,其竞标价格低于其他所有博弈者所给价格,因此用户的DR补偿收益得以保证。由表4可知,策略2的竞标电量略高于策略3的竞标电量。但由于策略2的竞标价格明显低于策略3的价格,因此策略2对应的Q值更小。
表4用户典型初始策略
与采取演化策略对手的博弈算例
在辅助服务市场中,使用本申请算法的用户与采取演化策略的激进型对手竞标提供DR资源。采取演化策略的激进型对手以收益最大化为演化动力选取最优竞价策略。以第一个DR时段为例(即t=10),用户收益和竞标价格的演化过程如图9所示。在初始学习阶段,算法积累经验较少,因此用户收益较小且波动性较大。而随着学习次数的增加,用户积累了足够的经验,总结对手实质为市场份额激进型对手,倾向于采用低报价策略以最大化市场份额。因此,从图7可以看出在后续学习阶段,算法给出的竞标价格始终略低于对手价格,使得用户收益逐渐保持在较高水平。由此可见,本申请算法在处理对手决策的不确定性问题时具有良好的适应性。
图10展示了用户参与DR对其用电量和收益的影响。由图可知一方面,在DR时段(即t=10、12和18)有效地降低了用户的能耗,而在DR时段转出的负荷量也转入到了负荷低谷时段。因此,用户在各时段的能耗差异明显减小,且通过参与DR用户收益也得到了显著提高。由于用户满意度权重因子很小,具有很强的参与DR竞价的意愿,愿意以牺牲其满意度为代价参与DR竞价。因此,与负荷低谷时段的用户收益相比,DR时段的用户收益相对较少。
以第1个DR时段为例,不同的用户满意度权重因子σ和不同效用转换因子θ下的演化稳定策略和DR中标电量如表5所示。稳定演化策略对应收益的各目标项占比情况如图11、图12所示。当满意度权重因子很小时(例如σ=0.05),用户积极参与辅助服务市场竞价。面对市场激进型对手,算法不惜给出更低的竞标价格以保证DR补偿收益。然而,当满意度权重因子很大时(例如σ=0.95),此时用户的核心目标为最大化自身满意度。根据图2可知当用户实施DR后,用能—价格需求曲线左移,导致用户满意度显著降低。因此,对于满意度要求度较高的用户,为保证自身满意度,用户表现为不愿意进行负荷削减,缺乏参与辅助服务市场竞价动力。此外,由图9可以看出,效用转换因子很高(例如θ=10)的用户参与DR竞价更为积极。对于这些用户来说,中标的DR电量对应于很大的收益回报。因此,在与市场激进型对手博弈时,即使用户对满意度有着较高的要求(例如σ=0.75),算法仍不惜以损失满意度为代价,给出足够低的投标价格以使总收益最大化。
表5不同σ和θ下的演化稳定策略和DR中标电量
考虑到策略数量对计算时间的影响,表6给出了计算时间与生成策略数量的关系。为了更好地分析预生成策略的恰当数量,还考虑了用户收益与预生成策略数量之间的关系。由表6可以看出,随着策略数量的增加,计算时间也随之增加。在初始阶段,随着策略数目的增加,计算时间仅呈现略微增加。对于对手采用固定策略的博弈,当生成策略个数为10时,计算时间为0.499秒;而当生成策略个数增加十倍(即策略个数为100)时,计算时间仅增加1.172秒。最后,当生成策略个数达到1000时,计算时间增加到13.573秒,与生成策略个数为10时相比几乎变慢27倍了。然而,此时的用户收益并没有明显改善。因此,预先生成大量策略对于提高用户收益没有显著作用。因此,策略数量为50到100是一个较为恰当的预生成策略数量。
表6预生成策略数量对计算时间与用户收益的影响
采用本申请所提出求解方法的用户收益将保持在较高水平,验证了方法的可行性与有效性,并在此基础上分析了不同的用户满意度权重因子和不同效用转换因子对于用户参与辅助服务市场竞价动力的影响。
尽管在上文中参考特定的实施例对本申请进行了描述,但是所属领域技术人员应当理解,在本申请公开的原理和范围内,可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定,并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。
Claims (10)
1.一种最优竞价策略求解方法,其特征在于:所述方法包括如下步骤:
步骤1):建立以消费者需求曲线为基础的用户参与需求响应收益模型;
步骤2):根据所述用户参与需求响应收益模型,结合用户参与市场的目标导向,构建参与需求响应用户的优化模型;
步骤3):基于有限理性的用户参与需求响应优化模型的博弈互动过程,构建基于有限理性的演化博弈模型,所述基于有限理性的演化博弈模型将各用户模拟为多个种群,并且不对博弈主体的决策进行外部干预;
步骤4):将稳定演化策略建模为马尔科夫决策过程,将演化博弈模型结合Q学习与复合微分进化的最优竞价策略学习算法进行求解。
2.如权利要求1所述的最优竞价策略求解方法,其特征在于:所述步骤1)中所述需求响应收益模型为参与辅助服务市场提供需求响应资源用户的满意度目标、市场份额目标、经济补偿目标的数学模型。
3.如权利要求1所述的最优竞价策略求解方法,其特征在于:所述步骤3)中所述演化博弈模型包括市场信息的非完全性和主体决策的不确定性。
7.如权利要求1所述的最优竞价策略求解方法,其特征在于:所述步骤4)中所述复合微分进化算法进行种群的个体适应度排序、复合微分进化、以及种群重构。
8.如权利要求7所述的最优竞价策略求解方法,其特征在于:所述复合微分进化算法结合所述演化博弈模型考虑竞价策略对应的竞标电量与竞标价格的非负性并计及个体变异差异性。
9.如权利要求8所述的最优竞价策略求解方法,其特征在于:所述变异差异性包括变异操作DE/best/1和DE/rand/1,所述变异操作DE/best/1和DE/rand/1为:
10.如权利要求8所述的最优竞价策略求解方法,其特征在于:所述演化博弈模型包括复制者动态方程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110468471.5A CN113191804A (zh) | 2021-04-28 | 2021-04-28 | 一种最优竞价策略求解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110468471.5A CN113191804A (zh) | 2021-04-28 | 2021-04-28 | 一种最优竞价策略求解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113191804A true CN113191804A (zh) | 2021-07-30 |
Family
ID=76980032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110468471.5A Pending CN113191804A (zh) | 2021-04-28 | 2021-04-28 | 一种最优竞价策略求解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113191804A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627640A (zh) * | 2022-01-21 | 2022-06-14 | 中国科学院深圳先进技术研究院 | 一种智能网联汽车行驶策略的动态演化方法 |
CN116070888A (zh) * | 2023-04-06 | 2023-05-05 | 国网浙江省电力有限公司金华供电公司 | 基于决策树的虚拟电厂可调容量分析方法、装置及介质 |
CN116679614A (zh) * | 2023-07-08 | 2023-09-01 | 四川大学 | 基于演化博弈的多特征刀具综合适配方法 |
-
2021
- 2021-04-28 CN CN202110468471.5A patent/CN113191804A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627640A (zh) * | 2022-01-21 | 2022-06-14 | 中国科学院深圳先进技术研究院 | 一种智能网联汽车行驶策略的动态演化方法 |
CN114627640B (zh) * | 2022-01-21 | 2023-07-28 | 中国科学院深圳先进技术研究院 | 一种智能网联汽车行驶策略的动态演化方法 |
CN116070888A (zh) * | 2023-04-06 | 2023-05-05 | 国网浙江省电力有限公司金华供电公司 | 基于决策树的虚拟电厂可调容量分析方法、装置及介质 |
CN116679614A (zh) * | 2023-07-08 | 2023-09-01 | 四川大学 | 基于演化博弈的多特征刀具综合适配方法 |
CN116679614B (zh) * | 2023-07-08 | 2024-02-02 | 四川大学 | 基于演化博弈的多特征刀具综合适配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113191804A (zh) | 一种最优竞价策略求解方法 | |
Luo et al. | Sustainable incentives for mobile crowdsensing: Auctions, lotteries, and trust and reputation systems | |
Urieli et al. | Tactex'13: a champion adaptive power trading agent | |
Wang et al. | Virtual power plant containing electric vehicles scheduling strategies based on deep reinforcement learning | |
Wang et al. | An evolutionary game approach to analyzing bidding strategies in electricity markets with elastic demand | |
Raglend et al. | Solution to profit based unit commitment problem using particle swarm optimization | |
Dvorkin | Can merchant demand response affect investments in merchant energy storage? | |
Han et al. | Evolutionary game based demand response bidding strategy for end-users using Q-learning and compound differential evolution | |
CN111682526A (zh) | 一种基于合作博弈的虚拟电厂能量管理方法 | |
CN108985897A (zh) | 一种智能电网发电侧微分演化博弈竞价方法 | |
Heidari et al. | Equilibrium state of a price‐maker energy hub in a competitive market with price uncertainties | |
Zhang et al. | Data-driven cooperative trading framework for a risk-constrained wind integrated power system considering market uncertainties | |
Gao et al. | Distributed energy trading and scheduling among microgrids via multiagent reinforcement learning | |
Chuang et al. | Deep reinforcement learning based pricing strategy of aggregators considering renewable energy | |
Brunekreeft | A multiple-unit, multiple-period auction in the British electricity spot market | |
Anwar et al. | Proximal policy optimization based reinforcement learning for joint bidding in energy and frequency regulation markets | |
Zhang et al. | A reinforcement and imitation learning method for pricing strategy of electricity retailer with customers’ flexibility | |
Samadi et al. | Stochastic demand response management using mixed-strategy Stackelberg game | |
CN111402015A (zh) | 一种基于购售风险的虚拟电厂双层竞标方法及系统 | |
Gao et al. | Deep reinforcement learning based node pairing scheme in edge-chain for IoT applications | |
Zhu et al. | Transmission loss-aware peer-to-peer energy trading in networked microgrids | |
Seok et al. | An intelligent wind power plant coalition formation model achieving balanced market penetration growth and profit increase | |
Wu et al. | Peer-to-peer energy trading optimization for community prosumers considering carbon cap-and-trade | |
Xu et al. | Deep reinforcement learning for competitive DER pricing problem of virtual power plants | |
Chowdhury | Autonomous trading strategies for dynamic energy markets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |