CN113191804A

CN113191804A - 一种最优竞价策略求解方法

Info

Publication number: CN113191804A
Application number: CN202110468471.5A
Authority: CN
Inventors: 韩讴竹; 丁涛; 孙瑜歌; 程兰芬; 苏祥瑞
Original assignee: Xian Jiaotong University; Research Institute of Southern Power Grid Co Ltd
Current assignee: Xian Jiaotong University; CSG Electric Power Research Institute; Research Institute of Southern Power Grid Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-30

Abstract

本申请属于市场交易技术领域，特别是涉及一种最优竞价策略求解方法。传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解。本申请提供了一种最优竞价策略求解方法，针对参与需求侧竞价的用户提供DR资源最优竞价策略求解问题，建立了以消费者需求曲线为基础的用户参与DR收益模型。综合考虑用户参与市场的目标导向，提出了基于博弈主体有限理性的演化博弈模型；2)考虑市场信息的非完全性和主体决策的不确定性，为求解所建立的基于博弈主体有限理性的演化博弈模型，提出了一种基于Q学习与复合微分进化的最优竞价策略学习算法。建立了基于用户有限理性的演化博弈模型，帮助用户制定最优DR竞价策略。

Description

一种最优竞价策略求解方法

技术领域

本申请属于市场交易技术领域，特别是涉及一种最优竞价策略求解方法。

背景技术

需求响应(Demand Response，简称DR)即电力需求响应的简称，是指当电力批发市场价格升高或系统可靠性受威胁时，电力用户接收到供电方发出的诱导性减少负荷的直接补偿通知或者电力价格上升信号后，改变其固有的习惯用电模式，达到减少或者推移某时段的用电负荷而响应电力供应，从而保障电网稳定，并抑制电价上升的短期行为。它是需求侧管理(DSM)的解决方案之一。

DR技术作为电力市场的核心技术之一，是用以充分挖掘负荷侧资源，实现资源综合优化配置的重要手段。当电力批发价格急剧上升或系统的可靠性受到威胁时，通过DR技术来鼓励用户主动改变其能源消耗状况，以获得负荷削减量的经济补偿。随着负荷聚合商的发展，中小型用户也能通过负荷聚合商为枢纽参与到需求侧竞价中。这既能增加参与辅助服务市场的用户数量，又能降低参与DR的用户准入门槛。

需求侧竞价对于提升电力用户参与市场的积极性起着重要作用。考虑用户基于有限理性参与辅助服务市场竞价，为寻求最优竞价策略，演化博弈论成为国内外学者的研究热点问题。主要研究方法有通过联合演化算法以检测市场中的多重纳什均衡解，通过非对称演化博弈算法以获得稳定的演化均衡解等等。此外，由于强化学习算法在不确定性环境下面对信息的非完全性有着显著的决策能力。强化学习算法被广泛应用于电力市场的竞价策略制定。

但是传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解。

发明内容

1.要解决的技术问题

基于传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解的问题，本申请提供了一种最优竞价策略求解方法。

2.技术方案

为了达到上述的目的，本申请提供了一种最优竞价策略求解方法，所述方法包括如下步骤：步骤1)：建立以消费者需求曲线为基础的用户参与需求响应收益模型；步骤2)：根据所述用户参与需求响应收益模型，结合用户参与市场的目标导向，构建参与需求响应用户的优化模型；步骤3)：基于有限理性的用户参与需求响应优化模型的博弈互动过程，构建基于有限理性的演化博弈模型，所述基于有限理性的演化博弈模型将各用户模拟为多个种群，并且不对博弈主体的决策进行外部干预；步骤4)：将稳定演化策略建模为马尔科夫决策过程，将演化博弈模型结合Q学习与复合微分进化的最优竞价策略学习算法进行求解。

本申请提供的另一种实施方式为：所述步骤1)中所述需求响应收益模型为参与辅助服务市场提供需求响应资源用户的满意度目标、市场份额目标、经济补偿目标的数学模型。

本申请提供的另一种实施方式为：所述步骤3)中所述演化博弈模型包括市场信息的非完全性和主体决策的不确定性。

本申请提供的另一种实施方式为：所述步骤2)中优化模型为：

式中：F_n为用户n的总收益；

为用户n在DR时段t的弹性负荷量；

为LA在DR时段t发布的负荷削减量需求；

和

分别为用户n在DR时段t的最小用电量与最大用电量；

和

分别为用户n在时段t最小/最大的负荷转出量/负荷削减量；

为用户n在负荷谷时段τ的最大用电量；

为用户n在负荷谷时段τ允许的最大负荷转入量。

本申请提供的另一种实施方式为：所述演化博弈模型为：

式中：

为用户集合，在演化博弈过程中被模拟为生物种群，用户n对应于种群n；

为种群策略集合；

为种群收益集合；策略

为种群n在时段t的策略集合；

为种群n在DR时段t的收益集合。

本申请提供的另一种实施方式为：所述Q学习算法为：

式中：

为种群n在时段t的第m个策略；动作

为种群n在时段t的第q次学习选择策略

为对手在时段t的第q次学习采取动作的集合；

为种群n选取动作

对应的奖励值；

为种群n在时段t的第q次学习选择动作

对应的Q值；α为学习速率；γ为折扣因子；

为种群n依据Q值表在第(q+1)次学习选取最优动作预计获得的最大Q值回报。

本申请提供的另一种实施方式为：所述步骤4)中所述复合微分进化算法进行种群的个体适应度排序、复合微分进化、以及种群重构。

本申请提供的另一种实施方式为：所述复合微分进化算法结合所述演化博弈模型考虑竞价策略对应的竞标电量与竞标价格的非负性并计及个体变异差异性。

本申请提供的另一种实施方式为：所述变异差异性包括变异操作DE/best/1和DE/rand/1，所述变异操作DE/best/1和DE/rand/1为：

式中：e为演化次数；κ为变异缩放因子，有0＜κ＜1；

和

分别为在第(e+1)次演化，种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成策略；

和

分别为种群n在时段t进行了DE/best/1和DE/rand/1变异操作后得到的第m个新生成竞标电量/竞标价格；

和

分别为在第e次演化，种群n在时段t的根据Q值表得到的最优竞标电量/竞标价格；

和

分别为在第e次演化，种群n在时段t的第m个竞标电量/竞标价格；

和

分别为在第e次演化，种群n在时段t互不相同的任意两个竞标电量/竞标价格。

本申请提供的另一种实施方式为：所述演化博弈模型包括复制者动态方程。

3.有益效果

与现有技术相比，本申请提供的一种最优竞价策略求解方法的有益效果在于：

本申请提供的最优竞价策略求解方法，涉及电力市场竞价领域，具体涉及一种基于有限理性的用户提供DR资源最优竞价策略的求解方法，对于帮助用户在非完全信息和不确定性主体决策的电力市场环境下确定竞价策略提供新思路。

本申请提供的最优竞价策略求解方法，建立了基于用户有限理性的演化博弈模型，帮助用户制定最优DR竞价策略，充分考虑市场信息的非完全性和主体决策的不确定性。

本申请提供的最优竞价策略求解方法，基于Q学习与复合微分进化的最优竞价策略学习算法。解决了传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解的问题。

附图说明

图1是本申请的参与DR竞价的用户在DR时段耗能情况示意图；

图2是本申请的参与DR竞价的用户在负荷谷时段耗能情况示意图；

图3是本申请的参与DR对DR时段需求曲线影响示意图；

图4是本申请的参与DR对负荷谷时段需求曲线影响示意图；

图5是本申请的基于Q学习与复合微分进化算法的演化稳定策略求解流程示意图；

图6是本申请的与采取固定策略的激进型对手博弈的收益及报价曲线示意图；

图7是本申请的与采取固定策略的保守型对手博弈的收益及报价曲线示意图；

图8是本申请的用户中标电量及竞标价格演化示意图；

图9是本申请的与采取演化策略对手博弈的收益及报价曲线示意图；

图10是本申请的参与DR对用户的用电量及收益影响示意图；

图11是本申请的θ＝1时不同σ下用户收益各目标项占比示意图。

图12是本申请的θ＝10时不同σ下用户收益各目标项占比示意图。

具体实施方式

在下文中，将参考附图对本申请的具体实施例进行详细地描述，依照这些详细的描述，所属领域技术人员能够清楚地理解本申请，并能够实施本申请。在不违背本申请原理的情况下，各个不同的实施例中的特征可以进行组合以获得新的实施方式，或者替代某些实施例中的某些特征，获得其它优选的实施方式。

参考图1～12，本申请提供一种最优竞价策略求解方法，所述方法包括如下步骤：步骤1)：建立以消费者需求曲线为基础的用户参与需求响应收益模型；以刻画用户参与需求响应对于用户满意度的影响。步骤2)：根据所述用户参与需求响应收益模型，结合用户参与市场的目标导向，构建参与需求响应用户的优化模型；步骤3)：基于有限理性的用户参与需求响应优化模型的博弈互动过程，构建基于有限理性的演化博弈模型，所述基于有限理性的演化博弈模型将各用户模拟为多个种群，并且不对博弈主体的决策进行外部干预；基于有限理性考虑的演化博弈，充分考虑了信息的非完全性、主体决策的不确定性等因素对主体决策的影响，强调动态均衡过程。因此演化博弈可能更能有效刻画实际交易市场环境下各博弈主体的交易行为。步骤4)：将稳定演化策略建模为马尔科夫决策过程，将演化博弈模型结合Q学习与复合微分进化的最优竞价策略学习算法进行求解。

针对参与需求侧竞价的用户提供DR(Demand Response)资源最优竞价策略求解问题，建立了以消费者需求曲线为基础的用户参与DR收益模型。

进一步地，所述步骤1)中所述需求响应收益模型为参与辅助服务市场提供需求响应资源用户的满意度目标、市场份额目标、经济补偿目标的数学模型。

用户参与DR各时段用电量与DR竞标电量模型表达如下：

式中：

为用户集合；

为DR时段集合；

为负荷谷时段集合；

和

分别为用户n参与DR在DR时段t和负荷谷时段τ的用电量；

和

分别为用户n不参与DR在DR时段t和负荷谷时段τ的用电量；

为用户n在DR时段t的DR竞标电量；

和

分别为用户n在DR时段t的负荷转出量与负荷削减量；

为用户n在负荷谷时段τ的负荷转入量。

用户满意度模型表达如下：

式中：

和

分别为用户n在DR时段t和负荷谷时段τ的满意度；

和

分别为用户n参与需求侧响应在DR时段t和负荷谷时段τ的非弹性负荷量；δ^DR和δ^v分别为在DR时段和负荷谷时段τ的电能价格。

用户参与DR的经济补偿模型表达如下：

式中：

为用户n在DR时段t获得的DR补偿；

为用户n在DR时段t发布的竞标价格；

为用户n在DR时段t的DR中标电量。

用户参与DR的效用模型表达如下：

式中：

和

分别为用户n在DR时段t和负荷谷时段τ的效用；σ_n为满意度权重因子，满足0＜σ_n＜1。

用户参与DR的收益模型表达如下：

式中：

和

分别为用户n在DR时段t和负荷谷时段τ的收益；η_n为效用偏好因子，满足0＜η_n＜1，反映了用户n对效用目标的偏好程度；θ_n为效用转换因子，表征用户n单位市场份额所对应的经济效益。

进一步地，所述步骤3)中所述演化博弈模型包括市场信息的非完全性和主体决策的不确定性。

进一步地，所述步骤2)中优化模型为：

式中：F_n为用户n的总收益；

为用户n在DR时段t的弹性负荷量；

为LA在DR时段t发布的负荷削减量需求；

和

分别为用户n在DR时段t的最小用电量与最大用电量；

和

分别为用户n在时段t最小/最大的负荷转出量/负荷削减量；

为用户n在负荷谷时段τ的最大用电量；

为用户n在负荷谷时段τ允许的最大负荷转入量。

进一步地，所述演化博弈模型为：

式中：

为种群策略集合；

为种群收益集合；策略

为种群n在时段t的策略集合；

为种群n在DR时段t的收益集合。

进一步地，所述Q学习算法为：

式中：

为种群n在时段t的第m个策略；动作

为种群n在时段t的第q次学习选择策略

为对手在时段t的第q次学习采取动作的集合；

为种群n选取动作

对应的奖励值；

为种群n在时段t的第q次学习选择动作

对应的Q值；α为学习速率；γ为折扣因子；

由于根据复制者动态方程，种群的进化方向只取决于个体的增长速度。因此，仅由复制者动态方程决定种群的演化进程无法对历史经验进行总结，不具备向对手策略进行学习的能力。为了学习总结对手策略以制定更优的竞价策略，本申请采用Q学习算法学习总结对手策略。

进一步地，所述步骤4)中所述复合微分进化算法进行种群的个体适应度排序、复合微分进化、以及种群重构。提升了种群多样性以及搜索精度。

进一步地，所述复合微分进化算法结合所述演化博弈模型考虑竞价策略对应的竞标电量与竞标价格的非负性并计及个体变异差异性。

进一步地，所述变异差异性包括变异操作DE/best/1和DE/rand/1，所述变异操作DE/best/1和DE/rand/1为：

式中：e为演化次数；κ为变异缩放因子，有0＜κ＜1；

和

和

和

和

和

进一步地，所述演化博弈模型包括复制者动态方程。

复制者动态方程表达如下：

式中：

为策略集

的策略数集合；X_n.t为种群n在时段t的个体总数；u_n.m.t为种群n在时段t选择第m个策略的个体比例；G_max为最大互动博弈次数；

为在时段t种群n在第g次迭代采用第m个策略的收益；f_n.m.t为在时段t种群n中在第g次迭代采用第m个策略的适应度；

为种群n在时段t的平均适应度。

实施例

需求侧竞价对于提升电力用户参与市场的积极性起着重要作用。考虑用户基于有限理性参与辅助服务市场竞价，为寻求最优竞价策略，演化博弈论成为国内外学者的研究热点问题。传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解。本申请建立了基于用户有限理性的演化博弈模型，帮助用户制定最优DR(DemandResponse)竞价策略。充分考虑市场信息的非完全性和主体决策的不确定性，本申请提出了一种基于Q学习与复合微分进化的最优竞价策略学习算法。解决了传统的演化博弈方法在面对对手决策的不确定性时难以获得稳定的演化均衡解的问题。

用户参与需求响应模型

通过调整弹性负荷，中小型用户能够提供可靠的DR资源。但由于中小型用户的负荷规模有限，其难以达到市场的准入门槛。因此考虑利用负荷聚合商整合这类用户的DR资源，帮助他们参与辅助服务市场。图1、图2描绘了具有调节能力的用户在参与需求侧响应期间的能量消耗。当用户参与需求侧响应时，它通过减少弹性负荷来提供DR竞标电量。其中非弹性负荷是用户能量消耗的固定部分，与用户是否参与需求侧响应无关。因此，具有调节能力的用户参与DR各时段用电量与DR竞标电量模型表达如下：

式中：

为用户集合；

为DR时段集合；

为负荷谷时段集合；

和

分别为用户n参与DR在DR时段t和负荷谷时段τ的用电量；

和

分别为用户n不参与DR在DR时段t和负荷谷时段τ的用电量；

为用户n在DR时段t的DR竞标电量；

和

分别为用户n在DR时段t的负荷转出量与负荷削减量；

为用户n在负荷谷时段τ的负荷转入量。

市场消费剩余价值函数常用于表征用户的用能消费情况。在微观经济学中，常以消费者需求曲线来描述商品的价格与需求量的关系。消费者对于商品的需求量与商品价格呈现负相关。该规律表示为：

图3、图4描绘了用户参与需求侧响应对需求曲线的影响。当用户进行激励型需求响应时，在电价δ^DR下用户的负荷消耗量从

下降到

需求曲线左移。反之，考虑到可转移负荷的转入，需求曲线可能在负荷谷时段右移。图3、图4中的阴影区域反映了净消费者剩余，其面积大小代表了消费者的满意度。用户满意度模型表达如下：

式中：

和

分别为用户n在DR时段t和负荷谷时段τ的满意度；

和

在DR时段，用户将负荷减少量以虚拟电厂发电量的形式出售给负荷聚合商从而获得DR经济补偿。用户参与DR的经济补偿模型表达如下：

式中：

为用户n在DR时段t获得的DR补偿；

为用户n在DR时段t发布的竞标价格；

为用户n在DR时段t的DR中标电量。

对于可转移负荷和可削减负荷，负荷实际运行时间以及实际运行功率的调整对于用户满意度会产生负效应。因此，用户需要综合考虑DR时段的满意度目标与经济补偿目标。而在负荷谷时段，用户效用仅由其满意度决定。用户参与DR的效用模型表达如下：

式中：

和

考虑到用户基于有限理性参与辅助服务市场，在DR时段一些用户为抢占市场份额为追求自己的市场份额目标，愿意以牺牲部分效用为代价扩大其中标电量。考虑到用户的市场份额目标，用户参与DR的收益模型表达如下：

式中：

和

在上述市场目标模型的基础上，考虑相应约束条件，构建参与DR用户的优化模型如下：

式中：F_n为用户n的总收益；

为用户n在DR时段t的弹性负荷量；

为LA在DR时段t发布的负荷削减量需求；

和

分别为用户n在DR时段t的最小用电量与最大用电量；

和

分别为用户n在时段t最小/最大的负荷转出量/负荷削减量；

为用户n在负荷谷时段τ的最大用电量；

为用户n在负荷谷时段τ允许的最大负荷转入量。

多策略集演化博弈模型

在基于有限理性的用户参与DR项目的演化博弈中，将各用户模拟为多个种群，并且不对博弈主体的决策进行外部干预。基于以上前提，针对基于有限理性的用户参与DR项目的博弈互动过程，构造基于有限理性的演化博弈模型ψ如下：

式中：

为种群策略集合；

为种群收益集合；策略

为种群n在时段t的策略集合；

为种群n在DR时段t的收益集合。

模型包括以下三个部分：

1)

为用户集合，在演化博弈过程中被模拟为生物种群，用户n对应于种群n。

2)

为种群策略集合。策略

为种群n在时段t的策略集合。记策略集

的策略数集合为

各种群随机产生

个竞价策略。各策略包括竞标电量和竞标价格，表示如下：

式中：

为种群n在时段t的第m个策略；

和

分别为种群n在时段t的第m个策略对应的竞标电量与竞标价格。

3)

为种群收益集合。种群n的收益函数集合表示如下：

式中：

为种群n在DR时段t的收益集合；

为在时段t种群n中的第m个策略对应的收益值。

在演化博弈过程中，在每次博弈结束后各主体将基于收益函数对博弈策略进行调整、进化。因此，各种群中各策略的采用比例随着演化博弈进程进行动态调整。演化博弈中的复制动态强调生物界中适者生存的选择机制，常用某一策略在该种群的采用比例的动态过程的复制者动态方程进行描述。记种群n在时段t采用策略

的个体数量为x_n.m.t，则有：

式中：

为策略集

为种群n在时段t的平均适应度。

复制者动态方程表示如下：

上式决定了选择相应策略个体的增长率。当

时，种群n中选择策略

的个体数量维持不变。满足

被称为复制动态方程的奇点。在演化博弈中，常通过求取复制动态方程的稳定奇点以寻求博弈的稳定演化策略。

推论1：考虑在(8)中定义的博弈ψ。当且仅当策略

满足以下条件时，策略

构成演化博弈的ESS：

对于

有θ_s∈(0,1)，使得：

因此，当集合

中的所有博弈者都选择了其稳定演化策略时，没有用户能通过选择异于稳定演化策略

的其它策略来提高自身收益。

基于Q学习与复合微分进化的最优竞价策略学习算法

基于演化博弈的多代理Q学习算法

根据复制者动态方程，种群的演化方向仅由个体的增长率决定。因此，演化过程既不能积累历史经验，也不能学习对手策略。为解决上述问题，本申请将稳定演化策略建模为马尔科夫决策过程，将演化博弈理论结合Q学习算法以帮助用户制定更优的竞价策略。马尔科夫决策过程表示为

其中每个集合

中的用户对应一个代理；

为动作集合，有

为奖励集合，有

由于所有种群同时决策，不存在执行动作的顺序差异，因此演化博弈属于静态博弈，MDP中不存在状态量。由于复制者动态方程不仅衡量了个体适应度与群体平均适应度之间的差距，还反映了种群对策略的动态调整过程，因此构造基于复制者动态方程的奖励函数表示如下：

式中：动作

为种群n在时段t的第q次学习选择策略

为对手在时段t的第q次学习采取动作的集合；

为种群n选取动作

对应的奖励值。

Q学习算法中Q值表元素的求取及迭代过程表示如下：

式中：

为种群n在时段t的第q次学习选择动作

对应的Q值；α为学习速率；γ为折扣因子；

考虑到在实际求解过程中，若博弈主体仅依据最大化Q值选取策略很容易陷入局部最优。在保证Q学习算法迭代速度的前提下为避免算法陷入局部最优，需要保证一定的随机搜索概率。因此在Q学习中常采用ε-greedy策略，使博弈主体有一定几率选择非最大化Q值的行为。ε-greedy策略表示如下：

式中：

为种群n在第q次学习执行动作

的概率；ε为贪婪因子，有0＜ε＜1。

由于静态博弈解的一个重要概念是Nash均衡解，且已有文献证明演化稳定策略集合

一定是Nash均衡解集合

的子集。因此，采用Q学习算法的稳定演化策略集定义为：

结合Q学习的复合微分进化算法

由于本申请所采用的基于演化博弈的Q学习算法是在各种群初始随机生成策略个体的基础上进行的学习寻优。然而由于初始策略个体生成的随机性，利用Q学习算法在随机策略中获得的寻优结果与种群最理想的演化稳定策略可能存在一定差距。本申请采用复合微分进化算法以规避上述问题。复合微分进化算法通过进行种群的个体适应度排序、复合微分进化、以及种群重构的操作，平衡了传统微分进化算法算法在收敛速度与寻优深度之间的矛盾，同时确保了算法的寻优能力、种群多样性以及收敛速度。复合微分进化算法中的变异操作是微分进化算法的核心步骤，其中DE/best/1变异操作和DE/rand/1变异操作为最常用的变异方式。结合本申请的演化博弈模型，考虑竞价策略对应的竞标电量与竞标价格的非负性并计及个体变异差异性，DE/best/1和DE/rand/1变异表达式如下：

式中：e为演化次数；κ为变异缩放因子，有0＜κ＜1；

和

和

和

和

和

分别为在第e次演化，种群n在时段t的互不相同的任意两个竞标电量/竞标价格。

随着迭代次数的增加，陷入局部最优的概率逐渐减小。为保证算法的收敛速度，对贪婪因子ε和变异因子κ的动态调整表示如下：

式中：E_max为最大演化次数；ε_max为最大贪婪因子；κ_max为最大变异因子。

基于Q学习的复合微分进化算法的演化稳定策略求解流程图如图5所示。设Q_fix为Q学习的次数。算法在DR时段内运行。在初始化Q学习参数和相应约束条件后，各种群随机生成其策略集。在博弈过程中，各种群随机选择一种策略，与其他种群进行竞争性竞标。重复上述过程，直至达到最大博弈次数G_max。根据低价优先原则，各代理计算各种群的个体适应度、种群平均适应度和奖励。然后应用ε-greedy策略更新Q值表，直到达到Q学习次数Q_fix。接着对各策略Q值进行排序，并根据DE/rand/1和DE/best/1将策略分为优势群体和劣势群体。重复上述过程，直至达到最大演化次数E_max。此时，具有最大Q值的策略为演化稳定策略。算法移动至下一个DR时段，并重复上述过程。

算例分析

为验证本申请所提竞价学习算法的有效性，在MATLAB 2016a环境下，利用本申请设计的基于Q学习与复合微分进化的最优竞价策略学习算法进行求解。系统硬件配置为i7-9700,CPU 3.00GHz,16.00GB内存，操作系统为Win10 64bit。本研究考虑一个包含1个LA和3个用户的辅助服务市场。全天分为24个时段，负荷聚合商发布的次日需求响应时段＝{10,12,20}。负荷聚合商在这三个DR时段发布的负荷削减量请求分别为1500kWh,2000kWh和3000kWh。由于本研究针对的是中小型用户，因此，本研究中参与需求侧响应竞价的用户负荷量为3-13MW。

参与DR竞价的用户按其竞价目标分为激进型用户和保守型用户。激进用户以市场份额最大化为目标，保守用户以效用最大化为目标。假定该市场中存在四种类型的对手：激进对手1(Radical Opponent 1，RO1)、激进对手2(Radical Opponent 2，RO2)、保守对手1(Conservative Opponent 1，CO1)和保守对手2(Conservative Opponent 1，CO2)。在博弈中，对手采取两种不同的策略：固定策略和演化策略。表1和表2分别给出了对手的固定竞标策略和竞标目标参数。当对手采用演化策略时，本申请设计算法生成以固定策略值为均值，竞标电量方差为100kWh，竞标价格方差为0.02￥/kWh符合正态分布的初始竞价策略。

算法的参数设置如下：各种群策略数M＝100。最大博弈次数G_max＝100，Q学习固定次数Q_fix＝5，最大演化次数E_max＝4。最大变异因子κ_max＝0.1，最大贪婪因子ε_max＝0.1，学习率α＝0.01，折扣因子γ＝0.9。对于所有博弈主体，需求价格弹性系数ε_n＝-1。使用本申请算法的用户在不参与DR时的用能情况如表3所示，其目标参数分别为θ＝1，σ＝0.05和η＝0.95。

表1对手的固定竞价策略

表2对手的竞标目标参数

表3用户不参与DR时的用能情况

与采取固定策略对手的博弈算例

在辅助服务市场中，使用本申请算法的用户与采取固定策略的激进型对手和保守型对手竞标提供DR资源。以第一个DR时段为例(即t＝10)，随着学习次数的增加，用户收益和竞标价格的演化过程如图6、图7所示。从图中可以看出，本申请算法能快速学习对手的竞价策略。由于用户的效用偏好系数η＝0.95，满意度权重系数σ＝0.05，这表明用户的主要竞价目标是最大化DR补偿。当竞标对手为激进型时，一旦代理总结出对手采取策略类型为低报价高报量，便给出更低的竞标价格以保证DR补偿收益。而当竞标对手为保守型时，一旦代理总结出对手采取策略类型为高报价低报量，则给出较高的价格以最大化DR补偿收益。图6、图7表明，为使DR补偿收益最大化，算法给出的竞标价格始终低于其他对手给出的价格，不断向对手所给价格的较低值逼近。为逼近全局最优解，本申请算法对初始生成策略采取变异操作生成新策略。由于复合微分进化算法变异方向的不确定性，变异新生成策略的收益值不能确保大于变异前策略的收益值，用户目标函数值出现轻微波动，但总体呈现上升趋势。

以竞标对手为激进型为例，图8展示了用户在所有DR时段的中标DR电量和竞标价格的演化过程。由于与激进型对手博弈时，本申请算法给出的竞标价格处于较低水平，因此应使得DR中标电量尽可能大，以最大化用户的DR补偿。从图中可以看出，本申请算法能够使得用户在各时段的DR中标电量趋近于负荷聚合商在相应时段发出的负荷削减量请求。

为了验证该算法的有效性，选取典型的初始策略如表4所示。RO1和RO2的竞标价格/竞标电量分别为0.16￥/kWh/2700kWh和0.12￥/kWh/3500kWh。以表中所给的前三种策略为例。对于策略1，其竞标价格高于其他所有博弈者所给价格。由于激进型对手给出的竞标电量较大，一旦激进型对手中标，其将占据全部市场份额。因此，采用策略1时，用户的DR中标电量和DR补偿收益始终为零，导致整个学习过程的Q值始终为负。对于策略2和策略3，其竞标价格低于其他所有博弈者所给价格，因此用户的DR补偿收益得以保证。由表4可知，策略2的竞标电量略高于策略3的竞标电量。但由于策略2的竞标价格明显低于策略3的价格，因此策略2对应的Q值更小。

表4用户典型初始策略

与采取演化策略对手的博弈算例

在辅助服务市场中，使用本申请算法的用户与采取演化策略的激进型对手竞标提供DR资源。采取演化策略的激进型对手以收益最大化为演化动力选取最优竞价策略。以第一个DR时段为例(即t＝10)，用户收益和竞标价格的演化过程如图9所示。在初始学习阶段，算法积累经验较少，因此用户收益较小且波动性较大。而随着学习次数的增加，用户积累了足够的经验，总结对手实质为市场份额激进型对手，倾向于采用低报价策略以最大化市场份额。因此，从图7可以看出在后续学习阶段，算法给出的竞标价格始终略低于对手价格，使得用户收益逐渐保持在较高水平。由此可见，本申请算法在处理对手决策的不确定性问题时具有良好的适应性。

图10展示了用户参与DR对其用电量和收益的影响。由图可知一方面，在DR时段(即t＝10、12和18)有效地降低了用户的能耗，而在DR时段转出的负荷量也转入到了负荷低谷时段。因此，用户在各时段的能耗差异明显减小，且通过参与DR用户收益也得到了显著提高。由于用户满意度权重因子很小，具有很强的参与DR竞价的意愿，愿意以牺牲其满意度为代价参与DR竞价。因此，与负荷低谷时段的用户收益相比，DR时段的用户收益相对较少。

以第1个DR时段为例，不同的用户满意度权重因子σ和不同效用转换因子θ下的演化稳定策略和DR中标电量如表5所示。稳定演化策略对应收益的各目标项占比情况如图11、图12所示。当满意度权重因子很小时(例如σ＝0.05)，用户积极参与辅助服务市场竞价。面对市场激进型对手，算法不惜给出更低的竞标价格以保证DR补偿收益。然而，当满意度权重因子很大时(例如σ＝0.95)，此时用户的核心目标为最大化自身满意度。根据图2可知当用户实施DR后，用能—价格需求曲线左移，导致用户满意度显著降低。因此，对于满意度要求度较高的用户，为保证自身满意度，用户表现为不愿意进行负荷削减，缺乏参与辅助服务市场竞价动力。此外，由图9可以看出，效用转换因子很高(例如θ＝10)的用户参与DR竞价更为积极。对于这些用户来说，中标的DR电量对应于很大的收益回报。因此，在与市场激进型对手博弈时，即使用户对满意度有着较高的要求(例如σ＝0.75)，算法仍不惜以损失满意度为代价，给出足够低的投标价格以使总收益最大化。

表5不同σ和θ下的演化稳定策略和DR中标电量

考虑到策略数量对计算时间的影响，表6给出了计算时间与生成策略数量的关系。为了更好地分析预生成策略的恰当数量，还考虑了用户收益与预生成策略数量之间的关系。由表6可以看出，随着策略数量的增加，计算时间也随之增加。在初始阶段，随着策略数目的增加，计算时间仅呈现略微增加。对于对手采用固定策略的博弈，当生成策略个数为10时，计算时间为0.499秒；而当生成策略个数增加十倍(即策略个数为100)时，计算时间仅增加1.172秒。最后，当生成策略个数达到1000时，计算时间增加到13.573秒，与生成策略个数为10时相比几乎变慢27倍了。然而，此时的用户收益并没有明显改善。因此，预先生成大量策略对于提高用户收益没有显著作用。因此，策略数量为50到100是一个较为恰当的预生成策略数量。

表6预生成策略数量对计算时间与用户收益的影响

采用本申请所提出求解方法的用户收益将保持在较高水平，验证了方法的可行性与有效性，并在此基础上分析了不同的用户满意度权重因子和不同效用转换因子对于用户参与辅助服务市场竞价动力的影响。

尽管在上文中参考特定的实施例对本申请进行了描述，但是所属领域技术人员应当理解，在本申请公开的原理和范围内，可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定，并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。