CN107644370A

CN107644370A - 一种自增强学习的撮合竞价方法及系统

Info

Publication number: CN107644370A
Application number: CN201710914516.0A
Authority: CN
Inventors: 程海花; 郑亚先; 薛必克; 耿建; 杨争林; 邵平; 龙苏岩; 郭艳敏; 王高琴; 史新红; 吕建虎; 徐骏; 黄春波; 陈爱林; 曾丹; 叶飞; 张旭; 王秀丽; 祁天星; 张炜
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Xian Jiaotong University; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Xian Jiaotong University; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2018-01-30

Abstract

本发明涉及一种自增强学习的撮合竞价方法，所述方法包括：采集所有售电商的报价，设定待测售电商报价为初始竞价，其他售电商报价设定为初始售电商报价；基于预先设定的步长调整售电商报价和竞价报价；基于所述初始售电商报价、初始竞价、竞价报价和售电商报价得到收益；基于预先设定的步长重新调整电商报价和竞价报价继续计算收益，直到达到预先设定的学习报价轮数阈值；基于所有的售电商报价、竞价报价和收益确定最终竞价报价。所述系统包括:采集模块、调整模块、生成模块、计算模块和确定模块。本发明采用撮合出清的方法，售电商通过代理进行报价学习，建立其他售电商竞价对策模型产生大量学习样本继续进行推演自学习，以达到最优竞价的目的。

Description

一种自增强学习的撮合竞价方法及系统

技术领域

本发明涉及电力市场运行与竞价领域，具体涉及一种自增强学习的撮合竞价方法及系统。

背景技术

由于电源与需求呈逆向分布，发电区域电能过剩，用电区域则电力不足，这种不均衡的能源结构决定了必须通过开展大规模跨区域电力交易，对能源资源进行有效配置，充分发挥发电、输电设施的能力，保障电力供应。

在跨区域集中交易制度逐步完善的过程中，跨区域发电侧市场的竞争压力逐步增大，发电企业为了在市场中生存与发展，其必须与其他发电商竞争上网，以实现利润最大化为目标。

为了避免发电厂商们之间的恶性竞争和发电集团公司可能要面临的价格剧烈波动的巨大风险，广大学者和研究人员往往采用多代理系统(Multi-agent System，简称为MAS)技术和演化博弈理论为参与市场竞争的发电商们构建更加灵活的发电竞价策略，并在利润最大化的实践中不断完善，同时对寡头垄断竞争的发电侧电力市场竞价规则和竞价行为进行评估。

在人工智能领域，将由多个Agent所构成的相互作用、相互关联的系统称为多代理系统(Multi-Agent System)。多代理系统中，每一个Agent都是一个独立的具有学习能力的实体，通过与环境之间的信息交互进行演化，从而推动整个系统的演化。开展多Agent建模能够更有效地表征涉及人类智能活动的经济系统的特性。电力市场参与者的行为具有高度的智能性和复杂性，利用常规方法很难进行有效分析，因此采用多Agent系统建模与仿真方法，实现对电力市场运营的有效模拟。

然而，Agent机器学习需要大量的训练样本，而目前数据样本仍不够完善。而解决这个问题，需要构建电力市场仿真模型，产生大量的智慧机器样本，对算法进行训练。

电力市场仿真可以研究市场环境中各个参与者的行为，为电力市场改革提供决策支持。经典博弈论被广泛应用于电力市场竞价策略研究，但其基本假设是每个市场参与者都是“完全理性”的，而且要求参与者具有“理性的共同认识”，即相信对手在追求自身利益最大化目标时不会犯任何错误，因此存在较大局限性。

发明内容

为了解决现有技术中所存在的上述不足，本发明提供一种自增强学习的撮合竞价方法。

本发明提供的技术方案是：一种自增强学习的撮合竞价方法，所述竞价方法包括：

采集所有售电商的报价，其中设定待测售电商报价为初始竞价，剩余其他售电商报价设定为初始售电商报价；

基于预先设定的步长调整售电商报价和竞价报价；

基于所述初始售电商报价、初始竞价、竞价报价和售电商报价得到收益；

基于预先设定的步长重新调整电商报价和竞价报价继续计算收益，直到达到预先设定的学习报价轮数阈值；

基于所有的售电商报价、竞价报价和收益确定最终竞价报价。

优选的，所述采集所有售电商的报价，其中待测售电商报价为初始竞价，剩余其他售电商报价作为初始售电商报价包括：

采集所有售电商的报价构建集合S，S＝{s₁,s₂,…,s_n}，其中s₁,s₂,…,s_n为所有售电商报价；

设定待测售电商报价a_t；a_t∈S；

设定初始售电商报价为s_t，s_t∈S-a_t。

优选的，所述基于预先设定的步长调整所述竞价报价包括：

以小概率的ε‐greedy算法随机选择报价；

所述ε－greedy算法按下式计算：

ε＝temp^t

式中：temp：小于1的衰减系数；t：当前学习报价轮数。

优选的，所述基于预先设定的步长调整所述售电商报价如下式：

式中：p_i,t：售电商i在t轮学习中的模拟报价；step_i：售电商i的竞价风险调整步长；Gain_i：报价的函数，表征售电商i参与匹配的收益；其他：不满足调价条件的情况；t：当前学习报价轮数。

优选的，所述售电商i的竞价风险调整步长step_i基于概率θ_t计算；

以概率θ_t选择所述步长step_i，以概率1‐θ_t选择原步长step_i；

所述概率θ_t的计算式如下：

θ_t＝θ₀ ^t

式中：θ₀：报价调整概率且0＜θ₀＜1。

优选的，所述基于初始售电商报价、初始竞价报价、新的竞价报价和新的售电商报价采用Q‐learning算法得到收益由下式计算：

Q'(a_t,s_t)＝(1-α)Q(a_t,s_t)+αγmaxQ(a'_t+1,s'_t+1)

式中：α：学习率且0<α<1；γ：时间贴现率且0<γ<1；maxQ(a'_t+1,s'_t+1)：新状态下的最大收益值；a'_t+1：新状态下的最优策略；Q(a_t,s_t)：收益；Q'(a_t,s_t)：新状态的收益。

优选的，所述学习报价轮数阈值设定为1000。

基于本发明另一发明目的，本技术方案还提供一种自增强学习的撮合竞价系统，

所述系统包括:

采集模块：用于采集所有售电商的报价，其中设定待测售电商报价为初始竞价，剩余其他售电商报价设定为初始售电商报价；

调整模块：用于基于预先设定的步长调整售电商报价和竞价报价；

生成模块：用于基于所述初始售电商报价、初始竞价、竞价报价和售电商报价得到收益；

计算模块：基于预先设定的步长重新调整电商报价和竞价报价继续计算收益，直到达到预先设定的学习报价轮数阈值；

确定模块：用于基于所有的售电商报价、竞价报价和收益确定最终竞价报价。

优选的，所述采集模块包括：

采集子模块：采集所有售电商的报价构建集合S，S＝{s₁,s₂,…,s_n}，其中s₁,s₂,…,s_n为所有售电商报价；

设定子模块：用于设定待测售电商报价a_t；a_t∈S并且设定初始售电商报价为s_t，s_t∈S-a_t。

优选的，所述调整模块包括：

选择子模块：用于以小概率的ε‐greedy算法随机选择报价和以大概率的ε‐greedy算法选择最大收益所对应的报价；

计算子模块：用于计算概率ε－greedy和售电商报价。

与最接近的现有技术相比，本发明提供的技术方案具有以下有益效果：

(1)本发明提供的技术方案，采用自增强学习的竞价方法，在现有的Q-Learning增强学习的算法基础上，增加风险调价步长动态报价模型产生动态样本对智能代理进行演化训练，本模型可以解决实际数据样本不足的情况下进行竞价学习；

(2)本发明提供的技术方案，在实际在训练过程中，引入随机性，防止竞价学习陷入局部最优。同时动态样本模型考虑了时间贴现成本和随机选择概率，更加符合实际；

(3)本发明提供的技术方案，首次将基于多售电商的竞价模型应用于跨区域交易中，且具有良好的效果。

附图说明

图1为本发明的电力市场多售电商体系结构示意图；

图2为本发明的智能代理竞价模型示意图；

图3为本发明的智能代理竞价算法流程示意图；

图4为本发明实施例中的23节点网络实例示意图；

图5为本发明实施例中的售电商自学习模拟报价示意图；

图6为本发明实施例中的电力均衡情况下市场统一出清价学习示意图；

图7为本发明实施例中的电力短缺情况下市场统一出清价学习示意图；

图8为本发明实施例中的电力富余情况下市场统一出清价学习示意图。

具体实施方式

为了更好地理解本发明，下面结合说明书附图和实例对本发明的内容做进一步的说明。

1、如图1所示，电力市场交易的参与者可以简单的分为售电侧和购电侧，售电测即为发电测，这种交易以电网为物理基础，在调度中心的监控下实现供需平衡。各个组成部分都是服从整体自治的个体，因此适用于多代理系统进行问题求解。

2、基于现有的多售电商的Q-learning算法存在的局部最优和学习效果难以保证，对Q-learning算法进行改进；

基于多售电商的Q-learning算法介绍

采用增强学习算法的智能代理和环境的交互模型如图2所示，在一个序列的离散时间段t内交互，S＝{s₁,s₂,…,s_n}是环境状态的有限集合，A＝{a₁,a₂,…,a_m}是代理可能采取的所有策略的有限集合，在每个时间段t，智能代理得到当前的系统状态s_t＝s∈S，根据s_t选择一个策略a_t＝a∈A，之后智能代理得到一个立即收益r_t，同时环境变化到一个新状态s_t+1＝s'∈S，转移的概率为p(s,s',a)。

智能代理的任务是找到一个最优策略使长期的收益最大。Q-Learning的任务是在初始条件未知的情况下决定π。如果环境模型(即状态转移概率及评价模型)已知，则上述问题可用动态规划(DP)解决。Q-Learning算法的思想是不去顾及环境模型，而是直接优化可迭代计算的Q函数。Watkins定义此Q函数为在状态s_t时执行动作a_t，且此后按最优动作序列执行时折扣累计强化值，即

Q(a_t,s_t)＝r_t+γmaxQ(a'_t+1,s_t+1) (1)

式中，r_t是策略变化后竞价方的立即收益，一般取0；γ(0<γ<1)是未来收益的贴现率；maxQ(a'_t+1,s_t+1)为新状态下的最大Q值，即竞价方获取的最大收益；a'_t+1为新状态下的最优报价策略。

代理通过评价“状态-行为”对Q(s,a)来优化策略，其学习步骤如下：

(1)观察现在的状态s_t；

(2)选择并且执行一个动作a_t；

(3)观察下一个状态s_t+1；

(4)收到一个立即收益r_t；

(5)更新Q值。

Q'(a_t,s_t)＝(1-α)Q(a_t,s_t)+αγmaxQ(a'_t+1,s'_t+1) (2)

其中：α：学习率且0<α<1；γ：时间贴现率且0<γ<1；maxQ(a'_t+1,s'_t+1)：新状态下的最大Q值；a'_t+1：新状态下的最优策略；Q(a_t,s_t)：收益；Q'(a_t,s_t)：新状态的收益；t：0<t≤1000且t为正整数。理论上已经证明，满足适当条件时，当t趋近于无穷大时，Q_t(s,a)以概率1收敛于最优点。

已有的Q-learning算法还存在以下问题：

(1)基于上面的方法得到Q值后，假如代理仅仅依据Q值大小选取策略，很容易陷入局部最优；

(2)由于条件的限制，与对手的竞价互动数据规模较小，学习效果难以保证。

基于多售电商的Q-learning算法的改进

针对问题1，本专利引入了ε－greedy算法对学习进行更多探索。针对问题2，本专利采用引入考虑时间成本和风险调整步长的智能代理生成机器样本，对学习算法进行自增强学习训练。

基于多售电商自增强学习的跨区域撮合竞价方法

为了应用Q-Learning算法于跨区域多售电商撮合交易，首先要定义系统状态、策略和收益。

(1)系统状态：系统状态s由所有售电商的报价构成；

(2)策略：本模型的策略为竞价售电商的报价；

(3)收益：本文中各个代理的收益取该轮交易售电商得到的利润，即收入减去成本。

3、如图3所示，算法的具体步骤是：

S1：采集所有售电商的报价，其中设定待测售电商报价为初始竞价，剩余其他售电商报价设定为初始售电商报价；

采用增强学习算法的智能代理和环境的交互模型如图2所示，在一个序列的离散时间段t内交互，S＝{s₁,s₂,…,s_n}是所有售电商的报价构建的有限集合，其中s₁,s₂,…,s_n为所有售电商报价；a_t为待测售电商报价，且a_t∈S；s_t为初始售电商报价，且s_t＝S-a_t。

S2：基于预先设定的步长调整所述售电商报价和所述竞价报价；

S2-1：基于预先设定的步长调整竞价报价

在新一轮市场交易开始时，引入ε－greedy算法，即以小概率ε随机选取竞价报价a_t，选取好竞价报价a_t，先采用传统的高低匹配集中撮合出清的方法，在由收入减去成本的方法确定收益，为了使学习逐步精确，可选取ε为：

ε＝temp^t (3)

式中：temp：小于1的衰减系数；t为学习报价轮数阈值，且0<t≤1000，t为正整数。可见概率ε随着迭代次数的增加而逐渐减小，即探索随着结果逐步精确而逐步减小。

S2-2:基于预先设定的步长调整售电商报价

由于竞价报价是一个动态的博弈过程，博弈对手也会根据上一轮的报价进行调整。本专利结合实际，建立了考虑时间成本和风险调整步长的动态代理状态生成模型，即竞价对手的新一轮报价采用下式进行预估：

式中：p_i,t：售电商i在t轮学习中的模拟报价；step_i：售电商i的竞价风险调整步长；Gain_i：报价的函数，表征售电商i参与匹配的收益；其他：不满足调价条件的情况；t：当前学习报价轮数且0<t≤1000，t为正整数。

S2-2-1：售电商i的竞价风险调整步长step_i基于概率θ_t计算

然而，考虑到随机因素和竞价的时间成本，这里可以引入报价调整概率θ_t，竞价对手的新一轮报价以概率θ_t进行如式(4)的调整，即以概率θ_t选择所述动态报价模型，结果作为新报价，以概率1-θ_t选择报价维持不变，且θ_t应该随着学习轮次的增加而逐渐降低。这里可以按下式对θ_t进行求解

θ_t＝θ₀ ^t (5)

式中：θ₀：报价调整概率且0＜θ₀＜1，这里取0.98；t:当前学习报价轮数且0<t≤1000，t为正整数。

S3：基于初始售电商报价、初始竞价、竞价报价和售电商报价得到收益

在新报价s'_t+1下，计算最大的收益，按下式对收益进行更新：

Q'(a_t,s_t)＝(1-α)Q(a_t,s_t)+αγmaxQ(a'_t+1,s'_t+1) (6)

式中：α：学习率且0<α<1，这里取0.70；γ：时间贴现率且0<γ<1，这里取0.8；maxQ(a'_t+1,s'_t+1)：新状态下的最大收益值；a'_t+1：新状态下的最优策略；Q(a_t,s_t)：收益；Q'(a_t,s_t)：新状态的收益；t：当前学习报价轮数且0<t≤1000，t为正整数。

S4：基于预先设定的步长重新调整电商报价和竞价报价继续计算收益，直到达到预先设定的学习报价轮数阈值

继续迭代；使迭代次数t加1，转至S2。总共迭代1000次为最优。

S5：基于预先设定的步长重新调整电商报价和竞价报价继续计算收益，直到达到预先设定的学习报价轮数阈值。

基于同一构思，本实施例还提供了一种自增强学习的撮合竞价系统，所述系统包括:

调整模块：用于基于预先设定的步长调整所述售电商报价和所述竞价报价；

生成模块：用于基于所述初始售电商报价、初始竞价报价、新的竞价报价和新的售电商报价采用Q‐learning算法得到收益；

确定模块：用于基于所有的售电商报价、竞价报价和收益确定最终竞价报价；

实施例中，所述采集模块包括：

设定子模块：用于设定待测售电商报价a_t；a_t∈S并且设定初始售电商报价为s_t，s_t∈S-a_t；

实施例中，所述调整模块包括：

计算子模块：用于计算概率ε－greedy和售电商报价。

具体实施例一：

下面结合我国23节点特高压售电商互连的网架图使用本发明的模型对跨区域多售电商交易进行模拟。

网架图见图4。

表1为各个节点根据历史数据进行学习预测后得到的的数据申报初始预测值。

表1各节点申报数据表

全国共计23个售电商节点，其中12个售电商参与售电，申报了共计20177.71GW.h的电量，9个售电商参与购电，申报了共计16968.2GW.h的电量。从表中可以看出，我国10节点电力严重富余，达到10224.6GW.h，而5、6、7节点的电力又严重缺乏。正是这个电力供需分布不均衡，给跨区域多售电商交易提供了可能。

采用本专利模型从售电节点3，即基于多售电商自增强学习的跨区域撮合竞价方法交易模拟，学习竞价1000次，撮合方法采用传统的高低匹配撮合模型，其报价结果变化见图5。从图中可以看到，前200轮以探索式学习为主，而经过约200轮次学习，报价逐渐稳定在428元/MWh，达到了市场均衡。从效果上来看，本专利模型的收敛速度比较快。

另外，通过本模型还可以预测当前市场的统一出清价格的波动，如图6。可见在本次供需关系下，通过对市场行为的预测，市场的统一出清价在368元/MWh到388元/MWh波动，对竞价售电商参与竞价有很好的指导作用。

本专利可以模拟不同市场供需情况下的出清电价的变化。图6为电力供需均衡时的统一出清电价模拟，图7为电力短缺时的统一出清电价模拟，图8为电力短缺时的统一出清电价模拟。从结果来看，电力短缺会导致出清电价上涨，电力过剩对导致出清电价下跌。因此，在不同的供需情况下，竞价的策略不同，随统一出清电价变化。

表2为在第1000次学习下各售电商的交易结果，市场统一出清价为386.70元/MWh，其中某一售电商报价为386.58，共交易电量为1931GWh，获利为1.93亿元。

表2第1000次学习交易结果

某一售电商通过学习，所拥有电量全部中标，得到利益最大化，可见本专利的可行性。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种自增强学习的撮合竞价方法，其特征在于，所述竞价方法包括：

基于预先设定的步长分别调整初始售电商报价和初始竞价构成售电商报价和竞价报价；

2.如权利要求1所述的一种自增强学习的撮合竞价方法，其特征在于，所述采集所有售电商的报价，其中待测售电商报价为初始竞价，剩余其他售电商报价作为初始售电商报价包括：

设定待测售电商报价a_t，a_t∈S；

设定初始售电商报价为s_t，s_t∈S-a_t。

3.如权利要求1所述的一种自增强学习的撮合竞价方法，其特征在于，所述基于预先设定的步长调整所述竞价报价包括：

以小概率的ε‐greedy算法随机选择报价；

所述ε－greedy算法按下式计算：

ε＝temp^t

式中：temp：小于1的衰减系数；t：当前学习报价轮数。

4.如权利要求1所述的一种自增强学习的撮合竞价方法，其特征在于，所述基于预先设定的步长调整所述售电商报价如下式：

5.如权利要求4所述的一种自增强学习的撮合竞价方法，其特征在于，所述售电商i的竞价风险调整步长step_i基于概率θ_t计算；

所述概率θ_t的计算式如下：

θ_t＝θ₀ ^t

式中：θ₀：报价调整概率且0＜θ₀＜1。

6.如权利要求1‐5任一项所述的一种自增强学习的撮合竞价方法，其特征在于，所述基于初始售电商报价、初始竞价报价、新的竞价报价和新的售电商报价采用Q‐learning算法得到收益由下式计算：

Q'(a_t,s_t)＝(1-α)Q(a_t,s_t)+αγmaxQ(a'_t+1,s'_t+1)

式中：α：学习率且0<α<1；γ：时间贴现率且0<γ<1；maxQ(a'_t+1,s'_t+1)：新状态下的最大收益值；a'_t+1：新状态下的最优策略；Q(a_t,s_t)：收益；Q'(a_t,s_t)：新状态的收益；t：当前学习报价轮数。

7.如权利要求6所述的一种自增强学习的撮合竞价方法，其特征在于，所述学习报价轮数阈值设定为1000。

8.一种自增强学习的撮合竞价系统，其特征在于，所述系统包括:

9.如权利要求8所述的一种自增强学习的撮合竞价系统，其特征在于，所述采集模块包括：

10.如权利要求8所述的一种自增强学习的撮合竞价系统，其特征在于，所述调整模块包括：

计算子模块：用于计算概率ε－greedy和售电商报价。