CN110111135B

CN110111135B - 一种发电侧成员动态报价决策方法、装置及设备

Info

Publication number: CN110111135B
Application number: CN201910287392.7A
Authority: CN
Inventors: 赵唯嘉; 王宁; 梁志远; 王宣定; 孔淑琴; 赖晓文; 张元�; 王鹏
Original assignee: Guangdong Electric Power Transaction Center Co ltd
Current assignee: Guangdong Electric Power Transaction Center Co ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2023-04-07
Anticipated expiration: 2039-04-09
Also published as: CN110111135A

Abstract

本发明公开了发电侧成员动态报价决策方法、装置及设备，方法包括S1、生成各发电成员的强化学习初始策略空间，并对每一报价策略的选择概率进行初始化；S2、选定选择概率最大的报价策略；S3、利用出清模型得到市场出清结果；S4、基于对角化优化机制生成局部最优策略空间；S5、通过强化学习方法计算每一报价策略的评价函数值并修正报价策略的选择概率；S6、当不满足强化学习终止条件时重新执行步骤S2；S7、当判定评价函数值满足强化学习终止条件时，输出最优报价策略。本发明解决出现具有纳什均衡的市场中出清结果偏离纳什均衡点的问题，同时引入对市场发电成员的分析，以更加贴近市场发电成员的真实地决策过程。

Description

一种发电侧成员动态报价决策方法、装置及设备

技术领域

本发明涉及电力市场技术领域，尤其是涉及一种发电侧成员动态报价决策方法、装置及设备。

背景技术

集中竞价市场每日都会出清，市场成员在交易中会积累大量的信息，为发电成员不断尝试报价提供了条件。在日前市场中，发电成员会根据历史的报价和收益不断调整自身的报价策略。针对电力市场交易的模拟一方面要建立集中竞价出清模型，以模拟市场的出清过程，另一方面需要从发电成员的行为模拟出发，研究其报价决策模型，从而分析发电成员个体决策如何在整体上影响市场的均衡。

各个发电成员是差别化的，采用Multi-Agent结构对发电成员进行建模时，核心在于研究发电成员的报价决策模型。在对现有技术的调查研究过程中，本发明的发明人发现，现有技术都采用强化学习方法模拟市场成员不断学习报价决策的过程，强化学习方法与发电成员的认识市场的过程是类似的，其学习机制能够有效模拟真实市场的建立和发展过程。

强化学习方法的策略集空间是固定且有限的，策略集只能在不连续的空间内选择，且强化学习的评价函数是完全经验的模型，不包括对于真实市场的特点的认识，进行对利润信号的强化会隐含地削弱成发电成员决策对于风险因素考虑，目前尚未有丰富策略空间及考虑市场成员对市场的认知和分析的研究开展。

因而仅采用强化学习方法其智能程度要弱于真实市场个体，当市场存在纳什均衡时强化学习方法会使得市场均衡稳定在长期合作博弈的均衡点，这违背真实市场的规律。

发明内容

本发明提供了一种发电侧成员动态报价决策方法、装置及设备，以解决出现具有纳什均衡的市场中出清结果偏离纳什均衡点的问题，同时引入对市场发电成员的分析，以更加贴近市场发电成员的真实地决策过程。

第一方面，本发明实施例提供一种发电侧成员动态报价决策方法，至少包括以下步骤：

S1、根据输入的电力市场交易信息生成各发电成员的强化学习初始策略空间，并对所述初始策略空间中的每一报价策略的选择概率进行初始化；

S2、选定选择概率最大的报价策略；

S3、利用集中竞价市场的出清模型对报价数据进行优化并得到市场出清结果，其中，所述市场出清结果包括各发电成员的中标电量和出清价格；

S4、基于对角化优化机制分析各发电成员的报价决策机理，并根据历史数据分析得到各发电成员本次报价的局部最优策略空间；

S5、通过强化学习方法计算得到所述局部最优策略空间中的每一报价策略的评价函数值并修正报价策略的选择概率，根据评价函数值的大小顺序映射报价策略的选择概率值；

S6、当所述评价函数值不满足强化学习终止条件时，重新执行步骤S2；

S7、当判定所述评价函数值满足强化学习终止条件时，输出最优报价策略。

基于上述方案，对发电成员Agent的报价决策模型进行修正，并考虑个人决策与其节点边际电价和中标电量的关系，为发电成员建立局部最优策略空间，类似于为发电成员找到占优策略集，再依据强化学习方法选择报价策略，从而能够解决出现具有纳什均衡的市场中出清结果偏离纳什均衡点的问题，同时引入对市场发电成员的分析，以更加贴近市场发电成员的真实地决策过程，这对于发电侧成员进行最优动态报价决策具有重要意义。

结合第一方面，在第一方面的第一种可能的实现方式中，所述步骤S1中的所述初始策略空间中的报价策略，具体为：

所述报价策略在最小出力和最大出力之间分为若干段容量，且每一段容量对应一个边际发电成本，所述报价策略不改变容量分段数，只改变各段容量的报价，并遵循以下原则：

a.所述若干段容量的报价呈递增式增长，以保证发电成本函数为凸函数；

b.在形成所述初始策略空间时，对各段容量的报价进行离散化处理，以各段容量对应的边际发电成本为基准，并取基准的[0.8 0.9 … 1.3]倍数作为各段容量的报价；

c.各段容量的报价小于或等于最高限价，且大于或等于最低限价。

结合第一方面第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述步骤S1中的对所述初始策略空间中的每一报价策略的选择概率进行初始化，具体为：

在初始化时，设定所述初始策略空间中的所有报价策略的选择概率均相同。

结合第一方面第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述步骤S2、选定选择概率最大的报价策略，具体为：

在初始化时，选择步骤S1的所述初始策略空间中的选择概率最大的报价策略，若每一报价策略的选择概率均相同，则进行随机抽选；或

当执行步骤S6时，选择所述局部最优策略空间中的选择概率最大的报价策略。

结合第一方面，在第一方面的第五种可能的实现方式中，所述步骤S4的基于对角化优化机制分析各发电成员的报价决策机理，具体为：

根据发电成员的中标信息判断其在市场中的状态，分立地看待发电成员的个体决策对于市场总体出清的影响，采用对角化优化机制分析发电成员的报价决策；

设定存在多台放电机组同时竞价，每一发电机组对应有多种报价策略；

在每一次出清结束后，第N_i台机组基于对角化优化机制，假定除所述第N_i台机组之外的N-1台发电机组的报价不变，以选取所述第N_i台机组自身的最优报价策略，最终得到每一发电机组自身的最优报价策略并用于下一次市场出清，直到市场出清结果达到纳什均衡时结束；

其中，N为所述多台发电机组的数量，且N为大于1的整数，N_i为所述多台发电机组的其中任一台发电机组。

结合第一方面第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述步骤S4的根据历史数据分析得到各发电成员本次报价的局部最优策略空间，具体为：

根据发电机组是否为边际机组分出以下四类情况下机组对应的局部最优策略空间：

(1)当发电机组的中标容量等于最大出力时，则发电成员的节点边际成本大于或等于最大容量段的报价，表明上一次出清中节点边际电价的价格不由该发电机的报价决定，该发电机组不是边际机组，则将最大容量段的报价提升至所述节点边际电价以上；

(2)当发电机组的中标容量大于中标容量所在分段的最小出力，且小于所述中标容量所在分段的最大出力时，表明上一次出清中节点边际电价等于中标段容量的报价，且小于或等于下一段容量的报价，该发电机组属于边际机组；其中，所述中标段容量的报价高于本段边际成本并低于下一段容量的上一次报价；

(3)当发电机组的中标容量等于最小出力时，表明发电成员的节点边际电价小于或等于第二段容量的报价，且大于或等于第一段容量的报价，则将局部最优策略空间的第一段容量报价提升至边际成本和节点边际电价之间，第二段容量和第三段容量的报价仍按照边际成本报价；

(4)当发电机组未中标时，则表明报价太高并选择边际成本报价策略，或选择评价函数值最高的策略。

结合第一方面，在第一方面的第七种可能的实现方式中，所述步骤S5、通过强化学习方法计算得到所述局部最优策略空间中的每一报价策略的评价函数值并修正报价策略的选择概率，根据评价函数值的大小顺序映射报价策略的选择概率值，具体为：

定义从任意初始状态s开始的收益累计值为V(s_t)＝r(s_t,a_t)；其中，r(s,a)为每一报价策略的回报，s为环境状态，a为对应状态s下采取的报价策略；

当发电成员执行完一次动作α后，回报值r_t即为累积回报收益，以此更新该状态下策略集的评价函数P(s_t,a_t)；

遵循遗忘性和学习性的条件反射原理，计算每一报价策略的评价函数值：

其中，P(s_t,a_t)为每一报价策略的评价函数值，α为遗忘系数，0<α<1，λ为学习因子，0≤λ≤1；

根据评价函数值的大小顺序映射报价策略的选择概率值，所述评价函数值越大，则对应的报价策略的选择概率值越大。

结合第一方面第七种可能的实现方式，在第一方面的第八种可能的实现方式中，所述步骤S6和所述步骤S7中的所述强化学习终止条件，具体为：

出现报价策略的评价函数值明显优于其他报价策略的评价函数值，或由所述评价函数值映射的报价策略的选择概率值接近于1；

各报价策略的评价函数值不再更新或由所述评价函数值映射的报价策略的选择概率值不再更新。

第二方面，本发明实施例提供一种发电侧成员动态报价决策装置，包括：

信息输入模块，用于获取电力市场交易信息，所述电力市场交易信息包括经过信息筛选和转化的公开市场信息、历史交易数据、各发电机组的报价数据、出清结果；

强化学习初始策略空间生成模块，用于根据输入的电力市场交易信息生成各发电成员的强化学习初始策略空间；

报价策略选择概率初始化模块，用于对所述初始策略空间中的每一报价策略的选择概率进行初始化；

报价策略选定模块，用于选定选择概率最大的报价策略；

市场出清模块，用于利用集中竞价市场的出清模型对报价数据进行优化并得到市场出清结果，其中，所述市场出清结果包括各发电成员的中标电量和出清价格；

局部最优策略空间生成模块，用于基于对角化优化机制分析各发电成员的报价决策机理，并根据历史数据分析得到各发电成员本次报价的局部最优策略空间；

策略评价函数值计算模块，用于通过强化学习方法计算得到所述局部最优策略空间中的每一报价策略的评价函数值；

策略选择概率修正模块，用于修正报价策略的选择概率，根据评价函数值的大小顺序映射报价策略的选择概率值；

强化学习终止条件判断模块，用于判断所述评价函数值不满足强化学习终止条件；

动态调整模块，用于当所述评价函数值不满足强化学习终止条件时，则由所述报价策略选定模块继续执行；

输出模块，用于当判定所述评价函数值满足强化学习终止条件时，输出最优报价策略。

第三方面，提供一种发电侧成员动态报价决策设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述的发电侧成员动态报价决策方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的电力市场的发电侧成员动态报价决策方法的流程示意图；

图2是本发明实施例提供的电力市场的发电侧成员动态报价决策方法的局部最优策略示意图；

图3是本发明实施例提供的电力市场的发电侧成员动态报价决策方法的局部最优策略示意图；

图4是本发明实施例提供的电力市场的发电侧成员动态报价决策方法的局部最优策略示意图；

图5是本发明实施例提供的电力市场的发电侧成员动态报价决策方法的局部最优策略示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一实施例

请参见图1，本发明第一实施例提供一种发电侧成员动态报价决策方法，至少包括以下步骤：

在其中一种可能的实现方式中，由于发电成员一般采用分段报价，报价函数分段数会有限制，报价也会受到价格帽限制；同时申报的容量需要满足发电机组的最大出力和最小出力限制。

因此，为了在为各发电成员Agent生成策略空间时具有统一性，本实施例假设各Agent采用相似的分段方法，如图2所示。

报价策略在最小出力和最大出力之间分段，分段个数可自定义，在本实施例中，为便于介绍，将报价策略分为2段容量，各段容量对应一个边际发电成本。

a.所述若干段容量的报价呈递增式增长，以保证发电成本函数为凸函数；在此条件下才能保证SCUC可优化，也符合一般发电成员的供给函数特点；

b.在形成所述初始策略空间时，对各段容量的报价进行离散化处理，以各段容量对应的边际发电成本为基准，并取基准的[0.80.9…1.3]倍数作为各段容量的报价；在此情况下策略空间包含了边际成本报价的策略，并且策略集是有限的，考虑到发电成员较多时，策略空间的维数增加，会使强化学习的轮次增多学习过程变慢。因此，在初始化生成策略空间时将报价策略的间隔设置更大，在决策新下一轮报价时再细化策略。

接下来，需要初始化报价策略选择概率，在初始时，策略空间中每个策略被选中的概率是一样的，例如策略空间中有20个策略，则每个策略的选择概率为5％。

S2、选定选择概率最大的报价策略；

在本实施例中，在初始化时，选择步骤S1的所述初始策略空间中的选择概率最大的报价策略，若每一报价策略的选择概率均相同，则进行随机抽选；或

在本实施例中，通过市场Agent收集所有的报价数据后，利用集中竞价市场的出清模型完成优化，从而获取出清后的Agent中标电量和出清价格。

在其中一种可能的实现方式中，所述步骤S4的基于对角化优化机制分析各发电成员的报价决策机理，具体为：

根据发电成员的中标信息判断其在市场中的状态，分立地看待发电成员的个体决策对于市场总体出清的影响，采用对角化优化机制分析发电成员的报价决策；即各发电成员仅对自身的策略变化做出最优决策，在市场的策略矩阵上体现为各发电成员调整对角化策略，因而成为对角化优化机制。

作为示例性的，基于对角化优化机制分析市场成员的报价决策过程演示如下：

假设有A、B、C三台发电机组同时竞价，A机组有m种报价策略，B机组有n种报价策略，C机组有K种报价策略，则所有发电机组在市场中的策略矩阵如式(1)所示。

假设第一次报价时三个机组的报价策略矩阵如式(2)：

在第一次市场出清后，机组A基于对角化优化机制，假定B、C机组报价不变，选取自身最优策略假定为A⁽²⁾；

机组B基于对角化优化机制，假定A、C机组报价不变，选取自身最优策略假定为B⁽⁷⁾；

机组C基于对角化优化机制，假定A、C机组报价不变，选取自身最优策略假定为C⁽⁵⁾；

则此时用于第二次市场出清的报价策略矩阵如式(3)所示：

同理，每一次出清结束后机组假定其他机组报价不变，根据市场出清结果选择自身最优的报价策略，用于下一次市场出清，直到市场出清结果达到纳什均衡，此过程中的报价策略形成方法即为基于对角化优化机制分析市场成员的报价决策。

采用对角化优化机制具有如下的优点：

1)若市场存在稳定的纳什均衡，在纳什均衡点处，市场成员的报价机制能够保持稳定。由于认为对手报价策略不变，该发电成员的局部最优策略空间保持不变，从而各市场成员均会保持纳什均衡的报价决策。

2)若市场出清结果不是纳什均衡，经过每轮对角化策略优化过程，一定会有发电成员为提高利润改变自身的报价策略，则市场的均衡还将不断调整，直至达到纳什均衡。因为在对角化优化机制中，认为报价策略不变即是将市场中所有交易对手的报价决策简化成为一个单一对手的整体决策，在该给定整体决策下由发电成员选择占优策略，则一定会向纳什均衡决策靠近。

3)若市场不存在纳什均衡，对于部分发电成员而言总是具有占优策略，所以不存在纳什均衡的市场也会有部分发电成员的报价最终会收敛。而对其余发电成员而言，其报价会不断地进行调整和尝试。

因此采用对角化优化机制充分利用了市场信息，符合市场成员对于电力市场的认知水平，并且有利于市场模型收敛至纳什均衡点。

所述步骤S4的根据历史数据分析得到各发电成员本次报价的局部最优策略空间，具体为：

(1)当发电机组的中标容量等于最大出力时，则发电成员的节点边际成本大于或等于最大容量段的报价，表明上一次出清中节点边际电价的价格不由该发电机的报价决定，该发电机组不是边际机组，但其具有投机空间，则将最大容量段的报价提升至所述节点边际电价LMP以上才会带来更高的收益。

由于提高第三段报价但低于现有的不会增加其中标时的LMP价格，对于谨慎的发电Agent而言可以通过报价的逐步提高试探市场的价格空间。而报价升高市场认为该机组的发电成本较高，降低中标概率，因此可以适当降低前两段发电容量的报价，甚至使其略低于边际成本。因此在该中标情况下发电机组的局部最优空间如图3所示，黑色粗细线代表了发电机组的边际成本，黑色粗虚线代表了LMP和中标电量，阴影部分表示报价策略空间。

(2)当发电机组的中标容量大于中标容量所在分段的最小出力，且小于所述中标容量所在分段的最大出力时，表明上一次出清中节点边际电价等于中标段容量的报价，且小于或等于下一段容量的报价，该发电机组属于边际机组；其中，所述中标段容量的报价高于本段边际成本并低于下一段容量的上一次报价。

因此发电成员有通过投机试探边际段容量的激励，若是提高边际段容量的报价可能会有抬高LMP，但是可能降低中标电量。若是降低边际段容量的报价一定会降低LMP，但是可能增加中标电量。

因此该段容量的报价应当高于本段边际成本低于下一段容量的上一次报价；如图4所示，任何时候最后一段容量的报价不得低于其边际发电成本，在图4中，黑色粗细线代表了发电机组的边际成本，黑色粗虚线代表了LMP和中标电量，阴影部分表示报价策略空间。

(3)当发电机组的中标容量等于最小出力时，表明发电成员的节点边际电价小于或等于第二段容量的报价，且大于或等于第一段容量的报价，因此第一段容量的报价不应远小于边际发电成本，否则影响中标价格，发电亏损；则将局部最优策略空间的第一段容量报价提升至边际成本和节点边际电价之间。

如图5所示，由于第二段报价已经是按照边际成本报价，仍高于LMP，则无需调整，若调价使其低于LMP，虽中标但实质亏损盈利较少，无意义；故最优策略空间第二、三段报价仍按照边际成本报价。在图5中，黑色粗细线代表了发电机组的边际成本，黑色粗虚线代表了LMP和中标电量，阴影部分表示报价策略空间。

在其中一种可能的实现方式中，定义从任意初始状态s开始的收益累计值为V(s_t)＝r(s_t,a_t)；其中，r(s,a)为每一报价策略的回报，s为环境状态，a为对应状态s下采取的报价策略；

由于强化学习经过一段时间后，可能会有相同的状态和策略出现。因此要遵循遗忘性和学习性的条件反射原理。其中遗忘性即最近的经验对于决策的影响更大，通过遗忘系数α作用；学习性即刚开始学习时的学习速度更快，通过学习因子λ发挥作用，随着强化学习的过程，λ的值应当逐渐变小。因此，遵循遗忘性和学习性的条件反射原理，计算每一报价策略的评价函数值：

其中，P(s_t,a_t)为每一报价策略的评价函数值，α为遗忘系数，0<α<1，可自定义数值，λ为学习因子，0≤λ≤1；

所述步骤S6和所述步骤S7中的所述强化学习终止条件，具体为：

基于上述方案，本发明第一实施例对发电成员Agent的报价决策模型进行修正，并考虑个人决策与其节点边际电价和中标电量的关系，为发电成员建立局部最优策略空间，类似于为发电成员找到占优策略集，再依据强化学习方法选择报价策略，从而能够解决出现具有纳什均衡的市场中出清结果偏离纳什均衡点的问题，同时引入对市场发电成员的分析，以更加贴近市场发电成员的真实地决策过程，这对于发电侧成员进行最优动态报价决策具有重要意义。

本发明第二实施例：

本发明第二实施例还提供了一种发电侧成员动态报价决策装置，用于执行本发明第一实施例提供的发电侧成员动态报价决策方法，发电竞价装置可包括以下项中的至少一个：终端、计算机(PC)、服务器等。包括：

报价策略选定模块，用于选定选择概率最大的报价策略；

本发明第三实施例：

本发明第三实施例还提供了一种发电侧成员动态报价决策设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，例如对象固定程序。所述处理器执行所述计算机程序时实现如上述的发电侧成员动态报价决策方法的步骤，例如图1所示的步骤S1。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述发电侧成员动态报价决策设备中的执行过程。

所述发电侧成员动态报价决策设备可以是桌上型计算机、笔记本、掌上电脑及智能平板等计算设备。所述发电侧成员动态报价决策设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述部件仅仅是运行仿真模拟设备的示例，并不构成对运行仿真模拟设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电力市场的发电竞价设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述运行仿真模拟设备的控制中心，利用各种接口和线路连接整个发电侧成员动态报价决策设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述运行仿真模拟设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述发电侧成员动态报价决策设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种发电侧成员动态报价决策方法，其特征在于，至少包括以下步骤：

S2、选定选择概率最大的报价策略；

S7、当判定所述评价函数值满足强化学习终止条件时，输出最优报价策略；

所述步骤S2、选定选择概率最大的报价策略，具体为：

2.如权利要求1所述的发电侧成员动态报价决策方法，其特征在于，所述步骤S1中的所述初始策略空间中的报价策略，具体为：

b.在形成所述初始策略空间时，对各段容量的报价进行离散化处理，以各段容量对应的边际发电成本为基准，并取基准的0.8，0.9，…,1.3倍作为各段容量的报价；

3.如权利要求1或2所述的发电侧成员动态报价决策方法，其特征在于，所述步骤S1中的对所述初始策略空间中的每一报价策略的选择概率进行初始化，具体为：

4.如权利要求1所述的发电侧成员动态报价决策方法，其特征在于，所述步骤S4的基于对角化优化机制分析各发电成员的报价决策机理，具体为：

5.如权利要求1或4所述的发电侧成员动态报价决策方法，其特征在于，所述步骤S4的根据历史数据分析得到各发电成员本次报价的局部最优策略空间，具体为：

6.如权利要求1所述的发电侧成员动态报价决策方法，其特征在于，所述步骤S5、通过强化学习方法计算得到所述局部最优策略空间中的每一报价策略的评价函数值并修正报价策略的选择概率，根据评价函数值的大小顺序映射报价策略的选择概率值，具体为：

7.如权利要求1或6所述的发电侧成员动态报价决策方法，其特征在于，所述步骤S6和所述步骤S7中的所述强化学习终止条件，具体为：

8.一种发电侧成员动态报价决策装置，其特征在于，包括：

报价策略选定模块，用于选定选择概率最大的报价策略；

输出模块，用于当判定所述评价函数值满足强化学习终止条件时，输出最优报价策略；

所述报价策略选定模块选定选择概率最大的报价策略，具体为：

在初始化时，所述报价策略选定模块选择所述初始策略空间中的选择概率最大的报价策略，若每一报价策略的选择概率均相同，则进行随机抽选；或

当所述评价函数值不满足强化学习终止条件时，所述报价策略选定模块选择所述局部最优策略空间中的选择概率最大的报价策略。

9.一种发电侧成员动态报价决策设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的发电侧成员动态报价决策方法。