CN113706197A

CN113706197A - 基于强化和模仿学习的多微网电能交易的定价策略及系统

Info

Publication number: CN113706197A
Application number: CN202110991407.5A
Authority: CN
Inventors: 杨清宇; 张杨; 李东鹤; 安豆
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-11-26

Abstract

本发明公开了一种基于强化和模仿学习算法的主电网定价策略及系统，该定价策略包括微网电能需求的预测，自生成专家知识模仿学习机制以及策略学习机制，该方法能够在主电网未知各微网效用函数参数的前提下，制定最优的定价策略，从而最大化其个人经济效益，该方法利用强化和模仿学习算法学习最优定价策略，通过实验证明了其在一定的迭代后能够收敛达到至经济效益的最优状态，与其他的策略方法相比，本方法能够最大限度的市场的整体经济效益，实现需求响应，减小电能供应和分配的压力。

Description

基于强化和模仿学习的多微网电能交易的定价策略及系统

技术领域

本发明属于电力系统数据安全和控制技术领域，涉及一种基于强化和模仿学习的多微网电能交易的定价策略。

背景技术

智能电网是一个典型的信息物理系统(CPS)，能够实现信息和电力在各实体之间的双向传输，包括发电厂、最终用户和每个终端用户。与传统电网相比，智能电网保证了能源的安全、高效、可靠的分配。微电网作为智能电网中的局部配电系统，因其具有环境友好性和自我可持续性等优点，近年来备受关注。为满足负荷需求，可再生发电机组被集成到微网中。然而，间歇性可再生发电机组由于不可预测的环境因素不能满足微网的负荷需求，特别是在负荷高峰时期，这一现象更为严重。因此，微网仍需要从考虑主电网(MPG)处购电。在主电网和微网之间的电力交易市场中，主电网负责根据定价策略制定交易价格，微网确定电力交易量。因此，主电网的定价策略在智能电网的电力市场中起着重要的作用。一方面，主电网的定价策略在很大程度上决定了能源市场的经济效益。另一方面，主电网的定价策略对需求响应的实现起着重要作用。因此，有必要制定一种既能实现经济利润最大化又能实现需求响应的有效定价策略。

博弈论是分析电力市场中主电网和微网之间相互作用过程并制定电价策略的有力工具。主电网-微网电能交易市场可以看作一个典型的斯塔克尔伯格交易模型，主电网作为领导者，各微网作为模型中的跟随者。已有相关研究表明，斯塔克尔伯格博弈模型虽然可以精确地模拟电力交易，但仍存在一个难以解决的问题，即先前的研究是在假定主电网完全了解电力消费者的准确效用函数的基础上制定主电网的定价策略。然而，在现实世界中，这种假设是不切实际的，因为效用函数属于消费者的私人信息，消费者大多不愿意将这些信息泄露给他人。

近年来，强化学习(RL)和模仿学习(IL)的快速发展使得在不了解微网效用函数的前提下学习定价策略成为了可能。强化学习通过智能体与环境的交互作用来帮助智能体学习最优的行动策略，并被引入到电力市场定价策略学习中。模仿学习方法提供专家知识，允许智能体在学习行动策略时模仿专家行为策略。因此，RL经常与IL方法结合使用来提高策略的学习效率。

然而，在电力市场中应用基于RL和IL(RIL)的方法时，仍面临两个主要的挑战:1)微网电力市场环境下的奖励函数由于日结算机制的存在而变得稀疏；其中主电网仅在日结算时获得该天的经济收益，极大地降低了RL方法的学习效率；2)RIL方法的性能依赖于专家知识数据集的质量。然而，在智能电网电力交易研究领域，公认的专家数据集较少，这使得IL方法难以直接应用于电力市场。

发明内容

针对现有技术中存在的问题，本发明的目的在于利用强化和模仿学习算法，为主电网在主电网-微网电能交易市场中制定最优的定价策略。该方法能够克服奖励函数稀疏，缺少专家数据集等缺点，实现主电网经济效益的最大化。

本发明是通过以下技术方案来实现：

一种基于强化和模仿学习的多微网电能交易的定价策略，包括以下步骤：

步骤1、将能源交易中主电网的定价策略问题转化为马尔科夫博弈模型，定义马尔科夫博弈模型的环境状态、博弈者的行为和奖赏函数；

步骤2、构建主电网的深度神经网络，包括策略网络、评判网络、目标策略网络和目标评判网络；

策略网络用于根据代理人的行为信息输出定价策略，评判网络用于评判代理人的行为策略，目标网络则用于策略网络和评判网络的更新；

步骤3、根据前若干个训练片段的预测平均值并结合大数定律确定当前训练片段微网电能需求预测值；

步骤4、根据需求预测值并结合当前电能市场环境状态确定主电网的定价行为；

步骤5、根据定价行为确定主电网的奖赏函数；

步骤6、将上一时刻的市场环境状态、定价行为、奖赏函数以及当前的环境状态作为过渡集合，采用过渡集合对主电网的策略网络和评判网络进行更新；

步骤7、重复步骤3-6，直至完成所有训练片段中所有时刻的主电网策略网络和评判网络的更新，策略网络输出最优的定价策略。

优选的，步骤3中微网电能需求预测值的确定方法如下：

其中，e为训练片段，

为在训练片段e时微网在时刻t的需求量，

相应需求量的预测值。

优选的，步骤4中确定主电网的定价行为的方法如下：

所述主电网观察电能市场当前的环境状态，并依据所观察到的状态

以及随机产生的噪声N_t选择执行定价行为。

优选的，所述主电网的定价行为的表达式如下：

a_t＝μ(s_t)+U_t(0,ζ^tI)

其中，U_t(0,ζ^tI)是用于确定探索率的随机高斯噪声，s_t代表当前时刻状态，μ代表策略网络，ζ为初始噪声大小，值为0.95，I代表单位矩阵。

优选的，所述过渡集合的表达式如下：

{s_t-1,a_t-1,r_t-1s_t}

其中，s_t-1为上一时刻的环境状态，a_t-1为上一时刻的行为信息，r_t-1为上一时刻的奖赏函数，s_t为当前时刻的环境状态。

优选的，所述主电网的策略网络的更新方法如下：

其中，θ^u为策略网络的参数，Q(x_j,a_j)为评判网络的输出；

所述评价网络的更新方法如下：

其中F为每次策略训练时选取的数据量，γ为折扣因子，Q′(x_j,a_j)为目标评判网络的输出。

优选的，所述目标策略网络和目标评判网络的参数跟随策略网络和评价网络进行软更新：

θ^μ′←τθ^μ+(1-τ)θ^μ′

θ^Q′←τθ^Q+(1-τ)θ^Q′

其中，τ表示软更新参数，τ＝1，θ^u′为目标策略网络的参数，θ^Q为评判网络的参数，θ^Q′为目标评判网络的参数。

优选的，所述深度神经包括普通训练数据库和专家知识训练数据库，步骤7中，当前训练片段结束时，对于训练数据{(x_t,a_t,r_t,x_t+1),t∈[1,T]}，将其加入普通训练数据库，当累计奖赏

时，同时将其加入专家知识训练数据库中。

优选的，步骤7中在策略训练开始阶段，从专家知识训练数据库选取较多的训练数据，进行下一片段的训练时，减小从专家知识训练数据库选取的训练数据数量，同时增加普通训练数据库选取的训练数据数量。

一种基于强化和模仿学习的多微网电能交易的定价策略的系统，包括博弈模块，用于将能源交易中主电网的定价策略问题转化为马尔科夫博弈模型；

深度神经网络模块、构建主电网的深度神经网络，包括策略网络、评判网络、目标策略网络和目标评判网络；

需求预测模块，用于根据前若干个训练片段的预测平均值并结合大数定律确定当前训练片段微网电能需求预测值；

定价行为模块，用于根据需求预测值并结合当前电能市场环境状态确定主电网的定价行为；

奖赏模块，用于根据定价行为确定主电网的奖赏函数；

训练模块、用于将上一时刻的市场环境状态、定价行为、奖赏函数以及当前的环境状态作为过渡集合对主电网的策略网络和评判网络进行训练更新，策略网络输出最优的定价策略。

与现有技术相比，本发明具有以下有益的技术效果：

本发明公开了一种基于强化和模仿学习算法的主电网定价策略，该定价策略包括微网电能需求的预测，自生成专家知识模仿学习机制以及策略学习机制，该方法能够在主电网未知各微网效用函数参数的前提下，制定最优的定价策略，从而最大化其个人经济效益，该方法利用强化和模仿学习算法学习最优定价策略，通过实验证明了其在一定的迭代后能够收敛达到至经济效益的最优状态，与其他的策略方法相比，本方法能够最大限度的市场的整体经济效益，实现需求响应，减小电能供应和分配的压力。

附图说明

图1为本发明中智能电网下主电网-微网电能交易的市场模型图；

图2为本发明中基于强化和模仿学习算法的定价策略算法模型图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

主电网和微网之间的电力交易是一个单领导者多跟随者电能交易市场，其中主电网作为电能交易市场的卖家，扮演领导者的角色，即首先做出定价策略；各微网作为电能交易市场的买家，扮演跟随者的角色，即根据电能价格决定电能购买数量。在该电能交易市场中，主电网需要制定最优的定价策略，从而最大化其经济效益。

首先将该电能交易市场建模为一个斯塔克尔博格交易模型，在该模型中，主电网作为博弈模型的领导者，首先制定定价策略；各微网作为博弈模型的跟随者，根据主电网制定的电能价格确定电能交易数量。

主电网作为该模型中的领导者需要决定其定价策略从而最大化其经济效益，主电网的目标函数可以表述如下：

约束条件为：

p_min≤p^t≤p_max

其中p^t为所需决定的电能价格，

为各微网的电能购买量，ω，β表示主电网生产电能的成本参数，n代表微网的数量。

主电网依据一定策略制定电能价格后，各微网决定其能源购买的数量以最大化其经济效益，微网的目标函数表述为：

约束条件为：

其中

表示微网i在t时刻的电能需求量，α为用于描述电能需求与实际购买量存在差异而造成的经济损失，k表示电能需求与实际购买量可能的最大差异值。

主电网和各微网之间的电能交易构成了一个斯塔克尔伯格模型，该模型中存在着一个斯塔克尔博格均衡策略，在该均衡策略下，任何参与者都无法通过改变其交易策略提高其个人的经济效益，该均衡策略具体描述如下：

对于任意给定的电能价格p^t，微网i的最优电能购买策略如下：

首先，对微网的效用函数求导，可以得到

其二阶导数为-2α。由于α为正数，其二阶导数为负数，因此其一阶导数单调递减。当一阶导数为0时，

当

时，一阶导数大于0，当

时，一阶导数小于0，因此微网的效用函数先单调递增，后单调递减。考虑到约束条件，当

时，其效用函数取得最大值。

基于微网最优的电能购买策略，主电网的最优定价策略如下：

其中

证明：将微网的最优购买策略代入主电网的效用函数，可以得到

约束条件不变。

将上式转化为拉格朗日等式：

KKT条件为：

λ₁(p_min-p^t)＝0,λ₂(p^t-p_max)＝0

λ₁≤0，λ₂≤0

对上式进行求解，即可得到

其中

该均衡策略虽然在理论上是可得的，由于该均衡策略假定主电网已知各微网的效用函数参数，但是在实际场景中由于主电网无法获得各微网效用函数的参数，因此其无法计算最优的定价策略。为了解决这一问题，本文提出了一个基于强化和模仿学习算法的最优定价策略，从而使得主电网在无法获得微网效用函数参数的情况下，同样能够学习到最优定价策略。

参阅图1和图2，一种基于强化和模仿学习的多微网电能交易的定价策略，其核心是一个单智能体强化和模仿学习方法，在策略学习开始前，首先需要对马尔科夫决策过程模型和网络模型进行初始化，具体包括以下步骤：

步骤1、将能源交易中的定价策略问题转化为马尔科夫博弈模型，定义马尔科夫博弈模型的环境状态、转移概率、博弈者的行为和奖赏函数；

为了利用强化学习方法解决定价策略问题，首先需要将该问题建立成一个马尔科夫决策过程模型，对强化学习中所设计的状态，行为等代理人和环境信息进行定义。基于电能交易市场的马尔科夫决策过程模型主要由五个要素构成：

1、智能体：主电网；

2、环境状态s_t：时刻t，以及本时刻微网的需求的预测量d_t；

3、行为a_t：主电网的在时刻t的定价p_t；

4、转移概率

5、奖赏函数r：主电网在时刻t所获得的个人效益。

在智能体与环境的交互中，整条训练轨迹可以表示为x₁,a₁,r₁,x₂,a₂,r₂,K,x_T,a_T,r_T,强化学习方法的目标是学习一个最优行为策略π^*:S→P(A)从而能够获得最大的累计奖赏

其中γ∈[0,1]是折扣因子。

步骤2、构建深度神经网络，包括策略网络、评判网络、目标策略网络、目标评判网络、普通训练数据库和专家知识训练数据库。

本强化和模仿学习方法框架主要由四类深度神经网络构成：策略网络，评判网络，目标策略网络和目标评判网络。

其中，策略网络用于输出代理人的行为信息，评判网络用于评判代理人的行为策略的好坏，目标策略网络和目标评判网络分别用于策略网络和评判网络的更新。在学习过程开始前需要对各个网络进行初始化。

本申请所提出的强化和模仿学习算法中，包含两个训练数据库，其中一个作为普通训练数据库，所有训练数据都存储其中。另一个作为专家知识训练数据库，只有训练数据累计奖赏大于某一个阈值时才存储器中。具体的，对于训练数据{(x_t,a_t,r_t,x_t+1),t∈[1,T]}，当累计奖赏

时，认为其学习策略很优秀，足以作为专家知识令智能体在策略学习时进行模仿，并将其放入专家知识训练数据库中。

深度神经网络的整个学习过程可以分为E个片段，每个片段又可以分为T个时段，该方法的执行主要可分为以下几个步骤：

步骤3、根据前若干个训练片段的平均值并结合大数定律确定当前训练片段微网电能需求预测值。

对微网的电能需求预测，微网的电能需求量对于主电网的电能调度极为重要，只有根据微网的需求量预测才能对电能的生产安排进行准确的调度。然而在实际场景中，电能需求量是微网的个人信息，在交易前微网往往不愿意对其他用户透露这一信息。为了解决这一问题，采用历史信息对微网进行预测。

假设微网i在时刻t的需求量为

在某一训练片段e中，为了对其进行预测，可以将这一值近似为前e-1个训练片段中的平均值，根据大数定律，该近似值在训练片段趋于无穷大时等于其真实值。具体地，本发明对微网电能需求预测值按下式进行计算：

其中，e为训练片段，

为在训练片段e时微网在时刻t的需求量，

相应需求量的预测值。

步骤4、根据需求预测值并结合当前电能市场环境状态确定主电网的定价行为。

在对电能需求的预测后，主电网观察电能市场环境状态，并依据所观察到的状态

以及随机产生的噪声N_t选择执行定价行为，t时刻选取的行为如下：

a_t＝μ(s_t)+U_t(0,ζ^tI)

其中，U_t(0,ζ^tI)是用于确定探索率的随机高斯噪声，μ代表策略网络，ζ为初始噪声大小，值为0.95。I代表单位矩阵。。

步骤5、根据定价行为确定主电网的奖赏函数，将上一时刻的市场环境状态、行为信息、奖赏函数以及当前的环境状态作为过渡集合用于更新策略网络；

在前两个阶段结束后，市场环境的当前状态s_t，行为信息以及主电网在本时段的奖赏函数可以被确定下来，将从上一时刻到这一时刻的过渡集合{s_t-1,a_t-1,r_t-1s_t}存储进普通训练数据库中。

步骤6、采用过渡集合对主电网的策略网络和评判网络进行更新。

在策略训练时，随机选取普通训练数据库和专家知识训练数据库中的数据进行训练。其中，在训练开始阶段，从专家知识训练数据库选取较多的训练数据，以提升学习效率，随着学习的不断进行，逐渐减小从专家知识训练数据库选取的训练数据数量。

策略训练过程中，策略网络按照下式进行更新：

其中，θ^u为策略网络的参数，Q(x_j,a_j)为评判网络的输出；

评价网络按下式进行更新：

目标网络参数跟随策略网络和评价网络进行软更新：

θ^μ′←τθ^μ+(1-τ)θ^μ′

θ^Q′←τθ^Q+(1-τ)θ^Q′

步骤7、若时段尚未达到最终时段T，则重复步骤3，否则进入步骤8。

步骤8、在该训练片段结束时，对于训练数据{(x_t,a_t,r_t,x_t+1),t∈[1,T]}，当累计奖赏

时，认为其学习策略很优秀，足以作为专家知识令智能体在策略学习时进行模仿，并将其放入专家知识训练数据库中。在策略训练时，随机选取普通训练数据库和专家知识训练数据库中的数据进行训练。其中，在训练开始阶段，从专家知识训练数据库选取较多的训练数据，以提升学习效率，随着学习的不断进行，逐渐减小从专家知识训练数据库选取的训练数据数量。

为解决日解决机制带来的奖励函数系数的问题，本发明对奖赏函数进行重构，对所有储存在专家知识训练数据库中的非结算时刻的奖赏函数，均设置奖赏函数为r_t＝+1，这保证了任意时刻的训练数据的有效性，能够有效的提升策略学习效率。

在该训练片段结束后，若训练片段的执行次数尚未到E，则重新执行步骤3，直至策略更新结束。

本发明所述的基于强化和模仿学习算法的主电网定价策略，能够在主电网未知各微网效用函数参数的前提下，制定最优的定价策略，从而最大化其个人经济效益。利用强化和模仿学习算法学习最优定价策略，该策略包含三部分：微网电能需求的预测，自生成专家知识模仿学习机制以及策略学习机制。该方法的输入为策略网络的初始结构，输出是主电网的定价策略。本方法实施简单，实用性强，并且通过实验证明了其在一定的迭代后能够收敛达到至经济效益的最优状态，该方法可以提升电能交易市场的经济效益，提高用户参与个体化电能交易市场的积极性，促进智能电网个体化电能交易的发展。与其他的策略方法相比，本方法能够最大限度的市场的整体经济效益，实现需求响应，减小电能供应和分配的压力。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。