CN113706197A - 基于强化和模仿学习的多微网电能交易的定价策略及系统 - Google Patents

基于强化和模仿学习的多微网电能交易的定价策略及系统 Download PDF

Info

Publication number
CN113706197A
CN113706197A CN202110991407.5A CN202110991407A CN113706197A CN 113706197 A CN113706197 A CN 113706197A CN 202110991407 A CN202110991407 A CN 202110991407A CN 113706197 A CN113706197 A CN 113706197A
Authority
CN
China
Prior art keywords
network
strategy
pricing
training
electric energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110991407.5A
Other languages
English (en)
Inventor
杨清宇
张杨
李东鹤
安豆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110991407.5A priority Critical patent/CN113706197A/zh
Publication of CN113706197A publication Critical patent/CN113706197A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化和模仿学习算法的主电网定价策略及系统,该定价策略包括微网电能需求的预测,自生成专家知识模仿学习机制以及策略学习机制,该方法能够在主电网未知各微网效用函数参数的前提下,制定最优的定价策略,从而最大化其个人经济效益,该方法利用强化和模仿学习算法学习最优定价策略,通过实验证明了其在一定的迭代后能够收敛达到至经济效益的最优状态,与其他的策略方法相比,本方法能够最大限度的市场的整体经济效益,实现需求响应,减小电能供应和分配的压力。

Description

基于强化和模仿学习的多微网电能交易的定价策略及系统
技术领域
本发明属于电力系统数据安全和控制技术领域,涉及一种基于强化和模仿学习的多微网电能交易的定价策略。
背景技术
智能电网是一个典型的信息物理系统(CPS),能够实现信息和电力在各实体之间的双向传输,包括发电厂、最终用户和每个终端用户。与传统电网相比,智能电网保证了能源的安全、高效、可靠的分配。微电网作为智能电网中的局部配电系统,因其具有环境友好性和自我可持续性等优点,近年来备受关注。为满足负荷需求,可再生发电机组被集成到微网中。然而,间歇性可再生发电机组由于不可预测的环境因素不能满足微网的负荷需求,特别是在负荷高峰时期,这一现象更为严重。因此,微网仍需要从考虑主电网(MPG)处购电。在主电网和微网之间的电力交易市场中,主电网负责根据定价策略制定交易价格,微网确定电力交易量。因此,主电网的定价策略在智能电网的电力市场中起着重要的作用。一方面,主电网的定价策略在很大程度上决定了能源市场的经济效益。另一方面,主电网的定价策略对需求响应的实现起着重要作用。因此,有必要制定一种既能实现经济利润最大化又能实现需求响应的有效定价策略。
博弈论是分析电力市场中主电网和微网之间相互作用过程并制定电价策略的有力工具。主电网-微网电能交易市场可以看作一个典型的斯塔克尔伯格交易模型,主电网作为领导者,各微网作为模型中的跟随者。已有相关研究表明,斯塔克尔伯格博弈模型虽然可以精确地模拟电力交易,但仍存在一个难以解决的问题,即先前的研究是在假定主电网完全了解电力消费者的准确效用函数的基础上制定主电网的定价策略。然而,在现实世界中,这种假设是不切实际的,因为效用函数属于消费者的私人信息,消费者大多不愿意将这些信息泄露给他人。
近年来,强化学习(RL)和模仿学习(IL)的快速发展使得在不了解微网效用函数的前提下学习定价策略成为了可能。强化学习通过智能体与环境的交互作用来帮助智能体学习最优的行动策略,并被引入到电力市场定价策略学习中。模仿学习方法提供专家知识,允许智能体在学习行动策略时模仿专家行为策略。因此,RL经常与IL方法结合使用来提高策略的学习效率。
然而,在电力市场中应用基于RL和IL(RIL)的方法时,仍面临两个主要的挑战:1)微网电力市场环境下的奖励函数由于日结算机制的存在而变得稀疏;其中主电网仅在日结算时获得该天的经济收益,极大地降低了RL方法的学习效率;2)RIL方法的性能依赖于专家知识数据集的质量。然而,在智能电网电力交易研究领域,公认的专家数据集较少,这使得IL方法难以直接应用于电力市场。
发明内容
针对现有技术中存在的问题,本发明的目的在于利用强化和模仿学习算法,为主电网在主电网-微网电能交易市场中制定最优的定价策略。该方法能够克服奖励函数稀疏,缺少专家数据集等缺点,实现主电网经济效益的最大化。
本发明是通过以下技术方案来实现:
一种基于强化和模仿学习的多微网电能交易的定价策略,包括以下步骤:
步骤1、将能源交易中主电网的定价策略问题转化为马尔科夫博弈模型,定义马尔科夫博弈模型的环境状态、博弈者的行为和奖赏函数;
步骤2、构建主电网的深度神经网络,包括策略网络、评判网络、目标策略网络和目标评判网络;
策略网络用于根据代理人的行为信息输出定价策略,评判网络用于评判代理人的行为策略,目标网络则用于策略网络和评判网络的更新;
步骤3、根据前若干个训练片段的预测平均值并结合大数定律确定当前训练片段微网电能需求预测值;
步骤4、根据需求预测值并结合当前电能市场环境状态确定主电网的定价行为;
步骤5、根据定价行为确定主电网的奖赏函数;
步骤6、将上一时刻的市场环境状态、定价行为、奖赏函数以及当前的环境状态作为过渡集合,采用过渡集合对主电网的策略网络和评判网络进行更新;
步骤7、重复步骤3-6,直至完成所有训练片段中所有时刻的主电网策略网络和评判网络的更新,策略网络输出最优的定价策略。
优选的,步骤3中微网电能需求预测值的确定方法如下:
Figure BDA0003232460750000031
其中,e为训练片段,
Figure BDA0003232460750000032
为在训练片段e时微网在时刻t的需求量,
Figure BDA0003232460750000033
相应需求量的预测值。
优选的,步骤4中确定主电网的定价行为的方法如下:
所述主电网观察电能市场当前的环境状态,并依据所观察到的状态
Figure BDA0003232460750000041
以及随机产生的噪声Nt选择执行定价行为。
优选的,所述主电网的定价行为的表达式如下:
at=μ(st)+Ut(0,ζtI)
其中,Ut(0,ζtI)是用于确定探索率的随机高斯噪声,st代表当前时刻状态,μ代表策略网络,ζ为初始噪声大小,值为0.95,I代表单位矩阵。
优选的,所述过渡集合的表达式如下:
{st-1,at-1,rt-1st}
其中,st-1为上一时刻的环境状态,at-1为上一时刻的行为信息,rt-1为上一时刻的奖赏函数,st为当前时刻的环境状态。
优选的,所述主电网的策略网络的更新方法如下:
Figure BDA0003232460750000042
其中,θu为策略网络的参数,Q(xj,aj)为评判网络的输出;
所述评价网络的更新方法如下:
Figure BDA0003232460750000043
其中F为每次策略训练时选取的数据量,γ为折扣因子,Q′(xj,aj)为目标评判网络的输出。
优选的,所述目标策略网络和目标评判网络的参数跟随策略网络和评价网络进行软更新:
θμ′←τθμ+(1-τ)θμ′
θQ′←τθQ+(1-τ)θQ′
其中,τ表示软更新参数,τ=1,θu′为目标策略网络的参数,θQ为评判网络的参数,θQ′为目标评判网络的参数。
优选的,所述深度神经包括普通训练数据库和专家知识训练数据库,步骤7中,当前训练片段结束时,对于训练数据{(xt,at,rt,xt+1),t∈[1,T]},将其加入普通训练数据库,当累计奖赏
Figure BDA0003232460750000051
时,同时将其加入专家知识训练数据库中。
优选的,步骤7中在策略训练开始阶段,从专家知识训练数据库选取较多的训练数据,进行下一片段的训练时,减小从专家知识训练数据库选取的训练数据数量,同时增加普通训练数据库选取的训练数据数量。
一种基于强化和模仿学习的多微网电能交易的定价策略的系统,包括博弈模块,用于将能源交易中主电网的定价策略问题转化为马尔科夫博弈模型;
深度神经网络模块、构建主电网的深度神经网络,包括策略网络、评判网络、目标策略网络和目标评判网络;
策略网络用于根据代理人的行为信息输出定价策略,评判网络用于评判代理人的行为策略,目标网络则用于策略网络和评判网络的更新;
需求预测模块,用于根据前若干个训练片段的预测平均值并结合大数定律确定当前训练片段微网电能需求预测值;
定价行为模块,用于根据需求预测值并结合当前电能市场环境状态确定主电网的定价行为;
奖赏模块,用于根据定价行为确定主电网的奖赏函数;
训练模块、用于将上一时刻的市场环境状态、定价行为、奖赏函数以及当前的环境状态作为过渡集合对主电网的策略网络和评判网络进行训练更新,策略网络输出最优的定价策略。
与现有技术相比,本发明具有以下有益的技术效果:
本发明公开了一种基于强化和模仿学习算法的主电网定价策略,该定价策略包括微网电能需求的预测,自生成专家知识模仿学习机制以及策略学习机制,该方法能够在主电网未知各微网效用函数参数的前提下,制定最优的定价策略,从而最大化其个人经济效益,该方法利用强化和模仿学习算法学习最优定价策略,通过实验证明了其在一定的迭代后能够收敛达到至经济效益的最优状态,与其他的策略方法相比,本方法能够最大限度的市场的整体经济效益,实现需求响应,减小电能供应和分配的压力。
附图说明
图1为本发明中智能电网下主电网-微网电能交易的市场模型图;
图2为本发明中基于强化和模仿学习算法的定价策略算法模型图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
主电网和微网之间的电力交易是一个单领导者多跟随者电能交易市场,其中主电网作为电能交易市场的卖家,扮演领导者的角色,即首先做出定价策略;各微网作为电能交易市场的买家,扮演跟随者的角色,即根据电能价格决定电能购买数量。在该电能交易市场中,主电网需要制定最优的定价策略,从而最大化其经济效益。
首先将该电能交易市场建模为一个斯塔克尔博格交易模型,在该模型中,主电网作为博弈模型的领导者,首先制定定价策略;各微网作为博弈模型的跟随者,根据主电网制定的电能价格确定电能交易数量。
主电网作为该模型中的领导者需要决定其定价策略从而最大化其经济效益,主电网的目标函数可以表述如下:
Figure BDA0003232460750000071
约束条件为:
pmin≤pt≤pmax
其中pt为所需决定的电能价格,
Figure BDA0003232460750000072
为各微网的电能购买量,ω,β表示主电网生产电能的成本参数,n代表微网的数量。
主电网依据一定策略制定电能价格后,各微网决定其能源购买的数量以最大化其经济效益,微网的目标函数表述为:
Figure BDA0003232460750000073
约束条件为:
Figure BDA0003232460750000074
其中
Figure BDA0003232460750000075
表示微网i在t时刻的电能需求量,α为用于描述电能需求与实际购买量存在差异而造成的经济损失,k表示电能需求与实际购买量可能的最大差异值。
主电网和各微网之间的电能交易构成了一个斯塔克尔伯格模型,该模型中存在着一个斯塔克尔博格均衡策略,在该均衡策略下,任何参与者都无法通过改变其交易策略提高其个人的经济效益,该均衡策略具体描述如下:
对于任意给定的电能价格pt,微网i的最优电能购买策略如下:
Figure BDA0003232460750000076
首先,对微网的效用函数求导,可以得到
Figure BDA0003232460750000077
其二阶导数为-2α。由于α为正数,其二阶导数为负数,因此其一阶导数单调递减。当一阶导数为0时,
Figure BDA0003232460750000081
Figure BDA0003232460750000082
时,一阶导数大于0,当
Figure BDA0003232460750000083
时,一阶导数小于0,因此微网的效用函数先单调递增,后单调递减。考虑到约束条件,当
Figure BDA0003232460750000084
时,其效用函数取得最大值。
基于微网最优的电能购买策略,主电网的最优定价策略如下:
Figure BDA0003232460750000085
其中
Figure BDA0003232460750000086
Figure BDA0003232460750000087
Figure BDA0003232460750000088
Figure BDA0003232460750000089
证明:将微网的最优购买策略代入主电网的效用函数,可以得到
Figure BDA00032324607500000810
约束条件不变。
将上式转化为拉格朗日等式:
Figure BDA0003232460750000091
KKT条件为:
Figure BDA0003232460750000092
λ1(pmin-pt)=0,λ2(pt-pmax)=0
λ1≤0,λ2≤0
对上式进行求解,即可得到
Figure BDA0003232460750000093
其中
Figure BDA0003232460750000094
Figure BDA0003232460750000095
该均衡策略虽然在理论上是可得的,由于该均衡策略假定主电网已知各微网的效用函数参数,但是在实际场景中由于主电网无法获得各微网效用函数的参数,因此其无法计算最优的定价策略。为了解决这一问题,本文提出了一个基于强化和模仿学习算法的最优定价策略,从而使得主电网在无法获得微网效用函数参数的情况下,同样能够学习到最优定价策略。
参阅图1和图2,一种基于强化和模仿学习的多微网电能交易的定价策略,其核心是一个单智能体强化和模仿学习方法,在策略学习开始前,首先需要对马尔科夫决策过程模型和网络模型进行初始化,具体包括以下步骤:
步骤1、将能源交易中的定价策略问题转化为马尔科夫博弈模型,定义马尔科夫博弈模型的环境状态、转移概率、博弈者的行为和奖赏函数;
为了利用强化学习方法解决定价策略问题,首先需要将该问题建立成一个马尔科夫决策过程模型,对强化学习中所设计的状态,行为等代理人和环境信息进行定义。基于电能交易市场的马尔科夫决策过程模型主要由五个要素构成:
1、智能体:主电网;
2、环境状态st:时刻t,以及本时刻微网的需求的预测量dt
3、行为at:主电网的在时刻t的定价pt
4、转移概率
Figure BDA0003232460750000101
5、奖赏函数r:主电网在时刻t所获得的个人效益。
在智能体与环境的交互中,整条训练轨迹可以表示为x1,a1,r1,x2,a2,r2,K,xT,aT,rT,强化学习方法的目标是学习一个最优行为策略π*:S→P(A)从而能够获得最大的累计奖赏
Figure BDA0003232460750000102
其中γ∈[0,1]是折扣因子。
步骤2、构建深度神经网络,包括策略网络、评判网络、目标策略网络、目标评判网络、普通训练数据库和专家知识训练数据库。
本强化和模仿学习方法框架主要由四类深度神经网络构成:策略网络,评判网络,目标策略网络和目标评判网络。
其中,策略网络用于输出代理人的行为信息,评判网络用于评判代理人的行为策略的好坏,目标策略网络和目标评判网络分别用于策略网络和评判网络的更新。在学习过程开始前需要对各个网络进行初始化。
本申请所提出的强化和模仿学习算法中,包含两个训练数据库,其中一个作为普通训练数据库,所有训练数据都存储其中。另一个作为专家知识训练数据库,只有训练数据累计奖赏大于某一个阈值时才存储器中。具体的,对于训练数据{(xt,at,rt,xt+1),t∈[1,T]},当累计奖赏
Figure BDA0003232460750000111
时,认为其学习策略很优秀,足以作为专家知识令智能体在策略学习时进行模仿,并将其放入专家知识训练数据库中。
深度神经网络的整个学习过程可以分为E个片段,每个片段又可以分为T个时段,该方法的执行主要可分为以下几个步骤:
步骤3、根据前若干个训练片段的平均值并结合大数定律确定当前训练片段微网电能需求预测值。
对微网的电能需求预测,微网的电能需求量对于主电网的电能调度极为重要,只有根据微网的需求量预测才能对电能的生产安排进行准确的调度。然而在实际场景中,电能需求量是微网的个人信息,在交易前微网往往不愿意对其他用户透露这一信息。为了解决这一问题,采用历史信息对微网进行预测。
假设微网i在时刻t的需求量为
Figure BDA0003232460750000112
在某一训练片段e中,为了对其进行预测,可以将这一值近似为前e-1个训练片段中的平均值,根据大数定律,该近似值在训练片段趋于无穷大时等于其真实值。具体地,本发明对微网电能需求预测值按下式进行计算:
Figure BDA0003232460750000113
其中,e为训练片段,
Figure BDA0003232460750000114
为在训练片段e时微网在时刻t的需求量,
Figure BDA0003232460750000115
相应需求量的预测值。
步骤4、根据需求预测值并结合当前电能市场环境状态确定主电网的定价行为。
在对电能需求的预测后,主电网观察电能市场环境状态,并依据所观察到的状态
Figure BDA0003232460750000122
以及随机产生的噪声Nt选择执行定价行为,t时刻选取的行为如下:
at=μ(st)+Ut(0,ζtI)
其中,Ut(0,ζtI)是用于确定探索率的随机高斯噪声,μ代表策略网络,ζ为初始噪声大小,值为0.95。I代表单位矩阵。。
步骤5、根据定价行为确定主电网的奖赏函数,将上一时刻的市场环境状态、行为信息、奖赏函数以及当前的环境状态作为过渡集合用于更新策略网络;
在前两个阶段结束后,市场环境的当前状态st,行为信息以及主电网在本时段的奖赏函数可以被确定下来,将从上一时刻到这一时刻的过渡集合{st-1,at-1,rt-1st}存储进普通训练数据库中。
步骤6、采用过渡集合对主电网的策略网络和评判网络进行更新。
在策略训练时,随机选取普通训练数据库和专家知识训练数据库中的数据进行训练。其中,在训练开始阶段,从专家知识训练数据库选取较多的训练数据,以提升学习效率,随着学习的不断进行,逐渐减小从专家知识训练数据库选取的训练数据数量。
策略训练过程中,策略网络按照下式进行更新:
Figure BDA0003232460750000121
其中,θu为策略网络的参数,Q(xj,aj)为评判网络的输出;
评价网络按下式进行更新:
Figure BDA0003232460750000131
其中F为每次策略训练时选取的数据量,γ为折扣因子,Q′(xj,aj)为目标评判网络的输出。
目标网络参数跟随策略网络和评价网络进行软更新:
θμ′←τθμ+(1-τ)θμ′
θQ′←τθQ+(1-τ)θQ′
其中,τ表示软更新参数,τ=1,θu′为目标策略网络的参数,θQ为评判网络的参数,θQ′为目标评判网络的参数。
步骤7、若时段尚未达到最终时段T,则重复步骤3,否则进入步骤8。
步骤8、在该训练片段结束时,对于训练数据{(xt,at,rt,xt+1),t∈[1,T]},当累计奖赏
Figure BDA0003232460750000132
时,认为其学习策略很优秀,足以作为专家知识令智能体在策略学习时进行模仿,并将其放入专家知识训练数据库中。在策略训练时,随机选取普通训练数据库和专家知识训练数据库中的数据进行训练。其中,在训练开始阶段,从专家知识训练数据库选取较多的训练数据,以提升学习效率,随着学习的不断进行,逐渐减小从专家知识训练数据库选取的训练数据数量。
为解决日解决机制带来的奖励函数系数的问题,本发明对奖赏函数进行重构,对所有储存在专家知识训练数据库中的非结算时刻的奖赏函数,均设置奖赏函数为rt=+1,这保证了任意时刻的训练数据的有效性,能够有效的提升策略学习效率。
在该训练片段结束后,若训练片段的执行次数尚未到E,则重新执行步骤3,直至策略更新结束。
本发明所述的基于强化和模仿学习算法的主电网定价策略,能够在主电网未知各微网效用函数参数的前提下,制定最优的定价策略,从而最大化其个人经济效益。利用强化和模仿学习算法学习最优定价策略,该策略包含三部分:微网电能需求的预测,自生成专家知识模仿学习机制以及策略学习机制。该方法的输入为策略网络的初始结构,输出是主电网的定价策略。本方法实施简单,实用性强,并且通过实验证明了其在一定的迭代后能够收敛达到至经济效益的最优状态,该方法可以提升电能交易市场的经济效益,提高用户参与个体化电能交易市场的积极性,促进智能电网个体化电能交易的发展。与其他的策略方法相比,本方法能够最大限度的市场的整体经济效益,实现需求响应,减小电能供应和分配的压力。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,包括以下步骤:
步骤1、将能源交易中主电网的定价策略问题转化为马尔科夫博弈模型,定义马尔科夫博弈模型的环境状态、博弈者的行为和奖赏函数;
步骤2、构建主电网的深度神经网络,包括策略网络、评判网络、目标策略网络和目标评判网络;
策略网络用于根据代理人的行为信息输出定价策略,评判网络用于评判代理人的行为策略,目标网络则用于策略网络和评判网络的更新;
步骤3、根据前若干个训练片段的预测平均值并结合大数定律确定当前训练片段微网电能需求预测值;
步骤4、根据需求预测值并结合当前电能市场环境状态确定主电网的定价行为;
步骤5、根据定价行为确定主电网的奖赏函数;
步骤6、将上一时刻的市场环境状态、定价行为、奖赏函数以及当前的环境状态作为过渡集合,采用过渡集合对主电网的策略网络和评判网络进行更新;
步骤7、重复步骤3-6,直至完成所有训练片段中所有时刻的主电网策略网络和评判网络的更新,策略网络输出最优的定价策略。
2.根据权利要求1所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,步骤3中微网电能需求预测值的确定方法如下:
Figure FDA0003232460740000011
其中,e为训练片段,
Figure FDA0003232460740000012
为在训练片段e时微网在时刻t的需求量,
Figure FDA0003232460740000013
相应需求量的预测值。
3.根据权利要求1所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,步骤4中确定主电网的定价行为的方法如下:
所述主电网观察电能市场当前的环境状态,并依据所观察到的状态
Figure FDA0003232460740000021
以及随机产生的噪声Nt选择执行定价行为。
4.根据权利要求3所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,所述主电网的定价行为的表达式如下:
at=μ(st)+Ut(0,ζtI)
其中,Ut(0,ζtI)是用于确定探索率的随机高斯噪声,st代表当前时刻状态,μ代表策略网络,ζ为初始噪声大小,值为0.95,I代表单位矩阵。
5.根据权利要求1所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,所述过渡集合的表达式如下:
{st-1,at-1,rt-1st}
其中,st-1为上一时刻的环境状态,at-1为上一时刻的行为信息,rt-1为上一时刻的奖赏函数,st为当前时刻的环境状态。
6.根据权利要求1所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,所述主电网的策略网络的更新方法如下:
Figure FDA0003232460740000022
其中,θu为策略网络的参数,Q(xj,aj)为评判网络的输出;
所述评价网络的更新方法如下:
Figure FDA0003232460740000023
其中F为每次策略训练时选取的数据量,γ为折扣因子,Q′(xj,aj)为目标评判网络的输出。
7.根据权利要求6所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,所述目标策略网络和目标评判网络的参数跟随策略网络和评价网络进行软更新:
θμ′←τθμ+(1-τ)θμ′
θQ′←τθQ+(1-τ)θQ′
其中,τ表示软更新参数,τ=1,θu′为目标策略网络的参数,θQ为评判网络的参数,θQ′为目标评判网络的参数。
8.根据权利要求1所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,所述深度神经包括普通训练数据库和专家知识训练数据库,步骤7中,当前训练片段结束时,对于训练数据{(xt,at,rt,xt+1),t∈[1,T]},将其加入普通训练数据库,当累计奖赏
Figure FDA0003232460740000031
时,同时将其加入专家知识训练数据库中。
9.根据权利要求1所述的一种基于强化和模仿学习的多微网电能交易的定价策略,其特征在于,步骤7中在策略训练开始阶段,从专家知识训练数据库选取较多的训练数据,进行下一片段的训练时,减小从专家知识训练数据库选取的训练数据数量,同时增加普通训练数据库选取的训练数据数量。
10.一种权利要求1-9任一项所述的基于强化和模仿学习的多微网电能交易的定价策略的系统,其特征在于,包括
博弈模块,用于将能源交易中主电网的定价策略问题转化为马尔科夫博弈模型;
深度神经网络模块、构建主电网的深度神经网络,包括策略网络、评判网络、目标策略网络和目标评判网络;
策略网络用于根据代理人的行为信息输出定价策略,评判网络用于评判代理人的行为策略,目标网络则用于策略网络和评判网络的更新;
需求预测模块,用于根据前若干个训练片段的预测平均值并结合大数定律确定当前训练片段微网电能需求预测值;
定价行为模块,用于根据需求预测值并结合当前电能市场环境状态确定主电网的定价行为;
奖赏模块,用于根据定价行为确定主电网的奖赏函数;
训练模块、用于将上一时刻的市场环境状态、定价行为、奖赏函数以及当前的环境状态作为过渡集合对主电网的策略网络和评判网络进行训练更新,策略网络输出最优的定价策略。
CN202110991407.5A 2021-08-26 2021-08-26 基于强化和模仿学习的多微网电能交易的定价策略及系统 Pending CN113706197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110991407.5A CN113706197A (zh) 2021-08-26 2021-08-26 基于强化和模仿学习的多微网电能交易的定价策略及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110991407.5A CN113706197A (zh) 2021-08-26 2021-08-26 基于强化和模仿学习的多微网电能交易的定价策略及系统

Publications (1)

Publication Number Publication Date
CN113706197A true CN113706197A (zh) 2021-11-26

Family

ID=78655565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110991407.5A Pending CN113706197A (zh) 2021-08-26 2021-08-26 基于强化和模仿学习的多微网电能交易的定价策略及系统

Country Status (1)

Country Link
CN (1) CN113706197A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115118477A (zh) * 2022-06-22 2022-09-27 四川数字经济产业发展研究院 一种基于深度强化学习的智能电网状态恢复方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN110404264A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质
US20200160411A1 (en) * 2018-11-16 2020-05-21 Mitsubishi Electric Research Laboratories, Inc. Methods and Systems for Optimal Joint Bidding and Pricing of Load Serving Entity
WO2020154542A1 (en) * 2019-01-23 2020-07-30 Google Llc Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
CN112162564A (zh) * 2020-09-25 2021-01-01 南京大学 基于模仿学习和强化学习算法的无人机飞行控制方法
CN113095463A (zh) * 2021-03-31 2021-07-09 南开大学 一种基于进化强化学习的机器人对抗方法
CN113255936A (zh) * 2021-05-28 2021-08-13 浙江工业大学 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
US20200160411A1 (en) * 2018-11-16 2020-05-21 Mitsubishi Electric Research Laboratories, Inc. Methods and Systems for Optimal Joint Bidding and Pricing of Load Serving Entity
WO2020154542A1 (en) * 2019-01-23 2020-07-30 Google Llc Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
CN110404264A (zh) * 2019-07-25 2019-11-05 哈尔滨工业大学(深圳) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质
CN112162564A (zh) * 2020-09-25 2021-01-01 南京大学 基于模仿学习和强化学习算法的无人机飞行控制方法
CN113095463A (zh) * 2021-03-31 2021-07-09 南开大学 一种基于进化强化学习的机器人对抗方法
CN113255936A (zh) * 2021-05-28 2021-08-13 浙江工业大学 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAODI WANG等: "Surrogate model enabled deep reinforcement learning for hybrid energy community operation", 《APPLIED ENERGY》 *
XIAODI WANG等: "Surrogate model enabled deep reinforcement learning for hybrid energy community operation", 《APPLIED ENERGY》, pages 1 - 4 *
熊珞琳 等: "基于强化学习的综合能源系统管理综述", 《自动化学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115118477A (zh) * 2022-06-22 2022-09-27 四川数字经济产业发展研究院 一种基于深度强化学习的智能电网状态恢复方法及系统
CN115118477B (zh) * 2022-06-22 2024-05-24 四川数字经济产业发展研究院 一种基于深度强化学习的智能电网状态恢复方法及系统

Similar Documents

Publication Publication Date Title
CN113610303B (zh) 一种负荷预测方法及系统
Gu et al. GAN-based model for residential load generation considering typical consumption patterns
Flach et al. Long-term optimal allocation of hydro generation for a price-maker company in a competitive market: latest developments and a stochastic dual dynamic programming approach
Cau et al. A co-evolutionary approach to modelling the behaviour of participants in competitive electricity markets
CN104636985A (zh) 一种改进bp神经网络的输电线路无线电干扰预测方法
Cheng et al. Behavioral decision-making in power demand-side response management: A multi-population evolutionary game dynamics perspective
Cincotti et al. The genoa artificial power-exchange
Sedeh et al. Optimization of bidding strategy in the day-ahead market by consideration of seasonality trend of the market spot price
CN105023053A (zh) 电量分配方法及系统
Liu et al. Research on bidding strategy of thermal power companies in electricity market based on multi-agent deep deterministic policy gradient
CN107230004A (zh) 一种可再生能源项目投资组合优化方法、装置及计算设备
Lincoln et al. Comparing policy gradient and value function based reinforcement learning methods in simulated electrical power trade
Inteha et al. A data driven approach for day ahead short term load forecasting
Zhang et al. A safe reinforcement learning-based charging strategy for electric vehicles in residential microgrid
Boukas et al. Intra-day bidding strategies for storage devices using deep reinforcement learning
CN113706197A (zh) 基于强化和模仿学习的多微网电能交易的定价策略及系统
Yang et al. Selective learning for strategic bidding in uniform pricing electricity spot market
CN106682934A (zh) 一种购电竞价策略
Lu et al. An interval prediction method for day-ahead electricity price in wholesale market considering weather factors
Yi et al. Model-free economic dispatch for virtual power plants: An adversarial safe reinforcement learning approach
Mather et al. Robust Cournot-Bertrand equilibria on power networks
Kumar et al. Strategic bidding in deregulated market using particle swarm optimization
Scott et al. Identification of manipulation in receding horizon electricity markets
Cano-Martínez et al. Dynamic energy prices for residential users based on Deep Learning prediction models of consumption and renewable generation
Taha et al. Decision-making in energy systems with multiple technologies and uncertain preferences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination