CN112488452B - 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法 - Google Patents

一种基于深度强化学习的能源系统管理多时间尺度最优决策方法 Download PDF

Info

Publication number
CN112488452B
CN112488452B CN202011237161.4A CN202011237161A CN112488452B CN 112488452 B CN112488452 B CN 112488452B CN 202011237161 A CN202011237161 A CN 202011237161A CN 112488452 B CN112488452 B CN 112488452B
Authority
CN
China
Prior art keywords
long
artificial neural
neural network
term memory
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011237161.4A
Other languages
English (en)
Other versions
CN112488452A (zh
Inventor
吕冬翔
左志强
孙子路
李钊
李志�
朱立宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cetc Energy Co ltd
Tianjin University
Original Assignee
Cetc Blue Sky Technology Co ltd
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cetc Blue Sky Technology Co ltd, Tianjin University filed Critical Cetc Blue Sky Technology Co ltd
Priority to CN202011237161.4A priority Critical patent/CN112488452B/zh
Publication of CN112488452A publication Critical patent/CN112488452A/zh
Application granted granted Critical
Publication of CN112488452B publication Critical patent/CN112488452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,通过基于长短期记忆人工神经网络的预测模型得出提前两步时间的光伏电池组的输出功率以及负荷所需功率,从而利用深度强化学习方法对储能电池组的充放电动作产生最优动作决策。本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,考虑单一时间尺度中动作决策在某些情形下会造成系统饱和及不稳定的问题,可根据当前以及预测的未来两个时刻的系统状态,对储能电池组的充放电动作产生最优动作决策;充分考虑未来时刻的系统状态,提高系统动作决策的可靠性。

Description

一种基于深度强化学习的能源系统管理多时间尺度最优决策 方法
技术领域
本发明涉及应用在太阳能无人飞行器背景下的能源系统,提出一种基于深度强化学习的能源系统管理多时间尺度最优决策方法。
背景技术
应用在太阳能无人飞行器背景下的能源系统主要由光伏电池组、储能电池组、各类负载以及能源管理器构成。由于系统没有直接的供电电源,该系统相当于微电网的孤岛运行模式。
在这类能源系统的应用中,由于环境及天气复杂多变,光伏电池阵的输出功率以及负载所需功率有较大的波动性和不确定性。通常添加储能电池组以在光伏输出富余时储存能量,在负载供给不足时提供能量,以维持能源系统的正常运行,并在一定程度上提高太阳能的利用率,储能环节便显得尤为重要。然而储能环节的充放电动作决策是一个复杂的问题,难以采用精确的数学模型或数值计算方法,需要采用数据驱动的人工智能方法进行决策。
在储能环节的决策问题中,强化学习算法Q-learning、深度强化学习算法DQN是为当前的主流。在Q-learning算法中,调度策略是由一个奖励函数的数值优化来得到的。通过不断选择储能单元的调度动作,获得环境的反馈,实现奖励数值的优化,从而不断更新Q表。当Q表收敛到最大值时,完成Q表的更新训练,即可由Q表产生合理的动作决策。然而Q-learning算法只适用于离散的状态与动作空间的情形,能够在状态与动作维度较低的条件下行之有效,却无法解决连续的状态与动作空间下的动作决策问题。
而DQN算法可以弥补Q-learning算法的不足之处,其采用Q-Learning的强化学习思想,使用奖励值及贝尔曼方程来构造标签,从而获得深度学习所需要的训练集。并通过经验回放的方法来打破数据间的关联,达到深度学习中数据对相关性及独立同分布的要求。该算法使用一个主网络(Q网络)产生当前Q值,使用另外一个目标网络(目标Q网络)产生目标Q值,来保证神经网络参数的收敛性。
尽管仅考虑当前时刻的奖励最大化来进行储能单元的决策,在大多数情形下是行之有效的,环境中仍然存在一些特殊情形。若忽略未来时刻的环境状态,而仅根据当前时刻的状态进行动作决策,可能会造成系统的饱和或不稳定问题。因此对环境的状态进行提前两步的预测,根据当前状态与预测状态共同产生储能单元的动作决策是有必要的。
发明内容
克服现有技术的不足,本发明提供一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,所述方法包括步骤:
获取t时刻能源系统的第一系统状态;
获取(t-1)时刻所述能源系统的第二系统状态;
根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t+1)时刻和(t+2)时刻所述能源系统分别对应的第三系统状态和第四系统状态;
根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策。
优选地,所述根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型包括步骤:
获取所述第一系统状态、k组所述第二系统状态、长短期记忆人工神经网络及所述长短期记忆人工神经网络的输出目标值;
将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络;
获取所述长短期记忆人工神经网络输出的网络输出数据;
根据所述网络输出数据和所述输出目标值反向计算所述长短期记忆人工神经网络中各参数的误差;
利用随机梯度下降算法更新所述长短期记忆人工神经网络的梯度;
判断所述长短期记忆人工神经网络是否满足预设条件;
若是,更新所述长短期记忆人工神经网络以得到所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
若否,返回所述将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络步骤。
优选地,所述判断所述长短期记忆人工神经网络是否满足预设条件包括步骤:
判断所述长短期记忆人工神经网络中各参数的误差是否达到第一阈值。
优选地,所述判断所述长短期记忆人工神经网络是否满足预设条件包括步骤:
判断所述长短期记忆人工神经网络更新梯度的次数是否达到第二阈值。
优选地,所述长短期记忆人工神经网络的表达式为:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0002764596630000031
Figure BDA0002764596630000032
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
yt=Wyht+by
其中,ft、it、ot分别为遗忘门、输入门、输出门;Ct、ht、yt分别为状态信息、隐藏层输出和网络输出;W为权重系数矩阵,Wf为遗忘门ft的权重系数矩阵,依次同理;b为偏置矩阵,bf为遗忘门的偏置矩阵,依次同理;σ为sigmoid函数。
优选地,所述根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t+1)时刻和(t+2)时刻所述能源系统分别对应的第三系统状态和第四系统状态包括步骤:
获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型和t时刻所述能源系统的所述第一系统状态;
将所述第一系统状态输入所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型输出的(t+1)时刻和(t+2)时刻所述能源系统分别对应的所述第三系统状态和所述第四系统状态。
优选地,所述根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策包括步骤:
获取t时刻所述能源系统能量调度的第一奖励函数;
获取(t+1)时刻和(t+2)时刻所述能源系统分别对应的第三系统状态和第四系统状态以及第一动作和第二动作;
根据所述第三系统状态和所述第四系统状态以及所述第一动作和所述第二动作对所述第一奖励函数进行更新以得到第二奖励函数;
初始化经验池和动作值函数;
将t时刻的状态、动作、奖励值以及(t+1)时刻的状态存储到所述经验池;
判断所述经验池大小是否达到2(N+k)个;
若是,从所述经验池中随机取出N组数据,将N组数据经所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型预测得到状态集序列{st,st+1,st+2},并以所述ε-greedy策略选取动作序列{at,at+1,at+2},将t时刻的状态、动作、奖励值以及(t+1)时刻的实际状态存储到经验池;
若否,返回所述初始化经验池和动作值函数步骤;
将t时刻、(t+1)时刻和(t+2)时刻的状态序列及动作输入目标Q网络得到目标Q值Ql-1,并计算三个时刻对应的奖励值;
根据Q值公式计算t时刻的目标Q值Qt
以t时刻、(t+1)时刻和(t+2)时刻的状态序列及动作作为Q网络的输入,以t时刻的目标Q值Qt作为Q网络输出的标签值,使用梯度下降法对Q网络的的权重进行更新;
重复上述操作,每训练2N次,将Q网络的参数赋予目标Q网络以训练Q网络;
当Q网络训练完毕后选取预设时刻的系统状态序列,经所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型预测得到提前两个时刻的状态序列,逐一配以对应的动作序列输入Q网络,产生Q值;
选取Q值最大时的动作序列,将当前时刻的动作作为所述能源系统当前时刻的决策。
优选地,所述第一奖励函数的表达式为:
Figure BDA0002764596630000051
其中,st为t时刻系统的状态序列;at为t时刻系统的动作;Dt为负载需要的能量;
Figure BDA0002764596630000052
为光伏电池组可输出的能量;Act为储能电池组充放电的能量;E为能量损失经验值;β为奖励值可调参数。
优选地,所述第二奖励函数的表达式为:
R(St,At)=γ0f(st,at)+γ1f(st+1,at+1)+γ2f(st+2,at+2)
其中,St为t、t+1、t+2三个时刻系统的状态集序列{st,st+1,st+2};At为t、t+1、t+2三个时刻系统的动作序列{at,at+1,at+2};γn(n=0,1,2)为折扣系数,其中γ0>γ1>γ2,且0<γn<1。
优选地,所述Q值的表达式为:
Q(St,At)l=Q(St,At)l-1+α[R(St,At)-Q(St,At)l-1]
Qt=Q(St,At)l
其中,Q(St,At)l-1为系统在状态序列集St以及动作集At下的原Q值;Q(St,At)l-1为基于贝尔曼方程更新后的Q值。
本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,考虑单一时间尺度中动作决策在某些情形下会造成系统饱和及不稳定的问题,可根据当前以及预测的未来两个时刻的系统状态,对储能电池组的充放电动作产生最优动作决策;充分考虑未来时刻的系统状态,提高系统动作决策的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法中的能源系统示意图;
图2是本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法的流程示意图;
图3是本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法中的系统决策时间序列示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,为本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法中的能源系统,该能源系统由光伏电池组、储能电池组、各类负载以及能源管理器构成。由于系统没有直接的供电电源,该系统相当于微电网的孤岛运行模式。储能电池组在光伏输出富余时储存能量,在负载供给不足时提供能量,以维持能源系统的正常运行,并在一定程度上提高太阳能的利用率。然而储能环节的充放电动作决策是一个复杂的问题,难以采用精确的数学模型或数值计算方法,需要采用数据驱动的人工智能方法进行决策。本发明提出一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,根据预测模型得出提前两步时间的光伏电池组的输出功率以及负荷所需功率,从而利用深度强化学习方法对储能电池组的充放电动作产生最优动作决策。
如图2,在本申请实施例中,本发明提供一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,所述方法包括步骤:
S1:获取t时刻能源系统的第一系统状态;
S2:获取(t-1)时刻所述能源系统的第二系统状态;
S3:根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
S4:根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t+1)时刻和(t+2)时刻所述能源系统分别对应的第三系统状态和第四系统状态;
S5:根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策。
当基于深度强化学习对图1中的能源系统的管理进行多时间尺度最优决策时,首先获取t时刻能源系统的第一系统状态,以及获取(t-1)时刻所述能源系统的第二系统状态;然后根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;接着根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t+1)时刻和(t+2)时刻所述能源系统分别对应的第三系统状态和第四系统状态;然后根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策。
在本申请实施例中,步骤S3中的根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型包括步骤:
获取所述第一系统状态、k组所述第二系统状态、长短期记忆人工神经网络及所述长短期记忆人工神经网络的输出目标值;
将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络;
获取所述长短期记忆人工神经网络输出的网络输出数据;
根据所述网络输出数据和所述输出目标值反向计算所述长短期记忆人工神经网络中各参数的误差;
利用随机梯度下降算法更新所述长短期记忆人工神经网络的梯度;
判断所述长短期记忆人工神经网络是否满足预设条件;
若是,更新所述长短期记忆人工神经网络以得到所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
若否,返回所述将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络步骤。
在本申请实施例中,当根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型时,首先获取所述第一系统状态、k组所述第二系统状态、长短期记忆人工神经网络及所述长短期记忆人工神经网络的输出目标值,然后将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络;接着获取所述长短期记忆人工神经网络输出的网络输出数据,并根据所述网络输出数据和所述输出目标值反向计算所述长短期记忆人工神经网络中各参数的误差;接着利用随机梯度下降算法更新所述长短期记忆人工神经网络的梯度;然后判断所述长短期记忆人工神经网络是否满足预设条件;如果判断为是时,更新所述长短期记忆人工神经网络以得到所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;如果判断为否时,返回所述将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络步骤。
在本申请实施例中,所述判断所述长短期记忆人工神经网络是否满足预设条件包括步骤:
判断所述长短期记忆人工神经网络中各参数的误差是否达到第一阈值。
在本申请实施例中,当判断所述长短期记忆人工神经网络中各参数的误差达到第一阈值时,则认为所述长短期记忆人工神经网络满足预设条件。
在本申请实施例中,所述判断所述长短期记忆人工神经网络是否满足预设条件包括步骤:
判断所述长短期记忆人工神经网络更新梯度的次数是否达到第二阈值。
在本申请实施例中,当判断所述长短期记忆人工神经网络更新梯度的次数达到第二阈值时,则认为所述长短期记忆人工神经网络满足预设条件。
在本申请实施例中,所述长短期记忆人工神经网络的表达式为:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
Figure BDA0002764596630000081
Figure BDA0002764596630000082
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
yt=Wyht+by
其中,ft、it、ot分别为遗忘门、输入门、输出门;Ct、ht、yt分别为状态信息、隐藏层输出和网络输出;W为权重系数矩阵,Wf为遗忘门ft的权重系数矩阵,依次同理;b为偏置矩阵,bf为遗忘门的偏置矩阵,依次同理;σ为sigmoid函数。
在本申请实施例中,所述根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t+1)时刻和(t+2)时刻所述能源系统分别对应的第三系统状态和第四系统状态包括步骤:
获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型和t时刻所述能源系统的所述第一系统状态;
将所述第一系统状态输入所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型输出的(t+1)时刻和(t+2)时刻所述能源系统分别对应的所述第三系统状态和所述第四系统状态。
在本申请实施例中,当根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t+1)时刻和(t+2)时刻所述能源系统分别对应的第三系统状态和第四系统状态时,首先获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型和t时刻所述能源系统的所述第一系统状态;然后将所述第一系统状态输入所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;然后获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型输出的(t+1)时刻和(t+2)时刻所述能源系统分别对应的所述第三系统状态和所述第四系统状态。
在本申请实施例中,所述根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策包括步骤:
获取t时刻所述能源系统能量调度的第一奖励函数;
获取(t+1)时刻和(t+2)时刻所述能源系统分别对应的第三系统状态和第四系统状态以及第一动作和第二动作;
根据所述第三系统状态和所述第四系统状态以及所述第一动作和所述第二动作对所述第一奖励函数进行更新以得到第二奖励函数;
初始化经验池和动作值函数;
将t时刻的状态、动作、奖励值以及(t+1)时刻的状态存储到所述经验池;
判断所述经验池大小是否达到2(N+k)个;
若是,从所述经验池中随机取出N组数据,将N组数据经所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型预测得到状态集序列{st,st+1,st+2},并以所述ε-greedy策略选取动作序列{at,at+1,at+2},将t时刻的状态、动作、奖励值以及(t+1)时刻的实际状态存储到经验池;
若否,返回所述初始化经验池和动作值函数步骤;
将t时刻、(t+1)时刻和(t+2)时刻的状态序列及动作输入目标Q网络得到目标Q值Ql-1,并计算三个时刻对应的奖励值;
根据Q值公式计算t时刻的目标Q值Qt
以t时刻、(t+1)时刻和(t+2)时刻的状态序列及动作作为Q网络的输入,以t时刻的目标Q值Qt作为Q网络输出的标签值,使用梯度下降法对Q网络的的权重进行更新;
重复上述操作,每训练2N次,将Q网络的参数赋予目标Q网络以训练Q网络;
当Q网络训练完毕后选取预设时刻的系统状态序列,经所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型预测得到提前两个时刻的状态序列,逐一配以对应的动作序列输入Q网络,产生Q值;
选取Q值最大时的动作序列,将当前时刻的动作作为所述能源系统当前时刻的决策。时间序列如图3所示。
通过验证,利用本发明的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法对图1所示的能源系统进行储能能量调度,电源系统中光伏单元的发电功率、负载所需功率能够被准确地预测,光伏能源利用率及系统决策的可靠性得以提升。
在本申请实施例中,所述第一奖励函数的表达式为:
Figure BDA0002764596630000111
其中,st为t时刻系统的状态序列;at为t时刻系统的动作;Dt为负载需要的能量;
Figure BDA0002764596630000112
为光伏电池组可输出的能量;Act为储能电池组充放电的能量;E为能量损失经验值;β为奖励值可调参数。
在本申请实施例中,所述第二奖励函数的表达式为:
R(St,At)=γ0f(st,at)+γ1f(st+1,at+1)+γ2f(st+2,at+2)
其中,St为t、t+1、t+2三个时刻系统的状态集序列{st,st+1,st+2};At为t、t+1、t+2三个时刻系统的动作序列{at,at+1,at+2};γn(n=0,1,2)为折扣系数,其中γ0>γ1>γ2,且0<γn<1。
在本申请实施例中,所述Q值的表达式为:
Q(St,At)l=Q(St,At)l-1+α[R(St,At)-Q(St,At)l-1]
Qt=Q(St,At)l
其中,Q(St,At)l-1为系统在状态序列集St以及动作集At下的原Q值;Q(St,At)l-1为基于贝尔曼方程更新后的Q值。
本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,考虑单一时间尺度中动作决策在某些情形下会造成系统饱和及不稳定的问题,可根据当前以及预测的未来两个时刻的系统状态,对储能电池组的充放电动作产生最优动作决策;充分考虑未来时刻的系统状态,提高系统动作决策的可靠性。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (1)

1.一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,其特征在于,所述方法包括步骤:
获取t时刻能源系统的第一系统状态;
获取(t-1)时刻所述能源系统的第二系统状态;
根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t+1)时刻和(t+2)时刻所述能源系统分别对应的第三系统状态和第四系统状态;
根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策;
其中,所述根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型包括步骤:
获取所述第一系统状态、k组所述第二系统状态、长短期记忆人工神经网络及所述长短期记忆人工神经网络的输出目标值;
将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络;
获取所述长短期记忆人工神经网络输出的网络输出数据;
根据所述网络输出数据和所述输出目标值反向计算所述长短期记忆人工神经网络中各参数的误差;
利用随机梯度下降算法更新所述长短期记忆人工神经网络的梯度;
判断所述长短期记忆人工神经网络是否满足预设条件;
若是,更新所述长短期记忆人工神经网络以得到所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
若否,返回所述将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络步骤;所述判断所述长短期记忆人工神经网络是否满足预设条件包括步骤:
判断所述长短期记忆人工神经网络中各参数的误差是否达到第一阈值;所述判断所述长短期记忆人工神经网络是否满足预设条件包括步骤:
判断所述长短期记忆人工神经网络更新梯度的次数是否达到第二阈值;
所述长短期记忆人工神经网络的表达式为:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
Figure FDA0003927336910000021
Figure FDA0003927336910000022
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
yt=Wyht+by
其中,ft、it、ot分别为遗忘门、输入门、输出门;Ct、ht、yt分别为状态信息、隐藏层输出和网络输出;W为权重系数矩阵,Wf为遗忘门ft的权重系数矩阵,依次同理;b为偏置矩阵,bf为遗忘门的偏置矩阵,依次同理;σ为sigmoid函数;所述根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t+1)时刻和(t+2)时刻所述能源系统分别对应的第三系统状态和第四系统状态包括步骤:
获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型和t时刻所述能源系统的所述第一系统状态;
将所述第一系统状态输入所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型输出的(t+1)时刻和(t+2)时刻所述能源系统分别对应的所述第三系统状态和所述第四系统状态;所述根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策包括步骤:
获取t时刻所述能源系统能量调度的第一奖励函数;
获取(t+1)时刻和(t+2)时刻所述能源系统分别对应的第三系统状态和第四系统状态以及第一动作和第二动作;
根据所述第三系统状态和所述第四系统状态以及所述第一动作和所述第二动作对所述第一奖励函数进行更新以得到第二奖励函数;
初始化经验池和动作值函数;
将t时刻的状态、动作、奖励值以及(t+1)时刻的状态存储到所述经验池;
判断所述经验池大小是否达到2(N+k)个;
若是,从所述经验池中随机取出N组数据,将N组数据经所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型预测得到状态集序列{st,st+1,st+2},并以所述ε-greedy策略选取动作序列{at,at+1,at+2},将t时刻的状态、动作、奖励值以及(t+1)时刻的实际状态存储到经验池;
若否,返回所述初始化经验池和动作值函数步骤;
将t时刻、(t+1)时刻和(t+2)时刻的状态序列及动作输入目标Q网络得到目标Q值Ql-1,并计算三个时刻对应的奖励值;
根据Q值公式计算t时刻的目标Q值Qt
以t时刻、(t+1)时刻和(t+2)时刻的状态序列及动作作为Q网络的输入,以t时刻的目标Q值Qt作为Q网络输出的标签值,使用梯度下降法对Q网络的的权重进行更新;
重复上述操作,每训练2N次,将Q网络的参数赋予目标Q网络以训练Q网络;
当Q网络训练完毕后选取预设时刻的系统状态序列,经所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型预测得到提前两个时刻的状态序列,逐一配以对应的动作序列输入Q网络,产生Q值;
选取Q值最大时的动作序列,将当前时刻的动作作为所述能源系统当前时刻的决策;所述第一奖励函数的表达式为:
Figure FDA0003927336910000031
其中,st为t时刻系统的状态序列;at为t时刻系统的动作;Dt为负载需要的能量;
Figure FDA0003927336910000032
为光伏电池组可输出的能量;Act为储能电池组充放电的能量;E为能量损失经验值;β为奖励值可调参数;所述第二奖励函数的表达式为:
R(St,At)=γ0f(st,at)+γ1f(st+1,at+1)+γ2f(st+2,at+2)
其中,St为t、t+1、t+2三个时刻系统的状态集序列{st,st+1,st+2};At为t、t+1、t+2三个时刻系统的动作序列{at,at+1,at+2};γn(n=0,1,2)为折扣系数,其中γ0>γ1>γ2,且0<γn<1;所述Q值的表达式为:
Q(St,At)1=Q(St,At)l-1+α[R(St,At)-Q(St,At)l-1]
Qt=Q(St,At)l
其中,Q(St,At)l-1为系统在状态序列集St以及动作集At下的原Q值;Q(St,At)1-1为基于贝尔曼方程更新后的Q值;
决策方法包括步骤:以三个时刻的状态序列St及动作At作为Q网络的输入,以t时刻的目标Q值Qt作为Q网络输出的标签值,使用梯度下降法对Q网络的的权重进行更新:
重复上述操作,每训练2N次,将Q网络的参数赋予目标Q网络:
在不断扩充经验池的同时,训练Q网络:
Q网络训练完毕后,即可选取某一时刻的系统状态序列,经LSTM模型预测得到提前两个时刻的状态序列,逐一配以动作序列输入Q网络,产生Q值:
选取Q值最大时的动作序列,将其中当前时刻的动作作为系统当前时刻的决策。
CN202011237161.4A 2020-11-06 2020-11-06 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法 Active CN112488452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011237161.4A CN112488452B (zh) 2020-11-06 2020-11-06 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011237161.4A CN112488452B (zh) 2020-11-06 2020-11-06 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法

Publications (2)

Publication Number Publication Date
CN112488452A CN112488452A (zh) 2021-03-12
CN112488452B true CN112488452B (zh) 2023-03-31

Family

ID=74929113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011237161.4A Active CN112488452B (zh) 2020-11-06 2020-11-06 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法

Country Status (1)

Country Link
CN (1) CN112488452B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113110052B (zh) * 2021-04-15 2022-07-26 浙大宁波理工学院 一种基于神经网络和强化学习的混合能量管理方法
CN113486698B (zh) * 2021-04-30 2023-09-26 华中科技大学 一种氢燃料电池工作的识别预测方法、存储介质及系统
CN114707711B (zh) * 2022-03-23 2022-09-16 特斯联科技集团有限公司 园区制冷机组多时间尺度最优调度方法及系统
CN115579943A (zh) * 2022-10-12 2023-01-06 广州瑞鑫智能制造有限公司 基于交流供电和光伏供电互补的空压站供电系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427985B (zh) * 2018-01-02 2020-05-19 北京理工大学 一种基于深度强化学习的插电式混合动力车辆能量管理方法
CN108932671A (zh) * 2018-06-06 2018-12-04 上海电力学院 一种采用深度q神经网络调参的lstm风电负荷预测方法
CN109347149B (zh) * 2018-09-20 2022-04-22 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN110929948B (zh) * 2019-11-29 2022-12-16 上海电力大学 基于深度强化学习的完全分布式智能电网经济调度方法
CN111547039B (zh) * 2020-05-13 2021-03-23 北京理工大学 基于深度强化学习的混合动力车辆油门控制方法及系统
CN111884213B (zh) * 2020-07-27 2022-03-08 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Double Deep Q-Learning-Based Distributed Operation of Battery Energy Storage System Considering Uncertainties;Van-Hai Bui etal;《IEEE》;20200131;全文 *
Optimization Strategy Based on Deep Reinforcement Learning for Home Energy Management;Yuankun Liu etal;《CSEE JOURNAL OF POWER AND ENERGY SYSTEMS》;20200930;全文 *
基于EEMD-GSGRU的锂电池寿命预测;易灵芝等;《储能科学与技术》;20200905(第05期);全文 *
镉镍蓄电池寿命预测的PF-LSTM建模方法研究;成庶等;《铁道科学与工程学报》;20200715(第07期);全文 *

Also Published As

Publication number Publication date
CN112488452A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN112488452B (zh) 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法
CN109102126B (zh) 一种基于深度迁移学习的理论线损率预测模型
CN111884213B (zh) 一种基于深度强化学习算法的配电网电压调节方法
Marino et al. Building energy load forecasting using deep neural networks
WO2018161722A1 (zh) 基于长短时记忆神经网络的电力负荷预测方法
JP5888640B2 (ja) 太陽光発電予測装置、太陽光発電予測方法及び太陽光発電予測プログラム
CN107563539A (zh) 基于机器学习模型的短期和中长期电力负荷预测方法
CN104217258B (zh) 一种电力负荷条件密度预测方法
CN112186743A (zh) 一种基于深度强化学习的动态电力系统经济调度方法
CN103489038A (zh) 基于lm-bp神经网络的光伏超短期功率预测方法
CN116345578B (zh) 基于深度确定性策略梯度的微电网运行优化调度方法
CN109214565A (zh) 一种适用于大电网分区调度的子区域系统负荷预测方法
Dolatabadi et al. Deep reinforcement learning-based self-scheduling strategy for a CAES-PV system using accurate sky images-based forecasting
El Bourakadi et al. Multi-agent system based sequential energy management strategy for Micro-Grid using optimal weighted regularized extreme learning machine and decision tree
CN115907122A (zh) 区域电动汽车充电负荷预测方法
CN114861980A (zh) 一种基于bp-lstm模型的碳预测方法
Al-Hajj et al. Multi-level stacking of long short term memory recurrent models for time series forecasting of solar radiation
CN111799820B (zh) 一种电力系统双层智能混合零星云储能对抗调控方法
Wilms et al. On the necessity of exogenous variables for load, pv and wind day-ahead forecasts using recurrent neural networks
Xu et al. Short-term electricity consumption forecasting method for residential users based on cluster classification and backpropagation neural network
CN112101651B (zh) 电能源网络协调控制方法、系统及信息数据处理终端
CN114154676A (zh) 一种基于pso和双向gru的短期负荷预测模型
CN116526582B (zh) 基于人工智能联合驱动的电力机组组合调度方法与系统
Kanović et al. Optimization of ship lock control system using swarm-based techniques
Lv et al. A novel neural-network gradient optimization algorithm based on reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221205

Address after: 300384 No. 6 Huake No. 7 Road, Binhai New Area, Tianjin Binhai High-tech Industrial Development Zone

Applicant after: CETC Energy Co.,Ltd.

Applicant after: Tianjin University

Address before: 300384 No. 6 Huake No. 7 Road, Binhai New Area, Tianjin Binhai High-tech Industrial Development Zone

Applicant before: The 18th Research Institute of China Electronics Technology Group Corporation

Applicant before: Tianjin University

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 300384 No. 6 Huake No. 7 Road, Binhai New Area, Tianjin Binhai High-tech Industrial Development Zone

Applicant after: CETC Blue Sky Technology Co.,Ltd.

Applicant after: Tianjin University

Address before: 300384 No. 6 Huake No. 7 Road, Binhai New Area, Tianjin Binhai High-tech Industrial Development Zone

Applicant before: CETC Energy Co.,Ltd.

Applicant before: Tianjin University

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant