CN112186799B - 基于深度强化学习的分布式能源系统自治控制方法及系统 - Google Patents

基于深度强化学习的分布式能源系统自治控制方法及系统 Download PDF

Info

Publication number
CN112186799B
CN112186799B CN202011003363.2A CN202011003363A CN112186799B CN 112186799 B CN112186799 B CN 112186799B CN 202011003363 A CN202011003363 A CN 202011003363A CN 112186799 B CN112186799 B CN 112186799B
Authority
CN
China
Prior art keywords
data
simulation
decision
reinforcement learning
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011003363.2A
Other languages
English (en)
Other versions
CN112186799A (zh
Inventor
陈盛
王新迎
王继业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI filed Critical State Grid Corp of China SGCC
Priority to CN202011003363.2A priority Critical patent/CN112186799B/zh
Publication of CN112186799A publication Critical patent/CN112186799A/zh
Application granted granted Critical
Publication of CN112186799B publication Critical patent/CN112186799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/381Dispersed generators
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Abstract

本发明提供一种基于深度强化学习的分布式能源系统自治控制方法及系统,该方法提供获取实时环境数据和变化数据,将获取的数据输入训练好的智能体神经网络中进行深度强化学习;进行决策计算,得到决策特征值,输出至决策空间,得到具体执行决策进行仿真,调整仿真模型中的可控设备与负荷,并进行潮流计算,根据执行决策调整现实分布式能源系统中的可控设备及负荷,完成自治控制。通过构建智能体神经网络对分布式能源系统中的电网数据和燃气网数据进行深度学习,将生成的执行策略由仿真系统进行仿真,实现配电网的仿真计算。更能从本质上反映原件的物理特性,能够处理复杂的配电网络,并能实现快速计算,优化能源配置,降低运行成本。

Description

基于深度强化学习的分布式能源系统自治控制方法及系统
技术领域
本发明属于配用电领域,具体涉及一种基于深度强化学习的分布式能源系统自治控制方法及系统。
背景技术
随着可再生能源大规模开发利用,分布式能源、储能、电动汽车等交互式能源设施快速发展,各种新型用能形式不断涌现,我国能源出现了结构性变革,推动能源系统向能源互联网升级跨越。能源互联网包括多种能量生产、传输、存储和消费网络,且拓扑结构动态变化,演变为结构复杂、设备繁多、技术庞杂的巨维系统,具有典型的非线性随机特征与多尺度动态特征。同时,能源互联网在各要素建模、信息物理融合、运行场景与运行边界描述、多能优化调度等方面均存在挑战,需基于能源生产-能源传输-能源消费,针对能源互联网多能源多要素及其交互过程进行全方位研究。分布式能源系统作为能源互联网的物理载体,是由电、气、热多种能源流相互耦合构成的复杂系统。根据地理因素与能源发/输/配/用特性,可将分布式能源系统分为用户级、区域级和跨区级,其中,园区级分布式能源系统由智能用电系统、分布式/集中式供热系统、供水系统等耦合而成,以提高综合能效作为主要目标,是当前电/气/冷/热各类能源协同利用的主要场所,必将成为实施综合能源优化调控的关键。然而,用户侧分布式能源系统多能流相互耦合、多主体相互博弈,其运行优化面临物理空间、信息空间乃至社会空间的多层次关联,涉及连续及离散动态行为,以及混沌有意识行为的强随机性,呈现出不同时空尺度的动态特性,传统机理模型分析和优化控制方法已经难以满足分布式能源系统规划、设计、运行和维护的要求。
深度强化学习同时具有感知复杂输入和求解最优策略的能力,对具体数学模型依赖程度低,并善于从数据中学习,为突破分布式能源系统运行分析技术瓶颈提供了有效解决途径。其已在分布式能源系统状态估计、优化运行和协同控制等方面的研究起到了推进作用。国内能源领域科研机构和综合能源服务企业在多能源调度和控制方面也做了相关研究,在用户侧分布式能源系统分级调控和风光氢分布式能源系统等方面申报了发明专利,如:CN106849835A-一种风光氢分布式能源系统在线能量调控方法、CN110707711A-一种用户侧分布式能源系统分级调控方法及系统,都采用传统方式进行调控,尚未涉及采用深度强化学习等人工智能技术,及如何实现分布式能源系统分布自治和协同方面的方法。因此,如何利用人工智能算法,实现分布式能源系统分布自治和协同是本领域急需解决的重要问题。
发明内容
本申请通过采用深度强化学习技术,提出适用于综合能源调度控制的具体方法,实现包括冷/热/气/电等能源的综合调度和控制,并以园区级分布式能源系统为例阐述实现方法,以解决目前分布式能源系统粗放运行的问题,最终实现综合能效提升和运行成本下降。
本申请一方面的实施例提供一种基于深度强化学习的分布式能源系统自治控制方法,包括:
通过能源管理系统模块从能源系统获取实时环境数据和变化数据,并将获取的实时环境数据和变化数据输入训练好的智能体神经网络中进行深度强化学习;智能体神经网络将接收到的数据进行决策计算,得到决策特征值,将决策特征值输出至决策空间,得到具体执行决策;按照得到的执行决策进行仿真,调整仿真模型中的可控设备与负荷,并进行潮流计算,判断计算结果是否异常,如果异常则上报异常信息,如果不异常则输出执行决策;根据执行决策调整现实分布式能源系统中的可控设备及负荷,完成自治控制。
优选的,所述智能体神经网络在进行训练时,包括以下步骤:S101、从能源管理系统模块读取T时刻的环境数据至数据池中,由数据池将环境数据输入智能体神经网络的深度强化学习算法模型中;S102、深度强化学习算法模型经过计算得到决策特征值,输出至决策空间,得到执行决策,再输入仿真系统;S103、仿真系统进行执行决策仿真,调整仿真模型中的可控设备与负荷,并进行潮流计算,输出潮流数据至奖惩函数进行计算,将由奖励函数得到的奖励结果,反馈至智能体神经网络;S104、智能体神经网络收到反馈的奖励结果,下发下一轮训练指令,仿真系统输出决策执行后的T+1时刻仿真数据至能量管理系统模块;S105、能量管理系统模块将T+1时刻的仿真数据及其他数据打包输入至数据池,进行下一步训练;重复上述步骤S101-S105,直至训练结束。
在上述任意一项实施例中优选的,所述深度强化学习算法模型采用由环境状态空间、动作策略空间、状态转移和奖惩函数构成的{st,at,st+1,rt}四元组,其中,st为t时刻环境的状态空间量,rt为智能体获得来自环境的反馈奖励,at为智能体通过计算策略分布函数计算或采样得到的t时刻动作,st+1为执行动作发生状态转移后t+1时刻环境的状态空间量。
在上述任意一项实施例中优选的,在计算状态转移形成的应用于强化学习训练的策略轨迹采用如下公式表示:
τ={(st,at,rt)|t=1…T}
其中,st为t时刻环境的状态空间量,rt为智能体获得来自环境的反馈奖励,at为智能体通过计算策略分布函数计算或采样得到的t时刻动作。
在上述任意一项实施例中优选的,所述奖惩函数包括
状态价值函数Vπ(s)=E(Rt:∞|st=s,π);
所述状态价值函数用于评价各个状态st的价值的状态;
状态–动作价值函数,Qπ(s,a)=E(Rt:∞|st=s,at=a,π);
所述状态–动作价值函数用于评估st处于各状态及执行相应动作时未来可能获得的奖励期望;
优势函数Aπ(s,a)=Qπ(s,a)-Vπ(s)
式中,γ为奖励折扣因子,所述优势函数用于表征状态s下,动作a相对于动作集合A中其他元素的优劣;
以及损失函数LDQN
LDQNi)=Es,a~π[(yi-Q(s,a;θi))2]
yi=Es′~f(s,a)[r+γmaxa′Q(s′,a′;θi-1)|s,a]
所述损失函数用于表征状态s下,执行动作a后得到下一个状态s′的最优解。
在上述任意一项实施例中优选的,在步骤S103中,由奖励函数得到的奖励结果时,根据输出的潮流数据是否收敛,设定如下规则:
潮流数据收敛于第一收敛域,则匹配奖励值;
潮流数据收敛于第二收敛域,则匹配一级惩罚值;
潮流数据收敛于第三收敛域,则匹配二级惩罚值;
潮流数据不收敛,则匹配第三惩罚值。
在上述任意一项实施例中优选的,所述调整仿真模型中的可控设备与负荷,进行潮流计算时,包括根据分布式能源系统的拓扑将可控设备和负荷进行连接,并采用牛顿法进行潮流计算求解,输出仿真潮流数据。
在上述任意一项实施例中优选的,所述可控设备包括以下设备中任意一种或几种的组合:电制冷机、分布式光伏、燃气三联供系统、燃气热泵、储电储热装置;所述负荷包括冷负荷、电负荷和热负荷。
本发明另一方面的实施例中还提供一种基于深度强化学习的分布式能源系统自治控制系统,用于实施上述方法,包括能量管理系统模块、仿真系统模块和深度强化学习智能体;
所述能源管理系统模块用于从能源系统获取实时环境数据和变化数据,并将获取的实时环境数据和变化数据输入训练好的深度强化学习智能体的神经网络中进行深度强化学习;
所述深度强化学习智能体用于将接收到的数据进行决策计算,得到决策特征值,将决策特征值输出至决策空间,得到具体执行决策;并将具体执行决策输入到仿真系统模块进行仿真;
所述仿真系统模块按照得到的执行决策进行仿真,调整仿真模型中的可控设备与负荷,并进行潮流计算,判断计算结果是否异常,如果异常则上报异常信息,如果不异常则输出执行决策;根据执行决策调整现实分布式能源系统中的可控设备及负荷,完成自治控制。
在上述任意一项实施例中优选的,所述仿真系统模块包括机理模型子模块、数据模型子模块、仿真潮流计算子模块。所述机理模型子模块包括以下设备中任意一种或几种的组合:电制冷机、分布式光伏、燃气三联供系统、燃气热泵、储电储热装置;所述数据模型子模块包括冷负荷、电负荷和热负荷;所述仿真潮流计算子模块,用于根据分布式能源系统的拓扑将机理模型子模块和数据模型子模块进行连接,并采用牛顿法进行潮流计算求解,输出仿真潮流数据。
在上述任意一项实施例中优选的,所述深度强化学习智能体:包括环境状态空间、策略状态空间、深度强化学习算法模型;
所述环境状态空间:用于存储能源管理系统模块中获取的电网、燃气网数据及仿真系统数据,所述电网、燃气网数据包括潮流数据和常规数据,所述潮流数据包括系统电压、电流、相位、相角、功率因素;所述常规数据包括电价,天然气价格,天然气使用量,所述仿真系统数据包括分布式光伏、燃气热泵、储能储热装置的运行数据;
所述策略状态空间:包括设备控制和负荷控制两部分,统一采用离线控制策略;
所述深度强化学习算法模型,采用由环境状态空间、动作策略空间、状态转移和奖惩函数构成的{st,at,st+1,rt}四元组,其中,st为t时刻环境的状态空间量,rt为智能体获得来自环境的反馈奖励,at为智能体通过计算策略分布函数计算或采样得到的t时刻动作,st+1为执行动作发生状态转移后t+1时刻环境的状态空间量,所述深度强化学习算法模型用于根据环境状态空间的数据进行决策计算,在策略状态空间生成动作策略,并将动作策略输入到仿真系统模块进行仿真,实现状态转移,根据执行结果由奖励函数进行奖励计算。
本发明实施例提供的一种基于深度强化学习的分布式能源系统自治控制方法及系统,相比于现有技术至少具有以下优点:
1、通过构建智能体神经网络对分布式能源系统中的电网数据和燃气网数据进行深度学习,将生成的执行策略由仿真系统进行仿真,实现配电网的仿真计算。更能从本质上反映原件的物理特性,能够处理复杂的配电网络,并能实现快速计算,优化能源配置,降低运行成本。
2、通过设置奖惩函数和奖惩规则,实现了当配电网发生改变后可实现自适应,为配电网潮流计算程序提供了分散控制、应急和并行处理的能力。
3、实现包括冷/热/气/电等能源的综合调度和控制,解决了园区级分布式能源系统粗放运行的问题,最终实现综合能效提升和运行成本下降。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的一种基于深度强化学习的分布式能源系统自治控制方法的流程图;
图2为本发明实施例提供的一种基于深度强化学习的分布式能源系统自治控制系统的结构框图;
图3为本发明实施例提供的深度强化学习智能体的强化学习模型。
图4为本发明实施例提供的深度强化学习智能体控制训练流程图。
图5为本发明实施例提供的深度强化学习智能体控制运行流程图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
如图1所示,本发明一方面提供一种基于深度强化学习的分布式能源系统自治控制方法,在运行时,包括如下步骤:
S1、通过能源管理系统模块从能源系统获取实时环境数据和变化数据,并将获取的实时环境数据和变化数据输入训练好的智能体神经网络中进行深度强化学习;
S2、智能体神经网络将接收到的数据进行决策计算,得到决策特征值,将决策特征值输出至决策空间,得到具体执行决策;
S3、按照得到的执行决策进行仿真,调整仿真模型中的可控设备与负荷,并进行潮流计算,判断计算结果是否异常,如果异常则上报异常信息,如果不异常则输出执行决策;
S4、根据执行决策调整现实分布式能源系统中的可控设备及负荷,完成自治控制。
如图4所示,需要说明的是,智能体神经网络需要事先进行搭建和训练,下面将以具体实施例,说明智能体神经网络的具体训练过程,在进行训练时,包括以下步骤:
S101、从能源管理系统模块读取T时刻的环境数据至数据池中,由数据池将环境数据输入智能体神经网络的深度强化学习算法模型中;
S102、深度强化学习算法模型经过计算得到决策特征值,输出至决策空间,得到执行决策,再输入仿真系统;
S103、仿真系统进行执行决策仿真,调整仿真模型中的可控设备与负荷,并进行潮流计算,输出潮流数据至奖惩函数进行计算,将由奖励函数得到的奖励结果,反馈至智能体神经网络;
S104、智能体神经网络收到反馈的奖励结果,下发下一轮训练指令,仿真系统输出决策执行后的T+1时刻仿真数据至能量管理系统模块;
S105、能量管理系统模块将T+1时刻的仿真数据及其他数据打包输入至数据池,进行下一步训练;重复上述步骤S101-S105,直至训练结束。
在本申请的另一个实施例中,所述深度强化学习算法模型采用由环境状态空间、动作策略空间、状态转移和奖惩函数构成的{st,at,st+1,rt}四元组,其中,st为t时刻环境的状态空间量,rt为智能体获得来自环境的反馈奖励,at为智能体通过计算策略分布函数计算或采样得到的t时刻动作,st+1为执行动作发生状态转移后t+1时刻环境的状态空间量。
其中,环境状态空间:包括能源管理系统模块中数据输出子模块提供的电网、燃气网及仿真系统数据,包括系统电压、电流、相位、相角、功率因素等电网潮流数据,电价,天然气价格,天然气使用量,分布式光伏、燃气热泵、储能储热装置等仿真运行数据。
策略状态空间:包括设备控制和负荷控制两部分,统一采用离线控制策略,即以下降10%、不变、上升10%三个动作策略,见公式(1);
an∈{-0.1,0,0.1} (1)
假设在时间t<T,环境的状态空间量为st,智能体获得来自环境的反馈奖励rt,rt是状态量st的函数,可表示为rt=g(st)。为了得到t时刻的动作,智能体通过计算策略分布函数π(·|s)计算或者采样得到at∈A,其中A是智能体可能动作的集合。智能体通过执行at,使环境状态量st转移到st+1,其中st+1=f(st,at),见图2所示。重复执行直到完成任务目标或者到达上限T,得到可应用于强化学习训练的策略轨迹,表示为τ,见式(1)。
τ={(st,at,rt)|t=1…T} (公式1)
其中,st为t时刻环境的状态空间量,rt为智能体获得来自环境的反馈奖励,at为智能体通过计算策略分布函数计算或采样得到的t时刻动作。
为了评价各个状态st的价值,在奖惩函数中强化学习定义了状态价值函数Vπ(st)及状态–动作价值函数Qπ(s,a),用于评估处于各状态及执行相应动作时未来可能获得的奖励期望,见式(2)和式(3)。
Vπ(s)=E(Rt:∞|st=s,π) (公式2)
Qπ(s,a)=E(Rt:∞|st=s,at=a,π) (公式3)
其中,Rt:∞为累积折扣奖励见式(4)。
Figure BDA0002695069910000091
还定义了优势函数
Aπ(s,a)=Qπ(s,a)-Vπ(s) (公式6)
式中,γ为奖励折扣因子,所述优势函数用于表征状态s下,动作a相对于动作集合A中其他元素的优劣;
以及损失函数LDQN
Figure BDA0002695069910000092
yi表示神经网络的目标Q值,所述损失函数用于表征状态s下,执行动作a后得到下一个状态s′的最优解。
在步骤S103中,由奖励函数得到的奖励结果时,根据输出的潮流数据是否收敛,设定如下规则:
潮流数据收敛于第一收敛域,则匹配奖励值;
潮流数据收敛于第二收敛域,则匹配一级惩罚值;
潮流数据收敛于第三收敛域,则匹配二级惩罚值;
潮流数据不收敛,则匹配第三惩罚值。
在本发明的一个具体实施例中具体奖惩措施包括:
1)分布式能源网络潮流电压标幺值处于0.95-1.05之间,奖励50个标准单位;分布式能源网络潮流电压标幺值处于0.8-0.95或1.0.5-1.2之间,惩罚10个标准单位;分布式能源网络潮流电压标幺值小于0.7或大于1.2,惩罚100个标准单位;潮流不收敛,惩罚500个标准单位;
2)策略奖励和设备控制单位时间策略数成反比:
Figure BDA0002695069910000101
在本实施例中,将对仿真模型的具体实施过程进行详细阐述,在步骤S3中,所述调整仿真模型中的可控设备与负荷,进行潮流计算时,包括根据分布式能源系统的拓扑将可控设备和负荷进行连接,并采用牛顿法进行潮流计算求解,输出仿真潮流数据。
需要说明的是,所述可控设备包括以下设备中任意一种或几种的组合:电制冷机、分布式光伏、燃气三联供系统、燃气热泵、储电储热装置;所述负荷包括冷负荷、电负荷和热负荷。核心在于使用负荷的历史数据进行负荷曲线预测,按1分钟为时间间隔,预测未来1小时的负荷曲线变化情况,并使用预测数据共同开展仿真计算;
能量管理系统模块:包括数据接入子模块(主要处理外部输入的电网数据和燃气网数据)、仿真系统数据子模块(主要实现与仿真系统模块的交互,读取系统仿真数据)、数据存储子模块、数据输出子模块。
如图2所示,本发明另一方面的实施例中还提供一种基于深度强化学习的分布式能源系统自治控制系统,用于实施上述方法,包括能量管理系统模块、仿真系统模块和深度强化学习智能体;
所述能源管理系统模块用于从能源系统获取实时环境数据和变化数据,并将获取的实时环境数据和变化数据输入训练好的深度强化学习智能体的神经网络中进行深度强化学习;
所述深度强化学习智能体用于将接收到的数据进行决策计算,得到决策特征值,将决策特征值输出至决策空间,得到具体执行决策;并将具体执行决策输入到仿真系统模块进行仿真;
所述仿真系统模块按照得到的执行决策进行仿真,调整仿真模型中的可控设备与负荷,并进行潮流计算,判断计算结果是否异常,如果异常则上报异常信息,如果不异常则输出执行决策;根据执行决策调整现实分布式能源系统中的可控设备及负荷,完成自治控制。
具体的,能量管理系统模块:包括数据接入子模块(主要处理外部输入的电网数据和燃气网数据)、仿真系统数据子模块(主要实现与仿真系统模块的交互,读取系统仿真数据)、数据存储子模块、数据输出子模块。
仿真系统模块包括机理模型子模块、数据模型子模块、仿真潮流计算子模块。所述机理模型子模块包括以下设备中任意一种或几种的组合:电制冷机、分布式光伏、燃气三联供系统、燃气热泵、储电储热装置;所述数据模型子模块包括冷负荷、电负荷和热负荷;所述仿真潮流计算子模块,用于根据分布式能源系统的拓扑将机理模型子模块和数据模型子模块进行连接,并采用牛顿法进行潮流计算求解,输出仿真潮流数据。
如图3所示,所述深度强化学习智能体:包括环境状态空间、策略状态空间、深度强化学习算法模型;
所述环境状态空间:用于存储能源管理系统模块中获取的电网、燃气网数据及仿真系统数据,所述电网、燃气网数据包括潮流数据和常规数据,所述潮流数据包括系统电压、电流、相位、相角、功率因素;所述常规数据包括电价,天然气价格,天然气使用量,所述仿真系统数据包括分布式光伏、燃气热泵、储能储热装置的运行数据;
所述策略状态空间:包括设备控制和负荷控制两部分,统一采用离线控制策略;
所述深度强化学习算法模型,采用由环境状态空间、动作策略空间、状态转移和奖惩函数构成的{st,at,st+1,rt}四元组,其中,st为t时刻环境的状态空间量,rt为智能体获得来自环境的反馈奖励,at为智能体通过计算策略分布函数计算或采样得到的t时刻动作,st+1为执行动作发生状态转移后t+1时刻环境的状态空间量,所述深度强化学习算法模型用于根据环境状态空间的数据进行决策计算,在策略状态空间生成动作策略,并将动作策略输入到仿真系统模块进行仿真,实现状态转移,根据执行结果由奖励函数进行奖励计算。
假设在时间t<T,环境的状态空间量为st,智能体获得来自环境的反馈奖励rt,rt是状态量st的函数,可表示为rt=g(st)。为了得到t时刻的动作,智能体通过计算策略分布函数π(·|s)计算或者采样得到at∈A,其中A是智能体可能动作的集合。智能体通过执行at,使环境状态量st转移到st+1,其中st+1=f(st,at),见图2所示。重复执行直到完成任务目标或者到达上限T,得到可应用于强化学习训练的策略轨迹,表示为τ,见式(1)。
为了评价各个状态st的价值,强化学习定义了状态价值函数Vπ(st)及状态–动作价值函数Qπ(s,a),用于评估处于各状态及执行相应动作时未来可能获得的奖励期望,见式(2)和式(3)。
其中,Rt:∞为累积折扣奖励见式(4)。
具体奖惩措施包括:
3)分布式能源网络潮流电压标幺值处于0.95-1.05之间,奖励50个标准单位;分布式能源网络潮流电压标幺值处于0.8-0.95或1.0.5-1.2之间,惩罚10个标准单位;分布式能源网络潮流电压标幺值小于0.7或大于1.2,惩罚100个标准单位;潮流不收敛,惩罚500个标准单位;
4)策略奖励和设备控制单位时间策略数成反比:
式中,γ为奖励折扣因子。由此可定义优势函数Aπ(s,a),用于表征状态s下,动作a相对于动作集合A中其他元素的优劣,见式(6)。
其损失函数LDQN见式(7)。
如图4所示,为本实施例中深度强化学习智能体控制训练流程图,在进行训练时采用以下步骤:
(a1)智能体神经网络模块从能源管理系统模块读取T时刻的环境数据(具体数据类型见能源管理系统中的数据子模块),环境数据输入深度强化学习智能体模块,经由数据池输入智能体神经网络;
(b1)智能体神经网络经过计算得到决策特征值,输出至决策空间,得到具体执行决策,再输入仿真系统模块;
(c1)仿真系统模块根据决策调整仿真模型中的可控设备与负荷,并进行潮流计算,输出潮流数据至奖惩函数进行计算,奖励结果反馈至智能体神经网络引导训练;
(d1)智能体神经网络给出下一轮训练指令,仿真系统模块输出决策执行后的T+1时刻仿真数据至能量管理系统模块;
(e1)能量管理系统模块将T+1时刻的仿真数据及其他数据打包输入至数据池,进行下一步训练。
(f1)智能体神经网络对是否结束训练进行判断,如果未结束,则重复(a)-(e)过程;结束则整个训练过程结束。
如图5所示,为本实施例中深度强化学习智能体控制运行流程图,在进行训练时采用以下步骤:
(a2)智能体神经网络模块从能源管理系统模块读取T时刻的环境数据及变化数据(具体数据类型见能源管理系统中的数据子模块),环境数据输入深度强化学习智能体模块,经由数据池输入智能体神经网络;
(b2)智能体神经网络经过计算得到决策特征值,输出至决策空间,得到具体执行决策,再输入仿真系统模块;
(c2)仿真系统模块根据决策调整仿真模型中的可控设备与负荷,并进行潮流计算,判断是否异常,如果异常则上报系统,否则进行下一步;
(d2)根据智能体神经网络输出决策,调整现实分布式能源系统中的设备及负荷,完成自治控制,运行过程结束。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims (7)

1.一种基于深度强化学习的分布式能源系统自治控制方法,其特征在于,包括:
从能源系统获取实时环境数据和变化数据,并将获取的实时环境数据和变化数据输入训练好的智能体神经网络中进行深度强化学习;
智能体神经网络将接收到的数据进行决策计算,得到决策特征值,将决策特征值输出至决策空间,得到具体执行决策;
按照得到的执行决策进行仿真,调整仿真模型中的可控设备与负荷,并进行潮流计算,判断计算结果是否异常,如果异常则上报异常信息,如果不异常则输出执行决策;
根据执行决策调整现实分布式能源系统中的可控设备及负荷,完成自治控制;
所述智能体神经网络在进行训练时,包括以下步骤:
S101、从能源管理系统模块读取T时刻的环境数据至数据池中,由数据池将环境数据输入智能体神经网络的深度强化学习算法模型中;
S102、深度强化学习算法模型经过计算得到决策特征值,输出至决策空间,得到执行决策,再输入仿真系统;
S103、仿真系统进行执行决策仿真,调整仿真模型中的可控设备与负荷,并进行潮流计算,输出潮流数据至奖惩函数进行计算,将由奖励函数得到的奖励结果,反馈至智能体神经网络;
S104、智能体神经网络收到反馈的奖励结果,下发下一轮训练指令,仿真系统输出决策执行后的T+1时刻仿真数据至能量管理系统模块;
S105、能量管理系统模块将T+1时刻的仿真数据及其他数据打包输入至数据池,进行下一步训练;重复上述步骤S101-S105,直至训练结束;
所述深度强化学习算法模型采用由环境状态空间、动作策略空间、状态转移和奖惩函数构成的{st,at,st+1,rt}四元组,其中,st为t时刻环境的状态空间量,rt为智能体获得来自环境的反馈奖励,at为智能体通过计算策略分布函数计算或采样得到的t时刻动作,st+1为执行动作发生状态转移后t+1时刻环境的状态空间量;
所述环境状态空间:用于存储能源管理系统模块中获取的电网、燃气网数据及仿真系统数据,所述电网、燃气网数据包括潮流数据和常规数据,所述潮流数据包括系统电压、电流、相位、相角、功率因素;所述常规数据包括电价,天然气价格,天然气使用量,所述仿真系统数据包括分布式光伏、燃气热泵、储能储热装置的运行数据;
策略状态空间:包括设备控制和负荷控制两部分,统一采用离线控制策略;
所述深度强化学习算法模型用于根据环境状态空间的数据进行决策计算,在策略状态空间生成动作策略,并将动作策略输入到仿真系统模块进行仿真,实现状态转移,根据执行结果由奖励函数进行奖励计算;
在步骤S103中,由奖励函数得到的奖励结果时,根据输出的潮流数据是否收敛,设定如下规则:
潮流数据收敛于第一收敛域,则匹配奖励值;
潮流数据收敛于第二收敛域,则匹配一级惩罚值;
潮流数据收敛于第三收敛域,则匹配二级惩罚值;
潮流数据不收敛,则匹配第三惩罚值。
2.根据权利要求1所述的基于深度强化学习的分布式能源系统自治控制方法,其特征在于,在计算状态转移形成的应用于强化学习训练的策略轨迹采用如下公式表示:
τ={(st,at,rt)|t=1…T}。
3.根据权利要求1所述的基于深度强化学习的分布式能源系统自治控制方法,其特征在于,所述奖惩函数包括
状态价值函数:
Vπ(s)=E(Rt:∞|st=s,π);
其中,Rt:为累积折扣奖励,
所述状态价值函数用于评价各个状态st的价值的状态;
状态–动作价值函数:
Qπ(s,a)=E(Rt:∞|st=s,at=a,π);
所述状态–动作价值函数用于评估st处于各状态及执行相应动作时未来可能获得的奖励期望;
优势函数Aπ(s,a)=Qπ(s,a)-Vπ(s)
式中,γ为奖励折扣因子,所述优势函数用于表征状态s下,动作a相对于动作集合A中其他元素的优劣;
以及损失函数LDQN
LDQNi)=Es,a~π[(yi-Q(s,a;θi))2]
yi=Es′~f(s,α)[r+γmaxa′Q(s′,a′;θi-1)|s,a]
yi表示神经网络的目标Q值,所述损失函数用于求解状态s下,执行动作a后得到下一个状态s′的最优解。
4.根据权利要求1所述的基于深度强化学习的分布式能源系统自治控制方法,其特征在于,所述调整仿真模型中的可控设备与负荷,进行潮流计算时,包括根据分布式能源系统的拓扑将可控设备和负荷进行连接,并采用牛顿法进行潮流计算求解,输出仿真潮流数据;所述可控设备包括以下设备中任意一种或几种的组合:电制冷机、分布式光伏、燃气三联供系统、燃气热泵、储电储热装置;所述负荷包括冷负荷、电负荷和热负荷。
5.一种基于深度强化学习的分布式能源系统自治控制系统,用于实施上述权利要求1-4中任意一项所述的方法,其特征在于,包括能量管理系统模块、仿真系统模块和深度强化学习智能体;
所述能源管理系统模块用于从能源系统获取实时环境数据和变化数据,并将获取的实时环境数据和变化数据输入训练好的深度强化学习智能体的神经网络中进行深度强化学习;
所述深度强化学习智能体用于将接收到的数据进行决策计算,得到决策特征值,将决策特征值输出至决策空间,得到具体执行决策;并将具体执行决策输入到仿真系统模块进行仿真;
所述仿真系统模块按照得到的执行决策进行仿真,调整仿真模型中的可控设备与负荷,并进行潮流计算,判断计算结果是否异常,如果异常则上报异常信息,如果不异常则输出执行决策;根据执行决策调整现实分布式能源系统中的可控设备及负荷,完成自治控制。
6.根据权利要求5所述的基于深度强化学习的分布式能源系统自治控制系统,其特征在于,所述仿真系统模块包括机理模型子模块、数据模型子模块、仿真潮流计算子模块;
所述机理模型子模块包括以下设备中任意一种或几种的组合:电制冷机、分布式光伏、燃气三联供系统、燃气热泵、储电储热装置;
所述数据模型子模块包括冷负荷、电负荷和热负荷;
所述仿真潮流计算子模块,用于根据分布式能源系统的拓扑将机理模型子模块和数据模型子模块进行连接,并采用牛顿法进行潮流计算求解,输出仿真潮流数据。
7.根据权利要求5所述的基于深度强化学习的分布式能源系统自治控制系统,其特征在于,所述深度强化学习智能体:包括环境状态空间、策略状态空间、深度强化学习算法模型;
所述环境状态空间:用于存储能源管理系统模块中获取的电网、燃气网数据及仿真系统数据,所述电网、燃气网数据包括潮流数据和常规数据,所述潮流数据包括系统电压、电流、相位、相角、功率因素;所述常规数据包括电价,天然气价格,天然气使用量,所述仿真系统数据包括分布式光伏、燃气热泵、储能储热装置的运行数据;
所述策略状态空间:包括设备控制和负荷控制两部分,统一采用离线控制策略;
所述深度强化学习算法模型,采用由环境状态空间、动作策略空间、状态转移和奖惩函数构成的{st,at,st+1,rt}四元组,其中,st为t时刻环境的状态空间量,rt为智能体获得来自环境的反馈奖励,at为智能体通过计算策略分布函数计算或采样得到的t时刻动作,st+1为执行动作发生状态转移后t+1时刻环境的状态空间量,所述深度强化学习算法模型用于根据环境状态空间的数据进行决策计算,在策略状态空间生成动作策略,并将动作策略输入到仿真系统模块进行仿真,实现状态转移,根据执行结果由奖励函数进行奖励计算。
CN202011003363.2A 2020-09-22 2020-09-22 基于深度强化学习的分布式能源系统自治控制方法及系统 Active CN112186799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011003363.2A CN112186799B (zh) 2020-09-22 2020-09-22 基于深度强化学习的分布式能源系统自治控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011003363.2A CN112186799B (zh) 2020-09-22 2020-09-22 基于深度强化学习的分布式能源系统自治控制方法及系统

Publications (2)

Publication Number Publication Date
CN112186799A CN112186799A (zh) 2021-01-05
CN112186799B true CN112186799B (zh) 2022-07-26

Family

ID=73955772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011003363.2A Active CN112186799B (zh) 2020-09-22 2020-09-22 基于深度强化学习的分布式能源系统自治控制方法及系统

Country Status (1)

Country Link
CN (1) CN112186799B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112882381B (zh) * 2021-01-08 2022-02-01 中国石油大学(北京) 一种潜油电泵的自寻优决策控制系统
CN113781190A (zh) * 2021-01-13 2021-12-10 北京沃东天骏信息技术有限公司 账单数据的处理方法、系统、计算机系统和介质
CN112818788B (zh) * 2021-01-25 2022-05-03 电子科技大学 一种基于无人机集群的分布式卷积神经网络分层匹配方法
CN112862281A (zh) * 2021-01-26 2021-05-28 中国电力科学研究院有限公司 综合能源系统调度模型构建方法、装置、介质及电子设备
CN113206507B (zh) * 2021-05-13 2022-05-27 乐清长三角电气工程师创新中心 一种三相负荷不平衡边缘侧治理方法和系统
CN113378456B (zh) * 2021-05-21 2023-04-07 青海大学 多园区综合能源调度方法和系统
CN113821903B (zh) * 2021-07-09 2024-02-06 腾讯科技(深圳)有限公司 温度控制方法和设备、模块化数据中心及存储介质
CN113361976B (zh) * 2021-07-19 2023-02-07 烟台锐控自动化控制工程有限公司 基于多主体分布式运行的园区综合能源调度方法及系统
CN113780875A (zh) * 2021-09-22 2021-12-10 深圳供电局有限公司 一种电网故障时调度策略有效输出方法及系统
CN113780688B (zh) * 2021-11-10 2022-02-18 中国电力科学研究院有限公司 一种电热联合系统的优化运行方法、系统、设备及介质
CN114139354A (zh) * 2021-11-12 2022-03-04 山东浪潮科学研究院有限公司 基于强化学习的电力系统仿真调度方法及系统
CN114123178B (zh) * 2021-11-17 2023-12-19 哈尔滨工程大学 一种基于多智能体强化学习的智能电网分区网络重构方法
CN114330649B (zh) * 2021-12-13 2023-02-28 南京邮电大学 一种基于进化学习和深度强化学习的电压调节方法及系统
CN114172840B (zh) * 2022-01-17 2022-09-30 河海大学 一种基于图论和深度强化学习的多微网系统能量路由方法
CN114781274B (zh) * 2022-05-17 2023-07-14 江苏泰坦智慧科技有限公司 仿真与决策交替学习的综合能源系统控制优化方法与系统
CN115570228B (zh) * 2022-11-22 2023-03-17 苏芯物联技术(南京)有限公司 一种焊接管道供气智能反馈控制方法与系统
CN116388279B (zh) * 2023-05-23 2024-01-23 安徽中超光电科技有限公司 太阳能光伏发电系统中的电网并网控制方法及其控制系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN111404150A (zh) * 2020-03-30 2020-07-10 广西电网有限责任公司电力科学研究院 一种适用于大电网运行的暂态稳定评估方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200293627A1 (en) * 2019-03-13 2020-09-17 General Electric Company Method and apparatus for composite load calibration for a power system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN111404150A (zh) * 2020-03-30 2020-07-10 广西电网有限责任公司电力科学研究院 一种适用于大电网运行的暂态稳定评估方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘威 等.基于深度强化学习的电网紧急控制策略研究.《中国电机工程学报》.2018,第38卷(第1期),第110-117页. *
基于深度强化学习的电网紧急控制策略研究;刘威 等;《中国电机工程学报》;20180105;第38卷(第1期);第110-117页 *

Also Published As

Publication number Publication date
CN112186799A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112186799B (zh) 基于深度强化学习的分布式能源系统自治控制方法及系统
Lu et al. Demand response for home energy management using reinforcement learning and artificial neural network
Yang et al. Reinforcement learning in sustainable energy and electric systems: A survey
Zhou et al. Combined heat and power system intelligent economic dispatch: A deep reinforcement learning approach
Wang et al. Deep reinforcement learning method for demand response management of interruptible load
Li et al. Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning
Hua et al. Data-driven dynamical control for bottom-up energy Internet system
CN112117760A (zh) 基于双q值网络深度强化学习的微电网能量调度方法
Jasmin et al. Reinforcement learning approaches to economic dispatch problem
Sonnenschein et al. Decentralized control of units in smart grids for the support of renewable energy supply
Yi et al. Coordinated operation strategy for a virtual power plant with multiple DER aggregators
Qi et al. Low-carbon community adaptive energy management optimization toward smart services
Tao et al. A human-machine reinforcement learning method for cooperative energy management
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、系统及装置
Yang et al. Joint scheduling of large-scale appliances and batteries via distributed mixed optimization
Wang et al. Coordinated electric vehicle active and reactive power control for active distribution networks
Li et al. Multi-scenario microgrid optimization using an evolutionary multi-objective algorithm
Remani et al. Load scheduling with maximum demand using binary particle swarm optimization
CN113326994A (zh) 一种考虑源荷储互动的虚拟电厂能量协同优化方法
Tu et al. An equivalent aggregated model of large-scale flexible loads for load scheduling
Li et al. Learning-based predictive control via real-time aggregate flexibility
Lin et al. Psychological insights for incentive-based demand response incorporating battery energy storage systems: A two-loop Stackelberg game approach
Tittaferrante et al. Multiadvisor reinforcement learning for multiagent multiobjective smart home energy control
Kong et al. Real-time pricing method for VPP demand response based on PER-DDPG algorithm
Liu et al. Multi-agent quantum-inspired deep reinforcement learning for real-time distributed generation control of 100% renewable energy systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant