CN112186799B

CN112186799B - 基于深度强化学习的分布式能源系统自治控制方法及系统

Info

Publication number: CN112186799B
Application number: CN202011003363.2A
Authority: CN
Inventors: 陈盛; 王新迎; 王继业
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-07-26
Anticipated expiration: 2040-09-22
Also published as: CN112186799A

Abstract

本发明提供一种基于深度强化学习的分布式能源系统自治控制方法及系统，该方法提供获取实时环境数据和变化数据，将获取的数据输入训练好的智能体神经网络中进行深度强化学习；进行决策计算，得到决策特征值，输出至决策空间，得到具体执行决策进行仿真，调整仿真模型中的可控设备与负荷，并进行潮流计算，根据执行决策调整现实分布式能源系统中的可控设备及负荷，完成自治控制。通过构建智能体神经网络对分布式能源系统中的电网数据和燃气网数据进行深度学习，将生成的执行策略由仿真系统进行仿真，实现配电网的仿真计算。更能从本质上反映原件的物理特性，能够处理复杂的配电网络，并能实现快速计算，优化能源配置，降低运行成本。

Description

基于深度强化学习的分布式能源系统自治控制方法及系统

技术领域

本发明属于配用电领域，具体涉及一种基于深度强化学习的分布式能源系统自治控制方法及系统。

背景技术

随着可再生能源大规模开发利用，分布式能源、储能、电动汽车等交互式能源设施快速发展，各种新型用能形式不断涌现，我国能源出现了结构性变革，推动能源系统向能源互联网升级跨越。能源互联网包括多种能量生产、传输、存储和消费网络，且拓扑结构动态变化，演变为结构复杂、设备繁多、技术庞杂的巨维系统，具有典型的非线性随机特征与多尺度动态特征。同时，能源互联网在各要素建模、信息物理融合、运行场景与运行边界描述、多能优化调度等方面均存在挑战，需基于能源生产-能源传输-能源消费，针对能源互联网多能源多要素及其交互过程进行全方位研究。分布式能源系统作为能源互联网的物理载体，是由电、气、热多种能源流相互耦合构成的复杂系统。根据地理因素与能源发/输/配/用特性，可将分布式能源系统分为用户级、区域级和跨区级，其中，园区级分布式能源系统由智能用电系统、分布式/集中式供热系统、供水系统等耦合而成，以提高综合能效作为主要目标，是当前电/气/冷/热各类能源协同利用的主要场所，必将成为实施综合能源优化调控的关键。然而，用户侧分布式能源系统多能流相互耦合、多主体相互博弈，其运行优化面临物理空间、信息空间乃至社会空间的多层次关联，涉及连续及离散动态行为，以及混沌有意识行为的强随机性，呈现出不同时空尺度的动态特性，传统机理模型分析和优化控制方法已经难以满足分布式能源系统规划、设计、运行和维护的要求。

深度强化学习同时具有感知复杂输入和求解最优策略的能力，对具体数学模型依赖程度低，并善于从数据中学习，为突破分布式能源系统运行分析技术瓶颈提供了有效解决途径。其已在分布式能源系统状态估计、优化运行和协同控制等方面的研究起到了推进作用。国内能源领域科研机构和综合能源服务企业在多能源调度和控制方面也做了相关研究，在用户侧分布式能源系统分级调控和风光氢分布式能源系统等方面申报了发明专利，如：CN106849835A-一种风光氢分布式能源系统在线能量调控方法、CN110707711A-一种用户侧分布式能源系统分级调控方法及系统，都采用传统方式进行调控，尚未涉及采用深度强化学习等人工智能技术，及如何实现分布式能源系统分布自治和协同方面的方法。因此，如何利用人工智能算法，实现分布式能源系统分布自治和协同是本领域急需解决的重要问题。

发明内容

本申请通过采用深度强化学习技术，提出适用于综合能源调度控制的具体方法，实现包括冷/热/气/电等能源的综合调度和控制，并以园区级分布式能源系统为例阐述实现方法，以解决目前分布式能源系统粗放运行的问题，最终实现综合能效提升和运行成本下降。

本申请一方面的实施例提供一种基于深度强化学习的分布式能源系统自治控制方法，包括：

通过能源管理系统模块从能源系统获取实时环境数据和变化数据，并将获取的实时环境数据和变化数据输入训练好的智能体神经网络中进行深度强化学习；智能体神经网络将接收到的数据进行决策计算，得到决策特征值，将决策特征值输出至决策空间，得到具体执行决策；按照得到的执行决策进行仿真，调整仿真模型中的可控设备与负荷，并进行潮流计算，判断计算结果是否异常，如果异常则上报异常信息，如果不异常则输出执行决策；根据执行决策调整现实分布式能源系统中的可控设备及负荷，完成自治控制。

优选的，所述智能体神经网络在进行训练时，包括以下步骤：S101、从能源管理系统模块读取T时刻的环境数据至数据池中，由数据池将环境数据输入智能体神经网络的深度强化学习算法模型中；S102、深度强化学习算法模型经过计算得到决策特征值，输出至决策空间，得到执行决策，再输入仿真系统；S103、仿真系统进行执行决策仿真，调整仿真模型中的可控设备与负荷，并进行潮流计算，输出潮流数据至奖惩函数进行计算，将由奖励函数得到的奖励结果，反馈至智能体神经网络；S104、智能体神经网络收到反馈的奖励结果，下发下一轮训练指令，仿真系统输出决策执行后的T+1时刻仿真数据至能量管理系统模块；S105、能量管理系统模块将T+1时刻的仿真数据及其他数据打包输入至数据池，进行下一步训练；重复上述步骤S101-S105，直至训练结束。

在上述任意一项实施例中优选的，所述深度强化学习算法模型采用由环境状态空间、动作策略空间、状态转移和奖惩函数构成的{s_t，a_t，s_t+1，r_t}四元组，其中，s_t为t时刻环境的状态空间量，r_t为智能体获得来自环境的反馈奖励，a_t为智能体通过计算策略分布函数计算或采样得到的t时刻动作，s_t+1为执行动作发生状态转移后t+1时刻环境的状态空间量。

在上述任意一项实施例中优选的，在计算状态转移形成的应用于强化学习训练的策略轨迹采用如下公式表示：

τ＝{(s_t,a_t,r_t)|t＝1…T}

其中，s_t为t时刻环境的状态空间量，r_t为智能体获得来自环境的反馈奖励，a_t为智能体通过计算策略分布函数计算或采样得到的t时刻动作。

在上述任意一项实施例中优选的，所述奖惩函数包括

状态价值函数V^π(s)＝E(R_t:∞|s_t＝s,π)；

所述状态价值函数用于评价各个状态s_t的价值的状态；

状态–动作价值函数，Q^π(s,a)＝E(R_t:∞|s_t＝s,a_t＝a,π)；

所述状态–动作价值函数用于评估s_t处于各状态及执行相应动作时未来可能获得的奖励期望；

优势函数A^π(s,a)＝Q^π(s,a)-V^π(s)

式中，γ为奖励折扣因子，所述优势函数用于表征状态s下，动作a相对于动作集合A中其他元素的优劣；

以及损失函数LDQN

L_DQN(θ_i)＝E_s,a～π[(y_i-Q(s,a；θ_i))²]

y_i＝E_{s′～f(s,a)}[r+γmax_a′Q(s′,a′；θ_i-1)|s,a]

所述损失函数用于表征状态s下，执行动作a后得到下一个状态s′的最优解。

在上述任意一项实施例中优选的，在步骤S103中，由奖励函数得到的奖励结果时，根据输出的潮流数据是否收敛，设定如下规则：

潮流数据收敛于第一收敛域，则匹配奖励值；

潮流数据收敛于第二收敛域，则匹配一级惩罚值；

潮流数据收敛于第三收敛域，则匹配二级惩罚值；

潮流数据不收敛，则匹配第三惩罚值。

在上述任意一项实施例中优选的，所述调整仿真模型中的可控设备与负荷，进行潮流计算时，包括根据分布式能源系统的拓扑将可控设备和负荷进行连接，并采用牛顿法进行潮流计算求解，输出仿真潮流数据。

在上述任意一项实施例中优选的，所述可控设备包括以下设备中任意一种或几种的组合：电制冷机、分布式光伏、燃气三联供系统、燃气热泵、储电储热装置；所述负荷包括冷负荷、电负荷和热负荷。

本发明另一方面的实施例中还提供一种基于深度强化学习的分布式能源系统自治控制系统，用于实施上述方法，包括能量管理系统模块、仿真系统模块和深度强化学习智能体；

所述能源管理系统模块用于从能源系统获取实时环境数据和变化数据，并将获取的实时环境数据和变化数据输入训练好的深度强化学习智能体的神经网络中进行深度强化学习；

所述深度强化学习智能体用于将接收到的数据进行决策计算，得到决策特征值，将决策特征值输出至决策空间，得到具体执行决策；并将具体执行决策输入到仿真系统模块进行仿真；

所述仿真系统模块按照得到的执行决策进行仿真，调整仿真模型中的可控设备与负荷，并进行潮流计算，判断计算结果是否异常，如果异常则上报异常信息，如果不异常则输出执行决策；根据执行决策调整现实分布式能源系统中的可控设备及负荷，完成自治控制。

在上述任意一项实施例中优选的，所述仿真系统模块包括机理模型子模块、数据模型子模块、仿真潮流计算子模块。所述机理模型子模块包括以下设备中任意一种或几种的组合：电制冷机、分布式光伏、燃气三联供系统、燃气热泵、储电储热装置；所述数据模型子模块包括冷负荷、电负荷和热负荷；所述仿真潮流计算子模块，用于根据分布式能源系统的拓扑将机理模型子模块和数据模型子模块进行连接，并采用牛顿法进行潮流计算求解，输出仿真潮流数据。

在上述任意一项实施例中优选的，所述深度强化学习智能体：包括环境状态空间、策略状态空间、深度强化学习算法模型；

所述环境状态空间：用于存储能源管理系统模块中获取的电网、燃气网数据及仿真系统数据，所述电网、燃气网数据包括潮流数据和常规数据，所述潮流数据包括系统电压、电流、相位、相角、功率因素；所述常规数据包括电价，天然气价格，天然气使用量，所述仿真系统数据包括分布式光伏、燃气热泵、储能储热装置的运行数据；

所述策略状态空间：包括设备控制和负荷控制两部分，统一采用离线控制策略；

所述深度强化学习算法模型，采用由环境状态空间、动作策略空间、状态转移和奖惩函数构成的{s_t，a_t，s_t+1，r_t}四元组，其中，s_t为t时刻环境的状态空间量，r_t为智能体获得来自环境的反馈奖励，a_t为智能体通过计算策略分布函数计算或采样得到的t时刻动作，s_t+1为执行动作发生状态转移后t+1时刻环境的状态空间量，所述深度强化学习算法模型用于根据环境状态空间的数据进行决策计算，在策略状态空间生成动作策略，并将动作策略输入到仿真系统模块进行仿真，实现状态转移，根据执行结果由奖励函数进行奖励计算。

本发明实施例提供的一种基于深度强化学习的分布式能源系统自治控制方法及系统，相比于现有技术至少具有以下优点：

1、通过构建智能体神经网络对分布式能源系统中的电网数据和燃气网数据进行深度学习，将生成的执行策略由仿真系统进行仿真，实现配电网的仿真计算。更能从本质上反映原件的物理特性，能够处理复杂的配电网络，并能实现快速计算，优化能源配置，降低运行成本。

2、通过设置奖惩函数和奖惩规则，实现了当配电网发生改变后可实现自适应，为配电网潮流计算程序提供了分散控制、应急和并行处理的能力。

3、实现包括冷/热/气/电等能源的综合调度和控制，解决了园区级分布式能源系统粗放运行的问题，最终实现综合能效提升和运行成本下降。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例提供的一种基于深度强化学习的分布式能源系统自治控制方法的流程图；

图2为本发明实施例提供的一种基于深度强化学习的分布式能源系统自治控制系统的结构框图；

图3为本发明实施例提供的深度强化学习智能体的强化学习模型。

图4为本发明实施例提供的深度强化学习智能体控制训练流程图。

图5为本发明实施例提供的深度强化学习智能体控制运行流程图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

如图1所示，本发明一方面提供一种基于深度强化学习的分布式能源系统自治控制方法，在运行时，包括如下步骤：

S1、通过能源管理系统模块从能源系统获取实时环境数据和变化数据，并将获取的实时环境数据和变化数据输入训练好的智能体神经网络中进行深度强化学习；

S2、智能体神经网络将接收到的数据进行决策计算，得到决策特征值，将决策特征值输出至决策空间，得到具体执行决策；

S3、按照得到的执行决策进行仿真，调整仿真模型中的可控设备与负荷，并进行潮流计算，判断计算结果是否异常，如果异常则上报异常信息，如果不异常则输出执行决策；

S4、根据执行决策调整现实分布式能源系统中的可控设备及负荷，完成自治控制。

如图4所示，需要说明的是，智能体神经网络需要事先进行搭建和训练，下面将以具体实施例，说明智能体神经网络的具体训练过程，在进行训练时，包括以下步骤：

S101、从能源管理系统模块读取T时刻的环境数据至数据池中，由数据池将环境数据输入智能体神经网络的深度强化学习算法模型中；

S102、深度强化学习算法模型经过计算得到决策特征值，输出至决策空间，得到执行决策，再输入仿真系统；

S103、仿真系统进行执行决策仿真，调整仿真模型中的可控设备与负荷，并进行潮流计算，输出潮流数据至奖惩函数进行计算，将由奖励函数得到的奖励结果，反馈至智能体神经网络；

S104、智能体神经网络收到反馈的奖励结果，下发下一轮训练指令，仿真系统输出决策执行后的T+1时刻仿真数据至能量管理系统模块；

S105、能量管理系统模块将T+1时刻的仿真数据及其他数据打包输入至数据池，进行下一步训练；重复上述步骤S101-S105，直至训练结束。

在本申请的另一个实施例中，所述深度强化学习算法模型采用由环境状态空间、动作策略空间、状态转移和奖惩函数构成的{s_t，a_t，s_t+1，r_t}四元组，其中，s_t为t时刻环境的状态空间量，r_t为智能体获得来自环境的反馈奖励，a_t为智能体通过计算策略分布函数计算或采样得到的t时刻动作，s_t+1为执行动作发生状态转移后t+1时刻环境的状态空间量。

其中,环境状态空间：包括能源管理系统模块中数据输出子模块提供的电网、燃气网及仿真系统数据，包括系统电压、电流、相位、相角、功率因素等电网潮流数据，电价，天然气价格，天然气使用量，分布式光伏、燃气热泵、储能储热装置等仿真运行数据。

策略状态空间：包括设备控制和负荷控制两部分，统一采用离线控制策略，即以下降10％、不变、上升10％三个动作策略，见公式(1)；

a_n∈{-0.1,0,0.1} (1)

假设在时间t<T，环境的状态空间量为s_t，智能体获得来自环境的反馈奖励r_t，r_t是状态量s_t的函数，可表示为r_t＝g(s_t)。为了得到t时刻的动作，智能体通过计算策略分布函数π(·|s)计算或者采样得到a_t∈A，其中A是智能体可能动作的集合。智能体通过执行a_t，使环境状态量s_t转移到s_t+1，其中s_t+1＝f(s_t，a_t)，见图2所示。重复执行直到完成任务目标或者到达上限T，得到可应用于强化学习训练的策略轨迹，表示为τ，见式(1)。

τ＝{(s_t,a_t,r_t)|t＝1…T} (公式1)

为了评价各个状态s_t的价值，在奖惩函数中强化学习定义了状态价值函数V^π(s_t)及状态–动作价值函数Q^π(s，a)，用于评估处于各状态及执行相应动作时未来可能获得的奖励期望，见式(2)和式(3)。

V^π(s)＝E(R_t:∞|s_t＝s,π) (公式2)

Q^π(s,a)＝E(R_t:∞|s_t＝s,a_t＝a,π) (公式3)

其中，R_t:∞为累积折扣奖励见式(4)。

还定义了优势函数

A^π(s,a)＝Q^π(s,a)-V^π(s) (公式6)

以及损失函数LDQN

y_i表示神经网络的目标Q值，所述损失函数用于表征状态s下，执行动作a后得到下一个状态s′的最优解。

在步骤S103中，由奖励函数得到的奖励结果时，根据输出的潮流数据是否收敛，设定如下规则：

潮流数据收敛于第一收敛域，则匹配奖励值；

潮流数据收敛于第二收敛域，则匹配一级惩罚值；

潮流数据收敛于第三收敛域，则匹配二级惩罚值；

潮流数据不收敛，则匹配第三惩罚值。

在本发明的一个具体实施例中具体奖惩措施包括：

1)分布式能源网络潮流电压标幺值处于0.95-1.05之间，奖励50个标准单位；分布式能源网络潮流电压标幺值处于0.8-0.95或1.0.5-1.2之间，惩罚10个标准单位；分布式能源网络潮流电压标幺值小于0.7或大于1.2，惩罚100个标准单位；潮流不收敛，惩罚500个标准单位；

2)策略奖励和设备控制单位时间策略数成反比：

在本实施例中，将对仿真模型的具体实施过程进行详细阐述，在步骤S3中，所述调整仿真模型中的可控设备与负荷，进行潮流计算时，包括根据分布式能源系统的拓扑将可控设备和负荷进行连接，并采用牛顿法进行潮流计算求解，输出仿真潮流数据。

需要说明的是，所述可控设备包括以下设备中任意一种或几种的组合：电制冷机、分布式光伏、燃气三联供系统、燃气热泵、储电储热装置；所述负荷包括冷负荷、电负荷和热负荷。核心在于使用负荷的历史数据进行负荷曲线预测，按1分钟为时间间隔，预测未来1小时的负荷曲线变化情况，并使用预测数据共同开展仿真计算；

能量管理系统模块：包括数据接入子模块(主要处理外部输入的电网数据和燃气网数据)、仿真系统数据子模块(主要实现与仿真系统模块的交互，读取系统仿真数据)、数据存储子模块、数据输出子模块。

如图2所示，本发明另一方面的实施例中还提供一种基于深度强化学习的分布式能源系统自治控制系统，用于实施上述方法，包括能量管理系统模块、仿真系统模块和深度强化学习智能体；

具体的，能量管理系统模块：包括数据接入子模块(主要处理外部输入的电网数据和燃气网数据)、仿真系统数据子模块(主要实现与仿真系统模块的交互，读取系统仿真数据)、数据存储子模块、数据输出子模块。

仿真系统模块包括机理模型子模块、数据模型子模块、仿真潮流计算子模块。所述机理模型子模块包括以下设备中任意一种或几种的组合：电制冷机、分布式光伏、燃气三联供系统、燃气热泵、储电储热装置；所述数据模型子模块包括冷负荷、电负荷和热负荷；所述仿真潮流计算子模块，用于根据分布式能源系统的拓扑将机理模型子模块和数据模型子模块进行连接，并采用牛顿法进行潮流计算求解，输出仿真潮流数据。

如图3所示，所述深度强化学习智能体：包括环境状态空间、策略状态空间、深度强化学习算法模型；

为了评价各个状态s_t的价值，强化学习定义了状态价值函数V^π(s_t)及状态–动作价值函数Q^π(s，a)，用于评估处于各状态及执行相应动作时未来可能获得的奖励期望，见式(2)和式(3)。

其中，R_t:∞为累积折扣奖励见式(4)。

具体奖惩措施包括：

3)分布式能源网络潮流电压标幺值处于0.95-1.05之间，奖励50个标准单位；分布式能源网络潮流电压标幺值处于0.8-0.95或1.0.5-1.2之间，惩罚10个标准单位；分布式能源网络潮流电压标幺值小于0.7或大于1.2，惩罚100个标准单位；潮流不收敛，惩罚500个标准单位；

4)策略奖励和设备控制单位时间策略数成反比：

式中，γ为奖励折扣因子。由此可定义优势函数A^π(s，a)，用于表征状态s下，动作a相对于动作集合A中其他元素的优劣，见式(6)。

其损失函数LDQN见式(7)。

如图4所示，为本实施例中深度强化学习智能体控制训练流程图，在进行训练时采用以下步骤：

(a1)智能体神经网络模块从能源管理系统模块读取T时刻的环境数据(具体数据类型见能源管理系统中的数据子模块)，环境数据输入深度强化学习智能体模块，经由数据池输入智能体神经网络；

(b1)智能体神经网络经过计算得到决策特征值，输出至决策空间，得到具体执行决策，再输入仿真系统模块；

(c1)仿真系统模块根据决策调整仿真模型中的可控设备与负荷，并进行潮流计算，输出潮流数据至奖惩函数进行计算，奖励结果反馈至智能体神经网络引导训练；

(d1)智能体神经网络给出下一轮训练指令，仿真系统模块输出决策执行后的T+1时刻仿真数据至能量管理系统模块；

(e1)能量管理系统模块将T+1时刻的仿真数据及其他数据打包输入至数据池，进行下一步训练。

(f1)智能体神经网络对是否结束训练进行判断，如果未结束，则重复(a)-(e)过程；结束则整个训练过程结束。

如图5所示，为本实施例中深度强化学习智能体控制运行流程图，在进行训练时采用以下步骤：

(a2)智能体神经网络模块从能源管理系统模块读取T时刻的环境数据及变化数据(具体数据类型见能源管理系统中的数据子模块)，环境数据输入深度强化学习智能体模块，经由数据池输入智能体神经网络；

(b2)智能体神经网络经过计算得到决策特征值，输出至决策空间，得到具体执行决策，再输入仿真系统模块；

(c2)仿真系统模块根据决策调整仿真模型中的可控设备与负荷，并进行潮流计算，判断是否异常，如果异常则上报系统，否则进行下一步；

(d2)根据智能体神经网络输出决策，调整现实分布式能源系统中的设备及负荷，完成自治控制，运行过程结束。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种基于深度强化学习的分布式能源系统自治控制方法，其特征在于，包括：

从能源系统获取实时环境数据和变化数据，并将获取的实时环境数据和变化数据输入训练好的智能体神经网络中进行深度强化学习；

智能体神经网络将接收到的数据进行决策计算，得到决策特征值，将决策特征值输出至决策空间，得到具体执行决策；

按照得到的执行决策进行仿真，调整仿真模型中的可控设备与负荷，并进行潮流计算，判断计算结果是否异常，如果异常则上报异常信息，如果不异常则输出执行决策；

根据执行决策调整现实分布式能源系统中的可控设备及负荷，完成自治控制；

所述智能体神经网络在进行训练时，包括以下步骤：

S105、能量管理系统模块将T+1时刻的仿真数据及其他数据打包输入至数据池，进行下一步训练；重复上述步骤S101-S105，直至训练结束；

所述深度强化学习算法模型采用由环境状态空间、动作策略空间、状态转移和奖惩函数构成的{s_t，a_t，s_t+1，r_t}四元组，其中，s_t为t时刻环境的状态空间量，r_t为智能体获得来自环境的反馈奖励，a_t为智能体通过计算策略分布函数计算或采样得到的t时刻动作，s_t+1为执行动作发生状态转移后t+1时刻环境的状态空间量；

策略状态空间：包括设备控制和负荷控制两部分，统一采用离线控制策略；

所述深度强化学习算法模型用于根据环境状态空间的数据进行决策计算，在策略状态空间生成动作策略，并将动作策略输入到仿真系统模块进行仿真，实现状态转移，根据执行结果由奖励函数进行奖励计算；

潮流数据收敛于第一收敛域，则匹配奖励值；

潮流数据收敛于第二收敛域，则匹配一级惩罚值；

潮流数据收敛于第三收敛域，则匹配二级惩罚值；

潮流数据不收敛，则匹配第三惩罚值。

2.根据权利要求1所述的基于深度强化学习的分布式能源系统自治控制方法，其特征在于，在计算状态转移形成的应用于强化学习训练的策略轨迹采用如下公式表示：

τ＝{(s_t，a_t，r_t)|t＝1…T}。

3.根据权利要求1所述的基于深度强化学习的分布式能源系统自治控制方法，其特征在于，所述奖惩函数包括

状态价值函数：

V^π(s)＝E(R_t:∞|s_t＝s,π)；

其中，R_t:_∞为累积折扣奖励，

所述状态价值函数用于评价各个状态s_t的价值的状态；

状态–动作价值函数：

Q^π(s,a)＝E(R_t:∞|s_t＝s,a_t＝a,π)；

优势函数A^π(s,a)＝Q^π(s,a)-V^π(s)

以及损失函数L_DQN

L_DQN(θ_i)＝E_s，a～π[(y_i-Q(s，a；θ_i))²]

y_i＝E_{s′～f(s，α)}[r+γmax_a′Q(s′，a′；θ_i-1)|s，a]

y_i表示神经网络的目标Q值，所述损失函数用于求解状态s下，执行动作a后得到下一个状态s′的最优解。

4.根据权利要求1所述的基于深度强化学习的分布式能源系统自治控制方法，其特征在于，所述调整仿真模型中的可控设备与负荷，进行潮流计算时，包括根据分布式能源系统的拓扑将可控设备和负荷进行连接，并采用牛顿法进行潮流计算求解，输出仿真潮流数据；所述可控设备包括以下设备中任意一种或几种的组合：电制冷机、分布式光伏、燃气三联供系统、燃气热泵、储电储热装置；所述负荷包括冷负荷、电负荷和热负荷。

5.一种基于深度强化学习的分布式能源系统自治控制系统，用于实施上述权利要求1-4中任意一项所述的方法，其特征在于，包括能量管理系统模块、仿真系统模块和深度强化学习智能体；

6.根据权利要求5所述的基于深度强化学习的分布式能源系统自治控制系统，其特征在于，所述仿真系统模块包括机理模型子模块、数据模型子模块、仿真潮流计算子模块；

所述机理模型子模块包括以下设备中任意一种或几种的组合：电制冷机、分布式光伏、燃气三联供系统、燃气热泵、储电储热装置；

所述数据模型子模块包括冷负荷、电负荷和热负荷；

所述仿真潮流计算子模块，用于根据分布式能源系统的拓扑将机理模型子模块和数据模型子模块进行连接，并采用牛顿法进行潮流计算求解，输出仿真潮流数据。

7.根据权利要求5所述的基于深度强化学习的分布式能源系统自治控制系统，其特征在于，所述深度强化学习智能体：包括环境状态空间、策略状态空间、深度强化学习算法模型；