CN113591375A

CN113591375A - 一种基于智能体的多能源系统最优协同运行方法

Info

Publication number: CN113591375A
Application number: CN202110808989.9A
Authority: CN
Inventors: 向月; 徐博涵; 刘友波; 刘俊勇; 王天昊; 项添春; 金尧; 吴彬; 马世乾
Original assignee: Sichuan University; State Grid Tianjin Electric Power Co Ltd
Current assignee: Sichuan University; State Grid Tianjin Electric Power Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-11-02
Anticipated expiration: 2041-07-16
Also published as: CN113591375B

Abstract

本发明公开了一种基于智能体的多能源系统最优协同运行方法，涉及多能源系统技术领域，通过π网络和Q网络生成目标网络，设定循环周期T；将一组历史数据输入至目标网络，通过π网络决定动作，通过多能源系统物理模型计算出下一时刻的观测状态和回报，通过r值更新π网络和Q网络的参数，循环T次后完成DDPG算法的离线学习；通过观测设备获取DDPG算法的观测数据，将观测数据输入至完成离线学习的DDPG算法获得决策动作，完成多能源系统的实时自趋优运行。本发明克服了传统数学算法需要对物理模型间的耦合关系进行复杂建模的问题，并扩展了一般机器学习算法的动作空间，使决策可以更加逼近最优决策。

Description

一种基于智能体的多能源系统最优协同运行方法

技术领域

本发明涉及多能源系统技术领域，具体是一种基于智能体的多能源系统最优协同运行方法。

背景技术

多能源系统集热、电、气等多种能源形式于一体，可以实现多种能源形式的相互转化和互补利用。然而，由于负荷和可再生能源出力的不确定性，以及复杂的能源耦合关系，多能源系统的经济运行面临重大挑战。

现有的多能源系统优化调度分为日前调度和实时调度，其中日前调度无法动态的对新能源出力和负荷波动做出响应，难以获得最优的调度效果。而对于实时调度，一般采用基于模型预测控制的调度方法，虽然该方法对实现了多能源系统的动态调度，但仍然依赖于对可再生能源和负荷的准确预测，会受到预测偏差的影响。随着计算机性能的快速发展，许多学者开始使用机器学习的方法来处理调度问题，如Q-learning，DQN等。它们都存在的不同的技术问题，Q-learning算法，需要大量的内存来存储Q值，处理高维空间的调度问题时，会产生维数灾的问题。DQN算法，通过加入神经网络的方法解决了Q值存储问题，消除了维数灾，实现了向高维空间的扩展，但是只能输出离散动作，丧失了很多动作空间，造成调度成本的上升，无法获得最优调度。

发明内容

鉴于上述技术缺点，本发明提供了一种基于智能体的多能源系统最优协同运行方法。

为实现上述发明目的，本发明的技术方案如下：

一种基于智能体的多能源系统最优协同运行方法，包括如下步骤：

S1，通过π网络和Q网络生成目标网络，设定循环周期T，将一组历史数据输入至目标网络，通过π网络决定动作，将动作输入至多能源系统物理模型计算策略的回报和下一时刻历史数据的观测状态，根据回报修正Q网络的参数，得到修正后的Q网络，通过修正后的Q网络得到Q值，通过Q值修正π网络参数，得到修正后的π网络，修正后的Q网络和修正后的π网络生成新的目标网络，循环T次后，完成DDPG算法的离线学习；

S2，通过观测设备实时获取DDPG算法的观测数据，将观测数据输入至完成离线学习的DDPG算法，获得决策动作，通过决策动作完成多能源系统的实时自趋优运行。

作为优选的，步骤S1中的多能源系统物理模型包括热电联产机组模型，光伏电源，储电模型，气锅炉模型，电锅炉模型以及用户侧热补偿模型；

热电联产机组模型：

h_CHP，t＝δ·p_CHP，t

p_CHP，t为热电联产机组在t时刻电出力，h_CHP，t为热电联产机组在t时刻热出力，g_CHP，t为热电联产机组在t时刻耗气量，δ为热电联产机组的热电比，α_CHP为热电联产机组的转换因子，

为热电联产机组的最小电功率，

为热电联产机组的最大电功率；

电锅炉模型：

h_EB，t＝p_EB，t·α_EB

p_EB，t为电锅炉在t时刻的电功率，h_EB，t为电锅炉在t时刻的热功率，α_EB为电锅炉的转换因子，

为电锅炉的最小热功率，

为电锅炉的最大热功率；

气锅炉模型：

h_GB，t为气锅炉在t时刻的热功率，g_GB，t为气锅炉在t时刻的耗气量，α_GB为气锅炉的转化因子，

为气锅炉的最小热功率，

为气锅炉的最大热功率；

储电模型：

C_soc，0＝C_ini＝C_soc，23

p_BES，t为储电装置在t时刻的电功率，C_soc，t为储电装置在t时刻的荷电状态，ρ_BES为储电装置的效率，Q_BES为储电装置的电容量，ρ_ch为储电装置的充电效率，ρ_dis为储电装置的放电效率，

为储电装置的最小荷电状态，

为储电装置的最大荷电状态，

为储电装置的最小电功率，

为储电装置的最大电功率，C_ini为储电装置的初始荷电状态，C_soc，0为储电装置的在0时的荷电状态，C_soc，23为储电装置的在23时的荷电状态；

用户侧热补偿模型：

d_h，t＝h_load，t-(h_CHP，t+h_EB，t+h_GB，t)

0≤d_h，t≤0.2·h_load，t

h_load，t为t时刻的热负荷，d_h，t为t时刻的热功率缺额，μ_h，t为热功率缺额补偿价格，θ_wil，θ_uwil为不同梯度的补偿价格；

回报函数：

r_t(s_t，a_t)＝-(C_p(s_t，a_t)+C_BES(s_t，a_t)+C_u(s_t，a_t))/1000(24)

回报函数用于衡量决策的优劣，并作为修正神经网络参数的依据，r_t为t时刻的回报，s_t为t时刻的观测状态，a_t为t时刻的动作；

上层电网交互模型用于计算回报函数中C_p(s_t，a_t)，C_BES(s_t，a_t)和C_u(s_t，a_t)：

p_grid，t＝p_load，t+p_EB，t+p_PV，t-p_BES，t-p_CHP，t

p_load，t为在t时刻的电负荷功率，p_PV，t为在t时刻的光伏电源出力，p_grid，t为在t时刻的多能源系统与上层电网的交互功率，

为最小交互功率，

为最大交互功率；

目标函数：

F＝min(C_p+C_BES+C_u)

C_u＝μ_h，td_h，t

调度的目标是多能源系统的日运行成本达到设定最小值，C_p为购买能源的成本，C_BES为蓄电设备折旧成本，C_u为热功率补偿成本，μ_BES为储电设备折旧单价。

作为优选的，步骤S1中的DDPG算法的离线学习流程如下：

观测空间：

S＝{p_load，h_load，p_PV，C_soc，μ_e}

S为智能体需要观测的状态的集合，p_load为负荷电功率，h_load为负荷热功率，p_PV为光伏电源出力功率，C_soc为储电装置的荷电状态，μ_e为分时电价；

动作空间：

A＝{p_CHP，h_EB，h_GB，p_BES}

A为智能体可以决策的动作的集合，p_CHP为热电联产电功率，h_EB为电锅炉热功率，h_GB为气锅炉热功率，p_BES为储电装置充放电功率；

Q函数：

Q值为多个时间步的回报之和，用于衡量策略的优劣，并作为修正神经网络参数的依据，π为神经网络拟合的策略，γ为折扣因子；

π网络为：

a_t＝π(s_t|θ^π)+v_t

v_t+1＝(1-τ_v)v_t+1

π网络用于拟合观测状态到决策动作的映射，v_t为t时刻的噪声，τ_v为噪声的更新系数，ε_π为π网络参数的更新系数，θ^Q为Q网络的参数，θ^π为π网络的参数，

为偏导符号；

Q网络为：

L(θ^Q)＝(y_t-Q(s_t，a_t|θ^Q))²

y_t＝r_t+γ(Q′s_t+1，π′(s_t+1|θ^π′)|θ^Q′)

θ^π′←τ_θθ^π+(1-τ_θ)θ^π′

θ^Q′←τ_θθ^Q+(1-τ_θ)θ^Q′

Q网络用于拟合决策动作到Q值的映射，π′为π网络的目标网络，Q′为Q网络的目标网络，用于稳定迭代过程，ε_π为Q网络参数的更新系数，τ_θ为目标网络的更新系数。

本发明的有益效果是：

(1)提出了一种基于智能体的多能源系统最优协同运行方法，克服了传统日前调度无法实时决策的问题以及传统日内调度依赖精确负荷预测的问题；

(2)将历史数据与物理模型相结合，使用DDPG算法让智能体自动挖掘当前状态和最优决策之间的关系，克服了传统数学算法需要对物理模型间的耦合关系进行复杂建模的问题，并扩展了一般机器学习算法的动作空间，使决策可以更加逼近最优决策。

附图说明

图1为本发明提供的：多能源系统结构图；

图2为本发明提供的：智能体决策逻辑图；

图3为本发明提供的：DDPG算法离线学习流程图。

具体实施方式

下面结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整地描述，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

多能源系统集热、电、气等多种能源形式于一体，实现多种能源形式的相互转化和互补利用。然而，由于可再生能源产量和负荷的不确定性，以及复杂的能源耦合关系，使多能源系统的实时经济运行面临重大挑战。本专利利用实时监测设备(如电压表、电流表等)采集的数据，即可让计算机在无人为干预的情况下，实时的根据负荷波动和新能源出力情况，自动进行生产设备的调度，实现多能源系统的长期运行成本最小。本专利的物理建模具备通用性，可适用具有不同设备规格的新能源小区或新能源工业园区等。

如图1、2所示，一种基于智能体的多能源系统最优协同运行方法包括：多能源系统物理模型建模方法，数据驱动的DDPG离线学习方法以及多能源系统在线运行方法。

(1)多能源系统物理模型建模方法：

本发明的多能源系统物理模型采用的多能源系统使用与主网并行运行的模式，多能源系统包括热电联产机组模型，光伏电源，储电模型，气锅炉模型，电锅炉模型以及用户侧热补偿模型。多能源系统物理模型的调度目标为多能源系统的日运行成本最小。

热电联产机组模型：

h_CHP，t＝δ·p_CHP，t (1)

为热电联产机组的最小电功率，

为热电联产机组的最大电功率；

电锅炉模型：

h_EB，t＝P_EB，t·α_EB (4)

为电锅炉的最小热功率，

为电锅炉的最大热功率；

气锅炉模型：

为气锅炉的最小热功率，

为气锅炉的最大热功率；

储电模型：

C_soc，0＝C_ini＝C_soc，23 (12)

为储电装置的最小荷电状态，

为储电装置的最大荷电状态，

为储电装置的最小电功率，

用户侧热补偿模型：

d_h，t＝h_load，t-(h_CHP，t+h_EB._t+h_GB，t)(13)

0≤d_h，t≤0.2·h_load，t(15)

h_load，t为t时刻的热负荷，d_h，t为t时刻的热功率缺额，μ_h，t为热功率缺额补偿价格，θ_wil，θ_uwil为不同梯度的补偿价格。

上层电网交互模型用于计算(24)中C_p(s_t，a_t)，C_BES(s_t，a_t)和C_u(s_t，a_t)：

p_grid，t＝p_load，t+p_EB，t+p_PV，t-p_BES，t-p_CHP，t(16)

p_load，t，p_PV，t，p_grid，t分别为在t时刻的电负荷功率，光伏电源出力，以及多能源系统与上层电网的交互功率，

分别为最小交互功率和最大交互功率。

目标函数：

F＝min(C_p+C_BES+C_u)(18)

C_u＝μ_h，td_h，t(21)

调度的目标是多能源系统的日运行成本最小，C_p，C_BES，C_u分别为购买能源的成本，蓄电设备折旧成本，和热功率补偿成本，μ_BES为储电设备折旧单价，实现目标函数是设计回报函数(24)的目的，回报函数是基于目标函数设置，根据这样的回报函数学习出来的智能体才可以完成目标函数，即日运行成本最小。

数据驱动的DDPG离线学习方法：

DDPG算法通过含有大量参数的神经网络来拟合观测状态到最优动作的映射，并根据物理模型计算收益来修正神经网络的参数，经过多次迭代完成数据驱动下的策略学习。

观测空间：

S＝{p_load，h_load，P_PV，C_soc，μ_e}(22)

S为智能体需要观测的状态的集合；

动作空间：

A＝{p_CHP，h_EB，h_GB，p_BES} (23)

A为智能体可以决策的动作的集合；

回报函数：

r_t(s_t，a_t)＝-(C_p(s_t，a_t)+C_BES(s_t，a_t)+C_u(s_t，a_t))/1000(24)

Q函数：

Q值为多个时间步下的回报之和，用于衡量策略的优劣，并作为修正神经网络参数的依据，π为神经网络拟合的策略，γ为折扣因子，循环一次为一个时间步，前文设置循环T次，共有T个时间步；

π网络为：

a_t＝π(s_t|θ^π)+v_t(26)

v_t+1＝(1-τ_v)v_t+1(27)

为偏导符号；

Q网络为：

L(θ^Q)＝(y_t-Q(s_t，a_t|θ^Q))²(30)

y_t＝r_t+γ(Q′s_t+1，π′(s_t+1|θ^π′)|θ^Q′)(31)

θ^π′←τ_θθ^π+(1-τ_θ)θ^π′ (34)

θ^Q′←τ_θθ^Q+(1-τ_θ)θ^Q′ (35)

DDPG离线学习流程：首先使用随机参数生成一个π网络和Q网络，使用相同的参数生成目标网络(初始时，目标网络就是原网络的复制，在学习过程中，相比于π网络和Q网络，目标网络的参数更新速度更慢，可以稳定学习过程。公式(34)和(35)表明了目标网络的更新方式)，然后设定一个循环周期T，输入第一组历史数据(在学习过程，每个新的时间步都会放入一组不同的历史数据作为智能体的观测值，历史数据来自于以往的真实数据。学习完成后，用于实际系统时，智能体的观测值则为根据监测设备所获得的实际数据，历史数据是指综合能源系统在长期的运行过程中所积累下的结构化的数据，如一年的负荷数据等)，根据π网络决定动作(π网络本质是一个具有大量随机参数的函数，用于表示智能体的策略。动作是智能体根据策略和观测值做出的决策，a＝π(o)。也就是(23)中所包含的四个变量)，根据多能源系统物理模型计算策略的收益和下一时刻(每个时刻为一小时)历史数据的观测状态(学习过程中的观测状态来自于历史数据，在线运行时观测状态来自于实时观测数据)并记录，根据回报修正Q网络参数，根据Q网络求得Q值修正π网络参数。最后，循环T次，完成DDPG算法的离线学习。

(3)多能源系统的在线运行方法：通过可以实时上传数据的电压表，电流表和测温仪器等观测设备实时获取DDPG算法的观测数据，然后将观测数据输入完成学习的DDPG算法，可以得到决策动作，实现多能源系统的实时自趋优运行。

如图3所示，一种基于智能体的多能源系统最优协同运行方法包括学习过程和在线运行两部分：

学习过程包括如下步骤：

1，设置学习天数循环上限Episode＝M，然后随机生成含有大量参数的π网络和Q网络，并将其复制一份作为目标网络。

2，开始新一天的学习

3，设置一天中的时间步数T作为一天的循环上限。

4，开始新一个时间步的学习，将一天中该时间步的历史数据(负荷电功率，负荷热功率，光伏电源出力功率，分时电价)以及储电装置的荷电状态(第一个时间步取0.4)作为观测值，输入至π网络，并根据π网络计算(26)动作值。然后根据动作值和物理模型计算下一时间步中储电装置的荷电状态(8)以及r值(24)。再然后通过r值修正Q网络及其目标网络的参数(30-35)，并根据修正后的Q网络计算Q值来修正π网络及其目标网络(28-29)。最后，若时间步不等于T，则返回4；若时间步等于T且Episode不等于M，则返回2，若时间步等于T且Episode等于M，则学习完成，结束循环。

在线运行部分包括如下步骤：

(1).以(24小时/T)为单位，周期性获取实时观测数据。

(2).将采集的数据输送给智能体，让智能体自行制定下一时间段的调度方案，返回(1)。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。