CN115455835A

CN115455835A - 一种含可再生能源的多热源联网供热系统优化运行方法

Info

Publication number: CN115455835A
Application number: CN202211151592.8A
Authority: CN
Inventors: 裘天阅; 谢金芳; 金鹤峰; 穆佩红
Original assignee: Zhejiang Yingji Power Technology Co ltd
Current assignee: Zhejiang Yingji Power Technology Co ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-12-09

Abstract

本发明公开了一种含可再生能源的多热源联网供热系统优化运行方法，包括：建立含可再生能源的多热源联网供热系统数字孪生模型；根据系统区域能源分布特征，设置系统运行控制方式；建立以系统综合成本最小、碳排放量最小和用能满意度最高的多目标函数和设置系统约束条件的多热源联网供热系统运行模型；将多热源联网供热系统运行模型转化为马尔科夫决策过程；对深度强化学习算法进行改进：设置当前网络包括两个critic值网络和一个actor策略网络，且每个网络都有对应的目标网络，通过当前网络中的actor策略网络选择最优动作，通过目标网络中两个独立的critic网络对策略选择的最优动作进行评估分析后，获得系统最优运行策略。

Description

一种含可再生能源的多热源联网供热系统优化运行方法

技术领域

本发明属于智慧供热技术领域，具体涉及一种含可再生能源的多热源联网供热系统优化运行方法。

背景技术

众所周知，当前世界各国的不可再生的煤、石油、天然气等常规能源储量不足，并且随着当前各国对此类能源的应用仍占有很大比例，但各国都在担心能源供应中断等面临的一系列社会问题，很多国家都步入了寻找可再生能源替代的研究方向，并作为国家发展的战略计划，并且目前我国供暖模式占能源消耗的主要部分，北方地区传统的采暖模式主要有区域锅炉房、热电联产以及电采暖等，并且以上采暖方式存在着不同程度的问题，如能源利用效率低、污染严重、高位能源利用不合理、供热设备利用率低等弊端，综上所述，供暖方面急需寻找一种环保、高效、合理的新型供暖模式。

目前，以土壤源热泵、空气源热泵、太阳能等可再生能源为供暖主要热源是未来的发展方向。首先，由于单一的可再生能源供热存在初投资大、运行费用高等难题，同时易受当地气候和资源等条件的限制，难以满足城镇地区规模化供热需求，如何充分利用当地资源特征优势，合理经济化地将可再生能源应用在供热系统中，获得系统的最优运行方案，实现节约资源、保护环境、降低能耗等是目前急需解决的问题。

基于上述技术问题，需要设计一种新的含可再生能源的多热源联网供热系统优化运行方法。

发明内容

本发明所要解决的技术问题是，克服现有技术的不足，提供一种含可再生能源的多热源联网供热系统优化运行方法，通过可再生能源进行供热，解决一些地区供热问题，并且能够充分利用当地的资源优势，合理运行资源进行居民供暖，提高了系统供热能效性和环保性、经济性；并且通过构建多目标的多热源联网供热系统运行模型，采用改进的深度强化学习算法进行求解，能够减少动态搜索过程中产生的高估误差，提高奖励函数对状态和动作变化的准确性和敏感性，从而有效提高决策质量，更好地实现多热源联网供热系统的优化运行。

为了解决上述技术问题，本发明的技术方案是：

本发明提供了一种含可再生能源的多热源联网供热系统优化运行方法，它包括：

步骤S1、建立含可再生能源的多热源联网供热系统数字孪生模型；

步骤S2、根据供热系统区域能源分布特征，设置含可再生能源的多热源联网供热系统运行控制方式；

步骤S3、基于所述多热源联网供热系统数字孪生模型和系统运行控制方式，建立以系统综合成本最小、碳排放量最小和用能满意度最高的多目标函数和设置系统相关约束条件的多热源联网供热系统运行模型；

步骤S4、将多热源联网供热系统运行模型转化为多目标优化的马尔科夫决策过程；

步骤S5、对深度强化学习算法进行改进：设置当前网络包括两个critic值网络和一个actor策略网络，且每个网络都有对应的目标网络，通过当前网络中的actor策略网络选择最优动作，通过目标网络中两个独立的critic网络对策略选择的最优动作进行评估分析后，获得系统最优运行策略。

进一步，所述步骤S1中，建立含可再生能源的多热源联网供热系统数字孪生模型，包括：

步骤S101、构建含可再生能源的多热源联网供热系统虚拟实体，并进行虚实数据连接后建立含可再生能源的多热源联网供热系统数字孪生模型，包括：

构建含可再生能源的多热源联网供热系统结构模型、物理设备实体模型、行为模型和规则模型；所述含可再生能源的多热源联网供热系统结构模型至少包括空气源热泵、太阳能集热器、地源热泵、生物质锅炉、电热锅炉和蓄热水箱；所述物理设备实体模型通过添加设备物理属性获得；基于功能基本理论构建行为模型，建立具有交互功能和模拟真实操作环境的含可再生能源的多热源联网供热系统虚拟仿真系统；最后建立虚拟实体的规则模型制定虚拟实体的控制策略；

通过采集含可再生能源的多热源联网供热系统物理设备的实际运行数据驱动相应虚拟设备，建立虚实数据的映射关系，形成含可再生能源的多热源联网供热系统作业策略；通过不断迭代和优化数据采集控制过程，实现物理实体与虚拟空间实时数据的连接与动态交互，建立含可再生能源的多热源联网供热系统数字孪生模型；

步骤S102、对数字孪生模型进行辨识，包括：

将含可再生能源的多热源联网供热系统的多工况实时运行数据接入已建立的数字孪生模型中，采用反向辨识方法对数字孪生模型的仿真结果进行自适应辨识修正，获得辨识修正后的含可再生能源的多热源联网供热系统数字孪生模型。

进一步，所述空气源热泵模型，表示为：

Q_ashp＝S_ashp·P_ashp·COP_a；

其中，Q_ashp为空气源热泵供热量；S_ashp为空气源热泵启停因子，取0或1；P_ashp为空气源热泵输入功率；COP_a为空气源热泵供热能效比；T_a为室外空气温度；

所述太阳能集热器模型，表示为：

Q_u＝Q_a-Q_l＝F_r·A_co·(I(t)-U_L(t_p-t_amb))；

其中，Q_u为太阳能集热器的有效输出热量；Q_a为入射到太阳能集热器表面的总太阳辐射能量；Q_l为太阳能集热器对周围环境的散热量；F_r为太阳能集热器热转移因子；A_co为太阳能集热器的有效使用面积；I(t)为t时刻的太阳总辐射；U_L为太阳能集热器总热损系数；t_p为吸热板温度；t_amb为环境温度；

所述生物质锅炉模型，表示为：

Q_fuel＝m_fuel·q_dw,fuel；

其中，Q_fuel为生物质燃料在燃烧过程中产生的热量；m_fuel为生物质燃料消耗量；q_dw,fuel为生物质燃料的低位热值；

所述电热锅炉模型，表示为：

Q_ele＝P_ele×η_ET×η_gd；

其中，Q_ele为电热锅炉输出热量；P_ele为电热锅炉输入功率；η_ET为电锅炉综合转化效率；η_gd为管道效率；

所述地源热泵模型，表示为：

Q_gshp＝P_gshp·COP_g；

COP_g＝aT_g ²+bT_g+c；

其中，Q_gshp为地源热泵的制热量；P_gshp为地源热泵的输入功率；COP_g为地源热泵的供热能效比；T_g为土壤温度；a、b、c为地源热泵性能系数参数；

所述蓄热水箱模型，表示为：

其中，ρ_w为水的密度；c_p,w为水的定压比热容；V_sx为水箱体积；

为单位时间内水箱内温度变化值；Q_ass为辅助热源供给的热量；Q_loss为水箱向外界散失的热量；Q_h为系统供热需求量。

进一步，所述步骤S2中，根据供热系统区域能源分布特征，设置含可再生能源的多热源联网供热系统运行控制方式，包括：

根据供热系统区域能源分布特征，并依据地区气候和供暖初中末期，划阶段地设定供热系统主热源、次热源和辅助热源，并根据供热需求和蓄热水箱温度进行主热源、次热源和辅助热源的启停控制设计；

当以太阳能集热器作为主热源，空气源热泵为次热源，地源热泵、生物质锅炉、电热锅炉和蓄热水箱为辅助热源；

在供暖季运行期间，当太阳能集热器出口温度和蓄热水箱温度之间的温差大于设定值时，开启太阳能集热器；当太阳能集热器不能满足供热需求时，且蓄热水箱温度小于设定的水箱温度上限值时，开启空气源热泵；当空气源热泵仍不能满足供热需求时，且蓄热水箱水温低于设定的水箱温度下限值时，开启辅助热源中的某一热源进行耦合供热；

在极端天气时，通过辅助热源中的某一热源进行调峰；

在夜间谷电期间，利用热泵在供热的同时进行蓄热，在日间优先使用夜间蓄热量；

在非供暖季，太阳能集热器通过地埋管进行跨季节蓄热。

进一步，所述步骤S3中，基于所述多热源联网供热系统数字孪生模型和系统运行控制方式，建立以系统综合成本最小、碳排放量最小和用能满意度最高的多热源联网供热系统运行模型，包括：

基于所述多热源联网供热系统数字孪生模型和系统运行控制方式进行系统的仿真模拟分析，获得各热源设备运行模型、运行特性和供热需求分析后，建立以系统综合成本最小、碳排放量最小和用能满意度最高的多目标函数和设置系统相关约束条件的多热源联网供热系统运行模型；

其中，所述以系统综合成本最小为目标函数，表示为：

其中，T为调度总时间；C_1,t、C_2,t、C_3,t、C_4,t分别为t时段的初始投资成本、运行维护成本、向公共电网购电成本和污染物治理成本；所述初始投资成本至少包括各可再生能源的投资成本和系统管路附件、水泵成本费用；所述运行维护成本至少包括各可再生能源设备和水泵消耗的电能、生物质燃料的费用、设备维修费；

所述以碳排放量最小为目标函数，表示为：

其中，N为产生碳排放的热源设备数量；P_i,t为第i台热源设备在t时段的供热功率；α_i为第i台热源设备供热的碳排放系数；g_u,t为公共电网购电量；β_u为区域供电排放系数；

所述以用能满意度最高为目标函数，表示为：

其中，M为系统用能种类数；m_j,t为第j类能源在t时刻的使用量；Φ_j为用户对第j类能源满意度；

设置系统相关约束条件，包括：

能量平衡约束：Q_ashp(t)+Q_ass(t)-Q_loss(t)-Q_sx(t)＝Q_h(t)；Q_ashp(t)为空气源热泵在t时刻供给的热量；Q_ass(t)为辅助热源在t时刻供给的热量；Q_loss(t)为蓄热水箱在t时刻向外界散失的热量；Q_sx(t)为蓄热水箱在t时刻所蓄存的热量；Q_h(t)为在t时刻的供热需求量；

出力约束：P_i,min≤P_i,t≤P_i,max；P_i,max、P_i,min分别为第i台热源设备的出力上下限；

容量约束：L_i,min≤L_i,t≤L_i,max；L_i,t为第i台热源设备在t时段的容量；L_i,max、L_i,min分别为第i台热源设备的容量上下限。

进一步，所述步骤S4中，将多热源联网供热系统运行模型转化为多目标优化的马尔科夫决策过程，包括：

将多热源联网供热系统运行模型转化为多目标优化的马尔科夫决策过程，包括：

系统状态空间S包括：系统各热源设备的出力、容量、启停状态、供热需求量、蓄热水箱供热温度上下限值；

系统动作空间A包括：太阳能集热器面积、空气源热泵输入功率、生物质锅炉容量、电热锅炉输入功率、地源热泵输入功率、蓄热水箱体积；

系统状态转移：系统状态从当前时刻转移到下一时刻的状态；

系统奖励函数包括：以综合成本最小、碳排放量最小和用能满意度最高、以及根据系统约束条件转化的惩罚成本，将目标函数和约束条件定义为带折扣的累计回报，表示为：

γ为奖励衰减因子；R(t)为每个时间步长t内由控制变量引起的奖励回报函数，由综合成本、碳排放量、用能满意度和约束惩罚项的加权和组成。

进一步，所述步骤S5中，对深度强化学习算法进行改进：设置当前网络包括两个critic值网络和一个actor策略网络，且每个网络都有对应的目标网络，通过当前网络中的actor策略网络选择最优动作，通过目标网络中两个独立的critic网络对策略选择的最优动作进行评估分析后，获得系统最优运行策略，包括：

设置当前网络：包括设置两个critic值网络，通过参数θ₁和θ₂更新；设置一个actor策略网络，通过参数φ更新；actor策略网络用于选择最优动作，critic值网络用于评估动作；

设置目标网络：通过对当前网络参数θ₁、θ₂和φ进行异步延迟更新后，初始化目前网络中的两个critic值网络和一个actor策略网络；

当前actor策略网络通过状态s_k获得动作a_k；

执行动作a_k获得新状态s_k+1，计算奖励值R(k)，并将记忆单元(s_k,a_k,R(k),s_k+1)存储到经验池中；

从经验池中随机采样数据(s_t,a_t,R(t),s_t+1)，再由目标actor策略网络通过状态s_t+1获得动作a^*；

更新当前critic网络参数θ₁和θ₂，重复迭代多步后更新目标critic网络参数θ₁ ^-和θ₂ ^-，以及更新当前actor策略网络和目标actor策略网络的参数φ和φ^-；

通过目标critic值网络计算动作策略函数π_φ(s_k)相对于

和

获进行迭代优化时的目标值函数，表示为：

和

为当前两个critic值网络在相同状态s_k和动作π_φ(s_k)下的价值函数；在参数更新时，选择最小的作为更新目标，表示为：

通过不断重复迭代后，通过当前网络参数θ_k选择具有Q(s_k+1,a；θ_k)最大值的动作a，目标网络参数θ_k ^-评估最优动作的Q值，目标值函数表示为：

进一步，所述更新当前critic网络参数θ₁和θ₂，重复迭代多步后更新目标critic网络参数θ₁ ^-和θ₂ ^-，以及更新当前actor策略网络和目标actor策略网络的参数φ和φ^-，包括：

其中，

和

分别为第k+1次迭代时当前critic网络与目标critic网络的参数；

和

为经c步延迟后当前critic网络与目标critic网络的参数；τ为网络参数更新率；α_i为学习权重值；

为对最小化方差损失函数进行梯度计算获得参数θ₁和θ₂；

其中，φ_k+1和

分别为第k+1次迭代时当前actor网络与目标actor网络的参数；β为学习率；

为对最小化交叉熵损失函数进行梯度计算获得参数φ。

进一步，在步骤S2之后，还包括：

根据供热系统区域能源分布特征，并依据地区气候和供暖初末期，划阶段地设定供热系统主热源、次热源和辅助热源，根据辅助热源和次热源的选取种类多样，形成多种主热源、次热源和辅助热源的组合运行方案；

构建以经济成本最小和污染量排放最小为目标函数的经济运行模型，优化决策变量为系统多热源组合方式，设系统当前状态包括热源类型、运行特性、供热需求、元分布和气候数据；

采用深度强化学习算法对经济运行模型进行求解获得最优组合运行方案：以当前状态根据贪婪算法选择动作，并执行相应动作获得奖励后进入下一状态，储存经验样本到经验池中；从经验池中随机抽取经验样本，不断迭代更新Q值，选取最大Q值计算每一状态的目标值。

进一步，所述步骤S5之后，还包括：基于含可再生能源的多热源联网供热系统数字孪生模型对系统运行策略进行验证，判断运行策略是否满足系统运行的安全性、环保性、节能性和经济性指标，若满足，则进行运行策略下发；否则，重新进行运行策略的调整。

本发明的有益效果是：

本发明通过建立含可再生能源的多热源联网供热系统数字孪生模型；根据供热系统区域能源分布特征，设置含可再生能源的多热源联网供热系统运行控制方式；基于所述多热源联网供热系统数字孪生模型和系统运行控制方式，建立以系统综合成本最小、碳排放量最小和用能满意度最高的多目标函数和设置系统相关约束条件的多热源联网供热系统运行模型；将多热源联网供热系统运行模型转化为多目标优化的马尔科夫决策过程；对深度强化学习算法进行改进：设置当前网络包括两个critic值网络和一个actor策略网络，且每个网络都有对应的目标网络，通过当前网络中的actor策略网络选择最优动作，通过目标网络中两个独立的critic网络对策略选择的最优动作进行评估分析后，获得系统最优运行策略，通过可再生能源进行供热，解决一些地区供热问题，并且能够充分利用当地的资源优势，合理运行资源进行居民供暖，提高了系统供热能效性和环保性、经济性；并且通过构建多目标的多热源联网供热系统运行模型，采用改进的深度强化学习算法进行求解，能够减少动态搜索过程中产生的高估误差，提高奖励函数对状态和动作变化的准确性和敏感性，从而有效提高决策质量，更好地实现多热源联网供热系统的优化运行。

其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种含可再生能源的多热源联网供热系统优化运行方法流程图；

图2为本发明含可再生能源的多热源联网供热系统某一种结构示意图；

图3为本发明含可再生能源的多热源联网供热系统能流图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1是本发明所涉及的一种含可再生能源的多热源联网供热系统优化运行方法流程图。

图2是本发明所涉及的含可再生能源的多热源联网供热系统某一种结构示意图。

图3是本发明所涉及的含可再生能源的多热源联网供热系统能流图。

如图1-3所示，本实施例1提供了一种含可再生能源的多热源联网供热系统优化运行方法，它包括：

在本实施例中，所述步骤S1中，建立含可再生能源的多热源联网供热系统数字孪生模型，包括：

步骤S102、对数字孪生模型进行辨识，包括：

在本实施例中，所述空气源热泵模型，表示为：

Q_ashp＝S_ashp·P_ashp·COP_a；

所述太阳能集热器模型，表示为：

Q_u＝Q_a-Q_l＝F_r·A_co·(I(t)-U_L(t_p-t_amb))；

所述生物质锅炉模型，表示为：

Q_fuel＝m_fuel·q_dw,fuel；

所述电热锅炉模型，表示为：

Q_ele＝P_ele×η_ET×η_gd；

所述地源热泵模型，表示为：

Q_gshp＝P_gshp·COP_g；

COP_g＝aT_g ²+bT_g+c；

所述蓄热水箱模型，表示为：

在本实施例中，所述步骤S2中，根据供热系统区域能源分布特征，设置含可再生能源的多热源联网供热系统运行控制方式，包括：

在极端天气时，通过辅助热源中的某一热源进行调峰；

在非供暖季，太阳能集热器通过地埋管进行跨季节蓄热。

在实际的应用中，应当根据当地地区的气候类型和能源分布特征，在供暖初中末期分阶段地根据地区实际情况设定供热系统主热源、次热源和辅助热源，能够合理有效地利用可再生能源，实现节约资源、保护环境和降低能耗。

在本实施例中，所述步骤S3中，基于所述多热源联网供热系统数字孪生模型和系统运行控制方式，建立以系统综合成本最小、碳排放量最小和用能满意度最高的多热源联网供热系统运行模型，包括：

其中，所述以系统综合成本最小为目标函数，表示为：

所述以碳排放量最小为目标函数，表示为：

所述以用能满意度最高为目标函数，表示为：

设置系统相关约束条件，包括：

在本实施例中，所述步骤S4中，将多热源联网供热系统运行模型转化为多目标优化的马尔科夫决策过程，包括：

在本实施例中，所述步骤S5中，对深度强化学习算法进行改进：设置当前网络包括两个critic值网络和一个actor策略网络，且每个网络都有对应的目标网络，通过当前网络中的actor策略网络选择最优动作，通过目标网络中两个独立的critic网络对策略选择的最优动作进行评估分析后，获得系统最优运行策略，包括：

当前actor策略网络通过状态s_k获得动作a_k；

通过目标critic值网络计算动作策略函数π_φ(s_k)相对于

和

获进行迭代优化时的目标值函数，表示为：

和

需要说明的是，由于

和

共享相同的状态与动作，彼此的更新并不完全独立，并且至少存在一个网络会将真实目标价值高估，所以在每次更新中选取其中最小值作为更新目标，该更新规则可能会导致低估偏差，但低估动作价值对策略造成的探索误差远远低于高估行为。对于强化学习，由于过度追求长期折扣回报奖励最大，因此在策略方面往往选择对应最大Q值的动作，而随着迭代更新的不断进行，会使策略探索过程出现累积偏差和高估方差问题，严重制约其学习轨迹探索到全局最优，影响智能体做出适合当前目标的最优决策。本发明对深度强化学习算法的改进，利用网络间启发更新机制，能够较好解决最优策略探索中出现的高方差值函数和迭代累积误差问题，提高决策质量和学习效率。

在本实施例中，所述更新当前critic网络参数θ₁和θ₂，重复迭代多步后更新目标critic网络参数θ₁ ^-和θ₂ ^-，以及更新当前actor策略网络和目标actor策略网络的参数φ和φ^-，包括：

其中，

和

分别为第k+1次迭代时当前critic网络与目标critic网络的参数；

和

为对最小化方差损失函数进行梯度计算获得参数θ₁和θ₂；

其中，φ_k+1和

为对最小化交叉熵损失函数进行梯度计算获得参数φ。

在本实施例中，在步骤S2之后，还包括：

需要说明的是，通过设置经济运行模型，获得热源组合最优方案，再根据该热源组合方案进行多热源联网供热系统运行模型的构建，通过双层模型能够精确全面地获得系统运行的最佳策略。

在本实施例中，所述步骤S5之后，还包括：基于含可再生能源的多热源联网供热系统数字孪生模型对系统运行策略进行验证，判断运行策略是否满足系统运行的安全性、环保性、节能性和经济性指标，若满足，则进行运行策略下发；否则，重新进行运行策略的调整。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种含可再生能源的多热源联网供热系统优化运行方法，其特征在于，它包括：

2.根据权利要求1所述的多热源联网供热系统优化运行方法，其特征在于，所述步骤S1中，建立含可再生能源的多热源联网供热系统数字孪生模型，包括：

步骤S102、对数字孪生模型进行辨识，包括：

3.根据权利要求2所述的多热源联网供热系统优化运行方法，其特征在于，所述空气源热泵模型，表示为：

Q_ashp＝S_ashp·P_ashp·COP_a；

所述太阳能集热器模型，表示为：

Q_u＝Q_a-Q_l＝F_r·A_co·(I(t)-U_L(t_p-t_amb))；

所述生物质锅炉模型，表示为：

Q_fuel＝m_fuel·q_dw,fuel；

所述电热锅炉模型，表示为：

Q_ele＝P_ele×η_ET×η_gd；

所述地源热泵模型，表示为：

Q_gshp＝P_gshp·COP_g；

COP_g＝aT_g ²+bT_g+c；

所述蓄热水箱模型，表示为：

4.根据权利要求1所述的多热源联网供热系统优化运行方法，其特征在于，所述步骤S2中，根据供热系统区域能源分布特征，设置含可再生能源的多热源联网供热系统运行控制方式，包括：

在极端天气时，通过辅助热源中的某一热源进行调峰；

在非供暖季，太阳能集热器通过地埋管进行跨季节蓄热。

5.根据权利要求1所述的多热源联网供热系统优化运行方法，其特征在于，所述步骤S3中，基于所述多热源联网供热系统数字孪生模型和系统运行控制方式，建立以系统综合成本最小、碳排放量最小和用能满意度最高的多热源联网供热系统运行模型，包括：

其中，所述以系统综合成本最小为目标函数，表示为：

所述以碳排放量最小为目标函数，表示为：

所述以用能满意度最高为目标函数，表示为：

设置系统相关约束条件，包括：

6.根据权利要求1所述的多热源联网供热系统优化运行方法，其特征在于，所述步骤S4中，将多热源联网供热系统运行模型转化为多目标优化的马尔科夫决策过程，包括：

7.根据权利要求1所述的多热源联网供热系统优化运行方法，其特征在于，所述步骤S5中，对深度强化学习算法进行改进：设置当前网络包括两个critic值网络和一个actor策略网络，且每个网络都有对应的目标网络，通过当前网络中的actor策略网络选择最优动作，通过目标网络中两个独立的critic网络对策略选择的最优动作进行评估分析后，获得系统最优运行策略，包括：

当前actor策略网络通过状态s_k获得动作a_k；