CN115411776B

CN115411776B - 住宅综合能源系统的热电协同调度方法及装置

Info

Publication number: CN115411776B
Application number: CN202211182386.3A
Authority: CN
Inventors: 孙立; 王显连; 史如新; 陈亮; 张华成; 邵康; 杨毅; 李敏; 汤耀红; 袁俊球; 张伟
Original assignee: Suzhou Qingdong Carbon Zero Information Technology Co ltd; State Grid Corp of China SGCC; Southeast University; State Grid Jiangsu Electric Power Co Ltd; Changzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Suzhou Qingdong Carbon Zero Information Technology Co ltd; State Grid Corp of China SGCC; Southeast University; State Grid Jiangsu Electric Power Co Ltd; Changzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-11-14
Anticipated expiration: 2042-09-27
Also published as: CN115411776A

Abstract

本发明提供一种住宅综合能源系统的热电协同调度方法及装置，方法包括：建立住宅综合能源系统中与调度相关的各设备的调度模型，并确定各设备运行时的出力及安全特性；基于调度模型建立以总燃料成本为目标、以出力及安全特性为约束的热电协同调度优化模型；基于热电协同调度优化模型建立马尔可夫决策过程模型；采用DDPG算法在马尔可夫决策过程模型下对住宅综合能源系统进行热电协同调度，以得到调度结果。由此，采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度，可以在满足离网系统热电供需平衡的基础上，提高能量利用效率并获得足够好的长期运行经济性，因此可以广泛应用于住宅系统中。

Description

住宅综合能源系统的热电协同调度方法及装置

技术领域

本发明涉及配电网无功补偿技术领域，具体涉及一种住宅综合能源系统的热电协同调度方法和一种住宅综合能源系统的热电协同调度装置。

背景技术

燃料电池在住宅供暖方面有许多优势，比如燃料电池在系统设计和基础设施方面都具有很好的兼容性。但是，热电联产和消耗之间的动态负荷不匹配已成为燃料电池在住宅系统中广泛推广的主要障碍。一般来说，为了保障热电供需的平衡与用户舒适度，具有储能作用的锂电池和蓄热罐对住宅系统热负荷和电负荷解耦是十分必要的。然而，燃料电池的自身特性决定了其供电与供热满足一定的热电比，但用户的热电需求则随时间、人员活动、天气情况等呈现不规律的状态。因此，充分利用先进的燃料电池并确保系统的稳定运行不仅取决于设备级的开发和维护，还取决于系统级的智能调度规则。

目前，许多基于燃料电池的系统模型和研究方法通常以优化控制策略来提高燃料电池效率，但由于不同的运行要求和荷载形式，导致该策略下的能量利用效率和运行经济性较低，因此不能被直接应用于住宅系统中。因此，需要设计更加智能化、具备自适应能力的系统运行控制策略。

发明内容

本发明为解决相关技术中在进行电池的优化控制时能量利用效率和运行经济性较低的问题，提出了如下技术方案。

本发明第一方面实施例提出了一种住宅综合能源系统的热电协同调度方法，包括以下步骤：建立所述住宅综合能源系统中与调度相关的各设备的调度模型，并确定各设备运行时的出力及安全特性；基于所述调度模型建立以总燃料成本为目标、以所述出力及安全特性为约束的热电协同调度优化模型；基于所述热电协同调度优化模型建立马尔可夫决策过程模型；采用DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度，以得到调度结果。

另外，根据本发明上述实施例的住宅综合能源系统的热电协同调度方法还可以具有如下附加的技术特征。

根据本发明的一个实施例，所述住宅综合能源系统中与调度相关的各设备包括：燃料电池、光伏发电模块、锂电池、热泵、以及基于相变储能的蓄热罐。

根据本发明的一个实施例，所述燃料电池的调度模型为：

其中，为k时刻所述燃料电池的热功率输出，/>为k时刻所述燃料电池的电功率输出，η_E和η_T分别为所述燃料电池的电效率和热效率，C_k为k时刻所述燃料电池的氢气消耗量，η_E,k为k时刻所述燃料电池的电效率，/>是氢气的低位热值，ΔT是时间步长；

所述光伏发电模块的调度模型为：

其中，是所述光伏发电模块的输出功率，η_PV和η_inv分别为所述光伏发电模块中的光伏效率和转换器效率，/>为k时刻太阳辐照度，A_PV表示有效光照面积；

所述锂电池的调度模型为：

其中，是所述锂电池的输出功率，/>是所述锂电池的电池单元的输出功率，n₁和n₂分别为电池阵列的行列数，SOC_k+1是k+1时刻所述锂电池的荷电状态，SOC_k是k时刻所述锂电池的荷电状态，Q_B是锂电池容量，I_b,k是k时刻每个电池单元的电流；

所述蓄热罐的调度模型为：

其中，HSD_k+1是k+1时刻所述蓄热罐的储热状态，HSD_k是k时刻所述蓄热罐的储热状态，H_s,k是所述蓄热罐的充热或放热功率，是所述蓄热罐的总储热量；

所述热泵的调度模型为：

其中，是所述热泵的供热功率，/>是所述热泵供热所对应的电功率，COP_k是k时刻所述热泵的能效比。

根据本发明的一个实施例，所述热电协同调度优化模型的目标函数为：

其中，J是所述热电协同调度优化模型的目标函数，N是优化调度周期，为k时刻燃料电池的电功率输出，/>为k时刻燃料电池供电功率输出对应的氢气消耗量，C_N为终端成本，γ是惩罚系数。

根据本发明的一个实施例，所述热电协同调度优化模型表示为：

SOC_min≤SOC_k≤SOC_max

HSD_min≤HSD_k≤HSD_max

SOC₀＝SOC_max

HSD₀＝HSD_max

其中，分别为电负荷和热负荷，/>为蓄热罐的放热功率，SOC_k为k时刻锂电池的荷电状态，SOC_max、SOC_min分别为锂电池SOC的上限值和下限值，HSD_k为k时刻蓄热罐的储热状态，HSD_max、HSD_min分别蓄热罐HSD的上限值和下限值，SOC₀为锂电池的初始荷电状态，HSD₀为蓄热罐的初始储热状态。

根据本发明的一个实施例，基于所述热电协同调度优化模型建立马尔可夫决策过程模型，包括：

建立以下状态空间：

其中，分别为净电负荷和净热负荷，其中/> SOC为所述锂电池的荷电状态，HSD为所述蓄热罐的储热状态；

建立以下动作空间：

A＝[P_FC,P_HP]

其中，P_FC为所述燃料电池的电功率，P_HP为所述热泵的电功率；

建立以下奖励函数：

其中，C(P_FC)是燃料电池发电氢耗，分别为电能功率的过剩和不足，分别为热能功率的过剩和不足，l₁₁、l₂₁分别是电能过剩和不足的惩罚系数，l₁₂、l₂₂分别是热能过剩与不足的惩罚系数，ΔSOC表示当前荷电状态偏离给定荷电状态的值，k₁、k₂分别是锂电池荷电状态和蓄热罐储热状态的容量惩罚系数，ΔHSD表示当前储热状态偏离给定储热状态的值。

根据本发明的一个实施例，采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度，包括：建立DDPG算法框架，并对DDPG算法进行改进；基于所述马尔可夫决策过程模型，采用改进的DDPG算法在负载多重不确定性下训练所述DDPG算法的神经网络，其中，所述多重不确定性包括：电负载、热负载和光伏负载；使用训练好的神经网络对所述住宅综合能源系统进行热电协同调度，以得到调度结果。

根据本发明的一个实施例，对DDPG算法进行改进，包括：在DDPG算法中增加动作判断环节，所述动作判断环节为：当演员网络产生动作后，判断所述动作是否可接受，若所述动作可接受，则不添加噪声，并以发电成本作为奖励，否则对所述动作添加噪声，其中，所述演员网络产生的所述动作为燃料电池供电功率和热泵供热耗电功率；降低所述演员网络的更新频率，其中，所述演员网络的更新频率小于评论员网络的更新频率；

其中，判断所述动作是否可接受，具体包括：计算所述动作的能量过剩与不足情况，若所述供电功率与供热耗电功率均满足负荷需求，且在给燃料电池和蓄热罐充能后电能过剩与热能过剩的功率均不超过预设值，则所述动作可接受，否则所述动作不可接受。

根据本发明的一个实施例，基于所述马尔可夫决策过程模型，采用改进的DDPG算法在负载多重不确定性下训练所述DDPG算法的神经网络，具体包括：

使用改进的DDPG算法在多重不确定性下训练智能代理；

基于所述状态空间和所述动作空间，建立演员网络和评论员网络，分别记为P网络和Q网络；

初始化演员网络的参数和评论员网络的参数，分别记为记作ω_P和θ_P，并建立结构相同的目标演员网络和目标评论员网络，根据以下公式初始化所述目标演员网络的参数和所述目标评论员网络的参数：

其中，ω_P为所述演员网络的参数，θ_P为所述评论员网络的参数，为所述目标演员网络的参数，/>为目标评论员网络的参数；

设置训练参数，所述训练参数包括所述演员网络的学习率、所述评论员网络的学习率、所述目标演员网络的参数更新系数、所述目标评论员网络的参数更新系数、调度周期、训练回合数、折扣因子γ和经验回放池内存；

在每个训练回合开始前，随机生成所述住宅综合能源系统的运行工况，其中，所述运行工况包括环境温度、光伏发电出力以及电热负荷，所述运行工况对应负载的多重不确定性；

在每个训练回合内，获得初始状态S₀，对每一个时间步t及其状态S_t，通过所述演员网络获得动作a_t，判断所述动作a_t是否可接受；若所述动作a_t可接受，则不添加噪声，并以发电成本作为奖励；若所述动作a_t不可接受，则根据以下公式对所述动作a_t加上噪声：

其中，表示添加噪声后的动作，N_t表示噪声；

系统以不添加噪声的动作或者添加噪声后的动作与环境进行交互并获得包含惩罚的奖励r_t以及新状态S_t+1，并将数据组保存到经验回放缓冲区中；当经验足够时，执行经验回放，即从所述经验回放缓冲区中取出一个批量的数据，并以均方误差训练所述评论员网络、以采样梯度训练所述演员网络；

回合训练结束后，分别更新所述演员网络和所述评论员网络，更新网络参数，并进行下一个回合训练，其中，每更新两次评论员网络后更新一次演员网络。

本发明第二方面实施例提出了一种住宅综合能源系统的热电协同调度装置，包括：第一建立模块，用于建立所述住宅综合能源系统中与调度相关的各设备的调度模型，并确定各设备运行时的出力及安全特性；第二建立模块，用于基于所述调度模型建立以总燃料成本为目标、以所述出力及安全特性为约束的热电协同调度优化模型；第三建立模块，用于基于所述热电协同调度优化模型建立马尔可夫决策过程模型；调度模块，用于采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度，以得到调度结果。

本发明实施例的技术方案，先建立住宅综合能源系统中与调度相关的各设备的调度模型，并确定各设备运行时的出力及安全特性，再基于调度模型建立以总燃料成本为目标、以出力及安全特性为约束的热电协同调度优化模型，之后基于热电协同调度优化模型建立马尔可夫决策过程模型，最后采用DDPG算法在马尔可夫决策过程模型下对住宅综合能源系统进行热电协同调度，以得到调度结果。由此，采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度，可以在满足离网系统热电供需平衡的基础上，提高能量利用效率并获得足够好的长期运行经济性，由此可以广泛应用于住宅系统中。

附图说明

图1为本发明实施例的住宅综合能源系统的结构示意图；

图2为本发明实施例的住宅综合能源系统的热电协同调度方法的流程图。

图3为本发明实施例的改进的DDPG算法框架示意图。

图4为本发明一个具体示例中冬季典型日负载和光伏发电功率曲线图。

图5为本发明一个具体示例中冬季典型日室温与COP系数曲线图。

图6为本发明一个具体示例中改进的DDPG算法累积成本动态曲线图。

图7为本发明一个具体示例中冬季典型日下燃料电池发电成本动态曲线图。

图8为本发明一个具体示例中冬季典型日下锂电池和蓄热罐的容量动态曲线图。

图9为本发明一个具体示例中冬季典型日下电热调度过剩和不足情况曲线图。

图10为本发明实施例的住宅综合能源系统的热电协同调度装置的方框示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

强化学习技术已经在许多不同的电力和能源系统中得到了广泛的探索和研究。如电力市场竞价、配电网保护、电动车辆充电，虚拟电厂运行、需求响应、建筑能源管理和许多其他输电和配电应用。但到目前为止，将强化学习，或深度强化学习应用于涉及燃料电池控制与优化的综合能源系统的研究相对较少。

传统的优化框架，需要考虑繁琐的设备运行约束和工况预测步骤，这往往使得系统难以快速适应不断变化的运行条件。相反，深度强化学习方法通常放弃设备级的精细建模，而是将重点放在系统级的映射到聚合决策模型，如马尔可夫决策过程，同时以探索和利用这种学习的形式代替精准的预测。这样获得的控制策略可能无法保证在每个操作周期的最佳性能，但可以以不确定性的方式获得足够好的长期性能，节省大量的资源并保证强大的适应性。历史信息和初步计算结果也可以在不同的决策区间之间传递，从而不断重用迭代间信息，以提高计算效率。

考虑光伏发电与电热负荷的多重不确定性以及系统强非线性、多变量等特点，本发明基于深度强化学习进行绿色住宅综合能源系统的运行与控制策略。智能体通过与环境不断交互获得回报后更新模型参数，在未知全局最优解的情况下，达到总期望回报最大化。同时由于强化学习中折扣因子的应用，算法能够更好地考虑未来预期收益，从而有效解决综合能源系统随机性强的问题。

图1为本发明实施例的住宅综合能源系统的结构示意图。

如图1所示，住宅综合能源系统包括燃料电池(质子交换膜氢能燃料电池)、锂电池、光伏发电模块、热泵以及基于相变储能的蓄热罐。燃料电池与热泵所制热水均先存储在蓄热罐中，再从蓄热罐中取热量供给居住房屋的供暖与热水。住宅综合能源系统采用母线制供电结构，燃料电池发电、光伏发电、锂电池的充放电、热泵与用户的用电均连接至母线。其他辅助设备包括能量控制器、管路、阀门、循环水泵以及电气设备未在图1中示出。

其中，热泵采用空气源热泵，系统中热量来源为热泵供热、燃料电池余热及储热罐的蓄热。

如图2所示，该住宅综合能源系统的热电协同调度方法包括以下步骤S1至S4。

S1，建立住宅综合能源系统中与调度相关的各设备的调度模型，并确定各设备运行时的出力及安全特性。

其中，住宅综合能源系统中与调度相关的各设备包括：燃料电池、光伏发电模块、锂电池、热泵、以及基于相变储能的蓄热罐。

具体地，建立质子交换膜氢能燃料电池的供热量模型、锂电池的电量动态特性模型、蓄热罐储热程度模型以及热泵的耗功量模型，并确定燃料电池。光伏发电模块、锂电池、热泵以及蓄热罐的出力及安全特性，作为后续优化模块的约束条件。

S2，基于调度模型建立以总燃料成本为目标、以出力及安全特性为约束的热电协同调度优化模型。

具体地，以最小化运行燃料消耗量为目标、以各设备的出力及安全特性为约束建立热电协同调度优化模型，该模型以最小化运行燃料消耗量为目标的目标函数、出力及安全约束以及初始条件，针对锂电池、蓄热罐工作在充、放或不工作三种状态，以及热泵工作在启、停两种状态，共18种状态下的情况进行设备的优化调度。

S3，基于热电协同调度优化模型建立马尔可夫决策过程模型。

具体地，为克服优化模型中多变量、非线性与负载不确定性(电负载、热负载和光伏负载)等困难，建立基于优化模型的马尔可夫决策过程模型。

S4，采用DDPG算法在马尔可夫决策过程模型下对住宅综合能源系统进行热电协同调度，以得到调度结果。

具体地，采用DDPG算法在马尔可夫决策过程模型下进行热电协同调度，可以使系统控制更加智能化，体现了控制策略的自适应性，在满足系统运行约束条件的同时能够做到根据负载不确定性和储能设备容量等因素，在不同时间段自动生成不同的控制策略动作，从而考虑未来环境信息以获取更高的长期收益。

本发明实施例从设备级到系统级全过程充分实现燃料电池的热电解耦，基于具有强大适应性的深度强化学习算法实现负载多重不确定下的住宅综合能源系统的高效热电协同调度，突出燃料电池在复杂系统中配置与应用的巨大潜力。相较动态规划方法需要基于历史运行数据构造概率模型，DDPG算法得益于神经网络强大的拟合能力，以及惩罚函数和折扣因子的应用，智能体可以不依赖概率模型在不确定的环境下训练和学习，在满足离网系统热电供需平衡的基础上，提高能量利用效率并获得足够好的长期运行经济性。

由此，本发明实施例的住宅综合能源系统的热电协同调度方法，采用DDPG算法在马尔可夫决策过程模型下对住宅综合能源系统进行热电协同调度，可以在满足离网系统热电供需平衡的基础上，提高能量利用效率并获得足够好的长期运行经济性，由此可以广泛应用于住宅系统中。

在本发明的一个实施例中，各设备的调度模型的建立过程如下：

燃料电池为质子交换膜氢能燃料电池，其热电效率由经验数据拟合所得，如式(1)所示：

其中，η_E和η_T分别为燃料电池的电效率和热效率，是燃料电池的电功率输出，下标“r”特指额定工况。

燃料电池的热功率输出由式(2)可得：

其中，为k时刻燃料电池的热功率输出，/>为k时刻燃料电池的电功率输出。

燃料电池的氢气消耗量可以由式(3)表示：

其中，C_k为k时刻燃料电池的氢气消耗量，η_E,k为k时刻燃料电池的电效率，是氢气的低位热值(LHV)，ΔT是时间步长。

光伏发电模块的输出功率可以表示为：

其中，是光伏发电模块的输出功率，η_PV和η_inv分别为光伏发电模块中的光伏效率和转换器效率，/>为k时刻太阳辐照度，单位为瓦特每平方米(W/m²)，A_PV表示有效光照面积。

锂电池的输出功率可以由(5)式表示：

其中，是锂电池的输出功率，/>是锂电池的电池单元的输出功率，n₁和n₂分别为电池阵列的行列数。

锂电池中每个电池单元的电流可由式(6)可得：

其中，I_b,k是k时刻每个电池单元的电流，开环电压V_OC和电池内阻R_b可视为定值。

锂电池的荷电状态SOC的动态特性可表示为：

其中，SOC_k+1是k+1时刻锂电池的荷电状态，SOC_k是k时刻锂电池的荷电状态，Q_B是锂电池容量，电流充电为负，放电为正。

与锂电池的荷电状态SOC类似，含相变储能的蓄热罐的储热状态定义为HSD，其动态特性由式(8)表示：

其中，HSD_k+1是_k+1时刻蓄热罐的储热状态，HSD_k是k时刻蓄热罐的储热状态，H_s,k是蓄热罐的充热(负)或放热(正)功率，是蓄热罐的总储热量，显然0≤HSD≤1且当其取值为0或1时，分别代表了蓄热罐无热量和满热量的两种状态。

热泵的能效比(COP)由经验拟合所得，其表达式为：

其中，ΔT_HP是热泵生产热水温度T_DHW与k时刻环境温度的差值。热泵的供热功率可以由式(10)表示：

其中，是热泵的供热功率，/>是热泵供热所对应的电功率，COP_k是k时刻热泵的能效比。

热电协同调度模型的目标函数包含两个部分，分别为整个调度周期内燃料电池发电的总氢耗，以及带有惩罚系数的终端成本。

即在本发明的一个实施例中，热电协同调度优化模型的目标函数为：

其中，J是热电协同调度优化模型的目标函数，N是优化调度周期，为k时刻燃料电池的电功率输出，/>为k时刻燃料电池供电功率输出对应的氢气消耗量，C_N为终端成本，γ是惩罚系数。终端成本γC_N使得在系统运行结束时，锂电池和蓄热罐的储能状态可以尽可能地回到初始状态，从而保证在下一个调度周期开始时具备充足的电能与热能消耗能力。

锂电池和蓄热罐可分别处于充、放或不工作三种状态，热泵可处于工作或不工作状态。进一步地，考虑目标函数和设备运行时的出力及安全约束，热电协同调度优化模型可以表示为：

SOC_min≤SOC_k≤SOC_max (17)

HSD_min≤HSD_k≤HSD_max (18)

SOC₀＝SOC_max (21)

HSD₀＝HSD_max (22)

式(12)为目标函数，N是优化时域即调度周期；

式(13)-(14)是状态变量x_k＝[SOC_k HSD_k]的状态转移方程，由电平衡式(15)和热平衡式(16)以及设备特性模型式(1)-(10)决定；

式(17)、(18)分别约束了锂电池储能状态SOC和蓄热罐储热状态HSD的上下限；

式(19)、(20)分别约束了燃料电池的发电功率的上下限和热泵耗电功率的上下限，其中上限即为该设备的额定功率；

式(21)、(22)分别为锂电池的初始状态与蓄热罐的初始状态。

在建立好如以上各式的各设备的调度模型和热电协同调度优化模型之后，执行步骤S3，即基于热电协同调度优化模型建立马尔可夫决策过程模型。其中，马尔科夫决策过程模型的包括环境和动作，针对住宅综合能源系统的运行环境S，智能代理会产生一个动作A并以该动作与环境交互，并获得反馈奖励R。因此，住宅综合能源系统的运行可以用一个五元组定义：(S,A,P,R,γ)，其中P是状态转移矩阵，表示从当前状态转移到下一状态的概率，γ＝[0,1]是折扣因子。

即在本发明的一个实施例中，基于热电协同调度优化模型建立马尔可夫决策过程模型，可包括：

建立以下状态空间：

其中，分别为净电负荷和净热负荷，其中/> SOC为锂电池的荷电状态，HSD为蓄热罐的储热状态。

建立以下动作空间：

A＝[P_FC,P_HP] (24)

其中，P_FC为燃料电池的电功率，P_HP为热泵的电功率。

建立以下奖励函数：

其中，C(P_FC)是燃料电池发电氢耗，分别为电能功率的过剩和不足，分别为热能功率的过剩和不足，l₁₁、l₂₁分别是电能过剩和不足的惩罚系数，l₁₂、l₂₂分别是热能过剩与不足的惩罚系数，ΔSOC表示当前荷电状态SOC_k偏离给定荷电状态SOC_r的值，即ΔSOC＝SOC_r-SOC_k，k₁、k₂分别是锂电池荷电状态和蓄热罐储热状态的容量惩罚系数，ΔHSD的定义类似，即ΔHSD表示当前储热状态偏离给定储热状态的值。该两项惩罚的引入可以使该系统在运行结束后，电池的SOC和蓄热罐的HSD回到相对较高的水平，以提高系统的可持续性。

根据以上式子建立好马尔可夫决策过程模型后，执行步骤S4，即采用DDPG算法在马尔可夫决策过程模型下对住宅综合能源系统进行热电协同调度，以得到调度结果。

在一个示例中，采用DDPG算法在马尔可夫决策过程模型下对住宅综合能源系统进行热电协同调度，可包括：建立DDPG算法框架，并对DDPG算法进行改进；基于马尔可夫决策过程模型，采用改进的DDPG算法在负载多重不确定性下训练DDPG算法的神经网络，其中，多重不确定性包括：电负载、热负载和光伏负载；使用训练好的神经网络对住宅综合能源系统进行热电协同调度，以得到调度结果。

进一步地，对DDPG算法进行改进，可包括：在DDPG算法中增加动作判断环节，动作判断环节为：当演员网络产生动作后，判断动作是否可接受，若动作可接受，则不添加噪声，并以发电成本作为奖励，否则对动作添加白噪声；降低演员网络的更新频率，其中，演员网络的更新频率小于评论员网络的更新频率。

其中，演员网络产生的动作为燃料电池供电功率和热泵供热耗电功率，判断动作是否可接受可包括：计算动作的能量过剩与不足情况，若供电功率与供热耗电功率均满足负荷需求，且在给燃料电池和蓄热罐充能后电能过剩与热能过剩的功率均不超过预设值，则动作可接受，否则动作不可接受。其中，预设值可以是根据实际问题具体设定的。

具体而言，首先建立DDPG算法框架，并对DDPG算法进行改进，之后基于马尔可夫决策过程模型，采用改进的DDPG算法在负载多重不确定性下训练DDPG算法的神经网络，其中，在回合训练过程中，为加快网络收敛速度，在演员网络产生动作，即燃料电池供电功率和热泵供热耗电功率时，计算能量过剩与不足情况，若供电功率与供热耗电功率均满足负荷需求，且在给燃料电池和蓄热罐充能后电能过剩与热能过剩的功率均不超过预设值(0.25kW)，则演员网络产生的动作可接受，否则演员网络产生的动作不可接受。若动作可接受，则不添加噪声，并以发电成本作为奖励；若动作不可接受，则对动作添加噪声。在每个回合训练结束后，分别更新演员网络和评论员网络，其中，演员网络的更新频率小于评论员网络的更新频率，比如，每更新两次评论员网络后更新一次演员网络。训练结束后，使用训练好的神经网络对住宅综合能源系统进行热电协同调度，以得到调度结果

在本发明的一个示例中，基于马尔可夫决策过程模型，采用改进的DDPG算法在负载多重不确定性下训练DDPG算法的神经网络，具体可包括：使用改进的DDPG算法在多重不确定性下训练智能代理；基于状态空间和动作空间，建立演员网络和评论员网络，分别记为P网络和Q网络；初始化演员网络的参数和评论员网络的参数，分别记为记作ω_P和θ_P，并建立结构相同的目标演员网络和目标评论员网络，根据以下公式初始化目标演员网络的参数和目标评论员网络的参数：

其中，ω_P为演员网络的参数，θ_P为评论员网络的参数，为目标演员网络的参数，为目标评论员网络的参数；设置训练参数，训练参数包括演员网络的学习率、评论员网络的学习率、目标演员网络的参数更新系数、目标评论员网络的参数更新系数、调度周期、训练回合数、折扣因子γ和经验回放池内存；在每个训练回合开始前，随机生成住宅综合能源系统的运行工况，其中，运行工况包括环境温度、光伏发电出力以及电热负荷，运行工况工况对应负载的多重不确定性；在每个训练回合内，获得初始状态S₀，对每一个时间步t及其状态S_t，通过演员网络获得动作a_t，判断动作a_t是否可接受；若动作a_t可接受，则不添加噪声，/>并以发电成本作为奖励；若动作a_t不可接受，则根据以下公式对动作a_t加上噪声：

其中，表示添加噪声后的动作，N_t表示噪声；系统以不添加噪声的动作或者添加噪声后的动作与环境进行交互并获得包含惩罚的奖励r_t以及新状态S_t+1，并将数据组保存到经验回放缓冲区中；当经验足够时，执行经验回放，即从经验回放缓冲区中取出一个批量的数据，并以均方误差/>训练评论员网络、以采样梯度训练演员网络；回合训练结束后，分别更新演员网络和评论员网络，更新网络参数，并进行下一个回合训练，其中，每更新两次评论员网络后更新一次演员网络。

具体而言，如图3所示，首先使用改进的DDPG算法在多重不确定性下训练智能代理。基于状态空间和动作空间，建立演员和评论员深度神经网络模型，分别记为P网络和Q网络。其中，P网络为4输入(状态)、2输出(动作)，Q网络为6输入(状态和动作)、1输出(回报)。初始化P网络和Q网络的参数，记作ω_P和θ_P，并建立结构相同的目标演员网络target_P和目标评论员target_Q，参数按原网络初始化，即/>

之后，设置P网络的学习率a^p，Q网络的学习率a^Q，目标网络参数更新系数τ，调度周期T，训练回合数episode，折扣因子γ，经验回放缓冲区内存reply_memory和批量大小batchsize。设置OU噪声参数μ和θ，OU噪声方差最大值δ_max和最小值δ_min，以及衰减周期decay。设置奖励函数惩罚系数k₁，k₂，l₁₁，l₂₁，l₁₂和l₂₂。

在每个训练回合开始前，基于真实运行数据的可行域，随机生成住宅综合能源系统的运行工况，包括环境温度、光伏发电出力以及电热负荷，随机的工况对应着负载的多重不确定性。初始时刻电池和蓄热罐均为满储能状态，即SOC₀＝SOC_max，HSD₀＝HSD_max。

在每个训练回合内，获得初始状态S₀，对每一个时间步t及其状态S_t，通过演员网络P获得动作a_t。为加快网络收敛速度，在DDPG算法中添加动作判断环节，若该动作可接受则不添加噪声，即并以发电成本作为奖励r_t，否则对动作加上噪声N_t，即系统以该动作与环境交互并获得包含惩罚的奖励r_t，以及新状态S_t+1，并将数据组/>保存到经验回放缓冲区中。当经验足够时，执行经验回放，即从回放缓冲区中取出一个批量的数据，并以均方误差/>训练网络Q，以采样梯度训练网络P。回合训练结束后为使训练过程更加稳定，降低演员网络的更新频率，每更新两次评论员网络后更新一次演员网络，参照图3，更新参数为：

其中，ω_P为演员网络的参数，θ_P为评论员网络的参数，为目标演员网络的参数，为目标评论员网络的参数，τ为目标网络参数更新系数。

训练完成后，使用训练好DDPG框架在冬季典型日工况下进行能量管理，并获得24小时内系统的调度结果，包括电池SOC动态、蓄热罐HSD动态以及电热能量过剩与不足情况。

参照图3，改进的DDPG算法框架,中演员网络P的输入特征数为4，输出为2，具有四层全连接层，神经元个数分别为16，32，16，2；评论员网络Q输入特征数为6，输出为1，具有四层全连接层，神经元个数分别为16，32，16，1。演员目标网络和评论员目标网络的结构与各自的原网络相同。对于动作判断环节，当演员网络P产生动作后，即燃料电池供电功率和热泵供热耗电功率，计算当前动作的能量过剩与不足情况，若供电与供热均满足负荷需求，且在给电池和蓄热罐充能后电能过剩与热能过剩的功率均不超过0.25kW，则当前动作可接受，不需要添加噪声并以发电成本作为奖励。

在一个具体示例中，主要参数的设置可如表1所示。

表1主要参数设置

参数	取值	参数	取值
				a^P，a^Q	0.0002，0.002	δ_max，δ_min	0.35，0.001
τ	0.002	T_decay	5000
				T	24	k₁	0.02
episode	200	k₂	0.05
				γ	0.99	l₁₁	0.2
memory	1000000	l₁₂	0.8
				batchsize	64	l₂₁	1.2
u，θ	0，0.15	l₂₂	1.0

表1中：a^P，a^Q分别为演员网络和评论员网络的学习率，τ为目标网络软更新系数，T为调度周期，episode为训练回合数，γ为折扣因子，memory为经验回放池容量，batchsize为批量大小，μ和θ为OU噪声参数，δ_max和δ_min为OU噪声方差最大值和最小值，T_decay为噪声衰减周期，k₁和k₂分别是电池SOC和蓄热罐HSD容量惩罚系数，l₁₁、l₂₁和l₁₂、l₂₂分别是电能和热量过剩与不足的惩罚系数。需要注意的是，为了是优化模型保持一致，即对终端成本添加惩罚参数以提高系统运行的可持续性，可设置k₁＝k₂＝0，T≤23以及k₁＝k₂＝0.6，T＝24。

主要设备规划配置方案如表2所示。

表2主要设备规划配置方案

表2中：燃料电池容量为2.5kW，最大、最小出力分别为2.5kW和0.3kW，氢的低位热值为119.96kJ/g，燃料电池额定电效率为37％、额定热效率为53％；锂电池单电池容量为5Ah，电池阵列行数与列数均为10，SOC上、下限分别为0.9和0.3，锂电池单电池内阻为20mΩ，开路电压为4.8V；蓄热罐容量为6kWh，HSD的上、下限分别为0和1，蓄热罐出水温度为55℃；热泵额定功率为5kW，最大制热功率为5kW，最小制热功率为0kW；光伏模块的有效面积为16m²，光伏效率为0.19，转换器效率为0.95。

在每个训练回合开始前，基于真实运行数据的可行域，随机生成住宅综合能源系统的运行工况，包括环境温度、光伏发电出力以及电热负荷，随机的工况对应着负载的多重不确定性。初始时刻电池和蓄热罐均为满储能状态。基于所建立的马尔可夫决策过程模型和深度强化学习框架，以及表1中的参数设置，使用DDPG算法在生成的工况下进行训练，算法的累积奖励动态如图6所示，其中average是滑动周期为5的移动平均回报。训练完成后，使用训练好DDPG框架在冬季典型日工况下进行能量管理，并获得24小时内系统的调度结果。其中，冬季典型日的工况在图4和图5中给出，锂电池的SOC和蓄热罐的HSD动态如图7所示，电热能量过剩与不足情况如图8所示。

图6的结果显示，当训练回合数较小时，由于在动作上施加了较高的OU噪声，智能代理还处于探索阶段，不断尝试各种调度策略。经过不断地探索与奖励反馈，智能代理的策略不断提升，演员网络逐渐学习到更好的动作，累计奖励在前120个回合处于震荡上升阶段，之后由于噪声的减小和参数的改进，累积奖励逐渐收敛。与传统的强化学习算法Q-learning相比，DDPG算法能够考虑连续的动作空间而不是将动作离散化，从而进行更加细致的能量调度与优化。此外，得益于较低的频率更新演员网络且以较高的频率更新评论员网络，以及添加的动作判断过程，改进的DDPG具有更快的收敛速度和更好的性能表现。冬季典型日下的燃料电池发电成本动态在图9中给出，可以发现，氢耗随着训练过程不断震荡并逐渐趋于稳定。需要注意的是，第20至80回合时中的几个峰值点氢耗较低，但结合图6中的结果可知，这些点对应的调度结果是相对较差的，伴随着大量的能量损失与不足。

图8的调度结果显示，在冬季典型日的前几个小时(0-6时)，电负荷和热负荷均相对较低，燃料电池发电产生的余热较小，此时蓄热罐开始工作，提供少量的热量即可满足热负载。之后，在7-11时，热电负荷开始升高，热泵配合蓄热罐开始工作，消耗少量电能来供热；同时，电池也开始放电来缓解燃料电池的供电压力。中午过后，在12-17时，虽然热电负荷相比之前有所降低，但由于热泵较高的COP系数，即消耗更少的电能产生更多的热量，热泵保持较高功率，在供热的同时给蓄热罐充能，HSD大幅提高。傍晚时刻，热负荷保持在较高水平，热泵和蓄热罐同时供热，燃料电池的供电功率较高，产生的多余电能用于给电池充电，SOC有所提高。由于电池SOC和蓄热罐HSD储能状态惩罚的引入，当一天的调度结束后，锂电池的SOC回到初始时刻的100％，蓄热罐的HSD回到82.64％，二者均具有充分的充放能空间，保证了下一天系统的能量供需平衡与热电解耦需求。

图9展示了DDPG调度过程中的电热能量过剩与不足情况，可以发现，由于合理的惩罚系数设置，基于随机生成的工况进行训练，在负载多重不确定的情况下，演员网络也可以学到较好的能量调度策略。对于冬季典型日的工况，在DDPG的整个调度过程中，始终没有出现供电或供热无法满足负载需求的情况；然而相对的，在不同时期，尤其是负载较高的时段，演员网络会倾向提高燃料电池和热泵的功率来避免能量供应不足，从而导致了一定程度上的能量过剩，但均处于较低水平。从燃料电池24小时的发电总成本来看，少量的能量过剩并不会过于影响DDPG算法的性能，相比于Q-learning算法仍然有较为明显的提升。

本专利所采用的基于深度强化学习的住宅综合能源系统能量调度算法能使系统控制更加智能化，体现了控制策略的自适应性，在满足系统运行约束条件的同时能够做到根据负载不确定性和储能设备容量等因素，在不同时间段自动生成不同的控制策略动作，从而考虑未来环境信息以获取更高的长期收益。

综上所述，本发明实施例从设备级到系统级全过程充分实现燃料电池的热电解耦，基于具有强大适应性的深度强化学习算法实现负载多重不确定下的绿色住宅综合能源系统的高效热电协同调度，突出燃料电池在复杂系统中配置与应用的巨大潜力。相较动态规划方法需要基于历史运行数据构造概率模型，深度强化学习算法得益于神经网络强大的拟合能力，以及惩罚函数和折扣因子的应用，智能体可以不依赖概率模型在不确定的环境下训练和学习，在满足离网系统热电供需平衡的基础上，提高能量利用效率并获得足够好的长期运行经济性。

对应上述实施例的住宅综合能源系统的热电协同调度方法，本发明还提出一种住宅综合能源系统的热电协同调度装置。

如图10所示，该住宅综合能源系统的热电协同调度装置包括第一建立模块10、第二建立模块20、第三建立模块30及调度模块40。

其中，第一建立模块10用于建立所述住宅综合能源系统中与调度相关的各设备的调度模型，并确定各设备运行时的出力及安全特性；第二建立模块20用于基于所述调度模型建立以总燃料成本为目标、以所述出力及安全特性为约束的热电协同调度优化模型；第三建立模块30用于基于所述热电协同调度优化模型建立马尔可夫决策过程模型；调度模块40用于采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度，以得到调度结果。

需要说明的是，该住宅综合能源系统的热电协同调度装置的具体实施方式及实施原理可参见上述住宅综合能源系统的热电协同调度方法的具体实施方式，为避免冗余，此处不再详细赘述。

本发明实施例的住宅综合能源系统的热电协同调度装置，采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度，可以在满足离网系统热电供需平衡的基础上，提高能量利用效率并获得足够好的长期运行经济性，由此可以广泛应用于住宅系统中。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种住宅综合能源系统的热电协同调度方法，其特征在于，包括以下步骤：

建立所述住宅综合能源系统中与调度相关的各设备的调度模型，并确定各设备运行时的出力及安全特性；

基于所述调度模型建立以总燃料成本为目标、以所述出力及安全特性为约束的热电协同调度优化模型；

基于所述热电协同调度优化模型建立马尔可夫决策过程模型；

采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度，以得到调度结果，

所述住宅综合能源系统中与调度相关的各设备包括：燃料电池、光伏发电模块、锂电池、热泵、以及基于相变储能的蓄热罐，

基于所述热电协同调度优化模型建立马尔可夫决策过程模型，包括：

建立以下状态空间：

其中，分别为净电负荷和净热负荷，/>SOC为所述锂电池的荷电状态，HSD为所述蓄热罐的储热状态；

建立以下动作空间：

A＝[P_FC,P_HP]

建立以下奖励函数：

其中，C(P_FC)是燃料电池发电氢耗，分别为电能功率的过剩和不足，分别为热能功率的过剩和不足，l₁₁、l₂₁分别是电能过剩和不足的惩罚系数，l₁₂、l₂₂分别是热能过剩与不足的惩罚系数，ΔSOC表示当前荷电状态偏离给定荷电状态的值，k₁、k₂分别是锂电池荷电状态和蓄热罐储热状态的容量惩罚系数，ΔHSD表示当前储热状态偏离给定储热状态的值，

采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度，包括：

建立DDPG算法框架，并对DDPG算法进行改进；

基于所述马尔可夫决策过程模型，采用改进的DDPG算法在负载多重不确定性下训练所述DDPG算法的神经网络，其中，所述多重不确定性包括：电负载、热负载和光伏负载；

使用训练好的神经网络对所述住宅综合能源系统进行热电协同调度，以得到调度结果，

对DDPG算法进行改进，包括：

在DDPG算法中增加动作判断环节，所述动作判断环节为：当演员网络产生动作后，判断所述动作是否可接受，若所述动作可接受，则不添加噪声，并以发电成本作为奖励，否则对所述动作添加噪声，其中，所述演员网络产生的所述动作为燃料电池供电功率和热泵供热耗电功率；

降低演员网络的更新频率，其中，演员网络的更新频率小于评论员网络的更新频率；

其中，判断所述动作是否可接受，具体包括：

计算所述动作的能量过剩与不足情况，若所述供电功率与供热耗电功率均满足负荷需求，且在给燃料电池和蓄热罐充能后电能过剩与热能过剩的功率均不超过预设值，则所述动作可接受，否则所述动作不可接受，

基于所述马尔可夫决策过程模型，采用改进的DDPG算法在负载多重不确定性下训练所述DDPG算法的神经网络，具体包括：

使用改进的DDPG算法在多重不确定性下训练智能代理；

其中，表示添加噪声后的动作，N _t表示噪声；

2.根据权利要求1所述的住宅综合能源系统的热电协同调度方法，其特征在于，所述燃料电池的调度模型为：

所述光伏发电模块的调度模型为：

其中，是所述光伏发电模块的输出功率，η_PV和η_inv分别为所述光伏发电模块中的光伏效率和逆变器效率，/>为k时刻太阳辐照度，A_PV表示有效光照面积；

所述锂电池的调度模型为：

所述蓄热罐的调度模型为：

所述热泵的调度模型为：

3.根据权利要求2所述的住宅综合能源系统的热电协同调度方法，其特征在于，所述热电协同调度优化模型的目标函数为：

4.根据权利要求3所述的住宅综合能源系统的热电协同调度方法，其特征在于，所述热电协同调度优化模型表示为：

SOC_min≤SOC_k≤SOC_max

HSD_min≤HSD_k≤HSD_max

SOC₀＝SOC_max

HSD₀＝HSD_max

其中，分别为电负荷和热负荷，/>为蓄热罐的放热功率，SOC_k为k时刻所述锂电池的荷电状态，SOC_max、SOC_min分别为锂电池SOC的上限值和下限值，HSD_k为k时刻蓄热罐的储热状态，HSD_max、HSD_min分别蓄热罐HSD的上限值和下限值，SOC₀为锂电池的初始荷电状态，HSD₀为蓄热罐的初始储热状态。

5.一种住宅综合能源系统的热电协同调度装置，其特征在于，包括：

第一建立模块，用于建立所述住宅综合能源系统中与调度相关的各设备的调度模型，并确定各设备运行时的出力及安全特性；

第二建立模块，用于基于所述调度模型建立以总燃料成本为目标、以所述出力及安全特性为约束的热电协同调度优化模型；

第三建立模块，用于基于所述热电协同调度优化模型建立马尔可夫决策过程模型；

调度模块，用于采用DDPG算法在所述马尔可夫决策过程模型下对所述住宅综合能源系统进行热电协同调度，以得到调度结果，

建立以下状态空间：

建立以下动作空间：

A＝[P_FC,P_HP]

建立以下奖励函数：

建立DDPG算法框架，并对DDPG算法进行改进；

对DDPG算法进行改进，包括：

其中，判断所述动作是否可接受，具体包括：

使用改进的DDPG算法在多重不确定性下训练智能代理；

其中，表示添加噪声后的动作，N _t表示噪声；