CN114611813B

CN114611813B - 基于氢储能的社区热-冷水循环最优调度方法及系统

Info

Publication number: CN114611813B
Application number: CN202210277431.7A
Authority: CN
Inventors: 张大鹏
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-09-27
Anticipated expiration: 2042-03-21
Also published as: CN114611813A

Abstract

本发明提供一种基于氢储能的社区热‑冷水循环最优调度方法及系统，属于智能优化调度技术领域。该方法包括：确定调度的目标函数为能源使用费用成本；获取调度的约束条件；根据目标函数，建立基于氢储能的社区热‑冷水循环最优调度模型，该模型包括上层强化学习子模型和下层强化学习子模型；利用上层强化学习子模型获取氢储能装置在当前状态下的第一动作，并将第一动作和当前状态传输至下层强化学习子模型；基于约束条件、当前状态和氢储能装置的第一动作，利用下层强化学习子模型，对社区内的热‑冷水循环进行优化调度。本发明通过强化学习能够实时准确地进行社区内热‑冷水循环和氢储能的优化调度，最大程度降低热水供应费用成本。

Description

基于氢储能的社区热-冷水循环最优调度方法及系统

技术领域

本发明涉及智能优化调度技术领域，具体涉及一种基于氢储能的社区热-冷水循环最优调度方法及系统。

背景技术

峰谷电价也称“分时电价”。按高峰用电和低谷用电分别计算电费的一种电价制度。高峰用电，一般指用电单位较集中，供电紧张时的用电，如在白天，收费标准较高；低谷用电，一般指用电单位较少、供电较充足时的用电，如在夜间，收费标准较低。实行峰谷电价有利于促使用电单位错开用电时间，充分利用设备和能源。有很多国家都实行峰谷电价，峰谷之间的价差有的达50％。

但是，社区热水需求旺盛时段一般是在峰电时间，因此为了降低热水供应成本，需要提供一种能够利用谷电进行冷水加热的方案。另外，由于社区内的热水需求是实时变化的，目前都是通过预先加热并存储大量热水的方式来保证热水需求，由于存储热水时不管保温措施做的多么好，都会存在热量流失的问题，导致能源浪费，所以精准调控冷水加热设备的工作状态还可以进一步降低热水供应费用成本，但是目前尚未相关技术方案。

发明内容

因此，本发明实施例要解决的技术问题在于克服现有技术中的社区热-冷水循环无法利用谷电进行冷水加热和无法实时精确调控的缺陷，从而提供一种基于氢储能的社区热-冷水循环最优调度方法及系统。

为此，本发明提供一种基于氢储能的社区热-冷水循环最优调度方法，包括以下步骤：

确定基于氢储能的社区热-冷水循环调度的目标函数为能源使用费用成本，所述能源使用费用成本包括谷电时的电费成本和峰电时的电费成本；

获取基于氢储能的社区热-冷水循环调度的约束条件，所述约束条件包括各种不同用水环境下的温度舒适区间和环境温度、加热设备的最大功率和最小功率限制、氢储能装置的充电电流大小限制、充放电效率限制和容量限制；

根据所述目标函数，建立基于氢储能的社区热-冷水循环最优调度模型，所述基于氢储能的社区热-冷水循环最优调度模型包括上层强化学习子模型和下层强化学习子模型；

利用所述上层强化学习子模型获取氢储能装置在当前状态下的第一动作，并将所述第一动作和所述当前状态传输至所述下层强化学习子模型；

基于所述约束条件、所述当前状态和所述氢储能装置的所述第一动作，利用所述下层强化学习子模型，对社区内的热-冷水循环进行优化调度。

可选的，所述上层强化学习子模型的奖赏函数包括在一个峰电周期内所述氢储能装置内剩余能量的惩罚值。

可选的，所述氢储能装置包括电解槽、氢储罐和氢氧燃料电池，所述电解槽与电网连接，所述氢氧燃料电池与电加热设备连接，所述氢储罐分别与所述电解槽和所述氢氧燃料电池相连通。

可选的，所述下层强化学习网络子模型是根据SAC强化学习算法构件，包括一个控制网络和两个评价网络。

可选的，所述建立基于氢储能的社区热-冷水循环最优调度模型，包括：

利用训练好的所述上层强化学习子模型产生所述下层强化学习子模型在每一调度节点的奖励值、行为以及下一状态，每一调度节点的当前状态、行为、奖励值和下一状态组成的四元组作为一个正常样本；

对所述正常样本中的状态添加扰动后形成对抗样本；

将所述正常样本和所述对抗样本作为所述下层强化学习子模型的训练样本对所述下层强化学习子模型进行训练。

可选的，所述上层强化学习子模型使用深度强化学习方法；

所述建立基于氢储能的社区热-冷水循环最优调度模型，包括：

构建深度神经网络为所述上层强化学习子模型的值网络，所述深度神经网络为卷积神经网络，包括输入层、卷积层、全连接层和输出层，输入层为所述氢储能装置的当前状态，输出层为所述氢储能装置的所有状态的Q值估计。

可选的，所述建立基于氢储能的社区热-冷水循环最优调度模型，还包括：

利用预先获取的所述上层强化学习子模型的训练样本对所述上层强化学习子模型进行训练；

使用狼群优化算法更新所述深度神经网络的参数。

可选的，所述使用狼群优化算法更新深度神经网络的参数，包括：

获取所述深度神经网络当前的各层权值参数作为一个狼群中各狼群个体的初始位置，并作为当前最优个体；

配置狼群个体更新方式，具体可以包括移动的随机方向和距离；

获取猎物气味浓度，猎物气味浓度为所述Q值估计的准确率，准确率越高，猎物气味浓度值越大；

在狼群群体中找出感知猎物气味浓度最高的多个狼群个体作为最优个体，并保留最优狼群个体感知的猎物气味浓度和位置；

淘汰狼群群体中感知猎物气味浓度较小的多个狼群个体，并随机生成相同数量的新狼群个体，实现狼群群体的更新；

判断是否达到最大迭代次数，若达到则输出最优个体位置，即输出所述深度神经网络最优的各层权值参数；否则返回配置狼群个体更新方式的步骤。

本发明还提供一种基于氢储能的社区热-冷水循环最优调度系统，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的任一种方法。

本发明实施例的技术方案，具有如下优点：

本发明实施例提供的基于氢储能的社区热-冷水循环最优调度方法及系统中，氢储能装置用于在谷电时储存电能以供峰电时段加热水，从而降低社区内的电费成本，另外，还通过上层强化学习子模型对氢储能装置进行优化调度，并基于上层强化学习子模型对氢储能装置的优化调度，利用下层强化学习子模型对社区内的热-冷水循环进行优化调度，从而可以进一步降低热水供应费用成本。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中基于氢储能的社区热-冷水循环最优调度方法的一个具体示例的流程图；

图2为本发明实施例1中基于氢储能的社区热-冷水循环最优调度模型的训练方法的一个具体示例的流程图；

图3为本发明实施例2中基于氢储能的社区热-冷水循环最优调度系统的一个具体示例的原理框图；

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，本文所用的术语仅用于描述特定实施例的目的，而并非旨在限制本发明。除非上下文明确指出，否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时，是意图说明存在该特征、整数、步骤、操作、元素和/或组件，而不排除一个或多个其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“和/或”包括一个或多个相关列出项目的任何和所有组合。术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通；可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例提供一种基于氢储能的社区热-冷水循环最优调度方法，如图1所示，包括以下步骤：

S1：确定基于氢储能的社区热-冷水循环调度的目标函数为能源使用费用成本，所述能源使用费用成本包括谷电时的电费成本和峰电时的电费成本；

S2：获取基于氢储能的社区热-冷水循环调度的约束条件，所述约束条件包括各种不同用水环境下的温度舒适区间和环境温度、加热设备的最大功率和最小功率限制、氢储能装置的充电电流大小限制、充放电效率限制和容量限制；

S3：根据所述目标函数，建立基于氢储能的社区热-冷水循环最优调度模型，所述基于氢储能的社区热-冷水循环最优调度模型包括上层强化学习子模型和下层强化学习子模型；

S4：利用所述上层强化学习子模型获取氢储能装置在当前状态下的第一动作，并将所述第一动作和所述当前状态传输至所述下层强化学习子模型；

S5：基于所述约束条件、所述当前状态和所述氢储能装置的所述第一动作，利用所述下层强化学习子模型，对社区内的热-冷水循环进行优化调度。

本发明实施例提供的基于氢储能的社区热-冷水循环最优调度方法中，氢储能装置用于在谷电时储存电能以供峰电时段加热水，从而降低社区内的电费成本，另外，还通过上层强化学习子模型对氢储能装置进行优化调度，并基于上层强化学习子模型对氢储能装置的优化调度，利用下层强化学习子模型对社区内的热-冷水循环进行优化调度，从而可以进一步降低热水供应费用成本。

另外，所述约束条件还可以包括以下至少之一：氢储能装置的储能灵活裕度、网络损耗和电压偏差。

可选的，所述当前状态包括氢储能装置的充放电功率、荷电状态，电网供电功率。利用所述下层强化学习子模型，对社区内的热-冷水循环进行优化调度时的动作包括冷热水混合阀的开度调整。

可选的，所述上层强化学习子模型的奖赏函数包括在一个峰电周期内所述氢储能装置内剩余能量的惩罚值。具体来说，如果一个峰电周期过去了，氢储能装置内剩余的能量越多，对应的惩罚值越大。当然了，奖赏函数除了包括该惩罚值还可以包括其他的奖惩值，根据调度的需要确定。

具体的，所述氢储能装置的容量限制根据所述氢储罐的容量大小确定。

另外，所述约束条件还可以包括氢储能装置的等效SOC(State of Charge，荷电状态)状态，等效SOC状态表征氢储罐内剩余气体。

可选的，所述基于所述约束条件、所述当前状态和所述氢储能装置的所述第一动作，利用所述下层强化学习子模型，对社区内的热-冷水循环进行优化调度，包括：

利用策略值函数来描述优化调度过程的预期收益为：

Q(s_t，a_t)＝E{R_t|s_t，a_t} (1)

其中，R_t为当前时刻t获得的折扣后的未来收益综合，s_t，a_t为当前时刻t的状态和动作；

利用贝尔曼方程对上式(1)进行处理得到：

Q′(s_t，a_t)＝E(r(s_t，a_t)+γmaxQ′(s_t+1，a_t+1))

其中，r(s_t，a_t)为t时刻的回报值，maxQ′(s_t+1，a_t+1)为下一个状态时所采取动作的最大回报值；

建立贝尔曼方程逼近的强化学习单步算法为：

Q(s_t，a_t)←Q(s_t，a_t)+α(r_t+1+γmaxQ′(s_t+1，a_t+1)-Q(s_t，a_t))

其中，r_t+1为状态s_t+1采取动作a_t+1的瞬时回报值，α为学习率；

基于所述约束条件、所述当前状态和所述氢储能装置的所述第一动作，利用所述强化学习单步算法获取热-冷水循环优化调度时当前状态下的各个动作，并根据回报值对各个动作进行优选排序；

根据所述优选排序确定下一步的动作。

可选的，所述基于所述约束条件、所述当前状态和所述氢储能装置的所述第一动作，利用所述下层强化学习子模型，对社区内的热-冷水循环进行优化调度之前，即步骤S5之前，还包括：

建立社区热水用水需求预测神经网络模型；

通过极限学习机训练所述社区热水用水需求预测神经网络模型；

利用所述社区热水用水需求预测神经网络模型预测当前调度周期内的社区热水用水需求，所述社区热水用水需求包括热水量需求和温度需求。

在利用所述下层强化学习子模型，对社区内的热-冷水循环进行优化调度时，还需要基于预测得到的当前调度周期内的社区热水用水需求进行调度。

上述的社区热水用水需求预测神经网络模型是基于社区内的历史热水用水需求数据进行训练得到的。

可选的，如图2所示，所述建立基于氢储能的社区热-冷水循环最优调度模型，即步骤S3，包括：

S31：利用训练好的所述上层强化学习子模型产生所述下层强化学习子模型在每一调度节点的奖励值、行为以及下一状态，每一调度节点的当前状态、行为、奖励值和下一状态组成的四元组作为一个正常样本；

S32：对所述正常样本中的状态添加扰动后形成对抗样本；

S33：将所述正常样本和所述对抗样本作为所述下层强化学习子模型的训练样本对所述下层强化学习子模型进行训练。

本发明实施例中，首先训练所述基于氢储能的社区热-冷水循环最优调度模型中的上层强化学习子模型，再利用训练好的所述上层强化学习子模型生成下层强化学习子模型的训练样本对下层强化学习子模型进行训练。

可选的，所述上层强化学习子模型使用深度强化学习方法；

具体的，所述卷积层可以为两层，所述深度神经网络各层的激活函数可以是ReLU函数。所述深度神经网络可以由两个架构相同的卷积神经网络构成。

使用狼群优化算法更新所述深度神经网络的参数。

具体的，使用狼群优化算法更新深度神经网络的参数的过程可以为：

进一步的，所述狼群个体更新方式具体可以是：

L_n＝|rand[0,2]*X_n(T)-X(T)|

其中，L_n为第n个最优个体与猎物之间的距离，N为最优个体的数量，rand为随机函数，X_n(T)为当前次迭代时第n个最优个体的位置，X(T)、X(T+1)为狼群个体更新前后的位置，a为更新控制参数。

也就是说，每次迭代更新时，狼群个体的位置更新都是根据上一次迭代时n个最优个体的位置进行更新。

其他可选的具体实施方式中，还可以利用RMSProp优化算法更新所述深度神经网络的参数。

实施例2

本实施例提供一种基于氢储能的社区热-冷水循环最优调度系统30，如图3所示，包括：

一个或多个处理器301；

存储装置302，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器301执行时，使得所述一个或多个处理器301实现上述实施例1所述的任一种方法。

本发明实施例提供的基于氢储能的社区热-冷水循环最优调度系统中，氢储能装置用于在谷电时储存电能以供峰电时段加热水，从而降低社区内的电费成本，另外，还通过上层强化学习子模型对氢储能装置进行优化调度，并基于上层强化学习子模型对氢储能装置的优化调度，利用下层强化学习子模型对社区内的热-冷水循环进行优化调度，从而可以进一步降低热水供应费用成本。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。