CN117172499A

CN117172499A - 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质

Info

Publication number: CN117172499A
Application number: CN202311213660.3A
Authority: CN
Inventors: 郑杨; 任禹丞; 王雨薇; 顾新; 徐丁吉; 于帅
Original assignee: State Grid Jiangsu Electric Power Co ltd Zhenjiang Power Supply Branch; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co ltd Zhenjiang Power Supply Branch; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-12-05

Abstract

本发明涉及一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质,所述方法包括：采集智慧社区的历史数据，建立能源数据集，并对所述能源数据集进行预处理；建立智慧社区能量优化调度问题的马尔科夫决策过程模型；基于所述预处理的能源数据集，对所述马尔科夫决策过程模型进行离线训练，得到最优神经网络模型；获取所述智慧社区的实时数据，基于所述最优神经网络模型得到智慧社区能量优化调度策略。本发明能够实现智慧社区内广义负荷的协同互动调度，并可根据实时数据进行动态调整，适应不同环境和需求，实现灵活的能源调度，提高了能源利用效率。

Description

一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质

技术领域

本发明属于优化控制技术领域，尤其涉及一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质。

背景技术

随着城市化进程的不断推进，智慧社区的建设已成为城市可持续发展的重要组成部分。智慧社区旨在协调社区内各个负荷节点之间的互动和协作，通过采用分布式光伏、储能等技术手段实现能源的高效利用和减排，为居民提供更为舒适、安全、便捷、环保的居住环境。为了实现智慧用能和低碳用能的目标，智慧社区不仅要配备分布式光伏和储能系统，还需要提供能源服务和协调用能策略。因此，研究智慧社区广义负荷协同互动调度策略具有重要意义。

在智慧社区中，居民的生活和能源需求是社区能源管理的重要组成部分，而针对家庭用户的碳排放问题需要建立可靠的碳排放评估模型和科学的能源调度控制策略，以实现低碳生活和可持续发展。目前，已经有一些研究关注智慧社区的能量管理和能源的高效利用。但是传统基于模型的方法往往依赖于对于随机环境的精确建模，然而实际应用中存在的光伏出力、用电负荷等随机因素增加交互环境中的不确定性，而静态模型难以适应环境的变化。近年来，以无模型强化学习为代表的智能决策方法应运而生。该类方法将决策问题建模为马尔可夫决策过程(Markov decision process,MDP)，通过利用历史数据来捕捉能源系统的不确定性，实时提供高质量的解决方案，并避免运行过程中的计算负担。以Q学习为代表的无模型强化学习框架和方法逐渐受到人们重视，并应用于居民需求响应和能量管理研究。然而，在智慧社区低碳目标的背景下，为应对复杂的环境动态和不确定性，如光伏出力、用户负荷以及电价等因素的变化，需要进一步探索和优化基于无模型强化学习的智慧社区广义负荷协同互动调度策略。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质,能够实现智慧社区内广义负荷的协同互动调度，并可根据实时数据进行动态调整，适应不同环境和需求，实现灵活的能源调度，提高了能源利用效率。

根据本发明的一个方面，本发明提供了一种基于强化学习的智慧社区能量优化调度方法，所述方法包括以下步骤：

S1：采集智慧社区的历史数据，建立能源数据集，并对所述能源数据集进行预处理；

S2：建立智慧社区能量优化调度问题的马尔科夫决策过程模型；

S3：基于所述预处理的能源数据集，对所述马尔科夫决策过程模型进行离线训练，得到最优神经网络模型；

S4：获取所述智慧社区的实时数据，基于所述最优神经网络模型得到智慧社区能量优化调度策略。

优选地，所述采集智慧社区的历史数据，建立能源数据集，并对所述能源数据集进行预处理包括：

采集智慧社区的历史数据，得到采样数据，所述采样数据至少包括用户用电数据和用户舒适度偏好数据；

将所述采样数据分为训练集和测试集。

优选地，所述建立智慧社区能量优化调度问题的马尔科夫决策过程模型包括：

采用一个五元组模型(S,A,P,R,γ)描述智慧社区能量管理调度优化的动态过程，其中S为状态集合、A为动作集合、R为奖励函数，P为环境状态转移概率函数，γ为折扣因子；

优化目标为最大值函数所对应的策略，其中用于评估调度策略的值函数为：

其中，r(s_t,a_t)为当前时刻智能体在环境状态s_t作出决策动作a_t所得奖励，表示求取智能体在整个决策周期上的累计平均奖励；

在时刻t的奖励函数定义为：

其中，γ∈[0,1]；ρ_t表示电价，和ω _n表示因违反室内温度上下限而引起不舒适度的惩罚因子，/>和υ _n表示与EWH温控相关的惩罚因子，/>和ο用于表示对电池过度充电或充电不足的惩罚因子；E_n,t ^HVAC表示楼宇n暖通空调t时刻工作功率，Tem_n ^min表示室内温度舒适度设置下限，Tem_n ^max表示室内温度舒适度设置上限，Tem_n，t ⁱⁿ表示t时刻室内温度，E_n,t ^EWH表示楼宇n热水器t时刻工作功率，T_n ^max表示热水器水温设置舒适度上限，T_n ^min表示热水器水温设置舒适度下限，T_n,t ⁱⁿ表示t时刻热水器水温,E_t ^ESS表示t时刻储能放电功率,SOC^min表示储能容量限制的下限，SOC^max表示储能容量限制的上限，SOC_t表示t时刻储能充放电状态。

优选地，所述对所述马尔科夫决策过程模型进行离线训练，得到最优神经网络模型包括：

搭建智慧社区协同互动调度策略优化强化学习环境，采用双延迟深度确定性策略梯度TD3优化算法对所述马尔科夫决策过程模型进行离线训练，记录累计奖励值，当奖励值收敛到有限值时，得到最优神经网络模型。

优选地，所述采用TD3优化算法对所述马尔科夫决策过程模型进行离线训练包括：

对执行者网络的策略函数以及评论家网络的值函数进行拟合，获得整个时间序列中的平均累积奖励最大化的最优策略分布；

基于双Q学习方法完成对Q值的估计和更新，并利用两个Q函数中的最小值进行计算。

优选地，所述方法还包括：对智慧社区模型进行优化调度，所述智慧社区模型包括暖通空调模型，模型公式为：

式中：表示与环境条件相关的室外温度，Temⁱⁿ是t时刻的室内温度，[Tem_min,Tem_max]为用户期望的温度舒适度区间，η^HVAC表示空调系统的能量转换效率，C^HVAC和R^HVAC分别表示空调系统的热阻和热容量；

控制方式如下式所示：

式中：表示空调系统i实际工作功率，P_i,rate表示空调系统i的额定工作功率，为连续控制方式下的空调系统决策动作。

优选地，所述智慧社区模型包括电热水器模型，模型公式为：

式中：T_t ^EWH表示在t时刻热水器水箱温度，和T_out分别表示进水的冷水温度以及环境温度。ε为模型热变化系数，W为热转换系数，B_t为冷水热增益，Q_t为内部热增益，R′为水箱传热热阻，/>表示热水器系统i实际工作功率，/>表示热水器系统i的额定工作功率，/>为连续控制方式下的热水器系统决策动作。

优选地，所述智慧社区模型包括储能模型，模型公式为：

式中：SOC_ess(t)表示ESS电池在t时刻的剩余能量，由SOC_ess,min和SOC_ess,max充电容量限制来约束，η_ess是储能设备的充放电过程中的能量转换效率，P_ess(t)是充放电功率，当ESS充电时其数值为正，放电时为负。

其中，P_ess(t)充放电功率受到以下约束的限制：

式中：和/>分别是t时刻ESS电池的最大充电和放电功率，P_ess(t)表示储能系统在t时刻的充放电功率。根据本发明的另一个方面，本发明还提供了一种基于强化学习的智慧社区能量优化调度系统，所述系统包括：

采集模块，用于采集智慧社区的历史数据，建立能源数据集，并对所述能源数据集进行预处理；

建立模块，用于建立智慧社区能量优化调度问题的马尔科夫决策过程模型；

训练模块，用于基于所述预处理的能源数据集，对所述马尔科夫决策过程模型进行离线训练，得到最优神经网络模型；

优化模块，用于获取所述智慧社区的实时数据，基于所述最优神经网络模型得到智慧社区能量优化调度策略。

优选地，所述采集模块采集智慧社区的历史数据，建立能源数据集，并对所述能源数据集进行预处理包括：

将所述采样数据分为训练集和测试集。

优选地，所述建立模块建立智慧社区能量优化调度问题的马尔科夫决策过程模型包括：

在时刻t的奖励函数定义为：

优选地，所述训练模块对所述马尔科夫决策过程模型进行离线训练，得到最优神经网络模型包括：

优选地，所述训练模块采用TD3优化算法对所述马尔科夫决策过程模型进行离线训练包括：

根据本发明的另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现上述方法步骤。

有益效果：本发明能够实现智慧社区内广义负荷的协同互动调度，提高能源利用效率；基于强化学习算法的智能调度算法能够通过不断学习和优化，适应不同环境和需求；可根据实时数据进行动态调整，实现灵活的能源调度。

通过参照以下附图及对本发明的具体实施方式的详细描述，本发明的特征及优点将会变得清楚。

附图说明

图1是基于强化学习的智慧社区能量优化调度方法流程图；

图2是测试日的实时电价图；

图3是测试日光伏分布数据图；

图4是训练阶段的奖励值曲线；

图5是测试阶段空调负荷控制效果图；

图6是测试阶段电热水器负荷控制效果图；

图7是测试日社区储能的充电状态图。

图8是基于强化学习的智慧社区能量优化调度系统示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1是基于强化学习的智慧社区能量优化调度方法流程图。如图1所示，本实施例提供了一种基于强化学习的智慧社区能量优化调度方法，所述方法包括以下步骤：

将所述采样数据分为训练集和测试集。

在时刻t的奖励函数定义为：

控制方式如下式所示：

式中：表示在t时刻热水器水箱温度，/>和T_out分别表示进水的冷水温度以及环境温度，ε为模型热变化系数，W为热转换系数，B_t为冷水热增益，Q_t为内部热增益，R′为水箱传热热阻，/>表示热水器系统i实际工作功率，/>表示热水器系统i的额定工作功率，/>为连续控制方式下的热水器系统决策动作。

优选地，所述智慧社区模型包括储能模型，模型公式为：

其中，P_ess(t)充放电功率受到以下约束的限制：

式中：和/>分别是t时刻ESS电池的最大充电和放电功率，P_ess(t)表示储能系统在t时刻的充放电功率。

本实施例能够实现智慧社区内广义负荷的协同互动调度，提高能源利用效率；基于强化学习算法的智能调度算法能够通过不断学习和优化，适应不同环境和需求；可根据实时数据进行动态调整，实现灵活的能源调度。

参考图2-7，以下对实施例1中的技术方案做一进步的详细说明。

1、智慧社区优化调度模型

智慧社区能量管理优化调度问题的研究可以归为一个优化问题，即在保证用户用电舒适度的前提下，通过用电策略的优化，达到用电成本优化和低碳用能的目标。将低碳用能考虑到智能社区的能量优化策略中，通过碳排放权的折算，将该目标归算到目标函数中，同时需要满足用户满意度约束，数学公式可表达为：

式中：u为控制变量；x为状态变量；h(u,x)＝0为等式约束条件；g(u,x)为不等式约束函数；g_min和g_max为不等式约束上、下限。

本实施例以用电成本，用户用电不舒适度惩罚成本以及碳排放成本作为目标函数：

式中：P_t为t时刻用电电量，ρ_t为t时刻电价；C_{uncomfortable}为用电不舒适度成本。

把控制舒适度区间作为等式约束条件：

C_{uncomfortable}≤|U_bound|

式中：C_{uncomfortable}为舒适度范围；|C_bound|为用户要求的舒适度区间。

1.1温控设备模型

(1)暖通空调模型

对居民智能楼宇中的系统进行建模，以满足用户对热舒适度的要求。智能楼宇室内温度变化模型考虑了室内外环境之间的热交换动力学，以更加准确地预测室内温度变化趋势并制定相应的控制策略，具体如以下公式所示：

式中：表示与环境条件相关的室外温度。Temⁱⁿ是t时刻的室内温度，用户期望的温度舒适度区间为[Tem_min,Tem_max]。η^HVAC表示空调系统的能量转换效率，即在能量转换过程中将损耗一部分电能。C^HVAC和R^HVAC分别表示空调系统的热阻和热容量。

为了保持室内温度的热舒适性，HVAC需要动态调整其控制功率为了避免离散控制方式可能带来的频繁启停对HVAC老化造成的损失，本实施例采用了连续控制方式作为智能楼宇空调系统的决策策略。具体而言，HVAC的控制方式如下式所示：

(2)电热水器模型

居民社区楼宇中另一个重要的灵活性温控负荷是电热水器，通过加热水箱将电能转换为热能实现能量转换，并将能量以热水的方式存储在水箱中以满足用户的供热需求。同样，电热水器热舒适性与用户的满意度密切相关，因此制定控制策略时需考虑热水水温的舒适度要求。其中电热水器需要满足以下约束：

式中：T_t ^EWH表示在t时刻热水器水箱温度，和T_out分别表示进水的冷水温度以及环境温度。

1.2储能模型

在智慧社区中配备了储能系统，通过聚合社区储能资源并集中为用户提供储能服务，以实现资源的优化配置。SOC和充放电功率之间的关系可用以下公式描述：

式中：SOC_ess(t)表示ESS电池在t时刻的剩余能量，中由SOC_ess,min和SOC_ess,max充电容量限制来约束，η_ess是储能设备的充放电过程中的能量转换效率。P_ess(t)是充放电功率，当ESS充电时其数值为正，放电时为负。

其中，P_ess(t)充放电功率受到以下约束的限制：

式中：和/>分别是ESS电池的最大充电和放电功率。

2、智慧社区马尔科夫决策模型

将整体优化问题转化为深度强化学习框架，并构造MDP模型。由于能源价格和用电行为的不确定性，智慧社区广义负荷能量管理的决策环境是随机的。为了描述其动态变化，本实施例采用具有有限状态和有限动作空间的MDP模型，并提出基于无模型DRL的解决方案。采用MDP模型的主要优势在于，该模型假设当前状态只受前一状态和决策的影响，而不受历史信息的影响。采用一个五元组模型(S,A,P,R,γ)描述动态过程，其中S为状态集合、A为动作集合、R为奖励函数，P为环境状态转移概率函数，以及折扣因子γ。

由于强化学习框架以奖励函数最大化为目标，因此将该模型的优化目标转化为求整个时段的累积奖励最大值，并通过比较和匹配最优结果来实现最佳能源管理策略，即求取最大的值函数所对应的策略。其值函数计算如以下公式所示：

式中：V(π)表示用于评估策略性能好坏的值函数；r(s_t,a_t)表示智能体在状态s_t采取行动a_t所获得的奖励，γ∈[0,1]作为权衡当前和未来奖励重要性的折扣因子。

在中，智慧社区聚合居民楼宇负荷的状态空间定义如下：

式中：代表了智能楼宇n的状态空间，包括了电价ρ_t，光伏发电预测/>室外温度/>上一时刻室内温度/>热水器环境温度，入水冷水温度/>以及上一时刻水温温度/>此外，SOC_t-1表示社区储能上一时刻的荷电状态，/>表示社区光伏预测。

在中，居民家庭n的动作空间定义如下：

在中，居民家庭n的奖励函数定义如下：

式中：和ω _n表示因违反室内温度上下限而引起不舒适度的惩罚因子。/>和υ _n表示与EWH温控相关的惩罚因子。这些约束旨在通过设置惩罚，避免控制策略违反楼宇温控负荷的舒适范围要求。/>和ο用于表示对电池过度充电或充电不足的惩罚因子。该约束禁止过度充电或放电的情况发生，以避免对ESS储能电池产生损耗。

3、基于TD3算法的智慧社区优化智能决策算法

基于TD3强化学习算法，构造目标策略时通过在动作的每个维度都添加剪裁噪声，提高了算法的稳定性，以有效解决所构建的马尔科夫决策过程，具体算法流程描述如下；

第一步：在参数初始化过程，分别初始化执行者网络参数π_φ，初始化目标网络参数θ₁′←θ₁，θ₂′←θ₂，φ′←φ，初始化记忆回放空间D。

第二步：在训练样本采样阶段，对于t＝1,2,...,T执行以下操作：在当前状态s，从带噪声的策略分布a＝clip(μ_θ(s)+ε,a_Low,a_High)中，进行采样选取动作a，在智能楼宇环境中执行动作a，并转移下一个状态s′，并得到奖励r，将(s,a,r,s′)存储在记忆回放空间D中。

第三步：当进入参数训练和更新阶段时，对于episode＝1,2,...,N执行以下操作：从记忆回放空间D中随机抽取K个，状态转移信息(s,a,r,s′)组成训练集，计算目标动作值：计算目标值函数：利用一步梯度更新法来更新Q值函数参数：当满足t mod policy_delay＝0时，利用一步梯度更新法来更新策略函数参数：/>更新目标网络参数：φ_targ,i←τ·φ_targ,i+(1-τ)·φ_i for i＝1,2，θ_targ←τ·θ_targ+(1-τ)·θ。

为了验证算法可行性，本实施例基于美国山核桃街道数据集进行了算例设置，其中采用了来自美国奥斯汀电网运营商的实时电价数据和来自NOAA气象站的其他天气数据(例如室外温度等)。算例中假设该社区能量管理系统由三个楼宇组成，且智慧社区中的每个楼宇聚合一类居民负荷，统一进行用电策略优化。某夏季典型日的实时电价、环境温度和光伏发电量的数据如图2所示。此外，不同智能楼宇温控设备的参数设置如表1所示。

表1智能楼宇的参数设置

表2TD3算法的参数设置

算例中TD3方法的超参数如表2中所示。这些超参数的设定主要参考文献，并经过多次实验试错和调参获得。此外，TD3算法所使用的神经网络结构包括三个隐藏层，每层均由256个神经元组成。

为了验证本实施例算法的计算效率，采用A2C和DDPG算法作为对照算法，比较所提算法的训练效果。如图4所示，在初始迭代步骤中所提方法在平均奖励曲线波动幅度较大，在大约经过60000次迭代后逐渐收敛到稳定状态。这是由于智能代理最初在对于环境信息不足的情况下进行随机搜索，随后经过训练经验的积累逐渐收敛到稳定的最优策略。与其他方法相比，所提方法在训练过程中更快的收敛到最高的平均奖励值，验证了所提方法的有效性。

表3为典型测试日优化前后的能量管理优化调度结果。由表可知，与基于优化前相比，本章所提方法在能量管理方面的优化节约了约28.7％的能耗，减少约24.8％用电成本。验证了本文方法在提高能源利用效率，降低能源成本的有效性。

表3测试日优化前后的能量管理优化调度结果

实施例2

图8是基于强化学习的智慧社区能量优化调度系统示意图。如图8所示，本实施例提供了一种基于强化学习的智慧社区能量优化调度系统，所述系统包括：

采集模块801，用于采集智慧社区的历史数据，建立能源数据集，并对所述能源数据集进行预处理；

建立模块802，用于建立智慧社区能量优化调度问题的马尔科夫决策过程模型；

训练模块803，用于基于所述预处理的能源数据集，对所述马尔科夫决策过程模型进行离线训练，得到最优神经网络模型；

优化模块804，用于获取所述智慧社区的实时数据，基于所述最优神经网络模型得到智慧社区能量优化调度策略。

优选地，所述采集模块801采集智慧社区的历史数据，建立能源数据集，并对所述能源数据集进行预处理包括：

将所述采样数据分为训练集和测试集。

优选地，所述建立模块802建立智慧社区能量优化调度问题的马尔科夫决策过程模型包括：

在时刻t的奖励函数定义为：

优选地，所述训练模块803对所述马尔科夫决策过程模型进行离线训练，得到最优神经网络模型包括：

优选地，所述训练模块803采用TD3优化算法对所述马尔科夫决策过程模型进行离线训练包括：

本实施例2中各个模块所实现的功能的具体实施过程与实施例1中的实施过程相同，在此不再赘述。

实施例3

本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现实施例1中的方法步骤，具体的实现过程可以参考实施例1中的方法步骤的实现过程，在此不再赘述。

应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于强化学习的智慧社区能量优化调度方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述采集智慧社区的历史数据，建立能源数据集，并对所述能源数据集进行预处理包括：

将所述采样数据分为训练集和测试集。

3.根据权利要求2所述的方法，其特征在于，所述建立智慧社区能量优化调度问题的马尔科夫决策过程模型包括：

在时刻t的奖励函数定义为：

其中，γ∈[0,1]；ρ_t表示电价，和ω _n表示因违反室内温度上下限而引起不舒适度的惩罚因子，/>和υ_n表示与EWH温控相关的惩罚因子，/>和ο用于表示对电池过度充电或充电不足的惩罚因子；E_n,t ^HVAC表示楼宇n暖通空调t时刻工作功率，Tem_n ^min表示室内温度舒适度设置下限，Tem_n ^max表示室内温度舒适度设置上限，Tem_n，t ⁱⁿ表示t时刻室内温度，E_n,t ^EWH表示楼宇n热水器t时刻工作功率，T_n ^max表示热水器水温设置舒适度上限，T_n ^min表示热水器水温设置舒适度下限，T_n,t ⁱⁿ表示t时刻热水器水温,E_t ^ESS表示t时刻储能放电功率,SOC^min表示储能容量限制的下限，SOC^max表示储能容量限制的上限，SOC_t表示t时刻储能充放电状态。

4.根据权利要求3所述的方法，其特征在于，所述对所述马尔科夫决策过程模型进行离线训练，得到最优神经网络模型包括：

5.根据权利要求4所述的方法，其特征在于，所述采用TD3优化算法对所述马尔科夫决策过程模型进行离线训练包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：对智慧社区模型进行优化调度，所述智慧社区模型包括暖通空调模型，模型公式为：

式中：表示与环境条件相关的室外温度，/>是t时刻的室内温度，[Tem_min,Tem_max]为用户期望的温度舒适度区间，η^HVAC表示空调系统的能量转换效率，C^HVAC和R^HVAC分别表示空调系统的热阻和热容量；

控制方式如下式所示：

7.根据权利要求6所述的方法，其特征在于，所述智慧社区模型包括电热水器模型，模型公式为：

式中：T_t ^EWH表示在t时刻热水器水箱温度，和T_out分别表示进水的冷水温度以及环境温度，ε为模型热变化系数，W为热转换系数，B_t为冷水热增益，Q_t为内部热增益，R′为水箱传热热阻，/>表示热水器系统i实际工作功率，/>表示热水器系统i的额定工作功率，为连续控制方式下的热水器系统决策动作。

8.根据权利要求7所述的方法，其特征在于，所述智慧社区模型包括储能模型，模型公式为：

式中：SOC_ess(t)表示ESS电池在t时刻的剩余能量，由SOC_ess,min和SOC_ess,max充电容量限制来约束，η_ess是储能设备的充放电过程中的能量转换效率，P_ess(t)是充放电功率，当ESS充电时其数值为正，放电时为负，a_t,ess∈[-1,1]为储能系统充放电决策动作；

其中，P_ess(t)充放电功率受到以下约束的限制：

9.一种基于强化学习的智慧社区能量优化调度系统，其特征在于，所述系统包括：

10.根据权利要求9所述的系统，其特征在于，所述采集模块采集智慧社区的历史数据，建立能源数据集，并对所述能源数据集进行预处理包括：

将所述采样数据分为训练集和测试集。

11.根据权利要求10所述的系统，其特征在于，所述建立模块建立智慧社区能量优化调度问题的马尔科夫决策过程模型包括：

在时刻t的奖励函数定义为：

12.根据权利要求11所述的系统，其特征在于，所述训练模块对所述马尔科夫决策过程模型进行离线训练，得到最优神经网络模型包括：

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如权利要求1-8任一项所述的方法。