CN117540938B

CN117540938B - 基于td3强化学习优化的集成式建筑能耗预测方法及系统

Info

Publication number: CN117540938B
Application number: CN202410035751.0A
Authority: CN
Inventors: 黄晶; 吴风景; 舒婷婷; 钟宜国; 叶肖华; 严珂
Original assignee: Hangzhou Jingwei Information Technology Co ltd
Current assignee: Hangzhou Jingwei Information Technology Co ltd
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-05-03
Anticipated expiration: 2044-01-10
Also published as: CN117540938A

Abstract

本发明公开了基于TD3强化学习优化的集成式建筑能耗预测方法及系统，其方法包括以下步骤：收集建筑的能耗数据及周边气象数据，选择多特征数据集中与能耗预测相关的特征作为样本训练集；将所述训练集输入至少两种深度训练模型进行训练，完成对应种类能耗预测模型的构建；基于至少两种所述能耗预测模型的训练结果构建TD3强化学习模型，TD3强化学习模型通过所述验证集进行迭代学习，确定最佳的权重分配策略；将TD3强化学习模型用于所述测试集，对其输出进行评估，基于评估结果对TD3强化学习模型进行持续优化，达到预设要求后将TD3强化学习模型用于建筑的能耗预测，本发明提高了用于建筑能耗预测的模型的稳定性和准确度。

Description

基于TD3强化学习优化的集成式建筑能耗预测方法及系统

技术领域

本发明涉及建筑能源管理领域，尤其涉及基于TD3强化学习优化的集成式建筑能耗预测方法及系统。

背景技术

建筑行业是能源消耗的重要领域之一，其能耗对环境和经济均有显著影响。全球范围内，建筑物占总能源消耗的相当大比例，其中包括住宅、商业和工业建筑。这意味着有效管理和优化建筑能耗是减少温室气体排放和节省能源成本的关键因素。因此，建筑能耗预测变得至关重要，以帮助建筑业主、运营商和政府机构制定可持续的能源管理策略。能耗预测能够提前了解未来能耗趋势，有助于采取相应的节能措施，提高建筑能效，降低能源浪费，减少环境影响，并降低运营成本。

为了应对建筑能耗预测的挑战，研究人员和工程师们已经探索了各种预测方法。在过去的几年中，深度学习算法已经成为能耗预测领域的主流方法之一。深度学习模型，如长短时记忆网络（LSTM）和卷积神经网络（CNN），可以处理时间序列数据，从而使它们成为用于建筑能耗预测的有力工具。此外，强化学习在时序预测领域具有多方面的用途，其中包括特征选择、集成模型权重分配以及直接用于预测等方面的应用。其中，深度确定性策略梯度（DDPG）是一种常用的强化学习算法，它结合了深度学习和强化学习，能够有效地学习动态环境中的最佳策略。在集成模型权重分配方面，DDPG算法使用历史数据作为状态，将建筑模型的性能指标，如损失值，作为奖励信号，以调整深度学习模型的权重（即动作），从而用于建筑能耗的预测。

目前，基于强化学习的集成预测模型虽被证实可以提高预测精度与泛化能力，但仍然具有改进的空间。比如，当DDPG算法被用来权重分配时，最显著的问题是高估值函数的问题。在DDPG中，高估值函数可能导致智能体采取次优决策，这反过来可能会降低预测的准确性和效率。这是因为智能体过于乐观地估计了它的行动价值，从而导致了不稳定的训练过程和不准确的权重分配。这是DDPG在处理权重分配问题时需要解决的关键问题。因此现有的基于强化学习的集成模型对于建筑能耗的预测方法还有很大的改进空间，来进一步提高模型的稳定性和准确度。

发明内容

针对上述现有技术在建筑能耗预测方面依旧存在稳定性和准确度不佳的问题，本发明提供基于TD3强化学习优化的集成式建筑能耗预测方法及系统，本发明在现有建筑能源管理方法无法充分应对复杂的能源消耗模式和建筑动态环境的情况下，依靠TD3强化学习算法，有效解决了传统DDPG算法存在的价值高估和训练不稳定性问题；通过采用双Critic网络、目标平滑化和策略噪声等关键技巧，使TD3强化学习算法提高在能耗预测方面以强化学习为主的集成模型在进行权重分配时的稳定性和准确性。

基于TD3强化学习优化的集成式建筑能耗预测方法，包括以下步骤：

收集建筑的能耗数据及周边气象数据，获得多特征数据集并进行预处理，选择多特征数据集中与能耗预测相关的特征作为样本训练集，所述样本训练集包括训练集、验证集及测试集；

将所述训练集输入至少两种深度训练模型进行训练，完成对应种类能耗预测模型的构建；

基于至少两种所述能耗预测模型的训练结果构建TD3强化学习模型，在训练过程中，TD3强化学习模型通过所述验证集进行迭代学习，确定最佳的权重分配策略，所述权重分配策略用于对所有能耗预测模型的预测结果进行权重分配；

将TD3强化学习模型用于所述测试集，对其输出进行评估，基于评估结果对TD3强化学习模型进行持续优化，达到预设要求后将TD3强化学习模型用于建筑的能耗预测。

优选的，所述预处理包括：

数据清洗，识别和剔除数据中的异常值；

标准化，将所有特征的值缩放到相似的尺度范围内。

优选的，所述选择多特征数据集中与能耗预测相关的特征包括：

通过计算每个特征与建筑能耗之间的皮尔逊相关系数，确定与建筑能耗之间存在相关性的特征，其中，所述皮尔逊相关系数的取值范围为-1至1，负值表示负相关，正值表示正相关，接近0表示无相关性。

优选的，所述至少两种深度训练模型包括但不限于：

Bi-LSTM，用于双向递归的学习时间序列中的依赖关系；

TCN，用于利用卷积操作捕捉时间序列的局部模式；

GRU，用于通过门控机制管理信息的传递。

优选的，构建所述TD3强化学习模型包括：定义状态空间及动作空间，其中，

所述状态空间包括：历史时间步的观测数据及至少两种能耗预测模型在验证集上的性能指标，所述性能指标用于反映所有能耗预测模型的预测能力和准确度；

动作空间定义权重分配策略，所述权重分配策略用于针对所有能耗预测模型的性能指标进行动态调整，以确定在TD3强化学习模型输出的最终预测结果中对应的贡献比例，所述动作空间中的所有能耗预测模型权重之和等于1。

优选的，所述TD3强化学习模型的训练包括：

通过两套Critic网络以减少网络过估计问题，并选择较小的值作为目标值；

通过引入扰动提高价值评估准确性；

通过至少两次Critic网络的更新后再进行Actor网络的更新。

优选的，所述TD3强化学习模型通过所述验证集进行迭代学习，确定最佳的权重分配策略，所述权重分配策略用于对所有能耗预测模型的预测结果进行权重分配包括：

使用验证集上的性能数据作为反馈，评估所有能耗预测模型的效果；

设定TD3强化学习模型的目标是最大化整体预测性能；

基于所有能耗预测模型在验证集上的性能反馈，TD3强化学习模型动态调整所有能耗预测模型预测结果的权重分配；

通过反复迭代，确定最佳的权重分配策略。

优选的，所述评估的指标包括：平均绝对值误差、平均平方根误差、平均百分比误差及决定系数。

优选的，所述预设要求包括：

达到预设的优化次数，选择最佳参数设置；或

所述评估的指标达到预设阈值，选择对应参数设置。

基于TD3强化学习优化的集成式建筑能耗预测系统，包括：

样本采集模块，所述样本采集模块用于收集建筑的能耗数据及周边气象数据，获得多特征数据集并进行预处理，选择多特征数据集中与能耗预测相关的特征作为样本训练集，所述样本训练集包括训练集、验证集及测试集；

能耗预测模型构建模块，所述能耗预测模型构建模块用于将所述训练集输入至少两种深度训练模型进行训练，完成对应种类能耗预测模型的构建；

TD3模型构建训练模块，所述TD3模型构建训练模块基于至少两种所述能耗预测模型的训练结果构建TD3强化学习模型，在训练过程中，TD3强化学习模型通过所述验证集进行迭代学习，确定最佳的权重分配策略，所述权重分配策略用于对所有能耗预测模型的预测结果进行权重分配；

评估与应用模块，所述评估与应用模块将TD3强化学习模型用于所述测试集，对其输出进行评估，基于评估结果对TD3强化学习模型进行持续优化，达到预设要求后将TD3强化学习模型用于建筑的能耗预测。

相比于现有技术，本发明的优点及有益效果在于：

本发明通过集成多种深度学习模型和TD3强化学习模型的应用，实现了对建筑能耗更高的预测精度和泛化能力；

本发明通过利用TD3强化学习模型优化多种模型权重分配，有效解决了DDPG算法中高估值函数问题，提高了预测的稳定性和准确度；

本发明中TD3强化学习模型通过迭代学习不断优化，适应复杂的建筑能耗预测场景，从而为建筑能耗管理提供了高效、准确的预测工具。

附图说明

图1为本发明方法的流程示意图；

图2为本发明方法的执行流程示意图；

图3为本发明实施例中TD3强化学习模型与对比模型在测试集上的拟合曲线效果图；

图4为本发明系统的结构框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显的，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件（包括固件、微代码等）的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

如图1－图2所示，基于TD3强化学习优化的集成式建筑能耗预测方法，包括以下步骤：

本发明在实际应用中从建筑内部和附近的多个观测点收集能耗数据，以及获取周边气象数据（如温度、湿度）及其对应的时间戳数据。各个观测点按时间顺序记录了能耗与气象对应时间戳的变化，形成多特征数据集。

本发明中对于多特征数据集预处理为了确保数据质量，消除异常值和标准化不同特征的度量标准，从而提高模型的训练效果。特征选择的目的是从多特征数据集中识别出与能耗预测密切相关的特征，这样可以提高模型训练的效率和预测的准确性。例如，通过计算特征与能耗之间的相关性，可以选择影响能耗最显著的因素作为训练集的一部分。这有助于构建更为精准的预测模型。

本发明中，训练集占多特征数据集的40%，验证集占40%，测试集占20%。

优选的，所述预处理包括：

数据清洗，识别和剔除数据中的异常值；

常见的数据清洗如3sigma法则、局部离群因子（LOF）方法，3sigma法则是一种基于统计学的方法，用于识别远离平均值的异常值。它假设数据符合正态分布，并将超出平均值三个标准差的数据点视为异常值。LOF是一种基于密度的方法，用于识别数据密度低的区域中的离群点。LOF考虑了每个点的局部邻域密度，与周围邻居的密度相比较，以识别离群点。

例如，在本发明中采用3sigma（3σ）法则，用于识别和剔除异常值。原理是假定数据符合正态分布，然后剔除那些偏离平均值超过3个标准差的数据点。这种方法的效果是减少噪声和异常数据对模型训练的影响，提高数据质量。使用3σ法则可以有效地从能耗数据中剔除由于设备故障或异常使用模式产生的异常值。这对于构建一个准确预测模型至关重要，因为异常数据可能导致模型学习到不准确或误导性的模式。

标准化，将所有特征的值缩放到相似的尺度范围内；

常见的标准化例如通过使用0-1标准化方法，0-1标准化将所有特征值缩放到0和1之间的范围内。原理是通过减去最小值并除以值域（最大值减最小值）来实现。这样做的目的是将不同尺度的特征统一到相同的尺度范围内，避免某些特征因值域较大而对模型结果产生过大影响。0-1标准化确保所有特征在同一尺度上被考虑，这在考虑多种不同类型的数据（如温度、湿度、用电量等）时特别重要。这可以避免模型过度关注值域大的特征，从而保证模型的平衡和准确性。

皮尔逊相关系数测量两个变量之间的线性关系程度。在本发明应用场景中，通过计算每个特征（例如温度、湿度等）与建筑能耗之间的相关系数，可以识别出与能耗变化最为关联的特征。相关系数接近1或-1表示强相关，而接近0则表示无显著相关性。选择与能耗强相关的特征可以提高预测模型的准确度和效率。例如，如果发现室外温度与能耗之间有高度正相关，那么温度就是一个重要的预测特征。

应用皮尔逊相关系数进行特征选择的具体应用如下：

（1）首先，对建筑的能耗数据与各种环境和操作参数（如温度、湿度、日照强度等）进行相关性分析。通过计算这些参数与能耗之间的皮尔逊相关系数，可以识别哪些因素与能耗变化紧密相关。

（2）选择那些与能耗具有较高正相关或负相关的特征。例如，如果发现室外温度与能耗强正相关（接近1的相关系数），则温度是一个重要的预测因素。相反，如果某个特征与能耗的相关系数接近0，说明它对能耗预测的贡献较小，可以考虑排除。

（3）通过这种方法筛选出的特征更有可能对能耗变化有显著影响，从而提高TD3强化学习模型的预测准确性和效率。

（4）在后续的TD3强化学习模型训练过程中，还可以根据这些特征的表现进一步调整它们在模型中的权重。

优选的，所述至少两种深度训练模型包括但不限于：

Bi-LSTM（双向长短期记忆网络），用于双向递归的学习时间序列中的依赖关系；Bi-LSTM能够双向学习时间序列中的依赖关系。它通过处理时间序列的前向和后向信息来捕捉复杂的时间动态，适用于预测那些随时间变化的能耗模式。由于其双向学习能力，Bi-LSTM能够有效捕捉长期和短期的能耗变化趋势，如季节性和日常波动。例如，在预测夏季与冬季能耗差异时，Bi-LSTM能够识别出这些季节性模式。

TCN（时序卷积网络），用于利用卷积操作捕捉时间序列的局部模式；TCN通过卷积操作捕捉时间序列的局部模式。它适用于处理具有明显时间或空间模式的数据，如周期性的能耗变化。TCN适用于处理具有明显短期模式的能耗数据，例如，捕捉办公时间和非办公时间能耗的局部变化。

GRU（门控循环单元），用于通过门控机制管理信息的传递；GRU通过门控机制有效管理信息的传递，减少参数数量的同时保持模型性能，适用于快速处理大规模时间序列数据。由于其处理速度快且效率高，GRU适合于实时或近实时的能耗预测，能够快速适应环境变化，如突发事件导致的能耗变动。

TD3强化学习模型基于至少两种深度学习模型的训练结果，例如Bi-LSTM、TCN、GRU等，这些模型分别捕捉数据的不同特点和模式。

需要说明的是，本发明公开的至少两种深度学习模型并不仅限于Bi-LSTM、TCN、GRU，还可以包括其他多种深度学习模型。例如，可以考虑使用卷积神经网络（CNN）来处理具有空间特征的数据，或者使用全连接神经网络（DNN）来处理更一般化的特征。此外，还可以考虑使用混合模型，例如结合CNN和RNN的模型，以利用不同模型的优势。这些不同的模型选择和组合提供了灵活性，以适应不同类型的数据和预测需求。至少两种意味着可以选择两种或更多的模型进行组合，以便利用各自模型的优势来提高预测的准确性和效率。例如，结合CNN的空间特征处理能力和RNN的时间序列分析能力，可以更全面地分析和预测能耗。上述应用方式的拓展性应用，均应属于本发明的保护范围。

TD3强化学习模型使用验证集数据进行迭代学习，优化权重分配策略。这个过程涉及评估各个预测模型的表现，并据此调整它们在最终预测中的贡献比例。

通过迭代学习，TD3强化学习模型确定了最优的权重分配策略，以最大化预测结果的准确性。

所述状态空间包括：历史时间步的观测数据及至少两种能耗预测模型在验证集上的性能指标，所述性能指标用于反映所有能耗预测模型的预测能力和准确度；这些性能指标反映了各预测模型的准确度和预测能力，为TD3强化学习模型提供了决策的基础。例如，从不同的能耗预测模型收集它们在验证集上的准确率、误差率等性能指标。

根据这些性能指标，TD3强化学习模型在每次迭代中动态调整各模型的权重。例如：

Bi-LSTM由于其能够捕捉长期依赖关系，在分析季节性能耗变化（如夏季和冬季的不同能耗模式）时表现出色。

TCN由于其能力在于捕捉时间序列的局部模式，TCN在处理日常能耗波动，如工作日与周末的差异时更为有效。

GRU由于其处理速度快，GRU用于实时能耗监测，快速响应和适应突发事件（如特殊活动或紧急情况）导致的能耗变化。

动作空间定义涉及制定权重分配策略。这里的策略是动态调整各能耗预测模型在最终预测结果中的贡献比例，确保所有模型权重之和等于1，以实现最优的预测性能。通过TD3强化学习模型的强化学习机制，动态优化和整合不同模型的预测结果，以提高整体预测的准确性和可靠性。

优选的，所述TD3强化学习模型的训练包括：

通过两套Critic网络以减少网络过估计问题，并选择较小的值作为目标值；在TD3算法中，通过比较两个Critic网络的输出，并选择较小的值作为目标值，从而避免对未来奖励的过高估计。在能耗预测时，两个Critic网络分别独立评估同一动作的价值，减少了预测的偏差。比如，当预测未来一段时间的能耗时，使用两套网络可以提供更稳定和准确的估计。

通过引入扰动提高价值评估准确性；在价值评估中引入一定的扰动，有助于探索更多可能的动作空间，提高价值评估的准确性。为了更准确地评估不同动作的效果，如调整温控设备的设置，通过在动作选择中引入轻微扰动，TD3强化学习模型可以探索更多可能的操作空间，从而提高预测准确性。

通过至少两次Critic网络的更新后再进行Actor网络的更新；TD3通过至少两次Critic网络的更新后再更新Actor网络，以稳定训练过程。采用延迟更新Actor网络确保了在做出新的行为决策前，已有足够的评估信息。例如，在实施新的能源管理策略前，先充分评估现有策略的效果，以减少错误决策的风险。

上述技术内容共同提高了TD3强化学习模型在能耗预测中的稳定性和准确性。

使用验证集上的性能数据作为反馈，评估所有能耗预测模型的效果；对每个能耗预测模型在验证集上的性能数据进行详细分析，识别各模型的强项和弱点。TD3强化学习模型利用不同能耗预测模型在验证集上的性能数据作为反馈，评估每个模型的效果。

设定TD3强化学习模型的目标是最大化整体预测性能；TD3强化学习模型根据性能数据动态调整各模型权重。例如，如果某模型在特定条件下表现较好，则增加其权重。TD3强化学习模型的目标是最大化整体预测性能，通过动态调整各模型在最终预测中的权重分配。

基于所有能耗预测模型在验证集上的性能反馈，TD3强化学习模型动态调整所有能耗预测模型预测结果的权重分配；TD3强化学习模型通过多次迭代，不断调整权重，直至找到实现最高整体预测性能的权重组合。基于性能反馈，TD3强化学习模型动态调整各模型的权重，以找到最优的组合。

通过反复迭代，确定最佳的权重分配策略；在每次迭代后，评估整体预测结果，并根据反馈进行调整，以细化权重分配。通过反复迭代学习，TD3强化学习模型不断优化权重分配策略，直至达到最佳预测效果。

TD3强化学习模型被应用于测试集，以评估其预测性能。这个过程包括：

（1）使用测试集数据，评估TD3强化学习模型的预测结果，比如通过计算预测值与实际能耗值之间的误差，例如，对比TD3强化学习模型的预测结果与实际能耗数据，使用指标如平均绝对值误差（MAE）或平均平方根误差（RMSE）来评估预测的准确性；

（2）基于测试集的评估结果，对TD3强化学习模型进行调整，如改进权重分配策略或调整模型参数，根据评估结果，调整模型参数，如改变学习率或修改权重分配策略，以改善模型的预测性能；

（3）一旦TD3强化学习模型达到预设的性能标准，如预测准确度达到某个特定水平，模型就可用于实际的建筑能耗预测此过程确保了模型在真实应用前已经经过充分的测试和调整，以提高其准确性和可靠性。假设TD3强化学习模型初次应用于预测某建筑的夏季能耗，发现预测结果与实际数据有偏差。根据这一反馈，调整模型参数，再次进行测试，直至预测结果与实际能耗数据更为吻合，然后将优化后的模型用于实际能耗预测。

这个过程的关键在于迭代优化，确保模型在真实场景中具有高准确度和鲁棒性。

平均绝对值误差（MAE）：测量预测值与实际值之间的平均绝对差异，用于评估模型预测的平均误差大小。在本发明中用于快速评估模型的平均预测误差，适用于初步检查预测性能。

平均平方根误差（RMSE）：计算预测值与实际值差异的平方的平均值的平方根，对大误差给予更大的惩罚。本发明中，在误差较大时给予更重的惩罚，适用于更严格的性能评估，尤其在对大误差敏感的应用场景中。

平均百分比误差（MAPE）：测量预测误差与实际值的比例，常用于评估预测的准确度。在本发明中适用于评估相对误差，尤其在预测值与实际值的比例关系重要时。

决定系数（R2）：反映模型预测值与实际值的符合程度，值越接近1表示模型预测效果越好。在本发明中用于评价模型预测值与实际值的拟合程度，适用于总体评估模型的预测效果。

这些指标共同提供了一个全面的模型评估框架，帮助识别和优化模型的不足之处。

优选的，所述预设要求包括：

达到预设的优化次数，选择最佳参数设置；或

所述评估的指标达到预设阈值，选择对应参数设置。

具体来说，设定一个预定的优化次数，以保证模型通过足够的迭代得到充分优化。这有助于确定模型参数在不同数据集和场景中的稳定性和有效性。设定预设优化次数确保模型经历了足够的训练周期，以达到其性能潜力的最大化。例如，经过足够次数的迭代后，模型可能从初始的不稳定状态达到更加稳定和准确的预测效果。

设定特定的性能阈值，如MAE或RMSE，模型需达到或超过这些阈值以证明其有效性和可靠性。这个阈值是基于实际应用需求和预期目标设定的。评估指标阈值通过设定具体的性能阈值，可以根据实际业务需求或应用目标来优化模型。例如，如果应用场景对预测准确度的要求很高，可以设定一个较低的RMSE阈值。

在本发明的一个具体实施例中：

步骤1，实验所用数据收集了上海一栋办公大楼的空调能耗数据。该办公大楼总共占地面积为47,830平方米，其末端使用设备类型包括暖气片和暖通空调系统中的通风系统。数据从2015年1月1日凌晨0:00开始一直采集到2016年12月31日晚上11:00，数据每隔1小时进行一次采样。在单一建筑的情况下，气象数据显著影响能耗，而且相对容易获取。在这项研究中，气象数据和时间戳信息将与建筑能耗数据充分结合，以揭示它们之间的潜在关系以及它们对能耗的影响程度。

使用局部离群因子（LOF）方法来清理数据，检测和替换基于数据点相对密度的异常值，并对数据进行标准化。这确保了数据的完整性并增强了模型的可靠性。接下来，将时间序列数据分割成适当的间隔，分析时间依赖性和趋势。时间戳的详细信息，如年、月、日和小时，被提取出来，以识别数据的周期性和季节性变化。最后，还将能源数据与气象洞察相结合，认识到天气在能耗预测中的重要作用。

其中，分别表示进行数据采集的观测点，分别为数据点/>、数据点/>；/>表示数据点/>的/>个最近邻居，/>表示数据点/>的局部可达密度。

进行特征选择以确定与建筑能耗之间的显著相关性，该操作帮助剖析数据集，减少冗余特征，并保留对建筑能耗预测最具信息量的特征。这个过程涉及计算每个特征与建筑能耗之间的皮尔逊相关系数。皮尔逊相关系数是一种常用的统计工具，用于衡量两个变量之间的线性关系。它的取值范围从-1到1，其中负值表示负相关，正值表示正相关，接近0则表示无相关性。具体来说，对于每对特征与建筑能耗，使用以下公式计算皮尔逊相关系数：

其中，和/>分别表示建筑能耗和特征的观测值，/>和/>表示它们的均值，/>表示样本数量。

步骤2，使用训练集中的历史数据，分别训练三个深度学习模型（Bi-LSTM、TCN、GRU），以建立它们的能耗预测模型。首先，双向长短时记忆网络（Bi-LSTM）是一种适用于序列数据的循环神经网络，它通过记住长期和短期的时间依赖关系来捕捉时间序列中的模式。其次，时空卷积网络（TCN）是一种能够有效捕捉时间序列中局部和全局模式的卷积神经网络。它通过一系列卷积层和池化层来提取时间序列数据的特征。最后，门控循环单元（GRU）是一种循环神经网络，类似于 LSTM 但更轻量。它通过门控机制来管理信息的传递和遗忘，有助于处理长期依赖关系。由于这三个深度学习模型各自具有独特的优势（具体优势参见上文内容），且已在时序预测中广泛使用，故有关计算过程与原理可参考现有文献。

步骤3，在构建TD3强化学习模型时，智能体的状态空间可由历史时间步以及上个时刻子预测模型各自的预测性能构成，智能体的动作/>即为/>，每个都对应了各自模型将被分配到的权重大小，故需要满足以下公式：

奖励是根据预测误差/>和/>计算的，预测误差/>和/>是根据状态/>和对应的权重系数计算的。当/>小于/>时，智能体受到惩罚，当/>大于或等于/>时，智能体受到奖励。奖励/>的表达式如下，其中预测误差/>以均方误差（Mean Square error,MSE）计算：

为了解决DDPG算法的价值高估以及训练稳定性问题，TD3强化学习模型用到了3个关键技术。其训练过程具体如下：

在训练阶段，从Replay Buffer中采样一个批次（Batch size）的数据，假设采样到的一条数据为（，所有网络的更新过程如下：

先利用Target Actor网络计算出状态下的动作

然后基于目标策略平滑正则化，在目标动作上加入噪声。

接着基于双重网络的思想，采用两套Critic网络，计算目标值时取二者中的较小值，从而抑制网络过估计问题。

最后利用梯度下降算法最小化评估值和目标值之间的误差，从而对Critic网络进行更新。

Actor网络更新过程：（在Ctitic1和Critic2网络更新步之后，启动Actor网络更新）利用Actor网络计算出状态/>下的动作：/>

然后利用Critic1或者Critic2网络来计算状态动作对的评估值，最后采用梯度上升算法最大化/>，从而完成对Actor网络的更新：

最后目标网络的更新过程：采用软更新方式对目标网络进行更新。引入一个学习率（或者称为动量），将旧的目标网络参数和新的对应网络参数做加权平均，然后赋值给目标网络。

步骤4，为了评价本TD3强化学习模型对建筑能耗的预测性能，本发明实施例采用平均绝对值误差（MAE）、平均百分比误差（MAPE）、平均平方根误差（Root Mean SquareError， RMSE）、决定系数（R-squared，）和对称平均百分比误差（SMAPE）评价方法中的任意一种或多种组合的评价方法对能耗结果进行评价。各个误差评价方法的评价过程通过以下公式表达：/>

公式中，和/>分别表示第/>个真实值和第/>个目标模型的预测值，/>表示其均值，b表示测试集的长度。

具体而言，本实施例提供的基于TD3强化学习优化的集成式预测模型，根据对初始目标模型的预测结果的误差评价，调整模型内部参数，达到最低预测误差，即平均绝对值误差（MAE）、平均百分比误差（MAPE）、平均平方根误差（Root Mean Square Error， RMSE）、决定系数（R-squared，）和对称平均百分比误差（SMAPE）降到最低。为了验证本发明提出的集成模型的性能，本发明选择了时间序列预测领域目前较流行的机器学习、深度学习以及强化学习进行对比。这些模型包括SVR、RNN、GRU、Bi-LSTM、TCN、以及DDPG。表1展示了通过本发明获得的TD3强化学习模型的输出（Proposed）与以上提出的各模型之间在测试集上的评估对比，评价指标分别是MAE、MAPE、RMSE、/>、SMAPE。为了更直观的展示本发明TD3强化学习模型的预测性能，如图3所示，展示了本发明实施例基于TD3强化学习优化的集成式建筑能耗预测模型与对比模型在测试集上的拟合曲线效果图。所有实验均使用上述数据集在同一实验平台上进行以保证实验的公平性，从实验结果可以看出，本发明提出的基于TD3强化学习优化的集成式预测模型表现明显优于对比模型。

表1

综上，本发明提供了一种综合了深度强化学习和多深度学习模型的建筑能耗预测方法，旨在有效应对建筑能耗数据中的非线性、时变和突变点等复杂情况。本方法首先利用GRU、Bi-LSTM和TCN深度学习模型，各自具备对时间序列数据的建模能力，以应对不同类型的数据变化。接着，通过TD3强化学习模型的引入，有效整合了这些深度学习模型，通过动态权重分配策略，以提高建筑能耗预测的准确性和鲁棒性。与以往DDPG和Q-Learning为主的集成预测方法相比，TD3采用两套Critic网络，计算目标值时取二者中的较小值，可抑制网络过估计问题。此外，计算目标值时，在下一个状态的动作上加入扰动，从而使得价值评估更准确。在更新方面上，Critic网络更新多次后，再更新Actor网络，从而保证Actor网络的训练更加稳定。

如图4所示，基于TD3强化学习优化的集成式建筑能耗预测系统，包括：

样本采集模块，所述样本采集模块用于收集建筑的能耗数据及周边气象数据，获得多特征数据集并进行预处理，选择多特征数据集中与能耗预测相关的特征作为样本训练集，所述样本训练集包括训练集、验证集及测试集；样本采集模块，收集一栋办公楼的小时级能耗数据和当地的气象信息，包括温度、湿度等，然后进行清洗和标准化处理，样本采集模块负责收集和预处理建筑能耗及气象数据，选择相关特征形成训练、验证和测试集；

能耗预测模型构建模块，所述能耗预测模型构建模块用于将所述训练集输入至少两种深度训练模型进行训练，完成对应种类能耗预测模型的构建；能耗预测模型构建模块利用深度学习模型（如Bi-LSTM、TCN、GRU）处理训练集，构建能耗预测模型，使用Bi-LSTM模型分析能耗与时间的关系，TCN模型处理具有周期性的能耗变化，而GRU模型处理快速变化的能耗数据；

TD3模型构建训练模块，所述TD3模型构建训练模块基于至少两种所述能耗预测模型的训练结果构建TD3强化学习模型，在训练过程中，TD3强化学习模型通过所述验证集进行迭代学习，确定最佳的权重分配策略，所述权重分配策略用于对所有能耗预测模型的预测结果进行权重分配；TD3模型构建训练模块基于能耗预测模型的结果，构建并训练TD3模型，通过验证集迭代学习确定最佳权重分配策略，TD3模型构建训练模块整合上述模型的预测结果，使用TD3算法优化权重分配，以提高预测的整体精度；

评估与应用模块，所述评估与应用模块将TD3强化学习模型用于所述测试集，对其输出进行评估，基于评估结果对TD3强化学习模型进行持续优化，达到预设要求后将TD3强化学习模型用于建筑的能耗预测；评估与应用模块在测试集上评估TD3强化学习模型，持续优化直至满足预设要求，然后应用于实际能耗预测，评估与应用模块在测试集上对模型进行评估，不断调整直至达到预定的准确度，然后将模型用于实时能耗预测和节能策略制定。

需要说明的是，本发明附图中的TD3模型为TD3强化学习模型的简称。

本发明的基于TD3强化学习优化的集成式建筑能耗预测系统通过有效地结合多种模型和优化技术，提供了高效准确的能耗预测，有助于改善能源管理和降低运营成本。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框，以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器（RAM）和/或非易失性内存等形式，如只读存储器（ROM）或闪存（flash RAM）。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所做的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.基于TD3强化学习优化的集成式建筑能耗预测方法，其特征在于，包括以下步骤：

构建所述TD3强化学习模型包括：定义状态空间及动作空间，其中，

动作空间定义权重分配策略，所述权重分配策略用于针对所有能耗预测模型的性能指标进行动态调整，以确定在TD3强化学习模型输出的最终预测结果中对应的贡献比例，所述动作空间中的所有能耗预测模型权重之和等于1；

2.根据权利要求1所述的基于TD3强化学习优化的集成式建筑能耗预测方法，其特征在于，所述预处理包括：

数据清洗，识别和剔除数据中的异常值；

标准化，将所有特征的值缩放到相似的尺度范围内。

3.根据权利要求1所述的基于TD3强化学习优化的集成式建筑能耗预测方法，其特征在于，所述选择多特征数据集中与能耗预测相关的特征包括：

通过计算每个特征与建筑能耗之间的皮尔逊相关系数，确定与建筑能耗之间存在相关性的特征，其中，所述皮尔逊相关系数的取值范围为-1至1，负值表示负相关，正值表示正相关。

4.根据权利要求1所述的基于TD3强化学习优化的集成式建筑能耗预测方法，其特征在于，所述至少两种深度训练模型包括：

Bi-LSTM，用于双向递归的学习时间序列中的依赖关系；

TCN，用于利用卷积操作捕捉时间序列的局部模式；

GRU，用于通过门控机制管理信息的传递。

5.根据权利要求1所述的基于TD3强化学习优化的集成式建筑能耗预测方法，其特征在于，所述TD3强化学习模型的训练包括：

通过引入扰动提高价值评估准确性；

通过至少两次Critic网络的更新后再进行Actor网络的更新。

6.根据权利要求1所述的基于TD3强化学习优化的集成式建筑能耗预测方法，其特征在于，所述TD3强化学习模型通过所述验证集进行迭代学习，确定最佳的权重分配策略，所述权重分配策略用于对所有能耗预测模型的预测结果进行权重分配包括：

设定TD3强化学习模型的目标是最大化整体预测性能；

通过反复迭代，确定最佳的权重分配策略。

7.根据权利要求1所述的基于TD3强化学习优化的集成式建筑能耗预测方法，其特征在于，所述评估的指标包括：平均绝对值误差、平均平方根误差、平均百分比误差及决定系数。

8.根据权利要求7所述的基于TD3强化学习优化的集成式建筑能耗预测方法，其特征在于，所述预设要求包括：

达到预设的优化次数，选择最佳参数设置；或

所述评估的指标达到预设阈值，选择对应参数设置。

9.基于TD3强化学习优化的集成式建筑能耗预测系统，其特征在于，包括：