CN117709521A

CN117709521A - 用电量预测方法、设备及存储介质

Info

Publication number: CN117709521A
Application number: CN202311632603.9A
Authority: CN
Inventors: 龚亮华; 张昊; 毛哲
Original assignee: Fengtai Technology Beijing Co ltd
Current assignee: Fengtai Technology Beijing Co ltd
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-03-15

Abstract

本申请公开了一种用电量预测方法、设备及存储介质，属于计算机技术领域。该方法包括：获取目标对象对应的当前温度数据，以及当前日期数据；根据当前温度数据和当前日期数据，通过深度强化学习模型预测目标对象在未来预设时间段的用电量；该深度强化学习模型是根据状态空间和动作空间，以最大化用电量预测的准确性、且最小化预测用电量时所消耗的资源为学习目标进行训练得到，状态空间和动作空间是根据目标对象的历史用电量数据构建得到，状态空间指示时间、温度和日期构建的多维度环境，动作空间指示预测用电量的取值范围。该深度强化学习模型是对大规模的多维度数据进行强化学习得到的，能够应对动态环境变化，提高了用电量预测的准确性。

Description

用电量预测方法、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种用电量预测方法、设备及存储介质。

背景技术

目前，随着各行各业的蓬勃发展，企业的用电量持续攀升，对用电量的精准预测在电能系统的规划和运营中愈发显得至关重要。对于企业，通过分析和预测企业的用电量，有助于企业迅速发现用电是否出现异常状况，并能够及时提供解决方案。对于相关供电公司，可以根据用电量的预测趋势，灵活调整供电决策，从而提升供电服务的效率和可靠性，促进节能减排的意识培养，积极构建节约用电的社会环境。

传统用电量预测方法通常依赖于统计时间序列模型、回归分析、或者基于物理原理的建模，这些建模方法通常是基于线性关系的单一数据进行建模。然而，用电量的变化受到多方面的影响，传统用电量预测方法受限于非线性关系的建模能力，无法处理复杂的动态环境变化信息，以及对大规模多维度数据的适应性不足，使得用电量预测的准确性不高。

发明内容

本申请提供了一种用电量预测方法、设备及存储介质，提高了用电量预测的准确性。所述技术方案如下：

第一方面，提供了一种用电量预测方法，所述方法包括：获取目标对象对应的当前温度数据，以及当前日期数据；根据所述当前温度数据和所述当前日期数据，通过深度强化学习模型预测所述目标对象在未来预设时间段的用电量；其中，所述深度强化学习模型是根据状态空间和动作空间，以最大化用电量预测的准确性、且最小化预测用电量时所消耗的资源为学习目标进行训练得到，所述状态空间和所述动作空间是根据所述目标对象的历史用电量数据构建得到，所述状态空间指示时间、温度和日期构建的多维度环境，所述动作空间指示预测用电量的取值范围。

第二方面，提供了一种用电量预测装置，所述装置包括：获取模块，用于获取目标对象对应的当前温度数据，以及当前日期数据；预测模块，用于根据所述当前温度数据和所述当前日期数据，通过深度强化学习模型预测所述目标对象在未来预设时间段的用电量；其中，所述深度强化学习模型是根据状态空间和动作空间，以最大化用电量预测的准确性、且最小化预测用电量时所消耗的资源为学习目标进行训练得到，所述状态空间和所述动作空间是根据所述目标对象的历史用电量数据构建得到，所述状态空间指示时间、温度和日期构建的多维度环境，所述动作空间指示预测用电量的取值范围。

第三方面，提供了一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述第一方面所述的方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本申请实施例提供了一种用电量预测方法、设备及存储介质，根据本申请提供的方案，获取目标对象对应的当前温度数据，以及当前日期数据；根据当前温度数据和当前日期数据，通过深度强化学习模型预测目标对象在未来预设时间段的用电量；该深度强化学习模型能够实时适应不断变化的用电环境和需求，根据当前温度数据和当前日期数据进行用电量预测，能够提供实时的用电量预测结果。其中，深度强化学习模型是根据状态空间和动作空间，以最大化用电量预测的准确性、且最小化预测用电量时所消耗的资源为学习目标进行训练得到，状态空间和动作空间是根据目标对象的历史用电量数据构建得到，状态空间指示时间、温度和日期构建的多维度环境，动作空间指示预测用电量的取值范围。该深度强化学习模型是对大规模的多维度(包括时间、温度和日期)历史用电量数据进行强化学习得到的，能够应对突发事件、季节性变化以及市场波动等动态环境变化信息，通过引入深度强化学习技术，能够自动捕捉用电需求中复杂的非线性关系，通过实时学习和决策，提高了用电量预测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种用电量预测方法的流程图；

图2是本申请实施例提供的另一种用电量预测方法的流程图；

图3是本申请实施例提供的一种深度强化学习模型的框架示意图；

图4是本申请实施例提供的一种状态空间和动作空间的示意图；

图5是本申请实施例提供的再一种用电量预测方法的流程图；

图6是本申请实施例提供的一种奖励函数的设计示意图；

图7是本申请实施例提供的又一种用电量预测方法的流程图；

图8是本申请实施例提供的一种用电量预测装置的结构示意图；

图9为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

应当理解的是，本申请提及的“多个”是指两个或两个以上。在本申请的描述中，除非另有说明，“/”表示或的意思，比如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，比如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请的技术方案，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

在对本申请实施例进行详细地解释说明之前，先对本申请实施例的应用场景和相关技术予以说明。

相关技术中，用户用电量消耗预测任务，受到多种因素综合影响，例如，企业用电行为、负荷波动、季节和假期等，导致时间序列出现不平衡的变化趋势，使得当前常用的预测模型未能对数据进行充分细致分解，从而影响用电量预测的准确性。另外，传统用电量消耗预测方法通常采用基于统计学、物理模型或回归分析的技术，无法有效应对企业用电需求的高度复杂性和时变性，该类方法存在以下技术问题：着建模能力不足、不适应高维电力数据、特征提取困难和难以处理不确定性事件。因此，建立高效的用户用电量消耗预测模型成为电能领域的研究热点之一。

本申请提出的基于深度强化学习的用电量消耗预测方法，通过将深度强化学习技术引入用电管理领域，深度强化学习技术具有高度自适应性、非线性建模能力、实时决策性和大规模数据处理能力，以实现准确、实时的用电量消耗预测。

本申请实施例提供的用电量预测方法，可以应用于计算机设备，例如，台式机、便携式电脑、网络服务器、掌上电脑、移动手机、平板电脑、无线终端设备、通信设备或嵌入式设备，本申请实施例不限定计算机设备的类型。该方法可以用于对居民或企业中电能设备的用电量进行预测。

本申请实施例提供了一种用电量预测方法，如图1所示，图1是本申请实施例提供的一种用电量预测方法的流程图，该用电量预测方法包括：

S101、获取目标对象对应的当前温度数据，以及当前日期数据。

当前温度数据是指在对目标对象的用电量进行预测时，目标对象所在城市或所在地区位置的温度数据，计算机设备可以通过关于天气的应用程序编程接口(ApplicationProgramming Interface，API)获取当前温度数据。

当前日期数据是指对目标对象的用电量进行预测时的日期数据，该日期数据与计算机设备上的日期数据一致，可以通过程序包(例如，chinese_calendar)确定当前日期数据是节假日或工作日。

目标对象可以是企业、居民等用户，目标对象还可以是供电公司、储能电站等电力系统管理者，对此本申请实施例不做限制。

S102、根据当前温度数据和当前日期数据，通过深度强化学习模型预测目标对象在未来预设时间段的用电量；其中，深度强化学习模型是根据状态空间和动作空间，以最大化用电量预测的准确性、且最小化预测用电量时所消耗的资源为学习目标进行训练得到，状态空间和动作空间是根据目标对象的历史用电量数据构建得到，状态空间指示时间、温度和日期构建的多维度环境，动作空间指示预测用电量的取值范围。

将当前温度数据和当前日期数据输入深度强化学习模型，通过深度强化学习模型根据当前温度数据和当前日期数据进行预测，输出目标对象在未来预设时间段的用电量。

深度强化学习模型是基于深度确定性策略梯度算法(Deep DeterministicPolicy Gradient，DDPG)构建的模型，能够实时适应不断变化的用电环境和需求，根据当前温度数据和当前日期数据进行用电量预测，能够提供实时的、准确的用电量预测结果。

接下来对深度强化学习模型的训练过程进行说明。根据目标对象的历史用电量数据构建状态空间和动作空间，其中，状态空间指示时间、温度和日期构建的多维度环境，动作空间指示预测用电量的取值范围，用于对预测的用电量进行范围约束，减少出现预测的用电量偏离实际场景的情况。深度强化学习模型对大规模的多维度(包括时间、温度和日期)历史用电量数据进行强化学习，在动作空间的约束下进行预测。在预测过程中，可以通过不同的预测路径进行用电量的预测，不同的预测路径会消耗不同的资源。深度强化学习模型是无监督学习模型，本示例不仅考虑预测的准确性，还考虑到执行预测路径所消耗的资源，以最大化用电量预测的准确性、且最小化所消耗的资源为学习目标，采用大规模的多维度(包括时间、温度和日期)历史用电量数据对深度强化学习模型进行训练，以提高模型预测结果的准确性。

训练完成的深度强化学习模型能够应对突发事件、季节性变化以及市场波动等动态环境变化信息，通过引入深度强化学习技术，能够自动捕捉用电需求中复杂的非线性关系，根据当前温度数据和当前日期数据进行用电量的预测，提高了用电量预测的准确性和实时性。这有助于电力系统管理者和企业在用电资源分配和计划方面做出更明智的决策，减少用电浪费。

进一步的，与传统预测方法相比，本方案无需繁重的特征工程和复杂的模型构建过程，减少了开发周期和成本。深度强化学习模型以端到端的方式处理大规模数据，从中学习特征，减轻了人工干预的负担，简化了模型的开发流程。

本申请实施例中，深度强化学习模型是采用目标对象的历史用电量数据训练得到的，利用训练完成的深度强化学习模型对目标对象的未来预设时间段的用电量进行预测，所预测的用电量具有针对性和参考性，提高了用电量预测的准确性。

根据本申请提供的方案，获取目标对象对应的当前温度数据，以及当前日期数据；根据当前温度数据和当前日期数据，通过深度强化学习模型预测目标对象在未来预设时间段的用电量；该深度强化学习模型能够实时适应不断变化的用电环境和需求，根据当前温度数据和当前日期数据进行用电量预测，能够提供实时的用电量预测结果。其中，深度强化学习模型是根据状态空间和动作空间，以最大化用电量预测的准确性、且最小化预测用电量时所消耗的资源为学习目标进行训练得到，状态空间和动作空间是根据目标对象的历史用电量数据构建得到，状态空间指示时间、温度和日期构建的多维度环境，动作空间指示预测用电量的取值范围。该深度强化学习模型是对大规模的多维度(包括时间、温度和日期)历史用电量数据进行强化学习得到的，能够应对突发事件、季节性变化以及市场波动等动态环境变化信息，通过引入深度强化学习技术，能够自动捕捉用电需求中复杂的非线性关系，通过实时学习和决策，提高了用电量预测的准确性。

在一些实施例中，本申请实施例还提供了深度强化学习模型的训练过程，如图2所示，图2是本申请实施例提供的另一种用电量预测方法的流程图。

S201、根据目标对象的历史用电量数据，构建状态空间和动作空间。

获取目标对象的历史用电量数据，历史用电量数据包括过去某一段时间段内的用电量消耗数据、温度数据(也可以称为天气数据)和日期数据(也可以称为节假日数据)，用电量消耗数据用于描述用电需求量随着时间变化的情况。温度数据可以通过天气API获取。历史用电量数据中针对日期(即，节假日或工作日)维度的数据可以通过关于节假日的程序包获取。

本申请实施例中，建立用电量消耗预测的环境状态模型和动作模型(即构建状态空间和动作空间)。环境状态模型包括历史用电量消耗数据、天气数据和节假日数据，状态空间是深度强化学习代理的观察空间，未来用于决策，代理是用于执行预测动作以得到用电量，相当于模型中的用电量预测网络。动作空间是代理可以采取的操作，是用电量消耗预测的数值，表示未来某个时间段的用电量消耗。

S202、根据奖励函数、状态空间和动作空间，对初始深度强化学习模型进行训练，得到深度强化学习模型；奖励函数指示最大化用电量预测的准确性、且最小化预测用电量时所消耗的资源。

构建用电量消耗预测的奖励函数模型，设计奖励函数，奖励函数综合考虑用电量消耗预测的准确性和成本收益。奖励函数是由准确性奖励、准确性奖励权重因子、成本奖励和成本奖励权重因子构建得到的，准确性奖励指示预测当前时刻用电量的准确程度，成本奖励指示预测当前时刻的动作时所消耗的资源。

奖励函数是一个从环境状态和代理动作到一个实数值的函数，用来衡量代理的行为质量。在用电量消耗预测的方案中，将奖励函数设计为最大化用电量预测的准确性，同时最小化成本(即，最小化预测用电量时所消耗的资源)。

例如，可以采用如下公式(1)构建奖励函数。

R(S_t ,A_t)＝α·R_accuracy-β·R_cost (1)

其中，R(S_t,A_t)是指在状态S_t时代理采取动作A_t后的奖励，R_accuracy表示准确性奖励，R_cost表示成本奖励，α、β是权重因子，用于平衡预测准确性和成本收益的重要性。

上述公式(1)中的准确性奖励用来奖励代理正确的用电量预测。例如，可以采用以下公式(2)来表示准确性奖励。

其中，当前时刻是时刻t，N是未来时间的小时数量，D_t+i是实际用电量消耗值，是代理预测的用电量值，准确性奖励是预测值与实际值之间的绝对误差的负平均值。

上述公式(1)中的成本奖励用来鼓励代理减少成本，可以根据代理的预测动作来定义。例如，可以采用以下公式(3)来表示成本奖励。

R_cost＝γ·A_t (3)

其中，A_t是在时刻t时采取的动作，即，用电量消耗预测值，γ是成本因子，用于调整成本的权重，表示成本的重视程度。

准确性奖励是为了奖励代理在预测中尽可能接近实际用电量值，因为它是负平均误差，这鼓励代理提高预测准确性，以最小化误差。成本奖励是为了鼓励代理减少成本，因为它与代理采取的预测动作成正比，这有助于代理考虑成本收益，以减少不必要的高成本动作。

基于构建的状态空间和动作空间，以及奖励函数，构建DDPG模型，如图3所示，图3是本申请实施例提供的一种深度强化学习模型的框架示意图。初始深度强化学习模型的学习过程是代理与仿真环境之间不断交互的过程，即在给定状态采取动作，在下采取动作A_t，进而对状态-动作对(S_t,A_t)进行评估获得奖励R_t。此时仿真环境从一个状态转移到下一状态，即S_t(时刻t的状态)到S_t+1(时刻t+1的状态)。代理通过不断优化自身动作策略，以最大化其长期回报或成本收益(准确性奖励和成本奖励之和)。

深度强化学习技术的思想是通过代理在与环境的交互中不断学习最优策略，以最大化累积奖励。本申请将深度强化学习引入用电量消耗预测领域，克服了传统方法的限制，实现了对用电需求的高度自适应性、非线性建模和实时决策的能力，提高模型预测结果的实时性和准确性。

在一些实施例中，上述图2中S201还可以通过以下方式实现。根据历史用电量数据中历史预设时间段内各个时刻的用电量、各个时刻对应的温度、以及各个时刻对应的日期，构建状态空间；根据历史用电量数据中的最大用电量值，构建动作空间。

状态空间，即，环境状态空间，是代理用来观察当前环境的集合，包括各种变量和因素。在用电量消耗预测问题的状态里，考虑时间、温度和日期三种维度的因素，以下进行说明。

针对时间维度的历史用电量消耗数据，即，历史预设时间段内各个时刻的用电量，用于表示过去一段时间内的真实用电量消耗情况。可以采用一个数组来表示，例如，采用公式(4)表示历史用电量消耗数据。

S_history＝[P₁,P₂,...,P_t] (4)

其中，元素P表示在时刻t的用电量。t的数值表示历史用电量消耗数据的时间长度，P_t表示时刻t的用电量消耗情况。

针对温度维度的温度数据，即，各个时刻对应的温度，温度影响用电量消耗。可以采用一个数组来表示，例如，采用公式(5)表示温度数据。

S_temperature＝[T₁,T₂,...,T_t] (5)

其中，T_t表示时刻t的温度。

针对日期维度的节假日数据，即，各个时刻对应的日期，节假日或工作日影响用电量。可以用二进制变量表示，1表示是节假日，0表示是工作日，或者，0表示是节假日，1表示是工作日，对此本申请实施例不做限制，例如，采用公式(6)表示日期数据。

S_holiday＝[H₁,H₂,...,H_t] (6)

其中，H_t表示时刻t是否为节假日或工作日。

综上，根据上述公式(4)-公式(6)，采用公式(7)表示环境状态空间。

S＝S_history+S_temperature+S_holiday (7)

其中，状态空间S捕获了过去一段时间内的用电量消耗、温度和节假日等重要信息，供代理使用。

本申请中的动作空间定义了代理可以采取的操作，也就是，用电量消耗的预测值。在此，将动作空间定义为一个连续的数值空间，代理可以在这个空间内选择用电量消耗的历史值。例如，采用公式(8)表示动作空间。

A＝[A_min,A_max] (8)

其中，A_min是动作空间的用电量最小值，通常可以设定为0，表示用电量消耗值为0。A_max是动作空间的用电量最大值，根据历史用电量消耗数据中的最大用电量值的倍数，例如，2倍、3倍等。根据用电量最小值和用电量最大值构建动作空间。

根据上述构建的状态空间和动作空间，对两者之间的关联进行说明，如图4所示，图4是本申请实施例提供的一种状态空间和动作空间的示意图。初始深度强化学习模型的学习过程是代理(相当于模型中的用电量预测网络)根据状态空间，在动作空间的约束下，预测用电量。其中，状态空间中包括三个维度的数据，分别是历史用电量消耗数据、温度数据、节假日数据；预测结果也就是用电量消耗预测结果。

本申请实施例中，根据历史用电量数据中时间、温度和日期这三个维度的数据，构建状态空间，以及根据历史用电量数据中的最大用电量值，构建动作空间，提高了历史用电量数据的全面性。采用大规模的多维度历史用电量数据进行强化学习，使得深度强化学习模型能够应对突发事件、季节性变化以及市场波动等动态环境变化信息，自动捕捉用电需求中复杂的非线性关系，进而提高用电量预测的准确性。

在一些实施例中，在上述构建状态空间之前，该用电量预测方法还包括以下步骤：对历史用电量数据进行预处理，得到标准用电量数据；预处理包括以下至少一项：删除或替代异常用电量数据和无效用电量数据、删除重复用电量数据、替代缺失用电量数据，标准用电量数据包括历史预设时间段内多个时刻的剩余用电量；对多个时刻的剩余用电量进行归一化处理，得到多个时刻的用电量。

历史用电量数据是原始数据，会存在以下问题：数据集中存在极其不合理的数据值，与其他数据相差较大。数据集中存在空值，也就是在某个时间戳里没有该时刻的用电量消耗数据。

针对以上问题，本示例对历史用电量数据进行预处理。采用统计方法对历史用电量数据进行计算，筛选出异常用电量数据的异常值，以及无效用电量数据的无效值。对异常值和无效值进行删除或替代。针对重复用电量数据，删除该重复用电量数据。针对筛选出的缺失用电量数据的缺失值，采用平均值、最大值或最小值的计算方法替代缺失值，从而得到标准用电量数据。

标准用电量数据是离散数据，其包括历史预设时间段内多个时刻的剩余用电量，将初始时刻(即，历史预设时间段的起始时刻)的剩余用电量减去当前时刻的剩余用电量，得到当前时刻的实际用电量，依次类推，根据多个时刻的剩余用电量计算各个时刻的实际用电量。每个时刻的实际用电量表示从初始时刻到该时刻之间所消耗的用电量。对多个时刻的实际用电量进行归一化处理，得到最终的多个时刻的用电量。

本申请实施例中，通过对历史用电量数据进行预处理以及归一化处理，得到多个时刻的用电量，提高了历史用电量消耗数据的准确性，以便后续根据该数据对深度强化学习模型进行训练，提高训练精度。

在一些实施例中，上述归一化处理的步骤，还可以通过以下方式实现。从多个时刻的剩余用电量中分别确定最大剩余用电量和最小剩余用电量；将第一差值与第二差值之间的比值作为目标时刻的用电量；其中，第一差值指示目标时刻的剩余用电量减去最小剩余用电量，第二差值指示最大剩余用电量减去最小剩余用电量，目标时刻为多个时刻中的任一时刻。

多个时刻的剩余用电量是指历史预设时间段内的多个时刻的剩余用电量，最大剩余用电量是指历史预设时间段的起始时刻的剩余用电量，最大剩余用电量历史预设时间段的终止时刻的剩余用电量。

对预处理之后的数据(即，标准用电量数据)进行数据归一化处理。例如，采用公式(9)进行数据归一化。

其中，y_i表示目标时刻i的剩余用电量，y_min表示最小剩余用电量，y_max表示最大剩余用电量，y’_i表示目标时刻i的用电量。

本申请实施例中，通过对多个时刻的剩余用电量进行归一化处理，得到多个时刻的用电量，提高了历史用电量消耗数据的准确性，以便后续根据该数据对深度强化学习模型进行训练，提高训练精度。

在一些实施例中，初始深度强化学习模型包括策略网络和价值网络；上述图2中S202还可以包括以下步骤。如图5所示，图5是本申请实施例提供的再一种用电量预测方法的流程图。

S2021、通过策略网络根据当前时刻的上一时刻的状态空间，预测当前时刻的动作。

在对策略网络进行说明之前，先根据已构建的状态空间和动作空间，对DDPG模型的构建进行说明，以便更好的了解训练过程。构建值函数网络，DDPG模型使用两个神经网络，一个是策略网络(Actor Network)，另一个是价值网络(Critic Network)。策略网络用于输出动作，价值网络用于评估行动的价值。例如，采用如下公式(10)表示策略网络。

A_t+1＝Actor(S_t) (10)

其中，Actor(S_t)是策略网络的输出，表示在状态S_t下代理选择的动作A_t+1。

采用如下公式(11)表示价值网络。

Q(S_t,A_t)＝Critic(S_t,A_t) (11)

其中，Q(S_t,A_t)是价值网络的输出，表示在状态S_t下采取动作A_t的预期奖励。

进一步的，为了稳定训练，DDPG模型使用了目标网络，它是策略网络和价值网络的两个副本。目标网络(包括目标策略网络和目标价值网络)的参数在训练过程中会缓慢地向实际网络参数靠近，以提高训练的稳定性。例如，采用如下公式(12)表示目标网络的参数。

θ′＝τ·θ+(1-τ)·θ′ (12)

其中，θ′表示目标网络的参数，θ表示实际网络的参数，τ是一个小的常数。

这里设置目标策略网络和目标价值网络的为了保证训练的稳定性、更容易收敛。在训练过程中，根据所采取的动作、奖励等更新策略网络和价值网络的网络参数，并定期将策略网络的更新参数复制到目标策略网络，将价值网络的更新参数复制到目标价值网络，以更新目标策略网络和目标价值网络。

在对初始深度强化学习模型进行训练时，根据上述公式(10)，以当前时刻是时刻t为例，通过策略网络根据当前时刻的上一时刻的状态S_t-1，预测当前时刻的动作A_t。

S2022、采用预设贪婪策略将当前时刻的动作应用于仿真环境，使得仿真环境执行当前时刻的动作，以确定当前时刻的下一时刻的状态空间，以及根据奖励函数和动作空间确定当前时刻的实际奖励。

在用电量消耗预测中，深度强化学习技术需要选择适当的策略，策略的选择用于最大化代理在长期累积奖励下的性能，同时考虑问题的特殊性和约束。本申请实施例选择使用ε贪婪策略，ε贪婪策略是一种在探索和利用之间寻找平衡的策略。在该策略下，代理以ε的概率进行探索，以1-ε的概率进行利用，其中ε是一个小的正数，通常在0和1之间。

代理在时刻t时选择的动作A_t可以根据ε-贪婪策略表示，例如，采用如下公式(13)表示ε贪婪策略。

其中，ε是探索的概率，1-ε是利用的概率。

上述构建的DDPG模型，包括一个深度神经网络用于用电量消耗预测的值函数(即，价值网络)和策略函数(即，策略网络)。值函数估计状态-动作对的值(即，期望奖励)，策略函数决定在给定状态下应该采取的动作。用电量消耗预测的值函数，使用ε贪婪策略选择最有希望的操作。

根据上述图3示出的代理与仿真环境之间的交互过程，以当前时刻是时刻t为例，采用预设贪婪策略将当前时刻的动作A_t应用于仿真环境，使得仿真环境执行当前时刻的动作A_t，以确定当前时刻的下一时刻的状态S_t+1。在给定状态采取动作，在状态S_t下采取动作A_t，预测用电量，在进行预测时，动作空间用于约束预测用电量的取值范围。根据上述公式(1)构建的奖励函数对状态-动作对(S_t,A_t)进行评估，确定当前时刻的实际奖励R_t。

在一些实施例中，上述根据奖励函数和动作空间确定当前时刻的实际奖励的步骤可以通过以下方式实现。根据动作空间和当前时刻的动作，确定当前时刻的相邻时间段的预测用电量；根据预测用电量与相邻时间段的实际用电量之间的绝对误差，确定准确性奖励；根据当前时刻的动作，确定成本奖励；成本奖励与预测当前时刻的动作时所消耗资源成反比；根据准确性奖励、成本奖励、以及奖励函数，计算当前时刻的实际奖励。

如图6所示，图6是本申请实施例提供的一种奖励函数的设计示意图。实际奖励是准确性奖励和成本奖励之和。其中，准确性奖励反映用电量消耗实际值和代理预测值之间的误差；成本奖励反映代理采取动作的成本收益。代理的目标和行为是最大化实际奖励，即最大化长期累积奖励。

动作空间用于约束预测用电量的取值范围，在取值范围内，采取当前时刻的动作，预测当前时刻的相邻时间段的预测用电量。在历史用电量数据中获取当前时刻的相邻时间段的实际用电量，根据预测用电量与实际用电量之间的绝对误差，确定准确性奖励。示例性的，可以根据上述公式(2)计算当前时刻的准确性奖励。

根据当前时刻的动作，确定成本奖励。示例性的，可以根据上述公式(3)计算当前时刻的成本奖励。

将准确性奖励和成本奖励代入到奖励函数中，计算当前时刻的实际奖励。示例性的，可以根据上述公式(1)计算实际奖励。

本申请实施例中，通过考虑准确性奖励和成本奖励，计算实际奖励，实际奖励反映预测准确性和代理采取动作的成本收益，用于对策略网络和价值网络进行参数更新，提高训练精度。

S2023、通过价值网络对在当前时刻的状态空间下采取当前时刻的动作所获得的奖励进行评估，输出当前时刻的期望奖励。

在对初始深度强化学习模型进行训练时，根据上述公式(11)，以当前时刻是时刻t为例，通过价值网络对在当前时刻的状态S_t下采取当前时刻的动作A_t所获得的奖励进行评估，得到当前时刻的期望奖励Q(S_t,A_t)。

S2024、根据当前时刻的实际奖励、当前时刻的期望奖励、下一时刻的期望奖励、当前时刻的状态空间和当前时刻的动作，对价值网络和策略网络进行训练，得到深度强化学习模型。

DDPG模型的训练过程是迭代循环的过程，涉及到如何使用历史用电量消耗数据和奖励信号来改进策略网络和奖励网络的参数。在此，对DDPG模型的训练过程进行说明，以便更好的理解更新过程。首先，初始化策略网络和价值网络，以及目标策略网络和目标价值网络。目标网络是两个副本，它们的参数在训练过程中会慢慢更新以提高训练的稳定性。初始化经验回放缓冲区，用于存储代理的经验，以便随机抽样用于训练。然后，定义训练过程中需要的超参数，包括学习率、折扣因子δ、探索的概率ε、经验回放缓冲区大小、批处理大小等。这些超参数的选择需要进行调试和实验。

在初始化上述参数之后，进行训练迭代过程。在每个训练迭代中，代理与仿真环境互动并收集数据，可参见上述图3的描述，收集的数据包括当前状态S_t、采取的动作A_t、实际奖励R_t和下一个状态S_t+1。接下来时选择动作和执行动作，其中，选择动作如下：根据当前状态S_t和ε贪婪策略，代理选择动作A_t。根据ε的概率，代理会随机选择一个动作以进行探索，而以1-ε的概率，代理会选择利用已知最佳策略来采取动作。执行动作如下：代理将选择的动作A_t应用于仿真环境，并观察奖励R_t和下一个状态S_t+1。

代理将这些观察数据S_t、A_t、R_t、S_t+1存储在经验回放缓冲区中，以备后续训练使用。经验回放缓冲区有助于打破数据之间的相关性，提高训练的稳定性。

接下来进行批处理训练，从经验回放缓冲区中随机抽样一批数据，用于训练策略网络和价值网络。这一批数据包括状态S_t、动作A_t、奖励R_t和下一个状态S_t+1。

在初始化深度强化学习模型中运行这一批数据之后，对初始化深度强化学习模型进行参数更新。示例性的，计算价值网络的损失值，使用价值网络计算奖励的估计值，即，期望奖励Q(S_t,A_t)，以及目标奖励R_t+δQ(S_t+1,A_t+1)。然后，计算两者均方误差损失以更新价值网络的参数，使其逼近目标奖励。使用策略网络的梯度更新参数，以最大化价值网络的估计值Q(S_t,A_t)为目标更新策略网络，这有助于改进策略网络的策略。

进一步的，更新目标网络的参数，使用目标网络软更新的方法，将目标网络的参数慢慢调整到实际网络的参数，以提高训练的稳定性。并且，随着训练的进行，可以动态减小探索的概率ε，以更多的依赖已知最佳策略。通过动态调整探索的概率ε，提高了训练效率。

重复上述步骤，进行多次训练循环迭代，直到模型收敛或达到预定的停止条件。

综上，DDPG模型的训练过程旨在最大化长期累积奖励。代理通过不断与仿真环境互动，收集经验并使用经验回放来改进策略网络和价值网络的参数。价值网络估计行动的价值，而策略网络通过梯度上升来选择策略。通过动态调整探索的概率ε，代理在训练的不同阶段可以逐渐过渡到更依赖已知最佳策略的阶段，以提高模型训练的准确性和效率。

进一步的，使用目标网络有助于提高训练的稳定性，因为它减小了参数的变化范围。这有助于减少参数的剧烈波动，提高模型的稳定性和收敛速度。

在一些实施例中，上述S2024可以通过以下方式实现。根据当前时刻的实际奖励、当前时刻的期望奖励、下一时刻的期望奖励和预设损失函数，确定损失值；以最小化期望奖励和实际奖励之间的差值为训练目标，根据损失值对价值网络的参数进行更新，得到更新后的价值网络；以最大化期望奖励为训练目标，采用随机梯度上升方法，根据当前时刻的期望奖励、当前时刻的状态空间和当前时刻的动作，对策略网络的参数进行更新，得到更新后的策略网络；继续对更新后的策略网络和更新后的价值网络进行更新，直至达到预设训练条件，得到深度强化学习模型。

DDPG模型的训练目标是最大化长期累积奖励。训练目标是最小化价值网络的损失函数(即，预设损失函数)，该损失函数定义为实际奖励和目标奖励之间的均方误差，例如，可以采用公式(14)表示价值网络的损失函数。

L(θ)＝E[(Q(S_t,A_t)-(R_t+δ·Q(S_t+1,A_t+1))²](14)

其中，L(θ)是损失函数，R_t是时刻t的实际奖励，δ是折扣因子，用于权衡当前奖励和未来奖励之间的权重，S_t+1时刻t+1时的状态，A_t+1是时刻t+1时的动作。

以当前时刻是时刻t为例，将当前时刻的实际奖励R_t、当前时刻的期望奖励Q(S_t,A_t)、下一时刻的期望奖励Q(S_t+1,A_t+1)，代入上述公式(14)，计算价值网络的损失值。以最小化损失值为训练目标对价值网络的参数进行更新，得到更新后的价值网络。

对策略网络的训练是为了改进策略。策略网络的参数需要更新，以使价值网络估计的值更接近实际奖励。例如，可以采用梯度上升的公式(15)实现策略网络的参数更新。

其中，J(θ)是策略网络的目标，表示目标函数的梯度。

以当前时刻是时刻t为例，采用随机梯度上升方法，将当前时刻的期望奖励Q(S_t,A_t)、当前时刻的状态S_t和当前时刻的动作A_t，代入上述公式(15)，以最大化期望奖励为训练目标，对策略网络的参数进行更新，得到更新后的策略网络。

DDPG模型的训练过程是迭代循环的过程，继续对更新后的策略网络和更新后的价值网络进行更新，直至达到预设训练条件，例如，迭代次数达到预设次数，或者，损失值满足预定阈值等，得到深度强化学习模型。

在DDPG模型的训练过程中，代理通过最小化价值网络的损失值来改进动作选择策略，并通过随机梯度上升来最大化长期累积奖励。这使代理逐渐学会选择更好的动作来实现更高的奖励。随着训练的进行，代理的策略会不断改进，最终实现更准确的用电量消耗预测，以满足电力需求并最小化成本，提高了模型训练精度，从而在利用训练完成的DDPG模型预测用电量时，提高用电量预测的准确性。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

基于上述图1-图6，以及公式(1)-公式(15)，如图7所示，图7是本申请实施例提供的又一种用电量预测方法的流程图。该用电量预测方法包括以下步骤。

S301、获取历史用电量数据、温度数据和日期数据。

历史用电量数据包括历史预设时间段内各个时刻的用电量，温度数据包括历史预设时间段内各个时刻对应的温度，日期数据包括历史预设时间段内各个时刻的节假日数据，表示某时刻是节假日或工作日。

S302、定义状态空间和动作空间。

将历史预设时间段内各个时刻的用电量、温度和日期(即，是否是节假日)作为多维度数组，构建状态空间。

将历史预设时间段内多个时刻的用电量中的最大值的倍数，作为预测用电量的上限值，将0作为预测用电量的下限值，从而构建动作空间。

S303、设计奖励函数。

奖励函数综合考虑用电量消耗预测的准确性和成本收益。其中，根据预测用电量与实际用电值之间的绝对误差的负平均值，构建准确性奖励；根据预测当前时刻的动作时所消耗资源，构建成本奖励；将准确性奖励和成本奖励进行加权求和，构建奖励函数。

S304、构建DDPG模型。

DDPG模型包括两个网络：策略网络和价值网络。策略网络用于输出动作，即，根据当前时刻的上一时刻的状态空间，预测当前时刻的动作。价值网络用于评估行动的价值，即，对在当前时刻的状态空间下采取当前时刻的动作所获得的奖励进行评估，输出当前时刻的期望奖励。

S305、DDPG模型的训练和优化。

代理通过不断与仿真环境互动，收集经验并使用经验回放来改进策略网络和价值网络的参数。利用上述设计的奖励函数计算实际奖励，根据实际奖励与期望奖励，计算价值网络的损失值。通过最小化价值网络的损失值来改进动作选择策略，并通过随机梯度上升来最大化长期累积奖励。这使代理逐渐学会选择更好的动作来实现更高的奖励。随着训练的进行，代理的策略会不断改进，最终实现更准确的用电量消耗预测，且最小化成本，提高了模型训练精度。

S306、深度强化学习(Deep Reinforcement Learning，DRL)算法优化策略网络，以最大化累计奖励。

DDPG模型的训练过程旨在最大化长期累积奖励。采用DRL算法优化策略网络，通过梯度上升来最大化长期累积奖励，这使代理逐渐学会选择更好的动作来实现更高的奖励。

S307、利用训练好的策略网络，生成控制策略。

深度强化学习技术的思想是通过代理在与环境的交互中不断学习最优策略，以最大化累积奖励。训练好的策略网络是针对目标对象的动作策略优化训练得到的。利用训练好的策略网络，生成控制策略，该控制策略可以用于预测目标对象未来预设时间段的用电量。

S308、根据学习到的控制策略和当前状态空间预测未来某一天的用电量消耗。

以未来预设时间段是一天为例，根据目标对象的当前状态空间(包括当前温度数据和当前日期数据)，采用控制策略进行用电量预测，可以预测未来某一天的用电量消耗。

本示例中，通过引入深度强化学习技术，能够自动捕捉用电需求中复杂的非线性关系，根据当前状态空间预测未来某一天的用电量消耗，提高了用电量预测的准确性和实时性。本示例的深度强化学习模型能够实时适应不断变化的用电环境和需求，从而提供实时的用电量预测结果，提高了预测实时性和自适应性。而且，能够应对突发事件、季节性变化以及市场波动，增加了基于预测的用电量进行决策的实时性和可操作性。

基于上述实施例提供的用电量预测方法，图8是本申请实施例提供的一种用电量预测装置的结构示意图。该装置可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部。参见图8，该用电量预测装置80包括：获取模块801，用于获取目标对象对应的当前温度数据，以及当前日期数据；预测模块802，用于根据当前温度数据和当前日期数据，通过深度强化学习模型预测目标对象在未来预设时间段的用电量；其中，深度强化学习模型是根据状态空间和动作空间，以最大化用电量预测的准确性、且最小化预测用电量时所消耗的资源为学习目标进行训练得到，状态空间和动作空间是根据目标对象的历史用电量数据构建得到，状态空间指示时间、温度和日期构建的多维度环境，动作空间指示预测用电量的取值范围。

可选地，该用电量预测装置80还包括构建模块803和训练模块804；

构建模块803，用于根据目标对象的历史用电量数据，构建状态空间和动作空间；

训练模块804，用于根据奖励函数、状态空间和动作空间，对初始深度强化学习模型进行训练，得到深度强化学习模型；奖励函数指示最大化用电量预测的准确性、且最小化预测用电量时所消耗的资源。

可选地，初始深度强化学习模型包括策略网络和价值网络；

训练模块804，还用于通过策略网络根据当前时刻的上一时刻的状态空间，预测当前时刻的动作；采用预设贪婪策略将当前时刻的动作应用于仿真环境，使得仿真环境执行当前时刻的动作，以确定当前时刻的下一时刻的状态空间，以及根据奖励函数和动作空间确定当前时刻的实际奖励；通过价值网络对在当前时刻的状态空间下采取当前时刻的动作所获得的奖励进行评估，输出当前时刻的期望奖励；根据当前时刻的实际奖励、当前时刻的期望奖励、下一时刻的期望奖励、当前时刻的状态空间和当前时刻的动作，对价值网络和策略网络进行训练，得到深度强化学习模型。

可选地，训练模块804，还用于根据当前时刻的实际奖励、当前时刻的期望奖励、下一时刻的期望奖励和预设损失函数，确定损失值；以最小化期望奖励和实际奖励之间的差值为训练目标，根据损失值对价值网络的参数进行更新，得到更新后的价值网络；以最大化期望奖励为训练目标，采用随机梯度上升方法，根据当前时刻的期望奖励、当前时刻的状态空间和当前时刻的动作，对策略网络的参数进行更新，得到更新后的策略网络；继续对更新后的策略网络和更新后的价值网络进行更新，直至达到预设训练条件，得到深度强化学习模型。

可选地，训练模块804，还用于根据动作空间和当前时刻的动作，确定当前时刻的相邻时间段的预测用电量；根据预测用电量与相邻时间段的实际用电量之间的绝对误差，确定准确性奖励；根据当前时刻的动作，确定成本奖励；成本奖励与预测当前时刻的动作时所消耗资源成反比；根据准确性奖励、成本奖励、以及奖励函数，计算当前时刻的实际奖励。

可选地，构建模块803，还用于根据历史用电量数据中历史预设时间段内各个时刻的用电量、各个时刻对应的温度、以及各个时刻对应的日期，构建状态空间；

根据历史用电量数据中的最大用电量值，构建动作空间。

可选地，该用电量预测装置80还包括预处理模块805和归一化模块806；

预处理模块805，用于对历史用电量数据进行预处理，得到标准用电量数据；预处理包括以下至少一项：删除或替代异常用电量数据和无效用电量数据、删除重复用电量数据、替代缺失用电量数据，标准用电量数据包括历史预设时间段内多个时刻的剩余用电量；

归一化模块806，用于对多个时刻的剩余用电量进行归一化处理，得到多个时刻的用电量。

可选地，归一化模块806，还用于从多个时刻的剩余用电量中分别确定最大剩余用电量和最小剩余用电量；将第一差值与第二差值之间的比值作为目标时刻的用电量；其中，第一差值指示目标时刻的剩余用电量减去最小剩余用电量，第二差值指示最大剩余用电量减去最小剩余用电量，目标时刻为多个时刻中的任一时刻。

需要说明的是，上述实施例提供的用电量预测装置在预测用电量时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

上述实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请实施例的保护范围。

上述实施例提供的用电量预测装置与用电量预测方法实施例属于同一构思，上述实施例中单元、模块的具体工作过程及带来的技术效果，可参见方法实施例部分，此处不再赘述。

基于上述实施例提供的用电量预测方法，图9为本申请实施例提供的一种计算机设备的结构示意图，如图9所示，计算机设备90包括：处理器901、存储器902以及存储在存储器902中并可在处理器901上运行的计算机程序903，处理器901执行计算机程序903时实现上述实施例中的用电量预测方法中的步骤。

计算机设备90可以是一个通用计算机设备或一个专用计算机设备。在具体实现中，计算机设备90可以是台式机、便携式电脑、网络服务器、掌上电脑、移动手机、平板电脑、无线终端设备、通信设备或嵌入式设备，本申请实施例不限定计算机设备90的类型。本领域技术人员可以理解，图9仅仅是计算机设备90的举例，并不构成对计算机设备90的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，比如还可以包括输入输出设备、网络接入设备等。

处理器901可以是中央处理单元(Central Processing Unit，CPU)，处理器901还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者也可以是任何常规的处理器。

存储器902在一些实施例中可以是计算机设备90的内部存储单元，比如计算机设备90的硬盘或内存。存储器902在另一些实施例中也可以是计算机设备90的外部存储设备，比如计算机设备90上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。进一步地，存储器902还可以既包括计算机设备90的内部存储单元也包括外部存储设备。存储器902用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等。存储器902还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机设备，该计算机设备包括：至少一个处理器、存储器以及存储在该存储器中并可在该至少一个处理器上运行的计算机程序，该处理器执行该计算机程序时实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例中的步骤。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述方法实施例中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，该计算机程序包括计算机程序代码，该计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。该计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。本申请提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。该计算机指令可以存储在上述计算机可读存储介质中。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种用电量预测方法，其特征在于，所述方法包括：

获取目标对象对应的当前温度数据，以及当前日期数据；

根据所述当前温度数据和所述当前日期数据，通过深度强化学习模型预测所述目标对象在未来预设时间段的用电量；

其中，所述深度强化学习模型是根据状态空间和动作空间，以最大化用电量预测的准确性、且最小化预测用电量时所消耗的资源为学习目标进行训练得到，所述状态空间和所述动作空间是根据所述目标对象的历史用电量数据构建得到，所述状态空间指示时间、温度和日期构建的多维度环境，所述动作空间指示预测用电量的取值范围。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标对象的历史用电量数据，构建所述状态空间和所述动作空间；

根据奖励函数、所述状态空间和所述动作空间，对初始深度强化学习模型进行训练，得到所述深度强化学习模型；所述奖励函数指示最大化用电量预测的准确性、且最小化预测用电量时所消耗的资源。

3.如权利要求2所述的方法，其特征在于，所述初始深度强化学习模型包括策略网络和价值网络；

所述根据奖励函数、所述状态空间和所述动作空间，对初始深度强化学习模型进行训练，得到所述深度强化学习模型，包括：

通过所述策略网络根据当前时刻的上一时刻的状态空间，预测所述当前时刻的动作；

采用预设贪婪策略将所述当前时刻的动作应用于仿真环境，使得所述仿真环境执行所述当前时刻的动作，以确定所述当前时刻的下一时刻的状态空间，以及根据所述奖励函数和所述动作空间确定所述当前时刻的实际奖励；

通过所述价值网络对在所述当前时刻的状态空间下采取所述当前时刻的动作所获得的奖励进行评估，输出当前时刻的期望奖励；

根据所述当前时刻的实际奖励、所述当前时刻的期望奖励、所述下一时刻的期望奖励、所述当前时刻的状态空间和当前时刻的动作，对所述价值网络和所述策略网络进行训练，得到所述深度强化学习模型。

4.如权利要求3所述的方法，其特征在于，所述根据所述当前时刻的实际奖励、所述当前时刻的期望奖励、所述下一时刻的期望奖励、所述当前时刻的状态空间和当前时刻的动作，对所述价值网络和所述策略网络进行训练，得到所述深度强化学习模型，包括：

根据所述当前时刻的实际奖励、所述当前时刻的期望奖励、所述下一时刻的期望奖励和预设损失函数，确定损失值；

以最小化期望奖励和实际奖励之间的差值为训练目标，根据所述损失值对所述价值网络的参数进行更新，得到更新后的价值网络；

以最大化期望奖励为训练目标，采用随机梯度上升方法，根据所述当前时刻的期望奖励、所述当前时刻的状态空间和当前时刻的动作，对所述策略网络的参数进行更新，得到更新后的策略网络；

继续对所述更新后的策略网络和所述更新后的价值网络进行更新，直至达到预设训练条件，得到所述深度强化学习模型。

5.如权利要求3所述的方法，其特征在于，所述根据所述奖励函数和所述动作空间确定所述当前时刻的实际奖励，包括：

根据所述动作空间和所述当前时刻的动作，确定当前时刻的相邻时间段的预测用电量；

根据所述预测用电量与所述相邻时间段的实际用电量之间的绝对误差，确定准确性奖励；

根据所述当前时刻的动作，确定成本奖励；所述成本奖励与预测所述当前时刻的动作时所消耗资源成反比；

根据所述准确性奖励、所述成本奖励、以及所述奖励函数，计算所述当前时刻的实际奖励。

6.如权利要求2所述的方法，其特征在于，所述根据所述目标对象的历史用电量数据，构建所述状态空间和所述动作空间，包括：

根据所述历史用电量数据中历史预设时间段内各个时刻的用电量、各个时刻对应的温度、以及各个时刻对应的日期，构建所述状态空间；

根据所述历史用电量数据中的最大用电量值，构建所述动作空间。

7.如权利要求6所述的方法，其特征在于，所述根据所述历史用电量数据中历史预设时间段内各个时刻的用电量、各个时刻对应的温度、以及各个时刻对应的日期，构建所述状态空间之前，所述方法还包括：

对所述历史用电量数据进行预处理，得到标准用电量数据；所述预处理包括以下至少一项：删除或替代异常用电量数据和无效用电量数据、删除重复用电量数据、替代缺失用电量数据，所述标准用电量数据包括所述历史预设时间段内多个时刻的剩余用电量；

对所述多个时刻的剩余用电量进行归一化处理，得到多个时刻的用电量。

8.如权利要求7所述的方法，其特征在于，所述对所述多个时刻的剩余用电量进行归一化处理，得到多个时刻的用电量，包括：

从所述多个时刻的剩余用电量中分别确定最大剩余用电量和最小剩余用电量；

将第一差值与第二差值之间的比值作为目标时刻的用电量；其中，所述第一差值指示目标时刻的剩余用电量减去所述最小剩余用电量，所述第二差值指示所述最大剩余用电量减去所述最小剩余用电量，所述目标时刻为所述多个时刻中的任一时刻。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的方法。