CN115660365A

CN115660365A - 基于深度强化学习的电力资源数值管理方法和装置

Info

Publication number: CN115660365A
Application number: CN202211386081.4A
Authority: CN
Inventors: 刘玉仙; 郑楷洪; 周尚礼; 张乐平; 李胜; 曾璐琨; 龚起航
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-01-31

Abstract

本申请涉及一种基于深度强化学习的电力资源属性值确定方法和装置。通过基于用电状态、历史目标电力资源属性值、电力资源响应增益数据和更新用电状态确定样本集，利用样本集先训练第一待训练函数，利用训练到一定程度的第一待训练函数的参数更新第二权重参数，基于第二权重参数确定的第二目标函数确定另电力资源响应增益数据最大的目标电力资源属性值。相较于传统的通过规划或博弈的方式确定电力资源属性值，本方案基于用电状态、电力资源属性值和电力资源响应增益数据对多个函数进行梯度训练，基于训练好的目标函数确定使电力资源响应增益数据最大的电力资源属性值，降低了复杂度。

Description

基于深度强化学习的电力资源数值管理方法和装置

技术领域

本申请涉及电力技术领域，特别是涉及一种基于深度强化学习的电力资源属性值确定方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着风电、光伏等新能源的大规模接入以及终端电气化水平的提高，电网季节性尖峰负荷矛盾日益突出，调峰压力逐渐增大，亟需调用需求侧资源参与电网调峰，以有效保障电力系统的经济可靠运行。需求响应是利用电力资源属性值等变化促进用户主动改变用电行为，达到降低尖峰时段电力负荷的目的。需求响应的方式是一种自觉、自愿的活动，其发挥作用的关键依赖于电力用户的参与程度。激励型需求响应方法通过对电力资源属性值进行调整来鼓励用户削减用电量，可以更容易地降低电力负荷。因此，国内外学者对激励型需求响应进行了广泛的研究。

目前对电力资源属性值进行调整来实现激励的方式通常是通过规划或博弈等方式，然而，通过规划或博弈的方式确定电力资源属性值，需要已知电力用户可调负荷设备等全部或大部分环境信息，导致算法复杂。

因此，目前的电力资源属性值确定方法存在复杂度高的缺陷。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低复杂度的基于深度强化学习的电力资源属性值确定方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种基于深度强化学习的电力资源属性值确定方法，其特征在于，所述方法包括：

获取供电对象分配的历史电力资源属性值，根据所述历史电力资源属性值获取用电对象对应的历史可调整电量；

根据所述历史可调整电量和所述历史电力资源属性值确定所述用电对象的用电状态，获取所述用电状态对应的历史目标电力资源属性值；所述历史目标电力资源属性值表征当前第一待训练函数的最大值对应的电力资源属性值；所述第一待训练函数基于用电状态、电力资源属性值和第一权重参数得到；

根据所述历史目标电力资源属性值、所述用电状态和所述供电对象对应的电力资源分配增益数据，确定电力资源响应增益数据；根据所述历史目标电力资源属性值更新所述用电状态，得到更新后的用电状态；根据所述用电状态、所述历史目标电力资源属性值、所述电力资源响应增益数据和所述更新后的用电状态生成样本集；

根据多个所述样本集更新所述第一待训练函数的第一权重参数，并根据所述第一权重参数更新第二待训练函数的第二权重参数，根据更新后的第二权重参数得到第二目标函数，根据所述第二目标函数，确定所述用电对象在各个用电状态下的目标电力资源属性值；所述第二待训练函数基于用电状态、电力资源属性值和第二权重参数得到；所述目标电力资源属性值使各个用电状态下的电力资源响应增益数据最大。

在其中一个实施例中，所述根据所述历史电力资源属性值获取用电对象对应的历史可调整电量，包括：

获取所述用电对象的历史基线负荷和所述用电对象的历史基本负荷的差值；

根据所述历史电力资源属性值、所述差值和所述用电对象的负荷响应系数，确定所述用电对象的历史可调整电量；所述负荷响应系数基于所述历史基线负荷、所述历史基本负荷和所述历史电力资源属性值的用电时间确定。

在其中一个实施例中，所述根据所述历史可调整电量和所述历史电力资源属性值确定所述用电对象的用电状态，包括：

获取多个时间段的历史可调整电量和多个时间段的历史电力资源属性值；

针对每个时间段，根据所述用电对象在该时间段的历史可调整电量、该时间段的负荷响应系数以及上一时间段的历史电力资源属性值，确定所述用电对象的用电状态。

在其中一个实施例中，所述第一待训练函数为第一待训练Q函数；

所述获取所述用电状态对应的历史目标电力资源属性值，包括：

根据所述用电状态、电力资源属性值和第一权重参数，生成第一待训练Q函数；

针对每个时间段，根据贪婪算法，从当前时间段和历史时间段对应的多个历史电力资源属性值中确定历史目标电力资源属性值；所述历史目标电力资源属性值使在当前时间段和历史时间段对应的多个历史电力资源属性情况下，所述第一待训练Q函数的函数值最大。

在其中一个实施例中，所述根据所述历史目标电力资源属性值、所述用电状态和所述供电对象对应的电力资源分配增益数据，确定电力资源响应增益数据，包括：

根据所述历史电力资源属性值和所述历史可调整电量生成所述用电对象对应的用电量调整模型；

根据所述历史可调整电量、所述历史电力资源属性值和所述供电对象对应的电力资源分配增益数据，生成电力资源属性值增益模型；

根据所述用电量调整模型和所述电力资源属性值增益模型的加权和，确定电力资源响应增益数据。

在其中一个实施例中，所述根据多个所述样本集更新所述第一待训练函数的第一权重参数，并根据所述第一权重参数更新第二待训练函数的第二权重参数，根据更新后的第二权重参数得到第二目标函数，包括：

根据所述用电状态、电力资源属性值和第二权重参数，生成第二待训练函数；

将所述样本集输入所述第二待训练函数，根据当前已输入样本集中的最大电力资源响应增益数据与所述第二待训练函数的当前最大函数值的和，更新所述第二待训练函数的期望增益值；

根据所述期望增益值和所述第一待训练函数生成代价函数，基于所述代价函数和梯度下降算法迭代更新所述第一权重参数；

若所述第一权重参数的迭代次数达到预设阈值，更新所述第二权重参数为当前第一权重参数；

若所述样本集不为最后一个样本集，从多个样本集中获取未输入的样本集，将所述未输入的样本集输入所述第二待训练函数，返回根据当前已输入样本集中的最大电力资源响应增益数据与所述第二待训练函数的当前最大函数值的和，更新所述第二待训练函数的期望增益值的步骤；

若所述样本集为最后一个样本集，结束循环，根据当前更新后的第二权重参数得到第二目标函数。

第二方面，本申请提供了一种基于深度强化学习的电力资源属性值确定装置，其特征在于，所述装置包括：

第一获取模块，用于获取供电对象分配的历史电力资源属性值，根据所述历史电力资源属性值获取用电对象对应的历史可调整电量；

第二获取模块，用于根据所述历史可调整电量和所述历史电力资源属性值确定所述用电对象的用电状态，获取所述用电状态对应的历史目标电力资源属性值；所述历史目标电力资源属性值表征当前第一待训练函数的最大值对应的电力资源属性值；所述第一待训练函数基于用电状态、电力资源属性值和第一权重参数得到；

生成模块，用于根据所述历史目标电力资源属性值、所述用电状态和所述供电对象对应的电力资源分配增益数据，确定电力资源响应增益数据；根据所述历史目标电力资源属性值更新所述用电状态，得到更新后的用电状态；根据所述用电状态、所述历史目标电力资源属性值、所述电力资源响应增益数据和所述更新后的用电状态生成样本集；

确定模块，用于根据多个所述样本集更新所述第一待训练函数的第一权重参数，并根据所述第一权重参数更新第二待训练函数的第二权重参数，根据更新后的第二权重参数得到第二目标函数，根据所述第二目标函数，确定所述用电对象在各个用电状态下的目标电力资源属性值；所述第二待训练函数基于用电状态、电力资源属性值和第二权重参数得到；所述目标电力资源属性值使各个用电状态下的电力资源响应增益数据最大。

第三方面，本申请提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述的方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的方法的步骤。

第五方面，本申请提供了一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现上述的方法的步骤。

上述基于深度强化学习的电力资源属性值确定方法、装置、计算机设备、存储介质和计算机程序产品，通过基于历史可调整电量和历史电力资源属性值确定用电对象的用电状态及其对应的历史目标电力资源属性值。根据历史目标电力资源属性值、用电状态和电力资源分配增益数据，确定电力资源响应增益数据，基于用电状态、历史目标电力资源属性值、电力资源响应增益数据和更新用电状态确定样本集，利用样本集先训练第一待训练函数，利用训练到一定程度的第一待训练函数的参数更新第二权重参数，基于第二权重参数确定的第二目标函数确定另电力资源响应增益数据最大的目标电力资源属性值。相较于传统的通过规划或博弈的方式确定电力资源属性值，本方案基于用电状态、电力资源属性值和电力资源响应增益数据对多个函数进行梯度训练，基于训练好的目标函数确定使电力资源响应增益数据最大的电力资源属性值，降低了复杂度。

附图说明

图1为一个实施例中基于深度强化学习的电力资源属性值确定方法的应用环境图；

图2为一个实施例中基于深度强化学习的电力资源属性值确定方法的流程示意图；

图3为一个实施例中基于深度强化学习的电力资源属性值确定装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的基于深度强化学习的电力资源属性值确定方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102可以从服务器104的数据库中获取供电对象分配的针对电力资源的历史电力资源属性值，并基于历史电力资源属性值确定历史可调整电量，并确定用电状态和历史目标电力资源属性值，基于历史目标电力资源属性值、用电状态、供电对象对应的电力资源分配增益数据，确定电力资源响应增益数据，并更新用电状态。根据用电状态、历史目标电力资源属性值、电力资源响应增益数据和更新后的用电状态生成样本集，根据多个样本集先训练第一待训练函数的第一权重参数后，利用训练好的第一权重参数更新第二待训练函数的权重参数，进而得到第二目标函数，利用第二目标函数确定用电对象在各个用电状态下的目标电力资源属性值。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、平板电脑。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于深度强化学习的电力资源属性值确定方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤S202，获取供电对象分配的历史电力资源属性值，根据历史电力资源属性值获取用电对象对应的历史可调整电量。

其中，供电对象可以是生产电力资源的一方，例如售电公司；用电对象可以是使用电力的一方，例如用户。供电对象可以为用电对象提供电力，用电对象需要向供电对象转移相应的电力资源使用代价数据，其中电力资源使用代价数据可以是电费。例如，用户需要向售电公司给予一定的电费。由于用户用电会存在用电峰谷期，为使用户在用电高峰期主动减少用电，以减少供电对象的供电压力，供电对象会为用电对象分配一定的电力资源属性值，即补贴价格。例如售电公司会为用户提供一定的电费补贴价格，用户针对售电公司发布的补贴价格综合考虑收益与成本后做出消减负荷的响应行为，从而实现用户用电量的降低。其中，每个用电对象均有对应的基线负荷和基本负荷。其中基线负荷指未实施需求响应和有序用电时响应资源的用电负荷，基本负荷表示用电对象维持运作需要的最低的电量。基线负荷可以大于基本负荷，则基线负荷和基本负荷之间多出的用电量可以是用电对象的可调整电量。

其中，终端可以按照日期类型和多个时间段来记录用电对象的用电情况。这些用电情况可以存储在数据库中，终端可以根据上述历史电力资源属性值，从数据库中获取用电对象对应的历史可调整电量。例如，终端根据上述售电公司对用户在某个日期、某个时间段的补贴价格，从数据库中查找对应日期和时间段用户响应该补贴而调整的电量，作为可调整电量。具体地，终端可以基于上述基线负荷、基本负荷和历史电力资源属性值确定可调整电量。

步骤S204，根据历史可调整电量和历史电力资源属性值确定用电对象的用电状态，获取用电状态对应的历史目标电力资源属性值；历史目标电力资源属性值表征当前第一待训练函数的最大值对应的电力资源属性值；第一待训练函数基于用电状态、电力资源属性值和第一权重参数得到。

其中，用电状态可以是用电用户在一种电力资源属性值的条件下调整的用电量。从而终端可以根据上述历史可调整电量和历史电力资源属性值确定用电对象的用电状态。其中，终端可以记录多个日期和时间段用户的可调整电量、电力资源属性值等数据，则终端可以得到用户在多个日期和时间段的用电状态。并且，终端还可以预先构建第一待训练函数。具体地，终端可以基于上述用电状态、电力资源属性值和第一权重构建第一待训练函数。其中，用电状态和电力资源属性值可以是函数的自变量。终端确定第一待训练函数后，获取上述用电状态对应的历史目标电力资源属性值。其中，历史目标电力属性值表征当前第一待训练函数的最大值对应的电力资源属性值。例如，终端将上述用电状态输入第一待训练函数中，并从当前输入上述用电状态后的第一待训练函数中确定出目标电力资源属性值。

步骤S206，根据历史目标电力资源属性值、用电状态和供电对象对应的电力资源分配增益数据，确定电力资源响应增益数据；根据历史目标电力资源属性值更新用电状态，得到更新后的用电状态；根据用电状态、历史目标电力资源属性值、电力资源响应增益数据和更新后的用电状态生成样本集。

其中，电力资源分配增益数据可以是供电对象因提供电力而获得的数据。例如售电公司因提供电力而获得的收入。终端可以基于上述历史目标电力资源属性值、用电状态和供电对象的电力资源分配增益数据，确定电力资源响应增益数据。其中，电力资源响应增益数据可以是用户基于上述电力资源属性值对用电量进行调整后，供电对象因此获得的收益结合用户获得的补贴和可调整电量得到的收益。例如，售电公司的收入随补贴的数值大小变化而发生的变化，变化后的收入结合用户的补贴和可调整电量可以得到上述电力资源响应增益数据。其中，上述电力资源响应增益数据可以包括多个日期和时间段的数据。

其中，上述电力资源属性值的变化和用户用电量的调整行为可以是互相影响的过程，终端确定上述历史目标电力资源属性值后，用户可以基于该历史目标电力属性值进行对应的用电量的调整，进而终端可以得到上述用电对象的更新后的用电状态。终端可以根据上述用电状态、历史目标电力资源属性值、电力资源响应增益数据和上述更新后的用电状态生成样本集。终端可以根据多个日期和时间段的上述用电状态、历史目标电力资源属性值、电力资源响应增益数据和上述更新后的用电状态，生成多个样本集，并且终端可以利用多个样本集对多个待训练函数进行梯度训练。

步骤S208，根据多个样本集更新第一待训练函数的第一权重参数，并根据第一权重参数更新第二待训练函数的第二权重参数，根据更新后的第二权重参数得到第二目标函数，根据第二目标函数，确定用电对象在各个用电状态下的目标电力资源属性值；第二待训练函数基于用电状态、电力资源属性值和第二权重参数得到；目标电力资源属性值使各个用电状态下的电力资源响应增益数据最大。

其中，第一待训练函数可以是用于进行先导训练的函数，第二待训练函数可以是在第一待训练函数达到一定的训练次数后，利用当前训练程度的第一待训练函数的权重参数和当前已输入的样本集进行训练的函数。第二待训练函数可以根据上述用电状态、电力资源属性值和第二权重参数得到。其中，用电状态和电力资源属性值可以是第二待训练函数的自变量。终端可以首先利用多个样本集更新第一待训练函数的第一权重参数，并根据第一权重参数更新第二待训练函数的第二权重参数，从而终端可以根据更新后的第二权重参数得到第二目标函数。终端得到上述第二目标函数后，可以在第二目标函数中确定用电对象在各个用电状态下的目标电力资源属性值。其中，目标电力资源属性值表示令用户在各个用电状态下电力资源响应增益数据最大的电力资源属性值。例如终端可以确定用户在各个日期和各个时间段中的目标电力资源属性值，从而终端可以确定在各个日期和各个时间段的最优的电力资源属性值，使得用电对象和供电对象的收益最大。

上述基于深度强化学习的电力资源属性值确定方法中，通过基于历史可调整电量和历史电力资源属性值确定用电对象的用电状态及其对应的历史目标电力资源属性值。根据历史目标电力资源属性值、用电状态和电力资源分配增益数据，确定电力资源响应增益数据，基于用电状态、历史目标电力资源属性值、电力资源响应增益数据和更新用电状态确定样本集，利用样本集先训练第一待训练函数，利用训练到一定程度的第一待训练函数的参数更新第二权重参数，基于第二权重参数确定的第二目标函数确定另电力资源响应增益数据最大的目标电力资源属性值。相较于传统的通过规划或博弈的方式确定电力资源属性值，本方案基于用电状态、电力资源属性值和电力资源响应增益数据对多个函数进行梯度训练，基于训练好的目标函数确定使电力资源响应增益数据最大的电力资源属性值，降低了复杂度。

在一个实施例中，根据历史电力资源属性值获取用电对象对应的历史可调整电量，包括：获取用电对象的历史基线负荷和用电对象的历史基本负荷的差值；根据历史电力资源属性值、差值和用电对象的负荷响应系数，确定用电对象的历史可调整电量；负荷响应系数基于历史基线负荷、历史基本负荷和历史电力资源属性值的用电时间确定。

本实施例中，终端可以构建用户的响应模型，从而确定用户的可调整电量。终端可以获取上述用电对象的历史基线负荷和用电对象的历史基本负荷的差值，并根据上述差值、上述历史电力资源属性值、上述用电对象的负荷响应系数，确定用电对象的历史可调整电量。其中，上述负荷响应系数可以基于历史基线负荷、历史基本负荷和历史电力资源属性值的用电时间确定。具体地，上述负荷响应系数可以是用电对象对于各个用电时间的电力资源属性值的响应积极度，即负荷响应系数越大，说明用户响应电力资源属性值进行用电量调整的积极度越高。

其中，上述可调整电量可以是一种用户响应模型。终端可以基于负荷响应量随电力资源属性值的数值变化呈前期变化快后期趋于稳定的趋势，建立用户响应模型。模型的结构可以如下所示：

其中，ΔP_i,d,t为用户i在日期d时段t的负荷消减量；

和

分别为用户i在日期d时段t的基线负荷和基本负荷。φ_i,d,t表示用户在不同日期、时间段对补贴电价的负荷响应系数；w_d,t为售电公司在日期d时段t发布的需求响应补贴价格，即上述电力资源属性值；i∈N，N表示用户集合；d∈D表示日期类型，共分5类，D＝{工作日，周六，周天，法定节假日,调休节假日}；t∈T表示一天中的时段，T＝{0,1,…,23}。基于上述用户响应模型，终端可以确定用户可以获取的电力资源属性值的变化函数。若令用户获取到的电力资源属性值最大，终端可以建模为以下优化问题：max∑_d∈D∑_t∈TΔP_i,d,tw_d,t。

通过本实施例，终端可以基于用电对象的历史基线负荷、历史基本负荷、电力资源属性值和负荷响应系数进行建模，确定用户的可调整电量，从而基于可调整电量确定最优的电力资源属性值，降低了确定电力资源属性值的复杂度。

在一个实施例中，根据历史可调整电量和历史电力资源属性值确定用电对象的用电状态，包括：获取多个时间段的历史可调整电量和多个时间段的历史电力资源属性值；针对每个时间段，根据用电对象在该时间段的历史可调整电量、该时间段的负荷响应系数以及上一时间段的历史电力资源属性值，确定用电对象的用电状态。

本实施例中，终端对最优的电力资源属性值的确定方式可以是基于DQN算法进行求解实现。终端可以首先为需求响应激励决策优化问题建模，例如以售电公司，即上述供电对象为智能体进行学习，具体可以是一种马尔科夫决策过程。包括状态s、动作a和奖励r共三个基本元素。则终端可以首先确定用电对象的用电状态，其中，用电状态包括用电对象在多个日期和时间段的用电状态。终端可以获取多个时间段的历史可调整电量以及获取多个时间段的历史电力资源属性值。对于每个时间段，终端可以基于上述用电对象在该时间段的历史可调整电量、该时间段的负荷响应系数以及上一时间段的历史电力资源属性值，确定用电对象在该时间段的用电状态。终端可以对每个日期及每个时间段均确定出对应的用电状态，从而终端可以得到多个用电状态。具体地，终端可以定义每个日期和时间段的用电状态为如下公式：

其中，w_d,t-1表示日期d，时间段t-1时的电力资源属性值，即每个用电状态表示用电对象基于上一个时间段的电力资源属性值调整的用电量。

通过本实施例，终端可以基于历史可调整电量和历史电力资源属性值确定用电对象的用电状态，从而终端可以基于用电状态进行强化学习，确定最优的电力资源属性值，降低了确定电力资源属性值的复杂度。

在一个实施例中，获取用电状态对应的历史目标电力资源属性值，包括：根据用电状态、电力资源属性值和第一权重参数，生成第一待训练Q函数；针对每个时间段，根据贪婪算法，从当前时间段和历史时间段对应的多个历史电力资源属性值中确定历史目标电力资源属性值；历史目标电力资源属性值使在当前时间段和历史时间段对应的多个历史电力资源属性情况下，第一待训练Q函数的函数值最大。

本实施例中，上述对函数训练的过程可以是基于DQN算法进行，则第一待训练函数可以是第一待训练Q函数。Q函数是一种状态-动作价值函数，定义是处于状态且立即采取动作，并且后续均按照最优策略操作能获得的总效用。终端确定各个日期和时间段用电对象的用电状态后，可以进一步确定各个用电状态的历史目标电力资源属性值。例如，终端可以根据上述用电状态、电力资源属性和第一权重参数生成第一待训练Q函数。其中用电状态和电力资源属性为Q函数的自变量。由于包含多个日期和时间段，对于每个时间段，终端可以根据贪婪算法从当前时间段和历史时间段对应的多个历史电力资源属性值中确定历史目标电力资源属性值。其中历史目标电力资源的属性值表示在当前时间段和历史时间段对应的多个历史电力资源属性的情况下，令第一待训练Q函数的函数值最大的电力资源属性值。即终端可以依次按照时间段的大小，对每个时间段中基于当前时间段的历史电力资源属性值和历史时间段的历史电力资源属性值为数据范围，进行历史目标电力资源属性值的确定。

具体地，终端可以定义第一待训练Q函数为：Q(s_d,t,a_d,t,θ)，该Q函数可以表示d日期t+1时段下的动作值函数，其中θ是网络Q的权重参数。终端可以基于DQN算法求解最优的电力资源属性值，该算法可以通过经验回放和目标网络技术提升算法的收敛性和稳定性。终端可以首先随机初始化网络Q的权重参数θ，即随机上述第一待训练函数的第一权重参数，终端还可以初始化目标网络Q^～的权重θ^～，即终端还可以预先定义第二待训练函数，并初始化第二权重参数。其中，第二待训练函数的结构可以与第一待训练函数一致，即均是Q函数。终端可以首先令第二权重参数θ^～＝θ，并观察用电对象在日期d＝1，时间段t＝1的状态s_d,t，终端可以通过贪婪算法，基于上述确定的状态s_d,t和第一待训练函数，确定出一个当前已有的状态下对应的历史目标电力资源属性值，具体公式可以如下所示：a_d,t＝argmax_aQ(s_d,t,a,θ)，其中，a_d,t表示终端基于目前已有的用电状态确定出的目标电力资源是属性值，即上述补贴价格。终端可以按照时间顺序依次确定多个历史目标电力资源属性值。

通过本实施例，终端可以基于各个时间段的用电状态，确定出各个时间段的历史的最优目标电力资源属性值，从而终端可以基于上述各个时间段的用电状态和电力资源属性值训练待训练函数，基于待训练函数确定各个时间段的目标电力资源属性值，降低了最优电力资源属性值的确定复杂度。

在一个实施例中，根据历史目标电力资源属性值、用电状态和供电对象对应的电力资源分配增益数据，确定电力资源响应增益数据，包括：根据历史电力资源属性值和历史可调整电量生成用电对象对应的用电量调整模型；根据历史可调整电量、历史电力资源属性值和供电对象对应的电力资源分配增益数据，生成电力资源属性值增益模型；根据用电量调整模型和电力资源属性值增益模型的加权和，确定电力资源响应增益数据。

本实施例中，终端可以基于用电对象的收益和供电对象的收益共同确定电力资源响应增益数据。其中电力资源响应增益数据表示在当前时间对应的电力资源属性值，用电对象可以得到的收益以及供电对象可以得到的收益的结合数值。例如，终端可以根据历史电力资源属性值和历史可调整电量生成用电对象对应的用电量调整模型。其中历史电力资源属性值和历史可调整电量可以包括多个，并根据时间进行对应；终端还可以根据历史可调整电量、历史电力资源属性值和供电对象对应的电力资源分配增益数据，生成电力资源属性值增益模型。其中，电力资源分配增益数据可以是供电对象因为提供电力资源而得到的增益数据，例如可以是售电公司的纯利润。终端确定用电量调整模型和电力资源属性值增益模型后，可以根据用电量调整模型和电力资源属性值增益模型的加权和，确定电力资源响应增益数据。

具体地，上述用电量模型可以基于上述的用户响应模型max∑_d∈D∑_t∈TΔP_i,d,tw_d,t确定，例如可以为ΔP_i,d,tw_d,t。终端可以为售电公司得到最优补贴价格，使自身收益最大，建模为以下优化问题：max∑_i∈N∑_d∈D∑_t∈T(c_d,t-w_d,t)ΔP_i,d,t。其中，c_d,t表示售电公司在日期d时段t的批发电价与零售电价的差额。则(c_d,t-w_d,t)表示上述电力资源分配增益数据。为综合考虑用电对象和供电对象的收益，终端可以建立以下目标函数模型：max∑_i∈N∑_d∈D∑_t∈T{ρ[(c_d,t-w_d,t)ΔP_i,d,t]+(1-ρ)(ΔP_i,d,tw_d,t)。其中，ρ∈[0,1]表示售电公司收益和电力用户收益的权重关系。则终端可以基于上述目标函数模型，确定电力资源属性值增益模型r_d,t，其结构如下所示：r_d,t＝∑_i∈N{ρ[(c_d,t-w_d,t)ΔP_i,d,t]+(1-ρ)(ΔP_i,d,tw_d,t)。则终端可以根据上述r_d,t确定每个日期和时间段中的电力资源响应增益数据，作为整个系统的奖励。

通过本实施例，终端可以结合用电对象的收益和供电对象的收益确定整体的电力资源响应增益数据，从而终端可以基于电力资源响应增益数据进行最优的电力资源属性值的确定，降低了确定复杂度。

在一个实施例中，根据多个样本集更新第一待训练函数的第一权重参数，并根据第一权重参数更新第二待训练函数的第二权重参数，根据更新后的第二权重参数得到第二目标函数，包括：根据用电状态、电力资源属性值和第二权重参数，生成第二待训练函数；将样本集输入第二待训练函数，根据当前已输入样本集中的最大电力资源响应增益数据与第二待训练函数的当前最大函数值的和，更新第二待训练函数的期望增益值；根据期望增益值和第一待训练函数生成代价函数，基于代价函数和梯度下降算法迭代更新第一权重参数；若第一权重参数的迭代次数达到预设阈值，更新第二权重参数为当前第一权重参数；若样本集不为最后一个样本集，从多个样本集中获取未输入的样本集，将未输入的样本集输入第二待训练函数，返回根据当前已输入样本集中的最大电力资源响应增益数据与第二待训练函数的当前最大函数值的和，更新第二待训练函数的期望增益值的步骤；若样本集为最后一个样本集，结束循环，根据当前更新后的第二权重参数得到第二目标函数。

本实施例中，终端可以利用多个样本集训练第一待训练函数和第二待训练函数。该训练过程可以是一种DQN算法的训练过程。终端可以通过先训练第一待训练函数，再基于第一待训练函数的训练结果训练第二待训练函数的方式进行训练。终端可以首先基于上述用电状态、电力资源属性值和第二权重参数生成第二待训练函数。其中，第二待训练函数可以是一种Q函数。由于上述样本集有多个，终端可以从多个样本集中随机选取一个样本集，将选出的样本集输入第二待训练函数，并根据当前已输入样本集中的最大电力资源响应增益数据与第二待训练函数的当前最大函数值的和，更新第二待训练函数的期望增益值。其中，第二待训练函数的当前最大函数值表示在当前已输入样本集的范围内，上述电力资源响应增益数据距离期望的最大值相差的数值。终端可以根据期望增益值和第一待训练函数生成代价函数，并基于代价函数和梯度下降算法迭代更新第一权重参数；终端可以基于多个样本集迭代更新第一权重参数，若终端检测到第一权重参数的迭代次数达到预设阈值，则终端可以更新第二权重参数为当前迭代得到的第一权重参数；若终端检测到样本集不为最后一个样本集，终端可以从多个样本集中获取未输入待训练函数的样本集，并将未输入的样本集输入第二待训练函数，返回根据当前已输入样本集中的最大电力资源响应增益数据与第二待训练函数的当前最大函数值的和，更新第二待训练函数的期望增益值的步骤，即开始下一次的训练；若终端检测到样本集为最后一个样本集，说明训练完成，则终端可以结束循环，并根据当前更新后的第二权重参数得到第二目标函数。

具体地，上述样本集中，终端确定出一个时间段的历史目标电力资源属性值后，用户会基于该属性值确定下一个时间段的用电状态，即s_d,t+1，从而终端可以进一步根据状态信息决策并执行d日期t+1时段的动作a_d,t+1。上述模型的最终目标是寻求供电对象和所有用电对象长期累积收益的最大化。训练过程中，终端确定第二待训练网络θ^～，并令初始的θ^～＝θ，终端可以在确定每个样本集(s_d,t,a_d,t,r_d,t,s_d,t+1)后，存储样本集到记忆回放内存中，当样本存储量达到预设标准时，终端可以从记忆回放内存随机抽取小批量样本用以训练。例如，终端可以根据y_j←r_j+γmax_a'∈AQ^～(s_j+1,a',θ^～)，更新目标Q值y_j，其中，r_j表示当前已有状态下实际最大的电力资源响应增益数据，y_j表示当前已有状态下期望最大的电力资源响应增益数据，则γmax_a'∈AQ^～(s_j+1,a',θ^～)表示上述期望增益值。终端确定y_j后，可以以y_j←Q(s_j,a_j,θ)为代价函数，使用梯度下降法对权重θ进行更新，并且每隔C次迭代更新一次权重θ^～，即令θ^～＝θ。终端确定样本集是否全部被输入的方式可以是基于时间的检测方式。例如，终端在更新权重后，可以判断是否达到最大时间段，是则进而判断日期是否最大，否则t＝t+1,返回观察用户在对应日期和时间段的用电状态的步骤，并进行下一次的训练过程；当时间段最大后，终端还可以判断是否达到最大日期，是则确定训练完成，否则d＝d+1,返回观察用户在对应日期和时间段的用电状态的步骤，并进行下一次的训练过程。终端训练完成得到第二目标函数后，可以通过第二目标函数输出不同日期类型的各个时间段的最优电力资源属性值。

通过本实施例，终端可以通过DQN算法对第一待训练函数和第二待训练函数进行强化学习，并基于训练完成的第二目标函数输出最优的电力资源属性值，降低了确定复杂度。

在一个实施例中，提供另一个实施例中基于深度强化学习的电力资源属性值确定方法。包括以下步骤：终端首先构建激励型需求响应模型。以用电对象是用户，供电对象是售电公司为例，用户针对售电公司发布的补贴价格综合考虑收益与成本后做出消减负荷的响应行为，基于负荷响应量随补贴价格的变化呈前期变化快后期趋于稳定的趋势，建立用户响应模型

根据用户响应模型确定用户的收益，可建模为如下的优化问题：max∑_d∈D∑_t∈TΔP_i,d,tw_d,t。

售电公司通过设定最优补贴价格，达到自身收益最大化的目的，可建模为如下的优化问题：max∑_i∈N∑_d∈D∑_t∈T(c_d,t-w_d,t)ΔP_i,d,t。则终端综合考虑售电公司和电力用户的收益，建立目标函数模型为：max∑_i∈N∑_d∈D∑_t∈T{ρ[(c_d,t-w_d,t)ΔP_i,d,t]+(1-ρ)(ΔP_i,d,tw_d,t)。

其次，终端可以基于DQN进行需求响应激励优化决策。终端可以首先建立需求响应最优激励决策模型，包括状态s、动作a和奖励r共3个基本元素，其特性为在当前状态

下智能体基于所有用户的状态信息做出动作决策a_d,t＝w_d,t，即售电公司在d日期t时段发布需求响应补贴价格w_d,t，用户根据收到的补贴价格信息自主决定响应量，整个系统即售电公司和所有用户获取的奖励为r_d,t＝∑_i∈N{ρ[(c_d,t-w_d,t)ΔP_i,d,t]+(1-ρ)(ΔP_i,d,tw_d,t)。之后，系统进入下一状态s_d,t+1，根据状态信息决策并执行d日期t+1时段的动作a_d,t+1。该模型的最终目标是寻求售电公司和所有用户长期累积奖励的最大化。

终端可以基于DQN进行最优电力资源属性值的求解算法。首先，终端可以定义通过状态-动作对的Q值函数Q(s_d,t,a_d,t,θ)为d日期t+1时段下的动作值函数，其中θ是网络Q的权重参数。然后，终端基于DQN算法求解最优补贴价格，该算法使用经验回放和目标网络技术提升算法的收敛性和稳定性。具体步骤包括：

S1、随机初始化网络Q的权重参数θ；

S2、初始化目标网络Q^～的权重θ^～，令θ^～＝θ；

S3、观察用户在日期d＝1时间段t＝1的状态s_d,t；

S4、用贪婪策略选择a_d,t＝argmax_aQ(s_d,t,a,θ)，即发布零售补贴价格w_d,t；

S5、计算整个系统奖励r_d,t；

S6、根据用户响应模型观察新状态s_d,t+1；

S7、存储四元组(s_(d,t),a_(d,t),r_(d,t),s_(d,t+1))样本到记忆回放内存；

S8、当样本存储量达到预设标准是，从记忆回放内存随机抽取小批量样本用以训练；

S9、根据y_j←r_j+γmax_a'∈AQ^～(s_j+1,a',θ^～)更新目标Q值y_j

S10、以y_j←Q(s_j,a_j,θ)为代价函数，使用梯度下降法对权重θ进行更新；

S11、每C个迭代更新一次权重θ^～，令θ^～＝θ；

S12、判断是否达到最大时间段，是则转到下一步骤，否则t＝t+1,返回步骤S3；

S13、判断是否达到最大日期，是则转到下一步骤，否则d＝d+1,返回步骤S3；

S14、输出不同日期类型各个时间段的最优补贴价格，即上述目标电力资源属性值。

通过上述实施例，终端基于用电状态、电力资源属性值和电力资源响应增益数据对多个函数进行梯度训练，基于训练好的目标函数确定使电力资源响应增益数据最大的电力资源属性值，并且基于深度强化学习DQN的需求响应最优补贴价格求解算法，属于基于无模型的学习方法，其移植性、扩展性和灵活性较高，降低了复杂度。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于深度强化学习的电力资源属性值确定方法的基于深度强化学习的电力资源属性值确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于深度强化学习的电力资源属性值确定装置实施例中的具体限定可以参见上文中对于基于深度强化学习的电力资源属性值确定方法的限定，在此不再赘述。

在一个实施例中，如图3所示，提供了一种基于深度强化学习的电力资源属性值确定装置，包括：第一获取模块500、第二获取模块502、生成模块504和确定模块506，其中：

第一获取模块500，用于获取供电对象分配的历史电力资源属性值，根据历史电力资源属性值获取用电对象对应的历史可调整电量。

第二获取模块502，用于根据历史可调整电量和历史电力资源属性值确定用电对象的用电状态，获取用电状态对应的历史目标电力资源属性值；历史目标电力资源属性值表征当前第一待训练函数的最大值对应的电力资源属性值；第一待训练函数基于用电状态、电力资源属性值和第一权重参数得到。

生成模块504，用于根据历史目标电力资源属性值、用电状态和供电对象对应的电力资源分配增益数据，确定电力资源响应增益数据；根据历史目标电力资源属性值更新用电状态，得到更新后的用电状态；根据用电状态、历史目标电力资源属性值、电力资源响应增益数据和更新后的用电状态生成样本集。

确定模块506，用于根据多个样本集更新第一待训练函数的第一权重参数，并根据第一权重参数更新第二待训练函数的第二权重参数，根据更新后的第二权重参数得到第二目标函数，根据第二目标函数，确定用电对象在各个用电状态下的目标电力资源属性值；第二待训练函数基于用电状态、电力资源属性值和第二权重参数得到；目标电力资源属性值使各个用电状态下的电力资源响应增益数据最大。

在一个实施例中，第一获取模块500，具体用于根据历史电力资源属性值获取用电对象对应的历史可调整电量，包括：获取用电对象的历史基线负荷和用电对象的历史基本负荷的差值；根据历史电力资源属性值、差值和用电对象的负荷响应系数，确定用电对象的历史可调整电量；负荷响应系数基于历史基线负荷、历史基本负荷和历史电力资源属性值的用电时间确定。

在一个实施例中，第二获取模块502，具体用于获取多个时间段的历史可调整电量和多个时间段的历史电力资源属性值；针对每个时间段，根据用电对象在该时间段的历史可调整电量、该时间段的负荷响应系数以及上一时间段的历史电力资源属性值，确定用电对象的用电状态。

在一个实施例中，第二获取模块502，具体用于根据用电状态、电力资源属性值和第一权重参数，生成第一待训练Q函数；针对每个时间段，根据贪婪算法，从当前时间段和历史时间段对应的多个历史电力资源属性值中确定历史目标电力资源属性值；历史目标电力资源属性值使在当前时间段和历史时间段对应的多个历史电力资源属性情况下，第一待训练Q函数的函数值最大。

在一个实施例中，生成模块504，具体用于根据历史电力资源属性值和历史可调整电量生成用电对象对应的用电量调整模型；根据历史可调整电量、历史电力资源属性值和供电对象对应的电力资源分配增益数据，生成电力资源属性值增益模型；根据用电量调整模型和电力资源属性值增益模型的加权和，确定电力资源响应增益数据。

在一个实施例中，确定模块506，具体用于根据用电状态、电力资源属性值和第二权重参数，生成第二待训练函数；将样本集输入第二待训练函数，根据当前已输入样本集中的最大电力资源响应增益数据与第二待训练函数的当前最大函数值的和，更新第二待训练函数的期望增益值；根据期望增益值和第一待训练函数生成代价函数，基于代价函数和梯度下降算法迭代更新第一权重参数；若第一权重参数的迭代次数达到预设阈值，更新第二权重参数为当前第一权重参数；若样本集不为最后一个样本集，从多个样本集中获取未输入的样本集，将未输入的样本集输入第二待训练函数，返回根据当前已输入样本集中的最大电力资源响应增益数据与第二待训练函数的当前最大函数值的和，更新第二待训练函数的期望增益值的步骤；若样本集为最后一个样本集，结束循环，根据当前更新后的第二权重参数得到第二目标函数。

上述基于深度强化学习的电力资源属性值确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于深度强化学习的电力资源属性值确定方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述的基于深度强化学习的电力资源属性值确定方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的基于深度强化学习的电力资源属性值确定方法。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的基于深度强化学习的电力资源属性值确定方法。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于深度强化学习的电力资源属性值确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述历史电力资源属性值获取用电对象对应的历史可调整电量，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述历史可调整电量和所述历史电力资源属性值确定所述用电对象的用电状态，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一待训练函数为第一待训练Q函数；

5.根据权利要求1所述的方法，其特征在于，所述根据所述历史目标电力资源属性值、所述用电状态和所述供电对象对应的电力资源分配增益数据，确定电力资源响应增益数据，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据多个所述样本集更新所述第一待训练函数的第一权重参数，并根据所述第一权重参数更新第二待训练函数的第二权重参数，根据更新后的第二权重参数得到第二目标函数，包括：

7.一种基于深度强化学习的电力资源属性值确定装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。