CN111738529B

CN111738529B - 基于强化学习的综合能源系统需求响应方法、系统及设备

Info

Publication number: CN111738529B
Application number: CN202010738407.XA
Authority: CN
Inventors: 郭祚刚; 雷金勇; 袁智勇; 徐敏; 谈赢杰; 白浩; 叶琳浩; 王�琦
Original assignee: China South Power Grid International Co ltd; China Southern Power Grid Co Ltd
Current assignee: China South Power Grid International Co ltd; China Southern Power Grid Co Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2022-12-23
Anticipated expiration: 2040-07-28
Also published as: CN111738529A

Abstract

本发明公开了一种基于强化学习的综合能源系统需求响应方法、系统及设备，通过构建综合能源系统需求响应优化函数，获取未来一天内的环境变量预测值以及用电数据预测值，将其储存在队列数据结构中，对构建好的用电设备能耗预测模型进行训练，根据训练结果对队列数据结构进行更新并重新训练用电设备能耗预测模型，直至满足迭代截止条件为止，将用电设备能耗预测模型输出的用电设备能耗数据预测值输入到综合能源系统需求响应优化函数进行求解，得到综合能源系统的需求响应。本发明将环境变量和用电设备的用电数据紧密结合，通过不断地对用电设备能耗预测模型进行训练，得到预测效果最佳的用电设备能耗预测模型，提高求解的需求响应策略的准确性。

Description

基于强化学习的综合能源系统需求响应方法、系统及设备

技术领域

本发明涉及电力领域，尤其涉及一种基于强化学习的综合能源系统需求响应方法、系统及设备。

背景技术

能源生产、消费和节能是当今电力和能源工业面临的许多最紧迫问题的根源。电能需求加速上升，而生产和输送能源能力的增长速度要慢得多。因此，更有效地管理和利用所产生的电能对持续的繁荣发展和生活质量至关重要。其中用以减少用电的活动或项目包括：1)提高用电效率以及节能；2)更有效地管理电力负荷。在提高用能效率方面，现有研究包括开发高用能效率的建筑物和建筑材料、更节能的用电设备等。在负荷用电管理方面，由于智能家电的出现，住宅市场的用电量正在发生根本性的变化。

智能电网框架下智能电器的一个关键需求是需求响应(DR)。总的来说，目前的需求响应方法有以下两种：直接负载控制(DLC)和基于价格的控制(PBC)。基于DLC的需求响应涉及电力公司在负荷高峰时段关闭选定的电器用于处理短期紧急情况，例如电力系统的高频偏差。然而，DLC通常会给能源消费者带来一些不便。由于他们的特殊需求可能得不到满足，消费者常常发现这样做是有风险的，而且参与率似乎很低。随着负荷的增加和可再生能源的普及，DLC似乎是处理需求响应的一种被动方法。

另一方面，PBC涉及到电力公司鼓励消费者积极参与需求响应计划，并根据动态电价来安排用电设备的使用。电力公司通常在他们的动态定价程序中使用每小时实时价格(RTP)或日前价格(DAP)，日前市场对电力生产和消费在运行日前一天制定财务上有约束力的计划。实时市场用以协调任何日前预定发电量和实时负荷之间的差异。目前，文献报道的PBC技术可分为基于RTP的需求响应和基于DAP的需求响应，例如，有学者提出了一种基于RTP的需求响应策略，根据每15分钟发布的电力零售价格控制HVAC负荷；另有学者提出了一种基于实时价格的用电设备在5分钟时间段内最优运行的需求响应模型。然而，目前的需求响应优化方法都是基于用电设备能耗的统计结果，并不是一天内最准确的需求响应策略。

综上所述，现有技术中的需求响应优化方法是基于用电设备能耗的统计结果，存在着不能得到一天内最准确的需求响应策略的技术问题。

发明内容

本发明提供了一种基于强化学习的综合能源系统需求响应方法、系统及设备，用于解决现有技术中的需求响应优化方法是基于用电设备能耗的统计结果，存在着不能得到一天内最准确的需求响应策略的技术问题。

本发明提供的基于强化学习的综合能源系统需求响应方法，包括以下步骤：

S1：根据用电设备的用能特性对用电设备进行分类，基于分类结果构建综合能源系统需求响应优化函数；

S2：获取未来24小时的环境变量预测值以及用电设备的用电数据预测值；其中，用电设备的用电数据预测值包括状态数据预测值以及能耗数据预测值；

S3：采用队列数据结构对用电设备的用电数据预测值进行储存，队列数据结构中每一台用电设备的用电数据预测值为一列数据；

S4：构建用电设备能耗预测模型；

S5：将未来24小时的环境变量预测值以及队列数据结构中每一列数据作为训练集对用电设备能耗预测模型进行训练，得到未来24小时新的用电设备能耗数据预测值，并判断是否满足迭代停止条件，若否，将未来24小时新的用电设备能耗数据预测值保存至队列数据结构中，对队列数据结构进行更新，重新执行步骤S5；若是，将未来24小时新的用电设备能耗数据预测值输入到综合能源系统需求响应优化函数进行求解，得到综合能源系统的需求响应。

优选的，根据用电设备的用能特性将用电设备分为：固定负荷设备、可中断负荷设备以及可平移负荷设备。

优选的，只考虑可中断负荷设备以及可平移负荷设备，构建综合能源系统需求响应优化函数。

优选的，队列数据结构中每列数据存储有n天的用电设备的用电数据，每天新增的用电设备的用电数据添加到每列数据最后一位时，位于每列数据最前一位的用电设备的用电数据将被清除，每个数据列的长度为n×24。

优选的，判断是否满足迭代停止条件的具体过程为：根据未来24小时新的用电设备能耗数据预测值计算未来24小时的用电设备单日用电成本C_buf，判断下列条件是否满足：

|C_buf-C|＜ε

其中，C_buf为C的子集，ε为阈值。

优选的，用电设备能耗预测模型包括输入层、输出层以及隐含层，其中，输入层具有3个输入节点，隐藏层具有8个节点，输出层具有1个输出节点。

优选的，输入层具有的三个输入节点为：第i小时的环境变量预测值

第i小时的用电设备的状态数据预测值

以及第i+1小时的用电设备的状态数据预测值

输出层的输出节点为：未来24小时新的用电设备能耗数据预测值。

优选的，未来24小时新的用电设备能耗数据预测值采用神经网络近似函数q_nn表示：

式中，Q_i为未来第i个小时新的用电设备能耗数据预测值，

为权重向量。

基于强化学习的综合能源系统需求响应系统，所述系统包括：优化函数构建模块、预测值获取模块、模型构建模块、数据储存模块、模型训练模块以及需求响应求解模块；

所述优化函数构建模块用于根据用电设备的用能特性对用电设备进行分类，基于分类结果构建综合能源系统需求响应优化函数；

所述预测值获取模块用于获取未来24小时的环境变量预测值以及未来24小时的用电设备的用电数据预测值；其中，用电设备的用电数据包括状态数据以及能耗数据；

所述模型构建模块用于构建用电设备能耗预测模型；

所述数据储存模块用于采用队列数据结构对未来24小时的用电设备的用电数据进行储存，队列数据结构中每一台用电设备的用电数据为一列数据；

所述模型训练模块用于将未来24小时的环境变量预测值以及队列数据结构中每一列数据作为训练集对用电设备能耗预测模型进行训练，得到未来24小时新的用电设备能耗数据预测值；

所述需求响应求解模块用于判断是否满足迭代停止条件，若否，将未来24小时新的用电设备能耗数据预测值保存至数据储存模块的队列数据结构中，对队列数据结构进行更新，重新执行模型训练模块；若是，将未来24小时新的用电设备能耗数据预测值输入到综合能源系统需求响应优化函数进行求解，得到综合能源系统的需求响应。

基于强化学习的综合能源系统需求响应设备，包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述的基于强化学习的综合能源系统需求响应方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例根据用能特性对用电设备进行分类，在此基础上构建综合能源系统需求响应优化函数，实现不同类型用电设备的最优能量控制；并通过获取未来一天内的环境变量预测值以及用电数据预测值，将其储存在队列数据结构中，对构建好的用电设备能耗预测模型进行训练，根据训练结果对队列数据结构进行更新并重新训练用电设备能耗预测模型，直至满足迭代截止条件为止，最后将用电设备能耗预测模型输出的新的用电设备能耗数据预测值输入到综合能源系统需求响应优化函数进行求解，得到综合能源系统的需求响应。本发明实施例通过将环境变量和用电设备的用电数据紧密结合，使得求解出的综合能源系统最优需求响应更加贴近实际用电设备的用电情况，实用性更强，并且本发明实施例通过不断地对用电设备能耗预测模型进行训练，从而得到预测效果最佳的用电设备能耗预测模型，提高了所求解的需求响应策略的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的基于强化学习的综合能源系统需求响应方法、系统及设备的方法流程图。

图2为本发明实施例提供的基于强化学习的综合能源系统需求响应方法、系统及设备的系统框架图。

图3为本发明实施例提供的基于强化学习的综合能源系统需求响应方法、系统及设备的设备框架图。

具体实施方式

本发明提供了基于强化学习的综合能源系统需求响应方法、系统及设备，用于解决现有技术中的需求响应优化方法是基于用电设备能耗的统计结果，存在着不能得到一天内最准确的需求响应策略的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的基于强化学习的综合能源系统需求响应方法、系统及设备的方法流程图。

实施例1

本发明实施例提供的基于强化学习的综合能源系统需求响应方法，包括以下步骤：

S1：根据用电设备的用能特性对用电设备进行分类，由于部分用电设备的负荷不受电价的影响，因此，在构建综合能源系统需求响应优化函数时可忽略该类型的用电设备，在得到分类结果后，基于分类结果构建综合能源系统需求响应优化函数；

S2：从天气预报系统中获取未来24小时的环境变量预测值，并根据用电设备的历史用电数据对未来24小时的用电设备的用电数据进行预测，得到未来24小时的用电设备的用电数据预测值；其中，用电设备的用电数据预测值包括状态数据预测值以及能耗数据预测值；

S3：采用队列数据结构对未来24小时的用电设备的用电数据预测值进行储存，队列数据结构中每一台用电设备的用电数据预测值为一列数据，通过队列数据结构对信息进行储存便于后期的信息的调用以及更新；

S4：构建用电设备能耗预测模型，用电设备能耗预测模型为用于学习用电设备能耗曲线的神经网络，利用神经网络来对用电设备的能耗进行精准预测；

S5：将未来24小时的环境变量预测值以及队列数据结构中每一列数据作为训练集对用电设备能耗预测模型进行训练，用电设备能耗预测模型学习后输出未来24小时新的用电设备能耗数据预测值，并判断是否满足迭代停止条件，若否，将未来24小时新的用电设备能耗数据预测值保存至队列数据结构中，对队列数据结构进行更新，重新执行步骤S5，将更新后的队列数据结构中的数据输入到用电设备能耗预测模型中，再次对用电设备能耗预测模型进行训练；若是，将未来24小时新的不同类型的用电设备能耗数据预测值输入到综合能源系统需求响应优化函数进行求解，计算得到综合能源系统的需求响应。

实施例2

如图1所示，S1：根据用电设备的用能特性对用电设备进行分类，由于部分用电设备的负荷不受电价的影响，因此，在构建综合能源系统需求响应优化函数时可忽略该类型的用电设备，在得到分类结果后，基于分类结果构建综合能源系统需求响应优化函数；

需要进一步说明的是，根据用电设备的用能特性将用电设备分为：固定负荷用电设备、可中断负荷用电设备以及可平移负荷用电设备，由于固定负荷不受电价的影响，因此只考虑可中断负荷用电设备以及可平移负荷用电设备，构建综合能源系统需求响应优化函数，综合能源系统需求响应优化函数的表达式为：

式中，C表示用电设备单日用电成本；p_i表示电价/小时；

表示可中断负荷用电设备第i小时的能耗；

表示可平移负荷用电设备第i小时的能耗；Q^max表示每小时用电设备的最大能耗；

和

表示环境约束，如温度；θ_i为0、1序列，表示可平移负荷用电设备的状态数据，“1”表示用电设备处于开启状态，“0”表示用电设备处于关停状态。其中，p_i、

可通过SCADA系统以及相关的信息采集系统采集得来；Q^max、

和θ_i为综合能源系统设定值和设备参数，可从综合能源系统中获得。

需要进一步说明的是，队列数据结构中每列数据存储有n天的用电设备的用电数据预测值，每天新增的用电设备的用电数据预测值添加到每列数据最后一位时，位于每列数据最前一位的用电设备的用电数据预测值将被清除，规定每小时采集一次数据，由于每天有24小时，因此每个数据列的长度为n×24。

S4：构建用电设备能耗预测模型，用电设备能耗预测模型为用于学习用电设备能耗曲线的神经网络，利用神经网络来对用电设备的能耗进行精准预测；其中，用电设备能耗预测模型包括输入层、输出层以及隐含层，输入层具有3个输入节点，隐藏层具有8个节点，输出层具有1个输出节点；输入层具有的三个输入节点为：第i小时的环境变量预测值

第i小时的用电设备的状态数据预测值

以及第i+1小时的用电设备的状态数据预测值

需要进一步说明的是，未来24小时新的用电设备能耗数据预测值采用神经网络近似函数q_nn表示：

式中，Qi为未来第i个小时新的用电设备能耗数据预测值，

为权重向量。S5：将未来24小时的环境变量预测值以及队列数据结构中每一列数据作为训练集对用电设备能耗预测模型进行训练，得到未来24小时新的用电设备能耗数据预测值，根据未来24小时新的用电设备能耗数据预测值计算未来24小时的用电设备单日用电成本C是否满足迭代停止条件

|C_buf-C|＜ε

其中，ε为阈值，设置为0.05或0.1，C_buf为C的子集，选取总迭代次数中的一个子单元(如5000次中的每60次)迭代所得的C值作为C_buf；

若不满足，将未来24小时新的用电设备能耗数据预测值保存至队列数据结构中，对队列数据结构进行更新，重新执行步骤S5，将更新后的队列数据结构中的每一列数据输入到用电设备能耗预测模型中，再次对用电设备能耗预测模型进行训练；若满足，将未来24小时新的用电设备能耗数据预测值输入到综合能源系统需求响应优化函数进行求解，得到综合能源系统的需求响应，具体为：

0≤Q_i≤Q_max i＝1，...，24

实施例3

如图2所示，基于强化学习的综合能源系统需求响应系统，所述系统包括：优化函数构建模块201、预测值获取模块202、模型构建模块203、数据储存模块204、模型训练模块205以及需求响应求解模块206；

所述优化函数构建模块201用于根据用电设备的用能特性对用电设备进行分类，基于分类结果构建综合能源系统需求响应优化函数；

所述预测值获取模块202用于获取未来24小时的环境变量预测值以及未来24小时的用电设备状态数据预测值；其中，用电设备的用电数据包括状态数据以及能耗数据；

所述模型构建模块203用于构建用电设备能耗预测模型；

所述数据储存模块204用于采用队列数据结构对未来24小时的用电设备的用电数据进行储存，队列数据结构中每一台用电设备的用电数据为一列数据；

所述模型训练模块205用于将未来24小时的环境变量预测值以及队列数据结构中每一列数据作为训练集对用电设备能耗预测模型进行训练，得到未来24小时新的用电设备能耗数据预测值；

所述需求响应求解模块206用于判断是否满足迭代停止条件，若否，将未来24小时新的用电设备能耗数据预测值保存至数据储存模块204的队列数据结构中，对队列数据结构进行更新，重新执行模型训练模块205；若是，将未来24小时新的用电设备能耗数据预测值输入到综合能源系统需求响应优化函数进行求解，得到综合能源系统的需求响应。

如图3所示，基于强化学习的综合能源系统需求响应设备30，所述设备包括处理器300以及存储器301；

所述存储器301用于存储程序代码302，并将所述程序代码302传输给所述处理器；

所述处理器300用于根据所述程序代码302中的指令执行上述的基于强化学习的综合能源系统需求响应方法中的步骤。

示例性的，所述计算机程序302可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器301中，并由所述处理器300执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序302在所述终端设备30中的执行过程。

所述终端设备30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器300、存储器301。本领域技术人员可以理解，图3仅仅是终端设备30的示例，并不构成对终端设备30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器300可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-ProgrammaBle GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器301可以是所述终端设备30的内部存储单元，例如终端设备30的硬盘或内存。所述存储器301也可以是所述终端设备30的外部存储设备，例如所述终端设备30上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器301还可以既包括所述终端设备30的内部存储单元也包括外部存储设备。所述存储器301用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器301还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。。