CN113379104A

CN113379104A - 微能源网实时调控方法和系统、电子设备及可读存储介质

Info

Publication number: CN113379104A
Application number: CN202110557731.6A
Authority: CN
Inventors: 陈颖; 司杨; 陈来军; 黄少伟
Original assignee: Tsinghua University; Qinghai University
Current assignee: Tsinghua University; Qinghai University
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-09-10

Abstract

本发明实施例提供一种微能源网实时调控方法和系统、电子设备及可读存储介质，所述微能源网实时调控的动作空间包含远视动作和短视动作，其中所述方法包括：基于所述微能源网实时环境的状态，利用上层RL智能体在各个时刻选择累积报酬最大化的最佳远视动作；利用下层优化解算器接收由所述上层RL智能体选择的最佳远视动作，使用优化方法在动作空间的至少一维固定时求解出最优即时经济调度成本和对应的最佳短视动作，并将所述最优即时经济调度成本和对应的最佳短视动作返回至上层；将所述最佳远视动作及最佳短视动作共同作用于所述微能源网实时环境。本发明实施例利用双层RL，使累积报酬最大化。

Description

微能源网实时调控方法和系统、电子设备及可读存储介质

技术领域

本发明涉及微能源网控制领域，尤其涉及一种微能源网实时调控方法和系统、电子设备及可读存储介质。

背景技术

微能源网中通常会集成热、电等多种能源形式，可以实现多种能源形式的相互转化与能量耦合互补利用，其经济调度面临两大挑战，挑战之一来自于可再生能源出力和负荷需求的不确定性。由于天气、人类行为等因素的影响，风能、太阳能等可再生能源的生产和负荷需求具有强烈不确定性，给微能源网的调度增添了难度。另一个挑战是微能源网中紧密复杂的能量耦合关系。能量耦合其一是冷热气电等各种能源形式之间的转换所引起的能源形式耦合；其二是储能系统导致的时间轴上的能源生产消费耦合，储能系统的充放电会影响系统未来能量状态；此两种能量耦合关系使微能源网的经济调度更加复杂。

强化学习或深度强化学习等机器学习方法中，智能体通过和环境的交互从而选择动作序列以最大化累计收益。在时刻t，智能体观察环境状态s_t，执行动作a_t作用于环境，并接收到一个奖励信号r_t反应动作好坏，之后环境进入下一状态s_t+1,一条经验(s_t,a_t,r_t,s_t+1)被记录下并放进经验池中供RL训练学习使用。微能源网经济调度问题是一个具有复杂约束的离散连续混合动作空间的问题。

发明内容

本发明提供一种微能源网实时调控方法和系统、电子设备及可读存储介质，用以解决现有技术中存在的技术缺陷。

本发明提供一种微能源网实时调控方法，所述微能源网实时调控的动作空间包含远视动作和短视动作，所述微能源网实时调控方法包括：

基于所述微能源网实时环境的状态，利用上层RL智能体在各个时刻选择累积报酬最大化的最佳远视动作；

利用下层优化解算器接收由所述上层RL智能体选择的最佳远视动作，使用优化方法在动作空间的至少一维固定时求解出最优即时经济调度成本和对应的最佳短视动作，并将所述最优即时经济调度成本和对应的最佳短视动作返回至上层；

将所述最佳远视动作及最佳短视动作共同作用于所述微能源网实时环境。

根据本发明实施例所述的微能源网实时调控方法，所述方法还包括：利用所述上层RL智能体对所述微能源网中的电池进行RL奖励，所述上层RL智能体的奖励函数为：

其中，

是所述下层优化解算器在接收到所述上层RL智能体给出的最佳远视动作后求得的最优即时经济调度成本；Ι(x)为指示函数，x为真时其值为1，否则为0；SOC表示电池SOC；λ为惩罚因子，C(t)为t时段的调度成本。

根据本发明实施例所述的微能源网实时调控方法，所述方法还包括：利用所述上层RL智能体对所述微能源网中的RL状态进行设计，所述RL状态包括做出合理决策需要的信息：

s_t＝(c_e(t),c_g(t),p_l(t)，p_h(t)，p_re(t)，SOC(t))

式中，c_e(t)是实时电价，c_g(t)是实时燃气价格，p_l(t)是实时电负荷，p_h(t)是实时热负荷，p_re(t)是新能源可提供出力，SOC(t)是实时电池SOC。

根据本发明实施例所述的微能源网实时调控方法，所述下层优化解算器采用以下优化方法进行优化：

并满足以下功率平衡约束条件、微燃机约束条件、热交换器约束条件、电池动作和SOC约束条件、电锅炉约束条件以及可再生能源出力约束条件；

所述功率平衡约束条件包括电力功率平衡和热能功率平衡，所述电力功率平衡为发电量实时等于消耗量，所述热能功率平衡包括所产生的热量应不少于消耗量；

所述微燃机约束条件包括使微型燃气轮机遵循以热发电的方式；

所述热交换器约束条件包括热交换器和微燃机进行热量交换为负荷供热；

所述电池动作和SOC约束条件包括将电池SOC限制在[0.2,0.8]，且放电功率为正；

所述电锅炉约束条件为电锅炉将电能转换为热能；

所述可再生能源出力约束条件为可在生能源的消纳不超过其出力。

根据本发明实施例所述的微能源网实时调控方法，所述功率平衡约束条件根据以下公式实现：

p_e(t)+p_re,u(t)+δ_g(t)p_ge(t)-δ_eb(t)p_eb(t)-p_l(t)+p_b(t)＝0

δ_g(t)p_he(t)+δ_eb(t)p_eb(t)η_eb-p_h(t)≥0

式中，δ_g(t)表示微燃机开关状态，p_ge(t)表示微燃机输出电功率，δ_eb(t)表示电锅炉开关状态，p_eb(t)表示电锅炉输入电功率，η_eb(t)表示电锅炉电热转换效率，p_l(t)表示电负荷，p_b(t)表示电池出力，p_he(t)表示热交换器输出功率，p_h(t)表示热负荷。

根据本发明实施例所述的微能源网实时调控方法，所述微燃机约束条件根据以下公式实现：

δ_g(t)∈{0,1}

式中，ΔT表示单位计算时间，η_ge表示微燃机发电效率，R_LHVT表示天然气低位热值，p_gh(t)为微燃机输出热功率，η_L表示微燃机散热损失率，∈_ge为微燃机最小负荷率，

表示微燃机额定功率。

根据本发明实施例所述的微能源网实时调控方法，所述热交换器约束条件根据以下公式实现：

p_he(t)＝p_gh(t)η_he

式中，η_he表示热交换机热交换效率，

表示热交换机额定功率。

本发明还提供了一种微能源网实时调控系统，所述微能源网实时调控的动作空间包含远视动作和短视动作，所述微能源网实时调控系统包括：

最佳远视动作确定模块，用于基于所述微能源网实时环境的状态，利用上层RL智能体在各个时刻选择累积报酬最大化的最佳远视动作；

最佳短视动作确定模块，用于利用下层优化解算器接收由所述上层RL智能体选择的最佳远视动作，使用优化方法在动作空间的至少一维固定时求解出最优即时经济调度成本和对应的最佳短视动作，并将所述最优即时经济调度成本和对应的最佳短视动作返回至上层；

实时调控模块，用于将所述最佳远视动作及最佳短视动作共同作用于所述微能源网实时环境。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述微能源网实时调控方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述微能源网实时调控方法的步骤。

本发明实施例的利用双层RL实现微能源网实时调控方法，RL利用和环境交互试错的方式学习，不依赖于对日前可再生能源出力、负荷等数据的精准预测，可以采用无模型算法处理系统中难以准确建模的因素，具有良好的实时决策性能，可用于微能源网在线实时经济调度，提升能源利用效率。下层优化解算器负责在动作空间的某维(如远视动作)固定时求出最佳的短视动作；上层RL智能体负责在各时刻选择适当的远视动作，使累积报酬最大化。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的微能源网实时调控方法的流程示意图；

图2是本发明一实施例提供的微能源网实时调控系统的示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种微能源网实时调控方法，所述微能源网实时调控的动作空间包含远视动作和短视动作，电池的动作会影响未来的能量状态，称此类动作为远视动作。其他可控装置的动作不影响系统未来能量状态，只影响即时经济调度成本，称此类为短视动作。参见图1，所述微能源网实时调控方法包括：

S1、基于所述微能源网实时环境的状态，利用上层RL智能体在各个时刻选择累积报酬最大化的最佳远视动作；

S2、利用下层优化解算器接收由所述上层RL智能体选择的最佳远视动作，使用优化方法在动作空间的至少一维固定时求解出最优即时经济调度成本和对应的最佳短视动作，并将所述最优即时经济调度成本和对应的最佳短视动作返回至上层；

每一时刻t，下层实现了对短视动作的最优搜索，避免了短视动作空间的无效探索。

S3、将所述最佳远视动作及最佳短视动作共同作用于所述微能源网实时环境。

所有的动作组成一个全动作空间，下层负责在动作空间的某维(如远视动作)固定时求出最佳的短视动作；上层负责在各时刻选择适当的远视动作，使累积报酬最大化。由于在短视动作维度上的每次搜索都是最优的，因此RL的学习效率可显著提高，加速模型训练和收敛。

双层RL模型还有助于处理复杂的动作约束问题。下层利用经典优化方法来保证不违反短视动作的约束；当上层存在违反远视动作的约束时，可以在奖励中增加适当惩罚。这种设计降低了当短视动作违反约束时的奖励设计复杂性。

模型上层是RL智能体，主要负责电池调度，进行RL状态、动作及奖励的设计。

其中，

是所述下层优化解算器在接收到所述上层RL智能体给出的最佳远视动作后求得的最优即时经济调度成本；Ι(x)为指示函数，x为真时其值为1，否则为0；SOC表示电池SOC；λ为惩罚因子，是一个很大的数，对SOC约束的违反将被引入到奖励设计中。C(t)为t时段的调度成本。

s_t＝(c_e(t),c_g(t),p_l(t)，p_h(t)，p_re(t)，SOC(t))

上层RL智能体管理电池的充放电，为降低训练难度，将电池充放电离散为5个动作，设计如下：

根据本发明实施例所述的微能源网实时调控方法，所述下层优化解算器采用以下优化方法进行优化，下层的目标为在上层给定远视动作后最小化即时调度成本，即：

在时刻t，除电池出力外的决策变量即短视动作，将留给下层优化模型求解。下层模型为一个MILP模型，需要满足以下功率平衡约束条件、微燃机约束条件、热交换器约束条件、电池动作和SOC约束条件、电锅炉约束条件以及可再生能源出力约束条件；

所述电锅炉约束条件为电锅炉将电能转换为热能；

可以采用scipy工具包求解下层MILP问题。求解后得到的最优即时经济调度成本和此时最佳短视动作将返回给上层。

p_e(t)+p_re,u(t)+δ_g(t)p_ge(t)-δ_eb(t)p_eb(t)-p_l(t)+p_b(t)＝0

δ_g(t)p_he(t)+δ_eb(t)p_eb(t)η_eb-p_h(t)≥0

p_gh(t)＝p_ge(t)(1-η_ge-η_L)/η_ge

δ_g(t)∈{0,1}

表示微燃机额定功率。

p_he(t)＝p_gh(t)η_he

式中，η_he表示热交换机热交换效率，

表示热交换机额定功率。

电池动作和SOC约束条件为：为保护电池，减缓电池快速老化，将电池的SOC限制在[0.2,0.8]，并在充放电过程中考虑充放电效率。设电池功率以放电功率为正。

0.2≤SOC(t)≤0.8

|p_b(t)|≤P_b ^N

式中η_b表示电池转化效率，P_b ^N为电池额定功率。

电锅炉约束条件是电锅炉将电能转换为热能。

δ_eb(t)∈{0,1}

式中∈_eb表示电锅炉最小负荷率，

表示电锅炉额定功率，δ_eb(t)表示电锅炉开关状态。

可再生能源出力约束条件为可在生能源的消纳不应超过其出力。

0≤p_re,u(t)≤p_re(t)

上述优化问题的可控变量包括零一和连续型变量。零一变量包括燃气轮机启停状态δ_g(t)和电锅炉启停状态δ_eb(t)。连续型变量包括电池输出量p_b(t)、燃气轮机发电量p_ge(t)、电锅炉功率p_eb(t)、可容纳可再生能源p_re,u(t)、电网购电量p_e(t)、燃气轮机热输出量p_gh(t)和换热器输出量p_he(t)，连续型变量都具有等式或不等式约束。

以DDPG为代表的策略梯度方法可以解决连续动作控制的RL问题，但在动作维数较低时其收敛性较离散动作控制的RL算法更差。为减小RL训练难度，提升算法收敛性及训练速度，本节将电池出力动作离散化，以收敛性能更好的DQN算法为基础，设计了双层DRL模型算法。在时刻t，上层RL智能体观察环境的状态，并根据其策略选择一个远视动作。将远视动作输入到下层，下层利用MILP求解器求出最佳短视动作及相应奖励。全部动作一起作用于环境，并得到下一状态，存储经验到经验池中供RL训练使用。双层DRL模型完整算法参见下表1。

表1

本发明实施例公开了一种微能源网实时调控系统，所述微能源网实时调控的动作空间包含远视动作和短视动作，参见图2，包括：

最佳远视动作确定模块10，用于基于所述微能源网实时环境的状态，利用上层RL智能体在各个时刻选择累积报酬最大化的最佳远视动作；

最佳短视动作确定模块20，用于利用下层优化解算器接收由所述上层RL智能体选择的最佳远视动作，使用优化方法在动作空间的至少一维固定时求解出最优即时经济调度成本和对应的最佳短视动作，并将所述最优即时经济调度成本和对应的最佳短视动作返回至上层；

实时调控模块30，用于将所述最佳远视动作及最佳短视动作共同作用于所述微能源网实时环境。

图3示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行一种微能源网实时调控方法，所述微能源网实时调控的动作空间包含远视动作和短视动作，该方法包括：

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行一种微能源网实时调控方法，所述微能源网实时调控的动作空间包含远视动作和短视动作，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行一种微能源网实时调控方法，所述微能源网实时调控的动作空间包含远视动作和短视动作，该方法包括：

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。