CN117236478B

CN117236478B - 基于Transformer改进深度强化学习的多目标多水库调度优化方法

Info

Publication number: CN117236478B
Application number: CN202310640998.0A
Authority: CN
Inventors: 王然; 吴日新; 郝洁; 吴强
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2024-04-26
Anticipated expiration: 2043-06-01
Also published as: CN117236478A

Abstract

本发明公开了一种基于Transformer改进深度强化学习的多目标多水库调度优化方法，该方法首先获取水库运行的基本数据，然后由此建立多目标水库的优化调度模型，以调度期间的发电量最大、AAPFD值最小以及供水收益最大作为运行优化的目标，进一步的在约束条件下进行算法寻优，包括编码、解码和训练过程。该方法以平水年数据作为运行的实例，对每个水库每个月的发电流量和供水水流量进行优化，在保证各水库能够安全运行的前提下，提高发电量以及送水收益并降低AAPFD值。

Description

基于Transformer改进深度强化学习的多目标多水库调度优化方法

技术领域

本发明涉及水库调度优化领域，具体涉及一种基于Transformer改进的深度强化学习方法，实现了多水库调度的多目标优化。

背景技术

作为一种清洁、可再生并且不产生污染的能源，水电系统正在被不断开发以应对地球上传统能源日益紧俏的情况。并且随着社会的发展，水电站水库除了承担供电任务外，仍提供居民区供水、维持生态环境等各种作用。多个水库常常需要进行联合调度以实现水库的多目标调度需求。因此，如何协调水库调度过程中的多目标需求，提出协调多方利益的调度方案，是当前水库运行管理领域的重点研究对象。

现有技术中，水库多目标调度优化的求解方法主要有两种：第一种是多目标进化算法，如NSGA-III、MOPSO等，这些方法能够直接得到多目标优化模型的帕累托前沿以及一组帕累托最优解。并且这些方法拥有结果不稳定、不具有泛化性以及初始解的好坏对于结果影响较大等缺点。第二种是对目标函数进行赋权，将多目标的优化问题转化为单目标优化问题，采用线性规划、动态规划、遗传算法等单目标算法进行求解。这些方法一次运行只能够产生一组最优解，如果想要获得帕累托前沿的话需要花费大量的时间。

本发明提出了一种T-DRL求解多目标多水库调度优化的方法，将水库发电量最大、修正后的年比例流量偏差(amended annual proportional flow deviation,AAPFD)值最小以及居民区送水收益最大作为优化目标，建立多目标水库调度模型，采用T-DRL方法求解该调度优化模型。该方法以平水年数据作为运行的实例，对每个水库每个月的发电流量和供水水流量进行优化，在保证各水库能够安全运行的前提下，提高发电量以及送水收益并降低AAPFD值。

发明内容

发明目的：本发明提供一种基于Transformer改进的深度强化学习方法实现多目标多水库的调度优化，实现多水库发电最大、AAPFD值最小以及居民区送水收益最大的三个目标。

技术方案：一种基于Transformer改进深度强化学习的多目标多水库调度优化方法，将水库发电量最大、修正后的年比例流量偏差值最小以及居民区送水收益最大作为优化目标，包括建立多目标水库调度模型，还包括对每个水库每个月的发电流量和供水水流量进行优化；

所述方法步骤如下：

(1)获取水库运行的基本数据，包括库容与水位的关系、月均水流出流量、最低最高水位线、每月水位线、水库月均流入流量，根据水库运行的基本数据建立考虑水库水位线、发电流量、居民区送水流量约束的多目标多水库优化调度模型；

(2)设计多目标多水库运行调度的约束条件，包括水平衡约束、水位线约束、发电量约束、供水量约束、初始状态约束以及水位线和储存量之间的非线性约束；

(3)求解多目标多水库优化调度模型，包括设置发电总量、AAPFD值和供水总收益的权重，并在该权重组合下将多目标优化问题分解为M个子问题，M个子问题采用邻居的参数迁移策略来进行合作计算，在训练的过程中，上一个子问题训练的网络参数将会作为下一个子问题的网络初始参数，据此完成对于水库的解码过程、编码过程和训练过程。

进一步的，步骤(1)设计多目标多水库运行调度的年发电量F_power、AAPFD值F_AAPFD和居民区供水收益F_water作为优化目标函数，具体如下：

根据获取的水库运行基本数据建立考虑水库水位线、发电流量、居民区送水流量约束的多目标多水库优化调度模型，目标函数主要包括调度期间的发电量最大的发电目标函数、AAPFD值最小的环境目标函数以及供水收益最大的供水目标函数，具体的目标函数为：

目标函数1：最大化总发电量F_power

式中，F_power为多水库的年总发电量，单位为kwh；A_i为第i个水库的出力系数；Q_it ^p为第i个水库在t时段的发电流量，单位为m³/s；H_it为第i个水库在t时段的发电水头，单位为m；Δt为t时段的调度时长。

目标函数2：最小化总AAPFD值F_AAPFD

式中，F_AAPFD为多水库的AAPFD值；为第i个水库在t时段的最适宜流出流量，单位为m³/s，由历史的流出流量数据得到。

目标函数3：最大化总供水收益F_water

式中，F_water为多水库向多居民区供水的总收益，单位为元；b_jt为在t时段向第j个居民区供水的单位收益，单位为元/m³；为第i个水库在t时段对第j个居民区的供水流量，单位为m³/s；c_ijt为在t时段第i个水库向第j个居民区供水的单位成本，单位为元/m⁴；l_ij为第i个水库与第j个居民区之间的距离；x_ijt在t时段第i个水库是否向第j个居民区供水，其值取1表示进行供水，取0表示不进行供水。

(2)设计多目标多水库运行调度的约束条件，包括水平衡约束、水位线约束、发电量约束、供水量约束、初始状态约束以及水位线和储存量之间的非线性约束：

①水平衡约束：

式中，V_it为第i个水库在t时段的存储量，单位为m³；为第i个水库在t时段的流入流量，单位为m³/s。

②水位线约束：

式中，为第i个水库在t时段最低水位线，单位为m；L_it为第i个水库在t时段的水位线，单位为m；/>为第i个水库在t时段最高水位线，单位为m。

③发电量约束：

式中，为第i个水库在t时段最小发电总量，单位为kwh；/>为第i个水库在t时段最大发电总量，单位为kwh。

④供水量约束：

式中，为第j个居民区在t时段最小需水量，单位为m³；/>为第j个居民区在t时段最大需水量，单位为m³。

⑤初始状态约束：V_i0＝V_i ^begin

式中，V_i ^begin为第i个水库调度开始时的储水量，单位为m³。

⑥非线性约束：L_it＝d_i(V_it)

式中，d_i(·)为第i个水库的水位线与存储量之间的非线性关系。

(3)设计用于求解多目标多水库调度优化的基于Transformer改进的深度强化学习方法，具体为：

设置一组权重组合w¹,…,w^M，其中为发电总量所占权重，/>为AAPFD值所占权重，/>为供水总收益所占权重。

采用该权重组合将多目标优化问题分解为M个子问题，这M个子问题采用邻居的参数迁移策略来进行合作计算，在训练的过程中，上一个子问题训练的网络参数将会作为下一个子问题的网络初始参数。

对于每个分解的子问题，具体的求解过程主要分为编码过程、解码过程以及训练过程，编码的目的是为了将水库与居民区的信息转化为更好理解和处理的形式，解码的目的是为了将编码步骤中生成的向量转化为模型最终的决策输出，在传统的深度强化学习中不需要对信息进行编码与解码过程，具体的求解过程如下：

进一步的说，在编码过程中，对于每个水库，首先生成所有用于发电所用信息的嵌入Embedding 2，具体的过程如下：

对最大最小的发电量以及流入流量进行编码得到Embedding 1，其表达式如下：

式中，操作为对三个相同维度的张量进行链接。

其次，采用多头注意力层去处理Embedding 1，并将其映射到一个keyk_it、queryq_it以及valuev_it，自注意力层的输出通过将q_iu以及其他v_iu之间的归一化加权计算得到：

式中，为Embedding 1解码后的输出，q_i为对应的query，k_u′为其他节点的key。

对Embedding 1的输出以及当前水库的水位线进行编码，并通过残差连接获得嵌入了所有用于发电所需信息的嵌入Embedding 2。

接着，生成所有该水库对于各居民区用于供水信息的嵌入Embedding 4，具体的过程如下：

对每个居民区的最大和最小供水量进行编码，得到Embedding 3。接着将Embedding 1、Embedding 3以及居民区鱼水库之间的距离、目前水库的供水量和水库目前的水位线进行编码，得到该水库对每个居民区用于供水的嵌入Embedding 4。

对所有的水库重复上述的步骤，分别计算用于发电的信息嵌入以及用于居民区供水的信息嵌入。

在解码过程中，本发明将多目标多水库调度优化建模成一个马尔科夫决策过程，有如下几个部分组成：智能体(水库)、状态集合S、动作集合A，包含用于选择发电流量的动作集合A^p，决定是否进行供水的动作集合A^x以及选择供水流量的动作集合A^s。

对于每个水电站水库i，在每个时间段t内，首先根据Embedding 2选择用于发电的流量接着通过流入流量/>以及发电流出流量/>更新L_it。并通过此时的L_it，l_ij，W_jt计算嵌入Embedding4，根据这个嵌入选择是否进行供水x_ijt，如果x_ijt不为0，选择用于供水的流量Q_ijs_t，否则令Q_ijs_t＝0。

重复上述步骤直至实现所有的水库在所有时段的发电与供水决策，如果决策能够满足约束条件的话，将回报如下赋值：

式中，R_a为第a个子问题的回报；分别表示三个目标函数的最大最小值，这些值由单目标的T-DRL得到；如果不能够满足约束条件的话，将回报置为0。

在训练过程中，策略梯度法被用来训练神经网络中的参数θ，计算优势估计函数：

ADV_i＝R(π_i)-R(π^BL)

式中，R(π^BL)为通过基线模型得到的回报。

接着，更新参数通过：

式中，B为训练的批量，采用配对的t检验比较θ和θ^BL，如果结果在95％置信度水平上显著的话，就用θ代替θ^BL。

附图说明

图1为基于Transformer改进深度强化学习方法的框架；

图2为用于发电的Embedding 2的嵌入过程；

图3为用于供水的Embedding4的嵌入过程；

图4为训练完成的T-DRL和NSGA-III、MOEA/D、DRL方法所得到的帕累托前沿对比示意图；

图5为T-DRL实现的调度方案效果与目前使用的调度方案效果对比。

具体实施方式

为了详细公开本发明所公开的技术方案，下面结合附图和实例对本发明做进一步的说明。

本发明以科罗拉多河流域的鲍威尔湖和米德湖作为调度的对象，这两个水库进行联合发电以及向周围五个地区(亚利桑那州、加利福尼亚州、怀俄明州、新墨西哥州以及卡罗拉多州)进行供水。

该实例中，分别采用T-DRL，DRL，NSGA-III，MOEA/D算法，综合考虑发电、AAPFD值以及供水收益的多个目标，对鲍威尔湖和米德湖的多目标优化调度模型，表示如下：

(1)设计多目标多水库运行调度的年发电量F_power、AAPFD值F_AAPFD和居民区供水收益F_water作为优化目标函数：

目标函数1：最大化总发电量F_power

式中，F_power为多水库的年总发电量，单位为kwh；A_i为第i个水库的出力系数，两个水库分别取0.0443和0.01889；为第i个水库在t时段的发电流量，单位为m³/s；H_it为第i个水库在t时段的发电水头，单位为m；Δt为t时段的调度时长。

目标函数2：最小化总AAPFD值F_AAPFD

式中，F_AAPFD为多水库的AAPFD值；为第i个水库在t时段的最适宜流出流量，单位为m³/s，两个水库的最适宜流出流量见表1。

表1两个水库的最适宜流出流量(单位m³/s)

目标函数3：最大化总供水收益F_water

式中，F_water为多水库向多居民区供水的总收益，单位为元；b_jt为在t时段向第j个居民区供水的单位收益，单位为元/m³；为第i个水库在t时段对第j个居民区的供水流量，单位为m³/s；c_ijt为在t时段第i个水库向第j个居民区供水的单位成本，单位为元/m⁴；x_ijt在t时段第i个水库是否向第j个居民区供水，其值取1表示进行供水，为0表示不进行供水；l_ij为第i个水库与第j个居民区之间的距离，在具体实例中，两个水库与五个供水居民区之间的距离如表2。

表2两个水库与五个供水居民区之间的距离(单位km)

①水平衡约束：

式中，V_it为第i个水库在t时段的存储量，单位为m³；为第i个水库在t时段的流入流量，单位为m³/s，在具体实例中，两个水库的流入流量见表3。

表3两个水库的流入流量(单位m)

②水位线约束：式中，/>为第i个水库在t时段最低水位线，单位为m；L_it为第i个水库在t时段的水位线，单位为m；/>为第i个水库在t时段最高水位线，单位为m。

③发电量约束：式中，/>为第i个水库在t时段最小发电总量，单位为kwh；/>为第i个水库在t时段最大发电总量，单位为kwh。

④供水量约束：

⑤初始状态约束：V_i0＝V_i ^begin

⑥非线性约束：L_it＝d_i(V_it)

式中，d_i(·)为第i个水库的水位线与存储量之间的非线性关系，鲍威尔湖以及米德湖的水位线与存储量之间的非线性关系分别为：

(3)设计用于求解多目标多水库调度优化的基于Transformer改进的深度强化学习方法，结合图1所示，具体为：

按照[[0.05,0.05,0.9],[0.05,0.1,0.85],...,[0.9,0.05,0.05]]的权重组合将多目标优化问题分解为171个子问题，这171个子问题采用邻居的参数迁移策略来进行合作计算，在训练的过程中，上一个子问题训练的网络参数将会作为下一个子问题的网络初始参数。

对于每个分解的子问题，具体的求解过程主要分为编码过程、解码过程以及训练过程，具体如下：

在编码过程中，对于每个水库，首先生成所有用于发电所用信息的嵌入Embedding2，如图2所示，具体的过程如下：

式中，操作为对三个相同维度的张量进行连接。

接着，生成所有该水库对于每个居民区用于供水信息的嵌入Embedding 4，如图3所示，具体的过程如下：

在解码过程中，将多目标多水库调度优化建模成一个马尔科夫决策过程，有如下几个部分组成：智能体(水库)、状态集合S、动作集合A(包含用于选择发电流量的动作集合A^p，决定是否进行供水的动作集合A^x以及选择供水流量的动作集合A^s)。

对于每个水电站水库i，在每个时间段t内，首先根据Embedding 2选择用于发电的流量接着通过流入流量/>以及发电流出流量/>更新L_it。并通过此时的L_it，l_ij，W_jt计算嵌入Embedding4，根据这个嵌入选择是否进行供水x_ijt，如果x_ijt不为0，选择用于供水的流量/>否则令/>

ADV_i＝R(π_i)-R(π^BL)

式中，R(π^BL)为通过基线模型得到的回报。

接着，更新参数通过：

式中，B为训练的批量。采用配对的t检验比较θ和θ^BL，如果结果在95％置信度水平上显著的话，就用θ代替θ^BL。

(4)根据训练出来的每个权重组合的T-DRL模型，采用科罗拉多河流域的鲍威尔湖以及米德湖的数据进行测试，并与DRL、NSGA-III、MOEA/D算法的结果进行对比。

如图4展示了这四种算法得到的帕累托前沿的对比，与NSGA-III方法相比，T-DRL方法提供了的解决方案能增加10.11％的发电量，使AAPFD值减少了39.69％，并使供水收入增加了4.10％；与DRL方法相比，T-DRL方法提供了的解决方案能够增加14.1852％的电力，并将AAPFD值减少26.5454％。并且无论是从帕累托前沿的延展性还是多样性，还是从三个目标的对比上，本发明所述方法都展现了更优的结果。

如图5展示了T-DRL实现的调度方案在发电量以及AAPFD值上与目前鲍威尔湖和米德湖实行的调度方案的对比，T-DRL实现的调度方案都能够支配目前的实际执行的调度方案，即在产生更多电能的基础上，能够更加维持河流生态的稳定性。

Claims

1.一种基于Transformer改进深度强化学习的多目标多水库调度优化方法，其特征在于：将水库发电量最大、修正后的年比例流量偏差值AAPFD最小以及居民区送水收益最大作为优化目标，包括建立多目标水库调度模型，还包括对每个水库每个月的发电流量和供水水流量进行优化；

所述方法步骤如下：

(3)求解多目标多水库优化调度模型，包括设置发电总量、AAPFD值和供水总收益的权重，并在该权重组合下将多目标优化问题分解为M个子问题，M个子问题采用邻居的参数迁移策略来进行合作计算，在训练的过程中，上一个子问题训练的网络参数将会作为下一个子问题的网络初始参数，据此完成对于水库的解码过程、编码过程和训练过程；

所述的编码过程如下：

1)对最大最小的发电量以及流入流量进行编码得到Embedding 1；

2)对Embedding 1的输出以及当前水库的水位线进行编码，并通过残差连接获得嵌入了所有用于发电所需信息的嵌入Embedding 2；

3)对每个居民区的最大和最小供水量进行编码，得到Embedding 3；

4)将Embedding 1、Embedding 3以及居民区与水库之间的距离、目前水库的供水量和水库目前的水位线进行编码，得到该水库对每个居民区用于供水的嵌入Embedding 4；

对于Embedding 1，其表达式如下：

式中，为Embedding 1解码后的输出，q_i为对应节点的query，k_u′为其他节点的key；

所述的解码过程是将多目标多水库调度优化建模成一个马尔科夫决策过程，包括智能体、状态集合S、动作集合A，所述的动作集合A包含用于选择发电流量的动作集合A^p，决定是否进行供水的动作集合A^x以及选择供水流量的动作集合A^s；

对于每个水电站水库i，在每个时间段t内，首先根据Embedding 2选择用于发电的流量接着通过流入流量/>以及发电流出流量/>更新L_it，并通过此时的L_it，l_ij，W_jt计算嵌入Embedding4，根据这个嵌入选择是否进行供水x_ijt，如果x_ijt不为0，选择用于供水的流量否则令/>

式中，R_a为第a个子问题的回报；分别表示三个目标函数的最大最小值，这些值由单目标的T-DRL得到；如果不能够满足约束条件的话，将回报置为0；

所述的训练过程中，策略梯度法被用来训练神经网络中的参数θ，计算优势估计函数：

ADV_i＝R(π_i)-R(π^BL)

式中，R(π^BL)为通过基线模型得到的回报；

接着，更新参数通过：

式中，B为训练的批量，采用配对的t检验比较θ和θ^BL，如果结果在95％置信度水平上显著，则用θ代替θ^BL。

2.根据权利要求1所述的基于Transformer改进深度强化学习的多目标多水库调度优化方法，其特征在于：步骤(1)包括如下三种目标函数的计算：

(11)最大化总发电量F_power：

式中，F_power为多水库的年总发电量，单位为kwh；A_i为第i个水库的出力系数；为第i个水库在t时段的发电流量，单位为m³/s；H_it为第i个水库在t时段的发电水头，单位为m；Δt为t时段的调度时长；

(12)最小化总AAPFD值F_AAPFD：

式中，F_AAPFD为多水库的AAPFD值；Q_i ^e _t为第i个水库在t时段的最适宜流出流量，单位为m³/s，由历史的流出流量数据得到；

(13)最大化总供水收益F_water：

3.根据权利要求1所述的基于Transformer改进深度强化学习的多目标多水库调度优化方法，其特征在于：步骤(2)所述的多目标多水库运行调度的约束条件具体如下：

①水平衡约束：

式中，V_it为第i个水库在t时段的存储量，单位为m³；为第i个水库在t时段的流入流量，单位为m³/s；

②水位线约束：

式中，为第i个水库在t时段最低水位线，单位为m；L_it为第i个水库在t时段的水位线，单位为m；/>为第i个水库在t时段最高水位线，单位为m；

③发电量约束：

式中，为第i个水库在t时段最小发电总量，单位为kwh；/>为第i个水库在t时段最大发电总量，单位为kwh；

④供水量约束：

式中，为第j个居民区在t时段最小需水量，单位为m³；/>为第j个居民区在t时段最大需水量，单位为m³；

⑤初始状态约束：V_i0＝V_i ^begin

式中，V_i ^begin为第i个水库调度开始时的储水量，单位为m³；

⑥非线性约束：L_it＝d_i(V_it)