CN116316537A

CN116316537A - 输电线路运行控制方法、装置、设备、介质和程序产品

Info

Publication number: CN116316537A
Application number: CN202211092698.5A
Authority: CN
Inventors: 田启东; 黄光磊; 杨宇翔; 李俊; 戚思睿; 胡明曜
Original assignee: Shenzhen Power Supply Co ltd
Current assignee: Shenzhen Power Supply Co ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2023-06-23

Abstract

本申请涉及一种输电线路运行控制方法、装置、设备、介质和程序产品。方法包括：将目标电力系统的初始运行状态数据输入预设的调度策略模型中，得到初始运行状态数据对应的多个候选调度策略的概率值；根据各候选调度策略的概率值确定目标调度策略，通过目标调度策略控制输电线路运行，以平衡电力系统中输电线路的电流；其中，调度策略模型是基于目标电力系统的预设的运行状态数据约束条件和安全运行约束条件构建的。采用本方法能够有效地避免电力系统中输电线路的过载问题，提升电力系统的稳定性。

Description

输电线路运行控制方法、装置、设备、介质和程序产品

技术领域

本申请涉及电力系统技术领域，特别是涉及一种输电线路运行控制方法、装置、设备、介质和程序产品。

背景技术

随着可再生能源的迅猛发展，加剧了电力系统的不确定性、波动性和间歇性，导致输电线路过载问题。输电线路过载若存在安全隐患，可能引发区域性停电和大规模级联停电。因此，针对输电线路运行过载进行实时调度策略，对于整个电力系统的正常运行至关重要。

传统方法中保护电力系统免受输电线路过载的方法至少包括发电机有功电力调度或拓扑优化。其中，发电机调度是通过保持发电与用电实时平衡的方式来保护输电线路中电流过载；而拓扑优化可以通过母线切换和输电线路切换实现将输电线路中电流重新分配到一个更均衡的模式。

然而，上述方法无法有效地避免电力系统中输电线路的过载问题，导致电力系统的稳定性较差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效避免电力系统中输电线路的过载问题的输电线路运行控制方法、装置、设备、介质和程序产品。

第一方面，本申请提供了一种输电线路运行控制方法，该方法包括：

将目标电力系统的初始运行状态数据输入预设的调度策略模型中，得到初始运行状态数据对应的多个候选调度策略的概率值；调度策略模型是基于目标电力系统的预设的运行状态数据约束条件和安全运行约束条件构建的；

根据各所述候选调度策略的概率值确定目标调度策略；

通过目标调度策略控制输电线路运行，以平衡所述电力系统中输电线路的电流。

在其中一个实施例中，调度策略模型的构建过程包括：

获取参考调度策略模型；

通过目标电力系统的约束条件对参考调度策略模型进行调整，得到初始调度策略模型；约束条件包括所述运行状态数据约束条件和安全运行约束条件；

对初始调度策略模型进行训练，直至初始调度策略模型训练完成，得到调度策略模型。

在其中一个实施例中，对初始调度策略模型进行训练，直至初始调度策略模型训练完成，得到调度策略模型，包括：

获取目标电力系统中历史调度策略集合，以及目标电力系统的拓扑信息和时间序列特征；

根据历史调度策略集合中的调度策略、拓扑信息和时间序列特征对初始调度策略模型进行训练，直至初始调度策略模型训练完成，得到调度策略模型。

在其中一个实施例中，获取目标电力系统的拓扑信息和时间序列特征，包括：

通过预设的卷积神经网络提取目标电力系统中输电线路的部署信息和目标电力系统中变电站的部署信息，得到拓扑信息；

通过预设的长短期记忆网络提取目标电力系统运行的时间序列特征。

在其中一个实施例中，根据历史调度策略集合中的调度策略、拓扑信息和时间序列特征对初始调度策略模型进行训练，直至初始调度策略模型训练完成，得到调度策略模型，包括：

根据历史调度策略集合中的调度策略、拓扑信息和时间序列特征对初始调度策略模型执行多次状态更新操作；每次状态更新操作用于求解初始调度策略模型的值；

若求解到初始调度策略模型的最大值，确定初始调度策略模型训练完成，得到调度策略模型；初始调度策略模型得到最大值时对应的调度策略为最大概率的调度策略。

在其中一个实施例中，状态更新操作包括：

从历史调度策略集合中随机选择任一个调度策略作为目标调度策略；

控制目标电力系统以目标调度策略运行，得到参考运行状态数据；

将参考运行状态数据、拓扑信息和时间序列特征输入至初始调度策略模型中得到初始调度策略模型的值。

第二方面，本申请还提供了一种输电线路运行控制装置。该装置包括：

概率获取模块，用于将目标电力系统的初始运行状态数据输入预设的调度策略模型中，得到初始运行状态数据对应的多个候选调度策略的概率值；该调度策略模型是基于目标电力系统的预设的运行状态数据约束条件和安全运行约束条件构建的；

策略确定模块，用于根据各候选调度策略的概率值确定目标调度策略；

电流平衡模块，用于通过目标调度策略控制输电线路运行，以平衡电力系统中输电线路的电流。

第三方面，本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述第一方面中任一项实施例中的方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。该计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面中任一项实施例中的方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。该计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述第一方面中任一项实施例中的方法的步骤。

上述输电线路运行控制方法、装置、设备、介质和程序产品，通过将目标电力系统的初始运行状态数据输入预设的调度策略模型中，得到初始运行状态数据对应的多个候选调度策略的概率值，然后根据各候选调度策略的概率值确定目标调度策略，通过目标调度策略控制输电线路运行，以平衡该电力系统中输电线路的电流。其中，该方法中的调度策略模型是基于目标电力系统的预设的运行状态数据约束条件和安全运行约束条件构建的。由于该方法是基于预设的运行状态数据约束条件和安全运行约束条件构建电力系统的调度策略模型，相当于是在对输电线路进行运行控制时，考虑了其运行状态和安全方面的一些因素，这样构建的调度策略模型获取到的调度策略能够更加匹配输电线路的实际情况，从而可以有效地避免输电线路的运行过载问题。

附图说明

图1为一个实施例中输电线路运行控制方法的应用环境图；

图2为一个实施例中输电线路运行控制方法的流程示意图；

图3为一个实施例中调度策略模型构建步骤的流程示意图；

图4为一个实施例中调度策略模型训练步骤的流程示意图；

图5为一个实施例中调度策略模型特征获取步骤的流程示意图；

图6为一个实施例中调度策略模型策略获取步骤的流程示意图；

图7为一个实施例中调度策略模型状态更新步骤的流程示意图；

图8为一个实施例中输电线路运行控制装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的输电线路运行控制方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信，将目标电力系统的初始运行状态数据输入预设的调度策略模型中，得到初始运行状态数据对应的多个候选调度策略的概率值；调度策略模型是基于目标电力系统的预设的运行状态数据约束条件和安全运行约束条件构建的；根据各候选调度策略的概率值确定目标调度策略；通过目标调度策略控制输电线路运行，以平衡电力系统中输电线路的电流。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

传统方法中，将输电线路的负载率作为调度方法的依据，采取发电机有功电力调度或拓扑优化的调度方法，对电力系统进行调度。然而，由于输电线路的调度还要考虑电力系统中的随机因素的影响(比如功率波动、负荷变化等)，而随机因素会影响输电线路的正常运行，因此，传统方法采取的调度策略与电力系统的运行状态的匹配度不高，进而也就不能有效地避免电力系统中输电线路的过载。基于此，本申请实施例提供一种输电线路运行控制方法、装置、设备、介质和程序产品，能够基于预设的运行状态数据约束条件和安全运行约束条件构建电力系统的调度策略模型，获取调度策略的概率值，进而执行调度策略。本申请实施例提供的输电线路运行控制方法，由于是在考虑运行状态数据约束条件和安全运行约束条件的前提下，执行满足输电线路的负载率的调度策略的，相当于是在对输电线路进行运行控制时，考虑了其运行状态和安全方面的一些因素，这样构建的调度策略模型获取到的调度策略能够更加匹配输电线路的实际情况，从而可以有效地避免输电线路的运行过载问题。

在一个实施例中，如图2所示，提供了一种输电线路运行控制方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

S220，将目标电力系统的初始运行状态数据输入预设的调度策略模型中，得到初始运行状态数据对应的多个候选调度策略的概率值；调度策略模型是基于目标电力系统的预设的运行状态数据约束条件和安全运行约束条件构建的。

其中，调度策略模型表示在有多个候选调度策略的前提下，基于电力系统当前状态，计算采取各调度策略的概率，使得电力系统到达目标状态的奖励值最高。一个调度策略是一个调度动作与电力系统交互所引起的一个调度动作组，且一个调度动作组的所有调度动作服从正态分布，因此，调度策略可以描述为在电力系统某一状态时，执行最大概率对应的某一调度动作。

需要说明的是，在调度策略模型中，将智能体看作是调度动作的决策者，首先为智能体随机设置初始动作，作用于电力系统的当前状态，此时电力系统会依据状态转移概率矩阵进行状态更新，智能体在新的电力系统状态下更新调度动作，依次迭代，直至电力系统达到目标状态，完成一次调度策略。在调度策略模型中，电力系统可以通过多种方式到达目标状态，那么就有多个调度策略，每一个调度策略以概率的形式表示。

本申请实施例中，调度策略模型是基于强化学习理论构建的模型，在预设电力系统约束条件的前提下，根据初始运行状态与多个候选调度策略的交互过程，获取多个候选调度策略的概率，从而获取达到目标电力系统的目标状态的最优调度策略。

其中，强化学习(Reinforcement Learning，RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

在电力系统领域，强化学习可以将整个电力系统作为环境，将电力系统调度动作的主体作为智能体，初始化设置智能体的动作，令智能体与环境进行交互，更新智能体的动作，该动作又会更新环境状态，依次迭代，智能体通过与环境不断交互生成一组动作，以及一组环境状态，当环境达到目标状态时，完成一次交互。具体地，在智能体与环境的一次交互过程中，智能体需要T个时间步，并在每个时间步执行调度动作，环境会为智能体的每一次调度动作打分，智能体到目标状态有n条路线，每条路线对应一组动作，通过比较智能体的每一组动作的得分，获取智能体的最优路线，从而得出电力系统的最优调度策略。

例如，以马尔可夫决策过程(S,A,P,R,γ)来描述强化学习，则在电力系统领域，S代表电力系统的状态变量集；A表示调度策略的所有调度动作；P是一个转移矩阵，量化给定当前状态和采取的调度动作的状态转移概率；R是状态转移过程中的奖励函数；γ是将所有奖励从头到尾相加的奖励折扣系数。具体地：

(1)状态S：电力系统包含4种类型的状态变量：P_i ^load，

和C_l，状态变量从监控和数据采集中获取，输电线路运行控制的有效集定义为：

上述公式1中，P_i ^load为第i个变电站负荷功率；

为第m台发电机的输出功率；

为第l根输电线路的负载率；C_l是第l根输电线路开关的状态，为0/1的离散类型。

(2)调度动作A：发电机功率调度和拓扑调度动作定义为：

上述公式2中，

为第m台发电机的功率调度；/>

为第i根输电线路的拓扑调度。

(3)状态转移概率矩阵P：当前状态S_t到后续状态S_t+1的转移概率。

(4)奖励函数R：在当前状态S_t执行措施A_t，进入状态S_t+1获得的奖励：

上述公式3中，R依赖于第l根输电线路的负载率ρ_l。

(5)折扣系数γ：γ是将所有时间步相加的折扣因子，总折扣奖励G定义为：

本申请实施例中，为了最大化总折扣奖励G，需要将智能体与电力系统的环境不断交互，从而获取最优调度策略。

S240，根据各候选调度策略的概率值确定目标调度策略。

需要说明的是，由于电力系统由初始状态到目标状态可以采取多组调度策略，而每组调度策略包含的调度动作的类别、调度动作的频率各不相同，则各候选调度策略的概率分布不同，各候选调度策略的概率值也就不同。因此，可以通过比较各候选调度策略对应的概率值，将最大概率对应的候选调度策略确定为目标调度策略。

S260，通过目标调度策略控制输电线路运行，以平衡电力系统中输电线路的电流。

具体地，首先各候选调度策略表示为该候选调度策略分布所对应的概率值，同时每一概率值对应一个调度动作。接着，从多个候选调度策略的多个概率值中，选取最大的概率值，并将最大的概率值对应的候选调度策略作为目标调度策略。最后通过执行目标调度策略的概率值对应的调度动作，平衡电力系统中输电线路的电流。示例性地，若电力系统的候选调度策略有3种，候选调度策略1的概率为40％，对应的调度动作1；候选调度策略2的概率为40％，对应的调度动作2；候选调度策略3的概率为20％，对应的调度动作3；则任选调度策略1或调度策略2为目标调度策略，电力系统执行目标调度动作1或目标调度动作2。

上述输电线路运行控制方法中，将目标电力系统的初始运行状态数据输入预设的调度策略模型中，得到初始运行状态数据对应的多个候选调度策略的概率值，然后根据各候选调度策略的概率值确定目标调度策略，通过目标调度策略控制输电线路运行，以平衡电力系统中输电线路的电流。其中，该方法中的调度策略模型是基于目标电力系统的预设的运行状态数据约束条件和安全运行约束条件构建的。通过上述输电线路运行控制方法，基于预设的运行状态数据约束条件和安全运行约束条件构建电力系统的调度策略模型，相当于是在对输电线路进行运行控制时，考虑了其运行状态和安全方面的一些因素，这样构建的调度策略模型获取到的调度策略能够更加匹配输电线路的实际情况，从而可以有效地避免输电线路的运行过载问题。

在一个实施例中，如图3所示，调度策略模型的构建过程包括：

S320，获取参考调度策略模型。

其中，参考调度策略模型将电力系统强化学习的过程参数化。具体地，将调度策略参数化为π_θ，调度策略由参数θ表征，调度策略π_θ(a_t∣s_t)表示在t时刻，电力系统状态为s时，采取调度动作a的概率。将总折扣奖励参数化为目标函数，即奖励最大化的计算等价于目标函数最大值的计算。参考调度策略模型的目标函数表示为：

上述公式5中，

E_t表示有限批调度策略样本的经验平均值，a_t是t时刻动作，s_t是t时刻状态，π_θ是更新后的调度策略，/>

是待更新的调度策略，clip为裁剪函数，将原数值映射至(1-ε,1+ε)区间，A_t是优势函数。

S340，通过目标电力系统的约束条件对参考调度策略模型进行调整，得到初始调度策略模型；约束条件包括运行状态数据约束条件和安全运行约束条件。

其中，运行状态数据约束条件为母线电压约束、线路电流约束和发电机输出功率约束；安全运行约束条件包括操作约束、拓扑约束和转子角度约束。

进一步地，操作约束是指每个时间步只能调度一个变电站相关的输电线路或发电机，以避免意外的瞬态过程或拓扑；拓扑约束是指每个变电站至少连接到两个其它变电站，以避免电力系统有一个元件发生故障导致变电站成为孤网；转子角度约束是指任意两个发电机之间的转子角度不能超过阈值，以提高转子角稳定性。

在获取参考调度模型的基础上，根据电力系统的实际运行要求，设置约束条件加以限制，形成初始策略调度模型，初始策略调度模型的目标函数表示为：

上述公式6中，n表示约束条件的数目，

表示每一个约束条件/>

对应的参数化函数，/>

是根据约束条件设置的超参数。

S360，对初始调度策略模型进行训练，直至初始调度策略模型训练完成，得到调度策略模型。

在对初始策略模型进行训练的过程中，调度策略由模型参数θ表征，调度策略π_θ(a_t∣s_t)表示在t时刻，电力系统状态为s时，采取调度动作a的概率。根据梯度上升法，调度策略更新的参数变化量越来越小，对应的目标函数差距越来越小。设置训练阈值

当

时，表明此时的调度策略对应的目标函数值已达到最大，训练停止，并将此时包含模型参数的初始调度策略模型作为调度策略模型。

本申请实施例中，获取参考调度策略模型之后，根据电力系统的实际运行需求设置约束条件，获取初始调度策略模型，相当于是在参考调度策略模型获取的调度策略上，考虑了实际调度策略之间的约束因素，进一步限制调度策略，这样构建的初始调度策略获取的调度策略能够更合理地匹配电力系统的实际运行状态。

在一个实施例中，如图4所示，对初始调度策略模型进行训练，直至初始调度策略模型训练完成，得到调度策略模型，包括：

S420，获取目标电力系统中历史调度策略集合，以及目标电力系统的拓扑信息和时间序列特征。

其中，历史调度策略集合表示电力系统从初始状态到目标状态的每一组调度策略；目标电力系统的拓扑信息包括电力系统中的运行状态，包括发电机功率，输电线路的负载率等状态信息；时间序列特征是指电力系统中，实施调度策略对应的时间段。

S440，根据历史调度策略集合中的调度策略、拓扑信息和时间序列特征对初始调度策略模型进行训练，直至初始调度策略模型训练完成，得到调度策略模型。

具体地，根据各调度策略，拓扑信息和时间序列特征对初始策略模型进行训练，依次将所有调度策略代入初始策略模型，以目标函数作为判别依据，直至初始策略模型训练完成。

本申请实施例中，通过电力系统的拓扑信息和时间序列特征获取初始调度模型中每一个调度策略的目标函数，结合目标函数阈值，完成初始调度策略的训练。由于整个模型的训练过程是基于目标电力系统的运行数据进行的，即初始调度策略模型是根据目标电力系统的历史数据进行学习的，无需利用其他数据集进行迁移学习，这样训练生成的调度策略模型的模型参数能够提升调度策略概率的计算精度。

在一个实施例中，如图5所示，获取目标电力系统的拓扑信息和时间序列特征，包括：

S520，通过预设的卷积神经网络提取目标电力系统中输电线路的部署信息和目标电力系统中变电站的部署信息，得到拓扑信息。

其中，卷积神经网络用于提取包含边缘特征和节点特征的特征，对原始数据降维，便于策略模型训练。

可选的，输入以图的形式存储的电力系统数据，其中节点表示发电机功率、线路功率、负荷功率，边缘表示输电线路的连接状态。给定邻接矩阵A，根据图卷积神经网络在傅立叶域构造滤波器，滤波器作用于图的节点，对电力系统的节点特征进行提取。具体地，通过一阶邻域捕获节点之间的空间特征，然后通过堆叠多个卷积层来提取关于包含边缘特征和节点特征的特征，操作表示为：

上述公式7中，

是具有自环连接的相邻矩阵。I_N是单位矩阵/>

是对角矩阵(同一节点的所有边权重之和)，其目的是规范化D用于从邻居重新缩放特定节点的聚合信息。H^(l+1)以及H^(l)是输出和输入数据矩阵l图层，l＝1,…,L。

可选的，输入以图的形式存储的电力系统数据，F_N和F_A分别表示节点特征矩阵和边缘特征矩阵，

和/>

作为输入数据，N为电力系统数据中节点的数量，n_a为电力系统数据中边的数量，/>

和f_a表示第l层图神经网络的节点特征数量和边缘特征数。N(i)＝{j；(j,i)∈A}∪{i}，相邻顶点i定义为包含所有相邻顶点(有向图中的前置顶点)，包括i自身(自循环)。节点功能/>

节点i计算为信号的加权和

对各个边缘标签上的每个过滤权重进行调节，并将过滤器生成网络定义为F^l：

映射/>

给定边标签F_A(j,i)时，F^l输出边缘特定权重矩阵/>

卷积操作表示为：

上述公式8中，

是可学习偏差，F^l由可学习的网络权重ω^l参数化，ω^l和b^l是在训练期间更新的模型参数，/>

为特定输入图中的边标签动态生成的参数。

S540，通过预设的长短期记忆网络提取目标电力系统运行的时间序列特征。

其中，长短期记忆网络用于从空间特征中整合时间特征，获取包含时间和空间的特征，用于模型预测。长短期记忆网络的输出层是一个紧密连接的层，应用在电力系统中，是指从发电机功率、负荷功率、线路功率等原始数据中提取时序特征。利用长短期记忆网络提取时序特征，能够在保留电力系统数据状态的同时，降低模型的输入数据的维度。

本申请实施例中，电力系统包含发电机功率、输电线路负载率等大量运行数据，分别通过卷积神经网络、长短期记忆网络提取电力系统的空间特征和时间特征，能够在保证电力系统特征有效性的同时，实现对电力系统数据降维。

在一个实施例中，如图6所示，根据历史调度策略集合中的调度策略、拓扑信息和时间序列特征对初始调度策略模型进行训练，直至初始调度策略模型训练完成，得到调度策略模型，包括：

S620，根据历史调度策略集合中的调度策略、拓扑信息和时间序列特征对初始调度策略模型执行多次状态更新操作；每次状态更新操作用于求解初始调度策略模型的值。

具体地，每次状态更新是将调度策略输入到初始调度策略模型中，电力系统由初始状态到目标状态的一次更新。那么，电力系统的状态每更新一次，就会评估一次调度策略，获取调度策略的目标函数值，并根据评估结果更新调度策略对应的模型参数。

S640，若求解到初始调度策略模型的最大值，确定初始调度策略模型训练完成，得到调度策略模型；初始调度策略模型得到最大值时对应的调度策略为最大概率的调度策略。

需要说明的是，在获取每一个调度策略的目标函数值的同时，每一个调度策略以条件概率的形式进行表达。当求解到初始调度策略模型的最大值时，也就得到了调度策略模型，此时调度策略模型的调度策略即为最优调度策略。

本申请实施例中，由于初始调度策略模型遍历了每一个历史调度策略，通过比较各历史调度策略的目标函数值，获取最优调度策略。由于历史调度策略的参数优化是基于梯度上升规律的，因此在调度策略模型的目标函数计算过程中，每一个历史调度策略获取的目标函数都优于前一历史调度策略获取的目标函数。

在一个实施例中，如图7所示，状态更新操作包括：

S720，从历史调度策略集合中随机选择任一个调度策略作为目标调度策略。

其中，历史调度策略集合包含发电机调度和输电线路调度两种策略。进一步地，发电机调度能够连续改变电流，是一种连续调度策略；输电线路调度是通过母线切换和输电线路切换，将电流分配到更均衡地模式，是一种离散调度策略。也就是说，本申请的调度策略支持连续、离散两种调度模式的切换，使得电力系统的调度更加流畅稳定。

具体地，历史调度策略集合的任一调度策略作用于电力系统，电力系统计算每一调度策略的目标函数值，根据各调度策略的目标函数值，获取目标调度策略。

S740，控制目标电力系统以目标调度策略运行，得到参考运行状态数据。

其中，目标调度策略是指目标电力系统到达目标状态的最优调度策略。具体地，当目标调度策略作用于目标电力系统时，目标电力系统根据当前状态和目标调度策略，更新目标电力系统的目标状态。

S760，将参考运行状态数据、拓扑信息和时间序列特征输入至初始调度策略模型中得到初始调度策略模型的值。

其中，参考运行状态数据和拓扑信息是目标调度策略作用于电力系统之后生成的，时间序列特征是目标调度策略作用于电力系统的每一个时间步。具体地，将初始调度策略模型的值作为目标调度策略对应的目标函数值。

本申请实施例中，每一次状态更新都是完整的一个调度策略对电力系统的影响的量化，并且每一次状态更新都是基于上一调度策略进行的模型参数更新。因此，状态更新是遵循梯度上升规律的，即每一次调度策略的更新都是更接近最优调度策略的。

在一个实施例中，提供了一种输电线路运行控制方法，该实施例包括：

(1)、由于电力系统调度问题可以表征为马尔科夫决策过程，因此可以将电力系统调度问题转化为模型优化求解问题，获取参考调度策略模型。

(2)、通过目标电力系统的约束条件对参考调度策略模型进行调整，得到初始调度策略模型；约束条件包括运行状态数据约束条件和安全运行约束条件。

(3)、通过预设的卷积神经网络提取目标电力系统中输电线路的部署信息和目标电力系统中变电站的部署信息，得到拓扑信息。

(4)、通过预设的长短期记忆网络提取目标电力系统运行的时间序列特征。

(5)、从历史调度策略集合中随机选择任一个调度策略作为目标调度策略。

(6)、控制目标电力系统以目标调度策略运行，得到参考运行状态数据。

(7)、将参考运行状态数据、拓扑信息和时间序列特征输入至初始调度策略模型中得到初始调度策略模型的值。

(8)、根据历史调度策略集合中的调度策略、拓扑信息和时间序列特征对初始调度策略模型执行多次状态更新操作；每次状态更新操作用于求解初始调度策略模型的值。

(9)、若求解到初始调度策略模型的最大值，确定初始调度策略模型训练完成，得到调度策略模型；初始调度策略模型得到最大值时对应的调度策略为最大概率的调度策略。

(10)、根据各候选调度策略的概率值确定目标调度策略。

(11)、通过目标调度策略控制输电线路运行，以平衡电力系统中输电线路的电流。

本申请实施例中，通过将目标电力系统的初始运行状态数据输入预设的调度策略模型中，得到初始运行状态数据对应的多个候选调度策略的概率值，然后根据各候选调度策略的概率值确定目标调度策略，通过目标调度策略控制输电线路运行，以平衡该电力系统中输电线路的电流。其中，该方法中的调度策略模型是基于目标电力系统的预设的运行状态数据约束条件和安全运行约束条件构建的。由于该方法是基于预设的运行状态数据约束条件和安全运行约束条件构建电力系统的调度策略模型，相当于是在对输电线路进行运行控制时，考虑了其运行状态和安全方面的一些因素，这样构建的调度策略模型获取到的调度策略能够更加匹配输电线路的实际情况，从而可以有效地避免输电线路的运行过载问题。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的输电线路运行控制方法的输电线路运行控制装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个输电线路运行控制装置实施例中的具体限定可以参见上文中对于输电线路运行控制方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种输电线路运行控制装置800，包括概率获取模块820、策略确定模块840和电流平衡模块860，其中：

概率获取模块820，用于将目标电力系统的初始运行状态数据输入预设的调度策略模型中，得到初始运行状态数据对应的多个候选调度策略的概率值；调度策略模型是基于目标电力系统的预设的运行状态数据约束条件和安全运行约束条件构建的。

策略确定模块840，用于根据各候选调度策略的概率值确定目标调度策略。

电流平衡模块860，用于通过目标调度策略控制输电线路运行，以平衡电力系统中输电线路的电流。

在一个实施例中，概率获取模块820，包括：

第一获取单元，用于获取参考调度策略模型；

第二获取单元，用于通过目标电力系统的约束条件对参考调度策略模型进行调整，得到初始调度策略模型；约束条件包括运行状态数据约束条件和安全运行约束条件；

第三获取单元，用于对初始调度策略模型进行训练，直至初始调度策略模型训练完成，得到调度策略模型。

在一个实施例中，第三获取单元，包括：

第一获取子单元，用于获取目标电力系统中历史调度策略集合，以及目标电力系统的拓扑信息和时间序列特征；

第二获取子单元，用于根据历史调度策略集合中的调度策略、拓扑信息和时间序列特征对初始调度策略模型进行训练，直至初始调度策略模型训练完成，得到调度策略模型。

在一个实施例中，第一获取子单元，还用于通过预设的卷积神经网络提取目标电力系统中输电线路的部署信息和目标电力系统中变电站的部署信息，得到拓扑信息；通过预设的长短期记忆网络提取目标电力系统运行的时间序列特征。

在一个实施例中，第二获取子单元，还用于根据历史调度策略集合中的调度策略、拓扑信息和时间序列特征对初始调度策略模型执行多次状态更新操作；每次状态更新操作用于求解初始调度策略模型的值；若求解到初始调度策略模型的最大值，确定初始调度策略模型训练完成，得到调度策略模型；初始调度策略模型得到最大值时对应的调度策略为最大概率的调度策略。

在一个实施例中，状态更新操作用于从历史调度策略集合中随机选择任一个调度策略作为目标调度策略；控制目标电力系统以目标调度策略运行，得到参考运行状态数据；将参考运行状态数据、拓扑信息和时间序列特征输入至初始调度策略模型中得到初始调度策略模型的值。

上述输电线路运行控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种输电线路运行控制方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据各候选调度策略的概率值确定目标调度策略；

通过目标调度策略控制输电线路运行，以平衡电力系统中输电线路的电流。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：调度策略模型的构建过程，包括：

获取参考调度策略模型；

通过目标电力系统的约束条件对参考调度策略模型进行调整，得到初始调度策略模型；约束条件包括运行状态数据约束条件和安全运行约束条件；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对初始调度策略模型进行训练，直至初始调度策略模型训练完成，得到调度策略模型，包括：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取目标电力系统的拓扑信息和时间序列特征，包括：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据历史调度策略集合中的调度策略、拓扑信息和时间序列特征对初始调度策略模型进行训练，直至初始调度策略模型训练完成，得到调度策略模型，包括：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：状态更新操作，包括：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：

根据各候选调度策略的概率值确定目标调度策略；

获取参考调度策略模型；

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

根据各候选调度策略的概率值确定目标调度策略；

获取参考调度策略模型；

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(FerroelectricRandom Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(StaticRandom Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种输电线路运行控制方法，其特征在于，所述方法包括：

将目标电力系统的初始运行状态数据输入预设的调度策略模型中，得到所述初始运行状态数据对应的多个候选调度策略的概率值；所述调度策略模型是基于所述目标电力系统的预设的运行状态数据约束条件和安全运行约束条件构建的；

根据各所述候选调度策略的概率值确定目标调度策略；

通过所述目标调度策略控制所述输电线路运行，以平衡所述电力系统中输电线路的电流。

2.根据权利要求1所述的方法，其特征在于，所述调度策略模型的构建过程包括：

获取参考调度策略模型；

通过所述目标电力系统的约束条件对所述参考调度策略模型进行调整，得到初始调度策略模型；所述约束条件包括所述运行状态数据约束条件和安全运行约束条件；

对所述初始调度策略模型进行训练，直至所述初始调度策略模型训练完成，得到所述调度策略模型。

3.根据权利要求2所述的方法，其特征在于，对所述初始调度策略模型进行训练，直至所述初始调度策略模型训练完成，得到所述调度策略模型，包括：

获取所述目标电力系统中历史调度策略集合，以及所述目标电力系统的拓扑信息和时间序列特征；

根据所述历史调度策略集合中的调度策略、所述拓扑信息和所述时间序列特征对所述初始调度策略模型进行训练，直至所述初始调度策略模型训练完成，得到所述调度策略模型。

4.根据权利要求3所述的方法，其特征在于，所述获取所述目标电力系统的拓扑信息和时间序列特征，包括：

通过预设的卷积神经网络提取所述目标电力系统中输电线路的部署信息和所述目标电力系统中变电站的部署信息，得到所述拓扑信息；

通过预设的长短期记忆网络提取所述目标电力系统运行的时间序列特征。

5.根据权利要求3所述的方法，其特征在于，所述根据所述历史调度策略集合中的调度策略、所述拓扑信息和所述时间序列特征对所述初始调度策略模型进行训练，直至所述初始调度策略模型训练完成，得到所述调度策略模型，包括：

根据所述历史调度策略集合中的调度策略、所述拓扑信息和所述时间序列特征对所述初始调度策略模型执行多次状态更新操作；每次状态更新操作用于求解所述初始调度策略模型的值；

若求解到所述初始调度策略模型的最大值，确定所述初始调度策略模型训练完成，得到所述调度策略模型；所述初始调度策略模型得到最大值时对应的调度策略为最大概率的调度策略。

6.根据权利要求5所述的方法，其特征在于，所述状态更新操作包括：

从所述历史调度策略集合中随机选择任一个调度策略作为目标调度策略；

控制所述目标电力系统以所述目标调度策略运行，得到参考运行状态数据；

将所述参考运行状态数据、所述拓扑信息和所述时间序列特征输入至所述初始调度策略模型中得到所述初始调度策略模型的值。

7.一种输电线路运行控制装置，其特征在于，所述装置包括：

概率获取模块，用于将目标电力系统的初始运行状态数据输入预设的调度策略模型中，得到所述初始运行状态数据对应的多个候选调度策略的概率值；所述调度策略模型是基于所述目标电力系统的预设的运行状态数据约束条件和安全运行约束条件构建的；

策略确定模块，用于根据各所述候选调度策略的概率值确定目标调度策略；

电流平衡模块，用于通过所述目标调度策略控制所述输电线路运行，以平衡所述电力系统中输电线路的电流。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。