CN111626539A

CN111626539A - 一种基于q强化学习的电网运行断面动态生成方法

Info

Publication number: CN111626539A
Application number: CN202010140221.4A
Authority: CN
Inventors: 张蔷; 吴云亮; 邓韦斯; 李鹏; 苏寅生
Original assignee: China Southern Power Grid Co Ltd
Current assignee: China Southern Power Grid Co Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-09-04
Anticipated expiration: 2040-03-03
Also published as: CN111626539B

Abstract

本发明涉及一种基于Q强化学习的电网运行断面动态生成方法，本发明基于电网运行历史数据挖掘分析，训练得到Q强化学习智能体，本发明包括以下步骤：S1)智能体构建，确定电网运行特征指标、选定基础生成方法库，进而按照Q强化学习要求，构建智能体；S2)智能体训练，根据电网运行历史数据形成的训练集样本，利用Q强化学习训练算法，训练生成满足要求智能体的过程；S3)智能体应用，满足收敛条件且经测试集检验合格的智能体即可投入实际应用。本发明训练得到Q强化学习智能体，能够根据电网运行特征动态选择电网运行断面生成方法，以充分利用不同生成方法在不同场景下的算法优势。此外，本发明的动态生成方法能够通过优化选择不同场景下的生成算法，提升生成结果的准确率。

Description

一种基于Q强化学习的电网运行断面动态生成方法

技术领域

本发明属于电网运行断面领域的基于Q强化学习的电网运行断面动态生成方法，属于基于Q强化学习的电网运行断面动态生成方法的创新技术。

背景技术

传统的运行控制分析中，电网运行断面生成主要是依靠运行策划人员根据典型运行方式数据离线分析得到。然而上述方法一方面时效性较差，难以满足电网实时运行中在线运行控制分析的需要；另一方面准确性难以保证，容易发生人工疏忽造成运行断面疏漏等问题。为此，越来越多的研究开始聚焦于电网运行断面的自动生成方法，而目前实际应用过程中，往往还需要运行策划人员根据实际情况对自动生成结果做进一步调整优化，以确定最终的实际运行控制断面。

发明内容

本发明所提出的一种基于Q强化学习的电网运行断面动态生成方法，本发明基于电网运行历史数据挖掘分析，训练得到Q强化学习智能体，能够根据电网运行特征变化动态选择电网运行断面生成方法，以充分利用不同生成方法在不同场景下的算法优势。

为达到上述目的，本发明提供如下技术方案：

本发明基于Q强化学习的电网运行断面动态生成方法，包括以下步骤：

S1)智能体构建，需要确定电网运行特征指标、选定基础生成方法库，进而按照Q强化学习要求，构建智能体；

S2)智能体训练，根据电网运行历史数据形成的训练集样本，利用Q强化学习训练算法，训练生成满足要求智能体的过程；

S3)智能体应用，满足收敛条件且经测试集检验合格的智能体即可投入实际应用。

本发明的有益效果在于：

训练得到Q强化学习智能体，能够根据电网运行特征动态选择电网运行断面生成方法，以充分利用不同生成方法在不同场景下的算法优势。动态生成方法能够通过优化选择不同场景下的生成算法，提升生成结果的准确率。

附图说明

图1为电网运行断面自动生成方法的算法特征图；

图2为电网运行断面动态生成方法的实施框架图；

图3为智能体训练强化学习原理图；

图4为电网分区情况图；

图5为回报函数变化趋势图；

图6为逐日动态生成算法选择结果示意图；

图7为生成结果对比图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

图2为电网运行断面动态生成方法的实施框架图，本发明基于Q强化学习的电网运行断面动态生成方法，包括如下步骤：

S1)智能体构建，它是提出本方法的基础，需要确定电网运行特征指标、选定基础生成方法库，进而按照Q强化学习要求，构建智能体；

S2)智能体训练，它是根据电网运行历史数据形成的训练集样本，利用Q 强化学习训练算法，训练生成满足要求智能体的过程；

所述步骤S1的具体过程为：

S11)确定运行特征指标

所谓运行特征指标是指用于表征同一电网不同运行场景差异的关键指标。运行特征指标直接影响生成方法选择效果，必须能够结合电网运行断面生成问题要求，量化不同运行场景的内在差异。如表1所示，综合考虑不同自动生成方法所选用的基础指标，本发明从发电侧、输变电侧、用电侧三个维度共选择指标4 项，构建了运行特征指标集。

(1)发电侧选取了机组组合方式，以量化不同机组组合下全网发电能力及其空间分布；

(2)输变电侧选取了检修方式，以量化不同的输变电设备检修方式下电网传输能力的差异；

(3)负荷侧选取了最大负荷和用电量两项指标，以量化负荷水平及其时间分布。

需要特别说明的是，上述指标选取隐含了电网发电机组、输变电设备无重大投产或退役变化，电网各节点负荷特性基本稳定等前提。如果电网结构发生较大变化，可通过调整训练数据等方式解决。实际应用中，也可根据电网实际对选定的指标做调整，以提升其与待分析电网适应性。

为满足Q强化学习算法需要，上述运行特征指标数据还需要进一步处理，采用离散化、归一化等方法转化为离散整数形式。本发明中规定最后得到的运行特征指标集OCI可以向量形式表示为：

式(1)中，该指标集中共有指标I项，

为第i项指标在第t个数据样本中处理后的数值。

表1运行特征指标集

S12)基础生成方法库

基础生成方法库是不同类型、不同策略的自动生成方法的集合。当前电网运行断面自动生成方法研究成果较多，在确定基础生成方法库时需要从原理出发，尽可能全面的选择多类型的方法，以提升方法库中方法对实际电网的整体适应性。从生成方法基本原理来看，当前的自动生成方法可分为物理特性分析和智能学习分析两大类。物理特征分析类方法是从电网运行物理特性出发，采用复杂网络、社团理论等方法，计算生成电网运行控制断面。而智能学习分析类方法则是采用聚类方法、特征学习方法等机器学习算法，通过历史数据挖掘得到生成智能体，基于电网运行特征直接生成电网运行断面。可以结合上述不同类型的方法在实际中的生成效果，综合选择，以得到基础生成方法库。

规定最终选定形成的方法库GM以集合的形式可表示为：

GM＝{m¹,m²,…m^M} (2)

式(2)中，M为方法库中方法数，m^m为第m种自动生成方法。

S13)构建智能体模型

根据Q强化学习算法的需要，构建智能体需要确定其环境变量，动作空间和回报函数。在本发明所提出的动态生成问题中，环境变量即为运行特征指标集，该指标集取值即决定了环境变量在不同样本中的数值；动作空间为方法库，动作空间中对应方法被选中则取值为“1”，否则为“0”。

回报函数则是智能体训练环节不断改进决策策略的依据。结合本问题要求，回报函数为所选定生成方法的运行断面生成结果与电网运行策划人员实际执行结果之间匹配效果，可表示为：

F(m^m)＝AR-NAR (3)

式(3)中，F(m^m)为选定的自动生成方法m^m对应回报函数值，AR、NAR分别为准确率指标和不准确率指标。所谓准确率指标是指选定方法所生成的运行断面集中与运策人员最终确定运行控制集相一致的部分所占比例，不准确率指标是指不在运策人员最终确定运行控制集中部分所占比例，可表示为：

式(4)中，N^Fit、N^NFit分别为自动生成的运行断面集中与运策人员最终确定运行断面集相一致和不一致的断面数量，N^OS为运策人员所确定的运行断面集中断面数量。

进一步，所述步骤S2具体为：

智能体训练就是根据电网运行历史数据形成的训练集样本，利用Q强化学习训练算法，训练生成满足要求智能体的过程。强化学习作为当前发展最为迅速、应用最为广泛的机器学习算法，其基本思路是通过智能体与外部环境之间的交互，根据智能体下达动作后外部环境反馈结果，计算回报函数，不断优化智能体决策机制，实现策略改进。而Q学习算法是最为成熟的强化学习算法之一，本质上是一种以时序差分马尔科夫方法为基础的强化学习算法，该算法最大的优势在于免模型特征，即不需要对外部环境详细建模，从而大大降低了使用难度。

在Q强化学习算法中策略的改进是通过动作-状态值函数的迭代更新实现的。所谓动作-状态值函数是指在特定环境状态下智能体采用不同的动作策略可能获得的预期回报，则智能体最优动作策略即为选择动作-状态值函数预期回报最高的动作。Q强化学习的动作-状态值函数可表示为：

式(5)中，Q(x，a)为环境状态x下采取动作a的动作-状态值函数，R(x，x′，a)为由环境状态x经过动作a作用转移到环境状态x′所获得的回报，P(x′|x，a)为转移概率，

为在环境状态x′下所有动作可获得的最大动作-状态值函数。γ为人工给定的折扣因子。

作为免模型的机器学习算法，Q强化学习的优点在于具有较强的环境适应性和较高的收敛效率。如图1中智能体训练部分所示，Q强化学习智能体训练可分为三个步骤：

(1)执行动作，该步骤中智能体将根据检测的环境变量，按照其动作策略，从动作空间中选择并执行动作。在本发明所研究的电网运行断面自动生成问题中，该环节即为根据电网运行特征，从基础生成方法库中选择某一生成方法；

(2)回报函数计算，该步骤中智能体将根据环境变量的变化，计算回报函数，即根据该生成方法的生成断面与训练集中该场景实际执行的运行断面作对比，按照式(3)计算生成效果回报函数；

(3)策略优化，该步骤中智能体将按照式(5)更新动作状态值函数，并据此调整动作策略，即根据生成效果调整该运行场景下的生成方法选择策略。

所述步骤S3的具体过程为：

满足电力系统潮流计算收敛条件且经测试集检验合格的智能体即可投入实际应用，作为调度运行人员辅助决策的参考依据。应用过程中，根据电网实时运行数据，提取其运行特征参数作为输入量，智能体即能输出推荐采用的自动生成方法。进而按照该方法需要的参数运行计算，即可以得到电网运行断面生成结果。

由于Q强化学习动态计算输出推荐方法的执行效率较高，能够在1秒以内实现，因此本发明所提出的电网运行断面动态生成方法计算效率与基础生成方法库中各生成方法具有相当的计算效率，既能作为运策人员运行方式离线分析辅助决策的参考，也能够作为调度人员在线事故分析运行决策的依据。

下面结合实施例说明本发明的具体过程：

1、基础数据

本发明将基于某省区电网数据构造算例，以验证所提出方法的有效性。该省区电网是我国规模最大的省级电网之一，2018年全省用电量约为6323亿kWh；如图3所示，按照传统的电网分区控制模式，可将该电网划分为13个分区，正常方式下电网运行断面即可达到40个。

2、智能体构建与训练

本发明选取了2018年1月1日至2019年10月30日运行数据作为基础数据，其中2018年1月1日至2019年8月31日数据用以构造训练集；2019年9月数据作为测试集；2019年10月数据作为应用集。

电网运行特征指标选取参见表1；所确定的基础生成方法库共包括生成方法6 项：

(1)基于复杂网络理论生成方法；

(2)基于社团发现理论生成方法；

(3)基于关键支路分析的生成方法；

(4)基于改进K-means算法的智能生成方法；

(5)基于K-邻近法的智能生成方法；

(6)基于改进支持向量机和两步式聚类分析的智能生成法。

其中物理特征分析类算法选择3项，智能学习分析类算法选择3项，以提升基础生成方法库的覆盖面。

利用上述方法，对智能体训练，其回报函数变化如图5所示。可以发现，经过约25次训练，回报函数即趋于平稳，表明该算法具有较高的收敛速度。

3、应用效果分析

图6所示的色块图展示了应用数据集中，逐日动态生成算法选择结果，图中每一行代表一个方法被选择的情况，从下到上依次为方法一到方法六；若色块为黑框色块，则代表在当天选中该方法。

可以看出方法四到方法六被选中的概率明显高于方法一至方法四，该情况与两种类型实际应用中表现相符，研究表明由于智能学习分析类算法往往聚焦于电网运行特征与选中运行断面间的对应关系，因此更容易克服传统物理特征分析往往仅能聚焦于电网运行控制要求中某一方面，而造成所生成的运行断面不够完整、准确率较低的问题。

图7中进一步对比了本发明所提出方法与基础方法库中各方法生成结果的准确率指标与不准确率指标。可以发现，本发明所提出的方法生成结果显著优于各基础预测方法。在应用集对应的一个月时间内，本发明所提出的方法准确率达91.2％，较基础方法库中表现最好的方法高1.5％；由准确率与不准确率综合计算得到的生成效果评价指标达90.3％，较基础方法库中表现最好的方法高5.2％。这一结果表明本发明所提出的方法能够助于进一步提升电网运行断面自动生成结果。

本发明提出一种基于Q强化学习的电网运行断面动态生成方法，该方法的出发点在于依据不同方法在电网不同运行场景下的运行断面生成准确率，自动选择与实际运行场景匹配效果最好的自动生成方法，从而提高自动生成结果的有效性。最后，通过某地区电网实际数据构造算例，验证了所提出方法的有效性。

本发明所提出的电网运行断面动态生成方法计算效率与所基于的基础方法具有相当的计算效率，即能作为运策人员运行方式离线分析辅助决策的参考，也能够作为调度人员在线事故分析运行决策的依据。

通过采用本发明的方法，基于某电网数据构造的算例表明，动态生成方法能够通过优化选择不同场景下的生成算法，提升生成结果的准确率。在应用样本集中，该方法提高准确率近5.2％。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于Q强化学习的电网运行断面动态生成方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于Q强化学习的电网运行断面动态生成方法，其特征在于：所述步骤S1具体为：

S11)确定运行特征指标

运行特征指标是指用于表征同一电网不同运行场景差异的关键指标，运行特征指标直接影响生成方法选择效果，必须能够结合电网运行断面生成问题要求，量化不同运行场景的内在差异，综合考虑不同自动生成方法所选用的基础指标，从发电侧、输变电侧、用电侧三个维度共选择指标4项，构建了运行特征指标集：

(3)负荷侧选取了最大负荷和用电量两项指标，以量化负荷水平及其时间分布；

最后得到的运行特征指标集OCI可以向量形式表示为：

式(1)中，该指标集中共有指标I项，

为第i项指标在第t个数据样本中处理后的数值；

S12：基础生成方法库

基础生成方法库是不同类型、不同策略的自动生成方法的集合，当前电网运行断面自动生成方法研究成果较多，在确定基础生成方法库时需要从原理出发，尽可能全面的选择多类型的方法，以提升方法库中方法对实际电网的整体适应性；从生成方法基本原理来看，当前的自动生成方法分为物理特性分析和智能学习分析两大类，物理特征分析类方法是从电网运行物理特性出发，采用复杂网络、社团理论等方法，计算生成电网运行控制断面；智能学习分析类方法是采用聚类方法、特征学习方法的机器学习算法，通过历史数据挖掘得到生成智能体，基于电网运行特征直接生成电网运行断面；结合上述不同类型的方法在实际中的生成效果，综合选择，以得到基础生成方法库；

规定最终选定形成的方法库GM以集合的形式可表示为：

GM＝{m¹,m²,…m^M} (2)

式(2)中，M为方法库中方法数，m^m为第m种自动生成方法；

S13)构建智能体模型

根据Q强化学习算法的需要，构建智能体需要确定其环境变量，动作空间和回报函数，在所提出的动态生成问题中，环境变量即为运行特征指标集，该指标集取值即决定了环境变量在不同样本中的数值；动作空间为方法库，动作空间中对应方法被选中则取值为“1”，否则为“0”；

回报函数则是智能体训练环节不断改进决策策略的依据，结合本问题要求，回报函数为所选定生成方法的运行断面生成结果与电网运行策划人员实际执行结果之间匹配效果，可表示为：

F(m^m)＝AR-NAR (3)

式(3)中，F(m^m)为选定的自动生成方法m^m对应回报函数值，AR、NAR分别为准确率指标和不准确率指标；所谓准确率指标是指选定方法所生成的运行断面集中与运策人员最终确定运行控制集相一致的部分所占比例，不准确率指标是指不在运策人员最终确定运行控制集中部分所占比例，可表示为：

3.根据权利要求1所述的基于Q强化学习的电网运行断面动态生成方法，其特征在于：所述步骤S11)指标选取隐含了电网发电机组、输变电设备无重大投产或退役变化，电网各节点负荷特性基本稳定等前提，如果电网结构发生较大变化，通过调整训练数据方式解决，实际应用中，根据电网实际对选定的指标做调整，以提升其与待分析电网适应性；

为满足Q强化学习算法需要，上述运行特征指标数据还需要进一步处理，采用离散化、归一化等方法转化为离散整数形式。

4.根据权利要求1所述的基于Q强化学习的电网运行断面动态生成方法，其特征在于：所述步骤S2具体为：

智能体训练就是根据电网运行历史数据形成的训练集样本，利用Q强化学习训练算法，训练生成满足要求智能体的过程；强化学习基本思路是通过智能体与外部环境之间的交互，根据智能体下达动作后外部环境反馈结果，计算回报函数，不断优化智能体决策机制，实现策略改进；而Q学习算法是一种以时序差分马尔科夫方法为基础的强化学习算法。

5.根据权利要求2所述的基于Q强化学习的电网运行断面动态生成方法，其特征在于：所述在Q强化学习算法中策略的改进是通过动作-状态值函数的迭代更新实现的；所谓动作-状态值函数是指在特定环境状态下智能体采用不同的动作策略可能获得的预期回报，则智能体最优动作策略即为选择动作-状态值函数预期回报最高的动作；Q强化学习的动作-状态值函数可表示为：

式(5)中，Q(x,a)为环境状态x下采取动作a的动作-状态值函数，R(x,x',a)为由环境状态x经过动作a作用转移到环境状态x'所获得的回报，P(x'|x,a)为转移概率，

为在环境状态x'下所有动作可获得的最大动作-状态值函数，γ为人工给定的折扣因子。

6.根据权利要求5所述的基于Q强化学习的电网运行断面动态生成方法，其特征在于：所述作为免模型的机器学习算法，Q强化学习智能体训练可分为三个步骤：

(1)执行动作，该步骤中智能体将根据检测的环境变量，按照其动作策略，从动作空间中选择并执行动作；在研究的电网运行断面自动生成问题中，该环节即为根据电网运行特征，从基础生成方法库中选择某一生成方法；

7.根据权利要求1至6任一项所述的基于Q强化学习的电网运行断面动态生成方法，其特征在于：所述步骤S3具体为：

满足电力系统潮流计算收敛条件且经测试集检验合格的智能体即可投入实际应用，作为调度运行人员辅助决策的参考依据；应用过程中，根据电网实时运行数据，提取其运行特征参数作为输入量，智能体即能输出推荐采用的自动生成方法；进而按照该方法需要的参数运行计算，即得到电网运行断面生成结果。