CN117726478A

CN117726478A - 电力系统机组调度智能决策方法、终端设备及存储介质

Info

Publication number: CN117726478A
Application number: CN202310151090.3A
Authority: CN
Inventors: 车亮; 任婕; 管昱翔
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2024-03-19

Abstract

本发明公开了一种电力系统机组调度智能决策方法、终端设备及存储介质，基于电力系统历史运行数据，利用降维方法提取典型特征，并采用客观赋权法配置特征权重从而构建特征指标集；利用高斯混合聚类模型进行多场景划分，作为深度强化学习方法的前端优化措施，削弱在源荷不确定性下多场景数据分布差异可能导致的强化学习决策次优性问题；将机组调度问题建模为序贯决策马尔可夫过程，构建基于深度强化学习的多场景机组调度模型，解决原单一场景模型面临的局限性。通过动态步长更新机制和并行计算，提升了决策网络离线训练阶段参数更新效率。

Description

电力系统机组调度智能决策方法、终端设备及存储介质

技术领域

本发明涉及电力系统调度领域，特别是一种电力系统机组调度智能决策方法、终端设备及存储介质。

背景技术

在新能源高渗透率的新型电力系统中，源、荷具有高度波动性和不确定性，对电力系统的安全与经济调度运行提出了新的挑战。

目前针对新型电力系统电网调度，主要有基于物理模型与数据驱动两种解决路径。由于新能源渗透率提高、网络拓扑复杂化，加剧了基于物理模型的调度实施难度，尤其是直接求解大规模、非线性特征的混合整数规划问题存在计算时间长、模型精度要求高、人工调控依赖性强、生成的调度方案较为保守且难以适应实际系统的动态变化等问题。

深度强化学习方法具有强大的感知拟合与探索决策能力。该类方法通过智能体与电网运行仿真环境交互，自适应学习控制策略，灵活处理风电、光伏、多能负荷等源荷不确定性问题，实现优化调度决策。在电力系统新能源渗透率提高、源-荷不确定性加强的趋势下，基于强化学习的决策方案在具有高维状态动作空间的大规模复杂调度问题上具有很高应用价值。

然而，传统强化学习算法在大规模、强非线性、差异化场景下，计算复杂度升高。尤其是在电力系统调度领域的应用存在显著不足。其中关键问题之一是分布偏移问题，即由于训练集与测试集数据分布不一致，导致智能体在线决策表现不佳，难以保证最优调度。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种电力系统机组调度智能决策方法、终端设备及存储介质，通过划分多场景削弱源荷不确定性并差异化训练各场景下机组调度策略，实现最优调度。

为解决上述技术问题，本发明所采用的技术方案是：一种电力系统机组调度智能决策方法，包括以下步骤：

S1、采集电网实际运行历史数据作为原始数据集，利用所述原始数据集构建训练集和测试集；

S2、筛选特征指标，利用所述特征指标处理所述训练集，得到包含多个特征指标的数据集，采用CRITIC客观赋权法，为所述数据集中的各特征指标值配置权重，构建特征指标集；

S3、将所述特征指标集作为高斯混合模型的输入，输出为划分出的场景类别及各场景类别特征指标集；

S4、利用各场景类别特征指标集对应的训练集数据构造当前状态s_t，生成调度策略π并抽样得到动作a_t，根据动作计算当前状态s_t下的即时奖励r_t，并生成新的环境状态s_t+1，得到生成样本序列＜s_t，a_t，r_t，s_t+1＞，将所述生成样本序列作为离线决策网络中价值网络和策略网络的输入，训练价值网络和策略网络，得到各个场景对应的决策模型。进而可以利用训练好的策略网络对测试集进行在线决策，验证模型效果。

目前基于数据驱动的面向单一场景的机组调度决策方法，难以有效解决电力系统不同场景数据分布差异导致的决策次优问题，本发明筛选具有明确物理意义的刻画源荷特性的特征指标，从源荷整体水平与变化趋势两个层面刻画源荷不确定性，相较于特征降维方法，能充分保留源荷原始信息并有效提取不同场景差异化特征；针对各特征指标，需配置权重系数以客观反映其刻画源荷不确定性的重要程度，本发明采用CRITIC客观赋权法既考虑特征指标间的差异性，同时消除相关性较强的特征指标影响，能减少信息重叠，适用于该多指标多评价对象的综合评价问题；本发明采用高斯混合模型作为聚类分析方法，高斯混合模型为包含多个子高斯模型的混合概率模型，相较于其他聚类分析方法，如K-均值聚类法、层次聚类法、模糊C均值聚类法，通过合理设置子高斯模型个数即能有效逼近任何连续的概率分布，适用于描述不同场景源荷差异特性，实现多场景划分；本发明采用基于Actor-Critic框架的近端策略优化算法(PPO)作为决策网络，训练阶段引入优势函数动态更新步长，在线阶段利用策略网络进行实时决策，相较于其他深度强化学习算法，如深度Q网络(DQN)、深度确定性策略梯度(DDPG)，该算法收敛性好且决策效率高，解决了现有电力系统机组调度智能决策过程计算复杂、计算效率低的问题。

步骤S2中，所筛选的特征指标从整体水平和变化趋势两个角度刻画源荷不确定性。从整体角度，筛选的特征指标包括：新能源出力最大值I₁，反映新能源最大出力水平；新能源出力均值I₂，反映新能源平均出力水平；负荷最高利用小时率I₃，反映设备时间利用效率；日峰谷差率I₄，反映电网调峰能力；新能源日峰谷差率I₅，反映电网新能源出力整体变化。从变化趋势角度，筛选的特征指标包括：负荷率I₆，反映负荷整体变化；日负荷波动率I₇，反映负荷变化的不平稳程度；新能源日出力波动率I₈，反映新能源出力变化的不平稳程度。

各特征指标的计算公式分别为： I₆＝P_av/P_max，/> 其中，T为全天按最小时间颗粒度划分的时段数，/> 分别为新能源出力的平均、最大、最小值，P_av、P_max、P_min分别为负荷的平均、最大、最小值，P_t、/>分别为t时刻的负荷出力、新能源出力，α_t、/>分别为负荷出力、新能源出力的最小时间颗粒度波动率，P(t)为t时刻的负荷出力；P_av、P_max分别为负荷的均值和最大值。

本发明所筛选的具有明确物理意义的刻画源荷特性的特征指标，从整体水平与变化趋势两个角度对负荷和新能源进行刻画，有效提取了不同场景的源荷差异性特征。相较于基于数据关系映射的特征降维方法，对数据结构无要求；相较于仅考虑单一角度的特征指标，能全面保留原始信息。

第j个特征指标值权重ω_j的计算公式为：其中，C_j为第j个指标承载的信息量，/>σ_z为m个待评价对象第z个特征指标的标准差，z＝1，2…，8；σ_j为m个待评价对象第j个特征指标的标准差，/>为m个待评价对象第j个特征指标的均值；X′_z为归一化处理后的m个待评价对象的第z个特征指标值；X′_j为归一化处理后的m个待评价对象的第j个特征指标值；r_zj为第z个与第j个特征指标间的相关系数；x_ij为第i个对象第j项特征指标的数值；对于正向指标，对于负向指标，/>x_j为m个待评价对象第j项特征指标的数值；所述正向指标是指新能源出力最大值I₁，新能源出力均值I₂，负荷最高利用小时率I₃，负荷率I₆；所述负向指标是指日峰谷差率I₄，新能源日峰谷差率I₅，日负荷波动率I₇，新能源日出力波动率I₈。

权重表征各特征指标对于刻画源荷不确定性的重要程度，权重配置方法会显著影响评价结果的客观准确性，本发明采用的CRITIC客观赋权法是适用于多指标多评价对象的综合评价方法，通过引入对比强度与冲突性，充分考虑特征指标间的差异性和关联性，相较于主观赋权法和传统客观赋权法，评价结果更加客观全面，可信度更高。

步骤S3中，高斯混合模型参数的确定过程包括：

1)根据贝叶斯定理计算后验概率分布γ_ik：其中，所述高斯混合模型包括由K个子高斯分布组成的混合分布，K表示子高斯模型个数，μ_k，∑_k，σ_k，α_k分别为第k个子高斯模型的期望、方差或协方差、在高斯混合模型中的概率、权重，p(x_i|μ_k，∑_k，σ_k)为第k个子高斯分布的混合概率模型；

2)根据所述后验概率分布更新高斯混合模型的参数：

其中，μ′_k、∑′_k、α′_k分别对应μ_k，σ_k，α_k更新后的参数，x_i为第i个待评价对象，i＝1，2，3，...，m；m为待评价对象个数；

3)重复步骤1)和步骤2)，直至参数收敛，得到更新后的参数，即得到高斯混合模型。

本发明采用期望最大化(Expectation-maximization algorithm，EM)算法进行高斯混合模型参数估计，通过重估公式迭代更新模型参数，能降低最大似然估计计算复杂度，且保证算法有效收敛。

步骤S3中，基于贝叶斯信息准则，通过逐步逼近法，确定高斯混合模型子高斯模型个数K；贝叶斯信息准则公式如下：C_BIC＝Kln(m)-2ln(L)；其中，C_BIC为贝叶斯公式值，用于评估高斯混合模型；L为高斯混合模型最大似然函数值；m为待评价对象数量。

贝叶斯信息准则通过平衡模型复杂度与模型对数据分布描述能力，可选择出最大程度拟合数据分布且保证模型复杂度较低的子高斯模型个数，是确定高斯混合模型子高斯模型个数的有效方法。

步骤S4中，策略网络所优化的目标函数L^CLIP(θ)为：

其中，θ为策略网络参数，clip为剪切函数，为控制剪切区间的超参数，/> 表示新、旧策略采样概率比，π_θ(a|s)为新策略采样概率，/>为旧策略采样概率，A(s_t，a_t)在状态s_t下采取动作a_t相较于采取平均动作的优势估计值；A(s_t，a_t)＝Q_u(s_t，a_t)-V_u(s_t)，V_u(s_t)＝E(R_t|s_t；π)，Q_u(s_t，a_t)为动作价值函数，表示在状态s_t下按照策略π执行动作a_t的奖励期望，V_u(s_t)为状态s_t下价值函数，表示在状态s_t下按照策略π执行所有动作的奖励期望；E(·)为期望函数，R_t为累积奖励。

进一步地，本发明的方法还包括：

S5、利用所述原始数据集构建测试集，在所述测试集内随机选取某日特征数据集，判断某日特征数据集所属场景后匹配至对应决策模型进行调度决策。

作为一个发明构思，本发明还提供了一种终端设备，包括存储器、处理器及存储在存储器上的计算机程序；所述处理器执行所述计算机程序，以实现本发明上述方法的步骤。

作为一个发明构思，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序/指令；所述计算机程序/指令被处理器执行时实现本发明上述方法的步骤。

与现有技术相比，本发明所具有的有益效果为：

1、本发明针对深度强化学习方法用于电力系统调度存在的分布偏移问题，建立基于物理意义特征指标及客观赋权法的特征指标集作为多场景划分依据，提出多场景划分作为深度强化学习方法的前端优化措施，克服了电力系统源荷不确定性和复杂多场景对机组调度的影响；

2、本发明充分考虑新型电力系统安全、经济、绿色的调度目标及调度决策需求，设计了强化学习状态、动作空间及奖励函数机制，提出了基于多场景划分改进深度强化学习的新型电力系统智能调度决策方法；

3、本发明建立融合动态步长更新机制的近端策略优化算法差异化训练各场景离线决策网络，通过并行计算提升训练效率，实现了各场景下的最优决策。

附图说明

图1为本发明实施例1的整体架构图；

图2为本发明实施例1的基于BIC准则最佳多场景划分的示意图；

图3为本发明实施例1的多场景划分结果示意图；

图4为本发明实施例1的基于近端策略优化算法的离线训练框架示意图；

图5为本发明实施例1的多场景划分前后回合平均奖励对比的示意图；

图6为本发明实施例1的多场景划分前后回合平均决策步长对比的示意图；

图7为本发明实施例1的多场景调度决策下关键节点电压情况示意图；

图8为本发明实施例1的多场景调度决策下电网网损情况示意图；

图9为本发明实施例1的多场景调度决策下新能源消纳情况示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中，术语“第一”、“第二”和其它类似词语并不意在暗示任何顺序、数量和重要性，而是仅仅用于对不同的元件进行区分。在本文中，术语“一”、“一个”和其它类似词语并不意在表示只存在一个所述事物，而是表示有关描述仅仅针对所述事物中2的一个，所述事物可能具有一个或多个。在本文中，术语“包含”、“包括”和其它类似词语意在表示逻辑上的相互关系，而不能视作表示空间结构上的关系。例如，“A包括B”意在表示在逻辑上B属于A，而不表示在空间上B位于A的内部。另外，术语“包含”、“包括”和其它类似词语的含义应视为开放性的，而非封闭性的。例如，“A包括B”意在表示B属于A，但是B不一定构成A的全部，A还可能包括C、D、E等其它元素。

以下以修正的IEEE118节点拓展系统为例，对本发明基于深度强化学习的多场景机组调度决策方法进行说明与验证。

实施例1

如图1所示，本实施例提出了一种基于高斯多场景划分与深度强化学习的电力系统机组调度智能决策方法，包括以下步骤：

S1、从某省级电网实际数据中抽取近一年运行方式数据，时间颗粒度为5min，作为初始数据集(即原始数据集)，并将初始数据集划分为训练集和测试集，利用训练集对基于深度强化学习的多场景机组调度模型决策网络进行训练，针对测试集所涵盖的场景，如稳定运行场景，新能源出力与负荷整体水平稳定；负荷波动场景，负荷受用电需求影响，变化趋势明显，但新能源出力整体水平稳定；新能源波动场景，新能源受自然条件限制，变化趋势明显，但负荷整体水平稳定，利用训练完成的决策模型策略网络在线决策，验证模型效果。数据包括：最小时间颗粒度下各个节点负荷值、各新能源机组最大出力。

S2、基于特征指标I₁～I₈处理上述训练集，利用CRITIC客观赋权法配置各特征指标权重，构建作为多场景划分依据的特征指标集，通过训练完毕的高斯混合模型进行多场景划分，并采用评价体系评估多场景划分效果。

步骤S2的具体实现过程包括：

S2.1、用基于物理意义的特征指标对数据集进行预处理，得到370条包含8个特征指标的数据集。

S2.2、用CRITIC客观赋权法为数据集的各特征指标赋予权重，考虑提升新能源消纳率、设备利用率，及平滑负荷/新能源出力变化趋势，选取负荷率、最高利用小时率、新能源最大值、新能源均值为正向指标，日峰谷差率、日负荷波动率、新能源日峰谷差率、新能源日出力波动率为负向指标，计算后各指标权重如表1所示：

表1各特征指标权重配置

本实施例中，新能源出力最大值(I₁)，反映新能源最大出力水平；新能源出力均值(I₂)，反映新能源平均出力水平；负荷最高利用小时率(I₃)，反映时间利用效率；日峰谷差率(I₄)，反映电网调峰能力；新能源日峰谷差率(I₅)，反映电网新能源出力整体变化负荷率(I₆)，反映负荷变化情况；日负荷波动率(I₇)，反映负荷变化的不平稳程度；新能源日出力波动率(I₈)，反映新能源出力变化的不平稳程度：

I₆＝P_av/P_max，/>T为全天按最小时间颗粒度划分的时段数，/>分别为新能源出力的平均、最大、最小值，P_av、P_max、P_min分别为负荷的平均、最大、最小值，P_t、/>分别为t时刻的负荷、新能源出力，α_t、/>分别为负荷、新能源出力的最小时间颗粒度波动率。

S2.3、将数据集按照表1配置特征权重，构建特征指标集；

本实施例中，为消除量纲影响，采取min-max归一化方法处理特征指标，如下式：

正向指标：

负向指标：

假设有m个待评价对象，i＝1，2…，m；I₁～I₈共8个特征指标，j＝1，2…，8；x_ij为第i个对象第j项特征指标的数值；x_j为m个评价对象第j项特征指标数值。

计算特征指标信息承载量，标准差衡量对比强度，相关系数衡量冲突性，如下式：

对比强度：

冲突性：

信息承载量：

式中，σ_z为第z个指标的标准差，z＝1，2…，8；σ_j为第j个指标的标准差；为m个待评价对象第j个指标的均值；X′_z为归一化处理后的m个待评价对象第z个指标；X′_j为归一化处理后的m个待评价对象第j个指标；r_zj为第z个与第j个指标间的相关系数，所使用的是线性相关皮尔逊系数；C_j为第j个指标承载的信息量，其值越大则权重也越大。

计算各特征指标的客观权重，计算式如下：

式中，ω_j为第j个指标信息量占总信息量比重，即该特征指标客观权重。

通过上述计算，得到表1中各特征指标的权重配置。

S2.4、通过EM算法估算高斯混合模型参数，基于BIC准则选取最佳场景划分数量(即子高斯模型个数)，如图2所示，最终选取相同的完全协方差矩阵，最佳场景划分数设置为3。

本实施例中，构建高斯混合模型作为多场景划分的基础，其概率分布表示如下：

τ_k＝(μ_k，∑_k，σ_k)；

式中，高斯混合模型为含有K个子高斯分布的混合概率模型；x为样本集合；μ_k，∑_k，σ_k，α_k分别为第k个子高斯模型的期望、方差(或协方差)、在混合模型中的概率、权重；τ为关于期望、方差(或协方差)、在混合模型中的概率的参数；τ_k为关于第k个子高斯模型的期望、方差(或协方差)、在混合模型中的概率的参数；为高斯混合模型第k个子高斯模型的概率分布；P(·)为概率密度函数；K为子高斯模型个数。

利用极大似然函数估计高斯混合模型参数，如下式：

本实施例中，采用期望最大化(Expectation-maximization algorithm，EM)算法求解高斯混合模型参数，降低最大似然估计的计算复杂度，具体步骤如下：

1)、初始化模型的期望、方差(或协方差)、在混合模型中的概率、权重相关参数；

2)、期望步(E-step)：根据贝叶斯定理计算后验概率分布，计算式如下：

3)、最大化步(M-step)：根据E-step的结果值求解更新模型的参数，计算式如下：

D、经过步骤B和步骤C的计算，直至参数收敛，参数收敛表达式如下，或达到最大迭代轮数，得到训练完毕的高斯混合模型。

||τ_i+1-τ_i||＜∈

式中，∈为一个非常小的正数，表示经过一次迭代之后参数变化非常小。τ_i+1为第i+1次迭代获得的参数，τ_i为第i次迭代获得的参数。

S2.5、用训练完毕的高斯混合聚类模型进行多场景划分，结果如图3所示，依据多场景划分效果评价体系，计算各评价指标值，如表2所示：

表2多场景评价指标体系

本实施例中，基于贝叶斯信息准则(Bayesian Information Criterion，BIC)，通过逐步逼近法，确定高斯混合模型子高斯模型个数，贝叶斯公式如下：C_BIC＝Kln(m)-2ln(L)。式中，C_BIC为贝叶斯公式值，用于评估高斯混合模型，K为高斯混合模型子高斯模型个数；L为高斯混合模型最大似然函数值。

本实施例中，将特征指标集作为高斯混合模型的输入，进行场景划分，其中场景数量为S2.4计算所得，输出为划分出的场景类别及各场景类别的特征指标集，根据模型输出结果可得到各场景训练集。

本实施例中，为评估多场景划分方法的效果，构建包含以下指标的评价体系：

轮廓系数指标(Silhouette Coefficient，SC)，其反映同一场景内数据聚合性和不同场景间数据分离性：

式中，a、b分别为当前数据与同类其他数据、与最接近的另一类数据的平均距离。

方差比指标(Calinski-Harbasz，CH)，其基于类间方差和类内方差，用以评估同场景内数据的紧密度与不同场景内数据的分离度，其值越大表示多场景划分效果越好：

式中，B_K、W_K分别为不同类场景间、同类场景内数据间的协方差矩阵；tr为矩阵的迹。

划分有效性指标(Davies-Bouldin index，DBI)，其综合考量类内数据的相似度与类间数据的差异度，其取值越小则表示场景划分效果越好：

式中，为第i类样本到其类中心的平均欧氏距离；||ω_i-ω_j||₂为第i类和第j类的类中心欧氏距离。

S3、搭建基于电网拓扑、设备模型的交流潮流新型电力系统仿真交互环境，设计合理的动作、状态空间及考虑调度目标的奖励函数机制。其中，状态动作、空间设置如表3所示。

表3状态、动作空间设置

考虑调度目标重要程度配置各子奖励权重如表4所示：

表4子奖励函数权重设置

本实施例中，状态空间包含：负荷有功、负荷无功、负荷所在节点电压幅值、机组有功出力、机组无功出力、机组电压幅值、支路电流负载率、下一时间步的负荷预测值、机组开关机状态、关机机组允许重启的剩余时间步、重启机组允许关机的剩余时间步、已断开支路恢复连接的剩余时间步、支路已连续软过载的剩余时间步。

动作空间包含：机组有功出力调整值和机组电压调整值。

建立反映新型电力系统安全(r_safe)、经济(r_eco)、绿色(r_env)运行调度目标的奖励函数，分别设置如下：

安全性奖励r_safe由强化学习训练仿真环境接收调度指令后进行潮流计算获得：

r_safe＝r_line+r_q+r_v+r_balance；

其中各项如下：

1)线路功率越限度：

N_line为电网支路个数，I_i和T_i为支路i的电流和热极限，δ为避免分母为零的常数值。

2)无功出力越限度：

式中，N_gen为机组总个数，q_i、分别为机组i的无功出力和无功上、下限。

3)节点电压越限度：

r_v＝0 otherwise

式中，N_i为电网节点个数，v_i、分别为节点i的电压和电压上、下限。

4)平衡机组功率越限度：

r_balance＝0 otherwise

式中，N_balance为平衡机组个数，p_i、为、/>分别为平衡机组i的有功出力和有功上、下限，C_max和C_min为常数值，分别为1.1和0.9。

经济性奖励r_eco为智能体在时间步t做出的调度决策下产生的机组运行费用：

式中，a，b，c为机组运行成本系数，d为机组启停成本，新能源机组和平衡机组始终保持开机状态，各火电机组有功出力p_i为零时判断为关机状态。

环境奖励r_env为新能源消纳率，即新能源消纳量占新能源最大出力之比：

式中，N_new为新能源机组个数，分别为新能源机组i在当前时间步的实际、最大有功出力。

r＝r_safe+r_eco+r_env；

式中，r为包含安全性奖励r_safe、经济性r_eco、环境奖励r_env的奖励函数。

S4、采用近端策略优化算法差异化训练各场景下离线训练策略(朱介北，徐思旸.一种基于深度强化学习的电网安全运行策略智能优化方法[P].天津市：CN114048903A，2022-02-15.)，训练框架如图4所示。策略网络收敛后训练阶段各场景下回合平均奖励与回合平均决策步长如图5和图6。

本实施例中，对于划分的多个场景，均采用基于近端策略优化算法的离线决策网络进行差异化训练。近端策略优化算法基于Actor-Critic框架，离线训练决策网络过程包括生成样本序列、价值网络训练与策略网络训练。首先，各场景策略网络根据其对应场景训练集构造当前状态s_t，生成调度策略π并抽样得到动作a_t，电力系统仿真环境根据动作计算当前状态s_t下即时奖励r_t，并生成新的环境状态s_t+1，得到生成样本序列＜s_t，a_t，r_t，s_t+1＞，价值网络与策略网络提取样本序列进行训练更新。

价值网络通过构造价值网络损失函数进行梯度更新，价值网络损失函数L^V(u)为：

L^V(u)＝E(r_t+γV_u(s_t+1)-V_u(s_t))²；

V_u(s_t)＝E(R_t|s_t；π)；

R_t＝r_t+γr_t+1+γ²r_t+2+…；

式中，价值网络参数更新表达式为：

式中，E(·)为期望函数，V_u(s_t)为状态s_t下价值函数，表示在状态s_t下按照策略π执行所有动作的奖励期望，R_t为累积奖励，R_t＝r_t+γr_t+1+γ²r_t+2+…；r_t为当前状态s_t下由奖励函数r计算得到的即时奖励，u^*为价值网络参数更新值，u为价值网络参数，α_u为价值网络学习率，为价值网络损失函数关于参数u的梯度，γ为折扣因子。

策略网络引入优势函数作为策略网络损失函数进行参数更新，策略网络的损失函数(即优势函数)A(s_t，a_t)为：

A(s_t，a_t)＝Q_u(s_t，a_t)-V_u(s_t)；

Q_u(s_t，a_t)＝E(R_t|s_t，a_t，π)；

式中，A(s_t，a_t)为在状态s_t下采取动作a_t相较于采取平均动作的优势估计值，Q_u(s_t，a_t)为动作价值函数，表示在状态s_t下按照策略π执行动作a_t的奖励期望。

考虑策略网络训练对于策略梯度学习率更新的敏感，近端策略优化算法引入剪切函数限制新旧策略采样概率比，策略网络所优化的目标函数L^CLIP(θ)为：

式中，θ为策略网络参数，clip为剪切函数，为控制剪切区间的超参数，clip用来确保新旧策略的采样概率比总处于区间/>之内，防止基于策略梯度更新的算法失稳；π_θ(a|s)为新策略采样概率，/>为旧策略采样概率，/>表示新旧策略采样概率比，lr_t(θ)需要尽量靠近1。

策略网络参数更新表达式为：

式中，θ^*为策略网络参数更新值，α_θ为策略网络学习率，为目标函数关于参数θ的梯度。

通过不断更新价值网络与策略网络使决策网络能更准确的评估动作价值并进行动作选择，通过决策网络与环境不断交互，直至决策网络训练收敛，得到能进行在线智能调度决策的策略网络。

S5、在测试集内随机选取某日特征数据集，判断所属场景后匹配至对应策略网络进行调度决策。关键节点81的节点电压情况、电网网损情况和节点10的新能源消纳情况分别如图7、图8和图9。

综合实验结果，可以得出：

1)根据表2可知，利用多场景评价指标体系对多场景划分效果进行评估，轮廓系数、方差比准则、划分有效性指标值均在合理取值范围内且表现良好，说明本发明提出的多场景划分方法的有效性。

2)根据图5、图6可知，在离线训练决策网络阶段，进行多场景划分后的各场景相较原始数据，回合平均奖励与回合平均决策步长均得到大幅度提升。

3)根据图7、图8可知，对在测试集内随机选取的某日特征数据集，关键节点81的节点电压值在0.994～1.010范围内，严格满足电压不越限的安全运行的调度目标；电网网损在0.40～0.75范围内，满足经济运行的调度目标；新能源机组消纳趋近新能源机组出力上限值，满足绿色运行的调度目标。

实施例2

本发明实施例2提供一种对应上述实施例1的终端设备，终端设备可以是用于客户端的处理设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行上述实施例的方法。

本实施例的终端设备包括存储器、处理器及存储在存储器上的计算机程序；处理器执行存储器上的计算机程序，以实现上述实施例1方法的步骤。

在一些实现中，存储器可以是高速随机存取存储器(RAM：Random AccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

在另一些实现中，处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器，在此不做限定。

实施例3

本发明实施例3提供了一种对应上述实施例1的计算机可读存储介质，其上存储有计算机程序/指令。计算机程序/指令被处理器执行时，实现上述实施例1方法的步骤。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种电力系统机组调度智能决策方法，其特征在于，包括以下步骤：

S2、筛选特征指标，利用所述特征指标处理所述训练集，得到包含多个特征指标的数据集，采用CRITIC客观赋权法，为所述数据集中的各项特征指标值配置权重，构建特征指标集；

S4、利用各场景类别特征指标集对应的训练集数据，构造当前状态s_t，生成调度策略π并抽样得到动作a_t，根据动作计算当前状态s_t下的即时奖励r_t，并生成新的环境状态s_t+1，得到生成样本序列<s_t,a_t,r_t,s_t+1>，将所述生成样本序列作为离线决策网络中价值网络和策略网络的输入，训练价值网络和策略网络，得到各个场景对应的决策模型。

2.根据权利要求1所述的电力系统机组调度智能决策方法，其特征在于，步骤S2中，筛选的特征指标包括：新能源出力最大值I₁，新能源出力均值I₂，负荷最高利用小时率I₃，日峰谷差率I₄，新能源日峰谷差率I₅，负荷率I₆，日负荷波动率I₇，新能源日出力波动率I₈。

3.根据权利要求2所述的电力系统机组调度智能决策方法，其特征在于，各特征指标的计算公式分别为：

I₆＝P_av/P_max，/>

其中，T为全天按最小时间颗粒度划分的时段数，分别为新能源出力的平均、最大、最小值，P_av、P_max、P_min分别为负荷的平均、最大、最小值，P_t、/>分别为t时刻的负荷出力、新能源出力，α_t、/>分别为负荷出力、新能源出力的最小时间颗粒度波动率，P(t)为t时刻的负荷出力；P_av、P_max分别为负荷的均值和最大值。

4.根据权利要求2所述的电力系统机组调度智能决策方法，其特征在于，第j个特征指标值权重ω_j的计算公式为：其中，C_j为第j个指标承载的信息量，σ_z为m个待评价对象第z个特征指标的标准差，z＝1,2…,8，σ_j为m个待评价对象第j个特征指标的标准差，为m个待评价对象第j个特征指标的均值；X_z ^′为归一化处理后的m个待评价对象的第z个特征指标值；X_j ^′为归一化处理后的m个待评价对象的第j个特征指标值；r_zj为第z个与第j个特征指标间的相关系数；x_ij为第i个对象第j项特征指标的数值；对于正向指标，对于负向指标，/>x_j为m个待评价对象第j个特征指标的数值；所述正向指标是指新能源出力最大值I₁，新能源出力均值I₂，负荷最高利用小时率I₃，负荷率I₆；所述负向指标是指日峰谷差率I₄，新能源日峰谷差率I₅，日负荷波动率I₇，新能源日出力波动率I₈。

5.根据权利要求1所述的电力系统机组调度智能决策方法，其特征在于，步骤S3中，高斯混合模型参数的确定过程包括：

1)根据贝叶斯定理，计算后验概率分布γ_ik：其中，所述高斯混合模型包括由K个子高斯分布组成的混合分布，K表示子高斯模型个数，μ_k,Σ_k,σ_k,α_k分别为第k个子高斯模型的期望、方差或协方差、在高斯混合模型中的概率、权重，p(x_i|μ_k,Σ_k,σ_k)为第k个子高斯分布的混合概率模型；

2)根据所述后验概率分布，更新高斯混合模型的参数：

其中，μ^′ _k、Σ^′ _k、α^′ _k分别对应μ_k,σ_k,α_k更新后的参数，x_i为第i个待评价对象，

i＝1,2,3,…,m；m为待评价对象个数；

6.根据权利要求1所述的电力系统机组调度智能决策方法，其特征在于，步骤S3中，基于贝叶斯信息准则，通过逐步逼近法，确定高斯混合模型子高斯模型个数K；贝叶斯信息准则公式如下：C_BIC＝Kln(m)-2ln(L)；其中，C_BIC为贝叶斯公式值，用于评估高斯混合模型；L为高斯混合模型最大似然函数值；m为待评价对象数量。

7.根据权利要求1所述的电力系统机组调度智能决策方法，其特征在于，步骤S4中，策略网络所优化的目标函数L^CLIP(θ)为：

其中，θ为策略网络参数，clip为剪切函数，为控制剪切区间的超参数，/> 表示新、旧策略采样概率比，π_θ(a|s)为新策略采样概率，/>为旧策略采样概率，A(s_t,a_t)为在状态s_t下采取动作a_t相较于采取平均动作的优势估计值，A(s_t,a_t)＝Q_u(s_t,a_t)-V_u(s_t)，V_u(s_t)＝E(R_t|s_t；π)，Q_u(s_t,a_t)为动作价值函数，表示在状态s_t下按照策略π执行动作a_t的奖励期望，V_u(s_t)为价值函数，表示在状态s_t下按照策略π执行所有动作的奖励期望；E(·)为期望函数，R_t为累积奖励。

8.根据权利要求1所述的电力系统机组调度智能决策方法，其特征在于，还包括：

9.一种终端设备，包括存储器、处理器及存储在存储器上的计算机程序；其特征在于，所述处理器执行所述计算机程序，以实现权利要求1～8之一所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序/指令；其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1～8之一所述方法的步骤。