CN114021425B - 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质 - Google Patents

电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114021425B
CN114021425B CN202111180509.5A CN202111180509A CN114021425B CN 114021425 B CN114021425 B CN 114021425B CN 202111180509 A CN202111180509 A CN 202111180509A CN 114021425 B CN114021425 B CN 114021425B
Authority
CN
China
Prior art keywords
power system
feature
simulation
data
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111180509.5A
Other languages
English (en)
Other versions
CN114021425A (zh
Inventor
胡伟
陈涛
吴迎霞
蒋振宇
赵科
蒋望
史成钢
张同尊
古济铭
万朝辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
State Grid Corp of China SGCC
State Grid Chongqing Electric Power Co Ltd
Original Assignee
Tsinghua University
State Grid Corp of China SGCC
State Grid Chongqing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, State Grid Corp of China SGCC, State Grid Chongqing Electric Power Co Ltd filed Critical Tsinghua University
Priority to CN202111180509.5A priority Critical patent/CN114021425B/zh
Publication of CN114021425A publication Critical patent/CN114021425A/zh
Application granted granted Critical
Publication of CN114021425B publication Critical patent/CN114021425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本申请属于电力系统运行和控制技术领域,具体而言涉及一种电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质。对历史运行数据预处理过程和原始系统物理仿真建模;对建模后系统的并行仿真和批量数据结果标注过程;基于统计方法和特征关联度的过滤法第一阶段特征选择初筛过程;基于旋转森林的第二阶段特征选择精细筛选过程,最终获得特征数量少、特征冗余度低以及特征关键信息密度高的电力系统运行数据特征子集。本申请能够提取电力系统运行数据框架下的关键特征,能够充分满足电力系统安全稳定分析的精度与速度要求。本方法有效提高电力系统运行数据的标准处理能力和分析利用效率,而且易于实施。

Description

电力系统运行数据建模与特征选择方法、装置、电子设备和存 储介质
技术领域
本申请属于电力系统运行和控制技术领域,具体而言涉及一种电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质。
背景技术
我国特高压交直流混联电网规模不断扩大,新能源的广泛接入以及柔性负荷与电网双向互动程度的加大,使得源荷双侧的不确定性加大,电网特性的日益复杂,对调度运行人员监视和调控电网的安全稳定运行提出了巨大的挑战。因此,研究电网潜在的安全稳定问题,提高电力系统的可观性和可控性,实现大电网暂态稳定高效、快速评估,对维持电力系统安全稳定运行具有重要意义。随着广域量测技术的成熟和大数据理论的发展,基于人工智能方法进行在线TSA为大电网的智能控制提供了新的思路。
由于实际大规模交直流混联系统所含变量众多,其数据规模大,维数高,只有少数的特征量会影响系统的稳定水平,且大部分特征都是冗余的,如果作为暂态评估模型的输入,势必会影响计算效率、分类效果及在线应用的要求,因此需要对电力系统中的初始输入特征进行完整精确的建模和二次特征筛选,找到在所研究的安全稳定问题中起关键作用的特征,处理电力大数据问题。
集成学习是开发精确分类系统的有效方法,能够提升弱分类器性能,做出准确的预测。提升方法(Boosting)和自主聚合法(Bootstrap aggregation,bagging)是主要的集成学习方法。多样性被认为是分类器组合的一个非常重要的特征,它可以有效地用于减少方差误差而不增加集成方法的偏差误差。为了鼓励bagging的多样性,1995年,贝尔实验室的 Tin Kam Ho提出了随机森林(Random Forests,以下简称RFs)算法。
发明内容
本发明旨在解决电力系统中调度运行人员监视和调控电网的安全稳定运行起关键作用的特征处理中存在的技术问题,基于本发明人对以下事实和问题的发现和认识,RFs是树预测器的组合,其中决策树使用有放回的采样训练样本技术构建;它们随机采样属性,并在这些变量中选择最佳分割,而不是在所有属性中选择最佳分割。RFs具有在大型数据库上高效运行、无需删除变量即可处理数千个输入变量、时间成本低等重要优点。旋转森林作为随机森林的优化算法,在运行效率和表达效果上尤其适合电力系统运行数据的特点,对安全稳定分析具有良好的适用性。
有鉴于此,本公开提出了电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质,以解决相关技术中的技术问题。
根据本公开的第一方面,提出电力系统运行数据建模与特征选择方法,包括:
根据历史运行数据对电力系统建模,得到仿真软件模型工程文件;
对建模后的电力系统进行批量并行仿真,得到包含建模后电力系统的原始特征S的数据样本;
对原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力系统运行数据的特征子集S2。
可选地,所述根据历史运行数据对电力系统建模,得到仿真软件模型工程文件,包括:
(1)对电力系统的历史运行数据进行数据清洗、缺失值填充和特征的标准化处理;
(2)根据步骤(1)的数据,得到以电力系统电压、电流、功角和潮流所确定的电力系统的基本运行状态;
(3)根据步骤(2)的电力系统的基本运行状态,设定电力系统的发电机、负荷和线路参数,以综合稳定仿真软件格式构建一个仿真电力系统;
(4)将步骤(3)的仿真电力系统的运行点设置为与步骤(2)的电力系统相接近的运行状态,得到仿真软件模型工程文件。
可选地,所述对建模后的电力系统进行批量并行仿真,得到包含建模后电力系统的原始特征S的数据样本,包括:
(1)采用Python编程语言编写外部调用仿真软件的方法,对所述仿真软件模型工程文件中仿真电力系统进行单次仿真运行和仿真结果输出,将Python编程语言编写的可运行的程序文件保存;
(2)利用Python编程语言的多线程模块,对步骤(1)的可运行的程序文件进行多线程调用,在与仿真电力系统运行点相接近的运行状态按照实际电力系统的运行方式波动随机取值,得到仿真运行数据;并将仿真运行数据保存在数据文件夹中;
(3)对步骤(2)的仿真运行数据进行缺失值和异常值处理,以功角标准为评价指标,若处理后的仿真运行数据在暂态扰动下保持电力系统安全稳定,则对仿真运行数据打上标签1,表示为稳定样本,若处理后的仿真运行数据在暂态扰动下不能保持电力系统安全稳定,则对仿真运行数据打上标签0,表示为不稳定样本;
(4)将步骤(3)打上标签的数据样本中的仿真运行数据记为原始特征集合S。
可选地,所述对原始特征集合S进行第一阶段的筛选,得到包含有效特征子集S1的数据样本,包括:
(1)对所述原始特征集合S的数据样本进行Min-Max归一化处理;
(2)对归一化处理后的原始特征集合S进行方差和标准差计算,按照标准差排序,将标准差较低的10%的特征删除,得到特征集合S’;
(3)利用下式,计算所述特征集合S’中任一特征X与Y的相关系数r:
其中,Y为所述表示仿真运行状态是否稳定的标签,取值为标签0/1,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;
将特征集合S’中相关系数r的绝对值小于0.1的特征X进行剔除,得到特征集合S”;
(4)利用下式,计算所述特征集合S”中任一特征X与Y的业务理解能力IV值
其中,Y为所述表示仿真运行状态是否稳定的标签,取值为标签0/1,X和Y的概率分布分别记为P(X)和Q(Y);
将特征集合S”中IV值排序,将IV值较低的10%的特征删除,得到基于统计方法和特征关联度的过滤法第一阶段特征选择初筛特征子集S1。
可选地,所述采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力系统运行数据的特征子集S2,包括:
(1)设定a=[a1,a2…,an]表示初筛特征子集S1中的n个样本,用N×n的矩阵A 表示一个有N条数据记录的训练样本集;b=[b1,b2,…,bn]表示与训练样本集A对应的仿真运行状态是否稳定的标签,标签取值为0/1;用D1,D2…,DL表示L个基分类器;
(2)构建一个旋转森林模型,对所述训练样本集A进行集成学习,步骤如下:
(2-1)对训练样本集A进行75%的有放回bagging重采样,产生一个训练样本集A的样本子集Ai,样本子集Ai中包含k个观测样本;
(2-2)利用下式,求初始矩阵Ai的k×k阶相关系数矩阵Ri:
其中,Ri[m,n]为相关系数矩阵Ri第m行第n列的元素,Ai[m]为样本子集Ai矩阵的第m个样本,Ai[n]为样本子集Ai矩阵的第n个样本,Cov(Ai[m],Ai[n])样本子集Ai矩阵的第m个样本和第n个样本的协方差,Var(Ai[m])样本子集Ai矩阵的第m个样本的方差,Var(Ai[n])样本子集Ai矩阵的第n个样本的方差;
(2-3)计算相关系数矩阵Ri的k个特征值λ,按照特征值λ的大小对特征值进行排序,得到λ1≥λ2≥…≥λk,将与各特征值相对应的一组长度为1且相互正交的特征向量,记为α12,…,αk
(2-4)设定一个累计贡献率μ,利用下式,得到排序后的特征值λ1≥λ2≥…≥λk中满足下式的q个特征值:
其中,q取最小正整数,累计贡献率μ表示原始特征集合S对原有文件信息量的解释能力,将符合上式累计贡献率μ的特征值记为主成分,得到样本子集Ai的q个主成分,并得到与q个特征值λ12…λq相对应的特征向量α12,…,αq
(2-5)利用下式,分别计算与所述q个主成分相对应的主成分矩阵Z中的各元素Z1
Z1,Z2....,Zq分别表示Z矩阵的第1,2…q行,得到样本子集Ai的主成分矩阵Z;
(2-6)以所述主成分矩阵Z作为所述基分类器Di的输入,以与训练样本子集Ai相对应的仿真运行状态是否稳定的标签作为基分类器Di的输出,对基分类器Di进行训练,得到基分类器Di;
(3)重复步骤(2)L次,得到L个基分类器,将L个基分类器整体记为旋转森林分类器模型D;
(4)利用旋转森林分类器模型D,得到有效特征子集S1每个特征的特征重要程度,按特征重要程度从大到小的顺序对初筛特征子集S1中的全部特征进行排列,选择特征值较大的前50%的特征作为第二阶段特征选择精细筛选过程的最终特征子集结果S2。
可选地,所述基分类器为以信息增益为基础的决策树。
根据本公开的第二方面,提出电力系统运行数据建模与特征选择装置,包括:
建模模块,用于根据历史运行数据对电力系统建模,得到仿真软件模型工程文件;
仿真计算模块,用于对建模后的电力系统进行批量并行仿真,得到包含建模后电力系统的原始特征S的数据样本;
筛选模块,用于对原始特征S集合进行第一阶段筛选,得到包含有效特征子集S1的数据样本;
计算模块,用于采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力系统运行数据的特征子集S2。
根据本公开的第三方面,提出提出电子设备,包括:
存储器,用于存储计算机可执行的指令;
处理器,所述处理器被配置执行:
根据历史运行数据对电力系统建模,得到仿真软件模型工程文件;
对建模后的电力系统进行批量并行仿真,得到包含建模后电力系统的原始特征S的数据样本;
对原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力系统运行数据的特征子集S2。
根据本公开的第四方面,提出计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使所述计算机执行:
根据历史运行数据对电力系统建模,得到仿真软件模型工程文件;
对建模后的电力系统进行批量并行仿真,得到包含建模后电力系统的原始特征S的数据样本;
对原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力系统运行数据的特征子集S2。
本公开的实施例,主要包括基于统计学习和数据挖掘理论的数据建模过程和基于旋转森林的两阶段特征选择方法,通过对电网运行数据标准化建模,并在此基础上进行充分有效的特征提取与选择,筛选能够提供补充信息的特征,以尽量少的特征提供尽可能多的关键信息,方便对于电力系统的安全稳定分析。
本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显然,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开一个实施例示出的电力系统运行数据建模与特征选择方法的示意流程图。
图2是根据本公开一个实施例示出的电力系统运行数据建模与特征选择装置的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是根据本公开实施例示出的电力系统运行数据建模与特征选择方法,包括以下步骤:
在步骤1中,从电力系统控制中心获取历史运行数据,并进行预处理,根据预处理后的历史运行数据对电力系统建模,得到仿真软件模型工程文件。
在一个实施例中,所述根据预处理后的历史运行数据对电力系统建模,得到仿真软件模型工程文件,可以包括以下步骤:
(1)对电力系统的历史运行数据进行数据清洗、缺失值填充和特征的标准化处理;
(2)根据步骤(1)的数据,得到以电力系统电压、电流、功角和潮流所确定的电力系统的基本运行状态;
(3)根据步骤(2)的电力系统的基本运行状态,对电力系统进行工程软件建模,设定电力系统的发电机、负荷和线路参数,以综合稳定仿真软件(简称PSASP)格式构建一个仿真电力系统;
(4)将步骤(3)的仿真电力系统的运行点设置为与步骤(2)的电力系统相接近的运行状态,由于物理建模和仿真软件的方程求解存在一定的精度缺失,不需要数值基准结果完全相同。该部分最终得到对于原始电力系统运行的仿真系统模型。得到仿真软件模型工程文件。
在步骤2中,利用所述仿真软件模型工程文件,对建模后的电力系统进行批量并行仿真,得到建模后电力系统的原始数据文件,对原始数据文件进行清洗和标注,得到包含建模后电力系统的原始特征S的数据样本。
在一个实施例中,所述对建模后的电力系统进行批量并行仿真,得到包含建模后电力系统的原始特征S的数据样本,可以包括以下步骤:
(1)采用Python编程语言编写外部调用仿真软件的方法,对所述仿真软件模型工程文件中仿真电力系统进行单次仿真运行和仿真结果输出,将Python编程语言编写的可运行的程序文件保存;
(2)利用Python编程语言的多线程模块,对步骤(1)的可运行的程序文件进行多线程调用,实现大规模并行仿真计算,在与仿真电力系统运行点相接近的运行状态按照实际电力系统的运行方式波动随机取值,得到仿真运行数据来模拟真实场景;并将仿真运行数据保存在数据文件夹中。
本步骤中,利用python模块multiprocessing,对py文件进行多线程调用,实现大规模并行仿真计算,在系统运行点附近按照实际电力系统的运行方式波动随机取值,生成不同的仿真运行数据结果,模拟真实场景;同时将数据输出结果保存在统一的数据文件夹中。初始特征集合主要是指电力系统中故障前稳态运行数据信息,包括元件特征数据和系统特征数据。元件特征主要包含故障前系统中每台发电机组的有功功率和无功功率、故障前系统中各节点负荷的有功功率和无功功率、输电线路的有功功率和无功功率、故障前系统中各母线的电压和相角。系统特征主要包括故障前系统中发电机的总有功出力和无功出力、故障前系统中全部有功负荷和无功负荷、故障前系统中机械输入功率总和、故障前系统中总无功储备容量、故障前电网网络拓扑指标。
(3)对步骤(2)的仿真运行数据进行缺失值和异常值处理,以功角标准为评价指标,若处理后的仿真运行数据在暂态扰动下保持电力系统安全稳定,则对仿真运行数据打上标签1,表示为稳定样本,若处理后的仿真运行数据在暂态扰动下不能保持电力系统安全稳定,则对仿真运行数据打上标签0,表示为不稳定样本;
(4)将步骤(3)打上标签的数据样本中的仿真运行数据记为原始特征集合S。该部分最终得到包含该原始特征集合S的大量数据样本。
本步骤中,初始特征集合主要是指电力系统中故障前稳态运行数据信息,包括元件特征数据和系统特征数据。元件特征主要包含故障前系统中每台发电机组的有功功率和无功功率、故障前系统中各节点负荷的有功功率和无功功率、输电线路的有功功率和无功功率、故障前系统中各母线的电压和相角。系统特征主要包括故障前系统中发电机的总有功出力和无功出力、故障前系统中全部有功负荷和无功负荷、故障前系统中机械输入功率总和、故障前系统中总无功储备容量、故障前电网网络拓扑指标。
在步骤3中,采用统计方法和特征关联度方法,对所述数据样本中的原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本。
在一个实施例中,所述采用统计方法和特征关联度方法,对所述数据样本中的原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本,可以包括以下步骤:
(1)对所述原始特征集合S的数据样本进行Min-Max归一化处理;方便后续的统计分析和AI方法训练。
(2)对归一化处理后的原始特征集合S进行方差和标准差计算,按照标准差排序,将标准差较低的10%的特征删除,对应特征的影响呈现为不显著,得到特征集合S’;
(3)利用下式,计算所述特征集合S’中任一特征X与Y的相关系数r:
其中,Y为所述表示仿真运行状态是否稳定的标签,取值为标签0/1,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;
将特征集合S’中相关系数r的绝对值小于0.1的特征X进行剔除,因为其作用于电力系统安全稳定分析的关联度较低,特征的利用价值较差。剔除完毕,得到特征集合S”;
(4)利用下式,计算所述特征集合S”中任一特征X与Y的业务理解能力IV值:
其中,Y为所述表示仿真运行状态是否稳定的标签,取值为标签0/1,X和Y的概率分布分别记为P(X)和Q(Y);
将特征集合S”中IV值排序,将IV值较低的10%的特征删除,对应的特征对于理解电力系统运行分析的作用较差。得到基于统计方法和特征关联度的过滤法第一阶段特征选择初筛特征子集S1。
在步骤4中,采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得特征数量少、特征冗余度低以及特征关键信息密度高的建模后电力系统运行数据的特征子集S2。
在一个实施例中,所述采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力系统运行数据的特征子集S2,可以包括以下步骤:
(1)设定a=[a1,a2…,an]表示初筛特征子集S1中的n个样本,用N×n的矩阵A 表示一个有N条数据记录的训练样本集;b=[b1,b2,…,bn]表示与训练样本集A对应的仿真运行状态是否稳定的标签,标签取值为0/1;用D1,D2…,DL表示L个基分类器;
(2)构建一个旋转森林模型,对所述训练样本集A进行集成学习,步骤如下:
(2-1)对训练样本集A进行75%的有放回bagging重采样,产生一个训练样本集A的样本子集Ai,样本子集Ai中包含k个观测样本;
(2-2)利用下式,求初始矩阵Ai的k×k阶相关系数矩阵Ri:
其中,Ri[m,n]为相关系数矩阵Ri第m行第n列的元素,Ai[m]为样本子集Ai矩阵的第m个样本,Ai[n]为样本子集Ai矩阵的第n个样本,Cov(Ai[m],Ai[n])样本子集Ai矩阵的第m个样本和第n个样本的协方差,Var(Ai[m])样本子集Ai矩阵的第m个样本的方差,Var(Ai[n])样本子集Ai矩阵的第n个样本的方差;
(2-3)计算相关系数矩阵Ri的k个特征值λ,按照特征值λ的大小对特征值进行排序,得到λ1≥λ2≥…≥λk,将与各特征值相对应的一组长度为1且相互正交的特征向量,记为α12,…,αk
(2-4)设定一个累计贡献率μ,在本公开的一个实施例中,μ的取值为0.85,利用下式,得到排序后的特征值λ1≥λ2≥…≥λk中满足下式的最小正整数q个特征值:
其中,累计贡献率μ表示原始特征集合S对原有文件信息量的解释能力,将符合上式累计贡献率μ的特征值记为主成分,得到样本子集Ai的q个主成分,并得到与q个特征值λ12…λq相对应的特征向量α12,…,αq
(2-5)利用下式,分别计算与所述q个主成分相对应的主成分矩阵Z中的各元素Z1
Z1,Z2....,Zq分别表示Z矩阵的第1,2…q行,得到样本子集Ai的主成分矩阵Z;
(2-6)以所述主成分矩阵Z作为所述基分类器Di的输入,以与训练样本子集Ai相对应的仿真运行状态是否稳定的标签作为基分类器Di的输出,对基分类器Di进行训练,得到基分类器Di;将基分类器Di保存。
(3)重复步骤(2)L次,得到L个基分类器,将L个基分类器整体记为旋转森林分类器模型D;旋转森林分类器模型D作为最终集成学习的分类模型。
(4)利用旋转森林分类器模型D,得到有效特征子集S1每个特征的特征重要程度,按特征重要程度从大到小的顺序对初筛特征子集S1中的全部特征进行排列,选择特征值较大的前50%的特征作为第二阶段特征选择精细筛选过程的最终特征子集结果S2。
该最终特征子集结果S2即为本方法所得到的最终最优特征子集结果。
根据本发明的一个实施例,电力系统运行数据建模与特征选择方法中涉及的所述基分类器是以信息增益为基础的决策树。
本公开实施例提出的电力系统运行数据建模与特征选择方法,首先对原始系统进行物理建模和参数分析,收集原始运行数据,建立尽可能完备的仿真模型;然后对仿真模拟得到的大数据样本进行统计处理,通过最大最小值归一化、方差剔除等方法优先处理对原始数据进行标准化建模,然后通过旋转森林方法充分挖掘多源数据之间的非线性关系,避免了由于特征提取不充分导致的影响模型输出精度降低问题,在此基础上进行两阶段特征选择方法,提取电力系统运行数据框架下的关键特征,能够充分满足电力系统安全稳定分析的精度与速度要求。
本公开实施例提出的电力系统运行数据建模与特征选择方法,通过引入人工智能领域的集成学习方法,在第一阶段的数据统计处理和标准化建模的基础上,对关键步骤的特征选择方法进行了改进,基于决策树模型和集成学习的bagging方法随机森林在特征提取、分类识别过程和表达方面都具有更好的效果,有效提高电力系统运行数据的标准处理能力和分析利用效率,因此本方法易于实施。
与上述电力系统运行数据建模与特征选择方法相对应地,本公开还提出电力系统运行数据建模与特征选择装置。
图2所示为根据本公开的一个实施例示出的电力系统运行数据建模与特征选择装置的结构框图,包括:
建模模块,用于从电力系统控制中心获取历史运行数据,并进行预处理,根据预处理后的历史运行数据对电力系统建模,得到仿真软件模型工程文件;
仿真计算模块,用于利用所述仿真软件模型工程文件,对建模后的电力系统进行批量并行仿真,得到建模后电力系统的原始数据文件,对原始数据文件进行清洗和标注,得到包含建模后电力系统的原始特征S的数据样本;
筛选模块,用于采用统计方法和特征关联度方法,对所述数据样本中的原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
计算模块,用于采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得特征数量少、特征冗余度低以及特征关键信息密度高的建模后电力系统运行数据的特征子集S2。
本公开的实施例还提出了一种电子设备,包括:
存储器,用于存储计算机可执行的指令;
处理器,所述处理器被配置执行:
根据历史运行数据对电力系统建模,得到仿真软件模型工程文件;
对建模后的电力系统进行批量并行仿真,得到包含建模后电力系统的原始特征S的数据样本;
原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力系统运行数据的特征子集S2。
本公开还提出了计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使所述计算机执行:
根据历史运行数据对电力系统建模,得到仿真软件模型工程文件;
对建模后的电力系统进行批量并行仿真,得到包含建模后电力系统的原始特征S的数据样本;
原始特征S集合进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力系统运行数据的特征子集S2。
需要说明的是,本公开的实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述汽车配件图片数据集制作设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Sma rt Med ia Ca rd,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。风电系统运行稳定域的构建装置的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,ReadOnly Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本公开的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.一种电力系统运行数据建模与特征选择方法,其特征在于,包括:
根据历史运行数据对电力系统建模,得到仿真软件模型工程文件;
对建模后的电力系统进行批量并行仿真,得到包含建模后电力系统的原始特征集合S的数据样本;
对原始特征集合S进行第一阶段的筛选,得到包含有效特征子集S1的数据样本;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力系统运行数据的特征子集S2;
所述对原始特征集合S进行第一阶段的筛选,得到包含有效特征子集S1的数据样本,包括:
(1)对所述原始特征集合S的数据样本进行Min-Max归一化处理;
(2)对归一化处理后的原始特征集合S进行方差和标准差计算,按照标准差排序,将标准差较低的10%的特征删除,得到特征集合S’;
(3)利用下式,计算所述特征集合S’中任一特征X与Y的相关系数r:
其中,Y为表示仿真运行状态是否稳定的标签,取值为标签0/1,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;
将特征集合S’中相关系数r的绝对值小于0.1的特征X进行剔除,得到特征集合S”;
(4)利用下式,计算所述特征集合S”中任一特征X与Y的业务理解能力IV值
其中,Y为所述表示仿真运行状态是否稳定的标签,取值为标签0/1,X和Y的概率分布分别记为P(X)和Q(Y);
将特征集合S”中IV值排序,将IV值较低的10%的特征删除,得到基于统计方法和特征关联度的过滤法第一阶段特征选择有效特征子集S1;
采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力系统运行数据的特征子集S2,包括:
(1)设定a=[a1,a2…,an]表示有效特征子集S1中的n个样本,用N×n的矩阵A表示一个有N条数据记录的训练样本集;b=[b1,b2,…,bn]表示与训练样本集A对应的仿真运行状态是否稳定的标签,标签取值为0/1;用D1,D2…,DL表示L个基分类器;
(2)构建一个旋转森林模型,对所述训练样本集A进行集成学习,步骤如下:
(2-1)对训练样本集A进行75%的有放回bagging重采样,产生一个训练样本集A的样本子集Ai,样本子集Ai中包含k个观测样本;
(2-2)利用下式,求初始矩阵Ai的k×k阶相关系数矩阵Ri:
其中,Ri[m,n]为相关系数矩阵Ri第m行第n列的元素,Ai[m]为样本子集Ai矩阵的第m个样本,Ai[n]为样本子集Ai矩阵的第n个样本,Cov(Ai[m],Ai[n])样本子集Ai矩阵的第m个样本和第n个样本的协方差,Var(Ai[m])样本子集Ai矩阵的第m个样本的方差,Var(Ai[n])样本子集Ai矩阵的第n个样本的方差;
(2-3)计算相关系数矩阵Ri的k个特征值λ,按照特征值λ的大小对特征值进行排序,得到λ1≥λ2≥…≥λk,将与各特征值相对应的一组长度为1且相互正交的特征向量,记为α12,…,αk
(2-4)设定一个累计贡献率μ,利用下式,得到排序后的特征值λ1≥λ2≥…≥λk中满足下式的q个特征值:
其中,q取最小正整数,累计贡献率μ表示原始特征集合S对原有文件信息量的解释能力,将符合上式累计贡献率μ的特征值记为主成分,得到样本子集Ai的q个主成分,并得到与q个特征值λ12…λq相对应的特征向量α12,…,αq
(2-5)利用下式,分别计算与所述q个主成分相对应的主成分矩阵Z中的各元素Z1
Z1,Z2....,Zq分别表示Z矩阵的第1,2…q行,得到样本子集Ai的主成分矩阵Z;
(2-6)以所述主成分矩阵Z作为所述基分类器Di的输入,以与训练样本子集Ai相对应的仿真运行状态是否稳定的标签作为基分类器Di的输出,对基分类器Di进行训练,得到基分类器Di;
(3)重复步骤(2)L次,得到L个基分类器,将L个基分类器整体记为旋转森林分类器模型D;
(4)利用旋转森林分类器模型D,得到有效特征子集S1每个特征的特征重要程度,按特征重要程度从大到小的顺序对有效特征子集S1中的全部特征进行排列,选择特征值较大的前50%的特征作为第二阶段特征选择精细筛选过程的最终特征子集结果S2。
2.根据权利要求1所述的电力系统运行数据建模与特征选择方法,其特征在于,所述根据历史运行数据对电力系统建模,得到仿真软件模型工程文件,包括:
(1)对电力系统的历史运行数据进行数据清洗、缺失值填充和特征的标准化处理;
(2)根据步骤(1)的数据,得到以电力系统电压、电流、功角和潮流所确定的电力系统的基本运行状态;
(3)根据步骤(2)的电力系统的基本运行状态,设定电力系统的发电机、负荷和线路参数,以综合稳定仿真软件格式构建一个仿真电力系统;
(4)将步骤(3)的仿真电力系统的运行点设置为与步骤(2)的电力系统相接近的运行状态,得到仿真软件模型工程文件。
3.根据权利要求1所述的电力系统运行数据建模与特征选择方法,其特征在于,所述对建模后的电力系统进行批量并行仿真,得到包含建模后电力系统的原始特征集合S的数据样本,包括:
(1)采用Python编程语言编写外部调用仿真软件的方法,对所述仿真软件模型工程文件中仿真电力系统进行单次仿真运行和仿真结果输出,将Python编程语言编写的可运行的程序文件保存;
(2)利用Python编程语言的多线程模块,对步骤(1)的可运行的程序文件进行多线程调用,在与仿真电力系统运行点相接近的运行状态按照实际电力系统的运行方式波动随机取值,得到仿真运行数据;并将仿真运行数据保存在数据文件夹中;
(3)对步骤(2)的仿真运行数据进行缺失值和异常值处理,以功角标准为评价指标,若处理后的仿真运行数据在暂态扰动下保持电力系统安全稳定,则对仿真运行数据打上标签1,表示为稳定样本,若处理后的仿真运行数据在暂态扰动下不能保持电力系统安全稳定,则对仿真运行数据打上标签0,表示为不稳定样本;
(4)将步骤(3)打上标签的数据样本中的仿真运行数据记为原始特征集合S。
4.根据权利要求1所述的电力系统运行数据建模与特征选择方法,其特征在于,所述基分类器为以信息增益为基础的决策树。
5.一种用于权利要求1所述电力系统运行数据建模与特征选择方法的电力系统运行数据建模与特征选择装置,其特征在于,包括:
建模模块,用于根据历史运行数据对电力系统建模,得到仿真软件模型工程文件;
仿真计算模块,用于对建模后的电力系统进行批量并行仿真,得到包含建模后电力系统的原始特征集合S的数据样本;
筛选模块,用于对原始特征集合S进行第一阶段筛选,得到包含有效特征子集S1的数据样本;
计算模块,用于采用旋转森林算法,对包含有效特征子集S1的数据样本进行第二阶段特征选择,获得建模后电力系统运行数据的特征子集S2。
6.一种电子设备,其特征在于,包括:
存储器,用于存储计算机可执行的指令;
处理器,所述处理器被配置执行权利要求1-4中任意一项所述的电力系统运行数据建模与特征选择方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序用于使所述计算机执行权利要求1-4中任意一项所述的电力系统运行数据建模与特征选择方法。
CN202111180509.5A 2021-10-11 2021-10-11 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质 Active CN114021425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111180509.5A CN114021425B (zh) 2021-10-11 2021-10-11 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111180509.5A CN114021425B (zh) 2021-10-11 2021-10-11 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN114021425A CN114021425A (zh) 2022-02-08
CN114021425B true CN114021425B (zh) 2024-04-12

Family

ID=80055762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111180509.5A Active CN114021425B (zh) 2021-10-11 2021-10-11 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114021425B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618265A (zh) * 2022-11-04 2023-01-17 广州魔番网络科技有限公司 基于大数据和边缘计算的数据整合方法及系统
CN116663338B (zh) * 2023-08-02 2023-10-20 中国电子信息产业集团有限公司第六研究所 一种基于相似算例的仿真分析方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334721A (zh) * 2018-04-24 2018-07-27 清华大学 基于mMIFS-U的两阶段电力系统关键特征选择方法及装置
CN109636248A (zh) * 2019-01-15 2019-04-16 清华大学 适用于电力系统暂态稳定评估的特征选择方法及装置
CN110889255A (zh) * 2019-10-31 2020-03-17 国网湖北省电力有限公司 一种基于级联深度森林的电力系统暂态稳定评估方法
CN111401749A (zh) * 2020-03-17 2020-07-10 三峡大学 一种基于随机森林与极限学习回归的动态安全评估方法
WO2020147349A1 (zh) * 2019-01-14 2020-07-23 中国电力科学研究院有限公司 配电网运行辅助决策分析系统及方法
CN112396113A (zh) * 2020-11-23 2021-02-23 国家电网公司东北分部 一种电力系统运行方式数据特征两阶段选择方法
CN112926640A (zh) * 2021-02-22 2021-06-08 齐鲁工业大学 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334721A (zh) * 2018-04-24 2018-07-27 清华大学 基于mMIFS-U的两阶段电力系统关键特征选择方法及装置
WO2020147349A1 (zh) * 2019-01-14 2020-07-23 中国电力科学研究院有限公司 配电网运行辅助决策分析系统及方法
CN109636248A (zh) * 2019-01-15 2019-04-16 清华大学 适用于电力系统暂态稳定评估的特征选择方法及装置
CN110889255A (zh) * 2019-10-31 2020-03-17 国网湖北省电力有限公司 一种基于级联深度森林的电力系统暂态稳定评估方法
CN111401749A (zh) * 2020-03-17 2020-07-10 三峡大学 一种基于随机森林与极限学习回归的动态安全评估方法
CN112396113A (zh) * 2020-11-23 2021-02-23 国家电网公司东北分部 一种电力系统运行方式数据特征两阶段选择方法
CN112926640A (zh) * 2021-02-22 2021-06-08 齐鲁工业大学 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质

Also Published As

Publication number Publication date
CN114021425A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN114021425B (zh) 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质
CN111027629B (zh) 基于改进随机森林的配电网故障停电率预测方法及系统
CN108205580A (zh) 一种图像检索方法、装置及计算机可读存储介质
CN108694470A (zh) 一种基于人工智能的数据预测方法及装置
CN115563477B (zh) 谐波数据识别方法、装置、计算机设备和存储介质
Su et al. Research on intrusion detection method based on improved smote and XGBoost
CN113283602A (zh) 基于离线知识学习和在线动态修正电网系统故障诊断方法
CN110704616A (zh) 设备告警工单识别方法及装置
CN114609994A (zh) 基于多粒度正则化重平衡增量学习的故障诊断方法及装置
Chen et al. Real‐time recognition of power quality disturbance‐based deep belief network using embedded parallel computing platform
CN113177357B (zh) 一种电力系统暂态稳定评估方法
CN114418226A (zh) 电力通信系统的故障分析方法及装置
CN115035966B (zh) 基于主动学习和符号回归的超导体筛选方法、装置及设备
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN111965442A (zh) 一种数字孪生环境下的能源互联网故障诊断方法及装置
CN111897888A (zh) 基于Spark框架和凝聚层次聚类算法的户变关系识别方法
CN115470854A (zh) 信息系统故障分类方法及分类系统
CN113991843A (zh) 一种电网调度操作的防误方法、系统、设备和介质
Zhu et al. Fast grid splitting detection for n-1 contingency analysis by graph computing
CN113283638A (zh) 一种基于融合模型的负荷极值曲线预测方法及系统
Dabou et al. Supervised learning of overcomplete dictionaries for rapid response-based dynamic stability prediction
CN116340765B (zh) 一种窃电用户预测方法、装置、存储介质及电子设备
CN116049700B (zh) 基于多模态的运检班组画像生成方法及装置
CN116992274B (zh) 基于改进主成分回归模型的短期风速预测方法及系统
Khazaei et al. Physics-aware fast learning and inference for predicting active set of DC-OPF

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant