CN114881101A - 一种基于仿生搜索的电力系统典型场景关联特征选择方法 - Google Patents
一种基于仿生搜索的电力系统典型场景关联特征选择方法 Download PDFInfo
- Publication number
- CN114881101A CN114881101A CN202210275388.0A CN202210275388A CN114881101A CN 114881101 A CN114881101 A CN 114881101A CN 202210275388 A CN202210275388 A CN 202210275388A CN 114881101 A CN114881101 A CN 114881101A
- Authority
- CN
- China
- Prior art keywords
- scene
- data
- bionic
- power system
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011664 nicotinic acid Substances 0.000 title claims abstract description 44
- 238000010187 selection method Methods 0.000 title claims abstract description 18
- 238000010845 search algorithm Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 125000004432 carbon atom Chemical group C* 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 238000012854 evaluation process Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 36
- 238000005457 optimization Methods 0.000 abstract description 34
- 238000012360 testing method Methods 0.000 abstract description 8
- 238000000034 method Methods 0.000 description 34
- 239000002245 particle Substances 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000010219 correlation analysis Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000254032 Acrididae Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000282461 Canis lupus Species 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003592 biomimetic effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/06—Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本专利提出了一种基于仿生搜索的电力系统典型场景关联特征选择方法。首先针对目标场景特性构建特征变量备选集合,该集合包含了与目标动态场景所有可能相关的电气量以及非电气量;随后对电力系统实际历史运行数据进行了标准化预处理和监督格式多维时间序列数据集的构建;之后依次定量计算备选特征变量与目标动态场景之间的灰色关联系数,并设置合理阈值筛选出与目标场景关联度高的特征以进行进一步的仿生迭代寻优;最后采用灰色关联系数修改仿生搜索算法的初始化规则,形成关联系数引导机制,以增强算法的寻优效率,迭代优化得到适应度性能最好的关联特征子集,并利用实际场景数据集对所筛选的特征子集进行了测试评价。
Description
技术领域
本发明属于电力系统迭代式特征选择技术领域,尤其涉及一种基于仿生搜索的电力系统典型场景关联特征选择方法。
背景技术
在数据挖掘以及机器学习领域,实际工程问题常常涉及大量的特征变量,在电力系统中也不例外。近年来,随着新能源发电大规模接入电力系统以及特高压交直流混联大电网的快速发展,电力系统的动态特性发生显著变化。高渗透率可再生能源的接入,使得电网的运行场景更加复杂多变,给电力系统的安全稳定与经济运行带来了巨大挑战。源荷双重高度不确定性也大大提升了电网规划与调度的难度,可能会造成电网出现严重故障、重要断面重载、电力供需失衡、新能源消纳受阻等不同电力场景。为了提升电力系统的状态监测以及主动调控能力,我们通常希望能够提前地预测上述的动态场景,然而这些动态场景无一例外都涉及到大规模的关联特征变量。一方面,快速发展的电力系统导致的是特征量与特征类型的爆炸式增长;另一方面,量测系统以及量测技术的进步使得大规模数据的获取成为可能。然而,数据信息的大规模增长却是一把双刃剑,一方面,特征维数的增加会显著增加相关数据分析以及场景预测算法程序处理的时间,降低运行效率,增加过拟合风险,削弱模型在线应用的快速性与实用性。另一方面,数据信息中所存在的大部分特征实际上是与预测目标不相关的特征,这些特征信息的存在没有为场景预测提供帮助,相反,它们的存在反而会大大降低一些分类器以及预测器的准确性,且易降低模型训练效率。因此,挖掘电力系统典型运行场景的关联特征,实现数据维数的削减与场景预测精度的提升是十分有必要的。
当前电力系统中的特征选择应用与方法大致可以分为专家经验选择与数据特征挖掘选择两大类。专家经验选择通常依靠电力系统专家手动挑选一定数量的符合先验行业知识的数据特征变量作为后续预测模型的输入特征信息。显然,这种手动选择方式已经不足以满足当今电力系统数据特征量快速增长的现状,同时,还可能存在因手动选择不当而产生的知识信息疏漏。数据特征挖掘选择通常又可以分为Filter、Wrapper以及Hybrid三种。Filter方法通常利用数据特征的一些统计或信息特征,如互信息、皮尔森相关系数、方差检验、最大信息系数等,筛选出与目标变量高度相关的数据特征作为最终的特征子集,并构建最终的预测模型。Filter方法的特征选择过程独立于学习算法,因此它们的计算效率通常是比较高的,但特征子集的质量却难以保证。相反,Wrapper方法会使用学习算法并基于学习算法的预测性能迭代式地评估特征子集,从而指导优化算法的进化梯度,最终得到经过学习算法检验的优化特征子集。因此,它们所选定的特征子集通常具有更高的预测精度。Hybrid方法通常在训练最终预测模型的同时完成特征子集的筛选工作,但由于要面对高维的原始数据输入,其计算效率也会大幅下降,甚至会出现训练优化过程不收敛的情况。值得一提的是,虽然特征选择在计算机研究领域已经存在多年,但在电力系统研究领域中,针对典型场景关联特征选择的研究还非常少,还未充分发挥电力系统海量数据信息的支撑作用。
因此,基于以上分析和阐述,在电力系统结构日益复杂,数据规模爆炸式增长的今天,为了提高电网对可能出现的不同典型运行场景的的辨识及预测能力,提高模型训练效率与程序计算效率,构建与目标典型运行场景最为相关的关联特征子集,指导基于场景预测的系统主动调控,本专利基于电力系统海量历史运行数据记录,以断面重载典型场景为例,综合数据关联分析和仿生搜索迭代式特征选择方法的优点,准确寻找系统场景关联特征,帮助调度运行人员做出更高效、准确的决策,保障电力系统的安全稳定经济运行。该方法首先针对电力系统实际历史运行数据进行了标准化预处理和时间序列数据的构建,随后分析了断面重载的动态场景特性,构建特征备选集合,之后依次计算特征与目标场景之间的灰色关联系数,并保留关联度高的特征以进行进一步的迭代选择,最后采用灰色关联系数修改仿生搜索算法的初始化规则,以增强算法的寻优效率,得到适应度性能最好的关联特征子集。该发明有效结合了关联度评价与仿生搜索算法的优势,可以帮助建立对应于典型运行场景的特征子集,增加电力系统对于各种动态运行场景的辨识和预知能力,提高电网主动调控能力和场景预测准确性。
发明内容
本专利提出了一种基于仿生搜索的电力系统典型场景关联特征选择方法。首先针对电力系统实际历史运行数据进行了标准化预处理和时间序列数据的构建,随后分析了断面重载的动态场景特性,构建特征备选集合,该集合包含了与目标动态场景所有可能相关的电气量以及非电气量,之后依次定量计算候选特征变量与目标动态场景之间的灰色关联系数,并设置合理阈值筛选出与目标场景关联度高的特征以进行进一步的仿生迭代寻优,最后采用灰色关联系数修改仿生搜索算法的初始化规则,形成关联系数引导机制,以增强算法的寻优效率,迭代优化得到适应度性能最好的关联特征子集,并利用实际场景数据集对所筛选的特征子集进行测试评价。
本专利提出了一种基于仿生搜索的电力系统典型场景关联特征选择方法,其特征在于,包括以下步骤:
步骤1,根据目标电力系统典型场景特性及发生范围,从理论角度分析与目标场景可能相关的电气量与非电气量,并根据变量来源构建组合特征,形成目标场景关联变量备选集合D表示备选变量的总个数,Fi表示第i个备选变量。
步骤2,基于步骤1中所获取的变量备选集合,对其中所包含的变量的历史数据进行信息提取、数据校核、数据修正等预处理以实现标准化;随后利用数据滑窗得到多维时间序列样本,每一个样本均为一个数据矩阵,可记为Xk, k=1,2,3,...,N,N表示样本总个数;之后根据目标场景的分类标准对每一个多维时间序列样本Xk进行标注,得到场景预测模型所需的监督格式多维时间序列数据集,即N表示样本-标签对的总个数,yk为对应于第k个样本Xk的场景标签;
步骤3,基于步骤2中得到的监督格式多维时间序列数据集利用灰色关联度分析方法,依次计算得到D个备选特征变量与目标场景之间的关联系数,并进行数据存储。随后设置合理阈值从原备选集合Q中剔除一部分低关联的特征变量,得到Q',并将其作为仿生搜索算法的输入以进行进一步的筛选,同时处理原多维时间序列数据集H,仅保留Q'中的备选变量的时间序列片段,得到
步骤4,将步骤3中得到的剩余备选变量集合Q'输入改进后的仿生搜索算法,结合场景学习分类器与监督格式时间序列数据集H',通过迭代式的子集生成、基于生成子集的模型训练、模型预测、子集评价过程寻找适应度性能最好的优化关联特征子集Qbest。其中,改进后的仿生搜索算法采用了基于灰色关联度系数的半定向引导初始化机制。
步骤5,基于步骤4所得到的优化关联特征子集Qbest,利用历史数据样本,构建基于多维时间序列学习的场景动态预测模型。在实时情况下,将所获取的多维时间序列样本输入训练好的模型,实现对某区域电网关键目标场景的动态预测。
本专利首次将结合灰色关联度分析的仿生搜索算法应用于电网典型场景的关联特征选择过程中,首先利用关联度评价对候选特征变量进行一次初筛,并将特征变量与电力系统动态场景之间的模糊关系进行量化,随后利用仿生搜索算法的迭代寻优特点,将特征选择问题转化为一个优化问题,从而获取高性能的目标场景关联特征子集,有利于动态场景预测模型的构建,提高了动态场景辨识预测的精度以及数据处理分析的效率,对于提高电力系统的动态场景监测及预测能力具有积极意义。
本专利具有如下优点:
将灰色关联度计算程序应用于特征变量的一次初筛过程,加速了后续迭代寻优的效率,同时获取了各特征变量与目标场景之间的关联度数值,有利于相关调度运行人员进行分析和验证;
基于灰色关联度分析结果修改了仿生搜索算法的初始化结构,进一步加快了优化特征子集求取的效率,同时提高了优化结果的性能,有利于处理大规模的数据变量,更适用于当今电力系统的数据特性现状;
将特征选择问题转化为优化问题,构建多目标优化程序,可以在降低数据维度的同时兼顾场景预测模型的准确率,提高特征选择的灵活性和自主性,削弱专家主观经验对特征选择过程的影响,最后通过实际历史数据算例验证了所提方法的有效性。
附图说明
图1:是本发明的总体结构图
图2:是本发明算例中各方法场景预测准确率的比较图
图3:是本发明算例中各方法特征子集维数的比较图
图4:是本发明中仿真算例的部分实验结果图表;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
下面通过第一实施例以及第二实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
本发明第一实施例具体如下:
一种基于仿生搜索的电力系统典型场景关联特征选择方法,其特征在于,包括以下步骤:
步骤1,根据目标电力系统典型场景特性及发生范围,从理论角度分析与目标场景可能相关的电气量与非电气量,并根据变量来源构建组合特征,形成目标场景关联变量备选集合D表示备选变量的总个数,Fi表示第i个备选变量。
步骤2,基于步骤1中所获取的变量备选集合,对其中所包含的变量的历史数据进行信息提取、数据校核、数据修正等预处理以实现标准化;随后利用数据滑窗得到多维时间序列样本,每一个样本均为一个数据矩阵,可记为Xk, k=1,2,3,...,N,N表示样本总个数;之后根据目标场景的分类标准对每一个多维时间序列样本Xk进行标注,得到场景预测模型所需的监督格式多维时间序列数据集,即N表示样本-标签对的总个数,yk为对应于第k个样本Xk的场景标签;
步骤3,基于步骤2中得到的监督格式多维时间序列数据集利用灰色关联度分析方法,依次计算得到D个备选特征变量与目标场景之间的关联系数,并进行数据存储。随后设置合理阈值从原备选集合Q中剔除一部分低关联的特征变量,得到Q',并将其作为仿生搜索算法的输入以进行进一步的筛选,同时处理原多维时间序列数据集H,仅保留Q'中的备选变量的时间序列片段,得到
步骤4,将步骤3中得到的剩余备选变量集合Q'输入改进后的仿生搜索算法,结合场景学习分类器与监督格式时间序列数据集H',通过迭代式的子集生成、基于生成子集的模型训练、模型预测、子集评价过程寻找适应度性能最好的优化关联特征子集Qbest。其中,改进后的仿生搜索算法采用了基于灰色关联度系数的半定向引导初始化机制。
步骤5,基于步骤4所得到的优化关联特征子集Qbest,利用历史数据样本,构建基于多维时间序列学习的场景动态预测模型。在实时情况下,将所获取的多维时间序列样本输入训练好的模型,实现对某区域电网关键目标场景的动态预测。
本发明第二实施例具体如下:
步骤1:监督格式时间序列数据及特征变量备选集构建;
随着电力系统规模不断扩大以及源荷双重高度不确定性的影响,系统运行时可能出现的动态场景愈加繁杂多变,对电网的安全稳定经济运行带来了巨大挑战。针对不同的电力系统典型运行场景,需要提取相应场景下的历史数据记录信息,作为后续工作的基础。在电力系统中,历史数据通常指的是记录电力系统全网数据信息的历史文件,包含了过去一段时间内电网各类关键状态信息,包括全网厂站信息、标幺值信息、母线名称信息、母线电压信息、线路潮流有功信息、交流线路名称及连接信息、发电机有功无功出力信息、发电机连接点信息、变压器信息、负荷数据及落点信息、并串补设备信息、直流控制器数据、直流线路参数信息、直流线路运行信息、拓扑节点信息、断路器开关信息、刀闸信息等。显然,电力系统的数据信息维度是十分大的,且由于系统不断运行,数据不断积累,数据量不断增长,这给数据分析工作带来了不少难度,因此,数据预处理便成为了必不可少的一环。数据预处理通常的任务包含信息提取、数据时标对齐、误数据甄别、误数据剔除、缺失数据补齐、数据校核、数据修正等,在本专利中,除了以上工作之外,预处理过程还包括时间序列数据的构建。考虑到电力系统调度部门目前数据存储方式的现状,即使用一个QS文件只记录一个时间断面的信息,而未自动形成时间序列数据。为了构建各数据变量的时间序列数据,我们需要每次从一个文件中读取某个特征变量在该时刻的历史数值,而为了获取下一时刻的历史数值便需要打开下一个文件进行查询。由于电力系统数据记录文件记录了整个系统在某一个时刻的整体数据信息,因此,若以串行方式构建时间序列数据便会消耗大量的时间以及计算资源,在本专利中,我们使用并行处理方式,利用 CPU的多核处理能力,同时开启多个I/O接口对数据记录文件进行读取,同时使用批处理方式,每次处理一定数量的数据文件。同时,对于数据文件内部的数据信息查找,本专利采用正则化模式匹配方法,快速定位到符合查找需求的信息位置,并利用读取程序获取该部分数据记录信息。通过以上步骤,原始数据记录文件便可以快速地被构建为时间序列数据,可以直接用于后续的关联度分析以及关联特征子集优化的程序之中,从而进行进一步的特征变量备选集的构建。
特征选择的目的之一就是寻找与场景的发生强相关的变量。通常,对于电力系统典型场景的发生,调度人员或者行业专家依据工作和学习经验,可以定性地感受出场景与特征变量之间的关系,而另一方面,从电气知识理论的角度,我们可以依据电力系统中所存在的一些定量逻辑关系,得到一些有用的结论,在典型场景关联特征变量备选集的构建过程中,以上两个方面均需考虑,从而做到指标选取的全面性以及完备性。同时,电力系统典型运行场景的变量选取还应遵从科学性、独立性、主成分性等原则。在本专利中,主要考虑以下几个方面:1)频率方面:频率安全会直接影响到电力系统中电动机的转速,影响补偿容量影响设备安全。因此,频率安全是电力系统运行安全的重要组成部分。2)电压方面:电压安全是电力系统运行安全性的另一个重要因素。对于用户来说,电压过大地偏离额定值,将对用户产生不良影响。对于电网来说,电压降低会使电网的电能损耗增大,还可能危及电网运行的稳定性。3)网络方面:电网的潮流、线路负载、电流等网络拓扑相关因素会给电网运行安全带来很大的影响。4)功率方面:电力系统运行中有功功率、无功功率平衡与稳定是保证其安全稳定运行的必要条件。因此,功率平衡在电力系统安全性指标中必不可少。5)负荷方面:负荷是电网的重要组成部分,负荷水平是衡量电力系统运行经济性的另一个重要指标。其可以进一步细化为负荷率等指标。6)新能源方面:包括弃风率、弃光率、可再生能源消纳率等。7)针对特定场景的特征变量选取。针对某些特定的场景,特征变量备选集的构建还具有场景特征。
通过以上对于特征变量备选集构建的分析之后,我们便可以依据分析结果,对相关待选特征变量进行提取,从而构建得到特征变量备选集合用于后续的关联度分析程序以及关联特征优化筛选程序之中,D表示备选变量的总个数,Fi表示第i个备选变量。基于变量备选集合对其中所包含的变量的历史数据进行信息提取、数据校核、数据修正等预处理以实现标准化。随后利用数据滑窗得到多维时间序列样本,每一个样本均为一个数据矩阵,可记为Xk, k=1,2,3,...,N,N表示样本总个数;之后根据目标场景的分类标准对每一个多维时间序列样本Xk进行标注,得到场景预测模型所需的监督格式多维时间序列数据集,即N表示样本-标签对的总个数,yk为对应于第k个样本Xk的场景标签;
步骤2:灰色关联度分析及一次特征初筛;
在典型场景关联备选集合构建完毕之后,下一步的工作即采用灰色关联度分析对所有特征与目标场景之间的关联度进行评价,同时为了加快后续仿生搜素特征选择的效率,需要基于灰色关联度信息剔除一部分低关联的特征,此即一次特征初筛。
(1)灰色关联度分析算法
灰色关联度分析是多因素分析常用的统计方法。它可以用来衡量我们所关注的项目与其他因素之间的相关性,可以用来挖掘数据内部的相关性关系。灰色关联度分析算法的具体操作流程如下:
a)确定目标场景序列
确定目标场景序列即选择感兴趣的电力系统场景,分析其与其他特征变量之间的关系。例如,如果我们想研究某条线路的重载场景,我们会使用该线路潮流有功的时间序列数据作为目标标签(或目标序列),然后寻找与之相关的其他特征。首先基于目标场景多维时间序列数据集对于样本Xk,可以通过时间序列信息提取将其转化为一维向量。比如,对于样本可以对时间序列片段提取其压缩变量i表示备选变量索引,k表示样本索引,m表示压缩变量索引,i=1,2,3,...,D,k=1,2,3,...,N,m=1,2,3,...,M,常用的压缩变量包括平均值、中位数、最大值、最小值等,本专利中使用平均值、中位数、最大值、最小值以及累计和五个压缩变量,即M=5。因此,通过对N个样本进行压缩处理,可以到压缩变量序列以及目标场景标签序列
b)数据标准化
电力系统数据在数值上存在很大差异,这是由于数据量纲不同儿导致的,因此必须进行标准化处理以减少数据绝对值的差异,重点关注其动态趋势的变化,本专利中采用均值化处理,以消除变量初始值为0对结果的影响;
c)关联系数求取
d)结果输出
e)关联系数排序
将进行关联系数计算之后因素根据其关联度系数的大小进行排序,由此我们便可以得到与场景Y之间关系大小的一个定量排序,由此来筛选我们所需要的特征变量,构建成为特征变量库。
(2)特征一次初筛
针对不同的电力系统典型动态场景,应用灰色关联度分析算法定量求取关联度数值时,具有不同的分析要求,以断面重载为例,此时我们关心的是一组线路重载的情况,而用于指示线路重载最直接的指标便是线路的I端功率,因此我们可以利用历史数据记录构建出I端传输功率的时间序列数据,将其作为灰色关联度算法中提到的母序列,即通过灰色关联度程序计算后,我们可以得到所有特征变量与目标场景之间分别的关联度大小,根据其关联度系数的大小进行排序,我们便可以得到特征变量与场景Y之间关系大小的一个定量排序,由此来初次筛选我们所需要的特征变量,剔除一部分低关联的特征变量,将原备选集合转化为作为后续仿生搜索的输入。
3.基于仿生搜索的关联特征迭代选择及改进初始化结构
通过上一步中基于灰色关联度分析的特征初筛,其余的特征将通过基于仿生搜索的Wrapper式特征选择方法进行进一步的筛选,Wrapper式特征选择方法通常包含三个部分,即优化算法、子集评价器以及子集评价标准。在本专利中,我们采用仿生搜索算法作为Wrapper框架中的优化算法,并使用基于K近邻分类器模型的场景预测模型作为子集评价器,最后在子集评价标准中同时考虑场景预测模型精度以及子集维度。需要注意的是,在本专利中,我们提出使用灰色关联度数值来修改原始仿生搜索算法的初始化结构,从而达到了加快特征选择优化效率的目的,具体步骤如下所示。
a)离散粒子群优化算法
在本专利中,仿生搜索算法具体采用的是离散粒子群优化算法,而所涉及的特征选择框架对于其他仿生搜索算法仍然适用。离散粒子群优化算法是一种被广泛使用的自启发式寻优算法,通常,离散粒子群优化算法具有N个粒子,每个粒子具有一个位置向量K表示候选特征的维度,有K=D',在本例中则为一次初筛之后剩余的特征个数,m表示第m次优化迭代,其中取1则表示第j个特征被选择,反之则不被选择,仿生搜索迭代寻优的目的则是需要寻找到一组解X=(x1,x2,...,xj,...,xK),使得设定目标函数达到最佳。定义为每个粒子在第m次迭代时自身所经历的最优解,Gm为第m次迭代时整体粒子所经历的最优解,在每一次迭代的最后,每一粒子所具有的速度将被更新为
粒子速度值通常具有上限和下限,即vmax和vmin,在每一次更新计算中,如果速度计算值超过了所设定的上限或下限,则将会被限制在对应的上限或下限上, w惯性系数通常以下式进行更新:
上式中,wmax和wmin分别为惯性系数的上限与下限,M是最大迭代次数。
在离散版本的粒子群优化算法中,每一粒子的位置向量通常以下列方式进行更新。首先需要通过一个sigmoid函数将速度转化为概率值:
上式中,δ是一个服从0到1内均匀分布的随机数。
b)改进的初始化结构(关联系数半定向引导初始化机制)
原有的离散粒子群优化算法采用完全随机规则产生初始解但在电力系统数据变量高维特性的作用下,完全随机的规则可能会拖累特征选择的整体优化效率,甚至有可能导致粒子快速停滞到一个局部最优点。为了更好的选择结果以及选择速度,我们利用灰色关联度分析数值改进了位置向量的初始化方式,除了随机的一部分,结合关联系数的初始化规则被使用,这将扮演一个半定向初始化的作用,修改后的初始化规则定义如下:
上式中,round()是取整函数,Rj是第j个特征与目标场景之间的关联度,β是一个服从0到1内均匀分布的随机数,以上初始化规则结合了随机规则以及关联度系数评价,表明了与目标场景关联度更大的特征有更大的概率再初始化阶段被选中并进行评价。
c)目标函数
为了进行迭代式的子集评价,如上文所述,我们在整体模型中嵌入了一个基于KNN分类策略的场景预测模型,并在目标函数中考虑该场景预测模型的表现,同时考虑所选特征子集的维度。具体地,在本专利中我们在目标函数中考虑两部分:场景预测模型的准确度以及子集的维度,如下所示:
上式中,S代表所选的特征子集,可以由位置向量得到,α为权重系数, Perror(S)为反映场景预测准确度的指标,越小代表预测越准确,|S|是所选特征子集的维度,K是候选特征的总个数。进一步,Perror(S)可由下式进行计算:
上式中,TP为真正例,FN为假反例,FP为假正例,TN为真反例,在本专利中将目标场景的发生作为正例,而未发生作为反例,上式所定义的Perror(S)实际上为场景预测模型的预测错误率。
结合上述几个部分,本专利所提出的基于仿生搜索的电力系统典型场景关联特征选择方法的总体结构如图1所示。
步骤3:仿真验证
以断面重载场景为例,利用所搜集到的实际历史运行数据,对上述特征选择方法进行仿真试验。本例中所采用的电网模型包含电压在500KV以上的503条母线和198台发电机,由4个省电网组成。实验数据集包括该电网2019年7月至 2019年9月的所有数据,包括线路潮流信息、发电机输出数据、变压器数据、负荷数据、直流数据、可再生能源数据、节点电压数据等,除了这些电气数据外,该数据集还包括一些非电气量数据,如温度、风速、光强度等。我们将使用这些数据来模拟和生成更多的电气场景实例。这个数据集包含尽可能多的基于理论考虑的特征变量,形成了较为完备的特征变量备选集合。本专利所提出的基于仿生搜索的电力系统典型场景关联特征选择方法的目标是利用这些真实的电力数据集,得到目标场景(在此例中,即断面重载)的优化关联特征子集,从而提高场景预测模型的精度,特征备选集共包含特征3490个。
具体地,在本例中将目标场景设置为了一个关键传输断面的重载场景。将所有的数据片段分为训练集与测试集,测试集由1100个重载片段和1100个非重载片段组成,测试集由600个重载片段和600个非重载片段组成,用于评估所选特征子集的性能。训练集数据被首先导入到灰色关联度相关系数的计算程序之中,我们可以得到所有3490个特征与目标场景的灰色关联度相关值。根据相关的测试,保留相关性值较高的前5%的特征进入仿生搜索优化环节,因此特征一次初筛共得到 175个特征进入后续环节,其中灰色关联度最大为0.9873,最小为0.4561。
在仿生搜索环节,以上的175个特征将接受进一步的选择。采用离散粒子群优化算法进行迭代寻优,结合基于灰色关联度的改进初始化机制,并采用KNN场景预测器评价这些特征子集的性能(KNN场景预测器的k值被设置为9),得到具有最优适应度函数值的特征子集。当设置α为0.3时,可以得到最终的特征子集在测试集上的预测表现如表1所示。
通过该例可以看出,基于仿生搜索的典型场景关联特征选择方法有效降低了原始数据的特征维度,提高了算法效率并有效地兼顾了场景预测准确率,其中,原始的3490个特征被削减到了43个,而重载场景的预测准确率却依然维持在93%以上。
将所提方法与其他相关特征选择方法进行详细比较。在相同的权重因子α=0.3、相同的适应度函数以及相同的重载数据集的情况下,使用二进制灰狼优化算法(BGWO)、遗传算法(GA)、二进制蚱蜢优化算法(BGOA)三种不同的搜索方法进行多次实验。如上所述,如果使用原始特征集(维度为3490)进行实验将会导致这些搜索方法收敛速度极慢,于是,为了实验的合理比较,我们采用了与所提方法相同的经过初筛之后的特征集(维度为175)作为这些方法的输入,并利用分类精度和特征子集的维数来评价这些方法的性能,同时,计算平均值和标准差来反映搜索方法的稳定性。实验结果如图2和图3所示。
从对比结果可以看出,所提算法的整体性能明显优于其他搜索方法。如图2 和图3所示,本专利提出的基于仿生搜索的关联特征子集选择方法在分类精度和降维能力方面都有较好的表现。为了更好的展示实验结果,我们绘制了平均分类精度和标准差,如图2所示,所提方法的平均场景预测精度最好,标准差最低,这是因为在仿生寻优过程中,修改后的初始化规则可以帮助算法确定更好的搜索方向,而不是随机搜索。因此,该方法具有更好的全局最优搜索能力,避免了一些无用的随机变异,提高了搜索速度和稳定性。而在图3中,尽管GA算法的特征维数标准差最小,但采用所提方法选择的特征数平均值明显低于其他算法,而遗传算法得到的特征子集的平均维度最大,平均场景预测准确率最低。由于没有搜索方向引导,遗传算法更容易达到局部最优,随机搜索规则使数据降维困难,其他两种算法也是如此。而所提算法充分利用了灰色关联度系数,即使包含较少的特征,也有更大的概率从数据集中获得更多的信息。综上所述,本发明提出的基于仿生搜索的电力系统典型场景关联特征选择方法可以在缩减原来数据维数的同时,兼顾了对电力系统典型场景的预测准确率,提高了电力系统在进行场景辨识和预测等工作时的工作效力和运算处理速度,增加了调度人员对数据意义的理解,起到了定量指示作用,有效避免了复杂电力系统中的维数灾难问题,对电力系统数据挖掘和动态分析工作都具有积极意义。
应当理解,上述实施例仅用于对本发明进行描述,并非对本发明专利保护范围的限制,本领域的普通技术人员在本发明启示下,在不脱离本发明专利要求保护的范围情况下,可以对所述实施例进行替换或变性,均落入本发明的保护范围之内。
Claims (1)
1.一种基于仿生搜索的电力系统典型场景关联特征选择方法,其特征在于,包括以下步骤:
步骤1,根据目标电力系统典型场景特性及发生范围,从理论角度分析与目标场景可能相关的电气量与非电气量,并根据变量来源构建组合特征,形成目标场景关联变量备选集合D表示备选变量的总个数,Fi表示第i个备选变量;
步骤2,基于步骤1中所获取的变量备选集合,对其中所包含的变量的历史数据进行信息提取、数据校核、数据修正等预处理以实现标准化;随后利用数据滑窗得到多维时间序列样本,每一个样本均为一个数据矩阵,可记为Xk,k=1,2,3,...,N,N表示样本总个数;之后根据目标场景的分类标准对每一个多维时间序列样本Xk进行标注,得到场景预测模型所需的监督格式多维时间序列数据集,即N表示样本-标签对的总个数,yk为对应于第k个样本Xk的场景标签;
步骤3,基于步骤2中得到的监督格式多维时间序列数据集利用灰色关联度分析方法,依次计算得到D个备选特征变量与目标场景之间的关联系数,并进行数据存储;随后设置合理阈值从原备选集合Q中剔除一部分低关联的特征变量,得到Q',并将其作为仿生搜索算法的输入以进行进一步的筛选,同时处理原多维时间序列数据集H,仅保留Q'中的备选变量的时间序列片段,得到
步骤4,将步骤3中得到的剩余备选变量集合Q'输入改进后的仿生搜索算法,结合场景学习分类器与监督格式时间序列数据集H',通过迭代式的子集生成、基于生成子集的模型训练、模型预测、子集评价过程寻找适应度性能最好的优化关联特征子集Qbest;其中,改进后的仿生搜索算法采用了基于灰色关联度系数的半定向引导初始化机制;
步骤5,基于步骤4所得到的优化关联特征子集Qbest,利用历史数据样本,构建基于多维时间序列学习的场景动态预测模型;在实时情况下,将所获取的多维时间序列样本输入训练好的模型,实现对某区域电网关键目标场景的动态预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275388.0A CN114881101B (zh) | 2022-03-21 | 一种基于仿生搜索的电力系统典型场景关联特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275388.0A CN114881101B (zh) | 2022-03-21 | 一种基于仿生搜索的电力系统典型场景关联特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114881101A true CN114881101A (zh) | 2022-08-09 |
CN114881101B CN114881101B (zh) | 2024-06-07 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964347A (zh) * | 2023-03-16 | 2023-04-14 | 菏泽市产品检验检测研究院 | 一种市场监管监测中心数据的智能存储方法 |
CN116031879A (zh) * | 2023-02-28 | 2023-04-28 | 四川大学 | 一种适应电力系统暂态电压稳定评估的混合智能特征选择方法 |
CN116610725A (zh) * | 2023-05-18 | 2023-08-18 | 深圳计算科学研究院 | 一种应用于大数据的实体增强规则挖掘方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140359499A1 (en) * | 2013-05-02 | 2014-12-04 | Frank Cho | Systems and methods for dynamic user interface generation and presentation |
CN107947206A (zh) * | 2017-12-20 | 2018-04-20 | 武汉大学 | 基于改进的nsga‑ii算法的三相配电网多目标优化方法 |
CN111369168A (zh) * | 2020-03-18 | 2020-07-03 | 武汉大学 | 一种适应电网多种调控运行场景的关联特征选择方法 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140359499A1 (en) * | 2013-05-02 | 2014-12-04 | Frank Cho | Systems and methods for dynamic user interface generation and presentation |
CN107947206A (zh) * | 2017-12-20 | 2018-04-20 | 武汉大学 | 基于改进的nsga‑ii算法的三相配电网多目标优化方法 |
CN111369168A (zh) * | 2020-03-18 | 2020-07-03 | 武汉大学 | 一种适应电网多种调控运行场景的关联特征选择方法 |
Non-Patent Citations (1)
Title |
---|
郭世伟;孟昱煜;陈绍立;: "改进的PSOGM算法在动态关联规则挖掘中的应用", 计算机工程与应用, no. 08, 22 March 2017 (2017-03-22) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116031879A (zh) * | 2023-02-28 | 2023-04-28 | 四川大学 | 一种适应电力系统暂态电压稳定评估的混合智能特征选择方法 |
CN115964347A (zh) * | 2023-03-16 | 2023-04-14 | 菏泽市产品检验检测研究院 | 一种市场监管监测中心数据的智能存储方法 |
CN116610725A (zh) * | 2023-05-18 | 2023-08-18 | 深圳计算科学研究院 | 一种应用于大数据的实体增强规则挖掘方法及装置 |
CN116610725B (zh) * | 2023-05-18 | 2024-03-12 | 深圳计算科学研究院 | 一种应用于大数据的实体增强规则挖掘方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113256066B (zh) | 基于PCA-XGBoost-IRF的作业车间实时调度方法 | |
CN108694470B (zh) | 一种基于人工智能的数据预测方法及装置 | |
CN110163429B (zh) | 一种基于相似日优化筛选的短期负荷预测方法 | |
CN110571792A (zh) | 一种电网调控系统运行状态的分析评估方法及系统 | |
CN112084237A (zh) | 一种基于机器学习和大数据分析的电力系统异常预测方法 | |
CN111259947A (zh) | 一种基于多模态学习的电力系统故障预警方法和系统 | |
CN112508442B (zh) | 基于自动化和可解释机器学习的暂态稳定评估方法及系统 | |
CN107944594B (zh) | 一种基于斯皮尔曼等级与rkelm微网短期负荷预测方法 | |
CN113762329A (zh) | 一种大型轧机状态预测模型的构建方法及构建系统 | |
CN114595623A (zh) | 一种基于XGBoost算法的机组设备基准值预测方法及系统 | |
CN111815054A (zh) | 基于大数据的工业蒸汽热网短期负荷预测方法 | |
CN111898637B (zh) | 一种基于ReliefF-DDC特征选择算法 | |
CN115469227A (zh) | 一种集合变分自编码器与动态规整的锂电池异常检测方法 | |
CN116861331A (zh) | 一种融合专家模型决策的数据识别方法及系统 | |
CN110781206A (zh) | 一种学习拆回表故障特征规则预测在运电能表是否故障的方法 | |
CN113033898A (zh) | 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及系统 | |
Sahoo et al. | Health Index Analysis of XLPE Cable Insulation using Machine Learning Technique | |
CN114881101B (zh) | 一种基于仿生搜索的电力系统典型场景关联特征选择方法 | |
CN114881101A (zh) | 一种基于仿生搜索的电力系统典型场景关联特征选择方法 | |
CN116091206A (zh) | 信用评价方法、装置、电子设备及存储介质 | |
CN115598459A (zh) | 一种配电网10kV馈线故障停电预测方法 | |
Gao et al. | Fault detection of electric vehicle charging piles based on extreme learning machine algorithm | |
Zheng et al. | Application based on artificial intelligence in substation operation and maintenance management | |
CN111461565A (zh) | 一种电力调控下的电源侧发电性能评估方法 | |
Lu et al. | Time series power anomaly detection based on Light Gradient Boosting Machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |