CN110738232A - 一种基于数据挖掘技术的电网电压越限成因诊断方法 - Google Patents

一种基于数据挖掘技术的电网电压越限成因诊断方法 Download PDF

Info

Publication number
CN110738232A
CN110738232A CN201910796367.1A CN201910796367A CN110738232A CN 110738232 A CN110738232 A CN 110738232A CN 201910796367 A CN201910796367 A CN 201910796367A CN 110738232 A CN110738232 A CN 110738232A
Authority
CN
China
Prior art keywords
data
particle
clustering
voltage out
svm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910796367.1A
Other languages
English (en)
Inventor
段翔兮
高剑
李熠
冯世林
滕予非
邹琬
何锐
张华�
刘明忠
罗荣森
李世龙
孙永超
龙呈
胡蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Original Assignee
Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd filed Critical Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Priority to CN201910796367.1A priority Critical patent/CN110738232A/zh
Publication of CN110738232A publication Critical patent/CN110738232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01DMEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
    • G01D21/00Measuring or testing not otherwise provided for
    • G01D21/02Measuring two or more variables by means not covered by a single other subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本发明涉及电气自动化领域,公开了一种基于数据挖掘技术的电网电压越限成因诊断方法,包括下列步骤:A)提取越限电压,采集越限电压的相关特征;B)删除不良数据,进行数据预处理,得到样本数据;C)构建K‑means改进聚类模型,获取电压越限成因聚类结果;D)对电压越限成因聚类结果进行分类标识;E)构建SVM多分类器模型,优化模型参数;F)输入待诊断数据样本到SVM多分类模型,将SVM多分类模型的输出作为待诊断数据样本的电压越限成因。本发明效率高,减少了人为主观因素的影响,快速有效地处理电网低压海量数据,改进了K‑means聚类模型,得到好的聚类效果,同时,对SVM模型进行参数优化,增加了电网电压越限成因诊断的准确性。

Description

一种基于数据挖掘技术的电网电压越限成因诊断方法
技术领域
本发明涉及电气自动化技术领域,尤其是涉及一种基于数据挖掘技术的电网电压越限成因诊断方法。
背景技术
近年来,随着我国经济的快速发展,城市扩张速度明显加快,电网结构日趋复杂,电压过低的现象屡见不鲜,然而,电压过低一方面会增加系统运行损耗,损害变压器、电动机等设备的使用寿命,另一方面还可能造成大面积的停电事故,严重危害了企业的正常生产和居民的日常生活,给社会造成巨大的经济损失。目前,电网的低压诊断仍以人工分析为主,其主要技术手段是依据少量的实时量测,并辅以运行人员的经验判断进行分析。这种方式不仅效率低下,其分析过程还受到人为主观因素的影响,难以保证结果的准确性。此外,随着电网结构复杂度以及智能量测装置急剧增加,电网每天产生海量、异构的数据,以往的人工诊断方式效率低,已无法有效应对当前电网状况,且其所得的低电压成因分类是否全面也值得考虑。因此,对电网的低压成因进行诊断,探索相关应对策略,建立快速有效的电压越限成因诊断模型对于优化系统投资、减少运行损耗、实现低压综合治理具有重要意义。
例如,一种在中国专利文献上公开的“一种基于前推回代算法的低电压台区智能治理方法”,其公告号CN104362637A,包括以下步骤:一是确定具有低电压现象的台区;二是原始数据采集;三是画图和设置电气元件参数;四是潮流计算;五是低电压成因分析;六是低电压治理与经济性评估。该发明需要人为地画图和设置电气元件参数,其分析过程还受到人为主观因素的影响,难以保证结果的准确性。
发明内容
本发明是为了解决人工诊断分析电网电压越限成因的效率低,分析过程还受到人为主观因素的影响,难以保证结果准确性的问题,提供一种基于数据挖掘技术的电网电压越限成因诊断方法。该方法效率高,减少了人为主观因素的影响,快速有效地处理电网低压海量数据,改进了K-means聚类方法,得到好的聚类效果,同时,对SVM模型进行了参数优化,增加了电网电压越限成因诊断的准确性。
为了实现上述目的,本发明采用以下技术方案:
一种基于数据挖掘技术的电网电压越限成因诊断方法,包括下列步骤:
A)设定电压阈值范围,提取超过阈值范围的越限电压,采集所述越限电压的相关特征:包括动态特征和静态特征,静态参数包括用户电压、用户电流、正向有功、正向无功、反向有功、反向无功、功率因素、出口A相电压、出口B相电压、出口C相电压、出口A相电流、出口B相电流、出口C相电流、负载率和三相不平衡度,静态参数包括:电表编号、挂接配变编号、距挂接配变距离、挂接相位、用电分类编号、配变数据编号、额定容量、出口线路型号、相带用户数和最大供电半径;
B)删除不良数据,不良数据包括重复数据和不完整数据,进行数据预处理,得到数据样本;
C)构建K-means改进聚类模型,利用数据样本训练该K-means改进聚类模型,获取电压越限成因聚类结果;
D)对电压越限成因聚类结果进行分类标识,获取标识结果;
E)构建SVM多分类模型,使用电压越限成因聚类结果和标识结果训练该SVM多分类模型;
F)输入待诊断数据样本到SVM多分类模型,将SVM多分类模型的输出作为待诊断数据样本的电压越限成因。
采集到的通常是海量数据,把采集到的不适合用来做训练模型的数据进行预处理,从而转化为适合用来训练的数据,进行数据预处理可减少计算量。K-means聚类算法对处理大数据集,是相对可伸缩的和高效率的,包含两个步骤:计算所有的样本数据,把每个样本数据分配到距离其最近的聚类中心所在的类别里;新的聚类中心再移动到这个聚类所有点的平均值处。K-means聚类算法对初值敏感,对于不同的初始值,倘若将孤立点设置为初始聚类中心,会导致不同的聚类结果,因此通过优化初始聚类中心和聚类个数,改进K-means聚类算法,增加了模型的稳定性和准确性。在聚类结果的基础上,通过训练SVM模型来对待诊断数据样本进行电压越限成因分类,然而SVM是二分类器,由于电压越限成因多样,所以通过构建多个SVM分类器达到电压越限成因诊断多样的分类效果。
进一步地,步骤B)数据预处理包括以下步骤:
B1)计算每一种相关特征的方差值,设定方差阈值,删除方差值低于方差阈值的相关特征,获得高相关特征,所述数据样本总数为m个,所述高相关特征为n种,获得数据样本集合H,记为
Figure BDA0002181072780000021
xm表示第m个数据样本,xmn第m个数据样本中的第n个高相关特征;
B2)将所述数据样本转化为数值型,并且将所有数据样本归一化,表达式可以为:
Figure BDA0002181072780000031
步骤B1)是进行对数据样本进行特征选取,如果有一类相关特征的方差值很小,低于方差阈值,就表示样本在这个相关特征上基本没有差异,这个相关特征与电压越限成因结果相关性小。
进一步地,步骤C)还包括:
C1)读取数据样本集合H,计算每个数据样本xi的密度参数εi,i∈1,...,m,设定密度阈值,删除低于该密度阈值的数据样本,得到高密度集合D,记为
C2)把密度参数最大的数据样本作为K-means改进聚类模型的第一个初始聚类中心z1,z1∈D;
C3)读取高密度集合D,计算高密度集合D中的任意两个数据样本间的距离d(xe,xf),xe=[xe1,...,xen],xf=[xf1,...,xfn],e∈1,...,d,f∈1,...,u,把距离第一个初始聚类中心z1最远的数据样本作为第二个初始聚类中心z2,z2∈D;
C4)获取满足max(min(d(xg,z1),...,d(xg,zk-1)))的数据样本xg,g∈1,...,d,把该数据样本xg作为第k个聚类中心zk,zk∈D;
C5)重复步骤C4,依次得到k个初始聚类中心,k≥3;
C6)建立目标函数
Figure BDA0002181072780000033
式中,Sh为第h个聚类中心的离散度,Sl为第l个聚类中心的离散度,d(xh,xl)为第h和第l聚类中心之间的距离,获得使目标函数取得最优的聚类个数k。
实际的数据集中往往有噪声数据存在,如果任意取k个数据样本为初始聚类中心,有时会取到噪声点,从而影响聚类效果,通常认为低密度区域的点为噪声点,为避免取到噪声点,将相互距离最远的k个处于高密度的数据样本作为初始聚类中心,从数据样本密度出发,找到能反映数据分布特征的数据样本作为初始聚类中心,消除了模型的敏感性。目标函数minDBI的分子为任意两类数据样本的类内平均距离之和,分子越小表明类内距离越紧凑,分母为任意两个聚类中心的距离,分母越大表明类间距离越大,通过优化该目标函数取得最优的聚类个数k,提高了模型的准确性和聚类效果。
进一步地,步骤E)还包括:
E1)将标识结果记为标识集y=[y1,...,yd]’;
E2)将电压越限成因聚类结果相同的数据样本作为同类样本,在每一种同类样本中选取q个数据样本,构成同类样本集合
Figure BDA0002181072780000041
k种同类样本构成训练集合Q={Q1,Q2,...,Qk};
E3)在训练集合Q的任意两个元素之间设计一个SVM模型,k种电压越限成因聚类结果设计k(k-1)/2个SVM模型,构建SVM多分类模型。
在步骤E2)通过让每一类的数据样本个数相同,避免了由数据的不平衡而导致分类器性能降低。SVM模型具有少量样本就可以获得好的分类结果的特点,然而是一个二分类器,所以需要构造多个SVM模型来达到多分类的目的。
进一步地,利用粒子群算法对每一个SVM模型进行寻优,步骤如下:
E31)初始化每一个SVM模型,构建目标函数:
Figure BDA0002181072780000042
Figure BDA0002181072780000043
其中,K(xe,xf)为核函数,c为罚参数,αe、αf分别是与标识结果ye、yf对应的拉格朗日乘子;
E32)选取SVM模型中的待优化参数h个,从训练集合Q中获取数据样本,产生初始粒子并建立种群,每一个粒子代表SVM中的一组待优化参数,选取适应度函数,粒子群规模N、第w个粒子的初始位置
Figure BDA0002181072780000044
种群位置P,第w个粒子的初始速度
Figure BDA0002181072780000045
适应度约束条件、惯性权重ω、最大迭代次数T、第w个粒子的个体最优位置phbest和种群最优位置Pgbest
E33)计算每个粒子的适应度值,评价每个粒子的适应度值,获取评价结果;
E34)根据评价结果更新个体最优位置phbest和种群最优位置Pgbest,更新粒子速度和粒子位置;
E35)判断是否达到适应度约束条件或最大迭代次数,如果达到,则寻优过程结束,获得SVM模型待优化参数的最优解;如果未达到,则返回至E33)。
对于SVM算法而言,选取合适的参数是决定其性能的关键,粒子群算法是一种智能优化方法,通过种群个体之间的协作和信息共享获得最优解,使得SVM模型收敛速度快、调节参数少、易于实现。步骤E33)和步骤E34)是对每个粒子的适应度值进行评价分析,对每个粒子,将当前的适应度值与个体最优位置phbest对应的适应度值做比较,如果当前的适应度值更高,则用当前的适应度值更新个体最优位置phbest;再将每个粒子当前的适应度值与种群最优位置Pgbest对应的适应度值做比较,如果当前的适应度值更高,则用当前的粒子位置更新种群最优位置Pgbest
步骤E31)中,
K(xe,xf)=exp(-γ||xe-xf||2)或
Figure BDA0002181072780000051
Figure BDA0002181072780000052
Figure BDA0002181072780000053
其中γ>0,γ、d、r为核参数。
K(xe,xf)为核函数,当不同类别的高相关特征在原始空间中无法被线性分类器区隔开来时,构造一个核函数,经由非线性投影后的高相关特征能在更高维度的空间中区隔开,把低维度空间映射到高维空间实现分类,避免了在特征空间内的运算,降低计算的复杂度。
进一步地,步骤E32)中的待优化参数包括:罚参数、核参数或拉格朗日乘子。
进一步地,在步骤E34)中,第t次迭代后,种群位置记为:
Figure BDA0002181072780000054
粒子速度更新公式是:
其中,
Figure BDA0002181072780000056
表示第w个粒子的第d维在第t次迭代时的速度,
Figure BDA0002181072780000057
表示第w个粒子的第d维在第t次迭代时的位置,ω为惯性权重,L1、L2为学习因子,R1、R2为相互独立且均匀分布在[0,1]区间的随机数,为第w个粒子在第t次迭代时的第d维的个体最优位置,
Figure BDA0002181072780000059
为第t次迭代时的第d维的种群最优位置;
粒子位置更新公式为:
Figure BDA00021810727800000510
其中,
Figure BDA00021810727800000511
表示第w个粒子的第d维在第t次迭代时的速度。
每一个粒子代表SVM中的一组待优化参数,第w个粒子的第d维表示第d个待优化参数,粒子每更新一次位置,就计算一次适应度值,通过比较适应度值,再更新个体最优位置phbest和种群最优位置Pgbest。在每次迭代中,粒子通过个体最优位置phbest和种群最优位置Pgbest更新自身的速度和位置,直到达到适应度约束条件即找到最优解,或达到最大迭代次数,寻优过程结束。再将获得的待优化参数的最优解带入SVM模型中,利用数据样本对SVM模型进行训练,最终获得SVM多分类模型。将待诊断数据样本输入到SVM多分类模型,把SVM多分类模型的输出作为待诊断数据样本的电压越限成因。
进一步地,步骤C1)中,密度参数εi的计算方法为:以数据样本xi为中心,其半径r范围内恰好包含常数minPts个数据样本,则将该半径r作为数据样本xi的密度参数εi
进一步地,将步骤E31)中的目标函数设置为步骤E32)中的适应度函数,设置增量阀值S,
Figure BDA0002181072780000061
表示第t+1次迭代的种群最优位置,
Figure BDA0002181072780000062
表示第t次迭代的种群最优位置,适应度约束条件设置为当
Figure BDA0002181072780000063
迭代结束。
粒子所对应的适应度值是该组待优化参数下的算法性能,将目标函数设置直接设置成适应度函数,再设置一个阈值,当种群最优位置与上一次迭代的种群最优位置相比,增量小于该阈值,表明已经找到了待优化参数的最优解。
因此,本发明具有如下有益效果:效率高,减少了人为主观因素的影响,快速有效地处理电网低压海量数据,帮助工作人员迅速找到电网电压越限故障原因,及时地对故障进行处理。另外,通过优化初始聚类中心和聚类个数,提高了K-means模型的准确性和聚类效果,得到的电压成因分类更加全面可靠。同时利用粒子群算法改进了SVM多分类器,提高了稳定性,准确地给出了电网电压越限成因诊断结果。
附图说明
图1是本发明的一种电网电压越限成因诊断方法流程框图。
图2是本发明的SVM多分类器模型训练流程框图。
具体实施方式
下面结合附图与具体实施方式对本发明做进一步的描述。
一种基于数据挖掘技术的电网电压越限成因诊断方法,如图1所示,包括下列步骤:
A)设定电压阈值范围,提取超过阈值范围的越限电压,采集所述越限电压的相关特征:包括动态特征和静态特征,静态参数包括用户电压、用户电流、正向有功、正向无功、反向有功、反向无功、功率因素、出口A相电压、出口B相电压、出口C相电压、出口A相电流、出口B相电流、出口C相电流、负载率和三相不平衡度,静态参数包括:电表编号、挂接配变编号、距挂接配变距离、挂接相位、用电分类编号、配变数据编号、额定容量、出口线路型号、相带用户数和最大供电半径;
B)删除不良数据,不良数据包括重复数据和不完整数据,进行数据预处理,得到数据样本。
进行特征选取,计算每一种相关特征的方差值,设定方差低阈值,删除方差值低于方差低阈值的相关特征,获得高相关特征,所述数据样本总数为m个,所述高相关特征为n种,获得数据样本集合H,记为
Figure BDA0002181072780000071
xm表示第m个数据样本,xmn第m个数据样本中的第n个高相关特征;
将所述数据样本整合为数值型,并且将所有数据样本归一化,表达式可以为:
Figure BDA0002181072780000072
C)读取数据样本集合H,以数据样本xi为中心,其半径r范围内恰好包含常数minPts个数据样本,则将该半径r作为数据样本xi的密度参数εi计算每个数据样本xi的密度参数εi,i∈1,...,m,设定密度阈值,删除低于该密度阈值的数据样本,得到高密度集合D,记为
Figure BDA0002181072780000073
C2)把密度参数最大的数据样本作为K-means改进聚类模型的第一个初始聚类中心z1,z1∈D;
C3)读取高密度集合D,计算高密度集合D中的任意两个数据样本间的距离d(xe,xf),xe=[xe1,...,xen],xf=[xf1,...,xfn],e∈1,...,d,f∈1,...,u,把距离第一个初始聚类中心z1最远的数据样本作为第二个初始聚类中心z2,z2∈D;
C4)获取满足max(min(d(xg,z1),...,d(xg,zk-1)))的数据样本xg,g∈1,...,d,把该数据样本xg作为第k个聚类中心zk,zk∈D;
C5)重复步骤C4,依次得到k个初始聚类中心,k≥3;
C6)建立目标函数
Figure BDA0002181072780000081
式中,Sh为第h个聚类中心的离散度,Sl为第l个聚类中心的离散度,d(xh,xl)为第h和第l聚类中心之间的距离,获得使目标函数取得最优的聚类个数k。
从数据样本密度出发选取初始聚类中心和最优的聚类个数k构建K-means改进聚类模型,利用数据样本训练该K-means改进聚类模型,获取电压越限成因聚类结果;
D)对电压越限成因聚类结果进行分类标识,获取标识结果,将标识结果记为标识集
y=[y1,...,yd]’。
E)将电压越限成因聚类结果相同的数据样本作为同类样本,在每一种同类样本中选取q个数据样本,构成同类样本集合k种同类样本构成训练集合Q={Q1,Q2,...,Qk}。在训练集合Q的任意两个元素之间设计一个SVM模型,利用粒子群算法对每一个SVM模型进行寻优,如图2所示,步骤如下:
E31)初始化每一个SVM模型,构建目标函数:
Figure BDA0002181072780000083
其中,K(xe,xf)为泛化能力强的高斯核函数,记为K(xe,xf)=exp(-γ||xe-xf||2),γ>0,c为罚参数,αe、αf分别是与标识结果ye、yf对应的拉格朗日乘子,γ为核参数。
E32)选取SVM模型中的待优化参数4个,分别是罚参数c、拉格朗日乘子αe、αf和核参数γ,从训练集合Q中获取数据样本,产生初始粒子并建立种群,每一个粒子代表SVM中的一组待优化参数,将步骤E31)中的目标函数设置为适应度函数,粒子群规模N、第w个粒子的初始位置
Figure BDA0002181072780000085
种群位置P,第w个粒子的初始速度惯性权重ω、最大迭代次数T、第w个粒子的个体最优位置phbest、种群最优位置Pgbest
设置适应度约束条件:当
Figure BDA0002181072780000087
迭代结束。
E33)计算每个粒子的适应度值,评价每个粒子的适应度值,获取评价结果。
E34)根据评价结果更新个体最优位置phbest和种群最优位置Pgbest,更新粒子速度和粒子位置;
第t次迭代后,种群位置记为
Figure BDA0002181072780000091
粒子速度更新公式是:其中,表示第w个粒子的第d维在第t次迭代时的速度,
Figure BDA0002181072780000094
表示第w个粒子的第d维在第t次迭代时的位置,ω为惯性权重,L1、L2为学习因子,R1、R2为相互独立且均匀分布在[0,1]区间的随机数,
Figure BDA0002181072780000095
为第w个粒子在第t次迭代时的第d维的个体最优位置,
Figure BDA0002181072780000096
为第t次迭代时的第d维的种群最优位置;
粒子位置更新公式为:
Figure BDA0002181072780000097
其中,
Figure BDA0002181072780000098
表示第w个粒子的第d维在第t次迭代时的速度。
每一个粒子代表SVM中的一组待优化参数,第w个粒子的第d维表示第d个待优化参数,粒子每更新一次位置,就计算一次适应度值,通过比较适应度值,再更新个体最优位置phbest和种群最优位置Pgbest。在每次迭代中,粒子通过个体最优位置phbest和种群最优位置Pgbest更新自身的速度和位置。
E35)判断是否达到适应度约束条件或最大迭代次数,如果达到,则寻优过程结束,获得SVM模型待优化参数的最优解;如果未达到,则返回至E33);
再将获得的待优化参数的最优解带入SVM模型中,k种电压越限成因聚类结果设计k(k-1)/2个SVM模型,利用数据样本对SVM模型进行训练,最终获得SVM多分类模型。
F)使用电压越限成因聚类结果和标识结果训练该SVM多分类模型,输入待诊断样本数据到SVM多分类模型,如表1所示:
表1在不同样本数据下的电压越限成因诊断结果
样本数据 训练集数 测试集数 用时/秒 准确率
1 2038 400 150.4 92.4%
2 3450 400 254.5 94.3%
3 4120 500 320.6 95.6%
将2438个样本数据本数据划分为训练集和测试集,其中训练集包含数据2038条,测试集数据400条,之后选取400条未知低电压成因数据作为模型的输入进行测试,得到低压成因结果,与实际结果对比表明该模型预测准确率高达92.4%,表1给出了不同样本数据下的电压越限成因诊断结果。表中随着训练集个数增加,算法所需的计算时间也随之增加,同时预测准确率也得以提高。
SVM是二分类器,通过构建多个分类器达到电压越限成因多样的分类效果。对于SVM算法而言,选取合适的参数是决定其性能的关键,粒子群算法是一种智能优化方法,通过种群个体之间的协作和信息共享获得最优解,使得SVM模型收敛速度快、调节参数少、易于实现。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明保护范围以内。

Claims (10)

1.一种基于数据挖掘技术的电网电压越限成因诊断方法,其特征是,包括下列步骤:
A)设定电压阈值范围,提取超过阈值范围的越限电压,采集所述越限电压的相关特征;
B)删除不良数据,不良数据包括重复数据和不完整数据,进行数据预处理,得到数据样本;
C)构建K-means改进聚类模型,利用数据样本训练该K-means改进聚类模型,获取电压越限成因聚类结果;
D)对电压越限成因聚类结果进行分类标识,获取标识结果;
E)构建SVM多分类模型,使用电压越限成因聚类结果和标识结果训练该SVM多分类模型;
F)输入待诊断数据样本到SVM多分类模型,将SVM多分类模型的输出作为待诊断数据样本的电压越限成因。
2.根据权利要求1所述的一种基于数据挖掘技术的电网电压越限成因诊断方法,其特征是,步骤B)中,数据预处理包括:
B1)计算每一种相关特征的方差值,设定方差阈值,删除方差值低于方差阈值的相关特征,获得高相关特征,所述数据样本总数为m个,所述高相关特征为n种,获得数据样本集合H,记为
Figure FDA0002181072770000011
xm表示第m个数据样本,xmn第m个数据样本中的第n个高相关特征;
B2)将所述数据样本转化为数值型,并且将所有数据样本归一化,表达式可以为:
Figure FDA0002181072770000012
3.根据权利要求2所述的一种基于数据挖掘技术的电网电压越限成因诊断方法,其特征是,步骤C)还包括:
C1)读取数据样本集合H,计算每个数据样本xi的密度参数εi,i∈1,...,m,设定密度阈值,删除低于该密度阈值的数据样本,得到高密度集合D,记为
C2)把密度参数最大的数据样本作为K-means改进聚类模型的第一个初始聚类中心z1,z1∈D;
C3)读取高密度集合D,计算高密度集合D中的任意两个数据样本间的距离d(xe,xf),xe=[xe1,...,xen],xf=[xf1,...,xfn],e∈1,...,d,f∈1,...,u,把距离第一个初始聚类中心z1距离最远的数据样本作为第二个初始聚类中心z2,z2∈D;
C4)获取满足max(min(d(xg,z1),...,d(xg,zk-1)))的数据样本xg,g∈1,...,d,把该数据样本xg作为第k个聚类中心zk,zk∈D;
C5)重复步骤C4,依次得到k个初始聚类中心,k≥3;
C6)建立目标函数
Figure FDA0002181072770000022
式中,Sh为第h个聚类中心的离散度,Sl为第l个聚类中心的离散度,d(xh,xl)为第h和第l聚类中心之间的距离,获得使目标函数取得最优的聚类个数k。
4.根据权利要求3所述一种基于数据挖掘技术的电网电压越限成因诊断方法,其特征是,步骤E)还包括:
E1)将标识结果记为标识集y=[y1,...,yd]';
E2)将电压越限成因聚类结果相同的数据样本作为同类样本,在每一种同类样本中选取q个数据样本,构成同类样本集合
Figure FDA0002181072770000023
k种同类样本构成训练集合Q={Q1,Q2,...,Qk};
E3)在训练集合Q的任意两个元素之间设计一个SVM模型,k种电压越限成因聚类结果设计k(k-1)/2个SVM模型,构建SVM多分类模型。
5.根据权利要求4所述的一种基于数据挖掘技术的电网电压越限成因诊断方法,其特征是,利用粒子群算法对每一个SVM模型进行寻优,步骤如下:
E31)初始化每一个SVM模型,构建目标函数:
Figure FDA0002181072770000031
其中,K(xe,xf)为核函数,c为罚参数,αe、αf分别是与标识结果ye、yf对应的拉格朗日乘子;
E32)选取SVM模型中的待优化参数h个,从训练集合Q中获取数据样本,产生初始粒子并建立种群,每一个粒子代表SVM中的一组待优化参数,选取适应度函数,粒子群规模N、第w个粒子的初始位置
Figure FDA0002181072770000033
种群位置P,第w个粒子的初始速度
Figure FDA0002181072770000034
适应度约束条件、惯性权重ω、最大迭代次数T、第w个粒子的个体最优位置phbest和种群最优位置Pgbest
E33)计算每个粒子的适应度值,评价每个粒子的适应度值,获取评价结果;
E34)根据评价结果更新个体最优位置phbest和种群最优位置Pgbest,更新粒子速度和粒子位置;
E35)判断是否达到适应度约束条件或最大迭代次数,如果达到,则寻优过程结束,获得SVM模型待优化参数的最优解;如果未达到,则返回至E33)。
6.根据权利要求5所述的一种基于数据挖掘技术的电网电压越限成因诊断方法,其特征是,步骤E31)中,
K(xe,xf)=exp(-γ||xe-xf||2)或
Figure FDA0002181072770000035
Figure FDA0002181072770000036
Figure FDA0002181072770000037
其中γ>0,γ、d、r为核参数。
7.根据权利要求6所述的一种基于数据挖掘技术的电网电压越限成因诊断方法,其特征是,步骤E32)中的待优化参数包括:罚参数、核参数或拉格朗日乘子中的至少一个。
8.根据权利要求5所述的一种基于数据挖掘技术的电网电压越限成因诊断方法,其特征在于,在步骤E34)中,第t次迭代后,种群位置记为
Figure FDA0002181072770000041
粒子速度更新公式是:
其中,
Figure FDA0002181072770000043
表示第w个粒子的第d维在第t次迭代时的速度,
Figure FDA0002181072770000044
表示第w个粒子的第d维在第t次迭代时的位置,ω为惯性权重,L1、L2为学习因子,R1、R2为相互独立且均匀分布在[0,1]区间的随机数,
Figure FDA0002181072770000045
为第w个粒子在第t次迭代时的第d维的个体最优位置,
Figure FDA0002181072770000046
为第t次迭代时的第d维的种群最优位置;
粒子位置更新公式为:
Figure FDA0002181072770000047
其中,
Figure FDA0002181072770000048
表示第w个粒子的第d维在第t次迭代时的速度。
9.根据权利要求3所述的一种基于数据挖掘技术的电网电压越限成因诊断方法,其特征是,步骤C1中,密度参数εi的计算方法为:以数据样本xi为中心,其半径r范围内恰好包含常数h个数据样本,则将该半径r作为数据样本xi的密度参数εi
10.根据权利要求5所述的一种基于数据挖掘技术的电网电压越限成因诊断方法,其特征是,将步骤E32)中的适应度函数设置为步骤E31)中的目标函数,设置增量阀值S,
Figure FDA00021810727700000412
表示第t+1次迭代的种群最优位置,
Figure FDA00021810727700000410
表示第t次迭代的种群最优位置,适应度约束条件设置为当
Figure FDA00021810727700000411
迭代结束。
CN201910796367.1A 2019-08-27 2019-08-27 一种基于数据挖掘技术的电网电压越限成因诊断方法 Pending CN110738232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910796367.1A CN110738232A (zh) 2019-08-27 2019-08-27 一种基于数据挖掘技术的电网电压越限成因诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910796367.1A CN110738232A (zh) 2019-08-27 2019-08-27 一种基于数据挖掘技术的电网电压越限成因诊断方法

Publications (1)

Publication Number Publication Date
CN110738232A true CN110738232A (zh) 2020-01-31

Family

ID=69267758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910796367.1A Pending CN110738232A (zh) 2019-08-27 2019-08-27 一种基于数据挖掘技术的电网电压越限成因诊断方法

Country Status (1)

Country Link
CN (1) CN110738232A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241187A (zh) * 2020-02-26 2020-06-05 肖莎莎 一种大数据挖掘系统
CN111401460A (zh) * 2020-03-24 2020-07-10 南京师范大学镇江创新发展研究院 一种基于限值学习的异常电量数据辨识方法
CN111507407A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 图像分类模型的训练方法及装置
CN116361679A (zh) * 2023-06-02 2023-06-30 青岛豪迈电缆集团有限公司 基于数据驱动的电缆寿命智能预测方法及系统
CN116780781A (zh) * 2023-08-24 2023-09-19 滇恒能源技术(云南)有限公司 智能电网接入的功率管理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229993A (zh) * 2017-05-03 2017-10-03 华北电力大学 一种基于km‑apso‑svm模型的短期电力负荷预测方法
CN107515892A (zh) * 2017-07-07 2017-12-26 国网浙江省电力公司 一种基于大数据挖掘的电网低电压成因诊断方法
CN110059714A (zh) * 2019-03-11 2019-07-26 广东工业大学 基于多分类支持向量机的变压器故障诊断方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229993A (zh) * 2017-05-03 2017-10-03 华北电力大学 一种基于km‑apso‑svm模型的短期电力负荷预测方法
CN107515892A (zh) * 2017-07-07 2017-12-26 国网浙江省电力公司 一种基于大数据挖掘的电网低电压成因诊断方法
CN110059714A (zh) * 2019-03-11 2019-07-26 广东工业大学 基于多分类支持向量机的变压器故障诊断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨柳松等: "基于改进粒子群优化的SVM故障诊断方法", 《计算机工程》 *
毛亚明等: "基于大数据挖掘的低电压成因诊断方法", 《信息技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241187A (zh) * 2020-02-26 2020-06-05 肖莎莎 一种大数据挖掘系统
CN111401460A (zh) * 2020-03-24 2020-07-10 南京师范大学镇江创新发展研究院 一种基于限值学习的异常电量数据辨识方法
CN111507407A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 图像分类模型的训练方法及装置
CN111507407B (zh) * 2020-04-17 2024-01-12 腾讯科技(深圳)有限公司 图像分类模型的训练方法及装置
CN116361679A (zh) * 2023-06-02 2023-06-30 青岛豪迈电缆集团有限公司 基于数据驱动的电缆寿命智能预测方法及系统
CN116361679B (zh) * 2023-06-02 2023-08-11 青岛豪迈电缆集团有限公司 基于数据驱动的电缆寿命智能预测方法及系统
CN116780781A (zh) * 2023-08-24 2023-09-19 滇恒能源技术(云南)有限公司 智能电网接入的功率管理方法
CN116780781B (zh) * 2023-08-24 2023-11-10 滇恒能源技术(云南)有限公司 智能电网接入的功率管理方法

Similar Documents

Publication Publication Date Title
CN110752410B (zh) 一种快速分选和重组退役锂电池的方法
CN109146705B (zh) 一种用电特征指标降维与极限学习机算法进行窃电检测的方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN105512799B (zh) 一种基于海量在线历史数据的电力系统暂态稳定评估方法
CN104809658B (zh) 一种低压配网台区线损的快速分析方法
CN110991786A (zh) 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法
CN102521656A (zh) 非平衡样本分类的集成迁移学习方法
US20210109140A1 (en) Method for identifying parameters of 10 kv static load model based on similar daily load curves
CN111476435B (zh) 基于密度峰值的充电桩负荷预测方法
CN103049651A (zh) 一种用于电力负荷聚类的方法及装置
CN110610121B (zh) 基于曲线聚类的小时级源荷功率异常数据辨识与修复方法
CN109165604A (zh) 基于协同训练的非侵入式负荷识别方法及其测试系统
CN111160401A (zh) 一种基于均值漂移和XGBoost的异常用电判别方法
CN108805213B (zh) 计及小波熵降维的电力负荷曲线双层谱聚类方法
CN108345908A (zh) 电网数据的分类方法、分类设备及存储介质
CN115829105A (zh) 基于历史数据特征搜索的光伏功率预测方法
CN112287980B (zh) 基于典型特征向量的动力电池筛选方法
CN112819299A (zh) 一种基于中心优化的差分K-means负荷聚类方法
CN111539657A (zh) 结合用户日用电量曲线的典型用电行业负荷特性分类与综合方法
CN111461921A (zh) 一种基于机器学习的负荷建模典型用户数据库更新方法
CN111723876A (zh) 一种考虑双尺度相似性的负荷曲线集成谱聚类算法
CN116796271A (zh) 一种居民用能异常识别方法
CN115905904A (zh) 一种配电网馈线的线损异常评估方法及装置
CN111652478A (zh) 基于伞式算法的电力系统电压稳定评估误分类约束方法
CN112418476A (zh) 一种超短期电力负荷预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200131