CN110750524A - 一种有源配电网故障特征的确定方法及系统 - Google Patents

一种有源配电网故障特征的确定方法及系统 Download PDF

Info

Publication number
CN110750524A
CN110750524A CN201910873221.2A CN201910873221A CN110750524A CN 110750524 A CN110750524 A CN 110750524A CN 201910873221 A CN201910873221 A CN 201910873221A CN 110750524 A CN110750524 A CN 110750524A
Authority
CN
China
Prior art keywords
data
fault
power distribution
distribution network
active power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910873221.2A
Other languages
English (en)
Inventor
董伟杰
刘科研
盛万兴
孟晓丽
贾东梨
何开元
胡丽娟
白牧可
叶学顺
赵伟
陈昶宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Zhejiang Electric Power Co Ltd, China Electric Power Research Institute Co Ltd CEPRI filed Critical State Grid Corp of China SGCC
Priority to CN201910873221.2A priority Critical patent/CN110750524A/zh
Publication of CN110750524A publication Critical patent/CN110750524A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02HEMERGENCY PROTECTIVE CIRCUIT ARRANGEMENTS
    • H02H1/00Details of emergency protective circuit arrangements
    • H02H1/0092Details of emergency protective circuit arrangements concerning the data processing means, e.g. expert systems, neural networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02HEMERGENCY PROTECTIVE CIRCUIT ARRANGEMENTS
    • H02H7/00Emergency protective circuit arrangements specially adapted for specific types of electric machines or apparatus or for sectionalised protection of cable or line systems, and effecting automatic switching in the event of an undesired change from normal working conditions
    • H02H7/26Sectionalised protection of cable or line systems, e.g. for disconnecting a section on which a short-circuit, earth fault, or arc discharge has occured
    • H02H7/28Sectionalised protection of cable or line systems, e.g. for disconnecting a section on which a short-circuit, earth fault, or arc discharge has occured for meshed systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种有源配电网故障特征的确定方法及系统,确定方法包括:S1、基于获取的历史运行数据生成样本数据;S2、利用支持向量机模型‑递归特征消除算法对所述样本数据进行特征选择,提取故障特征;S3、将样本数据中故障特征对应的数据带入基于支持向量机构建的故障预测模型,确定所述故障预测模型的故障预测准确率,当所述故障预测准确率满足要求时,则将所述故障特征设为所述有源配电网故障特征,否则执行S1重新生成样本数据。本发明提供的故障特征确定方法提高了故障预测模型的预测效率,为配电网运行与检修人员提供参考,减轻检修人员的劳动强度。

Description

一种有源配电网故障特征的确定方法及系统
技术领域
本发明涉及配电网运行控制技术领域,具体涉及一种有源配电网故障特征的确定方法及系统。
背景技术
近年来,随着城乡居民生活水平显著提高,人们对于配电网供电可靠性的要求日益提高,然而电力部分只能被动应对配电网故障,这使得配电网可靠性的提升存在瓶颈。实现配电网故障预测可为电力部门提供配电网运营维护决策支持,具有重大的经济和社会效益。
目前大量接入分布式电源、功率双向流动的配电网被称为有源配电网,有源配电网中设备在长期运行下可能因某些外部因素导致有发生故障的趋势,或者某些设备在经过多次扰动或故障过后,虽然仍可以正常运行,但设备可能因累计效应而已经存在某些缺陷。针对这些潜在的安全隐患,基本都是通过检修人员测量避免的,对检修人员的工作能力要求高,而且工作量大,结果准确度有限。
发明内容
为了解决现有技术中所存在的上述不足,本发明提供了一种有源配电网故障特征的确定方法,包括:
S1、基于获取的历史运行数据生成样本数据;
S2、利用支持向量机模型-递归特征消除算法对所述样本数据进行特征选择,提取故障特征;
S3、将样本数据中故障特征对应的数据带入基于支持向量机构建的故障预测模型,确定所述故障预测模型的故障预测准确率,当所述故障预测准确率满足要求时,则将所述故障特征设为所述有源配电网故障特征,否则执行S1重新生成样本数据。
优选的,所述故障特征包括:配变数量、配变容量、月最高气温、月最低气温、月平均气温和月大风日数等级。
优选的,所述基于获取的历史运行数据生成样本数据,包括:
将获取的历史运行数据集成,对集成后的数据进行数据清洗和数据变换,生成中间数据;
采用K-Means聚类算法在中间数据中剔除多维离群数据,得到样本数据;
所述数据清洗包括:删除历史运行数据中的无关数据、重复数据、平滑噪声数据,并筛掉与挖掘主题无关的数据以及处理缺失值和利用箱型图识别的异常值。
优选的,所述采用K-Means聚类算法在中间数据中剔除多维离群数据,得到样本数据,包括:
基于K-Means聚类算法在所述中间数据中检测多维离群数据;
从所述中间数据中删除所述多维离群数据;
基于删除所述多维离群数据后的中间数据中剩余的数据构建样本数据。
优选的,所述基于K-Means聚类算法在所述中间数据中检测多维离群数据,包括:
利用K-Means算法将中间数据集聚为多个簇,确定各簇的中心;
分别计算各中间数据到离它最近的中心的相对距离;
将所述相对距离与阈值进行比较,当所述相对距离大于阈值,则所述中间数据为离群数据。
优选的,所述利用K-Means算法将中间数据集聚为多个簇,包括:
S301、从中间数据中随机选取多个对象作为初始聚类中心;
S302、分别计算每个中间数据到各个聚类中心的距离,将中间数据分配到距离最近的聚类中;
S303、所有中间数据分配完成后,重新计算多个聚类中心;
S304、将当前的聚类中心与上一次的聚类中心相比较,如发生变化,则回到S302,否则停止并输出当前聚类获得的簇。
优选的,所述从中间数据中随机选取多个对象作为初始聚类中心,包括:
随机选取多个聚类中心值;
基于不同的聚类中心值计算构建的目标函数的值;
基于每一个聚类中心值与所述聚类中心值对应的目标函数的值,绘制拐点图;
基于所述拐点图,确定一个聚类中心值,并将所述聚类中心值作为初始聚类中心的个数。
优选的,所述利用支持向量机模型-递归特征消除算法对所述样本数据进行特征选择,提取故障特征,包括:
基于所述样本数据生成的原始特征集,将所述原始特征集中的每个特征以单独的方式删除和多个特征以组合的方式删除获得所有特征子集;
利用递归特征消除算法在所有特征子集上运行支持向量机模型,逐一评估其分类效果,选择特征最少且满足分类要求的特征子集;
将所述特征子集中的特征设置为故障特征。
优选的,所述将样本数据中故障特征对应的数据带入基于支持向量机构建的故障预测模型,预测得到故障等级,包括:
将所述故障特征对应的样本数据分为训练集和测试集,将所述训练集带入所述故障预测模型中,获得最优核函数;
将所述测试集带入训练后的故障预测模型中获得故障等级。
优选的,所述历史运行数据包括:有源配电网的运行数据、故障数据以及有源配电网所在地的气象数据;
所述有源配电网的运行数据包括架空线路长度、电缆长度、分支线数量、开关台数、配变数量、配变容量、月最大负荷和月平均负荷;
所述故障数据包括故障开始时间、故障停止时间和故障馈线;
所述气象数据包括月平均气温、月最高/低气温、月降水量等级、月雷暴日数等级和月大风日数等级。
优选的,所述当所述故障预测准确率满足要求时,则获得当前的故障特征之后,还包括:
基于所述故障特征获取有源配电网的实时运行数据;
将所述实时运行数据带入所述故障预测模型,获得有源配电网的故障等级。
基于同一发明构思,本发明还提供了一种有源配电网故障特征的确定系统,包括:
生成模块,用于基于获取的历史运行数据生成样本数据;
提取模块,用于利用支持向量机模型-递归特征消除算法对所述样本数据进行特征选择,提取故障特征;
预测模块,用于将样本数据中故障特征对应的数据带入基于支持向量机构建的故障预测模型,确定所述故障预测模型的故障预测准确率,当所述故障预测准确率满足要求时,则将所述故障特征设为所述有源配电网故障特征,否则执行S1重新生成样本数据。
优选的,所述生成模块,包括:
生成中间数据单元,用于将获取的历史运行数据集成,对集成后的数据进行数据清洗和数据变换,生成中间数据;
生成样本数据单元,用于采用K-Means聚类算法在中间数据中剔除多维离群数据,得到样本数据;
所述数据清洗包括:删除历史运行数据中的无关数据、重复数据、平滑噪声数据,并筛掉与挖掘主题无关的数据以及处理缺失值和利用箱型图识别的异常值。
与现有技术相比,本发明的有益效果为:
本发明提供的技术方案包括:S1、基于获取的历史运行数据生成样本数据;S2、利用支持向量机模型-递归特征消除算法对所述样本数据进行特征选择,提取故障特征;S3、将样本数据中故障特征对应的数据带入基于支持向量机构建的故障预测模型,确定所述故障预测模型的故障预测准确率,当所述故障预测准确率满足要求时,则将所述故障特征设为所述有源配电网故障特征,否则执行S1重新生成样本数据,本发明提供的故障特征确定方法提高了故障预测模型的预测效率,为配电网运行与检修人员提供参考,减轻检修人员的劳动强度。
本发明提供的技术方案,考虑了有源配电网中的各种故障影响因素并结合了数据挖掘技术,对原始数据进行了清洗与优化,保证了后续模型训练材料的质量;选取的支持向量机模型可以提升数据维度,从而提升分类能力;特征选择算法选择基于后续数据挖掘模型的包装算法,与模型的适应度高,选出的故障特征变量更加合理可靠。
本发明提供的故障预测可以根据当前设备运行的情况为起点,并通过该设备的现有运行环境条件以及历史数据等,提前预测电气设备的故障概率,为配电网运行与检修人员提供参考,提高配电网检修的智能化水平。
附图说明
图1为本发明提供的一种有源配电网故障特征的确定方法流程图;
图2为本发明实施例中有源配电网故障特征的具体确定方法流程图;
图3为本发明的箱型图识别异常值示意图;
图4为本发明的拐点法确定最佳聚类数示意图;
图5为本发明的离群样本检测示意图;
图6为本发明支持向量机的二分类示意图。
具体实施方式
为了更好地理解本发明,下面结合说明书附图和实例对本发明的内容做进一步的说明。
实施例1
如图1所示,本发明提供的一种有源配电网故障特征的确定方法,包括:
S1、基于获取的历史运行数据生成样本数据;
S2、利用支持向量机模型-递归特征消除算法对所述样本数据进行特征选择,提取故障特征;
S3、将样本数据中故障特征对应的数据带入基于支持向量机构建的故障预测模型,确定所述故障预测模型的故障预测准确率,当所述故障预测准确率满足要求时,则将所述故障特征设为所述有源配电网故障特征,否则执行S1重新生成样本数据。
以图2所示的具体确定方法对有源配电网故障特征进行具体解释:
S1、基于获取的历史运行数据生成样本数据,具体包括:
步骤1、首先采集某地区有源配电网不同馈线、不同月份的设备数据、负荷数据、故障数据以及当地的气象数据,构成原始数据库;
步骤2、对步骤1中原始数据进行预处理,主要包括数据集成、数据清洗、数据变换以及多维离群样本剔除等内容。
S2、利用支持向量机模型-递归特征消除算法对所述样本数据进行特征选择,提取故障特征,具体包括:
步骤3、确定故障预测模型为支持向量机模型;
步骤4、在步骤2的基础上,利用SVM-RFECV算法对数据进行特征选择,提取最优属性集,将其作为故障预测模型的输入变量。
S3、将样本数据中故障特征对应的数据带入基于支持向量机构建的故障预测模型,确定所述故障预测模型的故障预测准确率,当所述故障预测准确率满足要求时,则将所述故障特征设为所述有源配电网故障特征,否则执行S1重新生成样本数据,具体包括:
步骤5、基于支持向量机构建故障预测模型,检验模型预测的结果,如果预测结果不理想则返回步骤2,寻找模型优化的方法。
其中各步骤的详细介绍如下:
步骤1:首先采集某地区有源配电网不同馈线、不同月份的设备数据、负荷数据、故障数据以及当地的气象数据,构成原始数据库。
馈线的供电范围内设备众多,运行工况复杂,应尽可能考虑各种潜在故障因素,并在后期加以筛选。在此将研究得出的故障因素重新整理,并分为两类:电网因素和非电网因素。
电网因素主要包括设备因素和负荷因素。设备自身状况与配电网故障有着密切联系,例如相同设备在不同投运时间下发生故障的概率不同;负荷大小同样也会对配电网故障产生影响,例如过负荷时设备温度升高,可能导致设备性能下降,从而为故障的发生埋下隐患。
非电网因素即外部因素,主要是指环境条件造成的影响。例如:气温过高可能会导致局部构件过热,影响其绝缘等方面的性能;大风天可能会引起架空线路摇摆、杆塔倒塌等状况;雷暴日会使设备承受雷击过电压,可能对设备造成严重破坏并直接导致故障发生等等。
本次主要研究对象为某地级市配电网,然而由于当地配电信息系统尚不成熟,数据的缺失、模糊情况较为严重,仅收集到了2018年不同月份的部分馈线数据共计60条,如表1所示;另外,从气象网站整理得到各个月份的气象数据。
表1获取的配电网相关数据
步骤2:对原始数据进行预处理,主要包括数据集成、数据清洗、数据变换以及多维离群样本剔除等内容。
由目前的配电网信息系统仍处于不成熟阶段,其提供的数据不可避免地会出现不完整、重复甚至异常等情况。为了能为后续故障预测工作提供准确、可靠的参考,我们必须首先对原始数据进行预处理。
这一过程通常包括以下几部分内容:
(1)数据清洗:删除原始数据中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。
(2)数据集成:指将多个数据源合并存放在一个统一的数据存储(如数据库,Excel文件)。
(3)数据变换:主要是对数据进行规范化处理,将数据转换为易于分析和应用的形式。
(4)离群样本数据剔除:对原始数据进行预处理后,得到的多维数据样本中仍可能出现异常数据,这种数据称为离群样本数据,其主要成因有:数据来源于不同的类、自然变异、数据测量和收集误差等。离群样本数据可能会直接影响模型的拟合精度,甚至导致错误的预测结果,因此必须对离群样本数据进行剔除。
2.利用箱型图识别属性异常值
该原理主要用来解决数据清洗中对各属性(故障影响因素)异常值的识别。
如图3所示,箱型图提供了识别异常值(离群点)的一个标准:异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值,其中QL为下四分位数,QU为上四分位数,IQR为四分位数间距,即上四分位数与下四分位数的差值。
3.基于K-Means聚类算法的离群样本检测
检测离群样本数据有多种方法,其中一种思路便是利用聚类的思想,所谓聚类就是在没有给定划分类别的情况下,根据数据相似度进行样本分簇的一种方法,正是由于这种原理,聚类在识别明显脱离样本的数据时效果显著,并且可以对多维数据进行操作。
基于聚类的离群样本检测通常是先聚类所有对象,然后评估各对象属于簇的程度(离群点得分)。本发明主要采用基于K-Means聚类算法的离群样本检测方法。
K-Means聚类算法过程如下:
(1)从样本数据中随机选取k个对象作为初始聚类中心(质心);
(2)分别计算每个样本数据到各个聚类中心的距离,将对象分配到距离最近的聚类中;
(3)所有对象分配完成后,重新计算k个聚类中心;
(4)与之前的聚类中心相比较,如发生变化,则回到(2),否则停止并输出聚类结果。
特别需要指出的是,本次研究数据属性多为连续型,宜先对各属性值进行零-均值规范,然后再进行距离计算,其变换公式为:
Figure BDA0002200678020000081
其中
Figure BDA0002200678020000086
为原始数据均值,σ为标准差。
在K-Means聚类算法中,一般需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离,后两者分别可以用d(ei,x),d(ei,ej)表示,其中表示第i个簇Ei的聚类中心,x表示样本,用p个属性来表示n个样本的数据矩阵如下:
Figure BDA0002200678020000082
值得说明的是,Python中的K-Means算法仅支持欧氏距离的计算,即
Figure BDA0002200678020000083
使用误差平方和SSE作为度量聚类质量的目标函数,对于两种不同的聚类结果,选择SSE较小的一个。
SSE的计算公式为:
Figure BDA0002200678020000084
簇Ei的聚类中心ei的计算公式为:
Figure BDA0002200678020000085
其中ni为第i个簇中的样本个数。
另外,对于K-Means聚类算法来说,簇的选取至关重要,因此需要根据实际数据确定最佳聚类数k,这里采用拐点法,其主要思想是:计算在不同k值下目标函数SSE的值,然后通过数据可视化找到其变化的“拐点”。随着聚类数增加,各簇内样本量会越来越少,进而导致SSE的值越来越小。通过Python可以绘制SSE关于k值的函数图像,若图像经过某一点时斜率突然由大变小,并且之后的斜率变化缓慢,那么该点对应的k值便是最佳聚类数,这是因为随着k的增加,聚类效果基本不再发生变化,如图4所示。
聚类完成后,需要根据聚类结果评估对象属于簇的程度(离群点得分),其指标主要有两种:一是对象到簇的距离,二是对象到簇的相对距离(点到质心的距离与簇中所有点到质心的距离的中位数之比),考虑到各簇的密度不同,利用后者进行评估的可靠性通常更高。
离群样本的具体检测步骤如下:
(1)利用K-Means算法将样本集聚为k簇,确定各簇的质心;
(2)分别计算各对象到离它最近的质心的距离与相对距离;
(3)将相对距离与阈值进行比较(该阈值可以通过箱型图确定),如果大于该阈值,则认为该对象为离群点,如图5所示。
本算例利用Python对60条配电网故障相关原始数据进行预处理,最终结果如下:
表2属性异常值处理结果
Figure BDA0002200678020000091
表3离群样本检测结果
最终,数据预处理一共剔除异常数据15条,剩余45条有效数据。
步骤3:确定故障预测模型为支持向量机模型。
本发明主要的预测对象为单馈线供电范围内的月故障,由于待预测属性为离散型,因此该问题实质上为分类问题。同时,考虑到配电网的实际需求,也为了减少预测类别,优化故障预测模型,将馈线月故障按其次数进一步划分为3个不同等级,如表6所示:
表6馈线月故障等级的划分标准
Figure BDA0002200678020000101
最终,故障预测模型应根据输入的故障特征变量,预测对应馈线的月故障等级。解决这种分类问题的方法有很多种,主要包括决策树、人工神经网络、支持向量机、贝叶斯网络等,对于本发明研究的小样本集而言,支持向量机可以起到很好的分类效果。
设想在n维空间中寻找一个分类面(SVM中称为超平面),将空间上的点进行分类。直观上看,应该去找位于两类训练样本“正中间”的划分超平面,因为该划分超平面对训练样本局部扰动的“容忍”性最好。例如,由于训练集的局限性或噪声的因素,训练集外的样本可能比图中的训练样本更接近两个类的分隔界,这将使许多划分超平面出现错误,而“正中间”的超平面影响最小。
以平面上的二分类为例,线性可分SVM的主要思路是,分别计算两类样本点到分界线的距离,找出最小值d1,d2,再找出d1,d2中的较小值,以此为距离将分界线双向平移构造分割带,并从这些分割带中挑选出带宽最大的一个,如图6所示。然而实际中,经常会遇到线性不可分的例子,此时常用做法是把样本映射到高维空间中去。
这里需要引入核函数的概念:假设原始空间中的两个样本点为xi,xj,在扩展到高维空间后,它们的内积φ(xi)·φ(xj)如果等于样本点在原始空间中某个函数的输出,那么该函数就称为核函数。核函数的价值在于它虽然也是将特征进行升维,但它事先在低维上进行计算,而将实质上的分类效果表现在了高维上。
步骤4:利用SVM-RFECV算法对数据进行特征选择,提取最优属性集,将其作为故障预测模型的输入变量。
如果数据的属性数量过多,数据挖掘算法就会耗费大量的时间和资源;同时,一些不必要的属性之间存在的相关性和模式往往没有实际价值,反而可能扰乱算法的正常工作,这种情况对于本发明所要处理的小样本来说十分常见。之前的数据预处理主要是从数值分布的层面考虑的,若要提高模型的可读性、科学合理性,还需基于属性层面对数据进行探索,研究故障与其影响因素的相关性,从而提取与故障相关性最优的属性。这些属性称为故障特征变量,作为故障预测模型的输入变量。提取故障特征变量这一步骤在数据领域中也被称为特征选择,其中特征就是指属性。
由于已经确定了数据挖掘模型,考虑一种基于已有模型的特征选择方法,即利用模型效果来评估特征选择的效果。改进的递归特征消除算法RFECV可以很好地实现这一点。这里RFECV算法应基于SVM模型进行,因此以下简称为SVM-RFECV算法。设有n元原始特征集,将原始特征集中的每个特征以单独的方式删除和多个特征以组合的方式删除获得所有特征子集,其所有特征子集(含空集)个数为2n-1,SVM-RFECV算法会这2n-1个特征子集上运行SVM模型,逐一评估其分类效果,选择特征最少且满足分类要求的特征子集作为最优特征子集。本发明中最优特征子集的选择是使用一种包装方法——递归特征消除算法,将目标数据挖掘算法作为黑盒,所有可能的特征子集作为感兴趣的数据挖掘算法的输入,然后选取产生最好结果的特征子集。特征选择过程可以看作由四部分组成:特征子集评估度量、控制新的特征子集产生的搜索策略、停止搜索判断和验证过程。这一算法的特点是:不需要指定剩余特征数,如果删除特征会造成模型性能的损失,那么将保留所有特征。
表5故障特征变量的筛选结果
Figure BDA0002200678020000111
步骤5:基于支持向量机构建故障预测模型,检验故障预测模型预测的结果,如果预测结果不理想则返回2步骤,寻找模型优化的方法。
将样本数据中故障特征对应的数据带入基于支持向量机构建的故障预测模型,预测得到故障等级;基于预测得到的故障等级以及样本数据中的故障等级确定所述故障预测模型的故障预测准确率,即通过故障预测模型得到预测故障等级和预测准确率,当所述故障预测准确率满足要求时,则将所述故障特征设为所述有源配电网故障特征,否则执行S1重新生成样本数据。
Python中sklearn模块提供的函数可以直接建立SVM模型,并返回预测结果与模型的准确率。通过GridsearchCV函数可以实现参数和核函数的最优选择。
从经过特征选择后的45个样本中抽取30个作为训练集,剩余15个作为测试集,直接建立带核SVM模型,运行Python程序,如果线性SVM适用,则最优核函数会返回为“Linear”,最终模型在测试集上的预测准确率为100%。根据预测准确率表明基于支持向量机的配电网故障预测模型可以起到很好的效果。
本发明实施例提供的技术方案有以下特点:
1.基于K-Means聚类的多维离群样本剔除方法,其特点在于:处理完每一个属性下的数据后对得到的多维样本再进行统一清洗,方法简便、可靠;同时在聚类中还运用了拐点法确定最佳聚类数,降低了聚类的盲目性。
2.基于支持向量机的数据挖掘模型,其特点在于:当样本可分性较差时,该模型可以利用核函数将其映射至高维空间,提高可分性。这一点使得SVM模型比许多其它分类模型的准确率要高。
3.基于支持向量机模型的特征选择算法SVM-RFECV,其特点在于:先确定数据挖掘模型为支持向量机,再根据各属性在该模型上的分类效果选出最佳属性集,如果删除属性将导致模型性能下降,则该算法会保留所有属性。
本发明提供的技术方案与北京交通大学发表的名称为《基于数据挖掘技术的配电网故障预测研究》的文献有以下区别:
1、本申请的对象是针对的有源配电网,而该文献针对的对象是传统配电网。
2、对于剔除离群样本:该文献采用“基于粒子群聚类的离群样本诊断方法”,其具有提升聚类效果,准确剔除离群样本。而本申请采用的是“基于K-Means聚类算法的离群样本检测”(K均值聚类算法),同一聚类中的对象相似度较高,而不同聚类中的对象相似度较小。
3、对于选择故障预测模型的输入变量采用的方法不同,在该文献中采用的是特征选择算法从大量的相关特征中选出最优特征子集,该方法具有强相关变量,可以从众多故障特征变量中筛选出最优特征子集。
而本申请中采用的是SVM-RFECV算法对数据进行特征选择,提取最优属性集,将其作为故障预测模型的输入变量,该算法不需要指定剩余特征数,如果删除特征会造成模型性能的损失,那么将保留所有特征。
4、该文献中所用的故障预测模型为基于随机森林算法构建的馈线故障预测模型,在其4.6与常用分类算法对比中仅用1-2句话提到支持向量机的预测模型,并没有详细介绍使用情况。
而本申请所用的故障预测模型为基于支持向量机建立故障预测模型,利用Python中sklearn模块提供的函数可以直接建立线性与非线性SVM模型,并返回预测结果与模型的准确率,得到线性SVM预测的准确率为93.3%,非线性SVM为86.7%。
实施例2
基于同一发明构思,本发明还提供了一种有源配电网故障特征的确定系统,包括:
生成模块,用于基于获取的历史运行数据生成样本数据;
提取模块,用于利用支持向量机模型-递归特征消除算法对所述样本数据进行特征选择,提取故障特征;
预测模块,用于将样本数据中故障特征对应的数据带入基于支持向量机构建的故障预测模型,确定所述故障预测模型的故障预测准确率,当所述故障预测准确率满足要求时,则将所述故障特征设为所述有源配电网故障特征,否则执行S1重新生成样本数据。
实施例中,所述生成模块,包括:
生成中间数据单元,用于将获取的历史运行数据集成,对集成后的数据进行数据清洗和数据变换,生成中间数据;
生成样本数据单元,用于采用K-Means聚类算法在中间数据中剔除多维离群数据,得到样本数据;
所述数据清洗包括:删除历史运行数据中的无关数据、重复数据、平滑噪声数据,并筛掉与挖掘主题无关的数据以及处理缺失值和利用箱型图识别的异常值。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (12)

1.一种有源配电网故障特征的确定方法,其特征在于,包括:
S1、基于获取的历史运行数据生成样本数据;
S2、利用支持向量机模型-递归特征消除算法对所述样本数据进行特征选择,提取故障特征;
S3、将样本数据中故障特征对应的数据带入基于支持向量机构建的故障预测模型,确定所述故障预测模型的故障预测准确率,当所述故障预测准确率满足要求时,则将所述故障特征设为所述有源配电网故障特征,否则执行S1重新生成样本数据。
2.如权利要求1所述的确定方法,其特征在于,所述故障特征包括:配变数量、配变容量、月最高气温、月最低气温、月平均气温和月大风日数等级。
3.如权利要求1所述的确定方法,其特征在于,所述基于获取的历史运行数据生成样本数据,包括:
将获取的历史运行数据集成,对集成后的数据进行数据清洗和数据变换,生成中间数据;
采用K-Means聚类算法在中间数据中剔除多维离群数据,得到样本数据;
所述数据清洗包括:删除历史运行数据中的无关数据、重复数据、平滑噪声数据,并筛掉与挖掘主题无关的数据以及处理缺失值和利用箱型图识别的异常值。
4.如权利要求3所述的确定方法,其特征在于,所述采用K-Means聚类算法在中间数据中剔除多维离群数据,得到样本数据,包括:
基于K-Means聚类算法在所述中间数据中检测多维离群数据;
从所述中间数据中删除所述多维离群数据;
基于删除所述多维离群数据后的中间数据中剩余的数据构建样本数据。
5.如权利要求4所述的确定方法,其特征在于,所述基于K-Means聚类算法在所述中间数据中检测多维离群数据,包括:
利用K-Means算法将中间数据集聚为多个簇,确定各簇的中心;
分别计算各中间数据到离它最近的中心的相对距离;
将所述相对距离与阈值进行比较,当所述相对距离大于阈值,则所述中间数据为离群数据。
6.如权利要求5所述的确定方法,其特征在于,所述利用K-Means算法将中间数据集聚为多个簇,包括:
S301、从中间数据中随机选取多个对象作为初始聚类中心;
S302、分别计算每个中间数据到各个聚类中心的距离,将中间数据分配到距离最近的聚类中;
S303、所有中间数据分配完成后,重新计算多个聚类中心;
S304、将当前的聚类中心与上一次的聚类中心相比较,如发生变化,则回到S302,否则停止并输出当前聚类获得的簇。
7.如权利要求6所述的确定方法,其特征在于,所述从中间数据中随机选取多个对象作为初始聚类中心,包括:
随机选取多个聚类中心值;
基于不同的聚类中心值计算构建的目标函数的值;
基于每一个聚类中心值与所述聚类中心值对应的目标函数的值,绘制拐点图;
基于所述拐点图,确定一个聚类中心值,并将所述聚类中心值作为初始聚类中心的个数。
8.如权利要求1所述的确定方法,其特征在于,所述利用支持向量机模型-递归特征消除算法对所述样本数据进行特征选择,提取故障特征,包括:
基于所述样本数据生成的原始特征集,将所述原始特征集中的每个特征以单独的方式删除和多个特征以组合的方式删除获得所有特征子集;
利用递归特征消除算法在所有特征子集上运行支持向量机模型,逐一评估其分类效果,选择特征最少且满足分类要求的特征子集;
将所述特征子集中的特征设置为故障特征。
9.如权利要求1所述的确定方法,其特征在于,所述历史运行数据包括:有源配电网的运行数据、故障数据以及有源配电网所在地的气象数据;
所述有源配电网的运行数据包括架空线路长度、电缆长度、分支线数量、开关台数、配变数量、配变容量、月最大负荷和月平均负荷;
所述故障数据包括故障开始时间、故障停止时间和故障馈线;
所述气象数据包括月平均气温、月最高/低气温、月降水量等级、月雷暴日数等级和月大风日数等级。
10.如权利要求1所述的确定方法,其特征在于,所述当所述故障预测准确率满足要求时,则获得当前的故障特征之后,还包括:
基于所述故障特征获取有源配电网的实时运行数据;
将所述实时运行数据带入所述故障预测模型,获得有源配电网的故障等级。
11.一种有源配电网故障特征的确定系统,其特征在于,包括:
生成模块,用于基于获取的历史运行数据生成样本数据;
提取模块,用于利用支持向量机模型-递归特征消除算法对所述样本数据进行特征选择,提取故障特征;
预测模块,用于将样本数据中故障特征对应的数据带入基于支持向量机构建的故障预测模型,确定所述故障预测模型的故障预测准确率,当所述故障预测准确率满足要求时,则将所述故障特征设为所述有源配电网故障特征,否则执行S1重新生成样本数据。
12.如权利要求11所述的确定系统,其特征在于,所述生成模块,包括:
生成中间数据单元,用于将获取的历史运行数据集成,对集成后的数据进行数据清洗和数据变换,生成中间数据;
生成样本数据单元,用于采用K-Means聚类算法在中间数据中剔除多维离群数据,得到样本数据;
所述数据清洗包括:删除历史运行数据中的无关数据、重复数据、平滑噪声数据,并筛掉与挖掘主题无关的数据以及处理缺失值和利用箱型图识别的异常值。
CN201910873221.2A 2019-09-12 2019-09-12 一种有源配电网故障特征的确定方法及系统 Pending CN110750524A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910873221.2A CN110750524A (zh) 2019-09-12 2019-09-12 一种有源配电网故障特征的确定方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910873221.2A CN110750524A (zh) 2019-09-12 2019-09-12 一种有源配电网故障特征的确定方法及系统

Publications (1)

Publication Number Publication Date
CN110750524A true CN110750524A (zh) 2020-02-04

Family

ID=69276532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910873221.2A Pending CN110750524A (zh) 2019-09-12 2019-09-12 一种有源配电网故障特征的确定方法及系统

Country Status (1)

Country Link
CN (1) CN110750524A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429034A (zh) * 2020-04-21 2020-07-17 国网信通亿力科技有限责任公司 一种配电网故障预测的方法
CN111666978A (zh) * 2020-05-11 2020-09-15 深圳供电局有限公司 一种it系统运维大数据的智能故障预警系统
CN111880044A (zh) * 2020-06-30 2020-11-03 国网浙江省电力有限公司电力科学研究院 一种含分布式电源配电网在线故障定位方法
CN112069633A (zh) * 2020-08-10 2020-12-11 国网上海市电力公司 一种采用大数据聚类的基于粒子群原理的配电网数据预处理方法
CN112115180A (zh) * 2020-09-11 2020-12-22 国网山东省电力公司枣庄供电公司 一种基于大数据的电网事故预测方法
CN112257953A (zh) * 2020-11-03 2021-01-22 上海电力大学 一种基于极地新能源发电功率预测的数据处理方法
CN112766733A (zh) * 2021-01-21 2021-05-07 山东大学 利用改进的K-means算法加速优化调度算法收敛的方法及系统
CN112952830A (zh) * 2021-04-16 2021-06-11 山东科技大学 一种故障后电力系统暂态稳定预测方法
CN112989501A (zh) * 2021-05-10 2021-06-18 中国标准化研究院 平衡车安全性评估方法、装置、终端设备
CN114169681A (zh) * 2021-11-08 2022-03-11 浙江大学 一种考虑时空离群点检测的风电机组功率曲线数据预处理方法
WO2023020081A1 (zh) * 2021-08-18 2023-02-23 青岛海尔空调器有限总公司 用于空调的控制方法、装置和服务器
CN115979509A (zh) * 2022-12-13 2023-04-18 国家石油天然气管网集团有限公司 一种压力变送器故障检测方法、装置及存储介质
CN116865205A (zh) * 2023-09-05 2023-10-10 温州宝翔科技有限公司 一种无线断路器故障预警方法及系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429034A (zh) * 2020-04-21 2020-07-17 国网信通亿力科技有限责任公司 一种配电网故障预测的方法
CN111666978A (zh) * 2020-05-11 2020-09-15 深圳供电局有限公司 一种it系统运维大数据的智能故障预警系统
CN111666978B (zh) * 2020-05-11 2023-12-01 深圳供电局有限公司 一种it系统运维大数据的智能故障预警系统
CN111880044A (zh) * 2020-06-30 2020-11-03 国网浙江省电力有限公司电力科学研究院 一种含分布式电源配电网在线故障定位方法
CN111880044B (zh) * 2020-06-30 2023-06-02 国网浙江省电力有限公司电力科学研究院 一种含分布式电源配电网在线故障定位方法
CN112069633B (zh) * 2020-08-10 2023-04-07 国网上海市电力公司 一种采用大数据聚类的基于粒子群原理的配电网数据预处理方法
CN112069633A (zh) * 2020-08-10 2020-12-11 国网上海市电力公司 一种采用大数据聚类的基于粒子群原理的配电网数据预处理方法
CN112115180A (zh) * 2020-09-11 2020-12-22 国网山东省电力公司枣庄供电公司 一种基于大数据的电网事故预测方法
CN112257953A (zh) * 2020-11-03 2021-01-22 上海电力大学 一种基于极地新能源发电功率预测的数据处理方法
CN112766733A (zh) * 2021-01-21 2021-05-07 山东大学 利用改进的K-means算法加速优化调度算法收敛的方法及系统
CN112952830A (zh) * 2021-04-16 2021-06-11 山东科技大学 一种故障后电力系统暂态稳定预测方法
CN112952830B (zh) * 2021-04-16 2024-06-11 山东科技大学 一种故障后电力系统暂态稳定预测方法
CN112989501A (zh) * 2021-05-10 2021-06-18 中国标准化研究院 平衡车安全性评估方法、装置、终端设备
CN112989501B (zh) * 2021-05-10 2022-02-01 中国标准化研究院 平衡车安全性评估方法、装置、终端设备
WO2023020081A1 (zh) * 2021-08-18 2023-02-23 青岛海尔空调器有限总公司 用于空调的控制方法、装置和服务器
CN114169681A (zh) * 2021-11-08 2022-03-11 浙江大学 一种考虑时空离群点检测的风电机组功率曲线数据预处理方法
CN115979509A (zh) * 2022-12-13 2023-04-18 国家石油天然气管网集团有限公司 一种压力变送器故障检测方法、装置及存储介质
CN116865205A (zh) * 2023-09-05 2023-10-10 温州宝翔科技有限公司 一种无线断路器故障预警方法及系统
CN116865205B (zh) * 2023-09-05 2023-11-24 温州宝翔科技有限公司 一种无线断路器故障预警方法及系统

Similar Documents

Publication Publication Date Title
CN110750524A (zh) 一种有源配电网故障特征的确定方法及系统
CN105677791B (zh) 用于分析风力发电机组的运行数据的方法和系统
CN106504116B (zh) 基于电网运行与暂态稳定裕度指标关联的稳定评估方法
CN107274105B (zh) 基于线性判别分析的多属性决策树电网稳定裕度评估方法
CN110097297A (zh) 一种多维度窃电态势智能感知方法、系统、设备及介质
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN114048870A (zh) 一种基于日志特征智能挖掘的电力系统异常监测方法
CN110570012B (zh) 一种基于Storm的电厂生产设备故障预警方法及系统
CN111950585A (zh) 一种基于XGBoost的地下综合管廊安全状况评估方法
CN111429034A (zh) 一种配电网故障预测的方法
CN110232499A (zh) 一种配电网信息物理侧风险预警方法及系统
CN110555058A (zh) 基于改进决策树的电力通信设备状态的预测方法
CN115907822A (zh) 一种考虑区域及经济影响的负荷特征指标关联性挖掘方法
Li et al. Prediction of wind turbine blades icing based on CJBM with imbalanced data
CN115563477A (zh) 谐波数据识别方法、装置、计算机设备和存储介质
CN116365519B (zh) 一种电力负荷预测方法、系统、存储介质及设备
CN109858667A (zh) 一种基于雷电气候对负荷影响的短期负荷聚类方法
Cheng et al. Reactive Power Load Forecasting based on K-means Clustering and Random Forest Algorithm
CN113268552B (zh) 一种基于局部敏感哈希的发电机设备隐患预警方法
CN109189775B (zh) 一种工业监控平台海量数据处理系统及方法
Zhang et al. Fault Prediction Method for Distribution Network Outage Based on Feature Selection and Ensemble Learning
CN108123436B (zh) 基于主成分分析和多元回归算法的电压越限预测模型
CN113487080B (zh) 一种基于风速分类的风速动态场景生成方法、系统及终端
US20210397614A1 (en) Computer-implemented methods
US20210396178A1 (en) Computer-implemented methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination