CN111198979A - 一种用于对输变电可靠性评估大数据进行清洗的方法及系统 - Google Patents
一种用于对输变电可靠性评估大数据进行清洗的方法及系统 Download PDFInfo
- Publication number
- CN111198979A CN111198979A CN201911417323.XA CN201911417323A CN111198979A CN 111198979 A CN111198979 A CN 111198979A CN 201911417323 A CN201911417323 A CN 201911417323A CN 111198979 A CN111198979 A CN 111198979A
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- sample
- point
- outlier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 75
- 230000009466 transformation Effects 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000011156 evaluation Methods 0.000 title claims abstract description 64
- 238000004140 cleaning Methods 0.000 title abstract description 52
- 230000002159 abnormal effect Effects 0.000 claims abstract description 137
- 238000012937 correction Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims description 27
- 238000001514 detection method Methods 0.000 description 16
- 238000012360 testing method Methods 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000010248 power generation Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013450 outlier detection Methods 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 101150011375 Tab2 gene Proteins 0.000 description 1
- XLOMVQKBTHCTTD-UHFFFAOYSA-N Zinc monoxide Chemical compound [Zn]=O XLOMVQKBTHCTTD-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 235000014692 zinc oxide Nutrition 0.000 description 1
- 239000011787 zinc oxide Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用于对输变电可靠性评估大数据进行清洗的方法及系统,其中方法包括:通过层次聚类CURE算法对待测试的样本数据进行聚类,获取正常样本数据的聚类簇;基于正常样本数据的聚类簇选取边界样本数据;根据基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别,识别出异常数据;对识别出的异常数据在所述待测试样本数据中的位置进行标注;根据所述异常数据的标注的位置,对所述异常数据应用指数加权移动平均数法进行修正,获取所述异常数据的修正结果;利用所述修正结果替换所述样本数据中的异常数据。
Description
技术领域
本发明涉及电网企业对输变电可靠性评估技术领域,更具体地,涉及一种用于对输变电可靠性评估大数据进行清洗的方法及系统。
背景技术
随着《中国电力大数据发展白皮书》的发布,带动了电力行业内对输变电可靠性评估大数据研究热潮,准确、可靠是保证输变电可靠性评估大数据分析处理精准性的基本要求,因此对输变电可靠性评估大数据质量提出了更高的要求,输变电可靠性评估大数据清洗可有效保证输变电可靠性评估大数据质量的正确性、完整性、一致性、可靠性。
输变电可靠性评估大数据具有数量大、维度高,数据模式繁多等特征,在输变电可靠性评估大数据的采集过程中,其不可避免的存在异常数据,对输变电可靠性评估大数据清洗有很强的必要性。国内外对输变电可靠性评估大数据清洗研究主要有聚类和关联分析、条件函数依赖、马尔科夫模型、DS证据理论。大部分数据清洗技术都需要依赖数据模型本身构建异常数据识别规则,对检测到的异常数据做删除或均值填充处理,破坏了数据的连续性、完整性、准确性。综合国内外研究,输变电可靠性评估大数据清洗难点表现在以下几点:(1)输变电可靠性评估大数据数据模型繁多,数据种类各异,不宜直接构建输变电可靠性评估大数据异常数据识别规则;(2)正常数据多,异常数据少,不同类型的输变电可靠性评估大数据很难通过设定阈值来进行简单异常识别;(3)异常识别将异常数据剔除,破坏了数据的连续性;(4)对异常数据进行重构时,需要依赖外源数据。
因此,需要一种技术,以实现用于对输变电可靠性评估大数据进行清洗的技术。
发明内容
本发明技术方案提供了一种用于对输变电可靠性评估大数据进行清洗的方法及系统,以解决如何基于输变电可靠性评估大数据进行清洗的问题。
为了解决上述问题,本发明提供了一种用于对输变电可靠性评估大数据进行清洗的方法,所述方法包括:
通过层次聚类CURE算法对待测试的样本数据进行聚类,获取正常样本数据的聚类簇;
基于正常样本数据的聚类簇选取边界样本数据;
根据基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别,识别出异常数据;
对识别出的异常数据在所述待测试样本数据中的位置进行标注;
根据所述异常数据的标注的位置,对所述异常数据应用指数加权移动平均数法进行修正,获取所述异常数据的修正结果;
利用所述修正结果替换所述样本数据中的异常数据。
优选地,通过层次聚类CURE算法在对待测试的样本数据进行聚类时,消除离群点,包括:
将所述待测试的样本数据划分为数据块,对每个划分的数据块进行聚类,得到的数据簇表示为pi(mpi,wi),其中pi表示块中第i个簇,以及第i个簇的中心点,mpi表示每个中心点的权重值,wi是每个簇中数据的个数,每个划分的数据块包括多个代表点;
设多个代表点的集合为P,其中每个代表点的中心点到数据簇外任意一点的偏差距离表示为代表点的离群程度:
n为数据的总维数,j表示数据的第j维,xji,yji为数据的两个属性;
用欧氏距离表示一个点的偏离程度,当某点离簇中心点越远,则离群程度值越大;
设离群程度集为D,定义离群程度判定值为:
D为所有di组成的集合,m为簇中点的个数。
设离群参数为δ,离群程度最小值为:
AD为离群程度判定值,di为代表点的离群程度。
对于离群程度集D中任意di,若di所对应的代表点pi为离群点,其所在的数据簇中的数据为离群数据。
优选地,将所述待测试的样本数据存储在分布式文件系统HDFS中;
基于分布式文件系统HDFS读取所述待测试的样本数据,执行cache操作生成弹性分布式数据集,将所述样本数据读取入内存。
优选地,所述根据基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别,识别出异常数据,还包括:
异常数据识别是对输变电可靠性评估的数据中历史数据或实时流数据中的异常数据进行检测的过程,是建立在正常样本数据的聚类簇的边界样本的基础上,正常样本数据的聚类簇的边界样本数据的选择过程:
步骤1:计算正常样本数据的聚类簇的中心点(n1+n2+…+nn)/m,ni为聚类簇的点,m为聚类簇的点个数;
步骤2:选取的第一个边界样本点为距离中心点最远的点,选取的第二个边界样本点为距离第一样本点最远的点;
步骤3:继续选取的边界样本点为距离选取的前两个边界样本点距离之和最大的点,直到选取的边界样本点能够代表聚类簇,则选择停止边界样本点;聚类簇的边界样本的选择过程,为已经选取出的边界样本点。
优选地,所述正常样本数据的聚类簇的边界样本为:距离所述正常样本数据的聚类簇的质心最远、分散在正常样本数据的聚类簇的四周以及能够代表正常样本数据的形状。
基于本发明的另一方面,提供一种用于对输变电可靠性评估大数据进行清洗的系统,所述系统包括:
获取单元,用于通过层次聚类CURE算法对待测试的样本数据进行聚类,获取正常样本数据的聚类簇;
选取单元,用于基于正常样本数据的聚类簇选取边界样本数据;
识别单元,用于根据基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别,识别出异常数据;
标注单元,用于对识别出的异常数据在所述待测试样本数据中的位置进行标注;
修正单元,用于根据所述异常数据的标注的位置,对所述异常数据应用指数加权移动平均数法进行修正,获取所述异常数据的修正结果;
替换单元,用于利用所述修正结果替换所述样本数据中的异常数据。
优选地,所述获取单元,用于通过层次聚类CURE算法在对待测试的样本数据进行聚类时,消除离群点,还用于:
将所述待测试的样本数据划分为数据块,对每个划分的数据块进行聚类,得到的数据簇表示为pi(mpi,wi),其中pi表示块中第i个簇,以及第i个簇的中心点,mpi表示每个中心点的权重值,wi是每个簇中数据的个数,每个划分的数据块包括多个代表点;
设多个代表点的集合为P,其中每个代表点的中心点到数据簇外任意一点的偏差距离表示为代表点的离群程度:
n为数据的总维数,j表示数据的第j维,xji,yji为数据的两个属性。
用欧氏距离表示一个点的偏离程度,当某点离簇中心点越远,则离群程度值越大;
设离群程度集为D,定义离群程度判定值为:
D为所有di组成的集合,m为簇中点的个数。
设离群参数为δ,离群程度最小值为:
AD为离群程度判定值,di为代表点的离群程度。
对于离群程度集D中任意di,若di所对应的代表点pi为离群点,其所在的数据簇中的数据为离群数据。
优选地,还包括初始单元,用于将所述待测试的样本数据存储在分布式文件系统HDFS中;
基于分布式文件系统HDFS读取所述待测试的样本数据,执行cache操作生成弹性分布式数据集,将所述样本数据读取入内存。
优选地,所述识别单元,用于根据基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别,识别出异常数据,还用于:
异常数据识别是对输变电可靠性评估的数据中历史数据或实时流数据中的异常数据进行检测的过程,是建立在正常样本数据的聚类簇的边界样本的基础上,正常样本数据的聚类簇的边界样本数据的选择过程:
步骤1:计算正常样本数据的聚类簇的中心点(n1+n2+…+nn)/m,ni为聚类簇的点,m为聚类簇的点个数;
步骤2:选取的第一个边界样本点为距离中心点最远的点,选取的第二个边界样本点为距离第一样本点最远的点;
步骤3:继续选取的边界样本点为距离选取的前两个边界样本点距离之和最大的点,直到选取的边界样本点能够代表聚类簇,则选择停止边界样本点;聚类簇的边界样本的选择过程,为已经选取出的边界样本点。
优选地,所述正常样本数据的聚类簇的边界样本为:距离所述正常样本数据的聚类簇的质心最远、分散在正常样本数据的聚类簇的四周以及能够代表正常样本数据的形状。
本发明技术方案提供一种用于对输变电可靠性评估大数据进行清洗的方法及系统,其中方法包括:通过层次聚类CURE算法对待测试的样本数据进行聚类,获取正常样本数据的聚类簇;基于正常样本数据的聚类簇选取边界样本数据;根据基于边界样本的异常数据识别算法,对待测试样本数据中的异常数据进行识别,识别出异常数据;对识别出的异常数据在待测试样本数据中的位置进行标注;根据异常数据的标注的位置,对异常数据应用指数加权移动平均数法进行修正,获取异常数据的修正结果;利用修正结果替换样本数据中的异常数据。本发明技术方案针对以上输变电可靠性评估大数据清洗难点,提出一种基于Spark框架的输变电可靠性评估大数据清洗方法。本发明技术方案的基本思想是:首先,用改进的CURE聚类算法对测试样本进行聚类,剔除掉测试样本中的离群点,获取样本点正常的簇,并根据边界样本获取方法获取边界样本集;然后设计边界样本的异常识别算法检测历史或实时流输变电可靠性评估大数据中的异常数据;最后通过指数加权移动平均数对检测出的异常数据进行修正,从而达到对输变电可靠性评估大数据中异常数据清洗目的。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明优选实施方式的一种用于对输变电可靠性评估大数据进行清洗的方法流程图;
图2为根据本发明优选实施方式的一种基于Spark框架的输变电可靠性评估大数据清洗模型示意图;
图3为根据本发明优选实施方式的一种用于对输变电可靠性评估大数据进行清洗的系统结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明优选实施方式的一种用于对输变电可靠性评估大数据进行清洗的方法流程图。本申请提供的输变电可靠性评估大数据具有数量大、维度高,数据模式繁多等特征,在输变电可靠性评估大数据的采集过程中,其不可避免的存在异常数据,对输变电可靠性评估大数据清洗有很强的必要性。本申请针对以上输变电可靠性评估大数据清洗难点,提出一种基于Spark框架的输变电可靠性评估大数据清洗模型方法。首先,用改进的CURE聚类算法对测试样本进行聚类,剔除掉测试样本中的离群点,获取样本点正常的簇,并根据边界样本获取方法获取边界样本集;然后设计边界样本的异常识别算法检测历史或实时流输变电可靠性评估大数据中的异常数据;最后通过指数加权移动平均数对检测出的异常数据进行修正,从而达到对输变电可靠性评估大数据中异常数据清洗目的。本申请提供一种用于对输变电可靠性评估大数据进行清洗的方法,方法包括:
优选地,在步骤101:通过层次聚类CURE算法对待测试的样本数据进行聚类,获取正常样本数据的聚类簇。
优选地,通过层次聚类CURE算法在对待测试的样本数据进行聚类时,消除离群点,包括:
将待测试的样本数据划分为数据块,对每个划分的数据块进行聚类,得到的数据簇表示为pi(mpi,wi),其中pi表示块中第i个簇,以及第i个簇的中心点,mpi表示每个中心点的权重值,wi是每个簇中数据的个数,每个划分的数据块包括多个代表点;
设多个代表点的集合为P,其中每个代表点的中心点到数据簇外任意一点的偏差距离表示为代表点的离群程度:
n为数据的总维数,j表示数据的第j维,xji,yji为数据的两个属性。
用欧氏距离表示一个点的偏离程度,当某点离簇中心点越远,则离群程度值越大;
设离群程度集为D,定义离群程度判定值为:
D为所有di组成的集合,m为簇中点的个数。
设离群参数为δ,离群程度最小值为:
AD为离群程度判定值,di为代表点的离群程度。
对于离群程度集D中任意di,若di所对应的代表点pi为离群点,其所在的数据簇中的数据为离群数据。
优选地,将待测试的样本数据存储在分布式文件系统HDFS中;
基于分布式文件系统HDFS读取待测试的样本数据,执行cache操作生成弹性分布式数据集,将样本数据读取入内存。cache操作为将数据存入高速缓冲存储器。
本申请输变电可靠性评估大数据清洗是对检测到的输变电可靠性评估大数据中异常数据进行修正的过程,利用Spark框架构建输变电可靠性评估大数据清洗模型时分为以下几个阶段:数据准备、正常簇样本获取、异常数据识别、异常数据修正、修正数据存储。基于Spark框架的输变电可靠性评估大数据清洗模型的清洗步骤如下:数据准备:将数据存储在分布式文件系统HDFS中;从分布式文件系统上读取数据并执行cache操作生成弹性分布式数据集,将数据读入到内存。cache操作为将数据存入高速缓冲存储器。
本申请利用改进的并行CURE聚类算法获取正常簇;
CURE聚类算法在对测试样本进聚类时通过消除离群点降低对聚类结果的影响,可通过CURE聚类算法对测试样本进行聚类获取正常样本的聚类簇,如表1所示。
表1基于改进CURE算法正常簇样本获取算法
Tab1 Sample acquisition algorithm basedon improved CURE normalclustering algOrithm
针对CURE聚类算法剔除异常点时存在的问题,本文使用离群程度用于判定离群点,可有效解决增长缓慢的离群类难界定及局部离群点被淹没的现象。相关定义如下:
定义1:对每个划分的数据块进行聚类,得到的数据簇表示为,其中表示块中第i个簇,以及第i个簇的中心点,表示每个中心点的权重值,是每个簇中数据的个数。因此每个划分的数据块可以使用若干个代表,称为代表点。
定义2:设代表点的集合为P,每个代表点的中心点到簇外任意一点的偏差距离表示为离群程度:
用欧氏距离表示一个点的偏离程度,当某点离簇中心点越远,则离群程度值越大。
定义3:设离群程度集为D,定义离群程度判定值为:
定义4:设离群参数为δ,离群程度最小值为:
定义5:对于离群程度集D中任意di,若di所对应的代表点pi为离群点,其所在的簇中的数据即为离群数据。
优选地,在步骤102:基于正常样本数据的聚类簇选取边界样本数据。优选地,正常样本数据的聚类簇的边界样本为:距离正常样本数据的聚类簇的质心最远、分散在正常样本数据的聚类簇的四周以及能够代表正常样本数据的形状。
优选地,在步骤103:根据基于边界样本的异常数据识别算法,对待测试样本数据中的异常数据进行识别,识别出异常数据。
优选地,根据基于边界样本的异常数据识别算法,对待测试样本数据中的异常数据进行识别,识别出异常数据,还包括:
异常数据识别是对输变电可靠性评估的数据中历史数据或实时流数据中的异常数据进行检测的过程,是建立在正常样本数据的聚类簇的边界样本的基础上,正常样本数据的聚类簇的边界样本数据的选择过程:
步骤1:计算正常样本数据的聚类簇的中心点(n1+n2+…+nn)/m,ni为聚类簇的点,m为聚类簇的点个数;
步骤2:选取的第一个边界样本点为距离中心点最远的点,选取的第二个边界样本点为距离第一样本点最远的点;
步骤3:继续选取的边界样本点为距离选取的前两个边界样本点距离之和最大的点,直到选取的边界样本点能够代表聚类簇,则选择停止边界样本点;聚类簇的边界样本的选择过程,为已经选取出的边界样本点。
本申请从正常簇中选取边界样本数据,本申请设计基于边界样本的异常数据识别算法,并对测试样本识别异常数据;
异常数据识别是对输变电可靠性评估大数据中历史或实时流数据中的异常数据检测的过程,是建立在正常簇的边界样本的基础上。每个正常簇的边界样本必须具有以下特点:(1)距离质心最远;(2)分散在正常样本的四周;(3)能够代表正常样本的形状。下面给出边界样本的选择过程:
步骤1:计算簇的中心点(n1+n2+…+nn)/m,ni为簇的点,m为簇的点个数;
步骤2:第一个边界样本点为离中心点最远的点,第二个边界样本点为离第一样本点最远的点。
步骤3:接下来选择的边界样本为离前两个样本点距离之和最大的点,直到选取的样本点能够代表聚类簇,则选择停止。正常簇的边界样本选择过程,为每步选出的边界样本点。
本申请通过边界样本异常识别算法,在进行异常识别时,不必设置异常识别的阈值,同时可以避免因使用数据模式带来的复杂性,可以提高异常识别的效率。
优选地,在步骤104:对识别出的异常数据在待测试样本数据中的位置进行标注。本申请标记异常数据所在检测样本中的位置。
优选地,在步骤105:根据异常数据的标注的位置,对异常数据应用指数加权移动平均数法进行修正,获取异常数据的修正结果。
优选地,在步骤106:利用修正结果替换样本数据中的异常数据。
本申请对异常数据应用指数加权移动平均数进行修正,在对异常数据进行修正时,可以采用的方法是使用该异常数据所在序列的平均数进行代替。但是,某一序列值对后面序列值的影响作用是衰减的,因此对异常数据进行修正采用指数加权移动平均数:
最后对形成的修正数据集进行保存。
本申请实施方式与Apriori算法相比,本申请算法在检测率相似的情况下,误检率较低。较低误报率有利于保证获取的正常样本质量,保证构建基于正常样本的边界样本异常识别算法的准确性。同原始CURE聚类算法比较,本申请所改进CURE聚类算法在检测率和误检率都有所提高。
本申请为了验证输变电可靠性评估大数据异常识别算法的检测异常数据正确性,实验保持集群节点数固定,不断调整测试数据样本大小,检测算法的准确率,可以看出模型检测到了大部分的异常数据。
本申请为了验证输变电可靠性评估大数据清洗模型的高效性,测试了传统单机数据清洗与基于Spark框架的输变电可靠性评估大数据清洗模型不同数量的清洗所需要的时间,基于Spark的输变电可靠性评估大数据清洗在效率上高于传统单机数据清洗,但执行效率与实验中算法、集群的节点及数据量有关。
输变电可靠性评估大数据清洗是对检测到的输变电可靠性评估大数据中异常数据进行修正的过程,利用Spark框架构建输变电可靠性评估大数据清洗模型时分为以下几个阶段:数据准备、正常簇样本获取、异常数据识别、异常数据修正、修正数据存储。数据准备即将存储在传统关系型数据库中的数据转存在适合于大数据处理的非关系型数据库中,然后加载到Spark的弹性分布式数据集(RDD)中;通过抽取一定数量的大数据样本,应用层次聚类算法将其中的异常点抽取,获取可用于实现边界样本异常识别算法的正常样本簇;异常数据识别是建立在边界样本的基础上,通过边界样本异常识别算法完成对输变电可靠性评估大数据中的异常数据检测;异常数据修正完成对检测到的大数据中的异常数据的修复。
图2为根据本发明优选实施方式的一种基于Spark框架的输变电可靠性评估大数据清洗模型示意图。SparkStreaming是一套框架。SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。Spark SQL是Spark用来处理结构化数据的一个模块。MLlib(machine learning library)是Spark提供的可扩展的机器学习库。MLlib中已经包含了一些通用的学习算法和工具。YARN是Hadoop集群的资源管理系统。
本申请以某风电场风力发电监测数据作为数据清洗研究对象进行举例说明。该风力发电监测数据大小为5GB,分别从5台风力发电机采集,采集间隔为1s,记录了从2018年10月1日到2019年9月30日风力发电监测数据。本申请将从异常识别的准确性、异常修正的效率对输变电可靠性评估大数据清洗模型进行验证分析。
(1)实验1:针对正常样本获取过程中离群点删除算法,本申请测试了几种离群点检测算法的检测率和误检率,测试结果见表2。与Apriori算法相比,本申请算法在检测率相似的情况下,误检率较低。较低误报率有利于保证获取的正常样本质量,保证构建基于正常样本的边界样本异常识别算法的准确性。同原始CURE聚类算法比较,本申请所改进CURE聚类算法在检测率和误检率都有所提高。
表2离群点检测算法比较
Tab2 Comparison of outlier detection algorithm
(2)实验2:为了验证输变电可靠性评估大数据异常识别算法的检测异常数据正确性,实验保持集群节点数固定,不断调整测试数据样本大小,检测算法的准确率,结果如表3,可以看出模型检测到了大部分的异常数据。
表3输变电可靠性评估大数据异常识别算法的准确率测试
Tab3 Accuracy test of energy big dataanomaly identification algorithm
(3)实验3:为了验证输变电可靠性评估大数据清洗模型的高效性,测试了传统单机数据清洗与基于Spark框架的输变电可靠性评估大数据清洗模型不同数量的清洗所需要的时间。集群节点数固定,不断调整待清洗数据样本大小,测试数据清洗时间,测试结果见表4。排除节点间的网络通信以及任务调度的开销等因素,基于Spark的输变电可靠性评估大数据清洗在效率上高于传统单机数据清洗,但执行效率与实验中算法、集群的节点及数据量有关。
表4单机及并行数据清洗清洗时间比较
Tab4 Comparison of cleaning time betweensingle machine and paralleldata
图3为根据本发明优选实施方式的一种用于对输变电可靠性评估大数据进行清洗的系统结构图。如图3所示,本申请提供一种用于对输变电可靠性评估大数据进行清洗的系统,系统包括:
获取单元301,用于通过层次聚类CURE算法对待测试的样本数据进行聚类,获取正常样本数据的聚类簇。优选地,正常样本数据的聚类簇的边界样本为:距离正常样本数据的聚类簇的质心最远、分散在正常样本数据的聚类簇的四周以及能够代表正常样本数据的形状。
优选地,系统的获取单元,用于通过层次聚类CURE算法在对待测试的样本数据进行聚类时,消除离群点,还用于:
将待测试的样本数据划分为数据块,对每个划分的数据块进行聚类,得到的数据簇表示为pi(mpi,wi),其中pi表示块中第i个簇,以及第i个簇的中心点,mpi表示每个中心点的权重值,wi是每个簇中数据的个数,每个划分的数据块包括多个代表点;
设多个代表点的集合为P,其中每个代表点的中心点到数据簇外任意一点的偏差距离表示为代表点的离群程度:
n为数据的总维数,j表示数据的第j维,xji,yji为数据的两个属性。
用欧氏距离表示一个点的偏离程度,当某点离簇中心点越远,则离群程度值越大;
设离群程度集为D,定义离群程度判定值为:
D为所有di组成的集合,m为簇中点的个数。
设离群参数为δ,离群程度最小值为:
AD为离群程度判定值,di为代表点的离群程度。
对于离群程度集D中任意di,若di所对应的代表点pi为离群点,其所在的数据簇中的数据为离群数据。
选取单元302,用于基于正常样本数据的聚类簇选取边界样本数据。
识别单元303,用于根据基于边界样本的异常数据识别算法,对待测试样本数据中的异常数据进行识别,识别出异常数据。优选地,系统识别单元,用于根据基于边界样本的异常数据识别算法,对待测试样本数据中的异常数据进行识别,识别出异常数据,还用于:
异常数据识别是对输变电可靠性评估的数据中历史数据或实时流数据中的异常数据进行检测的过程,是建立在正常样本数据的聚类簇的边界样本的基础上,正常样本数据的聚类簇的边界样本数据的选择过程:
步骤1:计算正常样本数据的聚类簇的中心点(n1+n2+…+nn)/m,ni为聚类簇的点,m为聚类簇的点个数;
步骤2:选取的第一个边界样本点为距离中心点最远的点,选取的第二个边界样本点为距离第一样本点最远的点;
步骤3:继续选取的边界样本点为距离选取的前两个边界样本点距离之和最大的点,直到选取的边界样本点能够代表聚类簇,则选择停止边界样本点;聚类簇的边界样本的选择过程,为已经选取出的边界样本点。
标注单元304,用于对识别出的异常数据在待测试样本数据中的位置进行标注。
修正单元305,用于根据异常数据的标注的位置,对异常数据应用指数加权移动平均数法进行修正,获取异常数据的修正结果。
替换单元306,用于利用修正结果替换样本数据中的异常数据。
优选地,系统还包括初始单元,用于将待测试的样本数据存储在分布式文件系统HDFS中;
基于分布式文件系统HDFS读取待测试的样本数据,执行cache操作生成弹性分布式数据集,将样本数据读取入内存。
cache操作为将数据存入高速缓冲存储器。
本发明优选实施方式的一种用于对输变电可靠性评估大数据进行清洗的系统300与本发明另一优选实施方式的一种用于对输变电可靠性评估大数据进行清洗的方法100相对应,在此不再进行赘述。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个//该[装置、组件等]”都被开放地解释为装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
Claims (10)
1.一种用于对输变电可靠性评估大数据进行清洗的方法,所述方法包括:
通过层次聚类CURE算法对待测试的样本数据进行聚类,获取正常样本数据的聚类簇;
基于正常样本数据的聚类簇选取边界样本数据;
根据基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别,识别出异常数据;
对识别出的异常数据在所述待测试样本数据中的位置进行标注;
根据所述异常数据的标注的位置,对所述异常数据应用指数加权移动平均数法进行修正,获取所述异常数据的修正结果;
利用所述修正结果替换所述样本数据中的异常数据。
2.根据权利要求1所述的方法,通过层次聚类CURE算法在对待测试的样本数据进行聚类时,消除离群点,包括:
将所述待测试的样本数据划分为数据块,对每个划分的数据块进行聚类,得到的数据簇表示为pi(mpi,wi),其中pi表示块中第i个簇,以及第i个簇的中心点,mpi表示每个中心点的权重值,wi是每个簇中数据的个数,每个划分的数据块包括多个代表点;
设多个代表点的集合为P,其中每个代表点的中心点到数据簇外任意一点的偏差距离表示为代表点的离群程度:
其中,n为数据的总维数,j表示数据的第j维,xji,yji为数据的两个属性;
用欧氏距离表示一个点的偏离程度,当某点离簇中心点越远,则离群程度值越大;
设离群程度集为D,定义离群程度判定值AD为:
D为所有di组成的集合,m为簇中点的个数。
设离群参数为δ,离群程度最小值为:
AD为离群程度判定值,di为代表点的离群程度。
对于离群程度集D中任意di,若di所对应的代表点pi为离群点,其所在的数据簇中的数据为离群数据。
3.根据权利要求1所述的方法,将所述待测试的样本数据存储在分布式文件系统HDFS中;
基于分布式文件系统HDFS读取所述待测试的样本数据,执行cache操作生成弹性分布式数据集,将所述样本数据读取入内存。
4.根据权利要求1所述的方法,所述根据基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别,识别出异常数据,还包括:
异常数据识别是对输变电可靠性评估的数据中历史数据或实时流数据中的异常数据进行检测的过程,是建立在正常样本数据的聚类簇的边界样本的基础上,正常样本数据的聚类簇的边界样本数据的选择过程:
步骤1:计算正常样本数据的聚类簇的中心点(n1+n2+…+nn)/m,ni为聚类簇的点,m为聚类簇的点个数;
步骤2:选取的第一个边界样本点为距离中心点最远的点,选取的第二个边界样本点为距离第一样本点最远的点;
步骤3:继续选取的边界样本点为距离选取的前两个边界样本点距离之和最大的点,直到选取的边界样本点能够代表聚类簇,则选择停止边界样本点;聚类簇的边界样本的选择过程,为已经选取出的边界样本点。
5.根据权利要求1所述的方法,所述正常样本数据的聚类簇的边界样本为:距离所述正常样本数据的聚类簇的质心最远、分散在正常样本数据的聚类簇的四周以及能够代表正常样本数据的形状。
6.一种用于对输变电可靠性评估大数据进行清洗的系统,所述系统包括:
获取单元,用于通过层次聚类CURE算法对待测试的样本数据进行聚类,获取正常样本数据的聚类簇;
选取单元,用于基于正常样本数据的聚类簇选取边界样本数据;
识别单元,用于根据基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别,识别出异常数据;
标注单元,用于对识别出的异常数据在所述待测试样本数据中的位置进行标注;
修正单元,用于根据所述异常数据的标注的位置,对所述异常数据应用指数加权移动平均数法进行修正,获取所述异常数据的修正结果;
替换单元,用于利用所述修正结果替换所述样本数据中的异常数据。
7.根据权利要求6所述的系统,所述获取单元,用于通过层次聚类CURE算法在对待测试的样本数据进行聚类时,消除离群点,还用于:
将所述待测试的样本数据划分为数据块,对每个划分的数据块进行聚类,得到的数据簇表示为pi(mpi,wi),其中pi表示块中第i个簇,以及第i个簇的中心点,mpi表示每个中心点的权重值,wi是每个簇中数据的个数,每个划分的数据块包括多个代表点;
设多个代表点的集合为P,其中每个代表点的中心点到数据簇外任意一点的偏差距离表示为代表点的离群程度:
n为数据的总维数,j表示数据的第j维,xji,yji为数据的两个属性;
用欧氏距离表示一个点的偏离程度,当某点离簇中心点越远,则离群程度值越大;
设离群程度集为D,定义离群程度判定值AD为:
D为所有di组成的集合,m为簇中点的个数;
设离群参数为δ,离群程度最小值为:
AD为离群程度判定值,di为代表点的离群程度。
对于离群程度集D中任意di,若di所对应的代表点pi为离群点,其所在的数据簇中的数据为离群数据。
8.根据权利要求6所述的系统,还包括初始单元,用于将所述待测试的样本数据存储在分布式文件系统HDFS中;
基于分布式文件系统HDFS读取所述待测试的样本数据,执行cache操作生成弹性分布式数据集,将所述样本数据读取入内存。
9.根据权利要求6所述的系统,所述识别单元,用于根据基于边界样本的异常数据识别算法,对所述待测试样本数据中的异常数据进行识别,识别出异常数据,还用于:
异常数据识别是对输变电可靠性评估的数据中历史数据或实时流数据中的异常数据进行检测的过程,是建立在正常样本数据的聚类簇的边界样本的基础上,正常样本数据的聚类簇的边界样本数据的选择过程:
步骤1:计算正常样本数据的聚类簇的中心点(n1+n2+…+nn)/m,ni为聚类簇的点,m为聚类簇的点个数;
步骤2:选取的第一个边界样本点为距离中心点最远的点,选取的第二个边界样本点为距离第一样本点最远的点;
步骤3:继续选取的边界样本点为距离选取的前两个边界样本点距离之和最大的点,直到选取的边界样本点能够代表聚类簇,则选择停止边界样本点;聚类簇的边界样本的选择过程,为已经选取出的边界样本点。
10.根据权利要求6所述的系统,所述正常样本数据的聚类簇的边界样本为:距离所述正常样本数据的聚类簇的质心最远、分散在正常样本数据的聚类簇的四周以及能够代表正常样本数据的形状。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911417323.XA CN111198979A (zh) | 2019-12-31 | 2019-12-31 | 一种用于对输变电可靠性评估大数据进行清洗的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911417323.XA CN111198979A (zh) | 2019-12-31 | 2019-12-31 | 一种用于对输变电可靠性评估大数据进行清洗的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111198979A true CN111198979A (zh) | 2020-05-26 |
Family
ID=70744474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911417323.XA Pending CN111198979A (zh) | 2019-12-31 | 2019-12-31 | 一种用于对输变电可靠性评估大数据进行清洗的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111198979A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113300453A (zh) * | 2021-05-26 | 2021-08-24 | 宁波荣特电子有限公司 | Eps智能消防应急供电系统 |
CN115798724A (zh) * | 2023-02-13 | 2023-03-14 | 深圳市双佳医疗科技有限公司 | 一种基于人体无创采集数据的人体指标异常分析方法 |
WO2024098990A1 (zh) * | 2022-11-11 | 2024-05-16 | 浙江万胜智能科技股份有限公司 | 一种基于专变采集终端的电能质量监测方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083665A (zh) * | 2019-05-05 | 2019-08-02 | 贵州师范大学 | 基于改进的局部异常因子检测的数据分类方法 |
-
2019
- 2019-12-31 CN CN201911417323.XA patent/CN111198979A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083665A (zh) * | 2019-05-05 | 2019-08-02 | 贵州师范大学 | 基于改进的局部异常因子检测的数据分类方法 |
Non-Patent Citations (1)
Title |
---|
曲朝阳等: "基于Spark框架的能源互联网电力能源大数据清洗模型", 《电测与仪表》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113300453A (zh) * | 2021-05-26 | 2021-08-24 | 宁波荣特电子有限公司 | Eps智能消防应急供电系统 |
WO2024098990A1 (zh) * | 2022-11-11 | 2024-05-16 | 浙江万胜智能科技股份有限公司 | 一种基于专变采集终端的电能质量监测方法及系统 |
CN115798724A (zh) * | 2023-02-13 | 2023-03-14 | 深圳市双佳医疗科技有限公司 | 一种基于人体无创采集数据的人体指标异常分析方法 |
CN115798724B (zh) * | 2023-02-13 | 2023-04-11 | 深圳市双佳医疗科技有限公司 | 一种基于人体无创采集数据的人体指标异常分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111459778A (zh) | 运维系统异常指标检测模型优化方法、装置及存储介质 | |
CN111460728B (zh) | 一种工业设备剩余寿命预测方法、装置、存储介质及设备 | |
CN111198979A (zh) | 一种用于对输变电可靠性评估大数据进行清洗的方法及系统 | |
CN111027615B (zh) | 基于机器学习的中间件故障预警方法和系统 | |
KR101872342B1 (ko) | 개선된 RTC(Real-time contrasts) 기법을 이용한 지능형 이상 진단 방법 및 장치 | |
CN109255440B (zh) | 基于递归神经网络(rnn)的对电力生产设备进行预测性维护的方法 | |
CN113126019B (zh) | 一种智能电表误差远程估计方法、系统、终端和存储介质 | |
Lim et al. | Identifying recurrent and unknown performance issues | |
CN112416643A (zh) | 无监督异常检测方法与装置 | |
CN111539553A (zh) | 基于svr算法和偏峰度的风电机组发电机故障预警方法 | |
CN113570138B (zh) | 一种时间卷积网络的设备剩余使用寿命预测方法及装置 | |
CN113516174B (zh) | 调用链异常检测方法、计算机设备以及可读存储介质 | |
CN107679089A (zh) | 一种用于电力传感数据的清洗方法、装置和系统 | |
CN111737099B (zh) | 一种基于高斯分布的数据中心异常检测方法及装置 | |
CN111861023A (zh) | 基于统计学的混合风电功率预测方法、装置 | |
US20180307218A1 (en) | System and method for allocating machine behavioral models | |
CN113485863B (zh) | 基于改进生成对抗网络生成异构不平衡故障样本的方法 | |
CN112416662A (zh) | 多时间序列数据异常检测方法与装置 | |
CN109188502A (zh) | 一种基于自编码器的束流位置监测器异常检测方法及装置 | |
CN111638988A (zh) | 一种基于深度学习的云主机故障智能预测方法 | |
CN112379325A (zh) | 一种用于智能电表的故障诊断方法及系统 | |
Xu et al. | Anomaly detection with gru based bi-autoencoder for industrial multimode process | |
CN111623905B (zh) | 风电机组轴承温度预警方法及装置 | |
CN111126727B (zh) | 电力计费分布式并行异常检测方法 | |
CN117151488A (zh) | 一种寒潮大风天气样本扩充方法、系统、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200526 |
|
RJ01 | Rejection of invention patent application after publication |