CN109492683A - 一种针对广域量测电力大数据数据质量的快速在线评估方法 - Google Patents
一种针对广域量测电力大数据数据质量的快速在线评估方法 Download PDFInfo
- Publication number
- CN109492683A CN109492683A CN201811280578.1A CN201811280578A CN109492683A CN 109492683 A CN109492683 A CN 109492683A CN 201811280578 A CN201811280578 A CN 201811280578A CN 109492683 A CN109492683 A CN 109492683A
- Authority
- CN
- China
- Prior art keywords
- data
- electric power
- assessment
- rule
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 57
- 238000005259 measurement Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000003064 k means clustering Methods 0.000 claims abstract description 7
- 238000013461 design Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 14
- 238000013441 quality evaluation Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004335 scaling law Methods 0.000 claims description 5
- 238000007689 inspection Methods 0.000 claims description 4
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 4
- 238000001303 quality assessment method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Water Supply & Treatment (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Game Theory and Decision Science (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开一种针对广域量测电力大数据数据质量的快速在线评估方法,属于电力系统大数据应用领域,包括以下步骤:获取给定时段内广域量测系统的实时电力大数据;采用改进的MapReduce并行化K‑means聚类算法进行快速的预处理;采用基于KNN的快速密度峰值异常值检测算法对其进行正确性评估;再进行完整性、唯一性、准确性、一致性、有效性评估,根据评估指标Ii设计各个指标对应的评估规则Rr(r=1,2,3……n);利用层次分析法确定各评估指标的权重系数Ww;统计满足评估规则Rr(Ii)的数据个数百分比Ss,再根据得到的权重系数Ww和检测结果Ss,计算出电力大数据质量的综合评估值X。本发明解决了电力大数据质量快速评估问题,是基于WAMS的电网在线应用的基础性工作。
Description
技术领域
本发明属于电力系统大数据应用领域,公开一种针对广域量测电力大数据数据质量的快速在线评估方法。
背景技术
在传统数据质量评估技术基础上,考虑广域量测系统电力大数据特征,评估电力大数据质量,确保获得可信度高和项目应用目标适用的电网量测大数据,对电力系统大数据的应用具有重要意义。
电力行业面临着正在形成的大数据环境,大数据时代对电力行业发展提出新的挑战,但也带来新的发展机遇。近十年来,随着我国经济的快速发展,电网规模不断扩大。在“西电东送、南北互供、全国联网”的建设方针下,我国各地区电网互联程度逐渐加深,交流同步互联和交直流混合互联并存,超大规模的互联电力系统的正在逐步形成。广域量测系统(Wide Area Measurement System,WAMS)是以同步向量测量技术为基础,以电力系统动态过程检测、分析和控制为目标的实时监控系统,具有异地高精度同步向量测量、高速通信和快速反应等技术特点,已在我国互联电网的动态过程实时监控领域广泛配置。面对这种海量数据的增加,多数电力部门仅使用传统的数据分析方法和简单的传统统计方法进行数据分析和数据质量评估,适用性并不好;而且由于广域量测数据量大、数据处理复杂以及数据应用的原理复杂,目前对于广域量测大数据深度挖掘分析不够、实用化的高级应用欠缺,制约了广域量测数据在电网安全运行中的应用。数据背后隐藏的深层次知识无法有效得以理解使用,相反却带来了“数据灾难”和“数据荒废”,上述问题使得实际电网中广域量测数据大量闲置,无法充分发挥其应有的价值。
发明内容
针对现有技术的不足,本发明提出了一种针对广域量测电力大数据数据质量的快速在线评估方法,在传统数据质量评估技术基础上,充分考虑了广域量测系统电力大数据特征,进行电力大数据质量评估,确保快速获得可信度高和项目应用目标适用的电网量测大数据。
本发明采用如下技术方案:
一种针对广域量测电力大数据数据质量的快速在线评估方法,包括如下步骤:
步骤1:获取给定时段内广域量测系统的实时电力大数据;
步骤2:采用MapReduce并行化K-means聚类算法对确定的电力大数据对象进行快速的预处理:将电力大数据集通过K-means聚类算法分类为若干小数据集,且每个小数据集中的数据对象之间具有相似性;
步骤3:对经过预处理的电力大数据对象采用基于KNN的快速密度峰值异常值检测算法来进行正确性指标的评估:基于小数据集中每个样本与其他样本之间的欧氏距离来计算该样本的局部密度,并根据局部密度得到KNN距离,然后将局部密度小于预设密度阈值和KNN距离大于预设距离阈值的样本作为异常数据,并据此评估电力大数据对象的正确性;
步骤4:继续对经过预处理的电力大数据对象进行评估:基于完整性、唯一性、准确性、一致性和有效性这五个评估指标建立对应的电力大数据质量评估规则,评估规则即判断数据是否符合评估要求的规则,其中完整性是检测数据是否存在缺失记录或缺失字段,唯一性是检测数据是否存在重复的记录,准确性是检测数据值的精度是否符合要求,一致性是检测同一属性数据在表达格式上是否一致,有效性是检测数据是否符合数据格式和值域范围的要求;
步骤5:利用层次分析法快速确定各评估指标的权重系数:根据步骤3和4中的评估指标和评估规则,采用1-9标度法形成判断矩阵并检验判断矩阵的一致性,再对判断矩阵进行列归一化并计算每一行的平均值,得到评估指标的权重系数;
步骤6:根据电力大数据质量评估规则中的每条评估规则,对经过预处理的电力大数据对象进行快速检测分析,统计满足评估规则的数据个数百分比,再根据步骤5中得到的各评估指标权重系数和检测结果,计算出电力大数据质量的综合评估值。
所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,所述步骤2包括以下步骤:
以步骤1中得到的电力大数据对象作为聚类样本集H={h1,h2,...,hj,...,hn},其中hj为数据对象,将原始数据分成k个类别,其中k≤n,用si(i=1,2,...,k)表示在n个数据对象中选出的k个聚类中心,聚类中心si(i=1,2,...,k)是同一类别数据对象的算数平均值,即
其中Ni为类i的数据对象个数,hi为类i中的数据对象;
对于不属于聚类中心的数据对象,根据到每一个聚类中心的相似度即欧氏距离进行分配,然后重新计算新的聚类中心即聚类对象的均值,不断重复此过程直至标准测度函数收敛,标准测度函数为
其中hj为类i中的数据对象,J为聚类样本集中所有数据的均方差之和。
所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,所述步骤3包括以下步骤:
在步骤2中得到的每个小数据集中,计算任一样本xi与其他样本之间的欧氏距离d(xi,xj),并将计算结果按照升序排列,以对应第k个距离的样本为Nk(xi),xi的K个最近邻为:
N(xi)={j∈X|d(xi,xj)≤d(xi,Nk(xi))}
用N(xi)来计算xi的局部密度
其中K=ρN,ρ是数据集的总样本数N的百分比;
KNN距离为:
其中dij为xi与xj之间的距离;
异常样本为:局部密度且距离值其中,局部密度阈值为:
距离阈值的定义为:
其中γρ和γδ为经验参数。
所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,所述步骤4包括以下步骤:
基于完整性评估指标建立评估规则:检验数据是否存在缺失值;
基于唯一性评估指标建立评估规则:检测数据中是否存在以下情况:(1)数据表中是否存在两个相同的时间变量;(2)数据表中是否存在两个相同的统计指标名;(3)不同行或列对应的数值数据的相同个数是否超过预设阈值;
基于准确性评估指标建立评估规则:预先定义记录的参考精度值即数据小数点后的位数,然后再考察数据集中各数据记录的精度是否满足要求;
基于一致性评估指标建立评估规则:预先设定不同属性数据的标准表达格式,然后检测该属性下的所有数据的表达格式是否与标准表达格式一致;
基于有效性评估指标建立评估规则:先统计出每一个属性数据的所有有效格式,然后再将某属性下的所有数据与有效格式逐一进行对比,检验是否符合要求;然后检查数值数据的大小是否处于预设的值域范围之内。
所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,所述步骤5包括以下步骤:
1)根据选择的评估指标和设计的评估规则之间的关系采用1-9标度法,形成判断矩阵,所述的判断矩阵利用各评估指标之间的标度关系形成,各指标的标度则由两个元素相比的重要性来确定;
2)检验判断矩阵的一致性,即检验判断矩阵中的数据在表达格式上是否一致;
3)对其判断矩阵进行列归一化,即通过判断矩阵中的每一个列数据除以该列数据之和得到一个新数值,然后对归一化后的矩阵的每一行计算出平均值,得到评估指标的权重系数。
所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,所述步骤6包括以下步骤:
对所选定的电力大数据对象进行检测分析,统计满足评估规则的数据个数百分比Ss,再根据步骤5中得到的各评估指标权重系数Ww和检测结果Ss,计算出电力大数据质量的综合评估值X:
本发明的技术效果在于,在传统数据质量评估技术基础上,充分考虑了广域量测系统电力大数据特征,进行电力大数据质量评估,确保快速获得可信度高和项目应用目标适用的电网量测大数据。本发明解决了电力大数据质量快速评估问题,是基于WAMS的电网在线应用的基础性工作,有利于对电力大数据进行充分有效的利用,发挥其价值。
附图说明
图1为本发明的整体实施流程图。
具体实施方式
本发明提出的一种针对广域量测电力大数据数据质量的快速在线评估方法,其整体实施流程见图1。
步骤1:获取给定时段内广域量测系统的实时电力大数据,并确定评估电力大数据对象;
首先,获取给定时段内广域量测系统的实时电力大数据。而在进行电力大数据质量评估时,可以根据用户对于出电力大数据质量评估的需求,先确定哪些电力大数据对象是用户感兴趣的,将用户感兴趣的相应数据进行提取处理,可减少后续的运算处理量,相应的减少运算时间。
步骤2:采用MapReduce并行化的K-means聚类算法对确定的电力大数据对象进行快速的预处理。通过将K-means聚类算法并行化,可有效的提高聚类算法的处理效率。
采用K-means可将电力大数据对象按照相似性分成k类,即把大数据集分类为若干小数据集,由于电力大数据对象的数据量极为庞大,如果直接处理的话,运算效率会相当低下,而经过聚类处理的每个小数据集中的数据对象之间具有相当程度的相似性,这样可极大提高数据处理的速度。进行聚类的基本过程如下:
给定聚类样本集H={h1,h2,...,hj,...,hn},其中hj为数据对象。在给定分类组数k(k≤n)的情况下,将原始数据分成k个类别,用si(i=1,2,...,k)表示在n个数据对象中选出的k个聚类中心。聚类中心si(i=1,2,...,k)是同一类别数据对象的算数平均值,即
式中:Ni为类i的数据对象个数;hi为类i中的数据对象。
对于其他的数据对象,根据到每一个聚类中心的相似度(欧氏距离)进行分配,重新计算新的聚类中心(即聚类对象的均值),不断重复此过程直至标准测度函数收敛,即分类(聚类中心)趋于稳定为止。标准测度函数定义为
式中:hj为类i中的数据对象;J为聚类样本集中所有数据的均方差之和。
步骤3:针对经过预处理的电力大数据对象,首先采用基于KNN的快速密度峰值异常值检测算法对其进行正确性评估;
该算法的核心是用KNN思想计算所选电力大数据对象的局部密度和距离,基于KNN的局部密度和距离在计算时既考虑了数据集的全局特征,也考虑了数据集的局部特点,同时给出异常值判断规则,因此提高了异常值的检测速度和精度,得到正确性评估结果。
在原始数据集中,计算任一样本xi与其他样本之间的欧氏距离d(xi,xj),并将计算结果按照升序排列,记对应第k个距离的样本为Nk(xi),xi的K个最近邻为:
N(xi)={j∈X|d(xi,xj)≤d(xi,Nk(xi))} (4)
用N(xi)来计算xi的局部密度
式中,K由参数ρ确定,ρ是样本数N的百分比,K=ρN,局部密度的值越大,表示xi的密度越大。
在式(5)的基础上给出KNN距离的定义为:
其中dij为xi与xj之间的距离。
计算出样本的之后,确定数据集中的异常值。数据集中局部密度较小、距离较大的点有可能是异常值,因为其周围的邻居较少且与其他样本的距离较大。本文认为异常样本应满足如下条件:局部密度且距离值时,则该样本点可以判定为异常值。其中,局部密度阈值的定义为:
距离阈值的定义为:
式中,N为数据集的总样本数,γρ和γδ为经验参数,其中经验参数的具体数值只能通过实验或者统计得到,针对不同的数据取值可能不一样。
步骤4:再对经过预处理的电力大数据对象进行完整性、唯一性、准确性、一致性、有效性评估,并根据评估指标Ii设计各个指标对应的电力大数据质量评估规则Rr(r=1,2,3……n);
借鉴于传统数据质量评估技术的评估指标,针对广域量测系统的实时电力大数据,提出的典型电力大数据质量评估指标包括正确性、完整性、唯一性、准确性、一致性、有效性,并根据评估指标Ii设计各个指标对应的电力大数据质量评估规则,通过这六个大数据质量评估指标对目标电力大数据对象进行进一步的质量评估。其中各评估规则具体解释如下:
正确性:包括事实符合性和输入正确性两个方面,主要用于描述数据是否与其对应的客观实体的特征相一致。检测原理:检验数据是否存在异常值。
完整性:描述数据是否存在缺失记录或缺失字段。检测原理:检验数据是否存在缺失值。
唯一性:描述数据是否存在重复的记录。检测原理:(1)数据表中是否存在两个相同的时间变量;(2)数据表中是否存在两个相同的统计指标名;(3)不同行或列对应的数值数据是否完全一致或相同个数是否超过某一阈值。
准确性:描述数据值的精度是否符合要求。检测原理:预先定义记录的参考精度值,然后再考察数据集中各数据记录的精度是否满足这一要求。
一致性:描述同一属性数据在表达格式上是否一致,一致性分析主要从以下两个方面进行:表达一致性和格式一致性。检测原理:预先设定一种参考格式,然后通过扫描该属性下的所有数据,将每一个案的表达格式与参考格式进行对比分析,以考察两者是否一致,若存在差异,则认为该数据的格式不符合要求。
有效性:包括格式有效性和数值有效性两个方面,任何数据都应该符合特定的数据格式以及值域范围。检测原理:先统计出每一个属性数据的所有有效格式,然后再将某属性下的所有数据与其有效格式逐一进行对比,检验是否符合要求;数值有效性通常分析的是,数据的大小是否介于某一值域范围之内。
步骤5:利用层次分析法快速确定各评估指标的权重系数Ww;
由于不同的电力大数据集对电力大数据质量有各自不同的要求,因此对评估指标的权重也各不相同,评估指标赋予的权值越大,说明该指标与电力大数据质量水平的关联度越大,反之,则越小。本发明利用层次分析法确定各评估指标的权重系数Ww,过程如下:
1)根据选择的评估指标和设计的评估规则之间的关系,建立系统的递阶的层次结构。这里所提出的的层次结构是通过层次分析法来建立,层次分析法简称AHP,是指将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。在本方法中数据质量评估是目标,六个评估指标是准则,六个评估指标对应的评估规则是方案。
2)采用“1-9标度法”,形成判断矩阵。这里提出的判断矩阵是利用各评估指标之间的标度关系形成,各指标的标度则由两个元素相比的重要性来确定。例:正确性与完整性相比稍微重要则其标度为3,正确性与唯一性相比强烈重要则其标度为6。具体示例可参见下表1:
表1正确性与唯一性判断矩阵
3)检验判断矩阵的一致性,即检验判断矩阵中的数据在表达格式上是否一致。;
4)对其判断矩阵进行列归一化(列数据/列数据之和),即把判断矩阵中的每一个列数据除以该列数据之和得到一个新数值,然后对归一化后的矩阵的每一行计算出平均值,得到评估指标的权重系数Ww。具体示例可参见下表2、表3:
表2完整判断矩阵
表3列归一化及权重
步骤6:根据电力大数据质量评估规则Rr集中的每条评估规则,对所选定的电力大数据对象进行检测分析,统计满足评估规则Rr(Ii)的数据个数百分比Ss,再根据步骤5中得到的各评估指标权重系数Ww和检测结果Ss,计算出电力大数据质量的综合评估值X:
对于具体的质量水平评判,可参考以下规则:若X∈(95,100]则评定该评估电力大数据对象的数据质量水平为“优”,若X∈(90,95]则评定该评估电力大数据对象的数据质量水平为“良”,若X∈(85,90]则评定该评估电力大数据对象的数据质量水平为“中”,若X∈(0,85]则评定该评估电力大数据对象的数据质量水平为“差”。实际实施时也可根据需要来制定具体的评判规则。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的保护范畴。
Claims (6)
1.一种针对广域量测电力大数据数据质量的快速在线评估方法,其特征在于,包括如下步骤:
步骤1:获取给定时段内广域量测系统的实时电力大数据;
步骤2:采用MapReduce并行化K-means聚类算法对确定的电力大数据对象进行快速的预处理:将电力大数据集通过K-means聚类算法分类为若干小数据集,且每个小数据集中的数据对象之间具有相似性;
步骤3:对经过预处理的电力大数据对象采用基于KNN的快速密度峰值异常值检测算法来进行正确性指标的评估:基于小数据集中每个样本与其他样本之间的欧氏距离来计算该样本的局部密度,并根据局部密度得到KNN距离,然后将局部密度小于预设密度阈值和KNN距离大于预设距离阈值的样本作为异常数据,并据此评估电力大数据对象的正确性;
步骤4:继续对经过预处理的电力大数据对象进行评估:基于完整性、唯一性、准确性、一致性和有效性这五个评估指标建立对应的电力大数据质量评估规则,评估规则即判断数据是否符合评估要求的规则,其中完整性是检测数据是否存在缺失记录或缺失字段,唯一性是检测数据是否存在重复的记录,准确性是检测数据值的精度是否符合要求,一致性是检测同一属性数据在表达格式上是否一致,有效性是检测数据是否符合数据格式和值域范围的要求;
步骤5:利用层次分析法快速确定各评估指标的权重系数:根据步骤3和4中的评估指标和评估规则,采用1-9标度法形成判断矩阵并检验判断矩阵的一致性,再对判断矩阵进行列归一化并计算每一行的平均值,得到评估指标的权重系数;
步骤6:根据电力大数据质量评估规则中的每条评估规则,对经过预处理的电力大数据对象进行快速检测分析,统计满足评估规则的数据个数百分比,再根据步骤5中得到的各评估指标权重系数和检测结果,计算出电力大数据质量的综合评估值。
2.根据权利要求1所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,其特征在于,所述步骤2包括以下步骤:
以步骤1中得到的电力大数据对象作为聚类样本集H={h1,h2,...,hj,...,hn},其中hj为数据对象,将原始数据分成k个类别,其中k≤n,用si(i=1,2,...,k)表示在n个数据对象中选出的k个聚类中心,聚类中心si(i=1,2,...,k)是同一类别数据对象的算数平均值,即
其中Ni为类i的数据对象个数,hi为类i中的数据对象;
对于不属于聚类中心的数据对象,根据到每一个聚类中心的相似度即欧氏距离进行分配,然后重新计算新的聚类中心即聚类对象的均值,不断重复此过程直至标准测度函数收敛,标准测度函数为
其中hj为类i中的数据对象,J为聚类样本集中所有数据的均方差之和。
3.根据权利要求1所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,其特征在于,所述步骤3包括以下步骤:
在步骤2中得到的每个小数据集中,计算任一样本xi与其他样本之间的欧氏距离d(xi,xj),并将计算结果按照升序排列,以对应第k个距离的样本为Nk(xi),xi的K个最近邻为:
N(xi)={j∈X|d(xi,xj)≤d(xi,Nk(xi))}
用N(xi)来计算xi的局部密度
其中K=ρN,ρ是数据集的总样本数N的百分比;
KNN距离为:
其中dij为xi与xj之间的距离;
异常样本为:局部密度且距离值其中,局部密度阈值为:
距离阈值的定义为:
其中γρ和γδ为经验参数。
4.根据权利要求1所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,其特征在于,所述步骤4包括以下步骤:
基于完整性评估指标建立评估规则:检验数据是否存在缺失值;
基于唯一性评估指标建立评估规则:检测数据中是否存在以下情况:(1)数据表中是否存在两个相同的时间变量;(2)数据表中是否存在两个相同的统计指标名;(3)不同行或列对应的数值数据的相同个数是否超过预设阈值;
基于准确性评估指标建立评估规则:预先定义记录的参考精度值即数据小数点后的位数,然后再考察数据集中各数据记录的精度是否满足要求;
基于一致性评估指标建立评估规则:预先设定不同属性数据的标准表达格式,然后检测该属性下的所有数据的表达格式是否与标准表达格式一致;
基于有效性评估指标建立评估规则:先统计出每一个属性数据的所有有效格式,然后再将某属性下的所有数据与有效格式逐一进行对比,检验是否符合要求;然后检查数值数据的大小是否处于预设的值域范围之内。
5.根据权利要求1所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,其特征在于,所述步骤5包括以下步骤:
1)根据选择的评估指标和设计的评估规则之间的关系采用1-9标度法,形成判断矩阵,所述的判断矩阵利用各评估指标之间的标度关系形成,各指标的标度则由两个元素相比的重要性来确定;
2)检验判断矩阵的一致性,即检验判断矩阵中的数据在表达格式上是否一致;
3)对其判断矩阵进行列归一化,即通过判断矩阵中的每一个列数据除以该列数据之和得到一个新数值,然后对归一化后的矩阵的每一行计算出平均值,得到评估指标的权重系数。
6.根据权利要求1所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,其特征在于,所述步骤6包括以下步骤:
对所选定的电力大数据对象进行检测分析,统计满足评估规则的数据个数百分比Ss,再根据步骤5中得到的各评估指标权重系数Ww和检测结果Ss,计算出电力大数据质量的综合评估值X:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811280578.1A CN109492683A (zh) | 2018-10-30 | 2018-10-30 | 一种针对广域量测电力大数据数据质量的快速在线评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811280578.1A CN109492683A (zh) | 2018-10-30 | 2018-10-30 | 一种针对广域量测电力大数据数据质量的快速在线评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492683A true CN109492683A (zh) | 2019-03-19 |
Family
ID=65693389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811280578.1A Pending CN109492683A (zh) | 2018-10-30 | 2018-10-30 | 一种针对广域量测电力大数据数据质量的快速在线评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492683A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070304A (zh) * | 2019-04-30 | 2019-07-30 | 深圳市超算科技开发有限公司 | 一种大数据资产质量评估方法 |
CN110210719A (zh) * | 2019-05-10 | 2019-09-06 | 中国电力科学研究院有限公司 | 一种电力设备静态数据质量评估方法及系统 |
CN110516920A (zh) * | 2019-08-05 | 2019-11-29 | 西安电子科技大学 | 基于指标融合的陀螺仪质量等级评估方法 |
CN110737685A (zh) * | 2019-10-24 | 2020-01-31 | 南方电网科学研究院有限责任公司 | 一种电力大数据的数据异常判别方法 |
CN110737650A (zh) * | 2019-09-27 | 2020-01-31 | 北京明略软件系统有限公司 | 数据质量检测方法及装置 |
CN110796159A (zh) * | 2019-09-12 | 2020-02-14 | 国网浙江省电力有限公司杭州供电公司 | 基于k-means算法的电力数据分类方法及系统 |
CN110889441A (zh) * | 2019-11-19 | 2020-03-17 | 海南电网有限责任公司海南输变电检修分公司 | 一种基于距离和点密度的变电设备数据异常识别方法 |
CN111552686A (zh) * | 2020-05-08 | 2020-08-18 | 国网四川省电力公司信息通信公司 | 一种电力数据质量评估方法及其装置 |
CN111901165A (zh) * | 2020-07-21 | 2020-11-06 | 积成电子股份有限公司 | 一种基于置信度的通道质量动态评估方法与系统 |
CN112035456A (zh) * | 2020-08-31 | 2020-12-04 | 重庆长安汽车股份有限公司 | 一种用户行为数据质量的实时检测方法及存储介质 |
CN112307086A (zh) * | 2020-10-30 | 2021-02-02 | 湖北烽火平安智能消防科技有限公司 | 一种消防业务中自动化数据校验方法及装置 |
CN112308458A (zh) * | 2020-11-23 | 2021-02-02 | 广东电网有限责任公司计量中心 | 一种低压台区量测数据评价方法和系统 |
CN112330164A (zh) * | 2020-11-09 | 2021-02-05 | 国网电力科学研究院武汉南瑞有限责任公司 | 基于消息总线的数据质量治理系统及方法 |
CN112365361A (zh) * | 2020-09-16 | 2021-02-12 | 贵州电网有限责任公司 | 一种基于规则库的电力计量数据质量体检方法 |
CN115098671A (zh) * | 2022-08-25 | 2022-09-23 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于人工智能的政务数据处理方法、电子设备及存储介质 |
CN115545107A (zh) * | 2022-10-09 | 2022-12-30 | 贵州电网有限责任公司 | 一种基于海量电力数据的云计算方法、系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004234396A (ja) * | 2003-01-30 | 2004-08-19 | D-Tv:Kk | 評価対象の評価情報を画像情報フォーマットを用いて記録する方法、評価対象の評価情報を画像情報として格納するデータ構造体、評価対象の特徴又は特性を表示する画像情報を生成する方法、その装置及びプログラム、並びに電気機器の稼働状況を画像情報フォーマットを用いて記録する方法 |
CN103247008A (zh) * | 2013-05-07 | 2013-08-14 | 国家电网公司 | 一种电力统计指标数据的质量评估方法 |
CN104484600A (zh) * | 2014-11-18 | 2015-04-01 | 中国科学院深圳先进技术研究院 | 一种基于改进密度聚类的入侵检测方法及装置 |
CN107423636A (zh) * | 2017-07-06 | 2017-12-01 | 北京航空航天大学 | 一种基于MapReduce的差分隐私K均值聚类方法 |
CN108256285A (zh) * | 2018-01-09 | 2018-07-06 | 上海交通大学 | 基于密度峰值快速搜索的航迹异常侦测方法及系统 |
CN108345985A (zh) * | 2018-01-09 | 2018-07-31 | 国网瑞盈电力科技(北京)有限公司 | 一种配电网数据质量评估方法及系统 |
CN108376254A (zh) * | 2018-03-21 | 2018-08-07 | 北京理工大学 | 融合多源特征的内部威胁人物检测方法 |
CN108664990A (zh) * | 2018-03-29 | 2018-10-16 | 清华大学 | 综合熵方法和密度聚类方法的窃电检测方法及装置 |
-
2018
- 2018-10-30 CN CN201811280578.1A patent/CN109492683A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004234396A (ja) * | 2003-01-30 | 2004-08-19 | D-Tv:Kk | 評価対象の評価情報を画像情報フォーマットを用いて記録する方法、評価対象の評価情報を画像情報として格納するデータ構造体、評価対象の特徴又は特性を表示する画像情報を生成する方法、その装置及びプログラム、並びに電気機器の稼働状況を画像情報フォーマットを用いて記録する方法 |
CN103247008A (zh) * | 2013-05-07 | 2013-08-14 | 国家电网公司 | 一种电力统计指标数据的质量评估方法 |
CN104484600A (zh) * | 2014-11-18 | 2015-04-01 | 中国科学院深圳先进技术研究院 | 一种基于改进密度聚类的入侵检测方法及装置 |
CN107423636A (zh) * | 2017-07-06 | 2017-12-01 | 北京航空航天大学 | 一种基于MapReduce的差分隐私K均值聚类方法 |
CN108256285A (zh) * | 2018-01-09 | 2018-07-06 | 上海交通大学 | 基于密度峰值快速搜索的航迹异常侦测方法及系统 |
CN108345985A (zh) * | 2018-01-09 | 2018-07-31 | 国网瑞盈电力科技(北京)有限公司 | 一种配电网数据质量评估方法及系统 |
CN108376254A (zh) * | 2018-03-21 | 2018-08-07 | 北京理工大学 | 融合多源特征的内部威胁人物检测方法 |
CN108664990A (zh) * | 2018-03-29 | 2018-10-16 | 清华大学 | 综合熵方法和密度聚类方法的窃电检测方法及装置 |
Non-Patent Citations (3)
Title |
---|
刘凤魁 等: "基于改进快速密度峰值聚类算法的电力大数据异常值检测", 《电力信息与通信技术》 * |
张承畅 等: "基于云计算和改进K_means算法的海量用电数据分析方法", 《计算机应用》 * |
李刚 等: "联合采用熵权和灰色系统理论的电力大数据质量综合评估", 《电力建设》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070304A (zh) * | 2019-04-30 | 2019-07-30 | 深圳市超算科技开发有限公司 | 一种大数据资产质量评估方法 |
CN110070304B (zh) * | 2019-04-30 | 2023-06-27 | 深圳市乾数科技有限公司 | 一种大数据资产质量评估方法 |
CN110210719A (zh) * | 2019-05-10 | 2019-09-06 | 中国电力科学研究院有限公司 | 一种电力设备静态数据质量评估方法及系统 |
CN110516920A (zh) * | 2019-08-05 | 2019-11-29 | 西安电子科技大学 | 基于指标融合的陀螺仪质量等级评估方法 |
CN110796159A (zh) * | 2019-09-12 | 2020-02-14 | 国网浙江省电力有限公司杭州供电公司 | 基于k-means算法的电力数据分类方法及系统 |
CN110737650A (zh) * | 2019-09-27 | 2020-01-31 | 北京明略软件系统有限公司 | 数据质量检测方法及装置 |
CN110737685A (zh) * | 2019-10-24 | 2020-01-31 | 南方电网科学研究院有限责任公司 | 一种电力大数据的数据异常判别方法 |
CN110889441A (zh) * | 2019-11-19 | 2020-03-17 | 海南电网有限责任公司海南输变电检修分公司 | 一种基于距离和点密度的变电设备数据异常识别方法 |
CN111552686A (zh) * | 2020-05-08 | 2020-08-18 | 国网四川省电力公司信息通信公司 | 一种电力数据质量评估方法及其装置 |
CN111552686B (zh) * | 2020-05-08 | 2023-05-16 | 国网四川省电力公司信息通信公司 | 一种电力数据质量评估方法及其装置 |
CN111901165A (zh) * | 2020-07-21 | 2020-11-06 | 积成电子股份有限公司 | 一种基于置信度的通道质量动态评估方法与系统 |
CN111901165B (zh) * | 2020-07-21 | 2023-04-28 | 积成电子股份有限公司 | 一种基于置信度的通道质量动态评估方法与系统 |
CN112035456A (zh) * | 2020-08-31 | 2020-12-04 | 重庆长安汽车股份有限公司 | 一种用户行为数据质量的实时检测方法及存储介质 |
CN112035456B (zh) * | 2020-08-31 | 2024-05-03 | 重庆长安汽车股份有限公司 | 一种用户行为数据质量的实时检测方法及存储介质 |
CN112365361A (zh) * | 2020-09-16 | 2021-02-12 | 贵州电网有限责任公司 | 一种基于规则库的电力计量数据质量体检方法 |
CN112307086A (zh) * | 2020-10-30 | 2021-02-02 | 湖北烽火平安智能消防科技有限公司 | 一种消防业务中自动化数据校验方法及装置 |
CN112307086B (zh) * | 2020-10-30 | 2024-05-24 | 湖北烽火平安智能消防科技有限公司 | 一种消防业务中自动化数据校验方法及装置 |
CN112330164A (zh) * | 2020-11-09 | 2021-02-05 | 国网电力科学研究院武汉南瑞有限责任公司 | 基于消息总线的数据质量治理系统及方法 |
CN112308458A (zh) * | 2020-11-23 | 2021-02-02 | 广东电网有限责任公司计量中心 | 一种低压台区量测数据评价方法和系统 |
CN115098671B (zh) * | 2022-08-25 | 2023-02-03 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于人工智能的政务数据处理方法、电子设备及存储介质 |
CN115098671A (zh) * | 2022-08-25 | 2022-09-23 | 深圳市城市交通规划设计研究中心股份有限公司 | 基于人工智能的政务数据处理方法、电子设备及存储介质 |
CN115545107A (zh) * | 2022-10-09 | 2022-12-30 | 贵州电网有限责任公司 | 一种基于海量电力数据的云计算方法、系统 |
CN115545107B (zh) * | 2022-10-09 | 2023-07-21 | 贵州电网有限责任公司 | 一种基于海量电力数据的云计算方法、系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492683A (zh) | 一种针对广域量测电力大数据数据质量的快速在线评估方法 | |
CN110634080B (zh) | 异常用电检测方法、装置、设备及计算机可读存储介质 | |
CN108020752B (zh) | 一种基于多源贯通相关性的配线线损诊断方法及系统 | |
CN112199421B (zh) | 一种多源异构数据融合和量测数据多源互校验方法及系统 | |
CN106549813A (zh) | 一种网络性能的评估方法及系统 | |
CN108898311A (zh) | 一种面向智能配电网抢修调度平台的数据质量检测方法 | |
CN109409628A (zh) | 基于计量大数据聚类模型的采集终端生产厂商评价方法 | |
CN103247008A (zh) | 一种电力统计指标数据的质量评估方法 | |
CN110400231B (zh) | 一种加权非线性贝叶斯的电能计量设备失效率预估方法 | |
CN108520267B (zh) | 一种基于时空特征的水文遥测数据异常检测方法 | |
CN105843870B (zh) | 重复性和再现性的分析方法及其应用 | |
CN109298225B (zh) | 一种电压量测数据异常状态自动识别模型系统及方法 | |
CN103760814A (zh) | 基于特征的多品种小批量生产零件过程能力指数确定方法 | |
CN115327674B (zh) | 一种大规模降雨监测雷达校验方法 | |
CN107358339A (zh) | 一种基于大数据的轨道质量状态评估方法 | |
CN112668612A (zh) | 一种基于网格的局部放电信号聚类分析方法 | |
CN103902798B (zh) | 数据预处理方法 | |
CN114386884B (zh) | 一种电网调度运行精益化评价方法 | |
CN113283881B (zh) | 一种远动信息源的自动审核方法及系统 | |
CN116662840A (zh) | 一种基于机器学习的低压台区用户相位识别方法 | |
CN109886288A (zh) | 一种用于电力变压器的状态评价方法及装置 | |
CN109389281A (zh) | 一种基于高斯混合模型的采集终端生产厂商评价方法 | |
CN113850346A (zh) | Mec环境下多维属性感知的边缘服务二次聚类方法及系统 | |
CN114707784A (zh) | 一种基于组合赋权法的权重确定方法及系统 | |
CN107491576B (zh) | 基于性能退化数据的导弹部件可靠性分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |
|
RJ01 | Rejection of invention patent application after publication |