CN108229784A - 一种智能配电网的多维数据质量评价方法及系统 - Google Patents
一种智能配电网的多维数据质量评价方法及系统 Download PDFInfo
- Publication number
- CN108229784A CN108229784A CN201711098869.4A CN201711098869A CN108229784A CN 108229784 A CN108229784 A CN 108229784A CN 201711098869 A CN201711098869 A CN 201711098869A CN 108229784 A CN108229784 A CN 108229784A
- Authority
- CN
- China
- Prior art keywords
- data
- multidimensional
- quality
- accounting
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000011156 evaluation Methods 0.000 claims abstract description 30
- 238000012372 quality testing Methods 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims description 14
- 238000013441 quality evaluation Methods 0.000 claims description 12
- 241001269238 Data Species 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims description 2
- 238000007796 conventional method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 15
- 238000004590 computer program Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000011157 data evaluation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004870 electrical engineering Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种智能配电网的多维数据质量评价方法及系统;方法包括:根据预先建立的数据质量评价体系模型,确定待评价数据集的多维评价维度的占比和权重;根据所述多维评价维度的占比和权重,确定数据质量评价结果;系统包括:确定模块、计算模块、建模模块。本发明提供的技术方案弥补了传统方法评价维度的单一性和评价体系的简易性,最大程度保证评价结果的公平、公正、客观。
Description
技术领域
本发明涉及电气工程技术领域,具体涉及一种智能配电网的多维数据质量评价方法及系统。
背景技术
近年来,随着智能配电网的快速发展及日趋严峻的能源危机,对配电网数据的实际需求越来越大,质量要求也越来越高,为发挥电网数据在企业决策与经营管理中的支撑与监督作用,协调推进企业与社会的可持续发展,迫切需要依据电网智能化设备及自动化信息化系统数据采集情况,建立一个科学合理的多维数据质量评估模型,促进智能配电网数据质量的提升与有效应用。
现有的技术中虽然已有相关智能配电网数据评价体系,但评价体系往往过于简易,评价维度过于单一,评价方法过于简单,导致电网企业不能全面、系统、真实地了解智能配电网的数据质量情况。
因此为克服上述缺陷,本发明提出了一种智能配电网的多维数据质量评价方法及系统。
发明内容
为了解决现有技术中所存在的上述不足,本发明提供一种智能配电网的多维数据质量评价方法及系统。
本发明提供的技术方案是:一种智能配电网的多维数据质量评价方法,包括:
根据预先建立的数据质量评价体系模型,确定待评价数据集的多维评价维度的占比和权重;
根据所述多维评价维度的占比和权重,确定数据质量评价结果;
所述数据质量评价体系模型包括:多维评价维度和评价各维度是否满足需求的评价指标,所述多维评价维度包括准确度、完整度、一致度、及时度和冗余度。
优选的,所述准确度的评价指标包括:精度、格式、长度和范围;
所述完整度的评价指标包括:记录完整性和数据完整性;
所述一致度的评价指标包括:相同数据参照一致性和不同数据逻辑一致性;
所述及时度的评价指标包括:数据更新的及时性;
所述冗余度的评价指标包括:记录冗余和数据冗余。
优选的,所述评价各维度是否满足需求,包括:
通过所述精度、格式、长度和范围确定数据是否与客观实体的特征相一致;
通过所述记录完整和数据完整确定所述数据是否存在缺失记录或缺失字段;
通过所述相同数据参照一致性和不同数据逻辑一致性确定所述数据集不同行列间的数据是否存在一致性以及所述数据集和所述数据之间偏离度是否过大;
通过数据更新的及时性确定所述数据是否传输及时以及是否满足系统对所述数据传输时间的要求;
通过记录冗余和数据冗余确定同一数据或不同数据是否存在重复记录。
优选的,
通过检测数据位无效描述所述记录完整性;
通过检测数据是否为Φ描述所述数据完整性;
通过最小二乘法对每列数据进行曲线拟合后的偏离度描述所述相同数据参照一致性;
通过多元线性回归对每行数据进行回归分析后的偏离度描述所述不同数据逻辑一致性;
通过检测接收到的数据集是否存在同一个数据可能被传输多次的状况描述所述记录冗余;
通过检测数据集中同行或同列相同数据的个数是否超出指定的阈值描述所述数据冗余。
优选的,所述多维评价维度占比包括:准确度占比、完整度占比、一致度占比、及时度占比和冗余度占比。
优选的,所述准确度占比按下式计算:
式中:D:数据集数据总数;DB1:准确度为否的个数;DB21:数据位无效null个数;DB51:记录冗余数据个数。
优选的,所述完整度占比按下式计算:
式中:D:数据集数据总数;DB22:空Φ数据个数;DB21:数据位无效null个数;DB51:记录冗余数据个数。
优选的,所述一致度占比按下式计算:
式中:D:数据集数据总数;DB31:相同数据参照一致性的偏离异常个数;DB32:不同数据逻辑一致性的偏离异常个数;DB30:相同数据参照一致性和不同数据逻辑一致性偏离异常检测重复的个数;DB21:数据位无效null个数;DB51:记录冗余数据个数。
优选的,所述及时度占比按下式计算:
式中:D:数据集数据总数;DB41:数据更新不及时的个数;DB21:数据位无效null个数;DB51:记录冗余数据个数。
优选的,所述冗余度占比按下式计算:
式中,β:平衡度系数;D:数据集数据总数;DB521:不同行数据相同的个数;DB522:不同列数据相同的个数;DB21:数据位无效null个数;DB51:记录冗余数据个数;CR51:记录冗余百分比;CR52:数据冗余百分比。
优选的,所述多维评价维度权重包括准确度权重Cω1、完整度权重Cω2、一致度权重Cω3、时度权重Cω4和冗余度权重Cω5;
所述Cω1、Cω2、Cω3、Cω4和Cω5分别通过主观序关系分析法G1和客观反熵权法相组合的方法确定。
优选的,根据所述多维评价维度的占比和权重,确定数据质量评价结果包括:
通过下式确定所述数据质量得分:
式中:CRi:相应维度占比;Cωi:相应维度权重;i∈[1,2,3,4,5]。
优选的,根据所述数据质量得分确定所述多维数据质量所在的层次,包括:
当As∈(0,a],则所述数据质量为V层;
当As∈(a,b],则所述数据质量为VI层;
当As∈(b,c],则所述数据质量为III层;
当As∈(c,d],则所述数据质量为II层;
当As∈(d,e],则所述数据质量为I层;
其中,a、b、c、d和e∈(0,100],且a<b<c<d<e。
优选的,确定待评价数据集的多维评价维度的占比和权重之前,还包括:
根据智能配电网的数据质量评价需求,确定进行质量评价的数据集。
本发明另一发明目的在于:一种智能配电网的多维数据质量评价系统,包括:
确定模块,用于预先建立的数据质量评价体系模型,确定待评价数据集的多维评价维度的占比和权重;
计算模块,用于根据所述多维评价维度的占比和权重,确定数据质量评价结果;
建模模块,用于根据多维评价维度和评价各维度是否满足需求的评价指标建立数据质量评价体系模型,所述多维评价维度包括准确度、完整度、一致度、及时度和冗余度。
与最接近的现有技术相比,本发明具有以下有益效果:
(1)本发明通过准确度、完整度、一致度、及时度、冗余度五个维度对智能配电网数据质量进行评价,弥补了传统方法评价维度的单一性和评价体系的简易性。
(2)本发明采用G1和反熵权法两种主客观相结合的方法确立每个维度权重,最大程度保证评价结果的公平、公正、客观。
附图说明
图1为本发明的智能配电网多维数据质量评价体系结构示意图
图2为本发明的智能配电网多维数据质量评价体系示意图;
图3为本发明的智能配电网多维数据质量评价整体流程示意图;
图4为本发明的智能配电网多维数据准确度检测方法示意图;
图5为本发明的智能配电网多维数据完整度检测方法示意图;
图6为本发明的智能配电网多维数据一致度检测方法示意图;
图7为本发明的智能配电网多维数据及时度检测方法示意图;
图8为本发明的智能配电网多维数据冗余度检测方法示意图;
图9为本发明的五个评价维度权重计算方法示意图。
具体实施方式
为了更好地理解本发明,下面结合说明书附图和实例对本发明的内容做进一步的说明。
本发明实施例提供了一种智能配电网的多维数据质量评价方法,构建了智能配电网多维数据质量评价体系,并按目标层(A)、指标层(B)、方法层(C)和数据层(D)进行划分,具体如图1和图2所示,整体的评价流程如图3所示,具体步骤如下:
步骤S1:根据数据质量评价目的的需要,对智能配电网的数据进行预处理,采集需要进行质量评价的数据集;
步骤S2:综合考虑数据重要性、区域性、差异性、完整度、实时性等多种评价因素,确立数据质量准确度B1、完整度B2、一致度B3、及时度B4和冗余度B5五个评价维度,建立数据质量评价体系,具体如图2所示;
步骤S21:准确度描述数据是否与其对应的客观实体的特征相一致,主要通过精度(B11)、格式(B12)、长度(B13)、范围(B14)四个要素进行判断。精度主要指智能配电网数据保留小数点后几位有效数字,在评价的智能配电网数据中分别有1位,2位或4位有效数字;范围主要指智能配电网数据值不超出最大理论值或不小于最小理论值,比如功率因数若在0-1内,则符合范围,若超出,则不符合范围;格式主要指智能配电网数据是否为正确的格式,而非其他不符合其规定的格式,比如接收到的电压数据为数字,而非乱码xx等情形;长度主要指智能配电网数据的有效数位,比如接收到的有功功率为0.3352kW,则有效数位为5。
步骤S22:完整度描述数据是否存在缺失记录或缺失字段,主要通过记录完整(B21)和数据完整(B22)两个要素进行判断。记录完整主要指在指定的数据位均是有效数据,没有无效数据(null)出现,它描述数据的缺失情况,这里所指的“缺失”针对的是某种特殊情况下的缺失,指由于通讯设备故障,导致已采集的数据无法传输到数据层,造成数据集指定数据位尚未使用,为无效(null)状态,否则为(null)状态;数据完整主要指在已采集的数据为非空(Φ),由于数据采集系统或其他设备故障,造成无法采集到正确的数据,致使采集到的数据为空(Φ),否则为非空(Φ),指定数据位虽已使用,但内容为“Φ”。
步骤S23:一致度描述数据集不同行列间的数据是否存在某种程度的一致性,数据集数据之间偏离度是否过大,主要通过相同数据参照一致性(B31)和不同数据逻辑一致性(B32)两个要素进行判断。相同数据参照一致性主要指同类的数据无过大的差别,表现为数据集中同列数据的参照一致,由于外界突发性偶然事件的影响而导致同类数据上下异常波动,通过一定算法可检测出偏离的异常值;不同数据逻辑一致性主要指不同类的数据无过大差别,表现为数据集中不同行数据的逻辑一致,由于外界突发性偶然事件的影响而导致不同类数据上下异常波动,通过一定算法可检测不同数据间的逻辑关系,在此逻辑关系下检测出偏离的异常值。
步骤S24:及时度描述数据是否传输及时,是否满足系统对数据传输时间的要求,主要表现为是数据更新的及时性(B41)。在现实的数据应用中,实际应用的数据来源系统具有唯一性,比如调度只采用调度自动化系统的数据,调度自动化数据5秒更新一次,监测采用用户用电信息采集系统数据,用户用电信息数据更新有15分钟、30分钟、60分钟,虽并不统一,但各系统在固定的时间点均会更新数据,若在实际系统中,更新的时间与规定更新的时间差值大于给定的阈值,则视为传输不及时。
步骤S25:冗余度描述同一数据或不同数据是否存在重复记录,主要通过记录冗余(B51)和数据冗余(B52)两个要素进行判断。记录冗余主要指同一个数据位的数据被传输的次数,由于设备或人为因素,致使同一个数据可能被传输两次或者更多次,此时便存在记录冗余;数据冗余主要指在同行或同列相同数据的个数是否超出指定的阈值,如果同一行或同一列的数据相同个数超出指定的阈值,此时便存在数据冗余。
步骤S3:基于数据质量评价的各个维度,设计相应的评价规则和实现方法。
步骤S31:本发明采用关联规则改进的决策树对智能配电网数据质量准确度进行判断。由实际智能配电网数据经专家评议生成准确度训练集,训练集具体如表1所示,根据生成的训练集,采用关联规则Apriori算法产生新的属性,并通过“近似信息增益评估”评估产生新的属性,去除不合格新属性,最后根据决策树ID3算法生成准确度判断决策树,生成的决策树如图4所示。在智能配电网数据准确度判断决策树生成后,根据生成的决策树判断智能配电网数据的准确度,并统计得到智能配电网数据的准确度占比其中D为数据集数据总数,DB1为智能配电网数据准确度为否的个数,DB21为数据集中数据位无效null个数,DB51为记录冗余数据个数。
表1智能配电网数据准确度输入训练集
步骤S32:本发明通过检测接收到的数据集是否存在“null”和“Φ”状况,具体如图5,最终统计得到智能配电网数据的完整度占比其中D为数据集数据总数,DB21为数据位无效null个数,DB22为空(Φ)数据个数,DB51为记录冗余数据个数。
步骤S33:本发明采用最小二乘法对排序后的每列数据进行曲线拟合,利用拟合后的结果与真实值计算偏离度,通过与列偏离度阈值比较完成相同数据参照一致性的检验;采用多元线性回归对修正后的每行数据进行回归分析,利用回归方程的结果与真实值计算偏离度,通过与行偏离度阈值比较完成不同数据逻辑一致性的检验,具体如图6,最终统计得到智能配电网数据的一致度占比其中D为数据集数据总数,DB31为相同数据参照一致性的偏离异常个数,DB32为不同数据逻辑一致性的偏离异常个数,DB30为相同数据参照一致性和不同数据逻辑一致性偏离异常检测重复的个数,DB21为数据位无效null个数,DB51为记录冗余数据个数。
步骤S34:本发明根据设定的时间差阈值,若在实际更新的时间与规定更新的时间差值大于给定的阈值,则视为传输不及时,具体如图7所示,最终统计得到智能配电网数据的及时度占比其中D为数据集数据总数,DB41为数据更新不及时的个数,DB21为数据位无效null个数,DB51为记录冗余数据个数。
步骤S35:本发明通过检测接收到的数据集是否存在同一个数据可能被传输多次的状况,统计得到记录冗余的百分比检测数据集中同行或同列相同数据的个数是否超出指定的阈值,统计得到数据冗余的百分比具体如图8所示,最终得到智能配电网数据冗余度的百分比其中β为平衡度系数,D为数据集数据总数,DB521为不同行数据相同的个数,DB522为不同列数据相同的个数,DB21为数据位无效null个数,DB22为空Φ数据个数,DB51为记录冗余数据个数,CR51为记录冗余百分比;CR52为数据冗余按百分比。
步骤S4:基于智能配电网数据质量评价的五个维度,根据分析法G1确定主观权重,根据反熵权法确定客观权重,最终采用主客观两种相结合的方法确立每个维度的综合权重,具体如图9所示,维度权重包括准确度权重Cω1,完整度权重Cω2,一致度权重Cω3,及时度权重Cω4,冗余度权重Cω5。
步骤S5:根据所得到的评价维度权重及相应评价维度占比计算得出数据质量得分其中CRi为相应维度占比,Cωi为相应维度权重,i∈[1,5],i为正整数;并评估其所在的数据质量所在“I、II、III、VI、V”中的层次,若质量得分As∈(0,a],则评定该评估数据对象的数据质量水平为“V”级;若As∈(a,b],则评定该评估数据对象的数据质量水平为“VI”级;若As∈(b,c],则评定该评估数据对象的数据质量水平为“III”级;若As∈(c,d],则评定该评估数据对象的数据质量水平为“II”级,若As∈(d,e],则评定该评估数据对象的数据质量水平为“I”级,具体区间可根据各自要求自行设定,如设定a=60,b=70,c=80,d=90,e=100,其中,a、b、c、d和e∈(0,100],且a<b<c<d<e,则As∈(0,60]时,该数据集数据质量水平为“V”级;As∈(60,70]时,数据集数据质量水平为“VI”级;As∈(70,80]时,数据集数据质量水平为“III”级;As∈(80,90]时,数据集数据质量水平为“II”级,As∈(90,100]时,数据集数据质量水平为“I”级;其中,a、b、c、d和e∈(0,100],且a<b<c<d<e。
基于同一发明构思,本实施例中还提供一种智能配电网的多维数据质量评价系统,包括:
确定模块,用于预先建立的数据质量评价体系模型,确定待评价数据集的多维评价维度的占比和权重;
计算模块,用于根据所述多维评价维度的占比和权重,确定数据质量评价结果;
建模模块,用于根据多维评价维度和评价各维度是否满足需求的评价指标建立数据质量评价体系模型,所述多维评价维度包括准确度、完整度、一致度、及时度和冗余度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
Claims (15)
1.一种智能配电网的多维数据质量评价方法,其特征在于,
根据预先建立的数据质量评价体系模型,确定待评价数据集的多维评价维度的占比和权重;
根据所述多维评价维度的占比和权重,确定数据质量评价结果;
所述数据质量评价体系模型包括:多维评价维度和评价各维度是否满足需求的评价指标,所述多维评价维度包括准确度、完整度、一致度、及时度和冗余度。
2.如权利要求1所述的多维数据质量评价方法,其特征在于,所述准确度的评价指标包括:精度、格式、长度和范围;
所述完整度的评价指标包括:记录完整性和数据完整性;
所述一致度的评价指标包括:相同数据参照一致性和不同数据逻辑一致性;
所述及时度的评价指标包括:数据更新的及时性;
所述冗余度的评价指标包括:记录冗余和数据冗余。
3.如权利要求2所述的多维数据质量评价方法,其特征在于,所述评价各维度是否满足需求,包括:
通过所述精度、格式、长度和范围确定数据是否与客观实体的特征相一致;
通过所述记录完整和数据完整确定所述数据是否存在缺失记录或缺失字段;
通过所述相同数据参照一致性和不同数据逻辑一致性确定所述数据集不同行列间的数据是否存在一致性以及所述数据集和所述数据之间偏离度是否过大;
通过数据更新的及时性确定所述数据是否传输及时以及是否满足系统对所述数据传输时间的要求;
通过记录冗余和数据冗余确定同一数据或不同数据是否存在重复记录。
4.如权利要求2或3所述的多维数据质量评价方法,其特征在于,
通过检测数据位无效描述所述记录完整性;
通过检测数据是否为Φ描述所述数据完整性;
通过最小二乘法对每列数据进行曲线拟合后的偏离度描述所述相同数据参照一致性;
通过多元线性回归对每行数据进行回归分析后的偏离度描述所述不同数据逻辑一致性;
通过检测接收到的数据集是否存在同一个数据可能被传输多次的状况描述所述记录冗余;
通过检测数据集中同行或同列相同数据的个数是否超出指定的阈值描述所述数据冗余。
5.如权利要求1所述的多维数据质量评价方法,其特征在于,所述多维评价维度占比包括:准确度占比、完整度占比、一致度占比、及时度占比和冗余度占比。
6.如权利要求5所述的多维数据质量评价方法,其特征在于,所述准确度占比按下式计算:
式中:D:数据集数据总数;DB1:准确度为否的个数;DB21:数据位无效null个数;DB51:记录冗余数据个数。
7.如权利要求5所述的多维数据质量评价方法,其特征在于,所述完整度占比按下式计算:
式中:D:数据集数据总数;DB22:空Φ数据个数;DB21:数据位无效null个数;DB51:记录冗余数据个数。
8.如权利要求5所述的多维数据质量评价方法,其特征在于,所述一致度占比按下式计算:
式中:D:数据集数据总数;DB31:相同数据参照一致性的偏离异常个数;DB32:不同数据逻辑一致性的偏离异常个数;DB30:相同数据参照一致性和不同数据逻辑一致性偏离异常检测重复的个数;DB21:数据位无效null个数;DB51:记录冗余数据个数。
9.如权利要求5所述的多维数据质量评价方法,其特征在于,所述及时度占比按下式计算:
式中:D:数据集数据总数;DB41:数据更新不及时的个数;DB21:数据位无效null个数;DB51:记录冗余数据个数。
10.如权利要求5所述的多维数据质量评价方法,其特征在于,所述冗余度占比按下式计算:
式中,β:平衡度系数;D:数据集数据总数;DB521:不同行数据相同的个数;DB522:不同列数据相同的个数;DB21:数据位无效null个数;DB51:记录冗余数据个数;CR51:记录冗余百分比;CR52:数据冗余百分比。
11.如权利要求1所述的一种智能配电网的多维数据质量评价方法,其特征在于,所述多维评价维度权重包括准确度权重Cω1、完整度权重Cω2、一致度权重Cω3、时度权重Cω4和冗余度权重Cω5;
所述Cω1、Cω2、Cω3、Cω4和Cω5分别通过主观序关系分析法G1和客观反熵权法相组合的方法确定。
12.如权利要求1所述的一种智能配电网的多维数据质量评价方法,其特征在于,根据所述多维评价维度的占比和权重,确定数据质量评价结果包括:
通过下式确定所述数据质量得分:
式中:CRi:相应维度占比;Cωi:相应维度权重;i∈[1,2,3,4,5]。
13.如权利要求12所述的一种智能配电网的多维数据质量评价方法,其特征在于,根据所述数据质量得分确定所述多维数据质量所在的层次,包括:
当As∈(0,a],则所述数据质量为V层;
当As∈(a,b],则所述数据质量为VI层;
当As∈(b,c],则所述数据质量为III层;
当As∈(c,d],则所述数据质量为II层;
当As∈(d,e],则所述数据质量为I层;
其中,a、b、c、d和e∈(0,100],且a<b<c<d<e。
14.如权利要求12所述的一种智能配电网的多维数据质量评价方法,其特征在于,确定待评价数据集的多维评价维度的占比和权重之前,还包括:
根据智能配电网的数据质量评价需求,确定进行质量评价的数据集。
15.一种智能配电网的多维数据质量评价系统,其特征在于,包括:
确定模块,用于预先建立的数据质量评价体系模型,确定待评价数据集的多维评价维度的占比和权重;
计算模块,用于根据所述多维评价维度的占比和权重,确定数据质量评价结果;
建模模块,用于根据多维评价维度和评价各维度是否满足需求的评价指标建立数据质量评价体系模型,所述多维评价维度包括准确度、完整度、一致度、及时度和冗余度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711098869.4A CN108229784A (zh) | 2017-11-09 | 2017-11-09 | 一种智能配电网的多维数据质量评价方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711098869.4A CN108229784A (zh) | 2017-11-09 | 2017-11-09 | 一种智能配电网的多维数据质量评价方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108229784A true CN108229784A (zh) | 2018-06-29 |
Family
ID=62655715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711098869.4A Pending CN108229784A (zh) | 2017-11-09 | 2017-11-09 | 一种智能配电网的多维数据质量评价方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108229784A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977106A (zh) * | 2019-04-08 | 2019-07-05 | 福建省特种设备检验研究院 | 一种基于熵权法的压力容器结构化数据质量评估方法 |
CN110889642A (zh) * | 2019-12-04 | 2020-03-17 | 中国直升机设计研究所 | 一种直升机驾驶舱显示与告警信息优先级排序方法 |
CN111178670A (zh) * | 2019-11-29 | 2020-05-19 | 国网重庆市电力公司北碚供电分公司 | 基于反熵权法的短期低压配电网数据质量评价算法 |
CN111339215A (zh) * | 2019-05-31 | 2020-06-26 | 北京东方融信达软件技术有限公司 | 结构化数据集质量评价模型生成方法、评价方法及装置 |
CN111505445A (zh) * | 2020-05-25 | 2020-08-07 | 广州市奔流电力科技有限公司 | 台区相户关系的可信度检测方法、装置和计算机设备 |
CN111597510A (zh) * | 2020-05-20 | 2020-08-28 | 国网山东省电力公司电力科学研究院 | 一种输变电运检数据质量评估方法及系统 |
CN111626586A (zh) * | 2020-05-21 | 2020-09-04 | 广西电网有限责任公司 | 数据质量检测方法、装置、计算机设备和存储介质 |
CN111950918A (zh) * | 2020-08-19 | 2020-11-17 | 江苏电力交易中心有限公司 | 一种基于电力交易数据的市场风险评估方法 |
CN112633679A (zh) * | 2020-12-21 | 2021-04-09 | 贵州电网有限责任公司电力科学研究院 | 信息质量量化方法、装置、计算机设备和存储介质 |
CN113298337A (zh) * | 2020-10-19 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 一种质量评价方法和装置 |
CN113407517A (zh) * | 2020-11-27 | 2021-09-17 | 北京三维天地科技股份有限公司 | 一种基于多维分析技术的数据质量健康度分析方法及系统 |
CN113469571A (zh) * | 2021-07-22 | 2021-10-01 | 广东电网有限责任公司广州供电局 | 数据质量评价方法、装置、计算机设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976120A (zh) * | 2016-05-17 | 2016-09-28 | 全球能源互联网研究院 | 一种电力运营监控数据质量评估系统及方法 |
CN106447212A (zh) * | 2016-10-11 | 2017-02-22 | 广西电网有限责任公司电力科学研究院 | 一种基于ahp的智能电表软件质量评价方法 |
-
2017
- 2017-11-09 CN CN201711098869.4A patent/CN108229784A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976120A (zh) * | 2016-05-17 | 2016-09-28 | 全球能源互联网研究院 | 一种电力运营监控数据质量评估系统及方法 |
CN106447212A (zh) * | 2016-10-11 | 2017-02-22 | 广西电网有限责任公司电力科学研究院 | 一种基于ahp的智能电表软件质量评价方法 |
Non-Patent Citations (2)
Title |
---|
施莉娟;朱健;陈小鸿;张;: "基础交通数据质量评价研究", 交通信息与安全 * |
袁满;张磊;: "数据质量多属性加权评价算法", 齐齐哈尔大学学报(自然科学版) * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977106A (zh) * | 2019-04-08 | 2019-07-05 | 福建省特种设备检验研究院 | 一种基于熵权法的压力容器结构化数据质量评估方法 |
CN111339215A (zh) * | 2019-05-31 | 2020-06-26 | 北京东方融信达软件技术有限公司 | 结构化数据集质量评价模型生成方法、评价方法及装置 |
CN111178670A (zh) * | 2019-11-29 | 2020-05-19 | 国网重庆市电力公司北碚供电分公司 | 基于反熵权法的短期低压配电网数据质量评价算法 |
CN110889642A (zh) * | 2019-12-04 | 2020-03-17 | 中国直升机设计研究所 | 一种直升机驾驶舱显示与告警信息优先级排序方法 |
CN111597510A (zh) * | 2020-05-20 | 2020-08-28 | 国网山东省电力公司电力科学研究院 | 一种输变电运检数据质量评估方法及系统 |
CN111597510B (zh) * | 2020-05-20 | 2023-04-21 | 国网山东省电力公司电力科学研究院 | 一种输变电运检数据质量评估方法及系统 |
CN111626586A (zh) * | 2020-05-21 | 2020-09-04 | 广西电网有限责任公司 | 数据质量检测方法、装置、计算机设备和存储介质 |
CN111626586B (zh) * | 2020-05-21 | 2023-10-31 | 广西电网有限责任公司 | 数据质量检测方法、装置、计算机设备和存储介质 |
CN111505445A (zh) * | 2020-05-25 | 2020-08-07 | 广州市奔流电力科技有限公司 | 台区相户关系的可信度检测方法、装置和计算机设备 |
CN111950918A (zh) * | 2020-08-19 | 2020-11-17 | 江苏电力交易中心有限公司 | 一种基于电力交易数据的市场风险评估方法 |
CN111950918B (zh) * | 2020-08-19 | 2024-04-12 | 江苏电力交易中心有限公司 | 一种基于电力交易数据的市场风险评估方法 |
CN113298337A (zh) * | 2020-10-19 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 一种质量评价方法和装置 |
CN113407517B (zh) * | 2020-11-27 | 2022-02-11 | 北京三维天地科技股份有限公司 | 一种基于多维分析技术的数据质量健康度分析方法及系统 |
CN113407517A (zh) * | 2020-11-27 | 2021-09-17 | 北京三维天地科技股份有限公司 | 一种基于多维分析技术的数据质量健康度分析方法及系统 |
CN112633679A (zh) * | 2020-12-21 | 2021-04-09 | 贵州电网有限责任公司电力科学研究院 | 信息质量量化方法、装置、计算机设备和存储介质 |
CN113469571A (zh) * | 2021-07-22 | 2021-10-01 | 广东电网有限责任公司广州供电局 | 数据质量评价方法、装置、计算机设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229784A (zh) | 一种智能配电网的多维数据质量评价方法及系统 | |
CN105117602B (zh) | 一种计量装置运行状态预警方法 | |
CN105046591A (zh) | 一种电力用户用电能效评估方法 | |
CN103337043B (zh) | 电力通信设备运行状态的预警方法和系统 | |
CN116681187B (zh) | 一种基于企业经营数据的企业碳配额预测方法 | |
CN107741578A (zh) | 一种用于智能电能表运行误差远程校准的原始抄表数据处理方法 | |
CN112785060A (zh) | 一种配电网精益化运维水平优化方法 | |
CN111552686A (zh) | 一种电力数据质量评估方法及其装置 | |
CN117040020A (zh) | 一种地区整体光伏新能源可消纳能力指数分布的求解方法 | |
CN113327052A (zh) | 一种基于能效提升的综合能源系统能效评估方法及系统 | |
CN111179576A (zh) | 一种具有归纳学习的用电信息采集故障诊断方法及系统 | |
CN103985062B (zh) | 一种配电网主设备状态检修综合评价方法 | |
CN117610994A (zh) | 一种电源健康度诊断方法 | |
CN116305741B (zh) | 一种用于电力设备数字孪生模型的更新方法及装置 | |
CN106953385A (zh) | 一种锂离子电池组均衡控制方法 | |
CN115616471A (zh) | 一种智能电能表故障在线预警系统及方法 | |
CN107633341A (zh) | 一种面向设备主人的变电站整站状态评估系统及方法 | |
CN113240010A (zh) | 一种支持非独立分布混合数据的异常检测方法及系统 | |
CN116187866B (zh) | 电网运行安全量化指标体系的评价方法 | |
CN118199252B (zh) | 一种基于多指标的配电网运行监控系统 | |
CN114429268A (zh) | 一种配电网可靠性在线评估方法和系统 | |
CN113850476A (zh) | 一种区域综合能源系统规划方案的仿真评估方法和系统 | |
Wang et al. | Research of Health Index Evaluation Method for Multi-energy station system Based on Heterogeneous Data Fusion | |
Hong et al. | Analysis of Distribution Network Reliability Factors Based on AHP-Improved Entropy Weight Method and Gray Correlation Degree | |
Qiao et al. | Reliability Evaluation of Instrument-control Power Distribution System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |