CN111325435A - 输变电设备数据质量评价方法及系统 - Google Patents
输变电设备数据质量评价方法及系统 Download PDFInfo
- Publication number
- CN111325435A CN111325435A CN201811543208.2A CN201811543208A CN111325435A CN 111325435 A CN111325435 A CN 111325435A CN 201811543208 A CN201811543208 A CN 201811543208A CN 111325435 A CN111325435 A CN 111325435A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- accuracy
- completeness
- consistency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 35
- 230000005540 biological transmission Effects 0.000 title claims abstract description 32
- 230000009466 transformation Effects 0.000 title claims abstract description 32
- 238000011156 evaluation Methods 0.000 claims abstract description 35
- 238000013139 quantization Methods 0.000 claims abstract description 6
- 238000011002 quantification Methods 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 9
- 238000013523 data management Methods 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 6
- 238000013479 data entry Methods 0.000 description 5
- 238000011157 data evaluation Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 238000003326 Quality management system Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000007789 gas Substances 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 1
- OTMSDBZUPAUEDD-UHFFFAOYSA-N Ethane Chemical compound CC OTMSDBZUPAUEDD-UHFFFAOYSA-N 0.000 description 1
- VGGSQFUCUMXWEO-UHFFFAOYSA-N Ethene Chemical compound C=C VGGSQFUCUMXWEO-UHFFFAOYSA-N 0.000 description 1
- 239000005977 Ethylene Substances 0.000 description 1
- HSFWRNGVRCDJHI-UHFFFAOYSA-N alpha-acetylene Natural products C#C HSFWRNGVRCDJHI-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 229910002091 carbon monoxide Inorganic materials 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 125000002534 ethynyl group Chemical group [H]C#C* 0.000 description 1
- 229930195733 hydrocarbon Natural products 0.000 description 1
- 150000002430 hydrocarbons Chemical class 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 125000004435 hydrogen atom Chemical class [H]* 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种输变电设备数据质量评价方法及系统,包括确定数据质量评价的指标,包括数据接入、准确性、完备性、一致性以及及时性;分别对所述数据接入指标、准确性指标、完备性指标、一致性指标以及及时性指标进行量化;根据各个指标量化后的数值以及各个指标的权重确定各个指标的质量评分,再根据各个指标的质量评分确定数据质量的整体评价。本发明有利于提升数据治理的准确性和实用性。
Description
技术领域
本发明涉及输变电设备运行的技术领域,尤其是指一种输变电设备数据质量评价方法及系统。
背景技术
随着信息技术应用的不断普及,信息系统中数据质量问题受到越来越多的关注,特别是统计、管理和计算机等领域。数据质量问题的研究,在统计领域始于20世纪60年代末,管理领域始于20世纪80年代初,计算机领域始于20世纪90年代初。数据质量的研究主要包括数据质量定义和维度识别、数据产品制造过程、质量测量和评估、数据质量管理体系等方向。
在数据质量定义和维度识别方面,国外研究者认为,数据质量判断依赖于使用数据的个体,不同环境下不同人员使用的适合性不同。数据质量是相对的,不能独立于使用数据的消费者来评价数据质量。因此,识别数据质量维度成为了一个有价值的研究工作。数据质量维度是一组表达数据质量构成或者数据质量单一方面的质量属性。在特定的背景中识别数据质量维度是有价值的,识别出来的数据质量维度得到认同的程度,依赖于识别的方法和过程。
在数据产品制造过程方面,数据产品制造环境中有四种角色:数据提供者,数据生产者,数据消费者,数据管理者。Shankar G给出一种称为IP-MAP(Information ProductMap)的数据制造系统建模方法,IP-MAP包括8种组装块:源(原始输入数据)块、消费者(输出)块、数据质量块、加工块、数据存储块、决策块、业务边界块和信息系统边界块。采用自顶向下的设计方法得到的IP-MAP可以使数据管理者看见数据产品制造中的最重要环节,识别影响数据质量的关键环节,确认数据制造系统的瓶颈。IP-MAP不仅能帮助识别过程拥有者,还能帮助实现质量的源头控制,在数据制造过程的不同阶段用适当的质量维度进行产品质量测量。
在质量测量和评估方面,Bobrowski M提出一种在组织内部测量数据质量的方法。首先建立数据质量标准列表,标准分为直接评估标准和间接评估标准,直接评估标准的评估采用传统的软件测量方法,即问卷调查方式;而间接评估标准的分数由直接评估标准计算得到。Naumann F采用面向评估的方法对Web数据质量标准进行分类。根据影响数据质量的用户、数据源和查询过程这三个主要因素,将数据质量的22个质量维度分为主观标准、客观标准和过程标准。每个维度都有相应的评估方法。
在数据质量管理体系方面。韩国电子通信研究院的Ryu K S引入评估组织数据质量管理能力的数据质量管理成熟度模型,该模型与软件能力成熟度模型相似,分为4个等级:一级为初始数据管理级;二级为已定义数据管理级;三级为已管理数据管理级;四级为优化数据管理级。
国内电力信息化进程较晚,针对电力数据质量管理研究大约起始于21世纪初,早期主要侧重电网运行数据异常值的辨识与处理,以及数据抽取过程中简单的数据清洗规则建立,主要采用插值、拟合等数值分析手段对异常数据进行平滑处理。2006年以来,国家电网公司高度重视信息化系统建设,相继提出SG186、SG-ERP等建设规划,极大提高了国网公司的信息化程度,电力数据质量问题逐渐引起相关学者关注,电力数据质量研究范围逐步扩展到运检、营销、配网、售电、计量等领域,研究方法也从简单的数值分析延伸至数据挖掘、统计分析等计算机科学的方法。现有国内电力数据质量管理研究尚处于起步阶段,研究侧重对异常值的检测与处理,缺乏一套完善的理论体系与实践方法,导致数据评价的准确性低、实用性差。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中数据评价的准确性低、实用性差的问题,从而提供一种数据评价的准确性及实用性高的输变电设备数据质量评价方法及系统。
为解决上述技术问题,本发明的一种输变电设备数据质量评价方法,包括如下步骤:确定数据质量评价的指标,包括数据接入、准确性、完备性、一致性以及及时性;分别对所述数据接入指标、准确性指标、完备性指标、一致性指标以及及时性指标进行量化;根据各个指标量化后的数值以及各个指标的权重确定各个指标的质量评分,再根据各个指标的质量评分确定数据质量的整体评价。
在本发明的一个实施例中,所述数据接入指标进行量化的方法为:分别对指标数据自动采集率以及指标历史数据接入率进行量化。
在本发明的一个实施例中,所述对指标数据自动采集率进行量化时,根据源业务系统自动接入的数据项的个数以及指标体系中应接入的数据项的个数确定;所述对指标历史数据接入率进行量化时,根据在规定时间内接入系统的数据值的个数以及在规定时间内应该接入系统的数据值的个数确定。
在本发明的一个实施例中,所述准确性指标进行量化的方法为:分别对数据句法准确性、数据语义准确性、数据准确性保证、元数据准确性、数据范围的准确性以及数据值的精度进行量化。
在本发明的一个实施例中,所述对数据句法准确性进行量化时,根据拥有句法准确性相关值的数据项的个数以及对句法准确性有要求的数据项的个数确定;所述对数据语义准确性进行量化时,根据语义准确的数据值的个数以及对语义准确性有要求的数据值的个数确定;所述对数据准确性保证进行量化时,根据已测量准确性的数据项的个数以及对测量准确性有要求的数据项的个数确定;所述对元数据准确性进行量化时,根据提供了合适的需求信息的元数据的个数以及在数据的需求规格说明中定义的元数据的个数确定;所述对数据范围的准确性进行量化时,根据值包含在指定区间中的数据项的个数以及能定义所要求的值区间的数据项的个数确定;所述对数据组的精度进行量化时,根据达到精度要求的数据值的个数以及定义了精度需求的数据值的个数确定。
在本发明的一个实施例中,所述完备性指标进行量化的方法为:分别对记录完备性、属性完备性、数据文件完备性、数据文件中的空记录以及元数据完备性进行量化。
在本发明的一个实施例中,所述对记录完备性进行量化时,根据一个记录中关联值非空的数据项的个数以及能测量完备性的记录的数据项的个数确定;所述对属性完备性进行量化时,根据对于一个特定的数据项关联值非空的记录的个数以及计数的记录的个数确定;所述对数据文件完备性进行量化时,根据包含在一个数据文件中的记录的个数以及预期记录的个数确定;所述对数据文件中的空记录进行量化时,根据全部数据项为空的记录的个数以及数据文件中的记录的个数确定;所述对元数据完备性进行量化时,根据数据字典中有完整元数据的属性的个数以及预期在数据字典中有元数据的属性的个数确定。
在本发明的一个实施例中,所述一致性指标进行量化的方法为:分别对引用完整性、数据格式一致性、数据不一致的风险、数据值一致性覆盖以及语义一致性进行量化。
在本发明的一个实施例中,所述对引用完整性进行量化时,根据值不一致的数据项的个数以及必须定义引用完整性的数据项的个数确定;所述对数据格式一致性进行量化时,根据在不同的数据文件中,数据项所有性质的格式是一致的数据项的个数以及可以定义格式一致性的数据项的个数;所述对数据不一致的风险进行量化时,根据值存在重复时的数据项的个数以及考虑的数据项的个数确定;所述对数据值一致性覆盖进行量化时,根据数据值受一致性控制的数据项的个数以及一致性测量的数据项的个数确定;所述对语义一致性进行量化时,根据数据文件中数据值是语义正确的数据项的个数以及定义了语义规则的数据项的个数确定。
本发明还提供了一种输变电设备数据质量评价系统,包括指标模块、量化模块,评分评价模块,其中所述指标模块用于确定数据质量评价的指标,包括数据接入、准确性、完备性、一致性以及及时性;所述量化模块分别对所述数据接入指标、准确性指标、完备性指标、一致性指标以及及时性指标进行量化;所述评分评价模块用于根据各个指标量化后的数值以及各个指标的权重确定各个指标的质量评分,再根据各个指标的质量评分确定数据质量的整体评价。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述的输变电设备数据质量评价方法及系统,从自然属性、业务属性、附加属性三种维度科学选取能够影响输变电设备状态数据质量的关键指标,通过对不同数据对象分析流程、表征指标、评估层次的分析构建设备数据质量评价指标体系,依据设备数据质量评价指标体系及量化方法建立数据质量评估模型,为数据质量控制提供方法指引和评价标准,提升数据治理的准确性和实用性。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明输变电设备数据质量评价方法的流程图。
具体实施方式
实施例一
如图1所示,本实施例提供一种输变电设备数据质量评价方法,包括如下步骤:步骤S1:确定数据质量评价的指标,包括数据接入、准确性、完备性、一致性以及及时性;步骤S2:分别对所述数据接入指标、准确性指标、完备性指标、一致性指标以及及时性指标进行量化;步骤S3:根据各个指标量化后的数值以及各个指标的权重确定各个指标的质量评分,再根据各个指标的质量评分确定数据质量的整体评价。
本实施例所述输变电设备数据质量评价方法,所述步骤S1中,确定数据质量评价的指标,包括数据接入、准确性、完备性、一致性以及及时性,其中数据接入情况要求数据在规定的时间内全部接入系统,主要从数据应接入数量、实际接入数量、指标历史数据等方面进行核查;准确性提供了数据在特定使用周境中具有正确地表示一个概念或事件的相关属性真实值的属性的程度;完备性提供了数据在特定的使用周境中与一个实体相关联的主题数据具有所有预期属性的值和相关的实例值的程度;一致性提供了数据在特定的使用周境中具有表征与其他数据无矛盾且是连贯的属性的程度;及时性提供了数据在特定的使用周境中具有表征其有正确寿命的属性的程度;上述指标能够影响输变电设备状态,从而有利于保证数据的正确和完整;所述步骤S2中,分别对所述数据接入指标、准确性指标、完备性指标、一致性指标以及及时性指标进行量化,从而有利于进行评估;所述步骤S3中,根据各个指标量化后的数值以及各个指标的权重确定各个指标的质量评分,再根据各个指标的质量评分确定数据质量的整体评价,本发明应用于网省电力公司,能够反映输变电设备数据质量情况,发现其中存在的数据质量问题,为后续数据治理指明了方向,为数据质量控制提供方法指引和评价标准,提升数据治理的准确性和实用性。
对所述数据接入指标进行量化的方法为:分别对指标数据自动采集率以及指标历史数据接入率进行量化。其中所述指标数据自动采集率是指实际由源业务系统自动接入的指标数据占指标体系中应接入指标总数的比例。所述对指标数据自动采集率进行量化时,根据源业务系统自动接入的数据项的个数A1以及指标体系中应接入的数据项的个数B1确定。具体地,根据源业务系统自动接入的数据项的个数A1除以指标体系中应接入的数据项的个数B1确定。所述指标历史数据接入率是指历史数据在规定的时间和频度周期内接入系统的比例,且其由月指标历史数据接入率、周指标历史数据接入率、日指标历史数据接入率构成。所述对指标历史数据接入率进行量化时,根据在规定时间内接入系统的数据值的个数A2以及在规定时间内应该接入系统的数据值的个数B2确定。具体地,根据在规定时间内接入系统的数据值的个数A2除以在规定时间内应该接入系统的数据值的个数B2确定。
所述准确性指标进行量化的方法为:分别对数据句法准确性、数据语义准确性、数据准确性保证、元数据准确性、数据范围的准确性以及数据值的精度进行量化。所述数据句法准确性是指数据值与域中已定义的一组值的接近率。当单个值与一个来自自己确认信息的标识源的值相同时,它被认为是“句法准确”的。词语Mary被保存为Marj是句法准确性低的示例。对所述数据句法准确性进行量化时,根据拥有句法准确性相关值的数据项的个数A1以及对句法准确性有要求的数据项的个数B1确定。具体地,根据拥有句法准确性相关值的数据项的个数A1除以对句法准确性有要求的数据项的个数B1确定。所述数据语义准确性是指就特定上下文中的语义而言,数据值准确程度的比率。其中当单个值的含义(内容)与事实一致时,它被认为是“语义”正确的;人名George被误认为John是语义准确性低的示例。对所述数据语义准确性进行量化时,根据语义准确的数据值的个数A2以及对语义准确性有要求的数据值的个数B2确定。具体地,根据语义准确的数据值的个数A2除以对语义准确性有要求的数据值的个数B2确定。所述数据准确性保证是指准确数据的测量覆盖率。对所述数据准确性保证进行量化时,根据已测量准确性的数据项的个数A3以及对测量准确性有要求的数据项的个数B3确定。具体地,根据已测量准确性的数据项的个数A3除以对测量准确性有要求的数据项的个数B3确定。所述元数据准确性是指元数据是否按照所需的准确性描述数据。对所述元数据准确性进行量化时,根据提供了合适的需求信息的元数据的个数A4以及在数据的需求规格说明中定义的元数据的个数B4确定。具体地,根据提供了合适的需求信息的元数据的个数A4除以在数据的需求规格说明中定义的元数据的个数B4确定。所述数据范围的准确性是指数据值是否包含在所要求的区间内。对所述数据范围的准确性进行量化时,根据值包含在指定区间中的数据项的个数A5以及能定义所要求的值区间的数据项的个数B5确定。具体地,根据值包含在指定区间中的数据项的个数A5除以能定义所要求的值区间的数据项的个数B5确定。所述数据组的精度是指根据规格说明,数据值的精确程度。对所述数据组的精度进行量化时,根据达到精度要求的数据值的个数A6以及定义了精度需求的数据值的个数B6确定。具体地,根据达到精度要求的数据值的个数A6除以定义了精度需求的数据值的个数B6确定。
所述完备性指标进行量化的方法为:分别对记录完备性、属性完备性、数据文件完备性、数据文件中的空记录以及元数据完备性进行量化。所述记录完备性是指一个数据文件中一个记录的数据项的完备性,用于计算不同记录集的平均完备性。对所述记录完备性进行量化时,根据一个记录中关联值非空的数据项的个数A1以及能测量完备性的记录的数据项的个数B1确定。具体地,根据一个记录中关联值非空的数据项的个数A1除以能测量完备性的记录的数据项的个数B1确定。所述属性完备性是指一个数据文件中的数据项的完备性。对所述属性完备性进行量化时,根据对于一个特定的数据项关联值非空的记录的个数A2以及计数的记录的个数B2确定。具体地,根据对于一个特定的数据项关联值非空的记录的个数A2除以计数的记录的个数B2确定。所述数据文件完备性是指一个数据文件中预期的记录的完备性。对所述数据文件完备性进行量化时,根据包含在一个数据文件中的记录的个数A3以及预期记录的个数B3确定。具体地,根据包含在一个数据文件中的记录的个数A3除以预期记录的个数B3确定。所述数据文件中的空记录是指数据文件中的记录的虚假完备性。对所述数据文件中的空记录进行量化时,根据全部数据项为空的记录的个数A4以及数据文件中的记录的个数B4确定。具体地,根据全部数据项为空的记录的个数A4除以数据文件中的记录的个数B4确定。所述元数据完备性是指元数据属性的完备性。对所述元数据完备性进行量化时,根据数据字典中有完整元数据的属性的个数A5以及预期在数据字典中有元数据的属性的个数B5确定。具体地,根据数据字典中有完整元数据的属性的个数A5除以预期在数据字典中有元数据的属性的个数B5确定。
所述一致性指标进行量化的方法为:分别对引用完整性、数据格式一致性、数据不一致的风险、数据值一致性覆盖以及语义一致性进行量化。所述引用完整性是指对于表中的一个属性的每个值,在另一个不同的表中存在相同属性的相同的值;即在不同表中表示的相同属性间存在链接,并且这些属性具有相同的值。对所述引用完整性进行量化时,根据值不一致的数据项的个数A1以及必须定义引用完整性的数据项的个数B1确定。具体地,先获得值不一致的数据项的个数A1除以必须定义引用完整性的数据项的个数B1的数值,再由数值1减去所得数值。所述数据格式一致性是指相同数据项的数据格式的一致性,示例:雇员的出生日期不得迟于他的“招聘日期”。对所述数据格式一致性进行量化时,根据在不同的数据文件中,数据项所有性质的格式是一致的数据项的个数A2以及可以定义格式一致性的数据项的个数B2。具体地,根据在不同的数据文件中,数据项所有性质的格式是一致的数据项的个数A2除以可以定义格式一致性的数据项的个数B2。所述数据不一致的风险是指由于数据值重复导致不一致性的风险。对所述数据不一致的风险进行量化时,根据值存在重复时的数据项的个数A3以及考虑的数据项的个数B3确定。具体地,根据值存在重复时的数据项的个数A3除以考虑的数据项的个数B3确定。所述数据值一致性覆盖是指数据值一致性测量的覆盖。对所述数据值一致性覆盖进行量化时,根据数据值受一致性控制的数据项的个数A4以及一致性测量的数据项的个数B4确定。具体地,根据数据值受一致性控制的数据项的个数A4除以一致性测量的数据项的个数B4确定。所述语义一致性是指语义规则被遵守的程度。对所述语义一致性进行量化时,根据数据文件中数据值是语义正确的数据项的个数A5以及定义了语义规则的数据项的个数B5确定。具体地,根据数据文件中数据值是语义正确的数据项的个数A5除以定义了语义规则的数据项的个数B5确定。
所述及时性指标进行量化的方法为:分别对更新频率、更新的及时性进行量化。所述更新频率是指数据项按所需频率被更新的程度。对所述更新频率进行量化时,根据按所需频率被更新的数据项的个数A1以及具有更新频率需求的数据项的个数B1确定。具体地,根据按所需频率被更新的数据项的个数A1除以具有更新频率需求的数据项的个数B1确定。所述更新的及时性是指数据项及时更新的程度。对所述更新的及时性进行量化时,根据及时更新的数据项的个数A2以及需要更新的数据项的个数B2确定。具体地,根据及时更新的数据项的个数A2除以需要更新的数据项的个数B2确定。
本实施例中,所述指标的选择需要遵守以下原则:从自然属性、业务属性、附加属性三种维度科学选取能够影响输变电设备状态数据质量的关键指标。具体地,首先,全面覆盖、重点突出。具体地,输变电设备大数据包括各源业务系统线上自动接入的系统数据和各业务部门以线下方式手工录入的各类数据;重点核查系统自动接入数据,并进行数据溯源、分析和数据评价,以逐步提高线上自动接入比例,减少线下手工录入数据。其次,统一规范、客观高效。具体地,制定统一规范的数据质量规则和评价工作流程,依托系统对数据质量进行在线监测,客观、真实、及时反映数据质量情况。接着,循序渐进、持续优化。具体地,根据输变电设备大数据接入实际情况,不断丰富数据质量核查规则,完善和提升评价标准,动态调整评价指标,持续优化评价体系。然后,实用性与可比性原则。具体地,输变电设备大数据质量评价指标设计要具有可行性、可操作性、实用性以及能够进行纵向比较和横向比较,指标要简化以及数据易于获取。最后,正确性和完整性原则。具体地,输变电大数据分析的数据源要尽可能的保证正确、完整,这样取得的数据做数据分析才有意义。输变电设备大数据质量评价指标体系见表1。
所述各个指标的权重表征数据质量评价指标项对特定业务场景的重要程度,每个数据质量评价指标项有且仅有一个特性权重,取值范围为[1,10]。且各个指标的权重可以通过专家评分、层次分析法、熵权法等方式确定。
下面选取某换流站某年三个月内的在线监测数据进行数据质量的评价。经过统计分析,数据情况如下:
(1)油色谱数据记录16236条,其中全部字段为空数据记录有36条,空数据项288项,值在规定范围外的数据项586项,噪点数据1158项(其中必填项和数据范围校验项字段为氢气、甲烷、乙烷、乙烯、乙炔、一氧化碳、二氧化碳、总烃)。
(2)微水数据记录50576条,其中全部为空数据记录168条,空数据项168项,值在规定范围外的数据项268项,噪点数据725项(其中必填项和数据范围校验项字段为水分)。
(3)铁芯接地电流数据记录33608条,其中全部为空试数据记录0条,空数据项0条,值在规定范围外的数据项5585项,噪点数据817项(其中必填项和数据范围校验项字段为铁芯全电流)。
(4)顶层油温数据记录23512条,其中全部为空记录588条,空数据项588项,值在规定范围外的数据项675项,噪点数据306项(其中必填项和数据范围校验项字段为顶层油温)。
(5)SF6气体压力数据记录671857条,且其中全部为空的记录1269条,空数据项671857项,值在规定范围外的数据项713137项,噪点数据项10523项(其中必填项字段为压力20℃,数据范围校验项字段为压力20℃和有数据的温度字段)。
数据质量评价指标项权重通过专家评分、层次分析法确定,本实例中各指标项的权重设定为1。根据评价指标量化方法对该换流站三个月内的在线监测数据的各项数据质量指标评价结果如表2所示。
综合以上指标结果,数据的最终质量评价结果为:由数据质量等级划分可知,评分59.34可以判定为不合格。由表1的“指标大类结果”可以得到准确性指标(47.07分)和完备性指标(40.75分)不合格,进一步细化指标项发现SF6气体压力的数据准确性、数据范围的准确性和记录完备性不合格,导致数据质量整体评分不合格。质量指标细项如表3所示。
计算结果表明,本方法选取能够影响输变电设备状态数据质量的关键指标,通过对不同数据对象分析流程、表征指标、评估层次的分析构建设备数据质量评价指标体系,综合运用层次分析法、熵权法等建立数据质量评估模型并出具数据质量评价报告,充分展示数据质量评价整体情况,逐层细化展示评价不合格的指标大类评分及其指标细项评分结果。
实施例二
本实施例提供一种输变电设备数据质量评价系统,包括指标模块、量化模块,评分评价模块,其中所述指标模块用于确定数据质量评价的指标,包括数据接入、准确性、完备性、一致性以及及时性;所述量化模块分别对所述数据接入指标、准确性指标、完备性指标、一致性指标以及及时性指标进行量化;所述评分评价模块用于根据各个指标量化后的数值以及各个指标的权重确定各个指标的质量评分,再根据各个指标的质量评分确定数据质量的整体评价,本发明能够反映输变电设备数据质量情况,发现其中存在的数据质量问题,为后续数据治理指明了方向,为数据质量控制提供方法指引和评价标准,提升数据治理的准确性和实用性。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种输变电设备数据质量评价方法,其特征在于,包括如下步骤:
步骤S1:确定数据质量评价的指标,包括数据接入、准确性、完备性、一致性以及及时性;
步骤S2:分别对所述数据接入指标、准确性指标、完备性指标、一致性指标以及及时性指标进行量化;
步骤S3:根据各个指标量化后的数值以及各个指标的权重确定各个指标的质量评分,再根据各个指标的质量评分确定数据质量的整体评价。
2.根据权利要求1所述输变电设备数据质量评价方法,其特征在于: 对所述数据接入指标进行量化的方法为:分别对指标数据自动采集率以及指标历史数据接入率进行量化。
3.根据权利要求2所述输变电设备数据质量评价方法,其特征在于:所述对指标数据自动采集率进行量化时,根据源业务系统自动接入的数据项的个数以及指标体系中应接入的数据项的个数确定;所述对指标历史数据接入率进行量化时,根据在规定时间内接入系统的数据值的个数以及在规定时间内应该接入系统的数据值的个数确定。
4.根据权利要求1所述输变电设备数据质量评价方法,其特征在于:所述准确性指标进行量化的方法为:分别对数据句法准确性、数据语义准确性、数据准确性保证、元数据准确性、数据范围的准确性以及数据值的精度进行量化。
5.根据权利要求4所述输变电设备数据质量评价方法,其特征在于:所述对数据句法准确性进行量化时,根据拥有句法准确性相关值的数据项的个数以及对句法准确性有要求的数据项的个数确定;所述对数据语义准确性进行量化时,根据语义准确的数据值的个数以及对语义准确性有要求的数据值的个数确定;所述对数据准确性保证进行量化时,根据已测量准确性的数据项的个数以及对测量准确性有要求的数据项的个数确定;所述对元数据准确性进行量化时,根据提供了合适的需求信息的元数据的个数以及在数据的需求规格说明中定义的元数据的个数确定;所述对数据范围的准确性进行量化时,根据值包含在指定区间中的数据项的个数以及能定义所要求的值区间的数据项的个数确定;所述对数据组的精度进行量化时,根据达到精度要求的数据值的个数以及定义了精度需求的数据值的个数确定。
6.根据权利要求1所述输变电设备数据质量评价方法,其特征在于:所述完备性指标进行量化的方法为:分别对记录完备性、属性完备性、数据文件完备性、数据文件中的空记录以及元数据完备性进行量化。
7.根据权利要求6所述输变电设备数据质量评价方法,其特征在于:所述对记录完备性进行量化时,根据一个记录中关联值非空的数据项的个数以及能测量完备性的记录的数据项的个数确定;所述对属性完备性进行量化时,根据对于一个特定的数据项关联值非空的记录的个数以及计数的记录的个数确定;所述对数据文件完备性进行量化时,根据包含在一个数据文件中的记录的个数以及预期记录的个数确定;所述对数据文件中的空记录进行量化时,根据全部数据项为空的记录的个数以及数据文件中的记录的个数确定;所述对元数据完备性进行量化时,根据数据字典中有完整元数据的属性的个数以及预期在数据字典中有元数据的属性的个数确定。
8.根据权利要求1所述输变电设备数据质量评价方法,其特征在于:所述一致性指标进行量化的方法为:分别对引用完整性、数据格式一致性、数据不一致的风险、数据值一致性覆盖以及语义一致性进行量化。
9.根据权利要求8所述输变电设备数据质量评价方法,其特征在于:所述对引用完整性进行量化时,根据值不一致的数据项的个数以及必须定义引用完整性的数据项的个数确定;所述对数据格式一致性进行量化时,根据在不同的数据文件中,数据项所有性质的格式是一致的数据项的个数以及可以定义格式一致性的数据项的个数;所述对数据不一致的风险进行量化时,根据值存在重复时的数据项的个数以及考虑的数据项的个数确定;所述对数据值一致性覆盖进行量化时,根据数据值受一致性控制的数据项的个数以及一致性测量的数据项的个数确定;所述对语义一致性进行量化时,根据数据文件中数据值是语义正确的数据项的个数以及定义了语义规则的数据项的个数确定。
10.一种输变电设备数据质量评价系统,其特征在于:包括指标模块、量化模块,评分评价模块,其中所述指标模块用于确定数据质量评价的指标,包括数据接入、准确性、完备性、一致性以及及时性;所述量化模块分别对所述数据接入指标、准确性指标、完备性指标、一致性指标以及及时性指标进行量化;所述评分评价模块用于根据各个指标量化后的数值以及各个指标的权重确定各个指标的质量评分,再根据各个指标的质量评分确定数据质量的整体评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811543208.2A CN111325435A (zh) | 2018-12-17 | 2018-12-17 | 输变电设备数据质量评价方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811543208.2A CN111325435A (zh) | 2018-12-17 | 2018-12-17 | 输变电设备数据质量评价方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111325435A true CN111325435A (zh) | 2020-06-23 |
Family
ID=71170847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811543208.2A Pending CN111325435A (zh) | 2018-12-17 | 2018-12-17 | 输变电设备数据质量评价方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325435A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308458A (zh) * | 2020-11-23 | 2021-02-02 | 广东电网有限责任公司计量中心 | 一种低压台区量测数据评价方法和系统 |
CN112365361A (zh) * | 2020-09-16 | 2021-02-12 | 贵州电网有限责任公司 | 一种基于规则库的电力计量数据质量体检方法 |
CN116340306A (zh) * | 2023-05-29 | 2023-06-27 | 深圳市城市交通规划设计研究中心股份有限公司 | 面向业务逻辑的数据质量评估方法、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127277A1 (en) * | 2013-11-06 | 2015-05-07 | Electric Power Research Institute, Inc. | System and method for assessing power transformers |
CN107491381A (zh) * | 2017-07-04 | 2017-12-19 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测系统 |
-
2018
- 2018-12-17 CN CN201811543208.2A patent/CN111325435A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127277A1 (en) * | 2013-11-06 | 2015-05-07 | Electric Power Research Institute, Inc. | System and method for assessing power transformers |
CN107491381A (zh) * | 2017-07-04 | 2017-12-19 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测系统 |
Non-Patent Citations (1)
Title |
---|
尹蕊 等: "大数据环境下的电力数据质量评价模型与治理体系研究" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365361A (zh) * | 2020-09-16 | 2021-02-12 | 贵州电网有限责任公司 | 一种基于规则库的电力计量数据质量体检方法 |
CN112308458A (zh) * | 2020-11-23 | 2021-02-02 | 广东电网有限责任公司计量中心 | 一种低压台区量测数据评价方法和系统 |
CN116340306A (zh) * | 2023-05-29 | 2023-06-27 | 深圳市城市交通规划设计研究中心股份有限公司 | 面向业务逻辑的数据质量评估方法、电子设备及存储介质 |
CN116340306B (zh) * | 2023-05-29 | 2023-10-20 | 深圳市城市交通规划设计研究中心股份有限公司 | 面向业务逻辑的数据质量评估方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Piatetsky-Shapiro et al. | The interestingness of deviations | |
CN105868373B (zh) | 电力业务信息系统关键数据处理方法及装置 | |
CN111325435A (zh) | 输变电设备数据质量评价方法及系统 | |
CN112199421A (zh) | 一种多源异构数据融合和量测数据多源互校验方法及系统 | |
CN113435759B (zh) | 一种基于深度学习的一次设备风险智能评估方法 | |
CN110866331A (zh) | 一种电力变压器家族质量缺陷的评估方法 | |
CN111651444A (zh) | 一种自适应时间序列数据预测方法 | |
CN111709668A (zh) | 基于数据挖掘技术的电网设备参数风险识别方法及装置 | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及系统 | |
CN113342784A (zh) | 一种电网主变设备风险评估的数据库设计方法 | |
CN111639850A (zh) | 多源异构数据的质量评估方法与系统 | |
CN115358522A (zh) | 一种企业在线监测系统和方法 | |
CN113920366A (zh) | 一种基于机器学习的综合加权主数据识别方法 | |
CN113642933A (zh) | 一种配电台区低电压诊断方法及装置 | |
CN109685330A (zh) | 一种期刊学术影响力的评估和预测方法 | |
CN110781959A (zh) | 基于birch算法和随机森林算法的电力客户分群方法 | |
CN111553550A (zh) | 一种针对用户行为分析的电力大数据数据质量的评估方法 | |
Man et al. | A noval data quality controlling and assessing model based on rules | |
CN115796665A (zh) | 一种绿色能源发电项目多指标碳效分级评估方法及装置 | |
Ping | An empirical study of collection assessment based on the quality–utility–value theory | |
Ji et al. | Data Quality Assessment for Electrical Equipment Condition Monitoring | |
Yun et al. | Line loss calculation of low-voltage districts based on improved K-Means | |
Li et al. | Analytic model and assessment framework for data quality evaluation in state grid | |
Yuan et al. | Issues of intelligent data acquisition and quality for manufacturing decision-support in an Industry 4.0 context | |
CN113378560B (zh) | 一种基于自然语言处理的试验报告智能诊断分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200623 |