具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种电力台账数据校验方法流程示意图,如图1所示,所述方法包括:
S100,获取源业务系统的第一台账数据、数据中心的第二台账数据、省侧电能主站原始表的第三台账数据、省侧电能主站上传表的第四台账数据和电能质量在线监测系统的第五台账数据;
具体的,所述源业务系统,是指电能质量在线监测系统数据来源的原始系统。
所述数据中心,是对中转台账数据进行存储的系统。
所述省侧电能主站原始表,是省侧电能质量在线监测系统主站对存储台账数据的表。
省侧电能主站上传表,是省侧电能质量在线监测系统主站对原始表台账数据进行转换后存储的表。
具体的,电力系统的台账数据包括:主网13类设施(避雷器、电流互感器、电压互感器、母线、架空线路、电缆线路、隔离开关、阻波器、组合电器、变压器、电抗器、耦合电容器、断路器)、公用配网配电变压器及柱上变压器、变电站、供电专用用户和供电电压监测点。
S200,基于所述第一台账数据、第二台账数据、第三台账数据、第四台账数据和第五台账数据,获取重复率校验数据、字段冗余率校验数据、丢失率校验数据、集成字段准确率校验数据、溯源关系前后环节的一致性校验数据、集成及时率校验数据和溯源关系前后环节推送数据的校验数据中的一种或多种。
具体的,本发明实施例可以获取上述校验数据中的任意一种或任意多种;对于上述每一种校验数据,可以根据所述第一台账数据、第二台账数据、第三台账数据、第四台账数据和第五台账数据中的一种或多种数据进行计算得到。
具体的,所述重复率校验数据是指:当前集成环节业务主键重复数据/当前集成环节数据总量。
所述字段冗余率校验数据是指:电能质量在线监测系统某台账需要字段/当前类型台账字段总量。
所述丢失率校验数据是指:(下一环节数据总量-当前环节的数据总量)/当前环节的数据总量。其中总量为去除业务主键重复的数量。
所述集成字段准确率校验数据是指:某类型台账长度及格式符合要求的字段/当前类型台账字段总量。
所述溯源关系前后环节的一致性校验数据是指:相邻环节关键字段(如投运日期)一致的数据总量/相邻环节能匹配的数据总量。
所述集成及时率校验数据是指:各环节数据及时集成的数量/当前环节的数据总量。
所述溯源关系前后环节推送数据的校验数据是指:当前环节推送到下一环节的数据总量/当前环节的数据总量。
需要说明的是,溯源关系是指基于源业务系统与数据中心、数据中心与省侧电能主站原始表、省侧电能主站原始表与省侧电能主站上传表、省侧电能主站上传表与总部电能质量在线监测系统之间数据的溯源对比,针对评价指标评价数据质量问题。
具体的,所述源业务系统包括PMS系统、用电信息采集系统、供电电压自动采集系统;
所述评价对象包括:
所述源业务系统、数据中心、省侧电能主站原始表、省侧电能主站上传表及电能质量在线监测系统所监测的电力设施、供电公用用户、供电专用用户和供电电压监测点。
所述电力设施以下多种:
避雷器、电流互感器、电压互感器、母线、架空线路、电缆线路、隔离开关、阻波器、组合电器、变压器、电抗器、耦合电容器、断路器、公用配网配电变压器、柱上变压器及变电站。
本发明实施例基于源业务系统与数据中心、数据中心与省侧电能主站原始表、省侧电能主站原始表与省侧电能主站上传表、省侧电能主站上传表与总部电能质量在线监测系统台账数据的溯源关系,通过溯源关系数据对比,进行数据的冗余性、完整性、准确性、一致性、及时性、智能性的评估,从而实现了针对不同数据源、不同数据类型的基础数据的规范化处理的功能,为电网提供了科学、可靠的统计结果,大大提高了电网数据质量管理的效率和自动集成化比例。
下面分别具体描述各种校验数据的具体实现方法,各种校验数据均是对评价对象的校验数据,评价对象包括上述的电力设施、供电公用用户、供电专用用户和供电电压监测点,此后不再赘述。
(一)重复率校验数据
具体的,所述重复率校验数据通过以下方法获取:
分别统计所述第一台账数据、第二台账数据、第三台账数据、第四台账数据和第五台账数据中评价对象的业务主健重复数据的数据量和数据总量;
分别计算所述第一台账数据、第二台账数据、第三台账数据、第四台账数据和第五台账数据中业务主健重复数据的数据量和数据总量的比例,分别获取所述源业务系统、数据中心、省侧电能主站原始表、省侧电能主站上传表及电能质量在线监测系统的重复率校验数据。
本实施例统计五种系统的台账数据,即源业务系统、数据中心、省侧电能主站原始表、省侧电能主站上传表及电能质量在线监测系统的台账数据的数据总量和业务主健重复数据的数据量,对于各个环节,分别根据下式计算比例:业务主健重复数据的数据量/数据总量,该比例即为重复率校验数据,从而得到各系统的重复率校验数据。
(二)字段冗余率校验数据
具体的,所述字段冗余率校验数据通过以下方法获取:
分别统计所述第三台账数据、第四台账数据和第五台账数据中评价对象的字段总量与第五台账数据中评价对象所需要的字段数量;
计算第五台账数据中评价对象的所需要的字段数量与所述第三台账数据、第四台账数据和第五台账数据中分评价对象的字段总量的比例,获取字段冗余率校验数据。
本实施例分别统计省侧电能主站原始表、省侧电能主站上传表及电能质量在线监测系统的台账数据中实际的字段总量,计算:电能质量在线监测系统中评价对象所需要的字段数量/实际的字段总量,得到冗余率比例,即获得字段冗余率校验数据。
需要说明的是,实际的字段总量是指统计省侧电能主站原始表、省侧电能主站上传表及电能质量在线监测系统的台账数据中实际的字段数量之和。
需要说明的是,数据从省侧电能主站原始表转换到省侧电能主站上传表的过程中需要根据转换规则进行转换,因此可以采用参考转换规则,及中文字段与英文字段相结合匹配、通过人工一一对比等方式来统计当前系统字段符合总部业务所需要的字段的数量。
以上重复率校验数据和字段冗余率校验数据都属于冗余性维度的校验数据。
(三)丢失率校验数据
具体的,所述丢失率校验数据通过以下方法获取:
分别统计所述第一台账数据、第二台账数据、第三台账数据、第四台账数据和第五台账数据中评价对象的去除业务主健重复的数据量;
基于所述源业务系统、数据中心、省侧电能主站原始表、省侧电能主站上传表及电能质量在线监测系统的溯源关系,根据下一环节的数据量与当前环节的数据量,计算数据丢失的比例,获取溯源关系前后环节的丢失率校验数据;
本实施例分别统计源业务系统、数据中心、省侧电能主站原始表、省侧电能主站上传表及电能质量在线监测系统中评价对象的业务主健非重复的数据总量,基于溯源关系,即源业务系统与数据中心、数据中心与省侧电能主站原始表、省侧电能主站原始表与省侧电能主站上传表、省侧电能主站上传表与总部电能质量在线监测系统台账数据的溯源关系,根据下式计算:(下一环节数据总量-当前环节的数据总量)/当前环节的数据总量,获得丢失率比例。
例如,对于源业务系统与数据中心,上式中,下一环节数据总量为数据中心的业务主健非重复的数据总量,当前环节为源业务系统的数据总量,代入上式,可以得到源业务系统的丢失率比例。
以此类推,可以得到溯源关系中各个环节的丢失率比例,从而获得丢失率校验数据。本实施例属于完整性维度的校验数据。
(四)集成字段准确率校验数据
具体的,所述集成字段准确率校验数据通过以下方法获取:
分别统计所述第三台账数据和第四台账数据中评价对象的目标字段的格式准确数量与目标字段的数据总量;
计算目标字段的格式准确数量与目标字段的数据总量的比例,获取准确率校验数据。
本实施例分别统计省侧电能主站原始表及省侧电能主站上传表中包括电力设施、供电公用用户、供电专用用户、供电电压监测点、变电站设备的字段总量,字段不准确(包括字段长度不规范、字段格式不规范等)数量总量,对于各个环节,分别计算比例:目标字段的格式((长度及格式符合要求)准确数量/目标字段的数据总量,得到集成字段准确率校验数据。本实施例属于准确性维度的校验数据。
(五)溯源关系前后环节的一致性校验数据
具体的,所述溯源关系前后环节的一致性校验数据通过以下方法获取:
基于所述第二台账数据、第三台账数据、第四台账数据和第五台账数据的溯源关系,分别根据溯源关系前后的两个台账数据中评价对象的业务主健进行匹配,获得所有匹配成功的评价对象的数据量;
基于溯源关系前后的两个台账数据和所有匹配成功的评价对象的数据量,判断所述评价对象的关键字段是否一致,获得评价对象中关键字段一致的总数;
基于溯源关系前后的两个台账数据,计算溯源关系前后的两个台账数据所述关键字段一致的总数与所有匹配成功的评价对象的数据量的比例,获取溯源关系前后环节的一致性评价数据。
本实施例一致性校验包括三个步骤,第一步,进行评价对象匹配,具体是通过评价对象的业务主健进行匹配,业务主健相同的即判断为匹配成功;第二步,对于匹配成功的评价对象,进行关键字段比对,关键字段相同即为一致;第三步,计算比例,关键字段一致的总数/所有匹配成功的评价对象的数据量,得到比例,即获得一致性校验数据。本实施例属于一致性维度的校验数据
以上步骤都是基于溯源关系相邻的前后环节的两个台账数据进行计算,具体溯源关系见前述,此处不再赘述。
(六)集成及时率校验数据
具体的,所述集成及时率校验数据通过以下方法获取:
分别统计所述第二台账数据、第三台账数据、第四台账数据中评价对象的自动集成数据量以及台账总数据量;
计算所述自动集成数据量与台账总数据量的比例,获取集成及时率校验数据。
本实施例主要针对数据中心、省侧电能主站原始表、省侧电能主站上传表的台账数据中自动集成的数据量及台账总数据量进行校验,对于各个环节,分别计算比例:自动集成数据量/台账总数据量,得到集成及时率校验数据。本实施例属于及时性维度的校验数据
(七)溯源关系前后环节推送数据的校验数据
具体的,所述溯源关系前后环节推送数据的校验数据通过以下方法获取:
基于所述第二台账数据、第三台账数据、第四台账数据和第五台账数据的溯源关系,分别统计所述第一台账数据、第二台账数据、第三台账数据、第四台账数据和第五台账数据中评价对象的数据总量及溯源关系前后环节能够匹配的推送数据;
计算溯源关系前后环节能够匹配的推送数据和溯源关系前后环节其中一环节中评价对象的数据总量的比例,获取智能性校验数据。
本实施例中,由于溯源关系前后环节的数据是依次推送的,即源业务系统与数据中心、数据中心与省侧电能主站原始表、省侧电能主站原始表与省侧电能主站上传表、省侧电能主站上传表与总部电能质量在线监测系统台账数据是依次推送的,因此推送数据的校验数据是针对溯源关系前后环节。具体的,计算前后环节的推送数据比例:当前环节推送到下一环节的数据总量/当前环节的数据总量,得到推送数据比例,即溯源关系前后环节推送数据的校验数据。本实施例属于智能性维度的校验数据。
需要说明的是,所述当前环节推送到下一环节的数据总量,是指当前环节推送到下一环节的、能够与当前环节评价对象匹配上的数据总量。
例如,对于源业务系统与数据中心,当前环节指源业务系统,下一环节指数据中心,根据数据中心与源业务系统能够匹配的平均对象数据量,与源业务系统的数据总量,计算:数据中心与源业务系统能够匹配的平均对象数据量/源业务系统的数据总量,得到源业务系统与数据中心的推送数据的校验数据。
综上所述,本发明实施例为了解决现有技术中存在的问题,如:电网数据质量管理缺乏有效的模型管理机制和管理方法,无法实现对电网数据科学有效的维护管理、在线监测及自动化预测,不利于实现数据的自动化集成与融合,不利于实现供电可靠性精细化管理等,提供一种电力台账数据校验方法,通过基于源业务系统(PMS系统、用电信息采集系统、供电电压自动采集系统)与数据中心、数据中心与省侧电能主站原始表、省侧电能主站原始表与省侧电能主站上传表、省侧电能主站上传表与总部电能质量在线监测系统台账数据的溯源关系的数据对比,评价数据的冗余性、完整性、准确性、一致性、及时性、智能性,评估数据质量问题,从而实现了针对不同数据源、不同数据类型的基础数据的规范化处理、标准化传输和统一性存储的数据集成功能。
本发明实施例构建了一种电力数据质量评价体系,包括:
(1)基于溯源关系,确定评价所需的相关系统:源业务系统(PMS系统、用电信息采集系统、供电电压自动采集系统)、数据中心、省侧电能主站原始表及上传表、电能质量在线监测系统。
(2)基于溯源关系,确定评价对象:包括主网13类设施、变电站设备、公用配电变压器、营销专用用户、供电电压监测点数据。
(3)基于溯源关系,确定评价维度:冗余性维度、完整性维度、准确性维度、及时性维度、智能性维度、一致性维度。
(4)基于溯源关系,确定每个维度对应的评价指标:重复率、字段冗余率、丢失率、准确率、一致率、及时性、数据推送率、数据采集比例、转换成功率、正式入库比例。
本发明实施例实现了针对不同数据源、不同数据类型的基础数据的规范化处理的功能,为电网提供了科学、可靠的统计结果,大大提高了电网数据质量管理的效率和自动集成化比例。
本发明实施例还提供一种电力台账数据校验装置,包括:
数据获取模块,用于获取源业务系统的第一台账数据、数据中心的第二台账数据、省侧电能主站原始表的第三台账数据、省侧电能主站上传表的第四台账数据和电能质量在线监测系统的第五台账数据;
数据校验模块,用于基于所述第一台账数据、第二台账数据、第三台账数据、第四台账数据和第五台账数据,获取重复率校验数据、字段冗余率校验数据、丢失率校验数据、集成字段准确率校验数据、溯源关系前后环节的一致性校验数据、集成及时率校验数据和溯源关系前后环节推送数据的校验数据中的一种或多种。
本发明实施例的装置,可用于执行图1所示的一种电力台账数据校验方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图2为本发明实施例一种电力台账数据校验设备的框架示意图。请参考图2,本发明实施例提供一种电力台账数据校验设备,包括:处理器(processor)210、通信接口(Communications Interface)220、存储器(memory)230和总线240,其中,处理器210,通信接口220,存储器230通过总线240完成相互间的通信。处理器210可以调用存储器230中的逻辑指令,以执行如下方法,包括:获取源业务系统的第一台账数据、数据中心的第二台账数据、省侧电能主站原始表的第三台账数据、省侧电能主站上传表的第四台账数据和电能质量在线监测系统的第五台账数据;基于所述第一台账数据、第二台账数据、第三台账数据、第四台账数据和第五台账数据,获取重复率校验数据、字段冗余率校验数据、丢失率校验数据、集成字段准确率校验数据、溯源关系前后环节的一致性校验数据、集成及时率校验数据和溯源关系前后环节推送数据的校验数据中的一种或多种。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取源业务系统的第一台账数据、数据中心的第二台账数据、省侧电能主站原始表的第三台账数据、省侧电能主站上传表的第四台账数据和电能质量在线监测系统的第五台账数据;基于所述第一台账数据、第二台账数据、第三台账数据、第四台账数据和第五台账数据,获取重复率校验数据、字段冗余率校验数据、丢失率校验数据、集成字段准确率校验数据、溯源关系前后环节的一致性校验数据、集成及时率校验数据和溯源关系前后环节推送数据的校验数据中的一种或多种。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取源业务系统的第一台账数据、数据中心的第二台账数据、省侧电能主站原始表的第三台账数据、省侧电能主站上传表的第四台账数据和电能质量在线监测系统的第五台账数据;基于所述第一台账数据、第二台账数据、第三台账数据、第四台账数据和第五台账数据,获取重复率校验数据、字段冗余率校验数据、丢失率校验数据、集成字段准确率校验数据、溯源关系前后环节的一致性校验数据、集成及时率校验数据和溯源关系前后环节推送数据的校验数据中的一种或多种。
本领域普通技术人员可以理解:实现上述设备实施例或方法实施例仅仅是示意性的,其中所述处理器和所述存储器可以是物理上分离的部件也可以不是物理上分离的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如U盘、移动硬盘、ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。