CN109144990A - 一种基于元数据驱动的电力通信大数据质量管理方法 - Google Patents
一种基于元数据驱动的电力通信大数据质量管理方法 Download PDFInfo
- Publication number
- CN109144990A CN109144990A CN201811022480.6A CN201811022480A CN109144990A CN 109144990 A CN109144990 A CN 109144990A CN 201811022480 A CN201811022480 A CN 201811022480A CN 109144990 A CN109144990 A CN 109144990A
- Authority
- CN
- China
- Prior art keywords
- data
- metadata
- database
- accessed
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于元数据驱动的电力通信大数据质量管理方法,包括S1、设定标准元数据模型;S2、基于标准元数据模型设定数据评价模型;S3、构建数据系统,数据系统包括采样数据库、评价数据库、日志数据库、记录数据库和查询接口;S4、在每个数据采样点依据标准元数据模型进行数据采样,得到待接入数据,持久化数据录入采样数据库中;S5、根据数据评价模型对待接入数据进行评价;S6、根据S5的评价结果生成评价数据和日志数据,将评价数据录入评价数据库,将日志数据录入日志数据库。本发明通过元数据在各个数据产生采集过程中的驱动能力,实现对数据在生产过程中的质量检测,以实现对数据质量的控制。
Description
技术领域
本发明涉及电力大数据管理技术领域,具体的说是一种基于元数据驱动的电力通信大数据质量管理方法。
背景技术
当前,大数据在电力通信领域得到了广泛应用,对电力通信网络管理活动产生了巨大影响。但是由电力通信管理数据的大量更新会导致过时数据迅速产生,也更易于产生不一致数据,为人工错误检测与修复带来困难。且电力通信大数据来源和形式上的多样,使得数据有更大的可能产生不一致和冲突。例如,在不同单位、不同系统获取到的描述同一事务的数据有较大差异,存在冲突。电力通信管理大数据存在数据质量问题会带来管理工作带来严重的后果,因此需要对电力通信大数据进行质量管理,从而确保基于电力通信大数据的各种应用得到有效实施。
目前,对大数据的质量管理主要体现在四个方面:首先是数据的及时性。保证数据的及时性需要在数据提取、传送、转换、加载、展现的过程中予以贯彻。其次数据的完整性。保障数据是一套能够自洽的指标体系,包含数据分析所需的所有维度的信息,并且信息之间存在清晰的逻辑校验关系。再次是数据的一致性,和前两个角度相比,一致性更强调了一种空间感,由于数据来自于不同的数据源或者说经过传递了很多环节,这些环节之间相关的数据定义、数据的值、数据的数量都应该是保持一致的。最后是数据的准确性,数据中记录的信息和数据是否准确,是否存在异常或者错误的信息。导致一致性问题的原因可能是数据记录的规则不一,但不一定存在错误;而准确性关注的是数据记录中存在的错误。
发明内容
为了解决现有技术中的不足,本发明提供一种基于元数据驱动的电力通信大数据质量管理方法,通过元数据在各个数据产生采集过程中的驱动能力,实现对数据在生产过程中的质量检测,以实现对数据质量的控制。
为了实现上述目的,本发明采用的具体方案为:
一种基于元数据驱动的电力通信大数据质量管理方法,包括如下步骤:
S1、设定标准元数据模型;
S2、基于所述标准元数据模型设定数据评价模型;
S3、构建数据系统,所述数据系统包括采样数据库、评价数据库、日志数据库、记录数据库和查询接口,所述查询接口与所述采样数据库、所述评价数据库、所述日志数据库和所述记录数据库均保持链接,所述采样数据库、所述评价数据库和所述日志数据库依次链接,所述采样数据库与所述记录数据库保持链接;
S4、在每个数据采样点依据所述标准元数据模型进行数据采样,得到待接入数据,所述持久化数据录入所述采样数据库中;
S5、根据所述数据评价模型对所述待接入数据进行评价,根据评价结果执行S51或者S52;
S51、对通过评价的所述待接入数据进行处理得到持久化数据,并且将所述持久化数据录入所述记录数据库;
S52、对未通过评价的所述待接入数据进行标识,得到待修正数据,并且将所述待修正数据通过所述查询接口输出;
S6、根据S5的评价结果生成评价数据和日志数据,将所述评价数据录入所述评价数据库,将所述日志数据录入所述日志数据库。
优选的,所述标准元数据模型包括技术元数据模型、业务元数据模型和管理元数据模型,所述技术元数据模型、所述业务元数据模型和所述管理元数据模型均包括字段信息子模型和时间信息子模型。
优选的,所述数据评价模型包括元数据完整性评价子模型、元数据一致性评价子模型、元数据准确性评价子模型和元数据及时性评价子模型,所述数据完整性评价子模型用于评价所述待接入数据是否符合所述字段信息子模型,所述元数据一致性评价子模型用于评价前后多个所述待接入数据是否具有统一性,所述元数据准确性评价子模型用于评价所述待接入数据是否存在异常,所述元数据及时性评价子模型用于评价所述待接入数据的录入时间是否正确。
优选的,S51中,对所述待接入数据的处理过程包括:
S511、对所述待接入数据进行格式转换,得到转换后数据;
优选的,S512、对所述转换后数据进行清洗,生成所述持久化数据。
优选的,S511中,对所述待接入数据进行格式转换的方法为:将所述待接入数据转换为计算机数据。
优选的,S512中,对所述转换后数据进行清洗的方法为:对所述转换后数据进行压缩。
优选的,所述评价数据包括依次关联的数据采集点信息、待接入数据信息、评价结果信息和备注信息,所述备注信息用于表征所述待接入数据未通过评价的原因。
优选的,所述备注信息包括信息问题特征码、技术问题特征码、流程问题特征码和管理问题特征码。
优选的,所述日志数据包括依次关联的数据采集点信息、待接入数据信息和评价结果信息。
优选的,所述查询接口包括被动接口和主动接口。
本发明通过元数据在各个数据产生采集过程中的驱动能力,实现对数据在生产过程中的质量检测,并且把各个数据产生过程中的检查结果关联在一起,以实现对数据质量的控制,最终实现数据质量的可分析和可追溯,并且具有报警能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1是本发明的流程图。
一种基于元数据驱动的电力通信大数据质量管理方法,包括S1至S6。
S1、设定标准元数据模型。标准元数据模型包括技术元数据模型、业务元数据模型和管理元数据模型,技术元数据模型、业务元数据模型和管理元数据模型均包括字段信息子模型和时间信息子模型。
技术元数据模型,设定关于数据系统技术细节的数据,适用于开发和管理数据而使用的数据,主要包括数据仓库结构的描述,包括对数据结构、数据处理过程的特征描述,存储方式和位置覆盖整个涉及数据的生产和消费环节;业务元数据模型,从业务角度描述了数据仓库中的数据,提供了业务使用者和实际系统之间的语义层,主要包括业务术语、指标定义、业务规则等信息;管理元数据模型,描述系统中管理领域相关概念、关系和规则的数据,主要包括人员角色、岗位职责、管理流程等信息。
通过设定良好的标准元数据模型,能为数据质量的采集、分析、监控、改进提供高效、有力的强大保障。同时,良好的数据质量管理系统也能促进元数据管理系统的持续改进,互相促进完善,共同为一个高质量和高效运转的数据平台提供支持。
S2、基于标准元数据模型设定数据评价模型。数据评价模型包括元数据完整性评价子模型、元数据一致性评价子模型、元数据准确性评价子模型和元数据及时性评价子模型,数据完整性评价子模型用于评价待接入数据是否符合字段信息子模型,主要包括数据的记录和信息是否完整,是否存在缺失情况;元数据一致性评价子模型用于评价前后多个待接入数据是否具有统一性;元数据准确性评价子模型用于评价待接入数据是否存在异常;元数据及时性评价子模型用于评价待接入数据的录入时间是否正确。
S3、构建数据系统,数据系统包括采样数据库、评价数据库、日志数据库、记录数据库和查询接口,查询接口与采样数据库、评价数据库、日志数据库和记录数据库均保持链接,采样数据库、评价数据库和日志数据库依次链接,采样数据库与记录数据库保持链接。
S4、在每个数据采样点依据标准元数据模型进行数据采样,得到待接入数据,持久化数据录入采样数据库中。
S5、根据数据评价模型对待接入数据进行评价,根据评价结果执行S51或者S52。
S51、对通过评价的待接入数据进行处理得到持久化数据,并且将持久化数据录入记录数据库。对待接入数据的处理过程包括S511和S512.
S511、对待接入数据进行格式转换,得到转换后数据,对待接入数据进行格式转换的方法为:将待接入数据转换为计算机数据。
S512、对转换后数据进行清洗,生成持久化数据,对转换后数据进行清洗的方法为:对转换后数据进行压缩。
S52、对未通过评价的待接入数据进行标识,得到待修正数据,并且将待修正数据通过查询接口输出。
S6、根据S5的评价结果生成评价数据和日志数据,将评价数据录入评价数据库,将日志数据录入日志数据库。评价数据包括依次关联的数据采集点信息、待接入数据信息、评价结果信息和备注信息,备注信息用于表征待接入数据未通过评价的原因。备注信息包括信息问题特征码、技术问题特征码、流程问题特征码和管理问题特征码。日志数据包括依次关联的数据采集点信息、待接入数据信息和评价结果信息。
此外,查询接口包括被动接口和主动接口,被动查询接口主要用于被动相应工作人员的查询请求,主动接口用于主动向工作人员进行提示,例如可以通过主动接口通信连接报警装置,当评价结果显示待接入数据质量存在严重问题的时候向相关人员发出警告。
本发明通过元数据在各个数据产生采集过程中的驱动能力,实现对数据在生产过程中的质量检测,并且把各个数据产生过程中的检查结果关联在一起,以实现对数据质量的控制,最终实现数据质量的可分析和可追溯,并且具有报警能力。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于元数据驱动的电力通信大数据质量管理方法,其特征在于:包括如下步骤:
S1、设定标准元数据模型;
S2、基于所述标准元数据模型设定数据评价模型;
S3、构建数据系统,所述数据系统包括采样数据库、评价数据库、日志数据库、记录数据库和查询接口,所述查询接口与所述采样数据库、所述评价数据库、所述日志数据库和所述记录数据库均保持链接,所述采样数据库、所述评价数据库和所述日志数据库依次链接,所述采样数据库与所述记录数据库保持链接;
S4、在每个数据采样点依据所述标准元数据模型进行数据采样,得到待接入数据,所述持久化数据录入所述采样数据库中;
S5、根据所述数据评价模型对所述待接入数据进行评价,根据评价结果执行S51或者S52;
S51、对通过评价的所述待接入数据进行处理得到持久化数据,并且将所述持久化数据录入所述记录数据库;
S52、对未通过评价的所述待接入数据进行标识,得到待修正数据,并且将所述待修正数据通过所述查询接口输出;
S6、根据S5的评价结果生成评价数据和日志数据,将所述评价数据录入所述评价数据库,将所述日志数据录入所述日志数据库。
2.如权利要求1所述的一种基于元数据驱动的电力通信大数据质量管理方法,其特征在于:所述标准元数据模型包括技术元数据模型、业务元数据模型和管理元数据模型,所述技术元数据模型、所述业务元数据模型和所述管理元数据模型均包括字段信息子模型和时间信息子模型。
3.如权利要求2所述的一种基于元数据驱动的电力通信大数据质量管理方法,其特征在于:所述数据评价模型包括元数据完整性评价子模型、元数据一致性评价子模型、元数据准确性评价子模型和元数据及时性评价子模型,所述数据完整性评价子模型用于评价所述待接入数据是否符合所述字段信息子模型,所述元数据一致性评价子模型用于评价前后多个所述待接入数据是否具有统一性,所述元数据准确性评价子模型用于评价所述待接入数据是否存在异常,所述元数据及时性评价子模型用于评价所述待接入数据的录入时间是否正确。
4.如权利要求1所述的一种基于元数据驱动的电力通信大数据质量管理方法,其特征在于:S51中,对所述待接入数据的处理过程包括:
S511、对所述待接入数据进行格式转换,得到转换后数据;
S512、对所述转换后数据进行清洗,生成所述持久化数据。
5.如权利要求4所述的一种基于元数据驱动的电力通信大数据质量管理方法,其特征在于:S511中,对所述待接入数据进行格式转换的方法为:将所述待接入数据转换为计算机数据。
6.如权利要求5所述的一种基于元数据驱动的电力通信大数据质量管理方法,其特征在于:S512中,对所述转换后数据进行清洗的方法为:对所述转换后数据进行压缩。
7.如权利要求1所述的一种基于元数据驱动的电力通信大数据质量管理方法,其特征在于:所述评价数据包括依次关联的数据采集点信息、待接入数据信息、评价结果信息和备注信息,所述备注信息用于表征所述待接入数据未通过评价的原因。
8.如权利要求7所述的一种基于元数据驱动的电力通信大数据质量管理方法,其特征在于:所述备注信息包括信息问题特征码、技术问题特征码、流程问题特征码和管理问题特征码。
9.如权利要求7所述的一种基于元数据驱动的电力通信大数据质量管理方法,其特征在于:所述日志数据包括依次关联的数据采集点信息、待接入数据信息和评价结果信息。
10.如权利要求1所述的一种基于元数据驱动的电力通信大数据质量管理方法,其特征在于:所述查询接口包括被动接口和主动接口。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811022480.6A CN109144990A (zh) | 2018-09-03 | 2018-09-03 | 一种基于元数据驱动的电力通信大数据质量管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811022480.6A CN109144990A (zh) | 2018-09-03 | 2018-09-03 | 一种基于元数据驱动的电力通信大数据质量管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109144990A true CN109144990A (zh) | 2019-01-04 |
Family
ID=64826381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811022480.6A Pending CN109144990A (zh) | 2018-09-03 | 2018-09-03 | 一种基于元数据驱动的电力通信大数据质量管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109144990A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143623A (zh) * | 2019-12-31 | 2020-05-12 | 科技谷(厦门)信息技术有限公司 | 一种大数据环境下的数据质量监控方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1496088A (zh) * | 2002-09-11 | 2004-05-12 | 三星电子株式会社 | 用于专用无线网络中短信服务的服务器和方法 |
CN201138801Y (zh) * | 2007-05-21 | 2008-10-22 | 广州人民广播电台 | 一种广播智能监控系统 |
US20110047056A1 (en) * | 2008-10-11 | 2011-02-24 | Stephen Overman | Continuous measurement and independent verification of the quality of data and processes used to value structured derivative information products |
CN102084569A (zh) * | 2008-05-09 | 2011-06-01 | 埃森哲环球服务有限公司 | 用于管理电网的方法和系统 |
CN103699693A (zh) * | 2014-01-10 | 2014-04-02 | 中国南方电网有限责任公司 | 一种基于元数据的数据质量管理方法及系统 |
CN105005683A (zh) * | 2015-06-17 | 2015-10-28 | 北京锐易特软件技术有限公司 | 一种解决区域医疗系统数据规范化问题的缓存系统及方法 |
CN105868373A (zh) * | 2016-03-31 | 2016-08-17 | 国网江西省电力公司信息通信分公司 | 电力业务信息系统关键数据处理方法及装置 |
CN107368957A (zh) * | 2017-07-04 | 2017-11-21 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测体系的构建方法 |
CN107491381A (zh) * | 2017-07-04 | 2017-12-19 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测系统 |
CN107545349A (zh) * | 2016-06-28 | 2018-01-05 | 国网天津市电力公司 | 一种面向电力大数据的数据质量分析评价模型 |
-
2018
- 2018-09-03 CN CN201811022480.6A patent/CN109144990A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1496088A (zh) * | 2002-09-11 | 2004-05-12 | 三星电子株式会社 | 用于专用无线网络中短信服务的服务器和方法 |
CN201138801Y (zh) * | 2007-05-21 | 2008-10-22 | 广州人民广播电台 | 一种广播智能监控系统 |
CN102084569A (zh) * | 2008-05-09 | 2011-06-01 | 埃森哲环球服务有限公司 | 用于管理电网的方法和系统 |
US20110047056A1 (en) * | 2008-10-11 | 2011-02-24 | Stephen Overman | Continuous measurement and independent verification of the quality of data and processes used to value structured derivative information products |
CN103699693A (zh) * | 2014-01-10 | 2014-04-02 | 中国南方电网有限责任公司 | 一种基于元数据的数据质量管理方法及系统 |
CN105005683A (zh) * | 2015-06-17 | 2015-10-28 | 北京锐易特软件技术有限公司 | 一种解决区域医疗系统数据规范化问题的缓存系统及方法 |
CN105868373A (zh) * | 2016-03-31 | 2016-08-17 | 国网江西省电力公司信息通信分公司 | 电力业务信息系统关键数据处理方法及装置 |
CN107545349A (zh) * | 2016-06-28 | 2018-01-05 | 国网天津市电力公司 | 一种面向电力大数据的数据质量分析评价模型 |
CN107368957A (zh) * | 2017-07-04 | 2017-11-21 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测体系的构建方法 |
CN107491381A (zh) * | 2017-07-04 | 2017-12-19 | 广西电网有限责任公司电力科学研究院 | 一种设备状态监测数据质量评测系统 |
Non-Patent Citations (1)
Title |
---|
佘俊等: "元数据驱动的大数据服务平台", 《科技传播》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143623A (zh) * | 2019-12-31 | 2020-05-12 | 科技谷(厦门)信息技术有限公司 | 一种大数据环境下的数据质量监控方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022508350A (ja) | 汎用医療用語ライブラリに基づくマルチセンタ医療用語標準化システム | |
CN110096494B (zh) | 使用源跟踪剖析数据 | |
WO2018051097A1 (en) | System for analysing data relationships to support query execution | |
CN107506451A (zh) | 用于数据交互的异常信息监控方法及装置 | |
US20120259865A1 (en) | Automated correlation discovery for semi-structured processes | |
WO2010045331A2 (en) | Method and apparatus for gathering and organizing information pertaining to an entity | |
CN104731596A (zh) | 一种支持多人在线编辑xbrl的分类编辑方法 | |
CN105556517A (zh) | 智能搜索精细化 | |
US11681730B2 (en) | System for data structure clustering based on variation in data attribute performance | |
Neumüller et al. | Integrating three-dimensional sustainability in distribution centre selection: the process analysis method-based analytic network process | |
CN114218218A (zh) | 基于数据仓库的数据处理方法、装置、设备及存储介质 | |
KR100903726B1 (ko) | 데이터 품질 관리 성숙도 평가 시스템 | |
CN104933621A (zh) | 一种担保圈的大数据分析系统和方法 | |
CN113868498A (zh) | 数据存储方法、电子装置、装置及可读存储介质 | |
CN101242616A (zh) | 局数据智能化制作方法及局数据智能化制作系统 | |
CN114461644A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN110889013B (zh) | 一种基于xml的数据关联方法、装置、服务器及存储介质 | |
CN116719799A (zh) | 环保数据治理方法、装置、计算机设备和存储介质 | |
CN107577769A (zh) | 一种计量专业数据的挖掘方法及系统 | |
CN109144990A (zh) | 一种基于元数据驱动的电力通信大数据质量管理方法 | |
CN113722564A (zh) | 基于空间图卷积能源物资供应链的可视化方法及装置 | |
CN113052616A (zh) | 一种冷链产品溯源方法、装置及系统 | |
CN108023740A (zh) | 监控中异常信息的风险提示方法和装置 | |
Onyshchenko et al. | Industry 4.0 and Accounting: a theoretical approach | |
CN111797084A (zh) | 基于武器装备试验流程的数据编码贯标检查方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190104 |