CN112256782A - 基于Hadoop的电力大数据处理系统 - Google Patents

基于Hadoop的电力大数据处理系统 Download PDF

Info

Publication number
CN112256782A
CN112256782A CN202011186843.7A CN202011186843A CN112256782A CN 112256782 A CN112256782 A CN 112256782A CN 202011186843 A CN202011186843 A CN 202011186843A CN 112256782 A CN112256782 A CN 112256782A
Authority
CN
China
Prior art keywords
data
warehouse
storage area
subsystem
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011186843.7A
Other languages
English (en)
Other versions
CN112256782B (zh
Inventor
薄宏斌
张彦斌
王瀚霆
范继锋
仲文博
何世雄
赵俊杰
马兆嵘
慕佩良
王欣
李中为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Electric Power Group Co ltd Wuhai Super High Voltage Power Supply Bureau
Original Assignee
Inner Mongolia Electric Power Group Co ltd Wuhai Super High Voltage Power Supply Bureau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia Electric Power Group Co ltd Wuhai Super High Voltage Power Supply Bureau filed Critical Inner Mongolia Electric Power Group Co ltd Wuhai Super High Voltage Power Supply Bureau
Priority to CN202011186843.7A priority Critical patent/CN112256782B/zh
Publication of CN112256782A publication Critical patent/CN112256782A/zh
Application granted granted Critical
Publication of CN112256782B publication Critical patent/CN112256782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于Hadoop的电力大数据处理系统,涉及大数据处理技术领域。该系统通过数据集成子系统采集来自不同数据源的多源异构电力数据,并通过ETL工具进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;数据仓库子系统通过数据仓库将电力数据进行文件层的存储固化,以文件读写引擎HDFS进行数据读写支撑,支持大数据处理时的并行、多层数据处理;数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告;本发明的系统基于Hadoop技术,能够实时处理电力大数据,具有高可靠、高效、可伸缩、高容错、低成本的特点。

Description

基于Hadoop的电力大数据处理系统
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种基于Hadoop的电力大数据处理系统。
背景技术
变电站作为电力系统运行的核心,其运行的安全稳定对电力企业发展起决定性作用,变电与配电工作正是保证变电站安全稳定运行的关键因素。500千伏变电站的运行状况,直接影响着区域主电力网的安全与稳定。同时,它还直接影响着电网供电的可靠性和经济性,通过对变电站运维管理优化研究对于提升变电站安全水平和经济水平具有重要的现实意义。
随着变电设备的数量增加,电力数据也随之增长,例如MIS系统数据、设备管理数据、历史检修数据等,因此,如果能在电力系统管理中引入大数据技术,对于电网的发展进步和提升电网资产管理效率将具有强力的促进作用。与此同时,随着电力企业实现设备检修的信息化、数字化,积累了大量的设备台帐数据、设备分类、设备技术参数、部件附属设备、仪表信息等设备基础信息数据,设备运行状态、设备缺陷部位、缺陷内容、造成的影响及可能的后果、技改过程记录等过程数据,及设备类型、厂家缺陷排名等统计分析数据。然而,这些数据分别在不同信息系统中,数据格式结构不同、数据标准不统一、数据质量难以评估,需要构建智能精益检修数据集成软件,离线或自动化实时同步集成电力生产MIS系统、设备管理系统、工作流数据、历史数据等多方数据源数据,并按照分析目标、智能精益检修大数据统一标准进行数据的集约化、标准化处理和清洗,形成用于大数据分析的数据格式和后期进行业务算法分析的数据基础。
另一方面,现有的系统随着使用的时间推移和不断深入,系统难免会产生一些失效数据、无依据来源数据、描述错误或不准确数据以及出现细节数据丢失等现象。以上现象的存在,导致数据中心在集成各业务系统数据的时候,必须着手解决数据质量问题。只有拥有高质量数据的数据中心,才可以充分挖掘数据潜在的价值,进而带来效益。为进一步增强系统分析性能,实现设备检修从信息化、数字化向标准化、集约化、智能化转型,需要在信息化基础上,引入大数据、人工智能深度学习技术,进行深度融合实现多源海量数据的快速分析、主动预测预警和故障智能研判,提升设备状态评估的效率和智能化水平。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于Hadoop的电力大数据处理系统,对数据进行集中抽取、清洗、转换、筛选,进而实现对电力数据的持久存储。
为解决上述技术问题,本发明所采取的技术方案是:基于Hadoop的电力大数据处理系统,包括数据集成子系统、数据仓库子系统、数据质量管理子系统;
所述数据集成子系统采集来自不同数据源的多源异构电力数据,并通过ETL工具进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;
所述数据仓库子系统通过数据仓库将数据集成子系统得到的电力数据进行文件层的存储固化,以文件读写引擎HDFS进行数据读写支撑,支持大数据处理时的并行、多层数据处理;所述数据仓库划分为四个逻辑区域:源数据存储区、数据暂存区、数据存储区、中央数据仓库/数据集市;
所述数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告。
优选地,所述数据集成子系统包括数据采集模块和数据处理模块;
所述数据采集模块以不同方式根据采集规则进行监控并采集相应的数据,并通过调用数据转换组件完成封装,再通过交换传输功能来完成数据从数据源到大数据平台的采集;采集驱动分为系统主动抽取和被动接收两种情况;
所述主动抽取利用变化数据捕获、日志挖掘、标识字段和接口方式,提供实时或定时的全量抽取、增量抽取和全量式增量抽取;所述被动接收的数据导入支持手动导入、批量式接入,支持多格式文件导入,支持一次性、周期性或事件驱动型的数据导入;
所述数据处理模块对存储在数据仓库源数据存储区的来自不同数据源的多源异构数据,通过ETL工具预处理后装载入数据仓库子系统的数据暂存区;ETL工具按照清洗规则对数据仓库子系统的数据暂存区、数据存储区的数据进行加工、汇总,最终装载入数据仓库的中央数据仓库中。
优选地,所述数据处理模块进行数据处理的具体过程为:
步骤1、数据预处理:加载源电力数据,增加时间拉链,并将数据载入数据仓库子系统的暂存区;然后对源电力数据做数据平衡检查、稽核数据有效性,并报告数据质量;
步骤2、数据清洗:对数据仓库子系统暂存区中的电力数据利用ETL工具进行标准化清洗,统一数据表达格式、排序数据、筛选重复数据、合并或分割数据项、无效数据删除、缺失列删除、缺失值替换、异常值处理、行去重、列去重、代码替换、数据过滤、类型转换和格式转换,将标准化清洗后数据装载入数据仓库子系统数据存储区的基础数据层,并报告数据清洗异常;
步骤3、数据转换:对数据仓库子系统数据存储区中的标准化电力数据,按照业务转换规则,增加序列、增加常量、行列转换、合并记录、数据项拼接、数据项拆分、数据类型转换、字符串替换、字符串填充、字符串剪切、字符串截断、数值提取、数值填充、值映射、计算函数转换、脚本执行、数据集拆分、数据集合并、数据集连接和数据集排序这些通用数据转换规则加工数据后装载入数据仓库的中央数据仓库中。
优选地,所述数据仓库子系统的源数据存储区存储数据集成子系统采集的来自不同数据源的原始电力数据,也称为原始数据源;
数据暂存区是为了保证数据移动的顺利进行而开设的增量性的数据存储空间,是源数据存储区中的原始电力数据进入中央数据仓库前的缓存区;所述数据暂存区的电力数据与现有的OLTP交易系统实体结构具有相同的属性,同时增加表示数据来源的属性SOURCECODE和用于获得数据处理时间的属性LAST MODIFIED DATE;如果原始的电力数据中已经有了上述两个属性,则在这两个属性中增加DW后缀进行标识;数据暂存区的电力数据成功导入数据存储区之后,清空数据暂存区中的数据;
数据存储区的数据作为数据仓库的数据进行存储;数据存储区从逻辑上分为两部分,一部分用来存放OLTP交易系统的历史数据,并确定是否对OLTP中的交易数据与基础数据进行生命周期管理;另一部分存放数据仓库部分加工的信息,即通过数据存储区对历史数据经过整合后的信息;
中央数据仓库为具有星型结构的多维数据存储区,中央数据仓库的实体包括事实实体和尺寸实体;中央数据仓库支持最细粒度级别数据查询,保证在最细粒度级别实现多维的分析,即能够同时支持汇总数据以及明细数据的多维查询;
数据集市是某一主题领域的专有的多维数据区,实现某一主题领域的多维查询需求;数据集市的实体也包括事实实体和尺寸实体两部分,但与中央数据仓库不同的是这部分的事实实体和尺寸实体都是为某一主题服务的;其中,事实实体是指某个事物的各方面信息的描述,描述性的属性包括:该事物各方面的度量信息,相关度量信息的维度信息;尺寸实体是与事实实体相关的维信息,包括多个事实实体共有的维度信息以及某个事实实体需要的专有的维信息。
优选地,所述数据质量管理子系统通过电力数据使用情况监控、质量监控、质量管理和质量剖析四个环节对数据仓库存储的电力数据进行质量管理,与前期数据标准管理、后期数据编码管理两个阶段共同形成电力数据的全生命周期管理;所述数据质量管理子系统对电力数据进行质量管理的各环节具体为:
环节一、电力数据使用情况监控;追踪数据仓库中的电力数据在现有的电力业务系统中的使用情况,与数据申请形成考核和管控检测报表,供相关管理部门使用;对超过规定时间不用的电力数据,进行数据清理和归档,实现数据的全生命周期管理;
环节二、电力数据质量监控;记录原始数据经过数据处理模块进行数据清洗后产生的元数据,并对该元数据进行评分,得出数据质量分数,生成数据质量报告;并对大数据清洗后的元数据和原始数据比较,记录问题数据、分析数据问题原因;
环节三、数据质量管理;建立一个端到端的数据管理体系,包括数据风险管理、价值创造、组织流程、管理策略、数据责任人多项内容;
环节四、数据质量剖析;建立标准化的数据质量分析模型,并根据电力数据质量监控环节产生的数据质量报告启动数据预警机制;质量分析结果以评分或等级形式表述数据质量的高低程度,并设置数据质量的最低阈值和最高阈值,当数据质量分数低于最低阈值或高于最高阈值时,启动相应的数据预警机制,告之数据管理员采取相应的处理措施;并当预警机制启动时,立即触发数据清理预案,开展数据清理工作。
采用上述技术方案所产生的有益效果在于:本发明提供的基于Hadoop的电力大数据处理系统,面向海量的异构数据,基于Hadoop技术,能够实时处理电力大数据,具有高可靠、高效、可伸缩、高容错、低成本的特点,并且能够轻松地开发和运行处理海量数据的应用程序。数据集成子系统通过对变电站设备的运行状态进行实时不间断监测和数据收集,构建数据提供者和数据使用者之间的数据传输高速通道,解决不同物理位置、不同应用系统与平台的数据交换传输,实现实时、准实时、定期地进行主动式共享数据获取、被动式数据交换,接收来自不同渠道的共享数据。数据仓库基于分布式框架,支持结构化、半结构化、非结构化数据,关系型、文档型、图型、键值对型模式的数据的存储,同时提供标准化接口,其他业务系统可以通过编程对数据进行检索、分析,可有效被数据处理及统计分析部分调用,提高操作效率,减少操作时长。数据质量管理子系统针对数据缺失、数据错误等数据质量问题以及相应技术性问题和非技术性问题,对数据质量进行检查,并对脏数据进行预警,加强系统的稳定性,修正系统漏洞,为系统的健壮性提供有益的反馈。
附图说明
图1为本发明实施例提供的基于Hadoop的电力大数据处理系统的架构图;
图2为本发明实施例提供的数据集成子系统的进行数据集成的流程图;
图3为本发明实施例提供的数据仓库的逻辑构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,基于Hadoop的电力大数据处理系统,如图1所示,包括数据集成子系统、数据仓库子系统、数据质量管理子系统;
所述数据集成子系统采集数据库、网络、MIS系统、数据采集传输设备等来自不同数据源的多源异构电力数据,并通过ETL工具进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;从而实现清除不完整,不准确的无用数据,提高数据的准确性以及可分析价值。
所述数据集成子系统包括数据采集模块和数据处理模块,数据集成过程如图2所示;所述数据采集模块以手工、自动等不同方式根据采集规则进行监控并采集来自不同数据源的电力数据,并通过调用数据转换组件完成封装,再通过交换传输功能将来自不同数据源的数据存储到数据仓库子系统的源数据存储区;采集驱动分为系统主动抽取和被动接收两种情况;可对采集对象相关属性进行灵活配置。
所述主动抽取利用变化数据捕获(CDC)、日志挖掘、标识字段和接口方式,提供实时或定时的全量抽取、增量抽取和全量式增量抽取;所述被动接收的数据导入支持手动导入、批量式接入,支持多格式文件导入,支持一次性、周期性或事件驱动型的数据导入;
所述数据处理模块对存储在数据仓库源数据存储区的来自不同数据源的多源异构数据,通过ETL工具预处理后装载入数据仓库子系统的数据暂存区;ETL工具按照清洗规则对数据仓库子系统的数据暂存区、数据存储区的数据进行加工、汇总,最终装载入数据仓库的中央数据仓库中,具体包括以下步骤:
步骤1、数据预处理:加载源电力数据,并将数据载入数据仓库子系统的暂存区;然后对源电力数据做数据平衡检查、稽核数据有效性,并报告数据质量;
步骤2、数据清洗:对数据仓库子系统暂存区中的电力数据利用ETL工具进行标准化清洗,包括统一数据表达格式、排序数据、筛选重复数据、合并或分割数据项、无效数据删除、缺失列删除、缺失值替换、异常值处理、行去重、列去重、代码替换、数据过滤、类型转换和格式转换,将标准化清洗后数据装载入数据仓库子系统数据存储区的基础数据层,并报告数据清洗异常;
步骤3、数据转换:对数据仓库子系统数据存储区中的标准化电力数据,按照业务转换规则,增加序列、增加常量、行列转换、合并记录、数据项拼接、数据项拆分、数据类型转换、字符串替换、字符串填充、字符串剪切、字符串截断、数值提取、数值填充、值映射、计算函数转换、脚本执行、数据集拆分、数据集合并、数据集连接和数据集排序这些通用数据转换规则加工数据后装载入数据仓库的中央数据仓库中。
所述数据仓库子系统通过数据仓库将数据集成子系统得到的电力数据进行文件层的存储固化,以契合大数据数据分析、处理的文件读写引擎HDFS(HadoopDistributedFile System)进行数据读写支撑,支持大数据处理时的并行、多层数据处理,以高精度支撑系统数据处理。具有强大的存储读写能力,为企业数据赋予数据动能;所述数据仓库划分为四个逻辑区域,如图3所示:源数据存储区(Source Data Store),数据暂存区(Staging Area),数据存储区(Operational Data Store,ODS),中央数据仓库(Baseline)/数据集市(Datamart);
所述源数据存储区存储数据集成子系统采集的来自不同数据源的原始电力数据,也称为原始数据源;
所述数据暂存区是为了保证数据移动的顺利进行而开设的增量性的数据存储空间,是源数据存储区中的原始电力数据进入中央数据仓库前的缓存区;从电力业务系统到数据暂存区的数据传输,应该避免进行复杂的数据处理,以保证数据的快速导入而尽量减少对业务系统造成的压力。所述数据暂存区的电力数据与现有的OLTP交易系统实体结构具有相同的属性,同时增加表示数据来源的属性SOURCE CODE和用于获得数据处理时间的属性LAST MODIFIED DATE;
如果原始的电力数据中已经有了上述两个属性,则在这两个属性中增加DW后缀进行标识;数据暂存区的电力数据成功导入数据存储区之后,清空数据暂存区中的数据;
所述数据存储区,此区的数据作为数据仓库的数据进行存储;数据存储区从逻辑上分为两部分,一部分用来存放OLTP交易系统的历史数据,并确定是否对OLTP中的交易数据与基础数据(即缓慢变化的处理)进行生命周期管理;另一部分存放数据仓库部分加工的信息,即通过数据存储区对历史数据经过整合后的信息,这些信息更加全面地反映出一个主题中某件事物的全貌;
所述中央数据仓库为具有星型结构的多维数据存储区,中央数据仓库的实体包括事实实体(FACT ENTITY)和尺寸实体(DIMENSION ENTITY);中央数据仓库支持最细粒度级别数据查询(如大分类-中分类-小分类-细分类),保证在最细粒度级别实现多维的分析,即能够同时支持汇总数据以及明细数据的多维查询;
所述数据集市是某一主题领域的专有的多维数据区,实现某一主题领域的多维查询需求;数据集市的实体也包括事实实体(FACT ENTITY)和尺寸实体(DIMENSION ENTITY)两部分,但与中央数据仓库不同的是这部分的事实实体(FACT ENTITY)和尺寸实体(DIMENSION ENTITY)都是为某一主题服务的;其中,事实实体(FACT ENTITY)是指某个事物的各方面信息的描述,描述性的属性包括:该事物各方面的度量信息,相关度量信息的维度信息;尺寸实体(DIMENSION ENTITY)是与事实实体(FACT ENTITY)相关的维信息,包括多个事实实体(FACT ENTITY)共有的维度信息以及某个事实实体(FACT ENTITY)需要的专有的维信息。
所述数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告,这样后续程序就会变得稳定可靠。针对提交的数据质量报告,系统维护人员和业务人员可以根据这些数据,修正系统漏洞,对业务流程进行调整,这是对系统正面的有益的反馈。主要包含数据使用情况监控、质量监控、质量分析、数据清理等环节,与前期数据标准管理、后期数据编码管理两个阶段共同形成主数据的全生命周期管理。
所述数据质量管理子系统通过电力数据使用情况监控、质量监控、质量管理和质量剖析四个环节对数据仓库存储的电力数据进行质量管理,与前期数据标准管理、后期数据编码管理两个阶段共同形成电力数据的全生命周期管理;所述数据质量管理子系统对电力数据进行质量管理的各环节具体为:
环节一、电力数据使用情况监控;系统需将管控流程延伸到业务应用环节,追踪数据仓库中的电力数据在现有的电力业务系统中的使用情况,与数据申请形成考核和管控检测报表,供相关管理部门使用;对超过规定时间不用的电力数据,进行数据清理和归档,实现数据的全生命周期管理;
环节二、电力数据质量监控;记录原始数据经过数据处理模块进行数据清洗后产生的元数据,并对该元数据进行评分,得出数据质量分数,生成数据质量报告;并对大数据清洗后的元数据和原始数据比较,记录问题数据、分析数据问题原因,为之后的数据采集数据集成打下基础形成规范;
环节三、数据质量管理;为了保证数据从产生到消亡的整个过程都具备较高质量,需建立一个端到端的数据管理体系,包括数据风险管理、价值创造、组织流程、管理策略、数据责任人多项内容;通过建立数据责任人制度、规范数据管理流程和定义数据架构元素来提高数据质量水平,强化数据风险管理能力,提升数据投资回报率。
环节四、数据质量剖析;建立标准化的数据质量分析模型,并根据电力数据质量监控环节产生的数据质量报告启动数据预警机制,加强与数据清理的联动;质量分析结果以评分或等级形式表述数据质量的高低程度,并设置数据质量的最低阈值和最高阈值,当数据质量分数低于最低阈值或高于最高阈值时,启动相应的数据预警机制,告之数据管理员采取相应的处理措施;为提高数据处理效率,并当预警机制启动时,立即触发数据清理预案,开展数据清理工作。
本实施例中,数据质量管理整体思路是按照数据流的生命周期分成三个不同的处理流程:元数据流程、业务数据流程、数据质量管理流程。元数据流程负责对数据流的各个控制点的元数据进行管理,从而可以展现元数据从源到末的映射过程,包括表级和字段级的映射过程;业务数据流程的抽取、转换和加载过程由ETL工具来负责;数据质量管理流程负责对数据流的各个控制点的异常情况进行问题登记、问题派发、问题分析、问题解决和解决情况评估。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (6)

1.一种基于Hadoop的电力大数据处理系统,其特征在于:包括数据集成子系统、数据仓库子系统、数据质量管理子系统;
所述数据集成子系统采集来自不同数据源的多源异构电力数据,并通过ETL工具进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;
所述数据仓库子系统通过数据仓库将数据集成子系统得到的电力数据进行文件层的存储固化,以文件读写引擎HDFS进行数据读写支撑,支持大数据处理时的并行、多层数据处理;所述数据仓库划分为四个逻辑区域:源数据存储区、数据暂存区、数据存储区、中央数据仓库/数据集市;
所述数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告。
2.根据权利要求1所述的基于Hadoop的电力大数据处理系统,其特征在于:所述数据集成子系统包括数据采集模块和数据处理模块;
所述数据采集模块以不同方式根据采集规则进行监控并采集相应的数据,并通过调用数据转换组件完成封装,再通过交换传输功能来完成数据从数据源到大数据平台的采集;采集驱动分为系统主动抽取和被动接收两种情况;
所述主动抽取利用变化数据捕获、日志挖掘、标识字段和接口方式,提供实时或定时的全量抽取、增量抽取和全量式增量抽取;所述被动接收的数据导入支持手动导入、批量式接入,支持多格式文件导入,支持一次性、周期性或事件驱动型的数据导入;
所述数据处理模块对存储在数据仓库源数据存储区的来自不同数据源的多源异构数据,通过ETL工具预处理后装载入数据仓库子系统的数据暂存区;ETL工具按照清洗规则对数据仓库子系统的数据暂存区、数据存储区的数据进行加工、汇总,最终装载入数据仓库的中央数据仓库中。
3.根据权利要求2所述的基于Hadoop的电力大数据处理系统,其特征在于:所述数据处理模块进行数据处理的具体过程为:
步骤1、数据预处理:加载源电力数据,增加时间拉链,并将数据载入数据仓库子系统的暂存区;然后对源电力数据做数据平衡检查、稽核数据有效性,并报告数据质量;
步骤2、数据清洗:对数据仓库子系统暂存区中的电力数据利用ETL工具进行标准化清洗,统一数据表达格式、排序数据、筛选重复数据、合并或分割数据项、无效数据删除、缺失列删除、缺失值替换、异常值处理、行去重、列去重、代码替换、数据过滤、类型转换和格式转换,将标准化清洗后数据装载入数据仓库子系统数据存储区的基础数据层,并报告数据清洗异常;
步骤3、数据转换:对数据仓库子系统数据存储区中的标准化电力数据,按照业务转换规则,增加序列、增加常量、行列转换、合并记录、数据项拼接、数据项拆分、数据类型转换、字符串替换、字符串填充、字符串剪切、字符串截断、数值提取、数值填充、值映射、计算函数转换、脚本执行、数据集拆分、数据集合并、数据集连接和数据集排序这些通用数据转换规则加工数据后装载入数据仓库的中央数据仓库中。
4.根据权利要求1所述的基于Hadoop的电力大数据处理系统,其特征在于:所述数据仓库子系统的源数据存储区存储数据集成子系统采集的来自不同数据源的原始电力数据,也称为原始数据源;
数据暂存区是为了保证数据移动的顺利进行而开设的增量性的数据存储空间,是源数据存储区中的原始电力数据进入中央数据仓库前的缓存区;所述数据暂存区的电力数据与现有的OLTP交易系统实体结构具有相同的属性,同时增加表示数据来源的属性SOURCECODE和用于获得数据处理时间的属性LAST MODIFIED DATE;如果原始的电力数据中已经有了上述两个属性,则在这两个属性中增加DW后缀进行标识;数据暂存区的电力数据成功导入数据存储区之后,清空数据暂存区中的数据;
数据存储区中的数据作为数据仓库的数据进行存储;数据存储区从逻辑上分为两部分,一部分用来存放OLTP交易系统的历史数据,并确定是否对OLTP中的交易数据与基础数据进行生命周期管理;另一部分存放数据仓库部分加工的信息,即通过数据存储区对历史数据经过整合后的信息;
中央数据仓库为具有星型结构的多维数据存储区,中央数据仓库的实体包括事实实体和尺寸实体;中央数据仓库支持最细粒度级别数据查询,保证在最细粒度级别实现多维的分析,即能够同时支持汇总数据以及明细数据的多维查询;
数据集市是某一主题领域的专有的多维数据区,实现某一主题领域的多维查询需求;数据集市的实体也包括事实实体和尺寸实体两部分,但与中央数据仓库不同的是这部分的事实实体和尺寸实体都是为某一主题服务的;其中,事实实体是指某个事物的各方面信息的描述,描述性的属性包括:该事物各方面的度量信息,相关度量信息的维度信息;尺寸实体是与事实实体相关的维信息,包括多个事实实体共有的维度信息以及某个事实实体需要的专有的维信息。
5.根据权利要求1所述的基于Hadoop的电力大数据处理系统,其特征在于:所述数据质量管理子系统通过电力数据使用情况监控、质量监控、质量管理和质量剖析四个环节对数据仓库存储的电力数据进行质量管理,与前期数据标准管理、后期数据编码管理两个阶段共同形成电力数据的全生命周期管理。
6.根据权利要求5所述的基于Hadoop的电力大数据处理系统,其特征在于:所述数据质量管理子系统对电力数据进行质量管理的各环节具体为:
环节一、电力数据使用情况监控;追踪数据仓库中的电力数据在现有的电力业务系统中的使用情况,与数据申请形成考核和管控检测报表,供相关管理部门使用;对超过规定时间不用的电力数据,进行数据清理和归档,实现数据的全生命周期管理;
环节二、电力数据质量监控;记录原始数据经过数据处理模块进行数据清洗后产生的元数据,并对该元数据进行评分,得出数据质量分数,生成数据质量报告;并对大数据清洗后的元数据和原始数据比较,记录问题数据、分析数据问题原因;
环节三、数据质量管理;建立一个端到端的数据管理体系,包括数据风险管理、价值创造、组织流程、管理策略、数据责任人多项内容;
环节四、数据质量剖析;建立标准化的数据质量分析模型,并根据电力数据质量监控环节产生的数据质量报告启动数据预警机制;质量分析结果以评分或等级形式表述数据质量的高低程度,并设置数据质量的最低阈值和最高阈值,当数据质量分数低于最低阈值或高于最高阈值时,启动相应的数据预警机制,告之数据管理员采取相应的处理措施;并当预警机制启动时,立即触发数据清理预案,开展数据清理工作。
CN202011186843.7A 2020-10-30 2020-10-30 基于Hadoop的电力大数据处理系统 Active CN112256782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011186843.7A CN112256782B (zh) 2020-10-30 2020-10-30 基于Hadoop的电力大数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011186843.7A CN112256782B (zh) 2020-10-30 2020-10-30 基于Hadoop的电力大数据处理系统

Publications (2)

Publication Number Publication Date
CN112256782A true CN112256782A (zh) 2021-01-22
CN112256782B CN112256782B (zh) 2024-03-29

Family

ID=74267851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011186843.7A Active CN112256782B (zh) 2020-10-30 2020-10-30 基于Hadoop的电力大数据处理系统

Country Status (1)

Country Link
CN (1) CN112256782B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800044A (zh) * 2021-02-04 2021-05-14 深圳市网联安瑞网络科技有限公司 数据质量判定及监测方法、管理系统、存储介质、终端
CN112861185A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 基于Hive数据仓库的数据自动变形传输方法
CN113010506A (zh) * 2021-03-11 2021-06-22 江苏省生态环境监控中心(江苏省环境信息中心) 一种多源异构水环境大数据管理系统
CN113157696A (zh) * 2021-04-02 2021-07-23 武汉众宇动力系统科技有限公司 燃料电池测试数据处理方法
CN113256006A (zh) * 2021-05-28 2021-08-13 国网江苏省电力有限公司信息通信分公司 电网资源数据接入信息转换和校对处理系统
CN113434481A (zh) * 2021-06-24 2021-09-24 平安国际智慧城市科技股份有限公司 数据服务的实现方法、装置、设备以及存储介质
CN113590746A (zh) * 2021-07-01 2021-11-02 中国国家铁路集团有限公司 一种数据仓库全面检索信息的方法、装置、设备和介质
CN113609238A (zh) * 2021-07-24 2021-11-05 全图通位置网络有限公司 基于Hadoop平台的地理实体空间数据的处理方法及存储介质
CN114298550A (zh) * 2021-12-28 2022-04-08 安徽海螺信息技术工程有限责任公司 一种对水泥生产经营数据的治理方法
CN114416705A (zh) * 2021-11-09 2022-04-29 北京泰策科技有限公司 一种多源异构数据融合建模方法
CN114676117A (zh) * 2022-05-27 2022-06-28 成都明途科技有限公司 一种岗位数据存储方法、装置及岗位机器人
CN114827149A (zh) * 2022-04-29 2022-07-29 北京尚谷彤邺科技发展有限公司 一种实时通讯大数据用的传输系统、方法和装置
CN117648388A (zh) * 2024-01-29 2024-03-05 成都七柱智慧科技有限公司 一种可视化的安全实时的数据仓库实现方法及其系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
CN107958049A (zh) * 2017-11-28 2018-04-24 航天科工智慧产业发展有限公司 一种数据质量稽查管理系统
US20180210934A1 (en) * 2013-09-19 2018-07-26 Workday, Inc. Systems and methods for interest-driven business intelligence systems including event-oriented data
CN109597850A (zh) * 2018-11-22 2019-04-09 四川省烟草公司成都市公司 烟草综合信息数据加工储存平台及数据加工方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180210934A1 (en) * 2013-09-19 2018-07-26 Workday, Inc. Systems and methods for interest-driven business intelligence systems including event-oriented data
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
CN107958049A (zh) * 2017-11-28 2018-04-24 航天科工智慧产业发展有限公司 一种数据质量稽查管理系统
CN109597850A (zh) * 2018-11-22 2019-04-09 四川省烟草公司成都市公司 烟草综合信息数据加工储存平台及数据加工方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800044A (zh) * 2021-02-04 2021-05-14 深圳市网联安瑞网络科技有限公司 数据质量判定及监测方法、管理系统、存储介质、终端
CN112800044B (zh) * 2021-02-04 2024-01-19 深圳市网联安瑞网络科技有限公司 数据质量判定及监测方法、管理系统、存储介质、终端
CN113010506A (zh) * 2021-03-11 2021-06-22 江苏省生态环境监控中心(江苏省环境信息中心) 一种多源异构水环境大数据管理系统
CN113010506B (zh) * 2021-03-11 2023-08-29 江苏省生态环境监控中心(江苏省环境信息中心) 一种多源异构水环境大数据管理系统
CN112861185A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 基于Hive数据仓库的数据自动变形传输方法
CN113157696B (zh) * 2021-04-02 2022-03-25 武汉众宇动力系统科技有限公司 燃料电池测试数据处理方法
CN113157696A (zh) * 2021-04-02 2021-07-23 武汉众宇动力系统科技有限公司 燃料电池测试数据处理方法
CN113256006A (zh) * 2021-05-28 2021-08-13 国网江苏省电力有限公司信息通信分公司 电网资源数据接入信息转换和校对处理系统
CN113434481A (zh) * 2021-06-24 2021-09-24 平安国际智慧城市科技股份有限公司 数据服务的实现方法、装置、设备以及存储介质
CN113590746A (zh) * 2021-07-01 2021-11-02 中国国家铁路集团有限公司 一种数据仓库全面检索信息的方法、装置、设备和介质
CN113609238A (zh) * 2021-07-24 2021-11-05 全图通位置网络有限公司 基于Hadoop平台的地理实体空间数据的处理方法及存储介质
CN114416705A (zh) * 2021-11-09 2022-04-29 北京泰策科技有限公司 一种多源异构数据融合建模方法
CN114298550A (zh) * 2021-12-28 2022-04-08 安徽海螺信息技术工程有限责任公司 一种对水泥生产经营数据的治理方法
CN114827149A (zh) * 2022-04-29 2022-07-29 北京尚谷彤邺科技发展有限公司 一种实时通讯大数据用的传输系统、方法和装置
CN114676117A (zh) * 2022-05-27 2022-06-28 成都明途科技有限公司 一种岗位数据存储方法、装置及岗位机器人
CN114676117B (zh) * 2022-05-27 2022-08-16 成都明途科技有限公司 一种岗位数据存储方法、装置及岗位机器人
CN117648388A (zh) * 2024-01-29 2024-03-05 成都七柱智慧科技有限公司 一种可视化的安全实时的数据仓库实现方法及其系统
CN117648388B (zh) * 2024-01-29 2024-04-12 成都七柱智慧科技有限公司 一种可视化的安全实时的数据仓库实现方法及其系统

Also Published As

Publication number Publication date
CN112256782B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN112256782B (zh) 基于Hadoop的电力大数据处理系统
CN113010506B (zh) 一种多源异构水环境大数据管理系统
Jensen et al. Modelardb: Modular model-based time series management with spark and cassandra
CN108255712A (zh) 数据系统的测试系统和测试方法
CN112347071B (zh) 一种配电网云平台数据融合方法及配电网云平台
CN103902816A (zh) 基于数据挖掘技术的带电检测数据处理方法
CN111552813A (zh) 一种基于电网全业务数据的电力知识图谱构建方法
CN111027615A (zh) 基于机器学习的中间件故障预警方法和系统
CN112181960A (zh) 一种基于AIOps的智能运维框架系统
CN112181955A (zh) 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法
CN112527886A (zh) 一种基于城市大脑的数据仓库系统
CN112732680A (zh) 一种数据仓库设计方法
CN110389950A (zh) 一种快速运行的大数据清洗方法
CN112817958A (zh) 电力规划数据采集方法、装置及智能终端
CN111352982A (zh) 一种基于大数据的人力抽取分析系统
CN115185663A (zh) 一种基于大数据的智慧化数据处理系统
CN111125450A (zh) 一种多层拓扑网络资源对象的管理方法
CN110889632B (zh) 一种公司形象提升系统的数据监测分析系统
CN116795816A (zh) 一种基于流式处理的数仓建设方法和系统
CN116680445A (zh) 基于知识图谱的电力光通信系统多源异构数据融合方法及系统
Dong et al. Scene-based big data quality management framework
Chen et al. Research on equipment situation display based on multi-source data fusion
Piprani Using orm-based models as a foundation for a data quality firewall in an advanced generation data warehouse
CN113064924A (zh) 一种核电大数据经验检索与推送方法
Peng Analysis of administrative management and decision-making based on data warehouse

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant