CN111198918A - 基于大数据平台的数据处理系统及链路优化方法 - Google Patents

基于大数据平台的数据处理系统及链路优化方法 Download PDF

Info

Publication number
CN111198918A
CN111198918A CN202010051550.1A CN202010051550A CN111198918A CN 111198918 A CN111198918 A CN 111198918A CN 202010051550 A CN202010051550 A CN 202010051550A CN 111198918 A CN111198918 A CN 111198918A
Authority
CN
China
Prior art keywords
data
storage module
module
mode
warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010051550.1A
Other languages
English (en)
Other versions
CN111198918B (zh
Inventor
陈红
付婷
王雪晶
方志坚
颜伟琼
王维兰
孙浩淞
李金湖
林翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Fujian Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Original Assignee
State Grid Fujian Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Fujian Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd filed Critical State Grid Fujian Electric Power Co Ltd
Priority to CN202010051550.1A priority Critical patent/CN111198918B/zh
Publication of CN111198918A publication Critical patent/CN111198918A/zh
Application granted granted Critical
Publication of CN111198918B publication Critical patent/CN111198918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据平台的数据处理系统及链路优化方法。所述系统,包括:数据接入模块,采集各个类别的电力数据,电力数据的类别包括:非实时结构化数据、采集量测数据和外部数据;数据存储模块,分别根据预设数据处理规则对各个类别的电力数据进行标准化处理和关联处理,并将处理后的电力数据按照业务应用需求进行分类存储;数据计算模块,根据业务应用需求从数据存储模块获取对应的目标电力数据,并通过离线数据计算组件或实时数据计算组件对目标电力数据进行计算,得到计算结果;分析服务模块,获取计算结果,并对计算结果进行分析,将分析结果按照预设输出形式进行输出。本发明能够消除数据冗余,提高跨专业数据一致性与时效性。

Description

基于大数据平台的数据处理系统及链路优化方法
技术领域
本发明涉及数据处理技术领域,更具体地,涉及一种基于大数据平台的数据处理系统及链路优化方法。
背景技术
随着信息化的不断开展,各业务系统、数据中心、大数据平台独立建设,具体的数据链路如图1所述。针对不同数据需求,每个应用场景将自己需求的数据抽取,然后再进行计算,实现数据应用展示。但是存在数据分散存储,数据重复存储的问题,导致存储资源浪费,各应用场景各自分别计算,并不能很好的利用已建成的大数据平台数据存储组件。
发明内容
本发明的目的在于提供一种基于大数据平台的数据处理系统及链路优化方法,其改变原数据复制的业务集成方式为共享使用方式,将分析业务从业务处理系统剥离,统一由数据仓库和平台支撑,设计统一的数据仓库和大数据平台,统一管理企业数据资源,统一支撑数据分析应用,从而消除数据冗余,提高跨专业数据一致性与时效性。
为实现上述目的,本发明的技术方案是:一种基于大数据平台的数据处理系统,包括:
数据接入模块,用于采集各个类别的电力数据,其中,电力数据的类别包括:非实时结构化数据、采集量测数据和外部数据;
数据存储模块,用于分别根据预设数据处理规则对各个类别的电力数据进行标准化处理和关联处理,并将处理后的电力数据按照业务应用需求进行分类存储;
数据计算模块,用于根据业务应用需求从数据存储模块获取对应的目标电力数据,并通过离线数据计算组件或实时数据计算组件对目标电力数据进行计算,得到计算结果;
分析服务模块,用于获取计算结果,并对计算结果进行分析后按照预设输出形式进行输出。
在本发明一实施例中,当所述电力数据的类别为非实时结构化数据时,所述数据接入模块和所述数据存储模块之间通过第一数据链路进行数据处理;
当所述电力数据的类别为采集量测数据时,所述数据接入模块和所述数据存储模块之间通过第二数据链路进行数据处理;
当所述电力数据的类别为外部数据时,所述数据接入模块和所述数据存储模块之间通过第三数据链路进行数据处理。
在本发明一实施例中,当所述数据接入模块和所述数据存储模块之间通过第一数据链路进行数据处理时,
所述数据接入模块具体用于:
将数据处理域中的非实时结构化数据通过增量数据同步复制方式和存量数据初始化方式加载到所述数据存储模块的数据缓冲区中;
所述数据存储模块具体用于:
采用ETL方式,将所述数据缓冲区中的数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取。
在本发明一实施例中,当所述数据接入模块和所述数据存储模块之间通过第二数据链路进行数据处理时,
所述数据存储模块具体用于:
将所述采集量测数据加载到所述数据存储模块的采集量测数据存储区中;
将所述采集量测数据通过预设关联模型转化为结构化数据;
所述数据存储模块具体用于:
采用ETL方式,将所述结构化数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的结构化数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的结构化数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取。
在本发明一实施例中,当所述数据接入模块和所述数据存储模块之间通过第三数据链路进行数据处理时,
所述数据存储模块具体用于:
将所述外部数据缓存至所述数据存储模块的数据缓冲区中;
所述数据存储模块具体用于:
采用ETL方式,将所述数据缓冲区中的外部数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的外部数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的外部数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取。
在本发明一实施例中,当将所述外部数据缓存至所述数据存储模块的数据缓冲区中时,所述数据存储模块用于:
通过安全隔离装置建立外部网络和内部网络的所述数据缓存区之间的映射关系,以实现将所述外部数据传输至所述数据缓存区中。
在本发明一实施例中,所述数据存储模块还用于:
将所述数据仓库或所述采集量测数据存储区中的热点数据保存至所述数据存储模块的热点数据存储区中,以供所述数据计算模块获取。
在本发明一实施例中,当通过离线数据计算组件对所述目标电力数据进行计算时,所述数据计算模块用于:
通过所述离线数据计算组件,基于MapReduce处理过程和 Spark数据框架对所述目标电力数据进行计算。
在本发明一实施例中,当通过实时数据计算组件对所述目标电力数据进行计算时,所述数据计算模块用于:
通过流式计算方式或实时在线请求计算方式对所述目标电力数据进行计算
本发明还提供了一种基于上述所述的系统的链路优化方法,具体如下:
当所述电力数据的类别为非实时结构化数据时,所述数据接入模块和所述数据存储模块之间通过第一数据链路进行数据处理;
当所述电力数据的类别为采集量测数据时,所述数据接入模块和所述数据存储模块之间通过第二数据链路进行数据处理;
当所述电力数据的类别为外部数据时,所述数据接入模块和所述数据存储模块之间通过第三数据链路进行数据处理;
当所述数据接入模块和所述数据存储模块之间通过第一数据链路进行数据处理时,
所述数据接入模块具体用于:
将数据处理域中的非实时结构化数据通过增量数据同步复制方式和存量数据初始化方式加载到所述数据存储模块的数据缓冲区中;
所述数据存储模块具体用于:
采用ETL方式,将所述数据缓冲区中的数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取;
当所述数据接入模块和所述数据存储模块之间通过第二数据链路进行数据处理时,
所述数据存储模块具体用于:
将所述采集量测数据加载到所述数据存储模块的采集量测数据存储区中;
将所述采集量测数据通过预设关联模型转化为结构化数据;
所述数据存储模块具体用于:
采用ETL方式,将所述结构化数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的结构化数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的结构化数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取;
当所述数据接入模块和所述数据存储模块之间通过第三数据链路进行数据处理时,
所述数据存储模块具体用于:
将所述外部数据缓存至所述数据存储模块的数据缓冲区中;
所述数据存储模块具体用于:
采用ETL方式,将所述数据缓冲区中的外部数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的外部数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的外部数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取。
相较于现有技术,本发明具有以下有益效果:本发明改变原数据复制的业务集成方式为共享使用方式,将分析业务从业务处理系统剥离,统一由数据仓库和平台支撑,设计统一的数据仓库和大数据平台,统一管理企业数据资源,统一支撑数据分析应用,从而消除数据冗余,提高跨专业数据一致性与时效性。
附图说明
图1示出了相关技术中电力数据处理系统的结构图。
图2是本发明一个实施例的电力数据处理系统的结构示意图。
图3是本发明一个实施例的第一数据链路的数据处理的流程图。
图4是本发明一个实施例的第二数据链路的数据处理的流程图。
图5是本发明一个实施例的第三数据链路的数据处理的流程图。
图6是本发明一个实施例的电力数据处理系统的架构图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种基于大数据平台的数据处理系统,包括:
数据接入模块,用于采集各个类别的电力数据,其中,电力数据的类别包括:非实时结构化数据、采集量测数据和外部数据;
数据存储模块,用于分别根据预设数据处理规则对各个类别的电力数据进行标准化处理和关联处理,并将处理后的电力数据按照业务应用需求进行分类存储;
数据计算模块,用于根据业务应用需求从数据存储模块获取对应的目标电力数据,并通过离线数据计算组件或实时数据计算组件对目标电力数据进行计算,得到计算结果;
分析服务模块,用于获取计算结果,并对计算结果进行分析后按照预设输出形式进行输出。
本发明还提供了一种基于上述所述的系统的链路优化方法,具体如下:
当所述电力数据的类别为非实时结构化数据时,所述数据接入模块和所述数据存储模块之间通过第一数据链路进行数据处理;
当所述电力数据的类别为采集量测数据时,所述数据接入模块和所述数据存储模块之间通过第二数据链路进行数据处理;
当所述电力数据的类别为外部数据时,所述数据接入模块和所述数据存储模块之间通过第三数据链路进行数据处理;
当所述数据接入模块和所述数据存储模块之间通过第一数据链路进行数据处理时,
所述数据接入模块具体用于:
将数据处理域中的非实时结构化数据通过增量数据同步复制方式和存量数据初始化方式加载到所述数据存储模块的数据缓冲区中;
所述数据存储模块具体用于:
采用ETL方式,将所述数据缓冲区中的数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取;
当所述数据接入模块和所述数据存储模块之间通过第二数据链路进行数据处理时,
所述数据存储模块具体用于:
将所述采集量测数据加载到所述数据存储模块的采集量测数据存储区中;
将所述采集量测数据通过预设关联模型转化为结构化数据;
所述数据存储模块具体用于:
采用ETL方式,将所述结构化数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的结构化数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的结构化数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取;
当所述数据接入模块和所述数据存储模块之间通过第三数据链路进行数据处理时,
所述数据存储模块具体用于:
将所述外部数据缓存至所述数据存储模块的数据缓冲区中;
所述数据存储模块具体用于:
采用ETL方式,将所述数据缓冲区中的外部数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的外部数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的外部数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取。
以下为本发明的具体实现过程。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图2是本发明一个实施例的一种基于大数据平台的数据处理系统的结构示意图。
如图2所示,电力数据处理系统(基于大数据平台的数据处理系统)200,包括:
数据接入模块201,用于采集各个类别的电力数据,其中,所述电力数据的类别包括:非实时结构化数据、采集量测数据和外部数据;
其中,非实时机构化数据和采集量测数据可以是数据处理域中的生产管理数据,营销业务数据,电网运行数据等,外部数据可以是气象数据,经济数据等。
数据存储模块202,用于分别根据预设数据处理规则对所述各个类别的电力数据进行标准化处理和关联处理,并将处理后的电力数据按照业务应用需求进行分类存储;
数据计算模块203,用于根据业务应用需求从所述数据存储模块获取对应的目标电力数据,并通过离线数据计算组件或实时数据计算组件对所述目标电力数据进行计算,得到计算结果;其中,业务应用包括低电压实时监测、负荷预测及防窃电分析、配网设备荒唐监测分析、临时用电超期未办理合规性监测、固定资产精益化管理提升分析、客户核心资源管理提升分析、资产大修分析可视化、财务信息实时反映、设备资产一致性监测分析、用户行为量化管理提升等。
所述分析服务模块204,用于获取所述计算结果,并对所述计算结果进行分析,并将分析结果按照预设输出形式进行输出。
在该实施例中,电力数据处理系统主要包括数据输入模块,数据存储模块,数据计算模块和分析服务模块,当然,除此之外还可以包括系统管理模块,即数据管理服务平台。这样,通过分布式消息队列、ETL等各种技术手段,提取结构化非实时数据、采集量测数据、外部数据,同时对各类数据按照统一数据规范进行标准化及关联,并按不同时效性的计算及应用需求,分类进行数据存储、流转及管理,支撑分析场景、运监分析应用场景迁移和资产经营诊断平台迁移等工作。这样,改变原数据复制的业务集成方式为共享使用方式,将分析业务从业务处理系统剥离,统一由数据仓库和平台支撑,设计统一的数据仓库和大数据平台,统一管理企业数据资源,统一支撑数据分析应用,从而消除数据冗余,提高跨专业数据一致性与时效性,实现源端业务系统数据逻辑统一、分布合理、干净透明,解决了现有一系统一数据库,业务数据分散、冗余存储,缺乏统一有效管控的问题。
在一个实施例中,优选地,当所述电力数据的类别为非实时结构化数据时,所述数据接入模块201和所述数据存储模块202之间通过第一数据链路进行数据处理;
第一数据链路将数据处理域中的业务系统非实时结构化数据通过存量数据初始化、增量数据同步复制等方式加载到数据缓冲区,同时对数据缓冲区、数据仓库、数据集市之间的数据清洗转换,以供前台数据计算、统一分析服务使用。
当所述电力数据的类别为采集量测数据时,所述数据接入模块201和所述数据存储模块202之间通过第二数据链路302进行数据处理;
第二数据链路将实时数据采集接入至采集量测数据存储区,以供前台数据计算、统一分析服务使用。
当所述电力数据的类别为外部数据时,所述数据接入模块201和所述数据存储模块202之间通过第三数据链路进行数据处理。
第三数据链路将外部数据存储至数据缓冲区,再根据需求将数据缓冲区中的外部数据进行清洗转换以供前台数据计算、统一分析服务使用。
如图3所示,在一个实施例中,优选地,当数据接入模块和数据存储模块之间通过第一数据链路进行数据处理时,包括:
步骤S301,将数据处理域中的非实时结构化数据通过增量数据同步复制方式和存量数据初始化方式加载到数据存储模块的数据缓冲区中;
步骤S302,采用ETL方式,将数据缓冲区中的数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
步骤S303,采用ETL方式或者通过SQL转换方式将数据仓库的明细数据层中的数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
步骤S304,按照业务应用需求,采用ETL方式将轻度汇总层中存储的数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供数据计算模块获取。
其中,可以以数据仓库中的数据为基础,支撑数据计算模块进行数据计算和分析服务模块进行统一分析服务,也可以以集市数据为基础,支撑分析服务模块进行统一分析服务,如进行多维分析CUBE,数据挖掘算法等。
如图4所示,在一个实施例中,优选地,当数据接入模块和数据存储模块之间通过第二数据链路进行数据处理时,包括:
步骤S401,将采集量测数据加载到数据存储模块的采集量测数据存储区中;
步骤S402,将采集量测数据通过预设关联模型转化为结构化数据;
步骤S403,采用ETL方式,将结构化数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
步骤S404,采用ETL方式或者通过SQL转换方式将数据仓库的明细数据层中的结构化数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
步骤S405,按照业务应用需求,采用ETL方式将轻度汇总层中存储的结构化数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供数据计算模块获取。
如图5所示,在一个实施例中,优选地,当数据接入模块和数据存储模块之间通过第三数据链路进行数据处理时,包括:
步骤S501,将外部数据缓存至数据存储模块的数据缓冲区中;
在一个实施例中,优选地,当将外部数据缓存至数据存储模块的数据缓冲区中时,数据存储模块用于:
通过安全隔离装置建立外部网络和内部网络的数据缓存区之间的映射关系,以实现将外部数据传输至数据缓存区中。
对于信息外网的外部数据(如Internet、中国天气网数据等)接入至全业务统一数据中心数据分析域,主要通过安全隔离装置,建立外网与内网全业务统一数据中心数据分析域数据缓冲区数据库访问的映射关系,并提供外网业务与专内网全业务统一数据中心数据分析域数据缓冲区数据库访问地址及权限,实现外网业务与内网全业务统一数据中心数据分析域的数据传输,同时,只允许外网到内网数据库的单向传输。
步骤S502,采用ETL方式,将数据缓冲区中的外部数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
步骤S503,采用ETL方式或者通过SQL转换方式将数据仓库的明细数据层中的外部数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
步骤S504,按照业务应用需求,采用ETL方式将轻度汇总层中存储的外部数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供数据计算模块获取。
在一个实施例中,优选地,除了上述三条数据链路以外,还存在第四数据链路,即将数据仓库或采集量测数据存储区中的热点数据保存至数据存储模块的热点数据存储区中,以供数据计算模块获取。
在一个实施例中,优选地,当通过离线数据计算组件对目标电力数据进行计算时,数据计算模块用于:
通过离线数据计算组件,基于MapReduce处理过程和 Spark数据框架对目标电力数据进行计算。
关于离线数据计算,将采用大数据平台的离线数据计算组件,该组件基于MapReduce、 Spark进行优化封装。
MapReduce是一个单输入、两阶段(Map和Reduce)的数据处理过程。首先,MapReduce对具有简单数据关系、易于划分的大规模数据采用“分而治之”的并行处理思想;其次,将大量重复的数据记录处理过程总结成Map和Reduce两个抽象操作;最后,提供一个统一的并行计算框架,把并行计算所涉及到的诸多系统层细节交给计算框架去完成。MapReduce支持大批量数据的离线计算、分析。
Spark是基于内存并行大数据框架,中间结果存放到内存,对于迭代数据Spark效率高,它可以帮助优化整体数据处理流程的大数据查询的延迟计算。
针对离线数据计算结果可将其中的热点数据存在热点数据存储区中以供快速读取、应用。
在一个实施例中,优选地,当通过实时数据计算组件对所述目标电力数据进行计算时,所述数据计算模块用于:
通过流式计算方式或实时在线请求计算方式对所述目标电力数据进行计算。
流式计算方面,采用大数据平台流计算引擎组件,该组件基于Storm优化封装,Storm流式计算是一种高实时性的计算模式,Storm将一定时间窗口内系统产生的流动数据直接导入内存进行实时计算,并从流动的、无序的数据中获取有价值的信息输出。
实时在线请求计算方面,采用大数据平台的内存计算组件,该组件基于Spark优化封装,它通过丰富的API和基于内存的高速计算引擎满足实时在线数据的即席查询等应用。针对实时在线请求计算的结果数据可将其中的热点数据存在热点数据存储区中以供快速读取、应用。
综上所述,本申请的电力数据处理系统的架构图可以参照图6,其通过分布式消息队列、ETL、Sqoop、API等各种技术手段,提取结构化非实时数据、采集量测数据、外部数据,同时对各类数据按照统一数据规范进行标准化及关联,并按不同时效性的计算及应用需求,分类进行数据存储、流转及管理,支撑分析场景、运监分析应用场景迁移和资产经营诊断平台迁移等工作。这样,改变原数据复制的业务集成方式为共享使用方式,将分析业务从业务处理系统剥离,统一由数据仓库和平台支撑,设计统一的数据仓库和大数据平台,统一管理企业数据资源,统一支撑数据分析应用,从而消除数据冗余,提高跨专业数据一致性与时效性,实现源端业务系统数据逻辑统一、分布合理、干净透明,解决了现有一系统一数据库,业务数据分散、冗余存储,缺乏统一有效管控的问题。
根据本发明实施例的第二方面,提供一种基于上述系统的链路优化方法,即电力数据处理方法,所述电力数据处理方法通过第一方面中任一项所述的电力数据处理系统去实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种电力数据处理系统进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于大数据平台的数据处理系统,其特征在于,包括:
数据接入模块,用于采集各个类别的电力数据,其中,电力数据的类别包括:非实时结构化数据、采集量测数据和外部数据;
数据存储模块,用于分别根据预设数据处理规则对各个类别的电力数据进行标准化处理和关联处理,并将处理后的电力数据按照业务应用需求进行分类存储;
数据计算模块,用于根据业务应用需求从数据存储模块获取对应的目标电力数据,并通过离线数据计算组件或实时数据计算组件对目标电力数据进行计算,得到计算结果;
分析服务模块,用于获取计算结果,并对计算结果进行分析后按照预设输出形式进行输出。
2.根据权利要求1所述的基于大数据平台的数据处理系统,其特征在于,
当所述电力数据的类别为非实时结构化数据时,所述数据接入模块和所述数据存储模块之间通过第一数据链路进行数据处理;
当所述电力数据的类别为采集量测数据时,所述数据接入模块和所述数据存储模块之间通过第二数据链路进行数据处理;
当所述电力数据的类别为外部数据时,所述数据接入模块和所述数据存储模块之间通过第三数据链路进行数据处理。
3.根据权利要求2所述的基于大数据平台的数据处理系统,其特征在于,
当所述数据接入模块和所述数据存储模块之间通过第一数据链路进行数据处理时,
所述数据接入模块具体用于:
将数据处理域中的非实时结构化数据通过增量数据同步复制方式和存量数据初始化方式加载到所述数据存储模块的数据缓冲区中;
所述数据存储模块具体用于:
采用ETL方式,将所述数据缓冲区中的数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取。
4.根据权利要求2所述的基于大数据平台的数据处理系统,其特征在于,
当所述数据接入模块和所述数据存储模块之间通过第二数据链路进行数据处理时,
所述数据存储模块具体用于:
将所述采集量测数据加载到所述数据存储模块的采集量测数据存储区中;
将所述采集量测数据通过预设关联模型转化为结构化数据;
所述数据存储模块具体用于:
采用ETL方式,将所述结构化数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的结构化数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的结构化数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取。
5.根据权利要求2所述的基于大数据平台的数据处理系统,其特征在于,
当所述数据接入模块和所述数据存储模块之间通过第三数据链路进行数据处理时,
所述数据存储模块具体用于:
将所述外部数据缓存至所述数据存储模块的数据缓冲区中;
所述数据存储模块具体用于:
采用ETL方式,将所述数据缓冲区中的外部数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的外部数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的外部数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取。
6.根据权利要求5所述的基于大数据平台的数据处理系统,其特征在于,当将所述外部数据缓存至所述数据存储模块的数据缓冲区中时,所述数据存储模块用于:
通过安全隔离装置建立外部网络和内部网络的所述数据缓存区之间的映射关系,以实现将所述外部数据传输至所述数据缓存区中。
7.根据权利要求3-6所述的基于大数据平台的数据处理系统,其特征在于,所述数据存储模块还用于:
将所述数据仓库或所述采集量测数据存储区中的热点数据保存至所述数据存储模块的热点数据存储区中,以供所述数据计算模块获取。
8.根据权利要求1所述的基于大数据平台的数据处理系统,其特征在于,当通过离线数据计算组件对所述目标电力数据进行计算时,所述数据计算模块用于:
通过所述离线数据计算组件,基于MapReduce处理过程和 Spark数据框架对所述目标电力数据进行计算。
9.根据权利要求1所述的基于大数据平台的数据处理系统,其特征在于,当通过实时数据计算组件对所述目标电力数据进行计算时,所述数据计算模块用于:
通过流式计算方式或实时在线请求计算方式对所述目标电力数据进行计算。
10.一种基于权利要求1-9任一所述的系统的链路优化方法,其特征在于,
当所述电力数据的类别为非实时结构化数据时,所述数据接入模块和所述数据存储模块之间通过第一数据链路进行数据处理;
当所述电力数据的类别为采集量测数据时,所述数据接入模块和所述数据存储模块之间通过第二数据链路进行数据处理;
当所述电力数据的类别为外部数据时,所述数据接入模块和所述数据存储模块之间通过第三数据链路进行数据处理;
当所述数据接入模块和所述数据存储模块之间通过第一数据链路进行数据处理时,
所述数据接入模块具体用于:
将数据处理域中的非实时结构化数据通过增量数据同步复制方式和存量数据初始化方式加载到所述数据存储模块的数据缓冲区中;
所述数据存储模块具体用于:
采用ETL方式,将所述数据缓冲区中的数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取;
当所述数据接入模块和所述数据存储模块之间通过第二数据链路进行数据处理时,
所述数据存储模块具体用于:
将所述采集量测数据加载到所述数据存储模块的采集量测数据存储区中;
将所述采集量测数据通过预设关联模型转化为结构化数据;
所述数据存储模块具体用于:
采用ETL方式,将所述结构化数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的结构化数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的结构化数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取;
当所述数据接入模块和所述数据存储模块之间通过第三数据链路进行数据处理时,
所述数据存储模块具体用于:
将所述外部数据缓存至所述数据存储模块的数据缓冲区中;
所述数据存储模块具体用于:
采用ETL方式,将所述数据缓冲区中的外部数据按照统一的数据模型标准抽取到数据仓库的明细数据层中;
采用ETL方式或者通过SQL转换方式将所述数据仓库的明细数据层中的外部数据抽取到数据仓库的轻度汇总层中,并按照数据仓库模型进行存储;
按照业务应用需求,采用ETL方式将所述轻度汇总层中存储的外部数据按照集市模型和粒度需求进行聚合,并存储到数据集市中,以供所述数据计算模块获取。
CN202010051550.1A 2020-01-17 2020-01-17 基于大数据平台的数据处理系统及链路优化方法 Active CN111198918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010051550.1A CN111198918B (zh) 2020-01-17 2020-01-17 基于大数据平台的数据处理系统及链路优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010051550.1A CN111198918B (zh) 2020-01-17 2020-01-17 基于大数据平台的数据处理系统及链路优化方法

Publications (2)

Publication Number Publication Date
CN111198918A true CN111198918A (zh) 2020-05-26
CN111198918B CN111198918B (zh) 2022-10-04

Family

ID=70746532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010051550.1A Active CN111198918B (zh) 2020-01-17 2020-01-17 基于大数据平台的数据处理系统及链路优化方法

Country Status (1)

Country Link
CN (1) CN111198918B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112671845A (zh) * 2020-12-11 2021-04-16 国汽(北京)智能网联汽车研究院有限公司 数据处理方法、装置、电子设备、存储介质及云端系统
CN113342273A (zh) * 2021-06-09 2021-09-03 北京九贺科技有限公司 一种基于缓存的大数据存储方法及系统
CN113656370A (zh) * 2021-08-16 2021-11-16 南方电网数字电网研究院有限公司 电力量测系统数据处理方法、装置和计算机设备
CN113901042A (zh) * 2021-12-10 2022-01-07 西安中电环通数字科技有限公司 生态环境数据动态活动水平库及终端

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442269B1 (en) * 1999-08-23 2002-08-27 Aspect Communications Method and apparatus for integrating business data and transaction data in a transaction processing environment
CN105631764A (zh) * 2015-12-31 2016-06-01 国网电力科学研究院武汉南瑞有限责任公司 面向智慧城市的智能电网大数据应用系统
KR101732819B1 (ko) * 2015-12-07 2017-05-08 이동규 빅데이터 기반 재난 예측 및 감지 플랫폼 시스템과 그 방법
CN107766493A (zh) * 2017-10-19 2018-03-06 国网辽宁省电力有限公司 一种贴源电网资源模型分析系统及方法
CN109388637A (zh) * 2018-09-21 2019-02-26 北京京东金融科技控股有限公司 数据仓库信息处理方法、装置、系统、介质
CN109669934A (zh) * 2018-12-11 2019-04-23 江苏瑞中数据股份有限公司 一种切合电力客服业务的数据仓库系统及其构建方法
CN110019462A (zh) * 2017-11-14 2019-07-16 南方电网科学研究院有限责任公司 电力科研生产数据分析方法、装置、系统及存储介质
CN110119391A (zh) * 2019-05-14 2019-08-13 重庆八戒传媒有限公司 一种基于服务数据的数据仓库创建方法及数据仓库

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442269B1 (en) * 1999-08-23 2002-08-27 Aspect Communications Method and apparatus for integrating business data and transaction data in a transaction processing environment
KR101732819B1 (ko) * 2015-12-07 2017-05-08 이동규 빅데이터 기반 재난 예측 및 감지 플랫폼 시스템과 그 방법
CN105631764A (zh) * 2015-12-31 2016-06-01 国网电力科学研究院武汉南瑞有限责任公司 面向智慧城市的智能电网大数据应用系统
CN107766493A (zh) * 2017-10-19 2018-03-06 国网辽宁省电力有限公司 一种贴源电网资源模型分析系统及方法
CN110019462A (zh) * 2017-11-14 2019-07-16 南方电网科学研究院有限责任公司 电力科研生产数据分析方法、装置、系统及存储介质
CN109388637A (zh) * 2018-09-21 2019-02-26 北京京东金融科技控股有限公司 数据仓库信息处理方法、装置、系统、介质
CN109669934A (zh) * 2018-12-11 2019-04-23 江苏瑞中数据股份有限公司 一种切合电力客服业务的数据仓库系统及其构建方法
CN110119391A (zh) * 2019-05-14 2019-08-13 重庆八戒传媒有限公司 一种基于服务数据的数据仓库创建方法及数据仓库

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112671845A (zh) * 2020-12-11 2021-04-16 国汽(北京)智能网联汽车研究院有限公司 数据处理方法、装置、电子设备、存储介质及云端系统
CN112671845B (zh) * 2020-12-11 2023-12-29 国汽(北京)智能网联汽车研究院有限公司 数据处理方法、装置、电子设备、存储介质及云端系统
CN113342273A (zh) * 2021-06-09 2021-09-03 北京九贺科技有限公司 一种基于缓存的大数据存储方法及系统
CN113342273B (zh) * 2021-06-09 2022-09-09 重庆云微软件有限公司 一种基于缓存的大数据存储方法及系统
CN113656370A (zh) * 2021-08-16 2021-11-16 南方电网数字电网研究院有限公司 电力量测系统数据处理方法、装置和计算机设备
CN113656370B (zh) * 2021-08-16 2024-04-30 南方电网数字电网集团有限公司 电力量测系统数据处理方法、装置和计算机设备
CN113901042A (zh) * 2021-12-10 2022-01-07 西安中电环通数字科技有限公司 生态环境数据动态活动水平库及终端

Also Published As

Publication number Publication date
CN111198918B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN111198918B (zh) 基于大数据平台的数据处理系统及链路优化方法
CN109582717B (zh) 一种面向电力大数据的数据库统一平台及其读取方法
CN113064866B (zh) 一种电力业务数据整合系统
CN111586091B (zh) 一种实现算力组配的边缘计算网关系统
CN110147470B (zh) 一种跨机房数据比对系统及方法
CN109739919A (zh) 一种用于电力系统的前置机和采集系统
CN110489407A (zh) 数据补采方法、装置、计算机设备及存储介质
CN111258978A (zh) 一种数据存储的方法
CN111930835A (zh) 一种城市轨道交通用智能运维大数据管理系统和方法
CN111625583B (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN111737325A (zh) 一种基于大数据技术的电力数据分析方法和装置
CN106407072A (zh) 一种大数据平台的监控系统
CN109474458B (zh) 区域医疗信息平台接入本地医疗信息系统的方法
CN109446167A (zh) 一种日志数据存储、提取方法及装置
CN112784001A (zh) 基于全流程管控的不动产信息监视方法及系统
CN115439015B (zh) 基于数据中台的局域电网数据管理方法、装置及设备
CN113656370B (zh) 电力量测系统数据处理方法、装置和计算机设备
CN115374101A (zh) 轨道交通站段级数据管理系统
Huang et al. An application deployment approach based on hybrid cloud
CN111178763A (zh) 一种企业能效数据管理方法和装置
CN111104416A (zh) 一种分布式电力数据管理系统
LU503249B1 (en) Digital-Twinning-Based Three-Dimensional Pipe Gallery System for Chemical Industry Park
CN115361397B (zh) 基于云边协同和区块链的电网数据处理方法和系统
CN114448976B (zh) 网络报文的组装方法、装置、设备、介质和程序产品
CN117634894B (zh) 生态环境风险评估方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant