CN111159180A - 一种基于数据资源目录构建的数据处理方法及系统 - Google Patents
一种基于数据资源目录构建的数据处理方法及系统 Download PDFInfo
- Publication number
- CN111159180A CN111159180A CN201911308080.6A CN201911308080A CN111159180A CN 111159180 A CN111159180 A CN 111159180A CN 201911308080 A CN201911308080 A CN 201911308080A CN 111159180 A CN111159180 A CN 111159180A
- Authority
- CN
- China
- Prior art keywords
- data
- service
- database
- types
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Abstract
本发明提供了一种基于数据资源目录构建的数据处理方法及系统,所述方法包括:对从各数据资源目录构建中采集到的电力信息化大数据进行分类并按数据类型存储;根据业务需求以及各数据资源目录构建从按数据类型存储的数据中选择出相应的数据,集中存储并进行处理,形成业务数据;将所述业务数据提供给用户;其中,所述数据资源目录构建基于数据库种类进行存储;所述数据类型包括模型数据、运行数据和统计分析数据。本发明提高了调控大数据在多个方面不同业务的数据性能。
Description
技术领域
本发明涉及数据存储领域,具体涉及一种基于数据资源目录构建的数据处理方法及系统。
背景技术
随着特高压交直流混合电网的大规模建设以及“大运行”体系建设的全面推进,电网调度控制系统的服务范围快速扩大,数据来源增多,数据类型多样,数据规模和存储压力急剧增大,调控业务对海量多源数据的高效存储与快速处理的要求不断提升。目前电力调度控制系统中使用的数据库以关系型数据库为主,关系型数据库是一种建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据,具有稳定、安全等特点。除此之外,也有部分系统采用非关系型数据库如Hbase等,来解决海量多源异构数据的存储难题,非关系型数据库相对于关系型数据库具有更高的数据存储能力,特别针对于非结构化和半结构化数据,是解决存储智能化数据资源目录难题的一个常用方法。
但是调控数据种类繁多,包括实时数据、历史数据、模型数据等结构化数据,高频变化的时间序列数据,还有CIM/G、CASE断面、电网综合故障报告和波形文件、DTS教案、语音数据等非结构化数据。由于不同业务对数据访问性能要求不同,单一的数据库存储技术无法满足所有业务对数据的存储、查询等性能要求,且并行处理大数据的能力低,建设成本高,导致电网调度控制系统在面对海量多源异构数据时遇到技术瓶颈。
发明内容
为了解决现有技术中所存在的上述不足,本发明提供的一种基于数据资源目录构建的数据处理方法,包括:
对从各数据资源目录构建中采集到的电力信息化大数据进行分类并按数据类型存储;
根据业务需求以及各数据资源目录构建从按数据类型存储的数据中选择出相应的数据,集中存储并进行处理,形成业务数据;
将所述业务数据提供给用户;
其中,所述数据资源目录构建基于数据库种类进行存储;所述数据类型包括模型数据、运行数据和统计分析数据。
优选的,所述按数据类型存储,包括:
构建多种类型的数据库,所述数据库包括:关系型数据库、MPP数据库和Hadoop数据库;
将模型数据存储在关系型数据库中;
将运行数据按照活跃度进行区分,将活跃度较高的数据存入MPP数据库,将活跃度较低的数据存入Hadoop数据库;
将统计分析数据存入MPP数据库;
其中,所述模型数据包括电力调度控制相关设备的电气参数、关联信息、元数据、字典数据及配置参数;所述运行数据包括电气量数据和非电气量数据;所述统计分析数据包括根据业务需求对模型数据和运行数据进行分析处理后产生的各类指标参数。
优选的,所述根据业务需求以及各数据资源目录构建从按数据类型存储的数据中选择出相应的数据,集中存储并进行处理,形成业务数据,包括:
基于所述业务需求,生成对数据资源目录构建进行计算分析的指令;
基于所述指令从至少一种数据库中选择出相应的数据,并导入到数据存储层进行混合存储;
对数据存储层中的数据进行处理,形成业务数据。
优选的,所述基于所述指令从至少一种数据库中选择出相应的数据,并导入到数据存储层进行混合存储,包括:
基于所述指令执行至少一种分析操作,从至少一种数据库中抽取所需数据;
对被抽取出来的数据执行分拣操作,将抽取的数据分为有效数据和无效数据;
将有效数据和无效数据存储在数据存储层的不同位置。
优选的,所述对被抽取出来的数据执行分拣操作,将抽取的数据分为有效数据和无效数据,包括:
基于至少一种映射规则对被抽取出来的数据执行至少一种映射操作,得到不同类型的映射数据;
基于至少一种业务规则对不同类型的映射数据进行识别,确定为有效数据或无效数据。
优选的,所述对被抽取出来的数据执行分拣操作,包括:
在数据被抽取的同时执行数据分拣操作,或当被抽取出来的数据达到阈值时对被抽取出来的数据重复执行数据分拣操作。
优选的,所述对数据存储层中的数据进行处理,形成业务数据,包括:
从数据存储层中提取业务需求所需的不同类型数据;
对不同类型的数据进行转换、清洗和加工,并将加工后的数据融合;
将融合后的数据根据业务需求进行计算分析,形成业务数据。
优选的,所述将所述业务数据提供给用户,包括:
对业务数据进行再组织形成指定场景使用的专用数据,结合可视化技术提供给用户。
优选的,所述对业务数据进行再组织形成指定场景使用的专用数据,结合可视化技术提供给用户,包括:
使用数据连接器在展示平台和数据存储层之间建立统一的访问连接,通过配置数据存储位置IP地址、端口号和源数据类型,调用一种或多种数据连接协议,与数据之间建立数据传输通道,对数据进行访问和操作;
使用执行引擎执行操作序列,并返回查询的结果集;
对业务数据进行再组织形成指定场景使用的专用数据;
将专用数据通过可视化技术显示于指定场景;
基于提供的访问接口服务,前台展示页面与后台数据进行交互,结合可视化场景将数据提供给用户。
优选的,所述业务需求,包括:
主题查询、实时关联查询、离线数据挖掘、历史曲线分析、系统管理、连表查询、报表统计、定时任务调度、数据审计和日志管理。
基于同一发明构思,本发明还提供了一种基于数据资源目录构建的数据处理系统,包括:
分类存储模块,用于对从各数据资源目录构建中采集到的电力信息化大数据进行分类并按数据类型存储;
处理模块,用于根据业务需求以及各数据资源目录构建从按数据类型存储的数据中选择出相应的数据,集中存储并进行处理,形成业务数据;
应用服务模块,用于将所述业务数据提供给用户;
其中,所述数据资源目录构建基于数据库种类进行存储;所述数据类型包括模型数据、运行数据和统计分析数据。
优选的,所述处理模块,包括:
需求处理子模块,用于基于所述业务需求,生成对数据资源目录构建进行计算分析的指令;
数据混合子模块,用于基于所述指令从至少一种数据库中选择出相应的数据;
数据存储层,用于存储所述数据混合子模块中的数据;
计算分析子模块,用于对数据存储层中的数据进行处理,形成业务数据。
优选的,所述数据混合子模块,包括:
数据抽取单元,用于基于所述指令执行至少一种分析操作,从至少一种数据库中抽取所需数据;
分拣操作单元,用于对被抽取出来的数据执行分拣操作,将抽取的数据分为有效数据和无效数据。
与现有技术相比,本发明的有益效果为:
本发明提供的技术方案,对从各数据资源目录构建中采集到的电力信息化大数据进行分类并按数据类型存储;根据业务需求以及各数据资源目录构建从按数据类型存储的数据中选择出相应的数据,集中存储并进行处理,形成业务数据;将所述业务数据提供给用户;其中,所述数据资源目录构建基于数据库种类进行存储;所述数据类型包括模型数据、运行数据和统计分析数据。本发明基于不同数据库的优势存储不同类型的数据,将数据以混合方式来组织可以优化数据存储,极大地提高了数据采集效率,以应对大量数据的处理,从而大幅降低建设成本。
本发明提供的技术方案,针对现有单一数据库在电力信息化系统中包含的模型数据、历史数据和实时数据等多个类型的海量数据存储与应用方面的不足,建立基于多数据库的混合存储方法,对多种类型的调控大数据进行统一存储与管理,在此基础上提高调控大数据的采集与汇聚、存储及使用与展示等方面不同业务的数据性能。
本发明提供的技术方案,提高了电网数据的管理和使用水平,将电力行业分散的数据资源进行整合优化,降低各电力部门管理成本和各类应用开发运营复杂度,加快业务应用系统落地速度和随需而变的速度,提高了电力信息化系统的可靠性和性能。
本发明提供的技术方案,可以在对数据执行一个或多个分析操作之后从多个基础数据库提取源数据,执行用于数据细化的操作以对数据进行分类,通过执行映射,变换等操作来进一步处理数据,提高了数据混合存储的准确率,提高了系统并行处理大数据的能力。
本发明提供的技术方案,采用多种类型数据抽取安全机制,保证数据采集的完整性和正确性。
附图说明
图1为本发明提供的一种基于数据资源目录构建的数据处理方法流程图;
图2为本发明实施例提供的一种基于数据资源目录构建的数据处理方法详细流程图;
图3为本发明实施例中一种基于数据资源目录构建的数据处理系统示意图;
图4为本发明实施例中一种基于数据资源目录构建的数据处理方法原理图。
具体实施方式
为了更好地理解本发明,下面结合说明书附图和实例对本发明的内容做进一步的说明。
实施例1
现有数据库种类包括关系数据库、列式数据库、实时数据库和MPP数据库等,每种数据库在智能化数据资源目录构建的存储中各有优劣。其中,关系数据库按照行进行存储,关系数据库擅长随机读操作,不适合用于大数据,主要用于数据访问的实时性不高的场合。列式存储适合于较低延迟的读写访问、高并发的访问请求。基于列存储的数据存储与管理装载速度快、易于压缩、易于做聚合分析,适宜于大数据规模下的统计、分析等应用功能。列式数据库按照键值对(Key-Value Pair)进行组织、索引和存储,适合结构复杂、关联较少的半结构化数据存储。分布式实时数据库基于内存进行存储,支持对实时数据的快速存储和访问,提供高速的本地访问接口、远方服务访问接口,支持数据关系描述和检索,主要用于存储电网运行的实时信息。分布式文件系统适合存储海量非结构化数据,即将数据存储在物理上分散的多个存储节点上,统一管理和分配节点资源。MPP数据库采用shared nothing架构,具备数据高效存储、高并发查询功能,具有完全的可伸缩性、高可用、高性能、资源共享等优势,适用于海量数据的统计分析。
为了克服传统单一数据库在面对海量多源异构数据时的技术瓶颈,如图1所示,本发明提供了一种基于数据资源目录构建的数据处理方法,包括:
S1、对从各数据资源目录构建中采集到的电力信息化大数据进行分类并按数据类型存储;
S2、根据业务需求以及各数据资源目录构建从按数据类型存储的数据中选择出相应的数据,集中存储并进行处理,形成业务数据;
S3、将所述业务数据提供给用户;
其中,所述数据资源目录构建基于数据库种类进行存储;所述数据类型包括模型数据、运行数据和统计分析数据。
本发明提供的所述方法应用于基于智能化数据资源目录构建的混合存储系统,如图2所示,所述方法具体包括以下步骤:
数据采集步骤,从各电力信息化系统中采集智能化数据资源目录构建,从各智能化数据资源目录中采集电力信息化大数据,采集智能化数据资源目录采用的方式为:手动数据文件导入,或者由采集设备自动抽取方式;
分类存储步骤,为方便对智能化数据资源目录构建进行高效存储及进一步的应用,将电力信息化系统中采集到的数据分为不同类型,根据不同类型数据的数据特征和业务需求,选择不同的基础数据库进行数据存储;
需求接收步骤,用户访问多数据库混合存储系统,接收并分析用户的业务需求,形成对智能化数据资源目录构建进行计算分析的指令;
数据混合步骤,根据指令,选择业务需求所需数据,对一种或多种不同类型的数据进行混合,将一个或多个基础数据库中的异构数据导入到集中的数据存储层,同时协调不同基础数据库的数据访问和不同数据源之间的信息,在数据导入基础上进行数据清洗和预处理,统一不同类型数据的存储方式,为下一步计算分析提供数据基础;
计算分析步骤,对混合存储的数据进行抽取、加工、融合,根据业务需求,对存储数据进行计算分析,形成业务数据;
应用服务步骤,对业务数据进行再组织形成特定场景使用的专用数据,结合可视化技术提供给用户。
进一步的,所述分类存储步骤,将电力信息化系统中采集到的数据分为不同类型,根据不同类型数据的数据特征和业务需求,选择不同的基础数据库进行数据存储,具体包括:
判断步骤,对于采集的智能化数据资源目录,首先判断智能化数据资源目录中数据的数据类型,所述数据类型包括模型数据、运行数据和统计分析数据;
对于模型数据,其数据量相对较少且更新频率稳定,存储在关系型数据库;
对于运行数据,电网系统产生各类运行数据,分为高活跃度数据和低活跃度数据,两种类型数据采用不同的存储策略:高活跃度数据为近期运行数据,将其存入MPP数据库,用于统计、分析、为应用提供数据支撑;低活跃度数据为活跃度较低的历史运行数据,将其存入Hadoop数据库,用于基于电网长期的运行规律进行挖掘、分析;
对于统计分析数据,其数据量相对较少、更新频率较快且对查询处理实时性要求较高,将其存入MPP数据库,便于应用查询与展示。
进一步的,所述计算分析步骤,对混合存储的数据进行抽取、加工、融合,具体包括:
数据提取步骤:从一种或多种不同类型的数据中提取业务所需数据;
数据转换步骤:将一种或多种不同类型的数据按照业务需求,转换成目的数据存储层要求的形式,并对数据进行清洗和加工;
数据融合步骤:将加工后的数据融合。
其中,所述应用服务步骤提供主题查询、实时关联查询、离线数据挖掘、历史曲线分析、系统管理、连表查询、报表统计、定时任务调度、数据审计、日志管理等功能。
所述基础数据库包括:关系型数据库、MPP数据库、Hadoop数据库。
进一步的,所述应用服务步骤,对业务数据进行再组织形成特定场景使用的专用数据,结合可视化技术提供给用户,具体包括:
数据连接步骤,使用数据连接器在平台和数据存储层之间建立统一的访问连接,通过配置数据存储位置IP地址、端口号和源数据类型,调用底层一种或多种数据连接协议,与数据之间建立数据传输通道,对数据进行访问和操作;
执行步骤,使用执行引擎执行操作序列,并返回查询的结果集;
组织步骤,对业务数据进行再组织形成特定场景使用的专用数据;
可视化步骤,将专用数据通过可视化技术实现于特定场景;
展示步骤,提供符合规范的直接访问的接口服务,前台展示页面与后台数据进行交互,结合可视化场景将数据提供给用户。
其中,所述数据类型包括模型数据、运行数据和统计分析数据,
所述模型数据主要包含电力调度控制相关设备的电气参数、关联信息等基础数据、以及元数据、字典数据及配置参数,
所述运行数据主要包括传统的电气量数据,具体包括电压、电流、频率、有功、无功、电量、保护故障录波等数据、以及其它非电气量数据,具体包括监控告警信息、营销数据、运检信息、气象环境数据、地理信息等,
所述统计分析数据主要是根据业务需求对模型数据和运行数据进行分析处理后产生的各类指标参数等数据。
进一步的,所述数据混合步骤具体包括:
数据抽取步骤,执行一个或多个基本分析操作,以一种或多种数据格式从一个或多个基础数据库中抽取所需数据,所述一个或多个基础数据库具有一种或多种类型的约束和结构,其中所述一个或多个基本分析操作用于条件检查;
分拣步骤,在数据被抽取的同时执行数据分拣操作,所述数据分拣操作与基本分析操作并行地执行;或者当被抽取的数据量达到阈值时重复执行数据分拣操作,直到所有被抽取的数据都被分拣;
验证步骤,重复数据分拣操作将抽取的数据识别为有效数据和无效数据,并且将有效数据和无效数据存储在数据存储层的不同位置;
其中,所述精炼步骤具体包括:
映射步骤,基于一个或多个映射规则执行不同类型数据的一种或多种映射操作,其中所述一种或多种映射操作包括从一个表到另一个表的数据映射,将数据分割成多个输出路径;
转换模块,基于一个或多个业务规则对所映射的不同类型数据执行二次分析转换操作以获得转换的不同类型数据,其中将所转换的不同类型数据存储在数据存储层中的目标区域中。
实施例2
基于同一发明构思,本发明实施例还提供了一种基于数据资源目录构建的数据处理系统,包括:
分类存储模块,用于对从各数据资源目录构建中采集到的电力信息化大数据进行分类并按数据类型存储;
处理模块,用于根据业务需求以及各数据资源目录构建从按数据类型存储的数据中选择出相应的数据,集中存储并进行处理,形成业务数据;
应用服务模块,用于将所述业务数据提供给用户;
其中,所述数据资源目录构建基于数据库种类进行存储;所述数据类型包括模型数据、运行数据和统计分析数据。
本实施例中,所述处理模块,包括:
需求接收子模块,用于基于所述业务需求,生成对数据资源目录构建进行计算分析的指令;
数据混合子模块,用于基于所述指令从至少一种数据库中选择出相应的数据;
数据存储层,用于存储所述数据混合子模块中的数据;
计算分析子模块,用于对数据存储层中的数据进行处理,形成业务数据。
实施例中,所述数据混合子模块,包括:
数据抽取单元,用于基于所述指令执行至少一种分析操作,从至少一种数据库中抽取所需数据;
分拣操作单元,用于对被抽取出来的数据执行分拣操作,将抽取的数据分为有效数据和无效数据。
如图3所示,本发明提供了实施例还提供了一种基于数据资源目录构建的数据处理系统,该系统包括:基础数据库、数据存储层、数据采集模块、分类存储模块、处理模块和应用服务模块,所述处理模块包括需求接收子模块、数据融合子模块和计算分析子模块,如图4所示,所述系统用于实现上述的多数据库混合存储方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
Claims (13)
1.一种基于数据资源目录构建的数据处理方法,其特征在于,包括:
对从各数据资源目录构建中采集到的电力信息化大数据进行分类并按数据类型存储;
根据业务需求以及各数据资源目录构建从按数据类型存储的数据中选择出相应的数据,集中存储并进行处理,形成业务数据;
将所述业务数据提供给用户;
其中,所述数据资源目录构建基于数据库种类进行存储;所述数据类型包括模型数据、运行数据和统计分析数据。
2.如权利要求1所述的方法,其特征在于,所述按数据类型存储,包括:
构建多种类型的数据库,所述数据库包括:关系型数据库、MPP数据库和Hadoop数据库;
将模型数据存储在关系型数据库中;
将运行数据按照活跃度进行区分,将活跃度较高的数据存入MPP数据库,将活跃度较低的数据存入Hadoop数据库;
将统计分析数据存入MPP数据库;
其中,所述模型数据包括电力调度控制相关设备的电气参数、关联信息、元数据、字典数据及配置参数;所述运行数据包括电气量数据和非电气量数据;所述统计分析数据包括根据业务需求对模型数据和运行数据进行分析处理后产生的各类指标参数。
3.如权利要求2所述的方法,其特征在于,所述根据业务需求以及各数据资源目录构建从按数据类型存储的数据中选择出相应的数据,集中存储并进行处理,形成业务数据,包括:
基于所述业务需求,生成对数据资源目录构建进行计算分析的指令;
基于所述指令从至少一种数据库中选择出相应的数据,并导入到数据存储层进行混合存储;
对数据存储层中的数据进行处理,形成业务数据。
4.如权利要求3所述的方法,其特征在于,所述基于所述指令从至少一种数据库中选择出相应的数据,并导入到数据存储层进行混合存储,包括:
基于所述指令执行至少一种分析操作,从至少一种数据库中抽取所需数据;
对被抽取出来的数据执行分拣操作,将抽取的数据分为有效数据和无效数据;
将有效数据和无效数据存储在数据存储层的不同位置。
5.如权利要求4所述的方法,其特征在于,所述对被抽取出来的数据执行分拣操作,将抽取的数据分为有效数据和无效数据,包括:
基于至少一种映射规则对被抽取出来的数据执行至少一种映射操作,得到不同类型的映射数据;
基于至少一种业务规则对不同类型的映射数据进行识别,确定为有效数据或无效数据。
6.如权利要求4所述的方法,其特征在于,所述对被抽取出来的数据执行分拣操作,包括:
在数据被抽取的同时执行数据分拣操作,或当被抽取出来的数据达到阈值时对被抽取出来的数据重复执行数据分拣操作。
7.如权利要求4所述的方法,其特征在于,所述对数据存储层中的数据进行处理,形成业务数据,包括:
从数据存储层中提取业务需求所需的不同类型数据;
对不同类型的数据进行转换、清洗和加工,并将加工后的数据融合;
将融合后的数据根据业务需求进行计算分析,形成业务数据。
8.如权利要求1所述的方法,其特征在于,所述将所述业务数据提供给用户,包括:
对业务数据进行再组织形成指定场景使用的专用数据,结合可视化技术提供给用户。
9.如权利要求8所述的方法,其特征在于,所述对业务数据进行再组织形成指定场景使用的专用数据,结合可视化技术提供给用户,包括:
使用数据连接器在展示平台和数据存储层之间建立统一的访问连接,通过配置数据存储位置IP地址、端口号和源数据类型,调用一种或多种数据连接协议,与数据之间建立数据传输通道,对数据进行访问和操作;
使用执行引擎执行操作序列,并返回查询的结果集;
对业务数据进行再组织形成指定场景使用的专用数据;
将专用数据通过可视化技术显示于指定场景;
基于提供的访问接口服务,前台展示页面与后台数据进行交互,结合可视化场景将数据提供给用户。
10.如权利要求1所述的方法,其特征在于,所述业务需求,包括:
主题查询、实时关联查询、离线数据挖掘、历史曲线分析、系统管理、连表查询、报表统计、定时任务调度、数据审计和日志管理。
11.一种基于数据资源目录构建的数据处理系统,其特征在于,包括:
分类存储模块,用于对从各数据资源目录构建中采集到的电力信息化大数据进行分类并按数据类型存储;
处理模块,用于根据业务需求以及各数据资源目录构建从按数据类型存储的数据中选择出相应的数据,集中存储并进行处理,形成业务数据;
应用服务模块,用于将所述业务数据提供给用户;
其中,所述数据资源目录构建基于数据库种类进行存储;所述数据类型包括模型数据、运行数据和统计分析数据。
12.如权利要求11所述的系统,其特征在于,所述处理模块,包括:
需求处理子模块,用于基于所述业务需求,生成对数据资源目录构建进行计算分析的指令;
数据混合子模块,用于基于所述指令从至少一种数据库中选择出相应的数据;
数据存储层,用于存储所述数据混合子模块中的数据;
计算分析子模块,用于对数据存储层中的数据进行处理,形成业务数据。
13.如权利要求12所述的系统,其特征在于,所述数据混合子模块,包括:
数据抽取单元,用于基于所述指令执行至少一种分析操作,从至少一种数据库中抽取所需数据;
分拣操作单元,用于对被抽取出来的数据执行分拣操作,将抽取的数据分为有效数据和无效数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911308080.6A CN111159180A (zh) | 2019-12-18 | 2019-12-18 | 一种基于数据资源目录构建的数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911308080.6A CN111159180A (zh) | 2019-12-18 | 2019-12-18 | 一种基于数据资源目录构建的数据处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111159180A true CN111159180A (zh) | 2020-05-15 |
Family
ID=70557766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911308080.6A Pending CN111159180A (zh) | 2019-12-18 | 2019-12-18 | 一种基于数据资源目录构建的数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159180A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036576A (zh) * | 2020-08-20 | 2020-12-04 | 第四范式(北京)技术有限公司 | 一种基于数据形式的数据处理方法、装置和电子设备 |
CN112035709A (zh) * | 2020-08-25 | 2020-12-04 | 上海中通吉网络技术有限公司 | 资源目录的编排方法、高速读取方法、装置和设备 |
CN112347470A (zh) * | 2020-11-27 | 2021-02-09 | 国家电网有限公司大数据中心 | 基于区块链和数据安全沙箱的电网数据保护方法及系统 |
CN112463843A (zh) * | 2020-11-27 | 2021-03-09 | 国家电网有限公司大数据中心 | 基于区块链和数据资源目录的电网数据共享方法及系统 |
CN112765232A (zh) * | 2021-01-05 | 2021-05-07 | 广东核电合营有限公司 | 核电厂重大设备的数据管理方法及系统 |
WO2021233160A1 (zh) * | 2020-05-19 | 2021-11-25 | 长鑫存储技术有限公司 | 数据展示系统、方法、设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140122412A1 (en) * | 2012-11-01 | 2014-05-01 | Tata Consultancy Services Limited | System and method to provide analytical processing of data in a distributed data storage systems |
CN107066499A (zh) * | 2016-12-30 | 2017-08-18 | 江苏瑞中数据股份有限公司 | 面向异构存储多源数据管理及可视化系统的数据查询方法 |
CN109582717A (zh) * | 2018-10-16 | 2019-04-05 | 中国电力科学研究院有限公司 | 一种面向电力大数据的数据库统一平台及其读取方法 |
CN109582667A (zh) * | 2018-10-16 | 2019-04-05 | 中国电力科学研究院有限公司 | 一种基于电力调控大数据的多数据库混合存储方法及系统 |
-
2019
- 2019-12-18 CN CN201911308080.6A patent/CN111159180A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140122412A1 (en) * | 2012-11-01 | 2014-05-01 | Tata Consultancy Services Limited | System and method to provide analytical processing of data in a distributed data storage systems |
CN107066499A (zh) * | 2016-12-30 | 2017-08-18 | 江苏瑞中数据股份有限公司 | 面向异构存储多源数据管理及可视化系统的数据查询方法 |
CN109582717A (zh) * | 2018-10-16 | 2019-04-05 | 中国电力科学研究院有限公司 | 一种面向电力大数据的数据库统一平台及其读取方法 |
CN109582667A (zh) * | 2018-10-16 | 2019-04-05 | 中国电力科学研究院有限公司 | 一种基于电力调控大数据的多数据库混合存储方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021233160A1 (zh) * | 2020-05-19 | 2021-11-25 | 长鑫存储技术有限公司 | 数据展示系统、方法、设备及计算机可读存储介质 |
CN112036576A (zh) * | 2020-08-20 | 2020-12-04 | 第四范式(北京)技术有限公司 | 一种基于数据形式的数据处理方法、装置和电子设备 |
CN112035709A (zh) * | 2020-08-25 | 2020-12-04 | 上海中通吉网络技术有限公司 | 资源目录的编排方法、高速读取方法、装置和设备 |
CN112347470A (zh) * | 2020-11-27 | 2021-02-09 | 国家电网有限公司大数据中心 | 基于区块链和数据安全沙箱的电网数据保护方法及系统 |
CN112463843A (zh) * | 2020-11-27 | 2021-03-09 | 国家电网有限公司大数据中心 | 基于区块链和数据资源目录的电网数据共享方法及系统 |
CN112765232A (zh) * | 2021-01-05 | 2021-05-07 | 广东核电合营有限公司 | 核电厂重大设备的数据管理方法及系统 |
CN112765232B (zh) * | 2021-01-05 | 2024-03-19 | 广东核电合营有限公司 | 核电厂重大设备的数据管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582717B (zh) | 一种面向电力大数据的数据库统一平台及其读取方法 | |
US11762882B2 (en) | System and method for analysis and management of data distribution in a distributed database environment | |
CN111159180A (zh) | 一种基于数据资源目录构建的数据处理方法及系统 | |
CN108255712B (zh) | 数据系统的测试系统和测试方法 | |
CN109582667A (zh) | 一种基于电力调控大数据的多数据库混合存储方法及系统 | |
Li et al. | A spatiotemporal indexing approach for efficient processing of big array-based climate data with MapReduce | |
CN104820670B (zh) | 一种电力信息大数据的采集和存储方法 | |
Padhy | Big data processing with Hadoop-MapReduce in cloud systems | |
US9424274B2 (en) | Management of intermediate data spills during the shuffle phase of a map-reduce job | |
US11238045B2 (en) | Data arrangement management in a distributed data cluster environment of a shared pool of configurable computing resources | |
CN107408114B (zh) | 基于事务访问模式识别联结关系 | |
Lai et al. | Towards a framework for large-scale multimedia data storage and processing on Hadoop platform | |
CN104239377A (zh) | 跨平台的数据检索方法及装置 | |
CN110222029A (zh) | 一种大数据多维分析计算效率提升方法及系统 | |
CN114416855A (zh) | 一种基于电力大数据的可视化平台及方法 | |
Khan et al. | Predictive performance comparison analysis of relational & NoSQL graph databases | |
CN114297173A (zh) | 一种面向大规模海量数据的知识图谱构建方法和系统 | |
Sawyer et al. | Understanding query performance in Accumulo | |
Pothuganti | Big data analytics: Hadoop-Map reduce & NoSQL databases | |
CN111125199B (zh) | 一种数据库访问方法、装置及电子设备 | |
CN110019299A (zh) | 一种用于创建或刷新分析型数据仓库的离线数据集合的方法和装置 | |
CN115439015B (zh) | 基于数据中台的局域电网数据管理方法、装置及设备 | |
CN105574204B (zh) | 分布式电网调控运行数据的检索方法及系统 | |
CN111414355A (zh) | 一种海上风电场数据监测存储系统及方法、装置 | |
CN116126901A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |