CN106446131A - 配用电多源异构数据的混合存储方法和系统 - Google Patents
配用电多源异构数据的混合存储方法和系统 Download PDFInfo
- Publication number
- CN106446131A CN106446131A CN201610833056.4A CN201610833056A CN106446131A CN 106446131 A CN106446131 A CN 106446131A CN 201610833056 A CN201610833056 A CN 201610833056A CN 106446131 A CN106446131 A CN 106446131A
- Authority
- CN
- China
- Prior art keywords
- data
- electricity
- source
- described target
- electricity consumption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000009826 distribution Methods 0.000 title claims abstract description 25
- 238000013500 data storage Methods 0.000 claims abstract description 49
- 238000004140 cleaning Methods 0.000 claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 230000005611 electricity Effects 0.000 claims description 370
- 238000005304 joining Methods 0.000 claims description 102
- 230000009466 transformation Effects 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 20
- 238000004519 manufacturing process Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000000547 structure data Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 abstract description 3
- 239000000203 mixture Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 210000000352 storage cell Anatomy 0.000 description 1
- 230000005612 types of electricity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种配用电多源异构数据的混合存储方法,其方法包括:根据目标配用电数据源判定目标配用电数据源中的配用电数据的数据类型;根据该数据类型确定目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式;根据目标配用电数据源中的配用电数据的数据抽取方式从目标配用电数据源中抽取目标配用电数据源中的配用电数据;根据目标配用电数据源中的配用电数据的数据存储方式存储已抽取的配用电数据;对已存储的各种配用电数据源的配用电数据进行数据清洗转换获得清洗转换结果,将清洗转换结果存储在Oracle数据库中。采用本发明的方案,可以在实现对海量的配用电多源数据存储的同时,保证在读取计算上的便捷性。
Description
技术领域
本发明涉及电力技术领域,特别是涉及一种配用电多源异构数据的混合存储方法和系统。
背景技术
随着智能电网建设和物联网的应用,非结构化数据、海量时序数据呈现出快速增长的趋势。然而,传统的关系数据库的存储与计算形式已经难以满足如电力电表PB(petabyte,一存储单位)量级的数据储存、实时查询与高性能计算需求。
Hadoop架构是目前大数据领域最主流的存储计算方案,它大大优化了分析环境,并能提供准确快速的报表和跨领域的业务驱动因素和关键指标的动态发现等特性。Hadoop架构在电力大数据应用中也被广泛采用,如田纳西河流域管理局(TVA)的智能电网项目,日本Kyushu电力公司海量电力用户消费数据分析等。
Hadoop体系架构虽然存在诸多普遍认可的优势,但同时也存在分布式文件系统不能直接在现有普通操作系统上挂载,不易与现在系统进行交互的缺陷。所以Hadoop系统并不能完全取代电力系统现有成熟的小量级关系数据库在数据读取计算上的便捷性优势,如电力设备台帐信息、电网拓扑结构、电力客户信息数据、账单数据等。如何在实现对海量的配用电多源数据存储的同时,保证在读取计算上的便捷性成为了一个亟待解决的技术问题。
发明内容
本发明的目的在于提供一种配用电多源异构数据的混合存储方法和系统,可以在实现对海量的配用电多源数据存储的同时,保证在读取计算上的便捷性。
本发明的目的通过如下技术方案实现:
一种配用电多源异构数据的混合存储方法,包括:
根据目标配用电数据源判定所述目标配用电数据源中的配用电数据的数据类型;
根据所述目标配用电数据源中的配用电数据的数据类型确定所述目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式;
根据所述目标配用电数据源中的配用电数据的数据抽取方式从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据;
根据所述目标配用电数据源中的配用电数据的数据存储方式存储已抽取的配用电数据;
对已存储的各种配用电数据源的配用电数据进行数据清洗转换获得清洗转换结果,将所述清洗转换结果存储在Oracle数据库中。
一种配用电多源异构数据的混合存储系统,包括:
类型判定单元,用于根据目标配用电数据源判定所述目标配用电数据源中的配用电数据的数据类型;
方式判定单元,用于根据所述目标配用电数据源中的配用电数据的数据类型确定所述目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式;
抽取单元,用于根据所述目标配用电数据源中的配用电数据的数据抽取方式从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据;
存储单元,用于根据所述目标配用电数据源中的配用电数据的数据存储方式存储已抽取的配用电数据;
处理单元,用于对已存储的各种配用电数据源的配用电数据进行数据清洗转换获得清洗转换结果,将所述清洗转换结果存储在Oracle数据库中。
根据上述本发明的方案,其是根据目标配用电数据源判定所述目标配用电数据源中的配用电数据的数据类型,根据所述目标配用电数据源中的配用电数据的数据类型确定所述目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式,根据所述目标配用电数据源中的配用电数据的数据抽取方式从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据,根据所述目标配用电数据源中的配用电数据的数据存储方式存储已抽取的配用电数据,对已存储的各种配用电数据源的配用电数据进行数据清洗转换获得清洗转换结果,将所述清洗转换结果存储在Oracle数据库中;本发明方案中,由于基于目标配用电数据源判定数据类型,并基于该数据类型确定所述目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式,再根据该数据抽取方式和数据存储方式进行所述目标配用电数据源中的配用电数据的抽取和存储,这样,各种配用电数据源中的都可以采用对应的数据抽取方式和数据存储方式进行数据抽取和存储,可以实现对海量的配用电多源异构数据的分布式存储,同时,还由于对已存储的各种配用电数据源的配用电数据进行数据清洗转换获得清洗转换结果,并将所述清洗转换结果存储在Oracle数据库中,这样,在经过数据清洗转换可以明显减少各种配用电数据源的配用电数据的数据量,而Oracle数据库对相对小数据量级别的数据具有明显的读取、查询、计算的优势,因此,本发明的方案可以在实现对海量的配用电多源数据存储的同时,保证在读取计算上的便捷性。
附图说明
图1为本发明实施例一的配用电多源异构数据的混合存储方法的实现流程示意图;
图2为本发明实施例一的配用电多源异构数据的混合存储架构图;
图3为本发明实施例二的配用电多源异构数据的混合存储系统的组成结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
实施例一
本发明实施例一提供一种配用电多源异构数据的混合存储方法。参见图1所示,为本发明实施例一的配用电多源异构数据的混合存储方法的实现流程示意图。如图1所示,本实施例的配用电多源异构数据的混合存储方法包括如下步骤:
步骤S101:根据目标配用电数据源判定所述目标配用电数据源中的配用电数据的数据类型;
具体地,首先确定当前需要获取的配用电数据来自哪个配用电数据源,即确定目标配用电数据,然后根据预先建立的配用电数据源与数据类型的对应关系确定所述目标配用电数据源中的配用电数据的数据类型。
其中,配用电数据主要涉及三种类型,分别是结构化数据、非结构化数据和半结构化数据,而结构化数据又包括时间序列数据和关系型数据,在本实施例中,是将非结构化数据和半结构化数据归为一种类型的数据,而时间序列数据和关系型数据分别对应一种类型的数据;
每个配用电数据源中的配用电数据的数据类型是由对应的配用电数据源中的配用电数据的数据格式确定的。
步骤S102:根据所述目标配用电数据源中的配用电数据的数据类型确定所述目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式;
具体地,可以根据预先建立的数据类型与数据抽取方式的关联关系确定所述目标配用电数据源中的配用电数据的数据类型对应的数据抽取方式,根据预先建立的数据类型与数据存储方式的关联关系确定所述目标配用电数据源中的配用电数据的数据类型对应的数据存储方式。
步骤S103:根据所述目标配用电数据源中的配用电数据的数据抽取方式从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据;
步骤S104:根据所述目标配用电数据源中的配用电数据的数据存储方式存储已抽取的配用电数据;
基于上述步骤S101-S104可以实现对各种配用电数据源中的配用电数据的抽出与存储。
步骤S105:对已存储的各种配用电数据源的配用电数据进行数据清洗转换获得清洗转换结果,将所述清洗转换结果存储在Oracle数据库中;
具体地,可以根据应用对数据需求的不同预先定制清洗规则,对已存储的各种配用电数据源的配用电数据(在此称为原始数据)利用对应的清洗规则进行转换,得到清洗转换后的数据,即清洗转换结果,将将所述清洗转换结果存储在Oracle数据库中。
这里,所述数据清洗转换可以包括数据汇总、数据分离、数据合并、数据融合和非结构化转换中的任意一种或者任意多种的组合。数据汇总、数据分离、数据合并、数据融合和非结构化转换均可以采用任意可以实现的方式,在此不予赘述。
据此,根据上述本实施例的方案,其是根据目标配用电数据源判定所述目标配用电数据源中的配用电数据的数据类型,根据所述目标配用电数据源中的配用电数据的数据类型确定所述目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式,根据所述目标配用电数据源中的配用电数据的数据抽取方式从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据,根据所述目标配用电数据源中的配用电数据的数据存储方式存储已抽取的配用电数据,对已存储的各种配用电数据源的配用电数据进行数据清洗转换获得清洗转换结果,将所述清洗转换结果存储在Oracle数据库中;本发明方案中,由于基于目标配用电数据源判定数据类型,并基于该数据类型确定所述目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式,再根据该数据抽取方式和数据存储方式进行所述目标配用电数据源中的配用电数据的抽取和存储,这样,各种配用电数据源中的都可以采用对应的数据抽取方式和数据存储方式进行数据抽取和存储,可以实现对海量的配用电多源异构数据的分布式存储,同时,还由于对已存储的各种配用电数据源的配用电数据进行数据清洗转换获得清洗转换结果,并将所述清洗转换结果存储在Oracle数据库中,这样,在经过数据清洗转换可以明显减少各种配用电数据源的配用电数据的数据量,而Oracle数据库对相对小数据量级别的数据具有明显的读取、查询、计算的优势,因此,本实施例的方案可以在实现对海量的配用电多源数据存储的同时,保证在读取计算上的便捷性。
在其中一个实施例中,所述根据目标配用电数据源判定所述目标配用电数据源中的配用电数据的数据类型可以包括:在所述目标配用电数据源为计量自动化系统、配网自动化系统或者调度自动化系统时,判定所述目标配用电数据源中的配用电数据为时间序列数据,也就是说,计量自动化系统、配网自动化系统和调度自动化系统中的配用电数据的数据类型为结构化数据中的时间序列数据;在所述目标配用电数据源为营销系统、生产系统、GIS(Geographic Information System,地理信息系统)系统、气象系统或者经济系统时,判定所述目标配用电数据源中的配用电数据为关系型数据,也就是说,营销系统、生产系统、GIS系统、气象系统和经济系统等系统中的配用电数据的数据类型为结构化数据中的关系型数据;在所述目标配用电数据源为95598系统(电网网上缴费系统)、移动作业表单系统、渠道平台语音系统或者合同文件系统时,判定所述目标配用电数据源中的配用电数据为结构化数据或者半结构化数据,也就是说,95598系统、移动作业表单系统、渠道平台语音系统和合同文件系统等系统中的配用电数据的数据类型为结构化数据或者半结构化数据。
这里,计量自动化系统、配网自动化系统和调度自动化系统、营销系统、生产系统、GIS系统、气象系统、经济系统、95598系统、移动作业表单系统、渠道平台语音系统和合同文件系统等系统均是电力领域的常用系统,为了节约篇幅,在此不一一赘述。
在其中一个实施例中,根据所述目标配用电数据源中的配用电数据的数据类型确定所述目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式的过程可以包括:在所述目标配用电数据源中的配用电数据为时间序列数据时,确定所述目标配用电数据源中的配用电数据的数据抽取方式为采用Sqoop工具抽取,确定所述目标配用电数据源中的配用电数据的数据存储方式为基于Hbase存储;在所述目标配用电数据源中的配用电数据为关系型数据时,确定所述目标配用电数据源中的配用电数据的数据抽取方式为采用Flume NG工具抽取,确定所述目标配用电数据源中的配用电数据的数据存储方式为基于Hive存储;在所述目标配用电数据源中的配用电数据为结构化数据或者半结构化数据时,确定所述目标配用电数据源中的配用电数据的数据抽取方式为采用Kettle工具抽取,确定所述目标配用电数据源中的配用电数据的数据存储方式为基于HDFS存储。
其中,Hive是存放对事务性要求比较高的数据的关系数据库,如电网模型和交易数据等;Hbase用于存放大记录型的数据,例如一般的图片和文档;Hdfs用于存放巨大的文件,如视频数据或经过打包的文件数据等。
采用本实施例方案,可以对不同的数据源使用不同的抽取工具(ETL工具,Extract-Transform-Load),实现了对抽取工具的灵活配置。大数据基础平台支持的抽取工具包括Sqoop、Flume NG、Kettle等,即支持多种数据汇集方式。
此外,根据需要也可以进行定制化的数据抽取,具体地,对常用抽取工具无法满足数据抽取要求的情况,可以采用自定义抽取方式,以实现特殊要求的数据汇集。数据汇集功能是大数据基础能力的重要体现之一,直接关系到能否充分保障应用对数据的需求,而数据抽取效率是确保数据汇集及时性的关键,通过使用上述数据抽取工具(Sqoop、Flume NG、Kettle),抽取效率将保障稳定在每秒万条级,抽取失败率低于5%。在提高抽取效率的同时,稳步提高数据质量,加强容错功能建设。
同时,采用本实施例中的方案,将配用电海量时间序列数据存储在Hbase(即上述的基于Hbase存储),结构简单,适合超高量级写入场景,符合配用电海量时间序列数据特征,同时无无缝集成hadoop的map reduce job功能。例如,每日有好几个TB的新增数据,可以用map reduce(编程模型)实现当日海量数据的高效聚合运算(简单的像:distinctcount,sum,avg等等),并且把运算结果写回到hbase供查询使用。将配用电非结构化数据(如95598音频、知识库文档)等数据直接存储于Hdfs(即上述的基于Hdfs存储)。非结构化文件存储的时候需要指定存储的路径,而Hdfs本身就是一个文件系统,在使用的时候其实不用关心具体的文件是存储在哪个节点上的,也可以通过API(Application ProgramInterface,应用程序接口)来实现查询。将二维关系型数据存储于Hive(即上述的基于Hive存储),开发人员无需理会数据存储底层信息,对外上层直接暴露于二维表结构,和关系库操作类似,方便于SQL(Structured Query Language,结构化查询语言)直接操作,方便于开发。此外,将分布式算法计算结果数据、统计类数据信息、非结构化融合数据信息和元数据信息存储于Oracle数据库,可以便于上层构建web应用。
另外,为了确保数据的连续性和一致性,在其中一个实施例中,本发明的配用电多源异构数据的混合存储方法还可以包括:在根据所述目标配用电数据源中的配用电数据的数据抽取方式从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据后,检测本次抽取未抽出成功的配用电数据,在下次进行从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据时,重新抽取本次抽取未抽出成功的配用电数据。
为了便于理解本发明方案,以下参照图2对本发明方案进行阐述。
如图2所示,在数据抽取和数据存储层面,计量自动化系统、配网自动化系统和调度自动化系统等系统中的配用电数据为时间序列数据,对时间序列数据采用Sqoop工具进行数据抽取,并将抽取到的数据存储在分布式存储架构中的Hbase中;营销系统、生产系统、GIS系统、气象系统和经济系统等系统中的配用电数据为关系型数据,对关系型数据采用Flume NG工具进行数据抽取,并将抽取到的数据存储在分布式存储架构中的Hive中;95598系统、移动作业表单系统、渠道平台语音系统和合同文件系统等系统中的配用电数据为结构化数据或者半结构化数据,对结构化数据和半结构化数据采用Kettle工具进行数据抽取,并将抽取到的数据存储在分布式存储结构中的Hdfs中。
如图2所示,在数据清洗转换层面,可以对分布式存储结构中存储的各种配用电数据源的配用电数据进行数据清洗转换获得清洗转换结果。其中,数据清洗转换包括数据汇总、数据分离、数据合并、数据融合和非结构化转换。在数据应用层面,将所述清洗转换结果存储在Oracle数据库中。
实施例二
根据上述实施例一中的配用电多源异构数据的混合存储方法,本发明实施例二提供一种配用电多源异构数据的混合存储系统。图3为本发明实施例二的配用电多源异构数据的混合存储系统的组成结构示意图。如图3所示,本实施例二的配用电多源异构数据的混合存储系统包括类型判定单元201、方式判定单元202、抽取单元203、存储单元204和处理单元205,其中:
类型判定单元201,用于根据目标配用电数据源判定所述目标配用电数据源中的配用电数据的数据类型;
方式判定单元202,用于根据所述目标配用电数据源中的配用电数据的数据类型确定所述目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式;
抽取单元203,用于根据所述目标配用电数据源中的配用电数据的数据抽取方式从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据;
存储单元204,用于根据所述目标配用电数据源中的配用电数据的数据存储方式存储已抽取的配用电数据;
处理单元205,用于对已存储的各种配用电数据源的配用电数据进行数据清洗转换获得清洗转换结果,将所述清洗转换结果存储在Oracle数据库中。
在其中一个实施例中,类型判定单元201可以在所述目标配用电数据源为计量自动化系统、配网自动化系统或者调度自动化系统时,判定所述目标配用电数据源中的配用电数据为时间序列数据,在所述目标配用电数据源为营销系统、生产系统、GIS系统、气象系统或者经济系统时,判定所述目标配用电数据源中的配用电数据为关系型数据,在所述目标配用电数据源为95598系统、移动作业表单系统、渠道平台语音系统或者合同文件系统时,判定所述目标配用电数据源中的配用电数据为结构化数据或者半结构化数据。
在其中一个实施例中,方式判定单元202可以在所述目标配用电数据源中的配用电数据为时间序列数据时,确定所述目标配用电数据源中的配用电数据的数据抽取方式为采用Sqoop工具抽取,确定所述目标配用电数据源中的配用电数据的数据存储方式为基于Hbase存储,在所述目标配用电数据源中的配用电数据为关系型数据时,确定所述目标配用电数据源中的配用电数据的数据抽取方式为采用Flume NG工具抽取,确定所述目标配用电数据源中的配用电数据的数据存储方式为基于Hive存储,所述目标配用电数据源中的配用电数据为结构化数据或者半结构化数据时,确定所述目标配用电数据源中的配用电数据的数据抽取方式为采用Kettle工具抽取,确定所述目标配用电数据源中的配用电数据的数据存储方式为基于HDFS存储。
在其中一个实施例中,所述数据清洗转换可以包括数据汇总、数据分离、数据合并、数据融合和非结构化转换中的任意一种或者任意多种的组合。
在其中一个实施例中,抽取单元203还可以用于在根据所述目标配用电数据源中的配用电数据的数据抽取方式从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据后,检测本次抽取未抽出成功的配用电数据,在下次进行从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据时,重新抽取本次抽取未抽出成功的配用电数据。
本发明实施例提供的配用电多源异构数据的混合存储系统,需要指出的是:以上对于配用电多源异构数据的混合存储系统的描述,与上述实施例的配用电多源异构数据的混合存储方法的描述是类似的,并且具有上述实施例的配用电多源异构数据的混合存储方法的有益效果,为节约篇幅,不再赘述;因此,以上对本发明实施例提供的配用电多源异构数据的混合存储系统中未披露的技术细节,请参照上述实施例的提供的配用电多源异构数据的混合存储方法的描述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种配用电多源异构数据的混合存储方法,其特征在于,包括:
根据目标配用电数据源判定所述目标配用电数据源中的配用电数据的数据类型;
根据所述目标配用电数据源中的配用电数据的数据类型确定所述目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式;
根据所述目标配用电数据源中的配用电数据的数据抽取方式从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据;
根据所述目标配用电数据源中的配用电数据的数据存储方式存储已抽取的配用电数据:
对已存储的各种配用电数据源的配用电数据进行数据清洗转换获得清洗转换结果,将所述清洗转换结果存储在Oracle数据库中。
2.根据权利要求1所述的配用电多源异构数据的混合存储方法,其特征在于,所述根据目标配用电数据源判定所述目标配用电数据源中的配用电数据的数据类型包括:
在所述目标配用电数据源为计量自动化系统、配网自动化系统或者调度自动化系统时,判定所述目标配用电数据源中的配用电数据为时间序列数据;
在所述目标配用电数据源为营销系统、生产系统、GIS系统、气象系统或者经济系统时,判定所述目标配用电数据源中的配用电数据为关系型数据;
在所述目标配用电数据源为95598系统、移动作业表单系统、渠道平台语音系统或者合同文件系统时,判定所述目标配用电数据源中的配用电数据为结构化数据或者半结构化数据。
3.根据权利要求2所述的配用电多源异构数据的混合存储方法,其特征在于,所述根据所述目标配用电数据源中的配用电数据的数据类型确定所述目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式包括;
在所述目标配用电数据源中的配用电数据为时间序列数据时,确定所述目标配用电数据源中的配用电数据的数据抽取方式为采用Sqoop工具抽取,确定所述目标配用电数据源中的配用电数据的数据存储方式为基于Hbase存储;
在所述目标配用电数据源中的配用电数据为关系型数据时,确定所述目标配用电数据源中的配用电数据的数据抽取方式为采用Flume NG工具抽取,确定所述目标配用电数据源中的配用电数据的数据存储方式为基于Hive存储;
在所述目标配用电数据源中的配用电数据为结构化数据或者半结构化数据时,确定所述目标配用电数据源中的配用电数据的数据抽取方式为采用Kettle工具抽取,确定所述目标配用电数据源中的配用电数据的数据存储方式为基于HDFS存储。
4.根据权利要求1所述的配用电多源异构数据的混合存储方法,其特征在于,所述数据清洗转换包括数据汇总、数据分离、数据合并、数据融合和非结构化转换中的任意一种或者任意多种的组合。
5.根据权利要求1所述的配用电多源异构数据的混合存储方法,其特征在于,还包括:
在根据所述目标配用电数据源中的配用电数据的数据抽取方式从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据后,检测本次抽取未抽出成功的配用电数据,在下次进行从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据时,重新抽取本次抽取未抽出成功的配用电数据。
6.一种配用电多源异构数据的混合存储系统,其特征在于,包括:
类型判定单元,用于根据目标配用电数据源判定所述目标配用电数据源中的配用电数据的数据类型;
方式判定单元,用于根据所述目标配用电数据源中的配用电数据的数据类型确定所述目标配用电数据源中的配用电数据的数据抽取方式和数据存储方式;
抽取单元,用于根据所述目标配用电数据源中的配用电数据的数据抽取方式从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据;
存储单元,用于根据所述目标配用电数据源中的配用电数据的数据存储方式存储已抽取的配用电数据;
处理单元,用于对已存储的各种配用电数据源的配用电数据进行数据清洗转换获得清洗转换结果,将所述清洗转换结果存储在Oracle数据库中。
7.根据权利要求6所述的配用电多源异构数据的混合存储系统,其特征在于:
所述类型判定单元在所述目标配用电数据源为计量自动化系统、配网自动化系统或者调度自动化系统时,判定所述目标配用电数据源中的配用电数据为时间序列数据,在所述目标配用电数据源为营销系统、生产系统、GIS系统、气象系统或者经济系统时,判定所述目标配用电数据源中的配用电数据为关系型数据,在所述目标配用电数据源为95598系统、移动作业表单系统、渠道平台语音系统或者合同文件系统时,判定所述目标配用电数据源中的配用电数据为结构化数据或者半结构化数据。
8.根据权利要求7所述的配用电多源异构数据的混合存储系统,其特征在于:
所述方式判定单元在所述目标配用电数据源中的配用电数据为时间序列数据时,确定所述目标配用电数据源中的配用电数据的数据抽取方式为采用Sqoop工具抽取,确定所述目标配用电数据源中的配用电数据的数据存储方式为基于Hbase存储,在所述目标配用电数据源中的配用电数据为关系型数据时,确定所述目标配用电数据源中的配用电数据的数据抽取方式为采用Flume NG工具抽取,确定所述目标配用电数据源中的配用电数据的数据存储方式为基于Hive存储,所述目标配用电数据源中的配用电数据为结构化数据或者半结构化数据时,确定所述目标配用电数据源中的配用电数据的数据抽取方式为采用Kettle工具抽取,确定所述目标配用电数据源中的配用电数据的数据存储方式为基于HDFS存储。
9.根据权利要求6所述的配用电多源异构数据的混合存储系统,其特征在于,所述数据清洗转换包括数据汇总、数据分离、数据合并、数据融合和非结构化转换中的任意一种或者任意多种的组合。
10.根据权利要求6所述的配用电多源异构数据的混合存储系统,其特征在于:
所述抽取单元还用于在根据所述目标配用电数据源中的配用电数据的数据抽取方式从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据后,检测本次抽取未抽出成功的配用电数据,在下次进行从所述目标配用电数据源中抽取所述目标配用电数据源中的配用电数据时,重新抽取本次抽取未抽出成功的配用电数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610833056.4A CN106446131A (zh) | 2016-09-19 | 2016-09-19 | 配用电多源异构数据的混合存储方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610833056.4A CN106446131A (zh) | 2016-09-19 | 2016-09-19 | 配用电多源异构数据的混合存储方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106446131A true CN106446131A (zh) | 2017-02-22 |
Family
ID=58166466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610833056.4A Pending CN106446131A (zh) | 2016-09-19 | 2016-09-19 | 配用电多源异构数据的混合存储方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446131A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239894A (zh) * | 2017-05-26 | 2017-10-10 | 云南电网有限责任公司信息中心 | 一种基于专业化需求的系统实用化监控方法 |
CN107590749A (zh) * | 2017-09-07 | 2018-01-16 | 北京国电通网络技术有限公司 | 一种配用电数据的处理方法及系统 |
CN107704610A (zh) * | 2017-10-18 | 2018-02-16 | 国网上海市电力公司 | 一种配电网运行数据事件关联分析系统及分析方法 |
CN107730394A (zh) * | 2017-09-07 | 2018-02-23 | 国网山东省电力公司淄博供电公司 | 基于大数据的全景电网多元异构数据融合方法 |
CN108073720A (zh) * | 2017-12-30 | 2018-05-25 | 广州明动软件股份有限公司 | 应用于大数据系统的数据质量管理系统及方法 |
CN108182963A (zh) * | 2017-12-14 | 2018-06-19 | 山东浪潮云服务信息科技有限公司 | 一种医疗数据处理方法及装置 |
CN108446391A (zh) * | 2018-03-23 | 2018-08-24 | 万帮充电设备有限公司 | 数据的处理方法、装置、电子设备和计算机可读介质 |
CN108763435A (zh) * | 2018-05-24 | 2018-11-06 | 国网上海市电力公司 | 一种配用电大数据信息交互系统 |
CN109298221A (zh) * | 2018-09-11 | 2019-02-01 | 国网山东省电力公司莱芜供电公司 | 一种窃电检测提醒系统及方法 |
CN109582667A (zh) * | 2018-10-16 | 2019-04-05 | 中国电力科学研究院有限公司 | 一种基于电力调控大数据的多数据库混合存储方法及系统 |
CN109800220A (zh) * | 2019-01-29 | 2019-05-24 | 浙江国贸云商企业服务有限公司 | 一种大数据清洗方法、系统及相关装置 |
CN110309214A (zh) * | 2018-04-10 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 一种指令执行方法及其设备、存储介质、服务器 |
CN110535955A (zh) * | 2019-09-02 | 2019-12-03 | 广东电网有限责任公司 | 一种基于多链的配用电数据共享系统与方法 |
CN111159265A (zh) * | 2019-12-03 | 2020-05-15 | 武汉达梦数据库有限公司 | 一种etl数据迁移方法和系统 |
CN112579834A (zh) * | 2021-02-22 | 2021-03-30 | 北京工业大数据创新中心有限公司 | 一种工业设备数据的存储方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462314A (zh) * | 2014-11-28 | 2015-03-25 | 国家电网公司 | 电网数据处理方法及装置 |
US20150213380A1 (en) * | 2014-01-30 | 2015-07-30 | EnergyIQ | System and Method for Dynamically Creating a Multi-Level Well Hierarchy by Integrating Data From Multiple Sources |
CN105184424A (zh) * | 2015-10-19 | 2015-12-23 | 国网山东省电力公司菏泽供电公司 | 实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法 |
-
2016
- 2016-09-19 CN CN201610833056.4A patent/CN106446131A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213380A1 (en) * | 2014-01-30 | 2015-07-30 | EnergyIQ | System and Method for Dynamically Creating a Multi-Level Well Hierarchy by Integrating Data From Multiple Sources |
CN104462314A (zh) * | 2014-11-28 | 2015-03-25 | 国家电网公司 | 电网数据处理方法及装置 |
CN105184424A (zh) * | 2015-10-19 | 2015-12-23 | 国网山东省电力公司菏泽供电公司 | 实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法 |
Non-Patent Citations (3)
Title |
---|
王扬,于海涛,张旭,章斌,韩强: "《电力大数据基础平台建设与应用实践》", 31 July 2016, 北京:中国电力出版社 * |
盛万兴等编著: "《农村电网电压质量治理技术与应用》", 30 September 2012 * |
葛磊蛟,王守相,王尧,郭乃网: "多源异构的智能配用电数据存储处理技术", 《电工技术学报》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239894A (zh) * | 2017-05-26 | 2017-10-10 | 云南电网有限责任公司信息中心 | 一种基于专业化需求的系统实用化监控方法 |
CN107590749A (zh) * | 2017-09-07 | 2018-01-16 | 北京国电通网络技术有限公司 | 一种配用电数据的处理方法及系统 |
CN107730394A (zh) * | 2017-09-07 | 2018-02-23 | 国网山东省电力公司淄博供电公司 | 基于大数据的全景电网多元异构数据融合方法 |
CN107730394B (zh) * | 2017-09-07 | 2021-07-06 | 国网山东省电力公司淄博供电公司 | 基于大数据的全景电网多元异构数据融合方法 |
CN107704610A (zh) * | 2017-10-18 | 2018-02-16 | 国网上海市电力公司 | 一种配电网运行数据事件关联分析系统及分析方法 |
CN108182963A (zh) * | 2017-12-14 | 2018-06-19 | 山东浪潮云服务信息科技有限公司 | 一种医疗数据处理方法及装置 |
CN108073720A (zh) * | 2017-12-30 | 2018-05-25 | 广州明动软件股份有限公司 | 应用于大数据系统的数据质量管理系统及方法 |
CN108446391A (zh) * | 2018-03-23 | 2018-08-24 | 万帮充电设备有限公司 | 数据的处理方法、装置、电子设备和计算机可读介质 |
CN110309214A (zh) * | 2018-04-10 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 一种指令执行方法及其设备、存储介质、服务器 |
CN110309214B (zh) * | 2018-04-10 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 一种指令执行方法及其设备、存储介质、服务器 |
CN108763435A (zh) * | 2018-05-24 | 2018-11-06 | 国网上海市电力公司 | 一种配用电大数据信息交互系统 |
CN109298221A (zh) * | 2018-09-11 | 2019-02-01 | 国网山东省电力公司莱芜供电公司 | 一种窃电检测提醒系统及方法 |
CN109582667A (zh) * | 2018-10-16 | 2019-04-05 | 中国电力科学研究院有限公司 | 一种基于电力调控大数据的多数据库混合存储方法及系统 |
CN109800220A (zh) * | 2019-01-29 | 2019-05-24 | 浙江国贸云商企业服务有限公司 | 一种大数据清洗方法、系统及相关装置 |
CN110535955A (zh) * | 2019-09-02 | 2019-12-03 | 广东电网有限责任公司 | 一种基于多链的配用电数据共享系统与方法 |
CN111159265A (zh) * | 2019-12-03 | 2020-05-15 | 武汉达梦数据库有限公司 | 一种etl数据迁移方法和系统 |
CN111159265B (zh) * | 2019-12-03 | 2023-04-14 | 武汉达梦数据库股份有限公司 | 一种etl数据迁移方法和系统 |
CN112579834A (zh) * | 2021-02-22 | 2021-03-30 | 北京工业大数据创新中心有限公司 | 一种工业设备数据的存储方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446131A (zh) | 配用电多源异构数据的混合存储方法和系统 | |
CN107402976B (zh) | 一种基于多元异构模型的电网多源数据融合方法及系统 | |
US9285242B2 (en) | Determining a connectivity model in smart grids | |
CN103489045B (zh) | 一种基于多场景设计的需求响应负荷优化潜力评估方法 | |
CN109582667A (zh) | 一种基于电力调控大数据的多数据库混合存储方法及系统 | |
CN105117421B (zh) | 基于图结构匹配的社交网络分析方法 | |
CN106339274A (zh) | 一种数据快照获取的方法及系统 | |
CN103473230A (zh) | 服务范围确定方法、物流服务提供方推荐方法及相应装置 | |
CN103530379B (zh) | 树形结构数据显示方法与装置 | |
CN101571861A (zh) | 一种对数据表进行转换的方法及装置 | |
CN115693650B (zh) | 一种区域电力碳排放因子的确定方法、装置、设备及介质 | |
CN108764750A (zh) | 主配网模型建模及拓扑分析方法和系统 | |
CN111666456B (zh) | 一种基于多源配网网络的网架拓扑自动构建方法 | |
CN107944036A (zh) | 一种图谱变化差异的获取方法 | |
Zheng et al. | Energy internet development based on blockchain technology | |
CN115934856A (zh) | 一种构造综合能源数据资产的方法和系统 | |
Li et al. | Twitter data mining for the social awareness of emerging technologies | |
CN112435001A (zh) | 一种配电网的多源数据核查方法及装置 | |
CN112486959A (zh) | 基于图数据库技术的电网动态拓扑结构智能识别方法 | |
CN116186053A (zh) | 一种数据处理方法、装置及存储介质 | |
CN103294878A (zh) | 一种基于 dms 的多维电网模型统一建模方法 | |
CN113515515B (zh) | 客户数据和电网设备数据融合方法、装置、设备及介质 | |
CN103475735A (zh) | 一种将本地文件夹转化为网络文件夹的方法及系统 | |
Zhao et al. | [Retracted] Cloud‐Based Android Intelligent Voice and Enterprise Economic Statistics System Design | |
Wang et al. | Application and Analysis of Big Data Technology in Smart Grid |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170222 |
|
RJ01 | Rejection of invention patent application after publication |