CN108255838B - 一种建立用于大数据分析的中间数据仓库的方法及系统 - Google Patents

一种建立用于大数据分析的中间数据仓库的方法及系统 Download PDF

Info

Publication number
CN108255838B
CN108255838B CN201611237526.7A CN201611237526A CN108255838B CN 108255838 B CN108255838 B CN 108255838B CN 201611237526 A CN201611237526 A CN 201611237526A CN 108255838 B CN108255838 B CN 108255838B
Authority
CN
China
Prior art keywords
data
record
hbase
warehouse
hive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611237526.7A
Other languages
English (en)
Other versions
CN108255838A (zh
Inventor
陈益梦
范钢
刘丹
田宜喜
谢宇
张玉魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201611237526.7A priority Critical patent/CN108255838B/zh
Publication of CN108255838A publication Critical patent/CN108255838A/zh
Application granted granted Critical
Publication of CN108255838B publication Critical patent/CN108255838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种建立用于大数据分析的中间数据仓库的方法,其特征在于,所述方法包括:将所有历史数据加载到HBase表中,针对数据会有更新和大数据平台数据不可变更原则,使用HBase数据仓库记录发生变化的记录数据;根据需要进行关联查询的字段和有效字段选择HBase表中的最新记录数据作为待存储的记录数据;根据待存储的记录数据在中间数据仓库中创建Hive表,并将所述待存储的记录数据存储到Hive表中;以及利用Hive表进行Spark关联查询。本发明的有益效果在于:本发明使用了HBase表和Hive表的优势,在大数据平台数据不可变的情况下,使用可以动态变化的HBase表存储大量的需变化的数据,Hive表获取HBase表的最新数据作为关联查询的表,提高大数据平台处理数据的速度。

Description

一种建立用于大数据分析的中间数据仓库的方法及系统
技术领域
本发明涉及大数据分析领域,并且更具体地,涉及一种建立用于大数据分析的中间数据仓库的方法及系统。
背景技术
在计算机广泛应用到生活中的今天,我们生活的点点滴滴都转化为数据存入到数据库中。在对数进行处理的过程中,大量的数据让大数据处理技术日益成熟。数据在处理的时候会不断的变更,HBase是作为数据变更频繁存储工具首选,但是在使用Spark关联查询的时候,HBase被认为是小表放入到内存中进行计算给内存带来压力,降低了计算效率。
因此,如何对大数据进行分析,提高计算效率成为了急需解决的问题。
发明内容
为了解决上述问题,根据本发明的一个方面,提供了一种建立用于大数据分析的中间数据仓库的方法,所述方法包括:
将所有历史数据加载到HBase表中,针对数据会有更新和大数据平台数据不可变更原则,使用HBase数据仓库记录发生变化的记录数据,其中所述发生变化的记录数据包括:数据仓库中新增加的记录数据和数据仓库中的字段信息发生变化的记录数据HBase;
根据需要进行关联查询的字段和有效字段选择HBase表中的最新记录数据作为待存储的记录数据;
根据待存储的记录数据在中间数据仓库中创建Hive表,并将所述待存储的记录数据存储到Hive表中;以及
利用Hive表进行Spark关联查询。
优选地,其中在所述将数据仓库中的字段信息发生变化的记录数据插入到HBase表中时,需要对比数据仓库中新增加的记录数据的标识与原有的记录数据的标识是否相同,若标识相同,但字段信息存在不同内容时,将原始记录数据的有效字段设置为0,并且将新记录数据的有效字段设置为默认值1。
优选地,其中根据数据仓库数据的变化实时更新所述HBase表中存储的记录数据。
优选地,其中在数据仓库中建立多个存储分区和Hive表,并且Hive表中的每条记录用于指示多个存储分区中的每个存储分区,根据不同时间段设定存储分区标识字段。
优选地,其中Hive表中的记录数据发生变化时,系统对Hive表中的原始数据进行分析,并将原始数据和分析结果数据分别存储到对应分区字段的分区表。
根据本发明的另一个发明,提供了一种建立用于大数据分析的中间数据仓库的系统,所述系统包括:HBase表数据存储单元、待存储数据选择单元、Hive表创建单元和关联查询单元,
所述HBase表数据存储单元,将所有历史数据加载到HBase表中,针对数据会有更新和大数据平台数据不可变更原则,使用HBase数据仓库记录发生变化的记录数据,其中所述发生变化的记录数据包括:数据仓库中新增加的记录数据和数据仓库中的字段信息发生变化的记录数据HBase;
所述待存储数据选择单元,根据需要进行关联查询的字段选择HBase表中的最新记录数据作为待存储的记录数据;
所述Hive表创建单元,根据待存储的记录数据创建Hive表,并将所述待存储的记录数据存储到Hive表中;以及
所述关联查询单元,利用Hive表进行Spark关联查询。
优选地,其中在HBase表数据存储单元将数据仓库中的字段信息发生变化的记录数据插入到HBase表中时,需要对比数据仓库中新增加的记录数据的标识与原有的记录数据的标识是否相同,若标识相同,但字段信息存在不同内容时,将原始记录数据的有效字段设置为0,并且将新记录数据的有效字段设置为默认值1。
优选地,其中根据数据仓库数据的变化实时更新所述HBase表中存储的记录数据。
优选地,其中在数据仓库中建立多个存储分区和Hive表,并且Hive表中的每条记录用于指示多个存储分区中的每个存储分区,根据不同时间段设定存储分区标识字段。
优选地,其中Hive表中的记录数据发生变化时,系统对Hive表中的原始数据进行分析,并将原始数据和分析结果数据分别存储到对应分区字段的分区表。
本发明的有益效果在于:
本发明使用了HBase表和Hive表的优势,在大数据平台数据不可变的情况下,使用可以动态变化的HBase表存储大量的需变化的数据,Hive表获取HBase表的最新数据作为关联查询的表,提高大数据平台处理数据的速度。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的建立用于大数据分析的中间数据仓库的方法100的流程图;
图2为根据本发明实施方式的建立用于大数据分析的中间数据仓库的系统200的结构示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明实施方式的建立用于大数据分析的中间数据仓库的方法100的流程图。如图1所示,所述建立用于大数据分析的中间数据仓库的方法100从步骤101处开始,在步骤101将所有历史数据加载到HBase表中,针对数据会有更新和大数据平台数据不可变更原则,使用HBase数据仓库记录发生变化的记录数据,其中所述发生变化的记录数据包括:数据仓库中新增加的记录数据和数据仓库中的字段信息发生变化的记录数据HBase。优选地,其中在所述将数据仓库中的字段信息发生变化的记录数据插入到HBase表中时,需要对比数据仓库中新增加的记录数据的标识与原有的记录数据的标识是否相同,若标识相同,但字段信息存在不同内容时,将原始记录数据的有效字段设置为0,并且将新记录数据的有效字段设置为默认值1。优选地,其中根据数据仓库数据的变化实时更新所述HBase表中存储的记录数据。例如,对于存储商品信息的数据库,在HBase表中包括字段:项目编号、项目名称、销售价格、日期和有效值,其中有效值默认值为1。其中一个苹果电脑的记录数据为项目编号为10000,项目名称为苹果电脑,销售价格为5000元,日期为201601,有效值为1,此记录为第一个记录数据。在2016年2月份,所述苹果电脑的销售价格为4888元,则需要插入的记录数据为项目编号10000,项目名称为苹果电脑,销售价格为4888元,日期为201602,有效值为1,此记录为第二个记录数据。在插入数据时,设置标识为项目编号。此时,系统查询到第二个记录数据的项目编号和第一个记录的项目编号一直,则将第一个记录数据中的有效值变为0,并将第二个记录数据插入到HBase表中。
优选地,在步骤102根据需要进行关联查询的字段和有效字段选择HBase表中的最新记录数据作为待存储的记录数据。例如,进行关联查询的字段为项目编号10000,此时对应的有两个记录数据,选择有效字段为1的记录数据,即第二个记录数据作为待存储的记录数据。
优选地,在步骤103根据待存储的记录数据在中间数据仓库中创建Hive表,并将所述待存储的记录数据存储到Hive表中。优选地,其中在数据仓库中建立多个存储分区和Hive表,并且Hive表中的每条记录用于指示多个存储分区中的每个存储分区,根据不同时间段设定存储分区标识字段。优选地,其中Hive表中的记录数据发生变化时,系统对Hive表中的原始数据进行分析,并将原始数据和分析结果数据分别存储到对应分区字段的分区表。
优选地,在步骤105利用Hive表进行Spark关联查询。
图2为根据本发明实施方式的建立用于大数据分析的中间数据仓库的系统200的结构示意图。如图2所示,所述建立用于大数据分析的中间数据仓库的系统200包括:HBase表数据存储单元201、待存储数据选择单元202、Hive表创建单元203和关联查询单元204。优选地,在所述HBase表数据存储单元201将所有历史数据加载到HBase表中,针对数据会有更新和大数据平台数据不可变更原则,使用HBase数据仓库记录发生变化的记录数据,其中所述发生变化的记录数据包括:数据仓库中新增加的记录数据和数据仓库中的字段信息发生变化的记录数据HBase。优选地,其中在HBase表数据存储单元将数据仓库中的字段信息发生变化的记录数据插入到HBase表中时,需要对比数据仓库中新增加的记录数据的标识与原有的记录数据的标识是否相同,若标识相同,但字段信息存在不同内容时,将原始记录数据的有效字段设置为0,并且将新记录数据的有效字段设置为默认值1。优选地,其中根据数据仓库数据的变化实时更新所述HBase表中存储的记录数据。
优选地,在所述待存储数据选择单元202根据需要进行关联查询的字段选择HBase表中的最新记录数据作为待存储的记录数据。优选地,其中在数据仓库中建立多个存储分区和Hive表,并且Hive表中的每条记录用于指示多个存储分区中的每个存储分区,根据不同时间段设定存储分区标识字段。优选地,其中Hive表中的记录数据发生变化时,系统对Hive表中的原始数据进行分析,并将原始数据和分析结果数据分别存储到对应分区字段的分区表。
优选地,在所述Hive表创建单元203根据待存储的记录数据创建Hive表,并将所述待存储的记录数据存储到Hive表中。
优选地,在所述关联查询单元204利用Hive表进行Spark关联查询。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (6)

1.一种建立用于大数据分析的中间数据仓库的方法,其特征在于,所述方法包括:
将所有历史数据加载到HBase表中,针对数据会有更新和大数据平台数据不可变更原则,使用HBase数据仓库记录发生变化的记录数据,其中所述发生变化的记录数据包括:数据仓库中新增加的记录数据和数据仓库中的字段信息发生变化的记录数据;
根据需要进行关联查询的字段和有效字段选择HBase表中的最新记录数据作为待存储的记录数据;
根据待存储的记录数据在中间数据仓库中创建Hive表,并将所述待存储的记录数据存储到Hive表中;以及
利用Hive表进行Spark关联查询;
其中,在所述将数据仓库中的字段信息发生变化的记录数据插入到HBase表中时,需要对比数据仓库中新增加的记录数据的标识与原有的记录数据的标识是否相同,若标识相同,但字段信息存在不同内容时,将原始记录数据的有效字段设置为0,并且将新记录数据的有效字段设置为默认值1;
在数据仓库中建立多个存储分区和Hive表,并且Hive表中的每条记录用于指示多个存储分区中的每个存储分区,根据不同时间段设定存储分区标识字段。
2.根据权利要求1所述的方法,其特征在于,根据数据仓库数据的变化实时更新所述HBase表中存储的记录数据。
3.根据权利要求1所述的方法,其特征在于,Hive表中的记录数据发生变化时,系统对Hive表中的原始数据进行分析,并将原始数据和分析结果数据分别存储到对应分区字段的分区表。
4.一种建立用于大数据分析的中间数据仓库的系统,其特征在于,所述系统包括:HBase表数据存储单元、待存储数据选择单元、Hive表创建单元和关联查询单元,
所述HBase表数据存储单元,将所有历史数据加载到HBase表中,针对数据会有更新和大数据平台数据不可变更原则,使用HBase数据仓库记录发生变化的记录数据,其中所述发生变化的记录数据包括:数据仓库中新增加的记录数据和数据仓库中的字段信息发生变化的记录数据HBase;
所述待存储数据选择单元,根据需要进行关联查询的字段选择HBase表中的最新记录数据作为待存储的记录数据;
所述Hive表创建单元,根据待存储的记录数据创建Hive表,并将所述待存储的记录数据存储到Hive表中;以及
所述关联查询单元,利用Hive表进行Spark关联查询;
其中,在HBase表数据存储单元将数据仓库中的字段信息发生变化的记录数据插入到HBase表中时,需要对比数据仓库中新增加的记录数据的标识与原有的记录数据的标识是否相同,若标识相同,但字段信息存在不同内容时,将原始记录数据的有效字段设置为0,并且将新记录数据的有效字段设置为默认值1;
在数据仓库中建立多个存储分区和Hive表,并且Hive表中的每条记录用于指示多个存储分区中的每个存储分区,根据不同时间段设定存储分区标识字段。
5.根据权利要求4所述的系统,其特征在于,根据数据仓库数据的变化实时更新所述HBase表中存储的记录数据。
6.根据权利要求4所述的系统,其特征在于,Hive表中的记录数据发生变化时,系统对Hive表中的原始数据进行分析,并将原始数据和分析结果数据分别存储到对应分区字段的分区表。
CN201611237526.7A 2016-12-28 2016-12-28 一种建立用于大数据分析的中间数据仓库的方法及系统 Active CN108255838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611237526.7A CN108255838B (zh) 2016-12-28 2016-12-28 一种建立用于大数据分析的中间数据仓库的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611237526.7A CN108255838B (zh) 2016-12-28 2016-12-28 一种建立用于大数据分析的中间数据仓库的方法及系统

Publications (2)

Publication Number Publication Date
CN108255838A CN108255838A (zh) 2018-07-06
CN108255838B true CN108255838B (zh) 2022-02-18

Family

ID=62719779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611237526.7A Active CN108255838B (zh) 2016-12-28 2016-12-28 一种建立用于大数据分析的中间数据仓库的方法及系统

Country Status (1)

Country Link
CN (1) CN108255838B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319604B (zh) * 2017-01-16 2021-10-19 南京烽火天地通信科技有限公司 一种hive中大小表关联的优化方法
CN109684399A (zh) * 2018-12-24 2019-04-26 成都四方伟业软件股份有限公司 数据库访问方法、数据库访问装置和数据分析平台
CN109857997B (zh) * 2019-02-02 2019-10-29 杭州费尔斯通科技有限公司 一种离线表关联方法
CN110309152A (zh) * 2019-06-26 2019-10-08 广州探迹科技有限公司 一种基于HBase的数据存储方法及装置
CN110727684B (zh) * 2019-10-08 2023-07-25 浪潮软件股份有限公司 一种用于大数据统计分析的增量数据同步的方法
CN112233727B (zh) * 2020-10-29 2024-01-26 北京诺禾致源科技股份有限公司 数据分区存储方法及装置
CN112817969B (zh) * 2021-01-14 2023-04-14 内蒙古蒙商消费金融股份有限公司 数据查询方法、系统、电子设备和存储介质
CN114036148A (zh) * 2021-10-29 2022-02-11 建信金融科技有限责任公司 一种数据处理方法、装置、设备及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7822712B1 (en) * 2007-10-18 2010-10-26 Google Inc. Incremental data warehouse updating
CN104298760A (zh) * 2014-10-23 2015-01-21 北京京东尚科信息技术有限公司 一种应用于数据仓库的数据处理方法和数据处理装置
CN105243067A (zh) * 2014-07-07 2016-01-13 北京明略软件系统有限公司 一种实现实时增量同步数据的方法及装置
CN105447172A (zh) * 2015-12-07 2016-03-30 北京先进数通信息技术股份公司 一种Hadoop平台下的数据处理方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729453A (zh) * 2014-01-02 2014-04-16 浪潮电子信息产业股份有限公司 一种HBase表联合查询优化的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7822712B1 (en) * 2007-10-18 2010-10-26 Google Inc. Incremental data warehouse updating
CN105243067A (zh) * 2014-07-07 2016-01-13 北京明略软件系统有限公司 一种实现实时增量同步数据的方法及装置
CN104298760A (zh) * 2014-10-23 2015-01-21 北京京东尚科信息技术有限公司 一种应用于数据仓库的数据处理方法和数据处理装置
CN105447172A (zh) * 2015-12-07 2016-03-30 北京先进数通信息技术股份公司 一种Hadoop平台下的数据处理方法和系统

Also Published As

Publication number Publication date
CN108255838A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN108255838B (zh) 一种建立用于大数据分析的中间数据仓库的方法及系统
EP3299972B1 (en) Efficient query processing using histograms in a columnar database
CN102129442B (zh) 一种分布式数据库系统和数据访问方法
CN102270225B (zh) 数据变更日志监控方法和数据变更日志监控装置
CN109033360B (zh) 一种数据查询方法、装置、服务器及存储介质
CN105868421A (zh) 一种数据管理方法及装置
CN104216822B (zh) 一种异常信息的处理方法及装置
US20240152498A1 (en) Data storage using vectors of vectors
CN114386893A (zh) 一种基于数字孪生的库房管理方法、装置及终端设备
CN113778996A (zh) 一种大数据流数据处理方法、装置、电子设备及存储介质
CN111680478B (zh) 基于组态软件的报表生成方法、装置、设备和存储介质
CN107590077A (zh) 一种Spark负载访存行为追踪方法及装置
CN110457345A (zh) 数据库读取方法、装置及计算机可读存储介质
CN111414422A (zh) 一种数据分布方法、装置、设备和存储介质
JP2012252636A (ja) トレース情報管理装置、トレース情報管理方法、およびトレース情報管理プログラム
CN112632266B (zh) 数据写入方法、装置、计算机设备及可读存储介质
CN110020227B (zh) 一种数据排序方法和装置
CN107861956B (zh) 一种卡口过车数据记录的查询方法及装置
CN104834277A (zh) 管理方法、管理设备和管理系统
CN106570024B (zh) 数据增量处理的方法和装置
CN109582412A (zh) 产品展示方法、装置及计算机存储介质
CN112835991B (zh) 监控数据的系统、方法、设备及存储介质
CN112181995B (zh) 数据表的数据处理方法、装置、设备及存储介质
CN115686939B (zh) 数据备份方法、装置、计算机设备和存储介质
CN111597179B (zh) 自动清洗数据的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant