CN110674154A - 一种基于Spark的对Hive中数据进行插入、更新和删除的方法 - Google Patents
一种基于Spark的对Hive中数据进行插入、更新和删除的方法 Download PDFInfo
- Publication number
- CN110674154A CN110674154A CN201910917640.1A CN201910917640A CN110674154A CN 110674154 A CN110674154 A CN 110674154A CN 201910917640 A CN201910917640 A CN 201910917640A CN 110674154 A CN110674154 A CN 110674154A
- Authority
- CN
- China
- Prior art keywords
- data
- hive
- spark
- hbase
- deleting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/275—Synchronous replication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Spark的对Hive中数据进行插入更新和删除的方法,属于大数据计算技术领域,该方法将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作,实现方式如下:1)、Nifi抽取传统数据库增加操作时间和操作类型的标签;2)、Spark读取HBASE获取增量数据;3)、Spark读取Hive需要更新的分区的数据;4)、Spark将HBASE中增量数据与Hive中的存量数据合并;5)、批量删除HBASE增量数据。本发明传统数据库数据抽取至Hive时,数据无法更新的问题,实现了将数据从传统关系数据库同步至Hive大数据仓库中,数据的插入、更新和删除操作。
Description
技术领域
本发明涉及大数据计算技术领域,具体地说是一种基于Spark的对Hive中数据进行插入、更新和删除的方法。
背景技术
目前我国提出实施国家大数据战略:“把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新”。那么未来最贵的资源必定是数据,如何采集、存储和计算数据成为了当前热点话题,Hive和Spark分别作为当前大数据领域内存储和计算使用最多的技术,引起了工业界的广泛关注。
Spark是基于内存的分布式计算框架,并且对Hadoop生态系统有高度的支持,比如支持从HDFS、Hbase、Hive等分布式文件系统读取数据。而且Spark目前发展非常迅速,支持的持久层框架越来越多,并且随着SparkSQL的出现,通过SparkSQL直接访问Hive更加方便,数据开发人员直接用SQL语句便可以做数据分析,降低了Spark和大数据开发难度。但是Spark+Hive的计算组合也要面临一个问题,Spark无法访问Hive的事务表,那么Hive将无法对历史数据进行行级别的更新和删除。
在大数据生态系统中,Hbase是大数据存储的一个重要组件,可以利用Rowkey的唯一性,快速的定位到数据,进行增加、删除和修改。但是,目前大数据量下,Spark访问Hbase的效率比不上Hive,无法满足对计算性能有一定要求的场景。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于Spark的对Hive中数据进行插入、更新和删除的方法,解决在将传统关系数据库中数据同步至Hive时,若数据涉及更新和删除,而Hive中对应的数据无法同步更新和删除的问题。
本发明解决其技术问题所采用的技术方案是:
一种基于Spark的对Hive中数据进行插入、更新和删除的方法,该方法将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作,实现方式如下:
1)、Nifi抽取传统数据库,增加操作时间和操作类型的标签;
2)、Spark读取HBASE获取增量数据;
3)、Spark读取Hive需要更新的分区的数据;
4)、Spark将HBASE中增量数据与Hive中的存量数据合并;
5)、批量删除HBASE增量数据。
该方法利用Hbase快速更新的特点,利用关系数据库的主键列作为rowkey,对历史数据进行增删查改,再利用Spark对Hbase和Hive的支持,利用Hive分区特征对Hive历史数据做更新和删除。
首先使用Nifi把数据从传统数据库抽取至HBase,利用rowkey的唯一性来插入、更新和删除数据;然后用Spark读取HBase中的增量数据,并将这些数据与Hive中的存量数据根据主键列做关联操作,把需要删除和更新的数据从Hive删除,把HBase更新和插入的数据并入Hive中,最后,把合并后的数据写回至Hive。
该方法将数据从传统关系数据库同步至Hive大数据仓库中,并做到数据插入、更新和删除,从而解决了用户使用大数据计算框架(Spark、MapReduce)分析Hive数据时,数据被导入Hive时只能插入,而无法删除和更新的问题。
具体的,该方法的具体实现方式为:
Nifi读取传统数据库的操作日志,读取插入、更新和删除操作的数据,并为该数据加入操作时间和操作类型标签,写入Hbase;
Spark获取当前时间,并根据时间标签读取HBASE增量数据;
Spark重配置文件中读取的增量数据的分区字段和联合主键列;
Spark从增量数据中获取涉及增量修改的分区集合,Spark根据这个分区集合读取Hive中存量数据,将这些存量数据与增量数据根据联合主键关联;
删除存量数据中标签为“删除”和“更新”的数据,合并增量数据中标签为“插入”和“更新”的数据,并写入Hive中,完成插入、更新和删除的操作。
将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作。
优选的,所述Nifi抽取传统数据库中的数据时,根据数据库的增删查改和抽取时间,为每一条记录增加“OPT_TIME”和“OPT_TYPE”字段。
进一步的,定义Nifi从传统关系数据库抽取log日志的流程,
若log为插入数据,则“OPT_TYPE”赋值为“OPT_INSERT”;若log为更新数据,则“OPT_TYPE”赋值为“OPT_UPDATA”;若log为删除数据,则“OPT_TYPE”赋值为“OPT_DELETE”;
读取联合主键,将它们拼接为HBASE的rowkey,将rowkey和数据一并插入HBASE表中。如后续日志有对于该rowkey的对应行的数据的其他操作,则除了更新对应数据外,同样需要更新“OPT_TIME”和“OPT_TYPE”字段。
优选的,所述Spark读取HBASE获取增量数据,根据“OPT_TIME”小于当前本地时间为过滤条件获取增量数据。
优选的,把HBASE表的数据转化为临时表。
具体的,把HBASE表的数据转化为临时表的方法为:把列转为map,再转成json,最后转为DF。通过map转换为jsonRDD,最终注册为临时表insertDF。
优选的,Spark读取Hive需要更新的分区的数据,根据HBASE中增量数据获取到更新数据所在的分区集合,Spark根据这些集合读取HIVE中的数据。
进一步的,Spark将HBASE中增量数据与Hive中的存量数据合并的方法为:Spark将HBASE中增量的数据根据“OPT_TYPE”字段分为deleteDF,updataDF和insertDF,将这三种DF分别与Hive的存量数据做join,去除Hive中与HBASE中主键一样的数据,把updataDF和insertDF与Hive剩余的数据合并。
进一步的,批量删除HBASE增量数据,根据已经读取的HBASE的增量数据后这些数据的rowkey,将其封装为RDD<rowkey>,并划分分区,在多个分区中把rowkey封装成deletes,实现分布式批量删除,从而实现高效率删除增量数据。
本方法结合Spark对多种数据源的支持,提出了先在Hbase中做更新,在利用Spark做合并的方法,满足了既能对数据插入、更新和删除,又能快速计算的要求。
本发明的一种基于Spark的对Hive中数据进行插入、更新和删除的方法与现有技术相比,具有以下有益效果:
该方法解决了传统数据库数据抽取至Hive时,数据无法更新的问题。主要应用在系统从传统关系数据库向大数据平台切换,或者随着业务量的增大,传统数据库因为历史数据不断增加,无法满足对数据的处理性能,需要把数据转移至Hive,使用Spark作为计算引擎的场景。
该方法利用HBASE的单行更新能力,以及Hive分区存储的特点,把传统数据库的增删查改用Hbase解决,而同步至Hive的更新时,用读取整个分区、并根据标签对HBASE的逻辑标识合并分区数据的方法,从分区层面实现对数据的更新。本方法解决了Hive在不开启事务的情况下,保证了Hive数据的插入、更新和删除操作,并没有对Spark读取Hive的计算性能造成损失。
附图说明
图1是本发明基于Spark的对Hive中数据进行插入更新和删除的方法流程图。
具体实施方式
一种基于Spark的对Hive中数据进行插入、更新和删除的方法,该方法将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作,实现方式如下:
1、Nifi抽取传统数据库,增加操作时间和操作类型的标签;
Nifi抽取传统数据库中的数据时,根据数据库的增删查改和抽取时间,为每一条记录增加“OPT_TIME”和“OPT_TYPE”字段。
2、Spark读取HBASE获取增量数据;
根据“OPT_TIME”小于当前本地时间为过滤条件获取增量数据,进一步的包括把HBASE表的数据转化为临时表。把HBASE表的数据转化为临时表的方法实现把列转为map,再转成json,最后转为DF的过程。
3、Spark读取Hive需要更新的分区的数据;
根据HBASE中增量数据获取到更新数据所在的分区集合,Spark根据这些集合读取Hive中的数据。
4、Spark将HBASE中增量数据与Hive中的存量数据合并;
Spark将HBASE中增量数据与Hive中的存量数据合并的方法为:Spark将HBASE中增量的数据根据“OPT_TYPE”字段分为deleteDF,updataDF和insertDF,将这三种DF分别与Hive的存量数据做join,会去除Hive中与HBASE中主键一样的数据,把updataDF和insertDF与Hive剩余的数据合并。
5、批量删除HBASE增量数据;
根据已经读取的HBASE的增量数据后这些数据的rowkey,将其封装为RDD<rowkey>,并划分分区,在多个分区中把rowkey封装成deletes,实现分布式批量删除,从而实现高效率删除增量数据。
该方法利用Hbase快速更新的特点,利用关系数据库的主键列作为rowkey,对历史数据进行增删查改,再利用Spark对Hbase和Hive的支持,利用Hive分区特征对Hive历史数据做更新和删除。
实施例
Nifi读取传统数据库的操作日志,读取插入、更新和删除操作的数据,并为该数据加入操作时间和操作类型标签,写入Hbase;
Spark获取当前时间,并根据时间标签读取HBASE增量数据;
Spark重配置文件中读取的增量数据的分区字段和联合主键列;
Spark从增量数据中获取涉及增量修改的分区集合,Spark根据这个分区集合读取Hive中存量数据,将这些存量数据与增量数据根据联合主键关联;
删除存量数据中标签为“删除”和“更新”的数据,合并增量数据中标签为“插入”和“更新”的数据,并写入Hive中,完成插入、更新和删除的操作。
将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作。
具体实现方式如下:
(1)、定义Nifi从传统关系数据库抽取log日志的流程,并给读出的每条记录增加当前时间与操作类型两列,具体为“OPT_TIME”和“OPT_TYPE”;
若log为插入数据,则“OPT_TYPE”赋值为“OPT_INSERT”;若log为更新数据,则“OPT_TYPE”赋值为“OPT_UPDATA”;若log为删除数据,则“OPT_TYPE”赋值为“OPT_DELETE”。
读取联合主键,将它们拼接为HBASE的rowkey,将rowkey和数据一并插入HBASE表中。如后续日志有对于该rowkey的对应行的数据的其他操作,则除了更新对应数据外,同样需要更新“OPT_TIME”和“OPT_TYPE”字段。
(2)、定义Spark应用程序读取HBASE,并增加过滤条件OPT_TIME小于当前本地时间,结果定义为increRDD。通过map转换为JsonRDD,最总注册为一张临时表increDF。
(3)、从配置文件中读取该表对应的分区列,并从increDF获取所修改的行处在的Hive分区的集合SetA;然后定义Spark程序读取分区SetA中的所有数据,定位为HiveDF。
(4)、把increDF根据“OPT_TYPE”字段类型切分为3部分deleteDF,updataDF和insertDF。从配置文件中读取这个表对应的联合主键,根据联合主键将HiveDF分别与deleteDF、updataDF和insertDF做关联join。把HiveDF中与这三组数据在主键上有重复的数据删除,保留主键未重复的数据,记录为unchangeDF。将updataDF和insertDF与unchangeDF做union,生成结果resultDF。将其持久化至HIVE中间表中。
(5)、删除HIVE中第(3)步读取数据的分区,把第(4)步中间表的数据,插入到hive表中。
(6)、根据increDF,获取所有rowkey,根据这些rowkey,生成HBASE的delete集合。从HBASE表中删除这些已经同步至hive的数据。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (10)
1.一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于该方法将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作,实现方式如下:
1)、Nifi抽取传统数据库,增加操作时间和操作类型的标签;
2)、Spark读取HBASE获取增量数据;
3)、Spark读取Hive需要更新的分区的数据;
4)、Spark将HBASE中增量数据与Hive中的存量数据合并;
5)、批量删除HBASE增量数据。
2.根据权利要求1所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于该方法的具体实现方式为:
Nifi读取传统数据库的操作日志,读取插入、更新和删除操作的数据,并为该数据加入操作时间和操作类型标签,写入Hbase;
Spark获取当前时间,并根据时间标签读取HBASE增量数据;
Spark重配置文件中读取的增量数据的分区字段和联合主键列;
Spark从增量数据中获取涉及增量修改的分区集合,Spark根据这个分区集合读取Hive中存量数据,将这些存量数据与增量数据根据联合主键关联;
删除存量数据中标签为“删除”和“更新”的数据,合并增量数据中标签为“插入”和“更新”的数据,并写入Hive中,完成插入、更新和删除的操作。
3.根据权利要求1或2所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于所述Nifi抽取传统数据库中的数据时,根据数据库的增删查改和抽取时间,为每一条记录增加“OPT_TIME”和“OPT_TYPE”字段。
4.根据权利要求3所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于定义Nifi从传统关系数据库抽取log日志的流程,
若log为插入数据,则“OPT_TYPE”赋值为“OPT_INSERT”;若log为更新数据,则“OPT_TYPE”赋值为“OPT_UPDATA”;若log为删除数据,则“OPT_TYPE”赋值为“OPT_DELETE”;
读取联合主键,将它们拼接为HBASE的rowkey,将rowkey和数据一并插入HBASE表中。
5.根据权利要求3所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于所述Spark读取HBASE获取增量数据,根据“OPT_TIME”小于当前本地时间为过滤条件获取增量数据。
6.根据权利要求5所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于把HBASE表的数据转化为临时表。
7.根据权利要求6所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于把HBASE表的数据转化为临时表的方法为:把列转为map,再转成json,最后转为DF。
8.根据权利要求5所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于根据HBASE中增量数据获取到更新数据所在的分区集合,Spark根据这些集合读取HIVE中的数据。
9.根据权利要求8所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于Spark将HBASE中增量的数据根据“OPT_TYPE”字段分为deleteDF,updataDF和insertDF,将这三种DF分别与Hive的存量数据做join,去除Hive中与HBASE中主键一样的数据,把updataDF和insertDF与Hive剩余的数据合并。
10.根据权利要求9所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于根据已经读取的HBASE的增量数据后这些数据的rowkey,将其封装为RDD<rowkey>,并划分分区,在多个分区中把rowkey封装成deletes,实现分布式批量删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910917640.1A CN110674154B (zh) | 2019-09-26 | 2019-09-26 | 一种基于Spark的对Hive中数据进行插入、更新和删除的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910917640.1A CN110674154B (zh) | 2019-09-26 | 2019-09-26 | 一种基于Spark的对Hive中数据进行插入、更新和删除的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110674154A true CN110674154A (zh) | 2020-01-10 |
CN110674154B CN110674154B (zh) | 2023-04-07 |
Family
ID=69079435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910917640.1A Active CN110674154B (zh) | 2019-09-26 | 2019-09-26 | 一种基于Spark的对Hive中数据进行插入、更新和删除的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674154B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897490A (zh) * | 2020-07-08 | 2020-11-06 | 阿里巴巴集团控股有限公司 | 删除数据的方法以及装置 |
CN111984659A (zh) * | 2020-07-28 | 2020-11-24 | 招联消费金融有限公司 | 数据更新方法、装置、计算机设备和存储介质 |
CN112416934A (zh) * | 2020-11-20 | 2021-02-26 | 平安普惠企业管理有限公司 | hive表增量数据同步方法、装置、计算机设备及存储介质 |
CN112445810A (zh) * | 2020-12-11 | 2021-03-05 | 中国人寿保险股份有限公司 | 一种数据仓库数据更新方法、设备、电子设备及存储介质 |
CN112800073A (zh) * | 2021-01-27 | 2021-05-14 | 浪潮云信息技术股份公司 | 一种基于NiFi更新Delta Lake的方法 |
CN112948504A (zh) * | 2021-03-30 | 2021-06-11 | 苏宁易购集团股份有限公司 | 数据采集方法、装置、计算机设备和存储介质 |
CN113434608A (zh) * | 2021-07-06 | 2021-09-24 | 中国银行股份有限公司 | Hive数据仓库的数据处理方法及装置 |
CN113495894A (zh) * | 2020-04-01 | 2021-10-12 | 北京京东振世信息技术有限公司 | 数据同步方法、装置、设备及存储介质 |
CN113886330A (zh) * | 2021-10-13 | 2022-01-04 | 武汉达梦数据库股份有限公司 | 一种流处理方式支持动态读取hive表数据的方法及装置 |
CN116483873A (zh) * | 2023-06-25 | 2023-07-25 | 云筑信息科技(成都)有限公司 | 一种基于变更数据实现历史快照数据查询的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488187A (zh) * | 2015-12-02 | 2016-04-13 | 北京四达时代软件技术股份有限公司 | 多源异构数据增量抽取的方法及装置 |
WO2017096939A1 (zh) * | 2015-12-10 | 2017-06-15 | 深圳市华讯方舟软件技术有限公司 | 一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法 |
CN109815219A (zh) * | 2019-02-18 | 2019-05-28 | 国家计算机网络与信息安全管理中心 | 支持多数据库引擎的数据生命周期管理的实现方法 |
-
2019
- 2019-09-26 CN CN201910917640.1A patent/CN110674154B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488187A (zh) * | 2015-12-02 | 2016-04-13 | 北京四达时代软件技术股份有限公司 | 多源异构数据增量抽取的方法及装置 |
WO2017096939A1 (zh) * | 2015-12-10 | 2017-06-15 | 深圳市华讯方舟软件技术有限公司 | 一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法 |
CN109815219A (zh) * | 2019-02-18 | 2019-05-28 | 国家计算机网络与信息安全管理中心 | 支持多数据库引擎的数据生命周期管理的实现方法 |
Non-Patent Citations (1)
Title |
---|
杨宁等: "基于Spark的大数据分析工具Hive的研究", 《计算机时代》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113495894B (zh) * | 2020-04-01 | 2024-07-16 | 北京京东振世信息技术有限公司 | 数据同步方法、装置、设备及存储介质 |
CN113495894A (zh) * | 2020-04-01 | 2021-10-12 | 北京京东振世信息技术有限公司 | 数据同步方法、装置、设备及存储介质 |
CN111897490A (zh) * | 2020-07-08 | 2020-11-06 | 阿里巴巴集团控股有限公司 | 删除数据的方法以及装置 |
CN111897490B (zh) * | 2020-07-08 | 2024-06-11 | 阿里巴巴集团控股有限公司 | 删除数据的方法以及装置 |
CN111984659A (zh) * | 2020-07-28 | 2020-11-24 | 招联消费金融有限公司 | 数据更新方法、装置、计算机设备和存储介质 |
CN112416934A (zh) * | 2020-11-20 | 2021-02-26 | 平安普惠企业管理有限公司 | hive表增量数据同步方法、装置、计算机设备及存储介质 |
CN112445810A (zh) * | 2020-12-11 | 2021-03-05 | 中国人寿保险股份有限公司 | 一种数据仓库数据更新方法、设备、电子设备及存储介质 |
CN112800073A (zh) * | 2021-01-27 | 2021-05-14 | 浪潮云信息技术股份公司 | 一种基于NiFi更新Delta Lake的方法 |
CN112948504B (zh) * | 2021-03-30 | 2022-12-02 | 苏宁易购集团股份有限公司 | 数据采集方法、装置、计算机设备和存储介质 |
CN112948504A (zh) * | 2021-03-30 | 2021-06-11 | 苏宁易购集团股份有限公司 | 数据采集方法、装置、计算机设备和存储介质 |
CN113434608A (zh) * | 2021-07-06 | 2021-09-24 | 中国银行股份有限公司 | Hive数据仓库的数据处理方法及装置 |
CN113886330A (zh) * | 2021-10-13 | 2022-01-04 | 武汉达梦数据库股份有限公司 | 一种流处理方式支持动态读取hive表数据的方法及装置 |
CN116483873A (zh) * | 2023-06-25 | 2023-07-25 | 云筑信息科技(成都)有限公司 | 一种基于变更数据实现历史快照数据查询的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110674154B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674154B (zh) | 一种基于Spark的对Hive中数据进行插入、更新和删除的方法 | |
CN102426609B (zh) | 一种基于MapReduce编程架构的索引生成方法和装置 | |
CN107544984B (zh) | 一种数据处理的方法和装置 | |
CN104794123B (zh) | 一种为半结构化数据构建NoSQL数据库索引的方法及装置 | |
US10191932B2 (en) | Dependency-aware transaction batching for data replication | |
US9256665B2 (en) | Creation of inverted index system, and data processing method and apparatus | |
CN105138661A (zh) | 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法 | |
CN110795499B (zh) | 基于大数据的集群数据同步方法、装置、设备及存储介质 | |
CN105260464B (zh) | 数据存储结构的转换方法及装置 | |
CN107977396B (zh) | 一种KeyValue数据库的数据表的更新方法与表数据更新装置 | |
CN103646073A (zh) | 一种基于HBase表的条件查询优化方法 | |
US20140207820A1 (en) | Method for parallel mining of temporal relations in large event file | |
CN105930479A (zh) | 一种数据倾斜处理方法及装置 | |
CN103399945A (zh) | 一种基于云计算数据库系统的数据结构 | |
CN104239377A (zh) | 跨平台的数据检索方法及装置 | |
CN111258978A (zh) | 一种数据存储的方法 | |
CN105069151A (zh) | HBase二级索引构建装置和方法 | |
CN103455335A (zh) | 一种多级分类的Web实现方法 | |
CN114329096A (zh) | 一种原生图数据库处理方法及系统 | |
CN111143468B (zh) | 基于mpp分布式技术的多数据库数据管理方法 | |
CN110704442A (zh) | 一种大数据的实时获取方法及装置 | |
CN104239470A (zh) | 一种面向分布式环境的空间数据复合处理系统和方法 | |
Ali et al. | A state of art survey for big data processing and nosql database architecture | |
Van Hieu et al. | MapReduce join strategies for key-value storage | |
CN111125216B (zh) | 数据导入Phoenix的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 271000 Langchao science and Technology Park, 527 Dongyue street, Tai'an City, Shandong Province Applicant after: INSPUR SOFTWARE Co.,Ltd. Address before: No. 1036, Shandong high tech Zone wave road, Ji'nan, Shandong Applicant before: INSPUR SOFTWARE Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |