CN110674154A - 一种基于Spark的对Hive中数据进行插入、更新和删除的方法 - Google Patents

一种基于Spark的对Hive中数据进行插入、更新和删除的方法 Download PDF

Info

Publication number
CN110674154A
CN110674154A CN201910917640.1A CN201910917640A CN110674154A CN 110674154 A CN110674154 A CN 110674154A CN 201910917640 A CN201910917640 A CN 201910917640A CN 110674154 A CN110674154 A CN 110674154A
Authority
CN
China
Prior art keywords
data
hive
spark
hbase
deleting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910917640.1A
Other languages
English (en)
Other versions
CN110674154B (zh
Inventor
周永进
刘传涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201910917640.1A priority Critical patent/CN110674154B/zh
Publication of CN110674154A publication Critical patent/CN110674154A/zh
Application granted granted Critical
Publication of CN110674154B publication Critical patent/CN110674154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Spark的对Hive中数据进行插入更新和删除的方法,属于大数据计算技术领域,该方法将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作,实现方式如下:1)、Nifi抽取传统数据库增加操作时间和操作类型的标签;2)、Spark读取HBASE获取增量数据;3)、Spark读取Hive需要更新的分区的数据;4)、Spark将HBASE中增量数据与Hive中的存量数据合并;5)、批量删除HBASE增量数据。本发明传统数据库数据抽取至Hive时,数据无法更新的问题,实现了将数据从传统关系数据库同步至Hive大数据仓库中,数据的插入、更新和删除操作。

Description

一种基于Spark的对Hive中数据进行插入、更新和删除的方法
技术领域
本发明涉及大数据计算技术领域,具体地说是一种基于Spark的对Hive中数据进行插入、更新和删除的方法。
背景技术
目前我国提出实施国家大数据战略:“把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新”。那么未来最贵的资源必定是数据,如何采集、存储和计算数据成为了当前热点话题,Hive和Spark分别作为当前大数据领域内存储和计算使用最多的技术,引起了工业界的广泛关注。
Spark是基于内存的分布式计算框架,并且对Hadoop生态系统有高度的支持,比如支持从HDFS、Hbase、Hive等分布式文件系统读取数据。而且Spark目前发展非常迅速,支持的持久层框架越来越多,并且随着SparkSQL的出现,通过SparkSQL直接访问Hive更加方便,数据开发人员直接用SQL语句便可以做数据分析,降低了Spark和大数据开发难度。但是Spark+Hive的计算组合也要面临一个问题,Spark无法访问Hive的事务表,那么Hive将无法对历史数据进行行级别的更新和删除。
在大数据生态系统中,Hbase是大数据存储的一个重要组件,可以利用Rowkey的唯一性,快速的定位到数据,进行增加、删除和修改。但是,目前大数据量下,Spark访问Hbase的效率比不上Hive,无法满足对计算性能有一定要求的场景。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于Spark的对Hive中数据进行插入、更新和删除的方法,解决在将传统关系数据库中数据同步至Hive时,若数据涉及更新和删除,而Hive中对应的数据无法同步更新和删除的问题。
本发明解决其技术问题所采用的技术方案是:
一种基于Spark的对Hive中数据进行插入、更新和删除的方法,该方法将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作,实现方式如下:
1)、Nifi抽取传统数据库,增加操作时间和操作类型的标签;
2)、Spark读取HBASE获取增量数据;
3)、Spark读取Hive需要更新的分区的数据;
4)、Spark将HBASE中增量数据与Hive中的存量数据合并;
5)、批量删除HBASE增量数据。
该方法利用Hbase快速更新的特点,利用关系数据库的主键列作为rowkey,对历史数据进行增删查改,再利用Spark对Hbase和Hive的支持,利用Hive分区特征对Hive历史数据做更新和删除。
首先使用Nifi把数据从传统数据库抽取至HBase,利用rowkey的唯一性来插入、更新和删除数据;然后用Spark读取HBase中的增量数据,并将这些数据与Hive中的存量数据根据主键列做关联操作,把需要删除和更新的数据从Hive删除,把HBase更新和插入的数据并入Hive中,最后,把合并后的数据写回至Hive。
该方法将数据从传统关系数据库同步至Hive大数据仓库中,并做到数据插入、更新和删除,从而解决了用户使用大数据计算框架(Spark、MapReduce)分析Hive数据时,数据被导入Hive时只能插入,而无法删除和更新的问题。
具体的,该方法的具体实现方式为:
Nifi读取传统数据库的操作日志,读取插入、更新和删除操作的数据,并为该数据加入操作时间和操作类型标签,写入Hbase;
Spark获取当前时间,并根据时间标签读取HBASE增量数据;
Spark重配置文件中读取的增量数据的分区字段和联合主键列;
Spark从增量数据中获取涉及增量修改的分区集合,Spark根据这个分区集合读取Hive中存量数据,将这些存量数据与增量数据根据联合主键关联;
删除存量数据中标签为“删除”和“更新”的数据,合并增量数据中标签为“插入”和“更新”的数据,并写入Hive中,完成插入、更新和删除的操作。
将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作。
优选的,所述Nifi抽取传统数据库中的数据时,根据数据库的增删查改和抽取时间,为每一条记录增加“OPT_TIME”和“OPT_TYPE”字段。
进一步的,定义Nifi从传统关系数据库抽取log日志的流程,
若log为插入数据,则“OPT_TYPE”赋值为“OPT_INSERT”;若log为更新数据,则“OPT_TYPE”赋值为“OPT_UPDATA”;若log为删除数据,则“OPT_TYPE”赋值为“OPT_DELETE”;
读取联合主键,将它们拼接为HBASE的rowkey,将rowkey和数据一并插入HBASE表中。如后续日志有对于该rowkey的对应行的数据的其他操作,则除了更新对应数据外,同样需要更新“OPT_TIME”和“OPT_TYPE”字段。
优选的,所述Spark读取HBASE获取增量数据,根据“OPT_TIME”小于当前本地时间为过滤条件获取增量数据。
优选的,把HBASE表的数据转化为临时表。
具体的,把HBASE表的数据转化为临时表的方法为:把列转为map,再转成json,最后转为DF。通过map转换为jsonRDD,最终注册为临时表insertDF。
优选的,Spark读取Hive需要更新的分区的数据,根据HBASE中增量数据获取到更新数据所在的分区集合,Spark根据这些集合读取HIVE中的数据。
进一步的,Spark将HBASE中增量数据与Hive中的存量数据合并的方法为:Spark将HBASE中增量的数据根据“OPT_TYPE”字段分为deleteDF,updataDF和insertDF,将这三种DF分别与Hive的存量数据做join,去除Hive中与HBASE中主键一样的数据,把updataDF和insertDF与Hive剩余的数据合并。
进一步的,批量删除HBASE增量数据,根据已经读取的HBASE的增量数据后这些数据的rowkey,将其封装为RDD<rowkey>,并划分分区,在多个分区中把rowkey封装成deletes,实现分布式批量删除,从而实现高效率删除增量数据。
本方法结合Spark对多种数据源的支持,提出了先在Hbase中做更新,在利用Spark做合并的方法,满足了既能对数据插入、更新和删除,又能快速计算的要求。
本发明的一种基于Spark的对Hive中数据进行插入、更新和删除的方法与现有技术相比,具有以下有益效果:
该方法解决了传统数据库数据抽取至Hive时,数据无法更新的问题。主要应用在系统从传统关系数据库向大数据平台切换,或者随着业务量的增大,传统数据库因为历史数据不断增加,无法满足对数据的处理性能,需要把数据转移至Hive,使用Spark作为计算引擎的场景。
该方法利用HBASE的单行更新能力,以及Hive分区存储的特点,把传统数据库的增删查改用Hbase解决,而同步至Hive的更新时,用读取整个分区、并根据标签对HBASE的逻辑标识合并分区数据的方法,从分区层面实现对数据的更新。本方法解决了Hive在不开启事务的情况下,保证了Hive数据的插入、更新和删除操作,并没有对Spark读取Hive的计算性能造成损失。
附图说明
图1是本发明基于Spark的对Hive中数据进行插入更新和删除的方法流程图。
具体实施方式
一种基于Spark的对Hive中数据进行插入、更新和删除的方法,该方法将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作,实现方式如下:
1、Nifi抽取传统数据库,增加操作时间和操作类型的标签;
Nifi抽取传统数据库中的数据时,根据数据库的增删查改和抽取时间,为每一条记录增加“OPT_TIME”和“OPT_TYPE”字段。
2、Spark读取HBASE获取增量数据;
根据“OPT_TIME”小于当前本地时间为过滤条件获取增量数据,进一步的包括把HBASE表的数据转化为临时表。把HBASE表的数据转化为临时表的方法实现把列转为map,再转成json,最后转为DF的过程。
Figure BDA0002216569580000041
3、Spark读取Hive需要更新的分区的数据;
根据HBASE中增量数据获取到更新数据所在的分区集合,Spark根据这些集合读取Hive中的数据。
Figure BDA0002216569580000051
4、Spark将HBASE中增量数据与Hive中的存量数据合并;
Spark将HBASE中增量数据与Hive中的存量数据合并的方法为:Spark将HBASE中增量的数据根据“OPT_TYPE”字段分为deleteDF,updataDF和insertDF,将这三种DF分别与Hive的存量数据做join,会去除Hive中与HBASE中主键一样的数据,把updataDF和insertDF与Hive剩余的数据合并。
Figure BDA0002216569580000052
5、批量删除HBASE增量数据;
根据已经读取的HBASE的增量数据后这些数据的rowkey,将其封装为RDD<rowkey>,并划分分区,在多个分区中把rowkey封装成deletes,实现分布式批量删除,从而实现高效率删除增量数据。
该方法利用Hbase快速更新的特点,利用关系数据库的主键列作为rowkey,对历史数据进行增删查改,再利用Spark对Hbase和Hive的支持,利用Hive分区特征对Hive历史数据做更新和删除。
实施例
Nifi读取传统数据库的操作日志,读取插入、更新和删除操作的数据,并为该数据加入操作时间和操作类型标签,写入Hbase;
Spark获取当前时间,并根据时间标签读取HBASE增量数据;
Spark重配置文件中读取的增量数据的分区字段和联合主键列;
Spark从增量数据中获取涉及增量修改的分区集合,Spark根据这个分区集合读取Hive中存量数据,将这些存量数据与增量数据根据联合主键关联;
删除存量数据中标签为“删除”和“更新”的数据,合并增量数据中标签为“插入”和“更新”的数据,并写入Hive中,完成插入、更新和删除的操作。
将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作。
具体实现方式如下:
(1)、定义Nifi从传统关系数据库抽取log日志的流程,并给读出的每条记录增加当前时间与操作类型两列,具体为“OPT_TIME”和“OPT_TYPE”;
若log为插入数据,则“OPT_TYPE”赋值为“OPT_INSERT”;若log为更新数据,则“OPT_TYPE”赋值为“OPT_UPDATA”;若log为删除数据,则“OPT_TYPE”赋值为“OPT_DELETE”。
读取联合主键,将它们拼接为HBASE的rowkey,将rowkey和数据一并插入HBASE表中。如后续日志有对于该rowkey的对应行的数据的其他操作,则除了更新对应数据外,同样需要更新“OPT_TIME”和“OPT_TYPE”字段。
(2)、定义Spark应用程序读取HBASE,并增加过滤条件OPT_TIME小于当前本地时间,结果定义为increRDD。通过map转换为JsonRDD,最总注册为一张临时表increDF。
(3)、从配置文件中读取该表对应的分区列,并从increDF获取所修改的行处在的Hive分区的集合SetA;然后定义Spark程序读取分区SetA中的所有数据,定位为HiveDF。
(4)、把increDF根据“OPT_TYPE”字段类型切分为3部分deleteDF,updataDF和insertDF。从配置文件中读取这个表对应的联合主键,根据联合主键将HiveDF分别与deleteDF、updataDF和insertDF做关联join。把HiveDF中与这三组数据在主键上有重复的数据删除,保留主键未重复的数据,记录为unchangeDF。将updataDF和insertDF与unchangeDF做union,生成结果resultDF。将其持久化至HIVE中间表中。
(5)、删除HIVE中第(3)步读取数据的分区,把第(4)步中间表的数据,插入到hive表中。
(6)、根据increDF,获取所有rowkey,根据这些rowkey,生成HBASE的delete集合。从HBASE表中删除这些已经同步至hive的数据。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (10)

1.一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于该方法将Spark与Hbase、Hive相结合,实现对Hive的插入、更新和删除操作,实现方式如下:
1)、Nifi抽取传统数据库,增加操作时间和操作类型的标签;
2)、Spark读取HBASE获取增量数据;
3)、Spark读取Hive需要更新的分区的数据;
4)、Spark将HBASE中增量数据与Hive中的存量数据合并;
5)、批量删除HBASE增量数据。
2.根据权利要求1所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于该方法的具体实现方式为:
Nifi读取传统数据库的操作日志,读取插入、更新和删除操作的数据,并为该数据加入操作时间和操作类型标签,写入Hbase;
Spark获取当前时间,并根据时间标签读取HBASE增量数据;
Spark重配置文件中读取的增量数据的分区字段和联合主键列;
Spark从增量数据中获取涉及增量修改的分区集合,Spark根据这个分区集合读取Hive中存量数据,将这些存量数据与增量数据根据联合主键关联;
删除存量数据中标签为“删除”和“更新”的数据,合并增量数据中标签为“插入”和“更新”的数据,并写入Hive中,完成插入、更新和删除的操作。
3.根据权利要求1或2所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于所述Nifi抽取传统数据库中的数据时,根据数据库的增删查改和抽取时间,为每一条记录增加“OPT_TIME”和“OPT_TYPE”字段。
4.根据权利要求3所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于定义Nifi从传统关系数据库抽取log日志的流程,
若log为插入数据,则“OPT_TYPE”赋值为“OPT_INSERT”;若log为更新数据,则“OPT_TYPE”赋值为“OPT_UPDATA”;若log为删除数据,则“OPT_TYPE”赋值为“OPT_DELETE”;
读取联合主键,将它们拼接为HBASE的rowkey,将rowkey和数据一并插入HBASE表中。
5.根据权利要求3所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于所述Spark读取HBASE获取增量数据,根据“OPT_TIME”小于当前本地时间为过滤条件获取增量数据。
6.根据权利要求5所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于把HBASE表的数据转化为临时表。
7.根据权利要求6所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于把HBASE表的数据转化为临时表的方法为:把列转为map,再转成json,最后转为DF。
8.根据权利要求5所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于根据HBASE中增量数据获取到更新数据所在的分区集合,Spark根据这些集合读取HIVE中的数据。
9.根据权利要求8所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于Spark将HBASE中增量的数据根据“OPT_TYPE”字段分为deleteDF,updataDF和insertDF,将这三种DF分别与Hive的存量数据做join,去除Hive中与HBASE中主键一样的数据,把updataDF和insertDF与Hive剩余的数据合并。
10.根据权利要求9所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法,其特征在于根据已经读取的HBASE的增量数据后这些数据的rowkey,将其封装为RDD<rowkey>,并划分分区,在多个分区中把rowkey封装成deletes,实现分布式批量删除。
CN201910917640.1A 2019-09-26 2019-09-26 一种基于Spark的对Hive中数据进行插入、更新和删除的方法 Active CN110674154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910917640.1A CN110674154B (zh) 2019-09-26 2019-09-26 一种基于Spark的对Hive中数据进行插入、更新和删除的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910917640.1A CN110674154B (zh) 2019-09-26 2019-09-26 一种基于Spark的对Hive中数据进行插入、更新和删除的方法

Publications (2)

Publication Number Publication Date
CN110674154A true CN110674154A (zh) 2020-01-10
CN110674154B CN110674154B (zh) 2023-04-07

Family

ID=69079435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910917640.1A Active CN110674154B (zh) 2019-09-26 2019-09-26 一种基于Spark的对Hive中数据进行插入、更新和删除的方法

Country Status (1)

Country Link
CN (1) CN110674154B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897490A (zh) * 2020-07-08 2020-11-06 阿里巴巴集团控股有限公司 删除数据的方法以及装置
CN111984659A (zh) * 2020-07-28 2020-11-24 招联消费金融有限公司 数据更新方法、装置、计算机设备和存储介质
CN112416934A (zh) * 2020-11-20 2021-02-26 平安普惠企业管理有限公司 hive表增量数据同步方法、装置、计算机设备及存储介质
CN112445810A (zh) * 2020-12-11 2021-03-05 中国人寿保险股份有限公司 一种数据仓库数据更新方法、设备、电子设备及存储介质
CN112800073A (zh) * 2021-01-27 2021-05-14 浪潮云信息技术股份公司 一种基于NiFi更新Delta Lake的方法
CN112948504A (zh) * 2021-03-30 2021-06-11 苏宁易购集团股份有限公司 数据采集方法、装置、计算机设备和存储介质
CN113434608A (zh) * 2021-07-06 2021-09-24 中国银行股份有限公司 Hive数据仓库的数据处理方法及装置
CN113495894A (zh) * 2020-04-01 2021-10-12 北京京东振世信息技术有限公司 数据同步方法、装置、设备及存储介质
CN113886330A (zh) * 2021-10-13 2022-01-04 武汉达梦数据库股份有限公司 一种流处理方式支持动态读取hive表数据的方法及装置
CN116483873A (zh) * 2023-06-25 2023-07-25 云筑信息科技(成都)有限公司 一种基于变更数据实现历史快照数据查询的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置
WO2017096939A1 (zh) * 2015-12-10 2017-06-15 深圳市华讯方舟软件技术有限公司 一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置
WO2017096939A1 (zh) * 2015-12-10 2017-06-15 深圳市华讯方舟软件技术有限公司 一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨宁等: "基于Spark的大数据分析工具Hive的研究", 《计算机时代》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495894B (zh) * 2020-04-01 2024-07-16 北京京东振世信息技术有限公司 数据同步方法、装置、设备及存储介质
CN113495894A (zh) * 2020-04-01 2021-10-12 北京京东振世信息技术有限公司 数据同步方法、装置、设备及存储介质
CN111897490A (zh) * 2020-07-08 2020-11-06 阿里巴巴集团控股有限公司 删除数据的方法以及装置
CN111897490B (zh) * 2020-07-08 2024-06-11 阿里巴巴集团控股有限公司 删除数据的方法以及装置
CN111984659A (zh) * 2020-07-28 2020-11-24 招联消费金融有限公司 数据更新方法、装置、计算机设备和存储介质
CN112416934A (zh) * 2020-11-20 2021-02-26 平安普惠企业管理有限公司 hive表增量数据同步方法、装置、计算机设备及存储介质
CN112445810A (zh) * 2020-12-11 2021-03-05 中国人寿保险股份有限公司 一种数据仓库数据更新方法、设备、电子设备及存储介质
CN112800073A (zh) * 2021-01-27 2021-05-14 浪潮云信息技术股份公司 一种基于NiFi更新Delta Lake的方法
CN112948504B (zh) * 2021-03-30 2022-12-02 苏宁易购集团股份有限公司 数据采集方法、装置、计算机设备和存储介质
CN112948504A (zh) * 2021-03-30 2021-06-11 苏宁易购集团股份有限公司 数据采集方法、装置、计算机设备和存储介质
CN113434608A (zh) * 2021-07-06 2021-09-24 中国银行股份有限公司 Hive数据仓库的数据处理方法及装置
CN113886330A (zh) * 2021-10-13 2022-01-04 武汉达梦数据库股份有限公司 一种流处理方式支持动态读取hive表数据的方法及装置
CN116483873A (zh) * 2023-06-25 2023-07-25 云筑信息科技(成都)有限公司 一种基于变更数据实现历史快照数据查询的方法

Also Published As

Publication number Publication date
CN110674154B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110674154B (zh) 一种基于Spark的对Hive中数据进行插入、更新和删除的方法
CN102426609B (zh) 一种基于MapReduce编程架构的索引生成方法和装置
CN107544984B (zh) 一种数据处理的方法和装置
CN104794123B (zh) 一种为半结构化数据构建NoSQL数据库索引的方法及装置
US10191932B2 (en) Dependency-aware transaction batching for data replication
US9256665B2 (en) Creation of inverted index system, and data processing method and apparatus
CN105138661A (zh) 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法
CN110795499B (zh) 基于大数据的集群数据同步方法、装置、设备及存储介质
CN105260464B (zh) 数据存储结构的转换方法及装置
CN107977396B (zh) 一种KeyValue数据库的数据表的更新方法与表数据更新装置
CN103646073A (zh) 一种基于HBase表的条件查询优化方法
US20140207820A1 (en) Method for parallel mining of temporal relations in large event file
CN105930479A (zh) 一种数据倾斜处理方法及装置
CN103399945A (zh) 一种基于云计算数据库系统的数据结构
CN104239377A (zh) 跨平台的数据检索方法及装置
CN111258978A (zh) 一种数据存储的方法
CN105069151A (zh) HBase二级索引构建装置和方法
CN103455335A (zh) 一种多级分类的Web实现方法
CN114329096A (zh) 一种原生图数据库处理方法及系统
CN111143468B (zh) 基于mpp分布式技术的多数据库数据管理方法
CN110704442A (zh) 一种大数据的实时获取方法及装置
CN104239470A (zh) 一种面向分布式环境的空间数据复合处理系统和方法
Ali et al. A state of art survey for big data processing and nosql database architecture
Van Hieu et al. MapReduce join strategies for key-value storage
CN111125216B (zh) 数据导入Phoenix的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 271000 Langchao science and Technology Park, 527 Dongyue street, Tai'an City, Shandong Province

Applicant after: INSPUR SOFTWARE Co.,Ltd.

Address before: No. 1036, Shandong high tech Zone wave road, Ji'nan, Shandong

Applicant before: INSPUR SOFTWARE Co.,Ltd.

GR01 Patent grant
GR01 Patent grant