CN108256115A - 一种面向SparkSql的HDFS小文件实时合并实现方法 - Google Patents

一种面向SparkSql的HDFS小文件实时合并实现方法 Download PDF

Info

Publication number
CN108256115A
CN108256115A CN201810142899.9A CN201810142899A CN108256115A CN 108256115 A CN108256115 A CN 108256115A CN 201810142899 A CN201810142899 A CN 201810142899A CN 108256115 A CN108256115 A CN 108256115A
Authority
CN
China
Prior art keywords
sparksql
file
small documents
hdfs
merge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810142899.9A
Other languages
English (en)
Other versions
CN108256115B (zh
Inventor
马秉楠
吕雁飞
张鸿
何清林
惠榛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Publication of CN108256115A publication Critical patent/CN108256115A/zh
Application granted granted Critical
Publication of CN108256115B publication Critical patent/CN108256115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Abstract

本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法,属于大数据处理技术领域。定期筛选HDFS中待合并的小文件,对得到的待合并小文件,生成合并小文件的Spark任务,并提交至Yarn上执行;对完成小文件合并的结果信息放置于待替换列表中;结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行;根据SparkSql实时检索数据库表的情况,在Zookeeper中注册和注销相应数据库表的读状态;在文件替换时,通过网络在SparkSql中进行文件元数据缓存增量更新。本发明可以在保持SparkSql正常运行的情况下,实现实时合并HDFS小文件,有效的提高SparkSql的检索效率,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。

Description

一种面向SparkSql的HDFS小文件实时合并实现方法
技术领域
本发明属于大数据处理领域,具体涉及一种面向SparkSql的HDFS(Hadoop分布式文件系统)小文件实时合并的实现方法。
背景技术
随着计算机技术的不断发展和信息化程度的不断提高,数据量迅速增长,面向海量数据存储及应用也随之蓬勃发展。大数据应用越来越广泛,如,在网络安全上,使用大数据技术分析网络攻击行为;在电子商务上,使用大数据技术分析用户购物喜好或最受青睐的商品。大数据技术在建设节约型社会,提高生成效率等方面起到了积极的推动作用。
Spark是专为大规模数据处理而设计的快速通用的计算引擎。在海量数据检索应用中,分布式检索框架SparkSql作为一种优秀的大数据检索方法被广泛的使用。Hive是基于Hadoop的一个数据仓库处理工具,使用类SQL的HiveQL语言实现数据查询,所有Hive的数据都存储在Hadoop兼容的文件系统(例如,Amazon S3、HDFS)中。SparkSql提供了同Hive的HiveQL接口,具有较高的效率及可用性。但是随着数据量的不断增加以及对文件加载延迟的更高要求,HDFS中过多的小文件降低了SparkSql的检索效率和并发处理任务的能力,这个问题直接的影响了业务应用。
使用SparkSql进行检索时,Spark Driver(驱动)会获取被检索文件的元数据并进行缓存,以此来生成Spark Task(任务)分发到集群的各个节点上执行。在实际的工程实践中,为了使加载的数据能够尽快地被SparkSql检索到,往往不会等待加载数据积累很多就进行新文件的生成,这种加载方法使得SparkSql检索的文件容量较小、文件数量过多。这造成的问题是显而易见的:首先,由于检索过程中SparkSql要将所有待检索的文件元数据在Spark Driver进程内存中进行缓存,此时检索文件过多就造成单个SparkSql检索任务占用的内存过大,受限于服务器的物理内存而无法进行过多的并发检索;其次由于文件较小,在进行相同规模数量的检索中会分布式读取更多的文件,在Spark Task调度和文件获取等步骤上有较大的时间开销,造成SparkSql的检索效率较低。
发明内容
为了解决上述SparkSql使用中出现的关键问题,本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法,以减少SparkSql检索的目标文件的数量,从而降低SparkSql检索文件的资源开销和时间开销,提高SparkSql检索支持的任务并发数量,有效的提高了SparkSql框架的检索效率和可用性。
本发明提供的一种面向SparkSql的HDFS小文件实时合并的实现方法,包括:
(1)定期筛选HDFS中待合并的小文件,包括:将设置的文件合并策略预先存放在Hivemetastore中;从Hive metastore获取各个数据库表信息和文件合并策略;根据得到的数据库表信息在HDFS中遍历获取相应的文件元数据,根据文件合并策略对获取的文件元数据进行筛选,将符合合并策略的小文件筛选出,并缓存至内存中;
(2)对得到的待合并小文件,生成合并小文件的Spark任务,并提交至Yarn上执行;对完成小文件合并的结果信息放置于待替换列表中;
(3)结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行;根据SparkSql实时检索数据库表的情况,在Zookeeper中注册和注销相应数据库表的读状态;
(4)在文件替换时,通过网络在SparkSql中进行文件元数据缓存增量更新;
在SparkSql中对库表的文件元数据进行缓存,在SparkSql中启动一个Http服务线程,通过该线程接收小文件合并服务发来的合并结果,来达到SparkSql文件元数据增量更新的目的。
本发明的优点与积极效果在于:本发明方法在SparkSql正常运行的情况下,通过将小文件合并有效地提高SparkSql运行效率,使SparkSql支持对更大规模的分布式数据进行检索。本发明方法能够减少HDFS的文件数量,降低SparkSql运行时的资源压力,提高SparkSql并发处理任务的能力,有效提升SparkSql的检索效率和可用性。本发明方法避免了SparkSql在进行大结果集检索时可能出现的内存问题,并且较大幅度的提高了检索的响应速度,减少了检索的总耗时,符合当下大数据检索实际需求,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。
附图说明
图1为本发明方法中待合并小文件筛选的流程图;
图2为本发明方法中小文件合并任务执行流程图;
图3为本发明的SparkSql与小文件合并系统信息同步流程图;
图4为本发明方法中使用生成文件替换被合并文件流程图。
具体实施方式
为了能够更清楚了解本发明的技术手段,下面将结合附图和实施例对本发明的技术方案作进一步的详细说明。
本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法,包括:结合Hive metastore与HDFS获取相关文件元数据并筛选小文件的方法;将待合并文件按照策略生成Spark任务提交至Yarn上合并的方法;结合Zookeeper保持SparkSql在合并后文件替换被合并文件时维持正常运行的方法;在文件替换后通过网络在SparkSql中进行文件元数据缓存增量更新的方法。使用本方法可以在保持SparkSql正常运行的情况下,实现实时合并HDFS小文件,以有效的提高SparkSql的检索效率。metastore是Hive中连接MySQL数据库获取元数据的服务。YARN是一种Hadoop资源管理器,ZooKeeper是一个分布式的、开放源码的分布式应用程序协调服务。下面结合图1~图4来说明各个实现部分。
如图1所示,为对筛选HDFS中待合并的小文件的一个实现流程,具体步骤如下:
步骤101:在Hive metastore中读取预先设置的对各数据库表的小文件合并策略。小文件合并策略预先存放在Hive metastore中。
步骤102:在Hive metastore中读取各数据库表的文件目录元数据,根据获取的信息到HDFS中获取相应的文件元数据。
步骤103:根据步骤101获取的文件合并策略,遍历步骤202中获取的表文件元数据,筛选出符合合并策略的小文件,并将筛选到的小文件列表进行缓存。
步骤104:根据实际业务情况设置合适的休眠时间,休眠结束后跳转到步骤101。通过定期执行上面步骤来实现对HDFS中的待合并小文件的实时发现。
所述的小文件合并策略中设置了合并条件,对获取的表文件元数据进行判断,当符合合并条件时,就属于要合并的小文件。
如图2所示,为本发明小文件合并任务执行的一个实现流程,具体步骤如下:
步骤201:根据集群实际的可用资源数量,建立适当线程数量的小文件合并任务提交线程池。
步骤202:判断现在是否有筛选得到的待合并小文件需要合并,若有则进入步骤204;否则进入步骤203。
步骤203:轮询是否有新筛选出的待合并小文件,有新的小文件后跳转到步骤201。
步骤204:读取待合并小文件的文件元数据,并将其进行缓存。
步骤205:根据小文件合并策略选取步骤204中读取的合适数量的小文件,生成对这些小文件进行合并的Spark任务,等待执行。
步骤206:使用步骤201中建立的小文件合并线程池,并发提交执行步骤205中生成的小文件合并任务到Yarn上进行分布式执行。
步骤207:在步骤206提交执行的小文件合并任务结束后,读取合并任务生成的文件数据以及被合并的小文件数据,对比数据一致性,以判断本次的小文件合并任务是否执行成功。将本次小文件合并的结果信息放置于待进行文件替换的列表中,等待时机使用合并生成文件对被合并小文件进行替换。
在获得待合并的小文件列表后,根据实际小文件合并策略和集群实际可用资源数量,灵活生成合并小文件的Spark任务,并将任务提交到Yarn上来使用集群资源分布式执行。在合并任务执行完成之后,读取合并生成的文件以及被合并的相应小文件,通过对这两个数据集合的对比来确定文件合并任务是否执行成功,以此来保证数据合并前后的一致性。通过该方法可以实时地使用集群闲置资源进行小文件合并。
如图3所示,为本发明对SparkSql与小文件合并系统信息同步的一个实现流程,具体步骤如下:
步骤301:接收到用户提交到SparkSql进行检索的SQL语句。
步骤302:通过Zookeeper读取该表是否正在进行小文件合并后的文件替换操作。
步骤303:判断步骤302中获取到的结果,若是则进入步骤305;否则跳转到步骤304。
步骤304:等待一段时间后跳转到步骤302。相当于从Zookeeper中轮询获取该被检索表是否处于小文件合并后的小文件替换阶段。
步骤305:在Zookeeper中注册该表为正在检索读取的状态,避免在检索过程中小文件合并服务进行该表的文件替换。
步骤306:进行SparkSql的库表检索操作。
步骤307:在本次检索结束后,将注销表的读状态,完成本次检索。
本发明方法根据SparkSql实时检索数据库表情况,在Zookeeper中注册和注销相应表的读状态。在替换过程中读取Zookpeeper中相应库表的状态,如果相应库表处于在读的状态,则会延迟进行文件的替换。相应的,在文件进行替换的时候,将在Zookeeper中注册库表为正在替换的状态,此时SparkSql也对相应库表的检索操作做延迟等待的处理。通过本发明信息同步处理方法,可以有效地避免合并后文件对合并前文件的替换对SparkSql检索的干扰,以保障在小文件合并的同时,SparkSql能够高可用的运行。
如图4所示,为本发明使用生成文件替换被合并文件的流程示意图,具体步骤如下:
步骤401:读取步骤207中所述的小文件合并完成文件待替换列表。
步骤402:判断步骤401是否存在待进行替换的合并生成文件被读取到,若是则进入步骤404;否则跳转到步骤403。
步骤403:等待适当时间后跳转到步骤401。相当于轮询是否有新的小文件合并任务执行成功,产生了等待替换的合并结果文件。
步骤404:选取一个待替换的合并结果文件,从Zookeeper中获取确认是否有步骤305所注册的表在读操作。
步骤405:根据步骤404中的读取结果,若是则进入步骤407;否则跳转至步骤406。
步骤406:将本次进行替换文件的相关信息放置回待替换文件列表的末端,并跳转回步骤401。
步骤407:在Zookeeper中注册此合并替换文件所属表处于文件正在替换状态,以供步骤302进行读取。
步骤408:使用合并任务生成的文件替换被合并的小文件。
步骤409:在Zookeeper中注销步骤407中所在Zookeeper注册的表正在替换状态。完成本次的文件替换操作,跳转回步骤401。
本发明方法在文件替换后通过网络在SparkSql中进行文件元数据缓存增量更新。在SparkSql中对库表的文件元数据进行缓存,以降低检索时获取文件元数据的时间和资源开销。本发明方法在SparkSql中启动一个Http服务线程,通过该线程接收相应请求来达到SparkSql文件元数据增量更新的目的。小文件合并服务在文件合并后,向SparkSql的文件元数据增量更新Http服务发送相关的合并结果信息。SparkSql会根据收到的合并结果信息,移除相应库表中被合并小文件的文件元数据,并且将合并生成的文件所对应的文件元数据放置到SparkSql相应缓存之中。通过网络在SparkSql中进行文件元数据缓存增量更新的使用,可以在小文件合并完成时,灵活的增量更新SparkSql中的相应库表文件元数据,通过这种方式将有效的避免了小文件合并后SparkSql文件元数据全量更新造成的巨大开销,大幅提高了SparkSql的运行效率。
本发明提供的面向SparkSql的HDFS小文件实时合并的实现方法,通过保持SparkSql正常运行的情况下,将HDFS中的小文件进行合并,可以有效提高SparkSql检索数据时的检索效率,并大幅提高SparkSql在高并发场景下处理任务的能力。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (6)

1.一种面向SparkSql的HDFS小文件实时合并实现方法,其特征在于,包括四方面:
(1)定期筛选HDFS中待合并的小文件,包括:将设置的文件合并策略预先存放在Hivemetastore中;从Hive metastore获取各个数据库表信息和文件合并策略;根据得到的数据库表信息在HDFS中遍历获取相应的文件元数据,根据文件合并策略对获取的文件元数据进行筛选,将符合合并策略的小文件筛选出,并缓存至内存中;
(2)对得到的待合并小文件,生成合并小文件的Spark任务,并提交至Yarn上执行;对完成小文件合并的结果信息放置于待替换列表中;
(3)结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行;根据SparkSql实时检索数据库表的情况,在Zookeeper中注册和注销相应数据库表的读状态;
(4)在文件替换时,通过网络在SparkSql中进行文件元数据缓存增量更新;
在SparkSql中对库表的文件元数据进行缓存,在SparkSql中启动一个Http服务线程,通过该线程接收小文件合并服务发来的合并结果,来达到SparkSql文件元数据增量更新的目的。
2.根据权利要求1所述的方法,其特征在于,所述的(1)中,为每个业务库表设置一个文件合并策略。
3.根据权利要求1所述的方法,其特征在于,所述的(2)中,根据文件合并策略和集群实际可用资源数量,生成合并小文件的Spark任务,并将任务提交到Yarn上,使用集群资源分布式执行。
4.根据权利要求1或3所述的方法,其特征在于,所述的(2)中,在合并任务执行完成之后,将读取合并生成的文件以及被合并的相应小文件,通过对两个数据集合的对比来确定文件合并任务是否执行成功,以保证数据合并前后的一致性。
5.根据权利要求1所述的方法,其特征在于,所述的(3)中,在替换过程中,读取Zookpeeper中相应数据库表的状态,如果相应数据库表处于在读的状态,将延迟进行文件的替换;在文件进行替换时,将在Zookeeper中注册相应数据库表为正在替换的状态,此时SparkSql将对相应数据库表的检索操作做延迟等待处理。
6.根据权利要求1所述的方法,其特征在于,所述的(4)中,小文件合并服务向Http服务发送合并结果,SparkSql将根据待替换列表,移除相应库表中被合并小文件的文件元数据,并且将合并生成的文件所对应的文件元数据放置到SparkSql相应缓存中。
CN201810142899.9A 2017-09-05 2018-02-11 一种面向SparkSql的HDFS小文件实时合并实现方法 Active CN108256115B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710789641 2017-09-05
CN2017107896413 2017-09-05

Publications (2)

Publication Number Publication Date
CN108256115A true CN108256115A (zh) 2018-07-06
CN108256115B CN108256115B (zh) 2022-02-25

Family

ID=62744850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810142899.9A Active CN108256115B (zh) 2017-09-05 2018-02-11 一种面向SparkSql的HDFS小文件实时合并实现方法

Country Status (1)

Country Link
CN (1) CN108256115B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189798A (zh) * 2018-09-30 2019-01-11 浙江百世技术有限公司 一种基于spark同步更新数据的方法
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN109902067A (zh) * 2019-02-15 2019-06-18 杭州数梦工场科技有限公司 文件处理方法、装置、存储介质及计算机设备
CN111159130A (zh) * 2018-11-07 2020-05-15 中移(苏州)软件技术有限公司 一种小文件合并方法及电子设备
CN111488323A (zh) * 2020-04-14 2020-08-04 中国农业银行股份有限公司 一种数据处理方法、装置及电子设备
CN112231293A (zh) * 2020-09-14 2021-01-15 杭州数梦工场科技有限公司 文件读取方法、装置、电子设备和存储介质
CN112241396A (zh) * 2020-10-27 2021-01-19 浪潮云信息技术股份公司 基于Spark的对Delta进行小文件合并的方法及系统
CN112637616A (zh) * 2020-12-08 2021-04-09 网宿科技股份有限公司 一种对象存储方法、系统及服务器
CN112800073A (zh) * 2021-01-27 2021-05-14 浪潮云信息技术股份公司 一种基于NiFi更新Delta Lake的方法
CN113946289A (zh) * 2021-09-23 2022-01-18 南京医基云医疗数据研究院有限公司 基于Spark计算引擎的文件合并方法及装置、存储介质、设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404652A (zh) * 2015-10-29 2016-03-16 河海大学 一种基于hdfs的海量小文件处理方法
US20160335318A1 (en) * 2015-05-11 2016-11-17 AtScale, Inc. Dynamic aggregate generation and updating for high performance querying of large datasets
CN106649630A (zh) * 2016-12-07 2017-05-10 乐视控股(北京)有限公司 数据查询方法及装置
CN106843763A (zh) * 2017-01-19 2017-06-13 北京神州绿盟信息安全科技股份有限公司 一种基于hdfs系统的文件合并方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160335318A1 (en) * 2015-05-11 2016-11-17 AtScale, Inc. Dynamic aggregate generation and updating for high performance querying of large datasets
CN105404652A (zh) * 2015-10-29 2016-03-16 河海大学 一种基于hdfs的海量小文件处理方法
CN106649630A (zh) * 2016-12-07 2017-05-10 乐视控股(北京)有限公司 数据查询方法及装置
CN106843763A (zh) * 2017-01-19 2017-06-13 北京神州绿盟信息安全科技股份有限公司 一种基于hdfs系统的文件合并方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIUYANG0: "分布式锁与实现(二)——基于ZooKeeper实现", 《HTTPS://WWW.CNBLOGS.COM/LIUYANG0/P/6800538.HTML》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189798A (zh) * 2018-09-30 2019-01-11 浙江百世技术有限公司 一种基于spark同步更新数据的方法
CN109189798B (zh) * 2018-09-30 2021-12-17 浙江百世技术有限公司 一种基于spark同步更新数据的方法
CN111159130A (zh) * 2018-11-07 2020-05-15 中移(苏州)软件技术有限公司 一种小文件合并方法及电子设备
CN109902067A (zh) * 2019-02-15 2019-06-18 杭州数梦工场科技有限公司 文件处理方法、装置、存储介质及计算机设备
CN109902067B (zh) * 2019-02-15 2020-11-27 杭州数梦工场科技有限公司 文件处理方法、装置、存储介质及计算机设备
CN112231292A (zh) * 2019-02-15 2021-01-15 杭州数梦工场科技有限公司 文件处理方法、装置、存储介质及计算机设备
CN109815219B (zh) * 2019-02-18 2021-11-23 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN111488323A (zh) * 2020-04-14 2020-08-04 中国农业银行股份有限公司 一种数据处理方法、装置及电子设备
CN111488323B (zh) * 2020-04-14 2023-06-13 中国农业银行股份有限公司 一种数据处理方法、装置及电子设备
CN112231293A (zh) * 2020-09-14 2021-01-15 杭州数梦工场科技有限公司 文件读取方法、装置、电子设备和存储介质
CN112241396A (zh) * 2020-10-27 2021-01-19 浪潮云信息技术股份公司 基于Spark的对Delta进行小文件合并的方法及系统
CN112241396B (zh) * 2020-10-27 2023-05-23 浪潮云信息技术股份公司 基于Spark的对Delta进行小文件合并的方法及系统
CN112637616A (zh) * 2020-12-08 2021-04-09 网宿科技股份有限公司 一种对象存储方法、系统及服务器
CN112637616B (zh) * 2020-12-08 2024-02-23 网宿科技股份有限公司 一种对象存储方法、系统及服务器
CN112800073A (zh) * 2021-01-27 2021-05-14 浪潮云信息技术股份公司 一种基于NiFi更新Delta Lake的方法
CN113946289A (zh) * 2021-09-23 2022-01-18 南京医基云医疗数据研究院有限公司 基于Spark计算引擎的文件合并方法及装置、存储介质、设备

Also Published As

Publication number Publication date
CN108256115B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN108256115A (zh) 一种面向SparkSql的HDFS小文件实时合并实现方法
Dobbelaere et al. Kafka versus RabbitMQ: A comparative study of two industry reference publish/subscribe implementations: Industry Paper
Liu et al. Survey of real-time processing systems for big data
Dobre et al. Parallel programming paradigms and frameworks in big data era
CN103164449B (zh) 一种搜索结果的展现方法与装置
US8996463B2 (en) Aggregation framework system architecture and method
US9720992B2 (en) DML replication with logical log shipping
CN103631870B (zh) 一种用于大规模分布式数据处理的系统及其方法
US9514217B2 (en) Message index subdivided based on time intervals
He et al. Optimization strategy of Hadoop small file storage for big data in healthcare
Bhardwaj et al. Big data emerging technologies: A CaseStudy with analyzing twitter data using apache hive
CN104881466B (zh) 数据分片的处理以及垃圾文件的删除方法和装置
Kossmann et al. Cloudy: A modular cloud storage system
CN104679898A (zh) 一种大数据访问方法
CN104778270A (zh) 一种用于多文件的存储方法
CN104268295B (zh) 一种数据查询方法及装置
CN104462362A (zh) 一种数据存储、查询、加载方法及装置
Bugiotti et al. RDF data management in the Amazon cloud
CN105224658A (zh) 一种大数据的实时查询方法和系统
CN103823846A (zh) 一种基于图论的大数据存储及查询方法
CN111488323B (zh) 一种数据处理方法、装置及电子设备
Hassan et al. Optimizing the performance of data warehouse by query cache mechanism
Vashishtha et al. Enhancing query support in hbase via an extended coprocessors framework
CN110019380B (zh) 一种数据查询方法、装置、服务器及存储介质
CN113377289A (zh) 一种缓存管理方法、系统、计算设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant