CN108256115A - 一种面向SparkSql的HDFS小文件实时合并实现方法 - Google Patents
一种面向SparkSql的HDFS小文件实时合并实现方法 Download PDFInfo
- Publication number
- CN108256115A CN108256115A CN201810142899.9A CN201810142899A CN108256115A CN 108256115 A CN108256115 A CN 108256115A CN 201810142899 A CN201810142899 A CN 201810142899A CN 108256115 A CN108256115 A CN 108256115A
- Authority
- CN
- China
- Prior art keywords
- sparksql
- file
- small documents
- hdfs
- merge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Abstract
本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法,属于大数据处理技术领域。定期筛选HDFS中待合并的小文件,对得到的待合并小文件,生成合并小文件的Spark任务,并提交至Yarn上执行;对完成小文件合并的结果信息放置于待替换列表中;结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行;根据SparkSql实时检索数据库表的情况,在Zookeeper中注册和注销相应数据库表的读状态;在文件替换时,通过网络在SparkSql中进行文件元数据缓存增量更新。本发明可以在保持SparkSql正常运行的情况下,实现实时合并HDFS小文件,有效的提高SparkSql的检索效率,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。
Description
技术领域
本发明属于大数据处理领域,具体涉及一种面向SparkSql的HDFS(Hadoop分布式文件系统)小文件实时合并的实现方法。
背景技术
随着计算机技术的不断发展和信息化程度的不断提高,数据量迅速增长,面向海量数据存储及应用也随之蓬勃发展。大数据应用越来越广泛,如,在网络安全上,使用大数据技术分析网络攻击行为;在电子商务上,使用大数据技术分析用户购物喜好或最受青睐的商品。大数据技术在建设节约型社会,提高生成效率等方面起到了积极的推动作用。
Spark是专为大规模数据处理而设计的快速通用的计算引擎。在海量数据检索应用中,分布式检索框架SparkSql作为一种优秀的大数据检索方法被广泛的使用。Hive是基于Hadoop的一个数据仓库处理工具,使用类SQL的HiveQL语言实现数据查询,所有Hive的数据都存储在Hadoop兼容的文件系统(例如,Amazon S3、HDFS)中。SparkSql提供了同Hive的HiveQL接口,具有较高的效率及可用性。但是随着数据量的不断增加以及对文件加载延迟的更高要求,HDFS中过多的小文件降低了SparkSql的检索效率和并发处理任务的能力,这个问题直接的影响了业务应用。
使用SparkSql进行检索时,Spark Driver(驱动)会获取被检索文件的元数据并进行缓存,以此来生成Spark Task(任务)分发到集群的各个节点上执行。在实际的工程实践中,为了使加载的数据能够尽快地被SparkSql检索到,往往不会等待加载数据积累很多就进行新文件的生成,这种加载方法使得SparkSql检索的文件容量较小、文件数量过多。这造成的问题是显而易见的:首先,由于检索过程中SparkSql要将所有待检索的文件元数据在Spark Driver进程内存中进行缓存,此时检索文件过多就造成单个SparkSql检索任务占用的内存过大,受限于服务器的物理内存而无法进行过多的并发检索;其次由于文件较小,在进行相同规模数量的检索中会分布式读取更多的文件,在Spark Task调度和文件获取等步骤上有较大的时间开销,造成SparkSql的检索效率较低。
发明内容
为了解决上述SparkSql使用中出现的关键问题,本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法,以减少SparkSql检索的目标文件的数量,从而降低SparkSql检索文件的资源开销和时间开销,提高SparkSql检索支持的任务并发数量,有效的提高了SparkSql框架的检索效率和可用性。
本发明提供的一种面向SparkSql的HDFS小文件实时合并的实现方法,包括:
(1)定期筛选HDFS中待合并的小文件,包括:将设置的文件合并策略预先存放在Hivemetastore中;从Hive metastore获取各个数据库表信息和文件合并策略;根据得到的数据库表信息在HDFS中遍历获取相应的文件元数据,根据文件合并策略对获取的文件元数据进行筛选,将符合合并策略的小文件筛选出,并缓存至内存中;
(2)对得到的待合并小文件,生成合并小文件的Spark任务,并提交至Yarn上执行;对完成小文件合并的结果信息放置于待替换列表中;
(3)结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行;根据SparkSql实时检索数据库表的情况,在Zookeeper中注册和注销相应数据库表的读状态;
(4)在文件替换时,通过网络在SparkSql中进行文件元数据缓存增量更新;
在SparkSql中对库表的文件元数据进行缓存,在SparkSql中启动一个Http服务线程,通过该线程接收小文件合并服务发来的合并结果,来达到SparkSql文件元数据增量更新的目的。
本发明的优点与积极效果在于:本发明方法在SparkSql正常运行的情况下,通过将小文件合并有效地提高SparkSql运行效率,使SparkSql支持对更大规模的分布式数据进行检索。本发明方法能够减少HDFS的文件数量,降低SparkSql运行时的资源压力,提高SparkSql并发处理任务的能力,有效提升SparkSql的检索效率和可用性。本发明方法避免了SparkSql在进行大结果集检索时可能出现的内存问题,并且较大幅度的提高了检索的响应速度,减少了检索的总耗时,符合当下大数据检索实际需求,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。
附图说明
图1为本发明方法中待合并小文件筛选的流程图;
图2为本发明方法中小文件合并任务执行流程图;
图3为本发明的SparkSql与小文件合并系统信息同步流程图;
图4为本发明方法中使用生成文件替换被合并文件流程图。
具体实施方式
为了能够更清楚了解本发明的技术手段,下面将结合附图和实施例对本发明的技术方案作进一步的详细说明。
本发明提供了一种面向SparkSql的HDFS小文件实时合并的实现方法,包括:结合Hive metastore与HDFS获取相关文件元数据并筛选小文件的方法;将待合并文件按照策略生成Spark任务提交至Yarn上合并的方法;结合Zookeeper保持SparkSql在合并后文件替换被合并文件时维持正常运行的方法;在文件替换后通过网络在SparkSql中进行文件元数据缓存增量更新的方法。使用本方法可以在保持SparkSql正常运行的情况下,实现实时合并HDFS小文件,以有效的提高SparkSql的检索效率。metastore是Hive中连接MySQL数据库获取元数据的服务。YARN是一种Hadoop资源管理器,ZooKeeper是一个分布式的、开放源码的分布式应用程序协调服务。下面结合图1~图4来说明各个实现部分。
如图1所示,为对筛选HDFS中待合并的小文件的一个实现流程,具体步骤如下:
步骤101:在Hive metastore中读取预先设置的对各数据库表的小文件合并策略。小文件合并策略预先存放在Hive metastore中。
步骤102:在Hive metastore中读取各数据库表的文件目录元数据,根据获取的信息到HDFS中获取相应的文件元数据。
步骤103:根据步骤101获取的文件合并策略,遍历步骤202中获取的表文件元数据,筛选出符合合并策略的小文件,并将筛选到的小文件列表进行缓存。
步骤104:根据实际业务情况设置合适的休眠时间,休眠结束后跳转到步骤101。通过定期执行上面步骤来实现对HDFS中的待合并小文件的实时发现。
所述的小文件合并策略中设置了合并条件,对获取的表文件元数据进行判断,当符合合并条件时,就属于要合并的小文件。
如图2所示,为本发明小文件合并任务执行的一个实现流程,具体步骤如下:
步骤201:根据集群实际的可用资源数量,建立适当线程数量的小文件合并任务提交线程池。
步骤202:判断现在是否有筛选得到的待合并小文件需要合并,若有则进入步骤204;否则进入步骤203。
步骤203:轮询是否有新筛选出的待合并小文件,有新的小文件后跳转到步骤201。
步骤204:读取待合并小文件的文件元数据,并将其进行缓存。
步骤205:根据小文件合并策略选取步骤204中读取的合适数量的小文件,生成对这些小文件进行合并的Spark任务,等待执行。
步骤206:使用步骤201中建立的小文件合并线程池,并发提交执行步骤205中生成的小文件合并任务到Yarn上进行分布式执行。
步骤207:在步骤206提交执行的小文件合并任务结束后,读取合并任务生成的文件数据以及被合并的小文件数据,对比数据一致性,以判断本次的小文件合并任务是否执行成功。将本次小文件合并的结果信息放置于待进行文件替换的列表中,等待时机使用合并生成文件对被合并小文件进行替换。
在获得待合并的小文件列表后,根据实际小文件合并策略和集群实际可用资源数量,灵活生成合并小文件的Spark任务,并将任务提交到Yarn上来使用集群资源分布式执行。在合并任务执行完成之后,读取合并生成的文件以及被合并的相应小文件,通过对这两个数据集合的对比来确定文件合并任务是否执行成功,以此来保证数据合并前后的一致性。通过该方法可以实时地使用集群闲置资源进行小文件合并。
如图3所示,为本发明对SparkSql与小文件合并系统信息同步的一个实现流程,具体步骤如下:
步骤301:接收到用户提交到SparkSql进行检索的SQL语句。
步骤302:通过Zookeeper读取该表是否正在进行小文件合并后的文件替换操作。
步骤303:判断步骤302中获取到的结果,若是则进入步骤305;否则跳转到步骤304。
步骤304:等待一段时间后跳转到步骤302。相当于从Zookeeper中轮询获取该被检索表是否处于小文件合并后的小文件替换阶段。
步骤305:在Zookeeper中注册该表为正在检索读取的状态,避免在检索过程中小文件合并服务进行该表的文件替换。
步骤306:进行SparkSql的库表检索操作。
步骤307:在本次检索结束后,将注销表的读状态,完成本次检索。
本发明方法根据SparkSql实时检索数据库表情况,在Zookeeper中注册和注销相应表的读状态。在替换过程中读取Zookpeeper中相应库表的状态,如果相应库表处于在读的状态,则会延迟进行文件的替换。相应的,在文件进行替换的时候,将在Zookeeper中注册库表为正在替换的状态,此时SparkSql也对相应库表的检索操作做延迟等待的处理。通过本发明信息同步处理方法,可以有效地避免合并后文件对合并前文件的替换对SparkSql检索的干扰,以保障在小文件合并的同时,SparkSql能够高可用的运行。
如图4所示,为本发明使用生成文件替换被合并文件的流程示意图,具体步骤如下:
步骤401:读取步骤207中所述的小文件合并完成文件待替换列表。
步骤402:判断步骤401是否存在待进行替换的合并生成文件被读取到,若是则进入步骤404;否则跳转到步骤403。
步骤403:等待适当时间后跳转到步骤401。相当于轮询是否有新的小文件合并任务执行成功,产生了等待替换的合并结果文件。
步骤404:选取一个待替换的合并结果文件,从Zookeeper中获取确认是否有步骤305所注册的表在读操作。
步骤405:根据步骤404中的读取结果,若是则进入步骤407;否则跳转至步骤406。
步骤406:将本次进行替换文件的相关信息放置回待替换文件列表的末端,并跳转回步骤401。
步骤407:在Zookeeper中注册此合并替换文件所属表处于文件正在替换状态,以供步骤302进行读取。
步骤408:使用合并任务生成的文件替换被合并的小文件。
步骤409:在Zookeeper中注销步骤407中所在Zookeeper注册的表正在替换状态。完成本次的文件替换操作,跳转回步骤401。
本发明方法在文件替换后通过网络在SparkSql中进行文件元数据缓存增量更新。在SparkSql中对库表的文件元数据进行缓存,以降低检索时获取文件元数据的时间和资源开销。本发明方法在SparkSql中启动一个Http服务线程,通过该线程接收相应请求来达到SparkSql文件元数据增量更新的目的。小文件合并服务在文件合并后,向SparkSql的文件元数据增量更新Http服务发送相关的合并结果信息。SparkSql会根据收到的合并结果信息,移除相应库表中被合并小文件的文件元数据,并且将合并生成的文件所对应的文件元数据放置到SparkSql相应缓存之中。通过网络在SparkSql中进行文件元数据缓存增量更新的使用,可以在小文件合并完成时,灵活的增量更新SparkSql中的相应库表文件元数据,通过这种方式将有效的避免了小文件合并后SparkSql文件元数据全量更新造成的巨大开销,大幅提高了SparkSql的运行效率。
本发明提供的面向SparkSql的HDFS小文件实时合并的实现方法,通过保持SparkSql正常运行的情况下,将HDFS中的小文件进行合并,可以有效提高SparkSql检索数据时的检索效率,并大幅提高SparkSql在高并发场景下处理任务的能力。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
Claims (6)
1.一种面向SparkSql的HDFS小文件实时合并实现方法,其特征在于,包括四方面:
(1)定期筛选HDFS中待合并的小文件,包括:将设置的文件合并策略预先存放在Hivemetastore中;从Hive metastore获取各个数据库表信息和文件合并策略;根据得到的数据库表信息在HDFS中遍历获取相应的文件元数据,根据文件合并策略对获取的文件元数据进行筛选,将符合合并策略的小文件筛选出,并缓存至内存中;
(2)对得到的待合并小文件,生成合并小文件的Spark任务,并提交至Yarn上执行;对完成小文件合并的结果信息放置于待替换列表中;
(3)结合Zookeeper保持SparkSql在使用合并后文件替换被合并文件时维持正常运行;根据SparkSql实时检索数据库表的情况,在Zookeeper中注册和注销相应数据库表的读状态;
(4)在文件替换时,通过网络在SparkSql中进行文件元数据缓存增量更新;
在SparkSql中对库表的文件元数据进行缓存,在SparkSql中启动一个Http服务线程,通过该线程接收小文件合并服务发来的合并结果,来达到SparkSql文件元数据增量更新的目的。
2.根据权利要求1所述的方法,其特征在于,所述的(1)中,为每个业务库表设置一个文件合并策略。
3.根据权利要求1所述的方法,其特征在于,所述的(2)中,根据文件合并策略和集群实际可用资源数量,生成合并小文件的Spark任务,并将任务提交到Yarn上,使用集群资源分布式执行。
4.根据权利要求1或3所述的方法,其特征在于,所述的(2)中,在合并任务执行完成之后,将读取合并生成的文件以及被合并的相应小文件,通过对两个数据集合的对比来确定文件合并任务是否执行成功,以保证数据合并前后的一致性。
5.根据权利要求1所述的方法,其特征在于,所述的(3)中,在替换过程中,读取Zookpeeper中相应数据库表的状态,如果相应数据库表处于在读的状态,将延迟进行文件的替换;在文件进行替换时,将在Zookeeper中注册相应数据库表为正在替换的状态,此时SparkSql将对相应数据库表的检索操作做延迟等待处理。
6.根据权利要求1所述的方法,其特征在于,所述的(4)中,小文件合并服务向Http服务发送合并结果,SparkSql将根据待替换列表,移除相应库表中被合并小文件的文件元数据,并且将合并生成的文件所对应的文件元数据放置到SparkSql相应缓存中。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710789641 | 2017-09-05 | ||
CN2017107896413 | 2017-09-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108256115A true CN108256115A (zh) | 2018-07-06 |
CN108256115B CN108256115B (zh) | 2022-02-25 |
Family
ID=62744850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810142899.9A Active CN108256115B (zh) | 2017-09-05 | 2018-02-11 | 一种面向SparkSql的HDFS小文件实时合并实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108256115B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189798A (zh) * | 2018-09-30 | 2019-01-11 | 浙江百世技术有限公司 | 一种基于spark同步更新数据的方法 |
CN109815219A (zh) * | 2019-02-18 | 2019-05-28 | 国家计算机网络与信息安全管理中心 | 支持多数据库引擎的数据生命周期管理的实现方法 |
CN109902067A (zh) * | 2019-02-15 | 2019-06-18 | 杭州数梦工场科技有限公司 | 文件处理方法、装置、存储介质及计算机设备 |
CN111159130A (zh) * | 2018-11-07 | 2020-05-15 | 中移(苏州)软件技术有限公司 | 一种小文件合并方法及电子设备 |
CN111488323A (zh) * | 2020-04-14 | 2020-08-04 | 中国农业银行股份有限公司 | 一种数据处理方法、装置及电子设备 |
CN112231293A (zh) * | 2020-09-14 | 2021-01-15 | 杭州数梦工场科技有限公司 | 文件读取方法、装置、电子设备和存储介质 |
CN112241396A (zh) * | 2020-10-27 | 2021-01-19 | 浪潮云信息技术股份公司 | 基于Spark的对Delta进行小文件合并的方法及系统 |
CN112637616A (zh) * | 2020-12-08 | 2021-04-09 | 网宿科技股份有限公司 | 一种对象存储方法、系统及服务器 |
CN112800073A (zh) * | 2021-01-27 | 2021-05-14 | 浪潮云信息技术股份公司 | 一种基于NiFi更新Delta Lake的方法 |
CN113946289A (zh) * | 2021-09-23 | 2022-01-18 | 南京医基云医疗数据研究院有限公司 | 基于Spark计算引擎的文件合并方法及装置、存储介质、设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404652A (zh) * | 2015-10-29 | 2016-03-16 | 河海大学 | 一种基于hdfs的海量小文件处理方法 |
US20160335318A1 (en) * | 2015-05-11 | 2016-11-17 | AtScale, Inc. | Dynamic aggregate generation and updating for high performance querying of large datasets |
CN106649630A (zh) * | 2016-12-07 | 2017-05-10 | 乐视控股(北京)有限公司 | 数据查询方法及装置 |
CN106843763A (zh) * | 2017-01-19 | 2017-06-13 | 北京神州绿盟信息安全科技股份有限公司 | 一种基于hdfs系统的文件合并方法及装置 |
-
2018
- 2018-02-11 CN CN201810142899.9A patent/CN108256115B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160335318A1 (en) * | 2015-05-11 | 2016-11-17 | AtScale, Inc. | Dynamic aggregate generation and updating for high performance querying of large datasets |
CN105404652A (zh) * | 2015-10-29 | 2016-03-16 | 河海大学 | 一种基于hdfs的海量小文件处理方法 |
CN106649630A (zh) * | 2016-12-07 | 2017-05-10 | 乐视控股(北京)有限公司 | 数据查询方法及装置 |
CN106843763A (zh) * | 2017-01-19 | 2017-06-13 | 北京神州绿盟信息安全科技股份有限公司 | 一种基于hdfs系统的文件合并方法及装置 |
Non-Patent Citations (1)
Title |
---|
LIUYANG0: "分布式锁与实现(二)——基于ZooKeeper实现", 《HTTPS://WWW.CNBLOGS.COM/LIUYANG0/P/6800538.HTML》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189798A (zh) * | 2018-09-30 | 2019-01-11 | 浙江百世技术有限公司 | 一种基于spark同步更新数据的方法 |
CN109189798B (zh) * | 2018-09-30 | 2021-12-17 | 浙江百世技术有限公司 | 一种基于spark同步更新数据的方法 |
CN111159130A (zh) * | 2018-11-07 | 2020-05-15 | 中移(苏州)软件技术有限公司 | 一种小文件合并方法及电子设备 |
CN109902067A (zh) * | 2019-02-15 | 2019-06-18 | 杭州数梦工场科技有限公司 | 文件处理方法、装置、存储介质及计算机设备 |
CN109902067B (zh) * | 2019-02-15 | 2020-11-27 | 杭州数梦工场科技有限公司 | 文件处理方法、装置、存储介质及计算机设备 |
CN112231292A (zh) * | 2019-02-15 | 2021-01-15 | 杭州数梦工场科技有限公司 | 文件处理方法、装置、存储介质及计算机设备 |
CN109815219B (zh) * | 2019-02-18 | 2021-11-23 | 国家计算机网络与信息安全管理中心 | 支持多数据库引擎的数据生命周期管理的实现方法 |
CN109815219A (zh) * | 2019-02-18 | 2019-05-28 | 国家计算机网络与信息安全管理中心 | 支持多数据库引擎的数据生命周期管理的实现方法 |
CN111488323A (zh) * | 2020-04-14 | 2020-08-04 | 中国农业银行股份有限公司 | 一种数据处理方法、装置及电子设备 |
CN111488323B (zh) * | 2020-04-14 | 2023-06-13 | 中国农业银行股份有限公司 | 一种数据处理方法、装置及电子设备 |
CN112231293A (zh) * | 2020-09-14 | 2021-01-15 | 杭州数梦工场科技有限公司 | 文件读取方法、装置、电子设备和存储介质 |
CN112241396A (zh) * | 2020-10-27 | 2021-01-19 | 浪潮云信息技术股份公司 | 基于Spark的对Delta进行小文件合并的方法及系统 |
CN112241396B (zh) * | 2020-10-27 | 2023-05-23 | 浪潮云信息技术股份公司 | 基于Spark的对Delta进行小文件合并的方法及系统 |
CN112637616A (zh) * | 2020-12-08 | 2021-04-09 | 网宿科技股份有限公司 | 一种对象存储方法、系统及服务器 |
CN112637616B (zh) * | 2020-12-08 | 2024-02-23 | 网宿科技股份有限公司 | 一种对象存储方法、系统及服务器 |
CN112800073A (zh) * | 2021-01-27 | 2021-05-14 | 浪潮云信息技术股份公司 | 一种基于NiFi更新Delta Lake的方法 |
CN113946289A (zh) * | 2021-09-23 | 2022-01-18 | 南京医基云医疗数据研究院有限公司 | 基于Spark计算引擎的文件合并方法及装置、存储介质、设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108256115B (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256115A (zh) | 一种面向SparkSql的HDFS小文件实时合并实现方法 | |
Dobbelaere et al. | Kafka versus RabbitMQ: A comparative study of two industry reference publish/subscribe implementations: Industry Paper | |
Liu et al. | Survey of real-time processing systems for big data | |
Dobre et al. | Parallel programming paradigms and frameworks in big data era | |
CN103164449B (zh) | 一种搜索结果的展现方法与装置 | |
US8996463B2 (en) | Aggregation framework system architecture and method | |
US9720992B2 (en) | DML replication with logical log shipping | |
CN103631870B (zh) | 一种用于大规模分布式数据处理的系统及其方法 | |
US9514217B2 (en) | Message index subdivided based on time intervals | |
He et al. | Optimization strategy of Hadoop small file storage for big data in healthcare | |
Bhardwaj et al. | Big data emerging technologies: A CaseStudy with analyzing twitter data using apache hive | |
CN104881466B (zh) | 数据分片的处理以及垃圾文件的删除方法和装置 | |
Kossmann et al. | Cloudy: A modular cloud storage system | |
CN104679898A (zh) | 一种大数据访问方法 | |
CN104778270A (zh) | 一种用于多文件的存储方法 | |
CN104268295B (zh) | 一种数据查询方法及装置 | |
CN104462362A (zh) | 一种数据存储、查询、加载方法及装置 | |
Bugiotti et al. | RDF data management in the Amazon cloud | |
CN105224658A (zh) | 一种大数据的实时查询方法和系统 | |
CN103823846A (zh) | 一种基于图论的大数据存储及查询方法 | |
CN111488323B (zh) | 一种数据处理方法、装置及电子设备 | |
Hassan et al. | Optimizing the performance of data warehouse by query cache mechanism | |
Vashishtha et al. | Enhancing query support in hbase via an extended coprocessors framework | |
CN110019380B (zh) | 一种数据查询方法、装置、服务器及存储介质 | |
CN113377289A (zh) | 一种缓存管理方法、系统、计算设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |