CN105550293B - 一种基于Spark‑SQL大数据处理平台的后台刷新方法 - Google Patents

一种基于Spark‑SQL大数据处理平台的后台刷新方法 Download PDF

Info

Publication number
CN105550293B
CN105550293B CN201510919868.6A CN201510919868A CN105550293B CN 105550293 B CN105550293 B CN 105550293B CN 201510919868 A CN201510919868 A CN 201510919868A CN 105550293 B CN105550293 B CN 105550293B
Authority
CN
China
Prior art keywords
data
spark
sql
big data
refreshing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510919868.6A
Other languages
English (en)
Other versions
CN105550293A (zh
Inventor
王成
冯骏
范丛明
赵术开
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaxun Ark Photoelectric Technology Co ltd
Shenzhen Huaxun Fangzhou Software Technology Co ltd
Original Assignee
Shenzhen Huaxun Fangzhou Software Technology Co Ltd
Shenzhen Huaxun Ark Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaxun Fangzhou Software Technology Co Ltd, Shenzhen Huaxun Ark Technology Co Ltd filed Critical Shenzhen Huaxun Fangzhou Software Technology Co Ltd
Priority to CN201510919868.6A priority Critical patent/CN105550293B/zh
Publication of CN105550293A publication Critical patent/CN105550293A/zh
Priority to PCT/CN2016/095361 priority patent/WO2017096941A1/zh
Application granted granted Critical
Publication of CN105550293B publication Critical patent/CN105550293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Library & Information Science (AREA)

Abstract

本发明公开了一种基于Spark‑SQL大数据处理平台的后台刷新方法,在Spark‑SQL的入口函数中创建刷新进程并设定定时刷新机制,定时扫描分布式文件系统HDFS的指定表空间文件目录结构。在Spark安装目录的conf文件夹下的hive‑site.xml中增加配置项,可以自定义配置刷新进程是否开启,刷新间隔与要刷新的大数据表空间集合。本发明在大数据的背景下,大幅缩短Spark‑SQL大数据处理平台的首次查询时间;以20T数据为例,大数据表按照小时作为第一分区分为25个区,按照手机号码前3位作为第二分区分为1001个区,并按照PARQUET格式进行压缩存储,针对查询某个时间段某个号码段所有数据总数的查询,原来首次查询时间为20分钟左右,本发明所优化的后台刷新方法使得首次查询的时间缩短为45秒左右。

Description

一种基于Spark-SQL大数据处理平台的后台刷新方法
技术领域
本发明涉及一种大数据处理平台的后台刷新方法,尤其涉及一种基于Spark-SQL大数据处理平台的后台刷新方法。
背景技术
随着互联网、移动互联网和物联网的发展,我们迎来了一个大数据的时代,对这些大数据的处理和分析已经成为一个非常重要且紧迫的需求。
随着技术的发展,大数据处理平台经历了最初的Hadoop和Hbase,以及后来发展起来的基于SQL的Hive、Shark等。基于key-value的Hbase等处理平台也逐渐兴起。而如今SQL-on-Hadoop概念的兴起又促使Spark生态发展壮大,逐渐成为最热门,使用最多,效率最好的一种大数据处理平台。
不管采取哪种大数据处理平台,它们的目的都是处理和分析大数据,从中分析和挖掘出有用的数据供人们使用。从最基本的原理来看,无论是基于Map-Reduce的Hadoop,还是基于Key-Value键值对的Hbase,或者是基于RDD的Spark,它们的总体处理流程都是相同的,都是包含了数据导入->数据分析和处理->数据结果展示三个主要步骤,其中最重要的两个部分为数据导入和数据分析处理过程,数据导入的速度决定了整个系统能够实时处理数据速度,影响到整个系统的处理性能,数据导入和分析的过程则是数据处理的核心。
如图1所示,Spark大数据处理平台总体框架是:Spark大数据处理平台的数据导入功能由Spark-SQL实现,即由Hive on Spark来实现的,Hive查询可以作为Spark的任务提交到Spark集群上进行计算。Hive相较于Impala和Shark等对SQL语法有着更全面的支持和更为广泛的用户基础。数据导入通常涉及导入内容、存储格式、导入速度等关键点:
1、导入内容
通常导入内容可以为格式化或非格式化的文本文件,以特定的分隔符或文件格式分隔每一条记录及每一个字段,数据内容可以是文件形式传送,也可以是数据流形式传送,且大小具有不确定性。
2、存储格式
存储数据的格式可以是文本格式,也可以是压缩格式,以减少磁盘使用量,目前Spark-SQL支持的压缩格式有zip、snappy及parquet等等。
在大数据的背景下,导入数据可以根据内容进行分区,将数据按分区进行存储,可加快查询速度。
3、导入速度
在大数据的背景下,由于数据在源源不断地产生,这就对数据导入速度提出了较高的要求,根据实际情况要求导入速度不得低于x条每秒或者xMB每秒,同时还要求保证不得出现数据丢失、数据导入错误、数据积压等情况。
现有技术中,基于Spark-SQL数据导入与数据刷新方案(外部数据文件为文本格式)如下:
当发起查询时,可以在条件子句中加入信息,从而限定查询的数据范围。在Spark大数据处理平台中,不同的存储格式有着不同的刷新机制,主要为如下两种:
i)若数据最终按文本(TEXTFILE)或优化列存储(ORC)ZIP或SNAPPY进行存储,每次查询大数据表时,会先扫描分布式文件系统HDFS上的目录结构和更新元数据库,能识别出HDFS上该表空间的所有更新,包括插入、修改和删除操作。在目录结构多、数据文件多的情况下,每扫描一次HDFS的时间都很长,且随着时间的推移而增加。扫描HDFS的时间包含在了查询时间中,扫描完HDFS以后Spark才会根据扫描结果划分任务,提交给执行器去执行,因此扫描时间的长短直接影响了查询时间的长短。
ii)若数据最终按PARQUET格式进行压缩存储,首次查询数据表时,会先扫描分布式文件系统HDFS上的目录结构和更新元数据库,因此在大数据的背景下,首次查询的时间会很长;而非首次查询不再去扫描HDFS的目录结构,直接利用首次查询的扫描结果,旨在缩短最终的查询时间。这种机制的优点在于非首次查询的速度较快,但也存在着不容忽视的弊端,那就是在首次查询的扫描以后,任何对HDFS上该表空间的直接修改都不能识别,任何插入和删除操作(HDFS原则上不支持修改操作)都只能通过Spark-SQL来完成,在Spark执行器资源有限的情况下,读和写均占用了一定的系统资源,间接导致了数据导入速度和查询速度的下降。另外,当HDFS上该表空间的某个数据文件丢失时,会导致Spark上对该表的所有查询失败,出现该文件不存在的错误,只能重启Spark-SQL进程,重新进行首次查询并扫描HDFS。
综上所述,现有技术中存在的问题有:
1、Spark-SQL首次查询会根据查询的表扫描其在HDFS分布式文件系统中整个表空间,并保存该表空间快照,在大数据的背景下,首次查询需要非常长的时间,不能满足时间要求。在扫描以后对该表的任何修改,Spark-SQL都不能识别。
2、现有技术基于hive或者Spark-SQL的数据导入程序,采用Scala语言编写,运行在JVM虚拟机上,存在效率低、速度慢、容易内存溢出等问题。Scala是一种纯粹的面向对象编程语言,它用Scalac编译器把源文件编译成Java的class文件(即在JVM上运行的字节码),所以是解释型语言,查询及导入效率较低。
3、在Spark大数据处理平台的Standalone模式下,控制节点存在资源上的浪费。现有技术中,Spark大数据处理平台一般部署为一个集群,集群由若干台机器组成。在集群运行过程中,通常外部数据的导入和对数据的实时查询同步进行,因此,集群中机器的资源将同时分配给数据导入程序和数据查询程序,在IO冲突、CPU时间争抢以及内存的申请方面,两者必将有或多或少的冲突,严重时两者性能将大打折扣。
发明内容
本发明要解决的技术问题是在大数据的背景下,避开首次查询扫描分布式文件系统HDFS的步骤,大幅缩短Spark-SQL大数据处理平台的首次查询时间。
为了解决上述技术问题,本发明基于Spark-SQL大数据处理平台的后台刷新方法是在Spark-SQL的入口函数中创建刷新进程并设定定时刷新机制,定时扫描分布式文件系统HDFS的指定表空间文件目录结构。
在Spark安装目录的conf文件夹下的hive-site.xml中增加配置项,可以自定义配置后台刷新进程是否开启,刷新间隔大小与要刷新的大数据表空间集合。
若开启后台刷新进程,则在刷新进程首次刷新完成之前,内存中尚没有指定表空间的目录结构信息,这时Spark-SQL若收到查询语句,则采用原始的首次刷新策略,查询之前先扫描分布式文件系统HDFS指定表空间的文件目录结构;若刷新进程首次刷新完成,则将HDFS上指定表空间的目录结构信息保存在内存中,当Spark-SQL接收到查询语句时则不再扫描HDFS,直接使用内存中该表空间的目录结构信息,达到缩短查询时间的效果。
所述刷新间隔是刷新一次所用时间的十分之一至二分之一,或者,所述刷新间隔是5秒至10秒,可以根据产品或者用户需求自定义所述刷新间隔大小。
将外部数据文件进行压缩存储,所述压缩格式为ZIP、BZ2、SNAPPY或PARQUET。
采用Scala编程,修改Spark源码中关于Spark-SQL执行查询语句的策略。
在刷新以前,先依次进行创建临时表、创建带分区信息的大数据表、将文本格式的数据文件导入临时表、处理临时表数据并存入带有分区信息的大数据表。
所述创建临时表是:根据数据模型创建用于存储文本格式数据的临时表,该临时表用来作为最终数据表的数据源;
所述创建带分区信息的大数据表是:在大数据的背景下,创建带有分区信息的大数据表可以提高数据查询的速度;实际应用中,按时间中的月、周、天或小时进行分区,或者,按照字符串的某个子串进行分区,或者,按整数区间进行分区,或者,进行组合分区,进一步划分数据,将数据分区,提高数据查询速度;
所述将文本格式的数据文件导入临时表是:根据数据文件格式,执行Spark-SQL语句或者Hadoop支持的Load语句,将文本格式的数据直接导入临时表中。
所述处理临时表数据并存入带有分区信息的大数据表是:执行指定分区格式与存储格式的Spark-SQL语句,将临时表中的数据按照指定分区格式进行分析和处理,再按照指定的存储格式(压缩格式)将数据写入到最终的大数据表中;这一步中,Spark首先将上述临时表空间中的数据根据配置分为RDD数据块,每个RDD数据块分配给指定任务进行并行处理,再通过Spark-SQL的内部转化机制,将SQL语句中的分区信息转化为针对RDD数据块的特定操作方法,从而基于RDD数据块对数据进行分区,并将分区后的数据进行压缩处理,写入到分布式文件系统HDFS中。
本发明基于Spark-SQL大数据处理平台的后台刷新方法与现有技术相比具有以下有益效果。
1)在大数据的背景下,大幅缩短Spark-SQL大数据处理平台的首次查询时间;以20T数据为例,大数据表按照小时作为第一分区分为25个区(0~23点与一个默认分区),按照手机号码前3位作为第二分区分为1001个区(000-999与一个默认分区),并按照PARQUET格式进行压缩存储,针对查询某个时间段某个号码段所有数据总数的查询,原来首次查询时间为20分钟左右,本发明所优化的后台刷新方法使得首次查询的时间缩短为45秒左右。
2)在使用更高效快速的数据导入程序同时,识别出HDFS分布式文件系统的新增文件,保存在元数据中,用于用户查询请求。用Spark-SQL原始的数据导入方法速度为2万条/秒,采用更高效快速的数据导入程序直接将数据写入HDFS时可将数据导入速度提升至20万条/秒甚至更高(取决于并发数),而绕过了Spark直接写入HDFS上的新文件,本发明所提出的后台刷新方法可以识别出指定表空间所有新增文件并可用于查询,不再需要重启Spark-SQL服务,也不会增加查询的时间。
3)提高Spark大数据处理平台控制节点的系统资源利用率。原生的Spark数据导入程序即为Spark-SQL的数据导入语句,进行数据导入程序时会占用一部分甚至全部的Spark大数据处理平台的计算资源,很大程度上影响了数据查询的速度和效率。使用更高效的数据导入程序独立于Spark单独处理数据,使得系统利用率更高。同时后台刷新采用独立进程,不占用原Spark的系统资源。
4)由于在大数据的背景下,磁盘空间也是系统可用性的一个瓶颈,因此将外部数据文件进行压缩存储十分必要。Spark中常见的压缩格式有ZIP、BZ2、SNAPPY和PARQUET,其中PARQUET格式支持Hadoop生态系统中所有项目,提供高效率压缩的列式数据表达,而且与数据处理框架、数据模型和编程语言无关,因此可以优先选择PARQUET格式作为大数据存储格式。Spark大数据处理平台对PARQUET格式的数据查询有一定的局限性,对于以PARQUET格式存储的大数据表,Spark-SQL只有在首次查询该表的时候会扫描HDFS上该表的目录结构,此后不再进行扫描,因此无法识别出在首次查询之后新增或删除的目录结构。采用本发明的后台刷新技术,可以有效解决这一问题。
5)采用Scala编程,修改Spark源码中关于Spark-SQL执行查询语句的策略,可大大提高编程效率。
附图说明
图1是现有技术中Spark大数据处理平台总体框架示意图。
图2是本发明基于Spark-SQL大数据处理平台的后台刷新方法的流程图。
图3是修改后数据查询的流程图。
具体实施方式
如图2和图3所示,本实施方式基于Spark-SQL大数据处理平台的后台刷新方法是在Spark-SQL的入口函数中创建刷新进程并设定定时刷新机制,定时扫描分布式文件系统HDFS的指定表空间文件目录结构,作为一种优选,刷新结果保存在内存中用于支持该表数据的查询请求。
在Spark安装目录的conf文件夹下的hive-site.xml中增加配置项,可以自定义配置后台刷新进程是否开启,刷新间隔大小与要刷新的大数据表空间集合。
若开启刷新进程,则在刷新进程首次刷新完成之前,内存中尚没有指定表空间的目录结构信息,这时Spark-SQL若收到查询语句,则采用原始的首次刷新策略,查询之前先扫描分布式文件系统HDFS指定表空间的文件目录结构;若刷新进程首次刷新完成,则将HDFS上指定表空间的目录结构信息保存在内存中,当Spark-SQL接收到查询语句时则不再扫描HDFS,直接使用内存中该表空间的目录结构信息,达到缩短查询时间的效果。
所述刷新间隔是刷新一次所用时间的十分之一至二分之一,或者,所述刷新间隔是5秒至10秒,可以根据产品或者用户需求自定义所述刷新间隔大小。
将外部数据文件进行压缩存储,所述压缩格式为ZIP、BZ2、SNAPPY或PARQUET。
采用Scala编程,修改Spark源码中关于Spark-SQL执行查询语句的策略。
在刷新以前,先依次进行创建临时表、创建带分区信息的大数据表、将文本格式的数据文件导入临时表、处理临时表数据并存入带有分区信息的大数据表。
所述创建临时表是:根据数据模型创建用于存储文本格式数据的临时表,该临时表用来作为最终数据表的数据源;
所述创建带分区信息的大数据表是:在大数据的背景下,创建带有分区信息的大数据表可以提高数据查询的速度;实际应用中,按时间中的月、周、天或小时进行分区,或者,按照字符串的某个子串进行分区,或者,按整数区间进行分区,或者,进行组合分区,进一步划分数据,提高数据查询速度;
所述将文本格式的数据文件导入临时表是:根据数据文件格式,执行Spark-SQL语句或者Hadoop支持的Load语句,将数据直接导入临时表中。
所述处理临时表数据并存入带有分区信息的大数据表是:执行指定分区格式与存储格式的Spark-SQL语句,将临时表中的数据按照指定分区格式进行分析和处理,再按照指定的存储格式(压缩格式)将数据写入到最终的大数据表中;这一步中,Spark首先将上述临时表空间中的数据根据配置分为RDD数据块,每个RDD数据块分配给指定任务进行并行处理,再通过Spark-SQL的内部转化机制,将SQL语句中的分区信息转化为针对RDD数据块的特定操作方法,从而基于RDD数据块对数据进行分区,并将分区后的数据进行压缩处理,写入到分布式文件系统HDFS中。
如图2所示,图示是后台刷新流程图。
1)采用Scala语言编程,在Spark-SQL的入口函数中增加后台刷新进程,定时扫描分布式文件系统HDFS上的指定表空间目录结构,并保存到内存中,供数据查询使用。Spark-SQL启动后首先读取hive-site.xml配置文件,解析出后台刷新进程相关配置项,并设置定时刷新机制,以消息触发的方式进行定时刷新。每次刷新时,Spark-SQL创建待刷新的大数据表的查询计划,根据查询计划定位到内存中存储该表信息的空间,调用其属性中的刷新方法,扫描分布式文件系统HDFS上的该表目录结构。该刷新方法会覆盖之前的扫描结果,覆盖之前不会清空原有结果,因此保证了在刷新过程中接收到数据查询请求时也有数据可查。
如图3所示,图3是修改后数据查询流程图。
2)修改Spark-SQL处理数据查询的策略,首次查询时扫描分布式文件系统HDFS的工作由后台刷新进程完成,首次查询直接使用后台刷新进程扫描结果,缩短查询时间。修改后,首次查询与非首次查询的策略一致,即每次查询都直接使用内存中由后台刷新进程扫描出的该表目录结构信息的结果。
3)后台刷新功能可以自定义
运行Spark-SQL之前,可以自定义配置后台刷新功能相关项,如是否开启后台刷新功能、待刷新的大数据表集合、刷新间隔时间等。配置项位于Spark安装目录的conf文件夹下的hive-site.xml中,启动Spark-SQL时一次性读取并解析所有配置项,不需要额外的程序读取并解析配置文件,节省系统开销。
本发明的关键点如下。
1)采用Scala语言编程,集成到Spark源码中,在不影响原生Spark所有功能的前提下,增加后台刷新进程。
2)修改原Spark-SQL的处理查询策略,提高首次查询的速度。
3)刷新进程支持Spark所有支持的数据压缩格式,如PARQUET、SNAPPY、ZIP等。
4)后台刷新技术使得分离Spark的数据导入与数据查询成为可能,提高系统资源利用率。
本发明的优点如下。
1)使得采用高效快速的数据导入程序成为可能,能识别出分布式文件系统HDFS上指定表空间的所有更新,包括增加、删除和修改操作。同时,数据导入程序独立于Spark,与数据查询互不影响,提高各自处理能力。
2)修改原Spark-SQL处理查询语句的策略,将扫描分布式文件系统HDFS的功能归并到单独的刷新进程中处理,大幅缩短查询的时间。
需要说明的是,以上参照附图所描述的各个实施例仅用以说明本发明而非限制本发明的范围,本领域的普通技术人员应当理解,在不脱离本发明的精神和范围的前提下对本发明进行的修改或者等同替换,均应涵盖在本发明的范围之内。此外,除上下文另有所指外,以单数形式出现的词包括复数形式,反之亦然。另外,除非特别说明,那么任何实施例的全部或一部分可结合任何其它实施例的全部或一部分来使用。

Claims (8)

1.一种基于Spark-SQL大数据处理平台的后台刷新方法,其特征在于:在Spark-SQL的入口函数中创建刷新进程并设定定时刷新机制,在Spark安装目录的conf文件夹下的hive-site.xml中增加配置项,自定义配置后台刷新进程是否开启,刷新间隔大小与要刷新的大数据表空间集合,定时扫描分布式文件系统HDFS的指定表空间文件目录结构。
2.根据权利要求1所述基于Spark-SQL大数据处理平台的后台刷新方法,其特征在于:若开启刷新进程,则在刷新进程首次刷新完成之前,内存中尚没有指定表空间的目录结构信息,这时Spark-SQL若收到查询语句,则采用首次刷新策略,查询之前先扫描分布式文件系统HDFS指定表空间的文件目录结构;若刷新进程首次刷新完成,则将HDFS上指定表空间的目录结构信息保存在内存中,当Spark-SQL接收到查询语句时则不再扫描HDFS,直接使用内存中该表空间的目录结构信息。
3.根据权利要求1所述基于Spark-SQL大数据处理平台的后台刷新方法,其特征在于:所述刷新间隔是刷新一次所用时间的十分之一至二分之一,或者,所述刷新间隔是5秒至10秒。
4.根据权利要求1所述基于Spark-SQL大数据处理平台的后台刷新方法,其特征在于:将外部数据文件进行压缩存储,压缩格式为ZIP或PARQUET。
5.根据权利要求1所述基于Spark-SQL大数据处理平台的后台刷新方法,其特征在于:采用Scala编程,修改Spark源码中关于Spark-SQL执行查询语句的策略。
6.根据权利要求1所述基于Spark-SQL大数据处理平台的后台刷新方法,其特征在于:在刷新以前,先依次进行创建临时表、创建带分区信息的大数据表、将文本格式的数据文件导入临时表、处理临时表数据并存入带有分区信息的大数据表。
7.根据权利要求1所述基于Spark-SQL大数据处理平台的后台刷新方法,其特征在于:在使用数据导入程序同时,识别出HDFS分布式文件系统的新增文件,保存在元数据中,用于用户查询请求。
8.根据权利要求6所述基于Spark-SQL大数据处理平台的后台刷新方法,其特征在于:
所述创建临时表是:根据数据模型创建用于存储文本格式数据的临时表,该临时表用来作为最终数据表的数据源;
所述创建带分区信息的大数据表是:在大数据的背景下,创建带有分区信息的大数据表;实际应用中,按时间中的月、周、天或小时进行分区,或者,按照字符串的某个子串进行分区,或者,按整数区间进行分区,或者,进行组合分区,进一步划分数据;
所述处理临时表数据并存入带有分区信息的大数据表是:执行指定分区格式与存储格式的Spark-SQL语句,将临时表中的数据按照指定分区格式进行分析和处理,再按照指定的存储格式将数据写入到最终的大数据表中;这一步中,Spark首先将上述临时表的空间中的数据根据配置分为弹性分布数据集RDD数据块,每个RDD数据块分配给指定任务进行并行处理,再通过Spark-SQL的内部转化机制,将SQL语句中的分区信息转化为针对RDD数据块的特定操作,从而基于RDD数据块对数据进行分区,并将分区后的数据进行压缩处理,写入到分布式文件系统HDFS中。
CN201510919868.6A 2015-12-11 2015-12-11 一种基于Spark‑SQL大数据处理平台的后台刷新方法 Active CN105550293B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510919868.6A CN105550293B (zh) 2015-12-11 2015-12-11 一种基于Spark‑SQL大数据处理平台的后台刷新方法
PCT/CN2016/095361 WO2017096941A1 (zh) 2015-12-11 2016-08-15 一种基于Spark-SQL大数据处理平台的后台刷新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510919868.6A CN105550293B (zh) 2015-12-11 2015-12-11 一种基于Spark‑SQL大数据处理平台的后台刷新方法

Publications (2)

Publication Number Publication Date
CN105550293A CN105550293A (zh) 2016-05-04
CN105550293B true CN105550293B (zh) 2018-01-16

Family

ID=55829482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510919868.6A Active CN105550293B (zh) 2015-12-11 2015-12-11 一种基于Spark‑SQL大数据处理平台的后台刷新方法

Country Status (2)

Country Link
CN (1) CN105550293B (zh)
WO (1) WO2017096941A1 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550293B (zh) * 2015-12-11 2018-01-16 深圳市华讯方舟软件技术有限公司 一种基于Spark‑SQL大数据处理平台的后台刷新方法
US10305967B2 (en) * 2016-03-14 2019-05-28 Business Objects Software Ltd. Unified client for distributed processing platform
CN106570129A (zh) * 2016-10-27 2017-04-19 南京邮电大学 一种对实时数据进行快速分析的存储系统及其存储方法
CN106777278B (zh) * 2016-12-29 2021-02-23 海尔优家智能科技(北京)有限公司 一种基于Spark的数据处理方法及装置
CN106682213B (zh) * 2016-12-30 2020-08-07 Tcl科技集团股份有限公司 基于Hadoop平台的物联网任务订制方法及系统
CN108959952B (zh) * 2017-05-23 2020-10-30 中国移动通信集团重庆有限公司 数据平台权限控制方法、装置和设备
CN107391555B (zh) * 2017-06-07 2020-08-04 中国科学院信息工程研究所 一种面向Spark-Sql检索的元数据实时更新方法
CN108108490B (zh) * 2018-01-12 2019-08-27 平安科技(深圳)有限公司 Hive表扫描方法、装置、计算机设备及存储介质
CN110136777A (zh) * 2018-02-09 2019-08-16 深圳先进技术研究院 一种基于Spark框架的重测序序列比对方法
CN109491973A (zh) * 2018-09-25 2019-03-19 中国平安人寿保险股份有限公司 电子装置、保单变化数据分布式分析方法及存储介质
CN109189798B (zh) * 2018-09-30 2021-12-17 浙江百世技术有限公司 一种基于spark同步更新数据的方法
CN109473178B (zh) * 2018-11-12 2022-04-01 北京懿医云科技有限公司 医疗数据整合的方法、系统、设备及存储介质
CN109800782A (zh) * 2018-12-11 2019-05-24 国网甘肃省电力公司金昌供电公司 一种基于模糊knn算法的电网故障检测方法及装置
CN111666260A (zh) * 2019-03-08 2020-09-15 杭州海康威视数字技术股份有限公司 数据处理方法及装置
CN110162563B (zh) * 2019-05-28 2023-11-17 深圳市网心科技有限公司 一种数据入库方法、系统及电子设备和存储介质
CN110222009B (zh) * 2019-05-28 2021-08-06 咪咕文化科技有限公司 一种Hive入库异常文件自动处理方法及装置
CN110209654A (zh) * 2019-06-05 2019-09-06 深圳市网心科技有限公司 一种文本文件数据入库方法、系统及电子设备和存储介质
CN110727684B (zh) * 2019-10-08 2023-07-25 浪潮软件股份有限公司 一种用于大数据统计分析的增量数据同步的方法
CN110765154A (zh) * 2019-10-16 2020-02-07 华电莱州发电有限公司 火电厂海量实时生成数据的处理方法及装置
CN110990669A (zh) * 2019-10-16 2020-04-10 广州丰石科技有限公司 一种基于规则生成的dpi解析方法和系统
CN110990340B (zh) * 2019-11-12 2024-04-12 上海麦克风文化传媒有限公司 一种大数据多层次存储架构
CN111159235A (zh) * 2019-12-20 2020-05-15 中国建设银行股份有限公司 数据预分区方法、装置、电子设备及可读存储介质
CN111179048B (zh) * 2019-12-31 2023-05-02 中国银行股份有限公司 基于spark的用户资讯个性化分析方法、装置及系统
CN111427887A (zh) * 2020-03-17 2020-07-17 中国邮政储蓄银行股份有限公司 一种快速扫描HBase分区表的方法、装置、系统
CN111488323B (zh) * 2020-04-14 2023-06-13 中国农业银行股份有限公司 一种数据处理方法、装置及电子设备
CN112163030A (zh) * 2020-11-03 2021-01-01 北京明略软件系统有限公司 多表批量操作方法、系统及计算机设备
CN112783923A (zh) * 2020-11-25 2021-05-11 辽宁振兴银行股份有限公司 一种基于Spark和Impala高效采集数据库的实现方法
CN113553533A (zh) * 2021-06-10 2021-10-26 国网安徽省电力有限公司 一种基于数字化内部五级市场考核体系的指标计算方法
CN113434608A (zh) * 2021-07-06 2021-09-24 中国银行股份有限公司 Hive数据仓库的数据处理方法及装置
CN114238450B (zh) * 2022-02-22 2022-08-16 阿里云计算有限公司 时间分区方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8516022B1 (en) * 2012-01-11 2013-08-20 Emc Corporation Automatically committing files to be write-once-read-many in a file system
CN104239377A (zh) * 2013-11-12 2014-12-24 新华瑞德(北京)网络科技有限公司 跨平台的数据检索方法及装置
CN103699676B (zh) * 2013-12-30 2017-02-15 厦门市美亚柏科信息股份有限公司 基于mssql server表分区及自动维护方法及系统
CN104767795A (zh) * 2015-03-17 2015-07-08 浪潮通信信息系统有限公司 一种基于hadoop的lte mro数据统计方法及系统
CN105550293B (zh) * 2015-12-11 2018-01-16 深圳市华讯方舟软件技术有限公司 一种基于Spark‑SQL大数据处理平台的后台刷新方法

Also Published As

Publication number Publication date
WO2017096941A1 (zh) 2017-06-15
CN105550293A (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN105550293B (zh) 一种基于Spark‑SQL大数据处理平台的后台刷新方法
CN112286941B (zh) 一种基于Binlog+HBase+Hive的大数据同步方法和装置
CN110674154B (zh) 一种基于Spark的对Hive中数据进行插入、更新和删除的方法
CN105447156A (zh) 资源描述框架分布式引擎及增量式更新方法
US8051054B2 (en) Method and system for data processing with database update for the same
CN103678519A (zh) 一种支持Hive DML增强的混合存储系统及其方法
CN105718561A (zh) 一种特定分布式数据存储文件结构去冗余构造方法及系统
CN111694863B (zh) 一种数据库缓存的刷新方法、系统和装置
CN113204571A (zh) 涉及写入操作的sql执行方法、装置及存储介质
CN114942965B (zh) 一种数据库主备同步操作的加速方法和系统
CN112000649A (zh) 一种基于map reduce的增量数据同步的方法和装置
US20150039558A1 (en) Database management method, database system and medium
CN114741453A (zh) 数据同步的方法、系统及计算机可读存储介质
JP4951154B1 (ja) データベースの管理方法
CN106570152B (zh) 一种手机号码的海量提取方法及系统
US11151157B2 (en) Database management method
CN115905310A (zh) 数据查询方法、数据存储方法及相应的设备、系统、介质
CN113672556A (zh) 一种批量文件的迁移方法及装置
CN104268013A (zh) 一种快速的全系统模拟器确定性回放方法
JP6239697B2 (ja) データベースの管理方法
CN114969200B (zh) 数据同步方法、装置、电子设备及存储介质
CN107506450A (zh) 一种用于解决数据高并发访问的方法及装置
CN114356508A (zh) 事务回放方法以及装置
CN115544173A (zh) 可线性扩展的分布式数据库
CN115437787A (zh) 时序引擎内存管理方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518102 Guangdong Province, Baoan District Xixiang street Shenzhen City Tian Yi Lu Chen Tian Bao Industrial District thirty-seventh building 3 floor

Applicant after: SHENZHEN HUAXUN FANGZHOU SOFTWARE TECHNOLOGY Co.,Ltd.

Applicant after: CHINA COMMUNICATION TECHNOLOGY Co.,Ltd.

Address before: 518102 Guangdong Province, Baoan District Xixiang street Shenzhen City Tian Yi Lu Chen Tian Bao Industrial District thirty-seventh building 3 floor

Applicant before: SHENZHEN HUAXUN FANGZHOU SOFTWARE TECHNOLOGY Co.,Ltd.

Applicant before: CHINA COMMUNICATION TECHNOLOGY Co.,Ltd.

COR Change of bibliographic data
CB03 Change of inventor or designer information

Inventor after: Wang Cheng

Inventor after: Feng Jun

Inventor after: Fan Congming

Inventor after: Zhao Shukai

Inventor before: Wang Cheng

Inventor before: Feng Jun

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20210630

Granted publication date: 20180116

PP01 Preservation of patent right
PD01 Discharge of preservation of patent

Date of cancellation: 20230421

Granted publication date: 20180116

PD01 Discharge of preservation of patent
TR01 Transfer of patent right

Effective date of registration: 20230606

Address after: 518102 room 404, building 37, chentian Industrial Zone, chentian community, Xixiang street, Bao'an District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Huaxun ark Photoelectric Technology Co.,Ltd.

Patentee after: SHENZHEN HUAXUN FANGZHOU SOFTWARE TECHNOLOGY Co.,Ltd.

Address before: 518102 3rd floor, building 37, chentian Industrial Zone, Baotian 1st Road, Xixiang street, Bao'an District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN HUAXUN FANGZHOU SOFTWARE TECHNOLOGY Co.,Ltd.

Patentee before: CHINA COMMUNICATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right