CN104133858A - 基于列存储的智能双引擎分析系统及方法 - Google Patents

基于列存储的智能双引擎分析系统及方法 Download PDF

Info

Publication number
CN104133858A
CN104133858A CN201410335740.0A CN201410335740A CN104133858A CN 104133858 A CN104133858 A CN 104133858A CN 201410335740 A CN201410335740 A CN 201410335740A CN 104133858 A CN104133858 A CN 104133858A
Authority
CN
China
Prior art keywords
sql
data
hbase
statement
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410335740.0A
Other languages
English (en)
Other versions
CN104133858B (zh
Inventor
郝俊瑞
向智宇
许德玮
高汉松
郭嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Research Institute of Posts and Telecommunications Co Ltd
Original Assignee
Wuhan Research Institute of Posts and Telecommunications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Research Institute of Posts and Telecommunications Co Ltd filed Critical Wuhan Research Institute of Posts and Telecommunications Co Ltd
Priority to CN201410335740.0A priority Critical patent/CN104133858B/zh
Publication of CN104133858A publication Critical patent/CN104133858A/zh
Application granted granted Critical
Publication of CN104133858B publication Critical patent/CN104133858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/12Protocol engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于列存储的智能双引擎分析系统及方法,涉及智慧城市和大数据处理领域,该系统包括HBase存储单元、客户端和智能SQL路由单元,该系统在用户侧实现智能SQL路由单元;该系统采用HBase存储单元作为底层数据的存储单元,并在HBase存储单元上建立实时查询引擎和批量分析引擎,该系统针对的数据是结构化的关系型数据。本发明既能满足实时性的简单查询,又能有效提高分析大规模数据的性能,满足用户对大规模数据的统计分析要求。

Description

基于列存储的智能双引擎分析系统及方法
技术领域
本发明涉及智慧城市和大数据处理领域,具体是涉及一种基于列存储的智能双引擎分析系统及方法。
背景技术
随着移动互联网、智能终端、物联网、云计算以及智慧城市的普及,人们逐渐的进入了“大数据”时代。大数据是规模非常巨大和复杂的数据集,数据量达到PB、EB或ZB的级别后,传统数据库的管理工具处理起来面临很多问题,例如获取、存储、检索和分析等。在传统的关系数据库中,一般采用索引和全表扫描的方式来处理查询、分析,索引具有快速定位,对于简单查询高效快速的特点,但是对于一些复杂的统计分析,或者数据挖掘类的应用则一般采取全表扫描的方式。大数据引发了一些问题,如对数据库高并发读写要求、对海量数据的高效率存储和访问需求、对数据库高可扩展性和高可用性的需求,在大数据的环境下,数据量是以前传统关系数据库的成千上百倍,传统的关系数据库的一些技术显得力不从心。
Hadoop是由Apache Software Foundation(阿帕奇软件基金会)维护的一个能够对大量数据进行分布式处理的软件框架,Hadoop带来了廉价的处理大数据的能力。Hadoop是一个庞大的生态系统,为处理大数据提供了各种工具和平台。
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)被设计成适合运行在通用服务器上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS是hadoop生态系统的基础。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价的服务器上搭建起大规模结构化存储集群。HBase可提供类似结构化的存储,在基于主键和范围的查询下,性能优越。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL(Structured QueryLanguage,结构化查询语言)查询功能,它可以将SQL语句转换为MapReduce(映射化简)并行任务进行运行。其优点是学习成本低,并可以通过类SQL语句快速实现简单的MapReduce并行统计,不必开发专门的MapReduce并行应用,十分适合数据仓库的统计分析。
当前,针对大数据的应用,Hadoop现在成为大数据处理的标准工具,而在Hadoop中,都采用Mapreduce来进行数据的批量分析,它将SQL的分解为并行任务在HDFS上进行执行。当数据量大时,对于一些大规模的统计分析任务,MapReduce比传统的关系数据库有更好的扩展性和分析性能。
但是,MapReduce不能区分业务场景,无论是多么简单的查询,MapReduce都会将其转化为扫描全表的并行处理任务,因此在某些定位查找、检索等场景下,MapReduce就显得过于笨重,耗时而且耗费资源。由于文件没有进行结构化的组织,而MapReduce本身非常耗时,因此,在Hadoop环境下,传统的Hive在性能上仍无法满足用户对大规模数据的查询和统计分析需求。
发明内容
本发明的目的是为了克服上述背景技术的不足,提供一种基于列存储的智能双引擎分析系统及方法,既能满足实时性的简单查询,又能有效提高分析大规模数据的性能,满足用户对大规模数据的统计分析要求。
本发明提供一种基于列存储的智能双引擎分析系统,包括HBase存储单元、客户端、智能结构化查询语言SQL路由单元,该系统在用户侧实现智能SQL路由单元;该系统采用HBase存储单元作为底层数据的存储单元,并在HBase存储单元上建立实时查询引擎和批量分析引擎,该系统针对的数据是结构化的关系型数据;
所述HBase存储单元用于:实现对数据的底层存储,在存储数据时,将数据的主键自动映射到HBase的主键上,如果用户的数据还有其他列带有索引,那么通过单独的HBase表来生成二级索引表,二级索引表的主键对应用户表的索引列;
所述客户端用于:接收用户输入的SQL语句,然后将用户输入的SQL语句发送给智能SQL路由单元;
所述智能SQL路由单元用于:对用户输入的SQL语句进行解析,并进行分析和判断,根据分析的结果将SQL路由到实时查询引擎或者批量分析引擎,进行分析和查询;
所述实时查询引擎用于:将使用索引的简单查询转化为HBase的主键查询操作或范围查询操作,通过HBase的主键和索引对数据进行检索、查询和分析;
所述批量分析引擎是Hive在HBase存储单元上的实现,对于复杂的统计和分析,实时查询引擎无法完成,批量分析引擎将复杂的统计和分析转化为映射化简MapReduce的并行任务,然后由MapReduce任务在HBase存储单元的底层存储文件HFile上直接进行并行分析和处理。
在上述技术方案的基础上,所述批量分析引擎包括编译器、执行器和元数据管理模块,编译器用于将SQL语句转化为MapReduce任务;执行器用于执行MapReduce任务,MapReduce任务直接在HBase的底层存储文件HFile上进行;元数据管理模块用于管理HBase存储单元存储的数据表,进行数据表的建立、删除和修改操作。
本发明还提供一种适用于上述系统的基于列存储的智能双引擎分析方法,包括以下步骤:
S1、用户在客户端输入SQL语句,客户端将用户输入的SQL语句发送到智能SQL路由单元,智能SQL路由单元在用户侧截获用户输入的SQL语句;
S2、智能SQL路由单元分析用户输入的SQL语句的类型,判断用户输入的SQL语句是数据定义语句,还是数据操作语句,如果用户输入的SQL语句是数据定义语句,则转到步骤S3;如果用户输入的SQL语句是数据操作语句,则转到步骤S4;
S3、如果用户输入的SQL语句是数据定义语句,智能SQL路由单元将该SQL语句路由到批量分析引擎,批量分析引擎的元数据管理模块根据数据定义语句的要求进行表的建立、删除和修改操作;
S4、如果用户输入的SQL语句是数据操作语句,判断该SQL语句是否为选择select语句,如果是select语句,则转到步骤S5;如果不是select语句,则转到步骤S7;
S5、如果select语句的查询条件是单列或双列,并且其中任意一列建有索引,则转到步骤S6;否则,转到步骤S7;
S6、智能SQL路由单元将该SQL语句路由到实时查询引擎进行查询:实时查询引擎根据用户的SQL语句找出对应的主键列或索引列,如果是主键列,则直接在HBase存储单元的表里,用HBase存储单元的编程接口进行快速查找;如果是索引列,则在索引表里利用HBase存储单元的编程接口进行快速查找,找到主键位置,然后再从主键表中进行查找;
S7、智能SQL路由单元将该SQL语句路由到批量分析引擎进行进行并行的查找和分析:批量分析引擎先进行一个刷新操作,将HBase存储单元缓存在内存中的数据,刷新到磁盘中,HBase存储单元在磁盘中保存文件的格式是以HFile格式来保存的;然后对HBase存储单元的底层存储文件进行分割操作,分割后形成一个个的文件块;再将文件块作为MapReduce的并行输入,进行并行的查找和分析。
与现有技术相比,本发明的优点如下:
(1)本发明提出基于列存储的智能双引擎分析系统,将数据存储在HBase上,并在HBase上实现实时查询引擎和批量分析引擎,系统根据用户SQL的查询请求类型,智能SQL路由单元在用户侧对用户的SQL语句进行截获、分析和判断,并根据SQL的类型自动选择实时查询引擎或批量分析引擎,实时查询引擎用来处理简单、快捷的交互式查询,能够快速得到查询结果,较少耗费资源,而无需使用批量分析引擎,节约时间和资源;批量分析引擎用来进行大数据量的统计分析,实现高效的统计和分析。实验证明该系统既能满足实时性的简单查询,又能有效提高分析大规模数据的性能,满足用户对大规模数据的统计分析要求。
(2)与传统的Hive分析方法不同,本发明将Hive的MapReduce任务映射到HFile(HBase的底层存储文件)上,在HFile上进行并行处理,能够有效提高效率,性能更好。
附图说明
图1是本发明实施例中基于列存储的智能双引擎分析系统的结构框图。
图2是本发明实施例中基于列存储的智能双引擎分析方法的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述。
参见图1所示,本发明实施例提供一种基于列存储的智能双引擎分析系统,包括HBase存储单元、客户端和智能SQL路由单元,该系统在用户侧实现智能SQL路由单元;该系统采用HBase存储单元作为底层数据的存储单元,并在HBase存储单元上建立实时查询引擎和批量分析引擎,该系统针对的数据是结构化的关系型数据。
HBase存储单元用于:实现对数据的底层存储,在存储数据时,将数据的主键自动映射到HBase的主键上,如果用户的数据还有其他列带有索引,那么通过单独的HBase表来生成二级索引表,二级索引表的主键对应用户表的索引列。
客户端用于:接收用户输入的SQL语句,然后将用户输入的SQL语句发送给智能SQL路由单元。
智能SQL路由单元用于:对用户输入的SQL语句进行解析,并进行分析和判断,根据分析的结果将SQL路由到实时查询引擎或者批量分析引擎,进行分析和查询,以获得更好的性能。
实时查询引擎用于:对于可以使用索引的较为简单的查询和检索,实时查询引擎将这些使用索引的简单查询转化为HBase的主键查询操作或范围查询操作,通过HBase的主键和索引对数据进行检索、查询和分析,从而能够快速得到查询结果,较少耗费资源,而无需使用批量分析引擎,节约时间和资源。
批量分析引擎是Hive在HBase存储单元上的实现,对于复杂的统计和分析,实时查询引擎无法完成,批量分析引擎将复杂的统计和分析转化为MapReduce的并行任务,然后由MapReduce任务在HBase的底层存储文件HFile上直接进行并行的分析和处理,从而实现高效的统计和分析。
批量分析引擎包括编译器、执行器和元数据管理模块,编译器用于将SQL语句转化为MapReduce任务;执行器用于执行MapReduce任务,MapReduce任务是直接在HBase存储单元的底层存储文件HFile上进行的,这种方式能够有效提高MapReduce执行的效率;元数据管理模块用于管理HBase存储单元存储的数据表,进行数据表的建立、删除和修改等操作。
本系统采用Hive作为批量查询引擎,Hive最初是将SQL查询引擎构建在HDFS之上的,Hive将SQL任务映射为HDFS上的MapReduce任务。由于本系统采用HBase作为存储引擎,不能直接用Hive在HBase存储单元上做分析,因此本系统并没有将Hive的MapReduce任务映射在HBase存储单元的应用接口上,为了提高效率,批量分析引擎将Hive的MapReduce任务映射到HBase存储单元的底层存储文件上。批量分析引擎通过Hive中的并行处理机制MapReduce的方式来对数据进行并行的分析和处理。
HBase是建立在hadoop文件系统之上的,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。HBase能通过主键和主键的范围来检索数据,因为HBase采用树形结构来存储数据,因此通过主键检索数据会非常高效。但是HBase的缺点是不能提供SQL接口。HBase的目标就是快速在主机内数十亿、百亿行数据中定位所需的数据并访问它,利用HBase技术可在廉价服务器上搭建起大规模结构化存储集群。
参见图2所示,本发明实施例还提供一种适用于上述系统的基于列存储的智能双引擎分析方法,包括以下步骤:
S1、用户在客户端输入SQL语句,客户端将用户输入的SQL语句发送到智能SQL路由单元,智能SQL路由单元在用户侧截获用户输入的SQL语句;
S2、智能SQL路由单元分析用户输入的SQL语句的类型,判断用户输入的SQL语句是数据定义语句,还是数据操作语句,如果用户输入的SQL语句是数据定义语句,则转到步骤S3;如果用户输入的SQL语句是数据操作语句,则转到步骤S4;
S3、如果用户输入的SQL语句是数据定义语句,智能SQL路由单元将该SQL语句路由到批量分析引擎,批量分析引擎的元数据管理模块根据数据定义语句的要求进行表的建立、删除和修改操作;
S4、如果用户输入的SQL语句是数据操作语句,判断该SQL语句是否为选择(select)语句,如果是select语句,则转到步骤S5;如果不是select语句,则转到步骤S7;
S5、如果select语句的查询条件是单列或双列,并且其中任意一列建有索引,则转到步骤S6;否则,转到步骤S7;
S6、智能SQL路由单元将该SQL语句路由到实时查询引擎进行查询:实时查询引擎根据用户的SQL语句找出对应的主键列或索引列,如果是主键列,则直接在HBase存储单元的表里,用HBase存储单元的编程接口进行快速查找;如果是索引列,则在索引表里利用HBase存储单元的编程接口进行快速查找,找到主键位置,然后再从主键表中进行查找;
S7、智能SQL路由单元将该SQL语句路由到批量分析引擎进行进行并行的查找和分析:批量分析引擎先进行一个刷新操作,将HBase存储单元缓存在内存中的数据,刷新到磁盘中,HBase存储单元在磁盘中保存文件的格式是以HFile格式来保存的;然后对HBase存储单元的底层存储文件进行分割操作,分割后形成一个个的文件块;再将文件块作为MapReduce的并行输入,进行并行的查找和分析。
本领域的技术人员可以对本发明实施例进行各种修改和变型,倘若这些修改和变型在本发明权利要求及其等同技术的范围之内,则这些修改和变型也在本发明的保护范围之内。
说明书中未详细描述的内容为本领域技术人员公知的现有技术。

Claims (3)

1.一种基于列存储的智能双引擎分析系统,包括HBase存储单元、客户端、智能结构化查询语言SQL路由单元,该系统在用户侧实现智能SQL路由单元;其特征在于:该系统采用HBase存储单元作为底层数据的存储单元,并在HBase存储单元上建立实时查询引擎和批量分析引擎,该系统针对的数据是结构化的关系型数据;
所述HBase存储单元用于:实现对数据的底层存储,在存储数据时,将数据的主键自动映射到HBase的主键上,如果用户的数据还有其他列带有索引,那么通过单独的HBase表来生成二级索引表,二级索引表的主键对应用户表的索引列;
所述客户端用于:接收用户输入的SQL语句,然后将用户输入的SQL语句发送给智能SQL路由单元;
所述智能SQL路由单元用于:对用户输入的SQL语句进行解析,并进行分析和判断,根据分析的结果将SQL路由到实时查询引擎或者批量分析引擎,进行分析和查询;
所述实时查询引擎用于:将使用索引的简单查询转化为HBase的主键查询操作或范围查询操作,通过HBase的主键和索引对数据进行检索、查询和分析;
所述批量分析引擎是Hive在HBase存储单元上的实现,对于复杂的统计和分析,实时查询引擎无法完成,批量分析引擎将复杂的统计和分析转化为映射化简MapReduce的并行任务,然后由MapReduce任务在HBase存储单元的底层存储文件HFile上直接进行并行分析和处理。
2.如权利要求1所述的基于列存储的智能双引擎分析系统,其特征在于:所述批量分析引擎包括编译器、执行器和元数据管理模块,编译器用于将SQL语句转化为MapReduce任务;执行器用于执行MapReduce任务,MapReduce任务直接在HBase的底层存储文件HFile上进行;元数据管理模块用于管理HBase存储单元存储的数据表,进行数据表的建立、删除和修改操作。
3.适用于权利要求1或2所述系统的基于列存储的智能双引擎分析方法,其特征在于,包括以下步骤:
S1、用户在客户端输入SQL语句,客户端将用户输入的SQL语句发送到智能SQL路由单元,智能SQL路由单元在用户侧截获用户输入的SQL语句;
S2、智能SQL路由单元分析用户输入的SQL语句的类型,判断用户输入的SQL语句是数据定义语句,还是数据操作语句,如果用户输入的SQL语句是数据定义语句,则转到步骤S3;如果用户输入的SQL语句是数据操作语句,则转到步骤S4;
S3、如果用户输入的SQL语句是数据定义语句,智能SQL路由单元将该SQL语句路由到批量分析引擎,批量分析引擎的元数据管理模块根据数据定义语句的要求进行表的建立、删除和修改操作;
S4、如果用户输入的SQL语句是数据操作语句,判断该SQL语句是否为选择select语句,如果是select语句,则转到步骤S5;如果不是select语句,则转到步骤S7;
S5、如果select语句的查询条件是单列或双列,并且其中任意一列建有索引,则转到步骤S6;否则,转到步骤S7;
S6、智能SQL路由单元将该SQL语句路由到实时查询引擎进行查询:实时查询引擎根据用户的SQL语句找出对应的主键列或索引列,如果是主键列,则直接在HBase存储单元的表里,用HBase存储单元的编程接口进行快速查找;如果是索引列,则在索引表里利用HBase存储单元的编程接口进行快速查找,找到主键位置,然后再从主键表中进行查找;
S7、智能SQL路由单元将该SQL语句路由到批量分析引擎进行进行并行的查找和分析:批量分析引擎先进行一个刷新操作,将HBase存储单元缓存在内存中的数据,刷新到磁盘中,HBase存储单元在磁盘中保存文件的格式是以HFile格式来保存的;然后对HBase存储单元的底层存储文件进行分割操作,分割后形成一个个的文件块;再将文件块作为MapReduce的并行输入,进行并行的查找和分析。
CN201410335740.0A 2014-07-15 2014-07-15 基于列存储的智能双引擎分析系统及方法 Active CN104133858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410335740.0A CN104133858B (zh) 2014-07-15 2014-07-15 基于列存储的智能双引擎分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410335740.0A CN104133858B (zh) 2014-07-15 2014-07-15 基于列存储的智能双引擎分析系统及方法

Publications (2)

Publication Number Publication Date
CN104133858A true CN104133858A (zh) 2014-11-05
CN104133858B CN104133858B (zh) 2017-08-01

Family

ID=51806536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410335740.0A Active CN104133858B (zh) 2014-07-15 2014-07-15 基于列存储的智能双引擎分析系统及方法

Country Status (1)

Country Link
CN (1) CN104133858B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117433A (zh) * 2015-08-07 2015-12-02 北京思特奇信息技术股份有限公司 一种基于Hive解析HFile统计查询HBase的方法和系统
CN105787119A (zh) * 2016-03-25 2016-07-20 盛趣信息技术(上海)有限公司 基于混合引擎的大数据处理方法及系统
CN106844539A (zh) * 2016-12-30 2017-06-13 曙光信息产业(北京)有限公司 实时数据分析方法及系统
CN106844545A (zh) * 2016-12-30 2017-06-13 江苏瑞中数据股份有限公司 一种基于标准sql的双引擎数据库系统的实现方法
CN107291948A (zh) * 2016-09-21 2017-10-24 广州特道信息科技有限公司 一种分布式newSQL数据库的访问方法
CN107291770A (zh) * 2016-04-11 2017-10-24 中国移动通信集团山西有限公司 一种分布式系统中海量数据的查询方法及装置
CN107562924A (zh) * 2017-09-14 2018-01-09 晶赞广告(上海)有限公司 基于列存储和键值存储的人群画像方法及系统
CN107888686A (zh) * 2017-11-14 2018-04-06 西南医科大学 一种位于HBase客户端的用户数据有效性验证方法
CN108268468A (zh) * 2016-12-30 2018-07-10 北京京东尚科信息技术有限公司 一种大数据的分析方法及系统
CN108549683A (zh) * 2018-04-03 2018-09-18 联想(北京)有限公司 数据查询方法以及系统
CN108763573A (zh) * 2018-06-06 2018-11-06 众安信息技术服务有限公司 一种基于机器学习的olap引擎路由方法及系统
CN109299154A (zh) * 2018-11-30 2019-02-01 长城计算机软件与系统有限公司 一种大数据的数据存储系统及方法
CN109947980A (zh) * 2017-10-30 2019-06-28 北京国双科技有限公司 一种视频收视数据的统计方法及装置
CN110362572A (zh) * 2019-06-25 2019-10-22 浙江邦盛科技有限公司 一种基于列式存储的时序数据库系统
CN110457537A (zh) * 2019-08-19 2019-11-15 河北泰越智新科技股份有限公司 网络机房大数据综合采集系统
CN112612805A (zh) * 2020-12-24 2021-04-06 北京浪潮数据技术有限公司 一种hbase数据索引到查询引擎的方法和相关装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116625A (zh) * 2013-01-31 2013-05-22 重庆大学 一种基于Hadoop的海量RDF数据分布式查询处理方法
CN103268336A (zh) * 2013-05-13 2013-08-28 刘峰 一种快数据和大数据结合的数据处理方法及其系统
CN103646051B (zh) * 2013-11-27 2017-02-08 武汉邮电科学研究院 一种基于列存储的大数据并行处理系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
桑梓勤等: ""基于云计算的居民健康服务平台安全问题研究"", 《医学信息学杂志》 *
范建永等: ""基于HBase的矢量空间数据分布式存储研究"", 《地理与地理信息科学》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117433A (zh) * 2015-08-07 2015-12-02 北京思特奇信息技术股份有限公司 一种基于Hive解析HFile统计查询HBase的方法和系统
CN105787119A (zh) * 2016-03-25 2016-07-20 盛趣信息技术(上海)有限公司 基于混合引擎的大数据处理方法及系统
CN105787119B (zh) * 2016-03-25 2020-06-16 盛趣信息技术(上海)有限公司 基于混合引擎的大数据处理方法及系统
CN107291770A (zh) * 2016-04-11 2017-10-24 中国移动通信集团山西有限公司 一种分布式系统中海量数据的查询方法及装置
CN107291770B (zh) * 2016-04-11 2021-04-02 中国移动通信集团山西有限公司 一种分布式系统中海量数据的查询方法及装置
CN107291948B (zh) * 2016-09-21 2020-05-19 云润大数据服务有限公司 一种分布式newSQL数据库的访问方法
CN107291948A (zh) * 2016-09-21 2017-10-24 广州特道信息科技有限公司 一种分布式newSQL数据库的访问方法
CN106844545A (zh) * 2016-12-30 2017-06-13 江苏瑞中数据股份有限公司 一种基于标准sql的双引擎数据库系统的实现方法
CN108268468A (zh) * 2016-12-30 2018-07-10 北京京东尚科信息技术有限公司 一种大数据的分析方法及系统
CN106844539A (zh) * 2016-12-30 2017-06-13 曙光信息产业(北京)有限公司 实时数据分析方法及系统
CN107562924A (zh) * 2017-09-14 2018-01-09 晶赞广告(上海)有限公司 基于列存储和键值存储的人群画像方法及系统
CN109947980A (zh) * 2017-10-30 2019-06-28 北京国双科技有限公司 一种视频收视数据的统计方法及装置
CN107888686A (zh) * 2017-11-14 2018-04-06 西南医科大学 一种位于HBase客户端的用户数据有效性验证方法
CN107888686B (zh) * 2017-11-14 2020-10-02 西南医科大学 一种位于HBase客户端的用户数据有效性验证方法
CN108549683A (zh) * 2018-04-03 2018-09-18 联想(北京)有限公司 数据查询方法以及系统
CN108763573A (zh) * 2018-06-06 2018-11-06 众安信息技术服务有限公司 一种基于机器学习的olap引擎路由方法及系统
CN109299154B (zh) * 2018-11-30 2020-12-18 长城计算机软件与系统有限公司 一种大数据的数据存储系统及方法
CN109299154A (zh) * 2018-11-30 2019-02-01 长城计算机软件与系统有限公司 一种大数据的数据存储系统及方法
CN110362572A (zh) * 2019-06-25 2019-10-22 浙江邦盛科技有限公司 一种基于列式存储的时序数据库系统
CN110362572B (zh) * 2019-06-25 2022-07-01 浙江邦盛科技股份有限公司 一种基于列式存储的时序数据库系统
CN110457537A (zh) * 2019-08-19 2019-11-15 河北泰越智新科技股份有限公司 网络机房大数据综合采集系统
CN112612805A (zh) * 2020-12-24 2021-04-06 北京浪潮数据技术有限公司 一种hbase数据索引到查询引擎的方法和相关装置
CN112612805B (zh) * 2020-12-24 2023-12-22 北京浪潮数据技术有限公司 一种hbase数据索引到查询引擎的方法和相关装置

Also Published As

Publication number Publication date
CN104133858B (zh) 2017-08-01

Similar Documents

Publication Publication Date Title
CN104133858A (zh) 基于列存储的智能双引擎分析系统及方法
CN107402995B (zh) 一种分布式newSQL数据库系统及方法
Buck et al. Scihadoop: Array-based query processing in hadoop
Hagedorn et al. The STARK framework for spatio-temporal data analytics on spark
CN103064875B (zh) 一种服务化空间数据分布式查询方法
US10885031B2 (en) Parallelizing SQL user defined transformation functions
CN105138661A (zh) 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法
CN106030573A (zh) 半结构化数据作为第一等级数据库元素的实现
CN103491187A (zh) 一种基于云计算的大数据统一分析处理方法
CN107066546B (zh) 一种基于mpp引擎的跨数据中心快速查询方法和系统
CN103678665A (zh) 一种基于数据仓库的异构大数据整合方法和系统
CN105335479A (zh) 一种基于sql的文本数据统计实现方法
CN103226608B (zh) 一种基于目录级可伸缩的Bloom Filter位图表的并行文件搜索方法
Samwel et al. F1 query: Declarative querying at scale
Das et al. A study on big data integration with data warehouse
Stantic et al. Opportunities in big data management and processing
Zheng et al. Data storage optimization strategy in distributed column-oriented database by considering spatial adjacency
Alsubaiee et al. Asterix: scalable warehouse-style web data integration
Peixoto et al. Scalable and fast top-k most similar trajectories search using mapreduce in-memory
CN108319604B (zh) 一种hive中大小表关联的优化方法
Wang et al. Sparkarray: An array-based scientific data management system built on apache spark
Diouf et al. Performance of the ETL processes in terms of volume and velocity in the cloud: State of the art
Shah et al. Big data analytics framework for spatial data
KR101828522B1 (ko) 이종 데이터 처리를 위한 분산 병렬 처리 시스템
Tianyuan et al. Research of massive heterogeneous data integration based on Lucene and XQuery

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 430074, No. 88, postal academy road, Hongshan District, Hubei, Wuhan

Patentee after: Wuhan post and Telecommunications Science Research Institute Co., Ltd.

Address before: 430074, No. 88, postal academy road, Hongshan District, Hubei, Wuhan

Patentee before: Wuhan Inst. of Post & Telecom Science