CN103927331A - 数据查询方法、装置及系统 - Google Patents

数据查询方法、装置及系统 Download PDF

Info

Publication number
CN103927331A
CN103927331A CN201410108733.7A CN201410108733A CN103927331A CN 103927331 A CN103927331 A CN 103927331A CN 201410108733 A CN201410108733 A CN 201410108733A CN 103927331 A CN103927331 A CN 103927331A
Authority
CN
China
Prior art keywords
data
base cluster
hive
query
mapreduce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410108733.7A
Other languages
English (en)
Other versions
CN103927331B (zh
Inventor
喻先兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd
Original Assignee
ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd filed Critical ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd
Priority to CN201410108733.7A priority Critical patent/CN103927331B/zh
Publication of CN103927331A publication Critical patent/CN103927331A/zh
Application granted granted Critical
Publication of CN103927331B publication Critical patent/CN103927331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据查询方法、装置及装置,属于数据存储领域。所述方法包括:Hive获取针对所述数据库集群的HQL查询语句,所述HQL查询语句中指定的Hive表对应于所述数据库集群中关联的至少两张分区表;根据所述HQL查询语句生成MapReduce执行计划;将所述MapReduce执行计划发送给并行计算架构Hadoop;接收所述Hadoop反馈的查询结果。解决了目前多张关联的分区表无法支持一些关系型查询和统计功能的问题;达到了借助Hive和Hadoop的分布式并行计算特性,来实现对数据库集群中多张关联的分区表的关系型查询和统计功能的效果。

Description

数据查询方法、装置及系统
技术领域
本发明涉及数据存储领域,特别涉及一种数据查询方法、装置及系统。
背景技术
MySQL数据库是一种被广泛使用的数据库。随着数据访问压力的几何倍速增长,单个MySQL数据库的存储能力以及查询能力都会越来越成为数据系统的瓶颈。
目前常采用多个MySQL数据库组成数据库集群来共同提供服务,通过把原始存储在单个MySQL中的表进行水平分区后,存放到多个MySQL数据库的多张分区表中,每个分区表存储原表中的一部分数据,从而满足大规模的数据库存储需求。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:对于单一的数据表,支持各种各样灵活的查询SQL语句;但对于多张关联的分区表,由于每张分区表只存储原表的一部分数据,所以无法支持一些关系型查询和统计功能。
发明内容
为了解决对于多张关联的分区表无法支持一些关系型查询和统计功能的问题,本发明实施例提供了一种数据查询方法、装置及系统。所述技术方案如下:
第一方面,提供了一种数据查询方法,用于与数据库集群相连的并行数据仓库工具Hive中,所述方法包括:
获取针对所述数据库集群的HQL查询语句,所述HQL查询语句中指定的Hive表对应于所述数据库集群中关联的至少两张分区表;
根据所述HQL查询语句生成MapReduce执行计划;
将所述MapReduce执行计划发送给并行计算架构Hadoop;
接收所述Hadoop反馈的查询结果,所述查询结果是所述Hadoop根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务后,通过Reduce化简任务汇总每个Mapper映射任务的查询结果得到的。
可选地,所述根据所述HQL查询语句生成MapReduce执行计划,包括:
获取所述HQL查询语句所指定的Hive表在所述数据库集群对应的分区描述信息;
根据所述HQL查询语句、所述Hive表和所述Hive表的分区描述信息生成所述MapReduce执行计划。
可选地,所述获取所述HQL查询语句所指定的Hive表在所述数据库集群对应的分区描述信息,包括:
预先存储所述数据库集群的连接信息;根据所述连接信息从所述数据库集群获取所述分区描述信息;
或,
获取预先存储的所述分区描述信息。
可选地,所述根据所述HQL查询语句、所述Hive表和所述Hive表的分区描述信息生成所述MapReduce执行计划,包括:
根据所述HQL查询语句确定所述数据库集群中每个分区表所对应的查询条件;
根据所述Hive表生成所述数据库集群在所述Hadoop中的输入格式;
将所述查询条件、所述分区描述信息和所述数据库集群在所述Hadoop中的输入格式生成为所述MapReduce执行计划的内容。
第二方面,提供了一种数据查询方法,用于与数据库集群相连的并行计算架构Hadoop中,所述方法包括:
获取MapReduce执行计划,所述MapReduce执行计划是并行数据仓库工具Hive根据针对所述数据库集群的HQL查询语句生成的,所述HQL查询语句指定的Hive表对应于所述数据库集群中关联的至少两张分区表;
根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务进行查询;
通过Reduce化简任务汇总每个Mapper映射任务的查询结果;
向所述Hive反馈汇总后的查询结果。
可选地,所述根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务,包括:
根据所述分区描述信息和所述数据库集群在所述Hadoop中的输入格式将所述数据库集群的各个分区表转换为各自对应的输入分片;
对于每个所述输入分片,启动相应的所述Mapper映射任务执行相应分区表的查询。
可选地,所述对于每个所述输入分片,启动相应的所述Mapper映射任务执行相应分区表的查询,包括:
对于每个所述映射任务,根据所述Mapper映射任务所对应的分区表所对应的查询条件生成分区查询语句;
通过所述分区查询语句在所述分区表对应的输入分片中读取数据作为查询结果。
第三方面,提供了一种数据查询装置,用于与数据库集群相连的并行数据仓库工具Hive中,所述装置包括:
语句接收模块,用于获取针对所述数据库集群的HQL查询语句,所述HQL查询语句中指定的Hive表对应于所述数据库集群中关联的至少两张分区表;
计划生成模块,用于根据所述HQL查询语句生成MapReduce执行计划;
计划发送模块,用于将所述MapReduce执行计划发送给并行计算架构Hadoop;
结果接收模块,用于接收所述Hadoop反馈的查询结果,所述查询结果是所述Hadoop根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务后,通过Reduce化简任务汇总每个Mapper映射任务的查询结果得到的。
可选地,所述计划生成模块,包括:信息获取单元和计划生成单元;
所述信息获取单元,用于获取所述HQL查询语句所指定的Hive表在所述数据库集群对应的分区描述信息;
所述计划生成单元,用于根据所述HQL查询语句、所述Hive表和所述Hive表的分区描述信息生成所述MapReduce执行计划。
可选地,所述信息获取单元,包括:
连接存储子单元,用于预先存储所述数据库集群的连接信息;第一获取子单元,用于根据所述连接信息从所述数据库集群获取所述分区描述信息;
或,
第二获取子单元,用于获取预先存储的所述分区描述信息。
可选地,所述计划生成单元,包括:
条件生成子单元、格式生成子单元和计划生成子单元;
所述条件生成子单元,用于根据所述HQL查询语句确定所述数据库集群中每个分区表所对应的查询条件;
所述格式生成子单元,用于根据所述Hive表生成所述数据库集群在所述Hadoop中的输入格式;
所述计划生成子单元,用于将所述查询条件、所述分区描述信息和所述数据库集群在所述Hadoop中的输入格式生成为所述MapReduce执行计划的内容。
第四方面,提供了一种数据查询装置,用于与数据库集群相连的并行计算架构Hadoop中,所述装置包括:
计划获取模块,用于获取MapReduce执行计划,所述MapReduce执行计划是并行数据仓库工具Hive根据针对所述数据库集群的HQL查询语句生成的,所述HQL查询语句指定的Hive表对应于所述数据库集群中关联的至少两张分区表;
分区查询模块,用于根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务进行查询;
结果汇总模块,用于通过Reduce化简任务汇总每个Mapper映射任务的查询结果;
结果反馈模块,用于向所述Hive反馈汇总后的查询结果。
可选地,所述分区查询模块,包括:
分片生成单元和分区查询单元;
所述分片生成单元,用于根据所述分区描述信息和所述数据库集群在所述Hadoop中的输入格式将所述数据库集群的各个分区表转换为各自对应的输入分片;
所述分区查询单元,用于对于每个所述输入分片,启动相应的所述Mapper映射任务执行相应分区表的查询。
可选地,所述分区查询单元,包括:
语句生成子单元和分片查询子单元;
所述语句生成子单元,用于对于每个所述映射任务,根据所述Mapper映射任务所对应的分区表所对应的查询条件生成分区查询语句;
所述分片查询子单元,用于通过所述分区查询语句在所述分区表对应的输入分片中读取数据作为查询结果。
第五方面,提供了一种数据查询系统,所述系统包括数据库集群、与所述数据库集群相连的并行数据仓库工具Hive,以及与所述数据库集群和所述Hive分别相连的并行计算架构Hadoop;
所述数据库集群,存储有关联的至少两个分区表;
所述Hive,包括如第三方面提供的所述的数据查询装置;
所述Hadoop,包括如第四方面提供的所述的数据查询装置。
本发明实施例提供的技术方案带来的有益效果是:
通过由Hive将针对数据库集群的HQL查询语句转化为MapReduce执行计划,由Hadoop来执行该MapReduce执行计划在数据库集群的各个分区表中查询数据;解决了目前多张关联的分区表无法支持一些关系型查询和统计功能的问题;达到了借助Hive和Hadoop的分布式并行计算特性,来实现对数据库集群中多张关联的分区表的关系型查询和统计功能的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据查询方法所涉及的实施环境的结构示意图;
图2是本发明一个实施例提供的数据查询方法的方法流程图;
图3A是本发明另一实施例提供的数据查询方法的方法流程图;
图3B是图3A实施例提供的数据查询方法在具体实施时的实施示意图;
图4是本发明一个实施例提供的数据查询系统的结构方框图;
图5是本发明另一实施例提供的数据查询系统的结构方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
请参考图1,其示出了本发明实施例提供的数据查询方法所涉及的实施环境的结构示意图。该实施环境包括数据库集群120、与数据库集群120相连的并行数据仓库工具Hive140、与数据库集群120相连的并行计算架构Hadoop160。并行计算架构Hadoop160还与并行数据仓库工具Hive140相连。
数据库集群120存储有关联的至少两张分区表以及这些分区表的分区描述信息。分区描述信息用于描述一张原始表被拆分为至少两张分区表时的拆分信息,比如,一张表被拆分为几张分区表,每张分区表分布在数据库集群120中的哪个服务器上。数据库集群120可以是MySQL数据库集群。
Hive140是基于并行计算架构Hadoop的一个并行数据仓库工具。Hive140中会建立一张Hive表,该Hive表与数据库集群120中的所有分区表相关联。Hive140用于接收用户的HQL查询语句,然后将该HQL查询语句转换为MapReduce(映射-化简)执行计划。Hive140通常包括有驱动器142、编译器144、元数据存储区146和执行引擎148。
Hadoop160用于执行Hive140提交的MapReduce执行计划,根据该MapReduce执行计划从数据库集群120查询数据,并向Hive140返回查询结果。Hadoop160通常包括工作跟踪器JOB TRACKER162,用于根据MapReduce执行计划生成MapperTask映射任务和Reduce化简任务。Hadoop160通常还包括:映射任务跟踪器164和化简任务跟踪器166。
请参考图2,其示出了本发明一个实施例提供的数据查询方法的方法流程图。本实施例以该数据查询方法应用于图1所示的实施环境来举例说明。该数据查询方法包括:
步骤201,Hive获取针对数据库集群的HQL查询语句;
该HQL查询语句中指定的Hive表对应于数据库集群中关联的至少两张分区表;
步骤202,Hive根据该HQL查询语句生成MapReduce执行计划;
步骤203,Hive将MapReduce执行计划发送给Hadoop;
步骤204,Hadoop获取MapReduce执行计划;
该MapReduce执行计划是并行数据仓库工具Hive根据针对所述数据库集群的HQL查询语句生成的,所述HQL查询语句指定的Hive表对应于所述数据库集群中关联的至少两张分区表。
步骤205,Hadoop根据MapReduce执行计划为数据库集群中的每个分区表启动一个Mapper映射任务;
步骤206,Hadoop通过Reduce化简任务汇总每个Mapper映射任务的查询结果;
步骤207,Hadoop向Hive反馈汇总后的查询结果。
对应地,Hive接收Hadoop反馈的查询结果。
综上所述,本实施例提供的数据查询方法,通过由Hive将针对数据库集群的HQL查询语句转化为MapReduce执行计划,由Hadoop来执行该MapReduce执行计划在数据库集群的各个分区表中查询数据;解决了目前多张关联的分区表无法支持一些关系型查询和统计功能的问题;达到了借助Hive和Hadoop的分布式并行计算特性,来实现对数据库集群中多张关联的分区表的关系型查询和统计功能的效果。
其中,上述步骤201至步骤203可以单独实现成为Hive侧的数据查询方法;上述步骤204至步骤207可以单独实现成为Hadoop侧的数据查询方法。
请参考图3A,其示出了本发明另一实施例提供的数据查询方法的方法流程图。本实施例以该数据查询方法应用于图1所示的实施环境来举例说明。该数据查询方法包括:
步骤301,Hive获取针对数据库集群的HQL查询语句,HQL查询语句中指定的Hive表对应于数据库集群中关联的至少两张分区表;
Hive可以预先建立一张Hive表,该Hive表对应于数据库集群中关联的全部分区表。比如,一张原始表在MySQL集群中被拆分为关联的100张分区表,则Hive可以建立一张Hive表与该关联的100张分区表对应。
在用户希望对数据库集群进行查询时,通过Hive提供的用户界面向Hive发出HQL查询语句。Hive通过驱动器获取该HQL查询语句,该HQL查询语句中所指定的Hive表即为对应于数据库集群中关联的多张分区表。
步骤302,Hive获取该Hive表在数据库集群对应的分区描述信息;
由于该Hive表与数据库集群中的多张分区表对应,而这些分区表的分区描述信息描述了这些分区表的拆分信息以及这些分区表在数据库集群中的存储位置,所以Hive需要获取该Hive表在数据库集群对应的分区描述信息。
Hive中的驱动器在接收到的HQL查询语句后,会将该HQL查询语句交给Hive中的编译器进行处理。Hive中的编译器通过元数据存储区获取分区描述信息。
具体来讲,本步骤有两种不同的实现方式:
第一,Hive预先存储数据库集群的连接信息,根据连接信息从数据库集群获取分区描述信息;
也即,此种方式下分区描述信息存储在数据库集群中,Hive可以通过在Hive表中预先存储的连接信息从数据库集群获取分区描述信息。
第二,Hive获取在Hive表中预先存储的分区描述信息。
也即,此种方式下,分区描述信息被预先存储在元数据存储区,Hive中的编译器从元数据存储区获取该分区描述信息。
步骤303,Hive根据HQL查询语句、Hive表和Hive表的分区描述信息生成MapReduce执行计划。
本步骤具体包括如下子步骤:
第一,Hive根据HQL查询语句确定数据库集群中每个分区表所对应的查询条件;
由于HQL查询语句是针对所有分区表的,所以Hive中的编译器需要根据将HQL查询语句确定数据库集群中每个分区表所对应的查询条件。比如,对于分区表a需要查询所有数据,对于分区表b需要查询符合某一条件的数据等。
第二,Hive根据Hive表生成数据库集群在Hadoop中的输入格式;
输入格式(InputFormat)是Hadoop中执行MapReduce执行计划时的关键因素。由于本实施例中需要将数据库集群中的各个分区表作为Hadoop执行MapReduce执行计划时所需要处理的数据,所以Hive中的编译器需要根据Hive表生成数据库集群在Hadoop中的输入格式。
第三,Hive将查询条件、分区描述信息和数据库集群在Hadoop中的输入格式生成为MapReduce执行计划的内容。
步骤304,Hive将MapReduce执行计划发送给Hadoop;
Hive中的编译器生成MapReduce执行计划后,将该MapReduce执行计划内部传输给驱动器,驱动器再将该MapReduce执行计划内部传输给执行引擎。执行引擎则将该MapReduce执行计划传输给Hadoop执行。
步骤305,Hadoop获取MapReduce执行计划;
该MapReduce执行计划是Hive根据针对数据库集群的HQL查询语句生成的,HQL查询语句指定的Hive表对应于数据库集群中关联的至少两张分区表。
步骤306,Hadoop根据MapReduce执行计划为数据库集群中的每个分区表启动一个Mapper映射任务进行查询;
由于MapReduce执行计划本身即为分布式计算架构,原理即为将一个总的执行计划分配为多个并行任务来处理。而本实施例则针对每个分区表分别启动一个Mapper映射任务来进行查询。利用MapReduce执行计划的分布式计算特性来实现多张分区表的综合查询和统计。具体来讲,本步骤包括:
第一,根据分区描述信息和数据库集群在Hadoop中的输入格式将数据库集群的各个分区表转换为各自对应的输入分片;
Hadoop中的工作跟踪器JOB TRACKER在得到MapReduce执行计划后,根据分区描述信息和数据库集群在Hadoop中的输入格式将数据库集群的各个分区表转换为各自对应的输入分片(InputSplit)。
结合图3B可知,以MySQL数据库为例,JOB TRACKER根据分区描述信息和MySQL输入格式将每个分区表32切分为一个输入分片34。
第二,对于每个输入分片,启动相应的Mapper映射任务执行相应分区表的查询。
Hadoop中的工作跟踪器JOB TRACKER,还对于每个输入分片,启动相应的Mapper映射任务36执行相应分区表的查询。Mapper映射任务36的执行过程由映射任务跟踪器164管理。
具体来讲,对于每个映射任务,Hadoop根据Mapper映射任务所对应的分区表所对应的查询条件生成分区查询语句,比如SQL语句,并通过分区查询语句在分区表对应的输入分片中读取数据作为查询结果。读取数据的过程可以由记录读取器RecordReader实现,记录读取器从输入分片中读出一条条K-V键值供Mapper映射任务使用。
步骤307,Hadoop通过Reduce化简任务汇总每个Mapper映射任务的查询结果;
每个Mapper映射任务的查询结果将会交给对应的Reduce化简任务,Reduce化简任务汇总每个Mapper映射任务的查询结果,得到最终汇总后的查询结果。
步骤308,Hadoop向Hive反馈汇总后的查询结果。
Hadoop中的工作跟踪器JOB TRACKER向Hive反馈汇总后的查询结果。Hive接收Hadoop反馈的汇总后的查询结果。也即,Hive中的执行引擎将汇总后的查询结果内部传输给驱动器,驱动器将汇总后的查询结果反馈给用户。
至此,完成整个查询统计过程。
综上所述,本实施例提供的数据查询方法,通过由Hive将针对数据库集群的HQL查询语句转化为MapReduce执行计划,由Hadoop来执行该MapReduce执行计划在数据库集群的各个分区表中查询数据;解决了目前多张关联的分区表无法支持一些关系型查询和统计功能的问题;达到了借助Hive和Hadoop的分布式并行计算特性,来实现对数据库集群中多张关联的分区表的关系型查询和统计功能的效果。
本实施例提供的数据查询方法,还通过Hive中的Hive表来与数据库集群中的多张分区表进行关联,借助HQL查询语句来实现多张分区表的结构化查询,区解决了目前多张关联的分区表无法支持一些关系型查询和统计功能的问题。同时,还通过实现数据库集群(如MySQL)中的分区表至Hadoop中的输入分片的映射,使得Hadoop的MapReduce能够运行在数据库集群上查询,借助MapReduce的并行计算特性,实现了数据库集群的并行查询能力。
其中,上述步骤301至步骤304可以单独实现成为Hive侧的数据查询方法;上述步骤305至步骤308可以单独实现成为Hadoop侧的数据查询方法。
请参考图4,其示出了本发明一个实施例提供的数据查询系统的结构方框图。该数据查询系统包括数据库集群40、与数据库集群40相连的并行数据仓库工具Hive400,以及与数据库集群40和Hive400分别相连的并行计算架构Hadoop500。
所述数据库集群40,存储有关联的至少两个分区表。
并行数据仓库工具Hive400包括一数据查询装置,该数据查询装置能够通过软件、硬件或者两者的结合实现成为Hive的全部或者一部分。该数据查询装置包括:语句接收模块420、计划生成模块440、计划发送模块460和结果接收模块480。
语句接收模块420,用于获取针对所述数据库集群的HQL查询语句,所述HQL查询语句中指定的Hive表对应于所述数据库集群中关联的至少两张分区表;
计划生成模块440,用于根据所述HQL查询语句生成MapReduce执行计划;
计划发送模块460,用于将所述MapReduce执行计划发送给并行计算架构Hadoop;
结果接收模块480,用于接收所述Hadoop反馈的查询结果,所述查询结果是所述Hadoop根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务后,通过Reduce化简任务汇总每个Mapper映射任务的查询结果得到的。
并行计算架构Hadoop500包括一数据查询装置,该数据查询装置能够通过软件、硬件或者两者的结合实现成为Hive的全部或者一部分。该数据查询装置包括:计划获取模块520、分区查询模块540、结果汇总模块560和结果反馈模块580。
计划获取模块520,用于获取MapReduce执行计划,所述MapReduce执行计划是并行数据仓库工具Hive根据针对所述数据库集群的HQL查询语句生成的,所述HQL查询语句指定的Hive表对应于所述数据库集群中关联的至少两张分区表;
分区查询模块540,用于根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务进行查询;
结果汇总模块560,用于通过Reduce化简任务汇总每个Mapper映射任务的查询结果;
结果反馈模块580,用于向所述Hive反馈汇总后的查询结果。
综上所述,本实施例提供的数据查询系统,通过由Hive将针对数据库集群的HQL查询语句转化为MapReduce执行计划,由Hadoop来执行该MapReduce执行计划在数据库集群的各个分区表中查询数据;解决了目前多张关联的分区表无法支持一些关系型查询和统计功能的问题;达到了借助Hive和Hadoop的分布式并行计算特性,来实现对数据库集群中多张关联的分区表的关系型查询和统计功能的效果。
请参考图5,其示出了本发明另一实施例提供的数据查询系统的结构方框图。该数据查询系统包括数据库集群40、与数据库集群40相连的并行数据仓库工具Hive400,以及与数据库集群40和Hive400分别相连的并行计算架构Hadoop500。
所述数据库集群40,存储有关联的至少两个分区表。
并行数据仓库工具Hive400包括一数据查询装置,该数据查询装置能够通过软件、硬件或者两者的结合实现成为Hive的全部或者一部分。该数据查询装置包括:语句接收模块420、计划生成模块440、计划发送模块460和结果接收模块480。
语句接收模块420,用于获取针对所述数据库集群的HQL查询语句,所述HQL查询语句中指定的Hive表对应于所述数据库集群中关联的至少两张分区表;
计划生成模块440,用于根据所述HQL查询语句生成MapReduce执行计划;
计划发送模块460,用于将所述MapReduce执行计划发送给并行计算架构Hadoop;
结果接收模块480,用于接收所述Hadoop反馈的查询结果,所述查询结果是所述Hadoop根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务后,通过Reduce化简任务汇总每个Mapper映射任务的查询结果得到的。
可选地,所述计划生成模块440,包括:信息获取单元442和计划生成单元444;
所述信息获取单元442,用于获取所述HQL查询语句所指定的Hive表在所述数据库集群对应的分区描述信息;
所述计划生成单元444,用于根据所述HQL查询语句、所述Hive表和所述Hive表的分区描述信息生成所述MapReduce执行计划。
可选地,所述信息获取单元442,包括:
连接存储子单元,用于预先存储所述数据库集群的连接信息;第一获取子单元,用于根据所述连接信息从所述数据库集群获取所述分区描述信息;
或,
第二获取子单元,用于获取预先存储的所述分区描述信息。
可选地,所述计划生成单元444,包括:
条件生成子单元、格式生成子单元和计划生成子单元;
所述条件生成子单元,用于根据所述HQL查询语句确定所述数据库集群中每个分区表所对应的查询条件;
所述格式生成子单元,用于根据所述Hive表生成所述数据库集群在所述并行计算结构中的输入格式;
所述计划生成子单元,用于将所述查询条件、所述分区描述信息和所述数据库集群在所述并行计算结构中的输入格式生成为所述MapReduce执行计划的内容。
并行计算架构Hadoop500包括一数据查询装置,该数据查询装置能够通过软件、硬件或者两者的结合实现成为Hive的全部或者一部分。该数据查询装置包括:计划获取模块520、分区查询模块540、结果汇总模块560和结果反馈模块580。
计划获取模块520,用于获取MapReduce执行计划,所述MapReduce执行计划是并行数据仓库工具Hive根据针对所述数据库集群的HQL查询语句生成的,所述HQL查询语句指定的Hive表对应于所述数据库集群中关联的至少两张分区表;
分区查询模块540,用于根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务进行查询;
结果汇总模块560,用于通过Reduce化简任务汇总每个Mapper映射任务的查询结果;
结果反馈模块580,用于向所述Hive反馈汇总后的查询结果。
所述分区查询模块540,包括:分片生成单元542和分区查询单元544;
所述分片生成单元542,用于根据所述分区描述信息和所述数据库集群在所述Hadoop中的输入格式将所述数据库集群的各个分区表转换为各自对应的输入分片;
所述分区查询单元544,用于对于每个所述输入分片,启动相应的所述Mapper映射任务执行相应分区表的查询。
可选地,所述分区查询单元544,包括:语句生成子单元和分片查询子单元;
所述语句生成子单元,用于对于每个所述映射任务,根据所述Mapper映射任务所对应的分区表所对应的查询条件生成分区查询语句;
所述分片查询子单元,用于通过所述分区查询语句在所述分区表对应的输入分片中读取数据作为查询结果。
综上所述,本实施例提供的数据查询系统,通过由Hive将针对数据库集群的HQL查询语句转化为MapReduce执行计划,由Hadoop来执行该MapReduce执行计划在数据库集群的各个分区表中查询数据;解决了目前多张关联的分区表无法支持一些关系型查询和统计功能的问题;达到了借助Hive和Hadoop的分布式并行计算特性,来实现对数据库集群中多张关联的分区表的关系型查询和统计功能的效果。
本实施例提供的数据查询系统,还通过Hive中的Hive表来与数据库集群中的多张分区表进行关联,借助HQL查询语句来实现多张分区表的结构化查询,区解决了目前多张关联的分区表无法支持一些关系型查询和统计功能的问题。同时,还通过实现数据库集群(如MySQL)中的分区表至Hadoop中的输入分片的映射,使得Hadoop的MapReduce能够运行在数据库集群上查询,借助MapReduce的并行计算特性,实现了数据库集群的并行查询能力。
需要说明的是:上述实施例提供的数据查询系统在查询数据时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据查询系统与数据查询方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种数据查询方法,其特征在于,用于与数据库集群相连的并行数据仓库工具Hive中,所述方法包括:
获取针对所述数据库集群的HQL查询语句,所述HQL查询语句中指定的Hive表对应于所述数据库集群中关联的至少两张分区表;
根据所述HQL查询语句生成MapReduce执行计划;
将所述MapReduce执行计划发送给并行计算架构Hadoop;
接收所述Hadoop反馈的查询结果,所述查询结果是所述Hadoop根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务后,通过Reduce化简任务汇总每个Mapper映射任务的查询结果得到的。
2.根据权利要求1所述的方法,其特征在于,所述根据所述HQL查询语句生成MapReduce执行计划,包括:
获取所述HQL查询语句所指定的Hive表在所述数据库集群对应的分区描述信息;
根据所述HQL查询语句、所述Hive表和所述Hive表的分区描述信息生成所述MapReduce执行计划。
3.根据权利要求2所述的方法,其特征在于,所述获取所述HQL查询语句所指定的Hive表在所述数据库集群对应的分区描述信息,包括:
预先存储所述数据库集群的连接信息;根据所述连接信息从所述数据库集群获取所述分区描述信息;
或,
获取预先存储的所述分区描述信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述HQL查询语句、所述Hive表和所述Hive表的分区描述信息生成所述MapReduce执行计划,包括:
根据所述HQL查询语句确定所述数据库集群中每个分区表所对应的查询条件;
根据所述Hive表生成所述数据库集群在所述Hadoop中的输入格式;
将所述查询条件、所述分区描述信息和所述数据库集群在所述Hadoop中的输入格式生成为所述MapReduce执行计划的内容。
5.一种数据查询方法,其特征在于,用于与数据库集群相连的并行计算架构Hadoop中,所述方法包括:
获取MapReduce执行计划,所述MapReduce执行计划是并行数据仓库工具Hive根据针对所述数据库集群的HQL查询语句生成的,所述HQL查询语句指定的Hive表对应于所述数据库集群中关联的至少两张分区表;
根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务进行查询;
通过Reduce化简任务汇总每个Mapper映射任务的查询结果;
向所述Hive反馈汇总后的查询结果。
6.根据权利要求5所述的方法,其特征在于,所述根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务,包括:
根据所述分区描述信息和所述数据库集群在所述Hadoop中的输入格式将所述数据库集群的各个分区表转换为各自对应的输入分片;
对于每个所述输入分片,启动相应的所述Mapper映射任务执行相应分区表的查询。
7.根据权利要求6所述的方法,其特征在于,所述对于每个所述输入分片,启动相应的所述Mapper映射任务执行相应分区表的查询,包括:
对于每个所述映射任务,根据所述Mapper映射任务所对应的分区表所对应的查询条件生成分区查询语句;
通过所述分区查询语句在所述分区表对应的输入分片中读取数据作为查询结果。
8.一种数据查询装置,其特征在于,用于与数据库集群相连的并行数据仓库工具Hive中,所述装置包括:
语句接收模块,用于获取针对所述数据库集群的HQL查询语句,所述HQL查询语句中指定的Hive表对应于所述数据库集群中关联的至少两张分区表;
计划生成模块,用于根据所述HQL查询语句生成MapReduce执行计划;
计划发送模块,用于将所述MapReduce执行计划发送给并行计算架构Hadoop;
结果接收模块,用于接收所述Hadoop反馈的查询结果,所述查询结果是所述Hadoop根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务后,通过Reduce化简任务汇总每个Mapper映射任务的查询结果得到的。
9.根据权利要求8所述的装置,其特征在于,所述计划生成模块,包括:信息获取单元和计划生成单元;
所述信息获取单元,用于获取所述HQL查询语句所指定的Hive表在所述数据库集群对应的分区描述信息;
所述计划生成单元,用于根据所述HQL查询语句、所述Hive表和所述Hive表的分区描述信息生成所述MapReduce执行计划。
10.根据权利要求9所述的装置,其特征在于,所述信息获取单元,包括:
连接存储子单元,用于预先存储所述数据库集群的连接信息;第一获取子单元,用于根据所述连接信息从所述数据库集群获取所述分区描述信息;
或,
第二获取子单元,用于获取预先存储的所述分区描述信息。
11.根据权利要求9所述的装置,其特征在于,所述计划生成单元,包括:
条件生成子单元、格式生成子单元和计划生成子单元;
所述条件生成子单元,用于根据所述HQL查询语句确定所述数据库集群中每个分区表所对应的查询条件;
所述格式生成子单元,用于根据所述Hive表生成所述数据库集群在所述Hadoop中的输入格式;
所述计划生成子单元,用于将所述查询条件、所述分区描述信息和所述数据库集群在所述Hadoop中的输入格式生成为所述MapReduce执行计划的内容。
12.一种数据查询装置,其特征在于,用于与数据库集群相连的并行计算架构Hadoop中,所述装置包括:
计划获取模块,用于获取MapReduce执行计划,所述MapReduce执行计划是并行数据仓库工具Hive根据针对所述数据库集群的HQL查询语句生成的,所述HQL查询语句指定的Hive表对应于所述数据库集群中关联的至少两张分区表;
分区查询模块,用于根据所述MapReduce执行计划为所述数据库集群中的每个分区表启动一个Mapper映射任务进行查询;
结果汇总模块,用于通过Reduce化简任务汇总每个Mapper映射任务的查询结果;
结果反馈模块,用于向所述Hive反馈汇总后的查询结果。
13.根据权利要求12所述的装置,其特征在于,所述分区查询模块,包括:
分片生成单元和分区查询单元;
所述分片生成单元,用于根据所述分区描述信息和所述数据库集群在所述Hadoop中的输入格式将所述数据库集群的各个分区表转换为各自对应的输入分片;
所述分区查询单元,用于对于每个所述输入分片,启动相应的所述Mapper映射任务执行相应分区表的查询。
14.根据权利要求13所述的装置,其特征在于,所述分区查询单元,包括:
语句生成子单元和分片查询子单元;
所述语句生成子单元,用于对于每个所述映射任务,根据所述Mapper映射任务所对应的分区表所对应的查询条件生成分区查询语句;
所述分片查询子单元,用于通过所述分区查询语句在所述分区表对应的输入分片中读取数据作为查询结果。
15.一种数据查询系统,其特征在于,所述系统包括数据库集群、与所述数据库集群相连的并行数据仓库工具Hive,以及与所述数据库集群和所述Hive分别相连的并行计算架构Hadoop;
所述数据库集群,存储有关联的至少两个分区表;
所述Hive,包括如权利要求8至11任一所述的数据查询装置;
所述Hadoop,包括如权利要求12至14任一所述的数据查询装置。
CN201410108733.7A 2014-03-21 2014-03-21 数据查询方法、装置及系统 Active CN103927331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410108733.7A CN103927331B (zh) 2014-03-21 2014-03-21 数据查询方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410108733.7A CN103927331B (zh) 2014-03-21 2014-03-21 数据查询方法、装置及系统

Publications (2)

Publication Number Publication Date
CN103927331A true CN103927331A (zh) 2014-07-16
CN103927331B CN103927331B (zh) 2017-03-22

Family

ID=51145552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410108733.7A Active CN103927331B (zh) 2014-03-21 2014-03-21 数据查询方法、装置及系统

Country Status (1)

Country Link
CN (1) CN103927331B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239532A (zh) * 2014-09-19 2014-12-24 浪潮(北京)电子信息产业有限公司 Hive中自制用户提取信息工具的方法和装置
CN105550351A (zh) * 2015-12-28 2016-05-04 中国民航信息网络股份有限公司 旅客行程数据即席查询系统及方法
CN105975617A (zh) * 2016-05-20 2016-09-28 北京京东尚科信息技术有限公司 一种多分区表查询处理的方法和装置
WO2016165525A1 (zh) * 2015-04-16 2016-10-20 华为技术有限公司 在跨分区数据库中查询数据的方法及跨分区查询装置
CN108287868A (zh) * 2017-12-19 2018-07-17 北京国电通网络技术有限公司 一种数据库查询、数据块划分方法和装置
CN108984549A (zh) * 2017-05-31 2018-12-11 北京京东尚科信息技术有限公司 一种基于动态配置数据库的分库分表数据抽取方法和装置
CN109271409A (zh) * 2018-11-08 2019-01-25 成都索贝数码科技股份有限公司 一种基于容器资源分配的数据库分片执行方法
CN110100241A (zh) * 2016-12-16 2019-08-06 华为技术有限公司 一种用于编译串行和并行数据库查询执行计划的数据库系统和方法
CN110515969A (zh) * 2019-07-08 2019-11-29 中国平安人寿保险股份有限公司 数据查询处理方法、电子装置、计算机设备及存储介质
CN111221851A (zh) * 2018-11-27 2020-06-02 北京京东尚科信息技术有限公司 一种基于Lucene的海量数据查询、存储的方法和装置
CN112233727A (zh) * 2020-10-29 2021-01-15 北京诺禾致源科技股份有限公司 数据分区存储方法及装置
CN112307008A (zh) * 2020-12-14 2021-02-02 湖南蚁坊软件股份有限公司 一种Druid压实方法
CN112580319A (zh) * 2020-12-14 2021-03-30 京东数字科技控股股份有限公司 数据处理的方法、装置、设备及计算机可读存储介质
CN113641703A (zh) * 2021-08-11 2021-11-12 合众人寿保险股份有限公司 客户数据的查询方法及装置、电子设备、存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521405B (zh) * 2011-12-26 2014-06-25 中国科学院计算技术研究所 支持高速加载的海量结构化数据存储、查询方法和系统
CN103207919A (zh) * 2013-04-26 2013-07-17 北京亿赞普网络技术有限公司 一种MongoDB集群快速查询计算的方法及装置
CN103336790B (zh) * 2013-06-06 2015-02-25 湖州师范学院 基于Hadoop的邻域粗糙集快速属性约简方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王俊生: "基于Hadoop的分布式搜索引擎关键技术", 《北京信息科技大学学报》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239532A (zh) * 2014-09-19 2014-12-24 浪潮(北京)电子信息产业有限公司 Hive中自制用户提取信息工具的方法和装置
WO2016165525A1 (zh) * 2015-04-16 2016-10-20 华为技术有限公司 在跨分区数据库中查询数据的方法及跨分区查询装置
CN106156168A (zh) * 2015-04-16 2016-11-23 华为技术有限公司 在跨分区数据库中查询数据的方法及跨分区查询装置
CN106156168B (zh) * 2015-04-16 2019-10-22 华为技术有限公司 在跨分区数据库中查询数据的方法及跨分区查询装置
CN105550351A (zh) * 2015-12-28 2016-05-04 中国民航信息网络股份有限公司 旅客行程数据即席查询系统及方法
CN105550351B (zh) * 2015-12-28 2019-05-14 中国民航信息网络股份有限公司 旅客行程数据即席查询系统及方法
CN105975617A (zh) * 2016-05-20 2016-09-28 北京京东尚科信息技术有限公司 一种多分区表查询处理的方法和装置
CN110100241A (zh) * 2016-12-16 2019-08-06 华为技术有限公司 一种用于编译串行和并行数据库查询执行计划的数据库系统和方法
CN108984549A (zh) * 2017-05-31 2018-12-11 北京京东尚科信息技术有限公司 一种基于动态配置数据库的分库分表数据抽取方法和装置
CN108287868A (zh) * 2017-12-19 2018-07-17 北京国电通网络技术有限公司 一种数据库查询、数据块划分方法和装置
CN109271409A (zh) * 2018-11-08 2019-01-25 成都索贝数码科技股份有限公司 一种基于容器资源分配的数据库分片执行方法
CN109271409B (zh) * 2018-11-08 2021-11-02 成都索贝数码科技股份有限公司 一种基于容器资源分配的数据库分片执行方法
CN111221851A (zh) * 2018-11-27 2020-06-02 北京京东尚科信息技术有限公司 一种基于Lucene的海量数据查询、存储的方法和装置
CN110515969A (zh) * 2019-07-08 2019-11-29 中国平安人寿保险股份有限公司 数据查询处理方法、电子装置、计算机设备及存储介质
CN112233727A (zh) * 2020-10-29 2021-01-15 北京诺禾致源科技股份有限公司 数据分区存储方法及装置
CN112233727B (zh) * 2020-10-29 2024-01-26 北京诺禾致源科技股份有限公司 数据分区存储方法及装置
CN112307008A (zh) * 2020-12-14 2021-02-02 湖南蚁坊软件股份有限公司 一种Druid压实方法
CN112580319A (zh) * 2020-12-14 2021-03-30 京东数字科技控股股份有限公司 数据处理的方法、装置、设备及计算机可读存储介质
CN112307008B (zh) * 2020-12-14 2023-12-08 湖南蚁坊软件股份有限公司 一种Druid压实方法
CN113641703A (zh) * 2021-08-11 2021-11-12 合众人寿保险股份有限公司 客户数据的查询方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN103927331B (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN103927331A (zh) 数据查询方法、装置及系统
US11354314B2 (en) Method for connecting a relational data store's meta data with hadoop
CN110032604B (zh) 数据存储装置、转译装置及数据库访问方法
US11068439B2 (en) Unsupervised method for enriching RDF data sources from denormalized data
CN102982075B (zh) 支持访问异构数据源的系统和方法
CN101727465B (zh) 分布式列存储数据库索引建立、查询方法及装置与系统
CN104102710A (zh) 一种海量数据查询方法
CN105786808B (zh) 一种用于分布式执行关系型计算指令的方法与设备
CN108536761A (zh) 报表数据查询方法及服务器
CN109902114B (zh) Es集群数据复用方法、系统、计算机装置及存储介质
CN104408159B (zh) 一种数据关联、加载、查询方法及装置
CN105630847A (zh) 数据存储方法、数据查询方法、装置及系统
CN102567495A (zh) 一种海量信息存储系统及实现方法
US9305034B2 (en) Enhanced reporting system
CN103207919A (zh) 一种MongoDB集群快速查询计算的方法及装置
CN111258978A (zh) 一种数据存储的方法
CN111221791A (zh) 一种多源异构数据导入数据湖的方法
CN103823846A (zh) 一种基于图论的大数据存储及查询方法
CN111078702A (zh) 一种sql语句分类管理及统一查询方法和装置
CN111104450B (zh) 目标数据导入方法、介质、装置和计算设备
CN103034650B (zh) 一种数据处理系统和方法
CN104239508A (zh) 数据查询方法和装置
CN105550332A (zh) 一种基于双层索引结构的起源图查询方法
CN112579578A (zh) 基于元数据的数据质量管理方法、装置、系统及服务器
CN108140022A (zh) 数据查询方法和数据库系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 519000 High-tech Zone, Zhuhai City, Guangdong Province, Unit 1, Fourth Floor C, Building A, Headquarters Base No. 1, Qianwan Third Road, Tangjiawan Town

Patentee after: ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd.

Address before: 519080 Zone B, 1st Floor, Convention Center, No. 1, Software Park Road, Tangjiawan Town, Zhuhai, Guangdong

Patentee before: ZHUHAI DUOWAN INFORMATION TECHNOLOGY Ltd.