CN103823881A

CN103823881A - 分布式数据库的性能优化的方法及装置

Info

Publication number: CN103823881A
Application number: CN201410075800.XA
Authority: CN
Inventors: 代彬
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2014-03-04
Filing date: 2014-03-04
Publication date: 2014-05-28
Anticipated expiration: 2034-03-04
Also published as: CN103823881B

Abstract

本发明公开了一种分布式数据库的性能优化的方法及装置。所述方法包括：在分布式数据库运行过程中，采集所述分布式数据库的Hive性能参数，所述Hive性能参数包括逻辑层参数和物理层参数；当所述Hive性能参数中的逻辑层参数不满足第一预设条件时，对所述分布式数据库的逻辑层进行优化处理；当所述Hive性能参数中的物理层参数不满足第二预设条件时，对所述分布式数据库的物理层进行优化处理。本发明能够方便的找到问题的所在，提高了性能优化的效率。

Description

分布式数据库的性能优化的方法及装置

技术领域

本发明实施例涉及数据库管理技术，尤其涉及一种分布式数据库的性能优化的方法及装置。

背景技术

Hive是基于Hadoop分布式平台的一款开源的分布式数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL（Structured QueryLanguage，结构化查询语言）查询功能，使用简单的类SQL查询语言，称为HQL（Hive Query Language），可以将SQL语句转换为MapReduce任务进行运行。由于其具有学习成本低，可以通过HQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析等优点，目前成为互联网或者传统企业的大数据项目的首选工具。

但是，由于该工具应用时间较短，出现问题如性能不佳时，往往很难找到问题的所在，导致维护困难。

发明内容

有鉴于此，本发明实施例提供一种分布式数据库的性能优化的方法及装置，以提高性能优化的效率。

第一方面，本发明实施例提供了一种分布式数据库的性能优化的方法，所述方法包括：

在分布式数据库运行过程中，采集所述分布式数据库的Hive性能参数，所述Hive性能参数包括逻辑层参数和物理层参数；

当所述Hive性能参数中的逻辑层参数不满足第一预设条件时，对所述分布式数据库的逻辑层进行优化处理；

当所述Hive性能参数中的物理层参数不满足第二预设条件时，对所述分布式数据库的物理层进行优化处理。

第二方面，本发明实施例还提供了一种分布式数据库的性能优化的装置，所述装置包括：

性能采集模块，用于在分布式数据库运行过程中，采集所述分布式数据库的Hive性能参数，所述Hive性能参数包括逻辑层参数和物理层参数；

逻辑层优化模块，用于当所述Hive性能参数中的逻辑层参数不满足第一预设条件时，对所述分布式数据库的逻辑层进行优化处理；

物理层优化模块，用于当所述Hive性能参数中的物理层参数不满足第二预设条件时，对所述分布式数据库的物理层进行优化处理。

本发明实施例提供的分布式数据库的性能优化的方法及装置，通过采集分布式数据库的Hive性能参数，根据Hive性能参数分析Hive性能问题是在逻辑层还是在物理层，从而对HQL语句或者分布式数据库进行优化，以提高分布式数据库的整体性能，能够方便的找到问题的所在，提高了性能优化的效率。

附图说明

图1是本发明实施例提供的分布式数据库的性能优化的方法的流程图；

图2是本发明实施例提供的分布式数据库的性能优化的装置的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

图1是本发明实施例提供的分布式数据库的性能优化的方法的流程图，该方法适用于Hive分布式数据库中，可由分布式数据库中的一台计算机执行，也可以由分布式数据库中的每台计算机执行，该方法具体包括如下步骤：

步骤110，在分布式数据库运行过程中，采集所述分布式数据库的Hive性能参数。

其中，所述Hive性能参数包括逻辑层参数和物理层参数，逻辑层参数是针对HQL语句而言的，物理层参数是针对Hive分布式数据库而言的，所述物理层参数包括CPU、网络流量、磁盘IO（对于磁盘来说，一次磁盘的连续读或者连续写称为一次磁盘IO）和磁盘容量，根据所述逻辑层参数和物理层参数确定分布式数据库的Hive性能问题。

步骤120，当所述Hive性能参数中的逻辑层参数不满足第一预设条件时，对所述分布式数据库的逻辑层进行优化处理。

根据采集到的所述Hive性能参数，分析逻辑层参数是否满足第一预设条件，利用采集到的Hive性能参数中的逻辑层参数与第一预设条件中的相应的参数进行对比，如果某一个逻辑层参数与第一预设条件中的相应的参数不匹配，说明该逻辑层参数不合理，该逻辑层参数表征的特征存在Hive性能问题即会导致变慢。这时，需要对所述分布式数据库的逻辑层也即HQL语句进行优化处理，以提高HQL语句的性能，从而提高分布式数据库的整体性能。

示例性的，对所述分布式数据库的逻辑层进行优化处理，包括：

对不满足所述第一预设条件的HQL语句进行语法识别，找出HQL语法低效的HQL语句。分别分析每个HQL语句的逻辑层参数是否满足第一预设条件，对不满足所述第一预设条件的HQL语句进行语法识别，判断该HQL语句的语法是否符合预设的高效语法，如果不符合说明该HQL语句的语法为低效语法。

找出所述分布式数据库运行过程中不满足预设执行计划的HQL语句。在分布式数据库运行过程中，会执行相应的HQL语句，生成HQL执行计划，检验HQL执行计划并与预设执行计划进行对比，找出HQL执行计划中不满足预设执行计划的HQL语句组合。

对找出的HQL语法低效的HQL语句的语法进行改进，并按照预设执行计划对找出的所述HQL语句组合进行调整。对找出的HQL语法低效的HQL语句的语法按照预设的高效语法进行修改，使语法低效的HQL语句转为语法高效的HQL语句。预设执行计划是一个性能高的HQL语句代码组合方式，对不满足预设执行计划的HQL语句组合按照预设执行计划进行调整。

步骤130，当所述Hive性能参数中的物理层参数不满足第二预设条件时，对所述分布式数据库的物理层进行优化处理。

根据采集到的所述Hive性能参数，分析物理层参数是否满足第二预设条件，利用采集到的Hive性能参数中的物理层参数与第二预设条件中的相应的参数进行对比，如果某一个物理层参数与第二预设条件中的相应的参数不匹配，说明该物理层参数不合理，该物理层参数表征的特征存在Hive性能问题。这时，需要对所述分布式数据库的物理层进行优化处理，所述对物理层的优化处理主要是对Hive分布式数据库级的优化处理。

示例性的，对Hive分布式数据库的物理层进行优化处理，包括：

优化所述分布式数据库的存储性能；

优化所述分布式数据库的读取性能；

优化所述分布式数据库的运算性能。

示例性的，优化所述分布式数据库的存储性能包括：

当所述分布式数据库中存储有产生网络流量大于预定值的第一数据文件时，优化所述第一数据文件在所述分布式数据库中的存储位置。当所述分布式数据库中某一个存储位置存储有产生网络流量大于预定值的第一数据文件时，判断该存储位置是否满足预设存储位置，如果不满足，则将所述第一数据文件挪动到预设存储位置上，减少数据文件在传输过程中跨机架、跨交换机带来的网络传输影响。

当所述分布式数据库存储的数据中存在大于第一数据块阈值的第一数据块时，减小所述第一数据块；当所述分布式数据库存储的数据中存在小于第二数据块阈值的第二数据块时，增大所述第二数据块，所述第一数据块阈值大于所述第二数据块阈值。对磁盘数据块大小的优化是以数据块大小为依据，如果数据块大于第一数据块阈值会浪费资源，如果数据块第二数据块阈值会导致整体性不强，从而影响读写的开销，当数据块大于第一数据块阈值或者小于第二数据块阈值时，均需要对数据块大小进行优化。对于大于第一数据块阈值的第一数据块，减小所述第一数据块，使得第一数据块的大小介于所述第一数据块阈值和所述第二数据块阈值之间；对于小于第二数据块阈值的第二数据块，增大所述第二数据块，使得第二数据块的大小介于所述第一数据块阈值和所述第二数据块阈值之间。从而增加目标数据在磁盘中的整体性，减少磁盘的分散读取，减少磁盘读写时间。

当所述分布式数据库存储有存储格式不满足预设存储格式的第二数据文件时，优化所述第二数据文件的存储格式。如果所述分布式数据库存储有存储格式不满足预设存储格式的第二数据文件，也会产生性能问题，导致磁盘IO次数大，这就需要优化所述磁盘数据文件的存储格式，以减少磁盘IO次数，如选择列存储可以减少全表扫描，减少磁盘读写。

示例性的，优化所述分布式数据库的读取性能包括：优化所述分布式数据库中本地节点的数据的预处理。

例如，对于较简单的运算（如累计等），可以在本地节点进行数据读取时得到运算结果（对于累计运算得到汇总值），多个节点可以并行进行本地处理，避免了将所有数据都传到一个节点进行运算造成处理量大的问题，减少了网络传输，并减少后续CPU运算量。

示例性的，优化所述分布式数据库的运算性能包括：

将所述分布式数据库中数据量小的表保存到所述分布式数据库中参与运算的节点的内存，将所述分布式数据库中数据量大的表保存到在所述分布式数据库中的本地节点的内存。这样做的目的是使数据量小的表在参与运算的节点进行相应的运算，而让数据量大的表尽可能在本地节点进行运算，减少磁盘读写和网络传输的消耗，避免网络堵塞。

判断所述分布式数据库中各个节点的运算负荷，将运算负荷大于第一负荷阈值的节点上的数据分配到运算负荷小于第二负荷阈值的节点上，所述第一负荷阈值大于或等于所述第二负荷阈值。首先判断所述分布式数据库中各个节点的运算负荷，找出运算负荷大于第一负荷阈值的节点和运算负荷小于第二负荷阈值的节点，对于运算负荷大于第一负荷阈值的节点上的数据可以通过Hash算法将该节点上的数据分配到运算负荷小于第二负荷阈值的节点上。这样做的目的是均衡各个节点的内存和磁盘IO的负载。

本实施例通过首先采集分布式数据库的Hive性能参数，根据Hive性能参数分析Hive性能问题是在逻辑层还是在物理层，从而对HQL语句或者分布式数据库进行优化，以提高分布式数据库的整体性能，能够方便的找到问题的所在，提高了性能优化的效率。

图2是本发明实施例提供的分布式数据库的性能优化的装置的示意图。本发明实施例提供的分布式数据库的性能优化的装置用于实现本发明实施例提供的分布式数据库的性能优化的方法。如图2所示，本发明实施例所述的分布式数据库的性能优化的装置包括：采集模块210、逻辑层优化模块220和物理层优化模块230。

其中，采集模块210用于在分布式数据库运行过程中，采集所述分布式数据库的Hive性能参数，所述Hive性能参数包括逻辑层参数和物理层参数。

逻辑层优化模块220用于当所述Hive性能参数中的逻辑层参数不满足第一预设条件时，对所述分布式数据库的逻辑层进行优化处理。

示例性的，逻辑层优化模块220包括：

HQL语法查找子模块，用于对不满足所述第一预设条件的HQL语句进行语法识别，找出HQL语法低效的HQL语句；

HQL语句组合查找子模块，用于找出所述分布式数据库运行过程中不满足预设执行计划的HQL语句组合；

改进子模块，用于对找出的HQL语法低效的HQL语句的语法进行改进，并按照所述预设执行计划对找出的所述HQL语句组合进行调整。

物理层优化模块230用于当所述Hive性能参数中的物理层参数不满足第二预设条件时，对所述分布式数据库的物理层进行优化处理。

示例性的，物理层优化模块230包括：

存储性能优化子模块，用于优化所述分布式数据库的存储性能；

读取性能优化子模块，用于优化所述分布式数据库的读取性能；

运算性能优化子模块，用于优化所述分布式数据库的运算性能。

示例性的，存储性能优化子模块包括：

存储位置优化单元，用于当所述分布式数据库中存储有产生网络流量大于预定值的第一数据文件时，优化所述第一数据文件在所述分布式数据库中的存储位置；

数据库优化单元，用于当所述分布式数据库存储的数据中存在大于第一数据块阈值的第一数据块时，减小所述第一数据块；当所述分布式数据库存储的数据中存在小于第二数据块阈值的第二数据块时，增大所述第二数据块，所述第一数据块阈值大于所述第二数据块阈值；

存储格式优化单元，用于当所述分布式数据库存储有存储格式不满足预设存储格式的第二数据文件时，优化所述第二数据文件的存储格式。

示例性的，读取性能优化子模块包括：

数据预处理优化单元，用于优化所述分布式数据库中本地节点的数据的预处理。

示例性的，运算性能优化子模块包括：

节点内存优化单元，用于将所述分布式数据库中数据量小的表保存到所述分布式数据库中参与运算的节点的内存，将所述分布式数据库中数据量大的表保存到在所述分布式数据库中的本地节点的内存；

节点负荷优化单元，用于判断所述分布式数据库中各个节点的运算负荷，将运算负荷大于第一负荷阈值的节点上的数据，分配到运算负荷小于第二负荷阈值的节点上，所述第一负荷阈值大于或等于所述第二负荷阈值。

本实施例通过采集模块采集分布式数据库的Hive性能参数，当所述Hive性能参数中的逻辑层参数不满足第一预设条件时，逻辑层优化模块对所述分布式数据库的逻辑层进行优化处理，当所述Hive性能参数中的物理层参数不满足第二预设条件时，物理层优化模块对所述分布式数据库的物理层进行优化处理，能够方便的找到问题的所在，提高了性能优化的效率。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种分布式数据库的性能优化的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述分布式数据库的逻辑层进行优化处理，包括：

对不满足所述第一预设条件的HQL语句进行语法识别，找出HQL语法低效的HQL语句；

找出所述分布式数据库运行过程中不满足预设执行计划的HQL语句组合；

对找出的HQL语法低效的HQL语句的语法进行改进，并按照所述预设执行计划对找出的所述HQL语句组合进行调整。

3.根据权利要求1或2所述的方法，其特征在于，对所述分布式数据库的物理层进行优化处理，包括：

优化所述分布式数据库的存储性能；

优化所述分布式数据库的读取性能；

优化所述分布式数据库的运算性能。

4.根据权利要求3所述的方法，其特征在于，优化所述分布式数据库的存储性能，包括：

当所述分布式数据库中存储有产生网络流量大于预定值的第一数据文件时，优化所述第一数据文件在所述分布式数据库中的存储位置；

当所述分布式数据库存储的数据中存在大于第一数据块阈值的第一数据块时，减小所述第一数据块；当所述分布式数据库存储的数据中存在小于第二数据块阈值的第二数据块时，增大所述第二数据块，所述第一数据块阈值大于所述第二数据块阈值；

当所述分布式数据库存储有存储格式不满足预设存储格式的第二数据文件时，优化所述第二数据文件的存储格式。

5.根据权利要求3所述的方法，其特征在于，优化所述分布式数据库的读取性能，包括：

优化所述分布式数据库中本地节点的数据的预处理。

6.根据权利要求3所述的方法，其特征在于，优化所述分布式数据库的运算性能，包括：

将所述分布式数据库中数据量小的表保存到所述分布式数据库中参与运算的节点的内存，将所述分布式数据库中数据量大的表保存到在所述分布式数据库中的本地节点的内存；

判断所述分布式数据库中各个节点的运算负荷，将运算负荷大于第一负荷阈值的节点上的数据，分配到运算负荷小于第二负荷阈值的节点上，所述第一负荷阈值大于或等于所述第二负荷阈值。

7.一种分布式数据库的性能优化的装置，其特征在于，所述装置包括：

采集模块，用于在分布式数据库运行过程中，采集所述分布式数据库的Hive性能参数，所述Hive性能参数包括逻辑层参数和物理层参数；

8.根据权利要求7所述的装置，其特征在于，逻辑层优化模块包括：

9.根据权利要求7或8所述的装置，其特征在于，物理层优化模块包括：

10.根据权利要求9所述的装置，其特征在于，存储性能优化子模块包括：

11.根据权利要求9所述的装置，其特征在于，读取性能优化子模块包括：

12.根据权利要求9所述的装置，其特征在于，运算性能优化子模块包括：