CN111984685A

CN111984685A - 数据倾斜检测方法、装置、计算机设备及可读存储介质

Info

Publication number: CN111984685A
Application number: CN202010911493.XA
Authority: CN
Inventors: 吴名先; 郑丕伟
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2020-11-24

Abstract

本申请实施例提供了一种数据倾斜检测方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于数据处理技术领域，通过获取查询任务，对所述查询任务进行读取操作，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数，分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜所对应的数据倾斜值，判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值，若所述数据倾斜值大于或者等于所述预设数据倾斜阈值，判定存在数据倾斜，由于对数据查询中的时间维度和数据量维度两个方面对数据倾斜进行统计，与预设的数据倾斜阈值做比较，得出最终的数据倾斜结果，降低了数据倾斜评估的复杂性，提高了对数据倾斜检测的效率和准确度。

Description

数据倾斜检测方法、装置、计算机设备及可读存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据倾斜检测方法、装置、计算机设备及计算机可读存储介质。

背景技术

数据倾斜指在计算数据的时候，数据的分散度不够，导致大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢，因此，首先需要识别是否存在数据倾斜，若存在数据倾斜，研发人员会采取措施解决数据倾斜的问题。例如，在大数据项目中经常会用到Impala做快速查询操作，Impala是一种新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。但是在实际的场景中很难知道Impala是否已经是最优的查询性能，尤其是针对数据倾斜这种情况，主要包括由于以下原因：

1).在普通测试中只会测试到Impala接口的查询时间，不会再往里深追。

2).数据倾斜发生在比较底层，追根溯源比较难。

3).数据倾斜的查找需要一定的计算和比较，不能很直观的发现。

4).数据倾斜的计算方式过于僵化，不能很好的适应即时的生产或测试场景。

因此，传统技术中，由于存在对数据倾斜检测不准确的问题，导致对于研发人员或者维护人员而言，很难判断是否由于数据倾斜去确定Impala是否已经是最优的查询性能。

发明内容

本申请实施例提供了一种数据倾斜检测方法、装置、计算机设备及计算机可读存储介质，能够解决传统技术中对数据倾斜检测不准确的问题。

第一方面，本申请实施例提供了一种数据倾斜检测方法，所述方法包括：获取查询任务；对所述查询任务进行读取操作，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数；分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜所对应的数据倾斜值；判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值；若所述数据倾斜值大于或者等于所述预设数据倾斜阈值，判定存在数据倾斜。

第二方面，本申请实施例还提供了一种数据倾斜检测装置，包括：获取单元，用于获取查询任务；读取单元，用于对所述查询任务进行读取操作，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数；分析单元，用于分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜所对应的数据倾斜值；判断单元，用于判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值；判定单元，用于若所述数据倾斜值大于或者等于所述预设数据倾斜阈值，判定存在数据倾斜。

第三方面，本申请实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现所述数据倾斜检测方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行所述数据倾斜检测方法的步骤。

本申请实施例提供了一种数据倾斜检测方法、装置、计算机设备及计算机可读存储介质。在本申请实施例中，通过获取查询任务，对所述查询任务进行读取操作，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数，分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜所对应的数据倾斜值，判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值，若所述数据倾斜值大于或者等于所述预设数据倾斜阈值，判定存在数据倾斜，由于对数据查询中的时间维度和数据量维度两个方面对数据倾斜进行统计，然后与预设的数据倾斜阈值做比较，得出最终的数据倾斜结果，降低了数据倾斜的复杂性评估的复杂性，提高了对数据倾斜检测的效率和准确度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的数据倾斜检测方法的一个流程示意图；

图2为本申请实施例提供的数据倾斜检测方法的一个子流程示意图；

图3为本申请实施例提供的数据倾斜检测方法中一个底层数据追踪示例示意图；

图4为本申请实施例提供的数据倾斜检测装置的一个示意性框图；以及

图5为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

请参阅图1，图1为本申请实施例提供的数据倾斜检测方法的一个流程示意图。如图1所示，该方法包括以下步骤S101-S105：

S101、获取查询任务。

具体地，由于Impala查询出现数据倾斜发生在查询执行逻辑的底层，所以想要精准地找出该数据倾斜的问题就必须从Impala的查询语句入手，按照Impala的内部执行逻辑，深入到读取数据的底层，因此，可以通过接收查询数据所对应的基于Impala单条查询所对应的SQL语句，根据所述SQL语句获得所述查询数据所对应的查询任务，从而深入到Impala读取数据的底层。

S102、对所述查询任务进行读取操作，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数。

具体地，获取到基于Impala单条查询所对应的SQL语句后，对所述SQL语句所对应的查询任务进行读取操作，在进行读取操作的过程中，会产生读取数据所采用的运行时间等所对应的时间维度参数，及读取数据的数据量等所对应的数据量维度参数，从而得到处理所述查询任务所对应的时间维度参数和数据量维度参数。

S103、分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜所对应的数据倾斜值。

具体地，分别从读取数据所采用的运行时间及所读取的数据量两个维度进行分析，从而得到数据倾斜所对应的数据倾斜值。

S104、判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值；

S105、若所述数据倾斜值大于或者等于所述预设数据倾斜阈值，判定存在数据倾斜。

S106、若所述数据倾斜值小于所述预设数据倾斜阈值，判定不存在数据倾斜。

具体地，预先设置数据倾斜阈值，判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值，若所述数据倾斜值大于或者等于所述预设数据倾斜阈值，表明读取数据的时间过长或者读取的数据量过大，从而判定存在数据倾斜，若所述数据倾斜值小于所述预设数据倾斜阈值，表明读取数据的时间或者读取的数据量在预期内，从而判定不存在数据倾斜，从而可以实现在测试人员不清楚Impala内部逻辑的情况下，也可以一键追踪到Impala查询的数据倾斜问题，以供开发及时查找原因。

在本申请实施例中，通过获取查询任务，对所述查询任务进行读取操作，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数，分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜所对应的数据倾斜值，判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值，若所述数据倾斜值大于或者等于所述预设数据倾斜阈值，判定存在数据倾斜，由于对数据查询中的时间维度和数据量维度两个方面对数据倾斜进行统计，然后与预设的数据倾斜阈值做比较，得出最终的数据倾斜结果，降低了数据倾斜的复杂性评估的复杂性，提高了对数据倾斜检测的效率和准确度，同时，在从时间维度和数据量维度两个维度作为评估标准，同时引入第三方预设数据倾斜阈值，可以根据实际的生产和测试环境的实际情况及时调整，从而避免数据倾斜评估过度或者数据倾斜评估不足，实现对数据倾斜的准确识别与评估。

请参阅图2图2为本申请实施例提供的数据倾斜检测方法的一个子流程示意图。如图2所示，在该实施例中，所述查询任务所对应的数据查询基于分布式应用环境，所述分布式应用环境包含多个查询节点；

所述对所述查询任务进行读取操作，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数的步骤包括：

S201、获取查询任务与查询节点所对应的预设匹配关系；

S202、根据所述预设匹配关系，将所述查询任务转化为预设单节点所对应的单节点执行计划；

S203、将所述单节点执行计划按照预设切分方式进行切分，以得到若干个执行子计划；

S204、对所述执行子计划所对应的查询子任务进行读取操作，以得到处理所述执行子计划所对应的时间维度参数和数据量维度参数；

S205、将所有所述执行子计划所对应的时间维度参数和数据量维度参数进行集合，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数。

具体地，由于Impala是一种MPP查询引擎，MPP是Massively parallelprocessing(即大量并行处理)，所述查询任务所对应的数据查询基于分布式应用环境，所述分布式应用环境包含多个查询节点，每个查询节点查询对应类型的预设查询任务，因此，预先需要将查询任务与查询节点所对应的预设匹配关系进行设置，即设置哪个查询节点进行哪部分查询任务。然后每个SQL所对应的查询任务会同时在多个工作节点上执行，这些工作节点做每个SQL所对应的查询任务的一部分，然后通过网络传递到下一个子任务，中间结果并不会落地。因此，单节点接到该节点所对应的查询任务后，该查询节点会将该查询节点所对应的查询任务根据数据库存储数据类型所对应的预先设置再进一步切分以使该查询节点所对应的查询任务进一步地切分成不同的子查询任务，然后执行子任务，比如，A数据到数据库1中进行查询，B数据到数据库2中进行查询等，不同的子查询任务进一步并行处理，从而将每个SQL所对应的查询任务拆分成分布式的执行计划。请参阅图3，图3为本申请实施例提供的数据倾斜检测方法中一个底层数据追踪示例示意图。如图3所示为一条Impala查询语句的底层数据追踪图所对应的实施例，基于Iimpala分布式的计算框架，一条Impala查询语句会被转化为单节点执行计划(也可以称为子查询任务或者子任务)，单节点执行计划会拆分成分布式的执行计划(即Distributed plan)，分布式执行计划又可以由多个Plan Fragment(即计划碎片去执行)组成，亦即每个执行计划对应若干个Plan Fragment，从而将单节点执行计划进一步拆成多节点，执行由多个节点执行多个实例(图3中实例与扫描节点所对应)所对应的子查询任务，进而实现数据统计，以完成Iimpala分布式的计算框架的数据查询。

尤其面对大数据项目中，分布式的计算框架中会包含多个节点，每个节点处理不同的查询数据任务。因此，计算机设备接收到一条Impala查询语句输入之后，会首先把SQL转化成单节点的执行计划(Single node plan)，从而进行SQL转化执行计划，具体阶段拆分步骤如图3所示，图3中的将Impala查询语句转化为单节点执行计划，即确定该查询语句所对应的查询任务由分布式框架中的哪个预设节点来对应处理该查询任务。

接收基于Impala的单条查询SQL语句，并将该SQL语句对应的查询任务转化为单节点执行计划，以根据预先设置的节点与查询任务的对应关系来确定处理该查询任务的查询节点。该查询节点将该查询任务进行切分以使该查询任务切分成不同的子任务(即分布式执行计划)，从而将该查询任务拆分成分布式的执行计划。其中，执行计划就是数据库运行SQL的步骤。

将该查询任务拆分成分布式的执行计划，每个执行计划会进行数据查询所对应的读取操作，并在查询过程中产生时间维度参数和数据量维度参数，例如，如图3所示，根据查询动作，从Fragment中解析出Instance(即实例，数据库是一组文件，实例就充当了操作系统与数据库沟通交流的这个角色)，一个Plan Fragment会有一个或多个Instance，运行在不同Impala上，从而获取Scannode的数据读取参数。其中，在Instance中Scan node(scan节点)会负责处理具体的数据读取。其中，Scan(Single Client Access Name)的思想主要是在客户端和服务器端添加一个虚拟的服务层，从Fragment中获取scan node的数据读取参数，包括时间维度参数和数据量维度参数。其中，时间维度参数包括最短运行时间及最长运行时间等，数据量维度参数包括最小数据传输量及最大数据传输量等，从而实现在获取查询任务与查询节点所对应的预设匹配关系，根据所述预设匹配关系，将所述查询任务转化为预设单节点所对应的单节点执行计划，将所述单节点执行计划按照预设切分方式进行切分，以得到若干个执行子计划，对所述执行子计划所对应的查询子任务进行读取操作，以得到处理所述执行子计划所对应的时间维度参数和数据量维度参数，将所有所述执行子计划所对应的时间维度参数和数据量维度参数进行集合，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数。

在一个实施例中，所述分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜值的步骤包括：

根据所述查询任务所对应的时间维度参数计算所述查询任务所对应的时间倾斜因子；

根据所述查询任务所对应的数据量维度参数计算所述查询任务所对应的数据量倾斜因子。

具体地，根据时间维度参数和数据量维度参数，计算时间倾斜因子和数据量倾斜因子。如图3所示，在Impala计算框架中，可以通过分析各个Scan node的数据读取情况，以得到时间倾斜因子和数据量倾斜因子，首先对涉及时间维度和数据量维度两个方面的数据进行统计，然后将将时间维度和数据量维度的数据抽离成时间因子和数据量因子。

进一步地，在一个实施例中，所述根据所述查询任务所对应的时间维度参数计算所述查询任务所对应的时间倾斜因子的步骤包括：

获取所有所述执行子计划各自所对应的运行时间；

计算所述所有运行时间的平均值以得到平均运行时间；

从所述所有运行时间中筛选出最短运行时间及最长运行时间；

统计所有所述执行子计划各自所对应的节点以得到节点总数量；

根据所有所述运行时间、最短运行时间及最长运行时间及所述节点总数量，计算得到最大倾斜时间；

根据所有所述运行时间、所述平均运行时间及所述节点总数量，计算得到平均倾斜时间；

计算所述最大倾斜时间与所述平均倾斜时间的差值以得到时间倾斜因子。

具体地，各个节点读取数据会产生读取数据的运行时间，即n个节点各自所对应的运行时间T_n，然后根据所述T_n，获取所述查询任务所对应的时间维度参数，即获取所有所述执行子计划各自所对应的运行时间T_n，计算所述所有运行时间的平均值以得到平均运行时间T_avg；从所述所有运行时间中筛选出最短运行时间T_min及最长运行时间T_max；统计所有所述执行子计划各自所对应的节点以得到节点总数量；根据所有所述运行时间、最短运行时间及最长运行时间及所述节点总数量n，计算得到最大倾斜时间D_max；根据所有所述运行时间、所述平均运行时间及所述节点总数量，计算得到平均倾斜时间D_avg；计算所述最大倾斜时间与所述平均倾斜时间的差值以得到时间倾斜因子D。

其中，计算时间倾斜因子的方式如下：

n个节点的时间因子如下：

例如，假如有4个节点，计算如下：

D＝Dmax-Davg 公式(4)

其中，T_n：第n个节点的运行时间，T_min：最短运行时间，T_max：最长运行时间，T_avg：平均运行时间，n：节点总数，D：＝时间倾斜因子。

进一步地，在一个实施例中，所述根据所述查询任务所对应的数据量维度参数计算所述查询任务所对应的数据量倾斜因子的步骤包括：

获取所有所述执行子计划各自所对应的数据传输量；

计算所有所述数据传输量的平均值以得到平均数据传输量；

从所有所述数据传输量中筛选出最大数据传输量及最小数据传输量；

根据所有所述数据传输量、所述最大数据传输量、所述最小数据传输量及所述节点总数量，计算得到最大数据倾斜传输量；

根据所有所述数据传输量、所述平均数据传输量及所述节点总数量，计算得到平均数据倾斜传输量；

计算所述最大数据倾斜传输量与所述平均数据倾斜传输量的差值以得到数据量倾斜因子。

具体地，各个节点读取数据会产生读取的数据量，即n个节点各自所对应的传输数据量Q_n，然后根据所述Q_n，获取到数据量所对应的数据量维度参数，即获取所有所述执行子计划各自所对应的数据传输量Q_n；计算所有所述数据传输量的平均值以得到平均数据传输量Q_avg；从所有所述数据传输量中筛选出最大数据传输量及最小数据传输量；统计所有所述执行子计划各自所对应的节点以得到节点总数量n；根据所有所述数据传输量、所述最大数据传输量、所述最小数据传输量及所述节点总数量，计算得到最大数据倾斜传输量S_max；根据所有所述数据传输量、所述平均数据传输量及所述节点总数量，计算得到平均数据倾斜传输量S_avg；计算所述最大数据倾斜传输量与所述平均数据倾斜传输量的差值以得到数据量倾斜因子S。计算数据量倾斜因子的方式如下：

n个节点的数据量因子如下：

例如，假如有4个节点，计算逻辑如下：

S＝Smax-Savg 公式(8)

其中，Q_n：第n个节点传输数据量，Q_min：最小数据传输量，Q_max：最大数据传输量，Q_avg：平均数据传输量，n：节点总数，S：数据量倾斜因子。

本申请实施例实现基于Impala单条语句进行数据倾斜检测时，通过接收基于Impala的单条查询SQL语句，并将该SQL语句对应的查询任务转化为单节点执行计划，以根据预先设置的节点与查询任务的对应关系来确定处理该查询任务的查询节点，该查询节点将该查询任务进行切分以使该查询任务切分成不同的子任务，从而将该查询任务拆分成分布式的执行计划，从Fragment中获取scannode的数据读取参数，包括时间维度参数和数据量维度参数，根据计算时间维度参数和数据量维度参数，计算时间倾斜因子和数据量倾斜因子，基于时间倾斜因子、数据量倾斜因子及预设的数据倾斜阈值，判断数据倾斜状况，以得到数据倾斜结果，通过对数据查询中的时间维度和数据量维度两个方面的数据进行统计，将时间维度和数据量维度的数据抽离成时间因子和数据量因子，和输入的数据倾斜阈值做比较，得出最终的数据倾斜结果，降低了数据倾斜的复杂性评估的复杂性，从两个维度抽取出两个倾斜因子来作为评估标准，同时引入第三方阈值，可以根据实际的生产和测试环境的实际情况及时调整，可以避免数据倾斜评估过度或者数据倾斜评估不足。

在一个实施例中，所述判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值的步骤包括：

判断所述时间倾斜因子是否大于或者等于预设时间倾斜阈值；

若所述时间倾斜因子大于或者等于所述预设时间倾斜阈值，判定所述数据倾斜值大于或者等于所述预设数据倾斜阈值；

判断所述数据量倾斜因子是否大于或者等于预设数据量倾斜阈值；

若所述数据量倾斜因子大于或者等于所述预设数据量倾斜阈值，判定所述数据倾斜值大于或者等于所述数据倾斜阈值。

具体地，计算出时间倾斜因子和数据量倾斜因子后，基于时间倾斜因子与数据量倾斜因子，及预设时间倾斜阈值与预设数据量倾斜阈值，将时间倾斜因子、数据量倾斜因子与预先设置的数据倾斜阈值所包括的预设时间倾斜阈值预设数据量倾斜阈值做比较，若所述时间倾斜因子大于或者等于所述预设时间倾斜阈值，或者若所述数据量倾斜因子大于或者等于所述预设数据量倾斜阈值，判定所述数据倾斜值大于或者等于所述预设数据倾斜阈值，进而判定存在数据倾斜，若所述时间倾斜因子小于所述预设时间倾斜阈值，并且若所述数据量倾斜因子小于所述预设数据量倾斜阈值，判定所述数据倾斜值小于所述预设数据倾斜阈值，进而判定不存在数据倾斜，从而实现判断数据倾斜状况，以得到数据倾斜检测结果。在本申请实施例中，在实际的测试和生产场景中，由于可以根据实际情况的需要，调整预设时间倾斜阈值及预设数据量倾斜阈值等数据倾斜阈值，以满足不同的具体业务场景的需要，避免对数据倾斜追踪过渡或者遗漏，相对于传统技术中的数据倾斜评估方法，具备对数据倾斜评估的灵活性，从而提高了数据倾斜评估的效率和质量。

需要说明的是，上述各个实施例所述的数据倾斜检测方法，可以根据需要将不同实施例中包含的技术特征重新进行组合，以获取组合后的实施方案，但都在本申请要求的保护范围之内。

请参阅图4，图4为本申请实施例提供的数据倾斜检测装置的一个示意性框图。对应于上述所述数据倾斜检测方法，本申请实施例还提供一种数据倾斜检测装置。如图4所示，该数据倾斜检测装置包括用于执行上述所述数据倾斜检测方法的单元，该数据倾斜检测装置可以被配置于计算机设备中。具体地，请参阅图4，该数据倾斜检测装置400包括获取单元401、读取单元402、分析单元403、判断单元404及判定单元405。

其中，获取单元401，用于获取查询任务；

读取单元402，用于对所述查询任务进行读取操作，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数；

分析单元403，用于分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜所对应的数据倾斜值；

判断单元404，用于判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值；

判定单元405，用于若所述数据倾斜值大于或者等于所述预设数据倾斜阈值，判定存在数据倾斜。

在一个实施例中，所述查询任务所对应的数据查询基于分布式应用环境，所述分布式应用环境包含多个查询节点；所述读取单元402包括：

第一获取子单元，用于获取查询任务与查询节点所对应的预设匹配关系；

转化子单元，用于根据所述预设匹配关系，将所述查询任务转化为预设单节点所对应的单节点执行计划；

切分子单元，用于将所述单节点执行计划按照预设切分方式进行切分，以得到若干个执行子计划；

读取子单元，用于对所述执行子计划所对应的查询子任务进行读取操作，以得到处理所述执行子计划所对应的时间维度参数和数据量维度参数；

集合子单元，用于将所有所述执行子计划所对应的时间维度参数和数据量维度参数进行集合，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数。

在一个实施例中，所述分析单元403包括：

第一计算子单元，用于根据所述查询任务所对应的时间维度参数计算所述查询任务所对应的时间倾斜因子；

第二计算子单元，用于根据所述查询任务所对应的数据量维度参数计算所述查询任务所对应的数据量倾斜因子。

在一个实施例中，所述第一计算子单元包括：

第二获取子单元，用于获取所有所述执行子计划各自所对应的运行时间；

第三计算子单元，用于计算所述所有运行时间的平均值以得到平均运行时间；

第一筛选子单元，用于从所述所有运行时间中筛选出最短运行时间及最长运行时间；

第一统计子单元，用于统计所有所述执行子计划各自所对应的节点以得到节点总数量；

第四计算子单元，用于根据所有所述运行时间、最短运行时间及最长运行时间及所述节点总数量，计算得到最大倾斜时间；

第五计算子单元，用于根据所有所述运行时间、所述平均运行时间及所述节点总数量，计算得到平均倾斜时间；

第六计算子单元，用于计算所述最大倾斜时间与所述平均倾斜时间的差值以得到时间倾斜因子。

在一个实施例中，所述第二计算子单元包括：

第三获取子单元，用于获取所有所述执行子计划各自所对应的数据传输量；

第七计算子单元，用于计算所有所述数据传输量的平均值以得到平均数据传输量；

第二筛选子单元，用于从所有所述数据传输量中筛选出最大数据传输量及最小数据传输量；

第二统计子单元，用于统计所有所述执行子计划各自所对应的节点以得到节点总数量；

第八计算子单元，用于根据所有所述数据传输量、所述最大数据传输量、所述最小数据传输量及所述节点总数量，计算得到最大数据倾斜传输量；

第九计算子单元，用于根据所有所述数据传输量、所述平均数据传输量及所述节点总数量，计算得到平均数据倾斜传输量；

第十计算机子单元，用于计算所述最大数据倾斜传输量与所述平均数据倾斜传输量的差值以得到数据量倾斜因子。

在一个实施例中，所述判断单元404包括：

第一判断子单元，用于判断所述时间倾斜因子是否大于或者等于预设时间倾斜阈值；

第一判定子单元，用于若所述时间倾斜因子大于或者等于所述预设时间倾斜阈值，判定所述数据倾斜值大于或者等于所述预设数据倾斜阈值；

第二判断子单元，用于判断所述数据量倾斜因子是否大于或者等于预设数据量倾斜阈值；

第二判定子单元，用于若所述数据量倾斜因子大于或者等于所述预设数据量倾斜阈值，判定所述数据倾斜值大于或者等于所述数据倾斜阈值。

在一个实施例中，所述获取单元401包括：

接收子单元，用于接收查询数据所对应的基于Impala单条查询所对应的SQL语句；

第四获取子单元，用于根据所述SQL语句获取所述查询数据所对应的查询任务。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述数据倾斜检测装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

同时，上述数据倾斜检测装置中各个单元的划分和连接方式仅用于举例说明，在其他实施例中，可将数据倾斜检测装置按照需要划分为不同的单元，也可将数据倾斜检测装置中各单元采取不同的连接顺序和方式，以完成上述数据倾斜检测装置的全部或部分功能。

上述数据倾斜检测装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是台式机电脑或者服务器等计算机设备，也可以是其他设备中的组件或者部件。

参阅图5，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行一种上述数据倾斜检测方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种上述数据倾斜检测方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图5所示实施例一致，在此不再赘述。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：获取查询任务；对所述查询任务进行读取操作，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数；分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜所对应的数据倾斜值；判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值；若所述数据倾斜值大于或者等于所述预设数据倾斜阈值，判定存在数据倾斜。

在一实施例中，所述处理器502在实现所述获取查询任务的步骤时，所述查询任务所对应的数据查询基于分布式应用环境，所述分布式应用环境包含多个查询节点；

所述处理器502在实现所述对所述查询任务进行读取操作，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数的步骤时，具体实现以下步骤：

获取查询任务与查询节点所对应的预设匹配关系；

根据所述预设匹配关系，将所述查询任务转化为预设单节点所对应的单节点执行计划；

将所述单节点执行计划按照预设切分方式进行切分，以得到若干个执行子计划；

对所述执行子计划所对应的查询子任务进行读取操作，以得到处理所述执行子计划所对应的时间维度参数和数据量维度参数；

将所有所述执行子计划所对应的时间维度参数和数据量维度参数进行集合，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数。

在一实施例中，所述处理器502在实现所述分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜值的步骤时，具体实现以下步骤：

在一实施例中，所述处理器502在实现所述根据所述查询任务所对应的时间维度参数计算所述查询任务所对应的时间倾斜因子的步骤时，具体实现以下步骤：

获取所有所述执行子计划各自所对应的运行时间；

计算所述所有运行时间的平均值以得到平均运行时间；

在一实施例中，所述处理器502在实现所述根据所述查询任务所对应的数据量维度参数计算所述查询任务所对应的数据量倾斜因子的步骤时，具体实现以下步骤：

获取所有所述执行子计划各自所对应的数据传输量；

计算所有所述数据传输量的平均值以得到平均数据传输量；

在一实施例中，所述处理器502在实现所述判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值的步骤时，具体实现以下步骤：

在一实施例中，所述处理器502在实现所述获取查询任务的步骤时，具体实现以下步骤：

接收查询数据所对应的基于Impala单条查询所对应的SQL语句；

根据所述SQL语句获取所述查询数据所对应的查询任务。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来完成，该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行如下步骤：

一种计算机程序产品，当其在计算机上运行时，使得计算机执行以上各实施例中所描述的所述数据倾斜检测方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储计算机程序的实体存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据倾斜检测方法，其特征在于，所述方法包括：

获取查询任务；

对所述查询任务进行读取操作，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数；

分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜所对应的数据倾斜值；

判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值；

若所述数据倾斜值大于或者等于所述预设数据倾斜阈值，判定存在数据倾斜。

2.根据权利要求1所述数据倾斜检测方法，其特征在于，所述查询任务所对应的数据查询基于分布式应用环境，所述分布式应用环境包含多个查询节点；

获取查询任务与查询节点所对应的预设匹配关系；

3.根据权利要求2所述数据倾斜检测方法，其特征在于，所述分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜值的步骤包括：

4.根据权利要求3所述数据倾斜检测方法，其特征在于，所述根据所述查询任务所对应的时间维度参数计算所述查询任务所对应的时间倾斜因子的步骤包括：

获取所有所述执行子计划各自所对应的运行时间；

计算所述所有运行时间的平均值以得到平均运行时间；

5.根据权利要求3所述数据倾斜检测方法，其特征在于，所述根据所述查询任务所对应的数据量维度参数计算所述查询任务所对应的数据量倾斜因子的步骤包括：

获取所有所述执行子计划各自所对应的数据传输量；

计算所有所述数据传输量的平均值以得到平均数据传输量；

6.根据权利要求3所述数据倾斜检测方法，其特征在于，所述判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值的步骤包括：

7.根据权利要求1-6任一项所述数据倾斜检测方法，其特征在于，所述获取查询任务的步骤包括：

接收查询数据所对应的基于Impala单条查询所对应的SQL语句；

根据所述SQL语句获取所述查询数据所对应的查询任务。

8.一种数据倾斜检测装置，其特征在于，包括：

获取单元，用于获取查询任务；

读取单元，用于对所述查询任务进行读取操作，以得到处理所述查询任务所对应的时间维度参数和数据量维度参数；

分析单元，用于分析所述时间维度参数和所述数据量维度参数，以得到数据倾斜所对应的数据倾斜值；

判断单元，用于判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值；

判定单元，用于若所述数据倾斜值大于或者等于所述预设数据倾斜阈值，判定存在数据倾斜。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器以及与所述存储器相连的处理器；所述存储器用于存储计算机程序；所述处理器用于运行所述计算机程序，以执行如权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1-7中任一项所述方法的步骤。