CN114490160A

CN114490160A - 一种数据倾斜优化因子自动调整方法、装置、设备和介质

Info

Publication number: CN114490160A
Application number: CN202210113046.9A
Authority: CN
Inventors: 张尧; 彭新宇; 王灿
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-13

Abstract

本发明公开了一种数据倾斜优化因子自动调整方法、装置、设备和介质。该方法包括：确定单位数据量的处理速度超出预设速度范围的任务的类型；根据任务的类型对任务进行速度优化；判断任务在优化后的单位数据量的处理速度是否在预设速度范围内；如果任务在优化后的单位数据量的处理速度在预设速度范围内，记录速度优化的过程参数，并结束调整方法；如果任务在优化后的单位数据量的处理速度在预设速度范围之外，根据集群服务器的内存数据计算优化因子；根据优化因子与预设优化值的相对关系对集群服务器进行再次优化。本申请方案实现了数据倾斜优化因子的自动调整，降低了开发人员的工作量的同时提高了数据处理的可靠度。

Description

一种数据倾斜优化因子自动调整方法、装置、设备和介质

技术领域

本发明涉及数据处理领域，尤其涉及一种数据倾斜优化因子自动调整方法、装置、设备和介质。

背景技术

在进行大数据分析时，通常会用到映射规约模型(MapReduce模型)。在利用MapReduce模型进行数据分析处理的过程中，Reduce阶段发生数据倾斜问题是很常见的。如果某个主键对应的数据量特别大的话，会造成某个节点的堵塞甚至死机的情况，大大影响了数据处理的进度。

现有的数据倾斜的处理方法是在处理的过程中每天关注任务的执行情况，在数据倾斜导致任务执行失败或是任务耗时超出阈值时，逐条的查看任务的运行日志，排查具体问题。

现有的数据倾斜处理方法需要开发人员长时间的监控和排查，工作量大且浪费时间。

发明内容

本发明提供了一种数据倾斜优化因子自动调整方法、装置、设备和介质，以实现数据倾斜优化因子的自动调整，降低开发人员的工作量的同时提高数据处理的可靠度。

根据本发明的一方面，提供了一种数据倾斜优化因子自动调整方法，该方法包括：

确定单位数据量的处理速度超出预设速度范围的任务的类型；

根据所述任务的类型对所述任务进行速度优化；

判断所述任务在优化后的单位数据量的处理速度是否在所述预设速度范围内；

如果所述任务在优化后的单位数据量的处理速度在所述预设速度范围内，记录所述速度优化的过程参数，并结束调整方法；

如果所述任务在优化后的单位数据量的处理速度在所述预设速度范围之外，根据集群服务器的内存数据计算优化因子，其中，所述集群服务器用于实施MapReduce模型的Reduce阶段；

根据所述优化因子与预设优化值的相对关系对所述集群服务器进行再次优化。

根据本发明的另一方面，提供了一种数据倾斜优化因子自动调整装置，该装置包括：任务类型确定模块、速度优化模块、处理速度确定模块、过程参数记录模块、优化因子计算模块和再次优化模块；

任务类型确定模块用于确定单位数据量的处理速度超出预设速度范围的任务的类型；

速度优化模块用于根据所述任务的类型对所述任务进行速度优化；

处理速度确定模块用于判断所述任务在优化后的单位数据量的处理速度是否在所述预设速度范围内；

过程参数记录模块用于如果所述任务在优化后的单位数据量的处理速度在所述预设速度范围内，记录所述速度优化的过程参数并结束调整方法；

优化因子计算模块用于如果所述任务在优化后的单位数据量的处理速度在所述预设速度范围之外，根据集群服务器的内存数据计算优化因子，其中，所述集群服务器用于实施MapReduce模型的Reduce阶段；

再次优化模块用于根据所述优化因子与预设优化值的相对关系对所述集群服务器进行再次优化。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述任意项所述的数据倾斜优化因子自动调整方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现前述任意所述的数据倾斜优化因子自动调整方法。

本发明实施例的技术方案，根据MapReduce模型的Reduce阶段的任务类型不同而实施不同的速度优化方式，并根据优化之后的单位数据量的处理速度判断是否达到预期的优化效果，若没有则可以根据集群服务器的内存占用比例计算优化因子，并进一步根据优化因子的大小确定该集群服务器进一步的优化方案，实现了对Reduce阶段的任务的速度优化，在数据倾斜发生之前提前实施优化方案，并根据优化因子实施进一步的优化，既实现了数据倾斜优化因子的自动调整，降低了开发人员的工作量，又提高了数据处理的可靠度。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为背景技术中MapReduce模型的实施流程示意图；

图2为本发明实施例提供的一种数据倾斜优化因子自动调整方法的流程图；

图3为本发明实施例提供的另一种数据倾斜优化因子自动调整方法的流程图；

图4为本发明实施例提供的一种第二随机前缀优化的流程示意图；

图5为本发明实施例提供的一种抽样统计的流程示意图方法；

图6为本发明实施例提供的一种第一随机前缀优化或第一前缀范围扩展优化的过程示意图；

图7为本发明实施例提供的一种JION操作和MAP JION操作的流程对比示意图；

图8为本发明实施例提供的一种数据倾斜优化因子自动调整装置的结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如背景技术所述，在现有技术中进行大数据分析的时候，经常会用到MapReduce模型。如图1所示，MapReduce模型是一种编程模型，用于大规模数据集的并行运算。MapReduce模型将大量的数据进行分块，包括相同主键的数据可能会被分在不同的数据块中。然后在Map阶段分块读取数据，将每个数据块中的数据根据主键进行分类，分类结果将决定数据交给哪个Reduce进行处理，Reduce阶段将相同主键的数据全部移动到本地，再次的进行处理，最终生成结果数据。而在MapReduce模型的Reduce阶段发生数据倾斜问题是很常见的，发明人研究发现在对同一个主键的数据进行聚合或JOIN操作时一定是分配到某一个节点上的一个任务中进行处理的，如果某个主键对应的数据量特别大的话，就会造成该主键对应的节点出现堵塞甚至宕机的情况。在并行计算的作业中，整个作业的进度是由运行时间最长的那个任务决定的，在出现数据倾斜时，整个作业的运行将会非常缓慢，甚至会发生内存溢出的异常。而为了提高数据处理速度，传统的数据倾斜优化方法需要时刻关注Reduce阶段任务的执行情况，在数据倾斜导致任务执行失败或是任务耗时超出阈值时，需要开发人员会逐条的查看任务的运行日志，排查具体问题，这种方法工作量大且耗时。

基于上述原因，本发明提出了一种数据倾斜优化因子自动调整方法。图2为本发明实施例提供的一种数据倾斜优化因子自动调整方法的流程图，参照图2，数据倾斜优化因子自动调整方法包括：

S101、确定单位数据量的处理速度超出预设速度范围的任务的类型。

具体地，在MapReduce模型的Reduce阶段的包括两个任务类型，即聚合操作和JOIN操作。各个任务的类型可以根据Reduce阶段的任务类型来划分。对比任务在实施时单位数据量的处理速度是否超出了预设速度范围，若是则可以确定该任务的处理速度出现异常并确定该任务的任务类型。若该任务在实施时单位数据量的处理速度在预设速度范围内，则可以确定该任务处理速度正常。确定任务类型的方式可以为根据该任务在创建时设置的标签或ID进行判断。示例性地，预设速度范围可以为大于等于10M/s，若一个任务单位数据量的处理速度小于10M/s，则确定该任务的处理速度低于正常值，很有可能发生数据倾斜，此时需要进一步根据该任务的标签或ID等基本信息确定任务类型。

S102、根据任务的类型对任务进行速度优化。

具体地，聚合操作是将具有相同主键的数据聚合在同一个数据集的一类操作。JOIN操作是将两个数据集中的各个数据进行对应映射的一类操作。两类任务的具体优化方式与任务类型相关。聚合操作可以采用随机前缀优化或前缀范围扩展优化。JOIN操作可以采用任务替换优化、扩容优化、扩容范围扩展优化、随机前缀优化或前缀范围扩展优化。

S103、判断任务在优化后的单位数据量的处理速度是否在预设速度范围内。

具体地，在速度优化完成之后判断优化后的单位数据量的处理速度是否在预设速度范围内。若是则表示经过速度优化之后该任务的处理速度已经达到正常范围内，可以正常进行数据处理。否则表示经过速度优化之后该任务的处理速度仍没有达到正常范围，仍存在发生数据倾斜的可能性，需要进行进一步的速度优化。

S104、如果任务在优化后的单位数据量的处理速度在预设速度范围内，记录速度优化的过程参数，并结束调整方法。

具体地，速度优化的过程参数为步骤S102中对任务进行速度优化过程中的操作内容和检测结果的记录数据，速度优化的过程参数可以包括操作名称、操作编号、判断结果和执行时间等优化过程相关的参数。若是则表示经过速度优化之后该任务的处理速度已经达到正常范围内，可以正常进行数据处理。记录速度优化的过程参数可以方便后续的数据处理过程中再次对优化因子的调整，方便开发人员的维护工作。

S105、如果任务在优化后的单位数据量的处理速度在预设速度范围之外，根据集群服务器的内存数据计算优化因子。

其中，集群服务器用于实施MapReduce模型的Reduce阶段。

具体地，如果任务在优化后的单位数据量的处理速度在预设速度范围之外，则表示经过速度优化之后该任务的处理速度仍没有达到正常范围，仍存在发生数据倾斜的可能性，需要进行进一步的速度优化。集群服务器为实施MapReduce模型的Reduce阶段的多台服务器，可以实现对任务的并行处理。集群服务器的内存数据可以是集群服务器中所有服务器的运行内存的占用比例，可以体现该集群服务器的在同一时间并行处理的数据量与该集群服务器最大运行内存的比值。优化因子与集群服务器的内存数据的占用比例呈正相关。示例性地，若集群服务器的总运行内存为4000T，占用运行内存为3000T，则优化因子为3000除以4000，等于75％。

S106、根据优化因子与预设优化值的相对关系对集群服务器进行再次优化。

具体地，预设优化值可以为开发人员根据实际需求和实验数据设置的数值。当优化因子大于预设优化值时，集群服务器的总数据处理效率明显降低或者集群服务器出现发热卡顿等现象，此时集群服务器的运行内存的占用比例接近100％，不适合进一步增加优化因子。示例性地，预设优化值可以为95％。判断优化因子是否大于等于预设优化值，若是则表明集群服务器的运行内存的占用比例接近100％，不适合进一步增加优化因子，此时可以提示开发人员介入修正或者提示开发人员进行扩容。否则表明集群服务器的运行内存的占用比例较低，还可以进一步提高优化因子，此时可以返回步骤S102进一步对任务速度进行优化。

本实施例提供的数据倾斜优化因子自动调整方法，根据MapReduce模型的Reduce阶段的任务类型不同而实施不同的速度优化方式，并根据优化之后的单位数据量的处理速度判断是否达到预期的优化效果，若没有则可以根据集群服务器的内存占用比例计算优化因子，并进一步根据优化因子的大小确定该集群服务器进一步的优化方案，实现了对Reduce阶段的任务的速度优化，在数据倾斜发生之前提前实施优化方案，并根据优化因子实施进一步的优化，既实现了数据倾斜优化因子的自动调整，降低了开发人员的工作量，又提高了数据处理的可靠度。

图3为本发明实施例提供的另一种数据倾斜优化因子自动调整方法的流程图，图4为本发明实施例提供的一种第二随机前缀优化的流程示意图，参照图3，数据倾斜优化因子自动调整方法包括：

S201、记录Reduce阶段的耗时，计算单位数据量的处理速度并建立时间序列模型。

具体地，在实施MapReduce模型处理大数据时，在各个任务执行完毕之后分别实时记录任务的耗时数据，可以按照任务ID、任务描述、任务执行时间、操作类型、操作描述和操作耗时等内容进行耗时记录，操作类型可以包括速度优化操作的类型。进而，根据记录内容进一步建立时间序列模型，时间序列模型中至少包括任务ID、任务执行时间和操作类型。

S202、根据时间序列模型确定单位数据量的处理速度超出预设速度范围的任务。

具体地，根据时间序列模型中的任务执行时间和任务的数据处理量计算出各任务单位数据量的处理速度，并将单位数据量的处理速度与预设速度范围做出对比，预设速度范围可以为大于10M/s,判断出单位数据量的处理速度超出预设速度范围的任务，该任务的处理速度低于正常范围，有可能出现数据倾斜，需要进行速度优化。单位数据量的处理速度若均在预设速度范围内，则表示任务处理速度在正常范围内，此时可以直接结束方法。

S203、确定单位数据量的处理速度超出预设速度范围的任务的类型。

具体地，步骤S203与步骤S101内容相同，此处不再赘述。

S204、如果任务为JOIN操作，根据任务中的数据集的大小和导致数据倾斜的主键数量进行第一速度优化操作。

具体地，第一速度优化操作包括下述至少一个：任务替换优化、扩容优化、扩容范围扩展优化、第一随机前缀优化和第一前缀范围扩展优化，可以根据数据集大小和历史优化记录进行优化操作的选择。任务替换优化包括将任务由JION操作替换为MAP JION操作。实施扩容优化时，首先选择JOIN操作的一个数据集，将该数据集中每条数据映射为多条数据，多条数据中每条数据都设置0至n中随机数为前缀，再将另一个数据集的每条数据都打上一个n以内的随机数前缀，最后，将两个数据集进行JOIN操作后再去掉前缀。扩容扩展优化是在任务对应的数据集已经实施过扩容优化的基础上，采用增加前缀范围(即提高n的取值)的方法增加扩容范围，增加数据集中数据的分离度。第一随机前缀优化为将数据集中每条数据都赋予一个0至k的随机数并进行打散操作，再去实施JOIN操作，以提高数据的分离度。第一前缀范围扩展优化是在该数据集实施过第一随机前缀优化的基础上扩大随机数的范围(即提高k的取值)。

S205、如果任务为聚合操作，根据任务的历史优化情况进行第二速度优化操作。

具体地，第二速度优化操作包括下述至少一种：第二随机前缀优化和第二前缀范围扩展优化，可以根据历史优化记录进行优化操作的选择。结合图4，示例性地，第二随机前缀优化为对主键加一个随机前缀后对关键字进行打散操作，然后将关键字分为多组后，先进行第一次局部聚合，然后去除掉每个关键字的前缀，将所有关键字进行第二次全局聚合。第二前缀范围扩展优化为进一步扩展第二随机前缀优化中随机前缀的取值范围。

根据任务的历史优化情况进行第二速度优化操作包括：S2051、根据历史优化情况判断判断聚合操作是否已经实施过第二随机前缀优化。S2052、若是，则对聚合操作对应的数据实施第二前缀范围扩展优化。S2053、否则，对聚合操作对应的数据实施第二随机前缀优化。

S206、判断任务在优化后的单位数据量的处理速度是否在预设速度范围内。

具体地，在速度优化操作完成后可以继续实施Reduce阶段，并继续更新时间序列模型，进而根据时间序列模型确定优化后的单位数据量的处理速度，并判断在优化后的单位数据量的处理速度是否在预设速度范围内。预设速度范围与步骤S202为同一范围。

S207、如果任务在优化后的单位数据量的处理速度在预设速度范围内，记录速度优化的过程参数，并结束调整方法。

S208、如果任务在优化后的单位数据量的处理速度在预设速度范围之外，根据集群服务器的内存数据计算优化因子。

具体地，步骤S207和步骤S208分别与步骤S104和步骤S105的内容对应相同，此处不再赘述。

S209、判断优化因子是否小于预设优化值。

具体地，优化因子可以为集群服务器的运行内存的占用量。预设优化值为开发人员设置的预设值，示例性地，可以为98％。

S210、如果优化因子小于预设优化值，返回执行确定单位数据量的处理速度在预设速度范围内的任务的类型的操作。

具体地，如果优化因子小于预设优化值表明此时集群服务器还具有一定空闲的运行内存可以使用，还可以进一步增加并行计算的数据量，此时返回步骤S203重新确定单位数据量的处理速度在预设速度范围内的任务的类型。

S211、如果优化因子大于等于预设优化值，提示开发人员对集群服务器进行扩容，并结束调整方法。

具体地，如果优化因子大于等于预设优化值，表明此时的集群服务器的运行内存接近满负荷运行，不可进一步增加并行计算的数据量，此时需要提示开发人员对集群服务器进行扩容操作并结束调整方法。提示方式可以为发出警示声或者闪光提示。

本实施例提供的数据倾斜优化因子自动调整方法，在每次任务执行完毕后，记录任务在Reduce阶段的耗时并计算单位数据量的处理速度，建立时间序列模型，并根据时间序列模型确定任务单位数据量的速度处理速度。当数据处理速度低于超出预设速度范围时，会自动优化数据的处理流程，调整优化因子参数，使集群的数据处理速度和性能达到最优，实现了对数据倾斜优化因子的自动调整，并在优化结束后自动生成完备的优化记录，或在操作优化无效需要对集群进行扩容时及时发出告警提示，并记录台账，可以让开发人员或运维人员及时发现数据倾斜问题并采取相应措施，进一步提高了优化因子调整方法的自动化程度和可靠性。

图5为本发明实施例提供的一种抽样统计的流程示意图方法，图6为本发明实施例提供的一种第一随机前缀优化或第一前缀范围扩展优化的过程示意图，图7为本发明实施例提供的一种JION操作和MAP JION操作的流程对比示意图。继续参照图4，可选地，S204、如果任务为JOIN操作，根据任务中的数据集的大小和导致数据倾斜的主键数量进行第一速度优化操作，包括：

S301、判断JOIN操作对应的数据集是否超出预设数据量。

具体地，预设数据量为允许广播的最大阈值。判断JOIN操作对应的两个数据集的大小是否超出了允许广播的最大阈值，根据判断结果可以确定出是否可以采用任务替换优化。

S302、若是，则根据数据集的主键数量和任务的历史优化情况实施扩容优化、扩容范围扩展优化、第一随机前缀优化或第一前缀范围扩展优化。

具体地，若是则表明该任务不适应采用任务替换优化。结合图5，首先，S401、对实施JOIN操作的数据集进行抽样统计，确定导致数据倾斜的主键数量，其中，抽样统计为对数据集中的所有数据进行随机抽样，抽样比例可以设置为10％，然后对抽样出的数据中主键出现的次数进行排序，这样就可以根据主键出现次数找到导致数据倾斜的一个或多个主键。其次，S402、判断导致数据倾斜的主键数量是否大于预设值。S403、如果主键数量大于预设值，根据历史优化情况实施第一随机前缀优化或第一前缀范围扩展优化。S404、如果主键数量小于或等于预设值，则根据历史优化情况判断数据集是否已经实施了扩容优化。S405、若是则对数据集实施扩容范围扩展优化。S406、否则对数据集实施扩容优化。

其中，S403、如果主键数量大于预设值，根据历史优化情况实施第一随机前缀优化或第一前缀范围扩展优化，包括：S501、筛选出数据集中导致数据倾斜的数据，其中，导致数据倾斜的数据为包含导致数据倾斜的主键的数据。S502、根据历史优化情况判断数据集中的数据是否已经实施过第一随机前缀优化。S503、若是，则对数据集中导致数据倾斜的数据实施第一前缀范围扩展优化。S504、否则，对数据集中导致数据倾斜的数据实施第一随机前缀优化。S505、对优化过的数据实施JOIN操作、去掉前缀并与普通数据进行合并，其中，普通数据为实施JOIN操作的数据集中不会导致数据倾斜的数据。示例性地，第一随机前缀优化或第一前缀范围扩展优化可以结合图6。

S303、否则，将较小的数据集广播后，实施任务替换优化。

具体地，任务替换优化包括将实施JION操作的两个数据集中较小的那一个广播后，将任务由JION操作替换为MAP JION操作。如果数据集的大小没有超过预设数据量，则将较小的那个数据集进行广播操作后，不使用JOIN进行两个数据集的连接，因为普通的JOIN操作会触发Shuffle过程的，一旦触发Shuffle会将相同主键的数据都拉取到同一个任务中进行处理，而使用MAP JOIN操作从广播变量中获取较小的数据集中的数据进行连接操作，不会触发Shuffle，可以避免数据倾斜的发生。示例性地，JION操作和MAP JION操作的流程对比可以参照图7。

本实施例提供的数据倾斜优化因子自动调整方法，可以根据任务类型、数据集大小和历史优化情况对任务进行适应性地进行速度优化操作，实现对数据处流程的优化，进一步提高了优化因子的自动调整的可靠性。

本发明实施例还提供了一种数据倾斜优化因子自动调整装置。图8为本发明实施例提供的一种数据倾斜优化因子自动调整装置的结构示意图，参照图8，数据倾斜优化因子自动调整装置800包括：任务类型确定模块801、速度优化模块802、处理速度确定模块803、过程参数记录模块804、优化因子计算模块805和再次优化模块806，任务类型确定模块801用于确定单位数据量的处理速度超出预设速度范围的任务的类型；速度优化模块802用于根据任务的类型对任务进行速度优化；处理速度确定模块803用于判断任务在优化后的单位数据量的处理速度是否在预设速度范围内；过程参数记录模块804用于如果任务在优化后的单位数据量的处理速度在预设速度范围内，记录速度优化的过程参数并结束调整方法；优化因子计算模块805用于如果任务在优化后的单位数据量的处理速度在预设速度范围之外，根据集群服务器的内存数据计算优化因子，其中，集群服务器用于实施MapReduce模型的Reduce阶段。再次优化模块806用于根据优化因子与预设优化值的相对关系对集群服务器进行再次优化。

本发明实施例还提供了一种电子设备，图9为本发明实施例提供的一种电子设备的结构示意图，参照图9，电子设备900包括：至少一个处理器901；以及与至少一个处理器901通信连接的存储器902；其中，存储器902存储有可被至少一个处理器901执行的计算机程序，计算机程序被至少一个处理器901执行，以使至少一个处理器901能够执行前述任意的数据倾斜优化因子自动调整方法。

电子设备900旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备900还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。处理器901可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器901、数字信号处理器901(DSP)、以及任何适当的处理器901、控制器、微控制器等。

本发明实施例还提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现前述任意数据倾斜优化因子自动调整方法。

本发明提供的数据倾斜优化因子自动调整方法、装置、设备和介质，根据MapReduce模型的Reduce阶段的任务类型不同而实施不同的速度优化方式，并根据优化之后的单位数据量的处理速度判断是否达到预期的优化效果，若没有则可以根据集群服务器的内存占用比例计算优化因子，并进一步根据优化因子的大小确定该集群服务器进一步的优化方案，实现了对Reduce阶段的任务的速度优化，在数据倾斜发生之前提前实施优化方案，并根据优化因子实施进一步的优化，既实现了数据倾斜优化因子的自动调整，降低了开发人员的工作量，又提高了数据处理的可靠度。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据倾斜优化因子自动调整方法，其特征在于，包括：

根据所述任务的类型对所述任务进行速度优化；

2.根据权利要求1所述的数据倾斜优化因子自动调整方法，其特征在于，根据所述优化因子与预设优化值的相对关系对所述集群服务器进行再次优化，包括：

判断所述优化因子是否小于所述预设优化值；

如果所述优化因子小于所述预设优化值，返回执行所述确定单位数据量的处理速度在预设速度范围内的任务的类型的操作；

如果所述优化因子大于等于所述预设优化值，提示开发人员对所述集群服务器进行扩容，并结束调整方法。

3.根据权利要求1所述的数据倾斜优化因子自动调整方法，其特征在于，确定单位数据量的处理速度超出预设速度范围的任务的类型之前，还包括：

记录所述Reduce阶段的耗时，计算所述单位数据量的处理速度并建立时间序列模型；

根据所述时间序列模型确定单位数据量的处理速度超出预设速度范围的任务。

4.根据权利要求1所述的数据倾斜优化因子自动调整方法，其特征在于，根据所述任务的类型对所述任务进行速度优化，包括：

如果所述任务为JOIN操作，根据所述任务中的数据集的大小和导致数据倾斜的主键数量进行第一速度优化操作，其中，所述第一速度优化操作包括下述至少一个：任务替换优化、扩容优化、扩容范围扩展优化、第一随机前缀优化和第一前缀范围扩展优化；

如果所述任务为聚合操作，根据所述任务的历史优化情况进行第二速度优化操作，其中，所述第二速度优化操作包括下述至少一种：第二随机前缀优化和第二前缀范围扩展优化。

5.根据权利要求4中所述的数据倾斜优化因子自动调整方法，其特征在于，根据所述任务中的数据集的大小和导致数据倾斜的主键数量进行第一速度优化操作，包括：

判断所述JOIN操作对应的数据集是否超出预设数据量；

若是，则根据所述数据集的主键数量和所述任务的历史优化情况实施所述扩容优化、所述扩容范围扩展优化、所述第一随机前缀优化或所述第一前缀范围扩展优化；

否则，将较小的所述数据集广播后，实施所述任务替换优化，其中，所述任务替换优化包括将所述任务由JION操作替换为MAP JION操作。

6.根据权利要求5中所述的数据倾斜优化因子自动调整方法，其特征在于，根据所述数据集的主键数量和所述任务的历史优化情况实施所述扩容优化、所述扩容范围扩展优化、所述第一随机前缀优化或所述第一前缀范围扩展优化，包括：

对实施所述JOIN操作的所述数据集进行抽样统计，确定导致数据倾斜的主键数量；

判断导致数据倾斜的所述主键数量是否大于预设值；

如果所述主键数量大于所述预设值，根据所述历史优化情况实施所述第一随机前缀优化或所述第一前缀范围扩展优化；

如果所述主键数量小于或等于所述预设值，根据所述历史优化情况判断所述数据集是否已经实施了所述扩容优化；

若是则对所述数据集实施所述扩容范围扩展优化；

否则对所述数据集实施所述扩容优化。

7.根据权利要求6中所述的数据倾斜优化因子自动调整方法，其特征在于，根据所述历史优化情况实施所述第一随机前缀优化或所述第一前缀范围扩展优化，包括：

筛选出所述数据集中导致数据倾斜的数据；

根据所述历史优化情况判断所述数据集中的数据是否已经实施过所述第一随机前缀优化；

若是，则对所述数据集中导致数据倾斜的数据实施所述第一前缀范围扩展优化；

否则，对所述数据集中导致数据倾斜的数据实施第一随机前缀优化；

对优化过的数据实施所述JOIN操作、去掉前缀并与普通数据进行合并，其中，所述普通数据为实施所述JOIN操作的数据集中不会导致数据倾斜的数据。

8.根据权利要求4中所述的数据倾斜优化因子自动调整方法，其特征在于，根据所述任务的历史优化情况进行第二速度优化操作，包括：

根据所述历史优化情况判断判断所述聚合操作是否已经实施过所述第二随机前缀优化；

若是，则对所述聚合操作对应的数据实施所述第二前缀范围扩展优化；

否则，对所述聚合操作对应的数据实施所述第二随机前缀优化。

9.一种数据倾斜优化因子自动调整装置，其特征在于，包括：

任务类型确定模块，用于确定单位数据量的处理速度超出预设速度范围的任务的类型；

速度优化模块，用于根据所述任务的类型对所述任务进行速度优化；

处理速度确定模块，用于判断所述任务在优化后的单位数据量的处理速度是否在所述预设速度范围内；

过程参数记录模块，用于如果所述任务在优化后的单位数据量的处理速度在所述预设速度范围内，记录所述速度优化的过程参数并结束调整方法；

优化因子计算模块，用于如果所述任务在优化后的单位数据量的处理速度在所述预设速度范围之外，根据集群服务器的内存数据计算优化因子，其中，所述集群服务器用于实施MapReduce模型的Reduce阶段；

再次优化模块，用于根据所述优化因子与预设优化值的相对关系对所述集群服务器进行再次优化。

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的数据倾斜优化因子自动调整方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的数据倾斜优化因子自动调整方法。