CN110502471A

CN110502471A - 一种数据处理方法及电子设备

Info

Publication number: CN110502471A
Application number: CN201910701481.1A
Authority: CN
Inventors: 张鹏
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-26

Abstract

本申请实施例提供了一种数据处理方法及电子设备，其中，所述方法包括：确定分布式文件系统在预设时间段内完成的历史任务执行信息；基于所述执行信息确定调整策略，其中，所述调整策略用于调整当前数据预处理阶段中对待存储数据实施的数据分区策略，使下一预设时间段内的所述待存储数据经调整后的数据分区策略进行分区后，各区的数据量均满足预设存储量条件。本申请实施例的数据处理方法能够有效避免分布式文件系统产生大量小文件，避免影响系统的运行速度及性能。

Description

一种数据处理方法及电子设备

技术领域

本申请实施例涉及智能设备领域，特别涉及一种数据处理方法及电子设备。

背景技术

当一些分布式存储系统，例如HDFS(Hadoop Distributed File System，Hadoop分布式文件系统，本文中简称分布式文件系统)中存在大量的小文件时将严重影响系统的扩展性和实际操作性能。使该类存储系统产生大量小文件的方式有很多，例如，仍以HDFS为例，客户端在基于Spark(数据计算引擎)中的Spark-SQL对HDFS中的Hive表数据进行写入的业务中，如果Spark中的Shuffle Partition(本文中简称数据分区策略)设置不当将会直接导致HDFS在存储该写入的数据时产生大量的小文件。因此，为了避免存储系统的扩展性和实际操作性能受损，避免大量小文件的产生是非常必要的。

发明内容

本申请实施例提供了一种能够有效避免分布式文件系统产生大量小文件的数据处理方法及应用该方法的电子设备。

为了解决上述技术问题，本申请实施例提供了一种数据处理方法，其中，包括：

确定分布式文件系统在预设时间段内完成的历史任务执行信息；

基于所述执行信息确定调整策略，其中，所述调整策略用于调整当前数据预处理阶段中对待存储数据实施的数据分区策略，使下一预设时间段内的所述待存储数据经调整后的数据分区策略进行分区后，各区的数据量均满足预设存储量条件。

作为优选，所述基于所述执行信息确定调整策略包括：

至少基于所述执行信息确定调整策略；或

至少基于所述执行信息以及系统当前配置参数确定所述调整策略。

作为优选，所述调整策略至少包括第一调整策略、第二调整策略以及第三调整策略；

所述执行信息至少包括在所述预设时间段内分别先后完成的两次历史任务的执行时间，以及表征执行所述历史任务时系统是否稳定的系统稳定信息；

所述系统当前配置参数至少包括所述历史任务的单次最大执行时间、分区数变化系数、最大分区数。

作为优选，所述至少基于所述执行信息确定所述调整策略包括：

所述历史任务的执行时间为0s，则确定采用所述第一调整策略调整当前数据分区策略。

作为优选，所述至少基于所述执行信息以及系统当前配置参数确定所述调整策略包括：

所述历史任务的执行时间大于0s，则基于所述系统稳定信息确定所述系统是否稳定；

若不稳定，则确定所述历史任务的执行时间是否大于所述单次最大执行时间；

若是，则确定由所述第一调整策略调整当前数据分区策略。

若最近一次执行的所述第一历史任务的执行时间大于0s，则基于所述系统稳定信息确定所述系统是否稳定；

若不稳定，则确定所述第一次历史任务的执行时间是否大于所述单次最大执行时间；

若大于，则确定较先执行的第二历史任务的执行时间是否为0s，或第一历史任务的执行时间是否小于第二历史任务的执行时间；

若是，则确定由所述第二调整策略调整当前数据分区策略；

其中，所述第二调整策略至少包括将当前数据分区策略中的分区值与分区变化系数的乘积替代当前分区值，进而实现当前数据分区策略的调整。

作为优选，还包括：

若所述第一历史任务的执行时间大于所述第二历史任务的执行时间，则确定由第三调整策略调整当前数据分区策略；

其中，所述第三调整策略至少包括将当前数据分区策略中的分区值与分区变化系数的商替代当前分区值，进而实现当前数据分区策略的调整。

作为优选，还包括：

确定能够表征所述分布式文件系统在所述预设时间段内的数据变化量的数据信息；

基于所述数据信息以及所述存储块的默认存储量确定预测分区数；

所述第一调整策略至少包括将所述预测分区数替代当前数据分区策略中的分区数，进而实现当前数据分区策略的调整。

作为优选，所述第一调整策略至少包括将所述预测分区数替代当前数据分区策略中的分区数包括：

确定所述预测分区数是否大于最大分区数；

若大于，则将所述最大分区数替代当前分区数；

若小于，则将所述预测分区数替代当前分区数。

本申请实施例同时提供一种电子设备，其中，包括：

分布式文件系统，其用于分布式存储经预处理而实现分区的数据；

数据计算引擎，其用于至少确定所述分布式文件系统在预设时间段内完成的历史任务执行信息，并至少基于所述执行信息确定调整策略；

其中，所述调整策略用于调整当前数据预处理阶段中对待存储数据实施的数据分区策略，使至少下一预设时间段内的所述待存储数据经调整后的数据分区策略进行分区后，各区的数据量均满足预设存储量条件。

基于上述实施例的公开可以获知，本申请实施例的有益效果在于通过分布式文件系统的历史任务执行信息来确定用于调整数据分区策略的调整策略，使得基于该调整策略进行调整后的数据分区策略至少能够使在下一预设时间段内各数据区的数据量均能够满足预设存储量条件，避免有些数据区内的数据量较小，导致存储后易形成小文件的情况发生。

附图说明

图1为本申请实施例中的数据处理方法的流程图。

图2为本申请另一实施例中的数据处理方法的流程图(图中的P_num为第一历史任务执行时系统的分区数，F_stable为系统稳定信息，F_time1第一历史任务的执行时间，F_time2为第二历史任务的执行时间，T_MAX为系统允许的最大执行时间，NTimes为分区数变化系数，N为理论分区数，N_tmp为当前分区数/临时分区数)。

图3为本申请实施例中的电子设备的结构框图。

具体实施方式

下面，结合附图对本申请的具体实施例进行详细的描述，但不作为本申请的限定。

应理解的是，可以对此处公开的实施例做出各种修改。因此，下述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本公开的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本公开的具体实施例；然而，应当理解，所公开的实施例仅仅是本公开的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此，本文所公开的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或不同实施例中的一个或多个。

下面，结合附图详细的说明本申请实施例。

如图1所示，本申请实施例提供一种数据处理方法，其中，包括：

基于执行信息确定调整策略，其中，调整策略用于调整当前数据预处理阶段中对待存储数据实施的数据分区策略，使下一预设时间段内的待存储数据经调整后的数据分区策略进行分区后，各区的数据量均满足预设存储量条件。

本申请实施例的有益效果在于通过分布式文件系统的历史任务执行信息来确定用于调整数据分区策略的调整策略，使得基于该调整策略进行调整后的数据分区策略至少能够使在下一预设时间段内各数据区的数据量均能够满足预设存储量条件，避免有些数据区内的数据量较小，导致存储后易形成小文件的情况发生，也即，实现了避免分布式文件系统在对数据进行存储处理时产生大量小文件，影响其工作效率及扩展性的技术效果。

例如，分布式文件系统定期通过获取其在过去一周内的历史任务完成信息，然后基于该历史任务完成信息来确定当前的数据分区策略是否需要调整，并确定出相应的调整策略，并将该调整策略应用于当前的数据分区策略中，使得系统在处理下一秒开始的未来一周的数据任务时，均可基于调整后的数据分区策略对数据进行分区，保证分区后的数据量均满足预设存储量条件，从而有效保证系统不会在存储过程中因数据区内的数据量不足而导致的大量小文件的产生。

上述的预设存储量条件具体不唯一，本实施例中优选为各数据区的数据量须不小于分布式文件系统内每个用于存储数据的存储块的默认存储量，也即，本实施例中经调整后的数据分区策略进行分区的各数据区，其数据量均不小于分布式文件系统中各存储块的默认存储量。该默认存储量具体数值不唯一，可根据实际情况而定。通过本实施例中的设置，可使得每个存储块内均存满数据，不会产生因存储量不足的问题而产生大量小文件，影响系统的处理速度等。

进一步地，本实施例中基于执行信息确定调整策略包括：

至少基于执行信息确定调整策略；或

至少基于执行信息以及系统当前配置参数确定调整策略。

也就是，系统可仅基于历史任务的执行信息来直接确定调整策略，也可同时基于历史任务的执行信息以及当前系统的配置参数来共同决定调整策略。

本实施例中的调整策略至少包括第一调整策略、第二调整策略以及第三调整策略。执行信息至少包括在预设时间段内分别先后完成的两次历史任务的执行时间，以及表征执行历史任务时系统是否稳定的系统稳定信息。而系统当前配置参数至少包括历史任务的单次最大执行时间、分区数变化系数、最大分区数。当然，上述信息并不唯一，也可增加其他参数，例如在预设时间段内先后完成的三次、四次历史任务的相关信息等等。

具体地，如图2所示，本实施例中在基于执行信息确定调整策略时包括：

历史任务的执行时间为0s，则确定采用第一调整策略调整当前数据分区策略。

例如，系统通过调取历史任务的执行信息并进行查看后，发现历史任务的执行时间为0s，那么便可确定系统实际上并没有在先执行过任务，故，此时便可确定由第一调整策略调整档期数据分区策略。当前分区策略可为默认分区策略，也可不具有数据分区策略，而历史任务的执行时间可为最近一次执行的历史任务的执行时间，也可同时查看两次历史任务的执行时间。

进一步地，系统在执行基于执行信息以及系统当前配置参数确定调整策略时包括：

历史任务的执行时间大于0s，则基于系统稳定信息确定系统是否稳定；

若不稳定，则确定历史任务的执行时间是否大于单次最大执行时间；

若否，则确定由第一调整策略调整当前数据分区策略。

例如，系统调取历史任务的执行信息后首先对历史任务的执行时间进行查看，在确定历史任务的执行时间大于0s后，便查看系统稳定信息，若该信息表征系统在执行该历史任务时处于非稳定状态，那么便可确定历史任务的执行时间是否超过系统的配置参数中单次最大执行时间的参数值，若不大于，则确定由第一调整策略调整当前的数据分区策略。

上述历史任务的执行时间及系统稳定信息均可为最近一次执行的历史任务的执行时间，也可为两次历史任务的执行时间及系统稳定信息。其中，上述在确定系统在执行历史任务时是否处于稳定状态的过程中，倘若判断结果为是，那么系统便可确定当前的数据分区数满足要求，各数据区的数据量均满足预设存储条件，无需调整。

进一步地，继续结合图2所示，本实施例中的方法还包括：

确定能够表征分布式文件系统在预设时间段内的数据变化量的数据信息；

基于数据信息以及存储块的默认存储量确定预测分区数；

第一调整策略至少包括将预测分区数替代当前数据分区策略中的分区数，进而实现当前数据分区策略的调整。

例如，该能够表征分布式文件系统在预设时间段内的数据变化量的数据信息可由分布式文件系统中的Hive表在预设时间段内的数据增量而得到。即，通过计算预设时间段内Hive表的数据增量来确定能够表征分布式文件系统在预设时间段内的数据变化量。当系统得到该数据信息后，可通过将其与存储块的默认存储量进行计算，来确定预测分区数。本实施例中是通过公式：N(预测分区数)＝1+(Hive表的数据增量/预设时间段/存储块的默认存储量)得到最终的预测分区数的。而本实施例中的第一调整策略，即可为将预测分区数提单当前数据分区数，从而实现数据分区策略的调整。

进一步地，本实施例中在基于第一调整策略进行调整时，即第一调整策略至少包括将预测分区数替代当前数据分区策略中的分区数包括：

确定预测分区数是否大于最大分区数；

若大于，则将最大分区数替代当前分区数；

若小于，则将预测分区数替代当前分区数。

也就是，为了确保计算出的预测分区数可行，需要对其进行检测，即确定其是否大于系统参数-最大分区数，若大于，系统则将最大分区数替代当前分区数，或直接作为当前分区数(适用于当前无分区数的情况)，而若小于，则可按原计划执行，即，将计算出的预测分区数替代当前分区数，或直接作为当前分区数(适用于当前无分区数的情况)。而且，当设置完成后，可直接更改系统稳定参数为稳定。

进一步地，继续结合图2，本实施例中在执行基于执行信息以及系统当前配置参数确定调整策略时还包括：

若最近一次执行的第一历史任务的执行时间大于0s，则基于系统稳定信息确定系统是否稳定；

若不稳定，则确定第一历史任务的执行时间是否大于单次最大执行时间；

若是，则确定由第二调整策略调整当前数据分区策略；

其中，第二调整策略至少包括将当前数据分区策略中的分区值与分区变化系数的乘积替代当前分区值，进而实现当前数据分区策略的调整。

例如，两次历史任务中，将距离当前最近一次的历史任务为第一历史任务，而将另一历史任务作为第二历史任务。系统通过调取历史任务执行信息确定出若第一历史任务的执行时间大于0s，且执行第一历史任务时系统处于非稳定状态，第一历史任务的执行时间也超过了系统允许的单次最大执行时间时，则确定第二历史任务的执行时间是否为0s，或者确定第一历史任务的执行时间是否小于第二历史任务的执行时间，若判断结果为是，则表明当前的分区数量过多，应缩小分区数量，此时系统便确定由第二调整策略来调整当前的数据分区策略。本实施例中的第二调整策略为将当前数据分区策略中的分区值与分区变化系数的乘积来替代当前的分区值，进而实现调整。其中，本实施例中的分区变化系数为小于1的数值，其具体数值不定，可根据实际情况的相应数据进行计算得到。

进一步地，继续结合上述实施例，其方法还包括：

若第一历史任务的执行时间大于第二历史任务的执行时间，则确定由第三调整策略调整当前数据分区策略；

其中，第三调整策略至少包括将当前数据分区策略中的分区值与分区变化系数的商替代当前分区值，进而实现当前数据分区策略的调整。

例如，同样以上述实施例为例，当系统在确定第一历史任务的执行时间和第二历史任务的执行时间的关系时，得到的结果为第一历史任务的执行时间大于第二历史任务的执行时间，那么便可确定当前分区数少了，需要增加分区数量，故确定采用第三调整策略实现当前分区数的调整。本实施例中该第三调整策略包括将当前数据分区值除以分区变化系数，并将得到的计算结果作为当前的分区值，从而实现分区数量的调整。而且，当系统基于第二调整策略或第三调整策略调整完分区策略后，会将系统稳定参数更改为稳定，然后系统恢复正常，继续接收数据并进行处理。

如图3所示，本申请实施例同时提供一种电子设备，其中，包括：

数据计算引擎，其配置为至少确定分布式文件系统在预设时间段内完成的历史任务执行信息，并至少基于执行信息确定调整策略；

其中，所述调整策略用于调整当前数据预处理阶段中对待存储数据实施的数据分区策略，使至少下一预设时间段内的待存储数据经调整后的数据分区策略进行分区后，各区的数据量均满足预设存储量条件。

本申请实施例的有益效果在于数据计算引擎通过获得分布式文件系统的历史任务执行信息来确定用于调整数据分区策略的调整策略，使得基于该调整策略进行调整后的数据分区策略至少能够使在下一预设时间段内各数据区的数据量均能够满足预设存储量条件，避免有些数据区内的数据量较小，导致存储后易形成小文件的情况发生，也即，实现了避免分布式文件系统在对数据进行存储处理时产生大量小文件，影响其工作效率及扩展性的技术效果。

例如，数据计算引擎为Spark-SQL，其通过定期获取分布式文件系统(简称HDFS)在过去一周内的历史任务完成信息，然后基于该历史任务完成信息来确定当前的数据分区策略是否需要调整，并确定出相应的调整策略，并将该调整策略应用于当前的数据分区策略中，具体可在确定了分区数后交由Spark的执行器来执行，使得系统在处理下一秒开始的未来一周的数据任务时，均可基于调整后的数据分区策略对数据进行分区，保证分区后的数据量均满足预设存储量条件，从而有效保证系统不会在存储过程中因数据区内的数据量不足而导致的大量小文件的产生。

进一步地，本实施例中基于执行信息确定调整策略包括：

至少基于执行信息确定调整策略；或

至少基于执行信息以及系统当前配置参数确定调整策略。

具体地，本实施例中在基于执行信息确定调整策略时包括：

若否，则确定由第一调整策略调整当前数据分区策略。

进一步地，本实施例中的数据计算引擎还用于：

基于数据信息以及存储块的默认存储量确定预测分区数；

确定预测分区数是否大于最大分区数；

若大于，则将最大分区数替代当前分区数；

若小于，则将预测分区数替代当前分区数。

进一步地，本实施例中在执行基于执行信息以及系统当前配置参数确定调整策略时还包括：

若是，则确定由第二调整策略调整当前数据分区策略；

进一步地，继续结合上述实施例，其数据计算引擎还用于：

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种数据处理方法，其中，包括：

2.根据权利要求1所述的方法，其中，所述基于所述执行信息确定调整策略包括：

至少基于所述执行信息确定调整策略；或

3.根据权利要求2所述的方法，其中，

所述调整策略至少包括第一调整策略、第二调整策略以及第三调整策略；

4.根据权利要求3所述的方法，其中，所述至少基于所述执行信息确定所述调整策略包括：

确定所述历史任务的执行时间为0s，则确定采用所述第一调整策略调整当前数据分区策略。

5.根据权利要求3所述的方法，其中，所述至少基于所述执行信息以及系统当前配置参数确定所述调整策略包括：

确定所述历史任务的执行时间大于0s，则基于所述系统稳定信息确定所述系统是否稳定；

若是，则确定由所述第一调整策略调整当前数据分区策略。

6.根据权利要求3所述的方法，其中，所述至少基于所述执行信息以及系统当前配置参数确定所述调整策略包括：

若不稳定，则确定所述第一历史任务的执行时间是否大于所述单次最大执行时间；

若大于，则确定较先执行的第二历史任务的执行时间是否为0s，或所述第一历史任务的执行时间是否小于第二历史任务的执行时间；

若是，则确定由所述第二调整策略调整当前数据分区策略；

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求4或5所述的方法，其中，还包括：

9.根据权利要求8所述的方法，其中，所述第一调整策略至少包括将所述预测分区数替代当前数据分区策略中的分区数包括：

确定所述预测分区数是否大于最大分区数；

若大于，则将所述最大分区数替代当前分区数；

若小于，则将所述预测分区数替代当前分区数。

10.一种电子设备，其中，包括：

数据计算引擎，其配置为至少确定所述分布式文件系统在预设时间段内完成的历史任务执行信息，并至少基于所述执行信息确定调整策略；