CN115941696A

CN115941696A - 异构大数据分布式集群存储优化方法

Info

Publication number: CN115941696A
Application number: CN202211573939.8A
Authority: CN
Inventors: 黑新宏; 李杨; 王一川; 高文; 杨明松; 朱磊; 姬文江
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-04-07

Abstract

本发明公开了异构大数据分布式集群存储优化方法,具体包括：步骤1，数据预处理；步骤2，分别对数据块特征和分布式集群节点进行预测评估；步骤3，根据建立数学优化模型预测出的结果动态调整数据副本存储优化策略；步骤4，大数据分布式集群存储优化策略在每天数据处理任务集中运行前1小时运行；步骤5，将收集截止数据持久化到mysql数据库中；步骤6，将步骤5中收集的分布式集群数据块特征模型数据和分布式集群节点特征模型数据分别回流至分布式集群数据块特征数据集和分布式集群节点评价指标数据集中。在对业务系统无影响的前提下，通过对数据副本存储策略动态调整，实现提高集群数据处理任务效率和存储空间利用率的目标。

Description

异构大数据分布式集群存储优化方法

技术领域

本发明涉及数据处理技术领域，具体为异构大数据分布式集群存储优化方法。

背景技术

近年来，随着大数据时代的蓬勃发展，大数据分布式集群作为云计算的存储基础发挥着越来越重要的作用。现有的异构大数据分布式集群存储优化方法有四个缺陷：

(1)未根据数据块访问频率动态和大小调整副本存储策略

理想的分布式集群存储优化技术根据数据块访问频率和数据块大小这两个因素，将动态副本存储策略分为三步：1)首先根据集群内所有数据块访问频率确定数据块副本个数和存储介质是否需要变化；2)针对需要改变的副本个数和存储介质的数据块大小确定是否需要合并小文件；3)根据副本调整策略将需要合并后的小文件和大文件改变副本个数和存储介质。因在调整副本个数和存储介质过程中，会产生文件的复制、删除和移动操作，故需通过合并小文件降低对集群节点的内存、磁盘I/O资源的消耗。而现有的分布式集群存储优化技术在调整副本策略时未考虑数据块大小的因素，导致在副本调整过程中，产生了非必要的内存、磁盘I/O资源的消耗，对集群本身的数据处理任务效率产生了影响；

(2)未根据数据处理任务类型选择硬件资源最优的集群节点

在商用分布式集群中，由于业务发展一般不会有较大的变动，故支撑业务系统的数据处理任务所需要的数据表、计算逻辑及其本身的任务类型相对来说较为固定，其主要分为I/O密集型和计算密集型两种任务，这两种任务对集群节点的硬件需求不一致，如I/0密集型任务相较于其它硬件资源来说对磁盘I/O和内存更为敏感，而计算密集型则对CPU频率及CPU利用率和内存更为敏感。基于上述背景，理想的工程做法为：针对集群内所有数据处理任务根据其任务类型将所需的数据块提前放置到所需硬件资源更高的节点上，便于数据处理任务的快速执行，尽量避免因高性能节点在执行完自己的任务后去申请远地的Map备份任务过程中产生网络拥塞，使得集群内数据处理任务效率降低。而现有的分布式集群存储优化技术在调整副本放置位置时未考虑数据处理任务类型的影响，可能会导致数据块存放位置在数据处理任务的对应硬件资源较差的节点上，进而在数据处理任务执行过程中出现网络拥塞的情况，最终使得集群内数据处理任务效率降低；

(3)副本策略调整过程中未考虑集群节点实时性能

在数据副本调整过程中可能需要调整数据块存储节点，会产生节点间的数据迁移操作，会消耗集群节点网络、内存、磁盘I/O资源，对集群内业务正常运行产生影响。而现有的分布式集群存储优化技术在副本策略调整过程中未考虑节点的性能和实时负载情况，容易导致集群出现负载失衡现象，影响业务系统的正常运行；

(4)未完成模型的数据闭环

现有的分布式集群存储优化技术基本都是通过机器学习算法对数据块特征和集群节点性能特征进行分析挖掘来预测数据块在未来一段时间的使用频率和集群性能。一般来说，机器学习算法的准确度随着数据集的增加而提升。而现有的集群存储优化技术没有对分布式集群数据块特征、分布式集群节点特征和模型预测值及实际值持续收集，导致分布式集群数据访问特征评估模型和分布式集群节点性能特征评估模型无法随着模型的持续运行来提升模型准确度。

因此有必要提出一种异构大数据分布式集群存储优化方法。

发明内容

本发明公开了一种异构大数据分布式集群存储优化方法，针对I/O密集型和计算密集型数据处理任务，使用神经网络算法对数据块特征和大数据分布式集群的节点状态进行分析挖掘并针对性的提出存储优化策略，并将模型预测结果数据回流，用来提高大数据分布式集群副本优化策略的效果。

为实现上述目的，本发明提供如下技术方案：异构大数据分布式集群存储优化方法，具体包括以下步骤：

步骤1，数据预处理：使用大数据集群管理工具和分布式存储平台的操作日志收集集群节点的状态数据和HDFS访问数据，通过空值处理、数据标准化处理和类别型特征处理手段对样本数据预处理操作；

步骤2，通过建立分布式数据块特征模型和分布式集群节点综合评估模型两个模型，分别对数据块特征和分布式集群节点进行预测评估，得出未来一段时间的数据块的热度值和节点状态情况，为制定优化策略提供数据支撑；

步骤3，制定优化策略是执行策略的基础，根据建立数学优化模型预测出的结果动态调整数据副本存储策略，包含副本的数量、副本存储介质、副本存储的位置和小文件的合并操作；

步骤4，大数据分布式集群存储优化策略在每天数据处理任务集中运行前1小时运行，以便减少对集群存储空间的消耗；

步骤5，收集截止数据处理任务运行时的分布式集群数据块特征、数据处理任务运行时的分布式集群节点特征、分布式集群数据块特征模型预测值及实际值、分布式集群节点特征模型预测值及实际值并持久化到mysql数据库中，用以持续提升分布式集群数据块特征模型和分布式集群节点特征模型的准确度；

步骤6，将步骤5中收集的分布式集群数据块特征模型数据和分布式集群节点特征模型数据分别回流至分布式集群数据块特征数据集和分布式集群节点评价指标数据集中，便于优化模型评估准确度。

优选的，所述步骤1具体包括以下步骤：

步骤1.1，空值处理

利用Python将含有空值的数据行筛选出，对空值进行插值处理，综合对比利用拉格朗日插值法、牛顿插值法、KNN插值及KNN插值改进方法，最终选择重心拉格朗日插值法对数据集空值进行插值处理，插值函数如下：

公式(1)中：

n表示数据集的总行数，x表示空值的位置，x_i、x_j表示自变量的值(或位置)，ω_i表示重心权重，y_i表示自变量(或位置)为x_i时的取值；

步骤1.2，数据标准化处理

为了避免数据样本特征之间的量纲影响和过拟合问题，故利用Python对数据样本进行标准化处理，标准化处理选择z-score(标准分数)函数，z-score函数如下：

其中:u代表样本的均值，σ代表样本数据的标准差；

1.3类别型特征处理

利用Python将含有的类别型特征筛选出，将类别型特征处理转换成数值性特征，Categorical函数对数据集中类别型特征进行处理。

优选的，所述步骤2具体包括以下步骤：

步骤2.1分布式数据块特征模型

分布式数据块特征模型分为基于GRU(门控循环)神经网络的数据块热度预测算法和基于ARIMA-LSTM(差分自回归移动平均模型-长短期记忆网络模型)混合模型的数据块分类算法两部分；

基于GRU神经网络的数据块热度预测算法为：

通过GRU神经网络预测数据块热度，并根据数据块热度得出适合该数据块的副本数量和存储策略；流程为：首先确定影响异构分布式存储节点实时性能的因素为实时访问频率和数据块大小，并对这些因素进行实时采集存储；然后通过GRU神经网络计算出数据块热度；最后结合历史数据块热度将预测大数据分布式集群的副本数量和存储策略；

基于ARIMA-LSTM混合模型的数据块分类算法为：

ARIMA-LSTM混合模型预测数据块的大小分类并分析出文件大小的范围；流程为：对小文件负载序列进行预处理操作，剔除序列中的异常数据；随后，利用ARIMA(差分整合移动平均自回归模型)模型对预处理之后的小文件负载序列的线性部分进行拟合训练，将训练好的模型进行预测得到线性预测的结果；其次，利用LSTM(长短期记忆人工神经网络)模型去训练小文件负载序列的残差序列，将训练好的模型进行预测得到非线性预测的结果；最后，将两个模型的结果线性相加得到混合模型的预测结果；

步骤2.2分布式集群节点综合评估模型

分布式集群节点综合评估模型在I/O密集型和计算密集型两种数据处理任务背景下，分别采用基于动态反馈的负载均衡算法和基于神经网络反馈机制的负载均衡算法进行异构分布式存储节点的综合评价，具体条件如下：

基于动态反馈的负载均衡算法针对I/O密集型数据处理任务条件下的分布式存储节点综合评价方法，流程为：首先确定影响异构分布式存储节点实时性能的因素为CPU频率、CPU利用率、内存使用率、磁盘I/O使用率、网络带宽使用率、命令响应时间和命令队列长度，并对这些因素进行实时采集存储；然后计算出异构节点的实时性能反馈值；最后结合历史性能反馈值，选出大数据分布式集群的状态最优节点列表；

基于神经网络反馈机制的负载均衡算法针对计算密集型数据处理任务条件下的分布式存储节点综合评价方法，流程为：首先确定影响异构分布式存储节点影响因素为CPU频率、CPU利用率、内存使用率、磁盘I/O使用率和网络带宽使用率作为参数值，然后利用这些参数值与初始化的阈值进行比较，从而得到节点i的负载比R(S)、i服务器节点的处理能力极值与实时负载比值之比；最后，结合历史节点负载率情况，选出大数据分布式集群的状态最优节点列表。

优选的，所述步骤3具体包括以下步骤：步骤3.1，采用大数据分布式集群优化策略库。

根据文件热度的不同通过设置副本的个数、副本存储介质和副本存储节点来实现数据文件副本存储机制和数据文件副本与计算节点间最优放置；

根据文件大小类别的不同可通过合并小文件方法来实现小文件的合理放置；

步骤3.2，采用大数据分布式集群执行工具库设置副本个数、副本存储策略、副本存储位置、合并小文件；

步骤3.3，制定优化策略

首先分别通过分布式集群数据块特征模型和分布式集群节点综合评估模型得出特定数据块的访问特征、大小类别和特定数据处理任务类别下的最优节点列表；然后根据数据块的访问特征、大小类别在大数据分布式集群优化策略库匹配适合的优化策略；其次根据优化策略在大数据分布式集群执行工具库匹配出优化方法，最终实现数据文件副本存储机制和数据文件副本与计算节点间最优放置。在对业务系统无影响的前提下，通过对数据副本存储策略动态调整，实现提高集群数据处理任务效率和存储空间利用率的目标。

与现有技术相比，本发明的有益效果如下：

(1)本发明较为系统地建立了大数据分布式集群存储优化策略库和大数据分布式集群执行工具库，后期可对分布式集群存储优化经验进行提取，将优化策略和策略执行方法分别加入到大数据分布式集群存储优化策略库和大数据分布式集群执行工具库，为智能化运维打下基础，从而提高大数据分布式集群优化策略执行的便捷性；

(2)本发明综合考虑数据块访问频率动态和大小来调整副本存储策略，将动态副本存储策略分为三步：1)首先根据集群内所有数据块访问频率确定数据块副本个数和存储介质是否需要变化；2)针对需要改变的副本个数和存储介质的数据块大小确定是否需要合并小文件；3)根据副本调整策略将需要合并后的小文件和大文件改变副本个数和存储介质，减少了副本调整过程中的非必要的内存、磁盘I/O资源消耗。

(3)本发明调整副本放置位置时根据数据处理任务类型调整数据块副本存储节点，根据数据处理任务类型将所需的数据块提前放置到所需硬件资源更高的节点上，便于数据处理任务的快速执行，避免网络拥塞情况的出现，提高集群内数据处理任务效率；

(4)本发明在数据副本调整过程中考虑集群节点网络、内存、磁盘I/O资源的实时性能，降低对集群内业务正常运行产生的影响；

(5)本发明可持续收集分布式集群数据块特征、分布式集群节点特征和及其对应的模型预测值及实际值，用以提升分布式集群数据特征评估模型和分布式集群节点性能特征评估模型的准确度。

附图说明

图1为本发明实施例的第一组实验效果；

图2为本发明实施例的第一组实验效果；

图3为本发明实施例的第一组实验效果。

具体实施方式

下面将结合本发明实施例中的本发明附图，对本发明实施例中的本发明技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例，按照本发明的一种异构大数据分布式集群存储优化方法进行实验，实验环境和实验组别设置如下：

(1)实验环境

实验基于Hadoop3.1.1版本，以云平台上13台异构虚拟机组成的Hadoop集群为试验环境，以大数据基准测试套件Hibench内置的Sort、WordCount算法分别作为I/0密集型和计算密集型数据处理任务，分三组不同规模大小的作业集分别对HDFS默认副本策略和本专利中的改进策略进行实验验证，实验将每组负载数据集分30次提交到集群进行测试，分别运行30次取平均值，以节点CPU最大使用率、内存平均使用率、节点平均负载和作业平均运行时长作为存储优化效果评价指标。

(2)实验组别设置

以下三组实验均采用Sort、WordCount算法分别作为I/0密集型和计算密集型数据处理任务，其中第一组、第二组和第三组实验输入的数据集大小分别为1G、10G和100G。

实验效果如下：

(1)第一组实验效果如图1

(2)第二组实验效果如图2

(3)第三组实验效果如图3

实验总结如下

对三组实验结果进行均值处理，结果表明，异构大数据分布式集群存储优化算法有效解决了空间浪费和系统整体性能低下问题，整体上提高了作业执行效率。数据处理任务在小、中、大数据样本集上任务平均运行时长分别提升23.11％、21.82％、11.76％。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.异构大数据分布式集群存储优化方法，其特征在于，具体包括以下步骤：

步骤1，数据预处理：使用大数据集群管理工具和分布式存储平台的操作日志收集集群节点的状态数据和HDFS访问数据，作为样本数据；通过空值处理、数据标准化处理和类别型特征处理手段对样本数据预处理操作；

步骤3，制定优化策略是执行策略的基础，根据建立数学优化模型预测出的结果动态调整数据存储优化策略包含设置副本的数量、存副本储介质、副本存储的位置和小文件合并操作；

2.根据权利要求1所述的异构大数据分布式集群存储优化方法，其特征在于，所述步骤1具体包括以下步骤：

步骤1.1，空值处理

公式(1)中：

步骤1.2，数据标准化处理

为了避免数据样本特征之间的量纲影响和过拟合问题，故利用Python对数据样本进行标准化处理，标准化处理选择z-score函数，z-score函数如下：

其中:u代表样本的均值，σ代表样本数据的标准差；

1.3类别型特征处理

3.根据权利要求1所述的异构大数据分布式集群存储优化方法，其特征在于，所述步骤2具体包括以下步骤：

步骤2.1分布式数据块特征模型

分布式数据块特征模型分为基于GRU神经网络的数据块热度预测算法和基于ARIMA-LSTM混合模型的数据块分类算法两部分；

基于GRU神经网络的数据块热度预测算法为：

基于ARIMA-LSTM混合模型的数据块分类算法为：

ARIMA-LSTM混合模型预测数据块的大小分类并分析出文件大小的范围；流程为：对小文件负载序列进行预处理操作，剔除序列中的异常数据；随后，利用ARIMA模型对预处理之后的小文件负载序列的线性部分进行拟合训练，将训练好的模型进行预测得到线性预测的结果；其次，利用LSTM模型去训练小文件负载序列的残差序列，将训练好的模型进行预测得到非线性预测的结果；最后，将两个模型的结果线性相加得到混合模型的预测结果；

步骤2.2分布式集群节点综合评估模型

4.根据权利要求1所述的异构大数据分布式集群存储优化方法，其特征在于，所述步骤3具体包括以下步骤：步骤3.1，采用大数据分布式集群优化策略库

步骤3.3，制定优化策略

首先分别通过分布式集群数据块特征模型和分布式集群节点综合评估模型得出特定数据块的访问特征、大小类别和特定数据处理任务类别下的最优节点列表；然后根据数据块的访问特征、大小类别在大数据分布式集群优化策略库匹配适合的优化策略；其次根据优化策略在大数据分布式集群执行工具库匹配出优化方法，最终实现数据文件副本存储机制和数据文件副本与计算节点间最优放置。