CN114860160A

CN114860160A - 一种针对Hadoop数据平台的扩容资源预测方法及系统

Info

Publication number: CN114860160A
Application number: CN202210396337.3A
Authority: CN
Inventors: 谭竞成; 于洋; 高经郡
Original assignee: Beijing Kejie Technology Co ltd
Current assignee: Beijing Kejie Technology Co ltd
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-08-05
Anticipated expiration: 2042-04-15
Also published as: CN114860160B

Abstract

本申请涉及一种针对Hadoop数据平台的扩容资源预测方法及系统，包括以下步骤：基于日志库的历史样本数据训练预测模型；将当前特定时段数据集输入到预测模型，得出下一特定时段的预测数据集；将当前特定时段数据集的数据分为范围内数据以及范围外数据；将范围内数据分为低热力度访问数据、高热力度访问数据；将低热力度访问数据从HDD以及DDR调出存入SSD，将高热力度访问数据从HDD以及SSD中调出存入DDR。本申请通过对下一特定时段的数据进行预测，优化了数据存储结构，提升了访问速度，使服务器的性能和存储空间的利用率得到非常高的提升；在存储不足时，能够提前对企业人员作出扩容提示，使得数据平台能够稳定运行。

Description

一种针对Hadoop数据平台的扩容资源预测方法及系统

技术领域

本申请涉及数据平台运营资源调配领域，尤其是涉及一种针对Hadoop数据平台的扩容资源预测方法及系统。

背景技术

随着网络技术的发展，越来越多的服务通过网络来提供，其中，通过网络平台来处理用户的消费、查询或者操作，用户基于网络平台提供的选项进行自助操作，以达到特定目的。hadoop是一个由Apache基金会所开发的分布式系统基础架构。它可以使用户在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。hadoop的框架最核心的设计就是HDFS和MapReduce，HDFS为海量的数据提供了存储，MapReduce则为海量的数据提供了计算。

针对上述中的相关技术，随着数据平台的数据的增长，而存储问题是无法绕开的话题，构建私有存储集群需要预留足够的内存成本很高，普通的机械硬盘与固态硬盘读取数据较慢，不适合高频率的数据调取，采用云存储数据虽然比私有存储成本部分低，但安全性和租用存储空间费用长时间存储也是不小的消耗，亟待改进。

发明内容

为了满足数据平台各业务数据调取需求的同时节约数据存储空间，本申请提供一种针对Hadoop数据平台的扩容资源预测方法及系统。

本申请提供的一种针对Hadoop数据平台的扩容资源预测方法采用如下的技术方案：

一种针对Hadoop数据平台的扩容资源预测方法，包括以下步骤：

获取日志库的样本数据，基于日志库的历史样本数据训练预测模型；

获取当前特定时段数据集；

将当前特定时段数据集输入到预测模型，得出下一特定时段的预测数据集；

基于预测数据集将当前特定时段数据集的数据分为范围内数据以及范围外数据；

计算范围内数据的数据访问热力度，根据预置的热力度基准值将范围内数据分为低热力度访问数据、高热力度访问数据；

将低热力度访问数据从HDD以及DDR调出存入SSD，将高热力度访问数据从HDD以及SSD中调出存入DDR。

通过采用上述技术方案，利用预测模型对之后特定时段的数据进行预测，得出之后时间段的数据种类，将访问热力度高的数据从HDD以及SSD中取出，存储到DDR中以便快速调取，满足数据平台各业务数据调取需求，将访问热力度低的数据从DDR中调到SSD，以节约DDR存储空间。

优选的，在基于预测数据集将当前特定时段数据集的数据分为范围内数据以及范围外数据后，还包括以下步骤：

根据预先生成的使用频率的热力图，获取范围外数据的数据频率；

根据数据频率，计算频率方差；

比较数据频率与频率方差，将范围外数据分为高频数据和低频数据；

将DDR中的高频数据存储至SSD，将DDR中的低频数据存储至HDD。

通过采用上述技术方案，由于从SSD中调取数据的速度要快于从HDD中调取的速度，将范围外数据中的高频数据存到SSD以便于快速将高频数据调取到DDR中，将低频数据存储至HDD能够有效回收DDR的空间资源，以便对范围内数据进行存储调取。

优选的，在将低频数据存储至HDD中，还包括以下步骤：

采用压缩写入的方式将低频数据存储至HDD。

通过采用上述技术方案，采用压缩写入存储数据能够有效节约HDD的存储空间。

优选的，在基于日志库的历史样本数据训练预测模型中，还包括以下步骤：

提取日志库的历史样本数据的使用率影响特征以及历史时段；

将使用率影响特征以及关联的当前历史时段并输入初始模型以训练初始模型直至初始模型召回率达到预设的期望值，输出预测模型。

通过采用上述技术方案，通过日志库的历史样本数据对预测模型进行训练，并采用召回率对预测模型的性能进行评估，使得预测模型的准确度更高。

优选的，所述使用率影响特征包括数据历史增长率、数据历史使用率以及业务模式。

通过采用上述技术方案，数据历史增长率以及数据历史使用率能够反映数据的增长趋势，每种业务模式的数据的增长趋势不同，考虑三者会使数据预测结果较为准确。

优选的，所述初始模型采用LSTM 模型。

通过采用上述技术方案，LSTM是长短期记忆网络，是一种时间递归神经网络，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现，能够较为准确的预测下一特定时间段的数据。

优选的，在将低热力度访问数据从HDD以及DDR调出存入SSD，将高热力度访问数据从HDD以及DDR中调出存入DDR后，还包括以下步骤：

在下一特定时段，记录当前特定时段的数据的日志和索引到日志库中存储。

通过采用上述技术方案，将特定时段的数据存入日志库，便于人员对数据进行搜寻，同时也便于对预测模型进行更新训练。

优选的，在记录当前特定时段的数据的日志和索引到日志库前，还包括以下步骤：

通过MD5校验，校验HDD和SSD中保存的数据在存入到DDR后的保真性，得出校验通过结果或校验不通过结果；

根据校验不通过结果，重新将对应的数据存入DDR。

通过采用上述技术方案，对访问后的数据进行校验，能够保证数据的准确性，能够及时发现损坏的数据并对其进行处理。

优选的，所述预测模型还用于输入当前特定时段数据集得出未来多个特定时段的预测数据集，在将低热力度访问数据从HDD以及DDR调出存入SSD，将高热力度访问数据从HDD以及SSD中调出存入DDR后，还包括以下步骤：

根据未来多个特定时段的预测数据集，分别计算每个特定时段存入DDR数据的数据量；

按时间先后顺序将每个特定时段存入DDR数据的数据量与DDR的剩余存储量比较，得出扩容结果或不扩容结果；

根据扩容结果以及对应的特定时间段，做出相应的扩容提示。

通过采用上述技术方案，本申请能够在预测到DDR存储量不足后，对人员进行提示，使人员能够提前对内存进行扩容，使得数据平台能够正常运行。

本申请还提供一种针对Hadoop数据平台的扩容资源预测的系统。

一种针对Hadoop数据平台的扩容资源预测的系统，包括：

模型训练模块，用于获取日志库的样本数据，基于日志库的历史样本数据训练预测模型；

数据获取模块，用于获取当前特定时段数据集；

数据预测模块，用于输入当前特定时段数据集到预测模型，得出未来时段的预测数据集；

数据范围划分模块，用于基于预测数据集将当前特定时段数据集的数据分为范围内数据以及范围外数据；以及，

数据热力度分配存储模块，用于根据热力度基准值将范围内数据分为低热力度访问数据、高热力度访问数据；将低热力度访问数据从HDD以及DDR调出存入SSD，将高热力度访问数据从HDD以及SSD中调出存入DDR。

综上所述，本申请包括以下至少一种有益技术效果：

1.本申请通过对下一特定时段的数据进行预测，调整数据存储结构，使得之后的访问数据能够从DDR中调取，提升了访问速度；

2.采用本申请的扩容资源预测方法能够使服务器的性能和存储空间的利用率得到非常高的提升；

3.本申请还能够对服务器后期时段数据增量进行预测，在存储不足时，提前对企业人员作出扩容提示，使得数据平台能够稳定运行。

附图说明

图1是本申请实施例的一种针对Hadoop数据平台的扩容资源预测方法的架构示意图。

图2是本申请实施例的一种针对Hadoop数据平台的扩容资源预测方法的第一流程示意图。

图3是本申请实施例的一种针对Hadoop数据平台的扩容资源预测方法的第二流程示意图。

图4是本申请实施例的一种针对Hadoop数据平台的扩容资源预测系统的模块框架示意图。

附图标记说明：1、模型训练模块；2、数据获取模块；3、数据预测模块；4、数据范围划分模块；5、数据频率分配存储模块；6、数据热力度分配存储模块；7、校验模块；8、日志存储模块；9、扩容预测模块。

具体实施方式

本申请实施例公开一种针对Hadoop数据平台的扩容资源预测方法。

参照图1和图2，一种针对Hadoop数据平台的扩容资源预测方法，包括以下步骤：

S1：获取日志库的样本数据，基于日志库的样本数据训练预测模型；

具体的，获取日志库中的样本数据，样本数据由若干类数据组成数据库中的数据种类根据用户的实际需要确定，比如商品数据、售后数据、维修数据，每种数据都对应使用率影响特征，使用率影响特征为每天特定时段的数据历史增长率、数据历史使用率以及业务模式，需要说明的是，特定时段可以由每天0-24:00均匀划分出，也可以由每周的时间均匀划分出，具体时间周期可以根据人员需要拟定，为方便说明，本实施例采用0-24:00均匀划分出特定时段，将当前特定时段定为T时段，特定时段之间的时间跨度相同，时间跨度不做限定，时间跨度的具体值可以是15分钟也可以是30分钟；业务模式为数据平台的经营模式，比如每月的折扣日的特殊业务模式、日常经营常规业务模式、双休日经营业务模式等，考虑到不同模式下的数据访问不同，需要考虑不同业务模式，对数据增长率、数据使用率进行预测。

在使用率影响特征提取完毕后，将使用率影响特征输入到初始模型训练初始模型，初始模型为采用python VRAE 包创建的LSTM 模型，LSTM是长短期记忆网络，是一种时间递归神经网络，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现，在某一业务模式下，初始模型对每个时段的数据历史增长率、数据历史使用率进行深度学习，初始模型通过分析从某一业务模式下，各个特定时段的数据历史增长率与数据历史使用率的变化趋势，从而预测出包括下一特定时段（T+1时段）在内的若干特定时间段的数据量，由于样本数据的选取具有随机性，会导致训练出的初始模型性能会有所差异，所以本申请通过召回率选取更优的初始模型，开始会训练多个模型，当模型的召回率超过或达到预设的期望值时，对所有模型按召回率进行排序以进行评估，输出最优模型，并回收其他模型所占据的存储资源。若模型的召回率未达到预设的期望值时，则继续训练预测模型，直到模型的召回率达到预设的期望值。

S2：获取当前特定时段数据集；

具体的，从日志库获取当前特定时段的数据集，比如获取当前特定时段18:00-18:15的数据集，数据集包括被调取的各类数据其中业务模式数据；

S3：将当前特定时段数据集输入到预测模型，得出下一特定时段的预测数据集；

具体的：将当前特定时段的数据集输入到预测模型，预测模型会根据对当前特定时段的数据集中的业务模式，推测出数据集中每种类别的数据在下一特定时段（T+1时段）的数据变化，得出每种类别的数据的数据量形成预测数据集。

S4：基于预测数据集将当前特定时段数据集的数据分为范围内数据以及范围外数据；

具体的：当前特定时段的数据集中，会有一部分不受时段影响的特殊数据、不会在该业务模式下出现的数据、不会在下一特定时段出现的数据等，该部分数据无法被预测模型准确预测需要将其另外处理，由此本申请将预测数据集将当前特定时段数据集的数据分为范围内数据以及范围外数据，范围外数据便是下一特定时段不出现的数据以及无关变量数据，范围内数据为预测中下一特定时段出现的数据。

S4：根据预先生成的使用频率的热力图，获取范围外数据的数据频率；

具体的，预先对范围外数据的使用频率进行统计，生成对应的使用频率的热力图，并将使用频率的热力图存储，在获取范围外数据的数据后，依据使用频率的热力图，查询并计算出范围外数据的数据的数据频率；

S5：根据数据频率的方差，将范围外数据分为高频数据和低频数据；

具体的，计算范围外数据的方差；将数据频率与数据频率的方差比较，数据频率大于或等于方差的划分为高频数据，数据频率小于方差的划分为低频数据；

在其他实施例中，高频数据也可以取数据频率最高的10个数据，低频数据为剩余的数据。

S6：将DDR中的高频数据存储至SSD，将DDR中的低频数据存储至HDD；

具体的，得出高频数据与低频数据后，将高频数据存储至SSD，将低频数据增改类型数据，采用压缩写入HDD中，并在DDR中将范围外数据的增、改、查数据全部释放以回收存储资源；

S7：计算范围内数据的数据访问热力度，根据热力度基准值将范围内数据分为低热力度访问数据、高热力度访问数据；

具体的，热力度基准值本实施例采用各类数据访问热力度的方差，其他实施例中也可以设置其他数值，计算出范围内数据的各个数据的热力度后，将热力度小于热力度基准值的数据划分为低热力度访问数据，反之划分为高热力度访问数据。

S8：将低热力度访问数据从HDD以及DDR调出存入SSD，将高热力度访问数据从HDD以及SSD中调出存入DDR；

具体的，在划分出高热力度访问数据与低热力度访问数据后，对于低热力度访问数据，处理频率低，处理时间充足，无需太快的处理速度，只需要采用SSD存储即可，首先获取低热力度访问数据最近一次缓存位置；如HDD中提取出来格式化移入SSD中即可，DDR中低热力度访问数据的从内存中提取出来写入到SSD中，不再占用DDR存储空间，以使DDR存储空间能够专用于处理高热力度的数据，给以人员更为优越的访问体验，并且无需对DDR存储空间进行扩容，节约了成本；对于高热力度访问数据，则应对高热力度访问数据的高访问频率，则需要保证高热力度访问数据能够被快速调取，所以将最近一次外部存储在HDD中的高热力度访问数据解压到DDR中，在SSD中存储的高热力度访问数据缓存到DDR中便于业务需求的使用，以调高高热力度访问数据的调取速度。

S9：通过MD5校验，校验HDD和SSD中保存的数据在存入到DDR后的保真性，得出校验通过结果或校验不通过结果；根据校验不通过结果，重新将对应的数据存入DDR；

具体的，在高热力度访问数据从HDD或SSD解压移动到DDR后，被访问调取使用后，可能会出现数据丢失、出现乱码等现象，导致数据错误，在高热力度访问数据从HDD或SSD解压移动到DDR的同时，将高热力度访问数据存储到数据通道中，删除HDD或SSD中的高热力度访问数据，再使用MD5算法进行校验DDR中高热力度访问数据的保真性，若是校验通过则得出校验通过结果，得出校验通过结果后删除移动前的高热力度访问数据的数据块以及数据通道中高热力度访问数据的数据块，进行下一步，校验不通过得出校验不通过结果，根据校验不通过结果，重新将高热力度访问数据的数据块从数据通道中存入DDR，格式化数据通道中的高热力度访问数据的数据块。

S10：参照图1和图3，在下一特定时段，记录当前特定时段的数据日志和索引到日志库中存储。

具体的，在T+1时段结束后的下一特定时段即T+2时段中，将T+1时段的DDR中的生产数据日志和索引记录到日志库中作为样本数据，以便之后继续对预测模型进行更新训练。

S11：获取未来若干特定时段存入DDR数据的数据量以及DDR的剩余存储量，按时间先后顺序将若干特定时段存入DDR数据的数据量与DDR的剩余存储量比较，得出扩容结果或不扩容结果；

具体的，为避免存入DDR中的数据量过大但DDR内存空间不够而导致数据平台无法正常运转的情况发生，对未来若干特定时段（T+N时段）存入DDR数据的数据量即高热力度访问数据的数据量进行预测，统计每个特定时段的高热力度访问数据的数据量，按时间先后顺序将每个特定时段的高热力度访问数据的数据量与DDR的剩余存储量比较，存入DDR数据的数据量小于DDR的剩余存储量则得出不扩容结果，反之得出扩容结果；例如在未来5个特定时段中，第三个特定时段的高热力度访问数据的数据量大于DDR的剩余存储量则得出扩容结果，说明经过三个特定时段后DDR的存储空间不够用需要扩容。

S12：根据扩容结果与对应的特定时段，做出相应的扩容提示；

具体的，在得出扩容结果后，通过智能机对人员作出语音提示或文字提示以告知人员需要在对应的特定时段前对DDR进行扩容，以免数据平台的正常运行受到影响，此外智能机根据数据平台每秒处理数据量，对数据平台的性能进行评估，能够得出运用本方法的数据平台性能大大超出常规平台。

最后需要说明的是HDD为电脑硬盘，软件层采用以Hadoop hdfs为基础扩展的数仓，如用Hbase列存储充分理由他的读数据快的优势从hdfs上读数据等，SSD为固态硬盘，软件层采用数据库，根据用户已有的如mysql和oracle 等关系型数据库等，DDR为高速缓存，软件层采用redis。

本申请实施例一种针对Hadoop数据平台的扩容资源预测方法的实施原理为：用服务器内历史样本数据训练预测模型，使得预测模型能够对下一15分钟（特定时段）后数据使用进行预测，根据使用的数据改变存储结果，将热力度高的数据存储到DDR中，将热力度低的数据存储到SSD中，以便于之后访问者能够顺利对数据进行调取，并且对预测范围外的无关变量数据或之后15分钟不使用的数据，则将使用频率高的高频数据存储到SSD，使用频率低的低频数据存储到HDD中，使其不占用内存不影响预测范围内数据的调取。

本申请实施例还公开一种针对Hadoop数据平台的扩容资源预测方法的系统。

参照图4，一种针对Hadoop数据平台的扩容资源预测方法的系统，包括：

模型训练模块1，用于获取日志库的样本数据，基于日志库的历史样本数据训练预测模型；

数据获取模块2，用于获取当前特定时段数据集；

数据预测模块3，用于输入当前特定时段数据集到预测模型，得出未来时段的预测数据集；

数据范围划分模块4，用于基于预测数据集将当前特定时段数据集的数据分为范围内数据以及范围外数据；

数据频率分配存储模块5，用于根据预先生成的使用频率的热力图，获取范围外数据的数据频率；根据数据频率，计算频率方差；比较数据频率与频率方差，将范围外数据分为高频数据和低频数据；将DDR中的高频数据存储至SSD，将DDR中的低频数据存储至HDD。

数据热力度分配存储模块6，用于根据热力度基准值将范围内数据分为低热力度访问数据、高热力度访问数据；将低热力度访问数据从HDD以及DDR调出存入SSD，将高热力度访问数据从HDD以及SSD中调出存入DDR；

校验模块7，用于通过MD5校验，校验HDD和SSD中保存的数据在存入到DDR后的保真性，得出校验通过结果或校验不通过结果；根据校验不通过结果，重新将对应的数据存入DDR；

日志存储模块8，用于在下一特定时段，记录当前特定时段的数据的日志和索引到日志库中存储；

以及扩容预测模块9，用于获取存入DDR数据的数据量以及DDR的剩余存储量；比较存入DDR数据的数据量与DDR的剩余存储量，得出扩容结果或扩容结果；根据扩容结果，做出扩容提示响应。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种针对Hadoop数据平台的扩容资源预测方法，其特征在于，包括以下步骤：

获取当前特定时段数据集；

2.根据权利要求1所述的一种针对Hadoop数据平台的扩容资源预测方法，其特征在于，在基于预测数据集将当前特定时段数据集的数据分为范围内数据以及范围外数据后，还包括以下步骤：

根据数据频率，计算频率方差；

将DDR中的高频数据存储至SSD，将DDR中的低频数据存储至HDD。

3.根据权利要求1所述的一种针对Hadoop数据平台的扩容资源预测方法，其特征在于，在将低频数据存储至HDD中，还包括以下步骤：

采用压缩写入的方式将低频数据存储至HDD。

4.根据权利要求1所述的一种针对Hadoop数据平台的扩容资源预测方法，其特征在于，在基于日志库的历史样本数据训练预测模型中，还包括以下步骤：

5.根据权利要求4所述的一种针对Hadoop数据平台的扩容资源预测方法，其特征在于：

所述使用率影响特征包括数据历史增长率、数据历史使用率以及业务模式。

6.根据权利要求4所述的一种针对Hadoop数据平台的扩容资源预测方法，其特征在于：所述初始模型采用LSTM 模型。

7.根据权利要求1所述的一种针对Hadoop数据平台的扩容资源预测方法，其特征在于，在将低热力度访问数据从HDD以及DDR调出存入SSD，将高热力度访问数据从HDD以及DDR中调出存入DDR后，还包括以下步骤：

8.根据权利要求7所述的一种针对Hadoop数据平台的扩容资源预测方法，其特征在于，在记录当前特定时段的数据的日志和索引到日志库前，还包括以下步骤：

根据校验不通过结果，重新将对应的数据存入DDR。

9.根据权利要求8所述的一种针对Hadoop数据平台的扩容资源预测方法，其特征在于，所述预测模型还用于输入当前特定时段数据集得出未来多个特定时段的预测数据集，在将低热力度访问数据从HDD以及DDR调出存入SSD，将高热力度访问数据从HDD以及SSD中调出存入DDR后，还包括以下步骤：

10.一种基于权利要求1-9任意一条所述的针对Hadoop数据平台的扩容资源预测方法的系统，其特征在于，包括：

模型训练模块(1)，用于获取日志库的样本数据，基于日志库的历史样本数据训练预测模型；

数据获取模块(2)，用于获取当前特定时段数据集；

数据预测模块(3)，用于输入当前特定时段数据集到预测模型，得出未来时段的预测数据集；

数据范围划分模块(4)，用于基于预测数据集将当前特定时段数据集的数据分为范围内数据以及范围外数据；以及，

数据热力度分配存储模块(6)，用于根据热力度基准值将范围内数据分为低热力度访问数据、高热力度访问数据；将低热力度访问数据从HDD以及DDR调出存入SSD，将高热力度访问数据从HDD以及SSD中调出存入DDR。