CN108566287A

CN108566287A - 一种基于深度学习的集群服务器运维优化方法

Info

Publication number: CN108566287A
Application number: CN201810014780.3A
Authority: CN
Inventors: 黄桥藩
Original assignee: Fujian Star Software Co Ltd
Current assignee: Fujian Star Software Co Ltd
Priority date: 2018-01-08
Filing date: 2018-01-08
Publication date: 2018-09-21

Abstract

本发明提供一种基于深度学习的集群服务器运维优化方法，包括将大数据中的服务器日志文件及软件的资源配置文本进行向量化，得到向量化的日志文件数据及资源配置数据；搭建深度学习框架，且将日志文件数据及资源配置数据传输到搭建的深度学习框架中；通过搭建的深度学习框架对日志文件数据及资源配置数据进行深度学习训练，得出最优的数据模型；将数据模型加载到策略网络预测模型中，通过基于策略网络分析模型的训练方法，执行更新数据模型参数的操作，且计算出每一步行动的潜在价值并进行标准化，从而实现获取集群服务器的最优配置策略。本发明优点：可极大的降低运维人员的工作量，提高运维优化的效率，特别适合于大规模集群服务器的运维优化。

Description

一种基于深度学习的集群服务器运维优化方法

技术领域

本发明涉及服务器运维领域，特别涉及一种基于深度学习的集群服务器运维优化方法。

背景技术

随着互联网技术的快速发展，计算机网络已成为人们日常生活中必不可少的一部分了。为了不断优化网络性能，确保网络稳定运行，运维人员经常需要处理成百上千台服务器集群所生成的海量日志文件数据。现有处理方法都是通过人工来监控服务器生成的日志文件数据以及分析日志文件，再结合运维人员的经验来优化调整服务器的资源配置；但是，现有的这种处理方法存在有如下缺陷：人工监控和分析工作量庞大，效率低下，已经无法应对数量日渐庞大的服务器集群，更无法做到深入每台服务器进行数据分析。

发明内容

本发明要解决的技术问题，在于提供一种基于深度学习的集群服务器运维优化方法，通过所述运维优化方法可实现资源配置的智能运维优化，有助于极大的降低运维人员的工作量，提高运维优化的效率。

本发明是这样实现的：一种基于深度学习的集群服务器运维优化方法，所述方法包括如下步骤：

步骤S1、将大数据中的服务器日志文件以及软件的资源配置文本进行向量化，以得到向量化的日志文件数据以及资源配置数据；

步骤S2、搭建深度学习框架，且将向量化的日志文件数据以及资源配置数据传输到搭建的深度学习框架中；

步骤S3、通过搭建的深度学习框架对向量化的日志文件数据以及资源配置数据进行深度学习训练，得出最优的数据模型；

步骤S4、将得出的数据模型以及当前集群服务器资源使用情况的实时日志数据加载到策略网络预测模型中，通过基于策略网络分析模型的训练方法，执行更新数据模型参数的操作，且计算出每一步行动的潜在价值并进行标准化，从而实现获取集群服务器的最优配置策略。

进一步地，所述步骤S1具体为：

通过word2vec，并使用最小二乘算法来实现将大数据中服务器日志文件以及软件的资源配置文本进行向量化，以得到向量化的日志文件数据以及资源配置数据。

进一步地，在所述步骤S2中，所述“搭建深度学习框架”具体为：使用TensorFlow框架搭建基于卷积神经网络的深度学习框架，并根据集群服务器的计算能力构建多层卷积神经网络。

进一步地，所述步骤S3具体为：

先通过深度学习框架的多层卷积神经网络对日志文件数据以及资源配置数据进行多次卷积和池化；再使用前馈神经网络进行数据训练，得出最优的数据模型。

更进一步地，所述“使用前馈神经网络进行数据训练”包括：通过迭代计算、优化参数配置以及优化器适配的机器学习方法对数据进行多次训练。

进一步地，所述步骤S4具体为：

将得出的数据模型以及当前集群服务器资源使用情况的实时日志数据加载到策略网络预测模型中，通过基于策略网络分析模型的训练方法，先执行更新数据模型参数的操作，并将参数的梯度存储于缓冲器中，且在完成一个批量试验之后，再将总梯度更新到数据模型参数中；然后，通过discount rewards函数来计算出每一步行动的潜在价值并进行标准化，同时通过newgrads来求解梯度，并将得到的梯度进行累加，从而实现获取集群服务器的最优配置策略。

更进一步地，在基于策略网络分析模型的训练方法中，优化器采用adam算法。

本发明具有如下优点：通过本发明运维优化方法可实现智能预测出集群服务器资源配置的最优配置策略(即获得最大的软件运行性能)，不仅可有效解决集群服务器的资源倾斜问题，而且可以极大的降低运维人员的工作量，提高运维优化的效率，特别适合于大规模集群服务器的运维优化。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明种基于深度学习的集群服务器运维优化方法的执行流程图。

具体实施方式

请参阅图1所示，本发明一种基于深度学习的集群服务器运维优化方法的较佳实施例，所述方法包括如下步骤：

步骤S1、将大数据中的服务器日志文件以及软件的资源配置文本进行向量化，以得到向量化的日志文件数据以及资源配置数据；其中，将服务器日志文件和资源配置文本进行向量化的原因是：由于基于深度学习的神经网络只能输入数字，因此，必须先将日志文件和资源配置文本进行向量化后，才可以实现后续的深度学习。

所述步骤S1具体为：

通过word2vec，并使用最小二乘算法(本发明使用的是基于计算的最小二乘法)来实现将大数据中服务器日志文件以及软件的资源配置文本进行向量化，以得到向量化的日志文件数据以及资源配置数据。

其中，word2vec是Google开源的一款用于词向量计算的工具，word2vec不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练，而且通过该工具得到的训练结果——词向量(word embedding)，可以很好地度量词与词之间的相似性。最小二乘法(又称最小平方法)是一种数学优化技术，它是通过最小化误差的平方和来寻找数据的最佳函数匹配，利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。

在所述步骤S2中，所述“搭建深度学习框架”具体为：使用TensorFlow框架搭建基于卷积神经网络CNN(Convolutional Neural Networks)的深度学习框架，并根据集群服务器的计算能力构建多层卷积神经网络。在具体实施时，由于不同集群服务器的服务器数量和内核处理能力可能存在较大差别，因此，需要根据集群服务器的实际计算能力来构建卷积神经网络的层数。

所述步骤S3具体为：

先通过深度学习框架的多层卷积神经网络对日志文件数据以及资源配置数据进行多次卷积和池化；再使用前馈神经网络进行数据训练，得出最优的数据模型。其中，前馈神经网络是人工神经网络的一种，在此种神经网络中，各神经元从输入层开始，接收前一级输入，并输入到下一级，直至输出层；整个网络中无反馈，可用一个有向无环图表示。

所述“使用前馈神经网络进行数据训练”包括：通过迭代计算、优化参数配置以及优化器(Optimizer)适配的机器学习方法对数据进行多次训练。当然，本发明并不仅限于此，在具体实施时，如果还需要使用到其它的机器学习方法，也可以将其它的机器学习方法加进去。

所述步骤S4具体为：

将得出的数据模型以及当前集群服务器资源使用情况的实时日志数据加载到策略网络预测模型中，通过基于策略网络分析模型的训练方法(即Policy Gradients)，先执行更新数据模型参数的操作，在具体实施时，可通过执行updategrads来实现更新数据模型参数，并将参数的梯度存储于缓冲器(gradbuffer)中，且在完成一个批量(batch)试验之后，再将总梯度更新到数据模型参数中；然后，通过discount rewards函数来计算出每一步行动的潜在价值并进行标准化，同时通过newgrads来求解梯度，并将得到的梯度进行累加，从而实现获取集群服务器的最优配置策略，这样，操作人员在具体进行运维优化时，就可以根据获取的集群服务器的最优配置策略进行运维优化了。例如，可以通过数据模型预测计算出在某个时刻运行某个Service服务程序的可配置资源(如CPU、Memory、网络带宽、硬盘等资源参数)。

在基于策略网络分析模型的训练方法中，优化器采用adam算法。

综上所述，本发明具有如下优点：通过本发明运维优化方法可实现智能预测出集群服务器资源配置的最优配置策略(即获得最大的软件运行性能)，不仅可有效解决集群服务器的资源倾斜问题，而且可以极大的降低运维人员的工作量，提高运维优化的效率，特别适合于大规模集群服务器的运维优化。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于深度学习的集群服务器运维优化方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的一种基于深度学习的集群服务器运维优化方法，其特征在于：所述步骤S1具体为：

3.根据权利要求1所述的一种基于深度学习的集群服务器运维优化方法，其特征在于：在所述步骤S2中，所述“搭建深度学习框架”具体为：使用TensorFlow框架搭建基于卷积神经网络的深度学习框架，并根据集群服务器的计算能力构建多层卷积神经网络。

4.根据权利要求1所述的一种基于深度学习的集群服务器运维优化方法，其特征在于：所述步骤S3具体为：

5.根据权利要求4所述的一种基于深度学习的集群服务器运维优化方法，其特征在于：所述“使用前馈神经网络进行数据训练”包括：通过迭代计算、优化参数配置以及优化器适配的机器学习方法对数据进行多次训练。

6.根据权利要求1所述的一种基于深度学习的集群服务器运维优化方法，其特征在于：所述步骤S4具体为：

将得出的数据模型以及当前集群服务器资源使用情况的实时日志数据加载到策略网络预测模型中，通过基于策略网络分析模型的训练方法，先执行更新数据模型参数的操作，并将参数的梯度存储于缓冲器中，且在完成一个批量试验之后，再将总梯度更新到数据模型参数中；然后，通过discountrewards函数来计算出每一步行动的潜在价值并进行标准化，同时通过newgrads来求解梯度，并将得到的梯度进行累加，从而实现获取集群服务器的最优配置策略。

7.根据权利要求6所述的一种基于深度学习的集群服务器运维优化方法，其特征在于：在基于策略网络分析模型的训练方法中，优化器采用adam算法。