CN108566287A - 一种基于深度学习的集群服务器运维优化方法 - Google Patents

一种基于深度学习的集群服务器运维优化方法 Download PDF

Info

Publication number
CN108566287A
CN108566287A CN201810014780.3A CN201810014780A CN108566287A CN 108566287 A CN108566287 A CN 108566287A CN 201810014780 A CN201810014780 A CN 201810014780A CN 108566287 A CN108566287 A CN 108566287A
Authority
CN
China
Prior art keywords
data
deep learning
cluster server
method based
log file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810014780.3A
Other languages
English (en)
Inventor
黄桥藩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Star Software Co Ltd
Original Assignee
Fujian Star Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Star Software Co Ltd filed Critical Fujian Star Software Co Ltd
Priority to CN201810014780.3A priority Critical patent/CN108566287A/zh
Publication of CN108566287A publication Critical patent/CN108566287A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于深度学习的集群服务器运维优化方法,包括将大数据中的服务器日志文件及软件的资源配置文本进行向量化,得到向量化的日志文件数据及资源配置数据;搭建深度学习框架,且将日志文件数据及资源配置数据传输到搭建的深度学习框架中;通过搭建的深度学习框架对日志文件数据及资源配置数据进行深度学习训练,得出最优的数据模型;将数据模型加载到策略网络预测模型中,通过基于策略网络分析模型的训练方法,执行更新数据模型参数的操作,且计算出每一步行动的潜在价值并进行标准化,从而实现获取集群服务器的最优配置策略。本发明优点:可极大的降低运维人员的工作量,提高运维优化的效率,特别适合于大规模集群服务器的运维优化。

Description

一种基于深度学习的集群服务器运维优化方法
技术领域
本发明涉及服务器运维领域,特别涉及一种基于深度学习的集群服务器运维优化方法。
背景技术
随着互联网技术的快速发展,计算机网络已成为人们日常生活中必不可少的一部分了。为了不断优化网络性能,确保网络稳定运行,运维人员经常需要处理成百上千台服务器集群所生成的海量日志文件数据。现有处理方法都是通过人工来监控服务器生成的日志文件数据以及分析日志文件,再结合运维人员的经验来优化调整服务器的资源配置;但是,现有的这种处理方法存在有如下缺陷:人工监控和分析工作量庞大,效率低下,已经无法应对数量日渐庞大的服务器集群,更无法做到深入每台服务器进行数据分析。
发明内容
本发明要解决的技术问题,在于提供一种基于深度学习的集群服务器运维优化方法,通过所述运维优化方法可实现资源配置的智能运维优化,有助于极大的降低运维人员的工作量,提高运维优化的效率。
本发明是这样实现的:一种基于深度学习的集群服务器运维优化方法,所述方法包括如下步骤:
步骤S1、将大数据中的服务器日志文件以及软件的资源配置文本进行向量化,以得到向量化的日志文件数据以及资源配置数据;
步骤S2、搭建深度学习框架,且将向量化的日志文件数据以及资源配置数据传输到搭建的深度学习框架中;
步骤S3、通过搭建的深度学习框架对向量化的日志文件数据以及资源配置数据进行深度学习训练,得出最优的数据模型;
步骤S4、将得出的数据模型以及当前集群服务器资源使用情况的实时日志数据加载到策略网络预测模型中,通过基于策略网络分析模型的训练方法,执行更新数据模型参数的操作,且计算出每一步行动的潜在价值并进行标准化,从而实现获取集群服务器的最优配置策略。
进一步地,所述步骤S1具体为:
通过word2vec,并使用最小二乘算法来实现将大数据中服务器日志文件以及软件的资源配置文本进行向量化,以得到向量化的日志文件数据以及资源配置数据。
进一步地,在所述步骤S2中,所述“搭建深度学习框架”具体为:使用TensorFlow框架搭建基于卷积神经网络的深度学习框架,并根据集群服务器的计算能力构建多层卷积神经网络。
进一步地,所述步骤S3具体为:
先通过深度学习框架的多层卷积神经网络对日志文件数据以及资源配置数据进行多次卷积和池化;再使用前馈神经网络进行数据训练,得出最优的数据模型。
更进一步地,所述“使用前馈神经网络进行数据训练”包括:通过迭代计算、优化参数配置以及优化器适配的机器学习方法对数据进行多次训练。
进一步地,所述步骤S4具体为:
将得出的数据模型以及当前集群服务器资源使用情况的实时日志数据加载到策略网络预测模型中,通过基于策略网络分析模型的训练方法,先执行更新数据模型参数的操作,并将参数的梯度存储于缓冲器中,且在完成一个批量试验之后,再将总梯度更新到数据模型参数中;然后,通过discount rewards函数来计算出每一步行动的潜在价值并进行标准化,同时通过newgrads来求解梯度,并将得到的梯度进行累加,从而实现获取集群服务器的最优配置策略。
更进一步地,在基于策略网络分析模型的训练方法中,优化器采用adam算法。
本发明具有如下优点:通过本发明运维优化方法可实现智能预测出集群服务器资源配置的最优配置策略(即获得最大的软件运行性能),不仅可有效解决集群服务器的资源倾斜问题,而且可以极大的降低运维人员的工作量,提高运维优化的效率,特别适合于大规模集群服务器的运维优化。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明种基于深度学习的集群服务器运维优化方法的执行流程图。
具体实施方式
请参阅图1所示,本发明一种基于深度学习的集群服务器运维优化方法的较佳实施例,所述方法包括如下步骤:
步骤S1、将大数据中的服务器日志文件以及软件的资源配置文本进行向量化,以得到向量化的日志文件数据以及资源配置数据;其中,将服务器日志文件和资源配置文本进行向量化的原因是:由于基于深度学习的神经网络只能输入数字,因此,必须先将日志文件和资源配置文本进行向量化后,才可以实现后续的深度学习。
所述步骤S1具体为:
通过word2vec,并使用最小二乘算法(本发明使用的是基于计算的最小二乘法)来实现将大数据中服务器日志文件以及软件的资源配置文本进行向量化,以得到向量化的日志文件数据以及资源配置数据。
其中,word2vec是Google开源的一款用于词向量计算的工具,word2vec不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练,而且通过该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。最小二乘法(又称最小平方法)是一种数学优化技术,它是通过最小化误差的平方和来寻找数据的最佳函数匹配,利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。
步骤S2、搭建深度学习框架,且将向量化的日志文件数据以及资源配置数据传输到搭建的深度学习框架中;
在所述步骤S2中,所述“搭建深度学习框架”具体为:使用TensorFlow框架搭建基于卷积神经网络CNN(Convolutional Neural Networks)的深度学习框架,并根据集群服务器的计算能力构建多层卷积神经网络。在具体实施时,由于不同集群服务器的服务器数量和内核处理能力可能存在较大差别,因此,需要根据集群服务器的实际计算能力来构建卷积神经网络的层数。
步骤S3、通过搭建的深度学习框架对向量化的日志文件数据以及资源配置数据进行深度学习训练,得出最优的数据模型;
所述步骤S3具体为:
先通过深度学习框架的多层卷积神经网络对日志文件数据以及资源配置数据进行多次卷积和池化;再使用前馈神经网络进行数据训练,得出最优的数据模型。其中,前馈神经网络是人工神经网络的一种,在此种神经网络中,各神经元从输入层开始,接收前一级输入,并输入到下一级,直至输出层;整个网络中无反馈,可用一个有向无环图表示。
所述“使用前馈神经网络进行数据训练”包括:通过迭代计算、优化参数配置以及优化器(Optimizer)适配的机器学习方法对数据进行多次训练。当然,本发明并不仅限于此,在具体实施时,如果还需要使用到其它的机器学习方法,也可以将其它的机器学习方法加进去。
步骤S4、将得出的数据模型以及当前集群服务器资源使用情况的实时日志数据加载到策略网络预测模型中,通过基于策略网络分析模型的训练方法,执行更新数据模型参数的操作,且计算出每一步行动的潜在价值并进行标准化,从而实现获取集群服务器的最优配置策略。
所述步骤S4具体为:
将得出的数据模型以及当前集群服务器资源使用情况的实时日志数据加载到策略网络预测模型中,通过基于策略网络分析模型的训练方法(即Policy Gradients),先执行更新数据模型参数的操作,在具体实施时,可通过执行updategrads来实现更新数据模型参数,并将参数的梯度存储于缓冲器(gradbuffer)中,且在完成一个批量(batch)试验之后,再将总梯度更新到数据模型参数中;然后,通过discount rewards函数来计算出每一步行动的潜在价值并进行标准化,同时通过newgrads来求解梯度,并将得到的梯度进行累加,从而实现获取集群服务器的最优配置策略,这样,操作人员在具体进行运维优化时,就可以根据获取的集群服务器的最优配置策略进行运维优化了。例如,可以通过数据模型预测计算出在某个时刻运行某个Service服务程序的可配置资源(如CPU、Memory、网络带宽、硬盘等资源参数)。
在基于策略网络分析模型的训练方法中,优化器采用adam算法。
综上所述,本发明具有如下优点:通过本发明运维优化方法可实现智能预测出集群服务器资源配置的最优配置策略(即获得最大的软件运行性能),不仅可有效解决集群服务器的资源倾斜问题,而且可以极大的降低运维人员的工作量,提高运维优化的效率,特别适合于大规模集群服务器的运维优化。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (7)

1.一种基于深度学习的集群服务器运维优化方法,其特征在于:所述方法包括如下步骤:
步骤S1、将大数据中的服务器日志文件以及软件的资源配置文本进行向量化,以得到向量化的日志文件数据以及资源配置数据;
步骤S2、搭建深度学习框架,且将向量化的日志文件数据以及资源配置数据传输到搭建的深度学习框架中;
步骤S3、通过搭建的深度学习框架对向量化的日志文件数据以及资源配置数据进行深度学习训练,得出最优的数据模型;
步骤S4、将得出的数据模型以及当前集群服务器资源使用情况的实时日志数据加载到策略网络预测模型中,通过基于策略网络分析模型的训练方法,执行更新数据模型参数的操作,且计算出每一步行动的潜在价值并进行标准化,从而实现获取集群服务器的最优配置策略。
2.根据权利要求1所述的一种基于深度学习的集群服务器运维优化方法,其特征在于:所述步骤S1具体为:
通过word2vec,并使用最小二乘算法来实现将大数据中服务器日志文件以及软件的资源配置文本进行向量化,以得到向量化的日志文件数据以及资源配置数据。
3.根据权利要求1所述的一种基于深度学习的集群服务器运维优化方法,其特征在于:在所述步骤S2中,所述“搭建深度学习框架”具体为:使用TensorFlow框架搭建基于卷积神经网络的深度学习框架,并根据集群服务器的计算能力构建多层卷积神经网络。
4.根据权利要求1所述的一种基于深度学习的集群服务器运维优化方法,其特征在于:所述步骤S3具体为:
先通过深度学习框架的多层卷积神经网络对日志文件数据以及资源配置数据进行多次卷积和池化;再使用前馈神经网络进行数据训练,得出最优的数据模型。
5.根据权利要求4所述的一种基于深度学习的集群服务器运维优化方法,其特征在于:所述“使用前馈神经网络进行数据训练”包括:通过迭代计算、优化参数配置以及优化器适配的机器学习方法对数据进行多次训练。
6.根据权利要求1所述的一种基于深度学习的集群服务器运维优化方法,其特征在于:所述步骤S4具体为:
将得出的数据模型以及当前集群服务器资源使用情况的实时日志数据加载到策略网络预测模型中,通过基于策略网络分析模型的训练方法,先执行更新数据模型参数的操作,并将参数的梯度存储于缓冲器中,且在完成一个批量试验之后,再将总梯度更新到数据模型参数中;然后,通过discountrewards函数来计算出每一步行动的潜在价值并进行标准化,同时通过newgrads来求解梯度,并将得到的梯度进行累加,从而实现获取集群服务器的最优配置策略。
7.根据权利要求6所述的一种基于深度学习的集群服务器运维优化方法,其特征在于:在基于策略网络分析模型的训练方法中,优化器采用adam算法。
CN201810014780.3A 2018-01-08 2018-01-08 一种基于深度学习的集群服务器运维优化方法 Pending CN108566287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810014780.3A CN108566287A (zh) 2018-01-08 2018-01-08 一种基于深度学习的集群服务器运维优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810014780.3A CN108566287A (zh) 2018-01-08 2018-01-08 一种基于深度学习的集群服务器运维优化方法

Publications (1)

Publication Number Publication Date
CN108566287A true CN108566287A (zh) 2018-09-21

Family

ID=63529665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810014780.3A Pending CN108566287A (zh) 2018-01-08 2018-01-08 一种基于深度学习的集群服务器运维优化方法

Country Status (1)

Country Link
CN (1) CN108566287A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446041A (zh) * 2018-09-25 2019-03-08 平安普惠企业管理有限公司 一种服务器压力预警方法、系统及终端设备
CN109634736A (zh) * 2018-12-20 2019-04-16 郑州云海信息技术有限公司 深度学习系统中数据训练方法和装置
CN112766599A (zh) * 2021-01-29 2021-05-07 广州源创动力科技有限公司 一种基于深度强化学习的智能运维方法
CN113205128A (zh) * 2021-04-28 2021-08-03 华东师范大学 基于无服务器计算的分布式深度学习性能保证方法
CN113296840A (zh) * 2020-02-20 2021-08-24 银联数据服务有限公司 一种集群运维方法及装置
WO2022246793A1 (en) * 2021-05-28 2022-12-01 Telefonaktiebolaget Lm Ericsson (Publ) A classifier model for determining a network status of a communication network from log data
CN115576586A (zh) * 2022-11-15 2023-01-06 四川蜀天信息技术有限公司 一种智能运营与维护服务器的服务端程序的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951425A (zh) * 2015-07-20 2015-09-30 东北大学 一种基于深度学习的云服务性能自适应动作类型选择方法
CN105446959A (zh) * 2014-09-02 2016-03-30 阿里巴巴集团控股有限公司 日志内容审核优化方法及装置
CN107292696A (zh) * 2017-04-27 2017-10-24 深圳虫门科技有限公司 一种汽车智能导购系统以及实现方法
US20170351941A1 (en) * 2016-06-03 2017-12-07 Miovision Technologies Incorporated System and Method for Performing Saliency Detection Using Deep Active Contours
CN107515909A (zh) * 2017-08-11 2017-12-26 深圳市耐飞科技有限公司 一种视频推荐方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446959A (zh) * 2014-09-02 2016-03-30 阿里巴巴集团控股有限公司 日志内容审核优化方法及装置
CN104951425A (zh) * 2015-07-20 2015-09-30 东北大学 一种基于深度学习的云服务性能自适应动作类型选择方法
US20170351941A1 (en) * 2016-06-03 2017-12-07 Miovision Technologies Incorporated System and Method for Performing Saliency Detection Using Deep Active Contours
CN107292696A (zh) * 2017-04-27 2017-10-24 深圳虫门科技有限公司 一种汽车智能导购系统以及实现方法
CN107515909A (zh) * 2017-08-11 2017-12-26 深圳市耐飞科技有限公司 一种视频推荐方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
利炳根: ""学习笔记TF037:实现强化学习策略网络"", 《HTTPS://WWW.ITDAAN.COM/TW/650E2B80BB3FF71D534E34D37178C989,学习笔记TF037:实现强化学习策略网络》 *
王伟军等: ""基于微博公众情感状态的新产品市场预测研究"", 《情报学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446041A (zh) * 2018-09-25 2019-03-08 平安普惠企业管理有限公司 一种服务器压力预警方法、系统及终端设备
CN109634736A (zh) * 2018-12-20 2019-04-16 郑州云海信息技术有限公司 深度学习系统中数据训练方法和装置
CN113296840A (zh) * 2020-02-20 2021-08-24 银联数据服务有限公司 一种集群运维方法及装置
CN113296840B (zh) * 2020-02-20 2023-04-14 银联数据服务有限公司 一种集群运维方法及装置
CN112766599A (zh) * 2021-01-29 2021-05-07 广州源创动力科技有限公司 一种基于深度强化学习的智能运维方法
CN113205128A (zh) * 2021-04-28 2021-08-03 华东师范大学 基于无服务器计算的分布式深度学习性能保证方法
WO2022246793A1 (en) * 2021-05-28 2022-12-01 Telefonaktiebolaget Lm Ericsson (Publ) A classifier model for determining a network status of a communication network from log data
CN115576586A (zh) * 2022-11-15 2023-01-06 四川蜀天信息技术有限公司 一种智能运营与维护服务器的服务端程序的方法

Similar Documents

Publication Publication Date Title
CN108566287A (zh) 一种基于深度学习的集群服务器运维优化方法
US10360517B2 (en) Distributed hyperparameter tuning system for machine learning
CN112270545A (zh) 基于迁移样本筛选的金融风险预测方法、装置和电子设备
CN111091278B (zh) 机械设备异常检测的边缘检测模型构建方法及装置
CN108154430A (zh) 一种基于机器学习和大数据技术的信用评分构建方法
US20200372342A1 (en) Systems and methods for predictive early stopping in neural network training
CN111198817B (zh) 一种基于卷积神经网络的SaaS软件故障诊断方法及装置
CN110969251A (zh) 基于无标签数据的神经网络模型量化方法及装置
CN107563645A (zh) 一种基于大数据的金融风险分析方法
CN110147389B (zh) 帐号处理方法和装置、存储介质及电子装置
CN106803799B (zh) 一种性能测试方法和装置
US11366806B2 (en) Automated feature generation for machine learning application
US20240185025A1 (en) Flexible Parameter Sharing for Multi-Task Learning
WO2017071369A1 (zh) 一种预测用户离网的方法和设备
TW201800987A (zh) 問題推薦方法及設備
Yousefpour et al. Green federated learning
CN114462591A (zh) 一种动态量化神经网络的推理方法
CN112200684A (zh) 一种检测医保欺诈的方法、系统及存储介质
CN109977977B (zh) 一种识别潜在用户的方法及对应装置
CN115392441A (zh) 量化神经网络模型的片内适配方法、装置、设备及介质
CN113590807A (zh) 一种基于大数据挖掘的科技企业信用评价方法
CN115938600A (zh) 一种基于关联分析的心理健康状态预测方法与系统
Li et al. Filter pruning via probabilistic model-based optimization for accelerating deep convolutional neural networks
Chen et al. DNN gradient lossless compression: Can GenNorm be the answer?
CN107436865A (zh) 一种词对齐训练方法、机器翻译方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921