CN117194188A - 服务器健康诊断的方法、系统、电子设备及存储介质 - Google Patents

服务器健康诊断的方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN117194188A
CN117194188A CN202311083282.1A CN202311083282A CN117194188A CN 117194188 A CN117194188 A CN 117194188A CN 202311083282 A CN202311083282 A CN 202311083282A CN 117194188 A CN117194188 A CN 117194188A
Authority
CN
China
Prior art keywords
server
historical data
time sequence
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311083282.1A
Other languages
English (en)
Inventor
邱允
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202311083282.1A priority Critical patent/CN117194188A/zh
Publication of CN117194188A publication Critical patent/CN117194188A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种服务器健康诊断的方法、系统、电子设备及存储介质,该方法包括:采集服务器的历史数据,所述历史数据包括服务器的各项指标数据;将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型;获取新的观测值,并将所述新的观测值输入至训练完成的时间序列模型中得到预测结果;根据所述预测结果,对服务器的健康状况进行诊断。通过本发明实施例,实现了对服务器未来可能发生的故障的预测,提升了服务器的整体性能和效率。

Description

服务器健康诊断的方法、系统、电子设备及存储介质
技术领域
本发明涉及健康诊断技术领域,特别是涉及一种服务器健康状况诊断的方法、系统、电子设备以及计算机可读存储介质。
背景技术
服务器是一种专用计算机设备,用于存储、处理和提供数据、应用程序和服务,以满足组织或者企业的需求,服务器的生产工艺是一个复杂而精密的过程,需要由多个步骤和环节来完成,每个环节又涉及众多的领域,如何确保服务器生产的良品率是服务器生产制造领域中需要重点关注的一个事项。因此,在服务生产制造过程中需要对服务器进行健康诊断。
现有技术中,通常基于规则和日志分析对服务器进行健康诊断,这种方案首先需要定义一系列的规则,然后,通过对服务器在生产制造过程中产生的日志数据进行分析,提取有助于故障分析的数据,最后,将提取出的有助于故障分析的数据与定义的规则进行匹配,根据规则匹配的结果,描述诊断的问题、问题的严重程度、建议的解决方案等信息,并将这些警告信息以邮件的形式通知运维团队。
但是,目前的方案需要事先定义一系列的规则来判断服务器健康状况,而服务器环境复杂多变,很难通过有限的规则来涵盖所有可能的故障情况,无法通过现有的规则识别新出现的问题,导致健康诊断不准确或无法诊断出问题。
发明内容
本发明实施例是提供一种服务器健康诊断的方法、装置、电子设备以及计算机可读存储介质,以解决现有规则无法识别新出现的问题,导致健康诊断不准确或无法诊断出问题的情况。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明提供一种服务器健康诊断的方法,所述方法包括:
采集服务器的历史数据,所述历史数据包括服务器的各项指标数据;
将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型;
获取新的观测值,并将所述新的观测值输入至训练完成的时间序列模型中得到预测结果;
根据所述预测结果,对服务器的健康状况进行诊断。
可选的,所述服务器的各项指标数据包括以下任一项或多项:CPU规格信息、CPU使用率、内存规格信息、内存带宽和内存的读取速率、服务器负载、网络流量。
可选的,在所述采集服务器的历史数据之后,所述方法还包括:
对采集到的历史数据进行预处理,得到预处理后的历史数据,包括:
对采集到的历史数据进行清洗和转换,并在数据清洗时,检测、处理数据中的异常值和缺失值;
对所述预处理后的历史数据进行特征提取;
建立时间序列模型;
在所述将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型之后,所述方法还包括:
对所述时间序列模型进行持续性评估,包括:
将所述历史数据输入至训练完成的时间序列模型;
计算正确率,召回率以及F1值。
可选的,所述将所述新的观测值输入至训练完成的时间序列模型中得到预测结果之后,所述方法还包括:
监测服务器的性能指标,得到实际观测值;
将所述实际观测值与所述预测结果进行比较,根据比较结果调整模型参数;
根据调整后的模型参数对时间序列模型进行优化。
可选的,所述历史数据还包括日志文件,所述方法还包括:当所述时间序列模型识别到异常时,提取出服务器系统的日志文件,判断服务器是否发生故障。
可选的,所述方法还包括:采集服务器的环境参数,所述环境参数包括以下任一项或多项:温度、湿度、电压、风扇转速。
可选的,根据所述预测结果,对服务器未来的健康状况进行诊断,包括:
根据预测结果,判断服务器的健康状况;
根据服务器的健康状况,判断服务器可能发生的故障,生成修复策略。
第二方面,本发明提供一种服务器健康诊断的系统,所述系统包括:
第一采集模块,用于采集服务器的历史数据,所述历史数据包括服务器的各项指标数据;
模型训练模块,用于将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型;
预测模块,用于获取新的观测值,并将所述新的观测值输入至训练完成的时间序列模型中得到预测结果;
诊断模块,用于根据所述预测结果,对服务器的健康状况进行诊断。
可选的,所述系统还包括:
预处理模块,用于对采集到的历史数据进行预处理,得到预处理后的历史数据,所述预处理模块,具体用于对采集到的历史数据进行清洗和转换,并在数据清洗时,检测、处理数据中的异常值和缺失值;
特征提取模块,用于对所述预处理后的历史数据进行特征提取;
模型建立模块,用于建立时间序列模型;
模型评估模块,用于对对所述时间序列模型进行持续性评估,所述模型评估模块具体用于:
将历史数据输入至训练完成的时间序列模型;
计算正确率,召回率以及F1值。
可选的,所述系统还包括:
监测模块,用于检测服务器的性能指标,得到实际观测值;
比较模块,用于将所述实际观测值与所述预测结果进行比较,根据比较结果调整模型参数;
模型优化模块,用于根据调整后的模型参数对时间序列模型进行优化。
可选的,所述系统还包括:
异常判断模块,用于当所述时间序列模型识别到异常时,提取出服务器系统的日志文件,判断服务器是否发生故障。
可选的,所述诊断模块包括:
第一诊断模块,用于根据预测结果,判断服务器的健康状况;
第二诊断模块,用于根据服务器的健康状况,判断服务器可能发生的故障,生成修复策略。
第三方面,本发明提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如本发明实施例所述的方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本发明实施例所述的方法。
本发明实施例包括以下优点:
在本发明实施例中,通过采集服务器的历史数据,所述历史数据包括服务器的各项指标数据;将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型;获取新的观测值,并将所述新的观测值输入至训练完成的时间序列模型中得到预测结果;根据所述预测结果,对服务器的健康状况进行诊断通过本发明实施例,实现了对服务器未来可能发生的故障的预测,提升了服务器的整体性能和效率。
附图说明
图1是本发明实施例中提供的一种服务器健康诊断的方法的步骤流程图;
图2是本发明实施例中提供的一种内存读取速率随老化时间的变化折线图;
图3是本发明实施例中提供的另一种服务器健康诊断的方法的步骤流程图;
图4是本发明实施例中提供的一种服务器健康诊断的系统的结构框图;
图5是本发明实施例中提供的一种电子设备的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
服务器是一种专用计算机设备,用于存储、处理和提供数据、应用程序和服务,以满足组织或者企业的需求。服务器通常具有较高的计算能力、内存容量和存储空间,以支持大规模的数据处理和并发访问。
服务器的生产工艺是一个复杂而精密的过程,需要由多个步骤和环节来完成,每个环节又涉及众多的领域,例如硬件和软件、散热和电源、远程管理和监控等。如何确保服务器生产的良品率是服务器生产制造领域中需要重点关注的一个事项。因此在服务生产制造过程中需要对服务器进行健康诊断,用于确保生产出的服务器产品在性能、可靠性和稳定性方面符合预期。
服务器健康诊断是在服务器生产制造过程中进行质量管理和控制的重要手段。相关技术中,基于规则和日志分析对服务器健康进行诊断,该技术方案首先需要定义一系列的规则,这些规则基于对服务器的行为、性能、和状态的理解。规则包括针对特定问题的规则:如CPU、内存、硬盘、网卡等部件是否符合规格,CPU的使用率超过阈值、磁盘空间不足等,此外,在服务器生产制造过程中,服务器会产生各种类型的日志数据,包括操作系统日志、应用程序日志、网络日志等,通过对服务器日志进行分析,可以提取有助于故障分析的数据,并与定义的规则进行匹配,根据规则匹配的结果,描述诊断的问题、问题的严重程度、建议的解决方案等信息,并将这些警告信息以邮件的形式通知运维团队。
但是这种方案通常需要事先定义一系列的规则来判断服务器健康状况。然而,服务器环境复杂多变,很难通过有限的规则来涵盖所有可能的故障情况,新出现的问题可能无法被现有的规则所识别,导致健康诊断不准确或无法诊断出问题。此外该技术还依赖于收集的服务器日志数据的质量和完整性,如果日志记录不完整、日志文件损坏或日志数据被篡改,诊断结果可能会受影响。进行健康诊断可以保证生产质量,提前发现制造缺陷,并且在生产过程中评估系统功能和机器性能,监测机器的健康状态。因此,为了解决无法通过现有的规则识别新出现的问题,导致健康诊断不准确或无法诊断出问题的情况,本发明提出一种基于预测分析的服务器健康诊断方案,通过收集和分析生产阶段的健康诊断数据,对服务器指标数据进行分析,找出与故障或性能问题相关的模式和规律。通过建立预测模型基于当前指标数据预测未来可能出现的问题。
参照图1,示出了本发明实施例中提供的一种服务器健康诊断的方法的步骤流程图,具体可以包括如下步骤:
步骤101、采集服务器的历史数据,所述历史数据包括服务器的各项指标数据。
在本发明实施例中,服务器生产制造的流程一般为物料准备、机器装配、首件检查、固件刷新、老化测试、抽检等。其中固件刷新、老化测试、抽检属于现有的服务器健康诊断系统的环节。本发明在现有的服务器健康诊断系统之上增加数据收集、数据清洗、特征提取、模型训练、故障预测与诊断等环节,提前对可能发生的故障进行预警和规避。
系统定期收集服务器的历史数据,历史数据包括各项指标数据,指标数据包括CPU规格信息、CPU使用率、内存规格信息、内存带宽和内存的读取速率、服务器负载、网络流量等信息,各项历史数据可以通过系统自带的监控工具进行收集,并且在服务器加电测试的过程中持续的进行数据收集,以保证能够覆盖服务器不同时间段的运行状态。
步骤102、将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型。
在本发明实施例中,在收集完服务器健康数据和提取指标之后,可以建立合适的预测模型,通过将历史数据输入至建立好的预测模型中进行迭代训练,预测模型可以学习服务器指标和健康状况之间的关系。本发明中选择时间序列模型作为预测模型,用于反映服务器生产过程中的性能变化趋势和健康状况,预测未来的性能情况。通过时间序列模型,可以分析服务器性能指标随时间变化的趋势,了解服务器在长期时间尺度上的发展情况。例如可以使用时间序列模型拟合服务器CPU的使用率、内存读取速度、环温等指标并观察其趋势。
通过训练时间序列模型,可以利用历史性能数据来预测未来的性能情况;通过时间序列模型还可以得到预期的性能范围或模式,如果服务器的性能数据偏离了预期模式,可以将其视作异常,并触发相应的警报或处理机制,有助于及时发现并解决潜在的质量问题。
模型模型的训练是一个长期迭代的过程,以适应复杂且不同的服务器产品。
示例性的,如图2所述,为某配置服务器内存读取速度随老化时间变化的折线图,从图中可以看到在非压力测试阶段,内存读取速度呈现一个较高的水平,而压力测试期间,内存读取速度会有一些下降。如果同配置的其他服务器产品生产时,在老化的同一阶段实时读取的内存速度大幅低于该图反映的数据,则有理由怀疑生产期间服务器出现了异常或故障。
步骤103、获取新的观测值,并将所述新的观测值输入至训练完成的时间序列模型中得到预测结果。
在本发明实施例中,在时间序列模型建立完成后,利用模型进行监测和预测,获取服务器新的观测值,并将新的观测值,输入值训练完成的时间序列模型中,模型可以预测未来的性能情况。
步骤104、根据所述预测结果,对服务器的健康状况进行诊断。
在本发明实施例中,通过步骤103得到预测结果,根据输出的预测结果,对服务器未来的健康状况进行诊断,能够预测服务器未来可能发生的故障。
综上所述,本发明实施例提供的服务器健康诊断的方法,通过采集服务器的历史数据,所述历史数据包括服务器的各项指标数据;将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型;获取新的观测值,并将所述新的观测值输入至训练完成的时间序列模型中得到预测结果;根据所述预测结果,对服务器的健康状况进行诊断。实现了通过预测模型分析历史有效数据,对服务器未来的健康状况进行诊断,提前发现潜在的故障和异常情况,提升了服务器的整体性能和效率。
图3是本发明实施例提供的另一种服务器健康诊断的步骤流程图,如图3所示,该方法可以包括:
步骤301、采集服务器的历史数据,所述历史数据包括服务器的各项指标数据。
步骤302、对采集到的历史数据进行预处理,得到预处理后的历史数据,包括:
对采集到的历史数据进行清洗和转换,并在数据清洗时,检测、处理数据中的异常值和缺失值。
在本发明实施例中,采集服务器的历史数据后,对采集到的历史数据进行预处理,即对数据进行清洗和转换,以便提高数据质量,减少异常数据对后续分析的影响。数据清洗时检测、处理数据中的异常值和缺失值,确保数据的质量和完整性。
步骤303、对所述预处理后的历史数据进行特征提取;
在本发明实施例中,对历史数据进行预处理后,对预处理后的历史数据进行特征提取,从收集到的原始数据中提取有意义的特征,以表示服务器的健康状态。针对于服务器健康诊断领域,可以从历史生产数据中提取不同配置的各项指标数据,比如内存的读取速度,作为衡量内存性能的一项重要指标,在服务器生产中是一个需要重点关注的数据,内存的读取速度与内存容量、类型和频率有关,以平均值作为内存读取速度的基本统计特征,收集不同的服务器生产阶段的内存读取速度,不同的阶段服务器的负载也各不相同,内存的读取速度随服务器负载变化而变化。
步骤304、建立时间序列模型;
步骤305、将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型。
步骤306、对所述时间序列模型进行持续性评估,包括:
将历史数据输入至训练完成的时间序列模型;计算正确率,召回率以及F1值。
在本发明实施例中,预先建立时间序列模型后,需要对模型进行持续性评估,以提升模型的准确率和性能,将所述历史数据输入训练完成的时间序列模型,通过计算正确率(precision)、召回率(recall)、F1值等指标对模型进行评估。准确率和召回率是广泛的应用于统计学领域的度量值,用于评价结果的质量。
正确率=正确识别的样本数/(正确识别的样本数+误报样本数)
召回率=正确识别的样本数/(正确识别的样本数+漏失样本数)
F1值=正确率*召回率*2/(正确率+召回率)
其中,正确率关注的是模型预测为正例的准确性,召回率关注的是模型对真正正例的识别能力,而F1值综合了两者,兼顾准确性和识别能力。
步骤307、获取新的观测值,并将所述新的观测值输入至训练完成的时间序列模型中得到预测结果。
步骤308、根据所述预测结果,对服务器的健康状况进行诊断。
具体的,步骤301、步骤305、步骤307-步骤308的实现方式可以参照前述相关描述,此处不再赘述。
本发明实施例中,通过对历史数据进行预处理能够减少异常数据对后续分析的影响,对历史数据进行特征提取从中提取有意义的数据作为模型的输入,能够更精准地对服务器性能状况进行预测,通过对模型进行持续性的评估可以提高模型的准确性和性能,通过检测和分析服务器生产数据,预测模型可以帮助运维人员了解各种资源(如CPU、内存和存储等)的利用情况,并根据预测结果进行合理的资源调度和优化,从而提高服务器的整体性能和效率;减少因突发故障而需要进行紧急维护的情况,有助于减少维护成本和人力资源的投入,提高运维团队的工作效率。
可选的,在步骤103之后,所述方法还包括:
监测服务器的性能指标,得到实际观测值;
将所述实际观测值与所述预测结果进行比较,根据比较结果调整模型参数;
根据调整后的模型参数对时间序列模型进行优化。
在本发明实施例中,得到预测结果后,持续监测服务器的性能指标,得到实际的观测值,并将实际观测值与预测结果进行比较,调整模型参数,并根据调整后的模型参数不断的调整和优化模型,使得模型更加趋于稳定和准确,提高预测准确率,实现对服务器的实时检测和故障诊断预测。
可选的,历史数据还包括日志文件,所述方法还包括:当所述时间序列模型识别到异常时,提取出服务器系统的日志文件,判断服务器是否发生故障。
在本发明实施例中,服务器运行过程中会生成各种日志文件,记录硬件、系统和应用程序的运行状态、事件和错误信息等,这些日志文件包含有关服务器性能和异常情况,当模型识别到异常时(比如环境温度飙升、内存读取速度下降低于最小值等),提取出服务器系统日志,检测是否有故障发生,以此来提升模型预测的准确性。
可选的,所述方法还包括:
采集服务器的环境参数,所述环境参数包括以下任一项或多项:温度、湿度、电压、风扇转速。
在本发明实施例中,可以使用传感器采集环境参数,如温度、湿度、电压、风扇转速,能够监测服务器所在环境的稳定性和安全性。
可选的,步骤105包括:
根据预测结果,判断服务器的健康状况;
根据服务器的健康状况,判断服务器可能发生的故障,生成修复策略。
在本发明实施例中,根据服务器的健康状况对服务器可能发生的故障进行判断,提前发现潜在的故障和异常情况,及时采取措施修复或调整,减少停机时间,合理安排产测时间,提升产能。
综上所述,本发明的实施例,通过预测模型分析历史有效数据,可以提前发现潜在的故障和异常情况,及时采取措施修复或调整,减少停机时间,合理安排产测时间;对预测模型进行持续性评估,能够提升诊断模型的准确率和性能;在时间序列模型建立完成后,利用模型进行监测和预测,通过输入新的观测值,模型可以预测未来的性能情况,同时可以持续监测服务器的性能指标,并将实际观测值与预测结果进行比较,不断的调整和改进模型,使得模型更加趋于稳定和准确;通过检测和分析服务器生产数据,预测模型可以帮助运维人员了解各种资源(如CPU、内存和存储等)的利用情况,并根据预测结果进行合理的资源调度和优化,从而提高服务器的整体性能和效率;减少因突发故障而需要进行紧急维护的情况,有助于减少维护成本和人力资源的投入,提高运维团队的工作效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明实施例中提供的一种服务器健康诊断的系统40的结构框图,具体可以包括如下模块:
第一采集模块401,用于采集服务器的历史数据,所述历史数据包括服务器的各项指标数据;
模型训练模块402,用于将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型;
预测模块403,用于获取新的观测值,并将所述新的观测值输入至训练完成的时间序列模型中得到预测结果;
诊断模块404,用于根据所述预测结果,对服务器的健康状况进行诊断。
综上所述,本发明实施例提供的服务器健康诊断的装置,通过通过采集服务器的历史数据,所述历史数据包括服务器的各项指标数据;将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型;获取新的观测值,并将所述新的观测值输入至训练完成的时间序列模型中得到预测结果;根据所述预测结果,对服务器的健康状况进行诊断。实现了通过预测模型分析历史有效数据,对服务器未来的健康状况进行诊断,提前发现潜在的故障和异常情况,提升了服务器的整体性能和效率。
可选的,所述系统40还包括:
预处理模块,用于对采集到的历史数据进行预处理,得到预处理后的历史数据,具体用于:
对采集到的历史数据进行清洗和转换,并在数据清洗时,检测、处理数据中的异常值和缺失值;
特征提取模块,用于对所述预处理后的历史数据进行特征提取;
模型建立模块,用于建立时间序列模型;
模型评估模块,用于对所述时间序列模型进行持续性评估,具体用于:
将历史数据输入至训练完成的时间序列模型;
计算正确率,召回率以及F1值。
可选的,所述系统40还包括:
监测模块,用于监测服务器的性能指标,得到实际观测值;
比较模块,用于将所述实际观测值与所述预测结果进行比较,根据比较结果调整模型参数;
模型优化模块,用于根据调整后的模型参数对时间序列模型进行优化。
可选的,所述系统40还包括:
异常判断模块:用于当所述时间序列模型识别到异常时,提取出服务器系统的日志文件,判断服务器是否发生故障。
可选的,所述模块404包括:
第一诊断模块,用于根据预测结果,判断服务器的健康状况;
第二诊断模块,用于根据服务器的健康状况,判断服务器可能发生的故障,生成修复策略。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明一实施例还提供了一种电子设备50,参见图5,包括:处理器501,存储器502,存储在存储器上并可在处理器上运行的计算机程序5021,该计算机程序被处理器执行时实现上述服务器健康诊断的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明一实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述服务器健康诊断的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对所提供的服务器健康诊断的方法及系统、电子设备、存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种服务器健康诊断的方法,其特征在于,所述方法包括:
采集服务器的历史数据,所述历史数据包括服务器的各项指标数据;
将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型;
获取新的观测值,并将所述新的观测值输入至训练完成的时间序列模型中得到预测结果;
根据所述预测结果,对服务器的健康状况进行诊断。
2.根据权利要求1所述的方法,其特征在于,所述服务器的各项指标数据包括以下任一项或多项:CPU规格信息、CPU使用率、内存规格信息、内存带宽和内存的读取速率、服务器负载、网络流量。
3.根据权利要求1所述的方法,其特征在于,在所述采集服务器的历史数据之后,所述方法还包括:
对采集到的历史数据进行预处理,得到预处理后的历史数据,包括:
对采集到的历史数据进行清洗和转换,并在数据清洗时,检测、处理数据中的异常值和缺失值;
对所述预处理后的历史数据进行特征提取;
建立时间序列模型;
在所述将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型之后,所述方法还包括:
对所述时间序列模型进行持续性评估,包括:
将所述历史数据输入至训练完成的时间序列模型;
计算正确率,召回率以及F1值。
4.根据权利要求1所述的方法,其特征在于,所述将所述新的观测值输入至训练完成的时间序列模型中得到预测结果之后,所述方法还包括:
监测服务器的性能指标,得到实际观测值;
将所述实际观测值与所述预测结果进行比较,根据比较结果调整模型参数;
根据调整后的模型参数对时间序列模型进行优化。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述历史数据还包括日志文件,所述方法还包括:当所述时间序列模型识别到异常时,提取出服务器系统的日志文件,判断服务器是否发生故障。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:采集服务器的环境参数,所述环境参数包括以下任一项或多项:温度、湿度、电压、风扇转速。
7.根据权利要求1所述的方法,其特征在于,根据所述预测结果,对服务器未来的健康状况进行诊断,包括:
根据预测结果,判断服务器的健康状况;
根据服务器的健康状况,判断服务器可能发生的故障,生成修复策略。
8.一种服务器健康诊断的系统,其特征在于,所述系统包括:
采集模块,用于采集服务器的历史数据,所述历史数据包括服务器的各项指标数据;
模型训练模块,用于将所述历史数据输入至预先建立的时间序列模型进行迭代训练,得到训练完成的时间序列模型;
预测模块,用于获取新的观测值,并将所述新的观测值输入至训练完成的时间序列模型中得到预测结果;
诊断模块,用于根据所述预测结果,对服务器的健康状况进行诊断。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行所述指令时,使得所述处理器执行权利要求1-7任一项所述的方法。
CN202311083282.1A 2023-08-25 2023-08-25 服务器健康诊断的方法、系统、电子设备及存储介质 Pending CN117194188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311083282.1A CN117194188A (zh) 2023-08-25 2023-08-25 服务器健康诊断的方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311083282.1A CN117194188A (zh) 2023-08-25 2023-08-25 服务器健康诊断的方法、系统、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117194188A true CN117194188A (zh) 2023-12-08

Family

ID=88989778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311083282.1A Pending CN117194188A (zh) 2023-08-25 2023-08-25 服务器健康诊断的方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117194188A (zh)

Similar Documents

Publication Publication Date Title
EP3557819B1 (en) Server failure detection method and system
US6834256B2 (en) Method and system for determining motor reliability
CN108985279B (zh) 多功能车辆总线mvb波形的故障诊断方法及装置
CN116450399B (zh) 微服务系统故障诊断及根因定位方法
CN112083244B (zh) 综合化航空电子设备故障智能诊断系统
CN113359682B (zh) 设备故障预测方法、装置、设备故障预测平台及介质
CN117060409B (zh) 电力线路运行状态自动化检测分析方法及系统
CN110765189A (zh) 互联网产品的异常管理方法和系统
CN111664083A (zh) 一种基于贝叶斯网络的核电主泵故障诊断方法
CN116719664B (zh) 基于微服务部署的应用和云平台跨层故障分析方法及系统
CN112580858A (zh) 设备参数预测分析方法及系统
CN116955434A (zh) 一种工业装备全生命周期管理及多维度能效分析系统
Becherer et al. Intelligent choice of machine learning methods for predictive maintenance of intelligent machines
CN117150418B (zh) 基于状态特征故障树的变压器运检周期制定方法和系统
CN111314110B (zh) 一种用于分布式系统的故障预警方法
CN117435883A (zh) 一种基于数字孪生的设备故障预测的方法和系统
CN117194188A (zh) 服务器健康诊断的方法、系统、电子设备及存储介质
CN111306051A (zh) 一种输油泵机组探针式状态监测预警方法、装置及系统
CN115600695A (zh) 一种计量设备的故障诊断方法
CN113037550B (zh) 一种服务故障监控方法、系统及计算机可读存储介质
CN117591507B (zh) 一种用于测控装备的数据质量特性自动化构建方法和系统
CN116259337B (zh) 磁盘异常检测方法及模型训练方法、相关装置
CN117589444B (zh) 一种基于联邦学习的风力发电机齿轮箱故障诊断方法
CN116991149B (zh) 一种费控产品检验方法、装置、电子设备及存储介质
CN116643170B (zh) 电机轴系振动测试方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination