CN117521478A - 一种基于机器学习的云计算带外管理设备辅助告警方法 - Google Patents

一种基于机器学习的云计算带外管理设备辅助告警方法 Download PDF

Info

Publication number
CN117521478A
CN117521478A CN202211397497.6A CN202211397497A CN117521478A CN 117521478 A CN117521478 A CN 117521478A CN 202211397497 A CN202211397497 A CN 202211397497A CN 117521478 A CN117521478 A CN 117521478A
Authority
CN
China
Prior art keywords
temperature
equipment
machine learning
cloud computing
sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211397497.6A
Other languages
English (en)
Inventor
孙朝辉
李晓俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Tianhao Information Technology Co ltd
Original Assignee
Shanghai Tianhao Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Tianhao Information Technology Co ltd filed Critical Shanghai Tianhao Information Technology Co ltd
Priority to CN202211397497.6A priority Critical patent/CN117521478A/zh
Publication of CN117521478A publication Critical patent/CN117521478A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种基于机器学习的云计算带外管理设备辅助告警方法,运用机器学习技术,通过分析运行时设备的历史样本数据对设备主要部件传感器温度状态进行趋势分析预测,分析设备传感器温度在未来的某个时间点达到什么样的状态,提前预警以辅助设备运维人员进行决策分析,尽可能把设备控制在正常范围之内,减少故障率,降低设备维护成本,保障设备健康运行。因此,本发明的一种基于机器学习的云计算带外管理设备辅助告警方法具有智能化程度高、可以降低设备故障率的优点。

Description

一种基于机器学习的云计算带外管理设备辅助告警方法
技术领域
本发明涉及设备管理技术领域,尤其涉及一种智能化程度高、降低设备故障率的基于机器学习的云计算带外管理设备辅助告警方法。
背景技术
智能设备管理平台是云计算智慧运维中一个不可或缺的一个环节,通过带外管理技术,对设备进行统一纳管监测,主要涉及的功能有:设备发现、资产管理、监测管理、告警管理、自动报修、固件升级等,设备监测管理是平台的核心业务,对设备运行时异常进行监测告警,并对故障设备进行自动报修。
现有技术中,对设备进行检测告警主要步骤为:设备运维人员登录平台,点击设备自动发现或者在资产管理里添加设备。系统后台定时任务监测程序,通过带外管理技术对资产管理的设备,进行传感器信息采集,检测设备传感器温度信息,来判断当前设备是否已经异常,异常时记录入库,生成监测告警统计图表,报修给相应设备运维人员。现有传统的智能设备管理平台对设备进行带外发现入库,对入库的设备进行监测管理,分析设备运行时的温度异常信息,是针对某一时间点的所有设备,进行设备状态异常分析,然后采取相应应急措施。当设备处在警告或紧急状态时,说明此时的设备已经发生异常,设备责任人再花时间去分析问题,解决问题,有可能让异常设备的状况变得更加严重,增加设备维护成本的同时,也给设备运维人员带来更大的技术挑战。
因此,有必要提出一种改进以克服现有技术缺陷。
发明内容
本发明的目的是解决现有技术中的问题,提供一种智能化程度高、降低设备故障率的基于机器学习的云计算带外管理设备辅助告警方法。
本发明的技术方案是:一种基于机器学习的云计算带外管理设备辅助告警方法,包括以下步骤:S1、登录智能设备管理平台,输入设备带外基本信息进行设备发现并入库,分别设置设备的传感器温度告警级别阈值用于设备告警检测和设备传感器温度状态趋势预测;S2、对每台设备启动传感器告警监测心跳程序,通过带外管理技术定时采集各类传感器数据;S3、分析传感器数据并进行特征提取,分析每台设备的主要器件温度数据,并将温度状态进行分类,将分类后的温度状态与步骤S1内的传感器温度告警级别阈值进行关联;S4、生成机器学习历史告警样本数据,将采集到的每台设备主要器件温度数据以时间序列的方式持久化到本地,作为机器学习算法的趋势预测样本数据;S5、对每台设备启动设备预警心跳程序,对每台设备主要器件的温度状态进行预测:根据步骤S4的趋势预测样本数据生成训练集,对每台设备进行机器学习时间序列自回归模型训练;训练完成的模型对设备的主要器件进行温度状态预测;S6、根据设备告警实时监测结果,结合机器学习预测结果综合分析当前设备运行情况,并提前进行设备运行状态预判。
作为一种优选的技术方案,步骤S1中输入设备带外基本信息包括带外IP、用户名、密码。
作为一种优选的技术方案,步骤S1中的设备的传感器温度告警级别阈值包括正常、警告和紧急三种。
作为一种优选的技术方案,步骤S3中设备的主要器件温度数据包括CPU温度、主板温度和硬盘温度。
作为一种进一步优选的技术方案,步骤S3中“将温度状态进行分类,将分类后的温度状态与步骤S1内的传感器温度告警级别阈值进行关联”具体为:S31、将温度状态分为五种类型:ok代表温度正常;nc代表温度偏高或偏低,但不严重;cr代表温度太高或太低,很严重;nr代表温度极高或极低,会造成不可恢复的损伤;na代表温度状态不明;S32、排出na类型;ok对应所述传感器温度告警级别阈值中的正常;nc对应所述传感器温度告警级别阈值中的警告;cr和nr对应所述传感器温度告警级别阈值中的紧急。
作为一种优选的技术方案,步骤S4中“将采集到的每台设备主要器件温度数据以时间序列的方式持久化到本地”具体为:将采集到的每台设备的CPU温度、硬盘温度及主板温度以时间序列的方式持久化到本地,形成数据库。
作为一种进一步优选的技术方案,步骤S4中趋势预测样本数据格式包括设备ID、时间戳、CPU温度、硬盘温度、主板温度。
作为另一种进一步优选的技术方案,步骤S5中“根据步骤S4的趋势预测样本数据生成训练集,对机器学习时间序列自回归模型进行训练”具体为:根据设备ID从数据库中查询该设备的趋势预测样本数据,形成三个样本数据集分别对CPU、硬盘、主板进行机器学习时间序列自回归模型训练;其中,CPU的样本数据集包括时间戳和CPU温度;硬盘的样本数据集包括时间戳和硬盘温度;主板的样本数据集包括时间戳和主板温度。
本发明的一种基于机器学习的云计算带外管理设备辅助告警方法,运用机器学习技术,通过分析运行时设备的历史样本数据对设备主要部件传感器温度状态进行趋势分析预测,分析设备传感器温度在未来的某个时间点达到什么样的状态,提前预警以辅助设备运维人员进行决策分析,尽可能把设备控制在正常范围之内,减少故障率,降低设备维护成本,保障设备健康运行。因此,本发明的一种基于机器学习的云计算带外管理设备辅助告警方法具有智能化程度高、可以降低设备故障率的优点。
附图说明
图1为本发明一种基于机器学习的云计算带外管理设备辅助告警方法流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
如图1所示为本发明的一种基于机器学习的云计算带外管理设备辅助告警方法具体实施方式,本实施例的一种基于机器学习的云计算带外管理设备辅助告警方法,包括以下步骤:
S1、登录智能设备管理平台,输入设备带外基本信息进行设备发现并入库,分别设置设备的传感器温度告警级别阈值用于设备告警检测和设备传感器温度状态趋势预测;
S2、对每台设备启动传感器告警监测心跳程序,通过带外管理技术定时采集各类传感器数据;
S3、分析传感器数据并进行特征提取,分析每台设备的主要器件温度数据,并将温度状态进行分类,将分类后的温度状态与步骤S1内的传感器温度告警级别阈值进行关联;
S4、生成机器学习历史告警样本数据,将采集到的每台设备主要器件温度数据以时间序列的方式持久化到本地,作为机器学习算法的趋势预测样本数据;
S5、对每台设备启动设备预警心跳程序,对每台设备主要器件的温度状态进行预测:根据步骤S4的趋势预测样本数据生成训练集,对每台设备进行机器学习时间序列自回归模型训练;训练完成的模型对设备的主要器件进行温度状态预测;
S6、根据设备告警实时监测结果,结合机器学习预测结果综合分析当前设备运行情况,并提前进行设备运行状态预判。
具体的,本实施例中,步骤S1中输入设备带外基本信息包括带外IP、用户名、密码。步骤S1中的设备的传感器温度告警级别阈值包括正常、警告和紧急三种。也即步骤S1具体为:登录智能设备管理平台,输入带外IP、用户名、密码等设备带外基本信息进行设备发现并入库,分别设置设备的传感器温度告警级别阀值,包括:正常、警告和紧急,用于设备告警监测和设备传感器温度状态趋势预测。
具体的,本实施例中,步骤S3中设备的主要器件温度数据包括CPU温度、主板温度和硬盘温度。进一步的,步骤S3中“将温度状态进行分类,将分类后的温度状态与步骤S1内的传感器温度告警级别阈值进行关联”具体为:
S31、将温度状态分为五种类型:ok代表温度正常;nc(non-critical)代表温度偏高或偏低,但不严重;cr(critical)代表温度太高或太低,很严重;nr(non-recovery)代表温度极高或极低,会造成不可恢复的损伤;na代表温度状态不明;
S32、排出na类型;ok对应所述传感器温度告警级别阈值中的正常;nc对应所述传感器温度告警级别阈值中的警告;cr和nr对应所述传感器温度告警级别阈值中的紧急。
具体的,本实施例中,步骤S4中“将采集到的每台设备主要器件温度数据以时间序列的方式持久化到本地”具体为:将采集到的每台设备的CPU温度、硬盘温度及主板温度以时间序列的方式持久化到本地,形成数据库;数据库可以为SQLite、MySql、oracle等数据库。进一步的,步骤S4中趋势预测样本数据格式包括设备ID、时间戳、CPU温度、硬盘温度、主板温度;表示哪台设备在什么时间点CPU、硬盘、主板的温度分别是多少。样本中的设备ID主要是用来区分哪台设备,不用在机器学习预测算法中,用于设备告警监测统计。
具体的,本实施例中,步骤S5中“根据步骤S4的趋势预测样本数据生成训练集,对机器学习时间序列自回归模型进行训练”具体为:根据设备ID从数据库中查询该设备的趋势预测样本数据,形成三个样本数据集分别对CPU、硬盘、主板进行机器学习时间序列自回归模型训练;其中,CPU的样本数据集包括时间戳和CPU温度;硬盘的样本数据集包括时间戳和硬盘温度;主板的样本数据集包括时间戳和主板温度。本实施例的步骤S5具体为:对每台设备启动一个设备预警心跳程序,对每台设备的CPU、硬盘、主板温度状态趋势预测。运用机器学习时间序列AR模型(自回归模型),根据设备ID从数据库中查询出该设备历史样本数据,分别生成三个样本数据集作为AR模型的训练集,分别对CPU、硬盘、主板进行模型训练。CPU的样本数据集由时间戳和CPU温度组成,硬盘的样本数据集由时间戳和硬盘温度组成,主板的样本数据集由时间戳和主板温度组成。AR模型训练好了之后,就可以分别对CPU、硬盘、主板进行设备温度状态预测了,比如想要预测30分钟后当前设备的温度状态,就可以在AR模型预测之前,设置AR模型超参数,假如后台定时任务监测程序每一分钟执行一次,则将step值设置为30,step单位为分钟,每一个step代表一分钟,跟定时任务的执行时间单位一致。经模型预测之后,就可以得到未来30分钟所有时间点的每分钟对应的温度值,将每分钟对应的温度跟告警级别(正常、警告、紧急)阀值对比,计算出预测未来30分钟每个时间点对应的告警级别,最后可以绘制数轴图表的方式,x轴表示时间,y轴表示温度,依次连接这30个时间点的温度值,便可以描述未来30分钟的温度趋势。最后经过步骤S6,设备运维人员根据设备告警实时监测的结果,结合机器学习预测的结果,综合分析当前设备运行情况,提前进行预判,有针对性的运维设备,尽可能早的发现设备异常情况,把设备控制在健康运行的状态,保障设备的正常运行。
本实施例的一种基于机器学习的云计算带外管理设备辅助告警方法,运用机器学习技术,对设备传感器(如系统主板、CPU、硬盘等)温度状态进行趋势分析,分析设备传感器温度在未来的某个时间点达到什么样的状态(正常、警告、紧急),来辅助设备运维人员进行决策分析,尽可能把设备控制在正常范围之内,减少故障率,保障设备健康运行。
本发明的一种基于机器学习的云计算带外管理设备辅助告警方法可以实现提前介入设备运维工作,对所有纳管的设备进行整体评估,了解未来某一时间点所有设备的状态,针对处在同一告警级别(警告、紧急)的设备,预先知道哪些设备需要优先维护,哪些设备可以稍后维护,按轻重缓急之分维护设备,可以重点关注将可能发生异常的设备,尽可能把所有设备控制在正常范围之内,保障设备健康运行。
综上所述仅为本发明较佳的实施例,并非用来限定本发明的实施范围。即凡依本发明申请专利范围的内容所作的等效变化及修饰,皆应属于本发明的技术范畴。

Claims (8)

1.一种基于机器学习的云计算带外管理设备辅助告警方法,其特征在于:包括以下步骤:
S1、登录智能设备管理平台,输入设备带外基本信息进行设备发现并入库,分别设置设备的传感器温度告警级别阈值用于设备告警检测和设备传感器温度状态趋势预测;
S2、对每台设备启动传感器告警监测心跳程序,通过带外管理技术定时采集各类传感器数据;
S3、分析传感器数据并进行特征提取,分析每台设备的主要器件温度数据,并将温度状态进行分类,将分类后的温度状态与步骤S1内的传感器温度告警级别阈值进行关联;
S4、生成机器学习历史告警样本数据,将采集到的每台设备主要器件温度数据以时间序列的方式持久化到本地,作为机器学习算法的趋势预测样本数据;
S5、对每台设备启动设备预警心跳程序,对每台设备主要器件的温度状态进行预测:根据步骤S4的趋势预测样本数据生成训练集,对每台设备进行机器学习时间序列自回归模型训练;训练完成的模型对设备的主要器件进行温度状态预测;
S6、根据设备告警实时监测结果,结合机器学习预测结果综合分析当前设备运行情况,并提前进行设备运行状态预判。
2.根据权利要求1所述的一种基于机器学习的云计算带外管理设备辅助告警方法,其特征在于:步骤S1中输入设备带外基本信息包括带外IP、用户名、密码。
3.根据权利要求1所述的一种基于机器学习的云计算带外管理设备辅助告警方法,其特征在于:步骤S1中的设备的传感器温度告警级别阈值包括正常、警告和紧急三种。
4.根据权利要求1所述的一种基于机器学习的云计算带外管理设备辅助告警方法,其特征在于:步骤S3中设备的主要器件温度数据包括CPU温度、主板温度和硬盘温度。
5.根据权利要求3所述的一种基于机器学习的云计算带外管理设备辅助告警方法,其特征在于:步骤S3中“将温度状态进行分类,将分类后的温度状态与步骤S1内的传感器温度告警级别阈值进行关联”具体为:
S31、将温度状态分为五种类型:ok代表温度正常;nc代表温度偏高或偏低,但不严重;cr代表温度太高或太低,很严重;nr代表温度极高或极低,会造成不可恢复的损伤;na代表温度状态不明;
S32、排出na类型;ok对应所述传感器温度告警级别阈值中的正常;nc对应所述传感器温度告警级别阈值中的警告;cr和nr对应所述传感器温度告警级别阈值中的紧急。
6.根据权利要求1所述的一种基于机器学习的云计算带外管理设备辅助告警方法,其特征在于:步骤S4中“将采集到的每台设备主要器件温度数据以时间序列的方式持久化到本地”具体为:将采集到的每台设备的CPU温度、硬盘温度及主板温度以时间序列的方式持久化到本地,形成数据库。
7.根据权利要求6所述的一种基于机器学习的云计算带外管理设备辅助告警方法,其特征在于:步骤S4中趋势预测样本数据格式包括设备ID、时间戳、CPU温度、硬盘温度、主板温度。
8.根据权利要求6所述的一种基于机器学习的云计算带外管理设备辅助告警方法,其特征在于:步骤S5中“根据步骤S4的趋势预测样本数据生成训练集,对机器学习时间序列自回归模型进行训练”具体为:根据设备ID从数据库中查询该设备的趋势预测样本数据,形成三个样本数据集分别对CPU、硬盘、主板进行机器学习时间序列自回归模型训练;其中,CPU的样本数据集包括时间戳和CPU温度;硬盘的样本数据集包括时间戳和硬盘温度;主板的样本数据集包括时间戳和主板温度。
CN202211397497.6A 2022-11-09 2022-11-09 一种基于机器学习的云计算带外管理设备辅助告警方法 Pending CN117521478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211397497.6A CN117521478A (zh) 2022-11-09 2022-11-09 一种基于机器学习的云计算带外管理设备辅助告警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211397497.6A CN117521478A (zh) 2022-11-09 2022-11-09 一种基于机器学习的云计算带外管理设备辅助告警方法

Publications (1)

Publication Number Publication Date
CN117521478A true CN117521478A (zh) 2024-02-06

Family

ID=89746298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211397497.6A Pending CN117521478A (zh) 2022-11-09 2022-11-09 一种基于机器学习的云计算带外管理设备辅助告警方法

Country Status (1)

Country Link
CN (1) CN117521478A (zh)

Similar Documents

Publication Publication Date Title
WO2023071217A1 (zh) 基于深度迁移学习的多工况流程工业故障检测诊断方法
JP7017861B2 (ja) 異常検知システムおよび異常検知方法
KR102428632B1 (ko) 산업 프로세스들에서 이용되는 부품들로부터 기원하는 시그널링에 있어서의 이상을 검출 및 측정하는 시스템 및 방법
EP2015186B1 (en) Diagnostic systems and methods for predictive condition monitoring
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
CN117215940A (zh) 智慧运维应急处理系统
US20110178963A1 (en) system for the detection of rare data situations in processes
JP2015088079A (ja) 異常診断システム及び異常診断方法
JP2015088154A (ja) ヘルスマネージメントシステム及びヘルスマネージメント方法
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
CN112905371B (zh) 基于异构多源数据异常检测的软件变更检查方法和装置
KR102328842B1 (ko) 설비 관리 방법 및 이를 실행하는 장치
CN112286771A (zh) 一种针对全域资源监控的告警方法
KR20140036375A (ko) 철도시스템의 지능형 고장자산관리시스템
CN113761728A (zh) 基于车联网平台的机场电动特种车辆故障预警方法
CN116755992B (zh) 一种基于OpenStack云计算的日志分析方法及系统
JP2023520066A (ja) 産業用機械学習のためのデータ処理
CN117930718A (zh) 基于大数据的设备运行状态监测预警方法及系统
CN113468022B (zh) 一种对产品集中监控的自动化运维方法
CN117220917A (zh) 一种基于云计算的网络实时监控方法
CN117270937A (zh) 数字运营运维管理系统
CN117391675A (zh) 一种数据中心基础设施运维管理方法
KR102483210B1 (ko) Xai를 활용한 제조설비 이상발생확률 예측에 의한, 설비 건강지수 도출 시스템 및 설비 건강지수 도출 방법
CN106652393B (zh) 假警报确定方法及装置
CN117724882A (zh) 热泵机器的工单生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination