CN108491305A - 一种服务器故障的检测方法及系统 - Google Patents
一种服务器故障的检测方法及系统 Download PDFInfo
- Publication number
- CN108491305A CN108491305A CN201810193351.7A CN201810193351A CN108491305A CN 108491305 A CN108491305 A CN 108491305A CN 201810193351 A CN201810193351 A CN 201810193351A CN 108491305 A CN108491305 A CN 108491305A
- Authority
- CN
- China
- Prior art keywords
- monitoring data
- characteristic
- server
- data
- operation troubles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/0636—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/008—Reliability or availability analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/26—Functional testing
- G06F11/261—Functional testing by simulating additional hardware, e.g. fault simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3447—Performance evaluation by modeling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/149—Network analysis or design for prediction of maintenance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3433—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种服务器故障的检测方法及系统,其中,所述方法包括:采集多个服务器的样本监控数据,所述样本监控数据用于表征所述服务器的运行状态;基于所述样本监控数据,训练得到针对所述多个服务器的故障检测模型;采集目标服务器当前的监控数据,并将所述当前的监控数据输入所述故障检测模型,以得到所述当前的监控数据对应的运行故障。本申请提供的技术方案,能够提高故障检测的效率。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种服务器故障的检测方法及系统。
背景技术
随着互联网技术的不断发展,网络中的服务器数量也在不断增加。服务器的性能会直接影响其提供的服务的质量,当服务器发生故障时,需要及时找到发生故障的原因,以便及时修复。
当前,服务器通常会具备故障报警机制,当服务器出现异常时,服务器会发出报警提示。这样,服务器的管理人员便可以对服务器进行检修,以找出发生异常的组件。
然而,随着服务器数量的不断增加,如果仅靠人工排查的方式来检测服务器的故障,会浪费大量的人力物力,并且故障检测的效率也较低。
发明内容
本申请的目的在于提供一种服务器故障的检测方法及系统,能够提高故障检测的效率。
为实现上述目的,本申请一方面提供一种服务器故障的检测方法,所述方法包括:采集多个服务器的样本监控数据,所述样本监控数据用于表征所述服务器的运行状态;基于所述样本监控数据,训练得到针对所述多个服务器的故障检测模型;采集目标服务器当前的监控数据,并将所述当前的监控数据输入所述故障检测模型,以得到所述当前的监控数据对应的运行故障。
为实现上述目的,本申请另一方面还提供一种服务器故障的检测系统,所述系统包括数据采集单元、数据处理单元以及故障检测单元,其中:所述数据采集单元,用于采集多个服务器的样本监控数据,所述样本监控数据用于表征所述服务器的运行状态;所述数据处理单元包括大数据平台和模型训练模块,其中,所述大数据平台用于接收所述数据采集单元发来的所述样本监控数据;所述模型训练模块用于基于所述样本监控数据,训练得到针对所述多个服务器的故障检测模型;所述故障检测单元,用于采集目标服务器当前的监控数据,并将所述当前的监控数据输入所述故障检测模型,以得到所述当前的监控数据对应的运行故障。
由上可见,本申请提供的技术方案,可以提供机器学习的方法,基于多个服务器的样本监控数据,训练得到针对服务器的故障检测模型。具体地,所述样本监控数据可以包含服务器的电源数据、温度数据、风扇数据、端口数据、网络链路数据、系统事件数据以及系统服务数据等方面的数据。后续在判断目标服务器发生的具体故障或者对目标服务器进行故障预测时,可以采集目标服务器当前的监控数据,并将该当前的监控数据输入训练得到的故障检测模型中。最终,故障检测模型输出的结果便可以表征该当前的监控数据对应的运行故障。在实际应用中,针对每种监控数据,可以训练得到对应的子模型。这样,针对输入的监控数据,可以选用相适配的子模型进行故障识别,从而可以提高故障识别的精度。由上可见,本申请提供的技术方案,能够节省大量的人力物力,并且能够提高故障检测的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中服务器故障的检测方法流程图;
图2是本发明实施例中服务器故障的检测系统实例示意图;
图3是本发明实施例中服务器故障的检测系统结构示意图;
图4是本发明实施例中计算机终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本申请提供一种服务器故障的检测方法,请参阅图1,所述方法可以包括以下步骤。
S1:采集多个服务器的样本监控数据,所述样本监控数据用于表征所述服务器的运行状态。
在本实施方式中,可以通过预先定义的采集探针,从线上的多个服务器中采集用于表征服务器的运行状态的监控数据。所述监控数据可以包括这多个服务器的CDM监控数据、电源数据、温度数据、风扇数据、端口数据、网络链路数据、系统事件数据以及系统服务数据等方面的数据。其中,所述CDM监控数据包括CPU(中央处理器)监控数据、DISK(硬盘)监控数据以及MEMORY(内存)监控数据。这些数据可以反映服务器是否处于正常的运行状态中。在对这些数据进行分析之后,可以确定出服务器当前存在的运行故障。
在本实施方式中,所述预先定义的采集探针可以是预设的采集设备,所述采集设备可以通过与服务器约定好的数据传输协议,从服务器中读取监控数据。读取的监控数据可以作为机器学习的样本监控数据,通过对这些大量的样本监控数据进行学习,从而可以分析出各种类型的故障特征。
请参阅图2,在本实施方式中,采集样本监控数据的过程可以在采集层完成。采集层采集样本监控数据是通过智能平台管理接口(Intelligent Platform ManagementInterface,IPMI)采集基板管理控制器(Baseboard Management Controler,BMC)上记录的数据,采集后格式化数据,再上传至大数据平台。
S3:基于所述样本监控数据,训练得到针对所述多个服务器的故障检测模型。
在本实施方式中,大数据平台在接收到采集层上传来的样本监控数据之后,可以基于该样本监控数据,通过机器学习的方法训练得到故障检测模型。在实际应用中,采集得到的样本监控数据中通常包含如步骤S1中所述的多种不同类型的监控数据。其中,每种类型的监控数据均可以作为一组特征数据,这样,所述样本监控数据中可以包括多组特征数据。例如,可以将样本监控数据划分为电源组特征数据、风扇组特征数据、内存组特征数据等。
在一个实施方式中,为了能够对服务器发生的故障进行精确定位,可以将所述样本监控数据按照特征数据进行分组,并分别训练得到针对各组特征数据的子模型。例如,针对电源组特征数据,可以训练得到电源故障检测子模型;针对内存组特征数据,可以训练得到内存故障检测子模型。需要说明的是,为了使得训练得到的子模型比较精准,每组特征数据中,可以包括多个特征数据,这多个特征数据可以是同一个服务器在不同时期的运行数据,也可以是多个服务器的运行数据。例如,在内存组特征数据中,可以包括采集自100个服务器的1000个内存数据。
在本实施方式中,针对每组特征数据进行子模型训练时,可以预先给每个特征数据关联标准运行故障,所述标准运行故障可以是通过对该特征数据进行分析得到的,因此,关联的标准运行故障是该特征数据实际反映的运行故障。在开始训练时,可以将所述特征数据输入初始检测子模型,从而得到所述特征数据的预测运行故障。其中,所述初始检测子模型中可以包括初始化的神经网络,该初始化的神经网络中的神经元可以具备初始参数值。由于这些初始参数值是默认设置的,因此基于这些初始参数值对输入的特征数据进行处理之后,得到的预测运行故障与该特征数据实际反映的标准运行故障可能并不一致。此时,可以确定所述预测运行故障与所述标准运行故障之间的误差。具体地,经过初始检测子模型预测得到的结果可以是一个预测概率组,在该预测概率组中可以包括多个概率值,每个概率值可以对应一个故障类型。例如,针对内存数据,最终预测得到的预测概率组中可以包括3个概率值,这3个概率值分别对应与内存相关的3个故障类型。其中,概率值越高,表示存在对应的故障类型的可能性越大。例如,预测概率组为(0.1,0.6,0.3),那么0.6对应的故障类型便可以是预测运行故障。与特征数据关联的标准运行故障对应的标准概率组例如可以是(1,0,0),其中,概率值1对应的故障类型便可以是所述标准运行故障。这样,通过将预测概率组和标准概率组中对应的概率值相减,便可以得到所述预测运行故障与所述标准运行故障之间的误差。通过将该误差作为反馈值输入初始检测子模型,从而可以对初始检测子模型中的参数进行校正。在校正之后,可以将该特征数据再次输入经过校正的检测子模型,后续可以重复利用误差对子模型中的参数进行校正的过程,从而使得最终得到的预测运行故障与所述标准运行故障一致。这样,通过每组特征数据中大量的特征数据反复对子模型进行训练,从而可以使得训练得到的最终子模型具备较高的预测精度。
在一个实施方式中,所述特征数据可以表征服务器中一个组件的运行状态,例如,CPU数据可以表征CPU的运行状态。而特征数据中还可以包括多个特征子数据,所述特征子数据则可以表征该组件在运行时对应的各方面的状态。例如,CPU数据中可以包含CPU使用率、CPU使用时长、CPU使用线程数等方面的特征子数据。在对特征数据进行训练时,可以通过决策树的技术,确定所述特征数据中各个特征子数据的决策顺序,并按照所述决策顺序分别确定各个所述特征子数据对应的特征值。其中,所述特征值用于表征决策步骤中的具体数值。例如,针对CPU数据而言,按照决策树的技术确定出的决策顺序是先决策CPU使用率,然后决策CPU使用线程数,最后决策CPU使用时长。那么在各个决策步骤中,决策得到的数值便可以作为上述的特征值。例如,CPU使用率决策步骤中,特征值可以为80%。
在本实施方式中,根据决策得到的所述特征值,可以计算得到所述特征数据对应的预测概率数组。具体地,决策过程可以是通过神经网络完成的,那么神经网络中的神经元根据每个决策过程的特征值,可以通过加权求和或者其它非线性的计算方式得到最终的预测概率组。所述预测概率数组中可以包括至少一个概率值,所述概率值与故障类型相对应。例如,针对内存数据,最终预测得到的预测概率组中可以包括3个概率值,这3个概率值分别对应与内存相关的3个故障类型。最终,可以将所述预测概率数组中最大的概率值对应的故障类型作为所述预测运行故障。例如,预测概率组为(0.1,0.6,0.3),那么0.6对应的故障类型便可以是预测运行故障。
如图2所示,在本实施方式中,故障预测模型的训练过程可以在数据层中完成。所述数据层中可以包括上述的大数据平台,还可以包括特征分组模块和模型训练模块。其中,所述特征分组模块,用于将所述大数据平台中的样本监控数据按照特征数据进行分组。分组后的特征数据可以分别在模型训练模块中训练得到各自的子模型。
S5:采集目标服务器当前的监控数据,并将所述当前的监控数据输入所述故障检测模型,以得到所述当前的监控数据对应的运行故障。
在本实施方式中,在训练得到故障检测模型之后,可以采集目标服务器当前的监控数据,并利用训练得到的故障检测模型对当前的监控数据进行故障检测。所述目标服务器可以是待检测的服务器,在本实施方式中,同样可以采用预先定以的采集探针采集该目标服务器当前的监控数据。该当前的监控数据中同样可以存在多组特征数据,那么在采集目标服务器当前的监控数据之后,可以识别所述当前的监控数据中包含的目标特征数据,并将所述目标特征数据输入相适配的子模型中,以得到所述目标特征数据对应的运行故障。这样,针对每组特征数据,均可以得到各自对应的运行故障,最终便可以汇总得到该目标服务器的各个运行故障。
如图2所示,在本实施方式中,上述故障检测的过程可以在应用层中完成。在应用层中,除了可以对已发生故障的服务器进行故障定位,还能够对服务器进行周期性地检测,从而对服务器可能发生的故障进行预测,以便及时检修。
在一个实施方式中,采集目标服务器当前的监控数据的时机也可以有多种选择。一方面,可以在目标服务器自身发出故障提示信息时,采集所述目标服务器当前的监控数据。这样处理的目的在于,目标服务器发出的故障提示信息通常是比较宽泛的信息,该信息中可能仅提示目标服务器当前发生了故障,但并不会指明故障的具体类型。此时,为了快速排查故障所处的位置,可以采集当前的监控数据,并通过训练得到的故障检测模型检测得到详细的故障信息。另一方面,还可以按照指定时间周期采集目标服务器当前的监控数据,并针对每次采集的监控数据,都利用训练得到的故障检测模型进行故障检测。这样处理的目的在于可以周期性地对目标服务器进行故障检测,从而可以预测目标服务器是否有发生故障的趋势,以便在发生故障之前进行检修。
在一个实施方式中,为了不影响目标服务器的正常网络服务,可以在目标服务器处于空闲的时候再对目标服务器进行故障检测。具体地,可以统计所述目标服务器的负载分布,所述负载分布可以包括所述目标服务器在指定时段内的平均负载。例如,可以统计目标服务器在一天内每3个小时的平均负载。然后,可以基于所述负载分布确定目标时段,并在所述目标时段内对所述目标服务器进行故障检测。其中,所述目标时段内的平均负载可以较低。具体地,可以将平均负载小于或者等于指定负载阈值时对应的指定时段作为所述目标时段。所述指定负载阈值例如可以设置为50%,当然,还可以根据实际情况灵活地对指定负载阈值进行调整。在实际应用中,若平均负载小于或者等于指定负载阈值时对应的指定时段的数量为至少两个,那么可以随机选择其中的一个指定时段作为所述目标时段,或者将平均负载最小时对应的指定时段作为所述目标时段。举例来说,在统计目标服务器在一天内每3个小时的平均负载之后,
发现平均负载小于或者等于50%的时段为凌晨0点至3点以及凌晨3点至6点,那么可以将其中任意一个时段作为目标时段。在所述目标时段内,目标服务器的负载较小,此时可以采集目标服务器当前的运行参数并进行故障检测,从而不会对目标服务器造成太大的影响。
在一个实施方式中,在得到所述当前的监控数据对应的运行故障之后,可以调用与所述运行故障相匹配的诊断策略,并利用所述诊断策略对所述目标服务器进行故障诊断。其中,所述诊断策略可以是基于过往的诊断历史总结得到的策略,这些策略可以与对应的运行故障进行关联存储。这样,在检测得到某个运行故障之后,可以调用相关联的诊断策略进行详细的诊断。例如,可以诊断出该运行故障的严重程度,并且可以诊断出该运行故障的发生频率。这样,根据故障诊断的结果,可以确定针对所述目标服务器的检测周期,并基于所述检测周期定期对所述目标服务器进行故障检测。所述检测周期可以根据运行故障的严重性和发生频率进行设定,运行故障越严重,发生频率越高,那么检测周期可以越短。这样可以保证及时地发现目标服务器的运行故障,以便在故障发生之前进行预防和检修。
实施例二
本申请还提供一种服务器故障的检测系统,请参阅图3,所述系统包括数据采集单元、数据处理单元以及故障检测单元,其中:
所述数据采集单元,用于采集多个服务器的样本监控数据,所述样本监控数据用于表征所述服务器的运行状态;
所述数据处理单元包括大数据平台和模型训练模块,其中,所述大数据平台用于接收所述数据采集单元发来的所述样本监控数据;所述模型训练模块用于基于所述样本监控数据,训练得到针对所述多个服务器的故障检测模型;
所述故障检测单元,用于采集目标服务器当前的监控数据,并将所述当前的监控数据输入所述故障检测模型,以得到所述当前的监控数据对应的运行故障。
在一个实施方式中,所述样本监控数据中包括多组特征数据;相应地,所述数据处理单元中还包括:
特征分组模块,用于将所述样本监控数据按照特征数据进行分组,以使得所述模型训练模块分别训练得到针对各组特征数据的子模型。
在一个实施方式中,所述特征数据与标准运行故障相关联;相应地,所述模型训练模块包括:
初始预测模块,用于将所述特征数据输入初始检测子模型,得到所述特征数据的预测运行故障;
误差校正模块,用于确定所述预测运行故障与所述标准运行故障之间的误差,并通过所述误差对所述初始检测子模型中的参数进行校正,以使得将所述特征数据再次输入经过校正的检测子模型后,得到的预测运行故障与所述标准运行故障一致。
在一个实施方式中,所述特征数据中包括多个特征子数据;相应地,所述初始预测模块包括:
决策顺序确定模块,用于确定所述特征数据中各个特征子数据的决策顺序,并按照所述决策顺序分别确定各个所述特征子数据对应的特征值;
概率数组计算模块,用于根据所述特征值,计算得到所述特征数据对应的预测概率数组,所述预测概率数组中包括至少一个概率值,所述概率值与故障类型相对应;
故障确定模块,用于将所述预测概率数组中最大的概率值对应的故障类型作为所述预测运行故障。
在一个实施方式中,所述系统还包括:
负载分布统计单元,用于统计所述目标服务器的负载分布,所述负载分布包括所述目标服务器在指定时段内的平均负载;
定期检测模块,用于基于所述负载分布确定目标时段,并在所述目标时段内对所述目标服务器进行故障检测。
请参阅图4,在本申请中,上述实施例中的技术方案可以应用于如图4所示的计算机终端10上。计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
具体地,在本申请中,上述的服务器故障的检测方法可以作为计算机程序存储于上述的存储器104中,所述存储器104可以与处理器102耦合,那么当处理器102执行所述存储器104中的计算机程序时,便可以实现上述的服务器故障的检测方法中的各个步骤。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
BMC(采集基板管理控制器,Baseboard Management Controler)108的作用为:采集层采集样本监控数据时,可以通过智能平台管理接口(IntelligentPlatformManagement Interface,IPMI)采集BMC上记录的数据,采集后格式化数据,再上传至大数据平台。
由上可见,本申请提供的技术方案,可以提供机器学习的方法,基于多个服务器的样本监控数据,训练得到针对服务器的故障检测模型。具体地,所述样本监控数据可以包含服务器的电源数据、温度数据、风扇数据、端口数据、网络链路数据、系统事件数据以及系统服务数据等方面的数据。后续在判断目标服务器发生的具体故障或者对目标服务器进行故障预测时,可以采集目标服务器当前的监控数据,并将该当前的监控数据输入训练得到的故障检测模型中。最终,故障检测模型输出的结果便可以表征该当前的监控数据对应的运行故障。在实际应用中,针对每种监控数据,可以训练得到对应的子模型。这样,针对输入的监控数据,可以选用相适配的子模型进行故障识别,从而可以提高故障识别的精度。由上可见,本申请提供的技术方案,能够节省大量的人力物力,并且能够提高故障检测的效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种服务器故障的检测方法,其特征在于,所述方法包括:
采集多个服务器的样本监控数据,所述样本监控数据用于表征所述服务器的运行状态;
基于所述样本监控数据,训练得到针对所述多个服务器的故障检测模型;
采集目标服务器当前的监控数据,并将所述当前的监控数据输入所述故障检测模型,以得到所述当前的监控数据对应的运行故障。
2.根据权利要求1所述的方法,其特征在于,所述样本监控数据中包括多组特征数据;相应地,训练得到针对所述多个服务器的故障检测模型包括:
将所述样本监控数据按照特征数据进行分组,并分别训练得到针对各组特征数据的子模型。
3.根据权利要求2所述的方法,其特征在于,在采集目标服务器当前的监控数据之后,所述方法还包括:
识别所述当前的监控数据中包含的目标特征数据,并将所述目标特征数据输入相适配的子模型中,以得到所述目标特征数据对应的运行故障。
4.根据权利要求2所述的方法,其特征在于,所述特征数据与标准运行故障相关联;相应地,训练得到针对各组特征数据的子模型包括:
将所述特征数据输入初始检测子模型,得到所述特征数据的预测运行故障;
确定所述预测运行故障与所述标准运行故障之间的误差,并通过所述误差对所述初始检测子模型中的参数进行校正,以使得将所述特征数据再次输入经过校正的检测子模型后,得到的预测运行故障与所述标准运行故障一致。
5.根据权利要求4所述的方法,其特征在于,所述特征数据中包括多个特征子数据;相应地,所述预测运行故障按照以下方式确定:
确定所述特征数据中各个特征子数据的决策顺序,并按照所述决策顺序分别确定各个所述特征子数据对应的特征值;
根据所述特征值,计算得到所述特征数据对应的预测概率数组,所述预测概率数组中包括至少一个概率值,所述概率值与故障类型相对应;
将所述预测概率数组中最大的概率值对应的故障类型作为所述预测运行故障。
6.根据权利要求1所述的方法,其特征在于,采集目标服务器当前的监控数据包括:
在目标服务器发出故障提示信息时,采集所述目标服务器当前的监控数据;
或者
按照指定时间周期采集目标服务器当前的监控数据。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
统计所述目标服务器的负载分布,所述负载分布包括所述目标服务器在指定时段内的平均负载;
基于所述负载分布确定目标时段,并在所述目标时段内对所述目标服务器进行故障检测。
8.根据权利要求7所述的方法,其特征在于,基于所述负载分布确定目标时段包括:
将平均负载小于或者等于指定负载阈值时对应的指定时段作为所述目标时段;其中,若平均负载小于或者等于指定负载阈值时对应的指定时段的数量为至少两个,随机选择其中的一个指定时段作为所述目标时段,或者将平均负载最小时对应的指定时段作为所述目标时段。
9.根据权利要求1所述的方法,其特征在于,在得到所述当前的监控数据对应的运行故障之后,所述方法还包括:
调用与所述运行故障相匹配的诊断策略,并利用所述诊断策略对所述目标服务器进行故障诊断;
根据故障诊断的结果,确定针对所述目标服务器的检测周期,并基于所述检测周期定期对所述目标服务器进行故障检测。
10.一种服务器故障的检测系统,其特征在于,所述系统包括数据采集单元、数据处理单元以及故障检测单元,其中:
所述数据采集单元,用于采集多个服务器的样本监控数据,所述样本监控数据用于表征所述服务器的运行状态;
所述数据处理单元包括大数据平台和模型训练模块,其中,所述大数据平台用于接收所述数据采集单元发来的所述样本监控数据;所述模型训练模块用于基于所述样本监控数据,训练得到针对所述多个服务器的故障检测模型;
所述故障检测单元,用于采集目标服务器当前的监控数据,并将所述当前的监控数据输入所述故障检测模型,以得到所述当前的监控数据对应的运行故障。
11.根据权利要求10所述的系统,其特征在于,所述样本监控数据中包括多组特征数据;相应地,所述数据处理单元中还包括:
特征分组模块,用于将所述样本监控数据按照特征数据进行分组,以使得所述模型训练模块分别训练得到针对各组特征数据的子模型。
12.根据权利要求11所述的系统,其特征在于,所述特征数据与标准运行故障相关联;相应地,所述模型训练模块包括:
初始预测模块,用于将所述特征数据输入初始检测子模型,得到所述特征数据的预测运行故障;
误差校正模块,用于确定所述预测运行故障与所述标准运行故障之间的误差,并通过所述误差对所述初始检测子模型中的参数进行校正,以使得将所述特征数据再次输入经过校正的检测子模型后,得到的预测运行故障与所述标准运行故障一致。
13.根据权利要求12所述的系统,其特征在于,所述特征数据中包括多个特征子数据;相应地,所述初始预测模块包括:
决策顺序确定模块,用于确定所述特征数据中各个特征子数据的决策顺序,并按照所述决策顺序分别确定各个所述特征子数据对应的特征值;
概率数组计算模块,用于根据所述特征值,计算得到所述特征数据对应的预测概率数组,所述预测概率数组中包括至少一个概率值,所述概率值与故障类型相对应;
故障确定模块,用于将所述预测概率数组中最大的概率值对应的故障类型作为所述预测运行故障。
14.根据权利要求10所述的系统,其特征在于,所述系统还包括:
负载分布统计单元,用于统计所述目标服务器的负载分布,所述负载分布包括所述目标服务器在指定时段内的平均负载;
定期检测模块,用于基于所述负载分布确定目标时段,并在所述目标时段内对所述目标服务器进行故障检测。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810193351.7A CN108491305B (zh) | 2018-03-09 | 2018-03-09 | 一种服务器故障的检测方法及系统 |
US16/330,961 US20210377102A1 (en) | 2018-03-09 | 2018-05-24 | A method and system for detecting a server fault |
PCT/CN2018/088240 WO2019169743A1 (zh) | 2018-03-09 | 2018-05-24 | 一种服务器故障的检测方法及系统 |
EP18869459.0A EP3557819B1 (en) | 2018-03-09 | 2018-05-24 | Server failure detection method and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810193351.7A CN108491305B (zh) | 2018-03-09 | 2018-03-09 | 一种服务器故障的检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108491305A true CN108491305A (zh) | 2018-09-04 |
CN108491305B CN108491305B (zh) | 2021-05-25 |
Family
ID=63338247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810193351.7A Expired - Fee Related CN108491305B (zh) | 2018-03-09 | 2018-03-09 | 一种服务器故障的检测方法及系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210377102A1 (zh) |
EP (1) | EP3557819B1 (zh) |
CN (1) | CN108491305B (zh) |
WO (1) | WO2019169743A1 (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109218114A (zh) * | 2018-11-12 | 2019-01-15 | 西安微电子技术研究所 | 一种基于决策树的服务器故障自动检测系统及检测方法 |
CN109344017A (zh) * | 2018-09-06 | 2019-02-15 | 浪潮电子信息产业股份有限公司 | 一种基于机器学习预测内存故障的方法,设备及可读存储介质 |
CN109397703A (zh) * | 2018-10-29 | 2019-03-01 | 北京航空航天大学 | 一种故障检测方法及装置 |
CN109634828A (zh) * | 2018-12-17 | 2019-04-16 | 浪潮电子信息产业股份有限公司 | 故障预测方法、装置、设备及存储介质 |
CN109905278A (zh) * | 2019-02-28 | 2019-06-18 | 深圳力维智联技术有限公司 | 基于大数据的基站故障检测方法、装置和存储介质 |
CN109992477A (zh) * | 2019-03-27 | 2019-07-09 | 联想(北京)有限公司 | 用于电子设备的信息处理方法、系统以及电子设备 |
CN110032480A (zh) * | 2019-01-17 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种服务器异常检测方法、装置及设备 |
CN110164101A (zh) * | 2019-04-09 | 2019-08-23 | 烽台科技(北京)有限公司 | 一种处理报警信息的方法及设备 |
CN110704278A (zh) * | 2019-09-30 | 2020-01-17 | 山东超越数控电子股份有限公司 | 一种智能服务器管理系统及其管理方法 |
CN110740061A (zh) * | 2019-10-18 | 2020-01-31 | 北京三快在线科技有限公司 | 故障预警方法、装置及计算机存储介质 |
CN110765486A (zh) * | 2019-10-23 | 2020-02-07 | 南方电网科学研究院有限责任公司 | 一种资产故障识别方法 |
CN111061620A (zh) * | 2019-12-27 | 2020-04-24 | 福州林科斯拉信息技术有限公司 | 一种混合策略的服务器异常智能检测方法及检测系统 |
CN111143173A (zh) * | 2020-01-02 | 2020-05-12 | 山东超越数控电子股份有限公司 | 一种基于神经网络的服务器故障监测方法及系统 |
WO2020133609A1 (zh) * | 2018-12-29 | 2020-07-02 | 网宿科技股份有限公司 | 一种服务器异常的处理方法及管理设备 |
CN111382029A (zh) * | 2020-03-05 | 2020-07-07 | 清华大学 | 基于pca和多维监测数据的主板异常诊断方法及装置 |
CN112817823A (zh) * | 2021-02-05 | 2021-05-18 | 杭州和利时自动化有限公司 | 一种网络状态监控方法、装置及介质 |
CN112988545A (zh) * | 2021-04-20 | 2021-06-18 | 湖南博匠信息科技有限公司 | 一种基于深度学习的vpx设备健康控制方法及系统 |
CN113238535A (zh) * | 2021-06-03 | 2021-08-10 | 中国核动力研究设计院 | 一种核安全级dcs模拟量输入模块故障诊断方法及系统 |
CN113505039A (zh) * | 2021-07-13 | 2021-10-15 | 河北建筑工程学院 | 一种通信故障分析方法、设备及系统 |
CN113869444A (zh) * | 2021-10-09 | 2021-12-31 | 中国南方电网有限责任公司超高压输电公司昆明局 | 变电站故障检测方法、装置、计算机设备和存储介质 |
CN114500218A (zh) * | 2020-11-11 | 2022-05-13 | 华为技术有限公司 | 一种控制网络设备的方法及装置 |
CN114630352A (zh) * | 2020-12-11 | 2022-06-14 | 中国移动通信集团湖南有限公司 | 一种接入设备的故障监测方法和装置 |
CN115437886A (zh) * | 2022-09-09 | 2022-12-06 | 中国电信股份有限公司 | 基于存算一体芯片的故障预警方法、装置、设备及存储 |
WO2023050671A1 (zh) * | 2021-09-28 | 2023-04-06 | 苏州浪潮智能科技有限公司 | 服务器故障定位方法、装置、电子设备及存储介质 |
CN116016142A (zh) * | 2022-12-14 | 2023-04-25 | 南方电网数字电网研究院有限公司 | 传感网络故障识别方法、装置、计算机设备和存储介质 |
CN116112344A (zh) * | 2023-04-11 | 2023-05-12 | 山东金宇信息科技集团有限公司 | 一种机房故障网络设备检测方法、设备及介质 |
CN117608974A (zh) * | 2024-01-22 | 2024-02-27 | 金品计算机科技(天津)有限公司 | 基于人工智能的服务器故障检测方法、装置、设备及介质 |
CN117806912A (zh) * | 2024-02-28 | 2024-04-02 | 济南聚格信息技术有限公司 | 一种服务器异常监测方法及系统 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906969B (zh) * | 2021-03-01 | 2024-06-14 | 盛景智能科技(嘉兴)有限公司 | 发动机故障预测方法、装置、电子设备及存储介质 |
CN113411204B (zh) * | 2021-05-17 | 2023-05-02 | 吴志伟 | 电信接入网设施故障检测方法、装置及计算机存储介质 |
CN113626242A (zh) * | 2021-08-11 | 2021-11-09 | 中国银行股份有限公司 | 一种数据处理方法、装置及电子设备 |
CN113935400A (zh) * | 2021-09-10 | 2022-01-14 | 东风商用车有限公司 | 一种车辆故障诊断方法、装置、系统及存储介质 |
CN113778802B (zh) * | 2021-09-15 | 2024-09-24 | 深圳前海微众银行股份有限公司 | 异常预测方法及设备 |
CN113806178B (zh) * | 2021-09-22 | 2024-06-28 | 中国建设银行股份有限公司 | 一种集群节点故障检测方法及装置 |
CN113835962A (zh) * | 2021-09-24 | 2021-12-24 | 超越科技股份有限公司 | 一种服务器故障检测方法、装置、计算机设备及存储介质 |
CN114443398B (zh) * | 2022-01-28 | 2024-10-18 | 苏州浪潮智能科技有限公司 | 内存故障预测模型的生成方法、检测方法、装置及设备 |
CN115022916B (zh) * | 2022-05-05 | 2024-09-24 | 北京国联视讯信息技术股份有限公司 | 一种基于状态检测的5g通信异常预警方法及系统 |
US20240028955A1 (en) * | 2022-07-22 | 2024-01-25 | Vmware, Inc. | Methods and systems for using machine learning with inference models to resolve performance problems with objects of a data center |
CN115238831B (zh) * | 2022-09-21 | 2023-04-14 | 中国南方电网有限责任公司超高压输电公司广州局 | 故障预测方法、装置、计算机设备和存储介质 |
CN116017404B (zh) * | 2022-12-30 | 2024-08-27 | 中国联合网络通信集团有限公司 | 园区专网的网元驱动方法、装置、电子设备及存储介质 |
CN116436106B (zh) * | 2023-06-14 | 2023-09-05 | 浙江卓松电气有限公司 | 低压配电检测系统、方法、终端设备及计算机存储介质 |
CN117170994B (zh) * | 2023-09-07 | 2024-07-19 | 湖南胜云光电科技有限公司 | Ipmi接口协议的故障预测扩展方法及系统 |
CN117056086A (zh) * | 2023-10-11 | 2023-11-14 | 国网山东省电力公司滨州市滨城区供电公司 | 基于排列熵算法的故障检测方法、系统、终端及存储介质 |
CN117278383B (zh) * | 2023-11-21 | 2024-02-20 | 航天科工广信智能技术有限公司 | 一种物联网故障排查方案生成系统及方法 |
CN117910617B (zh) * | 2023-12-25 | 2024-07-16 | 江苏方洋能源科技有限公司 | 一种光伏板故障远程预测系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030126258A1 (en) * | 2000-02-22 | 2003-07-03 | Conkright Gary W. | Web based fault detection architecture |
KR20080020470A (ko) * | 2006-08-31 | 2008-03-05 | 영남대학교 산학협력단 | 자율망간 환경에서 트래픽 엔지니어링을 위한웹기반기업관리 기반의 차등화 경로보호를 이용한장애관리시스템 및 방법 |
CN103116531A (zh) * | 2013-01-25 | 2013-05-22 | 浪潮(北京)电子信息产业有限公司 | 存储系统故障预测方法和装置 |
CN106991502A (zh) * | 2017-04-27 | 2017-07-28 | 深圳大数点科技有限公司 | 一种设备故障预测系统和方法 |
CN107273273A (zh) * | 2017-06-27 | 2017-10-20 | 郑州云海信息技术有限公司 | 一种分布式集群硬件故障预警方法及系统 |
CN107479836A (zh) * | 2017-08-29 | 2017-12-15 | 郑州云海信息技术有限公司 | 磁盘故障监控方法、装置以及存储系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8140914B2 (en) * | 2009-06-15 | 2012-03-20 | Microsoft Corporation | Failure-model-driven repair and backup |
EP3085017A1 (en) * | 2013-12-19 | 2016-10-26 | BAE Systems PLC | Method and apparatus for detecting fault conditions in a network |
US9632854B2 (en) * | 2014-11-05 | 2017-04-25 | International Business Machines Corporation | Electronic system configuration management |
CN104935464B (zh) * | 2015-06-12 | 2018-07-06 | 北京奇虎科技有限公司 | 一种网站系统的故障预警方法和装置 |
CN107024915B (zh) * | 2016-02-02 | 2019-10-01 | 同济大学 | 一种电网控制器板卡故障检测系统及检测方法 |
CN107248927B (zh) * | 2017-05-02 | 2020-06-09 | 华为技术有限公司 | 故障定位模型的生成方法、故障定位方法和装置 |
CN107392320A (zh) * | 2017-07-28 | 2017-11-24 | 郑州云海信息技术有限公司 | 一种使用机器学习预测硬盘故障的方法 |
-
2018
- 2018-03-09 CN CN201810193351.7A patent/CN108491305B/zh not_active Expired - Fee Related
- 2018-05-24 EP EP18869459.0A patent/EP3557819B1/en not_active Not-in-force
- 2018-05-24 US US16/330,961 patent/US20210377102A1/en not_active Abandoned
- 2018-05-24 WO PCT/CN2018/088240 patent/WO2019169743A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030126258A1 (en) * | 2000-02-22 | 2003-07-03 | Conkright Gary W. | Web based fault detection architecture |
KR20080020470A (ko) * | 2006-08-31 | 2008-03-05 | 영남대학교 산학협력단 | 자율망간 환경에서 트래픽 엔지니어링을 위한웹기반기업관리 기반의 차등화 경로보호를 이용한장애관리시스템 및 방법 |
CN103116531A (zh) * | 2013-01-25 | 2013-05-22 | 浪潮(北京)电子信息产业有限公司 | 存储系统故障预测方法和装置 |
CN106991502A (zh) * | 2017-04-27 | 2017-07-28 | 深圳大数点科技有限公司 | 一种设备故障预测系统和方法 |
CN107273273A (zh) * | 2017-06-27 | 2017-10-20 | 郑州云海信息技术有限公司 | 一种分布式集群硬件故障预警方法及系统 |
CN107479836A (zh) * | 2017-08-29 | 2017-12-15 | 郑州云海信息技术有限公司 | 磁盘故障监控方法、装置以及存储系统 |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344017A (zh) * | 2018-09-06 | 2019-02-15 | 浪潮电子信息产业股份有限公司 | 一种基于机器学习预测内存故障的方法,设备及可读存储介质 |
CN109397703A (zh) * | 2018-10-29 | 2019-03-01 | 北京航空航天大学 | 一种故障检测方法及装置 |
CN109218114A (zh) * | 2018-11-12 | 2019-01-15 | 西安微电子技术研究所 | 一种基于决策树的服务器故障自动检测系统及检测方法 |
CN109218114B (zh) * | 2018-11-12 | 2021-06-08 | 西安微电子技术研究所 | 一种基于决策树的服务器故障自动检测系统及检测方法 |
CN109634828A (zh) * | 2018-12-17 | 2019-04-16 | 浪潮电子信息产业股份有限公司 | 故障预测方法、装置、设备及存储介质 |
WO2020133609A1 (zh) * | 2018-12-29 | 2020-07-02 | 网宿科技股份有限公司 | 一种服务器异常的处理方法及管理设备 |
CN110032480A (zh) * | 2019-01-17 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种服务器异常检测方法、装置及设备 |
CN110032480B (zh) * | 2019-01-17 | 2024-02-06 | 创新先进技术有限公司 | 一种服务器异常检测方法、装置及设备 |
CN109905278A (zh) * | 2019-02-28 | 2019-06-18 | 深圳力维智联技术有限公司 | 基于大数据的基站故障检测方法、装置和存储介质 |
CN109992477A (zh) * | 2019-03-27 | 2019-07-09 | 联想(北京)有限公司 | 用于电子设备的信息处理方法、系统以及电子设备 |
CN110164101A (zh) * | 2019-04-09 | 2019-08-23 | 烽台科技(北京)有限公司 | 一种处理报警信息的方法及设备 |
CN110704278A (zh) * | 2019-09-30 | 2020-01-17 | 山东超越数控电子股份有限公司 | 一种智能服务器管理系统及其管理方法 |
CN110740061B (zh) * | 2019-10-18 | 2020-09-29 | 北京三快在线科技有限公司 | 故障预警方法、装置及计算机存储介质 |
CN110740061A (zh) * | 2019-10-18 | 2020-01-31 | 北京三快在线科技有限公司 | 故障预警方法、装置及计算机存储介质 |
CN110765486A (zh) * | 2019-10-23 | 2020-02-07 | 南方电网科学研究院有限责任公司 | 一种资产故障识别方法 |
CN110765486B (zh) * | 2019-10-23 | 2024-01-26 | 南方电网科学研究院有限责任公司 | 一种资产故障识别方法 |
CN111061620A (zh) * | 2019-12-27 | 2020-04-24 | 福州林科斯拉信息技术有限公司 | 一种混合策略的服务器异常智能检测方法及检测系统 |
CN111061620B (zh) * | 2019-12-27 | 2022-07-01 | 南京林科斯拉信息技术有限公司 | 一种混合策略的服务器异常智能检测方法及检测系统 |
CN111143173A (zh) * | 2020-01-02 | 2020-05-12 | 山东超越数控电子股份有限公司 | 一种基于神经网络的服务器故障监测方法及系统 |
CN111382029B (zh) * | 2020-03-05 | 2021-09-03 | 清华大学 | 基于pca和多维监测数据的主板异常诊断方法及装置 |
CN111382029A (zh) * | 2020-03-05 | 2020-07-07 | 清华大学 | 基于pca和多维监测数据的主板异常诊断方法及装置 |
US12021714B2 (en) | 2020-11-11 | 2024-06-25 | Huawei Technologies Co., Ltd. | Network device control method and apparatus for collecting and determining data trends |
CN114500218B (zh) * | 2020-11-11 | 2023-07-18 | 华为技术有限公司 | 一种控制网络设备的方法及装置 |
CN114500218A (zh) * | 2020-11-11 | 2022-05-13 | 华为技术有限公司 | 一种控制网络设备的方法及装置 |
CN114630352A (zh) * | 2020-12-11 | 2022-06-14 | 中国移动通信集团湖南有限公司 | 一种接入设备的故障监测方法和装置 |
CN114630352B (zh) * | 2020-12-11 | 2023-08-15 | 中国移动通信集团湖南有限公司 | 一种接入设备的故障监测方法和装置 |
CN112817823A (zh) * | 2021-02-05 | 2021-05-18 | 杭州和利时自动化有限公司 | 一种网络状态监控方法、装置及介质 |
CN112988545A (zh) * | 2021-04-20 | 2021-06-18 | 湖南博匠信息科技有限公司 | 一种基于深度学习的vpx设备健康控制方法及系统 |
CN113238535A (zh) * | 2021-06-03 | 2021-08-10 | 中国核动力研究设计院 | 一种核安全级dcs模拟量输入模块故障诊断方法及系统 |
CN113505039A (zh) * | 2021-07-13 | 2021-10-15 | 河北建筑工程学院 | 一种通信故障分析方法、设备及系统 |
WO2023050671A1 (zh) * | 2021-09-28 | 2023-04-06 | 苏州浪潮智能科技有限公司 | 服务器故障定位方法、装置、电子设备及存储介质 |
CN113869444A (zh) * | 2021-10-09 | 2021-12-31 | 中国南方电网有限责任公司超高压输电公司昆明局 | 变电站故障检测方法、装置、计算机设备和存储介质 |
CN115437886A (zh) * | 2022-09-09 | 2022-12-06 | 中国电信股份有限公司 | 基于存算一体芯片的故障预警方法、装置、设备及存储 |
CN116016142A (zh) * | 2022-12-14 | 2023-04-25 | 南方电网数字电网研究院有限公司 | 传感网络故障识别方法、装置、计算机设备和存储介质 |
CN116016142B (zh) * | 2022-12-14 | 2024-03-26 | 南方电网数字电网研究院有限公司 | 传感网络故障识别方法、装置、计算机设备和存储介质 |
CN116112344B (zh) * | 2023-04-11 | 2023-06-20 | 山东金宇信息科技集团有限公司 | 一种机房故障网络设备检测方法、设备及介质 |
CN116112344A (zh) * | 2023-04-11 | 2023-05-12 | 山东金宇信息科技集团有限公司 | 一种机房故障网络设备检测方法、设备及介质 |
CN117608974A (zh) * | 2024-01-22 | 2024-02-27 | 金品计算机科技(天津)有限公司 | 基于人工智能的服务器故障检测方法、装置、设备及介质 |
CN117806912A (zh) * | 2024-02-28 | 2024-04-02 | 济南聚格信息技术有限公司 | 一种服务器异常监测方法及系统 |
CN117806912B (zh) * | 2024-02-28 | 2024-05-14 | 济南聚格信息技术有限公司 | 一种服务器异常监测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
EP3557819A1 (en) | 2019-10-23 |
EP3557819B1 (en) | 2020-10-28 |
US20210377102A1 (en) | 2021-12-02 |
EP3557819A8 (en) | 2020-07-15 |
WO2019169743A1 (zh) | 2019-09-12 |
CN108491305B (zh) | 2021-05-25 |
EP3557819A4 (en) | 2019-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491305A (zh) | 一种服务器故障的检测方法及系统 | |
US11657309B2 (en) | Behavior analysis and visualization for a computer infrastructure | |
CN111143102B (zh) | 异常数据检测方法、装置、存储介质及电子设备 | |
CN110275814A (zh) | 一种业务系统的监控方法及装置 | |
US20060224254A1 (en) | Industrial process data acquisition and analysis | |
CN108599977B (zh) | 基于统计方法监控系统可用性的系统及方法 | |
CN112699007B (zh) | 监控机器性能的方法、系统、网络设备及存储介质 | |
CN110765189A (zh) | 互联网产品的异常管理方法和系统 | |
CN117061335A (zh) | 云平台设备健康管控方法、装置、存储介质和电子设备 | |
CN115801121A (zh) | 光缆设备异常检测方法及装置 | |
CN118130927A (zh) | 一种充电桩设备的故障自动检测方法及系统 | |
CN117690087A (zh) | 一种基于空间合并的智能管理方法及系统 | |
WO2024066771A1 (zh) | 一种前传链路的故障根因定位方法及装置 | |
CN117689365A (zh) | 一种电厂智能运维管理方法及系统 | |
CN109658082B (zh) | 一种计费异常的识别方法及设备 | |
CN115686381A (zh) | 存储集群运行状态的预测方法及装置 | |
CN114095337A (zh) | Kpi异常检测方法、装置、计算设备及计算机存储介质 | |
CN117439899B (zh) | 一种基于大数据的通信机房巡检方法及系统 | |
CN118118379B (zh) | 一种基于物联网的设备运行监测方法及系统 | |
CN116132121B (zh) | 一种特征识别性能分析的方法 | |
CN117493129B (zh) | 一种计算机控制设备的运行功率监测系统 | |
CN117495357B (zh) | 一种基于大数据的电力数据监管系统及方法 | |
CN115617617A (zh) | 设备状态监控方法及装置 | |
CN118282831A (zh) | 闪断告警的风险预测方法、网管设备及系统 | |
CN114723682A (zh) | 产品缺陷管理方法、系统及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210525 |