CN111858263B - 一种基于日志分析的故障预测方法、系统及装置 - Google Patents
一种基于日志分析的故障预测方法、系统及装置 Download PDFInfo
- Publication number
- CN111858263B CN111858263B CN202010536934.2A CN202010536934A CN111858263B CN 111858263 B CN111858263 B CN 111858263B CN 202010536934 A CN202010536934 A CN 202010536934A CN 111858263 B CN111858263 B CN 111858263B
- Authority
- CN
- China
- Prior art keywords
- fault
- module
- log
- current
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000003745 diagnosis Methods 0.000 claims description 11
- 238000012423 maintenance Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种基于日志分析的故障预测方法、系统及装置,方法包括获取当前日志包内的模块故障信息和当前机型信息;根据所述模块故障信息中模块在当前机型下的故障概率,结合机型间的影响系数及机型的故障概率,预测关联模块的故障概率。本发明通过对收集的大量日志包进行处理,得到不同机型下,各服务器模块故障的概率。从而针对当前的日志包中出现的故障模块,预测与之关联模块故障的概率,在预测过程中结合各机型之间的影响系数和当前机型的故障概率,增强预测结果的可靠性,从而提醒运维人员检查关联模块,减少实际的故障出现率,提供服务器的运行稳定性。
Description
技术领域
本发明涉及服务器运维技术领域,尤其是一种基于日志分析的故障预测方法、系统及装置。
背景技术
伴随着数字时代的到来,对服务的需求越来越大,尤其是受疫情的影响,居家办公现象普及,对网络以及各个服务供应商要求越来越严格,这样就对服务器的运维提出了很高的要求。
服务器生成的日志文件在服务器运维中有着举足轻重的作用。随着长时间的服务器运维,我们已经掌握了很多服务器的日志,并且已经对相应的日志进行了分析,通过ISCDS(故障诊断系统)已经生成了大量的错误日志。
现阶段对服务器故障的了解,仅仅是直观的对故障日志信息的获取,了解已发生的故障,未充分对现有信息进行利用,来预测未来故障。
发明内容
本发明提供了一种基于日志分析的故障预测方法、系统及装置,用于解决现有手段无法预测服务器未来故障的问题。
为实现上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种基于日志分析的故障预测方法,所述方法包括以下步骤:
获取当前日志包内的模块故障信息和当前机型信息;
根据所述模块故障信息中模块在当前机型下的故障概率,结合机型间的影响系数及机型的故障概率,预测关联模块的故障概率。
进一步地,所述模块包括CPU模块、内存模块、PCIE模块和PCH模块。
进一步地,所述模块在当前机型下的故障概率的计算具体为:
获取当前模块故障的日志集合;
在当前机型下,计算每个日志包内当前故障模块的故障概率;
将上述故障概率求和并除以所述日志集合中的日志总条数。
进一步地,所述故障模块包括单个模块或多个模块。
进一步地,所述机型的故障概率的计算具体为:
统计所有日志包内当前机型对应的日志包数量;
用所述日志包数量除以总日志包的数量。
进一步地,所述关联模块的故障概率预测具体为:
将以上两步的计算结果求和。
本发明第二方面提供了一种基于日志分析的故障预测系统,所述系统包括:
信息采集单元,获取当前日志包内的模块故障信息和当前机型信息;
故障预测单元,根据所述模块故障信息中模块在当前机型下的故障概率,结合机型间的影响系数及机型的故障概率,预测关联模块的故障概率。
进一步地,所述故障预测单元包括:
模块故障概率计算子单元,获取当前模块故障的日志集合;在当前机型下,计算每个日志包内当前故障模块的故障概率;将上述故障概率求和并除以所述日志集合中的日志总条数;
机型故障概率计算子单元,统计所有日志包内当前机型对应的日志包数量;用所述日志包数量除以总日志包的数量;
模块故障预测子单元,结合模块故障概率计算子单元和机型故障概率计算子单元的计算结果以及机型间的影响系数,计算关联模块的故障概率。
本发明第三方面提供了一种基于日志分析的故障预测装置,所述装置包括日志收集工具、故障诊断系统和所述的故障预测系统;
所述日志收集模块用于收集机器的日志包,并将日志包上传至故障诊断系统;
所述故障诊断系统用于获取所述日志包内的模块故障信息,将所述模块故障信息形成日志集合。
本发明第四方面提供了一种计算机存储介质,所述计算机存储介质中存储有计算机指令,其特征是,所述计算机指令在所述故障预测系统上运行时,使所述故障预测系统执行所述的故障预测方法的步骤。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明通过对收集的大量日志包进行处理,得到不同机型下,各服务器模块故障的概率。从而针对当前的日志包中出现的故障模块,预测与之关联模块故障的概率,在预测过程中结合各机型之间的影响系数和当前机型的故障概率,增强预测结果的可靠性,从而提醒运维人员检查关联模块,减少实际的故障出现率,提供服务器的运行稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述方法实施例的流程示意图;
图2是本发明所述系统实施例的结构示意图;
图3是本发明所述装置实施例的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
服务器中虽然各个部件生成的日志是存放到不同的文件中,相互独立,但是在实际运维中,发现各个模块的错误日志是相互关联的,各模块之间也是相互影响的,如果cpu出现问题,可能会导致网卡模块日志的异常,同理同样机型,同一种问题出现的频率可能大体相同。本发明把这批错误日志建模,生成出一套评价标准,把新收集到的服务器日志作为输入参数,根据诊断出的错误日志信息,诊断错误日志模块的问题,通过大数据计算并添加同机数据对比,预测与该模块相关的关联模块的健康情况。并且在关联模块出问题之前做出修改,避免服务器更大规模的问题出现。
如图1所示,本发明一种基于日志分析的故障预测方法,包括以下步骤:
S1,获取当前日志包内的模块故障信息和当前机型信息;
S2,根据所述模块故障信息中模块在当前机型下的故障概率,结合机型间的影响系数及机型的故障概率,预测关联模块的故障概率。
为了模型化服务器设备,把服务器模块分为CPU模块(C)、内存模块(M)、PCIE模块(I)、PCH模块(H)以及其他模块。但在错误日志数据库中还有一些操作系统上面的错误日志,如BMC报错、风扇报错等所述模块包括CPU模块、内存模块、PCIE模块和PCH模块。
在上述步骤S1之前,首先需要结合历史数据,对不同机型下,各模块的故障概率以及机型的故障概率进行计算。其中各模块的故障概率包括单一模块的故障概率和多个模块的故障概率。为了简化说明,本发明以下实施例仅针对CPU模块(C)、内存模块(M)、PCIE模块(I)、PCH模块(H)进行说明。即分别计算单模块的故障率、2模块的故障概率和3模块的故障概率。
首先进行一点说明,下述提到的日志数据库内的日志数据为日志收集工具收集的所有机器产生的历史日志包,该错误日志数据库与故障诊断系统连接。
单模块故障概率的计算为:
检索错误日志数据库,查找各个机型中出现单个模块故障的日志集合,获取某日志包的MD5值,根据日志包的MD5值,统计这个日志包中所有的故障日志条数si,以及统计当前模块的故障日志条数ei,得到当前日志包内单个模块出现错误的概率为pi=ei/si。遍历这个集合(i表示遍历的次数),得到当前日志包内所有单个故障模块的故障概率,每遍历一次,得到一个模块的故障概率,因此i同时表示遍历次数和单个故障的模块个数。因同一机型会存在多个日志包,因此,当前机型下,单个模块故障的概率为当前故障模块在所有日志包中故障概率的均值,即pdi=(p1+p2+…+pn)/n1,其中d表示机型,n1表示日志集合中故障日志的条数,p1、p2、…pn表示当前模块在对应日志包下的故障概率。基于此,可以得到当前机型下CPU模块的故障概率pC、内存模块的故障概率pM、PCIE模块的故障概率pI、和PCH模块的故障概率pH。
2模块故障概率的计算为:
检索错误日志数据库,查找各机型中同时出现2个模块错误的日志集合,获取某日志包的MD5值,根据日志包的MD5值,统计这个日志包中所有的错误日志条数sj,以及同时出现2个模块的错误日志条数ej,得到当前日志包中2模块出现错误的概率为pj=ej/sj。遍历这个集合(j表示遍历的次数),得到当前日志包内所有2模块的故障概率,每遍历一次,得到一个2模块的故障概率,因此j同时表示遍历次数和2故障模块个数。因同一机型会存在多个日志包,因此,当前机型下,2模块故障的概率为当前2故障模块在所有日志包中故障概率的均值,即pdj=(p1+p2+…+pn)/n2,其中d表示机型,n2表示日志集合中2故障日志的条数,p1、p2、…pn表示2模块在对应日志包下的故障概率。基于此,可以得到当前机型下CPU模块与内存模块同时故障的概率pCM、CPU模块与PCIE模块同时故障的概率pCI、CU模块与PCH模块同时故障的概率pCH、内存模块与PCIE模块同时故障的概率pMI、内存模块与PCH模块同时故障的概率pMH、PCIE模块和PCH模块同时故障的概率pIH。
3模块故障概率的计算为:
检索错误日志数据库,查找各机型中同时出现3个模块错误的日志集合,获取某日志包的MD5值,根据日志包的MD5值,统计这个日志包中所有的错误日志条数sk,以及当前3模块中错误日志条数ek,得到当前日志包中组合模块的错误的概率为pk=ek/sk。遍历这个集合(k表示遍历的次数),得到当前日志包内所有3模块的故障概率,每遍历一次,得到一个3模块的故障概率,因此k同时表示遍历次数和3故障模块个数。因同一机型会存在多个日志包,因此,当前机型下,3模块故障的概率为当前3故障模块在所有日志包中故障概率的均值,pdi=(p1+p2+…+pn)/n3,其中d表示机型,n3表示日志集合中3故障日志的条数,p1、p2、…pn表示3模块在对应日志包下的故障概率。基于此,可以得到当前机型下CPU模块、内存模块和PCIE模块同时故障的概率pCMI、CPU模块。内存模块和PCH模块同时故障的概率pCMH、CPU模块、PCIE模块和PCH模块同时故障的概率pCIH、内存模块、PCIE模块和PCH模块同时故障的概率pMIH。
机型的故障概率的计算具体为:统计所有日志包内当前机型对应的日志包数量;用所述日志包数量除以总日志包的数量。
利用上述计算的概率值,基于当前产生的日志包,其内出现的故障模块预测与之关联的其他模块的故障概率。
步骤S1中,首先从当前日志包中,获取故障模块信息和机型信息。
步骤S2中,关联模块的故障概率预测具体为:
将以上两步的计算结果求和。
如步骤S1中得到的故障模块为CPU模块和内存模块,机型为A。要预测PCIE模块的故障概率。且机型A与机型B、C关联,影响系数分别为0.8和0.1,机型B与C的影响系数为0.1,A、B和C三种机型的故障概率分别为pAA、pAB、pAC,则PCIE模块的故障概率为:P(I|CM)=pA(I|CM)*0.8*pAA+pB(I|CM)*0.1*pAb+pc(I|CM)*0.1*pAc,其中pA(I|CM)表示A机型下,PCIE故障概率与CPU模块、内存模块同时故障概率的比值,pB(I|CM)表示B机型下,PCIE故障概率与CPU模块、内存模块同时故障概率的比值,pC(I|CM)表示C机型下,PCIE故障概率与CPU模块、内存模块同时故障概率的比值。
如图2所示,本发明一种基于日志分析的故障预测系统,包括信息采集单元1和故障预测单元2。
信息采集单元1获取当前日志包内的模块故障信息和当前机型信息;故障预测单元2根据所述模块故障信息中模块在当前机型下的故障概率,结合机型间的影响系数及机型的故障概率,预测关联模块的故障概率。
故障预测单元2包括模块故障概率计算子单元21、机型故障概率计算子单元22和模块故障预测子单元23。
模块故障概率计算子单元21获取当前模块故障的日志集合;在当前机型下,计算每个日志包内当前故障模块的故障概率;将上述故障概率求和并除以所述日志集合中的日志总条数.机型故障概率计算子单元22统计所有日志包内当前机型对应的日志包数量;用所述日志包数量除以总日志包的数量。模块故障预测子单元23结合模块故障概率计算子单元和机型故障概率计算子单元的计算结果以及机型间的影响系数,计算关联模块的故障概率。
如图3所示,本发明一种基于日志分析的故障预测装置包括日志收集工具、故障诊断系统和故障预测系统。
日志收集模块用于收集机器的日志包,并将历史日志包上传至故障诊断系统;故障诊断系统用于获取历史日志包内的模块故障信息,将模块故障信息形成日志集合。
本发明还提供了一种计算机存储介质,计算机存储介质中存储有计算机指令,计算机指令在故障预测系统上运行时,使故障预测系统执行故障预测方法的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (6)
1.一种基于日志分析的故障预测方法,其特征是,所述方法包括以下步骤:
获取当前日志包内的模块故障信息和当前机型信息;
根据所述模块故障信息中模块在当前机型下的故障概率,结合机型间的影响系数及机型的故障概率,预测关联模块的故障概率;
所述模块在当前机型下的故障概率的计算具体为:
获取当前模块故障的日志集合;
在当前机型下,计算每个日志包内当前故障模块的故障概率;
将上述故障概率求和并除以所述日志集合中的日志总条数;
所述机型的故障概率的计算具体为:
统计所有日志包内当前机型对应的日志包数量;
用所述日志包数量除以总日志包的数量;
所述关联模块的故障概率预测具体为:
将以上两步的计算结果求和。
2.根据权利要求1所述基于日志分析的故障预测方法,其特征是,所述模块包括CPU模块、内存模块、PCIE模块和PCH模块。
3.根据权利要求1所述基于日志分析的故障预测方法,其特征是,所述故障模块包括单个模块或多个模块。
4.一种基于日志分析的故障预测系统,其特征是,所述系统包括:
信息采集单元,获取当前日志包内的模块故障信息和当前机型信息;
故障预测单元,根据所述模块故障信息中模块在当前机型下的故障概率,结合机型间的影响系数及机型的故障概率,预测关联模块的故障概率;
所述故障预测单元包括:
模块故障概率计算子单元,获取当前模块故障的日志集合;在当前机型下,计算每个日志包内当前故障模块的故障概率;将上述故障概率求和并除以所述日志集合中的日志总条数;
机型故障概率计算子单元,统计所有日志包内当前机型对应的日志包数量;用所述日志包数量除以总日志包的数量;
模块故障预测子单元,结合模块故障概率计算子单元和机型故障概率计算子单元的计算结果以及机型间的影响系数,计算关联模块的故障概率;
所述关联模块的故障概率预测具体为:
将以上两步的计算结果求和。
5.一种基于日志分析的故障预测装置,其特征是,所述装置包括日志收集工具、故障诊断系统和权利要求4所述的故障预测系统;
所述日志收集模块用于收集机器的日志包,并将日志包上传至故障诊断系统;
所述故障诊断系统用于获取所述日志包内的模块故障信息,将所述模块故障信息形成日志集合。
6.一种计算机存储介质,所述计算机存储介质中存储有计算机指令,其特征是,所述计算机指令在权利要求4所述故障预测系统上运行时,使所述故障预测系统执行如权利要求1-3任一项所述的故障预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010536934.2A CN111858263B (zh) | 2020-06-12 | 2020-06-12 | 一种基于日志分析的故障预测方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010536934.2A CN111858263B (zh) | 2020-06-12 | 2020-06-12 | 一种基于日志分析的故障预测方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111858263A CN111858263A (zh) | 2020-10-30 |
CN111858263B true CN111858263B (zh) | 2022-08-02 |
Family
ID=72987191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010536934.2A Active CN111858263B (zh) | 2020-06-12 | 2020-06-12 | 一种基于日志分析的故障预测方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858263B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038049A (zh) * | 2017-12-13 | 2018-05-15 | 西安电子科技大学 | 实时日志控制系统及控制方法、云计算系统及服务器 |
CN108984332A (zh) * | 2018-06-22 | 2018-12-11 | 郑州云海信息技术有限公司 | 一种定位服务器宕机故障的装置及方法 |
CN110647446A (zh) * | 2018-06-26 | 2020-01-03 | 中兴通讯股份有限公司 | 一种日志故障关联与预测方法、装置、设备及存储介质 |
-
2020
- 2020-06-12 CN CN202010536934.2A patent/CN111858263B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038049A (zh) * | 2017-12-13 | 2018-05-15 | 西安电子科技大学 | 实时日志控制系统及控制方法、云计算系统及服务器 |
CN108984332A (zh) * | 2018-06-22 | 2018-12-11 | 郑州云海信息技术有限公司 | 一种定位服务器宕机故障的装置及方法 |
CN110647446A (zh) * | 2018-06-26 | 2020-01-03 | 中兴通讯股份有限公司 | 一种日志故障关联与预测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111858263A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8230262B2 (en) | Method and apparatus for dealing with accumulative behavior of some system observations in a time series for Bayesian inference with a static Bayesian network model | |
US8069370B1 (en) | Fault identification of multi-host complex systems with timesliding window analysis in a time series | |
US8291263B2 (en) | Methods and apparatus for cross-host diagnosis of complex multi-host systems in a time series with probabilistic inference | |
CN110750377A (zh) | 一种故障定位方法及装置 | |
US11429574B2 (en) | Computer system diagnostic log chain | |
CN110645153A (zh) | 风力发电机组故障诊断方法、装置和电子设备 | |
KR102455332B1 (ko) | 네트워크 장치의 상태를 결정하는 방법 및 장치 | |
CN116719664B (zh) | 基于微服务部署的应用和云平台跨层故障分析方法及系统 | |
CN115118621B (zh) | 一种基于依赖关系图的微服务性能诊断方法及系统 | |
CN113392000B (zh) | 测试用例执行结果分析方法、装置、设备及存储介质 | |
CN113518367B (zh) | 5g网络切片下基于服务特征的故障诊断方法及系统 | |
CN111858263B (zh) | 一种基于日志分析的故障预测方法、系统及装置 | |
CN115114124A (zh) | 主机风险的评估方法及评估装置 | |
CN116126574A (zh) | 一种系统故障诊断方法、装置、设备及存储介质 | |
CN112162528B (zh) | 一种数控机床的故障诊断方法、装置、设备和存储介质 | |
CN116804957A (zh) | 一种系统监控方法及装置 | |
CN107121616B (zh) | 一种用于对智能仪表进行故障定位的方法和装置 | |
WO2021184588A1 (zh) | 集群优化方法、装置、服务器及介质 | |
CN114760190A (zh) | 一种面向服务的融合网络性能异常检测方法 | |
WO2023273804A1 (zh) | 组网方法、网管系统、服务器和计算机可读存储介质 | |
US20230412449A1 (en) | Network alert detection utilizing trained edge classification models | |
EP4332776A1 (en) | Network fault analysis method and apparatus, and device and storage medium | |
CN113037550B (zh) | 一种服务故障监控方法、系统及计算机可读存储介质 | |
CN116701116A (zh) | 服务器故障预测方法、装置、服务器及存储介质 | |
WO2023162243A1 (ja) | 障害情報検出装置、障害情報検出方法、および障害情報検出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |