CN113537349A - 大型主机硬件故障识别方法、装置、设备及存储介质 - Google Patents

大型主机硬件故障识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113537349A
CN113537349A CN202110804870.4A CN202110804870A CN113537349A CN 113537349 A CN113537349 A CN 113537349A CN 202110804870 A CN202110804870 A CN 202110804870A CN 113537349 A CN113537349 A CN 113537349A
Authority
CN
China
Prior art keywords
fault
hardware
model
hardware fault
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110804870.4A
Other languages
English (en)
Inventor
刘权
陆君杰
张世荃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110804870.4A priority Critical patent/CN113537349A/zh
Publication of CN113537349A publication Critical patent/CN113537349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书涉及金融领域或其他领域的大型主机硬件故障识别技术,提供了一种大型主机硬件故障识别方法、装置、设备及存储介质,该方法包括:从目标主机系统的硬件英文告警历史信息中提取关键字英文实体;按照每类字母出现的频率将所述关键字英文实体进行量化编码,获得故障特征序列集;根据所述故障特征序列集训练隐马尔科夫模型,获得硬件故障识别模型;利用所述硬件故障识别模型对所述目标主机系统进行硬件故障识别。本说明书实施例可以提高大型主机硬件故障识别的时效性。

Description

大型主机硬件故障识别方法、装置、设备及存储介质
技术领域
本说明书涉及金融领域或其他领域的大型主机硬件故障识别技术,尤其是涉及一种大型主机硬件故障识别方法、装置、设备及存储介质。
背景技术
目前,金融领域的数据中心一般采用国外引进的大型主机,这些大型主机内部构造复杂,其技术文档往往以英文形式编写且数量接近上千页。而很多情况下,大型主机的硬件告警(以英文描述)并不是硬件故障告警,因此需要对其进行识别。目前在发现硬件告警英文描述时,一般由人工依据故障告警英文和技术文档进行识别;这种方式耗时费力,时效性较低。
发明内容
本说明书实施例的目的在于提供一种大型主机硬件故障识别方法、装置、设备及存储介质,以提高大型主机硬件故障识别的时效性。
为达到上述目的,一方面,本说明书实施例提供了一种大型主机硬件故障识别方法,包括:
从目标主机系统的硬件英文告警历史信息中提取关键字英文实体;
按照每类字母出现的频率将所述关键字英文实体进行量化编码,获得故障特征序列集;
根据所述故障特征序列集训练隐马尔科夫模型,获得硬件故障识别模型;
利用所述硬件故障识别模型对所述目标主机系统进行硬件故障识别。
本说明书的实施例中,所述根据所述故障特征序列集训练隐马尔科夫模型,包括:
根据公式
Figure BDA0003165966560000021
迭代更新隐马尔科夫模型,直至相邻两次迭代的概率值对数差小于给定阈值时为止,并将此时的隐马尔科夫模型作为硬件故障识别模型;
其中,
Figure BDA0003165966560000022
为目标主机系统从隐含状态i转到隐含状态j的状态转移概率矩阵;
Figure BDA0003165966560000023
为目标主机系统在隐含状态j下出现故障特征序列k的输出概率矩阵;l为观察序列样本集数目变量;L为l的样本总数;t为观察状态时间点变量;T为t的样本总数;M为隐藏状态总数目;
Figure BDA0003165966560000024
为t时刻隐含状态i下观察序列(O1,O2,…,Ot)出现的概率;aij为目标主机系统从隐含状态i转到隐含状态j的状态转移概率;
Figure BDA0003165966560000025
为隐含状态j下观察值
Figure BDA0003165966560000026
出现的概率;
Figure BDA0003165966560000027
为隐含状态j下观察序列(Oi+2,Oi+3,…,OT)出现的概率;
Figure BDA0003165966560000028
为t时刻隐含状态i下观察序列(Ot+1,Ot+2,…,OT)出现的概率;
Figure BDA0003165966560000029
为t+1时刻隐含状态j下观察序列(O1,O2,…,Ot+1)出现的概率;
Figure BDA00031659665600000210
为t时刻隐含状态j下观察序列(O1,O2,…,Ot)出现的概率;
Figure BDA00031659665600000211
为t时刻隐含状态j下观察序列(Ot+1,Ot+2,…,OT)出现的概率;Ot=vk表示t时刻出现的观察值Ot的取值为vk
本说明书的实施例中,所述给定阈值预先根据以下公式确定;
Figure BDA00031659665600000212
其中,thd(F)为故障F对应的给定阈值,γ为比例系数;K为故障特征序列组数;O(i)为第i个故障特征序列;λF为故障F对应的隐马尔科夫模型;P(O(i)F)为在模型λF下O(i)出现的概率;len(O(i))为故障特征序列O(i)的维数长度长。
本说明书的实施例中,所述利用所述硬件故障识别模型对所述目标主机系统进行硬件故障识别,包括:
将所述目标主机系统待识别的硬件英文告警信息量化编码为待识别故障特征序列;
将所述待识别故障特征序列输入至硬件故障识别模型集合的每个模型中,以在所述硬件故障识别模型集合的所有模型下寻找其最大输出概率对数值;
将所述最大输出概率对数值与对应模型的给定阈值进行比较,以判断所述待识别硬件英文告警信息对应的硬件故障类型。
本说明书的实施例中,所述将所述最大输出概率对数值与对应模型的给定阈值进行比较,包括:
当比较结果满足
Figure BDA0003165966560000031
时,确认所述硬件英文告警信息为硬件故障告警信息;
其中,G为故障标识;O(i)为待识别故障特征序列;λG为故障G对应的隐马尔科夫模型;P(O(i)G)为在模型λF下O(i)出现的概率;len(O(i))为待识别故障特征序列O(i)的维数长度长;thd()为给定阈值计算公式。
本说明书的实施例中,所述方法还包括:
更新所述硬件故障识别模型。
本说明书的实施例中,所述更新所述硬件故障识别模型,包括:
根据公式
Figure BDA0003165966560000032
更新所述硬件故障识别模型;
其中,
Figure BDA0003165966560000033
为基于加入第h组故障特征序列后的故障特征序列集,训练硬件故障识别模型所获得的状态转移概率矩阵;K为故障特征序列集中的故障特征序列组数;Ih为基于初始模型的学习更新次数;
Figure BDA0003165966560000034
为加入第h组故障特征序列前硬件故障识别模型的状态转移概率矩阵;aij'为单独利用第h组故障特征序列训练硬件故障识别模型所获得的状态转移概率矩阵;
Figure BDA0003165966560000035
为基于加入第h组故障特征序列后的故障特征序列集,训练硬件故障识别模型所获得的输出概率矩阵;
Figure BDA0003165966560000036
为加入第h组故障特征序列前硬件故障识别模型的输出概率矩阵,bjk'为单独利用第h组故障特征序列训练硬件故障识别模型所获得的输出概率矩阵。
另一方面,本说明书实施例还提供了一种大型主机硬件故障识别装置,包括:
实体提取模块,用于从目标主机系统的硬件英文告警历史信息中提取关键字英文实体;
量化编码模块,用于按照每类字母出现的频率将所述关键字英文实体进行量化编码,获得故障特征序列集;
模型训练模块,用于根据所述故障特征序列集训练隐马尔科夫模型,获得硬件故障识别模型;
故障识别模块,用于利用所述硬件故障识别模型对所述目标主机系统进行硬件故障识别。
另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。
另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中,在从目标主机系统的硬件英文告警历史信息中提取关键字英文实体后,可以按照每类字母出现的频率将关键字英文实体进行量化编码,获得故障特征序列集;然后根据故障特征序列集训练隐马尔科夫模型,从而获得硬件故障识别模型;在此基础上,可以利用硬件故障识别模型对目标主机系统进行硬件故障识别,从而实现大型主机硬件故障的自动定位,提高了定位大型主机硬件故障的时效性,节省了人力成本。不仅如此,相对常规的固定关键字匹配,本说明书实施例中,按照每类字母出现的频率将关键字英文实体进行量化编码具有更好的灵活性,针对同类型故障关键字英文实体的多样性也具有更好的适用性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本说明书一些实施例中大型主机硬件故障识别装置的应用场景示意图;
图2示出了本说明书一些实施例中大型主机硬件故障识别方法的流程图;
图3示出了本说明书一些实施例中大型主机硬件故障识别装置的结构框图;
图4示出了本说明书一些实施例中计算机设备的结构框图。
【附图标记说明】
31、实体提取模块;
32、量化编码模块;
33、模型训练模块;
34、故障识别模块;
402、计算机设备;
404、处理器;
406、存储器;
408、驱动机构;
410、输入/输出接口;
412、输入设备;
414、输出设备;
416、呈现设备;
418、图形用户接口;
420、网络接口;
422、通信链路;
424、通信总线。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例涉及大型主机(mainframe)硬件故障识别技术。其中,大型主机一般使用专用的处理器指令集、操作系统和应用软件的大型计算机系统,通常具有高可靠性、高可用性、高服务性和高安全性,常应用于银行、电信等商业领域。目前,国内金融领域数据中心一般采用国外引进的大型主机,这些大型主机内部构造复杂,其技术文档往往以英文形式编写且数量接近上千页,运维人员针对其硬件故障告警很难及时辨别。特别是针对非专业人士,在发现故障告警英文描述时,需要人工依据故障告警英文和技术文档定位故障部件,耗时费力。
有鉴于此,为了提高大型主机硬件故障的定位效率,降低人力成本。本说明书实施例提供了可根据故障告警英文信息自动定位大型主机硬件故障的技术方案。参考图1所示,一些实施例提供的大型主机硬件故障识别装置10以从大型主机20获取硬件英文告警历史信息,根据硬件英文告警历史信息训练隐马尔科夫模型(Hidden Markov Model,HMM),获得硬件故障识别模型;并利用硬件故障识别模型对目标主机系统进行硬件故障识别,从而实现大型主机硬件故障的自动定位。
本领域技术人员应当理解,本说明书实施例中,训练初始模型使用HMM仅是示例性说明;在其他实施例中,也可以采用其他任何合适的机器学习模型作为训练初始模型,本说明书对此不作限定,具体可以根据需要选择。
参考图2所示,本说明书实施例提供了可应用于上述的大型主机硬件故障识别装置侧的大型主机硬件故障识别方法,其可以包括以下步骤:
S201、从目标主机系统的硬件英文告警历史信息中提取关键字英文实体。
S202、按照每类字母出现的频率将所述关键字英文实体进行量化编码,获得故障特征序列集。
S203、根据所述故障特征序列集训练隐马尔科夫模型,获得硬件故障识别模型。
S204、利用所述硬件故障识别模型对所述目标主机系统进行硬件故障识别。
本说明书实施例中,在从目标主机系统的硬件英文告警历史信息中提取关键字英文实体后,可以按照每类字母出现的频率将关键字英文实体进行量化编码,获得故障特征序列集;然后根据故障特征序列集训练隐马尔科夫模型,从而获得硬件故障识别模型;在此基础上,可以利用硬件故障识别模型对目标主机系统进行硬件故障识别,从而实现大型主机硬件故障的自动定位,提高了定位大型主机硬件故障的时效性,节省了人力成本。不仅如此,相对常规的固定关键字匹配,本说明书实施例中,按照每类字母出现的频率将关键字英文实体进行量化编码具有更好的灵活性,针对同类型故障关键字英文实体的多样性也具有更好的适用性。
目标主机系统即为需要进行硬件故障监测的大型主机;由于大型主机可能会有多种硬件故障,对于每种硬件故障可以分别构建对应的硬件故障识别模型。因此,在一些实施例中,从目标主机系统的硬件英文告警历史信息中提取关键字英文实体可以包括以下步骤:
1)、从目标主机系统的告警数据库中,针对每种硬件故障种类筛选出指定范围内的硬件英文告警历史信息,从而对应的硬件告警数据集。其中,指定范围可以为指定时间范围(例如一年内、三年内、五年内等)和/或指定空间范围(例如单个数据中心内的大型主机,国内所有数据中心内的大型主机等)。例如,在一示例性实施例中,以A银行数据中心的硬件故障种类可以分为C1~C4共四种,指定范围可以为A银行所有国内数据中心在三年内的硬件故障为例,则,针对C1~C4四种硬件故障,可以从从目标主机系统的告警数据库中对应选出,D1~D4四个硬件告警数据集。其中,D1对应于硬件故障C1,D2对应于硬件故障C2,D3对应于硬件故障C3,D4对应于硬件故障C4。每个硬件告警数据集中可以包括同一种类硬件故障的多条硬件告警信息。
2)、将每个硬件故障种类对应的硬件告警数据集进行预处理。其中,由于不同大型主机的告警数据的结构格式可能不同(例如,一些大型主机的告警数据可能为结构化文本,而另一些大型主机的告警数据可能为非结构化文本等),为了方便后续处理,可以先进行标准化等预处理。当然,为了方便后续按照每类字母出现的频率将关键字英文实体进行量化编码,预处理还可以包括将硬件英文告警历史信息中的大写字母统一改小写字母的步骤。
3)、对于预处理后的每个硬件告警数据集,提取其每条硬件告警信息的关键字英文实体,从而获得每类硬件故障对应的关键字英文实体集合。在一些实施例中,可以通过基于规则与统计,并结合英文文本上下文信息,提取关键字英文实体。其中,关键字英文实体可以用于表征该条硬件告警信息的核心信息内容或主要信息内容;每个关键字英文实体可以为包含一个或多个英文关键词的指定长度英文文本。
关键字英文实体并不能直接作为训练初始模型(即初始的HMM模型)输入,因此需要将关键字英文实体进行量化编码。换而言之,在获得关键字英文实体后,可以利用离散量化后的数字编码表示关键字英文实体的特征值。例如,在一些实施例中,可以按照每类字母出现的频率将关键字英文实体进行量化编码,从而获得故障特征序列集,具体可以包括:对于每类硬件故障对应的关键字英文实体集合,可以按照26个英文字母出现频率将关键字英文实体进行量化编码,从而获得每类硬件故障的故障特征序列集。
假设每类硬件故障的故障特征序列集有K个故障特征序列(故障特征序列是观察序列),则对于任意一类硬件故障,其故障特征序列集可以表示为
Figure BDA0003165966560000081
故障特征序列集中第i个观察序列可以表示为
Figure BDA0003165966560000082
其中,T为样本维数(在本说明书实施例中T的取值为26)。例如,在一实施例中,某一类硬件故障的故障特征序列集可以表示为:
Figure BDA0003165966560000083
例如,在一示例性实施例中,假设一类硬件故障的一个关键字英文实体为“mirrorhard disk drive failure”,基于上述的量化编码方式,可以先统计出:26个英文字母a~z的出现频率:a:2,b:0,c:0,d:3,e:2,f:1,g:0,h:1,i:4,j:0,k:0,l:0,m:1,n:0,o:1,p:0,q:0,r:6,s:1,t:0,u:1,v:1,w:0,x:0,y:0,z:0;据此,可以将该关键字英文实体量化编码为:
o={2,0,0,3,2,1,0,1,4,0,1,0,1,0,1,0,0,6,1,0,1,1,0,0,0,0}
以此递推,可以针对每类硬件故障生成一个故障特征序列集,以作为训练该类硬件故障模型的数据集。
一些实施例中,在根据故障特征序列集训练HMM模型时,可以根据以下公式迭代更新HMM模型,直至相邻两次迭代的概率值对数差小于给定阈值时为止,并将此时的HMM模型作为硬件故障识别模型。
Figure BDA0003165966560000084
其中,
Figure BDA0003165966560000085
为目标主机系统从隐含状态i转到隐含状态j的状态转移概率矩阵;
Figure BDA0003165966560000086
为目标主机系统在隐含状态j下出现故障特征序列k的输出概率矩阵;l为观察序列样本集数目变量;L为l的样本总数;t为观察状态时间点变量;T为t的样本总数;M为隐藏状态总数目;
Figure BDA0003165966560000091
为t时刻隐含状态i下观察序列(O1,O2,…,Ot)出现的概率;aij为目标主机系统从隐含状态i转到隐含状态j的状态转移概率;
Figure BDA0003165966560000092
为隐含状态j下观察值
Figure BDA0003165966560000093
出现的概率;
Figure BDA0003165966560000094
为隐含状态j下观察序列(Oi+2,Oi+3,…,OT)出现的概率;
Figure BDA0003165966560000095
为t时刻隐含状态i下观察序列(Ot+1,Ot+2,…,OT)出现的概率;
Figure BDA0003165966560000096
为t+1时刻隐含状态j下观察序列(O1,O2,…,Ot+1)出现的概率;
Figure BDA0003165966560000097
为t时刻隐含状态j下观察序列(O1,O2,…,Ot)出现的概率;
Figure BDA0003165966560000098
为t时刻隐含状态j下观察序列(Ot+1,Ot+2,…,OT)出现的概率;Ot=vk表示t时刻出现的观察值Ot的取值为vk
上述公式通过引用增加比例因子的修正方式对状态转移概率矩阵
Figure BDA0003165966560000099
和输出概率矩阵
Figure BDA00031659665600000910
进行了重估计算,从而解决了传统HMM模型训练过程中出现的下溢问题。在本说明书的实施例中,若硬件故障类别有N类,则需要N个训练集(每个训练集对应一类硬件故障);如此,基于N个训练集训练N个初始的HMM模型,可以得到N个硬件故障识别模型。
在构建每类硬件故障的硬件故障识别模型时,可以预先设定对应的给定阈值。例如,在一些实施例中,可预先根据以下公式确定每类硬件故障的给定阈值;
Figure BDA00031659665600000911
其中,thd(F)为故障F对应的给定阈值,γ为比例系数;K为故障特征序列组数;O(i)为第i个故障特征序列;λF为故障F对应的隐马尔科夫模型;P(O(i)F)为在模型λF下O(i)出现的概率;len(O(i))为故障特征序列O(i)的维数长度长。
本说明书实施例中,所述利用所述硬件故障识别模型对所述目标主机系统进行硬件故障识别可以包括以下步骤:
1)、将目标主机系统待识别的硬件英文告警信息量化编码为待识别故障特征序列。该步骤可以为实时步骤,待识别的硬件英文告警信息可以为实时发现的硬件英文告警信息,并可以将其实时量化编码为待识别故障特征序列,以便于可以直接输入硬件故障识别模型;如此,可有利于及时进行硬件故障定位。
2)、将所述待识别故障特征序列输入至硬件故障识别模型集合的每个模型中,以在所述硬件故障识别模型集合的所有模型下寻找其最大输出概率对数值。
3)、将所述最大输出概率对数值与对应模型的给定阈值进行比较,以判断所述待识别硬件英文告警信息对应的硬件故障类型。
一些实施例中,将所述最大输出概率对数值与对应模型的给定阈值进行比较,可以包括:当比较结果满足
Figure BDA0003165966560000101
时,确认所述硬件英文告警信息为硬件故障告警信息;其中,G为故障标识;O(i)为待识别故障特征序列;λG为故障G对应的隐马尔科夫模型;P(O(i)G)为在模型λF下O(i)出现的概率;len(O(i))为待识别故障特征序列O(i)的维数长度长;thd()为给定阈值计算公式。
在一些实施例中,当识别出硬件英文告警信息为硬件故障告警信息时,还可以将硬件故障告警信息发送至指定人员(例如运维人员),以便于指定人员可以及时进行应对处理。
在另一些实施例中,为了提高述硬件故障识别的精准度,还可以适时更新硬件故障识别模型。例如,在一些实施例中,所述更新所述硬件故障识别模型可以包括:根据公式
Figure BDA0003165966560000102
更新硬件故障识别模型,如此,不仅可以提升故障识别率,还可以实现对同类硬件故障的识别范围得到扩展,具有更好的适用性。
其中,
Figure BDA0003165966560000103
为基于加入第h组故障特征序列后的故障特征序列集,训练硬件故障识别模型所获得的状态转移概率矩阵;K为故障特征序列集中的故障特征序列组数;Ih为基于初始模型的学习更新次数;
Figure BDA0003165966560000104
为加入第h组故障特征序列前硬件故障识别模型的状态转移概率矩阵;aij'为单独利用第h组故障特征序列训练硬件故障识别模型所获得的状态转移概率矩阵;
Figure BDA0003165966560000105
为基于加入第h组故障特征序列后的故障特征序列集,训练硬件故障识别模型所获得的输出概率矩阵;
Figure BDA0003165966560000106
为加入第h组故障特征序列前硬件故障识别模型的输出概率矩阵,bjk'为单独利用第h组故障特征序列训练硬件故障识别模型所获得的输出概率矩阵。
应当指出,利用上述公式更新硬件故障识别模型的更新时机可以为:每利用硬件故障识别模型集合成功识别出一个硬件故障后,将对应的故障数据(即对应的故障特征序列)加入至对应的训练集中,并对硬件故障识别模型集合中对应的模型进行更新。例如,以新发现的第h组故障特征序列为输入,当利用硬件故障识别模型集合中的模型A,成功识别出一个硬件故障时,可以将第h组故障特征序列加入至模型A的训练集X中,然后根据训练集X优化更新模型A。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
参考图3所示,在本说明书一些实施例中,大型主机硬件故障识别装置可以包括:
实体提取模块31,可以用于从目标主机系统的硬件英文告警历史信息中提取关键字英文实体;
量化编码模块32,可以用于按照每类字母出现的频率将所述关键字英文实体进行量化编码,获得故障特征序列集;
模型训练模块33,可以用于根据所述故障特征序列集训练隐马尔科夫模型,获得硬件故障识别模型;
故障识别模块34,可以用于利用所述硬件故障识别模型对所述目标主机系统进行硬件故障识别。
本说明书实施例中,在实体提取模块31从目标主机系统的硬件英文告警历史信息中提取关键字英文实体的基础上,量化编码模块32可以按照每类字母出现的频率将关键字英文实体进行量化编码,获得故障特征序列集;使得模型训练模块33可根据故障特征序列集训练隐马尔科夫模型,从而获得硬件故障识别模型;在此基础上,故障识别模块34可以利用硬件故障识别模型对目标主机系统进行硬件故障识别,从而实现大型主机硬件故障的自动定位,提高了定位大型主机硬件故障的时效性,节省了人力成本。不仅如此,相对常规的固定关键字匹配,本说明书实施例中,按照每类字母出现的频率将关键字英文实体进行量化编码具有更好的灵活性,针对同类型故障关键字英文实体的多样性也具有更好的适用性。
在一些装置实施例中,所述根据所述故障特征序列集训练隐马尔科夫模型,可以包括:
根据公式
Figure BDA0003165966560000111
迭代更新隐马尔科夫模型,直至相邻两次迭代的概率值对数差小于给定阈值时为止,并将此时的隐马尔科夫模型作为硬件故障识别模型。
在一些装置实施例中,可预先根据以下公式确定每类硬件故障的给定阈值;
Figure BDA0003165966560000121
在一些装置实施例中,所述利用所述硬件故障识别模型对所述目标主机系统进行硬件故障识别,可以包括:
将所述目标主机系统待识别的硬件英文告警信息量化编码为待识别故障特征序列;
将所述待识别故障特征序列输入至硬件故障识别模型集合的每个模型中,以在所述硬件故障识别模型集合的所有模型下寻找其最大输出概率对数值;
将所述最大输出概率对数值与对应模型的给定阈值进行比较,以判断所述待识别硬件英文告警信息对应的硬件故障类型。
在一些装置实施例中,所述将所述最大输出概率对数值与对应模型的给定阈值进行比较,可以包括:
当比较结果满足
Figure BDA0003165966560000122
时,确认所述硬件英文告警信息为硬件故障告警信息。
在一些实施例中,所述大型主机硬件故障识别装置还可以包括模型优化模块,其可以用于更新所述硬件故障识别模型。
在一些装置实施例中,所述更新所述硬件故障识别模型,可以包括:
根据公式
Figure BDA0003165966560000123
更新所述硬件故障识别模型。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本说明书的实施例还提供一种计算机设备。如图4所示,在本说明书一些实施例中,所述计算机设备402可以包括一个或多个处理器404,诸如一个或多个中央处理单元(CPU)或图形处理器(GPU),每个处理单元可以实现一个或多个硬件线程。计算机设备402还可以包括任何存储器406,其用于存储诸如代码、设置、数据等之类的任何种类的信息,一具体实施例中,存储器406上并可在处理器404上运行的计算机程序,所述计算机程序被所述处理器404运行时,可以执行上述任一实施例所述的大型主机硬件故障识别方法的指令。非限制性的,比如,存储器406可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备402的固定或可移除部件。在一种情况下,当处理器404执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备402可以执行相关联指令的任一操作。计算机设备402还包括用于与任何存储器交互的一个或多个驱动机构408,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备402还可以包括输入/输出接口410(I/O),其用于接收各种输入(经由输入设备412)和用于提供各种输出(经由输出设备414)。一个具体输出机构可以包括呈现设备416和相关联的图形用户接口418(GUI)。在其他实施例中,还可以不包括输入/输出接口410(I/O)、输入设备412以及输出设备414,仅作为网络中的一台计算机设备。计算机设备402还可以包括一个或多个网络接口420,其用于经由一个或多个通信链路422与其他设备交换数据。一个或多个通信总线424将上文所描述的部件耦合在一起。
通信链路422可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路422可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本申请是参照本说明书一些实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理器的处理器以产生一个机器,使得通过计算机或其他可编程数据处理器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理器以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理器上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本说明书中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理器来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
还应理解,在本说明书实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种大型主机硬件故障识别方法,其特征在于,包括:
从目标主机系统的硬件英文告警历史信息中提取关键字英文实体;
按照每类字母出现的频率将所述关键字英文实体进行量化编码,获得故障特征序列集;
根据所述故障特征序列集训练隐马尔科夫模型,获得硬件故障识别模型;
利用所述硬件故障识别模型对所述目标主机系统进行硬件故障识别。
2.如权利要求1所述的大型主机硬件故障识别方法,其特征在于,所述根据所述故障特征序列集训练隐马尔科夫模型,包括:
根据公式
Figure FDA0003165966550000011
迭代更新隐马尔科夫模型,直至相邻两次迭代的概率值对数差小于给定阈值时为止,并将此时的隐马尔科夫模型作为硬件故障识别模型;
其中,
Figure FDA0003165966550000012
为目标主机系统从隐含状态i转到隐含状态j的状态转移概率矩阵;
Figure FDA0003165966550000013
为目标主机系统在隐含状态j下出现故障特征序列k的输出概率矩阵;l为观察序列样本集数目变量;L为l的样本总数;t为观察状态时间点变量;T为t的样本总数;M为隐藏状态总数目;
Figure FDA0003165966550000014
为t时刻隐含状态i下观察序列(O1,O2,…,Ot)出现的概率;aij为目标主机系统从隐含状态i转到隐含状态j的状态转移概率;
Figure FDA0003165966550000015
为隐含状态j下观察值
Figure FDA0003165966550000016
出现的概率;
Figure FDA0003165966550000017
为隐含状态j下观察序列(Oi+2,Oi+3,…,OT)出现的概率;
Figure FDA0003165966550000018
为t时刻隐含状态i下观察序列(Ot+1,Ot+2,…,OT)出现的概率;
Figure FDA0003165966550000019
为t+1时刻隐含状态j下观察序列(O1,O2,…,Ot+1)出现的概率;
Figure FDA00031659665500000110
为t时刻隐含状态j下观察序列(O1,O2,…,Ot)出现的概率;
Figure FDA00031659665500000111
为t时刻隐含状态j下观察序列(Ot+1,Ot+2,…,OT)出现的概率;Ot=vk表示t时刻出现的观察值Ot的取值为vk
3.如权利要求2所述的大型主机硬件故障识别方法,其特征在于,所述给定阈值预先根据公式
Figure FDA00031659665500000112
确定;
其中,thd(F)为故障F对应的给定阈值,γ为比例系数;K为故障特征序列组数;O(i)为第i个故障特征序列;λF为故障F对应的隐马尔科夫模型;P(O(i)F)为在模型λF下O(i)出现的概率;len(O(i))为故障特征序列O(i)的维数长度长。
4.如权利要求1所述的大型主机硬件故障识别方法,其特征在于,所述利用所述硬件故障识别模型对所述目标主机系统进行硬件故障识别,包括:
将所述目标主机系统待识别的硬件英文告警信息量化编码为待识别故障特征序列;
将所述待识别故障特征序列输入至硬件故障识别模型集合的每个模型中,以在所述硬件故障识别模型集合的所有模型下寻找其最大输出概率对数值;
将所述最大输出概率对数值与对应模型的给定阈值进行比较,以判断所述待识别硬件英文告警信息对应的硬件故障类型。
5.如权利要求4所述的大型主机硬件故障识别方法,其特征在于,所述将所述最大输出概率对数值与对应模型的给定阈值进行比较,包括:
当比较结果满足
Figure FDA0003165966550000021
时,确认所述硬件英文告警信息为硬件故障告警信息;
其中,G为故障标识;O(i)为待识别故障特征序列;λG为故障G对应的隐马尔科夫模型;P(O(i)G)为在模型λF下O(i)出现的概率;len(O(i))为待识别故障特征序列O(i)的维数长度长;thd()为给定阈值计算公式。
6.如权利要求1所述的大型主机硬件故障识别方法,其特征在于,还包括:
更新所述硬件故障识别模型。
7.如权利要求6所述的大型主机硬件故障识别方法,其特征在于,所述更新所述硬件故障识别模型,包括:
根据公式
Figure FDA0003165966550000022
更新所述硬件故障识别模型;
其中,
Figure FDA0003165966550000023
为基于加入第h组故障特征序列后的故障特征序列集,训练硬件故障识别模型所获得的状态转移概率矩阵;K为故障特征序列集中的故障特征序列组数;Ih为基于初始模型的学习更新次数;
Figure FDA0003165966550000024
为加入第h组故障特征序列前硬件故障识别模型的状态转移概率矩阵;aij'为单独利用第h组故障特征序列训练硬件故障识别模型所获得的状态转移概率矩阵;
Figure FDA0003165966550000031
为基于加入第h组故障特征序列后的故障特征序列集,训练硬件故障识别模型所获得的输出概率矩阵;
Figure FDA0003165966550000032
为加入第h组故障特征序列前硬件故障识别模型的输出概率矩阵,bjk'为单独利用第h组故障特征序列训练硬件故障识别模型所获得的输出概率矩阵。
8.一种大型主机硬件故障识别装置,其特征在于,包括:
实体提取模块,用于从目标主机系统的硬件英文告警历史信息中提取关键字英文实体;
量化编码模块,用于按照每类字母出现的频率将所述关键字英文实体进行量化编码,获得故障特征序列集;
模型训练模块,用于根据所述故障特征序列集训练隐马尔科夫模型,获得硬件故障识别模型;
故障识别模块,用于利用所述硬件故障识别模型对所述目标主机系统进行硬件故障识别。
9.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
CN202110804870.4A 2021-07-16 2021-07-16 大型主机硬件故障识别方法、装置、设备及存储介质 Pending CN113537349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110804870.4A CN113537349A (zh) 2021-07-16 2021-07-16 大型主机硬件故障识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110804870.4A CN113537349A (zh) 2021-07-16 2021-07-16 大型主机硬件故障识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113537349A true CN113537349A (zh) 2021-10-22

Family

ID=78128377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110804870.4A Pending CN113537349A (zh) 2021-07-16 2021-07-16 大型主机硬件故障识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113537349A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115840915A (zh) * 2022-11-22 2023-03-24 广州城轨科技有限公司 机电设备故障的自动识别方法、系统、终端及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021109578A1 (zh) * 2019-12-02 2021-06-10 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021109578A1 (zh) * 2019-12-02 2021-06-10 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘权 等: "基于Leap Motion传感器的自适应动态手势识别", 计算机应用与软件, vol. 34, no. 2, pages 198 - 202 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115840915A (zh) * 2022-11-22 2023-03-24 广州城轨科技有限公司 机电设备故障的自动识别方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
US11893355B2 (en) Semantic map generation from natural-language-text documents
CN110309192B (zh) 使用神经网络编码器的结构数据匹配
CN111262730B (zh) 一种告警信息的处理方法及装置
CN112463774B (zh) 文本数据的去重方法、设备及存储介质
CN112527970B (zh) 数据字典标准化处理方法、装置、设备及存储介质
CN113965389B (zh) 一种基于防火墙日志的网络安全管理方法、设备及介质
CN109858025B (zh) 一种地址标准化语料的分词方法及系统
CN113254507B (zh) 一种数据资产目录智能构建盘点方法
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN112651296A (zh) 一种无先验知识数据质量问题自动探查方法及系统
CN114691525A (zh) 测试用例的选择方法及装置
WO2016093839A1 (en) Structuring of semi-structured log messages
CN111241153A (zh) 企业自然人实体综合判断对齐方法及系统
US10719536B2 (en) Efficiently finding potential duplicate values in data
CN113537349A (zh) 大型主机硬件故障识别方法、装置、设备及存储介质
CN111460268B (zh) 数据库查询请求的确定方法、装置和计算机设备
US11790170B2 (en) Converting unstructured technical reports to structured technical reports using machine learning
CN117453646A (zh) 融合语义与深度神经网络的内核日志联合压缩与查询方法
CN112612810A (zh) 慢sql语句识别方法及系统
CN115146653B (zh) 对话剧本构建方法、装置、设备及存储介质
CN116155541A (zh) 面向网络安全应用的自动化机器学习平台以及方法
CN115470861A (zh) 数据处理方法、装置和电子设备
CN111859896B (zh) 配方文档检测方法、装置、计算机可读介质及电子设备
CN113836300A (zh) 日志分析方法、系统、设备及存储介质
CN113688240A (zh) 威胁要素提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination