CN115576735A - 一种故障定位方法、装置及计算机可读存储介质 - Google Patents

一种故障定位方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN115576735A
CN115576735A CN202211554113.7A CN202211554113A CN115576735A CN 115576735 A CN115576735 A CN 115576735A CN 202211554113 A CN202211554113 A CN 202211554113A CN 115576735 A CN115576735 A CN 115576735A
Authority
CN
China
Prior art keywords
log information
fault
information
cloud platform
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211554113.7A
Other languages
English (en)
Inventor
许敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202211554113.7A priority Critical patent/CN115576735A/zh
Publication of CN115576735A publication Critical patent/CN115576735A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障定位方法、装置及计算机可读存储介质,涉及故障检测领域,当检测到云平台发生故障时,获取云平台中的所有日志信息,在所有日志信息中,删除出现频率大于预设频率的词语,确定所有日志信息的信息特征,将所有信息特征发送至预设神经网络模型,以便确定各个信息特征的故障权重值,预设神经网络模型预先由预设数量的信息特征和预设参考特征训练得到的,根据故障权重值最大的M个信息特征确定云平台的故障位置,M为正整数且不大于信息特征的数量。由于故障权重值越大越说明该信息特征与故障有关,因此根据其中的权重值最大的M个信息特征进行故障定位,能够有效且准确地定位到故障位置,还不需要花费人工对日志信息进行分析。

Description

一种故障定位方法、装置及计算机可读存储介质
技术领域
本发明涉及故障检测领域,特别是涉及一种故障定位方法、装置及计算机可读存储介质。
背景技术
日志是服务器的运行状态的重要记录载体,通过对日志的分析可以确定服务器的运行状态,在服务器故障时还能够根据日志对故障位置进行定位,在现有技术中,通常使用人工对日志进行分析以便对故障位置进行定位。但是,随着云平台技术的发展,云平台的规模越来越大,节点服务器的数量也越来越多,这些服务器生成的日志总量非常大,当云平台中的某个节点发生故障时,人工难以分析大量的日志文件,难以对故障位置进行定位。
发明内容
本发明的目的是提供一种故障定位方法、装置及计算机可读存储介质,能够有效且准确地定位到故障位置,还不需要花费人工对日志信息进行分析。
为解决上述技术问题,本发明提供了一种故障定位方法,包括:
当检测到云平台发生故障时,获取所述云平台中的所有日志信息;
在所有所述日志信息中,删除出现频率大于预设频率的词语;
确定所有所述日志信息的信息特征;
将所有所述信息特征发送至预设神经网络模型,以便确定各个所述信息特征的故障权重值,所述预设神经网络模型预先由预设数量的所述信息特征和预设参考特征训练得到的;
根据所述故障权重值最大的M个所述信息特征确定所述云平台的故障位置,M为正整数且不大于所述信息特征的数量。
优选的,获取所述云平台中的所有日志信息,包括:
在所述云平台的所有所述日志信息中,确定表示故障报错的日志信息;
将表示故障报错的所述日志信息对应的时间段作为故障时间段;
获取所述云平台在所述故障时间段中的所有所述日志信息。
优选的,确定表示故障报错的日志信息,包括:
根据所述日志信息包含的日志级别信息,将所有所述日志信息分为正常日志信息和异常日志信息;
将所述异常日志信息作为表示故障报错的所述日志信息。
优选的,删除出现频率大于预设频率的词语,包括:
对所有所述日志信息进行分词,得到多个所述词语;
在所有所述词语中,将重复数量大于预设数量的所述词语删除。
优选的,确定所有所述日志信息的信息特征,包括:
将剩余的所有所述词语转换成词向量,并将所述词向量作为所述信息特征。
优选的,对所有所述日志信息进行分词,包括:
确定所述日志信息所使用的语言;
利用所述语言对应的预设分词方法对所述日志信息进行分词。
优选的确定所述日志信息所使用的语言,包括:
根据所述日志信息中的字符对应的编码确定所述日志信息所使用的语言。
优选的,在获取所述云平台中的所有日志信息之后,还包括:
在所有所述日志信息中,判断是否存在相互一致的多个所述日志信息;
若存在,则在相互一致的多个所述日志信息中保留任一个所述日志信息并删除剩余的所有所述日志信息。
优选的,所述预设神经网络模型具体是预先由预设数量的所述信息特征和预设参考特征,并基于有监督学习训练得到的。
优选的,在根据所述故障权重值最大的M个所述信息特征确定所述云平台的故障位置之后,还包括:
将所述故障位置发送给提示模块,以便所述提示模块发出提示。
优选的,获取所述云平台中的所有日志信息,包括:
当检测到云平台发生故障时,在所述云平台的所有所述日志信息中获取日志信息生成时刻与当前时刻之间的时间间隔小于预设间隔的所有所述日志信息。
优选的,在所述云平台的所有所述日志信息中获取日志信息生成时刻与当前时刻之间的时间间隔小于预设间隔的所有所述日志信息,包括:
获取所述云平台在所述当前时刻对应的当前时间段中生成的X个所述日志信息作为参考信息,X为正整数;
对于所述当前时间段中的除所述参考信息外的其他任一所述日志信息,确定所述日志信息与X个所述参考信息之间的时间间隔;
获取与X个所述参考信息之间的时间间隔均小于所述预设间隔的所述日志信息。
本申请还提供一种故障定位装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述的故障定位方法的步骤。
本申请还提供一种故障定位系统,包括:
日志信息获取单元,用于当检测到云平台发生故障时,获取所述云平台中的所有日志信息;
词语删除单元,用于在所有所述日志信息中,删除出现频率大于预设频率的词语;
特征确定单元,用于确定所有所述日志信息的信息特征;
权重值确定单元,用于将所有所述信息特征发送至预设神经网络模型,以便确定各个所述信息特征的故障权重值,所述预设神经网络模型预先由预设数量的所述信息特征和预设参考特征训练得到的;
故障定位单元,用于根据所述故障权重值最大的M个所述信息特征确定所述云平台的故障位置,M为正整数且不大于所述信息特征的数量。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的故障定位方法的步骤。
综上,本申请提供了一种故障定位方法、装置及计算机可读存储介质,涉及故障检测领域,当检测到云平台发生故障时,获取云平台中的所有日志信息,在所有日志信息中,删除出现频率大于预设频率的词语,确定所有日志信息的信息特征,将所有信息特征发送至预设神经网络模型,以便确定各个信息特征的故障权重值,预设神经网络模型预先由预设数量的信息特征和预设参考特征训练得到的,根据故障权重值最大的M个信息特征确定云平台的故障位置,M为正整数且不大于信息特征的数量。由于故障权重值越大越说明该信息特征与故障有关,因此根据其中的权重值最大的M个信息特征进行故障定位,能够有效且准确地定位到故障位置,还不需要花费人工对日志信息进行分析。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种故障定位方法的流程图;
图2为本申请提供的一种ANN网络的结构示意图;
图3为本申请提供的一种故障定位装置的结构示意图。
具体实施方式
本发明的核心是提供一种故障定位方法、装置及计算机可读存储介质,能够有效且准确地定位到故障位置,还不需要花费人工对日志信息进行分析。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本申请提供的一种故障定位方法的流程图,包括:
S1:当检测到云平台发生故障时,获取云平台中的所有日志信息;
云平台指的是由多个服务器节点共同构成的一个在线网络平台,由于云平台具有管理方便、存储空间大和部署快等优点,越来越多的公司和用户将业务和数据转移到云平台中存储。当云平台某项功能无法正常使用时,也即云平台发生故障时,通常说明是云平台中的某个服务器节点发生了故障,因此,需要及时定位发生故障的服务器节点并对其进行修复。
服务器在运行时会持续地生成日志,日志是服务器运行状态的重要记录载体,通过对日志的分析可以确定服务器的运行状态,当云平台发生故障时,找出云平台中表示故障报错的日志,并根据该日志找到生成该日志的服务器,该服务器即为发生故障的服务器,找到服务器即完成了故障位置定位。现有技术通常是人工来检索日志并进行定位,但是,随着云平台的规模越来越大,对于很多企业级的大型云平台服务而言,这些云平台的服务器节点多达上万个,整个云平台每天都会生成大量的日志,至少生成10G以上的日志文件,可见,人工对大量的日志文件进行分析需要耗费很大的工人资源,而且效率很低,不适用于实际应用场景。
为了解决上述技术问题,在本申请中,通过日志信息的信息特征来对故障位置进行定位。具体的,首先需要实时检测云平台的运行状态,当检测到云平台出现故障时,获取云平台中的所有日志信息,以便后续根据这些日志信息进行故障定位。
S2:在所有日志信息中,删除出现频率大于预设频率的词语;
在获取到日志信息后,不仅日志信息的数量很多,而且每个日志信息里包含的数据内容也很多,日志信息中的数据内容大部分与故障报错这一信息无关,甚至还包含很多无用数据,若在后续的确定信息特征以及确定故障权重值等步骤中,都是基于完整的日志信息来进行的,则会因为日志信息中无用数据过多而导致需要更多的时间从中确定出有效的信息特征并赋予权重值,导致整个故障定位流程的效率降低。基于此,需要先将日志信息中的一些无用数据删除,具体的,无用数据指的是日志信息中的与服务器位置、时间、运行状态和故障状态等重要参数无关的其他数据,例如,大多数的动词、形容词和连词等非名词通常都是无用数据,如“是”、“的”和“执行”等词,这些词语本身无法说明任何与故障定位有关的信息,因此将这种词语定义为无用数据。在实际应用时,由于这些词语相对于重要参数而言出现的频率更高,通常是作为常用词语使用,所以可以预先定义一个频率值,频率值表示为日志信息中每个词语出现的频率,在实际应用时将日志信息中出现频率超过该预设频率值的词语删除,则基本能够将上述的可能出现的无用的常用词语全部删除,使得日志信息中剩下的词语均为比较有用的数据,以便提高后续步骤的效率。具体的频率值可以根据日志信息中实际的常用词语数量和不同词语的出现频率进行设定,本申请对频率值不作限定。
S3:确定所有日志信息的信息特征;
在确定信息特征时,由于日志信息被删减后较为不连贯,基于剩余的整个日志信息确定信息特征的意义不大,所以可以先将日志信息中的剩余内容按照一定的分词方法分成多个独立且意义较为重要的词语,再确定这些词语的信息特征,也即一个日志信息中可以确定出多个信息特征;或者,也可以将日志信息中的剩余内容进行归一化处理,得到该日志信息的一个信息特征。前者能够得到多个信息特征,且这些信息特征的针对性较强,基于前者在定位故障位置的同时还能够确定故障原因;而后者虽然只能够得到一个信息特征,但由于每个服务器生成的日志信息之间不完全相同,因此每个信息特征具有唯一性,基于后者能够更优效率地定位故障位置。可见,在确定所有日志信息的信息特征时,采用上述的两种方法均可。
S4:将所有信息特征发送至预设神经网络模型,以便确定各个信息特征的故障权重值,预设神经网络模型预先由预设数量的信息特征和预设参考特征训练得到的;
预设神经网络模型可以采用ANN(artificial neural network,人工神经网络)或类神经网络,ANN网络是一种模仿生物神经网络(或者说大脑)的结构和功能一种计算模型,ANN较适合用于对函数进行估计或近似。在实际应用之前,需要对ANN进行训练,具体的,ANN的训练方法通常分为有监督学习、无监督学习和半监督学习者三种方法,有监督学习指的是ANN在训练过程中会基于一个参考的训练样本来确定ANN自身的计算训练结果是否准确;无监督学习则没有用于参考的训练样本,而是根据长时间的训练经验来总结出一种抽象的参考对象;半监督学习则结合了有监督学习和无监督学习,仅有部分训练样本有用于参考的训练样本,而另一部分训练样本则没有。ANN与传统的数据处理方法相比,ANN在处理模糊数据、随机性数据、非线性数据方面具有明显优势,对规模大、结构复杂、信息不明确的系统尤为适用;而云平台的日志信息的数量大,日志信息包含的内容较多,删除词语后的日志信息较为不连贯,ANN能够很好地适用于对云平台的日志信息的处理上。
请参照图2,图2为本申请提供的一种ANN网络的结构示意图,ANN主要由输入层、隐藏层和输出层构成。当隐藏层只有一层时,该网络为两层神经网络,由于输入层未做任何变换,可以不看做单独的一层。实际中,网络输入层的每个神经元代表了一个特征,输出层个数代表了分类标签的个数(在做二分类时,如果采用sigmoid分类器,输出层的神经元个数为1个;如果采用softmax分类器,输出层神经元个数为2个;如果是多分类问题,即输出类别>=3时,输出层神经元为类别个数),隐藏层层数和隐藏层神经元可以人工设定。
S5:根据故障权重值最大的M个信息特征确定云平台的故障位置,M为正整数且不大于信息特征的数量。
在确定故障权重值后,权重值越大的信息特征与本次云平台故障的联系越大,也即权重值越大的信息特征越能够说明本次云平台故障的原因,而在这些权重值较大的信息特征中,通常包括了说明云平台本次具体发生了哪种故障的信息特征、本次故障发生的时间的信息特征和本次故障发生的位置的信息特征等信息特征,可见,根据这些信息中的表示本次故障发生的位置的信息特征,就能够找出真正发生故障的服务器节点的位置;此外,根据其他的权重值较大的信息特征,还能够让工作人员简单地了解到故障原因等信息。基于此,从这些信息特征中选出其中的权重值最大的M个信息特征,就能够实现故障位置定位的目的,对于具体的M值,可以根据每次故障发生的规模、云平台的规模和节点数量等信息来实际进行设定,本申请对此不做限定。
在上述实施例的基础上:
作为一种优选的实施例,获取云平台中的所有日志信息,包括:
在云平台的所有日志信息中,确定表示故障报错的日志信息;
将表示故障报错的日志信息对应的时间段作为故障时间段;
获取云平台在故障时间段中的所有日志信息。
为了提高故障定位的效率,本申请中,考虑到云平台中的服务器数量较多,每台服务器在运行过程中会持续不断地生成日志信息,导致云平台生成的日志信息的总量相当多,因为这些服务器在大部分时间里是在正常运行的,在这些日志信息中的大部分日志信息都属于表述服务器正常运行的日志信息,而这些正常的日志信息对于本次云平台发生故障的故障位置定位没有帮助,例如,若服务器在某个时间段内没有发生故障,该服务器在该时间段内就不会生成任何与故障有关的信息,所以该服务器在该时间段内的日志信息没有帮助。因此,为了提高效率,在获取云平台的所有日志信息时,不需要获取云平台中每台服务器生成的所有时间段内的日志信息,而是获取有故障嫌疑的时间段内的日志信息,也即需要先进行日志检索再获取日志信息,并非先获取日志信息再进行日志检索。具体的,在检测到云平台故障后,在所有日志文件中先检索到表示故障报错的日志信息,由于这些表示故障报错的日志信息对应的时间段中必然存在某个服务器发生故障的情况出现,为了进一步对本次云平台故障的位置进行定位,需要获取到每个表示故障报错的日志信息对应的时间段中的所有日志信息,以便根据这些日志信息进行故障定位。为了更好的理解,在此作出以下例子:假设现在是12点整,云平台在此时发生了故障,需要在12点之前的所有日志信息中检索出表示故障报错的日志信息,例如检索到8点半和10点半都存在一个表示故障报错的日志信息,若8点半对应的时间段为8点整至9点整,10点半对应的时间段为10点整至11点整,则最后需要获取8~9点以及10~11点这两个时间段内的日志信息,不需要获取12点之前的所有日志信息。基于此,提高了故障定位的效率。
作为一种优选的实施例,确定表示故障报错的日志信息,包括:
根据日志信息包含的日志级别信息,将所有日志信息分为正常日志信息和异常日志信息;
将异常日志信息作为表示故障报错的日志信息。
为了快速地确定表示故障报错的日志信息,本申请中,可以预先为日志定义多个等级,服务器在生成日志信息时,自动根据日志信息的内容来确定日志信息的等级,并将等级信息也写入到该日志信息中,将不影响服务器正常运行的日志信息均定义为正常日志信息,影响服务器正常运行的日志信息定义为异常日志信息,例如,可以将日志信息分为info、debug、warming和error四种等级,info等级的日志信息表示为服务器正常运行中生成的一些信息,debug等级的日志信息表示为服务器进行调试时生成的一些信息,warming等级的日志信息表示为服务器中可能存在一些不影响正常工作的小问题,error等级的日志信息表示为服务器发生故障;将前三类日志信息均定义为正常日志信息,error等级的日志信息定义为异常日志信息。基于此,在检索日志信息时,只需要确定异常日志信息,也即error等级的日志信息,将其作为表示故障报错的日志信息即可。此外,考虑到不同等级的日志信息之间存在书写格式的差异性,因此需要对不同等级和不同服务器生成的日志进行统一化处理,例如,若日志的时间表述方式不同或日志中的各部分内容所在的位置不同,则将时间表述方式替换为相同格式,并将每条日志中的各部分内容所在的位置调整成统一的位置。基于此,通过对日志信息进行分类,能够快速地确定表示故障报错的日志信息。
作为一种优选的实施例,删除出现频率大于预设频率的词语,包括:
对所有日志信息进行分词,得到多个词语;
在所有词语中,将重复数量大于预设数量的词语删除。
为了准确地删除词语,本申请中,考虑到可能存在服务器无法直接对日志信息中的词语进行处理的情况,可以先对日志信息进行分词,再进行后续步骤。具体的,分词是一种自然语言处理方法,其作用是将一串处理器不认识的字符串分成多个处理器认识的字符组合,日志信息中通常都包含中文和英文这两种形式的字符,由于这两种字符的编码格式不一样,需要对这两种字符使用不同的分词方法,例如,中文字符使用jieba工具进行分词,英文字符直接按空格进行分词。分词之后,得到多个独立的词语,由于日志信息的描述格式的原因,这些词语中会存在很多重复的词语,例如重复的“的”、“执行”、“is”和“the”等与名词无关的衔接词很多。基于此,可以预设设置一个数量值,预设数量的具体数值由实际应用中日志信息中可能存在的上述无用词语的数量以及各个词语各自的重复次数设定的,最后删除重复数量大于预设数量的无用词语。
作为一种优选的实施例,确定所有日志信息的信息特征,包括:
将剩余的所有词语转换成词向量,并将词向量作为信息特征。
为了确定信息特征,本申请中,通过将词语转换成词向量的方式作为信息特征,具体的,可以通过一些自然语言处理模型对词语进行转换,例如可以使用N-Gram模型来进行词向量的转换,N-Gram模型是一种基于统计语言模型的算法,对于形成的每一个词语(gram)进行频度统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度,各词语对应的特征向量维度即为词向量,也即信息特征。
作为一种优选的实施例,对所有日志信息进行分词,包括:
确定日志信息所使用的语言;
利用语言对应的预设分词方法对日志信息进行分词。
为了准确地对日志信息进行分词,本申请中,考虑到不同语言所使用的语法不同,不同语言使用的同一个单词所代表的意义也可能不同,因此,为了得到准确地分词结果,可以预先设置各种语言对应的分词方法或软件,在先进行分词时,先确定日志信息中使用了哪些语言,然后代用这些语言对应的分词方法或软件来对这些语言进行分词,从而实现对日志信息进行分词的目的。例如,日志信息中通常都包含中文和英文这两种语言,可以预先建立中文和英文这两种语言对应的分词方法,当确定日志信息中仅包含英文时,则调用英文对应的分词方法来队日志信息进行分词,如直接按空格进行分词;当日志信息中包含多种语言时,可以先将各个字符按照语言进行分类,然后对每一类中的同种语言的字符再进行分词,以保证分词的准确性。
作为一种优选的实施例,确定日志信息所使用的语言,包括:
根据日志信息中的字符对应的编码确定日志信息所使用的语言。
为了简单地识别日志信息使用的语言,本申请中,考虑到不同语言所使用的编码不同,其对应的唯一标识码也不同,因此可以根据其编码来确定日志信息使用了什么语言,例如,对于中文来说,中文通常采用的是UTF-8(Universal Character Set/UnicodeTransformation Format,针对Unicode的可变长度字符编码)编码,而对于英文来说,英文字符采用的则是ascii(American Standard Code for Information Interchange,美国信息交换标准代码)编码,这两种编码的格式完全不一致,因此可以根据编码格式来确定日志信息使用的语言。进一步的,如果将中文的每个字符也转换成ascii码,由于中文的每个字符的UTF-8编码由1到4个二进制字节组成,而每个二进制字节又对应一个ascii码,因此中文字符可能由多个ascii码组成,但是英文的每个字母都只由一个ascii码组成,可见中文字符的编码长度要比英文字符的编码长度要长得多,所以也可以根据不同语言在同一种编码环境下的编码长度来确定日志信息使用的语言。基于此,可以简单地识别日志信息使用的语言。
作为一种优选的实施例,在获取云平台中的所有日志信息之后,还包括:
在所有日志信息中,判断是否存在相互一致的多个日志信息;
若存在,则在相互一致的多个日志信息中保留任一个日志信息并删除剩余的所有日志信息。
为了提高故障定位的效率,本申请中,考虑到服务器在运行过程中可能会出现因为一些干扰或者bug而重复生成相同日志信息的情况,这些日志信息完全相同,当存在大量的这些相同日志信息时,不仅在后续步骤中需要花费更长的时间才能确定所有的日志信息的信息特征,而且重复的日志信息对故障定位没有更多的作用,所以需要删除重复的日志信息,并只保留其中的一个日志信息即可。进一步的,在一个日志信息文件中,一条日志数据也可能重复出现多次,也即一条日志数据重复在一个日志信息文件中出现多次,所以也可以在每一个日志信息文件中,删除重复出现多次的日志数据,并只保留一中的一条日志数据即可。基于此,通过删除多余的日志信息,能够提高故障定位的效率。
作为一种优选的实施例,预设神经网络模型具体是预先由预设数量的信息特征和预设参考特征,并基于有监督学习训练得到的。
为了提高神经网络模型的效果,本申请中,由于使用神经网络模型的目的是为了计算出信息特征的故障权重值,也即根据一种数据计算出其对应的另一种数据,需要得到准确的权重值结果以便于后续根据该权重值结果来进行故障位置定位,因此,本申请采用有监督学习对ANN进行训练,预先建立多个参考特征,并给出每个参考特征对应的权重值,ANN在进行训练时,则会参照这些参考特征本身及其权重值来判断ANN自身赋予信息特征的权重值是否准确。例如,预先建立参考特征A,其对应的权重值为0.5,ANN在进行训练时,当获取到的信息特征也是A时,ANN先确定A的权重值,假设其为0.4,然后判断0.4是否足够接近0.5,若不接近,ANN则会根据此次的权重值结果进行修正,从而使下次确定得到的信息特征A的权重值接近0.5,当ANN确定得到的权重值足够接近参考特征的权重值时,则可以说明ANN训练完成可以投入使用。在实际应用时,故障权重值指的是TF-IDF(term frequency–inverse document frequency,词频-逆文本频率)值,权重值越大则越说明该信息特征与本次的云平台故障有关。基于此,根据有监督学习,能够提高神经网络模型的效果。
作为一种优选的实施例,在根据故障权重值最大的M个信息特征确定云平台的故障位置之后,还包括:
将故障位置发送给提示模块,以便提示模块发出提示。
为了让工作人员简单地确定故障发生的位置,本申请中,在定位到故障位置后,可以将发生故障的服务器的物理地址、ip地址以及所在的机房的位置等信息发送给提示模块,提示模块在接收到这些信息后则提示给工作人员,以便工作人员简单地得知具体发生故障的服务器。对于具体使用的提示模块,可以是显示屏,当接收到信息后将这些信息均在显示屏上进行显示。基于此,能够让工作人员简单地确定故障发生的位置。
作为一种优选的实施例,获取云平台中的所有日志信息,包括:
当检测到云平台发生故障时,在云平台的所有日志信息中获取日志信息生成时刻与当前时刻之间的时间间隔小于预设间隔的所有日志信息。
为了提高故障定位的效率,本申请中,考虑到日志信息具有一定的时效性,云平台的故障通常属于某个服务器突发故障而导致的故障,不存在服务器发生故障再经过很长时间之后云平台才发生故障的情况,可见,云平台在当前时刻发生故障时,距离当前时刻过远的历史日志信息对本次发生故障的参考价值不大。因此,获取日志信息只需要获取离当前时刻不远的日志信息即可,也即获取日志信息的生成时刻距离当前时刻不远的日志信息。基于此,能够提高故障定位的效率。
作为一种优选的实施例,在云平台的所有日志信息中获取日志信息生成时刻与当前时刻之间的时间间隔小于预设间隔的所有日志信息,包括:
获取云平台在当前时刻对应的当前时间段中生成的X个日志信息作为参考信息,X为正整数;
对于当前时间段中的除参考信息外的其他任一日志信息,确定日志信息与X个参考信息之间的时间间隔;
获取与X个参考信息之间的时间间隔均小于预设间隔的日志信息。
为了获取到有效的日志信息,本申请中,考虑到云平台中的日志信息的数量较多,且其中的大多数日志信息对云平台本次发生的故障没有帮助;而且,当云平台中的服务器数量较多时,一个时间段内也可能生成较多的日志信息,因此,需要准确地获取到过滤掉这些无用的日志信息;此外,考虑到仅通过时间范围来搜寻时间间隔小于预设间隔的日志信息需要涉及到所有的日志信息,其搜寻效率较低,所以需要在当前时间段中再设定一个更小的范围作为新的范围。具体的,可以在当前时间段中随机选取X个日志信息作为参考信息,然后在当前时间段中的其他日志信息中,计算自身和这些参考信息之间的时间间隔,由于这些参考信息是随机选取的,其他的日志信息到每个参考信息之间的距离都不同,但可以理解的是,处在当前时间段中间的日志信息到每个参考信息之间的时间间隔都不会过远,其可能的最大时间间隔为半个时间段,基于此,可以将当前时间段作为当前时间段的中心来设定预设间隔,若日志信息与每个参考信息之间的间隔都没超过预设间隔,说明该日志信息离当前时间段的中心很近,也即与当前时刻很近,这些日志信息的时效性较强,相对于其他时间的日志信息更可能表达出云平台本次故障的原因,所以获取时间间隔均小于预设间隔的日志信息来执行后续步骤。此外,在计算时间间隔时,可以采用K-means算法来进行计算,通过K-means算法计算出各个日志信息与参考信息之间的时间差,再根据各个时间差计算出方差,根据该方差的大小来对各个日志信息的实际生成时间点进行定位。基于此,能够获取到有效的日志信息。
请参照图3,图3为本申请提供的一种故障定位装置的结构示意图,包括:
存储器21,用于存储计算机程序;
处理器22,用于执行计算机程序时实现如上述的故障定位方法的步骤。
对于本申请提供的一种故障定位装置的详细介绍,请参照上述故障定位方法的实施例,本申请在此不再赘述。
本申请还提供一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的故障定位方法的步骤。
对于本申请提供的一种计算机可读存储介质的详细介绍,请参照上述故障定位方法的实施例,本申请在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (15)

1.一种故障定位方法,其特征在于,包括:
当检测到云平台发生故障时,获取所述云平台中的所有日志信息;
在所有所述日志信息中,删除出现频率大于预设频率的词语;
确定所有所述日志信息的信息特征;
将所有所述信息特征发送至预设神经网络模型,以便确定各个所述信息特征的故障权重值,所述预设神经网络模型预先由预设数量的所述信息特征和预设参考特征训练得到的;
根据所述故障权重值最大的M个所述信息特征确定所述云平台的故障位置,M为正整数且不大于所述信息特征的数量。
2.如权利要求1所述的故障定位方法,其特征在于,获取所述云平台中的所有日志信息,包括:
在所述云平台的所有所述日志信息中,确定表示故障报错的日志信息;
将表示故障报错的所述日志信息对应的时间段作为故障时间段;
获取所述云平台在所述故障时间段中的所有所述日志信息。
3.如权利要求2所述的故障定位方法,其特征在于,确定表示故障报错的日志信息,包括:
根据所述日志信息包含的日志级别信息,将所有所述日志信息分为正常日志信息和异常日志信息;
将所述异常日志信息作为表示故障报错的所述日志信息。
4.如权利要求1所述的故障定位方法,其特征在于,删除出现频率大于预设频率的词语,包括:
对所有所述日志信息进行分词,得到多个所述词语;
在所有所述词语中,将重复数量大于预设数量的所述词语删除。
5.如权利要求4所述的故障定位方法,其特征在于,确定所有所述日志信息的信息特征,包括:
将剩余的所有所述词语转换成词向量,并将所述词向量作为所述信息特征。
6.如权利要求4所述的故障定位方法,其特征在于,对所有所述日志信息进行分词,包括:
确定所述日志信息所使用的语言;
利用所述语言对应的预设分词方法对所述日志信息进行分词。
7.如权利要求6所述的故障定位方法,其特征在于,确定所述日志信息所使用的语言,包括:
根据所述日志信息中的字符对应的编码确定所述日志信息所使用的语言。
8.如权利要求1所述的故障定位方法,其特征在于,在获取所述云平台中的所有日志信息之后,还包括:
在所有所述日志信息中,判断是否存在相互一致的多个所述日志信息;
若存在,则在相互一致的多个所述日志信息中保留任一个所述日志信息并删除剩余的所有所述日志信息。
9.如权利要求1所述的故障定位方法,其特征在于,所述预设神经网络模型具体是预先由预设数量的所述信息特征和预设参考特征,并基于有监督学习训练得到的。
10.如权利要求1所述的故障定位方法,其特征在于,在根据所述故障权重值最大的M个所述信息特征确定所述云平台的故障位置之后,还包括:
将所述故障位置发送给提示模块,以便所述提示模块发出提示。
11.如权利要求1至10任一项所述的故障定位方法,其特征在于,获取所述云平台中的所有日志信息,包括:
当检测到云平台发生故障时,在所述云平台的所有所述日志信息中获取日志信息生成时刻与当前时刻之间的时间间隔小于预设间隔的所有所述日志信息。
12.如权利要求11所述的故障定位方法,其特征在于,在所述云平台的所有所述日志信息中获取日志信息生成时刻与当前时刻之间的时间间隔小于预设间隔的所有所述日志信息,包括:
获取所述云平台在所述当前时刻对应的当前时间段中生成的X个所述日志信息作为参考信息,X为正整数;
对于所述当前时间段中的除所述参考信息外的其他任一所述日志信息,确定所述日志信息与X个所述参考信息之间的时间间隔;
获取与X个所述参考信息之间的时间间隔均小于所述预设间隔的所述日志信息。
13.一种故障定位装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至9任一项所述的故障定位方法的步骤。
14.一种故障定位系统,其特征在于,包括:
日志信息获取单元,用于当检测到云平台发生故障时,获取所述云平台中的所有日志信息;
词语删除单元,用于在所有所述日志信息中,删除出现频率大于预设频率的词语;
特征确定单元,用于确定所有所述日志信息的信息特征;
权重值确定单元,用于将所有所述信息特征发送至预设神经网络模型,以便确定各个所述信息特征的故障权重值,所述预设神经网络模型预先由预设数量的所述信息特征和预设参考特征训练得到的;
故障定位单元,用于根据所述故障权重值最大的M个所述信息特征确定所述云平台的故障位置,M为正整数且不大于所述信息特征的数量。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至12任一项所述的故障定位方法的步骤。
CN202211554113.7A 2022-12-06 2022-12-06 一种故障定位方法、装置及计算机可读存储介质 Pending CN115576735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211554113.7A CN115576735A (zh) 2022-12-06 2022-12-06 一种故障定位方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211554113.7A CN115576735A (zh) 2022-12-06 2022-12-06 一种故障定位方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115576735A true CN115576735A (zh) 2023-01-06

Family

ID=84590178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211554113.7A Pending CN115576735A (zh) 2022-12-06 2022-12-06 一种故障定位方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115576735A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112433874A (zh) * 2020-11-05 2021-03-02 北京浪潮数据技术有限公司 一种故障定位方法、系统、电子设备及存储介质
CN115344416A (zh) * 2022-08-31 2022-11-15 济南浪潮数据技术有限公司 异常日志筛查方法、系统、装置及计算机可读存储设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112433874A (zh) * 2020-11-05 2021-03-02 北京浪潮数据技术有限公司 一种故障定位方法、系统、电子设备及存储介质
CN115344416A (zh) * 2022-08-31 2022-11-15 济南浪潮数据技术有限公司 异常日志筛查方法、系统、装置及计算机可读存储设备

Similar Documents

Publication Publication Date Title
CN111881983B (zh) 基于分类模型的数据处理方法、装置、电子设备及介质
CN113094200A (zh) 一种应用程序的故障预测方法和装置
KR102353545B1 (ko) 재난대응 추천방법 및 그 장치
US10095779B2 (en) Structured representation and classification of noisy and unstructured tickets in service delivery
Kobayashi et al. Towards an NLP-based log template generation algorithm for system log analysis
CN112433874A (zh) 一种故障定位方法、系统、电子设备及存储介质
CN113590451B (zh) 一种根因定位方法、运维服务器及存储介质
CN112069498A (zh) 一种sql注入检测模型构建方法及检测方法
CN116361147A (zh) 测试用例根因定位方法及其装置、设备、介质、产品
CN116561748A (zh) 一种组件子序列相关性感知的日志异常检测装置
CN111045902A (zh) 服务器的压力测试方法及装置
CN112882899B (zh) 一种日志异常检测方法及装置
CN111723182B (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN117891631A (zh) 运维故障根因分析方法、装置、电子设备、存储介质
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN116164822A (zh) 基于知识图谱的流量计故障诊断方法、装置、介质
CN115587007A (zh) 基于RoBERTa的网络日志安全检测方法及系统
CN115576735A (zh) 一种故障定位方法、装置及计算机可读存储介质
CN115169490A (zh) 一种日志分类方法、装置、设备及计算机可读存储介质
CN113778875A (zh) 一种系统测试缺陷分类方法、装置、设备及存储介质
CN116414783A (zh) 一种日志检测方法、装置、电子设备和存储介质
Liu et al. The runtime system problem identification method based on log analysis
JP2020095452A (ja) 語彙抽出支援システムおよび語彙抽出支援方法
CN118013963B (zh) 敏感词的识别和替换方法及其装置
CN114926082B (zh) 基于人工智能的数据波动预警方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230106