CN113821418A - 故障跟因分析方法及装置、存储介质和电子设备 - Google Patents

故障跟因分析方法及装置、存储介质和电子设备 Download PDF

Info

Publication number
CN113821418A
CN113821418A CN202110707751.7A CN202110707751A CN113821418A CN 113821418 A CN113821418 A CN 113821418A CN 202110707751 A CN202110707751 A CN 202110707751A CN 113821418 A CN113821418 A CN 113821418A
Authority
CN
China
Prior art keywords
analyzed
alarm
fault
components
type identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110707751.7A
Other languages
English (en)
Other versions
CN113821418B (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110707751.7A priority Critical patent/CN113821418B/zh
Publication of CN113821418A publication Critical patent/CN113821418A/zh
Application granted granted Critical
Publication of CN113821418B publication Critical patent/CN113821418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种故障跟因分析方法及装置、存储介质和电子设备。该方法包括:获取待分析组件集中对应的多个待分析指标的原始时序信息;基于多个待分析指标的原始时序信息确定指标序列模式特征;获取待分析组件集中的每个组件在第一预设时间范围内的告警日志;确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征;根据每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征;根据每个告警日志对应的告警类型标识特征和指标序列模式特征,确定待分析组件集中组件间的故障跟因关联关系。应用本公开实施例提供的方案能够快速准确地确定组件间的故障根因关联关系。

Description

故障跟因分析方法及装置、存储介质和电子设备
技术领域
本公开涉及通信和计算机技术领域,具体而言,涉及一种故障跟因分析方法及装置、计算机可读存储介质和电子设备。
背景技术
随着数字化转型的不断推进,各种系统的数据指标和调用关系变得越来越复杂,一个系统往往由大量的服务器等组件构成,一旦发生故障可能会带来巨大的损失,这给智能运维提出了极高的要求。对于系统发生的故障和告警,除了需要迅速检测出异常之外,还需要快速、准确、有效地分析出异常的跟因,即进行故障跟因分析,从而才能有效避免以后再次发生类似的故障,减少故障带来的损失。于是,智能跟因分析成为智能运维中必不可少的关键一环。
跟因分析的核心和目的是快速进行故障跟因的定位,相关技术进行故障跟因分析的方法主要包括:基于规则引擎和专家系统的跟因分析、基于推理树的跟因分析以及基于知识图谱的跟因分析。
基于规则引擎和专家系统的跟因分析通常适用于系统早期的运维,需要大量人工指定的专家系统规则进行总结和推导,例如采用Drools规则引擎实现,通过不断地丰富和完善推导规则,使系统具备跟因分析能力。基于规则引擎和专家系统的跟因分析需要引入专家和先验知识,而且所指定规则不好扩展,灵活性较低,对于复杂多变的运维环境,往往到了一定时间后规则覆盖率会显著减低,需要不断地进行人工更新知识库和规则库,成本较大。
基于推理树的跟因分析将问题排障过程的经验提炼成二叉决策树,将告警信息按照时间分片算法进行分类分组,最后将分组的告警信息输出给决策树进行推理输出推理结果。基于推理树的跟因分析需要根据人工故障定位判断逻辑,构建推理树,理清告警之间的关联关系,这个工作量是相对较大的。
基于知识图谱的跟因分析是利用系统收集信息,生成该异常事件的知识图谱,往往结合知识图谱的相关算法模型来做,首先以事件为起点,关联查询本次异常事件相关的指标信息,通过获取到异常时间点的业务流水信息,连带查询出对应业务流水号可以关联出来的业务流水日志和实时树日志,获取当时存在的证据,然后将所有数据写入图数据库,生成知识图谱,跟因定位阶段是在异常事件知识图谱的基础上,应用推导模型将异常跟因从知识图谱中提取出来。但是,基于知识图谱的跟因分析往往需要采集足够丰富的信息去构建知识图谱,对于数据断层的情况对分析结果的影响较大,另外如果涉及到图模型等技术,构建图网络复杂度随着网络节点的增加,训练过程也更耗时,这对于工业运维诊断时间和效率加大了挑战。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开实施例提供一种故障跟因分析方法及装置、计算机可读存储介质、电子设备,可以快速准确地确定组件间的故障跟因关联关系。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供一种故障跟因分析方法,所述方法包括:获取待分析组件集中对应的多个待分析指标的原始时序信息,所述多个待分析指标包括所述待分析组件集中的每个组件对应的待分析指标;基于所述多个待分析指标的原始时序信息确定指标序列模式特征;获取所述待分析组件集中的每个组件在第一预设时间范围内的告警日志;确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征;根据每个组件在所述第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征;根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系。
本公开实施例提供一种故障跟因分析装置,所述装置包括:原始时序信息获取单元,用于获取待分析组件集中对应的多个待分析指标的原始时序信息,所述多个待分析指标包括所述待分析组件集中的每个组件对应的待分析指标;指标序列模式特征确定单元,用于基于所述多个待分析指标的原始时序信息确定指标序列模式特征;告警日志获取单元,用于获取所述待分析组件集中的每个组件在第一预设时间范围内的告警日志;告警日志文本特征确定单元,用于确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征;告警类型标识特征确定单元,用于根据每个组件在所述第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征;故障跟因关联关系确定单元,用于根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系。
本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的故障跟因分析方法。
本公开实施例提供了一种电子设备,包括:至少一个处理器;存储装置,配置为存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如上述实施例中所述的故障跟因分析方法。
根据本公开的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。
在本公开的一些实施例所提供的技术方案中,通过获取待分析组件集对应的多个待分析指标的原始时序信息,可以确定指标序列模式特征;且获取待分析组件集中的每个组件在第一预设时间范围内的告警日志来确定对应的告警日志文本特征,适应动态运维变化的需求;然后,根据每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征,一方面,巧妙地构建了与跟因分析密切相关的两部分重要特征(即指标序列模式特征和告警类型标识特征),另一方面,又确保了这两部分重要特征之间基本上没有依赖性和关联性,很好地满足了特征独立性假设条件,从而使得根据每个告警日志对应的告警类型标识特征和指标序列模式特征,对待分析组件集中组件进行故障跟因关联分析,能够快速准确地确定待分析组件集中组件间的故障跟因关联关系,进而提升了故障跟因分析的可靠性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种故障跟因分析方法的实施环境的示意图。
图2示意性示出了根据本公开的一实施例的故障跟因分析方法的流程图。
图3示意性示出了根据本公开的另一实施例的故障跟因分析方法的流程图。
图4示意性示出了根据本公开的又一实施例的故障跟因分析方法的流程图。
图5示意性示出了根据本公开的一实施例的故障跟因分析装置的框图。
图6示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在至少一个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本说明书中,用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在至少一个要素/组成部分/等;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”和“第三”等仅作为标记使用,不是对其对象的数量限制。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理和机器学习等技术,具体通过如下实施例进行说明。
基于上述相关技术中存在的技术问题,本公开实施例提出了一种故障跟因分析方法,以用于至少部分解决上述问题。本公开各实施例提供的方法可以由任意的电子设备来执行,例如服务器,或者终端设备,或者服务器与终端设备之间进行交互,本公开对此不做限定。
本公开实施例提出了一种故障跟因分析方法及装置,可以广泛应用于故障跟因分析的相关领域,例如智能运维中对于故障告警的跟因分析,能够追溯故障的来源和导致故障发生的相关因素。除此以外,对于故障跟因分析相关的智能运维场景和应用,都属于本公开实施例所提出的方法的潜在应用场景。
本公开实施例提供了一种故障跟因分析方法,请参考图1,其示出了本公开实施例提供的故障跟因分析方法的实施环境的示意图。该实施环境可以包括:多个服务组件11和服务器12。
本公开实施例中,服务器12可以用于结合多个服务组件11的数据进行故障跟因分析。服务器12可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、区块链以及大数据和人工智能平台等基础云计算服务的云服务器。
本公开实施例中,多个服务组件11可以生成运行数据及告警日志等,以使服务器12能够获取需要的数据来实现故障跟因分析。在一个实施例中,多个服务组件11可以包括用于实现不同功能的服务器,可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、区块链以及大数据和人工智能平台等基础云计算服务的云服务器。在实际应用中,服务组件11还可以包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等终端设备,以及网络设备和防火墙等。
本公开实施例中,多个服务组件11以及服务器12可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
本领域技术人员应能理解上述服务组件11和服务器12仅为举例,其他现有的或今后可能出现的终端设备或服务器如可适用于本公开,也应包含在本公开保护范围以内,并在此以引用方式包含于此。
图2示意性示出了根据本公开的一实施例的故障跟因分析方法的流程图。如图2所示,本公开实施例提供的方法可以包括以下步骤。
在步骤S210中,获取待分析组件集对应的多个待分析指标的原始时序信息。
本公开实施例中,该待分析组件集包括至少两个组件。具体地,该待分析组件集中的组件可以结合实际的故障跟因分析需求进行设定。在一示例性实施例中,该待分析组件集可以包括在一次异常事件中发生故障的组件,以及可能与该发生故障的组件相关的至少一个组件。
本公开实施例中,故障跟因分析可以包括分析预设的几个组件是否存在故障关联,避免再次发生类似故障。由于在实际应用中,例如系统中的一个服务器发生故障了,那么与这个服务器相关的其他组件(例如防火墙、网络设备和传输设备等)有可能也发生了故障,但也可能没有发生故障,这些组件中可以包括与这个故障的服务器存在故障跟因关联的组件(例如网络设备的某些参数短暂异常是该服务器故障的因素之一,但该网络设备仍可正常运行)。
本公开实施例中,可以结合实际的故障跟因分析需求,将预设的几个组件作为待分析组件集,后续可以进行故障跟因关联概率分析,以确定待分析组件集中组件间的故障跟因关联关系,有利于运维人员后续进行相应的维护,避免再次发生类似故障。
具体地,组件可以包括但不限于终端设备、用于实现不同功能的服务器、网络设备和防火墙等。指标可以用于表征对应的组件的相关运行信息。具体地,指标可以包括但不限于平均响应时间、平均吞吐率、请求数、错误率、健康度和处理耗时等。
本公开实施例中,多个待分析指标可以包括该待分析组件集中每个组件对应的待分析指标。由于每个组件可能对应多个指标,可以结合实际故障跟因分析需求获取每个组件对应的全部指标中的某几个指标作为该组件对应的待分析指标。
例如,假设待分析组件集包括A组件、B组件和C组件,可以获取A组件对应的全部指标中的3个指标作为A组件对应的待分析指标,获取B组件对应的全部指标中的5个指标作为B组件对应的待分析指标,获取C组件对应的全部指标中的2个指标作为C组件对应的待分析指标,可以将这10个指标作为该待分析组件集对应的多个待分析指标。
本公开实施例中,每个待分析指标的原始时序信息可以表征该待分析指标的值随时间的变化关系。在一示例性实施例中,该原始时序信息可以包括随时间连续变化的二维曲线,或,多个随时间离散变化的点值。
例如,当待分析指标包括A组件的平均吞吐率时,该待分析指标的原始时序信息可以为随时间变化的二维曲线,横坐标为时间,纵坐标为平均吞吐率的值,利用待分析指标的原始时序信息可以获取该待分析指标在每个时刻的值以及变化趋势。在实际应用中,可以结合实际故障跟因分析的需求获取待分析指标在任意时间的原始时序信息,较为灵活。
在步骤S220中,基于多个待分析指标的原始时序信息确定指标序列模式特征。
本公开实施例中,基于多个待分析指标的原始时序信息确定指标序列模式特征可以包括:根据多个待分析指标的原始时序信息确定第二预设时间范围内的指标时序升降序列;根据指标时序升降序列进行序列模式挖掘,得到指标序列模式;对指标序列模式进行特征编码,得到指标序列模式特征。
例如,可以对挖掘得到的指标序列模式进行独热(one-hot)编码,得到指标序列模式特征。
本公开实施例中,一个指标时序升降序列可以包括多个指标变化标识符,该指标变化标识符可以表征对应的待分析指标的变化情况。
在一示例性实施例中,假设多个待分析指标包括a指标、b指标和c指标,则指标变化标识符可以包括,例如,a增,a减,b增,b减,c增,c减。
在一示例性实施例中,当原始时序信息包括随时间连续变化的二维曲线时,可以通过确定曲线的变化节点来确定该原始时序信息的增减性的变化。
例如,原本在该变化节点之前曲线变化趋势为递增,在该变化节点之后曲线变化趋势变为递减;或者,原本在该变化节点之前曲线变化趋势为递减,在该变化节点之后曲线变化趋势变为递增。
具体地,第二预设时间范围可以包括多个预设连续时间段,且预设连续时间段可以结合实际故障跟因分析需求进行确定。
本公开实施例中,根据多个待分析指标的原始时序信息确定第二预设时间范围内的指标时序升降序列可以包括:分别基于每个预设连续时间段内多个待分析指标的原始时序信息的变化节点出现次序确定对应的指标时序升降序列,将全部预设连续时间段对应的指标时序升降序列作为第二预设时间范围内的指标时序升降序列。
例如,假设第二预设时间范围包括7月9日的20~23时、7月10日的20~23时和7月11日的20~23时3个预设连续时间段,待分析指标假设包括a指标、b指标、c指标和d指标,在7月9日的20~23时这个预设连续时间段内,b指标对应的曲线先出现了变化节点,b指标对应的曲线在该变化节点后变为了b增,然后,c指标对应的曲线出现了变化节点,c指标对应的曲线在该变化节点后变为了c增,然后,a指标对应的曲线出现了变化节点,a指标对应的曲线在该变化节点后变为了a减,然后,d指标对应的曲线出现了变化节点,d指标对应的曲线在该变化节点后变为了d增,则此时确定出的对应的指标时序升降序列为“b增-c增-a减-d增”,该指标时序升降序列包括指标变化标识符b增、c增、a减和d增。同理,可以确定另外2个预设连续时间段对应的指标时序升降序列。
通过分别基于每个预设连续时间段内多个待分析指标的原始时序信息的变化节点出现次序确定对应的指标时序升降序列,有利于确定多个待分析指标的变化间是否存在潜在的因果关系,从而有利于后续按需进行故障跟因分析,提升故障跟因分析的可靠性和全面性。
在上述实施例中,可以通过确定曲线的变化节点来确定该原始时序信息的增减性的变化,分别基于每个预设连续时间段内多个待分析指标的原始时序信息的变化节点出现次序来确定对应的指标时序升降序列。在另一示例性实施例中,还可以通过基于原始时序信息设置多个时间间隔,通过将一个时间间隔内的待分析指标的值与对应的前一个时间间隔内的该待分析指标的值比较,来确定待分析指标在每个时间间隔内待分析指标的值的增减,进而确定第二预设时间范围内的指标时序升降序列。
具体地,在该另一示例性实施例中,根据多个待分析指标的原始时序信息确定第二预设时间范围内的指标时序升降序列可以包括:根据多个待分析指标的原始时序信息确定多个待分析指标的时序升降信息;根据多个待分析指标的时序升降信息构造第二预设时间范围内的指标时序升降序列。
本公开实施例中,根据多个待分析指标的原始时序信息确定多个待分析指标的时序升降信息可以包括:设置多个时间节点,将每两个相邻时间节点之间的时间区间作为一个时间间隔;分别根据每个待分析指标的原始时序信息确定该待分析指标的值在每个时间间隔的增减信息;根据该待分析指标的值在每个时间间隔的增减信息进行时序升降标记,得到该待分析指标的时序升降信息,整合多个待分析指标的时序升降信息。
在实际应用中,根据每个待分析指标的原始时序信息确定该待分析指标的值在每个时间间隔的增减信息,可以通过将该分析指标在一个时间间隔内的值与对应的前一个时间间隔内的值比较,来确定该待分析指标的值在该时间间隔的增减信息。
本公开实施例中,时间间隔可以设置为例如5秒、5分钟或者1小时等,可以根据实际需求进行设置,本公开对此不做限定。
例如,当确定a指标在1-2时的值相比a指标在0-1时的值为增加,则可以标记a指标在1-2时对应的指标变化标识符为a增。
在一个具体的实施例中,可以每隔1小时设置一个时间节点,假设多个待分析指标包括a指标、b指标、c指标、d指标、e指标和f指标,以2020年7月1日的0-24时为例,多个待分析指标的时序升降信息可以利用下表1来表示:
表1
Figure BDA0003132006240000111
Figure BDA0003132006240000121
其他日期的多个待分析指标的时序升降信息可以与表1的形式类似。
在实际应用中,第二预设时间范围可以结合实际故障跟因分析需求进行设定,在一个实施例中,第二预设时间范围可以取不同日期的相同时间段(时间间隔),在另一个实施例中,第二预设时间范围还可以取同一天的不同时间段(时间间隔),本公开对此不做限定。
以第二预设时间范围取不同日期的相同时间段为例,可以根据已经生成的多个待分析指标的时序升降信息,分别构造2020年7月1日的8-9时这个时间间隔对应的指标时序升降序列,如下表2所示:
表2
日期 时间间隔 指标时序升降序列
20200701 8-9时 a增-b增-c增-d减-e增-f减
20200702 8-9时 a减-b增-c增-d减-e减-f减
以“a增-b增-c增-d减-e增-f减”这个指标时序升降序列为例,可以理解为此时a增伴随着b增、伴随着c增、伴随着d减、伴随着e增以及伴随着f减,通过根据多个待分析指标的原始时序信息确定多个待分析指标的时序升降信息,再根据多个待分析指标的时序升降信息构造第二预设时间范围内的指标时序升降序列,有利于获取大量的指标变化信息以便确定多个指标的变化间是否存在潜在的关联关系,从而有利于后续按需进行故障跟因分析,提升故障跟因分析的可靠性。
由于各指标的变化可能存在潜在的因果关系或关联关系,可以根据指标时序升降序列进行序列模式挖掘。
本公开实施例中,可以根据指标时序升降序列,利用prefixspan(Prefix-Projected Pattern Grouth,前缀投影的序列模式挖掘)算法进行序列模式挖掘,得到指标序列模式。
具体地,根据指标时序升降序列进行序列模式挖掘,得到指标序列模式可以包括如下步骤:1)确定指标时序升降序列中每个指标变化标识符的频数;2)基于指标变化标识符的频数确定满足预设最小支持度阈值的指标变化标识符,分别将满足预设最小支持度阈值的指标变化标识符作为一项前缀,并确定对应的后缀;3)分别确定各一项前缀对应的后缀中满足该预设最小支持度阈值的单项,将满足该预设最小支持度阈值的单项与对应的一项前缀合并,得到二项前缀,继续确定各二项前缀对应的后缀;4)以此类推,分别确定各i项前缀对应的后缀中满足该预设最小支持度阈值的单项,将该满足该预设最小支持度阈值的单项与对应的i项前缀合并,得到(i+1)项前缀,并确定与(i+1)项前缀对应的后缀,其中,i为大于1的整数。
重复执行步骤4),直到挖掘出最长前缀序列,将该最长前缀序列作为指标序列模式。
具体地,频数可以表征该指标变化标识符在全部指标时序升降序列中的出现次数。
以上表2为例,此时共有2个指标时序升降序列,即“a增-b增-c增-d减-e增-f减”和“a减-b增-c增-d减-e减-f减”,确定的指标时序升降序列中每个指标变化标识符的频数如下表3所示。
表3
指标变化标识符 a增 a减 b增 c增 d减 e增 e减 f减
频数 1 1 2 2 2 1 1 2
本公开实施例中,该预设最小支持度阈值可以结合实际应用需求进行设定。
在一示例性实施例中,该预设最小支持度阈值min_sup可以结合下述公式确定:
min_sup=a×n (1)
上述公式中,a表示最小支持率,该最小支持率可以结合实际应用需求确定,例如,结合指标时序升降序列数量进行调整,随着指标时序升降序列数量的增加,可以调低最小支持率。n表示第二预设时间范围内包括的天数(日期数)。该预设最小支持度阈值可以表征对于数据出现的频繁程度的要求,例如,该预设最小支持度阈值为0.5,则当目标数据在所有数据中的出现频率高于0.5时满足该预设最小支持度阈值。假如共有10个指标时序升降序列,当目标元素在多于5个指标时序升降序列中出现时,确定该目标元素满足该预设最小支持度阈值。
参照下表4,当该预设最小支持度阈值为0.5时,步骤2)确定出的一项前缀和对应的后缀如表4所示。
表4
Figure BDA0003132006240000141
参照下表5,当该预设最小支持度阈值为0.5时,步骤3)确定出的各二项前缀和对应的后缀如表5所示。
表5
Figure BDA0003132006240000142
Figure BDA0003132006240000151
参照下表6和表7,当该预设最小支持度阈值为0.5时,确定出的各三项前缀和对应的后缀如表6所示,各四项前缀和对应的后缀如表7所示。
表6
Figure BDA0003132006240000152
表7
四项前缀 对应后缀
b增-c增-d减-f减
此时挖掘出的最长前缀序列即“b增-c增-d减-f减”,即根据上表2所示的指标时序升降序列进行序列模式挖掘得到的指标序列模式即“b增-c增-d减-f减”。
通过根据上述多个待分析指标的原始时序信息确定第二预设时间范围内的指标时序升降序列,根据指标时序升降序列进行序列模式挖掘,得到指标序列模式,该指标序列模式可以为多个待分析指标变化隐含的规律,可能是几个待分析指标变化的关联关系或因果关系,后续可以对指标序列模式进行特征编码,结合各组件的告警日志进行故障跟因分析,有利于提升故障跟因分析的可靠性;由于各指标数据会随时间不断地更新变化,该指标序列模式也会不断变化,某几个指标在过去一段时间没有关联,但之后可能会存在关联,因此可以根据需求调整第二预设时间范围,来实时挖掘最新的指标序列模式,灵活性强,提升故障跟因分析的时效性。
在步骤S230中,获取该待分析组件集中的每个组件在第一预设时间范围内的告警日志。
具体地,该第一预设时间范围可以结合实际故障跟因分析需求进行设定。
例如,该第一预设时间范围可以包括故障发生时刻之前的一个小时至故障发生时刻之后的一个小时。例如假设该待分析组件集中包括A组件、B组件和C组件,A组件在第一预设时间范围内生成了4个告警日志,B组件在第一预设时间范围内生成了3个告警日志,C组件在第一预设时间范围内生成了3个告警日志,可以获取这10个告警日志,后续分别确定每个告警日志对应的告警日志文本特征。
由于告警日志属于半结构化数据,特点是实时而且数据丰富,有利于问题发现和定位。通过获取该待分析组件集中的每个组件在第一预设时间范围内的告警日志,后续可以结合指标序列模式进行故障跟因分析,有利于提升故障跟因分析的可靠性。
在步骤S240中,确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征。
本公开实施例中,确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征可以包括:分别对每个告警日志进行文本向量化,得到对应的告警日志文本特征。
本公开实施例中,分别对每个告警日志进行文本向量化,得到对应的告警日志文本特征可以包括:基于预设词向量模型获取该告警日志中每个词对应的词向量;计算该告警日志中每个词对应的特征权重;基于该告警日志中每个词对应的词向量和对应的特征权重进行加权求和,得到该告警日志对应的告警日志文本特征。
在实际应用中,该预设词向量模型可以包括Word2vec词向量模型。需要说明的是,当告警日志的文本为预设文本类型,例如,中文时,在基于预设词向量模型获取该告警日志中每个词对应的词向量之前,还可以对该告警日志进行文本分词。
由于告警日志中有许多为了统一告警规范而存在的格式词,这些词在很多告警日志中都会出现,为了降低这些词对告警日志文本向量化特征表示的影响,可以计算该告警日志中每个词对应的特征权重。若一个词在该告警日志中经常出现,而在其他告警日志中很少出现,则说明该词对于该告警日志而言具有区分能力,有利于该告警日志与其他告警日志进行区分。
本公开实施例中,可以采用TF-IDF(term frequency-inverse documentfrequency,词频-逆文件频率)方法计算该告警日志中每个词对应的特征权重。
具体地,采用TF-IDF方法计算该告警日志中每个词对应的特征权重可以基于以下公式:
Figure BDA0003132006240000171
Figure BDA0003132006240000172
TF-IDF值=词频(TF)×逆文档频率(IDF) (4)
通过基于预设词向量模型获取该告警日志中每个词对应的词向量,计算该告警日志中每个词对应的特征权重,基于该告警日志中每个词对应的词向量和对应的特征权重进行加权求和,得到该告警日志对应的告警日志文本特征,有利于降低无关词对告警日志文本特征的影响,确定出具有区分能力的词进行相应的权重设置,进而能够得到对于故障跟因分析更加有利的告警日志文本特征,提升故障跟因分析的准确性。
在步骤S250中,根据每个组件在所述第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征。
本公开实施例中,告警类型标识特征用于表征每个告警日志所属的告警类型,基于上述步骤S240可以得到每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征,计算每个告警日志与其他各个告警日志之间的相似度,将与该告警日志的相似度较高(例如相似度降序排列之后的前预定数量个相似度,预定数量可以根据实际需求进行设置)的告警日志归为同一类,例如可以分类为告警类型a、告警类型b…,可以将告警类型a对应的告警类型标识特征设置为1,将告警类型b对应的告警类型标识特征设置为2,…其他以此类推,但本公开并不限定于此。
具体地,在计算不同告警日志之间的相似度时,可以利用余弦距离公式计算不同告警日志对应的告警日志文本特征之间的余弦距离,也可以利用softmax多分类器。
在示例性实施例中,根据每个组件在所述第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征,可以包括:将每个告警日志的告警日志文本特征输入至告警类型分类模型中;通过所述告警类型分类模型处理每个告警日志的告警日志文本特征,输出每个告警日志对应的告警类型标识特征。
本公开实施例中,可以利用样本组件集(可以包括标注组件间存在故障关联的正样本组件集,还可以包括标注组件间不存在故障关联的负样本组件集)对应的样本告警日志的样本告警日志文本特征及其对应的样本告警类型标识特征训练softmax多分类器,softmax多分类器具体的分类数量根据告警类型的数量来确定,训练完成后获得告警类型分类模型。预测时,可以将每个告警日志的告警日志文本特征输入至告警类型分类模型中,通过告警类型分类模型自动输出每个告警日志对应的告警类型标识特征。
样本告警日志文本特征的获得可以参照上述告警日志文本特征的获取过程。
在步骤S260中,根据每个告警日志对应的告警类型标识特征和指标序列模式特征,确定待分析组件集中组件间的故障跟因关联关系。
根据每个告警日志对应的告警类型标识特征和指标序列模式特征,确定待分析组件集中组件间的故障跟因关联关系的具体过程可以参照下图3和图4实施例的描述。
本公开实施方式提供的故障跟因分析方法,通过获取待分析组件集对应的多个待分析指标的原始时序信息,可以确定指标序列模式特征;且获取待分析组件集中的每个组件在第一预设时间范围内的告警日志来确定对应的告警日志文本特征,适应动态运维变化的需求;然后,根据每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征,一方面,巧妙地构建了与跟因分析密切相关的两部分重要特征(即指标序列模式特征和告警类型标识特征),另一方面,又确保了这两部分重要特征之间基本上没有依赖性和关联性,很好地满足了特征独立性假设条件,从而使得根据每个告警日志对应的告警类型标识特征和指标序列模式特征,对待分析组件集中组件进行故障跟因关联分析,能够快速准确地确定待分析组件集中组件间的故障跟因关联关系,进而提升了故障跟因分析的可靠性。
图3示意性示出了根据本公开的另一实施例的故障跟因分析方法的流程图。图3实施例提供的方法与图2实施例的区别在于,图2实施例中的步骤S260可以进一步包括以下步骤。
在步骤S261中,获得所述指标序列模式特征与所述待分析组件集中组件间存在故障关联之间的第一互信息。
互信息是信息论里一种信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
在示例性实施例中,获得所述指标序列模式特征与所述待分析组件集中组件间存在故障关联之间的第一互信息,可以包括:获得所述待分析组件集中组件间存在故障关联下所述指标序列模式特征的出现条件概率;获得所述指标序列模式特征的出现概率;根据所述待分析组件集中组件间存在故障关联下所述指标序列模式特征的出现条件概率以及所述指标序列模式特征的出现概率,计算所述第一互信息。
本公开实施例中,第一互信息是指待分析组件集中组件间存在故障关联a1下指标序列模式特征q1的出现条件概率P(q1|a1)、与指标序列模式特征q1的出现概率P(q1)之间的比值的对数,可以参照下述公式(10)。
在示例性实施例中,所述方法还可以包括:获取多个标注组件间存在故障关联的正样本组件集对应的样本指标序列模式特征;获取多个标注组件间不存在故障关联的负样本组件集对应的样本指标序列模式特征;根据正样本组件集的数量和负样本组件集的数量获得总样本组件集的数量;确定样本指标序列模式特征与所述指标序列模式特征匹配的正样本组件集的数量;根据所述正样本组件集的数量和样本指标序列模式特征与所述指标序列模式特征匹配的正样本组件集的数量,计算所述待分析组件集中组件间存在故障关联下所述指标序列模式特征的出现条件概率;确定所述指标序列模式特征在正样本组件集和负样本组件集中的出现次数;根据所述指标序列模式特征在正样本组件集和负样本组件集中的出现次数与所述总样本组件集的数量,计算所述指标序列模式特征的出现概率。
在步骤S262中,获得所述告警类型标识特征与所述待分析组件集中组件间存在故障关联之间的第二互信息。
本公开实施例中,第二互信息是指待分析组件集中组件间存在故障关联下a1告警类型标识特征q2的出现条件概率P(q2|a1)、与告警类型标识特征q2的出现概率P(q2)之间的比值的对数,可以参照下述公式(11)。
在示例性实施例中,获得所述告警类型标识特征与所述待分析组件集中组件间存在故障关联之间的第二互信息,可以包括:获得所述待分析组件集中组件间存在故障关联下所述告警类型标识特征的出现条件概率;获得所述告警类型标识特征的出现概率;根据所述待分析组件集中组件间存在故障关联下所述告警类型标识特征的出现条件概率以及所述告警类型标识特征的出现概率,计算所述第二互信息。
在示例性实施例中,所述方法还可以包括:获取多个标注组件间存在故障关联的正样本组件集对应的样本告警类型标识特征;获取多个标注组件间不存在故障关联的负样本组件集对应的样本告警类型标识特征;根据正样本组件集的数量和负样本组件集的数量获得总样本组件集的数量;确定样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量;根据所述正样本组件集的数量和样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量,计算所述待分析组件集中组件间存在故障关联下所述告警类型标识特征的出现条件概率;确定所述告警类型标识特征在正样本组件集和负样本组件集中的出现次数;根据所述告警类型标识特征在正样本组件集和负样本组件集中的出现次数与所述总样本组件集的数量,计算所述告警类型标识特征的出现概率。
在步骤S263中,根据所述第一互信息和所述第二互信息,获得目标互信息。
在步骤S264中,判断目标互信息是否大于互信息过滤阈值;若目标互信息大于互信息过滤阈值,则执行步骤S265;反之,则执行步骤S266。
本公开实施例中,互信息过滤阈值可以根据实际需求进行设定。例如组件为服务器和数据库,组件为服务器和网络这两种情况设定的互信息过滤阈值可能是不一样的,即互信息过滤阈值的设置与当前待预测的组件,待分析指标均有关系。
在步骤S265中,若所述目标互信息大于互信息过滤阈值,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间存在故障关联。
在步骤S266中,若所述目标互信息小于或等于所述互信息过滤阈值,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间不存在故障关联。
本公开实施例中,由于基于上述步骤构建的指标序列模式特征q1和告警类型标识特征q2作为输入特征Q,满足特征独立性假设,即指标序列模式特征的发生于告警类型标识特征的发生之间没有必然关联关系,这是因为在某时发生具体哪种告警类型,与挖掘获得的指标序列模式之间是没有关联关系的,因此可以基于独立性假设构建贝叶斯分析故障跟因。预测时,将待分析组件集的指标序列模式特征和告警类型标识特征输入至贝叶斯模型中,输出目标互信息,判断该目标互信息是否大于预设的互信息过滤阈值,若大于预设的互信息过滤阈值,则可以判定该待分析组件集中组件间存在故障关联;反之,则不存在故障关联。
在图3实施例中,获取多个标注组件间存在故障关联的正样本组件集对应的样本指标序列模式特征,以及对应的样本告警类型标识特征。还可以获取多个标注组件间不存在故障关联的负样本组件集对应的样本指标序列模式特征,以及对应的样本告警类型标识特征。
预测故障跟因A(包括该待分析组件集中组件间存在故障关联a1),使得在给定的输入特征Q的条件下,使得P(A|Q)的条件概率最大。利用贝叶斯公式可得:
Figure BDA0003132006240000211
图3实施例中,先均假设该待分析组件集中组件存在故障关联,即P(A)=P(a1)。由于指标序列模式特征q1和告警类型标识特征q2是独立特征,满足
Figure BDA0003132006240000212
因此,上述公式(5)可以转换为:
Figure BDA0003132006240000213
由此可以获得:
Figure BDA0003132006240000214
Figure BDA0003132006240000215
因此,贝叶斯模型可以转换为:
Figure BDA0003132006240000216
即计算指标序列模式特征q1与所述待分析组件集中组件间存在故障关联a1之间的第一互信息I(a1,q1)、告警类型标识特征q2与所述待分析组件集中组件间存在故障关联a1之间的第二互信息I(a1,q2),对这两部分互信息汇总,获得目标互信息I(A,Q),设定互信息过滤阈值,将满足互信息过滤阈值要求的待分析组件集判定为待分析组件集中组件间存在故障关联。
其中:
Figure BDA0003132006240000221
Figure BDA0003132006240000222
上述公式中,P(q1)为指标序列模式特征q1的出现概率,P(q1|a1)为待分析组件集中组件间存在故障关联a1下指标序列模式特征q1的出现条件概率,P(q2)为告警类型标识特征q2的出现概率,P(q2|a1)为待分析组件集中组件间存在故障关联下a1告警类型标识特征q2的出现条件概率,第一互信息I(a1,q1)和第二互信息I(a1,q2)可以根据多个标注组件间存在故障关联的正样本组件集和多个标注组件间不存在故障关联的负样本组件集计算获得的。
本公开实施例中,假设2020年1月5日11点有一次告警,可以提取2020年1月5日10点至12点的样本告警日志对应的样本告警类型标识特征,以及组件从开始运行至2020年1月5日12点的样本指标序列模式特征,作为第一个样本;然后,再假设2020年1月7日9点有一次告警,可以提取2020年1月7日8点至10点的样本告警日志对应的样本告警类型标识特征,以及组件从开始运行至2020年1月7日10点的样本指标序列模式特征,作为第二个样本;以此类推,得到多个样本作为正样本组件集和负样本组件集。假设当前时间是2021年6月9日9点,且距离当前时间最近的一次告警假设是2021年6月8日12点,那在线预测输入的是2021年6月8日11点至2021年6月8日下午1点的告警日志对应的告警类型标识特征,以及组件从开始运行至2021年6月8日下午1点的指标序列模式特征。但不限定于此,时间是可以根据实际情况来定的,例如输入距离当前时间最近的n个月时间内的指标序列模式特征,或者距离当前时间最近的n天内的指标序列模式特征,如果是变动比较频繁的场景,则选择最近n天内的指标序列模式特征。
本公开实施例中,利用样本训练贝叶斯模型是一个迭代训练过程,例如开始500个样本,后续预测过程中如果发现新的指标序列模式特征,可以再加入作为样本。
例如,假设多个标注组件间存在故障关联的正样本组件集(称之为a1类样本)的数量为600个,其中假设这600个样本中有400个样本的样本指标序列模式特征与输入的指标序列模式特征q1匹配,即样本指标序列模式特征与指标序列模式特征q1匹配的正样本组件集的数量为400,这600个样本中有200个样本的样本指标序列模式特征与输入的指标序列模式特征q1不匹配,假设这600个样本中有400个样本的样本告警类型标识特征与输入的告警类型标识特征q2匹配,即样本告警类型标识特征与告警类型标识特征q2匹配的正样本组件集的数量为400,这600个样本中有200个样本的样本告警类型标识特征与输入的告警类型标识特征q2不匹配;假设则多个标注组件间不存在故障关联的负样本组件集(称之为a2类样本)的数量为400个,其中假设这400个样本中有50个样本的样本指标序列模式特征与输入的指标序列模式特征q1匹配,即样本指标序列模式特征与指标序列模式特征q1匹配的负样本组件集的数量为50,这400个样本中有350个样本的样本指标序列模式特征与输入的指标序列模式特征q1不匹配,假设这400个样本中有50个样本的样本告警类型标识特征与输入的告警类型标识特征q2匹配,即样本告警类型标识特征与告警类型标识特征q2匹配的负样本组件集的数量为50,这400个样本中有350个样本的样本告警类型标识特征与输入的告警类型标识特征q2不匹配,总样本组件集的数量为1000,指标序列模式特征q1在正样本组件集和负样本组件集中的出现次数为450,则
Figure BDA0003132006240000231
代入上述公式(10)和(11)即可获得第一互信息为
Figure BDA0003132006240000232
和第二互信息为
Figure BDA0003132006240000233
图4示意性示出了根据本公开的又一实施例的故障跟因分析方法的流程图。图4实施例提供的方法与图2实施例的区别在于,图2实施例中的步骤S260可以进一步包括以下步骤。
在步骤S267中,将每个告警日志对应的告警类型标识特征和所述指标序列模式特征作为输入特征,计算所述输入特征下所述待分析组件集中组件间存在故障关联的第一条件概率。
在示例性实施例中,计算所述输入特征下所述待分析组件集中组件间存在故障关联的第一条件概率,可以包括:获得所述待分析组件集中组件间存在故障关联的概率;获得所述输入特征的出现概率;获得所述待分析组件集中组件间存在故障关联下所述输入特征的出现条件概率;根据所述待分析组件集中组件间存在故障关联的概率、所述输入特征的出现概率以及所述待分析组件集中组件间存在故障关联下所述输入特征的出现条件概率,获得所述第一条件概率。
在示例性实施例中,所述方法还可以包括:获取多个标注组件间存在故障关联的正样本组件集对应的样本指标序列模式特征,以及对应的样本告警类型标识特征;获取多个标注组件间不存在故障关联的负样本组件集对应的样本指标序列模式特征,以及对应的样本告警类型标识特征;根据正样本组件集的数量和负样本组件集的数量获得总样本组件集的数量;根据所述正样本组件集的数量和所述总样本组件集的数量计算所述待分析组件集中组件间存在故障关联的概率;确定样本指标序列模式特征与所述指标序列模式特征匹配、且样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集和负样本组件集的数量;根据样本指标序列模式特征与所述指标序列模式特征匹配、且样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集和负样本组件集的数量与所述总样本组件集的数量计算所述输入特征的出现概率;确定样本指标序列模式特征与所述指标序列模式特征匹配、且样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量;根据样本指标序列模式特征与所述指标序列模式特征匹配、且样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量与所述正样本组件集的数量,计算所述待分析组件集中组件间存在故障关联下所述输入特征的出现条件概率。
在步骤S268中,计算所述输入特征下所述待分析组件集中组件间不存在故障关联的第二条件概率。
在示例性实施例中,计算所述输入特征下所述待分析组件集中组件间不存在故障关联的第二条件概率,可以包括:获得所述待分析组件集中组件间不存在故障关联的概率;获得所述输入特征的出现概率;获得所述待分析组件集中组件间不存在故障关联下所述输入特征的出现条件概率;根据所述待分析组件集中组件间不存在故障关联的概率、所述输入特征的出现概率以及所述待分析组件集中组件间不存在故障关联下所述输入特征的出现条件概率,获得所述第二条件概率。
在步骤S269中,判断第一条件概率是否大于第二条件概率;若第一条件概率大于第二条件概率,则执行步骤S2610;反之,执行步骤S2611。
在步骤S2610中,若所述第一条件概率大于所述第二条件概率,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间存在故障关联。
在步骤S2611中,若所述第二条件概率大于所述第一条件概率,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间不存在故障关联。
本公开实施例中,由于基于上述步骤构建的指标序列模式特征q1和告警类型标识特征q2作为输入特征Q,满足特征独立性假设,即指标序列模式特征的发生于告警类型标识特征的发生之间没有必然关联关系,因此可以基于独立性假设构建贝叶斯分析故障跟因。预测时,将待分析组件集的指标序列模式特征和告警类型标识特征输入至贝叶斯模型中,输出第一条件概率和第二条件概率,判断该第一条件概率是否大于第二条件概率,若第一条件概率大于第二条件概率,则可以判定该待分析组件集中组件间存在故障关联;反之,则不存在故障关联。
在图4实施例中,获取多个标注组件间存在故障关联的正样本组件集对应的样本指标序列模式特征,以及对应的样本告警类型标识特征。还可以获取多个标注组件间不存在故障关联的负样本组件集对应的样本指标序列模式特征,以及对应的样本告警类型标识特征。
预测故障跟因A(包括该待分析组件集中组件间存在故障关联a1和该待分析组件集中组件间不存在故障关联a2),即P(A|Q)包括输入特征Q下待分析组件集中组件间存在故障关联a1的第一条件概率P(a1|Q)和输入特征Q下待分析组件集中组件间不存在故障关联a2的第二条件概率P(a2|Q),比较在给定的输入特征Q的条件下,哪个条件概率大。利用贝叶斯公式可得:
Figure BDA0003132006240000251
Figure BDA0003132006240000252
上述公式中,P(Q|a1)为待分析组件集中组件间存在故障关联a1下输入特征Q的出现条件概率,P(a1)为待分析组件集中组件间存在故障关联a1的概率,P(Q)为输入特征Q的出现概率,这里是指指标序列模式特征q1和告警类型标识特征q2同时出现的概率;P(Q|a2)为待分析组件集中组件间不存在故障关联a2下输入特征Q的出现条件概率,P(a2)为待分析组件集中组件间不存在故障关联a2的概率,第一条件概率P(a1|Q)和第二条件概率P(a2|Q)可以根据多个标注组件间存在故障关联的正样本组件集和多个标注组件间不存在故障关联的负样本组件集计算获得的。
例如,假设多个标注组件间存在故障关联的正样本组件集(称之为a1类样本)的数量为600个,其中假设这600个样本中有400个样本的样本指标序列模式特征与输入的指标序列模式特征q1匹配、且样本告警类型标识特征与输入的告警类型标识特征q2匹配,即样本指标序列模式特征与指标序列模式特征q1匹配、且样本告警类型标识特征与输入的告警类型标识特征q2匹配的正样本组件集的数量为400,这600个样本中有200个样本的样本指标序列模式特征与输入的指标序列模式特征q1不匹配、或者样本告警类型标识特征与输入的告警类型标识特征q2不匹配;假设则多个标注组件间不存在故障关联的负样本组件集(称之为a2类样本)的数量为400个,其中假设这400个样本中有50个样本的样本指标序列模式特征与输入的指标序列模式特征q1匹配、且样本告警类型标识特征与输入的告警类型标识特征q2匹配,即样本指标序列模式特征与指标序列模式特征q1匹配、且样本告警类型标识特征与输入的告警类型标识特征q2匹配的负样本组件集的数量为50,这400个样本中有350个样本的样本指标序列模式特征与输入的指标序列模式特征q1不匹配、或者样本告警类型标识特征与输入的告警类型标识特征q2不匹配,总样本组件集的数量为1000,样本指标序列模式特征与指标序列模式特征q1匹配、且样本告警类型标识特征与告警类型标识特征匹配q2的正样本组件集和负样本组件集的数量为450,则
Figure BDA0003132006240000261
代入上述公式(12)和(13)即可获得第一条件概率
Figure BDA0003132006240000262
和第二条件概率
Figure BDA0003132006240000271
即第一条件概率大于第二条件概率,此时可以判定待分析组件集中组件间存在故障关联。
需要说明的是,上述在将指标序列模式特征q1与样本指标序列模式特征进行匹配的过程中,可能存在样本指标序列模式特征中不存在与指标序列模式特征q1完全一致的样本指标序列模式特征,此时可以将与指标序列模式特征q1中包括的相同的指标变化标识符顺序一致的样本指标序列模式特征作为与指标序列模式特征q1匹配的样本指标序列模式特征。
例如,假设有一个样本指标序列模式为“b增-c增-d减-f减”,待预测的指标序列模式特征q1为“b增-k增-c增-d减-f减”,即该样本指标序列模式包括指标序列模式特征q1中的指标变化标识符b增、c增、d减、f减,且顺序也是一致的,则可以将样本指标序列模式“b增-c增-d减-f减”作为与指标序列模式特征q1“b增-k增-c增-d减-f减”匹配的样本指标序列模式。若有多个样本指标序列模式与某个指标序列模式特征q1匹配中了,则选择最长的样本指标序列模式作为与该指标序列模式特征q1匹配的样本指标序列模式。
本公开实施方式提供的故障跟因分析方法,一方面,通过获取待分析组件集对应的多个待分析指标的原始时序信息,基于上述多个待分析指标的原始时序信息确定指标序列模式特征,其中,基于上述多个待分析指标的原始时序信息确定指标序列模式特征可以包括根据上述多个待分析指标的原始时序信息确定第二预设时间范围内的指标时序升降序列,根据上述指标时序升降序列进行序列模式挖掘,得到指标序列模式,该指标序列模式可以为上述多个待分析指标变化隐含的规律,可能是几个指标变化的关联关系或因果关系,后续可以结合各组件的告警日志进行故障跟因分析,有利于提升故障跟因分析的可靠性;由于各指标数据会随时间不断地更新变化,该指标序列模式也会不断变化,某几个指标在过去一段时间没有关联,但之后可能会存在关联,因此可以根据需求调整上述的第二预设时间范围,来实时挖掘最新的指标序列模式,灵活性强,提升故障跟因分析的时效性。另一方面,通过指标序列模式特征和对告警日志的告警日志文本特征进行归类确定告警类型标识特征,巧妙地构建了与跟因分析关键相关的两部分重要特征,又同时确保了这两部分特征之间基本上没有依赖性和关联性,很好地满足了特征独立性假设条件,从而可以构建贝叶斯模型进行跟因分析。此外,本公开实施例提供的方法没有复杂的训练过程,能够准确高效地确定几个组件间的故障跟因关联关系,大大降低了对人工的依赖,减少资源消耗。通过确定该待分析组件集中组件间的故障跟因关联关系,有利于帮助运维人员追溯故障的来源以及确定故障发生的相关因素,以使运维人员后续进行相应的维护,避免再次发生类似故障,减少故障带来的损失,在跟因分析的场景应用中具有一定的参考价值和意义。
图5示意性示出了根据本公开的一实施例的故障跟因分析装置的框图。如图5所示,本公开实施例提供的故障跟因分析装置500可以包括原始时序信息获取单元510、指标序列模式特征确定单元520、告警日志获取单元530告警日志文本特征确定单元540、告警类型标识特征确定单元550以及故障跟因关联关系确定单元560。
本公开实施例中,原始时序信息获取单元510可以用于获取待分析组件集中对应的多个待分析指标的原始时序信息,所述多个待分析指标包括所述待分析组件集中的每个组件对应的待分析指标。指标序列模式特征确定单元520可以用于基于所述多个待分析指标的原始时序信息确定指标序列模式特征。告警日志获取单元530可以用于获取所述待分析组件集中的每个组件在第一预设时间范围内的告警日志。告警日志文本特征确定单元540可以用于确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征。告警类型标识特征确定单元550可以用于根据每个组件在所述第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征。故障跟因关联关系确定单元560可以用于根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系。
在示例性实施例中,故障跟因关联关系确定单元560可以包括:第一互信息获得单元,可以用于获得所述指标序列模式特征与所述待分析组件集中组件间存在故障关联之间的第一互信息;第二互信息获得单元,可以用于获得所述告警类型标识特征与所述待分析组件集中组件间存在故障关联之间的第二互信息;目标互信息获得单元,可以用于根据所述第一互信息和所述第二互信息,获得目标互信息;第一故障根因判定单元,可以用于若所述目标互信息大于互信息过滤阈值,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间存在故障关联;第二故障根因判定单元,可以用于若所述目标互信息小于或等于所述互信息过滤阈值,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间不存在故障关联。
在示例性实施例中,第一互信息获得单元可包括:第一出现条件概率获得单元,可以用于获得所述待分析组件集中组件间存在故障关联下所述指标序列模式特征的出现条件概率;第一出现概率获得单元,可以用于获得所述指标序列模式特征的出现概率;第一互信息计算单元,可以用于根据所述待分析组件集中组件间存在故障关联下所述指标序列模式特征的出现条件概率以及所述指标序列模式特征的出现概率,计算所述第一互信息。
在示例性实施例中,故障跟因分析装置500还可包括:正样本指标序列模式特征获得单元,可以用于获取多个标注组件间存在故障关联的正样本组件集对应的样本指标序列模式特征;负样本指标序列模式特征获得单元,可以用于获取多个标注组件间不存在故障关联的负样本组件集对应的样本指标序列模式特征;总样本组件集数量获得单元,可以用于根据正样本组件集的数量和负样本组件集的数量获得总样本组件集的数量;第一匹配正样本组件集数量确定单元,可以用于确定样本指标序列模式特征与所述指标序列模式特征匹配的正样本组件集的数量;第一出现条件概率计算单元,可以用于根据所述正样本组件集的数量和样本指标序列模式特征与所述指标序列模式特征匹配的正样本组件集的数量,计算所述待分析组件集中组件间存在故障关联下所述指标序列模式特征的出现条件概率;第一出现次数确定单元,可以用于确定所述指标序列模式特征在正样本组件集和负样本组件集中的出现次数;第一出现概率计算单元,可以用于根据所述指标序列模式特征在正样本组件集和负样本组件集中的出现次数与所述总样本组件集的数量,计算所述指标序列模式特征的出现概率。
在示例性实施例中,第二互信息获得单元可包括:第二出现条件概率获得单元,可以用于获得所述待分析组件集中组件间存在故障关联下所述告警类型标识特征的出现条件概率;第二出现概率获得单元,可以用于获得所述告警类型标识特征的出现概率;第二互信息计算单元,可以用于根据所述待分析组件集中组件间存在故障关联下所述告警类型标识特征的出现条件概率以及所述告警类型标识特征的出现概率,计算所述第二互信息。
在示例性实施例中,故障跟因分析装置500还可包括:正样本告警类型标识特征获得单元,可以用于获取多个标注组件间存在故障关联的正样本组件集对应的样本告警类型标识特征;负样本告警类型标识特征获得单元,可以用于获取多个标注组件间不存在故障关联的负样本组件集对应的样本告警类型标识特征;总样本组件集数量获得单元,可以用于根据正样本组件集的数量和负样本组件集的数量获得总样本组件集的数量;第二匹配正样本组件集数量确定单元,可以用于确定样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量;第二出现条件概率计算单元,可以用于根据所述正样本组件集的数量和样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量,计算所述待分析组件集中组件间存在故障关联下所述告警类型标识特征的出现条件概率;第二出现次数确定单元,可以用于确定所述告警类型标识特征在正样本组件集和负样本组件集中的出现次数;第二出现概率计算单元,可以用于根据所述告警类型标识特征在正样本组件集和负样本组件集中的出现次数与所述总样本组件集的数量,计算所述告警类型标识特征的出现概率。
在示例性实施例中,故障跟因关联关系确定单元560可以包括:第一条件概率计算单元,可以用于将每个告警日志对应的告警类型标识特征和所述指标序列模式特征作为输入特征,计算所述输入特征下所述待分析组件集中组件间存在故障关联的第一条件概率;第二条件概率计算单元,可以用于计算所述输入特征下所述待分析组件集中组件间不存在故障关联的第二条件概率;第三故障根因判定单元,可以用于若所述第一条件概率大于所述第二条件概率,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间存在故障关联;第四故障根因判定单元,可以用于若所述第二条件概率大于所述第一条件概率,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间不存在故障关联。
在示例性实施例中,第一条件概率计算单元可包括:第一概率获得单元,可以用于获得所述待分析组件集中组件间存在故障关联的概率;第三出现概率获得单元,可以用于获得所述输入特征的出现概率;第三出现条件概率获得单元,可以用于获得所述待分析组件集中组件间存在故障关联下所述输入特征的出现条件概率;第一条件概率获得单元,可以用于根据所述待分析组件集中组件间存在故障关联的概率、所述输入特征的出现概率以及所述待分析组件集中组件间存在故障关联下所述输入特征的出现条件概率,获得所述第一条件概率。
在示例性实施例中,故障跟因分析装置500还可包括:正样本组件集获取单元,可以用于获取多个标注组件间存在故障关联的正样本组件集对应的样本指标序列模式特征,以及对应的样本告警类型标识特征;负样本组件集获取单元,可以用于获取多个标注组件间不存在故障关联的负样本组件集对应的样本指标序列模式特征,以及对应的样本告警类型标识特征;总样本组件集数量获得单元,可以用于根据正样本组件集的数量和负样本组件集的数量获得总样本组件集的数量;存在故障关联概率计算单元,可以用于根据所述正样本组件集的数量和所述总样本组件集的数量计算所述待分析组件集中组件间存在故障关联的概率;匹配正负样本组件集数量确定单元,可以用于确定样本指标序列模式特征与所述指标序列模式特征匹配、且样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集和负样本组件集的数量;第三出现概率计算单元,可以用于根据样本指标序列模式特征与所述指标序列模式特征匹配、且样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集和负样本组件集的数量与所述总样本组件集的数量计算所述输入特征的出现概率;同时匹配正样本组件集数量确定单元,可以用于确定样本指标序列模式特征与所述指标序列模式特征匹配、且样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量;第三出现条件概率计算单元,可以用于根据样本指标序列模式特征与所述指标序列模式特征匹配、且样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量与所述正样本组件集的数量,计算所述待分析组件集中组件间存在故障关联下所述输入特征的出现条件概率。
在示例性实施例中,第二条件概率计算单元可包括:第二概率获得单元,可以用于获得所述待分析组件集中组件间不存在故障关联的概率;第四出现概率获得单元,可以用于获得所述输入特征的出现概率;第四出现条件概率获得单元,可以用于获得所述待分析组件集中组件间不存在故障关联下所述输入特征的出现条件概率;第二条件概率获得单元,可以用于根据所述待分析组件集中组件间不存在故障关联的概率、所述输入特征的出现概率以及所述待分析组件集中组件间不存在故障关联下所述输入特征的出现条件概率,获得所述第二条件概率。
在示例性实施例中,告警类型标识特征确定单元550可包括:告警日志文本特征输入单元,可以用于将每个告警日志的告警日志文本特征输入至告警类型分类模型中;告警类型标识特征输出单元,可以用于通过所述告警类型分类模型处理每个告警日志的告警日志文本特征,输出每个告警日志对应的告警类型标识特征。
本公开实施例的故障跟因分析装置的其它内容可以参照上述实施例。
本公开实施例提供的故障跟因分析方法可以结合区块链(Blockchain)技术来实现,例如可以将待分析组件集中对应的多个待分析指标的原始时序信息分布式地存储在区块链中,也可以将指标序列模式特征、告警日志、告警日志对应的告警日志文本特征、每个告警日志对应的告警类型标识特征等分布式地存储在区块链中。
其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
下面参考图6,其示出了适于用来实现本公开实施例的电子设备的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。图6中的电子设备例如可以为服务器,但本公开并不限定于此。
参照图6,本公开实施例提供的电子设备可以包括:处理器101、通信接口102、存储器103和通信总线104。
其中处理器101、通信接口102和存储器103通过通信总线104完成相互间的通信。
可选的,通信接口102可以为通信模块的接口,如GSM(Global System for Mobilecommunications,全球移动通信系统)模块的接口。处理器101用于执行程序。存储器103用于存放程序。程序可以包括计算机程序,该计算机程序包括计算机操作指令。
处理器101可以是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本公开实施例的一个或多个集成电路。
存储器103可以包含高速RAM(random access memory,随机存取存储器)存储器,也可以还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
其中,程序可具体用于:获取待分析组件集中对应的多个待分析指标的原始时序信息,所述多个待分析指标包括所述待分析组件集中的每个组件对应的待分析指标;基于所述多个待分析指标的原始时序信息确定指标序列模式特征;获取所述待分析组件集中的每个组件在第一预设时间范围内的告警日志;确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征;根据每个组件在所述第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征;根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种故障跟因分析方法,其特征在于,包括:
获取待分析组件集中对应的多个待分析指标的原始时序信息,所述多个待分析指标包括所述待分析组件集中的每个组件对应的待分析指标;
基于所述多个待分析指标的原始时序信息确定指标序列模式特征;
获取所述待分析组件集中的每个组件在第一预设时间范围内的告警日志;
确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征;
根据每个组件在所述第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征;
根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系。
2.根据权利要求1所述的方法,其特征在于,根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系,包括:
获得所述指标序列模式特征与所述待分析组件集中组件间存在故障关联之间的第一互信息;
获得所述告警类型标识特征与所述待分析组件集中组件间存在故障关联之间的第二互信息;
根据所述第一互信息和所述第二互信息,获得目标互信息;
若所述目标互信息大于互信息过滤阈值,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间存在故障关联;
若所述目标互信息小于或等于所述互信息过滤阈值,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间不存在故障关联。
3.根据权利要求2所述的方法,其特征在于,获得所述指标序列模式特征与所述待分析组件集中组件间存在故障关联之间的第一互信息,包括:
获得所述待分析组件集中组件间存在故障关联下所述指标序列模式特征的出现条件概率;
获得所述指标序列模式特征的出现概率;
根据所述待分析组件集中组件间存在故障关联下所述指标序列模式特征的出现条件概率以及所述指标序列模式特征的出现概率,计算所述第一互信息。
4.根据权利要求3所述的方法,其特征在于,还包括:
获取多个标注组件间存在故障关联的正样本组件集对应的样本指标序列模式特征;
获取多个标注组件间不存在故障关联的负样本组件集对应的样本指标序列模式特征;
根据正样本组件集的数量和负样本组件集的数量获得总样本组件集的数量;
确定样本指标序列模式特征与所述指标序列模式特征匹配的正样本组件集的数量;
根据所述正样本组件集的数量和样本指标序列模式特征与所述指标序列模式特征匹配的正样本组件集的数量,计算所述待分析组件集中组件间存在故障关联下所述指标序列模式特征的出现条件概率;
确定所述指标序列模式特征在正样本组件集和负样本组件集中的出现次数;
根据所述指标序列模式特征在正样本组件集和负样本组件集中的出现次数与所述总样本组件集的数量,计算所述指标序列模式特征的出现概率。
5.根据权利要求2所述的方法,其特征在于,获得所述告警类型标识特征与所述待分析组件集中组件间存在故障关联之间的第二互信息,包括:
获得所述待分析组件集中组件间存在故障关联下所述告警类型标识特征的出现条件概率;
获得所述告警类型标识特征的出现概率;
根据所述待分析组件集中组件间存在故障关联下所述告警类型标识特征的出现条件概率以及所述告警类型标识特征的出现概率,计算所述第二互信息。
6.根据权利要求5所述的方法,其特征在于,还包括:
获取多个标注组件间存在故障关联的正样本组件集对应的样本告警类型标识特征;
获取多个标注组件间不存在故障关联的负样本组件集对应的样本告警类型标识特征;
根据正样本组件集的数量和负样本组件集的数量获得总样本组件集的数量;
确定样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量;
根据所述正样本组件集的数量和样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量,计算所述待分析组件集中组件间存在故障关联下所述告警类型标识特征的出现条件概率;
确定所述告警类型标识特征在正样本组件集和负样本组件集中的出现次数;
根据所述告警类型标识特征在正样本组件集和负样本组件集中的出现次数与所述总样本组件集的数量,计算所述告警类型标识特征的出现概率。
7.根据权利要求1所述的方法,其特征在于,根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系,包括:
将每个告警日志对应的告警类型标识特征和所述指标序列模式特征作为输入特征,计算所述输入特征下所述待分析组件集中组件间存在故障关联的第一条件概率;
计算所述输入特征下所述待分析组件集中组件间不存在故障关联的第二条件概率;
若所述第一条件概率大于所述第二条件概率,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间存在故障关联;
若所述第二条件概率大于所述第一条件概率,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间不存在故障关联。
8.根据权利要求7所述的方法,其特征在于,计算所述输入特征下所述待分析组件集中组件间存在故障关联的第一条件概率,包括:
获得所述待分析组件集中组件间存在故障关联的概率;
获得所述输入特征的出现概率;
获得所述待分析组件集中组件间存在故障关联下所述输入特征的出现条件概率;
根据所述待分析组件集中组件间存在故障关联的概率、所述输入特征的出现概率以及所述待分析组件集中组件间存在故障关联下所述输入特征的出现条件概率,获得所述第一条件概率。
9.根据权利要求8所述的方法,其特征在于,还包括:
获取多个标注组件间存在故障关联的正样本组件集对应的样本指标序列模式特征,以及对应的样本告警类型标识特征;
获取多个标注组件间不存在故障关联的负样本组件集对应的样本指标序列模式特征,以及对应的样本告警类型标识特征;
根据正样本组件集的数量和负样本组件集的数量获得总样本组件集的数量;
根据所述正样本组件集的数量和所述总样本组件集的数量计算所述待分析组件集中组件间存在故障关联的概率;
确定样本指标序列模式特征与所述指标序列模式特征匹配、且样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集和负样本组件集的数量;
根据样本指标序列模式特征与所述指标序列模式特征匹配、且样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集和负样本组件集的数量与所述总样本组件集的数量计算所述输入特征的出现概率;
确定样本指标序列模式特征与所述指标序列模式特征匹配、且样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量;
根据样本指标序列模式特征与所述指标序列模式特征匹配、且样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量与所述正样本组件集的数量,计算所述待分析组件集中组件间存在故障关联下所述输入特征的出现条件概率。
10.根据权利要求7所述的方法,其特征在于,计算所述输入特征下所述待分析组件集中组件间不存在故障关联的第二条件概率,包括:
获得所述待分析组件集中组件间不存在故障关联的概率;
获得所述输入特征的出现概率;
获得所述待分析组件集中组件间不存在故障关联下所述输入特征的出现条件概率;
根据所述待分析组件集中组件间不存在故障关联的概率、所述输入特征的出现概率以及所述待分析组件集中组件间不存在故障关联下所述输入特征的出现条件概率,获得所述第二条件概率。
11.根据权利要求1所述的方法,其特征在于,根据每个组件在所述第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征,包括:
将每个告警日志的告警日志文本特征输入至告警类型分类模型中;
通过所述告警类型分类模型处理每个告警日志的告警日志文本特征,输出每个告警日志对应的告警类型标识特征。
12.一种故障跟因分析装置,其特征在于,包括:
原始时序信息获取单元,用于获取待分析组件集中对应的多个待分析指标的原始时序信息,所述多个待分析指标包括所述待分析组件集中的每个组件对应的待分析指标;
指标序列模式特征确定单元,用于基于所述多个待分析指标的原始时序信息确定指标序列模式特征;
告警日志获取单元,用于获取所述待分析组件集中的每个组件在第一预设时间范围内的告警日志;
告警日志文本特征确定单元,用于确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征;
告警类型标识特征确定单元,用于根据每个组件在所述第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征;
故障跟因关联关系确定单元,用于根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系。
13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1至11任一项所述的方法。
14.一种电子设备,其特征在于,包括:
至少一个处理器;
存储装置,配置为存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如权利要求1至11任一项所述的方法。
CN202110707751.7A 2021-06-24 2021-06-24 故障根因分析方法及装置、存储介质和电子设备 Active CN113821418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110707751.7A CN113821418B (zh) 2021-06-24 2021-06-24 故障根因分析方法及装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110707751.7A CN113821418B (zh) 2021-06-24 2021-06-24 故障根因分析方法及装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN113821418A true CN113821418A (zh) 2021-12-21
CN113821418B CN113821418B (zh) 2024-05-14

Family

ID=78924037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110707751.7A Active CN113821418B (zh) 2021-06-24 2021-06-24 故障根因分析方法及装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN113821418B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490303A (zh) * 2022-04-07 2022-05-13 阿里巴巴达摩院(杭州)科技有限公司 故障根因确定方法、装置和云设备
CN115034649A (zh) * 2022-06-24 2022-09-09 上海擎朗智能科技有限公司 维修工单分配方法、装置、设备及存储介质
WO2024174700A1 (zh) * 2023-02-24 2024-08-29 天翼云科技有限公司 告警信息分量值的计算方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090172149A1 (en) * 2007-12-28 2009-07-02 International Business Machines Corporation Real-time information technology environments
US20090172460A1 (en) * 2007-12-28 2009-07-02 International Business Machines Corporation Defining a computer recovery process that matches the scope of outage
US20190050747A1 (en) * 2016-03-07 2019-02-14 Nippon Telegraph And Telephone Corporation Analysis apparatus, analysis method, and analysis program
US20190089577A1 (en) * 2017-09-15 2019-03-21 Accenture Global Solutions Limited Learning based incident or defect resolution, and test generation
WO2019210820A1 (zh) * 2018-05-03 2019-11-07 华为技术有限公司 一种信息输出方法及装置
CN110427298A (zh) * 2019-07-10 2019-11-08 武汉大学 一种分布式日志的自动特征提取方法
JP2020098405A (ja) * 2018-12-17 2020-06-25 日本電気株式会社 監視システム、監視方法、およびプログラム
CN112052151A (zh) * 2020-10-09 2020-12-08 腾讯科技(深圳)有限公司 故障根因分析方法、装置、设备及存储介质
CN112395170A (zh) * 2020-12-07 2021-02-23 平安普惠企业管理有限公司 智能故障分析方法、装置、设备及存储介质
CN112579327A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
US20210099336A1 (en) * 2018-06-15 2021-04-01 Huawei Technologies Co., Ltd. Fault root cause analysis method and apparatus

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090172149A1 (en) * 2007-12-28 2009-07-02 International Business Machines Corporation Real-time information technology environments
US20090172460A1 (en) * 2007-12-28 2009-07-02 International Business Machines Corporation Defining a computer recovery process that matches the scope of outage
US20190050747A1 (en) * 2016-03-07 2019-02-14 Nippon Telegraph And Telephone Corporation Analysis apparatus, analysis method, and analysis program
US20190089577A1 (en) * 2017-09-15 2019-03-21 Accenture Global Solutions Limited Learning based incident or defect resolution, and test generation
WO2019210820A1 (zh) * 2018-05-03 2019-11-07 华为技术有限公司 一种信息输出方法及装置
US20210099336A1 (en) * 2018-06-15 2021-04-01 Huawei Technologies Co., Ltd. Fault root cause analysis method and apparatus
JP2020098405A (ja) * 2018-12-17 2020-06-25 日本電気株式会社 監視システム、監視方法、およびプログラム
CN110427298A (zh) * 2019-07-10 2019-11-08 武汉大学 一种分布式日志的自动特征提取方法
CN112579327A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
CN112052151A (zh) * 2020-10-09 2020-12-08 腾讯科技(深圳)有限公司 故障根因分析方法、装置、设备及存储介质
CN112395170A (zh) * 2020-12-07 2021-02-23 平安普惠企业管理有限公司 智能故障分析方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘豫航等: "基于序列模式挖掘的电力系统连锁故障模式分析方法", 《电力系统自动化》, vol. 43, no. 6, 25 March 2019 (2019-03-25), pages 1 - 13 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490303A (zh) * 2022-04-07 2022-05-13 阿里巴巴达摩院(杭州)科技有限公司 故障根因确定方法、装置和云设备
CN114490303B (zh) * 2022-04-07 2022-07-12 阿里巴巴达摩院(杭州)科技有限公司 故障根因确定方法、装置和云设备
CN115034649A (zh) * 2022-06-24 2022-09-09 上海擎朗智能科技有限公司 维修工单分配方法、装置、设备及存储介质
WO2024174700A1 (zh) * 2023-02-24 2024-08-29 天翼云科技有限公司 告警信息分量值的计算方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113821418B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN110609759B (zh) 一种故障根因分析的方法及装置
CN113094200B (zh) 一种应用程序的故障预测方法和装置
CN112052151B (zh) 故障根因分析方法、装置、设备及存储介质
CN113821418B (zh) 故障根因分析方法及装置、存储介质和电子设备
CN113935497B (zh) 智能运维故障处理方法、装置、设备及其存储介质
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN110011990A (zh) 内网安全威胁智能分析方法
CN114328277A (zh) 一种软件缺陷预测和质量分析方法、装置、设备及介质
CN113128196A (zh) 文本信息处理方法及其装置、存储介质
CN114329453A (zh) 一种基于系统日志的异常检测方法
Zhang et al. Fog-enabled event processing based on IoT resource models
CN109977131A (zh) 一种房型匹配系统
CN113628043A (zh) 基于数据分类的投诉有效性判断方法、装置、设备及介质
CN117827784A (zh) 噪音日志的过滤方法、系统
CN117729003A (zh) 基于机器学习的威胁情报可信分析系统及方法
CN116739408A (zh) 基于数据标签的电网调度安全监控方法、系统及电子设备
CN116560943A (zh) 基于日志工作流挖掘的分布式系统异常检测方法
US11880772B2 (en) Method for automatically analyzing transaction logs of a distributed computing system
CN115713424A (zh) 风险评估方法、风险评估装置、设备及存储介质
CN117135038A (zh) 网络故障监测方法、装置及电子设备
CN114219663A (zh) 产品推荐方法、装置、计算机设备及存储介质
Fält et al. Learning-Based Anomaly Detection Using Log Files with Sequential Relationships
CN117640342B (zh) 一种电力监控系统主体异常检测方法、装置、设备和介质
Wang et al. Toward more accurate developer recommendation via inference of development activities from interaction with bug repair process
CN113569122B (zh) 一种地图瓦片数据爬虫的识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant