CN114443205B - 故障分析方法、装置及非瞬时性计算机可读存储介质 - Google Patents

故障分析方法、装置及非瞬时性计算机可读存储介质 Download PDF

Info

Publication number
CN114443205B
CN114443205B CN202011189671.9A CN202011189671A CN114443205B CN 114443205 B CN114443205 B CN 114443205B CN 202011189671 A CN202011189671 A CN 202011189671A CN 114443205 B CN114443205 B CN 114443205B
Authority
CN
China
Prior art keywords
fault
alarm
label
alarm message
message set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011189671.9A
Other languages
English (en)
Other versions
CN114443205A (zh
Inventor
张英彬
阳志明
田海波
李凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202011189671.9A priority Critical patent/CN114443205B/zh
Publication of CN114443205A publication Critical patent/CN114443205A/zh
Application granted granted Critical
Publication of CN114443205B publication Critical patent/CN114443205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供了一种故障分析方法、装置及非瞬时性计算机可读存储介质,涉及通信技术领域。其中的故障分析方法包括:获取携带相同时间标签的告警消息,作为第一告警消息集合;从第一告警消息集合中,选取具有相同资源标签的告警消息,作为第二告警消息集合;根据预先建立的故障场景标签链表,从第二告警消息集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合;将连续结点中位于尾结点的故障场景标签,作为第三告警消息集合对应的初始故障原因。本公开能够提升网络功能虚拟化场景下根据告警消息进行故障分析的工作效率。

Description

故障分析方法、装置及非瞬时性计算机可读存储介质
技术领域
本公开涉及通信技术领域,特别涉及一种故障分析方法、装置及非瞬时性计算机可读存储介质。
背景技术
将通信网络进行NFV(Network Function Virtualization,网络功能虚拟化)后,通信网络中的网元由原来的专用设备解耦成硬件层、虚拟化层和应用软件层。
当NFV后的通信网络发生故障时,通信网络中不同层级的设备均可能会产生告警消息。告警量剧增会导致故障分析更为复杂,传统的故障分析技术需要人工处理大量的告警消息,对不同层级的设备产生的告警消息和设备性能进行分析,并结合人工运维经验完成故障定位。因此,传统的故障分析技术工作量较大、工作效率低下,需要进行故障分析的时间较长,且故障定位的准确率较低。
发明内容
本公开解决的一个技术问题是,如何提升网络功能虚拟化场景下根据告警消息进行故障分析的工作效率。
根据本公开的一个方面,提供了一种故障分析方法,包括:获取携带相同时间标签的告警消息,作为第一告警消息集合;从第一告警消息集合中,选取具有相同资源标签的告警消息,作为第二告警消息集合;根据预先建立的故障场景标签链表,从第二告警消息集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合,其中,故障场景标签链表中位于下一个结点的故障场景标签表示位于上一个结点的故障场景标签的故障原因,相互关联的故障场景标签位于故障场景标签链表中的连续结点;将连续结点中位于尾结点的故障场景标签,作为第三告警消息集合对应的初始故障原因。
在一些实施例中,根据预先建立的故障场景标签链表,从第二告警消息集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合包括:根据预先建立的故障类别标签链表,从第二告警消息集合中,选取携带相互关联的故障类别标签的告警消息,作为告警消息中间集合,其中,故障类别标签链表中位于下一个结点的故障类别标签表示位于上一个结点的故障类别标签的故障原因,相互关联的故障类别标签位于故障类别标签链表中的连续结点;根据预先建立的故障场景标签链表,从告警消息中间集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合。
在一些实施例中,每个故障类别标签对应至少一个故障场景标签;故障类别标签包含第一层级性能指标告警阈值,与故障类别标签对应的至少一个故障场景标签携带第二层级性能指标告警阈值,第二性能指标告警阈值通过采用预设算法对第一性能指标告警阈值处理获得。
在一些实施例中,选取具有相同资源标签的告警消息包括:获取各个虚拟网络功能实例化时采用的资源信息;根据各个虚拟网络功能实例化时采用的资源信息,选取具有相同资源标签的告警消息;其中,对于第一告警消息集合中的任意两个告警消息,若携带的资源信息为相同虚拟网络功能实例化时采用的资源信息,则具有相同资源标签;若携带的资源信息为不同虚拟网络功能实例化时采用的资源信息,则不具有相同资源标签。
在一些实施例中,获取携带相同时间标签的告警消息,作为第一告警消息集合包括:采集各个告警消息,每个告警消息携带触发告警的时间点和时间窗;将携带相同时间点和时间窗的告警消息,作为第一告警消息集合。
根据本公开的另一个方面,提供了一种故障分析装置,包括:第一消息集合选取单元,被配置为:获取携带相同时间标签的告警消息,作为第一告警消息集合;第二消息集合选取单元,被配置为:从第一告警消息集合中,选取具有相同资源标签的告警消息,作为第二告警消息集合;第三消息集合选取单元,被配置为:根据预先建立的故障场景标签链表,从第二告警消息集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合,其中,故障场景标签链表中位于下一个结点的故障场景标签表示位于上一个结点的故障场景标签的故障原因,相互关联的故障场景标签位于故障场景标签链表中的连续结点;故障分析单元,被配置为:将连续结点中位于尾结点的故障场景标签,作为第三告警消息集合对应的初始故障原因。
在一些实施例中,第三消息集合选取单元被配置为:根据预先建立的故障类别标签链表,从第二告警消息集合中,选取携带相互关联的故障类别标签的告警消息,作为告警消息中间集合,其中,故障类别标签链表中位于下一个结点的故障类别标签表示位于上一个结点的故障类别标签的故障原因,相互关联的故障类别标签位于故障类别标签链表中的连续结点;根据预先建立的故障场景标签链表,从告警消息中间集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合。
在一些实施例中,每个故障类别标签对应至少一个故障场景标签;故障类别标签包含第一层级性能指标告警阈值,与故障类别标签对应的至少一个故障场景标签携带第二层级性能指标告警阈值,第二性能指标告警阈值通过采用预设算法对第一性能指标告警阈值处理获得。
在一些实施例中,第二消息集合选取单元,被配置为:获取各个虚拟网络功能实例化时采用的资源信息;根据各个虚拟网络功能实例化时采用的资源信息,选取具有相同资源标签的告警消息;其中,对于第一告警消息集合中的任意两个告警消息,若携带的资源信息为相同虚拟网络功能实例化时采用的资源信息,则具有相同资源标签;若携带的资源信息为不同虚拟网络功能实例化时采用的资源信息,则不具有相同资源标签。
在一些实施例中,第一消息集合选取单元被配置为:采集各个告警消息,每个告警消息携带触发告警的时间点和时间窗;将携带相同时间点和时间窗的告警消息,作为第一告警消息集合。
根据本公开的又一个方面,提供了另一种故障分析装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述的故障分析方法。
根据本公开的再一个方面,提供了一种非瞬时性计算机可读存储介质,其中,非瞬时性计算机可读存储介质存储有计算机指令,指令被处理器执行时实现前述的故障分析方法。
本公开能够提升网络功能虚拟化场景下根据告警消息进行故障分析的工作效率。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了故障场景模型的拓扑结构示意图。
图2示出了本公开一些实施例的故障分析方法的流程示意图。
图3示出了经过采集和统一适配后的告警消息的示意图。
图4示出了本公开一些实施例的故障分析装置的结构示意图。
图5示出了本公开另一些实施例的故障分析装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
在实施本公开故障分析方法之前,首先进行故障场景建模,通过故障场景模型实现对各故障场景的梳理。
图1示出了故障场景模型的拓扑结构示意图。如图1所示,假设故障场景分为“主机故障”、“虚机故障”、“网元故障”三个大类。每个大类对应至少一个子类,例如“主机故障”包括“性能超阈值”和“存储故障”,“虚机故障”包括“存储访问异常”。每个子类对应至少一个故障场景,例如存储访问异常包括存储IO异常,话单业务处理异常包括话单保存失败和单进程业务资源拥塞。
故障场景建模完成后,根据故障场景建模的资源属性、时间属性等要素,可以生成性能指标告警阈值。在生成故障场景层级的性能指标告警阈值时,可以先确定所属子类的性能指标告警阈值,然后采用预设算法对所属子类的性能指标告警阈值处理,获得故障场景层级的性能指标告警阈值。例如,假设图1中LLC发往BSSGP数据速率超阈值的性能指标告警阈值为50Mbps,那么可以根据第一预设算法自动确定峰值速率超阈值的性能指标告警阈值为50Mbps*2=100Mbps,并根据第二预设算法自动确定均值速率超阈值的性能指标告警阈值为50Mbps*80%=40Mbps。基于类似的方式,还可以对超阈值的次数进行设定,在此不作赘述。这样一来,根据故障场景模型,可以从上一层级至下一层级逐层探取,获得各个故障场景的性能指标告警阈值。
生成性能指标告警阈值后,可以生成告警关联关系。对于不同设备发出的告警消息,它们在大类、子类以及故障场景层面可能分别存在一定的关联关系,告警关联关系包括同类别告警关联关系和跨类别告警关联关系。例如,“存储IO异常”与“话单保存失败”之间的关联关系属于跨类别告警关联关系,“话单保存失败”与“单进程业务资源拥塞”属于同类别告警关联关系。假设第一条告警消息属于“网元故障”大类、“话单业务处理异常”子类、“话单保存失败”故障场景,第二条告警消息属于“虚机故障”大类、“存储访问异常”子类、“存储IO异常”故障场景。如果这两条告警消息在大类层级存在关联关系,表示产生第一条告警消息的网元由产生第二条告警消息的虚机承载;如果这两条告警消息在子类层级存在关联关系,表示这两条告警消息之间的告警类别存在关联;如果第一条告警消息与第二条告警消息在故障场景层级存在关联关系,表示两条告警消息之间存在因果关系。需要特别说明的是,故障场景模型的拓扑结构决定了不同层级的关联关系的判断顺序。也就是说,两条消息只有在大类之间存在关联关系,才可能在子类之间存在关联关系;只有在子类之间存在关联关系,才可能在故障场景之间存在关联关系。具体如何判断两条告警消息是否在各个层级存在关联关系,在后文中进行详细介绍。
下面结合图2描述本公开故障分析方法的一些实施例。
图2示出了本公开一些实施例的故障分析方法的流程示意图。如图2所示,该方法包括步骤S201~步骤S204。
在步骤S201中,获取携带相同时间标签的告警消息,作为第一告警消息集合。
例如,主机、虚机、网络功能等不同设备,会根据不同层级的性能指标告警阈值生成不同层级的告警消息。图3示出了经过采集和统一适配后的告警消息的示意图。如图3所示,从PIM(Physical Infrastructure Manager,物理基础设施管理器)获取到主机性能指标后,根据主机性能指标告警阈值产生主机性能指标告警消息,该告警消息包括时间标签(即图3中的告警时间)、资源信息(即图3中的主机ID)、告警码;从VIM(VirtualisedInfrastructure Manager,虚拟化基础设施管理器)获取到虚机性能指标后,根据虚机性能指标告警阈值产生虚机性能指标告警消息,该告警消息包括时间标签(即图3中的告警时间)、资源信息(即图3中的虚机ID)、告警码;从EMS(Element Management Systems,网元管理系统)或VNFM(VNF Manager,VNF管理器)获取到VNF(Virtual Network Function,虚拟网络功能)性能指标后,根据虚机性能指标告警阈值产生虚机性能指标告警消息,该告警消息包括时间标签(即图3中的告警时间)、资源信息(即图3中的VNFR(Virtual NetworkFunction Record,虚拟网络功能记录名称))、告警码、告警信息。
时间标签具体携带触发告警的时间点和时间窗。将携带相同时间标签(即相同时间点和时间窗)的告警消息进行第一次归类,作为第一告警消息集合。
在步骤S202中,从第一告警消息集合中,选取具有相同资源标签的告警消息,作为第二告警消息集合。
根据告警信息中的资源信息以及各个虚拟网络功能实例化时采用的资源信息,可以在第一次归类后的告警消息集合中对告警消息进行第二次归类。
首先,获取各个虚拟网络功能实例化时采用的资源信息,具体可以包括主机ID、虚机ID、VNFRID。然后根据各个虚拟网络功能实例化时采用的资源信息,选取具有相同资源标签的告警消息。对于第一告警消息集合中的任意两个告警消息,若携带的资源信息为相同虚拟网络功能实例化时采用的资源信息,则具有相同资源标签;若携带的资源信息为不同虚拟网络功能实例化时采用的资源信息,则不具有相同资源标签。虚拟网络功能实例化时采用的资源信息(位于资源实例库中),可以通过与NFVO(NFV Orchestrator,NFV协调器)的接口进行获取。例如,某个5G核心网网元的虚拟网络功能实例化时,采用的资源信息为:网络服务4—>虚拟网络功能1—>虚机2—>主机3。
本领域技术人员应理解,通过告警消息携带的VMID、VNFRID、HOSTID,还可以从主机维度、虚机维度、VNF维度、NS(Network Service,网络服务)维度进行告警。
在步骤S203中,根据预先建立的故障场景标签链表,从第二告警消息集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合,其中,故障场景标签链表中位于下一个结点的故障场景标签表示位于上一个结点的故障场景标签的故障原因,相互关联的故障场景标签位于故障场景标签链表中的连续结点。
故障场景标签链表具体可以通过故障场景模型中具有关联关系的故障场景来获得。例如,图1中的“存储IO异常”<—“话单保存失败”<—“单进程业务资源拥塞”即为一条示例性的故障场景标签链表,该故障场景标签链表表示“存储IO异常”是“话单保存失败”的告警原因,“话单保存失败”是“单进程业务资源拥塞”的告警原因。
在一些实施例中,首先根据预先建立的故障类别标签链表,从第二告警消息集合中,选取携带相互关联的故障类别标签的告警消息,作为告警消息中间集合,其中,故障类别标签链表中位于下一个结点的故障类别标签表示位于上一个结点的故障类别标签的故障原因,相互关联的故障类别标签位于故障类别标签链表中的连续结点。然后,根据预先建立的故障场景标签链表,从告警消息中间集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合。
故障类别标签链表具体可以通过故障场景模型中具有关联关系的故障子类来获得。例如,图1中的“存储故障”<—“存储访问异常”<—“话单业务处理异常”即为一条示例性的故障类别标签链表,该故障场景标签链表表示“存储故障”与“存储访问异常”之间存在告警类别关联,“话单保存失败”与“单进程业务资源拥塞”之间存在告警类别关联。
对于实时采集的告警信息,自动执行存储在关系库中的告警关联关系。例如,第一条告警消息示例如下:时间标签1,虚拟网络功能1,告警码101(表示“话单业务处理异常”),告警信息“话单保存失败”;第二条告警消息示例如下:时间标签1,虚机2,告警码201(表示“存储访问异常”),告警信息“存储IO异常”。因此,第一条告警消息与第二条告警消息具有相同的时间标签和资源标签,二者在故障类别上具有关联,且在告警原因上具有关联。因此,第一条告警消息和第二条告警消息同属于第三告警消息集合。
本领域技术人员能够理解,通过对关系库进行更新,能够实现关系哭中的告警关联关系的生命周期管理。
此外,本领域技术人员能够理解,每个故障类别标签对应至少一个故障场景标签。故障类别标签包含第一层级性能指标告警阈值,与故障类别标签对应的至少一个故障场景标签携带第二层级性能指标告警阈值,第二性能指标告警阈值通过采用预设算法对第一性能指标告警阈值处理获得。
在步骤S204中,将连续结点中位于尾结点的故障场景标签,作为第三告警消息集合对应的初始故障原因。
例如,第三告警消息集合中包括上述第一条告警消息和第二条告警消息,那么产生两条告警消息的初始故障原因是存储IO异常。
上述实施例能够从告警时间、占用资源、告警类型以及告警原因等多个维度对告警消息进行自动关联,从而对多个告警消息的初始故障原因进行全面分析和自动定位。因此,本实施例能够提升网络功能虚拟化场景下根据告警消息进行故障分析的准确率,减轻故障分析的工作量,缩短故障分析所需要的工作时长,大幅提升网络功能虚拟化场景下根据告警消息进行故障分析的工作效率。
下面结合图4描述本公开故障分析装置的一些实施例。
图4示出了本公开一些实施例的故障分析装置的结构示意图。如图4所示,故障分析装置40包括:第一消息集合选取单元401,被配置为:获取携带相同时间标签的告警消息,作为第一告警消息集合;第二消息集合选取单元402,被配置为:从第一告警消息集合中,选取具有相同资源标签的告警消息,作为第二告警消息集合;第三消息集合选取单元403,被配置为:根据预先建立的故障场景标签链表,从第二告警消息集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合,其中,所述故障场景标签链表中位于下一个结点的故障场景标签表示位于上一个结点的故障场景标签的故障原因,所述相互关联的故障场景标签位于故障场景标签链表中的连续结点;故障分析单元404,被配置为:将所述连续结点中位于尾结点的故障场景标签,作为第三告警消息集合对应的初始故障原因。
在一些实施例中,第三消息集合选取单元403被配置为:根据预先建立的故障类别标签链表,从第二告警消息集合中,选取携带相互关联的故障类别标签的告警消息,作为告警消息中间集合,其中,所述故障类别标签链表中位于下一个结点的故障类别标签表示位于上一个结点的故障类别标签的故障原因,所述相互关联的故障类别标签位于故障类别标签链表中的连续结点;根据预先建立的故障场景标签链表,从告警消息中间集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合。
在一些实施例中,每个故障类别标签对应至少一个故障场景标签;故障类别标签包含第一层级性能指标告警阈值,与故障类别标签对应的至少一个故障场景标签携带第二层级性能指标告警阈值,第二性能指标告警阈值通过采用预设算法对第一性能指标告警阈值处理获得。
在一些实施例中,第二消息集合选取单元402被配置为:获取各个虚拟网络功能实例化时采用的资源信息;根据各个虚拟网络功能实例化时采用的资源信息,选取具有相同资源标签的告警消息;其中,对于第一告警消息集合中的任意两个告警消息,若携带的资源信息为相同虚拟网络功能实例化时采用的资源信息,则具有相同资源标签;若携带的资源信息为不同虚拟网络功能实例化时采用的资源信息,则不具有相同资源标签。
在一些实施例中,所述第一消息集合选取单元401被配置为:采集各个告警消息,每个告警消息携带触发告警的时间点和时间窗;将携带相同所述时间点和时间窗的告警消息,作为第一告警消息集合。
上述实施例能够从告警时间、占用资源、告警类型以及告警原因等多个维度对告警消息进行自动关联,从而对多个告警消息的初始故障原因进行全面分析和自动定位。因此,本实施例能够提升网络功能虚拟化场景下根据告警消息进行故障分析的准确率,减轻故障分析的工作量,缩短故障分析所需要的工作时长,大幅提升网络功能虚拟化场景下根据告警消息进行故障分析的工作效率。
下面结合图5描述本公开故障分析装置的另一些实施例。
图5示出了本公开另一些实施例的故障分析装置的结构示意图。如图5所示,故障分析装置50包括:存储器530以及耦接至该存储器530的处理器520,处理器520被配置为基于存储在存储器530中的指令,执行前述任意一些实施例中的故障分析方法。
其中,存储器530例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
故障分析装置50还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530、540、550以及存储器530和处理器520之间例如可以通过总线560连接。其中,输入输出接口530为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口。存储接口550为SD卡、U盘等外置存储设备提供连接接口。
本公开还包括一种非瞬时性计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现前述任意一些实施例中的故障分析方法。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (12)

1.一种故障分析方法,包括:
获取携带相同时间标签的告警消息,作为第一告警消息集合;
从第一告警消息集合中,选取具有相同资源标签的告警消息,作为第二告警消息集合;
根据预先建立的故障场景标签链表,从第二告警消息集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合,其中,所述故障场景标签链表中位于下一个结点的故障场景标签表示位于上一个结点的故障场景标签的故障原因,所述相互关联的故障场景标签位于故障场景标签链表中的连续结点;
将所述连续结点中位于尾结点的故障场景标签,作为第三告警消息集合对应的初始故障原因。
2.根据权利要求1所述的故障分析方法,其中,所述根据预先建立的故障场景标签链表,从第二告警消息集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合包括:
根据预先建立的故障类别标签链表,从第二告警消息集合中,选取携带相互关联的故障类别标签的告警消息,作为告警消息中间集合,其中,所述故障类别标签链表中位于下一个结点的故障类别标签表示位于上一个结点的故障类别标签的故障原因,所述相互关联的故障类别标签位于故障类别标签链表中的连续结点;
根据预先建立的故障场景标签链表,从告警消息中间集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合。
3.根据权利要求2所述的故障分析方法,其中,
每个故障类别标签对应至少一个故障场景标签;
故障类别标签包含第一层级性能指标告警阈值,与故障类别标签对应的至少一个故障场景标签携带第二层级性能指标告警阈值,第二性能指标告警阈值通过采用预设算法对第一性能指标告警阈值处理获得。
4.根据权利要求1所述的故障分析方法,其中,所述选取具有相同资源标签的告警消息包括:
获取各个虚拟网络功能实例化时采用的资源信息;
根据各个虚拟网络功能实例化时采用的资源信息,选取具有相同资源标签的告警消息;
其中,对于第一告警消息集合中的任意两个告警消息,若携带的资源信息为相同虚拟网络功能实例化时采用的资源信息,则具有相同资源标签;若携带的资源信息为不同虚拟网络功能实例化时采用的资源信息,则不具有相同资源标签。
5.根据权利要求1所述的故障分析方法,其中,所述获取携带相同时间标签的告警消息,作为第一告警消息集合包括:
采集各个告警消息,每个告警消息携带触发告警的时间点和时间窗;
将携带相同所述时间点和时间窗的告警消息,作为第一告警消息集合。
6.一种故障分析装置,包括:
第一消息集合选取单元,被配置为:获取携带相同时间标签的告警消息,作为第一告警消息集合;
第二消息集合选取单元,被配置为:从第一告警消息集合中,选取具有相同资源标签的告警消息,作为第二告警消息集合;
第三消息集合选取单元,被配置为:根据预先建立的故障场景标签链表,从第二告警消息集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合,其中,所述故障场景标签链表中位于下一个结点的故障场景标签表示位于上一个结点的故障场景标签的故障原因,所述相互关联的故障场景标签位于故障场景标签链表中的连续结点;
故障分析单元,被配置为:将所述连续结点中位于尾结点的故障场景标签,作为第三告警消息集合对应的初始故障原因。
7.根据权利要求6所述的故障分析装置,其中,所述第三消息集合选取单元被配置为:
根据预先建立的故障类别标签链表,从第二告警消息集合中,选取携带相互关联的故障类别标签的告警消息,作为告警消息中间集合,其中,所述故障类别标签链表中位于下一个结点的故障类别标签表示位于上一个结点的故障类别标签的故障原因,所述相互关联的故障类别标签位于故障类别标签链表中的连续结点;
根据预先建立的故障场景标签链表,从告警消息中间集合中,选取携带相互关联的故障场景标签的告警消息,作为第三告警消息集合。
8.根据权利要求7所述的故障分析装置,其中,
每个故障类别标签对应至少一个故障场景标签;
故障类别标签包含第一层级性能指标告警阈值,与故障类别标签对应的至少一个故障场景标签携带第二层级性能指标告警阈值,第二性能指标告警阈值通过采用预设算法对第一性能指标告警阈值处理获得。
9.根据权利要求6所述的故障分析装置,其中,第二消息集合选取单元,被配置为:
获取各个虚拟网络功能实例化时采用的资源信息;
根据各个虚拟网络功能实例化时采用的资源信息,选取具有相同资源标签的告警消息;
其中,对于第一告警消息集合中的任意两个告警消息,若携带的资源信息为相同虚拟网络功能实例化时采用的资源信息,则具有相同资源标签;若携带的资源信息为不同虚拟网络功能实例化时采用的资源信息,则不具有相同资源标签。
10.根据权利要求6所述的故障分析装置,其中,所述第一消息集合选取单元被配置为:
采集各个告警消息,每个告警消息携带触发告警的时间点和时间窗;
将携带相同所述时间点和时间窗的告警消息,作为第一告警消息集合。
11.一种故障分析装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至5中任一项所述的故障分析方法。
12.一种非瞬时性计算机可读存储介质,其中,所述非瞬时性计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1至5中任一项所述的故障分析方法。
CN202011189671.9A 2020-10-30 2020-10-30 故障分析方法、装置及非瞬时性计算机可读存储介质 Active CN114443205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011189671.9A CN114443205B (zh) 2020-10-30 2020-10-30 故障分析方法、装置及非瞬时性计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011189671.9A CN114443205B (zh) 2020-10-30 2020-10-30 故障分析方法、装置及非瞬时性计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114443205A CN114443205A (zh) 2022-05-06
CN114443205B true CN114443205B (zh) 2023-11-10

Family

ID=81357231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011189671.9A Active CN114443205B (zh) 2020-10-30 2020-10-30 故障分析方法、装置及非瞬时性计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114443205B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337758A (zh) * 2014-08-15 2016-02-17 中兴通讯股份有限公司 告警处理方法、装置、nms、oss及ems
CN106789138A (zh) * 2015-11-23 2017-05-31 中国移动通信集团广西有限公司 一种网络告警关联分析的方法及装置
CN107786897A (zh) * 2016-08-31 2018-03-09 南京中兴新软件有限责任公司 Iptv系统故障定位方法及系统
WO2019186778A1 (ja) * 2018-03-28 2019-10-03 三菱電機株式会社 作業支援装置、作業支援システム、作業支援方法、及び作業支援プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200099570A1 (en) * 2018-09-26 2020-03-26 Ca, Inc. Cross-domain topological alarm suppression

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337758A (zh) * 2014-08-15 2016-02-17 中兴通讯股份有限公司 告警处理方法、装置、nms、oss及ems
CN106789138A (zh) * 2015-11-23 2017-05-31 中国移动通信集团广西有限公司 一种网络告警关联分析的方法及装置
CN107786897A (zh) * 2016-08-31 2018-03-09 南京中兴新软件有限责任公司 Iptv系统故障定位方法及系统
WO2019186778A1 (ja) * 2018-03-28 2019-10-03 三菱電機株式会社 作業支援装置、作業支援システム、作業支援方法、及び作業支援プログラム

Also Published As

Publication number Publication date
CN114443205A (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
US10649838B2 (en) Automatic correlation of dynamic system events within computing devices
CN110351150B (zh) 故障根源确定方法及装置、电子设备和可读存储介质
US10623235B2 (en) Correlating computing network events
CN111881014B (zh) 一种系统测试方法、装置、存储介质及电子设备
CN111628941A (zh) 一种网络流量的分类处理方法、装置、设备及介质
CN111669281A (zh) 告警分析方法、装置、设备及存储介质
CN113505048A (zh) 基于应用系统画像的统一监控平台及实现方法
CN108268355A (zh) 用于数据中心的监控系统及方法
CN103354990A (zh) 处理云平台中的虚拟机的系统和方法
CN110968479A (zh) 一种针对应用程序的业务级全链路监控方法及服务器
CN111339466A (zh) 接口管理方法、装置、电子设备及可读存储介质
CN115865611A (zh) 一种网络设备的故障处理方法、装置及电子设备
CN114443205B (zh) 故障分析方法、装置及非瞬时性计算机可读存储介质
CN113240139A (zh) 告警因果评估方法、故障根因定位方法及电子设备
CN103823743A (zh) 软件系统的监控方法和设备
CN115981950A (zh) 监控告警方法、装置、设备及计算机可读存储介质
JP5735998B2 (ja) 運用システム
CN106506254B (zh) 一种大规模流式数据处理系统的瓶颈节点检测方法
CN113835961B (zh) 告警信息监控方法、装置、服务器及存储介质
CN115115062A (zh) 机器学习模型建立方法、相关装置及计算机程序产品
CN115185641A (zh) 一种云原生资产发现方法与系统
CN114756301A (zh) 日志处理方法、装置和系统
CN113656369A (zh) 一种大数据场景下的日志分布式流式采集及计算方法
CN112579402A (zh) 一种应用系统故障定位的方法和装置
CN112422349A (zh) 面向nfv的网管系统、方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant