CN112583644B - 告警处理方法、装置、设备及可读存储介质 - Google Patents

告警处理方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112583644B
CN112583644B CN202011468699.6A CN202011468699A CN112583644B CN 112583644 B CN112583644 B CN 112583644B CN 202011468699 A CN202011468699 A CN 202011468699A CN 112583644 B CN112583644 B CN 112583644B
Authority
CN
China
Prior art keywords
alarm
name
alarms
devices
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011468699.6A
Other languages
English (en)
Other versions
CN112583644A (zh
Inventor
周敏
贺港还
菲利普·福尼尔·卫格尔
张喜
卢甘禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202011468699.6A priority Critical patent/CN112583644B/zh
Publication of CN112583644A publication Critical patent/CN112583644A/zh
Priority to PCT/CN2021/129316 priority patent/WO2022127435A1/zh
Priority to EP21905364.2A priority patent/EP4262164A1/en
Application granted granted Critical
Publication of CN112583644B publication Critical patent/CN112583644B/zh
Priority to US18/334,090 priority patent/US20230327941A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/082Configuration setting characterised by the conditions triggering a change of settings the condition being updates or upgrades of network functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0618Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on the physical or logical position
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/28Restricting access to network management systems or functions, e.g. using authorisation function to access network configuration

Abstract

本申请实施例公开了一种告警处理方法、装置、设备及可读存储介质,本申请实施例的方法包括:根据目标网络中的告警记录和目标网络的拓扑数据生成告警属性图,由于该告警属性图包括多个设备的标识、多个设备的通信连接关系、多个设备的类型信息和多个设备的告警属性信息,每个设备的告警属性信息包括设备中出现的告警的名称和设备中每个告警出现的时间,所以基于告警属性图生成的告警间的关联度更加全面,从而提高告警记录的筛选效果。

Description

告警处理方法、装置、设备及可读存储介质
技术领域
本申请实施例涉及通信技术领域,尤其涉及一种告警处理方法、装置、设备及可读存储介质。
背景技术
随着通信技术的发展,通信网络在人们生活中扮演着越来越重要的角色。目前,通信业务越来越丰富,所以通信网络中的网络设备的数量和类型越来越多,网络设备的连接关系也越来越复杂。复杂的通信网络每天可以出现大量故障(Fault),从而产生数百万的告警(Alarm)。
若要处理出现的全部告警,那么工作人员需要检查大量的设备,这无疑给工作人员造成巨大负担。实际上,告警往往存在冗余,而告警之间通常存在一定的关联度,所以为了减少工作人员的负担,会先去除冗余的告警,并确定告警间的关联度,然后根据该关联度对出现的告警进行筛选,最终对去除冗余和筛选后的告警进行处理。
为此,需要一种能够生成全面的告警间的关联度的方法,以尽可能地过滤掉冗余的告警。
发明内容
本申请实施例提供了一种告警处理方法、装置、设备及可读存储介质,能够生成全面的告警间的关联度。
本申请实施例第一方面提供了一种告警处理方法,该方法可以应用于负责处理告警记录的网络中心,包括:
获取目标网络的多条告警记录,目标网络包括多个设备,每条告警记录包含告警的名称、告警出现的时间和告警出现的设备的标识,其中,告警的名称又可以称为告警的类型,告警出现的设备的标识的形式可以有多种,例如可以是编号;获取目标网络的拓扑数据,具体可以根据目标网络的设备路径日志获取目标网络的拓扑数据,拓扑数据包括多个设备的类型信息和多个设备的通信连接关系;该通信连接关系包括直接通信连接和间接通信连接;直接通信连接可以理解为两个设备可以直接进行通信,间接通信连接可以理解为两个设备需要通过至少一个中间设备通信连接;基于多条告警记录和拓扑数据生成告警属性图,告警属性图包括多个设备的标识、多个设备的通信连接关系、多个设备的类型和多个设备的告警属性信息,每个设备的告警属性信息包括设备中出现的告警的名称和设备中每个告警出现的时间;基于告警属性图获取告警间的关联度,其中关联度可以表示为告警X→告警Y的形式,其中,告警X为关联度的先导,告警Y为关联度的后继,即可以认为告警X引起告警Y的可能性。
基于多条告警记录和目标网络的拓扑数据生成告警属性图,告警属性图不仅包含了每个设备的类型、每个设备上出现的告警的名称、每个设备上出现每种名称的告警的时间,还包含了设备间的通信连接关系,所以基于告警属性图可以生成多种情况下的告警间的关联度,使得获取的告警间的关联度更加全面,从而提高筛选告警记录的效果,提高告警记录的压缩率,减少筛选后的告警数量,进而减少生成的工单数量,减轻工作人员的负担。
作为一种实现方式,在生成告警间的关联度后,方法还包括:基于告警间的关联度过滤冗余告警。
基于告警间的关联度过滤冗余告警,能够减少告警的数量,从而减少生成的工单数量,减轻工作人员的负担。
作为一种实现方式,基于告警属性图生成告警间的关联度包括:根据告警属性图确定至少一组设备,具体地,可以根据多个设备的通信连接关系和多个设备的类型确定至少一组设备,至少一组设备中的每组设备包括至少一个设备且满足第一目标条件;根据至少一组设备中每个设备的告警属性信息,确定满足第一目标条件的一组设备中出现的两个告警间的关联度。
在该实现方式中,根据多个设备的通信连接关系和多个设备的类型确定满足条件的至少一组设备,然后确定满足条件的一组设备中出现的告警间的关联度,通过这种方式确定出的告警的关联度适用于满足条件的一组设备中,所以告警的关联度的准确率更好。
作为一种实现方式,第一目标条件包括:每组设备包括一个设备且每组设备中设备的类型为第一类型,其中,第一类型可以是设备的任意一种类型。
该实现方式提供了单设备的场景,即可以确定单个设备中出现的两个告警间的关联度。
作为一种实现方式,第一目标条件包括:每组设备包括两个设备,每组设备中的两个设备的类型都为第一类型,且每组设备中的两个设备通信连接,其中,第一类型可以是设备的任意一种类型;关联度为满足第一目标条件的一组设备中,一个设备上出现的告警和另一个设备上出现的告警间的关联度。
具体地,每组设备中的两个设备可以通过相同数量的设备通信连接。例如,每组设备中的两个设备都直接通信连接。再例如,每组设备中的两个设备都间接通信连接,具体地,每组设备中的两个设备都通过一个设备通信连接,或每组设备中的两个设备都通过两个设备通信连接,依次类推。
该实现方式提供了跨设备的场景,即可以确定跨设备场景下一个设备上出现的告警和另一个设备上出现的告警间的关联度。
作为一种实现方式,第一目标条件包括:每组设备包含两个设备,每组设备中的两个设备的类型分别为第一类型和第二类型,且每组设备中的两个设备通信连接;关联度为满足第一目标条件的一组设备中,第一类型的设备上出现的告警和第二类型的设备上出现的告警间的关联度;其中,满足第一目标条件的一组设备中,第一类型的设备上出现的告警的名称与第二类型设备上出现的告警的名称可以相同,也可以不同。
由于不同类型的设备属于不同的域,所以该实现方式提供了跨域的场景,即可以确定满足第一目标条件的一组设备中,第一类型的设备上出现的告警与第二类型的设备上出现的告警间的关联度。
作为一种实现方式,根据至少一组设备中每个设备的告警属性信息,确定满足第一目标条件的一组设备中出现的两个告警间的关联度包括:根据至少一组设备中每个设备的告警属性信息确定每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数,以及第一名称的告警与第二名称的告警协同出现的次数,确定协同出现的规则为第一名称的告警出现的时间与第二名称的告警出现的时间满足第二目标条件;基于每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及第一名称的告警与第二名称的告警协同出现的次数,确定满足第一目标条件的一组设备中出现的第一名称的告警和第二名称的告警间的关联度。
该实现方式提供了确定告警间的关联度的一种可行方案。
作为一种实现方式,第二目标条件包括:第一名称的告警出现的时间与第二名称的告警出现的时间的差值的绝对值小于预设时长,其中预设时长可以根据人工经验进行设定。
例如,第一名称的告警与第二名称的告警由一个设备产生,第一名称的告警为告警A,第二名称的告警为告警B。告警A出现的时间分别为t1和t2,告警B出现的时间分别为t3和t4。若告警B出现的时间t2与告警A出现的时间t1的差值小于预设时长,则表示告警A和告警B协同出现一次;在此基础上,若告警B出现的时间t4与告警A出现的时间t3的差值小于预设时长,则表示告警A和告警B协同出现两次。
该实现方式提供了第二目标条件的一种具体示例。
作为一种实现方式,基于每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及第一名称的告警与第二名称的告警协同出现的次数,确定满足第一目标条件的一组设备中出现的第一名称的告警和第二名称的告警间的关联度包括:基于每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及第一名称的告警与第二名称的告警协同出现的次数,确定至少一组设备中第一名称的告警出现的总次数、第二名称的告警出现的总次数以及第一名称的告警与第二名称的告警协同出现的总次数;基于第一名称的告警出现的总次数、第二名称的告警出现的总次数、第一名称的告警与第二名称的告警协同出现的总次数以及目标公式,确定满足第一目标条件的一组设备中出现的第一名称的告警和第二名称的告警间的关联度,关联度指示第一名称的告警引起第二名称的告警的可能性,或第二名称的告警引起第一名称的告警的可能性;目标公式为非对称的度量公式,其中,非对称的度量公式可以理解为,能够都度量出第一名称的告警引起第二名称的告警的可能性与第二名称的告警引起第一名称的告警的可能性不同的公式。
由于目标公式为非对称的度量公式,所以该目标公式能够体现出第一名称的告警和第二名称的告警的相对重要程度。
作为一种实现方式,关联度指示第一名称的告警引起第二名称的告警的可能性;目标公式包括:
Figure BDA0002834587290000031
PAtoB表示第一名称的告警引起第二名称的告警的可能性,Y为大于或等于2的常数,nA表示第一名称的告警出现的总次数,nB表示第二名称的告警出现的总次数,nAB表示第一名称的告警与第二名称的告警协同出现的总次数。
该实现方式提供了目标公式的一种具体示例,该公式不仅可以体现出第一名称的告警和第二名称的告警的相对重要程度,还能够体现出出现次数较少的告警的重要性。
作为一种实现方式,获取目标网络的拓扑数据包括:根据目标网络的设备路径日志获取目标网络的拓扑数据,设备路径日志中包含至少一条通信路径的数据,至少一条通信路径包含多个设备,每条通信路径包含多个通信连接的设备,每条通信路径的数据包含多个通信连接的设备的标识以及多个通信连接的设备的类型信息,除此之外,每条通信路径的数据还可以包括通信路径的编号以及设备在通信路径上的编号。
该实现方式提供了获取拓扑数据的一种具体实现方式,即根据设备路径日志生成拓扑数据,使得生成拓扑数据的方式更加灵活。
作为一种实现方式,告警间的关联度的数量为多个,每个关联度指示一种名称的告警引起另一种名称的告警的可能性;在基于告警属性图获取告警间的关联度之后,方法还包括:从多个关联度中筛选出关联度大于目标阈值的至少一条关联度。
在实现方式中,通过目标阈值对生成的多条关联度进行筛选,然后利用筛选后的关联度对实时告警流进行筛选,从而防止利用可能性较小的关联度对实时告警流进行筛选,而导致一些能够反映故障的重要告警被过滤掉。
作为一种实现方式,在基于告警属性图获取告警间的关联度之后,在从多条关联度中筛选出可能性大于阈值的至少一条关联度之前,方法还包括:根据告警间的多个关联度确定,关联度位于多个阈值范围中每个阈值范围内的关联度的数量;通过每个阈值范围内告警间的关联度的数量确定目标阈值,具体地,可以通过肘部法则和每个阈值范围内告警间的关联度的数量确定目标阈值。
相比于通过人工确定目标阈值,该实现方式通过每个阈值范围内告警间的关联度的数量确定目标阈值,使得确定的目标阈值更加准确,且能够提高确定目标阈值的效率。
作为一种实现方式,获取目标网络的多条告警记录包括:获取目标网络在目标时间段内产生的多条告警记录,其中目标时间段可以根据实际需要进行设定。
作为一种实现方式,目标时间段为一个月,除此之外,目标时间段还可以为7天、10天、20天、25天、35天、40天等。
本申请实施例第二方面提供了一种告警处理装置,包括:获取单元,用于获取目标网络的多条告警记录,目标网络包括多个设备,每条告警记录包含告警的名称、告警出现的时间和告警出现的设备的标识;获取单元还用于获取目标网络的拓扑数据,拓扑数据包括多个设备的类型信息和多个设备的通信连接关系;告警属性图生成单元,用于基于多条告警记录和拓扑数据生成告警属性图,告警属性图包括多个设备的标识、多个设备的通信连接关系、多个设备的类型信息和多个设备的告警属性信息,每个设备的告警属性信息包括设备中出现的告警的名称和设备中每个告警出现的时间;关联度生成单元,用于基于告警属性图获取告警间的关联度。
作为一种实现方式,告警处理装置还包括:过滤单元,用于基于告警间的关联度过滤冗余告警。
作为一种实现方式,关联度生成单元,用于根据告警属性图确定至少一组设备,至少一组设备中的每组设备包括至少一个设备且满足第一目标条件;根据至少一组设备中每个设备的告警属性信息,确定满足第一目标条件的一组设备中出现的两个告警间的关联度。
作为一种实现方式,第一目标条件包括:每组设备包括一个设备且每组设备中设备的类型为第一类型。
作为一种实现方式,第一目标条件包括:每组设备包括两个设备,每组设备中的两个设备的类型都为第一类型,且每组设备中的两个设备通信连接;关联度为满足第一目标条件的一组设备中,一个设备上出现的告警和另一个设备上出现的告警间的关联度。
作为一种实现方式,第一目标条件包括:每组设备包含两个设备,每组设备中的两个设备的类型分别为第一类型和第二类型,且每组设备中的两个设备通信连接;关联度为满足第一目标条件的一组设备中,第一类型的设备上出现的告警和第二类型的设备上出现的告警间的关联度。
作为一种实现方式,关联度生成单元,用于根据至少一组设备中每个设备的告警属性信息确定每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数,以及第一名称的告警与第二名称的告警协同出现的次数,确定协同出现的规则为第一名称的告警出现的时间与第二名称的告警出现的时间满足第二目标条件;基于每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及第一名称的告警与第二名称的告警协同出现的次数,确定满足第一目标条件的一组设备中出现的第一名称的告警和第二名称的告警间的关联度。
作为一种实现方式,第二目标条件包括:第一名称的告警出现的时间与第二名称的告警出现的时间的差值的绝对值小于预设时长。
作为一种实现方式,关联度生成单元,用于基于每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及第一名称的告警与第二名称的告警协同出现的次数,确定至少一组设备中第一名称的告警出现的总次数、第二名称的告警出现的总次数以及第一名称的告警与第二名称的告警协同出现的总次数;基于第一名称的告警出现的总次数、第二名称的告警出现的总次数、第一名称的告警与第二名称的告警协同出现的总次数以及目标公式,确定满足第一目标条件的一组设备中出现的第一名称的告警和第二名称的告警间的关联度,关联度指示第一名称的告警引起第二名称的告警的可能性,或第二名称的告警引起第一名称的告警的可能性;目标公式为非对称的度量公式。
作为一种实现方式,关联度指示第一名称的告警引起第二名称的告警的可能性;目标公式包括:
Figure BDA0002834587290000051
PAtoB表示第一名称的告警引起第二名称的告警的可能性,Y为大于或等于2的常数,nA表示第一名称的告警出现的总次数,nB表示第二名称的告警出现的总次数,nAB表示第一名称的告警与第二名称的告警协同出现的总次数。
作为一种实现方式,获取单元,用于根据目标网络的设备路径日志获取目标网络的拓扑数据,设备路径日志中包含至少一条通信路径的数据,至少一条通信路径包含多个设备,每条通信路径包含多个通信连接的设备,每条通信路径的数据包含多个通信连接的设备的标识以及多个通信连接的设备的类型信息。
作为一种实现方式,告警间的关联度的数量为多个,每个关联度指示一种名称的告警引起另一种名称的告警的可能性;告警处理装置还包括:关联度筛选单元,用于从多个关联度中筛选出关联度大于目标阈值的至少一条关联度。
作为一种实现方式,关联度筛选单元,用于根据告警间的多个关联度确定,关联度位于多个阈值范围中每个阈值范围内的关联度的数量;通过每个阈值范围内告警间的关联度的数量确定目标阈值。
作为一种实现方式,获取单元用于,获取目标网络在目标时间段内产生的多条告警记录。
作为一种实现方式,目标时间段为一个月。
其中,以上各单元的具体实现、相关说明以及技术效果请参考本申请实施例第一方面的描述。
本申请实施例第三方面提供了一种计算机设备,包括:一个或多个处理器和存储器;其中,所述存储器中存储有计算机可读指令;所述一个或多个处理器读取所述计算机可读指令,以使所述计算机设备实现如第一方面任一实现方式所述的方法。
本申请实施例第四方面提供了一种计算机可读存储介质,包括计算机可读指令,当所述计算机可读指令在计算机上运行时,使得所述计算机执行如第一方面任一实现方式所述的方法。
本申请实施例第五方面提供了一种芯片,包括一个或多个处理器。所述处理器中的部分或全部用于读取并执行存储器中存储的计算机程序,以执行上述第一方面任意可能的实现方式中的方法。
可选地,该芯片该包括存储器,该存储器与该处理器通过电路或电线与存储器连接。进一步可选地,该芯片还包括通信接口,处理器与该通信接口连接。通信接口用于接收需要处理的数据和/或信息,处理器从该通信接口获取该数据和/或信息,并对该数据和/或信息进行处理,并通过该通信接口输出处理结果。该通信接口可以是输入输出接口。
在一些实现方式中,所述一个或多个处理器中还可以有部分处理器是通过专用硬件的方式来实现以上方法中的部分步骤,例如涉及神经网络模型的处理可以由专用神经网络处理器或图形处理器来实现。
本申请实施例提供的方法可以由一个芯片实现,也可以由多个芯片协同实现。
本申请实施例第六方面提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,该计算机软件指令可通过处理器进行加载来实现上述第一方面中任意一种实现方式所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
基于多条告警记录和目标网络的拓扑数据生成告警属性图,告警属性图不仅包含了每个设备的类型信息、每个设备上出现的告警的名称、每个设备上出现每个告警的时间,还包含了设备间的通信连接关系,所以基于告警属性图可以生成多种情况下的告警间的关联度,使得生成的告警间的关联度更加全面,从而提高筛选告警记录的效果,提高告警记录的压缩率,减少筛选后的告警数量,进而减少生成的工单数量,减轻工作人员的负担。
附图说明
图1为本申请实施例中通信网络架构的示意图;
图2为本申请实施例提供了一种告警处理方法的一个实施例示意图;
图3为本申请实施例中生成告警属性图的实施例示意图;
图4为本申请实施例中的拓扑图的示意图;
图5为本申请实施例中的告警属性图的示意图;
图6为本申请实施例中筛选实时告警流的示意图;
图7为本申请实施例中基于告警属性图生成告警间的关联度的第一实施例示意图;
图8为本申请实施例中基于告警属性图生成告警间的关联度的第二实施例示意图;
图9为本申请实施例中基于告警属性图生成告警间的关联度的第三实施例示意图;
图10为本申请实施例中多种告警出现次数的示例图;
图11为本申请实施例中筛选多条关联度的一个实施例示意图;
图12为本申请实施例中确定目标阈值的实施例示意图;
图13为各个阈值范围内告警间的关联度的数量的分布示意图;
图14为本申请实施例中筛选多条关联度的另一个实施例示意图;
图15为本申请实施例中告警处理装置的结构示意图;
图16为本申请实施例中计算机设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间或逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。
本申请实施例可以应用于图1所示的通信网络架构中。该通信网络包括网络中心、核心网设备、路由设备、微波设备和基站,基站与微波设备通信连接,微波设备与路由通信连接,路由与核心网设备连接。网络中心与核心网设备、路由设备、微波设备和基站分别通信连接,用于接收来自核心网设备、路由设备、微波设备和基站中任一网络设备的告警。
其中,核心网设备可以是任意类型的核心网设备,例如可以是用户面功能实体、接入和移动性管理功能实体、策略控制功能实体等。在核心网中,用户面功能实体负责数据包的路由转发、服务质量流映射,接入和移动性管理功能实体负责非接入层消息的加密和完保、负责注册、接入、移动性、鉴权、透传短信等功能;策略控制功能实体负责提供策略规则给网络实体去实施执行,以访问统一数据仓库的订阅信息。
不同类型的网络设备属于不同的域,相同类型的网络设备属于同一域;例如,微波设备与基站的类型不同,所以微波设备与基站属于不同的域;图1中所有的基站属于同一域,图1中所有的路由设备属于同一域。
图1所示的通信网络在运行过程中,包括微波设备和基站在内的任一网络设备都可能发生故障。当网络设备发生故障时,网络设备会出现告警,告警的信息会以告警记录的形式存入告警日志中,告警日志会由网络设备发给网络中心处理。
其中,告警记录通常会包含告警的名称、告警出现的时间和告警出现的设备的标识等,告警的名称也可以理解为告警的类型。
相应地,网络中心在接收到各网络设备的告警日志后,会根据告警日志中的告警生成工单,该工单指示工作人员对出现告警的设备进行检查和处理。
然而,实际应用中的通信网络通常比图1所示的通信网络要复杂的多。例如,实际应用中的通信网络会包含更多数量、更多类型的网络设备,并且设备间的通信连接关系更加复杂。所以在一天内,网络中心可能接收到数百万的告警,若对应每个告警都生成相应的工单,那么工作人员将需要检查大量的网络设备。
而实际上,相对于海量的告警来说,实际发生故障的网络设备只有少量。产生这种情况的原因主要有两种。第一种原因:在一个网络设备上,某一故障的发生会引发该网络设备多种名称的告警,每种名称的告警也可能产生多次。第二种原因:一个网络设备上发生故障,不仅会导致该网络设备出现告警,也会导致与该网络设备通信连接的其他网络设备上出现告警。
以图1所示的通信网络为例,假设一基站出现故障,该基站产生多种名称的告警,每种名称的告警可能会重复产生,例如一分钟内重复产生同一名称的告警10次;此外,该出现故障的基站可能会引起与其通信连接的微波设备也产生多种名称的告警,每种名称的告警也可能会重复产生。但实际上,仅有基站发生故障,而与基站连接的微波设备未发生故障,所以不需要工作人员对微波设备进行检查和处理。
由此可见,通信网络中的部分告警是冗余的,即出现告警的网络设备未发生故障;并且,通信网络中的不同告警之间存在一定的关联关系,该关联关系可以用关联度表示,通过该关联度可以发现冗余的告警。所以,网络中心可以通过告警间的关联度对接收到告警记录进行筛选,以过滤掉冗余告警的告警记录,减少告警记录的数量,从而利用过滤后的少量告警记录生成工单,降低工作人员的负担。
告警间的关联度是多样的。例如,同一网络设备上出现的两种名称的告警之间可能存在关联度,不同网络设备上出现的两种名称告警之间也可能存在关联度。并且,不同的设备可以是同类型的,也可以不同类型的;不同的设备之间的通信连接关系也可以有多种。
因此,为了提升告警记录的筛选效果,即尽可能地将冗余告警的告警记录过滤掉,需要生成比较全面的关联度。全面的关联度可以理解为,多种情况下两个告警间的关联度,例如,既包括同一网络设备上出现的两个告警之间的关联度,也包括不同网络设备上出现的两个告警之间的关联度。
为此,本申请实施例提供了一种告警处理方法,该方法是基于告警属性图生成告警间的关联度。告警属性图中不仅包含了告警的名称、告警出现的时间、告警出现的设备等信息,还包含了出现告警的设备类型以及出现告警的设备的通信连接关系,所以基于告警属性图生成的告警间的关联度较为全面,能够提升告警记录的筛选效果。
下面对本申请实施例提供的方法进行具体介绍,为了便于描述,下文以设备代替网络设备,其中下文中的设备也可以称为网元。
具体地,请参阅图2,本申请实施例提供了一种告警处理方法的一个实施例,该实施例可以用于图1所示的网络中心,具体地,网络中心根据历史的告警记录生成告警间的关联度,然后基于生成的告警间的关联度对实时告警流进行筛选、压缩;其中,实时告警流可以由多条实时的告警记录构成。此外,该实施例也可以应用于其他任意具有规则生成能力的计算机设备中,在生成告警间的关联度后,可以将告警间的关联度存储于任意存储器中,然后由网络中心从存储器中获取告警的关联度,并基于告警间的关联度对实时告警流进行筛选、压缩。
如图2所示,该实施例包括:
步骤101,获取目标网络的多条告警记录,目标网络包括多个设备,每条告警记录包含告警的名称、告警出现的时间和告警出现的设备的标识。
目标网络可以是任意一个通信网络,该通信网络包括但不限于图1所示的通信网络。本申请实施例对目标网络的规模和目标网络的拓扑结构不做具体限定。
告警的名称又可以称为告警的类型;告警出现的设备的标识的形式可以有多种,本申请实施例对此不做具体限定,例如,告警出现的设备的标识可以是编号。
应理解,告警记录通常存在于告警日志中。所以,可以基于目标网络的告警日志获取多条告警记录。
由于告警日志中会包含明显冗余的告警,所以可以先对告警日志中的告警记录进行预处理,通过预处理剔除告警日志中明显冗余的告警。其中,该明显冗余的告警可以是明显错误的告警,也可以是明显重复的告警等。
作为一种实现方式,获取目标网络的多条告警记录包括:获取目标网络在目标时间段内产生的多条告警记录,其中目标时间段可以根据实际需要进行设定。
例如,目标时间段可以为一个月,除此之外,目标时间段还可以为20天、25天、35天、40天等。
由于获取的多条告警记录是目标网络在目标时间段内产生的,所以能够保证多条告警记录理论上是相关的,以避免处理论上不相关的告警记录。
步骤102,获取目标网络的拓扑数据,拓扑数据包括多个设备的类型信息和多个设备的通信连接关系。
该通信连接关系包括直接通信连接和间接通信连接。直接通信连接可以理解为两个设备可以直接进行通信,间接通信连接可以理解为两个设备需要通过至少一个中间设备通信连接。以图1所示的通信网络为例,基站与微波设备之间的通信连接关系为直接通信连接;而基站与路由设备之间通过微波设备通信连接,所以基站与路由设备之间的通信连接关系为间接连接;同样地,基站与核心网设备之间通过微波设备、路由设备通信连接,所以基站与核心网设备之间的通信连接关系也为间接连接。
需要说明的是,获取目标网络的拓扑数据的方法有多种,本申请实施例对此不做具体限定。
作为一种实现方式,基于网络中心的本地存储器通常用于存储目标网络的信息,步骤102包括:从网络中心的本地存储器中获取网络拓扑数据。
作为另一种实现方式,步骤102包括:根据目标网络的设备路径日志获取目标网络的拓扑数据,设备路径日志中包含至少一条通信路径的数据,至少一条通信路径包含多个设备,每条通信路径包含多个通信连接的设备,每条通信路径的数据包含多个通信连接的设备的标识以及多个通信连接的设备的类型信息。
如下表一所示,通信路径的数据可以包括通信路径的编号、通信路径上的设备的名称、通信路径上的设备的类型以及设备在通信路径上的编号。
表一
Figure BDA0002834587290000101
在上表中,设备在通信路径上的编号可以具体表示通信路径上的任一设备到某一特定设备需要几跳。例如,在编号为1的通信路径上,特定设备为设备11,相应地,设备11在该通信路径上的编号为0;设备22与设备11连接,所以设备22在该通信路径上的编号为1,表示设备22到设备11需要一跳;设备33通过设备22与设备11连接,所以设备33在该通信路径上的编号为2,表示设备22到设备11需要两跳。
其中,通信路径的编号、通信路径上的设备的名称、通信路径上的设备的类型以及设备在通信路径上的编号不限于上表所示的形式。
以上表所示的路径日志为例,编号为1的通信路径上包含设备11、设备22和设备33,因此可以确定设备11、设备22和设备33之间具有通信连接关系;编号为2的通信路径上包含设备11和设备44,因此可以确定设备11还与设备44具有通信连接关系。由此可见,根据设备路径日志除了可以确定目标网络中多个设备的类型外,还可以确定目标网络中多个设备的通信连接关系。
步骤103,基于多条告警记录和拓扑数据生成告警属性图,告警属性图包括多个设备的标识、多个设备的通信连接关系、多个设备的类型信息和多个设备的告警属性信息,每个设备的告警属性信息包括设备中出现的告警的名称和设备中每个告警出现的时间。
其中,设备的标识的形式可以有多种,例如可以是设备的名称、设备的编号以及其他任意可能的形式。设备的名称可以是表一中的设备11、设备22、设备33和设备44,也可以是下文中图4和图5所示的设备a、设备b、设备c、设备d、设备e、设备f、设备g和设备h。
基于多条告警记录和拓扑数据生成告警属性图的方法有多种,本申请实施例对此不做具体限定。
作为一种实现方式,如图3所示,步骤103包括:先基于拓扑数据生成拓扑图,然后将多条告警记录中的信息以及拓扑数据中的多个设备的类型信息映射到拓扑图中;而多条告警记录可以是对告警日志进行预处理得到的。
拓扑图是指网络设备与通信介质构成的网络结构图,其中,通信介质可以包括双绞线、非屏蔽双绞线、同轴电缆和光纤四种缆线,以及无线电波、红外线、微波、卫星和激光等无线传输。
拓扑图可以包括多个节点,多个节点表示目标网络中的多个设备,节点间的连接关系表示设备间的通信连接关系。
示例性地,拓扑图可以如图4所示。图4所示的拓扑图包括8个节点,这8个节点分别表示设备a、设备b、设备c、设备d、设备e、设备f、设备g和设备h;节点间的连线表示节点的连接关系,具体表示节点所代表的设备间的通信连接关系;除此之外,图4中的拓扑图还利用节点的形状表示设备的类型,节点的形状不同,则表示设备的类型不同。
具体地,如图4所示,表示设备a的节点为矩形,所以设备a为一种类型;表示设备b、设备c和设备d的节点为椭圆形,所以设备b、设备c和设备d的类型相同且不同于设备a的类型;表示设备e、设备f、设备g和设备h的节点为圆形,所以设备e、设备f、设备g和设备h的类型相同,且不同于设备a的设备,也不同于设备b的类型。
将多条告警记录中的信息以及拓扑数据中的多个设备的类型映射到拓扑图可以包括:将多个设备的类型添加到拓扑图中,按告警记录中告警出现的设备将多条告警记录中的信息归类,这样,目标网络中每个出现告警的设备都具有相应的告警属性信息。
告警属性图的形式可以有多种,本申请实施例对此不做限定。
示例性地,以图4所示的拓扑图为例,相应地,告警属性图可以如图5所示。从图5中可以看出,告警属性图指示了设备a、设备b、设备c、设备d、设备e、设备f、设备g和设备h,以及上述设备间的通信连接关系。
除此之外,该告警属性图还指示了上述设备的类型和告警属性信息。以设备b为例,从图5可以看出,该告警属性图指示设备b的类型为微波,指示设备b的告警属性信息包括告警的名称和每种名称的告警出现的时间。具体地,在设备b的告警属性信息中,告警的名称包括告警A和告警B,告警A的出现时间为t1和t2,告警B的出现时间为t3和t4。
步骤104,基于告警属性图获取告警间的关联度。
需要说明的是,基于告警属性图获取告警间的关联度的方法有多种,本申请实施例对此不做具体限定。
关联度形式可以有多种,本申请实施例对此不做具体限定。通常情况下,关联度可以表示为告警X→告警Y的形式,其中,告警X为关联度的先导,告警Y为关联度的后继,即可以认为告警X引起告警Y的可能性。
其中,该可能性可以使用多种方式表示,包括但不限于支持度(Support)、置信度(Confidence)与提升度(Lift)。
基于步骤101至步骤104的说明可知,采用本申请实施例提供的方法对实时告警流进行筛选的过程可以如图6所示。具体地,以网络中心为例,该网络中心可以包含告警属性图生成模块、关联分析模块和实时应用模块;告警属性图构生成模块利用告警记录和拓扑数据生成告警属性图;关联分析模块基于告警属性图生成告警间的关联度;实时应用模块基于得到告警间的关联度对实时告警流进行筛选,其中,实时告警流是由多条实时的告警记录构成。
在本申请实施例中,基于多条告警记录和目标网络的拓扑数据生成告警属性图,告警属性图不仅包含了每个设备的类型、每个设备上出现的告警的名称、每个设备上出现每种名称的告警的时间,还包含了设备间的通信连接关系,所以基于告警属性图可以生成多种情况下的告警间的关联度,使得生成的告警间的关联度更加全面,从而提高筛选告警记录的效果,提高告警记录的压缩率,减少筛选后的告警数量,进而减少生成的工单数量,减轻工作人员的负担。
作为一种实现方式,在步骤104后,本申请实施例提供的方法还包括:基于告警间的关联度过滤冗余告警。具体地,可以利用告警间的关联度对实时的告警记录进行筛选,以过滤其中的荣誉告警。
基于前述说明可知,基于告警属性图生成告警间的关联度的方法有多种,下面对此进行具体介绍。
示例性地,如图7所示,步骤104可以具体包括:
步骤201,根据告警属性图确定至少一组设备,至少一组设备中的每组设备包括至少一个设备且满足第一目标条件;
步骤202,根据至少一组设备中每个设备的告警属性信息,确定满足第一目标条件的一组设备中出现的两个告警间的关联度。
根据告警属性图确定至少一组设备具体可以包括:根据多个设备的通信连接关系和多个设备的类型信息确定至少一组设备。
在该实施例中,是根据通信连接关系和设备的类型信息确定满足第一目标条件的至少一组设备,所以第一目标条件与设备的通信连接关系、设备的类型相关,除此之外,第一目标条件还可以设备的数量相关。其中,第一目标条件的具体内容可以根据实际需要进行设定。
由于每组设备都满足第一目标条件,所以在每组设备中,出现的两个告警的关联度可以认为是相同的,所以该实施例可以确定满足第一目标条件的一组设备,也可以确定满足第一目标条件的多组设备。
基于第一目标条件的情况可以有多种,下面结合图5介绍第一目标条件的其中三种情况。
第一目标条件的第一种情况。
第一目标条件包括:每组设备包含一个设备且每组设备中设备的类型为第一类型。
其中,第一类型可以是设备的任意一种类型。
示例性地,如图5所示,根据多个设备的通信连接关系和多个设备的类型可以确定4组设备,4组设备分别包含设备e、设备f、设备g和设备h,从图5中节点的形状可以看出,设备e、设备f、设备g和设备h的类型相同。
示例性地,如图5所示,根据多个设备的通信连接关系和多个设备的类型可以确定3组设备,3组设备分别包含设备b、设备c和设备d,从图5中节点的形状可以看出,设备b、设备c和设备d的类型相同。
基于上述说明可知,第一目标条件的第一种情况属于单设备的情况,在这种情况下,可以确定单个设备中出现的两个告警间的关联度。
第一目标条件的第二种情况。
第一目标条件包括:每组设备包含两个设备,每组设备中的两个设备的类型都为第一类型,且每组设备中的两个设备都通信连接。
其中,第一类型可以是设备的任意一种类型。
每组设备中的两个设备都通过相同数量的设备通信连接包括多种情况。例如,每组设备中的两个设备都直接通信连接。再例如,每组设备中的两个设备都间接通信连接,具体地,每组设备中的两个设备都通过一个设备通信连接,或每组设备中的两个设备都通过两个设备通信连接,依次类推。
示例性地,如图5所示,根据多个设备的通信连接关系和多个设备的类型可以确定1组设备,该组设备包含设备c和设备d,从图5中节点的形状可以看出,设备c和设备d的类型相同。
基于上述说明可知,第二种情况与第一种情况不同,在第一目标条件的第二种情况下,每组设备包含类型相同的两个设备,因此第一目标条件的第二种情况属于跨设备的情况。在这种情况下,可以确定满足第一目标条件的一组设备中,一个设备上出现的告警和另一个设备上出现的告警间的关联度。
其中,满足第一目标条件的一组设备中,一个设备上出现的告警的名称与另一个设备上出现的告警的名称可以相同,也可以不同。
第一目标条件的第三种情况。
第一目标条件包括:每组设备包含两个设备,每组设备中的两个设备的类型分别为第一类型和第二类型,且每组设备中的两个设备都通信连接。
其中,第一类型和第二类型不同且可以为设备的任意两种类型。
第三种情况下每组设备中的两个设备的通信连接关系,与第二种情况下每组设备中的两个设备的通信连接关系相同,具体可参阅第二种情况的相关说明进行理解。
示例性地,如图5所示,根据多个设备的通信连接关系和多个设备的类型可以确定4组设备,每组设备中的两个设备都直接通信连接。具体地,设备b和设备e构成第一组设备,设备b和设备f构成第二组设备,设备c和设备g构成第三组设备,设备d和设备h构成第四组设备。从图5中节点的形状可以看出,这4组设备中的任意一组设备包含的两个设备的类型都不同,而这4组设备中的任意一组设备包含的设备的类型与任意另一组设备包含的设备的类型都相同。
示例性地,如图5所示,根据多个设备的通信连接关系和多个设备的类型可以确定4组设备,每组设备中的两个设备都通过一个设备通信连接。具体地,设备a和设备e构成第一组设备,设备a和设备f构成第二组设备,设备a和设备g构成第三组设备,而由于设备a和设备h通过2个设备通信连接,所以设备a和设备h不能作为一组设备。从图5中节点的形状可以看出,这3组设备中的任意一组设备包含的两个设备的类型都不同,而这3组设备中的任意一组设备包含的设备的类型与任意另一组设备包含的设备的类型都相同。
基于上述说明可知,第三种情况与第二种情况不同,在第一目标条件的第三种情况下,每组设备包含类型不同的两个设备;由于不同类型的设备属于不同的域,所以第一目标条件的第三种情况属于跨域的情况。在这种情况下,可以确定满足第一目标条件的一组设备中,第一类型的设备上出现的告警与第二类型的设备上出现的告警间的关联度。
其中,满足第一目标条件的一组设备中,第一类型的设备上出现的告警的名称与第二类型设备上出现的告警的名称可以相同,也可以不同。
需要说明的是,对于不同情况的第一目标条件,可以生成不同场景下两个告警间的关联度,所以为了保证关联度的全面性,可以将第一目标条件的上述三种情况结合,生成告警间的关联度。这样,最终得到的关联度包括:单个设备中出现的两个告警间的关联度,两个类型相同的设备中出现的两个的告警间的关联度,以及两个不同类型的设备中出现的两个的告警间的关联度。
其中,不同情况的第一目标条件对应的两种名称的告警可以相同,也可以不同。
基于前述说明可知,在本申请实施例中,可以生成满足第一目标条件的任意一组设备中任意两种名称的告警间的关联度;相比于按照出现的时间将告警进行分组,然后利用频繁项集挖掘算法对每组告警进行分析的方法,本申请实施例可以避免通过时间对满足第一目标条件的一组设备产生的所有告警进行分组,而导致不同组间的告警间的关联度无法获取,所以采用本申请实施例提供的方法生成的关联度更加全面,可以提高告警记录的筛选效果。
例如,满足第一目标条件的一个设备产生的告警包括告警1、告警2、告警3和告警4,且这4个告警的告警类型都不同;若按照时间将告警1和告警2分为一组,将告警3和告警4分为一组,则只能得到告警1和告警2之间的关联度,以及告警3和告警4之间的关联度,无法得到告警1和告警2中任意一者,与告警3和告警4中任意一者间的关联度。
但使用本申请实施例提供的方法,则可以得到告警1、告警2、告警3和告警4中任意两者之间的关联度。
下面再通过一个跨域的示例进行说明。
例如,假设满足第一目标条件的两个设备中的一个设备产生了告警1和告警2,满足第一目标条件的两个设备中的另一个设备产生了告警3和告警4。若从告警1和告警2中选择一个主告警(假设为告警1),从告警3和告警4中选择一个主告警(假设为告警3),然后确定满足第一目标条件的两个设备产生的告警1与告警3之间的关联度,则无法得到满足第一目标条件的两个设备产生的告警2与告警4的之间的关联度。
然而,某些场景下,满足第一目标条件的两个设备产生的告警2与告警4的关联性可能较强,所以上述方法将造成生成的告警间的关联度不全面的问题,但使用本申请实施例提供的方法,则可以得到告警1、告警2、告警3和告警4中任意两者之间的关联度。
在上述各实施例中,无论第一目标条件为哪种情况,都存在多种方法能够确定满足第一目标条件的一组设备中出现的两个告警间的关联度。
作为一种实现方式,如图8所示,步骤202可以具体包括:
步骤301,根据至少一组设备中每个设备的告警属性信息确定每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数,以及第一名称的告警与第二名称的告警协同出现的次数,确定协同出现的规则为第一名称的告警出现的时间与第二名称的告警出现的时间满足第二目标条件。
由于设备的告警属性信息包括设备中出现的告警的名称以及设备中每种名称的告警的出现时间,所以对于第一名称的告警来说,可以根据每个该设备中第一名称的告警出现的时间点的数量确定第一名称的告警在该设备中出现的次数;将第一名称的告警在一组设备中各设备中出现的次数相加,即可得到该组设备中第一名称的告警出现的次数。
可以采用与上述相同的方法确定每组设备中第二名称的告警出现的次数。
在本申请实施例中,是根据第一名称的告警出现的时间与第二名称的告警出现的时间确定第一名称的告警与第二名称的告警协同出现,具体地,当第一名称的告警出现的时间与第二名称的告警出现的时间满足第二目标条件,则确定第一名称的告警与第二名称的告警协同出现。
其中,第二目标条件可以根据实际需要进行设定。例如,第二目标条件可以包括:第一名称的告警出现的时间与第二名称的告警出现的时间的差值的绝对值小于预设时长,该预设可以根据实际需要进行调整,例如,该预设时长可以设置为5分钟,也可以设置为10分钟,或者其它合适的值。预设时长的含义包括:如果两个告警出现时间的差的绝对值大于了预设时长,则认为它们出现的因果关系较弱或者没有因果关系,从而可以不考虑它们之间的关联度。
若关联度指示第一名称的告警引起第二名称的告警的可能性,那么通常第二名称的告警的出现时间晚于第一名称的告警出现的时间,相应地,第二目标条件具体可以包括:第二名称的告警出现的时间与第一名称的告警出现的时间的差值小于预设时长。
下面以具体的示例对第一名称的告警与第二名称的告警协同出现的确定过程进行说明。
示例性地,第一目标条件为第一种情况,在该种情况下,第一名称的告警与第二名称的告警由一个设备产生,第一名称的告警为告警A,第二名称的告警为告警B。以图5中的设备b为例,告警A出现的时间分别为t1和t2,告警B出现的时间分别为t3和t4。若告警B出现的时间t2与告警A出现的时间t1的差值小于预设时长,则表示告警A和告警B协同出现一次;在此基础上,若告警B出现的时间t4与告警A出现的时间t3的差值小于预设时长,则表示告警A和告警B协同出现两次。
示例性地,第一目标条件为第二种情况,在该种情况下,第一名称的告警与第二名称的告警分别由两个相同类型的设备产生,第一名称的告警为告警C,第二名称的告警为告警D。以图5中的设备c和设备d为例,由于设备c和设备d的类型相同,所以同一名称的告警既可以出现在设备c中,也可以出现在设备d中。具体地,设备c中告警C和告警D出现的时间分别为t5和t6,设备d中告警C和告警D出现的时间分别为t7和t8。若设备d中告警D出现的时间t8与设备c中告警C出现的时间t5的差值小于预设时长,则表示告警C与告警D协同出现一次;在此基础上,若设备c中告警D出现的时间t6与设备d中告警C出现的时间t7的差值小于预设时长,则表示告警D与告警C协同出现两次。
示例性地,第一目标条件为第三种情况,在该种情况下,第一名称的告警与第二名称的告警分别由两个不同类型的设备产生,第一名称的告警与第二名称的告警协同出现的确定过程与第二种情况第一名称的告警与第二名称的告警协同出现的确定过程类似,具体在此不做赘述。
步骤302,基于每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及第一名称的告警与第二名称的告警协同出现的次数,确定满足第一目标条件的一组设备中出现的第一名称的告警和第二名称的告警间的关联度。
可以理解的是,由于至少一组设备中每组设备都满足第一目标条件,所以当包含多组设备时,对应每组设备可以先确定一个初始关联度,然后再根据每组设备对应的初始关联度确定最终的关联度。
除此之外,当包含多组设备时,也可以将各组设备中第一名称的告警出现的次数相加得到多组设备中第一名称的告警出现的总次数,同样地,可以得到多组设备中第二名称的告警出现的总次数,以及多组设备中第一名称的告警与第二名称的告警协同出现的总次数;然后根据第一名称的告警出现的总次数、第二名称的告警出现的总次数以及第一名称的告警与第二名称的告警协同出现的总次数确定关联度。
具体地,如图9所示,步骤302可以具体包括:
步骤401,基于每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及第一名称的告警与第二名称的告警协同出现的次数,确定至少一组设备中第一名称的告警出现的总次数、第二名称的告警出现的总次数以及第一名称的告警与第二名称的告警协同出现的总次数。
步骤402,基于第一名称的告警出现的总次数、第二名称的告警出现的总次数、第一名称的告警与第二名称的告警协同出现的总次数以及目标公式,确定满足第一目标条件的一组设备中出现的第一名称的告警和第二名称的告警间的关联度。
在该实施例中,关联度指示第一名称的告警引起第二名称的告警的可能性,或第二名称的告警引起第一名称的告警的可能性。
基于前述说明可知,可能性可以采用支持度(Support)、置信度(Confidence)与提升度(Lift)等多种形式表示,但对于可能性的部分形式,计算得到的第一名称的告警引起第二名称的告警的可能性与第二名称的告警引起第一名称的告警的可能性相同,无法体现出第一名称的告警和第二名称的告警的相对重要程度。
例如,若用提升度(Lift)表示第一名称的告警引起第二名称的告警的可能性,以及第二名称的告警引起第一名称的告警的可能性,则计算得到的第一名称的告警引起第二名称的告警的可能性与第二名称的告警引起第一名称的告警的可能性都相同。
为此,在本申请实施例中,目标公式为非对称的度量公式。若使用该目标公式,则当第一名称的告警与第二名称的告警并非始终一起出现时,计算得到的第一名称的告警引起第二名称的告警的可能性与第二名称的告警引起第一名称的告警的可能性不同。所以,非对称的度量公式可以理解为,能够都度量出第一名称的告警引起第二名称的告警的可能性与第二名称的告警引起第一名称的告警的可能性不同的公式。
具体地,目标公式可以使得当第一名称的告警出现的总次数不等于第二名称的告警出现的总次数时,第一名称的告警引起第二名称的告警的可能性,不等于第二名称的告警引起第一名称的告警的可能性,从而可以体现出第一名称的告警和第二名称的告警的相对重要程度。
例如,若第一名称的告警引起第二名称的告警的可能性大,则表示第一名称的告警更可能反映设备的故障,所以第一名称的告警相对于第二名称的告警更重要;同样地,若第二名称的告警引起第一名称的告警的可能性大,则表示第二名称的告警更可能反映设备的故障,所以第二名称的告警相对于第一名称的告警更重要。
需要说明的是,在目标公式能使得第一名称的告警引起第二名称的告警的可能性,不等于第二名称的告警引起第一名称的告警的可能性的情况下,目标公式也可以有多种。
作为一种实现方式,当关联度指示第一名称的告警引起第二名称的告警的可能性时,目标公式可以包括:
Figure BDA0002834587290000171
PAtoB表示第一名称的告警引起第二名称的告警的可能性,Y为大于或等于2的常数,nA表示第一名称的告警出现的总次数,nB表示第二名称的告警出现的总次数,nAB表示第一名称的告警与第二名称的告警协同出现的总次数。
通常情况下,若第一名称的告警出现的总次数等于第二名称的告警出现的总次数,且等于第一名称的告警与第二名称的告警协同出现的总次数,则意味着第一名称的告警与第二名称的告警伴随出现,此时可以认为第一名称的告警引起第二名称的告警的可能性为1,第二名称的告警引起第一名称的告警的可能性也为1。
而对于上述目标公式,若Y等于2,当nA等于nB且等于nAB时,P为1;若Y大于2,当nA等于nB且等于nAB时,P小于1。所以2为Y的较佳取值,当Y为2时,计算出的可能性更符合实际。
下面以具体地示例对上述过程进行说明。
在该示例中,Y等于2。如图10所示,至少一组设备出现的告警包括告警11、告警22和告警33,其中告警11、告警22和告警33分别表示三种不同名称的告警。至少一组设备中告警11、告警22和告警33出现的总次数分别为100、100和1000,告警11和告警33之间连线上的100表示至少一组设备中告警11和告警33协同出现的总次数为100,告警22和告警33之间连线上的80表示至少一组设备中告警22和告警33协同出现的总次数为80。
其中,告警11和告警33协同出现是指告警11和告警33出现的时间的差小于设定时长,同样地,告警22和告警33协同出现是指告警22和告警33出现的时间的差小于设定时长。
使用上述目标公式计算,则告警11引起告警33的可能性则为
Figure BDA0002834587290000172
近似等于0.526;告警33引起告警11的可能性则为
Figure BDA0002834587290000173
近似等于0.1;由此可以看出,告警11出现的总次数较告警33出现的总次数少,计算得到的告警11引起告警33的可能性反而大于告警33引起告警11的可能性。
告警22引起告警33的可能性则为
Figure BDA0002834587290000174
近似等于0.417;告警33引起告警22的可能性则为
Figure BDA0002834587290000175
近似等于0.067;由此可以看出,告警22出现的总次数较告警33出现的总次数少,计算得到的告警22引起告警33的可能性反而大于告警33引起告警11的可能性。
基于上述计算结果可知,本申请实施例中的目标公式能够体现出第一名称的告警和第二名称的告警的相对重要程度。
可以理解的是,在实际应用中,一种名称的告警出现的次数较多,可能是因为其他各种名称的告警的出现,都会引起该名称的告警出现,所以若一种名称的告警出现的次数较多,并不一定说明这种名称的告警重要,反而出现次数少的一种名称的告警更能反映故障的根源。
所以若使用支持度表示第一名称的告警引起第二名称的告警的可能性,则第一名称的告警出现的总次数和第二名称的告警出现的总次数越多,计算得到的第一名称的告警引起第二名称的告警的可能性就越大,所以使用支持度表示可能性仅有利于出现次数多的告警。
而本申请实施例则不同。基于前述计算结果可以看出,告警11出现的总次数较告警33出现的总次数少,计算得到的告警11引起告警33的可能性反而大于告警33引起告警11的可能性,同样地,告警22出现的总次数较告警33出现的总次数少,计算得到的告警22引起告警33的可能性反而大于告警33引起告警11的可能性。所以,本申请实施例的目标公式还能够体现出出现次数较少的告警的重要性。
在本申请实施例中,为了保证关联度的全面性,通常会生成多种场景下的关联度,例如当在第一目标条件为第一情况时,会生成两种名称的告警间的关联度;当在第一目标条件为第二情况时,会生成两种名称的告警间的关联度;在第一目标条件为第三情况时,也会生成两种名称的告警间的关联度。
所以,关联度的数量可以为多条。然而,若指示一种名称的告警引起另一种名称的告警的可能性,则多条关联度中难免会存在可能性较小的关联度,则表示关联度所指示的两种名称的告警间的关联性较差。若采用可能性较小的关联度对实时告警流进行筛选,则可能过滤掉能够反映故障根源的部分告警记录。
为此,可以将多条关联度中可能性较小的关联度剔除掉。
作为一种实现方式,告警间的关联度的数量为多条,每条关联度指示一种名称的告警引起另一种名称的告警的可能性。
在基于告警属性图生成告警间的关联度之后,方法还包括:
从多条关联度中筛选出关联度大于目标阈值的至少一条关联度。
其中,目标阈值可以根据实际情况进行设定,本申请实施例对此不做具体限定。
在本申请实施例中,通过目标阈值对生成的多条关联度进行筛选,然后利用筛选后的关联度对实时告警流进行筛选,从而防止利用可能性较小的关联度对实时告警流进行筛选,而导致一些能够反映故障的重要告警被过滤掉。
另外,基于前述说明可知,对于第一名称的告警和第二名称的告警,关联度可以指示第一名称的告警引起第二名称的告警的可能性,也可以指示第二名称的告警引起第一名称的告警的可能性。
所以在生成的关联度中,可能同时存在两种名称的告警间的两条关联度,此时,则可以筛选出一条关联度。具体地,可以在从多条关联度中筛选出关联性大于目标阈值的至少一条关联度之前,对多条关联度进行初步筛选,使得筛选后的关联度中,仅存在对于两种名称的告警间一条关联度。
需要说明的是,初步筛选的规则可以有多种。例如,当第一名称的告警出现的设备的类型和第二名称的告警出现的设备的类型相同时,可以筛选出第一名称的告警和第二名称的告警间两条关联度中可能性较大的一条关联度。
例如,当第一名称的告警出现的设备的类型和第二名称的告警出现的设备的类型不同时,可以根据第一名称的告警出现的设备和第二名称的告警出现的设备在通信网络中的相对位置进行初步筛选。具体地,若第一名称的告警出现的设备与核心网之间的距离,比第二名称的告警出现的设备与核心网之间的距离小,那么通常会保留指示第一名称的告警引起第二名称的告警的可能性的关联度,而舍弃掉指示第二名称的告警引起第一名称的告警的可能性的关联度。
因此,如图11所示,筛选多条关联度过程可以包括:先将多条关联度按可能性进行排序,然后按照初步筛选的规则进行初步筛选,最后利用目标阈值进行筛选。
在上述实施例中,利用目标阈值对多条关联度进行筛选,而目标阈值的确定方法有多种,例如可以根据工作人员的经验确定目标阈值,还可以采用下面的方法确定目标阈值。
如图12所示,作为一种实现的方式,在基于告警属性图生成告警间的关联度之后,在从多条关联度中筛选出关联度大于阈值的至少一条关联度之前,方法还包括:
步骤501,根据告警间的多个关联度确定,关联度位于多个阈值范围中每个阈值范围内的关联度的数量。
例如,可以预先设定关联度的多个阈值范围,每个阈值范围的长度可以根据实际需要进行调整;然后统计多条关联度中,位于各个阈值范围内的关联度的数量。
步骤502,通过每个阈值范围内告警间的关联度的数量确定目标阈值。
其中,可以采用多种方法确定目标阈值,例如,可以通过肘部法则和每个阈值范围内告警间的关联度的数量确定目标阈值。
肘部法则用于反映畸变程度的改善效果的变化情况,畸变程度的改善效果下降幅度变慢的位置就是肘部。
例如,对应下面一组二维数据(1,20)、(2,16)、(3,11)、(4,7)、(5,6)、(6,5),其中,二维数据的纵坐标用于反映畸变程度的改善效果。可以看出,随着横坐标的增大,纵坐标逐渐降低,且纵坐标的降低幅度分别为20-16=4、16-11=5、11-7=4、7-6=1、6-5=1,由此可以看出,当横坐标为5时,纵坐标的降低幅度为1,明显小于横坐标为4时的纵坐标的降低幅度4,所以横坐标5的位置则为肘部。
在本申请实施例中,肘部法则反映的是每个阈值范围内告警间的关联度的数量的变化情况。
如图13所示,横坐标表示关联度的阈值范围,纵坐标表示每个阈值范围内告警间的关联度的数量。在图13中,关联度的取值从0至0.99,每间隔0.045为一个阈值范围,因此图13中包含22个关联度的阈值范围。统计多条关联度中位于这22个阈值范围中每个阈值范围内的关联度的数量。
从图13中可以看出,随着关联度的增大,每个阈值范围内的关联度的数量逐渐减少。例如,阈值范围(0,0.045]内的关联度的数量大致为1000,阈值范围(0.045,0.099]内的关联度的数量大致为300,阈值范围(0.099,0.135]内的关联度的数量大致为200,阈值范围(0.135,0.18]内的关联度的数量大致为130,阈值范围(0.18,0.225]内的关联度的数量大致为100。关联度减少的幅度依次为100-300=700、300-200=100、200-130=70、130-100=30,由此可以看出,当阈值范围为(0.135,0.18]时,关联度的数量的减少幅度变小、减少速度变慢,所以阈值范围(0.135,0.18]为肘部。需要说明的是,在确定对应肘部的阈值范围后,根据从对应肘部的阈值范围内选取一个关联度作为目标阈值。
其中,选取方法有多种,本申请实施例对此不做限定。例如,可以选取阈值范围的边界点作为目标阈值,具体地,在上述示例中,对应肘部的阈值范围为阈值范围(0.135,0.18],所以可以将0.135作为目标阈值。此外,也可以从阈值范围内随机选取一个值作为目标阈值。
在本申请实施例中,若利用肘部规则确定目标阈值,则筛选关联度的过程可以如图14所示。该过程包括:
在得到告警间的多个关联度后,可以统计关联度在各个阈值范围内的频次,然后使用肘部法则确定目标阈值;接着,利用目标阈值对多个关联度进行筛选。
可以理解的是,利用目标阈值筛选后的关联度在覆盖率和准确率方面可能也不满足要求。因此,该过程中还包括:
判断是否对筛选后的关联度进行确认。
若对筛选后的关联度进行确认,则确认过程包括确定筛选后的关联度的覆盖率和准确率是否满足要求;在满足要求的情况下,得到最终的告警间的关联度,在不满足要求的情况下,可以人工对筛选后的关联度进行调整,然后再次对调整后的关联度进行确认,直到筛选后的关联度满足要求。
若不对筛选后的关联度确认,则直接将筛选后的关联度作为最终的告警间的关联度。
在上述过程中,准确率是指利用筛选后的告警间的关联度中,正确的告警间的关联度占所有告警间的关联度的比例,覆盖率可以理解为能够利用筛选后的关联度筛选告警记录的设备占目标网络中所有设备的比例。
下面通过具体的试验结果体现本申请实施例提供的方法的较优效果。
试验一:申请人使用本申请实施例的方法生成某一通信网络的告警的关联度,其中包含跨设备中的告警的关联度和单设备中告警的关联度,具体如表二所示。
表二
关联度分布 总数量 正确的数量 准确率
跨设备 171 157 91.8%
单设备 128 112 87.5%
如表二所示,跨设备中的告警的关联度且数量为171,单设备中告警的关联度且数量为128;申请人对上述两种告警的关联度的正确性进行了验证,跨设备中的告警的关联度中正确的数量为157,准确率则为157/171=91.8%,单设备中告警的关联度中正确的数量为112,准确率则为112/128=87.5%。
由试验一的结果可以看出,本申请实施例提供的方法生成的告警间的关联度的准确率较高。
试验二:申请人使用本申请实施例的方法生成某一通信网络的告警的关联度,然后利用生成的告警的关联度对该通信网络中的告警记录进行筛选,筛选结果如下表三所示。
表三
告警压缩流程 剩余的告警记录的数量
原始告警记录 4481273
预处理 992966
跨域压缩 874770
单域跨设备压缩 756316
单域单设备压缩 590307
如上表三所示,原始告警记录的数量为4481273;在构建告警属性图的过程中对原始告警记录进行了预处理,剩余的告警记录的数量为992966;接着,利用不同类型的不同设备上的告警间的关联度对告警记录进行跨域压缩,此时剩余的告警记录的数量为874770;此后,利用同类型的不同设备上的告警间的关联度对告警记录进行单域跨设备压缩,此时剩余的告警记录的数量为756316;最后,利用单设备上的告警间的关联度对告警记录进行单域单设备压缩,此时剩余的告警记录的数量为590307。
由试验二的结果可以看出,采用本申请实施例提供的方法生成的告警间的关联度对告警记录进行压缩,压缩率为(1-590307/4481273)=88%,因此采用本申请实施例提供的方法生成的告警间的关联度压缩告警记录的效果较好。试验三:申请人采用现有的方法生成告警间的关联度,并利用生成的告警间的关联度对某一通信网络中的告警记录进行压缩;并且,申请人使用本申请实施例的方法生成某一通信网络的告警的关联度,然后利用生成的告警的关联度对该通信网络中的告警记录进行压缩,两种方法的压缩结果如表四所示。
表四
Figure BDA0002834587290000211
由表4可以看出,采用现有的方法生成的跨设备的告警的关联度,压缩的告警记录的数量为65151,采用本申请生成的跨设备的告警的关联度,压缩的告警记录的数量为118196,本申请与现有的方法相比,提升度为(118196-65151)/65151=87%;采用现有的方法生成的单设备的告警的关联度,压缩的告警记录的数量为39603,采用本申请生成的单设备的告警的关联度,压缩的告警记录的数量为44548,本申请与现有的方法相比,提升度为(44548-39603)/39603=87%。
由试验三的结果可以看出,采用本申请实施例提供的方法生成的告警间的关联度压缩告警记录的效果,较采用现有的方法生成的告警间的关联度压缩告警记录的效果好。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
请参阅图15,本申请实施例提供了一种告警处理装置的一个实施例,该告警处理装置可以包含于图1所示的通信系统的网络中心,具体包括:
获取单元601,用于获取目标网络的多条告警记录,目标网络包括多个设备,每条告警记录包含告警的名称、告警出现的时间和告警出现的设备的标识;
获取单元601还用于获取目标网络的拓扑数据,拓扑数据包括多个设备的类型信息和多个设备的通信连接关系;
告警属性图生成单元602,用于基于多条告警记录和拓扑数据生成告警属性图,告警属性图包括多个设备的标识、多个设备的通信连接关系、多个设备的类型信息和多个设备的告警属性信息,每个设备的告警属性信息包括设备中出现的告警的名称和设备中每个告警出现的时间;
关联度生成单元603,用于基于告警属性图获取告警间的关联度。
作为一种实现方式,告警处理装置还包括:过滤单元604,用于基于告警间的关联度过滤冗余告警。
作为一种实现方式,关联度生成单元603,用于根据告警属性图确定至少一组设备,至少一组设备中的每组设备包括至少一个设备且满足第一目标条件;根据至少一组设备中每个设备的告警属性信息,确定满足第一目标条件的一组设备中出现的两个告警间的关联度。
作为一种实现方式,第一目标条件包括:每组设备包括一个设备且每组设备中设备的类型为第一类型。
作为一种实现方式,第一目标条件包括:每组设备包括两个设备,每组设备中的两个设备的类型都为第一类型,且每组设备中的两个设备通信连接;关联度为满足第一目标条件的一组设备中,一个设备上出现的告警和另一个设备上出现的告警间的关联度。
作为一种实现方式,第一目标条件包括:每组设备包含两个设备,每组设备中的两个设备的类型分别为第一类型和第二类型,且每组设备中的两个设备通信连接;关联度为满足第一目标条件的一组设备中,第一类型的设备上出现的告警和第二类型的设备上出现的告警间的关联度。
作为一种实现方式,关联度生成单元603,用于根据至少一组设备中每个设备的告警属性信息确定每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数,以及第一名称的告警与第二名称的告警协同出现的次数,确定协同出现的规则为第一名称的告警出现的时间与第二名称的告警出现的时间满足第二目标条件;基于每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及第一名称的告警与第二名称的告警协同出现的次数,确定满足第一目标条件的一组设备中出现的第一名称的告警和第二名称的告警间的关联度。
作为一种实现方式,第二目标条件包括:第一名称的告警出现的时间与第二名称的告警出现的时间的差值的绝对值小于预设时长。
作为一种实现方式,关联度生成单元603,用于基于每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及第一名称的告警与第二名称的告警协同出现的次数,确定至少一组设备中第一名称的告警出现的总次数、第二名称的告警出现的总次数以及第一名称的告警与第二名称的告警协同出现的总次数;基于第一名称的告警出现的总次数、第二名称的告警出现的总次数、第一名称的告警与第二名称的告警协同出现的总次数以及目标公式,确定满足第一目标条件的一组设备中出现的第一名称的告警和第二名称的告警间的关联度,关联度指示第一名称的告警引起第二名称的告警的可能性,或第二名称的告警引起第一名称的告警的可能性;目标公式为非对称的度量公式。
作为一种实现方式,关联度指示第一名称的告警引起第二名称的告警的可能性;目标公式包括:
Figure BDA0002834587290000231
PAtoB表示第一名称的告警引起第二名称的告警的可能性,Y为大于或等于2的常数,nA表示第一名称的告警出现的总次数,nB表示第二名称的告警出现的总次数,nAB表示第一名称的告警与第二名称的告警协同出现的总次数。
作为一种实现方式,获取单元601,用于根据目标网络的设备路径日志获取目标网络的拓扑数据,设备路径日志中包含至少一条通信路径的数据,至少一条通信路径包含多个设备,每条通信路径包含多个通信连接的设备,每条通信路径的数据包含多个通信连接的设备的标识以及多个通信连接的设备的类型信息。
作为一种实现方式,告警间的关联度的数量为多个,每个关联度指示一种名称的告警引起另一种名称的告警的可能性;告警处理装置还包括:关联度筛选单元605,用于从多个关联度中筛选出关联度大于目标阈值的至少一条关联度。
作为一种实现方式,关联度筛选单元605用于根据告警间的多个关联度确定,关联度位于多个阈值范围中每个阈值范围内的关联度的数量;通过每个阈值范围内告警间的关联度的数量确定目标阈值。
作为一种实现方式,获取单元601用于,获取目标网络在目标时间段内产生的多条告警记录。
作为一种实现方式,目标时间段为一个月。
图16是本申请实施例提供的一种计算机设备结构示意图,该计算机设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在计算机设备700上执行存储介质730中的一系列指令操作。
计算机设备700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由计算机设备所执行的步骤可以基于该图16所示的计算机设备结构。
其中,CPU 722用于执行如下步骤:
获取目标网络的多条告警记录,目标网络包括多个设备,每条告警记录包含告警的名称、告警出现的时间和告警出现的设备的标识;
获取目标网络的拓扑数据,拓扑数据包括多个设备的类型信息和多个设备的通信连接关系;
基于多条告警记录和拓扑数据生成告警属性图,告警属性图包括多个设备的标识、多个设备的通信连接关系、多个设备的类型信息和多个设备的告警属性信息,每个设备的告警属性信息包括设备中出现的告警的名称和设备中每种名称的告警出现的时间;
基于告警属性图获取告警间的关联度。
本实施例中,处理器722中的具体功能模块划分可以与前述图15中所描述的功能模块划分方式类似,此处不再赘述。
本申请实施例还提供一种芯片,包括一个或多个处理器。所述处理器中的部分或全部用于读取并执行存储器中存储的计算机程序,以执行图2、图3、图6、图7、图8、图9、图11、图12和图14对应的各实施例的方法。
可选地,该芯片该包括存储器,该存储器与该处理器通过电路或电线与存储器连接。进一步可选地,该芯片还包括通信接口,处理器与该通信接口连接。通信接口用于接收需要处理的数据和/或信息,处理器从该通信接口获取该数据和/或信息,并对该数据和/或信息进行处理,并通过该通信接口输出处理结果。该通信接口可以是输入输出接口。
在一些实现方式中,所述一个或多个处理器中还可以有部分处理器是通过专用硬件的方式来实现以上方法中的部分步骤,例如涉及神经网络模型的处理可以由专用神经网络处理器或图形处理器来实现。
本申请实施例提供的方法可以由一个芯片实现,也可以由多个芯片协同实现。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质用于储存为上述计算机设备所用的计算机软件指令,其包括用于执行为计算机设备所设计的程序。
该计算机设备可以如前述图15所描述的告警处理装置。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,该计算机软件指令可通过处理器进行加载来实现前述图2、图3、图6、图7、图8、图9、图11、图12和图14所示的方法中的流程。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (30)

1.一种告警处理方法,其特征在于,包括:
获取目标网络的多条告警记录,所述目标网络包括多个设备,每条告警记录包含告警的名称、告警出现的时间和告警出现的设备的标识;
获取所述目标网络的拓扑数据,所述拓扑数据包括所述多个设备的类型信息和所述多个设备的通信连接关系;
基于所述多条告警记录和所述拓扑数据生成告警属性图,所述告警属性图包括所述多个设备的标识、所述多个设备的通信连接关系、所述多个设备的类型信息和所述多个设备的告警属性信息,每个设备的告警属性信息包括设备中出现的告警的名称和设备中每个告警出现的时间;
基于所述告警属性图获取告警间的关联度。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于所述告警间的关联度过滤冗余告警。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述告警属性图获取告警间的关联度包括:
根据所述告警属性图确定至少一组设备,所述至少一组设备中的每组设备包括至少一个设备且满足第一目标条件;
根据所述至少一组设备中每个设备的告警属性信息,确定满足所述第一目标条件的一组设备中出现的两个告警间的关联度。
4.根据权利要求3所述的方法,其特征在于,所述第一目标条件包括:
每组设备包括一个设备且每组设备中设备的类型为第一类型。
5.根据权利要求3所述的方法,其特征在于,所述第一目标条件包括:每组设备包括两个设备,每组设备中的两个设备的类型都为第一类型,且每组设备中的两个设备通信连接;
所述关联度为满足所述第一目标条件的一组设备中,一个设备上出现的告警和另一个设备上出现的告警间的关联度。
6.根据权利要求3所述的方法,其特征在于,所述第一目标条件包括:
每组设备包含两个设备,每组设备中的两个设备的类型分别为第一类型和第二类型,且每组设备中的两个设备通信连接;
所述关联度为满足所述第一目标条件的一组设备中,所述第一类型的设备上出现的告警和所述第二类型的设备上出现的告警间的关联度。
7.根据权利要求3所述的方法,其特征在于,所述根据所述至少一组设备中每个设备的告警属性信息,确定满足所述第一目标条件的一组设备中出现的两个告警间的关联度包括:
根据所述至少一组设备中每个设备的告警属性信息确定每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数,以及所述第一名称的告警与所述第二名称的告警协同出现的次数,确定协同出现的规则为所述第一名称的告警出现的时间与所述第二名称的告警出现的时间满足第二目标条件;
基于所述每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及所述第一名称的告警与所述第二名称的告警协同出现的次数,确定满足所述第一目标条件的一组设备中出现的所述第一名称的告警和所述第二名称的告警间的关联度。
8.根据权利要求7所述的方法,其特征在于,所述第二目标条件包括:
所述第一名称的告警出现的时间与所述第二名称的告警出现的时间的差值的绝对值小于预设时长。
9.根据权利要求7或8所述的方法,其特征在于,所述基于所述每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及所述第一名称的告警与所述第二名称的告警协同出现的次数,确定满足所述第一目标条件的一组设备中出现的所述第一名称的告警和所述第二名称的告警间的关联度包括:
基于所述每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及所述第一名称的告警与所述第二名称的告警协同出现的次数,确定所述至少一组设备中第一名称的告警出现的总次数、第二名称的告警出现的总次数以及所述第一名称的告警与所述第二名称的告警协同出现的总次数;
基于所述第一名称的告警出现的总次数、所述第二名称的告警出现的总次数、所述第一名称的告警与所述第二名称的告警协同出现的总次数以及目标公式,确定满足所述第一目标条件的一组设备中出现的所述第一名称的告警和所述第二名称的告警间的关联度,所述关联度指示所述第一名称的告警引起所述第二名称的告警的可能性,或所述第二名称的告警引起所述第一名称的告警的可能性;
所述目标公式为非对称的度量公式。
10.根据权利要求9所述的方法,其特征在于,所述关联度指示所述第一名称的告警引起所述第二名称的告警的可能性;
所述目标公式包括:
Figure FDA0003462821580000021
PAtoB表示所述第一名称的告警引起所述第二名称的告警的可能性,Y为大于或等于2的常数,nA表示所述第一名称的告警出现的总次数,nB表示所述第二名称的告警出现的总次数,nAB表示所述第一名称的告警与所述第二名称的告警协同出现的总次数。
11.根据权利要求1、2、4至8、10中任意一项所述的方法,其特征在于,所述获取所述目标网络的拓扑数据包括:
根据所述目标网络的设备路径日志获取所述目标网络的拓扑数据,所述设备路径日志中包含至少一条通信路径的数据,所述至少一条通信路径包含所述多个设备,每条通信路径包含多个通信连接的设备,每条通信路径的数据包含所述多个通信连接的设备的标识以及所述多个通信连接的设备的类型信息。
12.根据权利要求1、2、4至8、10中任意一项所述的方法,其特征在于,所述告警间的关联度的数量为多个,每个关联度指示一种名称的告警引起另一种名称的告警的可能性;
在所述基于所述告警属性图获取告警间的关联度之后,所述方法还包括:
从多个关联度中筛选出关联度大于目标阈值的至少一条关联度。
13.根据权利要求12所述的方法,其特征在于,在所述基于所述告警属性图获取告警间的关联度之后,在所述从多条关联度中筛选出可能性大于阈值的至少一条关联度之前,所述方法还包括:
根据告警间的多个关联度确定,关联度位于多个阈值范围中每个阈值范围内的关联度的数量;
通过每个阈值范围内告警间的关联度的数量确定所述目标阈值。
14.根据权利要求1、2、4至8、10、13中任意一项所述的方法,其特征在于,所述获取目标网络的多条告警记录包括:
获取目标网络在目标时间段内产生的多条告警记录。
15.一种告警处理装置,其特征在于,包括:
获取单元,用于获取目标网络的多条告警记录,所述目标网络包括多个设备,每条告警记录包含告警的名称、告警出现的时间和告警出现的设备的标识;
所述获取单元还用于获取所述目标网络的拓扑数据,所述拓扑数据包括所述多个设备的类型信息和所述多个设备的通信连接关系;
告警属性图生成单元,用于基于所述多条告警记录和所述拓扑数据生成告警属性图,所述告警属性图包括所述多个设备的标识、所述多个设备的通信连接关系、所述多个设备的类型信息和所述多个设备的告警属性信息,每个设备的告警属性信息包括设备中出现的告警的名称和设备中每个告警出现的时间;
关联度生成单元,用于基于所述告警属性图获取告警间的关联度。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:过滤单元,用于基于所述告警间的关联度过滤冗余告警。
17.根据权利要求15或16所述的装置,其特征在于,所述关联度生成单元,用于根据所述告警属性图确定至少一组设备,所述至少一组设备中的每组设备包括至少一个设备且满足第一目标条件;
根据所述至少一组设备中每个设备的告警属性信息,确定满足所述第一目标条件的一组设备中出现的两个告警间的关联度。
18.根据权利要求17所述的装置,其特征在于,所述第一目标条件包括:
每组设备包括一个设备且每组设备中设备的类型为第一类型。
19.根据权利要求17所述的装置,其特征在于,所述第一目标条件包括:每组设备包括两个设备,每组设备中的两个设备的类型都为第一类型,且每组设备中的两个设备通信连接;
所述关联度为满足所述第一目标条件的一组设备中,一个设备上出现的告警和另一个设备上出现的告警间的关联度。
20.根据权利要求17所述的装置,其特征在于,所述第一目标条件包括:
每组设备包含两个设备,每组设备中的两个设备的类型分别为第一类型和第二类型,且每组设备中的两个设备通信连接;
所述关联度为满足所述第一目标条件的一组设备中,所述第一类型的设备上出现的告警和所述第二类型的设备上出现的告警间的关联度。
21.根据权利要求17所述的装置,其特征在于,所述关联度生成单元,用于根据所述至少一组设备中每个设备的告警属性信息确定每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数,以及所述第一名称的告警与所述第二名称的告警协同出现的次数,确定协同出现的规则为所述第一名称的告警出现的时间与所述第二名称的告警出现的时间满足第二目标条件;
基于所述每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及所述第一名称的告警与所述第二名称的告警协同出现的次数,确定满足所述第一目标条件的一组设备中出现的所述第一名称的告警和所述第二名称的告警间的关联度。
22.根据权利要求21所述的装置,其特征在于,所述第一名称的告警出现的时间与所述第二名称的告警出现的时间的差值的绝对值小于预设时长。
23.根据权利要求21或22所述的装置,其特征在于,所述关联度生成单元,用于基于所述每组设备中第一名称的告警出现的次数、第二名称的告警出现的次数以及所述第一名称的告警与所述第二名称的告警协同出现的次数,确定所述至少一组设备中第一名称的告警出现的总次数、第二名称的告警出现的总次数以及所述第一名称的告警与所述第二名称的告警协同出现的总次数;
基于所述第一名称的告警出现的总次数、所述第二名称的告警出现的总次数、所述第一名称的告警与所述第二名称的告警协同出现的总次数以及目标公式,确定满足所述第一目标条件的一组设备中出现的所述第一名称的告警和所述第二名称的告警间的关联度,所述关联度指示所述第一名称的告警引起所述第二名称的告警的可能性,或所述第二名称的告警引起所述第一名称的告警的可能性;
所述目标公式为非对称的度量公式。
24.根据权利要求23所述的装置,其特征在于,所述关联度指示所述第一名称的告警引起所述第二名称的告警的可能性;
所述目标公式包括:
Figure FDA0003462821580000041
PAtoB表示所述第一名称的告警引起所述第二名称的告警的可能性,Y为大于或等于2的常数,nA表示所述第一名称的告警出现的总次数,nB表示所述第二名称的告警出现的总次数,nAB表示所述第一名称的告警与所述第二名称的告警协同出现的总次数。
25.根据权利要求15、16、18至22、24中任意一项所述的装置,其特征在于,所述获取单元,用于根据所述目标网络的设备路径日志获取所述目标网络的拓扑数据,所述设备路径日志中包含至少一条通信路径的数据,所述至少一条通信路径包含所述多个设备,每条通信路径包含多个通信连接的设备,每条通信路径的数据包含所述多个通信连接的设备的标识以及所述多个通信连接的设备的类型信息。
26.根据权利要求15、16、18至22、24中任意一项所述的装置,其特征在于,所述告警间的关联度的数量为多个,每个关联度指示一种名称的告警引起另一种名称的告警的可能性;
所述装置还包括:关联度筛选单元,用于从多个关联度中筛选出关联度大于目标阈值的至少一条关联度。
27.根据权利要求26所述的装置,其特征在于,关联度筛选单元,用于根据告警间的多个关联度确定,关联度位于多个阈值范围中每个阈值范围内的关联度的数量;通过每个阈值范围内告警间的关联度的数量确定目标阈值。
28.根据权利要求15、16、18至22、24、27中任意一项所述的装置,其特征在于,所述获取单元用于,获取目标网络在目标时间段内产生的多条告警记录。
29.一种计算机设备,其特征在于,包括:一个或多个处理器和存储器;其中,所述存储器中存储有计算机可读指令;
所述一个或多个处理器读取所述计算机可读指令,以使所述计算机设备实现如权利要求1至14中任一项所述的方法。
30.一种计算机可读存储介质,其特征在于,包括计算机可读指令,当所述计算机可读指令在计算机上运行时,使得所述计算机执行如权利要求1至14中任一项所述的方法。
CN202011468699.6A 2020-12-14 2020-12-14 告警处理方法、装置、设备及可读存储介质 Active CN112583644B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202011468699.6A CN112583644B (zh) 2020-12-14 2020-12-14 告警处理方法、装置、设备及可读存储介质
PCT/CN2021/129316 WO2022127435A1 (zh) 2020-12-14 2021-11-08 告警处理方法、装置、设备及可读存储介质
EP21905364.2A EP4262164A1 (en) 2020-12-14 2021-11-08 Alarm processing method and apparatus, device, and readable storage medium
US18/334,090 US20230327941A1 (en) 2020-12-14 2023-06-13 Alarm processing method and apparatus, device, and readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011468699.6A CN112583644B (zh) 2020-12-14 2020-12-14 告警处理方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112583644A CN112583644A (zh) 2021-03-30
CN112583644B true CN112583644B (zh) 2022-10-18

Family

ID=75134925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011468699.6A Active CN112583644B (zh) 2020-12-14 2020-12-14 告警处理方法、装置、设备及可读存储介质

Country Status (4)

Country Link
US (1) US20230327941A1 (zh)
EP (1) EP4262164A1 (zh)
CN (1) CN112583644B (zh)
WO (1) WO2022127435A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112583644B (zh) * 2020-12-14 2022-10-18 华为技术有限公司 告警处理方法、装置、设备及可读存储介质
CN115086148B (zh) * 2022-07-15 2024-01-30 中国电信股份有限公司 光网络告警处理方法、系统、设备及存储介质
CN115801589B (zh) * 2022-11-15 2023-07-18 北京优特捷信息技术有限公司 一种事件拓扑关系确定方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951306A (zh) * 2017-12-20 2019-06-28 中国移动通信集团湖北有限公司 告警的处理方法、装置、设备及介质
CN110247792A (zh) * 2019-05-28 2019-09-17 广东南方通信建设有限公司 一种基于网络告警关联的故障处理方法及装置
WO2019205697A1 (zh) * 2018-04-23 2019-10-31 华为技术有限公司 告警日志压缩方法、装置及系统、存储介质
CN110493042A (zh) * 2019-08-16 2019-11-22 中国联合网络通信集团有限公司 故障诊断方法、装置及服务器
CN111162945A (zh) * 2019-12-30 2020-05-15 中国移动通信集团江苏有限公司 一种告警关联关系的确定方法、装置、设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7301448B1 (en) * 2004-04-30 2007-11-27 Sprint Communications Company L.P. Method and system for deduplicating status indications in a communications network
CN102291247A (zh) * 2010-06-18 2011-12-21 中兴通讯股份有限公司 告警关联图生成方法、装置及关联告警确定方法、装置
CN105991337A (zh) * 2015-03-02 2016-10-05 中国移动通信集团广东有限公司 一种告警压缩方法及告警压缩装置
CN108156037B (zh) * 2017-12-29 2020-12-15 中国移动通信集团江苏有限公司 告警关联分析方法、装置、设备及介质
US10797938B2 (en) * 2018-06-08 2020-10-06 Accenture Global Solutions Limited Automatic monitoring, correlation, and resolution of network alarm conditions
CN109684181B (zh) * 2018-11-20 2020-08-07 华为技术有限公司 告警根因分析方法、装置、设备及存储介质
CN111294217B (zh) * 2018-12-06 2022-08-19 云智慧(北京)科技有限公司 告警分析方法、装置、系统及存储介质
CN110995482B (zh) * 2019-11-27 2022-06-21 深圳市商汤科技有限公司 告警分析方法、装置、计算机设备及计算机可读存储介质
CN111431736B (zh) * 2020-02-27 2022-05-13 华为技术有限公司 告警关联规则生成方法和装置
CN111756582B (zh) * 2020-07-07 2022-12-02 上海新炬网络技术有限公司 基于nfv日志告警的业务链监控方法
CN112583644B (zh) * 2020-12-14 2022-10-18 华为技术有限公司 告警处理方法、装置、设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951306A (zh) * 2017-12-20 2019-06-28 中国移动通信集团湖北有限公司 告警的处理方法、装置、设备及介质
WO2019205697A1 (zh) * 2018-04-23 2019-10-31 华为技术有限公司 告警日志压缩方法、装置及系统、存储介质
CN110247792A (zh) * 2019-05-28 2019-09-17 广东南方通信建设有限公司 一种基于网络告警关联的故障处理方法及装置
CN110493042A (zh) * 2019-08-16 2019-11-22 中国联合网络通信集团有限公司 故障诊断方法、装置及服务器
CN111162945A (zh) * 2019-12-30 2020-05-15 中国移动通信集团江苏有限公司 一种告警关联关系的确定方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20230327941A1 (en) 2023-10-12
EP4262164A1 (en) 2023-10-18
CN112583644A (zh) 2021-03-30
WO2022127435A1 (zh) 2022-06-23

Similar Documents

Publication Publication Date Title
CN112583644B (zh) 告警处理方法、装置、设备及可读存储介质
US20140140236A1 (en) Automated network condition identification
CN111106899B (zh) 物联网中的数据校验方法、装置、计算机设备及存储介质
CN109800259A (zh) 数据采集方法、装置及终端设备
WO2019116418A1 (ja) 障害分析装置、障害分析方法および障害分析プログラム
US20190317834A1 (en) Using and Updating Topological Relationships Amongst a Set of Nodes in Event Clustering
CN112035344A (zh) 多场景测试方法、装置、设备和计算机可读存储介质
CN104468207A (zh) 终端管理的方法、装置及系统
US10346281B2 (en) Obtaining and analyzing a reduced metric data set
CN111813503A (zh) 一种基于容器云的微服务化应用开放系统
CN114928574A (zh) 信息发送方法、装置、电子设备和计算机可读介质
CN114691662A (zh) 一种数据质量检查规则自适应方法、存储介质及系统
CN113867966A (zh) 一种混合云模式的云资源调度方法
CN113434320A (zh) 信息系统故障定位方法、装置、设备及存储介质
CN116578911A (zh) 数据处理方法、装置、电子设备及计算机存储介质
JP7173273B2 (ja) 障害分析装置、障害分析方法および障害分析プログラム
CN114866396B (zh) 基于文本相似度的实现资源不准下网络故障定位的方法
CN110908910A (zh) 一种基于区块链的测试监控方法、装置及可读存储介质
CN112994976A (zh) 一种网关测试方法、装置、电子设备及存储介质
EP4336883A1 (en) Modeling method, network element data processing method and apparatus, electronic device, and medium
CN118012832A (zh) 一种日志处理方法、装置、电子设备和可读存储介质
CN116962143B (zh) 网络故障检测方法、装置、计算机设备和存储介质
CN115333924B (zh) 宽带网络修复方法、装置、电子设备和介质
CN117667693A (zh) 一种自动化报文测试方法、装置、设备及存储介质
CN111163088B (zh) 消息处理方法、系统、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant