CN113542039A - 一种通过ai算法定位5g网络虚拟化跨层问题的方法 - Google Patents
一种通过ai算法定位5g网络虚拟化跨层问题的方法 Download PDFInfo
- Publication number
- CN113542039A CN113542039A CN202111084831.8A CN202111084831A CN113542039A CN 113542039 A CN113542039 A CN 113542039A CN 202111084831 A CN202111084831 A CN 202111084831A CN 113542039 A CN113542039 A CN 113542039A
- Authority
- CN
- China
- Prior art keywords
- alarm
- data
- alarms
- fault
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/065—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/04—Arrangements for maintaining operational condition
Abstract
本发明公开了一种通过AI算法定位5G网络虚拟化跨层问题的方法,该方法包括以下步骤:S1、对海量告警相关数据进行聚类,并结合预设的模型进行告警关联分析,实现对根告警的快速定位;S2、将根告警所属的告警分类、告警描述结合人为经验、机器学习构建的故障原因诊断能力输出导致故障告警发生的最终根因。有益效果:通过综合物理层、虚拟层、网元层、动环等告警数据,增加了数据覆盖的完整性,具有故障发现时延低、故障定位时延低及基于AI的故障定位准确率高的优点,此外,本发明还可以有效地减少无效派单,从而可以有效地提高故障派单的压缩率。
Description
技术领域
本发明涉及计算机网络技术领域,具体来说,涉及一种通过AI算法定位5G网络虚拟化跨层问题的方法。
背景技术
5G核心网是应用了NFV(网络功能虚拟化)、云化、服务化、多网融合、网络切片等技术的新一代架构。在5G 3GPP架构划分后,5G软件部分基本上都划入到5GC中(少许部分在CU)—— 原有4G EPC核心已被拆解为若干5G微服务,并采用NFV架构方式运行在通用服务器上。
基于NFV技术的5G分层解耦网络,在如何发现故障,定位故障方面存在如下难题:1)分层解耦后设备多厂家,导致NFV运维复杂化, 跨层定界定位问题困难;2)网元软件化,故障点不明确,亚健康增多,定位困难;3)多网元共享硬件,需要能快速发现甚至预测故障,通过弹性自动扩缩容、故障自愈需要分钟级的快速反应。
为了解决能定位5G网络中的VNF(虚拟化网络功能)故障根源,需要借助于5G网络本身提供的大量可分析数据,以及AI大数据发掘技术。5G网络可利用的数据,包括传输层数据(信道、频谱、用户链路)和网络层数据 (各种信令、管理数据),此外,还有各种类型的应用层数据。运营商可以基于这些数据,引入人工智能技术来应对5G网络挑战。引入人工智能技术,实现大数据分析及自适应策略决策,能够进一步优化自动化方案,帮助不断理解和预测用户和网络的需求,实现更好的故障定位定界,更好的资源编排和调度,从而逐渐实现完全的智能自治网络。智能自治网络有助于降低网络建设和运营成本,响应用户和业务的需求,创新商业模式,为运营商带来巨大的新机遇。因此,本发明提出了一种通过AI算法定位5G网络虚拟化跨层问题的方法。
发明内容
针对相关技术中的问题,本发明提出一种通过AI算法定位5G网络虚拟化跨层问题的方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种通过AI算法定位5G网络虚拟化跨层问题的方法,该方法包括以下步骤:
S1、告警关联:对海量告警相关数据进行聚类,并结合预设的模型进行告警关联分析,实现对根告警的快速定位;
S2、根故障定位:将根告警所属的告警分类、告警描述结合人为经验、机器学习构建的故障原因诊断能力输出导致故障告警发生的最终根因。
进一步的,所述S1对海量告警相关数据进行聚类,并结合预设的模型进行告警关联分析,实现对根告警的快速定位包括以下步骤:
S11、告警数据收集:收集虚拟资源告警、物理资源告警、VNF业务告警、VNF生命周期相关告名词、业务告警、NS生命周期告警、NFVI重要告警、动环设备告警,并将告警数据进行格式归一化处理;
S12、告警数据清洗:对告警数据中的无用数据、异常数据、错误数据及残缺数据进行过滤处理;
S13、告警数据聚类:对网元层、虚拟层及硬件层的告警标签进行分类处理,并将告警数据按虚拟层告警、物理层告警及网元层告警划分类型,再分别根据告警时间、告警位置及节点的维度进行数据聚类;
S14、告警关联:利用预设的跨层告警关联模型、跨层资源关联模型、告警事件关联模型实现对告警的自动关联分析;
S15、模型训练:计算告警间的支持度、置信度及不同数据集合中告警间的关联度,并采用半监督的方式对根告警进行人工标注;
S16、模型构建:建立虚拟层告警关联模型、物理层告警关联模型、网元层告警关联模型,对于NVF架构的设备,增加PIM、VIM的纵向分析,建立跨层告警关联模型,同时,根据端到端切片设备拓扑关系,建立跨专业告警关联模型。
进一步的,所述S13中对网元层、虚拟层及硬件层的告警标签进行分类处理包括以下步骤:
对网元层的告警按业务功能模块进行归类聚合;
对虚拟层的告警根据包含但不限于来自主机、虚机、主机端口、虚机端口的标签进行归类聚合;
对硬件层的告警根据包含但不限于来自存储、交换机、路由器、服务器的标签进行归类聚合。
进一步的,所述S13中将告警数据按虚拟层告警、物理层告警及网元层告警划分类型,再分别根据告警时间、告警位置及节点的维度进行数据聚类包括以下步骤:
在资源数据中,采集并抽取切片端到端的包含但不限于网元、机房、VIM、PIM、IP的资源数据及相关的告警数据,划分为数据集合;
将告警数据根据包含但不限于时间、位置、资源、层级的维度进行数据聚类,并通过预设的关键词、关键词匹配的相似度阈值,获取遍历后的告警数据集。
进一步的,所述告警数据进行数据聚类后主要信息包括:
聚类时间信息:包含但不限于聚类开始时间、聚类结束时间、时间窗宽度及滑动步长;
网元资源信息:包含但不限于网元名称、网元编码、所属专业、网元类型、网元虚实性、软件版本、网元状态、设备型号及信令点编码;
地域信息:包含但不限于省份、地市、区县、地址、所属机房及局站类型;
网络层级信息:包含但不限于DC、核心DC、边缘DC、业务网元、VNF网元与虚拟层、物理机。
进一步的,所述S15中计算告警间的支持度、置信度及不同数据集合中告警间的关联度,并采用半监督的方式对根告警进行人工标注包括以下步骤:
S151、根据时间聚类告警,计算告警发生的频率,并通过决策树FP-Growth算法算出告警间的支持度和置信度;
S152、计算不同数据集合中告警间的关联度,并从频发告警里面挖掘是否有同链路,同集合,实现置信度的提高;
S153、在没有资源数据的情况下,通过文本相似度来分析告警间数据的关联,并引入资源数据,提高告警间的置信度,定位出根告警;
S154、采用半监督的方式,对AI分析出来的根告警进行人工标注,若标注通过则记为一条根告警,若标注不通过则重新分析。
进一步的,所述S153中通过文本相似度来分析告警间数据的关联包括基于文本相似度的资源不准告警关联,其中,所述基于文本相似度的资源不准告警关联中包括对动环停电场景下的资源不准的网络设备进行标识。
进一步的,所述对动环停电场景下的资源不准的网络设备进行标识包括以下步骤:
增加离线告警分析:建立离线分析模块,按时间、区域维度构建告警数据组,对历史告警进行分类、建模、存储;
获取相关告警标题:应用离线告警推演能力,提取相关的动环告警,并在关联时间窗内,对该时间、区域维度的设备告警进行关键字提取,获取相关包含但不限于基站退服、小区中断、控制链路断、设备脱网的告警;
关键字提取:分析告警的关键信息,根据告警里面的区域信息,初步过滤不符合的设备告警,提取告警信息中包含但不限于机房名称、网元名称、IP地址、设备名称、端口、链路的信息;
圈定告警设备范围:利用关键特征权值库,匹配特征的价值权重,通过余弦算法计算关键特征的相似度,得出与机房在同一区域的退服设备;
合并重复设备数:对多次发生的动环停电告警的推演分析,合并比较每次机房停电后相同区域重复出现的设备,确定机房关联的设备,并建立相应的机房、设备关联库;
实时告警关联:通过历史告警推出的机房、设备关联度,将新发生的机房停电故障与承载的基站、OLT的退服告警相关联,合并派单;
追加派单:当停电机房已派单时,将未关联上的退服基站进行相似度计算,对未派单的退服告警,追加派单至动环告警。
进一步的,所述S2中将根告警所属的告警分类、告警描述结合人为经验、机器学习构建的故障原因诊断能力输出导致故障告警发生的最终根因包括以下步骤:
S21、工单数据清洗:解析故障工单的回单意思,去除无意义、重复词及感叹词;
S22、回单数据规整:通过识别固定词语,划分故障处理的文本,建立多种处理模型,并进行故障数据规整、故障反馈信息文本分析、灌水式回复分析、重复词文本相似度分析;
S23、构建RCA模型:通过算法计算根告警与故障间的发生频率,频率高的标记为根故障,通过设置置信度、支持度的阈值,确定告警与故障间的关联关系,构建成RCA模型;
S24、人工标注:对训练后的RCA根因进行人工标注,并进行算法调优;
S25、根故障告警定位:根据故障处理及告警经验库定位根本故障原因。
进一步的,所述S22中故障处理的文本包括故障发生的位置、故障原因、当前处理进度、预计恢复时间、现场处理人员及电话。
本发明的有益效果为:
1)、本发明对基于网络功能虚拟化技术建设的5G网络,具备告警根因定位的能力,能够首先对海量告警相关数据进行合理、高效、精准的聚类,再结合跨层告警关联模型、跨层资源关联模型、告警事件关联模型等多层次、多维度的告警关联分析,实现对根告警的快速定位,最后对根告警所属告警分类、告警描述,结合人为经验、机器学习等构建的故障原因诊断能力,最后输出导致故障告警发生的最终根因。
2)、本发明通过综合物理层、虚拟层、网元层、动环等告警数据,有效地增加了数据覆盖的完整性,且本发明具有故障发现时延低、故障定位时延低及基于AI的故障定位准确率高的优点,此外,本发明通过进行故障定位后,不再需要针对每个问题派发需要处理的故障工单,通过针对压缩、故障定位根因问题后派单,可以有效地减少无效派单,从而可以有效地提高故障派单的压缩率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种通过AI算法定位5G网络虚拟化跨层问题的方法的流程示意图;
图2是根据本发明实施例的一种通过AI算法定位5G网络虚拟化跨层问题的方法中活动告警强关联的原理示意图;
图3是根据本发明实施例的一种通过AI算法定位5G网络虚拟化跨层问题的方法中的告警根因分析流程示意图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种通过AI算法定位5G网络虚拟化跨层问题的方法。
现结合附图和具体实施方式对本发明进一步说明,如图1-3所示,根据本发明实施例的一种通过AI算法定位5G网络虚拟化跨层问题的方法,该方法包括以下步骤:
S1、告警关联:对海量告警相关数据进行聚类,并结合预设的模型进行告警关联分析,实现对根告警的快速定位;
其中,所述S1包括以下步骤:
S11、告警数据收集:收集虚拟资源告警、物理资源告警、VNF(VirtualizedNetwork Function,虚拟网络功能)业务告警、VNF生命周期相关告名词、业务告警、NS生命周期告警、NFVI(Network Function Virtualization Infrastructure,网络功能虚拟化基础设施)重要告警、动环设备告警,并将告警数据进行格式归一化处理;
S12、告警数据清洗:对告警数据中的无用数据、异常数据、错误数据及残缺数据进行过滤处理;
S13、告警数据聚类:对网元层、虚拟层及硬件层的告警标签进行分类处理,并将告警数据按虚拟层告警、物理层告警及网元层告警划分类型,再分别根据告警时间、告警位置及节点等维度进行数据聚类;
具体的,所述S13中分类标签包括:
虚拟层告警:告警码、告警标题、告警位置、VIM(Virtualised infrastructuremanager,虚拟化基础设施管理器)标识;
物理层告警:告警码、告警标题、告警位置、物理机标识;
网元层告警:告警码、告警标题、告警位置、VNF标识。
所述S13中对网元层、虚拟层及硬件层的告警标签进行分类处理包括以下步骤:
对网元层的告警按业务功能模块进行归类聚合;
对虚拟层的告警根据来自主机、虚机、主机端口、虚机端口等标签进行归类聚合;
对硬件层的告警根据来自存储、交换机、路由器、服务器等标签进行归类聚合。
所述S13中将告警数据按虚拟层告警、物理层告警及网元层告警划分类型,再分别根据告警时间、告警位置及节点的维度进行数据聚类包括以下步骤:
数据采集及预处理,在资源数据中,采集并抽取切片端到端的包含但不限于网元、机房、VIM、PIM、IP的资源数据及相关的告警数据,划分为数据集合,如同网元、同虚拟机、同物理机、同切片子网、具备拓扑关系网元;
将大量告警数据根据时间、位置、资源、层级等维度进行数据聚类,从而有效缩短告警关联分析的范围,系统提供告警数据聚类处理后的数据呈现,同时支持对聚类数据进行快速检索,能够通过预设的关键词、关键词匹配的相似度阈值,获取遍历后的告警数据集。告警数据聚类后主要信息包括:
聚类时间信息:能够呈现当前告警数据聚类过程涉及的时间窗信息,包括:聚类开始时间、聚类结束时间、时间窗宽度、滑动步长等。按滑动时间窗、场景、数据集合对告警进行分组,时间粒度可设置,如10分、5分、30秒,数据集合如同网元、同机房、同虚拟机;
网元资源信息:网元名称、网元编码、所属专业、网元类型、网元虚实性、软件版本、网元状态、设备型号及信令点编码等;
地域信息:省份、地市、区县、地址、所属机房及局站类型等;
网络层级信息:DC、核心DC、边缘DC、业务网元、VNF网元与虚拟层、物理机等。呈现当前网元所处网络层级信息,支持通过地域层级关系,支持呈现省、市内的5G核心网拓扑,支持5G核心网网元下钻,可呈现5G业务网元、VNF网元与虚拟层、物理机之间的承载关系拓扑。
S14、告警关联:在完成告警数据聚类的基础上,利用预设的跨层告警关联模型、跨层资源关联模型、告警事件关联模型实现对告警的自动关联分析,支持调用告警关联分析能力,实现主次告警关联、衍生告警关联、网元内告警关联、网元间告警关联、跨专业告警关联、跨DC告警关联、跨层资源告警关联等的关联分析,具备对告警关联分析结果的直观呈现能力;
RCA网络拓扑建立:基于域(省/市/机房等空间资源)、DC(中心DC、核心DC、边缘DC)、物理资源、虚拟资源、业务资源的网络拓扑模型,对其进行水平垂直跨层、水平跨域、水平跨DC的分析处理,通过告警、性能、日志、拔测数据,对网元特性的分析,梳理出发生告警的故障因素来源于虚拟资源、物理资源、业务资源等,建立起切片-DC-VNF-VM-HOST-逻辑网络-虚拟网络-TOR-EOR的网络拓扑,支持根因的快速定位。
S15、模型训练:计算告警间的支持度、置信度及不同数据集合中告警间的关联度,并采用半监督的方式对根告警进行人工标注;
具体的,所述S15中计算告警间的支持度、置信度及不同数据集合中告警间的关联度,并采用半监督的方式对根告警进行人工标注包括以下步骤:
S151、根据时间聚类告警,计算告警发生的频率,并通过决策树FP-Growth算法算出告警间的支持度和置信度,得出的值越高,说明告警间的关联性越大;
S152、计算不同数据集合中告警间的关联度,并从频发告警里面挖掘是否有同链路,同集合,实现置信度的提高;
S153、在没有资源数据的情况下,通过文本相似度来分析告警间数据的关联,并引入资源数据,提高告警间的置信度,定位出根告警;
基于文本相似度的资源不准告警关联:
系统支持动环停电场景下的资源不准的告警关联,并标识不准的资源信息,由人工确认是否派发至资源勘误流程。
对于机房出现停电故障,排除传输原因,由于资源不准,未能把设备退服与机房停电进行关联导致多派单的情况,系统支持按关联时间窗的设置,将停电相关的基站、OLT退服告警进行关联。并增加文本相似度算法,将停电告警出现时30分钟时间范围的基站退服、OLT退服等历史告警推演一并计算,判断资源的准确情况,并将可能存在资源不准的网络设备进行标识:
1)增加离线告警分析:建立离线分析模块,按时间、区域维度构建告警数据组,对历史告警进行分类、建模、存储。
2)获取相关告警标题:应用离线告警推演能力,如针对机房发生市电停电后,提取相关的动环告警,并在关联时间窗内,对该时间、区域维度的设备告警进行关键字提取,获取相关的基站退服、小区中断、控制链路断、设备脱网等告警。
3)关键字提取:分析告警的关键信息,根据告警里面的区域信息,初步过滤不符合的设备告警,提取告警里的机房名称、网元名称、IP地址、设备名称、端口、链路等信息。
4)圈定告警设备范围:利用关键特征权值库,匹配特征的价值权重,通过余弦算法计算关键特征的相似度,得出与机房在同一区域的退服设备。
5)合并重复设备数:对多次发生的动环停电告警的推演分析,合并比较每次机房停电后相同区域重复出现的设备,确定机房关联的设备,并建立相应的机房、设备关联库。
6)实时告警关联:通过历史告警推出的机房、设备关联度,将新发生的机房停电故障与承载的基站、OLT的退服告警相关联,合并派单。
7)追加派单:当停电机房已派单时,将未关联上的退服基站进行相似度计算,对未派单的退服告警,追加派单至动环告警。
S154、采用半监督的方式,对AI分析出来的根告警进行人工标注,若标注通过则记为一条根告警,若标注不通过则重新分析。
S16、模型构建:通过上述步骤建立虚拟层告警关联模型、物理层告警关联模型、网元层告警关联模型,对于NVF架构的设备,增加PIM、VIM的纵向分析,建立跨层告警关联模型,同时,根据端到端切片设备拓扑关系,即无线子网切片、传输子网切片、核心子网切片,建立跨专业告警关联模型。
S2、根故障定位:将根告警所属的告警分类、告警描述结合人为经验、机器学习构建的故障原因诊断能力输出导致故障告警发生的最终根因。
定位出根告警后,需对根故障的定位才能完成故障的定界定位操作。根故障的定位主要通过对历史故障工单的处理回复、告警经验库等做文本解析,通过故障单号、告警标题、处理方式、工单状态等进行故障与告警的关联分析,具体需要做的步骤是:
S21、工单数据清洗:解析故障工单的回单意思,去除无意义、重复词及感叹词,这里涉及到词库的构建;
S22、回单数据规整:运营商的故障处理回单都参照一定的规范,在有规范指导下,通过识别固定词语,划分故障处理的文本,如【故障发生的位置】、【故障原因】、【当前处理进度】、【预计恢复时间】、【现场处理人员及电话】等要素,建立多种处理模型。
故障数据规整:按专业、区域、工单类型、设备类型分类、初次定位
故障反馈信息文本分析:注意提提取关键字如位置、原因、处理进度、恢复时间等。
灌水式回复分析、重复词文本相似度分析。
S23、构建RCA模型:故障根因和处理关联分析通过算法计算根告警与故障间的发生频率,频率高的可标记为根故障,通过设置置信度、支持度的阈值,确定告警与故障间的关联关系,构建成RCA模型;
S24、人工标注:对训练后的RCA根因进行人工标注,并进行算法调优;
具体的,RCA根因模型的应用和效果如下:
模型运用:RCA根因模型建成后,需要至少三个月历史告警数据进行训练,输出的强关联告警需要人工进行审核确认,并标注正确的主子告警,反馈给模型,调优参数。最后生成关联规则入库。运用模型时,接入实时告警,匹配关联规则,进行关联。
在故障发生过程中,通常会伴随各类告警的产生,同时,针对某类故障,会有相对类似的处理流程。通过大数据分析告警、故障、处理过程之间的关联,形成通用化的根因和处理流程,对故障派单和故障处理进行参考。
根据切片的特性,进行跨专业关联和跨层关联两个维度进行告警关联,定位到根告警后,对根告警及根告警所属网元并进行智能诊断及修复。
S25、根故障告警定位:根据故障处理及告警经验库定位根本故障原因。
如图3所示,为了更好地理解本发明的上述技术方案,以下就本实施例中的告警根因分析流程进行详细说明。
一、告警规则挖掘阶段:
1、历史告警数据获取:主要通过离线方式获取历史告警数据。
2、历史告警数据预处理:将历史告警数据清洗、过滤、资源关联、数据聚类。
3、告警关联规则树建立:根据数据聚类结果建立关联矩阵,算出置信度、支持度等,最后形成规则树。
4、告警关联规则树入库:将告警关联规则树及其参数存储到关联规则库中。
5、关键的参数属性。
二、告警根因分析阶段:
1、实时告警数据获取:根因分析主要根据已经过过滤、标准化、预处理的告警数据。同时还包含告警相关的资源等数据获取。
2、告警数据聚类:将告警数据根据时间、位置、专业、层级等维度进行聚类。
3、资源信息关联:依据告警网络拓扑、业务信息、告警层次信息、告警优先级信息、相关网元信息、物理设备信息关联。
4、遍历规则树:根据训练好的规则树,将已经聚类的告警数据遍历判断,属于规则树中的哪一个层级。
5、定位根源告警:遍历规则树后,若告警数据是顶层告警,即可判断该告警为根源告警,其他为衍生告警。
6、故障原因定位:依据故障告警知识图谱,将确定的根源告警进行搜索,寻找故障原因。
7、决策建议生成:找到故障原因后,搜索故障处理知识库,找寻历史的解决故障方法,生成决策建议。
8、告警派单:将处理分析的结果和决策建议发送给相关人员进行派单。
9、告警派单:将处理分析的结果和决策建议发送给相关人员进行派单。
综上所述,借助于本发明的上述技术方案,本发明对基于网络功能虚拟化技术建设的5G网络,具备告警根因定位的能力,能够首先对海量告警相关数据进行合理、高效、精准的聚类,再结合跨层告警关联模型、跨层资源关联模型、告警事件关联模型等多层次、多维度的告警关联分析,实现对根告警的快速定位,最后对根告警所属告警分类、告警描述,结合人为经验、机器学习等构建的故障原因诊断能力,最后输出导致故障告警发生的最终根因。
此外,本发明通过综合物理层、虚拟层、网元层、动环等告警数据,有效地增加了数据覆盖的完整性,且本发明具有故障发现时延低、故障定位时延低及基于AI的故障定位准确率高的优点,此外,本发明通过进行故障定位后,不再需要针对每个问题派发需要处理的故障工单,通过针对压缩、故障定位根因问题后派单,可以有效地减少无效派单,从而可以有效地提高故障派单压缩率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种通过AI算法定位5G网络虚拟化跨层问题的方法,其特征在于,该方法包括以下步骤:
S1、告警关联:对海量告警相关数据进行聚类,并结合预设的模型进行告警关联分析,实现对根告警的快速定位;
S2、根故障定位:将根告警所属的告警分类、告警描述结合人为经验、机器学习构建的故障原因诊断能力输出导致故障告警发生的最终根因。
2.根据权利要求1所述的一种通过AI算法定位5G网络虚拟化跨层问题的方法,其特征在于,所述S1对海量告警相关数据进行聚类,并结合预设的模型进行告警关联分析,实现对根告警的快速定位包括以下步骤:
S11、告警数据收集:收集虚拟资源告警、物理资源告警、VNF业务告警、VNF生命周期相关告名词、业务告警、NS生命周期告警、NFVI重要告警、动环设备告警,并将告警数据进行格式归一化处理;
S12、告警数据清洗:对告警数据中的无用数据、异常数据、错误数据及残缺数据进行过滤处理;
S13、告警数据聚类:对网元层、虚拟层及硬件层的告警标签进行分类处理,并将告警数据按虚拟层告警、物理层告警及网元层告警划分类型,再分别根据告警时间、告警位置及节点的维度进行数据聚类;
S14、告警关联:利用预设的跨层告警关联模型、跨层资源关联模型、告警事件关联模型实现对告警的自动关联分析;
S15、模型训练:计算告警间的支持度、置信度及不同数据集合中告警间的关联度,并采用半监督的方式对根告警进行人工标注;
S16、模型构建:建立虚拟层告警关联模型、物理层告警关联模型、网元层告警关联模型,对于NVF架构的设备,增加PIM、VIM的纵向分析,建立跨层告警关联模型,同时,根据端到端切片设备拓扑关系,建立跨专业告警关联模型。
3.根据权利要求2所述的一种通过AI算法定位5G网络虚拟化跨层问题的方法,其特征在于,所述S13中对网元层、虚拟层及硬件层的告警标签进行分类处理包括以下步骤:
对网元层的告警按业务功能模块进行归类聚合;
对虚拟层的告警根据包含但不限于来自主机、虚机、主机端口、虚机端口的标签进行归类聚合;
对硬件层的告警根据包含但不限于来自存储、交换机、路由器、服务器的标签进行归类聚合。
4.根据权利要求2所述的一种通过AI算法定位5G网络虚拟化跨层问题的方法,其特征在于,所述S13中将告警数据按虚拟层告警、物理层告警及网元层告警划分类型,再分别根据告警时间、告警位置及节点的维度进行数据聚类包括以下步骤:
在资源数据中,采集并抽取切片端到端的包含但不限于网元、机房、VIM、PIM、IP的资源数据及相关的告警数据,划分为数据集合;
将告警数据根据包含但不限于时间、位置、资源、层级的维度进行数据聚类,并通过预设的关键词、关键词匹配的相似度阈值,获取遍历后的告警数据集。
5.根据权利要求4所述的一种通过AI算法定位5G网络虚拟化跨层问题的方法,其特征在于,所述告警数据进行数据聚类后主要信息包括:
聚类时间信息:包含但不限于聚类开始时间、聚类结束时间、时间窗宽度及滑动步长;
网元资源信息:包含但不限于网元名称、网元编码、所属专业、网元类型、网元虚实性、软件版本、网元状态、设备型号及信令点编码;
地域信息:包含但不限于省份、地市、区县、地址、所属机房及局站类型;
网络层级信息:包含但不限于DC、核心DC、边缘DC、业务网元、VNF网元与虚拟层、物理机。
6.根据权利要求2所述的一种通过AI算法定位5G网络虚拟化跨层问题的方法,其特征在于,所述S15中计算告警间的支持度、置信度及不同数据集合中告警间的关联度,并采用半监督的方式对根告警进行人工标注包括以下步骤:
S151、根据时间聚类告警,计算告警发生的频率,并通过决策树FP-Growth算法算出告警间的支持度和置信度;
S152、计算不同数据集合中告警间的关联度,并从频发告警里面挖掘是否有同链路,同集合,实现置信度的提高;
S153、在没有资源数据的情况下,通过文本相似度来分析告警间数据的关联,并引入资源数据,提高告警间的置信度,定位出根告警;
S154、采用半监督的方式,对AI分析出来的根告警进行人工标注,若标注通过则记为一条根告警,若标注不通过则重新分析。
7.根据权利要求6所述的一种通过AI算法定位5G网络虚拟化跨层问题的方法,其特征在于,所述S153中通过文本相似度来分析告警间数据的关联包括基于文本相似度的资源不准告警关联,其中,所述基于文本相似度的资源不准告警关联中包括对动环停电场景下的资源不准的网络设备进行标识。
8.根据权利要求7所述的一种通过AI算法定位5G网络虚拟化跨层问题的方法,其特征在于,所述对动环停电场景下的资源不准的网络设备进行标识包括以下步骤:
增加离线告警分析:建立离线分析模块,按时间、区域维度构建告警数据组,对历史告警进行分类、建模、存储;
获取相关告警标题:应用离线告警推演能力,提取相关的动环告警,并在关联时间窗内,对该时间、区域维度的设备告警进行关键字提取,获取相关包含但不限于基站退服、小区中断、控制链路断、设备脱网的告警;
关键字提取:分析告警的关键信息,根据告警里面的区域信息,初步过滤不符合的设备告警,提取告警信息中包含但不限于机房名称、网元名称、IP地址、设备名称、端口、链路的信息;
圈定告警设备范围:利用关键特征权值库,匹配特征的价值权重,通过余弦算法计算关键特征的相似度,得出与机房在同一区域的退服设备;
合并重复设备数:对多次发生的动环停电告警的推演分析,合并比较每次机房停电后相同区域重复出现的设备,确定机房关联的设备,并建立相应的机房、设备关联库;
实时告警关联:通过历史告警推出的机房、设备关联度,将新发生的机房停电故障与承载的基站、OLT的退服告警相关联,合并派单;
追加派单:当停电机房已派单时,将未关联上的退服基站进行相似度计算,对未派单的退服告警,追加派单至动环告警。
9.根据权利要求1所述的一种通过AI算法定位5G网络虚拟化跨层问题的方法,其特征在于,所述S2中将根告警所属的告警分类、告警描述结合人为经验、机器学习构建的故障原因诊断能力输出导致故障告警发生的最终根因包括以下步骤:
S21、工单数据清洗:解析故障工单的回单意思,去除无意义、重复词及感叹词;
S22、回单数据规整:通过识别固定词语,划分故障处理的文本,建立多种处理模型,并进行故障数据规整、故障反馈信息文本分析、灌水式回复分析、重复词文本相似度分析;
S23、构建RCA模型:通过算法计算根告警与故障间的发生频率,频率高的标记为根故障,通过设置置信度、支持度的阈值,确定告警与故障间的关联关系,构建成RCA模型;
S24、人工标注:对训练后的RCA根因进行人工标注,并进行算法调优;
S25、根故障告警定位:根据故障处理及告警经验库定位根本故障原因。
10.根据权利要求9所述的一种通过AI算法定位5G网络虚拟化跨层问题的方法,其特征在于,所述S22中故障处理的文本包括故障发生的位置、故障原因、当前处理进度、预计恢复时间、现场处理人员及电话。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111084831.8A CN113542039A (zh) | 2021-09-16 | 2021-09-16 | 一种通过ai算法定位5g网络虚拟化跨层问题的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111084831.8A CN113542039A (zh) | 2021-09-16 | 2021-09-16 | 一种通过ai算法定位5g网络虚拟化跨层问题的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113542039A true CN113542039A (zh) | 2021-10-22 |
Family
ID=78092674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111084831.8A Pending CN113542039A (zh) | 2021-09-16 | 2021-09-16 | 一种通过ai算法定位5g网络虚拟化跨层问题的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113542039A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114070717A (zh) * | 2021-10-30 | 2022-02-18 | 国家电网有限公司西北分部 | 一种基于全链路告警的交流线路纵联保护通道故障定位方法 |
CN114189428A (zh) * | 2021-12-09 | 2022-03-15 | 中国电信股份有限公司 | 一种盒式波分系统的故障根因分析方法、系统与电子设备 |
CN114448835A (zh) * | 2021-12-23 | 2022-05-06 | 中国人民解放军63921部队 | 一种时延周期性越限的告警处理方法 |
CN114500229A (zh) * | 2021-12-30 | 2022-05-13 | 国网河北省电力有限公司信息通信分公司 | 基于时空信息的网络告警定位及分析方法 |
CN114513802A (zh) * | 2022-01-04 | 2022-05-17 | 武汉烽火技术服务有限公司 | 一种基于事件流的承载网故障分析方法及装置 |
CN114866396A (zh) * | 2022-07-07 | 2022-08-05 | 浩鲸云计算科技股份有限公司 | 基于文本相似度的实现资源不准下网络故障定位的方法 |
CN117389997A (zh) * | 2023-12-12 | 2024-01-12 | 云和恩墨(北京)信息技术有限公司 | 数据库安装流程的故障检测方法和装置、电子设备、介质 |
CN117389997B (zh) * | 2023-12-12 | 2024-04-16 | 云和恩墨(北京)信息技术有限公司 | 数据库安装流程的故障检测方法和装置、电子设备、介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1671110A (zh) * | 2004-03-19 | 2005-09-21 | 华为技术有限公司 | 一种自动定位故障的方法和系统 |
WO2017133522A1 (zh) * | 2016-02-03 | 2017-08-10 | 腾讯科技(深圳)有限公司 | 告警信息的处理方法、装置和系统、计算机存储介质 |
CN108981106A (zh) * | 2018-08-20 | 2018-12-11 | 山东润智能科技有限公司 | 医院中央空调安全立体监测云平台、系统及方法 |
CN109948810A (zh) * | 2019-01-11 | 2019-06-28 | 北京京运通科技股份有限公司 | 风电场智能消缺管理方法及系统 |
CN110175272A (zh) * | 2019-05-21 | 2019-08-27 | 中国太平洋保险(集团)股份有限公司 | 一种基于特征建模实现工单收敛的控制方法及控制装置 |
CN110609759A (zh) * | 2018-06-15 | 2019-12-24 | 华为技术有限公司 | 一种故障根因分析的方法及装置 |
CN113360350A (zh) * | 2020-03-03 | 2021-09-07 | 中国移动通信集团贵州有限公司 | 定位网络设备根因告警的方法、装置、设备和存储介质 |
-
2021
- 2021-09-16 CN CN202111084831.8A patent/CN113542039A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1671110A (zh) * | 2004-03-19 | 2005-09-21 | 华为技术有限公司 | 一种自动定位故障的方法和系统 |
WO2017133522A1 (zh) * | 2016-02-03 | 2017-08-10 | 腾讯科技(深圳)有限公司 | 告警信息的处理方法、装置和系统、计算机存储介质 |
CN110609759A (zh) * | 2018-06-15 | 2019-12-24 | 华为技术有限公司 | 一种故障根因分析的方法及装置 |
CN108981106A (zh) * | 2018-08-20 | 2018-12-11 | 山东润智能科技有限公司 | 医院中央空调安全立体监测云平台、系统及方法 |
CN109948810A (zh) * | 2019-01-11 | 2019-06-28 | 北京京运通科技股份有限公司 | 风电场智能消缺管理方法及系统 |
CN110175272A (zh) * | 2019-05-21 | 2019-08-27 | 中国太平洋保险(集团)股份有限公司 | 一种基于特征建模实现工单收敛的控制方法及控制装置 |
CN113360350A (zh) * | 2020-03-03 | 2021-09-07 | 中国移动通信集团贵州有限公司 | 定位网络设备根因告警的方法、装置、设备和存储介质 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114070717A (zh) * | 2021-10-30 | 2022-02-18 | 国家电网有限公司西北分部 | 一种基于全链路告警的交流线路纵联保护通道故障定位方法 |
CN114189428A (zh) * | 2021-12-09 | 2022-03-15 | 中国电信股份有限公司 | 一种盒式波分系统的故障根因分析方法、系统与电子设备 |
CN114448835A (zh) * | 2021-12-23 | 2022-05-06 | 中国人民解放军63921部队 | 一种时延周期性越限的告警处理方法 |
CN114448835B (zh) * | 2021-12-23 | 2024-02-27 | 中国人民解放军63921部队 | 一种时延周期性越限的告警处理方法 |
CN114500229A (zh) * | 2021-12-30 | 2022-05-13 | 国网河北省电力有限公司信息通信分公司 | 基于时空信息的网络告警定位及分析方法 |
CN114500229B (zh) * | 2021-12-30 | 2024-02-02 | 国网河北省电力有限公司信息通信分公司 | 基于时空信息的网络告警定位及分析方法 |
CN114513802A (zh) * | 2022-01-04 | 2022-05-17 | 武汉烽火技术服务有限公司 | 一种基于事件流的承载网故障分析方法及装置 |
CN114513802B (zh) * | 2022-01-04 | 2023-06-09 | 武汉烽火技术服务有限公司 | 一种基于事件流的承载网故障分析方法及装置 |
CN114866396A (zh) * | 2022-07-07 | 2022-08-05 | 浩鲸云计算科技股份有限公司 | 基于文本相似度的实现资源不准下网络故障定位的方法 |
CN117389997A (zh) * | 2023-12-12 | 2024-01-12 | 云和恩墨(北京)信息技术有限公司 | 数据库安装流程的故障检测方法和装置、电子设备、介质 |
CN117389997B (zh) * | 2023-12-12 | 2024-04-16 | 云和恩墨(北京)信息技术有限公司 | 数据库安装流程的故障检测方法和装置、电子设备、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113542039A (zh) | 一种通过ai算法定位5g网络虚拟化跨层问题的方法 | |
KR102483025B1 (ko) | 운영 유지 시스템 및 방법 | |
CN108415789B (zh) | 面向大规模混合异构存储系统的节点故障预测系统及方法 | |
EP3975048A1 (en) | Method for constructing cloud network alarm root cause relational tree model, device, and storage medium | |
CN111176879A (zh) | 设备的故障修复方法及装置 | |
CN110247792A (zh) | 一种基于网络告警关联的故障处理方法及装置 | |
CN112769605B (zh) | 一种异构多云的运维管理方法及混合云平台 | |
CN110460454B (zh) | 基于深度学习的网络设备端口故障智能预测方法 | |
CN113254254B (zh) | 系统故障的根因定位方法、装置、存储介质及电子装置 | |
CN111259073A (zh) | 基于日志、流量和业务访问的业务系统运行状态智能研判系统 | |
CN115809183A (zh) | 基于知识图谱的信创终端故障发现及处置的方法 | |
CN112711493A (zh) | 一种场景化根因分析应用 | |
CN111756560A (zh) | 一种数据处理方法、装置及存储介质 | |
CN115865611A (zh) | 一种网络设备的故障处理方法、装置及电子设备 | |
CN117221088A (zh) | 一种计算机网络强度检测系统及装置 | |
CN112911272B (zh) | Iptv群障预警方法和系统 | |
CN114490303B (zh) | 故障根因确定方法、装置和云设备 | |
CN112101422B (zh) | 电力系统故障案例的典型案例自学习方法 | |
Wang et al. | LSTM-based alarm prediction in the mobile communication network | |
CN113890814B (zh) | 故障感知模型构建和故障感知方法与系统、设备、介质 | |
CN114422324B (zh) | 一种告警信息的处理方法、装置、电子设备及存储介质 | |
WO2021169524A1 (zh) | 一种网络运维方法、装置及系统 | |
CN116643937A (zh) | 数据日志的图像分析 | |
CN117792864A (zh) | 一种告警处理方法、装置、存储介质及电子装置 | |
CN116522213A (zh) | 业务状态级别分类及分类模型训练方法、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211022 |
|
RJ01 | Rejection of invention patent application after publication |