CN117544482A - 基于ai的运维故障确定方法、装置、设备和存储介质 - Google Patents

基于ai的运维故障确定方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN117544482A
CN117544482A CN202410015545.3A CN202410015545A CN117544482A CN 117544482 A CN117544482 A CN 117544482A CN 202410015545 A CN202410015545 A CN 202410015545A CN 117544482 A CN117544482 A CN 117544482A
Authority
CN
China
Prior art keywords
fault
data
historical
maintenance
network element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410015545.3A
Other languages
English (en)
Inventor
黄朝明
刘鹏
郑欣欣
何冉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ultrapower Software Co ltd
Original Assignee
Ultrapower Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ultrapower Software Co ltd filed Critical Ultrapower Software Co ltd
Priority to CN202410015545.3A priority Critical patent/CN117544482A/zh
Publication of CN117544482A publication Critical patent/CN117544482A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Abstract

本发明提供了一种基于AI的运维故障确定方法、装置、设备和存储介质,涉及人工智能技术领域。其中,该方法包括:确定故障现象网元和故障时间,确定故障现象网元对应的相关网元;获取故障现象网元和相关网元对应的待分析运维数据;对待分析运维数据进行预处理,得到向量化要素信息;将向量化要素信息输入预先训练好的故障根因分析模型,输出待分析运维数据对应的故障根因;通过对历史运维数据进行处理确定标准化训练样本,基于标准化训练样本训练获得故障根因分析模型,再基于训练完成的故障根因分析模型分析运维数据确定故障根因,提高了运维数据的处理能力,提升了故障根因挖掘的准确性。

Description

基于AI的运维故障确定方法、装置、设备和存储介质
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种基于AI的运维故障确定方法、装置、设备和存储介质。
背景技术
在网络运维领域,引起网络故障的原因很多。随着网络规模的扩大,故障的原因分析越来越困难。故障往往表现在:甲设备被发现故障现象,但故障本身是由于乙设备所发生的事件或性能变化所导致;简单排除甲上故障往往不能彻底解决网络中存在的问题。因此,在运维领域,需要透过表面现象,揭示故障发生的根节点原因。
现有技术尝试用计算机算法来挖掘运维故障根因。这种方法对多次某类故障发生前的告警进行分别统计,通过构建频繁项集的方法,并人为设定置信度等阈值,去试图发现故障与告警是否存在较强的关联关系。由于运维过程中数据量太大,人工难以处理大量数据并从中发现故障和故障发生之前各种现象之间的逻辑,使得挖掘结果往往难以和运维经验相匹配,数据挖掘的指向性不明确,使得问题得不到收束,故障根因挖掘准确率差。
发明内容
有鉴于此,本发明的目的在于提供一种基于AI的运维故障确定方法、装置、设备和存储介质,通过对历史运维数据进行处理确定标准化训练样本,基于标准化训练样本训练获得故障根因分析模型,再基于训练完成的故障根因分析模型分析运维数据确定故障根因,提高了运维数据的处理能力,提升了故障根因挖掘的准确性。
第一方面,本发明提供了一种基于AI的运维故障确定方法,包括:确定故障现象网元和故障时间,获取故障现象网元的标识信息;其中,故障现象网元的标识信息包括:故障现象网元的名称和/或故障现象网元的ID标识;基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元;其中,资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据;规范化要素信息包括网元的规范化命名和网元的规范化ID标识;获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据,以及相关网元以故障时间为基准的第一预设时间段内的第二运维数据;将第一运维数据和第二运维数据确定为待分析运维数据;对待分析运维数据进行结构化处理,得到结构化要素信息;将结构化要素信息进行向量化表示,得到向量化要素信息;将向量化要素信息输入预先训练好的故障根因分析模型,输出待分析运维数据对应的故障根因;其中,故障根因分析模型基于历史运维数据运维数据训练得到,历史运维数据包括历史运维报告和历史故障分析报告。
在本发明一些较佳的实施例中,第一运维数据包括:第一日志数据、第一告警数据和性能指标时间序列数据;第二运维数据包括:第二日志数据、第二告警数据和性能指标时间序列数据;获取故障现象网元以故障时间为基准预设时间段内的第一运维数据,以及相关网元以故障时间为基准预设时间段内的第二运维数据的步骤包括:基于预先设置的自然语言算法模型对第一告警数据和第一日志数据进行语义化分析和关键词提取,获得第一目标运维信息;将第一目标运维信息基于性能指标时间序列数据序列化表达,确定第一运维数据;基于预先设置的自然语言算法模型对第二告警数据和第二日志数据进行语义化分析和关键词提取,获得第二目标运维信息;将第二目标运维信息基于性能指标时间序列数据序列化表达,确定第二运维数据。
在本发明一些较佳的实施例中,故障根因分析模型通过下述步骤训练得到:获取第一历史运行数据;第一历史运行数据包括历史运维数据和历史故障分析数据;获取第一历史运行数据中的历史第一目标信息;获取历史故障分析数据中的历史第二目标信息和历史故障根因;将历史第一目标信息和历史第二目标信息作为历史要素信息;将历史要素信息和历史故障根因一一对应后作为训练样本数据;对训练样本数据进行标准化预处理得到向量化训练样本数据;基于向量化训练样本数据训练故障根因分析基础模型,直到达到预设的训练结束条件,得到故障根因分析模型。
在本发明一些较佳的实施例中,获取第一历史运行数据中的历史第一目标信息的步骤包括:确定历史故障现象网元和历史故障时间,获取历史故障现象网元的标识信息;其中,历史故障现象网元的标识信息包括:历史故障现象网元的名称和/或历史故障现象网元的ID标识;基于预设的资源关系数据库确定历史故障现象网元对应的历史故障相关网元;其中,资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据;规范化要素信息包括网元的规范化命名和网元的规范化ID标识;获取历史故障现象网元以历史故障时间为基准的第二预设时间段内的第三运维数据,以及历史相关网元以历史故障时间为基准的第二预设时间段内的第四运维数据;将第三运维数据和第四运维数据确定为历史第一目标信息。
在本发明一些较佳的实施例中,获取历史故障分析数据中的历史第二目标信息和历史故障根因的步骤包括:基于自然语言算法提取历史故障分析报告的关键词并进行结构化处理,得到目标关键词;其中,目标关键词包括:历史故障时间、历史故障地点、历史故障现象网元、历史故障相关网元、历史故障根因网元和历史故障类别;将历史故障时间、历史故障地点、历史故障现象网元和历史故障相关网元确定为历史第二目标信息;将历史故障根因网元和历史故障类别确定为历史故障根因。
在本发明一些较佳的实施例中,基于向量化训练样本数据训练故障根因分析基础模型,直到达到预设的训练结束条件,得到故障根因分析模型的步骤包括:将向量化训练样本数据按照预设的比例分为训练集和验证集;基于训练集训练故障根因分析基础模型,得到故障根因分析中间模型;基于验证集验证故障根因分析中间模型,如果验证通过,将故障根因分析中间模型作为故障根因分析模型;如果验证不通过,基于训练集继续训练故障根因分析中间模型,直至验证通过。
在本发明一些较佳的实施例中,获取第一历史运行数据中的历史第一目标信息的步骤之后,方法还包括:获取第二历史运维数据;提取第二历史运维数据中的异常告警信息;通过异常告警信息从历史第一目标信息中将异常告警信息对应的历史第一目标信息剔除,得到更新后的历史第一目标信息。
第二方面,本发明提供了一种基于AI的运维故障确定装置,包括:故障响应模块,用于确定故障现象网元和故障时间,获取故障现象网元的标识信息;其中,故障现象网元的标识信息包括:故障现象网元的名称和/或故障现象网元的ID标识;相关网元确定模块,用于基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元;其中,资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据;规范化要素信息包括网元的规范化命名和网元的规范化ID标识;运维数据获取模块,用于获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据,以及相关网元以故障时间为基准的第一预设时间段内的第二运维数据;待分析运维数据确定模块,用于将第一运维数据和第二运维数据确定为待分析运维数据;要素信息结构化处理模块,用于对待分析运维数据进行结构化处理,得到结构化要素信息;要素信息向量化处理模块,将结构化要素信息进行向量化表示,得到向量化要素信息;运维故障根因确定模块,用于将向量化要素信息输入预先训练好的故障根因分析模型,输出待分析运维数据对应的故障根因;其中,故障根因分析模型基于历史运维数据运维数据训练得到,历史运维数据包括历史运维报告和历史故障分析报告。
第三方面,本发明提供了一种设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述任一项的基于AI的运维故障确定方法。
第四方面,本发明提供了一种存储介质,存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述任一项的基于AI的运维故障确定方法。
本发明带来了以下有益效果:
本发明提供了一种基于AI的运维故障确定方法、装置、设备和存储介质,该方法包括:确定故障现象网元和故障时间,获取故障现象网元的标识信息;其中,故障现象网元的标识信息包括:故障现象网元的名称和/或故障现象网元的ID标识;基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元;其中,资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据;规范化要素信息包括网元的规范化命名和网元的规范化ID标识;获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据,以及相关网元以故障时间为基准的第一预设时间段内的第二运维数据;将第一运维数据和第二运维数据确定为待分析运维数据;对待分析运维数据进行结构化处理,得到结构化要素信息;将结构化要素信息进行向量化表示,得到向量化要素信息;将向量化要素信息输入预先训练好的故障根因分析模型,输出待分析运维数据对应的故障根因;其中,故障根因分析模型基于历史运维数据运维数据训练得到,历史运维数据包括历史运维报告和历史故障分析报告;通过对历史运维数据进行处理确定标准化训练样本,基于标准化训练样本训练获得故障根因分析模型,再基于训练完成的故障根因分析模型分析运维数据确定故障根因,提高了运维数据的处理能力,提升了故障根因挖掘的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于AI的运维故障确定方法的流程图;
图2为本发明实施例提供的一种故障根因分析模型训练方法流程图;
图3为本发明实施例提供的一种训练数据的构建方法流程图;
图4本发明实施例提供的一种故障根因分析模型应用流程图;
图5为本发明实施例提供的一种基于AI的运维故障确定装置的结构示意图;
图6为本发明实施例提供的一种设备的结构示意图。
图标:310-故障响应模块;320-相关网元确定模块;330-运维数据获取模块;340-待分析运维数据确定模块;350-要素信息结构化处理模块;360-要素信息向量化处理模块;370-运维故障根因确定模块;400-存储器;401-处理器;402-总线;403-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在网络运维领域,引起网络故障的原因很多。随着网络规模的扩大,故障的原因分析越来越困难。故障往往表现在:甲设备被发现故障现象,但故障本身是由于乙设备所发生的事件或性能变化所导致;简单排除甲上故障往往不能彻底解决网络中存在的问题。因此,在运维领域,需要透过表面现象,揭示故障发生的根节点原因。目前根因分析主要依赖于:人工分析和关联规则挖掘方法。
人工分析是指运维人员在故障发生并且故障后果被感知到以后,依赖人工手段,通过阅读大量的告警信息、设备日志信息和操作日志,并查看性能指标,下发设备探寻指令,返回设备状态报告,并且派遣运维人员到达可能是故障根节点的位置,人工逐级排查,并采取相应措施。但是,人工分析时间历时长,造成故障不能快速恢复,造成巨大损失,多个科室跨专业安排多个运维专家共同排查,人员成本,存在不同专业科室相互推诿责任的现象,造成大量重复运维工单下发不同专业科室,排障成本高,准确率低。
现有技术尝试用计算机算法摆脱人工分析的困境。由于运维过程中数据量太大,人工难以处理大量数据并从中发现故障和故障发生之前各种现象之间的逻辑。另外,面临大量原始运维数据如性能指标数据、告警、日志,却没有可以用于有监督机器学习算法进行模型训练的标注数据,人们只能采用无监督学习算法中的关联关系挖掘算法来解决这一类问题。这种方法对多次某类故障发生前的告警进行分别统计,通过构建频繁项集的方法,并人为设定置信度等阈值,去试图发现故障与告警是否存在较强的关联关系。其缺陷在于:局限于采用准确率较低的无监督的机器学习方式。不能利用有监督的机器学习优势,没有利用已经积累的运维经验,挖掘结果往往难以和运维经验相匹配,挖掘出大量规则,须运维专家通过人工方式进行认可,工作量巨大,人工成本高,存在大量客观存在合理性但暗含复杂内在逻辑的规则输出,但因为运维人员处理大数据所含的复杂逻辑和隐含逻辑的能力限制,造成在人工认可环节不被接受从而未被采纳部署的情况,数据挖掘的指向性不明确,问题得不到收束,存在大量不必要的计算量,准确率差。
现有故障根因分析的人工智能算法应用缺乏行之有效的标注数据,以往运维经验积数据积累有限,即便有少量经验非正式经验知识也未能形成人工智能机器学习的训练数据,因标注数据的缺乏,难以采用准确率较高的有监督学习的机器学习人工智能算法。同时,由于运维过程中数据量太大,人工难以处理大量数据并从中发现故障和故障发生之前各种现象之间的逻辑,使得挖掘结果往往难以和运维经验相匹配,数据挖掘的指向性不明确,使得问题得不到收束,故障根因挖掘准确率差。
有鉴于此,本发明提供了一种基于AI的运维故障确定方法、装置、设备和存储介质,通过对历史运维数据进行处理确定标准化训练样本,基于标准化训练样本训练获得故障根因分析模型,再基于训练完成的故障根因分析模型分析运维数据确定故障根因,提高了运维数据的处理能力,提升了故障根因挖掘的准确性。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
实施例一
本发明实施例提供了一种基于AI的运维故障确定方法,参见图1所示的本发明实施例提供的一种基于AI的运维故障确定方法的流程图,该方法包括:
步骤S102,确定故障现象网元和故障时间,获取故障现象网元的标识信息;其中,故障现象网元的标识信息包括:故障现象网元的名称和/或故障现象网元的ID标识。
具体的,运维系统发生运行故障时,往往表现在某一网元出现故障,比如退服、断连等现象,但是并不一定是该出现故障现象的网元出现了故障,因此将出现故障的网元称为故障现象网元;故障网元的标识信息用来在资源关系数据库中检索信息,故障网元的ID标识是统一标准化的标识;同时运维系统会记录故障现象网元出现故障的时间。
可选地,确定故障现象网元后,可以对故障现象网元的标识进行规范化处理,获取故障现象网元的标识信息。示例性地,可以通过语义匹配对故障现象网元的标识进行规范化处理。可以解决网元命名、ID标识不够精准的问题,提高运维故障确定准确率。
步骤S104,基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元;其中,资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据;规范化要素信息包括网元的规范化命名和网元的规范化ID标识。
具体的,预设的资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据,规范化要素信息是将在不同系统中的不同的网元名称和网元ID标对应在一个同意的标准之下的网元名称和ID标识,也即,同一个网元在不同的管理系统中可能有自己的名称和标识,资源关系数据库将多个不同系统中的名称和ID标识对应在一个标准的名称和ID标识下也即网元的规范化命名和网元的规范化ID标识,网元间的网络拓扑数据是指描述网络中各个元素的对应关系的数据。网络拓扑结构是指用传输媒体互连各种设备的物理布局,即用什么方式把网络中的计算机等设备连接起来。常见的网络拓扑结构有星型结构、环形结构、总线结构、网状结构、树型结构和混合结构等。
步骤S106,获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据,以及相关网元以故障时间为基准的第一预设时间段内的第二运维数据。
具体的,第一运维数据包括:第一日志数据、第一告警数据和性能指标时间序列数据;第二运维数据包括:第二日志数据、第二告警数据和性能指标时间序列数据;通过下述步骤A1至A4确定第一运维数据和第二运维数据:
步骤A1,基于预先设置的自然语言算法模型对第一告警数据和第一日志数据进行语义化分析和关键词提取,获得第一目标运维信息。
步骤A2,将第一目标运维信息基于性能指标时间序列数据序列化表达,确定第一运维数据。
步骤A3,基于预先设置的自然语言算法模型对第二告警数据和第二日志数据进行语义化分析和关键词提取,获得第二目标运维信息。
步骤A4,将第二目标运维信息基于性能指标时间序列数据序列化表达,确定第二运维数据。
具体的,第一预设时间段可以灵活设定,一般设置为两小时,获取预设时间段内的告警数据和日志数据;在运维场景下,告警数据主要包括性能指标和业务日志数据两种类型;性能指标以数字形式呈现,可聚合并持续稳定输出,数据直观、精确,通常用于查询和展示,常见的性能指标包括系统性能指标、资源性能指标、中间件指标、数据库指标、稳定性指标、可扩展性指标和可靠性指标等;业务日志数据是以文本形式承载的,不可聚合,输出并不具备周期性,通常数据量较大,需要从海量日志中找到所需要的字段进行进一步的处理。日志数据,它记录了系统或应用程序运行期间的各种事件和状态信息。在运维管理中,日志数据可以用于分析系统的问题和故障,帮助运维人员更好地了解系统的运行情况并进行故障排除。性能指标时间序列数据,是按照时间顺序排列的性能指标数值序列,这类数据反映了某一事物、现象等随时间的变化状态或程度。
通过预先设置的自然语言算法模型对第一告警数据和第一日志数据进行语义化分析和关键词提取,从大量的告警数据和日志数据中提取出关键信息,这些信息可以帮助我们理解系统的状态和可能存在的问题。这个过程通常包括文本预处理(如去除停用词、词干化等)、特征提取(如TF-IDF、Word2Vec等)和关键词提取(如TextRank、LDA等)。将第一目标运维信息基于性能指标时间序列数据序列化表达,将提取出的运维信息转化为可以用于后续分析的格式,按照时间顺序排列,形成一种时间序列数据。
故障现象网元对应成第一运维数据,相关网元对应第二运维数据,第二运维数据的确定过程与第一运维数据的确定过程一样,就不再赘述了。
步骤S108,将第一运维数据和第二运维数据确定为待分析运维数据。
具体的,将时序化后的第一运维数据和时序化后的第二运维数据确定为待分析运维数据,将两组运维数据按照时间顺序进行对齐,然后将它们合并为一个更大的时间序列数据集。
步骤S110,对待分析运维数据进行结构化处理,得到结构化要素信息。
具体的,对待分析运维数据进行结构化处理。数据结构化处理的主要目的是将原始的、杂乱无章的、非标准化的数据转换为计算机可以识别和处理的、预定义格式的数据。这种处理方式允许对数据进行更高效、准确的输入、查询和分析;结构化数据处理的特点通常包括:固定的字段,就像它存储的方式一样;以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
本申请实施例中,根据故障现象网元的名称、故障现象网元的ID标识,查找资源关系数据库确定与故障现象网元存在关系的相关网元,调取故障现象网元以及与故障现象网元存在关系的相关网元的时间序列化的性能指标数据、告警、日志数据;算法根据故障发生的时间戳,调取相关时间窗口的数据,回溯性能指标、告警数据和日志信息,提取故障发生前多个时间窗口发生的告警、日志等信息。并执行步骤S112及后续步骤对告警、日志等信息进行结构化及向量化,将结构化及向量化的告警、日志等信息输入预先训练好的故障根因分析模型,输出所述待分析运维数据对应的故障根因。其中,资源关系数据库包括网元间的网络拓扑数据。资源关系数据库的构建采用了以运维系统标准的设备资源关系数据作为模板,收集综合设备资源数据或其它设备资源数据或网络拓扑数据。
步骤S112,将结构化要素信息进行向量化表示,得到向量化要素信息。
具体的,向量化处理是将文本表示成一系列能够表达文本语义的向量,这是自然语言处理中的一种重要方式。这个过程主要包含以下B1至B5步骤:
步骤B1,分词:无论中文还是英文,词语都是表达文本处理的最基本单元。所以首先需要对原始文本进行分词处理,将文本切分成一个个独立的词汇。
步骤B2,选择向量化方法:根据具体的任务需求和数据特性,选择合适的向量化方法。常见的文本向量化方法包括基于统计的方法、基于神经网络的方法等。例如,one-hot词向量表示,即将每个词表示成具有n个元素的向量,这个词向量中只有一个元素是1,其他元素都是0,不同词汇元素为0的位置不同,其中n的大小是整个语料中不同词汇的总数。
步骤B3,训练模型:使用选定的向量化方法训练模型,将每个单词转换为一个实数向量。
步骤B4,生成向量:使用训练好的模型将每个单词转换为对应的实数向量。
步骤B5,文本表示:通过将所有单词的向量组合成一个矩阵,得到整个文本的向量表示。
以上这些步骤并不唯一且固定,具体执行时可能因任务的不同而有所调整。
通过上述步骤对结构化要素信息进行向量化表示,得的向量化要素信息。
步骤S114,将向量化要素信息输入预先训练好的故障根因分析模型,输出待分析运维数据对应的故障根因;其中,故障根因分析模型基于历史运维数据运维数据训练得到,历史运维数据包括历史运维报告和历史故障分析报告。
具体的,将向量化要素信息输入预先训练好的故障根因分析模型,输出待分析运维数据对应的故障根因;预先训练完成的根因分析模型是基于AI训练完成的模型,主要用于网络运维故障的根因分析。
当故障触发调用故障根因分析系统进行故障根因分析时,根据故障现象网元的名称、故障现象网元的ID标识,查找资源关系数据库,调取故障现象网元以及与故障现象网元存在关系的相关网元的时间序列化并向量化的性能指标数据、告警、日志数据;算法根据故障发生的时间戳,调取相关时间窗口的数据,回溯性能指标、告警数据和日志信息,提取故障发生前多个时间窗口发生的告警、日志等信息,判断故障原因的类别;对目标时间窗口内的告警、日志等文本信息进行语义分析,结合故障原因判断,进一步确定根因网元是本网元还是其相关网元。
本发明实施例提供了一种基于AI的运维故障确定方法,包括:确定故障现象网元和故障时间,获取故障现象网元的标识信息;其中,故障现象网元的标识信息包括:故障现象网元的名称和/或故障现象网元的ID标识;基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元;其中,资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据;规范化要素信息包括网元的规范化命名和网元的规范化ID标识;获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据,以及相关网元以故障时间为基准的第一预设时间段内的第二运维数据;将第一运维数据和第二运维数据确定为待分析运维数据;对待分析运维数据进行结构化处理,得到结构化要素信息;将结构化要素信息进行向量化表示,得到向量化要素信息;将向量化要素信息输入预先训练好的故障根因分析模型,输出待分析运维数据对应的故障根因;其中,故障根因分析模型基于历史运维数据运维数据训练得到,历史运维数据包括历史运维报告和历史故障分析报告;通过对历史运维数据进行处理确定标准化训练样本,基于标准化训练样本训练获得故障根因分析模型,再基于训练完成的故障根因分析模型分析运维数据确定故障根因,提高了运维数据的处理能力,提升了故障根因挖掘的准确性。
实施例二
基于上述实施例的基础上,本发明实施例提供了另一种基于AI的运维故障确定方法,重点描述故障根因分析模型的训练流程,本发明实施例涉及智能运维(AIOps),智能运维,是一种将人工智能和机器学习技术应用于IT运维工作的领域。其主要目标是通过自动化执行关键运维任务,如性能监控、工作负载调度和数据备份,来简化IT运营工作流程并提高应用性能和响应速度。在具体实施中,AIOps会收集和分析各种运维数据,如日志、监控信息和应用信息等,然后运用机器学习的方式来解决自动化运维无法处理的问题。此外,AIOps在实践中涉及多个角色,包括运维工程师、运维研发工程师、平台研发工程师和运维AI工程师。使用AIOps的好处是显而易见的,它可以帮助减少检测、理解、调查问题以及解决问题和事件所需的时间和精力,从而提升IT运营效率和质量。
参见图2所示的本发明实施例提供的一种故障根因分析模型训练方法流程图,该方法包括:
步骤S202,获取第一历史运行数据;第一历史运行数据包括历史运维数据和历史故障分析数据。
具体的,第一历史运维数据包括历史性能指标时间序列数据、历史告警数据、历史日志数据、历史故障分析报告和工单数据。其中,历史运维数据包括历史性能指标时间序列数据、历史告警数据和历史日志数据,历史故障分析数据包括:历史故障分析报告和工单数据。较为重要的故障往往会由经验较为丰富的运维人员汇总并撰写分析结果报告。这些报告往往能在一定层面上反映故障的分类,以及通过事后大量运维人员较长历时的排障过程和故障结果,甚至处置措施,为故障定界、定位提供了专家经验。
步骤S204,获取第一历史运行数据中的历史第一目标信息。
具体的,通过下述步骤C1至C4获取第一历史运行数据中的历史第一目标信息:
步骤C1,确定历史故障现象网元和历史故障时间,获取历史故障现象网元的标识信息;其中,历史故障现象网元的标识信息包括:历史故障现象网元的名称和/或历史故障现象网元的ID标识;
步骤C2,基于预设的资源关系数据库确定历史故障现象网元对应的历史故障相关网元;其中,资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据;规范化要素信息包括网元的规范化命名和网元的规范化ID标识;
步骤C3,获取历史故障现象网元以历史故障时间为基准的第二预设时间段内的第三运维数据,以及历史相关网元以历史故障时间为基准的第二预设时间段内的第四运维数据;
步骤C4,将第三运维数据和第四运维数据确定为历史第一目标信息。
具体的,对于自然语音文本形式的故障报告,设计自然语言NLP算法,训练信息要素提取模型用于NLP关键信息的提取,提其取自然语音文本中的语义信息,找出故障类别、故障发生日期、时间、地点(各省、地市、县的地名、地址)、原因、网元及相关网元名称及标识ID、处置方法、处置效果等关键要素,上述步骤和实施例一中的步骤相同,在此不再赘述。
步骤S206,获取历史故障分析数据中的历史第二目标信息和历史故障根因。
具体的,通过下述步骤D1至D3获取历史故障分析数据中的历史第二目标信息和历史故障根因:
步骤D1,基于自然语言算法提取历史故障分析报告的关键词并进行结构化处理,得到目标关键词;其中,目标关键词包括:历史故障时间、历史故障地点、历史故障现象网元、历史故障相关网元、历史故障根因网元和历史故障类别;
步骤D2,将历史故障时间、历史故障地点、历史故障现象网元和历史故障相关网元确定为历史第二目标信息;
示例性的,历史故障分析报告可以是:2023年9月22日,10:42,甲公司故障累计10个4G基站和40个2G基站退服,主要覆盖区域为A县,涉及机房较为分散,故障原因为传输汇聚环网两点断,B点汇聚到C点汇聚、D点汇聚到E点汇聚于9月22日13:23中断,F庄到G庄于9月22日10:42中断,机房与9月21日17:00中断,经维护人员熔纤处理后,B点汇聚到C点汇聚、D点汇聚到E点汇聚的终端故障于9月22日14:41恢复,F庄到G庄的中断故障于9月22日15:24恢复。目前业务均已恢复,重大故障消除。
上述历史运维活动报告 (故障报告)中可见,运维活动报告,包括故障报告中其实涵盖部分有用信息,如:故障类别、故障发生日期、时间、原因、故障现象网元及相关故障根因网元名称、处置方法、处置效果等信息,只是它仍缺乏一些必要信息且存在以下缺陷:由人工撰写,且撰写风格因人而异,以往的传统技术难以提取并结构化其中有效信息;往往以自然语言形式呈现,不如结构化好的数据易于计算机处理;人工提取费时费力,且耗费大量人工;关键信息往往笼统,数据及网元设备标识不够精准,难以和实际设备资源或综合资源数据库中的设备资源名称和标识精准匹配;但依然有其价值。
尽管存在上述缺陷,但是它依然包含大量有用信息。如果采用有效的技术手段和算法,对信息进行理解、提取、结合其它数据进行匹配补充,可以构建较为完备的人工智能训练数据集,充分发挥人工智能有监督学习的算法能力。
步骤D3,将历史故障根因网元和历史故障类别确定为历史故障根因。
步骤S208,将历史第一目标信息和历史第二目标信息作为历史要素信息。
步骤S210,将历史要素信息和历史故障根因一一对应后作为训练样本数据。
步骤S212,对训练样本数据进行标准化预处理得到向量化训练样本数据。
具体的,历史要素信息包括故障发生时间、故障发生地点、网元名称和ID标识。具体地,对训练样本数据进行标准化预处理得到向量化训练样本数据的步骤包括:步骤E1到步骤E2。
步骤E1,对训练样本数据进行结构化处理,得到结构化训练样本数据;我们可以将训练样本数据中的文本数据进行分词、去停用词、词干化等处理操作,将处理后的数据进行组织,得到结构化的训练样本数据。对训练样本数据进行结构化处理的主要目的是将原始的、杂乱无章的、非标准化的数据转换为计算机可以识别和处理的、预定义格式的数据。这种处理方式允许对数据进行更高效、准确的输入、查询和分析;结构化数据处理的特点通常包括:固定的字段,就像它存储的方式一样;以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。示例性的,以一次故障为一行,每一列分别表示故障的时间、地点、网元、标识ID、故障原因等信息。
步骤E2,将结构化训练样本数据进行向量化表示,得的向量化训练样本数据;
具体的,向量化处理是将文本表示成一系列能够表达文本语义的向量,这是自然语言处理中的一种重要方式。
在本发明一些较佳的实施例中,针对运维报告、故障分析报告中,表述的网元命名、ID标识不够精准的问题,采用以运维系统标准的设备资源关系数据作为模板,收集综合设备资源数据或其它设备资源数据或网络拓扑数据。结合运维报告、故障分析报告、告警、日志等数据中提取的设备、资源信息进行语义匹配,将运维报告或故障分析报告中笼统的设备资源信息以综资数据库或其它资源数据库中的规范化的形式精准表示。并进一步对资源数据(设备资源名称、ID标识等)进行向量化表征,构建资源数据表、运维报告、故障分析报告、告警、日志中统一、规范化的向量表征,用标准的向量替换运维报告、故障分析报告中出现的设备网元名称和ID标识信息,生成相互匹配的统一向量表示,为构建有效的人工智能机器学习算法提供正确精准的训练数据集。
在本发明一些较佳的实施例中,参见图3所示的本发明实施例提供的一种训练数据的构建方法流程图,由告警、日志、运维(如故障分析)报告、工单数据、性能指标数据等历史数据进行融合后的训练数据集构造完成,该方法用于AI训练的训练数据集自动化标注体系。
步骤S214,基于向量化训练样本数据训练故障根因分析基础模型,直到达到预设的训练结束条件,得到故障根因分析模型。
具体的,步骤S214的步骤包括:步骤F1到步骤F4。
步骤F1,将向量化训练样本数据按照预设的比例分为训练集和验证集;
具体的,预设的比例一般为9:1,按照预设的比例将向量化训练样本数据按照预设的比例分为训练集和验证集。
步骤F2,基于训练集训练故障根因分析基础模型,得到故障根因分析中间模型;
具体的,将训练集输入故障根因分析基础模型中,进行迭代训练,训练停止的条件可以为迭代预设的次数,或者损失函数小于某个值,或者连续的预设迭代次数内,损失值的变化值小于预设值,将达到训练停止条件的基础模型确定为故障根因分析中间模型。
步骤F3,基于验证集验证故障根因分析中间模型,如果验证通过,将故障根因分析中间模型作为故障根因分析模型;
具体的,通过验证集计算多个损失值,如果多个损失值达标的比例达到预设的阈值,则认为验证通过,将故障根因分析中间模型作为故障根因分析模型;示例性的,通过验证集计算出100个损失值,如果有其中93个损失值都小于预设的损失值阈值,也即达标率为93%,大于预设的达标阈值90%,就认为验证通过。如果验证不通过执行步骤S218。
步骤F4,如果验证不通过,基于训练集继续训练故障根因分析中间模型,直至验证通过。
进一步的,获取第一历史运行数据中的历史第一目标信息的步骤之后,方法还包括:获取第二历史运维数据;提取第二历史运维数据中的异常告警信息;通过异常告警信息从历史第一目标信息中将异常告警信息对应的历史第一目标信息剔除,得到更新后的历史第一目标信息。
具体的,运维信息中包括很多没有关联性的告警信息,通过正常运维状态下的告警信息将之剔除,提高了要素信息的准确性。
本发明实施例提供了另一种基于AI的运维故障确定方法,对自然语言设计开发算法,进行模型训练。重点加强针对运维领域专业术语及故障信息进行训练。并重点对各省、地市、县的地名、地址,网络设备名称及ID识别号进行训练以提高自然语言模型对上述信息精准的识别能力。这些训练数据及训练语料通过采集综资数据进行获取、处理并转化为可供模型训练的训练数据和训练语料。训练目的为模型能够正确识别运维术语、网络设备名称、关系并能将故障报告中的信息和综资、告警文本、日志文本中的运维术语及设备名称、ID表示按照语义及运维场景知识进行匹配。并对其以向量形式进行表征,向量相应的向量表征模型,使相互匹配的向量拥有较短的距离和较高的相似度。
在本发明一些较佳的实施例中,参见图4所示的本发明实施例提供的一种故障根因分析模型应用流程图,当故障触发调用故障根因分析系统进行故障根因分析时,根据故障网元的名称、ID标识,查找资源关系数据库,调取故障现象网元以及与故障现象网元存在关系的相关网元的时间序列化并向量化的性能指标数据、告警、日志数据;算法根据故障发生的时间戳,调取相关时间窗口的数据,回溯性能指标、告警数据和日志信息,提取故障发生前多个时间窗口发生的告警、日志等信息,判断故障原因的类别;对目标时间窗口内的告警、日志等文本信息进行语义分析,结合上一步骤中得到的故障原因判断,进一步确定根因网元是本网元还是其相关网元。
本发明实施例提供了另一种基于AI的运维故障确定方法,针对运维报告、故障分析报告中,表述的网元命名、ID标识不够精准的问题,采用以运维系统标准的设备资源关系数据作为模板,收集综合设备资源数据或其它设备资源数据或网络拓扑数据。结合运维报告、故障分析报告、告警、日志等数据中提取的设备、资源信息进行语义匹配,将运维报告或故障分析报告中笼统的设备资源信息以综资数据库或其它资源数据库中的规范化的形式精准表示。并进一步对资源数据(设备资源名称、ID标识等)进行向量化表征,构建资源数据表、运维报告、故障分析报告、告警、日志中统一、规范化的向量表征,用标准的向量替换运维报告、故障分析报告中出现的设备网元名称和ID标识信息,生成相互匹配的统一向量表示,为构建有效的人工智能机器学习算法提供正确精准的训练数据集。
本发明实施例提供了一种基于AI的运维故障确定方法,创造性利用运维报告、故障分析报告提取历史上发生过的故障及故障原因合处置方法,构建有监督学习经验标注数据,赋能有监督学习算法发挥其优势;突破无监督算法的局限性;采用并设计算法融合资源关系数据中规范化的网元设备命名和识别号ID, 使运维报告、故障报告中的网元、设备等资源实体的命名和标识规范化、精准化;本方案的算法流程虽较为复杂,但针对运维任务的数据覆盖较为全面,并且采用抽象数据建模方法,可用于指定运维场景但并不只限定于某个具体场景。因而具有较强的通用性及可扩展性。因而不仅能达到本次结构化模型建设的预期,还能够方便快捷地推广应用于其它场景,实现了智能运维。
实施例三
在上述实施例的基础上,参见图5所示的本发明实施例提供的一种基于AI的运维故障确定装置的结构示意图,本发明实施例提供了一种运维故障根因确定装置,包括:
故障响应模块310,用于确定故障现象网元和故障时间,获取故障现象网元的标识信息。
相关网元确定模块320,用于基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元;其中,资源关系数据库中网元间的网络拓扑数据。
运维数据获取模块330,用于获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据,以及相关网元以故障时间为基准的第一预设时间段内的第二运维数据。
待分析运维数据确定模块340,用于将第一运维数据和第二运维数据确定为待分析运维数据。
要素信息结构化处理模块350,用于对待分析运维数据进行结构化处理,得到结构化要素信息。
要素信息向量化处理模块360,将结构化要素信息进行向量化表示,得到向量化要素信息。
运维故障根因确定模块370,用于将向量化要素信息输入预先训练好的故障根因分析模型,输出待分析运维数据对应的故障根因;其中,故障根因分析模型基于历史运维数据运维数据训练得到,历史运维数据包括历史运维报告和历史故障分析报告。
在本发明一些较佳的实施例中,第一运维数据包括:第一日志数据、第一告警数据和性能指标时间序列数据;第二运维数据包括:第二日志数据、第二告警数据和性能指标时间序列数据;运维数据获取模块330,用于基于预先设置的自然语言算法模型对第一告警数据和第一日志数据进行语义化分析和关键词提取,获得第一目标运维信息;将第一目标运维信息基于性能指标时间序列数据序列化表达,确定第一运维数据;基于预先设置的自然语言算法模型对第二告警数据和第二日志数据进行语义化分析和关键词提取,获得第二目标运维信息;将第二目标运维信息基于性能指标时间序列数据序列化表达,确定第二运维数据。
在本发明一些较佳的实施例中,该装置还包括故障根因分析模型训练模块,用于获取第一历史运行数据;第一历史运行数据包括历史运维数据和历史故障分析数据;获取第一历史运行数据中的历史第一目标信息;获取历史故障分析数据中的历史第二目标信息和历史故障根因;将历史第一目标信息和历史第二目标信息作为历史要素信息;将历史要素信息和历史故障根因一一对应后作为训练样本数据;对训练样本数据进行标准化预处理得到向量化训练样本数据;基于向量化训练样本数据训练故障根因分析基础模型,直到达到预设的训练结束条件,得到故障根因分析模型。
在本发明一些较佳的实施例中,故障根因分析模型训练模块,用于获取第一历史运行数据中的历史第一目标信息的步骤包括:确定历史故障现象网元和历史故障时间,获取历史故障现象网元的标识信息;其中,历史故障现象网元的标识信息包括:历史故障现象网元的名称和/或历史故障现象网元的ID标识;基于预设的资源关系数据库确定历史故障现象网元对应的历史故障相关网元;其中,资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据;规范化要素信息包括网元的规范化命名和网元的规范化ID标识;获取历史故障现象网元以历史故障时间为基准的第二预设时间段内的第三运维数据,以及历史相关网元以历史故障时间为基准的第二预设时间段内的第四运维数据;将第三运维数据和第四运维数据确定为历史第一目标信息。
在本发明一些较佳的实施例中,故障根因分析模型训练模块,用于基于自然语言算法提取历史故障分析报告的关键词并进行结构化处理,得到目标关键词;其中,目标关键词包括:历史故障时间、历史故障地点、历史故障现象网元、历史故障相关网元、历史故障根因网元和历史故障类别;将历史故障时间、历史故障地点、历史故障现象网元和历史故障相关网元确定为历史第二目标信息;将历史故障根因网元和历史故障类别确定为历史故障根因。
在本发明一些较佳的实施例中,故障根因分析模型训练模块,用于将向量化训练样本数据按照预设的比例分为训练集和验证集;基于训练集训练故障根因分析基础模型,得到故障根因分析中间模型;基于验证集验证故障根因分析中间模型,如果验证通过,将故障根因分析中间模型作为故障根因分析模型;如果验证不通过,基于训练集继续训练故障根因分析中间模型,直至验证通过。
在本发明一些较佳的实施例中,故障根因分析模型训练模块,用于获取第二历史运维数据;提取第二历史运维数据中的异常告警信息;通过异常告警信息从历史第一目标信息中将异常告警信息对应的历史第一目标信息剔除,得到更新后的历史第一目标信息。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的基于AI的运维故障确定装置的具体工作过程,可以参考前述的基于AI的运维故障确定方法的实施例中的对应过程,在此不再赘述。
实施例四
本发明实施例还提供了一种设备,用于运行基于AI的运维故障确定方法;参见图6所示的本发明实施例提供的一种设备的结构示意图,该设备包括存储器400和处理器401,其中,存储器400用于存储一条或多条计算机指令,一条或多条计算机指令被处理器401执行,以实现上述基于AI的运维故障确定方法。
进一步地,图6所示的设备还包括总线402和通信接口403,处理器401、通信接口403和存储器400通过总线402连接。
其中,存储器400可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口403(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线402可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器400,处理器401读取存储器400中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机存储介质,该计算机存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述业务推荐方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的基于AI的运维故障确定方法、装置和设备的计算机程序产品,包括存储了程序代码的计算机存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和/或装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于AI的运维故障确定方法,其特征在于,包括:
确定故障现象网元和故障时间,获取所述故障现象网元的标识信息;
基于预设的资源关系数据库和所述故障现象网元的标识信息确定所述故障现象网元对应的相关网元;其中,所述资源关系数据库中包括网元间的网络拓扑数据;
获取所述故障现象网元以所述故障时间为基准的第一预设时间段内的第一运维数据,以及所述相关网元以所述故障时间为基准的所述第一预设时间段内的第二运维数据;
将所述第一运维数据和所述第二运维数据确定为待分析运维数据;
对所述待分析运维数据进行结构化处理,得到结构化要素信息;
将所述结构化要素信息进行向量化表示,得到向量化要素信息;
将所述向量化要素信息输入预先训练好的故障根因分析模型,输出所述待分析运维数据对应的故障根因;其中,所述故障根因分析模型基于历史运维数据运维数据训练得到,所述历史运维数据包括历史运维报告和历史故障分析报告。
2.根据权利要求1所述的基于AI的运维故障确定方法,其特征在于,所述第一运维数据包括:第一日志数据、第一告警数据和性能指标时间序列数据;所述第二运维数据包括:第二日志数据、第二告警数据和所述性能指标时间序列数据;获取所述故障现象网元以所述故障时间为基准预设时间段内的第一运维数据,以及所述相关网元以所述故障时间为基准预设时间段内的第二运维数据的步骤包括:
基于预先设置的自然语言算法模型对所述第一告警数据和所述第一日志数据进行语义化分析和关键词提取,获得第一目标运维信息;
将所述第一目标运维信息基于所述性能指标时间序列数据序列化表达,确定所述第一运维数据;
基于预先设置的自然语言算法模型对所述第二告警数据和所述第二日志数据进行语义化分析和关键词提取,获得第二目标运维信息;
将所述第二目标运维信息基于所述性能指标时间序列数据序列化表达,确定所述第二运维数据。
3.根据权利要求1所述的基于AI的运维故障确定方法,其特征在于,所述故障根因分析模型通过下述步骤训练得到:
获取第一历史运行数据;所述第一历史运行数据包括历史运维数据和历史故障分析数据;
获取所述第一历史运行数据中的历史第一目标信息;
获取所述历史故障分析数据中的历史第二目标信息和历史故障根因;
将所述历史第一目标信息和所述历史第二目标信息作为历史要素信息;
将所述历史要素信息和所述历史故障根因一一对应后作为训练样本数据;
对所述训练样本数据进行标准化预处理得到向量化训练样本数据;
基于所述向量化训练样本数据训练故障根因分析基础模型,直到达到预设的训练结束条件,得到所述故障根因分析模型。
4.根据权利要求3所述的基于AI的运维故障确定方法,其特征在于,获取所述第一历史运行数据中的历史第一目标信息的步骤包括:
确定历史故障现象网元和历史故障时间,获取所述历史故障现象网元的标识信息;其中,所述历史故障现象网元的标识信息包括:所述历史故障现象网元的名称和/或所述历史故障现象网元的ID标识;
基于所述预设的资源关系数据库确定历史故障现象网元对应的历史故障相关网元;其中,所述资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据;所述规范化要素信息包括网元的规范化命名和网元的规范化ID标识;
获取所述历史故障现象网元以所述历史故障时间为基准的第二预设时间段内的第三运维数据,以及所述历史相关网元以所述历史故障时间为基准的所述第二预设时间段内的第四运维数据;
将所述第三运维数据和所述第四运维数据确定为历史第一目标信息。
5.根据权利要求3所述的基于AI的运维故障确定方法,其特征在于,获取所述历史故障分析数据中的历史第二目标信息和历史故障根因的步骤包括:
基于自然语言算法提取所述历史故障分析报告的关键词并进行结构化处理,得到目标关键词;其中,所述目标关键词包括:历史故障时间、历史故障地点、历史故障现象网元、历史故障相关网元、历史故障根因网元和历史故障类别;
将所述历史故障时间、所述历史故障地点、所述历史故障现象网元和所述历史故障相关网元确定为所述历史第二目标信息;
将所述历史故障根因网元和所述历史故障类别确定为所述历史故障根因。
6.根据权利要求3所述的基于AI的运维故障确定方法,其特征在于,基于所述向量化训练样本数据训练故障根因分析基础模型,直到达到预设的训练结束条件,得到所述故障根因分析模型的步骤包括:
将所述向量化训练样本数据按照预设的比例分为训练集和验证集;
基于所述训练集训练所述故障根因分析基础模型,得到故障根因分析中间模型;
基于所述验证集验证所述故障根因分析中间模型,如果验证通过,将所述故障根因分析中间模型作为所述故障根因分析模型;
如果验证不通过,基于所述训练集继续训练所述故障根因分析中间模型,直至验证通过。
7.根据权利要求3所述的基于AI的运维故障确定方法,其特征在于,获取所述第一历史运行数据中的历史第一目标信息的步骤之后,所述方法还包括:
获取第二历史运维数据;
提取所述第二历史运维数据中的异常告警信息;
通过所述异常告警信息从所述历史第一目标信息中将所述异常告警信息对应的历史第一目标信息剔除,得到更新后的历史第一目标信息。
8.一种基于AI的运维故障确定装置,其特征在于,包括:
故障响应模块,用于确定故障现象网元和故障时间,获取所述故障现象网元的标识信息;
相关网元确定模块,用于基于预设的资源关系数据库和所述故障现象网元的标识信息确定所述故障现象网元对应的相关网元;其中,所述资源关系数据库中包括网元间的网络拓扑数据;
运维数据获取模块,用于获取所述故障现象网元以所述故障时间为基准的第一预设时间段内的第一运维数据,以及所述相关网元以所述故障时间为基准的所述第一预设时间段内的第二运维数据;
待分析运维数据确定模块,用于将所述第一运维数据和所述第二运维数据确定为待分析运维数据;
要素信息结构化处理模块,用于对所述待分析运维数据进行结构化处理,得到结构化要素信息;
要素信息向量化处理模块,将所述结构化要素信息进行向量化表示,得到向量化要素信息;
运维故障根因确定模块,用于将所述向量化要素信息输入预先训练好的故障根因分析模型,输出所述待分析运维数据对应的故障根因;其中,所述故障根因分析模型基于历史运维数据运维数据训练得到,所述历史运维数据包括历史运维报告和历史故障分析报告。
9.一种设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述权利要求1至7任一项所述的基于AI的运维故障确定方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的基于AI的运维故障确定方法。
CN202410015545.3A 2024-01-05 2024-01-05 基于ai的运维故障确定方法、装置、设备和存储介质 Pending CN117544482A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410015545.3A CN117544482A (zh) 2024-01-05 2024-01-05 基于ai的运维故障确定方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410015545.3A CN117544482A (zh) 2024-01-05 2024-01-05 基于ai的运维故障确定方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN117544482A true CN117544482A (zh) 2024-02-09

Family

ID=89790325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410015545.3A Pending CN117544482A (zh) 2024-01-05 2024-01-05 基于ai的运维故障确定方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN117544482A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170134240A1 (en) * 2014-07-08 2017-05-11 Telefonaktiebolaget Lm Ercisson (Publ) Network Topology Estimation Based on Event Correlation
CN112181758A (zh) * 2020-08-19 2021-01-05 南京邮电大学 一种基于网络拓扑及实时告警的故障根因定位方法
CN113676343A (zh) * 2021-07-08 2021-11-19 中国南方电网有限责任公司 电力通信网故障源定位方法及装置
CN114090320A (zh) * 2021-11-19 2022-02-25 中国联合网络通信集团有限公司 故障检测方法及装置
CN114911654A (zh) * 2021-02-08 2022-08-16 华为技术有限公司 一种故障分类方法、装置及系统
US20220283576A1 (en) * 2021-03-03 2022-09-08 Aktiebolaget Skf Automatic diagnosis method, system and storage medium for equipment
CN115729728A (zh) * 2021-08-27 2023-03-03 华为技术有限公司 一种识别根因故障节点的方法以及装置
CN116582414A (zh) * 2023-05-16 2023-08-11 浪潮通信信息系统有限公司 故障根因定位方法、装置、设备及可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170134240A1 (en) * 2014-07-08 2017-05-11 Telefonaktiebolaget Lm Ercisson (Publ) Network Topology Estimation Based on Event Correlation
CN112181758A (zh) * 2020-08-19 2021-01-05 南京邮电大学 一种基于网络拓扑及实时告警的故障根因定位方法
CN114911654A (zh) * 2021-02-08 2022-08-16 华为技术有限公司 一种故障分类方法、装置及系统
US20220283576A1 (en) * 2021-03-03 2022-09-08 Aktiebolaget Skf Automatic diagnosis method, system and storage medium for equipment
CN113676343A (zh) * 2021-07-08 2021-11-19 中国南方电网有限责任公司 电力通信网故障源定位方法及装置
CN115729728A (zh) * 2021-08-27 2023-03-03 华为技术有限公司 一种识别根因故障节点的方法以及装置
CN114090320A (zh) * 2021-11-19 2022-02-25 中国联合网络通信集团有限公司 故障检测方法及装置
CN116582414A (zh) * 2023-05-16 2023-08-11 浪潮通信信息系统有限公司 故障根因定位方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN111428054B (zh) 一种网络空间安全领域知识图谱的构建与存储方法
CN108256074B (zh) 校验处理的方法、装置、电子设备和存储介质
CN104598367B (zh) 数据中心故障事件管理自动化系统及方法
CN113282461B (zh) 传输网的告警识别方法和装置
CN107147639A (zh) 一种基于复杂事件处理的实时安全预警方法
CN111199361A (zh) 基于模糊推理理论的电力信息系统健康评估方法及系统
CN111027615A (zh) 基于机器学习的中间件故障预警方法和系统
CN112347271A (zh) 基于文字语义识别的配电物联网设备缺陷辅助录入方法
CN113590451A (zh) 一种根因定位方法、运维服务器及存储介质
CN113590396A (zh) 一次设备的缺陷诊断方法、系统、电子设备及存储介质
CN110956030B (zh) 变电站远动机组态配置信息比对方法及系统
CN112631889A (zh) 针对应用系统的画像方法、装置、设备及可读存储介质
CN112416732A (zh) 一种基于隐马尔可夫模型的数据采集运行异常检测方法
WO2024031930A1 (zh) 一种异常日志检测方法、装置、电子设备及存储介质
CN116126807A (zh) 一种日志分析方法及相关装置
CN117544482A (zh) 基于ai的运维故障确定方法、装置、设备和存储介质
CN115495587A (zh) 一种基于知识图谱的告警分析方法及装置
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN114860879A (zh) 数据关联方法、装置、设备及计算机存储介质
CN115169490A (zh) 一种日志分类方法、装置、设备及计算机可读存储介质
CN111352818A (zh) 应用程序性能分析方法、装置、存储介质及电子设备
CN117436444B (zh) 基于标签的数据处理方法、设备及计算机可读存储介质
CN113343051B (zh) 一种异常sql检测模型构建方法及检测方法
CN116450690A (zh) 一种历史文学著名人物关系搜寻系统
CN117332286A (zh) 一种数据映射校验的系统、方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination