CN110224850A - 电信网络故障预警方法、装置及终端设备 - Google Patents

电信网络故障预警方法、装置及终端设备 Download PDF

Info

Publication number
CN110224850A
CN110224850A CN201910319216.7A CN201910319216A CN110224850A CN 110224850 A CN110224850 A CN 110224850A CN 201910319216 A CN201910319216 A CN 201910319216A CN 110224850 A CN110224850 A CN 110224850A
Authority
CN
China
Prior art keywords
log
mode
online
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910319216.7A
Other languages
English (en)
Inventor
丁健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING BOCO INTER-TELECOM TECHNOLOGY Co Ltd
Original Assignee
BEIJING BOCO INTER-TELECOM TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BOCO INTER-TELECOM TECHNOLOGY Co Ltd filed Critical BEIJING BOCO INTER-TELECOM TECHNOLOGY Co Ltd
Priority to CN201910319216.7A priority Critical patent/CN110224850A/zh
Publication of CN110224850A publication Critical patent/CN110224850A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种电信网络故障预警方法、装置及终端设备。其中,电信网络故障预警方法,包括:预先训练隐马尔可夫模型,以及确定所述训练后的隐马尔可夫模型的正常概率阈值;采集电信网络设备生成的原始在线日志数据;对所述原始在线日志数据进行预处理,获得在线日志数据;遍历所述在线日志数据中的每条日志,判断每条日志所属的日志模式,并生成与所述在线日志数据对应的在线日志模式序列;计算所述在线日志模式序列在所述训练后的隐马尔可夫模型中出现的概率是否小于所述正常概率阈值,若是,则判断所述原始在线日志数据存在异常,发出故障预警。本发明能够对训练样本中出现或未出现的电信网络故障进行预警。

Description

电信网络故障预警方法、装置及终端设备
技术领域
本发明涉及互联网技术领域,具体涉及一种电信网络故障预警方法、装置及终端设备。
背景技术
在目前的电信网络设备中,通常存在较为完善的日志记录模块,其记录的日志类型包括诊断日志、操作日志、系统日志(syslog,System Log)等。电信产生的日志作为电信网络安全状态重要的信息来源,能对网络故障预警带来很大的帮助。
由于电信网络复杂度的不断提高,目前电信日志数据具有以下特点:(1)数据量较大,例如,某运营商的大型省份网络数据产生速率能达到平均每天10亿条,占据200GByte空间;(2)结构复杂,日志数据设备厂家来源众多,没有标准日志格式模板;(3)正负样本不均,网络告警时期的数据样本占总样本比例低;(4)故障类型多样,单种故障数据样本少,且存在样本中未出现的故障。
当前利用日志进行故障预警的方法有很多,其中,主要的故障预警方法有关键词匹配法、规则匹配法、基于传统分类算法的方法和基于故障日志相似性的方法,这些故障预警方法在实际应用中分别存在以下不足:
1)关键词匹配法和规则匹配法,需要领域专家根据经验预先创建故障预警关键词或规则列表,然后将日志与故障预警列表进行匹配,如果存在匹配项,则进行相应的故障预警。该方法中,故障预警关键词和规则列表的制定需要领域专家的参与,实际应用中仅适用于一部分特定种类的故障的预测,若要对各种故障进行全面的预测会耗费大量的人力和时间,随着电信网络的复杂性越来越高,其实施难度越来越大,实用性越来越低。
2)基于传统分类算法的方法,需要将日志数据与△t时间后触发的故障类型作为数据对训练分类模型,并将在线日志经过该分类模型的分类和识别后,根据得到的输出结果对故障进行判断。但若使用该方法对电信故障进行预测,由于电信日志数据正负样本不均、单种故障数据样本少等特点,分类准确性和泛化能力较低。
3)基于故障日志相似性的方法,需要将日志映射至一n维向量,然后将向量进行聚类,根据聚类结果指示故障类型。这种方法应用在电信日志数据上也存在对训练样本中未出现的故障无法预警的缺陷。
因此,目前迫切需要提供一种适用于电信网络的故障预警技术。
发明内容
鉴于上述问题,本发明提供一种电信网络故障预警方法、装置及终端设备。
本发明第一方面提供一种电信网络故障预警方法,包括:
预先根据电信网络设备在网络运行正常时期生成的原始历史日志数据训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,以及确定所述训练后的隐马尔可夫模型的正常概率阈值;
采集电信网络设备生成的原始在线日志数据;
对所述原始在线日志数据进行预处理,获得在线日志数据;
遍历所述在线日志数据中的每条日志,判断每条日志所属的日志模式,并生成与所述在线日志数据对应的在线日志模式序列;
计算所述在线日志模式序列在所述训练后的隐马尔可夫模型中出现的概率是否小于所述正常概率阈值,若是,则判断所述原始在线日志数据存在异常,发出故障预警。
可选的,所述根据电信网络设备在网络运行正常时期生成的原始历史日志数据训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,包括:
采集电信网络设备在网络运行正常时期生成的原始历史日志数据;
对所述原始历史日志数据进行预处理,得到历史日志数据;
将所述历史日志数据按照日志正文进行聚类,生成日志模式模板,以及根据所述日志模式模板确定所述历史日志数据中每条日志所属的日志模式,生成所述历史日志数据对应的离线日志模式序列;
根据所述离线日志模式序列训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型。
可选的,所述对所述原始历史日志数据进行预处理,得到历史日志数据,包括:
采用正则表达式提取所述原始历史日志数据的日志时间和日志正文,并添加网元信息后存储到非结构化数据库中;
对添加到所述非结构化数据库中的数据进行数据清洗和关键字段提取,得到历史日志数据。
可选的,所述将所述历史日志数据按照日志正文进行聚类,生成日志模式模板,以及根据所述日志模式模板确定所述历史日志数据中每条日志所属的日志模式,生成所述历史日志数据对应的离线日志模式序列,包括:
对所述历史日志数据中每条日志的日志正文进行参数泛化处理,得到每条日志的参数泛化日志正文;
将相同的参数泛化日志正文进行合并,得到参数泛化日志正文列表;
定义一日志模式模板列表,并初始化为空;
遍历所述参数泛化日志正文列表中的每条参数泛化日志正文,将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,若匹配失败,则将所述参数泛化日志正文作为日志模式模板添加到所述日志模式模板列表中,若匹配成功,则将匹配得到的日志模式模板确定为所述参数泛化日志正文对应的日志所属的日志模式;
根据所述历史日志数据中每条日志所述的日志模式,生成所述历史日志数据对应的离线日志模式序列。
可选的,所述将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,包括:
计算所述参数泛化日志正文与所述日志模式模板列表中的每条日志模式模板之间的编辑距离;
若所述参数泛化日志正文与所述日志模式模板列表中某一条日志模式模板之间的编辑距离小于预设阈值,则所述参数泛化日志正文与该日志模式模板相匹配,判断匹配成功;
若所述参数泛化日志正文与所述日志模式模板列表中每条日志模式模板之间的编辑距离均不小于预设阈值,则判断匹配失败。
可选的,所述将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,包括:
根据所述参数泛化日志文本的文本长度,在所述日志模式模板列表中选择与所述参数泛化日志文本的文本长度差异小于预设长度阈值的多条日志模式模板;
计算所述参数泛化日志正文与选择出的每条日志模式模板之间的编辑距离;
若所述参数泛化日志正文与选择出的某一条日志模式模板之间的编辑距离小于预设阈值,则所述参数泛化日志正文与该日志模式模板相匹配,判断匹配成功;
若所述参数泛化日志正文与选择出的每条日志模式模板之间的编辑距离均不小于预设阈值,则判断匹配失败。
可选的,所述根据所述离线日志模式序列训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,包括:
从所述离线日志模式序列选择多个离线日志模式子序列分别作为观测序列,使用Baum-Welch算法并行训练多个隐马尔可夫模型,得到描述网络正常运行状态的多个训练后的隐马尔可夫模型,其中,每个隐马尔科夫模型采用随机方式进行初始化,隐含状态数设为多个观测序列中日志模式的种类数的平均值。
可选的,所述训练后的隐马尔可夫模型的模型参数为:
λ=(A,B,π);
其中,
A为隐含状态转移概率矩阵:
A=[aij]N×N
式中,表示在时刻t处于状态qi的条件下在时刻t+1转移到状态qj的概率,N表示隐含状态数,M表示可观测状态数;
B为观测概率矩阵:
B=[bj(k)]N×M
式中,bj(k)=P(ot=vk|it=qj),k=1,2,…M;j=1,2,…N表示在时刻t处于状态qj的条件下生成观测vk的概率。
π为初始状态概率向量:
π=(πi)
式中,πi=P(i1=qi),i=1,2,…N表示在时刻t=1处于状态qi的概率。
可选的,所述确定所述训练后的隐马尔可夫模型的正常概率阈值,包括:
采用时间窗口滑动的方法从所述离线日志模式序列中选择多个长度为T的离线日志模式子序列;
对于各所述长度为T的离线日志模式子序列,分别计算所述长度为T的离线日志模式子序列在各个所述训练后的隐马尔可夫模型下发生的概率,并选取其中最大的概率作为所述序列长度为T的离线日志模式子序列的发生概率;
根据各所述序列长度为T的离线日志模式子序列的发生概率,确定确定所述训练后的隐马尔可夫模型的正常概率阈值。
可选的,所述对所述原始在线日志数据进行预处理,获得在线日志数据,包括:
采用正则表达式提取所述原始在线日志数据的日志时间和日志正文,并添加网元信息后存储到非结构化数据库中;
对添加到所述非结构化数据库中的数据进行数据清洗和关键字段提取,得到在线日志数据。
可选的,所述遍历所述在线日志数据中的每条日志,判断每条日志所属的日志模式,并生成与所述在线日志数据对应的在线日志模式序列,包括:
遍历所述在线日志数据中的每条日志,对所述日志的日志正文进行参数泛化处理,得到每条日志的参数泛化日志正文;
将所述参数泛化日志正文与预设的日志模式模板列表中的日志模式模板进行匹配,将匹配得到的日志模式模板确定为所述参数泛化日志正文对应的日志所属的日志模式;
根据所述在线日志数据中每条日志所述的日志模式,生成与所述在线日志数据对应的在线日志模式序列。
可选的,所述将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,包括:
计算所述参数泛化日志正文与预设的日志模式模板列表中的每条日志模式模板之间的编辑距离;
若所述参数泛化日志正文与所述日志模式模板列表中某一条日志模式模板之间的编辑距离小于预设阈值,则判断所述参数泛化日志正文与该日志模式模板相匹配。
本发明第二方面提供一种电信网络故障预警装置,包括:
模型训练模块,用于预先根据电信网络设备在网络运行正常时期生成的原始历史日志数据训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,以及确定所述训练后的隐马尔可夫模型的正常概率阈值;
在线日志采集模块,用于采集电信网络设备生成的原始在线日志数据;
在线日志预处理模块,用于对所述原始在线日志数据进行预处理,获得在线日志数据;
模式识别模块,用于遍历所述在线日志数据中的每条日志,判断每条日志所属的日志模式,并生成与所述在线日志数据对应的在线日志模式序列;
异常判断模块,用于计算所述在线日志模式序列在所述训练后的隐马尔可夫模型中出现的概率是否小于所述正常概率阈值,若是,则判断所述原始在线日志数据存在异常,发出故障预警。
可选的,所述模型训练模块,包括:
历史日志采集单元,用于采集电信网络设备在网络运行正常时期生成的原始历史日志数据;
历史日志预处理单元,用于对所述原始历史日志数据进行预处理,得到历史日志数据;
历史日志聚类单元,用于将所述历史日志数据按照日志正文进行聚类,生成日志模式模板,以及根据所述日志模式模板确定所述历史日志数据中每条日志所属的日志模式,生成所述历史日志数据对应的离线日志模式序列;
模型训练单元,用于根据所述离线日志模式序列训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型。
可选的,所述历史日志预处理单元,包括:
非结构化存储子单元,用于采用正则表达式提取所述原始历史日志数据的日志时间和日志正文,并添加网元信息后存储到非结构化数据库中;
数据清洗子单元,用于对添加到所述非结构化数据库中的数据进行数据清洗和关键字段提取,得到历史日志数据。
可选的,所述历史日志聚类单元,包括:
参数泛化子单元,用于对所述历史日志数据中每条日志的日志正文进行参数泛化处理,得到每条日志的参数泛化日志正文;
日志合并子单元,用于将相同的参数泛化日志正文进行合并,得到参数泛化日志正文列表;
模板列表定义子单元,用于定义一日志模式模板列表,并初始化为空;
离线日志匹配子单元,用于遍历所述参数泛化日志正文列表中的每条参数泛化日志正文,将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,若匹配失败,则将所述参数泛化日志正文作为日志模式模板添加到所述日志模式模板列表中,若匹配成功,则将匹配得到的日志模式模板确定为所述参数泛化日志正文对应的日志所属的日志模式;
离线日志序列生成单元,用于根据所述历史日志数据中每条日志所述的日志模式,生成所述历史日志数据对应的离线日志模式序列。
可选的,所述离线日志匹配子单元,包括:
第一编辑距离计算子单元,用于计算所述参数泛化日志正文与所述日志模式模板列表中的每条日志模式模板之间的编辑距离;
第一匹配成功判断子单元,用于若所述参数泛化日志正文与所述日志模式模板列表中某一条日志模式模板之间的编辑距离小于预设阈值,则所述参数泛化日志正文与该日志模式模板相匹配,判断匹配成功;
第一匹配失败判断子单元,用于若所述参数泛化日志正文与所述日志模式模板列表中每条日志模式模板之间的编辑距离均不小于预设阈值,则判断匹配失败。
可选的,所述离线日志匹配子单元,包括:
模板选择子单元,用于根据所述参数泛化日志文本的文本长度,在所述日志模式模板列表中选择与所述参数泛化日志文本的文本长度差异小于预设长度阈值的多条日志模式模板;
第二编辑距离计算子单元,用于计算所述参数泛化日志正文与选择出的每条日志模式模板之间的编辑距离;
第二匹配成功判断子单元,用于若所述参数泛化日志正文与选择出的某一条日志模式模板之间的编辑距离小于预设阈值,则所述参数泛化日志正文与该日志模式模板相匹配,判断匹配成功;
第二匹配失败判断子单元,用于若所述参数泛化日志正文与选择出的每条日志模式模板之间的编辑距离均不小于预设阈值,则判断匹配失败。
可选的,所述模型训练单元,包括:
模型训练子单元,用于从所述离线日志模式序列选择多个离线日志模式子序列分别作为观测序列,使用Baum-Welch算法并行训练多个隐马尔可夫模型,得到描述网络正常运行状态的多个训练后的隐马尔可夫模型,其中,每个隐马尔科夫模型采用随机方式进行初始化,隐含状态数设为多个观测序列中日志模式的种类数的平均值。
可选的,所述训练后的隐马尔可夫模型的模型参数为:
λ=(A,B,π);
其中,
A为隐含状态转移概率矩阵:
A=[aij]N×N
式中,表示在时刻t处于状态qi的条件下在时刻t+1转移到状态qj的概率,N表示隐含状态数,M表示可观测状态数;
B为观测概率矩阵:
B=[bj(k)]N×M
式中,bj(k)=P(ot=vk|it=qj),k=1,2,…M;j=1,2,…N表示在时刻t处于状态qj的条件下生成观测vk的概率。
π为初始状态概率向量:
π=(πi)
式中,πi=P(i1=qi),i=1,2,…N表示在时刻t=1处于状态qi的概率。
可选的,所述模型训练模块,包括:
子序列选择单元,用于采用时间窗口滑动的方法从所述离线日志模式序列中选择多个长度为T的离线日志模式子序列;
子序列概率计算单元,用于对于各所述长度为T的离线日志模式子序列,分别计算所述长度为T的离线日志模式子序列在各个所述训练后的隐马尔可夫模型下发生的概率,并选取其中最大的概率作为所述序列长度为T的离线日志模式子序列的发生概率;
正常概率阈值确定单元,用于根据各所述序列长度为T的离线日志模式子序列的发生概率,确定所述训练后的隐马尔可夫模型的正常概率阈值。
可选的,所述在线日志预处理模块,包括:
非结构化存储单元,用于采用正则表达式提取所述原始在线日志数据的日志时间和日志正文,并添加网元信息后存储到非结构化数据库中;
数据清洗单元,用于对添加到所述非结构化数据库中的数据进行数据清洗和关键字段提取,得到在线日志数据。
可选的,所述日志模式识别模块,包括:
参数泛化单元,用于遍历所述在线日志数据中的每条日志,对所述日志的日志正文进行参数泛化处理,得到每条日志的参数泛化日志正文;
在线日志匹配单元,用于将所述参数泛化日志正文与预设的日志模式模板列表中的日志模式模板进行匹配,将匹配得到的日志模式模板确定为所述参数泛化日志正文对应的日志所属的日志模式;
在线日志序列生成单元,用于根据所述在线日志数据中每条日志所述的日志模式,生成与所述在线日志数据对应的在线日志模式序列。
可选的,所述在线日志匹配单元,包括:
第三编辑距离计算子单元,用于计算所述参数泛化日志正文与预设的日志模式模板列表中的每条日志模式模板之间的编辑距离;
匹配结果判断子单元,用于若所述参数泛化日志正文与所述日志模式模板列表中某一条日志模式模板之间的编辑距离小于预设阈值,则判断所述参数泛化日志正文与该日志模式模板相匹配。
本发明第三方面提供一种终端设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行本发明提供的电信网络故障预警方法。
本发明第一方面提供的电信网络故障预警方法,包括:预先根据电信网络设备在网络运行正常时期生成的原始历史日志数据训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,以及确定所述训练后的隐马尔可夫模型的正常概率阈值;采集电信网络设备生成的原始在线日志数据;对所述原始在线日志数据进行预处理,获得在线日志数据;遍历所述在线日志数据中的每条日志,判断每条日志所属的日志模式,并生成与所述在线日志数据对应的在线日志模式序列;计算所述在线日志模式序列在所述训练后的隐马尔可夫模型中出现的概率是否小于所述正常概率阈值,若是,则判断所述原始在线日志数据存在异常,发出故障预警。本发明通过使用网络运行正常时期的历史日志数据训练隐马尔科夫模型,用所述隐马尔科夫模型描述网络的正常运行状态,然后通过确定原始在线日志数据对应的在线日志模式序列,并计算在线日志模式序列在所述隐马尔科夫模型出现的概率是否低于正常概率阈值来判断所述原始在线日志数据是否存在异常,由于电信网络处于正常工作状态时,其日志数据具有一定的模式或规律,而故障发生前,相应的在线日志模式序列通常会偏离正常状态,因此对异常在线日志模式序列的发现能够对故障预警提供帮助,该方法能够对训练样本中出现或未出现的故障进行识别,既可以解决基于规则的预警方案中需要耗费领域专家大量时间的缺陷,也可以解决基于分类算法和相似性算法方案中无法对历史样本中未出现的故障进行预警的缺陷。
本发明第二方面提供的电信网络故障预警装置、第三方面提供的终端设备,与上述第一方面提供的电信网络故障预警方法出于相同的发明构思,具有相同的有益效果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施方式所提供的一种电信网络故障预警方法的流程图;
图2示出了本发明实施方式所提供的一种电信网络故障预警装置的示意图;
图3示出了本发明实施方式所提供的一种终端设备的示意图;
图4示出了本发明实施方式所提供的一种训练隐马尔科夫模型的流程图;
图5示出了本发明实施方式所提供的一种非结构化数据库中存储的历史日志数据的示意图;
图6示出了本发明实施方式所提供的一种参数泛化处理后的历史日志数据的示意图;
图7示出了本发明实施方式所提供的一种参数泛化日志正文列表的示意图;
图8示出了本发明实施方式所提供的一种日志模式模板列表的示意图;
图9示出了本发明实施方式所提供的另一种电信网络故障预警装置的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要注意的是,除非另有说明,本发明使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本发明提供一种电信网络故障预警方法、装置及终端设备。下面结合附图对本发明的实施例进行说明。
请参考图1,其示出了本发明实施方式所提供的一种电信网络故障预警方法的流程图,所述电信网络故障预警方法包括以下步骤:
步骤S101:预先根据电信网络设备在网络运行正常时期生成的原始历史日志数据训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,以及确定所述训练后的隐马尔可夫模型的正常概率阈值。
在本发明实施例的一些实施方式中,请参考图4,其示出了本发明所实施方式所提供的一种训练隐马尔科夫模型的流程图,本步骤S101中根据电信网络设备在网络运行正常时期生成的原始历史日志数据训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,具体可以包括以下步骤S401-S404:
步骤S401:采集电信网络设备在网络运行正常时期生成的原始历史日志数据。
本步骤中,所述原始历史日志数据是电信网络设备在网络运行正常时间生成的日志数据,由于其中不含网络故障记录,因而,基于所述原始历史日志数据训练得到的隐马尔可夫模型可以用来描述电信网络的正常运行状态。
其中,所述原始历史日志数据,可以是诊断日志、操作日志、系统日志等任意一种或多种的组合,既可以是一个电信网络设备生成的日志数据,也可以是任意多个不同型号、不同类别的电信网络设备的日志数据。
步骤S402:对所述原始历史日志数据进行预处理,得到历史日志数据。
考虑到目标电信网络的复杂性,不同设备生成的日志数据并不相同,同一设备生成的不同类型的日志数据也不相同,即所述日志数据存在多源异构的特性,为了能够对多源异构的日志数据进行统一处理,提高本发明实施例的适用范围和实用性,本步骤S402中,需要对所述原始历史日志数据进行预处理,以得到形式相对一致的历史日志数据,具体的,本步骤S402可以包括:
采用正则表达式提取所述原始历史日志数据的日志时间和日志正文,并添加网元信息后存储到非结构化数据库中;
对添加到所述非结构化数据库中的数据进行数据清洗和关键字段提取,得到历史日志数据。
其中,所述网元信息可以包括网元编号、网元名称、网元类型和所处地域等信息,在具体实施时,本领域技术人员可以根据实际需求灵活添加。
在提取出原始历史日志数据的日志时间和日志正文等日志内容,并添加网元信息后,即可形成新的日志正文,本发明实施例可以将其按照预设的时间和业务存储到非结构化数据库中,然后对添加到所述非结构化数据库中的数据进行数据清洗和关键字段提取,其中,数据清洗可以包括删除冗余数据等,关键字段提取可以包括对每条日志数据的日志时间、日志类型、网元(网络元素的简称,也称电信网络设备)、网元类型和日志正文等后续分析需要关注的关键字段进行提取,从而得到预处理后的历史日志数据,请参考图5,其示出了一种非结构化数据库中存储的历史日志数据的示意图,如图所示,所述历史日志数据的日志正文包括时间、事件、用户账号等数据内容。
步骤S403:将所述历史日志数据按照日志正文进行聚类,生成日志模式模板,以及根据所述日志模式模板确定所述历史日志数据中每条日志所属的日志模式,生成所述历史日志数据对应的离线日志模式序列。
电信日志数据的日志正文为非结构化数据,通常包含了两部分信息:一部分描述当前网元的一种行为或状态,这部分没有固定的格式;一部分以参数形式描述当前行为或状态的属性。为把日志正文结构化,需要将描述同种行为或状态的日志聚为一类,称为日志模式。如图5所示,所述历史日志数据中,日志正文1、日志正文3和日志正文5的数据结构各不相同,这表示上述三条日志正文属于不同的日志模式,本步骤中即需要根据所述历史日志数据进行归纳整理后得到日志模式模板,并确定所述历史日志数据中每条日志所属的日志模式,在一些实施方式中,本步骤S403具体可以包括以下步骤:
对所述历史日志数据中每条日志的日志正文进行参数泛化处理,得到每条日志的参数泛化日志正文;
将相同的参数泛化日志正文进行合并,得到参数泛化日志正文列表;
定义一日志模式模板列表,并初始化为空;
遍历所述参数泛化日志正文列表中的每条参数泛化日志正文,将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,若匹配失败,则将所述参数泛化日志正文作为日志模式模板添加到所述日志模式模板列表中,若匹配成功,则将匹配得到的日志模式模板确定为所述参数泛化日志正文对应的日志所属的日志模式;
根据所述历史日志数据中每条日志所述的日志模式,生成所述历史日志数据对应的离线日志模式序列。
其中,对所述历史日志数据中每条日志的日志正文进行参数泛化处理,得到每条日志的参数泛化日志正文,具体可以包括:用正则表达式匹配的方式将日志正文中的参数进行泛化处理,例如,按照经验,“=”后紧接的内容、日期、时间、IP地址、URL、电话号码、文件大小和纯数字等具有较大可能性为参数,因此,可以采用正则表达式将“=”后的内容进行泛化处理,请参考图6,其示出了本发明实施方式所提供的对图5所示的历史日志数据的日志正文进行参数泛化处理后得到的一种参数泛化处理后的历史日志数据的示意图,如图所示,图5中的日期数据在图6中均被“DATE TIME”代替。
请参考图7,其示出了本发明实施方式所提供的对图6所示的历史日志数据进行合并后得到的一种参数泛化日志正文列表的示意图。
请参考图8,其示出了本发明实施方式所提供的根据图6所示的参数泛化日志正文列表得到的一种日志模式模板列表的示意图,
在本发明的一些实施方式中,所述将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,可以包括:
计算所述参数泛化日志正文与所述日志模式模板列表中的每条日志模式模板之间的编辑距离;
若所述参数泛化日志正文与所述日志模式模板列表中某一条日志模式模板之间的编辑距离小于预设阈值,则所述参数泛化日志正文与该日志模式模板相匹配,判断匹配成功;
若所述参数泛化日志正文与所述日志模式模板列表中每条日志模式模板之间的编辑距离均不小于预设阈值,则判断匹配失败。
为加快上述实施方式的匹配速度,进而提高聚类速度,在上述实施方式的变更实施方式中,还可以按照日志模式模板的文本长度对其进行划分,每条日志只对一定文本长度范围内的日志模式模板计算编辑距离,相应的,在本发明的一些变更实施方式中,所述将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,包括:
根据所述参数泛化日志文本的文本长度,在所述日志模式模板列表中选择与所述参数泛化日志文本的文本长度差异小于预设长度阈值的多条日志模式模板;
计算所述参数泛化日志正文与选择出的每条日志模式模板之间的编辑距离;
若所述参数泛化日志正文与选择出的某一条日志模式模板之间的编辑距离小于预设阈值,则所述参数泛化日志正文与该日志模式模板相匹配,判断匹配成功;
若所述参数泛化日志正文与选择出的每条日志模式模板之间的编辑距离均不小于预设阈值,则判断匹配失败。
步骤S404:根据所述离线日志模式序列训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型。
在得到离线日志模式序列后,即可训练隐马尔可夫模型,以通过隐马尔可夫模型描述网络正常运行状态,在一些实施方式中,所述训练后的隐马尔可夫模型的模型参数为:
λ=(A,B,π);
其中,
A为隐含状态转移概率矩阵:
A=[aij]N×N
式中,表示在时刻t处于状态qi的条件下在时刻t+1转移到状态qj的概率,N表示隐含状态数,M表示可观测状态数;
B为观测概率矩阵:
B=[bj(k)]N×M
式中,bj(k)=P(ot=vk|it=qj),k=1,2,…M;j=1,2,…N表示在时刻t处于状态qj的条件下生成观测vk的概率。
π为初始状态概率向量:
π=(πi)
式中,πi=P(i1=qi),i=1,2,…N表示在时刻t=1处于状态qi的概率。
考虑到,由于上述模型参数不能保证找到全局最优解,其模型好坏的影响参数:隐含状态数N和模型初始化参数的确定缺乏经验。因此,在本发明的一些实施方式中,可以采用集成的思想,并行训练多个隐马尔科夫模型,每个隐马尔科夫模型采用随机方式进行初始化,隐含状态数N设为多个观测序列中日志模式的种类数的平均值,相应的,所述根据所述离线日志模式序列训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,包括:
从所述离线日志模式序列选择多个离线日志模式子序列分别作为观测序列,使用Baum-Welch算法并行训练多个隐马尔可夫模型,得到描述网络正常运行状态的多个训练后的隐马尔可夫模型,其中,每个隐马尔科夫模型采用随机方式进行初始化,隐含状态数设为多个观测序列中日志模式的种类数的平均值。
在训练完成隐马尔科夫模型后,还需要确定训练后的隐马尔可夫模型的正常概率阈值,所述正常概率阈值用于判断输入的日志模式序列是否在正常运行状态,在本发明的一些实施方式中,所述确定所述训练后的隐马尔可夫模型的正常概率阈值,包括:
采用时间窗口滑动的方法从所述离线日志模式序列中选择多个长度为T的离线日志模式子序列;
对于各所述长度为T的离线日志模式子序列,分别计算所述长度为T的离线日志模式子序列在各个所述训练后的隐马尔可夫模型下发生的概率,并选取其中最大的概率作为所述序列长度为T的离线日志模式子序列的发生概率;
根据各所述序列长度为T的离线日志模式子序列的发生概率,确定确定所述训练后的隐马尔可夫模型的正常概率阈值。
其中,计算所述长度为T的离线日志模式子序列在各个所述训练后的隐马尔可夫模型下发生的概率,并选取其中最大的概率作为所述序列长度为T的离线日志模式子序列的发生概率,具体可以包括:
选取序列长度为T的离线日志模式子序列作为观测序列O,用前向算法或后向算法计算在步骤S404所得的K个隐马尔科夫模型下该序列长度为T的离线日志模式子序列发生的概率,选取其中最大的概率作为该日志模式序列出现的概率,其计算公式如下:
P(O|λ)=max(O|λi),i=1,2,…K
式中,P(O|λ)表示序列长度为T的离线日志模式子序列的发生概率,i表示隐马尔科夫模型的序号。
步骤S102:采集电信网络设备生成的原始在线日志数据。
其中,所述原始在线日志数据是从电信网络设备中采集的待检测的日志数据,所述原始在线日志数据,可以是诊断日志、操作日志、系统日志等任意一种或多种的组合,既可以是一个电信网络设备生成的日志数据,也可以是任意多个不同型号、不同类别的电信网络设备的日志数据。
步骤S103:对所述原始在线日志数据进行预处理,获得在线日志数据。
本步骤S103对所述原始在线日志数据的预处理过程可以参照步骤S402中对原始历史日志数据的预处理过程,两者处理方法一致,部分内容不再赘述,所述对所述原始在线日志数据进行预处理,获得在线日志数据,包括:
采用正则表达式提取所述原始在线日志数据的日志时间和日志正文,并添加网元信息后存储到非结构化数据库中;
对添加到所述非结构化数据库中的数据进行数据清洗和关键字段提取,得到在线日志数据。
步骤S104:遍历所述在线日志数据中的每条日志,判断每条日志所属的日志模式,并生成与所述在线日志数据对应的在线日志模式序列。
本步骤中,需要确定所述在线日志数据每条日志的日志模式,可以参照步骤步骤S403中根据所述日志模式模板确定所述历史日志数据中每条日志所属的日志模式的方法描述进行理解,在一些实施方式中,所述遍历所述在线日志数据中的每条日志,判断每条日志所属的日志模式,并生成与所述在线日志数据对应的在线日志模式序列,包括:
遍历所述在线日志数据中的每条日志,对所述日志的日志正文进行参数泛化处理,得到每条日志的参数泛化日志正文;
将所述参数泛化日志正文与预设的日志模式模板列表中的日志模式模板进行匹配,将匹配得到的日志模式模板确定为所述参数泛化日志正文对应的日志所属的日志模式;
根据所述在线日志数据中每条日志所述的日志模式,生成与所述在线日志数据对应的在线日志模式序列。
具体的,所述将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,可以包括:
计算所述参数泛化日志正文与预设的日志模式模板列表中的每条日志模式模板之间的编辑距离;
若所述参数泛化日志正文与所述日志模式模板列表中某一条日志模式模板之间的编辑距离小于预设阈值,则判断所述参数泛化日志正文与该日志模式模板相匹配。
步骤S105:计算所述在线日志模式序列在所述训练后的隐马尔可夫模型中出现的概率是否小于所述正常概率阈值,若是,则判断所述原始在线日志数据存在异常,发出故障预警。
本步骤S105为了获得更加准确的预测结果,一次输入到训练后的隐马尔可夫模型中的在线日志模式序列的序列长度应该与模型训练阶段输入的离线日志模式序列或离线日志模式子序列的序列长度,以所述离线日志模式子序列的序列长度为T为例,一次输入到训练后的隐马尔可夫模型中的在线日志模式序列的序列长度也应当为T,具体实施时,可以采用滑动时间窗方法选取待检测的在线日志模式序列进行检测,即当时间窗内在线日志模式序列的序列长度小于T时,不做计算,直到序列长度等于T,计算在上述隐马尔可夫模型下在线日志模式序列出现的概率,若该概率低于正常概率阈值,则判断所述在线日志模式序列存在异常,相应的,与其对应的原始在线日志数据也存在异常,需要发出预警。在检测完上述在线日志模式序列后,继续移动时间窗口,对新的序列长度为T的在线日志模式序列重复上述判断过程。
以上,为本发明实施例提供的一种电信网络故障预警方法的实施例说明,本发明实施例提供的电信网络故障预警方法,通过使用网络运行正常时期的历史日志数据训练隐马尔科夫模型,用所述隐马尔科夫模型描述网络的正常运行状态,然后通过确定原始在线日志数据对应的在线日志模式序列,并计算在线日志模式序列在所述隐马尔科夫模型出现的概率是否低于正常概率阈值来判断所述原始在线日志数据是否存在异常,由于电信网络处于正常工作状态时,其日志数据具有一定的模式或规律,而故障发生前,相应的在线日志模式序列通常会偏离正常状态,因此对异常在线日志模式序列的发现能够对故障预警提供帮助,该方法能够对训练样本中出现或未出现的故障进行识别,既可以解决基于规则的预警方案中需要耗费领域专家大量时间的缺陷,也可以解决基于分类算法和相似性算法方案中无法对历史样本中未出现的故障进行预警的缺陷。
在上述的实施例中,提供了一种电信网络故障预警方法,与之相对应的,本发明还提供一种电信网络故障预警装置。请参考图2,其为本发明实施方式所提供的一种电信网络故障预警装置的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图2所示,本发明实施例提供的一种电信网络故障预警装置2,包括:
模型训练模块21,用于预先根据电信网络设备在网络运行正常时期生成的原始历史日志数据训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,以及确定所述训练后的隐马尔可夫模型的正常概率阈值;
在线日志采集模块22,用于采集电信网络设备生成的原始在线日志数据;
在线日志预处理模块23,用于对所述原始在线日志数据进行预处理,获得在线日志数据;
模式识别模块24,用于遍历所述在线日志数据中的每条日志,判断每条日志所属的日志模式,并生成与所述在线日志数据对应的在线日志模式序列;
异常判断模块25,用于计算所述在线日志模式序列在所述训练后的隐马尔可夫模型中出现的概率是否小于所述正常概率阈值,若是,则判断所述原始在线日志数据存在异常,发出故障预警。
请参考图9,其示出了本发明实施方式所提供的另一种电信网络故障预警装置的示意图,图9所示的电信网络故障预警装置是图2所示的电信网络故障预警装置的变更实施方式,因此,部分内容不再赘述,如图9所示,所述模型训练模块21,包括:
历史日志采集单元211,用于采集电信网络设备在网络运行正常时期生成的原始历史日志数据;
历史日志预处理单元212,用于对所述原始历史日志数据进行预处理,得到历史日志数据;
历史日志聚类单元213,用于将所述历史日志数据按照日志正文进行聚类,生成日志模式模板,以及根据所述日志模式模板确定所述历史日志数据中每条日志所属的日志模式,生成所述历史日志数据对应的离线日志模式序列;
模型训练单元214,用于根据所述离线日志模式序列训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型。
在本发明实施例的一些实施方式中,所述历史日志预处理单元212,包括:
非结构化存储子单元,用于采用正则表达式提取所述原始历史日志数据的日志时间和日志正文,并添加网元信息后存储到非结构化数据库中;
数据清洗子单元,用于对添加到所述非结构化数据库中的数据进行数据清洗和关键字段提取,得到历史日志数据。
在本发明实施例的一些实施方式中,所述历史日志聚类单元213,包括:
参数泛化子单元,用于对所述历史日志数据中每条日志的日志正文进行参数泛化处理,得到每条日志的参数泛化日志正文;
日志合并子单元,用于将相同的参数泛化日志正文进行合并,得到参数泛化日志正文列表;
模板列表定义子单元,用于定义一日志模式模板列表,并初始化为空;
离线日志匹配子单元,用于遍历所述参数泛化日志正文列表中的每条参数泛化日志正文,将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,若匹配失败,则将所述参数泛化日志正文作为日志模式模板添加到所述日志模式模板列表中,若匹配成功,则将匹配得到的日志模式模板确定为所述参数泛化日志正文对应的日志所属的日志模式;
离线日志序列生成单元,用于根据所述历史日志数据中每条日志所述的日志模式,生成所述历史日志数据对应的离线日志模式序列。
在本发明实施例的一些实施方式中,所述离线日志匹配子单元,包括:
第一编辑距离计算子单元,用于计算所述参数泛化日志正文与所述日志模式模板列表中的每条日志模式模板之间的编辑距离;
第一匹配成功判断子单元,用于若所述参数泛化日志正文与所述日志模式模板列表中某一条日志模式模板之间的编辑距离小于预设阈值,则所述参数泛化日志正文与该日志模式模板相匹配,判断匹配成功;
第一匹配失败判断子单元,用于若所述参数泛化日志正文与所述日志模式模板列表中每条日志模式模板之间的编辑距离均不小于预设阈值,则判断匹配失败。
在本发明实施例的一些实施方式中,所述离线日志匹配子单元,包括:
模板选择子单元,用于根据所述参数泛化日志文本的文本长度,在所述日志模式模板列表中选择与所述参数泛化日志文本的文本长度差异小于预设长度阈值的多条日志模式模板;
第二编辑距离计算子单元,用于计算所述参数泛化日志正文与选择出的每条日志模式模板之间的编辑距离;
第二匹配成功判断子单元,用于若所述参数泛化日志正文与选择出的某一条日志模式模板之间的编辑距离小于预设阈值,则所述参数泛化日志正文与该日志模式模板相匹配,判断匹配成功;
第二匹配失败判断子单元,用于若所述参数泛化日志正文与选择出的每条日志模式模板之间的编辑距离均不小于预设阈值,则判断匹配失败。
在本发明实施例的一些实施方式中,所述模型训练单元214,包括:
模型训练子单元,用于从所述离线日志模式序列选择多个离线日志模式子序列分别作为观测序列,使用Baum-Welch算法并行训练多个隐马尔可夫模型,得到描述网络正常运行状态的多个训练后的隐马尔可夫模型,其中,每个隐马尔科夫模型采用随机方式进行初始化,隐含状态数设为多个观测序列中日志模式的种类数的平均值。
在本发明实施例的一些实施方式中,所述训练后的隐马尔可夫模型的模型参数为:
λ=(A,B,π);
其中,
A为隐含状态转移概率矩阵:
A=[aij]N×N
式中,表示在时刻t处于状态qi的条件下在时刻t+1转移到状态qj的概率,N表示隐含状态数,M表示可观测状态数;
B为观测概率矩阵:
B=[bj(k)]N×M
式中,bj(k)=P(ot=vk|it=qj),k=1,2,…M;j=1,2,…N表示在时刻t处于状态qj的条件下生成观测vk的概率。
π为初始状态概率向量:
π=(πi)
式中,πi=P(i1=qi),i=1,2,…N表示在时刻t=1处于状态qi的概率。
在本发明实施例的一些实施方式中,所述模型训练模块21,包括:
子序列选择单元,用于采用时间窗口滑动的方法从所述离线日志模式序列中选择多个长度为T的离线日志模式子序列;
子序列概率计算单元,用于对于各所述长度为T的离线日志模式子序列,分别计算所述长度为T的离线日志模式子序列在各个所述训练后的隐马尔可夫模型下发生的概率,并选取其中最大的概率作为所述序列长度为T的离线日志模式子序列的发生概率;
正常概率阈值确定单元,用于根据各所述序列长度为T的离线日志模式子序列的发生概率,确定所述训练后的隐马尔可夫模型的正常概率阈值。
在本发明实施例的一些实施方式中,所述在线日志预处理模块23,包括:
非结构化存储单元,用于采用正则表达式提取所述原始在线日志数据的日志时间和日志正文,并添加网元信息后存储到非结构化数据库中;
数据清洗单元,用于对添加到所述非结构化数据库中的数据进行数据清洗和关键字段提取,得到在线日志数据。
在本发明实施例的一些实施方式中,所述日志模式识别模块24,包括:
参数泛化单元,用于遍历所述在线日志数据中的每条日志,对所述日志的日志正文进行参数泛化处理,得到每条日志的参数泛化日志正文;
在线日志匹配单元,用于将所述参数泛化日志正文与预设的日志模式模板列表中的日志模式模板进行匹配,将匹配得到的日志模式模板确定为所述参数泛化日志正文对应的日志所属的日志模式;
在线日志序列生成单元,用于根据所述在线日志数据中每条日志所述的日志模式,生成与所述在线日志数据对应的在线日志模式序列。
在本发明实施例的一些实施方式中,所述在线日志匹配单元,包括:
第三编辑距离计算子单元,用于计算所述参数泛化日志正文与预设的日志模式模板列表中的每条日志模式模板之间的编辑距离;
匹配结果判断子单元,用于若所述参数泛化日志正文与所述日志模式模板列表中某一条日志模式模板之间的编辑距离小于预设阈值,则判断所述参数泛化日志正文与该日志模式模板相匹配。
本发明实施例提供的电信网络故障预警装置2,与本发明前述实施例提供的电信网络故障预警方法出于相同的发明构思,具有相同的有益效果。
在上述的实施例中,提供了一种电信网络故障预警方法及装置,与之相对应的,本发明还提供一种终端设备,所述终端设备可以是具有数据运算能力的计算设备,如服务器、台式计算机等。请参考图3,图3为本发明实施例提供的一种终端设备的示意图。如图3所示,所述终端设备3包括:处理器30,存储器31,总线32和通信接口33,所述处理器30、通信接口33和存储器31通过总线32连接;所述存储器31中存储有可在所述处理器30上运行的计算机程序,所述处理器30运行所述计算机程序时执行本发明提供的电信网络故障预警方法。
其中,存储器31可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口33(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线32可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器31用于存储程序,所述处理器30在接收到执行指令后,执行所述程序,前述本发明实施例任一实施方式揭示的所述电信网络故障预警方法可以应用于处理器30中,或者由处理器30实现。
处理器30可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器30中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器30可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器31,处理器30读取存储器31中的信息,结合其硬件完成上述方法的步骤。
本发明实施例提供的终端设备与本发明实施例提供的电信网络故障预警方法出于相同的发明构思,具有相同的有益效果。
需要说明的是,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (14)

1.一种电信网络故障预警方法,其特征在于,包括:
预先根据电信网络设备在网络运行正常时期生成的原始历史日志数据训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,以及确定所述训练后的隐马尔可夫模型的正常概率阈值;
采集电信网络设备生成的原始在线日志数据;
对所述原始在线日志数据进行预处理,获得在线日志数据;
遍历所述在线日志数据中的每条日志,判断每条日志所属的日志模式,并生成与所述在线日志数据对应的在线日志模式序列;
计算所述在线日志模式序列在所述训练后的隐马尔可夫模型中出现的概率是否小于所述正常概率阈值,若是,则判断所述原始在线日志数据存在异常,发出故障预警。
2.根据权利要求1所述的电信网络故障预警方法,其特征在于,所述根据电信网络设备在网络运行正常时期生成的原始历史日志数据训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,包括:
采集电信网络设备在网络运行正常时期生成的原始历史日志数据;
对所述原始历史日志数据进行预处理,得到历史日志数据;
将所述历史日志数据按照日志正文进行聚类,生成日志模式模板,以及根据所述日志模式模板确定所述历史日志数据中每条日志所属的日志模式,生成所述历史日志数据对应的离线日志模式序列;
根据所述离线日志模式序列训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型。
3.根据权利要求2所述的电信网络故障预警方法,其特征在于,所述对所述原始历史日志数据进行预处理,得到历史日志数据,包括:
采用正则表达式提取所述原始历史日志数据的日志时间和日志正文,并添加网元信息后存储到非结构化数据库中;
对添加到所述非结构化数据库中的数据进行数据清洗和关键字段提取,得到历史日志数据。
4.根据权利要求2所述的电信网络故障预警方法,其特征在于,所述将所述历史日志数据按照日志正文进行聚类,生成日志模式模板,以及根据所述日志模式模板确定所述历史日志数据中每条日志所属的日志模式,生成所述历史日志数据对应的离线日志模式序列,包括:
对所述历史日志数据中每条日志的日志正文进行参数泛化处理,得到每条日志的参数泛化日志正文;
将相同的参数泛化日志正文进行合并,得到参数泛化日志正文列表;
定义一日志模式模板列表,并初始化为空;
遍历所述参数泛化日志正文列表中的每条参数泛化日志正文,将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,若匹配失败,则将所述参数泛化日志正文作为日志模式模板添加到所述日志模式模板列表中,若匹配成功,则将匹配得到的日志模式模板确定为所述参数泛化日志正文对应的日志所属的日志模式;
根据所述历史日志数据中每条日志所述的日志模式,生成所述历史日志数据对应的离线日志模式序列。
5.根据权利要求4所述的电信网络故障预警方法,其特征在于,所述将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,包括:
计算所述参数泛化日志正文与所述日志模式模板列表中的每条日志模式模板之间的编辑距离;
若所述参数泛化日志正文与所述日志模式模板列表中某一条日志模式模板之间的编辑距离小于预设阈值,则所述参数泛化日志正文与该日志模式模板相匹配,判断匹配成功;
若所述参数泛化日志正文与所述日志模式模板列表中每条日志模式模板之间的编辑距离均不小于预设阈值,则判断匹配失败。
6.根据权利要求4所述的电信网络故障预警方法,其特征在于,所述将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,包括:
根据所述参数泛化日志文本的文本长度,在所述日志模式模板列表中选择与所述参数泛化日志文本的文本长度差异小于预设长度阈值的多条日志模式模板;
计算所述参数泛化日志正文与选择出的每条日志模式模板之间的编辑距离;
若所述参数泛化日志正文与选择出的某一条日志模式模板之间的编辑距离小于预设阈值,则所述参数泛化日志正文与该日志模式模板相匹配,判断匹配成功;
若所述参数泛化日志正文与选择出的每条日志模式模板之间的编辑距离均不小于预设阈值,则判断匹配失败。
7.根据权利要求2所述的电信网络故障预警方法,其特征在于,所述根据所述离线日志模式序列训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,包括:
从所述离线日志模式序列选择多个离线日志模式子序列分别作为观测序列,使用Baum-Welch算法并行训练多个隐马尔可夫模型,得到描述网络正常运行状态的多个训练后的隐马尔可夫模型,其中,每个隐马尔科夫模型采用随机方式进行初始化,隐含状态数设为多个观测序列中日志模式的种类数的平均值。
8.根据权利要求7所述的电信网络故障预警方法,其特征在于,所述训练后的隐马尔可夫模型的模型参数为:
λ=(A,B,π);
其中,
A为隐含状态转移概率矩阵:
A=[aij]N×N
式中,表示在时刻t处于状态qi的条件下在时刻t+1转移到状态qj的概率,N表示隐含状态数,M表示可观测状态数;
B为观测概率矩阵:
B=[bj(k)]N×M
式中,bj(k)=P(ot=vk|it=qj),k=1,2,…M;j=1,2,…N表示在时刻t处于状态qj的条件下生成观测vk的概率。
π为初始状态概率向量:
π=(πi)
式中,πi=P(i1=qi),i=1,2,…N表示在时刻t=1处于状态qi的概率。
9.根据权利要求7所述的电信网络故障预警方法,其特征在于,所述确定所述训练后的隐马尔可夫模型的正常概率阈值,包括:
采用时间窗口滑动的方法从所述离线日志模式序列中选择多个长度为T的离线日志模式子序列;
对于各所述长度为T的离线日志模式子序列,分别计算所述长度为T的离线日志模式子序列在各个所述训练后的隐马尔可夫模型下发生的概率,并选取其中最大的概率作为所述序列长度为T的离线日志模式子序列的发生概率;
根据各所述序列长度为T的离线日志模式子序列的发生概率,确定确定所述训练后的隐马尔可夫模型的正常概率阈值。
10.根据权利要求1所述的电信网络故障预警方法,其特征在于,所述对所述原始在线日志数据进行预处理,获得在线日志数据,包括:
采用正则表达式提取所述原始在线日志数据的日志时间和日志正文,并添加网元信息后存储到非结构化数据库中;
对添加到所述非结构化数据库中的数据进行数据清洗和关键字段提取,得到在线日志数据。
11.根据权利要求1所述的电信网络故障预警方法,其特征在于,所述遍历所述在线日志数据中的每条日志,判断每条日志所属的日志模式,并生成与所述在线日志数据对应的在线日志模式序列,包括:
遍历所述在线日志数据中的每条日志,对所述日志的日志正文进行参数泛化处理,得到每条日志的参数泛化日志正文;
将所述参数泛化日志正文与预设的日志模式模板列表中的日志模式模板进行匹配,将匹配得到的日志模式模板确定为所述参数泛化日志正文对应的日志所属的日志模式;
根据所述在线日志数据中每条日志所述的日志模式,生成与所述在线日志数据对应的在线日志模式序列。
12.根据权利要求11所述的电信网络故障预警方法,其特征在于,所述将所述参数泛化日志正文与所述日志模式模板列表中的日志模式模板进行匹配,包括:
计算所述参数泛化日志正文与预设的日志模式模板列表中的每条日志模式模板之间的编辑距离;
若所述参数泛化日志正文与所述日志模式模板列表中某一条日志模式模板之间的编辑距离小于预设阈值,则判断所述参数泛化日志正文与该日志模式模板相匹配。
13.一种电信网络故障预警装置,其特征在于,包括:
模型训练模块,用于预先根据电信网络设备在网络运行正常时期生成的原始历史日志数据训练隐马尔可夫模型,得到描述网络正常运行状态的训练后的隐马尔可夫模型,以及确定所述训练后的隐马尔可夫模型的正常概率阈值;
在线日志采集模块,用于采集电信网络设备生成的原始在线日志数据;
在线日志预处理模块,用于对所述原始在线日志数据进行预处理,获得在线日志数据;
日志模式识别模块,用于遍历所述在线日志数据中的每条日志,判断每条日志所属的日志模式,并生成与所述在线日志数据对应的在线日志模式序列;
异常判断模块,用于计算所述在线日志模式序列在所述训练后的隐马尔可夫模型中出现的概率是否小于所述正常概率阈值,若是,则判断所述原始在线日志数据存在异常,发出故障预警。
14.一种终端设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至12任一项所述的电信网络故障预警方法。
CN201910319216.7A 2019-04-19 2019-04-19 电信网络故障预警方法、装置及终端设备 Pending CN110224850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910319216.7A CN110224850A (zh) 2019-04-19 2019-04-19 电信网络故障预警方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910319216.7A CN110224850A (zh) 2019-04-19 2019-04-19 电信网络故障预警方法、装置及终端设备

Publications (1)

Publication Number Publication Date
CN110224850A true CN110224850A (zh) 2019-09-10

Family

ID=67819830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910319216.7A Pending CN110224850A (zh) 2019-04-19 2019-04-19 电信网络故障预警方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN110224850A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110753038A (zh) * 2019-09-29 2020-02-04 武汉大学 一种异常检测自适应权限控制系统及方法
CN111124840A (zh) * 2019-12-02 2020-05-08 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备
CN112132195A (zh) * 2020-09-14 2020-12-25 江西山水光电科技股份有限公司 一种利用马尔科夫模型分析与预测机房故障的方法
CN112948341A (zh) * 2021-02-22 2021-06-11 京东数字科技控股股份有限公司 用于识别异常的网络设备日志的方法和装置
CN113434369A (zh) * 2021-08-10 2021-09-24 中国工商银行股份有限公司 一种网络设备告警的健康检测方法及系统
CN114245242A (zh) * 2021-12-23 2022-03-25 海南神州泰岳软件有限公司 一种用户下线检测方法、装置和电子设备
CN114254716A (zh) * 2022-03-02 2022-03-29 浙江鹏信信息科技股份有限公司 一种基于用户行为分析的高危操作识别方法及系统
CN114721861A (zh) * 2022-05-23 2022-07-08 北京必示科技有限公司 一种基于日志差异化比对的故障定位方法与系统
CN115022908A (zh) * 2022-05-11 2022-09-06 中电信数智科技有限公司 一种核心网与基站传输网络异常预测及定位的方法
CN115037634A (zh) * 2022-05-30 2022-09-09 中电信数智科技有限公司 一种基于马氏链和贝叶斯网络的k8s网络故障预测方法
CN116366477A (zh) * 2023-05-30 2023-06-30 中车工业研究院(青岛)有限公司 一种列车网络通信信号检测方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110055122A1 (en) * 2009-08-27 2011-03-03 Xerox Corporation Monitoring with adaptive dynamic classification
CN102270212A (zh) * 2011-04-07 2011-12-07 浙江工商大学 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
CN106815125A (zh) * 2015-12-02 2017-06-09 阿里巴巴集团控股有限公司 一种日志审计方法及平台
CN108241658A (zh) * 2016-12-24 2018-07-03 北京亿阳信通科技有限公司 一种日志模式发现方法及系统
CN108881194A (zh) * 2018-06-07 2018-11-23 郑州信大先进技术研究院 企业内部用户异常行为检测方法和装置
CN109359098A (zh) * 2018-10-31 2019-02-19 云南电网有限责任公司 一种调度数据网行为监测系统及方法
CN109525567A (zh) * 2018-11-01 2019-03-26 郑州云海信息技术有限公司 一种针对网站实施参数注入攻击的检测方法与系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110055122A1 (en) * 2009-08-27 2011-03-03 Xerox Corporation Monitoring with adaptive dynamic classification
CN102270212A (zh) * 2011-04-07 2011-12-07 浙江工商大学 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
CN106815125A (zh) * 2015-12-02 2017-06-09 阿里巴巴集团控股有限公司 一种日志审计方法及平台
CN108241658A (zh) * 2016-12-24 2018-07-03 北京亿阳信通科技有限公司 一种日志模式发现方法及系统
CN108881194A (zh) * 2018-06-07 2018-11-23 郑州信大先进技术研究院 企业内部用户异常行为检测方法和装置
CN109359098A (zh) * 2018-10-31 2019-02-19 云南电网有限责任公司 一种调度数据网行为监测系统及方法
CN109525567A (zh) * 2018-11-01 2019-03-26 郑州云海信息技术有限公司 一种针对网站实施参数注入攻击的检测方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱骊安: "基于隐马尔可夫模型的web 异常检测案例分析", 《软件》 *
苏春雷: "一种基于大数据和机器学习的网络威胁感知系统架构", 《工业控制计算机》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110753038A (zh) * 2019-09-29 2020-02-04 武汉大学 一种异常检测自适应权限控制系统及方法
CN111124840A (zh) * 2019-12-02 2020-05-08 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备
WO2021109578A1 (zh) * 2019-12-02 2021-06-10 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备
CN112132195A (zh) * 2020-09-14 2020-12-25 江西山水光电科技股份有限公司 一种利用马尔科夫模型分析与预测机房故障的方法
CN112132195B (zh) * 2020-09-14 2024-03-29 江西山水光电科技股份有限公司 一种利用马尔科夫模型分析与预测机房故障的方法
CN112948341A (zh) * 2021-02-22 2021-06-11 京东数字科技控股股份有限公司 用于识别异常的网络设备日志的方法和装置
CN112948341B (zh) * 2021-02-22 2024-02-09 京东科技控股股份有限公司 用于识别异常的网络设备日志的方法和装置
CN113434369A (zh) * 2021-08-10 2021-09-24 中国工商银行股份有限公司 一种网络设备告警的健康检测方法及系统
CN114245242A (zh) * 2021-12-23 2022-03-25 海南神州泰岳软件有限公司 一种用户下线检测方法、装置和电子设备
CN114245242B (zh) * 2021-12-23 2023-10-27 海南神州泰岳软件有限公司 一种用户下线检测方法、装置和电子设备
CN114254716A (zh) * 2022-03-02 2022-03-29 浙江鹏信信息科技股份有限公司 一种基于用户行为分析的高危操作识别方法及系统
CN115022908A (zh) * 2022-05-11 2022-09-06 中电信数智科技有限公司 一种核心网与基站传输网络异常预测及定位的方法
CN115022908B (zh) * 2022-05-11 2023-05-12 中电信数智科技有限公司 一种核心网与基站传输网络异常预测及定位的方法
CN114721861A (zh) * 2022-05-23 2022-07-08 北京必示科技有限公司 一种基于日志差异化比对的故障定位方法与系统
CN115037634A (zh) * 2022-05-30 2022-09-09 中电信数智科技有限公司 一种基于马氏链和贝叶斯网络的k8s网络故障预测方法
CN115037634B (zh) * 2022-05-30 2024-04-16 中电信数智科技有限公司 一种基于马氏链和贝叶斯网络的k8s网络故障预测方法
CN116366477B (zh) * 2023-05-30 2023-08-18 中车工业研究院(青岛)有限公司 一种列车网络通信信号检测方法、装置、设备及存储介质
CN116366477A (zh) * 2023-05-30 2023-06-30 中车工业研究院(青岛)有限公司 一种列车网络通信信号检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110224850A (zh) 电信网络故障预警方法、装置及终端设备
CN109034368B (zh) 一种基于dnn的复杂设备多重故障诊断方法
CN105653444B (zh) 基于互联网日志数据的软件缺陷故障识别方法和系统
CN108460397B (zh) 设备故障类型的分析方法、装置、储存介质和电子设备
CN110334208B (zh) 基于贝叶斯信念网络的lkj故障预测诊断方法和系统
CN113657461A (zh) 基于文本分类的日志异常检测方法、系统、设备及介质
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN110457304A (zh) 数据清洗方法、装置、电子设备及可读存储介质
CN118295842A (zh) 交易系统异常事件的数据处理方法、装置和服务器
CN112632000B (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
CN115964470B (zh) 一种摩托车配件的寿命预测方法及系统
CN116564539A (zh) 基于信息抽取和实体归一的医学相似病例推荐方法和系统
CN107577760B (zh) 一种基于约束规范的文本分类方法及装置
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN114064434B (zh) 一种日志异常的预警方法、装置、电子设备及存储介质
CN115617953A (zh) 一种网络业务链路故障智能诊断方法及系统
CN109522196A (zh) 一种故障日志处理的方法及装置
CN115269998A (zh) 信息推荐方法、装置、电子设备及存储介质
CN114722954A (zh) 一种针对评价信息的内容异常处理方法和装置
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统
CN111291178B (zh) 一种对话分类方法、装置、电子设备及存储介质
CN112115362A (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN117554751B (zh) 基于人工智能的电力系统故障诊断系统
Pan et al. An Intelligent Framework for Log Anomaly Detection Based on Log Template Extraction
CN114969335B (zh) 异常日志检测方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910