CN110502398B - 一种基于人工智能的交换机故障预测系统及方法 - Google Patents

一种基于人工智能的交换机故障预测系统及方法 Download PDF

Info

Publication number
CN110502398B
CN110502398B CN201910773347.2A CN201910773347A CN110502398B CN 110502398 B CN110502398 B CN 110502398B CN 201910773347 A CN201910773347 A CN 201910773347A CN 110502398 B CN110502398 B CN 110502398B
Authority
CN
China
Prior art keywords
fault
interval
throughput
index value
packet loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910773347.2A
Other languages
English (en)
Other versions
CN110502398A (zh
Inventor
匙凯
于富东
杨林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Jlu Communication Design Institute Co ltd
Original Assignee
Jilin Jlu Communication Design Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Jlu Communication Design Institute Co ltd filed Critical Jilin Jlu Communication Design Institute Co ltd
Priority to CN201910773347.2A priority Critical patent/CN110502398B/zh
Publication of CN110502398A publication Critical patent/CN110502398A/zh
Application granted granted Critical
Publication of CN110502398B publication Critical patent/CN110502398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种基于人工智能的交换机故障预测系统及方法,属于IDC内交换机的故障预测领域,包括故障关联分析模块、时序数据预测模块、故障实时预测模块及故障指标关联知识库;本发明通过故障关联分析模块、时序数据预测模块以及故障预测模块三部分识别出故障和性能指标之间的关系,从而推断出未来短期内即将发送故障,而非异常,进而准确预报交换机故障的具体位置,实现对于故障的精准预测,本发明引入人工智能技术,通过关联分析和时序预测技术,实现故障的提前预测,指导人工介入,提高了交换机的运行稳定性,降低了IDC内交换机设备的运维成本。

Description

一种基于人工智能的交换机故障预测系统及方法
技术领域
本发明属于IDC内交换机的故障预测领域,具体涉及一种基于人工智能的交换机故障预测系统及方法。
背景技术
互联网数据中心IDC内存在着大量的网络设备,交换机是最典型的设备,通常一个大型的IDC内的交换机数量将达到千余台,每个交换机承载的网络流量巨大,甚至可达TB/S级别,当发生交换机的故障时(如端口失效、闪断、负载不均衡等),将会对业务带来灾难性的影响,所以针对于交换机的监控是IDC网络设备运维的重中之重。
目前,针对于IDC内交换机的监控和运维方法一般包括如下几种情况:
(1)通过交换机自身提供的SNMP协议接口,将交换机运行数据采集并集中存储,利用自研或开源的第三方监控平台实现监控,如通过SNMP协议采集数据,存储于influxdb数据库,并通过grafana工具进行可视化展示。展示交换机的各端口健康度、网络流量、丢包率等,同时实时曲线的方式在页面展示,方便运维人员的查看并分析可能潜在的故障;
(2)在(1)的基础之上,针对于各类指标进行告警功能的支持,即设定一些基本的阈值,当实际指标触发阈值,则认为发生故障,并通过邮件或短信告警,通知运维人员处理故障;
(3)逐步引用了人工智能技术,如通过异常监测技术,避免了人工设定固定式的阈值工作,对于交换机历史的运行指标进行训练,得到模型,继而通过模型来监测实时运行指标的异常与否,针对异常点进行告警和通知。
但现有方法主要存在如下缺陷:
①现有技术(1)中,采用SNM协议接口采集交换机自身的指标,从而可视化的方式,只是一种被动式的监控方法,需要运维人员随时关注可视化页面,并判断出指标的问题,较依赖于运维人员的经验;可能存在交换机故障漏查的情况。
②相比现有技术(1),不同的是现有技术(2)提供了故障的判断机制,即简单的固定阈值方式,该方式虽然减少了运维人员的检测成本,但是也带来了诸多问题,如固定阈值过于生硬,往往会带来误报和漏报;另外人为设定的故障并不一定就代表着真实的故障,告警仅代表着指标的劣化而已,还未到引起故障的地步;
现有技术(3)实现了对于交换机故障监控的一个跨越,引入人工智能里面的异常检测技术,即通过历史数据中归纳来的规律来判断实时的指标情况,降低了运维的成本,同时也降低了误报或漏报的比率,但是该方法也仅仅停留在异常的层面上,因为异常同样仅代表指标的劣化,并不能直接断定交换机将很快发生故障,可能异常指标劣化速度较慢,半个月后才带来故障,那么该方法其实很难保证故障预测的准确性和有效性。
发明内容
本发明的目的是提供一种基于人工智能的交换机故障预测系统及方法,能够识别出故障和性能指标之间的关系;推断出未来短期内即将发生故障,而非异常,同时能够将交换机故障的具体位置预报准确。
本发明为实现上述目的采用的技术方案是:
一种基于人工智能的交换机故障预测方法,其特征在于,包括如下步骤:
步骤1:故障关联分析模块获取故障管理系统中的历史故障数据,并根据故障管理系统中的历史故障数据识别出交换机历次故障的发生位置、故障类别和故障发生前后N分钟内吞吐量、延迟及丢包率三个性能指标的变化规律之间的关系,得到故障属性信息条目,并对故障属性条目进行文本聚类,经过聚类后按照关系型数据库存储规则存储至故障指标关联知识库中,其中,1≤N≤10;
其中,故障属性信息条目由故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间九个字段组成;
其中,关系型数据库存储规则为故障指标关联知识库内每条存储条目由类簇编号、类簇包含故障数、故障名称、故障位置、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间共十个字段构成;
步骤2:时序数据预测模块采集交换机所有端口的吞吐量、延迟及丢包率三个性能指标的实时数据,利用ARIMA算法预测出下一分钟各个性能指标的值,同时将吞吐量、延迟及丢包率三个性能指标的当前值和下一分钟预测值传送给故障实时预测模块;
步骤3:故障实时预测模块接收时序数据预测模块向其传送的数据,计算每个性能指标的当前指标值区间和变化率区间,识别性能指标的变化特征,并根据性能指标的变化特征在故障指标关联知识库内查找,发现匹配的存储条目,则取出存储条目的全部字段,进行可视化展示。
其中,所述吞吐量当前指标值区间、延迟当前指标值区间及丢包率当前指标值区间均由如下方式获得:将一分钟内性能指标的最大值与最小值之间平均划分成五个区间,分别为EL很低、SL偏低、C普通、SH偏高及EH很高五个区间编码,当前指标值处在哪个区间,则采用对应的区间编码表示。
其中,所述吞吐量变化率区间、延迟变化率区间及丢包率变化率区间均由如下方式获得:当前指标值与前一分钟指标值的差分计算,得出相应分钟与前一分钟的变化比例,按照增加不足10%、增加在10%~30%之间、增加在30%~60%之间、增加大于60%、降低不足10%、降低在10%~30%之间、降低在30%~60%之间、降低大于60%共划分出八个区间,分别为A10、A130、A360、A610、R10、R130、R360及R610八个区间编码,变化比例介于哪一个区间就采用对应的区间编码表示。
一种基于人工智能的交换机故障预测系统,其特征在于,包括:故障关联分析模块、时序数据预测模块、故障实时预测模块及故障指标关联知识库;
所述故障关联分析模块用于根据故障管理系统中的历史故障数据,识别出交换机历次故障的发生位置、故障类别和故障发生前后N分钟内吞吐量、延迟及丢包率三个性能指标的变化规律之间的关系,得到故障属性信息条目,并对故障属性条目进行文本聚类,经过聚类后将其发送至故障指标关联知识库,其中,1≤N≤10;
其中,故障属性信息条目由故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间九个字段组成;
所述故障指标关联知识库用于接收故障关联分析模块向其发送的数据,并将其所接收的数据按照关系型数据库存储规则进行存储;
其中,关系型数据库存储规则为故障指标关联知识库内每条存储条目由类簇编号、类簇包含故障数、故障名称、故障位置、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间共十个字段构成;
所述时序数据预测模块用于实时采集交换机所有端口的吞吐量、延迟及丢包率三个性能指标的数据,并将其所采集的数据利用ARIMA算法预测出下一分钟各个性能指标的值,并将吞吐量、延迟及丢包率三个性能指标的当前值和下一分钟预测值传送给故障实时预测模块;
所述故障实时预测模块用于接收时序数据预测模块向其传送的数据,计算每个性能指标的当前指标值区间和变化率区间,识别性能指标的变化特征,并根据性能指标的变化特征在故障指标关联知识库内查找,发现匹配的存储条目,则取出存储条目的全部字段,进行可视化展示。
通过上述设计方案,本发明可以带来如下有益效果:本发明通过故障关联分析模块、时序数据预测模块以及故障预测模块三部分识别出故障和性能指标之间的关系,从而推断出未来短期内即将发送故障,而非异常,进而准确预报交换机故障的具体位置,实现对于故障的精准预测,本发明引入人工智能技术,通过关联分析和时序预测技术,实现故障的提前预测,指导人工介入,提高了交换机的运行稳定性,降低了IDC内交换机设备的运维成本。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明示意性实施例及其说明用于理解本发明,并不构成本发明的不当限定,在附图中:
图1为根据本发明实施例所述的基于人工智能的交换机故障预测方法原理图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。本领域技术人员应当理解。下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。为了避免混淆本发明的实质,公知的方法和过程并没有详细的叙述。
如图1所示,一种基于人工智能的交换机故障预测系统,包括故障关联分析模块、时序数据预测模块、故障实时预测模块及故障指标关联知识库;
所述故障关联分析模块用于根据故障管理系统(如中国移动业务支撑网运营管理系统BOMC工单系统)中存储的历史故障数据,识别出历次故障的发生位置、故障类别和故障发生前后N分钟内吞吐量TT、延迟YC及丢包率DB三个性能指标的变化规律之间的关系,其中,1≤N≤10;
故障与性能指标的关联规则挖掘过程:
a)故障和性能指标数据收集:故障关联分析模块收集故障管理系统的历史故障数据以及交换机发生故障前N分钟内性能指标数据,N的取值范围为1~10之间,如:N=1,代表着预测未来一分钟内的故障;
b)故障细分数据准备:
对步骤a)中采集的历史故障数据按照故障名称、故障发生位置及故障发生时间进行划分,同时查询故障发生前N分钟的吞吐量TT、延迟YC及丢包率DB三个性能指标的序列,每个性能指标对应一个序列,序列长度为N(当N=1时,序列即是一个分钟的取值),序列内每个值采取分钟平均值方式计算得来,由此得到一条故障的属性信息,故障的属性信息包括故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间;
故障名称如网络闪断,交换机阻塞等;
故障发生位置如X交换机Y端口的形式;
故障发生时间,精确到秒,如:2019年4月23日19点30分53秒,记为:20190423193053;
c)指标数据区间性处理:
对步骤b)得到的故障属性信息进行进一步处理,及针对吞吐量TT、延迟YC及丢包率DB三个性能指标进行扩充,实现将性能指标的变化规律特性表现出来,每个性能指标扩充为两个指标,分别为当前指标值区间A和变化率区间B,区间划分方式如下:
当前指标值区间A:将一分钟内性能指标的最大值与最小值之间平均划分成五个区间,分别为EL很低、SL偏低、C普通、SH偏高及EH很高五个区间编码,当前指标值处在哪一个区间,则采用对应的区间编码表示;
变化率区间B:按照不足10%,10%~30%,30%~60%,大于60%,以及增加和降低两个维度,共划分出八个区间,分别为A10、A130、A360、A610、R10、R130、R360及R610,此处“增加”、“降低”指的是“变化”的两类,如果指标变大则为“增加”,如果指标变小则为“降低”,前面的不足10%,10%~30%,30%~60%,大于60%共四个变化率,每个变化率都会有增加和降低两个方向,有八个区间。八个编码含义:A10代表增加不足10%,A130代表增加在10%~30%之间,A360代表增加在30%~60%之间,A610代表增加大于60%,R10代表降低不足10%,R130代表降低在10%~30%之间,R360代表降低在30%~60%之间,R610代表降低大于60%,按照当前指标值与前一分钟指标值的差分计算,计算得出相应分钟与前一分钟的变化比例,变化比例介于哪一个区间就采用对应的区间编码表示;
上述两个区间编码需要在编码前面加上指标代号,如:TT-EH,代表吞吐量当前很高;DB-R130,代表丢包率降低处于10%~30%之间。
d)经过上面的处理,每一条故障的属性信息被扩充为:
故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间,共九个字段,示例如下:
交换机阻塞/HS56交换机5号端口/20190423193053/TT-EH/TT-A10/YC-EL/YC-R610/DB-C/DB-A360;
f)选取过去一定时间段(如3个月)内所有故障数据按照前面方法构建属性信息条目,即每条故障拆为九个字段;可能产生上万级别的故障属性条目,针对所有属性条目进行文本聚类,可采用如DBSCAN/K-MEANS等算法进行。经过聚类运算将产生N类簇。每个类簇具有相似的特性,举例描述如下:
类簇一:包含258条故障,特征表述为:
交换机阻塞-5号端口-吞吐量较高-吞吐量增加30%到60%-丢包率较高-丢包率升高60%以上;
类簇二:包含562条故障,特征表述为:
交换机网络闪断-吞吐量降低60%以下-延迟较高-丢包率升高60%以上;
g)将以上各个类簇中含故障数大于M(M越大说明类簇越有效,可根据实际情况设定,存储于故障指标关联知识库内,简称为DB_FR,可使用关系型数据库存储,具体存储规则:
故障指标关联知识库内每条存储条目由类簇编号/类簇包含故障数/三个性能指标(每个指标当前指标值区间编码/指标变化率区间编码两字段)/故障名称/故障位置共十个字段。
所述故障指标关联知识库用于接收故障关联分析模块向其发送的数据,并将其所接收的数据按照关系型数据库存储规则进行存储;
所述时序数据预测模块用于实时采集交换机所有端口的吞吐量、延迟及丢包率三个性能指标的数据,并将其所采集的数据利用ARIMA算法预测出下一分钟各个性能指标的值,并将吞吐量、延迟及丢包率三个性能指标的当前值和下一分钟预测值传送给故障实时预测模块;
时序数据预测:
针对于交换机所有端口的三个性能指标(吞吐量TT/延迟YC/丢包率DB)的实时数据(同为一分钟粒度的平均值),输入到时序数据预测模块,通过时序数据的常规预测算法(如ARIMA算法),预测出未来一分钟的各个性能指标的值;将三个性能指标的当前分钟值和下一分钟预测值,共计六个值传递给故障实时预测模块。
所述故障实时预测模块用于识别性能指标的变化特征,并根据性能指标的变化特征在故障指标关联知识库内查找,发现匹配的存储条目,则取出存储条目的全部字段,进行可视化展示,其中“故障名称”和“故障位置”两个字段既可以作为即将发生(下一分钟)的故障,进行告警和通知,或结合自动化的应急手段进行故障规避;
故障实时预测过程如下:
a)实时指标特征计算:获取时序数据预测模块传过来的三个性能指标共六个值,计算每个性能指标的当前指标值区间和变化率区间(方法同前面故障与性能指标的关联的关联过程中的步骤c)所述;
b)在步骤a)内已经将性能指标的变化特征识别出来,进而通过该特征去故障指标关联知识库(简称DB_FR)内查找,如果发现故障条目,则调取出对应故障条目的全部字段,进行可视化展示,其中“故障名称”和“故障位置”两个字段既可以作为即将发生(下一分钟)的故障,进行告警和通知,或结合自动化的应急手段进行故障规避。
一种基于人工智能的交换机故障预测方法,包括如下步骤:
步骤1:故障关联分析模块获取故障管理系统中的历史故障数据,并根据故障管理系统中的历史故障数据识别出交换机历次故障的发生位置、故障类别和故障发生前后N分钟内吞吐量、延迟及丢包率三个性能指标的变化规律之间的关系,得到故障属性信息条目,并对故障属性条目进行文本聚类,经过聚类后按照关系型数据库存储规则存储至故障指标关联知识库中,其中,1≤N≤10;
其中,故障属性信息条目由故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间九个字段组成;
其中,关系型数据库存储规则为故障指标关联知识库内每条存储条目由类簇编号、类簇包含故障数、故障名称、故障位置、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间共十个字段构成;
步骤2:时序数据预测模块采集交换机所有端口的吞吐量、延迟及丢包率三个性能指标的实时数据,利用ARIMA算法预测出下一分钟各个性能指标的值,同时将吞吐量、延迟及丢包率三个性能指标的当前值和下一分钟预测值传送给故障实时预测模块;
步骤3:故障实时预测模块接收时序数据预测模块向其传送的数据,计算每个性能指标的当前指标值区间和变化率区间,识别性能指标的变化特征,并根据性能指标的变化特征在故障指标关联知识库内查找,发现匹配的存储条目,则取出存储条目的全部字段,进行可视化展示,进行告警和通知或结合自动化的应急手段进行故障规避。
本发明随着故障数据的不断积累,故障指标关联知识库的故障条目会越来越多,从而可以更高效的辅助运维人员预测出未来的故障。

Claims (4)

1.一种基于人工智能的交换机故障预测方法,其特征在于,包括如下步骤:
步骤1:故障关联分析模块获取故障管理系统中的历史故障数据,并根据故障管理系统中的历史故障数据识别出交换机历次故障的发生位置、故障类别和故障发生前后N分钟内吞吐量、延迟及丢包率三个性能指标的变化规律之间的关系,得到故障属性信息条目,并对故障属性条目进行文本聚类,经过聚类后按照关系型数据库存储规则存储至故障指标关联知识库中,其中,1≤N≤10;
其中,故障属性信息条目由故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间九个字段组成;
其中,关系型数据库存储规则为故障指标关联知识库内每条存储条目由类簇编号、类簇包含故障数、故障名称、故障位置、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间共十个字段构成;
步骤2:时序数据预测模块采集交换机所有端口的吞吐量、延迟及丢包率三个性能指标的实时数据,利用ARIMA算法预测出下一分钟各个性能指标的值,同时将吞吐量、延迟及丢包率三个性能指标的当前值和下一分钟预测值传送给故障实时预测模块;
步骤3:故障实时预测模块接收时序数据预测模块向其传送的数据,计算每个性能指标的当前指标值区间和变化率区间,识别性能指标的变化特征,并根据性能指标的变化特征在故障指标关联知识库内查找,发现匹配的存储条目,则取出存储条目的全部字段,进行可视化展示。
2.根据权利要求1所述的基于人工智能的交换机故障预测方法,其特征在于:所述吞吐量当前指标值区间、延迟当前指标值区间及丢包率当前指标值区间均由如下方式获得:将一分钟内性能指标的最大值与最小值之间平均划分成五个区间,分别为EL很低、SL偏低、C普通、SH偏高及EH很高五个区间编码,当前指标值处在哪个区间,则采用对应的区间编码表示。
3.根据权利要求1所述的基于人工智能的交换机故障预测方法,其特征在于:所述吞吐量变化率区间、延迟变化率区间及丢包率变化率区间均由如下方式获得:当前指标值与前一分钟指标值的差分计算,得出相应分钟与前一分钟的变化比例,按照增加小于10%、增加大于等于10%且小于30%、增加大于等于30%且小于等于60%、增加大于60%、降低小于10%、降低大于等于10%且小于30%、降低大于等于30%且小于等于60%、降低大于60%共划分出八个区间,分别为A10、A130、A360、A610、R10、R130、R360及R610八个区间编码,变化比例介于哪一个区间就采用对应的区间编码表示。
4.一种基于人工智能的交换机故障预测系统,其特征在于,包括:故障关联分析模块、时序数据预测模块、故障实时预测模块及故障指标关联知识库;
所述故障关联分析模块用于根据故障管理系统中的历史故障数据,识别出交换机历次故障的发生位置、故障类别和故障发生前后N分钟内吞吐量、延迟及丢包率三个性能指标的变化规律之间的关系,得到故障属性信息条目,并对故障属性条目进行文本聚类,经过聚类后将其发送至故障指标关联知识库,其中,1≤N≤10;
其中,故障属性信息条目由故障名称、故障位置、故障时间、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间九个字段组成;
所述故障指标关联知识库用于接收故障关联分析模块向其发送的数据,并将其所接收的数据按照关系型数据库存储规则进行存储;
其中,关系型数据库存储规则为故障指标关联知识库内每条存储条目由类簇编号、类簇包含故障数、故障名称、故障位置、吞吐量当前指标值区间、吞吐量变化率区间、延迟当前指标值区间、延迟变化率区间、丢包率当前指标值区间及丢包率变化率区间共十个字段构成;
所述时序数据预测模块用于实时采集交换机所有端口的吞吐量、延迟及丢包率三个性能指标的数据,并将其所采集的数据利用ARIMA算法预测出下一分钟各个性能指标的值,并将吞吐量、延迟及丢包率三个性能指标的当前值和下一分钟预测值传送给故障实时预测模块;
所述故障实时预测模块用于接收时序数据预测模块向其传送的数据,计算每个性能指标的当前指标值区间和变化率区间,识别性能指标的变化特征,并根据性能指标的变化特征在故障指标关联知识库内查找,发现匹配的存储条目,则取出存储条目的全部字段,进行可视化展示。
CN201910773347.2A 2019-08-21 2019-08-21 一种基于人工智能的交换机故障预测系统及方法 Active CN110502398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910773347.2A CN110502398B (zh) 2019-08-21 2019-08-21 一种基于人工智能的交换机故障预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910773347.2A CN110502398B (zh) 2019-08-21 2019-08-21 一种基于人工智能的交换机故障预测系统及方法

Publications (2)

Publication Number Publication Date
CN110502398A CN110502398A (zh) 2019-11-26
CN110502398B true CN110502398B (zh) 2022-03-29

Family

ID=68588426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910773347.2A Active CN110502398B (zh) 2019-08-21 2019-08-21 一种基于人工智能的交换机故障预测系统及方法

Country Status (1)

Country Link
CN (1) CN110502398B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111260127A (zh) * 2020-01-14 2020-06-09 南京悠淼科技有限公司 基于全机数字孪生模型的故障预测系统及方法
CN113127315A (zh) * 2020-01-16 2021-07-16 中移(苏州)软件技术有限公司 一种消息队列故障预测方法、装置、设备及存储介质
CN113179171B (zh) * 2020-01-24 2023-04-18 华为技术有限公司 故障检测方法、装置及系统
CN113179172B (zh) * 2020-01-24 2022-12-30 华为技术有限公司 故障检测模型的训练方法、装置及系统
CN114826867B (zh) * 2021-01-28 2023-11-17 华为技术有限公司 处理数据的方法、装置、系统及存储介质
CN115297040A (zh) * 2022-07-15 2022-11-04 四川天邑康和通信股份有限公司 一种可调节天线的路由器测试方法及系统
CN117251074B (zh) * 2023-11-13 2024-01-16 深圳市永兴盛科技有限公司 一种基于人工智能的触摸一体机管理系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598984A (zh) * 2014-12-08 2015-05-06 北京邮电大学 一种基于模糊神经网络的故障预测方法
CN106294076A (zh) * 2016-08-24 2017-01-04 浪潮(北京)电子信息产业有限公司 一种服务器关联故障预测方法及其系统
CN106789239A (zh) * 2016-12-21 2017-05-31 国网江西省电力公司信息通信分公司 面向电力业务的信息应用系统故障趋势预测方法及装置
CN108259194A (zh) * 2016-12-28 2018-07-06 普天信息技术有限公司 网络故障预警方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598984A (zh) * 2014-12-08 2015-05-06 北京邮电大学 一种基于模糊神经网络的故障预测方法
CN106294076A (zh) * 2016-08-24 2017-01-04 浪潮(北京)电子信息产业有限公司 一种服务器关联故障预测方法及其系统
CN106789239A (zh) * 2016-12-21 2017-05-31 国网江西省电力公司信息通信分公司 面向电力业务的信息应用系统故障趋势预测方法及装置
CN108259194A (zh) * 2016-12-28 2018-07-06 普天信息技术有限公司 网络故障预警方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种利用自组织映射和径向基函数神经网络的网络拥塞预测方法;葛彦强 等;《微电子学与计算机》;20121205;第176-179页 *
基于灰色粗糙集与BP神经网络的设备故障预测;郭宇 等;《计算机应用研究》;20160918;第2642-2645页 *

Also Published As

Publication number Publication date
CN110502398A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN110502398B (zh) 一种基于人工智能的交换机故障预测系统及方法
CN109981328B (zh) 一种故障预警方法及装置
CN113190421B (zh) 一种用于数据中心的设备健康状态的检测分析方法
CN103760901B (zh) 一种基于关联规则分类器的轨道交通故障识别方法
CN110830438A (zh) 一种异常日志告警方法、装置及电子设备
CN113297042B (zh) 一种告警消息的处理方法、装置及设备
CN109685399B (zh) 电力系统日志整合分析方法及系统
CN112492567B (zh) 一种应急指挥通信中的故障分析和解决方法及装置
CN116449762B (zh) 基于物联网实现智能设备的安全预警方法及装置
CN111865407A (zh) 光通道性能劣化智能预警方法、装置、设备及存储介质
CN105187239A (zh) 基于数据挖掘的通信告警分析系统及其处理方法
CN108521346B (zh) 一种基于终端数据的电信承载网异常节点定位方法
CN115774159A (zh) 高压变频器功率单元故障检测系统
CN111638989B (zh) 故障诊断方法、装置、存储介质及设备
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN112433918A (zh) 一种数据库资源监控方法及装置
CN111327442B (zh) 基于控制图的投诉预警阈值获取方法及装置
CN107450030B (zh) 一种通信蓄电池遥测数据处理方法、装置及系统
CN116582410B (zh) 一种基于itsm系统的智能运维服务方法及装置
CN117692302B (zh) 一种数据收集存储和智能监控告警的方法及系统
CN111865689B (zh) 一种基于指标集树的告警压降方法
CN114297255B (zh) 一种基于日志分析的网络品质工单故障预警方法
CN112736878B (zh) 一种电网连锁故障告警方法及系统
WO2022037536A1 (zh) 故障处理方法、装置、网络设备和存储介质
CN114095338A (zh) 一种云计算平台智能预测告警的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant