CN214959607U - 一种光纤存储网络大数据智慧监控和预警系统 - Google Patents

一种光纤存储网络大数据智慧监控和预警系统 Download PDF

Info

Publication number
CN214959607U
CN214959607U CN202022446741.6U CN202022446741U CN214959607U CN 214959607 U CN214959607 U CN 214959607U CN 202022446741 U CN202022446741 U CN 202022446741U CN 214959607 U CN214959607 U CN 214959607U
Authority
CN
China
Prior art keywords
information
early warning
artificial intelligence
switch
index information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202022446741.6U
Other languages
English (en)
Inventor
李挚
李焰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Creation Internet Of Things Beijing Information Technology Co ltd
Original Assignee
Digital Creation Internet Of Things Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Creation Internet Of Things Beijing Information Technology Co ltd filed Critical Digital Creation Internet Of Things Beijing Information Technology Co ltd
Priority to CN202022446741.6U priority Critical patent/CN214959607U/zh
Application granted granted Critical
Publication of CN214959607U publication Critical patent/CN214959607U/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本实用新型涉及存储区域网络领域,公开了一种光纤存储网络大数据智慧监控和预警系统,包括信息采集模块、运行信息库、人工智能引擎组件和信息展示组件;信息采集模块与所述信息入库模块相连,运行信息库分别与所述人工智能引擎组件和信息展示组件相连,人工智能引擎组件与信息展示组件相连。本实用新型通过人工智能引擎组件输出交换机和端口的状态和预警信息,预警准确率高,并通过信息展示组件提供客户端展示界面,便于全方面监控分析交换机的问题和情况,用户可及时获得SAN网络交换机因模块不稳定、链路不稳定及链路阻塞蔓延可能出现问题的预警,本实用新型为预防性维护提供了及时的指导。

Description

一种光纤存储网络大数据智慧监控和预警系统
技术领域
本实用新型涉及存储区域网络领域,具体地涉及一种光纤存储网络大数据智慧监控和预警系统。
背景技术
目前大型用户数据中心的集中数据存储都采用光纤存储交换机作为存储区域网络(Storage Area Network,SAN)连接的核心,而存储交换机和存储网络的问题将直接影响数据访问,进而影响数据库和核心交易系统,出现类似业务中断、交易失败、数据库缓慢/宕机、容灾失效,甚至交易数据丢失的潜在风险。这些事件出现的原因很多都不是传统的设备部件故障,但发生后导致的业务影响比部件故障影响更大,这其中包括:(1)端口模块老化问题,模块老化是设备出现的必然现象,在老化过程中其所有指标并未达到故障的级别,也不会出现故障报警,但老化导致的堵塞、校验错、误码所带来的主机端路径超时乃至数据库超时现象却依然可能存在,一旦出现难以通过传统监控报警,对业务连续产生重大影响;(2)慢速设备问题,在一个复杂SAN网络中,如果有慢速设备可能在影响局部的同时,进而将问题蔓延到整个交换机和级联类端口,使得整体SAN网络出现影响全网、全业务的事件。
而现有SAN监控报警的产品和方法都无法做到故障的及时发现和快速预警,并存在众多缺陷。有些产品是通过SNMP的故障告警,仅有电源风扇、板卡类故障告警,缺少固件老化、慢速设备影响等的预防性手段;有些产品和方法即使考虑到监控收发光、误码、堵塞情况的指标监控,但受到单一指标准确率低和无法确定准确阈值的限制,其监控告警大部分与实际情况不符,误报和漏报情况严重,无法作为用户维护行动的依据。
实用新型内容
本实用新型提供一种光纤存储网络大数据智慧监控和预警系统,从而解决现有技术的上述问题。
第一方面,本实用新型提供了一种光纤存储网络大数据智慧监控和预警系统,包括信息采集模块、信息数据库、人工智能引擎组件和信息展示组件;信息采集模块与所述信息数据库相连,信息数据库分别与人工智能引擎组件和信息展示组件相连,人工智能引擎组件与信息展示组件相连。
进一步的,信息采集模块,用于采集SAN光纤交换机的底层指标信息;
信息数据库,用于将信息采集模块中采集到的底层指标信息通过消息队列保存到信息数据库;采用分库分表技术保存所有SAN网络中SAN交换机设备和端口的各项指标信息、并供AI引擎和各项指标的历史信息查询使用;
人工智能引擎组件,用于接收所述信息数据库中的所有底层指标信息并采用线性回归、逻辑回归、异常检测的综合机器学习计算方法综合得出SAN整体系统中所有设备和端口的运行基线,识别出异常设备和端口,通过综合计算处理,对部件故障、指标阈值异常、综合分析异常的情况进行报警和预警通知;
信息展示组件,用于将人工智能引擎组件报警和预警通知通过界面集中展示、并提供总体报警展示和历史信息查询。
进一步的,所述底层指标信息包括每一个交换机中每一个端口的CPU内存使用率、ENC编码错误、发送接收数据帧数量、CRC校验错误、C3D数据包丢弃、 BB Credit Zero耗尽、交换机SFP(Small Form-factor Pluggable)发送接收光衰、交换机SFP温度、交换机SFP电压电流、电源状态、板卡状态和风扇状态。
ENC编码错误:ENC英文全称encoding errorcounts,编码错误计数,一旦出现这个错误计数,即表示端口出现链路上的传输编码错误。CRC校验错误:CRC 英文全称Cyclicredundancy check,循环冗余校验错误。一旦出现这个错误计数,即表示端口传输数据出现校验错误问题。C3D数据包丢弃:C3D英文全称Class 3 framediscard,即Class 3类的传输数据帧超时丢弃。一旦出现这个错误计数,即表示端口出现了丢弃传输数据包的现象。BBCredit Zero耗尽:英文全称Buffercredit Zero,即分配给端口的缓冲耗尽为0。一旦出现这个错误计数,即表示端口的缓冲被自身或其它占用耗尽。电源状态、板卡状态和风扇状态这些都是硬件部件运行状态,主要分为开、关、报错、未知四种状态,据此判断运行是否良好。
进一步的,人工智能引擎组件包括独异森林模型异常检测模块和基于时间序列的线性趋势预测模块。
本实用新型的有益效果是:本实用新型通过人工智能引擎组件能够在部件级故障告警基础上,进一步根据各个指标建立交换机健康运行的基线,将无法通过单一指标识别的问题综合定位,提前进行预警,并指导预防性维护工作。为所有使用集中光纤存储的数据中心用户提供全面的SAN监控和准确性预警,一方面消除现有产品和方法无法监控的复杂SAN网络故障,避免因此导致的大面积系统和业务瘫痪,另一方面为数据中心运维人员的主动性维护提供指导,大幅度减轻运维工作和运维压力。本实用新型通过建立人工智能引擎组件,通过大数据处理输出相应交换机和端口的状态和预警信息,预警准确率高,并且通过信息展示组件提供了客户端展示界面,便于方面监控分析交换机的问题和情况,用户可及时获得SAN网络交换机因模块不稳定、链路不稳定及链路阻塞蔓延可能出现问题的预警,本实用新型为预防性维护提供了及时的指导。
附图说明
为了更清楚地说明本实用新型实施例的技术方案,下面将对实施例所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本实用新型的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本实用新型实施例一提供的光纤存储网络大数据智慧监控和预警系统的结构示意图。
图2为本实用新型实施例一提供的光纤存储网络大数据智慧监控和预警方法的流程示意图。
具体实施方式
为了使本实用新型的目的、技术方案及优点更加清楚明白,以下结合附图,对本实用新型进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本实用新型,并不用于限定本实用新型。需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。
实施例一,本实用新型提供了一种光纤存储网络大数据智慧监控和预警系统,如图1所示,包括信息采集模块、信息数据库、人工智能引擎组件和信息展示组件;所述信息采集模块与所述信息数据库相连,信息数据库分别与所述人工智能引擎组件和所述信息展示组件相连,所述人工智能引擎组件与所述信息展示组件相连。
信息采集模块,用于采集SAN光纤交换机的底层指标信息,底层指标信息包括每一个交换机中每一个端口的CPU内存使用率、ENC编码错误、发送接收数据帧数量、CRC校验错误、C3D数据包丢弃、BB Credit Zero耗尽、交换机SFP(Small Form-factor Pluggable)发送接收光衰、交换机SFP温度、交换机SFP电压电流、电源状态、板卡状态和风扇状态。
本实施例中具有n个SAN交换机,分别为SAN交换机1、SAN交换机2、…、 SAN交换机n。信息采集模块通过IP网络连接所检测的SAN网络交换机设备,并通过snmp协议和自动化脚本按分钟级收集所有设备的底层指标信息,信息采集后送入Redis消息队列,Redis消息队列中的参数包括设备序号、端口号、时间、类别、指标值。采集后信息按照队列方式分别传送到信息数据库和人工智能引擎组件。
信息数据库,用于将信息采集模块中采集到的底层指标信息通过消息队列保存到信息数据库;采用分库分表技术保存所有SAN网络中SAN交换机设备和端口的各项指标信息、并供AI引擎和各项指标的历史信息查询使用。
信息数据库采用PG分布式数据库,并将接收的底层指标信息按照设备序号、端口号、时间、类别、指标值长期保存(历史数据可按月和年保存),在信息展示时根据不同设备、端口、时间及指标要求,将数据传送到信息展示组件中。
人工智能引擎组件,用于接收信息数据库中的所有底层指标信息并采用线性回归、逻辑回归、异常检测的综合机器学习计算方法综合得出SAN整体系统中所有设备和端口的运行基线,识别出异常设备和端口,通过综合计算处理,对部件故障、指标阈值异常、综合分析异常的情况进行报警和预警通知,预警通知包括提供预警信息。
人工智能引擎组件在按照设备序号、端口号、时间、类别、指标值接收到底层指标信息后,通过机器学习结合异常检测的独异森林模型算法和时间序列的线性趋势模型算法,不断优化整体交换机和端口的运行基线,并同时计算预测出超出基线外的异常设备和端口,异常信息将按照设备序号、端口号、时间、类别、指标值提供到预警信息中。
人工智能引擎组件包括独异森林模型异常检测模块和基于时间序列的线性趋势预测模块。独异森林模型异常检测模块用于对底层指标信息进行异常判断;基于时间序列的线性趋势预测模块用于对独异森林模型异常检测模块中被判断异常的底层指标信息进行预测分析,并获得底层指标信息中的异常信息。
信息展示组件,用于将人工智能引擎组件报警和预警通知通过界面集中展示、并提供总体报警展示和历史信息查询。
信息展示组件将实时运行信息数据库、并将人工智能引擎组件提供的预警进行展示,实时地展示交换机和端口状态,如果有人工智能引擎组件提交的预警信息,可支持根据预警信息中的设备序号、端口号、指标项等信息查询底层指标信息的具体趋势以及在一段时间的运行状态,从而进一步为预防维护提供依据。
本实施例中还提供了一种光纤存储网络大数据智慧监控和预警方法,如图2 所示,包括如下步骤:
S1)设置收集间隔时长,每隔收集间隔时长对SAN光纤交换机的底层指标信息进行采集。
步骤S1)中,SAN光纤交换机的底层指标信息包括若干个不同类型的指标信息,若干个指标信息包括每一个交换机中每一个端口的CPU内存使用率、ITW端口误码率、发送接收数据帧数量、CRC校验错误、C3数据包丢弃、bb credit耗尽、交换机SFP发送接收功率、交换机SFP温度、交换机SFP电压电流、电源状态、板卡状态和风扇状态。
S2)将采集到的SAN光纤交换机的底层指标信息加入Redis消息队列,建立信息数据库,Redis消息队列将所述底层指标信息保存至所述信息数据库中;
S3)建立人工智能引擎组件,Redis消息队列将所述底层指标信息发送至所述人工智能引擎组件中,利用人工智能引擎组件识别出底层指标信息异常值,并将底层指标信息异常值输出至信息展示组件;
S4)信息展示组件实时运行信息数据库、并根据所述人工智能引擎组件输出的底层指标信息异常值进行信息展示。
步骤S3)中,建立人工智能引擎组件,Redis消息队列将底层指标信息发送至人工智能引擎组件中,利用人工智能引擎组件识别出底层指标信息异常值,包括以下步骤:
S31)获取样本数据集,样本数据集包括若干个样本,每一个样本为历史采集到的一个间隔时长内的SAN光纤交换机的底层指标信息;底层指标信息包括若干个不同类型的指标信息,每一个类型的指标信息对应一个维度;
S32)构建独异森林IForest,独异森林IForest具有w个孤立树iTree,每个孤立树iTree是一个二叉树结构,每个孤立树iTree包含若干个节点,第一个节点为根节点,除根节点外的其他节点依次为继承节点;
S33)从训练数据集中随机选择m个样本作为第i个孤立树iTree的子样本,将第i个孤立树iTree的子样本放入第i个孤立树iTree的根节点中; i=1、2、...、w:
S34)在当前节点中随机指定一个维度、并随机产生一个切割点p,所述切割点p的取值范围为当前节点中与指定的维度相对应的指标信息的最大值和最小值之间;
S35)通过切割点p生成超平面,判断第i个孤立树iTree的子样本中的第 j个样本中与指定维度相对应的指标信息的值是否小于切割点p,若是,则将第i个孤立树iTree的子样本中与指定维度相对应的指标信息的值小于切割点p的样本放入当前节点的左继承中;若否,则将第i个孤立树iTree的子样本中与指定维度相对应的指标信息的值大于或等于切割点p的样本放入当前节点放在当前节点的右继承中;
S36)设定第i个孤立树iTree的限定高度,在继承节点中不断递归步骤 S34)和步骤S35),直到继承节点中所述第i个孤立树iTree的子样本不可再分或已到达第i个孤立树iTree的限定高度,停止递归;
S37)依次构造出w个孤立树iTree,组成独异森林IForest;
S38)人工智能引擎组件接收所述Redis消息队列中第t时刻的底层指标信息xt,将底层指标信息xt遍历每一个孤立树iTree,获得底层指标信息xt分别位于每一个孤立树iTree的高度,根据底层指标信息xt分别位于每一个孤立树 iTree的高度获得出底层指标信息xt在每一个孤立树iTree的高度平均值h(xt),计算底层指标信息xt的异常概率
Figure 958416DEST_PATH_GDA0003327994400000081
m为样本个数,c(m)的表达式为
Figure 875557DEST_PATH_GDA0003327994400000082
ζ为欧拉常数;
S39)设定异常阈值,判断第t时刻的底层指标信息xt的异常概率是否超过异常阈值,若是,则建立时异常检测模型,利用时异常检测模型对第t时刻的底层指标信息xt进行异常识别,获得底层指标信息x中的底层指标信息异常值。
时异常检测模型为Holt线性趋势模型、指数趋势模型或阻尼趋势模型。
利用时异常检测模型对第t时刻的底层指标信息xt进行异常识别,包括以下步骤:
S391)获取一段历史时间内的SAN光纤交换机的底层指标信息序列 xt-k、xt-k+1、…、xt-1、xt,xt-1表示第t-1时刻采集到的底层指标信息; xt=[x1,t x2,t … xn,t],xn,t为第t时刻采集到的底层指标信息中的第n个指标信息值;n为指标信息的总数;
S392)将底层指标信息序列反向迭代到所述时异常检测模型中,利用时异常检测模型中依次反向迭代出底层指标信息预测值,获得底层指标信息预测序列,所述底层指标信息预测序列为x′t-1、...、x′t-k+1、x′t-k,x′t-k+1为第t-k+1 时刻的底层指标信息预测值x′t-k+1, x′t-k+1=[x′1,t-k+1 x′2,t-k+1 … x′n,t-k+1],x′2,t-k+1表示第t-k+1时刻的底层指标信息预测值中的第2个指标信息预测值;
S393)计算第j时刻的底层指标信息预测值中的第f个指标信息预测值与第j时刻采集到的底层指标信息中的第f个指标信息值之间的差值,j取值为t-k、t-k+1、...、t-1,获得第f个指标信息的差值向量[Δft-k Δft-k+1 … Δft-1],第f个指标信息在第t-k+1时刻的差值Δft-k+1=|x′f,t-k+1-xf,t-k+1|,获得第f 个指标信息的差值方差
Figure 655294DEST_PATH_GDA0003327994400000091
设定第f个指标信息的方差阈值,判断所述第f个指标信息的差值方差
Figure 50503DEST_PATH_GDA0003327994400000092
是否超过所述第f个指标信息的方差阈值,若是,将底层指标信息x中的第f个指标信息作为底层指标信息异常值;若否,则表明底层指标信息x中的第f个指标信息为正常状态。
本实用新型中每一个指标信息的方差阈值是通过多次随机采集一段历史时间内正常状态下的底层指标信息,并通过重复步骤S391)至S392),进行反复校验,从而获得每一个指标信息的方差阈值。
通过采用本实用新型公开的上述技术方案,得到了如下有益的效果:
本实用新型通过建立人工智能引擎组件,通过大数据处理输出相应交换机和端口的状态和预警信息,预警准确率高,并且通过信息展示组件提供了客户端展示界面,便于方面监控分析交换机的问题和情况,用户可及时获得SAN网络交换机因模块不稳定、链路不稳定及链路阻塞蔓延可能出现问题的预警,本实用新型为预防性维护提供了及时的指导。
以上仅是本实用新型的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本实用新型原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本实用新型的保护范围。

Claims (3)

1.一种光纤存储网络大数据智慧监控和预警系统,其特征在于,包括用于采集SAN光纤交换机的底层指标信息的信息采集模块、用于通过消息队列将信息采集模块中采集到的底层指标信息进行保存的信息数据库、用于接收所述信息数据库中的所有底层指标信息,识别出异常设备和端口并进行报警和预警通知的人工智能引擎组件和用于将所述人工智能引擎组件报警和预警通知通过界面集中展示、并提供总体报警展示和历史信息查询的信息展示组件;所述信息采集模块与所述信息数据库相连,信息数据库分别与所述人工智能引擎组件和所述信息展示组件相连,所述人工智能引擎组件与所述信息展示组件相连;所述信息采集模块通过IP网络连接有n个SAN光纤交换机。
2.根据权利要求1所述的光纤存储网络大数据智慧监控和预警系统,其特征在于,所述底层指标信息包括每一个交换机中每一个端口的CPU内存使用率、ENC编码错误、发送接收数据帧数量、CRC校验错误、C3D数据包丢弃、BB Credit Zero耗尽、交换机SFP发送接收光衰、交换机SFP温度、交换机SFP电压电流、电源状态、板卡状态和风扇状态。
3.根据权利要求1所述的光纤存储网络大数据智慧监控和预警系统,其特征在于,所述人工智能引擎组件包括独异森林模型异常检测模块和基于时间序列的线性趋势预测模块。
CN202022446741.6U 2020-10-28 2020-10-28 一种光纤存储网络大数据智慧监控和预警系统 Active CN214959607U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202022446741.6U CN214959607U (zh) 2020-10-28 2020-10-28 一种光纤存储网络大数据智慧监控和预警系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202022446741.6U CN214959607U (zh) 2020-10-28 2020-10-28 一种光纤存储网络大数据智慧监控和预警系统

Publications (1)

Publication Number Publication Date
CN214959607U true CN214959607U (zh) 2021-11-30

Family

ID=79034870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202022446741.6U Active CN214959607U (zh) 2020-10-28 2020-10-28 一种光纤存储网络大数据智慧监控和预警系统

Country Status (1)

Country Link
CN (1) CN214959607U (zh)

Similar Documents

Publication Publication Date Title
CN107196804B (zh) 电力系统终端通信接入网告警集中监控系统及方法
CN107707376B (zh) 一种监控和告警的方法和系统
AU671194B2 (en) Event correlation
US10601688B2 (en) Method and apparatus for detecting fault conditions in a network
US11706079B2 (en) Fault recovery method and apparatus, and storage medium
Sasisekharan et al. Data mining and forecasting in large-scale telecommunication networks
CN111290913A (zh) 一种基于运维数据预测的故障定位可视化系统和方法
US20160315826A1 (en) Data communications performance monitoring
CN110502398B (zh) 一种基于人工智能的交换机故障预测系统及方法
KR20080044508A (ko) 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법
US20100211817A1 (en) Common chronics resolution management
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
JP2015095060A (ja) ログ分析装置及び方法
US20220294529A1 (en) Analyzing performance of fibers and fiber connections using long-term historical data
CN109491339B (zh) 一种基于大数据的变电站设备运行状态预警系统
CN113542017A (zh) 基于网络拓扑和多指标的一种网络故障定位方法
CN112085618A (zh) 一种基于频繁项集的配电设备故障因素关联性挖掘方法
CN101222369B (zh) 网元链路分时检测方法和装置
CN107483108B (zh) 一种基于sdh设备的光纤告警分析方法、装置及系统
EP2887578A1 (en) Network fault detection and location
CN112187680A (zh) 一种光纤存储网络大数据智慧监控和预警方法及系统
CN214959607U (zh) 一种光纤存储网络大数据智慧监控和预警系统
CN108446202A (zh) 一种机房设备的安全状况的判断方法
EP2887579A1 (en) Data communications performance monitoring using principal component analysis
CN111988172B (zh) 一种网络信息管理平台、装置及安全管理方法

Legal Events

Date Code Title Description
GR01 Patent grant
GR01 Patent grant