CN111124793A - 磁盘阵列控制器性能异常检测方法及系统 - Google Patents
磁盘阵列控制器性能异常检测方法及系统 Download PDFInfo
- Publication number
- CN111124793A CN111124793A CN201811294954.2A CN201811294954A CN111124793A CN 111124793 A CN111124793 A CN 111124793A CN 201811294954 A CN201811294954 A CN 201811294954A CN 111124793 A CN111124793 A CN 111124793A
- Authority
- CN
- China
- Prior art keywords
- controller
- difference value
- performance
- disk array
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 48
- 238000001514 detection method Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims description 30
- 230000002159 abnormal effect Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003491 array Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 210000002569 neuron Anatomy 0.000 description 12
- 230000004913 activation Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3034—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明实施例提供了一种磁盘阵列控制器性能异常检测方法及系统,方法包括:获取磁盘阵列当前时刻的原始控制器性能差异值,所述原始控制器性能差异值是根据磁盘阵列第一控制器的当前性能数据以及磁盘阵列第二控制器的当前性能数据获取的;将所述原始控制器性能差异值输入训练后的自编码神经网络中,输出自编码后控制器性能差异值;根据所述自编码后控制器性能差异值与原始控制器性能差异值之间的误差,检测当前时刻的磁盘阵列控制器性能。本发明实施例提供的一种磁盘阵列控制器性能异常检测方法及系统,通过自编码神经网络比对磁盘阵列两个控制器之间的性能数据差异,来实现存储控制器性能异常的准确检测,检测精度高且误警率较低。
Description
技术领域
本发明实施例涉及存储、人工智能技术领域,尤其涉及一种磁盘阵列控制器性能异常检测方法及系统。
背景技术
磁盘阵列(Redundant Arrays of Independent Drives,RAID)是由独立磁盘构成具有冗余能力的阵列,磁盘阵列控制器的速度和性能直接影响到磁盘阵列的表现。
现今的网络传输速度已经可以达到10GB/s以上,如果存储控制器达不到同等的数据处理和写入速度的话,它就会变成存储性能瓶颈。因此对存储控制器性能的监测分析至关重要。目前对存储控制器性能指标分析是通过单个控制器的单个指标设置阈值的方式。
但现有技术对磁盘阵列控制器性能的异常检测方式由于是单体分析,而异常原因往往是来自与多维情况下的联动反映,从而造成现有技术的检测方法误警率高且准确度较低,因此现在亟需一种磁盘阵列控制器性能异常检测方法来解决上述问题。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的一种磁盘阵列控制器性能异常检测方法及系统。
第一方面本发明实施例提供一种磁盘阵列控制器性能异常检测方法,包括:
获取磁盘阵列当前时刻的原始控制器性能差异值,所述原始控制器性能差异值是根据磁盘阵列第一控制器的当前性能数据以及磁盘阵列第二控制器的当前性能数据获取的;
将所述原始控制器性能差异值输入训练后的自编码神经网络中,输出自编码后控制器性能差异值;
根据所述自编码后控制器性能差异值与原始控制器性能差异值之间的误差,检测当前时刻的磁盘阵列控制器性能。
第二方面本发明实施例提供了一种磁盘阵列控制器性能异常检测系统,包括:
获取模块,用于获取磁盘阵列当前时刻的原始控制器性能差异值,所述原始控制器性能差异值是根据磁盘阵列第一控制器的当前性能数据以及磁盘阵列第二控制器的当前性能数据获取的;
自编码模块,用于将所述原始控制器性能差异值输入训练后的自编码神经网络中,输出自编码后控制器性能差异值;
检测模块,用于根据所述自编码后控制器性能差异值与原始控制器性能差异值之间的误差,检测当前时刻的磁盘阵列控制器性能。
第三方面本发明实施例提供了一种电子设备,包括:
处理器、存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的磁盘阵列控制器性能异常检测方法。
第四方面本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的磁盘阵列控制器性能异常检测方法。
本发明实施例提供的一种磁盘阵列控制器性能异常检测方法及系统,通过自编码神经网络比对磁盘阵列两个控制器之间的性能数据差异,来实现存储控制器性能异常的准确检测,检测精度高且误警率较低。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种磁盘阵列控制器性能异常检测方法流程示意图;
图2是本发明实施例提供的自编码神经网络数据流示意图;
图3是本发明实施例提供的一种磁盘阵列控制器性能异常检测系统结构示意图;
图4是本发明实施例提供的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,现有技术在进行磁盘阵列控制器性能异常检测时采用的均是对单个控制器设置单独的指标阈值进行判断。
而磁盘阵列中往往不止一个控制器,每个控制器也会具有多项性能指标,采用现有技术的这种检测方式会使得多控制器之间、多性能指标之间的联动较少,从而检测误警率较高准确度较低。
针对上述问题,图1是本发明实施例提供的一种磁盘阵列控制器性能异常检测方法流程示意图,如图1所示,包括:
101、获取磁盘阵列当前时刻的原始控制器性能差异值,所述原始控制器性能差异值是根据磁盘阵列第一控制器的当前性能数据以及磁盘阵列第二控制器的当前性能数据获取的;
102、将所述原始控制器性能差异值输入训练后的自编码神经网络中,输出自编码后控制器性能差异值;
103、根据所述自编码后控制器性能差异值与原始控制器性能差异值之间的误差,检测当前时刻的磁盘阵列控制器性能。
需要说明的是,磁盘阵列一般包括两大主要部件:控制器和磁盘柜。控制器是磁盘阵列的主要处理设备,主要部件为处理器和缓存,其功能主要为实现简单的IO操作、独立冗余磁盘阵列(Redundant Array of Independent Disks、RAID)管理等。随着技术的发展,磁盘阵列控制器也能提供各种各样的数据管理功能,例如快照、镜像、复制等。磁盘柜则包括了多块磁盘,本身既没有处理器,也没有缓存,RAID及数据管理功能通过控制器实现。
目前,多数磁盘阵列采用的是双控制器双活的方式,互为冗余,以避免单点故障,当其中某一控制器因故障失效时,将自动被另一个工作正常的控制器接管。双活是指两个控制器同时在工作,每个控制器都对所有后端总线有通路,但是每个总线平时只被其中一个控制器管理,另一个控制器不去触动,一旦其中一个控制器损坏,则另外一个控制器接管所有总线。但当单控制器运行时,整个磁盘阵列的性能将大大降低。
针对上述场景,需要能够及时检测出磁盘阵列控制器的故障情况,从而及时更换故障控制器,但若等到控制器真正故障后再告警会对业务造成不利影响,故而需要当控制器处于异常时就及时告警,从而检修人员及时排查故障,减小业务损失。
进一步的,本发明实施例提供的磁盘阵列控制器性能异常检测方法主要应用于上述双控制器双活方式的磁盘阵列中,也可以应用于其它类型的磁盘阵列中,本发明实施例对此不作具体限定。
具体的,在步骤101中,本发明实施例会按照预设的采集规则对第一控制器和第二控制器的性能数据进行采集,预设的采集规则一般为周期性,也可以由操作人员自由设置采集时刻点。第一控制器和第二控制器是同一磁盘阵列的两个控制器,性能数据包括多项通用指标所记录的数据,可以根据SMI-S协议实时采集。一般的,性能数据包括:CPU使用率(X1)、内存使用率(X2)、缓存使用率(X3)、缓存命中率(X4)、缓存读命中率(X5)、缓存写命中率(X6)、前端读I/O速率(X7,单位:操作/秒,每秒执行的平均读操作数)、前端写I/O速率(X8,单位:操作/秒,每秒执行的平均写操作数)、前端读数据速率(X9,单位:MiB/秒,每秒为读操作传输的平均MiB数)、前端写数据速率(X10,单位:MiB/秒,每秒为写操作传输的平均MiB数)、前端读响应时长(X11,单位:毫秒/操作,完成读操作所用的平均毫秒数)、前端写响应时长(X12,单位:毫秒/操作,完成写操作所用的平均毫秒数)、后端读I/O速率(X13,单位:操作/秒,每秒向后端存储资源发出的平均读操作数)、后端写I/O速率(X14,单位:操作/秒,每秒向后端存储资源发出的平均写操作数)、后端读数据速率(X15,单位:MiB/秒,每秒从后端存储资源读取的平均MiB数)、后端写数据速率(X16,单位:MiB/秒,每秒写入后端存储资源的平均MiB数)、后端读响应时长(X17,单位:毫秒/操作,后端存储资源响应读操作所用的平均毫秒数)、后端写响应时长(X18,单位:毫秒/操作,后端存储资源响应写操作所用的平均毫秒数)。
那么第一控制器在i时刻的性能数据可以表示为:
S1={X1 1,X2 1,X3 1,X4 1,X5 1,X6 1,...,X18 1},其中Xn 1表示第一控制器第i时刻的第n个性能属性数据。
同理,第二控制器在i时刻的性能数据可以表示为:
S2={X1 2,X2 2,X3 2,X4 2,X5 2,X6 2,...,X18 2},其中Xn 2表示第二控制器第i时刻的第n个性能属性数据。
而步骤101中磁盘阵列当前时刻的原始控制器性能差异值为将S1与S2做差得到,用公式可以表示为:
Di j={X1 1-X1 2,X2 1-X2 2,X3 1-X3 2,X4 1-X4 2,X5 1-X5 2...,X18 1-X18 2}
={d1,d2,d3,d4,d5,...,d18}。
需要说明的是,本发明实施例仅以18项性能指标对应的性能数据为例进行说明,具体包含的性能指标项数可以根据实际情况进行调整,对此本发明实施例不作具体限定。
在步骤102中,本发明实施例为了能够准确检测出控制器性能异常,构建了一个自编码神经网络,并预先将自编码神经网络训练好,训练后的自编码神经网络能够对输入的数据进行重建,该重建也可称为自编码过程,重建后的数据能够最大程度的趋近于控制器正常状态。那么将上述得到的原始控制器性能差异值输入训练后的自编码神经网络后,能够输出得到自编码控制器性能差异值,也可称为重建数据:
最后,在步骤103中,计算原始数据和重建数据之间的误差,可以理解的是,误差越大则说明该时刻磁盘阵列控制器状态与正常状态的差距越大,故而异常的可能性就越高,从而实现对当前时刻的磁盘阵列控制器性能的检测。
本发明实施例提供的一种磁盘阵列控制器性能异常检测方法,通过自编码神经网络比对磁盘阵列两个控制器之间的性能数据差异,来实现存储控制器性能异常的准确检测,检测精度高且误警率较低。
在上述实施例的基础上,在所述获取磁盘阵列当前的原始控制器性能差异值之前,所述方法还包括:
获取磁盘阵列预设数量的历史控制器性能差异值;
将所述历史控制器性能差异值作为训练样本集对预设的自编码神经网络进行训练,得到所述训练后的自编码神经网络。
由上述实施例的内容可知,本发明实施例提供了一个训练后的自编码神经网路来对磁盘阵列控制器性能进行检测,那么在检测之前,本发明实施例需要对预设的自编码神经网络进行训练。
首先,本发明实施例会获取大量的磁盘阵列控制器的历史性能数据,并计算每个时刻历史控制器性能差异值,从而得到一定数量的历史控制器性能差异值,将所有得到的历史控制器性能差异值作为总数据集对预设的自编码神经网络进行训练,直至预设的自编码神经网络收敛。
需要说明的是,为了提高训练时自编码神经网络的收敛速度和模型精度,本发明实施例对训练样本进行了标准化处理。具体的,本发明实施例使用了sklearn中的函数preprocessing.StandardScaler()对数据集中的所有数据进行标准化处理,公式为:(X-mean)/std。计算时对每个属性/每列分别进行,将数据按属性(按列进行)减去其均值,并除以其方差。从而将每个属性/每列来说所有数据都聚集在0附近,方差为1。经测试结果表明,标准化后的能够提高训练过程的速度和训练结果的精度。
在上述实施例的基础上,在所述将所述历史控制器性能差异值作为训练样本集对预设的自编码神经网络进行训练之前,所述方法还包括:
基于控制器的运行状态,为每个历史控制器性能差异值添加标签;
在所述训练样本集中去除标签为运行状态不正常的历史控制器性能差异值。
由上述实施例的内容可知,本发明实施例将历史数据作为训练样本集对自编码神经网络进行训练,但历史数据中可能存在控制器状态正常的数据以及控制器状态异常的数据,但本发明实施例所需要的自编码神经网络是为了尽可能模拟出控制器状态正常时的状态,故而训练集中只需要使用控制器状态的数据,故而需要将状态不正常的数据去除。
具体的,本发明实施例会预先对总数据集中每个数据进行标记,标记的依据是运行状态正常的数据记为0,运行状态异常的标记记为1,从而在进行训练之前,将标记为1的所有数据从训练样本集中去除,去除之后同时将训练集中所有数据的标记去除,使得训练集中均为控制器的运行状态正常的数据,达到训练效果。
在上述实施例的基础上,所述预设的自编码神经网络包括1个输出层、8个隐藏层以及1个输出层,其中,8个隐藏层中的前4个隐藏层为编码器,后4个隐藏层为解码器。
由上述实施例的内容可知,本发明实施例提供了一个自编码神经网络来对磁盘阵列控制器性能进行检测。图2是本发明实施例提供的自编码神经网络数据流示意图,如图2所示,本发明实施例使用深度学习框架tensorflow构建了一个自编码神经网络,该自编码神经网络包括1个输入层、8个隐藏层、1个输出层,8个隐藏层为8个Dense全连接层。输入层设置为18个神经元,输出层设置为18个神经元。8个隐藏层中前4层属于编码器,后4层属于解码器。如图2所示,每一个圆圈代表一个神经元,每个隐藏层均为全连接层,即每个神经元之间均两两连接,每条连线上有不同的权重,通过训练能够学习到权重值,当模型收敛时,得到最优权重值。具体的,自编码神经网络通过调用keras框架中的Model()类模型来搭建,通过给定输入张量和输出张量来实例化一个模型:autoencoder=Model(inputs=input_layer,outputs=decoder)。自编码神经网络将通过训练自主学习到所有参数值。例如:将训练设置为500个回合(epochs=500)、批处理大小设置为32(batch_size=32),选择均方误差MSE(Mean Squared Error)作为损失函数即目标函数(loss='mean_squared_error'),选择adam优化器用于改善传统梯度下降的学习速度(optimizer='adam')进行训练,从而自编码神经网络通过梯度下降,可以找到使目标函数最小的最优权重值,能够最大程度重建原始数据并且包含最丰富信息的压缩表示,当训练完成后将计算得出的自编码神经网络权重导出,用于之后的检测。
在上述实施例的基础上,所述将所述原始控制器性能差异值输入训练后的自编码神经网络中,输出自编码后控制器性能差异值,包括:
基于所述编码器,对所述原始控制器性能差异值进行压缩降维,得到控制器差异值的特征表示;
基于所述解码器,对所述控制器差异值的特征表示进行解压缩,得到所述自编码后控制器性能差异值。
由上述实施例的内容可知,本发明实施例提供的自编码神经网络主要包括编码器和解码器两个部分,可以理解的是,编码器的作用主要是对原始数据进行压缩降维,提取原始数据中的精髓信息,解码器则将精髓信息解压成原始信息,实现原始数据的重建。
具体的,本发明实施例提供的编码器负责完成对原始数据的压缩降维,抽取出代表各项多维运行参数的特征向量,即本发明实施例中所述的控制器差异值的特征表示。例如:输入的原始数据为18维数据,则抽取后从原本的18维降至3维。编码器中第一层设置18个神经元,选择"tanh"为激活函数,第二层设置9个神经元,选择"relu"为激活函数,第三层设置5个神经元,选择"relu"为激活函数,第四层设置3个神经元,选择"relu"为激活函数。
而本发明实施例提供的解码器负责对压缩数据的还原重建,根据抽取的特征向量,也就是控制器差异值的特征表示,对输入的各项运行参数进行重建,重建后的数据即自编码后控制器性能差异值。解码器中第一层设置3个神经元,选择'tanh'为激活函数,第二层设置5个神经元,选择'tanh'为激活函数,第三层设置9个神经元,选择'tanh'为激活函数,第四层设置18个神经元,选择"relu"为激活函数。
在上述实施例的基础上,所述根据所述自编码后控制器性能差异值与原始控制器性能差异值之间的误差,检测当前时刻的磁盘阵列控制器性能,包括:
计算误差值,所述误差值为所述自编码后控制器性能差异值与所述原始控制器性能差异值之间差值绝对值的平方计算;
若所述误差值大于预设阈值,则判断当前时刻磁盘阵列控制器异常。
由上述实施例的内容可知,本发明实施例通过对比自编码后控制器性能差异值与所述原始控制器性能差异值之间的误差来检测磁盘阵列控制器异常状态。
具体的,本发明实施例中会根据自编码后控制器性能差异值与所述原始控制器性能差异值计算一个误差值,具体计算方式为取自编码后控制器性能差异值与所述原始控制器性能差异值之间差值绝对值的平方,用公式表示为:
L(x,x′)=||x-x′||。
其中,L(x,x′)即本发明实施例中的误差值,x为自编码后控制器性能差异值,x′为原始控制器性能差异值。
在计算出误差值之后,本发明实施例会将该误差值与预先设置的阈值进行比较,如果误差值大于预设阈值则证明该时刻磁盘阵列控制器极有可能处于异常状态。
需要说明的是,本发明实施例提供的预设阈值可以根据PRC(precision recallcurve)曲线进行确定。具体的,利用sklearn.metrics.precision_recall_curve能够以精确率和召回率为轴绘制该PRC曲线,那么根据该曲线在设定合理的准确率下,将最高的召回率作为最优阈值点,从而找到该点对应的阈值。
在上述实施例的基础上,在所述若所述误差值大于预设阈值,则判断当前时刻磁盘阵列控制器异常之后,所述方法还包括:
生成告警信息,并将所述告警信息发送给目标设备。
可以理解的是,当检测出磁盘阵列控制器异常之后,本发明实施例将及时产生告警信息,并将该告警信息发送给目标设备。目标设备一般是指检修人员所使用的设备终端,当检修人员接收到该告警信息后就可以对磁盘阵列控制器进行故障排查,及时发现潜在隐患。
图3是本发明实施例提供的一种磁盘阵列控制器性能异常检测系统结构示意图,如图3所示,包括:获取模块301、自编码模块302以及检测模块303,其中:
获取模块301用于获取磁盘阵列当前时刻的原始控制器性能差异值,所述原始控制器性能差异值是根据磁盘阵列第一控制器的当前性能数据以及磁盘阵列第二控制器的当前性能数据获取的;
自编码模块302用于将所述原始控制器性能差异值输入训练后的自编码神经网络中,输出自编码后控制器性能差异值;
检测模块303用于根据所述自编码后控制器性能差异值与原始控制器性能差异值之间的误差,检测当前时刻的磁盘阵列控制器性能。
具体的如何通过获取模块301、自编码模块302以及检测模块303对磁盘阵列控制器性能异常检测可用于执行图1所示的磁盘阵列控制器性能异常检测方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实施例提供的一种磁盘阵列控制器性能异常检测系统,通过自编码神经网络比对磁盘阵列两个控制器之间的性能数据差异,来实现存储控制器性能异常的准确检测,检测精度高且误警率较低。
在上述实施例的基础上,所述磁盘阵列控制器性能异常检测系统还包括:
历史数据获取模块,用于获取磁盘阵列预设数量的历史控制器性能差异值;
训练模块,用于将所述历史控制器性能差异值作为训练样本集对预设的自编码神经网络进行训练,得到所述训练后的自编码神经网络。
在上述实施例的基础上,所述磁盘阵列控制器性能异常检测系统还包括:
标记模块,用于基于控制器的运行状态,为每个历史控制器性能差异值添加标签;
筛选模块,用于在所述训练样本集中去除标签为运行状态不正常的历史控制器性能差异值。
在上述实施例的基础上,所述预设的自编码神经网络包括1个输出层、8个隐藏层以及1个输出层,其中,8个隐藏层中的前4个隐藏层为编码器,后4个隐藏层为解码器。
在上述实施例的基础上,所述自编码模块包括:
编码器单元,用于基于所述编码器,对所述原始控制器性能差异值进行压缩降维,得到控制器差异值的特征表示;
解码器单元,用于基于所述解码器,对所述控制器差异值的特征表示进行解压缩,得到所述自编码后控制器性能差异值。
在上述实施例的基础上,所述检测模块包括:
误差值计算单元,用于计算误差值,所述误差值为所述自编码后控制器性能差异值与所述原始控制器性能差异值之间差值绝对值的平方计算;
异常判断单元,用于若所述误差值大于预设阈值,则判断当前时刻磁盘阵列控制器异常。
在上述实施例的基础上,所述磁盘阵列控制器性能异常检测系统还包括:
告警模块,用于生成告警信息,并将所述告警信息发送给目标设备。
本发明实施例提供一种电子设备,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:
图4是本发明实施例提供的电子设备的结构框图,参照图4,所述电子设备,包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和总线404,其中,处理器401,通信接口402,存储器403通过总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令,以执行如下方法:获取磁盘阵列当前时刻的原始控制器性能差异值,所述原始控制器性能差异值是根据磁盘阵列第一控制器的当前性能数据以及磁盘阵列第二控制器的当前性能数据获取的;将所述原始控制器性能差异值输入训练后的自编码神经网络中,输出自编码后控制器性能差异值;根据所述自编码后控制器性能差异值与原始控制器性能差异值之间的误差,检测当前时刻的磁盘阵列控制器性能。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取磁盘阵列当前时刻的原始控制器性能差异值,所述原始控制器性能差异值是根据磁盘阵列第一控制器的当前性能数据以及磁盘阵列第二控制器的当前性能数据获取的;将所述原始控制器性能差异值输入训练后的自编码神经网络中,输出自编码后控制器性能差异值;根据所述自编码后控制器性能差异值与原始控制器性能差异值之间的误差,检测当前时刻的磁盘阵列控制器性能。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取磁盘阵列当前时刻的原始控制器性能差异值,所述原始控制器性能差异值是根据磁盘阵列第一控制器的当前性能数据以及磁盘阵列第二控制器的当前性能数据获取的;将所述原始控制器性能差异值输入训练后的自编码神经网络中,输出自编码后控制器性能差异值;根据所述自编码后控制器性能差异值与原始控制器性能差异值之间的误差,检测当前时刻的磁盘阵列控制器性能。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行每个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种磁盘阵列控制器性能异常检测方法,其特征在于,包括:
获取磁盘阵列当前时刻的原始控制器性能差异值,所述原始控制器性能差异值是根据磁盘阵列第一控制器的当前性能数据以及磁盘阵列第二控制器的当前性能数据获取的;
将所述原始控制器性能差异值输入训练后的自编码神经网络中,输出自编码后控制器性能差异值;
根据所述自编码后控制器性能差异值与原始控制器性能差异值之间的误差,检测当前时刻的磁盘阵列控制器性能。
2.根据权利要求1所述的方法,其特征在于,在所述获取磁盘阵列当前的原始控制器性能差异值之前,所述方法还包括:
获取磁盘阵列预设数量的历史控制器性能差异值;
将所述历史控制器性能差异值作为训练样本集对预设的自编码神经网络进行训练,得到所述训练后的自编码神经网络。
3.根据权利要求2所述的方法,其特征在于,在所述将所述历史控制器性能差异值作为训练样本集对预设的自编码神经网络进行训练之前,所述方法还包括:
基于控制器的运行状态,为每个历史控制器性能差异值添加标签;
在所述训练样本集中去除标签为运行状态不正常的历史控制器性能差异值。
4.根据权利要求2所述的方法,其特征在于,所述预设的自编码神经网络包括1个输出层、8个隐藏层以及1个输出层,其中,8个隐藏层中的前4个隐藏层为编码器,后4个隐藏层为解码器。
5.根据权利要求4所述的方法,其特征在于,所述将所述原始控制器性能差异值输入训练后的自编码神经网络中,输出自编码后控制器性能差异值,包括:
基于所述编码器,对所述原始控制器性能差异值进行压缩降维,得到控制器差异值的特征表示;
基于所述解码器,对所述控制器差异值的特征表示进行解压缩,得到所述自编码后控制器性能差异值。
6.根据权利要求1所述的方法,其特征在于,所述根据所述自编码后控制器性能差异值与原始控制器性能差异值之间的误差,检测当前时刻的磁盘阵列控制器性能,包括:
计算误差值,所述误差值为所述自编码后控制器性能差异值与所述原始控制器性能差异值之间差值绝对值的平方计算;
若所述误差值大于预设阈值,则判断当前时刻磁盘阵列控制器异常。
7.根据权利要求6所述的方法,其特征在于,在所述若所述误差值大于预设阈值,则判断当前时刻磁盘阵列控制器异常之后,所述方法还包括:
生成告警信息,并将所述告警信息发送给目标设备。
8.一种磁盘阵列控制器性能异常检测系统,其特征在于,包括:
获取模块,用于获取磁盘阵列当前时刻的原始控制器性能差异值,所述原始控制器性能差异值是根据磁盘阵列第一控制器的当前性能数据以及磁盘阵列第二控制器的当前性能数据获取的;
自编码模块,用于将所述原始控制器性能差异值输入训练后的自编码神经网络中,输出自编码后控制器性能差异值;
检测模块,用于根据所述自编码后控制器性能差异值与原始控制器性能差异值之间的误差,检测当前时刻的磁盘阵列控制器性能。
9.一种电子设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811294954.2A CN111124793A (zh) | 2018-11-01 | 2018-11-01 | 磁盘阵列控制器性能异常检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811294954.2A CN111124793A (zh) | 2018-11-01 | 2018-11-01 | 磁盘阵列控制器性能异常检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111124793A true CN111124793A (zh) | 2020-05-08 |
Family
ID=70494809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811294954.2A Pending CN111124793A (zh) | 2018-11-01 | 2018-11-01 | 磁盘阵列控制器性能异常检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111124793A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129397A (zh) * | 2010-12-29 | 2011-07-20 | 深圳市永达电子股份有限公司 | 一种自适应磁盘阵列故障预测方法及系统 |
CN102521092A (zh) * | 2011-12-31 | 2012-06-27 | 曙光信息产业股份有限公司 | 硬盘测试方法和装置 |
CN106951362A (zh) * | 2015-09-18 | 2017-07-14 | Fmr有限责任公司 | 在正在进行的性能测试期间对计算机系统处理器和事务性能的实时监测 |
US20170249551A1 (en) * | 2016-02-29 | 2017-08-31 | International Business Machines Corporation | Developing an accurate dispersed storage network memory performance model through training |
CN107526660A (zh) * | 2017-09-05 | 2017-12-29 | 郑州云海信息技术有限公司 | 一种多控存储隐式alua的实现方法及装置 |
CN107943632A (zh) * | 2017-11-23 | 2018-04-20 | 郑州云海信息技术有限公司 | 一种实现多nvme盘配置服务器中各盘性能均衡的方法及系统 |
CN108304287A (zh) * | 2018-01-22 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种磁盘故障检测方法、装置以及相关设备 |
CN108431834A (zh) * | 2015-12-01 | 2018-08-21 | 首选网络株式会社 | 异常检测系统、异常检测方法、异常检测程序及学得模型的生成方法 |
-
2018
- 2018-11-01 CN CN201811294954.2A patent/CN111124793A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102129397A (zh) * | 2010-12-29 | 2011-07-20 | 深圳市永达电子股份有限公司 | 一种自适应磁盘阵列故障预测方法及系统 |
CN102521092A (zh) * | 2011-12-31 | 2012-06-27 | 曙光信息产业股份有限公司 | 硬盘测试方法和装置 |
CN106951362A (zh) * | 2015-09-18 | 2017-07-14 | Fmr有限责任公司 | 在正在进行的性能测试期间对计算机系统处理器和事务性能的实时监测 |
CN108431834A (zh) * | 2015-12-01 | 2018-08-21 | 首选网络株式会社 | 异常检测系统、异常检测方法、异常检测程序及学得模型的生成方法 |
US20170249551A1 (en) * | 2016-02-29 | 2017-08-31 | International Business Machines Corporation | Developing an accurate dispersed storage network memory performance model through training |
CN107526660A (zh) * | 2017-09-05 | 2017-12-29 | 郑州云海信息技术有限公司 | 一种多控存储隐式alua的实现方法及装置 |
CN107943632A (zh) * | 2017-11-23 | 2018-04-20 | 郑州云海信息技术有限公司 | 一种实现多nvme盘配置服务器中各盘性能均衡的方法及系统 |
CN108304287A (zh) * | 2018-01-22 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种磁盘故障检测方法、装置以及相关设备 |
Non-Patent Citations (3)
Title |
---|
DONG_LXKM: "对基于深度神经网络的Auto Encoder用于异常检测的一些思考", pages 137, Retrieved from the Internet <URL:https://blog.csdn.net/dong_lxkm/article/details/81212449> * |
沈浩老师: "深度学习 | Keras自动编码器实现信用卡欺诈侦测建模", Retrieved from the Internet <URL:https://www.zhuanzhi.ai/document/6cecc6c45919fbe2718a45d5fb9e0df7> * |
陈敏, 华中科技大学出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131673B (zh) | 基于融合神经网络模型的发动机喘振故障预测系统及方法 | |
US11294754B2 (en) | System and method for contextual event sequence analysis | |
CN112015153B (zh) | 一种无菌灌装生产线异常检测系统和方法 | |
CN113822421B (zh) | 基于神经网络的异常定位方法、系统、设备及存储介质 | |
CN110581834A (zh) | 一种通信能力开放异常检测方法和装置 | |
CN108737406A (zh) | 一种异常流量数据的检测方法及系统 | |
CN110858812A (zh) | 网元割接值守方法及装置 | |
CN111091278A (zh) | 机械设备异常检测的边缘检测模型构建方法及装置 | |
CN113255848A (zh) | 基于大数据学习的水轮机空化声信号辨识方法 | |
WO2022001125A1 (zh) | 一种存储系统的存储故障预测方法、系统及装置 | |
CN109918313B (zh) | 一种基于GBDT决策树的SaaS软件性能故障诊断方法 | |
CN108415810B (zh) | 一种硬盘状态监控方法和装置 | |
CN113037575A (zh) | 网元异常的根因定位方法、装置、电子设备及存储介质 | |
CN111949496B (zh) | 一种数据检测方法及装置 | |
CN113112038B (zh) | 智能监测与诊断分析系统、装置、电子设备及存储介质 | |
CN112418460A (zh) | 工程车辆的故障诊断方法和故障诊断装置 | |
CN113536658A (zh) | 基于stm32嵌入式处理器的机电设备轻量化故障诊断方法 | |
CN111124793A (zh) | 磁盘阵列控制器性能异常检测方法及系统 | |
CN117194163A (zh) | 一种计算机设备、故障检测系统、方法及可读存储介质 | |
CN110399278B (zh) | 基于数据中心异常监控的告警融合系统及方法 | |
KR102572317B1 (ko) | 순환신경망 기반의 장단기 기억신경망을 통한 부정맥 분류 방법 | |
CN110838925B (zh) | 一种高危网元操作指令识别方法和装置 | |
CN115460061A (zh) | 基于智能运维场景的健康度评价方法及装置 | |
CN115617604A (zh) | 基于图像模式匹配的磁盘故障预测方法及系统 | |
CN114861753A (zh) | 一种基于大规模网络的数据分类方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200508 |
|
RJ01 | Rejection of invention patent application after publication |