CN111563022B

CN111563022B - 一种集中式存储器监控方法和装置

Info

Publication number: CN111563022B
Application number: CN202010397119.2A
Authority: CN
Inventors: 袁未未; 王延生; 马晓平; 邓罡; 冯汀; 冯毅; 张云飞; 王欣; 龚文
Original assignee: China Travelsky Technology Co Ltd
Current assignee: China Travelsky Technology Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2023-09-05
Anticipated expiration: 2040-05-12
Also published as: CN111563022A

Abstract

本发明提供了一种集中式存储器监控方法和装置，通过获得集中式存储器在第一时间段内的至少一种性能指标的性能数据；将第一时间段内的至少一种性能指标的性能数据输入预设的动态基线模型中，获得预设的动态基线模型输出的第二时间段内的所述至少一种性能指标的第一动态基线，其中，所述第二时间段晚于所述第一时间段；获得所述集中式存储器在所述第二时间段内的至少一种性能指标的性能数据；将所述第二时间段内的至少一种性能指标的性能数据与所述第一动态基线对比，根据对比结果确定所述至少一种性能指标是否在所述第二时间段内异常，若出现异常，则生成所述至少一种性能指标的异常信息，并发送给报警平台。由此监控和预测集中式存储器的性能。

Description

一种集中式存储器监控方法和装置

技术领域

本发明涉及计算机领域，特别涉及一种集中式存储器监控方法和装置。

背景技术

随着科学技术的发展，集中式存储器业务量在不断增长，存储规模也在不断增长，集中式存储器的管理慢慢从单台分散发展到了多台，虽然集中式管理平台的出现为运维人员管理多台集中式存储器提供了便利，但仍旧不能满足高效运维的需求。

这就对集中式存储器的管理和监控提出了更高的要求，例如集中式存储器的性能是影响存储器能否正常提供服务、业务能否正常运行的关键因素，目前还没有对集中式存储器的性能进行监控并预测集中式存储器未来性能走势的方案。

发明内容

有鉴于此，本发明提供一种集中式存储器监控方法和装置，可以实现监控集中式存储器的性能并且可以预测集中式存储器未来的性能走势，以致于运维人员可以及时发现性能瓶颈，降低业务风险。

为了实现上述发明目的，本发明提供以下技术方案：

第一方面，本发明提供了一种集中式存储器监控方法，包括：

获得集中式存储器在第一时间段内的至少一种性能指标的性能数据；

将所述第一时间段内的至少一种性能指标的性能数据输入预设的动态基线模型中，获得所述预设的动态基线模型输出的第二时间段内的所述至少一种性能指标的第一动态基线，其中，所述第二时间段晚于所述第一时间段；

获得所述集中式存储器在所述第二时间段内的至少一种性能指标的性能数据；

将所述第二时间段内的至少一种性能指标的性能数据与所述第一动态基线对比，根据对比结果确定所述至少一种性能指标是否在所述第二时间段内异常，若出现异常，则生成所述至少一种性能指标的异常信息，并发送给报警平台。

结合第一方面，在某些可选的实施方式中，所述方法还包括：

周期获得当前日志组，所述当前日志组包括：所述集中式存储器的当前日志文件、交换机的当前日志文件以及应用服务器的当前日志文件；

若获得针对第一应用服务器的报警信息，则从所述当前日志组中获得所述第一应用服务器的当前日志文件，并从所述当前日志组中获得第一日志组，所述第一日志组包括如下日志文件中的至少一个：

与所述第一应用服务器连接的集中式存储器的当前日志文件、与所述第一应用服务器连接的交换机的当前日志文件、与所述第一应用服务器连接的其他应用服务器的当前日志文件；

根据所述第一日志组和所述第一应用服务器的当前日志文件，确定所述报警信息的报警原因。

结合第一方面，在某些可选的实施方式中，所述从所述当前日志组中获得所述第一应用服务器的当前日志文件，并从所述当前日志组中获得第一日志组，包括：

从所述报警信息中获得所述第一应用服务器的标识；

从预先建立的设备连接表中获得与所述第一应用服务器连接的其他应用服务器的标识，从所述设备连接表中获得与所述第一应用服务器连接的集中式存储器的标识，从所述设备连接表中获得与所述第一应用服务器连接的交换机的标识；

从所述当前日志组中查找分别与获得的各标识对应的当前日志文件，其中，当前日志文件与产生当前日志文件的设备的标识具有对应关系。

结合第一方面，在某些可选的实施方式中，所述根据所述第一日志组和所述第一应用服务器的当前日志文件，确定所述报警信息的报警原因，包括：

从所述第一应用服务器的当前日志文件中获得所述报警信息的报警时间和报警关键字；

在所述第一日志组和所述第一应用服务器的当前日志文件中，搜索包括所述报警关键字且异常时间与所述报警时间匹配的异常信息；

对搜索到的所述异常信息进行分析，确定所述报警信息的报警原因。

结合第一方面，在某些可选的实施方式中，所述获得集中式存储器在第一时间段内的至少一种性能指标的性能数据，包括：

从数据存储服务器中获得集中式存储器在第一时间段内的至少一种性能指标的性能数据，其中，所述数据存储服务器中的所述性能数据是所述数据存储服务器根据所述集中式存储器的配置项信息通过所述集中式存储器开放的API接口从所述集中式存储器中获得的，其中，所述配置项信息至少包括：所述集中式存储器的管理网络地址。

结合第一方面，在某些可选的实施方式中，在所述将所述第一时间段内的至少一种性能指标的性能数据输入预设的动态基线模型中，获得所述预设的动态基线模型输出的第二时间段内的所述至少一种性能指标的第一动态基线之前，所述方法还包括：

根据所述第一时间段内的第一性能指标的性能数据，获得所述第一性能指标的性能数据的时间序列；

对所述时间序列进行预处理，获得初始时间序列，所述预处理包括：对所述时间序列中的缺失值进行填补，和/或对所述时间序列中的异常值进行修复。

结合上一个实施方式，在某些可选的实施方式中，所述预设的动态基线模型包括：时间序列分解算法、差分自回归移动平均模型和三次指数平滑法，所述将所述第一时间段内的至少一种性能指标的性能数据输入预设的动态基线模型中，获得所述预设的动态基线模型输出的第二时间段内的所述至少一种性能指标的第一动态基线，包括：

通过时间序列分解算法将所述初始时间序列分解成时间序列组，所述时间序列组至少包括第一时间序列和第二时间序列；

将所述第一时间序列输入至所述差分自回归移动平均模型，获得所述差分自回归移动平均模型预测的第一预测时间序列；

使用所述三次指数平滑法对所述第二时间序列进行指数平滑处理，获得第二预测时间序列；

将所述第一预测时间序列和所述第二预测时间序列进行合并处理，获得第三预测时间序列；

对所述第三预测时间序列的上限和/或下限进行调整，获得所述第一性能指标的第一动态基线。

结合第一方面，在某些可选的实施方式中，所述将所述第二时间段内的至少一种性能指标的性能数据与所述第一动态基线对比，根据对比结果确定所述至少一种性能指标是否在所述第二时间段内异常，包括：

根据第一性能指标在第一时刻的性能数据，在获得的所述第一性能指标的第一动态基线中查找与第一时刻匹配的基线取值，其中，所述第一时刻位于所述第二时间段内；

计算所述第一性能指标在第一时刻的性能数据与所述基线取值的差值的绝对值；

判断所述差值的绝对值是否大于所述第一动态基线对应的报警阈值，若大于，则确定所述第一性能指标在所述第二时间段内异常。

监控服务器通过所述集中式存储器的配置项信息登录所述集中式存储器，并控制所述集中式存储器产生模拟报警信号并发送至所述监控服务器，其中，所述配置项信息至少包括：所述集中式存储器的标识，以及还包括所述集中式存储器的控制器的网络地址或所述集中式存储器的管理网络地址；

所述监控服务器判断是否收到所述集中式存储器发送的模拟报警信号，若没收到，则发出链路异常报警。

第二方面，本发明提供了一种集中式存储器监控装置，包括：第一性能数据获得单元、第二性能数据获得单元、动态基线获得单元、性能异常判断单元和报警单元；

所述第一性能数据获得单元，用于获得集中式存储器在第一时间段内的至少一种性能指标的性能数据；

所述动态基线获得单元，用于将所述第一时间段内的至少一种性能指标的性能数据输入预设的动态基线模型中，获得所述预设的动态基线模型输出的第二时间段内的所述至少一种性能指标的第一动态基线，其中，所述第二时间段晚于所述第一时间段；

所述第二性能数据获得单元，用于获得所述集中式存储器在所述第二时间段内的至少一种性能指标的性能数据；

所述性能异常判断单元，用于将所述第二时间段内的至少一种性能指标的性能数据与所述第一动态基线对比，根据对比结果确定所述至少一种性能指标是否在所述第二时间段内异常，若出现异常，则触发报警单元；

所述报警单元，用于生成所述至少一种性能指标的异常信息，并发送给报警平台。

综上，本发明提供了一种集中式存储器监控方法和装置，通过获得集中式存储器在第一时间段内的至少一种性能指标的性能数据；将所述第一时间段内的至少一种性能指标的性能数据输入预设的动态基线模型中，获得所述预设的动态基线模型输出的第二时间段内的所述至少一种性能指标的第一动态基线，其中，所述第二时间段晚于所述第一时间段；获得所述集中式存储器在所述第二时间段内的至少一种性能指标的性能数据；将所述第二时间段内的至少一种性能指标的性能数据与所述第一动态基线对比，根据对比结果确定所述至少一种性能指标是否在所述第二时间段内异常，若出现异常，则生成所述至少一种性能指标的异常信息，并发送给报警平台。由此可以看出，本发明通过获取集中式存储器的性能数据，并将获得的性能数据输入至预先建立的动态基线模型中，获得动态基线模型输出的动态基线，获得的动态基线可以作为该动态基线对应的性能指标的性能预测曲线。可以根据动态基线和未来获得的实时性能数据，判断性能指标是否异常。即本发明提供的方法不仅可以实时监控集中式存储器的性能，还能对集中式存储器的性能进行预测，从而可以提前预测集中式存储器未来的性能走势，包括可能存在的性能瓶颈，提前做好备用预案，可以降低业务风险。本发明还可以根据之前预测的结果和当前的实时性能数据，判断集中式存储器的当前性能是否存在异常，可以及时发现集中式存储器的性能异常情况，避免因性能异常对业务造成不利影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1示出了本发明实施方式提供的一种集中式存储器监控方法的流程示意图；

图2示出了本发明实施方式提供的另一种集中式存储器监控方法的流程示意图；

图3示出了本发明实施方式提供的一种集中式存储器监控装置的结构示意图。

具体实施方式

本发明公开了一种集中式存储器监控方法和装置，本领域技术人员可以借鉴本文内容，适当改进工艺参数实现。特别需要指出的是，所有类似的替换和改动对本领域技术人员来说是显而易见的，它们都被视为包括在本发明。本发明的方法及应用已经通过较佳实施例进行了描述，相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的方法和应用进行改动或适当变更与组合，来实现和应用本发明技术。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

其中，在本申请实施例的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在集中式系统中，数据会统一存储在某个集中式存储节点，该存储节点的存储器即为集中式存储器。集中式系统中的数据存储服务器通过交换机和集中式存储器连接，集中式存储器向所有与其连接的数据存储服务器提供数据存储和读取服务。

目前，集中式存储器广泛应用于可靠性要求较高的业务场景中，通常作为共享存储器使用，即集中式存储器向所有与其连接的数据存储服务器提供数据存储和读取服务。在集中式系统中，数据存储节点和计算节点的分离，保证了数据的完整性，当某些数据存储服务器发生故障时，数据存储服务器间可以迅速进行无影响切换，从而为业务提供高保障能力。

在实际中，一台集中式存储器往往提供给多套业务系统使用，这就意味着一旦该集中式存储器出现问题，可能会对多套业务系统产生影响。由此可见，集中式存储器在整个架构中起着关键作用，对于集中式存储器的管理和监控因此尤为重要。

随着业务量的增长，数据量也在不断增长，存储规模也在不断增长，这种情况下，使得对集中式存储器的监控与管理由一台分散到多台中，对集中式存储器的监控与管理的要求也更高。虽然目前集中式管理平台的出现为运维人员提供了便利，但仍旧不能满足高效运维的需求，目前的集中式管理平台对集中式存储器的监控不够全面、不够及时和不够有效。

目前的集中式管理平台可以对集中式系统中的设备的硬件状态进行监控，包括监控集中式存储器的硬件状态，硬件监控是判断集中式存储器的是否需要维护的重要条件。本申请发明人研究发现：仅靠硬件监控并无法准确判断集中式存储器的服务能力，还需要对集中式存储器的性能进行监控。目前存储厂商提供的监控软件中，一般包括硬件监控，但很少有针对集中式存储器性能指标的监控和告警，存储器的性能指标包括：容量、存储器控制器的CPU使用率和内存使用率、每秒钟的读写次数、等待Input/Output完成的时间(iowait)、带宽等，本申请发明人研究发现这些性能指标是判断集中式存储器能否正常提供服务的重要依据。另外，考虑到数据的安全性和保密性要求，一般数据中心都会使用私有的监控平台，而不会直接运用厂商提供的监控平台，即需要建设自己的监控平台，监控集中式存储器的硬件状态和性能是否正常。

对集中式存储器的监控，不仅需要实时监测集中式存储器到监控平台的网络通路、集中式存储器的硬件信息、集中式存储器的性能异常信息，还需要对集中式存储器的性能进行预测，从而预测集中式存储器的服务能力，及时预防和处理可能出现的异常情况，目前尚无一个平台能完全实现这些功能。

如图1所示，本发明提供了一种集中式存储器监控方法，包括：

S100、获得集中式存储器在第一时间段内的至少一种性能指标的性能数据；

S200、将所述第一时间段内的至少一种性能指标的性能数据输入预设的动态基线模型中，获得所述预设的动态基线模型输出的第二时间段内的所述至少一种性能指标的第一动态基线，其中，所述第二时间段晚于所述第一时间段；

S300、获得所述集中式存储器在所述第二时间段内的至少一种性能指标的性能数据；

S400、将所述第二时间段内的至少一种性能指标的性能数据与所述第一动态基线对比，根据对比结果确定所述至少一种性能指标是否在所述第二时间段内异常，若出现异常，则执行S500；

S500、生成所述至少一种性能指标的异常信息，并发送给报警平台。

可选的，图1所示方法可以应用于集中式存储器的监控设备中，该监控设备可以为与集中式存储器通信连接的监控服务器，该监控设备也可以为数据存储服务器。应用图1所示方法的监控设备中可以运行有大数据平台。

应用图1所示方法的监控设备可以获得集中式存储器的各种性能指标的性能数据，例如集中式存储器的CPU使用率、集中式存储器的内存使用率、集中式存储器的每秒读写次数、集中式存储器的宽带和集中式存储器的响应时间等。应用图1所示方法的监控设备还可以获得存储在配置项数据库的集中式存储器的配置项信息，配置项信息包括：集中式存储器的名称、位置、管理网络地址和集中式存储器中的控制器的网络地址等，本发明对此不作限制。

可选的，获得性能数据的过程可以是实时获得实时性能数据，即应用图1所示方法的监控设备可以持续不断地获得性能数据，获得的实时性能数据可以按照时间顺序存储为历史性能数据。应用图1所示方法的监控设备可以周期将当前时刻起的前一段时间内的历史性能数据输入至动态基线模型，每次输入的历史性能数据的时间长度可以固定不变的，也可以是动态的，本发明对此不作限制。

应理解，本文所说的第一时间段可以是当前时刻起的前一段时间，本文所说的第二时间段可以是动态基线模型输出的动态基线所跨越的未来的时间长度，即当前时刻起的未来一段时间，本发明对此不作限制。

应理解，应用图1所示方法的监控设备获得集中式存储器的各种性能指标的性能数据和配置信息后，应用图1所示方法的监控设备可以分别对各性能指标进行监控，例如对集中式存储器的CPU使用率进行监控，以时间为顺序，将获得的CPU使用率按时间顺序排列，并对排列后的CPU使用率进行异常值填补或修复，得到集中式存储器的CPU使用率的初始时间序列。本发明获得预设的动态基线模型的配置参数，该配置参数可以包括如下配置参数中的至少一种：

(1)预测指标所使用的模型(时间序列分解算法、差分自回归移动平均模型和三次指数平滑法)；

(2)基线的类型(上基线，下基线或上下基线)；

(3)时间序列的间隔(两个数据点间隔的秒数)；

(4)时间序列的周期长度，本发明可以是一天为一个周期长度；

(5)时间序列的季节长度，本发明可以是一周为一个季节长度。

这些配置参数可以是由工程人员现场通过鼠标和键盘等输入设备进行配置的，也可以是工程人员根据不同品牌的集中式存储器和性能指标，为相应的集中式存储器和性能指标预先建立好并存储的配置参数，仅需要根据需要预测的性能指标和集中式存储器的品牌，即可选择相应的配置参数，本发明对此不作限制。

应用图1所示方法的监控设备获得上述配置参数后，可以根据上述配置参数构建动态基线模型，然后再将初始时间序列输入到构建好的动态基线模型中，获得动态基线模型输出的动态基线。

可选的，本发明可以将一个初始时间序列输入至预设的动态基线模型中；可以同时输入多个初始时间序列，即输入不同的性能指标的初始时间序列；也可以逐一输入多个初始时间序列，本发明对此不做限制。

动态基线模型可以根据每一种性能指标的初始时间序列和配置参数，生成相应的性能指标的动态基线，该动态基线为未来一定时间内的该性能指标的预测走势，可以为预测曲线，本发明对此不作限制。

可选的，动态基线可以作为参考值，并根据运维经验制定出报警规则。例如在动态基线的基础上，对每一种性能指标在未来一定时间段内的告警阈值进行设定，包括告警阈值上限和告警阈值下限的设定。同一种性能指标在未来一定时间内的告警阈值可以是动态的，即可以持续调整的，在该时间内，不同时刻的告警阈值上限可以是不同的，告警阈值下限也可以是不同的，本发明对此不作限制。本发明可以按照报警规则对性能数据进行过滤，筛选出性能异常信息，即判断每一种性能指标的实时性能数据是否异常，若异常，则可以通过报警平台进行报警并展示异常信息。

可选的，本发明可以实时获得各种性能指标的实时性能数据，并根据报警规则判断是否需要报警，然后不断将获得实时性能数据存储到相应的性能指标的历史性能数据中。例如采用列表的方式，按照时间顺序不断将获得的新的实时性能数据填入到相应的历史性能数据列表中，不断更新历史性能数据列表，还可以将历史性能数据制成历史性能数据曲线，并不断加入新的实时性能数据，更新历史性能数据曲线，本发明对此不作限制。

可选的，对实时性能数据的异常报警方式可以是通过简单网络管理协议(SimpleNetworkManagementProtocol，SNMP)将异常信息发送给指定运维人员的账号和报警平台，本发明对报警方式不作限制。

如图2所示，可选的，在某些可选的实施方式中，图1所示方法还包括：

F100、周期获得当前日志组，所述当前日志组包括：所述集中式存储器的当前日志文件、交换机的当前日志文件以及应用服务器的当前日志文件；

F200、若获得针对第一应用服务器的报警信息，则从所述当前日志组中获得所述第一应用服务器的当前日志文件，并从所述当前日志组中获得第一日志组，所述第一日志组包括如下日志文件中的至少一个：

F300、与所述第一应用服务器连接的集中式存储器的当前日志文件、与所述第一应用服务器连接的交换机的当前日志文件、与所述第一应用服务器连接的其他应用服务器的当前日志文件；

F400、根据所述第一日志组和所述第一应用服务器的当前日志文件，确定所述报警信息的报警原因。

应理解，本发明提供的方法不仅能对集中式存储器的性能进行监控和预测，还可以对系统中的一些报警进行原因分析，特别是对于应用侧发出的报警。通过本发明提供的方法，可以及时有效地确定报警产生的原因。

其中，应用服务器是为应用程序提供服务的设备，例如手机、电脑等终端设备上安装的某应用程序的部分或全部功能需要依靠应用服务器才能实现。

可选的，本发明对于应用服务器如何产生报警，即应用服务器的监控规则不作限制，应用服务器一侧发出的报警可以是因应用程序本身有错误引起的，也可以是因系统中某些硬件端口故障引起的，或者是因某些设备故障引起的，本发明对于应用服务器如何产生报警信息不作限制。

应理解，为方便理解，本文的第一应用服务器仅是一种通俗的命名方式，不应该从名称上限制本发明的范围，在集中式系统中，针对任何一个应用服务器都可以按照本发明提供的方法对应用侧产生的报警进行根因分析，当然，也可以对集中式存储器和交换机做类似的根因分析，本发明对此不作限制。

可选的，对于整个集中式系统，本发明可以周期获取系统中的所有的集中式存储器的当前日志文件、交换机的当前日志文件和应用服务器的当前日志文件，一个系统中的所有当前日志文件可以作为当前日志组。

可选的，应用服务器有自己的监控报警系统，当应用服务器的监控报警系统监控到异常时，可以进行报警，报警信息会被应用图1所示方法的监控设备所获得，应用图1所示方法的监控设备可以对报警信息进行分析得到产生报警信息的应用服务器，例如本文所说的第一应用服务器，再获得第一应用服务器的当前日志文件，由于应用图1所示方法的监控设备一直周期获得当前日志文件组，所以可以从获得的当前日志文件组中获得第一应用服务器的当前日志文件。

可选的，在确定了产生报警信息的应用服务器为第一应用服务器后，本发明可以根据预先建立并保存好的设备间的连接关系文件。该文件可以是设备连接表，根据该设备连接表，可以确定与第一应用服务器连接的所有交换机和集中式存储器。例如设备连接表中可以包括各个设备的标识，根据各个设备的标识，可以在当前日志组中寻找到各个设备相应的当前日志文件，本发明对此不作限制。

可选的，可以分别对集中式存储器、交换机和服务器配置系统日志(syslog)，定时将当前日志文件发送到应用图1所示方法的监控设备，以此获得集中式存储器的当前日志文件。

任何可以用于表示集中式存储器、交换机和应用服务器等设备间的连接关系的方式均可以作为本发明的可选实施方式，本发明对此不作限制。

应理解，由于系统中的某个设备产生了报警，除了该设备的日志文件会记录该报警的相关信息，相应的，在与其连接的设备的日志文件中也会记载与该报警相关的信息。有时候报警产生的原因可能是应用服务器一侧的原因，也可以是与应用服务器相连接的其他设备的原因，所以通过获得应用服务器，以及与应用服务器相连接的交换机、集中式存储器、其他应用服务器等设备的当前日志文件，综合判断报警产生的根本原因，相比仅参考应用服务器的当前日志文件，本发明提供到的方法更加全面和科学。

应理解，在实际中，由于应用侧对系统中出现的故障或异常的感知是最灵敏的，即应用服务器的日志文件会最早记录故障或异常，所以本发明主要是针对应用服务器产生的报警信息进行原因分析，当然也可以对其他设备产生的报警信息进行原因分析。例如交换机和集中式存储器，本发明对此不作限制。

应理解，对应用服务器的报警信息进行原因分析，从一定程度上可以提高集中式系统确定故障原因的速度，避免因无法及时确定故障原因，影响集中式存储器的性能，从一定程度来说，提高了集中式存储器的可靠性。

可选的，在某些可选的实施方式中，所述从所述当前日志组中获得所述第一应用服务器的当前日志文件，并从所述当前日志组中获得第一日志组，包括：

从所述报警信息中获得所述第一应用服务器的标识；

应理解，由于每一台设备(集中式存储器、交换机和应用服务器)都有自己的日志文件，所以设备与日志文件可以用标识进行一一对应，例如标识可以是设备编号，本发明对此不作限制。

可选的，应用图1所示方法的监控设备通过标识可以在查找到与各个标识对应的当前日志文件，即找到相应设备的当前日志文件。例如，第一应用服务器产生的报警信息中可以携带有第一应用服务器的标识，或应用图1所示方法的监控设备可以对报警信息的来源进行跟踪，从而获得产生报警信息的第一应用服务器的标识，该标识可以是第一应用服务器的编码；然后在设备连接表中查找与第一应用服务器连接的其他设备的标识，包括：集中式存储器、交换机和其他应用服务器等设备，该设备连接表可以是提前建立并保存好的设备连接表，该设备连接表可以用于表示整个集中式系统中的所有设备间的连接关系，各个设备可以用唯一的标识进行表示；确定与第一应用服务器连接的所有设备的标识后，应用图1所示方法的监控设备可以根据标识在当前日志组中查找到各个确定的标识对应的当前日志文件，即查找到与第一应用服务器相连接的所有设备的当前日志文件，以便于对第一应用服务器发出的报警信息做全面的、综合的分析，准确确定报警产生的原因。

可选的，在某些可选的实施方式中，图2所示方法中步骤F400可以包括：

应理解，由于日志文件是不断记录设备的异常信息，一条异常信息可以对应一个报警，所以一个日志文件可能记录着多个异常信息。这多个异常信息中可能存在一样的异常信息，可能是同时记录的异常信息，也可能是不同时间点的不同异常信息，但只要该设备产生报警信息，就一定会在其日志文件中有记录。

由于相互连接的各个设备对于同一个故障的反应时间不一样，例如作为应用侧的应用服务器可能对故障的反应较快，则其日志文件对报警的记录时间会更早一些，其他的设备对于报警的记录时间可能更晚一些。所以应用图1所示方法的监控设备可以获得应用服务器的当前日志文件记录的某一个故障的异常信息的异常时间，并在与其连接的其他设备的当前日志文件中找到该异常时间点附近的对于同一个故障的异常信息，再根据获得的各个设备的日志文件中针对同一个故障记录的异常信息，对报警进行原因分析，确定报警产生的根本原因。例如：以应用侧感知到读写异常举例，出现该故障的时间为10:00:10，此时运维人员会排应用层和硬件层，硬件层包括服务器、交换机和存储，交换机侧日志，会有一条端口故障报警，时间可能为10:00:08，集中式存储器连接不到交换机时，会进行几次重试，因此出现链路报警的时间可能为10:00:15，这些告警都会写入各自的日志文件中，通过从这些日志文件获取10:00左右的信息就能获得上述所有的报警信息，就能快速定位出故障原因为交换机端口故障。

上述只是一个简单举例，整个系统中出现故障的原因非常多，光靠人工获取日志和判断会花费很长时间，通过应用图1所示方法的监控设备定时获取和分析日志，可以帮助运维人员快速获得想要信息，并参考运维经验定位故障。

可选的，在某些可选的实施方式中，图1所示方法中步骤S100可以包括：

可选的，集中式存储器的配置项信息包括：存储名称、所在机房和机柜、控制器的网络地址、厂商及维保信息等，这些配置项信息是在集中式存储器投产前，记录在配置数据库的。

可选的，在实际中，可以在数据存储服务器侧部署存储数据获取程序，该程序自动、定时从配置项数据库中获取需要监控的集中式存储器的配置项信息，并通过获取到的集中式存储器的管理网络地址远程登录集中式存储器的管理界面，然后使用集中式存储器提供的API接口获取需要收集的集中式存储器的性能数据。

可选的，也可以通过所述集中式存储器的控制器的网络地址，直接登录所述集中式存储器的至少一个控制器，从而对所述控制器下达控制指令、数据读取指令和数据写入指令等，本发明对此不作限制。

可选的，在某些可选的实施方式中，在图1所示步骤S200之前，图1所示方法还包括：

应理解，应用图1所示方法的监控设备将获得的某一种性能指标的性能数据按时间顺序排列，即可得到该性能数据对应的时间序列。例如将第一性能数据指标的性能数据，按照时间顺序排列即可得到第一性能数据的时间序列。

应理解，由于获取到的性能数据中可能存在一些异常值，例如某个时刻的值缺失，或者某个时刻的值过大或过小，所以需要对时间序列进行预处理。例如可以对缺失值填补上平均值，对于过大或过小的值也可以修改为平均值，从而得到初始时间序列，这样可以提高后续依据该初始时间序列对集中式存储器进行性能预测的准确性。

可选的，除了可以用平均值对异常值进行修复或填补，还可以根据实际的情况进行修复或填补。例如可以根据某一种性能指标的历史性能数据的特点，确定异常值的修改值或填补值，本发明对此不作限制。

可选的，经过对异常值进行修复或填补的时间序列可以作为初始时间序列。

可选的，结合上一个实施方式，在某些可选的实施方式中，所述预设的动态基线模型包括：时间序列分解算法、差分自回归移动平均模型和三次指数平滑法，图1所示步骤S200可以包括：

应理解，本文所述的时间序列组，除了可以包括第一时间序列和第二时间序列，还可以包括其他时间序列。即时间序列分解算法可以将初始时间序列分解为不少于2条时间序列。为方便理解，本文将时间序列组中的除第一时间序列和第二时间序列以外的其他序列统称为余项序列，该余项序列至少包括一条时间序列，例如随机分量的时间序列。

由于在获得第三预测时间序列时仅是根据第一时间序列和第二时间序列进行计算得到，所以可以对第三预测时间序列的上限和下限进行调整。调整的方式可以是根据余项序列，对第三预测时间序列的上限和下限进行调整。例如，可以将分解得到的随机分量的时间序列与第三预测时间序列箱线图的上边缘的取值作为所述第三预测时间序列的上限，将分解得到的随机分量的时间序列与第三预测时间序列箱线图下边缘的取值作为所述第三预测时间序列的下限。本发明对调整第三预测时间序列的上限和下限的方式不作限制，任何可行的调整方式均属于本发明的可选实施方式。

应理解，经调整后的第三预测时间序列更接近该初始时间序列未来一段时间内的理想性能走势，对集中式存储器性能的预测更准确。

箱形图(Box-plot)又称为盒须图、盒式图或箱线图，是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用，常见于品质管理。它主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较。箱线图的绘制方法是：先找出一组数据的上边缘、下边缘、中位数和两个四分位数；然后，连接两个四分位数画出箱体；再将上边缘和下边缘与箱体相连接，中位数在箱体中间。

应理解，时间序列分解算法(Seasonal-TrenddecompositionprocedurebasedonLoess，STL)是基于局部加权回归的季节趋势分解算法，该算法基于局部加权回归(LOESS)将某时刻的数据Yv分解为趋势分量、周期分量和余项，即Yv＝Tv+Sv+Rvv＝1。该算法的输入包括：时间序列、时间序列的周期长度、时间序列的季节长度；输出包括：趋势分量、周期分量和余项。

可选的，在本方案中，通过时间序列分解算法可以将每一种性能指标的初始时间序列从数值上分解为两个时间序列，分别为数值上较平稳的第一时间序列和数值上较不平稳的第二时间序列。

应理解，差分自回归移动平均模型(AutoRegressiveIntegrateMovingAverageModel，ARIMA)是时间预测分析方法之一。在式子ARIMA(p,d,q)中，p为自回归项数，q为滑动平均项数，d为使之成为平稳序列所做的差分次数(阶数)。该模型的输入为：模型参数p、d和q，以及预测参数历史序列和预测序列的长度，输出为平稳的预测序列。

可选的，通过将第一时间序列输入至该模型，可以获得对第一时间进行预测的平稳的第一预测时间序列。

应理解，三次指数平滑模型(HoltWinters)是时间预测分析方法之一。对含有线性趋势和周期波动的非平稳序列适用，利用指数平滑法(EMA)让模型参数不断适应非平稳序列的变化，并对未来趋势进行短期预测。三次指数平滑法则可以预测具有趋势和季节性的时间序列。在式子holtWinters(α,β,γ)中，α为原始序列的平滑参数，β为趋势值的平滑参数，γ为周期值的平滑参数。该模型的输入包括：模型参数α、β、γ，以及预测参数历史序列、历史序列的周期长度和预测序列的长度，输出为：含有线性趋势和周期波动的非平稳预测时间序列。

可选的，通过三次指数平滑法可以将数据值上较不平稳的第二时间序列进行指数平滑处理，获得含有线性趋势和周期波动的第二预测时间序列。

可选的，获得第一预测时间序列和第二时间序列后，需要将两个时间序列在数值上进行合并，即两个预测时间序列的相同时刻的数值进行相加，得到第三预测时间序列，再对该预测时间序列进行各个时刻的上限或下限的调整，若所预测的是某一种性能指标的上限，则相应的是对上限进行调整；若所预测的是某一种性能指标的下限，则相应的是对下限进行调整，也可以同时预测某一种性能指标的上限和下限，则相应的需要同时对上限和下限进行调整，调整值可以根据该性能指标的历史数据和运维人员的经验就行设定，本发明对此不作限制。

应理解，调整后的第三预测时间序列可以作为该性能指标的第一动态基线，即可以为该性能指标的性能预测曲线。

可选的，获得某一种性能指标的动态基线后，应用图1所示方法的监控设备还可以根据该性能指标的最新历史性能数据，通过上述获得动态基线的方法，周期重新生成该性能指标的动态基线，不断提高该动态基线预测集中式存储器性能的准确性。

可选的，在某些可选的实施方式中，图1所示步骤S400可以包括：

应理解，动态基线作为性能预测曲线，可以预测未来一段时间内的某个集中式存储器的某种性能指标的性能数据。当所预测的时刻来临时，可以以动态基线中该时刻的预测值为标准，即基线取值，判断所预测的集中式存储器的相应性能指标在该时刻的性能数据与预测值的差距是否大于规定的报警阈值，若大于，则说明该性能指标可能异常，可以对该性能指标进行报警。

可选的，除了采用差值的方式，还可以采用其他方法，例如比值，平均值等方式判断性能指标是否异常，本发明对此不作限制。

可选的，在某些可选的实施方式中，图1所示方法还包括：

应理解，在获取集中式存储器的性能数据之前，可以先对通信链路进行探测，判断通信链路是否通畅，包括：集中式存储器到监控服务器的网络链路和集中式存储器到交换机到服务器(数据存储服务器、应用服务器和监控服务器)的网络链路。

应理解，通过至少一个集中式存储器的控制器的网络地址，可以远程登录集中式存储器的至少一个控制器。从而可以控制登录成功的控制产生模拟报警信号，并发送给监控服务器，由此测试通信链路是否通畅。

可选的，也可以根据集中式存储器的管理网络地址先登录集中式存储器，再根据所述集中式存储器的至少一个控制器的网络地址，登录集中式存储器的至少一个控制器。再通过该控制器产生模拟报警信号，测试通信链路是否正常。通过这种双层登录的方式，可以提高对集中式存储器的保护，安全性更高。本发明对如何登录集中式存储器不作限制，任何可行的方式均属于本发明的保护范围。

可选的，对于集中式存储器到交换机到服务器(数据存储服务器、应用服务器和监控服务器)的网络链路，可以通过检测服务器到集中式存储器的控制器的链路状态以及IO性能数据，实现端到端探测。

可选的，对于集中式存储器到监控服务器的网络链路，可以通过在集中式存储器一端开启SNMP，并配置相关参数；编写程序从配置项数据库中获取集中式存储器的配置项信息，包括：存储名称、位置、管理网络地址和所有控制器的网络地址；在监控服务器侧编写和定时执行Shell及Python程序，程序的功能包括批量远程登录需要监控的集中式存储器、并控制集中式存储器的控制器执行指令产生模拟报警、判段模拟报警是否生成成功、判断模拟报警是否发送至监控服务器，报警平台判断是否收到该集中式存储器的模拟报警，如收到，则流程结束；否则，升级事件为报警，展示在报警平台，并通知相关人员进行检查和维护。

可选的，本方案除了可以对集中式存储器的性能异常进行报警，还可以对硬件异常进行报警，包括主动和被动两种方式，在被动方式下，可以在集中式存储器一侧配置SNMP相关策略，使得当集中式存储器发生硬件故障时，第一时间将硬件故障信息发送到指定邮箱和报警平台；在主动方式下，在被动报警出现问题无法及时通知到维护人时，主动报警可以提供保障，实现方式为在监控服务器侧部署脚本，通过相关指令，主动定时获取集中式存储器相关硬件状态信息，并根据既定规则，筛选需要关注的硬件报警信息，包括：控制器、内存、磁盘、网络部件的报警信息，将筛选出的信息通过SNMP发送至报警平台，将报警信息展示在报警平台，同时通过邮件发送给指定维护人，从而使得运维人员及时获知存储硬件异常信息并及时进行维护。

如图3所示，第二方面，本发明提供了一种集中式存储器监控装置，包括：第一性能数据获得单元100、第二性能数据获得单元300、动态基线获得单元200、性能异常判断单元400和报警单元500；

所述第一性能数据获得单元100，用于获得集中式存储器在第一时间段内的至少一种性能指标的性能数据；

所述动态基线获得单元200，用于将所述第一时间段内的至少一种性能指标的性能数据输入预设的动态基线模型中，获得所述预设的动态基线模型输出的第二时间段内的所述至少一种性能指标的第一动态基线，其中，所述第二时间段晚于所述第一时间段；

所述第二性能数据获得单元300，用于获得所述集中式存储器在所述第二时间段内的至少一种性能指标的性能数据；

所述性能异常判断单元400，用于将所述第二时间段内的至少一种性能指标的性能数据与所述第一动态基线对比，根据对比结果确定所述至少一种性能指标是否在所述第二时间段内异常，若出现异常，则触发报警单元500；

所述报警单元500，用于生成所述至少一种性能指标的异常信息，并发送给报警平台。

结合第二方面，在某些可选的实施方式中，所述装置还包括：当前日志组获得单元、第一日志组获得单元和报警原因确定单元；

所述当前日志组获得单元，用于周期获得当前日志组，所述当前日志组包括：所述集中式存储器的当前日志文件、交换机的当前日志文件以及应用服务器的当前日志文件；

所述第一日志组获得单元，用于若获得针对第一应用服务器的报警信息，则从所述当前日志组中获得所述第一应用服务器的当前日志文件，并从所述当前日志组中获得第一日志组，所述第一日志组包括如下日志文件中的至少一个：

所述报警原因确定单元，用于根据所述第一日志组和所述第一应用服务器的当前日志文件，确定所述报警信息的报警原因。

结合前一个装置，在某些可选的实施方式中，所述第一日志组获得单元，包括：应用服务器标识获得单元、其他设备标识获得单元和日志查找单元；

所述应用服务器标识获得单元，用于从所述报警信息中获得所述第一应用服务器的标识；

所述其他设备标识获得单元，用于从预先建立的设备连接表中获得与所述第一应用服务器连接的其他应用服务器的标识，从所述设备连接表中获得与所述第一应用服务器连接的集中式存储器的标识，从所述设备连接表中获得与所述第一应用服务器连接的交换机的标识；

所述日志查找单元，用于从所述当前日志组中查找分别与获得的各标识对应的当前日志文件，其中，当前日志文件与产生当前日志文件的设备的标识具有对应关系。

结合前述第二个装置，在某些可选的实施方式中，所述报警原因确定单元，包括：第一应用服务器关键信息获得单元、当前日志文件异常信息搜索单元和报警原因确定子单元；

所述第一应用服务器关键信息获得单元，用于从所述第一应用服务器的当前日志文件中获得所述报警信息的报警时间和报警关键字；

所述当前日志文件异常信息搜索单元，用于在所述第一日志组和所述第一应用服务器的当前日志文件中，搜索包括所述报警关键字且异常时间与所述报警时间匹配的异常信息；

所述报警原因确定子单元，用于对搜索到的所述异常信息进行分析，确定所述报警信息的报警原因。

结合第二方面，在某些可选的实施方式中，所述第一性能数据获得单元100，具体用于：

结合第二方面，在某些可选的实施方式中，所述装置还包括：性能数据排序单元和初始时间序列获得单元；

所述性能数据排序单元，用于根据所述第一时间段内的第一性能指标的性能数据，获得所述第一性能指标的性能数据的时间序列；

所述初始时间序列获得单元，用于对所述时间序列进行预处理，获得初始时间序列，所述预处理包括：对所述时间序列中的缺失值进行填补，和/或对所述时间序列中的异常值进行修复。

结合上一个实施方式，在某些可选的实施方式中，所述动态基线获得单元200，包括：时间序列分解算法单元、差分自回归移动平均模型单元、三次指数平滑法单元、时间序列合并单元和动态基线获得子单元；

所述时间序列分解算法单元，用于通过时间序列分解算法将所述预处理后的初始时间序列分解成时间序列组，所述时间序列组至少包括第一时间序列和第二时间序列；

所述差分自回归移动平均模型单元，用于将所述第一时间序列输入至所述差分自回归移动平均模型，获得所述差分自回归移动平均模型预测的第一预测时间序列；

所述三次指数平滑法单元，用于使用所述三次指数平滑法对所述第二时间序列进行指数平滑处理，获得第二预测时间序列；

所述时间序列合并单元，用于将所述第一预测时间序列和所述第二预测时间序列进行合并处理，获得第三预测时间序列；

所述动态基线获得子单元，用于对所述第三预测时间序列的上限和/或下限进行调整，获得所述第一性能指标的第一动态基线。

结合第二方面，在某些可选的实施方式中，所述性能异常判断单元400，包括：基线取值单元、计算差值单元和性能异常判断子单元；

所述基线取值单元，用于根据第一性能指标在第一时刻的性能数据，在获得的所述第一性能指标的第一动态基线中查找与第一时刻匹配的基线取值，其中，所述第一时刻位于所述第二时间段内；

所述计算差值单元，用于计算所述第一性能指标在第一时刻的性能数据与所述基线取值的差值的绝对值；

所述性能异常判断子单元，用于判断所述差值的绝对值是否大于所述第一动态基线对应的报警阈值，若大于，则确定所述第一性能指标在所述第二时间段内异常。

结合第二方面，在某些可选的实施方式中，所述装置还包括：模拟报警控制单元和模拟报警判断单元；

所述模拟报警控制单元，用于监控服务器通过所述集中式存储器的配置项信息登录所述集中式存储器，并控制所述集中式存储器产生模拟报警信号并发送至所述监控服务器，其中，所述配置项信息至少包括：所述集中式存储器的标识，以及还包括所述集中式存储器的控制器的网络地址或所述集中式存储器的管理网络地址；

所述模拟报警判断单元，用于所述监控服务器判断是否收到所述集中式存储器发送的模拟报警信号，若没收到，则发出链路异常报警。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种集中式存储器监控方法，其特征在于，包括：

将所述第二时间段内的至少一种性能指标的性能数据与所述第一动态基线对比，根据对比结果确定所述至少一种性能指标是否在所述第二时间段内异常，若出现异常，则生成所述至少一种性能指标的异常信息，并发送给报警平台；

所述将所述第二时间段内的至少一种性能指标的性能数据与所述第一动态基线对比，根据对比结果确定所述至少一种性能指标是否在所述第二时间段内异常，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述从所述当前日志组中获得所述第一应用服务器的当前日志文件，并从所述当前日志组中获得第一日志组，包括：

从所述报警信息中获得所述第一应用服务器的标识；

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一日志组和所述第一应用服务器的当前日志文件，确定所述报警信息的报警原因，包括：

5.根据权利要求1所述的方法，其特征在于，所述获得集中式存储器在第一时间段内的至少一种性能指标的性能数据，包括：

6.根据权利要求1所述的方法，其特征在于，在所述将所述第一时间段内的至少一种性能指标的性能数据输入预设的动态基线模型中，获得所述预设的动态基线模型输出的第二时间段内的所述至少一种性能指标的第一动态基线之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述预设的动态基线模型包括：时间序列分解算法、差分自回归移动平均模型和三次指数平滑法，所述将所述第一时间段内的至少一种性能指标的性能数据输入预设的动态基线模型中，获得所述预设的动态基线模型输出的第二时间段内的所述至少一种性能指标的第一动态基线，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

监控服务器通过所述集中式存储器的配置项信息登录所述集中式存储器，并控制所述集中式存储器产生模拟报警信号并发送至所述监控服务器，其中，所述配置项信息包括：所述集中式存储器的标识，以及还包括所述集中式存储器的控制器的网络地址或所述集中式存储器的管理网络地址；

9.一种集中式存储器监控装置，其特征在于，包括：第一性能数据获得单元、第二性能数据获得单元、动态基线获得单元、性能异常判断单元和报警单元；

所述报警单元，用于生成所述至少一种性能指标的异常信息，并发送给报警平台；

所述性能异常判断单元将所述第二时间段内的至少一种性能指标的性能数据与所述第一动态基线对比，根据对比结果确定所述至少一种性能指标是否在所述第二时间段内异常，包括：