CN116307787A

CN116307787A - 一种基于指纹的服务器运维故障识别方法、定位方法

Info

Publication number: CN116307787A
Application number: CN202211093470.8A
Authority: CN
Inventors: 高尚; 陈子韵; 彭程; 黄鑫健; 徐丽燕; 孔彦茹; 李�昊; 季学纯; 张珂珩; 翟明玉
Original assignee: NARI Nanjing Control System Co Ltd
Current assignee: NARI Nanjing Control System Co Ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2023-06-23

Abstract

本发明公开了一种基于指纹的服务器运维故障识别方法、定位方法，通过对运维指标的采集、筛选、加工和转化，形成能反映服务器性能状态的“指纹”，并利用卷积神经网络学习故障指纹规律，从而实现实时发现电网调度控制系统服务器异常、快速定位故障节点、智能识别故障类型，辅助运维人员隔离故障节点，保障电网调度控制系统安全稳定运行。

Description

一种基于指纹的服务器运维故障识别方法、定位方法

技术领域

本发明属于电网技术领域，具体涉及一种基于指纹的服务器运维故障识别方法、定位方法。

背景技术

随着电网一体化运行的推进，电网调度控制领域业务范围不断扩大，应用部署的服务器数量也在不断增长。现代云计算架构为业务上线提供快速、灵活部署方案的同时，也给运维人员带来了更大的挑战。设备数量的增加和虚拟化技术的引入使得运维工作变得更加复杂，如何实现故障的快速定位和隔离都成为难题。

发明内容

发明目的：为解决设备数量增加以及虚拟化技术的引入使得难以快速定位故障和隔离故障的问题，本发明提出了一种基于指纹的服务器运维故障识别方法、定位方法；通过对运维指标的采集、筛选、加工和转化，形成能反映服务器性能状态的“指纹”，并利用卷积神经网络学习故障指纹规律，从而实现实时发现电网调度控制系统服务器异常、快速定位故障节点、智能识别故障类型，辅助运维人员隔离故障节点，保障电网调度控制系统安全稳定运行。

技术方案：一种基于指纹的服务器运维故障识别方法，包括以下步骤：

步骤1：基于与服务器运维相关的各运维指标，针对每个运维指标进行采样，得到各运维指标对应的采样值，将各运维指标对应的采样值进行重采样处理，得到各运维指标对应的运维指标数据；

步骤2：针对每个运维指标，判断其对应的运维指标数据在不同时刻时是否异常，若为异常，则该运维指标对应的运维指标数据在该时刻被标记为abnormal；若不为异常，则该运维指标对应的运维指标数据在该时刻被标记为normal；

步骤3：依据各运维指标数据在不同时刻的标记，计算得到各运维指标的异常显著度；

步骤4：按照各运维指标的异常显著度，筛选出敏感指标集；

步骤5：基于步骤4得到的敏感指标集，得到服务器性能状态指纹数据集；

步骤6：采用服务器性能状态指纹数据集对卷积神经网络模型进行训练，得到可进行故障类型识别的卷积神经网络模型；

步骤7：基于步骤4得到的敏感指标集，针对敏感指标集中的每个运维指标，进行实时采样，将实时采样到的时序数据进行预处理，得到采样矩阵，将采样矩阵输入至步骤6得到的可进行故障类型识别的卷积神经网络模型，得到故障检测结果。

进一步的，步骤2具体包括：

针对运维指标m，在t时刻的运维指标数据为m_t，以[t-T-1,t-T]时间范围内的采样值为基准，计算均值和标准差，记为mean_t和std_t；

判断m_t是否满足式(1)，若满足，则表示m_t在t时刻时异常，m_t在t时刻被标记为abnormal；若不满足，则表示m_t在t时刻时正常，m_t在t时刻被标记为normal；

m_t＜mean_t-3*std_t或m_t＞mean_t+3*std_t (1)。

进一步的，步骤3具体包括：

假设服务器的总运行时间为N，故障时间为N_a，非故障时间为N-N_a；在故障时段内，运维指标m对应的运维指标数据被标记为abnormal的次数为m_a次，在非故障时段内，运维指标m对应的运维指标数据被标记为abnormal的次数为m_b次，则运维指标m的异常显著度为：

式中，S(m)为运维指标m的异常显著度。

进一步的，步骤4具体包括：

针对服务器的每个故障类型，从与服务器运维相关的各运维指标中选出异常显著度超过阈值的k个指标，以此得到n×k个指标，其中，n为服务器的故障类型数量；

从n×k个指标中，选取出现次数大于等于2次的指标，得到敏感指标集。

进一步的，步骤5具体包括：

记当前采样时刻为t0，取敏感指标集中的每个指标在[t0-T,t0]时间范围内的时序数据，构成矩阵，该矩阵中每一列为一个指标的时序数据；

通过指标间的网络接口接收和发送数据包之差计算和网络接口接收和发送数据包之差在接收包数中的占比计算，增加新的两列数据；

对矩阵中的数据和新的两列数据分别进行一阶差分计算，并去掉因差分计算引入的首行空缺值，得到新的矩阵；

使用离差标准化方法对新的矩阵中的每一列进行线性变换，将数值映射到[0，1]区间，得到服务器性能状态指纹数据集。

进一步的，步骤6具体包括：

在服务器性能状态指纹数据集中，取故障时段的服务器性能状态指纹数据构建负样本数据集，取非故障时段的服务器性能状态指纹数据构建正样本数据集；

从负样本数据集中随机抽取a、b两个样本，选择随机系数α，α∈(0,1)，对负样本数据集中的负样本进行新增，新增的负样本为x＝α*a+(1-α)*b，以此得到新的负样本数据集；

从正样本数据集中抽取C个样本，从新的负样本数据集中抽取C个样本，将2C个样本划分为训练集、验证集和测试集；

采用训练集、验证集和测试集对基于Kares框架的三层卷积神经网络进行训练、验证和测试，当在测试集上的准确率大于90％时，得到可进行故障类型识别的卷积神经网络模型。

进一步的，所述的将实时采样到的时序数据进行预处理，得到采样矩阵，包括：

取敏感指标集中的每个指标在当前采样时刻的时序数据，构成矩阵，该矩阵中每一列为一个指标的时序数据；

使用离差标准化方法对新的矩阵中的每一列进行线性变换，将数值映射到[0，1]区间，得到采样矩阵。

进一步的，还包括步骤8：

对于同一台服务器，判断当前采样时刻的故障检测结果与上一采样时刻的故障检测结果是否为同一类故障，若为同一类故障，则判定该服务器确实发生了该故障；若不为同一类故障，则判定该服务器未发生故障。

本发明公开了一种基于指纹的服务器运维故障定位方法，包括以下步骤：

步骤1：依据电网调度控制系统部署情况和各服务器上的应用之间的调用关系建立拓扑关系图；以及基于拓扑关系图，对每个服务器的排查优先级进行计算；

步骤2：采用服务器运维故障识别方法对每个服务器进行故障监测，得到发生故障的服务器；

步骤3：判断发生故障的服务器数量是否大于等于2台，若大于等于2台，则将发生故障的服务器按照排查优先级由大到小进行排列，生成排查序列；

步骤4：按照排查序列逐一进行故障排查，最终定位到根因服务器；

所述服务器运维故障识别方法为权利要求1至6任意一项所述的一种基于指纹的服务器运维故障识别方法。

进一步的，步骤1中，所述的依据电网调度控制系统部署情况和各服务器上的应用之间的调用关系建立拓扑关系图，具体包括：

每个服务器作为一个节点，基于各服务器上的应用之间的调用关系，当两个服务器之间存在调用关系，在在两个节点之间建立一条有向边，从服务调用方指向服务被调用方，以此建立得到拓扑关系图。

进一步的，所述的基于拓扑关系图，对每个服务器的排查优先级进行计算，具体包括：

针对每个服务器，根据该服务器在拓扑关系图中的出度、入度、深度，计算得到该服务器的排查优先级：

Priority_n＝Indegree_n+Depth_n-Outdegree_n (5)

式中，Priority_n表示服务器n的排查优先级；Outdegree_n表示服务器n的出度，出度指服务器n调用多少个其他服务器；Indegree_n表示服务器n的入度，入度指服务器n被多少个服务器调用；Depth_n表示服务器n的深度，深度指人机界面到服务器n的最深深度。

有益效果：本发明与现有技术相比，具有以下优点：

(1)本发明通过选取少量指标集形成表征服务器性能的指纹，可以减少运维指标实时数据的缓存量，加快异常检测的速度；

(2)本发明利用卷积神经网络学习故障指纹规律，实现自动、准确判断故障类别；以及当同时检测到多台服务器故障时，能够基于应用部署架构按优先级生成故障定位排查序列，提升故障定位效率；

(3)本发明能辅助运维人员分析故障类型、及时隔离故障，保障电网调度控制系统安全稳定运行。

附图说明

图1为一种基于指纹的电网调度控制系统运维故障识别和定位方法的流程示意图；

图2为服务器拓扑关系示意图。

具体实施方式

现结合附图和实施例对本发明的技术方案做进一步说明。

实施例1：

本实施例的一种基于指纹的服务器运维故障识别方法，包括以下步骤：

步骤3：依据各运维指标在不同时刻的标记，计算得到各运维指标的异常显著度；

步骤4：按照各运维指标的异常显著度，筛选出敏感指标集；

实施例2：

通过对运维指标的采集、筛选、加工和转化，形成能反映服务器性能状态的“指纹”，并利用卷积神经网络学习故障指纹规律，从而实现实时发现电网调度控制系统中服务器异常，并能智能识别故障类型。

如图1所示，本实施例的一种基于指纹的服务器运维故障识别方法，主要包括以下步骤：

步骤1：电力调度控制系统运维数据采集范围包括服务器、网络设备、存储设备、电力专用设备等，对应的性能指标包括CPU使用率、磁盘使用率、磁盘读写速率、网络流量等上百个指标项。由于采样方式、采样周期、采样统计窗口存在差异，原始运维指标数据存在采样时刻、频度不统一的问题，通过重采样，使得所有运维指标的采样周期均为1分钟，得到各运维指标对应的运维指标数据；

步骤2：运维指标数据为连续时序数据，本实施例以3倍标准差方法判断单个运维指标时序数据是否异常。经过异常判断，将运维指标的连续时序数据转化为只包含“abnormal”、“normal”的序列。

具体为，服务器运维指标m，在t时刻的采样值为m_t，以t时刻之前T时间段即[t-T-1,t-T]范围内的采样值为基准，计算均值和标准差，分别记为mean_t和std_t。如果m_t满足式(1)，则认为m_t为异常，记为“abnormal”；反之认为m_t是正常，记为“normal”。本实施例中，取T＝30分钟。

m_t＜mean_t-3*std_t或m_t＞mean_t+3*std_t (1)

步骤3：计算运维指标的异常显著度。能够显著反映服务器故障的运维指标应当满足仅在故障时段有异常表现，而在正常时段没有异常表现。所以运维指标异常显著度等于服务器故障时段中该运维指标对应的运维指标数据被标记为“abnormal”的比例比上服务器正常时段中该运维指标对应的运维指标数据被标记为“abnormal”的比例。

具体的，令服务器的运行时间共N分钟，其中故障时段共N_a分钟，在故障时段内，运维指标m对应的运维指标数据被标记为“abnormal”为m_a次，在非故障时段内，运维指标m对应的运维指标数据被标记为“abnormal”的次数为m_b次，则运维指标m的异常显著度S(m)为：

步骤4：为了提高对服务器状态检测的效率，减少实时检测时的数据缓存量，按照异常显著度筛选出部分指标作为构成服务器性能状态指纹的敏感指标集。

具体的，服务器的故障类型包括：CPU故障、CPU爬升故障、内存消耗故障、磁盘空间消耗故障、磁盘读IO故障、磁盘写IO故障和网络故障。首先，针对每类故障类型，从各运维指标中选出最显著的k个指标，本实施例中，令k＝5。其次，在最显著的k个指标中，选取出现2次及以上的指标，作为构成服务器性能状态指纹的敏感指标集。在本实施例中，选取的敏感指标集包括：system.cpu.pct_usage CPU使用率、system.load.1系统负载1分钟统计值、system.mem.pct_usage内存使用率、system.disk.pct_usage磁盘使用率、ystem.io.r_await磁盘读响应时间、system.io.w_await磁盘写响应时间、system.io.svctm平均每次设备I/O操作的服务时间、system.net.packets_in.count接口接收的数据包的数目、system.net.packets_out.count接口发送的数据包的数目、system.os.nofile.current系统当前打开文件句柄数，共10个运维指标。

步骤5：记当前采样时刻为t₀，选取[t₀-T,t₀]时间范围，10个运维指标的时序数据构成T*10矩阵，即每列为一个运维指标的时序数据。本实施例中，令T＝30。

步骤6：通过运维指标间的网络接口接收和发送数据包之差计算和计算网络接口接收和发送数据包之差在网络接口接收数据中的占比计算，来增加新的列。

计算网络接口接收和发送数据包之差system.net.packets_in_out_diff.count：

system.net.packets_in_out_diff.count＝system.net.packets_in.count-system.net.packets_out.count (3)

式中，system.net.packets_in.count表示网络接口接收数据包，system.net.packets_out.count表示网络接口发送数据包。

计算网络接口接收和发送数据包之差在网络接口接收数据中的占比system.net.packets_in_out_diff.percent：

式中，system.net.packets_in_out_diff.count表示网络接口接收和发送数据包之差。

步骤7：对10列原始的时序数据和2列新的数据分别进行一阶差分计算，并去掉因差分计算引入的首行空缺值，得到(T-1)*12维矩阵。

步骤8：使用离差标准化方法对矩阵中的每一列进行线性变换，将数值映射到[0,1]区间，得到服务器性能状态指纹数据集。

步骤5至步骤8主要目的是通过对敏感指标集进行加工和转化，构成服务器性能状态指纹数据集。

步骤9：将服务器性能状态指纹数据集进行正负样本划分，具体的，故障时段的数据构建负样本数据集，非故障时段的数据构建正样本数据集。

步骤10：因故障时段短，负样本数量远远少于正样本数量，通过样本增强方法创建新的负样本。样本增强方法具体为：从原负样本数据集中随机抽取a、b两个样本，选择随机系数α，α∈(0,1)，得到新的负样本为x＝α*a+(1-α)*b，以此得到新的负样本数据集。

步骤11：从正样本数据集中抽取C个样本，从新的负样本数据集中抽取C个样本，得到2C个样本，将2C个样本按6:2:2划分为训练集、验证集、测试集。在本实施例中，使用基于Kares框架的三层卷积神经网络作为分类模型，通过调整卷积核个数、大小、模型学习率等参数，使得模型在测试集上的准确率大于90％，最终得到用于识别故障类型的卷积神经网络模型。

步骤9至步骤11的主要目的是利用卷积神经网络模型学习故障指纹规律。

步骤12：为避免数据抖动带来的误判断，在实时检测中，只有当一台服务器的指纹连续2次及以上被判断为相同的故障时，才认为服务器确实发生了该故障。此处的指纹为依据敏感指标集中的指标，进行实时采样，将实时采样到的采样值，经过步骤5至步骤8的处理，得到的矩阵；而一台服务器的指纹连续2次及以上被判断为相同的故障时，具体为：在连续两个采样时刻，一台服务器的指纹被判断为同一类故障。

实施例3：

本实施例在实施例1或实施例2的基础上，公开了一种基于指纹的服务器运维故障定位方法，包括以下步骤：

所述服务器运维故障识别方法为上述实施例公开的一种基于指纹的服务器运维故障识别方法。

实施例4：

本实施例在实施例1或实施例2的基础上，公开了一种基于指纹的服务器运维故障定位方法，当检测到多台服务器存在故障时，需定位到根因服务器，包括以下步骤：

步骤1：服务器上的应用之间具有调用关系，因此依据电网调度控制系统部署情况和各服务器上的应用之间的调用关系建立拓扑关系图，如图2所示，图中每台服务器为一个节点，若两台服务器之间存在调用关系，则在两个节点之间建立一条有向边，从服务调用方指向被调用方。

步骤2：根据服务器在拓扑关系图中的出度、入度、深度计算该服务器的排查优先级。

其中，出度指该服务器节点调用多少个其他服务器节点，记为Outdegree；入度指该服务器节点被多少个服务器调用，记为Indegree；深度指从“人机界面”节点到该服务器节点的最深深度，即存在多条路径时，最长的路径长度，记为Depth。

令排查优先级为Priority，服务器n的排查优先级Priority_n，按照如下公式计算：

Priority_n＝Indegree_n+Depth_n-Outdegree_n (5)

式中，Priority_n表示服务器n的排查优先级；Outdegree_n表示服务器n的出度；Indegree_n表示服务器n的入度；Depth_n表示服务器n的深度。

步骤3：采用服务器运维故障识别方法对每个服务器进行故障监测，得到发生故障的服务器；

步骤4：判断发生故障的服务器数量是否大于等于2台，若大于等于2台，则将发生故障的服务器按照排查优先级由大到小进行排列，生成排查序列；

步骤5：按照排查序列逐一进行故障排查，最终定位到根因服务器；

所述服务器运维故障识别方法为实施例1或实施例2公开的一种基于指纹的服务器运维故障识别方法。

实施例5：

本实施例公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述任意一实施例公开的步骤。其中，该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于指纹的服务器运维故障识别方法或者一种基于指纹的服务器运维故障定位方法。

实施例6：

本实施例公开了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任意一实施例公开的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于指纹的服务器运维故障识别方法，其特征在于：包括以下步骤：

步骤4：按照各运维指标的异常显著度，筛选出敏感指标集；

步骤7：基于步骤4得到的敏感指标集，针对敏感指标集中的每个运维指标，进行实时采样，将实时采样到的时序数据进行预处理，得到采样矩阵，将该采样矩阵输入至步骤6得到的可进行故障类型识别的卷积神经网络模型，得到故障检测结果。

2.根据权利要求1所述的一种基于指纹的服务器运维故障识别方法，其特征在于：步骤2具体包括：

m_t＜mean_t-3*std_t或m_t＞mean_t+3*std_t (1)。

3.根据权利要求1所述的一种基于指纹的服务器运维故障识别方法，其特征在于：步骤3具体包括：

式中，S(m)为运维指标m的异常显著度。

4.根据权利要求1所述的一种基于指纹的服务器运维故障识别方法，其特征在于：步骤4具体包括：

5.根据权利要求1所述的一种基于指纹的服务器运维故障识别方法，其特征在于：步骤5具体包括：

6.根据权利要求1所述的一种基于指纹的服务器运维故障识别方法，其特征在于：步骤6具体包括：

7.根据权利要求1所述的一种基于指纹的服务器运维故障识别方法，其特征在于：所述的将实时采样到的时序数据进行预处理，得到采样矩阵，包括：

8.根据权利要求1所述的一种基于指纹的服务器运维故障识别方法，其特征在于：还包括步骤8：

9.一种基于指纹的服务器运维故障定位方法，其特征在于：包括以下步骤：

所述服务器运维故障识别方法为权利要求1至8任意一项所述的一种基于指纹的服务器运维故障识别方法。

10.根据权利要求9所述的一种基于指纹的服务器运维故障定位方法，其特征在于：步骤1中，所述的依据电网调度控制系统部署情况和各服务器上的应用之间的调用关系建立拓扑关系图，具体包括：

11.根据权利要求9所述的一种基于指纹的服务器运维故障定位方法，其特征在于：所述的基于拓扑关系图，对每个服务器的排查优先级进行计算，具体包括：

Priority_n＝Indegree_n+Depth_n-Outdegree_n (5)