CN113254269A

CN113254269A - 一种存储系统异常事件修复的方法、系统、设备和介质

Info

Publication number: CN113254269A
Application number: CN202110587972.5A
Authority: CN
Inventors: 丁广杰
Original assignee: Shandong Yingxin Computer Technology Co Ltd
Current assignee: Shandong Yingxin Computer Technology Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-13

Abstract

本发明提出了一种存储系统异常事件修复的方法、系统、设备和介质，该方法为：建立知识库；当存储系统中第二异常事件发生时，提取第二时刻；并在知识库中搜索第二异常事件对应的修复建议，判断每条修复建议在知识库中是否存在相应的日志片段；如果存在，解析第一时刻；判断第一时刻和第二时刻的差值是否小于阈值，如果小于，将存在相应日志片段对应的所有修复建议放入至建议列表；其中，第一时刻为第二异常事件上报日志的时刻；第二时刻为第二异常事件发生的时刻；根据建议列表进行修复，基于该方法，还提出了修复的系统、设备和存储介质。本发明将修复建议与对应关键日志信息相结合，通过日志筛选出修复建议生成最佳修复建议，提升运维效率。

Description

一种存储系统异常事件修复的方法、系统、设备和介质

技术领域

本发明属于存储系统异常修复技术领域，特别涉及一种存储系统异常事件修复的方法、系统、设备和介质。

背景技术

随着互联网技术的发展，全球数据呈现指数级增长，存储行业受到越来越多的关注。存储系统是指计算机中由存放程序和数据的各种存储设备、控制部件及管理信息调度的设备(硬件)和算法(软件)所组成的系统。计算机的主存储器不能同时满足存取速度快、存储容量大和成本低的要求，在计算机中必须有速度由慢到快、容量由大到小的多级层次存储器，以最优的控制调度算法和合理的成本，构成具有性能可接受的存储系统。对于存储系统来说，高可用是重要的技术指标。因此，存储系统需要完善的运维团队，保障系统的可靠运行。然而由于存储系统业务复杂，专业性强，对运维人员的技术要求较高，运维成本较高。

为减少运维成本，除了组建专门的运维团队，存储厂商亦会在存储管理系统集成事件管理模块，用于对存储系统上报的异常事件提供指导修复。然而对于同一异常事件，有多种可能的原因导致，相应的可能存在多条修复建议，在实际运维过程中，运维人员只能根据经验或逐一进行尝试，运维效率较低。

发明内容

为了解决上述技术问题，本发明提出了一种存储系统异常事件修复的方法、系统、设备和介质，将修复建议与对应关键日志信息相结合，并将通过日志筛选出的修复建议按照异常日志的发生时间进行排序，生成最佳修复建议配置，提升运维效率，降低运维成本。

为实现上述目的，本发明采用以下技术方案：

一种存储系统异常事件修复的方法，包括以下步骤：

建立存储系统第一异常事件的知识库；所述知识库包括维护的修复建议和第一日志文件；所述第一日志文件用于根据维护的修复建议模拟第一异常事件生成的日志文件；

当存储系统中第二异常事件发生时，存储系统提取第二时刻；并在所述知识库中搜索第二异常事件对应的所有修复建议，判断每条修复建议在所述第一日志文件中是否存在相应的日志片段；如果存在，解析第一时刻；判断第一时刻和第二时刻的差值是否小于预设时间阈值，如果小于，将存在相应日志片段对应的所有修复建议放入至修复建议列表；其中，所述第一时刻为第二异常事件上报日志的时刻；所述第二时刻为第二异常事件发生的时刻；

根据所述修复建议列表对第二异常事件进行修复。

进一步的，根据所述修复建议列表对第二异常事件进行修复的方法为：

按照先入先出的原则从修复建议列表中取出所有修复建议，并按照第一时刻的先后进行排序；过滤筛选后放入至子修复建议列表作为最终修复建议。

进一步的，所述过滤筛选的方法为：判断排序后的所有修复建议中内容是否存在，如果存在，则放入至子修复建议列表。

进一步的，所述第一日志文件用于记录根据维护的修复建议模拟第一异常事件产生的异常信息。

进一步的，所述模拟的方法为：以存储系统中维护的的修复建议为超集，搭建存储系统，模拟不同的第一异常事件，并分别记录每个第一异常事件产生的不同原因。

进一步的，并在所述知识库中搜索第二异常事件对应的所有修复建议的方法为：根据第二异常事件的事件识别符在所述知识库中搜索第二异常事件对应的所有修复建议。

进一步的，所述判断每条修复建议在所述第一日志文件中是否存在相应的日志片段的方法还包括如果不存在，舍弃不存在相对应日志片段的修复建议。

一种存储系统异常事件修复的系统，其特征在于，包括建立模块、判断模块和修复模块；

所述建立模块用于建立存储系统第一异常事件的知识库；所述知识库包括维护的修复建议和第一日志文件；所述第一日志文件用于根据维护的修复建议模拟第一异常事件生成的日志文件；

所述判断模块用于当存储系统中第二异常事件发生时，存储系统提取第二时刻；并在所述知识库中搜索第二异常事件对应的所有修复建议，判断每条修复建议在所述第一日志文件中是否存在相应的日志片段；如果存在，解析第一时刻；判断第一时刻和第二时刻的差值是否小于预设时间阈值，如果小于，将存在相应日志片段对应的所有修复建议放入至修复建议列表；其中，所述第一时刻为第二异常事件上报日志的时刻；所述第二时刻为第二异常事件发生的时刻；

所述修复模块用于根据所述修复建议列表对第二异常事件进行修复。

本发明还提出了一种设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现方法步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现方法步骤。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明提出了一种存储系统异常事件修复的方法、系统、设备和介质，该方法包括：建立存储系统第一异常事件的知识库；知识库包括维护的修复建议和第一日志文件；第一日志文件用于根据维护的修复建议模拟第一异常事件生成的日志文件；当存储系统中第二异常事件发生时，存储系统提取第二时刻；并在知识库中搜索第二异常事件对应的所有修复建议，判断每条修复建议在第一日志文件中是否存在相应的日志片段；如果存在，解析第一时刻；判断第一时刻和第二时刻的差值是否小于预设时间阈值，如果小于，将存在相应日志片段对应的所有修复建议放入至修复建议列表；其中，第一时刻为第二异常事件上报日志的时刻；第二时刻为第二异常事件发生的时刻；根据修复建议列表对第二异常事件进行修复。本发明解决了对于同一异常事件，有多种可能的原因导致，相应的可能存在多条修复建议，在实际运维过程中，运维人员只能根据经验或逐一进行尝试，运维效率较低的技术问题。

本发明中异常事件集群的数据库可以随时更新，提高了数据的全面性。通过将修复建议与对应关键日志信息相结合，并将通过日志筛选出的修复建议按照异常日志的发生时间进行排序，生成最佳修复建议配置，提升运维效率，降低运维成本。

基于本发明提出的一种存储系统异常事件修复的方法，本发明还提出了一种存储系统异常事件修复的系统，设备和存储介质，也具有上述的一种存储系统异常事件修复的方法的相应技术效果，在此不再重复赘述。

附图说明

如图1为本发明实施例1一种存储系统异常事件修复的方法流程图；

如图2为本发明实施例1中修复建议生成流程示意图；

如图3为本发明实施例1一种存储系统异常事件修复的系统示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

实施例1

本发明实施例1提出了一种存储系统异常事件修复的方法，通过将修复建议与对应关键日志信息相结合，并将通过日志筛选出的修复建议按照异常日志的发生时间进行排序，生成最佳修复建议配置，提升运维效率。

如图1给出了本发明实施例1一种存储系统异常事件修复的方法流程图。

在步骤S101中，建立存储系统第一异常事件的知识库；知识库包括维护的修复建议和第一日志文件；第一日志文件用于根据厂商维护的修复建议模拟第一异常事件生成的日志文件。

第一日志文件用于记录根据维护的修复建议模拟第一异常事件产生的异常信息。模拟的方法为：以存储系统中维护的的修复建议为超集，搭建存储系统，模拟不同的第一异常事件，并分别记录每个第一异常事件产生的不同原因。

后续新增异常事件时，存储厂商需要对知识库进行增量更新。

在步骤S102中，当存储系统中第二异常事件发生时，存储系统提取第二时刻T2；并在知识库中搜索第二异常事件对应的所有修复建议。第二时刻为第二异常事件发生的时刻。

在本发明中，根据第二异常事件的eventID在知识库中进行检索，得到对应的得到对应的adviceList，其中eventID为事件识别符，adviceList为所有的修复建议。

在步骤S103中，判断是否包含多个修复建议？如果仅有一条修复建议，则执行步骤S104，如果存在多条修复建议，则执行步骤S108

在步骤S104中，运维人员根据修复建议执行修复操作。

在步骤S105中，手动刷新或系统定时查询时间状态，判断异常是否解决，如果还未解决，则执行步骤S106，否则执行步骤S107。

在步骤S106中，联系厂家。

在步骤S107中，流程结束。

在步骤S108中，判断每条修复建议在第一日志文件中是否存在相应的日志片段；如果存在，解析第一时刻T1；判断第一时刻和第二时刻的差值是否小于预设时间阈值，如果小于，将存在相应日志片段对应的所有修复建议放入至修复建议列表，第一时刻T1为第二异常事件上报日志的时刻。

在本发明中，遍历所有修复建立adviceList，对每一条advice，在相应日志文件logFileName中以className#methodName:errorCode为正则进行检索，判断每条修复建议在所述知识库第一日志文件中是否存在相应的日志片段；若日志文件中存在该日志片段，则解析第二异常事件上报日志的时刻T1，若T1与第二异常事件发生时间T2相差<M分钟。M为一个时间区间，预设为[5分钟， 10分钟]，则以{advice,T1}结构将该修复建议压入修复建议队列adviceQuene中；若不存在，则舍弃该advice。本发明保护的范围不局限于实施例1中列出的时间，本申请可以可以需要进行设置。

按照先入先出的原则从修复建议列表中取出所有修复建议，并按照第一时刻的先后进行排序；过滤筛选后放入至子修复建议列表作为最终修复建议。过滤筛选的方法为：判断排序后的所有修复建议中内容是否存在，如果存在，则放入至子修复建议列表。

按照先入先出顺序从adviceQuene队列中取出修复建议，按照第二异常事件上报日志的时刻T1先后排序，将content、即内容拼接成有序列表filterAdvice；判定filterAdvice列表中是否存在数据，若存在，则将filterAdvice赋值给 finalAdvice；否则将adviceList赋值给finalAdvice。

在步骤S109中，判断子修复建议列表中是否存在下一个修复建议？如果存在则执行步骤S110，否则执行步骤S106。运维人员根据子修复建议列表中的修复建议逐一执行修复过程.

在步骤S110中，自动跳转到下一条修复建议。

在步骤S111中，运维人员根据修复建议执行修复操作。

在步骤S112中，手动刷新或系统定时查询时间状态，判断异常是否解决，如果还未解决，则执行步骤S106，否则执行步骤S107。

本发明的步骤S108给出了修复建议生成的过程。如图2为本发明实施例1 中修复建议生成流程示意图；对步骤S108进行详细描述。

在步骤S201中，遍历所有修复建议。

在步骤S202中，判断是否存在下一个修复建议，如果存在则执行步骤S203，否则执行步骤S204。

在步骤S203中，在相应日志文件logFileName中

以className#methodName:errorCode为正则进行检索。如果检索到则执行步骤S205，否则返回步骤S202。

在步骤S205中，解析第二异常事件上报日志的时刻T1。

在步骤S206中，判断T1与第二异常事件发生事件T2相差<预设阈值时间，如果小于阈值时间，则执行步骤S207，否则返回步骤S202。

在步骤S207中，以{advice,T1}结构将该修复建议压入修复建议队列adviceQuene中。

在步骤S208中，按照先入先出顺序从adviceQuene队列中取出修复建议，按照第二异常事件上报日志的时刻T1先后排序，将content拼接成有序列表 filterAdvice。

在步骤S204中，判断filterAdvice是否存在数据，如果存在执行步骤S209，否则执行步骤S210。

在步骤S209中，finalAdvice等于filterAdvice。

在步骤S210中，finalAdvice等于Advicelist。

在步骤S211中，返回finalAdvice。

本发明公开一种存储系统异常事件修复的方法，通过将修复建议与对应关键日志信息相结合，并将通过日志筛选出的修复建议按照异常日志的发生时间进行排序，生成最佳修复建议配置，提升运维效率，降低运维成本。

实施例2

基于本发明实施例1提出的一种存储系统异常事件修复的方法，本发明实施例2还提出了一种存储系统异常事件修复的系统。如图2给出了一种存储系统异常事件修复的系统示意图。建立模块、判断模块和修复模块；

建立模块用于建立存储系统第一异常事件的知识库；知识库包括维护的修复建议和第一日志文件；第一日志文件用于根据维护的修复建议模拟第一异常事件生成的日志文件；

判断模块用于当存储系统中第二异常事件发生时，存储系统提取第二时刻；并在所述知识库中搜索第二异常事件对应的所有修复建议，判断每条修复建议在所述第一日志文件中是否存在相应的日志片段；如果存在，解析第一时刻；判断第一时刻和第二时刻的差值是否小于预设时间阈值，如果小于，将存在相应日志片段对应的所有修复建议放入至修复建议列表；其中，所述第一时刻为第二异常事件上报日志的时刻；所述第二时刻为第二异常事件发生的时刻；

修复模块用于根据所述修复建议列表对第二异常事件进行修复。

本发明建立模块中，第一日志文件用于记录根据维护的修复建议模拟第一异常事件产生的异常信息。模拟的方法为：以存储系统中维护的的修复建议为超集，搭建存储系统，模拟不同的第一异常事件，并分别记录每个第一异常事件产生的不同原因。

本发明判断模块中，当存储系统中第二异常事件发生时，存储系统提取第二时刻T2；并在知识库中搜索第二异常事件对应的所有修复建议。第二时刻为第二异常事件发生的时刻。

判断每条修复建议在第一日志文件中是否存在相应的日志片段；如果存在，解析第一时刻T1；判断第一时刻和第二时刻的差值是否小于预设时间阈值，如果小于，将存在相应日志片段对应的所有修复建议放入至修复建议列表。

本发明修复模块中，按照先入先出的原则从修复建议列表中取出所有修复建议，并按照第一时刻的先后进行排序；过滤筛选后放入至子修复建议列表作为最终修复建议。过滤筛选的方法为：判断排序后的所有修复建议中内容是否存在，如果存在，则放入至子修复建议列表。

本发明还提出了一种设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现方法步骤如下：

建立存储系统第一异常事件的知识库；知识库包括维护的修复建议和第一日志文件；第一日志文件用于根据厂商维护的修复建议模拟第一异常事件生成的日志文件；

当存储系统中第二异常事件发生时，存储系统提取第二时刻T2；并在知识库中搜索第二异常事件对应的所有修复建议。第二时刻为第二异常事件发生的时刻。

需要说明：本发明技术方案还提供了一种电子设备，包括：通信接口，能够与其它设备比如网络设备等进行信息交互；处理器，与通信接口连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的一种存储系统异常事件修复的方法，而所述计算机程序存储在存储器上。当然，实际应用时，电子设备中的各个组件通过总线系统耦合在一起。可理解，总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。本申请实施例中的存储器用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括：用于在电子设备上操作的任何计算机程序。可以理解，存储器可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-OnlyMemory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-OnlyMemory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-OnlyMemory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random AccessMemory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random AccessMemory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random AccessMemory)、增强型同步动态随机存取存储器(ESDRAM， Enhanced Synchronous DynamicRandom Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink DynamicRandom Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus RandomAccess Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。上述本申请实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、DSP(Digital Signal Processing，即指能够实现数字信号处理技术的芯片)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的程序，结合其硬件完成前述方法的步骤。处理器执行所述程序时实现本申请实施例的各个方法中的相应流程，为了简洁，在此不再赘述。

本发明还提出了一种可读存储介质，可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现方法步骤如下：

本申请实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器，上述计算机程序可由处理器执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、 PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或CD-ROM 等存储器。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供的一种存储系统异常事件修复设备和存储介质中相关部分的说明可以参见本申请实施例1提供的一种存储系统异常事件修复方法中对应部分的详细说明，在此不再赘述。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制。对于所属领域的技术人员来说，在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种存储系统异常事件修复的方法，其特征在于，包括以下步骤：

建立存储系统第一异常事件的知识库；所述知识库包括维护的修复建议和第一日志文件；所述第一日志文件为根据维护的修复建议模拟第一异常事件生成的日志文件；

根据所述修复建议列表对第二异常事件进行修复。

2.根据权利要求1所述的一种存储系统异常事件修复的方法，其特征在于，根据所述修复建议列表对第二异常事件进行修复的方法为：

3.根据权利要求2所述的一种存储系统异常事件修复的方法，其特征在于，所述过滤筛选的方法为：判断排序后的所有修复建议中内容是否存在，如果存在，则放入至子修复建议列表。

4.根据权利要求1所述的一种存储系统异常事件修复的方法，其特征在于，所述第一日志文件用于记录根据维护的修复建议模拟第一异常事件产生的异常信息。

5.根据权利要求4所述的一种存储系统异常事件修复的方法，其特征在于，所述模拟的方法为：以存储系统中维护的的修复建议为超集，搭建存储系统，模拟不同的第一异常事件，并分别记录每个第一异常事件产生的不同原因。

6.根据权利要求1所述的一种存储系统异常事件修复的方法，其特征在于，并在所述知识库中搜索第二异常事件对应的所有修复建议的方法为：根据第二异常事件的事件识别符在所述知识库中搜索第二异常事件对应的所有修复建议。

7.根据权利要求1所述的一种存储系统异常事件修复的方法，其特征在于，所述判断每条修复建议在所述第一日志文件中是否存在相应的日志片段的方法还包括如果不存在，舍弃不存在相对应日志片段的修复建议。

8.一种存储系统异常事件修复的系统，其特征在于，包括建立模块、判断模块和修复模块；

9.一种设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任意一项所述的方法步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的方法步骤。