CN113254269A - 一种存储系统异常事件修复的方法、系统、设备和介质 - Google Patents

一种存储系统异常事件修复的方法、系统、设备和介质 Download PDF

Info

Publication number
CN113254269A
CN113254269A CN202110587972.5A CN202110587972A CN113254269A CN 113254269 A CN113254269 A CN 113254269A CN 202110587972 A CN202110587972 A CN 202110587972A CN 113254269 A CN113254269 A CN 113254269A
Authority
CN
China
Prior art keywords
repair
moment
abnormal event
storage system
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110587972.5A
Other languages
English (en)
Inventor
丁广杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110587972.5A priority Critical patent/CN113254269A/zh
Publication of CN113254269A publication Critical patent/CN113254269A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1435Saving, restoring, recovering or retrying at system level using file system or storage system metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出了一种存储系统异常事件修复的方法、系统、设备和介质,该方法为:建立知识库;当存储系统中第二异常事件发生时,提取第二时刻;并在知识库中搜索第二异常事件对应的修复建议,判断每条修复建议在知识库中是否存在相应的日志片段;如果存在,解析第一时刻;判断第一时刻和第二时刻的差值是否小于阈值,如果小于,将存在相应日志片段对应的所有修复建议放入至建议列表;其中,第一时刻为第二异常事件上报日志的时刻;第二时刻为第二异常事件发生的时刻;根据建议列表进行修复,基于该方法,还提出了修复的系统、设备和存储介质。本发明将修复建议与对应关键日志信息相结合,通过日志筛选出修复建议生成最佳修复建议,提升运维效率。

Description

一种存储系统异常事件修复的方法、系统、设备和介质
技术领域
本发明属于存储系统异常修复技术领域,特别涉及一种存储系统异常事件 修复的方法、系统、设备和介质。
背景技术
随着互联网技术的发展,全球数据呈现指数级增长,存储行业受到越来越 多的关注。存储系统是指计算机中由存放程序和数据的各种存储设备、控制部 件及管理信息调度的设备(硬件)和算法(软件)所组成的系统。计算机的主存储器 不能同时满足存取速度快、存储容量大和成本低的要求,在计算机中必须有速 度由慢到快、容量由大到小的多级层次存储器,以最优的控制调度算法和合理 的成本,构成具有性能可接受的存储系统。对于存储系统来说,高可用是重要 的技术指标。因此,存储系统需要完善的运维团队,保障系统的可靠运行。然 而由于存储系统业务复杂,专业性强,对运维人员的技术要求较高,运维成本较高。
为减少运维成本,除了组建专门的运维团队,存储厂商亦会在存储管理系 统集成事件管理模块,用于对存储系统上报的异常事件提供指导修复。然而对 于同一异常事件,有多种可能的原因导致,相应的可能存在多条修复建议,在 实际运维过程中,运维人员只能根据经验或逐一进行尝试,运维效率较低。
发明内容
为了解决上述技术问题,本发明提出了一种存储系统异常事件修复的方法、 系统、设备和介质,将修复建议与对应关键日志信息相结合,并将通过日志筛 选出的修复建议按照异常日志的发生时间进行排序,生成最佳修复建议配置, 提升运维效率,降低运维成本。
为实现上述目的,本发明采用以下技术方案:
一种存储系统异常事件修复的方法,包括以下步骤:
建立存储系统第一异常事件的知识库;所述知识库包括维护的修复建议和 第一日志文件;所述第一日志文件用于根据维护的修复建议模拟第一异常事件 生成的日志文件;
当存储系统中第二异常事件发生时,存储系统提取第二时刻;并在所述知 识库中搜索第二异常事件对应的所有修复建议,判断每条修复建议在所述第一 日志文件中是否存在相应的日志片段;如果存在,解析第一时刻;判断第一时 刻和第二时刻的差值是否小于预设时间阈值,如果小于,将存在相应日志片段 对应的所有修复建议放入至修复建议列表;其中,所述第一时刻为第二异常事 件上报日志的时刻;所述第二时刻为第二异常事件发生的时刻;
根据所述修复建议列表对第二异常事件进行修复。
进一步的,根据所述修复建议列表对第二异常事件进行修复的方法为:
按照先入先出的原则从修复建议列表中取出所有修复建议,并按照第一时 刻的先后进行排序;过滤筛选后放入至子修复建议列表作为最终修复建议。
进一步的,所述过滤筛选的方法为:判断排序后的所有修复建议中内容是 否存在,如果存在,则放入至子修复建议列表。
进一步的,所述第一日志文件用于记录根据维护的修复建议模拟第一异常 事件产生的异常信息。
进一步的,所述模拟的方法为:以存储系统中维护的的修复建议为超集, 搭建存储系统,模拟不同的第一异常事件,并分别记录每个第一异常事件产生 的不同原因。
进一步的,并在所述知识库中搜索第二异常事件对应的所有修复建议的方 法为:根据第二异常事件的事件识别符在所述知识库中搜索第二异常事件对应 的所有修复建议。
进一步的,所述判断每条修复建议在所述第一日志文件中是否存在相应的 日志片段的方法还包括如果不存在,舍弃不存在相对应日志片段的修复建议。
一种存储系统异常事件修复的系统,其特征在于,包括建立模块、判断模 块和修复模块;
所述建立模块用于建立存储系统第一异常事件的知识库;所述知识库包括 维护的修复建议和第一日志文件;所述第一日志文件用于根据维护的修复建议 模拟第一异常事件生成的日志文件;
所述判断模块用于当存储系统中第二异常事件发生时,存储系统提取第二 时刻;并在所述知识库中搜索第二异常事件对应的所有修复建议,判断每条修 复建议在所述第一日志文件中是否存在相应的日志片段;如果存在,解析第一 时刻;判断第一时刻和第二时刻的差值是否小于预设时间阈值,如果小于,将 存在相应日志片段对应的所有修复建议放入至修复建议列表;其中,所述第一 时刻为第二异常事件上报日志的时刻;所述第二时刻为第二异常事件发生的时 刻;
所述修复模块用于根据所述修复建议列表对第二异常事件进行修复。
本发明还提出了一种设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现方法步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机 程序被处理器执行时实现方法步骤。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果, 上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提出了一种存储系统异常事件修复的方法、系统、设备和介质,该 方法包括:建立存储系统第一异常事件的知识库;知识库包括维护的修复建议 和第一日志文件;第一日志文件用于根据维护的修复建议模拟第一异常事件生 成的日志文件;当存储系统中第二异常事件发生时,存储系统提取第二时刻; 并在知识库中搜索第二异常事件对应的所有修复建议,判断每条修复建议在第 一日志文件中是否存在相应的日志片段;如果存在,解析第一时刻;判断第一 时刻和第二时刻的差值是否小于预设时间阈值,如果小于,将存在相应日志片 段对应的所有修复建议放入至修复建议列表;其中,第一时刻为第二异常事件 上报日志的时刻;第二时刻为第二异常事件发生的时刻;根据修复建议列表对 第二异常事件进行修复。本发明解决了对于同一异常事件,有多种可能的原因 导致,相应的可能存在多条修复建议,在实际运维过程中,运维人员只能根据 经验或逐一进行尝试,运维效率较低的技术问题。
本发明中异常事件集群的数据库可以随时更新,提高了数据的全面性。通 过将修复建议与对应关键日志信息相结合,并将通过日志筛选出的修复建议按 照异常日志的发生时间进行排序,生成最佳修复建议配置,提升运维效率,降 低运维成本。
基于本发明提出的一种存储系统异常事件修复的方法,本发明还提出了一 种存储系统异常事件修复的系统,设备和存储介质,也具有上述的一种存储系 统异常事件修复的方法的相应技术效果,在此不再重复赘述。
附图说明
如图1为本发明实施例1一种存储系统异常事件修复的方法流程图;
如图2为本发明实施例1中修复建议生成流程示意图;
如图3为本发明实施例1一种存储系统异常事件修复的系统示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图, 对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现 本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置 进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复 是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关 系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公 知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例1
本发明实施例1提出了一种存储系统异常事件修复的方法,通过将修复建 议与对应关键日志信息相结合,并将通过日志筛选出的修复建议按照异常日志 的发生时间进行排序,生成最佳修复建议配置,提升运维效率。
如图1给出了本发明实施例1一种存储系统异常事件修复的方法流程图。
在步骤S101中,建立存储系统第一异常事件的知识库;知识库包括维护的 修复建议和第一日志文件;第一日志文件用于根据厂商维护的修复建议模拟第 一异常事件生成的日志文件。
第一日志文件用于记录根据维护的修复建议模拟第一异常事件产生的异常 信息。模拟的方法为:以存储系统中维护的的修复建议为超集,搭建存储系统, 模拟不同的第一异常事件,并分别记录每个第一异常事件产生的不同原因。
后续新增异常事件时,存储厂商需要对知识库进行增量更新。
在步骤S102中,当存储系统中第二异常事件发生时,存储系统提取第二时 刻T2;并在知识库中搜索第二异常事件对应的所有修复建议。第二时刻为第二 异常事件发生的时刻。
在本发明中,根据第二异常事件的eventID在知识库中进行检索,得到对 应的得到对应的adviceList,其中eventID为事件识别符,adviceList为所有的修 复建议。
在步骤S103中,判断是否包含多个修复建议?如果仅有一条修复建议,则 执行步骤S104,如果存在多条修复建议,则执行步骤S108
在步骤S104中,运维人员根据修复建议执行修复操作。
在步骤S105中,手动刷新或系统定时查询时间状态,判断异常是否解决, 如果还未解决,则执行步骤S106,否则执行步骤S107。
在步骤S106中,联系厂家。
在步骤S107中,流程结束。
在步骤S108中,判断每条修复建议在第一日志文件中是否存在相应的日志 片段;如果存在,解析第一时刻T1;判断第一时刻和第二时刻的差值是否小于 预设时间阈值,如果小于,将存在相应日志片段对应的所有修复建议放入至修 复建议列表,第一时刻T1为第二异常事件上报日志的时刻。
在本发明中,遍历所有修复建立adviceList,对每一条advice,在相应日志 文件logFileName中以className#methodName:errorCode为正则进行检索,判 断每条修复建议在所述知识库第一日志文件中是否存在相应的日志片段;若日 志文件中存在该日志片段,则解析第二异常事件上报日志的时刻T1,若T1与 第二异常事件发生时间T2相差<M分钟。M为一个时间区间,预设为[5分钟, 10分钟],则以{advice,T1}结构将该修复建议压入修复建议队列adviceQuene中; 若不存在,则舍弃该advice。本发明保护的范围不局限于实施例1中列出的时 间,本申请可以可以需要进行设置。
按照先入先出的原则从修复建议列表中取出所有修复建议,并按照第一时 刻的先后进行排序;过滤筛选后放入至子修复建议列表作为最终修复建议。过 滤筛选的方法为:判断排序后的所有修复建议中内容是否存在,如果存在,则 放入至子修复建议列表。
按照先入先出顺序从adviceQuene队列中取出修复建议,按照第二异常事 件上报日志的时刻T1先后排序,将content、即内容拼接成有序列表filterAdvice; 判定filterAdvice列表中是否存在数据,若存在,则将filterAdvice赋值给 finalAdvice;否则将adviceList赋值给finalAdvice。
在步骤S109中,判断子修复建议列表中是否存在下一个修复建议?如果存 在则执行步骤S110,否则执行步骤S106。运维人员根据子修复建议列表中的 修复建议逐一执行修复过程.
在步骤S110中,自动跳转到下一条修复建议。
在步骤S111中,运维人员根据修复建议执行修复操作。
在步骤S112中,手动刷新或系统定时查询时间状态,判断异常是否解决, 如果还未解决,则执行步骤S106,否则执行步骤S107。
本发明的步骤S108给出了修复建议生成的过程。如图2为本发明实施例1 中修复建议生成流程示意图;对步骤S108进行详细描述。
在步骤S201中,遍历所有修复建议。
在步骤S202中,判断是否存在下一个修复建议,如果存在则执行步骤S203, 否则执行步骤S204。
在步骤S203中,在相应日志文件logFileName中
以className#methodName:errorCode为正则进行检索。如果检索到则执行 步骤S205,否则返回步骤S202。
在步骤S205中,解析第二异常事件上报日志的时刻T1。
在步骤S206中,判断T1与第二异常事件发生事件T2相差<预设阈值时间, 如果小于阈值时间,则执行步骤S207,否则返回步骤S202。
在步骤S207中,以{advice,T1}结构将该修复建议压入修复建议队列adviceQuene中。
在步骤S208中,按照先入先出顺序从adviceQuene队列中取出修复建议, 按照第二异常事件上报日志的时刻T1先后排序,将content拼接成有序列表 filterAdvice。
在步骤S204中,判断filterAdvice是否存在数据,如果存在执行步骤S209, 否则执行步骤S210。
在步骤S209中,finalAdvice等于filterAdvice。
在步骤S210中,finalAdvice等于Advicelist。
在步骤S211中,返回finalAdvice。
本发明公开一种存储系统异常事件修复的方法,通过将修复建议与对应关 键日志信息相结合,并将通过日志筛选出的修复建议按照异常日志的发生时间 进行排序,生成最佳修复建议配置,提升运维效率,降低运维成本。
实施例2
基于本发明实施例1提出的一种存储系统异常事件修复的方法,本发明实 施例2还提出了一种存储系统异常事件修复的系统。如图2给出了一种存储系 统异常事件修复的系统示意图。建立模块、判断模块和修复模块;
建立模块用于建立存储系统第一异常事件的知识库;知识库包括维护的修 复建议和第一日志文件;第一日志文件用于根据维护的修复建议模拟第一异常 事件生成的日志文件;
判断模块用于当存储系统中第二异常事件发生时,存储系统提取第二时刻; 并在所述知识库中搜索第二异常事件对应的所有修复建议,判断每条修复建议 在所述第一日志文件中是否存在相应的日志片段;如果存在,解析第一时刻; 判断第一时刻和第二时刻的差值是否小于预设时间阈值,如果小于,将存在相 应日志片段对应的所有修复建议放入至修复建议列表;其中,所述第一时刻为 第二异常事件上报日志的时刻;所述第二时刻为第二异常事件发生的时刻;
修复模块用于根据所述修复建议列表对第二异常事件进行修复。
本发明建立模块中,第一日志文件用于记录根据维护的修复建议模拟第一 异常事件产生的异常信息。模拟的方法为:以存储系统中维护的的修复建议为 超集,搭建存储系统,模拟不同的第一异常事件,并分别记录每个第一异常事 件产生的不同原因。
后续新增异常事件时,存储厂商需要对知识库进行增量更新。
本发明判断模块中,当存储系统中第二异常事件发生时,存储系统提取第 二时刻T2;并在知识库中搜索第二异常事件对应的所有修复建议。第二时刻为 第二异常事件发生的时刻。
在本发明中,根据第二异常事件的eventID在知识库中进行检索,得到对 应的得到对应的adviceList,其中eventID为事件识别符,adviceList为所有的修 复建议。
判断每条修复建议在第一日志文件中是否存在相应的日志片段;如果存在, 解析第一时刻T1;判断第一时刻和第二时刻的差值是否小于预设时间阈值,如 果小于,将存在相应日志片段对应的所有修复建议放入至修复建议列表。
在本发明中,遍历所有修复建立adviceList,对每一条advice,在相应日志 文件logFileName中以className#methodName:errorCode为正则进行检索,判 断每条修复建议在所述知识库第一日志文件中是否存在相应的日志片段;若日 志文件中存在该日志片段,则解析第二异常事件上报日志的时刻T1,若T1与 第二异常事件发生时间T2相差<M分钟。M为一个时间区间,预设为[5分钟, 10分钟],则以{advice,T1}结构将该修复建议压入修复建议队列adviceQuene中; 若不存在,则舍弃该advice。本发明保护的范围不局限于实施例1中列出的时 间,本申请可以可以需要进行设置。
本发明修复模块中,按照先入先出的原则从修复建议列表中取出所有修复 建议,并按照第一时刻的先后进行排序;过滤筛选后放入至子修复建议列表作 为最终修复建议。过滤筛选的方法为:判断排序后的所有修复建议中内容是否 存在,如果存在,则放入至子修复建议列表。
按照先入先出顺序从adviceQuene队列中取出修复建议,按照第二异常事 件上报日志的时刻T1先后排序,将content、即内容拼接成有序列表filterAdvice; 判定filterAdvice列表中是否存在数据,若存在,则将filterAdvice赋值给 finalAdvice;否则将adviceList赋值给finalAdvice。
本发明还提出了一种设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现方法步骤如下:
建立存储系统第一异常事件的知识库;知识库包括维护的修复建议和第一 日志文件;第一日志文件用于根据厂商维护的修复建议模拟第一异常事件生成 的日志文件;
第一日志文件用于记录根据维护的修复建议模拟第一异常事件产生的异常 信息。模拟的方法为:以存储系统中维护的的修复建议为超集,搭建存储系统, 模拟不同的第一异常事件,并分别记录每个第一异常事件产生的不同原因。
后续新增异常事件时,存储厂商需要对知识库进行增量更新。
当存储系统中第二异常事件发生时,存储系统提取第二时刻T2;并在知识 库中搜索第二异常事件对应的所有修复建议。第二时刻为第二异常事件发生的 时刻。
在本发明中,根据第二异常事件的eventID在知识库中进行检索,得到对 应的得到对应的adviceList,其中eventID为事件识别符,adviceList为所有的修 复建议。
判断每条修复建议在第一日志文件中是否存在相应的日志片段;如果存在, 解析第一时刻T1;判断第一时刻和第二时刻的差值是否小于预设时间阈值,如 果小于,将存在相应日志片段对应的所有修复建议放入至修复建议列表。
在本发明中,遍历所有修复建立adviceList,对每一条advice,在相应日志 文件logFileName中以className#methodName:errorCode为正则进行检索,判 断每条修复建议在所述知识库第一日志文件中是否存在相应的日志片段;若日 志文件中存在该日志片段,则解析第二异常事件上报日志的时刻T1,若T1与 第二异常事件发生时间T2相差<M分钟。M为一个时间区间,预设为[5分钟, 10分钟],则以{advice,T1}结构将该修复建议压入修复建议队列adviceQuene中; 若不存在,则舍弃该advice。本发明保护的范围不局限于实施例1中列出的时 间,本申请可以可以需要进行设置。
按照先入先出的原则从修复建议列表中取出所有修复建议,并按照第一时 刻的先后进行排序;过滤筛选后放入至子修复建议列表作为最终修复建议。过 滤筛选的方法为:判断排序后的所有修复建议中内容是否存在,如果存在,则 放入至子修复建议列表。
按照先入先出顺序从adviceQuene队列中取出修复建议,按照第二异常事 件上报日志的时刻T1先后排序,将content、即内容拼接成有序列表filterAdvice; 判定filterAdvice列表中是否存在数据,若存在,则将filterAdvice赋值给 finalAdvice;否则将adviceList赋值给finalAdvice。
需要说明:本发明技术方案还提供了一种电子设备,包括:通信接口,能够 与其它设备比如网络设备等进行信息交互;处理器,与通信接口连接,以实现与 其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案 提供的一种存储系统异常事件修复的方法,而所述计算机程序存储在存储器 上。当然,实际应用时,电子设备中的各个组件通过总线系统耦合在一起。可理 解,总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外, 还包括电源总线、控制总线和状态信号总线。本申请实施例中的存储器用于存储 各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备 上操作的任何计算机程序。可以理解,存储器可以是易失性存储器或非易失性存 储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只 读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-OnlyMemory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-OnlyMemory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只 读光盘(CD-ROM,Compact Disc Read-OnlyMemory);磁表面存储器可以是磁盘 存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形 式的RAM可用,例如静态随机存取存储器(SRAM,Static Random AccessMemory)、 同步静态随机存取存储器(SSRAM,Synchronous Static Random AccessMemory)、 动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据 速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random AccessMemory)、增强型同步动态随机存取存储器(ESDRAM, Enhanced Synchronous DynamicRandom Access Memory)、同步连接动态随机存取 存储器(SLDRAM,SyncLink DynamicRandom Access Memory)、直接内存总线随 机存取存储器(DRRAM,Direct Rambus RandomAccess Memory)。本申请实施例 描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。上述本申请 实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种 集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通 过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、DSP(Digital Signal Processing,即指能够实现数字信号处理技术 的芯片),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组 件等。处理器可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框 图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所 公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理 器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介 质位于存储器,处理器读取存储器中的程序,结合其硬件完成前述方法的步骤。处 理器执行所述程序时实现本申请实施例的各个方法中的相应流程,为了简洁,在 此不再赘述。
本发明还提出了一种可读存储介质,可读存储介质上存储有计算机程序, 所述计算机程序被处理器执行时实现方法步骤如下:
建立存储系统第一异常事件的知识库;知识库包括维护的修复建议和第一 日志文件;第一日志文件用于根据厂商维护的修复建议模拟第一异常事件生成 的日志文件;
第一日志文件用于记录根据维护的修复建议模拟第一异常事件产生的异常 信息。模拟的方法为:以存储系统中维护的的修复建议为超集,搭建存储系统, 模拟不同的第一异常事件,并分别记录每个第一异常事件产生的不同原因。
后续新增异常事件时,存储厂商需要对知识库进行增量更新。
当存储系统中第二异常事件发生时,存储系统提取第二时刻T2;并在知识 库中搜索第二异常事件对应的所有修复建议。第二时刻为第二异常事件发生的 时刻。
在本发明中,根据第二异常事件的eventID在知识库中进行检索,得到对 应的得到对应的adviceList,其中eventID为事件识别符,adviceList为所有的修 复建议。
判断每条修复建议在第一日志文件中是否存在相应的日志片段;如果存在, 解析第一时刻T1;判断第一时刻和第二时刻的差值是否小于预设时间阈值,如 果小于,将存在相应日志片段对应的所有修复建议放入至修复建议列表。
在本发明中,遍历所有修复建立adviceList,对每一条advice,在相应日志 文件logFileName中以className#methodName:errorCode为正则进行检索,判 断每条修复建议在所述知识库第一日志文件中是否存在相应的日志片段;若日 志文件中存在该日志片段,则解析第二异常事件上报日志的时刻T1,若T1与 第二异常事件发生时间T2相差<M分钟。M为一个时间区间,预设为[5分钟, 10分钟],则以{advice,T1}结构将该修复建议压入修复建议队列adviceQuene中; 若不存在,则舍弃该advice。本发明保护的范围不局限于实施例1中列出的时 间,本申请可以可以需要进行设置。
按照先入先出的原则从修复建议列表中取出所有修复建议,并按照第一时 刻的先后进行排序;过滤筛选后放入至子修复建议列表作为最终修复建议。过 滤筛选的方法为:判断排序后的所有修复建议中内容是否存在,如果存在,则 放入至子修复建议列表。
按照先入先出顺序从adviceQuene队列中取出修复建议,按照第二异常事 件上报日志的时刻T1先后排序,将content、即内容拼接成有序列表filterAdvice; 判定filterAdvice列表中是否存在数据,若存在,则将filterAdvice赋值给 finalAdvice;否则将adviceList赋值给finalAdvice。
本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机 可读存储介质,例如包括存储计算机程序的存储器,上述计算机程序可由处理 器执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、 PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或CD-ROM 等存储器。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可 以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存 储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储 介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代 码的介质。或者,本申请上述集成的单元如果以软件功能模块的形式实现并作 为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基 于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质 中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网 络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包 括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介 质。
本申请实施例提供的一种存储系统异常事件修复设备和存储介质中相关部 分的说明可以参见本申请实施例1提供的一种存储系统异常事件修复方法中对 应部分的详细说明,在此不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些 实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包 含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素 的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语 句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物 品或者设备中还存在另外的相同要素。另外,本申请实施例提供的上述技术方 案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明 保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以 做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。 在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做 出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种存储系统异常事件修复的方法,其特征在于,包括以下步骤:
建立存储系统第一异常事件的知识库;所述知识库包括维护的修复建议和第一日志文件;所述第一日志文件为根据维护的修复建议模拟第一异常事件生成的日志文件;
当存储系统中第二异常事件发生时,存储系统提取第二时刻;并在所述知识库中搜索第二异常事件对应的所有修复建议,判断每条修复建议在所述第一日志文件中是否存在相应的日志片段;如果存在,解析第一时刻;判断第一时刻和第二时刻的差值是否小于预设时间阈值,如果小于,将存在相应日志片段对应的所有修复建议放入至修复建议列表;其中,所述第一时刻为第二异常事件上报日志的时刻;所述第二时刻为第二异常事件发生的时刻;
根据所述修复建议列表对第二异常事件进行修复。
2.根据权利要求1所述的一种存储系统异常事件修复的方法,其特征在于,根据所述修复建议列表对第二异常事件进行修复的方法为:
按照先入先出的原则从修复建议列表中取出所有修复建议,并按照第一时刻的先后进行排序;过滤筛选后放入至子修复建议列表作为最终修复建议。
3.根据权利要求2所述的一种存储系统异常事件修复的方法,其特征在于,所述过滤筛选的方法为:判断排序后的所有修复建议中内容是否存在,如果存在,则放入至子修复建议列表。
4.根据权利要求1所述的一种存储系统异常事件修复的方法,其特征在于,所述第一日志文件用于记录根据维护的修复建议模拟第一异常事件产生的异常信息。
5.根据权利要求4所述的一种存储系统异常事件修复的方法,其特征在于,所述模拟的方法为:以存储系统中维护的的修复建议为超集,搭建存储系统,模拟不同的第一异常事件,并分别记录每个第一异常事件产生的不同原因。
6.根据权利要求1所述的一种存储系统异常事件修复的方法,其特征在于,并在所述知识库中搜索第二异常事件对应的所有修复建议的方法为:根据第二异常事件的事件识别符在所述知识库中搜索第二异常事件对应的所有修复建议。
7.根据权利要求1所述的一种存储系统异常事件修复的方法,其特征在于,所述判断每条修复建议在所述第一日志文件中是否存在相应的日志片段的方法还包括如果不存在,舍弃不存在相对应日志片段的修复建议。
8.一种存储系统异常事件修复的系统,其特征在于,包括建立模块、判断模块和修复模块;
所述建立模块用于建立存储系统第一异常事件的知识库;所述知识库包括维护的修复建议和第一日志文件;所述第一日志文件用于根据维护的修复建议模拟第一异常事件生成的日志文件;
所述判断模块用于当存储系统中第二异常事件发生时,存储系统提取第二时刻;并在所述知识库中搜索第二异常事件对应的所有修复建议,判断每条修复建议在所述第一日志文件中是否存在相应的日志片段;如果存在,解析第一时刻;判断第一时刻和第二时刻的差值是否小于预设时间阈值,如果小于,将存在相应日志片段对应的所有修复建议放入至修复建议列表;其中,所述第一时刻为第二异常事件上报日志的时刻;所述第二时刻为第二异常事件发生的时刻;
所述修复模块用于根据所述修复建议列表对第二异常事件进行修复。
9.一种设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任意一项所述的方法步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的方法步骤。
CN202110587972.5A 2021-05-27 2021-05-27 一种存储系统异常事件修复的方法、系统、设备和介质 Pending CN113254269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110587972.5A CN113254269A (zh) 2021-05-27 2021-05-27 一种存储系统异常事件修复的方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110587972.5A CN113254269A (zh) 2021-05-27 2021-05-27 一种存储系统异常事件修复的方法、系统、设备和介质

Publications (1)

Publication Number Publication Date
CN113254269A true CN113254269A (zh) 2021-08-13

Family

ID=77185031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110587972.5A Pending CN113254269A (zh) 2021-05-27 2021-05-27 一种存储系统异常事件修复的方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN113254269A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328147A (zh) * 2021-11-30 2022-04-12 浪潮(山东)计算机科技有限公司 一种测试异常处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415395B1 (en) * 1999-04-02 2002-07-02 General Electric Company Method and system for processing repair data and fault log data to facilitate diagnostics
CN110191003A (zh) * 2019-06-18 2019-08-30 北京达佳互联信息技术有限公司 故障修复方法、装置、计算机设备及存储介质
CN110765325A (zh) * 2019-11-07 2020-02-07 浪潮云信息技术有限公司 一种ceph分布式存储系统的运维分析方法及系统
CN111367807A (zh) * 2020-03-08 2020-07-03 苏州浪潮智能科技有限公司 一种日志分析的方法、系统、设备及介质
CN112631818A (zh) * 2020-12-24 2021-04-09 平安科技(深圳)有限公司 运维异常的修复处理方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415395B1 (en) * 1999-04-02 2002-07-02 General Electric Company Method and system for processing repair data and fault log data to facilitate diagnostics
CN110191003A (zh) * 2019-06-18 2019-08-30 北京达佳互联信息技术有限公司 故障修复方法、装置、计算机设备及存储介质
CN110765325A (zh) * 2019-11-07 2020-02-07 浪潮云信息技术有限公司 一种ceph分布式存储系统的运维分析方法及系统
CN111367807A (zh) * 2020-03-08 2020-07-03 苏州浪潮智能科技有限公司 一种日志分析的方法、系统、设备及介质
CN112631818A (zh) * 2020-12-24 2021-04-09 平安科技(深圳)有限公司 运维异常的修复处理方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328147A (zh) * 2021-11-30 2022-04-12 浪潮(山东)计算机科技有限公司 一种测试异常处理方法、装置、电子设备及存储介质
CN114328147B (zh) * 2021-11-30 2023-12-29 浪潮(山东)计算机科技有限公司 一种测试异常处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20190286510A1 (en) Automatic correlation of dynamic system events within computing devices
US9189319B2 (en) Management system for outputting information denoting recovery method corresponding to root cause of failure
US9612892B2 (en) Creating a correlation rule defining a relationship between event types
US10628250B2 (en) Search for information related to an incident
US20110320228A1 (en) Automated Generation of Markov Chains for Use in Information Technology
US10878335B1 (en) Scalable text analysis using probabilistic data structures
US11977532B2 (en) Log record identification using aggregated log indexes
CN113609139A (zh) 一种监控数据管理方法、装置及电子设备和存储介质
CN111339299B (zh) 一种领域知识库的构建方法和装置
CN111459698A (zh) 一种数据库集群故障自愈方法及装置
US11573848B2 (en) Identification and/or prediction of failures in a microservice architecture for enabling automatically-repairing solutions
US11797501B2 (en) Methods and systems for aggregating and querying log messages
CN111314158B (zh) 大数据平台监控方法、装置及设备、介质
CN113254269A (zh) 一种存储系统异常事件修复的方法、系统、设备和介质
CN112965882B (zh) 一种数据故障分析的方法及装置
CN116032725B (zh) 故障根因定位模型的生成方法及装置
CN111831528A (zh) 一种计算机系统日志关联方法及相关装置
CN112579552A (zh) 日志存储及调用方法、装置及系统
US11429626B2 (en) Method, device, and program product for managing index of storage system
US20230113860A1 (en) Proactive network application problem log analyzer
CN114626096A (zh) 晶圆加工生产数据管理方法及装置、电子设备
CN114692082A (zh) 换电用户的识别方法、系统、设备和介质
CN113760856A (zh) 数据库管理方法及装置、计算机可读存储介质、电子设备
US20180046966A1 (en) System and method for analyzing and prioritizing issues for automation
CN109992475A (zh) 一种日志的处理方法、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210813

RJ01 Rejection of invention patent application after publication