CN101833497B - 一种基于专家系统方法的计算机故障管理系统 - Google Patents

一种基于专家系统方法的计算机故障管理系统 Download PDF

Info

Publication number
CN101833497B
CN101833497B CN201010135370.8A CN201010135370A CN101833497B CN 101833497 B CN101833497 B CN 101833497B CN 201010135370 A CN201010135370 A CN 201010135370A CN 101833497 B CN101833497 B CN 101833497B
Authority
CN
China
Prior art keywords
fault
module
failure
event
fault diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010135370.8A
Other languages
English (en)
Other versions
CN101833497A (zh
Inventor
吴楠
张东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201010135370.8A priority Critical patent/CN101833497B/zh
Publication of CN101833497A publication Critical patent/CN101833497A/zh
Application granted granted Critical
Publication of CN101833497B publication Critical patent/CN101833497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明提供一种基于专家系统方法的计算机故障管理系统,该系统包括数据采集器1)、故障事件生成模块2)、故障诊断引擎3)、知识库4)、知识获取模块5)、故障隔离模块6)、故障恢复模块7)、故障预警模块8)、日志服务模块9)、故障管理注册模块10)以及人机交互界面11),系统管理者通过该系统中人机交互界面11)对数据采集器1)、故障事件生成模块2)、故障诊断引擎3)、知识库4)、故障隔离模块5)、故障恢复模块6)、故障预警模块7)、日志服务模块8)进行监视和管理,并通过人机交互界面11访问知识获取模块5)提供的智能编辑器。

Description

一种基于专家系统方法的计算机故障管理系统
技术领域
本发明涉及一种计算机故障管理系统,尤其是涉及一种基于专家系统方法的计算机故障管理系统。
技术背景
随着现代社会的不断发展,计算机系统已经深入而广泛地应用于医疗卫生、教育、工业生产、交通运输、金融、科学研究、军事等各领域之中。支撑关键应用的计算机系统一旦出现故障,往往会造成巨大的经济损失,甚至可能影响社会的安定与经济的运行。在此背景下,计算机系统的可靠性越来越多地得到人们的关注和重视。然而与此同时,计算机系统的结构日益复杂,规模不断增大,使得计算机系统的可靠性面临愈发严峻的困难和挑战。
计算机系统的可靠性由硬件可靠性和软件可靠性共同决定。将系统在观测期中正常运行的时间总和记作PT,将观测期中各次故障发生到相应故障被检测出的时间总和记作DT,将观测期中用于等待和准备恢复软件故障的时间总和记作PreST,将观测期中用于恢复软件故障的时间总和记作ST,将观测期中用于等待和准备恢复硬件故障的时间总和记作PreHT,将观测期中恢复硬件故障的时间总和记作HT,为说明简便计,不妨假设PreST、ST、PreHT、HT均无重叠,则有系统可靠性R=PT/(DT+PreST+ST+PreHT+HT)。由此可知,提高计算机系统可靠性的根本方法就是减少系统中软、硬件故障的发生,以及在故障发生后及早发现并尽快恢复。
现有的计算机故障管理方法较好地应用于部件级系统中,但往往缺乏面向整体系统的结构性设计,也未见将故障管理作为完整子系统纳入计算机系统的总体设计中,因而多无法对局部的计算机故障施以全局优选的处理;其次,现有的计算机故障管理方法一般过分依赖人工参与,这通常会显著地增加等待和准备处理故障的时间,并且由于个体技术水平和认知能力的差异,也增大了处理不当甚至是错误处理的可能;再者,现有的计算机故障管理方法大多仅关注特定硬件或特定软件的故障,通用性和可扩展性较差。
专家系统是具备专门知识和经验的计算机智能程序系统,采用人工智能中的知识表示和知识推理技术来实现通常只能由领域专家解决的复杂问题。近年来,专家系统已经应用到众多领域,数量众多的专家系统在功能上已达到,甚至超过同领域中人类专家的水平,并在实际应用中产生了巨大的经济效益和社会效益。
发明内容
本发明的目的是提供一种基于专家系统方法的计算机故障管理系统,以弥补现有主流计算机故障管理方法的不足:
本发明的目的是按以下方式实现的,计算机故障管理系统由数据采集器、故障事件生成模块、故障诊断引擎、知识库、知识获取模块、故障隔离模块、故障恢复模块、故障预警模块、日志服务模块、故障管理注册模块以及人机交互界面组成。
系统的故障处理工作流程如下:若干个数据采集器监视目标系统的硬件、操作系统及应用程序的运行并采集其运行状态关键信息,发送至故障事件生成模块;故障事件生成模块格式化数据采集器提交的原始数据,输出故障诊断引擎能够识别的故障事件;故障诊断引擎根据故障事件生成模块输出的故障事件结合知识库中的故障诊断专家知识,采用数据驱动控制策略推理匹配的故障处理规则,继而触发故障隔离模块、故障恢复模块、故障预警模块实施后续的故障处理;故障隔离模块根据故障诊断模块输出的故障处理策略逻辑地隔离指定故障组件,以限制故障扩散范围并作为后续故障处理的前置条件;故障恢复模块根据故障诊断模块输出的故障处理策略,恢复指定故障组件的功能或运行状态;故障预警模块根据故障诊断模块输出的故障处理策略,采用阈值算法对目标系统可能产生的故障进行预测并发送预警信息。
知识库包含以规则形式表达的故障诊断知识,诊断规则由规则描述、匹配条件集和方法集构成;
知识获取模块采用指导注入式的学习策略,通过人机交互界面向领域专家提供智能编辑器,以实现知识库的扩充。
日志服务模块向故障事件生成模块、故障诊断引擎、故障隔离模块、故障恢复模块以及故障预警模块提供基于网络的日志记录接口。
故障事件生成模块记录生成格式化故障事件的相关信息;
故障诊断引擎记录推理故障事件处理规则的相关信息;
故障隔离模块记录隔离指定故障组件的相关信息;
故障恢复模块记录恢复指定故障组件的相关信息;
故障预警模块记录预测故障的相关信息。
日志信息能够清楚地反映出故障管理系统自身的运行情况,更准确而完整地记录着故障管理系统所管理的目标系统中产生故障的详细信息,是相关人员分析与改进目标计算机系统可靠性的重要依据。
故障管理注册模块包含注册与注销数据采集器、注册与注销故障事件类型、注册与注销故障隔离方法、注册与注销故障恢复方法以及注册与注销故障预警方法的功能,这使得动态地增加和删除数据采集器、故障事件类型、故障隔离方法、故障恢复方法以及故障预警方法成为可能,因而极大地增强了系统的可扩展性。
系统管理者通过该系统中人机交互界面对数据采集器、故障事件生成模块、故障诊断引擎、知识库、故障隔离模块、故障恢复模块、故障预警模块、日志服务模块进行监视和管理;领域专家通过上述人机交互界面访问知识获取模块提供的智能编辑器。人机交互界面是所述系统的重要组成。
本发明所述的一种基于专家系统方法的计算机故障管理系统与现有的故障管理方法相比,具有以下优点:
1.本系统将故障管理纳入计算机系统的总体设计之中,具备良好的结构化设计,因而能够综合考量各种故障处理机制,以及充分利用系统资源,这使得本系统能够以更合理的策略实施故障处理。
2.本系统中故障处理的全过程均由程序驱动和实现,尤其是故障的诊断和相应处理策略的选取由专家系统自动推理完成,因而能够显著地缩短故障处理时间,并且避免由于系统管理者个体技术水平和认知能力的差异而造成的不当处理和错误处理。
3.本系统中知识库可以通过知识获取动态扩充;数据采集器、故障事件类型、故障隔离方法、故障恢复方法以及故障预警方法均可以通过故障管理注册模块动态地增加和删除。因而系统具有良好的通用性和可扩展性。
附图说明
图1为系统结构示意图;
图2为故障处理流程示意图;
图3为知识库管理流程示意图;
图4为日志服务模块结构示意图;
图5故障管理注册模块结构示意图;
图6人机交互界面结构示意图。
具体实施方式
下面结合附图对本发明所述的一种基于专家系统方法的计算机故障管理系统进行更详细的说明。
参照附图1,本发明所述系统由数据采集器、故障事件生成模块、故障诊断引擎、知识库、知识获取模块、故障隔离模块、故障恢复模块、故障预警模块、日志服务模块、故障管理注册模块以及人机交互界面组成。
参照附图2,本发明所述系统的故障处理的主要工作流程如下:
若干个数据采集器监视目标系统的硬件、操作系统及应用程序的运行并采集其运行状态关键信息,发送至故障事件生成模块;故障事件生成模块格式化数据采集器提交的原始数据,输出故障诊断引擎能够识别的故障事件;故障诊断引擎根据故障事件生成模块输出的故障事件结合知识库中的故障诊断专家知识,采用数据驱动控制策略推理匹配的故障处理规则,继而触发故障隔离模块、故障恢复模块、故障预警模块实施后续的故障处理;故障隔离模块根据故障诊断模块输出的故障处理策略逻辑地隔离指定故障组件,以限制故障扩散范围并作为后续故障处理的前置条件;故障恢复模块根据故障诊断模块输出的故障处理策略,恢复指定故障组件的功能或运行状态;故障预警模块根据故障诊断模块输出的故障处理策略,采用阈值算法对目标系统可能产生的故障进行预测并发送预警信息。
2.数据采集器
本发明所述系统中可以存在多个独立运行的数据采集器,分别监视目标系统的各主要硬件、操作系统及关键应用程序的运行并采集其运行状态信息,进而通过网络发送至故障事件生成模块。
在本系统的典型实现中,数据采集器主要通过以下途径获取信息:
MCA(Machine Check Architecture)
S.M.A.R.T.(Self-Monitoring,Analysis,and Reporting Technology)
MCH(Memory Controller Hub)
PCI-Express AER(Advanced Error Reporting)
ACPI(Advanced Configuration and Power Management Interface)
SMBus(System Management Bus)
IPMI(Intelligent Platform Management Interface)
AMT(Active Management Technology)
各类传感器
操作系统内核探针
SysFS文件系统
应用程序日志
PTrace技术
嵌入式子系统
网络设备
3.故障事件生成模块
本发明所述系统中,故障事件生成模块格式化数据采集器提交的原始数据,输出故障诊断引擎能够识别的故障事件。
在本系统的典型实现中,故障事件的格式如下:
[EventSerialNum,DataCollectorID,EventLocation,EventType,EventInfo]
其中各字段的含义如下所示。
  字段名称   描述
  EventSerialNum   事件序列号
  DataCollectorID   数据采集器标识
  EventLocation   事件发生位置
  EventType   事件类型
  EventInfo   事件详细信息
4.故障诊断引擎
本发明所述系统中,故障诊断引擎根据故障事件生成模块输出的故障事件结合知识库中的故障诊断专家知识,采用数据驱动控制策略推理得出匹配的故障诊断规则,继而触发故障隔离模块、故障恢复模块、故障预警模块实施后续的故障处理。
在本系统的典型实现中,故障诊断引擎采用数据驱动控制策略。其主要工作流程如下:
e)遍历故障诊断后缓冲区,以故障事件特征匹配故障诊断规则。若匹配成功则转至步骤e;否则执行步骤b
f)遍历知识库,以故障事件特征匹配故障诊断规则的条件集
g)生成冲突集和求解冲突
h)确认故障诊断规则,刷新故障诊断后缓冲区
i)向关联模块输出规则的方法集,以驱动后续故障处理
5.知识库
本发明所述系统中,知识库包含以规则形式表达的故障诊断知识。
在本系统的典型实现中,故障诊断规则的格式如下:
[RuleDesc,ConditiohSet,MethodSet]
其中各字段的含义如下所示。
  字段名称   描述
  RuleDesc   规则描述信息
  ConditionSet   匹配条件集
  MethodSet   方法集
6.知识获取模块
本发明所述系统中,知识获取模块采用指导注入式的学习策略,通过人机交互界面向领域专家提供智能编辑器,以实现知识库的扩充。
在本系统的典型实现中,知识获取模块的主要工作流程如下:
e)前置步骤,领域专家通过智能编辑器创建新的故障诊断规则
f)规则检验。若通过检验执行步骤c;否则转至步骤a
g)冲突分析。若未见冲突执行步骤d;否则转至步骤a
h)向知识库添加新规则
7.故障隔离模块
本发明所述系统中,故障隔离模块根据故障诊断模块输出的故障处理策略逻辑地隔离目标系统故障组件,以限制故障扩散范围并作为后续故障处理的前置条件。
在本系统的典型实现中,故障隔离模块主要以下列技术和措施为基础对指定故障组件实施隔离:
CPU热移除
内存热移除
Bad/Poisoned Data Containment
PCI-Express热移除
Socket热移除
IOH热移除
KVM(Kernel-based Virtual Machine)
应用容器
停止故障组件运行
8.故障恢复模块
本发明所述系统中,故障恢复模块根据故障诊断模块输出的故障处理策略,恢复目标系统故障组件的功能或运行状态。
在本系统的典型实现中,故障恢复模块主要以下列技术和措施为基础对指定的故障组件实施恢复:
CPU锁步(Lockstep)
CPU热添加
Parity Protection
Soft-Error Hardened Latches
缓存保护技术(Cache Safe Technology)
可恢复的MCA
Replay on CRC Error
Lane Failover
ECC(Error Checking and Correcting)
DDDC(Double Device Data Correction)
Patrol Scrubbing
Demand Scrubbing
DIMM Sparing
内存热添加
Memory Sparing
内存镜像(Memory Mirroring)
内存迁移(Memory Migration)
PCI-Express热添加
QPI Link Recovery
QPI Link Self-healing
QPI Poison Forwarding
Socket热添加
IOH热添加
操作系统核心多副本
进程迁移
进程检查点技术
进程对技术
内存迁移(由操作系统实现的)
多路径I/O
虚拟机动态迁移
应用容器动态迁移
数据回滚
高可用技术
9.故障预警模块
该系统中故障预警模块根据故障诊断模块输出的故障处理策略,采用阈值算法对目标系统可能产生的故障进行预测并发送预警信息。
在本系统的典型实现中,故障预警模块的主要工作流程如下:
e)从故障事件缓冲区取回未决故障事件
f)在故障预警对象链中查找与当前故障事件类型匹配的项
g)执行匹配项的计数方法
h)执行匹配项的阈值检验方法。若计数达到或大于阈值,则执行步骤e;否则转至步骤a
i)执行匹配项的报警方法
10.日志服务模块
参见附图4,在本发明所述系统中,日志服务模块向故障事件生成模块、故障诊断引擎、故障隔离模块、故障恢复模块以及故障预警模块提供基于网络的日志记录接口。故障事件生成模块记录生成格式化故障事件的相关信息;故障诊断引擎记录推理故障事件处理规则的相关信息;故障隔离模块记录隔离指定故障组件的相关信息;故障恢复模块记录恢复指定故障组件的相关信息;故障预警模块记录预测故障的相关信息。这些日志信息能够清楚地反映出故障管理系统自身的运行情况,更准确而完整地记录着故障管理系统所管理的目标系统中产生故障的详细信息,是相关人员分析与改进目标计算机系统可靠性的重要依据。
在本系统的典型实现中,日志条目的格式如下:
[Time,Subject,Action,Conclusion,Additional]
其中各字段的含义如下所示:
  字段名称   描述
  Time   时间
  Subject   主体
  Action   动作
  Conclusion   结论
  Additional   附加信息
11.故障管理注册模块
参见附图5,本发明所述系统的故障管理注册模块(501)包含注册与注销数据采集器(502)、注册与注销故障事件类型(503)、注册与注销故障隔离方法(504)、注册与注销故障恢复方法(505)以及注册与注销故障预警方法(506)的功能,这使得动态地增加和删除数据采集器、故障事件类型、故障隔离方法、故障恢复方法以及故障预警方法成为可能,因而极大地增强了系统的可扩展性。
在本系统的典型实现中,故障管理注册模块的主要工作流程如下:
a)创建新的故障管理设施描述符(可以是数据采集器描述符,故障事件类型描述符,或故障隔离/恢复/预警方法描述符)
b)根据输入参数设置上述描述符
c)将该描述符加入相应类型的描述符链表中待用
下面以注册数据采集器为例,进一步说明故障管理注册模块的实施方式。
数据采集器描述结构如下所示:
  成员名称   描述
  id   唯一标识
  owner   所有者
  authority   运行权限
  running_mode   运行模式
  objects   监控目标链
  entry_point   程序入口地址
  talk_manner   与故障事件生成模块的通信方式
  format   输出数据格式描述
因此故障管理注册模块增加新的数据采集器的主要工作流程即:
a)创建新的数据采集器描述符
b)根据输入参数设置上述描述符中id、owner、authority、running_mode、objects、entry_point、talk_manner以及format各项的值
c)将该描述符加入数据采集器描述符全局链表中
12.人机交互界面
参见附图6,在本发明所述系统中,系统管理者通过该系统中人机交互界面对数据采集器、故障事件生成模块、故障诊断引擎、知识库、故障隔离模块、故障恢复模块、故障预警模块、日志服务模块进行监视和管理;领域专家通过上述人机交互界面访问知识获取模块提供的智能编辑器。人机交互界面是所述系统的重要组成。
在本系统的典型实现中,人机交互界面支持以下访问方式:
CLI(Command Line Interface)方式
GUI(Graphical User Interface)方式
基于浏览器的网络访问方式。

Claims (1)

1.一种基于专家系统方法的计算机故障管理系统,其特征在于,该系统包括数据采集器1)、故障事件生成模块2)、故障诊断引擎3)、知识库4)、知识获取模块5)、故障隔离模块6)、故障恢复模块7)、故障预警模块8)、日志服务模块9)、故障管理注册模块10)以及人机交互界面11),系统管理者通过该系统中人机交互界面11)对数据采集器1)、故障事件生成模块2)、故障诊断引擎3)、知识库4)、故障隔离模块5)、故障恢复模块6)、故障预警模块7)、日志服务模块8)进行监视和管理,并通过人机交互界面11访问知识获取模块5)提供的智能编辑器,其中:
    1)系统中设置若干个独立运行的数据采集器,分别监视目标系统的各主要硬件、操作系统及关键应用程序的运行并采集其运行状态信息,进而通过网络发送至故障事件生成模块;各类传感器;操作系统内核探针;SysFS文件系统;应用程序日志;PTrace技术;嵌入式子系统;网络设备;
    2)故障事件生成模块,格式化数据采集器提交的原始数据,输出故障诊断引擎能够识别的故障事件;
    3)故障诊断引擎,根据故障事件生成模块输出的故障事件结合知识库中的故障诊断专家知识,采用数据驱动控制策略推理匹配的故障处理规则,继而触发故障隔离模块、故障恢复模块、故障预警模块实施后续的故障处理;故障诊断引擎采用数据驱动控制策略工作流程如下:
    a)遍历故障诊断后缓冲区,以故障事件特征匹配故障诊断规则,若匹配成功则转至步骤d)确认故障诊断规则,否则执行步骤b)遍历知识库;
    b)遍历知识库,以故障事件特征匹配故障诊断规则的条件集;
    c)生成冲突集和求解冲突;
    d)确认故障诊断规则,刷新故障诊断后缓冲区,向关联模块输出规则的方法集,以驱动后续故障处理;
    4)知识库包含以规则形式表达的故障诊断知识,诊断规则由规则描述、匹配条件集和方法集构成;
    5)知识获取模块,采用指导注入式的学习策略,通过人机交互界面向领域专家提供智能编辑器,以实现知识库的扩充,知识获取模块的主要工作流程如下:
    a)前置步骤,领域专家通过智能编辑器创建新的故障诊断规则;
    b)规则检验,若通过检验执行步骤c)冲突分析;否则转至步骤a)前置步骤;
    c)冲突分析,若未见冲突执行步骤d)向知识库添加新规则;否则转至步骤a)前置步骤;
    d)向知识库添加新规则;
    6)故障隔离模块,根据故障诊断模块输出的故障处理策略逻辑地隔离目标系统故障组件,以限制故障扩散范围并作为后续故障处理的前置条件;故障隔离模块以下列技术和措施为基础对指定故障组件实施隔离:
    CPU热移除;内存热移除;BadlPoisoned Data Containment;PCI-Express热移除; Socket热移除; IOH热移除; KVM;应用容器;停止故障组件运行;
    7)故障恢复模块,根据故障诊断模块输出的故障处理策略,恢复目标系统故障组件的功能或运行状态;故障恢复模块以下列技术和措施为基础对指定的故障组件实施恢复:
    CPU锁步;CPU热添加;Parity Protection;Soft-Error Hardened Latches;缓存保护技术;可恢复的MCA;Replay  on  CRC Error;Lane  Failover;ECC;DDDC;PatrolScrubbing;Demand Scrubbing;DIMM Sparing;内存热添加;MemorySparing;内存镜像;内存迁移;PCI-Express热添加;QPI  Link Recovery;QPI  LinkSelf-healing;QPI  PoisonForwarding;Socket热添加;IOH热添加;操作系统核心多副本;进程迁移;进程检查点技术;进程对技术;由操作系统实现的内存迁移;多路径I/O;虚拟机动态迁移;应用容器动态迁移;数据回滚高可用技术;
8)故障预警模块,根据故障诊断模块输出的故障处理策略,采用阈值算法对目标系统可能产生的故障进行预测并发送预警信息;故障预警模块的主要工作流程如下:
8-a)从故障事件缓冲区取回未决故障事件;
8-b)在故障预警对象链中查找与当前故障事件类型匹配的项;
8-c)执行匹配项的计数方法;
8-d)执行匹配项的阈值检验方法,若计数达到或大于阈值,则执行步骤8e;否则转至步骤8a;
8-e)执行匹配项的报警方法;
    9)日志服务模块,向故障事件生成模块、故障诊断引擎、故障隔离模块、故障恢复模块以及故障预警模块提供基于网络的日志记录接口;
10)故障管理注册模块,包含以下功能:注册与注销数据采集器、注册与注销故障事件类型、注册与注销故障隔离策略、注册与注销故障恢复策略、注册与注销故障预警策略;故障管理注册模块的主要工作流程如下:
    a)创建新的故障管理设施描述符,包括数据采集器描述符,故障事件类型描述符,或故障隔离/恢复/预警方法描述符;
    b)根据输入参数设置上述描述符;
    c)将该描述符加入相应类型的描述符链表中待用;
    11)入机交互界面是所述系统的重要组成,人机交互界面支持以下访问方式:
    CLI方式和GUI方式;
基于浏览器的网络访问方式,具体管理步骤如下:
1)若干个数据采集器监视目标系统的硬件、操作系统及应用程序的运行并采集其运行状态关键信息,发送至故障事件生成模块;
2)故障事件生成模块格式化数据采集器提交的原始数据,输出故障诊断引擎能够识别的故障事件;
3)故障诊断引擎根据故障事件生成模块输出的故障事件结合知识库中的故障诊断专家知识,采用数据驱动控制策略推理匹配的故障处理规则,继而触发故障隔离模块、故障恢复模块、故障预警模块实施后续的故障处理;
4)故障隔离模块根据故障诊断模块输出的故障处理策略逻辑地隔离指定故障组件,以限制故障扩散范围并作为后续故障处理的前置条件;
5)故障恢复模块根据故障诊断模块输出的故障处理策略,恢复指定故障组件的功能或运行状态;
6)故障预警模块根据故障诊断模块输出的故障处理策略,采用阈值算法对目标系统可能产生的故障进行预测并发送预警信息。
CN201010135370.8A 2010-03-30 2010-03-30 一种基于专家系统方法的计算机故障管理系统 Active CN101833497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010135370.8A CN101833497B (zh) 2010-03-30 2010-03-30 一种基于专家系统方法的计算机故障管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010135370.8A CN101833497B (zh) 2010-03-30 2010-03-30 一种基于专家系统方法的计算机故障管理系统

Publications (2)

Publication Number Publication Date
CN101833497A CN101833497A (zh) 2010-09-15
CN101833497B true CN101833497B (zh) 2015-01-21

Family

ID=42717573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010135370.8A Active CN101833497B (zh) 2010-03-30 2010-03-30 一种基于专家系统方法的计算机故障管理系统

Country Status (1)

Country Link
CN (1) CN101833497B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9652318B2 (en) 2013-10-30 2017-05-16 Samsung Sds Co., Ltd. System and method for automatically managing fault events of data center

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035684B (zh) * 2010-12-20 2015-08-12 中兴通讯股份有限公司 一种故障通知方法及系统
CN102053873B (zh) * 2011-01-13 2012-12-05 浙江大学 一种缓存感知的多核处理器虚拟机故障隔离保证方法
CN102682187B (zh) * 2011-03-14 2015-08-26 卡斯柯信号有限公司 一种用于轨道交通设备的智能故障诊断方法
WO2012143844A1 (en) * 2011-04-21 2012-10-26 International Business Machines Corporation Virtual machine high availability
WO2012106931A1 (zh) 2011-07-26 2012-08-16 华为技术有限公司 一种应用程序的内存错误修复方法
CN102279775B (zh) * 2011-08-19 2013-04-17 西安交通大学 一种Linux系统下的硬盘故障处理方法
CN102323899B (zh) * 2011-09-05 2013-05-08 浪潮电子信息产业股份有限公司 Numa体系结构下面向容错的操作系统内存管理方法
CN102364448B (zh) * 2011-09-19 2014-01-15 浪潮电子信息产业股份有限公司 一种计算机故障管理系统的容错方法
CN102354283A (zh) * 2011-09-20 2012-02-15 天津智康医疗科技有限公司 规则库的构建方法和利用该规则库进行数据检查的方法
CN102346668A (zh) * 2011-09-20 2012-02-08 天津智康医疗科技有限公司 构建规则库的设备
CN102662821B (zh) 2012-03-22 2015-03-11 华为技术有限公司 虚拟机故障的辅助诊断方法、装置和系统
CN102708037B (zh) * 2012-04-23 2015-05-20 山东中创软件工程股份有限公司 一种应用程序运行状态的检查方法和检查装置
CN102662788A (zh) * 2012-04-28 2012-09-12 浪潮电子信息产业股份有限公司 一种计算机系统故障诊断决策及处理方法
CN109583591A (zh) * 2012-09-20 2019-04-05 伊夫维泽德公司 用于简化的知识工程的方法与系统
JP6114818B2 (ja) * 2013-04-05 2017-04-12 株式会社日立製作所 管理システム及び管理プログラム
CN103336198B (zh) * 2013-06-21 2015-06-17 中国人民解放军国防科学技术大学 一种电气系统故障诊断装置
CN103439113A (zh) * 2013-06-21 2013-12-11 上海空间推进研究所 一种基于链表结构的故障诊断方法
JP2015060675A (ja) * 2013-09-18 2015-03-30 ソニー株式会社 蓄電システム
CN103595708B (zh) * 2013-10-22 2017-08-25 北京奇虎科技有限公司 浏览器异常关闭的处理方法、系统、浏览器和服务器
CN103559124B (zh) * 2013-10-24 2017-04-12 华为技术有限公司 故障快速检测方法及装置
CN104809051B (zh) 2014-01-28 2017-11-14 国际商业机器公司 用于预测计算机应用中的异常和故障的方法和装置
CN103995759B (zh) * 2014-05-21 2015-04-29 中国人民解放军国防科学技术大学 基于核内外协同的高可用计算机系统故障处理方法及装置
CN105224416B (zh) * 2014-05-28 2018-08-21 联发科技(新加坡)私人有限公司 修复方法及相关电子装置
CN104461821A (zh) * 2014-11-03 2015-03-25 浪潮(北京)电子信息产业有限公司 一种虚拟机监控预警方法及系统
EP3216177B1 (en) 2014-11-06 2021-04-14 Hewlett Packard Enterprise Development LP Network policy graphs
CN104461809B (zh) * 2014-11-13 2017-05-31 浪潮(北京)电子信息产业有限公司 一种故障信息管理方法及系统
CN104743137B (zh) * 2015-03-05 2017-01-04 北京控制工程研究所 一种基于事件队列的航天器故障诊断方法
US20160285958A1 (en) * 2015-03-27 2016-09-29 Intel Corporation Application container for live migration of mobile applications
CN104950776B (zh) * 2015-06-29 2018-06-26 陕西法士特齿轮有限责任公司 一种并联混合动力amt控制系统
US10644951B2 (en) 2015-07-22 2020-05-05 Hewlett Packard Enterprise Development Lp Adding metadata associated with a composite network policy
CN105426294A (zh) * 2015-11-04 2016-03-23 许继集团有限公司 智能变电站监控系统运行的日志生成及诊断方法
CN105548867A (zh) * 2015-12-01 2016-05-04 天津市电力科技发展公司 一种高压断路器触头状态诊断系统及方法
CN106338982A (zh) * 2016-09-26 2017-01-18 深圳前海弘稼科技有限公司 故障处理方法、故障处理装置和服务器
CN106779092B (zh) * 2016-12-16 2019-04-19 广州衡昊数据科技有限公司 一种具备行业专家思维模式和操作能力的智能决策引擎
CN106815114A (zh) * 2017-01-12 2017-06-09 西安科技大学 一种基于软硬件协同的计算机系统故障处理方法
US10318364B2 (en) * 2017-02-23 2019-06-11 Visual Process Limited Methods and systems for problem-alert aggregation
US10812342B2 (en) 2017-04-28 2020-10-20 Hewlett Packard Enterprise Development Lp Generating composite network policy
CN107179959A (zh) * 2017-05-19 2017-09-19 郑州云海信息技术有限公司 一种预测计算机运行故障的方法、装置和一种存储介质
CN107272669B (zh) * 2017-08-14 2019-07-05 中国航空无线电电子研究所 一种机载故障管理系统
CN107562561A (zh) * 2017-09-05 2018-01-09 合肥爱吾宠科技有限公司 计算机硬件快速诊断测试系统
CN107608813A (zh) * 2017-09-14 2018-01-19 郑州云海信息技术有限公司 一种基于linux操作系统信息自动分析故障的方法
CN107644256A (zh) * 2017-09-14 2018-01-30 郑州云海信息技术有限公司 一种基于机器学习方式形成故障规则库的方法
CN107562603A (zh) * 2017-09-25 2018-01-09 郑州云海信息技术有限公司 一种基于linux的故障智能定位系统及方法
CN108629016B (zh) * 2018-05-08 2022-05-24 成都信息工程大学 支持实时流计算面向大数据数据库控制系统、计算机程序
CN108984332A (zh) * 2018-06-22 2018-12-11 郑州云海信息技术有限公司 一种定位服务器宕机故障的装置及方法
CN109005072B (zh) * 2018-09-06 2021-12-17 郑州信大壹密科技有限公司 基于策略的集中式多级监管系统
CN109519368B (zh) * 2018-11-28 2020-01-14 南智(重庆)能源技术有限公司 储气库往复式压缩机的智能运维与健康管理系统
CN109885018B (zh) * 2019-01-18 2020-10-09 广东寰球智能科技有限公司 一种面向金属包装设备的专家智库系统的管理方法
CN112068981B (zh) * 2020-09-24 2022-06-21 中国人民解放军国防科技大学 Linux操作系统中基于知识库的故障扫描恢复方法及系统
CN112527609B (zh) * 2021-02-18 2021-05-28 成都新希望金融信息有限公司 预警信息推送方法、装置、电子设备及存储介质
CN113517897A (zh) * 2021-06-23 2021-10-19 成都市克莱微波科技有限公司 L波段双频固态发射机和l波段双频固态发射机控制方法
CN117709696A (zh) * 2024-02-06 2024-03-15 中国民用航空飞行学院 基于专家系统的程序管制预案自动生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657421B1 (ko) * 2004-11-16 2006-12-13 서울통신기술 주식회사 학습을 통한 지능형 ums 관리 방법
CN101263499A (zh) * 2005-07-11 2008-09-10 布鲁克斯自动化公司 智能状态监测和故障诊断系统
CN101377750A (zh) * 2007-09-21 2009-03-04 中国科学院计算技术研究所 一种用于机群容错的系统和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2101927A1 (en) * 1991-02-05 1992-08-06 Fletcher Lawrence Hill Knowledge based machine initiated maintenance system
JP2003108377A (ja) * 2001-10-01 2003-04-11 Seiko Epson Corp 知識ルール変換装置、エキスパートシステム、知識ルール変換プログラムおよびエキスパートシステムの構築方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657421B1 (ko) * 2004-11-16 2006-12-13 서울통신기술 주식회사 학습을 통한 지능형 ums 관리 방법
CN101263499A (zh) * 2005-07-11 2008-09-10 布鲁克斯自动化公司 智能状态监测和故障诊断系统
CN101377750A (zh) * 2007-09-21 2009-03-04 中国科学院计算技术研究所 一种用于机群容错的系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9652318B2 (en) 2013-10-30 2017-05-16 Samsung Sds Co., Ltd. System and method for automatically managing fault events of data center

Also Published As

Publication number Publication date
CN101833497A (zh) 2010-09-15

Similar Documents

Publication Publication Date Title
CN101833497B (zh) 一种基于专家系统方法的计算机故障管理系统
US9274902B1 (en) Distributed computing fault management
CN102364448B (zh) 一种计算机故障管理系统的容错方法
AU660661B2 (en) Knowledge based machine initiated maintenance system
Lou et al. Software analytics for incident management of online services: An experience report
CN105468484A (zh) 用于在存储系统中确定故障位置的方法和装置
US9436539B2 (en) Synchronized debug information generation
CN102880522A (zh) 面向硬件故障的系统关键文件故障纠正方法及装置
US11249861B2 (en) Multi-layered disaster recovery manager
US20060174167A1 (en) Self-creating maintenance database
JP4819014B2 (ja) ログ解析方法、ログ格納装置及びプログラム
CN105760241A (zh) 一种内存数据导出方法和系统
CN107506261A (zh) 适应cpu、gpu异构集群的级联容错处理方法
Lee et al. Measurement-based evaluation of operating system fault tolerance
CN116126772A (zh) 一种应用于arm服务器的uart串口管理系统及方法
US20140201566A1 (en) Automatic computer storage medium diagnostics
WO2022033224A1 (zh) 人员可靠性评估方法、系统、计算机设备及存储介质
US10210033B2 (en) Managing component errors with a common software sensor based diagnostic method
CN103514071B (zh) 非破坏性的内存在线测试方法
US8478954B2 (en) Prioritizing subgroups in a consistency group
CN112084097B (zh) 一种磁盘告警方法及装置
CN104050051A (zh) 一种星载计算机的故障诊断方法
Taerat et al. Using log information to perform statistical analysis on failures encountered by large-scale HPC deployments
Kalbarczyk et al. Classical Dependability Techniques
Zhou et al. Functional safety analysis and promotion for relay protection device platform

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHANDONG LANGCHAO HUICAI INVESTMENT HOLDING CO., L

Free format text: FORMER OWNER: SHANDONG HIGH-END SERVER + STORAGE RESEARCH INSTITUTE

Effective date: 20120925

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 250014 JINAN, SHANDONG PROVINCE TO: 250101 JINAN, SHANDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20120925

Address after: Xinluo Avenue high tech Zone of Ji'nan City, Shandong province 250101 No. 1768 Qilu Software building B block 3 layer

Applicant after: Shandong wave color Klc Holdings Ltd

Address before: 250014 No. 224 mountain road, Lixia District, Shandong, Ji'nan

Applicant before: Shandong High-End Server & Storage Research Institute

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: LANGCHAO ELECTRONIC INFORMATION INDUSTRY CO., LTD.

Free format text: FORMER OWNER: SHANDONG LANGCHAO HUICAI INVESTMENT HOLDING CO., LTD.

Effective date: 20130724

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130724

Address after: 250101 Shandong Province, Ji'nan City hi tech Development Zone, Nga Road No. 1036

Applicant after: Langchao Electronic Information Industry Co., Ltd.

Address before: Xinluo Avenue high tech Zone of Ji'nan City, Shandong province 250101 No. 1768 Qilu Software building B block 3 layer

Applicant before: Shandong wave color Klc Holdings Ltd

C14 Grant of patent or utility model
GR01 Patent grant