CN105337765A - 一种分布式hadoop集群故障自动诊断修复系统 - Google Patents
一种分布式hadoop集群故障自动诊断修复系统 Download PDFInfo
- Publication number
- CN105337765A CN105337765A CN201510650975.3A CN201510650975A CN105337765A CN 105337765 A CN105337765 A CN 105337765A CN 201510650975 A CN201510650975 A CN 201510650975A CN 105337765 A CN105337765 A CN 105337765A
- Authority
- CN
- China
- Prior art keywords
- task
- cluster
- monitoring
- monitoring module
- alarm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种分布式hadoop集群故障自动诊断修复系统,包括集群文件系统监控模块:采集获取集群节点信息以及数据库文件;作业任务监控模块:采集作业和任务的信息;物理节点监控模块:监控每个物理节点的资源消耗信息;数据存储分析处理模块:将监控数据存储到数据库;设定监控告警规则,预先配置告警ID、级别及原因;自动修复模块:预先定义配置各类常见告警故障,并为每个告警故障定制预处理脚本,当监控巡检到故障发生时,对当前发生的故障与预先定义配置的告警故障进行匹配,并调用相应的预处理脚本完成故障的自动处理。本发明能够自动诊断修复系统故障,使维护变得更加简单,性能数据、节点状态更加清晰明确。
Description
技术领域
本发明涉及一种集群故障自动诊断修复系统,尤其涉及一种分布式hadoop集群故障自动诊断修复系统。
背景技术
业界没有对hadoop集群监控发现问题后自动分析解决的方案,目前关于hadoop集群故障解决方法为预先配置好关键的运维监控指标,对hadoop集群及相关项目健康进行检查,同时对作业和任务执行进行分析,将监控信息暴露出来,维护人员登录web平台查看存在问题的节点及性能,并登录节点分析日志,修复集群。
现有技术的主要缺点如下:1、不能实现故障实时告警,配置好的每个监控指标需要维护人员登录到web平台查看有问题的节点;2、集群监控只能查看当前的监控数据,没有存储和历史查询功能,无法进行监控数据分析和建立预测模型;3、不能对监控数据进行自动分析及根据分析结果进行自动化修复,需要人工登录到问题节点分析错误日志,根据经验进行故障解决。
发明内容
本发明所要解决的技术问题是提供一种分布式hadoop集群故障自动诊断修复系统,能够轻松有效地控制hadoop集群,使维护变得更加简单,性能数据、节点状态更加清晰明确,分析、发现、解决问题更加快速。
本发明为解决上述技术问题而采用的技术方案是提供一种分布式hadoop集群故障自动诊断修复系统,包括:
集群文件系统监控模块:采集获取集群节点信息以及数据库文件;
作业任务监控模块:采集作业和任务的信息,并对作业任务进行控制管理,包括作业的开启和停止,对指定作业进行周期采样,以及对任务优先级进行管理;
物理节点监控模块:监控每个物理节点的资源消耗信息;
数据存储分析处理模块:对来自所述集群文件系统监控模块、作业任务监控模块和物理节点监控模块的监控数据进行结构化、统一化后存储到数据库;设定监控告警规则,预先配置告警ID、级别及原因;
自动修复模块:预先定义配置各类常见告警故障,并为每个告警故障定制预处理脚本,当所述数据存储分析处理模块监控巡检到故障发生时,对当前发生的故障与预先定义配置的告警故障进行匹配,并调用相应的预处理脚本完成故障的自动处理。
上述的分布式hadoop集群故障自动诊断修复系统,其中,所述集群文件系统监控模块包括:浏览文件记录,namenode日志记录,namenode运行情况、集群配置容量、DFS占用容量、非DFS占用容量、DFS的可使用容量、DFS已使用百分比、DFS可使用百分比、活节点数、死节点数、namenode的存储目录及类型状态。
上述的分布式hadoop集群故障自动诊断修复系统,其中,所述集群文件系统监控模块包括:获取HDFS的实时数据和历史状态,根据HDFS信息浏览和定位相关文件,以及监控关闭或者打开所述相关文件时,各个磁盘已经使用和各个磁盘的总容量,剩余容量,文件名称和数目,以及文件的使用情况和历程。
上述的分布式hadoop集群故障自动诊断修复系统,其中,所述作业任务监控模块控制集群任务概要信息,堆的大小,所占的比例,Map任务数,Reduce任务数以及各个节点上的任务数量值。
上述的分布式hadoop集群故障自动诊断修复系统,其中,所述作业任务监控模块实时查看作业的状态,查询整个作业从开始工作到结束工作耗费的时间总和,对与指定任务的作业相关信息,显示完成的所有进度、总共要进行的任务总数,预计需要完成的任务数量,当前正在运行的任务数量、到目前为止已经完成,没有成功运行和已经终止的任务。
上述的分布式hadoop集群故障自动诊断修复系统,其中,所述作业任务监控模块实时查看任务的信息,包括任务的状态、运行任务的开始和结束时间,任务的运行速度及任务所消耗的时间,记录整个任务运行日志,统计任务数目和条目。
上述的分布式hadoop集群故障自动诊断修复系统,其中,所述物理节点监控模块对hadoop集群中全部物理机进行分组,监控每个物理节点平均内存和CPU负载,并对物理节点之间监控信息共享。
上述的分布式hadoop集群故障自动诊断修复系统,其中,所述数据存储分析处理模块包括:设置热点问题告警,对热点问题进行优先监控,同时建立预测模型,对故障进行预测。
上述的分布式hadoop集群故障自动诊断修复系统,其中,所述数据存储分析处理模块对海量数据进行抽取、转换、分类和聚类、设定集群告警相关性,并根据关联规则对监控数据进行关联分析,定位故障所在。
上述的分布式hadoop集群故障自动诊断修复系统,其中,还包括设置WEB界面对所述集群文件系统监控模块、作业任务监控模块、物理节点监控模块、数据存储分析处理模块以及自动修复模块的采集监控过程进行可视化展示。
本发明对比现有技术有如下的有益效果:本发明提供的分布式hadoop集群故障自动诊断修复系统,通过对集群健康指标、作业任务进行监控,进行智能分析预警,让管理员实时清楚节点状态、并准确发现节点上出现了什么问题,解决故障不能实时告警的缺陷;并能够定义配置好告警选项及相应解决办法,对监控告警数据进行自动化修复。此外,本发明能够存储集群监控数据,建立热点事件进行分析和监控,同时根据监控数据建立预测模型,可以对故障进行预测,解决监控告警数据不能进行智能分析的缺陷。
附图说明
图1为本发明分布式hadoop集群故障自动诊断修复系统架构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1为本发明分布式hadoop集群故障自动诊断修复系统架构示意图。
请参见图1,本发明提供的分布式hadoop集群故障自动诊断修复系统,采用集群监控模块分别对集群文件系统、作业任务和物理节点分别进行监控,数据库和数据分析模块构成数据存储分析处理模块,从而形成集群文件系统监控模块、作业任务监控模块、数据存储分析处理模块和自动修复模块共五个模块,实现这五个小模块并将其在web中进行展现和管理,从而组成hadoop自动化监控运维平台,能够进行多方面监控、良好的报警机制、数据分析处理、自动化修复管理。
本发明实现一种hadoop集群健康指标采集、作业任务执行监控、自动化预警与修复的方法。通过此方法,根据预先配置好关键的运维监控指标可以对集群健康进行检查、作业和任务执行进行可视化分析;根据将监控数据转成到数据库进行分析处理,可以设置热点问题,对热点问题进行重点分析和监控,同时可以建立预测模型,对故障进行预测,提高运维效率;根据定义配置好告警选项和各类告警故障定制好自动化预处理,可以对监控告警数据进行自动化分析,自动化修复;极大的提高了运维的工作效率,为不懂hadoop运维的人提供系统入门的垫脚石,为hadoop管理提供了方便的集群管理工具。
本发明各模块主要功能及实现过程如下:
1、集群文件系统监控模块:
整个框架的基础是hadoop的分布式文件系统(HDFS),对集群节点信息以及各种文件的数据库进行具体的分析。
浏览文件记录,namenode日志记录,namenode运行情况,如成功运行及运行时间或者运行失败;
集群配置容量、DFS占用容量、非DFS占用容量、DFS的可使用容量、DFS已使用百分比、DFS可使用百分比、活节点数、死节点数、namenode的存储目录及类型和状态。
HDFS的实时数据,历史状态功能,包括对集群监控后,实时能检测到HDFS信息,浏览和定位相关文件,以及关闭或者打开一个文件,各个磁盘已经使用和各个磁盘的总容量,剩余容量,文件名称和数目以及文件的使用情况和历程。
2、作业任务监控模块:
整个架构是对hadoop集群系统各种作业和任务进行监控,对作业监控功能进行管理、控制作业和任务的状态、采集作业和任务的信息。
控制集群任务概要信息,堆的大小,所占的比例,Map任务数,Reduce任务数,各个节点上的数量值和Map的各种任务的实施能力,还有Reduce任务实施能力。
实时查看job的状态和查询整个job从开始工作到结束工作耗费的时间总和,对与指定任务的作业相关信息,能够显示完成的所有进度、总共要进行的任务总数,预计需要完成的任务数量,此时此刻正在运行的任务数量、到目前为止已经完成,没有成功运行和已经终止的任务。
实时查看Task的信息,包括task的状态、运行task的开始和结束时间,task的运行速度及消耗task所消耗的时间,记录整个task运行日志,统计task数目和条目。
提供对作业任务进行控制管理,包括作业功能的开启和停止,对指定作业进行周期采样,job优先级进行管理。
3、物理节点监控模块:
物理节点监控模块结合hadoop集群特点,总结出集群物理机的监控,对物理节点之间监控信息共享,管理节点向集群任意节点获取监控数据、资源消耗信息。
对hadoop集群中全部物理机分组,监控到每个节点平均内存、CPU负载、网络统计信息通过web将不通节点监控数据展现出来,每隔一定时间将得到的监控信息存储到数据。
4、数据存储分析处理模块:
设定监控告警规则,预配置告警ID、级别及原因,将监控数据进行结构化、统一化存储到数据库,对海量数据进行抽取、转换与预配置信息进行智能分析,进行分类、聚类、关联规则、数据探索等建模任务,提供分析结果展示。
设置热点问题告警,对热点问题进行重点分析和监控,同时建立预测模型,对故障进行预测。
设定集群告警相关性,对监控数据进行关联分析,有效分析故障所在。
5、自动修复模块:
对故障事件进行收集,对定义配置好的各类告警选项,定制预处理手段,系统监控巡检到特定事件发生时,对故障根源自动自判断,进行故障的自动处理。
定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供集群的可用性、性能、系统资源利用状况分析报告。
下面给出某移动云存储集群namenode双机运行失败,采用本发明自愈过程的案例效果。
某日凌晨,云存储集群上连交换机IOS升级发生故障,集群网络中断约20分钟,网络恢复正常后,集群监控告警检测到namenode双机运行失败,进程全部退出,触发云存储业务功能使用全部失败。
监控数据将namenode日志和运行情况及失败时间、物理机运行日志,根据设定好的告警规则,将监控数据存储到数据库,数据存储分析处理模块对namenode日志数据进行抽取、转换,对告警故障关键点数据进行汇总:
1)主Namenode节点出现致命错误,无法记录日志到JournalNode节点,此错误会导致主Namenode进程退出;
2)备Namenode节点无法从主Namenode同步日志,在断定主Namenode退出后切换为新的主Namenode;
3)3分钟后,新的主Namenode出现致命错误,无法记录日志JournalNode节点,此错误导致新的主Namenode进程退出。
4)通过对告警故障关键数据与预配置的告警ID、级别及原因进行关联,判定原因为主备Namenode均无法同步日志到JournalNode节点,两个Namenode进程均退出,
对namenode进程丢失该类型故障系统已经定义好预处理手段,当数据存储分析处理模块判断原因为主备namenode节点无法同步日志JournalNode节点导致进程退出时,会触发namenode进程丢失类故障预处理工具,首先检查namenode节点与JournalNode节点连通性是否正常,如果不正常,发送短信邮件给运维管理人员,如果正常,进入namenode进程启动目录,执行启动脚本,同时监控启动过程,检测启动完毕后,执行命令检查进程是否存在,同时检测JournalNode能否收到日志,并触发云存储业务功能测试工具进行测试,并将恢复的结果通知运维人员。
整个自愈过程首先是对namenode日志信息进行监控,监控到的告警信息会按照规则存储到数据库,数据存储分析处理模块会对namenode告警数据与预配置好的告警手册进行关联,分析原因,同时自动修复模块对namenode进程丢失类型故障已经编写好相应的预处理工具,当数据存储分析处理模块判断出故障原因时会同时触发自动修复模块进行预处理。
综上所述,本发明从集群监控实现数据存储与分析处理,通过智能化分析预警,触发故障的自动处理;集群告警分析结果能关联告警预处理模块,对故障自动处理,避免集群出现故障,影响系统的正常运行。具体优点如下:1、监控数据智能化分析方法,可以使性能数据、节点状态更加明确,可以快速的分析、发现、解决问题,加强系统稳定性;2、自动化故障处理方法,降低了维护人员的专业要求,很大程度上降低故障发生概率;3、集群监控智能分析手段,让集群维护不再深奥难懂,海量存储监控数据,为后续对重点问题进行分析,建立预测模型,对故障进行预测判断奠定基础。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。
Claims (10)
1.一种分布式hadoop集群故障自动诊断修复系统,其特征在于,包括:
集群文件系统监控模块:采集获取集群节点信息以及数据库文件;
作业任务监控模块:采集作业和任务的信息,并对作业任务进行控制管理,包括作业的开启和停止,对指定作业进行周期采样,以及对任务优先级进行管理;
物理节点监控模块:监控每个物理节点的资源消耗信息;
数据存储分析处理模块:对来自所述集群文件系统监控模块、作业任务监控模块和物理节点监控模块的监控数据进行结构化、统一化后存储到数据库;设定监控告警规则,预先配置告警ID、级别及原因;
自动修复模块:预先定义配置各类常见告警故障,并为每个告警故障定制预处理脚本,当所述数据存储分析处理模块监控巡检到故障发生时,对当前发生的故障与预先定义配置的告警故障进行匹配,并调用相应的预处理脚本完成故障的自动处理。
2.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述集群文件系统监控模块包括:浏览文件记录,namenode日志记录,namenode运行情况、集群配置容量、DFS占用容量、非DFS占用容量、DFS的可使用容量、DFS已使用百分比、DFS可使用百分比、活节点数、死节点数、namenode的存储目录及类型状态。
3.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述集群文件系统监控模块包括:获取HDFS的实时数据和历史状态,根据HDFS信息浏览和定位相关文件,以及监控关闭或者打开所述相关文件时,各个磁盘已经使用和各个磁盘的总容量,剩余容量,文件名称和数目,以及文件的使用情况和历程。
4.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述作业任务监控模块控制集群任务概要信息,堆的大小,所占的比例,Map任务数,Reduce任务数以及各个节点上的任务数量值。
5.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述作业任务监控模块实时查看作业的状态,查询整个作业从开始工作到结束工作耗费的时间总和,对与指定任务的作业相关信息,显示完成的所有进度、总共要进行的任务总数,预计需要完成的任务数量,当前正在运行的任务数量、到目前为止已经完成,没有成功运行和已经终止的任务。
6.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述作业任务监控模块实时查看任务的信息,包括任务的状态、运行任务的开始和结束时间,任务的运行速度及任务所消耗的时间,记录整个任务运行日志,统计任务数目和条目。
7.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述物理节点监控模块对hadoop集群中全部物理机进行分组,监控每个物理节点平均内存和CPU负载,并对物理节点之间监控信息共享。
8.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述数据存储分析处理模块包括:设置热点问题告警,对热点问题进行优先监控,同时建立预测模型,对故障进行预测。
9.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,所述数据存储分析处理模块对海量数据进行抽取、转换、分类和聚类、设定集群告警相关性,并根据关联规则对监控数据进行关联分析,定位故障所在。
10.如权利要求1所述的分布式hadoop集群故障自动诊断修复系统,其特征在于,还包括设置WEB界面对所述集群文件系统监控模块、作业任务监控模块、物理节点监控模块、数据存储分析处理模块以及自动修复模块的采集监控过程进行可视化展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510650975.3A CN105337765B (zh) | 2015-10-10 | 2015-10-10 | 一种分布式hadoop集群故障自动诊断修复系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510650975.3A CN105337765B (zh) | 2015-10-10 | 2015-10-10 | 一种分布式hadoop集群故障自动诊断修复系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105337765A true CN105337765A (zh) | 2016-02-17 |
CN105337765B CN105337765B (zh) | 2018-10-12 |
Family
ID=55288077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510650975.3A Active CN105337765B (zh) | 2015-10-10 | 2015-10-10 | 一种分布式hadoop集群故障自动诊断修复系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105337765B (zh) |
Cited By (78)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383776A (zh) * | 2016-08-30 | 2017-02-08 | 北京北信源软件股份有限公司 | 一种分布式搜索集群系统的监控及自愈方法、装置 |
CN106487597A (zh) * | 2016-10-26 | 2017-03-08 | 努比亚技术有限公司 | 一种基于Zookeeper的服务监控系统和方法 |
CN106933693A (zh) * | 2017-03-15 | 2017-07-07 | 郑州云海信息技术有限公司 | 一种数据库集群节点故障自动修复方法及系统 |
CN107341104A (zh) * | 2017-06-16 | 2017-11-10 | 广州云测信息技术有限公司 | 一种基于云测试的测试结果处理方法及系统 |
CN107391633A (zh) * | 2017-06-30 | 2017-11-24 | 北京奇虎科技有限公司 | 数据库集群自动优化处理方法、装置及服务器 |
WO2018000878A1 (zh) * | 2016-06-29 | 2018-01-04 | 华为技术有限公司 | 分布式任务处理方法和装置 |
CN107548089A (zh) * | 2016-06-28 | 2018-01-05 | 中兴通讯股份有限公司 | 一种基站故障自动修复的方法及装置 |
CN107623711A (zh) * | 2016-07-15 | 2018-01-23 | 北京金山云网络技术有限公司 | 一种集群中主节点及从节点的分配方法及装置 |
CN107704359A (zh) * | 2017-09-04 | 2018-02-16 | 北京天平检验行有限公司 | 一种大数据平台的监控系统 |
CN107870824A (zh) * | 2016-09-28 | 2018-04-03 | 中兴通讯股份有限公司 | 一种对组件进行巡检的方法及装置 |
CN107995018A (zh) * | 2016-10-27 | 2018-05-04 | 迈普通信技术股份有限公司 | 故障检测方法、lpu和分布式网络通信设备 |
CN108255661A (zh) * | 2016-12-29 | 2018-07-06 | 北京京东尚科信息技术有限公司 | 一种实现Hadoop集群监控的方法及系统 |
CN108334427A (zh) * | 2018-02-24 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 存储系统中的故障诊断方法及装置 |
CN108460144A (zh) * | 2018-03-14 | 2018-08-28 | 西安华光信息技术有限责任公司 | 一种基于机器学习的煤炭设备故障预警系统及方法 |
CN108733532A (zh) * | 2017-04-18 | 2018-11-02 | 北京京东尚科信息技术有限公司 | 大数据平台的健康度管控方法、装置、介质及电子设备 |
CN108737182A (zh) * | 2018-05-22 | 2018-11-02 | 平安科技(深圳)有限公司 | 系统异常的处理方法及系统 |
CN108833187A (zh) * | 2018-06-29 | 2018-11-16 | 上海瀚之友信息技术服务有限公司 | 一种文档自愈监控系统及方法 |
CN108959024A (zh) * | 2018-06-26 | 2018-12-07 | 郑州云海信息技术有限公司 | 一种集群监控方法和装置 |
WO2018233630A1 (zh) * | 2017-06-21 | 2018-12-27 | 新华三大数据技术有限公司 | 故障发现 |
CN109167676A (zh) * | 2018-07-24 | 2019-01-08 | 郑州云海信息技术有限公司 | 一种高性能集群故障的诊断方法及系统 |
CN109359100A (zh) * | 2018-09-28 | 2019-02-19 | 北京赛博贝斯数据科技有限责任公司 | Pb级历史数据和在线数据的实时计算的可视化建模方法 |
CN109542737A (zh) * | 2018-09-29 | 2019-03-29 | 中国平安人寿保险股份有限公司 | 平台告警处理方法、装置、电子装置及存储介质 |
CN109614283A (zh) * | 2018-10-24 | 2019-04-12 | 世纪龙信息网络有限责任公司 | 分布式数据库集群的监控系统 |
CN109639456A (zh) * | 2018-11-09 | 2019-04-16 | 网宿科技股份有限公司 | 一种自动化告警的改进方法及告警数据的自动化处理平台 |
CN109710442A (zh) * | 2018-12-20 | 2019-05-03 | 麒麟合盛网络技术股份有限公司 | 一种任务的执行方法和装置 |
CN109947616A (zh) * | 2019-02-11 | 2019-06-28 | 北京国电通网络技术有限公司 | 一种基于OpenStack技术的云操作系统的自动化监控运维系统 |
CN109992404A (zh) * | 2017-12-31 | 2019-07-09 | 中国移动通信集团湖北有限公司 | 集群计算资源调度方法、装置、设备及介质 |
CN110008085A (zh) * | 2019-04-04 | 2019-07-12 | 安徽汇迈信息科技有限公司 | 一种大数据平台的监控系统 |
CN110088744A (zh) * | 2017-09-06 | 2019-08-02 | 富璟科技(深圳)有限公司 | 一种数据库维护方法及其系统 |
CN110097298A (zh) * | 2019-05-31 | 2019-08-06 | 南方电网科学研究院有限责任公司 | 一种基于云计算技术的光伏发电站的运维系统 |
CN110178121A (zh) * | 2017-09-06 | 2019-08-27 | 富璟科技(深圳)有限公司 | 一种数据库的检测方法及其终端 |
CN110262945A (zh) * | 2019-06-25 | 2019-09-20 | 苏宁消费金融有限公司 | 一种智能监控数据仓库调度系统的方法 |
CN110399242A (zh) * | 2019-07-23 | 2019-11-01 | 宿州星尘网络科技有限公司 | 基于Hadoop平台的信息维护管理系统 |
CN110569149A (zh) * | 2019-09-16 | 2019-12-13 | 上海新炬网络技术有限公司 | 基于故障探测触发Oracle容灾自动应急切换的方法 |
CN110635962A (zh) * | 2018-06-25 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 用于分布式系统的异常分析方法及装置 |
CN110677480A (zh) * | 2019-09-29 | 2020-01-10 | 北京浪潮数据技术有限公司 | 一种节点健康管理方法、装置和计算机可读存储介质 |
CN110912773A (zh) * | 2019-11-25 | 2020-03-24 | 深圳晶泰科技有限公司 | 面向多公有云计算平台的集群监控系统及其监控方法 |
CN110968447A (zh) * | 2019-12-02 | 2020-04-07 | 安徽三实信息技术服务有限公司 | 一种服务器主机巡检系统 |
CN110990227A (zh) * | 2019-12-04 | 2020-04-10 | 哈尔滨工程大学 | 一种数值水池应用特征性能采集和监控系统及其运行方法 |
CN111176879A (zh) * | 2019-12-31 | 2020-05-19 | 中国建设银行股份有限公司 | 设备的故障修复方法及装置 |
CN111258813A (zh) * | 2020-01-13 | 2020-06-09 | 北京点众科技股份有限公司 | 一种报表数据自动恢复的方法和设备 |
CN111277469A (zh) * | 2020-02-19 | 2020-06-12 | 杜义平 | 网络诊断处理方法、装置、网络系统及服务器 |
CN111459698A (zh) * | 2020-03-31 | 2020-07-28 | 国网电力科学研究院有限公司 | 一种数据库集群故障自愈方法及装置 |
CN111596604A (zh) * | 2020-06-12 | 2020-08-28 | 中国科学院重庆绿色智能技术研究院 | 一种基于数字孪生的工程装备故障智能诊断与自愈控制系统及方法 |
CN111694597A (zh) * | 2020-06-09 | 2020-09-22 | 上海米哈游天命科技有限公司 | 一种中断修复方法、装置、设备及介质 |
CN111756778A (zh) * | 2019-03-26 | 2020-10-09 | 京东数字科技控股有限公司 | 一种服务器磁盘清理脚本推送的方法、装置和存储介质 |
CN111796984A (zh) * | 2020-06-29 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 数据监控方法、装置、计算机设备及存储介质 |
CN111858176A (zh) * | 2020-07-22 | 2020-10-30 | 欧冶云商股份有限公司 | 一种远程监控故障自愈系统和方法 |
CN111897671A (zh) * | 2020-07-23 | 2020-11-06 | 平安证券股份有限公司 | 故障恢复方法、计算机设备及存储介质 |
CN112214466A (zh) * | 2019-07-12 | 2021-01-12 | 海能达通信股份有限公司 | 分布式集群系统及数据写入方法、电子设备、存储装置 |
CN112272113A (zh) * | 2020-10-23 | 2021-01-26 | 上海万向区块链股份公司 | 基于多种区块链节点的监控及自动切换的方法及系统 |
CN112307123A (zh) * | 2020-11-02 | 2021-02-02 | 北京明略昭辉科技有限公司 | 一种分布式数据库故障预警方法、装置、设备和存储介质 |
CN112437915A (zh) * | 2018-07-19 | 2021-03-02 | 纳木技术株式会社 | 云平台上监测多个集群和应用程序的方法 |
CN112445684A (zh) * | 2020-11-16 | 2021-03-05 | 苏州浪潮智能科技有限公司 | 一种实时故障诊断和预警方法、装置及计算机存储介质 |
CN112463195A (zh) * | 2020-12-07 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种集群分组在线升级的方法、系统、终端及存储介质 |
CN112488181A (zh) * | 2020-11-26 | 2021-03-12 | 哈尔滨工程大学 | 一种基于MIDS-Tree的服务故障高响应匹配方法 |
CN112559284A (zh) * | 2020-12-08 | 2021-03-26 | 爱信诺征信有限公司 | 集群运维系统、方法及相关产品 |
CN112650642A (zh) * | 2020-12-07 | 2021-04-13 | 深圳前海微众银行股份有限公司 | 一种告警处理方法及装置、设备、存储介质 |
CN112667430A (zh) * | 2021-01-14 | 2021-04-16 | 电子科技大学中山学院 | 一种大数据集群管理方法和装置 |
CN112732465A (zh) * | 2021-01-20 | 2021-04-30 | 北京高码科技有限公司 | 一种基于配置调度实现自动化远程执行的方法 |
CN112818201A (zh) * | 2021-02-07 | 2021-05-18 | 四川封面传媒有限责任公司 | 一种网络数据采集方法、装置、计算机设备及存储介质 |
CN112990744A (zh) * | 2021-03-30 | 2021-06-18 | 杭州东方通信软件技术有限公司 | 一种面向海量百万级云化设备的自动化运维方法及装置 |
CN113051147A (zh) * | 2021-04-25 | 2021-06-29 | 中国建设银行股份有限公司 | 一种数据库集群的监控方法、装置、系统、以及设备 |
CN113448947A (zh) * | 2021-07-09 | 2021-09-28 | 烽火通信科技股份有限公司 | 一种mongo数据库分布式部署运维的方法和装置 |
CN113472577A (zh) * | 2021-06-30 | 2021-10-01 | 济南浪潮数据技术有限公司 | 一种集群巡检方法、装置及系统 |
CN113590370A (zh) * | 2021-08-06 | 2021-11-02 | 北京百度网讯科技有限公司 | 一种故障处理方法、装置、设备及存储介质 |
CN113742117A (zh) * | 2021-01-07 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 分布式任务诊断方法、装置以及存储介质 |
CN113806178A (zh) * | 2021-09-22 | 2021-12-17 | 中国建设银行股份有限公司 | 一种集群节点故障检测方法及装置 |
CN114205231A (zh) * | 2021-12-06 | 2022-03-18 | 湖北美和易思教育科技有限公司 | 批量启动hadoop集群的方法、系统及可读存储介质 |
US11281629B2 (en) | 2019-03-15 | 2022-03-22 | International Business Machines Corporation | Using and training a machine learning module to determine actions to be taken in response to file system events in a file system |
CN114356913A (zh) * | 2021-12-15 | 2022-04-15 | 联奕科技股份有限公司 | 一种微服务链路运维系统及方法 |
CN114584455A (zh) * | 2022-03-04 | 2022-06-03 | 吉林大学 | 一种基于企业微信的中小型高性能集群监控系统 |
CN114710505A (zh) * | 2022-04-02 | 2022-07-05 | 杭州云象网络技术有限公司 | 基于区块链实现数字人民币生态安全监管方法及系统 |
CN115442223A (zh) * | 2022-07-19 | 2022-12-06 | 写逸网络科技(上海)有限公司 | 一种用于分布式集群的自动化运维方法 |
CN115994044A (zh) * | 2023-01-09 | 2023-04-21 | 苏州浪潮智能科技有限公司 | 基于监控服务的数据库故障处理方法、装置及分布式集群 |
CN116032574A (zh) * | 2022-12-16 | 2023-04-28 | 深圳市网安信科技有限公司 | 一种智能安全运维监测用数据处理系统 |
CN116743804A (zh) * | 2023-06-09 | 2023-09-12 | 杭州市保密科技测评中心(杭州市专用通信与保密技术服务中心) | 一种机房可视化监管系统 |
CN116932148A (zh) * | 2023-09-19 | 2023-10-24 | 山东浪潮数据库技术有限公司 | 一种基于ai的问题诊断系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838637A (zh) * | 2014-03-03 | 2014-06-04 | 江苏智联天地科技有限公司 | 基于数据挖掘的终端自主故障诊断与恢复方法 |
CN104461865A (zh) * | 2014-11-04 | 2015-03-25 | 哈尔滨工业大学 | 云环境下分布式文件系统可靠性测试套件 |
CN104615606A (zh) * | 2013-11-05 | 2015-05-13 | 阿里巴巴集团控股有限公司 | 一种Hadoop分布式文件系统及其管理方法 |
-
2015
- 2015-10-10 CN CN201510650975.3A patent/CN105337765B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615606A (zh) * | 2013-11-05 | 2015-05-13 | 阿里巴巴集团控股有限公司 | 一种Hadoop分布式文件系统及其管理方法 |
CN103838637A (zh) * | 2014-03-03 | 2014-06-04 | 江苏智联天地科技有限公司 | 基于数据挖掘的终端自主故障诊断与恢复方法 |
CN104461865A (zh) * | 2014-11-04 | 2015-03-25 | 哈尔滨工业大学 | 云环境下分布式文件系统可靠性测试套件 |
Non-Patent Citations (1)
Title |
---|
李晋: "Hadoop集群监控系统的研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (99)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107548089A (zh) * | 2016-06-28 | 2018-01-05 | 中兴通讯股份有限公司 | 一种基站故障自动修复的方法及装置 |
WO2018000878A1 (zh) * | 2016-06-29 | 2018-01-04 | 华为技术有限公司 | 分布式任务处理方法和装置 |
CN107547608A (zh) * | 2016-06-29 | 2018-01-05 | 华为技术有限公司 | 分布式任务处理方法和装置 |
CN107623711A (zh) * | 2016-07-15 | 2018-01-23 | 北京金山云网络技术有限公司 | 一种集群中主节点及从节点的分配方法及装置 |
CN106383776A (zh) * | 2016-08-30 | 2017-02-08 | 北京北信源软件股份有限公司 | 一种分布式搜索集群系统的监控及自愈方法、装置 |
CN107870824A (zh) * | 2016-09-28 | 2018-04-03 | 中兴通讯股份有限公司 | 一种对组件进行巡检的方法及装置 |
CN106487597A (zh) * | 2016-10-26 | 2017-03-08 | 努比亚技术有限公司 | 一种基于Zookeeper的服务监控系统和方法 |
CN107995018A (zh) * | 2016-10-27 | 2018-05-04 | 迈普通信技术股份有限公司 | 故障检测方法、lpu和分布式网络通信设备 |
CN108255661A (zh) * | 2016-12-29 | 2018-07-06 | 北京京东尚科信息技术有限公司 | 一种实现Hadoop集群监控的方法及系统 |
CN106933693A (zh) * | 2017-03-15 | 2017-07-07 | 郑州云海信息技术有限公司 | 一种数据库集群节点故障自动修复方法及系统 |
CN108733532B (zh) * | 2017-04-18 | 2022-03-04 | 北京京东尚科信息技术有限公司 | 大数据平台的健康度管控方法、装置、介质及电子设备 |
CN108733532A (zh) * | 2017-04-18 | 2018-11-02 | 北京京东尚科信息技术有限公司 | 大数据平台的健康度管控方法、装置、介质及电子设备 |
CN107341104A (zh) * | 2017-06-16 | 2017-11-10 | 广州云测信息技术有限公司 | 一种基于云测试的测试结果处理方法及系统 |
WO2018233630A1 (zh) * | 2017-06-21 | 2018-12-27 | 新华三大数据技术有限公司 | 故障发现 |
CN107391633A (zh) * | 2017-06-30 | 2017-11-24 | 北京奇虎科技有限公司 | 数据库集群自动优化处理方法、装置及服务器 |
CN107704359B (zh) * | 2017-09-04 | 2021-03-16 | 北京天平检验行有限公司 | 一种大数据平台的监控系统 |
CN107704359A (zh) * | 2017-09-04 | 2018-02-16 | 北京天平检验行有限公司 | 一种大数据平台的监控系统 |
CN110178121A (zh) * | 2017-09-06 | 2019-08-27 | 富璟科技(深圳)有限公司 | 一种数据库的检测方法及其终端 |
CN110088744A (zh) * | 2017-09-06 | 2019-08-02 | 富璟科技(深圳)有限公司 | 一种数据库维护方法及其系统 |
CN109992404A (zh) * | 2017-12-31 | 2019-07-09 | 中国移动通信集团湖北有限公司 | 集群计算资源调度方法、装置、设备及介质 |
CN109992404B (zh) * | 2017-12-31 | 2022-06-10 | 中国移动通信集团湖北有限公司 | 集群计算资源调度方法、装置、设备及介质 |
CN108334427A (zh) * | 2018-02-24 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 存储系统中的故障诊断方法及装置 |
CN108334427B (zh) * | 2018-02-24 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 存储系统中的故障诊断方法及装置 |
CN108460144A (zh) * | 2018-03-14 | 2018-08-28 | 西安华光信息技术有限责任公司 | 一种基于机器学习的煤炭设备故障预警系统及方法 |
CN108460144B (zh) * | 2018-03-14 | 2021-11-12 | 西安华光信息技术有限责任公司 | 一种基于机器学习的煤炭设备故障预警系统及方法 |
CN108737182A (zh) * | 2018-05-22 | 2018-11-02 | 平安科技(深圳)有限公司 | 系统异常的处理方法及系统 |
CN110635962A (zh) * | 2018-06-25 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 用于分布式系统的异常分析方法及装置 |
CN108959024A (zh) * | 2018-06-26 | 2018-12-07 | 郑州云海信息技术有限公司 | 一种集群监控方法和装置 |
CN108833187A (zh) * | 2018-06-29 | 2018-11-16 | 上海瀚之友信息技术服务有限公司 | 一种文档自愈监控系统及方法 |
CN112437915A (zh) * | 2018-07-19 | 2021-03-02 | 纳木技术株式会社 | 云平台上监测多个集群和应用程序的方法 |
CN109167676A (zh) * | 2018-07-24 | 2019-01-08 | 郑州云海信息技术有限公司 | 一种高性能集群故障的诊断方法及系统 |
CN109359100A (zh) * | 2018-09-28 | 2019-02-19 | 北京赛博贝斯数据科技有限责任公司 | Pb级历史数据和在线数据的实时计算的可视化建模方法 |
CN109542737A (zh) * | 2018-09-29 | 2019-03-29 | 中国平安人寿保险股份有限公司 | 平台告警处理方法、装置、电子装置及存储介质 |
CN109614283B (zh) * | 2018-10-24 | 2022-04-08 | 天翼数字生活科技有限公司 | 分布式数据库集群的监控系统 |
CN109614283A (zh) * | 2018-10-24 | 2019-04-12 | 世纪龙信息网络有限责任公司 | 分布式数据库集群的监控系统 |
CN109639456A (zh) * | 2018-11-09 | 2019-04-16 | 网宿科技股份有限公司 | 一种自动化告警的改进方法及告警数据的自动化处理平台 |
CN109639456B (zh) * | 2018-11-09 | 2022-08-16 | 网宿科技股份有限公司 | 一种自动化告警的改进方法及告警数据的自动化处理平台 |
CN109710442A (zh) * | 2018-12-20 | 2019-05-03 | 麒麟合盛网络技术股份有限公司 | 一种任务的执行方法和装置 |
CN109947616A (zh) * | 2019-02-11 | 2019-06-28 | 北京国电通网络技术有限公司 | 一种基于OpenStack技术的云操作系统的自动化监控运维系统 |
US11281629B2 (en) | 2019-03-15 | 2022-03-22 | International Business Machines Corporation | Using and training a machine learning module to determine actions to be taken in response to file system events in a file system |
CN111756778A (zh) * | 2019-03-26 | 2020-10-09 | 京东数字科技控股有限公司 | 一种服务器磁盘清理脚本推送的方法、装置和存储介质 |
CN110008085A (zh) * | 2019-04-04 | 2019-07-12 | 安徽汇迈信息科技有限公司 | 一种大数据平台的监控系统 |
CN110097298A (zh) * | 2019-05-31 | 2019-08-06 | 南方电网科学研究院有限责任公司 | 一种基于云计算技术的光伏发电站的运维系统 |
CN110262945A (zh) * | 2019-06-25 | 2019-09-20 | 苏宁消费金融有限公司 | 一种智能监控数据仓库调度系统的方法 |
CN112214466B (zh) * | 2019-07-12 | 2024-05-14 | 海能达通信股份有限公司 | 分布式集群系统及数据写入方法、电子设备、存储装置 |
CN112214466A (zh) * | 2019-07-12 | 2021-01-12 | 海能达通信股份有限公司 | 分布式集群系统及数据写入方法、电子设备、存储装置 |
CN110399242A (zh) * | 2019-07-23 | 2019-11-01 | 宿州星尘网络科技有限公司 | 基于Hadoop平台的信息维护管理系统 |
CN110399242B (zh) * | 2019-07-23 | 2022-05-31 | 安徽朵朵云网络科技有限公司 | 基于Hadoop平台的信息维护管理系统 |
CN110569149B (zh) * | 2019-09-16 | 2023-07-25 | 上海新炬网络技术有限公司 | 基于故障探测触发Oracle容灾自动应急切换的方法 |
CN110569149A (zh) * | 2019-09-16 | 2019-12-13 | 上海新炬网络技术有限公司 | 基于故障探测触发Oracle容灾自动应急切换的方法 |
CN110677480A (zh) * | 2019-09-29 | 2020-01-10 | 北京浪潮数据技术有限公司 | 一种节点健康管理方法、装置和计算机可读存储介质 |
CN110912773A (zh) * | 2019-11-25 | 2020-03-24 | 深圳晶泰科技有限公司 | 面向多公有云计算平台的集群监控系统及其监控方法 |
CN110968447A (zh) * | 2019-12-02 | 2020-04-07 | 安徽三实信息技术服务有限公司 | 一种服务器主机巡检系统 |
CN110990227B (zh) * | 2019-12-04 | 2023-08-04 | 哈尔滨工程大学 | 一种数值水池应用特征性能采集和监控系统及其运行方法 |
CN110990227A (zh) * | 2019-12-04 | 2020-04-10 | 哈尔滨工程大学 | 一种数值水池应用特征性能采集和监控系统及其运行方法 |
CN111176879A (zh) * | 2019-12-31 | 2020-05-19 | 中国建设银行股份有限公司 | 设备的故障修复方法及装置 |
CN111258813A (zh) * | 2020-01-13 | 2020-06-09 | 北京点众科技股份有限公司 | 一种报表数据自动恢复的方法和设备 |
CN111277469A (zh) * | 2020-02-19 | 2020-06-12 | 杜义平 | 网络诊断处理方法、装置、网络系统及服务器 |
CN112217691A (zh) * | 2020-02-19 | 2021-01-12 | 杜义平 | 基于云平台的网络诊断处理方法及装置 |
CN111277469B (zh) * | 2020-02-19 | 2020-12-08 | 杭州梅清数码科技有限公司 | 网络诊断处理方法、装置、网络系统及服务器 |
CN111459698A (zh) * | 2020-03-31 | 2020-07-28 | 国网电力科学研究院有限公司 | 一种数据库集群故障自愈方法及装置 |
CN111694597A (zh) * | 2020-06-09 | 2020-09-22 | 上海米哈游天命科技有限公司 | 一种中断修复方法、装置、设备及介质 |
CN111596604A (zh) * | 2020-06-12 | 2020-08-28 | 中国科学院重庆绿色智能技术研究院 | 一种基于数字孪生的工程装备故障智能诊断与自愈控制系统及方法 |
CN111596604B (zh) * | 2020-06-12 | 2022-07-26 | 中国科学院重庆绿色智能技术研究院 | 一种基于数字孪生的工程装备故障智能诊断与自愈控制系统及方法 |
CN111796984A (zh) * | 2020-06-29 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 数据监控方法、装置、计算机设备及存储介质 |
CN111858176A (zh) * | 2020-07-22 | 2020-10-30 | 欧冶云商股份有限公司 | 一种远程监控故障自愈系统和方法 |
CN111897671A (zh) * | 2020-07-23 | 2020-11-06 | 平安证券股份有限公司 | 故障恢复方法、计算机设备及存储介质 |
CN112272113A (zh) * | 2020-10-23 | 2021-01-26 | 上海万向区块链股份公司 | 基于多种区块链节点的监控及自动切换的方法及系统 |
CN112272113B (zh) * | 2020-10-23 | 2021-10-22 | 上海万向区块链股份公司 | 基于多种区块链节点的监控及自动切换的方法及系统 |
CN112307123A (zh) * | 2020-11-02 | 2021-02-02 | 北京明略昭辉科技有限公司 | 一种分布式数据库故障预警方法、装置、设备和存储介质 |
CN112445684A (zh) * | 2020-11-16 | 2021-03-05 | 苏州浪潮智能科技有限公司 | 一种实时故障诊断和预警方法、装置及计算机存储介质 |
CN112488181A (zh) * | 2020-11-26 | 2021-03-12 | 哈尔滨工程大学 | 一种基于MIDS-Tree的服务故障高响应匹配方法 |
CN112463195A (zh) * | 2020-12-07 | 2021-03-09 | 苏州浪潮智能科技有限公司 | 一种集群分组在线升级的方法、系统、终端及存储介质 |
CN112463195B (zh) * | 2020-12-07 | 2022-07-08 | 苏州浪潮智能科技有限公司 | 一种集群分组在线升级的方法、系统、终端及存储介质 |
CN112650642A (zh) * | 2020-12-07 | 2021-04-13 | 深圳前海微众银行股份有限公司 | 一种告警处理方法及装置、设备、存储介质 |
CN112559284A (zh) * | 2020-12-08 | 2021-03-26 | 爱信诺征信有限公司 | 集群运维系统、方法及相关产品 |
CN113742117A (zh) * | 2021-01-07 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 分布式任务诊断方法、装置以及存储介质 |
CN112667430A (zh) * | 2021-01-14 | 2021-04-16 | 电子科技大学中山学院 | 一种大数据集群管理方法和装置 |
CN112732465A (zh) * | 2021-01-20 | 2021-04-30 | 北京高码科技有限公司 | 一种基于配置调度实现自动化远程执行的方法 |
CN112818201A (zh) * | 2021-02-07 | 2021-05-18 | 四川封面传媒有限责任公司 | 一种网络数据采集方法、装置、计算机设备及存储介质 |
CN112990744A (zh) * | 2021-03-30 | 2021-06-18 | 杭州东方通信软件技术有限公司 | 一种面向海量百万级云化设备的自动化运维方法及装置 |
CN113051147A (zh) * | 2021-04-25 | 2021-06-29 | 中国建设银行股份有限公司 | 一种数据库集群的监控方法、装置、系统、以及设备 |
CN113472577A (zh) * | 2021-06-30 | 2021-10-01 | 济南浪潮数据技术有限公司 | 一种集群巡检方法、装置及系统 |
CN113472577B (zh) * | 2021-06-30 | 2023-07-25 | 济南浪潮数据技术有限公司 | 一种集群巡检方法、装置及系统 |
CN113448947A (zh) * | 2021-07-09 | 2021-09-28 | 烽火通信科技股份有限公司 | 一种mongo数据库分布式部署运维的方法和装置 |
CN113448947B (zh) * | 2021-07-09 | 2023-10-27 | 烽火通信科技股份有限公司 | 一种mongo数据库分布式部署运维的方法和装置 |
CN113590370A (zh) * | 2021-08-06 | 2021-11-02 | 北京百度网讯科技有限公司 | 一种故障处理方法、装置、设备及存储介质 |
CN113806178A (zh) * | 2021-09-22 | 2021-12-17 | 中国建设银行股份有限公司 | 一种集群节点故障检测方法及装置 |
CN114205231A (zh) * | 2021-12-06 | 2022-03-18 | 湖北美和易思教育科技有限公司 | 批量启动hadoop集群的方法、系统及可读存储介质 |
CN114356913A (zh) * | 2021-12-15 | 2022-04-15 | 联奕科技股份有限公司 | 一种微服务链路运维系统及方法 |
CN114584455B (zh) * | 2022-03-04 | 2023-06-30 | 吉林大学 | 一种基于企业微信的中小型高性能集群监控系统 |
CN114584455A (zh) * | 2022-03-04 | 2022-06-03 | 吉林大学 | 一种基于企业微信的中小型高性能集群监控系统 |
CN114710505A (zh) * | 2022-04-02 | 2022-07-05 | 杭州云象网络技术有限公司 | 基于区块链实现数字人民币生态安全监管方法及系统 |
CN115442223A (zh) * | 2022-07-19 | 2022-12-06 | 写逸网络科技(上海)有限公司 | 一种用于分布式集群的自动化运维方法 |
CN116032574A (zh) * | 2022-12-16 | 2023-04-28 | 深圳市网安信科技有限公司 | 一种智能安全运维监测用数据处理系统 |
CN115994044A (zh) * | 2023-01-09 | 2023-04-21 | 苏州浪潮智能科技有限公司 | 基于监控服务的数据库故障处理方法、装置及分布式集群 |
CN116743804A (zh) * | 2023-06-09 | 2023-09-12 | 杭州市保密科技测评中心(杭州市专用通信与保密技术服务中心) | 一种机房可视化监管系统 |
CN116932148A (zh) * | 2023-09-19 | 2023-10-24 | 山东浪潮数据库技术有限公司 | 一种基于ai的问题诊断系统及方法 |
CN116932148B (zh) * | 2023-09-19 | 2024-01-19 | 山东浪潮数据库技术有限公司 | 一种基于ai的问题诊断系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105337765B (zh) | 2018-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105337765A (zh) | 一种分布式hadoop集群故障自动诊断修复系统 | |
CN111209131B (zh) | 一种基于机器学习确定异构系统的故障的方法和系统 | |
CN104218676B (zh) | 电力调度自动化主站的智能告警系统和方法 | |
US10164431B2 (en) | Outage management and prediction for a power grid system | |
CN105323111A (zh) | 一种运维自动化系统及方法 | |
CN109800127A (zh) | 一种基于机器学习的系统故障诊断智能化运维方法及系统 | |
CN107612756A (zh) | 一种具有智能故障分析处理功能的运维管理系统 | |
CN111176879A (zh) | 设备的故障修复方法及装置 | |
CN107995049A (zh) | 电力安全区跨区同步故障监测方法、装置和系统 | |
CN109501834A (zh) | 一种道岔转辙机故障预测方法及装置 | |
CN106201828A (zh) | 一种基于数据挖掘的虚拟机故障检测方法和系统 | |
CN107070680A (zh) | 一种it信息机房智能运维系统及方法 | |
CN103023028B (zh) | 一种基于实体间依赖关系图的电网故障快速定位方法 | |
CN105306272A (zh) | 信息系统故障场景信息收集方法及系统 | |
CN104574219A (zh) | 电网业务信息系统运行工况的监测预警方法及系统 | |
CN115809183A (zh) | 基于知识图谱的信创终端故障发现及处置的方法 | |
CN103049365B (zh) | 信息与应用资源运行状态监控及评价方法 | |
CN113271224A (zh) | 节点的定位方法、装置、存储介质及电子装置 | |
CN115660431A (zh) | 用于评估智能运维系统的方法、装置、电子设备及存储介质 | |
CN109635997A (zh) | 一种设备维护保养时机的预测方法和系统 | |
CN107204868B (zh) | 一种任务运行监控信息获取方法和装置 | |
KR101663504B1 (ko) | 스마트 워터 그리드 기반 통합 운영 서비스 제공 방법 및 시스템 | |
CN106709659A (zh) | 一种lng加气站设备管理系统 | |
CN111306051B (zh) | 一种输油泵机组探针式状态监测预警方法、装置及系统 | |
CN112803587A (zh) | 一种基于诊断决策库的自动化设备状态智能巡视方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Qingpu 201707 waiqingsong road Shanghai City, No. 588 Lane 7548 Building 1 R zone 1 room 113 Applicant after: Shanghai new torch network information technology Limited by Share Ltd Address before: 200063 Shanghai, Zhongshan North Road, No. 2000, building, building No. 3, B Applicant before: SHANGHAI XINJU NETWORK INFORMATION TECHNOLOGY CO., LTD. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |