CN108965049A - 提供集群异常解决方案的方法、设备、系统及存储介质 - Google Patents

提供集群异常解决方案的方法、设备、系统及存储介质 Download PDF

Info

Publication number
CN108965049A
CN108965049A CN201810685657.4A CN201810685657A CN108965049A CN 108965049 A CN108965049 A CN 108965049A CN 201810685657 A CN201810685657 A CN 201810685657A CN 108965049 A CN108965049 A CN 108965049A
Authority
CN
China
Prior art keywords
data
solution
cloud server
detection
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810685657.4A
Other languages
English (en)
Other versions
CN108965049B (zh
Inventor
谢鸿钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201810685657.4A priority Critical patent/CN108965049B/zh
Publication of CN108965049A publication Critical patent/CN108965049A/zh
Application granted granted Critical
Publication of CN108965049B publication Critical patent/CN108965049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种提供集群异常解决方案的方法、设备、系统及存储介质。本发明的设备向目标集群中的多个节点发送检测指令,并接收多个所述节点反馈的检测结果,从所述检测结果中提取检测数据,将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据,将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备,通过对集群中各种异常数据的收集,上报到云服务器,云服务器通过查找与所述异常数据相应的解决方案,并反馈给管理员,减少了大量的技术支持与维护工作。

Description

提供集群异常解决方案的方法、设备、系统及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种提供集群异常解决方案的方法、设备、系统及存储介质。
背景技术
目前,随着计算机技术的发展以及越来越广泛的应用,越来越多的依赖于计算机技术的应用系统走进了人们的工作和生活。随着计算机技术日新月异的发展,单台计算机的性能和可靠性越来越好,但还是有很多现实的要求是单台计算机难以达到的,诸如分子动力、流体动力等都需要高性能计算作为后台支撑。
集群是一组相互独立、通过高速网络互联的计算设备的集合,并以单一系统的模式加以管理,从外部看来像是一个独立的服务器。集群具有高可用性和高可扩展性,高性能计算集群作为一个整体系统,由于其需要提供强大的计算能力,其构架内通常包含有大量的设备节点,设备节点多,整体的故障率也会上升,硬件故障很容易被发现,但如何排查系统级故障,就是一个问题。
当前进行系统故障的排查时,基本上都是通过预设一些指标数据,再不断监测相关指标数据是否发生异常来评估集群是否正常,并告警通知IT管理员,这种方式,一是不够全面,并不是所有的异常都是可以用指标来量化的,另外,没有提供很好的解决文案,出问题需要IT管理员介入分析排查,没有直接给出解决方案,对集群系统不熟悉的人员不好维护。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种提供集群异常解决方案的方法,旨在解决现有技术中无法为集群中的异常自动提供解决方案的技术问题。
为实现上述目的,本发明提供一种提供集群异常解决方案的方法,所述方法包括以下步骤:
向目标集群中的多个节点发送检测指令,并接收多个所述节点基于所述检测指令反馈的检测结果;
从所述检测结果中提取检测数据;
将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据;
将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,所述映射关系中存储有异常数据与解决方案之间的关系;
接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备。
优选地,所述从所述检测结果中提取检测数据,具体包括:
从所述检测结果中提取属于预设数据类别的检测数据;
相应地,所述将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据,具体包括:
从历史日志中提取属于所述预设数据类别的历史数据,并将提取的历史数据作为所述预设数据;
将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据。
优选地,所述从所述检测结果中提取属于预设数据类别的检测数据之后,所述方法还包括:
获取所述检测指令中的检测指标对应的预设指标数据;
将所述检测数据与预设指标数据进行匹配,将匹配失败的检测数据作为异常数据,并执行所述将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案的步骤。
优选地,所述将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案之前,所述方法还包括:
获取若干异常样本和与各异常样本对应的解决方案,并根据所述若干异常样本和与各异常样本对应的解决方案建立映射关系;
将所述映射关系上传至所述云服务器。
优选地,所述将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案之后,所述方法还包括:
在预设时间范围内未接收到所述云服务器反馈的目标解决方案时,向所述预设终端设备推送提示信息,以提示所述云服务器未查找到与所述异常数据相应的目标解决方案。
优选地,所述在预设时间范围内未接收到所述云服务器反馈的目标解决方案时,向所述预设终端设备推送提示信息,以提示所述云服务器未查找到与所述异常数据相应的目标解决方案之后,所述方法还包括:
接收管理员基于所述异常数据反馈的解决方案;
将所述异常数据和所述管理员反馈的解决方案上传至云服务器,以使所述云服务器优化所述映射关系。
优选地,所述接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备之后,所述方法还包括:
统计所述目标集群中各节点的异常数据的数量;
根据所述目标集群中各节点的异常数据的数量确定向各所述节点发送检测指令的频率。
优选地,所述统计所述目标集群中各节点的异常数据的数量,具体包括,统计所述目标集群中各节点的异常数据的数量和种类;
相应地,所述根据所述目标集群中各节点的异常数据的数量确定向各所述节点发送检测指令的频率,具体包括:
根据所述目标集群中各节点的异常数据的数量和种类确定向各所述节点发送检测指令的种类和频率。
此外,为实现上述目的,本发明还提供一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的提供集群异常解决方案的程序,所述提供集群异常解决方案的程序被所述处理器执行时实现如上文所述的提供集群异常解决方案的方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有提供集群异常解决方案的程序,所述提供集群异常解决方案的程序被处理器执行时实现如上文所述的提供集群异常解决方案的方法的步骤。
此外,为实现上述目的,本发明还提供一种提供集群异常解决方案的系统,所述提供集群异常解决方案的系统包括:
结果获取模块,用于向目标集群中的多个节点发送检测指令,并接收多个所述节点基于所述检测指令反馈的检测结果;
数据提取模块,用于从所述检测结果中提取检测数据;
数据匹配模块,用于将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据;
方案反馈模块,用于将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,所述映射关系中存储有异常数据与解决方案之间的关系;接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备。
优选地,所述数据提取模块具体包括:
提取模块,用于从所述检测结果中提取属于预设数据类别的检测数据;
相应地,数据匹配模块具体包括:
设置模块,用于从历史日志中提取属于所述预设数据类别的历史数据,并将提取的历史数据作为所述预设数据;
匹配模块,用于将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据。
本发明的设备向目标集群中的多个节点发送检测指令,并接收多个所述节点反馈的检测结果,从所述检测结果中提取检测数据,将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据,将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备,通过对集群中各种异常数据的收集,上报到云服务器,云服务器通过查找与所述异常数据相应的解决方案,并反馈给管理员,减少了大量的技术支持与维护工作。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明提供集群异常解决方案的方法第一实施例的流程示意图;
图3为本发明提供集群异常解决方案的方法第二实施例的流程示意图;
图4为本发明提供集群异常解决方案的方法第三实施例的流程示意图;
图5为本发明提供集群异常解决方案的方法第四实施例的流程示意图;
图6为本发明提供集群异常解决方案的系统第一实施例的功能模块图;
图7为本发明提供集群异常解决方案的系统第二实施例的功能模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备的结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
其中,所述设备可为服务器等其他网络设备。
本领域技术人员可以理解,图1中示出的结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及提供集群异常解决方案的程序。
图1所示的设备中,网络接口1004主要用于与外部网络进行数据通信;用户接口1003主要用于接收用户的输入指令;所述设备通过处理器1001调用存储器1005中存储的提供集群异常解决方案的程序,并执行以下操作:
向目标集群中的多个节点发送检测指令,并接收多个所述节点基于所述检测指令反馈的检测结果;
从所述检测结果中提取检测数据;
将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据;
将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,所述映射关系中存储有异常数据与解决方案之间的关系;
接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备。
进一步地,处理器1001可以调用存储器1005中存储的提供集群异常解决方案的程序,还执行以下操作:
从所述检测结果中提取属于预设数据类别的检测数据;
从历史日志中提取属于所述预设数据类别的历史数据,并将提取的历史数据作为所述预设数据;
将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据。
进一步地,处理器1001可以调用存储器1005中存储的提供集群异常解决方案的程序,还执行以下操作:
获取所述检测指令中的检测指标对应的预设指标数据;
将所述检测数据与预设指标数据进行匹配,将匹配失败的检测数据作为异常数据,并执行所述将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案的步骤。
进一步地,处理器1001可以调用存储器1005中存储的提供集群异常解决方案的程序,还执行以下操作:
获取若干异常样本和与各异常样本对应的解决方案,并根据所述若干异常样本和与各异常样本对应的解决方案建立映射关系;
将所述映射关系上传至所述云服务器。
进一步地,处理器1001可以调用存储器1005中存储的提供集群异常解决方案的程序,还执行以下操作:
在预设时间范围内未接收到所述云服务器反馈的目标解决方案时,向所述预设终端设备推送提示信息,以提示所述云服务器未查找到与所述异常数据相应的目标解决方案。
进一步地,处理器1001可以调用存储器1005中存储的提供集群异常解决方案的程序,还执行以下操作:
接收管理员基于所述异常数据反馈的解决方案;
将所述异常数据和所述管理员反馈的解决方案上传至云服务器,以使所述云服务器优化所述映射关系。
进一步地,处理器1001可以调用存储器1005中存储的提供集群异常解决方案的程序,还执行以下操作:
统计所述目标集群中各节点的异常数据的数量;
根据所述目标集群中各节点的异常数据的数量确定向各所述节点发送检测指令的频率。
进一步地,处理器1001可以调用存储器1005中存储的提供集群异常解决方案的程序,还执行以下操作:
根据所述目标集群中各节点的异常数据的数量和种类确定向各所述节点发送检测指令的种类和频率。
本实施例通过上述方案,向目标集群中的多个节点发送检测指令,并接收多个所述节点反馈的检测结果,从所述检测结果中提取检测数据,将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据,将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备,通过对集群中各种异常数据的收集,上报到云服务器,云服务器通过查找与所述异常数据相应的解决方案,并反馈给管理员,减少了大量的技术支持与维护工作。
基于上述硬件结构,提出本发明提供集群异常解决方案的方法实施例。
参照图2,图2为本发明提供集群异常解决方案的方法第一实施例的流程示意图。
在第一实施例中,所述提供集群异常解决方案的方法包括以下步骤:
S10:向目标集群中的多个节点发送检测指令,并接收多个所述节点基于所述检测指令反馈的检测结果。
需要说明的是,本实施例的执行主体为设备,所述设备可以为服务器等网络设备。
可以理解的是,集群是将很多服务器(节点)集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器,本实施例中的设备可以为集群中众多节点中的任意一个,也可以为独立于集群之外的服务器等网络设备,本实施例对此不加以限制。
S20:从所述检测结果中提取检测数据。
S30:将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据。
可以理解的是,针对不同的检测指标,会预先设置指标数据,将检测数据与指标数据进行匹配,在匹配失败时,可以认为目标集群中的相应节点处于异常状态,即将匹配失败的检测数据作为异常数据,预先设置的指标数据可以是设置出厂时的标准配置,也可以是通过经验获取的经验值,本实施例对此不加以限制。
S40:将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,所述映射关系中存储有异常数据与解决方案之间的关系。
可以理解的是,为了使云服务器在接收到异常数据,能够快速、准确地为用户提供与所述异常数据相应的解决方案,可预先在云服务器中建立异常数据与解决方案之间的映射关系,在云服务器接收到异常数据,通过查找映射关系,即可以确定与所述异常数据对应的目标解决方案,提高了基于集群异常提供解决方案的效率。
在具体实现中,可以收集大量的异常样本和与各异常样本对应的解决方案,并根据所述若干异常样本和与各异常样本对应的解决方案建立映射关系。
需要说明的是,可以通过网络大数据进行异常样本数据的收集,当然,收集的样本数据并不限制于所述目标集群中出现的异常样本数据,可以理解的是,收集异常样本量越大,就越能够更好地应对所述目标集群可能遇到的各种问题。
S50:接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备。
需要说明的是,所述预设终端设备可以为管理员的终端设备,即管理员的手机、电脑等设备,设备在接收到云服务器反馈的目标解决方案时,将以网址链接或邮件的形式将接收到的解决方案发送至管理员的终端设备。
本实施例中的设备向目标集群中的多个节点发送检测指令,并接收多个所述节点反馈的检测结果,从所述检测结果中提取检测数据,将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据,将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备,通过对集群中各种异常数据的收集,上报到云服务器,云服务器通过查找与所述异常数据相应的解决方案,并反馈给管理员,减少了大量的技术支持与维护工作。
进一步地,如图3所示,基于第一实施例提出本发明提供集群异常解决方案的方法第二实施例,在本实施例中,步骤S20具体包括:
S201:从所述检测结果中提取属于预设数据类别的检测数据。
可以理解的是,为了对目标集群健壮性作全面的考察,会从硬件层、平台层以及业务应用层等不同维度全面检查集群的状态,得到大量的检测结果,在具体实现中,可以预先设置不同的类别,在得到大量的数据之后,根据用户的关注点从大量的检测结果中提取属于预设数据类别的检测数据。
相应地,步骤S30具体包括:
S301:从历史日志中提取属于所述预设数据类别的历史数据,并将提取的历史数据作为所述预设数据。
S302:将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据。
在本实施例中,将从收集的大量日志中提取属于所述预设数据类别的历史数据,将提取的历史数据作为所述预设数据,即将检测数据与历史数据进行匹配,在匹配失败时,将匹配失败的检测数据作为异常数据。比如,统计A网口的流量数据,统计的历史数据都在1000M以上,检测的当前流量数据只有100M,明显低于统计的历史数据的均值,即检测数据与历史数据匹配失败。
当然,在具体实现中,还可以将所述检测数据与检测指令中的检测指标对应的预设指标数据进行匹配,比如,设备发送一个检测集群中各节点硬件性能的检测指令,可以预先设置一个与所述硬件性能对应的性能检测阈值,将实际的测试结果与预先设置的检测阈值进行比较,将不低于预设阈值的检测数据作为正常数据,低于预设阈值的检测数据作为异常数据,其中,预先设置的性能检测阈值可以是一个经验值,也可以根据用户的要求来进行确定,本实施例对此不加以限制。
本实施例中,将从历史日志中提取的数据作为预设数据,不仅将检测数据与预设数据进行匹配,还与预设的指标数据进行匹配,能够全面检测集群中的节点是否都处于正常状态,充分评估集群的健壮性。
进一步地,如图4所示,基于第一实施例提出本发明提供集群异常解决方案的方法第三实施例,在本实施例中,步骤S50之后,所述方法还包括:
S60:在预设时间范围内未接收到所述云服务器反馈的目标解决方案时,向所述预设终端设备推送提示信息,以提示所述云服务器未查找到与所述异常数据相应的目标解决方案。
可以理解的是,所述云服务器中存储的映射关系并不能包含所有的异常问题,所以当有新的问题出现,可能会出现云服务器在映射关系中没有查找到相应的解决方案的情况。
在具体实现中,在一定的时间范围内没有接收到云服务器反馈的解决方案时,设备将向预设终端设备发送提示信息,以提示所述云服务未查找到与所述异常数据相应的目标解决方案。
可以理解的是,在集群出现异常状态,所述云服务器未能提供解决方案的情况下,管理员还是要对问题进行分析和排查,最终确定解决方案,以保证集群的健壮性。
在具体实现中,为了对解决方案进行存储以及提高所述云服务器解决问题的能力,管理员在确定解决方案之后,会将所述异常数据以及与所述异常数据对应的解决方案上传至云服务器,以使所述云服务器优化所述映射关系,提高基于集群异常提供解决方案的能力。
在本实施例中,在所述云服务器未查找到解决方案时,会向管理员发送提示信息,以便管理员及时地对集群中出现的问题进行人工排查,尽快地找到解决方案,另外,设备还会接收管理基于所述异常数据反馈的解决方案,并将所述异常数据以及与所述异常数据对应的解决方案上传至云服务器,提高所述云服务器基于集群异常提供解决方案的能力。
进一步地,如图5所示,基于上述第一实施例、第二实施例和第三实施例中任一实施例提出本发明提供集群异常解决方案的方法第四实施例,图5以基于图2所示的实施例为例。
本实施例中,步骤S50之后,所述方法还包括:
S70:统计所述目标集群中各节点的异常数据的数量。
可以理解的是,在所述目标集群中出现了大量的异常数据之后,可以按照这些异常数据的来源,对这些异常数据进行统计,这样可以对集群中各节点的健康状况有了更加清晰的了解。
S80:根据所述目标集群中各节点的异常数据的数量确定向各所述节点发送检测指令的频率。
在对集群中各节点的异常数据进行统计之后,可以基于统计的数据,确定设备向集群中各节点发送检测指令的频率,比如经过统计发现,集群中的A节点出现异常的次数最多,D节点从没有出现过异常,那么,设备在向各节点发送检测指令时,没有必要每次都对每个节点进行检测,节点A出现问题的频率较高,就可以加大向A节点发送检测指令的频率;D节点整体的硬件性能以及集群环境都处理较好地状态,可以适量地减小向D节点发送检测指令的频率。
进一步地,所述统计所述目标集群中各节点的异常数据的数量,具体包括,统计所述目标集群中各节点的异常数据的数量和种类;
相应地,所述根据所述目标集群中各节点的异常数据的数量确定向各所述节点发送检测指令的频率,具体包括:
根据所述目标集群中各节点的异常数据的数量和种类确定向各所述节点发送检测指令的种类和频率。
可以理解的是,在统计目标集群中各节点的异常数据的数量时,可以同时统计目标集群中各节点的异常数据的数量的种类,比如统计经常出现问题的A节点,问题经常出现在网络性能方面,在之后向A节点发送检测指令时,可以偏重于检测A节点的网络性能方面。
本实施例中,通过统计目标集群中各节点的异常数据的数量以及种类,可以对所述设备向各节点发送检测指令的频率和种类进行指导,使设备能够针对性更强地对集群的健康状况进行检测,提高了集群检测的效率。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有提供集群异常解决方案的程序,所述提供集群异常解决方案的程序被处理器执行时实现如下操作:
向目标集群中的多个节点发送检测指令,并接收多个所述节点基于所述检测指令反馈的检测结果;
从所述检测结果中提取检测数据;
将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据;
将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,所述映射关系中存储有异常数据与解决方案之间的关系;
接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备。
进一步地,所述提供集群异常解决方案的程序被处理器执行时还实现如下操作:
从所述检测结果中提取属于预设数据类别的检测数据;
从历史日志中提取属于所述预设数据类别的历史数据,并将提取的历史数据作为所述预设数据;
将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据。
进一步地,所述提供集群异常解决方案的程序被处理器执行时还实现如下操作:
获取所述检测指令中的检测指标对应的预设指标数据;
将所述检测数据与预设指标数据进行匹配,将匹配失败的检测数据作为异常数据,并执行所述将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案的步骤。
进一步地,所述提供集群异常解决方案的程序被处理器执行时还实现如下操作:
获取若干异常样本和与各异常样本对应的解决方案,并根据所述若干异常样本和与各异常样本对应的解决方案建立映射关系;
将所述映射关系上传至所述云服务器。
进一步地,所述提供集群异常解决方案的程序被处理器执行时还实现如下操作:
在预设时间范围内未接收到所述云服务器反馈的目标解决方案时,向所述预设终端设备推送提示信息,以提示所述云服务器未查找到与所述异常数据相应的目标解决方案。
进一步地,所述提供集群异常解决方案的程序被处理器执行时还实现如下操作:
接收管理员基于所述异常数据反馈的解决方案;
将所述异常数据和所述管理员反馈的解决方案上传至云服务器,以使所述云服务器优化所述映射关系。
进一步地,所述提供集群异常解决方案的程序被处理器执行时还实现如下操作:
统计所述目标集群中各节点的异常数据的数量;
根据所述目标集群中各节点的异常数据的数量确定向各所述节点发送检测指令的频率。
进一步地,所述提供集群异常解决方案的程序被处理器执行时还实现如下操作:
根据所述目标集群中各节点的异常数据的数量和种类确定向各所述节点发送检测指令的种类和频率。
本实施例通过上述方案,向目标集群中的多个节点发送检测指令,并接收多个所述节点反馈的检测结果,从所述检测结果中提取检测数据,将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据,将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备,通过对集群中各种异常数据的收集,上报到云服务器,云服务器通过查找与所述异常数据相应的解决方案,并反馈给管理员,减少了大量的技术支持与维护工作。
本发明进一步提供一种提供集群异常解决方案的系统。参照图6,图6为本发明提供集群异常解决方案的系统第一实施例的功能模块图。
本发明提供集群异常解决方案的系统第一实施例中,该提供集群异常解决方案的系统包括:
结果获取模块10,用于向目标集群中的多个节点发送检测指令,并接收多个所述节点基于所述检测指令反馈的检测结果;
需要说明的是,本实施例的执行主体为设备,所述设备可以为服务器等网络设备。
可以理解的是,集群是将很多服务器(节点)集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器,本实施例中的设备可以为集群中众多节点中的任意一个,也可以为独立于集群之外的服务器等网络设备,本实施例对此不加以限制。
数据提取模块20,用于从所述检测结果中提取检测数据;
数据匹配模块30,用于将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据;
可以理解的是,针对不同的检测指标,会预先设置指标数据,将检测数据与指标数据进行匹配,在匹配失败时,可以认为目标集群中的相应节点处于异常状态,即将匹配失败的检测数据作为异常数据,预先设置的指标数据可以是设置出厂时的标准配置,也可以是通过经验获取的经验值,本实施例对此不加以限制。
方案反馈模块40,用于将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,所述映射关系中存储有异常数据与解决方案之间的关系;
可以理解的是,为了使云服务器在接收到异常数据,能够快速、准确地为用户提供与所述异常数据相应的解决方案,可预先在云服务器中建立异常数据与解决方案之间的映射关系,在云服务器接收到异常数据,通过查找映射关系,即可以确定与所述异常数据对应的目标解决方案,提高了基于集群异常提供解决方案的效率。
在具体实现中,可以收集大量的异常样本和与各异常样本对应的解决方案,并根据所述若干异常样本和与各异常样本对应的解决方案建立映射关系。
需要说明的是,可以通过网络大数据进行异常样本数据的收集,当然,收集的样本数据并不限制于所述目标集群中出现的异常样本数据,可以理解的是,收集异常样本量越大,就越能够更好地应对所述目标集群可能遇到的各种问题。
方案推送模块50,用于接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备。
需要说明的是,所述预设终端设备可以为管理员的终端设备,即管理员的手机、电脑等设备,设备在接收到云服务器反馈的目标解决方案时,将以网址链接或邮件的形式将接收到的解决方案发送至管理员的终端设备。
本实施例中,向目标集群中的多个节点发送检测指令,并接收多个所述节点反馈的检测结果,从所述检测结果中提取检测数据,将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据,将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备,通过对集群中各种异常数据的收集,上报到云服务器,云服务器通过查找与所述异常数据相应的解决方案,并反馈给管理员,减少了大量的技术支持与维护工作。
参照图7,图7为本发明提供集群异常解决方案的系统第二实施例功能模块图。
基于上述提供集群异常解决方案的系统第一实施例,提出本发明第二实施例,所述模块20具体包括:
提取模块201,用于从所述检测结果中提取属于预设数据类别的检测数据;
可以理解的是,为了对目标集群健壮性作全面的考察,会从硬件层、平台层以及业务应用层等不同维度全面检查集群的状态,得到大量的检测结果,在具体实现中,可以预先设置不同的类别,在得到大量的数据之后,根据用户的关注点从大量的检测结果中提取属于预设数据类别的检测数据。
相应地,所述模块30具体包括:
设置模块301,用于从历史日志中提取属于所述预设数据类别的历史数据,并将提取的历史数据作为所述预设数据;
匹配模块302,用于将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据。
在本实施例中,将从收集的大量日志中提取属于所述预设数据类别的历史数据,将提取的历史数据作为所述预设数据,即将检测数据与历史数据进行匹配,在匹配失败时,将匹配失败的检测数据作为异常数据。比如,统计A网口的流量数据,统计的历史数据都在1000M以上,检测的当前流量数据只有100M,明显低于统计的历史数据的均值,即检测数据与历史数据匹配失败。
当然,在具体实现中,还可以将所述检测数据与检测指令中的检测指标对应的预设指标数据进行匹配,比如,设备发送一个检测集群中各节点硬件性能的检测指令,可以预先设置一个与所述硬件性能对应的性能检测阈值,将实际的测试结果与预先设置的检测阈值进行比较,将不低于预设阈值的检测数据作为正常数据,低于预设阈值的检测数据作为异常数据,其中,预先设置的性能检测阈值可以是一个经验值,也可以根据用户的要求来进行确定,本实施例对此不加以限制。
本实施例中,将从历史日志中提取的数据作为预设数据,不仅将检测数据与预设数据进行匹配,还与预设的指标数据进行匹配,能够全面检测集群中的节点是否都处于正常状态,充分评估集群的健壮性。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (12)

1.一种提供集群异常解决方案的方法,其特征在于,所述方法包括以下步骤:
向目标集群中的多个节点发送检测指令,并接收多个所述节点基于所述检测指令反馈的检测结果;
从所述检测结果中提取检测数据;
将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据;
将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,所述映射关系中存储有异常数据与解决方案之间的关系;
接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备。
2.如权利要求1所述的方法,其特征在于,所述从所述检测结果中提取检测数据,具体包括:
从所述检测结果中提取属于预设数据类别的检测数据;
相应地,所述将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据,具体包括:
从历史日志中提取属于所述预设数据类别的历史数据,并将提取的历史数据作为所述预设数据;
将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据。
3.如权利要求2所述的方法,其特征在于,所述从所述检测结果中提取属于预设数据类别的检测数据之后,所述方法还包括:
获取所述检测指令中的检测指标对应的预设指标数据;
将所述检测数据与预设指标数据进行匹配,将匹配失败的检测数据作为异常数据,并执行所述将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案的步骤。
4.如权利要求1所述的方法,其特征在于,所述将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案之前,所述方法还包括:
获取若干异常样本和与各异常样本对应的解决方案,并根据所述若干异常样本和与各异常样本对应的解决方案建立映射关系;
将所述映射关系上传至所述云服务器。
5.如权利要求1所述的方法,其特征在于,所述将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案之后,所述方法还包括:
在预设时间范围内未接收到所述云服务器反馈的目标解决方案时,向所述预设终端设备推送提示信息,以提示所述云服务器未查找到与所述异常数据相应的目标解决方案。
6.如权利要求5所述的方法,其特征在于,所述在预设时间范围内未接收到所述云服务器反馈的目标解决方案时,向所述预设终端设备推送提示信息,以提示所述云服务器未查找到与所述异常数据相应的目标解决方案之后,所述方法还包括:
接收管理员基于所述异常数据反馈的解决方案;
将所述异常数据和所述管理员反馈的解决方案上传至云服务器,以使所述云服务器优化所述映射关系。
7.如权利要求1-6中任一项所述的方法,其特征在于,所述接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备之后,所述方法还包括:
统计所述目标集群中各节点的异常数据的数量;
根据所述目标集群中各节点的异常数据的数量确定向各所述节点发送检测指令的频率。
8.如权利要求7所述的方法,其特征在于,所述统计所述目标集群中各节点的异常数据的数量,具体包括,统计所述目标集群中各节点的异常数据的数量和种类;
相应地,所述根据所述目标集群中各节点的异常数据的数量确定向各所述节点发送检测指令的频率,具体包括:
根据所述目标集群中各节点的异常数据的数量和种类确定向各所述节点发送检测指令的种类和频率。
9.一种设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的提供集群异常解决方案的程序,所述提供集群异常解决方案的程序被所述处理器执行时实现如权利要求1至8中任一项所述的提供集群异常解决方案的方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有提供集群异常解决方案的程序,所述提供集群异常解决方案的程序被处理器执行时实现如权利要求1至8中任一项所述的提供集群异常解决方案的方法的步骤。
11.一种提供集群异常解决方案的系统,其特征在于,所述提供集群异常解决方案的系统包括:
结果获取模块,用于向目标集群中的多个节点发送检测指令,并接收多个所述节点基于所述检测指令反馈的检测结果;
数据提取模块,用于从所述检测结果中提取检测数据;
数据匹配模块,用于将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据;
方案反馈模块,用于将所述异常数据上传至云服务器,以使所述云服务器在映射关系中查找与所述异常数据相应的目标解决方案,并反馈所述目标解决方案,所述映射关系中存储有异常数据与解决方案之间的关系;
方案推送模块,用于接收所述云服务器反馈的目标解决方案,并将所述目标解决方案推送至预设终端设备。
12.如权利要求11所述的提供集群异常解决方案的系统,其特征在于,所述数据提取模块具体包括:
提取模块,用于从所述检测结果中提取属于预设数据类别的检测数据;
相应地,数据匹配模块具体包括:
设置模块,用于从历史日志中提取属于所述预设数据类别的历史数据,并将提取的历史数据作为所述预设数据;
匹配模块,用于将所述检测数据与预设数据进行匹配,将匹配失败的检测数据作为异常数据。
CN201810685657.4A 2018-06-28 2018-06-28 提供集群异常解决方案的方法、设备、系统及存储介质 Active CN108965049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810685657.4A CN108965049B (zh) 2018-06-28 2018-06-28 提供集群异常解决方案的方法、设备、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810685657.4A CN108965049B (zh) 2018-06-28 2018-06-28 提供集群异常解决方案的方法、设备、系统及存储介质

Publications (2)

Publication Number Publication Date
CN108965049A true CN108965049A (zh) 2018-12-07
CN108965049B CN108965049B (zh) 2021-04-09

Family

ID=64487415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810685657.4A Active CN108965049B (zh) 2018-06-28 2018-06-28 提供集群异常解决方案的方法、设备、系统及存储介质

Country Status (1)

Country Link
CN (1) CN108965049B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124891A (zh) * 2019-12-02 2020-05-08 腾讯科技(深圳)有限公司 接入状态的检测方法和装置、存储介质及电子装置
CN111459743A (zh) * 2020-04-03 2020-07-28 成都安易迅科技有限公司 一种数据处理方法及装置、可读存储介质
CN111722951A (zh) * 2019-03-21 2020-09-29 北京京东尚科信息技术有限公司 一种异常处理方法及装置、存储介质
CN113739854A (zh) * 2021-09-09 2021-12-03 携程科技(上海)有限公司 机房监控方法、系统、设备及存储介质
CN114566148A (zh) * 2022-04-02 2022-05-31 北京百度网讯科技有限公司 集群语音识别服务及其检测方法、装置及电子设备
CN115065511A (zh) * 2022-05-30 2022-09-16 济南浪潮数据技术有限公司 一种处理集群异常事件的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461556A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 插件处理方法、客户端及云服务器
CN104954181A (zh) * 2015-06-08 2015-09-30 北京集奥聚合网络技术有限公司 一种分布式集群设备故障预警方法
CN106341248A (zh) * 2015-07-09 2017-01-18 阿里巴巴集团控股有限公司 一种基于云平台的故障处理方法和装置
CN106790515A (zh) * 2016-12-19 2017-05-31 浙江晶日照明科技有限公司 一种异常事件处理系统及其应用方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461556A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 插件处理方法、客户端及云服务器
CN104954181A (zh) * 2015-06-08 2015-09-30 北京集奥聚合网络技术有限公司 一种分布式集群设备故障预警方法
CN106341248A (zh) * 2015-07-09 2017-01-18 阿里巴巴集团控股有限公司 一种基于云平台的故障处理方法和装置
CN106790515A (zh) * 2016-12-19 2017-05-31 浙江晶日照明科技有限公司 一种异常事件处理系统及其应用方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111722951A (zh) * 2019-03-21 2020-09-29 北京京东尚科信息技术有限公司 一种异常处理方法及装置、存储介质
CN111722951B (zh) * 2019-03-21 2023-11-03 北京京东振世信息技术有限公司 一种异常处理方法及装置、存储介质
CN111124891A (zh) * 2019-12-02 2020-05-08 腾讯科技(深圳)有限公司 接入状态的检测方法和装置、存储介质及电子装置
CN111459743A (zh) * 2020-04-03 2020-07-28 成都安易迅科技有限公司 一种数据处理方法及装置、可读存储介质
CN113739854A (zh) * 2021-09-09 2021-12-03 携程科技(上海)有限公司 机房监控方法、系统、设备及存储介质
CN114566148A (zh) * 2022-04-02 2022-05-31 北京百度网讯科技有限公司 集群语音识别服务及其检测方法、装置及电子设备
CN115065511A (zh) * 2022-05-30 2022-09-16 济南浪潮数据技术有限公司 一种处理集群异常事件的方法及系统

Also Published As

Publication number Publication date
CN108965049B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN108965049A (zh) 提供集群异常解决方案的方法、设备、系统及存储介质
CN113342564B (zh) 日志审计方法、装置、电子设备和介质
US8676965B2 (en) Tracking high-level network transactions
US9535981B2 (en) Systems and methods for filtering low utility value messages from system logs
EP4096226A1 (en) Fault detection method and apparatus for live broadcast service, electronic device, and readable storage medium
CN107332765B (zh) 用于维修路由器故障的方法和装置
CN111162950B (zh) 故障事件处理方法、装置及系统
CN112000502B (zh) 海量错误日志的处理方法、装置、电子装置及存储介质
CN105743730A (zh) 为移动终端的网页服务提供实时监控的方法及其系统
KR101443071B1 (ko) 웹페이지의 에러 체크 시스템
CN112395156A (zh) 故障的告警方法和装置、存储介质和电子设备
WO2020106501A1 (en) Veto-based model for measuring product health
CN106487597A (zh) 一种基于Zookeeper的服务监控系统和方法
CN111147306B (zh) 一种物联网设备的故障分析方法、装置以及物联网平台
CN107733716A (zh) 分布式文件系统日志分析方法、系统、设备及存储介质
JP6078485B2 (ja) 運用履歴分析装置及び方法及びプログラム
CN107820270B (zh) 一种基于gsm-r网络的gprs接口监测系统
CN107908525B (zh) 告警处理方法、设备及可读存储介质
CN115729727A (zh) 故障修复方法、装置、设备及介质
JP6049136B2 (ja) ネットワーク管理システムおよび方法
CN114756301A (zh) 日志处理方法、装置和系统
US10897401B2 (en) Determining the importance of network devices based on discovered topology, managed endpoints, and activity
CN117880055B (zh) 基于传输层指标的网络故障诊断方法、装置、设备及介质
US9479406B2 (en) Displaying signal flows in network analysis tool
CN115599657B (zh) 软件设施异常判断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant