CN109960690A - 一种大数据集群的运行维护方法及装置 - Google Patents

一种大数据集群的运行维护方法及装置 Download PDF

Info

Publication number
CN109960690A
CN109960690A CN201910205420.6A CN201910205420A CN109960690A CN 109960690 A CN109960690 A CN 109960690A CN 201910205420 A CN201910205420 A CN 201910205420A CN 109960690 A CN109960690 A CN 109960690A
Authority
CN
China
Prior art keywords
big data
data cluster
error
program
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910205420.6A
Other languages
English (en)
Inventor
范亚平
王浩杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN201910205420.6A priority Critical patent/CN109960690A/zh
Publication of CN109960690A publication Critical patent/CN109960690A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开一种大数据集群的运行维护方法及装置,该方法包括:获取部署于大数据集群中的至少一第一执行对象所采集的各组件的被测进程的进程运行信息;根据进程运行信息扫描被测进程是否存在程序错误;如果扫描被测进程存在程序错误,扫描程序错误触发点的错误日志,提取程序错误的错误类型;根据错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;将修复指令及修复策略发送至第一执行对象,使第一执行对象修复程序错误。通过实施本发明,可以自动执行检测、修复工作,运维人员无需时刻监视平台正常与否,并且能够降低运维人员重复工作的概率,提高大数据平台的运行维护效率,能够最大化减少对业务的影响,保证大数据平台稳定运行。

Description

一种大数据集群的运行维护方法及装置
技术领域
本发明涉及大数据处理技术领域,具体涉及一种大数据集群的运行维护方法及装置。
背景技术
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据处理依赖众多服务,如HDFS(分布式文件系统)、YARN(资源管理系统)、Spark(分布式内存计算框架)、HBASE(分布式面向列的数据库)、HIVE(基于hadoop的数据仓库工具)等等。由于网络震荡、电压不稳、资源抢占、误操作等原因都可能造成某些组件挂掉,需要维护人员定期巡检平台运行情况,发现异常需要排除程序错误后启动挂掉的服务,如果启动不及时可能会出现业务数据积压,甚至影响业务的运行,给大数据平台稳定运行带来了极大挑战。而且由于大数据平台使用地点较多,出现重复性程序错误概率较大,因此运维人员需要做大量重复性劳动。还有一些大数据平台由于权限的限制,不允许远程操作,给运维人员巡检及程序错误修复带来极大不便。
发明内容
有鉴于此,本发明实施例提供了一种大数据集群的运行维护方法及装置,以解决现有技术中对于大数据平台的人工运维存在的重复性劳动较多且效率较低的问题。
根据第一方面,本发明实施例提供了一种大数据集群的运行维护方法,所述大数据集群中包括至少一个第一执行对象,所述第一执行对象与组件具有耦合对应关系;所述方法包括:获取部署于所述大数据集群中的至少一第一执行对象所采集的各组件的被测进程的进程运行信息;根据所述进程运行信息扫描所述被测进程是否存在程序错误;如果扫描所述被测进程存在程序错误,扫描程序错误触发点的错误日志,提取所述程序错误的错误类型;根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;将所述修复指令及修复策略发送至所述第一执行对象,使所述第一执行对象修复所述程序错误。
结合第一方面,在第一方面第一实施方式中,根据所述进程运行信息扫描所述被测进程是否存在程序错误,包括:根据所述进程运行信息扫描所述大数据集群中的被测进程是否存在异常;如果扫描所述被测进程存在异常,则扫描异常服务日志,判断是否存在程序错误;如果扫描所述被测进程不存在异常,则判断所述被测进程是否扫描完成,如果扫描完成,则退出扫描;如果扫描未完成,则返回所述根据所述进程运行信息扫描所述被测进程是否存在程序错误的步骤,扫描下一被测进程。
结合第一方面第一实施方式,在第一方面第二实施方式中,如果判断不存在程序错误,则启动所述被测进程;判断所述被测进程是否扫描完成,如果扫描完成,则退出扫描;如果扫描未完成,则返回所述根据所述进程运行信息扫描所述被测进程是否存在程序错误的步骤,扫描下一被测进程。
结合第一方面,在第一方面第三实施方式中,在根据所述进程运行信息扫描所述被测进程是否存在程序错误之前,所述的运行维护方法还包括:读取配置文件,获取所述大数据集群中的各组件的剩余启动次数。
结合第一方面第三实施方式,在第一方面第四实施方式中,根据所述错误类型在预设的错误码库中查询对应的修复策略,包括:根据所述错误类型在所述预设的错误码库中查询是否存在匹配的修复策略;如果所述预设的错误码库中存在匹配的修复策略,则提取所述修复策略。
结合第一方面第四实施方式,在第一方面第五实施方式中,如果所述预设的错误码库中不存在匹配的修复策略,则根据所述各组件的剩余启动次数判断所述被测进程的启动次数是否用尽;如果所述被测进程的启动次数用尽,则将所述错误日志发送至运行维护人员;获取所述运行维护人员输入的新的修复策略,并将所述新的修复策略更新至所述预设的错误码库中。
结合第一方面或者第一方面的任意一种实施方式,在第一方面第六实施方式中,所述的运行维护方法还包括:统计所述大数据集群中的组件进行修复的次数及可进行修复的次数;根据所述进行修复的次数及可进行修复的次数计算所述组件的健康率及组件权重;根据所述健康率及组件权重计算所述大数据集群的综合评分;根据所述综合评分对所述大数据集群进行优化。
根据第二方面,本发明实施例提供了一种大数据集群的运行维护装置,包括:运行信息获取模块,用于获取部署于所述大数据集群中的至少一第一执行对象所采集的各组件的被测进程的进程运行信息;扫描模块,用于根据所述进程运行信息扫描所述被测进程是否存在程序错误;错误类型提取模块,如果扫描所述被测进程存在程序错误,所述错误类型提取模块用于扫描程序错误触发点的错误日志,提取所述程序错误的错误类型;修复指令生成模块,用于根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;指令发送模块,用于将所述修复指令及修复策略发送至所述第一执行对象,使所述第一执行对象修复所述程序错误。
根据第三方面,本发明实施例提供了一种大数据集群的运行维护方法,包括:采集所述大数据集群中各组件的被测进程的进程运行信息;将所述进程运行信息发送至第二执行对象;接收所述第二执行对象根据所述进程运行信息反馈的修复指令及修复策略;根据所述修复指令及修复策略修复所述组件中的程序错误。
根据第四方面,本发明实施例提供了一种大数据集群的运行维护装置,包括:运行信息采集模块,用于采集所述大数据集群中各组件的被测进程的进程运行信息;运行信息发送模块,用于将所述进程运行信息发送至第二执行对象;指令接收模块,用于接收所述第二执行对象根据所述进程运行信息反馈的修复指令及修复策略;修复模块,用于根据所述修复指令及修复策略修复所述组件中的程序错误。
根据第五方面,本发明实施例提供了一种服务器,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的大数据集群的运行维护方法,或者,执行第三方面所述的大数据集群的运行维护方法。
根据第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的大数据集群的运行维护方法,或者,执行第三方面所述的大数据集群的运行维护方法。
本发明实施例所具备的有益效果在于,可以自动执行检测、修复工作,运维人员无需时刻监视平台正常与否,并且能够降低运维人员重复工作的概率,提高大数据平台的运行维护效率,能够最大化减少对业务的影响,保证大数据平台稳定运行。同时,对于进行修复的进程,进行记录,根据记录的内容,可对整个大数据集群的健康状况进行分析,从而判断是否需要对大数据集群中的组件进行优化。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明实施例的应用场景示意图;
图2示出了本发明实施例的大数据集群的运行维护方法的流程图;
图3示出了本发明实施例的大数据集群的运行维护装置的结构示意图;
图4示出了本发明另一实施例的大数据集群的运行维护方法的流程图;
图5示出了本发明另一实施例的大数据集群的运行维护装置的结构示意图;
图6示出了本发明实施例的服务器的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,是本发明实施例的应用场景示意图。本发明实施例的整体软件架构可采用Server/Agent类型架构。Agent部署在大数据集群每个主机上,用于收集硬件信息,监测组件状态,运行监控,组件配置生成信息等表征该大数据集群中各个组件的进程运行状态的信息。实际应用中,Server可与各Agent建立心跳通信,从而收集各主机上的组件运行状态以及硬件资源状态等信息。本发明实施例的大数据集群的运行维护方法可由智能运维工具执行,该智能运维工具可通过REST API与Server进行通讯,该智能运维工具主要用于扫描大数据集群中的各个组件的运行状况,出现异常时扫描组件日志,将错误触发点的日志在错误码库中进行匹配,根据错误码对故障进行修复后重启异常组件。
可选地,在本发明的一些实施例中,如图2所示,该智能运维工具所执行的大数据集群的运行维护方法主要包括以下步骤:
步骤S11:获取部署于大数据集群中的至少一第一执行对象所采集的各组件的被测进程的进程运行信息。本发明实施例中,对于应用Server/Agent架构的系统而言,部署于大数据集群中的第一执行对象即为Agent端,该第一执行对象与大数据集群的组件具有耦合对应关系,用以采集各组件的进程运行信息,但这仅是用以举例说明,并非用以限制本发明,本领域技术人员应当知晓,在不同的系统架构中,该第一执行对象可以是不同的。
对于Server/Agent架构中,该智能运维工具通过REST API与第二执行对象进行通信,从第二执行对象获取大数据集群中的各组件的被测进程的进程运行信息,该进程运行信息至少包括:各组件的硬件信息,监测组件状态,运行监控,组件配置生成信息中的一个或多个。并且,该第二执行对象所获取的这些信息,是通过心跳通信,从部署在大数据集群中的多个第一执行对象获取的。
步骤S12:根据进程运行信息扫描被测进程是否存在程序错误;
具体地,该程序错误即影响进程正常运行的错误、漏洞、缺陷等,在本发明实施例中,该程序错误可以是指进程运行过程中出现的bug,以下以该程序错误为bug为例进行说明。该步骤S12的扫描过程主要包括:根据进程运行信息扫描大数据集群中的被测进程是否存在异常;如果扫描被测进程存在异常,则进一步扫描异常服务日志,判断是否存在bug。
步骤S13:如果扫描被测进程存在bug,扫描bug触发点的错误日志,提取bug的错误类型;
步骤S14:根据错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;
具体地,根据该错误类型在预设的错误码库中查询是否存在匹配的修复策略;如果预设的错误码库中存在匹配的修复策略,则提取修复策略。
步骤S15:将修复指令及修复策略发送至Agent端,使Agent端修复bug。
当智能运维工具根据被测进程的运行信息检测出其存在bug时,则根据bug的错误类型在错误码库中查找相匹配的bug修复策略,并由此生成修复指令。通过该智能运维工具与Server的通讯,将修复指令及具体的bug修复策略发送至Server,再通过Server发送至Agent,由Agent执行相应的修复策略,完成对bug的自动修复。
通过上述过程,本发明实施例的大数据集群的运行维护方法,由于可以自动执行检测、修复工作,运维人员无需时刻监视平台正常与否,并且能够降低运维人员重复工作的概率,提高大数据平台的运行维护效率,能够最大化减少对业务的影响,保证大数据平台稳定运行。
可选地,在本发明的一些实施例中,上述步骤S12中,根据进程运行信息扫描大数据集群中的被测进程是否存在异常,如果扫描所述被测进程不存在异常,则判断所有的被测进程是否扫描完成,如果扫描完成,则退出扫描;如果扫描未完成,则返回所述根据所述进程运行信息扫描所述被测进程是否存在bug的步骤,继续扫描下一被测进程。
可选地,在本发明的一些实施例中,上述步骤S12中,根据进程运行信息扫描被测进程是否存在bug,如果判断不存在bug,则可启动该被测进程。
进一步地,在本发明实施例中,在启动该被测进程之后,该运行维护方法还包括:判断所有的被测进程是否扫描完成,如果扫描完成,则退出扫描;如果扫描未完成,则返回所述根据所述进程运行信息扫描所述被测进程是否存在bug的步骤,继续扫描下一被测进程。
可选地,在本发明的一些实施例中,在根据进程运行信息扫描被测进程是否存在bug之前,运行维护方法还包括:读取配置文件,获取大数据集群中的各组件的剩余启动次数。
进一步地,在本发明实施例中,如果步骤S14中查询预设的错误码库中不存在匹配的修复策略,表明在错误码库中暂未存储与当前类型的bug相对应的修复策略,此时,先根据各组件的剩余启动次数判断被测进程的启动次数是否用尽;如果被测进程的启动次数用尽,则将错误日志发送至运行维护人员,供运维人员获知当前的bug的错误类型,并采取相应的修复策略。并且,获取运行维护人员输入的新的修复策略,并将新的修复策略更新至预设的错误码库中,从而实现对所有错误码,迭代更新错误码库,降低运维人员重复工作的概率。
在实际应用中,上述的智能运维工具所执行的上述步骤,可通过启动一个守护进程来实现,因此,在要执行一个新的扫描过程之前,即从第一执行对象获取相应的进程运行信息之前,先检索当前的守护进程,判断当前是否存在扫描被测进程的守护进程;如果当前存在扫描被测进程的守护进程,则停止此次扫描;如果当前不存在扫描被测进程的守护进程,则执行上述步骤S11。
通过本发明实施例的大数据集群的运行维护方法,不仅能够对异常终止的服务进行自动检测及故障修复,并能够将其及时拉起,从而不影响其它业务的运行。同时,对于进行修复的进程,进行记录,根据记录的内容,可对整个大数据集群的健康状况进行分析,从而判断是否需要对大数据集群中的组件进行优化。
具体实施时,进行健康状况统计分析可以按照一定的周期执行,例如,每月一次,月底进行统计。假设当月一共d天,一共x个组件,首先统计大数据集群中的组件进行修复的次数(实际被拉起次数)m1~mx及可进行修复的次数(可拉起次数)n1~nx
根据进行修复的次数及可进行修复的次数计算组件的健康率及组件权重;其中,各组件健康率为:各组件的健康分为:Healthi=Hi*100。
初始状态下各组件的权重相同,则各组件初始权重为:
对于长期正常运行的组件其关注度会降低,利用偏差率对其权重进行调整,以便更好的反映平台健康状况;各组件相对于正常情况的偏差率:
因此,各组件权重为:
其中,WPi=Wi+Pi
在计算出组件的健康率及组件权重后,根据所述健康率及组件权重计算所述大数据集群的综合评分。具体地,综合评分为:
在得到大数据件的综合评分后,可将该综合评分与一评分阈值进行比较,当综合评分大于或等于该评分阈值时,则认定该大数据集群的运行状态较为健康,无需进行优化;当综合评分小于该评分阈值时,则认定该大数据集群的运行状态并不健康,需要进行优化,此时,根据综合评分对大数据集群进行优化。需要说明的是,本发明实施例中所述的评分阈值可根据大数据集群的应用环境等的不同做不同的设定,本发明并不以此为限。
具体地,当认定该大数据集群需要进行优化时,可通过查找错误日志中的错误码来判断该大数据集群中是哪一部分需要进行优化(包含但不限于内存、硬盘、CPU、网络的优化)。
可选地,在本发明的一些实施例中,该错误码可为6位数字,前两位表示大数据集群中的组件,第三位表示错误对象(0表示该组件自身错误,1表示CPU错误,2表示内存错误,3表示硬盘错误,4表示其他错误),最后三位为错误编号。可见,根据错误码的第三位可以判断是大数据集群中的哪些组件产生的错误较多,因此,可提示对相应的组件进行优化。例如,当判定当前大数据集群中产生错误较多的是内存,则可按照内存在预设的优化方案数据库中查找与内存优化相对应的方案,提供给运维人员。
本发明实施例的大数据集群的运行维护方法,不仅能够实现自动执行检测、修复工作,运维人员无需时刻监视平台正常与否,能够降低运维人员重复工作的概率,提高大数据平台的运行维护效率;并且,还能够根据运行状态给出健康状况报告,并基于健康状况提示相应的优化方案。
相应地,请参考图3,本发明实施例提供一种大数据集群的运行维护装置,该运行维护装置主要包括:
运行信息获取模块11,用于获取部署于所述大数据集群中的至少一第一执行对象所采集的各组件的被测进程的进程运行信息;详细内容可参见上述步骤S11的相关描述。
扫描模块12,用于根据所述进程运行信息扫描所述被测进程是否存在程序错误;详细内容可参见上述步骤S12的相关描述。
错误类型提取模块13,如果扫描所述被测进程存在程序错误,所述错误类型提取模块用于扫描程序错误触发点的错误日志,提取所述程序错误的错误类型;详细内容可参见上述步骤S13的相关描述。
修复指令生成模块14,用于根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;详细内容可参见上述步骤S14的相关描述。
指令发送模块15,用于将所述修复指令及修复策略发送至所述第一执行对象,使所述第一执行对象修复所述程序错误;详细内容可参见上述步骤S15的相关描述。
本发明实施例的大数据集群的运行维护装置,可以自动执行检测、修复工作,运维人员无需时刻监视平台正常与否,并且能够降低运维人员重复工作的概率,提高大数据平台的运行维护效率,能够最大化减少对业务的影响,保证大数据平台稳定运行。
本发明实施例还提供一种大数据集群的运行维护方法,该运行维护方法可应用于上述Server/Agent类型架构的Agent端,如图4所示,该方法主要包括:
步骤S41:采集大数据集群中各组件的被测进程的进程运行信息;Agent部署在大数据集群每个主机上,用于收集硬件信息,监测组件状态,运行监控,组件配置生成信息等表征该大数据集群中各个组件的进程运行状态的信息。
步骤S42:将进程运行信息发送至第二执行对象;其中,该第二执行对象可以例如是上述Server/Agent类型架构的Server端。
步骤S43:接收第二执行对象根据进程运行信息反馈的修复指令及修复策略;其中,第二执行对象根据进程运行信息反馈的修复指令及修复策略的过程,可参见上述实施例的步骤S11至步骤S15的相关描述,在此不再赘述。
步骤S44:根据修复指令及修复策略修复所述组件中的程序错误。当接收到第二执行对象反馈的修复指令及修复策略后,按照该修复策略,修复大数据集群中产生异常的组件,完成自动修复的过程。
本发明实施例还提供一种大数据集群的运行维护装置,如图5所示,该运行维护装置包括:
运行信息采集模块41,用于采集大数据集群中各组件的被测进程的进程运行信息;详细内容可参见上述步骤S41的相关描述。
运行信息发送模块42,用于将进程运行信息发送至第二执行对象;详细内容可参见上述步骤S42的相关描述。
指令接收模块43,用于接收第二执行对象根据进程运行信息反馈的修复指令及修复策略;详细内容可参见上述步骤S43的相关描述。
修复模块44,用于根据修复指令及修复策略修复组件中的程序错误;详细内容可参见上述步骤S44的相关描述。
本发明实施例的大数据集群的运行维护方法及相关装置,可以自动执行检测、修复工作,运维人员无需时刻监视平台正常与否,并且能够降低运维人员重复工作的概率,提高大数据平台的运行维护效率,能够最大化减少对业务的影响,保证大数据平台稳定运行。
本发明实施例还提供了一种车辆终端,如图6所示,该车辆终端可以包括处理器61和存储器62,其中处理器61和存储器62可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器61可以为中央处理器(Central Processing Unit,CPU)。处理器61还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器62作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的大数据集群的运行维护方法对应的程序指令/模块(例如,图3所示的运行信息获取模块11、扫描模块12、错误类型提取模块13、修复指令生成模块14及指令发送模块15,或图5所示的运行信息采集模块41、运行信息发送模块42、指令接收模块43及修复模块44)。处理器61通过运行存储在存储器62中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述任意方法实施例中的大数据集群的运行维护方法。
存储器62可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器61所创建的数据等。此外,存储器62可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器62可选包括相对于处理器61远程设置的存储器,这些远程存储器可以通过网络连接至处理器61。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器62中,当被所述处理器61执行时,执行如图2及图4所示实施例中的大数据集群的运行维护方法。
上述车辆终端具体细节可以对应参阅图2及图4所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (12)

1.一种大数据集群的运行维护方法,其特征在于,所述大数据集群中包括至少一个第一执行对象,所述第一执行对象与大数据集群的组件具有耦合对应关系;所述方法包括:
获取部署于所述大数据集群中的至少一第一执行对象所采集的各组件的被测进程的进程运行信息;
根据所述进程运行信息扫描所述被测进程是否存在程序错误;
如果扫描所述被测进程存在程序错误,扫描程序错误触发点的错误日志,提取所述程序错误的错误类型;
根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;
将所述修复指令及修复策略发送至所述第一执行对象,使所述第一执行对象修复所述程序错误。
2.根据权利要求1所述的大数据集群的运行维护方法,其特征在于,根据所述进程运行信息扫描所述被测进程是否存在程序错误,包括:
根据所述进程运行信息扫描所述大数据集群中的被测进程是否存在异常;
如果扫描所述被测进程存在异常,则扫描异常服务日志,判断是否存在程序错误;
如果扫描所述被测进程不存在异常,则判断所述被测进程是否扫描完成,如果扫描完成,则退出扫描;
如果扫描未完成,则返回所述根据所述进程运行信息扫描所述被测进程是否存在程序错误的步骤,扫描下一被测进程。
3.根据权利要求2所述的大数据集群的运行维护方法,其特征在于,如果判断不存在程序错误,则启动所述被测进程;
判断所述被测进程是否扫描完成,如果扫描完成,则退出扫描;
如果扫描未完成,则返回所述根据所述进程运行信息扫描所述被测进程是否存在程序错误的步骤,扫描下一被测进程。
4.根据权利要求1所述的大数据集群的运行维护方法,其特征在于,在根据所述进程运行信息扫描所述被测进程是否存在程序错误之前,所述的运行维护方法还包括:
读取配置文件,获取所述大数据集群中的各组件的剩余启动次数。
5.根据权利要求4所述的大数据集群的运行维护方法,其特征在于,根据所述错误类型在预设的错误码库中查询对应的修复策略,包括:
根据所述错误类型在所述预设的错误码库中查询是否存在匹配的修复策略;
如果所述预设的错误码库中存在匹配的修复策略,则提取所述修复策略。
6.根据权利要求5所述的大数据集群的运行维护方法,其特征在于,如果所述预设的错误码库中不存在匹配的修复策略,则根据所述各组件的剩余启动次数判断所述被测进程的启动次数是否用尽;
如果所述被测进程的启动次数用尽,则将所述错误日志发送至运行维护人员;
获取所述运行维护人员输入的新的修复策略,并将所述新的修复策略更新至所述预设的错误码库中。
7.根据权利要求1-6中任一项所述的大数据集群的运行维护方法,其特征在于,还包括:
统计所述大数据集群中的组件进行修复的次数及可进行修复的次数;
根据所述进行修复的次数及可进行修复的次数计算所述组件的健康率及组件权重;
根据所述健康率及组件权重计算所述大数据集群的综合评分;
根据所述综合评分对所述大数据集群进行优化。
8.一种大数据集群的运行维护装置,其特征在于,包括:
运行信息获取模块,用于获取部署于所述大数据集群中的至少一第一执行对象所采集的各组件的被测进程的进程运行信息;
扫描模块,用于根据所述进程运行信息扫描所述被测进程是否存在程序错误;
错误类型提取模块,如果扫描所述被测进程存在程序错误,所述错误类型提取模块用于扫描程序错误触发点的错误日志,提取所述程序错误的错误类型;
修复指令生成模块,用于根据所述错误类型在预设的错误码库中查询对应的修复策略,并生成修复指令;
指令发送模块,用于将所述修复指令及修复策略发送至所述第一执行对象,使所述第一执行对象修复所述程序错误。
9.一种大数据集群的运行维护方法,其特征在于,包括:
采集所述大数据集群中各组件的被测进程的进程运行信息;
将所述进程运行信息发送至第二执行对象;
接收所述第二执行对象根据所述进程运行信息反馈的修复指令及修复策略;
根据所述修复指令及修复策略修复所述组件中的程序错误。
10.一种大数据集群的运行维护装置,其特征在于,包括:
运行信息采集模块,用于采集所述大数据集群中各组件的被测进程的进程运行信息;
运行信息发送模块,用于将所述进程运行信息发送至第二执行对象;
指令接收模块,用于接收所述第二执行对象根据所述进程运行信息反馈的修复指令及修复策略;
修复模块,用于根据所述修复指令及修复策略修复所述组件中的程序错误。
11.一种服务器,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-7中任一项所述的大数据集群的运行维护方法,或者,执行如权利要求9所述的大数据集群的运行维护方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-7中任一项所述的大数据集群的运行维护方法,或者,执行如权利要求9所述的大数据集群的运行维护方法。
CN201910205420.6A 2019-03-18 2019-03-18 一种大数据集群的运行维护方法及装置 Pending CN109960690A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910205420.6A CN109960690A (zh) 2019-03-18 2019-03-18 一种大数据集群的运行维护方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910205420.6A CN109960690A (zh) 2019-03-18 2019-03-18 一种大数据集群的运行维护方法及装置

Publications (1)

Publication Number Publication Date
CN109960690A true CN109960690A (zh) 2019-07-02

Family

ID=67024316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910205420.6A Pending CN109960690A (zh) 2019-03-18 2019-03-18 一种大数据集群的运行维护方法及装置

Country Status (1)

Country Link
CN (1) CN109960690A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444208A (zh) * 2020-03-25 2020-07-24 平安医疗健康管理股份有限公司 一种数据更新方法及相关设备
CN111581001A (zh) * 2020-04-27 2020-08-25 佛山科学技术学院 一种大数据集群的运行维护方法及装置
CN112306831A (zh) * 2020-10-27 2021-02-02 苏州浪潮智能科技有限公司 计算集群错误预测方法及相关设备
CN112445641A (zh) * 2020-11-05 2021-03-05 德州职业技术学院(德州市技师学院) 一种大数据集群的运行维护方法和系统
CN113296840A (zh) * 2020-02-20 2021-08-24 银联数据服务有限公司 一种集群运维方法及装置
CN113328895A (zh) * 2021-06-21 2021-08-31 河北幸福消费金融股份有限公司 错误码管理系统、异常定位方法和存储介质
CN115827678A (zh) * 2023-02-15 2023-03-21 零犀(北京)科技有限公司 一种获取业务数据的方法、装置、介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140245072A1 (en) * 2011-05-20 2014-08-28 International Business Machines Corporation System, method, and computer program product for physical drive failure identification, prevention, and minimization of firmware revisions
CN106790895A (zh) * 2015-11-25 2017-05-31 北京搜狗科技发展有限公司 一种故障处理方法和装置
CN106844132A (zh) * 2015-12-03 2017-06-13 北京国双科技有限公司 集群服务器的故障修复方法和装置
CN108491320A (zh) * 2018-03-05 2018-09-04 平安普惠企业管理有限公司 应用程序的异常分析方法、装置、计算机设备和存储介质
CN108667666A (zh) * 2018-05-20 2018-10-16 北京工业大学 一种基于可视化技术的智能运维方法及其系统
CN108833131A (zh) * 2018-04-25 2018-11-16 北京百度网讯科技有限公司 分布式数据库云服务的系统、方法、设备和计算机存储介质
CN109086153A (zh) * 2018-07-24 2018-12-25 郑州云海信息技术有限公司 一种存储设备故障的修复方法及其相关装置
CN109343987A (zh) * 2018-08-20 2019-02-15 科大国创软件股份有限公司 It系统故障诊断及修复方法、装置、设备、存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140245072A1 (en) * 2011-05-20 2014-08-28 International Business Machines Corporation System, method, and computer program product for physical drive failure identification, prevention, and minimization of firmware revisions
CN106790895A (zh) * 2015-11-25 2017-05-31 北京搜狗科技发展有限公司 一种故障处理方法和装置
CN106844132A (zh) * 2015-12-03 2017-06-13 北京国双科技有限公司 集群服务器的故障修复方法和装置
CN108491320A (zh) * 2018-03-05 2018-09-04 平安普惠企业管理有限公司 应用程序的异常分析方法、装置、计算机设备和存储介质
CN108833131A (zh) * 2018-04-25 2018-11-16 北京百度网讯科技有限公司 分布式数据库云服务的系统、方法、设备和计算机存储介质
CN108667666A (zh) * 2018-05-20 2018-10-16 北京工业大学 一种基于可视化技术的智能运维方法及其系统
CN109086153A (zh) * 2018-07-24 2018-12-25 郑州云海信息技术有限公司 一种存储设备故障的修复方法及其相关装置
CN109343987A (zh) * 2018-08-20 2019-02-15 科大国创软件股份有限公司 It系统故障诊断及修复方法、装置、设备、存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113296840A (zh) * 2020-02-20 2021-08-24 银联数据服务有限公司 一种集群运维方法及装置
CN111444208A (zh) * 2020-03-25 2020-07-24 平安医疗健康管理股份有限公司 一种数据更新方法及相关设备
CN111444208B (zh) * 2020-03-25 2022-08-30 深圳平安医疗健康科技服务有限公司 一种数据更新方法及相关设备
CN111581001A (zh) * 2020-04-27 2020-08-25 佛山科学技术学院 一种大数据集群的运行维护方法及装置
CN112306831A (zh) * 2020-10-27 2021-02-02 苏州浪潮智能科技有限公司 计算集群错误预测方法及相关设备
CN112306831B (zh) * 2020-10-27 2022-12-27 苏州浪潮智能科技有限公司 计算集群错误预测方法及相关设备
CN112445641A (zh) * 2020-11-05 2021-03-05 德州职业技术学院(德州市技师学院) 一种大数据集群的运行维护方法和系统
CN113328895A (zh) * 2021-06-21 2021-08-31 河北幸福消费金融股份有限公司 错误码管理系统、异常定位方法和存储介质
CN113328895B (zh) * 2021-06-21 2023-08-29 河北幸福消费金融股份有限公司 错误码管理系统、异常定位方法和存储介质
CN115827678A (zh) * 2023-02-15 2023-03-21 零犀(北京)科技有限公司 一种获取业务数据的方法、装置、介质及电子设备

Similar Documents

Publication Publication Date Title
CN109960690A (zh) 一种大数据集群的运行维护方法及装置
US11354219B2 (en) Machine defect prediction based on a signature
US10534699B2 (en) Method, device and computer program product for executing test cases
CN110245078B (zh) 一种软件的压力测试方法、装置、存储介质和服务器
US10079721B2 (en) Integrated digital network management platform
US9092561B2 (en) Model checking for distributed application validation
US10387236B2 (en) Processing data errors for a data processing system
US8161458B2 (en) Method and apparatus to increase efficiency of automatic regression in “two dimensions”
CN108521339B (zh) 一种基于集群日志的反馈式节点故障处理方法及系统
US9891971B1 (en) Automating the production of runbook workflows
Peiris et al. Pad: Performance anomaly detection in multi-server distributed systems
US11385898B2 (en) Task orchestration method for data processing, orchestrator, device and readable storage medium
CN102571403A (zh) 通用数据质量管控适配器的实现方法和装置
CN113360722B (zh) 一种基于多维数据图谱的故障根因定位方法及系统
US9706005B2 (en) Providing automatable units for infrastructure support
CN108108445A (zh) 一种智能数据处理方法和系统
CN103678116A (zh) 用于促进自动化程序测试的方法和系统
CN109189628A (zh) 一种应用于服务器测试的bmc日志处理方法及系统
CN103368762A (zh) 大数据对比测试方法、系统及装置
CN106874525B (zh) 一种风电机组设备故障筛查、统计的方法与装置
Tadano et al. Automatic synthesis of SRN models from system operation templates for availability analysis
Chen et al. Proverr: System level statistical fault diagnosis using dependency model
CN117439899B (zh) 一种基于大数据的通信机房巡检方法及系统
US11016867B2 (en) Test execution comparisons
CN117971396A (zh) 一种风险确认方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190702

RJ01 Rejection of invention patent application after publication