CN106301823B - 一种关键组件的故障告警方法、装置及大数据管理系统 - Google Patents

一种关键组件的故障告警方法、装置及大数据管理系统 Download PDF

Info

Publication number
CN106301823B
CN106301823B CN201510253928.5A CN201510253928A CN106301823B CN 106301823 B CN106301823 B CN 106301823B CN 201510253928 A CN201510253928 A CN 201510253928A CN 106301823 B CN106301823 B CN 106301823B
Authority
CN
China
Prior art keywords
alarm information
node
state
standby
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510253928.5A
Other languages
English (en)
Other versions
CN106301823A (zh
Inventor
任聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201510253928.5A priority Critical patent/CN106301823B/zh
Priority to PCT/CN2015/089361 priority patent/WO2016183967A1/zh
Publication of CN106301823A publication Critical patent/CN106301823A/zh
Application granted granted Critical
Publication of CN106301823B publication Critical patent/CN106301823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种关键组件的故障告警方法、装置及大数据管理系统,其方法包括:当大数据管理系统关键组件的主节点故障时,根据主节点和备节点切换后的状态信息生成第一告警信息;根据告警信息与故障解决方案的对应关系,获取与第一告警信息对应的第一故障解决方案;将第一告警信息和第一故障解决方案输出。本发明通过当与关键组件高可用性相关的主备节点发生切换后生成对应的告警信息,获取与该告警信息相对应的解决方案,并与告警信息一同输出。采用该方法可及时处理故障的问题,并能够及时发现并处理集群问题,保证大数据管理系统的高可用性和可靠性。

Description

一种关键组件的故障告警方法、装置及大数据管理系统
技术领域
本发明涉及大数据管理系统领域,尤其涉及一种关键组件的故障告警方法、装置及大数据管理系统。
背景技术
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,根据监测,这个速度在2020年之前会继续保持下去,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。资料显示,2011年,全球数据规模为1.8ZB,可以填满575亿个32GB的iPad,这些iPad可以在中国修建两座长城。到2020年,全球数据将达到40ZB,如果把它们全部存入蓝光光盘,这些光盘和424艘尼米兹号航母重量相当。淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB(1TB等于1000GB),存储量40PB(1PB等于1000TB)。百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。
大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长,信息数据的单位由TB-PB-EB-ZB的级别。如何管理和使用这些数据,已成为一个新的领域,大数据的概念应运而生。大数据有4V特点:数据量(Volume)大、数据类别(Variety)多、数据处理速度(Velocity)快、数据真实性(Veracity)高。其中,
1、数据量大,现在大型数据集,数据量一般在10TB规模左右,目前一般认为PB级以上数据看成是大数据。
2、数据类别多,数据种类和格式日渐丰富,包括文档、视频、图片、音频、数据库数据等
3、数据处理速度快,在数据量非常庞大的情况下,也能够做到数据的实时处理。要求数据处理和I/O速度很快。
4、数据真实性。数据是完整的和可信任,并能自信地用它来做出关键的决定的能力的组织。
大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。很多行业都会有大数据需求,譬如电信行业,互联网行业等等容易产生大量数据的行业,很多传统行业,譬如医药,教育,采矿,电力等等任何行业,都会有大数据需求。不同行业的数据有不同的自身特点,都需要结合自身的行业知识才能把大数据转换为价值。
分析大数据的框架、产品、工具和系统纷纷进入用户的视线,为保证关键组件的高可用性,目前已有的大数据管理系统上报的关键组件的告警方法较少,虽对告警进行了级别分类,但上报的一些告警并没有给出解决方案,即看到告警的人员不清楚如何处理。
发明内容
为了解决上述技术问题,本发明提供了一种关键组件的故障告警方法、装置及大数据管理系统,解决了关键组件告警无法及时处理的问题。
依据本发明的一个方面,提供了一种关键组件的故障告警方法,应用于大数据管理系统,其方法包括:
当大数据管理系统关键组件的主节点故障时,根据主节点和备节点切换后的状态信息生成第一告警信息;
根据告警信息与故障解决方案的对应关系,获取与第一告警信息对应的第一故障解决方案;
将第一告警信息和第一故障解决方案输出。
其中,根据主节点和备节点切换后的状态信息生成第一告警信息的步骤包括:
主节点和备节点切换后的状态信息中仅有一个为激活状态时,生成第一级告警信息;
主节点和备节点切换后的状态信息均为激活状态或者均不是激活状态时,生成第二级告警信息;其中,第二级告警信息的级别高于第一级告警信息的级别。
其中,根据告警信息与故障解决方案的对应关系,获取与第一告警信息对应的第一故障解决方案的步骤包括:
当第一告警信息为第一级告警信息时,获取自动恢复故障的故障解决方案;
当第一告警信息为第二级告警信息时,获取需手动恢复故障的故障解决方案。
其中,主节点和备节点切换后的状态信息中仅有一个为激活状态时,生成第一级告警信息的步骤包括:
主节点由激活状态切换为备用状态,且备节点由备用状态切换为激活状态时,生成第一级第一子告警信息;
主节点宕机或停运,且备节点由备用状态切换为激活状态时,生成第一级第二子告警信息。
其中,主节点和备节点切换后的状态信息均为激活状态或者均不是激活状态时,生成第二级告警信息的步骤包括:
主节点仍为激活状态,且备节点由备用状态切换为激活状态时,生成第二级第一子告警信息;
主节点由激活状态切换为备用状态,且备节点仍为备用状态时,生成第二级第二子告警信息;
主节点宕机或停运,且备节点仍为备用状态时,生成第二级第三子告警信息。
其中,根据告警信息与故障解决方案的对应关系,获取与第一告警信息对应的第一故障解决方案的步骤之后,还包括:
根据第一告警信息和第一故障解决方案生成一告警日志,并将告警日志保存至本地。
其中,将第一告警信息和第一故障解决方案输出的步骤包括:
将第一告警信息和第一故障解决方案发送至与关键组件所在的服务器预先绑定的移动终端;和/或
将第一告警信息和第一故障解决方案输出至大数据管理系统的显示装置进行显示。
依据本发明的再一个方面,还提供了一种关键组件的故障告警装置,应用于大数据管理系统,包括:
生成模块,用于当大数据管理系统关键组件的主节点故障时,根据主节点和备节点切换后的状态信息生成第一告警信息;
获取模块,用于根据告警信息与故障解决方案的对应关系,获取与第一告警信息对应的第一故障解决方案;
输出模块,用于将第一告警信息和第一故障解决方案输出。
其中,生成模块包括:
第一生成单元,用于当主节点和备节点切换后的状态信息中仅有一个为激活状态时,生成第一级告警信息;
第二生成单元,用于当主节点和备节点切换后的状态信息均为激活状态或者均不是激活状态时,生成第二级告警信息;其中,第二级告警信息的级别高于第一级告警信息的级别。
其中,获取模块包括:
第一获取单元,用于当第一告警信息为第一级告警信息时,获取自动恢复故障的故障解决方案;
第二获取单元,用于当第一告警信息为第二级告警信息时,获取需手动恢复故障的故障解决方案。
其中,第一生成单元包括:
第一生成子单元,用于当主节点由激活状态切换为备用状态,且备节点由备用状态切换为激活状态时,生成第一级第一子告警信息;
第二生成子单元,用于当主节点宕机或停运,且备节点由备用状态切换为激活状态时,生成第一级第二子告警信息。
其中,第二生成单元包括:
第三生成子单元,用于当主节点仍为激活状态,且备节点由备用状态切换为激活状态时,生成第二级第一子告警信息;
第四生成子单元,用于当主节点由激活状态切换为备用状态,且备节点仍为备用状态时,生成第二级第二子告警信息;
第五生成子单元,用于当主节点宕机或停运,且备节点仍为备用状态时,生成第二级第三子告警信息。
其中,关键组件的故障告警装置还包括:
存储模块,用于根据第一告警信息和第一故障解决方案生成一告警日志,并将告警日志保存至本地。
其中,输出模块包括:
第一输出单元,用于将第一告警信息和第一故障解决方案发送至与关键组件所在的服务器预先绑定的移动终端;和/或
第二输出单元,用于将第一告警信息和第一故障解决方案输出至大数据管理系统的显示装置进行显示。
依据本发明的再一个方面,还提供了一种大数据管理系统,包括如上所述的关键组件的故障告警装置。
本发明的实施例的有益效果是:一种关键组件的故障告警方法、装置及大数据管理系统,通过当与关键组件高可用性相关的主备节点发生切换后生成对应的告警信息,获取与该告警信息相对应的解决方案,并与告警信息一同输出。采用该方法可及时处理故障的问题,并能够及时发现并处理集群问题,保证大数据管理系统的高可用性和可靠性。
附图说明
图1表示本发明的关键组件的故障告警方法的流程示意图;
图2表示本发明的关键组件的故障告警装置的模块示意图。
其中图中:101、生成模块,201、获取模块,301、输出模块。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例
大数据管理系统的关键组件YARN在对外提供服务的过程中,要保证其高可用性,一般情况下,YARN的单点故障仍采用主备节点切换的方式完成,但备节点不会同步主节点的信息,而是在切换后从共享存储系统读取所需信息。其中,YARN主节点包括:资源管理器ResourceManager和配置文件yarn-site.xml,ResourceManager负责整个系统的资源管理和调度,内部维护了各个应用程序的ApplictionMaster信息,各个节点的NodeManager信息,资源使用信息等,YARN的单点故障指的是ResourceManager单点问题。为了保证在发生单点故障时,保证YARN的高可用性,如图1所示,本发明的实施例提供了一种关键组件的告警方法,具体包括以下步骤:
步骤10:当大数据管理系统关键组件的主节点故障时,根据主节点和备节点切换后的状态信息生成第一告警信息。
这里,当大数据管理系统中的关键组件YARN发生单点故障时,主节点和备节点会自动发生服务状态切换,这时会根据主备节点切换后的状态信息生成第一告警信息。其中,为了详细地说明故障情况,告警信息中包括:状态切换发生的时间,故障名称,告警级别,告警码,YARN所在服务器的IP,当前服务名称中的一种或几种信息。其中,告警码对应于告警级别和故障名称,告警码不同对应的告警级别和故障名称不同。
步骤20:根据告警信息与故障解决方案的对应关系,获取与第一告警信息对应的第一故障解决方案。
由于不同的故障对应的解决方案不同,不同的告警信息代表着不同的故障,因此在告警信息与故障解决方案之间存在有一定的对应关系,即不同的告警码对应的故障解决方案不同。根据告警信息与故障解决方案之间的对应关系,获取与第一告警信息相对应的第一故障解决方案。
步骤30:将第一告警信息和第一故障解决方案输出。
这样可及时发现故障,并可根据故障解决方案对YARN故障进行消除,以保证YARN的高可用性。
进一步地,由于故障不同对应的告警信息不同,步骤10可具体分为以下几种场景:
场景一:主节点和备节点切换后的状态信息中仅有一个为激活状态时,生成第一级告警信息。
其中,主节点的初始状态为active状态,备节点的初始状态为standby状态。这里指的是YARN主节点发生故障后,主节点和备节点均发生了状态切换,且切换后仍然仅有一个节点为激活状态,即主备节点状态切换后,有一个为active状态,YARN仍能正常对外提供服务,这种情况下生成第一级告警信息。
场景二:主节点和备节点切换后的状态信息均为激活状态或者均不是激活状态时,生成第二级告警信息。
这里指的是YARN主节点发生故障后,主节点和备节点均发生了状态切换,但切换后节点均为激活状态或均不是激活状态,即主备节点切换后,有一个以上的节点为active状态,或没有处于active的节点,这种情况下,YARN不能正常对外提供服务。这样,第二级告警信息的告警级别要高于第一级告警信息的级别;其中,。
其中,对应于步骤10的几种场景,步骤20具体包括以下场景。
场景三(对应于场景一):当第一告警信息为第一级告警信息时,获取自动恢复故障的故障解决方案。
这里是指当第一告警信息为第一级告警信息时,即主备节点切换状态后YARN仍能正常向外提供服务,也就是说这种情况下故障时可自动恢复的。
场景四(对应于场景二):当第一告警信息为第二级告警信息时,获取需手动恢复故障的故障解决方案。
这里是指当第一告警信息为第二级告警信息时,即主备节点切换状态后YARN不能向外提供服务,也就是说这种情况下故障不能够自动恢复,需要运维人员手动对其进行故障修复,这就需要获取与第一告警信息相对应的第一故障解决方案,以使运维人员能够根据第一故障解决方案的提示对YARN进行修复,以使其能够恢复正常服务。
其中,对应于场景一具体可包括以下几种情况:
情况一:主节点由激活状态切换为备用状态,且备节点由备用状态切换为激活状态时,生成第一级第一子告警信息。
这种情况下,YARN的主备节点正常切换,切换一次上报一次告警信息,告警级别为轻微,故障解决方案的具体内容可具体根据告警码区别提供,例如此种情况下,告警码编号为001,表示YARN可以正常运行,告警级别轻微,不需要立即处理。即主备节点切换成功后,即YARN服务对外仍是只有一个主节点,一个备节点,该故障能自动恢复。
情况二:主节点宕机或停运,且备节点由备用状态切换为激活状态时,生成第一级第二子告警信息。
这种情况下,主节点的resourcemanager进程退出或宕机,主节点状态为已经停止,此时,备节点自动切换为主节点,上报一次告警给大数据管理系统,告警级别是轻微,例如此种情况下,告警码编号为002,表示YARN可以正常运行,告警级别轻微,不需要立即处理。主备节点切换之后,YARN对外只有1个主节点,这种情况YARN对外可以正常提供服务,该条故障也能自动恢复。
其中,对应于场景一具体可包括以下几种情况:
情况三:主节点仍为激活状态,且备节点由备用状态切换为激活状态时,生成第二级第一子告警信息。
这种情况下,YARN的主节点未切换成功,备节点切换成功,导致存在两个主节点,即主备节点均为active状态,这种情况对外不可以正常提供服务,告警级别是严重,且该故障不能恢复,例如此种情况下告警码为003,表示YARN不能正常运行,需要维护人员按照解决方案的步骤来处理。维护人员按照故障解决方案来处理,只有在对外只有1个主节点,1个备节点时,该故障才能恢复。具体解决方案可参照:执行一个脚本b.sh,该脚本强制切换其中一个节点的状态为备。
情况四:主节点由激活状态切换为备用状态,且备节点仍为备用状态时,生成第二级第二子告警信息。
这种情况下,YARN的主节点切换成功,备节点未切换成功,导致存在两个备节点,即主备节点均为standby状态,这种情况对外不可以正常提供服务,告警级别是严重,且该故障不能恢复,例如此种情况下告警码为004,表示YARN不能正常运行,需要维护人员按照解决方案的步骤来处理。维护人员按照故障解决方案来处理,只有在对外只有1个主节点,1个备节点时,该故障才能恢复。具体故障解决方案可参照:执行一个脚本a.sh,该脚本强制切换一个节点的状态为主。
情况五:主节点宕机或停运,且备节点仍为备用状态时,生成第二级第三子告警信息。
这种情况下,主节点的状态为已经停止,备节点未切换成功,即YARN服务对外只有1个备节点,这时告警级别是严重,且该故障不能自动恢复,例如此种情况下告警码为003,表示YARN不能正常运行,需要维护人员按照解决方案的步骤来处理。维护人员按照故障解决方案来处理,只有对外只有1个主节点,1个备节点时,该故障才能恢复。具体故障解决方案可参照以下:先检查之前的主节点的防火墙是否开启,如开启需执行命令关掉防火墙;再检查zookeeper服务是否运行,如发现zookeeper服务运行异常,先恢复该服务的正常运行;在已停止的节点,执行启动resourcemanager的脚本启动该节点。
其中,由于YARN是一个通用资源管理系统,它上面可能运行短作业或长作业,比如各类长时间运行的服务(比如Storm,thirft server等),如果每次ResourceManager切换均会导致所有正在运行的任务和作业重算或重启,也就是说YARN主节点上已经运行的作业会在备节点上重新跑。在YARN的配置文件yarn-site.xml中设置有最大切换次数,如果切换次数超过YARN的配置文件yarn-site.xml中的参数设置的次数,虽然切换成功,但对运行中的作业的影响较大,整个作业需要在客户端再次提交才能运行。如果大数据管理系统中安装了spark这个组件,需要运行在Yarn组件之上,切换两次之后将导致spark服务重启。为了避免这个问题,在步骤20之后,还包括:
根据第一告警信息和第一故障解决方案生成一告警日志,并将告警日志保存至本地。
这里,告警日志中记录有每次主备切换后生成的告警信息,即在告警日志中记录有每条告警信息的主备节点切换时间、当前服务名、YARN所在服务器IP、告警码和故障解决方案等信息。生成并保存告警日志便于运维人员全面掌握YARN的每条告警信息,可宏观分析YARN故障的内在原因,便于及时发现YARN所存在的隐性问题,并针对隐性问题得到解决方案,以防止YARN多次故障,而引起的多次切换问题。
综上,为了使运维人员方便得到告警信息或告警日志,步骤30具体有以下两种实现方式。
方式一:将第一告警信息和第一故障解决方案发送至与关键组件所在的服务器预先绑定的移动终端。
具体地,可预先绑定YARN所在服务器与对应运维人员的手机的对应关系,当YARN发生故障时,会将生成的告警信息发送至对应的运维人员的手机上,例如通过短信方式下发。
方式二:将第一告警信息和第一故障解决方案输出至大数据管理系统的显示装置进行显示。
具体地,将告警信息和对应的故障解决方案输出至系统的故障显示装置进行显示,可方便运维人员通过查看提示对故障进行恢复。
值得指出的是方式一与方式二的实现并不矛盾,必要时可采用两种方式进行输出。
本发明的实施例通过当与关键组件高可用性相关的主备节点发生切换后生成对应的告警信息,获取与该告警信息相对应的解决方案,并与告警信息一同输出。采用该方法可及时处理故障的问题,并能够及时发现并处理集群问题,保证大数据管理系统的高可用性和可靠性。
如图2所示,依据本发明实施例的再一个方面,还提供了一种关键组件的故障告警装置,应用于大数据管理系统,包括:
生成模块101,用于当大数据管理系统关键组件的主节点故障时,根据主节点和备节点切换后的状态信息生成第一告警信息;
获取模块201,用于根据告警信息与故障解决方案的对应关系,获取与第一告警信息对应的第一故障解决方案;
输出模块301,用于将第一告警信息和第一故障解决方案输出。
其中,生成模块101包括:
第一生成单元,用于当主节点和备节点切换后的状态信息中仅有一个为激活状态时,生成第一级告警信息;
第二生成单元,用于当主节点和备节点切换后的状态信息均为激活状态或者均不是激活状态时,生成第二级告警信息;其中,第二级告警信息的级别高于第一级告警信息的级别。
其中,获取模块201包括:
第一获取单元,用于当第一告警信息为第一级告警信息时,获取自动恢复故障的故障解决方案;
第二获取单元,用于当第一告警信息为第二级告警信息时,获取需手动恢复故障的故障解决方案。
其中,第一生成单元包括:
第一生成子单元,用于当主节点由激活状态切换为备用状态,且备节点由备用状态切换为激活状态时,生成第一级第一子告警信息;
第二生成子单元,用于当主节点宕机或停运,且备节点由备用状态切换为激活状态时,生成第一级第二子告警信息。
其中,第二生成单元包括:
第三生成子单元,用于当主节点仍为激活状态,且备节点由备用状态切换为激活状态时,生成第二级第一子告警信息;
第四生成子单元,用于当主节点由激活状态切换为备用状态,且备节点仍为备用状态时,生成第二级第二子告警信息;
第五生成子单元,用于当主节点宕机或停运,且备节点仍为备用状态时,生成第二级第三子告警信息。
其中,关键组件的故障告警装置还包括:
存储模块,用于根据第一告警信息和第一故障解决方案生成一告警日志,并将告警日志保存至本地。
其中,输出模块301包括:
第一输出单元,用于将第一告警信息和第一故障解决方案发送至与关键组件所在的服务器预先绑定的移动终端;和/或
第二输出单元,用于将第一告警信息和第一故障解决方案输出至大数据管理系统的显示装置进行显示。
需要说明的是,该装置是与上述关键组件告警方法对应的系统,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
依据本发明的再一个方面,还提供了一种大数据管理系统,包括如上所述的关键组件的故障告警装置。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。

Claims (11)

1.一种关键组件的故障告警方法,应用于大数据管理系统,其特征在于,包括:
当大数据管理系统关键组件的主节点故障时,根据主节点和备节点切换后的状态信息生成第一告警信息;
根据告警信息与故障解决方案的对应关系,获取与所述第一告警信息对应的第一故障解决方案;
将所述第一告警信息和所述第一故障解决方案输出;
根据主节点和备节点切换后的状态信息生成第一告警信息的步骤包括:
所述主节点和所述备节点切换后的状态信息中仅有一个为激活状态时,生成第一级告警信息;
所述主节点和所述备节点切换后的状态信息均为激活状态或者均不是激活状态时,生成第二级告警信息;其中,所述第二级告警信息的级别高于所述第一级告警信息的级别;
所述主节点和所述备节点切换后的状态信息均为激活状态或者均不是激活状态时,生成第二级告警信息的步骤包括:
所述主节点仍为激活状态,且所述备节点由备用状态切换为激活状态时,生成第二级第一子告警信息;
所述主节点由激活状态切换为备用状态,且所述备节点仍为备用状态时,生成第二级第二子告警信息;
所述主节点宕机或停运,且所述备节点仍为备用状态时,生成第二级第三子告警信息。
2.根据权利要求1所述的关键组件的故障告警方法,其特征在于,根据告警信息与故障解决方案的对应关系,获取与所述第一告警信息对应的第一故障解决方案的步骤包括:
当所述第一告警信息为第一级告警信息时,获取自动恢复故障的故障解决方案;
当所述第一告警信息为第二级告警信息时,获取需手动恢复故障的故障解决方案。
3.根据权利要求1所述的关键组件的故障告警方法,其特征在于,所述主节点和所述备节点切换后的状态信息中仅有一个为激活状态时,生成第一级告警信息的步骤包括:
所述主节点由激活状态切换为备用状态,且所述备节点由备用状态切换为激活状态时,生成第一级第一子告警信息;
所述主节点宕机或停运,且所述备节点由备用状态切换为激活状态时,生成第一级第二子告警信息。
4.根据权利要求1或2所述的关键组件的故障告警方法,其特征在于,根据告警信息与故障解决方案的对应关系,获取与所述第一告警信息对应的第一故障解决方案的步骤之后,还包括:
根据所述第一告警信息和所述第一故障解决方案生成一告警日志,并将所述告警日志保存至本地。
5.根据权利要求1或2所述的关键组件的故障告警方法,其特征在于,将所述第一告警信息和所述第一故障解决方案输出的步骤包括:
将所述第一告警信息和所述第一故障解决方案发送至与所述关键组件所在的服务器预先绑定的移动终端;和/或
将所述第一告警信息和所述第一故障解决方案输出至所述大数据管理系统的显示装置进行显示。
6.一种关键组件的故障告警装置,应用于大数据管理系统,其特征在于,包括:
生成模块,用于当大数据管理系统关键组件的主节点故障时,根据主节点和备节点切换后的状态信息生成第一告警信息;
获取模块,用于根据告警信息与故障解决方案的对应关系,获取与所述第一告警信息对应的第一故障解决方案;
输出模块,用于将所述第一告警信息和所述第一故障解决方案输出;
所述生成模块包括:
第一生成单元,用于当所述主节点和所述备节点切换后的状态信息中仅有一个为激活状态时,生成第一级告警信息;
第二生成单元,用于当所述主节点和所述备节点切换后的状态信息均为激活状态或者均不是激活状态时,生成第二级告警信息;其中,所述第二级告警信息的级别高于所述第一级告警信息的级别;
所述第二生成单元包括:
第三生成子单元,用于当所述主节点仍为激活状态,且所述备节点由备用状态切换为激活状态时,生成第二级第一子告警信息;
第四生成子单元,用于当所述主节点由激活状态切换为备用状态,且所述备节点仍为备用状态时,生成第二级第二子告警信息;
第五生成子单元,用于当所述主节点宕机或停运,且所述备节点仍为备用状态时,生成第二级第三子告警信息。
7.根据权利要求6所述的关键组件的故障告警装置,其特征在于,所述获取模块包括:
第一获取单元,用于当所述第一告警信息为第一级告警信息时,获取自动恢复故障的故障解决方案;
第二获取单元,用于当所述第一告警信息为第二级告警信息时,获取需手动恢复故障的故障解决方案。
8.根据权利要求6所述的关键组件的故障告警装置,其特征在于,所述第一生成单元包括:
第一生成子单元,用于当所述主节点由激活状态切换为备用状态,且所述备节点由备用状态切换为激活状态时,生成第一级第一子告警信息;
第二生成子单元,用于当所述主节点宕机或停运,且所述备节点由备用状态切换为激活状态时,生成第一级第二子告警信息。
9.根据权利要求6或7所述的关键组件的故障告警装置,其特征在于,还包括:
存储模块,用于根据所述第一告警信息和所述第一故障解决方案生成一告警日志,并将所述告警日志保存至本地。
10.根据权利要求6或7所述的关键组件的故障告警装置,其特征在于,所述输出模块包括:
第一输出单元,用于将所述第一告警信息和所述第一故障解决方案发送至与所述关键组件所在的服务器预先绑定的移动终端;和/或
第二输出单元,用于将所述第一告警信息和所述第一故障解决方案输出至所述大数据管理系统的显示装置进行显示。
11.一种大数据管理系统,其特征在于,包括如权利要求6~10任一项所述的关键组件的故障告警装置。
CN201510253928.5A 2015-05-19 2015-05-19 一种关键组件的故障告警方法、装置及大数据管理系统 Active CN106301823B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510253928.5A CN106301823B (zh) 2015-05-19 2015-05-19 一种关键组件的故障告警方法、装置及大数据管理系统
PCT/CN2015/089361 WO2016183967A1 (zh) 2015-05-19 2015-09-10 一种关键组件的故障告警方法、装置及大数据管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510253928.5A CN106301823B (zh) 2015-05-19 2015-05-19 一种关键组件的故障告警方法、装置及大数据管理系统

Publications (2)

Publication Number Publication Date
CN106301823A CN106301823A (zh) 2017-01-04
CN106301823B true CN106301823B (zh) 2020-12-18

Family

ID=57319234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510253928.5A Active CN106301823B (zh) 2015-05-19 2015-05-19 一种关键组件的故障告警方法、装置及大数据管理系统

Country Status (2)

Country Link
CN (1) CN106301823B (zh)
WO (1) WO2016183967A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107087021B (zh) * 2017-03-30 2020-10-16 聚好看科技股份有限公司 主从服务器确定方法及装置
CN108733511B (zh) * 2018-03-23 2022-05-24 赵浩茗 一种基于大数据的电子数据处理方法
CN111541753B (zh) * 2020-04-16 2024-02-27 深圳市迅雷网络技术有限公司 区块链数据的分布式存储系统、方法、计算机设备及介质
CN111693803A (zh) * 2020-05-26 2020-09-22 日立楼宇技术(广州)有限公司 高低温湿热试验系统、测试控制方法及故障保护方法
CN111740868B (zh) * 2020-07-07 2023-12-15 腾讯科技(深圳)有限公司 告警数据的处理方法和装置及存储介质
CN111880934A (zh) * 2020-07-29 2020-11-03 北京浪潮数据技术有限公司 一种资源管理方法、装置、设备及可读存储介质
CN113645650B (zh) * 2021-07-09 2024-06-04 三维通信股份有限公司 主备切换的处理方法、系统、电子装置和存储介质
CN113760607A (zh) * 2021-08-31 2021-12-07 云尖信息技术有限公司 一种双bmc主备和数据同步方法
CN115499295A (zh) * 2022-07-29 2022-12-20 浪潮通信技术有限公司 服务器故障上报方法、装置、电子设备及存储介质
CN117792864A (zh) * 2022-09-27 2024-03-29 中兴通讯股份有限公司 一种告警处理方法、装置、存储介质及电子装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101674195A (zh) * 2009-10-13 2010-03-17 中兴通讯股份有限公司 主备倒换信号处理方法和装置
CN101887387A (zh) * 2010-04-07 2010-11-17 山东高效能服务器和存储研究院 一种远程智能监控与分析raid故障的方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008177796A (ja) * 2007-01-17 2008-07-31 Fuji Electric Fa Components & Systems Co Ltd 省配線システム、そのマスタ通信装置、そのプログラム、表示制御方法
CN101662387B (zh) * 2009-10-14 2013-01-23 中国电信股份有限公司 一种检测网络中计算机接入状态的系统及方法
CN101917283B (zh) * 2010-07-22 2011-11-09 北京交大资产经营有限公司 双通道热备系统及实现双通道热备的方法
WO2012106915A1 (zh) * 2011-07-22 2012-08-16 华为技术有限公司 故障通告方法、检测装置、转发装置、系统及数据结构
CN103107904A (zh) * 2011-11-15 2013-05-15 北京南车时代信息技术有限公司 一种ats系统控制中心应用服务器的双机切换方法
CN102752093B (zh) * 2012-06-29 2016-02-10 中国联合网络通信集团有限公司 基于分布式文件系统的数据处理方法、设备和系统
CN102882927B (zh) * 2012-08-29 2016-12-21 华南理工大学 一种云存储数据同步框架及其实现方法
TW201421232A (zh) * 2012-11-19 2014-06-01 Ibm 在一冗餘群組中實施故障備援的方法、裝置與電腦程式產品
CN103532753B (zh) * 2013-10-11 2016-08-17 中国电子科技集团公司第二十八研究所 一种基于内存换页同步的双机热备方法
CN103617231A (zh) * 2013-11-26 2014-03-05 国家电网公司 大数据管理系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101674195A (zh) * 2009-10-13 2010-03-17 中兴通讯股份有限公司 主备倒换信号处理方法和装置
CN101887387A (zh) * 2010-04-07 2010-11-17 山东高效能服务器和存储研究院 一种远程智能监控与分析raid故障的方法

Also Published As

Publication number Publication date
CN106301823A (zh) 2017-01-04
WO2016183967A1 (zh) 2016-11-24

Similar Documents

Publication Publication Date Title
CN106301823B (zh) 一种关键组件的故障告警方法、装置及大数据管理系统
CN107426022B (zh) 安全事件监测方法及装置、电子设备、存储介质
US9219639B2 (en) Automated alert management
US9405914B2 (en) Data analysis system
US9542292B2 (en) Designing operations interface to enhance situational awareness
KR20130069580A (ko) 복잡한 분산 애플리케이션에서의 자동화된 복원 및 에스컬레이션
CN112558997A (zh) 一种部署应用的方法及装置
US20170116091A1 (en) Creation of a Provisioning Environment Based on Probability of Events
CN107682169B (zh) 一种利用Kafka集群发送消息的方法和装置
US20220222266A1 (en) Monitoring and alerting platform for extract, transform, and load jobs
CN109039724A (zh) 日志上传方法和装置
US10331484B2 (en) Distributed data platform resource allocator
US20170192839A1 (en) System for determination and notification of issues in data file transmissions
US9703646B2 (en) Centralized database system
CN117194338A (zh) 分布式日志数据的处理方法、装置、设备及存储介质
CN104506353A (zh) 一种鉴证管理方法、设备及系统
CN108154343B (zh) 一种企业级信息系统的应急处理方法及系统
CN112882892B (zh) 数据处理方法和装置、电子设备及存储介质
US8424019B1 (en) Managing channel instances in a messaging-middleware environment
CN112818204B (zh) 一种业务的处理方法、装置、设备及存储介质
US8464276B1 (en) Channel monitoring in a messaging-middleware environment
CN104346233A (zh) 一种用于计算机系统的故障恢复方法及装置
US9092282B1 (en) Channel optimization in a messaging-middleware environment
CN106487561A (zh) 一种服务器服务更新的方法和系统
CN112463514A (zh) 分布式缓存集群的监测方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant