CN112860504A - 监控方法及装置、计算机存储介质、电子设备 - Google Patents

监控方法及装置、计算机存储介质、电子设备 Download PDF

Info

Publication number
CN112860504A
CN112860504A CN201911175971.9A CN201911175971A CN112860504A CN 112860504 A CN112860504 A CN 112860504A CN 201911175971 A CN201911175971 A CN 201911175971A CN 112860504 A CN112860504 A CN 112860504A
Authority
CN
China
Prior art keywords
monitoring
task
server
updating
node value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911175971.9A
Other languages
English (en)
Inventor
钱晶
邵国卿
王棵
张治清
马轩
姚姝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201911175971.9A priority Critical patent/CN112860504A/zh
Publication of CN112860504A publication Critical patent/CN112860504A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开涉及互联网领域,提供了一种监控方法、装置、计算机可读介质及电子设备,应用于分布式应用程序服务系统,该方法包括:更新所述分布式应用程序服务系统中任一服务器的节点值,根据更新后的节点值与预设节点值确定更新成功次数;根据所述更新成功次数判断所述服务器的工作状态;在所述工作状态为异常状态时,调用报警接口,并通过所述报警接口发送第一提示信息。本公开能够对存在异常的服务器及时发出报警信号,简化了报警流程,节约了系统开销。

Description

监控方法及装置、计算机存储介质、电子设备
技术领域
本公开涉及互联网技术领域,特别涉及一种监控方法、监控装置、计算机可读存储介质及电子设备。
背景技术
随着互联网技术的发展,许多项目都依赖于分布式应用程序服务系统,比如,在通知相关应用修改配置或将配置信息存储在分布式应用程序服务器相关的节点中。
在现有技术中没有系统监控分布式服务系统中服务器的存活,当分布式服务系统集群中的服务器有一半不工作时,可用节点数量不满足要求,集群就无法正确选举出主节点,导致分布式服务系统将无法对外提供服务,依赖系统的应用也就不能正常获取配置。
鉴于此,本领域亟需开发一种新的监控方法及装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种监控方法、监控装置、计算机可读存储介质及电子设备,进而至少在一定程度上解决分布式服务系统出现异常时不能及时通知相关人员处理的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种监控方法,所述监控方法应用于分布式应用程序服务系统,包括:更新所述分布式应用程序服务系统中任一服务器的节点值,根据更新后的节点值与预设节点值确定更新成功次数;根据所述更新成功次数判断所述服务器的工作状态;在所述工作状态为异常状态时,调用报警接口,并通过所述报警接口发送第一提示信息。
在本公开的一些示例性实施例中,根据更新后的节点值与预设节点值确定更新成功次数,包括:判断所述更新后的节点值与所述预设节点值是否相同;在所述更新后的节点值与所述预设节点值相同时,在起始更新成功次数的基础上加一,并对所述起始更新成功次数进行更新。
在本公开的一些示例性实施例中,根据所述更新成功次数判断所述服务器的工作状态,包括:对所述节点值进行更新,比较更新次数与所述更新成功次数;在所述更新次数不等于所述更新成功次数时,判定所述工作状态为所述异常状态;在所述更新次数等于所述更新成功次数时,判定所述工作状态为正常状态。
在本公开的一些示例性实施例中,在根据所述更新成功次数判断所述服务器的工作状态之后,所述方法还包括:当所述工作状态是所述正常状态时,获取所述服务器对应的第一标识,并判断所述第一标识是否存在于目标数据库中,根据判断结果执行第一目标操作;当所述工作状态是所述异常状态时,获取所述第一标识,并判断所述第一标识是否存在于所述目标数据库中,根据判断结果执行第二目标操作;其中,所述目标数据库中存储有所有出现异常状态的服务器的第一标识和出现异常状态时的时间戳。
在本公开的一些示例性实施例中,根据判断结果执行第一目标操作,包括:在所述第一标识存在于所述目标数据库中时,调用所述报警接口,通过所述报警接口发送第二提示信息,并在所述目标数据库中删除所述第一标识。
在本公开的一些示例性实施例中,根据判断结果执行第二目标操作,包括:在所述第一标识存在于所述目标数据库中时,获取所述第一标识对应的时间戳;将所述第一标识对应的时间戳加上时间阈值,与当前时间戳进行比较;根据比较结果,执行第三目标操作。
在本公开的一些示例性实施例中,根据比较结果,执行第三目标操作,包括:在所述第一标识对应的时间戳加上所述时间阈值大于或等于所述当前时间戳时,调用所述报警接口,并通过所述报警接口发送所述第一提示信息。
在本公开的一些示例性实施例中,所述分布式应用程序服务系统中包括多个依次排列的服务器;所述方法还包括:依次对各所述服务器执行如上述实施例中所述的监控方法。
在本公开的一些示例性实施例中,所述方法还包括:布置多个监控任务,并从所述监控任务中确定目标监控任务;通过所述目标监控任务的线程对所述服务器进行监控。
在本公开的一些示例性实施例中,布置多个监控任务,并从所述监控任务中确定目标监控任务,包括:将多个所述监控任务中的任意一个作为第一监控任务,判断所述第一监控任务对应的任务序号是否为最小任务序号;若是,则判定所述第一监控任务为所述目标监控任务;若不是,则监听具有最小任务序号的监控任务,并判断所述具有最小任务序号的监控任务是否发生异常,根据判断结果确定所述目标监控任务。
在本公开的一些示例性实施例中,判断所述具有最小任务序号的监控任务是否发生异常,根据判断结果确定所述目标监控任务,包括:在所述具有最小任务序号的监控任务发生异常时,则重新判断所述第一监控任务对应的任务序号是否是最小任务序号。
根据本公开的一个方面,提供一种监控装置,所述监控装置应用于分布式应用程序服务系统,所述监控装置包括:更新节点模块,用于更新所述分布式应用程序服务系统中任一服务器的节点值,根据更新后的节点值与预设值确定更新成功次数;确定状态模块,用于根据所述更新成功次数判断所述服务器的工作状态;发送提示模块,用于在所述工作状态为异常状态时,调用报警接口,并通过所述报警接口发送第一提示信息。
根据本公开的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的监控方法。
根据本公开的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的监控方法。
由上述技术方案可知,本公开示例性实施例中的监控方法及装置、计算机可读存储介质、电子设备至少具备以下优点和积极效果:
在本发明的一些实施例所提供的技术方案中,通过更新该分布式应用服务系统中任一服务器的节点值,并累计更新成功的次数,根据更新成功的次数判断该服务器的工作状态,在该工作状态为异常状态时,调用报警接口,并通过该报警接口发送第一提示信息。本公开中的监控方法一方面能够通过计算更新成功次数确定分布式应用程序服务系统中服务器的工作状态,能及时发现服务器存在的故障问题,提高了工作效率;另一方面对存在异常的服务器可以及时发出报警信号,简化了报警流程,节约了系统开销。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本发明实施例的监控方法及装置的示例性系统架构的示意图。
图2示意性示出了根据本公开的一实施例的监控方法的流程图;
图3示意性示出了根据本发明的一个实施例的发送报警提示信息的流程示意图;
图4示意性示出了根据本发明的一个实施例的发送正常状态信息的流程示意图;
图5示意性示出了根据本发明的一个实施例的轮询监控方法的流程图;
图6示意性示出了该多个监控任务工作的流程示意图;
图7示意性示出了根据本公开的一实施例的监控装置的框图;
图8示意性示出了根据本公开的一实施例的电子设备的模块示意图;
图9示意性示出了根据本公开的一实施例的程序产品示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本发明实施例的监控方法及装置的示例性系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用于在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
在本发明的一个实施例中,终端设备101、102、103或服务器105可以通过更新该分布式应用服务系统中任一服务器105的节点值,并累计更新成功的次数,根据更新成功的次数判断该服务器105的工作状态,在该工作状态为异常状态时,调用报警接口,并通过该报警接口发送第一提示信息。本公开中的监控方法一方面能够对分布式应用程序服务系统中服务器105的工作状态检测,及时发现服务器存在的故障问题,提高了工作效率;另一方面通过报警接口可以针对存在异常的服务器105及时发出报警信号,简化了报警流程,节约了系统开销。
需要说明的是,本发明实施例所提供的监控方法可以由终端设备101、102、103执行,相应的,监控装置也可以设置于终端设备101、102、103中。本发明实施例所提供的监控方法还可以由服务器105执行,相应的,监控装置可以设置于服务器105中。此外,本发明实施例所提供的监控方法也可以由终端设备101、102、103与服务器105共同执行,相应地,监控装置可以设置于终端设备101、102、103与服务器105中,本示例性实施例中对此不做特殊限定。
以下对本发明实施例的技术方案的实现细节进行详细阐述:
在本领域的相关技术中,在分布式应用程序服务系统集群中的服务器105有一半不工作时,集群就无法正确选择主节点,导致集群无法对外提供服务,依赖集群的应用就不能正常获取配置,或不能正常被通知修改,但在现有技术中,没有一个监控服务器105存活并发出报警的方法。
基于相关技术中存在的问题,在本发明的一个实施例中提出了一种监控方法。图2示意性示出了根据本发明的一个实施例的监控方法的流程图,如图2所示,该监控方法至少包括步骤S210至步骤230,详细介绍如下:
在步骤S210中,更新分布式应用程序服务系统中任一服务器的节点值,根据更新后的节点值与预设节点值确定更新成功次数;
在本发明的一个实施例中,分布式应用程序服务系统可以是zookeeper服务系统,也可以是其它的分布式服务系统,本示例性实施例中对此不做特殊限定。
在本发明的一个实施例中,利用预设节点值对服务器105的节点值进行更新,比较更新后的节点值和预设节点值是否相同,在更新后的节点值与预设节点值相同时,判定服务器105更新成功,并记录更新成功次数。其中,该更新成功次数的起始更新成功次数为零次,在判定服务器105更新成功时,在起始更新成功次数的基础上加一,并对该起始更新成功次数进行更新。
其中,预设节点值可以根据实际需要设定,比如,预设节点值可以为该服务器105标识加上端口值和当前时间的时间戳的总和,将该服务器105节点值更新为该服务器105标识加上端口值和当前时间的时间戳的总和,将更新后的节点值与预设节点值进行比较。当然,该预设节点值还可以是当前时间的时间戳,本示例性实施例中对此不做特殊限定。
在步骤S220中,根据更新成功次数判断服务器的工作状态。
在本发明的一个实施例中,根据更新成功次数判断服务器105的工作状态包括:对服务器105的节点值进行多次更新,比较更新次数与更新成功次数;在更新次数不等于该更新成功次数时,判定该服务器105的工作状态为所述异常状态;在更新次数等于该更新成功次数时,判定该服务器105工作状态为正常状态。
举例而言,对该服务器105的节点值进行首次更新后,判断更新后的节点值与预设节点值是否相同,若更新后的节点值与预设节点值相同,则更新成功,计数器的值为1;再对该服务器105的节点值进行二次更新,若更新后的节点值与预设节点值相同,则更新成功,计数器的值为2,以此类推。若设定更新次数为3时,则在第三次更新完成后,比较计数器的值是否等于3,在计数器的值为3时,判定该服务器105的工作状态为正常状态;在计数器的值小于3时,判定该服务器105的工作状态为异常状态。
另外,可以对服务器105的节点值进行多次更新,也可以对服务器105的节点值进行单次更新,根据单次更新的结果,判断该服务器105的工作状态。具体地,将服务器105的节点值更新为预设节点值,并判断更新后的节点值与预设节点值是否相同。若更新后的节点值与预设节点值相同,则判定服务器105更新成功,该服务器105的工作状态为正常状态;若更新后的节点值与预设节点值不同,则判定服务器105更新失败,该服务器105的工作状态为异常状态。当然,本示例性实施例中对更新次数不做特殊限定。
在步骤S230中,在工作状态为异常状态时,调用报警接口,并通过该报警接口发送第一提示信息。
在本发明的一个实施例中,该第一提示信息可以包括该发生异常状态的服务器105标识和当前时间的时间戳,还可以包括该服务器105产生异常的原因和异常编号,本示例性实施例中对此不做特殊限定。
在本发明的一个实施例中,该第一提示信息的发送形式可以是通过邮箱给相关技术人员发送报警邮件,也可以是向相关技术人员的手机发送报警信息,或者可以是电子信息的形式发送报警信息,本示例性实施例中对此不做特殊限定。
在本发明的一个实施例中,在调用报警接口向相关技术人员发送第一提示信息之后,可以将该出现异常状态的服务器105的第一标识和发生异常状态时的时间戳存储在目标数据库中。其中,该服务器105的第一标识可以包括该服务器105对应的服务器标识和端口值,目标数据库可以是关系型数据库,也可以是其它任何的数据库类型,本示例性实施例中对此不做特殊限定。
在本发明的一个实施例中,在该服务器105的工作状态为异常状态时,为了避免短时间内连续报警,对相关技术人员造成骚扰,图3示意性示出了根据本发明的一个实施例的发送报警提示信息的流程示意图,如图3所示,在步骤S310中,判定该服务器105的工作状态为异常状态;在步骤S320中,获取第一标识,并判断该第一标识是否存在于该目标数据库中;在步骤S330中,若第一标识不存在与该目标数据库中,则调用报警接口,并通过该报警接口发送第一提示信息;在步骤S340中,若第一标识存在于该目标数据库中,则获取该第一标识对应的时间戳;在步骤S350中,将该第一标识对应的时间戳加上时间阈值,与当前时间戳进行比较,判断该第一标识对应的时间戳加上时间阈值是否大于等于该当前时间戳;在步骤S360中,若该第一标识对应的时间戳加上时间阈值大于等于该当前时间戳,则调用报警接口,并通过该报警接口发送所述第一提示信息;在步骤S370中,若该第标识对应的时间戳加上时间阈值小于该当前时间戳,则不调用报警接口。
其中,该时间阈值可以根据实际需要设定,比如,该时间阈值设定为24小时,则在24小时之内若服务器105发生多次异常状态,只在首次检测到服务器105发生异常时调用报警接口,向相关技术人员发送第一提示信息,该时间阈值也可以是12个小时,本示例性实施例中对时间阈值的大小不做特殊限定。本实施例中的监控方法,通过设定报警的时间阈值,在该时间阈值内服务器105发生异常只会报警一次,避免了在短时间内连续报警对相关技术人员造成骚扰,也节约了系统资源的开销。
在本发明的一个实施例中,在发生异常的服务器105恢复正常时,可以通过报警接口向相关技术人员发送该服务器105正常的提示信息,图4示意性示出了根据本发明的一个实施例的发送正常状态提示的流程示意图,如图4所示,在步骤S410中,判定该服务器105的工作状态为正常状态;在步骤420中,获取第一标识,判断该第一标识是否存在于目标数据库中;在步骤S430中,若该第一标识存在于目标数据库中,则调用报警接口,通过该报警接口发送第二提示信息,并在该目标数据库中删除该第一标识。其中,该第二提示信息可以包括该服务器标识和当前时间的时间戳,还可以包括该服务器105正常工作信息,本示例性实施例中对此不做特殊限定。
在本发明的一个实施例中,该分布式应用程序服务系统中包括多个依次排列的服务器105,对多个服务器进行轮询监控,在对分布式应用程序服务系统中的某一服务器105,执行上述实施例中的监控方法后,对该服务器105相邻的下一服务器105也同样执行上述实施例中的监控方法。
具体地,图5示意性示出了根据本发明的一个实施例的轮询监控方法的流程图,在该图5中,分布式应用程序服务系统中包括服务器501、服务器502、服务器503,如图5所示,在步骤S510中,更新服务器501的节点值;在步骤S520中,判断更新后节点值与预设节点值是否相同;在步骤S530中,若更新后的节点值与预设节点值相同,则将更新成功次数加一,若更新后的节点值与预设节点值不同,则更新成功次数不变;在步骤S540中,连续更新多次节点值,判断该更新次数与更新成功次数是否相同;在步骤S550中,若更新次数与更新成功次数不同,则调用报警接口,并通过报警接口发送第一提示信息;若更新次数与更新成功次数相同,跳转至步骤S560;在步骤S560中,对服务器502执行上述步骤S510至步骤S550。,以预设时间间隔遍历分布式应用程序服务系统中的所有服务器,按照该步骤S510至步骤S560的监控方法对所有服务器的工作状态进行监控。其中,该预设时间间隔可以根据实际设定,比如,可以每隔5分钟遍历一次分布式应用程序服务系统中的所有服务器,当然,该预设时间间隔也可以是任何时间段,本示例性实施例中对此不做特殊限定。
在本发明的一个实施例中,在分布式应用程序服务系统中布置多个监控任务,并从该多个监控任务中确定目标监控任务,通过该目标监控任务的线程对服务器105进行监控。具体地,图6示意性示出了该多个监控任务工作的流程示意图,如图6所示,具体包括如下步骤S610至步骤S660,详细介绍如下:
在步骤S610中,布置多个监控任务,在该监控任务启动时,创建与该监控任务对应的任务序号。
在本发明的一个实施例中,该创建的任务序号可以是分布式应用程序服务系统中的与该监控任务对应的临时子节点,比如,在该分布式应用程序服务系统中指定一个父节点,若父节点不存在,先创建父节点,然后再创建与该监控任务对应的一个临时顺序子节点。该任务序号可以与创建该监控任务的时间相关,也可以是创建该监控任务的时间戳,本公开对此不做具体限定。
在步骤S620中,确定第一监控任务,并获取该第一监控任务对应第一任务序号。
在本发明的一个实施例中,在多个监控任务中确定第一监控任务,该第一监控任务可以是该多个监控任务中的任意一个,该第一监控任务的确定可以根据该监控任务创建的时间戳来确定,比如,将时间戳最小的监控任务确定为第一监控任务。当然,该第一监控任务也可以根据该监控任务对应的第一任务序号确定,本公开对此不做具体限定。
在步骤S630中,判断该第一监控任务对应的第一任务序号是否是最小任务序号。
在本发明的一个实施例中,获取该第一任务序号,从该分布式应用程序服务系统对应的所有任务序号中,判断该第一任务序号是否为最小任务序号。
在步骤S640中,若该第一任务序号是最小任务序号,则判定所述第一监控任务为目标监控任务,并通过该目标监控任务的线程对服务器105进行监控。
在本发明的一个实施例中,将具有最小任务序号的第一监控任务确定为目标监控任务,该目标监控任务可以执行上述实施例中的监控方法,该监控方法已在上述实施例中详细说明,在此不做赘述。
在步骤S650中,若该第一监控任务对应的任务序号不是最小任务序号,则监听具有最小任务序号的监控任务。
在步骤S660中,判断该具有最小任务序号的监控任务是否发生异常,在该具有最小任务序号的监控任务发生异常时,则跳转至步骤S630中;在该具有最小任务序号的监控任务未发生异常时,则跳转至步骤S650中。
在本发明的一个实施例中,具有最小任务序号的监控任务为正在执行上述实施例中的监控服务器105存活的监控任务,该具有最小任务序号的监控任务是否发生异常的情况,该异常情况可以是其监控的服务器105不存活,该具有最小任务序号的监控任务也会终止,其所对应的任务序号也将不存在,也可以是该具有最小任务序号的监控任务完成了该监控任务,则该监控任务终止。
在本发明的一个实施例中,若产生异常状态的服务器105经相关技术人员维修,在检测到服务器105可以正常工作之后,则将创建新的监控任务,该新的监控任务也对应新的任务序号,该新的监控任务也会去监听目前最小任务序号所对应的监控任务。
在本发明的一个实施例中,在该具有最小任务序号的监控任务发生异常时,则重新判断该第一监控任务对应的第一任务序号是否是最小任务序号,直到该第一任务序号为最小任务序号时,则将该第一监控任务作为目标监控任务,通过该目标监控任务的线程对服务器105进行监控。
在本发明的一个实施例中,在该具有最小任务序号的监控任务还在正常运行时,则该第一监控任务继续监听该具有最小任务序号的监控任务,直到该具有最小任务序号的监控任务终止,并经过判定该第一任务序号是最小任务序号,此时将该第一监控任务作为目标监控任务,通过该目标监控任务的线程对服务器105进行监控。
以下介绍本公开的装置实施例,可以用于执行本公开上述的监控方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的监控方法的实施例。
图7示意性示出了根据本公开的一个实施例的监控装置的框图。
参照图7所示,根据本公开的一个实施例的监控装置700,监控装置700包括:更新节点模块701、确定状态模块702和发送提示模块703。具体地:
更新节点模块701,用于更新所述分布式应用程序服务系统中任一服务器105的节点值,根据更新后的节点值与预设值确定更新成功次数;
确定状态模块702,用于根据所述更新成功次数,确定所述服务器105的工作状态;
发送提示模块703,用于在所述工作状态为异常状态时,调用报警接口,并通过所述报警接口发送第一提示信息。
上述各监控装置的具体细节已经在对应的监控方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图8来描述根据本发明的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图2中所示的步骤S210,更新所述分布式应用程序服务系统中任一服务器105的节点值,根据更新后的节点值与预设节点值确定更新成功次数;步骤S220,根据所述更新成功次数判断所述服务器105的工作状态;步骤S230,在所述工作状态为异常状态时,调用报警接口,并通过所述报警接口发送第一提示信息。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得观众能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图9所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品900,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (14)

1.一种监控方法,所述监控方法应用于分布式应用程序服务系统,其特征在于,包括:
更新所述分布式应用程序服务系统中任一服务器的节点值,根据更新后的节点值与预设节点值确定更新成功次数;
根据所述更新成功次数判断所述服务器的工作状态;
在所述工作状态为异常状态时,调用报警接口,并通过所述报警接口发送第一提示信息。
2.根据权利要求1所述的监控方法,其特征在于,根据更新后的节点值与预设节点值确定更新成功次数,包括:
判断所述更新后的节点值与所述预设节点值是否相同;
在所述更新后的节点值与所述预设节点值相同时,在起始更新成功次数的基础上加一,并对所述起始更新成功次数进行更新。
3.根据权利要求1所述的监控方法,其特征在于,根据所述更新成功次数判断所述服务器的工作状态,包括:
对所述节点值进行更新,比较更新次数与所述更新成功次数;
在所述更新次数不等于所述更新成功次数时,判定所述工作状态为所述异常状态;
在所述更新次数等于所述更新成功次数时,判定所述工作状态为正常状态。
4.根据权利要求3所述的监控方法,其特征在于,在根据所述更新成功次数判断所述服务器的工作状态之后,所述方法还包括:
当所述工作状态是所述正常状态时,获取所述服务器对应的第一标识,并判断所述第一标识是否存在于目标数据库中,根据判断结果执行第一目标操作;
当所述工作状态是所述异常状态时,获取所述第一标识,并判断所述第一标识是否存在于所述目标数据库中,根据判断结果执行第二目标操作;
其中,所述目标数据库中存储有所有出现异常状态的服务器的第一标识和出现异常状态时的时间戳。
5.根据权利要求4所述的监控方法,其特征在于,根据判断结果执行第一目标操作,包括:
在所述第一标识存在于所述目标数据库中时,调用所述报警接口,通过所述报警接口发送第二提示信息,并在所述目标数据库中删除所述第一标识。
6.根据权利要求5所述的监控方法,其特征在于,根据判断结果执行第二目标操作,包括:
在所述第一标识存在于所述目标数据库中时,获取所述第一标识对应的时间戳;
将所述第一标识对应的时间戳加上时间阈值,与当前时间戳进行比较;
根据比较结果,执行第三目标操作。
7.根据权利要求6所述的监控方法,其特征在于,根据比较结果,执行第三目标操作,包括:
在所述第一标识对应的时间戳加上所述时间阈值大于或等于所述当前时间戳时,调用所述报警接口,并通过所述报警接口发送所述第一提示信息。
8.根据权利要求1所述的监控方法,其特征在于,所述分布式应用程序服务系统中包括多个依次排列的服务器;
所述方法还包括:
依次对各所述服务器执行如权利要求1~7中任一项所述的监控方法。
9.根据权利要求1所述的监控方法,其特征在于,所述方法还包括:
布置多个监控任务,并从所述监控任务中确定目标监控任务;
通过所述目标监控任务的线程对所述服务器进行监控。
10.根据权利要求8所述的监控方法,其特征在于,布置多个监控任务,并从所述监控任务中确定目标监控任务,包括:
将多个所述监控任务中的任意一个作为第一监控任务,判断所述第一监控任务对应的任务序号是否为最小任务序号;
若是,则判定所述第一监控任务为所述目标监控任务;
若不是,则监听具有最小任务序号的监控任务,并判断所述具有最小任务序号的监控任务是否发生异常,根据判断结果确定所述目标监控任务。
11.根据权利要求10所述的监控方法,其特征在于,根据判断结果确定所述目标监控任务,包括:
在所述具有最小任务序号的监控任务发生异常时,则重新判断所述第一监控任务对应的任务序号是否是最小任务序号。
12.一种监控装置,所述监控装置应用于分布式应用程序服务系统,其特征在于,包括:
更新节点模块,用于更新所述分布式应用程序服务系统中任一服务器的节点值,根据更新后的节点值与预设值确定更新成功次数;
确定状态模块,用于根据所述更新成功次数判断所述服务器的工作状态;
发送提示模块,用于在所述工作状态为异常状态时,调用报警接口,并通过所述报警接口发送第一提示信息。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至11中任一项所述的监控方法。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至11中任一项所述的监控方法。
CN201911175971.9A 2019-11-26 2019-11-26 监控方法及装置、计算机存储介质、电子设备 Pending CN112860504A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911175971.9A CN112860504A (zh) 2019-11-26 2019-11-26 监控方法及装置、计算机存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911175971.9A CN112860504A (zh) 2019-11-26 2019-11-26 监控方法及装置、计算机存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN112860504A true CN112860504A (zh) 2021-05-28

Family

ID=75984949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911175971.9A Pending CN112860504A (zh) 2019-11-26 2019-11-26 监控方法及装置、计算机存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN112860504A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113242594A (zh) * 2021-06-16 2021-08-10 Oppo广东移动通信有限公司 天线功率控制方法、天线功率控制装置、存储介质、设备
CN113590424A (zh) * 2021-07-30 2021-11-02 北京京东振世信息技术有限公司 一种故障监控方法、装置、设备及存储介质
CN114666389A (zh) * 2022-03-14 2022-06-24 京东科技信息技术有限公司 分布式系统中节点状态的检测方法、装置及计算机设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101854373A (zh) * 2009-04-01 2010-10-06 华为技术有限公司 任务切换方法、服务器节点及集群系统
CN104156297A (zh) * 2014-08-07 2014-11-19 浪潮(北京)电子信息产业有限公司 告警方法和装置
CN104168140A (zh) * 2014-08-14 2014-11-26 杭州华三通信技术有限公司 Vtep异常情况处理方法及装置
WO2015024336A1 (zh) * 2013-08-20 2015-02-26 京东方科技集团股份有限公司 设备故障报警方法,装置与cim系统
CN104967537A (zh) * 2015-06-30 2015-10-07 北京奇艺世纪科技有限公司 一种报警信息推送方法及装置
CN106992900A (zh) * 2016-01-20 2017-07-28 北京国双科技有限公司 监控预警的方法及智能预警通知平台
CN109660380A (zh) * 2018-09-28 2019-04-19 深圳壹账通智能科技有限公司 服务器运行状态的监控方法、平台、系统及可读存储介质
CN109739727A (zh) * 2019-01-03 2019-05-10 优信拍(北京)信息科技有限公司 微服务架构中的服务监控方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101854373A (zh) * 2009-04-01 2010-10-06 华为技术有限公司 任务切换方法、服务器节点及集群系统
WO2015024336A1 (zh) * 2013-08-20 2015-02-26 京东方科技集团股份有限公司 设备故障报警方法,装置与cim系统
CN104156297A (zh) * 2014-08-07 2014-11-19 浪潮(北京)电子信息产业有限公司 告警方法和装置
CN104168140A (zh) * 2014-08-14 2014-11-26 杭州华三通信技术有限公司 Vtep异常情况处理方法及装置
CN104967537A (zh) * 2015-06-30 2015-10-07 北京奇艺世纪科技有限公司 一种报警信息推送方法及装置
CN106992900A (zh) * 2016-01-20 2017-07-28 北京国双科技有限公司 监控预警的方法及智能预警通知平台
CN109660380A (zh) * 2018-09-28 2019-04-19 深圳壹账通智能科技有限公司 服务器运行状态的监控方法、平台、系统及可读存储介质
CN109739727A (zh) * 2019-01-03 2019-05-10 优信拍(北京)信息科技有限公司 微服务架构中的服务监控方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113242594A (zh) * 2021-06-16 2021-08-10 Oppo广东移动通信有限公司 天线功率控制方法、天线功率控制装置、存储介质、设备
CN113590424A (zh) * 2021-07-30 2021-11-02 北京京东振世信息技术有限公司 一种故障监控方法、装置、设备及存储介质
CN113590424B (zh) * 2021-07-30 2024-05-17 北京京东振世信息技术有限公司 一种故障监控方法、装置、设备及存储介质
CN114666389A (zh) * 2022-03-14 2022-06-24 京东科技信息技术有限公司 分布式系统中节点状态的检测方法、装置及计算机设备
CN114666389B (zh) * 2022-03-14 2024-05-17 京东科技信息技术有限公司 分布式系统中节点状态的检测方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
US8868984B2 (en) Relevant alert delivery in a distributed processing system with event listeners and alert listeners
US20120330918A1 (en) Flexible event data content management for relevant event and alert analysis within a distributed processing system
US20120144021A1 (en) Administering Event Reporting Rules In A Distributed Processing System
US20120304013A1 (en) Administering Event Pools For Relevant Event Analysis In A Distributed Processing System
CN112860504A (zh) 监控方法及装置、计算机存储介质、电子设备
CN110532322B (zh) 运维交互方法、系统、计算机可读存储介质及设备
US20150074164A1 (en) Event and alert analysis in a distributed processing system
CN113923397B (zh) 会议室设备的状态检测方法、装置、电子设备和存储介质
CN111130944B (zh) 系统监控方法及系统
CN109873861B (zh) 跨区块链节点的交互方法及装置、存储介质及电子设备
CN109299124B (zh) 用于更新模型的方法和装置
CN110727563A (zh) 预设客户的云服务报警方法及装置
US11734057B2 (en) Method and apparatus for processing a service of an abnormal server
CN113835961B (zh) 告警信息监控方法、装置、服务器及存储介质
CN111290873B (zh) 故障处理方法和装置
CN112783730B (zh) 一种接口的监测方法、装置、介质及电子设备
CN114928603A (zh) 客户端软件的升级方法、装置、电子设备和介质
CN110213667B (zh) 在线视频交互的网络保障方法、系统、设备及存储介质
CN113656239A (zh) 针对中间件的监控方法、装置及计算机程序产品
CN108874625B (zh) 信息处理方法及装置、电子设备、存储介质
CN110888770B (zh) 用于发送信息的方法和装置
CN113821232A (zh) 模型更新方法和装置
CN112463514A (zh) 分布式缓存集群的监测方法和装置
CN109766238A (zh) 基于session数的运维平台性能监控方法、装置及相关设备
CN113765730A (zh) 数据链路网络的监测方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination