CN105975384A - 分布式进程的监控方法和装置 - Google Patents

分布式进程的监控方法和装置 Download PDF

Info

Publication number
CN105975384A
CN105975384A CN201610274603.XA CN201610274603A CN105975384A CN 105975384 A CN105975384 A CN 105975384A CN 201610274603 A CN201610274603 A CN 201610274603A CN 105975384 A CN105975384 A CN 105975384A
Authority
CN
China
Prior art keywords
monitored
monitoring
operation information
monitoring process
flag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610274603.XA
Other languages
English (en)
Other versions
CN105975384B (zh
Inventor
张旭华
刘硕
陈志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201610274603.XA priority Critical patent/CN105975384B/zh
Publication of CN105975384A publication Critical patent/CN105975384A/zh
Application granted granted Critical
Publication of CN105975384B publication Critical patent/CN105975384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提出一种分布式进程的监控方法和装置,该分布式进程的监控方法包括在监控进程重启后,向第三方管理设备发送请求消息,其中,请求消息包括监控进程标识位和机器标识位;接收第三方管理设备发送的根据监控进程标识位和机器标识位获取到的被监控进程运行信息,并获取被监控进程运行信息所属的被监控进程;对被监控进程进行监控。通过本公开能够在监控程序重启后不间断对被监控进程的监控过程,有效提升分布式环境下多个机器进程的使用效率。

Description

分布式进程的监控方法和装置
技术领域
本公开涉及计算机技术领域,尤其涉及一种分布式进程的监控方法和装置。
背景技术
在部署分布式服务时,需要使用监控进程对相关的服务(分布式服务)进行监控,对分布式服务的进程进行自动拉起,监测等。例如,监控进程监控软件或进程的运行状态,并在特定的条件下杀死或重启进程。监控进程可以通过god,或者supervisor等监控进程工具启动和配置。
相关技术中,在监控进程重启后,需要重启该监控进程所监控的进程,以重新建立监控关系,这种方式下,间断了进程的监控过程,在分布式环境下多个机器进程的使用效率不高。
发明内容
为克服相关技术中存在的问题,本公开实施例提供了一种分布式进程的监控方法和装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种分布式进程的监控方法,该方法包括:
在监控进程重启后,向第三方管理设备发送请求消息,其中,所述请求消息包括监控进程标识位和机器标识位,所述监控进程标识位用于区分不同的监控进程,所述机器标识位用于区分不同的所述监控进程所在的机器;
接收所述第三方管理设备发送的根据所述监控进程标识位和所述机器标识位获取到的被监控进程运行信息,并获取所述被监控进程运行信息所属的被监控进程;
对所述被监控进程进行监控。
如上所述的方法,在所述在监控进程重启后,向第三方管理设备发送请求消息之前,还包括:
在每次启动所述被监控进程时,获取所述被监控进程运行信息,并将所述被监控进程运行信息存储在环境变量中;
将所述被监控进程运行信息上传至所述第三方管理设备,以在所述第三方管理设备备份所述被监控进程运行信息。
如上所述的方法,还包括:
实时获取所述被监控进程运行信息,并将所述被监控进程运行信息上传至所述第三方管理设备,以在所述第三方管理设备对所述被监控进程运行信息进行更新。
如上所述的方法,所述运行信息包括所述监控进程标识位、所述监控进程所在机器的机器标识位,以及所述被监控进程的进程号,其中,所述被监控进程的进程号用于区分不同的所述被监控进程。
根据本公开实施例的第二方面,提供一种分布式进程的监控方法,该方法包括:
获取监控进程发送的请求消息,其中,所述请求消息包括监控进程标识位和机器标识位,所述监控进程标识位用于区分不同的监控进程,所述机器标识位用于区分不同的所述监控进程所在的机器;
根据所述请求消息中的所述监控进程标识位和所述机器标识位获取被监控进程运行信息,并将所述被监控进程运行信息发送至所述监控进程,所述被监控进程运行信息用于获取被监控进程。
如上所述的方法,还包括:
在每次所述被监控进程启动时,接收所述监控进程上传的所述被监控进程运行信息,以备份所述被监控进程运行信息。
如上所述的方法,所述运行信息包括所述监控进程标识位、所述监控进程所在机器的机器标识位,以及所述被监控进程的进程号,其中,所述被监控进程的进程号用于区分不同的所述被监控进程。
根据本公开实施例的第三方面,提供一种分布式进程的监控装置,该装置包括:
发送模块,被配置为在监控进程重启后,向第三方管理设备发送请求消息,其中,所述请求消息包括监控进程标识位和机器标识位,所述监控进程标识位用于区分不同的监控进程,所述机器标识位用于区分不同的所述监控进程所在的机器;
第一接收模块,被配置为接收所述第三方管理设备发送的根据所述监控进程标识位获取到的被监控进程运行信息,并获取所述被监控进程运行信息所属的被监控进程;
监控模块,被配置为对所述被监控进程进行监控。
如上所述的装置,还包括:
第一获取模块,被配置为在每次启动所述被监控进程时,获取所述被监控进程运行信息,并将所述被监控进程运行信息存储在环境变量中;
上传模块,被配置为将所述被监控进程运行信息上传至所述第三方管理设备,以在所述第三方管理设备备份所述进程运行信息。
如上所述的装置,还包括:
第二获取模块,被配置为实时获取被监控进程运行信息,并将所述被监控进程运行信息上传至所述第三方管理设备,以在所述第三方管理设备对所述被监控进程运行信息进行更新。
如上所述的装置,所述运行信息包括所述监控进程标识位、所述监控进程所在机器的机器标识位,以及所述被监控进程的进程号,其中,所述被监控进程的进程号用于区分不同的所述被监控进程。
根据本公开实施例的第四方面,提供一种分布式进程的监控装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在监控进程重启后,向第三方管理设备发送请求消息,其中,所述请求消息包括监控进程标识位和机器标识位,所述监控进程标识位用于区分不同的监控进程,所述机器标识位用于区分不同的所述监控进程所在的机器;
接收所述第三方管理设备发送的根据所述监控进程标识位和所述机器标识位获取到的被监控进程运行信息,并获取所述被监控进程运行信息所属的被监控进程;
对所述被监控进程进行监控。
根据本公开实施例的第五方面,提供一种分布式进程的监控装置,该装置包括:
第三获取模块,被配置为获取监控进程发送的请求消息,其中,所述请求消息包括监控进程标识位和机器标识位,所述监控进程标识位用于区分不同的监控进程,所述机器标识位用于区分不同的所述监控进程所在的机器;
第四获取模块,被配置为根据所述请求消息中的所述监控进程标识位和所述机器标识位获取被监控进程运行信息,并将所述被监控进程运行信息发送至所述监控进程,所述被监控进程运行信息用于获取被监控进程。
如上所述的装置,还包括:
第二接收模块,被配置为在每次所述被监控进程启动时,接收所述监控进程上传的所述被监控进程运行信息,以备份所述被监控进程运行信息。
如上所述的装置,所述运行信息包括所述监控进程标识位、所述监控进程所在机器的机器标识位,以及所述被监控进程的进程号,其中,所述被监控进程的进程号用于区分不同的所述被监控进程。
根据本公开实施例的第六方面,提供一种分布式进程的监控装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取监控进程发送的请求消息,其中,所述请求消息包括监控进程标识位和机器标识位,所述监控进程标识位用于区分不同的监控进程,所述机器标识位用于区分不同的所述监控进程所在的机器;
根据所述请求消息中的所述监控进程标识位和所述机器标识位获取被监控进程运行信息,并将所述被监控进程运行信息发送至所述监控进程,所述被监控进程运行信息用于获取被监控进程。
本公开实施例提供的技术方案可以包括以下有益效果:
通过在监控进程重启后,接收第三方管理设备发送的根据监控进程标识位和机器标识位获取到的被监控进程运行信息,并获取被监控进程运行信息所属的被监控进程,以对被监控进程进行监控,能够在监控程序重启后不间断对被监控进程的监控过程,有效提升分布式环境下多个机器进程的使用效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起被配置为解释本公开的原理。
图1是根据一示例性实施例示出的一种分布式进程的监控方法的流程图。
图2是本公开实施例中分布式进程的监控装置的结构示意图。
图3是根据另一示例性实施例示出的一种分布式进程的监控方法的流程图。
图4是根据另一示例性实施例示出的一种分布式进程的监控方法的流程图。
图5是根据另一示例性实施例示出的一种分布式进程的监控方法的流程图。
图6是根据另一示例性实施例示出的一种分布式进程的监控方法的流程图。
图7是根据一示例性实施例示出的一种分布式进程的监控装置的框图。
图8是根据另一示例性实施例示出的一种分布式进程的监控装置的框图。
图9是根据另一示例性实施例示出的一种分布式进程的监控装置的框图。
图10是根据另一示例性实施例示出的一种分布式进程的监控装置的框图。
图11是根据另一示例性实施例示出的一种分布式进程的监控装置的框图。
图12是根据另一示例性实施例示出的一种分布式进程的监控装置的框图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种分布式进程的监控方法的流程图。本实施例以该分布式进程的监控方法被配置为分布式进程的监控装置中来举例说明。其中,该分布式进程的监控装置可以例如设置在服务器中,本公开实施例对此不作限制。
参见图1,该方法包括:
S11:在监控进程重启后,向第三方管理设备发送请求消息,其中,请求消息包括监控进程标识位和机器标识位,监控进程标识位用于区分不同的监控进程,机器标识位用于区分不同的监控进程所在的机器。
本实施例的执行主体可以为监控进程。
其中,监控进程可以用于监控软件或被监控进程的运行状态,其中,被监控进程可以例如为分布式服务中的服务进程,监控进程可以在特定的条件下杀死或重启被监控进程。监控进程可以通过god,或者supervisor等监控进程工具启动和配置。
例如,监控进程在监控一个被监控进程A时,当该被监控进程A因意外错误退出或失去响应时,监控进程可以重新启动被监控进程A,或者,监控进程在监控一个被监控进程B时,当该被监控进程B耗费的中央处理器(CentralProcessing Unit,CPU)或内存超过特定值时,监控进程可以杀死或重新启动被监控进程B。
一些实施例中,第三方管理设备可以例如为管理程序,该管理程序可以运行在分布式云服务器中。
可选地,在监控进程重启后,监控进程可以向管理程序发送请求消息,管理程序可以获取监控进程发送的请求消息,以获取与请求消息中的监控进程标识位对应的被监控进程运行信息,并将被监控进程运行信息发送至监控进程。
参见图2,图2是本公开实施例中分布式进程的监控装置的结构示意图,可以理解的是,监控进程的个数可以为一个或者多个,在分布式服务环境下,一个或者多个的监控进程可以分布在一个或者多个机器上,并且,每个监控进程可以管理一个或者多个的被监控进程(例如,服务进程)。
在本公开的实施例中,请求消息包括监控进程标识位和机器标识位。。
其中,监控进程标识位用于区分不同的监控进程,机器标识位用于区分不同的机器。
S12:接收第三方管理设备发送的根据监控进程标识位和机器标识位获取到的被监控进程运行信息,并获取被监控进程运行信息所属的被监控进程。
可选地,管理程序在获取监控进程发送的请求消息后,可以在数据库中读取与请求消息中的监控进程标识位和机器标识位对应的被监控进程运行信息,并将被监控进程运行信息发送至监控进程。
在本公开的实施例中,运行信息包括监控进程标识位、监控进程所在机器的机器标识位、被监控进程的进程号,监控进程标识位用于区分不同的监控进程,机器标识位用于区分不同的监控进程所在的机器,被监控进程的进程号用于区分不同的被监控进程。
可选地,运行信息还可以包括监控时间戳,监控时间戳用于记录启动监控的时间节点。
在linux操作系统中,被监控进程包括环境变量,其中,环境变量为被监控进程中的存储介质。相关技术中,环境变量用于存储操作系统中的各类进程所将使用到的信息。而在本公开的实施例中,在每个被监控进程启动后,可以将被监控进程运行信息,存在被监控进程自身的环境变量中,被监控进程的环境变量为被监控进程在启动后可编辑的进程属性。环境变量可以用于唯一标记该被监控进程。在该被监控进程启动后并正常被监控的过程中(即被监控过程未被中断),环境变量保持不变,在被监控进程的监控过程中断,重新启动被监控过程,可以重新采集被监控进程运行信息,将重新采集后的被监控进程运行信息存在被监控进程自身的环境变量中,环境变量中的监控时间戳为再一次启动监控的时间节点,即,在被监控过程中断,再一次启动后,环境变量中的监控时间戳产生变化。
以运行在机器1上的监控进程1,被监控进程1、被监控进程2,以及被监控进程3为例,其中,机器标志位为1,监控进程标志位为1,被监控进程的进程号为1、2,以及3,监控时间戳例如为12:00am,可以理解的是,在将被监控进程运行信息存储在环境变量时,可以将监控进程标识位、机器标识位、被监控进程的进程号,以及监控时间戳对应存储。例如,第一种对应关系:监控进程标识位1、机器标识位1、被监控进程1,以及12:00am对应;第二种对应关系:监控进程标识位1、机器标识位1、被监控进程2,以及12:00am对应;第三种对应关系:监控进程标识位1、机器标识位1、被监控进程3,以及12:00am对应。第一种对应关系表示运行在机器1上的监控进程1在12:00am监控被监控进程1;第二种对应关系表示运行在机器1上的监控进程1在12:00am监控被监控进程2;第三种对应关系表示运行在机器1上的监控进程1在12:00am监控被监控进程3。其它的监控进程标识位、机器标识位、被监控进程的进程号,以及监控时间戳的对应关系可以依次类推。
可选地,本公开实施例是在监控进程重启后执行的,监控进程重启之前,可以获取被监控进程运行信息,并将被监控进程运行信息存储在环境变量中,以及将被监控进程运行信息备份在管理程序中,即将监控进程标识位、机器标识位、被监控进程的进程号,以及监控时间戳对应存储在环境变量和管理程序中。在监控进程重启后,管理程序根据请求消息中的监控进程标识位和机器标识位,以及预存的对应关系,获取对应的被监控进程运行信息,并将被监控进程运行信息发送至监控进程,以使监控进程不间断对被监控进程进行监控。例如,在监控进程重启之前,对应关系为运行在机器1上的监控进程1在12:00am监控被监控进程1,且请求消息包含监控进程标识位1和机器标识位1,则管理程序获取到与请求消息对应的被监控进程运行信息,并获取该被监控进程运行信息所属的被监控进程,即该被监控进程运行信息所属的被监控进程为被监控进程1。
S13:对被监控进程进行监控。
例如,可以触发对S12中获取到的被监控进程1进行监控,以不间断运行在机器1上的监控进程1对被监控进程1的监控过程。
本公开的实施例中,通过在监控进程重启之前,将被监控进程运行信息存储在被监控进程的环境变量中,环境变量可以用于唯一标记该被监控进程,各个被监控进程能够利用自身环境变量来对被监控进程运行信息进行缓存,不间断被监控进程的监控过程。以及将被监控进程运行信息备份在第三方管理设备,实现在监控进程重启后,监控进程从第三方管理设备获取在监控进程重启之前监控的被监控进程,以对被监控进程进行监控。
本实施例中,通过在监控进程重启后,接收第三方管理设备发送的根据监控进程标识位和机器标识位获取到的被监控进程运行信息,并获取被监控进程运行信息所属的被监控进程,以对被监控进程进行监控,能够在监控程序重启后不间断对被监控进程的监控过程,有效提升分布式环境下多个机器进程的使用效率。
图3是根据另一示例性实施例示出的一种分布式进程的监控方法的流程图。本实施例以该分布式进程的监控方法被配置为分布式进程的监控装置中来举例说明。
参见图3,在图1所示实施例S11之前,该方法还包括:
S31:在每次启动被监控进程时,获取被监控进程运行信息,并将被监控进程运行信息存储在环境变量中。
在linux操作系统中,被监控进程包括环境变量。
在本公开的实施例中,在每个被监控进程启动后,可以将被监控进程运行信息,存在被监控进程自身的环境变量中,被监控进程的环境变量为被监控进程在启动后可编辑的进程属性。环境变量可以用于唯一标记该被监控进程。在该被监控进程启动后并正常被监控的过程中(即被监控过程未被中断),环境变量保持不变,在被监控进程的监控过程中断,重新启动被监控过程,可以重新采集被监控进程运行信息,将重新采集后的被监控进程运行信息存在被监控进程自身的环境变量中,环境变量中的监控时间戳为再一次启动监控的时间节点,即,在被监控过程中断,再一次启动后,环境变量中的监控时间戳产生变化。
S32:将被监控进程运行信息上传至第三方管理设备,以在第三方管理设备备份被监控进程运行信息。
可以理解的是,本实施例是在监控进程重启之前执行的,可以获取被监控进程运行信息,并将被监控进程运行信息上传至第三方管理设备,即将监控进程标识位、机器标识位、被监控进程的进程号,以及监控时间戳对应存储在第三方管理设备中,以使在监控进程重启后,第三方管理设备可以根据请求消息中的监控进程标识位和机器标识位,以及预存的对应关系,获取对应的被监控进程运行信息。
本实施例中,通过在每次启动被监控进程时,将被监控进程运行信息存储在环境变量中,以及将被监控进程运行信息备份至第三方管理设备,以使在监控进程重启后,第三方管理设备可以根据请求消息获取对应的被监控进程运行信息,各个被监控进程能够通过自身环境变量来对被监控进程运行信息进行缓存,监控方法多样化。并且,能够在监控程序重启后不间断被监控进程的监控过程,有效提升分布式环境下多个机器进程的使用效率。
图4是根据另一示例性实施例示出的一种分布式进程的监控方法的流程图。本实施例以该分布式进程的监控方法被配置为分布式进程的监控装置中来举例说明。
参见图4,在图1所示实施例S13后,该方法还包括:
S41:实时获取被监控进程运行信息,并将被监控进程运行信息上传至第三方管理设备,以在第三方管理设备对被监控进程运行信息进行更新。
可以理解的是,本实施例是在监控进程重启之后执行的。
在监控进程第一次重启并恢复与被监控进程的监控关系后,可以实时获取被监控进程的运行信息,并将被监控进程运行信息上传至第三方管理设备,以使监控进程在每一次重启后能够持续恢复与被监控进程的监控关系。进一步,可选地,也可以根据实时获取到的被监控进程运行信息对存储在环境变量中的被监控进程运行信息进行更新。
本实施例中,通过实时获取被监控进程运行信息,并将被监控进程运行信息上传至第三方管理设备,以在第三方管理设备对被监控进程运行信息进行更新,能够在监控程序每一次重启后均不间断被监控进程的监控过程,有效提升分布式环境下多个机器进程的使用效率。
图5是根据另一示例性实施例示出的一种分布式进程的监控方法的流程图。本实施例以该分布式进程的监控方法被配置为分布式进程的监控装置中来举例说明。其中,该分布式进程的监控装置可以例如设置在服务器中,本公开实施例对此不作限制。
参见图5,该方法包括:
S51:获取监控进程发送的请求消息,其中,请求消息包括监控进程标识位和机器标识位,监控进程标识位用于区分不同的监控进程,机器标识位用于区分不同的监控进程所在的机器。
本实施例的执行主体可以为第三方管理设备,第三方管理设备可以例如为管理程序,该管理程序可以运行在分布式云服务器中。
其中,监控进程可以用于监控软件或被监控进程的运行状态,并在特定的条件下杀死或重启被监控进程。监控进程可以通过god,或者supervisor等监控进程工具启动和配置。
例如,监控进程在监控一个被监控进程A时,当该被监控进程A因意外错误退出或失去响应时,监控进程可以重新启动被监控进程A,或者,监控进程在监控一个被监控进程B时,当该被监控进程B耗费的中央处理器(CentralProcessing Unit,CPU)或内存超过特定值时,监控进程可以杀死或重新启动被监控进程B。
可选地,请求消息用于获取被监控进程运行信息,其中,被监控进程为在监控进程重启之前被监控的进程。
可选地,在监控进程重启后,监控进程可以向管理程序发送请求消息,管理程序可以获取监控进程发送的请求消息,以获取与请求消息中的监控进程标识位和机器标识位对应的被监控进程运行信息,并将被监控进程运行信息发送至监控进程。
一些实施例中,请求消息可以包括监控进程标识位和机器标识位。其中,监控进程标识位用于区分不同的监控进程,机器标识位用于区分不同的监控进程所在的机器。
S52:根据请求消息中的监控进程标识位和机器标识位获取被监控进程运行信息,并将被监控进程运行信息发送至监控进程,被监控进程运行信息用于获取被监控进程。
可选地,管理程序在获取监控进程发送的请求消息后,可以在数据库中读取与请求消息中的监控进程标识位和机器标识位对应的被监控进程运行信息,并将被监控进程运行信息发送至监控进程。
在本公开的实施例中,运行信息包括监控进程标识位、监控进程所在机器的机器标识位、被监控进程的进程号,被监控进程的进程号用于区分不同的被监控进程。
可选地,运行信息还可以包括监控时间戳,监控时间戳用于记录启动监控的时间节点。
本实施例中,通过根据监控进程发送的请求消息中的监控进程标识位和机器标识位获取被监控进程运行信息,并将被监控进程运行信息发送至监控进程,在监控程序重启后不间断对被监控进程的监控过程,有效提升分布式环境下多个机器进程的使用效率。
图6是根据另一示例性实施例示出的一种分布式进程的监控方法的流程图。本实施例以该分布式进程的监控方法被配置为分布式进程的监控装置中来举例说明。
参见图6,在图5所示实施例中S52后,该方法还包括:
S61:在每次被监控进程启动时,接收监控进程上传的被监控进程运行信息,以备份被监控进程运行信息。
可以理解的是,本实施例是在监控进程重启之前执行的,第三方管理设备可以接收监控进程上传的被监控进程运行信息,即接收监控进程标识位、机器标识位、被监控进程的进程号,以及监控时间戳,并对被监控进程运行信息对应存储。在监控进程重启后,第三方管理设备可以根据请求消息中的监控进程标识位和机器标识位,以及预存的被监控进程运行信息,获取与监控进程标志位对应的被监控进程运行信息。
本实施例中,在监控进程重启后,能够使第三方管理设备根据请求消息中的监控进程标识位和机器标识位,以及预存的被监控进程运行信息,获取与监控进程标志位对应的被监控进程运行信息,监控方法多样化。并且,能够在监控程序重启后不间断被监控进程的监控过程,有效提升分布式环境下多个机器进程的使用效率。
图7是根据一示例性实施例示出的一种分布式进程的监控装置的框图。该分布式进程的监控装置70可以通过软件、硬件或者两者的结合实现。
参见图7,该分布式进程的监控装置70包括:发送模块701、第一接收模块702,以及监控模块703。其中,
发送模块701,被配置为在监控进程重启后,向第三方管理设备发送请求消息,其中,请求消息包括监控进程标识位和机器标识位,监控进程标识位用于区分不同的监控进程,机器标识位用于区分不同的监控进程所在的机器。
第一接收模块702,被配置为接收第三方管理设备发送的根据监控进程标识位和机器标识位获取到的被监控进程运行信息,并获取被监控进程运行信息所属的被监控进程作为被监控进程。
监控模块703,被配置为对被监控进程进行监控。
一些实施例中,参见图8,该分布式进程的监控装置70还包括:
第一获取模块704,被配置为在每次启动被监控进程时,获取被监控进程运行信息,并将被监控进程运行信息存储在环境变量中。
在本公开的实施例中,运行信息包括监控进程标识位、监控进程所在机器的机器标识位、被监控进程的进程号,其中,被监控进程的进程号用于区分不同的被监控进程。
上传模块705,被配置为将被监控进程运行信息上传至第三方管理设备,以在第三方管理设备备份进程运行信息。
第二获取模块706,被配置为实时获取被监控进程运行信息,并将被监控进程运行信息上传至第三方管理设备,以在第三方管理设备对被监控进程运行信息进行更新。
需要说明的是,前述图1-图4实施例中对分布式进程的监控方法实施例的解释说明也适用于该实施例的分布式进程的监控装置70,其实现原理类似,此处不再赘述。
本实施例中,通过在监控进程重启后,接收第三方管理设备发送的根据监控进程标识位和机器标识位获取到的被监控进程运行信息,并获取被监控进程运行信息所属的被监控进程,以对被监控进程进行监控,能够在监控程序重启后不间断对被监控进程的监控过程,有效提升分布式环境下多个机器进程的使用效率。
图9是根据另一示例性实施例示出的一种分布式进程的监控装置的框图。该分布式进程的监控装置90可以通过软件、硬件或者两者的结合实现。
参见图9,该分布式进程的监控装置90包括:
第三获取模块901,被配置为获取监控进程发送的请求消息,其中,请求消息包括监控进程标识位和机器标识位,监控进程标识位用于区分不同的监控进程,机器标识位用于区分不同的监控进程所在的机器。
第四获取模块902,被配置为根据请求消息中的监控进程标识位和机器标识位获取被监控进程运行信息,并将被监控进程运行信息发送至监控进程,和机器标识位
在本公开的实施例中,运行信息包括监控进程标识位、监控进程所在机器的机器标识位、被监控进程的进程号,其中,被监控进程的进程号用于区分不同的被监控进程
在本公开的实施例中,运行信息还可以包括监控时间戳,监控时间戳用于记录时间。
一些实施例中,参见图10,该分布式进程的监控装置90还包括:
第二接收模块903,被配置为在每次被监控进程启动时,接收监控进程上传的被监控进程运行信息,以备份被监控进程运行信息。
需要说明的是,前述图5-图6实施例中对分布式进程的监控方法实施例的解释说明也适用于该实施例的分布式进程的监控装置90,其实现原理类似,此处不再赘述。
本实施例中,通过根据监控进程发送的请求消息中的监控进程标识位和机器标识位获取被监控进程运行信息,并将被监控进程运行信息发送至监控进程,在监控程序重启后不间断对被监控进程的监控过程,有效提升分布式环境下多个机器进程的使用效率。
图11是根据另一示例性实施例示出的一种分布式进程的监控装置1100的框图。例如,装置1100可以被提供为一服务器。参照图11,装置1100包括处理组件1122,其进一步包括一个或多个处理器,以及由存储器1132所代表的存储器资源,用于存储可由处理组件1122的执行的指令,例如应用程序。存储器1132中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1122被配置为执行指令,以执行上述分布式进程的监控方法:
在监控进程重启后,向第三方管理设备发送请求消息,其中,请求消息包括监控进程标识位和机器标识位,监控进程标识位用于区分不同的监控进程,机器标识位用于区分不同的监控进程所在的机器;
接收第三方管理设备发送的根据监控进程标识位和机器标识位获取到的被监控进程运行信息,并获取被监控进程运行信息所属的被监控进程;
对被监控进程进行监控。
装置1100还可以包括一个电源组件1126被配置为执行装置1100的电源管理,一个有线或无线网络接口1150被配置为将装置1100连接到网络,和一个输入输出(I/O)接口1158。装置1100可以操作基于存储在存储器1132的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
图12是根据另一示例性实施例示出的一种分布式进程的监控装置1200的框图。例如,装置1200可以被提供为一服务器。参照图12,装置1200包括处理组件1222,其进一步包括一个或多个处理器,以及由存储器1232所代表的存储器资源,用于存储可由处理组件1222的执行的指令,例如应用程序。存储器1232中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1222被配置为执行指令,以执行上述分布式进程的监控方法:
获取监控进程发送的请求消息,其中,请求消息包括监控进程标识位和机器标识位,监控进程标识位用于区分不同的监控进程,机器标识位用于区分不同的监控进程所在的机器;
根据请求消息中的监控进程标识位和机器标识位获取被监控进程运行信息,并将被监控进程运行信息发送至监控进程,被监控进程运行信息用于获取被监控进程。
装置1200还可以包括一个电源组件1226被配置为执行装置1200的电源管理,一个有线或无线网络接口1250被配置为将装置1200连接到网络,和一个输入输出(I/O)接口1258。装置1200可以操作基于存储在存储器1232的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当存储介质中的指令由服务器的处理器执行时,使得服务器能够执行一种分布式进程的监控方法,方法包括:
在监控进程重启后,向第三方管理设备发送请求消息,其中,请求消息包括监控进程标识位和机器标识位,监控进程标识位用于区分不同的监控进程,机器标识位用于区分不同的监控进程所在的机器;
接收第三方管理设备发送的根据监控进程标识位和机器标识位获取到的被监控进程运行信息,并获取被监控进程运行信息所属的被监控进程;
对被监控进程进行监控。
需要说明的是,前述对分布式进程的监控方法实施例的解释说明也适用于该实施例的服务器的分布式进程的监控装置,其实现原理类似,此处不再赘述。
一种非临时性计算机可读存储介质,当存储介质中的指令由服务器的处理器执行时,使得服务器能够执行一种分布式进程的监控方法,方法包括:
获取监控进程发送的请求消息,其中,请求消息包括监控进程标识位和机器标识位,监控进程标识位用于区分不同的监控进程,机器标识位用于区分不同的监控进程所在的机器;
根据请求消息中的监控进程标识位和机器标识位获取被监控进程运行信息,并将被监控进程运行信息发送至监控进程,被监控进程运行信息用于获取被监控进程。
需要说明的是,前述对分布式进程的监控方法实施例的解释说明也适用于该实施例的服务器的分布式进程的监控装置,其实现原理类似,此处不再赘述。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (16)

1.一种分布式进程的监控方法,其特征在于,包括以下步骤:
在监控进程重启后,向第三方管理设备发送请求消息,其中,所述请求消息包括监控进程标识位和机器标识位,所述监控进程标识位用于区分不同的监控进程,所述机器标识位用于区分不同的所述监控进程所在的机器;
接收所述第三方管理设备发送的根据所述监控进程标识位和所述机器标识位获取到的被监控进程运行信息,并获取所述被监控进程运行信息所属的被监控进程;
对所述被监控进程进行监控。
2.如权利要求1所述的分布式进程的监控方法,其特征在于,在所述在监控进程重启后,向第三方管理设备发送请求消息之前,还包括:
在每次启动所述被监控进程时,获取所述被监控进程运行信息,并将所述被监控进程运行信息存储在环境变量中;
将所述被监控进程运行信息上传至所述第三方管理设备,以在所述第三方管理设备备份所述被监控进程运行信息。
3.如权利要求1所述的分布式进程的监控方法,其特征在于,还包括:
实时获取所述被监控进程运行信息,并将所述被监控进程运行信息上传至所述第三方管理设备,以在所述第三方管理设备对所述被监控进程运行信息进行更新。
4.如权利要求2或3所述的分布式进程的监控方法,其特征在于,所述运行信息包括所述监控进程标识位、所述监控进程所在机器的机器标识位,以及所述被监控进程的进程号,其中,所述被监控进程的进程号用于区分不同的所述被监控进程。
5.一种分布式进程的监控方法,其特征在于,包括以下步骤:
获取监控进程发送的请求消息,其中,所述请求消息包括监控进程标识位和机器标识位,所述监控进程标识位用于区分不同的监控进程,所述机器标识位用于区分不同的所述监控进程所在的机器;
根据所述请求消息中的所述监控进程标识位和所述机器标识位获取被监控进程运行信息,并将所述被监控进程运行信息发送至所述监控进程,所述被监控进程运行信息用于获取被监控进程。
6.如权利要求5所述的分布式进程的监控方法,其特征在于,还包括:
在每次所述被监控进程启动时,接收所述监控进程上传的所述被监控进程运行信息,以备份所述被监控进程运行信息。
7.如权利要求6所述的分布式进程的监控方法,其特征在于,所述运行信息包括所述监控进程标识位、所述监控进程所在机器的机器标识位,以及所述被监控进程的进程号,其中,所述被监控进程的进程号用于区分不同的所述被监控进程。
8.一种分布式进程的监控装置,其特征在于,包括:
发送模块,被配置为在监控进程重启后,向第三方管理设备发送请求消息,其中,所述请求消息包括监控进程标识位和机器标识位,所述监控进程标识位用于区分不同的监控进程,所述机器标识位用于区分不同的所述监控进程所在的机器;
第一接收模块,被配置为接收所述第三方管理设备发送的根据所述监控进程标识位和所述机器标识位获取到的被监控进程运行信息,并获取所述被监控进程运行信息所属的被监控进程;
监控模块,被配置为对所述被监控进程进行监控。
9.如权利要求8所述的分布式进程的监控装置,其特征在于,还包括:
第一获取模块,被配置为在每次启动所述被监控进程时,获取所述被监控进程运行信息,并将所述被监控进程运行信息存储在环境变量中;
上传模块,被配置为将所述被监控进程运行信息上传至所述第三方管理设备,以在所述第三方管理设备备份所述进程运行信息。
10.如权利要求8所述的分布式进程的监控装置,其特征在于,还包括:
第二获取模块,被配置为实时获取被监控进程运行信息,并将所述被监控进程运行信息上传至所述第三方管理设备,以在所述第三方管理设备对所述被监控进程运行信息进行更新。
11.如权利要求9或10所述的分布式进程的监控装置,其特征在于,所述运行信息包括所述监控进程标识位、所述监控进程所在机器的机器标识位、以及所述被监控进程的进程号,其中,所述被监控进程的进程号用于区分不同的所述被监控进程。
12.一种分布式进程的监控装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在监控进程重启后,向第三方管理设备发送请求消息,其中,所述请求消息包括监控进程标识位和机器标识位,所述监控进程标识位用于区分不同的监控进程,所述机器标识位用于区分不同的所述监控进程所在的机器;
接收所述第三方管理设备发送的根据所述监控进程标识位获取到的被监控进程运行信息,并获取所述被监控进程运行信息所属的被监控进程;
对所述被监控进程进行监控。
13.一种分布式进程的监控装置,其特征在于,包括:
第三获取模块,被配置为获取监控进程发送的请求消息,其中,所述请求消息包括监控进程标识位和机器标识位,所述监控进程标识位用于区分不同的监控进程,所述机器标识位用于区分不同的所述监控进程所在的机器;
第四获取模块,被配置为根据所述请求消息中的所述监控进程标识位和所述机器标识位获取被监控进程运行信息,并将所述被监控进程运行信息发送至所述监控进程,所述被监控进程运行信息用于获取被监控进程。
14.如权利要求13所述的分布式进程的监控装置,其特征在于,还包括:
第二接收模块,被配置为在每次所述被监控进程启动时,接收所述监控进程上传的所述被监控进程运行信息,以备份所述被监控进程运行信息。
15.如权利要求14所述的分布式进程的监控装置,其特征在于,所述运行信息包括所述监控进程标识位、所述监控进程所在机器的机器标识位,以及所述被监控进程的进程号,其中,所述被监控进程的进程号用于区分不同的所述被监控进程。
16.一种分布式进程的监控装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取监控进程发送的请求消息,其中,所述请求消息包括监控进程标识位和机器标识位,所述监控进程标识位用于区分不同的监控进程,所述机器标识位用于区分不同的所述监控进程所在的机器;
根据所述请求消息中的所述监控进程标识位和所述机器标识位获取被监控进程运行信息,并将所述被监控进程运行信息发送至所述监控进程,所述被监控进程运行信息用于获取被监控进程。
CN201610274603.XA 2016-04-28 2016-04-28 分布式进程的监控方法和装置 Active CN105975384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610274603.XA CN105975384B (zh) 2016-04-28 2016-04-28 分布式进程的监控方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610274603.XA CN105975384B (zh) 2016-04-28 2016-04-28 分布式进程的监控方法和装置

Publications (2)

Publication Number Publication Date
CN105975384A true CN105975384A (zh) 2016-09-28
CN105975384B CN105975384B (zh) 2018-10-26

Family

ID=56993359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610274603.XA Active CN105975384B (zh) 2016-04-28 2016-04-28 分布式进程的监控方法和装置

Country Status (1)

Country Link
CN (1) CN105975384B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427615A (zh) * 2017-02-13 2018-08-21 腾讯科技(深圳)有限公司 一种消息监控方法及装置
CN108664366A (zh) * 2017-03-28 2018-10-16 百度在线网络技术(北京)有限公司 数据传输方法、装置及服务器
CN109976969A (zh) * 2017-12-27 2019-07-05 航天信息股份有限公司 一种电子发票信息的监控方法、装置、设备及介质
CN111090500A (zh) * 2020-03-23 2020-05-01 上海飞旗网络技术股份有限公司 存储进程管理方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249922A (ja) * 1998-03-04 1999-09-17 Nec Corp プログラムリスタート装置およびそのプログラム記録媒体
CN1266223A (zh) * 1999-03-08 2000-09-13 英业达股份有限公司 应用程序进程监控的方法
CN101290587A (zh) * 2008-06-12 2008-10-22 中兴通讯股份有限公司 一种实现进程启动和监控的方法
CN101630262A (zh) * 2009-07-17 2010-01-20 北京数帅科技有限公司 基于Linux操作系统的子进程监控方法
CN101751325A (zh) * 2008-12-11 2010-06-23 成都吉胜科技有限责任公司 软件运行监控方法
CN102722431A (zh) * 2012-04-25 2012-10-10 华为技术有限公司 进程监控方法及装置
CN103678084A (zh) * 2012-09-21 2014-03-26 成都勤智数码科技股份有限公司 一种灵活的应用进程守护方法
CN105068916A (zh) * 2015-08-28 2015-11-18 福建六壬网安股份有限公司 一种基于内核hook的进程行为监控方法
CN105512027A (zh) * 2015-11-26 2016-04-20 珠海多玩信息技术有限公司 进程状态监控方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249922A (ja) * 1998-03-04 1999-09-17 Nec Corp プログラムリスタート装置およびそのプログラム記録媒体
CN1266223A (zh) * 1999-03-08 2000-09-13 英业达股份有限公司 应用程序进程监控的方法
CN101290587A (zh) * 2008-06-12 2008-10-22 中兴通讯股份有限公司 一种实现进程启动和监控的方法
CN101751325A (zh) * 2008-12-11 2010-06-23 成都吉胜科技有限责任公司 软件运行监控方法
CN101630262A (zh) * 2009-07-17 2010-01-20 北京数帅科技有限公司 基于Linux操作系统的子进程监控方法
CN102722431A (zh) * 2012-04-25 2012-10-10 华为技术有限公司 进程监控方法及装置
CN103678084A (zh) * 2012-09-21 2014-03-26 成都勤智数码科技股份有限公司 一种灵活的应用进程守护方法
CN105068916A (zh) * 2015-08-28 2015-11-18 福建六壬网安股份有限公司 一种基于内核hook的进程行为监控方法
CN105512027A (zh) * 2015-11-26 2016-04-20 珠海多玩信息技术有限公司 进程状态监控方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427615A (zh) * 2017-02-13 2018-08-21 腾讯科技(深圳)有限公司 一种消息监控方法及装置
CN108427615B (zh) * 2017-02-13 2020-11-27 腾讯科技(深圳)有限公司 一种消息监控方法及装置
CN108664366A (zh) * 2017-03-28 2018-10-16 百度在线网络技术(北京)有限公司 数据传输方法、装置及服务器
CN108664366B (zh) * 2017-03-28 2021-08-24 百度在线网络技术(北京)有限公司 数据传输方法、装置及服务器
CN109976969A (zh) * 2017-12-27 2019-07-05 航天信息股份有限公司 一种电子发票信息的监控方法、装置、设备及介质
CN111090500A (zh) * 2020-03-23 2020-05-01 上海飞旗网络技术股份有限公司 存储进程管理方法及装置

Also Published As

Publication number Publication date
CN105975384B (zh) 2018-10-26

Similar Documents

Publication Publication Date Title
US10747591B2 (en) Endpoint process state collector
US10270644B1 (en) Framework for intelligent automated operations for network, service and customer experience management
CN109861878B (zh) kafka集群的topic数据的监控方法及相关设备
CN105653425B (zh) 基于复杂事件处理引擎的监控系统
CN105975384A (zh) 分布式进程的监控方法和装置
CN104360878B (zh) 一种应用软件部署的方法及装置
US20050108385A1 (en) Method and system for managing a discovery-related process in a network
CN112416581B (zh) 定时任务的分布式调用系统
CN102360324B (zh) 故障恢复方法和用于故障恢复的设备
US20150236902A1 (en) System, method and apparatus to manage services in a network
CN111538763A (zh) 一种确定集群中主节点的方法、电子设备和存储介质
CN104486125A (zh) 配置文件的备份方法及装置
CN111770002A (zh) 测试数据转发控制方法、装置、可读存储介质和电子设备
US20230125565A1 (en) Automated monitoring of proximate devices
CN107360045A (zh) 一种存储集群系统的监控方法及装置
CN112737800A (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN107040576A (zh) 信息推送方法及装置、通讯系统
US20180300199A1 (en) System and method for maintaining the health of a machine
CN114996085A (zh) 一种基于Prometheus的实时业务监控方法和系统
CN112131196A (zh) 一种分布式日志处理方法、装置、终端设备及存储介质
US11558242B2 (en) Generation of synthetic alerts and unified dashboard for viewing multiple layers of data center simultaneously
CN104780062A (zh) 一种快速获取bmc管理网口ip地址的方法
CN113259493B (zh) 基于Ukey机柜的Ukey信息获取方法、装置、设备和存储介质
CN110569140A (zh) 一种运维方法及装置
CN111176959B (zh) 跨域的应用服务器的预警方法、系统及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant