CN111752800B - 一种计算机系统及应用程序的监控方法及监控装置 - Google Patents

一种计算机系统及应用程序的监控方法及监控装置 Download PDF

Info

Publication number
CN111752800B
CN111752800B CN202010595156.4A CN202010595156A CN111752800B CN 111752800 B CN111752800 B CN 111752800B CN 202010595156 A CN202010595156 A CN 202010595156A CN 111752800 B CN111752800 B CN 111752800B
Authority
CN
China
Prior art keywords
application program
running state
computer system
monitored application
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010595156.4A
Other languages
English (en)
Other versions
CN111752800A (zh
Inventor
陈平安
林淼
刘志永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EVOC Intelligent Technology Co Ltd
Original Assignee
EVOC Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EVOC Intelligent Technology Co Ltd filed Critical EVOC Intelligent Technology Co Ltd
Priority to CN202010595156.4A priority Critical patent/CN111752800B/zh
Publication of CN111752800A publication Critical patent/CN111752800A/zh
Application granted granted Critical
Publication of CN111752800B publication Critical patent/CN111752800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3079Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by reporting only the changes of the monitored data

Abstract

本发明提供了一种计算机系统及应用程序的监控方法及监控装置,该监控方法包括:监控计算机系统的实际运行状态,并判断实际运行状态是否满足设定运行状态;如果满足,则监控计算机系统下被监控应用程序的运行状态;如果不满足,则发出报警信息,并将实际运行状态不满足目标运行状态的信息记录到日志中。通过在监控计算机系统下被监控应用程序之前,先监控计算机系统的实际运行状态是否满足设定运行状态,以使在计算机系统处于运行状态良好的情况下,监控被监控应用程序的运行状态,减少误判的可能。并在计算机的实际运行状态不满足设定运行状态时,将该信息记录到日志中,以便管理员进行追溯,找到出错原因,更好地解决问题。

Description

一种计算机系统及应用程序的监控方法及监控装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种计算机系统及应用程序的监控方法及监控装置。
背景技术
计算机系统上的某个应用程序在运行时,可能会出现应用程序异常退出、内存占用过高、CPU(中央处理器)占用过高等异常,计算机系统则会出现蓝屏、磁盘空间不足等情况,这些异常会导致计算机运行速度缓慢、应用程序不能继续正常运行甚至会使计算机系统出现死机等情况。
在工业领域产线现场,24小时监控计算机系统状态和应用程序是否正常运行是件很费时费力的事,出现异常的时候,一般需要在人为干预情况下解决错误,而且有时候在发生异常时管理员并不会及时察觉到,浪费时间,影响工作效率,进而影响生产节拍。
现有技术中采用监控应用程序的方法如图1所示,其包括:首先遍历后台服务程序,读取所有后台服务程序的配置文件,根据配置文件生成监控状态表,根据监控状态表向后台服务程序发送第一心跳包,根据心跳包的反馈,判断后台服务程序是否运行正常。
但是,在计算机系统出现内存溢出、CPU占用过高、磁盘空间不足或者计算机蓝屏等状况下,应用程序的运行会受计算机状态的影响,使应用程序运行不稳定,从而会造成监控结果的误判。
发明内容
本发明提供了一种计算机及应用程序的监控方法,用以减少对被监控应用程序监控的误判可能性,提高监控的准确性。
第一方面,本发明提供了一种计算机系统及应用程序的监控方法,该监控方法包括:监控计算机系统的实际运行状态;判断实际运行状态是否满足设定运行状态;如果满足,则监控计算机系统下被监控应用程序的运行状态;如果不满足,则发出报警信息,并将实际运行状态不满足目标运行状态的信息记录到日志中。
在上述的方案中,通过在监控计算机系统下被监控应用程序之前,先监控计算机系统的实际运行状态是否满足设定运行状态,以使在计算机系统处于运行状态良好的情况下,监控被监控应用程序的运行状态,减少误判的可能,提高监控的准确性。并在计算机的实际运行状态不满足设定运行状态时,将该信息记录到日志中,以便管理员进行追溯,找到出错原因,更好地解决问题。
在一个具体的实施方式中,判断实际运行状态是否满足目标运行状态具体为:
判断计算机系统的内存使用率是否小于第一内存设定阈值;
判断计算机系统的CPU使用率是否小于第一CPU设定阈值;
判断计算机系统的磁盘使用率是否小于磁盘设定阈值;
如果计算机系统的内存使用率小于第一内存设定阈值,且计算机系统的CPU使用率小于第一CPU设定阈值,且计算机系统的磁盘使用率小于磁盘设定阈值,则实际运行状态满足设定运行状态,表明计算机系统的运行状态良好;
否则,计算机系统的实际运行状态不满足设定运行状态,表示计算机系统处于非良好的运行状态,如果进一步监控,可能出现误判;此时,实际运行状态不满足设定运行状态的信息包括:计算机系统的内存使用率不小于第一内存设定阈值,和/或,计算机系统的CPU使用率不小于第一CPU设定阈值,和/或,计算机系统的磁盘使用率不小于磁盘设定阈值。将计算机系统不符合设定运行状态的具体信息计录到日志中,以便于管理员事后追溯,发现问题,以更好的解决问题。
在一个具体的实施方式中,该监控方法还包括通过看门狗监控计算机系统是否处于死循环状态或死机状态;在看门狗监控到计算机系统处于死循环状态或死机状态时,重启计算机系统。通过采用看门狗时刻监控计算机系统的运行状态,在计算机系统出现死循环或死机状态时,及时恢复计算机系统的运行,不影响生产节拍,从而提高生产效率。
在一个具体的实施方式中,看门狗为软件看门狗或硬件看门狗。
在一个具体的实施方式中,监控计算机系统下应用程序的运行状态具体为:遍历计算机系统下当前运行的应用程序,并采集当前运行的应用程序的进程信息;从进程信息中获取当前运行的应用程序的进程标识符,根据进程标识符找到当前运行的应用程序所对应的进程名称;将找到的进程名称与初始化文件(ini文件)中被监控应用程序的名称进行对比,判断被监控应用程序是否已经启动;如果未启动,则启动该被监控应用程序,并监控被监控应用程序的运行状态;如果已启动,则监控被监控应用程序的运行状态。以便于监控被监控应用程序是否处于启动状态,是否运行正常。
在一个具体的实施方式中,监控被监控应用程序的运行状态包括:
获取被监控应用程序的进程标识符;
根据所获取的进程标识符获取被监控应用程序的内存使用率及CPU使用率;
判断被监控应用程序的内存使用率是否超出该被监控应用程序的第二内存设定阈值,如果超出,则发出报警信息,并将被监控应用程序的内存使用率超出第二内存设定阈值的信息记录到日志中;
判断被监控应用程序的CPU使用率是否超出该被监控应用程序的第二CPU设定阈值,如果超出,则发出报警信息,并将被监控应用程序的CPU使用率超出第二CPU设定阈值的信息记录到日志中。以便于提醒管理员注意被监控应用程序的运行状态不正常,同时记入日志中,便于管理员事后追溯,便于发现和解决问题。
在一个具体的实施方式中,监控被监控应用应用程序的运行状态还包括:在被监控应用程序的内存使用率超出第二内存设定阈值,和/或,被监控应用程序的CPU使用率超出第二CPU设定阈值时,重启被监控应用程序。以便于使被监控程序及时中断非正常运行状态,调整为正常运行状态。
在一个具体的实施方式中,监控被监控应用程序的运行状态包括:以设定时间间隔向被监控应用程序发送心跳包,被监控应用程序对心跳包进行反馈;根据被监控应用程序对心跳包的反馈,以监控被监控应用程序是否处于正常运行状态,时刻监控被监控应用程序是否“在线”。
在一个具体的实施方式中,监控被监控应用程度的运行状态包括:在计算机系统的硬盘创建一个共享内存;被监控应用程序向共享内存中写入该被监控应用程序的状态数据;根据应用程序运行状态监控模块是否能读取写入的状态数据判断应用程序运行状态监控模块和被监控应用程序之间是否能正常通信,以便于时刻监控被监控应用程序是否“在线”。
第二方面,本发明还提供了一种计算机系统及应用程序的监控装置,该监控装置包括:计算机系统运行状态监控模块,用于监控计算机系统的实际运行状态,并判断实际运行状态是否满足设定运行状态;应用程序运行状态监控模块,用于监控计算机系统下被监控应用程序的运行状态;日志模块,用于在计算机运行状态监控模块判断实际运行状态不满足设定运行状态时,将实际运行状态不满足设定运行状态的信息记录到日志中。其中,计算机系统运行状态监控模块还用于在实际运行状态不满足设定运行状态时,发出报警信息。通过设置计算机系统运行状态监控模块,在监控计算机系统下被监控应用程序之前,先监控计算机系统的实际运行状态是否满足设定运行状态,以使在计算机系统处于运行状态良好的情况下,监控被监控应用程序的运行状态,减少误判的可能,提高监控的准确性。并在计算机的实际运行状态不满足设定运行状态时,将该信息记录到日志中,以便管理员进行追溯,找到出错原因,更好地解决问题。
附图说明
图1为现有技术中的监控方法的爆炸图;
图2为本发明实施例提供的一种监控方法的流程图;
图3为本发明实施例提供的一种监控计算机系统的流程图;
图4为本发明实施例提供的一种监控计算机系统下被监控应用程序的流程图;
图5为本发明实施例提供的一种监控被监控应用程序的流程图;
图6为本发明实施例提供的另一种监控被监控应用程序的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了方便理解本发明实施例提供的计算机系统及应用程序的监控方法,下面首先说明一下本发明实施例提供的监控方法的应用场景,该监控方法应用于监控计算机系统及应用程序的运行状态的监控。下面结合附图对该计算机系统及应用程序的监控方法进行详细的叙述。
参考图2,本发明实施例提供的计算机系统及应用程序的监控方法包括:
S10:监控计算机系统的实际运行状态;
S20:判断实际运行状态是否满足设定运行状态;
S30:如果满足,则监控计算机系统下被监控应用程序的运行状态;
S40:如果不满足,则发出报警信息,并将实际运行状态不满足目标运行状态的信息记录到日志中。
在上述的方案中,通过在监控计算机系统下被监控应用程序之前,先监控计算机系统的实际运行状态是否满足设定运行状态,以使在计算机系统处于运行状态良好的情况下,监控被监控应用程序的运行状态,减少误判的可能,提高监控的准确性。并在计算机的实际运行状态不满足设定运行状态时,将该信息记录到日志中,以便管理员进行追溯,找到出错原因,更好地解决问题。下面具体对上述每个步骤的实现方式进行详细的介绍。
首先,监控计算机系统的实际运行状态。可以采用计算机系统运行状态监控模块监控计算机系统的实际运行状态。具体的,可以监控计算机系统的硬件子系统和软件子系统。其中计算机系统的硬件子系统可以包括计算机系统的内存、CPU使用率以及磁盘空间等,计算机系统的软件子系统可以为计算机系统的操作系统,主要有计算机系统是否进入死循环状态、诸如蓝屏、死机等状态。
在监控计算机系统的软件子系统时,可以通过看门狗监控计算机系统是否处于死循环状态或死机状态。在看门狗监控到计算机系统处于死循环状态或死机状态时,重启计算机系统。通过采用看门狗监控计算机系统,在计算机系统出现死循环或死机状态时,及时恢复计算机系统的运行,不影响生产节拍,从而提高生产效率。其中,上述看门狗作为一个计数器,给看门狗一个数字(时间间隔,单位s),计算机系统开始运行后看门狗开始倒计数。如果计算机系统运行正常,过一段时间计算机系统中的CPU发出指令让看门狗复位,看门狗重新开始倒计数。如果看门狗减到0,就认为计算机系统没有正常工作,强制整个计算机系统重启复位。具体采用看门狗监控计算机系统的方式可以采用软件看门狗的方式,还可以通过硬件看门狗的方式。在采用硬件看门狗时,硬件看门狗利用一个定时器电路,其定时输出连接到电路的复位端,计算机系统在一定时间范围内对定时器清零(俗称“喂狗”),因此计算机系统正常工作时,定时器总不能溢出,也就不能产生复位信号。如果计算机系统出现故障,不在定时周期内复位看门狗,就使得看门狗定时器溢出产生复位信号并重启计算机系统。
接下来,判断计算机系统的实际运行状态是否满足设定运行状态,以检测计算机系统是否处于良好的运行状态。可以采用计算机系统运行状态监控模块判断计算机系统的实际运行状态是否满足设定运行状态。判断实际运行状态是否满足目标运行状态可以采用以下方式:
判断计算机系统的内存使用率是否小于第一内存设定阈值;
判断计算机系统的CPU使用率是否小于第一CPU设定阈值;
判断计算机系统的磁盘使用率是否小于磁盘设定阈值;
如果计算机系统的内存使用率小于第一内存设定阈值,且计算机系统的CPU使用率小于第一CPU设定阈值,且计算机系统的磁盘使用率小于磁盘设定阈值,则实际运行状态满足设定运行状态,表明计算机系统的运行状态良好;
否则,计算机系统的实际运行状态不满足设定运行状态,表示计算机系统处于非良好的运行状态,如果进一步监控,可能出现误判;此时,实际运行状态不满足设定运行状态的信息包括:计算机系统的内存使用率不小于第一内存设定阈值,和/或,计算机系统的CPU使用率不小于第一CPU设定阈值,和/或,计算机系统的磁盘使用率不小于磁盘设定阈值。将计算机系统不符合设定运行状态的具体信息计录到日志中,以便于管理员事后追溯,发现问题,以更好的解决问题。其中,将计算机系统的实际运行状态不符合设定运行状态的信息可以通过日志模块完成。
具体采用上述的方式判断计算机系统的实际运行状态是否满足设定运行状态可以采用如图3所示出的方式:
S21:判断计算机系统的内存使用率是否小于第一内存设定阈值;如果否,则判断结果为计算机系统的实际运行状态不满足设定运行状态,发出报警信息,并把计算机系统的内存使用率不小于第一内存设定阈值的信息记录到日志中;如果是,则进入步骤S22;
S22:判断计算机系统的CPU使用率是否小于第一CPU设定阈值;如果否,则判断结果为计算机系统的实际运行状态不满足设定运行状态,发出报警信息,并将计算机系统的CPU使用率不小于第一CPU设定阈值的信息记录到日志中;如果否,则进入步骤S23;
S23:判断计算机系统的磁盘使用率是否小于磁盘设定阈值;如果否,则判断结果为计算机系统的磁盘使用率不小于磁盘设定阈值,发出报警信息,并将计算机系统的磁盘使用率不小于磁盘设定阈值的信息记录到日志中;如果是,则说明计算机系统的实际运行状态满足设定运行状态,说明计算机系统的运行状态良好。
其中,上述的判断过程中,需要获取计算机系统的内存使用率、CPU使用率及磁盘使用率,获取的方式可以采用调用相应的API函数以获取相应的内存使用率、CPU使用率及磁盘使用率。
应当理解的是,判断计算机系统的内存使用率、CPU使用率及磁盘使用率是否满足相应的设定阈值的顺序并不限于图3所示出的顺序。另外判断计算机系统的内存使用率、CPU使用率及磁盘使用率是否满足相应的设定阈值的流程并不限于上述示出的具有先后顺序的判断方式,还可以采用同步判断的方式。具体的,可以同步判断计算机系统的内存使用率、CPU使用率及磁盘使用率是否满足相应的设定阈值,只有在三个判断的结果都是相应的使用率满足相应的设定阈值时,则判断结果为计算机系统的实际运行状态满足设定运行状态。如果其中的一个、两个或三个不满足相应的设定阈值时,则进行报警,并将不满足设定阈值的内存、CPU或磁盘种类记录到日志中。其中,上述发出报警信息的方式可以采用弹窗、轰鸣等能够引起管理员注意的方式。
接下来,如果满足,则监控计算机系统下被监控应用程序的运行状态。可以采用应用程序运行状态监控模块监控计算机系统下被监控应用程序的应用状态。监控计算机系统下应用程序的运行状态可以采用如图4所示出的方式:
S31:遍历计算机系统下当前运行的应用程序,并采集当前运行的应用程序的进程信息;
S32:从进程信息中获取当前运行的应用程序的进程标识符,根据进程标识符找到当前运行的应用程序所对应的进程名称;
S33:将找到的进程名称与初始化文件(ini文件)中被监控应用程序的名称进行对比,判断被监控应用程序是否已经启动;
S34:如果未启动,则启动该被监控应用程序,并监控被监控应用程序的运行状态;
S35:如果已启动,则监控被监控应用程序的运行状态。
通过先查找出计算机系统下当前运行的应用程序的名称,并与初始化文件中的被监控应用程序的名称对比,以监控初始化文件中的被监控应用程序是否已经启动,以便于监控被监控应用程序是否处于启动状态,是否运行正常。
在具体监控被监控应用程序的运行状态时,参考图5,其可以包括:
获取被监控应用程序的进程标识符;
根据所获取的进程标识符获取被监控应用程序的内存使用率及CPU使用率;
判断被监控应用程序的内存使用率是否超出该被监控应用程序的第二内存设定阈值,如果超出,则发出报警信息,并将被监控应用程序的内存使用率超出第二内存设定阈值的信息记录到日志中,说明被监控应用程序的内存使用率过大,被监控应用程序可能存在“跑飞”、死循环等非正常运行状态;可以通过日志模块将被监控应用程序的内存使用率超出第二内存设定阈值的信息记录到日志中。
判断被监控应用程序的CPU使用率是否超出该被监控应用程序的第二CPU设定阈值,如果超出,则发出报警信息,并将被监控应用程序的CPU使用率超出第二CPU设定阈值的信息记录到日志中,说明被监控应用程序的内存使用率过大,被监控应用程序可能存在“跑飞”、死循环等非正常运行状态。以便于提醒管理员注意被监控应用程序的运行状态不正常,同时记入日志中,便于管理员事后追溯,便于发现和解决问题。其中,可以通过日志模块将被监控应用程序的CPU使用率超出第二CPU设定阈值的信息记录到日志中。
其中,上述的判断过程中,需要获取被监控应用程序的内存使用率及CPU使用率,获取的方式可以采用调用相应的API函数以获取被监控应用程序的相应的内存使用率及CPU使用率。
上述判断被监控应用程序的内存使用率是否超出第二内存设定阈值,CPU使用率是否超出第二CPU设定阈值时,两者中有一个使用率超出相应的设定阈值,即说明该被监控应用程序的运行状态可能不正常,可能存在“跑飞”、死循环等非正常运行状态,发出报警信息,以提醒管理员注意,同时将相应的信息记录到日志中,以备管理员查看。
在将上述的信息记录到日志中时,可以按照日期生成多个日志文件,还可分年、月、日、频率生成文件名,可根据设定的规则命名,以便于管理员查看。例如,可以在debug目录下,设置一个Log.txt文件,将上述的信息保存到该文件夹中。
参考图6,监控被监控应用应用程序的运行状态还可以包括:在被监控应用程序的内存使用率超出第二内存设定阈值,和/或,被监控应用程序的CPU使用率超出第二CPU设定阈值时,重启被监控应用程序。以便于使被监控程序及时中断“跑飞”、死循环等非正常运行状态,重启以调整为正常运行状态。
另外,监控被监控应用程序的运行状态还可以包括:
以设定时间间隔向被监控应用程序发送心跳包,被监控应用程序对心跳包进行反馈;
根据被监控应用程序对心跳包的反馈,以监控被监控应用程序是否处于正常运行状态。
通过向被监控应用程序以设定时间间隔向被监控应用程序发送心跳包,以时刻监控被监控应用程序是否“在线”,在被监控应用程序由于发生诸如闪退、抛出异常等错误而不“在线”时,能够快速发现,并采取重启操作,以保证被监控应用程序“在线”。其中,上述的正常运行状态指被监控应用程序能够实现基本的功能的状态。
应当理解的是,监控被监控应用程序是否“在线”的方式还可以采用其他的方式。例如,可以采用应用程序运行状态监控模块与被监控应用程序通过共享文件夹的方式保持信息交互,从而监控被监控应用程序是否处于启动状态。具体的步骤如下:
在计算机系统的硬盘创建一个共享内存;
被监控应用程序向共享内存中写入该被监控应用程序的状态数据;
根据应用程序运行状态监控模块是否能读取写入的状态数据以判断应用程序运行状态监控模块与被监控应用程序之间是否能正常通信。
其中,上述的正常通信指应用程序运行状态监控模块与被监控应用程序之间能够实现基本的信息交互的状态。通过采用上述的方式,以便于时刻监控被监控应用程序是否“在线”。
通过在监控计算机系统下被监控应用程序之前,先监控计算机系统的实际运行状态是否满足设定运行状态,以使在计算机系统处于运行状态良好的情况下,监控被监控应用程序的运行状态,减少误判的可能,提高监控的准确性。并在计算机的实际运行状态不满足设定运行状态时,将该信息记录到日志中,以便管理员进行追溯,找到出错原因,更好地解决问题。在将该监控方法适用于无人24小时管理的产线现场时,通过对计算机系统及被监控应用程序的运行状态进行监控,一旦计算机系统或者被监控应用程序出现运行错误时,能在第一时间发出报警信息,通知管理员处理,并且会将错误报告写入日志汇总,有助于从根本上解决问题。由于产线现场并不会有人24小时看守,此方案有利于提高生产效率。
另外,本发明实施例还提供了一种计算机系统及应用程序的监控装置,该监控装置包括:计算机系统运行状态监控模块,用于监控计算机系统的实际运行状态,并判断实际运行状态是否满足设定运行状态;应用程序运行状态监控模块,用于监控计算机系统下被监控应用程序的运行状态;日志模块,用于在计算机运行状态监控模块判断实际运行状态不满足设定运行状态时,将实际运行状态不满足设定运行状态的信息记录到日志中。其中,计算机系统运行状态监控模块还用于在实际运行状态不满足设定运行状态时,发出报警信息。通过设置计算机系统运行状态监控模块,在监控计算机系统下被监控应用程序之前,先监控计算机系统的实际运行状态是否满足设定运行状态,以使在计算机系统处于运行状态良好的情况下,监控被监控应用程序的运行状态,减少误判的可能,提高监控的准确性。并在计算机的实际运行状态不满足设定运行状态时,将该信息记录到日志中,以便管理员进行追溯,找到出错原因,更好地解决问题。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种计算机系统及应用程序的监控方法,其特征在于,包括:
监控计算机系统的实际运行状态;
判断所述实际运行状态是否满足设定运行状态;
如果满足,则监控所述计算机系统下被监控应用程序的运行状态;
如果不满足,则发出报警信息,并将所述实际运行状态不满足目标运行状态的信息记录到日志中;
其中,所述监控所述被监控应用程序的运行状态包括:
获取所述被监控应用程序的进程标识符;
根据所获取的进程标识符获取所述被监控应用程序的内存使用率及CPU使用率;
判断所述被监控应用程序的内存使用率是否超出该被监控应用程序的第二内存设定阈值,如果超出,则发出报警信息,并将所述被监控应用程序的内存使用率超出所述第二内存设定阈值的信息记录到日志中;
判断所述被监控应用程序的CPU使用率是否超出该被监控应用程序的第二CPU设定阈值,如果超出,则发出报警信息,并将所述被监控应用程序的CPU使用率超出所述第二CPU设定阈值的信息记录到日志中;
在所述被监控应用程序的内存使用率超出所述第二内存设定阈值,和/或,所述被监控应用程序的CPU使用率超出所述第二CPU设定阈值时,重启所述被监控应用程序。
2.如权利要求1所述的监控方法,其特征在于,所述判断所述实际运行状态是否满足目标运行状态具体为:
判断所述计算机系统的内存使用率是否小于第一内存设定阈值;
判断所述计算机系统的CPU使用率是否小于第一CPU设定阈值;
判断所述计算机系统的磁盘使用率是否小于磁盘设定阈值;
如果所述计算机系统的内存使用率小于所述第一内存设定阈值,且所述计算机系统的CPU使用率小于所述第一CPU设定阈值,且所述计算机系统的磁盘使用率小于所述磁盘设定阈值,则所述实际运行状态满足所述设定运行状态;
否则,所述实际运行状态不满足所述设定运行状态;其中,所述实际运作状态不满足所述设定运行状态的信息包括:所述计算机系统的内存使用率不小于所述第一内存设定阈值,和/或,所述计算机系统的CPU使用率不小于所述第一CPU设定阈值,和/或,所述计算机系统的磁盘使用率不小于所述磁盘设定阈值。
3.如权利要求1所述的监控方法,其特征在于,还包括通过看门狗监控所述计算机系统是否处于死循环状态或死机状态;
在所述看门狗监控到计算机系统处于死循环状态或死机状态时,重启所述计算机系统。
4.如权利要求3所述的监控方法,其特征在于,所述看门狗为软件看门狗或硬件看门狗。
5.如权利要求1所述的监控方法,其特征在于,所述监控所述计算机系统下应用程序的运行状态具体为:
遍历所述计算机系统下当前运行的应用程序,并采集所述当前运行的应用程序的进程信息;
从所述进程信息中获取所述当前运行的应用程序的进程标识符,根据所述进程标识符找到当前运行的应用程序所对应的进程名称;
将找到的进程名称与初始化文件中被监控应用程序的名称进行对比,判断所述被监控应用程序是否已经启动;
如果未启动,则启动所述被监控应用程序,并监控所述被监控应用程序的运行状态;
如果已启动,则监控所述被监控应用程序的运行状态。
6.如权利要求5所述的监控方法,其特征在于,所述监控所述被监控应用程序的运行状态包括:
以设定时间间隔向所述被监控应用程序发送心跳包,所述被监控应用程序对所述心跳包进行反馈;
根据所述被监控应用程序对所述心跳包的反馈,监控所述被监控应用程序是否处于正常运行状态。
7.如权利要求5所述的监控方法,其特征在于,所述监控所述被监控应用程序的运行状态包括:
在所述计算机系统的硬盘创建一个共享内存;
所述被监控应用程序向所述共享内存中写入该被监控应用程序的状态数据;
根据应用程序运行状态监控模块是否能读取写入的所述状态数据判断所述应用程序运行状态监控模块与所述被监控应用程序之间是否能正常通信。
8.一种计算机系统及应用程序的监控装置,其特征在于,包括:
计算机系统运行状态监控模块,用于监控所述计算机系统的实际运行状态,并判断所述实际运行状态是否满足设定运行状态;
应用程序运行状态监控模块,用于监控所述计算机系统下被监控应用程序的运行状态;
日志模块,用于在所述计算机系统运行状态监控模块判断所述实际运行状态不满足所述设定运行状态时,将所述实际运行状态不满足所述设定运行状态的信息记录到日志中;
其中,所述计算机系统运行状态监控模块还用于在所述实际运行状态不满足所述设定运行状态时,发出报警信息;
所述应用程序运行状态监控模块监控所述被监控应用程序的运行状态包括:
获取所述被监控应用程序的进程标识符;
根据所获取的进程标识符获取所述被监控应用程序的内存使用率及CPU使用率;
判断所述被监控应用程序的内存使用率是否超出该被监控应用程序的第二内存设定阈值,如果超出,则发出报警信息,并将所述被监控应用程序的内存使用率超出所述第二内存设定阈值的信息记录到日志中;
判断所述被监控应用程序的CPU使用率是否超出该被监控应用程序的第二CPU设定阈值,如果超出,则发出报警信息,并将所述被监控应用程序的CPU使用率超出所述第二CPU设定阈值的信息记录到日志中;
在所述被监控应用程序的内存使用率超出所述第二内存设定阈值,和/或,所述被监控应用程序的CPU使用率超出所述第二CPU设定阈值时,重启所述被监控应用程序。
CN202010595156.4A 2020-06-24 2020-06-24 一种计算机系统及应用程序的监控方法及监控装置 Active CN111752800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010595156.4A CN111752800B (zh) 2020-06-24 2020-06-24 一种计算机系统及应用程序的监控方法及监控装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010595156.4A CN111752800B (zh) 2020-06-24 2020-06-24 一种计算机系统及应用程序的监控方法及监控装置

Publications (2)

Publication Number Publication Date
CN111752800A CN111752800A (zh) 2020-10-09
CN111752800B true CN111752800B (zh) 2023-02-21

Family

ID=72677401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010595156.4A Active CN111752800B (zh) 2020-06-24 2020-06-24 一种计算机系统及应用程序的监控方法及监控装置

Country Status (1)

Country Link
CN (1) CN111752800B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190369A (zh) * 2021-04-21 2021-07-30 北京海博思创科技股份有限公司 数据处理方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5835765A (en) * 1995-05-31 1998-11-10 Mitsubishi Denki Kabushiki Kaisha Computer operation management system for a computer operating system capable of simultaneously executing plural application programs
CN102306095A (zh) * 2011-07-21 2012-01-04 宇龙计算机通信科技(深圳)有限公司 应用程序管理方法和终端
CN102779054A (zh) * 2012-06-15 2012-11-14 北京奇虎科技有限公司 应用程序的安装处理方法和装置、以及服务器
CN103580941A (zh) * 2012-08-01 2014-02-12 研祥智能科技股份有限公司 网络看门狗及其实现方法
CN106528216A (zh) * 2016-10-26 2017-03-22 深圳市金立通信设备有限公司 一种启动应用程序的方法及终端
CN106936858A (zh) * 2015-12-29 2017-07-07 研祥智能科技股份有限公司 一种云平台监控系统及方法
CN106959908A (zh) * 2017-03-03 2017-07-18 惠州Tcl移动通信有限公司 一种基于移动终端的应用程序自动重启控制方法及系统
CN109542714A (zh) * 2018-09-29 2019-03-29 中国平安人寿保险股份有限公司 应用程序监控方法及装置、计算机装置及计算机存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4362977B2 (ja) * 2001-01-16 2009-11-11 セイコーエプソン株式会社 デバイス状態監視装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5835765A (en) * 1995-05-31 1998-11-10 Mitsubishi Denki Kabushiki Kaisha Computer operation management system for a computer operating system capable of simultaneously executing plural application programs
CN102306095A (zh) * 2011-07-21 2012-01-04 宇龙计算机通信科技(深圳)有限公司 应用程序管理方法和终端
CN102779054A (zh) * 2012-06-15 2012-11-14 北京奇虎科技有限公司 应用程序的安装处理方法和装置、以及服务器
CN103580941A (zh) * 2012-08-01 2014-02-12 研祥智能科技股份有限公司 网络看门狗及其实现方法
CN106936858A (zh) * 2015-12-29 2017-07-07 研祥智能科技股份有限公司 一种云平台监控系统及方法
CN106528216A (zh) * 2016-10-26 2017-03-22 深圳市金立通信设备有限公司 一种启动应用程序的方法及终端
CN106959908A (zh) * 2017-03-03 2017-07-18 惠州Tcl移动通信有限公司 一种基于移动终端的应用程序自动重启控制方法及系统
CN109542714A (zh) * 2018-09-29 2019-03-29 中国平安人寿保险股份有限公司 应用程序监控方法及装置、计算机装置及计算机存储介质

Also Published As

Publication number Publication date
CN111752800A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
US11360842B2 (en) Fault processing method, related apparatus, and computer
US11119874B2 (en) Memory fault detection
CN106682162B (zh) 日志管理方法及装置
US11853150B2 (en) Method and device for detecting memory downgrade error
CN111796959B (zh) 宿主机容器自愈方法、装置及系统
CN113595836A (zh) 一种高可用集群的心跳检测方法、存储介质和计算节点
WO2017079220A2 (en) Full duplex distributed telemetry system
CN111752800B (zh) 一种计算机系统及应用程序的监控方法及监控装置
CN107729213B (zh) 一种后台任务监控方法及装置
CN112631820A (zh) 软件系统的故障恢复方法及装置
US20180341285A1 (en) Method for obtaining timestamp and computer device using the same
CN108899059B (zh) 一种固态硬盘的检测方法和设备
CN110224880B (zh) 一种心跳监测方法及监控设备
CN116501705A (zh) 基于ras的内存信息收集解析方法、系统、设备及介质
CN115080362A (zh) 一种pcie设备降速上报方法、系统、设备以及存储介质
CN114138600A (zh) 一种固件关键信息的存储方法、装置、设备及存储介质
CN114218004A (zh) 基于BMC的Kubernetes集群物理节点的故障处理方法和系统
CN113742120A (zh) 一种kdump触发方法、系统、设备以及介质
CN115237641A (zh) 故障检测的方法、装置、电子设备和可读介质
JP2003345629A (ja) システム監視装置及びそれに用いるシステム監視方法並びにそのプログラム
CN117389802B (zh) 一种智能容错、预测容错、自动修复的密码卡系统及方法
KR102526368B1 (ko) 멀티벤더를 지원하는 서버 관리 시스템
US11422876B2 (en) Systems and methods for monitoring and responding to bus bit error ratio events
KR100809290B1 (ko) Pdr을 이용한 프로세스 별 관리 장치 및 그 방법
CN113704068A (zh) 系统及其运行的管理方法、服务器和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant