CN110727586A - 一种主机异常监控方法、装置、存储介质和服务器 - Google Patents

一种主机异常监控方法、装置、存储介质和服务器 Download PDF

Info

Publication number
CN110727586A
CN110727586A CN201910871481.6A CN201910871481A CN110727586A CN 110727586 A CN110727586 A CN 110727586A CN 201910871481 A CN201910871481 A CN 201910871481A CN 110727586 A CN110727586 A CN 110727586A
Authority
CN
China
Prior art keywords
data
host
target host
target
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910871481.6A
Other languages
English (en)
Other versions
CN110727586B (zh
Inventor
宋万里
吴翠兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910871481.6A priority Critical patent/CN110727586B/zh
Publication of CN110727586A publication Critical patent/CN110727586A/zh
Application granted granted Critical
Publication of CN110727586B publication Critical patent/CN110727586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及计算机技术领域,提出一种主机异常监控方法、装置、存储介质和服务器。该主机异常监控方法包括:获取机房内每台主机的运行性能数据;根据获取到的运行性能数据分别构建每台主机的性能热力图;若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,则获取所述目标主机的外部关联数据以及内部关联数据;根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。通过这样设置,当机房内某台主机异常时,运维人员根据生成的异常分析信息可以迅速地定位问题的产生原因,从而能够有效减少排查主机问题的时间。

Description

一种主机异常监控方法、装置、存储介质和服务器
技术领域
本发明涉及机房监控技术领域,尤其涉及一种主机异常监控方法、装置、存储介质和服务器。
背景技术
对于包含大量主机的大中型机房来说,运维人员需要实时监控各个主机的运行数据,及时发现并解决各个主机出现的问题。为了便于实时监控各个主机的运行数据,很多运维人员会使用各类机房监控APP,这些APP会实时采集机房内每台主机的运行数据,并通过终端显示屏展示出来。使用这类APP虽然可以很方便地监控每台主机的性能指标,及时发现问题,但是当某台主机出现问题时,运维人员还是得亲自去排查与分析问题的产生原因,需要耗费大量的时间和人力。
发明内容
有鉴于此,本发明实施例提供了一种主机异常监控方法、装置、存储介质和服务器,能够有效减少运维人员排查主机问题的时间。
本发明实施例的第一方面,提供了一种主机异常监控方法,包括:
获取机房内每台主机的运行性能数据;
根据获取到的运行性能数据分别构建每台主机的性能热力图;
若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,则获取所述目标主机的外部关联数据以及内部关联数据,所述外部关联数据为与所述目标主机关联的外部环境数据,所述内部关联数据包括与所述目标主机的运行性能关联的上下游组件的状态数据、上层数据库的状态数据以及应用程序的状态数据;
根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。
本发明实施例的第二方面,提供了一种主机异常监控装置,包括:
性能数据获取模块,用于获取机房内每台主机的运行性能数据;
热力图构建模块,用于根据获取到的运行性能数据分别构建每台主机的性能热力图;
关联数据获取模块,用于若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,则获取所述目标主机的外部关联数据以及内部关联数据,所述外部关联数据为与所述目标主机关联的外部环境数据,所述内部关联数据包括与所述目标主机的运行性能关联的上下游组件的状态数据、上层数据库的状态数据以及应用程序的状态数据;
异常分析模块,用于根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。
本发明实施例的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如本发明实施例的第一方面提出的主机异常监控方法的步骤。
本发明实施例的第四方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如本发明实施例的第一方面提出的主机异常监控方法的步骤。
本发明实施例提出的主机异常监控方法包括:获取机房内每台主机的运行性能数据;根据获取到的运行性能数据分别构建每台主机的性能热力图;若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,则获取所述目标主机的外部关联数据以及内部关联数据;根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。通过这样设置,当机房内某台主机异常,运行性能数据出问题时,该主机的性能热力图会符合某种条件(比如热力图颜色的深度超过一定阈值),此时系统会自动获取与该主机的性能相关的外部关联数据和内部关联数据,并根据这些数据构建一定的异常分析信息,运维人员根据这些异常分析信息可以更迅速地定位问题的产生原因,从而能够有效减少排查主机问题的时间。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种主机异常监控方法的第一个实施例的流程图;
图2是本发明实施例提供的一种主机异常监控方法的第二个实施例的流程图;
图3是本发明实施例提供的一种主机异常监控装置的一个实施例的结构图;
图4是本发明实施例提供的一种服务器的示意图。
具体实施方式
本发明实施例提供了一种主机异常监控方法、装置、存储介质和服务器,能够有效减少运维人员排查主机问题的时间。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种主机异常监控方法的第一个实施例包括:
101、获取机房内每台主机的运行性能数据;
本申请于服务器端构建一个监控机房主机的系统,该系统可以实时获取机房内每台主机的运行性能数据,比如主机的CPU负载、内存负载以及磁盘负载等数据。
102、根据获取到的运行性能数据分别构建每台主机的性能热力图;
服务器在采集到每台主机的运行性能数据之后,会分别构建每台主机的性能热力图,以直观地展示每台主机的运行性能数据。热力图的不同颜色可以反映对应性能数据的大小,比如颜色浅(绿色)表示资源消耗低,颜色深(红色)表示资源消耗高。运维人员只需查看某台主机的性能热力图,就可以直观地获知该台主机当前的运行负载状况。
103、若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,则获取所述目标主机的外部关联数据以及内部关联数据;
若检测到所述机房内任意的一台目标主机的性能热力图符合预设的条件,比如热力图为最高级别的红色,或者热力图在短时间内的变化幅度过大等异常情况,则系统会自动获取该目标主机的外部关联数据以及内部关联数据。
所述外部关联数据为与所述目标主机关联的外部环境数据,比如机房内该目标主机所处的机柜温度、该目标主机的风扇温度、电源温度、周围的环境湿度等数据。机房内会预先设置各类采集外部环境数据的传感器,然后分别为机房内的每台主机配置关联的外部环境数据,比如1号主机关联3号温度传感器、2号湿度传感器的数据等,从而可以确定每台主机的外部关联数据。
所述内部关联数据包括与所述目标主机的运行性能关联的上下游组件的状态数据、上层数据库的状态数据以及应用程序的状态数据。具体的,所述内部关联数据可以是与所述目标主机的运行性能数据关联的各类上下文对象的状态数据,这些关联的上下文对象同样可以预先设置,比如对于CPU负载这个运行性能数据,其关联的上下文对象的数据可以包括跟CPU负载相关的上下游组件、上层的DB、后端的存储对象、主机运行的各类高消耗APP的相关状态数据等。
104、根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。
服务器在获取到所述目标主机的外部关联数据以及内部关联数据之后,会根据这些数据构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。运维人员根据这些异常分析信息可以迅速地定位问题的产生原因,从而减少排查问题的时间。具体的,系统可以按照预设的某些规则判断获取到的外部关联数据以及内部关联数据是否异常,从而针对异常的状况构建异常分析信息,比如“机柜温度过高”、“电源电压不稳定”、“数据库读写情况异常”等。可以直接在监控主页面展示这些异常分析信息,也可以是当运维人员点击该目标主机的热力图时,才展示这些关联的数据和异常分析信息。
进一步的,步骤104可以包括:
(1)若所述外部关联数据的数值未落入预先设定的正常数值范围区间,则构建用于指示外部环境数值异常的异常分析信息;
(2)根据所述内部关联数据判断与所述目标主机的运行性能关联的上下游组件、上层数据库或者应用程序是否运行异常;
(3)若与所述目标主机的运行性能关联的上下游组件运行异常,则构建用于指示所述上下游组件异常的异常分析信息;
(4)若与所述目标主机的运行性能关联的上层数据库运行异常,则构建用于指示所述上层数据库异常的异常分析信息;
(5)若与所述目标主机的运行性能关联的应用程序运行异常,则构建用于指示所述应用程序异常的异常分析信息。
对于外部关联的环境数据,系统可以预先构建好每个数据的正常数值范围区间,比如电压范围(200~240V),温度范围(10~50℃),若采集到的外部关联数据的数值落入这个正常数值范围区间之内,则数据正常,否则为数据异常,构建相应的异常分析信息,如“主机风扇温度过高”,“主机电源电压异常”等信息;而对于内部关联数据,可以根据这些数据判断与所述目标主机的运行性能关联的上下游组件、上层数据库或者应用程序是否运行异常,若运行异常则构建相应的异常分析信息,如“X应用使用的进程数异常”、“Y数据库数据读取异常”等。
具体的,对于上述步骤(2),可以包括:
(2.1)根据所述上下游组件的状态数据判断所述上下游组件是否均正常启动;
(2.2)若所述上下游组件不是均正常启动,则判定所述上下游组件运行异常;
(2.3)根据所述上层数据库的状态数据判断所述上层数据库的各个状态参数是否均处于预设的标准范围之内;
(2.4)若所述上层数据库的各个状态参数不是均处于预设的标准范围之内,则判定所述上层数据库运行异常;
(2.5)根据所述应用程序的状态数据确定所述应用程序当前采用的进程数量;
(2.6)将所述应用程序当前采用的进程数量与预先构建的所述应用程序的标准进程数量进行比较;
(2.7)若所述应用程序当前采用的进程数量和所述标准进程数量之间的差别超过预设阈值,则判定所述应用程序运行异常。
对于上下游组件,根据获取到的状态数据即可直接获知该上下游组件是否正常启动运行。对于上层的数据库,可以通过判定各个状态参数是否均处于预设的标准范围之内来判定数据库是否异常。而对于与运行性能关联的应用程序,可以将该应用程序当前采用的进程数量与预先构建的所述应用程序的标准进程数量进行比较,若采用的进程数量差别过大则判定应用程序运行异常。比如,某个应用程序在运行时一般使用20个进程,若当前该应用程序使用的进程数量远远超过20个,则可判定该应用程序运行异常。
本发明实施例提出的主机异常监控方法包括:获取机房内每台主机的运行性能数据;根据获取到的运行性能数据分别构建每台主机的性能热力图;若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,则获取所述目标主机的外部关联数据以及内部关联数据;根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。通过这样设置,当机房内某台主机异常,运行性能数据出问题时,该主机的性能热力图会符合某种条件(比如热力图颜色的深度超过一定阈值),此时系统会自动获取与该主机的性能相关的外部关联数据和内部关联数据,并根据这些数据构建一定的异常分析信息,运维人员根据这些异常分析信息可以更迅速地定位问题的产生原因,从而能够有效减少排查主机问题的时间。
请参阅图2,本发明实施例中一种主机异常监控方法的第二个实施例包括:
201、获取机房内每台主机的运行性能数据;
202、根据获取到的运行性能数据分别构建每台主机的性能热力图;
步骤201-202与步骤101-102相同,具体可参照步骤101-102的相关说明。
203、若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,则查询所述目标主机的工作日程表;
对于某些主机来说,其性能热力图满足该预设条件,实质上为正常现象,比如某台主机正在执行高消耗的任务,则其热力图会表现为最高级别的红色,对于这类主机来说,不必获取其关联的数据,不必执行异常分析。因此,若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,首先查询所述目标主机的工作日程表,该工作日程表记录该目标主机的工作计划信息。
204、根据所述工作日程表判断所述目标主机当前时刻是否需要执行预定义的目标操作;
接着,根据所述工作日程表判断所述目标主机当前时刻是否需要执行预定义的目标操作,该目标操作可以是各类高系统资源消耗的操作,比如大量数据的读写操作。若所述目标主机当前时刻需要执行所述目标操作,则执行步骤205,若所述目标主机当前时刻无需执行所述目标操作,则执行步骤206。
205、忽略所述目标主机的性能热力图的异常信息;
所述目标主机当前时刻需要执行所述目标操作,表明此时该性能热力图表现出一定的异常是正常的现象,故可以忽略所述目标主机的性能热力图的异常信息。例如,当前时间为16:00,而目标主机A的工作计划在当天的15:00-17:00会执行大量数据的读写操作,需要极大的系统资源消耗,则当前该主机A的热力图为红色是正常现象,故可以忽略该性能热力图的异常信息,不必执行后续的构建错误指示信息的步骤。
进一步的,所述忽略所述目标主机的性能热力图的异常信息可以包括:
(1)检测所述目标主机是否已启动与所述目标操作关联的目标应用程序;
(2)若所述目标主机已启动与所述目标操作关联的目标应用程序,则忽略所述目标主机的性能热力图的异常信息。
有时候仅根据工作日程表的工作计划判断该目标主机是否正在执行目标操作不一定准确,为了提高判断的准确性,可以检测所述目标主机是否已启动与所述目标操作关联的目标应用程序,比如某个画图APP或大数据处理的APP是否已启动。若所述目标主机已启动与所述目标操作关联的目标应用程序,则可以判定该目标主机正在执行目标操作,此时忽略所述目标主机的性能热力图的异常信息。
206、获取所述目标主机的外部关联数据以及内部关联数据;
207、根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。
步骤206-207与步骤103-104相同,具体可参照步骤103-104的相关说明。
本发明实施例提出的主机异常监控方法包括:获取机房内每台主机的运行性能数据;根据获取到的运行性能数据分别构建每台主机的性能热力图;若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,则查询所述目标主机的工作日程表;根据所述工作日程表判断所述目标主机当前时刻是否需要执行预定义的目标操作;若所述目标主机当前时刻需要执行所述目标操作,则忽略所述目标主机的性能热力图的异常信息;若所述目标主机当前时刻无需执行所述目标操作,则获取所述目标主机的外部关联数据以及内部关联数据,根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。与本发明的第一个实施例相比,本实施例在发现某台目标主机的性能热力图满足预设的条件时,首先会查询所述目标主机的工作日程表,根据所述工作日程表判断所述目标主机当前时刻是否需要执行预定义的目标操作,若是则忽略所述目标主机的性能热力图的异常信息。通过这样设置,能够区分性能热力图满足条件属于正常状况或是出现异常,从而进一步提升主机异常监控的准确性与实用性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种主机异常监控方法,下面将对一种主机异常监控装置进行描述。
请参阅图3,本发明实施例中一种主机异常监控装置的一个实施例包括:
性能数据获取模块301,用于获取机房内每台主机的运行性能数据;
热力图构建模块302,用于根据获取到的运行性能数据分别构建每台主机的性能热力图;
关联数据获取模块303,用于若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,则获取所述目标主机的外部关联数据以及内部关联数据,所述外部关联数据为与所述目标主机关联的外部环境数据,所述内部关联数据包括与所述目标主机的运行性能关联的上下游组件的状态数据、上层数据库的状态数据以及应用程序的状态数据;
异常分析模块304,用于根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。
进一步的,所述主机异常监控装置还可以包括:
工作日程表查询模块,用于查询所述目标主机的工作日程表;
目标操作判断模块,用于根据所述工作日程表判断所述目标主机当前时刻是否需要执行预定义的目标操作;
异常信息忽略模块,用于若所述目标主机当前时刻需要执行所述目标操作,则忽略所述目标主机的性能热力图的异常信息;
数据获取执行模块,用于若所述目标主机当前时刻无需执行所述目标操作,则执行获取所述目标主机的外部关联数据以及内部关联数据的步骤。
更进一步的,所述异常信息忽略模块可以包括:
应用程序检测单元,用于检测所述目标主机是否已启动与所述目标操作关联的目标应用程序;
异常信息忽略单元,用于若所述目标主机已启动与所述目标操作关联的目标应用程序,则忽略所述目标主机的性能热力图的异常信息。
进一步的,所述异常分析模块可以包括:
第一信息构建单元,用于若所述外部关联数据的数值未落入预先设定的正常数值范围区间,则构建用于指示外部环境数值异常的异常分析信息;
异常判断单元,用于根据所述内部关联数据判断与所述目标主机的运行性能关联的上下游组件、上层数据库或者应用程序是否运行异常;
第二信息构建单元,用于若与所述目标主机的运行性能关联的上下游组件运行异常,则构建用于指示所述上下游组件异常的异常分析信息;
第三信息构建单元,用于若与所述目标主机的运行性能关联的上层数据库运行异常,则构建用于指示所述上层数据库异常的异常分析信息;
第四信息构建单元,用于若与所述目标主机的运行性能关联的应用程序运行异常,则构建用于指示所述应用程序异常的异常分析信息。
更进一步的,所述异常判断单元可以包括:
组件启动检测子单元,用于根据所述上下游组件的状态数据判断所述上下游组件是否均正常启动;
第一判定子单元,用于若所述上下游组件不是均正常启动,则判定所述上下游组件运行异常;
数据库状态检测子单元,用于根据所述上层数据库的状态数据判断所述上层数据库的各个状态参数是否均处于预设的标准范围之内;
第二判定子单元,用于若所述上层数据库的各个状态参数不是均处于预设的标准范围之内,则判定所述上层数据库运行异常;
进程数量统计子单元,用于根据所述应用程序的状态数据确定所述应用程序当前采用的进程数量;
进程数量比较子单元,用于将所述应用程序当前采用的进程数量与预先构建的所述应用程序的标准进程数量进行比较;
第三判定子单元,用于若所述应用程序当前采用的进程数量和所述标准进程数量之间的差别超过预设阈值,则判定所述应用程序运行异常。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如图1或图2表示的任意一种主机异常监控方法的步骤。
本发明实施例还提供一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如图1或图2表示的任意一种主机异常监控方法的步骤。
图4是本发明一实施例提供的服务器的示意图。如图4所示,该实施例的服务器4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机可读指令42。所述处理器40执行所述计算机可读指令42时实现上述各个应用推广效果的评估方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器40执行所述计算机可读指令42时实现上述各装置实施例中各模块/单元的功能,例如图3所示模块301至304的功能。
示例性的,所述计算机可读指令42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令42在所述服务器4中的执行过程。
所述服务器4可以是智能手机、笔记本、掌上电脑及云端服务器等计算设备。所述服务器4可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是服务器4的示例,并不构成对服务器4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器4还可以包括输入输出设备、网络接入设备、总线等。
所述处理器40可以是中央处理单元(CentraL Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(DigitaL SignaL Processor,DSP)、专用集成电路(AppLication Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieLd-ProgrammabLe Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述服务器4的内部存储单元,例如服务器4的硬盘或内存。所述存储器41也可以是所述服务器4的外部存储设备,例如所述服务器4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure DigitaL,SD)卡,闪存卡(FLash Card)等。进一步地,所述存储器41还可以既包括所述服务器4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnLyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种主机异常监控方法,其特征在于,包括:
获取机房内每台主机的运行性能数据;
根据获取到的运行性能数据分别构建每台主机的性能热力图;
若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,则获取所述目标主机的外部关联数据以及内部关联数据,所述外部关联数据为与所述目标主机关联的外部环境数据,所述内部关联数据包括与所述目标主机的运行性能关联的上下游组件的状态数据、上层数据库的状态数据以及应用程序的状态数据;
根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。
2.根据权利要求1所述的主机异常监控方法,其特征在于,若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,在获取所述目标主机的外部关联数据以及内部关联数据之前,还包括:
查询所述目标主机的工作日程表;
根据所述工作日程表判断所述目标主机当前时刻是否需要执行预定义的目标操作;
若所述目标主机当前时刻需要执行所述目标操作,则忽略所述目标主机的性能热力图的异常信息;
若所述目标主机当前时刻无需执行所述目标操作,则执行获取所述目标主机的外部关联数据以及内部关联数据的步骤。
3.根据权利要求2所述的主机异常监控方法,其特征在于,所述忽略所述目标主机的性能热力图的异常信息包括:
检测所述目标主机是否已启动与所述目标操作关联的目标应用程序;
若所述目标主机已启动与所述目标操作关联的目标应用程序,则忽略所述目标主机的性能热力图的异常信息。
4.根据权利要求1至3中任一项所述的主机异常监控方法,其特征在于,所述根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息包括:
若所述外部关联数据的数值未落入预先设定的正常数值范围区间,则构建用于指示外部环境数值异常的异常分析信息;
根据所述内部关联数据判断与所述目标主机的运行性能关联的上下游组件、上层数据库或者应用程序是否运行异常;
若与所述目标主机的运行性能关联的上下游组件运行异常,则构建用于指示所述上下游组件异常的异常分析信息;
若与所述目标主机的运行性能关联的上层数据库运行异常,则构建用于指示所述上层数据库异常的异常分析信息;
若与所述目标主机的运行性能关联的应用程序运行异常,则构建用于指示所述应用程序异常的异常分析信息。
5.根据权利要求4所述的主机异常监控方法,其特征在于,所述根据所述内部关联数据判断与所述目标主机的运行性能关联的上下游组件、上层数据库或者应用程序是否运行异常包括:
根据所述上下游组件的状态数据判断所述上下游组件是否均正常启动;
若所述上下游组件不是均正常启动,则判定所述上下游组件运行异常;
根据所述上层数据库的状态数据判断所述上层数据库的各个状态参数是否均处于预设的标准范围之内;
若所述上层数据库的各个状态参数不是均处于预设的标准范围之内,则判定所述上层数据库运行异常;
根据所述应用程序的状态数据确定所述应用程序当前采用的进程数量;
将所述应用程序当前采用的进程数量与预先构建的所述应用程序的标准进程数量进行比较;
若所述应用程序当前采用的进程数量和所述标准进程数量之间的差别超过预设阈值,则判定所述应用程序运行异常。
6.一种主机异常监控装置,其特征在于,包括:
性能数据获取模块,用于获取机房内每台主机的运行性能数据;
热力图构建模块,用于根据获取到的运行性能数据分别构建每台主机的性能热力图;
关联数据获取模块,用于若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,则获取所述目标主机的外部关联数据以及内部关联数据,所述外部关联数据为与所述目标主机关联的外部环境数据,所述内部关联数据包括与所述目标主机的运行性能关联的上下游组件的状态数据、上层数据库的状态数据以及应用程序的状态数据;
异常分析模块,用于根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的主机异常监控方法的步骤。
8.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
获取机房内每台主机的运行性能数据;
根据获取到的运行性能数据分别构建每台主机的性能热力图;
若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,则获取所述目标主机的外部关联数据以及内部关联数据,所述外部关联数据为与所述目标主机关联的外部环境数据,所述内部关联数据包括与所述目标主机的运行性能关联的上下游组件的状态数据、上层数据库的状态数据以及应用程序的状态数据;
根据所述外部关联数据以及所述内部关联数据,构建所述目标主机的异常分析信息,并在预设的显示界面展示所述异常分析信息。
9.根据权利要求8所述的服务器,其特征在于,若检测到所述机房内任意的一台目标主机的性能热力图满足预设的条件,在获取所述目标主机的外部关联数据以及内部关联数据之前,还包括:
查询所述目标主机的工作日程表;
根据所述工作日程表判断所述目标主机当前时刻是否需要执行预定义的目标操作;
若所述目标主机当前时刻需要执行所述目标操作,则忽略所述目标主机的性能热力图的异常信息;
若所述目标主机当前时刻无需执行所述目标操作,则执行获取所述目标主机的外部关联数据以及内部关联数据的步骤。
10.根据权利要求9所述的服务器,其特征在于,所述忽略所述目标主机的性能热力图的异常信息包括:
检测所述目标主机是否已启动与所述目标操作关联的目标应用程序;
若所述目标主机已启动与所述目标操作关联的目标应用程序,则忽略所述目标主机的性能热力图的异常信息。
CN201910871481.6A 2019-09-16 2019-09-16 一种主机异常监控方法、装置、存储介质和服务器 Active CN110727586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910871481.6A CN110727586B (zh) 2019-09-16 2019-09-16 一种主机异常监控方法、装置、存储介质和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910871481.6A CN110727586B (zh) 2019-09-16 2019-09-16 一种主机异常监控方法、装置、存储介质和服务器

Publications (2)

Publication Number Publication Date
CN110727586A true CN110727586A (zh) 2020-01-24
CN110727586B CN110727586B (zh) 2024-05-31

Family

ID=69219036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910871481.6A Active CN110727586B (zh) 2019-09-16 2019-09-16 一种主机异常监控方法、装置、存储介质和服务器

Country Status (1)

Country Link
CN (1) CN110727586B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611254A (zh) * 2020-04-30 2020-09-01 广东良实机电工程有限公司 设备能耗异常监测方法、装置、终端设备及存储介质
CN111611255A (zh) * 2020-04-30 2020-09-01 广东良实机电工程有限公司 设备能耗节能管理方法、装置、终端设备及存储介质
CN111679951A (zh) * 2020-05-29 2020-09-18 中国人民银行清算总中心 基于交易支付系统的监控方法及装置

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104243185A (zh) * 2013-06-06 2014-12-24 神州数码系统集成服务有限公司 一种体验式业务监控系统与方法
CN104410686A (zh) * 2014-11-25 2015-03-11 江苏省电力公司扬州供电公司 一种银电网络智能监控系统
WO2015074575A1 (zh) * 2013-11-21 2015-05-28 北京国双科技有限公司 获取立体热力图的方法及装置
CN105490833A (zh) * 2015-11-19 2016-04-13 国家电网公司 一种信息系统的巡检系统与方法
CN106054787A (zh) * 2016-08-17 2016-10-26 深圳飞思安诺网络技术有限公司 一种基于硬件的机房网管和动力环境统一监控报警系统
CN106886475A (zh) * 2017-01-23 2017-06-23 北京思特奇信息技术股份有限公司 一种监控服务器及基于命令行的主机监控方法
CN107426004A (zh) * 2017-05-03 2017-12-01 深圳市众泰兄弟科技发展有限公司 一种基于大数据的网络安全可视化处理方法
CN107678915A (zh) * 2017-09-16 2018-02-09 广西电网有限责任公司电力科学研究院 一种输变电设备监测平台基础资源监控方法
CN107886242A (zh) * 2017-11-10 2018-04-06 平安科技(深圳)有限公司 数据监控方法、装置、计算机设备及存储介质
CN107977301A (zh) * 2017-11-21 2018-05-01 东软集团股份有限公司 设备异常的检测方法、装置、存储介质及电子设备
CN109039740A (zh) * 2018-08-01 2018-12-18 平安科技(深圳)有限公司 一种处理运维监控告警的方法及设备
CN109144820A (zh) * 2018-08-31 2019-01-04 新华三信息安全技术有限公司 一种异常主机的检测方法及装置
CN109597735A (zh) * 2018-11-30 2019-04-09 首约科技(北京)有限公司 监控方法、系统以及存储介质
CN109639450A (zh) * 2018-10-23 2019-04-16 平安壹钱包电子商务有限公司 基于神经网络的故障告警方法、计算机设备及存储介质
CN109726072A (zh) * 2018-07-18 2019-05-07 平安科技(深圳)有限公司 WebLogic服务器的监控告警方法、装置、系统及计算机存储介质
CN109992486A (zh) * 2019-04-02 2019-07-09 北京睿至大数据有限公司 一种基于时序和热力图的it故障展示方法
CN110175451A (zh) * 2019-04-23 2019-08-27 国家电网公司华东分部 一种基于电力云的安全监控方法和系统

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104243185A (zh) * 2013-06-06 2014-12-24 神州数码系统集成服务有限公司 一种体验式业务监控系统与方法
WO2015074575A1 (zh) * 2013-11-21 2015-05-28 北京国双科技有限公司 获取立体热力图的方法及装置
CN104410686A (zh) * 2014-11-25 2015-03-11 江苏省电力公司扬州供电公司 一种银电网络智能监控系统
CN105490833A (zh) * 2015-11-19 2016-04-13 国家电网公司 一种信息系统的巡检系统与方法
CN106054787A (zh) * 2016-08-17 2016-10-26 深圳飞思安诺网络技术有限公司 一种基于硬件的机房网管和动力环境统一监控报警系统
CN106886475A (zh) * 2017-01-23 2017-06-23 北京思特奇信息技术股份有限公司 一种监控服务器及基于命令行的主机监控方法
CN107426004A (zh) * 2017-05-03 2017-12-01 深圳市众泰兄弟科技发展有限公司 一种基于大数据的网络安全可视化处理方法
CN107678915A (zh) * 2017-09-16 2018-02-09 广西电网有限责任公司电力科学研究院 一种输变电设备监测平台基础资源监控方法
CN107886242A (zh) * 2017-11-10 2018-04-06 平安科技(深圳)有限公司 数据监控方法、装置、计算机设备及存储介质
CN107977301A (zh) * 2017-11-21 2018-05-01 东软集团股份有限公司 设备异常的检测方法、装置、存储介质及电子设备
CN109726072A (zh) * 2018-07-18 2019-05-07 平安科技(深圳)有限公司 WebLogic服务器的监控告警方法、装置、系统及计算机存储介质
CN109039740A (zh) * 2018-08-01 2018-12-18 平安科技(深圳)有限公司 一种处理运维监控告警的方法及设备
CN109144820A (zh) * 2018-08-31 2019-01-04 新华三信息安全技术有限公司 一种异常主机的检测方法及装置
CN109639450A (zh) * 2018-10-23 2019-04-16 平安壹钱包电子商务有限公司 基于神经网络的故障告警方法、计算机设备及存储介质
CN109597735A (zh) * 2018-11-30 2019-04-09 首约科技(北京)有限公司 监控方法、系统以及存储介质
CN109992486A (zh) * 2019-04-02 2019-07-09 北京睿至大数据有限公司 一种基于时序和热力图的it故障展示方法
CN110175451A (zh) * 2019-04-23 2019-08-27 国家电网公司华东分部 一种基于电力云的安全监控方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
马海明 等: "广发银行集中监控平台:从面向资源到面向业务监控", 中国金融电脑, no. 06, 7 June 2013 (2013-06-07), pages 72 - 73 *
黄红兵 等: "基于ZigBee的电力通信机房可视化监控系统", 电力信息与通信技术, no. 01 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611254A (zh) * 2020-04-30 2020-09-01 广东良实机电工程有限公司 设备能耗异常监测方法、装置、终端设备及存储介质
CN111611255A (zh) * 2020-04-30 2020-09-01 广东良实机电工程有限公司 设备能耗节能管理方法、装置、终端设备及存储介质
CN111611254B (zh) * 2020-04-30 2023-05-09 广东良实机电工程有限公司 设备能耗异常监测方法、装置、终端设备及存储介质
CN111611255B (zh) * 2020-04-30 2023-12-12 广东良实机电工程有限公司 设备能耗节能管理方法、装置、终端设备及存储介质
CN111679951A (zh) * 2020-05-29 2020-09-18 中国人民银行清算总中心 基于交易支付系统的监控方法及装置
CN111679951B (zh) * 2020-05-29 2024-04-12 中国人民银行清算总中心 基于交易支付系统的监控方法及装置

Also Published As

Publication number Publication date
CN110727586B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN110727586B (zh) 一种主机异常监控方法、装置、存储介质和服务器
CN111178760B (zh) 风险监测方法、装置、终端设备及计算机可读存储介质
CN110750413B (zh) 多机房温度报警方法、装置及存储介质
WO2023115999A1 (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN112882796A (zh) 异常根因分析方法和装置,及存储介质
CN113220537B (zh) 一种软件监控方法、装置、设备及可读存储介质
CN111637924B (zh) 一种挖掘机异常的检测方法、检测装置及可读存储介质
US20220121345A1 (en) Screen display control method, computer device, and computer readable storage medium
CN114327983A (zh) 一种基于日志的故障确定方法、装置、设备和介质
CN110580220A (zh) 测量代码段执行时间的方法及终端设备
CN116436823B (zh) 智能网卡的状态监控方法及相关设备
CN112416896A (zh) 数据异常的报警方法和装置、存储介质、电子装置
CN111782434A (zh) 异常检测方法、装置和电子设备
CN111651503B (zh) 一种配电网数据异常识别方法、系统及终端设备
TWI771759B (zh) 電源故障監測方法、裝置、電子設備及存儲介質
CN111291239B (zh) 机组测试方法、装置、设备和存储介质
CN115111703A (zh) 用于水冷空调脏堵检测的方法、终端及存储介质
CN113918396A (zh) 一种测试触摸板的系统、方法、装置及介质
CN111650909A (zh) 一种污水处理工艺的智能控制系统、方法、可读存储介质及装置
CN111176931A (zh) 一种运营监控方法、装置、服务器及存储介质
CN114184361B (zh) 一种交换机风扇信息检测方法、装置以及介质
CN116577551B (zh) Ssd功耗测试方法、系统及电子设备
CN114838454B (zh) 一种空气调节设备的测试方法、装置、设备及存储介质
CN117055718B (zh) 一种服务器功耗检测系统、方法、装置、设备和存储介质
CN118098322A (zh) 一种硬盘旋转振动测试方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant