CN113297038A - 监控与数据处理方法、装置、设备及监控系统、数据中心 - Google Patents

监控与数据处理方法、装置、设备及监控系统、数据中心 Download PDF

Info

Publication number
CN113297038A
CN113297038A CN202010266505.8A CN202010266505A CN113297038A CN 113297038 A CN113297038 A CN 113297038A CN 202010266505 A CN202010266505 A CN 202010266505A CN 113297038 A CN113297038 A CN 113297038A
Authority
CN
China
Prior art keywords
data
monitoring
monitored
monitoring data
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010266505.8A
Other languages
English (en)
Other versions
CN113297038B (zh
Inventor
刘帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010266505.8A priority Critical patent/CN113297038B/zh
Publication of CN113297038A publication Critical patent/CN113297038A/zh
Application granted granted Critical
Publication of CN113297038B publication Critical patent/CN113297038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/321Display for diagnostics, e.g. diagnostic result display, self-test user interface

Abstract

本申请实施例提供一种监控与数据处理方法、装置、设备及监控系统、数据中心。其中,方法包括如下的步骤:获取部署在被监控节点上的监控脚本监控到的监控数据;将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;根据纠正后监控数据,判断所述被监控节点是否存在异常。本申请实施例提供的技术方案能够快速对错误的监控数据进行纠正,以避免错误的监控数据对后续处理流程的不利影响,也即能够快速解决存在问题的监控脚本对后续处理流程的不利影响等技术问题。

Description

监控与数据处理方法、装置、设备及监控系统、数据中心
技术领域
本申请涉及计算机技术领域,尤其涉及一种监控与数据处理方法、装置、设备及监控系统、数据中心。
背景技术
随着数据中心建设规模和复杂度的增加,运维的工作变得更加繁琐。为了节省人力、同时避免人为操作的失误,在数据中心的服务器上部署监控脚本来监控服务器的运行情况成为了必然选择。
在实际应用中,一旦服务器上部署的监控脚本存在某些问题返回错误的数据信息,这些存在错误的数据信息会对服务器故障的判定产生错误的影响。
发明内容
鉴于上述问题,提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的监控与数据处理方法、装置、设备及监控系统、数据中心。
于是,在本申请的一个实施例中,提供了一种监控方法。该方法包括:
获取部署在被监控节点上的监控脚本监控到的监控数据;
将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;
根据纠正后监控数据,判断所述被监控节点是否存在异常。
在本申请的另一个实施例中,提供了一种数据处理方法。该方法包括:
获取部署在被监控节点上的监控脚本监控到的监控数据;
将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正。
在本申请的一实施例中,提供了一种监控系统。该监控系统,包括:监控平台以及多个被监控节点;
其中,所述监控平台用于:获取部署在被监控节点上的监控脚本监控到的监控数据;将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;根据纠正后监控数据,判断所述监控数据对应的被监控节点是否存在异常。
在本申请的一实施例中,提供了一种数据中心。该数据中心,包括:监控平台以及多个服务器;
其中,所述监控平台用于:获取部署在服务器上的监控脚本监控到的监控数据;将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;根据纠正后监控数据,判断所述监控数据对应的服务器是否存在异常。
在本申请的一实施例中,提供了一种监控装置。该监控装置,包括:
第一获取模块,用于获取部署在被监控节点上的监控脚本监控到的监控数据;
第一匹配模块,用于将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
第一运行模块,用于若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;
第一判断模块,用于根据纠正后监控数据,判断所述被监控节点是否存在异常。
在本申请的另一实施例中,提供了一种数据处理装置。该数据处理装置,包括:
第一获取模块,用于获取部署在被监控节点上的监控脚本监控到的监控数据;
第一匹配模块,用于将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
第一运行模块,用于若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正。
在本申请的一实施例中,提供了一种电子设备。该电子设备,包括:
存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取部署在被监控节点上的监控脚本监控到的监控数据;
将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;
根据纠正后监控数据,判断所述被监控节点是否存在异常。
在本申请的另一实施例中,提供了一种电子设备。该电子设备,包括:存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取部署在被监控节点上的监控脚本监控到的监控数据;
将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正。
本申请实施例提供的技术方案中,将被监控节点上的监控脚本监控到的监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配,若匹配上,说明监控数据存在错误,需要纠正;执行与监控数据相匹配的纠正方案即可完成对监控数据本身的纠正。本申请实施例提供的技术方案能够快速对错误的监控数据进行纠正,以避免错误的监控数据对后续处理流程的不利影响,也即能够快速解决存在问题的监控脚本对后续处理流程的不利影响等技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的监控系统的结构框图;
图2为本申请一实施例提供的监控方法的流程示意图;
图3为本申请另一实施例提供的数据处理方法的流程示意图;
图4为本申请一实施例提供的数据中心示例图;
图5为本申请一实施例提供的监控装置的结构框图;
图6为本申请另一实施例提供的数据处理装置的结构框图;
图7为本申请一实施例提供的电子设备的结构框图。
具体实施方式
为了避免存在问题的监控脚本所带来的不利影响,现有的解决方案是修改监控脚本,再将修改之后的监控脚本部署到全网服务器上,后续全网服务器根据修改后的监控脚本来采集数据信息。目前,规模较大的数据中心中都会存在大量的服务器,更新全网服务器上部署的监控脚本是一个耗时非常长的过程,通常需要半个月或一个月的时间。其部署过程通常是:先部署到小部分服务器上;再分批部署到其他服务器上。并且,在部署的过程中,监控平台是无法对那些尚未部署到修改后的监控脚本的服务器进行有效监控的,这样很可能会影响整个数据中心的运作过程。
术语解释:
数据中心:全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。
监控脚本:部署在物理服务器上,执行脚本可获取服务器运行信息、硬件等信息,用于故障判定;通常是由python shell等编程语言编写。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图1示出了本申请一实施例提供的监控系统的结构框图。如图1所示,该监控系统包括:监控平台100以及多个被监控节点200;
其中,所述监控平台100用于:获取部署在被监控节点200上的监控脚本监控到的监控数据;将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;根据纠正后监控数据,判断所述监控数据对应的被监控节点200是否存在异常。
其中,所述多个被监控节点上可部署有相同的监控脚本。被监控节点可通过执行已部署的监控脚本来采集监控数据,并将监控脚本监控到的监控数据发送给监控平台100。在一种可实现的方案中,被监控节点可每隔预设时间间隔执行一次已部署的监控脚本来采集监控数据,并发送给监控平台100。
实际应用中,多个被监控节点可以为数据中心的多个服务器;或者为多个边缘计算服务器。
其中,监控平台具体可以为一台监控服务器或者由多台监控服务器组成的分布式监控平台,本申请对此不作具体限定。通常,在规模较大的数据中心,该监控平台具体可以为多台监控服务器组成的分布式监控平台。
本申请实施例提供的技术方案中,将被监控节点上的监控脚本监控到的监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配,若匹配上,说明监控数据存在错误,需要纠正;执行与监控数据相匹配的纠正方案即可完成对监控数据本身的纠正。与现有技术相比,本申请实施例提供的技术方案能够快速对错误的监控数据进行纠正,以避免错误的监控数据对后续处理流程的不利影响,也即能够快速解决存在问题的监控脚本对后续处理流程的不利影响等技术问题。
为了清楚地了解监控系统中各个设备的处理过程,下面分别对监控平台、被监控节点的处理过程及其交互过程进行详细说明。
图2示出了本申请实施例提供的监控方法的流程示意图。本方法的执行主体可以为上述监控平台。该监控平台具体可以为一台监控服务器,也可以为多台监控服务器组成的分布式监控平台,本申请实施例对此不作具体限定。如图2所示,该方法包括:
101、获取部署在被监控节点上的监控脚本监控到的监控数据。
102、将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配。
103、若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正。
104、根据纠正后监控数据,判断所述被监控节点是否存在异常。
上述101中,所述被监控节点可以为数据中心的服务器;或者为边缘计算服务器,也称为边缘计算节点。边缘计算指的是在数据产生源附近分析、处理数据,减少网络流量和响应时间。
被监控节点可在开启之后,执行其上部署的监控脚本,以监控得到有关本地的运行情况的监控数据,例如:硬件运行情况。具体地,被监控节点可每隔预设时间间隔执行一次其上部署的监控脚本,并将监控到的监控数据发送给监控平台。在一实例中,所述监控数据具体可用于硬件故障判定;所述监控数据中包括有关所述被监控节点的硬件运行信息。
在一实例中,上述101中“获取部署在被监控节点上的监控脚本监控到的监控数据”,具体可以为:接收被监控节点发送来的其上部署的监控脚本监控到的监控数据。
上述102中,在实际应用时,为了节省时间,用于纠正监控数据错误的至少一个纠正方案可以是事先配置好的,直接获取即可。上述纠正方案可由用户(具体可以为运维人员)根据实际情况设计得到,用于对存在错误的监控数据进行纠正。
在实际应用中,当某个监控脚本出现机型不兼容等问题时,其监控到的监控数据是会存在错误的。针对新出现的错误,监控平台是无法发现的,也就是说监控平台会将存在新出现错误的监控数据当成是正确的监控数据进行后续故障判定处理。由于基于存在新出现错误的监控数据得到的故障判定结果很可能会出现偏差,例如:故障判定结果显示的是硬盘故障,运维人员通过排查发现并非是硬盘故障,而是内存故障。这时运维人员即可发现用于支撑该故障判定结果的监控数据是存在错误的,也即监控到该监控数据的监控脚本存在问题。运维人员可根据排查结果、该监控数据以及监控到该监控数据的监控脚本内部的代码逻辑,进行分析,得到解决方案;然后根据该解决方案,确定一个纠正方案,用于纠正上述新出现错误。这样,采用本申请实施例提供的技术方案,后续监控平台获取到存在该新出现错误的监控数据后,就能够及时发现并纠正错误。
将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配过程,实质上也是判断所述监控数据是否存在错误的过程。一旦与某个纠正方案匹配上,则说明该监控数据存在错误。
上述103中,执行与监控数据匹配的纠正方案,以对监控数据进行纠正,得到纠正后监控数据。对监控数据进行纠正,也即是将监控数据中的出错位置处的错误数据替换成正确数据。
上述104中,上述异常具体可以为硬件异常,例如:硬盘、内存、CPU(centralprocessing unit,中央处理器)等异常。
本申请实施例提供的技术方案中,将被监控节点上的监控脚本监控到的监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配,若匹配上,说明监控数据存在错误,需要纠正;执行与监控数据相匹配的纠正方案即可完成对监控数据本身的纠正。与现有技术相比,本申请实施例提供的技术方案能够快速对错误的监控数据进行纠正,以避免错误的监控数据对后续处理流程的不利影响,也即能够快速解决存在问题的监控脚本对后续处理流程的不利影响等技术问题。
在一种可实现的方案中,上述纠正方案包括纠正代码。该纠正代码具体为未经编译的源代码。通常,监控平台在上述步骤101之前,即在获取部署在被监控节点上的监控脚本监控到的监控数据之前,就已经编译并执行了一套用于针对监控数据进行处理的处理程序。该处理程序对应的处理源代码并不包含上述至少一个纠正代码。为了能够利用匹配到的与监控数据相匹配的纠正代码来对监控数据进行纠正,需要先动态编译与监控数据相匹配的纠正代码得到可执行代码;然后执行该可执行代码对监控数据进行纠正。因此,上述步骤103中“执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正”,具体可以为:
1031、动态编译并执行与所述监控数据相匹配的纠正代码以对所述监控数据进行纠正。
可利用规则引擎,来动态编译并执行与所述监控数据相匹配的纠正代码以对所述监控数据进行纠正。在一实例中,可具体可采用QLExpress规则引擎。QLExpress规则引擎是轻量级的类java语法规则引擎。
在本实施例中,通过直接配置源代码,动态执行配置的源代码来达到快速纠错的目的,无需修改监控平台上运行的针对监控数据进行处理的处理程序,进而免去针对监控平台,重新编译、打包、部署等耗时的操作;同时,也无需修改被监控节点上的监控脚本,进而免去针对被监控节点,重新部署等耗时的操作。需要补充的是,当监控平台为多台监控服务器组成的分布式监控平台时,针对监控平台,重新编译、打包、部署等操作也是非常耗时的。
在一种可实现的方案中,所述至少一个纠正方案中包括第一纠正方案。上述102中“将所述监控数据与用于纠正监控数据错误的第一纠正方案进行匹配”,具体可采用如下步骤来实现:
1021、从所述第一纠正方案中提取纠正条件。
1022、当所述监控数据满足所述纠正条件时,确定所述第一纠正方案与所述监控数据相匹配。
上述1021中,第一纠正方案指代的是上述至少一个纠正方案中的任意一个。第一纠正方案中包含有纠正条件,只有监控数据满足了纠正条件,才会对监控数据执行该第一纠正方案对应的纠正逻辑进行纠正。第一纠正方案包括纠正代码,该纠正代码也即为条件语句。
上述1022中,上述监控数据中可包括相应监控项的运行异常提示信息及其异常的原因。上述监控项可根据实际需要来设定,本申请实施例对此不作具体限定。实际应用时,上述监控项可以为内存、硬盘或电源等。
当所述监控数据满足纠正条件时,确定所述第一纠正方案与所述监控数据匹配;当所述监控数据不满足纠正条件时,确定所述第一纠正方案与所述监控数据不匹配。实际应用时,当监控数据中包含有上述纠正条件时,则可判定监控数据满足该纠正条件。上述纠正条件中可包含有一个或多个条件项。条件项的数量以及条件项的具体内容,可根据实际需要来设定,本申请实施例对此不作具体限定。
举例来说:第一纠正方案中的纠正条件Z中包括:错误代码(errorcode)为ABC;监控数据J中包括:有关硬盘的运行异常提示信息及其异常的原因,其中,运行异常提示信息为“硬盘读写失败”;异常的原因有“错误代码ABC”。由于监控数据J中包含有纠正条件中的“错误代码ABC”,故监控数据J满足纠正条件Z。监控数据I满足纠正条件Z,也即第一纠正方案与监控数据J匹配,后续可执行该第一纠正方案对监控数据J进行纠正。
考虑到实际应用时,有时同一监控脚本在机型A的设备上能够监控到正确的监控数据;而在另一机型B的设备上就很可能会监控到错误的监控数据。也就是说,在判断监控数据是否存在错误时,是需要结合机型来判断的。故上述监控数据中还可携带有被监控节点的设备标识信息。其中,所述设备标识信息具体可以为机器号,即SN码(Serial Number)。这样,在某些情况下,可在纠正方案中的纠正条件中加入与设备标识信息相关的条件项。
实际应用时,运行在被监控节点上的监控脚本通常是从被监控节点上采集一些服务器产生的原始数据,然后根据自身的内部逻辑对这些原始数据进行逻辑处理,得到最终的监控数据。监控脚本可从被监控节点的运行日志中获取原始数据,或者,通过命令的方式直接来获取原始数据。当监控脚本自身的内部逻辑出现问题时,其监控到的监控数据就会存在错误。
在一实例中,可以事先将上述用于纠正监控数据错误的至少一个纠正方案保存在数据库中,以方便监控平台后续获取。该数据库可保存在监控平台的本地存储器中。也即上述方法,还可包括:
105、从数据库中,获取用于纠正监控数据错误的至少一个纠正方案。
在实际应用时,如果从数据库读取太过频繁的话,可增加缓存,以降低时延。这样,后续即可从缓存中,获取用于纠正监控数据错误的至少一个纠正方案。此外,由于数据库中的纠正方案很可能会发生变化,例如:会增加新的纠正方案,故可每隔预设时间间隔,从数据库中,获取用于纠正监控数据错误的至少一个纠正方案,以对所述缓存进行更新。其中,预设时间间隔可根据实际需要来设定,本申请实施例对此不作具体限定,例如:1分钟。这样,不仅可减低时延,还能确保能够及时对新发现的错误进行纠正。
为了方便用户(例如:运维人员)的运维工作,可提供一方案配置界面,以供用户从方案配置界面输入用于纠正监控数据错误的新的纠正方案,以纠正新出现的错误。具体地,上述方法,还可包括:
106、接收用户从方案配置界面输入的用于纠正监控数据错误的新的纠正方案。
107、将所述新的纠正方案存入所述数据库中,以供后续获取。
上述106中,所述新的纠正方案可以为所述用户根据分析结果进行编写的。所述分析结果是对新出现错误对应的监控数据以及监控到所述新出现错误对应的监控数据的监控脚本内部的代码逻辑进行分析得到的。当然,上述分析结果还可包括:新出现错误对应的排查结果。
当然,在实际应用时,上述新的纠正方案包括新的纠正代码,除了人工编写上述新的纠正代码外,还可自动生成,例如:计算机根据上述分析结果自动生成新的纠正代码。
可选地,上述104中“根据纠正后监控数据,判断所述被监控节点是否存在异常”,具体可采用如下步骤来实现:
1041、获取故障判定规则。
1042、结合所述故障判定规则,根据所述纠正后监控数据,判断所述被监控节点是否存在异常。
通常,纠正后监控数据中会包含有各种各样的故障信息,有些故障信息是可以直接判定出被监控节点存在异常的,而有些故障信息是不能直接判定被监控节点是否存在异常的。故在实际应用中,可将故障信息进行分类,分成第一类型故障信息和第二类型故障信息。第一类型故障信息指的是能够直接判定出被监控节点存在异常的故障信息;第二类型故障信息指的是不能够直接判定出被监控节点存在异常的故障信息。
具体实施时,上述故障判定规则中可包含有第一类型故障信息。若纠正后监控数据中包含有第一类型故障信息,则判定被监控节点存在异常。
上述故障判定规则中还可包含有第二类型故障信息及其对应的预设次数。判断所述纠正后监控数据中是否包含有所述第二类型故障信息;若所述纠正后监控数据中包含有所述第二类型故障信息,则获取当前有关所述第二类型故障信息对应的故障发生次数;若故障发生次数大于或等于所述预设次数,则判定被监控节点存在异常。其中,预设次数可根据实际需要来设定,本申请对此不作具体限定。
此外,为了方便用户配置故障判定规则,也可为用户配置一规则配置界面,以供用户通过该规则配置界面配置故障判定规则或更新故障判定规则。
进一步的,上述方法,还可包括:
108、判断出所述被监控节点存在异常时,根据所述纠正后监控数据,发出故障告警信息。
实际应用时,可向维修平台发出故障告警信息或者向维修人员发出故障告警的邮件等,具体方式可根据实际需要来选择,本申请实施例对此不作具体限定。
此外,可将纠正后监控数据中的故障信息携带在故障告警信息中,以便维修人员根据故障信息进行后续的维修、更换等流程。
综上所述,本申请实施例提供的技术方案是通过直接配置纠正代码,动态执行纠正代码实现快速纠错的目的。
图3示出了本申请一实施例提供的数据处理方法的流程示意图。本方法的执行主体可以为上述监控平台。该监控平台具体可以为一台监控服务器,也可以为多台监控服务器组成的分布式监控平台,本申请实施例对此不作具体限定。
如图3所示,该方法,包括:
201、获取部署在被监控节点上的监控脚本监控到的监控数据。
202、将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配。
203、若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正。
上述步骤201、202和203的具体实现可参见上述各实施例中相应内容,在此不再赘述。
本申请实施例提供的技术方案中,将被监控节点上的监控脚本监控到的监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配,若匹配上,说明监控数据存在错误,需要纠正;执行与监控数据相匹配的纠正方案即可完成对监控数据本身的纠正。与现有技术相比,本申请实施例提供的技术方案能够快速对错误的监控数据进行纠正,以避免错误的监控数据对后续处理流程的不利影响,也即能够快速解决存在问题的监控脚本对后续处理流程的不利影响等技术问题。
可选地,所述纠正方案包括纠正代码。上述203中“执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正”,具体包括:
2031、动态编译并执行与所述监控数据相匹配的纠正代码以对所述监控数据进行纠正。
上述2031的具体实现方式可参见上述各实施例中相应内容,在此不再赘述。
可选地,上述方法,还可包括:
204、从数据库中,获取用于纠正监控数据错误的至少一个纠正方案。
上述204的具体实现方式可参见上述各实施例中相应内容,在此不再赘述。
这里需要说明的是:本申请实施例提供的所述方法中各步骤未尽详述的内容可参见上述实施例中的相应内容,此处不再赘述。此外,本申请实施例提供的所述方法中除了上述各步骤以外,还可包括上述各实施例中其他部分或全部步骤,具体可参见上述各实施例相应内容,在此不再赘述。
需要补充的是,本申请各实施例提供的技术方案可应用到公有云(Publicclouds)、私有云(Private Clouds)、混合云(Hybrid Cloud)等场景中。通常,公有云(Public clouds)、私有云(Private Clouds)或混合云(Hybrid Cloud)系统中均会存在大量的需被监控的服务器,这些需被监控的服务器上均会部署有监控脚本。当需被监控的服务器上部署的监控脚本出现问题时,公有云(Public clouds)、私有云(Private Clouds)或混合云(Hybrid Cloud)系统中的监控平台可采用本申请各实施例提供的技术方案对监控脚本监控到的监控数据进行快速纠正,进而避免错误的监控数据对服务器故障的判定产生错误的影响。
图4示出了本申请一实施例提供的数据中心示意图。如图4所示,该数据中心,包括:监控平台300以及多个服务器400(图4中示例性地展示了两个服务器);
其中,所述监控平台300用于:获取部署在服务器400上的监控脚本监控到的监控数据;将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;根据纠正后监控数据,判断所述监控数据对应的服务器400是否存在异常。
其中,所述监控数据对应的服务器400指的是发送该监控数据的服务器。
本申请实施例提供的技术方案中,将服务器上的监控脚本监控到的监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配,若匹配上,说明监控数据存在错误,需要纠正;执行与监控数据相匹配的纠正方案即可完成对监控数据本身的纠正。与现有技术相比,本申请实施例提供的技术方案能够快速对错误的监控数据进行纠正,以避免错误的监控数据对后续处理流程的不利影响,也即能够快速解决存在问题的监控脚本对后续处理流程的不利影响等技术问题。
下面将结合本实施例提供的数据中心对本申请实施例提供的技术方案进行详细介绍:
步骤1:服务器400执行其上部署的监控脚本,以监控得到有关服务器的硬件运行信息的监控数据,并将监控到的监控数据发送给监控平台300。
步骤2、监控平台300从缓存中或数据库中读取用于纠正监控数据错误的至少一个纠正代码。
步骤3、监控平台300将所述监控数据与用于纠正监控数据错误的第一纠正代码进行逐一匹配。若匹配到与所述监控数据相匹配的纠正代码,则执行步骤4a、5a、6a;若未匹配到与所述监控数据相匹配的纠正代码,则执行步骤4b。
步骤4a、监控平台300动态编译并执行与所述监控数据相匹配的纠正代码,以对所述监控数据进行纠正。
步骤5a、监控平台300获取故障判定规则。
步骤6a、监控平台300结合故障判定规则,根据纠正后监控数据,判断服务器400是否存在异常。
步骤4b、监控平台300结合故障判定规则,根据监控数据,判断服务器400是否存在异常。
步骤7、判断出所述服务器400存在异常时,监控平台300根据所述纠正后监控数据,向维修平台发出故障告警信息。
图5示出了本申请一实施例提供的监控装置的结构框图。如图5所示,该装置,包括:
第一获取模块401,用于获取部署在被监控节点上的监控脚本监控到的监控数据;
第一匹配模块402,用于将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
第一运行模块403,用于若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;
第一判断模块404,用于根据纠正后监控数据,判断所述被监控节点是否存在异常。
本申请实施例提供的技术方案中,将服务器上的监控脚本监控到的监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配,若匹配上,说明监控数据存在错误,需要纠正;执行与监控数据相匹配的纠正方案即可完成对监控数据本身的纠正。与现有技术相比,本申请实施例提供的技术方案能够快速对错误的监控数据进行纠正,以避免错误的监控数据对后续处理流程的不利影响,也即能够快速解决存在问题的监控脚本对后续处理流程的不利影响等技术问题。
可选地,上述装置,还可包括:
第二获取模块,用于从数据库中,获取用于纠正监控数据错误的至少一个纠正方案。
可选地,上述装置,还可包括:
第一接收模块,用于接收用户从方案配置界面输入的用于纠正监控数据错误的新的纠正方案;
第一保存模块,用于将所述新的纠正方案存入所述数据库中,以供后续获取。
可选地,上述装置,还可包括:
第一发送模块,用于判断出所述被监控节点存在异常时,根据所述纠正后监控数据,发出故障告警信息。
这里需要说明的是:上述实施例提供的监控装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图6示出了本申请一实施例提供的数据处理装置的结构框图。如图5所示,该装置,包括:
第一获取模块501,用于获取部署在被监控节点上的监控脚本监控到的监控数据;
第一匹配模块502,用于将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
第一运行模块503,用于若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正。
本申请实施例提供的技术方案中,将服务器上的监控脚本监控到的监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配,若匹配上,说明监控数据存在错误,需要纠正;执行与监控数据相匹配的纠正方案即可完成对监控数据本身的纠正。与现有技术相比,本申请实施例提供的技术方案能够快速对错误的监控数据进行纠正,以避免错误的监控数据对后续处理流程的不利影响,也即能够快速解决存在问题的监控脚本对后续处理流程的不利影响等技术问题。
这里需要说明的是:上述实施例提供的监控装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图7示出了本申请一实施例提供的电子设备的结构示意图。如图7所示,所述电子设备包括存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述存储器1101,用于存储程序;
所述处理器1102,与所述存储器1101耦合,用于执行所述存储器1101中存储的所述程序,以实现上述各方法实施例提供的监控方法或数据处理方法。
进一步,如图7所示,电子设备还包括:通信组件1103、显示器1104、电源组件1105、音频组件1106等其它组件。图7中仅示意性给出部分组件,并不意味着电子设备只包括图7所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的监控方法、数据处理方法步骤或功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (21)

1.一种监控方法,其特征在于,包括:
获取部署在被监控节点上的监控脚本监控到的监控数据;
将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;
根据纠正后监控数据,判断所述被监控节点是否存在异常。
2.根据权利要求1所述的方法,其特征在于,所述纠正方案包括纠正代码;
执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正,包括:
动态编译并执行与所述监控数据相匹配的纠正代码以对所述监控数据进行纠正。
3.根据权利要求1所述的方法,其特征在于,所述至少一个纠正方案中包括第一纠正方案;
将所述监控数据与用于纠正监控数据错误的第一纠正方案进行匹配,包括:
从所述第一纠正方案中提取纠正条件;
当所述监控数据满足所述纠正条件时,确定所述第一纠正方案与所述监控数据匹配。
4.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:
从数据库中,获取用于纠正监控数据错误的至少一个纠正方案。
5.根据权利要求4所述的方法,其特征在于,还包括:
接收用户从方案配置界面输入的用于纠正监控数据错误的新的纠正方案;
将所述新的纠正方案存入所述数据库中,以供后续获取。
6.根据权利要求5所述的方法,其特征在于,所述新的纠正方案为所述用户根据分析结果进行编写的;所述分析结果是对新出现错误对应的监控数据以及监控到所述新出现错误对应的监控数据的监控脚本内部的代码逻辑进行分析得到的。
7.根据权利要求1至3中任一项所述的方法,其特征在于,所述监控数据用于硬件故障判定;所述监控数据中包括有关所述被监控节点的硬件运行信息。
8.根据权利要求1至3中任一项所述的方法,其特征在于,所述监控数据中还携带有所述被监控节点的设备标识信息。
9.根据权利要求1至3任一项所述的方法,其特征在于,根据纠正后监控数据,判断所述被监控节点是否存在异常,包括:
获取故障判定规则;
结合所述故障判定规则,根据所述纠正后监控数据,判断所述被监控节点是否存在异常。
10.根据权利要求9所述的方法,其特征在于,还包括:
判断出所述被监控节点存在异常时,根据所述纠正后监控数据,发出故障告警信息。
11.一种数据处理方法,其特征在于,包括:
获取部署在被监控节点上的监控脚本监控到的监控数据;
将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正。
12.根据权利要求11所述的方法,其特征在于,所述纠正方案包括纠正代码;
执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正,包括:
动态编译并执行与所述监控数据相匹配的纠正代码以对所述监控数据进行纠正。
13.根据权利要求11或12所述的方法,其特征在于,还包括:
从数据库中,获取用于纠正监控数据错误的至少一个纠正方案。
14.一种监控系统,其特征在于,包括:监控平台以及多个被监控节点;
其中,所述监控平台用于:获取部署在被监控节点上的监控脚本监控到的监控数据;将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;根据纠正后监控数据,判断所述监控数据对应的被监控节点是否存在异常。
15.根据权利要求14所述的系统,其特征在于,所述多个被监控节点为数据中心的多个服务器。
16.根据权利要求14所述的系统,其特征在于,所述多个被监控节点为多个边缘计算服务器。
17.一种数据中心,其特征在于,包括:监控平台以及多个服务器;
其中,所述监控平台用于:获取部署在服务器上的监控脚本监控到的监控数据;将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;根据纠正后监控数据,判断所述监控数据对应的服务器是否存在异常。
18.一种监控装置,其特征在于,包括:
第一获取模块,用于获取部署在被监控节点上的监控脚本监控到的监控数据;
第一匹配模块,用于将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
第一运行模块,用于若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;
第一判断模块,用于根据纠正后监控数据,判断所述被监控节点是否存在异常。
19.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取部署在被监控节点上的监控脚本监控到的监控数据;
第一匹配模块,用于将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
第一运行模块,用于若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正。
20.一种电子设备,其特征在于,包括:存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取部署在被监控节点上的监控脚本监控到的监控数据;
将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正;
根据纠正后监控数据,判断所述被监控节点是否存在异常。
21.一种电子设备,其特征在于,包括:存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取部署在被监控节点上的监控脚本监控到的监控数据;
将所述监控数据与用于纠正监控数据错误的至少一个纠正方案进行匹配;
若匹配到与所述监控数据相匹配的纠正方案,执行与所述监控数据相匹配的纠正方案以对所述监控数据进行纠正。
CN202010266505.8A 2020-04-07 2020-04-07 监控与数据处理方法、装置、设备及监控系统、数据中心 Active CN113297038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010266505.8A CN113297038B (zh) 2020-04-07 2020-04-07 监控与数据处理方法、装置、设备及监控系统、数据中心

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010266505.8A CN113297038B (zh) 2020-04-07 2020-04-07 监控与数据处理方法、装置、设备及监控系统、数据中心

Publications (2)

Publication Number Publication Date
CN113297038A true CN113297038A (zh) 2021-08-24
CN113297038B CN113297038B (zh) 2022-07-19

Family

ID=77317903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010266505.8A Active CN113297038B (zh) 2020-04-07 2020-04-07 监控与数据处理方法、装置、设备及监控系统、数据中心

Country Status (1)

Country Link
CN (1) CN113297038B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113472900A (zh) * 2021-09-01 2021-10-01 阿里云计算有限公司 报文处理方法、设备、存储介质及计算机程序产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140281699A1 (en) * 2013-03-14 2014-09-18 International Business Machines Corporation Avoiding Restart On Error In Data Integration
CN105589789A (zh) * 2015-12-25 2016-05-18 浪潮电子信息产业股份有限公司 一种动态调整内存监控阀值的方法
CN105827481A (zh) * 2016-03-31 2016-08-03 乐视控股(北京)有限公司 一种业务纠错方法和装置
CN105847039A (zh) * 2016-03-17 2016-08-10 王庆东 一种基于动态可执行脚本的网络监控方法以及网络监控系统
US10365964B1 (en) * 2018-05-31 2019-07-30 Capital One Services, Llc Data processing platform monitoring
CN110187993A (zh) * 2019-05-14 2019-08-30 广州欧科信息技术股份有限公司 一种异常运行的处理方法、系统、电子设备及存储介质
CN110286883A (zh) * 2019-06-03 2019-09-27 中国建设银行股份有限公司 智能数据库编码监控方法、装置及电子设备
CN110674005A (zh) * 2019-08-30 2020-01-10 苏州浪潮智能科技有限公司 一种监控服务器内存的方法、设备及可读介质
CN110910938A (zh) * 2018-09-17 2020-03-24 北京兆易创新科技股份有限公司 一种数据纠正方法、装置、存储设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140281699A1 (en) * 2013-03-14 2014-09-18 International Business Machines Corporation Avoiding Restart On Error In Data Integration
CN105589789A (zh) * 2015-12-25 2016-05-18 浪潮电子信息产业股份有限公司 一种动态调整内存监控阀值的方法
CN105847039A (zh) * 2016-03-17 2016-08-10 王庆东 一种基于动态可执行脚本的网络监控方法以及网络监控系统
CN105827481A (zh) * 2016-03-31 2016-08-03 乐视控股(北京)有限公司 一种业务纠错方法和装置
US10365964B1 (en) * 2018-05-31 2019-07-30 Capital One Services, Llc Data processing platform monitoring
CN110910938A (zh) * 2018-09-17 2020-03-24 北京兆易创新科技股份有限公司 一种数据纠正方法、装置、存储设备及存储介质
CN110187993A (zh) * 2019-05-14 2019-08-30 广州欧科信息技术股份有限公司 一种异常运行的处理方法、系统、电子设备及存储介质
CN110286883A (zh) * 2019-06-03 2019-09-27 中国建设银行股份有限公司 智能数据库编码监控方法、装置及电子设备
CN110674005A (zh) * 2019-08-30 2020-01-10 苏州浪潮智能科技有限公司 一种监控服务器内存的方法、设备及可读介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
董明忠等: "网络上的入侵容忍服务技术", 《现代计算机》 *
赵哲等: "基于Zabbix的网络监控系统", 《计算机技术与发展》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113472900A (zh) * 2021-09-01 2021-10-01 阿里云计算有限公司 报文处理方法、设备、存储介质及计算机程序产品

Also Published As

Publication number Publication date
CN113297038B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
US10949329B2 (en) Machine defect prediction based on a signature
US10635429B2 (en) Systems and methods of just-in-time proactive notification of a product release containing a software fix
US8935676B2 (en) Automated test failure troubleshooter
US11157390B2 (en) Automatic software defect repair
US10185650B1 (en) Testing service with control testing
US8978015B2 (en) Self validating applications
CN107660289B (zh) 自动网络控制
EP3616066B1 (en) Human-readable, language-independent stack trace summary generation
CN110765018B (zh) 接口自动化测试方法及设备
CN110908674A (zh) 应用程序的自动化部署方法及装置
JP2009294837A (ja) 障害監視システム及びデバイスと監視装置並びに障害監視方法
CN113297038B (zh) 监控与数据处理方法、装置、设备及监控系统、数据中心
CN110727575B (zh) 一种信息处理方法、系统、装置、以及存储介质
CN110990289B (zh) 一种自动提交bug的方法、装置、电子设备及存储介质
US9798608B2 (en) Recovery program using diagnostic results
CN116302738A (zh) 一种测试芯片的方法、系统、设备和存储介质
US11288153B2 (en) Self-healing computing device
CN115455431A (zh) 自动化代码安全检测和漏洞修复方法、装置、终端及介质
US10180882B2 (en) Information-processing device, processing method, and recording medium in which program is recorded
US20190138336A1 (en) Batch Processing of Computing Elements
US20240078289A1 (en) Testing and baselining a machine learning model and test data
CN112231218B (zh) 自动更新测试诊断脚本的方法、系统、终端及存储介质
CN114780444B (zh) 代码优化方法、装置、电子设备和存储介质
CN113672269B (zh) 数据处理方法、系统、电子设备及程序产品
CN117056161A (zh) 机箱检修方法、系统、电子设置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant