CN115080337A - 数据监控方法、装置、系统、服务器及可读存储介质 - Google Patents
数据监控方法、装置、系统、服务器及可读存储介质 Download PDFInfo
- Publication number
- CN115080337A CN115080337A CN202110282754.0A CN202110282754A CN115080337A CN 115080337 A CN115080337 A CN 115080337A CN 202110282754 A CN202110282754 A CN 202110282754A CN 115080337 A CN115080337 A CN 115080337A
- Authority
- CN
- China
- Prior art keywords
- monitored
- monitored object
- information
- registration system
- service registration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004891 communication Methods 0.000 claims abstract description 31
- 230000015654 memory Effects 0.000 claims description 30
- 238000012806 monitoring device Methods 0.000 claims description 9
- 238000012423 maintenance Methods 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及数据监控技术领域,公开了一种数据监控方法、装置、系统、服务器及可读存储介质。其中,该方法应用于监控代理模块,监控代理模块与服务登记系统通信连接,并与多个被监控对象通信连接。据监控方法包括:监测多个被监控对象,获取多个被监控对象的运行信息;判断被监控对象的运行信息与服务登记系统中预存的预设信息是否匹配;当被监控对象的运行信息与预设信息不匹配时,暴露第一目标对象的第一指标数据,其中,第一目标对象为未正常运行的被监控对象。通过实施本发明,当设备台数较多或服务量较大时,在被监控对象在线或离线后,无需重新进行告警触发逻辑的配置操作或移除操作,降低了实时监控被监控对象的运维工作量。
Description
技术领域
本发明涉及数据监控技术领域,具体涉及一种数据监控方法、装置、系统、服务器及可读存储介质。
背景技术
在系统的运行过程中,时序数据库对应的设备或服务需要一直在线,其离线会造成系统运行故障,因此需要对这些设备或服务进行实时监控,以确定其处于在线状态,若要实现时序数据库对应的设备或服务的离线告警,则需要知道哪些设备或服务应该在线。现有技术通常是在Prometheus Server中通过Prom QL表达式配置告警触发规则,然而,PromQL表达式时无法有效描述“应该有哪些设备或服务在线”的逻辑,在设备或服务数量少时,可以逐个配置告警触发逻辑,但是当设备台数较多或服务量较大时,难以逐个进行告警触发逻辑的配置,且当设备或服务发生变动时需要修改告警触发逻辑,运维工作量大,因此难以对设备或服务进行实时监控。
发明内容
有鉴于此,本发明实施例提供了一种数据监控方法、装置、系统、服务器及可读存储介质,以解决现有技术中设备台数较多或服务量较大时,数据实时监控运维工作量大的问题。
根据第一方面,本发明实施例提供了一种数据监控方法,应用于监控代理模块,所述监控代理模块与服务登记系统通信连接,并与多个被监控对象通信连接,所述数据监控方法包括如下步骤:监测多个被监控对象,获取所述多个被监控对象的运行信息;判断所述被监控对象的运行信息与所述服务登记系统中预设信息是否匹配,所述预设信息用于反映被监控对象对应的期望运行状态;当所述运行信息与所述预设信息不匹配时,暴露第一目标对象的第一指标数据,所述第一目标对象为所述多个被监控对象中未正常运行的被监控对象。
本发明实施例提供的数据监控方法,应用于监控代理模块,该监控代理模块与服务登记系统通信连接,并与多个被监控对象通信连接,监控代理模块通过监测被监控对象,获取被监控对象的运行信息,判断被监控对象的运行信息与服务登记系统中预存的预设信息是否匹配,当运行信息与预设信息不匹配时,暴露第一目标对象的第一指标数据,其中,第一目标对象为未正常运行的被监控对象。该方法能够将指标数据同步更新至服务登记系统,以使告警触发逻辑能够自动从服务登记系统加载和更新,当存在数千台设备或数十项服务量时,仅需实时监控被监控对象的运行信息,将被监控对象的运行信息与服务登记系统中预存的预设信息进行比较,确定两者是否匹配即可,在被监控对象在线或离线后,无需重新进行告警触发逻辑的配置操作或告警触发逻辑的移除操作,降低了实时监控被监控对象的运维工作量,实现了对设备或服务的实时监控。
结合第一方面,在第一方面第一实施方式中,所述监测多个被监控对象,获取所述多个被监控对象的运行信息,包括:获取被监控对象的设备信息;基于所述被监控对象的设备信息确定所述被监控对象的运行信息。
本发明实施例提供的数据监控方法,通过获取被监控对象的设备信息以确定被监控对象的运行信息,进而确定被监控对象是否在线,无需逐个配置被监控对象的告警触发逻辑,降低了实时监控被监控对象的运维工作量。
结合第一方面,在第一方面第二实施方式中,所述判断所述被监控对象的运行信息与所述服务登记系统中预设信息是否匹配,包括:判断所述被监控对象是否发生故障;当所述被监控对象未发生故障时,判断所述被监控对象的运行信息与预设信息是否匹配。
结合第一方面第二实施方式,在第一方面第三实施方式中,还包括:在所述被监控对象发生故障的情况下,若所述服务登记系统中存在所述被监控对象,且未采集到所述被监控对象的运行信息时,触发Nodata告警。
本发明实施例提供的数据监控方法,通过判断被监控对象是否发生故障,当被监控对象未发生故障时,执行判断被监控对象的信息与预设信息是否匹配的步骤,在被监控对象发生故障的情况下,若服务登记系统中存在被监控对象且未采集到被监控对象的运行信息时,触发Nodata告警,以及时感知被监控对象的在线情况和离线情况,避免了告警触发逻辑未及时更新引发的漏报或误告风险。
结合第一方面或第一方面第一实施方式至第三实施方式中的任一实施方式,在第一方面第四实施方式中,还包括:当所述被监控对象的运行信息与所述预设信息匹配时,暴露第二目标对象的第二指标数据,所述第二目标对象为所述多个被监控对象中的正常运行的被监控对象。
本发明实施例提供的数据监控方法,当被监控对象的运行信息与预设信息匹配时,暴露第二目标对象的第二指标数据,其中,第二目标对象为正常运行的被监控对象。该方法实现了将指标数据同步更新至服务登记系统,以使告警触发逻辑能够自动从服务登记系统加载和更新,在被监控对象在线或离线后,无需重新进行告警触发逻辑的配置操作或告警触发逻辑的移除操作。
结合第一方面,在第一方面第五实施方式中,在所述判断所述被监控对象的运行信息与所述服务登记系统中预设信息是否匹配之前,还包括:从所述服务登记系统中获取预设信息,确定预设信息对应的一个或多个预设被监控对象;遍历所述一个或多个预设被监控对象,判断所述一个或多个预设被监控对象是否包含当前被监测对象;当所述一个或多个预设被监控对象不包含所述当前被监测对象时,更新所述服务登记系统中的所述预设信息。
本发明实施例提供的数据监控方法,通过从服务登记系统中获取预设信息,确定预设信息对应的一个或多个预设被监控对象,遍历一个或多个预设被监控对象,判断一个或多个预设被监控对象是否包含当前被监测对象,当一个或多个预设被监控对象中不包含当前被监测对象时,更新服务登记系统中的预设信息,以实现将预设信息同步更新至服务登记系统,从而使得告警触发逻辑能够自动从服务登记系统加载和更新,避免被监控对象在线或离线时重新进行告警触发逻辑的配置操作或告警触发逻辑的移除操作。
根据第二方面,本发明实施例提供了一种数据监控装置,应用于监控代理模块,所述监控代理模块与服务登记系统通信连接,并与多个被监控对象通信连接,所述装置包括:监控模块,用于监测多个被监控对象,获取所述多个被监控对象的运行信息;第一判断模块,用于判断所述被监控对象的运行信息与所述服务登记系统中预存的预设信息是否匹配,所述预设信息用于反映被监控对象对应的期望运行状态;暴露模块,用于当所述被监控对象的运行信息与所述预设信息不匹配时,暴露第一目标对象的第一指标数据,所述第一目标对象为所述多个被监控对象中未正常运行的被监控对象。
本发明实施例提供的数据监控装置,应用于监控代理模块,该监控代理模块与服务登记系统通信连接,并与多个被监控对象通信连接,监控代理模块通过监测被监控对象,获取被监控对象的运行信息,判断被监控对象的运行信息与服务登记系统中预存的预设信息是否匹配,当运行信息与预设信息不匹配时,暴露第一目标对象的第一指标数据,其中,第一目标对象为未正常运行的被监控对象。该装置能够将指标数据同步更新至服务登记系统,以使告警触发逻辑能够自动从服务登记系统加载和更新,当存在数千台设备或数十项服务量时,仅需实时监控被监控对象的运行信息,将被监控对象的运行信息与服务登记系统中预存的预设信息进行比较,确定两者是否匹配即可,在被监控对象在线或离线后,无需重新进行告警触发逻辑的配置操作或告警触发逻辑的移除操作,降低了实时监控被监控对象的运维工作量,实现了对设备或服务的实时监控。
根据第三方面,本发明实施例提供了一种数据监控系统,包括:告警发送模块、告警触发模块、服务登记系统及如第二方面或第二方面任一实施方式所述的数据监控装置;其中,所述服务登记系统,用于存储多个被监控对象的预设信息;所述告警触发模块,用于当所述被监控对象的运行信息与所述预设信息不匹配时,触发告警;所述告警发送模块,用于发送告警信息。
本发明实施例提供的数据监控系统,包括:告警发送模块、告警触发模块、服务登记系统及数据监控装置。其中,服务登记系统用于存储多个被监控对象的预设信息,数据监控装置用于获取被监控对象的运行信息,判断被监控对象的运行信息与服务登记系统中预存的预设信息是否匹配,当被监控对象的运行信息与预设信息不匹配时,暴露被监控对象的第一指标数据;告警触发模块用于当被监控对象的运行信息与预设信息不匹配时,触发告警;告警发送模块用于发送告警信息。该系统能够将指标数据同步更新至服务登记系统,以使告警触发逻辑能够自动从服务登记系统加载和更新,当存在数千台设备或数十项服务量时,在被监控对象在线或离线后,该系统无需重新进行告警触发逻辑的配置操作或告警触发逻辑的移除操作,只需识别服务登记系统中预存的预设信息与被监控对象的运行信息是否匹配,若预设信息与运行信息不匹配,则触发告警,降低了实时监控被监控对象的运维工作量,实现了对设备或服务的实时监控。
根据第四方面,本发明实施例提供了一种服务器,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或第一方面任一实施方式所述的数据监控方法。
根据第五方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行第一方面或第一方面任一实施方式所述的数据监控方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的数据监控方法的流程图;
图2是根据本发明实施例的数据监控方法的另一流程图;
图3是根据本发明实施例的数据监控装置的结构框图;
图4是根据本发明实施例的数据监控系统的结构框图;
图5是本发明实施例提供的服务器的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通常在Prometheus Server中通过Prom QL表达式配置告警触发规则以实现时序数据库对应的设备或服务的离线告警,然而,Prom QL表达式时无法有效描述“应该有哪些设备或服务在线”的逻辑,在设备或服务数量少时,可以逐个配置告警触发逻辑,但是当存在数千台设备或数十项服务量时,难以逐个进行告警触发逻辑的配置,且当设备或服务发生变动时需要修改告警触发逻辑,运维工作量大,因此难以对设备或服务进行实时监控。
基于此,本发明技术方案在监控系统中设置监控代理以及服务登记系统,且监控代理模块与服务登记系统通信连接。通过监控代理将被监测对象的指标数据同步更新至服务登记系统,以使告警触发逻辑能够自动从服务登记系统加载和更新,在被监控对象在线或离线后,无需重新进行告警触发逻辑的配置操作或告警触发逻辑的移除操作,降低了实时监控被监控对象的运维工作量,实现了对设备或服务的实时监控。
根据本发明实施例,提供了一种数据监控方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种数据监控方法,可用于上述由计算机设备组成的监控代理模块,监控代理模块与服务登记系统通信连接,并与多个被监控对象通信连接,图1是根据本发明实施例的数据监控方法的流程图,如图1所示,该流程包括如下步骤:
S11,监测多个被监控对象,获取多个被监控对象的运行信息。
被监控对象为物理设备或服务,被监控对象可以为一个,也可以为多个,本申请对此不作具体限定。若被监控对象为物理设备,则被监控对象的运行信息为物理设备的运行状态;若被监控对象为服务,则被监控对象的运行信息为服务的执行状态。监控代理中设置有监控程序,通过监控程序对一个多个被监控对象进行监控,获取被监控对象对应的运行信息。
被监控对象的运行信息可以存储于时序数据库中,例如Prometheus、OpenTSDB等。时序数据库是存储按时间顺序产生的数据并提供查询功能的数据库,且时序数据库中每条数据均有时间戳。
S12,判断被监控对象的运行信息与服务登记系统中预设信息是否匹配,其中,预设信息用于反映被监控对象对应的期望运行状态。
服务登记系统为逻辑数据库,例如配置管理数据库(Configuration ManagementDatabase,CMDB)。服务登记系统中包含配置项全生命周期的信息以及配置项之间的关系,包括物理关系、实时通信关系、非实时通信关系和依赖关系。预设信息为被监控对象对应的期望运行数据,将被监控对象的运行信息与预设信息进行比较,确定被监控对象的运行信息与服务登记系统中预存的预设信息是否匹配。当被监控对象的运行信息与服务登记系统中预存的预设信息不匹配时,执行步骤S13,否则执行其他操作,其他操作可以是继续监测被监控对象的运行信息,也可以是暴露被监控对象的数据,此处不作具体限定。
S13,暴露第一目标对象的第一指标数据,所述第一目标对象为所述多个被监控对象中未正常运行的被监控对象。
第一目标对象为多个被监控对象中未正常运行的被监控对象,第一指标数据为未正常运行的被监控对象对应的状态指标,包括未正常运行的被监控对象的数据、时间戳及状态等,当然也可以包括其他与被监控对象相关的数据,此处不作具体限定。当被监控对象的运行信息与预设信息不一致时,表示被监控对象的运行状态不正常。监控代理可以将第一指标数据存储至Prometheus server,并按照Prometheus规定的格式暴露第一指标数据。Prometheus server可以根据拉取到的第一指标数据进行告警触发。
本实施例提供的数据监控方法,应用于监控代理模块,该监控代理模块与服务登记系统通信连接,并与多个被监控对象通信连接,监控代理模块通过监测被监控对象,获取被监控对象的运行信息,判断被监控对象的运行信息与服务登记系统中预存的预设信息是否匹配,当运行信息与预设信息不匹配时,暴露第一目标对象的第一指标数据,其中,第一目标对象为未正常运行的被监控对象。该方法能够将指标数据同步更新至服务登记系统,以使告警触发逻辑能够自动从服务登记系统加载和更新,当存在数千台设备或数十项服务量时,仅需实时监控被监控对象的运行信息,将被监控对象的运行信息与服务登记系统中预存的预设信息进行比较,确定两者是否匹配即可,在被监控对象在线或离线后,无需重新进行告警触发逻辑的配置操作或告警触发逻辑的移除操作,降低了实时监控被监控对象的运维工作量,实现了对设备或服务的实时监控。
在本实施例中提供了一种数据监控方法,可用于上述由计算机设备组成的监控代理模块,监控代理模块与服务登记系统通信连接,并与多个被监控对象通信连接,图2是根据本发明实施例的数据监控方法的流程图,如图2所示,该流程包括如下步骤:
S21,监测多个被监控对象,获取多个被监控对象的运行信息。
具体地,上述步骤S21可以包括如下步骤:
S211,获取被监控对象的设备信息。
设备信息为被监控对象对应的设备类型或通信连接类型。监控代理可以对被监控对象进行识别,确定被监控对象的设备信息。例如,监控代理通过识别被监控对象的端口信息确定被将监测对象为Zookeeper;监控代理通过识别被监控对象的端口信息确定被将监测对象为Dubbo。
S212,基于被监控对象的设备信息确定被监控对象的运行信息。
根据被监控对象的设备信息可以得到被监控对象对应的运行信息。例如,监控代理对Zookeeper监测,基于Zookeeper本身支持的暴露zookeeper状态的命令,此时监控代理可以建立Socket连接,发送“四字命令”以获取Zookeeper的运行信息;若监控代理对Dubbo监测,此时监控代理可以通过Dubbo的指定端口以确定Dubbo是否提供服务,进而确定Dubbo的运行信息,或者从Dubbo的注册中心直接获取与其对应的运行信息。
S22,判断被监控对象的运行信息与服务登记系统中预设信息是否匹配,其中,预设信息用于反映被监控对象对应的期望运行状态。
具体地,上述步骤S22可以包括如下步骤:
S221,判断被监控对象是否发生故障。
当被监控对象发生故障时,无法获取被监控对象的监控数据,此时无法根据被监控对象的运行信息与服务登记系统中预存的预设信息是否一致以确定被监控对象是否在线。判断被监控对象是否发生故障,当被监控对象未发生故障时,执行步骤S222,否则,执行步骤S223。继续监测被监控对象是否发生故障。
S222,判断被监控对象的运行信息与服务登记系统中预存的预设信息是否匹配。详细说明参见上述方法实施例对应步骤S12的相关描述,此处不再赘述。当被监控对象的运行信息与预设信息不匹配时,执行步骤S23,否则,执行步骤S24。
S223,若服务登记系统中存在被监控对象,且未采集到被监控对象的运行信息时,触发Nodata告警。
当被监控对象发生故障时,识别其是否存在于服务登记系统,若发生故障的被监控对象存在于服务登记系统中,但却并未采集到与其相关的运行信息,此时判定被监控对象离线,并触发Nodata告警。
S23,暴露第一目标对象的第一指标数据,第一目标对象为多个被监控对象中未正常运行的被监控对象。详细说明参见上述方法实施例对应步骤S13的相关描述,此处不再赘述。
S24,暴露第二目标对象的第二指标数据,第二目标对象为多个被监控对象中的正常运行的被监控对象。
第二目标对象为多个被监控对象中的正常运行的被监控对象,第二指标数据为正常运行的被监控对象对应的状态指标,包括正常运行的被监控对象的数据、时间戳及状态等,当然也可以包括其他与被监控对象相关的数据,此处不作具体限定。当被监控对象的运行信息与预设信息一致时,表示被监控对象的运行状态正常,表征被监控对象在线。监控代理可以将第二指标数据存储至Prometheus server,并按照Prometheus规定的格式暴露第二指标数据。
具体地,当被监控对象处于正常运行状态时,表示第二指标数据可用,即被监控对象在线。第二指标数据格式可以表达如下:
node_up{app="zookeeper",cluster="dubbo_regcenter",idc="BEIJING"}=1
当被监控对象处于不正常运行状态时,表示第一指标数据部可用,即被监控对象不在线。第一指标数据格式可以表达如下:
node_up{app="zookeeper",cluster="dubbo_regcenter",idc="BEIJING"}=0。
与监控代理通信连接的服务登记系统可以根据第二指标数据对被监控对象的运行信息进行更新。
本发明实施例提供的数据监控方法,通过将指标数据同步更新至服务登记系统,以使告警触发逻辑能够自动从服务登记系统加载和更新,仅需实时监控被监控对象的运行信息,将被监控对象的运行信息与服务登记系统中预存的预设信息进行比较,确定两者是否匹配即可,在被监控对象在线或离线后,无需重新进行告警触发逻辑的配置操作或告警触发逻辑的移除操作,降低了实时监控被监控对象的运维工作量,实现了对设备或服务的实时监控。
通过获取被监控对象的设备信息以确定被监控对象的运行信息,进而确定被监控对象是否在线,无需逐个配置被监控对象的告警触发逻辑,降低了实时监控被监控对象的运维工作量。通过判断被监控对象是否发生故障,当被监控对象发生故障时,执行判断被监控对象的信息与预设信息是否匹配的步骤,当被监控对象未发生故障时,识别服务登记系统存在而未采集到运行信息的一个或多个被监控对象,并触发Nodata告警,以及时感知被监控对象的在线情况和离线情况,避免了告警触发逻辑未及时更新引发的漏报或误告风险。
可选地,在步骤S22之前还包括:
(1)从服务登记系统中获取预设信息,确定预设信息对应的一个或多个预设被监控对象。
服务登记系统中存储有若干个被监控对象对应的预设信息,监控代理模块在监测到被监测对象的运行信息后可以从服务登记系统中获取其内存储的一个或多个预设信息,并基于预设信息确定与其对应的预设被监控对象。
(2)遍历一个或多个预设被监控对象,判断一个或多个预设被监控对象是否包含当前被监测对象。
对一个或多个预设信息所对应的一个或多个预设被监控对象进行遍历,确定预设被监控对象中是否包含监控代理模块监测到运行信息的当前被监测对象。当一个或多个预设被监控对象不包含当前被监测对象时,执行步骤(3),否则,判断被监控对象的运行信息与服务登记系统中预设信息是否匹配。
(3)更新服务登记系统中的预设信息。
当一个或多个预设被监控对象不包含当前被监测对象时,表示服务登记系统中没有对应于当前被监控对象的相关预设信息,此时将当前被监控对象对应的预设信息存储至服务登记系统,以对服务登记系统中的预设信息进行更新。
本实施例提供的数据监控方法,通过从服务登记系统中获取预设信息,确定预设信息对应的一个或多个预设被监控对象,遍历一个或多个预设被监控对象,判断一个或多个预设被监控对象是否包含当前被监测对象,当一个或多个预设被监控对象中不包含当前被监测对象时,更新服务登记系统中的预设信息,以实现将预设信息同步更新至服务登记系统,从而使得告警触发逻辑能够自动从服务登记系统加载和更新,避免被监控对象在线或离线时重新进行告警触发逻辑的配置操作或告警触发逻辑的移除操作。
在本实施例中还提供了一种数据监控装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种数据监控装置,应用于监控代理模块,监控代理模块与服务登记系统通信连接,并与多个被监控对象通信连接,如图3所示,包括:
监控模块31,用于监测多个被监控对象,获取多个被监控对象的运行信息。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
第一判断模块32,用于判断被监控对象的运行信息与服务登记系统中预存的预设信息是否匹配,其中,预设信息用于反映被监控对象对应的期望运行状态。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
暴露模块33,用于当被监控对象的运行信息与预设信息不匹配时,暴露第一目标对象的第一指标数据,第一目标对象为多个被监控对象中未正常运行的被监控对象。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
本实施例提供的数据监控装置,应用于监控代理模块,该监控代理模块与服务登记系统通信连接,并与多个被监控对象通信连接,监控代理模块通过监测被监控对象,获取被监控对象的运行信息,判断被监控对象的运行信息与服务登记系统中预存的预设信息是否匹配,当运行信息与预设信息不匹配时,暴露第一目标对象的第一指标数据,其中,第一目标对象为未正常运行的被监控对象。该装置能够将指标数据同步更新至服务登记系统,以使告警触发逻辑能够自动从服务登记系统加载和更新,当存在数千台设备或数十项服务量时,仅需实时监控被监控对象的运行信息,将被监控对象的运行信息与服务登记系统中预存的预设信息进行比较,确定两者是否匹配即可,在被监控对象在线或离线后,无需重新进行告警触发逻辑的配置操作或告警触发逻辑的移除操作,降低了实时监控被监控对象的运维工作量,实现了对设备或服务的实时监控。
本实施例中的数据监控装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种数据监控系统,如图4所示,图4是本发明可选实施例提供的一种数据监控系统的结构框图,该系统包括:告警发送模块41、告警触发模块42、服务登记系统43及数据监控装置44。其中,服务登记系统43用于存储多个被监控对象的预设信息;数据监控装置44用于获取被监控对象的运行信息,判断被监控对象的运行信息与服务登记系统中预存的预设信息是否匹配,当被监控对象的运行信息与预设信息不匹配时,暴露被监控对象的第一指标数据;告警触发模块42用于当被监控对象的运行信息与预设信息不匹配时,触发告警;告警发送模块41用于发送告警信息。
具体地,数据监控系统可以设定获取到监控数据为正常执行状态,没有监控数据则认为故障发生,触发告警。告警可以分为设备类告警和服务类告警。具体地,设备类告警可以设定物理设备正常运行为常态,如果设备发生故障,则触发告警;服务类告警可以设定服务正常运行为常态,如果服务发生故障,则触发告警。
本实施例提供的数据监控系统,该系统能够将指标数据同步更新至服务登记系统,以使告警触发逻辑能够自动从服务登记系统加载和更新,当存在数千台设备或数十项服务量时,在被监控对象在线或离线后,该系统无需重新进行告警触发逻辑的配置操作或告警触发逻辑的移除操作,只需识别服务登记系统中预存的预设信息与被监控对象的运行信息是否匹配,若预设信息与运行信息不匹配,则触发告警,降低了实时监控被监控对象的运维工作量,实现了对设备或服务的实时监控。
本发明实施例还提供一种服务器,具有上述图3所示的数据监控装置。
请参阅图5,图5是本发明可选实施例提供的一种服务器的结构示意图,如图5所示,该终端可以包括:至少一个处理器501,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口503,存储器504,至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,通信接口503可以包括显示屏(Display)、键盘(Keyboard),可选通信接口503还可以包括标准的有线接口、无线接口。存储器504可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器504可选的还可以是至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图3所描述的装置,存储器504中存储应用程序,且处理器501调用存储器504中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线502可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器504可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器504还可以包括上述种类存储器的组合。
其中,处理器501可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器501还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器504还用于存储程序指令。处理器501可以调用程序指令,实现如本申请图1和2实施例中所示的数据监控方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的数据监控方法的处理方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(HardDisk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种数据监控方法,其特征在于,应用于监控代理模块,所述监控代理模块与服务登记系统通信连接,并与多个被监控对象通信连接,所述数据监控方法包括如下步骤:
监测多个被监控对象,获取所述多个被监控对象的运行信息;
判断所述被监控对象的运行信息与所述服务登记系统中预设信息是否匹配;所述预设信息用于反映被监控对象对应的期望运行状态;
当所述运行信息与所述预设信息不匹配时,暴露第一目标对象的第一指标数据,所述第一目标对象为所述多个被监控对象中未正常运行的被监控对象。
2.根据权利要求1所述的方法,其特征在于,所述监测多个被监控对象,获取所述多个被监控对象的运行信息,包括:
获取被监控对象的设备信息;
基于所述被监控对象的设备信息确定所述被监控对象的运行信息。
3.根据权利要求1所述的方法,其特征在于,所述判断所述被监控对象的运行信息与所述服务登记系统中预设信息是否匹配,包括:
判断所述被监控对象是否发生故障;
当所述被监控对象未发生故障时,判断所述被监控对象的运行信息与预设信息是否匹配。
4.根据权利要求3所述的方法,其特征在于,还包括:
在所述被监控对象发生故障的情况下,若所述服务登记系统中存在所述被监控对象,且未采集到所述被监控对象的运行信息时,触发Nodata告警。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
当所述运行信息与所述预设信息匹配时,暴露第二目标对象的第二指标数据,所述第二目标对象为所述多个被监控对象中的正常运行的被监控对象。
6.根据权利要求1所述的方法,其特征在于,在所述判断所述被监控对象的运行信息与所述服务登记系统中预设信息是否匹配之前,还包括:
从所述服务登记系统中获取预设信息,确定预设信息对应的一个或多个预设被监控对象;
遍历所述一个或多个预设被监控对象,判断所述一个或多个预设被监控对象是否包含所述当前被监测对象;
当所述一个或多个预设被监控对象不包含当前被监测对象时,更新所述服务登记系统中的所述预设信息。
7.一种数据监控装置,其特征在于,应用于监控代理模块,所述监控代理模块与服务登记系统通信连接,并与多个被监控对象通信连接,所述装置包括:
监控模块,用于监测多个被监控对象,获取所述多个被监控对象的运行信息;
判断模块,用于判断所述被监控对象的运行信息与所述服务登记系统中预存的预设信息是否匹配;所述预设信息用于反映被监控对象对应的期望运行状态;
暴露模块,用于当所述运行信息与所述预设信息不匹配时,暴露第一目标对象的第一指标数据,所述第一目标对象为所述多个被监控对象中未正常运行的被监控对象。
8.一种数据监控系统,其特征在于,包括:告警发送模块、告警触发模块、服务登记系统及如权利要求7所述的数据监控装置;
所述服务登记系统,用于存储多个被监控对象的预设信息;
所述告警触发模块,用于当所述被监控对象的运行信息与所述预设信息不匹配时,触发告警;
所述告警发送模块,用于发送告警信息。
9.一种服务器,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-6任一项所述的数据监控方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-6任一项所述的数据监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282754.0A CN115080337A (zh) | 2021-03-16 | 2021-03-16 | 数据监控方法、装置、系统、服务器及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282754.0A CN115080337A (zh) | 2021-03-16 | 2021-03-16 | 数据监控方法、装置、系统、服务器及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115080337A true CN115080337A (zh) | 2022-09-20 |
Family
ID=83245881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110282754.0A Pending CN115080337A (zh) | 2021-03-16 | 2021-03-16 | 数据监控方法、装置、系统、服务器及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115080337A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521099A (zh) * | 2011-11-24 | 2012-06-27 | 深圳市同洲视讯传媒有限公司 | 一种进程监控方法及进程监控系统 |
CN102710554A (zh) * | 2012-06-25 | 2012-10-03 | 深圳中兴网信科技有限公司 | 分布式消息系统和分布式消息系统的服务状态检测方法 |
CN107070744A (zh) * | 2017-03-22 | 2017-08-18 | 上海合志信息技术有限公司 | 服务器监控方法 |
CN108769112A (zh) * | 2018-04-18 | 2018-11-06 | 江苏物联网研究发展中心 | 一种非侵入式rpc接口监控方法及系统 |
CN108810142A (zh) * | 2018-06-13 | 2018-11-13 | 平安科技(深圳)有限公司 | Zookeeper的监控方法、装置、计算机设备及存储介质 |
CN109245962A (zh) * | 2018-10-12 | 2019-01-18 | 北京信研汇智信息技术有限公司 | 服务器监控方法、系统、计算机设备及存储介质 |
CN109660380A (zh) * | 2018-09-28 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 服务器运行状态的监控方法、平台、系统及可读存储介质 |
CN110532248A (zh) * | 2019-09-02 | 2019-12-03 | 北京首汽智行科技有限公司 | 一种基于cmdb的服务器应用信息获取及调整方法 |
CN111176873A (zh) * | 2019-12-20 | 2020-05-19 | 中国平安财产保险股份有限公司 | 一种微服务自动下线方法、装置、计算机设备及存储介质 |
CN112328448A (zh) * | 2020-10-30 | 2021-02-05 | 中国平安财产保险股份有限公司 | 基于Zookeeper的监控方法、监控装置、设备及存储介质 |
-
2021
- 2021-03-16 CN CN202110282754.0A patent/CN115080337A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521099A (zh) * | 2011-11-24 | 2012-06-27 | 深圳市同洲视讯传媒有限公司 | 一种进程监控方法及进程监控系统 |
CN102710554A (zh) * | 2012-06-25 | 2012-10-03 | 深圳中兴网信科技有限公司 | 分布式消息系统和分布式消息系统的服务状态检测方法 |
CN107070744A (zh) * | 2017-03-22 | 2017-08-18 | 上海合志信息技术有限公司 | 服务器监控方法 |
CN108769112A (zh) * | 2018-04-18 | 2018-11-06 | 江苏物联网研究发展中心 | 一种非侵入式rpc接口监控方法及系统 |
CN108810142A (zh) * | 2018-06-13 | 2018-11-13 | 平安科技(深圳)有限公司 | Zookeeper的监控方法、装置、计算机设备及存储介质 |
CN109660380A (zh) * | 2018-09-28 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 服务器运行状态的监控方法、平台、系统及可读存储介质 |
CN109245962A (zh) * | 2018-10-12 | 2019-01-18 | 北京信研汇智信息技术有限公司 | 服务器监控方法、系统、计算机设备及存储介质 |
CN110532248A (zh) * | 2019-09-02 | 2019-12-03 | 北京首汽智行科技有限公司 | 一种基于cmdb的服务器应用信息获取及调整方法 |
CN111176873A (zh) * | 2019-12-20 | 2020-05-19 | 中国平安财产保险股份有限公司 | 一种微服务自动下线方法、装置、计算机设备及存储介质 |
CN112328448A (zh) * | 2020-10-30 | 2021-02-05 | 中国平安财产保险股份有限公司 | 基于Zookeeper的监控方法、监控装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
赵海兵: "《运维思考|你知道CMDB与监控是什么关系吗?》", 《蓝鲸》, 28 November 2019 (2019-11-28), pages 1 - 4 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108845912B (zh) | 服务接口调用故障的报警方法及计算设备 | |
CN111881014B (zh) | 一种系统测试方法、装置、存储介质及电子设备 | |
CN112380089A (zh) | 一种数据中心监控预警方法及系统 | |
CN108199901B (zh) | 硬件报修方法、系统、设备、硬件管理服务器与存储介质 | |
CN112529223A (zh) | 一种设备故障报修方法、装置、服务器及储存介质 | |
CN113127299A (zh) | 服务器运维方法、装置、系统及计算机可读存储介质 | |
CN112764956A (zh) | 数据库的异常处理系统、数据库的异常处理方法及装置 | |
CN116016123A (zh) | 故障处理方法、装置、设备及介质 | |
CN113656252B (zh) | 故障定位方法、装置、电子设备以及存储介质 | |
CN114884840A (zh) | 应用健康状态检查方法及电子设备 | |
CN110069382B (zh) | 软件监控方法、服务器、终端设备、计算机设备及介质 | |
CN111506641A (zh) | 数据管理方法、数据采集平台、数据管理系统及存储介质 | |
JP2010015246A (ja) | 故障情報分析管理システム | |
CN115080337A (zh) | 数据监控方法、装置、系统、服务器及可读存储介质 | |
CN110752972A (zh) | 一种网卡状态监控方法、装置、设备及介质 | |
CN113835961B (zh) | 告警信息监控方法、装置、服务器及存储介质 | |
CN113778763B (zh) | 一种三方接口服务故障智能切换方法及系统 | |
CN112068935A (zh) | kubernetes程序部署监控方法、装置以及设备 | |
CN111813872A (zh) | 一种故障排查模型的生成方法、装置、设备 | |
CN112181780A (zh) | 容器化平台核心组件的检测及告警方法、装置及设备 | |
CN111381932A (zh) | 触发应用程序更改的方法、装置、电子设备及存储介质 | |
CN110752950A (zh) | 云资源池的更新检测方法、装置及终端设备 | |
CN113835966B (zh) | 服务进程管理方法、装置、存储系统以及存储介质 | |
CN110875832A (zh) | 异常业务监控方法、装置、系统及计算机可读存储介质 | |
CN115604135B (zh) | 一种业务监控方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |