CN115391129A - 一种数据监控方法、装置、设备及存储介质 - Google Patents

一种数据监控方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115391129A
CN115391129A CN202110547666.9A CN202110547666A CN115391129A CN 115391129 A CN115391129 A CN 115391129A CN 202110547666 A CN202110547666 A CN 202110547666A CN 115391129 A CN115391129 A CN 115391129A
Authority
CN
China
Prior art keywords
index data
index
aggregation
host
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110547666.9A
Other languages
English (en)
Inventor
王健飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110547666.9A priority Critical patent/CN115391129A/zh
Publication of CN115391129A publication Critical patent/CN115391129A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data

Abstract

本申请公开一种数据监控方法、装置、设备及存储介质,应用于指标监控设备,指标监控设备包括InfluxDB时序数据库,该方法包括:采集集群中每个主机的指标数据;将每个主机的指标数据存储于InfluxDB时序数据库的第一存储空间;InfluxDB时序数据库仅允许集群中每个主机进行访问;基于预设的聚合策略,从第一存储空间查询第一指标数据,对第一指标数据进行周期性聚合操作,得到聚合后的第二指标数据;将第二指标数据显示在指标监控设备界面。如此,通过InfluxDB时序数据库仅存储当前集群每个主机的指标数据,后续查询存储的指标数据时,也仅是当前集群每个主机可访问InfluxDB时序数据库,故InfluxDB时序数据库不易出现故障或启停造成指标监控设备宕机情况,保证指标监控设备运行稳定性。

Description

一种数据监控方法、装置、设备及存储介质
技术领域
本申请涉及大数据技术,尤其涉及一种数据监控方法、装置、设备及存储介质。
背景技术
Ambari是Apache开源社区的一款集群管理软件,为第三方服务提供了集成、管理、监控等功能。Ambari中的Ambari指标系统(Ambari Metrics System,AMS)为整个集群的服务及主机提供了监测功能,运维人员可通过AMS的指标展示,直观看到各个服务及主机的运行情况,及时进行资源预测、故障定位等工作。
现有的AMS实现指标数据监测工作主要包括三部分:指标采集、指标存储和指标聚合。其中,AMS现有底层的指标存储时是利用自带的HBase数据库进行存储,底层运行需依赖于Hadoop分布式文件系统(Hadoop Distributed System,HDFS)。由于Ambari集群部署的HDFS服务是对外使用提供服务的,AMS的HBase数据库频繁读写及聚合指标数据易对HDFS服务造成巨大的负载压力,故一旦HDFS服务出现故障或者启停后也会造成AMS的宕机,从而影响整个Ambari的各个服务及主机的指标监控。
发明内容
为解决上述技术问题,本申请提供一种数据监控方法、装置、设备及存储介质。
本申请的技术方案是这样实现的:
第一方面,提供了一种数据监控方法,应用于指标监控设备,所述指标监控设备包括InfluxDB时序数据库,该方法包括:
采集集群中每个主机的指标数据;其中,所述指标数据包括主机自身指标数据和部署于主机上服务的组件指标数据;
将每个主机的指标数据存储于所述InfluxDB时序数据库的第一存储空间;其中,所述InfluxDB时序数据库仅允许所述集群中每个主机进行访问;
基于预设的聚合策略,从所述第一存储空间查询第一指标数据,对所述第一指标数据进行周期性聚合操作,得到聚合后的第二指标数据;
将所述第二指标数据显示在所述指标监控设备界面。
上述技术方案中,所述InfluxDB时序数据库还集成Telegraf插件;其中,所述Telegraf插件用于采集部署于主机上的Hadoop生态圈之外的服务的组件指标数据。
上述技术方案中,所述聚合策略包括聚合类别、聚合对象标识和聚合时间;所述基于预设的聚合策略,从所述第一存储空间查询第一指标数据,对所述第一指标数据进行周期性聚合操作,得到聚合后的第二指标数据,包括:根据所述聚合类别和所述聚合对象标识,利用所述InfluxDB时序数据库的连续查询语句功能对所述第一存储空间进行周期性查询,得到所述聚合时间内的第一指标数据;计算所述聚合时间内的第一指标数据的最大值、最小值和平均值中的至少一个,得到所述聚合对象标识对应的第二指标数据。
上述技术方案中,当所述聚合类别指示所述聚合策略为针对主机级别的聚合时,所述聚合对象标识包括主机标识和指标标识;其中,所述指标标识为主机自身指标的标识或组件标识;当所述聚合类别指示所述聚合策略为针对集群级别的聚合时,所述聚合对象标识包括指标标识。
上述技术方案中,所述方法还包括:将所述第二指标数据存储至所述聚合策略对应的第二存储空间中;其中,不同聚合策略对应不同的第二存储空间。
上述技术方案中,所述将所述第二指标数据显示在所述指标监控设备界面,包括:从所述第二存储空间中获取至少一种聚合策略对应的至少一种第二指标数据,并显示在所述指标监控设备界面。
上述技术方案中,所述将每个主机的指标数据存储于所述InfluxDB时序数据库的第一存储空间,包括:将JSON格式的所述指标数据调整为适配于所述InfluxDB时序数据库的存储格式的指标数据。
第二方面,提供了一种数据监控装置,应用于指标监控设备,所述指标监控设备包括InfluxDB时序数据库,所述装置包括:
采集单元,用于采集集群中每个主机的指标数据;其中,所述指标数据包括主机自身指标数据和部署于主机上服务的组件指标数据;
存储单元,用于将每个主机的指标数据存储于所述InfluxDB时序数据库的第一存储空间;其中,所述InfluxDB时序数据库仅允许所述集群中每个主机进行访问;
聚合单元,用于基于预设的聚合策略,从所述第一存储空间查询第一指标数据,对所述第一指标数据进行周期性聚合操作,得到聚合后的第二指标数据;
显示单元,用于将所述第二指标数据显示在所述指标监控设备界面。
第三方面,提供了一种指标监控设备,包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器配置为运行所述计算机程序时,执行前述方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现前述方法的步骤。
本申请公开一种数据监控方法,应用于指标监控设备,指标监控设备包括InfluxDB时序数据库,该方法包括:采集集群中每个主机的指标数据;其中,指标数据包括主机自身指标数据和部署于主机上服务的组件指标数据;将每个主机的指标数据存储于InfluxDB时序数据库的第一存储空间;其中,InfluxDB时序数据库仅允许集群中每个主机进行访问;基于预设的聚合策略,从第一存储空间查询第一指标数据,对第一指标数据进行周期性聚合操作,得到聚合后的第二指标数据;将第二指标数据显示在指标监控设备界面。如此,通过InfluxDB时序数据库仅存储当前集群每个主机的指标数据,后续查询存储的指标数据时,也仅是当前集群每个主机可访问InfluxDB时序数据库,故InfluxDB时序数据库不易出现故障或启停造成指标监控设备宕机情况,保证指标监控设备运行稳定性。
附图说明
图1为本申请实施例中数据监控方法的第一流程示意图;
图2为本申请实施例中AMS架构组成的结构示意图;
图3为本申请实施例中数据监控方法的第二流程示意图;
图4为本申请实施例中数据监控装置组成的结构示意图;
图5为本申请实施例中数据监控设备组成的结构示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
实施例一
本申请实施例提供了一种数据监控方法,图1为本申请实施例中数据监控方法的第一流程示意图。
如图1所示,该数据监控方法应用于指标监控设备,指标监控设备包括InfluxDB时序数据库;数据监控方法具体可以包括:
步骤101:采集集群中每个主机的指标数据;其中,所述指标数据包括主机自身指标数据和部署于主机上服务的组件指标数据;
需要说明的是,主机自身指标至少包括网络、磁盘和中央处理器(CentralProcessing Unit,CPU)等。部署于主机上服务至少包括Hdfs、Kafka、Flume、其他数据库(如mysql)、消息队列(如rocketmq)、中间件等。其中,Hdfs服务的组件包括NameNode、SecondaryNameNode和DataNode;Kafka服务的组件至少包括producer、broker、topic等;由于mysql数据库服务不属于分布式服务,故mysql数据库服务的组件即为自身;rocaetmq消息队列服务的组件包括至少两个子rocaetmq消息队列。
实际应用中,指标监控设备可以为AMS。本申请给出一种AMS架构图,图2为本申请实施例中AMS架构组成的结构示意图。如图2所示,AMS包括Ambari Server 20、MetricsMonitor 21、TimelineWebService 22、Hadoop Service Sinks23、InfluxDB 24和Telegraf25。其中,AMS指标采集分为主机自身指标采集和部署于主机上服务的组件指标数据,主机自身指标数据采集由Metrics Monitor21组件完成,以POST方式将主机自身指标数据提交至AMS的TimelineWebService22;部署于主机上服务(这里的服务仅包括上段提及的Hdfs、Kafka、Flume服务)的组件指标数据采集由Hadoop Service Sinks23组件完成,以POST方式将组件指标数据提交至AMS的TimelineWebService22。至于上段提及的其他数据库(如mysql)、消息队列(如rocketmq)、中间件服务,是由Telegraf 25插件完成采集。
需要说明的是,指标监控设备的InfluxDB时序数据库集成了Telegraf插件,Telegraf插件主要用于采集部署于主机上的Hadoop生态圈之外的服务(即其他数据库、消息队列、中间件)的组件指标数据,解决了现有指标监控设备只支持采集Hadoop生态圈内服务的组件指标数据,为后续指标监控设备的数据监控进一步扩展了空间。
上述提及采集的主机自身指标数据精度和部署于主机上服务的组件指标数据精度均是秒级(如10秒钟采集一次)的,精度很高。
步骤102:将每个主机的指标数据存储于所述InfluxDB时序数据库的第一存储空间;其中,所述InfluxDB时序数据库仅允许所述集群中每个主机进行访问;
需要说明的是,InfluxDB是一个由InfluxData开发的开源时序型数据库,它由Go写成,着力于高性能地查询与存储时序型数据。InfluxDB时序数据库不对外使用提供服务,也就不容易出现故障或者启停造成AMS宕机的情况,保证了AMS对集群中每个主机的指标数据的监控。
需要说明的是,第一存储空间为存储采集的每个主机的指标数据的存储空间。或者说,第一存储空间存储的指标数据为未做任何处理的指标数据。
实际应用中,在实现该步骤之前,需要在InfluxDB时序数据库中创建第一存储空间,第一存储空间针对存入的指标数据设置了保留时长。存储至第一存储空间的指标数据中包括采集时间信息,若根据采集时间起存入第一存储空间的保留时长大于或者等于预设时长阈值时,对应的指标数据自动删除,节省了一定的存储空间。
在一些实施例中,该步骤具体包括:将JSON格式的所述指标数据调整为适配于所述InfluxDB时序数据库的存储格式的指标数据。
需要说明的是,步骤101中采集集群的每个主机的指标数据的格式为JSON格式,而JSON格式的指标数据并不能直接存储至InfluxDB时序数据库,故存储之前需要将JSON格式的指标数据调整为适配于InfluxDB时序数据库的存储格式的指标数据。
实际应用中,步骤101中采集的每个主机JSON格式的任意一条指标数据中包括一个指标和不同时间点下该指标对应的指标数据,调整后的适配于InfluxDB时序数据库的存储格式的任意一条指标数据中包括至少两个指标和相同时间点下各个指标对应的指标数据。
示例性地,InfluxDB时序数据库存储服务的组件指标数据,可以是:namenode,host=server01,component=namenode dfs.name.FSsystem=4.0,capacity=5,jvm.commit=8 1590384733668000000。由此可以看出包括两个指标,即FSsystem和capacity,分别对应的指标值为4.0和5。
InfluxDB时序数据库存储主机自身指标数据,可以是:HOST,host=server01,component=HOST mem free=40962386,cpu_usage=75,disk_total=102417671590384733668000000。由此可以看出包括三个指标,即HOST mem free、cpu_usage和disk_total,分别对应的指标值为40962386、75和10241767。
这里结合图2,该步骤是将提交至TimelineWebService22的主机自身指标数据和部署于主机上服务的组件指标数据写入(Write)至InfluxDB时序数据库。
在阐述下面步骤之前,需要说明的是,由于该步骤中存储至第一存储空间的指标数据精度是秒级,精度很高,但不便于监控人员直观分析出指标数据的大致情况。故为了可以直观分析第一存储空间的指标数据情况,需要降低指标数据的精度,可将指标数据的精度由秒级降低至分级或时级或天级。
关于降低指标数据的精度,由步骤103实现对第一存储空间的指标数据精度的降低。
步骤103:基于预设的聚合策略,从所述第一存储空间查询第一指标数据,对所述第一指标数据进行周期性聚合操作,得到聚合后的第二指标数据;
需要说明的是,聚合策略为针对第一存储空间的指标数据进行聚合操作的聚合策略。进行聚合操作之前,需根据聚合策略先从第一存储空间中查询到第一指标数据,第一指标数据的数据精度为秒级,对第一指标数据进行聚合操作,即就是将数据精度为秒级的第一指标数据降低至数据精度为分级或时级或天级的第二指标数据,进而达到降低指标数据精度的目的。
在一些实施例中,聚合策略包括聚合类别、聚合对象标识和聚合时间;该步骤具体包括:根据所述聚合类别和所述聚合对象标识,利用所述InfluxDB时序数据库的连续查询语句功能对所述第一存储空间进行周期性查询,得到所述聚合时间内的第一指标数据;计算所述聚合时间内的第一指标数据的最大值、最小值和平均值中的至少一个,得到所述聚合对象标识对应的第二指标数据。
步骤104:将所述第二指标数据显示在所述指标监控设备界面。
需要说明的是,第二指标数据为对第一指标数据进行聚合操作后的指标数据,第二指标数据包括聚合时间内的第一指标数据的最大值、最小值和平均值中的至少一个。
这里,指标监控设备界面上直观显示聚合时间内的第一指标数据的最大值、最小值和平均值中的至少一个,帮助监控人员快速了解关于第一指标数据的大致情况,提高对指标数据的监控能力。
在一些实施例中,所述方法还包括:将所述第二指标数据存储至所述聚合策略对应的第二存储空间中;其中,不同聚合策略对应不同的第二存储空间。
需要说明的是,第二存储空间指的是InfluxDB时序数据库的第二存储空间。第二存储空间的数量取决于聚合策略的种类数量。
实际应用中,预先在InfluxDB时序数据库中针对不同的聚合策略创建不同的第二存储空间,待基于某种聚合策略得到对应的第二指标数据后,先将其存储至该聚合策略对应的第二存储空间,便于后续直接从第二存储空间中获取。
在一些实施例中,该步骤具体包括:从所述第二存储空间中获取至少一种聚合策略对应的至少一种第二指标数据,并显示在所述指标监控设备界面。
这里结合图2,该步骤是TimelineWebService 22组件以GET方式,从InfluxDB 24时序数据库的第二存储空间中获取至少一种聚合策略对应的至少一种第二指标数据,Ambari Server 20组件再以GET方式将至少一种第二指标数据获取,并显示在指标监控设备界面。
这里,步骤101至步骤104的执行主体可以为数据监控设备的处理器。
采用上述技术方案,通过InfluxDB时序数据库仅存储当前集群每个主机的指标数据,后续查询存储的指标数据时,也仅是当前集群每个主机可访问InfluxDB时序数据库,故InfluxDB时序数据库不易出现故障或启停造成指标监控设备宕机情况,保证指标监控设备运行稳定性。
实施例二
在上述实施例的基础上,对数据监控方法进一步说明,图3为本申请实施例中数据监控方法的第二流程示意图。
如图3所示,该数据监控方法应用于指标监控设备,指标监控设备包括InfluxDB时序数据库;具体步骤如下:
步骤301:采集集群中每个主机的指标数据;其中,所述指标数据包括主机自身指标数据和部署于主机上服务的组件指标数据;
在一些实施例中,所述InfluxDB时序数据库还集成Telegraf插件;其中,所述Telegraf插件用于采集部署于主机上的针对Hadoop生态圈之外其他服务的组件指标数据。
需要说明的是,指标监控设备的InfluxDB时序数据库集成Telegraf插件,Telegraf插件主要用于采集部署于主机上的Hadoop生态圈之外的服务(即其他数据库、消息队列、中间件)的组件指标数据,解决了现有指标监控设备只支持采集Hadoop生态圈内服务的组件指标数据,为指标监控设备的数据监控进一步扩展了空间。
步骤302:将每个主机的指标数据存储于所述InfluxDB时序数据库的第一存储空间;其中,所述InfluxDB时序数据库仅允许所述集群中每个主机进行访问;
需要说明的是,InfluxDB是一个由InfluxData开发的开源时序型数据库,它由Go写成,着力于高性能地查询与存储时序型数据。InfluxDB时序数据库不对外使用提供服务,也就不容易出现故障或者启停造成AMS宕机的情况,保证了AMS对集群中每个主机的指标数据的监控。
在一些实施例中,该步骤具体包括:将JSON格式的所述指标数据调整为适配于所述InfluxDB时序数据库的存储格式的指标数据。
在阐述下面步骤之前,需要说明的是,由于该步骤中存储至第一存储空间的指标数据精度是秒级,精度很高,但不便于监控人员直观分析出指标数据的大致情况。故为了可以直观分析第一存储空间的指标数据情况,需要降低指标数据的精度,可将指标数据的精度由秒级降低至分级或时级或天级。
关于降低指标数据的精度,由步骤303和步骤304完成对指标数据精度的降低。
步骤303:根据所述聚合类别和所述聚合对象标识,利用所述InfluxDB时序数据库的连续查询语句功能对所述第一存储空间进行周期性查询,得到所述聚合时间内的第一指标数据;
需要说明的是,聚合类别指示针对主机级别的聚合时,聚合对象标识包括主机标识和指标标识。其中,指标标识为主机自身指标的标识和/或组件标识。
这里,主机级别的聚合指的是针对不同主机的指标数据的聚合,故聚合对象标识需要考虑主机标识。步骤301中已经明确主机的指标数据包括两种指标数据,即主机自身指标数据和组件指标数据,不同种指标数据是需要分别进行聚合的,故对主机自身指标数据进行聚合时,聚合对象标识还需要考虑主机自身指标的标识;对组件指标数据进行聚合时,聚合对象标识还需要考虑组件标识。其中,对不同种指标数据进行聚合的顺序是不做具体限制的,可并行也可串行。
需要说明的是,聚合类别指示针对集群级别的聚合时,聚合对象标识包括指标标识。其中,指标标识为主机自身指标的标识和/或组件标识。
这里,集群级别的聚合指的是针对集群中所有主机的同一指标对应的指标数据的聚合,故聚合对象标识不需要考虑主机标识。同样,主机的指标数据包括两种指标数据,即主机自身指标数据和组件指标数据,不同种指标数据是需要分别进行聚合的,故对主机自身指标数据进行聚合时,聚合对象标识仅需要考虑主机自身指标的标识;对组件指标数据进行聚合时,聚合对象标识仅需要考虑组件标识。其中,对不同种指标数据进行聚合的顺序是不做具体限制的,可并行也可串行。
需要说明的是,利用InfluxDB时序数据库的连续查询语句功能对第一存储空间进行周期性查询,取代了现有AMS后台频繁启用线程通过Phoenix对HBase数据库中指标数据进行频繁查询的方式,使得AMS后端存储整体架构更轻量化,大大释放了AMS的监控压力,提高AMS对指标数据监控的工作效率。
对于步骤303,具体的,若确定聚合类别指示针对主机级别的聚合,聚合对象标识包括主机标识和组件标识时,利用InfluxDB时序数据库的连续查询语句功能,从第一存储空间中针对每个主机上每个组件的指标数据进行聚合时间内的连续周期性查询,假设第一存储空间中每个主机上每个组件的指标数据为一整段指标数据,查询后可得到M段指标数据,即每个主机上每个组件对应的M段指标数据组成聚合时间内的第一指标数据。其中,M为大于或者等于2的正整数。若确定聚合类别指示针对集群级别的聚合,聚合对象标识包括组件标识时,利用InfluxDB时序数据库的连续查询语句功能,从第一存储空间中针对所有主机的相同组件的指标数据进行聚合时间内的连续周期性查询,假设第一存储空间中相同组件的每个组件的指标数据为一整段指标数据,查询后对于相同组件中每个组件的一整段指标数据被分割为P段(可表示为P1、P2…Pp)指标数据,将相同组件中每个组件的P1段指标数据整合起来作为聚合时间内的第一指标数据的其中一段指标数据。其中,P为大于或者等于2的正整数;p为大于0的正整数。
需要说明的是,聚合时间内的第一指标数据精度为秒级。
步骤304:计算所述聚合时间内的第一指标数据的最大值、最小值和平均值中的至少一个,得到所述聚合对象标识对应的第二指标数据;
这里,聚合时间以分钟或小时或天数为单位。通过对聚合时间内数据精度为秒级的第一指标数据进行平均值计算,可得到数据精度为分级或时级或天级的第二指标数据。另外,还可以计算出第一指标数据中最大值和/或最小值,也将其作为第二指标数据,供监控人员参考。
步骤305:将所述第二指标数据显示在所述指标监控设备界面。
在一些实施例中,所述方法还包括:将所述第二指标数据存储至所述聚合策略对应的第二存储空间中;其中,不同聚合策略对应不同的第二存储空间。
在一些实施例中,该步骤具体包括:从所述第二存储空间中获取至少一种聚合策略对应的至少一种第二指标数据,并显示在所述指标监控设备界面。
采用上述技术方案,通过InfluxDB时序数据库仅存储当前集群每个主机的指标数据,后续查询存储的指标数据时,也仅是当前集群每个主机可访问InfluxDB时序数据库,故InfluxDB时序数据库不易出现故障或启停造成指标监控设备宕机情况,保证指标监控设备运行稳定性。
实施例三
基于上述实施例,本申请提供一种InfluxDB时序数据库存储指标数据的存储策略表,表1为本申请实施例中InfluxDB时序数据库存储指标数据的存储策略表。
表1 InfluxDB时序数据库存储指标数据的存储策略表
Figure BDA0003074207730000121
需要说明的是,预先根据表1中给出的存储策略和存储时长依次在InfluxDB时序数据库中分别创建存储空间,即default、Host_minutes、Host_hours、Host_days、Cluster_minutes、Cluster_hours和Cluster_days。
具体的,集群中每个主机的指标数据可按照10秒间隔采集,InfluxDB时序数据库的default(即第一存储空间)中存储10秒精度数据,若在default中存储时长超过1天时,对应的指标数据会自动删除。
对default中的指标数据进行聚合时,聚合类别包括针对主机级别聚合和针对集群级别聚合,聚合时间可包括5分钟、1小时和365天。具体的,针对主机级别聚合时,聚合对象标识包括主机标识和指标标识(包括主机自身指标和组件指标),若聚合时间为5分钟,则从default中查询到5分钟内对应的指标数据,计算5分钟内对应的指标数据的最大值、最小值和平均值中至少一个,即得到5分钟精度数据,将5分钟精度数据存储至InfluxDB时序数据库的Host_minutes(即第二存储空间),若在Host_minutes中存储时长超过1周时,对应的指标数据会自动删除。
针对主机级别聚合时,聚合对象标识包括主机标识和指标标识(包括主机自身指标和组件指标),若聚合时间为1小时,则从default中查询到1小时内对应的指标数据,计算1小时内对应的指标数据的最大值、最小值和平均值中至少一个,即得到1小时精度数据,将1小时精度数据存储至InfluxDB时序数据库的Host_hours(即第二存储空间),若在Host_hours中存储时长超过30天时,对应的指标数据会自动删除。
针对主机级别聚合时,聚合对象标识包括主机标识和指标标识(包括主机自身指标和组件指标),若聚合时间为365天,则从default中查询到365天内对应的指标数据,计算365天内对应的指标数据的最大值、最小值和平均值中至少一个,即得到365天精度数据,将365天精度数据存储至InfluxDB时序数据库的Host_days(即第二存储空间),若在Host_days中存储时长超过30天时,对应的指标数据会自动删除。
针对集群级别聚合时,聚合对象标识包括指标标识(包括主机自身指标和组件指标),若聚合时间为5分钟,则从default中查询到5分钟内对应的指标数据,计算5分钟内对应的指标数据的最大值、最小值和平均值中至少一个,即得到5分钟精度数据,将5分钟精度数据存储至InfluxDB时序数据库的Cluster_minutes(即第二存储空间),若在Cluster_minutes中存储时长超过30天时,对应的指标数据会自动删除。
针对集群级别聚合时,聚合对象标识包括指标标识(包括主机自身指标和组件指标),若聚合时间为1小时,则从default中查询到1小时内对应的指标数据,计算1小时内对应的指标数据的最大值、最小值和平均值中至少一个,即得到1小时精度数据,将1小时精度数据存储至InfluxDB时序数据库的Cluster_hours(即第二存储空间),若在Cluster_hours中存储时长超过1年时,对应的指标数据会自动删除。
针对集群级别聚合时,聚合对象标识包括主机标识和指标标识(包括主机自身指标和组件指标),若聚合时间为365天,则从default中查询到365天内对应的指标数据,计算365天内对应的指标数据的最大值、最小值和平均值中至少一个,即得到365天精度数据,将365天精度数据存储至InfluxDB时序数据库的Cluster_days(即第二存储空间),若在Cluster_days中存储时长超过2年时,对应的指标数据会自动删除。
采用上述技术方案,通过InfluxDB时序数据库仅存储当前集群每个主机的指标数据,后续查询存储的指标数据时,也仅是当前集群每个主机可访问InfluxDB时序数据库,故InfluxDB时序数据库不易出现故障或启停造成指标监控设备宕机情况,保证指标监控设备运行稳定性。
实施例四
为实现本申请实施例的方法,基于同一发明构思,本申请实施例中还提供了一种数据监控装置,图4为本申请实施例中数据监控装置组成的结构示意图。如图4所示,该数据监控装置应用于指标监控设备,指标监控设备包括InfluxDB时序数据库,具体包括:
采集单元401,用于采集集群中每个主机的指标数据;其中,所述指标数据包括主机自身指标数据和部署于主机上服务的组件指标数据;
存储单元402,用于将每个主机的指标数据存储于所述InfluxDB时序数据库的第一存储空间;其中,所述InfluxDB时序数据库仅允许所述集群中每个主机进行访问;
聚合单元403,用于基于预设的聚合策略,从所述第一存储空间查询第一指标数据,对所述第一指标数据进行周期性聚合操作,得到聚合后的第二指标数据;
显示单元404,用于将所述第二指标数据显示在所述指标监控设备界面。
在一些实施例中,所述InfluxDB时序数据库还集成Telegraf插件;其中,所述Telegraf插件用于采集部署于主机上的Hadoop生态圈之外的服务的组件指标数据。
在一些实施例中,所述聚合策略包括聚合类别、聚合对象标识和聚合时间;所述装置包括:聚合单元403,具体用于根据所述聚合类别和所述聚合对象标识,利用所述InfluxDB时序数据库的连续查询语句功能对所述第一存储空间进行周期性查询,得到所述聚合时间内的第一指标数据;计算所述聚合时间内的第一指标数据的最大值、最小值和平均值中的至少一个,得到所述聚合对象标识对应的第二指标数据。
在一些实施例中,当所述聚合类别指示所述聚合策略为针对主机级别的聚合时,所述聚合对象标识包括主机标识和指标标识;其中,所述指标标识为主机自身指标的标识和/或组件标识;当所述聚合类别指示所述聚合策略为针对集群级别的聚合时,所述聚合对象标识包括指标标识。
在一些实施例中,所述方法还包括:将所述第二指标数据存储至所述聚合策略对应的第二存储空间中;其中,不同聚合策略对应不同的第二存储空间。
在一些实施例中,所述装置包括:显示单元404,具体用于从所述第二存储空间中获取至少一种聚合策略对应的至少一种第二指标数据,并显示在所述指标监控设备界面。
在一些实施例中,所述装置包括:存储单元402,具体用于将JSON格式的所述指标数据调整为适配于所述InfluxDB时序数据库的存储格式的指标数据。
采用上述技术方案,通过InfluxDB时序数据库仅存储当前集群每个主机的指标数据,后续查询存储的指标数据时,也仅是当前集群每个主机可访问InfluxDB时序数据库,故InfluxDB时序数据库不易出现故障或启停造成指标监控设备宕机情况,保证指标监控设备运行稳定性。
本申请实施例还提供了另一种数据监控设备,图5为本申请实施例中数据监控设备组成的结构示意图。如图5所示,该数据监控设备包括:处理器501和配置为存储能够在处理器上运行的计算机程序的存储器502;
其中,处理器501配置为运行计算机程序时,执行前述实施例中的方法步骤。
当然,实际应用时,如图5所示,该数据监控设备中的各个组件通过总线系统503耦合在一起。可理解,总线系统503用于实现这些组件之间的连接通信。总线系统503除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统503。
在实际应用中,上述处理器可以为特定用途集成电路(ASIC,ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD,Digital Signal ProcessingDevice)、可编程逻辑装置(PLD,Programmable Logic Device)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
上述存储器可以是易失性存储器(volatile memory),例如随机存取存储器(RAM,Random-Access Memory);或者非易失性存储器(non-volatile memory),例如只读存储器(ROM,Read-Only Memory),快闪存储器(flash memory),硬盘(HDD,Hard Disk Drive)或固态硬盘(SSD,Solid-State Drive);或者上述种类的存储器的组合,并向处理器提供指令和数据。
在示例性实施例中,本申请实施例还提供了一种计算机可读存储介质,用于存储计算机程序。
可选的,该计算机可读存储介质可应用于本申请实施例中的任意一种方法,并且该计算机程序使得计算机执行本申请实施例的各个方法中由处理器实现的相应流程,为了简洁,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据监控方法,应用于指标监控设备,其特征在于,所述指标监控设备包括InfluxDB时序数据库,所述方法包括:
采集集群中每个主机的指标数据;其中,所述指标数据包括主机自身指标数据和部署于主机上服务的组件指标数据;
将每个主机的指标数据存储于所述InfluxDB时序数据库的第一存储空间;其中,所述InfluxDB时序数据库仅允许所述集群中每个主机进行访问;
基于预设的聚合策略,从所述第一存储空间查询第一指标数据,对所述第一指标数据进行周期性聚合操作,得到聚合后的第二指标数据;
将所述第二指标数据显示在所述指标监控设备界面。
2.根据权利要求1所述的方法,其特征在于,所述InfluxDB时序数据库还集成Telegraf插件;其中,所述Telegraf插件用于采集部署于主机上的Hadoop生态圈之外的服务的组件指标数据。
3.根据权利要求1所述的方法,其特征在于,所述聚合策略包括聚合类别、聚合对象标识和聚合时间;
所述基于预设的聚合策略,从所述第一存储空间查询第一指标数据,对所述第一指标数据进行周期性聚合操作,得到聚合后的第二指标数据,包括:
根据所述聚合类别和所述聚合对象标识,利用所述InfluxDB时序数据库的连续查询语句功能对所述第一存储空间进行周期性查询,得到所述聚合时间内的第一指标数据;
计算所述聚合时间内的第一指标数据的最大值、最小值和平均值中的至少一个,得到所述聚合对象标识对应的第二指标数据。
4.根据权利要求3所述的方法,其特征在于,
当所述聚合类别指示所述聚合策略为针对主机级别的聚合时,所述聚合对象标识包括主机标识和指标标识;其中,所述指标标识为主机自身指标的标识和/或组件标识;
当所述聚合类别指示所述聚合策略为针对集群级别的聚合时,所述聚合对象标识包括指标标识。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述第二指标数据存储至所述聚合策略对应的第二存储空间中;其中,不同聚合策略对应不同的第二存储空间。
6.根据权利要求5所述的方法,其特征在于,所述将所述第二指标数据显示在所述指标监控设备界面,包括:
从所述第二存储空间中获取至少一种聚合策略对应的至少一种第二指标数据,并显示在所述指标监控设备界面。
7.根据权利要求1所述的方法,其特征在于,所述将每个主机的指标数据存储于所述InfluxDB时序数据库的第一存储空间,包括:
将JSON格式的所述指标数据调整为适配于所述InfluxDB时序数据库的存储格式的指标数据。
8.一种数据监控装置,应用于指标监控设备,其特征在于,所述指标监控设备包括InfluxDB时序数据库,所述装置包括:
采集单元,用于采集集群中每个主机的指标数据;其中,所述指标数据包括主机自身指标数据和部署于主机上服务的组件指标数据;
存储单元,用于将每个主机的指标数据存储于所述InfluxDB时序数据库的第一存储空间;其中,所述InfluxDB时序数据库仅允许所述集群中每个主机进行访问;
聚合单元,用于基于预设的聚合策略,从所述第一存储空间查询第一指标数据,对所述第一指标数据进行周期性聚合操作,得到聚合后的第二指标数据;
显示单元,用于将所述第二指标数据显示在所述指标监控设备界面。
9.一种指标监控设备,其特征在于,所述指标监控设备包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器配置为运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述的方法的步骤。
CN202110547666.9A 2021-05-19 2021-05-19 一种数据监控方法、装置、设备及存储介质 Pending CN115391129A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110547666.9A CN115391129A (zh) 2021-05-19 2021-05-19 一种数据监控方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110547666.9A CN115391129A (zh) 2021-05-19 2021-05-19 一种数据监控方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115391129A true CN115391129A (zh) 2022-11-25

Family

ID=84113790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110547666.9A Pending CN115391129A (zh) 2021-05-19 2021-05-19 一种数据监控方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115391129A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116450465A (zh) * 2023-06-14 2023-07-18 建信金融科技有限责任公司 数据处理方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116450465A (zh) * 2023-06-14 2023-07-18 建信金融科技有限责任公司 数据处理方法、装置、设备及介质
CN116450465B (zh) * 2023-06-14 2023-09-15 建信金融科技有限责任公司 数据处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11614990B2 (en) Automatic correlation of dynamic system events within computing devices
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
US9521052B1 (en) Methods, systems, and computer readable mediums for utilizing application programming interfaces for accessing key performance indicator information
US10498628B2 (en) Adaptive metric collection, storage, and alert thresholds
US10229129B2 (en) Method and apparatus for managing time series database
US9971664B2 (en) Disaster recovery protection based on resource consumption patterns
US7936260B2 (en) Identifying redundant alarms by determining coefficients of correlation between alarm categories
US8904144B1 (en) Methods and systems for determining at risk index for storage capacity
US11945337B2 (en) System and method for vehicle battery management, storage medium, and server system
CN111881011A (zh) 日志管理方法、平台、服务器及存储介质
CN111143158B (zh) 一种监控数据实时存储方法、系统、电子设备及存储介质
CN113849294B (zh) 一种kubernetes pod扩缩容的系统及方法
CN108647118A (zh) 基于存储集群的副本异常恢复方法、装置及计算机设备
CN105512788A (zh) 一种智能运维管理方法及系统
CN115391129A (zh) 一种数据监控方法、装置、设备及存储介质
CN108021484B (zh) 云端服务系统中磁盘预期寿命值的延长方法及其系统
CN115525603A (zh) 存储统计方法、装置、计算机可读存储介质与ai设备
CN112732517B (zh) 一种磁盘故障告警方法、装置、设备及可读存储介质
CN110347343B (zh) 数据管理方法和装置
CN113094353A (zh) 一种数据库扩容方法及装置
CN107463484B (zh) 一种采集监控记录的方法及系统
CN113590257B (zh) 一种基于容器的数据库容灾的方法、系统、设备及介质
CN113688142B (zh) 索引管理方法、装置、存储介质和电子设备
US20230315682A1 (en) Long term and short term data management of a file based time series database populated with data collected by an energy sensor for a power generating device or from another data source
EP4336883A1 (en) Modeling method, network element data processing method and apparatus, electronic device, and medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination