CN117376089A - 一种基于智能云平台的多维监控方法 - Google Patents

一种基于智能云平台的多维监控方法 Download PDF

Info

Publication number
CN117376089A
CN117376089A CN202311222384.7A CN202311222384A CN117376089A CN 117376089 A CN117376089 A CN 117376089A CN 202311222384 A CN202311222384 A CN 202311222384A CN 117376089 A CN117376089 A CN 117376089A
Authority
CN
China
Prior art keywords
cloud platform
data
intelligent cloud
multidimensional
indexes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311222384.7A
Other languages
English (en)
Inventor
贺敬伟
程伟华
刘小磊
戚林成
冷新云
陶笑
张世杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Electric Power Information Technology Co Ltd
Original Assignee
Jiangsu Electric Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Electric Power Information Technology Co Ltd filed Critical Jiangsu Electric Power Information Technology Co Ltd
Priority to CN202311222384.7A priority Critical patent/CN117376089A/zh
Publication of CN117376089A publication Critical patent/CN117376089A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于智能云平台的多维监控方法,包括:将不同的监控对象根据层级进行编号;将不同层级的设备根据调用关系中的最底层进行编号,若已存在最底层则根据此底层进行编号,在重复进行后,并根据编号形成不同的业务模块;利用数据采集器采集监控对象的多维监控数据,多维监控数据通过数据传输方式发送至智能云平台;本发明可解决告警量大和告警定位效率底下的痛点,基于不同层级之间的调用关系数据进行分析,识别到业务模块及相关设备对象,从而形成业务模块和设备之间的多维度数据,异常检测也由机器维度更改为业务模块维度,减少检测对象的数量,在分析异常时,沿着业务模块到机器的层级关系可查找出异常点。

Description

一种基于智能云平台的多维监控方法
技术领域
本发明涉及云平台领域,具体为一种基于智能云平台的多维监控方法。
背景技术
监控的核心是对监控对象的指标采集、处理、检测和分析。传统监控的对象是一个单一的实体,例如服务器、路由器、交换机等。这些单一对象通过指标反映运行状态,例如服务器的状态指标有CPU使用率、内存使用大小、磁盘IO和网卡流量等。
传统监控系统通过定时任务采集这些监控对象的指标数据,经过校正后存储起来用于展示和异常检测。异常检测通过判断指标是否偏离设置的阈值来标识异常事件。
在传统监控之后,将监控对象扩展为一个虚拟的业务功能或业务模块,这时的对象仍是单一的,可用一个唯一ID表达。对象的指标也相应的转变为反映业务功能状态的指标,例如接口调用次数、http返回200次数、http返回500次数等。
这些指标数据通常需要在应用程序埋点上报。数据处理、存储和异常检测与传统监控一致,随着业务扩展,业务模块间的关系愈加复杂。通过单一对象的指标反映的状态已不能满足业务监控需求。业务异常往往体现在多个对象的指标异常,当用户收到告警后,通常需要在大量的指标数据中抽丝剥茧分析异常原因,这种分析方式催生了运维痛点:一是告警量大;二是分析耗时长。
发明内容
为了解决背景技术中存在的问题,本发明的目的在于提供一种基于智能云平台的多维监控方法,可解决告警量大和告警定位效率底下的痛点,基于不同层级之间的调用关系数据进行分析,识别到业务模块及相关设备对象,从而形成业务模块和设备之间的多维度数据,异常检测也由机器维度更改为业务模块维度,减少检测对象的数量,在分析异常时,沿着业务模块到机器的层级关系可查找出异常点,分析时间短,准确率高。
为实现上述目的,本发明提供如下技术方案:
一种基于智能云平台的多维监控方法,包括以下内容:
S1:将不同的监控对象根据层级进行编号,例如:A1、A2、B1、B2、C1和C2;
S2:将不同层级的设备根据调用关系中的最底层设备进行编号,若已存在最底层设备则根据此底层进行编号,在重复进行后,并根据编号形成不同的业务模块;
S3:利用数据采集器采集监控对象的多维监控数据,多维监控数据通过MQTT数据协议传输方式发送至智能云平台;
S4:多维监控数据储存于智能云平台的数据库内,在智能云平台内由统计模块对多维监控数据进行统计分类;
S5:智能云平台内还设有异常报警模块,由异常报警模块对多维监控数据进行分析,当分析结果为异常时,根据业务模块中设备的层级关系即可查出异常设备。
优选的,所述数据传输方式为蓝牙、WIFI、LAN、LORA、NBIOT中的一种或多种组合。
优选的,所述多维监控数据包括时间、业务特性和指标三个维度,其中时间维度中的粒度取1min粒度,指标包括成功率、耗时和延时分段统计等。
优选的,所述指标包括单一变量指标和复合指标,其中单一变量指标包括请求量、响应量等不依赖其他变量独立统计的指标,复合指标为需要通过两个或多个变量进行计算而得的指标,例如成功率。
优选的,在分析异常时,采用基于Kmeans分类的多维根因分析方法,利用改方法对不同设备的成功率指标进行分类,在推荐出分类后的异常业务模块后再做二次分析。
优选的,在二次分析时,通过查看该异常业务模块中不同层级的设备中每个维度的成功率数据,从而找出成功率最低且总量最大的维度数据。
与现有技术相比,本发明的有益效果是:
本发明可解决告警量大和告警定位效率低下的痛点,对不同层级之间的调用关系数据进行分析,识别目标对象并编号成为业务模块,从而形成业务模块和多个设备之间的关系数据,异常检测也由机器维度更改为业务模块维度,减少检测对象的数量。在分析异常时,沿着业务模块到机器的层级关系可查找出异常点。本发明分析时间短,准确率高。
附图说明
图1为本发明的步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种基于智能云平台的多维监控方法,包括以下步骤:
S1:将不同的监控对象根据层级进行标号,例如:A1、A2、B1、B2、C1和C2;
S2:将不同层级的设备根据调用关系中的最底层设备进行编号,若已存在最底层设备则根据此底层进行编号,在重复进行后,并根据编号形成不同的业务模块;
S3:利用数据采集器采集监控对象的多维监控数据,多维监控数据通过MQTT数据协议传输方式发送至智能云平台,其中,所述数据传输方式为蓝牙、WIFI、LAN、LORA、NBIOT中的一种或多种组合;
S4:多维监控数据储存于智能云平台的数据库内,在智能云平台内由统计模块对多维监控数据进行统计分类,其中,多维监控数据包括时间、业务特性和指标三个维度,其中时间维度中的粒度取1min粒度,指标包括成功率、耗时和延时分段统计等,所述指标包括单一变量指标和复合指标,其中单一变量指标包括请求量、响应量等不依赖其他变量独立统计的指标,复合指标为需要通过两个或多个变量进行计算而得的指标,例如成功率;
S5:智能云平台内还设有异常报警模块,由异常报警模块对多维监控数据进行分析,在分析异常时,采用基于Kmeans分类的多维根因分析方法,利用改方法对不同设备的成功率指标进行分类,在推荐出分类后的异常业务模块后再做二次分析,在二次分析时,通过查看该异常业务模块中不同层级的设备中每个维度的成功率数据,从而找出成功率最低且总量最大的维度数据,确定异常设备。
以下A、B、C三个层级演示本发明的多维监控方法,在A、B、C三个层级中用A调用B,B调用C,A层级下有两个模块,编号为A1、A2;B层级下有两个模块,编号为B1、B2,C层级下有两个模块,编号为C1、C2;若C1和C2设备负载已饱和,在传统的模式中,若C1设备出现异常,则提供有损服务,影响B和A的成功率,从而触发C1、B1、B2、A1、A2五台设备报警,而在本发明中将不同层级的设备根据调用关系中的最底层进行编号,如A1B1C1的调用关系编号为C1业务模块、A1B1C2的调用关系编号为C2业务模块等,此时,当C1设备出现异常时,则C1业务模块出现报警,从而减少了告警量,且可沿着业务模块之间的调用关系确定异常点。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的基本规则的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于智能云平台的多维监控方法,其特征在于,包括以下步骤:
S1:将不同的监控对象根据层级进行编号;
S2:将不同层级的设备根据调用关系中的最底层设备进行编号,若已存在最底层设备则根据此底层进行编号,在重复进行后,并根据编号形成不同的业务模块;
S3:利用数据采集器采集监控对象的多维监控数据,多维监控数据通过MQTT数据协议传输方式发送至智能云平台;
S4:多维监控数据储存于智能云平台的数据库内,在智能云平台内由统计模块对多维监控数据进行统计分类;
S5:智能云平台内设有异常报警模块,由异常报警模块对多维监控数据进行分析,当分析结果为异常时,根据业务模块中设备的层级关系即可查出异常设备。
2.根据权利要求1所述的一种基于智能云平台的多维监控方法,其特征在于:S3中,所述数据传输方式为蓝牙、WIFI、LAN、LORA、NBIOT中的一种或多种组合。
3.根据权利要求1所述的一种基于智能云平台的多维监控方法,其特征在于:S3中,所述多维监控数据包括时间、业务特性和指标三个维度,其中时间维度中的粒度取1min粒度,指标包括成功率、耗时和延时分段统计。
4.根据权利要求3所述的一种基于智能云平台的多维监控方法,其特征在于:所述指标包括单一变量指标和复合指标,其中单一变量指标包括请求量、响应量不依赖其他变量独立统计的指标,复合指标为需要通过两个或多个变量进行计算而得的指标。
5.根据权利要求1所述的一种基于智能云平台的多维监控方法,其特征在于:S5中,在分析异常时,采用基于Kmeans分类的多维根因分析方法,利用改方法对不同设备的成功率指标进行分类,在推荐出分类后的异常业务模块后再做二次分析。
6.根据权利要求5所述的一种基于智能云平台的多维监控方法,其特征在于:在二次分析时,通过查看该异常业务模块中不同层级的设备中每个维度的成功率数据,从而找出成功率最低且总量最大的维度数据。
CN202311222384.7A 2023-09-21 2023-09-21 一种基于智能云平台的多维监控方法 Pending CN117376089A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311222384.7A CN117376089A (zh) 2023-09-21 2023-09-21 一种基于智能云平台的多维监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311222384.7A CN117376089A (zh) 2023-09-21 2023-09-21 一种基于智能云平台的多维监控方法

Publications (1)

Publication Number Publication Date
CN117376089A true CN117376089A (zh) 2024-01-09

Family

ID=89397298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311222384.7A Pending CN117376089A (zh) 2023-09-21 2023-09-21 一种基于智能云平台的多维监控方法

Country Status (1)

Country Link
CN (1) CN117376089A (zh)

Similar Documents

Publication Publication Date Title
CN109684052B (zh) 事务分析方法、装置、设备及存储介质
CN101808351B (zh) 业务影响分析方法和系统
CN112953738B (zh) 根因告警的定位系统、方法、装置、计算机设备
CN1763778A (zh) 使用关联图和运行时行为模型确定问题的系统和方法
CN107707376A (zh) 一种监控和告警的方法和系统
CN111259073A (zh) 基于日志、流量和业务访问的业务系统运行状态智能研判系统
CN113986595A (zh) 一种异常定位方法及装置
CN111338888B (zh) 一种数据统计方法、装置、电子设备及存储介质
CN112491622A (zh) 定位业务系统故障根因的方法和系统
CN107548087A (zh) 一种告警关联分析的方法及装置
CN111339052A (zh) 一种非结构化日志数据处理方法及装置
CN112784025B (zh) 一种目标事件的确定方法和装置
CN109871302A (zh) 基于资源开销统计的云计算应用识别装置及方法
CN111882179A (zh) 一种基于数据流处理的网络安全态势感知系统平台
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN117376089A (zh) 一种基于智能云平台的多维监控方法
CN113472881B (zh) 在线终端设备的统计方法和装置
CN109687592A (zh) 变电站信息显示控制方法、装置及电子设备
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN111885159B (zh) 数据采集方法、装置、电子设备及存储介质
CN112087323B (zh) 告警相关性分析方法、装置、设备及可读存储介质
CN114860543A (zh) 异常检测方法、装置、设备与计算机可读存储介质
CN114244685A (zh) 一种云服务中心访问异常处置系统
CN112003900A (zh) 实现分布式系统中高负载场景下服务高可用的方法、系统
CN115686381B (zh) 存储集群运行状态的预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination