CN113778836B - 云原生应用健康监测方法、装置、设备与可读存储介质 - Google Patents

云原生应用健康监测方法、装置、设备与可读存储介质 Download PDF

Info

Publication number
CN113778836B
CN113778836B CN202111330371.2A CN202111330371A CN113778836B CN 113778836 B CN113778836 B CN 113778836B CN 202111330371 A CN202111330371 A CN 202111330371A CN 113778836 B CN113778836 B CN 113778836B
Authority
CN
China
Prior art keywords
index information
cloud
native application
historical
alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111330371.2A
Other languages
English (en)
Other versions
CN113778836A (zh
Inventor
段阳阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Mingyuan Cloud Technology Co Ltd
Original Assignee
Shenzhen Mingyuan Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Mingyuan Cloud Technology Co Ltd filed Critical Shenzhen Mingyuan Cloud Technology Co Ltd
Priority to CN202111330371.2A priority Critical patent/CN113778836B/zh
Publication of CN113778836A publication Critical patent/CN113778836A/zh
Application granted granted Critical
Publication of CN113778836B publication Critical patent/CN113778836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种云原生应用健康监测方法、装置、设备与可读存储介质,该方法包括:获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;获取所述云原生应用当前指标信息,将所述当前指标信息与所述预测指标信息进行对比,得到对比结果;根据所述对比结果,确定所述云原生应用的健康状态。本发明通过预测模型根据历史指标信息集合进行预测,得到预测指标信息,并将当前指标信息与预测指标信息进行对比,得到对比结果,以确定云原生应用的健康状态,提高了云原生应用健康监测的效率和准确性。

Description

云原生应用健康监测方法、装置、设备与可读存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及云原生应用健康监测方法、装置、设备与可读存储介质。
背景技术
监测云原生应用健康状态是软件全生命周期管理过程中的关键环节。软件系统开发上线后,要达到预期的设计目标、稳定服务于目标场景,离不开对云原生应用的实时监控,并且在发生应用异常时能够及时识别并发出告警通知。而对云原生应用的实时监控往往需要人工采集应用程序和基础架构的运行日志,并提取当中的指标数据,通过数据统计分析历史和当前数据来进行异常告警,但是随着云原生应用的发展,日益复杂的云原生应用中数量庞大的指标使得监测告警的效率和准确性都大幅下降,因此,如何提高云原生应用健康监测的效率和准确性,是急需解决的问题。
发明内容
本发明的主要目的在于提出一种云原生应用健康监测方法、装置、设备与可读存储介质,旨在解决如何如何提高云原生应用健康监测的效率和准确性的问题。
为实现上述目的,本发明提供一种云原生应用健康监测方法,所述云原生应用健康监测方法包括如下步骤:
获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;
获取所述云原生应用当前指标信息,将所述当前指标信息与所述预测指标信息进行对比,得到对比结果;
根据所述对比结果,确定所述云原生应用的健康状态。
优选地,获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息的步骤之前,所述云原生应用健康监测方法包括:
根据第一预设周期,获取云原生应用的运行日志,并获取所述运行日志中的指标信息作为训练样本;
基于所述训练样本训练得到预测模型。
优选地,历史指标信息集合包括历史事件指标信息集合和历史状态指标信息集合,所述获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息的步骤包括:
获取并判断预设告警类型;
若所述预设告警类型为事件告警类型,则获取云原生应用的所述历史事件指标信息集合,并通过预测模型根据所述历史事件指标信息集合进行预测,得到预测事件指标信息;
若所述预设告警类型为状态告警类型,则获取云原生应用的所述历史状态指标信息集合,并通过预测模型根据所述历史状态指标信息集合进行预测,得到预测状态指标信息。
优选地,当前指标信息包括当前事件指标信息和当前状态指标信息,所述获取所述云原生应用的当前指标信息,将所述当前指标信息与所述预测指标信息进行对比,得到对比结果的步骤包括:
若所述预设告警类型为事件告警类型,则获取所述云原生应用的当前事件指标信息,将所述当前事件指标信息与所述预测事件指标信息进行对比,得到对比结果;
若所述预设告警类型为状态告警类型,则获取所述云原生应用的当前状态指标信息,将所述当前状态指标信息与所述预测状态指标信息进行对比,得到对比结果。
优选地,根据所述对比结果,确定所述云原生应用的健康状态的步骤包括:
若所述对比结果为所述当前指标信息与所述预测指标信息的差值满足预设条件,则确定所述云原生应用的健康状态为正常,并执行步骤:获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;
若所述对比结果为所述当前指标信息与所述预测指标信息的差值不满足预设条件,则确定所述云原生应用的健康状态为异常,并进行告警。
优选地,进行告警的步骤包括:
根据所述当前指标信息生成告警信息,并根据所述告警信息确定告警等级;
根据所述告警等级获取对应的预设告警联系人,并将所述告警信息发送给所述预设告警联系人。
优选地,根据所述告警等级获取对应的预设告警联系人,并将所述告警信息发送给所述预设告警联系人的步骤之后,所述云原生应用健康监测方法还包括:
检测是否接收到所述告警联系人发送的确认告警指令;
若未接收到所述告警联系人发送的所述确认告警指令,则根据第二预设周期,重新将所述告警信息发送给所述预设告警联系人。
此外,为实现上述目的,本发明还提供一种云原生应用健康监测装置,所述云原生应用健康监测装置包括:
预测模块,用于获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;
对比模块,用于获取所述云原生应用当前指标信息,将所述当前指标信息与所述预测指标信息进行对比,得到对比结果;
确定模块,用于根据所述对比结果,确定所述云原生应用的健康状态。
进一步地,所述预测模块还包括训练模块,所述训练模块用于:
根据第一预设周期,获取云原生应用的运行日志,并获取所述运行日志中的指标信息作为训练样本;
基于所述训练样本训练得到预测模型。
进一步地,所述预测模块还用于:
获取并判断预设告警类型;
若所述预设告警类型为事件告警类型,则获取云原生应用的所述历史事件指标信息集合,并通过预测模型根据所述历史事件指标信息集合进行预测,得到预测事件指标信息;
若所述预设告警类型为状态告警类型,则获取云原生应用的所述历史状态指标信息集合,并通过预测模型根据所述历史状态指标信息集合进行预测,得到预测状态指标信息。
进一步地,所述对比模块还用于:
若所述预设告警类型为事件告警类型,则获取所述云原生应用的当前事件指标信息,将所述当前事件指标信息与所述预测事件指标信息进行对比,得到对比结果;
若所述预设告警类型为状态告警类型,则获取所述云原生应用的当前状态指标信息,将所述当前状态指标信息与所述预测状态指标信息进行对比,得到对比结果。
进一步地,所述确定模块还包括告警模块,所述告警模块用于:
若所述对比结果为所述当前指标信息与所述预测指标信息的差值满足预设条件,则确定所述云原生应用的健康状态为正常,并执行步骤:获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;
若所述对比结果为所述当前指标信息与所述预测指标信息的差值不满足预设条件,则确定所述云原生应用的健康状态为异常,并进行告警。
进一步地,所述告警模块还用于:
根据所述当前指标信息生成告警信息,并根据所述告警信息确定告警等级;
根据所述告警等级获取对应的预设告警联系人,并将所述告警信息发送给所述预设告警联系人。
进一步地,所述告警模块还包括检测模块,所述检测模块用于:
检测是否接收到所述告警联系人发送的确认告警指令;
若未接收到所述告警联系人发送的所述确认告警指令,则根据第二预设周期,重新将所述告警信息发送给所述预设告警联系人。
此外,为实现上述目的,本发明还提供一种云原生应用健康监测设备,所述云原生应用健康监测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的云原生应用健康监测程序,所述云原生应用健康监测程序被所述处理器执行时实现如上所述的云原生应用健康监测方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有云原生应用健康监测程序,所述云原生应用健康监测程序被处理器执行时实现如上所述的云原生应用健康监测方法的步骤。
本发明提出的云原生应用健康监测方法,获取云原生应用的历史指标信息集合,并通过预测模型根据历史指标信息集合进行预测,得到预测指标信息;获取云原生应用当前指标信息,将当前指标信息与预测指标信息进行对比,得到对比结果;根据对比结果,确定云原生应用的健康状态。本发明通过预测模型根据历史指标信息集合进行预测,得到预测指标信息,并将当前指标信息与预测指标信息进行对比,得到对比结果,以确定云原生应用的健康状态,提高了云原生应用健康监测的效率和准确性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明云原生应用健康监测方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例设备可以是PC机或服务器设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及云原生应用健康监测程序。
其中,操作系统是管理和控制便携云原生应用健康监测系统与软件资源的程序,支持网络通信模块、用户接口模块、云原生应用健康监测程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图1所示的云原生应用健康监测设备中,所述云原生应用健康监测设备通过处理器1001调用存储器1005中存储的云原生应用健康监测程序,并执行下述云原生应用健康监测方法各个实施例中的操作。
基于上述硬件结构,提出本发明云原生应用健康监测方法实施例。
参照图2,图2为本发明云原生应用健康监测方法第一实施例的流程示意图,所述方法包括:
步骤S10,获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;
步骤S20,获取所述云原生应用当前指标信息,将所述当前指标信息与所述预测指标信息进行对比,得到对比结果;
步骤S30,根据所述对比结果,确定所述云原生应用的健康状态。
本实施例云原生应用健康监测方法运用于云原生机构的云原生应用健康监测设备中,云原生应用健康监测设备可以是终端或PC设备中,该云原生应用健康监测设备中包括但不限于人机交互界面,人机交互界面用于与用户进行交互,为描述方便,以下将云原生应用健康监测设备简称为监测设备进行描述;监测设备获取云原生应用的历史指标集合,并通过预测模型根据历史指标信息集合进行预测,得到预测指标信息;监测设备获取云原生应用当前指标信息,将当前指标信息与预测指标信息进行对比,得到对比结果;监测设备若得到对比结果为当前指标信息与预测指标信息的差值满足预设条件,则确定云原生应用的健康状态为正常,并执行步骤:获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;监测设备若所述对比结果为所述当前指标信息与所述预测指标信息的差值不满足预设条件,则确定所述云原生应用的健康状态为异常,并根据当前指标信息生成告警信息,再根据告警信息确定告警等级,根据告警等级获取对应的预设告警联系人,并将告警信息发送给预设告警联系人。需要说明的是,云原生应用,就是天生具备云计算基因,以云计算的思想构建并适用于云计算环境的应用;指标信息是指云原生应用在运行时产生的量值和率值,其中产生的量值和率值都符合一定的规则。
本实施例的云原生应用健康监测方法,获取云原生应用的历史指标信息集合,并通过预测模型根据历史指标信息集合进行预测,得到预测指标信息;获取云原生应用当前指标信息,将当前指标信息与预测指标信息进行对比,得到对比结果;根据对比结果,确定云原生应用的健康状态。本发明通过预测模型根据历史指标信息集合进行预测,得到预测指标信息,并将当前指标信息与预测指标信息进行对比,得到对比结果,以确定云原生应用的健康状态,提高了云原生应用健康监测的效率和准确性。
以下将对各个步骤进行详细说明:
步骤S10,获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;
在本实施例中,监测设备获取云原生应用的历史指标信息集合,并通过预测模型根据历史指标信息集合进行预测,得到预测指标信息;其中,历史指标信息集合是指云原生应用在过去的一段时间内运行时产生的指标信息,包括历史量值集合和历史率值集合,历史指标信息集合是存储在云原生应用的运行日志中的。
在一可行的实施例中,云原生应用的开发者通过监测设备中的人机交互界面输入云原生应用需要被监测的指标、正常指标值范围、告警类型和告警联系人等信息。监测设备在接收到开发者触发的检测指令时,根据预设时间间隔和当前时间点,确定起始时间点,该起始时间点为过去的时间点,监测设备获取云原生应用从起始时间点到当前时间点的运行日志,并获取运行日志中从起始时间点到当前时间点的历史指标信息集合,当历史指标信息集合为历史量值集合时,将历史量值集合输入预测模型进行预测,得到预测指标信息;当历史指标信息集合为历史率值集合时,通过预设统计算法,统计历史率值集合,并推算出预测指标信息。需要说明的是,预设时间间隔是相关研发人员根据预测模型的实际情况提前设定在监测设备中的,通过获取预设时间间隔的历史指标数据集合,使得通过预测模型或预设统计算法得到的预测指标信息,能够达到较高的预测准确率;监测设备还能在间隔一定时间未接收到开发者触发的检测指令时,自动触发检测指令,以保证能够持续对云原生应用进行健康监测,其中间隔的时间可通过相关研发人员提前设定。
具体地,步骤S10包括:
步骤a,获取并判断预设告警类型;
在该步骤中,监测设备根据需要进行检测的云原生应用,获取对应的预设告警类型,该告警类型是由云原生应用对应的开发者提前设定的,并判断预设告警类型是事件告警类型还是状态告警类型。需要说明的是,云原生应用对应的告警类型可能同时包括事件告警类型和状态告警类型,此时监测设备需要同时获取历史事件指标信息集合和历史状态指标信息集合,并通过预测模型分别进行预测,得到预测事件指标信息和预测状态指标信息;历史事件指标信息集合包括历史事件量值集合和历史事件率值集合,历史状态指标信息集合包括历史状态量值集合和历史状态率值集合。
步骤b,若所述预设告警类型为事件告警类型,则获取云原生应用的所述历史事件指标信息集合,并通过预测模型根据所述历史事件指标信息集合进行预测,得到预测事件指标信息;
在该步骤中,若监测设备判断预设告警类型为事件告警类型,则获取云原生应用的历史事件指标信息集合,并通过预测模型根据历史事件指标信息集合进行预测,得到预测事件指标信息;需要说明的是,历史事件指标信息集合是指云原生应用在历史运行时发生的事件而产生的各种指标信息,例如云原生应用正常处理数据流时的各种指标信息、云原生应用在正常启动或关闭时的各种指标信息等。
在一可行的实施例中,监测设备获取云原生应用根据预设时间间隔和当前时间点,确定起始时间点,该起始时间点为过去的时间点,监测设备获取云原生应用从起始时间点到当前时间点的运行日志,并获取运行日志中从起始时间点到当前时间点的历史事件指标信息集合,当历史事件指标信息集合为历史事件量值集合时,将历史事件量值集合输入预测模型进行预测,得到预测事件指标信息;当历史事件指标信息集合为历史事件率值集合时,通过预设统计算法,统计历史事件率值集合,并推算出预测事件指标信息。
步骤c,若所述预设告警类型为状态告警类型,则获取云原生应用的所述历史状态指标信息集合,并通过预测模型根据所述历史状态指标信息集合进行预测,得到预测状态指标信息。
在该步骤中,若监测设备判断预设告警类型为状态告警类型,则获取云原生应用的历史状态指标信息集合,并通过预测模型根据历史状态指标信息集合进行预测,得到预测状态指标信息;需要说明的是,历史状态指标信息集合是指云原生应用在历史运行时不同状态对应的各种指标信息,例如云原生应用在正常启动状态的每个时间点对应的各种指标信息、云原生应用在正常关闭状态的每个时间点对应的各种指标信息、云原生应用在被用户正常操作时处于不同状态下的各种指标信息。
在一可行的实施例中,监测设备获取云原生应用根据预设时间间隔和当前时间点,确定起始时间点,该起始时间点为过去的时间点,监测设备获取云原生应用从起始时间点到当前时间点的运行日志,并获取运行日志中从起始时间点到当前时间点的历史状态指标信息集合,当历史状态指标信息集合为历史状态量值集合时,将历史状态量值集合输入预测模型进行预测,得到预测状态指标信息;当历史状态指标信息集合为历史状态率值集合时,通过预设统计算法,统计历史状态率值集合,并推算出预测事件指标信息。
步骤S20,获取所述云原生应用当前指标信息,将所述当前指标信息与所述预测指标信息进行对比,得到对比结果;
在本实施例中,监测设备获取所述云原生应用当前指标信息,将所述当前指标信息与所述预测指标信息进行对比,得到对比结果;其中,当前指标信息是指云原生应用在当前的一段时间内运行时产生的指标信息,当前指标信息是存储在云原生应用的运行日志中的;当前指标信息包括当前事件指标信息和当前状态指标信息,可以理解的是,事件的发生通常是在一个时间段内的,因此在获取当前事件指标信息时,监测设备需要获取当前事件发生的时间段内产生的指标信息,才能得到当前事件指标信息,状态通常是指某个时间点的状态,因此,监测设备仅仅需要获取当前时间点云原生应用产生的指标信息,便能得到当前状态指标信息。
具体地,步骤S20包括:
步骤d,若所述预设告警类型为事件告警类型,则获取所述云原生应用的当前事件指标信息,将所述当前事件指标信息与所述预测事件指标信息进行对比,得到对比结果;
在该步骤中,监测设备根据需要进行检测的云原生应用,获取对应的预设告警类型,若预设告警类型为事件告警类型,则获取云原生应用的当前事件指标信息,将当前事件指标信息与预测事件指标信息进行对比,得到对比结果;如:监测设备获取云原生应用当前事件发生时间段内,云原生应用产生的运行日志,并获取运行日志中当前事件指标信息,将当前事件指标信息与预测事件指标信息进行对比,得到对比结果。可以理解的是,当前事件指标信息包括当前事件量值和当前事件率值,当当前事件指标信息为当前事件量值时,则将当前事件量值与通过历史事件量值集合预测得到的预测事件指标信息进行对比,当当前事件指标信息为当前事件率值时,则将当前事件率值与通过历史事件率值集合预测得到的预测事件指标信息进行对比。
步骤e,若所述预设告警类型为状态告警类型,则获取所述云原生应用的当前状态指标信息,将所述当前状态指标信息与所述预测状态指标信息进行对比,得到对比结果。
在该步骤中,监测设备根据需要进行检测的云原生应用,获取对应的预设告警类型,若预设告警类型为状态告警类型,则获取云原生应用的当前状态指标信息,将当前状态指标信息与预测状态指标信息进行对比,得到对比结果;如:监测设备获取当前时间点云原生应用的状态对应的运行日志,并获取运行日志中当前状态指标信息,将当前状态指标信息与预测状态指标信息进行对比,得到对比结果。可以理解的是,当前状态指标信息包括当前状态量值和当前状态率值,当当前状态指标信息为当前状态量值时,则将当状态件量值与通过历史状态量值集合预测得到的预测状态指标信息进行对比,当当前状态指标信息为当前状态率值时,则将当前状态率值与通过历史状态率值集合预测得到的预测状态指标信息进行对比。
进一步地,当需要进行检测的云原生应用对应的预设告警类型包括事件告警类型和状态告警类型时,监测设备获取云原生应用当前事件发生时间段内,云原生应用产生的运行日志,并获取运行日志中当前事件指标信息,将当前事件指标信息与预测事件指标信息进行对比,得到对比结果;同时监测设备获取当前时间点云原生应用的状态对应的运行日志,并获取运行日志中当前状态指标信息,将当前状态指标信息与预测状态指标信息进行对比,得到对比结果。
步骤S30,根据所述对比结果,确定所述云原生应用的健康状态。
在本实施例中,监测设备根据将当前指标信息与预测指标信息进行对比得到的对比结果,确定云原生应用的健康状态,并在云原生应用的健康状态为异常时,向预设告警联系人发送告警;需要说明的是,预设告警联系人是由云原生应用对应的开发人员在检测设备的人机交互界面预先设定的,进一步地,可根据云原生应用的健康状态的异常等级,设定不同的告警联系人。
具体地,步骤S30包括:
步骤f,若所述对比结果为所述当前指标信息与所述预测指标信息的差值满足预设条件,则确定所述云原生应用的健康状态为正常,并执行步骤:获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;
在该步骤中,监测设备若得到对比结果为当前指标信息与预测指标信息的差值满足预设条件,则确定云原生应用的健康状态为正常,并执行步骤:获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;需要说明的是,预设条件是由云原生应用的开发者通过监测设备的人机交互界面提前设定的,预设条件可为当前指标信息与预测指标信息的差值不超过预设阈值,具体预设条件不做限定,由相关开发者根据云原生应用的实际情况进行设定。
在一可行的实施例中,云原生应用的开发者通过监测设备的人机交互界面提前设定的预设条件为当前指标信息与预测指标信息的差值应当在[-10,10]或[-10%,10%]的区间内,并且告警类型为状态告警类型,监测设备若得到对比结果为当前状态量值与预测指标信息的差值在[-10,10]的区间内,则确定云原生应用的健康状态为正常,或者,监测设备若得到对比结果为当前状态率值与预测指标信息的差值在[-10%,10%]的区间内,则确定云原生应用的健康状态为正常,并重新执行获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息的步骤以及后续步骤。
步骤g,若所述对比结果为所述当前指标信息与所述预测指标信息的差值不满足预设条件,则确定所述云原生应用的健康状态为异常,并进行告警。
在该步骤中,监测设备若得到对比结果为当前指标信息与预测指标信息的差值不满足预设条件,则确定云原生应用的健康状态为异常,并进行告警;如:云原生应用的开发者通过监测设备的人机交互界面提前设定的预设条件为当前指标信息与预测指标信息的差值应当在[-10,10]或[-10%,10%]的区间内,并且告警类型为状态告警类型,监测设备若得到对比结果为当前状态量值与预测指标信息的差值不在[-10,10]的区间内,则确定云原生应用的健康状态为异常,或者,监测设备若得到对比结果为当前状态率值与预测指标信息的差值不在[-10%,10%]的区间内,则确定云原生应用的健康状态为异常,并进行告警。
需要说明的是,当告警类型为事件告警类型,其对比步骤与上述步骤相似,在此便不一一赘述。
进一步地,进行告警的步骤包括:
步骤g1,根据所述当前指标信息生成告警信息,并根据所述告警信息确定告警等级;
在该步骤中,监测设备根据当前指标信息生成告警信息,并根据告警信息确定告警等级;在一可行的实施例中,当前指标信息为当前事件指标信息,监测设备根据当前事件指标信息判断云原生应用的健康状态为异常时,监测设备驱动告警生成模块中的事件触发器,对当前事件指标信息进行条件判断、事件序列分析、事件关联分析,最终确定告警信息,并通过告警生成模块对告警信息进行注册、分组、关联,确定告警信息的等级;在另一可行的实施例中,当前指标信息为当前状态指标信息,监测设备根据当前状态指标信息判断云原生应用的健康状态为异常时,监测设备驱动告警生成模块中的状态触发器,对当前状态指标信息进行动态基线调整、状态变更校验、有效告警识别,最终确定告警信息,并通过告警生成模块对告警信息进行注册、分组、关联,确定告警信息的等级。
步骤g2,根据所述告警等级获取对应的预设告警联系人,并将所述告警信息发送给所述预设告警联系人。
在该步骤中,监测设备根据告警等级获取对应的预设告警联系人,并将告警信息发送给预设告警联系人;如:云原生应用对应的开发者通过监测设备的人机交互界面设定了不同的告警等级需要对不同的告警联系人进行告警,以使得云原生应用的异常能够得到及时有效的处理,监测设备根据告警等级获取对应的预设告警联系人信息,其中预设告警联系人信息包括联系人姓名、邮箱、电话、微信等能够联系到对应联系人的信息,监测设备将告警信息通过邮件、短信、微信等方式发送给预设告警联系人
本实施例的云原生应用健康监测方法,监测设备获取云原生应用的历史指标集合,并通过预测模型根据历史指标信息集合进行预测,得到预测指标信息;监测设备获取云原生应用当前指标信息,将当前指标信息与预测指标信息进行对比,得到对比结果;监测设备若得到对比结果为当前指标信息与预测指标信息的差值满足预设条件,则确定云原生应用的健康状态为正常,并执行步骤:获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;监测设备若所述对比结果为所述当前指标信息与所述预测指标信息的差值不满足预设条件,则确定所述云原生应用的健康状态为异常,并根据当前指标信息生成告警信息,再根据告警信息确定告警等级,根据告警等级获取对应的预设告警联系人,并将告警信息发送给预设告警联系人,提高了云原生应用健康监测的效率和准确性。
进一步地,基于本发明云原生应用健康监测方法第一实施例,提出本发明云原生应用健康监测方法第二实施例。
云原生应用健康监测方法的第二实施例与云原生应用健康监测方法的第一实施例的区别在于,在步骤S10之前,云原生应用健康监测方法还包括:
步骤h,根据第一预设周期,获取云原生应用的运行日志,并获取所述运行日志中的指标信息作为训练样本;
步骤i,基于所述训练样本训练得到预测模型。
在本实施例中,监测设备根据第一预设周期,获取云原生应用在正常运行时产生的运行日志,并获取运行日志中的事件量值、事件率值、状态量值、状态率值等指标信息,并将运行日志中的指标信息作为训练样本,基于训练样本进行分析与计算,从而得到能够预测云原生应用正常运行状况的指标信息的预测模型。
可选地,监测设备根据每个不同的云原生应用,获取每个不同的云原生应用在正常运行时产生的运行日志,并获取运行日志中的事件量值、事件率值、状态量值、状态率值等指标信息,并将运行日志中的指标信息作为训练样本,得到每个不同的云原生应用对应的预测模型,有助于提高预测的准确性。
本实施例的监测设备根据第一预设周期,获取云原生应用在正常运行时产生的运行日志,并获取运行日志中的事件量值、事件率值、状态量值、状态率值等指标信息,并将运行日志中的指标信息作为训练样本,基于训练样本进行分析与计算,从而得到能够预测云原生应用正常运行状况的指标信息的预测模型,有助于提高云原生应用健康监测的效率和准确性。
进一步地,基于本发明云原生应用健康监测方法第一实施例和第二实施例,提出本发明云原生应用健康监测方法第三实施例。
云原生应用健康监测方法的第三实施例与云原生应用健康监测方法的第一实施例和第二实施例的区别在于,在步骤S30之后,云原生应用健康监测方法还包括:
步骤j,检测是否接收到所述告警联系人发送的确认告警指令;
步骤k,若未接收到所述告警联系人发送的所述确认告警指令,则根据第二预设周期,重新将所述告警信息发送给所述预设告警联系人。
在本实施例中,监测设备检测是否接收到告警联系人发送的确认告警指令,若未接收到告警联系人发送的确认告警指令,则根据第二预设周期,重新将告警信息发送给预设告警联系人;如:告警联系人在接收到监测设备发送的告警信息后,需要发送确认告警指令到监测设备,检测设备在发送告警信息后,实时检测是否接收到告警联系人发送的确认告警指令,若经过第二预设周期后仍未接受到确认告警,则重新将告警信息发送给预设告警联系人。
进一步地,监测设备接收到确认告警指令后,实时监测对应的云原生应用的异常是否被修复,当监测到异常被修复后,向告警联系人发送异常已修复的通知。
本实施例的监测设备检测是否接收到告警联系人发送的确认告警指令,若未接收到告警联系人发送的确认告警指令,则根据第二预设周期,重新将告警信息发送给预设告警联系人,能够及时提示告警联系人异常的发生,有助于提高云原生应用健康监测的效率和准确。
本发明还提供一种云原生应用健康监测装置。本发明云原生应用健康监测装置包括:
预测模块,用于获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;
对比模块,用于获取所述云原生应用当前指标信息,将所述当前指标信息与所述预测指标信息进行对比,得到对比结果;
确定模块,用于根据所述对比结果,确定所述云原生应用的健康状态。
进一步地,所述预测模块还包括训练模块,所述训练模块用于:
根据第一预设周期,获取云原生应用的运行日志,并获取所述运行日志中的指标信息作为训练样本;
基于所述训练样本训练得到预测模型。
进一步地,所述预测模块还用于:
获取并判断预设告警类型;
若所述预设告警类型为事件告警类型,则获取云原生应用的所述历史事件指标信息集合,并通过预测模型根据所述历史事件指标信息集合进行预测,得到预测事件指标信息;
若所述预设告警类型为状态告警类型,则获取云原生应用的所述历史状态指标信息集合,并通过预测模型根据所述历史状态指标信息集合进行预测,得到预测状态指标信息。
进一步地,所述对比模块还用于:
若所述预设告警类型为事件告警类型,则获取所述云原生应用的当前事件指标信息,将所述当前事件指标信息与所述预测事件指标信息进行对比,得到对比结果;
若所述预设告警类型为状态告警类型,则获取所述云原生应用的当前状态指标信息,将所述当前状态指标信息与所述预测状态指标信息进行对比,得到对比结果。
进一步地,所述确定模块还包括告警模块,所述告警模块用于:
若所述对比结果为所述当前指标信息与所述预测指标信息的差值满足预设条件,则确定所述云原生应用的健康状态为正常,并执行步骤:获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;
若所述对比结果为所述当前指标信息与所述预测指标信息的差值不满足预设条件,则确定所述云原生应用的健康状态为异常,并进行告警。
进一步地,所述告警模块还用于:
根据所述当前指标信息生成告警信息,并根据所述告警信息确定告警等级;
根据所述告警等级获取对应的预设告警联系人,并将所述告警信息发送给所述预设告警联系人。
进一步地,所述告警模块还包括检测模块,所述检测模块用于:
检测是否接收到所述告警联系人发送的确认告警指令;
若未接收到所述告警联系人发送的所述确认告警指令,则根据第二预设周期,重新将所述告警信息发送给所述预设告警联系人。
本发明还提供一种云原生应用健康监测设备。
本发明云原生应用健康监测设备包括:客户端、服务器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的云原生应用健康监测程序,所述云原生应用健康监测程序被处理器执行时实现如上所述的云原生应用健康监测方法的步骤。
其中,在所述处理器上运行的云原生应用健康监测程序被执行时所实现的方法可参照本发明云原生应用健康监测方法各个实施例,此处不再赘述。
本发明还提供一种可读存储介质。
本发明可读存储介质为计算机可读存储介质,计算机可读存储介质上存储有云原生应用健康监测程序,所述云原生应用健康监测程序被处理器执行时实现如上所述的云原生应用健康监测方法的步骤。
其中,在所述处理器上运行的云原生应用健康监测程序被执行时所实现的方法可参照本发明云原生应用健康监测方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种云原生应用健康监测方法,其特征在于,所述云原生应用健康监测方法包括如下步骤:
获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息,其中,当所述历史指标信息集合为历史量值集合时,将所述历史量值集合输入预测模型进行预测,得到所述预测指标信息,当所述历史指标信息集合为历史率值集合时,通过预设统计算法,统计历史率值集合,并推算出所述预测指标信息;
获取所述云原生应用当前指标信息,将所述当前指标信息与所述预测指标信息进行对比,得到对比结果;
根据所述对比结果,确定所述云原生应用的健康状态;
其中,所述历史指标信息集合包括历史事件指标信息集合和历史状态指标信息集合,所述获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息的步骤包括:
获取并判断预设告警类型;
若所述预设告警类型为事件告警类型,则获取云原生应用的所述历史事件指标信息集合,并通过预测模型根据所述历史事件指标信息集合进行预测,得到预测事件指标信息;
若所述预设告警类型为状态告警类型,则获取云原生应用的所述历史状态指标信息集合,并通过预测模型根据所述历史状态指标信息集合进行预测,得到预测状态指标信息。
2.如权利要求1所述的云原生应用健康监测方法,其特征在于,所述获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息的步骤之前,所述云原生应用健康监测方法包括:
根据第一预设周期,获取云原生应用的运行日志,并获取所述运行日志中的指标信息作为训练样本;
基于所述训练样本训练得到预测模型。
3.如权利要求1所述的云原生应用健康监测方法,其特征在于,所述当前指标信息包括当前事件指标信息和当前状态指标信息,所述获取所述云原生应用的当前指标信息,将所述当前指标信息与所述预测指标信息进行对比,得到对比结果的步骤包括:
若所述预设告警类型为事件告警类型,则获取所述云原生应用的当前事件指标信息,将所述当前事件指标信息与所述预测事件指标信息进行对比,得到对比结果;
若所述预设告警类型为状态告警类型,则获取所述云原生应用的当前状态指标信息,将所述当前状态指标信息与所述预测状态指标信息进行对比,得到对比结果。
4.如权利要求1中所述的云原生应用健康监测方法,其特征在于,所述根据所述对比结果,确定所述云原生应用的健康状态的步骤包括:
若所述对比结果为所述当前指标信息与所述预测指标信息的差值满足预设条件,则确定所述云原生应用的健康状态为正常,并执行步骤:获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息;
若所述对比结果为所述当前指标信息与所述预测指标信息的差值不满足预设条件,则确定所述云原生应用的健康状态为异常,并进行告警。
5.如权利要求4所述的云原生应用健康监测方法,其特征在于,所述进行告警的步骤包括:
根据所述当前指标信息生成告警信息,并根据所述告警信息确定告警等级;
根据所述告警等级获取对应的预设告警联系人,并将所述告警信息发送给所述预设告警联系人。
6.如权利要求5所述的云原生应用健康监测方法,其特征在于,所述根据所述告警等级获取对应的预设告警联系人,并将所述告警信息发送给所述预设告警联系人的步骤之后,所述云原生应用健康监测方法还包括:
检测是否接收到所述告警联系人发送的确认告警指令;
若未接收到所述告警联系人发送的所述确认告警指令,则根据第二预设周期,重新将所述告警信息发送给所述预设告警联系人。
7.一种云原生应用健康监测装置,其特征在于,所述云原生应用健康监测装置包括:
预测模块,用于获取云原生应用的历史指标信息集合,并通过预测模型根据所述历史指标信息集合进行预测,得到预测指标信息,其中,当所述历史指标信息集合为历史量值集合时,将所述历史量值集合输入预测模型进行预测,得到所述预测指标信息,当所述历史指标信息集合为历史率值集合时,通过预设统计算法,统计历史率值集合,并推算出所述预测指标信息;
对比模块,用于获取所述云原生应用当前指标信息,将所述当前指标信息与所述预测指标信息进行对比,得到对比结果;
确定模块,用于根据所述对比结果,确定所述云原生应用的健康状态;
所述历史指标信息集合包括历史事件指标信息集合和历史状态指标信息集合;
所述预测模块,还用于获取并判断预设告警类型;
若所述预设告警类型为事件告警类型,则获取云原生应用的所述历史事件指标信息集合,并通过预测模型根据所述历史事件指标信息集合进行预测,得到预测事件指标信息;
若所述预设告警类型为状态告警类型,则获取云原生应用的所述历史状态指标信息集合,并通过预测模型根据所述历史状态指标信息集合进行预测,得到预测状态指标信息。
8.一种云原生应用健康监测设备,其特征在于,所述云原生应用健康监测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的云原生应用健康监测程序,所述云原生应用健康监测程序被所述处理器执行时实现如权利要求1至6中任一项所述的云原生应用健康监测方法的步骤。
9.一种可读存储介质,其特征在于,所述可读存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有云原生应用健康监测程序,所述云原生应用健康监测程序被处理器执行时实现如权利要求1至6中任一项所述的云原生应用健康监测方法的步骤。
CN202111330371.2A 2021-11-11 2021-11-11 云原生应用健康监测方法、装置、设备与可读存储介质 Active CN113778836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111330371.2A CN113778836B (zh) 2021-11-11 2021-11-11 云原生应用健康监测方法、装置、设备与可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111330371.2A CN113778836B (zh) 2021-11-11 2021-11-11 云原生应用健康监测方法、装置、设备与可读存储介质

Publications (2)

Publication Number Publication Date
CN113778836A CN113778836A (zh) 2021-12-10
CN113778836B true CN113778836B (zh) 2022-04-08

Family

ID=78957077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111330371.2A Active CN113778836B (zh) 2021-11-11 2021-11-11 云原生应用健康监测方法、装置、设备与可读存储介质

Country Status (1)

Country Link
CN (1) CN113778836B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108089962A (zh) * 2017-11-13 2018-05-29 北京奇艺世纪科技有限公司 一种异常检测方法、装置及电子设备
CN110008079A (zh) * 2018-12-25 2019-07-12 阿里巴巴集团控股有限公司 监控指标异常检测方法、模型训练方法、装置及设备
CN112149860A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种自动异常检测方法和系统
CN111314173B (zh) * 2020-01-20 2022-04-08 腾讯科技(深圳)有限公司 监控信息异常的定位方法、装置、计算机设备及存储介质
CN112132485A (zh) * 2020-09-30 2020-12-25 上海众源网络有限公司 一种指标数据处理方法、装置、电子设备及存储介质
CN113553234A (zh) * 2021-07-19 2021-10-26 神策网络科技(北京)有限公司 数据异常检测方法
CN113612656A (zh) * 2021-07-26 2021-11-05 招商银行股份有限公司 网络流量检测方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN113778836A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN106992994B (zh) 一种云服务的自动化监控方法和系统
CN112712113B (zh) 一种基于指标的告警方法、装置及计算机系统
CN111475370A (zh) 基于数据中心的运维监控方法、装置、设备及存储介质
CN110674009B (zh) 应用服务器性能监测方法、装置、存储介质及电子设备
CN108090359B (zh) 一种应用程序监测方法及应用服务器
CN111475369A (zh) 日志监控的添加方法、装置、计算机设备及存储介质
CN107168844B (zh) 一种性能监控的方法及装置
CN111130944B (zh) 系统监控方法及系统
CN115001989A (zh) 一种设备预警方法、装置、设备及可读存储介质
CN112948223A (zh) 一种监测运行情况的方法和装置
CN113778836B (zh) 云原生应用健康监测方法、装置、设备与可读存储介质
CN108111328B (zh) 一种异常处理方法及装置
KR20220020553A (ko) 멀티 클라우드 환경에서 애플리케이션 성능 모니터링 방법 및 장치
CN107357703B (zh) 一种终端应用耗电检测方法及服务器
CN115098326A (zh) 一种系统异常检测方法及装置、存储介质及电子设备
CN110580211A (zh) 监控方法、装置、键盘和存储介质
CN112712443B (zh) 换流站的事件分析方法及分析装置
CN112804104A (zh) 一种预警方法、装置、设备及介质
CN115145623A (zh) 软件业务系统的白盒监控方法、装置、设备和存储介质
CN112799957A (zh) 基于用户行为的故障处理方法、系统、设备和介质
CN111966515A (zh) 业务异常数据处理方法、装置、计算机设备和存储介质
CN111476349A (zh) 一种模型测试方法及服务器
CN111475723A (zh) 用户行为分析平台、产品服务异常的处理方法及介质
Watanabe et al. Failure prediction for cloud datacenter by hybrid message pattern learning
CN113420286B (zh) 基于认证日志数据的预警方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant