CN114138617B - 自学习的变频监控方法、系统、电子设备和存储介质 - Google Patents

自学习的变频监控方法、系统、电子设备和存储介质 Download PDF

Info

Publication number
CN114138617B
CN114138617B CN202210116131.0A CN202210116131A CN114138617B CN 114138617 B CN114138617 B CN 114138617B CN 202210116131 A CN202210116131 A CN 202210116131A CN 114138617 B CN114138617 B CN 114138617B
Authority
CN
China
Prior art keywords
abnormal event
monitoring
prediction result
frequency
occur
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210116131.0A
Other languages
English (en)
Other versions
CN114138617A (zh
Inventor
王玉虎
马骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Softcom Power Information Technology Co ltd
Original Assignee
Hangzhou Langche Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Langche Technology Co ltd filed Critical Hangzhou Langche Technology Co ltd
Priority to CN202210116131.0A priority Critical patent/CN114138617B/zh
Publication of CN114138617A publication Critical patent/CN114138617A/zh
Application granted granted Critical
Publication of CN114138617B publication Critical patent/CN114138617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种自学习的变频监控方法、系统、电子设备和存储介质,所述方法包括:获取监控频率,根据所述监控频率分别对多项运行指标进行采集,获取监控数据;对所述监控数据进行分析得出预测结果,所述预测结果用于指示是否即将发生异常事件;判断在所述预设时间范围内是否接收到异常事件;若所述预测结果指示不会即将发生异常事件,且在所述预设时间范围内未接收到异常事件,则降低监控频率。本发明的方法通过收集监控数据和对应时间产生的事件共同学习,最终在计算机系统稳定运行且没有异常的时候,逐步降低监控频率,从而避免资源的浪费,最终达到节省磁盘空间、算力和电能的目的。

Description

自学习的变频监控方法、系统、电子设备和存储介质
技术领域
本发明涉及计算机监控技术领域,特别是涉及自学习的变频监控方法、系统、电子设备和存储介质。
背景技术
在当前的计算机领域中,特别是云计算微服务时代,为了保证程序正常运行,通过监控系统对程序和对程序运行的数据进行实时监控和数据收集,从而能够及时发现、甚至是提前发现计算主机故障。
为了实现对计算主机的排查,监控系统需要收集的监控指标少则几十项,多则几百上千项,比如CPU的使用率、内存使用率、存储使用率、IO使用情况、网络速率、程序运行占用的CPU和内存、程序暴露的各自监控指标(链接数,线程数等)等,在现有技术中,监控系统的采集时间间隔(即监控频率)基本上是固定的,比如5秒、10秒等。
这些监控指标虽然方便人们排查问题、了解当前的运行状态,但由于系统在大多数情况下是正常运行的,用户在查看主机前一段时间的运行数据时,有可能看到的只是一条直线,因此这些数据大部分是没用的,没有分析和参考意义;但如果降低了计算主机的监控频率,即把数据采集的时间间隔拉长,则又有可能丢失监控内容,无法进行故障排查。因此,现有的计算主机监控技术由于长时间以较低的监控频率频繁采集数据,不仅自身会消耗大量计算资源和电能,造成资源的浪费;同时,采集到的数据还占用了大量的存储空间,增加了监控成本。
发明内容
针对现有技术存在的不足,本发明实施例提供了一种自学习的变频监控方法、系统、电子设备和存储介质,以至少解决现有技术中监控频率固定而导致资源浪费和监控成本高的问题。
第一方面,本发明实施例提供了一种自学习的变频监控方法,所述方法包括:
获取监控频率,根据所述监控频率分别对多项运行指标进行采集,获取监控数据;
对所述监控数据进行分析得出预测结果,所述预测结果用于指示是否即将发生异常事件;
判断在预设时间范围内是否接收到异常事件;
若所述预测结果指示不会即将发生异常事件,且在所述预设时间范围内未接收到异常事件,则降低监控频率。
进一步,所述对所述监控数据进行分析获取预测结果,包括:
获取每一所述异常事件的发生标准;
判断多项所述运行指标的监控数据是否符合所述异常事件的发生标准;
若符合,则预测结果指示即将发生异常事件;若不符合,则预测结果指示即将不发生异常事件。
在其中一些实施例中,若所述预测结果指示即将发生异常事件,则所述方法还包括:
获取预先设置的最低监控频率、最高监控频率和即将发生的异常事件的发生概率;
根据所述发生概率、最低监控频率和最高监控频率计算的结果提高所述监控频率。
进一步,所述降低监控频率还包括:
按照预设步长降低监控频率,根据降低后的监控频率继续采集监控数据,在重新获取的预测结果指示不会即将发生异常事件,且下一个预设时间范围内没有接收到异常事件,则继续按照预设步长降低监控频率,直到从预设的初始监控频率降到预设的最低监控频率。
进一步,则所述方法还包括:根据所述监控数据和预测结果生成告警信息,并将所述告警信息发送给用户。
进一步,所述异常事件的发生标准和发生概率通过预先建立的自学习模型确定,所述自学习模型的建立包括:
分析历史监控数据,得出各异常事件发生时的发生标准;
获取实时监控数据,根据发生标准得出预测结果,预测结果用于指示是否即将发生异常事件;
验证预测结果是否准确,并根据验证结论调整所述发生标准和异常事件的发生概率。
进一步,所述并根据验证结论调整所述发生标准和异常事件的发生概率,包括:
若所述预测结果指示不会即将发生异常事件,且验证结果错误,则将所述异常事件的发生概率设置为初始发生概率,并根据所述监控数据确定所述异常事件的发生标准;
若所述预测结果指示即将发生异常事件,且验证结果准确,则增加所述异常事件的发生概率,并根据所述监控数据确定所述异常事件的发生标准;
若所述预测结果指示即将发生异常事件,且验证结果错误,则减小所述异常事件的发生概率。
第二方面,本发明实施例提供了一种自学习的变频监控系统,所述系统包括:
监控模块,用于获取监控频率,根据所述监控频率分别对多项运行指标进行采集,获取监控数据;
学习模块,对所述监控数据进行分析得出预测结果,所述预测结果用于指示是否即将发生异常事件;
事件采集模块,判断在所述预设时间范围内是否接收到异常事件;
监控频率制定模块,若所述预测结果指示不会即将发生异常事件,且在所述预设时间范围内未接收到异常事件,则降低监控频率。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行以上实施例任一项所述的自学习的变频监控方法。
第四方面,本发明实施例提供了一种一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行以上实施例任一项所述的自学习变频监控方法。
相比于相关技术,本发明实施例提供的,本发明的目的在于提供一种自学习方式的监控方法,该方法通过收集监控数据和对应时间产生的事件共同学习,最终在计算机系统稳定运行且没有异常的时候,逐步降低监控频率,从而避免资源的浪费,最终达到节省磁盘空间、算力和电能的目的。当系统快要出现异常的时候,根据可能出现的异常事件的发生概率来提高监控频率,不仅能够避免丢失监控内容,达到精准采样的目的;还能够通过发生告警信息通知用户即将要发生的异常事件,使得用户及时处理,避免异常事件的发生。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明一实施例自学习的变频监控方法的流程图;
图2是根据本发明一实施例自学习模块的流程图;
图3是根据本发明一实施例自学习的变频监控系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本发明公开的内容相关的本领域的普通技术人员而言,在本发明揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本发明公开的内容不充分。
在本发明中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本发明所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本发明所涉及的技术术语或者科学术语应当为本发明所属技术领域内具有一般技能的人士所理解的通常意义。本发明所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本发明所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本发明所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本发明所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本发明所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本发明提供一种自学习的变频监控方法,通过对收集监控数据和对应时间产生的异常事件进行分析和学习,能够在系统没有异常的时候,降低监控频率;在系统快要出现异常的时候,把监控频率提高,不仅能够节省磁盘空间和算力,还能实现对系统进行精准监控。
本发明一实施例的变频监控方法具体如图1所示,在监控开始之前,需要对本发明的监控程序进行一个初步的参数设置,这些参数的数值是根据用户的经验和计算机系统的特性确定,具体包括:初始监控频率r0、最高监控频率r1、最低监控频率r2、预设步进s和预设概率步进p,并设置当前的监控频率r=r0,这些参数保存在数据库中,可以随时调用。
在监控过程中,首先获取监控频率r,若计算机系统刚开始运行,则按照初始监控频率r0对需要监控的节点进行数据采集,为了一开始就不遗漏信息,本发明的初始监控频率r0较高,如5秒/次,然后根据该监控频率分别对多项运行指标进行采集,获取监控数据。本发明的运行指标可以根据用户的需求设定,在通常情况下,运作指标少则有几十项,多则有几百上千项,比较常见的如:CPU的使用率、内存使用率、存储使用率、IO使用情况、网络速率、程序运行占用的CPU或内存等、程序暴露的各自监控指标(如链接数、线程数等),由于数量较大,这里就不一一列举了。每一项运行指标的监控数据通过运行在各个主机上的采集程序进行采集,本发明可以直接从采集程序中直接读取所需要的数据。
对监控数据进行分析和学习得出预测结果,该预测结果用于指示是否即将发生异常事件。本发明实施例主要根据以下步骤对监控数据进行分析:获取每一种异常事件的发生标准;判断多项运行指标的监控数据是否符合异常事件的发生标准,异常事件的发生标准可以是通过自学习获得的,即通过对大量历史数据进行分析学习,能够得到异常时间发生时每一项运行指标的监控数据的值所在的阈值范围。若符合,即这些监控数据都在阈值范围内,则预测结果指示即将发生异常事件;若不符合,即有任一项监控数据不在阈值范围内,则预测结果指示即将不发生异常事件。
在本发明的另一实施例中,还可以计算每一项运行指标的监控数据的波动值,采用波动值与异常事件的发生标准(此时的发生标准可以是通过对每一运行指标的历史波动值进行学习获得)进行判断。本实施例的波动值是通过计算每一项监控数据的峰值与平均值的差获得,不同运行指标的波动值分开计算。具体地,先获取监控数据的平均值,然后从该项监控数据中提取峰值,用该峰值减去平均值即可得到该项运行指标的波动值。在其他实施例中,也可以通过计算每一项监控数据的极差、方差、标准差或斜率作为波动值。遍历计算每一项运行指标的波动值后,将运行指标的波动值与各个异常事件发生标准进行匹配,即判断多项运行指标的波动值是否符合各个异常事件的发生标准。若符合,即只要找到运行指标满足任意一个异常事件的发生标准,则预测结果指示即将发生异常事件;若不符合,即运行指标的波动值则预测结果指示即将不发生异常事件。
在对监控数据分析完成并获取到相应的预测结果后,还要获取一预设时间,然后判断在接下来的预设时间范围内是否接收到任何一种异常事件,如系统死机、程序崩溃、内存无法分配或其他程序自有事件等。异常事件的获取可以通过直接读取计算主机上的错误或读取其他管理面的信息(比如在kubernetes中,读取apiserver的事件等)。
根据以上的预测结果和判断结果,可以分为四种情况对监控频率进行调整。
其一,若预测结果指示不会即将发生异常事件,且在预设时间范围内未接收到异常事件,说明此时计算机系统正稳定运行,若按照较高的频率进行监控,获取的数据不仅没有分析意义,还浪费了大量的电能、计算资源和存储控制,因此需要按照公式(1)降低监控频率。
Figure 371838DEST_PATH_IMAGE001
(1)
即是在当前的监控频率r的基础上加上预设步长,作为新的监控频率。比如,当前监控频率为5秒/次,预设步长为2秒/次,则当预测结果指示不会即将发生异常事件,且在预设时间范围内未接收到异常事件时,按照预设步长降低监控频率,即按照7秒/次的频率来对计算机系统进行监控。
在正常情况下,计算机系一般都是在稳定工作状态,因此当按照预设步长降低监控频率,根据降低后的监控频率(如7秒/次)继续采集监控数据,在重新获取的预测结果还是指示不会即将发生异常事件,且下一个预设时间范围内也没有接收到异常事件,则继续按照预设步长降低监控频率。在符合要求的情况下一直重复上述过程,直到从预设的初始监控频率r0降到预设的最低监控频率r2(比如5分钟/次)。或者,若当计算得到的监控频率大于最低监控频率,则还是按照最低监控频率进行监控,即监控频率不会再继续降低,避免因监控频率过低而丢失监控内容,从而导致出现异常事件而不能提前预测。
其二,若预测结果指示不会即将发生异常事件,且在预设时间范围内接收到了任意一种异常事件,说明此时计算机系统存在异常的运行指标且预测结果不准确,为了获得更准确的预测结果,因此需要按照公式(2)提高监控频率。
Figure 616874DEST_PATH_IMAGE002
(2)
即是在当前的监控频率r的基础上减去预设步长,作为新的监控频率。比如,当前监控频率为5秒/次,预设步长为2秒/次,则当预测结果指示不会即将发生异常事件,且在预设时间范围内接收到了任意一种异常事件时,按照预设步长提高监控频率,即按照3秒/次的频率来对计算机系统进行监控。或者,获取初始监控频率,直接将当前的监控频率更新为初始监控频率,按照初始监控频率继续监控。
当按照预设步长提高监控频率,根据提高后的监控频率(如3秒/次)继续采集监控数据,在重新获取的预测结果还是指示不会即将发生异常事件,且下一个预设时间范围内还是接收到了异常事件,则继续按照预设步长提高监控频率。在符合要求的情况下一直重复上述过程,直到从某个监控频率降到预设的最高监控频率r1(比如1秒/次)。或者,若当计算得到的监控频率小于最高监控频率,则还是按照最高监控频率进行监控,即监控频率不会再继续提高,避免因监控频率过高而导致数据所占内存过多和成本过高等问题。
其三,若本次的预测结果指示即将发生某个或者多个异常事件,则需要先提高监控频率,并根据提高后的监控频率获取监控数据,从而能够更准确的分析出即将发生的异常事件的准确时间点,通过告警程序将(如预测结果)发送给用户,用户可以根据告警信息提前作好相应的准备或调整。当预测结果指示即将发生异常事件时,为了达到精确采样的目的,本发明实施例是根据以下步骤提高监控频率:
首先获取预先设置并保证在存储器中的最低监控频率r2、最高监控频率r1和即将发生的异常事件的发生概率P;然后将发生概率、最低监控频率和最高监控频率代入公式(3)中进行计算,得到提高的监控频率r的具体值。
Figure 865453DEST_PATH_IMAGE003
(3)
每一种异常事件的发生概率P是通过自学习模型确定的,在计算监控频率时可以直接提取。若预测结果指示有多个异常事件发生,则获取这多个异常事件的发生概率并生成事件列表List,并将多个异常事件的发生概率(P1,P2,……,Pn)进行比较,选择其中最大的发生概率代入公式(3)进行计算,根据该计算结果对计算机系统进行监控。
在获取事件列表List和提高监控频率后,先控制监控程序在预设时间(如10分钟)按照公式(3)计算得到的监控频率对计算机系统进行监控,并实时判断在这10分钟内是否发生异常事件,若在这10分钟内没有发生任何异常事件,则10分钟后按照预设步长降低监控频率;若在10分钟内发生了异常事件,则直接按照预设步长提高监控频率,或者按照初始监控频率进行监控。
在本发明中,异常事件的发生标准和发生概率通过预先建立的自学习模型确定,自学习模型根据以下步骤建立。
步骤一,分析历史监控数据,得出各异常事件发生时的发生标准;获取每一项运行指标的波动值,并判断波动值是否大于预设阈值;若判断结果为是,则该项运行指标为异常指标;若判断结果为否,则该项运行指标不是异常指标。
具体地,即通过对大量历史数据进行分析学习,能够得到异常时间发生时每一项运行指标的监控数据的值所在的阈值范围,将该阈值范围作为某个异常事件的发生标准。或者,也可以计算异常事件发生时每一项运行指标的监控数据的波动值,将该波动值作为异常时事件的发生标准,在学习过程中,异常事件的发生标准可以随异常事件发生时运行指标的变化而变化。本实施例的波动值是通过计算每一项监控数据的峰值与平均值的差获得,不同运行指标的波动值分开计算。具体地,先获取监控数据的平均值,然后从该项监控数据中提取峰值,用该峰值减去平均值即可得到该项运行指标的波动值。在其他实施例中,也可以通过计算每一项监控数据的极差、方差、标准差或斜率作为波动值。
步骤二,在确定发生标准后,获取实时的监控数据,根据发生标准对实时获取的监控数据进行分析得出预测结果,预测结果用于指示是否即将发生异常事件。
步骤三,然后再判断异常事件是否发生,即验证预测结果是否准确,并根据验证结论调整发生标准和异常事件的发生概率。若预测结果指示不会即将发生异常事件,且验证结果错误,则将异常事件的发生概率增大或设置为初始发生概率,并根据监控数据确定异常事件的发生标准;若预测结果指示即将发生异常事件,且验证结果准确,则增加异常事件的发生概率,并根据监控数据确定异常事件的发生标准;若预测结果指示即将发生异常事件,且验证结果错误,则减小异常事件的发生概率。
本发明实施例的自学习模型对于发生标准和发生概率的具体设置过程如图2所示,具体地,起初以一个较快的初始监控频率r0对管理的监控点进行数据采集。获取到监控数据后对这些数据进行分析,判断这些监控指标(A1,A2,……,An)是否满足已发生过的异常事件的发生标准,若找到指标满足一个以上异常事件,则假设即将发生异常事件;若没有找到满足任何异常事件的指标,则假设不会发生异常事件。
接着,对上述的假设结果进行验证,若在预设时间范围内却接收到异常事件,则先提高监控频率,并对多项运行指标的监控数据进行分析,找到引起该异常事件发生的异常指标。在本发明实施例中,寻找异常指标可以通过分析每一项运行指标的监控数据或波动值,判断这些监控数据或波动值是否大于预设阈值,波动值是通过计算监控数据的极差、方差、标准差、斜率、或峰值与平均值的差获得。若判断结果为是,则该项运行指标为异常指标;若判断结果为否,则该项运行指标不是异常指标。
若该异常事件是第一次发生,可以将异常指标作为该异常事件的发生标准,并将异常事件的发生概率设置为初始发生概率,如50%。若该异常事件不是第一次发生,则根据本次找到的异常指标更新该异常事件原来的发生标准,并提高其发生概率P,如将P增大百分之十,该异常事件的发生标准和发生概率后,将异常指标、发生的异常事件、发生概率P记录在数据库中。若在预设时间范围内未接收到异常事件,则先降低监控频率,然后将假定发生的异常事件的发生概率减小,并记录在数据库中。当数据库中可能发生的异常事件的发生概率小于或等于零时,则将该异常事件从数据库中剔除。
例如,当第一次接收到某个异常事件后(比如程序崩溃),则分析当发生该异常事件时候,那些运行指标发生了异常(比如程序内存一直在上升,磁盘IO很高)。最终得到结论:当程序内存上涨并且磁盘IO很高(发生标准),这可能导致程序崩溃,对该事件设置初始发生概率为50%,并调整频率继续监控。当学习模块发现监控数据满足上述的发生标准(当程序内存上涨并且磁盘IO很高)时,设置监控频率加快,并假定会发生某个事件(程序崩溃)。当收到该事件后,重新调整发生标准和发生概率,得到更加准确的结论,比如,内存到多少会发生崩溃或内存增长速率高于多少会发生崩溃(即更新了发生标准),同时增加该结论的概率为60%。如果没有收到该事件,这对该结论概率进行降低,为40%。
在另一实施例中,本发明在预测到有异常事件发生时,还可以主动将告警信息发送给用户,该告警信息包括即将发生的异常事件和监控数据等信息,因此用户在查看监控时候,可以对针对性查看有异常情况的监控数据,比如程序崩溃时候,整个系统处于什么状态。
本发明还提供了一种自学习的变频监控系统,如图3所示,包括监控模块、学习模块、事件采集模块和监控频率制定模块,其中,监控模块用于从监控频率制定模块中获取监控频率,并根据监控频率分别对多项运行指标进行采集,从监控节点中获取监控数据。学习模块,用于从监控模块中获取监控数据进行分析得出预测结果,预测结果用于指示是否即将发生异常事件;并且从事件采集模块中获取异常事件,对异常事件和监控数据进行学习。事件采集模块,用于接收监控节点中的发生的异常事件,即判断在预设时间范围内是否接收到异常事件;监控频率制定模块,用于若预测结果指示不会即将发生异常事件,且在预设时间范围内未接收到异常事件,则制定一个较低的监控频率。
在本发明中,监控模块包含了监控程序,能够主动收集计算机系统中各个运行指标,提供查询给用户查看各个监控指标。事件采集:负责采集各种事件,比如:系统死机,程序崩溃,内存无法分配,程序自有事件等。事件采集模块可以是直接读取主机上(监控节点)的错误,也有可能是读取其他管理面的信息(比如在kubernetes中,读取apiserver的事件,获取主机不可用等)。
本发明通过学习模块在接收事件后,读取监控程序的监控数据进行学习,最终得出发生该事件时,监控的那些指标发生那些特征(比如:CPU使用率逐步上升)。当这些指标没有发生时,指挥监控程序降低采集频率。当下一次发生类似的特征后,设置监控频率逐步升高,达到节省计算资源、存储空间和精确采样的目的。
在本发明的另一实施中,该变频监控系统还包括告警模块,用户可以设置将要发生某种事件的时候,主动通知用户,用户及时处理,从而避免异常事件的发生。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的自学习的变频监控方法,本发明实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种自学习的变频监控方法。
本发明的一个实施例中还提供了一种电子设备,该电子设备可以是终端。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种自学习的变频监控方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种自学习的变频监控方法,其特征在于,所述方法包括:
获取监控频率,根据所述监控频率分别对多项运行指标进行采集,获取监控数据;
对所述监控数据进行分析得出预测结果,所述预测结果用于指示是否即将发生异常事件;其中,获取每一所述异常事件的发生标准;判断多项所述运行指标的监控数据是否符合所述异常事件的发生标准;若符合,则预测结果指示即将发生异常事件;若不符合,则预测结果指示即将不发生异常事件;所述发生标准通过预先建立的自学习模型确定;
若所述预测结果指示即将发生异常事件,则提高所述监控频率;若所述预测结果指示不会即将发生异常事件,则判断在预设时间范围内是否接收到异常事件;
若所述预测结果指示不会即将发生异常事件,且在所述预设时间范围内未接收到异常事件,则降低监控频率;若所述预测结果指示不会即将发生异常事件,且在所述预设时间范围内接收到异常事件,则提高监控频率。
2.根据权利要求1所述的变频监控方法,其特征在于,若所述预测结果指示即将发生异常事件,则所述方法还包括:
获取预先设置的最低监控频率、最高监控频率和即将发生的异常事件的发生概率;
根据所述发生概率、最低监控频率和最高监控频率计算的结果提高所述监控频率。
3.根据权利要求1所述的变频监控方法,其特征在于,所述降低监控频率包括:
按照预设步长降低监控频率,根据降低后的监控频率继续采集监控数据,在重新获取的预测结果指示不会即将发生异常事件,且下一个预设时间范围内没有接收到异常事件,则继续按照预设步长降低监控频率,直到从预设的初始监控频率降到预设的最低监控频率。
4.根据权利要求1所述的变频监控方法,其特征在于,所述方法还包括:根据所述监控数据和预测结果生成告警信息,并将所述告警信息发送给用户。
5.根据权利要求2所述的变频监控方法,其特征在于,所述异常事件的发生标准和发生概率通过预先建立的自学习模型确定,所述自学习模型的建立包括:
分析历史监控数据,得出各异常事件发生时的发生标准;
获取实时监控数据,根据所述发生标准得出预测结果,其中,所述预测结果用于指示是否即将发生异常事件;
验证所述预测结果是否准确,并根据验证结论调整所述发生标准和异常事件的发生概率。
6.根据权利要求5所述的变频监控方法,其特征在于,所述并根据验证结论调整所述发生标准和异常事件的发生概率,包括:
若所述预测结果指示不会即将发生异常事件,且验证结果错误,则将所述异常事件的发生概率增大或设置为初始发生概率,并根据所述监控数据确定所述异常事件的发生标准;
若所述预测结果指示即将发生异常事件,且验证结果准确,则增大所述异常事件的发生概率,并根据所述监控数据更新所述异常事件的发生标准;
若所述预测结果指示即将发生异常事件,且验证结果错误,则减小所述异常事件的发生概率。
7.一种自学习的变频监控系统,其特征在于,所述系统包括:
监控模块,用于获取监控频率,根据所述监控频率分别对多项运行指标进行采集,获取监控数据;
学习模块,用于对所述监控数据进行分析得出预测结果,所述预测结果用于指示是否即将发生异常事件;其中,获取每一所述异常事件的发生标准;判断多项所述运行指标的监控数据是否符合所述异常事件的发生标准;若符合,则预测结果指示即将发生异常事件;若不符合,则预测结果指示即将不发生异常事件;所述发生标准通过预先建立的自学习模型确定;
事件采集模块,用于判断在预设时间范围内是否接收到异常事件;
监控频率制定模块,用于在所述预测结果指示即将发生异常事件,则提高所述监控频率;在所述预测结果指示不会即将发生异常事件,且在所述预设时间范围内未接收到异常事件的情况下,降低监控频率;在所述预测结果指示不会即将发生异常事件,且在所述预设时间范围内接收到异常事件,则提高监控频率。
8.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项所述的自学习的变频监控方法。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至6中任一项所述的自学习的变频监控方法。
CN202210116131.0A 2022-02-07 2022-02-07 自学习的变频监控方法、系统、电子设备和存储介质 Active CN114138617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210116131.0A CN114138617B (zh) 2022-02-07 2022-02-07 自学习的变频监控方法、系统、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210116131.0A CN114138617B (zh) 2022-02-07 2022-02-07 自学习的变频监控方法、系统、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN114138617A CN114138617A (zh) 2022-03-04
CN114138617B true CN114138617B (zh) 2022-05-24

Family

ID=80381894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210116131.0A Active CN114138617B (zh) 2022-02-07 2022-02-07 自学习的变频监控方法、系统、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114138617B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116185783B (zh) * 2023-04-24 2023-07-14 山东溯源安全科技有限公司 一种电子设备的监控方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764893B (zh) * 2009-10-12 2012-10-31 南京联创科技集团股份有限公司 基于数据中间层的通信话务波动监控方法
CN105472009A (zh) * 2015-12-18 2016-04-06 国云科技股份有限公司 一种适用于云平台资源自适应监控频率的方法
CN105700506A (zh) * 2016-04-29 2016-06-22 南京信息职业技术学院 一种远程变电站温湿度控制系统
CN106502868A (zh) * 2016-11-18 2017-03-15 国云科技股份有限公司 一种适用于云计算的动态调整监测频率方法
CN107483292A (zh) * 2017-09-11 2017-12-15 电子科技大学 用于云平台的动态监控方法
CN110888788A (zh) * 2019-10-16 2020-03-17 平安科技(深圳)有限公司 异常检测方法、装置、计算机设备及存储介质
CN111859384A (zh) * 2020-07-23 2020-10-30 平安证券股份有限公司 异常事件监控方法、装置、计算机设备及存储介质
CN112732519A (zh) * 2020-12-30 2021-04-30 百果园技术(新加坡)有限公司 一种事件监控方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012056561A1 (ja) * 2010-10-29 2012-05-03 富士通株式会社 装置監視システム,方法およびプログラム
CN110324168A (zh) * 2018-03-30 2019-10-11 阿里巴巴集团控股有限公司 异常事件监控方法和装置及电子设备
CN113902334A (zh) * 2021-10-28 2022-01-07 上海众源网络有限公司 一种事件异常波动检测方法、系统、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764893B (zh) * 2009-10-12 2012-10-31 南京联创科技集团股份有限公司 基于数据中间层的通信话务波动监控方法
CN105472009A (zh) * 2015-12-18 2016-04-06 国云科技股份有限公司 一种适用于云平台资源自适应监控频率的方法
CN105700506A (zh) * 2016-04-29 2016-06-22 南京信息职业技术学院 一种远程变电站温湿度控制系统
CN106502868A (zh) * 2016-11-18 2017-03-15 国云科技股份有限公司 一种适用于云计算的动态调整监测频率方法
CN107483292A (zh) * 2017-09-11 2017-12-15 电子科技大学 用于云平台的动态监控方法
CN110888788A (zh) * 2019-10-16 2020-03-17 平安科技(深圳)有限公司 异常检测方法、装置、计算机设备及存储介质
CN111859384A (zh) * 2020-07-23 2020-10-30 平安证券股份有限公司 异常事件监控方法、装置、计算机设备及存储介质
CN112732519A (zh) * 2020-12-30 2021-04-30 百果园技术(新加坡)有限公司 一种事件监控方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"A Monitor Method based on Adaptive Frequency for Self-Adaptive Software";Wen Cheng等;《2019 IEEE 10th International Conference on Software Engineering and Service Science (ICSESS)》;20200319;第149-152页 *
"Enhanced monitoring-as a-service for effective cloud management";Shicong Meng等;《IEEE Transactions on Computers》;20130930;第62卷(第9期);第1705-1720页 *
"一种基于自适应监测的云计算系统故障检测方法";王焘等;《计算机学报》;20180630;第41卷(第6期);第1112-1124页 *
"云环境虚拟机安全关键技术研究与实现";黄杰;《中国优秀硕士学位论文全文数据库•信息科技辑》;20180215;第2018年卷(第2期);第I137-12页 *

Also Published As

Publication number Publication date
CN114138617A (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
US9672085B2 (en) Adaptive fault diagnosis
WO2017008451A1 (zh) 一种面向云计算在线业务的异常负载检测方法
US20100153431A1 (en) Alert triggered statistics collections
US11726836B2 (en) Predicting expansion failures and defragmenting cluster resources
CN106776288B (zh) 一种基于Hadoop的分布式系统的健康度量方法
CN112751726B (zh) 一种数据处理方法、装置、电子设备和存储介质
US20200257581A1 (en) Fault prediction and detection using time-based distributed data
CN113821416A (zh) 监测告警方法、装置、存储介质及电子设备
CN114138617B (zh) 自学习的变频监控方法、系统、电子设备和存储介质
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN113312371A (zh) 执行计划的处理方法、设备及系统
CN113505044A (zh) 数据库告警方法、装置、设备和存储介质
CN113342588B (zh) 基于动态调整负荷对服务器进行压力测试的方法和装置
US20090157923A1 (en) Method and System for Managing Performance Data
CN113283502B (zh) 基于聚类的设备状态阈值确定方法和装置
CN114265857A (zh) 查询语句处理方法以及装置
CN112910733A (zh) 一种基于大数据的全链路监控系统及方法
CN106686082B (zh) 存储资源调整方法及管理节点
CN115718674A (zh) 一种数据容灾恢复方法及装置
CN115525392A (zh) 容器监控方法、装置、电子设备及存储介质
CN113448747B (zh) 数据传输方法、装置、计算机设备和存储介质
CN115543671A (zh) 数据分析方法、装置、设备、存储介质及程序产品
CN109766243B (zh) 一种基于幂函数的多核主机性能监控方法
CN113064812A (zh) 一种项目开发过程质量缺陷预测方法、装置及介质
CN111309716A (zh) 应用于pas案例库的维护方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220803

Address after: 100094 Room 502, floor 5, building 16, East District, yard 10, northwest Wangdong Road, Haidian District, Beijing

Patentee after: Softcom power information technology (Group) Co.,Ltd.

Address before: 311100 Room 802, building 12, 1818-2, Wenyi West Road, Yuhang street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU LANGCHE TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220829

Address after: 518000 floor 2-24, building a, Zhongshe Plaza, No.1028, Buji Road, Dongxiao street, Luohu District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Softcom Power Information Technology Co.,Ltd.

Address before: 100094 Room 502, floor 5, building 16, East District, yard 10, northwest Wangdong Road, Haidian District, Beijing

Patentee before: Softcom power information technology (Group) Co.,Ltd.