CN113946493A - 一种监控阈值确定及监控报警方法、装置、设备和介质 - Google Patents

一种监控阈值确定及监控报警方法、装置、设备和介质 Download PDF

Info

Publication number
CN113946493A
CN113946493A CN202111220127.0A CN202111220127A CN113946493A CN 113946493 A CN113946493 A CN 113946493A CN 202111220127 A CN202111220127 A CN 202111220127A CN 113946493 A CN113946493 A CN 113946493A
Authority
CN
China
Prior art keywords
monitoring
data
operation index
index data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111220127.0A
Other languages
English (en)
Inventor
薛志国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Zhenshi Information Technology Co Ltd
Original Assignee
Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Zhenshi Information Technology Co Ltd filed Critical Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority to CN202111220127.0A priority Critical patent/CN113946493A/zh
Publication of CN113946493A publication Critical patent/CN113946493A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Abstract

本发明实施例公开了一种监控阈值确定和监控报警方法、装置、设备和介质,其中,监控阈值确定方法包括:获取与监控阈值待确定设备的硬件配置参数相同的设备,出现设备故障时的历史运行指标数据;基于所述历史运行指标数据中预设比例的历史运行指标数据和所述硬件配置参数,建立运行指标数据向量组;计算除去所述预设比例的历史运行指标数据之外的历史运行指标数据与所述运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值。本实施例技术方案解决了设备运行监控阈值设置不够准确,误报警率高的问题,实现了合理的设定设备运行的监控阈值,从而提高监控报警准确率,提升用户体验。

Description

一种监控阈值确定及监控报警方法、装置、设备和介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种监控阈值确定及监控报警方法、装置、设备和介质。
背景技术
在计算机设备使用过程中,通常会为计算机设备运行过程中的相关性能参数设定一个数据监控阈值,每当设备监控数据指标超过对应的阈值时,发出报警提示,以提醒用户设备当前的使用状态,进而防止设备故障。
但是,在实现本发明的过程中,发现现有技术中至少存在以下技术问题:计算机设备的运行参数的监控阈值是由用户根据经验设定的固定值,由于被监控设备的数量增加以及监控指标多样化,固定的经验阈值并不适用于全部设备,会导致出现大量的误报警,增加了设备运行维护的成本。
发明内容
本发明实施例提供了一种监控阈值确定及监控报警方法、装置、设备和介质,以实现确定准确度更高的监控阈值,以减少监控误报率。
第一方面,本发明实施例提供了一种监控阈值确定方法,该方法包括:
获取与监控阈值待确定设备的硬件配置参数相同的设备,出现设备故障时的历史运行指标数据;
基于所述历史运行指标数据中预设比例的历史运行指标数据和所述硬件配置参数,建立运行指标数据向量组;
计算除去所述预设比例的历史运行指标数据之外的历史运行指标数据与所述运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值。
第二方面,本发明实施例提供了一种监控报警方法,该方法包括:
获取被监控设备的实时运行监控数据,并将所述实时运行监控数据与预设监控阈值进行比较,其中,所述预设监控阈值是通过权利要求1-4中任一所述的监控阈值确定方法确定的监控阈值;
当所述实时运行监控数据中任一项运行指标的监控数据大于或等于对应的预设监控阈值时,计算所述实时运行监控数据与预设历史时间段内所述被监控设备的运行监控数据的数据相似度;
当所述数据相似度低于预设相似度阈值时,发出阈值监控报警。
第三方面,本发明实施例还提供了一种监控阈值确定装置,该装置包括:
历史监控数据获取模块,用于获取与监控阈值待确定设备的硬件配置参数相同的设备,出现设备故障时的历史运行指标数据;
运行指标数据向量构建模块,用于基于所述历史运行指标数据中预设比例的历史运行指标数据和所述硬件配置参数,建立运行指标数据向量组;
监控阈值确定模块,用于计算除去所述预设比例的历史运行指标数据之外的历史运行指标数据与所述运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值。
第四方面,本发明实施例还提供了一种监控报警装置,该装置包括:
阈值比较模块,用于获取被监控设备的实时运行监控数据,并将所述实时运行监控数据与预设监控阈值进行比较,其中,所述预设监控阈值是通过中任一实施例所述的监控阈值确定方法确定的监控阈值;
相似确定模块,用于当所述实时运行监控数据中任一项运行指标的监控数据大于或等于对应的预设监控阈值时,计算所述实时运行监控数据与预设历史时间段内所述被监控设备的运行监控数据的数据相似度;
监控报警模块,用于当所述数据相似度低于预设相似度阈值时,发出阈值监控报警。
第五方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的一种监控阈值确定方法或监控报警方法。
第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的一种监控阈值确定方法或监控报警方法。
上述发明中的实施例具有如下优点或有益效果:
本发明实施例,通过获取与监控阈值待确定设备的硬件配置参数相同的设备,出现设备故障时的历史运行指标数据;即基于相同配置的设备的历史运行指标数据中预设比例的历史运行指标数据和硬件配置参数,建立运行指标数据向量组;计算除去预设比例的历史运行指标数据之外的历史运行指标数据与运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值。解决了现有技术中设备运行监控阈值设置不够准确,误报警率高的问题,实现了在参考设备硬件参数的前提下,合理的设定设备运行的监控阈值,从而提高监控报警准确率,实现有效的设备监控,提升用户体验。
附图说明
图1是本发明实施例一提供的一种监控阈值确定方法的流程图;
图2是本发明实施例二提供的一种监控报警方法的流程图;
图3是本发明实施例三提供的一种监控阈值确定装置结构示意图;
图4是本发明实施例四提供的一种监控报警装置结构示意图;
图5是本发明实施例五提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种监控阈值确定方法的流程图,本实施例可适用于确定计算机设备的运行指标数据的报警阈值的情况。该方法可以由监控阈值确定装置执行,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
如图1所示,监控阈值确定方法包括以下步骤:
S110、获取与监控阈值待确定设备的硬件配置参数相同的设备,出现设备故障时的历史运行指标数据。
通常在服务器设备硬性的过程中,会对各服务器设备的运行数据进行监控,以实时了解服务器的运行状态,避免服务器设备出现故障,影响服务器所提供的服务的正常运行。
服务器运行过程中,运行指标数据的获取可以通过在服务端设置监控代理(agent)采集相应的运行指标数据,agent采集到数据后会将采集到的运行指标数据以消息队列的方式发送到预设的数据队列中,由监控阈值确定装置所在的设备以消费消息队列的形式获取被监控设备的运行指标数据,进而再进行数据落库处理,将数据存储到预设的数据中,如MYSQL数据库和Elastic Search数据库。
针对于一个需要确定监控阈值的设备,可以预先采集与该需要确定监控阈值的设备硬件配置参数相同的设备在运行过程中,出现故障时的运行指标数据。进而依据采集到的设备确定监控阈值。由于不同的设备通常有不同的阈值,在本实施例中,监控阈值的确定,以监控设备的硬件配置参数为基础,充分考虑设备硬件条件,以获得更加合理的阈值结果。避免因为监控阈值设置不合理,导致经常会产生一些误报。例如,如果服务器只有4G内存,而Java虚拟机(Java Virtual Machine,jvm)就直接分配了3.5G内存,这样会很容易超过阈值,进而产生无效的报警,增加了误报的可能性。
进一步的,设备的运行指标数据通常包括CPU(Central Processing Unit,中央处理器)维度和磁盘维度两个维度的数据,例如,磁盘输入输出量、复制延迟时间、数据库连接数、CPU使用率及CPU负载等指标。
S120、基于所述历史运行指标数据中预设比例的历史运行指标数据和所述硬件配置参数,建立运行指标数据向量组。
具体的,在该步骤中建立的运行指标数据向量组,是由一定比例的采集到的历史运行指标数据组成的,是最终设定阈值的数值参考向量组。
在建立运行指标数据向量组过程中,首先,根据需求进行监控阈值确定设备的硬件配置参数确定各运行指标的预设上限值和预设下限值,并按照预设运行指标分布顺序,分别组成最大值行向量和最小值行向量。例如,CPU的内存容量为8G,若监控的运行指标包括CPU内存占用量,那么该项指标的最大值即为8G,而最小值为0G。假设,在设备监控过程中,共采集4个运行指标数据,表示为A、B和C。那么,最大值行向量可表示为[Amax,Bmax,Cmax],最小值行向量可表示为[Amin,Bmin,Cmin]。
然后,在所有采集到的历史运行指标数据中,将预设比例的历史运行指标数据中,各运行指标的数值按照递增或递减的方式进行排列,组成各运行指标数据的递增行向量或递减行向量。示例性的,共采集到100条运行指标数据,按照95%的比例,将其中95条运行指标数据作为阈值确定的参考数据。每一条数据都可以作为一个向量,表示为[Ai,Bi,Ci],其中,i表示该条数据的编号,数值根据数据量而定。那么,各运行指标数据的递增行向量可表示为[A1,…,A95],其中,A1与A95的下标表示数值大小的排序,下标数值越大,则指标A的数值越大(递减行向量则反之)。指标B和C同理。进一步的,将递增行向量或递减行向量按照预设运行指标分布顺序排列,并将排列结果与最大值行向量的转置向量和最小值行向量的转置向量组成运行指标数据向量组。运行指标数据向量组最终可表示为
Figure BDA0003312282080000071
这里需要说明的是,对A、B和C的顺序不限定,在数组中各列向量的顺序也可以调整。只要将未作为参考数据的另外5条运行指标数据与该项量组中的列向量进行相似度计算时,是相同的指标的数值进行计算即可。
S130、计算除去所述预设比例的历史运行指标数据之外的历史运行指标数据与所述运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值。
具体的,除去预设比例的历史运行指标数据之外的历史运行指标数据可表示为[ai,bi,ci],其中,i表示该条数据的编号,数值根据数据量而定。在该步骤中,计算每一个向量[ai,bi,ci]分别与运行指标数据向量组中每一个列项向的运行指标数据的相似度,得到相似度向量,表示为[S1,...,Sn],其中,n表示运行指标数据向量组中的列数。相似度向量的个数则与除去预设比例的历史运行指标数据之外的历史运行指标数据条数相同。其中,相似度计算可以采用余弦相似度公式进行计算,计算公式可表示为
Figure BDA0003312282080000072
x和y表示两个向量中对应的运行指标数据。
进一步的,将每一个相似度向量中相似度数值最高的元素对应的运行指标数据向量组中的列向量数值进行平均值计算,并将计算结果作为监控阈值待确定设备的运行指标的监控阈值。也就是说,在该步骤中找到与除去预设比例的历史运行指标数据之外的历史运行指标数据最相近的阈值数据,然后将得到的多个阈值数据进行均值计算,即取相似度最高的结果作为各运行指标对应的监控阈值。
本实施例的技术方案,通过获取与监控阈值待确定设备的硬件配置参数相同的设备,出现设备故障时的历史运行指标数据;即基于相同配置的设备的历史运行指标数据中预设比例的历史运行指标数据和硬件配置参数,建立运行指标数据向量组;计算除去预设比例的历史运行指标数据之外的历史运行指标数据与运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值。解决了现有技术中设备运行监控阈值设置不够准确,误报警率高的问题,实现了在参考设备硬件参数的前提下,合理的设定设备运行的监控阈值,从而提高监控报警准确率,实现有效的设备监控,提升用户体验。
实施例二
图2为本发明实施例二提供的一种监控报警方法的流程图,本实施例与上述实施例中的监控阈值确定方法属于同一个发明构思,进一步的描述了根据被监控设备的运行情况进行运行状态报警的过程。该方法可以由监控报警装置执行,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
如图2所示,监控报警方法包括以下步骤:
S210、获取被监控设备的实时运行监控数据,并将所述实时运行监控数据与预设监控阈值进行比较,其中,所述预设监控阈值是通过任一实施例所述的监控阈值确定方法确定的监控阈值。
在设备运行监控的过程中,阈值监控报警系统会适时的采集设备运行指标数据,通常包括CPU(Central Processing Unit,中央处理器)维度和磁盘维度两个维度的数据,例如,磁盘输入输出量、复制延迟时间、数据库连接数、CPU使用率及CPU负载等指标。然后将实时运行监控数据与预设监控阈值进行比较。特别的,预设监控阈值是通过任一实施例所述的监控阈值确定方法确定的监控阈值,在参考设备硬件参数的前提下,合理的设定设备运行的监控阈值。
S220、当所述实时运行监控数据中任一项运行指标的监控数据大于或等于对应的预设监控阈值时,计算所述实时运行监控数据与预设历史时间段内所述被监控设备的运行监控数据的数据相似度。
在本实施例中,将检测到被监控设备的实时运行数据达到了预设的阈值后,不会立即进行报警。而是,计算达到预设阈值的数据与该被监控设备本身的预设历史时间段内的运行监控数据的数据相似度,进一步的确认达到了预设阈值时的运行数据是否为异常数据。
具体的,可以随机选取预设数量的预设历史时间段内被监控设备的运行监控数据,如随机选取100条被监控设备近一个月内的运行监控数据;分别计算达到了预设阈值的实时运行监控数据与选取的100条运行监控数据的余弦相似度;进而计算得到各余弦相似度的均值,作为数据相似度。
S230、当所述数据相似度低于预设相似度阈值时,发出阈值监控报警。
示例性的,计算得到的数据相似度表示为Similarity(x,y),若数据相似度值(0.8<Similarity(x,y)<1),则不给予报警,如果最终通过平均相似度值(0<Similarity(x,y)<0.8),则给予报警,通知工程师报警信息,以便及时检查设备状态。
本实施例的技术方案,通过将根据同种硬件配置设备运行数据确定合理的监控阈值作为设备的监控阈值,当被监控设备的任一运行指标监控数据大于或等于对应的运行指标监控阈值时,计算当前的运行指标监控数据与该被监控设备本身的预设历史时间段内的运行指标监控数据的运行相似度,当所述运行相似度低于预设相似度阈值时,才发出阈值监控报警。在设置合理的报警阈值的基础上,进一步将达到监控阈值时运行指标数据与设备本身正常运行状态比较,设置双重判断机制,解决了由于监控阈值设置不合理导致误报警率高的问题,可以提高设备监控报警的准确性,实现有效的设备监控,提升用户体验。
实施例三
图3为本发明实施例三提供的监控阈值确定装置的结构示意图,本实施例可适用于确定计算机设备的运行指标数据的报警阈值的情况,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
如图3所示,监控阈值确定装置包括:历史监控数据获取模块310、阈值匹配向量构建模块320和监控阈值确定模块330。
其中,历史监控数据获取模块310,用于获取与监控阈值待确定设备的硬件配置参数相同的设备,出现设备故障时的历史运行指标数据;运行指标数据向量构建模块320,用于基于所述历史运行指标数据中预设比例的历史运行指标数据和所述硬件配置参数,建立运行指标数据向量组;监控阈值确定模块330,用于计算除去所述预设比例的历史运行指标数据之外的历史运行指标数据与所述运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值。
本实施例的技术方案,通过获取与监控阈值待确定设备的硬件配置参数相同的设备,出现设备故障时的历史运行指标数据;即基于相同配置的设备的历史运行指标数据中预设比例的历史运行指标数据和硬件配置参数,建立运行指标数据向量组;计算除去预设比例的历史运行指标数据之外的历史运行指标数据与运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值。解决了现有技术中设备运行监控阈值设置不够准确,误报警率高的问题,实现了在参考设备硬件参数的前提下,合理的设定设备运行的监控阈值,从而提高监控报警准确率,实现有效的设备监控,提升用户体验。
可选的,所述运行指标数据向量构建模块320具体包括:
第一向量确地子模块,用于根据所述硬件配置参数确定各运行指标的预设上限值和预设下限值,并按照预设运行指标分布顺序,分别组成最大值行向量和最小值行向量;
第二向量确定子模块,用于将所述预设比例的历史运行指标数据中,各运行指标的数值按照递增或递减的方式进行排列,组成各运行指标数据的递增行向量或递减行向量;
向量组组成子模块,用于将所述递增行向量或递减行向量按照所述预设运行指标分布顺序排列,并将排列结果与所述最大值行向量的转置向量和所述最小值行向量的转置向量组成所述运行指标数据向量组。
可选的,所述监控阈值确定模块330包括:
监控数据向量确定子模块,用于将除去所述预设比例的历史运行指标数据之外的每一组历史运行指标数据按照所述预设运行指标分布顺序,分别组成监控数据行向量;
相似度向量确定子模块,用于针对每一个监控数据行向量,将监控数据行向量分别与所述阈值匹配向量组的各列向量进行相似度计算,得到相似度向量;
监控阈值确定子模块,用于将每一个所述相似度向量中相似度数值最高的元素对应的所述运行指标数据向量组中的列向量数值进行平均值计算,并将计算结果作为所述监控阈值待确定设备的运行指标的监控阈值。
可选的,所述相似度向量确定子模块具体用于:
计算所述监控数据行向量分别与所述运行指标数据向量组的各列向量的余弦相似度,得到相似度向量。
本发明实施例所提供的监控阈值确定装置可执行本发明任意实施例所提供的监控阈值确定方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的监控报警装置的结构示意图,本实施例可适用于根据被监控设备的运行情况进行运行状态报警的情况,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
如图4所示,监控报警装置包括:阈值比较模块410、相似确定模块420和监控报警模块430。
其中,阈值比较模块410,用于获取被监控设备的实时运行监控数据,并将所述实时运行监控数据与预设监控阈值进行比较,其中,所述预设监控阈值是通过任一实施例所述的监控阈值确定方法确定的监控阈值;相似确定模块420,用于当所述实时运行监控数据中任一项运行指标的监控数据大于或等于对应的预设监控阈值时,计算所述实时运行监控数据与预设历史时间段内所述被监控设备的运行监控数据的数据相似度;监控报警模块430,用于当所述数据相似度低于预设相似度阈值时,发出阈值监控报警。
本实施例的技术方案,通过将根据同种硬件配置设备运行数据确定合理的监控阈值作为设备的监控阈值,当被监控设备的任一运行指标监控数据大于或等于对应的运行指标监控阈值时,计算当前的运行指标监控数据与该被监控设备本身的预设历史时间段内的运行指标监控数据的运行相似度,当所述运行相似度低于预设相似度阈值时,才发出阈值监控报警。在设置合理的报警阈值的基础上,进一步将达到监控阈值时运行指标数据与设备本身正常运行状态比较,设置双重判断机制,解决了由于监控阈值设置不合理导致误报警率高的问题,可以提高设备监控报警的准确性,实现有效的设备监控,提升用户体验。
可选的,所述相似确定模块420具体用于:
随机选取预设数量的所述预设历史时间段内所述被监控设备的运行监控数据;
分别计算所述实时运行监控数据与各选取的所述预设数量的预设历史时间段内所述被监控设备的运行监控数据的余弦相似度;
将计算得到各余弦相似度的均值,作为所述数据相似度。
本发明实施例所提供的监控报警装置可执行本发明任意实施例所提供的监控报警方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。计算机设备12可以任意具有计算能力的终端设备,如智能控制器及服务器、手机等终端设备。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图5中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发实施例所提供的监控阈值确定方法,该方法包括:
获取与监控阈值待确定设备的硬件配置参数相同的设备,出现设备故障时的历史运行指标数据;
基于所述历史运行指标数据中预设比例的历史运行指标数据和所述硬件配置参数,建立运行指标数据向量组;
计算除去所述预设比例的历史运行指标数据之外的历史运行指标数据与所述运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值。
或者,实现本发实施例所提供的监控报警方法,该方法包括:
获取被监控设备的实时运行监控数据,并将所述实时运行监控数据与预设监控阈值进行比较,其中,所述预设监控阈值是通过任一实施例所述的监控阈值确定方法确定的监控阈值;
当所述实时运行监控数据中任一项运行指标的监控数据大于或等于对应的预设监控阈值时,计算所述实时运行监控数据与预设历史时间段内所述被监控设备的运行监控数据的数据相似度;
当所述数据相似度低于预设相似度阈值时,发出阈值监控报警。
实施例六
本实施例六提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的监控阈值确定方法,该方法包括:
获取与监控阈值待确定设备的硬件配置参数相同的设备,出现设备故障时的历史运行指标数据;
基于所述历史运行指标数据中预设比例的历史运行指标数据和所述硬件配置参数,建立运行指标数据向量组;
计算除去所述预设比例的历史运行指标数据之外的历史运行指标数据与所述运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值。
或者,实现本发实施例所提供的监控报警方法,该方法包括:
获取被监控设备的实时运行监控数据,并将所述实时运行监控数据与预设监控阈值进行比较,其中,所述预设监控阈值是通过任一实施例所述的监控阈值确定方法确定的监控阈值;
当所述实时运行监控数据中任一项运行指标的监控数据大于或等于对应的预设监控阈值时,计算所述实时运行监控数据与预设历史时间段内所述被监控设备的运行监控数据的数据相似度;
当所述数据相似度低于预设相似度阈值时,发出阈值监控报警。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种监控阈值确定方法,其特征在于,所述方法包括:
获取与监控阈值待确定设备的硬件配置参数相同的设备,出现设备故障时的历史运行指标数据;
基于所述历史运行指标数据中预设比例的历史运行指标数据和所述硬件配置参数,建立运行指标数据向量组;
计算除去所述预设比例的历史运行指标数据之外的历史运行指标数据与所述运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值。
2.根据权利要求1所述的方法,其特征在于,所述基于所述历史运行指标数据中预设比例的历史运行指标数据和所述硬件配置参数,建立运行指标数据向量组,包括:
根据所述硬件配置参数确定各运行指标的预设上限值和预设下限值,并按照预设运行指标分布顺序,分别组成最大值行向量和最小值行向量;
将所述预设比例的历史运行指标数据中,各运行指标的数值按照递增或递减的方式进行排列,组成各运行指标数据的递增行向量或递减行向量;
将所述递增行向量或递减行向量按照所述预设运行指标分布顺序排列,并将排列结果与所述最大值行向量的转置向量和所述最小值行向量的转置向量组成所述运行指标数据向量组。
3.根据权利要求2所述的方法,其特征在于,所述计算除去所述预设比例的历史运行指标数据之外的历史运行指标数据与所述运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值,包括:
将除去所述预设比例的历史运行指标数据之外的每一组历史运行指标数据按照所述预设运行指标分布顺序,分别组成监控数据行向量;
针对每一个监控数据行向量,将监控数据行向量分别与所述阈值匹配向量组的各列向量进行相似度计算,得到相似度向量;
将每一个所述相似度向量中相似度数值最高的元素对应的所述运行指标数据向量组中的列向量数值进行平均值计算,并将计算结果作为所述监控阈值待确定设备的运行指标的监控阈值。
4.根据权利要求3所述的方法,其特征在于,所述将监控数据行向量分别与所述运行指标数据向量组的各列向量进行相似度计算,得到相似度向量,包括:
计算所述监控数据行向量分别与所述运行指标数据向量组的各列向量的余弦相似度,得到相似度向量。
5.一种监控报警方法,其特征在于,所述方法包括:
获取被监控设备的实时运行监控数据,并将所述实时运行监控数据与预设监控阈值进行比较,其中,所述预设监控阈值是通过权利要求1-4中任一所述的监控阈值确定方法确定的监控阈值;
当所述实时运行监控数据中任一项运行指标的监控数据大于或等于对应的预设监控阈值时,计算所述实时运行监控数据与预设历史时间段内所述被监控设备的运行监控数据的数据相似度;
当所述数据相似度低于预设相似度阈值时,发出阈值监控报警。
6.根据权利要求5所述的方法,其特征在于,所述计算所述实时运行监控数据与预设历史时间段内所述被监控设备的运行监控数据的数据相似度,包括:
随机选取预设数量的所述预设历史时间段内所述被监控设备的运行监控数据;
分别计算所述实时运行监控数据与各选取的所述预设数量的预设历史时间段内所述被监控设备的运行监控数据的余弦相似度;
将计算得到各余弦相似度的均值,作为所述数据相似度。
7.一种监控阈值确定装置,其特征在于,所述装置包括:
历史监控数据获取模块,用于获取与监控阈值待确定设备的硬件配置参数相同的设备,出现设备故障时的历史运行指标数据;
运行指标数据向量构建模块,用于基于所述历史运行指标数据中预设比例的历史运行指标数据和所述硬件配置参数,建立运行指标数据向量组;
监控阈值确定模块,用于计算除去所述预设比例的历史运行指标数据之外的历史运行指标数据与所述运行指标数据向量组中运行指标数据的相似度,并基于相似度计算结果确定所述监控阈值待确定设备的运行指标的监控阈值。
8.一种监控报警装置,其特征在于,所述装置包括:
阈值比较模块,用于获取被监控设备的实时运行监控数据,并将所述实时运行监控数据与预设监控阈值进行比较,其中,所述预设监控阈值是通过权利要求1-4中任一所述的监控阈值确定方法确定的监控阈值;
相似确定模块,用于当所述实时运行监控数据中任一项运行指标的监控数据大于或等于对应的预设监控阈值时,计算所述实时运行监控数据与预设历史时间段内所述被监控设备的运行监控数据的数据相似度;
监控报警模块,用于当所述数据相似度低于预设相似度阈值时,发出阈值监控报警。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的监控阈值确定方法或监控报警方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的监控阈值确定方法或监控报警方法。
CN202111220127.0A 2021-10-20 2021-10-20 一种监控阈值确定及监控报警方法、装置、设备和介质 Pending CN113946493A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111220127.0A CN113946493A (zh) 2021-10-20 2021-10-20 一种监控阈值确定及监控报警方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111220127.0A CN113946493A (zh) 2021-10-20 2021-10-20 一种监控阈值确定及监控报警方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN113946493A true CN113946493A (zh) 2022-01-18

Family

ID=79331859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111220127.0A Pending CN113946493A (zh) 2021-10-20 2021-10-20 一种监控阈值确定及监控报警方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113946493A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115802199A (zh) * 2022-10-26 2023-03-14 北京力控元通科技有限公司 报警门限的确定方法、装置、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115802199A (zh) * 2022-10-26 2023-03-14 北京力控元通科技有限公司 报警门限的确定方法、装置、电子设备及可读存储介质
CN115802199B (zh) * 2022-10-26 2023-09-22 北京力控元通科技有限公司 报警门限的确定方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110213068B (zh) 一种消息中间件的监控方法及相关设备
CN110474795B (zh) 服务器容量的处理方法及装置、存储介质及电子设备
CN109992473A (zh) 应用系统的监控方法、装置、设备及存储介质
CN112513883A (zh) 异常检测方法和设备
CN111679968A (zh) 接口调用异常的检测方法、装置、计算机设备及存储介质
CN113946493A (zh) 一种监控阈值确定及监控报警方法、装置、设备和介质
CN112150033A (zh) 一种快递柜系统管理方法、装置及电子设备
CN103326880A (zh) Genesys呼叫系统高可用性云计算监控系统及方法
CN115373960A (zh) 一种数据库查询性能分析方法、装置及存储介质
CN111427878B (zh) 数据监控告警方法、装置、服务器和存储介质
US9898357B1 (en) Root cause detection and monitoring for storage systems
CN114862109A (zh) 一种用电异常监测方法、装置、电子设备及存储介质
CN113132431B (zh) 服务监控方法、服务监控装置、电子设备及介质
CN113824590A (zh) 微服务网络的问题预测方法、计算机设备和存储介质
CN113282538A (zh) 文件系统管理方法、装置、设备、存储介质、程序产品
CN112131468A (zh) 推荐系统中的数据处理方法、装置
CN111581044A (zh) 集群优化方法、装置、服务器及介质
CN111367765A (zh) 接口响应性能的监控方法、装置、服务器和存储介质
CN110928940A (zh) 基于kafka集群的数据写入方法、装置、电子设备、存储介质
CN115321285B (zh) 一种混合场景条件下的智能电梯控制方法及系统
CN116566034B (zh) 配电网配电监测系统及方法
CN115174667B (zh) 大数据的推送方法、系统和电子设备
CN117688342B (zh) 一种基于模型的设备状态预测方法、电子设备及存储介质
CN111026571B (zh) 处理器降频处理方法、装置及电子设备
CN117319310A (zh) 接口限流方法、装置、电子设备和可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination