CN112732536B - 数据监控告警方法、装置、计算机设备及存储介质 - Google Patents

数据监控告警方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112732536B
CN112732536B CN202011620064.3A CN202011620064A CN112732536B CN 112732536 B CN112732536 B CN 112732536B CN 202011620064 A CN202011620064 A CN 202011620064A CN 112732536 B CN112732536 B CN 112732536B
Authority
CN
China
Prior art keywords
index
data
monitoring
alarm
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011620064.3A
Other languages
English (en)
Other versions
CN112732536A (zh
Inventor
杨楠
张宇骏
张强
黄新华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011620064.3A priority Critical patent/CN112732536B/zh
Publication of CN112732536A publication Critical patent/CN112732536A/zh
Application granted granted Critical
Publication of CN112732536B publication Critical patent/CN112732536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Abstract

本发明公开一种数据监控告警方法、装置、计算机设备及存储介质。该方法包括:采集源数据,将所述源数据传输到Kafka组件进行解耦;对所述源数据进行场景分类,确定所述Kafka组件解耦后的源数据对应的场景类型;采用所述场景类型对应的格式转译逻辑,对所述场景类型对应的源数据进行格式转译,获取标准指标数据;获取与所述场景类型相对应的监控指标数据;对所述场景类型对应的所述标准指标数据和所述监控指标数据进行异常监控,获取告警监控结果;若所述告警监控结果为需要告警,则形成目标告警消息,采用与所述场景类型相对应的告警通知逻辑,将所述目标告警消息发送给业务终端。该方法可以有效提高数据监控告警的处理效率,保障异常情况的及时处理。

Description

数据监控告警方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据监控告警方法、装置、计算机设备及存储介质。
背景技术
监控告警平台(如Detector)是用于实现对数据处理的整个流程进行监控告警的平台,例如,从数据生成、计算、对比和发送等各个环节进行监控告警。现有监控告警平台在数据处理的各个环节高度耦合、数据结构多样性、处理流程仅限于单一渠道,无法适应数据来源及渠道多样性的要求,使得现有监控告警平台在数据监控告警过程中,处理效率较低,导致告警消息发送不及时。
发明内容
本发明实施例提供一种数据监控告警方法、装置、计算机设备及存储介质,以解决数据监控告警问题。
一种数据监控告警方法,包括:
采集源数据,将所述源数据传输到Kafka组件进行解耦;
对所述Kafka组件解耦后的源数据进行场景分类,确定所述源数据对应的场景类型;
采用所述场景类型对应的格式转译逻辑,对所述场景类型对应的源数据进行格式转译,获取标准指标数据;
获取与所述场景类型相对应的监控指标数据;
对所述场景类型对应的所述标准指标数据和所述监控指标数据进行异常监控,获取告警监控结果;
若所述告警监控结果为需要告警,则形成目标告警消息,采用与所述场景类型相对应的告警通知逻辑,将所述目标告警消息发送给业务终端。
一种数据监控告警装置,包括:
源数据采集模块,用于采集源数据,将所述源数据传输到Kafka组件进行解耦;
场景类型确定模块,用于对所述Kafka组件解耦后的源数据进行场景分类,确定所述源数据对应的场景类型;
标准指标数据获取模块,用于采用所述场景类型对应的格式转译逻辑,对所述场景类型对应的源数据进行格式转译,获取标准指标数据;
监控指标数据获取模块,用于获取与所述场景类型相对应的监控指标数据;
告警监控结果获取模块,用于对所述场景类型对应的所述标准指标数据和所述监控指标数据进行异常监控,获取告警监控结果;
目标告警消息发送模块,用于若所述告警监控结果为需要告警,则形成目标告警消息,采用与所述场景类型相对应的告警通知逻辑,将所述目标告警消息发送给业务终端。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据监控告警方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据监控告警方法。
上述数据监控告警方法、装置、计算机设备及存储介质,将采集到的源数据传输到Kafka组件进行解耦,避免告警监控的各个步骤相互依赖,影响数据监控告警处理效率;对源数据进行场景分类,确定源数据的场景类型,采用该场景类型对应的格式转译逻辑对所述源数据进行转译,获取标准指标数据,以实现对多个数据来源或者渠道对应的源数据进行数据结构标准化处理,使得处理后的标准指标数据具有结构单一性,有助于提高数据监控告警处理效率;对所述标准指标数据和所述监控指标数据进行异常监控,以获取告警监控结果,由于标准指标数据和监控指标数据的数据结构一致,使得其监控告警监控处理效率较快。在确定告警监控结果为需要告警时,将目标告警消息发送给业务终端,以使业务终端的用户及时了解源数据的异常情况并进行处理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中数据监控告警方法的一应用环境示意图;
图2是本发明一实施例中数据监控告警方法的一流程图;
图3是本发明一实施例中数据监控告警方法的另一流程图;
图4是本发明一实施例中数据监控告警方法的另一流程图;
图5是本发明一实施例中数据监控告警方法的另一流程图;
图6是本发明一实施例中数据监控告警方法的另一流程图;
图7是本发明一实施例中数据监控告警方法的另一流程图;
图8是本发明一实施例中数据监控告警方法的另一流程图;
图9是本发明一实施例中数据监控告警装置的一示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的数据监控告警方法,该数据监控告警方法可应用如图1所示的应用环境中。具体地,该数据监控告警方法应用在数据监控告警平台中,该数据监控告警平台包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现对数据进行监控告警,在监控告警过程中采用中间件实现各个处理步骤的解耦,依据不同场景类型进行格式转译,从而实现数据结构标准化,有助于提高数据监控告警的处理效率,保障告警消息的及时发送。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种数据监控告警方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S201:采集源数据,将源数据传输到Kafka组件进行解耦。
其中,源数据是从业务系统采集到的未经处理的数据。作为一示例,用品将从业务系统获取的至少一个源数据传输到Kafka组件中,以供在线处理和离线处理,利用Kafka组件实现各个处理环节解耦,采用Spark Structured Streaming引擎推动数据在不同处理步骤之间流转,使得每个处理步骤只需关心自己处理的数据流入和数据输出,各个处理步骤之间互不依赖,避免处理步骤之间相互依赖而影响监控告警处理效率。
S202:对Kafka组件解耦后的源数据进行场景分类,确定源数据对应的场景类型。
其中,每一源数据对应的场景类型是指根据某一源数据的具体应用场景所确定的分类类型,此处的具体应用场景可以理解为数据来源或者渠道。
作为一示例,服务器可根据接收源数据的数据接口,快速确定每一源数据对应的场景类型。例如,在银行系统这一业务系统所形成的源数据中,可将源数据依据其具体应用场景划分为ATP(即核心场景类型)、BIA(稽核场景类型)和普通场景类型(即除了ATP和BIA以外的其他场景类型)。在采集到银行系统进行转账交互的源数据之后,将源数据的场景类型确定为ATP场景类型。本示例中,将源数据细分为互不干涉的、更小颗粒度的场景类型,按场景类型转储可将使各场景间数据实现独立计算互不干扰。
S203:采用场景类型对应的格式转译逻辑,对场景类型对应的源数据进行格式转译,获取标准指标数据。
其中,场景类型对应的格式转译逻辑是根据场景类型对应的数据特征,预先配置的用于实现对源数据进行格式转译处理的逻辑。
作为一示例,服务器可依据每一场景类型对应的格式转译逻辑,对场景类型对应的源数据进行格式转译,获取标准格式对应的标准指标数据,以适配不同的源数据进行监控告警处理,提高数据处理的适用性,有助于提高数据监控告警处理的效率。例如,服务器可采用Spark大数据技术,读取分散存储于mysql、influxdb等多种数据库的不同数据格式的数据,规整为存储于hbase数据库的标准格式,是数据集成的一个重要环节,为后续预测计算减少数据对接成本。
S204:获取与场景类型相对应的监控指标数据。
其中,监控指标数据是与场景类型相对应的用于评估标准指标数据是否异常的数据。该监控指标数据包括指标特征和与指标特征相对应的指标数值,该指标数值可以为固定阈值、时间段均值、时间点阈值和区间阈值。例如,指标数值为固定阈值的示例:(1)参数1为数字,即为固定阈值,例:1000;(2)参数2为up或者down,结合阈值1000:up表示大于1000异常,down表示小于1000异常,其他为正常。例如,指标数值为时间段均值的示例:两个参数都为分钟数,例:连续3分钟低于前面5分钟的平均值,则填写参数1为3(连续时段),参数2为5(比较时段)。指标数值为时间点均值的示例:参数1为分钟数,参数2为数字,例:当前时间低于前面15分钟平均值的百分之80,则填写参数1为15,参数2为80。指标数值为区间阈值的示例:参数1为最小值数字,参数2为最大值数字,例:低于50或者大于100为异常,则填写参数1为50,参数2为100,其他为正常。
作为一示例,服务器可基于场景类型查询数据库,具体为查询HBase数据库,以获取与场景类型相对应的监控指标数据。本示例中,服务器可从HBase数据库中,获取目标时间区域内的历史指标数据,将历史指标数据输入预先训练好的目标组合模型中,获取与场景类型相对应的监控指标数据。其中,目标时间区域是指用户自主选择确定的需要选取历史指标数据对应的时间区域。历史指标数据是指根据系统当前时间之前形成的标准指标数据。
S205:对场景类型对应的标准指标数据和监控指标数据进行异常监控,获取告警监控结果。
作为一示例,服务器可场景类型对应的在线监控告警逻辑,对场景类型对应的标准指标数据和监控指标数据进行异常监控,以确定所采集到的源数据是否存在异常,获取告警监控结果。其中,场景类型对应的在线监控告警逻辑,是预先根据不同场景类型配置的用于监控源数据是否异常,并在存在异常时进行告警处理的逻辑。一般来说,在根据标准指标数据和监控指标数据进行异常监控时,若存在异常,则获取需要告警的告警监控结果;若不存在异常,则获取无需告警的告警监控结果。
S206:若告警监控结果为需要告警,则形成目标告警消息,采用与场景类型相对应的告警通知逻辑,将目标告警消息发送给业务终端。
其中,目标告警消息是根据监控指标数据,确定标准指标数据存在异常时形成的反映异常情况的告警消息。告警通知逻辑是指预先配置的用于发送告警消息的处理逻辑,具体可以限定对不同异常情况的告警监控结果,确定其消息发送时间、发送对象以及触发后续监控处理流程等处理逻辑。业务终端是用于接收目标告警消息的终端,例如,该业务终端可以为预先配置的对源数据进行监控的用户所采用的终端。
作为一示例,在告警监控结果为需要告警时,服务器可调用告警消息模板,采用告警消息模板对告警监控结果进行处理,形成目标告警消息;依据与场景类型相对应的告警通知逻辑(例如,什么时候通知,需要通知到哪些用户等),将目标告警消息发送给业务终端,以便将存在异常情况的目标告警消息及时发送给业务终端,以使业务终端的用户可及时了解异常情况并进行处理。
作为另一示例,若告警监控结果为需要告警,则服务器可获取场景类型对应的告警优先级,该告警优先级可以为根据异常严重情况确定的优先级,告警优先级越高,说明异常情况越严重,越需要紧急处理。接着,采用告警优先级对应的告警消息模板对告警监控结果进行处理,形成目标告警消息;采用告警优先级对应的告警通知逻辑,将目标告警消息发送给业务终端,以便根据异常情况的严重程度,将目标告警消息发送给业务终端,以使业务终端的用户可及时了解异常情况,并依据异常情况的严重程度进行处理。
作为又一示例,每一源数据携带数据标识,数据标识是用于唯一识别源数据对应的数据来源的标识。例如,该数据标识可以是用于唯一识别形成源数据的应用程序对应的程序标识,即AppID。具体地,步骤S206具体包括如下步骤:(1)若告警监控结果为需要告警,则采用告警消息模板对告警监控结果进行处理,获取源数据对应的单一告警消息。(2)基于同一数据标识对应的源数据对应的单一告警消息,形成目标告警消息。例如,依据异常情况的严重程度或者依据不同源数据对应的业务流程的先后顺序,将所有单一告警消息汇总形成目标告警消息。(3)采用与场景类型相对应的告警通知逻辑,将目标告警消息发送给业务终端。其中,单一告警消息是基于每条源数据的告警监控结果形成的消息,用于记录该条源数据存在的异常情况。本示例中,将同一数据标识对应的所有单一告警消息汇总形成目标告警消息,再将目标告警消息发送给业务终端,以使业务终端的用户可了解同一数据来源对应的源数据的异常情况。
本实施例所提供的数据监控告警方法中,将采集到的源数据传输到Kafka组件进行解耦,避免告警监控的各个步骤相互依赖,影响数据监控告警处理效率;对源数据进行场景分类,确定源数据的场景类型,采用该场景类型对应的格式转译逻辑对源数据进行转译,获取标准指标数据,以实现对多个数据来源或者渠道对应的源数据进行数据结构标准化处理,使得处理后的标准指标数据具有结构单一性,有助于提高数据监控告警处理效率;对标准指标数据和监控指标数据进行异常监控,以获取告警监控结果,由于标准指标数据和监控指标数据的数据结构一致,使得其监控告警监控处理效率较快。在确定告警监控结果为需要告警时,将目标告警消息发送给业务终端,以使业务终端的用户及时了解源数据的异常情况并进行处理。
在一实施例中,如图3所示,对场景类型对应的标准指标数据和监控指标数据进行异常监控,获取告警监控结果,包括:
S301:获取场景类型对应的待监控指标量以及标准指标数据对应的当前数据量。
S302:若待监控指标量小于预设指标量,且当前数据量小于预设数据量,则采用单一处理线程,对标准指标数据和监控指标数据进行异常监控,获取告警监控结果。
S303:若待监控指标量不小于预设指标量,或者当前数据量不小于预设数据量,则将标准指标数据缓存在Redis中,采用至少两个处理线程,从Redis中调取标准指标数据,对标准指标数据和监控指标数据进行异常监控,获取告警监控结果。
其中,场景类型对应的待监控指标量是指某一场景类型对应的源数据中,待监控指标的数量。待监控指标为需要被监控的指标。预设指标量是指系统预先设置的指标量。标准指标数据对应的当前数据量是指系统当前需要进行异常监控的标准指标数据的数量。预设数据量是指系统预先设置的数据量。
作为一示例,服务器在对场景类型对应的标准指标数据和监控指标数据进行异常监控时,需先获取场景类型对应的待监控指标量以及标准指标数据对应的当前数据量;再将待监控指标量与预设指标量进行比较,并将当前数据量与预设数据量进行比较;若待监控指标量小于预设指标量,且当前数据量小于预设数据量,则说明需要监控告警的标准指标数据的数量较少,且每一标准指标数据需要监控的指标也较少,此时,只需采用单一处理线程,对标准指标数据和监控指标数据进行异常监控,获取告警监控结果,有助于节省数据监控告警过程中的系统资源。
作为另一示例,服务器在对场景类型对应的标准指标数据和监控指标数据进行异常监控时,需先获取场景类型对应的待监控指标量以及标准指标数据对应的当前数据量;再将待监控指标量与预设指标量进行比较,并将当前数据量与预设数据量进行比较;若待监控指标量不小于预设指标量,或者当前数据量不小于预设数据量,则说明每一标准指标数据需要监控的指标较多,或者需要监控告警的标准指标数据的数量较多,此时,若只采用单一处理线程进行处理,会导致数据监控告警过程耗时较长,处理效率较低,且容易出现拥堵情况;因此,服务器需先将标准指标数据缓存在Redis中,再根据预先配置的负载均衡策略,调用至少两个处理线程,使得每个处理线程从Redis中获取标准指标数据,再对标准指标数据和监控指标数据进行异常监控,获取告警监控结果,有助于提高数据监控告警处理效率。
在一实施例中,如图4所示,对场景类型对应的标准指标数据和监控指标数据进行异常监控,获取告警监控结果,包括:
S401:基于场景类型,获取场景类型对应的待监控指标。
S402:从标准指标数据中,获取待监控指标对应的指标真实值。
S403:从监控指标数据中,获取待监控指标对应的指标预测值。
S404:对待监控指标对应的指标真实值和指标预测值进行异常校验,获取待监控指标对应的异常监控结果。
S405:基于待监控指标对应的异常监控结果,获取告警监控结果。
作为一示例,步骤S401中,服务器可根据场景类型查询系统预先配置的监控指标信息表,从监控指标信息表中获取与场景类型相对应的至少一个待监控指标,该待监控指标可以为理解为需要被监控的指标特征。其中,监控指标信息表是用于存储不同场景类型对应的待监控指标的数据表。
作为一示例,步骤S402中,服务器可根据场景类型对应的待监控指标,从该场景类型对应的标准指标数据中,提取与待监控指标相对应的指标数值,确定为待监控指标对应的指标真实值,一般来说,该指标真实值是一个具体数值。
作为一示例,步骤S403中,服务器可根据场景类型对应的待监控指标训,从该场景类型对应的监控指标数据中,提取与待监控指标相对应的指标数值,确定为待监控指标对应的指标预测值,一般来说,该指标预测值是根据历史指标数据预测的数值范围。
作为一示例,步骤S404中,服务器对同一待监控指标对应的指标真实值和指标预测值进行异常校验,以校验指标真实值与指标预测值是否匹配,例如,指标真实值对应的具体数值是否在指标预测值对应的数值范围内,从而确定该待监控指标对应的异常监控结果。该异常监控结果包括存在异常和不存在异常,例如,若指标真实值对应的具体数值在指标预测值对应的数值范围内,则不存在异常;若指标真实值对应的具体数值不在指标预测值对应的数值范围内,则存在异常。
作为一示例,步骤S405中,服务器在获取待监控指标对应的异常监控结果之后,需执行预先配置的告警处理逻辑,对待监控指标对应的异常监控结果进行处理,以确定每一待监控指标的异常情况是否达到需要告警的程度,确定告警监控结果,以保障数据监控告警处理效率。
在一实施例中,如图5所示,步骤S405中,即基于待监控指标对应的异常监控结果,获取告警监控结果,包括:
S501:若待监控指标对应的异常监控结果为存在异常,则将待监控指标确定为异常监控指标,获取异常监控指标对应的当前状态和当前异常时间。
S502:若异常监控指标对应的当前状态为正常状态,则执行第一告警处理逻辑对异常监控指标进行监控处理,获取告警监控结果。
S503:若异常监控指标对应的当前状态为翻转状态,则执行第二告警处理逻辑对异常监控指标进行监控处理,获取告警监控结果。
S504:若异常监控指标对应的当前状态为告警状态,则执行第三告警处理逻辑对异常监控指标进行监控处理,获取告警监控结果。
其中,异常监控指标是指异常监控结果为存在异常的待监控指标。异常监控指标对应的当前状态是指系统当前记录的待监控指标的状态,该当前状态包括正常状态、翻转状态和告警状态。该正常状态是指不存在异常的状态;告警状态是指当前已经进行告警的状态;翻转状态是指存在异常但未进行告警的状态。当前异常时间是指待监控指标对应的指标真实值存在异常的时间,可以理解为该待监控指标对应的指标真实值的生成时间。
作为一示例,步骤S501中,在待监控指标对应的异常监控结果为存在异常,可将该待监控指标确定为异常监控指标,接着,从监控结果信息表中,获取该异常监控指标对应的当前状态,并根据异常监控指标对应的指标真实值的生成时间,确定异常监控指标对应的当前异常时间,以便根据异常监控指标对应的当前状态和当前异常时间,执行后续的告警处理逻辑。监控结果信息表为用于存在不同待监控指标对应的异常监控结果的信息表。
其中,第一告警处理逻辑是在异常监控指标对应的当前状态为正常状态进的处理逻辑。
作为一示例,步骤S502,即若异常监控指标对应的当前状态为正常状态,则执行第一告警处理逻辑对异常监控指标进行监控处理,获取告警监控结果,具体包括:
A1:若异常监控指标对应的当前状态为正常状态,则执行第一告警处理逻辑进行状态翻转,将异常监控指标对应的当前状态转换为翻转状态。
本示例中,在异常监控指标对应的当前状态为正常状态,则执行第一告警处理逻辑进行状态翻转,是指将监控结果信息表中,将异常监控指标的当前状态由正常状态转换为翻转状态,以便后续再次监控到该异常监控指标时,确定其当前状态为翻转状态。
A2:根据异常监控指标对应的当前异常时间和翻转处理周期,确定翻转状态对应的翻转过期时间,配置翻转状态的目标异常次数,将翻转状态的当前异常次数设置为1,获取无需告警的告警监控结果,可重复执行步骤S404,即对待监控指标对应的指标真实值和指标预测值进行异常校验,获取待监控指标对应的异常监控结果。
其中,翻转处理周期是预先配置的翻转状态的持续周期。本示例中,将异常监控指标对应的当前异常时间加上翻转处理周期,即可确定翻转状态对应的翻转过期时间。可以理解地,在系统当前时间达到翻转过期时间之后,即可认定该翻转状态过期,可将其当前状态转换回正常状态。目标异常次数是指预先配置的可以接受的异常次数。当前异常次数是指处于翻转状态之后的异常次数。
作为一示例,步骤S503,即若异常监控指标对应的当前状态为翻转状态,则执行第二告警处理逻辑对异常监控指标进行监控处理,获取告警监控结果,包括:
B1:若异常监控指标对应的当前状态为翻转状态,则判断异常监控指标对应的当前异常时间是否超过翻转状态对应的翻转过期时间。
B2:若当前异常时间超过翻转过期时间,则基于异常监控指标对应的当前异常时间和翻转处理周期,更新翻转状态对应的翻转过期时间,并将翻转状态的当前异常次数设置为1,获取无需告警的告警监控结果。
本示例中,若当前异常时间超过翻转过期时间,则异常监控指标处于翻转状态的持续时间超过翻转过期时间仍没有进入告警状态,说明上次进入翻转状态已经过期,此时,需以本次监控到异常的当前异常时间对翻转状态进行更新,具体为基于异常监控指标对应的当前异常时间和翻转处理周期,更新翻转状态对应的翻转过期时间,并将翻转状态的当前异常次数重新设置为1,目标异常次数维持不变,获取无需告警的告警监控结果。
B3:若当前异常时间不超过翻转过期时间,则更新翻转状态对应的当前异常次数,判断当前异常次数是否大于目标异常次数。本示例中,将当前异常次数加1,确定为更新后的当前异常次数。
B4:若当前异常次数大于目标异常次数,则将异常监控指标对应的当前状态转换为告警状态,确定告警状态对应的当前告警时间,获取需要告警的告警监控结果。
本示例中,若当前异常次数大于目标异常次数,说明在该翻转状态对应的翻转过期时间之前,该异常监控指标已经被监控到存在异常的次数超过目标异常次数,认定异常情况严重,需要进行告警,因此,可将异常监控指标对应的当前状态转换为告警状态,将切换为告警状态的时间点确定为当前告警时间,并获取需要告警的告警监控结果。
B5:若当前异常次数不大于目标异常次数,则获取无需告警的告警监控结果,重复执行步骤S404,即对待监控指标对应的指标真实值和指标预测值进行异常校验,获取待监控指标对应的异常监控结果。
本示例中,若当前异常次数不大于目标异常次数,说明在该翻转状态对应的翻转过期时间之前,该异常监控指标已经被监控到存在异常的次数没有超过目标异常次数,认定异常情况未达到需要告警的情况,需要继续进行监控,即重复执行对待监控指标对应的指标真实值和指标预测值进行异常校验,获取待监控指标对应的异常监控结果。
作为一示例,步骤S504中,即若异常监控指标对应的当前状态为告警状态,则执行第三告警处理逻辑对异常监控指标进行监控处理,获取告警监控结果,包括:
C1:若异常监控指标对应的当前状态为告警状态,则依据当前异常时间和告警状态对应的当前告警时间,确定告警时间差。
本示例中,将当前异常时间与告警状态对应的当前告警时间的差值,确定为告警时间差,即本次异常与最近一次由翻转状态切换为告警状态的当前告警时间之间的时间差。
C2:若告警时间差小于时间差阈值,则获取无需告警的告警监控结果。
其中,时间差阈值是预先配置的时间差,可以理解为系统预留的用于处理告警的时间。本示例中,若告警时间差小于时间差阈值,则认定为本次异常与最近一次由翻转状态切换为告警状态的当前告警时间之间的时间差较小,没有达到系统预留的用于处理告警的时间差阈值,此时,不再重复告警。
C3:若告警时间差不小于时间差阈值,则获取需要告警的告警监控结果,更新告警状态对应的当前告警时间。
本示例中,若告警时间差不小于时间差阈值,则认定为本次异常与最近一次由翻转状态切换为告警状态的当前告警时间之间的时间差较长,达到系统预留的用于处理告警的时间差阈值,极有可能是对最近一次告警进行处理后再次出现的告警,因此,需获取需要告警的告警监控结果,更新告警状态对应的当前告警时间。
在一实施例中,如图7所示,在步骤S206之后,即在将目标告警消息发送给业务终端之后,数据监控告警方法还包括:
S601:接收业务终端反馈的告警反馈标识。
S602:基于标准指标数据和告警反馈标识,获取标准样本数据,将标准样本数据划分为训练集和测试集。
S603:获取与场景类型相对应的至少两个指标分析模型。
S604:采用训练集中的标准样本数据,对至少两个指标分析模型进行训练,获取原始组合模型。
S605:采用测试集中的标准样本数据,对原始组合模型进行验证,获取原始组合模型对应的模型验证结果。
S606:若模型验证结果为验证通过,则将原始组合模型确定为目标组合模型。
其中,告警反馈标识是用于反映告警是否准确的标识。
作为一示例,步骤S601中,服务器在将目标告警消息发送给业务终端之后,可以接收业务终端反馈的用于确定告警是否准确的告警反馈标识,告警反馈标识包括确认标识和否认标识。
作为一示例,步骤S602中,服务器可以根据基于标准指标数据和告警反馈标识,获取标准样本数据,即将告警反馈标识确定为标准指标数据的标签,并将标准样本数据存储在HBase数据库中。接着,基于预设划分比例(如8:2),将标准样本数据划分为训练集和测试集。
其中,指标分析模型是用于对指标数据进行分析的算法模型。本示例中,针对不同业务数据,可采用k-means,svm等聚类算法模型;针对符合时间序列特征的业务数据,可使用简易平均法、移动平均法和arima等算法模型。例如,针对不同业务形态,需使用时间序列预测算法中简单平均算法和加权平均算法,结合通道理论知识形成目标组合模型,利用目标组合模型计算出适合的预测值区间。
作为一示例,步骤S603中,服务器提供不同场景类型对应的指标分析模型,以便后续模型训练,具体表现为:在获取某一场景类型对应的标准样本数据的数据量达到可以进行模型训练的阈值,或者存在出现其他需要进行模型训练的情况(如用户主动触发进行模型训练)时,服务器可获取某一应用场景对应的至少两个指标分析模型。
作为一示例,步骤S604中,服务器将训练集中的标准样本数据,输入到同一场景类型对应的至少两个指标分析模型进行训练,具体用于训练确定每个指标分析模型对应的模型参数,以及至少两个指标分析模型组合过程中各个指标分析模型对应的模型权重,基于训练确定的每个指标分析模型对应的模型参数以及模型权重,获取原始组合模型。
作为一示例,步骤S605中,服务器需将测试集中的标准样本数据,输入到原始组合模型进行测试验证,以确定原始组合模型对应的模型验证结果,具体为:将测试集中的标准样本数据,输入到原始组合模型中已确定模型参数的至少两个指标分析模型分别进行处理,获取至少两个模型输出;基于至少两个指标分析模型对应的模型权重,对至少两个模型输出进行加权处理,获取加权处理后的模型反馈标识;统计模型反馈标识与告警反馈标识相同的准确样本数量,并获取测试集中所有标准样本数据对应的标准样本数量,根据准确样本数量和标准样本数量,确定原始组合模型对应的模型准确率;将原始组合模型的模型准确率与目标准确率进行比较;若原始组合模型的模型准确率大于目标准确率,则认定原始组合模型的模型准确率达到模型训练完成标准,获取验证通过的模型验证结果,可将原始组合模型确定为目标组合模型;若原始组合模型的模型准确率不大于目标准确率,获取验证不通过的模型验证结果,则认定原始组合模型的模型准确率未达到模型训练完成标准,需要重新进行模型训练。其中,目标准确率是预先配置的用于评估准确率是否达到模型训练完成标准的阈值。
可理解地,由于单一指标分析模型对场景类型对应的标准指标数据进行分析的准确性和有效性较差,本方案中,采用至少两个指标分析模型进行加权组合,使得形成的目标组合模型对该场景类型对应的标准指标数据的处理结果更准确和有效。
在一实施例中,标准指标数据包括至少两个指标特征和与指标特征相对应的指标数值;如图7所示,步骤S602中,基于标准指标数据和告警反馈标识,获取标准样本数据,包括:
S701:采用告警反馈标识,对标准指标数据同一指标特征对应的指标数值进行处理,获取指标特征对应的信息增益。
S702:对至少两个指标特征对应的信息增益进行顺序,获取排序结果,依据排序结果,从至少两个指标特征中确定目标特征。
S703:基于目标特征对应的指标数值和告警反馈标识,获取标准样本数据。
其中,指标特征是指标准指标数据中的指标特征。指标特征对应的指标数值是指标准指标数据中指标特征对应的具体数值。
作为一示例,步骤S701具体包括:(1)服务器先采用告警反馈标识,对所有标准指标数据中同一指标特征对应的指标数值进行处理,确定每一指标特征对应的经验熵。例如,对于所有标准指标数据所形成的样本集合D中,可基于每一指标特征对应的特征分类区间,将其划分为k个类别{C1、C2数据监控告警Ck},每个类别对应的概率为
Figure BDA0002872119580000131
其中,|Ck|为类别Ck的样本个数,|D|为样本集合D的样本总数,则每个指标特征对应的经验熵为
Figure BDA0002872119580000132
(2)服务器根据每一指标特征的经验熵,确定指标特征对应的信息增益。服务器利用每一指标特征对应的特征分类区间对所有标准指标数据进行划分分类,基于划分前后的经验熵的差值确定该指标特征对应的信息增益,即g(D,A)=H(D)-H(D|A),其中,g(D,A)为信息增益,H(D)为划分前的经验熵,H(D|A)为划分后的经验熵,以便利用该信息增益g(D,A)衡量该指标特征对整个标准指标数据所形成的样本集合D的划分效果好坏。可以理解地,对于由标准指标数据形成的样本集合D而言,其划分前的经验熵H(D)是一定的,但划分后的经验熵H(D|A)不确定,经验熵H(D|A)越大,说明使用此指标特征划分得到的子集的不确定性越小,与告警反馈标识的关联性越强。
作为一示例,步骤S702中,服务器对至少两个指标特征对应的信息增益进行排序,将信息增益较大的前N个指标特征确定为目标特征,以实现将与告警反馈标识关联性较大的前N个指标特征确定为目标特征,以排除与告警反馈标识关联性较弱的其他指标特征,从而保障目标特征对数据监控告警进行的准确性。
作为一示例,步骤S703中,服务器从标准样本数据中,抽取所有目标特征对应的指标数值,将所抽取到的目标特征对应的指标数值和标准样本数据对应的告警反馈标识,组合形成标准样本数据,以便后续基于标准样本数据进行模型训练,提高模型训练效率,并保障训练出的目标组合模型的模型识别准确性。
在一实施例中,如图8所示,步骤S605中,采用测试集中的标准样本数据,对原始组合模型进行验证,获取原始组合模型对应的模型验证结果,包括:
S801:采用测试集中的标准样本数据,对原始组合模型中至少两个指标分析模型进行分析,获取至少一个评估指标对应的指标测试结果。
S802:依据每一指标分析模型对应的所有评估指标对应的指标测试结果,获取指标分析模型对应的单一准确率。
S803:若所有指标分析模型对应的单一准确率均为达标,则对同一评估指标对应的指标测试结果进行交叉验证,获取评估指标对应的交叉验证结果。
S804:若所有评估指标对应的交叉验证结果均为验证通过,则获取验证通过的模型验证结果。
S805:若存在至少一个评估指标对应的交叉验证结果为验证不通过,则获取验证不通过的模型验证结果。
其中,评估指标是用于评估模型训练好坏的指标。本示例中,评估指标包括但不限于查准率、查全率、相关性和损失函数等。其中,查准率是指模型使用标准样本数据计算之后预测值标记是否异常的准确率;查全率是指模型对应该告警的数据与实际告警的比率;相关性是指模型计算的预测值与真实值之间的相关性;损失函数是指模型预测值与真实值之间的误差值。
作为一示例,步骤S801中,服务器在将测试集中的标准样本数据输入到原始组合模型中的至少两个指标分析模型进行模型训练,获取每一指标分析模型对应的至少一个评估指标的指标测试结果,以便根据确定单个指标分析模型的准确率是否达标。
其中,指标分析模型对应的单一准确率是指该指标分析模型对测试集中的标准样本数据进行识别的准确率。
作为一示例,步骤S802中,若每一指标分析模型中,所有评估指标对应的指标测试结果均为达标,则指标分析模型对应的单一准确率达标;若每一指标分析模型中,存在至少一个评估指标对应的指标测试结果为不达标,则指标分析模型对应的单一准确率未达标。
作为一示例,步骤S803中,在所有指标分析模型对应的单一准确率均为达标,则对同一评估指标对应的指标测试结果进行交叉验证,具体为依据至少两个指标分析模型对应的模型权重,对同一评估指标对应的指标测试结果进行加权处理,获取每一评估指标对应的交叉验证结果。该交叉验证结果可以理解为对同一评估指标对应的指标测试结果进行加权处理后的模型输出与实际结果之间的准确率。
例如,采用A、B、C和D四个指标分析模型,分别对X、Y和Z这几个评估指标进行分别处理,分别确定其指标准确率。例如,A指标分析模型对评估指标X/Y/Z对应的指标准确率为Xa/Ya/Zz;B指标分析模型对评估指标X/Y/Z对应的指标准确率为Xb/Yb/Zb;Z指标分析模型对评估指标X/Y/Z对应的指标准确率为Xc/Yc/Zc;D指标分析模型对评估指标X/Y/Z对应的指标准确率为Xd/Yd/Zd;则在交叉验证过程中,可对同一评估指标对应的指标准确率进行交叉验证,获取交叉验证结果。例如,交叉验证过程为对同一评估指标的指标准确率进行加权验证,如对Xa/Xb/Xc/Xd进行加权,确定每一评估指标加权后的交叉准确率;若所有评估指标对应的交叉准确率大于预设准确率,则获取验证通过的交叉验证结果;若存在至少一个评估指标对应的交叉准确率不大于预设准确率,则获取验证不通过的交验验证结果。
作为一示例,若所有评估指标对应的交叉验证结果均为验证通过,则获取验证通过的模型验证结果,以将其对应的原始组合模型确定为目标组合模型。
作为另一示例,若存在至少一个评估指标对应的交叉验证结果为验证不通过,则获取验证不通过的模型验证结果,不将其对应的原始组合模型确定为目标组合模型。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种数据监控告警装置,该数据监控告警装置与上述实施例中数据监控告警方法一一对应。如图9所示,该数据监控告警装置包括源数据采集模块901、场景类型确定模块902、标准指标数据获取模块903、监控指标数据获取模块904、告警监控结果获取模块905和目标告警消息发送模块906。各功能模块详细说明如下:
源数据采集模块901,用于采集源数据,将源数据传输到Kafka组件进行解耦。
场景类型确定模块902,用于对Kafka组件解耦后的源数据进行场景分类,确定源数据对应的场景类型。
标准指标数据获取模块903,用于采用场景类型对应的格式转译逻辑,对场景类型对应的源数据进行格式转译,获取标准指标数据。
监控指标数据获取模块904,用于获取与场景类型相对应的监控指标数据。
告警监控结果获取模块905,用于对场景类型对应的标准指标数据和监控指标数据进行异常监控,获取告警监控结果。
目标告警消息发送模块906,用于若告警监控结果为需要告警,则形成目标告警消息,采用与场景类型相对应的告警通知逻辑,将目标告警消息发送给业务终端。
优选地,告警监控结果获取模块905,包括:
数量获取单元,用于获取场景类型对应的待监控指标量以及标准指标数据对应的当前数据量。
第一结果获取单元,用于若待监控指标量小于预设指标量,且当前数据量小于预设数据量,则采用单一处理线程,对标准指标数据和监控指标数据进行异常监控,获取告警监控结果。
第二结果获取单元,用于若待监控指标量不小于预设指标量,或者当前数据量不小于预设数据量,则将标准指标数据缓存在Redis中,采用至少两个处理线程,从Redis中调取标准指标数据,对标准指标数据和监控指标数据进行异常监控,获取告警监控结果。
优选地,告警监控结果获取模块905,包括:
待监控指标获取单元,用于基于场景类型,获取场景类型对应的待监控指标。
指标真实值获取单元,用于从标准指标数据中,获取待监控指标对应的指标真实值。
指标预测值获取单元,用于从监控指标数据中,获取待监控指标对应的指标预测值。
异常监控结果获取单元,用于对待监控指标对应的指标真实值和指标预测值进行异常校验,获取待监控指标对应的异常监控结果。
告警监控结果获取单元,用于基于待监控指标对应的异常监控结果,获取告警监控结果。
优选地,告警监控结果获取单元,包括:
异常指标确定子单元,用于若待监控指标对应的异常监控结果为存在异常,则将待监控指标确定为异常监控指标,获取异常监控指标对应的当前状态和当前异常时间。
第一告警处理子单元,用于若异常监控指标对应的当前状态为正常状态,则执行第一告警处理逻辑对异常监控指标进行监控处理,获取告警监控结果。
第二告警处理子单元,用于若异常监控指标对应的当前状态为翻转状态,则执行第二告警处理逻辑对异常监控指标进行监控处理,获取告警监控结果。
第三告警处理子单元,用于若异常监控指标对应的当前状态为告警状态,则执行第三告警处理逻辑对异常监控指标进行监控处理,获取告警监控结果。
优选地,数据监控告警装置还包括:
告警反馈标识接收模块,用于接收业务终端反馈的告警反馈标识。
标准样本数据获取模块,用于基于标准指标数据和告警反馈标识,获取标准样本数据,将标准样本数据划分为训练集和测试集。
指标分析模型获取模块,用于获取与场景类型相对应的至少两个指标分析模型。
原始组合模型获取模块,用于采用训练集中的标准样本数据,对至少两个指标分析模型进行训练,获取原始组合模型。
模型验证结果获取模块,用于采用测试集中的标准样本数据,对原始组合模型进行验证,获取原始组合模型对应的模型验证结果。
目标组合模型确定模块,用于若模型验证结果为验证通过,则将原始组合模型确定为目标组合模型。
优选地,标准样本数据获取模块,包括:
信息增益获取单元,用于采用告警反馈标识,对标准指标数据同一指标特征对应的指标数值进行处理,获取指标特征对应的信息增益。
目标特征确定单元,用于对至少两个指标特征对应的信息增益进行顺序,获取排序结果,依据排序结果,从至少两个指标特征中确定目标特征。
标准样本数据获取单元,用于基于目标特征对应的指标数值和告警反馈标识,获取标准样本数据。
优选地,模型验证结果获取模块,包括:
指标测试结果获取单元,用于采用测试集中的标准样本数据,对原始组合模型中至少两个指标分析模型进行分析,获取至少一个评估指标对应的指标测试结果。
单一准确率获取单元,用于依据每一指标分析模型对应的所有评估指标对应的指标测试结果,获取指标分析模型对应的单一准确率。
交叉验证结果获取单元,用于若所有指标分析模型对应的单一准确率均为达标,则对同一评估指标对应的指标测试结果进行交叉验证,获取评估指标对应的交叉验证结果。
第一验证结果获取单元,用于若所有评估指标对应的交叉验证结果均为验证通过,则获取验证通过的模型验证结果。
第二验证结果获取单元,用于若存在至少一个评估指标对应的交叉验证结果为验证不通过,则获取验证不通过的模型验证结果。
关于数据监控告警装置的具体限定可以参见上文中对于数据监控告警方法的限定,在此不再赘述。上述数据监控告警装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于执行数据监控告警方法过程中采用或生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据监控告警方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中数据监控告警方法,例如图2所示S201-S206,或者图3至图8中所示,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现数据监控告警装置这一实施例中的各模块/单元的功能,例如图9所示的源数据采集模块901、场景类型确定模块902、标准指标数据获取模块903、监控指标数据获取模块904、告警监控结果获取模块905和目标告警消息发送模块906的功能,为避免重复,这里不再赘述。
在一实施例中,提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中数据监控告警方法,例如图2所示S201-S206,或者图3至图8中所示,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述数据监控告警装置这一实施例中的各模块/单元的功能,例如图9所示的源数据采集模块901、场景类型确定模块902、标准指标数据获取模块903、监控指标数据获取模块904、告警监控结果获取模块905和目标告警消息发送模块906的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据监控告警方法,其特征在于,包括:
采集源数据,将所述源数据传输到Kafka组件进行解耦,所述源数据携带数据标识,所述数据标识是用于识别所述源数据的数据来源的标识;
对所述Kafka组件解耦后的源数据进行场景分类,确定所述源数据对应的场景类型;所述源数据对应的场景类型是指根据某一源数据的数据来源或者渠道所确定的分类类型;
采用所述场景类型对应的格式转译逻辑,对所述场景类型对应的源数据进行格式转译,获取标准指标数据;
获取目标时间区域内的历史指标数据,将所述历史指标数据输入至预先基于同一场景类型对应的至少两个指标分析模型进行训练得到的目标组合模型中,获取与所述场景类型相对应的监控指标数据,所述历史指标数据是指根据系统当前时间之前形成的标准指标数据;
对所述场景类型对应的所述标准指标数据和所述监控指标数据进行异常监控,获取告警监控结果;
若所述告警监控结果为需要告警,则采用告警消息模板对告警监控结果进行处理,获取源数据对应的单一告警消息;基于同一数据标识对应的源数据对应的单一告警消息,依据异常情况的严重程度或所述源数据对应的业务流程的先后顺序进行汇总,形成目标告警消息,采用与所述场景类型相对应的告警通知逻辑,将所述目标告警消息发送给业务终端。
2.如权利要求1所述的数据监控告警方法,其特征在于,所述对所述场景类型对应的所述标准指标数据和所述监控指标数据进行异常监控,获取告警监控结果,包括:
获取所述场景类型对应的待监控指标量以及所述标准指标数据对应的当前数据量;
若所述待监控指标量小于预设指标量,且所述当前数据量小于预设数据量,则采用单一处理线程,对所述标准指标数据和所述监控指标数据进行异常监控,获取告警监控结果;
若所述待监控指标量不小于预设指标量,或者所述当前数据量不小于预设数据量,则将所述标准指标数据缓存在Redis中,采用至少两个处理线程,从所述Redis中调取所述标准指标数据,对所述标准指标数据和所述监控指标数据进行异常监控,获取告警监控结果。
3.如权利要求1所述的数据监控告警方法,其特征在于,所述对所述场景类型对应的所述标准指标数据和所述监控指标数据进行异常监控,获取告警监控结果,包括:
基于所述场景类型,获取所述场景类型对应的待监控指标;
从所述标准指标数据中,获取所述待监控指标对应的指标真实值;
从所述监控指标数据中,获取所述待监控指标对应的指标预测值;
对所述待监控指标对应的指标真实值和指标预测值进行异常校验,获取所述待监控指标对应的异常监控结果;
基于所述待监控指标对应的异常监控结果,获取告警监控结果。
4.如权利要求3所述的数据监控告警方法,其特征在于,所述基于所述待监控指标对应的异常监控结果,获取告警监控结果,包括:
若所述待监控指标对应的异常监控结果为存在异常,则将所述待监控指标确定为异常监控指标,获取所述异常监控指标对应的当前状态和当前异常时间;
若所述异常监控指标对应的当前状态为正常状态,则执行第一告警处理逻辑对所述异常监控指标进行监控处理,获取告警监控结果;
若所述异常监控指标对应的当前状态为翻转状态,则执行第二告警处理逻辑对所述异常监控指标进行监控处理,获取告警监控结果;
若所述异常监控指标对应的当前状态为告警状态,则执行第三告警处理逻辑对所述异常监控指标进行监控处理,获取告警监控结果。
5.如权利要求1所述的数据监控告警方法,其特征在于,在所述将所述目标告警消息发送给业务终端之后,所述数据监控告警方法还包括:
接收所述业务终端反馈的告警反馈标识;
基于所述标准指标数据和所述告警反馈标识,获取标准样本数据,将所述标准样本数据划分为训练集和测试集;
获取与所述场景类型相对应的至少两个指标分析模型;
采用所述训练集中的标准样本数据,对至少两个所述指标分析模型进行训练,获取原始组合模型;
采用所述测试集中的标准样本数据,对所述原始组合模型进行验证,获取所述原始组合模型对应的模型验证结果。
6.如权利要求5所述的数据监控告警方法,其特征在于,所述基于所述标准指标数据和所述告警反馈标识,获取标准样本数据,包括:
采用所述告警反馈标识,对所述标准指标数据同一指标特征对应的指标数值进行处理,获取所述指标特征对应的信息增益;
对至少两个所述指标特征对应的信息增益进行顺序,获取排序结果,依据所述排序结果,从至少两个所述指标特征中确定目标特征;
基于所述目标特征对应的指标数值和所述告警反馈标识,获取标准样本数据。
7.如权利要求5所述的数据监控告警方法,其特征在于,所述采用所述测试集中的标准样本数据,对所述原始组合模型进行验证,获取所述原始组合模型对应的模型验证结果,包括:
采用所述测试集中的标准样本数据,对所述原始组合模型中至少两个所述指标分析模型进行分析,获取至少一个评估指标对应的指标测试结果;
依据每一所述指标分析模型对应的所有所述评估指标对应的指标测试结果,获取所述指标分析模型对应的单一准确率;
若所有所述指标分析模型对应的单一准确率均为达标,则对同一所述评估指标对应的指标测试结果进行交叉验证,获取所述评估指标对应的交叉验证结果;
若所有所述评估指标对应的交叉验证结果均为验证通过,则获取验证通过的模型验证结果;
若存在至少一个所述评估指标对应的交叉验证结果为验证不通过,则获取验证不通过的模型验证结果。
8.一种数据监控告警装置,其特征在于,包括:
源数据采集模块,用于采集源数据,将所述源数据传输到Kafka组件进行解耦,所述源数据携带数据标识,所述数据标识是用于识别所述源数据的数据来源的标识;
场景类型确定模块,用于对所述Kafka组件解耦后的源数据进行场景分类,确定所述源数据对应的场景类型,所述源数据对应的场景类型是指根据某一源数据的数据来源或者渠道所确定的分类类型;
标准指标数据获取模块,用于采用所述场景类型对应的格式转译逻辑,对所述场景类型对应的源数据进行格式转译,获取标准指标数据;
监控指标数据获取模块,用于获取目标时间区域内的历史指标数据,将所述历史指标数据输入至预先基于同一场景类型对应的至少两个指标分析模型进行训练得到的目标组合模型中,获取与所述场景类型相对应的监控指标数据,所述历史指标数据是指根据系统当前时间之前形成的标准指标数据;
告警监控结果获取模块,用于对所述场景类型对应的所述标准指标数据和所述监控指标数据进行异常监控,获取告警监控结果;
目标告警消息发送模块,用于若所述告警监控结果为需要告警,则采用告警消息模板对告警监控结果进行处理,获取源数据对应的单一告警消息;基于同一数据标识对应的源数据对应的单一告警消息,依据异常情况的严重程度或所述源数据对应的业务流程的先后顺序进行汇总,形成目标告警消息,采用与所述场景类型相对应的告警通知逻辑,将所述目标告警消息发送给业务终端。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述数据监控告警方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数据监控告警方法。
CN202011620064.3A 2020-12-30 2020-12-30 数据监控告警方法、装置、计算机设备及存储介质 Active CN112732536B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011620064.3A CN112732536B (zh) 2020-12-30 2020-12-30 数据监控告警方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011620064.3A CN112732536B (zh) 2020-12-30 2020-12-30 数据监控告警方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112732536A CN112732536A (zh) 2021-04-30
CN112732536B true CN112732536B (zh) 2023-01-13

Family

ID=75608482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011620064.3A Active CN112732536B (zh) 2020-12-30 2020-12-30 数据监控告警方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112732536B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420601B (zh) * 2021-05-27 2023-07-18 南方电网调峰调频发电有限公司 异常场景的监控方法、装置、计算机设备和存储介质
CN113381884B (zh) * 2021-06-02 2023-01-31 上海数禾信息科技有限公司 用于监控告警系统的全链路监控方法及装置
CN113468030A (zh) * 2021-07-16 2021-10-01 京东科技控股股份有限公司 Abs系统的监控告警方法及装置、存储介质及电子设备
CN113608839A (zh) * 2021-08-10 2021-11-05 曙光信息产业(北京)有限公司 集群告警方法、装置、计算机设备及存储介质
CN115460055A (zh) * 2022-08-19 2022-12-09 深圳微米云服信息科技有限公司 一种云平台监控方法
CN115802391B (zh) * 2023-02-07 2023-05-12 深圳市优网科技有限公司 移动通信网络稳定性检测方法、设备、系统及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100394457C (zh) * 2003-12-30 2008-06-11 上海贝尔阿尔卡特股份有限公司 通用多层次告警处理方法
CN107992394A (zh) * 2017-11-28 2018-05-04 顺丰科技有限公司 实时数据处理的监控方法、装置、系统、设备及存储介质
CN111078488B (zh) * 2018-10-18 2021-11-09 杭州海康威视数字技术股份有限公司 数据采集方法、装置、存储介质及系统
CN109885452B (zh) * 2019-01-23 2023-04-14 平安科技(深圳)有限公司 性能监控方法、装置及终端设备
CN111177500A (zh) * 2019-11-25 2020-05-19 深圳壹账通智能科技有限公司 数据对象分类方法、装置、计算机设备和存储介质
CN111831458B (zh) * 2020-06-11 2024-04-26 武汉烽火技术服务有限公司 一种高并发高解耦数据处理方法及数据中台系统

Also Published As

Publication number Publication date
CN112732536A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112732536B (zh) 数据监控告警方法、装置、计算机设备及存储介质
CN110086649B (zh) 异常流量的检测方法、装置、计算机设备及存储介质
CN110995468B (zh) 待分析系统的系统故障处理方法、装置、设备和存储介质
WO2021174694A1 (zh) 基于数据中心的运维监控方法、装置、设备及存储介质
CN108769026B (zh) 用户账号检测系统和方法
CN113556258B (zh) 一种异常检测方法及装置
CN111143163B (zh) 数据监控方法、装置、计算机设备和存储介质
CN108256322B (zh) 安全测试方法、装置、计算机设备和存储介质
JP2022549999A (ja) 充電ステーション監視方法および装置
US20230177527A1 (en) Block chain system, and biological product monitoring method and device
CN113835962A (zh) 一种服务器故障检测方法、装置、计算机设备及存储介质
US10805305B2 (en) Detection of operational threats using artificial intelligence
CN117131457B (zh) 基于ai模型的电力大数据采集处理方法及系统
CN114707834A (zh) 一种告警提醒方法、装置及存储介质
Leckey et al. Prediction intervals for load‐sharing systems in accelerated life testing
US20220094699A1 (en) Detection of operational threats using artificial intelligence
CN111885181B (zh) 监控数据上报方法、装置、计算机设备及存储介质
CN114745407B (zh) 电力物联网的安全态势感知方法、装置、设备及介质
US20240054341A1 (en) Training models for target computing devices
CN114153696A (zh) 云原生应用健康检测方法、装置、计算机设备及存储介质
CN111652379B (zh) 模型管理方法、装置、电子设备及存储介质
CN111314496B (zh) 注册请求拦截方法、装置、计算机设备和存储介质
CN113535449B (zh) 异常事件修复处理方法、装置、计算机设备及存储介质
CN112307271A (zh) 一种配电自动化系统遥控业务的安全监测方法及装置
CN113746668B (zh) 一种应用进程故障预测方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant