CN117255005B - 一种基于cdn的业务告警处理方法、装置、设备及介质 - Google Patents

一种基于cdn的业务告警处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN117255005B
CN117255005B CN202311511663.5A CN202311511663A CN117255005B CN 117255005 B CN117255005 B CN 117255005B CN 202311511663 A CN202311511663 A CN 202311511663A CN 117255005 B CN117255005 B CN 117255005B
Authority
CN
China
Prior art keywords
alarm
service
domain name
target
reason
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311511663.5A
Other languages
English (en)
Other versions
CN117255005A (zh
Inventor
施纯满
王剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Volcano Engine Technology Co Ltd
Original Assignee
Beijing Volcano Engine Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Volcano Engine Technology Co Ltd filed Critical Beijing Volcano Engine Technology Co Ltd
Priority to CN202311511663.5A priority Critical patent/CN117255005B/zh
Publication of CN117255005A publication Critical patent/CN117255005A/zh
Application granted granted Critical
Publication of CN117255005B publication Critical patent/CN117255005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供了一种基于CDN的业务告警处理方法、装置、设备及介质,包括:获取目标域名对应的检测数据以及原因分析数据;利用检测数据确定是否执行目标域名对应的业务告警;若确定执行目标域名对应的业务告警,则利用原因分析数据确定业务告警原因;获取业务告警原因对应的发送策略,并按照发送策略发送业务告警原因。本公开利用检测数据实时检测业务状态,能够快速判断是否需要执行业务告警,通过原因分析数据能够准确定位业务告警的原因,便于快速定位问题,提高故障处理效率。面对海量的业务告警,能够准确识别真正的报警原因,避免了误报和漏报,提高业务告警的处理率和准确性。另外按照发送策略发送业务告警原因,有利于业务运行的稳定性。

Description

一种基于CDN的业务告警处理方法、装置、设备及介质
技术领域
本公开涉及网络通信领域,具体涉及一种基于CDN的业务告警处理方法、装置、设备及介质。
背景技术
业务检测是内容分发网络(Content Delivery Network,缩写:CDN)服务重要的一个环节。目前在触发CDN服务报警后,运维人员可以根据报警第一时间介入处理问题,及时止损,保障客户服务的稳定性,所以运维人员能否在报警第一时间介入处理至关重要。随着CDN业务的逐步增加,报警爆炸式增长,报警的原因有很多,其中源站问题&正常行为触发的报警占比较高。运维人员只需要关注重点关注CDN问题。
现有的方案主要是针对设置自动化处理脚本,让报警自动化处理,但是产生的报警原因很多,自动化处理脚本只能处理很简单的功能,并且经常出错,最终还是需要人为介入处理。而且面对海量的报警量无法区分真正的报警原因。
发明内容
有鉴于此,本公开实施例提供了一种基于CDN的业务告警处理方法、装置、电子设备及存储介质,以解决面对海量的报警量无法区分真正的报警原因的问题。
第一方面,本公开实施例提供了一种基于CDN的业务告警处理方法,所述方法包括:
获取目标域名对应的检测数据以及原因分析数据,所述检测数据是根据CDN节点对应客户端对目标域名的访问行为进行检测得到的,所述原因分析数据是根据所述访问行为以及所述CDN节点的节点性能数据得到的;
利用检测数据确定是否执行目标域名对应的业务告警;
若确定执行目标域名对应的业务告警,则利用原因分析数据确定业务告警原因;
获取业务告警原因对应的发送策略,并按照发送策略发送业务告警原因。
第二方面,本公开实施例提供了一种基于CDN的业务告警处理装置,装置包括:
获取模块,用于获取目标域名对应的检测数据以及原因分析数据,所述检测数据是根据CDN节点对应客户端对目标域名的访问行为进行检测得到的,所述原因分析数据是根据所述访问行为以及所述CDN节点的节点性能数据得到的;
确定模块,用于利用检测数据确定是否执行目标域名对应的业务告警;
分析模块,用于若确定执行目标域名对应的业务告警,则利用原因分析数据确定业务告警原因;
发送模块,用于获取业务告警原因对应的目标接收方设备,并向目标接收方设备发送业务告警原因。
第三方面,本公开实施例提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的方法。
第四方面,本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的方法。
本公开实施例利用检测数据实时检测业务状态,能够快速判断是否需要执行业务告警,通过原因分析数据能够准确定位业务告警的原因,便于快速定位问题,提高故障处理效率。即使面对海量的业务告警,能够准确识别真正的报警原因,避免了误报和漏报,提高业务告警的处理率和准确性。另外按照发送策略发送业务告警原因,有利于保证业务运行的稳定性。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开一些实施例的一种基于CDN的业务告警处理系统的示意图;
图2是根据本公开一些实施例的基于CDN的业务告警处理方法的流程示意图;
图3是根据本公开一些实施例的业务告警原因的发送过程示意图;
图4是根据本公开实施例的基于CDN的业务告警处理装置的结构框图;
图5是本公开实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
根据本公开实施例,提供了一种基于CDN的业务告警处理方法、装置、电子设备及存储介质,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本公开实施例的一种基于CDN的业务告警处理系统的示意图,如图1所示,该系统包括:大数据平台以及多个CDN节点。CDN节点可以理解为是CDN服务器,告警处理终端,大数据平台与多个CDN节点连接,大数据平台与告警处理终端连接。大数据平台是用于管理、处理和分析大规模数据集的综合性软件和硬件基础设备,大数据平台可以理解为由多个组件和服务构成的系统。
CDN节点100,用于检测客户端对域名的访问情况,并记录该域名的访问日志。CDN节点按照预设时间向大数据平台发送访问日志以及CDN节点自身的节点性能数据,访问日志中主要包括时间,域名,状态码、客户IP、异常状态码以及异常状态码的来源等等。节点性能数据主要包括:CDN节点的负载,重传率,内存,丢包率等等。另外,异常状态码的来源可以是CDN节点中的缓存服务组件记录的,缓存服务组件可以作为客户端可以请求到源站,当源站直接返回异常状态码(4XX或5XX)时,记录异常状态码来源,当源站异常无法访问的时候,缓存服务组件记录异常原因,如TCP链接失败,HTTP无响应等。
大数据平台200,用于接收各个CDN节点发送的访问日志以及节点性能数据。对访问日志以及节点性能数据进行聚合,然后进行清洗,得到客户端访问每个域名对应的检测数据和原因分析数据。具体的,大数据平台对访问日志对清洗,得到检测数据,检测数据包括:时间,域名,状态码,宽带等。原因分析数据包括:域名,UA/referer/客户端IP分布,异常状态码的来源,CDN节点的CPU负载、内存利用率、磁盘IO等等。
具体的,首先,从各个CDN节点收集访问日志和节点性能数据,并将其发送到大数据平台。在大数据平台上,使用适当的工具(如Flume或Kafka)将这些数据进行聚合,确保数据的完整性和一致性。
其次,对聚合的访问日志数据进行清洗,主要包括以下步骤:
将访问日志中的每个字段进行解析,例如时间、域名、状态码、宽带等。根据预定义的规则或模式,过滤掉无效的数据,例如异常的状态码或无效的域名。将解析后的数据进行标准化,使其符合统一的数据格式和结构。例如,将时间字段转换为统一的时间格式,将状态码转换为标准的状态码等。对数据进行异常检测,识别可能存在问题的数据点。例如,检测访问频率异常高或异常低的数据点。
清洗节点性能数据:对聚合的节点性能数据进行清洗,主要包括以下步骤:将节点性能数据中的每个字段进行解析,例如CPU负载、内存使用情况、磁盘IO等。根据预定义的规则或模式,过滤掉无效的数据,例如异常的节点状态或无效的性能指标。将解析后的数据进行标准化,使其符合统一的数据格式和结构。例如,将节点状态转换为标准的状态描述,将性能指标转换为标准的指标名称等。对数据进行异常检测,识别可能存在问题的数据。例如,检测CPU负载异常高或内存使用异常低的数据。
最终根据清洗后的访问日志得到检测数据,根据清洗后的访问日志以及节点性能数据得到原因分析数据。
告警处理终端300,用于接收大数据平台发送的检测数据和原因分析数据,然后利用检测数据确定是否执行目标域名对应的业务告警,如果确定执行目标域名对应的业务告警,则利用原因分析数据确定业务告警原因。最终获取业务告警原因对应的发送策略,并按照发送策略发送业务告警原因。
本公开实施例通过检测客户端对目标域名的访问行为进行检测得到相应的检测数据,利用检测数据判定是否执行目标域名的业务告警,如果执行业务告警,则直接通过原因分析数据进行问题定位和分析,确定业务告警原因。即使是面对海量的业务告警,同样能够确定真正的报警原因,并及时发送至接收方设备,以此可以帮助运维人员对访问异常进行快速响应和处理,提升业务告警的处理率。同时提高了系统的稳定性和准确性。
在本公开实施例中提供了一种基于CDN的业务告警处理方法,图2是根据本公开实施例的一种基于CDN的业务告警处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S11,获取目标域名对应的检测数据以及原因分析数据,检测数据是根据CDN节点对应客户端对目标域名的访问行为进行检测得到的,原因分析数据是根据访问行为以及CDN节点的节点性能数据得到的。
本公开实施例提供的方法应用于告警处理终端,告警处理终端接收大数据平台发送的各个CDN节点对应的检测数据以及原因分析数据。检测数据是基于访问日志得到的。访问日志是CDN节点检测客户端针对客户端的访问行为得到的,检测数据包括:时间,目标域名,状态码,宽带、网络延迟等。原因分析数据基于访问日志以及CDN节点的节点性能数据得到的。原因分析数据包括:目标域名,UA/referer/客户端IP分布,异常状态码的来源,CDN节点的CPU负载、内存、磁盘IO等等。
步骤S12,利用检测数据确定是否执行目标域名对应的业务告警。
在一些可选的实施方式中,利用检测数据确定是否执行目标域名对应的业务告警,包括以下步骤A1-A4:
步骤A1,查询域名屏蔽列表。
在一些可选的实施方式中,在利用检测数据确定是否执行目标域名对应的业务告警的过程中,告警处理终端首先查询预先配置的域名屏蔽列表,域名屏蔽列表中包括多个无需执行告警判定的域名。具体的,当某些域名经常产生高频次的无效业务报警时,为了减少无效告警干扰,本公开实施例配置了域名屏蔽列表,通过配置域名屏蔽列表,可以对经常产生高频次的无效业务报警的域名进行屏蔽。被屏蔽的域名不会执行后续的业务告警判定流程。
步骤A2,若目标域名不属于域名屏蔽列表,则从检测数据中提取各个预设指标对应的访问行为数据。
在一些可选的实施方式中,如果目标域名不属于或者不存在域名屏蔽列表内,告警处理终端可以从检测数据中提取各个预设指标对应的访问行为数据。预设指标可以是带宽、网络延迟、状态码等等、带宽对应的访问行为数据为带宽利用率,带宽流量以及带宽错误率等等。网络延迟对应的访问行为数据为网络延迟等级以及延迟时间等等,状态码对应的访问行为数据为状态码的关键码段。
步骤A3,获取目标域名对应的告警检测策略,告警检测策略包括各个预设指标对应的告警条件。
在一些可选的实施方式中,每个域名对应不同的告警检测策略,域名对应的告警检测策略可以根据域名对应的业务类型配置,例如:每个业务类型,确定需要检测的指标,根据业务类型的特点和需求,可以选择检测带宽、网络延迟、状态码等不同的指标。告警检测策略中包各个预设指标对应的告警条件。
示例性的,以带宽为例,带宽对应的告警条件包括:当带宽利用率达到或超过预设的利用率阈值时触发报警。例如,可以设置带宽利用率超过80%时触发报警。当带宽流量达到或超过预设的阈值时触发报警。例如,可以设置带宽流量超过1GB/s时触发报警。当带宽错误率达到或超过预设的阈值时触发报警。例如,可以设置带宽错误率超过0.5%时触发报警。
步骤A4,将预设指标对应的访问行为数据与告警条件进行匹配,确定是否执行目标域名对应的业务告警。
在一些可选的实施方式中,将预设指标对应的访问行为数据与告警条件进行匹配,确定是否执行目标域名对应的业务告警,包括:若预设指标对应的访问行为数据命中告警条件,则确定执行目标域名对应的业务告警;或,若预设指标对应的访问行为数据未命中告警条件,则确定不执行目标域名对应的业务告警。
示例性的,以带宽为例,带宽利用率超过利用率阈值80%,确定命中告警条件,执行业务告警报警。带宽流量超过流量阈值1GB/s时,确定命中告警条件,执行业务告警报警。带宽错误率超过带宽错误率阈值0.5%时,确定命中告警条件,执行业务告警报警。
步骤S13,若确定执行目标域名对应的业务告警,则利用原因分析数据确定业务告警原因。
在一些可选的实施方式中,如果确定执行目标域名对应的业务告警,则判断目标域名是否配置有相应的告警诊断机制,如果该域名配置有告警诊断机制,则触发告警诊断机制生效,如果目标域名没有配置相应的告警诊断机制,则获取默认告警策略,向默认告警策略所配置的处理终端发送告警信息,告警信息可以理解为是告警提示信息。
示例性的,域名www.example.com对应目标业务,该域名下对应多个子域名,例如:video.example.com和music.example.com。video.example.com对应目标业务下的视频业务。music.example.com对应目标业务下的音乐业务。其中,
video.example.com配置有告警诊断机制,music.example.com未配置有告警诊断机制。告警处理终端在处理域名的业务告警时,如果该域名配置有告警诊断机制,则利用原因分析数据对业务告警进行诊断确定其业务告警原因。如果没有配置告警诊断机制,则直接按照默认告警策略执行告警。
在一些可选的实施方式中,利用原因分析数据确定业务告警原因,包括以下步骤B1-B6:
步骤B1,从原因分析数据中提取预设指标对应的指标变化情况。
在一些可选的实施方式中,预设指标对应的指标变化情况可以是带宽突降,带宽突增。状态码突增,状态码突降等等。
步骤B2,获取目标域名对应的告警分析策略,告警分析策略包括多个告警类型以及告警类型关联的多个判定条件,每个预设指标对应至少一个判定条件。
在一些可选的实施方式中,每个目标域名对应的告警分析策略,告警分析策略包括多个告警类型以及每个告警类型关联的判定条件,告警类型包括:正常告警类型,CDN类型以及与源站类型。
具体的,正常告警类型对应的判定条件如下:
①带宽变化情况:带宽突降,请求数突降,4XX或者5XX状态码无突增,并且外部拨测请求结果正常。
②4XX状态码变化情况:状态码突增,状态码来源是源站或者触发CDN鉴权逻辑,客户端IP或者UA或者referer集中。
CDN类型对应的判定条件如下:
①带宽变化情况:以下两个满足其中一个即可:
1.带宽突降,请求数正常,异常状态码如4XX,5XX突增,异常状态码来源非源站。
2.带宽突降,请求数突降,外部探测失败。外部探测失败可以理解为:模拟客户端请求进行访问时,访问失败。
②5XX状态码变化情况:异常状态码突增,来源非源站,非触发CDN逻辑,机器性能指标过载或者节点丢包。
③4XX状态码变化情况:异常状态码突增,来源非源站,非触发CDN逻辑,客户端IP、referer、UA等用户指标不集中。
源站类型对应的判定条件如下:
①带宽变化情况: 带宽突降,请求数正常,异常状态码突增,异常状态码来源是源站。
②4XX状态码变化情况:状态码突增,且状态码为异常状态码,异常状态码来源是源站。
③5XX状态码变化情况:异常状态码突增,异常状态码来源是源站。
步骤B3,将预设指标对应的指标变化情况与相应的判定条件进行匹配。
在一些可选的实施方式中,将当前原因分析数据中各个预设指标对应的指标变化情况分别于各个告警类型对应的判定条件进行匹配,从而确定得到指标变化情况所命中的判定条件。
步骤B4,若预设指标对应的指标变化情况命中相应的判定条件,则将命中的判定条件确定为目标判定条件。
在一些可选的实施方式中,如果预设指标对应的指标变化情况命中了相应的判定条件,则将命中的判定条件标记为目标判定条件。由于不同的告警类型对应的判定条件相同,例如:CDN类型和源站类型的带宽变化情况均为带宽突降,因此通过将标记指标变化情况命中的判定条件,便于后续确定最终的告警类型。
步骤B5,从告警分析策略中获取目标判定条件对应的目标告警类型,并获取产生目标告警类型的异常问题。
在一些可选的实施方式中,获取各个预设指标对应的目标判定条件,然后将目标判定条件共同对应的告警类型确定为目标告警类型。同时获取目标告警类型对应的异常问题,例如:目标告警类型为CDN类型时,其对应的异常问题包括:TOP3的异常IP地址,异常的统一资源定位符(Uniform Resource Locator,缩写:URL),异常原因(例如:节点丢包,CPU负载过载等)。
步骤B6,基于目标告警类型以及异常问题生成业务告警原因。
本公开实施例提供的方法通过在告警分析策略依据预设指标设置相应的判定条件,可以根据具体业务需求进行灵活配置和调整,适应不同的业务场景。其次,通过匹配预设指标的变化情况和判定条件,可以确定目标判定条件,并从告警分析策略中获取对应的目标告警类型和异常问题,从而生成精确的业务告警原因。
在一些可选的实施方式中,在从告警分析策略中获取目标判定条件对应的目标告警类型之后,方法还包括:检测目标告警类型是否属于正常告警类型;若目标告警类型属于正常告警类型,则查询历史告警记录;从历史告警记录中获取目标域名对应的正常告警类型的告警次数;若告警次数大于或等于预设次数,则将目标域名更新至域名屏蔽列表。
本公开实施例通过查询历史告警记录,可以获取目标域名对应的正常告警类型的告警次数,从而对告警类型进行更准确的判断。如果正常告警类型的告警次数大于或等于预设次数,则可以说明目标域名连续多次触发正常告警,为了降低该域名占用告警处理终端的资源以及避免出现无效告警,将目标域名更新至域名屏蔽列表,从而减少误报的情况,提高告警的准确性。同时屏蔽对该域名的告警,还可以避免告警对正常业务的干扰。
步骤S14,获取业务告警原因对应的发送策略,并按照发送策略发送业务告警原因。
在一些可选的实施方式中,获取业务告警原因对应的发送策略,并按照发送策略发送业务告警原因,包括:检测业务告警原因携带的目标告警类型是否属于异常告警类型,异常告警类型包括CDN类型和源站类型。若目标告警类型属于异常告警类型,则基于异常告警类型与接收方设备之间的映射关系,确定目标告警类型对应的目标接收方设备。向目标接收方设备发送业务告警原因。
示例性的,异常告警类型与接收方设备之间的映射关系可以为:如图3所示,告警类型为CDN类型,业务告警原因为X1,接收方设备Y1。告警类型为CDN类型,业务告警原因为X2,接收方设备Y2。告警类型为源站类型,业务告警原因为M1,接收方设备N1。告警类型为CDN类型,业务告警原因为M2,接收方设备N2。
本公开实施例通过检测告警类型和映射关系,自动确定目标接收方设备,无需人工干预,减少了手动操作的时间和错误。同时根据告警类型和映射关系,精确确定目标接收方设备,确保告警信息能够及时发送到正确的设备,提高了告警处理的准确性。另外,通过自动确定目标接收方设备并发送告警,能够快速将告警信息传达给相应的设备,实现快速响应和处理,提高了故障排查和修复的效率。
本公开实施例利用检测数据实时检测业务状态,能够快速判断是否需要执行业务告警,通过原因分析数据能够准确定位业务告警的原因,便于快速定位问题,提高故障处理效率。即使面对海量的业务告警,能够准确识别真正的报警原因,避免了误报和漏报,提高业务告警的处理率和准确性。另外按照发送策略发送业务告警原因,有利于保证业务运行的稳定性。
在一些可选的实施方式中,方法还包括:若业务告警原因中未携带告警类型以及告警原因,则获取预设接收方设备;向预设接收方设备发送告警提示信息。
在本公开实施例中,如果业务告警原因中未携带告警类型以及告警原因,则说明业务告警原因分析超时,此时按照默认配置的预设接收方设备发送告警是信息,从而保证运维人员能够快进行处理。
在本实施例中还提供了一种基于CDN的业务告警处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种基于CDN的业务告警处理装置,如图4所示,包括:
获取模块41,用于获取目标域名对应的检测数据以及原因分析数据,所述检测数据是根据CDN节点对应客户端对目标域名的访问行为进行检测得到的,所述原因分析数据是根据所述访问行为以及所述CDN节点的节点性能数据得到的;
确定模块42,用于利用检测数据确定是否执行目标域名对应的业务告警;
分析模块43,用于若确定执行目标域名对应的业务告警,则利用原因分析数据确定业务告警原因;
发送模块44,用于获取业务告警原因对应的目标接收方设备,并向目标接收方设备发送业务告警原因。
在一些可选的实施方式中,确定模块42,用于查询域名屏蔽列表;若目标域名不属于域名屏蔽列表,则从检测数据中提取各个预设指标对应的访问行为数据;获取目标域名对应的告警检测策略,告警检测策略包括各个预设指标对应的告警条件;将预设指标对应的访问行为数据与告警条件进行匹配,确定是否执行目标域名对应的业务告警。
在一些可选的实施方式中,确定模块42,用于若预设指标对应的访问行为数据命中告警条件,则确定执行目标域名对应的业务告警;或,若预设指标对应的访问行为数据未命中告警条件,则确定不执行目标域名对应的业务告警。
在一些可选的实施方式中,分析模块43,用于从原因分析数据中提取预设指标对应的指标变化情况;获取目标域名对应的告警分析策略,告警分析策略包括多个告警类型以及告警类型关联的多个判定条件,每个预设指标对应至少一个判定条件;将预设指标对应的指标变化情况与相应的判定条件进行匹配;若预设指标对应的指标变化情况命中相应的判定条件,则将命中的判定条件确定为目标判定条件;从告警分析策略中获取目标判定条件对应的目标告警类型,并获取产生目标告警类型的异常问题;基于目标告警类型以及异常问题生成业务告警原因。
在一些可选的实施方式中,业务告警的处理还包括:更新模块,用于检测目标告警类型是否属于正常告警类型;若目标告警类型属于正常告警类型,则查询历史告警记录;从历史告警记录中获取目标域名对应的正常告警类型的告警次数;若告警次数大于或等于预设次数,则将目标域名更新至域名屏蔽列表。
在一些可选的实施方式中,发送模块44,用于检测业务告警原因携带的目标告警类型是否属于异常告警类型,异常告警类型包括CDN类型和源站类型;若目标告警类型属于异常告警类型,则基于异常告警类型与接收方设备之间的映射关系,确定目标告警类型对应的目标接收方设备;向目标接收方设备发送业务告警原因。
在一些可选的实施方式中,装置还包括:提示模块,用于若业务告警原因中未携带告警类型以及告警原因,则获取预设接收方设备;向预设接收方设备发送告警提示信息。
请参阅图5,图5是本公开可选实施例提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种小程序落地页的展现的计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本公开实施例还提供了一种计算机可读存储介质,上述根据本公开实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本公开的实施例,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种基于CDN的业务告警处理方法,其特征在于,所述方法包括:
获取目标域名对应的检测数据以及原因分析数据,所述检测数据是根据CDN节点对应客户端对目标域名的访问行为进行检测得到的,所述原因分析数据是根据所述访问行为以及所述CDN节点的节点性能数据得到的;
利用所述检测数据确定是否执行所述目标域名对应的业务告警;
若确定执行所述目标域名对应的业务告警,则利用所述原因分析数据确定业务告警原因;
获取所述业务告警原因对应的发送策略,并按照所述发送策略发送所述业务告警原因。
2.根据权利要求1所述的方法,其特征在于,所述利用所述检测数据确定是否执行所述目标域名对应的业务告警,包括:
查询域名屏蔽列表;
若所述目标域名不属于所述域名屏蔽列表,则从所述检测数据中提取各个预设指标对应的访问行为数据;
获取所述目标域名对应的告警检测策略,所述告警检测策略包括各个预设指标对应的告警条件;
将所述预设指标对应的访问行为数据与所述告警条件进行匹配,确定是否执行所述目标域名对应的业务告警。
3.根据权利要求2所述的方法,其特征在于,所述将所述预设指标对应的访问行为数据与所述告警条件进行匹配,确定是否执行所述目标域名对应的业务告警,包括:
若所述预设指标对应的访问行为数据命中所述告警条件,则确定执行所述目标域名对应的业务告警;或,
若所述预设指标对应的访问行为数据未命中所述告警条件,则确定不执行所述目标域名对应的业务告警。
4.根据权利要求2所述的方法,其特征在于,所述利用所述原因分析数据确定业务告警原因,包括:
从所述原因分析数据中提取所述预设指标对应的指标变化情况;
获取所述目标域名对应的告警分析策略,所述告警分析策略包括多个告警类型以及所述告警类型关联的多个判定条件,每个预设指标对应至少一个判定条件;
将所述预设指标对应的指标变化情况与相应的判定条件进行匹配;
若所述预设指标对应的指标变化情况命中相应的判定条件,则将命中的判定条件确定为目标判定条件;
从所述告警分析策略中获取所述目标判定条件对应的目标告警类型,并获取产生所述目标告警类型的异常问题;
基于所述目标告警类型以及所述异常问题生成所述业务告警原因。
5.根据权利要求4所述的方法,其特征在于,在从所述告警分析策略中获取所述目标判定条件对应的目标告警类型之后,所述方法还包括:
检测所述目标告警类型是否属于正常告警类型;
若所述目标告警类型属于正常告警类型,则查询历史告警记录;
从所述历史告警记录中获取所述目标域名对应的正常告警类型的告警次数;
若所述告警次数大于或等于预设次数,则将所述目标域名更新至所述域名屏蔽列表。
6.根据权利要求1所述的方法,其特征在于,所述获取所述业务告警原因对应的发送策略,并按照所述发送策略发送所述业务告警原因,包括:
检测所述业务告警原因携带的目标告警类型是否属于异常告警类型,所述异常告警类型包括CDN类型和源站类型;
若所述目标告警类型属于异常告警类型,则基于所述异常告警类型与接收方设备之间的映射关系,确定所述目标告警类型对应的目标接收方设备;
向所述目标接收方设备发送所述业务告警原因。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述业务告警原因中未携带告警类型以及告警原因,则获取预设接收方设备;
向所述预设接收方设备发送告警提示信息。
8.一种基于CDN的业务告警处理装置,其特征在于,所述装置包括:
获取模块,用于获取目标域名对应的检测数据以及原因分析数据,所述检测数据是根据CDN节点对应客户端对目标域名的访问行为进行检测得到的,所述原因分析数据是根据所述访问行为以及所述CDN节点的节点性能数据得到的;
确定模块,用于利用所述检测数据确定是否执行所述目标域名对应的业务告警;
分析模块,用于若确定执行所述目标域名对应的业务告警,则利用所述原因分析数据确定业务告警原因;
发送模块,用于获取所述业务告警原因对应的目标接收方设备,并向所述目标接收方设备发送所述业务告警原因。
9.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的方法。
CN202311511663.5A 2023-11-14 2023-11-14 一种基于cdn的业务告警处理方法、装置、设备及介质 Active CN117255005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311511663.5A CN117255005B (zh) 2023-11-14 2023-11-14 一种基于cdn的业务告警处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311511663.5A CN117255005B (zh) 2023-11-14 2023-11-14 一种基于cdn的业务告警处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN117255005A CN117255005A (zh) 2023-12-19
CN117255005B true CN117255005B (zh) 2024-02-02

Family

ID=89131625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311511663.5A Active CN117255005B (zh) 2023-11-14 2023-11-14 一种基于cdn的业务告警处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117255005B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105656699A (zh) * 2016-03-29 2016-06-08 网宿科技股份有限公司 内容分发网络的告警管理方法及系统
CN111294412A (zh) * 2018-12-06 2020-06-16 贵州白山云科技股份有限公司 一种针对内容分发网络节点服务器异常的处理方法及装置
CN112312209A (zh) * 2020-10-30 2021-02-02 中移(杭州)信息技术有限公司 综合告警生成方法、装置、服务器、存储介质
US11044533B1 (en) * 2017-06-02 2021-06-22 Conviva Inc. Automatic diagnostics alerts
CN114363151A (zh) * 2022-01-07 2022-04-15 北京金山云网络技术有限公司 故障检测方法和装置、电子设备和存储介质
US11336506B1 (en) * 2018-05-31 2022-05-17 Conviva Inc. Automatic diagnostics alerts for streaming content encoded by multiple entities
CN115333917A (zh) * 2021-04-26 2022-11-11 华为云计算技术有限公司 一种cdn异常检测方法及装置
CN115941432A (zh) * 2021-06-16 2023-04-07 北京字跳网络技术有限公司 域名报警信息发送方法、装置、电子设备及计算机可读存储介质
CN116248473A (zh) * 2021-12-08 2023-06-09 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105656699A (zh) * 2016-03-29 2016-06-08 网宿科技股份有限公司 内容分发网络的告警管理方法及系统
US11044533B1 (en) * 2017-06-02 2021-06-22 Conviva Inc. Automatic diagnostics alerts
US11336506B1 (en) * 2018-05-31 2022-05-17 Conviva Inc. Automatic diagnostics alerts for streaming content encoded by multiple entities
CN111294412A (zh) * 2018-12-06 2020-06-16 贵州白山云科技股份有限公司 一种针对内容分发网络节点服务器异常的处理方法及装置
CN112312209A (zh) * 2020-10-30 2021-02-02 中移(杭州)信息技术有限公司 综合告警生成方法、装置、服务器、存储介质
CN115333917A (zh) * 2021-04-26 2022-11-11 华为云计算技术有限公司 一种cdn异常检测方法及装置
CN115941432A (zh) * 2021-06-16 2023-04-07 北京字跳网络技术有限公司 域名报警信息发送方法、装置、电子设备及计算机可读存储介质
CN116248473A (zh) * 2021-12-08 2023-06-09 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN114363151A (zh) * 2022-01-07 2022-04-15 北京金山云网络技术有限公司 故障检测方法和装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN117255005A (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
US7640460B2 (en) Detect user-perceived faults using packet traces in enterprise networks
US10931730B2 (en) Method and system for ISP network performance monitoring and fault detection
CN109714209B (zh) 一种网站访问故障的诊断方法及系统
CN112422344A (zh) 日志异常的告警方法、装置、存储介质及电子装置
CN113472607B (zh) 应用程序网络环境检测方法、装置、设备及存储介质
US20170187583A1 (en) SLA Compliance Determination with Real User Monitoring
CN107864063A (zh) 一种异常监控方法、装置及电子设备
CN109995555B (zh) 监控方法、装置、设备及介质
US10742672B2 (en) Comparing metrics from different data flows to detect flaws in network data collection for anomaly detection
CN114363151A (zh) 故障检测方法和装置、电子设备和存储介质
CN114598506B (zh) 工控网络安全风险溯源方法、装置、电子设备及存储介质
CN111526109B (zh) 自动检测web威胁识别防御系统的运行状态的方法及装置
CN112104523B (zh) 流量透传的检测方法、装置、设备及存储介质
CN114327967A (zh) 设备修复方法及装置、存储介质、电子装置
CN117255005B (zh) 一种基于cdn的业务告警处理方法、装置、设备及介质
CN115987827B (zh) 一种设备监测方法、装置、电子设备及可读介质
CN111385157B (zh) 一种服务器异常检测方法及装置
US11153769B2 (en) Network fault discovery
CN110943864A (zh) 分布式存储系统的网络异常定位方法及装置
JP2009199556A (ja) 通信監視装置、通信監視方法、コンピュータプログラム、そのシステム
CN115835275A (zh) 一种5g cpe故障诊断的方法及装置
AT&T
CN114443478A (zh) 场景测试方法、服务降级方法、装置以及存储介质
CN111261271B (zh) 一种针对视频监控环境的业务可用性诊断方法及装置
CN111708689B (zh) 一种修改ab实验的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant