CN107888452B - 一种24小时分布式网站性能监测和实时告警方法 - Google Patents

一种24小时分布式网站性能监测和实时告警方法 Download PDF

Info

Publication number
CN107888452B
CN107888452B CN201711190511.4A CN201711190511A CN107888452B CN 107888452 B CN107888452 B CN 107888452B CN 201711190511 A CN201711190511 A CN 201711190511A CN 107888452 B CN107888452 B CN 107888452B
Authority
CN
China
Prior art keywords
data
monitoring
task
website
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711190511.4A
Other languages
English (en)
Other versions
CN107888452A (zh
Inventor
熊杰
石涵
刘欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Knownsec Information Technology Co ltd
Original Assignee
Chengdu Knownsec Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Knownsec Information Technology Co ltd filed Critical Chengdu Knownsec Information Technology Co ltd
Priority to CN201711190511.4A priority Critical patent/CN107888452B/zh
Publication of CN107888452A publication Critical patent/CN107888452A/zh
Application granted granted Critical
Publication of CN107888452B publication Critical patent/CN107888452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种24小时分布式网站性能监测和实时告警方法,通过集中式任务调度引擎,将已有的监控任务按照其配置的数据,增量地调度下发到各监测节点,各节点接收到任务之后将周期性地模拟普通用户,对目标网站发起访问请求,记录关键访问数据。各个监测点将监控产生的这些数据打包,传输到数据处理中心。数据处理中心将收到的数据进行分析,根据任务的配置数据(如告警时间的阈值、异常状态码等)判断,若触发了阈值,则向网站管理人员发送告警。同时数据将被存储到数据库,网站管理员期通过对数据的观察和分析,可对网站进行针对性改进,优化网站性能,提高服务质量。

Description

一种24小时分布式网站性能监测和实时告警方法
技术领域
本发明涉及网站安全监控领域,特别是一种24小时分布式网站性能监测和实时告警方法。
背景技术
现有技术中,例如一种基于云架构的网站安全监控方法(201410003385.0),其实施方案是通过任务中心的分发系统,定期将全量任务分发到监控节点对目标网站进行安全监控。若产生监控设置的固定的安全事件(如DNS异常解析)则发出提示消息。其存在以下不足:1、任务分发系统周期性的分发任务到各节点,若周期时间过长,则在较长的时间内无法对目标网站进行有效监控,若周期过短,则同时对大量任务进行分发易造成任务分发压力过大,无法有效分发到监控节点,易产生大量无效监控。2、该方案处理的是各类可能出现的安全事件的安全监控,而没有对网站的访问性能作高频监测,无法对网站的服务质量提升。3、监控产生的各项数据没有进行存储,对历史数据无法有限追踪。
URL:Uniform Resource Locator,统一资源定位符,一种对互联网上的资源位置的表示方法。
DNS:Domain Name System域名系统,可通过该系统将域名转换为IP地址。
源站IP:网站所在的真实服务器IP,部分使用CDN的网站,由DNS解析获取的IP不一定是其真实服务器IP。
发明内容
本发明所要解决的技术问题提供一种24小时分布式网站性能监测和实时告警方法,通过分布式多个节点的周期性网站监测,同时对海量网站按照监测周期进行24小时不间断监测,并通过多种网站异常告警阈值,进行实时告警。通过通过多维度的监测数据,降低网站性能分析的难度。
为解决上述技术问题,本发明采用的技术方案是:
一种24小时分布式网站性能监测和实时告警方法,包括以下步骤:
步骤1:对网站URL进行基本任务配置,包括以下配置项:URL、HTTP请求方法、HTTP请求头、网站源站IP、Cookie、监测频率、分布式监测点列表、请求响应时间阈值、异常节点阈值以及接收告警信息的邮箱地址;
步骤2:在完成基本任务配置之后,将任务数据存储到数据库内,并通知任务调度引擎;
步骤3:任务调度引擎接收到通知后,从数据库内获取任务配置数据;根据任务的监测频率计算出任务执行的随机起始时刻,然后根据任务的分布式监测点,将添加的任务和其配置数据通过网络请求批量发送到各个分布式监测点的执行引擎;
步骤4:各个任务执行引擎接收到数据后,按照步骤3计算出来的随机起始时刻执行任务,模拟用户请求,对目标URL发起请求;
若任务配置项内设置了源站IP,则不对域名进行DNS解析,直接访问源站IP;若无此项配置,则进行DNS解析后访问URL对应的服务器;将配置中设置的HTTP请求方法、HTTP请求头和Cookie作为访问条件发起监测;执行引擎将周期性地不断执行所有分配在该监测点的任务,实现24小时不间断的分布式网站监测;
步骤5:单个任务单次监测完成后,执行引擎将监测数据打包发到监测点上的数据批量回传引擎,由回传引擎将大量的监测数据打包后通过网络请求,将数据统一发送到数据处理和告警中心的数据队列中;
步骤6:消息队列不断接收由各个监测点发送的数据,按照接收时间的先后依次将数据临时存储;
步骤7:对每个任务每个时刻的异常节点数进行计数,初始将其置为0,即初始无异常监测点;
步骤8:不断将数据从队列中逐条取出,解包后形成多个任务单次监测数据组成的数据表,开始依次处理数据,计算访问产生的总耗时;
若总耗时已经超过配置的阈值、或HTTP状态码超过500、或访问失败、或无返回结果,则判断当次访问是否异常,若异常则对该任务在这个时刻的异常访问计数加1;
对加1后的值与配置中异常监测点告警阈值进行比较,若已达到监测点告警阈值,则将监测点信息、异常原因、异常探测时间汇总发送给告警中心;若未达到阈值,则将加1后的数据更新到计数步骤;若将单个任务在某一时刻所有监测点都处理完成后,依然未达到阈值,则网站状态正常;
步骤9:当接收到告警信息,则发送实时告警信息到设置的邮箱,以实现实时告警。
进一步的,所述步骤4中,请求过程为减少偶然异常的干扰,对监测过程增加重试机制,即本次监测结束后,任务将在计算出的下一次任务执行时间再次发起监测。
进一步的,所述步骤8还包括:将每次处理后的数据,包括DNS解析耗时、多节点平均响应时间、内容下载时间都存入到持久化数据库。
与现有技术相比,本发明的有益效果是:现有的网站性能监测方法大多数对单个网站进行高频监测,或是对大量网站进行低频的单次监测。而本方面方法利用分布式的多个监测节点,将大量网站的监测任务按照配置分配到各个节点,每个任务都可在多个监测点同时进行24小时的性能监测,且通过数据分析处理和实时告警模块,对监测到的大量有效监测数据进行分析后,进行实时的告警通知。解决了网站性能监测方案中准确性低、实效性差、数据项少的问题,帮助网站管理员快速处理网站异常,提升网站服务质量。
附图说明
图1是本发明24小时分布式网站性能监测和实时告警方法整体构架示意图。
图2是本发明24小时分布式网站性能监测和实时告警方法数据处理与告警示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明方法可以有效地找出目标网站在不同时间、不同区域和不同网络运营商的异常访问,产生实时的告警信息通知到网站管理员,便于网站管理员解决紧急问题,另外通过监测产生的周期性数据优化网站的性能,提升网站服务质量。
本发明通过集中式任务调度引擎,将已有的监控任务按照其配置的数据,增量地调度下发到各监测节点,各节点接收到任务之后将周期性地模拟普通用户,对目标网站发起访问请求,记录关键访问数据(如DNS解析耗时、DNS解析地址、网站服务器连接耗时、网站内容下载耗时,网站访问速度、网站返回HTTP状态码、网站响应头信息)。各个监测点将监控产生的这些数据打包,传输到数据处理中心。
数据处理中心将收到的数据进行分析,根据任务的配置数据(如告警时间的阈值、异常状态码等)判断,若触发了阈值,则向网站管理人员发送告警(如邮件、手机短信等方式)。同时数据将被存储到数据库,网站管理员期通过对数据的观察和分析,可对网站进行针对性改进,优化网站性能,提高服务质量。
详述如下:
一、本发明分为配置系统、调度分发引擎、分布式任务执行引擎、数据处理和告警中心以及展示系统,其结构图1所示。
二、任务配置
任务配置系统内,对网站URL进行基本配置,包括以下配置项:URL、HTTP请求方法、HTTP请求头、网站源站IP、Cookie、监测频率、分布式监测点列表、请求响应时间阈值、异常节点阈值、接收告警信息的邮箱地址。配置系统在完成任务配置之后,将任务数据存储到数据库内,并通知任务调度引擎。
三、任务调度和下发
调度引擎接收到通知后,从数据库内获取任务配置数据。根据任务的监测频率,计算出任务执行的随机起始时刻,避免监测点接收到大量需要在同一时刻执行的任务,引起的监测点服务器压力过大,无法模拟出真实的用户访问;然后根据任务的分布式监测点,将添加的任务和其配置数据通过网络请求批量发送到各个分布式监测点的执行引擎,避免了在任务数量巨大的情况下,任务分发不及时和部分任务分发失败的情况。
四、分布式节点监测和数据返回
各个任务执行引擎接收到数据后,按照前述计算出来的随机起始时刻执行任务,模拟用户请求,对目标URL发起请求。
若任务配置项内设置了源站IP,则不对域名进行DNS解析,直接访问源站IP;若无此项配置,则进行DNS解析后访问URL对应的服务器。将配置中设置的HTTP请求方法、HTTP请求头和Cookie等配置作为访问条件发起监测。
请求过程为减少偶然异常的干扰,对监测过程增加重试机制。如在某时刻,执行引擎需要对网站A发起监测,由于监测点或者骨干网局部网络抖动,访问A网站失败,引擎将再次发起探测,避免因非常规性异常产生的监测误报。若连续3次监测都异常,则停止监测,记录最后一次的访问数据。本次监测结束后,任务将在计算出的下一次任务执行时间再次发起监测。而执行引擎将周期性地不断执行所有分配在该监测点的任务,实现24小时不间断的分布式网站监测。
单个任务单次监测完成后,执行引擎将监测数据打包发到监测点上的数据批量回传引擎,由回传引擎将大量的监测数据打包后通过网络请求,将数据统一发送到数据处理和告警中心的数据队列中。
五、数据处理和告警
数据处理中心分为4个模块,分别是用于数据中转和临时存储的kafak消息队列,和用于记录每个独立任务的异常次数的计数模块,数据处理的处理模块和发送告警消息的告警模块。
消息队列不断接收由各个监测点发送的数据,按照接收时间的先后依次将数据临时存储。消息队列作为数据中转站,可有效避免在某个时间段大量数据集中回传而对数据处理程序压力过大,无法处理后续数据的问题。
计数模块对每个任务每个时刻的异常节点数进行计数,初始将其置为0,即初始无异常监测点。
数据处理模块则不断将数据从队列中逐条取出,解包后形成多个任务单次监测数据组成的数据表,开始依次处理数据。处理模块计算访问产生的总耗时,若总耗时已经超过配置的阈值、或HTTP状态码超过500、或者访问失败,无返回结果等标准,判断当次访问是否异常。若异常则对该任务在这个时刻的异常访问计数加1,对加1后的值与配置中异常监测点告警阈值进行比较,若已达到监测点告警阈值则将监测点信息、异常原因、异常探测时间等信息汇总发送给告警模块;若未达到阈值,则将加1后的数据更新到计算模块内。若将单个任务在某一时刻所有监测点都处理完成后,依然未达到阈值,则网站状态正常。
告警模块接收到告警信息,将发送实时告警信息到设置的邮箱,以实现实时告警。
同时处理模块将每次分析处理后的数据,如DNS解析耗时、多节点平均响应时间、内容下载时间等都存入到持久化数据库。根据不同监测点DNS解析耗时,耗时越多,该网站的DNS解析质量越差,网站性能越差。正常情况下大部分网站DNS解析耗时都小于1秒,若网站A在某市电信网访问下DNS耗时超过2秒,则说明该网站在北京电信下性能较差。同理可根据其他数据分析出网站在哪些区域和运营商的网络下,出现异常情况。
通过多节点大规模对海量网站进行24小时分布式周期性的访问性能监测,并发送实时告警通知,帮助技术人员及时了解网站异常,有效地减少了技术人员解决异常的时间。

Claims (2)

1.一种24小时分布式网站性能监测和实时告警方法,其特征在于,包括以下步骤:
步骤1:对网站URL进行基本任务配置,包括以下配置项:URL、HTTP请求方法、HTTP请求头、网站源站IP、Cookie、监测频率、分布式监测点列表、请求响应时间阈值、异常节点阈值以及接收告警信息的邮箱地址;
步骤2:在完成基本任务配置之后,将任务数据存储到数据库内,并通知任务调度引擎;
步骤3:任务调度引擎接收到通知后,从数据库内获取任务配置数据;根据任务的监测频率计算出任务执行的随机起始时刻,然后根据任务的分布式监测点,将添加的任务和其配置数据通过网络请求批量发送到各个分布式监测点的执行引擎;
步骤4:各个任务执行引擎接收到数据后,按照步骤3计算出来的随机起始时刻执行任务,模拟用户请求,对目标URL发起请求;
若任务配置项内设置了源站IP,则不对域名进行DNS解析,直接访问源站IP;若无此项配置,则进行DNS解析后访问URL对应的服务器;将配置中设置的HTTP请求方法、HTTP请求头和Cookie作为访问条件发起监测;执行引擎将周期性地不断执行所有分配在该监测点的任务,实现24小时不间断的分布式网站监测;
步骤5:单个任务单次监测完成后,执行引擎将监测数据打包发到监测点上的数据批量回传引擎,由回传引擎将大量的监测数据打包后通过网络请求,将数据统一发送到数据处理和告警中心的数据队列中;
步骤6:消息队列不断接收由各个监测点发送的数据,按照接收时间的先后依次将数据临时存储;
步骤7:对每个任务每个时刻的异常节点数进行计数,初始将其置为0,即初始无异常监测点;
步骤8:不断将数据从队列中逐条取出,解包后形成多个任务单次监测数据组成的数据表,开始依次处理数据,计算访问产生的总耗时;
若总耗时已经超过配置的阈值、或HTTP状态码超过500、或访问失败、或无返回结果,则判断当次访问是否异常,若异常则对该任务在这个时刻的异常访问计数加1;
对加1后的值与配置中异常监测点告警阈值进行比较,若已达到监测点告警阈值,则将监测点信息、异常原因、异常探测时间汇总发送给告警中心;若未达到阈值,则将加1后的数据更新到计数步骤;若将单个任务在某一时刻所有监测点都处理完成后,依然未达到阈值,则网站状态正常;
将每次处理后的数据,包括DNS解析耗时、多节点平均响应时间、内容下载时间都存入到持久化数据库;
步骤9:当接收到告警信息,则发送实时告警信息到设置的邮箱,以实现实时告警。
2.如权利要求1所述的一种24小时分布式网站性能监测和实时告警方法,其特征在于,所述步骤4中,请求过程为减少偶然异常的干扰,对监测过程增加重试机制,即本次监测结束后,任务将在计算出的下一次任务执行时间再次发起监测。
CN201711190511.4A 2017-11-24 2017-11-24 一种24小时分布式网站性能监测和实时告警方法 Active CN107888452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711190511.4A CN107888452B (zh) 2017-11-24 2017-11-24 一种24小时分布式网站性能监测和实时告警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711190511.4A CN107888452B (zh) 2017-11-24 2017-11-24 一种24小时分布式网站性能监测和实时告警方法

Publications (2)

Publication Number Publication Date
CN107888452A CN107888452A (zh) 2018-04-06
CN107888452B true CN107888452B (zh) 2021-04-02

Family

ID=61774864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711190511.4A Active CN107888452B (zh) 2017-11-24 2017-11-24 一种24小时分布式网站性能监测和实时告警方法

Country Status (1)

Country Link
CN (1) CN107888452B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109254896A (zh) * 2018-08-31 2019-01-22 北京奇虎科技有限公司 引擎监控数据的获取方法、装置、终端设备及存储介质
CN109347665A (zh) * 2018-10-07 2019-02-15 杭州安恒信息技术股份有限公司 一种基于web日志的网站可用性告警方法及其系统
CN110971444B (zh) * 2019-10-09 2023-04-07 中移(杭州)信息技术有限公司 告警管理方法、装置、服务器及存储介质
CN112116790B (zh) * 2020-08-13 2024-04-12 广州市中海达测绘仪器有限公司 一种基于流式框架的cors预警监控系统
CN112202631A (zh) * 2020-09-17 2021-01-08 北京金山云网络技术有限公司 一种资源访问方法、装置、系统、电子设备及存储介质
CN113791943A (zh) * 2020-11-12 2021-12-14 北京沃东天骏信息技术有限公司 网站实时监控方法、系统、设备及存储介质
CN113010372A (zh) * 2020-12-08 2021-06-22 云智慧(北京)科技有限公司 一种api监控的分布式实现方法和系统
CN113992378B (zh) * 2021-10-22 2023-11-07 绿盟科技集团股份有限公司 一种安全监测方法、装置、电子设备及存储介质
CN115333920B (zh) * 2022-08-12 2024-04-23 北京天融信网络安全技术有限公司 告警测试的方法、装置、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624570A (zh) * 2012-04-27 2012-08-01 杭州东信北邮信息技术有限公司 实现对web服务器可用性进行检测的监控系统和方法
CN103685575A (zh) * 2014-01-06 2014-03-26 洪高颖 一种基于云架构的网站安全监控方法
CN104320446A (zh) * 2014-10-14 2015-01-28 上海交通大学 分布式多Agent的网站监控方法和系统
CN105099755A (zh) * 2015-05-29 2015-11-25 北京奇虎科技有限公司 一种监控网站系统性能的方法、设备和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185910B2 (en) * 2008-08-27 2012-05-22 Eric Sven-Johan Swildens Method and system for testing interactions between web clients and networked servers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102624570A (zh) * 2012-04-27 2012-08-01 杭州东信北邮信息技术有限公司 实现对web服务器可用性进行检测的监控系统和方法
CN103685575A (zh) * 2014-01-06 2014-03-26 洪高颖 一种基于云架构的网站安全监控方法
CN104320446A (zh) * 2014-10-14 2015-01-28 上海交通大学 分布式多Agent的网站监控方法和系统
CN105099755A (zh) * 2015-05-29 2015-11-25 北京奇虎科技有限公司 一种监控网站系统性能的方法、设备和系统

Also Published As

Publication number Publication date
CN107888452A (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
CN107888452B (zh) 一种24小时分布式网站性能监测和实时告警方法
CN106940677A (zh) 一种应用日志数据告警方法及装置
CN107864063B (zh) 一种异常监控方法、装置及电子设备
CN112653586A (zh) 基于全链路监控的时空大数据平台应用性能管理方法
CN110535713B (zh) 监控管理系统以及监控管理方法
CN111740868B (zh) 告警数据的处理方法和装置及存储介质
CN104834582A (zh) 一种监控事件展示方法
CN111538563A (zh) 一种对Kubernetes的事件分析方法及装置
CN111585840A (zh) 服务资源监测方法、装置和设备
CN107885634B (zh) 监控中异常信息的处理方法和装置
JP2015076780A (ja) 遅延監視システムおよび遅延監視方法
CN115001989A (zh) 一种设备预警方法、装置、设备及可读存储介质
CN110633191B (zh) 实时监控软件系统业务健康度的方法和系统
EP1145158A2 (en) System for data capture, normalization, data event processing, communication and operator interface
CN115665173B (zh) 一种基于MQ的WebSocket通信方法、系统和存储介质
CN112491622B (zh) 定位业务系统故障根因的方法和系统
US7606745B1 (en) System and method for tracking a billing cycle
CN112131198B (zh) 一种日志分析方法、装置及电子设备
CN115277355A (zh) 一种监控系统状态码数据的处理方法、装置、设备及介质
CN112835780B (zh) 一种业务检测方法及装置
CN114640567A (zh) Apache日志的分析方法及装置
CN109120439B (zh) 分布式集群告警输出方法、装置、设备及可读存储介质
CN112910684B (zh) 一种通过实时流式平台监控重点数据的方法及终端
CN112631866A (zh) 服务器硬件状态监控方法、装置、电子设备及介质
CN107948280A (zh) 一种结合探点和镜像分光流量的监控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 9/F, Block C, No. 28 Tianfu Avenue North Section, Chengdu High tech Zone, China (Sichuan) Pilot Free Trade Zone, Chengdu City, Sichuan Province, 610000

Patentee after: CHENGDU KNOWNSEC INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 610000, 11th floor, building 2, No. 219, Tianfu Third Street, hi tech Zone, Chengdu, Sichuan Province

Patentee before: CHENGDU KNOWNSEC INFORMATION TECHNOLOGY Co.,Ltd.