CN108063699B - 网络性能监控方法、装置、电子设备、存储介质 - Google Patents

网络性能监控方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN108063699B
CN108063699B CN201711460218.5A CN201711460218A CN108063699B CN 108063699 B CN108063699 B CN 108063699B CN 201711460218 A CN201711460218 A CN 201711460218A CN 108063699 B CN108063699 B CN 108063699B
Authority
CN
China
Prior art keywords
monitoring
time period
aggregation number
time
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711460218.5A
Other languages
English (en)
Other versions
CN108063699A (zh
Inventor
华吉春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Information Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Information Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Information Technology Shanghai Co Ltd filed Critical Ctrip Travel Information Technology Shanghai Co Ltd
Priority to CN201711460218.5A priority Critical patent/CN108063699B/zh
Publication of CN108063699A publication Critical patent/CN108063699A/zh
Application granted granted Critical
Publication of CN108063699B publication Critical patent/CN108063699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种网络性能监控方法、装置、电子设备、存储介质,所述方法包括采集应用程序的日志数据;储存监控参数及监控项;获取储存的第一时间段内的监控参数及监控项,以第二时间段对该第一时间段的数据进行分片,各所述第二时间段的分片数据包括N个聚合数集合,所述聚合数集合包括M个以第三时间段为单位对应监控项的聚合数;基于高斯分布进行建模以计算聚合数的期望值μ和标准差σ,将各监控项的聚合数的上限设置为μ+3σ,下限设置为μ‑3σ;根据实时采集按第三时间段对各监控项进行聚合,当各监控项的实时聚合数大于其上限或者小于其下限,则进行告警。本发明提供的方法及装置实现监控阈值的自动设定和自动告警。

Description

网络性能监控方法、装置、电子设备、存储介质
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种网络性能监控方法、装置、电子设备、存储介质。
背景技术
目前APP客户端的使用经常受到网络性能的影响,而针对客户端网络性能的监控往往是通过人工设定阈值进行检测的,但是随着后台接口的增多和客户端区域涉及的越来越广泛,通过人工阈值的办法已经行不通,首先无法适用针对小区域的异常,而且无法针对每个接口和区域进行人工设置,另一方面人工告警无法针对不同的监控维度(区域、运营商等)进行组合,只能监控单一维度的数值。所以应该有一种新的方法,通过配置实现维度任意组合,利用高斯分布等算法,实现自动的检测客户端的网络异常,通过对客户端网络性能的自动监控,有助于检测和分析客户端网络质量。
发明内容
本发明为了克服上述现有技术存在的缺陷,提供一种网络性能监控方法、装置、电子设备、存储介质,以实现监控阈值的自动设定和自动告警。
根据本发明的一个方面,提供一种基于高斯分布的网络性能监控方法,包括:
采集应用程序的日志数据,所述日志数据包括监控参数及关联该监控参数的N个监控项,N为大于的整数;
储存所述监控参数及关联该监控参数的N个监控项;
获取储存的第一时间段内的监控参数及关联该监控参数的N个监控项,以第二时间段对该第一时间段的数据进行分片,各所述第二时间段的分片数据包括N个聚合数集合,一聚合数集合对应一监控项,所述聚合数集合包括M个以第三时间段为单位对应监控项的聚合数,其中第一时间段大于第二时间段,第二时间段为第三时间段的M倍,M为大于1的整数;
基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ,将各监控项的聚合数的上限设置为μ+3σ,将各监控项的聚合数的下限设置为μ-3σ;
根据实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合,当各监控项的实时聚合数大于其上限或者小于其下限,则进行告警。
可选地,基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ还包括:
对各聚合数集合,统计该聚合数集合中各聚合数大于其上限或者小于其下限的越界次数集合,根据越界次数集合的平均越界次数计算越界次数阈值;
所述根据实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合,当各监控项的实时聚合数大于其上限或者小于其下限,则进行告警还包括:
当各监控项的实时聚合数大于其上限或者小于其下限,且实时聚合数的越界次数大于所述越界次数阈值,则进行告警。
可选地,所述越界次数阈值包括第一越界次数阈值和第二越界次数阈值,所述对各聚合数集合,统计该聚合数集合中各聚合数大于其上限或者小于其下限的越界次数集合,根据越界次数集合计算越界次数阈值包括:
对各聚合数集合,统计该聚合数集合中各聚合数大于其上限的第一越界次数集合{p1,p2,...pT},根据第一越界次数集合的平均越界次数计算第一越界次数阈值;
对各聚合数集合,统计该聚合数集合中各聚合数小于其下限的第二越界次数集合{q1,q2,...qT},根据第二越界次数集合的平均越界次数计算第二越界次数阈值。
可选地,所述第一时间段为所述第二时间段的T倍。
可选地,所述第一时间段共T天,所述第二时间段为第一时间段每一天的固定时间段,且所述根据实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合还包括:
根据第一时间段外的固定时间段实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合。
可选地,基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ包括:
基于N维高斯分布对每个第二时间段的分片数据进行建模以获得每个监控项在第三时间段内的聚合数的准期望值集合{μ1,μ2,...μT}和准标准差集合{σ1,σ2,...σT},其中,T为大于1的整数;
将准期望值集合{μ1,μ2,...μT}的平均期望值作为每个监控项在第三时间段内的聚合数的期望值μ;
将准标准差集合{σ1,σ2,...σT}的平均标准差作为每个监控项在第三时间段内的聚合数的标准差σ。
可选地,基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ包括:
基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ。
可选地,所述N为2时,二维高斯分布的函数为:
Figure GDA0002578219960000031
其中,x,y分别为2个监控项的聚合数,f(x,y)为2个监控项的聚合数值分别为x,y的概率,ρ为大于-1小于1的常数,μ1和σ1为一监控项的聚合数的期望值和标准差,μ2和σ2为另一监控项的聚合数的期望值和标准差。
根据本发明的又一方面,还提供一种基于高斯分布的网络性能监控装置,包括:
采集模块,用于采集应用程序的日志数据,所述日志数据包括监控参数及关联该监控参数的N个监控项,N为大于1的整数;
储存模块,用于储存所述监控参数及关联该监控参数的N个监控项;
分片模块,用于获取储存的第一时间段内的监控参数及关联该监控参数的N个监控项,以第二时间段对该第一时间段的数据进行分片,各所述第二时间段的分片数据包括N个聚合数集合,一聚合数集合对应一监控项,所述聚合数集合包括M个以第三时间段为单位对应监控项的聚合数,其中第一时间段大于第二时间段,第二时间段为第三时间段的M倍,M为大于1的整数;
分析模块,用于基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ,将各监控项的聚合数的上限设置为μ+3σ,将各监控项的聚合数的下限设置为μ-3σ;
告警模块,用于根据实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合,当各监控项的实时聚合数大于其上限或者小于其下限,则进行告警。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
相比现有技术,本发明的优势在于:
通过自动对应用程序网络性能的监控,可以针对影响应用程序网络性能的各项指标进行有效的监控和告警,一方面自动告警的覆盖面非常高,自动告警准确度的提升也有效的帮助了运维人员及时发现接口问题或者用户所在区域的网络环境问题,可以及时处理和解决,无需等待用户的反馈。另一方面,自动告警释放了人工设置阈值带来的工作量,提高了运维人员的工作效率,同时也保证了整个应用程序对用户服务的质量。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的网络性能监控方法的流程图。
图2示出了根据本发明实施例的越界次数阈值计算的流程图。
图3示出了根据本发明实施例的网络性能监控装置的示意图。
图4示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
图5示意性示出本公开示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
为了解决现有技术的缺陷,实现监控阈值的自动设定和自动告警,本发明提供一种网络性能监控方法、装置、电子设备、存储介质。
下面结合图1说明本发明提供的网络性能监控方法。图1示出如下步骤:
步骤S110:采集应用程序的日志数据,所述日志数据包括监控参数及关联该监控参数的N个监控项,N为大于1的整数。
具体而言,步骤S110通过实时对例如APP客户端的应用程序的日志数据进行采集,根据配置的所需监控的类型、采集频率、采集语句、解析方式等,对客户端日志进行对应的采集以及解析出生成监控项和对应的数值。例如根据日志中的数据计算出不同区域、网络类型、运营商维度的请求大小、请求时长、HTTPCODE、异常次数等监控项,并计算出对应的数值。
步骤S110通过采集配置,一方面实现了监控不同维度的任意扩展,当运维人员需要采集那个维度的组合时,只要通过配置就可以实现,比如“城市+运营商+网络类型”这个维度,另一方面可以自动的、便捷的实现对客户端日志的采集、数据的聚合以及解析,方便了采集配置的管理,提高了可维护性。
例如:
{"query":{"size":1,"query":{"bool":{"must":[{"range":{"@timestamp":{"from":"@startTime","to":"@endTime"}}}]}},"aggs":{"logType":{"terms":{"field":"logType","size":5},"aggs":{"city":{"terms":{"field":"city","size":1000},"aggs":{"operator":{"terms":{"field":"operator","size":50},"aggs":{"netType":{"terms":{"field":"netType","size":50},"aggs":{"requestTime":{"avg":{"field":"requestTime"}}}}}}}}}}}},"template":{"aggregations":{"logType":{"buckets":[{"field":"logType","city":{"buckets":[{"field":"city","operator":{"buckets":[{"field":"operator","netType":{"buckets":[{"field":"netType","last_value":"requestTime"}]}}]}}]}}]}}}}
通过该配置实现了对客户端日志平均请求时长(requestTime)的采集以及按照城市、运营商、网络类型进行聚合统计。
步骤S120:储存所述监控参数及关联该监控参数的N个监控项。
具体而言,步骤S120将步骤S110采集的数据储存到例如NOSQL(非关系型数据库)的时间序列数据库中。
步骤S130:获取储存的第一时间段内的监控参数及关联该监控参数的N个监控项,以第二时间段对该第一时间段的数据进行分片,各所述第二时间段的分片数据包括N个聚合数集合,一聚合数集合对应一监控项,所述聚合数集合包括M个以第三时间段为单位对应监控项的聚合数,其中第一时间段大于第二时间段,第二时间段为第三时间段的M倍,M为大于1的整数。
具体而言,聚合可在步骤S110的采集步骤中执行,也可在步骤S130中执行。
在一些实施例中,第一时间段为所述第二时间段的T倍。换言之,第二时间段为第一时间段中的连续的时间段。例如,第一时间段为3个月,第二时间段为10分钟,第一时间段包括连续的多个第二时间段。第三时间段例如可以是1分钟,则第二时间段的分片数据的聚合数集合中包括10个聚合数的数据。
在又一些实施例,第一时间段为T天,可仅对该T天中的固定的第二时间段(例如8:00-8:10)进行分析。例如,第一时间段为3个月,第二时间段为该3个月中每天的8:00-8:10(10分钟)。第三时间段例如可以是30秒,则第二时间段的分片数据的聚合数集合中包括20个聚合数的数据。
在另一些实施例,第一时间段为T天,可仅对该T天中的多个固定(也可以是连续的)的第二时间段进行分析。例如,第一时间段为3个月,第二时间段为该3个月中每天的8:00-8:10(10分钟)、8:10-8:20(10分钟)、8:20-8:30(10分钟)。第三时间段例如可以是2分钟,则第二时间段的分片数据的聚合数集合中包括5个聚合数的数据。
在上述三个具体实施例的具体是视线中,对于第二时间段为第一时间段中的连续的时间段的实施例,由于其样本量大,则其第三时间段可以大于后两个实施例设置的第三时间段。
第一时间段、第二时间段和第三时间段的取值本发明并非以此为限。
步骤S140:基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ,将各监控项的聚合数的上限设置为μ+3σ,将各监控项的聚合数的下限设置为μ-3σ。
在步骤S140的一个具体实施例中,为了减少建模的计算量,步骤S140可以包括如下步骤:
基于N维高斯分布对每个第二时间段的分片数据进行建模以获得每个监控项在第三时间段内的聚合数的准期望值集合{μ1,μ2,...μT}和准标准差集合{σ1,σ2,...σT},其中,T为大于1的整数;
将准期望值集合{μ1,μ2,...μT}的平均期望值作为每个监控项在第三时间段内的聚合数的期望值μ;
将准标准差集合{σ1,σ2,...σT}的平均标准差作为每个监控项在第三时间段内的聚合数的标准差σ。
在步骤S140的又一个具体实施例中,为了告警的准确性起见,直接对第二时间段的分片数据进行建模以获得每个监控项在第三时间段内的聚合数的期望值μ和标准差σ。
进一步地,步骤S140中聚合数的上下限设置是根据小概率事件原理和3σ原则来确定的。步骤S140中所计算的上下限可写入缓存,并可周期或实时更新。
在又一些实施例中,可在一个步骤中实现N个监控项高斯分布的建模。换言之,步骤S140包括基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ。
在这样的实施例中,若N为2时,二维高斯分布的函数为:
Figure GDA0002578219960000081
其中,x,y分别为2个监控项的聚合数,f(x,y)为2个监控项的聚合数值分别为x,y的概率,ρ为大于-1小于1的常数,μ1和σ1为第一监控项的聚合数的期望值和标准差,μ2和σ2为第二监控项的聚合数的期望值和标准差。例如,在一些实施例中,监控参数为请求时长或请求大小,所述第一监控项和第二监控项分别为城市、运营商、网络类型中的两项。由此,可以实现多维的网络性能监控。
步骤S150:根据实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合,当各监控项的实时聚合数大于其上限或者小于其下限,则进行告警。
具体而言,在所述第一时间段共T天,所述第二时间段为第一时间段每一天的固定时间段的实施例中,步骤S150还包括根据第一时间段外的固定时间段实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合。
进一步地,是否采用步骤S140中计算的上下限来进行告警可由维护人员进行选择。
在本发明的又一个实施例中,参见图2,本发明可结合越界次数阈值和监控项的上下限进行告警。换言之,可对各聚合数集合,统计该聚合数集合中各聚合数大于其上限或者小于其下限的越界次数集合,根据越界次数集合的平均越界次数计算越界次数阈值,当各监控项的实时聚合数大于其上限或者小于其下限,且实时聚合数的越界次数大于所述越界次数阈值,则进行告警。
在如图2的一些具体实现中,图1所示的步骤S140包括:
步骤S148:对各聚合数集合,统计该聚合数集合中各聚合数大于其上限的第一越界次数集合{p1,p2,...pT},根据第一越界次数集合的平均越界次数计算第一越界次数阈值。
步骤S149:对各聚合数集合,统计该聚合数集合中各聚合数小于其下限的第二越界次数集合{q1,q2,...qT},根据第二越界次数集合的平均越界次数计算第二越界次数阈值。
图1所示的步骤S150还包括步骤S151:
当各监控项的实时聚合数大于其上限且实时聚合数的越界次数大于所述第一越界次数阈值或者各监控项的实时聚合数小于其下限且实时聚合数的越界次数大于所述第二越界次数阈值,则进行告警。
图2仅仅是本发明的一个具体实施例,第一越界次数阈值和第二越界次数阈值可以结合或分开使用,本发明并非以此为限。
下面参见图3,图3示出基于高斯分布的网络性能监控装置的模块图。
基于高斯分布的网络性能监控装置300包括采集模块310、储存模块320、分片模块330、分析模块340及告警模块350。
采集模块310用于采集应用程序的日志数据,所述日志数据包括监控参数及关联该监控参数的N个监控项,N为大于1的整数。储存模块320用于储存所述监控参数及关联该监控参数的N个监控项。分片模块330用于获取储存的第一时间段内的监控参数及关联该监控参数的N个监控项,以第二时间段对该第一时间段的数据进行分片,各所述第二时间段的分片数据包括N个聚合数集合,一聚合数集合对应一监控项,所述聚合数集合包括M个以第三时间段为单位对应监控项的聚合数,其中第一时间段大于第二时间段,第二时间段为第三时间段的M倍,M为大于1的整数。分析模块340用于基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ,将各监控项的聚合数的上限设置为μ+3σ,将各监控项的聚合数的下限设置为μ-3σ。告警模块350用于根据实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合,当各监控项的实时聚合数大于其上限或者小于其下限,则进行告警。
图3仅仅是示意性地示出各个模块,可以理解,这些模块可以虚拟的软件模块或实际的硬件模块,这些模块的合并、拆分及其余模块的增加都在本发明的保护范围之内。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述高斯分布的网络性能监控方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述高斯分布的网络性能监控方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图4所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本公开的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中所述高斯分布的网络性能监控方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述高斯分布的网络性能监控方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述高斯分布的网络性能监控方法。
相比现有技术,本发明的优势在于:
通过自动对应用程序网络性能的监控,可以针对影响应用程序网络性能的各项指标进行有效的监控和告警,一方面自动告警的覆盖面非常高,自动告警准确度的提升也有效的帮助了运维人员及时发现接口问题或者用户所在区域的网络环境问题,可以及时处理和解决,无需等待用户的反馈。另一方面,自动告警释放了人工设置阈值带来的工作量,提高了运维人员的工作效率,同时也保证了整个应用程序对用户服务的质量。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (8)

1.一种基于高斯分布的网络性能监控方法,其特征在于,包括:
采集应用程序的日志数据,所述日志数据包括监控参数及关联该监控参数的N个监控项,N为大于1的整数;
储存所述监控参数及关联该监控参数的N个监控项;
获取储存的第一时间段内的监控参数及关联该监控参数的N个监控项,以第二时间段对该第一时间段的数据进行分片,各所述第二时间段的分片数据包括N个聚合数集合,一聚合数集合对应一监控项,所述聚合数集合包括M个以第三时间段为单位对应监控项的聚合数,其中第一时间段大于第二时间段,第二时间段为第三时间段的M倍,M为大于1的整数;
基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ,将各监控项的聚合数的上限设置为μ+3σ,将各监控项的聚合数的下限设置为μ-3σ;
根据实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合,当各监控项的实时聚合数大于其上限或者小于其下限,则进行告警,
其中,基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ还包括:
对各聚合数集合,统计该聚合数集合中各聚合数大于其上限或者小于其下限的越界次数集合,根据越界次数集合的平均越界次数计算越界次数阈值;
所述根据实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合,当各监控项的实时聚合数大于其上限或者小于其下限,则进行告警还包括:
当各监控项的实时聚合数大于其上限或者小于其下限,且实时聚合数的越界次数大于所述越界次数阈值,则进行告警,
其中,所述越界次数阈值包括第一越界次数阈值和第二越界次数阈值,所述对各聚合数集合,统计该聚合数集合中各聚合数大于其上限或者小于其下限的越界次数集合,根据越界次数集合计算越界次数阈值包括:
对各聚合数集合,统计该聚合数集合中各聚合数大于其上限的第一越界次数集合{p1,p2,...pT},根据第一越界次数集合的平均越界次数计算第一越界次数阈值,T为大于1的整数;
对各聚合数集合,统计该聚合数集合中各聚合数小于其下限的第二越界次数集合{q1,q2,...qT},根据第二越界次数集合的平均越界次数计算第二越界次数阈值,
其中,基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ包括:
基于N维高斯分布对每个第二时间段的分片数据进行建模以获得每个监控项在第三时间段内的聚合数的准期望值集合{μ1,μ2,...μT}和准标准差集合{σ1,σ2,...σT},其中,T为大于1的整数;
将准期望值集合{μ1,μ2,...μT}的平均期望值作为每个监控项在第三时间段内的聚合数的期望值μ;
将准标准差集合{σ1,σ2,...σT}的平均标准差作为每个监控项在第三时间段内的聚合数的标准差σ。
2.如权利要求1所述的网络性能监控方法,其特征在于,所述第一时间段为所述第二时间段的T倍,T为大于1的整数。
3.如权利要求1所述的网络性能监控方法,其特征在于,所述第一时间段共T天,所述第二时间段为第一时间段每一天的固定时间段,T为大于1的整数,且所述根据实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合还包括:
根据第一时间段外的固定时间段实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合。
4.如权利要求1所述的网络性能监控方法,其特征在于,所述N为2时,二维高斯分布的函数为:
Figure FDA0002578219950000021
其中,x,y分别为2个监控项的聚合数,f(x,y)为2个监控项的聚合数值分别为x,y的概率,ρ为大于-1小于1的常数,μ1和σ1为第一监控项的聚合数的期望值和标准差,μ2和σ2为第二监控项的聚合数的期望值和标准差。
5.如权利要求4所述的网络性能监控方法,其特征在于,所述监控参数为请求时长或请求大小,所述第一监控项和第二监控项分别为城市、运营商、网络类型中的两项。
6.一种基于高斯分布的网络性能监控装置,其特征在于,包括:
采集模块,用于采集应用程序的日志数据,所述日志数据包括监控参数及关联该监控参数的N个监控项,N为大于1的整数;
储存模块,用于储存所述监控参数及关联该监控参数的N个监控项;
分片模块,用于获取储存的第一时间段内的监控参数及关联该监控参数的N个监控项,以第二时间段对该第一时间段的数据进行分片,各所述第二时间段的分片数据包括N个聚合数集合,一聚合数集合对应一监控项,所述聚合数集合包括M个以第三时间段为单位对应监控项的聚合数,其中第一时间段大于第二时间段,第二时间段为第三时间段的M倍,M为大于1的整数;
分析模块,用于基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ,将各监控项的聚合数的上限设置为μ+3σ,将各监控项的聚合数的下限设置为μ-3σ;
告警模块,用于根据实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合,当各监控项的实时聚合数大于其上限或者小于其下限,则进行告警,
其中,基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ还包括:
对各聚合数集合,统计该聚合数集合中各聚合数大于其上限或者小于其下限的越界次数集合,根据越界次数集合的平均越界次数计算越界次数阈值;
所述根据实时采集的监控参数及关联该监控参数的N个监控项,按第三时间段对各监控项进行聚合,当各监控项的实时聚合数大于其上限或者小于其下限,则进行告警还包括:
当各监控项的实时聚合数大于其上限或者小于其下限,且实时聚合数的越界次数大于所述越界次数阈值,则进行告警,
其中,所述越界次数阈值包括第一越界次数阈值和第二越界次数阈值,所述对各聚合数集合,统计该聚合数集合中各聚合数大于其上限或者小于其下限的越界次数集合,根据越界次数集合计算越界次数阈值包括:
对各聚合数集合,统计该聚合数集合中各聚合数大于其上限的第一越界次数集合{p1,p2,...pT},根据第一越界次数集合的平均越界次数计算第一越界次数阈值,T为大于1的整数;
对各聚合数集合,统计该聚合数集合中各聚合数小于其下限的第二越界次数集合{q1,q2,...qT},根据第二越界次数集合的平均越界次数计算第二越界次数阈值,
其中,基于N维高斯分布对多个第二时间段的分片数据进行建模以计算N个监控项在第三时间段内的聚合数的期望值μ和标准差σ包括:
基于N维高斯分布对每个第二时间段的分片数据进行建模以获得每个监控项在第三时间段内的聚合数的准期望值集合{μ1,μ2,...μT}和准标准差集合{σ1,σ2,...σT},其中,T为大于1的整数;
将准期望值集合{μ1,μ2,...μT}的平均期望值作为每个监控项在第三时间段内的聚合数的期望值μ;
将准标准差集合{σ1,σ2,...σT}的平均标准差作为每个监控项在第三时间段内的聚合数的标准差σ。
7.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一项所述的方法。
CN201711460218.5A 2017-12-28 2017-12-28 网络性能监控方法、装置、电子设备、存储介质 Active CN108063699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711460218.5A CN108063699B (zh) 2017-12-28 2017-12-28 网络性能监控方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711460218.5A CN108063699B (zh) 2017-12-28 2017-12-28 网络性能监控方法、装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN108063699A CN108063699A (zh) 2018-05-22
CN108063699B true CN108063699B (zh) 2020-08-28

Family

ID=62140597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711460218.5A Active CN108063699B (zh) 2017-12-28 2017-12-28 网络性能监控方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN108063699B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874642A (zh) * 2018-05-25 2018-11-23 平安科技(深圳)有限公司 Sql性能监控方法、装置、计算机设备及存储介质
CN108984376B (zh) * 2018-05-31 2021-11-19 创新先进技术有限公司 一种系统异常检测方法、装置及设备
CN109165133B (zh) * 2018-07-02 2022-03-25 咪咕文化科技有限公司 数据监控方法、装置、设备及存储介质
CN110764975B (zh) * 2018-07-27 2021-10-22 华为技术有限公司 设备性能的预警方法、装置及监控设备
CN109032915A (zh) * 2018-11-02 2018-12-18 苏州友教习亦教育科技有限公司 应用软件性能实时监控方法及系统
CN110351116B (zh) * 2019-05-23 2022-09-30 平安科技(深圳)有限公司 异常对象监控方法、装置、介质及电子设备
CN110221950A (zh) * 2019-06-18 2019-09-10 杭州朗和科技有限公司 监控数据的处理方法、介质、装置和计算设备
CN110309153B (zh) * 2019-06-28 2023-07-14 携程旅游信息技术(上海)有限公司 呼叫中心的监控数据的处理方法、系统、设备和存储介质
CN112905419B (zh) * 2021-03-02 2022-11-15 广州虎牙科技有限公司 指标数据监测阈值范围确定方法、装置和可读存储介质
CN113346910B (zh) * 2021-06-04 2022-11-22 上海天旦网络科技发展有限公司 基于标准差的统计数据压缩方法和系统
CN113627627A (zh) * 2021-08-11 2021-11-09 北京互金新融科技有限公司 异常监控方法、装置、计算机可读介质及处理器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103974311A (zh) * 2014-05-21 2014-08-06 哈尔滨工业大学 基于改进高斯过程回归模型的状态监测数据流异常检测方法
CN107066365A (zh) * 2017-02-20 2017-08-18 阿里巴巴集团控股有限公司 一种系统异常的监测方法及装置
CN107426022A (zh) * 2017-07-21 2017-12-01 上海携程商务有限公司 安全事件监测方法及装置、电子设备、存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103974311A (zh) * 2014-05-21 2014-08-06 哈尔滨工业大学 基于改进高斯过程回归模型的状态监测数据流异常检测方法
CN107066365A (zh) * 2017-02-20 2017-08-18 阿里巴巴集团控股有限公司 一种系统异常的监测方法及装置
CN107426022A (zh) * 2017-07-21 2017-12-01 上海携程商务有限公司 安全事件监测方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN108063699A (zh) 2018-05-22

Similar Documents

Publication Publication Date Title
CN108063699B (zh) 网络性能监控方法、装置、电子设备、存储介质
CA3098860C (en) Alarm log compression method, apparatus, and system, and storage medium
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
CN111221702B (zh) 基于日志分析的异常处理方法、系统、终端及介质
US11836162B2 (en) Unsupervised method for classifying seasonal patterns
US9953066B2 (en) Automatically generating and reporting merged performance and capacity statistics
US9093841B2 (en) Power distribution network event correlation and analysis
US10489711B1 (en) Method and apparatus for predictive behavioral analytics for IT operations
CN113157545A (zh) 业务日志的处理方法、装置、设备及存储介质
CN107517131A (zh) 一种基于日志采集的分析预警方法
WO2015020922A1 (en) Dynamic collection analysis and reporting of telemetry data
CN108737170A (zh) 一种批量日志异常数据告警方法及装置
CN109960635B (zh) 实时计算平台的监控和报警方法、系统、设备及存储介质
WO2020168756A1 (zh) 集群日志特征提取方法、装置、设备及存储介质
CN111400130A (zh) 任务监控方法、装置、电子设备及存储介质
JP2014153721A (ja) ログ可視化装置及び方法及びプログラム
CN104917803A (zh) 一种基于用户行为管控的自主巡检系统
US7617313B1 (en) Metric transport and database load
CN117194919A (zh) 一种生产数据分析系统
CN115879907A (zh) 一种具备故障检测的运维监控装置及工作方法
CN107577769A (zh) 一种计量专业数据的挖掘方法及系统
CN113312321A (zh) 一种业务量的异常监测方法及相关设备
US20120078912A1 (en) Method and system for event correlation
CN113138970A (zh) 实时的数据库错误日志的统计分析系统及其方法
CN113220551A (zh) 指标趋势预测及预警方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant