CN109560984A - 一种网络服务响应时间异常检测方法及装置 - Google Patents

一种网络服务响应时间异常检测方法及装置 Download PDF

Info

Publication number
CN109560984A
CN109560984A CN201811346913.3A CN201811346913A CN109560984A CN 109560984 A CN109560984 A CN 109560984A CN 201811346913 A CN201811346913 A CN 201811346913A CN 109560984 A CN109560984 A CN 109560984A
Authority
CN
China
Prior art keywords
point
response time
network service
data
peels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811346913.3A
Other languages
English (en)
Other versions
CN109560984B (zh
Inventor
姚平
张晞
季峰
高辉
王乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Suning Software Technology Co ltd
Original Assignee
Suningcom Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suningcom Group Co Ltd filed Critical Suningcom Group Co Ltd
Priority to CN201811346913.3A priority Critical patent/CN109560984B/zh
Publication of CN109560984A publication Critical patent/CN109560984A/zh
Application granted granted Critical
Publication of CN109560984B publication Critical patent/CN109560984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Environmental & Geological Engineering (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络服务响应时间异常检测方法及装置,属于智能运维技术领域。所述方法包括:获取当前时间点t之前预设时长H的历史区间[t‑H,t]内网络服务的响应时间数据;根据预设LOF算法,获取所述响应时间数据的离群点集合数据;计算所述离群点集合数据的平均值和标准差;根据所述平均值和标准差确定所述响应时间的正常阈值范围;根据所述正常阈值范围,获取当前时间点t之后经过预设时长H的下一时间段[t,t+H]内网络服务的响应时间异常情况,并不断循环进行[t+H,t+2H],……[t+(n‑1)H,t+nH]时间段内的响应时间异常情况的检测过程,其中n为大于1的整数。本发明通过利用LOF算法来判断服务的响应时间是否异常,减少了误报,提高了检测异常的效率。

Description

一种网络服务响应时间异常检测方法及装置
技术领域
本发明涉及智能运维技术领域,特别涉及一种网络服务响应时间异常检测方法及装置。
背景技术
计算机网络系统中有很多服务,每个服务都完成特定的功能。正常情况下,每个服务完成功能的时间(即响应时间)是在一定范围内波动的,响应时间超出正常的时间范围时,可能会导致调用此服务的应用出现各种问题。因此,我们需要能够及时发现服务的响应时间是否异常,从而帮助排查问题。
目前主要有以下几种用来发现服务时间异常的方法及其问题。
(1)设定固定阈值:超过此阈值的认为是异常,存在问题:固定阈值可能不太符合实际,要么过大,无法发现异常;要么过小,发现大量的假异常;而且,人工设定阈值比较耗费人力。
(2)根据平均值+标准差来判断:超过平均值+-N倍标准差来判断是否异常,存在问题:此方法假设响应时间的分布符合正态分布,对于不符合正态分布的响应时间不太适合,存在与设定固定阈值方法类似的问题,漏报异常或者是报假异常。
(3)纯异常值识别方法:在所有数据中寻找异常值,存在问题:计算量大,对于每新增一个数据,都要将所有数据都计算一遍来判断是否异常,对于被频繁调用的服务,比如每秒上万次调用的服务,不能及时发现异常。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种网络服务响应时间异常检测方法及装置,通过利用LOF算法来判断服务的响应时间是否异常,减少了误报,提高了检测异常的效率。
所述技术方案如下:
第一方面,提供了一种网络服务响应时间异常检测方法,所述方法包括:获取当前时间点t之前预设时长H的历史区间[t-H,t]内网络服务的响应时间数据;根据预设LOF算法,获取所述响应时间数据的离群点集合数据;计算所述离群点集合数据的平均值和标准差;根据所述平均值和标准差确定所述响应时间的正常阈值范围;根据所述正常阈值范围,获取当前时间点t之后经过预设时长H的下一时间段[t,t+H]内网络服务的响应时间异常情况,并不断循环进行[t+H,t+2H],……[t+(n-1)H,t+nH]时间段内的响应时间异常情况的检测过程,其中n为大于1的整数。
结合第一方面,在第一种可能的实现方式中,获取当前时间点t之前预设时长H的历史区间[t-H,t]内网络服务的响应时间数据,包括:根据网络服务的调用频率,设置所述预设时长H,并采集历史区间[t-H,t]内网络服务的响应时间数据。
结合第一方面及第一方面的第一种可能实现方式中的任一种,在第二或第三种可能的实现方式中,根据预设LOF算法,获取所述响应时间数据的离群点集合数据,包括:设定异常离群因子阈值;对所述响应时间数据中的每个点,根据预设LOF算法计算其局部离群因子;判断所述每个点的相应局部离群因子与所述异常离群因子阈值的关系;若局部离群因子大于所述异常离群因子阈值,则将该局部离群因子对应的点作为离群点加入离群点集合。
结合第一方面的第二或第三种可能实现方式的任一种,在第四或第五种可能实现方式中,所述预设LOF算法包括:定义如下参数:所述响应时间数据中的每个点p,d(p,q):点p和q之间的距离;dk(p):点p的第k距离,即距离p点第k远的点的距离,dk(p)=d(p,q),并且满足以下条件:(A)在集合中至少有不包括p在内的k个点q′,满足d(p,q′)≤d(p,q);(B)在集合中之多有不包括p在内的k-1个点q′,满足d(p,q′)<d(p,q);
Nk(p):点p的第k距离邻域,即是p的第k距离以内的所有点;
|Nk(p)|:p的第k邻域点的个数;
reah-distk(p,q)=max{dk(p),d(p,q)}:q点到p的第k可达距离;
lrdk(p)为p点的局部可达密度,即点p的第k邻域内点到p的平均可达距离的倒数,由以下公式计算得到:
LOFk(p),为点p的局部离群因子,即p的k邻域点的局部可达密度与点p的局部可达密度之比的平均数,由以下公式计算得到:
结合第一方面及第一方面的第一、四、五种可能实现方式的任一种,在第六至九种可能实现方式中,根据所述正常阈值范围和所述响应时间数据,获取所述预设服务响应时间历史区间内网络服务的响应时间异常情况,包括:判断判断下一时间段[t,t+H]内响应时间数据的响应时间是否在[0,平均值和标准差之和]范围内,将不在[0,平均值和标准差之和]范围内的响应时间均确定为异常响应时间。
第二方面,提供了一种网络服务响应时间异常检测装置,包括:响应时间数据获取模块,用于获取当前时间点t之前预设时长H的历史区间[t-H,t]内网络服务的响应时间数据;离群点集合数据获取模块,用于根据预设LOF算法,获取所述响应时间数据的离群点集合数据;计算模块,用于计算所述离群点集合数据的平均值和标准差;确定模块,用于根据所述平均值和标准差确定所述响应时间的正常阈值范围;异常信息获取模块,用于根据所述正常阈值范围,获取当前时间点t之后经过预设时长H的下一时间段[t,t+H]内网络服务的响应时间异常情况;循环操作设置模块,用于实现不断循环进行[t+H,t+2H],……[t+(n-1)H,t+nH]时间段内的响应时间异常情况的检测过程,其中n为大于1的整数。
结合第二方面,在第一种可能的实现方式中,所述响应时间数据获取模块包括设置子模块和采集子模块,所述设置子模块和采集子模块用于根据网络服务的调用频率,设置所述预设时长H,并采集历史区间[t-H,t]内网络服务的响应时间数据。
结合第二方面及第二方面的第一种可能实现方式中的任一种,在第二或第三种可能的实现方式中,所述离群点集合数据获取模块包括参数设置子模块、计算子模块、判断子模块和添加子模块,所述参数设置子模块用于设定异常离群因子阈值;所述计算子模块用于对所述响应时间数据中的每个点,根据预设LOF算法计算其局部离群因子;所述判断子模块用于判断所述每个点的相应局部离群因子与所述异常离群因子阈值的关系;若局部离群因子大于所述异常离群因子阈值,所述添加子模块用于将该局部离群因子对应的点作为离群点加入离群点集合。
结合第二方面的第二或第三种可能实现方式的任一种,在第四或第五种可能实现方式中,所述计算子模块执行的预设LOF算法包括:定义如下参数:所述响应时间数据中的每个点p,d(p,q):点p和q之间的距离;dk(p):点p的第k距离,即距离p点第k远的点的距离,dk(p)=d(p,q),并且满足以下条件:(A)在集合中至少有不包括p在内的k个点q′,满足d(p,q′)≤d(p,q);(B)在集合中之多有不包括p在内的k-1个点q′,满足d(p,q′)<d(p,q);
Nk(p):点p的第k距离邻域,即是p的第k距离以内的所有点;
|Nk(p)|:p的第k邻域点的个数;
reah-distk(p,d)=max{dk(p),d(p,q)}:q点到p的第k可达距离;
lrdk(p)为p点的局部可达密度,即点p的第k邻域内点到p的平均可达距离的倒数,由以下公式计算得到:
LOFk(p),为点p的局部离群因子,即p的k邻域点的局部可达密度与点p的局部可达密度之比的平均数,由以下公式计算得到:
结合第二方面及第二方面的第一、四、五种可能实现方式的任一种,在第六至九种可能实现方式中,所述异常信息获取模块用于:判断判断下一时间段[t,t+H]内响应时间数据的响应时间是否在[0,平均值和标准差之和]范围内,将不在[0,平均值和标准差之和]范围内的响应时间均确定为异常响应时间。
本发明实施例提供的技术方案带来的有益效果是:
1、通过使用基于密度的经典离群点检测算法即LOF算法,通过计算每个数据的离群因子来识别数据集中的离群点,获得网络服务历史响应数据的异常范围数据,然后基于这些异常范围数据,结合平均值+标准差算法来计算当前响应数据正常范围,从而判断未来预设时间段内网络服务的响应时间异常情况,优于传统平均值+标准差的方法,可减少误报;
2、并且,这种异常检测方法无需人工设置正常响应时间阈值范围,又由于采用LOF算法计算范围阈值的过程计算量小,可以迅速发现异常,提高了发现网络服务响应时间异常的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的网络服务响应时间异常检测方法流程图;
图2是本发明实施例1提供的网络服务响应时间异常检测方法的S102子步骤流程图;
图3是本发明实施例2提供的网络服务响应时间异常检测方法流程图;
图4是本发明实施例2提供的网络服务响应时间异常检测方法的示例流程图;
图5是本发明实施例2提供的网络服务响应时间异常检测方法的案例展示效果图;
图6是本发明实施例2提供的网络服务响应时间异常检测方法的案例展示效果图;
图7是本发明实施例3提供的网络服务响应时间异常检测装置结构示意图;
图8是本发明实施例4提供的网络服务响应时间异常检测装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在本发明的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
本发明实施例提供的网络服务响应时间异常检测方法及装置,通过使用LOF(局部离群值算法,Local Outlier Factor)算法获得网络服务历史响应数据的异常范围数据,然后基于这些异常范围数据,结合平均值+标准差算法来计算当前响应数据正常范围,从而判断未来预设时间段内网络服务的响应时间异常情况,这种异常检测方法无需人工设置正常响应时间阈值范围,响应时间范围阈值优于传统平均值+标准差的方法,可减少误报,并且由于采用LOF算法计算范围阈值的过程计算量小,可以迅速发现异常,提高了发现网络服务响应时间异常的效率,可广泛应用于各种网络服务相应领域和不同场景。
下面结合具体实施例及附图,对本发明实施例提供的网络服务响应时间异常检测方法及装置作详细说明。
实施例1
图1是本发明实施例1提供的网络服务响应时间异常检测方法流程图。图2是本发明实施例1提供的网络服务响应时间异常检测方法的S102步骤的子步骤流程图。
如图1所示,本发明实施例提供的网络服务响应时间异常检测方法,包括以下步骤:
S101、获取当前时间点t之前预设时长H的历史区间[t-H,t]内网络服务的响应时间数据。
具体的,获取预设时长H的网络服务的响应时间数据,包括:
根据网络服务的调用频率,设置预设时长H,并采集历史区间[t-H,t]内网络服务的响应时间数据。。这里的预设时长H是指对某一网络服务响应时间异常情况进行检测时,为了方便检测起见而提前设定的服务响应时间检测周期,可以选择1天、1小时等,具体可根据实际需要进行服务响应时间预设时长H的相应设定。
S102、根据预设LOF算法,获取响应时间数据的离群点集合数据。
具体的,S102步骤进一步包以下子步骤:
S1021、设定异常离群因子阈值;
S1022、对响应时间数据中的每个点,根据预设LOF算法计算其局部离群因子;
S1023、判断每个点的相应局部离群因子与异常离群因子阈值的关系;
S1024、若局部离群因子大于异常离群因子阈值,则将该局部离群因子对应的点作为离群点加入离群点集合,从而最终获得获取响应时间数据的离群点集合数据。
其中,在S1022子步骤中,通过预设LOF算法获取响应时间数据的局部离群因子,预设LOF算法为:
定义如下参数:当前预设服务响应时间历史区间内响应时间数据中的每个点p,d(p,q):点p和q之间的距离;dk(p):点p的第k距离,即距离p点第k远的点的距离,dk(p)=d(p,q),并且满足以下条件:(A)在集合中至少有不包括p在内的k个点q′,满足d(p,q′)≤d(p,q);(B)在集合中之多有不包括p在内的k-1个点q′,满足d(p,q′)<d(p,q);
Nk(p):点p的第k距离邻域,即是p的第k距离以内的所有点;
|Nk(p)|:p的第k邻域点的个数;
reah-distk(p,q)=max{dk(p),d(p,q)}:q点到p的第k可达距离;
lrdk(p)为p点的局部可达密度,即点p的第k邻域内点到p的平均可达距离的倒数,由以下公式计算得到:
LOFk(p),为点p的局部离群因子,即p的k邻域点的局部可达密度与点p的局部可达密度之比的平均数,由以下公式计算得到:
如果这个比值越接近1,说明p的其邻域点密度差不多,p可能和邻域同属一簇;如果这个比值越小于1,说明p的密度高于其邻域点密度,p为密集点;如果这个比值越大于1,说明p的密度小于其邻域点密度,p越可能是异常点。由每个点p的LOFk(p)获得离群点集合。
S103、计算离群点集合的平均值和标准差。
具体的,这里计算离群点集合的平均值和标准差的过程可以采用现有技术中任何可能的计算方式或方法进行计算,本发明实施例不对其加以特别限定。
S104、根据平均值和标准差确定响应时间的正常阈值范围。
具体的,根据计算的平均值和标准差将响应时间的正常阈值范围确定为[0,平均值和标准差之和]。
S105、根据所述正常阈值范围,获取当前时间点t之后经过预设时长H的下一时间段[t,t+H]内网络服务的响应时间异常情况。
之后,不断循环进行[t+H,t+2H],……[t+(n-1)H,t+nH]时间段内的响应时间异常情况的检测过程,其中n为大于1的整数。
具体的,判断下一时间段[t,t+H]内响应时间数据的响应时间是否在[0,平均值和标准差之和]范围内,将不在[0,平均值和标准差之和]范围内的响应时间均确定为异常响应时间。
至此完成[t,t+H]时间段内服务响应时间数据的异常情况检测过程。然后,从t+H时间点起,依照步骤101至105再循环进行操作,从而实现[t+H,t+2H],……[t+(n-1)H,t+nH]时间段内的响应时间异常情况的检测过程。这里,[t,t+H]时间段内以及后续[t+H,t+2H],……[t+(n-1)H,t+nH]时间段内的响应时间数据的采集过程,根据需要可以以特定的时间周期或持续地进行。
需要注意的是,本发明实施例中采用的S101~S105步骤执行顺序,并不会对本发明实施例提供的网络服务响应时间异常检测方法每个步骤的执行顺序作出排他性限定,在不脱离本发明构思的情况下,可以进行多种可能的不同变换和设计。
实施例2
图3是本发明实施例2提供的网络服务响应时间异常检测方法流程图。如图3所示,本发明实施例提供的网络服务响应时间异常检测方法,包括以下步骤:
S201、根据网络服务的调用频率,设置所述预设时长H,并采集历史区间[t-H,t]内网络服务的响应时间数据。
值得注意的是,步骤S201的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
S202、根据预设LOF算法,获取响应时间数据的离群点集合数据。
值得注意的是,步骤S202的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
S203、计算离群点集合的平均值和标准差。
值得注意的是,步骤S203的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
S204、根据平均值和标准差确定响应时间的正常阈值范围。
具体的,根据计算的平均值和标准差将响应时间的正常阈值范围确定为[0,平均值和标准差之和]。
值得注意的是,步骤S204的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
S205、判断下一时间段[t,t+H]内响应时间数据的的响应时间是否在[0,平均值和标准差之和]范围内,将不在[0,平均值和标准差之和]范围内的响应时间均确定为异常响应时间。
至此完成[t,t+H]时间段内服务响应时间数据的异常情况检测过程。然后,从t+H时间点起,依照步骤201至205再循环进行操作,从而实现[t+H,t+2H],……[t+(n-1)H,t+nH]时间段内的响应时间异常情况的检测过程。这里,[t,t+H]时间段内以及后续[t+H,t+2H],……[t+(n-1)H,t+nH]时间段内的响应时间数据的采集过程,根据需要可以以特定的时间周期或持续地进行。
值得注意的是,步骤S205的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
需要说明的是,在本发明实施例中,当存在多个预设服务响应时间历史区间,在根据正常阈值范围,获取响应时间的异常情况的S205步骤之后,在下一个预设服务响应时间历史区间,循环操作,再次执行S201~S205步骤。
图4是本发明实施例2提供的网络服务响应时间异常检测方法的示例流程图,示例性地示出了一优选实施方式。
如图4所示,本发明实施例提供的网络服务响应时间异常检测方法,包括以下过程:
1、根据服务的调用频率,设置预设时长H,当前时间设为t;
2、开始时间点为t,采集[t-H,t]时间段内的历史响应数据集合T;
3、对T按从大到小进行排序,选择前100个数据,作为集合T100
4、使用预设LOF算法,寻找T100中的离群点,记为集合T_LOF;
5、计算T_LOF集合的平均值M和标准差D;
6、设置[M-D,M+D]为[t,t+H]时间区间内的正常响应时间范围,将不属于[M-D,M+D]区间的时间段[t,t+H]内响应时间数据的响应时间都判定为异常;
7、到达t+H时间点,在下一时间段[t+H,t+2H]循环依照上述1至7步骤操作,重新开始新一轮正常响应时间范围计算和异常判定。
其中上述4至6步骤中,具体通过如下方式来实现:
定义如下参数:当前预设服务响应时间历史区间内响应时间数据中的每个点p,d(p,q):点p和q之间的距离;dk(p):点p的第k距离,即距离p点第k远的点的距离,dk(p)=d(p,q),并且满足以下条件:(A)在集合中至少有不包括p在内的k个点q′,满足d(p,q′)≤d(p,q);(B)在集合中之多有不包括p在内的k-1个点q′,满足d(p,q′)<d(p,q);
Nk(p):点p的第k距离邻域,即是p的第k距离以内的所有点;
|Nk(p)|:p的第k邻域点的个数;
reah-distk(p,q)=max{dk(p),d(p,q)}:q点到p的第k可达距离;
lrdk(p)为p点的局部可达密度,即点p的第k邻域内点到p的平均可达距离的倒数,由以下公式计算得到:
LOFk(p),为点p的局部离群因子,即p的k邻域点的局部可达密度与点p的局部可达密度之比的平均数,由以下公式计算得到:
如果这个比值越接近1,说明p的其邻域点密度差不多,p可能和邻域同属一簇;如果这个比值越小于1,说明p的密度高于其邻域点密度,p为密集点;如果这个比值越大于1,说明p的密度小于其邻域点密度,p越可能是异常点。由每个点p的LOFk(p)获得离群点集合。
上述LOF算法的执行过程为:
设定异常离群因子阈值F(大于1,具体值需要针对数据集调试),为对数据集T100中的每个点p,计算p的局部离群因子,并判断其与F的关系,如果LOFk(p)≤F,判断为正常值,如果LOFk(p)>F,判断为离群点,所有离群点加入集合T_TOF;
然后,计算T_LOF的平均值为M,标准差为D,将[M-D,M+D]作为[t,t+H]时间段内服务响应时间的正常阈值范围,将时间段[t,t+H]内响应时间数据中,不在此范围内的响应时间都判断为异常。
为了验证本发明实施例提供的网络服务响应时间异常检测方法的效果,进行以下服务响应时间异常判断的案例对比试验和结果展示,分别采用方法1)指定阈值(2000ms),方法2)平均值+标准差,方法3)平均值+10被标准差,方法4)本发明所用方法,来判断异常。图5是本发明实施例2提供的网络服务响应时间异常检测方法的案例一效果展示图。图6是本发明实施例2提供的网络服务响应时间异常检测方法的案例二效果展示图。
案例一:如图5所示,某服务的1分钟内,3000次响应时间,经过人工研判,真正的异常值有一个(图中圆圈圈出)。分别采用方法1)指定阈值(2000ms),方法2)平均值+标准差,方法3)平均值+10被标准差,方法4)本发明实施例提供的方法,来判断异常。由图5可以看出:方法1:基本都是误报,效果最差;方法2:有大量误报,效果较差;方法3:无误报,但是漏报了1个,效果较好;方法4:无漏报,误报2个,效果较好。
案例二:某服务1分钟内,80000次响应时间,人工研判有2个真实异常值(图中圆圈圈出)。同样采用4种异常判断方法来识别异常,由图6可以看出:方法1:有大量误报,效果较差;方法2:有大量误报,效果最差;方法3:无漏报,但是误报较多,效果较差;方法4:识别1个异常,无误报,漏报一个,效果最好。
综合以上两个案例可以得出结论:
方法1和方法2获得的效果明显比方法差很多,而方法3在案例4中响应时间数据不太符合正向分布的情况下,取得效果上明显比案例3差了很多,因此明显存在不稳定性和适用局限性的弊端,而本发明实施例提供的方法4是相比较效果最好的。
另外,需要注意的是,本发明实施例中采用的S201~S205步骤执行顺序以及示例中1至7步骤执行顺序,并不会对本发明实施例提供的网络服务响应时间异常检测方法每个步骤的执行顺序作出排他性限定,在不脱离本发明发明构思的情况下,可以进行多种可能的不同变换和设计。
实施例3
图7是本发明实施例3提供的网络服务响应时间异常检测装置结构示意图。如图7所述,本发明实施例提供的网络服务响应时间异常检测装置,包括响应时间数据获取模块31、离群点集合数据获取模块32、计算模块33、确定模块34、和异常信息获取模块35。
其中,响应时间数据获取模块31,用于获取当前时间点t之前预设时长H的历史区间[t-H,t]内网络服务的响应时间数据。具体的,响应时间数据获取模块31进一步包括设置子模块311和采集子模块312,设置子模块311、采集子模块312用于根据网络服务的调用频率,设置预设时长H,并采集历史区间[t-H,t]内网络服务的响应时间数据、[t,t+H]时间段内以及后续[t+H,t+2H],……[t+(n-1)H,t+nH]时间段内的响应时间数据。
离群点集合数据获取模块32,用于根据预设LOF算法,获取响应时间的离群点集合数据。具体的,离群点集合数据获取模块32进一步包括参数设置子模块321、计算子模块322、判断子模块323和添加子模块324,其中参数设置子模块321用于设定异常离群因子阈值;计算子模块322用于对响应时间数据中的每个点,根据预设LOF算法计算其局部离群因子;判断子模块323用于判断每个点的相应局部离群因子与异常离群因子阈值的关系;添加子模块324用于当局部离群因子大于异常离群因子阈值时,将该局部离群因子对应的点作为离群点加入离群点集合。
其中,计算子模块322执行的预设LOF算法包括:
定义如下参数:所述响应时间数据中的每个点p,d(p,q):点p和q之间的距离;dk(p):点p的第k距离,即距离p点第k远的点的距离,dk(p)=d(p,q),并且满足以下条件:(A)在集合中至少有不包括p在内的k个点q′,满足d(p,q′)≤d(p,q);(B)在集合中之多有不包括p在内的k-1个点q′,满足d(p,q′)<d(p,q);
Nk(p):点p的第k距离邻域,即是p的第k距离以内的所有点;
|Nk(p)|:p的第k邻域点的个数;
reah-distk(p,q)=max{dk(p),d(p,q)}:q点到p的第k可达距离;
lrdk(p)为p点的局部可达密度,即点p的第k邻域内点到p的平均可达距离的倒数,由以下公式计算得到:
LOFk(p),为点p的局部离群因子,即p的k邻域点的局部可达密度与点p的局部可达密度之比的平均数,由以下公式计算得到:
计算模块33,用于计算离群点集合的平均值和标准差;
确定模块34,用于根据平均值和标准差确定所述响应时间的正常阈值范围;
异常信息获取模块35,用于根据正常阈值范围和响应时间数据,获取预设服务响应时间历史区间内网络服务的响应时间异常信息。具体的,异常信息获取模块35用于:判断下一时间段[t,t+H]内响应时间数据的响应时间是否在[0,平均值和标准差之和]范围内,将不在[0,平均值和标准差之和]范围内的响应时间均确定为异常响应时间。
循环操作设置模块36,用于实现不断循环进行[t+H,t+2H],……[t+(n-1)H,t+nH]时间段内的响应时间异常情况的检测过程,其中n为大于1的整数
实施例4
图8是本发明实施例4提供的网络服务响应时间异常检测装置结构示意图。如图8所示,本发明实施例提供的网络服务响应时间异常检测装置4包括存储器41和处理器42。其中,存储器41,用于存储有处理器42的可执行指令;处理器42配置为经由可执行指令来执行实施例1、实施例2所述的任一方案中网络服务响应时间异常检测方法的步骤。
需要说明的是:上述实施例提供的网络服务响应时间异常检测装置在触发网络服务响应时间异常检测业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置内的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的网络服务响应时间异常检测装置与网络服务响应时间异常检测实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
综上所述,本发明实施例提供的网络服务响应时间异常检测方法及装置,相比现有技术,具有以下有益效果:
1、通过使用基于密度的经典离群点检测算法即LOF算法,通过计算每个数据的离群因子来识别数据集中的离群点,获得网络服务历史响应数据的异常范围数据,然后基于这些异常范围数据,结合平均值+标准差算法来计算当前响应数据正常范围,从而判断未来预设时间段内网络服务的响应时间异常情况,优于传统平均值+标准差的方法,可减少误报;
2、并且,这种异常检测方法无需人工设置正常响应时间阈值范围,又由于采用LOF算法计算范围阈值的过程计算量小,可以迅速发现异常,提高了发现网络服务响应时间异常的效率。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网络服务响应时间异常检测方法,其特征在于,所述方法包括:
获取当前时间点t之前预设时长H的历史区间[t-H,t]内网络服务的响应时间数据;
根据预设LOF算法,获取所述响应时间数据的离群点集合数据;
计算所述离群点集合数据的平均值和标准差;
根据所述平均值和标准差确定所述响应时间的正常阈值范围;
根据所述正常阈值范围,获取当前时间点t之后经过预设时长H的下一时间段[t,t+H]内网络服务的响应时间异常情况,
并不断循环进行[t+H,t+2H],……[t+(n-1)H,t+nH]时间段内的响应时间异常情况的检测过程,其中n为大于1的整数。
2.根据权利要求1所述的方法,其特征在于,获取当前时间点t之前预设时长H的历史区间[t-H,t]内网络服务的响应时间数据,包括:
根据网络服务的调用频率,设置所述预设时长H,并采集历史区间[t-H,t]内网络服务的响应时间数据。
3.根据权利要求1或2任一项所述的方法,其特征在于,根据预设LOF算法,获取所述响应时间数据的离群点集合数据,包括:
设定异常离群因子阈值;
对所述响应时间数据中的每个点,根据预设LOF算法计算其局部离群因子;
判断所述每个点的相应局部离群因子与所述异常离群因子阈值的关系;
若局部离群因子大于所述异常离群因子阈值,则将该局部离群因子对应的点作为离群点加入离群点集合。
4.根据权利要求3所述的方法,其特征在于,所述预设LOF算法包括:
定义如下参数:所述响应时间数据中的每个点p,
d(p,q):点p和q之间的距离;
dk(p):点p的第k距离,即距离p点第k远的点的距离,dk(p)=d(p,q),并且满足以下条件:(A)在集合中至少有不包括p在内的k个点q′,满足d(p,q′)≤d(p,q);(B)在集合中之多有不包括p在内的k-1个点q′,满足d(p,q′)<d(p,q);
Nk(p):点p的第k距离邻域,即是p的第k距离以内的所有点;
|Nk(p)|:p的第k邻域点的个数;
reah-distk(p,q)=max{dk(p),d(p,q)}:q点到p的第k可达距离;
lrdk(p)为p点的局部可达密度,即点p的第k邻域内点到p的平均可达距离的倒数,由以下公式计算得到:
LOFk(p),为点p的局部离群因子,即p的k邻域点的局部可达密度与点p的局部可达密度之比的平均数,由以下公式计算得到:
5.根据权利要求要求1、2、4任一项所述的方法,其特征在于,根据所述正常阈值范围,获取当前时间点t之后经过预设时长H的下一时间段[t,t+H]内网络服务的响应时间异常情况,包括:
判断下一时间段[t,t+H]内响应时间数据的响应时间是否在[0,平均值和标准差之和]范围内,
将不在[0,平均值和标准差之和]范围内的响应时间均确定为异常响应时间。
6.一种网络服务响应时间异常检测装置,其特征在于,包括:
响应时间数据获取模块,用于获取当前时间点t之前预设时长H的历史区间[t-H,t]内网络服务的响应时间数据;
离群点集合数据获取模块,用于根据预设LOF算法,获取所述响应时间数据的离群点集合数据;
计算模块,用于计算所述离群点集合数据的平均值和标准差;
确定模块,用于根据所述平均值和标准差确定所述响应时间的正常阈值范围;
异常信息获取模块,用于根据所述正常阈值范围,获取当前时间点t之后经过预设时长H的下一时间段[t,t+H]内网络服务的响应时间异常情况;
循环操作设置模块,用于实现不断循环进行[t+H,t+2H],……[t+(n-1)H,t+nH]时间段内的响应时间异常情况的检测过程,其中n为大于1的整数。
7.根据权利要求6所述的网络服务响应时间异常检测装置,其特征在于,
所述响应时间数据获取模块包括设置子模块和采集子模块,所述设置子模块和采集子模块用于根据网络服务的调用频率,设置所述预设时长H,并采集历史区间[t-H,t]内网络服务的响应时间数据。
8.根据权利要求6或7任一项所述的装置,其特征在于,所述离群点集合数据获取模块包括参数设置子模块、计算子模块、判断子模块和添加子模块,
所述参数设置子模块用于设定异常离群因子阈值;
所述计算子模块用于对所述响应时间数据中的每个点,根据预设LOF算法计算其局部离群因子;
所述判断子模块用于判断所述每个点的相应局部离群因子与所述异常离群因子阈值的关系;
若局部离群因子大于所述异常离群因子阈值,所述添加子模块用于将该局部离群因子对应的点作为离群点加入离群点集合。
9.根据权利要求8所述的装置,其特征在于,所述计算子模块执行的预设LOF算法包括:
定义如下参数:所述响应时间数据中的每个点p,
d(p,q):点p和q之间的距离;
dk(p):点p的第k距离,即距离p点第k远的点的距离,dk(p)=d(p,q),并且满足以下条件:(A)在集合中至少有不包括p在内的k个点q′,满足d(p,q′)≤d(p,q);(B)在集合中之多有不包括p在内的k-1个点q′,满足d(p,q′)<d(p,q);
Nk(p):点p的第k距离邻域,即是p的第k距离以内的所有点;
|Nk(p)|:p的第k邻域点的个数;
reah-distk(p,q)=max{dk(p),d(p,q)}:q点到p的第k可达距离;
lrdk(p)为p点的局部可达密度,即点p的第k邻域内点到p的平均可达距离的倒数,由以下公式计算得到:
LOFk(p),为点p的局部离群因子,即p的k邻域点的局部可达密度与点p的局部可达密度之比的平均数,由以下公式计算得到:
10.根据权利要求要求6、7、9任一项所述的装置,其特征在于,所述异常信息获取模块用于:
判断判断下一时间段[t,t+H]内响应时间数据的响应时间是否在[0,平均值和标准差之和]范围内,
将不在[0,平均值和标准差之和]范围内的响应时间均确定为异常响应时间。
CN201811346913.3A 2018-11-13 2018-11-13 一种网络服务响应时间异常检测方法及装置 Active CN109560984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811346913.3A CN109560984B (zh) 2018-11-13 2018-11-13 一种网络服务响应时间异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811346913.3A CN109560984B (zh) 2018-11-13 2018-11-13 一种网络服务响应时间异常检测方法及装置

Publications (2)

Publication Number Publication Date
CN109560984A true CN109560984A (zh) 2019-04-02
CN109560984B CN109560984B (zh) 2021-04-23

Family

ID=65866103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811346913.3A Active CN109560984B (zh) 2018-11-13 2018-11-13 一种网络服务响应时间异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN109560984B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110285330A (zh) * 2019-07-11 2019-09-27 重庆大学 一种基于局部离群因子的水务网管网爆管检测方法
CN110298178A (zh) * 2019-07-05 2019-10-01 北京可信华泰信息技术有限公司 可信策略学习方法及装置、可信安全管理平台
CN110334517A (zh) * 2019-07-05 2019-10-15 北京可信华泰信息技术有限公司 可信策略的更新方法及装置、可信安全管理平台
CN111159001A (zh) * 2019-12-31 2020-05-15 青岛海尔科技有限公司 用于操作系统的检测方法及装置、服务器
CN111367765A (zh) * 2020-03-17 2020-07-03 深圳市卡牛科技有限公司 接口响应性能的监控方法、装置、服务器和存储介质
CN111510340A (zh) * 2020-03-10 2020-08-07 北京三快在线科技有限公司 访问请求检测方法、装置、电子设备及可读存储介质
CN111666187A (zh) * 2020-05-20 2020-09-15 北京百度网讯科技有限公司 用于检测异常响应时间的方法和装置
CN111726341A (zh) * 2020-06-02 2020-09-29 五八有限公司 一种数据检测方法、装置、电子设备及存储介质
CN111800477A (zh) * 2020-06-15 2020-10-20 浙江理工大学 一种面向边缘计算数据质量感知的区别化激励方法
CN112099983A (zh) * 2020-09-22 2020-12-18 北京知道创宇信息技术股份有限公司 服务异常处理方法、装置、电子设备和计算机可读存储介质
CN112954302A (zh) * 2021-01-06 2021-06-11 中国移动通信集团广东有限公司韶关分公司 基于离群点算法的iptv/家宽分段隐患检测方法及装置
CN116613895A (zh) * 2023-07-21 2023-08-18 国网天津市电力公司信息通信公司 一种智能电网电力数据异常检测方法和系统
CN116609440A (zh) * 2023-05-22 2023-08-18 浙江嘉宇工程管理有限公司 基于云边协同的建筑工程质量智能验收管理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462819A (zh) * 2014-12-09 2015-03-25 国网四川省电力公司信息通信公司 一种基于密度聚类的局部离群点检测方法
CN107315647A (zh) * 2017-06-26 2017-11-03 广州视源电子科技股份有限公司 离群点检测方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462819A (zh) * 2014-12-09 2015-03-25 国网四川省电力公司信息通信公司 一种基于密度聚类的局部离群点检测方法
CN107315647A (zh) * 2017-06-26 2017-11-03 广州视源电子科技股份有限公司 离群点检测方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
史白等: "基于信道状态信息的非合作式室内人体运动检测", 《计算机应用》 *
庄池杰等: "基于无监督学习的电力用户异常用电模式检测", 《中国电机工程学报》 *
马菲等: "一种基于可变网格划分的离群点检测算法", 《江南大学学报(自然科学版)》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298178B (zh) * 2019-07-05 2021-07-27 北京可信华泰信息技术有限公司 可信策略学习方法及装置、可信安全管理平台
CN110298178A (zh) * 2019-07-05 2019-10-01 北京可信华泰信息技术有限公司 可信策略学习方法及装置、可信安全管理平台
CN110334517A (zh) * 2019-07-05 2019-10-15 北京可信华泰信息技术有限公司 可信策略的更新方法及装置、可信安全管理平台
CN110285330A (zh) * 2019-07-11 2019-09-27 重庆大学 一种基于局部离群因子的水务网管网爆管检测方法
CN110285330B (zh) * 2019-07-11 2021-08-10 重庆大学 一种基于局部离群因子的水务网管网爆管检测方法
CN111159001A (zh) * 2019-12-31 2020-05-15 青岛海尔科技有限公司 用于操作系统的检测方法及装置、服务器
CN111510340A (zh) * 2020-03-10 2020-08-07 北京三快在线科技有限公司 访问请求检测方法、装置、电子设备及可读存储介质
CN111367765A (zh) * 2020-03-17 2020-07-03 深圳市卡牛科技有限公司 接口响应性能的监控方法、装置、服务器和存储介质
CN111666187B (zh) * 2020-05-20 2023-07-04 北京百度网讯科技有限公司 用于检测异常响应时间的方法和装置
CN111666187A (zh) * 2020-05-20 2020-09-15 北京百度网讯科技有限公司 用于检测异常响应时间的方法和装置
CN111726341A (zh) * 2020-06-02 2020-09-29 五八有限公司 一种数据检测方法、装置、电子设备及存储介质
CN111800477A (zh) * 2020-06-15 2020-10-20 浙江理工大学 一种面向边缘计算数据质量感知的区别化激励方法
CN111800477B (zh) * 2020-06-15 2022-09-23 浙江理工大学 一种面向边缘计算数据质量感知的区别化激励方法
CN112099983A (zh) * 2020-09-22 2020-12-18 北京知道创宇信息技术股份有限公司 服务异常处理方法、装置、电子设备和计算机可读存储介质
CN112954302A (zh) * 2021-01-06 2021-06-11 中国移动通信集团广东有限公司韶关分公司 基于离群点算法的iptv/家宽分段隐患检测方法及装置
CN112954302B (zh) * 2021-01-06 2022-08-23 中国移动通信集团广东有限公司韶关分公司 基于离群点算法的iptv/家宽分段隐患检测方法及装置
CN116609440A (zh) * 2023-05-22 2023-08-18 浙江嘉宇工程管理有限公司 基于云边协同的建筑工程质量智能验收管理方法及系统
CN116609440B (zh) * 2023-05-22 2023-11-28 浙江嘉宇工程管理有限公司 基于云边协同的建筑工程质量智能验收管理方法及系统
CN116613895A (zh) * 2023-07-21 2023-08-18 国网天津市电力公司信息通信公司 一种智能电网电力数据异常检测方法和系统
CN116613895B (zh) * 2023-07-21 2023-10-31 国网天津市电力公司信息通信公司 一种智能电网电力数据异常检测方法和系统

Also Published As

Publication number Publication date
CN109560984B (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN109560984A (zh) 一种网络服务响应时间异常检测方法及装置
Vilalta et al. Predicting rare events in temporal domains
CN109327320B (zh) 一种故障定界方法及设备
CN111680879B (zh) 一种考虑敏感负荷失效的配电网运行韧性评估方法及装置
EP2997756A1 (en) Method and network device for cell anomaly detection
CN110727257A (zh) 基于k均值聚类算法的设备运行诊断方法和装置
CN109934356A (zh) 一种基于大数据的机房巡检方法及相关设备
CN117411189B (zh) 一种微电网协调控制器的监测数据增强方法
CN112532643B (zh) 基于深度学习的流量异常检测方法、系统、终端及介质
CN111697590A (zh) 一种基于熵权法的电力系统关键节点识别方法及系统
CN110245168B (zh) 一种提取电网历史告警中异常事件特征信号的方法及系统
CN109039727A (zh) 基于深度学习的消息队列监控方法及装置
Pham et al. Reduced optimal power flow using graph neural network
CN115453356A (zh) 一种动力设备运行状态监测分析方法、系统、终端及介质
Zhu et al. Expanding a complex networked system for enhancing its reliability evaluated by a new efficient approach
CN104363129B (zh) 一种网络事件关联分析和动态预警方法
KR20200039877A (ko) 전력 부하 데이터의 패턴 변화 탐지 장치 및 방법
EP3391589B1 (en) Autonomic method for managing a computing system
Rafique et al. TSDN-enabled network assurance: A cognitive fault detection architecture
Mohiuddin et al. Deep learning based multi-label attack detection for distributed control of AC microgrids
Fathnia et al. Detection of anomalies in smart meter data: A density-based approach
CN115718691A (zh) 微服务系统的故障根因定位方法、装置和设备
Joga et al. A Comparative Technique to detect and classify Power Quality Disturbances with Noise Signals
CN116318386A (zh) 光模块的失效预测方法及其系统、存储介质
Peng et al. MAD-MulW: A Multi-Window Anomaly Detection Framework for BGP Security Events

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210316

Address after: 210000 Building 2, 699-19 Xuanwu Avenue, Xuanwu District, Nanjing City, Jiangsu Province

Applicant after: NANJING SUNING SOFTWARE TECHNOLOGY Co.,Ltd.

Address before: 210000, 1-5 story, Jinshan building, 8 Shanxi Road, Nanjing, Jiangsu.

Applicant before: SUNING GROUP Co.,Ltd.

GR01 Patent grant
GR01 Patent grant