CN113722186A - 一种异常检测方法、装置、电子设备及存储介质 - Google Patents

一种异常检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113722186A
CN113722186A CN202111046962.7A CN202111046962A CN113722186A CN 113722186 A CN113722186 A CN 113722186A CN 202111046962 A CN202111046962 A CN 202111046962A CN 113722186 A CN113722186 A CN 113722186A
Authority
CN
China
Prior art keywords
index
time period
abnormal
index set
indexes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111046962.7A
Other languages
English (en)
Other versions
CN113722186B (zh
Inventor
郭德
祝黄建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202111046962.7A priority Critical patent/CN113722186B/zh
Publication of CN113722186A publication Critical patent/CN113722186A/zh
Application granted granted Critical
Publication of CN113722186B publication Critical patent/CN113722186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种异常检测方法、装置、电子设备及存储介质,涉及互联网应用技术领域,上述方法包括:根据预先获取的监控数据确定目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量;得到上游指标中各指标与异常指标的相关系数并选取异常指标与对应相关系数最大的前N个上游指标组成异常指标集;根据异常指标集中各指标在第一时间段内的总数值量和第二时间段内的总数值量确定异常指标集中各指标对应多个预设影响因素的影响系数;针对异常指标集中各指标分别选取影响系数最大的预设影响因素向用户进行反馈使用户根据反馈进行异常定位,应用本发明实施例提供的方案检测异常,能够提高异常检测的效率。

Description

一种异常检测方法、装置、电子设备及存储介质
技术领域
本发明涉及互联网应用技术领域,特别是涉及一种异常检测方法、装置、电子设备及存储介质。
背景技术
随着互联网应用的普及,各种互联网应用平台也发生了飞速的发展。例如,线上广告投放平台目前已经成为主流的广告投放方式之一,通过该线上广告投放平台可以进行线上广告投放和管理。然而在实际应用过程中,由于软件故障、相关指标发生异常等原因,往往会导致互联网应用平台的某些指标发生异常。
然而,目前在对互联网应用平台进行监控时,一般是通过针对每一指标,将当前时刻的数值与历史数值进行对比,从而检测出发生异常的指标。通过该方法虽然可以检测出发生异常的指标,但无法确定指标发生异常的具体原因,检测效率较低。
发明内容
本发明实施例的目的在于提供一种异常检测方法、装置、电子设备及存储介质,以实现提高检测互联网应用平台异常的效率。具体技术方案如下:
第一方面,本发明实施例提供了一种异常检测方法,所述方法包括:
根据预先获取的监控数据,确定目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,其中,所述目标指标集包括异常指标和所述异常指标的至少一个上游指标;
基于目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,得到所述上游指标中各指标与所述异常指标的相关系数,并选取所述异常指标与对应所述标记后的相关系数最大的前N个上游指标组成异常指标集;
根据所述异常指标集中各指标在第一时间段内的总数值量和第二时间段内的总数值量,确定所述异常指标集中各指标对应多个预设影响因素的影响系数;
针对所述异常指标集中各指标,分别选取所述影响系数最大的预设影响因素向用户进行反馈,以使所述用户根据所述反馈进行异常定位。
本发明的一个实施例中,所述根据预先获取的监控数据,确定目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,包括:
根据预先获取的监控数据,获取所述目标指标集中各指标在所述第一时间段内和所述第二时间段内的多个监控数值;
针对所述目标指标集中各指标在所述第一时间段内和所述第二时间段内的多个监控数值,分别按照时间顺序进行排序,得到所述目标指标集中各指标在所述第一时间段内的数值序列和在所述第二时间段内的数值序列;
分别对所述第一时间段内的数值序列和所述第二时间段内的数值序列中的各监控数值与相邻监控数值求差,得到所述目标指标集中各指标在所述第一时间段内的数值变化量和所述第二时间段内的数值变化量。
本发明的一个实施例中,所述基于目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,得到所述上游指标中各指标与所述异常指标的相关系数,并选取所述异常指标与对应所述标记后的相关系数最大的前N个上游指标组成异常指标集,包括:
根据所述目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,计算所述上游指标中各指标与所述异常指标的相关系数;
将各所述上游指标的相关系数与该上游指标的数值标记相乘,得到各所述上游指标的标记后的相关系数,其中,当所述相关系数大于0时所述数值标记为1,当所述相关系数小于0时所述数值标记为-1;
针对各所述上游指标,选取对应所述标记后的相关系数最大的前N个,与所述异常指标组成异常指标集。
本发明的一个实施例中,所述根据所述异常指标集中各指标在第一时间段内的总数值量和第二时间段内的总数值量,确定所述异常指标集中各指标对应多个预设影响因素的影响系数,包括:
分别针对所述异常指标集中各指标在第一时间段内的各监控数值进行求和得到所述异常指标集中各指标在第一时间段内的总数值量,以及分别针对所述异常指标集中各指标在第二时间段内的各监控数值进行求和得到所述异常指标集中各指标在第二时间段内的总数值量;
针对所述异常指标集中各指标在第一时间段内的总数值量以所述第一时间段的时长进行归一化,针对所述异常指标集中各指标在第二时间段内的总数值量以所述第二时间段的时长进行归一化,得到所述异常指标集中各指标在第一时间段内归一化后的的总数值量和第二时间段内归一化后的总数值量;
分别对所述异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到并根据所述异常指标集中各指标的总变化量,计算所述异常指标集中各指标对应多个预设影响因素的影响系数。
本发明的一个实施例中,所述分别对所述异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到并根据所述异常指标集中各指标的总变化量,计算所述异常指标集中各指标对应多个预设影响因素的影响系数,包括:
分别对所述异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到所述异常指标集中各指标的总变化量;
针对所述异常指标集中各指标,根据各所述指标的总变化量计算所述异常指标集中各指标对应多个预设影响因素下的各项目的贡献度;
基于所述各预设影响因素下各项目的所述贡献度,计算所述异常指标集中各指标对应各预设影响因素的所述影响系数。
本发明的一个实施例中,所述针对所述异常指标集中各指标,根据各所述指标的总变化量计算所述异常指标集中各指标对应多个预设影响因素下的各项目的贡献度,包括:
针对所述异常指标集中各指标,根据各所述指标的总变化量,分别统计异常前后所述异常指标集中各指标对应各预设影响因素的各项目的数值变化量;
分别计算异常前后所述异常指标集中各指标对应各预设影响因素的各项目的数值变化量与所述异常指标集中各指标的异常前后的总变化量的比值,得到所述异常指标集中各指标对应多个预设影响因素下的各项目的贡献度。
本发明的一个实施例中,所述预设影响因素按阶层划分,其中,第i阶预设影响因素中包括i个影响因素,所述基于所述各预设影响因素下各项目的所述贡献度,计算所述异常指标集中各指标对应各预设影响因素的所述影响系数,包括:
针对所述异常指标集中各指标,分别选取所述预设影响因素中的各第i阶预设影响因素,基于各所述第i阶预设影响因素下各项目的贡献度,计算所述异常指标集中各指标在各第i阶预设影响因素下的影响系数;其中,i的初始值为1;
针对所述异常指标集中各指标,分别选取所述预设影响因素中的各第i+1阶预设影响因素,基于各所述第i阶预设影响因素下各项目的贡献度,计算所述异常指标集中各指标在各第i+1阶预设影响因素下的影响系数;
判断各所述第i+1阶预设影响因素下的影响系数是否均小于所述第i阶预设影响因素下的影响系数;
若否,将i值增加1,返回执行步骤:针对所述异常指标集中各指标,分别选取所述预设影响因素中的各第i阶预设影响因素,基于各所述第i阶预设影响因素下各项目的贡献度,计算所述异常指标集中各指标在各第i阶预设影响因素下的影响系数。
第二方面,本发明实施例还提供了一种异常检测装置,所述装置包括:
数值变化量确定模块,用于根据预先获取的监控数据,确定目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,其中,所述目标指标集包括异常指标和所述异常指标的至少一个上游指标;
异常指标集获得模块,用于基于目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,得到所述上游指标中各指标与所述异常指标的相关系数,并选取所述异常指标与对应所述标记后的相关系数最大的前N个上游指标组成异常指标集;
影响系数确定模块,用于根据所述异常指标集中各指标在第一时间段内的总数值量和第二时间段内的总数值量,确定所述异常指标集中各指标对应多个预设影响因素的影响系数;
异常定位反馈模块,用于针对所述异常指标集中各指标,分别选取所述影响系数最大的预设影响因素向用户进行反馈,以使所述用户根据所述反馈进行异常定位。
本发明的一个实施例中,所述数值变化量确定模块,具体用于:
根据预先获取的监控数据,获取所述目标指标集中各指标在所述第一时间段内和所述第二时间段内的多个监控数值;
针对所述目标指标集中各指标在所述第一时间段内和所述第二时间段内的多个监控数值,分别按照时间顺序进行排序,得到所述目标指标集中各指标在所述第一时间段内的数值序列和在所述第二时间段内的数值序列;
分别对所述第一时间段内的数值序列和所述第二时间段内的数值序列中的各监控数值与相邻监控数值求差,得到所述目标指标集中各指标在所述第一时间段内的数值变化量和所述第二时间段内的数值变化量。
本发明的一个实施例中,所述异常指标集获得模块,具体用于:
根据所述目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,计算所述上游指标中各指标与所述异常指标的相关系数;
将各所述上游指标的相关系数与该上游指标的数值标记相乘,得到各所述上游指标的标记后的相关系数,其中,当所述相关系数大于0时所述数值标记为1,当所述相关系数小于0时所述数值标记为-1;
针对各所述上游指标,选取对应所述标记后的相关系数最大的前N个,与所述异常指标组成异常指标集。
本发明的一个实施例中,所述影响系数确定模块,包括:
总数值量获得子模块,用于分别针对所述异常指标集中各指标在第一时间段内的各监控数值进行求和得到所述异常指标集中各指标在第一时间段内的总数值量,以及分别针对所述异常指标集中各指标在第二时间段内的各监控数值进行求和得到所述异常指标集中各指标在第二时间段内的总数值量;
总数值量归一化子模块,用于针对所述异常指标集中各指标在第一时间段内的总数值量以所述第一时间段的时长进行归一化,针对所述异常指标集中各指标在第二时间段内的总数值量以所述第二时间段的时长进行归一化,得到所述异常指标集中各指标在第一时间段内归一化后的的总数值量和第二时间段内归一化后的总数值量;
影响系数计算子模块,用于分别对所述异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到并根据所述异常指标集中各指标的总变化量,计算所述异常指标集中各指标对应多个预设影响因素的影响系数。
本发明的一个实施例中,所述影响系数计算子模块,包括:
总变化量计算单元,用于分别对所述异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到所述异常指标集中各指标的总变化量;
贡献度计算单元,用于针对所述异常指标集中各指标,根据各所述指标的总变化量计算所述异常指标集中各指标对应多个预设影响因素下的各项目的贡献度;
影响系数计算单元,用于基于所述各预设影响因素下各项目的所述贡献度,计算所述异常指标集中各指标对应各预设影响因素的所述影响系数。
本发明的一个实施例中,所述贡献度计算单元,包括:
数值变化量统计子单元,用于针对所述异常指标集中各指标,根据各所述指标的总变化量,分别统计异常前后所述异常指标集中各指标对应各预设影响因素的各项目的数值变化量;
贡献度计算子单元,用于分别计算异常前后所述异常指标集中各指标对应各预设影响因素的各项目的数值变化量与所述异常指标集中各指标的异常前后的总变化量的比值,得到所述异常指标集中各指标对应多个预设影响因素的贡献度。
本发明的一个实施例中,所述预设影响因素按阶层划分,其中,第i阶预设影响因素中包括i个影响因素,所述影响系数计算单元,具体用于:
针对所述异常指标集中各指标,分别选取所述预设影响因素中的各第i阶预设影响因素,基于各所述第i阶预设影响因素下各项目的贡献度,计算所述异常指标集中各指标在各第i阶预设影响因素下的影响系数;其中,i的初始值为1;
针对所述异常指标集中各指标,分别选取所述预设影响因素中的各第i+1阶预设影响因素,基于各所述第i阶预设影响因素下各项目的贡献度,计算所述异常指标集中各指标在各第i+1阶预设影响因素下的影响系数;
判断各所述第i+1阶预设影响因素下的影响系数是否均小于所述第i阶预设影响因素下的影响系数;
若否,将i值增加1,返回执行步骤:针对所述异常指标集中各指标,分别选取所述预设影响因素中的各第i阶预设影响因素,基于各所述第i阶预设影响因素下各项目的贡献度,计算所述异常指标集中各指标在各第i阶预设影响因素下的影响系数。
第三方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述实施例任一所述的方法步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例任一所述的方法步骤。
本发明实施例提供的异常检测方法,通过根据预先获取的监控数据,确定目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,进而得到上游指标中各指标与异常指标的相关系数,并选取异常指标与对应标记后的相关系数最大的前N个上游指标组成异常指标集;根据异常指标集中各指标在第一时间段内的数值变化量和第二时间段内的数值变化量,确定异常指标集中各指标在多个预设影响因素下的影响系数;选取异常指标集中各指标影响系数最大的影响因素向用户进行反馈,以使用户根据反馈进行异常定位。
本发明实施例根据异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量来确定异常指标与各上游指标的相关系数,由于相关系数的大小可以表示指标之间的相关性,所以根据相关系数的大小能够确定与异常指标紧密程度最高的前N个上游指标,再确定前N个上游指标分别对应的影响系数最大的影响因素,能够体现最有可能导致指标发生异常的原因,向用户反馈以使用户根据反馈的指标和影响因素更加准确地进行异常定位,从而提高互联网应用平台异常的检测效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种异常检测方法的流程示意图;
图2为本发明实施例中步骤S11的一种可能的实现方式的示意图;
图3为本发明实施例中步骤S12的一种可能的实现方式的示意图;
图4为本发明实施例中步骤S13的一种可能的实现方式的示意图;
图5为本发明实施例中步骤S133的一种可能的实现方式的示意图;
图6为本发明实施例中步骤S1332的一种可能的实现方式的示意图;
图7为本发明实施例中步骤S1333的一种可能的实现方式的示意图;
图8为本发明实施例提供的一种异常检测装置的结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为解决现有技术在进行异常检测时,无法检测到发生异常的指标的具体影响因素,检测效率低的问题,本发明实施例提供了一种异常检测方法、装置、电子设备及存储介质。
本发明的一个实施例中,提供了一种异常检测方法,上述方法包括:
根据预先获取的监控数据,确定目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,其中,目标指标集包括异常指标和所述异常指标的至少一个上游指标;
基于目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,得到上游指标中各指标与异常指标的相关系数,并选取所述异常指标与对应所述标记后的相关系数最大的前N个上游指标组成异常指标集;
根据异常指标集中各指标在第一时间段内的总数值量和第二时间段内的总数值量,确定异常指标集中各指标对应多个预设影响因素的影响系数;
针对异常指标集中各指标,分别选取影响系数最大的预设影响因素向用户进行反馈,以使用户根据所述反馈进行异常定位。
由此可见,应用上述实施例提供的方法,根据异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量来确定异常指标与各上游指标的相关系数,由于相关系数的大小可以表示指标之间的相关性,所以根据相关系数的大小能够确定与异常指标紧密程度最高的前N个上游指标,再确定前N个上游指标分别对应的影响系数最大的影响因素,能够体现最有可能导致指标发生异常的原因,向用户反馈以使用户根据反馈的指标和影响因素更加准确地进行异常定位,从而提高互联网应用平台异常的检测效率。
下面通过具体实施例对本发明实施例提供的异常检测方法进行详细说明。
参见图1,提供了一种异常检测方法的流程示意图,上述方法包括以下步骤S11-S14。
步骤S11:根据预先获取的监控数据,确定目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量。
其中,目标指标集包括异常指标和所述异常指标的至少一个上游指标。
异常指标可以是发生异常情况的指标,例如,对用于进行广告的上线和运行中的广告平台进行监控时,当广告收入发生异常波动,对广告收入进行分析时可以认为广告收入就是异常指标。上游指标可以是指,该上游指标的变化会导致对应的异常指标发生变化的指标。例如,当广告的曝光量发生变化时,会导致广告收入随之发生变化,则可以认为广告的曝光量是广告收入的上游指标。
本发明的一个实施例中,上述预先获取的监控数据可以基于监控平台获取。监控平台可以每间隔预设时长记录各指标当前的监控数值,并保存。具体的,预设时间间隔可以为30秒、1分钟或5分钟等,可以根据实际需求来调整。异常前的第一时间段可以是人为选取的异常前的一段时间,可以是一小时、三小时或者五小时等,可以根据实际需求进行选取。异常后的第二时间段可以是异常发生的时刻到当前时刻的这一时间段,或异常发生后人为选取的一段时间。
其中,计算目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,可以计算目标指标集中各指标在异常前的第一时间段内和异常后的第二时间段内,每个预设时长的时间间隔前后的数值变化量。例如,第一时间段为8:00到10:00,共2小时,预设时间间隔为1分钟,可以分隔1分钟获取一次各指标当前的数值,然后计算该1分钟前后的各指标的数值变化量,得到第一时间段内的数值变化量,如,监控得到,8:00广告收入为100万,8:01广告收入为120万,则广告收入在该1分钟内的变化量为20万。
本申请实施例的方法应用于智能终端,可以通过智能终端实施,在实际使用过程中,该智能终端可以是可以是对自身的异常或自身运行的程序的异常进行检测,也可以是单独的专门用于进行异常检测的设备。具体的,该智能终端可以是电脑、服务器等。
步骤S12:基于目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,得到上游指标中各指标与异常指标的相关系数,并选取异常指标与对应标记后的相关系数最大的前N个上游指标组成异常指标集。
本发明的一个实施例中,上游指标中各指标与异常指标的相关系数可以用于表示上游指标中各指标与异常指标之间的相关性。一个例子中,相关系数可以是皮尔逊相关系数,并且皮尔逊相关系数的取值可以在(-1,1)范围内。在计算得到上游指标中各指标与异常指标的相关系数之后,可以对所得到的各指标的相关系数进行排序,将相关系数最大的一个或多个上游指标与异常指标组成异常指标集。
步骤S13:根据异常指标集中各指标在第一时间段内的总数值量和第二时间段内的总数值量,确定异常指标集中各指标对应多个预设影响因素的影响系数。
上述预设影响因素可以是预先已知的各指标对应的影响因素,各指标可以分别对应一个或多个预设影响因素。在不同的预设影响因素下,指标的数值量是不同的。各指标的总数值量可以是该指标所对应的各预设影响因素下对应的数值量的总和。不同的指标对应的预设影响因素可以不同,也可以相同。不同的指标在同一个预设影响因素下的数值量可以不同。例如,预设影响因素可以是地域、广告主、曝光量等,各指标可以只对应其中一个预设影响因素,也可以对应这三个预设影响因素,并且各指标在地域、广告主、曝光量的数值量可以不同。
一个例子中,计算异常指标集中各指标对应多个预设影响因素的影响系数,可以是分别计算各指标对应不同预设影响因素的影响系数,例如,异常指标集中可以包括广告曝光量和广告收入,而预设影响因素中可以包括地域和广告主,那么计算异常指标集中各指标对应多个预设影响因素的影响系数,可以是计算广告曝光量分别对应地域和广告主这两个影响因素的影响系数,以及计算广告收入分别对应地域和广告主这两个影响因素的影响系数。
上述预设影响因素的影响系数可以是一个表示预设影响因素之间离散程度的系数,可以用于表示各影响因素对于异常指标集中各指标的总数值量产生影响的程度,影响系数越大,可以认为该预设影响因素越有可能存在导致异常发生的原因。上述影响系数可以是泰尔系数、基尼系数等。
步骤S14:针对异常指标集中各指标,分别选取影响系数最大的预设影响因素向用户进行反馈,以使用户根据反馈进行异常定位。
上述选取影响系数最大的预设影响因素,可以是选取影响系数最大的一个或多个预设影响因素。向用户反馈所得到的影响因素,使得用户可以根据反馈定位异常是发生在一个或多个上游指标对应的一个或多个影响因素发生了异常。例如,向用户反馈的可以是广告曝光量这个指标对应的地域这个影响因素,用户可以根据反馈得知广告曝光量在地域这个影响因素下发生了异常,并对各个地域的广告曝光量进行检测判断异常的原因。
由以上可知,应用本发明实施例提供的异常检测方法,根据异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量来确定异常指标与各上游指标的相关系数,由于相关系数的大小可以表示指标之间的相关性,所以根据相关系数的大小能够确定与异常指标紧密程度最高的前N个上游指标,再确定前N个上游指标分别对应的影响系数最大的影响因素,能够体现最有可能导致指标发生异常的原因,向用户反馈以使用户根据反馈的指标和影响因素更加准确地进行异常定位,从而提高互联网应用平台异常的检测效率。
在一种可能的实施方式中,参见图2,上述步骤S11根据预先获取的监控数据,确定目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,包括:
S111:根据预先获取的监控数据,获取目标指标集中各指标在第一时间段内和第二时间段内的多个监控数值。
由于监控数据可以包括后台监控设备在每个预设时间间隔之后,记录下来的平台各指标的监控数值,其中,可以包括目标指标集中各指标在各个时间段内的监控数值。因此,可以从监控数据中提取目标指标集中各指标在第一时间段和第二时间段内的所有监控数值。
S112:针对目标指标集中各指标在第一时间段内和第二时间段内的多个监控数值,分别按照时间顺序进行排序,得到目标指标集中各指标在第一时间段内的数值序列和在第二时间段内的数值序列。
S113:分别对第一时间段内的数值序列和第二时间段内的数值序列中的各监控数值与相邻监控数值求差,得到目标指标集中各指标在第一时间段内的数值变化量和第二时间段内的数值变化量。
本发明的一个实施例中,按照时间顺序对目标指标集中各指标在第一时间段内和第二时间段内的多个监控数值进行排序,得到各指标在第一时间段内的数值序列和第二时间段内的数值序列。对于所得到的各数值序列,可以将各数值序列中的各监控数值分别与同序列中相邻的监控数值求差,所得到的各指标在第一时间段内和第二时间段内的数值变化量,可以是第一时间段内和第二时间段内的数值变化量序列。其中,将各数值序列中的各监控数值分别与同序列中相邻的监控数值求差,可以将各数值序列中的各监控数值分别与同序列中前一或后一相邻的监控数值求差例如,根据时间顺序排序得到的数值序列为a、b、c、d、e、f,则通过与相邻监控数值求差,得到的数值变化量为a-b、b-c、c-d、d-e、e-f。
由以上可知,应用本发明实施例提供的异常检测方法,可以对平台各指标的监控数值进行及时的记录,从记录下来的监控数据中提取目标指标集中各指标在第一时间段和第二时间段内的监控数值,并基于所提取的监控数值来得到各指标在第一时间段内和第二时间段内的数值变化量,从而准确地获取目标指标集中各指标在所需的第一时间段内和第二时间段内监控数值的变化量。
在一种可能的实施方式中,参见图3,上述步骤S12基于目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,得到上游指标中各指标与异常指标的相关系数,并选取异常指标与对应标记后的相关系数最大的前N个上游指标组成异常指标集,包括:
S121:根据目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,计算上游指标中各指标与异常指标的相关系数。
S122:将各上游指标的相关系数与该上游指标的数值标记相乘,得到各上游指标的标记后的相关系数。
其中,当相关系数大于0时数值标记为1,当相关系数小于0时数值标记为-1。
S123:针对各上游指标,选取对应标记后的相关系数最大的前N个,与异常指标组成异常指标集。
本发明的一个实施例中,上述计算上游指标中各指标与异常指标的相关系数,可以是计算各上游指标与异常指标的皮尔逊相关系数:首先分别计算得到各上游指标在第一时间段内和第二时间段内的数值变化量,与异常指标在第一时间段和第二时间段内的数值变化量的协方差,然后用所得到的协方差来分别除以各指标在第一时间段内和第二时间段内的数值变化量的标准差与异常指标在第一时间段内和第二时间段内的数值变化量的标准差的乘积,所得到的结果可以作为各上游指标与异常指标的皮尔逊相关系数。
例如,计算异常指标的数值变化量A和某上游指标的数值变化量B协方差为cov,计算异常指标的数值变化量A的标准差为sigma_a,某上游指标的数值变化量B的标准差为sigma_b,那么按照以下公式计算可以得到某上游指标与异常指标的皮尔逊相关系数Pearson:
Figure BDA0003249935110000141
上述计算得到的各上游指标与异常指标的皮尔逊相关系数的值可以总是在[-1,1]之间。其中,当该上游指标与异常指标正相关时,也可以说当异常指标的数值会随着该上游指标的数值增大而增大时,该上游指标的数值标记为1,且该上游指标与异常指标的皮尔逊相关系数的值可以在(0,1)之间。当该上游指标与异常指标负相关时,也可以说当异常指标的数值会随着该上游指标的数值增大而减小时,该上游指标的数值标记为-1,且该上游指标与异常指标的皮尔逊相关系数的值可以在(-1,0)之间。则将各上游指标的皮尔逊相关系数与该上游指标的数值标记相乘,可以得到各上游指标的皮尔逊相关系数的绝对值,可以将各上游指标的皮尔逊相关系数的绝对值作为各上游指标的标记后的皮尔逊相关系数。
一个例子中,可以通过各上游指标标记后的皮尔逊相关系数的取值范围,来判断该上游指标与异常指标之间的关联性。具体的,标记后的皮尔逊相关系数的取值范围所对应的关联性,可以如下表所示:
表1皮尔逊标记后的相关系数取值范围与关联性
Figure BDA0003249935110000142
Figure BDA0003249935110000151
另外,可以对各上游指标的标记后的皮尔逊相关系数进行排序,其排序可以与标记后的皮尔逊相关系数的数值大小正相关,即标记后的皮尔逊相关系数越大,该上游指标的排序越靠前。选取排序最靠前的一个或多个上游指标与异常指标组成异常指标集,也可以说是选取与异常指标关联性最强的一个或多个上游指标与异常指标组成异常指标集。
由以上可知,应用本发明实施例提供的异常检测方法,通过计算各上游指标与异常指标标记后的相关系数,由于标记后的相关系数大小,可以表示该各上游指标与异常指标的关联性强弱程度,那么选取标记后的相关系数最大的前N个上游指标,即选取了与异常指标关联性最强的前N个上游指标,这些与异常指标关联性强的上游指标能够反映出更多异常发生的原因,从而提高对异常的检测效率。
在一种可能的实施方式中,参见图4,上述步骤S13根据异常指标集中各指标在第一时间段内的总数值量和第二时间段内的总数值量,计算异常指标集中各指标对应多个预设影响因素的影响系数,包括:
S131:分别针对异常指标集中各指标在第一时间段内的各监控数值进行求和得到异常指标集中各指标在第一时间段内的总数值量,以及分别针对所述异常指标集中各指标在第二时间段内的各监控数值进行求和得到异常指标集中各指标在第二时间段内的总数值量。
上文提到,通过将目标指标集中各指标第一时间段内和第二时间段内的数值序列中的各监控数值,从中可以提取出异常指标集中各指标在第一时间段内和第二时间段内的各监控数值,分别对异常指标集中各指标在第一时间段内的各监控数值求和,可以得到各指标在第一时间段内的总数值量,同样的,分别对异常指标集中各指标在第二时间段内的各监控数值求和,可以得到各指标在第二时间段内的总数值量。
S132:针对异常指标集中各指标在第一时间段内的总数值量以第一时间段的时长进行归一化,针对异常指标集中各指标在第二时间段内的总数值量以第二时间段的时长进行归一化,得到异常指标集中各指标在第一时间段内归一化后的的总数值量和第二时间段内归一化后的总数值量。
一个例子中,针对异常指标集中各指标在第一时间段内的总数值量以第一时间段的时长进行归一化,同时针对异常指标集中各指标在第二时间段内的总数值量以第二时间段的时长进行归一化,可以是用各指标在该时间段内的总数值量来除以时长,所得到的结果可以是异常指标集中各指标分别在异常前和异常后单位时间间隔内的数值量。
例如,第一时间段的时间间隔为5小时,第二时间段的时间间隔为3小时,分别对异常指标集中各指标在第一时间段内和第二时间段内的总数值量进行小时级的归一化,即可以将各指标在第一时间段内的总数值量除以5,在第二时间段内的总数值量除以3,最终可以得到各指标分别在第一时间段内和第二时间段内的1小时内的数值量。
一个例子中,在针对异常指标集中各指标在第一时间段内和第二时间段内的总数值量进行归一化处理时,可以先判断第一时间段与第二时间段的时长是否一致,若一致,则不需要对各指标在第一时间段内和第二时间段内的总数值量进行归一化处理,而是直接对各指标在第一时间段内和第二时间段内的总数值量进行后续处理,例如求差等;若第一时间段与第二时间段的时长不一致,则对各指标在第一时间段内和第二时间段内的总数值量按照上述归一化方式进行归一化处理。
S133:分别对异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到并根据异常指标集中各指标的总变化量,计算异常指标集中各指标对应多个预设影响因素的影响系数。
例如,异常指标集中的指标可以包括广告的曝光量,第一时间段的时间间隔为5小时,且曝光量在第一时间段内的总数值量为100,第二时间段的时间间隔为3小时,且曝光量在第二时间段内的总数值量为30,分别对曝光量在第一时间段内和第二时间段内的总数值量进行小时级的归一化,即可以将曝光量在第一时间段内的总数值量100除以5,在第二时间段内的总数值量30除以3,最终可以得到曝光量在第一时间段内和第二时间段内的1小时内的数值量分别为20和10,那么曝光量的总变化量即为20和10求差得到的10。
由以上可知,应用本发明实施例提供的异常检测方法,以平均化的思想来获得各指标在第一时间段内和第二时间段内的总数值量,对各指标在第一时间段内和第二时间段内的总数值量求差得到各指标的总变化量,基于此来计算各指标对应多个预设影响因素的影响系数,能够得到更加准确的结果,从而提高异常检测的准确性。
在一种可能的实施方式中,参见图5,上述步骤S133分别对异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到并根据异常指标集中各指标的总变化量,计算异常指标集中各指标对应多个预设影响因素的影响系数,包括:
S1331:分别对异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到异常指标集中各指标的总变化量。
S1332:针对异常指标集中各指标,根据各指标的总变化量计算异常指标集中各指标对应多个预设影响因素下的各项目的贡献度。
S1333:基于预设影响因素下各项目的贡献度,计算异常指标集中各指标对应各预设影响因素的影响系数。
上述各项目可以是基于各预设影响因素下的多个分类,异常指标集中各指标在不同分类下的总数值量可以不同。例如,预设影响因素中可以包括时间、地域和广告主。那么,时间这个预设影响因素下包括的项目可以有上午9点-上午10点、上午10点到上午11点等;地域这个预设影响因素下包括的项目可以有地区A、地区B等;广告主这个预设影响因素下包括的项目可以有A广告主、B广告主等。
上文提到,预设影响因素对各指标的总数值变化量产生影响,各项目的贡献度可以表示各预设影响因素下该项目对各指标的总数值变化量产生的影响。
根据异常指标集中各指标对应的总变化量,可以得到各指标对应上述各预设影响因素下各项目的总数值量。基于这样的总数值量来计算各项目的贡献度,进而来计算各预设影响因素的影响系数。
由以上可知,应用本发明实施例提供的异常检测方法,基于异常指标集中各指标对应的总变化量来计算各指标对应各预设影响因素下各项目的贡献度,再基于贡献度来计算各预设影响因素的影响系数,能够对各预设影响因素进一步划分,从而在异常检测过程中能够对异常指标集中各指标的异常发生的位置进行更加准确地定位。
在一种可能的实施方式中,参见图6,上述步骤S1332针对异常指标集中各指标,根据各指标的总变化量计算异常指标集中各指标对应多个预设影响因素下的各项目的贡献度,包括:
S13321:针对异常指标集中各指标,根据各指标的总变化量,分别统计异常前后异常指标集中各指标对应各预设影响因素的各项目的数值变化量。
S13322:分别计算异常前后异常指标集中各指标对应各预设影响因素的各项目的数值变化量与异常指标集中各指标的异常前后的总变化量的比值,得到异常指标集中各指标对应多个预设影响因素下的各项目的贡献度。
上文提到,不同项目对应的异常指标集中各指标的数值变化量可以是不同的,统计各预设影响因素下的各项目对应的各指标的异常前后数值变化量,再除以异常前后各指标数值的总变化量,可以得到各预设影响因素下的各项目的贡献度。
例如,若异常指标集中的指标有广告的曝光量,预设影响因素为地域,该预设影响因素下可以分为地区A、地区B等项目,那么统计地区A、地区B等项目对应的广告曝光量在异常前后的数值变化量,来除以异常前后广告曝光量数值的总变化量,可以得到地区A、地区B等项目的贡献度。
由以上可知,应用本发明实施例提供的异常检测方法,基于异常前后异常指标集中各指标对应各预设影响因素下的各项目的数值变化量和各指标在异常前后的数值总变化量来计算各预设影响因素下各项目的贡献度,能够对各指标对应的各预设影响因素进一步划分,从而在异常检测过程中能够对异常指标集中各指标的异常发生的位置进行更加准确地定位。
在一种可能的实施方式中,参见图7,预设影响因素按阶层划分,其中,第i阶预设影响因素中包括i个影响因素,上述步骤S1333基于各预设影响因素下各项目的贡献度,计算异常指标集中各指标对应各预设影响因素的影响系数,包括:
S13331:针对异常指标集中各指标,分别选取预设影响因素中的各第i阶预设影响因素,基于各第i阶预设影响因素下各项目的贡献度,计算异常指标集中各指标在各第i阶预设影响因素下的影响系数。
其中,i的初始值为1。
预设影响因素可以为单一影响因素组成的第一阶预设影响因素,例如,分别由时间、地域、广告主这三个影响因素各自组成的三个第一阶预设影响因素,此时第一阶预设影响因素对应的项目可以是时间、地域、广告主这三个预设影响因素分别对应的项目;预设影响因素也可以为i个影响因素组成的第i阶预设影响因素,例如,由时间和地域共同组成的第二阶预设影响因素,第二阶预设影响因素对应的项目可以由时间和地域分别对应的项目组合构成,由时间、地域和广告主共同组成的第三阶预设影响因素,第三阶预设影响因素对应的项目可以由时间、地域、广告主分别对应的项目组合构成。
一个例子中,可以对多个预设影响因素进行预先排序,得到一个预设的预设影响因素序列。在确定第i阶预设影响因素对应的项目时,可以按照预设影响因素序列中各预设影响因素的顺序,叠加各预设影响因素分别对应的项目。例如,若指标为曝光量,指标对应的第一阶预设影响因素为时间和地域这两个影响因素各自组成的两个预设影响因素,时间对应的项目包括:9点、10点,地域对应的项目包括:北方地区、南方地区;指标对应的第二阶预设影响因素为时间和地域两个影响因素共同组成的一个第二阶预设影响因素,且预设影响因素序列中时间的顺序在地域之前,则曝光量对应的第二阶预设影响因素的项目包括:9点的北方地区、9点的南方地区、10点的北方地区、10点的南方地区。
各第i阶预设影响因素下各项目的贡献度则可以由各项目对应异常指标集中各指标在异常前后的数值变化量除以各指标异常前后的数值总变化量来得到。
例如,由时间和地域共同组成的第二阶预设影响因素,计算其各项目对应的广告的曝光量的贡献度,可以分别计算上午9点地区A的广告曝光量、上午10点地区A的广告曝光量、上午9点地区B的广告曝光量、上午10点地区B的广告曝光量等,再分别除以异常前后广告曝光量的数值总变化量,来得到上午9点地区A对应广告曝光量的贡献度、上午10点地区A对应广告曝光量的贡献度、上午9点地区B对应广告曝光量的贡献度、上午10点地区B对应广告曝光量的贡献度等。
上文提到,预设影响因素的影响系数可以是一个表示预设影响因素之间离散程度的系数,可以用于表示各影响因素对于异常指标集中各指标的总数值量产生影响的程度。在本发明实施例中,影响系数可以是基尼系数,因此,上述对预设影响因素的影响系数的计算,可以是计算预设影响因素的基尼系数:首先计算得到该预设影响因素下的各项目的贡献度,然后可以将该预设影响因素下各项目的贡献度的数值,绘制在以该预设影响因素下各项目为横轴、贡献度数值为纵轴的坐标系中,并与横轴和纵轴取值均为最小值的点以及横轴和纵轴均为最大值的点相连,可以得到该预设影响因素下各项目的贡献度曲线。
再将横轴和纵轴取值均为最小值的点以及横轴和纵轴均为最大值的点直接相连,可以得到该预设影响因素下各项目的贡献度绝对平等直线。最后用贡献度绝对平等直线到贡献度曲线的面积的值除以贡献度绝对平等直线到纵轴的面积的值,所得到的值即可以为异常指标集中各指标在该预设影响因素的影响系数。
本发明的另一个实施例中,上述预设影响因素的基尼系数的计算,还可以按照下述方式:首先将该预设影响因素下的各项目对应的贡献度按照数值大小降序排列,然后依次累加,所得到的结果即可以为该预设影响因素的基尼系数。
例如,假设某预设影响因素下包括项目A、项目B和项目C,这三个项目对应的贡献度分别为0.5、0.2、0.3,对其降序排序后为0.5、0.3、0.2,依次累加可以为:0.5+(0.5+0.3)+(0.5+0.3+0.2)=2.3,那么该预设影响因素的影响系数即可以为2.3。
S13332:针对异常指标集中各指标,分别选取预设影响因素中的各第i+1阶预设影响因素,基于各第i阶预设影响因素下各项目的贡献度,计算异常指标集中各指标在各第i+1阶预设影响因素下的影响系数。
S13333:判断各第i+1阶预设影响因素下的影响系数是否均小于第i阶预设影响因素下的影响系数,若否,将i值增加1,返回执行步骤:针对异常指标集中各指标,分别选取预设影响因素中的各第i阶预设影响因素,基于各第i阶预设影响因素下各项目的贡献度,计算异常指标集中各指标在各第i阶预设影响因素下的影响系数。
本发明的一个实施例中,对于各单一影响因素组成的第一阶预设影响因素,可以将其两两组合成第二阶预设影响因素,来计算该第二阶预设影响因素的影响系数;对于各由两个影响因素组成的第二阶预设影响因素,可以继续增加影响因素的数量,来计算更高阶预设影响因素的影响系数。直到当各第i+1阶预设影响因素下的影响系数已经均小于第i阶预设影响因素下的影响系数,则可以停止增加影响因素数量,不再计算更高阶预设影响因素的影响系数。
此时,将异常指标集中各指标对应的各阶预设影响因素的影响系数按照数值大小进行降序排序,取影响系数最大的那个预设影响因素,可以表示最有可能发生异常的影响因素,而该预设影响因素下的对应贡献度最大的项目,可以表示该指标最有可能发生异常的位置。
例如,若广告曝光量对应的影响系数最大的预设影响因素为由时间和地域两个影响因素组成的第二阶预设影响因素,其对应贡献度最大的项目为上午10点的地区A,则可以表示广告曝光量的异常最有可能发生的位置是上午10点的地区A。
由以上可知,应用本发明实施例提供异常检测方法,计算异常指标集中各指标对应的各阶预设影响因素的影响系数,一直计算到更高阶预设影响因素的影响系数不再大于较低阶预设影响因素的影响系数为止。此时已经计算得到影响系数的各阶预设影响因素,则是可能与异常指标集中各指标发生的异常有关的影响因素。选取异常指标集中各指标对应影响系数最大的预设影响因素,可以表示该指标的异常最有可能发生的地方。
参见图8,本发明实施例还提供了一种异常检测装置的结构示意图,上述装置包括:
数值变化量确定模块801,用于根据预先获取的监控数据,确定目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,其中,目标指标集包括异常指标和异常指标的至少一个上游指标;
异常指标集获得模块802,用于基于目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,得到上游指标中各指标与异常指标的相关系数,并选取异常指标与对应标记后的相关系数最大的前N个上游指标组成异常指标集;
影响系数确定模块803,用于根据异常指标集中各指标在第一时间段内的总数值量和第二时间段内的总数值量,确定异常指标集中各指标对应多个预设影响因素的影响系数;
异常定位反馈模块804,用于针对异常指标集中各指标,分别选取影响系数最大的预设影响因素向用户进行反馈,以使用户根据反馈进行异常定位。
由以上可知,应用本发明实施例提供的异常检测装置,根据异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量来确定异常指标与各上游指标的相关系数,由于相关系数的大小可以表示指标之间的相关性,所以根据相关系数的大小能够确定与异常指标紧密程度最高的前N个上游指标,再确定前N个上游指标分别对应的影响系数最大的影响因素,能够体现最有可能导致指标发生异常的原因,向用户反馈以使用户根据反馈的指标和影响因素更加准确地进行异常定位,从而提高互联网应用平台异常的检测效率。
本发明的一个实施例中,数值变化量确定模块801,具体用于:
根据预先获取的监控数据,获取目标指标集中各指标在第一时间段内和第二时间段内的多个监控数值;
针对目标指标集中各指标在第一时间段内和第二时间段内的多个监控数值,分别按照时间顺序进行排序,得到目标指标集中各指标在第一时间段内的数值序列和在第二时间段内的数值序列;
分别对第一时间段内的数值序列和第二时间段内的数值序列中的各监控数值与相邻监控数值求差,得到目标指标集中各指标在第一时间段内的数值变化量和第二时间段内的数值变化量。
由以上可知,应用本发明实施例提供的异常检测装置,可以对平台各指标的监控数值进行及时的记录,从记录下来的监控数据中提取目标指标集中各指标在第一时间段和第二时间段内的监控数值,并基于所提取的监控数值来得到各指标在第一时间段内和第二时间段内的数值变化量,可以准确地获取目标指标集中各指标在所需的第一时间段内和第二时间段内监控数值的变化量。
本发明的一个实施例中,异常指标集获得模块802,具体用于:
根据目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,计算上游指标中各指标与异常指标的相关系数;
将各上游指标的相关系数与该上游指标的数值标记相乘,得到各上游指标的标记后的相关系数,其中,当相关系数大于0时数值标记为1,当相关系数小于0时数值标记为-1;
针对各上游指标,选取对应标记后的相关系数最大的前N个,与异常指标组成异常指标集。
由以上可知,应用本发明实施例提供的异常检测装置,通过计算各上游指标与异常指标标记后的相关系数,由于标记后的相关系数大小,可以表示该各上游指标与异常指标的关联性强弱程度,那么选取标记后的相关系数最大的前N个上游指标,即选取了与异常指标关联性最强的前N个上游指标,这些与异常指标关联性强的上游指标能够反映出更多异常发生的原因,从而提高对异常的检测效率。
本发明的一个实施例中,影响系数确定模块803,包括:
总数值量获得子模块,用于分别针对异常指标集中各指标在第一时间段内的各监控数值进行求和得到异常指标集中各指标在第一时间段内的总数值量,以及分别针对异常指标集中各指标在第二时间段内的各监控数值进行求和得到异常指标集中各指标在第二时间段内的总数值量;
总数值量归一化子模块,用于针对异常指标集中各指标在第一时间段内的总数值量以第一时间段的时长进行归一化,针对异常指标集中各指标在第二时间段内的总数值量以第二时间段的时长进行归一化,得到异常指标集中各指标在第一时间段内归一化后的的总数值量和第二时间段内归一化后的总数值量;
影响系数计算子模块,用于分别对异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到并根据异常指标集中各指标的总变化量,计算异常指标集中各指标对应多个预设影响因素的影响系数。
由以上可知,应用本发明实施例提供的异常检测装置,以平均化的思想来获得各指标在第一时间段内和第二时间段内的总数值量,对各指标在第一时间段内和第二时间段内的总数值量求差得到各指标的总变化量,基于此来计算各指标对应多个预设影响因素的影响系数,能够得到更加准确的结果,从而提高异常检测的准确性。
本发明的一个实施例中,影响系数计算子模块,包括:
总变化量计算单元,用于分别对异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到异常指标集中各指标的总变化量;
贡献度计算单元,用于针对异常指标集中各指标,根据各指标的总变化量计算异常指标集中各指标对应多个预设影响因素下的各项目的贡献度;
影响系数计算单元,用于基于各预设影响因素下各项目的贡献度,计算异常指标集中各指标对应各预设影响因素的影响系数。
由以上可知,应用本发明实施例提供的异常检测装置,基于异常指标集中各指标对应的总变化量来计算各指标对应各预设影响因素下各项目的贡献度,再基于贡献度来计算各预设影响因素的影响系数,能够对各预设影响因素进一步划分,从而在异常检测过程中能够对异常指标集中各指标异常发生的位置进行更加详细地定位。
本发明的一个实施例中,贡献度计算单元,包括:
数值变化量统计子单元,用于针对异常指标集中各指标,根据各指标的总变化量,分别统计异常前后异常指标集中各指标对应各预设影响因素的各项目的数值变化量;
贡献度计算子单元,用于分别计算异常前后异常指标集中各指标对应各预设影响因素的各项目的数值变化量与异常指标集中各指标的异常前后的总变化量的比值,得到异常指标集中各指标对应多个预设影响因素的贡献度。
由以上可知,应用本发明实施例提供的异常检测装置,基于异常前后异常指标集中各指标对应各预设影响因素下的各项目的数值变化量和各指标在异常前后的数值总变化量来计算各预设影响因素下各项目的贡献度,能够对各指标对应的各预设影响因素进一步划分,从而在异常检测过程中能够对异常指标集中各指标的异常发生的位置进行更加准确地定位。
本发明的一个实施例中,预设影响因素按阶层划分,其中,第i阶预设影响因素中包括i个影响因素,影响系数计算单元,具体用于:
针对异常指标集中各指标,分别选取预设影响因素中的各第i阶预设影响因素,基于各第i阶预设影响因素下各项目的贡献度,计算异常指标集中各指标在各第i阶预设影响因素下的影响系数;其中,i的初始值为1;
针对异常指标集中各指标,分别选取预设影响因素中的各第i+1阶预设影响因素,基于各第i阶预设影响因素下各项目的贡献度,计算异常指标集中各指标在各第i+1阶预设影响因素下的影响系数;
判断各第i+1阶预设影响因素下的影响系数是否均小于第i阶预设影响因素下的影响系数;
若否,将i值增加1,返回执行步骤:针对异常指标集中各指标,分别选取预设影响因素中的各第i阶预设影响因素,基于各第i阶预设影响因素下各项目的贡献度,计算异常指标集中各指标在各第i阶预设影响因素下的影响系数。
由以上可知,应用本发明实施例提供异常检测装置,计算异常指标集中各指标对应的各阶预设影响因素的影响系数,一直计算到更高阶预设影响因素的影响系数不再大于较低阶预设影响因素的影响系数为止。此时已经计算得到影响系数的各阶预设影响因素,则是可能与异常指标集中各指标发生的异常有关的影响因素。选取异常指标集中各指标对应影响系数最大的预设影响因素,可以表示该指标的异常最有可能发生的地方。
本发明实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现上述实施例中任一所述的异常检测方法。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的异常检测方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的异常检测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、存储介质和程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种异常检测方法,其特征在于,所述方法包括:
根据预先获取的监控数据,确定目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,其中,所述目标指标集包括异常指标和所述异常指标的至少一个上游指标;
基于所述目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,得到所述上游指标中各指标与所述异常指标的相关系数,并选取所述异常指标与对应所述相关系数最大的前N个上游指标组成异常指标集;
根据所述异常指标集中各指标在第一时间段内的总数值量和第二时间段内的总数值量,确定所述异常指标集中各指标对应多个预设影响因素的影响系数;
针对所述异常指标集中各指标,分别选取所述影响系数最大的预设影响因素向用户进行反馈,以使所述用户根据所述反馈进行异常定位。
2.根据权利要求1所述的方法,其特征在于,所述根据预先获取的监控数据,确定目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,包括:
根据预先获取的监控数据,获取所述目标指标集中各指标在所述第一时间段内和所述第二时间段内的多个监控数值;
针对所述目标指标集中各指标在所述第一时间段内和所述第二时间段内的多个监控数值,分别按照时间顺序进行排序,得到所述目标指标集中各指标在所述第一时间段内的数值序列和在所述第二时间段内的数值序列;
分别对所述第一时间段内的数值序列和所述第二时间段内的数值序列中的各监控数值与相邻监控数值求差,得到所述目标指标集中各指标在所述第一时间段内的数值变化量和所述第二时间段内的数值变化量。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,得到所述上游指标中各指标与所述异常指标的相关系数,并选取所述异常指标与对应所述相关系数最大的前N个上游指标组成异常指标集,包括:
根据所述目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,计算所述上游指标中各指标与所述异常指标的相关系数;
将各所述上游指标的相关系数与该上游指标的数值标记相乘,得到各所述上游指标标记后的相关系数,其中,当所述相关系数大于0时所述数值标记为1,当所述相关系数小于0时所述数值标记为-1;
针对各所述上游指标,选取对应所述标记后的相关系数最大的前N个,与所述异常指标组成异常指标集。
4.根据权利要求1所述的方法,其特征在于,所述根据所述异常指标集中各指标在第一时间段内的总数值量和第二时间段内的总数值量,确定所述异常指标集中各指标对应多个预设影响因素的影响系数,包括:
分别针对所述异常指标集中各指标在第一时间段内的各监控数值进行求和,得到所述异常指标集中各指标在第一时间段内的总数值量,以及分别针对所述异常指标集中各指标在第二时间段内的各监控数值进行求和得到所述异常指标集中各指标在第二时间段内的总数值量;
针对所述异常指标集中各指标在第一时间段内的总数值量以所述第一时间段的时长进行归一化,针对所述异常指标集中各指标在第二时间段内的总数值量以所述第二时间段的时长进行归一化,得到所述异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量;
分别对所述异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到并根据所述异常指标集中各指标的总变化量,计算所述异常指标集中各指标对应多个预设影响因素的影响系数。
5.根据权利要求4所述的方法,其特征在于,所述分别对所述异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到并根据所述异常指标集中各指标的总变化量,计算所述异常指标集中各指标对应多个预设影响因素的影响系数,包括:
分别对所述异常指标集中各指标在第一时间段内归一化后的总数值量和第二时间段内归一化后的总数值量求差,得到所述异常指标集中各指标的总变化量;
针对所述异常指标集中各指标,根据各所述指标的总变化量计算所述异常指标集中各指标对应多个预设影响因素下的各项目的贡献度;
基于所述各预设影响因素下各项目的所述贡献度,计算所述异常指标集中各指标对应各预设影响因素的所述影响系数。
6.根据权利要求5所述的方法,其特征在于,所述针对所述异常指标集中各指标,根据各所述指标的总变化量计算所述异常指标集中各指标对应多个预设影响因素下的各项目的贡献度,包括:
针对所述异常指标集中各指标,根据各所述指标的总变化量,分别统计异常前后所述异常指标集中各指标对应各预设影响因素的各项目的数值变化量;
分别计算异常前后所述异常指标集中各指标对应各预设影响因素的各项目的数值变化量与所述异常指标集中各指标的异常前后的总变化量的比值,得到所述异常指标集中各指标对应多个预设影响因素下的各项目的贡献度。
7.根据权利要求5所述的方法,其特征在于,所述预设影响因素按阶层划分,其中,第i阶预设影响因素中包括i个影响因素,所述基于所述各预设影响因素下各项目的所述贡献度,计算所述异常指标集中各指标对应各预设影响因素的所述影响系数,包括:
针对所述异常指标集中各指标,分别选取所述预设影响因素中的各第i阶预设影响因素,基于各所述第i阶预设影响因素下各项目的贡献度,计算所述异常指标集中各指标在各第i阶预设影响因素下的影响系数;其中,i的初始值为1;
针对所述异常指标集中各指标,分别选取所述预设影响因素中的各第i+1阶预设影响因素,基于各所述第i阶预设影响因素下各项目的贡献度,计算所述异常指标集中各指标在各第i+1阶预设影响因素下的影响系数;
判断各所述第i+1阶预设影响因素下的影响系数是否均小于所述第i阶预设影响因素下的影响系数;
若否,将i值增加1,返回执行步骤:针对所述异常指标集中各指标,分别选取所述预设影响因素中的各第i阶预设影响因素,基于各所述第i阶预设影响因素下各项目的贡献度,计算所述异常指标集中各指标在各第i阶预设影响因素下的影响系数。
8.一种异常检测装置,其特征在于,所述装置包括:
数值变化量确定模块,用于根据预先获取的监控数据,确定目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,其中,所述目标指标集包括异常指标和所述异常指标的至少一个上游指标;
异常指标集获得模块,用于基于目标指标集中各指标在异常前的第一时间段内的数值变化量和异常后的第二时间段内的数值变化量,得到所述上游指标中各指标与所述异常指标的相关系数,并选取所述异常指标与对应所述相关系数最大的前N个上游指标组成异常指标集;
影响系数确定模块,用于根据所述异常指标集中各指标在第一时间段内的总数值量和第二时间段内的总数值量,确定所述异常指标集中各指标对应多个预设影响因素的影响系数;
异常定位反馈模块,用于针对所述异常指标集中各指标,分别选取所述影响系数最大的预设影响因素向用户进行反馈,以使所述用户根据所述反馈进行异常定位。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202111046962.7A 2021-09-07 2021-09-07 一种异常检测方法、装置、电子设备及存储介质 Active CN113722186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111046962.7A CN113722186B (zh) 2021-09-07 2021-09-07 一种异常检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111046962.7A CN113722186B (zh) 2021-09-07 2021-09-07 一种异常检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113722186A true CN113722186A (zh) 2021-11-30
CN113722186B CN113722186B (zh) 2023-10-27

Family

ID=78682362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111046962.7A Active CN113722186B (zh) 2021-09-07 2021-09-07 一种异常检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113722186B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005738A (ja) * 2016-07-06 2018-01-11 株式会社日立製作所 データ分析誘導装置およびデータ分析誘導方法
US20180053207A1 (en) * 2016-08-16 2018-02-22 Adobe Systems Incorporated Providing personalized alerts and anomaly summarization
CN108346011A (zh) * 2018-05-15 2018-07-31 阿里巴巴集团控股有限公司 指标波动分析方法及装置
CN108829638A (zh) * 2018-06-01 2018-11-16 阿里巴巴集团控股有限公司 一种业务数据波动处理方法及装置
CN110163457A (zh) * 2018-02-14 2019-08-23 北京京东尚科信息技术有限公司 一种业务指标的异常定位方法和装置
CN111026570A (zh) * 2019-11-01 2020-04-17 支付宝(杭州)信息技术有限公司 用于确定业务系统异常原因的方法和装置
WO2020087829A1 (zh) * 2018-10-31 2020-05-07 深圳壹账通智能科技有限公司 数据趋势分析方法、系统、计算机装置及可读存储介质
CN111444075A (zh) * 2020-06-18 2020-07-24 南京开特信息科技有限公司 一种自动发现关键影响力指标的方法
CN113296992A (zh) * 2021-03-26 2021-08-24 阿里巴巴新加坡控股有限公司 异常原因确定方法、装置、设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005738A (ja) * 2016-07-06 2018-01-11 株式会社日立製作所 データ分析誘導装置およびデータ分析誘導方法
US20180053207A1 (en) * 2016-08-16 2018-02-22 Adobe Systems Incorporated Providing personalized alerts and anomaly summarization
CN110163457A (zh) * 2018-02-14 2019-08-23 北京京东尚科信息技术有限公司 一种业务指标的异常定位方法和装置
CN108346011A (zh) * 2018-05-15 2018-07-31 阿里巴巴集团控股有限公司 指标波动分析方法及装置
CN108829638A (zh) * 2018-06-01 2018-11-16 阿里巴巴集团控股有限公司 一种业务数据波动处理方法及装置
WO2020087829A1 (zh) * 2018-10-31 2020-05-07 深圳壹账通智能科技有限公司 数据趋势分析方法、系统、计算机装置及可读存储介质
CN111026570A (zh) * 2019-11-01 2020-04-17 支付宝(杭州)信息技术有限公司 用于确定业务系统异常原因的方法和装置
CN111444075A (zh) * 2020-06-18 2020-07-24 南京开特信息科技有限公司 一种自动发现关键影响力指标的方法
CN113296992A (zh) * 2021-03-26 2021-08-24 阿里巴巴新加坡控股有限公司 异常原因确定方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113722186B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN109165691B (zh) 用于识别作弊用户的模型的训练方法、装置及电子设备
CN110008247B (zh) 异常来源确定方法、装置、设备及计算机可读存储介质
CN108134944B (zh) 一种收入异常主播用户的识别方法、装置及电子设备
CN104636874A (zh) 检测业务异常的方法及设备
CN112132485A (zh) 一种指标数据处理方法、装置、电子设备及存储介质
CN113011899A (zh) 一种企业信用评价方法、装置、设备及计算机存储介质
CN110992135A (zh) 一种风险识别方法、装置、电子设备及存储介质
CN114444827A (zh) 一种集群性能的评估方法和装置
CN116822967A (zh) 一种工程项目造价风险管理方法及管理系统
CN110739081A (zh) 一种流动岗位作业人员职业健康风险评估方法及相关设备
CN110738417A (zh) 一种定点作业岗位工作环境安全风险评估方法及相关设备
Petrenko et al. Methodological recommendations for the cyber risks management
CN113722186A (zh) 一种异常检测方法、装置、电子设备及存储介质
CN112380073B (zh) 一种故障位置的检测方法、装置及可读存储介质
CN108959415B (zh) 一种异常维度定位方法、装置及电子设备
CN108664605A (zh) 一种模型评估方法及系统
CN111984455A (zh) 超时数据的检测方法、装置、服务器和计算机存储介质
CN116051185A (zh) 广告位数据的异常检测与筛选方法
CN112465546B (zh) 一种用户识别方法、装置及设备
CN113327336B (zh) 人车关系的识别方法、装置和电子设备
CN112866295B (zh) 一种大数据防爬虫处理方法及云平台系统
CN112685390B (zh) 数据库实例管理方法及装置、计算设备
CN108133021A (zh) 一种数据异常检测方法及装置
KR20140056801A (ko) 사용자의 구매 영향력 지수를 산출하는 방법 및 장치
CN111767938A (zh) 一种异常数据检测方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant