发明内容
本说明书实施例提供一种系统异常检测方法、装置和设备,用于解决如下问题:以提供一种更便利的系统异常检测方案。
基于此,本说明书实施例提供一种系统异常检测方法,包括:
针对任一时间点,基于预先确定的系统调用正常实例库,确定所述时间点的系统调用异常实例的占比值;
针对任一待检测时间点,获取与其时间间隔在指定范围内的其它时间点所对应的多个占比值;
去掉不符合预设条件的时间点,计算所述其它时间点的占比值的统计数据,其中,所述统计数据至少包括平均值和标准差;
根据所述待检测时间点所对应的占比值和所述统计数据,判定所述待检测时间点是否异常。
同时,本说明书的实施例还提供一种系统异常检测装置,包括:
确定模块,针对任一时间点,基于预先确定的系统调用正常实例库,确定所述时间点的系统调用异常实例的占比值;
获取模块,针对任一待检测时间点,获取与其时间间隔在指定范围内的其它时间点所对应的多个占比值;
计算模块,去掉不符合预设条件的时间点,计算所述其它时间点的占比值的统计数据,其中,所述统计数据至少包括平均值和标准差;
判定模块,根据所述待检测时间点所对应的占比值和所述统计数据,判定所述待检测时间点是否异常。
对应的,本说明书实施例还提供一种系统异常检测设备,包括:
存储器,存储有系统异常检测程序;
处理器,调用存储器中的异常检测程序,并执行:
针对任一时间点,基于预先确定的系统调用正常实例库,确定所述时间点的系统调用异常实例的占比值;
针对任一待检测时间点,获取与其时间间隔在指定范围内的其它时间点所对应的多个占比值;
去掉不符合预设条件的时间点,计算所述其它时间点的占比值的统计数据,其中,所述统计数据至少包括平均值和标准差;
根据所述待检测时间点所对应的占比值和所述统计数据,判定所述待检测时间点是否异常。
对应的,本说明书的实施例还提供一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
针对任一时间点,基于预先确定的系统调用正常实例库,确定所述时间点的系统调用异常实例的占比值;
针对任一待检测时间点,获取与其时间间隔在指定范围内的其它时间点所对应的多个占比值;
去掉不符合预设条件的时间点,计算所述其它时间点的占比值的统计数据,其中,所述统计数据至少包括平均值和标准差;
根据所述待检测时间点所对应的占比值和所述统计数据,判定所述待检测时间点是否异常。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过对系统调用数据的采集,生成系统调用实例库,将系统调用实例库中无法覆盖的实例转化为占比数据的形式。从而可以根据占比数据对系统调用的情况进行监控。通过对待检测点局部范围内的占比数据进行平滑,去掉其中的异常点,得到具有参考意义的统计数据,从而可以根据该待检测点的占比值和所述统计数据进行异常判断,大大降低系统维护人员的日常监控负担,提高了对系统异常的响应效率,降低了可能带来的损失和影响。。此外,还可以结合系统调用的数量,有效识别此时产生异常的因素是外部因素、内部因素或者全部因素。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着业务发展,系统所承载的调用也不断增加。为了监控系统的健康运行,系统中都会配置许多的量级监控,但随之而来的调用量的量级稍有波动都会触发大量报警,从而需要上线确认是否是本系统内部问题导致报警,增加了工作量且效率低下。
基于此,本说明书实施例提供一种系统异常检测方案,基于预先建立的实例库,判定各时间点上,系统调用的异常实例占比,形成占比数据集。从而,可以根据历史占比数据集和当前点的占比进行判定系统是否异常。
下面将详细说明本说明书的实施例提供的系统异常检测过程,如图1所示,图1为本说明书实施例所提供的系统异常检测的流程示意图,包括:
S101,针对任一时间点,基于预先确定的系统调用正常实例库,确定所述时间点的系统调用异常实例的占比值。
在实际应用中,系统对于自身被调用的情形可以实时监控,监控的频率可以根据实际需要设定。例如,每个10秒进行一次汇总,即每隔10秒有一个用于检测系统状态的时间点。
系统的接口每时每刻都接受调用方发起的处理请求,请求入参和返回结果不尽相同,在某个或某几个参数维度范围内,通过聚合相同参数值的调用,形成一定时间范围内(例如分钟范围,可基于实际需要指定)不同且唯一的调用形态,即为系统调用实例。决定实例的因素包括但不限于“接口、接口请求参数、接口返回参数、系统内部节点的有向无环结构等等”。容易理解,多个相同的系统调用将指向同一系统调用实例
工作人员可基于实际经验对系统调用实例进行正常或者异常的标注,或者根据数据算法做分析,对每个实例进行异常度打标,确定出其中的正常实例。大量不同的系统调用正常实例即形成系统调用正常实例库。
容易理解,系统调用实例库一般而言是基于一定时间内的历史数据聚合得到,其不可能覆盖所有的实际调用情形。在超大规模的实时系统调用下,其中总是有一些系统调用实例与系统调用正常实例库中的实例存在差异,甚至根本就在实例库中找不到,这样的系统调用实例可以称为系统调用异常实例(即使其中的某些异常实例是没有问题的,我们也根据实例库对比将其确定为异常实例)。进而,对于每一个时间点,都可以根据系统调用正常实例库确定在该时间点的系统调用异常实例的占比值。
S103,针对任一待检测时间点,获取与其时间间隔在指定范围内的其它时间点所对应的多个占比值。
对于实时的系统调用,可以根据实际情形设立连续的时间检测点。例如,每隔10秒检测一次。对于待检测时间点而言,需要判定它是否异常,由于系统调用的数量在不同时刻有差异,因此,最有效的参考数据就是与其时间间隔最近的历史数据。即,所述指定的时间间隔一般而言,可以设定为从待检测时间点开始,最近的一段时间(例如,60分钟)。从而,得到一段包括多个占比值的历史占比数据集。
S105,去掉不符合预设条件的时间点,计算所述其它时间点的占比值的统计数据,其中,所述统计数据至少包括平均值和标准差。
容易理解,在历史占比数据集中,可能会包括有某些调用数量激增或者激减的点异常点,这些点不具备参考价值,需要滤去。滤去的方式可以根据实际进行条件设定,例如,占比值与均值之差超过阈值的点,或者,方差过大的点,调用量超过或者低于阈值的点等等。从而剩下的数据即可认为是相对平稳正常的系统调用所对应的正常集合,可对该集合中的占比值进行统计,得到其平均值和标准差。
S107,根据所述待检测时间点所对应的占比值和所述统计数据,判定所述待检测时间点是否异常。
在一段范围的连续时点上,异常实例的占比总体维持在一个平稳的数值,正常情况下不会受到其它因素(例如调用量级)变化的影响。基于此,可以根据所述占比值和上述的统计值进行对比,确定待检测时间点是否异常。例如,可以计算待检测点的占比值与统计的平均值之差或者之商是否满足预设的阈值,是,则判定正常,否则异常;或者,可以计算待检测点的标准差是否符合预设条件,是,则判定正常,否则异常;或者,可以根据平均值和标准差确定一个占比值正常分布区间,若所述待检测点的占比值在该区间内则判定正常,反之异常等等。总之,在得到了统计值之后,可以根据实际的经验进行条件设定,来判定待检测点的系统调用是不是正常。
系统调用数据的采集,生成系统调用实例库,将系统调用实例库中无法覆盖的实例转化为占比数据的形式。从而可以根据占比数据对系统调用的情况进行监控。通过对待检测点局部范围内的占比数据进行平滑,去掉其中的异常点,得到具有参考意义的统计数据,从而可以根据该待检测点的占比值和所述统计数据进行异常判断,大大降低系统维护人员的日常监控负担,提高了对系统异常的响应效率,降低了可能带来的损失和影响。
在实际应用中,对于S101中的系统调用正常实例库,可由如下方式得到:
针对任一系统调用,获取其对应的系统调用参数,其中,所述调用参数包括接口名称、接口类型、接口入参、接口出参、系统处理拓扑结构、上下游系统信息或者处理耗时中的至少一种;聚合所述系统调用参数,生成多个不重复的系统调用实例,其中,一个系统调用唯一对应于一个系统调用实例;确定所述不重复的系统调用实例中的系统调用正常实例,建立所述系统调用正常实例库。
如图2所示,图2为本说明书实施例所提供的生成系统调用正常实例库的示意图。该示意图中,对系统调用数据的采集可以通过实时多维数据采集组件,结合实时数据处理的MapReduce能力来实现。将相同系统调用的多维信息进行分类并聚合,形成了系统内部全局唯一的实例信息,并且我们能够对每个实例进行正常与否的判定(基于经验人工标注或者采用机器学习的方式智能打标),将正常实例入库并存储,作为对以后系统调用实例的判定依据。该示意图中,实例属性信息中的的系统处理拓扑结构一般而言,即为系统内部节点的有向无环结构,其可以表征系统调用在系统内部节点的走向。
作为一种具体的判定方式,对于S107中的,根据所述待检测时间点所对应的占比值和所述统计数据,判定所述待检测时间点是否异常,包括:计算所述待检测时间点的标准分=(占比值—平均值)/标准差;若所述标准分超过预设值,判定所述待检测时间点异常。
此处的标准分也可以称为z-score值,记待检测时间的占比值为X,平滑后的历史占比数据集其平均值为Xave,标准差为σ,则标准分Z=(X—Xave)/σ。
标准分以标准差为单位,表征了待检测点的占比值距离平均值的远近程度。一般而言,可以基于经验设定预设距离,超过预设距离即认为异常。例如,设定3σ(也可以是2σ或者其它值)原则,当标准分Z值超过±3,即判定异常。标准分作为参考依据,消去了当前时间段调用数量绝对值的影响,将更为精确。如图3所示,图3为本说明书实施例所提供的对于系统调用实例进行判定的架构示意图。
进一步地,若判定所述待检测时间点异常,此时,还可以结合当前的系统调用量判定异常的产生原因。具体而言,首先,如果实力占比是否异常的判断结果为异常,则本系统内部一定出现某种问题,需要立即排查,而且问题的严重程度又能结合量级的波动给出更进一步的判断。此时,如果量级不存在异常波动,则表示本系统的异常与外部无关。如果量级存在异常波动,则表示系统内部的问题与某种全局因素相关,需要更进一步关注各种信息,全局因素就是既影响了当前系统,又影响了其他系统的因素,例如是否存在数据库变更、缓存变更或网络变更等。
而当标准分不超过预设值时,确定所述待检测时间点的系统调用数量是否正常,若所述系统调用数量正常,判定所述待检测时间点正常;否则,判定所述待检测时间点异常,且,异常的产生因素为外部因素。即,如果判断结果是正常的,则表示系统内部无异动,结合总体量级的波动判断,如果量级存在波动,则可以准确判断为波动仅是外部原因导致的,与本系统无关。如图4所示,图4为本说明书实施例所提供的对于系统异常原因的判定流程示意图。采用上述方式,可以快速的确定出异常产生的因素,方便维护人员进行进一步的排查,提高效率。
基于同样的思路,本发明还提供一种系统异常检测装置,如图5所示,图5为本说明书实施例所提供的系统异常装置的结构示意图,包括:
确定模块501,针对任一时间点,基于预先确定的系统调用正常实例库,确定所述时间点的系统调用异常实例的占比值;
获取模块503,针对任一待检测时间点,获取与其时间间隔在指定范围内的其它时间点所对应的多个占比值;
计算模块505,去掉不符合预设条件的时间点,计算所述其它时间点的占比值的统计数据,其中,所述统计数据至少包括平均值和标准差;
判定模块507,根据所述待检测时间点所对应的占比值和所述统计数据,判定所述待检测时间点是否异常。
进一步地,所述装置还包括实例库建立模块509,针对任一系统调用,获取其对应的系统调用参数,其中,所述调用参数包括接口名称、接口类型、接口入参、接口出参、系统处理拓扑结构、上下游系统信息或者处理耗时中的至少一种;聚合所述系统调用参数,生成多个不重复的系统调用实例,其中,一个系统调用唯一对应于一个系统调用实例;确定所述不重复的系统调用实例中的系统调用正常实例,建立所述系统调用正常实例库。
进一步地,所述判定模块507,计算所述待检测时间点的标准分=(占比值—平均值)/标准差,若所述标准分超过预设值,判定所述待检测时间点异常。
进一步地,所述判定模块507,根据所述待检测时间点的系统调用数量确定异常的产生因素。
进一步地,所述判定模块507,当所述标准分不超过预设值时,确定所述待检测时间点的系统调用数量是否正常,若所述系统调用数量正常,判定所述待检测时间点正常;否则,判定所述待检测时间点异常,且,异常的产生因素为外部因素。
对应的,本申请实施例还提供一种系统异常检测设备,包括:
存储器,存储有系统异常检测程序;
处理器,调用存储器中的异常检测程序,并执行:
针对任一时间点,基于预先确定的系统调用正常实例库,确定所述时间点的系统调用异常实例的占比值;
针对任一待检测时间点,获取与其时间间隔在指定范围内的其它时间点所对应的多个占比值;
去掉不符合预设条件的时间点,计算所述其它时间点的占比值的统计数据,其中,所述统计数据至少包括平均值和标准差;
根据所述待检测时间点所对应的占比值和所述统计数据,判定所述待检测时间点是否异常。
基于同样的发明思路,本申请实施例还提供了对应的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
针对任一时间点,基于预先确定的系统调用正常实例库,确定所述时间点的系统调用异常实例的占比值;
针对任一待检测时间点,获取与其时间间隔在指定范围内的其它时间点所对应的多个占比值;
去掉不符合预设条件的时间点,计算所述其它时间点的占比值的统计数据,其中,所述统计数据至少包括平均值和标准差;
根据所述待检测时间点所对应的占比值和所述统计数据,判定所述待检测时间点是否异常。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和介质类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可,这里就不再一一赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤或模块可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书的实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信编号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书中一个或多个的实施例可提供为方法、系统或计算机程序产品。因此,本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的形式。而且,本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。