发明内容
鉴于上述,本公开提供了一种用于网页访问量异常检测的方法及装置。利用该方法及装置,能够提升网页访问量异常检测的效率和准确度。
根据本公开的一个方面,提供了一种用于网页访问量异常检测的方法,包括:使用网页访问量预测模型来预测出针对至少一个特定网页的当前单位访问时间的网页访问总量在给定置信度下的预测区间;以及在所述当前单位访问时间的实际网页访问总量不在所述预测区间内时,确定网页访问量异常,其中,所述网页访问量预测模型是基于统计时段内的各个单位时间网页访问量拟合出,所述各个单位时间网页访问量是分别对所述各个单位时间内的针对所有特定网页的网页访问总量进行统计而得到的,所述当前单位访问时间是所述统计时段的最后单位访问时间。
可选地,在上述方面的一个示例中,所述方法还可以包括:在确定网页访问量异常时,从所述至少一个特定网页中选择第一预定数目个当前单位访问时间内的网页访问量异常变动最大的特定网页,其中,针对各个特定网页的单位访问时间内的网页访问量是对该特定网页在该单位访问时间的网页访问量进行统计而得到的;以及基于所选择出的第一预定数目个特定网页的网页访问统计结果,确定网页访问量异常原因。
可选地,在上述方面的一个示例中,基于所选择出的预定数目个特定网页的网页访问统计结果,确定网页访问量异常原因可以包括:基于所选择出的预定数目个特定网页的网页访问统计结果,使用网页访问量异常分析分类树来确定网页访问量异常原因。
可选地,在上述方面的一个示例中,所述网页访问量预测模型包括下述模型中的一种:机器学习模型和ETS模型。
可选地,在上述方面的一个示例中,所述网页访问量预测模型包括ETS模型,所述统计时段的时间长度是基于所述ETS模型的拟合所需时间和拟合精度折衷策略确定的。
可选地,在上述方面的一个示例中,所述置信度被设置为使得针对所述统计时段内的各个单位时间网页访问量,所述ETS模型的网页访问量预测范围的预测偏差最小。
可选地,在上述方面的一个示例中,所述单位时间以天为单位。
根据本公开的另一方面,提供一种用于网页访问量异常检测的装置,包括:预测单元,被配置为使用网页访问量预测模型来预测出针对至少一个特定网页的当前单位访问时间的网页访问总量在给定置信度下的预测区间;以及异常确定单元,被配置为在所述当前单位访问时间的实际网页访问总量不在所述预测区间内时,确定网页访问量异常,其中,所述网页访问量预测模型是基于统计时段内的各个单位时间网页访问量拟合出,所述各个单位时间网页访问量是分别对所述各个单位时间内的针对所有特定网页的网页访问总量进行统计而得到的,所述当前单位访问时间是所述统计时段的最后单位访问时间。
可选地,在上述方面的一个示例中,所述装置还可以包括:网页选择单元,被配置为在确定网页访问量异常时,从所述至少一个特定网页中选择第一预定数目个当前单位访问时间内的网页访问量异常变动最大的特定网页,其中,针对各个特定网页的单位访问时间内的网页访问量是对该特定网页在该单位访问时间的网页访问量进行统计而得到的;以及异常原因确定单元,被配置为基于所选择出的第一预定数目个特定网页的网页访问统计结果,确定网页访问量异常原因。
可选地,在上述方面的一个示例中,所述网页访问量预测模型包括ETS模型,所述统计时段的时间长度是基于所述ETS模型的拟合所需时间和拟合精度折衷策略确定的。
可选地,在上述方面的一个示例中,所述置信度被设置为使得针对所述统计时段内的各个单位时间网页访问量,所述ETS模型的网页访问量预测范围的预测偏差最小。
根据本公开的另一方面,提供一种用于网页访问量异常检测的系统,包括:预测模型创建装置,被配置为基于统计时段内的各个单位时间网页访问量拟合出所述预测模型,所述各个单位时间网页访问量是分别对所述各个单位时间内的针对所有特定网页的网页访问总量进行统计而得到的,所述当前单位访问时间是所述统计时段的最后单位访问时间;以及如上所述的用于网页访问量异常检测的装置。
根据本公开的另一方面,提供一种计算设备,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的用于网页访问量异常检测的方法。
根据本公开的另一方面,提供一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的用于网页访问量异常检测的方法。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在本公开中,术语“特定网页”是指运营人员或者其它决策人员所关注的一系列特定网页。
下面将结合附图来详细描述根据本公开的实施例的网页访问量异常检测方法、装置及系统。
图1示出了根据本公开的实施例的用于网页访问量异常检测的系统(下文中简称为访问量异常检测系统)10的方框图。如图1所示,访问量异常检测系统10包括预测模型创建装置110和访问量异常检测装置120。
预测模型创建装置110被配置为基于统计时段内的各个单位时间网页访问量拟合出网页访问量预测模型。这里,各个单位时间网页访问量是分别对各个单位时间内的针对所有特定网页的网页访问总量进行统计而得到的。所述单位时间例如可以是以1天为单位的单位时间、以1月为单位的单位时间,或者是以某个其它规定时间间隔为单位的单位时间。通常,单位时间是指以1天为单位的单位时间。所述统计时段可以是由用户(例如,运营人员)指定的统计时段,也可以是基于模型训练过程确定出的统计时段。
访问量异常检测装置120被配置为使用网页访问量预测模型来预测出针对至少一个特定网页的当前单位访问时间的网页访问总量在给定置信度下的预测区间;以及基于当前单位访问时间的实际网页访问总量以及所预测出的预测区间,确定网页访问量是否异常。这里,当前单位访问时间是所述统计时段的最后单位访问时间。
图2示出了根据本公开的实施例的用于创建网页访问量预测模型的方法的流程图,该方法由预测模型创建装置110在网页访问量异常检测的准备阶段执行。
如图2所示,首先,在块210,设定检测时间长度L的初始值。检测时间长度L会影响到时间序列拟合和预测的精确度以及运算时间。如果检测时间长度L太小则准确度不足,而检测时间长度L太大则运算耗时过长。假设单位时间是以1天为单位时间,今天是D日,待检测的日期是D-1日,则被使用来创建网页访问量预测模型的数据范围是D-1日至D-L日的网页访问量数据。例如,可以将检测时间长度L的初始值设定为30天。
接着,循环执行块220到块250的操作,以确定出最佳统计时间长度L和最佳置信度σ。
具体地,在块220,统计在时间长度L的各个单位时间内的针对所有特定网页的网页访问量,以形成网页访问量的时间序列。例如,可以对D-L日至D-1日中的所有网页的日访问量进行求和,以得到针对所有特定网页的网页访问总量的时间序列。
接着,在块230,使用所统计的网页访问量的时间序列来训练网页访问量预测模型。在本公开中,所述网页访问量预测模型例如可以是ETS模型或者机器学习模型。在所述网页访问量预测模型是ETS模型的情况下,可以使用ETS模型下的各种具体算法中的每种方法来对所统计的时间序列进行拟合预测,并且选择精度最高的三种算法作为模型拟合算法。在所述网页访问量预测模型是机器学习模型的情况下,使用机器学习方法来进行网页访问量预测模型训练。
然后,在块240,选择不同的时间长度L值和不同的置信度σ,然后返回到块220,执行下一训练过程,直至满足训练结束条件。
最后,在块250,选择运算时间和拟合精度最平衡的时间长度取值作为最佳时间长度值L,以及将最符合经验以及应用场景的预测范围所对应的置信度作为最佳置信度σ。在一个示例中,在所述网页访问量预测模型是ETS模型的情况下,所述统计时段的最佳时间长度L是基于所述ETS模型的拟合所需时间和拟合精度折衷策略确定的。所述最佳置信度被设置为使得针对所述统计时段内的各个单位时间网页访问量,所述ETS模型的网页访问量预测范围的预测偏差最小。
此外,在网页访问量异常检测的准备阶段,还需要构建针对单个网页的访问量异常分析分类树。这里,分类树是由运营人员根据先验经验来构建的。图3示出了根据本公开的实施例的网页访问异常分析分类树的一个示例的示意图。
图4示出了根据本公开的实施例的用于网页访问量异常检测的装置(即,访问量异常检测装置120)的方框图。如图4所示,访问量异常检测装置120包括预测单元121、异常确定单元123、网页选择单元125和异常原因确定单元127。
预测单元121被配置为使用网页访问量预测模型来预测出针对至少一个特定网页的当前单位访问时间的网页访问总量在给定置信度下的预测区间。这里,在一个示例中,所述给定置信度可以是上面参照图2所述的网页访问量预测模型创建过程中确定的。在另一示例中,所述给定置信度也可以是由运营人员根据先验经验设定的。
异常确定单元123被配置为在当前单位访问时间的实际网页访问总量不在所预测出的预测区间内时,确定网页访问量异常;以及在当前单位访问时间的实际网页访问总量在所预测出的预测区间内时,确定网页访问量正常。
网页选择单元125被配置为在确定网页访问量异常时,从所述至少一个特定网页中选择第一预定数目个当前单位访问时间内的网页访问量异常变动最大的特定网页。这里,针对各个特定网页的单位访问时间内的网页访问量是对该特定网页在该单位访问时间的网页访问量进行统计而得到的。
在如上确定出第一预定数目个特定网页后,异常原因确定单元127基于所选择出的第一预定数目个特定网页的网页访问统计结果,确定网页访问量异常原因。例如,异常原因确定单元127可以基于所选择出的第一预定数目个特定网页的网页访问统计结果,并且参照所构建的访问量异常分析分类树来确定出网页访问量异常原因。这里,针对所述至少一个特定网页的网页访问统计结果可以是通过对特定网页的网页访问进行统计而得到的。
图5示出了根据本公开的实施例的用于网页访问量异常检测的方法的流程图。
如图5所示,在块510,使用网页访问量预测模型来预测出针对至少一个特定网页的当前单位访问时间的网页访问总量在给定置信度下的预测区间。
接着,在块520,基于所预测出的预测区间以及所述当前单位访问时间的实际网页访问总量来确定网页访问量是否异常。在所述当前单位访问时间的实际网页访问总量在所预测出的预测区间内时,确定网页访问量正常。在确定网页访问量正常时,流程结束。在所述当前单位访问时间的实际网页访问总量不在所预测出的预测区间内时,确定网页访问量异常。
在确定网页访问量异常时,在块530,从至少一个特定网页中选择第一预定数目个当前单位访问时间内的网页访问量异常变动最大的特定网页。这里,针对各个特定网页的单位访问时间内的网页访问量是对该特定网页在该单位访问时间的网页访问量进行统计而得到的。例如,所述第一预定数目可以根据运营人员的先验经验来设定,比如为3个或者其它合适数目。
然后,在块540,基于所选择出的第一预定数目个特定网页的网页访问统计结果,确定网页访问量异常原因。例如,可以基于所选择出的第一预定数目个特定网页的网页访问统计结果,并且参照所构建的访问量异常分析分类树来确定出网页访问量异常原因。
利用图4及图5中描述的网页访问量异常检测装置及方法,可以通过使用网页访问量预测模型来预测出待检测的单位时间内的网页访问总量的预测区间,并且根据待检测的单位时间内的实际网页访问量是否落在所预测的预测区间内来确定网页访问量是否异常,从而网页访问量异常检测的效率和准确度。
此外,通过从至少一个特定网页中选择第一预定数目个特定网页,并且使用该第一预定数目个特定网页的网页访问统计结果,并基于访问量异常分析分类树来确定出异常原因,从而可以进一步提高网页访问量异常检测的效率和准确度。
此外,要说明的是,图4中描述的访问量异常检测装置以及图5描述的网页访问量异常检测方法仅仅是本公开的一个实施例。在本公开的其它实施例中,访问量异常检测装置也可以不包括网页选择单元和/或异常原因确定单元。例如,可以不包括网页选择单元,并且异常原因确定单元使用至少一个特定网页中的各个网页的网页访问统计结果来确定网页访问量异常原因。或者,可以不包括网页选择单元和异常原因确定单元,从而仅仅确定出网页访问量异常,而不确定异常原因。
如上参照图1到图5,对根据本公开的网页访问量异常检测方法、装置及系统的实施例进行了描述。上面的访问量异常检测装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图6示出了根据本公开的实施例的用于网页访问量异常检测的计算设备600的硬件结构图。如图6所示,计算设备600可以包括至少一个处理器610、存储器620、内存630和通信接口640,并且至少一个处理器610、存储器620、内存630和通信接口640经由总线660连接在一起。至少一个处理器610执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器610:使用网页访问量预测模型来预测出针对至少一个特定网页的当前单位访问时间的网页访问总量在给定置信度下的预测区间;以及在所述当前单位访问时间的实际网页访问总量不在所述预测区间内时,确定网页访问量异常,其中,所述网页访问量预测模型是基于统计时段内的各个单位时间网页访问量拟合出,所述各个单位时间网页访问量是分别对所述各个单位时间内的针对所有特定网页的网页访问总量进行统计而得到的,所述当前单位访问时间是所述统计时段的最后单位访问时间。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器610进行本公开的各个实施例中以上结合图1-5描述的各种操作和功能。
在本公开中,计算设备600可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。
根据一个实施例,提供了一种比如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图1-5描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
根据一个实施例,提供了一种比如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图1-5描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。