CN106302350B - Url监测方法、装置及设备 - Google Patents

Url监测方法、装置及设备 Download PDF

Info

Publication number
CN106302350B
CN106302350B CN201510293528.7A CN201510293528A CN106302350B CN 106302350 B CN106302350 B CN 106302350B CN 201510293528 A CN201510293528 A CN 201510293528A CN 106302350 B CN106302350 B CN 106302350B
Authority
CN
China
Prior art keywords
url
target url
target
time series
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510293528.7A
Other languages
English (en)
Other versions
CN106302350A (zh
Inventor
渠振方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510293528.7A priority Critical patent/CN106302350B/zh
Publication of CN106302350A publication Critical patent/CN106302350A/zh
Application granted granted Critical
Publication of CN106302350B publication Critical patent/CN106302350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了URL监测方法、装置及设备,所述方法包括:通过历史URL访问日志获取满足预设指标的指标条件的目标URL;根据每个目标URL的预设指标的指标参数,为每个目标URL进行建模,获得每个目标URL的预测模型;通过所述每个目标URL的预测模型,监测所述每个目标URL的访问量异常情况。应用本申请实施例对URL访问情况进行监测时,由于无需对URL访问流量整体进行监测,而是从其中筛选出目标URL进行监测,从而使得URL监测更有针对性,并且在URL访问流量整体较大的情况下,可以从目标URL中监测出个别访问情况异常的URL,以此提高URL监测的准确性。

Description

URL监测方法、装置及设备
技术领域
本申请涉及网络通信技术领域,尤其涉及URL(Uniform Resource Locator,统一资源定位符)监测方法、装置及设备。
背景技术
URL是互联网中标准资源的地址,对于提供多种资源的运营商服务器来说,会面临大量终端用户的URL访问请求,从而在网络中形成URL流量。其中,恶意第三方可能通过伪造多个源IP(Internet Protocol,互联网协议)地址,向服务器频繁发送URL访问请求,这些URL访问请求可以称为异常URL访问请求,由于服务器需要为每个URL访问请求建立相应的队列连接,因此异常URL访问请求会占用大量网络资源,甚至造成服务器崩溃。
现有技术中,可以采用基于时间序列分析的方式对网络中的URL访问流量进行统一监测,从而确定网络中是否发生URL访问异常。但是,由于现有的URL监测方式以网络中的URL访问流量整体为监测对象,因此特别在URL流量较大的情况下,难以监测到其中个别URL的异常访问情况,导致URL监测结果不准确。
发明内容
本申请提供URL监测方法、装置及设备,以解决现有URL监测结果不准确的问题。
根据本申请实施例的第一方面,提供一种URL监测方法,所述方法包括:
通过历史URL访问日志获取满足预设指标的指标条件的目标URL;
根据每个目标URL的预设指标的指标参数,为每个目标URL进行建模,获得每个目标URL的预测模型;
通过所述每个目标URL的预测模型,监测所述每个目标URL的访问量异常情况。
根据本申请实施例的第二方面,提供一种URL监测装置,所述装置包括:
获取单元,用于通过历史URL访问日志获取满足预设指标的指标条件的目标URL;
建模单元,用于根据每个目标URL的预设指标的指标参数,为每个目标URL进行建模,获得每个目标URL的预测模型;
监测单元,用于通过所述每个目标URL的预测模型,监测所述每个目标URL的访问量异常情况。
根据本申请实施例的第三方面,提供一种URL监测设备,包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过历史URL访问日志获取满足预设指标的指标条件的目标URL;
根据每个目标URL的预设指标的指标参数,为每个目标URL进行建模,获得每个目标URL的预测模型;
通过所述每个目标URL的预测模型,监测所述每个目标URL的访问量异常情况。
本申请实施例通过历史URL访问日志获取满足预设指标的指标条件的目标URL,然后根据每个目标URL的预设指标的指标参数,为每个目标URL进行建模,获得每个目标URL的预测模型,并通过每个目标URL的预测模型,监测每个目标URL的访问量异常情况。应用本申请实施例对URL访问情况进行监测时,由于无需对URL访问流量整体进行监测,而是从其中筛选出目标URL进行监测,从而使得URL监测更有针对性,并且在URL访问流量整体较大的情况下,可以从目标URL中监测出个别访问情况异常的URL,以此提高URL监测的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请URL监测系统的一个架构示意图;
图2为本申请URL监测方法的一个实施例流程图;
图3为本申请URL监测方法的另一个实施例流程图;
图4为本申请URL监测装置所在设备的一种硬件结构图;
图5为本申请URL监测装置的实施例框图。
具体实施方式
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
参见图1,为本申请URL监测系统的架构示意图:
该系统架构包括:骨干网设备、日志采集设备和URL监测设备。
其中,网络中所有的URL访问流量都会经过骨干网设备,骨干网设备将URL访问流量镜像到日志采集设备,由日志采集设备根据镜像的URL访问流量生成URL访问日志,并将URL访问日志发送到URL监测设备,URL监测设备根据URL访问日志对异常URL进行监测。本申请实施例中的URL监测设备可以是具有大数据处理能力的ODPS(Open Data ProcessingService,开放数据处理服务)设备,下面结合具体实施例对本申请进行详细描述。
参见图2,为本申请URL监测方法的一个实施例流程图:
步骤201:通过历史URL访问日志获取满足预设指标的指标条件的目标URL。
URL监测设备上保存有被访问过的所有URL的URL访问日志,本申请实施例中也可称为历史URL访问日志,历史URL访问日志中记录了被访问过的每个URL的日志信息,日志信息中可以包括URL地址、URL请求时间等。本实施例中,可以采用TOP-N分析法从历史URL访问日志中得到N(N为大于1的自然数)个目标URL,获取目标URL的过程可以包括:
由于历史URL访问日志中包含了海量的日志信息,因此在要进行URL监测时,可以根据监测需要设置一个预设请求周期,例如,当前日期的前一天、或者前一周等,并从历史URL访问日志中获取URL请求时间在该预设请求周期内的目标访问日志。然后统计目标访问日志中每个URL的预设指标的指标参数,可选的,当该预设指标是PV(Page View,页面浏览量)时,可以根据目标访问日志生成该预设请求周期内的URL时段表,URL时段表中可以包括每个时段内,每个URL的地址参数和对应的PV参数,其中URL时段表可以具体为按照小时划分的URL小时表。最后,可以将指标参数大于预设指标阈值的URL确定为目标URL,仍以预设指标是PV为例,可以将URL时段表中每个时段内,PV参数大于预设PV阈值的URL确定为目标URL。
步骤202:根据每个目标URL的预设指标的指标参数,为每个目标URL进行建模,获得每个目标URL的预测模型。
本步骤中,可以首先为每个目标URL生成时间序列集合,该时间序列集合中包含每个目标URL的指标参数,指标参数为在预设请求周期内按照时段采样的预设指标的指标参数;仍以预设指标是PV为例,假设目标URL为URL1,预设请求周期为一天,采样时段为小时,则URL1的时间序列集合中包含一天中24个小时时段内的PV参数的集合,例如可以表示为{PV1,PV2,PV3,……,PV24}。
然后通过对每个目标URL的时间序列集合进行平稳性检测,获得每个目标URL的平稳时间序列集合。可选的,可以根据每个目标URL的时间序列集合中的指标参数,生成每个目标URL的散点图(Scatter Diagram),通过每个目标URL的散点图确定指标参数的均值,其中,散点图指在回归分析中数据点在直角坐标系平面上的分布图,散点图将某个序列显示为一组点,序列中的参数值由点在图表中的位置表示,本申请实施例中,散点图表征了目标URL在预设请求周期内的每个小时时段内的访问量趋势;判断指标参数的均值是否在预设均值范围内,若是,则确定目标URL的时间序列集合为平稳时间序列集合,平稳时间序列集合是指联合概率分布函数不随时间改变的随机序列,否则,可以通过预设差分方程(Difference Equation)将目标URL的时间序列集合转换为平稳时间序列集合,差分方程是一种递推地定义一个序列的方程式,序列的每一项定义为前一项的函数,例如,仍以预设指标是PV为例,本申请实施例中可以采用差分方程Δkxt=(1-Lk)xt将非平稳时间序列集合转换为平稳时间序列集合,上述差分方程中,Lk为滞后算子,Δk为K阶差分算子,xt表示每个小时时段内的PV参数,通常经过两次差分后即可以将非平稳时间序列集合转换为平稳时间序列集合。
最后,基于每个目标URL的平稳时间序列集合为每个目标URL进行建模,获得每个目标URL的预测模型。可选的,可以为每个目标URL调用预设的时间序列分析模型,通过自相关系数和偏相关系数确定时间序列分析模型的模型参数,并将每个目标URL的模型参数和平稳时间序列集合中的指标参数输入时间序列分析模型,生成每个目标URL的预测模型;并且,可以进一步计算每个目标URL的预测模型的极大似然估计值,并判断该极大似然估计值是否大于预设估计阈值,当大于预设估计阈值时,确定目标URL的预测模型为可用的预测模型。
可选的,本公开实施例中的时间序列分析模型可以包括:ARIMA(AutoregressiveIntegrated Moving Average Model,自回归积分滑动平均)模型。
步骤203:通过每个目标URL的预测模型,监测每个目标URL的访问量异常情况。
本步骤中,可以将每个目标URL的平稳时间序列集合中的指标参数输入目标URL的预测模型,获得每个目标URL的预测指标参数,然后判断预测指标参数是否大于预设预测指标阈值,若是,则可以确定目标URL的访问量异常,从而可以实现从海量URL访问流量中监测出异常URL。
由上述实施例可见,该实施例对URL访问情况进行监测时,由于无需对URL访问流量整体进行监测,而是从其中筛选出目标URL进行监测,从而使得URL监测更有针对性,并且在URL访问流量整体较大的情况下,可以从目标URL中监测出个别访问情况异常的URL,以此提高URL监测的准确性。
参见图3,为本申请URL监测方法的另一个实施例流程图,该实施例详细示出了监测异常URL的过程:
步骤301:从历史URL访问日志中获取URL请求时间在预设请求周期内的目标访问日志。
URL监测设备上保存有被访问过的所有URL的URL访问日志,本申请实施例中也可称为历史URL访问日志,历史URL访问日志中记录了被访问过的每个URL的日志信息,日志信息中可以包括URL地址、URL请求时间等。由于历史URL访问日志中包含了海量的日志信息,因此在要进行URL监测时,可以根据监测需要设置一个预设请求周期,例如,某一天、某一周、或者某个月等;然后从历史URL访问日志中获取URL请求时间在该预设请求周期内的目标访问日志,例如,要获取20150422这一天的目标访问日志,则可以在历史URL访问日志中查询URL请求时间在2015年4月22日这一天内的访问日志。
步骤302:统计目标访问日志中每个URL的预设指标的指标参数。
可选的,本申请实施例中的预设指标可以是PV,PV是评价网站流量的常用指标之一,其中的页面可以包括普通的html(hyper text markup language,超文本标记语言)网页,也可以是由php、jsp等动态产生的html内容,来自浏览器的一次html访问请求可以看作一个PV。
本步骤中,可以根据目标访问日志生成预设请求周期内的URL时段表,URL时段表中可以包括每个时段内,每个URL的地址参数和对应的PV参数,其中URL时段表可以具体为按照小时划分的URL小时表。以URL小时表为例,每个URL小时表对应一个小时时段,例如,预设请求周期为一天时,则可以将这一天的每个小时对应一个URL小时表,其中每个URL小时表中可以包含每个URL的URL地址参数、URL在该小时时段内的PV参数。如下表1所示,为一种URL小时表的示例:
表1
URL地址参数 PV参数 小时时段
URL1 1600 2015/4/1/8:00-2015/4/1/9:00
URL2 100 2015/4/1/8:00-2015/4/1/9:00
URL3 2000 2015/4/1/8:00-2015/4/1/9:00
…… …… ……
URLm 1200 2015/4/1/23:00-2015/4/1/24:00
上表1中,记录了预设请求周期为2015年4月1日早8点,至2015年4月1日晚24点的目标访问日志。
步骤303:将指标参数大于预设指标阈值的URL确定为目标URL。
本实施例中,当预设指标是PV时,可以将URL时段表中每个时段内,PV参数大于预设PV阈值的URL确定为目标URL。可选的,当目标URL为n个时,则可以采用TOP-N分析法,通过SQL方式从URL小时表中查找PV参数大于预设PV阈值的目标URL。以表1为例,假设预设PV阈值为1500,则可以从表1中查找到2015/4/1/8:00-2015/4/1/9:00这一小时时段内的目标URL包括URL1和URL3。
步骤304:为每个目标URL生成时间序列集合,时间序列集合中包含每个目标URL的指标参数,该指标参数为在预设请求周期内按照时段采样的预设指标的指标参数。
本步骤中,仍然以预设指标为PV为例,对于每个目标URL,可以从如表1所示的URL小时表中,查找出每个目标URL在各个小时时段内的PV参数,然后将该目标URL在预设请求周期的各个小时时段内的PV参数按照时间先后顺序排列,组成该目标URL的时间序列集合。
步骤305:通过对每个目标URL的时间序列集合进行平稳性检测,获得每个目标URL的平稳时间序列集合。
本步骤中,可以根据每个目标URL的时间序列集合中的指标参数,生成每个目标URL的散点图;然后通过每个目标URL的散点图确定指标参数的均值,判断指标参数的均值是否在预设均值范围内,若是,则可以确定目标URL的时间序列集合为平稳时间序列集合,否则,可以通过预设差分方程将所述目标URL的时间序列集合转换为平稳时间序列集合。以预设指标为PV为例,本步骤可以应用SAS(Statistical Analysis System,模块分析系统)工具绘制每个目标URL的散点图,该散点图表征了目标URL在预设请求周期内的每个小时时段内的访问量趋势;此时可以通过SAS工具中的自相关函数计算对应的自相关系数,当自相关系数趋于0时,可以确定时间序列集合为平稳时间序列集合,或者,也可以计算PV参数的均值,当PV参数的均值在预设均值范围内时,可以确定时间序列集合为平稳时间序列集合。
对于非平稳时间序列集合,本步骤中可以调用如下所示的差分方程将非平稳时间序列集合转换为平稳时间序列集合:
Δkxt=(1-Lk)xt
上式中,Lk为滞后算子,Δk为K阶差分算子,xt表示每个小时时段内的PV参数,通常经过两次差分后即可以将非平稳时间序列集合转换为平稳时间序列集合。
步骤306:基于每个目标URL的平稳时间序列集合为每个目标URL进行建模,获得每个目标URL的预测模型。
本步骤中,可以为每个目标URL调用预设的时间序列分析模型,通过自相关系数和偏相关系数确定所述时间序列分析模型的模型参数,然后将每个目标URL的模型参数和平稳时间序列集合中的指标参数输入时间序列分析模型,生成每个目标URL的预测模型。
其中,时间序列分析模型可以为差分自回归移动平均模型ARIMA(p,d,q),其中p为自回归项,q为移动平均项数,d为时间序列成为平稳时所做的差分次数,对于平稳时间序列集合,d即为0。
在应用SAS工具时,可以通过自相关图和偏自相关图确定ARIMA(p,d,q)中的p值和q值,对于所有平稳时间序列集合,当d=0时,ARIMA(p,d,q)模型可以转化为如下公式:
上式中,Yt表示目标URL的预测指标参数,表示Yt-i的权重值(i的取值为1至p),Yt-i表示平稳时间序列集合中的指标参数,θj表示εt-j的权重值(j的取值为1至q),εt表示白噪声参数。应用SAS工具,将平稳时间序列集合中的指标参数带入上式后,即可求得上式中的和θj值,从而获得用于计算标URL的预测指标参数Yt的预测模型。
本实施例中,在获得每个目标URL的预测模型后,还可以通过SAS工具计算每个目标URL的预测模型的极大似然估计值Pr,判断该极大似然估计值Pr是否大于预设估计阈值,例如,该预设估计阈值可以设为0.05,当极大似然估计值Pr大于该预设估计阈值时,且εt为白噪声时,可以确定目标URL的预测模型为可用预测模型。
步骤307:将每个目标URL的平稳时间序列集合中的指标参数输入目标URL的预测模型,获得每个目标URL的预测指标参数。
基于步骤306中得到的可用预测模型,可以将目标URL的平稳时间序列集合中的指标参数输入该预测模型,从而得到预测指标参数,例如,前述步骤306中示出的Yt
步骤308:判断预测指标参数是否大于预设预测指标阈值,若是,则确定目标URL的访问量异常。
本步骤中当预测指标为PV时,则可以预设一个预测PV阈值,例如,可以针对白天和晚上两个时段,分别动态计算一周的PV均值作为该预测PV阈值,当预测PV参数大于该预测PV阈值时,则可以确定对应的URL访问量异常。
由上述实施例可见,该实施例对URL访问情况进行监测时,由于无需对URL访问流量整体进行监测,而是从其中筛选出目标URL进行监测,从而使得URL监测更有针对性,并且在URL访问流量整体较大的情况下,可以从目标URL中监测出个别访问情况异常的URL,以此提高URL监测的准确性。
与前述URL监测方法的实施例相对应,本申请还提供了URL监测装置及设备的实施例。
本申请URL监测装置的实施例可以应用在URL监测设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本申请URL监测装置所在设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常根据该设备的实际功能,还可以包括其他硬件,图4中不再一一示出。
参见图5,为本申请URL监测装置的实施例框图:
该装置包括:获取单元510、建模单元520和监测单元530。
其中,获取单元510,用于通过历史URL访问日志获取满足预设指标的指标条件的目标URL;
建模单元520,用于根据每个目标URL的预设指标的指标参数,为每个目标URL进行建模,获得每个目标URL的预测模型;
监测单元530,用于通过所述每个目标URL的预测模型,监测所述每个目标URL的访问量异常情况。
在一个可选的实现方式中:
所述获取单元510可以包括(图5中未示出):
目标访问日志获取子单元,用于从所述历史URL访问日志中获取URL请求时间在预设请求周期内的目标访问日志;
指标参数统计子单元,用于统计所述目标访问日志中每个URL的预设指标的指标参数;
目标URL确定子单元,用于将所述指标参数大于预设指标阈值的URL确定为目标URL。
可选的,所述预设指标可以包括:网页流量PV;
相应的,所述指标参数统计子单元,可以具体用于根据所述目标访问日志生成所述预设请求周期内的URL时段表,所述URL时段表中包括每个时段内,每个URL的地址参数和对应的PV参数;
所述目标URL确定子单元,可以具体用于将所述URL时段表中每个时段内,PV参数大于预设PV阈值的URL确定为目标URL。
在另一个可选的实现方式中:
所述建模单元520可以包括(图5中未示出):
时间序列集合生成子单元,用于为每个目标URL生成时间序列集合,所述时间序列集合中包含每个目标URL的指标参数,所述指标参数为在所述预设请求周期内按照时段采样的所述预设指标的指标参数;
平稳性检测子单元,用于通过对每个目标URL的时间序列集合进行平稳性检测,获得每个目标URL的平稳时间序列集合;
预测模型获得子单元,用于基于所述每个目标URL的平稳时间序列集合为所述每个目标URL进行建模,获得每个目标URL的预测模型。
其中,所述平稳性检测子单元可以包括:
散点图生成模块,用于根据每个目标URL的时间序列集合中的指标参数,生成每个目标URL的散点图;
指标参数均值确定模块,用于通过所述每个目标URL的散点图确定所述指标参数的均值;
指标参数均值判断模块,用于判断所述指标参数的均值是否在预设均值范围内;
判断结果执行模块,用于当所述指标参数均值判断模块的判断结果为是时,确定所述目标URL的时间序列集合为平稳时间序列集合,当所述指标参数均值判断模块的判断结果为否时,通过预设差分方程将所述目标URL的时间序列集合转换为平稳时间序列集合。
其中,所述预测模型获得子单元可以包括:
模型参数确定模块,用于为每个目标URL调用预设的时间序列分析模型,通过自相关系数和偏相关系数确定所述时间序列分析模型的模型参数;
预测模型生成模块,用于将所述每个目标URL的模型参数和平稳时间序列集合中的指标参数输入所述时间序列分析模型,生成所述每个目标URL的预测模型。
可选的,所述预测模型获得子单元还可以包括:
极大似然估计值计算模块,用于计算每个目标URL的预测模型的极大似然估计值;
预测模型可用判断模块,用于判断所述极大似然估计值是否大于预设估计阈值,当大于所述预设估计阈值时,确定所述目标URL的预测模型为可用的预测模型。
在另一个可选的实现方式中:
所述监测单元530可以包括(图5中未示出):
预测指标参数获得子单元,用于将所述每个目标URL的平稳时间序列集合中的指标参数输入所述目标URL的预测模型,获得所述每个目标URL的预测指标参数;
访问量异常判断子单元,用于判断所述预测指标参数是否大于预设预测指标阈值,若是,则确定所述目标URL的访问量异常。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
由上述实施例可见,该实施例对URL访问情况进行监测时,由于无需对URL访问流量整体进行监测,而是从其中筛选出目标URL进行监测,从而使得URL监测更有针对性,并且在URL访问流量整体较大的情况下,可以从目标URL中监测出个别访问情况异常的URL,以此提高URL监测的准确性。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (18)

1.一种URL监测方法,其特征在于,所述方法包括:
通过历史URL访问日志获取满足预设指标的指标条件的目标URL;其中,所述预设指标包括:页面浏览量PV;
根据每个目标URL的预设指标的指标参数,为每个目标URL进行建模,获得每个目标URL的预测模型;
通过所述每个目标URL的预测模型,监测所述每个目标URL的访问量异常情况。
2.根据权利要求1所述的方法,其特征在于,所述通过历史URL访问日志获取满足预设指标的指标条件的目标URL,包括:
从所述历史URL访问日志中获取URL请求时间在预设请求周期内的目标访问日志;
统计所述目标访问日志中每个URL的预设指标的指标参数;
将所述指标参数大于预设指标阈值的URL确定为目标URL。
3.根据权利要求2所述的方法,其特征在于,
所述统计所述目标访问日志中每个URL的预设指标的指标参数,包括:
根据所述目标访问日志生成所述预设请求周期内的URL时段表,所述URL时段表中包括每个时段内,每个URL的地址参数和对应的PV参数;
所述将所述指标参数大于预设参数阈值的URL确定为目标URL,包括:
将所述URL时段表中每个时段内,PV参数大于预设PV阈值的URL确定为目标URL。
4.根据权利要求2所述的方法,其特征在于,所述根据每个目标URL的预设指标的指标参数,为每个目标URL进行建模,获得每个目标URL的预测模型,包括:
为每个目标URL生成时间序列集合,所述时间序列集合中包含每个目标URL的指标参数,所述指标参数为在所述预设请求周期内按照时段采样的所述预设指标的指标参数;
通过对每个目标URL的时间序列集合进行平稳性检测,获得每个目标URL的平稳时间序列集合;
基于所述每个目标URL的平稳时间序列集合为所述每个目标URL进行建模,获得每个目标URL的预测模型。
5.根据权利要求4所述的方法,其特征在于,所述通过对每个目标URL的时间序列集合进行平稳性检测,获得每个目标URL的平稳时间序列集合,包括:
根据每个目标URL的时间序列集合中的指标参数,生成每个目标URL的散点图;
通过所述每个目标URL的散点图确定所述指标参数的均值;
判断所述指标参数的均值是否在预设均值范围内;
若是,则确定所述目标URL的时间序列集合为平稳时间序列集合;否则,通过预设差分方程将所述目标URL的时间序列集合转换为平稳时间序列集合。
6.根据权利要求4所述的方法,其特征在于,所述基于所述每个目标URL的平稳时间序列集合为所述每个目标URL进行建模,获得每个目标URL的预测模型,包括:
为每个目标URL调用预设的时间序列分析模型,通过自相关系数和偏相关系数确定所述时间序列分析模型的模型参数;
将所述每个目标URL的模型参数和平稳时间序列集合中的指标参数输入所述时间序列分析模型,生成所述每个目标URL的预测模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述每个目标URL的平稳时间序列集合为所述每个目标URL进行建模,获得每个目标URL的预测模型,还包括:
计算每个目标URL的预测模型的极大似然估计值;
判断所述极大似然估计值是否大于预设估计阈值,当大于所述预设估计阈值时,确定所述目标URL的预测模型为可用的预测模型。
8.根据权利要求6或7所述的方法,其特征在于,所述时间序列分析模型包括:自回归积分滑动平均ARIMA模型。
9.根据权利要求4所述的方法,其特征在于,所述通过所述每个目标URL的预测模型,监测所述每个目标URL的访问量异常情况,包括:
将所述每个目标URL的平稳时间序列集合中的指标参数输入所述目标URL的预测模型,获得所述每个目标URL的预测指标参数;
判断所述预测指标参数是否大于预设预测指标阈值,若是,则确定所述目标URL的访问量异常。
10.一种URL监测装置,其特征在于,所述装置包括:
获取单元,用于通过历史URL访问日志获取满足预设指标的指标条件的目标URL;其中,所述预设指标包括:页面浏览量PV;
建模单元,用于根据每个目标URL的预设指标的指标参数,为每个目标URL进行建模,获得每个目标URL的预测模型;
监测单元,用于通过所述每个目标URL的预测模型,监测所述每个目标URL的访问量异常情况。
11.根据权利要求10所述的装置,其特征在于,所述获取单元包括:
目标访问日志获取子单元,用于从所述历史URL访问日志中获取URL请求时间在预设请求周期内的目标访问日志;
指标参数统计子单元,用于统计所述目标访问日志中每个URL的预设指标的指标参数;
目标URL确定子单元,用于将所述指标参数大于预设指标阈值的URL确定为目标URL。
12.根据权利要求11所述的装置,其特征在于,
所述指标参数统计子单元,具体用于根据所述目标访问日志生成所述预设请求周期内的URL时段表,所述URL时段表中包括每个时段内,每个URL的地址参数和对应的PV参数;
所述目标URL确定子单元,具体用于将所述URL时段表中每个时段内,PV参数大于预设PV阈值的URL确定为目标URL。
13.根据权利要求11所述的装置,其特征在于,所述建模单元包括:
时间序列集合生成子单元,用于为每个目标URL生成时间序列集合,所述时间序列集合中包含每个目标URL的指标参数,所述指标参数为在所述预设请求周期内按照时段采样的所述预设指标的指标参数;
平稳性检测子单元,用于通过对每个目标URL的时间序列集合进行平稳性检测,获得每个目标URL的平稳时间序列集合;
预测模型获得子单元,用于基于所述每个目标URL的平稳时间序列集合为所述每个目标URL进行建模,获得每个目标URL的预测模型。
14.根据权利要求13所述的装置,其特征在于,所述平稳性检测子单元包括:
散点图生成模块,用于根据每个目标URL的时间序列集合中的指标参数,生成每个目标URL的散点图;
指标参数均值确定模块,用于通过所述每个目标URL的散点图确定所述指标参数的均值;
指标参数均值判断模块,用于判断所述指标参数的均值是否在预设均值范围内;
判断结果执行模块,用于当所述指标参数均值判断模块的判断结果为是时,确定所述目标URL的时间序列集合为平稳时间序列集合,当所述指标参数均值判断模块的判断结果为否时,通过预设差分方程将所述目标URL的时间序列集合转换为平稳时间序列集合。
15.根据权利要求13所述的装置,其特征在于,所述预测模型获得子单元包括:
模型参数确定模块,用于为每个目标URL调用预设的时间序列分析模型,通过自相关系数和偏相关系数确定所述时间序列分析模型的模型参数;
预测模型生成模块,用于将所述每个目标URL的模型参数和平稳时间序列集合中的指标参数输入所述时间序列分析模型,生成所述每个目标URL的预测模型。
16.根据权利要求15所述的装置,其特征在于,所述预测模型获得子单元还包括:
极大似然估计值计算模块,用于计算每个目标URL的预测模型的极大似然估计值;
预测模型可用判断模块,用于判断所述极大似然估计值是否大于预设估计阈值,当大于所述预设估计阈值时,确定所述目标URL的预测模型为可用的预测模型。
17.根据权利要求13所述的装置,其特征在于,所述监测单元包括:
预测指标参数获得子单元,用于将所述每个目标URL的平稳时间序列集合中的指标参数输入所述目标URL的预测模型,获得所述每个目标URL的预测指标参数;
访问量异常判断子单元,用于判断所述预测指标参数是否大于预设预测指标阈值,若是,则确定所述目标URL的访问量异常。
18.一种URL监测设备,其特征在于,包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过历史URL访问日志获取满足预设指标的指标条件的目标URL;其中,所述预设指标包括:页面浏览量PV;
根据每个目标URL的预设指标的指标参数,为每个目标URL进行建模,获得每个目标URL的预测模型;
通过所述每个目标URL的预测模型,监测所述每个目标URL的访问量异常情况。
CN201510293528.7A 2015-06-01 2015-06-01 Url监测方法、装置及设备 Active CN106302350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510293528.7A CN106302350B (zh) 2015-06-01 2015-06-01 Url监测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510293528.7A CN106302350B (zh) 2015-06-01 2015-06-01 Url监测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN106302350A CN106302350A (zh) 2017-01-04
CN106302350B true CN106302350B (zh) 2019-09-03

Family

ID=57655135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510293528.7A Active CN106302350B (zh) 2015-06-01 2015-06-01 Url监测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN106302350B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108322428B (zh) * 2017-01-18 2021-11-05 阿里巴巴集团控股有限公司 一种异常访问检测方法及设备
CN108965207B (zh) * 2017-05-19 2021-02-26 北京京东尚科信息技术有限公司 机器行为识别方法与装置
CN108377242A (zh) * 2018-02-24 2018-08-07 河南工程学院 一种计算机网络安全检测方法
CN108804532B (zh) * 2018-05-03 2020-06-26 腾讯科技(深圳)有限公司 一种查询意图的挖掘和查询意图的识别方法、装置
JP7014054B2 (ja) * 2018-06-13 2022-02-01 日本電信電話株式会社 検知装置及び検知方法
CN110912860B (zh) * 2018-09-18 2022-02-18 北京数安鑫云信息技术有限公司 一种检测伪周期性访问行为的方法及装置
CN109587643B (zh) * 2018-12-18 2020-11-06 网宿科技股份有限公司 一种对应用进行流量泄漏检测的方法和装置
CN113711559B (zh) * 2019-04-16 2023-09-29 北京嘀嘀无限科技发展有限公司 检测异常的系统和方法
CN110290114B (zh) * 2019-06-04 2020-09-08 武汉大学 一种基于预警信息的漏洞自动化防护方法及系统
CN110968475A (zh) * 2019-11-13 2020-04-07 泰康保险集团股份有限公司 监控网页的方法、装置、电子设备及可读存储介质
CN113556260B (zh) * 2020-04-24 2022-12-09 北京三快在线科技有限公司 一种流量监控方法、装置、存储介质及电子设备
CN115659377B (zh) * 2022-12-13 2023-03-31 闪捷信息科技有限公司 接口异常访问识别方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801697A (zh) * 2011-12-20 2012-11-28 北京安天电子设备有限公司 基于多url的恶意代码检测方法和系统
CN103297435A (zh) * 2013-06-06 2013-09-11 中国科学院信息工程研究所 一种基于web日志的异常访问行为检测方法与系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801697A (zh) * 2011-12-20 2012-11-28 北京安天电子设备有限公司 基于多url的恶意代码检测方法和系统
CN103297435A (zh) * 2013-06-06 2013-09-11 中国科学院信息工程研究所 一种基于web日志的异常访问行为检测方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于数据挖掘的Web应用入侵异常检测研究》;郁继锋;《中国博士学位论文全文数据库 信息科技辑》;20120515;全文

Also Published As

Publication number Publication date
CN106302350A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106302350B (zh) Url监测方法、装置及设备
CN105512199B (zh) 搜索方法、搜索装置以及搜索服务器
CN107862022B (zh) 文化资源推荐系统
CN111475639B (zh) 阅读监控方法、计算设备及计算机存储介质
CN107797894B (zh) App用户行为分析方法和装置
WO2015070735A1 (zh) 流量质量分析方法及装置
WO2017113677A1 (zh) 处理用户行为数据的方法和系统
CN109561052B (zh) 网站异常流量的检测方法及装置
JP2009211211A (ja) 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム
CN106790487B (zh) 帮助信息的显示方法、装置及系统
IL234134A (en) Machine learning method of search query types
Cabrieto et al. Detecting long-lived autodependency changes in a multivariate system via change point detection and regime switching models
CN107578263A (zh) 一种广告异常访问的检测方法、装置和电子设备
CN107851156A (zh) 分析方法、分析装置和分析程序
CN109656797B (zh) 日志数据的关联方法及装置
CN110633412A (zh) 页面停留意愿分析方法、装置、计算机设备及存储介质
CN106874293B (zh) 一种数据处理方法及装置
CN109862074B (zh) 一种数据采集方法、装置、可读介质及电子设备
CN111009303A (zh) 运动量自调整方法、装置、计算机设备及存储介质
US20160307223A1 (en) Method for determining a user profile in relation to certain web content
Sheard Basics of statistical analysis of interactions data from web-based learning environments
CN108459936B (zh) 一种基于内容模块化的精准统计方法及装置
CN111198960A (zh) 用户画像数据的确定方法、装置、电子设备及存储介质
CN104392000B (zh) 确定移动站点抓取配额的方法和装置
CN108243037B (zh) 网站流量异常确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant