CN108306879A - 基于Web会话流的分布式实时异常定位方法 - Google Patents
基于Web会话流的分布式实时异常定位方法 Download PDFInfo
- Publication number
- CN108306879A CN108306879A CN201810092168.8A CN201810092168A CN108306879A CN 108306879 A CN108306879 A CN 108306879A CN 201810092168 A CN201810092168 A CN 201810092168A CN 108306879 A CN108306879 A CN 108306879A
- Authority
- CN
- China
- Prior art keywords
- user
- sequence
- web
- session
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 28
- 230000004807 localization Effects 0.000 title abstract description 5
- 230000006399 behavior Effects 0.000 claims description 25
- 230000005856 abnormality Effects 0.000 claims description 18
- 238000002864 sequence alignment Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 11
- 108090000623 proteins and genes Proteins 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000009411 base construction Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000009825 accumulation Methods 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002873 global sequence alignment Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008260 defense mechanism Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002865 local sequence alignment Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1458—Denial of Service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于Web会话流的分布式实时异常定位方法,包括以下步骤:利用Flume与Kafka联合收集Web流量数据,将收集到的Web流量一方面发送到HDFS存储为离线日志,并通过DPS_DRB规则库构建算法动态建立和更新动态规则库DRB,另一方面发送到Spark Streaming,发送到Spark Streaming中的Web流量作为实时日志,Spark Streaming对持续不断的实时日志流式数据以滑动窗口的方式处理;AL_HBGSA算法基于动态规则库,将会话序列与动态规则库中的规则序列进行比对,从而进行异常定位。该方法有利于对Web会话流的异常进行高效、准确的定位。
Description
技术领域
本发明涉及Web会话流异常检测技术领域,特别是一种基于Web会话流的分布式实时异常定位方法。
背景技术
当前,由于越来越有效的防御机制和工具安装在路由器和防火墙中,围绕着网络层的异常更加容易被发现和抵制。然而,互联网应用的广泛使用使得托管在Web服务器上的Web应用程序计算复杂度逐渐上升,服务器资源如CUP、磁盘I/O和带宽等也随之成为网络的瓶颈。DDoS大量耗费Web服务器资源,使得Web服务器无法服务正常请求,这是大数据时代Web服务器的一个主要的威胁。DDoS由于主要针对应用层,符合应用层请求服务流程,导致IDS无法区分,因此DDoS攻击能够有效的避开网络层和应用层的检测。
应用层DDoS攻击以模拟正常流量的方式使得访问流量段时间内迅速上涨,与网络突发流量类似。因此,如何区分正常的突发流量和DDoS异常流量是目前的热点问题。有人使用历史IP过滤(History based IP Filtering, HIF)的方式抵御DDoS攻击。HIF方法维护一个IP地址数据库(IP Address Database, IAD)来存放前两周的频繁用户合法IP地址。当网络带宽利用率较高导致丢包现象时HIF被激活,HIF会丢弃那些没有出现在IAD中的IP的请求数据包。HIF利用滑动窗口的形式删除过期的IP地址,保持IAD的更新。然而HIF却无法辨别无丢包的DDoS流量。谢逸提出基于隐半马尔可夫链的检测过程,用隐半马尔可夫链描述用户的行为序列作为正常用户行为链,并以此与Web流量进行偏离计算,当偏离度超过一定值则认为Web流量存在异常。但是其对Session Floodd攻击的检测能力较弱。
综上所述,目前的异常检测算法主要的方式是首先对Web用户的行为进行建模,作为正常的访问序列,然后尽可能的寻找一种相似度度量方式来区分正常流量和异常流量。如何在仅利用Web流量少量特征,不必理解具体流量内容的条件下,建立相应的模型,为异常检测提供决策依据,是当前的主流研究方法。异常检测的主要目的是为了防御异常以及尽早处理,检测出异常及更进一步的定位异常具有实际意义,然而国内外对于异常实时定位方面的研究不多。
发明内容
本发明的目的在于提供一种基于Web会话流的分布式实时异常定位方法,该方法有利于对Web会话流的异常进行高效、准确的定位。
为实现上述目的,本发明的技术方案是:一种基于Web会话流的分布式实时异常定位方法,包括以下步骤:
(1)利用日志收集系统Flume组件与分布式消息系统Kafka组件联合收集Web流量数据,其中Flume组件负责收集多个Web终端的Web流量,Kafka组件作为消息中间件,将收集到的Web流量发送到Hadoop分布式文件系统HDFS存储,同时发送到Spark Streaming组件进行实时处理;
(2)发送到HDFS中的Web流量存储为离线日志,并通过DPS_DRB规则库构建算法动态建立和更新动态规则库DRB;
(3)发送到Spark Streaming组件中的Web流量作为实时日志,Spark Streaming组件对持续不断的实时日志流式数据以滑动窗口的方式处理,对滑动窗口内的Web流量进行过滤,转化,用户识别,会话识别,构建用户会话序列,然后发送给基于混合生物基因序列比对的异常定位算法AL_HBGSA;
(4)AL_HBGSA算法基于步骤(3)建立并不断更新的动态规则库DRB,将步骤(4)发送来的用户会话序列与动态规则库中的规则序列进行比对,从而进行异常定位,如果检测到异常,则进行告警处理,否则作为正常日志输出。
进一步地,步骤(3)中,对实时日志流式数据以滑动窗口的方式处理,对滑动窗口内的Web流量进行过滤,转化,用户识别,会话识别,构建用户会话序列,具体方法为:
(31)对滑动窗口里面的Web流量进行数据过滤,将时间格式转化为时间戳,将IP和URL映射为数字;
(32)进行用户识别和会话识别,构造用户访问序列。
进一步地,步骤(4)中,AL_HBGSA算法进行异常定位的方法为:
(41)初始化,从数据库DWASD中提取用户会话序列S={S1,S2,…,Su,…,Sn},其中n表示当前数据库DWASD中会话总数,数据库DWASD是由滑动窗口内的Web流量经过处理得到的用户会话序列构成的数据库;
(42)遍历每个用户会话序列Su,将其与动态规则库DRB中的每个规则进行比对,得到序列比对异常SPur,然后判断序列比对异常SPur是否大于历史平均会话异常度avgSSP,是则判定用户u为异常用户,否则判定用户u为正常用户。
进一步地,动态Web用户访问序列数据库DWASD的构建方法为:
a1.输入Web日志数据集Data,并对数据集Data进行数据过滤;
a2.将时间格式转化为时间戳,并获取当前时间tc;将IP和URL映射为数字,构造Ses数据结构;
a3.进行用户识别和会话识别,构造Web用户访问序列数据库WASD;
a4.遍历WASD的每行,其中一行表示一个用户的访问序列,根据用户访问行为距当前时间的远近过滤出每个用户的近期访问行为,构成该用户的近期访问序列,具体方法为:
b1.计算用户访问每个页面的权重:
Wui = 1/(1+α*|tc-tui|)
其中,Wui表示用户u访问页面i的权重,α表示时间衰减系数,的取值在不同系统中不同,如果一个系统变化很快,就应该取较大的α,反之取较小的α;tui表示用户u访问页面i的时间戳;
b2.判断权重Wui是否大于设定的时间阈值β,是则判定该权重对应的用户访问行为为近期访问行为;
b3.重复步骤b1-b2,得到该用户的所有近期访问行为,进而由该用户的所有近期访问行为构成该用户的近期访问序列;
然后由所有用户的近期访问序列构成动态Web用户访问序列数据库DWASD。
本发明的有益效果是:(1)提出基于Web会话流的异常定位架构,利用流计算框架Spark Streaming和Kafka 消息中间件,对实时Web流量进行异常定位。(2)提出了基于混合生物基因序列比对的异常定位算法(Anomaly Location algorithm based on HybridBiological Gene Sequence Alignment, AL_HBGSA),联合全局序列比对算法和局部序列比对算法作为相似性度量方式,对Web会话序列与动态规则库的规则序列进行比对,以提高序列比对准确性。
附图说明
图1是本发明方法的实现流程图。
图2是本发明实施例中的相似度矩阵位置关系图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供一种基于Web会话流的分布式实时异常定位方法,如图1所示,包括以下步骤:
(1)利用日志收集系统Flume组件与分布式消息系统Kafka组件联合收集Web流量数据,其中Flume组件负责收集多个Web终端的Web流量,Kafka组件作为消息中间件,将收集到的Web流量发送到Hadoop分布式文件系统HDFS存储,同时发送到Spark Streaming(Spark流计算框架)组件进行实时处理。
(2)发送到HDFS中的Web流量存储为离线日志,并通过DPS_DRB规则库构建算法动态建立和更新动态规则库DRB。
(3)发送到Spark Streaming组件中的Web流量作为实时日志,Spark Streaming组件对持续不断的实时日志流式数据以滑动窗口的方式处理,对滑动窗口内的Web流量进行过滤,转化,用户识别,会话识别,构建用户会话序列,然后发送给基于混合生物基因序列比对的异常定位算法AL_HBGSA。具体方法为:
(31)对滑动窗口里面的Web流量进行数据过滤,将时间格式转化为时间戳,将IP和URL映射为数字。其中,过滤是删除与挖掘任务不相干的数据,例如图片、音频等信息;时间后面需要用到大小比较,所以转化为时间戳;转换是把IP,URL序列比较复杂,转化为简单的数字表示,例如数字编号。
(32)进行用户识别和会话识别,构造用户访问序列。
其中,用户识别是同一用户,这里使用了同一IP为同一用户;会话识别是用户访问网页有一个时间阈值,分割用户访问会话序列。
(4)AL_HBGSA算法基于步骤(3)建立并不断更新的动态规则库DRB,将步骤(4)发送来的用户会话序列与动态规则库中的规则序列进行比对,从而进行异常定位,如果检测到异常,则进行告警处理,否则作为正常日志输出。其中,AL_HBGSA算法进行异常定位的方法为:
(41)初始化,从数据库DWASD中提取用户会话序列S={S1,S2,…,Su,…,Sn},其中n表示当前数据库DWASD中会话总数,数据库DWASD是由滑动窗口内的Web流量经过处理得到的用户会话序列构成的数据库;
(42)遍历每个用户会话序列Su,将其与动态规则库DRB中的每个规则进行比对,得到序列比对异常SPur,然后判断序列比对异常SPur是否大于历史平均会话异常度avgSSP,是则判定用户u为异常用户,否则判定用户u为正常用户。
该方法中涉及到的动态Web用户访问序列数据库DWASD的构建方法为:
a1.输入Web日志数据集Data,并对数据集Data进行数据过滤;
a2.将时间格式转化为时间戳,并获取当前时间tc;将IP和URL映射为数字,构造Ses数据结构;
a3.进行用户识别和会话识别,构造Web用户访问序列数据库WASD;
a4.遍历WASD的每行,其中一行表示一个用户的访问序列,根据用户访问行为距当前时间的远近过滤出每个用户的近期访问行为,构成该用户的近期访问序列,具体方法为:
b1.计算用户访问每个页面的权重:
Wui = 1/(1+α*|tc-tui|)
其中,Wui表示用户u访问页面i的权重,α表示时间衰减系数,的取值在不同系统中不同,如果一个系统变化很快,就应该取较大的α,反之取较小的α;tui表示用户u访问页面i的时间戳;
b2.判断权重Wui是否大于设定的时间阈值β,是则判定该权重对应的用户访问行为为近期访问行为;
b3.重复步骤b1-b2,得到该用户的所有近期访问行为,进而由该用户的所有近期访问行为构成该用户的近期访问序列;
然后由所有用户的近期访问序列构成动态Web用户访问序列数据库DWASD。
下面对本发明涉及的基于混合生物基因序列比对的异常定位算法AL_HBGSA作进一步说明。
在计算机科学中,生物基因序列比对(Biological Gene Sequence Alignment,BGSA)专指比较两个序列之间的相关性。序列比对是一种反映元素顺序的非欧式距离算法。由于Web用户访问序列具有时间上的顺序性,属于事务序列,常用的相似度计算公式(如皮尔逊相似度、余弦相似度)并不适用于事务序列的相似度计算。另外,由于Web用户访问序列在长度上不一致,这也造成单一的序列比对算法不能完全反应序列之间的相似性。针对此问题,本发明提出一种基于混合生物基因序列比对的异常定位算法,该算法从全局和局部角度考虑两序列的相似度,降低序列长度造成的偏差,提高序列比对的准确性。
1.基本概念
给定一个有限集合Σ,其元素是由字符构成。S是由Σ中任意个字符形成的序列集合。例如,假设Σ={A,B,C},集合S={s 1,s 2,…,s n}是由n个有限序列构成,s 1=AB, s 2=ABC,…,s 3=ACB都是由Σ中任意e(e>0)个字符构成的序列。用户的会话同样是由对不同的Web页面的访问行为组成,即S={S 1,S 2,…,S u ,…,S f },S表示所有用户的访问序列集合,f表示用户总数,而S u ={s u1,s u2,…,s ug },其中S u 为用户u的访问序列集合,g表示用户的第g(g>0)个会话,用户u的第g个会话为s ug ={p 1,p 2,…,p i ,…,p c },p i 为用户访问的第i个页面,c表示用户访问的页面总数。动态规则库DRB是一个有限集合,由Web用户访问序列的最大频繁模式构成。每个规则的任意个字符可能组成一个用户访问序列,因此动态规则库中的每条规则r是一个有限集合Σ r ,则DRB={Σ 1, Σ 2,…, Σ r ,…}。
2.AL_HBGSA混合序列比对算法
序列的上下文环境是计算序列相似性必不可少的重要因素,BGSA最早用于生物DNA序列比对,DNA序列在长度上相差不大,而用户会话序列的长度却不一致甚至相差甚远。另外,现有的相似度计算方法也不适用于用户会话序列比对。第一,用户会话序列存在长度不一致,导致传统的向量距离方法如欧式距离、曼哈顿距离、海明距离等不适用,因为向量距离方法要求序列的长度相等。第二,由于用户会话序列是由页面的不同顺序构成,那么相应的度量方式必须得考虑这种顺序特性。这就导致如莱文斯坦距离和变长矢量距离不适用。第三,用户会话中两个访问行为的连续性也是相对重要的因素,因而最长公共子序列算法也不适用。例如一个用户会话以A页面开始,以B页面结束,那么最长公共子序列算法认为会话s 1=AB与会话s 2=ACDFB是相同的,忽略了两个页面之间的距离。综上所述,用户会话序列比对需要考虑两个因素:第一,序列的长度是不一致的;第二,序列的访问行为之间存在连续性。
Needleman-Wunsch(NW)是由Needleman和Wunsch于1970年提出的一种基于动态规划的BGSA方法。NW算法以动态规划算法寻找最优序列比对路径,具体做法是在序列比对的得分策略的支持下建立一个得分矩阵用于找到最大得分,从而找到最优序列比对路径。NW算法能够简便而迅速在计算机中实现,将序列从头到尾进行比对,也称之为全局序列比对算法,用于相近长度的两个序列之间的比对。由于该方法原用于长度相近的基因序列的比对,然而不同物种的基因序列长度依然会存在不一致现象,因此为了解决这个问题,Smith-Waterman(SW)算法高度重视序列的局部比对相似性,忽略序列的长度不同。NW算法与SW算法都有自身的优缺点,NW通过完整序列来进行比对,而SW更加关注局部相似性。为了将BGSA引入到Web用户会话序列比对中,需要对BGSA进行改进以适用于计算Web用户访问序列之间的异常。第一,用户会话的长度不一致;第二,规则库中的规则长度不一致。因此提出混合生物基因序列比对方法用于用户会话与规则比对,从而定位异常。
假设sim(s 1,s 2)表示序列s 1与序列s 2的比对相似度,当序列s 1与序列s 2是不同单个字符的序列时,有如下定义:sim(s 1,s 2)= sim (s 1,”-”)= sim (“-”,s 2)=0,且s 1≠”-”,s 2≠”-”,当s 1=s 2时,sim (s 1,s 2)=1,其中”-”是空位占位符用于使两个序列长度相同。对于序列s 1与序列s 2为长序列时,例如式(1)所示:
(1)
对s 1和s 2引入空位占位符,则sim(s 1,s 2)=5。设序列s 1={a 1,a 2,…,a X },序列s2={b 1,b 2,…,b Y },其中X和Y分别是序列s 1、s 2的长度。sim(a h ,b j )表示两个元素的相似度得分,其中h∈[1,X],j∈[1,Y]。使用动态规划法计算sim(a i ,b j )有式(2)所示:
(2)
如果构建一个相似度矩阵,则对于第h行第j列的单元格sim(a h ,b j )为参考,则sim(a h-1,b j-1)表示左上方单元格,sim(a h-1,b j )表示上方单元格,sim(a h ,b j-1 )表示左方单元格。位置关系如图2所示:
序列比对的目标是找到最优比对路径,直接方式是先生成两序列中各个字符匹配的得分矩阵,然后使用穷举法找到最优解法,但这种解法不太现实,因此有动态规划法利用回溯的方式从矩阵的右下角向左回溯。三种方向的回溯表示三种路径,从这三个中选择最大得分的路径则较为容易。方法①的回溯表示s 1、s2两序列都用头插法加入一个元素;方法②表明s 1序列元素不变,s2序列用头插法加入一个空位占位符“-”; 方法③表明s2序列元素不变,s 1序列用头插法加入一个空位占位符“-”;其中空位占位符是为了取得两个序列最佳比对。使用最简单的空位罚分方式,如式(3)所示:
(3)
式(3)中gap x 、gap y 与gap z 分别表示匹配、不匹配、空位的得分情况。其中gap x >0,gap y <0,gap z <0,且gap y ≠gap z 。通过空位罚分的方式进行回溯找到最优匹配路径就会形成如式(1)所示的格式。
NW与SW算法都需要使用以上过程寻找最优比对路径,具体的寻优步骤为:
(1)定位在得分矩阵的右下角;
(2)若a h =b j ,则回溯到单元格(a h-1,b j-1);
(3)若a h ≠b j ,则回溯到(a h-1,b j-1)、(a h-1,b j )、(a h ,b j-1)中最大得分的单元格,得分相同则按照(a h-1,b j-1)、(a h-1,b j )、(a h ,b j-1)的顺序选择单元格回溯;
(4)若当前单元格是a(a h ,b 0),则回溯至a(a h-1,b 0);
(5)若当前单元格是a(a 0,b j ),则回溯至a(a 0,b j-1);
但SW算法却有部分不同,多了“去头去尾”的操作。“去头”表示如果当前得分小于0,则之前的比对路径清空,从当前单元格重新开始寻找路径;“去尾”表示初始定位不是在最右下角,而是从右下角最大得分的单元格开始回溯。
当取得两序列的最优比对路径后就可以求解相似度值。在一些研究中,将最优路径的得分和认为是最终的相似度值,但是由于数据集的不同,得分变量gap x 、gap y 与gap z 的值没有具体的说明导致无法统一,如果gap y 与gap z 为负数,对于全局序列比对NW算法来说可能出现负数相似度值。因此当对应位置上的两个字符相同则得分累加。设两序列中较短序列的长度为L min ,较长序列的长度为L max 。研究发现,按照得分累加法,序列比对时,累加值最大不超过L min ,因此NW和SW算法的相似度计算应满足式(4)、(5):
(4)
(5)
式(4)、(5)分别计算NW和SW算法的相似度,其中count(NW)与count(SW)分别表示NW和SW算法中对匹配正确的字符的累加。由于count(NW)≤L min ,count(NW)≤L min ,很容易证明simNW(s 1,s 2)∈[0,1],simSW (s 1,s 2)∈[0,1]。符合相似度一般表达形式,无需对得分变量值进行调整。然后使用混合基因序列比对方法,通过两序列的长度比值结合NW和SW计算相似度,其计算式如(6)所示:
(6)
式(6)中δ表示序列比对系数,即对于NW与SW算法对最终两序列比对相似的影响度。使用式(7)定义的值:
(7)
当序列长度不一致性大时,δ→0,这时simSW→1,说明局部序列比对应该发挥主要序列比对作用,反之亦然。由于目的是求两序列的异常度,因此只需要对式(6)取补,两序列会话异常度(Session Suspicion Probability, SSP)计算方法如式(8)所示:
(8)
通过式(8)计算得到的SSP∈[0,1],为了更加准确地标注异常,我们设置异常阈值,当SSP大于异常阈值时,就标记为异常,设置阈值,计算历史Web流量中的平均会话异常度avgSSP作为异常阈值,当SSP>avgSSP时认为发生异常。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (4)
1.一种基于Web会话流的分布式实时异常定位方法,其特征在于,包括以下步骤:
(1)利用日志收集系统Flume组件与分布式消息系统Kafka组件联合收集Web流量数据,其中Flume组件负责收集多个Web终端的Web流量,Kafka组件作为消息中间件,将收集到的Web流量发送到Hadoop分布式文件系统HDFS存储,同时发送到Spark Streaming组件进行实时处理;
(2)发送到HDFS中的Web流量存储为离线日志,并通过DPS_DRB规则库构建算法动态建立和更新动态规则库DRB;
(3)发送到Spark Streaming组件中的Web流量作为实时日志,Spark Streaming组件对持续不断的实时日志流式数据以滑动窗口的方式处理,对滑动窗口内的Web流量进行过滤,转化,用户识别,会话识别,构建用户会话序列,然后发送给基于混合生物基因序列比对的异常定位算法AL_HBGSA;
(4)AL_HBGSA算法基于步骤(3)建立并不断更新的动态规则库DRB,将步骤(4)发送来的用户会话序列与动态规则库中的规则序列进行比对,从而进行异常定位,如果检测到异常,则进行告警处理,否则作为正常日志输出。
2.根据权利要求1所述的基于Web会话流的分布式实时异常定位方法,其特征在于,步骤(3)中,对实时日志流式数据以滑动窗口的方式处理,对滑动窗口内的Web流量进行过滤,转化,用户识别,会话识别,构建用户会话序列,具体方法为:
(31)对滑动窗口里面的Web流量进行数据过滤,将时间格式转化为时间戳,将IP和URL映射为数字;
(32)进行用户识别和会话识别,构造用户访问序列。
3.根据权利要求1所述的基于Web会话流的分布式实时异常定位方法,其特征在于,步骤(4)中,AL_HBGSA算法进行异常定位的方法为:
(41)初始化,从数据库DWASD中提取用户会话序列S={S1,S2,…,Su,…,Sn},其中n表示当前数据库DWASD中会话总数,数据库DWASD是由滑动窗口内的Web流量经过处理得到的用户会话序列构成的数据库;
(42)遍历每个用户会话序列Su,将其与动态规则库DRB中的每个规则进行比对,得到序列比对异常SPur,然后判断序列比对异常SPur是否大于历史平均会话异常度avgSSP,是则判定用户u为异常用户,否则判定用户u为正常用户。
4.根据权利要求1所述的基于Web会话流的分布式实时异常定位方法,其特征在于,动态Web用户访问序列数据库DWASD的构建方法为:
a1.输入Web日志数据集Data,并对数据集Data进行数据过滤;
a2.将时间格式转化为时间戳,并获取当前时间t c ;将IP和URL映射为数字,构造Ses数据结构;
a3.进行用户识别和会话识别,构造Web用户访问序列数据库WASD;
a4.遍历WASD的每行,其中一行表示一个用户的访问序列,根据用户访问行为距当前时间的远近过滤出每个用户的近期访问行为,构成该用户的近期访问序列,具体方法为:
b1.计算用户访问每个页面的权重:
W ui = 1/(1+α*|t c -t ui |)
其中,W ui 表示用户u访问页面i的权重,α表示时间衰减系数,的取值在不同系统中不同,如果一个系统变化很快,就应该取较大的α,反之取较小的α;t ui 表示用户u访问页面i的时间戳;
b2.判断权重W ui 是否大于设定的时间阈值β,是则判定该权重对应的用户访问行为为近期访问行为;
b3.重复步骤b1-b2,得到该用户的所有近期访问行为,进而由该用户的所有近期访问行为构成该用户的近期访问序列;
然后由所有用户的近期访问序列构成动态Web用户访问序列数据库DWASD。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810092168.8A CN108306879B (zh) | 2018-01-30 | 2018-01-30 | 基于Web会话流的分布式实时异常定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810092168.8A CN108306879B (zh) | 2018-01-30 | 2018-01-30 | 基于Web会话流的分布式实时异常定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108306879A true CN108306879A (zh) | 2018-07-20 |
CN108306879B CN108306879B (zh) | 2020-11-06 |
Family
ID=62867109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810092168.8A Expired - Fee Related CN108306879B (zh) | 2018-01-30 | 2018-01-30 | 基于Web会话流的分布式实时异常定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108306879B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109240886A (zh) * | 2018-09-03 | 2019-01-18 | 平安科技(深圳)有限公司 | 异常处理方法、装置、计算机设备以及存储介质 |
CN110058977A (zh) * | 2019-01-14 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 基于流式处理的监控指标异常检测方法、装置及设备 |
WO2020119627A1 (zh) * | 2018-12-15 | 2020-06-18 | 深圳先进技术研究院 | 应用于分布式容器云平台的异常检测与定位方法及装置 |
CN111953636A (zh) * | 2019-05-15 | 2020-11-17 | 北京数安鑫云信息技术有限公司 | 内网威胁检测方法、装置、计算机可读存储介质和计算机设备 |
CN112817789A (zh) * | 2021-02-23 | 2021-05-18 | 浙江大华技术股份有限公司 | 一种基于浏览器传输的建模方法及装置 |
CN113378892A (zh) * | 2021-05-20 | 2021-09-10 | 南京光普信息技术有限公司 | 基于移动手机app使用行为数据的多序列对比分类方法 |
CN113706668A (zh) * | 2021-07-27 | 2021-11-26 | 杭州玖欣物联科技有限公司 | 一种根据网关数据实现玻璃运行三维动画的方法 |
CN114531304A (zh) * | 2022-04-24 | 2022-05-24 | 北京安华金和科技有限公司 | 一种基于数据包的会话处理方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103227798A (zh) * | 2013-04-23 | 2013-07-31 | 西安电子科技大学 | 一种免疫网络系统 |
WO2014124544A1 (en) * | 2013-02-17 | 2014-08-21 | Frost Technologies Inc. | Method and system for interactive online audience participation in multicast gaming |
CN105187140A (zh) * | 2015-07-14 | 2015-12-23 | 福建师范大学 | 认知无线网络中的分布式可信频谱协作感知方法 |
CN106131071A (zh) * | 2016-08-26 | 2016-11-16 | 北京奇虎科技有限公司 | 一种Web异常检测方法和装置 |
-
2018
- 2018-01-30 CN CN201810092168.8A patent/CN108306879B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014124544A1 (en) * | 2013-02-17 | 2014-08-21 | Frost Technologies Inc. | Method and system for interactive online audience participation in multicast gaming |
CN103227798A (zh) * | 2013-04-23 | 2013-07-31 | 西安电子科技大学 | 一种免疫网络系统 |
CN105187140A (zh) * | 2015-07-14 | 2015-12-23 | 福建师范大学 | 认知无线网络中的分布式可信频谱协作感知方法 |
CN106131071A (zh) * | 2016-08-26 | 2016-11-16 | 北京奇虎科技有限公司 | 一种Web异常检测方法和装置 |
Non-Patent Citations (1)
Title |
---|
孙嘉栋: "基于统计学习理论的网络异常流量分析方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109240886A (zh) * | 2018-09-03 | 2019-01-18 | 平安科技(深圳)有限公司 | 异常处理方法、装置、计算机设备以及存储介质 |
CN109240886B (zh) * | 2018-09-03 | 2023-04-18 | 平安科技(深圳)有限公司 | 异常处理方法、装置、计算机设备以及存储介质 |
WO2020119627A1 (zh) * | 2018-12-15 | 2020-06-18 | 深圳先进技术研究院 | 应用于分布式容器云平台的异常检测与定位方法及装置 |
CN110058977A (zh) * | 2019-01-14 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 基于流式处理的监控指标异常检测方法、装置及设备 |
CN110058977B (zh) * | 2019-01-14 | 2020-08-14 | 阿里巴巴集团控股有限公司 | 基于流式处理的监控指标异常检测方法、装置及设备 |
CN111953636A (zh) * | 2019-05-15 | 2020-11-17 | 北京数安鑫云信息技术有限公司 | 内网威胁检测方法、装置、计算机可读存储介质和计算机设备 |
CN111953636B (zh) * | 2019-05-15 | 2023-01-31 | 北京数安鑫云信息技术有限公司 | 内网威胁检测方法、装置、计算机可读存储介质和计算机设备 |
CN112817789B (zh) * | 2021-02-23 | 2023-01-31 | 浙江大华技术股份有限公司 | 一种基于浏览器传输的建模方法及装置 |
CN112817789A (zh) * | 2021-02-23 | 2021-05-18 | 浙江大华技术股份有限公司 | 一种基于浏览器传输的建模方法及装置 |
CN113378892A (zh) * | 2021-05-20 | 2021-09-10 | 南京光普信息技术有限公司 | 基于移动手机app使用行为数据的多序列对比分类方法 |
CN113706668A (zh) * | 2021-07-27 | 2021-11-26 | 杭州玖欣物联科技有限公司 | 一种根据网关数据实现玻璃运行三维动画的方法 |
CN113706668B (zh) * | 2021-07-27 | 2024-02-23 | 杭州玖欣物联科技有限公司 | 一种根据网关数据实现玻璃运行三维动画的方法 |
CN114531304A (zh) * | 2022-04-24 | 2022-05-24 | 北京安华金和科技有限公司 | 一种基于数据包的会话处理方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108306879B (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108306879B (zh) | 基于Web会话流的分布式实时异常定位方法 | |
Xu et al. | Am I eclipsed? A smart detector of eclipse attacks for Ethereum | |
WO2018054342A1 (zh) | 一种网络数据流分类的方法及系统 | |
US20150271280A1 (en) | Multi-objective server placement determination | |
Qin et al. | Federated learning-based network intrusion detection with a feature selection approach | |
TWI812623B (zh) | 節點裝置、電腦實施方法及相關非暫時性處理器可讀媒體 | |
CN101916256A (zh) | 综合行动者兴趣与网络拓扑的社区发现方法 | |
KR102086936B1 (ko) | 사용자 데이터 공유 방법 및 디바이스 | |
He et al. | A novel application classification attack against Tor | |
CN104717304A (zh) | 一种cdn-p2p内容优化选择系统 | |
Jin et al. | A federated semi‐supervised learning approach for network traffic classification | |
CN109885782B (zh) | 一种生态环境空间大数据集成方法 | |
TW201349797A (zh) | 網路流量異常偵測系統及其方法 | |
CA2931525A1 (en) | Data stream identifying method and device | |
Lin et al. | Esmfl: Efficient and secure models for federated learning | |
Ma et al. | EETC: An extended encrypted traffic classification algorithm based on variant resnet network | |
CN108418871A (zh) | 一种云存储性能优化方法和系统 | |
Chen et al. | Big data generation and acquisition | |
US10572486B2 (en) | Data communication in a distributed data grid | |
Yin et al. | A novel large-scale digital forensics service platform for internet videos | |
CN110912895B (zh) | 一种基于感知哈希的网络数据流溯源方法 | |
Wang et al. | Informative image selection for crowdsourcing-based mobile location recognition | |
CN106100886A (zh) | 一种一体化网络用户行为分析方法 | |
Hu et al. | Piper: A unified machine learning pipeline for internet-scale traffic analysis | |
Khattak et al. | D3TAC: Utilizing distributed computing for DDoS attack traffic analysis on the cloud |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201106 |