CN105721427A - 一种从Web日志中挖掘攻击频繁序列模式的方法 - Google Patents

一种从Web日志中挖掘攻击频繁序列模式的方法 Download PDF

Info

Publication number
CN105721427A
CN105721427A CN201610023573.5A CN201610023573A CN105721427A CN 105721427 A CN105721427 A CN 105721427A CN 201610023573 A CN201610023573 A CN 201610023573A CN 105721427 A CN105721427 A CN 105721427A
Authority
CN
China
Prior art keywords
attack
data
sequence
frequent
daily record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610023573.5A
Other languages
English (en)
Other versions
CN105721427B (zh
Inventor
孙建华
孙慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201610023573.5A priority Critical patent/CN105721427B/zh
Publication of CN105721427A publication Critical patent/CN105721427A/zh
Application granted granted Critical
Publication of CN105721427B publication Critical patent/CN105721427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及网络安全领域的数据挖掘,具体涉及一种从Web日志中挖掘攻击频繁序列模式的方法。本发明的方法包括:收集网站访问日志文件,网页信息及攻击特征码;解析网站日志结构,将解析出的URL与收集到的攻击特征码进行匹配,得到攻击记录,清理URL;对攻击日志数据进行用户识别并区分人为攻击和漏洞扫描器的攻击;分别进行会话识别,得到人为攻击的序列数据库和漏洞扫描器的序列数据库;将字符串数据库转换为数字数据库,并且使用序列模式挖掘方法分别挖掘序列数据库的频繁序列;将挖掘得到的频繁序列最大化并将序列模式转化为可视化的图形语言。其流程如图1所示。该方法能够实现攻击模式的可视化以及探索漏洞扫描器内部的扫描序列。

Description

一种从Web日志中挖掘攻击频繁序列模式的方法
技术领域
本发明涉及Web安全领域的数据挖掘,特别是涉及一种对攻击行为的挖掘。具体涉
及通过对Web日志的挖掘,发现网络攻击者的攻击序列模式的方法。
背景技术
作为互联网上最重要的应用之一,Web提供了便捷的文档发布与获取机制,并逐渐成为各类信息资源的聚集地。信息的丰富性和多样性诱惑着黑客,导致对Web应用的攻击越来越频繁,尤其是针对Web服务器的攻击。这种攻击不仅种类繁多,而且危害巨大,有时会导致公司用户信息泄露,更甚者会致使服务器瘫痪。常见的Web应用漏洞有SQL注入、跨站脚本攻击、目录遍历、文件包含、命令执行等。其中SQL注入是发生在应用程序的数据库层面上的漏洞,被广泛用于非法获取网站的控制权,该漏洞的存在会导致网站被嵌入恶意性代码、植入后门程序,严重时甚至会破坏硬盘数据,导致系统瘫痪。而在跨站脚本攻击中,伪造的URL被作为诱饵,诱导用户点击。用户点击被篡改的URL后,恶意的脚本将会在受害者的浏览器中执行。该漏洞主要被用于窃取密码、钓鱼欺骗、传播恶意代码等。因此对Web应用程序漏洞的利用,是获取公司内部信息的最便捷的路径之一。
Web日志记录了服务器接受和处理请求以及运行时错误的各种原始信息。当用户对服务器发送请求时,服务器的访问日志文件就会记录该请求的详细信息。攻击者如果想要利用某个漏洞,需要通过向服务器发送请求,根据服务器的响应来攻击,因此攻击者的入侵行为也会被记录到Web日志中。在服务器的日常运营和安全应急响应过程中,管理员需要从安全的角度对日志进行分析。在攻击发生后通过对近几天的日志分析,跟踪攻击者,并还原攻击过程。通常是利用grep等文本搜索命令来完成对日志文件某个关键字的搜索,从中发现异常行为,然后对这些存在异常行为的日志进行人为分析。然而这种手动检查的方法既费时又费力。另一种方法是使用自动化工具,可以实现对日志的高效搜索、可视化分析等操作。但是这些分析工具仅仅是对日志做一些简单的统计,比如统计网页点阅数和访问量,而不是日志进行深入的数据分析。此时就需要使用数据挖掘技术对日志数据进行分析,该技术被称为Web使用挖掘(WebUsageMining)。
Web使用挖掘是Web数据挖掘的一部分,挖掘的数据主要来源于服务器的日志,能够实现对日志数据的深入分析。其基本工作流程主要分为三个阶段:数据收集和预处理,模式发现,模式分析。在Web安全领域,Web数据挖掘的应用并不常见,但是对日志中攻击数据进行挖掘,有利于帮助管理员发现漏洞,保护网站。通过对日志中攻击数据的分析,可以比较轻易的知道攻击者感兴趣的地方,以及市面上是否出现了1day攻击的大规模利用。
发明内容
本发明针对目前对网络攻击行为分析的迫切性,结合数据挖掘算法,对攻击者攻击网站的序列进行模式挖掘。一方面可以探索漏洞扫描器内部的扫描路径;另一方面从网站安全角度来考虑,有助于帮助管理员发现和分析攻击者的攻击行为。本发明提供了一种探索攻击者攻击行为的方法,所叙述方法步骤如图1,包括:
1.数据收集阶段
首先,在预处理之前需要收集针对各种网络漏洞进行攻击的特征码,以此来作为匹配攻击的依据。攻击特征码是指在发送请求时包含在URL中的能够对某种特定的漏洞进行利用的特征字符串。将收集到的攻击特征码与其对应攻击类型存储到特定的文件中作为漏洞特征库,格式如图2所示。
其次,作为挖掘数据的主体,网站的日志数据在这一步也要被收集。由于Web服务器的多样性,导致访问日志的格式也多种多样。在收集日志数据的同时要收集日志的结构信息,以此为依据来解析日志的每一个字段。另一方面,为了保持攻击序列的简洁性,将每一个攻击还原到具体的页面,此外还需要收集网站页面信息,作为识别URL请求某一页面的依据。
2.预处理阶段
在日志记录的用户请求信息中,URL是数据分析的重要依据,其中应用最广泛的是HTTP/HTTPS协议的URL。此外,URL也是Web安全的入口点,各种安全威胁都是伴随着URL的请求而进行的,如果客户端到服务端各层的解析没做好,一旦被攻击者利用,篡改URL或请求头部就可能出现安全问题。因此日志中的URL字段也可用于检查该用户该记录是否存在漏洞利用行为的主要依据。
与通用的Web使用挖掘的数据清理不同的是,Web使用挖掘会祛除异常请求和静态请求的部分,常见的有对图片的请求或者是请求响应状态不是“200”的记录。而本方法清理掉正常的用户请求,保留恶意的用户请求,将攻击数据保存后,对攻击数据进行用户识别和会话识别,其具体过程包括以下几个部分:
(1)日志解析。数据收集完毕后,根据日志结构信息对日志文件解析,将日志记录解析为相应的请求IP、请求时间、请求方式、请求URL与请求状态、客户端等字段。
(2)日志清洗。即攻击特征匹配,通过日志中的URL来匹配漏洞特征库,查找日志中含有攻击行为的记录。根据解析到的URL请求与之前收集到的攻击特征码进行逐一对比,如果该URL中包含任意攻击类型的特征码,那么就判定该条日志记录产生了攻击的行为,按照访问时间、访问者IP、客户端浏览器、请求方式、请求URL与请求状态等信息保存在攻击文件中。
(3)URL清理。攻击者的攻击详细信息保存到攻击文件以后,需要对URL字段进行清理。日志中匹配出含有攻击的日志条目中,其解析出的URL,除了包含对网站中某个具体页面的请求,同时存在大量的攻击字符串。这些字符串对于分析攻击者的攻击路径来说是无价值的,因此只需保存该攻击具体产生在哪一个页面,所以额外的一步操作是将被攻击的页面提取出来。依据数据收集阶段搜集的网站页面信息来匹配具体对网站哪一个页面进行了Web漏洞的利用。
(4)用户识别。从日志记录中识别出每一个发送请求的用户。根据请求用户的IP、操作系统、浏览器等信息从大量的Web日志记录中找出访问Web站点的具体用户。针对用户识别有很多有效的算法,通用的算法是通过用户IP和客户端操作系统或浏览器识别不同的用户。本发明依据预处理后的IP和客户端信息来识别不同的用户。
(5)人为攻击和漏洞扫描器攻击的识别。为了更准确的分析人为攻击的攻击模式和机器扫描的攻击模式,将用户分为了两大类,人为攻击和漏洞扫描工具的探测。识别扫描工具可以依据以下几点来做:
●扫描器指纹:不同的扫描器一般都有自己的独特特征,例如发送的请求中会加一些特定的head字段,测试漏洞的请求参数会加上自己扫描器的名称等。比如wvs(AcunetixWebVulnerabilityScanner)在请求的参数URL或post数据中会有“acunetix_wvs_security_test”样式的字符串,又比如AppScan在请求参数中会出现“appscan”这样的字符串。
●单个用户某段时间内触发规则的次数:根据某个用户在某时间段内触发规则的次数,如果大于设定的某个阀值,则判定其为漏洞扫描工具。
●单个用户某个时间段内响应状态错误的比例:这种方法主要用来应对探测敏感目录和文件的扫描器,有些扫描器都是基于字典文件,通过对字典内的URL进行请求,根据获得的返回信息来进行判断目录或者文件是否存在。如果某个用户在一段时间内请求频率过快,这时候可以收集一段时间内返回状态为“404”的数目,到达一定阀值就认为是扫描工具。
(6)会话识别。会话是指用户通过一次或多次点击而请求页面的有限集合。在访问日志中,不同IP地址的用户请求肯定不会在同一会话中,如果同一用户在相隔较长的时间内访问同一网站,也被认为在不同的会话中。用户识别之后需要对用户的每个会话进行分割,选择10分钟作为默认的访问时间阈值,如果用户请求的两个页面之间的时间间隔超过这个阈值则认为用户又开始了一个新的会话。用户识别后生成两个数据库,其中一个是漏洞扫描工具的扫描数据库,另一个是人为攻击的数据库,分别对这两个数据库进行会话识别,即:人为攻击会话识别和漏洞扫描器会话识别。之后数据就被转换成两个对应的序列数据库以备后续的序列模式挖掘。
3.序列模式挖掘
经过预处理后日志数据被转化为两个序列数据库,其中一个序列数据库是人为攻击的序列数据库,另一个则是漏洞扫描工具的攻击序列数据库。为了方便挖掘任务的进行,将序列数据库中所有的字符串转换成对应的数字,并保存一份相对应的文件,然后对转换后的数字数据库采用类似PrefixScan的算法进行序列模式挖掘,得出频繁序列模式。
序列模式挖掘是在给定序列数据库和最小支持度的情况下,挖掘序列数据库中所有的频繁序列,旨在发现序列数据库中频繁的序列模式。序列(Sequence)是指项集的有序排列,可以表示成<s1,s2,…,sn>,其中sj就是一个项集,也称为序列的一个元素。项集(Itemset)是由项组成的非空集合可以表示成(x1,x2,…,xm),其中每一个xk代表一个项。支持数是指序列数据库S中包含某一序列的个数。频繁序列是指一个子序列(一个序列α=<a1,a2,…,an>是另一个序列β=<b1□,b2□,…,bm□>(m>n)的子序列,当且仅当存在i1<i2<…<in使得a1∈bi1,a2∈bi2,…,an∈bin),该子序列的支持度大于最小支持度。
PrefixSpan是序列模式挖掘算法的一种,以下为PrefixSpan的一些基本定义:
前缀(Prefix):假设所有的项在一个元素中按照字母表的顺序排列出来,给定一个序列α=<e1,e2,…,en>(在这里每一个e都和在S中给定的连续的元素相一致)和一个序列β=<e1□,e2□,…,em□>(m≤n),只有如果满足以下三个条件:ei□=ei(i≤m-1);em□∈em;所有在(em-em□)的连续项在em□中都是按照字母表顺序排列的,那么就说β是α的一个前缀。
后缀(Suffix):序列α=<e1,e2,…,em□>关于子序列β的投影为α□=<e1,e2,…,en>(m≤n),则序列α关于子序列β的后缀为<em□□,em+1□,…,en□>,其中em□□=(em-em□)。
投影数据库:令α是在序列数据库S中的一个序列模式,这个α的投影数据库表示为:S|α,它是在S中关于前缀α的序列的后缀的集合。
由于PrefixSpan算法采用分治策略,生成比原始序列数据库更小的投影序列数据库,相对于其它算法来说更广泛应用于大型的序列数据库。其基本思想是查找频率大于支持度的频繁项,产生对应的后缀,每次递归都找到新的频繁序列,根据前缀构造新的投影数据库。本发明借鉴PrefixSpan算法并在其基础上进行了改进,算法实现步骤如下:
(1)扫描序列数据库,获得所有的1-频繁项集(频繁项集的长度为1);
(2)对于每个频繁项产生对应的投影数据库;
(3)获取前缀序列中的所有项,将投影数据库中包含的前缀项移除;
(4)对于每个投影数据库递归地发现频繁序列,直到没有频繁序列产生为止。
下面来举例说明该算法:
给定序列数据库S=[<a(ac)ad(cf)>,<(ad)c(bc)a>,<(ef)(ab)(df)ab>,<eg(af)cac>]最小支持度为70%。第一步要找出支持度大于70%的项,分别为a,c,d,f。第二步,对于每一个频繁项,根据序列数据库中的每一个序列获取它的后缀序列,对于a来说,关于数据库第一个序列的后缀序列是<_(ac)ad(cf)>。然后移除后缀序列中属于其前缀的项,该例子中移除a得到序列<_(_c)_d(cf)>。以此类推得到关于a的后缀数据库为[<_(_c)_d(cf)>,<_(_d)c(bc)>,<_(_b)(df)b>,<_(_f)c_c>]。接着,项a被扩展为序列<a,c>和<(ac)>,如果他们的频率大于最小支持度(如<a,c>),则被认为是频繁序列的一部分。递归查找直到没有新的频繁序列生成。
4.模式分析
挖掘得到的频繁序列很难直接用于评估网站易受攻击的地方,同样也不可能直接发现漏洞扫描器的内部扫描路径。这是因为,首先,经过序列模式挖掘之后会产生数以万计的序列模式,需要对每一个频繁序列进行分析。其次,挖掘结果得到的频繁序列的格式都是数字格式(在挖掘算法实施前将字符串转化为数字,方便挖掘算法的进行)。例如<6,8,(12,8),16>就是挖掘得到的一个频繁序列,而这些数字对于分析者来说是没有意义的。为了方便管理员能够更清晰的了解攻击序列,需要对这些序列模式进行分析,实施以下步骤:
(1)序列最大化:在生成的频繁序列中,大量的频繁序列是冗余的。比如一个序列包含于另一个序列,该步骤的任务就是删除这些被包含的序列。例如频繁序列中含有<a(bc)>,<a(fd)(bc)>,<a>,其中第一个序列和第三个序列就包含在第二个序列中,因此删除第一个和第三个序列,仅保留序列□a(fd)(bc)>。
(2)转换为图形化语言:在序列模式挖掘前,字符串被转化成数字文件,该步骤就需要将每个数字转换为对应的字符串,以便能够理解挖掘得到的频繁序列的具体意义。另外为了使攻击模式更易于理解和清晰将序列模式以图形化方式展示给用户。这一步实施的过程中,首先处理最大化后的频繁序列,按照序列模式挖掘前保存的数字与字符串对应关系的文件,将数字转换成该数字代表的字符串,并转化为可视化语言中的一个节点。然后依据序列的顺序画出该节点与其它相关节点的联系图,就可以得到各个攻击节点的顺序关系图。最后借助于图形显示工具将生成的图形语言打开,就可得到攻击序列图,结果如图3所示。
附图说明
图1:系统流程图
图2:SQL注入的部分攻击特征码
图3:人为攻击序列模式结果图
图4:Nginx日志格式示例图
具体实施方式
本发明的硬件环境主要是一台PC主机。其中,PC主机的CPU为Intel(R)Core(TM)i5-4570,3.20GHz,内存为4GBRAM,64位操作系统。
本发明的软件实现以Windows7为平台,在Eclipse环境下,使用Java语言开发。图形化展示借助于Graphviz工具。Java版本为1.8.0_40,Eclipse版本为4.4.2,Graphviz版本为2.37。
实验数据为Nginx服务器访问日志,其格式为访问者IP、授权用户、时间、HTTP请求、状态码、传送数据大小、上级路径、用户代理,具体例子如图4所示。
操作主要分为两部分,第一部分为日志数据预处理部分,第二部分为数据挖掘和图形化展示部分。
1.预处理部分
(1)算法描述
算法输入:L、Pa、Wc
算法输出:S
说明:L为日志文件(其格式如图4所示),Pa是收集的漏洞利用的特征码(其格式如图2所示),Wc为该网站的页面信息,S是序列数据库。
算法步骤:
1)解析日志结构;
2)扫描攻击特征码文件,如果日志的URL包含攻击特征码将该日志信息保存;
3)根据日志中的IP字段和客户端信息字段对生成的攻击数据文件进行用户识别,然后划分漏洞扫描工具的数据和人为攻击的数据;
4)根据两次访问的时间对每个用户进行会话识别,生成序列数据库。
其伪代码如下:
2.数据挖掘和图形化展示
(1)算法描述
算法输入:S,Su,Dmax,Lmax
算法输出:Map
说明:S是序列数据库的集合,Su支持度是序列模式挖掘中的最小支持度,Dmax为序列间最大间隔,Lmax是频繁序列最长长度,Map攻击序列图。
算法步骤:
1)将序列数据库所有字符串转换为数字,并将对应关系存储到文件中;
2)扫描序列数据库,提取频度大于最小支持度的项;
3)对每个项进行查找后缀数据库操作,并移除属于前缀序列的项;
4)判断序列间间隔是否大于最大间隔Dmax及序列长度是否大于序列最长长度Lmax
5)递归查找直到没有频繁序列产生为止。
6)序列模式最大化;
7)转化为可视化图形语言,显示图形(如图4所示图形);
其伪代码如下:

Claims (6)

1.一种从Web日志中挖掘攻击频繁序列模式的方法,其特征在于实施步骤为:
(1)收集日志数据、日志结构信息、网页信息、攻击特征码信息;
(2)将日志进行预处理得到攻击序列数据库,预处理包括攻击特征匹配、URL清理、用户识别、区分人为攻击和漏洞扫描器攻击、会话识别五个步骤;
(3)分别对人为攻击序列数据库和漏洞扫描器攻击序列数据库进行序列模式挖掘;
(4)对频繁序列进行模式分析并转换为图形语言。
2.根据权利要求1所述的从Web日志中挖掘攻击频繁序列模式的方法,其特征在于本方法在数据收集阶段要收集四方面的数据:
(1)日志数据,将其作为分析数据的主体;
(2)日志结构信息,用来解析日志数据,将字符串解析到每个相应的字段;
(3)攻击特征码与其对应的攻击类型,保存为漏洞特征库作为判断攻击的依据;
(4)收集网站页面信息并保存到文件中,作为识别URL请求某一页面的依据。
3.根据权利要求1所述的从Web日志中挖掘攻击频繁序列模式的方法,其特征在于本方法在数据预处理阶段:
(1)进行攻击特征匹配,清理掉正常的用户请求,保留恶意的用户请求,通过日志中的URL来匹配漏洞特征库,查找日志中含有攻击行为的记录,具体根据收集的日志结构信息,将解析到的URL与之前收集到的攻击特征码进行逐一对比,一旦URL中包含任意攻击类型的特征码,就判定该条日志记录产生了攻击的行为,并将其保存为攻击文件;
(2)攻击者的攻击信息保存到攻击文件后,对URL字段进行清理,依据数据收集阶段搜集的网站页面信息,判断本条攻击是对网站哪一个页面进行了Web漏洞的利用。
4.根据权利要求1或3所述的一种从Web日志中挖掘攻击频繁序列模式的方法,其特征在于本方法保存攻击数据后,对攻击数据分别进行用户识别、区分人为攻击和漏洞扫描器攻击以及会话识别:
(1)依据日志中的IP字段和客户端信息字段识别多个用户;
(2)分别使用扫描工具指纹,单个用户某段时间内触发规则的次数,单个用户某时间段内响应状态错误的比例,这三种方法来将用户划分为人为攻击和漏洞扫描器的攻击两大类;
(3)分别对两类用户中的每个用户进行会话分割,选择10分钟作为默认的访问时间阈值,用户请求相邻两个页面的时间间隔超过这个阈值则认为用户又开始了一个新的会话。
5.根据权利要求1所述的从Web日志中挖掘攻击频繁序列模式的方法,其特征在于本方法采用数据挖掘中的序列模式挖掘算法,对网站访问日志的攻击数据进行挖掘,探索攻击者的攻击序列模式,在数据挖掘实施之前,将预处理生成的字符串序列数据库转换成数字序列数据库,保存数字与字符串对应的关系,使用前缀序列模式挖掘算法,并且在生成后缀数据库时,将所有后缀中属于前缀的项移除,算法实现步骤如下:
(1)扫描序列数据库,获得所有的1-频繁项集(频繁项集的长度为1);
(2)对于每个频繁项产生对应的投影数据库;
(3)获取前缀序列中的所有项,将投影数据库中包含的前缀项移除;
(4)对于每个投影数据库递归地发现频繁序列,直到没有频繁序列产生为止。
6.根据权利要求1所述的从Web日志中挖掘攻击频繁序列模式的方法,其特征在于本方法在得到频繁序列之后,实施:
(1)序列最大化操作,删除挖掘出的频繁序列中冗余的频繁序列;
(2)转化为图形语言操作,本方法按照序列模式挖掘前保存的数字与字符串对应关系的文件,将数字转换成该数字代表的字符串,并转化为图形语言中的一个节点,依据序列的顺序画出该节点与其它相关节点的联系图,得到各个攻击节点的顺序关系图,最后借助于图形显示工具将生成的图形语言打开,得到攻击序列图。
CN201610023573.5A 2016-01-14 2016-01-14 一种从Web日志中挖掘攻击频繁序列模式的方法 Active CN105721427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610023573.5A CN105721427B (zh) 2016-01-14 2016-01-14 一种从Web日志中挖掘攻击频繁序列模式的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610023573.5A CN105721427B (zh) 2016-01-14 2016-01-14 一种从Web日志中挖掘攻击频繁序列模式的方法

Publications (2)

Publication Number Publication Date
CN105721427A true CN105721427A (zh) 2016-06-29
CN105721427B CN105721427B (zh) 2018-10-30

Family

ID=56147053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610023573.5A Active CN105721427B (zh) 2016-01-14 2016-01-14 一种从Web日志中挖掘攻击频繁序列模式的方法

Country Status (1)

Country Link
CN (1) CN105721427B (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106027554A (zh) * 2016-06-30 2016-10-12 北京网康科技有限公司 一种黑客工具挖掘方法、装置及系统
CN106599122A (zh) * 2016-12-01 2017-04-26 东北大学 一种基于垂直分解的并行频繁闭序列挖掘方法
CN107908954A (zh) * 2017-11-13 2018-04-13 湖南大学 一种基于地址压缩技术的动态检测gpu上内存溢出的方法
CN107992746A (zh) * 2017-12-14 2018-05-04 华中师范大学 恶意行为挖掘方法及装置
CN108173876A (zh) * 2018-01-30 2018-06-15 福建师范大学 基于最大频繁模式的动态规则库构建方法
WO2018166365A1 (zh) * 2017-03-15 2018-09-20 阿里巴巴集团控股有限公司 一种记录网站访问日志的方法和装置
CN108647284A (zh) * 2018-05-03 2018-10-12 网易宝有限公司 记录用户行为的方法及装置、介质和计算设备
CN108874952A (zh) * 2018-05-31 2018-11-23 福建师范大学 一种基于分布式日志的最大频繁序列模式挖掘方法
CN108932524A (zh) * 2017-05-22 2018-12-04 西门子股份公司 用于确定系统的异常状态的方法和装置
CN109257329A (zh) * 2017-07-13 2019-01-22 国网浙江省电力公司电力科学研究院 一种基于海量Web日志的网站风险指数计算系统及方法
CN109274638A (zh) * 2018-05-22 2019-01-25 四川斐讯信息技术有限公司 一种攻击源接入自动识别处理的方法和路由器
CN109408745A (zh) * 2018-09-17 2019-03-01 国美网安科技有限公司 网页数据分析处理方法及装置
CN109922086A (zh) * 2019-04-24 2019-06-21 重庆第二师范学院 一种网络安全入侵检测系统及方法
CN109981563A (zh) * 2019-01-23 2019-07-05 国家新闻出版广电总局广播电视规划院 一种广播电视关键信息基础设施网络安全漏洞的自动化智能挖掘方法
CN110046087A (zh) * 2017-12-27 2019-07-23 埃森哲环球解决方案有限公司 非接触式测试平台
CN110427298A (zh) * 2019-07-10 2019-11-08 武汉大学 一种分布式日志的自动特征提取方法
CN111314326A (zh) * 2020-02-01 2020-06-19 深信服科技股份有限公司 Http漏洞扫描主机的确认方法、装置、设备及介质
CN111460004A (zh) * 2020-04-06 2020-07-28 北方工业大学 一种融合用户行为及Web页面依赖关系的数据挖掘方法
CN111615699A (zh) * 2017-12-26 2020-09-01 滴滴(香港)科技有限公司 用于统一资源标识符(uri)合并的系统和方法
CN111935082A (zh) * 2020-06-28 2020-11-13 新浪网技术(中国)有限公司 一种网络威胁信息关联系统及方法
CN112003819A (zh) * 2020-07-07 2020-11-27 瑞数信息技术(上海)有限公司 识别爬虫的方法、装置、设备和计算机存储介质
CN112765469A (zh) * 2021-01-25 2021-05-07 东北大学 一种从Web点击流数据中挖掘代表序列模式的方法
CN113064932A (zh) * 2021-03-18 2021-07-02 中国石油大学(华东) 一种基于数据挖掘的网络态势评估方法
CN107004036B (zh) * 2014-12-19 2021-08-31 Emc 公司 用以搜索包含大量条目的日志的方法和系统
CN113515554A (zh) * 2020-04-09 2021-10-19 华晨宝马汽车有限公司 用于不规则采样的时间序列的异常检测方法和系统
CN113596061A (zh) * 2021-08-31 2021-11-02 广州卓远虚拟现实科技有限公司 基于区块链技术的网络安全漏洞响应方法及系统
CN114095273A (zh) * 2021-12-06 2022-02-25 青岛力口互联网科技有限公司 基于深度学习的互联网漏洞挖掘方法及大数据挖掘系统
CN114117450A (zh) * 2021-12-01 2022-03-01 湖南大学 一种用于可信计算环境模糊测试的种子生成方法
CN114154990A (zh) * 2021-12-08 2022-03-08 河北晓博互联网科技有限公司 一种基于在线支付的大数据防攻击方法及存储介质
CN114666391A (zh) * 2020-12-03 2022-06-24 中国移动通信集团广东有限公司 访问轨迹确定方法、装置、设备及存储介质
CN115209183A (zh) * 2022-06-22 2022-10-18 中国科学院信息工程研究所 面向加密流量的视频资源与视频播放页面的域名关联方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5668988A (en) * 1995-09-08 1997-09-16 International Business Machines Corporation Method for mining path traversal patterns in a web environment by converting an original log sequence into a set of traversal sub-sequences
US7051029B1 (en) * 2001-01-05 2006-05-23 Revenue Science, Inc. Identifying and reporting on frequent sequences of events in usage data
CN101252440A (zh) * 2008-04-02 2008-08-27 电子科技大学 基于固有子序列模式分解的网络入侵检测方法
CN103744957A (zh) * 2014-01-06 2014-04-23 同济大学 基于Web用户时间属性的序列模式挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5668988A (en) * 1995-09-08 1997-09-16 International Business Machines Corporation Method for mining path traversal patterns in a web environment by converting an original log sequence into a set of traversal sub-sequences
US7051029B1 (en) * 2001-01-05 2006-05-23 Revenue Science, Inc. Identifying and reporting on frequent sequences of events in usage data
CN101252440A (zh) * 2008-04-02 2008-08-27 电子科技大学 基于固有子序列模式分解的网络入侵检测方法
CN103744957A (zh) * 2014-01-06 2014-04-23 同济大学 基于Web用户时间属性的序列模式挖掘方法

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004036B (zh) * 2014-12-19 2021-08-31 Emc 公司 用以搜索包含大量条目的日志的方法和系统
CN106027554A (zh) * 2016-06-30 2016-10-12 北京网康科技有限公司 一种黑客工具挖掘方法、装置及系统
CN106599122A (zh) * 2016-12-01 2017-04-26 东北大学 一种基于垂直分解的并行频繁闭序列挖掘方法
CN106599122B (zh) * 2016-12-01 2019-12-31 东北大学 一种基于垂直分解的并行频繁闭序列挖掘方法
WO2018166365A1 (zh) * 2017-03-15 2018-09-20 阿里巴巴集团控股有限公司 一种记录网站访问日志的方法和装置
CN108932524A (zh) * 2017-05-22 2018-12-04 西门子股份公司 用于确定系统的异常状态的方法和装置
CN108932524B (zh) * 2017-05-22 2022-06-24 西门子股份公司 用于确定系统的异常状态的方法和装置
CN109257329A (zh) * 2017-07-13 2019-01-22 国网浙江省电力公司电力科学研究院 一种基于海量Web日志的网站风险指数计算系统及方法
CN107908954B (zh) * 2017-11-13 2021-04-30 湖南大学 一种基于地址压缩技术的动态检测gpu上内存溢出的方法
CN107908954A (zh) * 2017-11-13 2018-04-13 湖南大学 一种基于地址压缩技术的动态检测gpu上内存溢出的方法
CN107992746A (zh) * 2017-12-14 2018-05-04 华中师范大学 恶意行为挖掘方法及装置
CN111615699B (zh) * 2017-12-26 2024-01-19 北京嘀嘀无限科技发展有限公司 用于统一资源标识符(uri)合并的系统和方法
CN111615699A (zh) * 2017-12-26 2020-09-01 滴滴(香港)科技有限公司 用于统一资源标识符(uri)合并的系统和方法
CN110046087B (zh) * 2017-12-27 2022-09-02 埃森哲环球解决方案有限公司 非接触式测试平台
CN110046087A (zh) * 2017-12-27 2019-07-23 埃森哲环球解决方案有限公司 非接触式测试平台
CN108173876A (zh) * 2018-01-30 2018-06-15 福建师范大学 基于最大频繁模式的动态规则库构建方法
CN108173876B (zh) * 2018-01-30 2020-11-06 福建师范大学 基于最大频繁模式的动态规则库构建方法
CN108647284A (zh) * 2018-05-03 2018-10-12 网易宝有限公司 记录用户行为的方法及装置、介质和计算设备
CN108647284B (zh) * 2018-05-03 2021-07-23 网易宝有限公司 记录用户行为的方法及装置、介质和计算设备
CN109274638A (zh) * 2018-05-22 2019-01-25 四川斐讯信息技术有限公司 一种攻击源接入自动识别处理的方法和路由器
CN108874952A (zh) * 2018-05-31 2018-11-23 福建师范大学 一种基于分布式日志的最大频繁序列模式挖掘方法
CN109408745A (zh) * 2018-09-17 2019-03-01 国美网安科技有限公司 网页数据分析处理方法及装置
CN109981563A (zh) * 2019-01-23 2019-07-05 国家新闻出版广电总局广播电视规划院 一种广播电视关键信息基础设施网络安全漏洞的自动化智能挖掘方法
CN109922086A (zh) * 2019-04-24 2019-06-21 重庆第二师范学院 一种网络安全入侵检测系统及方法
CN110427298A (zh) * 2019-07-10 2019-11-08 武汉大学 一种分布式日志的自动特征提取方法
CN111314326B (zh) * 2020-02-01 2022-06-21 深信服科技股份有限公司 Http漏洞扫描主机的确认方法、装置、设备及介质
CN111314326A (zh) * 2020-02-01 2020-06-19 深信服科技股份有限公司 Http漏洞扫描主机的确认方法、装置、设备及介质
CN111460004B (zh) * 2020-04-06 2023-04-14 北方工业大学 一种融合用户行为及Web页面依赖关系的数据挖掘方法
CN111460004A (zh) * 2020-04-06 2020-07-28 北方工业大学 一种融合用户行为及Web页面依赖关系的数据挖掘方法
CN113515554A (zh) * 2020-04-09 2021-10-19 华晨宝马汽车有限公司 用于不规则采样的时间序列的异常检测方法和系统
CN111935082B (zh) * 2020-06-28 2022-09-09 新浪网技术(中国)有限公司 一种网络威胁信息关联分析系统及方法
CN111935082A (zh) * 2020-06-28 2020-11-13 新浪网技术(中国)有限公司 一种网络威胁信息关联系统及方法
CN112003819A (zh) * 2020-07-07 2020-11-27 瑞数信息技术(上海)有限公司 识别爬虫的方法、装置、设备和计算机存储介质
CN114666391B (zh) * 2020-12-03 2023-09-19 中国移动通信集团广东有限公司 访问轨迹确定方法、装置、设备及存储介质
CN114666391A (zh) * 2020-12-03 2022-06-24 中国移动通信集团广东有限公司 访问轨迹确定方法、装置、设备及存储介质
CN112765469A (zh) * 2021-01-25 2021-05-07 东北大学 一种从Web点击流数据中挖掘代表序列模式的方法
CN112765469B (zh) * 2021-01-25 2023-10-27 东北大学 一种从Web点击流数据中挖掘代表序列模式的方法
CN113064932A (zh) * 2021-03-18 2021-07-02 中国石油大学(华东) 一种基于数据挖掘的网络态势评估方法
CN113596061B (zh) * 2021-08-31 2022-07-26 广州卓远虚拟现实科技有限公司 基于区块链技术的网络安全漏洞响应方法
CN113596061A (zh) * 2021-08-31 2021-11-02 广州卓远虚拟现实科技有限公司 基于区块链技术的网络安全漏洞响应方法及系统
CN114117450A (zh) * 2021-12-01 2022-03-01 湖南大学 一种用于可信计算环境模糊测试的种子生成方法
CN114095273A (zh) * 2021-12-06 2022-02-25 青岛力口互联网科技有限公司 基于深度学习的互联网漏洞挖掘方法及大数据挖掘系统
CN114154990B (zh) * 2021-12-08 2022-09-20 北京汇收钱科技股份有限公司 一种基于在线支付的大数据防攻击方法及存储介质
CN114154990A (zh) * 2021-12-08 2022-03-08 河北晓博互联网科技有限公司 一种基于在线支付的大数据防攻击方法及存储介质
CN115209183A (zh) * 2022-06-22 2022-10-18 中国科学院信息工程研究所 面向加密流量的视频资源与视频播放页面的域名关联方法
CN115209183B (zh) * 2022-06-22 2024-04-30 中国科学院信息工程研究所 面向加密流量的视频资源与视频播放页面的域名关联方法

Also Published As

Publication number Publication date
CN105721427B (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN105721427A (zh) 一种从Web日志中挖掘攻击频繁序列模式的方法
US10958672B2 (en) Cognitive offense analysis using contextual data and knowledge graphs
Aliero et al. An algorithm for detecting SQL injection vulnerability using black-box testing
US11089040B2 (en) Cognitive analysis of security data with signal flow-based graph exploration
US10313365B2 (en) Cognitive offense analysis using enriched graphs
US10454969B2 (en) Automatic generation of low-interaction honeypots
JP2023512507A (ja) サイバー検出ファジー・パターン照合
US11184374B2 (en) Endpoint inter-process activity extraction and pattern matching
US20200120109A1 (en) Iterative constraint solving in abstract graph matching for cyber incident reasoning
CN107251037B (zh) 黑名单生成装置、黑名单生成系统、黑名单生成方法和记录介质
CN103297394B (zh) 网站安全检测方法和装置
Aliero et al. Systematic review analysis on SQLIA detection and prevention approaches
CN103559235A (zh) 一种在线社交网络恶意网页检测识别方法
Nalawade et al. Forensic analysis and evidence collection for web browser activity
KR100968126B1 (ko) 웹쉘 탐지 시스템 및 웹쉘 탐지 방법
CN111104579A (zh) 一种公网资产的识别方法、装置及存储介质
AU2016313409A1 (en) Systems methods and devices for memory analysis and visualization
Sachdeva et al. Analysis of digital forensic tools
Pretorius et al. Attributing users based on web browser history
Singh et al. A survey on different phases of web usage mining for anomaly user behavior investigation
Skopik et al. Online log data analysis with efficient machine learning: A review
Abbott et al. Automated recognition of event scenarios for digital forensics
KR100989320B1 (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 고속검색방법 및 비-트리기반인덱싱로그 프로세서
Onyekwelu et al. Pre-processing of university webserver log files for intrusion detection
Sun et al. Mining frequent attack sequence in web logs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant