CN113645293B - 一种基于网络流量元数据的web资源扫描行为检测方法 - Google Patents

一种基于网络流量元数据的web资源扫描行为检测方法 Download PDF

Info

Publication number
CN113645293B
CN113645293B CN202110901624.0A CN202110901624A CN113645293B CN 113645293 B CN113645293 B CN 113645293B CN 202110901624 A CN202110901624 A CN 202110901624A CN 113645293 B CN113645293 B CN 113645293B
Authority
CN
China
Prior art keywords
metadata
host
url
http
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110901624.0A
Other languages
English (en)
Other versions
CN113645293A (zh
Inventor
贵帅
郭晓冬
高才
唐锡南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Radio And Television Research Institute Co ltd
Original Assignee
Guangzhou Radio And Television Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Radio And Television Research Institute Co ltd filed Critical Guangzhou Radio And Television Research Institute Co ltd
Priority to CN202110901624.0A priority Critical patent/CN113645293B/zh
Publication of CN113645293A publication Critical patent/CN113645293A/zh
Application granted granted Critical
Publication of CN113645293B publication Critical patent/CN113645293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于网络流量元数据的WEB资源扫描行为检测方法,在交换机的镜像端口部署流量采集器采集流量信息;对旁路流量进行分离,计算出HTTP流量信息,每条HTTP的流量信息用深度报文分析技术计算得到;每条HTTP的流量信息通过HTTP的元数据来刻画,对HTTP元数据进行优化处理,按照一个时间段T做六维聚合运算,不同元数据被聚合成一条记录,经过处理后的元数为相同连接个数的和;识别被扫描域名,通过扫描路径找出路径,最后返查黑客IP地址本发明能够提供一种多级规则管道式的组合、可准确识别出被攻击的主机域名、定位WEB资源扫描的路径以及能够有效返查出攻击的源IP的基于网络流量元数据的WEB资源扫描行为检测方法。

Description

一种基于网络流量元数据的WEB资源扫描行为检测方法
技术领域
本发明属于网络安全相关技术领域,具体涉及一种基于网络流量元数据的WEB资源扫描行为检测方法。
背景技术
WEB资源扫描对WEB安全至关重要,它可以访问到WEB服务器上没有被引用的重要资源,发现WEB的漏洞,如果黑客用扫描器发现了WEB的漏洞或者获取到用户凭证,那么WEB服务器极有可能在接下来受到黑客的入侵,如果我们能在扫描阶段察觉到黑客的动作,便能够及时地对WEB服务器进行防护;目前的WEB防护技术主要集中在入侵阶段,在漏洞扫描及目录遍历方面没有有效的检测手段。
WEB资源扫描通常会在特定的目录下,通过随机生成的文件名,构造大量不同的URL请求,尝试获取该目录下的重要资源;以往的WEB资源扫描检测方法,以攻击方源IP和目的服务器IP作为关键字来构造HASH表,然后通过计算每个(源IP,目的IP)对应的唯一URL请求个数,以及状态码大于400的异常请求占总请求个数的比例,来识别两者之间是否存在扫描行为,这种方式具有以下不足:对于分布式的WEB服务器,URL请求的处理会由多台对应不同IP的主机进行负载均衡,这种情况下对单一目的IP的检测仅仅统计了扫描行为的一小部分,计算的异常请求个数并不能用来衡量真正的攻击频率;单一IP发起的大量异常请求很容易被察觉,黑客可能会通过控制的僵尸网络中的多台肉鸡联合发起扫描,在这种情况下,对于单个肉鸡IP,其产生的异常请求实际上并不多,能够轻易规避以往的检测手段。
发明内容
本发明的目的在于提供一种多级规则管道式的组合、可准确识别出被攻击的主机域名、定位WEB资源扫描的路径以及能够有效返查出攻击的源IP的基于网络流量元数据的WEB资源扫描行为检测方法。
下面关于后续技术方案表述中涉及的专业名词解释如下:
HTTP:超文本传输协议;
SIP:为英文Source IP的简称,源IP地址;
HOST:主机域名;
URL为Uniform Resource LocaTor的英文缩写,是指统一资源定位器或资源地址;
DPI:深度报文分析技术;
STATUS_CODE:服务器响应状态码;
FLOW:一条流的连接次数;
URL_ANOMALY:异常的资源地址;
URL_TOTAL:资源地址总数;
LIST_HOST:域名列表;
URL_LIST:资源地址列表;
PATH:路径;
PATH_LIST:路径列表;
TRIE:一般指字典树,又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。
为实现上述目的,本发明提供如下技术方案:一种基于网络流量元数据的WEB资源扫描行为检测方法,具体包括如下步骤:
步骤S1:首先通过旁路采集实时网络流量并解析处理,具体包括旁路监听采集流量、聚合元数据预处理,并将处理后的数据记录存储到大数据分析平台用于后续分析;
步骤S2:基于大数据分析平台的网络流量建模,对每条HTTP的流量信息通过HTTP的元数据来刻画,包括(SIP,HOST,URL,STATUS_CODE,FLOW),对HTTP元数据进行优化处理,即按照一个时间段T做六维聚合运算,即对(T,SIP,HOST,URL,STATUS_CODE)聚合,不同元数据被聚合成一条记录进入大数据平台,经过处理后的元数据FLOW为相同连接个数的和;
步骤S3:基于网络流量元数据的扫描行为检测,首先识别被扫描域名HOST,然后通过扫描路径搜索算法找出路径,最后返查黑客IP地址。
作为本发明的进一步改进,所述旁路监听采集流量,具体操作为,从交换机镜像端口获取网络流量进行分离和预处理网络流量数据,包括解析出网络通讯HTTP流量信息,对每条HTTP流量信息用深度报文分析,再提取源IP地址、目的IP地址、主机域名、URL、HTTP响应状态码特征值形成网络流量的元数据。
作为本发明的进一步改进,所述聚合元数据预处理,具体操作为,对同一时间段内元数据做四维聚合处理,即将时间范围,源IP地址、主机域名、URL、HTTP响应状态码相同的全部数据记录聚合成一条元数据记录,对聚合后的流个数进行求和。
作为本发明的进一步改进,所述步骤S3中识别被扫描域名,具体操作为,按照一个时间段T对收到的异常的URL请求通过HOST聚合,再使用数据分析求和,得到URL集合中URL个数记为URL_ANOMALY,先通过阈值过滤出URL个数大于阈值T1的HOST,再计算这些HOST的所有请求URL构成的集合中URL个数URL_TOTAL,对每个过滤出的HOST求URL_ANOMALY与URL_TOTAL的比值,当上述比值大于阈值T2判定为被攻击的HOST。
作为本发明的进一步改进,所述步骤S3中扫描路径,具体操作为,对所述识别被扫描域名中检测出的所有被攻击的HOST放在列表LIST_HOST中,按照一个时间段T,对列表中每个HOST,从大数据平台得到所有的异常请求URL集合再转换为列表URL_LIST,同时构造算法树TRIE得到一个由所有异常URL构成的TRIE。
作为本发明的进一步改进,按照如下搜索算法找出分支数大于阈值阀值T3的路径:将其TRIE逐层往下递归遍历,查找分支个数大于阀值T3的节点;对每个这样的节点,逐层向上以‘/’拼接各级路径,最后得到就是被扫描路径;将所有这样的路径添加到列表PATH_LIST里;最后返回的PATH_LIST就是单个HOST的所有被扫描路径构成的列表。
作为本发明的进一步改进,所述步骤S3中返查黑客IP地址,具体操作为,对所述搜索被扫描路径中检测出来的每个(HOST,PATH),通过HOST精确匹配和PATH前缀匹配出所有满足条件的异常流的URL,并获取对应的SIP信息,将所有URL通过HOST、SIP聚合,对每个HOST,每个SIP访问的在被扫描路径下的URL集合大小大于阈值T4,就判定该(SIP,HOST)存在扫描攻击行为,通过前缀匹配,匹配出的URL就是用来扫描的URL。
与现有技术相比,本发明的有益效果是:本技术方案采用多级规则管道式的组合方法,从源头,即在黑客扫描文件初期阶段察觉到黑客的动作,快速精准的做出响应,因此能够及时地对WEB服务器进行防护;本技术方案还采用TRIE树来处理WEB服务器中的所有的异常请求URL的算法,能够高效地检测出WEB服务器受到的扫描攻击,可准确识别出被攻击的主机域名,并准确地定位WEB资源扫描的路径,并返查出攻击的源IP,结合所有异常URL字符串本身携带的信息,准确定位出黑客扫描的具体路径。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种基于网络流量元数据的WEB资源扫描行为检测方法,具体包括如下步骤:首先通过旁路采集实时网络流量并解析处理,具体操作为,在交换机的镜像端口部署流量采集器采集流量信息;按网络协议对旁路流量进行分离,计算出HTTP流量信息,每条HTTP的流量信息用深度报文分析技术计算得到;基于大数据分析平台的网络流量建模,具体操作为,每条HTTP的流量信息通过HTTP的元数据来刻画,包括(SIP,HOST,URL,STATUS_CODE,FLOW),对HTTP元数据进行优化处理,即按照一个时间段T做六维聚合运算,即对(T,SIP,HOST,URL,STATUS_CODE)聚合,不同元数据被聚合成一条记录进入大数据平台,经过处理后的元数据FLOW为相同连接个数的和,其他取公共值不变;基于网络流量元数据的扫描行为检测,具体操作为,首先识别被扫描域名HOST,然后通过基于TRIE的扫描路径搜索算法找出路径,最后返查黑客IP地址。
步骤S1中旁路采集实时网络流量并解析元数据解析包含有旁路监听采集流量、聚合元数据预处理和存储到大数据平台;旁路监听采集流量,具体操作为,从交换机镜像端口获取网络流量,在旁路流量上进行分离和预处理网络流量数据,包括解析出网络通讯HTTP流量信息,对每条HTTP流量信息用深度报文分析,再提取源IP地址、目的IP地址、主机域名、URL、HTTP响应状态码特征值形成网络流量的元数据;聚合元数据预处理,具体操作为,对同一时间段内步骤S2中的元数据做四维聚合处理,即将时间范围,源IP地址、主机域名、URL、HTTP响应状态码相同的全部数据记录聚合成一条元数据记录,对聚合后的流个数进行求和;存储到大数据平台,具体操作为,将聚合后的数据记录存储到大数据分析平台用于后续分析;步骤S3中识别被扫描域名,具体操作为,按照一个时间段T对收到的异常的URL请求通过HOST聚合,再使用大数据分析求和,得到URL集合中URL个数记为URL_ANOMALY,先通过阈值过滤出URL个数大于阈值T1的HOST,再计算这些HOST的所有请求URL构成的集合中URL个数URL_TOTAL,对每个过滤出的HOST求URL_ANOMALY/URL_TOTAL之比,大于阈值T2判定为被攻击的HOST;步骤S3中搜索被扫描路径,具体操作为,对识别被扫描域名中检测出的所有被攻击的HOST放在列表LIST_HOST中,按照一个时间段T,对列表中每个HOST,从大数据平台得到所有的异常请求URL集合再转换为列表URL_LIST,同时构造一个TRIE。
按照如下算法构造一个TRIE:
建立空字典TRIE;
for URL in URL_LIST:
将URL通过’/’分割成各级路径列表PATH_LIST
从一级路径开始:
如果TRIE中不存在KEY为PATH,将PATH作为KEY加入TRIE中,VALUE为空字典;如果TRIE中存在KEY为PATH,将下一级PTAH和该KEY对应的字典做同样的检查;以这种方式将URL逐个添加到空TRIE中,得到一个由所有异常URL构成的TRIE,再按照如下搜索算法找出分支数大于阈值阀值T3的路径:将其TRIE逐层往下递归遍历,查找分支个数大于阀值T3的节点;对每个这样的节点,逐层向上以‘/’拼接各级路径,最后得到就是被扫描路径;将所有这样的路径添加到列表PATH_LIST里;最后返回的PATH_LIST就是单个HOST的所有被扫描路径构成的列表。
步骤S3中返查黑客IP地址,具体操作为,对搜索被扫描路径中检测出来的每个(HOST,PATH),构造查询语句通过HOST精确匹配和PATH前缀匹配,配出所有满足条件的异常流的URL,并获取对应的SIP信息,将所有URL通过HOST、SIP聚合,对每个HOST,每个SIP访问的在被扫描路径下的URL集合大小大于阈值T4,就判定该(SIP,HOST)存在扫描攻击行为,通过前缀匹配,匹配出的URL就是用来扫描的URL。
以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于网络流量元数据的WEB资源扫描行为检测方法,其特征在于,具体包括如下步骤:
步骤S1:首先通过旁路采集实时网络流量并解析处理,具体包括旁路监听采集流量、聚合元数据预处理,并将处理后的数据记录存储到大数据分析平台用于后续分析;
步骤S2:基于大数据分析平台的网络流量建模,对每条HTTP的流量信息通过HTTP的元数据来刻画,包括(SIP,HOST,URL,STATUS_CODE,FLOW),对HTTP元数据进行优化处理,即按照一个时间段T做六维聚合运算,即对(T,SIP,HOST,URL,STATUS_CODE)聚合,不同元数据被聚合成一条记录进入大数据平台,经过处理后的元数据FLOW为相同连接个数的和;
步骤S3:基于网络流量元数据的扫描行为检测,首先识别被扫描域名HOST,然后通过扫描路径搜索算法找出路径,最后返查黑客IP地址。
2.根据权利要求1所述的一种基于网络流量元数据的WEB资源扫描行为检测方法,其特征在于:所述旁路监听采集流量,具体操作为,从交换机镜像端口获取网络流量进行分离和预处理网络流量数据,包括解析出网络通讯HTTP流量信息,对每条HTTP流量信息用深度报文分析,再提取源IP地址、目的IP地址、主机域名、URL、HTTP响应状态码特征值形成网络流量的元数据。
3.根据权利要求2所述的一种基于网络流量元数据的WEB资源扫描行为检测方法,其特征在于:所述聚合元数据预处理,具体操作为,对同一时间段内元数据做四维聚合处理,即将时间范围,源IP地址、主机域名、URL、HTTP响应状态码相同的全部数据记录聚合成一条元数据记录,对聚合后的流个数进行求和。
4.根据权利要求1所述的一种基于网络流量元数据的WEB资源扫描行为检测方法,其特征在于:所述步骤S3中识别被扫描域名,具体操作为,按照一个时间段T对收到的异常的URL请求通过HOST聚合,再使用数据分析求和,得到URL集合中URL个数记为URL_ANOMALY,先通过阈值过滤出URL个数大于阈值T1的HOST,再计算这些HOST的所有请求URL构成的集合中URL个数URL_TOTAL,对每个过滤出的HOST求URL_ANOMALY与URL_TOTAL的比值,当上述比值大于阈值T2判定为被攻击的HOST。
5.根据权利要求1所述的一种基于网络流量元数据的WEB资源扫描行为检测方法,其特征在于:所述步骤S3中扫描路径,具体操作为,对所述识别被扫描域名中检测出的所有被攻击的HOST放在列表LIST_HOST中,按照一个时间段T,对列表中每个HOST,从大数据平台得到所有的异常请求URL集合再转换为列表URL_LIST,同时构造算法树TRIE得到一个由所有异常URL构成的TRIE。
6.根据权利要求5所述的一种基于网络流量元数据的WEB资源扫描行为检测方法,其特征在于:按照如下搜索算法找出分支数大于阈值T3的路径:将其TRIE逐层往下递归遍历,查找分支个数大于阈值T3的节点;对每个这样的节点,逐层向上拼接各级路径,最后得到就是被扫描路径;将所有这样的路径添加到列表PATH_LIST里;最后返回的PATH_LIST就是单个HOST的所有被扫描路径构成的列表。
7.根据权利要求1所述的一种基于网络流量元数据的WEB资源扫描行为检测方法,其特征在于:所述步骤S3中返查黑客IP地址,具体操作为,对所述搜索被扫描路径中检测出来的每个(HOST,PATH),通过HOST精确匹配和PATH前缀匹配出所有满足条件的异常流的URL,并获取对应的SIP信息,将所有URL通过HOST、SIP聚合,对每个HOST,每个SIP访问的在被扫描路径下的URL集合大小大于阈值T4,就判定该(SIP,HOST)存在扫描攻击行为,通过前缀匹配,匹配出的URL就是用来扫描的URL。
CN202110901624.0A 2021-08-06 2021-08-06 一种基于网络流量元数据的web资源扫描行为检测方法 Active CN113645293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110901624.0A CN113645293B (zh) 2021-08-06 2021-08-06 一种基于网络流量元数据的web资源扫描行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110901624.0A CN113645293B (zh) 2021-08-06 2021-08-06 一种基于网络流量元数据的web资源扫描行为检测方法

Publications (2)

Publication Number Publication Date
CN113645293A CN113645293A (zh) 2021-11-12
CN113645293B true CN113645293B (zh) 2023-10-10

Family

ID=78419928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110901624.0A Active CN113645293B (zh) 2021-08-06 2021-08-06 一种基于网络流量元数据的web资源扫描行为检测方法

Country Status (1)

Country Link
CN (1) CN113645293B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234524A (zh) * 2018-04-02 2018-06-29 广州广电研究院有限公司 网络数据异常检测的方法、装置、设备及存储介质
CN111654487A (zh) * 2020-05-26 2020-09-11 南京云利来软件科技有限公司 一种基于旁路网络全流量与行为特征dga域名识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7496962B2 (en) * 2004-07-29 2009-02-24 Sourcefire, Inc. Intrusion detection strategies for hypertext transport protocol

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234524A (zh) * 2018-04-02 2018-06-29 广州广电研究院有限公司 网络数据异常检测的方法、装置、设备及存储介质
CN111654487A (zh) * 2020-05-26 2020-09-11 南京云利来软件科技有限公司 一种基于旁路网络全流量与行为特征dga域名识别方法

Also Published As

Publication number Publication date
CN113645293A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN113783896B (zh) 一种网络攻击路径追踪方法和装置
Marchal et al. PhishStorm: Detecting phishing with streaming analytics
CN111212053B (zh) 一种面向工控蜜罐的同源攻击分析方法
CN111277570A (zh) 数据的安全监测方法和装置、电子设备、可读介质
US8307441B2 (en) Log-based traceback system and method using centroid decomposition technique
US8516585B2 (en) System and method for detection of domain-flux botnets and the like
CN110650156B (zh) 网络实体的关系聚类方法、装置及网络事件的识别方法
CN107733699B (zh) 互联网资产安全管理方法、系统、设备及可读存储介质
Zhang et al. BotDigger: Detecting DGA Bots in a Single Network.
Bisio et al. Real-time behavioral DGA detection through machine learning
CN114915479B (zh) 一种基于Web日志的Web攻击阶段分析方法及系统
De Silva et al. Compromised or {Attacker-Owned}: A large scale classification and study of hosting domains of malicious {URLs}
Marchal et al. PhishScore: Hacking phishers' minds
CN112929390A (zh) 一种基于多策略融合的网络智能监控方法
CN116451215A (zh) 关联分析方法及相关设备
Xia et al. Identifying and characterizing COVID-19 themed malicious domain campaigns
US11582226B2 (en) Malicious website discovery using legitimate third party identifiers
TWI524207B (zh) Method of detecting suspicious botnet relay station domain name
CN113645293B (zh) 一种基于网络流量元数据的web资源扫描行为检测方法
CN115314271B (zh) 一种访问请求的检测方法、系统及计算机存储介质
CN115913634A (zh) 一种基于深度学习的网络安全异常的检测方法及系统
Jo et al. You're not who you claim to be: Website identity check for phishing detection
Chen et al. Doctrina: annotated bipartite graph mining for malware-control domain detection
Chang et al. On similarities of string and query sequence for DGA botnet detection
Marchai et al. Semantic based DNS forensics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230328

Address after: Room 101, No. 163, Pingyun Road, Guangzhou, Guangdong Province 510000 Room 103, self-made

Applicant after: GUANGZHOU RADIO AND TELEVISION RESEARCH INSTITUTE Co.,Ltd.

Address before: Room 302, building 5, No. 27, Yanling lane, Qinhuai District, Nanjing, Jiangsu 210000

Applicant before: NANJING CLEARCLOUD SOFTWARE TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant