CN113645293B

CN113645293B - 一种基于网络流量元数据的web资源扫描行为检测方法

Info

Publication number: CN113645293B
Application number: CN202110901624.0A
Authority: CN
Inventors: 贵帅; 郭晓冬; 高才; 唐锡南
Original assignee: Guangzhou Radio And Television Research Institute Co ltd
Current assignee: Guangzhou Radio And Television Research Institute Co ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2023-10-10
Anticipated expiration: 2041-08-06
Also published as: CN113645293A

Abstract

本发明涉及一种基于网络流量元数据的WEB资源扫描行为检测方法，在交换机的镜像端口部署流量采集器采集流量信息；对旁路流量进行分离，计算出HTTP流量信息，每条HTTP的流量信息用深度报文分析技术计算得到；每条HTTP的流量信息通过HTTP的元数据来刻画，对HTTP元数据进行优化处理，按照一个时间段T做六维聚合运算，不同元数据被聚合成一条记录，经过处理后的元数为相同连接个数的和；识别被扫描域名，通过扫描路径找出路径，最后返查黑客IP地址本发明能够提供一种多级规则管道式的组合、可准确识别出被攻击的主机域名、定位WEB资源扫描的路径以及能够有效返查出攻击的源IP的基于网络流量元数据的WEB资源扫描行为检测方法。

Description

一种基于网络流量元数据的WEB资源扫描行为检测方法

技术领域

本发明属于网络安全相关技术领域，具体涉及一种基于网络流量元数据的WEB资源扫描行为检测方法。

背景技术

WEB资源扫描对WEB安全至关重要，它可以访问到WEB服务器上没有被引用的重要资源，发现WEB的漏洞，如果黑客用扫描器发现了WEB的漏洞或者获取到用户凭证，那么WEB服务器极有可能在接下来受到黑客的入侵，如果我们能在扫描阶段察觉到黑客的动作，便能够及时地对WEB服务器进行防护；目前的WEB防护技术主要集中在入侵阶段，在漏洞扫描及目录遍历方面没有有效的检测手段。

WEB资源扫描通常会在特定的目录下，通过随机生成的文件名，构造大量不同的URL请求，尝试获取该目录下的重要资源；以往的WEB资源扫描检测方法，以攻击方源IP和目的服务器IP作为关键字来构造HASH表，然后通过计算每个（源IP，目的IP）对应的唯一URL请求个数，以及状态码大于400的异常请求占总请求个数的比例，来识别两者之间是否存在扫描行为，这种方式具有以下不足：对于分布式的WEB服务器，URL请求的处理会由多台对应不同IP的主机进行负载均衡，这种情况下对单一目的IP的检测仅仅统计了扫描行为的一小部分，计算的异常请求个数并不能用来衡量真正的攻击频率；单一IP发起的大量异常请求很容易被察觉，黑客可能会通过控制的僵尸网络中的多台肉鸡联合发起扫描，在这种情况下，对于单个肉鸡IP，其产生的异常请求实际上并不多，能够轻易规避以往的检测手段。

发明内容

本发明的目的在于提供一种多级规则管道式的组合、可准确识别出被攻击的主机域名、定位WEB资源扫描的路径以及能够有效返查出攻击的源IP的基于网络流量元数据的WEB资源扫描行为检测方法。

下面关于后续技术方案表述中涉及的专业名词解释如下：

HTTP：超文本传输协议；

SIP：为英文Source IP的简称，源IP地址；

HOST：主机域名；

URL为Uniform Resource LocaTor的英文缩写，是指统一资源定位器或资源地址；

DPI：深度报文分析技术；

STATUS_CODE：服务器响应状态码；

FLOW：一条流的连接次数；

URL_ANOMALY：异常的资源地址；

URL_TOTAL：资源地址总数；

LIST_HOST：域名列表；

URL_LIST：资源地址列表；

PATH：路径；

PATH_LIST：路径列表；

TRIE：一般指字典树，又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。

为实现上述目的，本发明提供如下技术方案：一种基于网络流量元数据的WEB资源扫描行为检测方法，具体包括如下步骤：

步骤S1：首先通过旁路采集实时网络流量并解析处理，具体包括旁路监听采集流量、聚合元数据预处理，并将处理后的数据记录存储到大数据分析平台用于后续分析；

步骤S2：基于大数据分析平台的网络流量建模，对每条HTTP的流量信息通过HTTP的元数据来刻画，包括（SIP，HOST，URL，STATUS_CODE，FLOW)，对HTTP元数据进行优化处理，即按照一个时间段T做六维聚合运算，即对（T，SIP，HOST，URL，STATUS_CODE）聚合，不同元数据被聚合成一条记录进入大数据平台，经过处理后的元数据FLOW为相同连接个数的和；

步骤S3：基于网络流量元数据的扫描行为检测，首先识别被扫描域名HOST，然后通过扫描路径搜索算法找出路径，最后返查黑客IP地址。

作为本发明的进一步改进，所述旁路监听采集流量，具体操作为，从交换机镜像端口获取网络流量进行分离和预处理网络流量数据，包括解析出网络通讯HTTP流量信息，对每条HTTP流量信息用深度报文分析，再提取源IP地址、目的IP地址、主机域名、URL、HTTP响应状态码特征值形成网络流量的元数据。

作为本发明的进一步改进，所述聚合元数据预处理，具体操作为，对同一时间段内元数据做四维聚合处理，即将时间范围，源IP地址、主机域名、URL、HTTP响应状态码相同的全部数据记录聚合成一条元数据记录，对聚合后的流个数进行求和。

作为本发明的进一步改进，所述步骤S3中识别被扫描域名，具体操作为，按照一个时间段T对收到的异常的URL请求通过HOST聚合，再使用数据分析求和，得到URL集合中URL个数记为URL_ANOMALY，先通过阈值过滤出URL个数大于阈值T1的HOST，再计算这些HOST的所有请求URL构成的集合中URL个数URL_TOTAL，对每个过滤出的HOST求URL_ANOMALY与URL_TOTAL的比值，当上述比值大于阈值T2判定为被攻击的HOST。

作为本发明的进一步改进，所述步骤S3中扫描路径，具体操作为，对所述识别被扫描域名中检测出的所有被攻击的HOST放在列表LIST_HOST中，按照一个时间段T，对列表中每个HOST，从大数据平台得到所有的异常请求URL集合再转换为列表URL_LIST，同时构造算法树TRIE得到一个由所有异常URL构成的TRIE。

作为本发明的进一步改进，按照如下搜索算法找出分支数大于阈值阀值T3的路径：将其TRIE逐层往下递归遍历，查找分支个数大于阀值T3的节点；对每个这样的节点，逐层向上以‘/’拼接各级路径，最后得到就是被扫描路径；将所有这样的路径添加到列表PATH_LIST里；最后返回的PATH_LIST就是单个HOST的所有被扫描路径构成的列表。

作为本发明的进一步改进，所述步骤S3中返查黑客IP地址，具体操作为，对所述搜索被扫描路径中检测出来的每个（HOST，PATH)，通过HOST精确匹配和PATH前缀匹配出所有满足条件的异常流的URL，并获取对应的SIP信息，将所有URL通过HOST、SIP聚合，对每个HOST，每个SIP访问的在被扫描路径下的URL集合大小大于阈值T4，就判定该（SIP，HOST）存在扫描攻击行为，通过前缀匹配，匹配出的URL就是用来扫描的URL。

与现有技术相比，本发明的有益效果是：本技术方案采用多级规则管道式的组合方法，从源头，即在黑客扫描文件初期阶段察觉到黑客的动作，快速精准的做出响应，因此能够及时地对WEB服务器进行防护；本技术方案还采用TRIE树来处理WEB服务器中的所有的异常请求URL的算法，能够高效地检测出WEB服务器受到的扫描攻击，可准确识别出被攻击的主机域名，并准确地定位WEB资源扫描的路径，并返查出攻击的源IP，结合所有异常URL字符串本身携带的信息，准确定位出黑客扫描的具体路径。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：一种基于网络流量元数据的WEB资源扫描行为检测方法，具体包括如下步骤：首先通过旁路采集实时网络流量并解析处理，具体操作为，在交换机的镜像端口部署流量采集器采集流量信息；按网络协议对旁路流量进行分离，计算出HTTP流量信息，每条HTTP的流量信息用深度报文分析技术计算得到；基于大数据分析平台的网络流量建模，具体操作为，每条HTTP的流量信息通过HTTP的元数据来刻画，包括（SIP，HOST，URL，STATUS_CODE，FLOW)，对HTTP元数据进行优化处理，即按照一个时间段T做六维聚合运算，即对（T，SIP，HOST，URL，STATUS_CODE）聚合，不同元数据被聚合成一条记录进入大数据平台，经过处理后的元数据FLOW为相同连接个数的和，其他取公共值不变；基于网络流量元数据的扫描行为检测，具体操作为，首先识别被扫描域名HOST，然后通过基于TRIE的扫描路径搜索算法找出路径，最后返查黑客IP地址。

步骤S1中旁路采集实时网络流量并解析元数据解析包含有旁路监听采集流量、聚合元数据预处理和存储到大数据平台；旁路监听采集流量，具体操作为，从交换机镜像端口获取网络流量，在旁路流量上进行分离和预处理网络流量数据，包括解析出网络通讯HTTP流量信息，对每条HTTP流量信息用深度报文分析，再提取源IP地址、目的IP地址、主机域名、URL、HTTP响应状态码特征值形成网络流量的元数据；聚合元数据预处理，具体操作为，对同一时间段内步骤S2中的元数据做四维聚合处理，即将时间范围，源IP地址、主机域名、URL、HTTP响应状态码相同的全部数据记录聚合成一条元数据记录，对聚合后的流个数进行求和；存储到大数据平台，具体操作为，将聚合后的数据记录存储到大数据分析平台用于后续分析；步骤S3中识别被扫描域名，具体操作为，按照一个时间段T对收到的异常的URL请求通过HOST聚合，再使用大数据分析求和，得到URL集合中URL个数记为URL_ANOMALY，先通过阈值过滤出URL个数大于阈值T1的HOST，再计算这些HOST的所有请求URL构成的集合中URL个数URL_TOTAL，对每个过滤出的HOST求URL_ANOMALY/URL_TOTAL之比，大于阈值T2判定为被攻击的HOST；步骤S3中搜索被扫描路径，具体操作为，对识别被扫描域名中检测出的所有被攻击的HOST放在列表LIST_HOST中，按照一个时间段T，对列表中每个HOST，从大数据平台得到所有的异常请求URL集合再转换为列表URL_LIST，同时构造一个TRIE。

按照如下算法构造一个TRIE：

建立空字典TRIE；

for URL in URL_LIST：

将URL通过’/’分割成各级路径列表PATH_LIST

从一级路径开始：

如果TRIE中不存在KEY为PATH，将PATH作为KEY加入TRIE中，VALUE为空字典；如果TRIE中存在KEY为PATH，将下一级PTAH和该KEY对应的字典做同样的检查；以这种方式将URL逐个添加到空TRIE中，得到一个由所有异常URL构成的TRIE，再按照如下搜索算法找出分支数大于阈值阀值T3的路径：将其TRIE逐层往下递归遍历，查找分支个数大于阀值T3的节点；对每个这样的节点，逐层向上以‘/’拼接各级路径，最后得到就是被扫描路径；将所有这样的路径添加到列表PATH_LIST里；最后返回的PATH_LIST就是单个HOST的所有被扫描路径构成的列表。

步骤S3中返查黑客IP地址，具体操作为，对搜索被扫描路径中检测出来的每个（HOST，PATH)，构造查询语句通过HOST精确匹配和PATH前缀匹配，配出所有满足条件的异常流的URL，并获取对应的SIP信息，将所有URL通过HOST、SIP聚合，对每个HOST，每个SIP访问的在被扫描路径下的URL集合大小大于阈值T4，就判定该（SIP，HOST）存在扫描攻击行为，通过前缀匹配，匹配出的URL就是用来扫描的URL。

以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于网络流量元数据的WEB资源扫描行为检测方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于网络流量元数据的WEB资源扫描行为检测方法，其特征在于：所述旁路监听采集流量，具体操作为，从交换机镜像端口获取网络流量进行分离和预处理网络流量数据，包括解析出网络通讯HTTP流量信息，对每条HTTP流量信息用深度报文分析，再提取源IP地址、目的IP地址、主机域名、URL、HTTP响应状态码特征值形成网络流量的元数据。

3.根据权利要求2所述的一种基于网络流量元数据的WEB资源扫描行为检测方法，其特征在于：所述聚合元数据预处理，具体操作为，对同一时间段内元数据做四维聚合处理，即将时间范围，源IP地址、主机域名、URL、HTTP响应状态码相同的全部数据记录聚合成一条元数据记录，对聚合后的流个数进行求和。

4.根据权利要求1所述的一种基于网络流量元数据的WEB资源扫描行为检测方法，其特征在于：所述步骤S3中识别被扫描域名，具体操作为，按照一个时间段T对收到的异常的URL请求通过HOST聚合，再使用数据分析求和，得到URL集合中URL个数记为URL_ANOMALY，先通过阈值过滤出URL个数大于阈值T1的HOST，再计算这些HOST的所有请求URL构成的集合中URL个数URL_TOTAL，对每个过滤出的HOST求URL_ANOMALY与URL_TOTAL的比值，当上述比值大于阈值T2判定为被攻击的HOST。

5.根据权利要求1所述的一种基于网络流量元数据的WEB资源扫描行为检测方法，其特征在于：所述步骤S3中扫描路径，具体操作为，对所述识别被扫描域名中检测出的所有被攻击的HOST放在列表LIST_HOST中，按照一个时间段T，对列表中每个HOST，从大数据平台得到所有的异常请求URL集合再转换为列表URL_LIST，同时构造算法树TRIE得到一个由所有异常URL构成的TRIE。

6.根据权利要求5所述的一种基于网络流量元数据的WEB资源扫描行为检测方法，其特征在于：按照如下搜索算法找出分支数大于阈值T3的路径：将其TRIE逐层往下递归遍历，查找分支个数大于阈值T3的节点；对每个这样的节点，逐层向上拼接各级路径，最后得到就是被扫描路径；将所有这样的路径添加到列表PATH_LIST里；最后返回的PATH_LIST就是单个HOST的所有被扫描路径构成的列表。

7.根据权利要求1所述的一种基于网络流量元数据的WEB资源扫描行为检测方法，其特征在于：所述步骤S3中返查黑客IP地址，具体操作为，对所述搜索被扫描路径中检测出来的每个（HOST，PATH)，通过HOST精确匹配和PATH前缀匹配出所有满足条件的异常流的URL，并获取对应的SIP信息，将所有URL通过HOST、SIP聚合，对每个HOST，每个SIP访问的在被扫描路径下的URL集合大小大于阈值T4，就判定该（SIP，HOST）存在扫描攻击行为，通过前缀匹配，匹配出的URL就是用来扫描的URL。