CN108038155A

CN108038155A - 一种网络url异常的检测方法

Info

Publication number: CN108038155A
Application number: CN201711267059.7A
Authority: CN
Inventors: 滕建桓
Original assignee: Bao Mu Science And Technology (tianjin) Co Ltd
Current assignee: Bao Mu Science And Technology (tianjin) Co Ltd
Priority date: 2017-12-02
Filing date: 2017-12-02
Publication date: 2018-05-15

Abstract

本发明提供一种网络URL异常的检测方法，配合使用value字段提取、向量长度计算、机器学习数据建模及网络URL异常判断等步骤，解决了传统的基于规则的URL检测方法所面临的维护成本高昂，技术门槛高，需要实时更新的问题。

Description

一种网络URL异常的检测方法

技术领域

本发明属于网络安全领域，尤其是涉及一种网络URL异常的检测方法。

背景技术

传统web入侵检测技术通过维护规则集对入侵访问的URL进行拦截。一方面，硬编码规则在灵活的黑客面前，很容易被绕过，且基于以往知识的规则集难以应对0day攻击；另一方面，攻防对抗水涨船高，防守方规则的构造和维护门槛高、成本大。市场急需一种网络URL异常的检测方法，可以解决传统的基于规则的URL检测方法所面临的维护成本高昂，技术门槛高，需要实时更新的问题。

发明内容

有鉴于此，本发明旨在提出一种一种网络URL异常的检测方法，配合使用value字段提取、向量长度计算、机器学习数据建模及网络URL异常判断等步骤，解决了传统的基于规则的URL检测方法所面临的维护成本高昂，技术门槛高，需要实时更新的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种网络URL异常的检测方法，包括：

步骤1：将URL中的value字段提取出来，即示例中”＝”和”&”符号之间的部分,组成该URL的1Xn特征向量

步骤2：计算向量的各个成员长度，组成新的1Xn向量

步骤3：计算向量的方差σ²：

其中μ为向量的均值，进一步取得为向量的标准差σ；

步骤4：根据切比雪夫不等式，取k＝10，则不等式简化为：

即向量的任意一个成员L_i与均值μ的绝对值大于等于10*σ的概率小于等于1％，若向量各成员|L_i-μ|-10*σ<0，表示特征向量所对应的URL正常合法，反则判断网络URL异常。

本发明采用无监督式机器学习的方法，针对大量正常的URL访问日志建立模型(Profile)，而与正常流量不符的则被识别为异常。这个思路与传统的拦截规则的构造恰恰相反。拦截规则意在识别入侵行为，因而需要在对抗中“随机应变”；而基于机器学习模型的方法旨在建模正常流量，在对抗中“以不变应万变”，且更难被绕过。

相对于现有技术，本发明所述的一种网络URL异常的检测方法，具有以下优势：

本发明所述的一种网络URL异常的检测方法，配合使用value字段提取、向量长度计算、机器学习数据建模及网络URL异常判断等步骤，解决了传统的基于规则的URL检测方法所面临的维护成本高昂，技术门槛高，需要实时更新的问题。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

在附图中：

图1为本发明实施例所述的一种网络URL异常的检测方法流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

如图1所示，一种网络URL异常的检测方法，包括：

步骤2：计算向量的各个成员长度，组成新的1Xn向量

步骤3：计算向量的方差σ²：

其中μ为向量的均值，进一步取得为向量的标准差σ；

步骤4：根据切比雪夫不等式，取k＝10，则不等式简化为：

如图1所示，本发明采用无监督式机器学习的方法，针对大量正常的URL访问日志建立模型(Profile)，而与正常流量不符的则被识别为异常。这个思路与传统的拦截规则的构造恰恰相反。拦截规则意在识别入侵行为，因而需要在对抗中“随机应变”；而基于机器学习模型的方法旨在建模正常流量，在对抗中“以不变应万变”，且更难被绕过。

如图1所示，本发明的实施例1：

在防火墙拦截所有WEB访问请求并提取出URL字段,一个简单的URL示例如下：

http://817.dopa.com/？dm＝sougo.com&acc＝BEA689A7-2E0F-44CD-BF95-23C778D9BFDE&poprequest＝145

将URL中的各个value字段提取出来，即＝和&之间的部分，并形成URL特征向量和对应的长度向量：

向量长度n＝3；

计算向量均值

计算向量的方差

进一步标准差

取k＝10，则切比雪夫不等式简化为：

表示向量的各个成员L_i与均值μ(μ＝16)的差值绝对值大于143.5的概率小于1％。即向量L的各个成员数据L_i在99％的情况下：

|L_i-16|-143.5<0

因为向量所有成员L_i最后值均小于0，我们认为特征向量对应的URL:http://817.dopa.com/？dm＝sougo.com&acc＝BEA689A7-2E0F-44CD-BF95-23C778D9BFDE&poprequest＝145合法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络URL异常的检测方法，其特征在于：包括：

步骤2：计算向量的各个成员长度，组成新的1Xn向量

步骤3：计算向量的方差σ²：

<mrow> <mi>&mu;</mi> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>L</mi> <mi>i</mi> </msub> </mrow> <mi>n</mi> </mfrac> </mrow>

<mrow> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>&mu;</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mi>n</mi> </mfrac> </mrow>

其中μ为向量的均值，进一步取得为向量的标准差σ；

步骤4：根据切比雪夫不等式，取k＝10，则不等式简化为：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mo>|</mo> <msub> <mi>L</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>&mu;</mi> <mo>|</mo> <mo>&GreaterEqual;</mo> <mn>10</mn> <mo>*</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <mo>&le;</mo> <mfrac> <mn>1</mn> <mn>100</mn> </mfrac> </mrow>