CN110298005A

CN110298005A - 一种对url进行归一化的方法

Info

Publication number: CN110298005A
Application number: CN201910560171.2A
Authority: CN
Inventors: 陈曦; 魏国富; 辜乘风; 汲丽; 钟丹阳
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-10-01

Abstract

本发明公开了一种对URL进行归一化的方法，要解决的是现有URL归一化方法中存在的问题。本发明具体步骤如下：步骤一，将原始的URL通过深度学习方法编码成数值型向量，使得具有同一个路径但不同参数的URL在编码之后的向量空间中距离很接近；步骤二，将数值型向量接近的URL进行合并，从而实现归一化的目的。本方法不需要编写复杂的正则表达式，参数部分不论长短，都可以准确识别到，可以准确的将URL进行归一化；本方法采用Autoencoder方法，Autoencoder方法是一个非监督学习算法，不需要进行人工标注；本方法不需要维护一个URL映射表或者目录结构，在网站进行小规模改版时出现新的URL时有更好的稳定性。

Description

一种对URL进行归一化的方法

技术领域

本发明涉及URL归一化领域，具体是一种对URL进行归一化的方法。

背景技术

在进行web日志分析时，常常我们需要对web页面进行一些统计计算，譬如计算一个页面每小时的访问量，访问IP数，响应状态码分布等，通过对这些统计量建立时间序列模型，或利用他们作为特征，构建更复杂的异常发现模型，用来发现在某段时间内访问异常的页面。但在实际分析中，我们无法看到用户访问的真实页面，只能从访问日志中看到用户访问的 URL（互联网上标准资源的地址），因此严格来说，我们分析的对象并不是“页面”，而是“URL”。

不管服务器使用apache, nginx还是IIS，他们记录的日志格式一般都符合Apache Common Log Format，我们可以从中抽取访问者 IP，目的地IP，请求的URL，客户端User-Agent 等信息。过去大多数的网站后端架构，大致符合以下响应流程，即客户端请求某个 URL，网站服务器会在其文件系统中寻找用户请求的URL所对应的文件，服务器读取该文件内容，执行当中的代码，渲染出对应的页面，返回给客户端，我们会认为日志中的 URL与网页页面存在一一对应关系，因此我们可以用 URL 来代表页面。

但是近年来随着 web 技术的发展，大量新的前端、后端框架被提出，造成以前的这种URL和页面的一一对应关系被打破，主要体现在以下几个方面：第一，请求的query 的参数值被放置在路径中；第二，为了防止页面被缓存，在路径中加入随机数；第三，在URL中去除资源的后缀名。这些都会导致日志中的URL与真实页面不存在一一对应关系，之前针对URL进行统计以及异常分析的方法就会失效。因此在进行页面统计分析与异常检测之前，我们必须对URL进行归一化，使得代表同一页面的URL能够归一化成同一个URL。

目前归一化的方法有以下几种：第一，让网站开发人员配合，提供网站的软路由逻辑，做成一张映射表，在分析的时候利用这种映射表把日志中的URL还原，这种方法在实际操作中，网站开发人员与安全运维人员(即需要分析日志的人)往往归属不同的部门，网站开发人员往往配合意愿不强。另外目前很多公司的业务系统变化速度非常快，公司网站的更新速度往往是周级别甚至日级别的，维护一张映射表非常困难。第二，专家根据经验设定一些过滤规则，把这些专家经验整合成正则表达式，把URL路径部分的参数过滤掉；这种方式中专家指定的正则表达式往往会有很大的误报和漏报，URL中的参数的长度，字符的选择，没有一定的标准，通用性不强。第三，读取较长时间段的URL，构建出网站的目录树，对每个节点统计其子节点的个数，只能解决URL最后一段为参数的情形，针对这样的URL，/avatar/user01/12313123123，最后两段分别是用户id和一个随机数，无法正确处理成 /avatar。

发明内容

本发明实施例的目的在于提供一种对URL进行归一化的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明实施例提供如下技术方案：

一种对URL进行归一化的方法，具体步骤如下：

步骤一，将原始的URL通过深度学习方法编码成数值型向量，使得具有同一个路径但不同参数的URL在编码之后的向量空间中距离很接近，深度学习方法采用了一个深度神经网络来代替人工特征工程，让神经网络直接从原始数据中学习一个好的向量表征方法；

步骤二，将数值型向量接近的URL进行合并，从而实现归一化的目的。

作为本发明实施例进一步的方案：深度学习方法采用自编码器方法，使用效果好。

作为本发明实施例进一步的方案：深度学习方法采用递归神经网络(RNN)作为基础网络，每个单元都是一个单层或者多层神经网络，每个单元具有完全相同的结构，每个单元的输入是上一个单元的输出以及这一步的字符输入，数据准确。

作为本发明实施例进一步的方案：自编码器方法通过encoder（编码器）把原始数据编码成一个较短的向量，再通过encoder把该向量还原成和原始数据等长的向量，并尽可能使的输入和输出向量差异最小，这里采用均方误差(RMSE)或夹角余弦(cosinesimilarity)来定义向量间的差异。

作为本发明实施例进一步的方案：深度学习方法采用长短期记忆网络（LSTM）作为基础网络，LSTM是递归神经网络(RNN)的一种，用来处理输入数据是一个序列的数据。

作为本发明实施例进一步的方案：LSTM 的自编码器有两个部分，一个部分作为encoder，另一个作为decoder（转换编码器），将URL中每个字符依次传入encoder中，得到一个向量，再将该向量传入decoder中，decoder的输入为上一步输出以及上一步的字符输入，希望借此还原出原始URL，通过这个步骤，LSTM的自编码器会找到一种高效的向量表征方法，同时因为中间的向量空间维度有限，encoder会把URL中重要的信息编码到向量中，例如路径的主干，而忽略不太重要的信息，例如路径中的参数，两者的一致度高。

作为本发明实施例进一步的方案：数值型向量为4096维向量，使用效果好。

与现有技术相比，本发明实施例的有益效果是：

本方法不需要编写复杂的正则表达式，参数部分不论长短，都可以准确识别到，可以准确的将URL进行归一化；

本方法采用Autoencoder方法，Autoencoder方法是一个非监督学习算法，不需要进行人工标注；

本方法不需要维护一个URL映射表或者目录结构，在网站进行小规模改版时出现新的URL时有更好的稳定性。

附图说明

图1为对URL进行归一化的方法中自编码器的工作示意图。

图2为对URL进行归一化的方法中LSTM 的自编码器的结构示意图。

图3为对URL进行归一化的方法的运行结果图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

实施例1

一种对URL进行归一化的方法，具体步骤如下：

步骤一，将原始的URL通过自编码器方法编码成数值型向量，采用长短期记忆网络（LSTM）作为基础网络，LSTM是递归神经网络(RNN)的一种，用来处理输入数据是一个序列的数据，每个单元都是一个单层或者多层神经网络，每个单元具有完全相同的结构，每个单元的输入是上一个单元的输出以及这一步的字符输入，数据准确，LSTM 的自编码器有两个部分，一个部分作为encoder，另一个作为decoder（转换编码器），将URL中每个字符依次传入encoder中，得到一个向量，再将该向量传入decoder中，decoder的输入为上一步输出以及上一步的字符输入，希望借此还原出原始URL，通过这个步骤，LSTM的自编码器会找到一种高效的向量表征方法，同时因为中间的向量空间维度有限，encoder会把URL中重要的信息编码到向量中，例如路径的主干，而忽略不太重要的信息，例如路径中的参数，两者的一致度高，使得具有同一个路径但不同参数的URL在编码之后的向量空间中距离很接近，通过encoder（编码器）把原始数据编码成一个较短的向量，再通过encoder把该向量还原成和原始数据等长的向量，并尽可能使的输入和输出向量差异最小，这里采用均方误差(RMSE)或夹角余弦(cosine similarity)来定义向量间的差异，自编码器方法采用了一个深度神经网络来代替人工特征工程，让神经网络直接从原始数据中学习一个好的向量表征方法；

图3为采用实施例1的方法的运行结果，将原始URL输入到LSTM的自编码器中，拿encoder输出的向量作为URL的128维的向量表征，将这些向量投影到3维空间进行可视化，图3中两个点的距离代表这两个URL的距离，距离近代表他们是同一个页面，距离远代表他们是不同的页面。图3的URL，从原始字符来看，差异很大(不同的字符数量多)，但模型认为他们距离很接近。可以看出，模型成功把握住了URL的主干部分，而忽略了不重要的随机数部分，保证结果的准确性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种对URL进行归一化的方法，其特征在于，具体步骤如下：

步骤一，将原始的URL通过深度学习方法编码成数值型向量；

步骤二，将数值型向量接近的URL进行合并即可。

2.根据权利要求1所述的对URL进行归一化的方法，其特征在于，所述深度学习方法采用自编码器方法。

3.根据权利要求1所述的对URL进行归一化的方法，其特征在于，所述深度学习方法采用递归神经网络作为基础网络，每个单元都是一个单层或者多层神经网络，每个单元具有完全相同的结构，每个单元的输入是上一个单元的输出以及这一步的字符输入。

4.根据权利要求2所述的对URL进行归一化的方法，其特征在于，所述自编码器方法通过encoder把原始数据编码成一个较短的向量，再通过encoder把该向量还原成和原始数据等长的向量，并使输入和输出向量差异最小。

5.根据权利要求3所述的对URL进行归一化的方法，其特征在于，所述深度学习方法采用长短期记忆网络作为基础网络。

6.根据权利要求5所述的对URL进行归一化的方法，其特征在于，所述长短期记忆网络的自编码器有两个部分，一个部分作为encoder，另一个作为decoder，将URL中每个字符依次传入encoder中，得到一个向量，再将该向量传入decoder中，decoder的输入为上一步输出以及上一步的字符输入。

7.根据权利要求1所述的对URL进行归一化的方法，其特征在于，所述数值型向量为4096维向量。