CN110298005A - 一种对url进行归一化的方法 - Google Patents
一种对url进行归一化的方法 Download PDFInfo
- Publication number
- CN110298005A CN110298005A CN201910560171.2A CN201910560171A CN110298005A CN 110298005 A CN110298005 A CN 110298005A CN 201910560171 A CN201910560171 A CN 201910560171A CN 110298005 A CN110298005 A CN 110298005A
- Authority
- CN
- China
- Prior art keywords
- url
- vector
- normalized
- encoder
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种对URL进行归一化的方法,要解决的是现有URL归一化方法中存在的问题。本发明具体步骤如下:步骤一,将原始的URL通过深度学习方法编码成数值型向量,使得具有同一个路径但不同参数的URL在编码之后的向量空间中距离很接近;步骤二,将数值型向量接近的URL进行合并,从而实现归一化的目的。本方法不需要编写复杂的正则表达式,参数部分不论长短,都可以准确识别到,可以准确的将URL进行归一化;本方法采用Autoencoder方法,Autoencoder方法是一个非监督学习算法,不需要进行人工标注;本方法不需要维护一个URL映射表或者目录结构,在网站进行小规模改版时出现新的URL时有更好的稳定性。
Description
技术领域
本发明涉及URL归一化领域,具体是一种对URL进行归一化的方法。
背景技术
在进行web日志分析时,常常我们需要对web页面进行一些统计计算,譬如计算一个页面每小时的访问量,访问IP数,响应状态码分布等,通过对这些统计量建立时间序列模型,或利用他们作为特征,构建更复杂的异常发现模型,用来发现在某段时间内访问异常的页面。但在实际分析中,我们无法看到用户访问的真实页面,只能从访问日志中看到用户访问的 URL(互联网上标准资源的地址),因此严格来说,我们分析的对象并不是“页面”,而是“URL”。
不管服务器使用apache, nginx还是IIS,他们记录的日志格式一般都符合Apache Common Log Format,我们可以从中抽取访问者 IP,目的地IP,请求的URL,客户端User-Agent 等信息。过去大多数的网站后端架构,大致符合以下响应流程,即客户端请求某个 URL,网站服务器会在其文件系统中寻找用户请求的URL所对应的文件,服务器读取该文件内容,执行当中的代码,渲染出对应的页面,返回给客户端,我们会认为日志中的 URL与网页页面存在一一对应关系,因此我们可以用 URL 来代表页面。
但是近年来随着 web 技术的发展,大量新的前端、后端框架被提出,造成以前的这种URL和页面的一一对应关系被打破,主要体现在以下几个方面:第一,请求的query 的参数值被放置在路径中;第二,为了防止页面被缓存,在路径中加入随机数;第三,在URL中去除资源的后缀名。这些都会导致日志中的URL与真实页面不存在一一对应关系,之前针对URL进行统计以及异常分析的方法就会失效。因此在进行页面统计分析与异常检测之前,我们必须对URL进行归一化,使得代表同一页面的URL能够归一化成同一个URL。
目前归一化的方法有以下几种:第一,让网站开发人员配合,提供网站的软路由逻辑,做成一张映射表,在分析的时候利用这种映射表把日志中的URL还原,这种方法在实际操作中,网站开发人员与安全运维人员(即需要分析日志的人)往往归属不同的部门,网站开发人员往往配合意愿不强。另外目前很多公司的业务系统变化速度非常快,公司网站的更新速度往往是周级别甚至日级别的,维护一张映射表非常困难。第二,专家根据经验设定一些过滤规则,把这些专家经验整合成正则表达式,把URL路径部分的参数过滤掉;这种方式中专家指定的正则表达式往往会有很大的误报和漏报,URL中的参数的长度,字符的选择,没有一定的标准,通用性不强。第三,读取较长时间段的URL,构建出网站的目录树,对每个节点统计其子节点的个数,只能解决URL最后一段为参数的情形,针对这样的URL,/avatar/user01/12313123123,最后两段分别是用户id和一个随机数,无法正确处理成 /avatar。
发明内容
本发明实施例的目的在于提供一种对URL进行归一化的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种对URL进行归一化的方法,具体步骤如下:
步骤一,将原始的URL通过深度学习方法编码成数值型向量,使得具有同一个路径但不同参数的URL在编码之后的向量空间中距离很接近,深度学习方法采用了一个深度神经网络来代替人工特征工程,让神经网络直接从原始数据中学习一个好的向量表征方法;
步骤二,将数值型向量接近的URL进行合并,从而实现归一化的目的。
作为本发明实施例进一步的方案:深度学习方法采用自编码器方法,使用效果好。
作为本发明实施例进一步的方案:深度学习方法采用递归神经网络(RNN)作为基础网络,每个单元都是一个单层或者多层神经网络,每个单元具有完全相同的结构,每个单元的输入是上一个单元的输出以及这一步的字符输入,数据准确。
作为本发明实施例进一步的方案:自编码器方法通过encoder(编码器)把原始数据编码成一个较短的向量,再通过encoder把该向量还原成和原始数据等长的向量,并尽可能使的输入和输出向量差异最小,这里采用均方误差(RMSE)或夹角余弦(cosinesimilarity)来定义向量间的差异。
作为本发明实施例进一步的方案:深度学习方法采用长短期记忆网络(LSTM)作为基础网络,LSTM是递归神经网络(RNN)的一种,用来处理输入数据是一个序列的数据。
作为本发明实施例进一步的方案:LSTM 的自编码器有两个部分,一个部分作为encoder,另一个作为decoder(转换编码器),将URL中每个字符依次传入encoder中,得到一个向量,再将该向量传入decoder中,decoder的输入为上一步输出以及上一步的字符输入,希望借此还原出原始URL,通过这个步骤,LSTM的自编码器会找到一种高效的向量表征方法,同时因为中间的向量空间维度有限,encoder会把URL中重要的信息编码到向量中,例如路径的主干,而忽略不太重要的信息,例如路径中的参数,两者的一致度高。
作为本发明实施例进一步的方案:数值型向量为4096维向量,使用效果好。
与现有技术相比,本发明实施例的有益效果是:
本方法不需要编写复杂的正则表达式,参数部分不论长短,都可以准确识别到,可以准确的将URL进行归一化;
本方法采用Autoencoder方法,Autoencoder方法是一个非监督学习算法,不需要进行人工标注;
本方法不需要维护一个URL映射表或者目录结构,在网站进行小规模改版时出现新的URL时有更好的稳定性。
附图说明
图1为对URL进行归一化的方法中自编码器的工作示意图。
图2为对URL进行归一化的方法中LSTM 的自编码器的结构示意图。
图3为对URL进行归一化的方法的运行结果图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
实施例1
一种对URL进行归一化的方法,具体步骤如下:
步骤一,将原始的URL通过自编码器方法编码成数值型向量,采用长短期记忆网络(LSTM)作为基础网络,LSTM是递归神经网络(RNN)的一种,用来处理输入数据是一个序列的数据,每个单元都是一个单层或者多层神经网络,每个单元具有完全相同的结构,每个单元的输入是上一个单元的输出以及这一步的字符输入,数据准确,LSTM 的自编码器有两个部分,一个部分作为encoder,另一个作为decoder(转换编码器),将URL中每个字符依次传入encoder中,得到一个向量,再将该向量传入decoder中,decoder的输入为上一步输出以及上一步的字符输入,希望借此还原出原始URL,通过这个步骤,LSTM的自编码器会找到一种高效的向量表征方法,同时因为中间的向量空间维度有限,encoder会把URL中重要的信息编码到向量中,例如路径的主干,而忽略不太重要的信息,例如路径中的参数,两者的一致度高,使得具有同一个路径但不同参数的URL在编码之后的向量空间中距离很接近,通过encoder(编码器)把原始数据编码成一个较短的向量,再通过encoder把该向量还原成和原始数据等长的向量,并尽可能使的输入和输出向量差异最小,这里采用均方误差(RMSE)或夹角余弦(cosine similarity)来定义向量间的差异,自编码器方法采用了一个深度神经网络来代替人工特征工程,让神经网络直接从原始数据中学习一个好的向量表征方法;
步骤二,将数值型向量接近的URL进行合并,从而实现归一化的目的。
图3为采用实施例1的方法的运行结果,将原始URL输入到LSTM的自编码器中,拿encoder输出的向量作为URL的128维的向量表征,将这些向量投影到3维空间进行可视化,图3中两个点的距离代表这两个URL的距离,距离近代表他们是同一个页面,距离远代表他们是不同的页面。图3的URL,从原始字符来看,差异很大(不同的字符数量多),但模型认为他们距离很接近。可以看出,模型成功把握住了URL的主干部分,而忽略了不重要的随机数部分,保证结果的准确性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.一种对URL进行归一化的方法,其特征在于,具体步骤如下:
步骤一,将原始的URL通过深度学习方法编码成数值型向量;
步骤二,将数值型向量接近的URL进行合并即可。
2.根据权利要求1所述的对URL进行归一化的方法,其特征在于,所述深度学习方法采用自编码器方法。
3.根据权利要求1所述的对URL进行归一化的方法,其特征在于,所述深度学习方法采用递归神经网络作为基础网络,每个单元都是一个单层或者多层神经网络,每个单元具有完全相同的结构,每个单元的输入是上一个单元的输出以及这一步的字符输入。
4.根据权利要求2所述的对URL进行归一化的方法,其特征在于,所述自编码器方法通过encoder把原始数据编码成一个较短的向量,再通过encoder把该向量还原成和原始数据等长的向量,并使输入和输出向量差异最小。
5.根据权利要求3所述的对URL进行归一化的方法,其特征在于,所述深度学习方法采用长短期记忆网络作为基础网络。
6.根据权利要求5所述的对URL进行归一化的方法,其特征在于,所述长短期记忆网络的自编码器有两个部分,一个部分作为encoder,另一个作为decoder,将URL中每个字符依次传入encoder中,得到一个向量,再将该向量传入decoder中,decoder的输入为上一步输出以及上一步的字符输入。
7.根据权利要求1所述的对URL进行归一化的方法,其特征在于,所述数值型向量为4096维向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910560171.2A CN110298005A (zh) | 2019-06-26 | 2019-06-26 | 一种对url进行归一化的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910560171.2A CN110298005A (zh) | 2019-06-26 | 2019-06-26 | 一种对url进行归一化的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110298005A true CN110298005A (zh) | 2019-10-01 |
Family
ID=68028931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910560171.2A Pending CN110298005A (zh) | 2019-06-26 | 2019-06-26 | 一种对url进行归一化的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110298005A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380872A (zh) * | 2020-11-27 | 2021-02-19 | 深圳市慧择时代科技有限公司 | 一种目标实体的情感倾向确定方法及装置 |
CN114900546A (zh) * | 2022-07-08 | 2022-08-12 | 支付宝(杭州)信息技术有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102790762A (zh) * | 2012-06-18 | 2012-11-21 | 东南大学 | 基于url分类的钓鱼网站检测方法 |
CN103823892A (zh) * | 2014-03-10 | 2014-05-28 | 北京奇虎科技有限公司 | 确定网页聚类模式的方法及装置 |
CN106294815A (zh) * | 2016-08-16 | 2017-01-04 | 晶赞广告(上海)有限公司 | 一种url的聚类方法及装置 |
CN107273426A (zh) * | 2017-05-18 | 2017-10-20 | 四川新网银行股份有限公司 | 一种基于深度语义路径搜索的短文本聚类方法 |
CN108595453A (zh) * | 2017-12-20 | 2018-09-28 | 中国联合网络通信集团有限公司 | Url标识映射获取方法及装置 |
CN109101552A (zh) * | 2018-07-10 | 2018-12-28 | 东南大学 | 一种基于深度学习的钓鱼网站url检测方法 |
US20190052656A1 (en) * | 2016-08-31 | 2019-02-14 | Cisco Technology, Inc. | Automatic detection of network threats based on modeling sequential behavior in network traffic |
CN109710760A (zh) * | 2018-12-20 | 2019-05-03 | 泰康保险集团股份有限公司 | 短文本的聚类方法、装置、介质及电子设备 |
-
2019
- 2019-06-26 CN CN201910560171.2A patent/CN110298005A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102790762A (zh) * | 2012-06-18 | 2012-11-21 | 东南大学 | 基于url分类的钓鱼网站检测方法 |
CN103823892A (zh) * | 2014-03-10 | 2014-05-28 | 北京奇虎科技有限公司 | 确定网页聚类模式的方法及装置 |
CN106294815A (zh) * | 2016-08-16 | 2017-01-04 | 晶赞广告(上海)有限公司 | 一种url的聚类方法及装置 |
US20190052656A1 (en) * | 2016-08-31 | 2019-02-14 | Cisco Technology, Inc. | Automatic detection of network threats based on modeling sequential behavior in network traffic |
CN107273426A (zh) * | 2017-05-18 | 2017-10-20 | 四川新网银行股份有限公司 | 一种基于深度语义路径搜索的短文本聚类方法 |
CN108595453A (zh) * | 2017-12-20 | 2018-09-28 | 中国联合网络通信集团有限公司 | Url标识映射获取方法及装置 |
CN109101552A (zh) * | 2018-07-10 | 2018-12-28 | 东南大学 | 一种基于深度学习的钓鱼网站url检测方法 |
CN109710760A (zh) * | 2018-12-20 | 2019-05-03 | 泰康保险集团股份有限公司 | 短文本的聚类方法、装置、介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
RELUQ: "基于机器学习的攻击检测(二)下-lstm实现", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/58732540》 * |
黄健翀 等: "基于LSTM自动编码机的短文本聚类方法", 《计算技术与自动化》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380872A (zh) * | 2020-11-27 | 2021-02-19 | 深圳市慧择时代科技有限公司 | 一种目标实体的情感倾向确定方法及装置 |
CN112380872B (zh) * | 2020-11-27 | 2023-11-24 | 深圳市慧择时代科技有限公司 | 一种目标实体的情感倾向确定方法及装置 |
CN114900546A (zh) * | 2022-07-08 | 2022-08-12 | 支付宝(杭州)信息技术有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
CN114900546B (zh) * | 2022-07-08 | 2022-09-16 | 支付宝(杭州)信息技术有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN113094200B (zh) | 一种应用程序的故障预测方法和装置 | |
CN109886294A (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
CN109062902B (zh) | 一种文本语义表达方法及装置 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN112989826B (zh) | 基于人工智能的试题分数确定方法、装置、设备及介质 | |
CN107392022A (zh) | 爬虫识别、处理方法及相关装置 | |
CN108573041A (zh) | 基于加权信任关系的概率矩阵分解推荐方法 | |
CN110298005A (zh) | 一种对url进行归一化的方法 | |
CN106844330B (zh) | 文章情感的分析方法和装置 | |
WO2022053163A1 (en) | Distributed trace anomaly detection with self-attention based deep learning | |
CN113656547A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN115203550A (zh) | 一种增强邻居关系的社交推荐方法及系统 | |
CN113536770B (zh) | 基于人工智能的文本解析方法、装置、设备及存储介质 | |
CN106227790A (zh) | 一种使用Apache Spark分类与解析海量日志的方法 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN107688594A (zh) | 基于社交信息的风险事件的识别系统及方法 | |
CN108921213B (zh) | 一种实体分类模型训练方法及装置 | |
CN106383738A (zh) | 任务处理方法和分布式计算框架 | |
CN108595453B (zh) | Url标识映射获取方法及装置 | |
CN111651191B (zh) | 应用于微服务构架的单应用打包方法及系统 | |
CN111177526B (zh) | 网络意见领袖识别方法及装置 | |
CN112800043A (zh) | 一种物联网终端信息提取方法、装置、设备和存储介质 | |
CN111598105A (zh) | 一种专利地图构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191001 |