CN110298005A - 一种对url进行归一化的方法 - Google Patents

一种对url进行归一化的方法 Download PDF

Info

Publication number
CN110298005A
CN110298005A CN201910560171.2A CN201910560171A CN110298005A CN 110298005 A CN110298005 A CN 110298005A CN 201910560171 A CN201910560171 A CN 201910560171A CN 110298005 A CN110298005 A CN 110298005A
Authority
CN
China
Prior art keywords
url
vector
normalized
encoder
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910560171.2A
Other languages
English (en)
Inventor
陈曦
魏国富
辜乘风
汲丽
钟丹阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Data Security Solutions Co Ltd
Original Assignee
Information and Data Security Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Data Security Solutions Co Ltd filed Critical Information and Data Security Solutions Co Ltd
Priority to CN201910560171.2A priority Critical patent/CN110298005A/zh
Publication of CN110298005A publication Critical patent/CN110298005A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种对URL进行归一化的方法,要解决的是现有URL归一化方法中存在的问题。本发明具体步骤如下:步骤一,将原始的URL通过深度学习方法编码成数值型向量,使得具有同一个路径但不同参数的URL在编码之后的向量空间中距离很接近;步骤二,将数值型向量接近的URL进行合并,从而实现归一化的目的。本方法不需要编写复杂的正则表达式,参数部分不论长短,都可以准确识别到,可以准确的将URL进行归一化;本方法采用Autoencoder方法,Autoencoder方法是一个非监督学习算法,不需要进行人工标注;本方法不需要维护一个URL映射表或者目录结构,在网站进行小规模改版时出现新的URL时有更好的稳定性。

Description

一种对URL进行归一化的方法
技术领域
本发明涉及URL归一化领域,具体是一种对URL进行归一化的方法。
背景技术
在进行web日志分析时,常常我们需要对web页面进行一些统计计算,譬如计算一个页面每小时的访问量,访问IP数,响应状态码分布等,通过对这些统计量建立时间序列模型,或利用他们作为特征,构建更复杂的异常发现模型,用来发现在某段时间内访问异常的页面。但在实际分析中,我们无法看到用户访问的真实页面,只能从访问日志中看到用户访问的 URL(互联网上标准资源的地址),因此严格来说,我们分析的对象并不是“页面”,而是“URL”。
不管服务器使用apache, nginx还是IIS,他们记录的日志格式一般都符合Apache Common Log Format,我们可以从中抽取访问者 IP,目的地IP,请求的URL,客户端User-Agent 等信息。过去大多数的网站后端架构,大致符合以下响应流程,即客户端请求某个 URL,网站服务器会在其文件系统中寻找用户请求的URL所对应的文件,服务器读取该文件内容,执行当中的代码,渲染出对应的页面,返回给客户端,我们会认为日志中的 URL与网页页面存在一一对应关系,因此我们可以用 URL 来代表页面。
但是近年来随着 web 技术的发展,大量新的前端、后端框架被提出,造成以前的这种URL和页面的一一对应关系被打破,主要体现在以下几个方面:第一,请求的query 的参数值被放置在路径中;第二,为了防止页面被缓存,在路径中加入随机数;第三,在URL中去除资源的后缀名。这些都会导致日志中的URL与真实页面不存在一一对应关系,之前针对URL进行统计以及异常分析的方法就会失效。因此在进行页面统计分析与异常检测之前,我们必须对URL进行归一化,使得代表同一页面的URL能够归一化成同一个URL。
目前归一化的方法有以下几种:第一,让网站开发人员配合,提供网站的软路由逻辑,做成一张映射表,在分析的时候利用这种映射表把日志中的URL还原,这种方法在实际操作中,网站开发人员与安全运维人员(即需要分析日志的人)往往归属不同的部门,网站开发人员往往配合意愿不强。另外目前很多公司的业务系统变化速度非常快,公司网站的更新速度往往是周级别甚至日级别的,维护一张映射表非常困难。第二,专家根据经验设定一些过滤规则,把这些专家经验整合成正则表达式,把URL路径部分的参数过滤掉;这种方式中专家指定的正则表达式往往会有很大的误报和漏报,URL中的参数的长度,字符的选择,没有一定的标准,通用性不强。第三,读取较长时间段的URL,构建出网站的目录树,对每个节点统计其子节点的个数,只能解决URL最后一段为参数的情形,针对这样的URL,/avatar/user01/12313123123,最后两段分别是用户id和一个随机数,无法正确处理成 /avatar。
发明内容
本发明实施例的目的在于提供一种对URL进行归一化的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种对URL进行归一化的方法,具体步骤如下:
步骤一,将原始的URL通过深度学习方法编码成数值型向量,使得具有同一个路径但不同参数的URL在编码之后的向量空间中距离很接近,深度学习方法采用了一个深度神经网络来代替人工特征工程,让神经网络直接从原始数据中学习一个好的向量表征方法;
步骤二,将数值型向量接近的URL进行合并,从而实现归一化的目的。
作为本发明实施例进一步的方案:深度学习方法采用自编码器方法,使用效果好。
作为本发明实施例进一步的方案:深度学习方法采用递归神经网络(RNN)作为基础网络,每个单元都是一个单层或者多层神经网络,每个单元具有完全相同的结构,每个单元的输入是上一个单元的输出以及这一步的字符输入,数据准确。
作为本发明实施例进一步的方案:自编码器方法通过encoder(编码器)把原始数据编码成一个较短的向量,再通过encoder把该向量还原成和原始数据等长的向量,并尽可能使的输入和输出向量差异最小,这里采用均方误差(RMSE)或夹角余弦(cosinesimilarity)来定义向量间的差异。
作为本发明实施例进一步的方案:深度学习方法采用长短期记忆网络(LSTM)作为基础网络,LSTM是递归神经网络(RNN)的一种,用来处理输入数据是一个序列的数据。
作为本发明实施例进一步的方案:LSTM 的自编码器有两个部分,一个部分作为encoder,另一个作为decoder(转换编码器),将URL中每个字符依次传入encoder中,得到一个向量,再将该向量传入decoder中,decoder的输入为上一步输出以及上一步的字符输入,希望借此还原出原始URL,通过这个步骤,LSTM的自编码器会找到一种高效的向量表征方法,同时因为中间的向量空间维度有限,encoder会把URL中重要的信息编码到向量中,例如路径的主干,而忽略不太重要的信息,例如路径中的参数,两者的一致度高。
作为本发明实施例进一步的方案:数值型向量为4096维向量,使用效果好。
与现有技术相比,本发明实施例的有益效果是:
本方法不需要编写复杂的正则表达式,参数部分不论长短,都可以准确识别到,可以准确的将URL进行归一化;
本方法采用Autoencoder方法,Autoencoder方法是一个非监督学习算法,不需要进行人工标注;
本方法不需要维护一个URL映射表或者目录结构,在网站进行小规模改版时出现新的URL时有更好的稳定性。
附图说明
图1为对URL进行归一化的方法中自编码器的工作示意图。
图2为对URL进行归一化的方法中LSTM 的自编码器的结构示意图。
图3为对URL进行归一化的方法的运行结果图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
实施例1
一种对URL进行归一化的方法,具体步骤如下:
步骤一,将原始的URL通过自编码器方法编码成数值型向量,采用长短期记忆网络(LSTM)作为基础网络,LSTM是递归神经网络(RNN)的一种,用来处理输入数据是一个序列的数据,每个单元都是一个单层或者多层神经网络,每个单元具有完全相同的结构,每个单元的输入是上一个单元的输出以及这一步的字符输入,数据准确,LSTM 的自编码器有两个部分,一个部分作为encoder,另一个作为decoder(转换编码器),将URL中每个字符依次传入encoder中,得到一个向量,再将该向量传入decoder中,decoder的输入为上一步输出以及上一步的字符输入,希望借此还原出原始URL,通过这个步骤,LSTM的自编码器会找到一种高效的向量表征方法,同时因为中间的向量空间维度有限,encoder会把URL中重要的信息编码到向量中,例如路径的主干,而忽略不太重要的信息,例如路径中的参数,两者的一致度高,使得具有同一个路径但不同参数的URL在编码之后的向量空间中距离很接近,通过encoder(编码器)把原始数据编码成一个较短的向量,再通过encoder把该向量还原成和原始数据等长的向量,并尽可能使的输入和输出向量差异最小,这里采用均方误差(RMSE)或夹角余弦(cosine similarity)来定义向量间的差异,自编码器方法采用了一个深度神经网络来代替人工特征工程,让神经网络直接从原始数据中学习一个好的向量表征方法;
步骤二,将数值型向量接近的URL进行合并,从而实现归一化的目的。
图3为采用实施例1的方法的运行结果,将原始URL输入到LSTM的自编码器中,拿encoder输出的向量作为URL的128维的向量表征,将这些向量投影到3维空间进行可视化,图3中两个点的距离代表这两个URL的距离,距离近代表他们是同一个页面,距离远代表他们是不同的页面。图3的URL,从原始字符来看,差异很大(不同的字符数量多),但模型认为他们距离很接近。可以看出,模型成功把握住了URL的主干部分,而忽略了不重要的随机数部分,保证结果的准确性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种对URL进行归一化的方法,其特征在于,具体步骤如下:
步骤一,将原始的URL通过深度学习方法编码成数值型向量;
步骤二,将数值型向量接近的URL进行合并即可。
2.根据权利要求1所述的对URL进行归一化的方法,其特征在于,所述深度学习方法采用自编码器方法。
3.根据权利要求1所述的对URL进行归一化的方法,其特征在于,所述深度学习方法采用递归神经网络作为基础网络,每个单元都是一个单层或者多层神经网络,每个单元具有完全相同的结构,每个单元的输入是上一个单元的输出以及这一步的字符输入。
4.根据权利要求2所述的对URL进行归一化的方法,其特征在于,所述自编码器方法通过encoder把原始数据编码成一个较短的向量,再通过encoder把该向量还原成和原始数据等长的向量,并使输入和输出向量差异最小。
5.根据权利要求3所述的对URL进行归一化的方法,其特征在于,所述深度学习方法采用长短期记忆网络作为基础网络。
6.根据权利要求5所述的对URL进行归一化的方法,其特征在于,所述长短期记忆网络的自编码器有两个部分,一个部分作为encoder,另一个作为decoder,将URL中每个字符依次传入encoder中,得到一个向量,再将该向量传入decoder中,decoder的输入为上一步输出以及上一步的字符输入。
7.根据权利要求1所述的对URL进行归一化的方法,其特征在于,所述数值型向量为4096维向量。
CN201910560171.2A 2019-06-26 2019-06-26 一种对url进行归一化的方法 Pending CN110298005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910560171.2A CN110298005A (zh) 2019-06-26 2019-06-26 一种对url进行归一化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910560171.2A CN110298005A (zh) 2019-06-26 2019-06-26 一种对url进行归一化的方法

Publications (1)

Publication Number Publication Date
CN110298005A true CN110298005A (zh) 2019-10-01

Family

ID=68028931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910560171.2A Pending CN110298005A (zh) 2019-06-26 2019-06-26 一种对url进行归一化的方法

Country Status (1)

Country Link
CN (1) CN110298005A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380872A (zh) * 2020-11-27 2021-02-19 深圳市慧择时代科技有限公司 一种目标实体的情感倾向确定方法及装置
CN114900546A (zh) * 2022-07-08 2022-08-12 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置、设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102790762A (zh) * 2012-06-18 2012-11-21 东南大学 基于url分类的钓鱼网站检测方法
CN103823892A (zh) * 2014-03-10 2014-05-28 北京奇虎科技有限公司 确定网页聚类模式的方法及装置
CN106294815A (zh) * 2016-08-16 2017-01-04 晶赞广告(上海)有限公司 一种url的聚类方法及装置
CN107273426A (zh) * 2017-05-18 2017-10-20 四川新网银行股份有限公司 一种基于深度语义路径搜索的短文本聚类方法
CN108595453A (zh) * 2017-12-20 2018-09-28 中国联合网络通信集团有限公司 Url标识映射获取方法及装置
CN109101552A (zh) * 2018-07-10 2018-12-28 东南大学 一种基于深度学习的钓鱼网站url检测方法
US20190052656A1 (en) * 2016-08-31 2019-02-14 Cisco Technology, Inc. Automatic detection of network threats based on modeling sequential behavior in network traffic
CN109710760A (zh) * 2018-12-20 2019-05-03 泰康保险集团股份有限公司 短文本的聚类方法、装置、介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102790762A (zh) * 2012-06-18 2012-11-21 东南大学 基于url分类的钓鱼网站检测方法
CN103823892A (zh) * 2014-03-10 2014-05-28 北京奇虎科技有限公司 确定网页聚类模式的方法及装置
CN106294815A (zh) * 2016-08-16 2017-01-04 晶赞广告(上海)有限公司 一种url的聚类方法及装置
US20190052656A1 (en) * 2016-08-31 2019-02-14 Cisco Technology, Inc. Automatic detection of network threats based on modeling sequential behavior in network traffic
CN107273426A (zh) * 2017-05-18 2017-10-20 四川新网银行股份有限公司 一种基于深度语义路径搜索的短文本聚类方法
CN108595453A (zh) * 2017-12-20 2018-09-28 中国联合网络通信集团有限公司 Url标识映射获取方法及装置
CN109101552A (zh) * 2018-07-10 2018-12-28 东南大学 一种基于深度学习的钓鱼网站url检测方法
CN109710760A (zh) * 2018-12-20 2019-05-03 泰康保险集团股份有限公司 短文本的聚类方法、装置、介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RELUQ: "基于机器学习的攻击检测(二)下-lstm实现", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/58732540》 *
黄健翀 等: "基于LSTM自动编码机的短文本聚类方法", 《计算技术与自动化》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380872A (zh) * 2020-11-27 2021-02-19 深圳市慧择时代科技有限公司 一种目标实体的情感倾向确定方法及装置
CN112380872B (zh) * 2020-11-27 2023-11-24 深圳市慧择时代科技有限公司 一种目标实体的情感倾向确定方法及装置
CN114900546A (zh) * 2022-07-08 2022-08-12 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置、设备及可读存储介质
CN114900546B (zh) * 2022-07-08 2022-09-16 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN113094200B (zh) 一种应用程序的故障预测方法和装置
CN109886294A (zh) 知识融合方法、装置、计算机设备和存储介质
CN109062902B (zh) 一种文本语义表达方法及装置
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN112989826B (zh) 基于人工智能的试题分数确定方法、装置、设备及介质
CN107392022A (zh) 爬虫识别、处理方法及相关装置
CN108573041A (zh) 基于加权信任关系的概率矩阵分解推荐方法
CN110298005A (zh) 一种对url进行归一化的方法
CN106844330B (zh) 文章情感的分析方法和装置
WO2022053163A1 (en) Distributed trace anomaly detection with self-attention based deep learning
CN113656547A (zh) 文本匹配方法、装置、设备及存储介质
CN115203550A (zh) 一种增强邻居关系的社交推荐方法及系统
CN113536770B (zh) 基于人工智能的文本解析方法、装置、设备及存储介质
CN106227790A (zh) 一种使用Apache Spark分类与解析海量日志的方法
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN107688594A (zh) 基于社交信息的风险事件的识别系统及方法
CN108921213B (zh) 一种实体分类模型训练方法及装置
CN106383738A (zh) 任务处理方法和分布式计算框架
CN108595453B (zh) Url标识映射获取方法及装置
CN111651191B (zh) 应用于微服务构架的单应用打包方法及系统
CN111177526B (zh) 网络意见领袖识别方法及装置
CN112800043A (zh) 一种物联网终端信息提取方法、装置、设备和存储介质
CN111598105A (zh) 一种专利地图构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191001