CN104573033A - 一种动态url过滤方法及装置 - Google Patents

一种动态url过滤方法及装置 Download PDF

Info

Publication number
CN104573033A
CN104573033A CN201510020876.7A CN201510020876A CN104573033A CN 104573033 A CN104573033 A CN 104573033A CN 201510020876 A CN201510020876 A CN 201510020876A CN 104573033 A CN104573033 A CN 104573033A
Authority
CN
China
Prior art keywords
url
setting
character string
dynamic
numerical value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510020876.7A
Other languages
English (en)
Other versions
CN104573033B (zh
Inventor
钮艳
易立
段东圣
赵淳璐
鲁睿
刘晓辉
王晶
翟羽佳
潘进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201510020876.7A priority Critical patent/CN104573033B/zh
Publication of CN104573033A publication Critical patent/CN104573033A/zh
Application granted granted Critical
Publication of CN104573033B publication Critical patent/CN104573033B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出了一种动态URL过滤方法及装置,该方法包括:基于URL标注集创建信息字典;针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵;对URL特征矩阵进行分类得到特征权重向量和二分类阈值;基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特征生成所述待预测的URL的特征向量;将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。本发明可以离线处理,不需要访问网络、减少了存储,比较节省处理时间和计算资源。

Description

一种动态URL过滤方法及装置
技术领域
本发明涉及URL过滤技术领域,尤其涉及一种动态URL过滤方法及装置。
背景技术
2014年1月16日,中国互联网络信息中心(CNNIC)在京发布第33次《中国互联网络发展状况统计报告》。《报告》显示,截至2013年12月,中国网民规模达6.18亿,互联网普及率为45.8%。其中,手机网民规模达5亿,继续保持稳定增长。随之而存在的是每天上网活动产生的大量数据,这里面浏览网页占了绝大部分的比重,也就是说http(hypertext transfer protocol,超文本传送协议)的承载量很大。随之必然会有大规模的URL存在。但是,其中往往有意义的URL只是一部分。有一定数量的URL(Uniform Resource Locator,统一资源定位器)已经不能再访问,比例约20%。在能访问的URL集合里面也只是关心静态部分的URL,因为占比约15%的动态URL的内容会发生变化。因此,对动态URL的过滤很有必要性。
传统的对动态URL进行过滤的方法是基于对网页内容变化进行判断的,具体是先对URL进行一次访问,判断出它是否能被访问,然后对能访问的URL进行两次访问,对其页面内容进行MD5值转换。然后对两次的MD5值进行比较。如果两次内容的MD5值相同,那么该URL就是静态URL,否则认为该URL是动态URL。但是此种方法的速度比较慢,过程比较长,而且比较耗资源。因此,需要寻找一种更好更快速的方法来进行分类。
发明内容
本发明要解决的技术问题是,提供一种动态URL过滤方法及装置,在节省资源消耗的同时提高处理的速度。
本发明采用的技术方案是,所述动态URL过滤方法,包括:
基于URL标注集创建信息字典,所述信息字典的内容包括两种类型:字符串特征和统计特征;
针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵;
采用分类算法对URL特征矩阵进行分类得到特征权重向量和二分类阈值;
基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特征生成所述待预测的URL的特征向量;
将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。
进一步的,所述统计特征至少包括以下各项之一的归一化数值:设定的标点符号出现次数、路径深度、域名和/或路径中的数字个数、域名和/或路径中的最长字符串长度、后缀长度、数字与字符之间的转换频次;
所述字符串特征是指设定的字符串在URL中是否出现的量化信息,所述设定的字符串的获取过程包括:至少采用设定的停用词对URL中的词进行划分得到设定的字符串,所述设定的停用词包括:“%”、“,”和“;”。
进一步的,设定的标点符号出现次数的归一化数值的确定方式是:先计算该设定的标点符号在各URL中出现的次数,找出出现该设定的标点符号的次数最多的URL,然后相对于该最多的出现次数,将所有URL中的出现次数进行归一化后得到每个URL中的该设定的标点符号的统计特征,经过归一化后,任一URL的该设定的标点符号的统计特征的数值均在0~1范围内;
后缀长度的归一化数值的确定方式是:先计算各URL的后缀长度,然后找出具备最长后缀长度的URL,再计算出各URL的后缀长度与最长后缀长度的比值即得到归一化后的每个URL中的后缀长度的归一化数值,任一URL的后缀长度的归一化数值均在0~1范围内。
进一步的,针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,包括:
针对URL标注集中的每一个URL,确定该URL中的字符串特征和统计特征;
将该URL中的字符串特征和统计特征组成该URL的特征向量。
进一步的,所述分类算法,包括:线性逻辑回归分类算法、朴素贝叶斯算法或者支持向量机算法。
本发明还提供一种动态URL过滤装置,包括:
训练模块,用于基于URL标注集创建信息字典,所述信息字典的内容包括两种类型:字符串特征和统计特征;针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵;采用分类算法对URL特征矩阵进行分类得到特征权重向量和二分类阈值;
预测模块,用于基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特征生成所述待预测的URL的特征向量;将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。
进一步的,所述统计特征至少包括以下各项之一的归一化数值:设定的标点符号出现次数、路径深度、域名和/或路径中的数字个数、域名和/或路径中的最长字符串长度、后缀长度、数字与字符之间的转换频次;
所述字符串特征是指设定的字符串在URL中是否出现的量化信息,所述设定的字符串的获取过程包括:至少采用设定的停用词对URL中的词进行划分得到设定的字符串,所述设定的停用词包括:“%”、“,”和“;”。
进一步的,所述训练模块,用于按照如下方式确定设定的标点符号出现次数的归一化数值:先计算该设定的标点符号在各URL中出现的次数,找出出现该设定的标点符号的次数最多的URL,然后相对于该最多的出现次数,将所有URL中的出现次数进行归一化后得到每个URL中的该设定的标点符号的统计特征,经过归一化后,任一URL的该设定的标点符号的统计特征的数值均在0~1范围内;
所述训练模块,用于按照如下方式确定后缀长度的归一化数值:先计算各URL的后缀长度,然后找出具备最长后缀长度的URL,再计算出各URL的后缀长度与最长后缀长度的比值即得到归一化后的每个URL中的后缀长度的归一化数值,任一URL的后缀长度的归一化数值均在0~1范围内。
进一步的,所述训练模块,用于针对URL标注集中的每一个URL,确定该URL中的字符串特征和统计特征;
将该URL中的字符串特征和统计特征组成该URL的特征向量。
进一步的,所述分类算法,包括:线性逻辑回归分类算法、朴素贝叶斯算法或者支持向量机算法。
采用上述技术方案,本发明至少具有下列优点:
本发明所述动态URL过滤方法及装置,相比于传统的方法,可以离线处理,不需要访问网络、减少了存储,比较节省处理时间和计算资源。且在采用线性逻辑回归分类算法时具有更快的处理速度。
附图说明
图1为本发明第一实施例的动态URL过滤方法流程图;
图2为本发明第二实施例的动态URL过滤装置组成结构示意图;
图3为本发明第三实施例的分类过程的流程示意图;
图4(a)~(h)分别为本发明第三实施例的区分动态网页和静态网页的8个新特征的比例分析示意图;
图5为本发明第三实施例的基于域名和路径中的特征的向量表示示意图;
图6为本发明第三实施例的三种同分类算法的识别结果比较示意图;
图7为本发明第三实施例的三种同分类算法的时间性能比较示意图。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
本发明第一实施例,一种动态URL过滤方法,如图1所示,包括以下具体步骤:
步骤S101,基于URL标注集创建信息字典,所述信息字典的内容包括两种类型:字符串特征和统计特征。
具体的,所述统计特征和所述字符串特征均来源于URL标注集中的所有URL,所述统计特征至少包括以下各项之一的归一化数值:设定的标点符号出现次数、路径深度、域名和/或路径中的数字个数、域名和/或路径中的最长字符串长度、后缀长度、数字与字符之间的转换频次。比如:设定的标点符号出现次数的归一化数值的确定方式是:先计算该设定的标点符号在各URL中出现的次数,找出出现该设定的标点符号的次数最多的URL,然后相对于该最多的出现次数,将所有URL中的出现次数进行归一化后得到每个URL中的该设定的标点符号的归一化数值,经过归一化后,任一URL的该设定的标点符号的归一化数值均在0~1范围内。同理,域名和/或路径中的数字个数、数字与字符之间的转换频次等的归一化数值的确定过程也与此类似。
后缀长度的归一化数值的确定方式是:先计算各URL的后缀长度,然后找出具备最长后缀长度的URL,再计算出各URL的后缀长度与最长后缀长度的比值即得到归一化后的每个URL中的后缀长度的归一化数值,任一URL的后缀长度的归一化数值均在0~1范围内。同理,路径深度、域名和/或路径中的最长字符串长度等的归一化数值的确定过程也与此类似。
所述字符串特征是指设定的字符串在URL中是否出现的量化信息,比如:设定的字符串在URL中是否出现对应的量化信息1或者0,所述设定的字符串的获取过程包括:至少采用设定的停用词对URL中的词进行划分得到设定的字符串,所述设定的停用词包括:“%”、“,”和“;”。
步骤S102,针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵。
具体的,在步骤S102中生成对应的特征向量的过程,包括:
A1:针对URL标注集中的每一个URL,确定该URL中的字符串特征和统计特征;
A2:将该URL中的字符串特征和统计特征组成该URL的特征向量。
步骤S103,采用分类算法对URL特征矩阵进行分类得到特征权重向量和二分类阈值。
具体的,所述分类算法,包括:线性逻辑回归分类算法、朴素贝叶斯算法或者支持向量机算法。优选的,本实施例中的分类算法为线性逻辑回归分类算法。
步骤S104,基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特征生成所述待预测的URL的特征向量。
步骤S105,将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。比如,当目标数值大于二分类阈值时判定待预测的URL是动态URL,否则判定待预测的URL为静态URL,或者相反。二分类阈值的产生是与特征权重向量对应的,二者需要在一次分类判断过程中配合使用。
本发明第二实施例,与第一实施例对应,本实施例介绍一种动态URL过滤装置,如图2所示,包括以下组成部分:
1)训练模块100,用于基于URL标注集创建信息字典,所述信息字典的内容包括两种类型:字符串特征和统计特征;针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵;采用分类算法对URL特征矩阵进行分类得到特征权重向量和二分类阈值;
2)预测模块200,用于基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特征生成所述待预测的URL的特征向量;将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。
具体的,所述统计特征和所述字符串特征均来源于URL标注集中的所有URL,所述统计特征至少包括以下各项之一的归一化数值:设定的标点符号出现次数、路径深度、域名和/或路径中的数字个数、域名和/或路径中的最长字符串长度、后缀长度、数字与字符之间的转换频次。
训练模块100,用于按照如下方式确定设定的标点符号出现次数的归一化数值:先计算该设定的标点符号在各URL中出现的次数,找出出现该设定的标点符号的次数最多的URL,然后相对于该最多的出现次数,将所有URL中的出现次数进行归一化后得到每个URL中的该设定的标点符号的统计特征,经过归一化后,任一URL的该设定的标点符号的统计特征的数值均在0~1范围内。同理,域名和/或路径中的数字个数、数字与字符之间的转换频次等的归一化数值的确定过程也与此类似。
训练模块100,用于按照如下方式确定后缀长度的归一化数值:先计算各URL的后缀长度,然后找出具备最长后缀长度的URL,再计算出各URL的后缀长度与最长后缀长度的比值即得到归一化后的每个URL中的后缀长度的归一化数值,任一URL的后缀长度的归一化数值均在0~1范围内。同理,路径深度、域名和/或路径中的最长字符串长度等的归一化数值的确定过程也与此类似。
所述字符串特征是指设定的字符串在URL中是否出现的量化信息,比如:设定的字符串在URL中是否出现对应的量化信息1或者0,所述设定的字符串的获取过程包括:至少采用设定的停用词对URL中的词进行划分得到设定的字符串,所述设定的停用词包括:“%”、“,”和“;”。
进一步的,训练模块100,用于针对URL标注集中的每一个URL,确定该URL中的字符串特征和统计特征;将该URL中的字符串特征和统计特征组成该URL的特征向量。
本实施例中预测模块200所采用的分类算法,包括:线性逻辑回归分类算法、朴素贝叶斯算法或者支持向量机算法。优选的,分类算法为线性逻辑回归分类算法。
本发明第三实施例,本实施例是在上述实施例的基础上,以采用线性逻辑回归分类算法对URL集合进行动态静态分类为例,结合附图3~7介绍一个本发明的应用实例。
与传统用MD5值对静/动态URL进行分类的方法不同,本发明应用实例是基于线性逻辑回归分类算法和新的特征集对URL进行分类。整个分类过程的流程如图3所示。
在本发明应用实例中,将线性逻辑回归分类算法应用于解决动态URL过滤问题。此外,本发明虽然沿用逻辑回归进行分类的思路,但在此基础上该算法的特征提取步骤进行了改进,主要发掘并使用了多个新的特征。
下面将从新特征的发掘和线性逻辑回归分类器(即线性逻辑回归算法的执行模块)两方面对本发明应用实例的内容进行进一步介绍。
1)新的统计特征的发掘。通过分析静态和动态网页,总结出6类动态网页的6类统计特征(包含8个统计特征)以便有效识别动态网页,如下:
a.特殊标点符号出现次数。标点是帮助读者准确理解书面语言的一种符号。一些标点符号常常在静态URL和动态URL中出现,例如分号(:),句号(.)和问号(?)等。这类标点符号具有一定意义,并且常常出现在URL的固定位置。但有些标点符号,例如下划线(_),连接符(-),百分号(%)等,并不经常出现在静态URL中。在URL训练集中,具备不同数量的下划线的静态URL和动态URL在所有URL中的比例如图4(a)所示,具备不同数量的连字符的静态URL和动态URL在所有URL中的比例如图4(b)所示、具备不同数量的百分号的静态URL和动态URL在所有URL中的比例如图4(c)所示,相比静态网页,这些标点符号出现在动态网页中的频次更大。
b.路径深度。动态网页隐藏在目标站点很深的路径下面。在URL训练集中,具备不同路径深度的静态URL和动态URL在所有URL中的比例如图4(d)所示,相比静态网页,动态网页往往包含更多的“/”。
c.域名和/或路径中的数字个数。通过引入数字个数作为特征,可以有效识别动态网页。在域名和/或路径中,具备不同数字个数的静态URL和动态URL在所有URL中的比例如图4(e)所示,其中对比了动态网页和静态网页中数字个数的分布情况。
d.域名和/或路径中的最长字符串长度。在域名和/或路径中,具备不同最长字符串长度的静态URL和动态URL在所有URL中的比例如图4(f)显示,动态网页的最长字符串长度通常长于静态网页。
e.后缀长度。在静态网页中,后缀通常描述了资源的类型。但是对于动态网页而言则不同,动态网页可能没有后缀,如果有,也只可能是.DAS或者是.THP。在URL训练集中,具备不同后缀长度的静态URL和动态URL在所有URL中的比例如图4(g)显示,动态网页和静态网页的后缀长度有所不同。
f.数字与字符之间的转换频次。从目的来看,静态网页的网址主要用于帮助人们定位资源,数字与字符之间的转换频次较少,而动态网址的数字与字符之间的转换频次较多。如图4(h)所示,静态网页和动态网页的转换频次有所区别。
上述8个统计特征均需要在URL训练集中归一化后使用,上述统计特征归一化后的数值均在0~1的范围内。
除了这些新特征外,本发明应用实例还引入了一些新的停用词。在运用线性逻辑回归方法进行分类的工作中,通常是以“/”,“?”,“.”,“=”,“-”或者“_”将网址分隔为不同的字符串。从这个思路出发,本发明应用实例引入了一些新的停用词,如“%”,“,”和“;”。这些停用词能够有效地提高字符串的区分度,划分出更多的字符串,从而达到网页分类更准确的目的。
2)下面简单介绍逻辑回归的概念。
逻辑回归(LR,Logistic Regression)是一种常见的用于二分类问题的分类算法,由图3中的线性逻辑回归分类器来执行。
本发明应用实例的动态URL分类过程包括以下四个步骤:
步骤1、创建字典(类似于第一、二实施例中的信息字典)。创建的字典总共包含两部分内容,一部分是统计特征,另一部分是字符串特征。统计信息主要包括URL的长度、某些符号出现的次数、域名中的一些信息等,其中,既包含现有特征,也包含本应用实例前面部分介绍的8种统计特征。字符串信息就是被符号分隔开的字符串。
步骤2、提取特征。特征提取主要是用每一个URL根据字典形成一个向量,进而形成矩阵的过程。在提取特征中,当某一字符串在字典中能查找到时,就在相应的维数上给其赋值1,否则赋值0,图5为一个基于域名和路径中的特征的向量表示的示例,从域名中解析出IP地址、主机地址、TTL时间等现有的特征,通过判断其有无,在向量中填充1或0,从路径中根据停用词区分出字符串volumn、home、shtml,分别通过判断其有无,在向量中填充1或0。这样,通过特征提取,本应用实例将网页信息转化为向量。
步骤3、训练模型。由上一步得到的特征矩阵经过线性逻辑回归分类器处理得到分类模型,该分类模型包括:特征权重向量和二分类阈值。
步骤4、进行预测。根据分类模型对待预测的URL集合中的每个一个URL进行预测。并在预测之后得到其为静态URL或者动态URL的预测结果。
上述的步骤2是整个过程的核心,对于特征的选取直接影响着整个分类精度及效果的好坏。
本应用实例还可以通过下面的方法来验证技术效果:一是证明新特征的有效性。二是检验基于线性逻辑回归分类器在动态URL过滤问题上的有效性。
首先,用F-score对特征进行评价,观察新特征的有效性。
采用F-score计算方法对特征进行评价。F-score是一个重要的评价标准,广泛应用于机器学习领域。通常认为,F-score得分高的特征对正负例子(即两种判断结果,在本应用实例中是静态URL和动态URL)的区分度更高。
如表1、表2所示,新特征是有效的。
表1分类器中所使用的特征及对应符号表示
表2分类器中特征的F-score排名
其次,检验线性逻辑回归分类器的有效性。
图6、图7比较了在均引入了新的统计特征的情况下三种分类算法的准确性和时间性能。图6中的F-1值=2×准确率×查全率/(准确率+查全率),可见采用线性逻辑回归分类算法的F-1值最高,且训练时间并不最长、而识别时间却非常短,因此,在同样都引入了新的统计特征的情况下,采用线性逻辑回归分类算法的技术方案所得到的技术效果,相较于其他两种分类算法而言最优。
相比于传统的方法,线性逻辑回归分类器有更快的处理速度、可以离线处理,不需要访问网络、减少了存储,比较节省资源。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。

Claims (10)

1.一种动态URL过滤方法,其特征在于,包括:
基于URL标注集创建信息字典,所述信息字典的内容包括两种类型:字符串特征和统计特征;
针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵;
采用分类算法对URL特征矩阵进行分类得到特征权重向量和二分类阈值;
基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特征生成所述待预测的URL的特征向量;
将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。
2.根据权利要求1所述的动态URL过滤方法,其特征在于,所述统计特征至少包括以下各项之一的归一化数值:设定的标点符号出现次数、路径深度、域名和/或路径中的数字个数、域名和/或路径中的最长字符串长度、后缀长度、数字与字符之间的转换频次;
所述字符串特征是指设定的字符串在URL中是否出现的量化信息,所述设定的字符串的获取过程包括:至少采用设定的停用词对URL中的词进行划分得到设定的字符串,所述设定的停用词包括:“%”、“,”和“;”。
3.根据权利要求2所述的动态URL过滤方法,其特征在于,设定的标点符号出现次数的归一化数值的确定方式是:先计算该设定的标点符号在各URL中出现的次数,找出出现该设定的标点符号的次数最多的URL,然后相对于该最多的出现次数,将所有URL中的出现次数进行归一化后得到每个URL中的该设定的标点符号的统计特征,经过归一化后,任一URL的该设定的标点符号的统计特征的数值均在0~1范围内;
后缀长度的归一化数值的确定方式是:先计算各URL的后缀长度,然后找出具备最长后缀长度的URL,再计算出各URL的后缀长度与最长后缀长度的比值即得到归一化后的每个URL中的后缀长度的归一化数值,任一URL的后缀长度的归一化数值均在0~1范围内。
4.根据权利要求1所述的动态URL过滤方法,其特征在于,针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,包括:
针对URL标注集中的每一个URL,确定该URL中的字符串特征和统计特征;
将该URL中的字符串特征和统计特征组成该URL的特征向量。
5.根据权利要求1~4中任一项所述的动态URL过滤方法,其特征在于,所述分类算法,包括:线性逻辑回归分类算法、朴素贝叶斯算法或者支持向量机算法。
6.一种动态URL过滤装置,其特征在于,包括:
训练模块,用于基于URL标注集创建信息字典,所述信息字典的内容包括两种类型:字符串特征和统计特征;针对URL标注集中的每一个URL,根据所述信息字典生成对应的特征向量,由URL标注集中所有的URL对应的特征向量组成特征矩阵;采用分类算法对URL特征矩阵进行分类得到特征权重向量和二分类阈值;
预测模块,用于基于所述信息字段对待预测的URL进行特征提取,并基于提取出的特征生成所述待预测的URL的特征向量;将所述待预测的URL的特征向量与所述特征权重向量对应相乘后相加得到目标数值,将目标数值与二分类阈值相比较以判断所述待预测的URL是动态URL还是静态URL。
7.根据权利要求6所述的动态URL过滤装置,其特征在于,所述统计特征至少包括以下各项之一的归一化数值:设定的标点符号出现次数、路径深度、域名和/或路径中的数字个数、域名和/或路径中的最长字符串长度、后缀长度、数字与字符之间的转换频次;
所述字符串特征是指设定的字符串在URL中是否出现的量化信息,所述设定的字符串的获取过程包括:至少采用设定的停用词对URL中的词进行划分得到设定的字符串,所述设定的停用词包括:“%”、“,”和“;”。
8.根据权利要求7所述的动态URL过滤装置,其特征在于,所述训练模块,用于按照如下方式确定设定的标点符号出现次数的归一化数值:先计算该设定的标点符号在各URL中出现的次数,找出出现该设定的标点符号的次数最多的URL,然后相对于该最多的出现次数,将所有URL中的出现次数进行归一化后得到每个URL中的该设定的标点符号的统计特征,经过归一化后,任一URL的该设定的标点符号的统计特征的数值均在0~1范围内;
所述训练模块,用于按照如下方式确定后缀长度的归一化数值:先计算各URL的后缀长度,然后找出具备最长后缀长度的URL,再计算出各URL的后缀长度与最长后缀长度的比值即得到归一化后的每个URL中的后缀长度的归一化数值,任一URL的后缀长度的归一化数值均在0~1范围内。
9.根据权利要求6所述的动态URL过滤装置,其特征在于,所述训练模块,用于针对URL标注集中的每一个URL,确定该URL中的字符串特征和统计特征;
将该URL中的字符串特征和统计特征组成该URL的特征向量。
10.根据权利要求6~9中任一项所述的动态URL过滤装置,其特征在于,所述分类算法,包括:线性逻辑回归分类算法、朴素贝叶斯算法或者支持向量机算法。
CN201510020876.7A 2015-01-15 2015-01-15 一种动态url过滤方法及装置 Expired - Fee Related CN104573033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510020876.7A CN104573033B (zh) 2015-01-15 2015-01-15 一种动态url过滤方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510020876.7A CN104573033B (zh) 2015-01-15 2015-01-15 一种动态url过滤方法及装置

Publications (2)

Publication Number Publication Date
CN104573033A true CN104573033A (zh) 2015-04-29
CN104573033B CN104573033B (zh) 2017-12-19

Family

ID=53089095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510020876.7A Expired - Fee Related CN104573033B (zh) 2015-01-15 2015-01-15 一种动态url过滤方法及装置

Country Status (1)

Country Link
CN (1) CN104573033B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330010A (zh) * 2017-06-14 2017-11-07 北京知道未来信息技术有限公司 一种基于机器学习的后台路径爆破方法
CN107741959A (zh) * 2017-09-21 2018-02-27 北京知道未来信息技术有限公司 一种基于机器学习的伪静态url识别方法及系统
CN107807987A (zh) * 2017-10-31 2018-03-16 广东工业大学 一种字符串分类方法、系统及一种字符串分类设备
CN108595453A (zh) * 2017-12-20 2018-09-28 中国联合网络通信集团有限公司 Url标识映射获取方法及装置
CN109993184A (zh) * 2017-12-30 2019-07-09 华为技术有限公司 一种数据融合的方法以及数据融合设备
CN111368227A (zh) * 2018-12-25 2020-07-03 阿里巴巴集团控股有限公司 一种url处理方法以及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
US8326862B2 (en) * 2011-05-01 2012-12-04 Alan Mark Reznik Systems and methods for facilitating enhancements to search engine results
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
US8326862B2 (en) * 2011-05-01 2012-12-04 Alan Mark Reznik Systems and methods for facilitating enhancements to search engine results
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330010A (zh) * 2017-06-14 2017-11-07 北京知道未来信息技术有限公司 一种基于机器学习的后台路径爆破方法
CN107330010B (zh) * 2017-06-14 2020-10-16 北京知道未来信息技术有限公司 一种基于机器学习的后台路径爆破方法
CN107741959A (zh) * 2017-09-21 2018-02-27 北京知道未来信息技术有限公司 一种基于机器学习的伪静态url识别方法及系统
CN107807987A (zh) * 2017-10-31 2018-03-16 广东工业大学 一种字符串分类方法、系统及一种字符串分类设备
CN107807987B (zh) * 2017-10-31 2021-07-02 广东工业大学 一种字符串分类方法、系统及一种字符串分类设备
US11463476B2 (en) 2017-10-31 2022-10-04 Guangdong University Of Technology Character string classification method and system, and character string classification device
CN108595453A (zh) * 2017-12-20 2018-09-28 中国联合网络通信集团有限公司 Url标识映射获取方法及装置
CN108595453B (zh) * 2017-12-20 2020-09-01 中国联合网络通信集团有限公司 Url标识映射获取方法及装置
CN109993184A (zh) * 2017-12-30 2019-07-09 华为技术有限公司 一种数据融合的方法以及数据融合设备
CN111368227A (zh) * 2018-12-25 2020-07-03 阿里巴巴集团控股有限公司 一种url处理方法以及装置
CN111368227B (zh) * 2018-12-25 2023-06-27 阿里巴巴集团控股有限公司 一种url处理方法以及装置

Also Published As

Publication number Publication date
CN104573033B (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
CN104573033A (zh) 一种动态url过滤方法及装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN104750754A (zh) 网站所属行业的分类方法和服务器
CN110602045B (zh) 一种基于特征融合和机器学习的恶意网页识别方法
CN105912716A (zh) 一种短文本分类方法及装置
CN105279277A (zh) 知识数据的处理方法和装置
CN109391706A (zh) 基于深度学习的域名检测方法、装置、设备和存储介质
CN106202124A (zh) 网页分类方法及装置
CN104361037B (zh) 微博分类方法及装置
CN105740404A (zh) 标签关联方法及装置
CN102253937A (zh) 获取网页中的感兴趣信息的方法及相关装置
CN111163072B (zh) 机器学习模型中特征值的确定方法、装置及电子设备
CN109558587B (zh) 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN106528777A (zh) 跨屏用户标识归一的方法及其系统
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN102622553A (zh) 检测网页安全的方法及装置
CN106294535A (zh) 网站的识别方法和装置
CN110781673B (zh) 文档验收方法、装置、计算机设备及存储介质
Garcia-Gasulla et al. Evaluating link prediction on large graphs
CN111177719A (zh) 地址类别判定方法、装置、计算机可读存储介质及设备
CN102902794B (zh) 网页分类系统及方法
CN104765882A (zh) 一种基于网页特征字符串的互联网网站统计方法
CN111694967A (zh) 属性抽取方法、装置、电子设备及介质
CN102902790A (zh) 网页分类系统及方法
CN106156107B (zh) 一种新闻热点的发现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171219

Termination date: 20210115