CN108228710A

CN108228710A - 一种针对url的分词方法及装置

Info

Publication number: CN108228710A
Application number: CN201711237280.8A
Authority: CN
Inventors: 亚静; 柳厅文; 张盼盼; 李全刚; 时金桥; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-06-29
Anticipated expiration: 2037-11-30
Also published as: CN108228710B

Abstract

本发明涉及一种针对URL的分词方法及装置。该方法包括：1)对URL地址按照其内在的层次结构进行分割，得到若干层次部分；2)对所述若干层次部分依次进行符号分割与正则表达式过滤；3)对步骤2)处理后得到字符串进行分割，得到URL分词序列。其中步骤1)将URL地址分割为五个层次部分：协议类型、自由域名、二级域名、顶级域名和路径；步骤3)利用双向最大匹配算法和概率模型对字符串进行分割。本发明充分利用了URL本身的层次结构，能够高效地对URL进行分割，并最大化地保留了URL地址中的有用信息，得到的URL分词序列可用于网页分类、钓鱼URL检测等任务中的特征分析，能够有效提高任务准确率。

Description

一种针对URL的分词方法及装置

技术领域

本发明涉及网络安全数据的分词技术领域，尤其涉及一种针对URL的分词方法及装置，在保留URL特有层次结构的基础上得到URL字符串的分词序列，其结果可以用于网页分类、钓鱼URL检测等任务中的特征分析。

背景技术

URL是统一资源定位符，是互联网上标准的资源的地址，通过其可实现对信息资源的访问与获取。URL使用ASCII代码的一部分来表示地址，语法是可扩展的，其标准结构如下：

协议类型:[//服务器地址[:端口号]][/路径][？查询][#片段]

大多数URL都包括三个主要部分：协议类型(scheme)、服务器地址(domain)和路径(path)。协议类型部分表明该URL使用的传送协议，网络领域常见的协议是http和https。服务器地址部分通常使用域名或IP地址来指明资源在网络上的位置。域名是IP地址的一种特殊化表示，通过DNS服务可实现其与IP地址之间的映射，通常采用有意义的字符串或者品牌名，便于人们记忆。其中，域名也是一种层次结构，以“.”来分割。路径部分指定资源文件在服务器地址的具体位置，也是一种层次结构，以“/”为分割符分割整个路径。

URL作为网络地址标识，通常包含有与页面资源或主题相关的关键词或者某著名公司的品牌关键词等，方便人们记忆与搜索。通过分析URL中有意义的词语，可实现对相关网页的简单分类。此外，攻击者也常常利用一些混淆词语来伪造URL，欺骗用户，进行钓鱼攻击。因此，对URL进行合理的分词，是具有十分重大的意义的。

目前，分词方法主要分为两大类，一种是针对英文文本的分词方法，基于英文自身的特性，文本中都是带有空格的单词组成，因此对其处理主要是简单的基于单词粒度的；一种是针对中文文本的分词方法，不同于英文文本自身带有空格间隔，中文文本都是无间隔的，其处理粒度是由字到词语组合的。URL地址作为一种使用部分ASCII码来表示的无空格间隔的特殊字符串，既具有英文文本的特征，又具有中文文本的特性，分词时需要考虑多种因素，且目前没有特别针对URL的分词方法及装置。

现有的分词技术具有一定的单一性与局限性，不能准确的对URL地址进行处理。不同于传统自然语言的中英文文本数据，URL地址作为一种特殊的有着层次结构的网络数据，具有其独特的语言特征：单条URL不是完整的句子，长度有限，且通常含有一些特殊字符串，如IP地址、日期、版本号等特殊含义的字段。如果对其分词不当，便会丢失很多其内在信息。同时，目前没有一种特别针对URL的分词方法。

发明内容

本发明的目的在于提供一种针对URL的分词方法及装置，对URL地址进行分词处理，并尽可能地保留其内在信息，其分词结果可用于网页分类、钓鱼URL检测等任务中的特征分析，帮助提高任务准确率。

本发明采用的技术方案如下：

一种针对URL的分词方法，包括以下步骤：

1)对URL地址按照其内在的层次结构进行分割，得到若干层次部分；

2)对所述若干层次部分依次进行符号分割与正则表达式过滤；

3)对步骤2)处理后得到字符串进行分割，得到URL分词序列。

进一步地，步骤1)将URL地址分割为五个层次部分：协议类型、自由域名、二级域名、顶级域名和路径。

进一步地，步骤2)依据RFC 1738规范中的特殊符号对各个层次部分依次进行符号分割，并对具有特定格式的字段进行正则表达式过滤，以清除URL中的非字母字符；所述具有特定格式的字段包括IP地址、日期和连续数字。

进一步地，步骤3)利用双向最大匹配算法和概率模型对字符串进行分割。

一种针对URL的分词装置，包括：

层次分割模块，用于对URL地址按照其内在的层次结构进行分割，得到若干层次部分；

符号分割与正则表达式过滤模块，用于对所述层次分割模块得到的各个层次部分依次进行符号分割与正则表达式过滤；

字符串分割模块，用于对所述符号分割与正则表达式过滤模块处理后的字符串进行分割，得到URL分词序列。

进一步地，所述层次分割模块将URL地址分割为五个层次部分：协议类型、自由域名、二级域名、顶级域名和路径。

进一步地，所述符号分割与正则表达式过滤模块依据RFC 1738规范中的特殊符号对各个层次部分依次进行符号分割，并对具有特定格式的字段进行正则表达式过滤，以清除URL中的非字母字符；所述具有特定格式的字段包括IP地址、日期和连续数字。

进一步地，所述字符串分割模块利用双向最大匹配算法和概率模型对字符串进行分割。

一种服务器，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上面所述方法中各步骤的指令。

一种存储计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被计算机执行时，实现上面所述方法的步骤。

利用本发明提供的方法分割URL地址，得到其分词序列，具有以下优点：

1、本发明是特别针对网络中的URL地址提出的分词处理解决方案，可高效地对URL进行分割。

2、本发明充分利用了URL本身的层次结构，并提供了一种对URL地址进行细粒度划分的五大层次结构，最大化地保留了URL地址中的有用信息，便于后期任务分析。

3、本发明得到的URL分词序列可用于网页分类、钓鱼URL检测等任务中的特征分析，有效提高任务准确率。

附图说明

图1是针对URL的分词方法的流程图。

图2是针对URL的分词方法的实例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体附图对本发明做进一步详细说明。

本发明提供的一种针对URL的分词方法，该方法的流程如图1所示，主要步骤包括：

(1)层次分割，首先对半结构化数据的URL按照其内在的层次结构进行分割，得到五个层次部分；

(2)符号分割与正则表达式过滤，对各个层次部分依次进行，依据特殊符号对其分割，并对其中的具有特定格式的字段，如IP地址、日期、数字等进行正则表达式过滤，进一步清除URL中的非字母字符；

(3)字符串分割，利用双向最大匹配算法和概率模型对剩余的字符串进行分割，得到最终的URL分词序列。

该方法中提到的层次分割，主要是依据URL本身的层次结构，并对其进行进一步细分，保留其本身的层次信息。不同于自然语言文本数据，URL是半结构化的数据，本身就具有一种特殊的层次结构，如上述介绍，主要包含三部分：协议类型(scheme)、服务器地址(domain)和路径(path)。其中，服务器地址中域名又可分为两部分：自由域名(FDN)和注册域名(RDN)，自由域名部分可由域名所有者进行管理与更改，注册域名部分需要域名注册商或域名注册机构管理与分配。注册域名部分可从左到右再进一步划分为二级子域(SLD)与顶级子域(TLD)，顶级子域也称公共后缀，是由注册商或注册机构约束管理，二级子域位于顶级子域之前，由域名登记者定义。在本发明中，URL经过层次分割后最终得到五部分，分别是：URL的协议类型(scheme)、自由域名(FDN)、二级子域(SLD)、顶级子域(TLD)和路径(path)。

该方法中提到的符号分割与正则表达式过滤，主要是依据URL中存在的特殊字符和特殊格式对层次分割后的五部分分别进行分割与过滤。根据RFC 1738中对URL的规范，只有字母和数字[0-9a-zA-Z]、一些特殊符号“-_.～”[不包括双引号]、以及某些保留字，才可以不经过编码直接用于URL。符号分割便是根据这些允许的特殊符号分割URL。此外，URL中可使用IP地址来指明服务器地址，路径部分或FDN部分可包含日期、版本号或连续数字等形式字符串，鉴于IP地址、日期和连续数字具有特定的格式，因而采用正则表达式过滤掉对应的字段并分割URL。考虑到直接过滤掉URL中的日期、版本号或连续数字等特定格式的数据会一定程度上破坏URL原本的结构，而保留原有结构又隐藏了其之间的共性，因此在正则表达式过滤阶段采用固定内容来替换满足正则表达式要求的部分，如IP地址对应于L_ipadd，日期对应于L_time等，尽可能地保留原始URL中的信息。

IP地址的正则表达式可以是：

((？:(？:25[0-5]|2[0-4]\d|((1\d{2})|([1-9]？\d)))\.){3}(？:25[0-5]|2[0-4]\d|((1\d{2})|([1-9]？\d))))

时间2015-12-21 12:21:10的正则表达式可以是：

(\d{4})-(0\d{1}|1[0-2])-(0\d{1}|[12]\d{1}|3[01])(0\d{1}|1\d{1}|2[0-3]):[0-5]\d{1}:([0-5]\d{1})

表1中列出几种常用的正则表达式：

表1常用正则表达式

该方法中提到的字符串分割，主要是对清除掉层次结构和特定格式的URL剩余字符，利用常见的双向最大匹配算法和概率模型对剩余的字符串进行分割，以优化细分URL的分割结果。在对URL进行过上述两种分割后，各个部分剩余的URL子串都是仅有字母组成的。双向最大匹配算法包含两种匹配：正向最大匹配和反向最大匹配，两者都是基于一个预先准备好的词典进行字符串匹配。反向最大匹配算法是从字符串末尾开始的指针读取未分段文本的字符串，检查当前字符串是否是字典中的单词。如果是，插入一个空格并重复该过程。如果不是，指针向右移动一个，字符串长度减小，并重复匹配过程，直至最后剩余一个单字符。如果没有找到单词，则会创建单个字符，即为非词典词，用于表示最终分出的单词。正向最大匹配算法工作类似，但是是从字符串头开始的指针读取。

针对两种分割结果，采用一种由拟合函数实现的概率模型。首先，计算一个词w_i的概率为其中M为词集合大小，为词w_i的数目。然后，针对分词序列如W＝w₁,w2,...w_m，使用拟合函数fit计算分词结果，该概率模型中的拟合函数可测量给定分割的拟合度，以实现对双向最大匹配算法最好分割结果的选择。

本发明得到的分词结果最大化地保留了URL的层次信息及内在有意义的内容，得到的分割后的URL分词序列可用于网页分类、钓鱼URL检测等任务中的特征分析，帮助提高任务准确率。

下面提供一个针对URL的分词实例。该实例构造URL如下，用其实现对URL地址的分词，具体的分词流程如图2所示。

http://67.1.12.3.mansell.tripod.com/games/gameboy.html

1)层次分割，将构造的URL按其本身的层次结构进行分割，得到Scheme、FDN、SLD、TLD和Path五部分，具体的结果如表2所示。

表2层次分割的结果

部分	内容
		Scheme	http
FDN	67.1.12.3.mansell
		SLD	tripod
TLD	com
		Path	games/gameboy.html

2)符号分割与正则表达式过滤，对上述产生的五部分分别进行细分割，Scheme、SLD和TLD三部分不含有特殊符号或IP地址、日期等，不用处理，对FDN进行IP地址“L_ipadd”格式化并分词，对Path进行特殊符号分割，得到结果如表3所示。

表3符号分割与正则表达式过滤的结果

部分	内容
		Scheme	http
FDN	L_ipadd、mansell
		SLD	tripod
TLD	com
		Path	games、/、gameboy、.、html

3)字符串分割，利用双向最大匹配算法和概率模型对剩余字符串进行分割，双向最大匹配算法的步骤如下：

a)给定词典库D，以及需分割的字符串S；

b)先对字符串S进行正向最大匹配，得到分词结果PC；

c)在对字符串S进行反向最大匹配，得到分词结果RC；

d)利用设计的fit函数分别计算PC与RC的概率；

e)如果PC的概率值大于RC，则选择PC的分词结果作为输出；反之，选择RC的分词结果作为输出；

f)当两者的概率值相同时，则选择两者中分词序列中分词个数较少的分词结果。

得到的具体结果如表4所示。

表4字符串分割的结果

部分	内容
		Scheme	http
FDN	L_ipadd、man、sell
		SLD	tripod
TLD	com
		Path	games、/、game、boy、.、html

最终得到的URL分词序列如下：

(′http′),′L′_ipadd,′man′,′sell′),(′tripod′),(′com′),′games′,′/′,′game′,′boy′,′.′,′html′)

本发明另一实施例提供一种针对URL的分词装置，其包括：

所述层次分割模块将URL地址分割为五个层次部分：协议类型、自由域名、二级域名、顶级域名和路径。所述符号分割与正则表达式过滤模块依据RFC 1738规范中的特殊符号对各个层次部分依次进行符号分割，并对具有特定格式的字段进行正则表达式过滤，以清除URL中的非字母字符；所述具有特定格式的字段包括IP地址、日期和连续数字。所述字符串分割模块利用双向最大匹配算法和概率模型对字符串进行分割。

本发明另一实施例提供一种服务器，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上面所述方法中各步骤的指令。

本发明另一实施例提供一种存储计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时，实现上面所述方法的步骤。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种针对URL的分词方法，其特征在于，包括以下步骤：

3)对步骤2)处理后得到字符串进行分割，得到URL分词序列。

2.如权利要求1所述的方法，其特征在于，步骤1)将URL地址分割为五个层次部分：协议类型、自由域名、二级域名、顶级域名和路径。

3.如权利要求1所述的方法，其特征在于，步骤2)依据RFC 1738规范中的特殊符号对各个层次部分依次进行符号分割，并对具有特定格式的字段进行正则表达式过滤，以清除URL中的非字母字符；所述具有特定格式的字段包括IP地址、日期和连续数字。

4.如权利要求1所述的方法，其特征在于，步骤3)利用双向最大匹配算法和概率模型对字符串进行分割。

5.如权利要求4所述的方法，其特征在于，所述概率模型首先计算一个词w_i的概率为其中M为词集合大小，为词w_i的数目；然后针对分词序列W＝w₁,w₂,...w_m，使用拟合函数fit计算分词结果，通过该拟合函数测量给定分割的拟合度，以实现对双向最大匹配算法最好分割结果的选择。

6.一种针对URL的分词装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述层次分割模块将URL地址分割为五个层次部分：协议类型、自由域名、二级域名、顶级域名和路径。

8.如权利要求6所述的装置，其特征在于，所述符号分割与正则表达式过滤模块依据RFC1738规范中的特殊符号对各个层次部分依次进行符号分割，并对具有特定格式的字段进行正则表达式过滤，以清除URL中的非字母字符；所述具有特定格式的字段包括IP地址、日期和连续数字。

9.如权利要求6所述的装置，其特征在于，所述字符串分割模块利用双向最大匹配算法和概率模型对字符串进行分割。

10.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至5中任一权利要求所述方法中各步骤的指令。

11.一种存储计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被计算机执行时，实现权利要求1至5中任一权利要求所述方法的步骤。