CN107798080A

CN107798080A - 一种面向钓鱼url检测的相似样本集构造方法

Info

Publication number: CN107798080A
Application number: CN201710952357.3A
Authority: CN
Inventors: 时金桥; 亚静; 柳厅文; 舒晓波; 张振宇; 张盼盼; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2018-03-13
Anticipated expiration: 2037-10-13
Also published as: CN107798080B

Abstract

本发明提供一种面向钓鱼URL检测的相似样本集构造方法，其步骤包括：提取已知样本集中的若干钓鱼URL分割为单词序列；以单词序列为列，网络钓鱼URL为行构造URL单词矩阵；从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词；以特征词为关键词搜索URL，并验证搜索到的URL是否正常，如是，则添加至训练样本集。构造与钓鱼URL强相似的正常URL，而不是从公开平台随机选取合法URL作为训练样本。不依赖于任何先验知识，可以得到与已知钓鱼URL相近的正常URL训练样本集。从而，解决背景技术中提到的机器学习或深度学习的训练样本两极分化十分严重的问题。

Description

一种面向钓鱼URL检测的相似样本集构造方法

技术领域

本发明涉及信息安全领域，尤其涉及一种面向钓鱼URL检测的相似样本集构造方法。

背景技术

网络钓鱼是一种在线身份伪造的欺诈方式，使用社会工程学和技术伪装等攻击手段骗取用户信任，诱导用户主动提供个人资料，从而获得用户身份信息等敏感数据。随着电子商务等技术的快速发展，网络钓鱼的危害逐年增加，反网络钓鱼已经成为当今学术界和工业界的热点话题，钓鱼网站检测对净化网络交易环境，保护用户数据和金融安全有着极其重要的意义。

目前，钓鱼网站检测方法可以被分为两种：一种是基于爬虫的检测方法，使用网络爬虫抓取大量与待检测网站相关的数据，根据返回数据判断待检测网站的类型，由于需要爬取和聚合网站的大量信息，所以这种检测方法开销很大并且很难达到实时性的检测要求。另一种是基于URL的检测方法，通过提取一系列URL词法和统计特征，使用机器学习或者深度学习的方法完成对钓鱼网站的检测，这也是当前业界比较流行的技术。无论使用何种检测方法，都需要用标注好的样本集训练检测模型，来检测未知URL的状态。

随着互联网技术的发展，网络钓鱼的犯罪成本越来越低，基于URL的检测方法面临的最大问题是用于机器学习或者深度学习的训练样本两极分化现象十分严重。当前钓鱼网站样本主要来自于PhishTank等著名的黑名单列表，而正常网站样本则是来自于DMOZ或者Alexa排名靠前的网站。这样一来，钓鱼网站和正常网站的相似性极低，但是在实际环境中，攻击者往往会试图伪造和正常URL相似的钓鱼URL，因此，已有方法中用的训练样本由于相似性较低，往往造成过拟合的现象，训练好的模型不适合实际网络环境中的钓鱼检测。

发明内容

针对上述现有技术存在的不足，本发明的目的在于提供一种面向钓鱼URL检测的相似样本集构造方法，构造与钓鱼URL强相似的正常URL，而不是从公开平台随机选取合法URL作为训练样本。不依赖于任何先验知识，可以得到与已知钓鱼URL相近的正常URL训练样本集。从而，解决背景技术中提到的机器学习或深度学习的训练样本两极分化十分严重的问题。

为实现上述目的，本发明采用的技术方案是：

一种面向钓鱼URL检测的相似样本集构造方法，其步骤包括：

提取已知样本集中的若干钓鱼URL分割为单词序列；

以单词序列为列，网络钓鱼URL为行构造URL单词矩阵；

从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词；

以特征词为关键词搜索URL，并验证搜索到的URL是否正常，如是，则添加至训练样本集。

进一步地，所述分割为单词序列包括按照钓鱼URL的结构将其分割为Scheme、FDN、SLD、TLD和Path五段；

去掉Scheme段和TLD段，对剩余部分去除特殊符号，基于词典匹配的方式得到该钓鱼URL的单词序列。

进一步地，所述URL单词矩阵的输入为URL的单词序列，输出为含有所有输入的URL信息的单词矩阵，URL单词矩阵中的每一行表示一个钓鱼URL，每一列表示一个单词序列中的单词，矩阵中的值表示当前单词在对应钓鱼URL中出现的次数。

进一步地，从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词包括：根据URL单词矩阵选择能够覆盖前述若干URL的尽可能少的单词作为特征词。

进一步地，依据最小集合覆盖方式使用动态规划的策略选择单词作为特征词。

进一步地，以特征词为关键词搜索URL包括：通过搜索引擎中的“inurl:”运算符搜索含有前述特征词的URL。

进一步地，对以每个特征词的关键词的搜索结果根据PageRank算法返回的前N条URL进行验证。

进一步地，所述N的取值范围为60至200。优选100。

进一步地，所述验证搜索到的URL是否正常包括：逐条对对以每个特征词的关键词的搜索得到的URL通过多个URL检测器进行检验；如果被测URL被所有URL检测器判断为“clean site”，就认定该URL是正常的。

通过采取上述方法构造面向钓鱼URL检测的相似样本，不需要任何先验知识，就可以得到大量用于训练钓鱼URL检测模型的相似样本集。解决了在使用机器学习进行钓鱼URL检测时，训练数据两极分化十分严重的问题，构造出的正常URL和真实的钓鱼URL在形式上十分相似。此外，该方法使用URL分词、矩阵构造及特征词选择步骤保证构造的正常URL和真实钓鱼URL的之间强相似性，使用URL获取和URL检验步骤保证训练样本的数量和有效性。且由于正样本和负样本具有强相似性，所以应用到机器学习和深度学习中，可以有效提高钓鱼URL的检测率。

附图说明

图1是本发明一实施例中面向钓鱼URL检测的相似样本集构造方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。

参考图1，在一实施例中，提供的面向钓鱼URL检测的相似样本集构造方法，主要步骤包括：

1)URL分词，输入的网络钓鱼URL样本来源于PhishTank等公开样本集，随后将网络钓鱼URL分割成单词序列。

2)矩阵构造，根据上一步的单词序列构建URL单词矩阵。矩阵中的每一行表示一个网络钓鱼URL，每一列表示一个单词序列中的单词。

3)特征词选择，从URL单词矩阵中选择尽可能少的能覆盖所有钓鱼URL的单词作为特征词。

4)URL获取，使用高级搜索运算符“inurl:”从搜索引擎中获取一系列包含上述特征词的URL。

5)URL检验，根据多个知名的URL检测器的扫描结果检验收集的URL是否正常，并把正常URL添加到训练样本集中。上述URL检测器均选用常用的习知检测器。

其中，前述的URL分词，首先从PhishTank等公开的钓鱼网站样本集中获取URL，绝大多数的URL都包括Scheme，Host以及Path三个部分，Scheme表示URL使用的网络协议，Host表示URL所在的主机或域名，Path通常以斜杠分割，表示URL在主机上的路径。Host可以分为可以被用户定义的域名FDN和注册域名RDN，RDN又分为二级域名SLD和顶级域名TLD。因此，按照URL的结构将其分割为Scheme、FDN、SLD、TLD和Path五段。

例如，对http://shen.mansell.tripod.com/games/gameboy.html来说，Scheme部分即为http，Host部分包括shen.mansell(FDN)、tripod(SLD)、com(TLD)，Path部分为/games/gameboy.html，因此该URL被分为“http”、“shen.mansell”、“tripod”、“com”和“/games/gameboy.html”五段，去掉Scheme和TLD两部分，对剩余部分去除特殊符号后，基于词典匹配的方法得到这条URL的单词序列，该发明采用的词典是Peter Norvig公开的谷歌英文单词语料库(包含333,333个英文单词)。该词典是专门统计了web中常用的词，比较适合用来对URL进行分词

前述的矩阵构造，输入的是URL的单词序列，输出的是含有所有输入的URL信息的单词矩阵，其中矩阵中的每一行表示一个网络钓鱼URL，每一列表示一个单词序列中的单词，每个值表示当前单词在对应钓鱼URL中出现的次数。

前述的的特征词选择，是根据URL单词矩阵选择能够覆盖所有URL的特征词。但是过多的特征词会增加计算负担，过少的特征词可能又不能完全覆盖当前的URL特征。该方法把特征词选择转化为经典的最小集合覆盖的问题，使用动态规划的策略获得最优结果。特征词选择的目的是得到比较有代表性的词，代表性的词是在尽可能多的URL中出现的词。选取有代表性的特征词一方面可以减少计算开销，另一方面，出现频率比较少的词不具有代表性，获得的正常URL与钓鱼URL相似性低，与该方面的目标相悖。因此，“完全覆盖”是优选条件

针对URL获取，本实施例利用搜索引擎中的“inurl:”高级运算符搜索含有某个关键词的URL。该方法对每个特征词收集搜索引擎根据PageRank算法返回的前N条URL。URL获取输入为特征词，输出的是N条含有此特征词的URL。

搜索引擎会按照网站的排名进行排序，因此可以认为前N条记录大多数为正常的。N的取值可以根据需要确定，例如取值范围为60至200。优选为100。

前述的URL检验，是指逐条对上一步骤得到的URL进行逐个检验。该步骤汇总了BitDefender，ESET和Kaspersky等大约65个URL检测器的扫描结果，如果当前URL被所有URL扫描器判断为“clean site”，该方法就认为此URL是正常的，并将其添加到训练样本集中。

通过上述实施例可知，本发明所提供的面向钓鱼URL检测的相似样本集构造方法，不需要任何网络安全先验知识，就可以得到与钓鱼URL有强相似性的正常URL训练样本集。解决了在使用机器学习进行钓鱼URL检测时，训练数据两极分化十分严重的问题，构造出的正常URL和真实的钓鱼URL在形式上十分相似。

此外，该方法使用URL分词、矩阵构造及特征词选择步骤保证构造的正常URL和真实钓鱼URL的之间强相似性，使用URL获取和URL检验步骤保证训练样本的数量和有效性。且由于正样本和负样本具有强相似性，所以应用到机器学习和深度学习中，可以有效提高钓鱼URL的检测率。

通过本方法得到训练样本集应用到钓鱼URL检测；在不同的深度学习模型中都有较好的效果，在相同数据集上的检测效果如表1所示；

表1四种不同检测模型的检测结果对比

模型	Precision	Recall	F1
				基于词特征的决策树模型	0.8803	0.8700	0.8751
基于词特征的随机森林模型	0.8981	0.8965	0.8973
				基于字符序列的双向LSTM模型	0.9553	0.9474	0.9513
基于词序列的双向LSTM模型	0.9808	0.9716	0.9762

其中，上述训练样本集尤其适用于基于词序列的钓鱼URL检测方法，盖检测方法主要包括以下步骤：首先将已标注URL转换为词序列向量作为训练数据；再采用训练数据训练分类模型；然后将未知的URL转换为词序列向量并输入到训练好的分类模型中进行标注。

下文将结合一具体的应用实例描述面向钓鱼URL检测的相似样本集构造过程：

首先，从PhishTank选取5条钓鱼URL，构造与其对应的相似正常URL数据，所选取的钓鱼URL如下所示。

然后依次进行如下处理：

1)URL分词，对于钓鱼URL，首先划分出Scheme、Host(FDN、SLD、TLD)及Path部分，去掉Scheme和TLD两部分，对剩余部分去除特殊符号后按照词典匹配的方法进行分词，得到单词序列如下所示。此处采用的词典是Peter Norvig公开的谷歌英文单词语料库(包含333,333个英文单词)。

2)矩阵构造，根据单词序列构建URL单词矩阵，如下所示。矩阵中的每一行表示一个网络钓鱼URL，每一列表示一个单词序列中的单词，每个值表示当前单词在对应钓鱼URL中出现的次数。

3)特征词选择，按照集合的最小覆盖算法，需要找到一组能够覆盖以上5条URL的尽量少的特征词。由于当前实例URL数较少，可能存在多个最优解的情况，此处随机选取一组最优解。

4)URL获取，对以上三个特征词分别使用高级搜索运算符“inurl:”，收集搜索引擎根据PageRank算法返回的前100条URL。此处为方便展示，以下表格只选取其中的5条。

5)URL检验，对URL获取到的300条URL使用常见URL扫描器逐条进行检验，其中共有298个URL的结果均为“clean site”，其余2条URL则被丢弃。

于是，本实例共生成298条与钓鱼URL相似的正常URL样本，显然正常URL和钓鱼URL有着很强的相似性。由此，将产生的相似样本集作为机器学习或深度学习的训练集，可以有效提高钓鱼URL的检测率。

显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种面向钓鱼URL检测的相似样本集构造方法，其步骤包括：

提取已知样本集中的若干钓鱼URL分割为单词序列；

以单词序列为列，网络钓鱼URL为行构造URL单词矩阵；

2.如权利要求1所述的面向钓鱼URL检测的相似样本集构造方法，其特征在于，所述分割为单词序列包括按照钓鱼URL的结构将其分割为Scheme、FDN、SLD、TLD和Path五段；

3.如权利要求2所述的面向钓鱼URL检测的相似样本集构造方法，其特征在于，所述URL单词矩阵的输入为URL的单词序列，输出为含有所有输入的URL信息的单词矩阵，URL单词矩阵中的每一行表示一个钓鱼URL，每一列表示一个单词序列中的单词，矩阵中的值表示当前单词在对应钓鱼URL中出现的次数。

4.如权利要求3所述的面向钓鱼URL检测的相似样本集构造方法，其特征在于，从URL单词矩阵中选取部分能覆盖前述若干钓鱼URL的单词作为特征词包括：根据URL单词矩阵选择能够覆盖前述若干URL的尽可能少的单词作为特征词。

5.如权利要求4所述的面向钓鱼URL检测的相似样本集构造方法，其特征在于，依据最小集合覆盖方式使用动态规划的策略选择单词作为特征词。

6.如权利要求1所述的面向钓鱼URL检测的相似样本集构造方法，其特征在于，以特征词为关键词搜索URL包括：通过搜索引擎中的“inurl:”运算符搜索含有前述特征词的URL。

7.如权利要求6所述的面向钓鱼URL检测的相似样本集构造方法，其特征在于，对以每个特征词的关键词的搜索结果根据PageRank算法返回的前N条URL进行验证。

8.如权利要求7所述的面向钓鱼URL检测的相似样本集构造方法，其特征在于，所述N的取值范围为60至200。

9.如权利要求1所述的面向钓鱼URL检测的相似样本集构造方法，其特征在于，所述验证搜索到的URL是否正常包括：逐条对对以每个特征词的关键词的搜索得到的URL通过多个URL检测器进行检验；如果被测URL被所有URL检测器判断为“clean site”，就认定该URL是正常的。