CN113098874B

CN113098874B - 一种基于url字符串随机率特征提取的钓鱼网站检测方法

Info

Publication number: CN113098874B
Application number: CN202110359991.2A
Authority: CN
Inventors: 朱二周; 王琬珺; 李薛剑; 刘锋; 陈向华
Original assignee: Anhui University; Anhui University of Traditional Chinese Medicine AHUTCM
Current assignee: Anhui University; Anhui University of Traditional Chinese Medicine AHUTCM
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2022-04-26
Anticipated expiration: 2041-04-02
Also published as: CN113098874A

Abstract

本发明公开一种基于URL字符串随机率特征提取的钓鱼网站检测方法，本发明通过字符串随机率将正确的英文单词和正确的汉语全拼定义为标准字符串，而标准字符串之外的字符串则赋予值为[0，1]区间的不同程度的随机率；在字符串的随机率的基础上，通过最佳的标准相邻列表将字符串的随机率与标准相邻列表相结合，提出6个新的URL特征。并通过建立决策树分类模型的方式实现对钓鱼网站的检测。本发明仅通过URL进行钓鱼网站的检测，具备时间开销小、检测准确性高的特点。

Description

一种基于URL字符串随机率特征提取的钓鱼网站检测方法

技术领域

本发明属于计算机信息安全技术领域，具体涉及一种基于URL字符串随机率特征提取的钓鱼网站检测方法。

背景技术

信息技术的发展使得互联网已经渗透于人们的工作及日常生活。净化网络环境、增强网络用户数据的安全性一直是学术与工业界关注与研究的热点。网络钓鱼(Phishing)是一种典型的网络欺诈行为。钓鱼攻击者通过社交网络、即时通讯软件等途径将用户诱骗到一个钓鱼者精心设计的网站，并让用户误以为自己访问的是一个信誉良好的合法网站，进而达到发动网络攻击、获取用户隐私数据等目的。

针对网络钓鱼攻击的检测和拦截，国内外研究学者已经提出了多种有效方法。当前，被广泛使用的钓鱼检测技术包括黑名单检测技术、基于视觉相似性的检测技术、基于机器学习的检测技术等。在这些技术当中，由于准确率与效率较高、易于部署在不同目标平台等特点，基于机器学习的网络钓鱼检测技术正被学术与工业界广泛地研究和使用。

在基于机器学习的网络钓鱼检测方法中，URL的特征选取对于降低底层分类器的训练复杂度与提高网络钓鱼检测的效率具有重要的影响。

事实上，获取诸如域名年龄、域名到期时间等域名相关的传统特征，需要用到第三方工具，进而会影响网络钓鱼的检测时间。而获取诸如URL长度、URL中是否包含IP地址、是否包含特殊符号等地址相关类的特征，不需要用到第三方工具，但是基于这类特征构造的网络钓鱼分类器的检测精度不高。

综合多类特征的钓鱼网站检测方法虽然可以表现出较好的分类性能，却仍然伴随着效率低下的问题。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于URL字符串随机率特征提取的钓鱼网站检测方法，能够解决传统URL特征并不能十分有效地区分钓鱼网站和合法网站的问题。

技术方案：本发明的一种基于URL字符串随机率特征提取的钓鱼网站检测方法，包括以下步骤：

输入训练URL数据集、提取URL特征、将特征向量送入决策树进行训练、保存训练模块、决策树分类器、客户端浏览器；

步骤S1、获取URL地址样本数据集，且该URL地址样本数据集包括两类URL，即钓鱼网站URL数据集和合法网站URL数据集

步骤S2、将URL地址样本数据集中的各个URL进行特征提取，并生成特征向量F，F＝<f₁,f₂,f₃,f₄,f₅,f₆>；六个特征向量f₁、f₂、f₃、f₄、f₅和f₆分别为整条URL的随机率、URL主级域名的随机率、URL路径的随机率、URL子域名随机率、URL路径按符号‘/’和‘.’划分后每段字符串的随机率最大值、URL按符号‘/’和‘.’划分后每段字符串的随机率最大值；

步骤S3、将特征向量F描述的由钓鱼网站URL和合法网站URL构成的数据集送入决策树分类器，然后进行分类模型的训练；

样本数据集包括两类URL，即钓鱼网站URL数据集和合法网站URL数据集；

S4、将具有特定特征刻画的目标网站URL送入步骤S3训练好的机器学习分类器进行处理，以判断待访问的网站是否合法，并将得到的判定结果返回给目标平台的WEB浏览器；

S5、WEB浏览器根据接收到的判定结果进行相应的提示，如果是合法网址，则正常访问网络资源；如果是钓鱼网站则显示提示框提醒用户，从而达到拦截钓鱼网站的目的。

本过程中的六个特征基于字符串随机率产生，通过这六个特征更加高效的甄选检测出钓鱼网站。

进一步地，所述步骤S1中当用户在访问网络资源时，获取其URL地址构成URL地址样本数据集，具体的获取方式为：

检测用户鼠标点击邮件、即时通讯软件等网络媒介中的URL地址以及用户在浏览器地址栏输入URL地址并按下回车键的行为，然后由服务器端应用程序处理用户的HTTP请求，将请求的实际地址作为要检测的URL。

进一步地，所述步骤S2中提取URL的六个特征，具体提取方法为：

S2.1、获得URL字符串随机率

将正确的英文单词和正确的汉语全拼定义为标准字符串，除此之外的字符串则拥有值为[0,1]的不同程度的随机率；

将各URL中任意一个字符串按两两相邻元素为一组划分开，并放入数组Split中，例如输入字符串str＝‘hello’，则得到Split＝[‘he’,‘el’,‘ll’,‘lo’]；计算数组Split内元素不存在于标准相邻列表中的数量Sum；然后将Sum除以数组Split内的元素个数记为|Split|，所得结果即为该字符串的随机率记为RR。

RR＝Sum/|Split|

RR越接近于0表示该字符串在语言上越接近于标准字符串，反之越接近于1表示该字符串越随机；

S2.2、获得最佳的标准相邻列表

基于现有英文单词和中文汉字得到英文单词集和汉语拼音集，对英文单词集和汉语拼音集，以每两个相邻的字母作为一个组合将英文单词和汉语拼音划分开，并分别存放在单词划分列表W和拼音划分列表P中，W和P即为总标准相邻列表，然后将W和P按相同元素出现次数进行排序；

S2.3、基于URL字符串随机率提取特征向量f₁、f₂、f₃、f₄、f₅和f₆；

S2.4、选取上述6个特征向量f₁、f₂、f₃、f₄、f₅和f₆的最佳阈值。

进一步地，所述步骤S3中决策树的生成方法为：：

S3.1、对输入的URL特征样本中连续型属性进行离散化处理，对URL特征样本总数为n的某个连续型属性A，将此处该节点上所有样本按照属性的具体数值升序排列，得到一个序列{A₁,A₂,…,A_n}；在该序列中生成n-1个分割点，则第i个分割点位置为V_i＝(A_i+A_i+1)/2，它将该节点上的数据集划分为两个子集；

S3.2、选择最佳分割点

根据n-1个分割点划分数据集，计算信息增益率，选择信息增益率最大分割点来划分数据集；

S3.3、将信息增益率最高的节点作为树的根节点，然后递归执行S3.2的过程直至整个决策树构建完成。

其中，信息增益率的计算方法如下：

Gain(S,A)与SplitInfo的计算方法分别如公式(2)和公式(3)所示；分裂信息SplitInfo用来分裂数据的广度和均衡性。

有益效果：本发明在访问网络资源时获取其具体的URL地址；在目标平台的客户端将URL地址发送到网络服务器解析之前，本发明通过检测URL地址的规范性来判别目标网站是否为钓鱼网站，进而达到拦截钓鱼网站的目的。本发明仅用到URL的特点来提取特征，故本发明的特征提取方法具有准确性高、复杂度低、易于实现的特点。

附图说明

图1为本发明的整体流程示意图；

图2为URL地址的结构示意图

图3为实施例中不同的标准相邻列表组合下正确字符串与随机字符串随机率的差值示意图；

图4为实施例中合法URL和钓鱼URL在数据集2下的六种随机率分布示意图；

图5为本发明实施例中决策树的生成算法示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1所示，本实施例的基于URL字符串随机率特征提取的钓鱼网站检测方法，包括以下步骤：

步骤(1)获取URL地址样本数据集用户在访问网络资源时，获取其具体的URL地址。URL的具体获取方式为：检测用户鼠标点击邮件、即时通讯软件等网络媒介中的URL地址以及用户在浏览器地址栏输入URL地址并按下回车键的行为；然后由服务器端应用程序处理用户的HTTP请求，将请求的实际地址作为要检测的URL。

本实施例从Alex网站获取15000条合法URL，从PhishTank网站获取2021年1月至3月的15000条钓鱼URL。如图2所示，为URL地址的结构示意图。

步骤(2)

将获取到的各个URL进行特征提取并生成特征向量F＝<f₁,f₂,f₃,f₄,f₅,f₆>。

步骤(3)

将上述特征向量描述的由钓鱼网站URL和合法网站URL构成的数据集送入决策树分类器中并完成分类模型的训练。

其中，样本数据集包括两类URL，即钓鱼网站URL数据集和合法网站URL数据集。

用于对钓鱼网站进行检测的机器学习分类算法采用决策数算法，具体流程如下：

(3.1)对样本中连续型属性进行离散化处理，对样本总数为n的某个连续型属性A，将该节点上所有样本按照属性的具体数值升序排列，得到一个序列{A₁,A₂,…,A_n}。在该序列中生成n-1个分割点，则第i个分割点位置为V_i＝(A_i+A_i+1)/2，它可以将该节点上的数据集划分为两个子集。

(3.2)选择最佳分割点，根据n-1个分割点划分数据集，计算信息增益率，选择信息增益率最大分割点来划分数据集。

(3.3)将信息增益率最高的节点作为树的根节点，然后递归执行(4.2)的过程直至整个决策树构建完成。

步骤(4)

使用具有特定特征刻画的目标网站URL送入步骤S3训练好的机器学习分类器进行处理，以判断待访问的网站是否合法，并将得到的判定结果返回给目标平台的WEB浏览器。

步骤(5)

WEB浏览器根据返回的判定结果进行相应的提示，如果是合法网址，则正常访问网络资源；如果是钓鱼网站则显示提示框提醒用户，从而达到拦截钓鱼网站的目的。

上述步骤(2)提取6个特征的具体方法为：

步骤(2.1)获取字符串随机率

本实施例将正确的英文单词和正确的汉语全拼定义为标准字符串，除此之外的字符串则拥有值为[0,1]的不同程度的随机率。将任意一个字符串按两两相邻元素为一组划分开，并放入名为Split的数组中，例如输入字符串str＝‘hello’，则得到Split＝[‘he’,‘el’,‘ll’,‘lo’]。计算数组Split内元素不存在于标准相邻列表中的数量，即为Sum。如公式(1)所示，将Sum除以数组Split内的元素个数(记为|Split|)，得出的结果即为该字符串的随机率(记为RR)。

RR＝Sum/|Split| (1)

一个字符串的随机率RR越接近于0表示该字符串在语言上越接近于标准字符串，反之越接近于1表示该字符串越随机。

步骤(2.2)获得最佳的标准相邻列表

本实施例从https://github.com/dwyl/english-words/blob/master/words.txt上下载常用的正确英文单词17881个；从《汉语拼音方案》一书中收集全部现有的汉语拼音408个，并将它们分别放入英文单词集和汉语拼音集当中。

然后以每两个相邻的字母作为一个组合将英文单词和汉语拼音划分开，并分别存放在单词划分列表(W)和拼音划分列表(P)当中。W和P统称为总标准相邻列表。该表的具体形式如表1所示。

表1标准字符串集合及标准相邻列表(部分)

为选择最佳的标准相邻列表，本实施例默认在总标准相邻列表中两两相邻元素出现的次数与最佳标准相邻列表的选取有关。因此实施例中将单词划分列表和拼音划分列表按相同元素出现次数进行排序，排序后的效果如表2所示。

表2.单词划分列表和拼音划分列表中相同元素出现次数排名(前10位)

在本实施例中，备选标准相邻列表是从单词划分列表中选取排名前60到前180和拼音划分列表排名前30到前50的字符组合构成的。实验数据集是从英文词典和汉语词典中获取了共计3000个字符串作为标准字符串集(每个字符串均由26个小写英文字母构成)。在此基础上，通过随机函数从26个小写英文字母中随机组合生成了3000个随机字符串作为随机字符串集(随机字符串集长度分布与标准字符串集一致)。并将以上的标准字符串集和随机字符串集构成的集合记为数据集1。根据公式(1)计算数据集1中两组字符串分别在不同的标准相邻列表下的随机率，记录下两组随机率平均数的差值。具体结果如图3所示，其中横坐标表示单词划分列表的选取，图例表示拼音划分列表的选取。

从图3可以看出，随着标准相邻列表内容选取数量的增多，差值逐渐增大最后趋于平稳，表明这个标准相邻列表的选择更加合适。然而，选取数量过多会影响模型的计算时间并且钓鱼网站注册者可选择的随机域名选择更广。

综合考虑后，最终从单词划分列表中按相同元素出现次数排名取前140个加入列表，从拼音划分列表中按出现次数排名取前40个加入列表，并去重，最后得到了一个包含155个相邻组合的列表，将其作为最终的标准相邻列表(如表2所示)。

表3.标准相邻列表

步骤(2.3)基于字符串随机率提出针对钓鱼网站URL的六个特征，如下：

f₁:整条URL的随机率，记为：urlRandomRatio；

f₂:URL主级域名的随机率，记为：domainRandomRatio；

f₃:URL路径的随机率，记为：pathRandomRatio；

f₄:URL子域名随机率，记为：subdomainRandomRatio；

f₅:将URL路径按符号‘/’和‘.’划分开，分别计算划分后每段字符串的随机率，取最大值记为：pathMaxRandomRatio；

f₆:将URL按符号‘/’和‘.’划分开，分别计算划分后每段字符串的随机率，取最大值记为：urlMaxRandomRatio。

(5)选取最佳阈值

为给以上6个特征选取最佳阈值，从Alex网站获取10000条合法URL；从FishTank网站获取10000条钓鱼URL，并将这20000条URL构成的数据集记为数据集2；然后分别记录合法URL和钓鱼URL在不同特征下的随机率，具体的分布结果图4所示。

在图4中，每个子图的横坐标均表示随机率的范围，从(0,0]至(0,1]；纵坐标表示在此范围下合法URL和钓鱼URL出现的频率。

根据图4的结果进行分析,最终为每条特征设置合适的阈值如下：

f₁:如图4(a)所示，当在横坐标0.5位置处时，合法URL出现的频率与钓鱼URL的出现频率差值最大，即：当urlRandomRatio>0.5时，判定为钓鱼URL，f₁置为1；当urlRandomRatio≤0.5时，判定为合法URL，f₁置为-1；

f₂:如图4(b)所示，当在横坐标0.3位置处时，合法URL出现的频率与钓鱼URL的出现频率差值最大，即：当domainRandomRatio>0.3时，判定为钓鱼URL，f₂置为1；当domainRandomRatio≤0.3时，f₂置为-1；

f₃:如图4(c)所示，当在横坐标0.4位置处时，合法URL出现的频率与钓鱼URL的出现频率差值最大，即：当pathRandomRatio>0.4时，判定为钓鱼URL，f₃置为1；当pathRandomRatio≤0.4，f₃置为-1，当待测URL不含有路径时，f₃设置为0；

f₄:如图4(d)所示，当在横坐标0.2位置处时，合法URL出现的频率与钓鱼URL的出现频率差值最大，即：当subdomainRandomRatio>0.2时，判定为钓鱼URL，f₄的值置为1；当subdomainRandomRatio≤0.2或待测URL子域名为‘www’时，判定为合法URL，f₄的值置为-1；

f₅:如图4(e)所示，当在横坐标0.55位置处时，合法URL出现的频率与钓鱼URL的出现频率差值最大，即：当pathMaxRandomRatio>0.55时，判定为钓鱼URL，f₅的值置为1；当pathMaxRandomRatio≤0.55时，判定为合法URL，f₅的值置为-1；

f₆:如图4(f)所示，当在横坐标0.5位置处时，合法URL出现的频率与钓鱼URL的出现频率差值最大，即：当urlMaxRandomRatio>0.5时，判定为钓鱼URL，f₆置为1；当urlMaxRandomRatio≤0.5时，判定为合法URL，f₆置为-1。

获得上述6个新特征后，本实施例再加入8个当前已有特征，得到的最终特征组合如表4和表5所示。本实施例中此处使用这14个特征，达到更好的检测效果。

表4.URL特征组合

表5 URL的常用特征

针对以上特征组合进行实验，表6给出该实验所用数据集的详细信息，该数据集合法网站URL从Alex网站获取，钓鱼网站URL从FishTank网站获取，记为数据集3。

为证明新特征的通用性，数据集3与上述数据集2的选取不一致。

表6实验数据集3的描述

数据集3	总样本数	合法网站比例	钓鱼网站比例
				第一组	18248	50.00％	50.00％
第二组	18016	66.62％	33.38％
				第三组	19269	73.13％	26.87％

将数据集3进行相应的特征提取。每一组均按照7:3的比例分成训练集和测试集。采用决策树算法训练分类器并进行分类实验，得出的结果如表7所示。

表7.不同特征组合的性能比较

从表7可以看出，本发明提出的新特征组合在F1-Score、精确率和召回率方面均有明显提升。随着数据不平衡率的增加，这三项结果提升效果逐渐减弱，而准确率提升效果逐渐增加。由于仅用到URL的特点来提取特征，故本发明的特征提取方法具有准确性高、复杂度低、易于实现等特点。

Claims

1.一种基于URL字符串随机率特征提取的钓鱼网站检测方法，其特征在于：包括以下步骤：

步骤S1、获取URL地址样本数据集，且该URL地址样本数据集包括两类URL，即钓鱼网站URL数据集和合法网站URL数据集；

步骤S2、将URL地址样本数据集中的各个URL进行特征提取，并生成特征向量F，F =<f ₁,f ₂, f ₃, f ₄, f ₅, f ₆>；六个特征向量f ₁、f ₂、f ₃、f ₄、f ₅和f ₆分别为整条URL的随机率、URL主级域名的随机率、URL路径的随机率、URL子域名随机率、URL路径按符号‘/’和‘.’划分后每段字符串的随机率最大值、URL按符号‘/’和‘.’划分后每段字符串的随机率最大值；

所述步骤S2包括：

S2.1、获得URL字符串随机率

将正确的英文单词和正确的汉语全拼定义为标准字符串，除此之外的字符串则拥有值为[0, 1]的不同程度的随机率；

将各URL中任意一个字符串按两两相邻元素为一组划分开，并放入数组Split中，计算数组Split内元素不存在于标准相邻列表中的数量Sum；然后将Sum除以数组Split内的元素个数|Split|，所得结果为该字符串的随机率RR；

S2.2、获得最佳的标准相邻列表

S2.3、基于URL字符串随机率提取特征向量f ₁、f ₂、f ₃、f ₄、f ₅和f ₆；

步骤S3、获取特征向量f ₁、f ₂、f ₃、f ₄、f ₅和f ₆，再加入8个当前已有特征，使用这14个特征向量组成特征向量组合，将该特征向量组合送入决策树分类器，然后进行分类模型的训练；所述8个当前已有特征依次为URL长度、路径长度、域名长度、是否包含敏感词、是否包含各种符号、是否在Alexa世界排名前100万中、域名年龄和域名到期时间；

步骤S4、将具有特定特征刻画的目标网站URL送入步骤S3训练好的决策树分类器进行处理，以判断待访问的网站是否合法，并将得到的判定结果返回给目标平台的WEB浏览器；

步骤S5、WEB浏览器根据接收到的判定结果进行相应的提示，如果是合法网址，则正常访问网络资源；如果是钓鱼网站则显示提示框提醒用户，从而达到拦截钓鱼网站的目的。

2.根据权利要求1所述的基于URL字符串随机率特征提取的钓鱼网站检测方法，其特征在于：所述步骤S1中当用户在访问网络资源时，获取其URL地址构成URL地址样本数据集，具体的获取方式为：

检测用户鼠标点击网络媒介中的URL地址以及用户在浏览器地址栏输入URL地址并按下回车键的行为，然后由服务器端应用程序处理用户的HTTP请求，将请求的实际地址作为要检测的URL。

3.根据权利要求1所述的基于URL字符串随机率特征提取的钓鱼网站检测方法，其特征在于：所述步骤S3中决策树的生成方法为：

S3.1、对输入的URL特征样本中连续型属性进行离散化处理，对于URL特征样本总数为n的某个连续型属性Ａ，将此处节点上所有样本按照属性的具体数值升序排列，得到一个序列{A ₁, A ₂, …, A _n}；在该序列中生成n-1个分割点，则第i个分割点位置为V _i=(A _i+A _i+1)/2，它将该节点上的数据集划分为两个子集；

S3.2、选择最佳分割点