CN112468501B

CN112468501B - 一种面向url的钓鱼网站检测方法

Info

Publication number: CN112468501B
Application number: CN202011361704.3A
Authority: CN
Inventors: 朱二周; 袁其详; 李薛剑
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-10-25
Anticipated expiration: 2040-11-27
Also published as: CN112468501A

Abstract

本发明公开一种面向URL的钓鱼网站检测方法，包括以下步骤：截获用户要访问的URL并发送给服务器端；服务器端将URL分隔成固定长度的五个部分；嵌入层利用CNN和BiLSTM法提取以上五个部分的URL特征并将其转化成一个向量；利用TF‑IDF和注意力机制筛选有用特征以此来降低特征向量的维度，即得到一个精简的URL最优特征向量；利用数据集训练全连接层神经网络分类器；用最优特征向量表示的URL送入全连接层神经网络分类器，并根据计算出来的概率判定其是否为钓鱼网站的URL。本发明充分利用深度学习算法的优点，并且利用Attention机制降低特征维度，大大提高检测钓鱼网站的准确性和速度。

Description

一种面向URL的钓鱼网站检测方法

技术领域

本发明属于信息安全技术，具体涉及一种面向URL的钓鱼网站检测方法。

背景技术

根据APWG(反网络钓鱼工作组)报告，2020年第一季度钓鱼网站的数量已达165772个，是2019年第四季度的一倍以上。更为严重的是，网络钓鱼攻击的手段在不断的更新，网络钓鱼攻击不再仅限于由电子邮件、即时消息和弹出窗口等传统媒体发起。当前，移动平台和社交网站在人们的日常通信中得到了极大的普及和广泛的应用。新的通信方式不仅给用户间的沟通带来了极大的便利，也为网络钓鱼攻击的传播提供了新的渠道。例如QR(QuickResponse)代码、鱼叉式网络、欺骗性移动应用程序都有可能成为传播钓鱼网络攻击的途径。

实际上，钓鱼网站检测是一个二分类问题，检测的结果只有两种可能，即“钓鱼网站”或“合法网站”。目前，除了通过培训方式来提高网络用户识别网络钓鱼攻击的能力之外，许多自动化的方法被用来检测网络钓鱼攻击，如黑名单法、视觉相似性检查、基于深度学习和机器学习的方法等。

但是这几种方法在实际应用时，存在一些问题：黑名单检测法不分析钓鱼网站的内容，很难应对那些没有出现在黑名单中的钓鱼网站的URL；视觉相似性检查法会给目标平台带来较大的计算负担；基于机器学习的检测方法中的特征提取时，这些特征一旦被钓鱼开发者知晓，他们便可以绕过这些特征的检测，并且通过手动的提取或第三方服务获取的特征将导致基于机器学习方法难以处理大规模的网络钓鱼数据集以及检测效率低下等问题；基于深度学习的检测方法在使用中不需要人为干预，这会使得最终生成的特征向量维度过大而导致神经网络学习的速率变缓。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种面向 URL的钓鱼网站检测方法。

技术方案：本发明的一种面向URL的钓鱼网站检测方法，包括以下步骤：

步骤S1、获取用户目标网站的URL并将其发送至服务器端；

步骤S2、服务器端解析所接收到的目标网站的URL，并提取相关特征；

服务器端收到对应URL后先将其按照传输协议、子域名、主域名、域名后缀和资源在网站中的路径解析拆分为五个固定长度的字符串；然后使用独热编码 (one-hotfragment)和嵌入层分别将这个五个字符串变换为向量；接着将对应向量输入CNN网络和BiLSTM模型进行特征提取；最后采用改进的注意力 Attention机制进行特征选取最终获得该URL的最优特征向量；

步骤S3、将所提取的相关特征通过服务器端的神经网络分类器进行分析判定，以确认目标网站是否为合法网站，并将判定结果返回至目标平台的WEB浏览器；神经网络分类器中样本数据集包括钓鱼网站URL数据和合法网站URL数据；

步骤S4、WEB浏览器收到判定结果后，如果确认是钓鱼网站则显示提示框提醒用户，如果确认不是钓鱼网站则用户进行正常网页浏览。

进一步的，所述步S1中获取目标网站URL的方法包括以下：

(a)、跟踪检测用户所点击使用应用程序(邮件、微信、短信等)的URL 地址；

(b)、跟踪检测用户在浏览器地址栏中输入要访问的URL地址，并通过按下回车键截获该URL地址。

进一步的，所述步S1中由服务器端应用程序来处理用户的HTTP请求，并将请求的实际地址作为需要检测的URL，同时产生获得请求返回的状态码，URL 和对应状态码一起发送至服务器端。

进一步的，所述步骤S2中使用独热编码和嵌入层分别将五个字符串变换为向量的具体方法为：

(a)、将对应URL解析拆分的5个字符串的每个字符串的字符数量均定为l，如果某一字符串的字符数量超过l，则将该字符串第l个字符之后的字符全部删除，如果某一字符串的字符数量不足l个，则通过在该字符串的头部添加‘pad’字符，直到其长度为l为止；

(b)、根据自定义的字符和内部编码对照关系将步骤(a)中所得字符转换成内部编码；

(c)、将所得内部编码通过嵌入层进行独热向量到稠密向量的转换；

嵌入层利用公式(1)将独热向量g_k转换成p维的连续向量s_k∈R^97*5l， W∈R^p*m；k∈[0,K-1]，K为所有待处理URL的数目；

然后先将连续向量s_k划分为五个部分，并得到五个子向量p_i∈R^p*l， i∈{1,2,3,4,5}；接着将每个子向量p_i送入一个具有两个卷积层、两个池化层和一个全连接层的CNN神经网络中进行处理。

进一步的，所述步骤S2中将对应向量输入CNN网络和BiLSTM模型进行特征提取的过程为：

(a)将转换后的每个部分的向量输入到CNN的第一层卷积层，第一层卷积层的卷积核的大小为m₁*p，并且第一层卷积层有Q₁个所述卷积核；

(b)将CNN第一层卷积层的输出输入到CNN第一层池化层；

(c)将CNN第一层池化层的输出输入到CNN第二层卷积层；第二层卷积层使用的卷积核的大小为m₂*Q₁，并且第二层卷积层有Q₂个所述卷积核；

(d)将CNN第二层卷积层的输出输入到CNN全连接层；

进而得到每个子部分的特征向量

分别是CNN模型中对应层的权重，

分别是CNN模型中对应层的噪声，所述权重和噪声在模型的训练过程中不断更新；

和

分别为CNN模型中卷积层和池化层所计算出来的中间结果；

(e)将经过CNN所有层处理的结果，即URL五个部分的向量输入到BiLSTM 中得到URL各个组成部分之间的关联特征；

在每个时间步内，利用公式(5)和公式(6)计算出目标URL中每个部分从前往后的特征向量

和从后往前的特征向量

即：

其中，

是LSTM细胞的权重；

和

分别为当前时间步、前一时间步和下一时间步的输出；

最后，利用公式(7)将两个方向的向量合并得到LSTM每个时间步的输出：

进一步的，所述步骤S2中采用改进的注意力Attention机制进行特征选取最终获得该URL的最优特征向量的过程为：

(a)、根据维特比算法对钓鱼网站的URL进行单词的分割；

(b)、计算分割后的每个单词的TF-IDF值；

(c)、从计算所得TF-IDF值中挑选前一定数量(例如前20个)的单词作为评断组成重要性的评判标准；

(d)、根据对应URL的每个部分拥有这对应(20个)单词的数量来计算 Attention机制中e_tβ的值。

在获取最优特征向量前，注意力机制Attention对关联特征处理如下：

首先，利用公式(8)计算出前一时刻隐藏层的输出s_t-1和Encoder层中每一时刻的输出h_β之间的相似度e_tβ；其次，使用softmax函数利用公式(9)对其进行归一化处理得到权重系数a_tβ；最后，利用公式(10)将权重系数和Encoder层中的每一时刻的输出h_β之间进行加权求和得到c_tβ；

e_tβ＝score(h_β,s_t-1) (8)；

a_tβ＝softmax(e_tβ) (9)；

此处，每个单词的TF-IDF值代表了这个单词在这个句子中的重要性，当选则的数量较少时，准确率会大大的降低，当选用的数量过多时，检测是效率会受到一定的影响，且检测的准确率并没有太大的提高；为了达到准确率和检测时间的平衡，最终选择前20个单词。

进一步的，所述步骤S3的详细内容为：先将两类样本数据集中的所有URL 进行URL特征提取；然后训练新神经网络分类器；最后使用训练好的神经网络分类器分析判定提取的URL特征是否为钓鱼网站URL，并将分析判定结果返回给目标平台的WEB浏览器。

有益效果：与现有技术相比，本发明具有以下优点：

(1)本发明仅用到URL自身的构成来提取特征，且特征的提取采用的深度学习算法是自动完成的，没有人为因素的干预，提高了检测精度。

(2)本发明由于没有人为干预，其提取到的特征没有任何人知道，避免了攻击者特意绕过这些特征，实用性会更大，安全性能更高。

(3)本本发明加入改进的注意力机制进行特征选择，提高钓鱼网站检测的准确性和效率。

附图说明

图1为本发明的整体流程图；

图2为实施例中URL的基本组成结构；

图3为本发明处理URL的流程图；

图4为本发明中注意力机制的处理过程；

图5为本发明中训练分类器的神经网络结构图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1至图5所示，本实施例的一种面向URL的钓鱼网站检测方法，包括以下步骤：

步骤S1、获取用户目标网站的URL地址，并将其发送至服务器端。

此处获取URL地址的方法包括：截获用户鼠标点击邮件、微信、短信等内容中的URL地址，以及截获用户在浏览器地址栏输入要访问的URL地址并按下回车键而发出的URL地址。

为避免有网站为迷惑用户会将钓鱼网站的URL网址与合法网站的网址做的非常相似进而躲避系统的检测。本实施例中，同时获得URL地址请求返回的状态码，即如果是类似302、304等重定向的请求，会再次获取重定向后的URL地址并将其传回服务器端。

本实施例的一个URL地址(记为uk，k∈[0,K-1]，K为所有待处理URL 的数目)包括五个部分，依次表示成uk＝(S1,S2,S3,S4,S5)。其中，S1表示URL 的传输协议，如http、https、ftp等；S2表示子域名；S3表示主域名，通过域名可以定位网络中的一台主机；S4表示域名后缀，如cn、com.edu等；S5表示资源在网站中的路径，通过这个路径就可以找到所需要访问的资源，并通过浏览器的渲染返回给用户。

服务器端收到对应URL后先将其按照传输协议、子域名、主域名、域名后缀和资源在网站中的路径解析拆分为五个固定长度的字符串；然后使用独热编码和嵌入层分别将这个五个字符串变换为向量；接着将对应向量输入CNN网络和 BiLSTM模型进行特征提取；最后采用注意力Attention机制进行特征选取最终获得该URL的最优特征向量。

此处本实施例将上述URLuk的每个部分的长度固定设置成l。如果某一部分的字符数量超过l，则第l个字符之后的字符会被删除；相反的，如果其字符数量不足l，则通过在字符串的头部添加‘pad’字符，直到其长度达到l为止。uk的每一部分Si(i＝1,2,...,5)均可看作是一个字符序列，表示成Si＝(ci1,ci2,…,cij,…, cil)。其中，i＝1,2,...,5；cij表示一个字符，j＝1,2,...,l。

根据对钓鱼网站的URL数据集的观察，发现URL中出现频率最高的字符数一共有95个，其中包括52个大写字母和小写字母、10个数字字符和33个特殊字符。如果URL中的某个字符没有出现在这95个字符中，则将其设为‘unk(’unknown)。参照表1的映射关系，将包括‘pad’和‘unk’在内的共97个字符转换成内部编码。

表1字符与内部编码映射表

通过内部编码将每个字符转换成一个长度为97的独热向量g'。在每个字符的独热向量中，只有该字符对应位置的下标中的数值为1，其他位置中的数字都设置为0。例如，字符‘A’对应的独热变量表示成g'＝(0,1,0,...,0)。

通过公式(1)将URL uk(k∈[0,K-1]，K为所有待处理URL的数目)转换成向量g_k∈R^97*5l。

g_k＝(g′₁，g′₂，…，g_5l) (1)

为避免由于独热编码产生的向量g_k中过多的0会造成稀疏编码和向量的维度特别高的问题；本实施引入嵌入层，即通过嵌入层将g_k向量嵌入到一个低维度的向量中去，并使其变成一个稠密向量。具体方法如下：

嵌入层利用公式(2)将独热向量g_k转换成p维的连续向量s_k∈R^97*5l，其中 W∈R^p*m。

接着本实施例通过CNN+BiLSTM继续提取URL的特征。

先将连续向量s_k划分为五个部分，并得到五个子向量p_i∈R^p*l，i∈{1,2,3,4,5}；其次，将每个子向量p_i送入一个具有两个卷积层、两个池化层和一个全连接层的 CNN神经网络中进行处理。

此处，CNN神经网络采用一维卷积运算。在第一卷积层中使用的卷积核的大小为m₁*p，并且该层有Q₁个这样的卷积核；第二卷积层使用的卷积核的大小为 m₂*Q₁，并且该层有Q₂个这样的卷积核。将两个卷积层和两个池化层得到的向量输入到全连接层进而得到每个子部分的特征向量

具体计算方法如公式(3)-公式(5)：

其中，

分别是CNN模型中对应层的权重和噪声，它们的值在模型的训练过程中不断更新；

和

分别为 CNN模型中卷积层和池化层所计算出来的中间结果。

为进一步得到上述五个部分之间的关联特征，本实施例此处使用BiLSTM法来处理，具体方法为：

将经过CNN模型处理得到的每个部分的特征向量

作为RNN算法的一个时间步。在每个时间步内，利用公式(6)和公式(7)计算出目标URL中每个部分从前往后的特征向量

和从后往前的特征向量

即：

其中，

是LSTM细胞的权重；

和

分别为当前时间步、前一时间步和下一时间步的输出。

最后，利用公式(8)将两个方向的向量合并得到LSTM每个时间步的输出：

由于在钓鱼网站检测的过程中，并非URL的每个部分对于检测来说都是同等重要的，未得到所需检测的部分，本实施例采用改进的注意力机制Attention对关联特征进一步处理。

首先，计算出前一时刻隐藏层的输出s_t-1和Encoder层中每一时刻的输出h_β之间的相似度e_tβ，如公式(9)；其次，使用softmax函数对其进行归一化处理得到权重系数a_tβ(如公式(10))；最后，将权重系数和Encoder层中的每一时刻的输出h_β之间进行加权求和得到c_tβ(如公式(11))。

e_tβ＝score(h_β,s_t-1) (9)；

a_tβ＝softmax(e_tβ) (10)；

然后，本实施例通过改进的TF-IDF注意力分数模型求取相似度e_i，使用 TF-IDF处理URL字符串。具体步骤如下：

(1)利用维特比算法对钓鱼网站的URL进行单词分割；

(2)根据公式(12)-公式(15)计算每个单词的TF-IDF值；

(3)从这些单词中挑选TF-IDF值为前20的单词作为评断组成重要性的评判标准；

(4)根据URL的每个部分拥有这20个单词的数量计算ei的值，具体计算方法为公式(15)。

tf-idf＝tf_w*idf_w (14)

在以上公式中，nw代表单词出现在语料库中的次数；∑_kn_k代表语料库中所有单词出现的总和；|D|代表语料库中所有URL的数量；|j:w∈d_i|表示在所有 URL中拥有此单词的个数，为防止其数量为0，通常在这个值后面加上1；tx表示每个部分中分割的单词总数。

在得到每个部分的e_i值之后，使用soft Attention进行计算便可以得到每个部分的重要性。利用公式(16)得到每个URL的特征向量表示。该向量将被用于后面的分类模型。

本实施例中通过改进的TF-IDF注意力分数模型求取相似度不需要额外的参数向量，极大的提高计算效率。

步骤S3、将所提取的相关特征通过服务器端的神经网络分类器进行分析判定，以确认目标网站是否为合法网站，并将判定结果返回至目标平台的WEB浏览器；神经网络分类器中样本数据集包括钓鱼网站URL数据和合法网站URL数据。

上述过程中均可采用步骤S2中方法对对样本数据集进行特征提取。然后将得到的特征用来训练一个全连接层神经网络分类器。

该全连接层神经网络分类器用于判断每个样本的性质，即是钓鱼网站还是合法网站，不断更新神经网络的参数以提高检测的准确性。在得到全连接层神经网络分类器以后，判断网站URL的合法性的方式为：

首先，将提取到的特征送入全连接层神经网络分类器中；其次，利用公式(17) 计算属于钓鱼网站的概率logit。

logit＝sigmod(w_{1og it}*y_r+b_{log it}) (17)

如果该值小于0.5，则认为该URL对应的网站是合法的，如果该值大于或等于 0.5，则为钓鱼网站。

步骤S4、WEB浏览器收到判定结果后，根据实际情况提示用户。例如，如果确认是钓鱼网站则显示提示框提醒用户，如果确认不是钓鱼网站则用户进行正常网页浏览。

Claims

1.一种面向URL的钓鱼网站检测方法，其特征在于：包括以下步骤：

步骤S1、获取用户目标网站的URL并将其发送至服务器端；

服务器端收到对应URL后先将其按照传输协议、子域名、主域名、域名后缀和资源在网站中的路径解析拆分为五个固定长度的字符串；然后使用独热编码和嵌入层分别将这个五个字符串变换为向量；接着将对应向量输入CNN网络和BiLSTM模型进行特征提取；最后采用改进的注意力Attention机制进行特征选取最终获得该URL的最优特征向量；

所述使用独热编码和嵌入层分别将五个字符串变换为向量的具体方法为：

(c)、将所得内部编码通过嵌入层进行独热向量到稠密向量的转换；嵌入层利用公式(1)将独热向量g_k转换成p维的连续向量s_k∈R^97*5l，W∈R^p*m；k∈[0,K-1]，K为所有待处理URL的数目；