CN102739679A

CN102739679A - 一种基于url分类的钓鱼网站检测方法

Info

Publication number: CN102739679A
Application number: CN2012102235055A
Authority: CN
Inventors: 曹玖新; 罗军舟; 东方; 王田峰; 董丹; 刘波; 杨鹏伟; 吴江林
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2012-06-29
Filing date: 2012-06-29
Publication date: 2012-10-17

Abstract

本发明公开了一种基于URL分类的钓鱼网站检测方法，包括如下步骤：对钓鱼网站的URL特征进行归纳分析，并将所述URL特征向量化；根据URL特征向量，对原始数据进行训练得到初始分类模型。本发明适用性强、效率高。

Description

一种基于URL分类的钓鱼网站检测方法

技术领域

本发明属于网络安全领域，涉及一种反网络钓鱼的方法，特别涉及一种基于URL(网页地址)分类的钓鱼网站检测方法。

背景技术

网络钓鱼攻击已经成为当前网上交易安全的一个重大威胁，其对电子商务的发展造成了很大阻碍，因而对钓鱼防范的研究成为网络安全领域的热点问题。钓鱼网站的规模逐年成倍递增，从机器学习与模式识别角度讲，大量的钓鱼网站已经呈现出一种有迹可循的模式，这给用模式识别的方法进行学习分类带来了一定的应用空间。

目前存在的基于模式识别的钓鱼网站判别方法主要有：

基于邮件特征的钓鱼邮件检测方法。其主要方法是通过对大量钓鱼邮件的学习训练找出一组普遍存在的现象特征。方案从邮件的语言，布局以及结构入手获取诸如特殊句法，结构布局特点，词汇使用模式，反常语言应用等特征。

基于网页文本特征的钓鱼网页检测方法。该方法借助于TF-IDF算法计算一篇文档中的重要程度较高的词汇，然后以这些词汇为网页特征对网页进行分类，分类过程借鉴了google对网页的评价排名。

基于网页图像相似度得钓鱼网页检测。首先将HTML网页转换为标准图片形式，提取主色调和图片重心位置等属性标示图片特征，然后应用EMD(EarthMover’s Distance)算法计算两图像间的相似度，设定一个阈值判断当前网页是否有模仿现象。

目前钓鱼检测方法存在一定的不足，无论是基于邮件特征还是基于网页特征都要通过对邮件或网页内容进行整体分析，这可能带来以下问题，一是邮件或网页标准不统一，这导致预先设定的检测特征有可能缺失；二是对邮件或网页进行整体分析花费时间较多，从应用角度来讲可能超过用户所能忍受的网络延时；三是受保护机构合法邮件或网页更新时，检测机构没有相应的联动机制。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供一种适用性强、效率高的基于URL分类的钓鱼网站检测方法。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种基于URL分类的钓鱼网站检测方法，包括如下步骤：

(1)对钓鱼网站的URL特征进行归纳分析，并将所述URL特征向量化；

(2)根据URL特征向量，对原始数据进行训练得到初始分类模型。

进一步地，还包括步骤(3)：检测钓鱼网站的服务器根据在线增量学习策略对当前分类模型进行升级。

进一步地，所述步骤(1)中，钓鱼网站的URL特征包括：

1)URL中存在IP地址。一定比例的钓鱼URL包含有IP地址，而在合法URL中几乎不存在包含IP地址的情况；

2)用“.”来对域名进行混淆。钓鱼网页往往通过用很多“.”来隔开一个正常的字段以达到迷惑用户的目的，如

http：//paypal.com.online-update.onlinebanking.service.customer./...而这种URL在合法网站几乎很少见到；

3)URL路径深度异常。即URL中包括“/”的数目，伪造的URL通过加长路径来混淆合法网址；

4)包含特殊字符。如“”“~”“-”在钓鱼URL中经常会出现；

5)存在较多数字、字母相混合的情况。该特征在合法URL与钓鱼URL中都有体现，但在钓鱼URL中更为明显；

6)域名字段长度异常。一般情况下，认为出现在‘http：//’与第一个‘/’之间的字符串为域名字段，大部分合法URL的域名长度比较适中，而有一部分钓鱼URL此部分长度显得过长；

7)PageRank排名较低。PageRank是Google对所收录网页按照重要程度进行的排名，在检测中发现，绝大部分钓鱼URL此项数值较低或没有记录。

8)合法域名篡改。钓鱼网站域名往往对合法网站域名进行篡改，如把“paypal”中的字母“l”替换为数字“1”，根据一定方法可以对该现象进行检测。

9)可疑词汇。钓鱼URL中有些词汇出现频率较高，如“login”，“account”等，根据一定方法可以对这些可疑词汇进行统计提取。

对URL特征1)至6)采用正则表达式匹配的方式获取，对URL特征7)通过谷歌获取，对URL特征8)和9)进行特征建模。

进一步地，所述步骤(1)中，域名篡改特征的检测方法为：设从URL提取出的域名字符串U＝u₁、u₂、…、u_m，受保护域名字符串T＝t₁、t₂、…、t_n；

计算分别以u_i和t_j结束的两个域名子字符串的最大相似度值，该最大相似度值用H_i,j表示，那么根据u_i与t_j相对位置的不同，H_i，j值有以下四种情况：

1)两子字符串到u_i与t_j结束时长度相同，此时有：

H_i，j＝H_i-1,j-1+s(u_i,t_j)

其中

s (u_{i}, t_{j}) = \{\begin{matrix} w_{match}, u_{i} = t_{j} \\ - w_{dismatch}, u_{i} &NotEqual; t_{j} \end{matrix},

w_match与w_dismatch分别表示u_i与t_j相同和相异时的权值；

2)以u_i结束的子字符串在u_i之前存在长度为k的缺失值W_k，此时有：

H_i，j＝H_i-k,j-W_k

3)以t_j结束的子字符串在t_j之前存在长度为l的缺失值W_l，此时有：

H_i,j＝H_i,j-l-W_l

4)当i=0或j＝0时，定义此时的H_i，j为0，即：

H_i,0＝H_0，j＝0

综合上述四种情况，得到递归公式：

H_{i, j} = \max \{\begin{matrix} 0 \\ H_{i - 1, j - 1} + s (u_{i}, t_{j}) \\ \max_{k &GreaterEqual; 1} (H_{i - k, j} - W_{k}) \\ \max_{l &GreaterEqual; 1} (H_{i, j - 1} - W_{l}) \end{matrix}\}, 1 \leq i \leq m, 1 \leq j \leq n

利用上述递归公式对两域名进行计算得到一个m*n的矩阵H，两域名的最大相似度值S(U，T)即为矩阵H的最大值h(m,n)；根据受保护域名字符串T的长度进行规格化处理，之后得到从URL提取出的域名字符串U的域名相似系数TM_U：

{TM}_{U} = \frac{h (m, n)}{n * w_{match}}

当TM_U=1时表示U与目标合法域名完全匹配，对于其它情况，给定一个域名模仿的阈值区间(f₁,f₂)，其中0≤f1＜f2≤1；当TM_U∈(f₁,f₂)时表示极有可能为域名模仿现象。

进一步地，所述步骤(1)中，可疑词汇特征的统计步骤为：

步骤1：构造一棵空的广义后缀树GST，设定路径结束符为“$”；

步骤2：将URL字符串产生的后缀依次插入GST，若遇到相同后缀则合并当前节点，若无已存在的相同后缀则分裂当前节点产生新的后缀节点；

步骤3：重复步骤2直至URL集合中的所有URL处理完毕，此时GST构建完成；

步骤4：初始化Map集合δ<P，S>，其中P表示路径集合，S表示P所对应的字符串；

步骤5：遍历GST，对于每个节点所对应的路径e，查询其所属的URL子字符串s，根据s搜索Map集合δ得到s所对应的所有路径集合p’,如果

则将

路径e和其子字符串s组合成<e,s>加入到Map集合δ中，否则转步骤6；

步骤6：如果e比p’中任一路径都要长，则p’＝p’Ue；

步骤7：重复步骤5、6，直到所有路径都遍历完成；

步骤8：遍历集合δ<P，S>，输出s出现次数超过k次的s的集合D，D即为所求。

进一步地，所述步骤(2)中，根据URL特征向量，采用支持向量机算法对所述URL特征向量进行训练得到初始分类模型M，用于对待检测URL进行分类。

进一步地，所述在线增量学习策略包括如下步骤：

步骤1：定义两个空数据集C-SET与B-SET，其中C-SET用于存放分类器训练样本，B-SET用于存放增量过程中的丢弃样本；

步骤2：定义初始样本集为Y_H，此时有C-SET＝Y_H；

步骤3：以Y_H为训练样本得到初始分类器Ψ_H，以Ψ_H检验增量样本集Y_I，其中违背KKT条件的样本记为Y_I ^NK，符合KKT条件的样本记为Y_I ^K，若

则本轮增量结束，否则转步骤4；

步骤4：令C-SET=C-SET∪Y_I ^NK，B-SET=B-SET∪Y_I ^K；对C-SET进行训练得到增量分类器Ψ_I；

步骤5：利用Ψ_I对B-SET进行再分类得到Y_B ^NK，若

则Ψ_I为最终增量分类器，否则令C-SET=C-SET∪Y_B ^NK，对C-SET进行再次训练得到修正的最终分类器Ψ_O。

有益效果：本发明所采用的基于URL学习分类的钓鱼检测方法，综合利用了黑白名单匹配检测与钓鱼URL特征检测，对于已有明确记录的URL信息可以达到快速检测的目的，对于数据库中未存储的URL数据可以利用训练生成的SVM分类模型对URL进行预测分类，这种综合检测方法有效弥补了单纯依靠黑白名单检测对未知URL无法处理的情况。同时，本发明在URL特征建模过程中对域名模仿以及关键词特征进行了有效的定义与检测，使得钓鱼URL特征描述更加精确，继而有效提高了SVM分类精度。

附图说明

图1为本发明基于URL分类的钓鱼检测原型系统框架图；

图2为本发明基于URL的钓鱼检测方法流程图；

图3为本发明基于URL的钓鱼检测方法实施过程时序图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明实现了一个基于URL分类的钓鱼检测原型系统，该系统的结构示意图如图1所示。系统包括三个组成部分：浏览器客户端、分析中心服务器以及受保护机构(bank，e-business)即(银行，电子商务)。其中浏览器客户端以浏览器插件的形式存在，负责监控用户输入的网址并将获取的网址送入分析中心服务器分析。分析中心服务器包括URL数据库(URL Database)以及机器学习引擎(MLengine)，负责对URL进行综合分析并将结果反馈于浏览器客户端。受保护机构主要为分析中心服务器提供最新的受保护域名信息，并通过邮件等方式告知用户最新的针对该机构的攻击信息。系统在三方协作的基础上力求最大限度地提高用户网上交易的安全性。

图3是系统详细设计中的各模块之间的交互时序图，系统组成模块包括浏览器插件(BrowserPlugin)、Web程序容器(WebContainer)、服务器主程序(URLCheckServlet)、分类模型(ClassifierModel)、特征生成模块(FeatureGenerator)以及数据库管理模块(DataManager)。

结合图2、3所示，基于URL分类的钓鱼网站检测方法的具体实施方式可以描述为：

步骤1：用户在浏览器终端输入网址，浏览器插件对地址栏URL进行监听并将状态转换为URL待发送；

步骤2：用户在浏览器插件界面点击允许发送URL按钮，插件将URL信息传入后台服务器；

步骤3：后台服务器调用主程序(URLCheckServlet)，该servlet首先调用数据库管理模块(DataManager)查询黑白名单数据库，若存在黑名单匹配，则直接判定为钓鱼，流程结束，若存在白名单匹配，则直接判定为合法，流程结束。若不存在匹配情况，转入步骤4；

步骤4：URLCheckServlet调用模型分类主程序ClassiferModel进行预测分类，ClassiferModel调用URL特征提取模块FeatureGenertor对URL进行特征提取形成相应的特征向量，在此特征向量基础上利用SVM(支持向量机)分类模型获得分类预测值；

步骤5：将步骤4所得分类预测值映射为相应的钓鱼可能性概率，将该结果反馈给客户端；

基于本发明方法开发了原型系统。从实验效果来看，本发明能在短时间内，较为准确地判断URL地址的合法性，并将结果反馈给用户，对用户的财产信息安全起到了一定的保护效果。

Claims

1.一种基于URL分类的钓鱼网站检测方法，包括如下步骤：

2.根据权利要求1所述一种基于URL分类的钓鱼网站检测方法，其特征在于：还包括步骤(3)：检测钓鱼网站的服务器根据在线增量学习策略对当前分类模型进行升级。

3.根据权利要求1所述一种基于URL分类的钓鱼网站检测方法，其特征在于：所述步骤(1)中，钓鱼网站的URL特征包括：

1)URL中存在IP地址；

2)用“.”来对域名进行混淆；

3)URL路径深度异常；

4)包含特殊字符；

5)存在较多数字、字母相混合的情况；

6)域名字段长度异常；

7)PageRank排名较低；

8)域名由合法域名篡改而来；

9)存在可疑词汇；

4.根据权利要求3所述一种基于URL分类的钓鱼网站检测方法，其特征在于：所述步骤(1)中，域名篡改特征的检测方法为：设从URL提取出的域名字符串U＝u₁、u₂、…、u_m，受保护域名字符串T＝t₁、t₂、…、t_n；

1)两子字符串到u_i与t_j结束时长度相同，此时有：

H_i,j＝H_i-1,j-1+s(u_i,t_j)

其中

s (u_{i}, t_{j}) = \{\begin{matrix} w_{match}, u_{i} = t_{j} \\ - w_{dismatch}, u_{i} &NotEqual; t_{j} \end{matrix},

w_match与w_dismatch分别表示u_i与t_j相同和相异时的权值；

H_i，j＝H_i-k，j-W_k

H_i，j＝H_i,j-l-W_l

4)当i=0或j＝0时，定义此时的H_i，j为0，即：

H_i,0＝H_0，j＝0

综合上述四种情况，得到递归公式：

H_{i, j} = \max \{\begin{matrix} 0 \\ H_{i - 1, j - 1} + s (u_{i}, t_{j}) \\ \max_{k &GreaterEqual; 1} (H_{i - k, j} - W_{k}) \\ \max_{l &GreaterEqual; 1} (H_{i, j - 1} - W_{l}) \end{matrix}\}, 1 \leq i \leq m, 1 \leq j \leq n

{TM}_{U} = \frac{h (m, n)}{n * w_{match}}

5.根据权利要求3所述一种基于URL分类的钓鱼网站检测方法，其特征在于：所述步骤(1)中，可疑词汇特征的统计步骤为：

则将路径e和其子字符串s组合成<e,s>加入到Map集合δ中，否则转步骤6；

步骤6：如果e比p’中任一路径都要长，则p’＝p’Ue；

步骤7：重复步骤5、6，直到所有路径都遍历完成；

6.根据权利要求1所述一种基于URL分类的钓鱼网站检测方法，其特征在于：所述步骤(2)中，根据URL特征向量，采用支持向量机算法对所述URL特征向量进行训练得到初始分类模型M，用于对待检测URL进行分类。

7.根据权利要求2所述一种基于URL分类的钓鱼网站检测方法，其特征在于：所述在线增量学习策略包括如下步骤：

步骤2：定义初始样本集为Y_H，此时有C-SET＝Y_H；

则本轮增量结束，否则转步骤4；

步骤5：利用Ψ_I对B-SET进行再分类得到Y_B ^NK，若