CN103530367A

CN103530367A - 一种钓鱼网站鉴别系统和方法

Info

Publication number: CN103530367A
Application number: CN201310477313.1A
Authority: CN
Inventors: 张巍; 姜青山
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2013-10-12
Filing date: 2013-10-12
Publication date: 2014-01-22
Anticipated expiration: 2033-10-12
Also published as: CN103530367B

Abstract

本发明提出一种钓鱼网站鉴别系统，其包括特征提取模块、特征向量降维模块、分类训练模块及鉴别模块。特征提取模块用于提取网站的页面信息及排名信息，并获得特征向量；特征向量降维模块和特征提取模块相连，用于对特征向量进行降维，获得降维后的特征向量；分类训练模块和特征向量降维模块相连，用于对已知网站的降维后的特征向量进行分类训练，获得分类模型；鉴别模块和分类训练模块及特征向量降维模块分别相连，用于保存分类模型，并利用分类模型对未知网站的降维后的特征向量进行鉴别，判断是否为钓鱼网站。所述钓鱼网站鉴别系统和所述钓鱼网站鉴别方法同时将网站排名和网站内容作为网站的特征向量，可以提高网站鉴别的精度。

Description

一种钓鱼网站鉴别系统和方法

技术领域

本发明涉及网络安全技术领域，尤其涉及一种钓鱼网站鉴别系统和方法。

背景技术

随着电子商务和在线交易的普及，网络钓鱼已经成为最为严重的一种网络犯罪形式。所谓“钓鱼网站”，是指不法分子利用各种手段，仿冒真实网站的地址以及页面内容，或者利用真实网站服务器程序上的漏洞，在站点的某些网页中插入危险的HTML代码，以此来骗取用户银行或信用卡账号、密码等私人资料。由于欺骗手段的隐蔽性及欺骗方式的多样性，钓鱼网站往往令网民难以识别，导致严重损失。据中国互联网络信息中心统计，钓鱼网站数量在过去一年新增87.3万家，360安全中心对其拦截量则高达81亿次，相当于平均每秒就有256个网民访问钓鱼网站。用户在上网过程中面临的钓鱼欺诈已经成为最严重的网络安全威胁之一。

为了应对网络钓鱼的威胁，减少钓鱼网站的数量，国内外展开了多种反钓鱼的研究工作，目前主要有以下四类方法与技术：

（1）基于黑名单的检测技术。

黑名单是一种广泛使用的用于检测钓鱼网站的方法。黑名单技术是指将所有已经发现的钓鱼站点和可信网站的URL记录到一个列表(即黑名单)中，据此判断用户所访问的网站是否为钓鱼/安全网站。黑名单随着存活的钓鱼网站的增加而增加到反钓鱼网站数据库中。由于新创建的钓鱼网站的垃圾邮件活动一般会持续4-6个小时，因此在列出黑名单和禁用钓鱼网站的时候，钓鱼网站可能已经移动到了新的URL上面。因此黑名单技术仍具有一定的局限性，它无法预测新的钓鱼攻击，并且如果通过DNS劫持，将用户输入的网站重新定向到钓鱼网站，黑名单技术将无法解决这种重定向的问题（Stamm,S.,Ramzan,Z.,&Jakobsson,M.(2007).Drive-by Pharming.Information and Communication Security.Zhengzhou,China）。

（2）基于URL的检测技术。

基于URL的检测技术主要使用URL本身的信息来确定其是否为恶意链接，钓鱼网站使用多种技术使受害者相信链接是合法的，例如使用比较长的字符，如www.bankofamerica.com.X.Y.Z.org。这些长的主机名之所以能够欺骗受害者，主要是因为他们看到了地址中有他们预期的域名（BRADLEY WARDMAN.AA SERIES OF METHODS FOR THESYSTEMATIC REDUCTION OF PHISHING[D].BIRMINGHAM,ALABAMA,2011.）。基于URL的反钓鱼技术主要是通过URL地址相似度、域名概率评估、网站排名、注册信息、网址类型、页面的外链数目、IP及端口号等信息进行钓鱼检测识别，但是，基于URL的检测技术也无法解决DNS劫持问题。

（3）基于视觉的检测技术。

基于视觉的检测技术主要是通过网页图像或者空间布局进行检测。但该方法只能用于某个网站的检测，同时数学特性十分复杂，计算复杂度高，目前仅停留在学术研究，还未应用到实际检测中。

（4）基于内容的检测技术。

基于内容的检测技术需要使用软件工具，主要是指网络网虫，用来下载网站的内容，从网站内容中提取出能够识别网络钓鱼的特征，这些技术一般利用强大的搜索技术，以确保能够全面检索网站内容，然后使用不同的机器学习方法来对网站进行鉴别，但是目前基于内容的检测技术仍具有较高的误报率，还难于满足实际应用的需求。

综上可知，目前检测钓鱼网站的研究方法与技术主要存在的问题包括：1）以URL地址、域名注册信息、网站排名等信息作为网站特征进行钓鱼网站的识别技术，识别率较低；2）以网页内容等信息作为特征进行智能钓鱼网站识别的技术，相关研究大多复杂度高、误报率高，难于满足数目快速增长的钓鱼网站的检测防御需要。此外，当前反钓鱼研究基本都集中在对英文钓鱼网站的识别，对中文钓鱼网站检测研究较少，因此需要对中文钓鱼网站进行全面研究，提取出适合中文钓鱼网站的特征表征与特征提取方法，进而对中文钓鱼网站进行分析，采取合理的分类方法进行鉴别，提高检测的准确率。

发明内容

针对上述问题，本发明的目的是提供一种可解决上述技术问题的钓钓鱼网站鉴别系统和方法。

一种钓鱼网站鉴别系统，其包括：

特征提取模块，用于提取网站的页面信息及排名信息，并获得特征向量；

特征向量降维模块，其和所述特征提取模块相连接，用于对所述特征向量进行降维，获得降维后的特征向量；

分类训练模块，其和所述特征向量降维模块相连接，用于对已知网站的所述降维后的特征向量进行分类训练，获得分类模型；及

鉴别模块，其和所述分类训练模块及所述特征向量降维模块分别相连接，用于保存所述分类模型，并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别，判断是否为钓鱼网站。

本发明一较佳实施例中，所述特征向量包括网站内容的特征向量和网站排名信息的特征向量。

本发明一较佳实施例中，所述特征提取模块提取网站的页面信息时只保存中文汉字到文本中，并对所述文本进行分词及提取所述文本中的名词和动词作为一级特征词。

本发明一较佳实施例中，所述特征提取模块采用互信息法从所述一级特征词中选取特征词，作为网站内容的特征向量。

本发明一较佳实施例中，所述特征向量降维模块采用主成分分析方法对所述特征向量进行降维。

本发明一较佳实施例中，所述分类训练模块采用前馈神经网络方法对已知网站的所述降维后的特征向量进行分类训练，得到所述分类模型。

本发明一较佳实施例中，所述特征向量降维模块和所述特征提取模块之间、所述分类训练模块和所述特征向量降维模块之间、所述鉴别模块和所述分类训练模块之间以及所述鉴别模块和所述特征向量降维模块之间为电性连接、数据连接或通信连接。

本发明一较佳实施例中，所述网站包括所述已知网站和所述未知网站。

本发明另外提供一种钓鱼网站鉴别方法，其包括如下步骤：

S11、利用特征提取模块提取网站的页面信息及排名信息，获得特征向量；

S13、利用特征向量降维模块对所述特征向量进行降维，获得降维后的特征向量；

S15、利用分类训练模块对已知网站的所述降维后的特征向量进行分类训练，获得分类模型；

S17、利用鉴别模块保存所述分类模型，并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别。

本发明一较佳实施例中，步骤S11中，所述网站包括已知网站和未知网站。

相对于现有技术，所述钓鱼网站鉴别系统和所述钓鱼网站鉴别方法同时将网站排名和网站内容作为网站的特征向量，可以提高网站鉴别的精度。

本发明实施例中，所述特征向量降维模块采用主成分分析方法对网站的特征向量进行降维，可以有效地提高鉴别效率。

本发明实施例中，所述分类训练模块对使用主成分分析方法降维后的网站特征向量使用BP神经网络进行分类，鉴别效率显著提高。

此外，本发明实施例中，所述特征提取模块提取网站的页面信息时，只保存中文汉字到文本中，并提取出适合中文钓鱼网站的特征表征与特征提取方法，进而对中文钓鱼网站进行分析，且采取合理的分类方法进行鉴别，可提高中文网站的鉴别检测的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举实施例，并配合附图，详细说明如下。

附图说明

图1为本发明第一实施例提供的钓鱼网站鉴别系统的组成示意图；

图2为图1所示钓鱼网站鉴别系统的工作示意图；

图3为本发明第二实施例提供的钓鱼网站鉴别方法的流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

请参阅图1，本发明第一实施例提供一种钓鱼网站鉴别系统100，其包括特征提取模块10、特征向量降维模块20、分类训练模块30及鉴别模块40；所述特征提取模块10用于提取网站的页面信息及排名信息，并获得特征向量；所述特征向量降维模块20和所述特征提取模块10相连接，用于对所述特征向量进行降维，获得降维后的特征向量；所述分类训练模块30和所述特征向量降维模块20相连接，用于对已知网站的所述降维后的特征向量进行分类训练，获得分类模型；所述鉴别模块40和所述分类训练模块30及所述特征向量降维模块20分别相连接，用于保存所述分类模型，并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别，判断是否为钓鱼网站。

可以理解的是，所述网站包括已知网站和未知网站，所述特征向量包括网站内容的特征向量和网站排名信息的特征向量，即本实施例中，所述特征提取模块10分别针对已知网站和未知网站进行页面信息及排名信息的提取，并分别获得已知网站的特征向量和未知网站的特征向量。

所述特征提取模块10提取网站的页面信息及排名信息时，具体包括：

1）网站内容特征提取

首先提取网站的页面信息，本实施例中，只保存中文汉字到文本中；然后对文本进行分词，本实施例中，使用中科院的ICTCLAS分词系统（详见：http://www.ictclas.org/index.html）；其后提取文本中的名词和动词，作为文本的一级特征词，本实施例中，采用互信息法(MI，MutualInformation)从所述一级特征词中选取特征词，作为网站内容的特征向量。

互信息法用来度量一个消息中两个信号之间的相互依赖程度,衡量特征和类别之间的统计关联程度。本实施例中，对于文本类别C和特征项T,其互信息记为MI(C,T),如式(1)：

MI (T, C_{i}) = \log \frac{P (T | C_{i})}{P (T)} - - - (1)

其中，P(T)为T在整个训练集中出现的概率，P(Ci)为Ci类文档在整个训练集中出现的概率，P(T|C_i)为T在C_i类文档中出现的条件概率。

为了对式(1)进行计算，将T和C进行关联，经整理后得到其近似公式，如式(2)。

MI (T, C) \approx \log \frac{A * N}{(A + C) * (A + B)} - - - (2)

其中，A表示包含T而属于C的文本数，B表示包含T而不属于C的文本数，C表示不包含T而属于C的文本数，N为文档总数。

2）网站排名特征提取

将网站的排名信息作为网页的一个特征向量，本实施例中，使用http://alexa.chinaz.com/查询网站的排名信息，并将排名信息表示为{yes,no},yes表示能够通过http://alexa.chinaz.com/查询到网站的排名信息，no表示不能通过http://alexa.chinaz.com/查询到网站的排名信息。可以理解的是，网站的排名信息的查询并不局限于本实施例，也可以采用其他方式来查询，只要能获取网站的排名信息即可。

本实施例中，将所述特征提取模块10所提取的网站内容的特征向量和网站排名信息的特征向量作为网站（包括已知网站和位置网站）的特征向量，并在此基础在进行后续处理。

本实施例中，所述特征向量降维模块20采用主成分分析方法对所述特征向量进行降维。

主成分分析方法的基本思路是把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析方法用于减少数据集的维数，同时保持数据集的对方差贡献最大的特征。本实施例中，主成分分析方法的基本原理如下：

设有已知网站的样本为X₁,X₂,…X_p，样本标准差记为S₁,S₂,…S_p，首先作标准化变换：

C_j=a_j1x₁+a_j2x₂+…a_jpx_p,j=1,2,…p (3)

本实施例中，有如下的定义：

1)若C₁=a₁₁x₁+a₁₂x₂+…a_1px_p，且使Var(C₁)最大，则称C₁为第一主成分；

2)若C₂=a₂₁x₁+a₂₂x₂+…a_2px_p，a₂₁,a₂₂…a_2p垂直于a₁₁,a₁₂…a_1p，且使Var(C₂)最大，则称C₂为第二主成分；

3)类似地，可有第三、四、五…主成分，至多有p个。

本实施例中，所述分类训练模块30采用BP（Back-Propagation，前馈）神经网络方法，对已知网站的所述降维的特征向量（即已知网站降维后的特征向量）进行训练，得到所述分类模型，具体地，包括以下两个部分：

第一，将已知网站的所述降维的特征向量作为训练数据通过隐含层节点作用于输出层节点，经过非线形变换，产生输出节点的输出值Y_k。

Y_k=f(∑T_j,kO_j)-θ_k (4)

O_j=f(∑w_i,jD_i)-θ_i (5)

其中，O_j为隐含层节点的输出值；f为非线性作用函数，本实施例采用Sigmoid函数，即f(x)=1/(1+e^-x)；w_i,j为连接输入层与隐含层节点的权值，其初始值由系统随机给定；θ_i为阈值，其初始值由系统随机给定；Y_k为输出节点的输出值；T_j,k为连接输出层与隐含层节点的权值，其初始值由系统随机给定；θ_k为阈值，其初始值由系统随机给定。

第二，输出节点的输出值Y_k与期望输出值t_k之间的偏差，通过调整权值w_i,j、T_j,k以及阈值θ_i、θ_k，使误差沿梯度方向下降。并经过反复学习训练，确定与最小误差相对应的权值和阈值，训练即停止。

误差的计算公式如下：

E = \frac{1}{2} \underset{k}{Σ} {(Y_{k} - t_{k})}^{2} - - - (6)

调整的权值w_i,j计算公式如下：

w_i,j(n+1)=ηδ_i,j+w_i,j(n) (7)

其中，η为学习因子，为任意值，η取值越大，则权值w_i,j每次的改变越剧烈，本实施例中，η设定为0.1；n为学习次数，本实施例中，n设定为5000；δ_i,j表示误差对权值w_i,j的负梯度。

权值T_j,k的计算公式如下：

T_j,k(n+1)=ηφ_j,k+T_j,k(n) (8)

其中，η为学习因子，为任意值，本实施例中，η设定为0.1；n为学习次数，本实施例中，n设定为2000；φ_j,k表示误差对T_j,k的负梯度。

阈值θ_i的计算公式如下：

θ_i(n+1)=ηδ_i+θ_i(n) (9)

其中，η为学习因子，为任意值，本实施例中，η设定为0.1；n为学习次数，本实施例中，n设定为2000；δ_i表示误差对阈值θ_i的负梯度。

阈值θ_k的计算公式如下：

θ_k(n+1)=ηδ_k+θ_k(n) (10)

其中，η为学习因子，为任意值，本实施例中，η设定为0.1；n为学习次数，本实施例中，n设定为2000；δ_k表示误差对阈值θ_k的负梯度。

本实施例中，所述鉴别模块40保存所述分类模型，即保存所述分类训练模块30对已知网站的所述降维的特征向量进行分类训练所确定的权值（w_i,j，T_j,k）和阈值（θ_i，θ_k）；然后即可使用式（4）和式（5）对未知网站的所述降维后的特征向量进行鉴别，得到分类结果。

可以理解的是，所述特征向量降维模块20和所述特征提取模块10之间、所述分类训练模块30和所述特征向量降维模块20之间、所述鉴别模块40和所述分类训练模块30之间以及所述鉴别模块40和所述特征向量降维模块20之间为电性连接、数据连接或通信连接（包括无线连接和有线连接）。

请参阅图2，对于待鉴别的一个未知网站，利用所述钓鱼网站鉴别系统100时，首先利用所述特征提取模块10提取所述未知网站的页面信息及排名信息，获得特征向量；然后利用特征向量降维模块20对所述特征向量（即所述未知网站的特征向量）进行降维，获得所述位置网络的降维后的特征向量；其后即可使用所述鉴别模块40进行鉴别，得到所述未知网站的分类结果。

请参阅图3，本发明第二实施例提供一种钓鱼网站鉴别方法，其包括如下步骤：

S11、利用所述特征提取模块10提取网站的页面信息及排名信息，获得特征向量。

所述特征提取模块10提取网站的页面信息及排名信息时，包括网站内容特征提取及网站排名特征提取，具体请参阅前述第一实施例，此处不再赘述。

S13、利用所述特征向量降维模块20对所述特征向量进行降维，获得降维后的特征向量。

本实施例中，所述特征向量降维模块20采用主成分分析方法对所述特征向量进行降维，具体请参阅前述第一实施例，此处不再赘述。

S15、利用分类训练模块30对已知网站的所述降维后的特征向量进行分类训练，获得分类模型。

本实施例中，所述分类训练模块30采用BP神经网络方法，对已知网站的所述降维的特征向量（即已知网站降维后的特征向量）进行训练，得到所述分类模型，具体请参阅前述第一实施例，此处不再赘述。

S17、利用鉴别模块40保存所述分类模型，并利用所述分类模型对未知网站的所述降维后的特征向量进行鉴别。

本实施例中，所述鉴别模块40保存所述分类模型，即保存所述分类训练模块30对已知网站的所述降维的特征向量进行训练所确定的权值（w_i,j，T_j,k）和阈值（θ_i，θ_k）；然后即可使用式（4）和式（5）对未知网站的所述降维后的特征向量进行鉴别，得到分类结果。

相对于现有技术，所述钓鱼网站鉴别系统100和所述钓鱼网站鉴别方法同时将网站排名和网站内容作为网站的特征向量，以此来提高网站鉴别的精度。本发明实施例中，所述特征向量降维模块20采用主成分分析方法对网站的特征向量进行降维，可以有效地提高鉴别效率。本发明实施例中，所述分类训练模块30对使用主成分分析方法降维后的网站特征向量使用BP神经网络进行分类，鉴别效率显著提高。此外，本发明实施例中，所述特征提取模块10提取网站的页面信息时，只保存中文汉字到文本中，并提取出适合中文钓鱼网站的特征表征与特征提取方法，进而对中文钓鱼网站进行分析，且采取合理的分类方法进行鉴别，可提高中文网站的鉴别检测的准确率。

以上所述，仅是本发明的实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种钓鱼网站鉴别系统，其特征在于，包括：

2.如权利要求1所述的钓鱼网站鉴别系统，其特征在于，所述特征向量包括网站内容的特征向量和网站排名信息的特征向量。

3.如权利要求2所述的钓鱼网站鉴别系统，其特征在于，所述特征提取模块提取网站的页面信息时只保存中文汉字到文本中，并对所述文本进行分词及提取所述文本中的名词和动词作为一级特征词。

4.如权利要求3所述的钓鱼网站鉴别系统，其特征在于，所述特征提取模块采用互信息法从所述一级特征词中选取特征词，作为网站内容的特征向量。

5.如权利要求1所述的钓鱼网站鉴别系统，其特征在于，所述特征向量降维模块采用主成分分析方法对所述特征向量进行降维。

6.如权利要求1所述的钓鱼网站鉴别系统，其特征在于，所述分类训练模块采用前馈神经网络方法对已知网站的所述降维后的特征向量进行分类训练，得到所述分类模型。

7.如权利要求1所述的钓鱼网站鉴别系统，其特征在于，所述特征向量降维模块和所述特征提取模块之间、所述分类训练模块和所述特征向量降维模块之间、所述鉴别模块和所述分类训练模块之间以及所述鉴别模块和所述特征向量降维模块之间为电性连接、数据连接或通信连接。

8.如权利要求1所述的钓鱼网站鉴别方法，其特征在于，所述网站包括所述已知网站和所述未知网站。

9.一种钓鱼网站鉴别方法，其特征在于，包括如下步骤：

10.如权利要求9所述的钓鱼网站鉴别方法，其特征在于，步骤S11中，所述网站包括所述已知网站和所述未知网站。