CN103544436A

CN103544436A - 一种钓鱼网站鉴别系统和方法

Info

Publication number: CN103544436A
Application number: CN201310477276.4A
Authority: CN
Inventors: 张巍; 姜青山
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2013-10-12
Filing date: 2013-10-12
Publication date: 2014-01-29
Anticipated expiration: 2033-10-12
Also published as: CN103544436B

Abstract

本发明提出一种钓鱼网站鉴别系统，包括页面爬取模块、特征提取模块、网页关系建模模块、决策树分类模块及鉴别模块；页面爬取模块爬取网站的页面源代码，并提取网站的中文文本及网站的内/外链接数量；特征提取模块提取网站的页面特征词、内/外链接数量之比及排名信息；网页关系建模模块根据所述页面特征词获取所述网站和黑/白名单的关系；决策树分类模块使用决策树进行训练，构建决策树分类模型；鉴别模块保存决策树分类模型，并利用决策树分类模型对未知网站进行鉴别，判断是否为钓鱼网站。可有效提高分类鉴别的准确性，且可克服基于黑名单的检测技术只能识别在黑名单中的钓鱼网站的局限性。另外提供钓鱼网站鉴别方法。

Description

一种钓鱼网站鉴别系统和方法

技术领域

本发明涉及网络安全技术领域，尤其涉及一种钓鱼网站鉴别系统和方法。

背景技术

随着互联网的迅速发展和信息化进程的深入，人们的工作、学习和生活方式与互联网的结合已变得越来越紧密，即时通信、电子邮件、电子商务、网络游戏、网上办公等与人们的日常生活息息相关。但是，紧随信息化发展而来的信息安全问题也已日渐凸出，网络犯罪层出不穷。网络钓鱼是最为严重的互联网犯罪形式之一，在近几年频繁出现。所谓“钓鱼网站”，是指不法分子利用各种手段，仿冒真实网站的地址以及页面内容，或者利用真实网站服务器程序上的漏洞，在站点的某些网页中插入危险的HTML代码，以此来骗取用户银行或信用卡账号、密码等私人资料。在巨大经济利益的诱惑下，钓鱼网站已逐步显现出较为完整的“产业链”。在这个产业链中，建设钓鱼网站轻而易举，只要申请一个域名，很快就能建一个伪装成银行网站或电子购物网站的钓鱼网站，一般二、三百元就可以做一个。与此同时，钓鱼网站具有相当强的欺骗性，以假淘宝举例介绍说，不仅用假网站骗买家，更有骗卖家的。比如，给客服发个假链接，一旦打开，卖家的支付宝账号、密码即有可能被窃。网络钓鱼的日渐猖撅,已严重影响到在线金融服务和电子商务的发展，也时刻危害公众利益。

在中国互联网络中，中文钓鱼网站的数量也逐渐频繁地增加出现，严重损害了电子商务以及金融在线服务的发展，为公共利益带来了严重的危害，打击了公众互联网用户对网络应用上的信心与支持。由于互联网的基本特性，中文钓鱼网站的来源以及带来的危害已经超越国界，逐渐成为了一个让全球互联网用户关注并担忧的问题。

目前，钓鱼网站的防御与识别方法主要包括人工举报、基于黑名单技术及基于网站的启发式识别等，其中：

（1）人工举报与识别

在反钓鱼技术大面积应用前的早期阶段，由于钓鱼网站的数量、种类比较少，反釣鱼也基本是借助人工进行识别。随着技术的更新，举报方式的反釣鱼模式逐渐变为辅助手段。但是，对于一些特殊钓鱼站点的识别，人工方式还是有其独特的作用。对于钓鱼网站URL的举报与校验，一些开源举报组织已做的非常完善，同一条记录由多个志愿者共同识别后。识别率以及准确度都可达到相当高的水平。

（2）基于黑名单的检测技术

基于黑名单的检测技术采用URL地址黑名单对比的方式来进行钓鱼网站的检测拦截，当用户每次进行互联网网页访问的时候，钓鱼检测系统就将访问的URL与黑名单数据库中的URL地址进行匹配对比，如果匹配成功之后就会向用户显示钓鱼网站的警告，同时拦截用户对该页面的访问。黑名单匹配的方法存在的一个缺陷就是：它仅仅可以检测识别已知的有害网站及其发布者，对新的钓鱼攻击威胁则无能为力，这直接导致这种传统检测拦截方法的成功率较低。

（3）基于启发式的识别技术

基于启发式的识别技术是一种利用机器学习算法对页面进行识别分类的方法，通过对大量的钓鱼网站样本进行分析处理，从中提取出最能够表现钓鱼网站页面的各种特征，然后利用统计机器学习方法，模式识别与数据挖掘等技术，对待判定的未知网站进行分类，判别其是否为钓鱼网站。由于钓鱼站点的URL与合法站点的URL具有许多明显的差异，如主机域名或者某些特定的敏感词，因此可以使用URL的域名、URL类型包含字段以及PageRank进行建模。提取站点页面的特征是也是比较常用的一种方法，这些特征包括页面的内容文字、DOM结、HTML中链接的属性等。钓鱼网站的页面中此类特征与合法站点的页面因为具有较为明显的区别，因此也可以用于钓鱼网站的分类鉴别。

然而，目前检测钓鱼网站的研究方法与技术仍存在着一些问题：1）人工举报与识别需要借助个人的经验，并且效率比较低；2）基于黑名单的检测技术只能识别在黑名单中的钓鱼网站，而对于层出不穷的新钓鱼网站则无法准确识别；3）基于启发式的识别技术误报率较高，因为需要准确提取出能够代表网站信息的特征，而现有方法还不完善。另外，当前反钓鱼研究基本都集中在对英文钓鱼网站的识别，对中文钓鱼网站检测研究较少，因此需要对中文钓鱼网站进行全面研究，提取出适合中文钓鱼网站的特征表征与特征提取方法，进而对中文钓鱼网站进行分析，采取合理的分类方法进行鉴别，提高检测的准确率。

发明内容

针对上述问题，本发明的目的是提供一种可解决上述技术问题的钓钓鱼网站鉴别系统和方法。

一种钓鱼网站鉴别系统，其包括：

页面爬取模块，用于爬取网站的页面源代码，并提取网站的中文文本及网站的内/外链接数量；

特征提取模块，其和所述页面爬取模块相连接，用于提取所述网站的页面特征词、内/外链接数量之比及排名信息；

网页关系建模模块，其和所述特征提取模块相连接，用于根据所述页面特征词获取所述网站和黑/白名单的关系；

决策树分类模块，其和所述网页关系建模模块相连接，用于将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量，并使用决策树进行训练，构建决策树分类模型；及

鉴别模块，其和所述决策树训练模块及所述网页关系建模模块分别相连接，用于保存所述决策树分类模型，并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别，判断所述未知网站是否为钓鱼网站。

本发明一较佳实施例中，所述网站包括所述已知网站和所述未知网站。

本发明一较佳实施例中，所述页面爬取模块使用网络爬虫技术爬取所述网站的页面的所有内容，获取网站源代码。

本发明一较佳实施例中，所述特征提取模块包括特征词提取子模块、特征词频率计算子模块、链接特征提取子模块及网站排名特征提取子模块；所述特征词提取子模块对所述页面爬取模块提取出的中文文字进行分词；所述特征词频率计算子模块根据所述特征词提取子模块获取的特征词向量，计算网页出现所述特征词向量中每一个特征词的频率；所述链接特征提取子模块从所述页面爬取模块获取的网站源代码中，计算内/外链接数量之比；所述网站排名特征提取子模块将网站的排名信息作为网页的一个特征向量。

本发明一较佳实施例中，所述网页关系建模模块根据所述特征词提取子模块提取的特征词分别与白名单和黑名单的共有词之间的关系来获取所述网站和和黑/白名单的关系。

本发明一较佳实施例中，所述决策树分类模块采用C4.5决策树算法。

本发明一较佳实施例中，所述特征提取模块和所述页面爬取模块之间、所述网页关系建模模块和所述特征提取模块之间、所述决策树分类模块和所述网页关系建模模块之间、所述鉴别模块和所述决策树训练模块之间以及所述鉴别模块和所述网页关系建模模块之间为电性连接、数据连接或通信连接。

本发明另外提供一种钓鱼网站鉴别方法，其包括如下步骤：

S11、利用页面爬取模块爬取网站的页面源代码，并提取网站的中文文本及网站的内/外链接数量；

S13、利用特征提取模块提取所述网站的页面特征词、内/外链接数量之比及排名信息；

S15、利用网页关系建模模块根据所述页面特征词获取所述网站和黑/白名单的关系；

S17、利用决策树分类模块将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量，并使用决策树进行训练，构建决策树分类模型；及

S19、利用鉴别模块保存所述决策树分类模型，并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别，判断所述未知网站是否为钓鱼网站。

本发明一较佳实施例中，步骤S11中，所述网站包括所述已知网站和所述未知网站。

相对于现有技术，所述钓鱼网站鉴别系统和所述钓鱼网站鉴别方法具有如下优点：其一、将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量，并使用决策树进行训练，构建决策树分类模型，对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别，可以有效提高分类鉴别的准确性，且可克服基于黑名单的检测技术只能识别在黑名单中的钓鱼网站的局限性。其二、对网页的文本进行分词、特征词提取后，建立与黑、白名单的关系，并将与黑、白名单的关系作为特征向量之一，进行训练，减少了训练数据的维度，可有效地提高训练效率。其三、所述钓鱼网站鉴别系统和所述钓鱼网站鉴别方法利用所述页面爬取模块提取网站的中文文本，并利用所述特征提取模块提取页面特征词，进而可以对中文钓鱼网站进行分析，且采取合理的分类方法进行鉴别，可提高中文网站的鉴别检测的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举实施例，并配合附图，详细说明如下。

附图说明

图1为本发明第一实施例提供的钓鱼网站鉴别系统的组成示意图；

图2为图1所示钓鱼网站鉴别系统的工作示意图；

图3为本发明第二实施例提供的钓鱼网站鉴别方法的流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

请参阅图1，本发明第一实施例提供一种钓鱼网站鉴别系统100，其包括页面爬取模块10、特征提取模块20、网页关系建模模块30、决策树分类模块40及鉴别模块50；所述页面爬取模块10用于爬取网站的页面源代码，并提取网站的中文文本及网站的内/外链接数量；所述特征提取模块20和所述页面爬取模块10相连接，用于提取所述网站的页面特征词、内/外链接数量之比及排名信息；所述网页关系建模模块30和所述特征提取模块20相连接，用于根据所述页面特征词获取所述网站和黑/白名单的关系；所述决策树分类模块40和所述网页关系建模模块30相连接，用于将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量，并使用决策树进行训练，构建决策树分类模型；所述鉴别模块50和所述决策树训练模块40及所述网页关系建模模块30分别相连接，用于保存所述决策树分类模型，并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别，判断所述未知网站是否为钓鱼网站。

可以理解的是，所述网站包括已知网站和未知网站，所述特征向量包括网站和黑/白名单的关系、网站的内/外链接数量之比及网站的排名信息，即本实施例中，所述页面爬取模块10分别针对已知网站和未知网站进行页面源代码爬取、中文文本及内/外链接数量的提取，所述特征提取模块20分别针对已知网站和未知网站进行页面特征词、内/外链接数量之比及排名信息的提取，并分别获得已知网站的特征向量和未知网站的特征向量。

本实施例中，所述页面爬取模块10使用网络爬虫技术爬取所述网站的页面的所有内容，获取网站源代码。具体地，先建立HTTP链接，爬取网站的页面源代码，并提取出中文文字与网页所有链接，包括内、外所有链接。

所述特征提取模块20包括特征词提取子模块21、特征词频率计算子模块23、链接特征提取子模块25及网站排名特征提取子模块27，本实施例中，在训练阶段使用特征词提取子模块21、特征词频率计算子模块23、链接特征提取子模块25及网站排名特征提取子模块27，在测试阶段使用特征词频率计算子模块23、链接特征提取子模块25及网站排名特征提取子模块27。

所述特征词提取子模块21对所述页面爬取模块10提取出的中文文字进行分词，本实施例中，先使用NLPIR汉语分词系统对所述中文文字进行分词，然后使用TF-IDF提取出关键词，其计算公式如下：

TF-IDF(w_i)=TF(w_i)*IDF(w_i)=TF_j(w_i)*log(N/DF(w_i)) （1）

其中，TF(w_i)是指当前中文词在页面j中出现的频率，N表示所有训练的网页个数，DF(w_i)表示网页集合中有多少网页中出现了当前词项w_i。本实施例中，将词项按照TF-IDF值的大小进行排列，获取TF-IDF值较大的前40个词项，得到一个特征词向量，记为FW={w₁,w₂,…,w_N},N=40。

所述特征词频率计算子模块23根据所述特征词提取子模块21获取的特征词向量，计算网页出现所述特征词向量中每一个特征词的频率。

所述链接特征提取子模块25从所述页面爬取模块10获取的网站源代码中，计算内/外链接数量之比，记为N_lk，本实施例中，如果N_lk小于0.2，则记为-1，如果N_lk大于等于0.2，则记为1。

所述网站排名特征提取子模块27将网站的排名信息作为网页的一个特征向量，本实施例中，使用http://alexa.chinaz.com/来查询网站的排名信息pg，并将排名信息N_pg表示为{-1,1},其中，1表示能够通过http://alexa.chinaz.com/查询到网站的排名信息，-1表示不能通过http://alexa.chinaz.com/查询到网站的排名信息。可以理解的是，网站的排名信息的查询并不局限于本实施例，也可以采用其他方式来查询，只要能获取网站的排名信息即可。

所述网页关系建模模块30根据所述特征词提取子模块21提取的特征词分别与白名单和黑名单的共有词关系来获取所述网站和和黑/白名单的关系。具体地，所述网页关系建模模块30根据所述特征词提取子模块21提取的特征词，计算每一个网址wp_i分别与白名单Rwp₁,Rwp₂,....Rwp_N、黑名单Fwp₁,Fwp₂,....Fwp_N的共有词个数RNC_i1,RNC_i2,...RNC_iN，FNC_i1,FNC_i2,...FNC_iN，并将所有RNC_ij>3的个数之和记为N_r，将所有FNC_ij>3的个数之和记为N_f，由此，即构建出每一个网址和黑/白名单之间的关系模型，亦即获取所述网站和黑/白名单的关系。

所述决策树分类模块40将网页特征记为FT(N_f,N_r,N_pg,N_lk)，并对白名单、黑名单及其对应的类标号，记为D，叶节点的类标号为C1(是钓鱼网站)和C2(不是钓鱼网站)，本实施例中，所述决策树分类模块40采用C4.5决策树算法获得决策树结构，算法的基本原理如下：

(a)将所述网页特征FT(N_f,N_r,N_pg,N_lk)作为候选属性集。

(b)创建一个节点N，计算数据分区D划分前的期望信息：

Info (D) = - Σ_{i = 1}^{2} p_{i} lo g_{2} (p_{i}) - - - (2)

其中，p_i表示数据分区D中属于C_i类的概率。

(c)将N_f作为节点N进行测试输出，并将N_f是否大于5作为判定标准，本实施例中，N_f>5为“Yes”,N_f<=5为“No”，由此，属性N_f就将数据分区D划分为2个分区，记为D1（N_f>5）与D2（N_f<=5）。

计算数据分区D由N_f划分后的期望信息：

{Info}_{N_{f}} (D) = Σ_{j = 1}^{2} \frac{| D_{j} |}{| D |} * Info (D_{j}) - - - (3)

如果Dj为空，则加一个树叶到节点N，标记D中的多数类。

(d)计算其信息增益率，计算公式如下：

Gain (N_{f}) = Info (D) - Inf o_{N_{f}} (D) - - - (4)

(e)计算信息增益率，计算公式如下：

GainRatio (N_{f}) = \frac{Gain (N_{f})}{- Σ_{j = 1}^{v} \frac{| D_{j} |}{| D |} * \log_{2} (\frac{| D_{j} |}{| D |})} - - - (5)

重复进行步骤(b)、(c)、(d)、(e)计算N_r,N_pg,N_lk的信息增益。

(f)比较N_f,N_r,N_pg,N_lk的增益率，将增益率最大的作为节点N的测试输出，并将其从候选属性集中删除。

(g)重复进行(c)、(d)、(e)、(f)，直到候选属性集为空。

可以理解的是，本实施例中，所述决策树分类模块40基于已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息，进行决策树训练，并构建决策树分类模型。

所述鉴别模块50保存所述决策树分类模块40获得的决策树结构。

可以理解的是，所述特征提取模块20和所述页面爬取模块10之间、所述网页关系建模模块30和所述特征提取模块20之间、所述决策树分类模块40和所述网页关系建模模块30之间、所述鉴别模块50和所述决策树训练模块40之间以及所述鉴别模块50和所述网页关系建模模块30之间为电性连接、数据连接或通信连接（包括无线连接和有线连接）。

请参阅图2，对于待鉴别的一个未知网站，利用所述钓鱼网站鉴别系统100时，先利用所述页面爬取模块10爬取所述未知网站的页面源代码，并提取所述未知网站的中文文本及所述未知网站的内/外链接数量；其后利用所述特征提取模块20提取所述未知网站的页面特征词、内/外链接数量之比及排名信息，并获得特征向量；然后利用所述网页关系建模模块30获取所述未知网站和黑/白名单的关系，并构建关系模型；再利用所述决策树分类模型对所述未知网站和黑/白名单的关系、所述未知网站的内/外链接数量之比及所述未知网站的排名信息进行鉴别，判断所述未知网站是否为钓鱼网站，即鉴别出所述未知网站是正常网站还是钓鱼网站。

请参阅图3，本发明第二实施例提供一种钓鱼网站鉴别方法，其包括如下步骤：

S11、利用所述页面爬取模块10爬取网站的页面源代码，并提取网站的中文文本及网站的内/外链接数量。

S13、利用特征提取模块20提取所述网站的页面特征词、内/外链接数量之比及排名信息，并获得特征向量。

所述特征提取模块20包括特征词提取子模块21、特征词频率计算子模块23、链接特征提取子模块25及网站排名特征提取子模块27，本实施例中，在训练阶段使用特征词提取子模块21、特征词频率计算子模块23、链接特征提取子模块25及网站排名特征提取子模块27，在测试阶段使用特征词频率计算子模块23、链接特征提取子模块25及网站排名特征提取子模块27，具体请参阅前述第一实施例，此处不再赘述。

S15、利用所述网页关系建模模块30获取所述网站和黑/白名单的关系，并构建关系模型。

本实施例中，所述网页关系建模模块30根据所述特征词提取子模块21提取的特征词分别与白名单和黑名单的共有词关系来获取所述网站和和黑/白名单的关系，具体请参阅前述第一实施例，此处不再赘述。

S17、利用所述决策树分类模块40将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量，并使用决策树进行训练，构建决策树分类模型。

所述决策树分类模块40将网页特征记为FT(N_f,N_r,N_pg,N_lk)，并对白名单、黑名单及其对应的类标号，记为D，叶节点的类标号为C1(是钓鱼网站)和C2(不是钓鱼网站)，本实施例中，所述决策树分类模块40采用C4.5决策树算法获得决策树结构，具体请参阅前述第一实施例，此处不再赘述。

S19、利用所述鉴别模块50保存所述决策树分类模型，并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别，判断所述未知网站是否为钓鱼网站。

相对于现有技术，所述钓鱼网站鉴别系统100和所述钓鱼网站鉴别方法具有如下优点：其一、将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量，并使用决策树进行训练，构建决策树分类模型，对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别，可以有效提高分类鉴别的准确性。其二、对网页的文本进行分词、特征词提取后，建立与黑、白名单的关系模型，并将与黑、白名单的关系作为特征向量之一，进行训练，减少了训练数据的维度，可有效地提高训练效率。其三、所述钓鱼网站鉴别系统100和所述钓鱼网站鉴别方法利用所述页面爬取模块10提取网站的中文文本，并利用所述特征提取模块20提取页面特征词，进而可以对中文钓鱼网站进行分析，且采取合理的分类方法进行鉴别，可提高中文网站的鉴别检测的准确率。

以上所述，仅是本发明的实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种钓鱼网站鉴别系统，其特征在于，包括：

2.如权利要求1所述的钓鱼网站鉴别方法，其特征在于，所述网站包括所述已知网站和所述未知网站。

3.如权利要求1所述的钓鱼网站鉴别系统，其特征在于，所述页面爬取模块使用网络爬虫技术爬取所述网站的页面的所有内容，获取网站源代码。

4.如权利要求1所述的钓鱼网站鉴别系统，其特征在于，所述特征提取模块包括特征词提取子模块、特征词频率计算子模块、链接特征提取子模块及网站排名特征提取子模块；所述特征词提取子模块对所述页面爬取模块提取出的中文文字进行分词；所述特征词频率计算子模块根据所述特征词提取子模块获取的特征词向量，计算网页出现所述特征词向量中每一个特征词的频率；所述链接特征提取子模块从所述页面爬取模块获取的网站源代码中，计算内/外链接数量之比；所述网站排名特征提取子模块将网站的排名信息作为网页的一个特征向量。

5.如权利要求4所述的钓鱼网站鉴别系统，其特征在于，所述网页关系建模模块根据所述特征词提取子模块提取的特征词分别与白名单和黑名单的共有词之间的关系来获取所述网站和和黑/白名单的关系。

6.如权利要求1所述的钓鱼网站鉴别系统，其特征在于，所述决策树分类模块采用C4.5决策树算法。

7.如权利要求1所述的钓鱼网站鉴别系统，其特征在于，所述特征提取模块和所述页面爬取模块之间、所述网页关系建模模块和所述特征提取模块之间、所述决策树分类模块和所述网页关系建模模块之间、所述鉴别模块和所述决策树训练模块之间以及所述鉴别模块和所述网页关系建模模块之间为电性连接、数据连接或通信连接。

8.一种钓鱼网站鉴别方法，其特征在于，包括如下步骤：

9.如权利要求8所述的钓鱼网站鉴别方法，其特征在于，步骤S11中，所述网站包括所述已知网站和所述未知网站。