CN101820366B

CN101820366B - 一种基于预取的钓鱼网页检测方法

Info

Publication number: CN101820366B
Application number: CN2010101020714A
Authority: CN
Inventors: 张卫丰; 贡亮; 周国强; 张迎周
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2010-01-27
Filing date: 2010-01-27
Publication date: 2012-09-05
Anticipated expiration: 2030-01-27
Also published as: CN101820366A

Abstract

基于预取的钓鱼网页检测方法涉及网站信息获取、拓扑特征的提取、分类，主要解决了钓鱼网页检测能力问题。该方法以用户界面模块1为界面、总控模块2为中心，调度分类器模块3、特征提取模块4和网页预取模块5。其中分类器模块首先需要从训练集训练，并采用增量更新的方式，保证该分类器保持对新的钓鱼网页的检测能力。特征提取模块主要提取所预取的网站拓扑结构特征，该特征将被保存在训练集数据库中，同时传递给分类器模块。网页预取模块根据总控模块的指令抓取给定网址一定数量的网页，并保存到网页数据库中。本发明提出基于预取的钓鱼检测方法，在精度、召回率上都有了很大提高。

Description

一种基于预取的钓鱼网页检测方法

技术领域

本发明涉及一种钓鱼网站检测的方法，主要通过预取技术从网站拓扑角度对钓鱼网页进行分析和识别，属于信息安全与信息获取的交叉领域。

背景技术

“钓鱼网站”是随着网络普及和在线交易增加而变得异常猖獗的网络诈骗行为。“钓鱼网站”是犯罪分子做出的诈骗网站，“钓鱼网站”通常与银行网站或其他知名网站几乎完全相同，从而引放网站使用者在“钓鱼网站”上提交出敏感信息(如：用户名、口令、帐号ID、ATM PIN码或信用卡详细信息等)。最典型的网络钓鱼攻击过程如下：首先将用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上，然后获取用户在该钓鱼网站上输入的个人敏感信息，例如银行帐号、银行密码等。通常这个攻击过程不会让受害者警觉。这些个人信息对钓鱼网站持有者具有非常大的吸引力，通过使用窃取到的个人信息，他们可以假冒受害者进行欺诈性金融交易，获得极大的经济利益，而受害者们却因此而遭受到巨大的经济损失，非但如此，被窃取的个人信息还可能被用于其他非法活动。如何识别钓鱼网站，如何保证网站信息传输的保密完整性，愈发的显示出其重要性和必要性。

当前钓鱼网站识别主要靠计算机自动识别和人工识别两种方式，人工识别采用黑名单机制，用户对某个网站进行举报，通过人工鉴定是否为钓鱼网站，这样显然速度太慢。[Jackson2007]通过实验来分析人工检测钓鱼网页的效果。它首先将参加实验的人员分成三组(训练过的组、未训练过的组和未看过钓鱼网页验证技术的小组)。实验结果显示：用户比较难于处理视觉相似的钓鱼网页，另外，验证技术培训并未帮助用户辨别网页的真假。计算机自动识别目前主要是基于页面视觉相似性检测方式判断是否为钓鱼网站，电脑通过抽取网页的视觉，文字特征与大多数主要的合法网站页面进行相似度对比或进行机器学习，从而判断是否为钓鱼网站。

基于视觉的检测分为基于HMTL文本的检测、基于布局的检测和基于图像的检测。由于HMTL语言的灵活性和网页元素的动态性及丰富性，仿冒者可以轻易地做出视觉上一样但是HMTL结构不同的网页，这样，基于HMTL的匹配将完全失效。基于布局特征和图像特征的网页相似检测方法根据人的视觉原理，对网页的相似性进行计算，是一种通用的检测方法，如Fu等提出的基于EMD的视觉相似性检测方法[Fu2006]。但是由于钓鱼网页的更新速度很快，如果没有及时更新特征库，基于布局和视觉的检测系统将对此无能为力。

Zhang在2007年提出了一种新颖的基于内容的检测钓鱼网页的方法——CANTINA[Zhang2007]。该方法通过借助第三方的工具(比如搜索引擎)来检测钓鱼网页，它首先统计网页中的TF-IDF，把TF-IDF排序靠前的几个词条利用搜索引擎检索，如果该网页不出现在搜索结果的前面30个结果中，则认为是钓鱼网页。该方法具有较高的精度和较小的FP。但是法方法的效果值得商榷。我们做了对应的实验，结果发现：很多钓鱼网页可以在搜索引擎中搜索到，并且结果比较靠前。这可能跟钓鱼网页制作者做了搜索引擎优化有关。另外，这种方法不具有实际的可行性，一方面，Google搜索已经不提供用户通过API来访问其搜索服务，意味着这样的检测不能通过程序自动实现；另外，Google对来自同一IP的每天的搜索次数进行了限制，意味着不能应付大量的钓鱼网页检测。由此看来，这种寄生于第三方服务的方法正失去其意义。

此外，Nimeh2007从钓鱼网页传播的角度提出了一种特征提取方法[Nimeh2007]。该方法主要比较了六种机器学习方法在邮件特征分类上的效果：Logistic Regression(LR)，Classification and Regression Trees(CART)，BayesianAdditive Regression Trees(BART)，Support Vector Machines(SVM)，Random Forests(RF)，and Neural Networks(NNet)；数据集采用1171个包含phishing内容的邮件和1718个合法邮件，对于每个邮件提取43个特征。这种方法拓展了钓鱼网页的特征，在一定程度上进一步提高了钓鱼网页检测的精度，但是这种方法仍然在抽取钓鱼网页特征时仍然只是采用了单个网页的信息，因而容易被钓鱼网页制作者欺骗。

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上由取新的URL放入队列，直到满足系统的一定停止条件。主题爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

使用爬虫作为工具进行研究后发现，大型网站的拓扑结构非常复杂，网站内部有上千个页面和上万个链接；而一般中小型网站拓扑也比较复杂，网站内部有上百个页面；但是钓鱼网站的拓扑却出奇得简单(如图1)，一般被钓鱼网站模仿的正规网站大多是银行网站，用户众多，数据量大，网站结构是经过多人团队经过较长时间开发维护所形成的，网站拓扑极其复杂。钓鱼网站虽然少数页面逼真模仿正规网站，但由于是由少数不法分子经过短时间开发部署，很难将网站拓扑复杂程度做到和正规网站相当。

针对现有的钓鱼网页检测系统主要提取单个网页特征而忽略了钓鱼网页所在网站的特征的情形，我们提出基于网页预取的钓鱼网页检测方法。本发明就是利用钓鱼网站在拓扑上的潜在弱点，结合爬虫以及机器学习技术，获取并分析网站拓扑，设计出基于网站拓扑特征的钓鱼网页检测方法。

[Zhang2007]Y.Zhang，J.Hong，and L.Cranor.Cantina：A content-based approach todetecting phishing websites.W W W，2007

[Jackson2007]Collin Jackson，Daniel R.Simon，Desney S.Tan，and Adam Barth.AnEvaluation of Extended Validation and Picture-in-Picture Phishing Attacks.Proceedings of Usable Security(US EC′07)，February 2007

[Fu2006]Anthony Y.Fu，Wenyin Liu，Xiaotie Deng.Detecting Phishing Web Pages withVisual Similarity Assessment based on Earth Mover’s Distance(EMD).IEEETransactions on Dependable and Secure Computing，2006，3(4)，pages 301-311

[Nimeh2007]S.Abu-Nimeh，D.Nappa，X.Wang，and S.Nair.A comparison of machinelearning techniques for phishing detection.Proceedings of the eCrime ResearchersSummit，2007.

发明内容

发明目的：本发明的目的是提供一种基于预取的钓鱼网页检测方法。以往钓鱼网页识别技术只针对单个页面进行检测识别，识别效果与页面选取关系很大，属于“面向网页”的检测手段，无法从对网站进行综合分析。本发明从通过预取网站的几个页面，然后分析网站页面之间关系(网络拓扑)，实现了“面向站点”的分析和检测，进一步提高了钓鱼网站的识别率。

技术方案：本发明结合网络爬虫以及机器学习技术，对可对网络上任意网站进行信息预取，然后抽取网站特征，最后利用机器学习方法进行分类，最终达到检测识别钓鱼网站的最终目的。

●本发明技术方案主要分为三大部分：

1.网页预取部分。采用网络爬虫技术，自动提取网页的程序，它主要负责从万维网上下载网页。网络爬虫从一个初始网页的URL开始，建立HTTP连接，获取网页内容，对获取网页的源代码进行分析，获得初始网页上的所有URL，将符合标准的URL放入等待抓取的URL队列，当前页面分析结束以后继续从队列中取出下一个需要分析的页面。按照这样的步骤一直进行工作，直到达到要求完成对当前网站的数据抓取。最后将采集到的所有网页数据交给信息抽取部分进行特征提取。

2.信息抽取部分。根据爬虫抓取的原始数据，抽取出网站拓扑结构特征数据，目前特征数据包括：网站URL，爬虫起始网页URL，和如下15个数字特征：

(1)网页数量

(2)外网链接入数量

(3)链接向外网数量

(4)内部链接数量

(5)页面平均图片数量

(6)页面平均css文件数量

(7)页面平均javascript文件数量

(8)平均入度

(9)平均出度

(10)页面平均表单数量

(11)页面平均输入控件数量

(12)页面平均输入密码框数量

(13)平均链接外部网站数量

(14)表单链接比例

(15)动态页面比例

该模块对预取的网站抽取出以上15种数字特征数据，这种数据有两种用途：首先，这些数据可以进行人工标注，标注过的数据可以训练分类器；其次，可以传给机器学习模块进行钓鱼网站识别。

3.分类器学习部分。其核心任务就是从样本中推理，学习模块事先使用标注的实例数据训练分类器，以选择性能较好的分类模型，并优化分类模型中的参数。在得到训练好的分类器以后，对于由特征抽取模块产生的实例数据可以直接输入分类器模块，分类器模块依照优化的分类器模型判断当前网站是否为钓鱼网站。此外，分类器对于判断后的结果采用增量学习方法，使得分类保证及时更新。

●基于预取的钓鱼网站检测方法所包含的步骤为：

主要可以分为两大部分：

(1)分类器的学习

步骤1)使用网络爬虫采集m个正规网站(非钓鱼网站)的数据(m＞＝200)，并抽取出特征量组织成实例数据；

步骤2)使用网络爬虫采集n个钓鱼网站的数据(n＞＝200)，并抽取出特征量组织成实例数据；

步骤3)将所有正规网站实例数据中分类属性(Class Attribute)全部填写为“false”，表示非钓鱼网站；

步骤4)将所有钓鱼网站实例数据中分类属性(Class Attribute)全部填写为“true”，表示钓鱼网站；

步骤5)将修改过的正规网站实例数据与钓鱼网站实例数据一起作为训练数据传入机器学习模块；

步骤6)选取一种机器学习算法(Logistic，Simple Logistic等)算法进行训练；

步骤7)保存选择并训练好的分类器(包含优化的参数)。

(2)钓鱼网站检测

步骤1)使用网络爬虫对可疑站点预取一定数量的网页，并抽取所采集几个网页的特征数据；

步骤2)将抽取出的特征数据送入训练好的分类器进行分类；

步骤3)根据分类结果给出警告信息(钓鱼网页)或通过(正常网页)。

有益效果：由于基于网络拓扑的钓鱼网页检测方法采用面向站点的分析手段，本发明具有以下一些特殊优点和有益成果：

高准确率：分类问题主要的评价指标为精度(precision)和召回率(recall)，在钓鱼网站检测识别中，精度表示判断为钓鱼网站的所有站点中，确实是钓鱼网站的比例，召回率表示所有钓鱼网站中被识别为钓鱼网站所占比例。显然精度和召回率越高表示效果越好。经过实验证明，本发明提出的钓鱼网站检测采用Simple Logistic分类器进行机器学习以后精度和召回率均为99.1％，比其它几种钓鱼网站检测方法效果有明显提升。

较强的可扩展性：由于现有抽取的特征信息种类很少(只有15种)，如果今后不法分子进一步提高钓鱼网站的伪装性，可以通过增加对被检测网站抽取的信息种类保证准确率，比如通过添加第三方的特征和包含钓鱼网页的邮件特征等，同时由于采用机器学习手段进行钓鱼网站检测，可以不断扩充训练数据集，进一步提高判断的准确性。

较快的检测速度：传统爬虫采集整个网站的信息速度较慢，本发明改进了爬虫模块，只遍历网站部分页面，提高检测速度。

附图说明

图1是一个钓鱼网站的拓扑图。

图2训练分类器模块的数据流向。途中反映了钓鱼网页检测器从网站抓取数据，到抽取特征量，到生成训练数据的具体流程。

图3进行钓鱼网站检测的数据流图。

图4基于预取的钓鱼网站检测系统模块结构。

具体实施方式

1.系统模块之间的关系

系统由5个模块组成(见图4)，其中最上层是用户界面模块，主要负责获取用户输入并将结果反馈回用户，中间是控制模块，负责调度所有功能模块完成钓鱼网站检测。共有3个功能模块：

网络爬虫模块，负责遍历网站一定数量的页面，并将获取的所有网页原始数据交给下一模块；

特征提取模块，负责接收爬虫模块获取的网页原始数据，按照一定的算法(下面介绍)抽取指定的特征值，并将特征数据交给下一模块进行分析；

机器学习模块，在系统训练阶段接收特征提取模块传来的特征数据进行训练(学习)，选择并优化分类器的数学模型；在系统实际运行阶段(检测钓鱼网站的时候)接收特征提取模块传来的特征数据，并结合训练阶段所得模型，对网站进行检测判断。

2.改进的爬虫模块的操作流程

爬虫一般是应用于搜索领域，需要尽可能遍历因特网上的页面资源，但是对于钓鱼网站检测来说就没有必要遍历那么多资源，本发明对普通爬虫的工作流程进行改进，只需要对指定网站进行有限遍历，具体爬虫工作步骤如下：

步骤1)爬虫初始化，设置已经遍历网页curN＝0，获取每个网站遍历页面上限数量maxN；

步骤2)输入需要检测网站的一个页面URL(通常是主页或者需要输入用户名和密码的页面)，记录下该URL所属网站的地址，并将该URL加入未爬行URL队列；

步骤3)从URL队列中取出一个URL-temp，从队列中删除URL-temp，另外设置curN＝curN+1；

步骤4)爬虫建立Http连接，获取URL-temp页面源代码

步骤5)使用正则表达式搜索URL-temp页面中的下一个链接URL-i；如果找到，跳转向步骤6，如果没找到跳转向步骤8；

步骤6)判断URL-i是否是当前检测网站的网页，如果是，跳转向步骤7，否则跳转到步骤5；

步骤7)将URL-i加入未爬行URL队列；跳转至步骤5；

步骤8)如果curN＞＝maxN则算法结束，否则跳转至步骤3。

3.特征提取模块以及所提取的特征的详细介绍

特征提取模块分析爬虫模块传来的每个页面的源代码，并统计如下特征值：

●网页数量

当前网站经过分析页面的数量；

●外网链接入数量

因特网上别的网站页面指向当前分析页面的链接数量。这个可以通过Google提供的搜索功能获取。

●链接向外网数量

当前被分析网站页面中指向非本网站页面的链接数量；

●内部链接数量

当前被分析网站页面指向本网站页面的链接数量；

●页面平均图片数量

记录下当前页面中图片数量；

●页面平均css文件数量

记录下当前页面所使用的css文件数量；

●页面平均javascript文件数量

记录下当前页面所使用的javascript文件数量；

●平均入度

所有指向当前页面的链接数量(包括来自本网站和外网的链接)；

●平均出度

当前网站链接至其他页面的链接数量(包括指向本网站和外网的链接)；

●页面平均表单数量

页面源代码中<form>标签的数量；

●页面平均输入控件数量

页面源代码中<input>标签数量；

●页面平均输入密码框数量

页面源代码中包含“type＝”password””的“<input>”标签数量；

●平均链接外部网站数量

当前页面指向外部网站的数量；

●表单链接比例

通过<form>中action进行页面跳转的链接数量除以所有当前页面所有链接的比值，即：页面平均表单数量/平均出度；

●动态页面比例

当前网站中动态页面与所有页面数量的比值，动态页面即以php，aspx，asp，jsp等后缀结尾的页面，静态页面即以htm，html等后缀结尾的页面。

Claims

1.一种基于预取的钓鱼网页检测方法，其特征在于在钓鱼网页检测过程中通过爬虫预取一定数量的网页，在此基础上提取网站拓扑特征，以此作为钓鱼网页检测的依据，分类器采用增量学习方法，保证了分类器的及时更新，具体实现步骤为：

步骤1)网络爬虫获取初始训练集的过程：使用网络爬虫采集m个正规网站即非钓鱼网站的数据，其中m＞＝200，并抽取出特征量组织成实例数据；使用网络爬虫采集n个钓鱼网站的数据，其中n＞＝200，并抽取出特征量组织成实例数据，

其中抽取出特征量是抽取以下15种特征：