CN101894134A

CN101894134A - 一种基于空间布局的钓鱼网页检测及其实现方法

Info

Publication number: CN101894134A
Application number: CN 201010204724
Authority: CN
Inventors: 张卫丰; 贡亮; 张迎周; 周国强; 许碧欢; 陆柳敏
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2010-06-21
Filing date: 2010-06-21
Publication date: 2010-11-24
Anticipated expiration: 2030-06-21
Also published as: CN101894134B

Abstract

一种基于空间布局的钓鱼网页检测方法涉及了一种基于页面视觉布局特征结合空间数据库的设计方案，主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题，系统由5个模块组成，其中最上层是用户界面模块，主要负责获取用户输入并将结果反馈回用户，中间是控制模块，负责调度所有功能模块完成钓鱼网站检测。最核心的是3个功能模块，即：布局特征抽取模块、空间数据库模块、机器学习匹配模块。经大量实验数据检验证明，该方法构建了一种高速高精度钓鱼网页检测系统，在保证高准确率的同时，处理数据容量上有了重大提升，并显著减小网页检测时间。

Description

一种基于空间布局的钓鱼网页检测及其实现方法

技术领域

本发明涉及一种钓鱼页检测的方法，主要从网页视觉布局相似性角度对钓鱼网页进行匹配和识别，属于信息安全领域。

背景技术

“钓鱼网站”是随着网络普及和在线交易增加而变得异常猖獗的网络诈骗行为。“钓鱼网站”是犯罪分子做出的诈骗网站，“钓鱼网站”通常与银行网站或其他知名网站几乎完全相同，从而引诱网站使用者在“钓鱼网站”上提交出敏感信息(如：用户名、口令、帐号ID、ATM PIN码或信用卡详细信息等)[Zhang2007]。最典型的网络钓鱼攻击过程如下：首先将用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上，然后获取用户在该钓鱼网站上输入的个人敏感信息，例如银行帐号、银行密码等。通常这个攻击过程不会让受害者警觉。这些个人信息对钓鱼网站持有者具有非常大的吸引力，通过使用窃取到的个人信息，他们可以假冒受害者进行欺诈性金融交易，获得极大的经济利益，而受害者们却因此而遭受到巨大的经济损失，非但如此，被窃取的个人信息还可能被用于其他非法活动。如何识别钓鱼网站，如何保证网站信息传输的保密完整性，愈发的显示出其重要性和必要性。

当前钓鱼网站识别主要靠计算机自动识别和人工识别两种方式，人工识别采用黑名单机制，用户对某个网站进行举报，通过人工鉴定是否为钓鱼网站，这样显然速度太慢。计算机自动识别目前主要是基于页面视觉相似性检测方式判断是否为钓鱼网站，电脑通过抽取网页的视觉，文字特征与大多数主要的合法网站页面进行相似度对比或进行机器学习，从而判断是否为钓鱼网站。

空间数据库是一种在地理信息方面应用较多的空间查询技术，采用R树为数据结构。由于网页布局特征信息需要查找视觉上靠近的所有矩形，这里结合空间数据库存储网页的特征，可快速获取特征库中所有视觉上相似以及位置上靠近的布局特征。

[Zhang2007]Y.Zhang，J.Hong，and L.Cranor.Cantina：A content-based approach todetecting phishing websites.WWW，2007

[Fu2006]Anthony Y.Fu，Wenyin Liu，Xiaotie Deng.Detecting Phishing Web Pages withVisual Similarity Assessment based on Earth Mover’s Distance(EMD).IEEETransactions on Dependable and Secure Computing，2006，3(4)，pages 301-311

发明内容

技术问题：本发明的目的是提供一种基于空间布局的钓鱼网页检测及其实现方法，以往钓鱼网页识别主要通过人工识别，目前现有的计算机识别的钓鱼网页检测技术主要从网页元素角度对检测网页进行匹配检测，匹配速度往往无法达到实际使用的要求。本发明从网页的布局角度进行特征抽取、特征匹配，大大提高了页面匹配的速度，同时保证了高精度和低误判率。

技术方案：本发明结合浏览器渲染引擎，对指定的可疑网页进行视觉布局特征抽取，再利用空间数据库索引查找空间位置相近、视觉相似的布局特征，经过统计分析找到样本空间中最为相似的合法网页，从而达到钓鱼网页检测的目的。

该方法由5个模块组成，其中最上层是用户界面模块，主要负责获取用户输入并将结果反馈回用户，中间是控制模块，负责调度所有功能模块完成钓鱼网站检测，最核心的是3个功能模块，即：布局特征抽取模块、空间数据库模块、机器学习匹配模块；其中布局特征抽取模块抽取块状网页布局特征，该布局特征在训练阶段送交空间数据库模块建立索引或进行查询，在钓鱼网页检测阶段该模块抽取的布局特征送至空间数据库模块查询相似特征；空间数据库模块在训练时期对数据特征建立空间索引，在钓鱼网页检测阶段进行相似特征的快速查询，查询所得相似特征交给机器学习匹配模块进行识别；机器学习匹配模块在系统训练阶段接收特征提取模块传来的特征数据进行训练，优化网页相似性阀值的参数；在钓鱼网页检测阶段，接收特征提取模块传来的特征数据，与空间数据库中相似特征，计算网页之间的相似性，最后根据网页相似性阀值判断钓鱼网页；

在钓鱼网页检测过程中通过浏览器内核解析网页源代码并提取空间布局特征，以此作为钓鱼网页检测的依据，并在特征库中结合空间数据库提高查询速度，具体实现步骤为：

步骤1)训练阶段数据准备过程：采集至少100个可能被钓鱼网页模仿的正规网站页面，并抽取出布局特征组织成样本数据；将所有样本数据的布局特征插入空间数据库；采集至少100个钓鱼网站页面以及100个普通网页，并抽取特征组织成测试数据；

布局特征由以下四个数值属性组成：

●DOM节点的高度

这里的高度表示浏览器引擎解析了网页的HTML源代码，css源代码以及javascript源代码以后所得网页元素在垂直方向上象素点个数，

●DOM节点的宽度

这里的宽度表示浏览器引擎解析了网页的HTML源代码，css源代码以及javascript源代码以后所得网页元素在水平方向上象素点个数，

●DOM节点的X坐标

设Web浏览器显示区域最左上角的象素点坐标为(0，0)，这里的X坐标表示浏览器引擎解析了网页的HTML源代码，css源代码以及javascript源代码以后所得网页元素的最左上角象素点相对于(0，0)坐标在水平方向上的距离，其中距离为1表示相差一个象素点，

●DOM节点的Y坐标

设Web浏览器显示区域最左上角的象素点坐标为(0，0)，这里的X坐标表示浏览器引擎解析了网页的HTML源代码，css源代码以及javascript源代码以后所得网页元素的最左上角象素点相对于(0，0)坐标在垂直方向上的距离，其中距离为1表示相差一个象素点，

步骤2)测试数据集的标定过程：将测试数据中的所有普通网页标注为“false”，表示非钓鱼网页；再将测试数据中的所有钓鱼网页标注为“true”，表示钓鱼网页；

步骤3)对所有测试网页的特征在空间数据库中查找相似的特征，并统计找到每一个测试网页在库中最相似的网页，计算它们的相似度作为测试网页与库的相似度；

步骤4)将所有测试网页的标注以及测试网页与库的相似度送入机器学习匹配模块，遍历所有可能的相似度阀值，找到一个值T使得相似度大于T的钓鱼网页数量与相似度小于T的钓鱼网页数量差值最大，T作为钓鱼网页相似度阀值；

步骤5)对疑似钓鱼网页的检测过程：对可疑网页采集布局特征；用可疑网页的特征在空间数据库中查找相似的特征，并统计找到可疑网页在库中最相似的网页，计算它们的相似度作为可疑网页与库的相似度；将待可疑网页的与库的相似度送入训练好的机器学习匹配模块进行预测，预测所得结果作为本方法最终的钓鱼网站检测结果。

有益效果：由于基于网络拓扑采用面相站点分析手段，本发明具有以下一些特殊优点和有益成果：

高准确率：机器学习主要的评价指标为精度(precision)和召回率(recall)，在钓鱼网站检测识别中，精度表示机器判断为钓鱼网页的所有页面中，确实是钓鱼网页的比例，召回率表示所有钓鱼网页中被机器识别为钓鱼网页所占比例。显然精度和召回率越高表示效果越好。经过实验证明，本发明提出的钓鱼网页检测采用我们提出的机器学习模型进行机器学习以后检测精度和召回率分别为97.9％和95％，该结果与目前最好的钓鱼网页自动检测技术不相上下。

高速检测：该发明最大的优势在于大大缩短了检测时间，由于结合空间数据库并对数据库查询做了一定的优化改进，可以充分利用树形结构降低时间复杂度的特性，实验中我们在一台CPU主频1.6GHz内存为2.5G的个人笔记本电脑上运行连续检测100个网页用时不到2秒。所以目前可以投入实际使用。

应用领域广泛：由于本发明实际提出了一种网页布局相似性计算方案，所以在网页相似性上用途广泛。例如：如果除去本发明中的机器学习部分，可以结合布局特征抽取模块以及空间数据库模块实现一个网页搜索引擎，该搜索引擎以一个网页为输入，查询所有与输入网页视觉上布局相似的网页，我们对200个网页进行了搜索引擎命中率的实验，结果发现使用本发明提出的方法在前2条搜索结果中搜索命中率高达95％。

附图说明

图1是本发明方案在参数训练时期的数据流图，图中A表示被模仿的正规网页的数据，B表示测试网页的数据。

图2是本发明方案在钓鱼网页检测时期的数据流图，图中A表示被模仿的正规网页的数据，C表示当前检测的可疑网页的数据。

图3是基于空间布局相似性的钓鱼网页检测系统模块结构，其中模块之间的箭头表示调用与访问权限，例如A-＞B，表示A模块可以调用B模块，或者A模块可以访问B数据。

图4是布局特征抽取模块中所使用的布局特征抽取算法，其中的DOM树是HTML源代码结构，获取节点的显示高度、宽度、Top值、Left值需要结合使用浏览器的布局渲染引擎。

图5是空间数据库模块改进查询算法，查询时从R树的根节点起，有条件地遍历所有符合要求的R树节点，所有符合条件的R数节点的最小边框矩形作为特征加入到特征队列中返回。

具体实施方式

本发明技术方案主要分为三大部分：

1.布局特征抽取部分。

这里的布局特征是指网页上所有可见信息的矩形边界，比如网页中的一段文字的矩形边界，一副图片的矩形边界，或者视觉上靠近的元素组合的矩形边界等。布局特征抽取模块的主要工作就是结合浏览器内核以及DOM树分析工具抽取网页中所有大小合适的矩形块信息。

所以该模块的功能就是遍历一个web页面的DOM树，结合浏览器内核中的布局渲染引擎分析该页面的html，css，js源代码，获取每个节点所代表的标签的显示位置和大小，并按照指定格式记录下这些信息组成网页布局特征信息。

在特征库采集阶段，该模块将采集到的可能被模仿的合法网页布局特征数据交给空间数据库模块进行数据存储；在钓鱼网页分析阶段，该模块将疑似页面的布局特征数据传给页面布局分析模块进行综合分析。

2.空间数据库部分

空间数据库采用R树为数据结构，是一种在地理信息方面应用较多的空间查询技术，由于网页布局特征信息需要查找视觉上靠近的所有矩形，这里结合空间数据库存储网页的特征，可以快速获取特征库中所有视觉上相似以及位置上靠近的布局特征。

下面简单介绍一下空间数据库所采用的R树数据结构：

R树是一种与B树相似的树形数据结构，但是主要用于空间数据的组建和获取，比如可以使用空间数据库“查找在当前位置两千米范围内的所有加油站”。该数据结构使用层次聚合的方法分割空间，这些分割以后的空间可能会重叠，空间使用最小边框矩形表示R树中的每一个节点都有一定数量的入口(数量有指定的上限)，每一个非叶节点的入口存储两类信息，一类是该入口对应的子节点的索引，另一类信息则是该字节点的MBR。使用空间数据库的这种树形结构以及最小边框矩形的思想，可以快速地在海量数据中查询地理上或者视觉上靠近的数据。

这里使用空间数据库的这种特性可以对特征库中的所有布局信息进行有效索引，当获取到待检测网页的布局信息以后可以进行快速查询，得到视觉上靠近的所有布局信息。

该模块在组建特征库时候建立空间数据索引，在钓鱼网页检测阶段进行空间数据查询。

3.机器学习匹配部分。

其核心任务就是根据待检测页面的布局信息以及特征库中与待检测页面中相似的特征块综合统计，根据指定的网页相似性算法，找到相似程度最高的n个网页，如果相似性超过一定的阀值，则认为待检测网页是钓鱼网页，如果低于阀值，则认为是正常网页。其中阀值的确定需要使用训练阶段的标注数据根据我们的机器学习算法进行训练所得。

●基于拓扑的钓鱼网站检测及其实现方法所包含的步骤为：

主要可以分为两大部分：

1.机器学习模块的训练

步骤1)采集至少100个可能被钓鱼网页模仿的正规网站页面，并抽取出布局特征组织成样本数据；

步骤2)将所有样本数据的布局特征插入空间数据库；

步骤3)采集至少100个钓鱼网站页面以及100个普通网页，并抽取特征组织成测试数据；

步骤4)将测试数据中的所有普通网页标注为“false”，表示非钓鱼网页；再将测试数据中的所有钓鱼网页标注为“true”，表示钓鱼网页；

步骤5)对所有测试网页的特征在空间数据库中查找相似的特征，并按照Sim公式统计找到每一个测试网页在库中最相似的网页，计算它们的相似度作为测试网页与库的相似度；

步骤6)将所有测试网页的标注以及测试网页与库的相似度送入机器学习匹配模块，使用机器学习匹配部分的数据训练算法计算出钓鱼网页相似度阀值。

2.钓鱼网站检测

步骤1)对可疑网页采集布局特征

步骤2)用可疑网页的特征在空间数据库中查找相似的特征，并按照Sim公式统计找到可疑网页在库中最相似的网页，计算它们的相似度作为可疑网页与库的相似度；

步骤3)将待可疑网页的与库的相似度送入训练好的机器学习匹配模块进行预测，预测所得结果作为本方案最终的钓鱼网站检测结果。

其中的各个模块的方法：

1.机器学习匹配部分，钓鱼网页相似度阀值训练步骤：

步骤1)计算所有钓鱼网页与普通网页与特征库的相似度S；

步骤2)找到S中最大的相似度Smax，以及最小的相似度Smin；

步骤3)找到S中所有相似度值的两两之间最小差值step；

步骤4)设定阀值T初始值为Smin

步骤5)统计标注为“true”的网页的相似度在T以上的个数为TP，统计标注为“false”的网页的相似度在T以上的个数为FP；

步骤6)计算正确肯定率TPR，以及错误肯定率FPR；

步骤7)记录在当前阀值T下TPR-FPR的值；

步骤8)T＝T+step，如果T＞Smax则进入步骤9，否则跳转至步骤5；

步骤9)找到所有TPR-FPR中最大的值所对应的阀值T，以此作为机器学习匹配模块训练所得钓鱼网页相似度阀值。

1.机器学习匹配部分，钓鱼网页检测步骤：

步骤1)如果可疑网页与普通网页与特征库的相似度S大于等于训练好的阀值T，则认为可疑网页是钓鱼网页；如果可以网页与普通网页与特征库的相似度S小于训练好的阀值T，则认为可疑网页是普通网页；

1.系统模块之间的关系

系统由5个模块组成(见图3)，其中最上层是用户界面模块，主要负责获取用户输入并将结果反馈回用户，中间是控制模块，负责调度所有功能模块完成钓鱼网站检测。共有3个功能模块：

布局特征抽取模块，负责按照图4中的特征抽取算法抽取网页布局特征，该布局特征在训练阶段送交空间数据库模块建立索引或进行查询，在钓鱼网页检测阶段该模块抽取的布局特征送至空间数据库模块查询相似特征。

空间数据库模块，该模块对以往的空间数据库模块进行了改进，改进算法参考下面的空间数据库的索引和查询算法，该模块的功能是对训练数据特征建立空间索引，在钓鱼网页检测阶段进行相似特征的快速查询，查询所得相似特征交给机器学习匹配模块进行识别；

机器学习匹配模块，在系统训练阶段接收特征提取模块传来的特征数据进行训练，优化网页相似性阀值的参数；在钓鱼网页检测阶段，接收特征提取模块传来的特征数据，与空间数据库中相似特征，计算网页之间的相似性，最后根据网页相似性阀值判断钓鱼网页。

2.系统模块的实现

a)布局特征抽取模块

布局特征抽取模块需要调用浏览器布局引擎，以及DOM源代码分析工具，对制定URL的HTML文档及其附属图片文件，css文件，javascript文件进行分析，最终抽取出布局特征。

布局特征由以下四个数值属性组成：

●DOM节点的高度

这里的高度表示浏览器引擎解析了网页的HTML源代码，css源代码以及javascript源代码以后所得网页元素在垂直方向上象素点个数。

●DOM节点的宽度

这里的宽度表示浏览器引擎解析了网页的HTML源代码，css源代码以及javascript源代码以后所得网页元素在水平方向上象素点个数。

●DOM节点的X坐标

设Web浏览器显示区域最左上角的象素点坐标为(0，0)，这里的X坐标表示浏览器引擎解析了网页的HTML源代码，css源代码以及javascript源代码以后所得网页元素的最左上角象素点相对于(0，0)坐标在水平方向上的距离，其中距离为1表示相差一个象素点。

●DOM节点的Y坐标

设Web浏览器显示区域最左上角的象素点坐标为(0，0)，这里的X坐标表示浏览器引擎解析了网页的HTML源代码，css源代码以及javascript源代码以后所得网页元素的最左上角象素点相对于(0，0)坐标在垂直方向上的距离，其中距离为1表示相差一个象素点。

在理解Web浏览器工作原理的情况下，选择一款主流的浏览器内核，了解该浏览器内核的API，并了解如何调用DOM源代码分析工具分析网页的HTML源代码。该模块的具体实施步骤如下：

步骤1)使用所选择的Web浏览器解析需要抽取特征的网页；

步骤2)获取该页面的HTML源代码并使用DOM分析工具解析源代码；

步骤3)根据图4中的算法获取所有DOM节点的布局特征。

b)空间数据库模块

该模块结合空间数据库进行数据索引，并在此基础上对传统意义上的空间数据库进行算法上的改进，使之更适应钓鱼网页检测查询。具体实施步骤如下：

步骤1)设计并实现一个以R树为数据结构的空间数据库模块，可以对输入的任意形状进行：插入、修改、删除、查询，其中查询应可以进行一般的空间查询，比如：输入一个矩形，查找数据库中包含在该矩形内的所有图形，或者查找与该矩形中心距小于15的所有矩形；

步骤2)按照图5中的算法改进空间数据库的查询过程；

步骤3)所有查询结果按照与查询特征的中心距降序的标准进行排序；

c)机器学习匹配模块

根据被检测网页A的特征以及从空间数据库中所得与所有A的特征相似的所有特征综合分析，找到特征库中与A最相似的网页B，进而计算A与B的相似度，如果这一相似度超过预定阀值，则认为A是钓鱼网页，反之则认为A不是钓鱼网页。

这一模块需要根据前面抽取的布局特征计算两个页面之间的相似度，首先需要了解一个对应特征块的概念，即两个网页A与B中如果分别有两个特征块A-1与B-1，如果A-1与B-1的中心距小于预定的中心距阀值D，并且A-1与B-1的宽度之比在预定范围内，高度之比也在预定分为内，则认为A-2块与B-1块相对应，根据实验所得结果，这里取D为50个像素点，宽度比例范围为[0.8，1.2]，高度比例范围为[0.8，1.2]。相似度计算公式如下：

Sim (n_{q}, n_{r}, n_{cor}) = (1 - \frac{| n_{q} - n_{r} |}{\max (n_{q}, n_{r})}) \cdot \frac{{n_{cor}}^{2}}{n_{q} \cdot n_{r}}

n_q表示A页面中的特征块总数，n_r表示B页面中的特征块总数，n_cor表示两页面对应的特征块总数。计算所得Sim为两个网页之间的相似值。

Claims

1.一种基于空间布局的钓鱼网页检测方法，其特征在于该方法由5个模块组成，其中最上层是用户界面模块，主要负责获取用户输入并将结果反馈回用户，中间是控制模块，负责调度所有功能模块完成钓鱼网站检测，最核心的是3个功能模块，即：布局特征抽取模块、空间数据库模块、机器学习匹配模块；其中布局特征抽取模块抽取块状网页布局特征，该布局特征在训练阶段送交空间数据库模块建立索引或进行查询，在钓鱼网页检测阶段该模块抽取的布局特征送至空间数据库模块查询相似特征；空间数据库模块在训练时期对数据特征建立空间索引，在钓鱼网页检测阶段进行相似特征的快速查询，查询所得相似特征交给机器学习匹配模块进行识别；机器学习匹配模块在系统训练阶段接收特征提取模块传来的特征数据进行训练，优化网页相似性阀值的参数；在钓鱼网页检测阶段，接收特征提取模块传来的特征数据，与空间数据库中相似特征，计算网页之间的相似性，最后根据网页相似性阀值判断钓鱼网页；

布局特征由以下四个数值属性组成：

●DOM节点的高度

●DOM节点的宽度

●DOM节点的X坐标

●DOM节点的Y坐标

步骤5)对疑似钓鱼网页的检测过程：对可疑网页采集布局特征；用可疑网页的特征在空间数据库中查找相似的特征，并统计找到可疑网页在库中最相似的网页，计算它们的相似度作为可疑网页与库的相似度；将待可疑网页的与库的相似度送入训练好的机器学习匹配模块进行预测，预测所得结果作为本方案最终的钓鱼网站检测结果。