CN104166725A

CN104166725A - 一种钓鱼网站检测方法

Info

Publication number: CN104166725A
Application number: CN201410422615.3A
Authority: CN
Inventors: 吕芳; 魏玉良; 黄俊恒; 刘扬; 王佰玲
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology; Harbin Institute of Technology Weihai
Priority date: 2014-08-26
Filing date: 2014-08-26
Publication date: 2014-11-26
Anticipated expiration: 2034-08-26
Also published as: CN104166725B

Abstract

本发明实施例公开一种钓鱼网站检测方法，应用于计算机网络领域，以解决现有的检测钓鱼网站不能主动检测、误报、漏报、不及时的问题。该方法包括：建立待测网页对应的基于视觉内容的特征向量；将特征向量与预设的特征向量集合里的特征向量进行比对；根据比对结果判断待检测网页是否是钓鱼网站。本发明实施例适用于钓鱼网站检测。

Description

一种钓鱼网站检测方法

技术领域

本发明涉及计算机网络领域，尤其涉及一种钓鱼网站检测方法。

背景技术

网络信息与服务的爆炸式增长，衍生了越来越频繁的网络经济活动，进而导致钓鱼网站(也称仿冒网站)这一新的网络安全问题。钓鱼网站展示的内容和被仿冒页面(即原始页面)展示的内容有较强的相似度，甚至雷同，一般网民无法区分所浏览的页面是“真的”还是“假的”，钓鱼网站通过高视觉相似性仿冒正规网站来混淆网民，并通过诱骗网民的账户信息来达到经济利益，最终对网民的财产安全造成了极大的威胁。

目前，对于钓鱼网站的检测方法通常有人工举报、关键字识别和黑白名单技术。其中，人工举报受限于网民主动发现，不能主动检测钓鱼网站；关键字识别受限于仿冒网页文字内容，并有可能误报和漏报；黑白名单技术受限于名单更新，且钓鱼网站存在周期较短，不易及时检测到钓鱼网站。

发明内容

本发明实施例提供一种钓鱼网站检测方法，以解决现有的检测钓鱼网站不能主动检测、误报、漏报、不及时的问题。

本发明的第一方面提供一种钓鱼网站检测方法，包括：建立待测网页对应的基于视觉内容的特征向量；将所述特征向量与预设的特征向量集合里的特征向量进行比对；根据所述比对结果判断所述待检测网页是否是钓鱼网站。

根据第一方面，在第一种实现方式中，所述特征向量包括网页整体信息向量、网页分块结构向量、分块单元信息向量、分块单元视觉向量和网页视觉特征向量；其中，所述网页整体信息向量包括网页的网址和网页的大小；所述网页分块结构向量包括分块的位置信息、分块类型标示和分块重要度标示；所述分块单元信息向量包括分块的文本特征和空间位置特征；所述分块单元视觉向量包括分块的视觉纹理特征；所述网页视觉特征向量包括网页的网址、网页的大小、分块类型标示、分块重要度标示和分块视觉特征向量。

根据第一方面或第一方面的第一种实现方式，在第二种实现方式中，所述建立待测网页对应的基于视觉内容的特征向量，包括：

获取所述待测网页的网址和大小信息，并对所述待测网页进行网页分块，获得多个分块，获取所述每个分块的文本特征和空间位置特征，以获得所述分块单元信息向量；对每个所述分块进行重要度的标示，以获得所述网页分块结构向量；选择重要度标示高于预设的条件的分块，根据所述重要度标示高于预设的条件的分块的视觉纹理特征来获得所述分块单元视觉向量；根据所述分块单元信息向量、所述网页分块结构向量和所述分块单元视觉向量获得所述网页视觉特征向量。

根据第一方面的第二种实现方式，在第三种实现方式中，所述对待测网页进行网页分块，获得多个分块，并获取每个所述分块的文本特征和空间位置特征，以获得分块单元信息向量，包括：获取待测网页的HTML标签集合，根据HTML标签构建DOM树；将DOM树重构成具有层次的块结构；根据预先设定的块合并规则对具有层次的块结构进行合并，以实现所述待测网页进行网页分块，获得多个独立不重叠的分块；获取所述分块的文本特征和空间位置特征。

根据第一方面的第二种实现方式，在第四种实现方式中，所述对每个所述分块进行重要度的标示，以获得所述网页分块结构向量，包括：将网页样本分为训练集和测试集，通过训练集获得分类模型，通过测试集来调整分类模型参数获得最优分类模型；将待测网页进行网页重构获得分块单元信息向量，通过最优分类模型对分块进行分类处理；选择重要度标示高于预设的条件的分块，根据所述重要度标示高于预设的条件的分块的空间特征、内容特征、重要度来获得所述网页分块结构向量。

根据第一方面的第一种实现方式或第四种实现方式，在第五种实现方式中，获得所述视觉纹理特征包括：获取网页中的重要分块单元；在待测网页的图像上切割所述重要分块单元的图像；对所述重要分块单元的图像进行DCT变换，归一量化处理后抽取纹理特征值。

根据第一方面，在第六种实现方式中，所述将所述特征向量与预设的特征向量集合里的特征向量进行比对，包括：

获取所述被保护网页的网址和大小信息，并对所述被保护网页进行网页分块，获得多个分块，获取所述每个分块的文本特征和空间位置特征，以获得所述分块单元信息向量；对每个所述分块进行重要度的标示，以获得所述被保护网页分块结构向量；选择重要度标示高于预设的条件的分块，根据所述重要度标示高于预设的条件的分块的视觉纹理特征来获得所述分块单元视觉向量；根据所述分块单元信息向量、所述网页分块结构向量和所述分块单元视觉向量获得所述被保护网页的基于视觉内容的特征向量；将被保护网页的基于视觉内容的特征向量存入知识库；将待测网页对应的基于视觉内容的特征向量输入所述知识库，通过各分块的与知识库中分块视觉特征向量的相同的次数来标示其相似程度。

本发明实施例提供的钓鱼网站检测方法，通过建立待测网页对应的基于视觉内容的特征向量，将特征向量与预设的特征向量集合里的特征向量进行比对，可以主动检测钓鱼网站，并检测全面、及时、准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的钓鱼网站检测方法的流程示意图；

图2为本发明实施例提供的钓鱼网站检测方法的建立特征向量的流程示意图；

图3为本发明又一实施例提供的钓鱼网站检测方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

图1为本发明实施例提供的钓鱼网站检测方法的流程示意图。本实施例适用于检测钓鱼网站，不仅限于计算机网络领域还可用于移动网络等其他网络领域，主要通过钓鱼网站检测装置执行，该装置可以由硬件实现也可以用软件实现。参考图1所示，该方法主要包括以下步骤：

10、建立待测网页对应的基于视觉内容的特征向量。

其中，基于视觉内容是指从网民视觉能看到的待检测网页的展示的内容，网页可以分解为若干个分块，特征向量是指能够用来唯一标示网页信息的集合，是通过提取网页分块的视觉特征、网页的url、及网页大小等信息共同建立的。

20、将特征向量与预设的特征向量集合里的特征向量进行比对。

其中，预设的特征向量集合通常可以是基于被保护网站/网页地址建立的网页视觉知识库，该网页视觉知识库包括，被保护网页各分块的基于视觉内容的特征向量和网页整体信息向量。将所述特征向量与预设的特征向量集合里的特征向量进行比对具体可以通过查询待测网页对应的基于视觉内容的特征向量是否在网页视觉知识库中出现过来实现，如果出现则标记为冲突。如果分块为图像类型，则出现在网页视觉知识库中记为一次冲突；若分块为文本类型则计算该分块的基于视觉内容的特征向量与网页视觉知识库中特征向量的汉明距离，如果汉明距离在阈值内则标记为一次冲突，否则认为不存在冲突。输出被标记为冲突的特征向量所属的被保护网页的url和冲突次数。

30、根据比对结果判断待检测网页是否是钓鱼网站。

其中，比对结果是指步骤20中输出的被标记为冲突的特征向量所属的网页的url和冲突次数。

根据冲突次数判断待检测网页是否是钓鱼网站，如果冲突次数超过预设的阀值，则判断该待检测网页为该url对应的被保护网页的钓鱼网站。此处预设的阀值可以通过实验得出。

本实施例，通过建立待测网页对应的基于视觉内容的特征向量，将所述特征向量与预设的特征向量集合里的特征向量进行比对，可以主动检测钓鱼网站，并检测全面、及时、准确。

其中，步骤10中，特征向量包括网页整体信息向量、网页分块结构向量、分块单元信息向量、分块单元视觉向量和网页视觉特征向量。

其中，网页整体信息向量包括网页的网址和网页的大小。

例如，网页整体信息向量W＝<url,Size>

其中各变量含义如下：

url：网页的网址；

Size:网页大小。

网页分块结构向量包括分块的位置信息、分块类型标示和分块重要度标示。

根据分块类型标示和分块重要度标示指导该分块是否参与构建网页视觉特征向量。

例如，网页分块结构向量D＝<(T_i,L_i,W_i,H_i)，Flag_i，Imp_i>，

T_i：分块左上角相对于网页左上角的垂直距离；

L_i：分块左上角相对于网页左上角的水平距离；

W_i：分块宽度；

H_i：分块高度；

Flag_i：分块类型标示：文字区标记为0，图像区标记为1；

Imp_i：分块重要度标示。

分块单元信息向量包括分块的文本特征和空间位置特征；

空间位置特征，用BlockPagei(X_i,Y_i,Pw_i,Ph_i)这个四元组来表示；

文本特征，是对文本分块获取其文本的内容特征，用(N_i,S_i,L_i,P_i)这个四元组表示。

例如，分块单元信息向量ui＝<(N_i,S_i,L_i,P_i),BlockPagei>

图像区第一个四元组为None，文字区：

N_i：分块中文字数量

S_i：分块中文字大小

L_i：分块链接数量

P_i：分块背景颜色

BlockPagei是(X_i,Y_i,Pw_i,Ph_i)这个四元组：

X_i：分块中心横坐标/网页宽度

Pw_i：分块宽度/网页宽度

Ph_i：分块高度/窗口高度

分块单元视觉向量包括分块的视觉纹理特征。

例如，

分块单元视觉向量BP_i＝<x₀,x₁......x₁₅>

提取分块的视觉纹理特征组成一个长度为16的一维向量<x₀,x₁......x₁₅>。

网页视觉特征向量包括网页的网址、图像标示、网页大小、分块类型标示、分块重要度标示和分块单元视觉向量。

例如，网页视觉特征向量

Vw＝<url,WebPage，Size,>即(网页整体信息向量W,分块的结构特征向量D,分块单元视觉向量BP)>

url:网页的网址；

Size：网页的大小；

Flag_i：分块类型标示，文字区为0，图片区为1；

Imp_i：分块重要度标示；

<x₀,x₁......x₁₅>：分块单元视觉特征向量。

通过上述基于视觉内容的网页整体信息向量、网页分块结构向量、分块单元信息向量、分块单元视觉向量和网页视觉特征向量，可以使检测钓鱼网站更加全面准确。

参考图2所示，图2为本发明实施例提供的钓鱼网站检测方法的建立特征向量的流程示意图。进一步的，步骤10中，建立待测网页对应的基于视觉内容的特征向量，包括以下步骤：

101、获取待测网页的网址和大小信息，并对待测网页进行网页分块，获得多个分块，获取每个分块的文本特征和空间位置特征，以获得分块单元信息向量。

其中，待检测网页的网址通过现有技术获取，在已知网址的情况下，通过网页爬虫获得待测网页的html标签集合，用来构建HTML DOM树。网页的大小信息是由html解析器处理爬虫获得的网页信息得到的。

102、对每个分块进行重要度的标示，以获得网页分块结构向量。

103、选择重要度标示高于预设的条件的分块，根据重要度标示高于预设的条件的分块的视觉纹理特征来获得分块单元视觉向量。

其中，按照分块与网页主题的相关性，将重要度一共分为四个类别，例如一级：广告、版权；二级：导航、目录、与主题无关但有一定用处的分块；三级：与主题相关的标题、索引等；四级：大字标题、正文等突出部分。重要度标示高于预设的条件，例如，在重要度分类中，被标示为三级与四级的。

104、根据分块单元信息向量、网页分块结构向量和分块单元视觉向量获得网页视觉特征向量。

可选地，步骤101中，可以优选包括以下步骤：

A1、获取待测网页的HTML标签集合，根据HTML标签构建DOM树。

其中，根据待测网页的URL，通过网页爬虫方法获取待测网页的HTML标签集合。将各个标签间的关系用树型结构保存，形成DOM树，并记录网页的大小、每个标签起始点坐标、大小等空间信息，同时将待测网页保存为图像。

A2、将DOM树重构成具有层次的块结构；

其中，分析DOM树，根据标签属性结合不同标签在网页显示过程中是否视觉上可见，不同标签之间颜色、背景、文本等是否相近等因素，对DOM树中的标签进行选择、合并重构成具有层次包含关系的块结构，即子节点所有分块在其父节点分块的范围内。

A3、根据预先设定的块合并规则对具有层次的块结构进行合并，以实现待测网页进行网页分块，获得多个独立不重叠的分块；

具体地，利用层次结构中分块的父子关系，根据预先设定的块合并规则(例如分块大小不小于5000像素且合并后分块不大于整个网页的2/3等)，合并同一父节点下的满足合并规则的分块，将不满足合并规则的子分块节点信息保存在父分块中，将子分块节点从层次结构中删除。直到所有最底层分块满足块大小要求，至此完成网页分块。

A4、获取分块的文本特征和空间位置特征。

根据合并后的层次结构，获取满足分块层次结构中最底层分块的文本特征和空间位置特征，分块的空间位置特征用BlockPagei(X_i,Y_i,Pw_i,Ph_i)四元组来表示，文本特征用(N_i,S_i,L_i,P_i)四元组表示。由此获得各分块的分块单元信息向量。

可选地，步骤102中，对每个分块进行重要度的标示，可以优选包括以下步骤：

B1、将网页样本分为训练集和测试集，通过训练集获得分类模型，通过测试集来调整分类模型参数获得最优分类模型。

其中，通常将随机搜集到的网页作为网页样本。

可以将网页样本按照一定比例，例如3:2的比例，分为训练集和测试集，通过训练集获得分类模型，该分类模型由机器学习方法获得，具体的，根据各分块的单元信息向量及人工标注的所属类别，总结各类别包含信息向量的范围，将各类别表示成具有某类单元信息向量的集合。通过测试集来调整分类模型参数获得最优分类模型。例如，通过支持向量机SVM(SupportVector Machine)分类器进行机器学习、训练结合测试集来调整分类模型参数，形成最优分类模型。

B2、将待测网页进行网页重构获得分块单元信息向量，通过最优分类模型对分块进行分类处理。

其中，网页重构是指将HTML DOM树结构重构(即转换)成具有层次的块结构，从而获得分块单元信息向量。将各分块的分块单元信息向量输入最优分类模型，判断其与各类别标示向量范围包含关系，将其划分到相应类别中，完成分类处理。

进行分类处理是指获取该分块属于四类重要度的哪个类别，将每个分块分到该分块对应的重要度类别中，实现将不同重要度的块放到相应的类别中。

例如，通过待测网页获得分块，然后根据分块在视觉、内容上与待测网页主题相关度，可以将分块划分为四个等级，例如一级：广告、版权；二级：导航、目录、与主题无关但有一定用处的分块；三级：与主题相关的标题、索引等；四级：大字标题、正文等突出部分。一级到四级的重要度依次提高，即一级的级别最低，四级的级别最高。

分到第一类的就是重要度为一级的所有块。

B3、选择重要度标示高于预设的条件的分块，根据重要度标示高于预设的条件的分块的空间特征、内容特征、重要度来获得网页分块结构向量。

高于预设的条件的分块通常选择重要度标示为三、四级别的分块，由于这些分块是跟网页主题紧密相关，排除了广告等噪声信息干扰的部分，故选取这些分块来共同描述整个网页的信息。至此，完成了网页分块结构向量(空间特征、内容特征、重要度)的提取。

上述方案中，步骤103中，选择重要度标示高于预设的条件的分块，根据重要度标示高于预设的条件的分块的视觉纹理特征来获得分块单元视觉向量获得视觉纹理特征可以包括以下步骤：

C1、获取网页中的重要分块；

C2、在待测网页的图像上切割重要分块的图像；

根据网页中重要分块的起始点坐标信息，在待测网页的图像中切割重要分块的图像，并按照位置次序排列

C3、对重要分块单元的图像进行DCT变换，归一量化处理后抽取纹理特征值。

对重要分块图像进行DCT离散余弦变换，例如先将分块统一缩放为8*8的图像，将图像中每个像素视为一个元素，即得到8*8的矩阵，通过这种无损变换将图像信息集中在矩阵的左上角，对变换后的矩阵进行归一量化处理后抽取左上角4*4矩阵作为图像纹理特征值，用来描述该分块图像。至此完成了网页分块视觉特征向量的提取。

图3为本发明又一实施例提供的钓鱼网站检测方法的流程示意图。可选地，步骤20中将特征向量与预设的特征向量集合里的特征向量进行比对时，预设的特征向量集合可以优选是根据被保护网页的基于视觉内容的特征向量建立的知识库，然后通过在该知识库中查询待检测网页基于视觉内容的特征向量，获得比对结果。具体地可以包括以下步骤：

201、获取被保护网页的网址和大小信息，并对被保护网页进行网页分块，获得多个分块，获取每个分块的文本特征和空间位置特征，以获得分块单元信息向量。

202、对每个分块进行重要度的标示，以获得被保护网页分块结构向量。

203、选择重要度标示高于预设的条件的分块，根据重要度标示高于预设的条件的分块的视觉纹理特征来获得分块单元视觉向量。

204、根据分块单元信息向量、网页分块结构向量和分块单元视觉向量获得被保护网页的基于视觉内容的特征向量。

205、将被保护网页的基于视觉内容的特征向量存入知识库。

206、将待测网页对应的基于视觉内容的特征向量输入知识库，通过各分块的与知识库中分块视觉特征向量的相同的次数来标示其相似程度。

对于文本分块，计算分块图像视觉特征向量的汉明距离，距离在一定阈值内的标示为相同，超过阈值标示为不同，该阈值由实验测试确定；对于图像分块当视觉特征向量完全一致时才标记为相同。

因此对待测网页输出冲突列表：冲突的网页、冲突次数，如果与某网页W的冲突分块的个数大于阈值则认为该检测网页是被保护网页W的仿冒网站。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种钓鱼网站检测方法，其特征在于，包括：

建立待测网页对应的基于视觉内容的特征向量；

将所述特征向量与预设的特征向量集合里的特征向量进行比对；

根据所述比对结果判断所述待检测网页是否是钓鱼网站。

2.根据权利要求1所述的方法，其特征在于，所述特征向量包括网页整体信息向量、网页分块结构向量、分块单元信息向量、分块单元视觉向量和网页视觉特征向量；

其中，所述网页整体信息向量包括网页的网址和网页的大小；

所述网页分块结构向量包括分块的位置信息、分块类型标示和分块重要度标示；

所述分块单元信息向量包括分块的文本特征和空间位置特征；

所述分块单元视觉向量包括分块的视觉纹理特征；

所述网页视觉特征向量包括网页的网址、网页的大小、分块类型标示、分块重要度标示和分块视觉特征向量。

3.根据权利要求1或2所述的方法，其特征在于，所述建立待测网页对应的基于视觉内容的特征向量，包括：

获取所述待测网页的网址和大小信息，并对所述待测网页进行网页分块，获得多个分块，获取每个所述分块的文本特征和空间位置特征，以获得所述分块单元信息向量；

对每个所述分块进行重要度的标示，以获得所述网页分块结构向量；

选择重要度标示高于预设的条件的分块，根据所述重要度标示高于预设的条件的分块的视觉纹理特征来获得所述分块单元视觉向量；

根据所述分块单元信息向量、所述网页分块结构向量和所述分块单元视觉向量获得所述网页视觉特征向量。

4.根据权利要求3所述的方法，其特征在于，所述对待测网页进行网页分块，获得多个分块，并获取每个所述分块的文本特征和空间位置特征，以获得分块单元信息向量，包括：

获取待测网页的HTML标签集合，根据HTML标签构建DOM树；

将DOM树重构成具有层次的块结构；

根据预先设定的块合并规则对具有层次的块结构进行合并，以实现所述待测网页进行网页分块，获得多个独立不重叠的分块；

获取所述分块的文本特征和空间位置特征。

5.根据权利要求3所述的方法，其特征在于，所述对每个所述分块进行重要度的标示，以获得所述网页分块结构向量，包括：

将网页样本分为训练集和测试集，通过训练集获得分类模型，通过测试集来调整分类模型参数获得最优分类模型；

将待测网页进行网页重构获得分块单元信息向量，通过最优分类模型对分块进行分类处理；

选择重要度标示高于预设的条件的分块，根据所述重要度标示高于预设的条件的分块的空间特征、内容特征、重要度来获得所述网页分块结构向量。

6.根据权利要求2或5所述的方法，其特征在于，获得所述视觉纹理特征包括：

获取网页中的重要分块单元；

在待测网页的图像上切割所述重要分块单元的图像；

对所述重要分块单元的图像进行DCT变换，归一量化处理后抽取纹理特征值。

7.根据权利要求1所述的方法，其特征在于，所述将所述特征向量与预设的特征向量集合里的特征向量进行比对，包括：

获取所述被保护网页的网址和大小信息，并对所述被保护网页进行网页分块，获得多个分块，获取所述每个分块的文本特征和空间位置特征，以获得所述分块单元信息向量；

对每个所述分块进行重要度的标示，以获得所述被保护网页分块结构向量；

根据所述分块单元信息向量、所述网页分块结构向量和所述分块单元视觉向量获得所述被保护网页的基于视觉内容的特征向量；

将被保护网页的基于视觉内容的特征向量存入知识库；

将待测网页对应的基于视觉内容的特征向量输入所述知识库，通过各分块的与知识库中分块视觉特征向量的相同的次数来标示其相似程度。