CN102629261A

CN102629261A - 由钓鱼网页查找目标网页的方法

Info

Publication number: CN102629261A
Application number: CN2012100511718A
Authority: CN
Inventors: 张卫丰; 田先桃; 张迎周; 周国强; 王慕妮; 周国富; 许碧欢; 陆柳敏; 顾赛赛
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2012-03-01
Filing date: 2012-03-01
Publication date: 2012-08-08
Anticipated expiration: 2032-03-01
Also published as: CN102629261B

Abstract

本发明是一种由钓鱼网页查找目标网页的方法，首先从网页文本和网页图片中提取关键词，组成该钓鱼网页的词汇签名，然后在多个搜索引擎上用词汇签名进行检索，综合这些搜索引擎的结果，找出最相近的前K个网页，将这K个网页和钓鱼网页以图片形式保存，提取图像感知哈希序列，最后分别计算这K个网页图片与钓鱼网页图片之间的海明距离，根据距离的大小可以选出该钓鱼网页模仿的一个或者多个合法网页，即目标网页。

Description

由钓鱼网页查找目标网页的方法

技术领域

本发明涉及一种由钓鱼网页查找目标网页的方法，主要从钓鱼网页与对应目标网页之间在文本和图像特征之间的相似性来查找目标网页，以更新钓鱼检测时所需要的白名单，属于信息安全领域。

背景技术

钓鱼网站是随着网络普及和在线交易的增加而变得异常猖獗的网络诈骗行为。钓鱼网站是犯罪分子模仿合法网页做出的诈骗网站，钓鱼网站通常与银行网站或其他知名网站几乎完全相同，从而引诱网站使用者在钓鱼网站上提交出敏感信息，如：用户名、口令、银行帐号或信用卡详细信息等。

最典型的网络钓鱼攻击过程如下：首先将用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上，然后获取用户在该钓鱼网站上输入的个人敏感信息，例如银行帐号、银行密码等。通常这个攻击过程不会让受害者警觉。这些个人信息对钓鱼网站持有者具有非常大的吸引力，通过使用窃取到的个人信息，他们可以假冒受害者进行欺诈性金融交易，获得极大的经济利益，而受害者们却因此而遭受到巨大的经济损失，非但如此，被窃取的个人信息还可能被用于其他非法活动。如何识别钓鱼网站，如何保证网站信息传输的保密完整性，愈发的显示出其重要性和必要性。

大多数用户会受骗，很多时候是由于钓鱼网页总是与真实网页有高度的相似性。如果我们能从相似性的角度检测钓鱼网页，不失为一个很好的方法。然而在钓鱼检测的过程中，除了钓鱼检测方法外，特征库的好坏也直接影响到检测的准确率，如何能找到钓鱼网页的目标网页，是本发明的研究重点。Zhang在2007年提出CANTINA[Zhang2007]，该方法通过借助第三方工具，比如搜索引擎，来检测钓鱼网页，它首先统计网页中词的TF-IDF(TF-IDF，词频-反文档频率，是一种统计方法，用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度)，把TF-IDF排序靠前的几个词条利用搜索引擎检索，如果该网页不出现在搜索结果的前面30个结果中，则认为是钓鱼网页。该方法具有较高的精度和较小的误判率。但是该方法只是基于网页内容的，对于一种文字很少，图片很多的网页，或者是文字在图片中的网页将无能为力。本发明将从文本和图片两种途径提取关键词，然后在多个搜索引擎上检索，综合多个搜索引擎的结果，最后再从图片角度利用图像感知哈技术查找最相似的目标网页。

[Zhang2007] Y. Zhang, J. Hong, and L. Cranor. Cantina: A content-based approach to detecting phishing websites. WWW, 2007.

[Fu2006] Anthony Y. Fu, Wenyin Liu, Xiaotie Deng. Detecting Phishing Web Pages with Visual Similarity Assessment based on Earth Mover’s Distance (EMD). IEEE Transactions on Dependable and Secure Computing, 2006, 3(4), pages 301-311.

[Dong2010]X. Dong, J. A. Clark, J. L. Jacob. Defending the weakest link: phishing websites detection by analysing user behaviours. Springer Science+Business Media, LLC 2010.

[Cao2009]Jiuxin Cao,Bo Mao,Junzhou Luo, and Bo Liu. A Phishing Web Pages Detection Algorithm Based on Nested Structure of Earth Mover’s Distance (Nested-EMD). Chinese Journal of Computers. 2009, (05): 922-929.

[Chen2009]K.-T. Chen, J.-Y. Chen, C.-R. Huang, and C.-S. Chen. Fighting Phishing with Discriminative Keypoint Features of Webpages. IEEE Internet Computing, 2009.

[Afroz2009]Sadia Afroz and Rachel Greenstadt. Phishzoo: An Automated Web Phishing Detection Approach Based on Profiling and Fuzzy Matching. Technical Report DU-CS-09-03, Drexel University,2009.

[Henzinger2006]M.Henzinger. Finding near-duplicate Web pages: A large-scale evaluation of algorithms. Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval,2006.

发明内容

技术问题：本发明提出的由钓鱼网页查找目标网页的方法，是一种结合网页文本和图像特征，借用第三方工具和图像感知哈希技术来查找目标网页的方法。钓鱼者为了取得用户的信任，他们通常会模仿合法网页来构建钓鱼网页，所以一个钓鱼网页与它的目标网页在视觉上是非常相似的，两者之间是有很好的关联性的。以往目标网页的检测是通过人工识别的，本发明提出的方法是从相似性角度查找目标网页，将更接近实际情况，同时可以保证钓鱼检测的高精度和低误判率。

技术方案：大多数用户会受骗，很多时候是由于钓鱼网页与真实网页有高度的相似性。如果我们能从相似性的角度检测钓鱼网页，不失为一个很好的方法。然而在钓鱼检测的过程中，除了钓鱼检测方法外，特征库的好坏也直接影响到检测的准确率，本发明的研究重点就是如何能找到钓鱼网页的目标网页。如果能找到与其最相近的目标网页，那么如果再次遇到该目标网页的钓鱼网页，就能很好地被检测出来，提高检测的准确率。

由钓鱼网页查找目标网页的方法，首先从网页标题、主体和网页图片中提取关键词，组成该钓鱼网页的词汇签名；然后在多个搜索引擎上用词汇签名进行检索，综合这些搜索引擎的结果，找出最相近的前K个网页，K为整数；将这K个网页和钓鱼网页以图片形式保存，提取图像感知哈希序列，最后分别计算这K个网页图片与钓鱼网页图片之间海明距离，根据距离的大小可以选出该钓鱼网页的一个或者多个目标网页。

该方法主要包括词汇签名的生成部分、多个搜索引擎检索部分、图像感知哈希序列的生成及匹配部分。

词汇签名的生成部分需要的步骤如下：

步骤11) 分别从网页标题和主体中提取纯文本文字；

步骤12) 获取网页中的图片，通过光学字符识别OCR技术提取出嵌在图片中的文字；

步骤13) 综合网页标题、主体和图片中的文字，计算这些文字的词频-反文档

频率TF-IDF值，由前5个最高TF-IDF的词构成一个词汇签名；

多个搜索引擎检索部分需要的步骤如下：

步骤21) 将生成的词汇签名分别在N个搜索引擎上进行检索，N为整数；

步骤22) 找出至少出现在两个搜索引擎结果中的网页，组成一个网页列表；

步骤23) 由公式1、2、3计算网页列表中各个网页的相关度；

Figure 2012100511718100002DEST_PATH_IMAGE004

(1)

其中，

表示第i个搜索引擎的检索结果中排名为j的网址，，

，N与

均为整数；

(2)

其中，

Figure 2012100511718100002DEST_PATH_IMAGE016

表示第i个搜索引擎中的排名为j的相关度；

表示一个搜索引擎所取的搜索结果总数；

Figure 2012100511718100002DEST_PATH_IMAGE020

表示第i个搜索引擎中的第j个结果的排名为j，

Figure 2012100511718100002DEST_PATH_IMAGE022

；

表示第i个搜索引擎的检索结果中排名为j的网址，如果

只在一个搜索引擎中出现，那么

Figure 2012100511718100002DEST_PATH_IMAGE026

；

表示至少出现在两个搜索引擎结果中的网址，，M为整数且

；

Figure 2012100511718100002DEST_PATH_IMAGE034

(3)

其中，

表示

在N个搜索引擎中的相关度之和；

表示至少出现在两个搜索引擎结果中的网址，

，M为整数且

；

表示第i个搜索引擎的搜索结果中排名为j的网址，如果

只在一个搜索引擎中出现，那么

Figure 2012100511718100002DEST_PATH_IMAGE026A

；

表示第i个搜索引擎中的排名为j的相关度，N与均为整数；

步骤24) 由公式3和4计算出前K个相关度高的网页，认为这K个网页与该

钓鱼网页最相关，作为该钓鱼网页的候选目标网页，K为不大于

的整数；

Figure 2012100511718100002DEST_PATH_IMAGE044

(4)

其中，

表示

在N个搜索引擎中的排名之和；

表示至少出现在两个搜索引擎结果中的网页，

，

；

表示第i个搜索引擎的搜索结果中排名为j的网址，

Figure 2012100511718100002DEST_PATH_IMAGE020A

表示第i个搜索引擎中的第j个结果的排名为j，

Figure 2012100511718100002DEST_PATH_IMAGE022A

；

图像感知哈希序列的生成及匹配部分需要的步骤如下：

步骤31) 对图片进行规格化处理，将图片统一变为具有255阶的灰度图像，

并用双线性插值的方法将分辨率统一变为m*m，m为8的整数倍；

步骤32) 将m*m的图片分成8*8的小块；

步骤33) 对每一小块进行离散余弦变换，对于每一小块，保留1个直流分量，

9个交流分量，其余的将其置为0；

步骤34) 用视觉模型对新生成的离散余弦系数矩阵进行处理，去掉信息中的

冗余数据，来提高图像压缩的效率；

步骤35) 用逻辑斯谛Logistic方程作为混沌序列发生器进行加密，由一个密钥生成一个加密矩阵，用此矩阵对离散余弦变换系数矩阵进行加密；

步骤36) 将得到的浮点型数据通过量化处理变为二值数据，减少冗余；

步骤37) 用哈夫曼压缩编码进行压缩编码,得到最终的哈希序列；

步骤38) 分别计算钓鱼网页图片的哈希序列和这K个候选网页图片的哈希序

列之间的海明距离，选择距离最小的前L个网页为该钓鱼网页模仿的合法网页，L为不大于K的整数。

有益效果：本发明方法综合了第三方工具和图像感知哈希技术，结合网页在文本和图像上的相似度查找钓鱼网页对应的目标网页。通过使用本发明的方法收集和更新钓鱼检测所需要的白名单，有助于提高钓鱼网页检测的准确率。

附图说明

图1是本发明方法的整体框架图，

图2是图像感知哈希序列生成流程图。

具体实施方式

本发明的目的是提供一种由钓鱼网页查找目标网页的方法，首先从已知钓鱼网页中提取关键词，组成一个词汇签名；其次将词汇签名在多个搜索引擎上进行检索，综合多个搜索引擎的结果，选出最相关的几个作为候选网页；然后将候选网页以图片形式保存，提取图像感知哈希序列，计算这些网页图片与钓鱼网页图片之间的海明距离，根据距离的大小可以选出该钓鱼网页的一个或者多个目标网页。

由钓鱼网页查找其目标网页的方法需要以下步骤：

步骤1) 分别从网页标题、主体和网页图片中提取文本文字，综合这些文字，然后计算这些文字的词频-反文档频率TF-IDF值，由前5个最高TF-IDF的词构成一个词汇签名；

步骤2) 用步骤1)生成的词汇签名分别在N个搜索引擎：谷歌、雅虎等上进行检索；

步骤3) 取出每个搜索引擎前

个搜索结果，组成网页列表，分别计算列表中网页的相关度；

步骤4) 选出相关度高的前K个网页，将该钓鱼网页和选出的K个网页以图片形式保存；

步骤5) 通过图像感知哈希技术提取各个图片的哈希序列；

步骤6) 计算这K个网页图片的哈希序列与钓鱼网页图片对应的哈希序列之间的海明距离，选择距离最小的前L(

)个网页为该钓鱼网页的目标网页。

由钓鱼网页查找目标网页的方法的整体框架，见图1。本方法可以分为三大部分：词汇签名的生成，多个搜索引擎的检索和图像感知哈希序列的生成及匹配。

1. 词汇签名的生成部分

本发明的词汇签名是由网页中具有比较高TF-IDF的关键词组成的，关键词有三个来源：一是网页标题的纯文本文字；二是网页主体中的纯文本文字；三是嵌在网页图片中的文字。后者通过光学字符识别技术可以提取出嵌在图片中的文字。从这三个角度提取出来的关键词，可以减小由于有些网页纯文本内容偏少、图片偏多或者是文字嵌在图片中导致的误差。

具体需要如下步骤：

步骤11) 分别从网页标题和主体中提取纯文本文字；

步骤12) 获取网页中的图片，通过光学字符识别技术提取出嵌在图片中的文字；

步骤13) 综合网页标题、主体和图片中的文字，计算这些文字的词频-反文档频率TF-IDF值，由前5个最高TF-IDF的词构成一个词汇签名。

2. 多个搜索引擎的检索部分

将钓鱼网页生成的词汇签名分别在N个搜索引擎：谷歌、雅虎等上进行检索。取出每个搜索引擎的前个结果，用公式1表示。

(1)

其中，

表示第i个搜索引擎的检索结果中排名为j的网址，

，

，N与

均为整数。

找出至少出现在两个搜索引擎结果中的网页，标号为

，

。

按照公式2计算相关度

Figure 2012100511718100002DEST_PATH_IMAGE014A

(2)

其中，

表示第i个搜索引擎中的排名为j的相关度；

表示一个搜索引擎所取的搜索结果总数；表示第i个搜索引擎中的第j个结果的排名为j，

；

表示第i个搜索引擎的检索结果中排名为j的网址，

，

，N与

均为整数，如果

只在一个搜索引擎中出现，那么

Figure 2012100511718100002DEST_PATH_IMAGE026AA

；

表示至少出现在两个搜索引擎结果中的网址，，M为整数且

。

根据公式3计算

在这N个搜索引擎中的相关度之和

。

(3)

其中，

表示第i个搜索引擎中的排名为j的相关度，N与均为整数；

表示第i个搜索引擎的搜索结果中排名为j的网址，

，，N与

均为整数；

表示至少出现在两个搜索引擎结果中的网址，

，M为整数且。

如果有多个网页的

相等或者多个网页的

同时达到最大，根据公式4分别计算这些网页在搜索引擎中的排名之和

。

(4)

其中，

表示第i个搜索引擎中的第j个结果的排名为j，；

表示第i个搜索引擎的搜索结果中排名为j的网址，

，

，N与

均为整数；

表示至少出现在两个搜索引擎结果中的网页，

，。

根据公式3和公式4选择前K个相关度最高的网页，将这K个网页以图片形式保存，并分别提取这些网页图片与钓鱼网页图片的哈希序列。

多个搜索引擎检索部分具体需要如下步骤：

步骤21) 将生成的词汇签名分别在N个搜索引擎：谷歌、雅虎等上进行检索；

步骤23) 由公式1、2、3计算网页列表中各个网页的相关度；

步骤24) 由公式3和公式4找出前K个相度高的网页，将这K个网页作为该钓鱼网页的候选目标网页。

3. 基于图像感知哈希技术的匹配部分

图2是图像感知哈希序列生成流程图，下面简单介绍流程图中各个模块的工作。

首先将网页以图片形式保存，然后对图片进行规格化处理，将所有图片统一变为具有255阶的灰度图像，并用双线性插值的方法将分辨率统一变为m*m，m一般选择8的整数倍，目的是使得最后生成的哈希序列长度统一。

对图像进行离散余弦变换的过程是：首先将m*m的图像分成8*8的小块，对每一小块进行离散余弦变换，最后对于每一小块，保留1个直流分量DC系数，9个交流分量AC系数，其余的将其置为0。然后用视觉模型对新生成的离散余弦变换系数矩阵进行处理，能很好地去掉信息中的冗余数据，提高图像压缩的效率。

加密处理就是对矩阵进行标准化处理，根据混沌区数据的迭代不重复性和初值敏感性用逻辑斯蒂Logistic方程作为混沌序列发生器进行加密，由一个密钥生成一个加密矩阵，用此矩阵对离散余弦变换系数矩阵进行加密，保证哈希函数的安全性。

通过量化处理可以将浮点型数据变为二值数据，减少冗余，便于存储。最后用哈夫曼压缩编码进行压缩,得到最终的哈希序列。

得到哈希序列后，用海明码距离计算公式5进行图像匹配，设h1和h2为两个哈希序列，L为哈希序列的长度，则

(5)

分别计算钓鱼网页图片的哈希序列与这K个网页图片对应的哈希序列的海明距离，选择距离最小的前L个网页为该钓鱼网页的目标网页，

。

图像感知哈希序列的生及匹配部分具体需要如下步骤：

步骤31) 对图片进行规格化处理，将图片统一变为具有255阶的灰度图像，并用双线性插值的方法将分辨率统一变为m*m，m为8的整数倍；

步骤32) 将m*m的图片分成8*8的小块；

步骤33) 对每一小块进行离散余弦变换，对于每一小块，保留1个直流分量，9个交流分量，其余的将其置为0；

步骤34) 用视觉模型对新生成的离散余弦系数矩阵进行处理，去掉信息中的冗余数据，来提高图像压缩的效率；

步骤35) 用逻辑斯蒂Logistic方程作为混沌序列发生器进行加密，由一个密钥生成一个加密矩阵，用此矩阵对离散余弦变换系数矩阵进行加密；

步骤38) 分别计算钓鱼网页图片的哈希序列和这K个候选网页图片的哈希序列之间的海明距离，选择距离最小的前L个网页为该钓鱼网页模仿的合法网页。

Claims

1. 一种由钓鱼网页查找目标网页的方法，其特征在于首先从网页标题、主体和网页图片中提取关键词，组成该钓鱼网页的词汇签名；然后在多个搜索引擎上用词汇签名进行检索，综合这些搜索引擎的结果，找出最相近的前K个网页，K为整数；将这K个网页和钓鱼网页以图片形式保存，提取图像感知哈希序列，最后分别计算这K个网页图片与钓鱼网页图片之间海明距离，根据距离的大小选出该钓鱼网页的一个或者多个目标网页；

该方法主要包括词汇签名的生成部分、多个搜索引擎检索部分、图像感知哈希序列的生成及匹配部分；

词汇签名的生成部分需要的步骤如下：

步骤11) 分别从网页标题和主体中提取纯文本文字；

频率TF-IDF值，由前5个最高TF-IDF的词构成一个词汇签名；

多个搜索引擎检索部分需要的步骤如下：

步骤23) 由公式1、2、3计算网页列表中各个网页的相关度；