CN102629261A - 由钓鱼网页查找目标网页的方法 - Google Patents

由钓鱼网页查找目标网页的方法 Download PDF

Info

Publication number
CN102629261A
CN102629261A CN2012100511718A CN201210051171A CN102629261A CN 102629261 A CN102629261 A CN 102629261A CN 2012100511718 A CN2012100511718 A CN 2012100511718A CN 201210051171 A CN201210051171 A CN 201210051171A CN 102629261 A CN102629261 A CN 102629261A
Authority
CN
China
Prior art keywords
webpage
picture
search engine
search
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100511718A
Other languages
English (en)
Other versions
CN102629261B (zh
Inventor
张卫丰
田先桃
张迎周
周国强
王慕妮
周国富
许碧欢
陆柳敏
顾赛赛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201210051171.8A priority Critical patent/CN102629261B/zh
Publication of CN102629261A publication Critical patent/CN102629261A/zh
Application granted granted Critical
Publication of CN102629261B publication Critical patent/CN102629261B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明是一种由钓鱼网页查找目标网页的方法,首先从网页文本和网页图片中提取关键词,组成该钓鱼网页的词汇签名,然后在多个搜索引擎上用词汇签名进行检索,综合这些搜索引擎的结果,找出最相近的前K个网页,将这K个网页和钓鱼网页以图片形式保存,提取图像感知哈希序列,最后分别计算这K个网页图片与钓鱼网页图片之间的海明距离,根据距离的大小可以选出该钓鱼网页模仿的一个或者多个合法网页,即目标网页。

Description

由钓鱼网页查找目标网页的方法
技术领域
本发明涉及一种由钓鱼网页查找目标网页的方法,主要从钓鱼网页与对应目标网页之间在文本和图像特征之间的相似性来查找目标网页,以更新钓鱼检测时所需要的白名单,属于信息安全领域。
 
背景技术
钓鱼网站是随着网络普及和在线交易的增加而变得异常猖獗的网络诈骗行为。钓鱼网站是犯罪分子模仿合法网页做出的诈骗网站,钓鱼网站通常与银行网站或其他知名网站几乎完全相同,从而引诱网站使用者在钓鱼网站上提交出敏感信息,如:用户名、口令、银行帐号或信用卡详细信息等。
最典型的网络钓鱼攻击过程如下:首先将用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上,然后获取用户在该钓鱼网站上输入的个人敏感信息,例如银行帐号、银行密码等。通常这个攻击过程不会让受害者警觉。这些个人信息对钓鱼网站持有者具有非常大的吸引力,通过使用窃取到的个人信息,他们可以假冒受害者进行欺诈性金融交易,获得极大的经济利益,而受害者们却因此而遭受到巨大的经济损失,非但如此,被窃取的个人信息还可能被用于其他非法活动。如何识别钓鱼网站,如何保证网站信息传输的保密完整性,愈发的显示出其重要性和必要性。
大多数用户会受骗,很多时候是由于钓鱼网页总是与真实网页有高度的相似性。如果我们能从相似性的角度检测钓鱼网页,不失为一个很好的方法。然而在钓鱼检测的过程中,除了钓鱼检测方法外,特征库的好坏也直接影响到检测的准确率,如何能找到钓鱼网页的目标网页,是本发明的研究重点。Zhang在2007年提出CANTINA[Zhang2007],该方法通过借助第三方工具,比如搜索引擎,来检测钓鱼网页,它首先统计网页中词的TF-IDF(TF-IDF,词频-反文档频率,是一种统计方法,用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度),把TF-IDF排序靠前的几个词条利用搜索引擎检索,如果该网页不出现在搜索结果的前面30个结果中,则认为是钓鱼网页。该方法具有较高的精度和较小的误判率。但是该方法只是基于网页内容的,对于一种文字很少,图片很多的网页,或者是文字在图片中的网页将无能为力。本发明将从文本和图片两种途径提取关键词,然后在多个搜索引擎上检索,综合多个搜索引擎的结果,最后再从图片角度利用图像感知哈技术查找最相似的目标网页。
[Zhang2007] Y. Zhang, J. Hong, and L. Cranor. Cantina: A content-based approach to detecting phishing websites. WWW, 2007.
[Fu2006] Anthony Y. Fu, Wenyin Liu, Xiaotie Deng. Detecting Phishing Web Pages with Visual Similarity Assessment based on Earth Mover’s Distance (EMD). IEEE Transactions on Dependable and Secure Computing, 2006, 3(4), pages 301-311.
[Dong2010]X. Dong, J. A. Clark, J. L. Jacob. Defending the weakest link: phishing websites detection by analysing user behaviours. Springer Science+Business Media, LLC 2010.
[Cao2009]Jiuxin Cao,Bo Mao,Junzhou Luo, and Bo Liu. A Phishing Web Pages Detection Algorithm Based on Nested Structure of Earth Mover’s Distance (Nested-EMD).  Chinese Journal of Computers2009, (05): 922-929.
[Chen2009]K.-T. Chen, J.-Y. Chen, C.-R. Huang, and C.-S. Chen. Fighting Phishing with Discriminative Keypoint Features of Webpages. IEEE Internet Computing, 2009.
[Afroz2009]Sadia Afroz and Rachel Greenstadt. Phishzoo: An Automated Web Phishing Detection Approach Based on Profiling and Fuzzy Matching. Technical Report DU-CS-09-03, Drexel University,2009.
[Henzinger2006]M.Henzinger. Finding near-duplicate Web pages: A large-scale evaluation of algorithms. Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval,2006.
发明内容
技术问题:本发明提出的由钓鱼网页查找目标网页的方法,是一种结合网页文本和图像特征,借用第三方工具和图像感知哈希技术来查找目标网页的方法。钓鱼者为了取得用户的信任,他们通常会模仿合法网页来构建钓鱼网页,所以一个钓鱼网页与它的目标网页在视觉上是非常相似的,两者之间是有很好的关联性的。以往目标网页的检测是通过人工识别的,本发明提出的方法是从相似性角度查找目标网页,将更接近实际情况,同时可以保证钓鱼检测的高精度和低误判率。
技术方案:大多数用户会受骗,很多时候是由于钓鱼网页与真实网页有高度的相似性。如果我们能从相似性的角度检测钓鱼网页,不失为一个很好的方法。然而在钓鱼检测的过程中,除了钓鱼检测方法外,特征库的好坏也直接影响到检测的准确率,本发明的研究重点就是如何能找到钓鱼网页的目标网页。如果能找到与其最相近的目标网页,那么如果再次遇到该目标网页的钓鱼网页,就能很好地被检测出来,提高检测的准确率。
由钓鱼网页查找目标网页的方法,首先从网页标题、主体和网页图片中提取关键词,组成该钓鱼网页的词汇签名;然后在多个搜索引擎上用词汇签名进行检索,综合这些搜索引擎的结果,找出最相近的前K个网页,K为整数;将这K个网页和钓鱼网页以图片形式保存,提取图像感知哈希序列,最后分别计算这K个网页图片与钓鱼网页图片之间海明距离,根据距离的大小可以选出该钓鱼网页的一个或者多个目标网页。
该方法主要包括词汇签名的生成部分、多个搜索引擎检索部分、图像感知哈希序列的生成及匹配部分。
词汇签名的生成部分需要的步骤如下:
步骤11) 分别从网页标题和主体中提取纯文本文字;
步骤12) 获取网页中的图片,通过光学字符识别OCR技术提取出嵌在图片中的文字;
步骤13) 综合网页标题、主体和图片中的文字,计算这些文字的词频-反文档
频率TF-IDF值,由前5个最高TF-IDF的词构成一个词汇签名;
多个搜索引擎检索部分需要的步骤如下:
步骤21) 将生成的词汇签名分别在N个搜索引擎上进行检索,N为整数;
步骤22) 找出至少出现在两个搜索引擎结果中的网页,组成一个网页列表;
步骤23) 由公式1、2、3计算网页列表中各个网页的相关度;
Figure 2012100511718100002DEST_PATH_IMAGE004
                         (1)
其中,
Figure 2012100511718100002DEST_PATH_IMAGE006
表示第i个搜索引擎的检索结果中排名为j的网址,
Figure 2012100511718100002DEST_PATH_IMAGE010
,N与
Figure 2012100511718100002DEST_PATH_IMAGE012
均为整数;
               (2)
其中,
Figure 2012100511718100002DEST_PATH_IMAGE016
表示第i个搜索引擎中的排名为j的相关度;
Figure 2012100511718100002DEST_PATH_IMAGE018
表示一个搜索引擎所取的搜索结果总数;
Figure 2012100511718100002DEST_PATH_IMAGE020
表示第i个搜索引擎中的第j个结果的排名为j,
Figure 2012100511718100002DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE006A
表示第i个搜索引擎的检索结果中排名为j的网址,如果
Figure 2012100511718100002DEST_PATH_IMAGE024
只在一个搜索引擎中出现,那么
Figure 2012100511718100002DEST_PATH_IMAGE026
Figure 2012100511718100002DEST_PATH_IMAGE028
表示至少出现在两个搜索引擎结果中的网址,,M为整数且
Figure 2012100511718100002DEST_PATH_IMAGE032
Figure 2012100511718100002DEST_PATH_IMAGE034
       
Figure 2012100511718100002DEST_PATH_IMAGE030A
                        (3)
其中,
Figure 2012100511718100002DEST_PATH_IMAGE036
表示
Figure 2012100511718100002DEST_PATH_IMAGE038
在N个搜索引擎中的相关度之和;
Figure 2012100511718100002DEST_PATH_IMAGE028A
表示至少出现在两个搜索引擎结果中的网址,
Figure 2012100511718100002DEST_PATH_IMAGE030AA
,M为整数且
Figure DEST_PATH_IMAGE032A
Figure 2012100511718100002DEST_PATH_IMAGE040
表示第i个搜索引擎的搜索结果中排名为j的网址,如果
Figure 2012100511718100002DEST_PATH_IMAGE024A
只在一个搜索引擎中出现,那么
Figure 2012100511718100002DEST_PATH_IMAGE026A
Figure DEST_PATH_IMAGE016A
表示第i个搜索引擎中的排名为j的相关度,N与均为整数;
步骤24) 由公式3和4计算出前K个相关度高的网页,认为这K个网页与该
钓鱼网页最相关,作为该钓鱼网页的候选目标网页,K为不大于
Figure 2012100511718100002DEST_PATH_IMAGE042
的整数;
Figure 2012100511718100002DEST_PATH_IMAGE044
                                       (4)
其中,
Figure DEST_PATH_IMAGE046
表示
Figure 2012100511718100002DEST_PATH_IMAGE028AA
在N个搜索引擎中的排名之和;
Figure 2012100511718100002DEST_PATH_IMAGE028AAA
表示至少出现在两个搜索引擎结果中的网页,
Figure DEST_PATH_IMAGE030AAA
Figure DEST_PATH_IMAGE032AA
Figure DEST_PATH_IMAGE040A
表示第i个搜索引擎的搜索结果中排名为j的网址, 
Figure 2012100511718100002DEST_PATH_IMAGE020A
表示第i个搜索引擎中的第j个结果的排名为j,
Figure 2012100511718100002DEST_PATH_IMAGE022A
图像感知哈希序列的生成及匹配部分需要的步骤如下:
步骤31) 对图片进行规格化处理,将图片统一变为具有255阶的灰度图像,
并用双线性插值的方法将分辨率统一变为m*m,m为8的整数倍;
步骤32) 将m*m的图片分成8*8的小块;
步骤33) 对每一小块进行离散余弦变换,对于每一小块,保留1个直流分量,
9个交流分量,其余的将其置为0;
步骤34) 用视觉模型对新生成的离散余弦系数矩阵进行处理,去掉信息中的
冗余数据,来提高图像压缩的效率;
步骤35) 用逻辑斯谛Logistic方程作为混沌序列发生器进行加密,由一个密钥生成一个加密矩阵,用此矩阵对离散余弦变换系数矩阵进行加密;
步骤36) 将得到的浮点型数据通过量化处理变为二值数据,减少冗余;
步骤37) 用哈夫曼压缩编码进行压缩编码,得到最终的哈希序列;
步骤38) 分别计算钓鱼网页图片的哈希序列和这K个候选网页图片的哈希序
列之间的海明距离,选择距离最小的前L个网页为该钓鱼网页模仿的合法网页,L为不大于K的整数。
有益效果:本发明方法综合了第三方工具和图像感知哈希技术,结合网页在文本和图像上的相似度查找钓鱼网页对应的目标网页。通过使用本发明的方法收集和更新钓鱼检测所需要的白名单,有助于提高钓鱼网页检测的准确率。
 
附图说明
图1是本发明方法的整体框架图,
图2是图像感知哈希序列生成流程图。
 
具体实施方式
本发明的目的是提供一种由钓鱼网页查找目标网页的方法,首先从已知钓鱼网页中提取关键词,组成一个词汇签名;其次将词汇签名在多个搜索引擎上进行检索,综合多个搜索引擎的结果,选出最相关的几个作为候选网页;然后将候选网页以图片形式保存,提取图像感知哈希序列,计算这些网页图片与钓鱼网页图片之间的海明距离,根据距离的大小可以选出该钓鱼网页的一个或者多个目标网页。
由钓鱼网页查找其目标网页的方法需要以下步骤:
步骤1) 分别从网页标题、主体和网页图片中提取文本文字,综合这些文字,然后计算这些文字的词频-反文档频率TF-IDF值,由前5个最高TF-IDF的词构成一个词汇签名;
步骤2) 用步骤1)生成的词汇签名分别在N个搜索引擎:谷歌、雅虎等上进行检索;
步骤3) 取出每个搜索引擎前
Figure DEST_PATH_IMAGE012AA
个搜索结果,组成网页列表,分别计算列表中网页的相关度;
步骤4) 选出相关度高的前K个网页,将该钓鱼网页和选出的K个网页以图片形式保存;
步骤5) 通过图像感知哈希技术提取各个图片的哈希序列;
步骤6) 计算这K个网页图片的哈希序列与钓鱼网页图片对应的哈希序列之间的海明距离,选择距离最小的前L(
Figure DEST_PATH_IMAGE048
)个网页为该钓鱼网页的目标网页。
由钓鱼网页查找目标网页的方法的整体框架,见图1。本方法可以分为三大部分:词汇签名的生成,多个搜索引擎的检索和图像感知哈希序列的生成及匹配。
1. 词汇签名的生成部分
本发明的词汇签名是由网页中具有比较高TF-IDF的关键词组成的,关键词有三个来源:一是网页标题的纯文本文字;二是网页主体中的纯文本文字;三是嵌在网页图片中的文字。后者通过光学字符识别技术可以提取出嵌在图片中的文字。从这三个角度提取出来的关键词,可以减小由于有些网页纯文本内容偏少、图片偏多或者是文字嵌在图片中导致的误差。
具体需要如下步骤:
步骤11) 分别从网页标题和主体中提取纯文本文字;
步骤12) 获取网页中的图片,通过光学字符识别技术提取出嵌在图片中的文字;
步骤13) 综合网页标题、主体和图片中的文字,计算这些文字的词频-反文档频率TF-IDF值,由前5个最高TF-IDF的词构成一个词汇签名。
2. 多个搜索引擎的检索部分
将钓鱼网页生成的词汇签名分别在N个搜索引擎:谷歌、雅虎等上进行检索。取出每个搜索引擎的前个结果,用公式1表示。
Figure DEST_PATH_IMAGE050
                            (1)
其中,
Figure DEST_PATH_IMAGE052
表示第i个搜索引擎的检索结果中排名为j的网址,
Figure DEST_PATH_IMAGE008A
Figure 2012100511718100002DEST_PATH_IMAGE010A
,N与
Figure DEST_PATH_IMAGE012AAAA
均为整数。
找出至少出现在两个搜索引擎结果中的网页,标号为
Figure DEST_PATH_IMAGE028AAAA
Figure DEST_PATH_IMAGE030AAAA
Figure DEST_PATH_IMAGE032AAA
按照公式2计算相关度 
Figure 2012100511718100002DEST_PATH_IMAGE014A
                (2)
其中,
Figure DEST_PATH_IMAGE016AA
表示第i个搜索引擎中的排名为j的相关度;
Figure 2012100511718100002DEST_PATH_IMAGE018A
表示一个搜索引擎所取的搜索结果总数;表示第i个搜索引擎中的第j个结果的排名为j,
Figure DEST_PATH_IMAGE022AA
Figure DEST_PATH_IMAGE006AA
表示第i个搜索引擎的检索结果中排名为j的网址,
Figure DEST_PATH_IMAGE008AA
Figure DEST_PATH_IMAGE010AA
,N与
Figure DEST_PATH_IMAGE012AAAAA
均为整数,如果
Figure DEST_PATH_IMAGE024AA
只在一个搜索引擎中出现,那么
Figure 2012100511718100002DEST_PATH_IMAGE026AA
Figure DEST_PATH_IMAGE028AAAAA
表示至少出现在两个搜索引擎结果中的网址,,M为整数且
Figure DEST_PATH_IMAGE032AAAA
 
根据公式3计算
Figure 2012100511718100002DEST_PATH_IMAGE038A
在这N个搜索引擎中的相关度之和
Figure DEST_PATH_IMAGE036A
       
Figure DEST_PATH_IMAGE030AAAAAA
                    (3)
其中,
Figure DEST_PATH_IMAGE016AAA
表示第i个搜索引擎中的排名为j的相关度,N与均为整数;
Figure DEST_PATH_IMAGE040AA
表示第i个搜索引擎的搜索结果中排名为j的网址,
Figure DEST_PATH_IMAGE008AAA
,N与
Figure DEST_PATH_IMAGE012AAAAAAA
均为整数;
Figure DEST_PATH_IMAGE028AAAAAA
表示至少出现在两个搜索引擎结果中的网址,
Figure DEST_PATH_IMAGE030AAAAAAA
,M为整数且
如果有多个网页的
Figure DEST_PATH_IMAGE036AA
相等或者多个网页的
Figure DEST_PATH_IMAGE036AAA
同时达到最大,根据公式4分别计算这些网页在搜索引擎中的排名之和
Figure DEST_PATH_IMAGE046A
Figure DEST_PATH_IMAGE044A
                                      (4)
其中,
Figure DEST_PATH_IMAGE020AAA
表示第i个搜索引擎中的第j个结果的排名为j,
Figure DEST_PATH_IMAGE040AAA
表示第i个搜索引擎的搜索结果中排名为j的网址,
Figure DEST_PATH_IMAGE008AAAA
Figure DEST_PATH_IMAGE010AAAA
,N与
Figure DEST_PATH_IMAGE012AAAAAAAA
均为整数;
Figure DEST_PATH_IMAGE028AAAAAAA
表示至少出现在两个搜索引擎结果中的网页,
Figure DEST_PATH_IMAGE030AAAAAAAA
根据公式3和公式4选择前K个相关度最高的网页,将这K个网页以图片形式保存,并分别提取这些网页图片与钓鱼网页图片的哈希序列。
 
多个搜索引擎检索部分具体需要如下步骤:
步骤21) 将生成的词汇签名分别在N个搜索引擎:谷歌、雅虎等上进行检索;
步骤22) 找出至少出现在两个搜索引擎结果中的网页,组成一个网页列表;
步骤23) 由公式1、2、3计算网页列表中各个网页的相关度;
步骤24) 由公式3和公式4找出前K个相度高的网页,将这K个网页作为该钓鱼网页的候选目标网页。
3. 基于图像感知哈希技术的匹配部分
图2是图像感知哈希序列生成流程图,下面简单介绍流程图中各个模块的工作。
首先将网页以图片形式保存,然后对图片进行规格化处理,将所有图片统一变为具有255阶的灰度图像,并用双线性插值的方法将分辨率统一变为m*m,m一般选择8的整数倍,目的是使得最后生成的哈希序列长度统一。
 
对图像进行离散余弦变换的过程是:首先将m*m的图像分成8*8的小块,对每一小块进行离散余弦变换,最后对于每一小块,保留1个直流分量DC系数,9个交流分量AC系数,其余的将其置为0。然后用视觉模型对新生成的离散余弦变换系数矩阵进行处理,能很好地去掉信息中的冗余数据,提高图像压缩的效率。
加密处理就是对矩阵进行标准化处理,根据混沌区数据的迭代不重复性和初值敏感性用逻辑斯蒂Logistic方程作为混沌序列发生器进行加密,由一个密钥生成一个加密矩阵,用此矩阵对离散余弦变换系数矩阵进行加密,保证哈希函数的安全性。
通过量化处理可以将浮点型数据变为二值数据,减少冗余,便于存储。最后用哈夫曼压缩编码进行压缩,得到最终的哈希序列。
得到哈希序列后,用海明码距离计算公式5进行图像匹配,设h1和h2为两个哈希序列,L为哈希序列的长度,则
 
Figure DEST_PATH_IMAGE056
                              (5)
分别计算钓鱼网页图片的哈希序列与这K个网页图片对应的哈希序列的海明距离,选择距离最小的前L个网页为该钓鱼网页的目标网页,
Figure DEST_PATH_IMAGE048A
图像感知哈希序列的生及匹配部分具体需要如下步骤:
步骤31) 对图片进行规格化处理,将图片统一变为具有255阶的灰度图像,并用双线性插值的方法将分辨率统一变为m*m,m为8的整数倍;
步骤32) 将m*m的图片分成8*8的小块;
步骤33) 对每一小块进行离散余弦变换,对于每一小块,保留1个直流分量,9个交流分量,其余的将其置为0;
步骤34) 用视觉模型对新生成的离散余弦系数矩阵进行处理,去掉信息中的冗余数据,来提高图像压缩的效率;
步骤35) 用逻辑斯蒂Logistic方程作为混沌序列发生器进行加密,由一个密钥生成一个加密矩阵,用此矩阵对离散余弦变换系数矩阵进行加密;
步骤36) 将得到的浮点型数据通过量化处理变为二值数据,减少冗余;
步骤37) 用哈夫曼压缩编码进行压缩编码,得到最终的哈希序列;
步骤38) 分别计算钓鱼网页图片的哈希序列和这K个候选网页图片的哈希序列之间的海明距离,选择距离最小的前L个网页为该钓鱼网页模仿的合法网页。

Claims (1)

1. 一种由钓鱼网页查找目标网页的方法,其特征在于首先从网页标题、主体和网页图片中提取关键词,组成该钓鱼网页的词汇签名;然后在多个搜索引擎上用词汇签名进行检索,综合这些搜索引擎的结果,找出最相近的前K个网页,K为整数;将这K个网页和钓鱼网页以图片形式保存,提取图像感知哈希序列,最后分别计算这K个网页图片与钓鱼网页图片之间海明距离,根据距离的大小选出该钓鱼网页的一个或者多个目标网页;
该方法主要包括词汇签名的生成部分、多个搜索引擎检索部分、图像感知哈希序列的生成及匹配部分;
词汇签名的生成部分需要的步骤如下:
步骤11) 分别从网页标题和主体中提取纯文本文字;
步骤12) 获取网页中的图片,通过光学字符识别OCR技术提取出嵌在图片中的文字;
步骤13) 综合网页标题、主体和图片中的文字,计算这些文字的词频-反文档
频率TF-IDF值,由前5个最高TF-IDF的词构成一个词汇签名;
多个搜索引擎检索部分需要的步骤如下:
步骤21) 将生成的词汇签名分别在N个搜索引擎上进行检索,N为整数;
步骤22) 找出至少出现在两个搜索引擎结果中的网页,组成一个网页列表;
步骤23) 由公式1、2、3计算网页列表中各个网页的相关度;
Figure 2012100511718100001DEST_PATH_IMAGE002
                         (1)
其中,
Figure DEST_PATH_IMAGE004
表示第i个搜索引擎的检索结果中排名为j的网址,
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
,N与
Figure DEST_PATH_IMAGE010
均为整数;
Figure DEST_PATH_IMAGE012
               (2)
其中,
Figure DEST_PATH_IMAGE014
表示第i个搜索引擎中的排名为j的相关度;
Figure DEST_PATH_IMAGE016
表示一个搜索引擎所取的搜索结果总数;
Figure DEST_PATH_IMAGE018
表示第i个搜索引擎中的第j个结果的排名为j,
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE004A
表示第i个搜索引擎的检索结果中排名为j的网址,如果只在一个搜索引擎中出现,那么
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE026
表示至少出现在两个搜索引擎结果中的网址,
Figure DEST_PATH_IMAGE028
,M为整数且
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
       
Figure DEST_PATH_IMAGE028A
                        (3)
其中,
Figure DEST_PATH_IMAGE034
表示
Figure DEST_PATH_IMAGE036
在N个搜索引擎中的相关度之和;
Figure DEST_PATH_IMAGE026A
表示至少出现在两个搜索引擎结果中的网址,
Figure DEST_PATH_IMAGE028AA
,M为整数且
Figure DEST_PATH_IMAGE030A
表示第i个搜索引擎的搜索结果中排名为j的网址,如果
Figure DEST_PATH_IMAGE022A
只在一个搜索引擎中出现,那么
Figure DEST_PATH_IMAGE014A
表示第i个搜索引擎中的排名为j的相关度,N与
Figure DEST_PATH_IMAGE010A
均为整数;
步骤24) 由公式3和4计算出前K个相关度高的网页,认为这K个网页与该
钓鱼网页最相关,作为该钓鱼网页的候选目标网页,K为不大于
Figure DEST_PATH_IMAGE040
的整数;
Figure DEST_PATH_IMAGE042
                                       (4)
其中,表示在N个搜索引擎中的排名之和;
Figure DEST_PATH_IMAGE026AAA
表示至少出现在两个搜索引擎结果中的网页,
Figure DEST_PATH_IMAGE028AAA
Figure DEST_PATH_IMAGE030AA
Figure DEST_PATH_IMAGE038A
表示第i个搜索引擎的搜索结果中排名为j的网址, 
Figure DEST_PATH_IMAGE018A
表示第i个搜索引擎中的第j个结果的排名为j,
Figure DEST_PATH_IMAGE020A
图像感知哈希序列的生成及匹配部分需要的步骤如下:
步骤31) 对图片进行规格化处理,将图片统一变为具有255阶的灰度图像,
并用双线性插值的方法将分辨率统一变为m*m,m为8的整数倍;
步骤32) 将m*m的图片分成8*8的小块;
步骤33) 对每一小块进行离散余弦变换,对于每一小块,保留1个直流分量,
9个交流分量,其余的将其置为0;
步骤34) 用视觉模型对新生成的离散余弦系数矩阵进行处理,去掉信息中的
冗余数据,来提高图像压缩的效率;
步骤35) 用逻辑斯谛Logistic方程作为混沌序列发生器进行加密,由一个密钥生成一个加密矩阵,用此矩阵对离散余弦变换系数矩阵进行加密;
步骤36) 将得到的浮点型数据通过量化处理变为二值数据,减少冗余;
步骤37) 用哈夫曼压缩编码进行压缩编码,得到最终的哈希序列;
步骤38) 分别计算钓鱼网页图片的哈希序列和这K个候选网页图片的哈希序
列之间的海明距离,选择距离最小的前L个网页为该钓鱼网页模仿的合法网页,L为不大于K的整数。
CN201210051171.8A 2012-03-01 2012-03-01 由钓鱼网页查找目标网页的方法 Expired - Fee Related CN102629261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210051171.8A CN102629261B (zh) 2012-03-01 2012-03-01 由钓鱼网页查找目标网页的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210051171.8A CN102629261B (zh) 2012-03-01 2012-03-01 由钓鱼网页查找目标网页的方法

Publications (2)

Publication Number Publication Date
CN102629261A true CN102629261A (zh) 2012-08-08
CN102629261B CN102629261B (zh) 2014-07-16

Family

ID=46587521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210051171.8A Expired - Fee Related CN102629261B (zh) 2012-03-01 2012-03-01 由钓鱼网页查找目标网页的方法

Country Status (1)

Country Link
CN (1) CN102629261B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246701A (zh) * 2013-04-02 2013-08-14 百度在线网络技术(北京)有限公司 快速搜索方法、系统和装置
CN103412960A (zh) * 2013-08-31 2013-11-27 西安电子科技大学 基于双边随机投影的图像感知哈希方法
CN103729354A (zh) * 2012-10-10 2014-04-16 腾讯科技(深圳)有限公司 网页信息处理方法及装置
CN104079559A (zh) * 2014-06-05 2014-10-01 腾讯科技(深圳)有限公司 一种网址安全性检测方法、装置及服务器
CN104717072A (zh) * 2015-03-10 2015-06-17 南京师范大学 基于感知哈希与椭圆曲线的遥感影像认证方法
CN105095162A (zh) * 2014-05-19 2015-11-25 腾讯科技(深圳)有限公司 文本相似度确定方法、装置、电子设备及系统
CN105824822A (zh) * 2015-01-05 2016-08-03 任子行网络技术股份有限公司 一种由钓鱼网页聚类定位目标网页的方法
CN106060038A (zh) * 2016-05-30 2016-10-26 南京邮电大学 基于客户端程序行为分析的钓鱼网站检测方法
CN106708951A (zh) * 2016-11-25 2017-05-24 西安电子科技大学 支持所有权认证的客户端图像模糊去重方法
CN106844309A (zh) * 2017-01-22 2017-06-13 北京邮电大学 基于签名压缩机制的近似重复文本检测方法及装置
CN107038173A (zh) * 2016-02-04 2017-08-11 腾讯科技(深圳)有限公司 应用查询方法和装置、相似应用检测方法和装置
CN107852412A (zh) * 2015-08-05 2018-03-27 迈克菲有限责任公司 用于网络钓鱼和品牌保护的系统和方法
CN107992764A (zh) * 2017-11-28 2018-05-04 国网河南省电力公司电力科学研究院 一种敏感网页识别与检测方法及装置
US10097580B2 (en) 2016-04-12 2018-10-09 Microsoft Technology Licensing, Llc Using web search engines to correct domain names used for social engineering
CN108809943A (zh) * 2018-05-14 2018-11-13 苏州闻道网络科技股份有限公司 网站监控方法及其装置
CN109002749A (zh) * 2017-12-11 2018-12-14 罗普特(厦门)科技集团有限公司 嫌疑人人脸识别认定方法
CN109062575A (zh) * 2018-07-11 2018-12-21 芯海科技(深圳)股份有限公司 一种c编译器利用海明距离优化sram页选择的方法及系统
CN113497781A (zh) * 2020-03-19 2021-10-12 中国电信股份有限公司 钓鱼网站识别方法、装置和计算机可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977337B (zh) * 2019-02-25 2022-08-09 北京三快在线科技有限公司 一种网页设计对比方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004068288A2 (en) * 2003-01-24 2004-08-12 America Online Inc. Classifier Tuning Based On Data Similarities
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
CN102096781A (zh) * 2011-01-18 2011-06-15 南京邮电大学 一种基于网页关联性的钓鱼检测方法
CN102098235A (zh) * 2011-01-18 2011-06-15 南京邮电大学 一种基于文本特征分析的钓鱼邮件检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004068288A2 (en) * 2003-01-24 2004-08-12 America Online Inc. Classifier Tuning Based On Data Similarities
WO2004068288A3 (en) * 2003-01-24 2005-04-28 America Online Inc Classifier Tuning Based On Data Similarities
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
CN102096781A (zh) * 2011-01-18 2011-06-15 南京邮电大学 一种基于网页关联性的钓鱼检测方法
CN102098235A (zh) * 2011-01-18 2011-06-15 南京邮电大学 一种基于文本特征分析的钓鱼邮件检测方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729354A (zh) * 2012-10-10 2014-04-16 腾讯科技(深圳)有限公司 网页信息处理方法及装置
CN103729354B (zh) * 2012-10-10 2015-10-21 腾讯科技(深圳)有限公司 网页信息处理方法及装置
CN103246701A (zh) * 2013-04-02 2013-08-14 百度在线网络技术(北京)有限公司 快速搜索方法、系统和装置
CN103412960A (zh) * 2013-08-31 2013-11-27 西安电子科技大学 基于双边随机投影的图像感知哈希方法
CN103412960B (zh) * 2013-08-31 2016-08-10 西安电子科技大学 基于双边随机投影的图像感知哈希方法
CN105095162A (zh) * 2014-05-19 2015-11-25 腾讯科技(深圳)有限公司 文本相似度确定方法、装置、电子设备及系统
CN104079559B (zh) * 2014-06-05 2017-07-25 腾讯科技(深圳)有限公司 一种网址安全性检测方法、装置及服务器
CN104079559A (zh) * 2014-06-05 2014-10-01 腾讯科技(深圳)有限公司 一种网址安全性检测方法、装置及服务器
CN105824822A (zh) * 2015-01-05 2016-08-03 任子行网络技术股份有限公司 一种由钓鱼网页聚类定位目标网页的方法
CN104717072A (zh) * 2015-03-10 2015-06-17 南京师范大学 基于感知哈希与椭圆曲线的遥感影像认证方法
CN107852412A (zh) * 2015-08-05 2018-03-27 迈克菲有限责任公司 用于网络钓鱼和品牌保护的系统和方法
CN107852412B (zh) * 2015-08-05 2020-09-29 迈克菲有限责任公司 用于网络钓鱼和品牌保护的系统和方法、计算机可读介质
CN107038173A (zh) * 2016-02-04 2017-08-11 腾讯科技(深圳)有限公司 应用查询方法和装置、相似应用检测方法和装置
CN107038173B (zh) * 2016-02-04 2021-06-25 腾讯科技(深圳)有限公司 应用查询方法和装置、相似应用检测方法和装置
US10097580B2 (en) 2016-04-12 2018-10-09 Microsoft Technology Licensing, Llc Using web search engines to correct domain names used for social engineering
CN106060038B (zh) * 2016-05-30 2019-07-12 南京邮电大学 基于客户端程序行为分析的钓鱼网站检测方法
CN106060038A (zh) * 2016-05-30 2016-10-26 南京邮电大学 基于客户端程序行为分析的钓鱼网站检测方法
CN106708951B (zh) * 2016-11-25 2019-10-11 西安电子科技大学 支持所有权认证的客户端图像模糊去重方法
CN106708951A (zh) * 2016-11-25 2017-05-24 西安电子科技大学 支持所有权认证的客户端图像模糊去重方法
CN106844309A (zh) * 2017-01-22 2017-06-13 北京邮电大学 基于签名压缩机制的近似重复文本检测方法及装置
CN107992764A (zh) * 2017-11-28 2018-05-04 国网河南省电力公司电力科学研究院 一种敏感网页识别与检测方法及装置
CN107992764B (zh) * 2017-11-28 2021-07-23 国网河南省电力公司电力科学研究院 一种敏感网页识别与检测方法及装置
CN109002749B (zh) * 2017-12-11 2022-01-04 罗普特科技集团股份有限公司 嫌疑人人脸识别认定方法
CN109002749A (zh) * 2017-12-11 2018-12-14 罗普特(厦门)科技集团有限公司 嫌疑人人脸识别认定方法
CN108809943B (zh) * 2018-05-14 2021-05-14 苏州闻道网络科技股份有限公司 网站监控方法及其装置
CN108809943A (zh) * 2018-05-14 2018-11-13 苏州闻道网络科技股份有限公司 网站监控方法及其装置
CN109062575A (zh) * 2018-07-11 2018-12-21 芯海科技(深圳)股份有限公司 一种c编译器利用海明距离优化sram页选择的方法及系统
CN109062575B (zh) * 2018-07-11 2022-05-10 合肥市芯海电子科技有限公司 一种c编译器利用海明距离优化sram页选择的方法及系统
CN113497781A (zh) * 2020-03-19 2021-10-12 中国电信股份有限公司 钓鱼网站识别方法、装置和计算机可读存储介质
CN113497781B (zh) * 2020-03-19 2022-08-02 中国电信股份有限公司 钓鱼网站识别方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
CN102629261B (zh) 2014-07-16

Similar Documents

Publication Publication Date Title
CN102629261B (zh) 由钓鱼网页查找目标网页的方法
Qin et al. An encrypted image retrieval method based on Harris corner optimization and LSH in cloud computing
US10496699B2 (en) Topic association and tagging for dense images
CN105488196B (zh) 一种基于互联语料的热门话题自动挖掘系统
Beebe Digital forensic research: The good, the bad and the unaddressed
GB2568118A (en) Large-scale image tagging using image-to-topic embedding
CN107480158A (zh) 基于相似性得分评估内容项目与图像的匹配的方法和系统
EP2336908A1 (en) Search device, search method and search program using open search engine
Shouzhong et al. Mining microblog user interests based on TextRank with TF-IDF factor
Wenyin et al. Phishing Web page detection
Xiang et al. A word-embedding-based steganalysis method for linguistic steganography via synonym substitution
CN109918621A (zh) 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
Zhang et al. A retrieval algorithm of encrypted speech based on short-term cross-correlation and perceptual hashing
Seifollahi et al. Optimization based clustering algorithms for authorship analysis of phishing emails
CN113761235A (zh) 一种多媒体内容的识别方法、相关装置、设备及存储介质
KR20170060958A (ko) 금융 사기 방지 방법 및 시스템
Qin et al. An encrypted image retrieval method based on SimHash in cloud computing
Xia et al. A similarity search scheme over encrypted cloud images based on secure transformation
CN101169783A (zh) 用于多媒体对象的数字水印搜索引擎
Yang et al. A unified context model for web image retrieval
Wu et al. Clustering results of image searches by annotations and visual features
Zhang et al. Hyperlink-aware object retrieval
Singh Robust homomorphic video hashing
Özkan et al. Visual group binary signature for video copy detection
CN108629266B (zh) 一种用于计算相关性分数的计算系统、方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120808

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000213

Denomination of invention: Method for finding landing page from phishing page

Granted publication date: 20140716

License type: Common License

Record date: 20161118

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000213

Date of cancellation: 20180116

EC01 Cancellation of recordation of patent licensing contract
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140716

Termination date: 20190301

CF01 Termination of patent right due to non-payment of annual fee