CN102662959A - 利用空间混合索引机制检测钓鱼网页的方法 - Google Patents

利用空间混合索引机制检测钓鱼网页的方法 Download PDF

Info

Publication number
CN102662959A
CN102662959A CN2012100577310A CN201210057731A CN102662959A CN 102662959 A CN102662959 A CN 102662959A CN 2012100577310 A CN2012100577310 A CN 2012100577310A CN 201210057731 A CN201210057731 A CN 201210057731A CN 102662959 A CN102662959 A CN 102662959A
Authority
CN
China
Prior art keywords
node
file
pseudo
network object
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100577310A
Other languages
English (en)
Other versions
CN102662959B (zh
Inventor
张卫丰
王慕妮
周国强
张迎周
田先桃
周国富
陆柳敏
许碧欢
顾赛赛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201210057731.0A priority Critical patent/CN102662959B/zh
Publication of CN102662959A publication Critical patent/CN102662959A/zh
Application granted granted Critical
Publication of CN102662959B publication Critical patent/CN102662959B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于空间混合索引机制的综合利用网页的空间布局、文字特征以及图像特征的钓鱼网页检测方法,涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题。方法结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页的文本特征以及图像特征,形成空间混合索引机制的综合文件图像倒排索引的空间树,即DIIR树。DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件。在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征。

Description

利用空间混合索引机制检测钓鱼网页的方法
技术领域
本发明涉及一种钓鱼网页检测的方法,主要从网页视觉布局相似性角度,同步结合网页的文本特征、图像特征及空间布局特征,基于空间混合索引机制对钓鱼网页进行匹配和识别,属于信息安全领域。
背景技术
钓鱼网站是随着网络普及和在线交易增加而变得异常猖獗的网络诈骗行为。钓鱼网站是犯罪分子做出的诈骗网站,钓鱼网站通常与银行网站或其他知名网站几乎完全相同,从而引诱网站使用者在钓鱼网站上提交出敏感信息,如:用户名、口令、银行帐号或信用卡详细信息等[Zhang2007]。
最典型的网络钓鱼攻击过程如下:首先将用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上,然后获取用户在该钓鱼网站上输入的个人敏感信息,例如银行帐号、银行密码等。通常这个攻击过程不会让受害者警觉。这些个人信息对钓鱼网站持有者具有非常大的吸引力,通过使用窃取到的个人信息,他们可以假冒受害者进行欺诈性金融交易,获得极大的经济利益,而受害者们却因此而遭受到巨大的经济损失,非但如此,被窃取的个人信息还可能被用于其他非法活动。如何识别钓鱼网站,如何保证网站信息传输的保密完整性,愈发的显示出其重要性和必要性。
当前钓鱼网站识别主要靠计算机自动识别和人工识别两种方式,人工识别采用黑名单机制,用户对某个网站进行举报,通过人工鉴定是否为钓鱼网站,这样显然速度太慢。计算机自动识别目前主要是基于页面视觉相似性检测方式判断是否为钓鱼网站,电脑通过抽取网页的视觉、文字特征与大多数主要的合法网站页面进行相似度对比或进行机器学习,从而判断是否为钓鱼网站。
大多数用户会受骗,很多时候是由于钓鱼网页总是与真实网页有高度的相似性。计算相似性的方法很多,文献[Liu2005,Fu2006,Chen2009,Afroz2009]。
空间数据库是一种在地理信息方面应用较多的空间查询技术,采用R树为数据结构。由于网页布局特征信息需要查找视觉上靠近的所有矩形,这里结合空间数据库存储网页的特征,可以快速获取特征库中所有视觉上相似以及位置上靠近的布局特征。
[Zhang2007]Y.Zhang,J.Hong,and L.Cranor.Cantina:A content-based approach to detectingphishing websites.WWW,2007.
[Fu2006]Anthony Y.Fu,Wenyin Liu,Xiaotie Deng.Detecting Phishing Web Pages with VisualSimilarity Assessment based on Earth Mover’s Distance(EMD).IEEE Transactions onDependable and Secure Computing,2006,3(4),pages 301-311.
[Liu2005]W.Liu,G.Huang,X.Liu,M.Z,and X.Deng.Detection of Phishing Webpages Based onVisual Similarity.International World Wide Web Conference,2005,pp.1060-1061.
[Chen2009]K.-T.Chen,J.-Y.Chen,C.-R.Huang,and C.-S.Chen.Fighting Phishing withDiscriminative Keypoint Features of Webpages.IEEE Internet Computing,2009.
[Afroz2009]Sadia Afroz and Rachel Greenstadt.Phishzoo:An Automated Web Phishing DetectionApproach Based on Profiling and Fuzzy Matching.Technical Report DU-CS-09-03,DrexelUniversity,2009.
发明内容
技术问题:本发明的目的是提供一种利用空间索引与倒排索引结合的混合索引机制检测钓鱼网页的方法,以往钓鱼网页识别主要通过人工识别,目前现有的计算机识别的钓鱼网页检测技术主要从网页元素角度对检测网页进行匹配检测,匹配速度往往无法达到实际使用的要求。本发明从网页的布局角度进行文本特征及图像特征的提取及提出基于空间混合索引机制的相似性检测方法,有效提高了页面匹配的速度,同时保证了高精度和低误判率。
技术方案:本发明利用空间布局特征并同步结合网页的文字及图像特征的钓鱼网页检测及其实现方法。通过结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页的文本特征以及图像特征的机制:空间混合索引机制,也就是综合文件图像倒排索引的空间树DIIR树。
利用空间混合索引机制检测钓鱼网页的方法,首先从网页标题、主体和网页图片中提取关键词,组成该钓鱼网页的词汇签名;然后在多个搜索引擎上用词汇签名进行检索,综合这些搜索引擎的结果,找出最相近的前K个网页,K为整数;将这K个网页和钓鱼网页以图片形式保存,提取图像感知哈希序列,最后分别计算这K个网页图片与钓鱼网页图片之间海明距离,根据距离的大小选出该钓鱼网页的一个或者多个目标网页;
利用空间混合索引机制检测钓鱼网页的方法通过结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页文本特征的倒排索引以及网页图像特征的倒排索引来检测钓鱼网页;空间混合索引机制是指综合文字与图像倒排索引的空间树,记为DIIR树;
空间混合索引机制即DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件,在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征;对文字特征运用语言模型来计算待查询的网络对象与结点之间的语义相关性,对于图像特征,则提取图像的旋转不变特征,并对其进行标准化,将标准化后的特征向量的每一维作为一种可视化文字,然后运用语言模型来计算待查询的网络对象与结点之间的可视化文字的语义相关性,运用对象之间的空间距离以及两个语义相关性模型,设计空间混合索引的剪枝函数;利用空间混合索引机制即DIIR树的整个方法主要步骤包括:
a)特征提取过程:将网页按照空间位置分割成各个网络对象,即提取网页的布局特征,提取每个网络对象的文字特征以及图像特征;
步骤a1)布局特征抽取模块的主要工作就是结合浏览器内核以及文档对象模型DOM树分析工具抽取网页中所有大小合适的矩形块信息并且各矩形块相互之间没有重叠;
步骤a2)遍历一个网页的文档对象模型DOM树,结合浏览器内核中的布局渲染引擎分析该页面的超文本标记文档html源文件,级联样式表css源文件以及java脚本js源代码,获取每个节点所代表的标签的显示位置和大小,并记录下这些信息组成网页布局特征信息;
步骤a3)在特征库采集阶段,将采集到的可能被模仿的合法网页布局特征数据交给空间数据库模块进行数据存储;在钓鱼网页分析阶段,将疑似页面的布局特征数据传给页面布局分析模块进行综合分析;
步骤a4)统计每个网络对象中各个单词出现的次数,据此,创建网络对象中各个单词的语言模型;
b)空间混合索引的建树过程:在空间索引机制的空间区域R树的基础上同步结合文字倒排文件以及图像倒排文件;
步骤b1)选择子树过程:从根结点开始,在每一层选择待查询对象与该结点之间由公式1与公式2给出的最小距离,也就是最小的伪文件结点所属的子树,直到找到叶子结点;
步骤b2)结点分割过程:如果插入对象后,叶子结点的容量超过了最大值,此时,使用由步骤b3)到步骤b8)的分割算法对该结点进行分割;
步骤b3)对于当前结点中的伪文件对Ei,Ej,创建包含Ei,Ej的矩形框Rij
步骤b4)计算矩形框Rij的面积与伪文件Ei的面积以及Ej的面积之差,记为d;
步骤b5)计算伪文件对之间的文字特征余弦相似性及图片特征余弦相似性,选择两者中较大的值,记为cosSim;
步骤b6)计算(1-β)d+β(1-cosSim)作为两个伪文件之间的距离,其中β是权重参数;
步骤b7)选择距离最大的一对伪文件分别作为两个分组的第一个元素;
步骤b8)对于余下的伪文件结点,根据公式2计算其与两个组之间的距离,并将其加入到这个值较小的组里,直到结点中的伪文件都被分为两组;
AreaCost(Ek)=area(E′k.rectangle)-area(Ek.rectangle)公式1
其中,Ek指的是当前结点的伪文件结点,也就是下一分支的入口结点;E′k.rectangle指的是插入新结点之后伪文件结点可能的扩展矩形区域,Ek.rectangle指的是未插入新结点时伪文件结点的矩形区域,
SimAreaCost ( E k , O ) = ( 1 - β ) AreaCost ( E k ) max Area +
β min [ ( 1 - cos ine ( E k . DcVector , O . DVector ) ) , 公式2
( 1 - cos ine ( E k . IcVector , O . IVector ) ) ]
其中,β是一个权重参数,其取值范围为[0,1];AreaCost(Ek)如公式1所示;max Area指的是包含所有对象的最小矩形框,用于标准化;cosine(Ek.DcVector,O.DVector)是指文本向量之间的余弦相似度,用于表示文本文件之间的相似度;其中Ek.DcVector指的是伪文件结点中的文字权重向量,是伪文件结点中各个单词的最大权重,O.DVector指的是待查询的文件中文字权重向量;cosine(Ek.IcVector,O.IVector)是指图像的可视化文字特征向量之间的余弦相似度,用于表示图像之间的相似度;Ek.IcVector指的是伪文件中图像的可视化文字特征的权重向量,是伪文件结点中各个可视化文字的最大权重;O.IVector指的是待插入对象的可视化文字特征的权重向量;min指的是取最小值;
c)空间混合索引机制的查询过程:
查询过程使用最佳优先遍历算法检索空间网络对象,并计算结点的排名分值,从而找出前n个对象的列表,n为整数;在查询处理的过程中,需要用到两个距离公式,如公式3与公式4所示,表示待查询网络对象和包含在结点中的对象之间的空间文本距离的最小下界,用来在搜索的过程中进行排序和搜索空间的有效剪枝
D ST ( Q , O ) = α D ϵ ( Q . loc , O . loc ) max D + 公式3
( 1 - α ) min [ ( 1 - P ( Q . keywords | O . doc ) max DP ) , ( 1 - P ( Q . keycategory | O . doc ) max IP ) ]
其中,α是一个权重参数,其取值范围为[0,1];Dε(Q.loc,O.loc)表示待查询网络对象与数据库中已有网络对象之间的欧氏距离;maxD表示数据库中两个对象之间的最大距离,用于标准化;P(Q.keywords|O.doc)指的是待查询网络对象Q中文字的查询似然度语言模型的排列函数;P(Q.keycategory|O.doc)指的是待查询网络对象Q中图片特征的查询似然度语言模型的排列函数;maxDP用于标准化排列分数P(Q.keywords|O.doc)到(0,1),计算方法为
Figure BDA0000141273980000051
td指网络对象中的关键字;maxIP用于标准化排列分数P(Q.keycategory|O.doc)到(0,1),计算方法为
Figure BDA0000141273980000052
ti指网络对象中图片特征的某一维特征;
MIND ST ( Q , N ) = α MIND ϵ ( Q . loc , N . rec tan gle ) max D + (4)
( 1 - α ) min [ ( 1 - P ( Q . keywords | N . doc ) max DP ) , ( 1 - P ( Q . keycategory | N . doc ) max IP ) ]
其中,α是一个权重参数,其取值范围为[0,1];MINDε(Q.loc,N.rectangle)分别表示待查询网络对象与伪文件对象之间的最小欧氏距离;P(Q.keywords|N.doc)指的是待查询网络对象O中图片特征的查询似然度语言模型的排列函数,与公式3不同的是用N.doc伪文件来代替O.doc;P(Q.keycategory|N.doc)指的是待查询文件Q中图片特征的查询似然度语言模型的排列函数,与公式3不同的是用N.doc伪文件来代替O.doc;maxD,maxDP,maxIP与公式3中相同;
步骤c1)使用优先队列去跟踪记录需要被访问的结点和对象,对于创建好的综合文件图像倒排索引的空间树即DIIR树,根结点入队列;
步骤c2)如果队列不为空,则队首元素出队列;如果队列为空,转步骤c6);
步骤c3)如果取出的队首元素为一个网络对象,则将其作为找到的一个最相近的对象,如果已经找到n个最相近的对象,则说明完成此次查询,转步骤c6);否则,返回步骤c2);
步骤c4)如果取出的队首元素是叶子结点,则将叶子结点中的每个对象作如下处理:计算其与待查询网络对象之间的距离,并将此对象与其距离加入到优先队列中,并返回到步骤c2);
步骤c5)如果取出的队首元素是非叶子结点,则将其中的每个伪文件结点,作如下处理:计算其与待查询网络对象之间的距离,并将此伪文件结点与其距离加入到优先队列中,并返回到步骤c2);
步骤c6)终止。
有益效果:本发明方法综合网页中各个网络对象的空间分布、文字特征以及图像特征,运用空间混合索引机制来对网络对象进行相似性匹配。前者对网络对象的内容特征进行了全面的提取,从而保证了召回率;后者利用综合文件图像倒排索引的空间树DIIR树查询最相似的网络对象,较大程度上提高了相似性检测的速度,节省程序运算时间和空间。
附图说明
图1利用利用综合文件图像倒排索引的空间树DIIR树进行钓鱼网页检测的流程图,
图2利用综合文件图像倒排索引的空间树DIIR树的结构图。
具体实施方式
本发明结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页的文本特征以及图像特征的机制,即利用综合文件图像倒排索引的空间树DIIR树,其结构如图2所示,以精确快速地查找空间位置相近、视觉相似的布局特征,经过统计分析找到样本空间中最为相似的合法网页,从而达到钓鱼网页检测的目的。总体流程图见图1。
一、利用综合文件图像倒排索引的空间树DIIR树是对空间索引机制空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件。在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征。对文字特征运用语言模型来计算待查询的网络对象与结点之间的语义相关性。对于图像特征,则提取图像的旋转不变特征,并对其进行标准化。将标准化后的特征向量的每一维作为一种可视化文字,然后运用语言模型来计算待查询的网络对象与结点之间的可视化文字的语义相关性。运用对象之间的空间距离以及两个语义相关性模型,设计空间混合索引的剪枝函数。
二、特征提取过程:将网页根据网页布局分割成各个网络对象,即提取网页的布局特征,然后每个网络对象的文字特征以及图像特征。
步骤a1)网页的布局特征是指网页上所有可见信息的矩形边界,比如网页中的一段文字的矩形边界,一副图片的矩形边界,或者视觉上靠近的元素组合的矩形边界等。布局特征抽取模块的主要工作就是结合浏览器内核以及文档对象模型DOM树分析工具抽取网页中所有大小合适并且互相之间没有重叠的矩形块信息;
步骤a2)遍历一个网页的文档对象模型DOM树,结合浏览器内核中的布局渲染引擎分析该页面的超文本标记文档html源代码,级联样式表css文件以及java脚本js源代码,获取每个节点所代表的标签的显示位置和大小,并记录下这些信息组成网页布局特征信息;
步骤a3)在特征库采集阶段,该模块将采集到的可能被模仿的合法网页布局特征数据交给空间数据库模块进行数据存储;在钓鱼网页分析阶段,该模块将疑似页面的布局特征数据传给页面布局分析模块进行综合分析;
步骤a4)统计每个网络对象中各个单词出现的次数,据此,创建语言模型:
p ^ ( t | θ O . doc ) = ( 1 - λ ) tf ( t , O . doc ) | O . doc | + λ tf ( t , Coll ) | Coll | - - - ( 1 )
其中,tf(t,O.doc)是特征t(文本中单词或图片特征向量中某一维特征)在网络对象文件O.doc中出现的次数;tf(t,Coll)是单词t在数据库中的网络对象文件集合中出现的次数;指的是单词t在网络对象文件O.doc中的最大可能性估计值;
Figure BDA0000141273980000073
指的是单词t在网络对象文件集合Coll中的最大可能性估计值;λ指的是Jelinek-Mercer平滑方法的平滑参数。
P ( Q . keywords | O . doc ) = Π t ∈ Q . keywords p ^ ( t | θ O . doc ) - - - ( 2 )
其中Q指的是待查询文件,Q.keywords指的是待搜索对象的关键字集合,P(Q.keywords|O.doc)指的是查询似然度语言模型的排列函数。
步骤a5)提取网络对象的旋转不变特征,采用K均值聚类方法将其标准化为K维的特征向量,每一维用一个可视化文字代替,对于每一维可视化文字使用公式1与公式2计算其语言模型。
三、空间混合索引的建树过程:在空间索引机制R树的基础上同步结合文字倒排文件以及图像倒排文件。
倒排文件是指不是由记录来确定属性值,而是由属性值来确定记录的位置。空间区域R树是一个高度平衡树,它是B树的自然扩展,用空间对象的最小边界框来近似表达空间对象,根据地物的最小边界框来建立空间区域R树,可以直接对空间中占据一定范围的空间对象进行索引。
a)选择子树过程。从根结点开始,在每一层选择距离最小的伪文件结点所属的子树,直到找到叶子结点,距离计算方法如公式4;
AreaCost(Ek)=area(E′k.rectangle)-area(Ek.rectangle)(3)
其中,Ek指的是当前结点的伪文件结点,也就是下一分支的入口结点;E′k.rectangle指的是插入新结点之后伪文件结点可能的扩展矩形区域,Ek.rectangle指的是未插入新结点时伪文件结点的矩形区域。
SimAreaCost ( E k , O ) = ( 1 - β ) AreaCost ( E k ) max Area +
β min [ ( 1 - cos ine ( E k . DcVector , O . DVector ) ) , - - - ( 4 )
( 1 - cos ine ( E k . IcVector , O . IVector ) ) ]
其中,β是一个权重参数,其取值范围为[0,1];AreaCost(Ek)如公式3所示;max Area指的是包含所有对象的最小矩形框,用于标准化;cosine(Ek.DcVector,O.DVector)是指文本向量之间的余弦相似度,用于表示文本文件之间的相似度;其中Ek.DcVector指的是伪文件结点中的文字权重向量,是伪文件结点中各个单词的最大权重,O.DVector指的是待查询的文件中文字权重向量;cosine(Ek.IcVector,O.IVector)是指图像的可视化文字特征向量之间的余弦相似度,用于表示图像之间的相似度;Ek.IcVector指的是伪文件中图像的可视化文字特征的权重向量,是伪文件结点中各个可视化文字的最大权重;O.IVector指的是待插入对象的可视化文字特征的权重向量;min指的是取最小值。
b)结点分割过程。如果插入对象后,叶子结点的容量超过了最大值,此时,使用二次分割算法对该结点进行分割:
步骤b1)对于当前结点中的伪文件对Ei,Ej,创建包含Ei,Ej的矩形框Rij
步骤b2)计算矩形框Rij的面积与伪文件Ei的面积以及Ej的面积之差,记为d;
步骤b3)计算伪文件对之间的文字特征余弦相似性及图片特征余弦相似性,选择两者中较大的值,记为cosSim;
步骤b4)计算(1-β)d+β(1-cosSim),作为两个伪文件之间的距离;
步骤b5)选择伪文件距离最大的一对伪文件分别作为两个分组的第一个元素;
步骤b6)对于余下的伪文件结点,利用公式4计算其与两个组之间的距离,并将其加入到这个值较小的组里,直到结点中的伪文件都被分为两组。
四、空间混合索引机制的查询过程:
查询过程使用最佳优先遍历算法检索空间网络对象,并计算结点的排名分值,从而找出前k个对象的列表。在查询处理的过程中,需要用到对象之间的距离公式以及对象与伪文件之间的距离公式,表示待查询网络对象和包含在结点中的网络对象之间的空间文本距离的最小下界。用来在搜索的过程中进行排序和搜索空间的有效剪枝。
D ST ( Q , O ) = α D ϵ ( Q . loc , O . loc ) max D + (5)
( 1 - α ) min [ ( 1 - P ( Q . keywords | O . doc ) max DP ) , ( 1 - P ( Q . keycategory | O . doc ) max IP ) ]
其中,α是一个权重参数,其取值范围为[0,1];Dε(Q.loc,O.loc)表示待查询网络对象与数据库中已有网络对象之间的欧氏距离;maxD表示数据库中两个对象之间的最大距离,用于标准化;P(Q.keywords|O.doc)指的是待查询网络对象Q中文字的查询似然度语言模型的排列函数;P(Q.keycategory|O.doc)指的是待查询网络对象Q中图片特征的查询似然度语言模型的排列函数;maxDP用于标准化排列分数P(Q.keywords|O.doc)到(0,1),计算方法为
Figure BDA0000141273980000091
td指网络对象中的关键字;maxIP用于标准化排列分数P(Q.keycategory|O.doc)到(0,1),计算方法为ti指网络对象中图片特征的某一维特征;
MIND ST ( Q , N ) =
α MIND ϵ ( Q . loc , N . rec tan gle ) max D + - - - ( 6 )
( 1 - α ) min [ ( 1 - P ( Q . keywords | N . doc ) max DP ) , ( 1 - P ( Q . keycategory | N . doc ) max IP ) ]
其中,α是一个权重参数,其取值范围为[0,1];MINDε(Q.loc,N.rectangle)分别表示待查询网络对象与伪文件对象之间的最小欧氏距离;P(Q.keywords|N.doc)指的是待查询网络对象O中图片特征的查询似然度语言模型的排列函数,与公式5不同的是用N.doc伪文件来代替O.doc;P(Q.keycategory|N.doc)指的是待查询文件Q中图片特征的查询似然度语言模型的排列函数,与公式5不同的是用N.doc伪文件来代替O.doc;maxD,maxDP,maxIP与公式5中相同。
步骤c1)使用优先队列去跟踪记录需要被访问的结点和对象,对于创建好的DIIR树,根结点入队列;
步骤c2)如果队列不为空,则队首元素出队列;
步骤c3)如果取出的队首元素为一个网络对象,则将其作为找到的一个最相近的对象,如果已经找到n个最相近的对象,则结束。否则,返回步骤c2);
步骤c4)如果取出的队首元素是叶子结点,则将叶子结点中的每个对象作如下处理:计算其与待查询网络对象之间的距离,并将此对象及其距离加入到优先队列中,并返回到步骤c2);
步骤c5)如果取出的队首元素是非叶子结点,则将其中的每个伪文件结点,作如下处理:计算其与待查询网络对象之间的距离,并将伪文件结点及其距离加入到优先队列中,并返回到步骤c2)。
表1是图2中的叶子结点的文字倒排文件,
表1
Figure BDA0000141273980000101
表2是图2中的叶子结点的可视化文字倒排文件,
表2
Figure BDA0000141273980000102
表3图2中的非叶子结点的文字倒排文件,
表3
Figure BDA0000141273980000103
表4图2中的非叶子结点的可视化文字倒排文件。
表4

Claims (1)

1.一种利用空间混合索引机制检测钓鱼网页的方法,其主要方法在于通过结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页文本特征的倒排索引以及网页图像特征的倒排索引来检测钓鱼网页;空间混合索引机制是指综合文字与图像倒排索引的空间树,记为DIIR树;
空间混合索引机制即DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件,在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征;对文字特征运用语言模型来计算待查询的网络对象与结点之间的语义相关性,对于图像特征,则提取图像的旋转不变特征,并对其进行标准化,将标准化后的特征向量的每一维作为一种可视化文字,然后运用语言模型来计算待查询的网络对象与结点之间的可视化文字的语义相关性,运用对象之间的空间距离以及两个语义相关性模型,设计空间混合索引的剪枝函数;利用空间混合索引机制即DIIR树的整个方法主要步骤包括:
a)特征提取过程:将网页按照空间位置分割成各个网络对象,即提取网页的布局特征,提取每个网络对象的文字特征以及图像特征;
步骤a1)布局特征抽取模块的主要工作就是结合浏览器内核以及文档对象模型DOM树分析工具抽取网页中所有大小合适的矩形块信息并且各矩形块相互之间没有重叠;
步骤a2)遍历一个网页的文档对象模型DOM树,结合浏览器内核中的布局渲染引擎分析该页面的超文本标记文档html源文件,级联样式表css源文件以及java脚本js源代码,获取每个节点所代表的标签的显示位置和大小,并记录下这些信息组成网页布局特征信息;
步骤a3)在特征库采集阶段,将采集到的可能被模仿的合法网页布局特征数据交给空间数据库模块进行数据存储;在钓鱼网页分析阶段,将疑似页面的布局特征数据传给页面布局分析模块进行综合分析;
步骤a4)统计每个网络对象中各个单词出现的次数,据此,创建网络对象中各个单词的语言模型;
b)空间混合索引的建树过程:在空间索引机制的空间区域R树的基础上同步结合文字倒排文件以及图像倒排文件;
步骤b1)选择子树过程:从根结点开始,在每一层选择待查询对象与该结点之间由公式1与公式2给出的最小距离,也就是最小的伪文件结点所属的子树,直到找到叶子结点;
步骤b2)结点分割过程:如果插入对象后,叶子结点的容量超过了最大值,此时,使用由步骤b3)到步骤b8)的分割算法对该结点进行分割;
步骤b3)对于当前结点中的伪文件对Ei,Ej,创建包含Ei,Ej的矩形框Rij
步骤b4)计算矩形框Rij的面积与伪文件Ei的面积以及Ej的面积之差,记为d;
步骤b5)计算伪文件对之间的文字特征余弦相似性及图片特征余弦相似性,选择两者中较大的值,记为cosSim;
步骤b6)计算(1-β)d+β(1-cosSim)作为两个伪文件之间的距离,其中β是权重参数;
步骤b7)选择距离最大的一对伪文件分别作为两个分组的第一个元素;
步骤b8)对于余下的伪文件结点,根据公式2计算其与两个组之间的距离,并将其加入到这个值较小的组里,直到结点中的伪文件都被分为两组;
AreaCost(Ek)=area(E′k.rectangle)-area(Ek.rectangle)公式1
其中,Ek指的是当前结点的伪文件结点,也就是下一分支的入口结点;E′k.rectangle指的是插入新结点之后伪文件结点可能的扩展矩形区域,Ek.rectangle指的是未插入新结点时伪文件结点的矩形区域,
SimAreaCost ( E k , O ) = ( 1 - β ) AreaCost ( E k ) max Area +
β min [ ( 1 - cos ine ( E k . DcVector , O . DVector ) ) , 公式2
( 1 - cos ine ( E k . IcVector , O . IVector ) ) ]
其中,β是一个权重参数,其取值范围为[0,1];AreaCost(Ek)如公式1所示;maxArea指的是包含所有对象的最小矩形框,用于标准化;cosine(Ek.DcVector,O.DVector)是指文本向量之间的余弦相似度,用于表示文本文件之间的相似度;其中Ek.DcVector指的是伪文件结点中的文字权重向量,是伪文件结点中各个单词的最大权重,O.DVector指的是待查询的文件中文字权重向量;cosine(Ek.IcVector,O.IVector)是指图像的可视化文字特征向量之间的余弦相似度,用于表示图像之间的相似度;Ek.IcVector指的是伪文件中图像的可视化文字特征的权重向量,是伪文件结点中各个可视化文字的最大权重;O.IVector指的是待插入对象的可视化文字特征的权重向量;min指的是取最小值;
c)空间混合索引机制的查询过程:
查询过程使用最佳优先遍历算法检索空间网络对象,并计算结点的排名分值,从而找出前n个对象的列表,n为整数;在查询处理的过程中,需要用到两个距离公式,如公式3与公式4所示,表示待查询网络对象和包含在结点中的对象之间的空间文本距离的最小下界,用来在搜索的过程中进行排序和搜索空间的有效剪枝
D ST ( Q , O ) = α D ϵ ( Q . loc , O . loc ) max D + 公式3
( 1 - α ) min [ ( 1 - P ( Q . keywords | O . doc ) max DP ) , ( 1 - P ( Q . keycategory | O . doc ) max IP ) ]
其中,α是一个权重参数,其取值范围为[0,1];Dε(Q.loc,O.loc)表示待查询网络对象与数据库中已有网络对象之间的欧氏距离;maxD表示数据库中两个对象之间的最大距离,用于标准化;P(Q.keywords|O.doc)指的是待查询网络对象Q中文字的查询似然度语言模型的排列函数;P(Q.keycategory|O.doc)指的是待查询网络对象Q中图片特征的查询似然度语言模型的排列函数;maxDP用于标准化排列分数P(Q.keywords|O.doc)到(0,1),计算方法为
Figure FDA0000141273970000033
td指网络对象中的关键字;maxIP用于标准化排列分数P(Q.keycategory|O.doc)到(0,1),计算方法为
Figure FDA0000141273970000034
ti指网络对象中图片特征的某一维特征;
MIND ST ( Q , N ) = α MIND ϵ ( Q . loc , N . rec tan gle ) max D + (4)
( 1 - α ) min [ ( 1 - P ( Q . keywords | N . doc ) max DP ) , ( 1 - P ( Q . keycategory | N . doc ) max IP ) ]
其中,α是一个权重参数,其取值范围为[0,1];MINDε(Q.loc,N.rectangle)分别表示待查询网络对象与伪文件对象之间的最小欧氏距离;P(Q.keywords|N.doc)指的是待查询网络对象O中图片特征的查询似然度语言模型的排列函数,与公式3不同的是用N.doc伪文件来代替O.doc;P(Q.keycategory|N.doc)指的是待查询文件Q中图片特征的查询似然度语言模型的排列函数,与公式3不同的是用N.doc伪文件来代替O.doc;maxD,maxDP,maxIP与公式3中相同;
步骤c1)使用优先队列去跟踪记录需要被访问的结点和对象,对于创建好的综合文件图像倒排索引的空间树即DIIR树,根结点入队列;
步骤c2)如果队列不为空,则队首元素出队列;如果队列为空,转步骤c6);
步骤c3)如果取出的队首元素为一个网络对象,则将其作为找到的一个最相近的对象,如果已经找到n个最相近的对象,则说明完成此次查询,转步骤c6);否则,返回步骤c2);
步骤c4)如果取出的队首元素是叶子结点,则将叶子结点中的每个对象作如下处理:计算其与待查询网络对象之间的距离,并将此对象与其距离加入到优先队列中,并返回到步骤c2);
步骤c5)如果取出的队首元素是非叶子结点,则将其中的每个伪文件结点,作如下处理:计算其与待查询网络对象之间的距离,并将此伪文件结点与其距离加入到优先队列中,并返回到步骤c2);
步骤c6)终止。
CN201210057731.0A 2012-03-07 2012-03-07 利用空间混合索引机制检测钓鱼网页的方法 Expired - Fee Related CN102662959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210057731.0A CN102662959B (zh) 2012-03-07 2012-03-07 利用空间混合索引机制检测钓鱼网页的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210057731.0A CN102662959B (zh) 2012-03-07 2012-03-07 利用空间混合索引机制检测钓鱼网页的方法

Publications (2)

Publication Number Publication Date
CN102662959A true CN102662959A (zh) 2012-09-12
CN102662959B CN102662959B (zh) 2014-07-16

Family

ID=46772450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210057731.0A Expired - Fee Related CN102662959B (zh) 2012-03-07 2012-03-07 利用空间混合索引机制检测钓鱼网页的方法

Country Status (1)

Country Link
CN (1) CN102662959B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049484A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
CN103049483A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 网页危险性的识别系统
CN103729287A (zh) * 2012-10-16 2014-04-16 百度在线网络技术(北京)有限公司 一种前端javascript组件的测试方法和装置
CN104133870A (zh) * 2014-07-22 2014-11-05 哈尔滨工业大学(威海) 一种网页相似度计算方法及装置
CN106127042A (zh) * 2016-07-06 2016-11-16 苏州仙度网络科技有限公司 网页视觉相似度识别方法
CN108111478A (zh) * 2017-11-07 2018-06-01 中国互联网络信息中心 一种基于语义理解的网络钓鱼识别方法和装置
CN108804469A (zh) * 2017-05-04 2018-11-13 腾讯科技(深圳)有限公司 一种网页识别方法以及电子设备
CN110035075A (zh) * 2019-04-03 2019-07-19 北京奇安信科技有限公司 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN112148831A (zh) * 2020-11-26 2020-12-29 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN112560881A (zh) * 2019-09-25 2021-03-26 北京四维图新科技股份有限公司 对象识别方法和装置、数据处理方法
CN113343046A (zh) * 2021-05-20 2021-09-03 成都美尔贝科技股份有限公司 一种智能搜索排序系统
CN114005004A (zh) * 2021-12-30 2022-02-01 成都无糖信息技术有限公司 一种基于图片实例级特征的诈骗网站识别方法及系统
CN114580008A (zh) * 2020-12-02 2022-06-03 国际商业机器公司 基于文档组件布局的文档访问控制

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894134A (zh) * 2010-06-21 2010-11-24 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
CN102170446A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN102316081A (zh) * 2010-06-30 2012-01-11 北京启明星辰信息技术股份有限公司 一种相似网页的识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894134A (zh) * 2010-06-21 2010-11-24 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
CN102316081A (zh) * 2010-06-30 2012-01-11 北京启明星辰信息技术股份有限公司 一种相似网页的识别方法及装置
CN102170446A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于空间布局与视觉特征的钓鱼网页检测方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729287A (zh) * 2012-10-16 2014-04-16 百度在线网络技术(北京)有限公司 一种前端javascript组件的测试方法和装置
CN103729287B (zh) * 2012-10-16 2018-01-05 百度在线网络技术(北京)有限公司 一种前端javascript组件的测试方法和装置
CN103049484A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
CN103049483A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 网页危险性的识别系统
CN103049483B (zh) * 2012-11-30 2016-04-20 北京奇虎科技有限公司 网页危险性的识别系统
CN104133870A (zh) * 2014-07-22 2014-11-05 哈尔滨工业大学(威海) 一种网页相似度计算方法及装置
CN104133870B (zh) * 2014-07-22 2017-06-09 哈尔滨工业大学(威海) 一种网页相似度计算方法及装置
CN106127042A (zh) * 2016-07-06 2016-11-16 苏州仙度网络科技有限公司 网页视觉相似度识别方法
CN108804469B (zh) * 2017-05-04 2021-10-29 腾讯科技(深圳)有限公司 一种网页识别方法以及电子设备
CN108804469A (zh) * 2017-05-04 2018-11-13 腾讯科技(深圳)有限公司 一种网页识别方法以及电子设备
CN108111478A (zh) * 2017-11-07 2018-06-01 中国互联网络信息中心 一种基于语义理解的网络钓鱼识别方法和装置
CN110035075A (zh) * 2019-04-03 2019-07-19 北京奇安信科技有限公司 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN112560881A (zh) * 2019-09-25 2021-03-26 北京四维图新科技股份有限公司 对象识别方法和装置、数据处理方法
CN112560881B (zh) * 2019-09-25 2024-04-19 北京四维图新科技股份有限公司 对象识别方法和装置、数据处理方法
CN112148831A (zh) * 2020-11-26 2020-12-29 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN112148831B (zh) * 2020-11-26 2021-03-19 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN114580008A (zh) * 2020-12-02 2022-06-03 国际商业机器公司 基于文档组件布局的文档访问控制
CN113343046A (zh) * 2021-05-20 2021-09-03 成都美尔贝科技股份有限公司 一种智能搜索排序系统
CN113343046B (zh) * 2021-05-20 2023-08-25 成都美尔贝科技股份有限公司 一种智能搜索排序系统
CN114005004A (zh) * 2021-12-30 2022-02-01 成都无糖信息技术有限公司 一种基于图片实例级特征的诈骗网站识别方法及系统
CN114005004B (zh) * 2021-12-30 2022-04-01 成都无糖信息技术有限公司 一种基于图片实例级特征的诈骗网站识别方法及系统

Also Published As

Publication number Publication date
CN102662959B (zh) 2014-07-16

Similar Documents

Publication Publication Date Title
CN102662959B (zh) 利用空间混合索引机制检测钓鱼网页的方法
CN102629261B (zh) 由钓鱼网页查找目标网页的方法
US8768050B2 (en) Accurate text classification through selective use of image data
TWI695277B (zh) 自動化網站資料蒐集方法
CN101894134B (zh) 一种基于空间布局的钓鱼网页检测及其实现方法
CN107341183B (zh) 一种基于暗网网站综合特征的网站分类方法
CN102096781B (zh) 一种基于网页关联性的钓鱼检测方法
Shouzhong et al. Mining microblog user interests based on TextRank with TF-IDF factor
US8682882B2 (en) System and method for automatically identifying classified websites
CN101826105A (zh) 基于匈牙利匹配算法的钓鱼网页检测方法
CN104102639B (zh) 基于文本分类的推广触发方法和装置
CN102170446A (zh) 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN103617213B (zh) 识别新闻网页属性特征的方法和系统
CN108399150A (zh) 文本处理方法、装置、计算机设备和存储介质
Wei et al. Gibberish, assistant, or master? Using tweets linking to news for extractive single-document summarization
CN103778122B (zh) 搜索方法和系统
CN107608980A (zh) 基于dpi大数据分析的信息推送方法和系统
JP5103051B2 (ja) 情報処理システム及び情報処理方法
CN110020075A (zh) 非法网站自动发掘装置
Gao et al. Dancinglines: an analytical scheme to depict cross-platform event popularity
CN104063506A (zh) 重复网页识别方法和装置
Zeng et al. A web page segmentation approach using visual semantics
Baldauf et al. Getting context on the go: mobile urban exploration with ambient tag clouds
Bartík Measuring web page similarity based on textual and visual properties
Lim et al. A lightweight algorithm for automated forum information processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120912

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000213

Denomination of invention: Method for detecting phishing web pages with spatial mixed index mechanism

Granted publication date: 20140716

License type: Common License

Record date: 20161118

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000213

Date of cancellation: 20180116

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140716

Termination date: 20190307