CN101510887B - 鉴别网站的方法及装置 - Google Patents

鉴别网站的方法及装置 Download PDF

Info

Publication number
CN101510887B
CN101510887B CN2009101291681A CN200910129168A CN101510887B CN 101510887 B CN101510887 B CN 101510887B CN 2009101291681 A CN2009101291681 A CN 2009101291681A CN 200910129168 A CN200910129168 A CN 200910129168A CN 101510887 B CN101510887 B CN 101510887B
Authority
CN
China
Prior art keywords
dom tree
type structure
tree type
degree
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101291681A
Other languages
English (en)
Other versions
CN101510887A (zh
Inventor
龙一民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2009101291681A priority Critical patent/CN101510887B/zh
Publication of CN101510887A publication Critical patent/CN101510887A/zh
Priority to SG2011064953A priority patent/SG174306A1/en
Priority to BRPI1010281A priority patent/BRPI1010281A2/pt
Priority to PCT/CN2010/071145 priority patent/WO2010108421A1/zh
Application granted granted Critical
Publication of CN101510887B publication Critical patent/CN101510887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/16Implementing security features at a particular protocol layer
    • H04L63/168Implementing security features at a particular protocol layer above the transport layer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种鉴别网站的方法及装置,属于通信领域。所述方法包括:解析待鉴别网站的页面代码所对应的DOM树型结构;将所述解析出的DOM树型结构与存储的DOM树型结构进行深度匹配;根据深度匹配结果,对所述待鉴别网站进行鉴别。所述装置包括:解析模块、匹配模块和鉴别模块。本发明通过解析待鉴别网站的页面代码所对应的DOM树型结构,并将待鉴别网站的DOM树型结构与预先存储的安全网站的页面代码所对应的DOM树型结构进行深度匹配,根据深度匹配结果,对待鉴别网站进行鉴别,具有及时、有效地鉴别出风险网站的效果。

Description

鉴别网站的方法及装置
技术领域
本发明涉及通信领域,特别涉及一种鉴别网站的方法及装置。
背景技术
随着互联网的快速发展,各种各样的网站丰富和方便了人们的日常生活,然而,相继也出现了一些不安全的网站,例如:钓鱼网站,即欺骗性的网站,该类网站意图引诱用户给出敏感信息,如用户名、口令、帐号、密码或信用卡详细信息等,以骗取用户帐户的财产;还存在一些病毒网站,利用人们在访问网站时传播病毒,因此,鉴别网站是否安全,成为了人们在应用网络时的一种需求。
现有技术鉴别钓鱼网站的一种方式是通过判断URL(Uniform ResourceLocator,统一资源定位器)的可疑特征,例如:真实的某银行网站的URL为http://www.wmd.com,虚假的该银行网站的URL可能是http://www.wmd.com.mn,或者是对真实网站的URL进行了编码,例如http://www.wmd.com%2e%61%62%63%2e%63%6f%6d,用户虽然看到的是wmd.com,但浏览器会根据URL编码规则,将带有‘%’的内容解码,真实的目标地址是http://www.wmd.com.abc.com,真正的目标域名是abc.com而不是wmd.com。通过两者对比,即可鉴别钓鱼网站。另一种鉴别钓鱼网站的方式是通过维护黑名单库,该黑名单库中的URL由用户举报,或通过找出大量传播URL的可疑来源,将可疑来源传播的URL列入黑名单库。
在实现本发明的过程中,发明人发现现有技术至少存在以下几个缺点:
判断URL可疑特征的方式需URL含有可疑特征,例如带有编码符号“%”,或者URL的一部分和知名URL重合。假如URL不含可疑的编码特征,或者不含与知名URL重合的部分,则不能通过该方法进行有效鉴别,因此该种方式具有局限性。
对于维护黑名单库的方式,需要由识别出可疑URL的用户进行举报,或者需要对大量传播的URL的可疑来源进行查找,才能将可疑URL列入钓鱼网站鉴别的考察范围。这种方式鉴别钓鱼网站在时效性方面有滞后;而且对于传播量小、危害性高的钓鱼网站,无法及时鉴别。
发明内容
为了及时、有效地对网站进行鉴别,本发明实施例提供了一种鉴别网站的方法及装置。所述技术方案如下:
一方面,提供了一种鉴别网站的方法,所述方法包括:
解析待鉴别网站的页面代码所对应的DOM树型结构;
在存储的DOM树型结构中,判断是否存在与所述解析出的DOM树型结构具有相同节点的DOM树型结构,如果是,则将与所述解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构,并对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到深度匹配结果;
根据深度匹配结果,对所述待鉴别网站进行鉴别。
另一方面,提供了一种鉴别网站的装置,所述装置包括:
解析模块,用于解析待鉴别网站的页面代码所对应的文档对象模型DOM树型结构;
匹配模块,用于在存储的DOM树型结构中,判断是否存在与所述解析出的DOM树型结构具有相同节点的DOM树型结构,如果是,则将与所述解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构,并对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到深度匹配结果;
鉴别模块,用于根据深度匹配结果,对所述待鉴别网站进行鉴别。
本发明实施例提供的技术方案的有益效果是:
通过解析待鉴别网站的页面代码所对应的DOM树型结构,并将待鉴别网站的DOM树型结构与预先存储的DOM树型结构进行深度匹配,根据深度匹配结果,及时、有效地对待鉴别网站进行鉴别。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的鉴别网站的方法流程图;
图2是本发明实施例2提供的鉴别网站的方法流程图;
图3是本发明实施例2提供的HTML代码与DOM树型结构示例示意图;
图4是本发明实施例3提供的第一种鉴别网站的装置结构示意图;
图5是本发明实施例3提供的第二种鉴别网站的装置结构示意图;
图6是本发明实施例3提供的第三种鉴别网站的装置结构示意图;
图7是本发明实施例3提供的第四种鉴别网站的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
参见图1,本实施例提供了一种鉴别网站的方法,方法流程如下:
101:解析待鉴别网站的页面代码所对应的文档对象模型DOM树型结构;
102:将所述解析出的DOM树型结构与存储的DOM树型结构进行深度匹配;
103:根据深度匹配结果,对所述待鉴别网站进行鉴别。
本实施例提供的方法,通过解析待鉴别网站的页面代码所对应的DOM树型结构,并将待鉴别网站的DOM树型结构与预先存储的DOM树型结构进行深度匹配,根据深度匹配结果,及时、有效地鉴别网站。
实施例2
本实施例提供了一种鉴别网站的方法,在一定时期内,网站显示的内容是会变化的,但是网站的布局结构保持一定或者大部分相似。如某网站昨天导航栏的位置今天依然是导航栏;昨天显示天气信息的位置今天仍旧显示天气信息;各个频道栏目所处的位置不变,变化的仅是其中链接的数目和标题等。因钓鱼网站绝大部分都与其对应的真实网站在视觉上非常相似,而网站的视觉和结构布局信息存在于网页的页面代码中,而网页的页面代码可以被解析,形成DOM(Document Object Model,文档对象模型)树,以网页代码中的HTML(Hyper TextMark-up Language,超文本标记语言)代码解析成DOM树型结构为例,网页浏览器正是通过解析HTML代码,形成DOM树型结构,并基于其中的各个节点和节点的值,向终端用户展示网页信息,以及同用户进行网页操作的交互,同理,采用网页代码中的XML(Extensible Markup Language,可扩展标记语言)代码和XHTML(Extensible Hyper Text Markup Language,可扩展超文本标识语言)代码解析成DOM树型结构,同样也可实现鉴别网站。本实施例提供的方法,将根据网站的视觉相似程度,即两个DOM树型结构的相似程度,实时判断待鉴别网站的结构或者布局同哪个已知的安全网站类似,从而鉴别出待鉴别网站是否安全。
为了便于说明,本实施例以待鉴别网站(用户想要打开的网站)为A,而该待鉴别网站A为某知名网站B的钓鱼网站为例,对本实施例提供的鉴别网站的方法进行说明,参见图2,该方法内容如下:
201:待鉴别网站A被用户点击打开之前,鉴别网站的装置根据待鉴别网站A的网址去相应的服务器端拉取该待鉴别网站A对应的HTML代码;
其中,此处提到的网址为IP(Internet Protocol,网际协议)地址或域名地址,采用域名地址去相应服务器端拉取该待鉴别网站对应的页面代码时,需要通过域名服务器(DNS)将域名地址翻译成IP地址,然后通过IP地址才能找到服务器;而采用IP地址去相应服务器端拉取该待鉴别网站对应的页面代码时,则省去了域名服务器解析域名的过程,因此,在实际应用中,此处的网址采用IP地址则更为便捷,本实施例不对采用哪种地址做具体限定。
202:解析拉取的HTML代码所对应的DOM树型结构;
具体地,图3提供了将HTML代码解析成DOM树型结构的一个实例,如图3所示,左边是网站页面的HTML代码,右边是解析后形成的DOM树型结构。根据HTML代码的名称规范,图3中左边括号中的内容称为标签,标签一般以<标签名>开始,并已</标签名>结尾。一个标签结构中可以嵌套多个标签。标签的类型可以决定网站的网页布局,例如,图3中的TABLE(表格)标签在网页中呈现为表格,实际应用中还存在其它多种类型的标签,例如,图3未提及到的INPUT标签在网页中呈现为用户名或者密码的输入框。
HTML代码转换为DOM树结构时,节点的结构和顺序表示网站的视觉布局,节点的值表示用户所见的内容。如图3右边所示,TABLE为根节点,TABLE的子节点是TBODY(表格主体),TBODY有两个子节点,都是TR(表格中的行),表示表格中的一行。TR有两个子节点,都是TD(表格中的列),表示该行中的一列。TD节点的值,分别为文本天气,时间,城市和区域,这些文本便是用户在页面上看到的表格中的文本内容。
203:将解析的DOM树型结构与存储的DOM树型结构进行深度匹配;
其中,本实施例以存储的DOM树型结构为安全网站的页面代码所对应的DOM树型结构为例,相对于不安全的钓鱼网站,即风险网站而言,安全网站包括但不限于需要通过用户名、密码或其它帐户信息登录,且存在利益驱动、存在被模仿和伪造风险的网站,例如:银行网站等。本实施例提供的鉴别网站装置中,不仅预先存储了与钓鱼网站相对应的真实网站的HTML代码、HTML代码所对应的DOM树型结构,还存储了DOM树型结构中所有节点的个数。为了保证存储的安全网站的DOM树型结构更全面,更具有参照性,每隔一定周期(例如:每隔5秒钟),存储的安全网站的DOM树型结构将被刷新。
具体地,DOM树型结构分为深度方向(纵向)和广度方向(横向),将解析出的DOM树型结构与存储的DOM树型结构进行深度匹配时,本实施例提供了两种深度匹配方式,这两种深度匹配方式分别从DOM树型结构中的节点被赋权值及不被赋权值的情况下得出的,一方面,先考虑DOM树型结构中的节点不被赋权值的情况:
首先,在存储的DOM树型结构中,判断是否存在与解析出的DOM树型结构具有相同节点的DOM树型结构,如果是,则对该存储的DOM树型结构和解析出的DOM树型结构进行深度遍历,确定两个DOM树型结构中有多少个相同节点,得到所有相同节点的个数;设该待鉴别网站A的DOM树形结构为a,而鉴别钓鱼网站装置中存储的多个DOM树型结构中包括知名网站B的DOM树型结构b,则说明该待鉴别网站很有可能是存储的非钓鱼网站的仿造(即钓鱼网站);当相同节点的个数m与知名网站B所对应的DOM树型结构b的总节点数n的比值满足一定阈值时,则深度匹配成功。其中,阈值能够代表两个网站的相似程度,如果不是同一个网站,阈值越高,则说明待鉴别网站为仿造网站的可能性越大,即,该待鉴别网站为风险网站的可能性越大,本实施例不对阈值做具体限定,例如:设当m/n>=60%时,则判断待鉴别网站与存储的非钓鱼网站视觉相似,即深度匹配成功。
另一方面,在网页代码中,标签的类型可以决定网页的布局,将网页代码解析成DOM树型结构后,对于DOM树型结构中的所有节点,节点的类型及排列顺序可表示网站的视觉布局,因此,节点的类型及排列顺序均能够影响网站的视觉布局,不同类型的节点,对视觉布局的影响程度也并不相同,例如:钓鱼网站存在帐户、密码输入框、表格等主要特征的关键节点。考虑到节点类型对视觉布局的影响程度,本实施例采取了对DOM树型结构中的节点赋权值的深度匹配的形式:
在对DOM树型结构中的节点赋权值时,根据节点的不同类型,鉴别装置预先对DOM树型结构中的不同节点赋予了不同的权值。权值越高,则说明该节点的作用越关键,对视觉布局的影响程度越高,或对于非法获取用户帐户和密码的特征越强。例如,由高到低列举各不同节点的权值α:[input:2.0],[table:1.8],[tbody:1.8],[body:1.8],[img:1.5],[object:1.5],[tr:1.5],[td:1.4],[div:1.0],[p:0.8],[br:0.7],[span:0.6]。仍以判断出存储的DOM树型结构中存在与解析出的DOM树型结构具有相同节点的DOM树型结构A为例,对该存储的DOM树型结构A和解析出的DOM树型结构进行深度遍历,确定两个DOM树型结构中有多少个相同节点,得到所有相同节点的加权值x;则对所述具有相同节点的DOM树型结构进行深度遍历,得到所有相同节点的加权值;当所有相同节点的加权值x与DOM树型结构A的总节点数n的比值满足一定阈值,则深度匹配成功,例如:设x/n>=60%时,认为待鉴别网站与存储的非钓鱼网站视觉相似,即深度匹配成功。本实施例不对节点被赋予的权值做具体限定。
204:深度匹配成功,对深度匹配成功的两个DOM树型结构,比较两个DOM树型结构所对应的网址是否一致,如果是,则执行205,否则,执行206;
205:鉴别出该待鉴别网站并非钓鱼网站,流程结束;
206:鉴别出该待鉴别网站为钓鱼网站,阻止用户查看被鉴别为钓鱼网站的页面内容。
可选地,本实施例仅以预先存储的DOM树型结构为安全网站对应的DOM树型结构为例,对本实施例提供的方法做了说明,同理,本实施例也可以预先存储的DOM树型结构为风险网站所对应的DOM树型结构为例。
针对该种情况,当待鉴别网站所对应的DOM树型结构与存储的DOM树型结构深度匹配成功后,如果两个DOM树型结构对应的网址一致,则鉴别待鉴别网站为风险网站,如果两个DOM树型结构不一致,则鉴别该待鉴别网站为安全网站。在实际应用中,即使每隔一定周期,对预先存储的DOM树型结构进行更新,也未必能够覆盖所有风险网站的DOM树型结构,因此,即使待鉴别网站的网址与存储的风险网站的网址不一致,则该待鉴别网站也未必为安全网站。因此,采用该种方式鉴别网站的可靠性及安全性不高。
对于预先存储的DOM树型结构为安全网站对应的DOM树型结构的情况,虽然在鉴别结果上同样也会存在误差,但采用该种方式鉴别网站时,不会将风险网站鉴别为安全网站,因此,可靠性及安全性相对也就更高。
综上所述,本实施例提供的方法,通过拉取待鉴别网站的HTML代码,解析待鉴别网站的HTML代码所对应的DOM树型结构,并将待鉴别网站的DOM树型结构与预先存储的非钓鱼网站的HTML代码所对应的DOM树型结构进行深度匹配,根据深度匹配结果,及待鉴别网站与非钓鱼网站的网址,判断待鉴别网站是否为钓鱼网站,从而能够实现及时、有效地鉴别钓鱼网站,并在鉴别出钓鱼网站时,阻止用户查看钓鱼网站内容,防止用户受骗,保护了用户的利益。
实施例3
参见图4,本实施例提供了一种鉴别网站的装置,该装置包括:
解析模块401,用于解析待鉴别网站的页面代码所对应的文档对象模型DOM树型结构;
匹配模块402,用于将解析出的DOM树型结构与存储的DOM树型结构进行深度匹配;
鉴别模块403,用于根据深度匹配结果,对待鉴别网站进行鉴别。
具体地,鉴别模块403,具体用于深度匹配的结果为成功,且待鉴别网站的网址与深度匹配成功的DOM树型结构所对应的网址不一致时,鉴别待鉴别网站为风险网站。
参见图5,对于DOM树型结构中的节点不被赋予权值的情况,上述匹配模块402,具体包括:
第一判断单元402a,用于在存储的DOM树型结构中,判断是否存在与解析出的DOM树型结构具有相同节点的DOM树型结构;如果是,则将与解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构;
第一遍历单元402b,用于对符合深度匹配条件的DOM树型结构与解析出的DOM树型结构进行深度遍历,得到相同节点的个数;
第一匹配判断单元402c,用于判断相同节点的个数与符合深度匹配条件的DOM树型结构中的所有节点个数的比值是否满足一定阈值,如果是,则判断深度匹配成功。
参见图6,对于DOM树型结构中的节点被赋予权值的情况,上述匹配模块402,具体包括:
赋权单元402d,用于对解析出的DOM树型结构与存储的DOM树型结构中的每个节点赋权值;
第二判断单元402e,用于在存储的DOM树型结构中,判断是否存在与解析出的DOM树型结构具有相同节点的DOM树型结构;如果是,则将与解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构;
第二遍历单元402f,用于对符合深度匹配条件的DOM树型结构与解析出的DOM树型结构进行深度遍历,得到所有相同节点的加权值;
第二匹配判断单元402g,用于判断所有相同节点的加权值与符合深度匹配条件的DOM树型结构中的所有节点个数的比值是否满足一定阈值,如果是,则判断深度匹配成功。
进一步地,参见图7,该鉴别网站装置还包括:
拉取模块404,用于根据待鉴别网站的网址拉取待鉴别网站的页面代码。
综上,本实施例提供的鉴别网站的装置,通过解析待鉴别网站的页面代码所对应的DOM树型结构,并将待鉴别网站的DOM树型结构与预先存储的安全网站的页面代码所对应的DOM树型结构进行深度匹配,根据深度匹配结果,及待鉴别网站与安全网站的网址,判断待鉴别网站是否为风险网站,从而能够实现及时、有效地鉴别网站,防止用户受骗,保护了用户的利益。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种鉴别网站的方法,其特征在于,所述方法包括:
解析待鉴别网站的页面代码所对应的文档对象模型DOM树型结构;
在存储的DOM树型结构中,判断是否存在与所述解析出的DOM树型结构具有相同节点的DOM树型结构,如果是,则将与所述解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构,并对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到深度匹配结果;
根据深度匹配结果,对所述待鉴别网站进行鉴别。
2.根据权利要求1所述的方法,其特征在于,所述根据深度匹配结果,对网站进行鉴别,具体包括:
如果深度匹配成功,且所述待鉴别网站的网址与深度匹配成功的DOM树型结构所对应的网址不一致,则鉴别所述待鉴别网站为风险网站。
3.根据权利要求1所述的方法,其特征在于,所述对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到深度匹配结果,具体包括:
对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到相同节点的个数;
相应地,如果所述相同节点的个数与所述符合深度匹配条件的DOM树型结构的所有节点个数的比值满足一定阈值,则深度匹配成功。
4.根据权利要求1所述的方法,其特征在于,所述对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历之前,还包括:
对所述解析出的DOM树型结构与存储的DOM树型结构中的每个节点赋权值;
相应地,所述对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到深度匹配结果,具体包括:
对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到所有相同节点的加权值;
相应地,如果所述所有相同节点的加权值与所述符合深度匹配条件的DOM树型结构中的所有节点个数的比值满足一定阈值,则深度匹配成功。
5.根据权利要求1所述的方法,其特征在于,所述存储的DOM树型结构,具体为:
预先存储的安全网站的页面代码所对应的DOM树型结构,且每隔一定周期将被刷新。
6.一种鉴别网站的装置,其特征在于,所述装置包括:
解析模块,用于解析待鉴别网站的页面代码所对应的文档对象模型DOM树型结构;
匹配模块,用于在存储的DOM树型结构中,判断是否存在与所述解析出的DOM树型结构具有相同节点的DOM树型结构,如果是,则将与所述解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构,并对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到深度匹配结果;
鉴别模块,用于根据深度匹配结果,对所述待鉴别网站进行鉴别。
7.根据权利要求6所述的装置,其特征在于,所述鉴别模块,具体用于深度匹配的结果为成功,且所述待鉴别网站的网址与深度匹配成功的DOM树型结构所对应的网址不一致时,鉴别所述待鉴别网站为风险网站。
8.根据权利要求6所述的装置,其特征在于,所述匹配模块,具体包括:
第一判断单元,用于在存储的DOM树型结构中,判断是否存在与所述解析出的DOM树型结构具有相同节点的DOM树型结构;如果是,则将与所述解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构;
第一遍历单元,用于对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到相同节点的个数;
第一匹配判断单元,用于判断所述相同节点的个数与所述符合深度匹配条件的DOM树型结构中的所有节点个数的比值是否满足一定阈值,如果是,则判断深度匹配成功。
9.根据权利要求6所述的装置,其特征在于,所述匹配模块,具体包括:
赋权单元,用于对所述解析出的DOM树型结构与存储的DOM树型结构中的每个节点赋权值;
第二判断单元,用于在存储的DOM树型结构中,判断是否存在与所述解析出的DOM树型结构具有相同节点的DOM树型结构;如果是,则将与所述解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构;
第二遍历单元,用于对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到所有相同节点的加权值;
第二匹配判断单元,用于判断所述所有相同节点的加权值与所述符合深度匹配条件的DOM树型结构中的所有节点个数的比值是否满足一定阈值,如果是,则判断深度匹配成功。
10.根据权利要求6所述的装置,其特征在于,所述装置,还包括:
拉取模块,用于根据所述待鉴别网站的网址拉取所述待鉴别网站的页面代码。
CN2009101291681A 2009-03-27 2009-03-27 鉴别网站的方法及装置 Active CN101510887B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN2009101291681A CN101510887B (zh) 2009-03-27 2009-03-27 鉴别网站的方法及装置
SG2011064953A SG174306A1 (en) 2009-03-27 2010-03-19 Method and apparatus for authenticating a website
BRPI1010281A BRPI1010281A2 (pt) 2009-03-27 2010-03-19 método e aparelho para reconhecimento de website
PCT/CN2010/071145 WO2010108421A1 (zh) 2009-03-27 2010-03-19 鉴别网站的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101291681A CN101510887B (zh) 2009-03-27 2009-03-27 鉴别网站的方法及装置

Publications (2)

Publication Number Publication Date
CN101510887A CN101510887A (zh) 2009-08-19
CN101510887B true CN101510887B (zh) 2012-01-25

Family

ID=41003150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101291681A Active CN101510887B (zh) 2009-03-27 2009-03-27 鉴别网站的方法及装置

Country Status (4)

Country Link
CN (1) CN101510887B (zh)
BR (1) BRPI1010281A2 (zh)
SG (1) SG174306A1 (zh)
WO (1) WO2010108421A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510887B (zh) * 2009-03-27 2012-01-25 腾讯科技(深圳)有限公司 鉴别网站的方法及装置
CN101950337A (zh) * 2010-09-08 2011-01-19 乔永清 用于网站真实数据监控的系统及方法
CN102082792A (zh) 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN102073822A (zh) * 2011-01-30 2011-05-25 北京搜狗科技发展有限公司 防止用户信息泄漏的方法及系统
CN102170446A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN103365879B (zh) * 2012-03-29 2018-05-01 北京百度网讯科技有限公司 一种用于获取页面相似度的方法与设备
CN104462152B (zh) * 2013-09-23 2019-04-09 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置
CN106789973B (zh) * 2016-12-06 2020-12-18 海信集团有限公司 页面的安全性检测方法及终端设备
US20180205994A1 (en) * 2017-01-17 2018-07-19 Hong Fu Jin Precision Industry (Shenzhen) Co., Ltd Collection and processing method for information as to viewing of videos by user and device and server using the same
CN108306878A (zh) * 2018-01-30 2018-07-20 平安科技(深圳)有限公司 钓鱼网站检测方法、装置、计算机设备和存储介质
CN108566399B (zh) * 2018-04-23 2020-11-03 中国互联网络信息中心 钓鱼网站识别方法及系统
CN108650250B (zh) * 2018-04-27 2021-07-23 奇安信科技集团股份有限公司 非法页面检测方法、系统、计算机系统和可读存储介质
CN109284613B (zh) * 2018-09-30 2020-09-22 北京神州绿盟信息安全科技股份有限公司 标识检测及仿冒站点检测方法、装置、设备及存储介质
CN110781497B (zh) * 2019-10-21 2022-03-29 新华三信息安全技术有限公司 网页链接的检测方法及存储介质
CN111708967B (zh) * 2020-06-11 2023-05-16 浙江浙大网新国际软件技术服务有限公司 一种基于网站地图的指纹识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1581170A (zh) * 2003-08-15 2005-02-16 国际商业机器公司 用来比较两个计算机文件的方法及系统
CN101147138A (zh) * 2005-02-18 2008-03-19 Duaxes株式会社 通信控制装置及通信控制系统
CN101310502A (zh) * 2005-09-30 2008-11-19 趋势科技股份有限公司 安全管理设备、通信系统及访问控制方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7543024B2 (en) * 2001-05-03 2009-06-02 Oracle International Corporation System and method for monitoring multiple online resources in different formats
CN100583738C (zh) * 2007-08-17 2010-01-20 东南大学 基于图像处理的钓鱼网页检测方法
CN101510887B (zh) * 2009-03-27 2012-01-25 腾讯科技(深圳)有限公司 鉴别网站的方法及装置
CN101534306B (zh) * 2009-04-14 2012-01-11 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1581170A (zh) * 2003-08-15 2005-02-16 国际商业机器公司 用来比较两个计算机文件的方法及系统
CN101147138A (zh) * 2005-02-18 2008-03-19 Duaxes株式会社 通信控制装置及通信控制系统
CN101310502A (zh) * 2005-09-30 2008-11-19 趋势科技股份有限公司 安全管理设备、通信系统及访问控制方法

Also Published As

Publication number Publication date
CN101510887A (zh) 2009-08-19
WO2010108421A1 (zh) 2010-09-30
SG174306A1 (en) 2011-10-28
BRPI1010281A2 (pt) 2016-03-22

Similar Documents

Publication Publication Date Title
CN101510887B (zh) 鉴别网站的方法及装置
CN101964025B (zh) Xss检测方法和设备
CN106789888B (zh) 一种多特征融合的钓鱼网页检测方法
CN103810425B (zh) 恶意网址的检测方法及装置
Alkhozae et al. Phishing websites detection based on phishing characteristics in the webpage source code
US8448241B1 (en) Browser extension for checking website susceptibility to cross site scripting
KR20060102484A (ko) 브라우저 디스플레이 내에서 도메인을 하이라이트하기 위한시스템 및 방법
US20080172738A1 (en) Method for Detecting and Remediating Misleading Hyperlinks
CN104766014A (zh) 用于检测恶意网址的方法和系统
CN102129528A (zh) 一种web网页篡改识别方法及系统
CN111797407B (zh) 一种基于深度学习模型优化的xss漏洞检测方法
CN106909846B (zh) 一种基于虚拟解析的漏洞检测方法及其装置
CN108595468A (zh) 一种网页数据的获取方法、装置、服务器、终端和系统
CN104168293A (zh) 结合本地内容规则库识别可疑钓鱼网页的方法及系统
CN102739653A (zh) 一种针对网址的检测方法及装置
CN109040097A (zh) 一种跨站脚本攻击的防御方法、装置、设备和存储介质
CN111881337B (zh) 一种基于Scrapy框架的数据采集方法、系统及存储介质
CN104158828A (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
CN103825772B (zh) 识别用户点击行为的方法及网关设备
CN111143722A (zh) 一种网页暗链检测方法、装置、设备及介质
CN110532784A (zh) 一种暗链检测方法、装置、设备及计算机可读存储介质
CN107239520B (zh) 一种通用论坛正文提取方法
CN103390128A (zh) 页面的标注方法、装置与终端设备
CN103793508A (zh) 一种加载推荐信息、网址检测的方法、装置和系统
CN111125704B (zh) 一种网页挂马识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant