CN101510887A - 鉴别网站的方法及装置 - Google Patents
鉴别网站的方法及装置 Download PDFInfo
- Publication number
- CN101510887A CN101510887A CNA2009101291681A CN200910129168A CN101510887A CN 101510887 A CN101510887 A CN 101510887A CN A2009101291681 A CNA2009101291681 A CN A2009101291681A CN 200910129168 A CN200910129168 A CN 200910129168A CN 101510887 A CN101510887 A CN 101510887A
- Authority
- CN
- China
- Prior art keywords
- dom tree
- type structure
- tree type
- website
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/16—Implementing security features at a particular protocol layer
- H04L63/168—Implementing security features at a particular protocol layer above the transport layer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/12—Applying verification of the received information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2119—Authenticating web pages, e.g. with suspicious links
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种鉴别网站的方法及装置,属于通信领域。所述方法包括:解析待鉴别网站的页面代码所对应的DOM树型结构;将所述解析出的DOM树型结构与存储的DOM树型结构进行深度匹配;根据深度匹配结果,对所述待鉴别网站进行鉴别。所述装置包括:解析模块、匹配模块和鉴别模块。本发明通过解析待鉴别网站的页面代码所对应的DOM树型结构,并将待鉴别网站的DOM树型结构与预先存储的安全网站的页面代码所对应的DOM树型结构进行深度匹配,根据深度匹配结果,对待鉴别网站进行鉴别,具有及时、有效地鉴别出风险网站的效果。
Description
技术领域
本发明涉及通信领域,特别涉及一种鉴别网站的方法及装置。
背景技术
随着互联网的快速发展,各种各样的网站丰富和方便了人们的日常生活,然而,相继也出现了一些不安全的网站,例如:钓鱼网站,即欺骗性的网站,该类网站意图引诱用户给出敏感信息,如用户名、口令、帐号、密码或信用卡详细信息等,以骗取用户帐户的财产;还存在一些病毒网站,利用人们在访问网站时传播病毒,因此,鉴别网站是否安全,成为了人们在应用网络时的一种需求。
现有技术鉴别钓鱼网站的一种方式是通过判断URL(Uniform ResourceLocator,统一资源定位器)的可疑特征,例如:真实的某银行网站的URL为http://www.wmd.com,虚假的该银行网站的URL可能是http://www.wmd.com.mn,或者是对真实网站的URL进行了编码,例如http://www.wmd.com%2e%61%62%63%2e%63%6f%6d,用户虽然看到的是wmd.com,但浏览器会根据URL编码规则,将带有‘%’的内容解码,真实的目标地址是http://www.wmd.com.abc.com,真正的目标域名是abc.com而不是wmd.com。通过两者对比,即可鉴别钓鱼网站。另一种鉴别钓鱼网站的方式是通过维护黑名单库,该黑名单库中的URL由用户举报,或通过找出大量传播URL的可疑来源,将可疑来源传播的URL列入黑名单库。
在实现本发明的过程中,发明人发现现有技术至少存在以下几个缺点:
判断URL可疑特征的方式需URL含有可疑特征,例如带有编码符号“%”,或者URL的一部分和知名URL重合。假如URL不含可疑的编码特征,或者不含与知名URL重合的部分,则不能通过该方法进行有效鉴别,因此该种方式具有局限性。
对于维护黑名单库的方式,需要由识别出可疑URL的用户进行举报,或者需要对大量传播的URL的可疑来源进行查找,才能将可疑URL列入钓鱼网站鉴别的考察范围。这种方式鉴别钓鱼网站在时效性方面有滞后;而且对于传播量小、危害性高的钓鱼网站,无法及时鉴别。
发明内容
为了及时、有效地对网站进行鉴别,本发明实施例提供了一种鉴别网站的方法及装置。所述技术方案如下:
一方面,提供了一种鉴别网站的方法,所述方法包括:
解析待鉴别网站的页面代码所对应的DOM树型结构;
将所述解析出的DOM树型结构与存储的DOM树型结构进行深度匹配;
根据深度匹配结果,对所述待鉴别网站进行鉴别。
另一方面,提供了一种鉴别网站的装置,所述装置包括:
解析模块,用于解析待鉴别网站的页面代码所对应的文档对象模型DOM树型结构;
鉴别模块,用于根据深度匹配结果,对所述待鉴别网站进行鉴别。
本发明实施例提供的技术方案的有益效果是:
通过解析待鉴别网站的页面代码所对应的DOM树型结构,并将待鉴别网站的DOM树型结构与预先存储的DOM树型结构进行深度匹配,根据深度匹配结果,及时、有效地对待鉴别网站进行鉴别。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的鉴别网站的方法流程图;
图2是本发明实施例2提供的鉴别网站的方法流程图;
图3是本发明实施例2提供的HTML代码与DOM树型结构示例示意图;
图4是本发明实施例3提供的第一种鉴别网站的装置结构示意图;
图5是本发明实施例3提供的第二种鉴别网站的装置结构示意图;
图6是本发明实施例3提供的第三种鉴别网站的装置结构示意图;
图7是本发明实施例3提供的第四种鉴别网站的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
参见图1,本实施例提供了一种鉴别网站的方法,方法流程如下:
101:解析待鉴别网站的页面代码所对应的文档对象模型DOM树型结构;
102:将所述解析出的DOM树型结构与存储的DOM树型结构进行深度匹配;
103:根据深度匹配结果,对所述待鉴别网站进行鉴别。
本实施例提供的方法,通过解析待鉴别网站的页面代码所对应的DOM树型结构,并将待鉴别网站的DOM树型结构与预先存储的DOM树型结构进行深度匹配,根据深度匹配结果,及时、有效地鉴别网站。
实施例2
本实施例提供了一种鉴别网站的方法,在一定时期内,网站显示的内容是会变化的,但是网站的布局结构保持一定或者大部分相似。如某网站昨天导航栏的位置今天依然是导航栏;昨天显示天气信息的位置今天仍旧显示天气信息;各个频道栏目所处的位置不变,变化的仅是其中链接的数目和标题等。因钓鱼网站绝大部分都与其对应的真实网站在视觉上非常相似,而网站的视觉和结构布局信息存在于网页的页面代码中,而网页的页面代码可以被解析,形成DOM(Document Object Model,文档对象模型)树,以网页代码中的HTML(Hyper TextMark-up Language,超文本标记语言)代码解析成DOM树型结构为例,网页浏览器正是通过解析HTML代码,形成DOM树型结构,并基于其中的各个节点和节点的值,向终端用户展示网页信息,以及同用户进行网页操作的交互,同理,采用网页代码中的XML(Extensible Markup Language,可扩展标记语言)代码和XHTML(Extensible Hyper Text Markup Language,可扩展超文本标识语言)代码解析成DOM树型结构,同样也可实现鉴别网站。本实施例提供的方法,将根据网站的视觉相似程度,即两个DOM树型结构的相似程度,实时判断待鉴别网站的结构或者布局同哪个已知的安全网站类似,从而鉴别出待鉴别网站是否安全。
为了便于说明,本实施例以待鉴别网站(用户想要打开的网站)为A,而该待鉴别网站A为某知名网站B的钓鱼网站为例,对本实施例提供的鉴别网站的方法进行说明,参见图2,该方法内容如下:
201:待鉴别网站A被用户点击打开之前,鉴别网站的装置根据待鉴别网站A的网址去相应的服务器端拉取该待鉴别网站A对应的HTML代码;
其中,此处提到的网址为IP(Internet Protocol,网际协议)地址或域名地址,采用域名地址去相应服务器端拉取该待鉴别网站对应的页面代码时,需要通过域名服务器(DNS)将域名地址翻译成IP地址,然后通过IP地址才能找到服务器;而采用IP地址去相应服务器端拉取该待鉴别网站对应的页面代码时,则省去了域名服务器解析域名的过程,因此,在实际应用中,此处的网址采用IP地址则更为便捷,本实施例不对采用哪种地址做具体限定。
202:解析拉取的HTML代码所对应的DOM树型结构;
具体地,图3提供了将HTML代码解析成DOM树型结构的一个实例,如图3所示,左边是网站页面的HTML代码,右边是解析后形成的DOM树型结构。根据HTML代码的名称规范,图3中左边括号中的内容称为标签,标签一般以<标签名>开始,并已</标签名>结尾。一个标签结构中可以嵌套多个标签。标签的类型可以决定网站的网页布局,例如,图3中的TABLE(表格)标签在网页中呈现为表格,实际应用中还存在其它多种类型的标签,例如,图3未提及到的INPUT标签在网页中呈现为用户名或者密码的输入框。
HTML代码转换为DOM树结构时,节点的结构和顺序表示网站的视觉布局,节点的值表示用户所见的内容。如图3右边所示,TABLE为根节点,TABLE的子节点是TBODY(表格主体),TBODY有两个子节点,都是TR(表格中的行),表示表格中的一行。TR有两个子节点,都是TD(表格中的列),表示该行中的一列。TD节点的值,分别为文本天气,时间,城市和区域,这些文本便是用户在页面上看到的表格中的文本内容。
203:将解析的DOM树型结构与存储的DOM树型结构进行深度匹配;
其中,本实施例以存储的DOM树型结构为安全网站的页面代码所对应的DOM树型结构为例,相对于不安全的钓鱼网站,即风险网站而言,安全网站包括但不限于需要通过用户名、密码或其它帐户信息登录,且存在利益驱动、存在被模仿和伪造风险的网站,例如:银行网站等。本实施例提供的鉴别网站装置中,不仅预先存储了与钓鱼网站相对应的真实网站的HTML代码、HTML代码所对应的DOM树型结构,还存储了DOM树型结构中所有节点的个数。为了保证存储的安全网站的DOM树型结构更全面,更具有参照性,每隔一定周期(例如:每隔5秒钟),存储的安全网站的DOM树型结构将被刷新。
具体地,DOM树型结构分为深度方向(纵向)和广度方向(横向),将解析出的DOM树型结构与存储的DOM树型结构进行深度匹配时,本实施例提供了两种深度匹配方式,这两种深度匹配方式分别从DOM树型结构中的节点被赋权值及不被赋权值的情况下得出的,一方面,先考虑DOM树型结构中的节点不被赋权值的情况:
首先,在存储的DOM树型结构中,判断是否存在与解析出的DOM树型结构具有相同节点的DOM树型结构,如果是,则对该存储的DOM树型结构和解析出的DOM树型结构进行深度遍历,确定两个DOM树型结构中有多少个相同节点,得到所有相同节点的个数;设该待鉴别网站A的DOM树形结构为a,而鉴别钓鱼网站装置中存储的多个DOM树型结构中包括知名网站B的DOM树型结构b,则说明该待鉴别网站很有可能是存储的非钓鱼网站的仿造(即钓鱼网站);当相同节点的个数m与知名网站B所对应的DOM树型结构b的总节点数n的比值满足一定阈值时,则深度匹配成功。其中,阈值能够代表两个网站的相似程度,如果不是同一个网站,阈值越高,则说明待鉴别网站为仿造网站的可能性越大,即,该待鉴别网站为风险网站的可能性越大,本实施例不对阈值做具体限定,例如:设当m/n>=60%时,则判断待鉴别网站与存储的非钓鱼网站视觉相似,即深度匹配成功。
另一方面,在网页代码中,标签的类型可以决定网页的布局,将网页代码解析成DOM树型结构后,对于DOM树型结构中的所有节点,节点的类型及排列顺序可表示网站的视觉布局,因此,节点的类型及排列顺序均能够影响网站的视觉布局,不同类型的节点,对视觉布局的影响程度也并不相同,例如:钓鱼网站存在帐户、密码输入框、表格等主要特征的关键节点。考虑到节点类型对视觉布局的影响程度,本实施例采取了对DOM树型结构中的节点赋权值的深度匹配的形式:
在对DOM树型结构中的节点赋权值时,根据节点的不同类型,鉴别装置预先对DOM树型结构中的不同节点赋予了不同的权值。权值越高,则说明该节点的作用越关键,对视觉布局的影响程度越高,或对于非法获取用户帐户和密码的特征越强。例如,由高到低列举各不同节点的权值α:[input:2.0],[table:1.8],[tbody:1.8],[body:1.8],[img:1.5],[object:1.5],[tr:1.5],[td:1.4],[div:1.0],[p:0.8],[br:0.7],[span:0.6]。仍以判断出存储的DOM树型结构中存在与解析出的DOM树型结构具有相同节点的DOM树型结构A为例,对该存储的DOM树型结构A和解析出的DOM树型结构进行深度遍历,确定两个DOM树型结构中有多少个相同节点,得到所有相同节点的加权值x;则对所述具有相同节点的DOM树型结构进行深度遍历,得到所有相同节点的加权值;当所有相同节点的加权值x与DOM树型结构A的总节点数n的比值满足一定阈值,则深度匹配成功,例如:设x/n>=60%时,认为待鉴别网站与存储的非钓鱼网站视觉相似,即深度匹配成功。本实施例不对节点被赋予的权值做具体限定。
204:深度匹配成功,对深度匹配成功的两个DOM树型结构,比较两个DOM树型结构所对应的网址是否一致,如果是,则执行205,否则,执行206;
205:鉴别出该待鉴别网站并非钓鱼网站,流程结束;
206:鉴别出该待鉴别网站为钓鱼网站,阻止用户查看被鉴别为钓鱼网站的页面内容。
可选地,本实施例仅以预先存储的DOM树型结构为安全网站对应的DOM树型结构为例,对本实施例提供的方法做了说明,同理,本实施例也可以预先存储的DOM树型结构为风险网站所对应的DOM树型结构为例。
针对该种情况,当待鉴别网站所对应的DOM树型结构与存储的DOM树型结构深度匹配成功后,如果两个DOM树型结构对应的网址一致,则鉴别待鉴别网站为风险网站,如果两个DOM树型结构不一致,则鉴别该待鉴别网站为安全网站。在实际应用中,即使每隔一定周期,对预先存储的DOM树型结构进行更新,也未必能够覆盖所有风险网站的DOM树型结构,因此,即使待鉴别网站的网址与存储的风险网站的网址不一致,则该待鉴别网站也未必为安全网站。因此,采用该种方式鉴别网站的可靠性及安全性不高。
对于预先存储的DOM树型结构为安全网站对应的DOM树型结构的情况,虽然在鉴别结果上同样也会存在误差,但采用该种方式鉴别网站时,不会将风险网站鉴别为安全网站,因此,可靠性及安全性相对也就更高。
综上所述,本实施例提供的方法,通过拉取待鉴别网站的HTML代码,解析待鉴别网站的HTML代码所对应的DOM树型结构,并将待鉴别网站的DOM树型结构与预先存储的非钓鱼网站的HTML代码所对应的DOM树型结构进行深度匹配,根据深度匹配结果,及待鉴别网站与非钓鱼网站的网址,判断待鉴别网站是否为钓鱼网站,从而能够实现及时、有效地鉴别钓鱼网站,并在鉴别出钓鱼网站时,阻止用户查看钓鱼网站内容,防止用户受骗,保护了用户的利益。
实施例3
参见图4,本实施例提供了一种鉴别网站的装置,该装置包括:
解析模块401,用于解析待鉴别网站的页面代码所对应的文档对象模型DOM树型结构;
匹配模块402,用于将解析出的DOM树型结构与存储的DOM树型结构进行深度匹配;
鉴别模块403,用于根据深度匹配结果,对待鉴别网站进行鉴别。
具体地,鉴别模块403,具体用于深度匹配的结果为成功,且待鉴别网站的网址与深度匹配成功的DOM树型结构所对应的网址不一致时,鉴别待鉴别网站为风险网站。
参见图5,对于DOM树型结构中的节点不被赋予权值的情况,上述匹配模块402,具体包括:
第一判断单元402a,用于在存储的DOM树型结构中,判断是否存在与解析出的DOM树型结构具有相同节点的DOM树型结构;如果是,则将与解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构;
第一遍历单元402b,用于对符合深度匹配条件的DOM树型结构与解析出的DOM树型结构进行深度遍历,得到相同节点的个数;
第一匹配判断单元402c,用于判断相同节点的个数与符合深度匹配条件的DOM树型结构中的所有节点个数的比值是否满足一定阈值,如果是,则判断深度匹配成功。
参见图6,对于DOM树型结构中的节点被赋予权值的情况,上述匹配模块402,具体包括:
赋权单元402d,用于对解析出的DOM树型结构与存储的DOM树型结构中的每个节点赋权值;
第二判断单元402e,用于在存储的DOM树型结构中,判断是否存在与解析出的DOM树型结构具有相同节点的DOM树型结构;如果是,则将与解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构;
第二遍历单元402f,用于对符合深度匹配条件的DOM树型结构与解析出的DOM树型结构进行深度遍历,得到所有相同节点的加权值;
第二匹配判断单元402g,用于判断所有相同节点的加权值与符合深度匹配条件的DOM树型结构中的所有节点个数的比值是否满足一定阈值,如果是,则判断深度匹配成功。
进一步地,参见图7,该鉴别网站装置还包括:
拉取模块404,用于根据待鉴别网站的网址拉取待鉴别网站的页面代码。
综上,本实施例提供的鉴别网站的装置,通过解析待鉴别网站的页面代码所对应的DOM树型结构,并将待鉴别网站的DOM树型结构与预先存储的安全网站的页面代码所对应的DOM树型结构进行深度匹配,根据深度匹配结果,及待鉴别网站与安全网站的网址,判断待鉴别网站是否为风险网站,从而能够实现及时、有效地鉴别网站,防止用户受骗,保护了用户的利益。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1、一种鉴别网站的方法,其特征在于,所述方法包括:
解析待鉴别网站的页面代码所对应的文档对象模型DOM树型结构;
将所述解析出的DOM树型结构与存储的DOM树型结构进行深度匹配;
根据深度匹配结果,对所述待鉴别网站进行鉴别。
2、根据权利要求1所述的方法,其特征在于,所述根据深度匹配结果,对网站进行鉴别,具体包括:
如果深度匹配成功,且所述待鉴别网站的网址与深度匹配成功的DOM树型结构所对应的网址不一致,则鉴别所述待鉴别网站为风险网站。
3、根据权利要求1所述的方法,其特征在于,所述将所述解析出的DOM树型结构与存储的DOM树型结构进行深度匹配,具体包括:
在存储的DOM树型结构中,判断是否存在与所述解析出的DOM树型结构具有相同节点的DOM树型结构,如果是,则将与所述解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构,并对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到相同节点的个数;
相应地,如果所述相同节点的个数与所述符合深度匹配条件的DOM树型结构的所有节点个数的比值满足一定阈值,则深度匹配成功。
4、根据权利要求1所述的方法,其特征在于,所述将所述解析出的DOM树型结构与存储的DOM树型结构进行深度匹配,具体包括:
对所述解析出的DOM树型结构与存储的DOM树型结构中的每个节点赋权值,在存储的DOM树型结构中,判断是否存在与所述解析出的DOM树型结构具有相同节点的DOM树型结构,如果是,则将所述与所述解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构,并对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到所有相同节点的加权值;
相应地,如果所述所有相同节点的加权值与所述符合深度匹配条件的DOM树型结构中的所有节点个数的比值满足一定阈值,则深度匹配成功。
5、根据权利要求1所述的方法,其特征在于,所述存储的DOM树型结构,具体为:
预先存储的安全网站的页面代码所对应的DOM树型结构,且每隔一定周期将被刷新。
6、一种鉴别网站的装置,其特征在于,所述装置包括:
解析模块,用于解析待鉴别网站的页面代码所对应的文档对象模型DOM树型结构;
匹配模块,用于将所述解析出的DOM树型结构与存储的DOM树型结构进行深度匹配;
鉴别模块,用于根据深度匹配结果,对所述待鉴别网站进行鉴别。
7、根据权利要求6所述的装置,其特征在于,所述鉴别模块,具体用于深度匹配的结果为成功,且所述待鉴别网站的网址与深度匹配成功的DOM树型结构所对应的网址不一致时,鉴别所述待鉴别网站为风险网站。
8、根据权利要求6所述的装置,其特征在于,所述匹配模块,具体包括:
第一判断单元,用于在存储的DOM树型结构中,判断是否存在与所述解析出的DOM树型结构具有相同节点的DOM树型结构;如果是,则将与所述解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构;
第一遍历单元,用于对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到相同节点的个数;
第一匹配判断单元,用于判断所述相同节点的个数与所述符合深度匹配条件的DOM树型结构中的所有节点个数的比值是否满足一定阈值,如果是,则判断深度匹配成功。
9、根据权利要求6所述的装置,其特征在于,所述匹配模块,具体包括:
赋权单元,用于对所述解析出的DOM树型结构与存储的DOM树型结构中的每个节点赋权值;
第二判断单元,用于在存储的DOM树型结构中,判断是否存在与所述解析出的DOM树型结构具有相同节点的DOM树型结构;如果是,则将与所述解析出的DOM树型结构具有相同节点的DOM树型结构作为符合深度匹配条件的DOM树型结构;
第二遍历单元,用于对所述符合深度匹配条件的DOM树型结构与所述解析出的DOM树型结构进行深度遍历,得到所有相同节点的加权值;
第二匹配判断单元,用于判断所述所有相同节点的加权值与所述符合深度匹配条件的DOM树型结构中的所有节点个数的比值是否满足一定阈值,如果是,则判断深度匹配成功。
10、根据权利要求6所述的装置,其特征在于,所述装置,还包括:
拉取模块,用于根据所述待鉴别网站的网址拉取所述待鉴别网站的页面代码。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101291681A CN101510887B (zh) | 2009-03-27 | 2009-03-27 | 鉴别网站的方法及装置 |
BRPI1010281A BRPI1010281A2 (pt) | 2009-03-27 | 2010-03-19 | método e aparelho para reconhecimento de website |
SG2011064953A SG174306A1 (en) | 2009-03-27 | 2010-03-19 | Method and apparatus for authenticating a website |
PCT/CN2010/071145 WO2010108421A1 (zh) | 2009-03-27 | 2010-03-19 | 鉴别网站的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101291681A CN101510887B (zh) | 2009-03-27 | 2009-03-27 | 鉴别网站的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101510887A true CN101510887A (zh) | 2009-08-19 |
CN101510887B CN101510887B (zh) | 2012-01-25 |
Family
ID=41003150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101291681A Active CN101510887B (zh) | 2009-03-27 | 2009-03-27 | 鉴别网站的方法及装置 |
Country Status (4)
Country | Link |
---|---|
CN (1) | CN101510887B (zh) |
BR (1) | BRPI1010281A2 (zh) |
SG (1) | SG174306A1 (zh) |
WO (1) | WO2010108421A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010108421A1 (zh) * | 2009-03-27 | 2010-09-30 | 腾讯科技(深圳)有限公司 | 鉴别网站的方法及装置 |
CN102073822A (zh) * | 2011-01-30 | 2011-05-25 | 北京搜狗科技发展有限公司 | 防止用户信息泄漏的方法及系统 |
CN102082792A (zh) * | 2010-12-31 | 2011-06-01 | 成都市华为赛门铁克科技有限公司 | 钓鱼网页检测方法及设备 |
CN102136973A (zh) * | 2010-09-08 | 2011-07-27 | 乔永清 | 用于网站真实数据监控的系统及方法 |
CN102170446A (zh) * | 2011-04-29 | 2011-08-31 | 南京邮电大学 | 一种基于空间布局与视觉特征的钓鱼网页检测方法 |
CN103365879A (zh) * | 2012-03-29 | 2013-10-23 | 北京百度网讯科技有限公司 | 一种用于获取页面相似度的方法与设备 |
WO2015039553A1 (en) * | 2013-09-23 | 2015-03-26 | Tencent Technology (Shenzhen) Company Limited | Method and system for identifying fraudulent websites priority claim and related application |
CN106789973A (zh) * | 2016-12-06 | 2017-05-31 | 海信集团有限公司 | 页面的安全性检测方法及终端设备 |
CN108306878A (zh) * | 2018-01-30 | 2018-07-20 | 平安科技(深圳)有限公司 | 钓鱼网站检测方法、装置、计算机设备和存储介质 |
CN108322779A (zh) * | 2017-01-17 | 2018-07-24 | 南宁富桂精密工业有限公司 | 视频信息的收集和处理方法、装置以及服务器 |
CN108566399A (zh) * | 2018-04-23 | 2018-09-21 | 中国互联网络信息中心 | 钓鱼网站识别方法及系统 |
CN108650250A (zh) * | 2018-04-27 | 2018-10-12 | 北京奇安信科技有限公司 | 非法页面检测方法、系统、计算机系统和可读存储介质 |
CN109284613A (zh) * | 2018-09-30 | 2019-01-29 | 北京神州绿盟信息安全科技股份有限公司 | 标识检测及仿冒站点检测方法、装置、设备及存储介质 |
CN110781497A (zh) * | 2019-10-21 | 2020-02-11 | 新华三信息安全技术有限公司 | 网页链接的检测方法及存储介质 |
CN114219571A (zh) * | 2021-12-16 | 2022-03-22 | 广州华多网络科技有限公司 | 电商独立站点匹配方法及其装置、设备、介质、产品 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708967B (zh) * | 2020-06-11 | 2023-05-16 | 浙江浙大网新国际软件技术服务有限公司 | 一种基于网站地图的指纹识别方法 |
CN114443477B (zh) * | 2022-01-14 | 2024-09-17 | 苏州浪潮智能科技有限公司 | 密码安全配置测试方法、系统、终端及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7543024B2 (en) * | 2001-05-03 | 2009-06-02 | Oracle International Corporation | System and method for monitoring multiple online resources in different formats |
US7877399B2 (en) * | 2003-08-15 | 2011-01-25 | International Business Machines Corporation | Method, system, and computer program product for comparing two computer files |
JP4027416B2 (ja) * | 2005-02-18 | 2007-12-26 | デュアキシズ株式会社 | データ処理装置 |
CN101310502B (zh) * | 2005-09-30 | 2012-10-17 | 趋势科技股份有限公司 | 安全管理设备、通信系统及访问控制方法 |
CN100583738C (zh) * | 2007-08-17 | 2010-01-20 | 东南大学 | 基于图像处理的钓鱼网页检测方法 |
CN101510887B (zh) * | 2009-03-27 | 2012-01-25 | 腾讯科技(深圳)有限公司 | 鉴别网站的方法及装置 |
CN101534306B (zh) * | 2009-04-14 | 2012-01-11 | 深圳市腾讯计算机系统有限公司 | 一种钓鱼网站的检测方法及装置 |
-
2009
- 2009-03-27 CN CN2009101291681A patent/CN101510887B/zh active Active
-
2010
- 2010-03-19 BR BRPI1010281A patent/BRPI1010281A2/pt not_active Application Discontinuation
- 2010-03-19 SG SG2011064953A patent/SG174306A1/en unknown
- 2010-03-19 WO PCT/CN2010/071145 patent/WO2010108421A1/zh active Application Filing
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010108421A1 (zh) * | 2009-03-27 | 2010-09-30 | 腾讯科技(深圳)有限公司 | 鉴别网站的方法及装置 |
CN102136973A (zh) * | 2010-09-08 | 2011-07-27 | 乔永清 | 用于网站真实数据监控的系统及方法 |
CN102082792A (zh) * | 2010-12-31 | 2011-06-01 | 成都市华为赛门铁克科技有限公司 | 钓鱼网页检测方法及设备 |
US9218482B2 (en) | 2010-12-31 | 2015-12-22 | Huawei Technologies Co., Ltd. | Method and device for detecting phishing web page |
CN102073822A (zh) * | 2011-01-30 | 2011-05-25 | 北京搜狗科技发展有限公司 | 防止用户信息泄漏的方法及系统 |
CN102170446A (zh) * | 2011-04-29 | 2011-08-31 | 南京邮电大学 | 一种基于空间布局与视觉特征的钓鱼网页检测方法 |
CN103365879A (zh) * | 2012-03-29 | 2013-10-23 | 北京百度网讯科技有限公司 | 一种用于获取页面相似度的方法与设备 |
WO2015039553A1 (en) * | 2013-09-23 | 2015-03-26 | Tencent Technology (Shenzhen) Company Limited | Method and system for identifying fraudulent websites priority claim and related application |
CN106789973A (zh) * | 2016-12-06 | 2017-05-31 | 海信集团有限公司 | 页面的安全性检测方法及终端设备 |
CN108322779A (zh) * | 2017-01-17 | 2018-07-24 | 南宁富桂精密工业有限公司 | 视频信息的收集和处理方法、装置以及服务器 |
CN108322779B (zh) * | 2017-01-17 | 2020-09-29 | 南宁富桂精密工业有限公司 | 视频信息的收集和处理方法、装置以及服务器 |
CN108306878A (zh) * | 2018-01-30 | 2018-07-20 | 平安科技(深圳)有限公司 | 钓鱼网站检测方法、装置、计算机设备和存储介质 |
CN108566399A (zh) * | 2018-04-23 | 2018-09-21 | 中国互联网络信息中心 | 钓鱼网站识别方法及系统 |
CN108566399B (zh) * | 2018-04-23 | 2020-11-03 | 中国互联网络信息中心 | 钓鱼网站识别方法及系统 |
CN108650250A (zh) * | 2018-04-27 | 2018-10-12 | 北京奇安信科技有限公司 | 非法页面检测方法、系统、计算机系统和可读存储介质 |
CN109284613A (zh) * | 2018-09-30 | 2019-01-29 | 北京神州绿盟信息安全科技股份有限公司 | 标识检测及仿冒站点检测方法、装置、设备及存储介质 |
CN109284613B (zh) * | 2018-09-30 | 2020-09-22 | 北京神州绿盟信息安全科技股份有限公司 | 标识检测及仿冒站点检测方法、装置、设备及存储介质 |
CN110781497A (zh) * | 2019-10-21 | 2020-02-11 | 新华三信息安全技术有限公司 | 网页链接的检测方法及存储介质 |
CN114219571A (zh) * | 2021-12-16 | 2022-03-22 | 广州华多网络科技有限公司 | 电商独立站点匹配方法及其装置、设备、介质、产品 |
Also Published As
Publication number | Publication date |
---|---|
WO2010108421A1 (zh) | 2010-09-30 |
SG174306A1 (en) | 2011-10-28 |
BRPI1010281A2 (pt) | 2016-03-22 |
CN101510887B (zh) | 2012-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101510887B (zh) | 鉴别网站的方法及装置 | |
CN101964025B (zh) | Xss检测方法和设备 | |
CN106789888B (zh) | 一种多特征融合的钓鱼网页检测方法 | |
CN101504673B (zh) | 一种识别疑似仿冒网站的方法与系统 | |
US10679088B1 (en) | Visual domain detection systems and methods | |
KR20060102484A (ko) | 브라우저 디스플레이 내에서 도메인을 하이라이트하기 위한시스템 및 방법 | |
US20080172738A1 (en) | Method for Detecting and Remediating Misleading Hyperlinks | |
CN102129528A (zh) | 一种web网页篡改识别方法及系统 | |
CN102724187A (zh) | 一种针对网址的安全检测方法及装置 | |
CN106909846B (zh) | 一种基于虚拟解析的漏洞检测方法及其装置 | |
CN104243475B (zh) | 基于web反向代理的动态混淆的方法及系统 | |
CN108595468A (zh) | 一种网页数据的获取方法、装置、服务器、终端和系统 | |
CN102739653A (zh) | 一种针对网址的检测方法及装置 | |
CN111881337B (zh) | 一种基于Scrapy框架的数据采集方法、系统及存储介质 | |
CN104301314B (zh) | 一种基于浏览器标签属性的入侵检测方法及装置 | |
CN107239520B (zh) | 一种通用论坛正文提取方法 | |
CN111143722A (zh) | 一种网页暗链检测方法、装置、设备及介质 | |
CN110532784A (zh) | 一种暗链检测方法、装置、设备及计算机可读存储介质 | |
CN102722544A (zh) | 字符串的解码方法和装置 | |
CN101471781A (zh) | 一种脚本注入事件处理方法和系统 | |
CN111125704B (zh) | 一种网页挂马识别方法及系统 | |
CN105306462A (zh) | 网页链接检测方法及装置 | |
CN118013518A (zh) | 网站类别的识别方法及装置、设备、存储介质 | |
CN110719344B (zh) | 域名获取方法、装置、电子设备及存储介质 | |
CN107147648A (zh) | 资源请求的处理方法、客户端、服务器和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |