CN103136251A - 识别网页的方法和装置 - Google Patents
识别网页的方法和装置 Download PDFInfo
- Publication number
- CN103136251A CN103136251A CN2011103885836A CN201110388583A CN103136251A CN 103136251 A CN103136251 A CN 103136251A CN 2011103885836 A CN2011103885836 A CN 2011103885836A CN 201110388583 A CN201110388583 A CN 201110388583A CN 103136251 A CN103136251 A CN 103136251A
- Authority
- CN
- China
- Prior art keywords
- webpage
- identified
- outward appearance
- appearance picture
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种识别网页的方法和装置,用以解决现有技术对于网页仿冒的识别效果不佳的问题。该方法用于判断待识别网页是否为被比网页的仿冒网页,包括:判断待识别网页的网络地址与被比网页的网络地址是否相同,并且在二者不相同的情况下,获取待识别网页的外观图片,以及获取被比网页的外观图片;使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度,在该相似度大于预设值时确认待识别网页为被比网页的仿冒网页。采用本发明的技术方案,能够快速有效地识别仿冒网站,有助于增强网页仿冒的识别效果。
Description
技术领域
本发明涉及计算机技术领域,特别地涉及一种识别网页的方法和装置。
背景技术
长期以来,互联网上遍布着大量的恶意站点,其中含有许多钓鱼、欺诈网页,给用户造成了巨大的精神损害和经济损失。信息安全厂商提供的假冒网站识别方法在早期主要基于URL黑白名单匹配,由于恶意站点的生命周期一般较短,因此黑白名单匹配具有先天不足--即滞后性。一个新诞生的恶意站点被安全公司捕获并分析确认,之后再加入URL名单库,再下发给终端安全软件,往往整个流程完成时该URL已经失效。随着技术的发展,目前的假冒网站识别主要基于网页特征匹配。网页特征匹配主要依赖对网页源码的分析,对网页元素(如关键文字)进行匹配。该技术依然有很多不足。假冒网站作者可以使用各种加密、混淆、变换等手段,使假冒网页的源代码与要仿冒的网页的源代码相似度较低,来逃避安全软件识别。
现有技术中,对于网页仿冒的识别效果不佳,对于该问题,目前尚未提出有效解决方案。
发明内容
本发明的主要目的是提供一种识别网页的方法和装置,以解决现有技术对于网页仿冒的识别效果不佳的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种识别网页的方法。
本发明的识别网页的方法用于判断待识别网页是否为被比网页的仿冒网页,所述方法包括:判断待识别网页的网络地址与被比网页的网络地址是否相同,并且在二者不相同的情况下,获取待识别网页的外观图片,以及获取被比网页的外观图片;使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度,在该相似度大于预设值时确认待识别网页为被比网页的仿冒网页。
进一步地,判断待识别网页的URL与被比网页的URL是否相同,包括:使用字符串比对的方式比较待识别网页的URL与被比网页的URL。
进一步地,获取待识别网页的外观图片,以及获取被比网页的外观图片,包括:获取待识别网页的源代码以及被比网页的源代码;根据待识别网页的源代码生成待识别网页,以及根据被比网页的源代码生成被比网页;获取生成的待识别网页以及被比网页的外观图片。
进一步地,使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度,包括:从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块,使用图像对比的方法确定截取的两个图块之间的相似度,以该相似度作为待识别网页的外观图片和被比网页的外观图片之间的相似度。
进一步地,从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块,包括:根据待识别网页和被比网页的源代码确定待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置;从待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置各截取图块。
根据本发明的另一方面,提供了一种识别网页的装置,用于判断待识别网页是否为被比网页的仿冒网页,所述装置包括:判断模块,用于判断待识别网页的网络地址与被比网页的网络地址是否相同;获取模块,用于获取待识别网页的外观图片,以及获取被比网页的外观图片;比较模块,用于使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度;输出模块,用于在所述相似度大于预设值时输出用于确认待识别网页为被比网页的仿冒网页的确认信息。
进一步地,所述判断模块还用于使用字符串比对的方式比较待识别网页的URL与被比网页的URL。
进一步地,所述获取模块还用于:获取待识别网页的源代码以及被比网页的源代码;根据待识别网页的源代码生成待识别网页,以及根据被比网页的源代码生成被比网页;获取生成的待识别网页以及被比网页的外观图片。
进一步地,所述比较模块还用于:从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块,使用图像对比的方法确定截取的两个图块之间的相似度,以该相似度作为待识别网页的外观和被比网页的外观图片之间的相似度。
进一步地,所述比较模块还用于:根据待识别网页和被比网页的源代码确定待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置;从待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置各截取图块。
根据本发明的技术方案,因为仿冒网站主要是通过外观的仿冒来进行,所以通过将待识别网页和被比网页的外观图片进行比对,能够快速有效地识别仿冒网站。本实施例的技术方案对于网页源代码的分析的依赖程度很小,这样即使仿冒的网站的源代码与被仿冒的网站的源代码相似程度很低,也能使用本实施例的技术方案识别该仿冒的网站。因此采用本实施例的技术方案有助于增强网页仿冒的识别效果。
附图说明
说明书附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的识别网页的方法的基本步骤的示意图;
图2是根据本发明实施例的识别网页的装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明实施例的识别网页的方法用来判断待识别网页是否为被比网页的仿冒网页,可按图1所示步骤进行。图1是根据本发明实施例的识别网页的方法的基本步骤的示意图。如图1所示,本发明实施例的识别网页的方法主要包括如下步骤:
步骤S11:判断待识别网页的网络地址与被比网页的网络地址是否相同。本步骤中若判断结果为是,即如果网络地址相同,则直接结束流程,因为网络地址相同意味着待识别的网页就是被比网页。否则,即如果网络地址不相同,则进入步骤S12。本步骤中,具体可以使用字符串比对的方式比较待识别网页的URL与被比网页的URL,来判断待识别网页的网络地址与被比网页的网络地址是否相同。
步骤S12:获取待识别网页的外观图片,以及获取被比网页的外观图片。本步骤中具体可以是先获取待识别网页的源代码以及被比网页的源代码;然后根据待识别网页的源代码生成待识别网页,以及根据被比网页的源代码生成被比网页;最后获取生成的待识别网页以及被比网页的外观图片。获取图片时例如可以采用抓取屏幕显示内容的方式。
步骤S13:使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度。可以采用现有的各种图像比对方法。为了运算加快,可以从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块,使用图像对比的方法确定截取的两个图块之间的相似度,以该相似度作为待识别网页的外观图片和被比网页的外观图片之间的相似度。上述是各截取1个图块的方式,也可以各截取多个图块,相应得出多个相似度,然后求其平均值作为待识别网页的外观图片和被比网页的外观图片之间的相似度。
另外,在本步骤中,考虑到有些网页在仿冒被比网页时,将被比网页中的某些文字块改成图像来显示,而该图像中包含组成了文字的线条,如果存在这种情况,则能够很快判定待识别网页仿冒了被比网页。因此,在步骤S13中,可以根据待识别网页和被比网页的源代码确定待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置;从待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置各截取图块。
步骤S14:在步骤S13中得出的相似度大于预设值时确认待识别网页为被比网页的仿冒网页。如果待识别网页是被比网页的仿冒网页,则二者相似度必然较高,因此在高于一个预设值时可以认为待识别网页为被比网页的仿冒网页。该预设值可以根据经验确定。如果二者相似度低于该预设值,则认为该两个网页是无关的网页,不存在仿冒的关系。本步骤之后结束流程。
以下对于本实施例中的识别网页的装置做出说明。图2是根据本发明实施例的识别网页的装置的示意图。
如图2所示,本发明实施例中的识别网页的装置20主要包括如下模块:判断模块21,用于判断待识别网页的网络地址与被比网页的网络地址是否相同;获取模块22,用于获取待识别网页的外观图片,以及获取被比网页的外观图片;比较模块23,用于使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度;输出模块24,用于在所述相似度大于预设值时输出用于确认待识别网页为被比网页的仿冒网页的确认信息。
判断模块21还可用于使用字符串比对的方式比较待识别网页的URL与被比网页的URL。
获取模块22还可用于获取待识别网页的源代码以及被比网页的源代码;根据待识别网页的源代码生成待识别网页,以及根据被比网页的源代码生成被比网页;获取生成的待识别网页以及被比网页的外观图片。
比较模块23还可用于从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块,使用图像对比的方法确定截取的两个图块之间的相似度,以该相似度作为待识别网页的外观图片和被比网页的外观图片之间的相似度。
比较模块23还可用于:根据待识别网页和被比网页的源代码确定待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置;从待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置各截取图块。
根据本发明实施例的技术方案,因为仿冒网站主要是通过外观的仿冒来进行,所以通过将待识别网页和被比网页的外观图片进行比对,能够快速有效地识别仿冒网站。本实施例的技术方案对于网页源代码的分析的依赖程度很小,这样即使仿冒的网站的源代码与被仿冒的网站的源代码相似程度很低,也能使用本实施例的技术方案识别该仿冒的网站。因此采用本实施例的技术方案有助于增强网页仿冒的识别效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种识别网页的方法,用于判断待识别网页是否为被比网页的仿冒网页,其特征在于,所述方法包括:
判断待识别网页的网络地址与被比网页的网络地址是否相同,并且在二者不相同的情况下,获取待识别网页的外观图片,以及获取被比网页的外观图片;
使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度,在该相似度大于预设值时确认待识别网页为被比网页的仿冒网页。
2.根据权利要求1所述的方法,其特征在于,判断待识别网页的URL与被比网页的URL是否相同,包括:使用字符串比对的方式比较待识别网页的URL与被比网页的URL。
3.根据权利要求1所述的方法,其特征在于,获取待识别网页的外观图片,以及获取被比网页的外观图片,包括:
获取待识别网页的源代码以及被比网页的源代码;
根据待识别网页的源代码生成待识别网页,以及根据被比网页的源代码生成被比网页;
获取生成的待识别网页以及被比网页的外观图片。
4.根据权利要求1所述的方法,其特征在于,使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度,包括:
从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块,使用图像对比的方法确定截取的两个图块之间的相似度,以该相似度作为待识别网页的外观图片和被比网页的外观图片之间的相似度。
5.根据权利要求4所述的方法,其特征在于,从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块,包括:
根据待识别网页和被比网页的源代码确定待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置;
从待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置各截取图块。
6.一种识别网页的装置,用于判断待识别网页是否为被比网页的仿冒网页,其特征在于,所述装置包括:
判断模块,用于判断待识别网页的网络地址与被比网页的网络地址是否相同;
获取模块,用于获取待识别网页的外观图片,以及获取被比网页的外观图片;
比较模块,用于使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度;
输出模块,用于在所述相似度大于预设值时输出用于确认待识别网页为被比网页的仿冒网页的确认信息。
7.根据权利要求6所述的装置,其特征在于,所述判断模块还用于使用字符串比对的方式比较待识别网页的URL与被比网页的URL。
8.根据权利要求6所述的装置,其特征在于,所述获取模块还用于:
获取待识别网页的源代码以及被比网页的源代码;
根据待识别网页的源代码生成待识别网页,以及根据被比网页的源代码生成被比网页;
获取生成的待识别网页以及被比网页的外观图片。
9.根据权利要求6所述的装置,其特征在于,所述比较模块还用于:从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块,使用图像对比的方法确定截取的两个图块之间的相似度,以该相似度作为待识别网页的外观图片和被比网页的外观图片之间的相似度。
10.根据权利要求9所述的装置,其特征在于,所述比较模块还用于:
根据待识别网页和被比网页的源代码确定待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置;
从待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置各截取图块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103885836A CN103136251A (zh) | 2011-11-29 | 2011-11-29 | 识别网页的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103885836A CN103136251A (zh) | 2011-11-29 | 2011-11-29 | 识别网页的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103136251A true CN103136251A (zh) | 2013-06-05 |
Family
ID=48496085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103885836A Pending CN103136251A (zh) | 2011-11-29 | 2011-11-29 | 识别网页的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103136251A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103442014A (zh) * | 2013-09-03 | 2013-12-11 | 中国科学院信息工程研究所 | 一种自动检测疑似仿冒网站的方法及系统 |
CN105373730A (zh) * | 2014-08-25 | 2016-03-02 | 中国信托商业银行股份有限公司 | 自动侦查钓鱼网页的方法与系统 |
CN105516194A (zh) * | 2016-01-18 | 2016-04-20 | 广东欧珀移动通信有限公司 | 虚假网站防控方法及装置 |
CN105653959A (zh) * | 2015-12-31 | 2016-06-08 | 深圳市安之天信息技术有限公司 | 一种基于功能图片识别仿冒网站的方法及系统 |
CN105978850A (zh) * | 2016-04-08 | 2016-09-28 | 中国南方电网有限责任公司 | 一种基于图形匹配的仿冒网站检测系统及检测方法 |
WO2018209465A1 (zh) * | 2017-05-15 | 2018-11-22 | 深圳市卓希科技有限公司 | 一种网页访问控制方法和网关设备 |
CN111224923A (zh) * | 2018-11-26 | 2020-06-02 | 阿里巴巴集团控股有限公司 | 一种仿冒网站的检测方法、装置及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1728655A (zh) * | 2004-11-25 | 2006-02-01 | 刘文印 | 一种检测鉴别假冒网页的方法及系统 |
CN101436210A (zh) * | 2008-12-16 | 2009-05-20 | 北京百问百答网络技术有限公司 | 一种识别假冒网页的方法及系统 |
CN101534306A (zh) * | 2009-04-14 | 2009-09-16 | 深圳市腾讯计算机系统有限公司 | 一种钓鱼网站的检测方法及装置 |
CN101826105A (zh) * | 2010-04-02 | 2010-09-08 | 南京邮电大学 | 基于匈牙利匹配算法的钓鱼网页检测方法 |
CN101894134A (zh) * | 2010-06-21 | 2010-11-24 | 南京邮电大学 | 一种基于空间布局的钓鱼网页检测及其实现方法 |
CN102170446A (zh) * | 2011-04-29 | 2011-08-31 | 南京邮电大学 | 一种基于空间布局与视觉特征的钓鱼网页检测方法 |
-
2011
- 2011-11-29 CN CN2011103885836A patent/CN103136251A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1728655A (zh) * | 2004-11-25 | 2006-02-01 | 刘文印 | 一种检测鉴别假冒网页的方法及系统 |
CN101436210A (zh) * | 2008-12-16 | 2009-05-20 | 北京百问百答网络技术有限公司 | 一种识别假冒网页的方法及系统 |
CN101534306A (zh) * | 2009-04-14 | 2009-09-16 | 深圳市腾讯计算机系统有限公司 | 一种钓鱼网站的检测方法及装置 |
CN101826105A (zh) * | 2010-04-02 | 2010-09-08 | 南京邮电大学 | 基于匈牙利匹配算法的钓鱼网页检测方法 |
CN101894134A (zh) * | 2010-06-21 | 2010-11-24 | 南京邮电大学 | 一种基于空间布局的钓鱼网页检测及其实现方法 |
CN102170446A (zh) * | 2011-04-29 | 2011-08-31 | 南京邮电大学 | 一种基于空间布局与视觉特征的钓鱼网页检测方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103442014A (zh) * | 2013-09-03 | 2013-12-11 | 中国科学院信息工程研究所 | 一种自动检测疑似仿冒网站的方法及系统 |
CN105373730A (zh) * | 2014-08-25 | 2016-03-02 | 中国信托商业银行股份有限公司 | 自动侦查钓鱼网页的方法与系统 |
CN105653959A (zh) * | 2015-12-31 | 2016-06-08 | 深圳市安之天信息技术有限公司 | 一种基于功能图片识别仿冒网站的方法及系统 |
CN105516194A (zh) * | 2016-01-18 | 2016-04-20 | 广东欧珀移动通信有限公司 | 虚假网站防控方法及装置 |
CN105516194B (zh) * | 2016-01-18 | 2019-06-14 | Oppo广东移动通信有限公司 | 虚假网站防控方法及装置 |
CN105978850A (zh) * | 2016-04-08 | 2016-09-28 | 中国南方电网有限责任公司 | 一种基于图形匹配的仿冒网站检测系统及检测方法 |
WO2018209465A1 (zh) * | 2017-05-15 | 2018-11-22 | 深圳市卓希科技有限公司 | 一种网页访问控制方法和网关设备 |
CN111224923A (zh) * | 2018-11-26 | 2020-06-02 | 阿里巴巴集团控股有限公司 | 一种仿冒网站的检测方法、装置及系统 |
CN111224923B (zh) * | 2018-11-26 | 2022-07-22 | 阿里巴巴集团控股有限公司 | 一种仿冒网站的检测方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103136251A (zh) | 识别网页的方法和装置 | |
CN104125209B (zh) | 恶意网址提示方法和路由器 | |
US20160342793A1 (en) | Automatic Library Detection | |
CN102129528B (zh) | 一种web网页篡改识别方法及系统 | |
US9747441B2 (en) | Preventing phishing attacks | |
CN109801192A (zh) | 电子合同签订方法、装置、计算机设备及存储介质 | |
CN105763543A (zh) | 一种识别钓鱼网站的方法及装置 | |
CN103888490A (zh) | 一种全自动的web客户端人机识别的方法 | |
CN103810425A (zh) | 恶意网址的检测方法及装置 | |
CN102999723B (zh) | 主动防御xss攻击的数据防御组件生成方法及其装置 | |
CN103281320A (zh) | 基于网页图标匹配的品牌仿冒网站检测方法 | |
CN102622553A (zh) | 检测网页安全的方法及装置 | |
CN105635064B (zh) | Csrf攻击检测方法及装置 | |
RU2628253C2 (ru) | Способ и устройство для пометки терминала | |
US20130179421A1 (en) | System and Method for Collecting URL Information Using Retrieval Service of Social Network Service | |
CN103209170A (zh) | 文件类型识别方法及识别系统 | |
CN103778113A (zh) | 终端、服务器及终端、服务器的网页处理方法 | |
CN107193834A (zh) | 用于浏览页面的计算设备、装置及方法 | |
CN110474889A (zh) | 一种基于网站图标的钓鱼网站识别方法及装置 | |
CN107896218A (zh) | 一种自动化检测验证码回传逻辑漏洞的方法及系统 | |
CN102801698A (zh) | 一种基于url请求时序的恶意代码检测方法和系统 | |
CN106209487B (zh) | 用于检测网站中网页的安全漏洞的方法及装置 | |
US8910281B1 (en) | Identifying malware sources using phishing kit templates | |
CN106886594A (zh) | 用于展示信息的方法和装置 | |
CN104301314A (zh) | 一种基于浏览器标签属性的入侵检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100080, room 10, building 1, 3 Haidian Avenue, Beijing,, Haidian District Applicant after: Xingyun Rongchuang (Beijing) Technology Co., Ltd. Address before: 100080, 1825-025, room 15, 66 West Fourth Ring Road, Haidian District, Beijing Applicant before: Xingyun Rongchuang (Beijing) Technology Co., Ltd. |
|
COR | Change of bibliographic data | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130605 |