CN103136251A

CN103136251A - 识别网页的方法和装置

Info

Publication number: CN103136251A
Application number: CN2011103885836A
Authority: CN
Inventors: 马杰
Original assignee: Xingyun Rongchuang Beijing Technology Co Ltd
Current assignee: Xingyun Rongchuang Beijing Technology Co Ltd
Priority date: 2011-11-29
Filing date: 2011-11-29
Publication date: 2013-06-05

Abstract

本发明提供了一种识别网页的方法和装置，用以解决现有技术对于网页仿冒的识别效果不佳的问题。该方法用于判断待识别网页是否为被比网页的仿冒网页，包括：判断待识别网页的网络地址与被比网页的网络地址是否相同，并且在二者不相同的情况下，获取待识别网页的外观图片，以及获取被比网页的外观图片；使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度，在该相似度大于预设值时确认待识别网页为被比网页的仿冒网页。采用本发明的技术方案，能够快速有效地识别仿冒网站，有助于增强网页仿冒的识别效果。

Description

识别网页的方法和装置

技术领域

本发明涉及计算机技术领域，特别地涉及一种识别网页的方法和装置。

背景技术

长期以来，互联网上遍布着大量的恶意站点，其中含有许多钓鱼、欺诈网页，给用户造成了巨大的精神损害和经济损失。信息安全厂商提供的假冒网站识别方法在早期主要基于URL黑白名单匹配，由于恶意站点的生命周期一般较短，因此黑白名单匹配具有先天不足--即滞后性。一个新诞生的恶意站点被安全公司捕获并分析确认，之后再加入URL名单库，再下发给终端安全软件，往往整个流程完成时该URL已经失效。随着技术的发展，目前的假冒网站识别主要基于网页特征匹配。网页特征匹配主要依赖对网页源码的分析，对网页元素(如关键文字)进行匹配。该技术依然有很多不足。假冒网站作者可以使用各种加密、混淆、变换等手段，使假冒网页的源代码与要仿冒的网页的源代码相似度较低，来逃避安全软件识别。

现有技术中，对于网页仿冒的识别效果不佳，对于该问题，目前尚未提出有效解决方案。

发明内容

本发明的主要目的是提供一种识别网页的方法和装置，以解决现有技术对于网页仿冒的识别效果不佳的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种识别网页的方法。

本发明的识别网页的方法用于判断待识别网页是否为被比网页的仿冒网页，所述方法包括：判断待识别网页的网络地址与被比网页的网络地址是否相同，并且在二者不相同的情况下，获取待识别网页的外观图片，以及获取被比网页的外观图片；使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度，在该相似度大于预设值时确认待识别网页为被比网页的仿冒网页。

进一步地，判断待识别网页的URL与被比网页的URL是否相同，包括：使用字符串比对的方式比较待识别网页的URL与被比网页的URL。

进一步地，获取待识别网页的外观图片，以及获取被比网页的外观图片，包括：获取待识别网页的源代码以及被比网页的源代码；根据待识别网页的源代码生成待识别网页，以及根据被比网页的源代码生成被比网页；获取生成的待识别网页以及被比网页的外观图片。

进一步地，使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度，包括：从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块，使用图像对比的方法确定截取的两个图块之间的相似度，以该相似度作为待识别网页的外观图片和被比网页的外观图片之间的相似度。

进一步地，从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块，包括：根据待识别网页和被比网页的源代码确定待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置；从待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置各截取图块。

根据本发明的另一方面，提供了一种识别网页的装置，用于判断待识别网页是否为被比网页的仿冒网页，所述装置包括：判断模块，用于判断待识别网页的网络地址与被比网页的网络地址是否相同；获取模块，用于获取待识别网页的外观图片，以及获取被比网页的外观图片；比较模块，用于使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度；输出模块，用于在所述相似度大于预设值时输出用于确认待识别网页为被比网页的仿冒网页的确认信息。

进一步地，所述判断模块还用于使用字符串比对的方式比较待识别网页的URL与被比网页的URL。

进一步地，所述获取模块还用于：获取待识别网页的源代码以及被比网页的源代码；根据待识别网页的源代码生成待识别网页，以及根据被比网页的源代码生成被比网页；获取生成的待识别网页以及被比网页的外观图片。

进一步地，所述比较模块还用于：从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块，使用图像对比的方法确定截取的两个图块之间的相似度，以该相似度作为待识别网页的外观和被比网页的外观图片之间的相似度。

进一步地，所述比较模块还用于：根据待识别网页和被比网页的源代码确定待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置；从待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置各截取图块。

根据本发明的技术方案，因为仿冒网站主要是通过外观的仿冒来进行，所以通过将待识别网页和被比网页的外观图片进行比对，能够快速有效地识别仿冒网站。本实施例的技术方案对于网页源代码的分析的依赖程度很小，这样即使仿冒的网站的源代码与被仿冒的网站的源代码相似程度很低，也能使用本实施例的技术方案识别该仿冒的网站。因此采用本实施例的技术方案有助于增强网页仿冒的识别效果。

附图说明

说明书附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的识别网页的方法的基本步骤的示意图；

图2是根据本发明实施例的识别网页的装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明实施例的识别网页的方法用来判断待识别网页是否为被比网页的仿冒网页，可按图1所示步骤进行。图1是根据本发明实施例的识别网页的方法的基本步骤的示意图。如图1所示，本发明实施例的识别网页的方法主要包括如下步骤：

步骤S11：判断待识别网页的网络地址与被比网页的网络地址是否相同。本步骤中若判断结果为是，即如果网络地址相同，则直接结束流程，因为网络地址相同意味着待识别的网页就是被比网页。否则，即如果网络地址不相同，则进入步骤S12。本步骤中，具体可以使用字符串比对的方式比较待识别网页的URL与被比网页的URL，来判断待识别网页的网络地址与被比网页的网络地址是否相同。

步骤S12：获取待识别网页的外观图片，以及获取被比网页的外观图片。本步骤中具体可以是先获取待识别网页的源代码以及被比网页的源代码；然后根据待识别网页的源代码生成待识别网页，以及根据被比网页的源代码生成被比网页；最后获取生成的待识别网页以及被比网页的外观图片。获取图片时例如可以采用抓取屏幕显示内容的方式。

步骤S13：使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度。可以采用现有的各种图像比对方法。为了运算加快，可以从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块，使用图像对比的方法确定截取的两个图块之间的相似度，以该相似度作为待识别网页的外观图片和被比网页的外观图片之间的相似度。上述是各截取1个图块的方式，也可以各截取多个图块，相应得出多个相似度，然后求其平均值作为待识别网页的外观图片和被比网页的外观图片之间的相似度。

另外，在本步骤中，考虑到有些网页在仿冒被比网页时，将被比网页中的某些文字块改成图像来显示，而该图像中包含组成了文字的线条，如果存在这种情况，则能够很快判定待识别网页仿冒了被比网页。因此，在步骤S13中，可以根据待识别网页和被比网页的源代码确定待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置；从待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置各截取图块。

步骤S14：在步骤S13中得出的相似度大于预设值时确认待识别网页为被比网页的仿冒网页。如果待识别网页是被比网页的仿冒网页，则二者相似度必然较高，因此在高于一个预设值时可以认为待识别网页为被比网页的仿冒网页。该预设值可以根据经验确定。如果二者相似度低于该预设值，则认为该两个网页是无关的网页，不存在仿冒的关系。本步骤之后结束流程。

以下对于本实施例中的识别网页的装置做出说明。图2是根据本发明实施例的识别网页的装置的示意图。

如图2所示，本发明实施例中的识别网页的装置20主要包括如下模块：判断模块21，用于判断待识别网页的网络地址与被比网页的网络地址是否相同；获取模块22，用于获取待识别网页的外观图片，以及获取被比网页的外观图片；比较模块23，用于使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度；输出模块24，用于在所述相似度大于预设值时输出用于确认待识别网页为被比网页的仿冒网页的确认信息。

判断模块21还可用于使用字符串比对的方式比较待识别网页的URL与被比网页的URL。

获取模块22还可用于获取待识别网页的源代码以及被比网页的源代码；根据待识别网页的源代码生成待识别网页，以及根据被比网页的源代码生成被比网页；获取生成的待识别网页以及被比网页的外观图片。

比较模块23还可用于从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块，使用图像对比的方法确定截取的两个图块之间的相似度，以该相似度作为待识别网页的外观图片和被比网页的外观图片之间的相似度。

比较模块23还可用于：根据待识别网页和被比网页的源代码确定待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置；从待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置各截取图块。

根据本发明实施例的技术方案，因为仿冒网站主要是通过外观的仿冒来进行，所以通过将待识别网页和被比网页的外观图片进行比对，能够快速有效地识别仿冒网站。本实施例的技术方案对于网页源代码的分析的依赖程度很小，这样即使仿冒的网站的源代码与被仿冒的网站的源代码相似程度很低，也能使用本实施例的技术方案识别该仿冒的网站。因此采用本实施例的技术方案有助于增强网页仿冒的识别效果。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种识别网页的方法，用于判断待识别网页是否为被比网页的仿冒网页，其特征在于，所述方法包括：

判断待识别网页的网络地址与被比网页的网络地址是否相同，并且在二者不相同的情况下，获取待识别网页的外观图片，以及获取被比网页的外观图片；

使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度，在该相似度大于预设值时确认待识别网页为被比网页的仿冒网页。

2.根据权利要求1所述的方法，其特征在于，判断待识别网页的URL与被比网页的URL是否相同，包括：使用字符串比对的方式比较待识别网页的URL与被比网页的URL。

3.根据权利要求1所述的方法，其特征在于，获取待识别网页的外观图片，以及获取被比网页的外观图片，包括：

获取待识别网页的源代码以及被比网页的源代码；

根据待识别网页的源代码生成待识别网页，以及根据被比网页的源代码生成被比网页；

获取生成的待识别网页以及被比网页的外观图片。

4.根据权利要求1所述的方法，其特征在于，使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度，包括：

从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块，使用图像对比的方法确定截取的两个图块之间的相似度，以该相似度作为待识别网页的外观图片和被比网页的外观图片之间的相似度。

5.根据权利要求4所述的方法，其特征在于，从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块，包括：

根据待识别网页和被比网页的源代码确定待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置；

从待识别网页的外观图片和被比网页的外观图片中的包含图片元素的相同位置各截取图块。

6.一种识别网页的装置，用于判断待识别网页是否为被比网页的仿冒网页，其特征在于，所述装置包括：

判断模块，用于判断待识别网页的网络地址与被比网页的网络地址是否相同；

获取模块，用于获取待识别网页的外观图片，以及获取被比网页的外观图片；

比较模块，用于使用图像对比的方法确定待识别网页的外观图片和被比网页的外观图片之间的相似度；

输出模块，用于在所述相似度大于预设值时输出用于确认待识别网页为被比网页的仿冒网页的确认信息。

7.根据权利要求6所述的装置，其特征在于，所述判断模块还用于使用字符串比对的方式比较待识别网页的URL与被比网页的URL。

8.根据权利要求6所述的装置，其特征在于，所述获取模块还用于：

获取待识别网页的源代码以及被比网页的源代码；

获取生成的待识别网页以及被比网页的外观图片。

9.根据权利要求6所述的装置，其特征在于，所述比较模块还用于：从待识别网页的外观图片和被比网页的外观图片中的相同位置处各截取图块，使用图像对比的方法确定截取的两个图块之间的相似度，以该相似度作为待识别网页的外观图片和被比网页的外观图片之间的相似度。

10.根据权利要求9所述的装置，其特征在于，所述比较模块还用于：