CN104462152B

CN104462152B - 一种网页的识别方法及装置

Info

Publication number: CN104462152B
Application number: CN201310443265.4A
Authority: CN
Inventors: 刘杰; 陆莉; 陈旺林; 陈秋滢; 段文文
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2013-09-23
Filing date: 2013-09-23
Publication date: 2019-04-09
Anticipated expiration: 2033-09-23
Also published as: WO2015039553A1; CN104462152A

Abstract

本发明适用于互联网技术领域，提供了一种网页的识别方法及装置，包括：抓取待识别网页的URL和网页内容；获取所述待识别网页的URL与目标网页的URL的第一相似度；获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度；根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页，所述获取到的相似度包括所述第一相似度和所述第二相似度。本发明同时结合网页URL以及网页内容进行分析，基于分析结果来判断待识别网页与目标网页的相似度，有效地提高了对钓鱼网页识别结果的准确率。

Description

一种网页的识别方法及装置

技术领域

本发明属于互联网技术领域，尤其涉及一种网页的识别方法及装置。

背景技术

钓鱼网站为一种网络欺诈行为，其仿冒真实网站(例如银行网站、安全类网站、电子商务网站等)的统一资源定位符(Uniform Resource Locator，URL)以及页面内容，以此来骗取用户的私人信息，转移用户的财产和其他虚拟财物，从而造成用户的个人信息泄露和财产损失，因此，市面上的网络安全产品多具备钓鱼网站识别功能，通过识别、屏蔽钓鱼网站，为用户的互联网浏览行为提供安全保障。

目前的网络安全产品仅仅依赖于用户举报的方式，将用户举报的网站标识成钓鱼网站，无法确保钓鱼网站识别结果的准确性。

发明内容

本发明实施例的目的在于提供一种网页的识别方法，旨在确保钓鱼网站识别结果的准确性。

本发明实施例是这样实现的，一种网页的识别方法，包括：

抓取待识别网页的统一资源定位符URL和网页内容；

获取所述待识别网页的URL与目标网页的URL的第一相似度；

获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度；

根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页，所述获取到的相似度包括所述第一相似度和所述第二相似度。

本发明实施例的另一目的在于提供一种网页的识别装置，包括：

抓取单元，用于抓取待识别网页的统一资源定位符URL和网页内容；

第一获取单元，用于获取所述待识别网页的URL与目标网页的URL的第一相似度；

第二获取单元，用于获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度；

识别单元，用于根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页，所述获取到的相似度包括所述第一相似度和所述第二相似度。

本发明实施例同时结合网页URL以及网页内容进行分析，基于分析结果来判断待识别网页与目标网页的相似度，有效地提高了对钓鱼网页识别结果的准确率。

附图说明

图1是本发明实施例提供的网页的识别方法的实现流程图；

图2是本发明实施例提供的网页的识别方法S103的具体实现流程图；

图3是本发明实施例提供的网页的识别方法第三相似度匹配过程的具体实现流程图；

图4是本发明实施例提供的网页的识别方法S104的具体实现流程图；

图5是本发明实施例提供的网页的识别装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例同时结合网页统一资源定位符(Uniform Resource Locator，URL)以及网页内容进行分析，基于分析结果来判断待识别网页与目标网页的相似度，有效地提高了对钓鱼网页识别结果的准确率，提升了对网络安全的保障。

需要说明的是，本发明实施例均以钓鱼网页的识别过程为例，对网页的识别方法及装置进行说明，而本发明实施例提供的钓鱼网页的识别方法及装置可应用的场景不仅仅局限于对钓鱼网页的识别，任何需要对网页之间的相似程度进行判断的应用场景均可适用本发明实施例提供的钓鱼网页的识别方法及装置，在后续实施例中不再一一举例说明。

图1示出了本发明实施例提供的网页的识别方法的实现流程，详述如下：

在S101中，抓取待识别网页的URL和网页内容。

在本实施例中，S101之前，可以通过网络爬虫系统，从海量的互联网网页中抓取待识别网页，并一一对每个待识别网页开展识别其是否为钓鱼网页的步骤。对于已经通过识别的网页，可以记录其URL，在后续过程中若抓取到该网页，则不再进行分析。

网络爬虫系统在抓取待识别网页的过程中，首先获取到待识别网页的URL，并根据该URL向该待识别网页的主机地址发送请求，从而获取到该待识别网页的超文本标记语言(Hypertext Markup Language，HTML)，从而通过解析该待识别网页的HTML，获取到该待识别网页的网页内容。

作为本发明的一个实施例，在待识别网页的抓取过程中，可以对抓取到的异常网页进行过滤，例如，过滤掉HTML无法正常解析，或者网页内容无法正常显示的网页，从而提高后续识别过程的效率。

在S102中，获取所述待识别网页的URL与目标网页的URL的第一相似度。

在本实施例中，目标网页由系统预先确定，在多数情况下，目标网页可以为网上银行相关页面、购物网页相关页面或者第三方社交网站用户个人信息相关页面，等等，这些页面由于涉及到用户私人信息、财产信息的展示或者输入，因此，被钓鱼网页所防冒的可能性很高。

在本实施例中，目标网页的URL和网页内容均是预存储在系统之中的。由于钓鱼页面通常会对目标网站的URL进行依照，因此，在S102中，对于获取到的待识别网页，首先将其的URL与预存储的目标网页的URL进行匹配，判断这两个URL的相似程度，并计算出对应的第一相似度。

具体地，在S102的匹配过程中，可以考虑两个URL之间相同连续字符串的长度占目标网站的URL总长度的比例，或者可以考虑两个URL之间主机地址的相似程度，由此计算出待识别网页的URL与目标网页的URL的第一相似度。具体的第一相似度计算方法在此不用于限定本发明。

在S103中，获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。

由于钓鱼网页除了会依照目标网页的URL之外，在网页内容上，大多也会仿照目标网页的网页内容，以混淆用户的视觉，因此，在本实施例中，除了对待识别网页的URL与目标网页的URL进行识别，还需要将待识别网页的网页见容与目标网页的网页内容相匹配，判断这两个网页的网页内容的相似程度，并计算出对应的第二相似度。

作为本发明的一个实施例，在S103中，可以对待识别网页与目标网页的网页内容中的文本信息进行匹配。如图2所示，S103具体为：

在S201中，分析所述待识别网页的HTML，提取所述待识别网页中的文本信息。

首先，对S101中获取到的待识别网页的HTML进行解析，定位HTML中的标签，再依次读取每个标签中的text属性，从而获取到text属性中的文本内容，这些text属性中的文本内容即为待识别网页中的文本信息。

在S202中，对所述文本信息进行关键词提取。

对于获取到的文本信息，进行分词处理，确定出待识别网页中的文本信息的若干关键词。对于关键词的确定原则，可以遵循每个词出现的频率的高低，将出现频率最高的若干个词确定为关键词，也可以判断得到的分词中是否包含了预设的关键词，例如，将“支付”、“密码”、“网上银行”等钓鱼网站通常会仿照的网站中常出现的词确定为预设的关键词，当判断出文本信息中的分词包含这些预设的关键词时，则将这些分词确定为待识别网页的文本信息的关键词。

在S203中，将提取出的关键词与所述目标网页的预设关键词进行匹配，获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。

在本实施例中，对于目标网页，也根据S201与S202的相同方式，预先提取出若干关键词并存储。在S203中，将待识别网页中文本信息的关键词与目标网页中文本信息的关键词进行匹配，由此计算出待识别网页的网页内容与目标网页的网页内容的第二相似度。

具体地，整个匹配过程可以考虑这两个网页文本信息的关键词的重叠率，例如，待识别网页中提取出的十个关键词中，有八个均与目标网页的文本信息的关键词相同，则此时这两个网页文本信息的关键词的重叠率相对较高。而进一步地，还可以考虑两个网页中重叠的关键词在各自文本信息中的出现频率是否也匹配，并根据匹配程度的高低确定相应的第二相似度。具体的第二相似度计算方法在此不用于限定本发明。

需要说明的是，在本实施例中，S102和S103的执行无需具备一定的先后顺序，且S102和S103可以并行执行，提高钓鱼网页的识别效率。

由于一些钓鱼网页为了规避安全检测，会特意在网页内容中增加不同于目标网页的文本信息，这部分文本信息通常会设置为与网页背景色相同，因此对于用户来说，这部分文本信息是不可见的，用户仍有很大可能会将该钓鱼网页误认为是目标网页，因此，作为本发明的一个实施例，在S201提取所述待识别网页中的文本信息之后，S202对所述文本信息进行关键词提取之前，所述方法还包括：

S204，过滤所述文本信息中的不可见部分。

通过解析待识别网页的HTML，搜寻出其中与其文字背景色相同的文本信息，将这部分文本信息确定为不可见的文本信息，并过滤掉这部分文本信息，之后再进行关键词的提取和匹配，由此能够提高第二相似度的计算精度，提高钓鱼网页识别的准确性。

在S104中，根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页，所述获取到的相似度包括所述第一相似度和所述第二相似度。

在本实施例确定待识别网页是否为目标网页的钓鱼网页的过程中，必须同时考虑获取到的第一相似度和第二相似度。例如，可以通过求和、加权平均等预设算法对第一相似度及第二相似度进行计算，当计算结果高于某一预设阈值时，则确定待识别网页为目标网页的钓鱼网页，而当计算结果低于某一预设阈值时，则确定待识别网页并非目标网页的钓鱼网页。

上述实施例同时结合网页URL以及网页内容进行分析，基于分析结果来判断待识别网页与目标网页的相似度，有效地提高了对钓鱼网页识别结果的准确率。

对于网页来说，其网页内容的组成除了文本信息之外，还包括了图片信息及网页框架信息，而钓鱼网页通常会直接套用目标网页的网页框架，仅仅修改后台的网页代码，以达到欺骗用户的目的。因此，作为本发明的一个实施例，为了进一步提高对钓鱼网页的识别准确率，还可以判断待识别网页的网页内容的截图与目标网页的网页内容的截图的匹配程度，并将该匹配结果作为钓鱼网页的识别依据之一。具体的匹配过程如图3所示：

在S301中，获取所述待识别网页的网页内容的截图。

其中，待识别网页的网页内容的截图，为在浏览器的网页显示区域中能够显示出的所有网页内容。

在S302中，将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配，获取第三相似度。

在本实施例中，对于目标网页的网页内容，也预先进行了截图处理，并将生成的截图图片预先进行存储。在S302中，将获取到的待识别网页的网页内容的截图与预先存储的目标网页的网页内容的截图进行匹配，根据匹配结果计算出待识别网页与目标网页的第三相似度。

具体的匹配过程可以通过对每张截图计算特征值，并比对特征值的接近程度来完成。例如，先对待识别网页的截图均进行灰度处理，获取到对应的灰度图，以此确定出该截图的每个像素点上的灰度值，此后，比对目标网页相应像素点上的灰度值，确定出灰度值相同、或者灰度值差值在一定差值范围内的像素点的多少，根据这部分像素点的数量来计算出待识别网页与目标网页的第三相似度。具体的第三相似度计算方法在此不用于限定本发明。

在本发明实施例中，图3所示的匹配过程可以与第一相似度和第二相似度的计算过程并行进行，在该情况下，在S104的执行过程中，所述获取到的相似度还包括所述第三相似度，相应的算法同于前述对S104的实施例阐述，在此不再赘述。

作为本发明的另一实施例，考虑到图片处理过程所需要耗费的系统资源较多，所需的处理时间也较长，因此，为了进一步提高钓鱼网页识别的效率，可以根据第一相似度与第二相似度的计算结果决定是否对第三相似度进行计算，如图4所示，S104具体为：

在S401中，根据所述第一相似度和所述第二相似度计算第一参数。

在本实施例中，第一参数的计算方法可以依照前述实施例对S104的阐述，在此不再赘述。

在S402中，判断所述第一参数是否位于预设参数区间内。

在S403中，当所述第一参数大于所述第一预设阈值且小于所述第二预设阈值时，获取所述待识别网页的网页内容的截图；将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配，获取第三相似度；根据所述第三相似度识别所述待识别网页是否为所述目标网页的相似网页。

在S404中，当所述第一参数小于所述第一预设阈值或者大于所述第二预设阈值时，根据所述第一参数识别所述待识别网页是否为所述目标网页的相似网页。

在本实施例中，若计算出的第一参数越大表示待识别网页和目标网页越相似，则当S401计算出的第一参数大于某一预设阈值时，即可以确定待识别网页为目标网页的钓鱼网页，当计算出的第一参数小于另一预设阈值时，即可以确定待识别网页并非目标网页的钓鱼网页；若计算出的第一参数越小表示待识别网页和目标网页越相似，则当S401计算出的第一参数小于某一预设阈值时，即可以确定待识别网页为目标网页的钓鱼网页，而当计算出的第一参数大于另一预设阈值时，即可以确定待识别网页并非目标网页的钓鱼网页。

因此，在本实施例中，设置预设参数区间，当第一参数不位于该预设参数区间内时，表明仅依据第一相似度和第二相似度，即可以明确地识别出目标网页是否为钓鱼网页，此时，无需在参考第三相似度的计算结果，由此提高了网页识别的效率；而当第一参数位于该预设参数区间内时，表明第一参数的计算结果模棱两可，无法仅依据第一相似度和第二相似度来确定待识别网页是否为目标网页的钓鱼网页，此时，则再执行图3所示步骤，将第三相似度也作为判断依据，以提高识别结果的准确性。

图5示出了本发明实施例提供的网页的识别装置的结构框图，该装置用于运行本发明图1至图4实施例所述的网页的识别方法。为了便于说明，仅示出了与本实施例相关的部分。

参照图5，该装置包括：

抓取单元51，抓取待识别网页的URL和网页内容。

第一获取单元52，获取所述待识别网页的URL与目标网页的URL的第一相似度。

第二获取单元53，获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。

识别单元54，根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页，所述获取到的相似度包括所述第一相似度和所述第二相似度。

可选地，所述第二获取单元53包括：

分析子单元，分析所述待识别网页的HTML，提取所述待识别网页中的文本信息。

提取子单元，对所述文本信息进行关键词提取。

匹配子单元，将提取出的关键词与所述目标网页的预设关键词进行匹配，获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。

可选地，所述第二获取单元53还包括：

过滤子单元，用于过滤所述文本信息中的不可见部分。

可选地，所述装置还包括：

第三获取单元，获取所述待识别网页的网页内容的截图。

第四获取单元，将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配，获取第三相似度。

则所述获取到的相似度还包括所述第三相似度。

可选地，所述识别单元54包括：

计算子单元，根据所述第一相似度和所述第二相似度计算第一参数。

判断子单元，判断所述第一参数是否大于第一预设阈值且小于第二预设阈值。

第一识别子单元，当所述第一参数大于所述第一预设阈值且小于所述第二预设阈值时，获取所述待识别网页的网页内容的截图；将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配，获取第三相似度；根据所述第三相似度识别所述待识别网页是否为所述目标网页的相似网页。

第二识别子单元，当所述第一参数小于所述第一预设阈值或者大于所述第二预设阈值时，根据所述第一参数识别所述待识别网页是否为所述目标网页的相似网页。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页的识别方法，其特征在于，包括：

抓取待识别网页的统一资源定位符URL和网页内容；

获取所述待识别网页的URL与目标网页的URL的第一相似度；

根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页，所述获取到的相似度包括所述第一相似度和所述第二相似度；

其中，所述根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页包括：

根据所述第一相似度和所述第二相似度计算第一参数；

判断所述第一参数是否位于预设参数区间内；

当所述第一参数位于所述预设参数区间内时，获取所述待识别网页的网页内容的截图；将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配，获取第三相似度；根据所述第三相似度识别所述待识别网页是否为所述目标网页的相似网页。

2.如权利要求1所述的方法，其特征在于，所述获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度包括：

分析所述待识别网页的超文本标记语言HTML，提取所述待识别网页中的文本信息；

对所述文本信息进行关键词提取；

将提取出的关键词与所述目标网页的预设关键词进行匹配，获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。

3.如权利要求2所述的方法，其特征在于，在所述提取所述待识别网页中的文本信息之后，所述对所述文本信息进行关键词提取之前，所述方法还包括：

过滤所述文本信息中的不可见部分。

4.如权利要求1－3任一项所述的方法，其特征在于，在所述抓取待识别网页的URL和网页内容之后，所述根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页之前，所述方法还包括：

获取所述待识别网页的网页内容的截图；

将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配，获取第三相似度；

则所述获取到的相似度还包括所述第三相似度。

5.如权利要求1－3任一项所述的方法，其特征在于，在所述判断所述第一参数是否位于预设参数区间内之后，所述方法还包括：

当所述第一参数不位于所述预设参数区间内时，根据所述第一参数识别所述待识别网页是否为所述目标网页的相似网页。

6.一种网页的识别装置，其特征在于，包括：

识别单元，用于根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页，所述获取到的相似度包括所述第一相似度和所述第二相似度；

其中，所述识别单元包括：

计算子单元，用于根据所述第一相似度和所述第二相似度计算第一参数；

判断子单元，用于判断所述第一参数是否位于预设参数区间内；

第一识别子单元，用于当所述第一参数位于所述预设参数区间内时，获取所述待识别网页的网页内容的截图；将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配，获取第三相似度；根据所述第三相似度识别所述待识别网页是否为所述目标网页的相似网页。

7.如权利要求6所述的装置，其特征在于，所述第二获取单元包括：

分析子单元，用于分析所述待识别网页的超文本标记语言HTML，提取所述待识别网页中的文本信息；

提取子单元，用于对所述文本信息进行关键词提取；

匹配子单元，用于将提取出的关键词与所述目标网页的预设关键词进行匹配，获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。

8.如权利要求7所述的装置，其特征在于，所述第二获取单元还包括：

过滤子单元，用于过滤所述文本信息中的不可见部分。

9.如权利要求6－8任一项所述的装置，其特征在于，所述装置还包括：

第三获取单元，用于获取所述待识别网页的网页内容的截图；

第四获取单元，用于将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配，获取第三相似度；

则所述获取到的相似度还包括所述第三相似度。

10.如权利要求6－8任一项所述的装置，其特征在于，所述识别单元还包括：

第二识别子单元，用于当所述第一参数不位于所述预设参数区间内时，根据所述第一参数识别所述待识别网页是否为所述目标网页的相似网页。