CN108234474A

CN108234474A - 一种网站识别的方法和装置

Info

Publication number: CN108234474A
Application number: CN201711466049.6A
Authority: CN
Inventors: 周游; 牛成; 李晓波
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-06-29

Abstract

本发明实施例提供了一种网站识别的方法和装置，所述方法包括：在服务器侧获取被保护站点的第一特征信息；其中，所述第一特征信息至少包括第一路径集合，以及站点图标和/或关键文本信息；当检测到客户端侧针对一个或多个未知站点的访问触发操作时，获取一个或多个未知站点的第二特征信息；其中，所述第二特征信息至少包括第二路径集合，以及主页截图和/或主页文本；将所述第一特征信息与所述第二特征信息进行匹配，并根据匹配的结果判断所述一个或多个未知站点是否为针对所述被保护站点的钓鱼网站，实现了对钓鱼网站的准确识别，且采用多个维度的特征信息进行钓鱼网站识别，避免了单维度识别所引起的误判，提升了网页访问的安全性。

Description

一种网站识别的方法和装置

技术领域

本发明涉及网络安全技术领域，特别是涉及一种网站识别的方法和装置。

背景技术

随着互联网技术的发展，用户可以通过浏览器进行银行账户查询、网上购物、电子商务等操作，但用户在上网冲浪浏览网页的同时，也经常会遭遇到如钓鱼网站的恶意侵袭。

钓鱼网站通常是指伪装成银行或电子商务等网站、用以窃取用户提交的私人信息的网站，不法分子利用各种手段仿冒真实网站的统一资源定位符(UniformResourceLocator，简称URL)及页面内容，诱导用户访问仿冒的页面内容，以此来骗取用户输入的银行帐号、密码等私人信息。

在现有技术中，通常可以采用对网站的URL进行识别，进而判断网站是否为钓鱼网站，而这种方式对钓鱼网站的识别不够准确，误判率较高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网站识别的方法和相应的一种网站识别的装置。

第一方面，本发明实施例提供了一种网站识别的方法，所述方法包括：

在服务器侧获取被保护站点的第一特征信息；其中，所述第一特征信息至少包括第一路径集合，以及站点图标和/或关键文本信息；

当检测到客户端侧针对一个或多个未知站点的访问触发操作时，获取一个或多个未知站点的第二特征信息；其中，所述第二特征信息至少包括第二路径集合，以及主页截图和/或主页文本；

将所述第一特征信息与所述第二特征信息进行匹配，并根据匹配的结果判断所述一个或多个未知站点是否为针对所述被保护站点的钓鱼网站。

可选地，所述将所述第一特征信息与所述第二特征信息进行匹配，并根据匹配的结果判断所述一个或多个未知站点是否为针对所述被保护站点的钓鱼网站的步骤包括：

将所述第一路径集合与所述第二路径集合进行匹配，得到所述第一路径集合与所述第二路径集合的第一匹配度；

当所述第一匹配度大于第一阈值时，计算所述站点图标与所述主页截图的第二匹配度；

当所述第二匹配度大于第二阈值时，则判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站。

当所述第一匹配度大于第三阈值时，计算所述关键文本信息与所述主页文本的第三匹配度；

当所述第三匹配度大于第四阈值时，则判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站。

可选地，还包括：

当判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站时，通过所述客户端侧对所述一个或多个未知站点进行拦截。

可选地，当所述第二特征信息包括主页截图时，所述当检测到客户端侧针对一个或多个未知站点的访问触发操作时，获取一个或多个未知站点的第二特征信息的步骤包括：

获取所述一个或多个未知站点中主页的URL；

打开所述URL对应的网页；

对所述URL对应的网页进行截图，得到主页截图。

可选地，当所述第一特征信息包括站点图标时，在所述当所述第一匹配度大于第一阈值时，计算所述站点图标与所述主页截图的第二匹配度的步骤之前，还包括：

采用卷积神经网络对所述站点图标训练学习，以建立图标识别模型；

所述当所述第一匹配度大于第一阈值时，计算所述站点图标与所述主页截图的第二匹配度的步骤包括：

采用所述图标识别模型对所述主页截图进行识别，得到所述站点图标与所述主页截图的第二匹配度。

可选地，在所述获取一个或多个未知站点的第二特征信息的步骤之前，还包括：

接收客户端侧发送的一个或多个未知站点的域名；

检测所述域名是否在预置的站点名单中；其中，所述站点名单包括白名单和/或黑名单；

当检测到所述域名不在所述站点名单中时，则执行所述获取一个或多个未知站点的第二特征信息的步骤。

可选地，还包括：

当判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站时，将所述一个或多个未知站点加入所述黑名单。

可选地，还包括：

当判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站时，生成针对所述一个或多个未知站点的通知消息，并基于所述通知消息对所述被保护站点进行告警。

可选地，还包括：

当所述第二匹配度小于第二阈值或所述第三匹配度小于第四阈值时，进入人工审核流程。

第二方面，本发明实施例提供了一种网站识别的装置，所述装置包括：

第一特征信息获取模块，适于在服务器侧获取被保护站点的第一特征信息；其中，所述第一特征信息至少包括第一路径集合，以及站点图标和/或关键文本信息；

第二特征信息获取模块，适于当检测到客户端侧针对一个或多个未知站点的访问触发操作时，获取一个或多个未知站点的第二特征信息；其中，所述第二特征信息至少包括第二路径集合，以及主页截图和/或主页文本；

钓鱼网站判断模块，适于将所述第一特征信息与所述第二特征信息进行匹配，并根据匹配的结果判断所述一个或多个未知站点是否为针对所述被保护站点的钓鱼网站。

可选地，所述钓鱼网站判断模块包括：

第一匹配度得到子模块，适于将所述第一路径集合与所述第二路径集合进行匹配，得到所述第一路径集合与所述第二路径集合的第一匹配度；

第二匹配度计算子模块，适于当所述第一匹配度大于第一阈值时，计算所述站点图标与所述主页截图的第二匹配度；

第一钓鱼网站判定子模块，适于当所述第二匹配度大于第二阈值时，则判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站。

可选地，所述钓鱼网站判断模块包括：

第三匹配度计算子模块，适于当所述第一匹配度大于第三阈值时，计算所述关键文本信息与所述主页文本的第三匹配度；

第二钓鱼网站判定子模块，适于当所述第三匹配度大于第四阈值时，则判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站。

可选地，还包括：

站点拦截模块，适于当判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站时，通过所述客户端侧对所述一个或多个未知站点进行拦截。

可选地，当所述第二特征信息包括主页截图时，所述第二特征信息获取模块包括：

URL获取子模块，适于获取所述一个或多个未知站点中主页的URL；

网页打开子模块，适于打开所述URL对应的网页；

主页截图得到子模块，适于对所述URL对应的网页进行截图，得到主页截图。

可选地，当所述第一特征信息包括站点图标时，所述装置还包括：

模型建立模块，适于采用卷积神经网络对所述站点图标训练学习，以建立图标识别模型；

所述第二匹配度计算子模块包括：

模型识别单元，适于采用所述图标识别模型对所述主页截图进行识别，得到所述站点图标与所述主页截图的第二匹配度。

可选地，还包括：

域名获取模块，适于接收客户端侧发送的一个或多个未知站点的域名；

域名检测模块，适于检测所述域名是否在预置的站点名单中；其中，所述站点名单包括白名单和/或黑名单；当检测到所述域名不在所述站点名单中时，调用所述第二特征信息获取模块。

可选地，还包括：

黑名单加入模块，适于当判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站时，将所述一个或多个未知站点加入所述黑名单。

可选地，还包括：

消息发送模块，适于当判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站时，生成针对所述一个或多个未知站点的通知消息，并基于所述通知消息对所述被保护站点进行告警。

可选地，还包括：

审核模块，适于当所述第二匹配度小于第二阈值或所述第三匹配度小于第四阈值时，进入人工审核流程。

第三方面，本发明实施例提供了一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

在本发明实施例中，通过在服务器侧获取被保护站点的第一特征信息，第一特征信息至少可以包括第一路径集合，以及站点图标和/或关键文本信息，并在检测到客户端侧针对一个或多个未知站点的访问触发操作时，获取一个或多个未知站点的第二特征信息，第二特征信息至少可以包括所述第二路径集合，以及主页截图和/或主页文本，然后将第一特征信息与第二特征信息进行匹配，根据匹配的结果判断未知站点是否为针对被保护站点的钓鱼网站，实现了对钓鱼网站的准确识别，且采用多个维度的特征信息进行钓鱼网站识别，避免了单维度识别所引起的误判，提升了网页访问的安全性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种网站识别的方法实施例一的步骤流程图；

图2示出了根据本发明一个实施例的一种网站识别的方法实施例二的步骤流程图；

图3示出了根据本发明一个实施例的一种网站识别的方法实施例三的步骤流程图；

图4示出了根据本发明一个实施例的一种网站识别的装置实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参考图1，示出了根据本发明一个实施例的一种网站识别的方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，在服务器侧获取被保护站点的第一特征信息；其中，所述第一特征信息至少包括第一路径集合，以及站点图标和/或关键文本信息；

作为一种示例，被保护站点可以为进行信息安全等级保护的站点，如银行类、证券类站点。

在具体实现中，钓鱼网站通常会针对被保护站点的URL进行仿冒，URL可以包括域名和路径，如URL为“http://www.A.com/B/1.html”，“A.com”为URL中的域名，“B/1.html”为URL中的路径。

针对每个被保护站点，其域名是唯一，钓鱼网站可以通过采用与被保护站点的URL中相同的路径来实现URL的仿冒，所以本发明实施例可以采集被保护站点的URL，然后从URL中确定被保护站点的域名，获取域名下所发布的网页的路径，得到第一路径集合，以作为恶意网站识别的特征信息。

由于钓鱼网站还可以对被保护站点的页面内容进行仿冒，所以本发明实施例可以依据被保护站点的URL，通过网络爬虫(web crawler)采集被保护站点的页面内容，以作为恶意网站识别的特征信息。

在一种实施方式中，本发明实施例可以获取被保护站点的主页的URL，依据URL采集主页的HTML(HyperText Markup Language，超级文本标记语言)文本，然后从HTML文本中查找站点图标的存储路径，从存储路径中获取被保护站点的站点图标。

在另一种实施方式中，本发明实施例还可以从HTML文本中查找目标标签，如title、keyword等标签，然后获取目标标签对应的属性值，将该属性值作为关键文本信息。

需要说明的是，在采集被保护站点的HTML文本后，还可以从HTML文本中截取存储关键信息的网页片段，以作为恶意网站识别的特征信息，本发明对此不作限制。

步骤102，当检测到客户端侧针对一个或多个未知站点的访问触发操作时，获取一个或多个未知站点的第二特征信息；其中，所述第二特征信息至少包括第二路径集合，以及主页截图和/或主页文本；

在本发明实施例中，由于钓鱼网站可以通过采用与被保护站点的URL中相同的路径来实现URL的仿冒，所以本发明实施例在检测到客户端侧针对一个或多个未知站点的访问触发操作时，如检测到客户端侧通过浏览器访问未知站点，则可以通过获取待访问的未知站点的URL，然后从URL中确定未知站点的域名，获取域名下所发布的网页的路径，得到第二路径集合，以作为未知站点的特征信息。

由于钓鱼网站还可以对被保护站点的页面内容进行仿冒，所以本发明实施例可以依据未知站点的URL，通过网络爬虫(web crawler)采集未知站点的页面内容，以作为未知站点的特征信息。

在一种实施方式中，本发明实施例可以获取未知站点的主页的URL，依据URL进行未知站点的主页，然后对主页进行截图操作，得到主页截图。

在另一种实施方式中，本发明实施例可以获取被保护站点的主页的URL，依据URL采集主页的HTML文本，在从HTML文本中查找目标标签，如title、keyword等标签，然后获取目标标签对应的属性值，将该属性值作为主页文本。

在本发明一种优选实施例中，当第二特征信息包括主页截图时，步骤102可以包括如下子步骤：

获取所述一个或多个未知站点中主页的URL；打开所述URL对应的网页；对所述URL对应的网页进行截图，得到主页截图。

具体的，本发明实施例可以获取一个或多个未知站点中主页的URL，调用浏览器打开URL对应的网页，然后生成截图指令，对该网页进行截图操作，以获得针对未知站点中主页的主页截图。

步骤103，将所述第一特征信息与所述第二特征信息进行匹配，并根据匹配的结果判断所述一个或多个未知站点是否为针对所述被保护站点的钓鱼网站。

在获得特征信息后，本发明实施例可以先将第一路径集合与第二路径集合进行匹配，当匹配不成功时，则可以直接判定未知站点不为钓鱼网站；

当第一路径集合与第二路径集合匹配成功时，则可以进一步判断站点图标与主页截图、关键文本信息与主页文本是否匹配，当两者中任一个匹配成功时，则可以判定未知站点为钓鱼网站。

参考图2，示出了根据本发明一个实施例的一种网站识别的方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201，在服务器侧获取被保护站点的第一特征信息；

作为一种示例，第一特征信息至少可以包括第一路径集合，以及站点图标和/或关键文本信息。

步骤202，当检测到客户端侧针对一个或多个未知站点的访问触发操作时，获取一个或多个未知站点的第二特征信息；

作为一种示例，第二特征信息至少可以包括第二路径集合，以及主页截图和/或主页文本。

步骤203，将所述第一特征信息与所述第二特征信息进行匹配，并根据匹配的结果判断所述一个或多个未知站点是否为针对所述被保护站点的钓鱼网站；

在一种实施方式中，步骤203可以包括如下子步骤：

子步骤11，将所述第一路径集合与所述第二路径集合进行匹配，得到所述第一路径集合与所述第二路径集合的第一匹配度；

在具体实现中，可以先将第一路径集合与所述第二路径集合进行匹配，计算第一路径集合与第二路径集合的第一匹配度，如查找第一路径集合与第二路径集合中的重复路径，计算重复路径占第二路径集合的概率，将概率作为第一匹配度。

子步骤12，当所述第一匹配度大于第一阈值时，计算所述站点图标与所述主页截图的第二匹配度；

当检测到第一匹配度大于第一阈值时，即未知站点与被保护站点存在大量的重复路径，第一路径集合与第二路径集合匹配成功，则可以进一步计算站点图标与主页截图的第二匹配度。

在具体实现中，在子步骤12之前，所述方法还可以包括如下步骤：

在获得被保护站点的站点图标后，本发明实施例可以采用卷积神经网络对站点图标进行训练学习，如采用Fast R-CNN(ConvolutionalNeuralNetwork，卷积神经网络)对站点图标，从而建立图标识别模型。其中，卷积神经网络的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。

此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

卷积神经网络主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于卷积神经网络的特征检测层通过训练数据进行学习，所以在使用卷积神经网络时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

在建立图标识别模型后，子步骤12可以包括如下子步骤：

具体的，可以将未知站点的主页截图输入图标识别模型中，采用图标识别模型对主页截图进行识别，得到站点图标与主页截图的第二匹配度。

子步骤13，当所述第二匹配度大于第二阈值时，则判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站。

当检测到第二匹配度大于第二阈值时，即站点图标与主页截图匹配成功，则可以判定未知站点为针对被保护站点的钓鱼网站。

需要说明的是，本发明的网站识别的方法可以是在服务器侧执行的，所建立的图标识别模型可以存储在服务器侧，但本发明并不局限于此，所建立的图标识别模型也可存储在本地客户端，即后台服务器将建立的图标识别模型同步给本地客户端，并定时对本地客户端的图标识别模型进行更新，由本地客户端执行本发明的网站识别的方法，本发明的网站识别的方法优选地在服务器侧执行。

在一种优选实施例中，图标识别模型可以包括图片规则库，图片规则库不仅包含第一图片、第二图片(如以二进制数据的形式存储在数据库中)，还可包含已知钓鱼网页的URL以及对网页的处理规则等其他信息。

其中，从已知钓鱼网站的网页的截图获取的第一图片是第二图片的来源，可用于判断第二图片是否有效即第二图片是否包含足够的钓鱼站点的网页的特征，在第二图片不足以用于判断某网页是否为钓鱼站点的网页的情况下，可从保存的第一图片中重新截取第二图片。

此外，可通过判断未知站点的网页的URL是否为图片规则库中的已知钓鱼站点的网页的URL来判断该网页是否为钓鱼站点的网页。对网页的处理规则能够告知用户访问的网页是否为恶意网页，并在判定某网页为钓鱼站点的网页时向用户展示所访问的网页的URL提醒用户，例如通过弹出窗口以该网页的URL为XXX，其是危险网页的形式来提醒用户，并将URL发送至URL处理服务器。此外还可向用户展示网页的HOST(域名)，本发明对比不做限制，本领域技术人员可以根据实际需要进行设置。

本发明实施例还提供有HOST\URL处理服务器：可以存储通过本发明所提供的方法所发现的钓鱼网页的HOST和URL；也可以接收恶意网址云引擎的反馈；还可以调度全网支持服务器集群的抓取。

在另一种实施方式中，步骤203还可以包括如下子步骤：

子步骤21，将所述第一路径集合与所述第二路径集合进行匹配，得到所述第一路径集合与所述第二路径集合的第一匹配度；

在本发明实施例中，可以先将第一路径集合与所述第二路径集合进行匹配，计算第一路径集合与第二路径集合的第一匹配度，如查找第一路径集合与第二路径集合中的重复路径，计算重复路径占第二路径集合的概率，将概率作为第一匹配度。

子步骤22，当所述第一匹配度大于第三阈值时，计算所述关键文本信息与所述主页文本的第三匹配度；

当检测到第一匹配度大于第一阈值时，即第一路径集合与第二路径集合匹配成功，则可以进一步计算关键文本信息与主页文本的第三匹配度。

例如，将未知站点的keyword与被保护站点的keyword进行匹配，确定相同的keyword，然后计算相同的keyword在未知站点的keyword中的占比，将该占比作为第三匹配度。

子步骤23，当所述第三匹配度大于第四阈值时，则判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站。

当检测到第三匹配度大于第四阈值时，即关键文本信息与主页文本匹配成功，则可以判定未知站点为针对被保护站点的钓鱼网站。

在一种优选实施例中，关键文本信息、主页文本还可以为从网页图片中获取的文本，服务器侧可以先从被保护站点获取多个样本图片，对多个样本图片进行分类，得到每一分类下的至少一个样本图片，对于每一分类，截取该分类下各个样本图片中的文字区域块，然后从文字区域块中提取出文字作为该分类的训练样本集，并基于训练样本集进行训练，得到该分类对应的文字识别库。

当检测到客户端侧针对一个或多个未知站点的访问触发操作时，可以通过浏览器打开一个或多个未知站点的网页，对浏览器打开的网页进行截图，获取网页图片，然后查找网页图片中的文字区域块，基于各个分类对应的文字识别库，将网页图片中的文字区域块进行光学字符识别处理，得到网页图片中的文字。

在获得网页图片中的文字后，服务器侧可以将网页图片中的文字作为匹配输入项与预设规则进行匹配，并获取网页所属站点在预设时间段内的访问量，将访问量作为匹配输入项与预设规则进行匹配，判断网页图片中的文字是否包含关键字，以及判断访问量是否小于预设值，若网页图片中的文字包含关键字且访问量小于预设值，则检测网页为可疑钓鱼网页。

本实施例中，通过查找网页图片中的文字区域块，可以缩小后续识别文字范围，提高了识别准确率，使得文字识别质量不仅仅依赖于光学字符识别的结果，基于已有网页建立文字识别库，并根据该文字识别库对网页图片中的文字进行识别。

在本发明一种优选实施例中，本发明实施例还可以包括如下步骤：

具体的，当第二匹配度小于第二阈值时，即站点图标与主页截图匹配不成功，则可以进入人工审核流程，通过人工判断是否为钓鱼网站。

当第三匹配度小于第四阈值时，即关键文本信息与主页文本匹配不成功，则可以进入人工审核流程，通过人工判断是否为钓鱼网站。

步骤204，当判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站时，通过所述客户端侧对所述一个或多个未知站点进行拦截。

在本发明实施例中，当判定一个或多个未知站点为针对被保护站点的钓鱼网站时，由服务器侧生成拦截指令，将该拦截指令发送至客户端侧，由客户端侧对一个或多个未知站点进行拦截。

在本发明一种优选实施例中，所述方法还可以包括如下步骤：

具体的，当判定一个或多个未知站点为针对被保护站点的钓鱼网站时，可以依据未知站点的URL等信息，生成针对未知站点的通知消息，然后将通知消息发送至被保护站点所属单位，以对被保护站点进行告警。

在本发明实施例中，通过在计算被保护站点与未知站点中路径集合的第一匹配度的基础上，结合站点图标与主页截图的第二匹配度、关键文本信息与主页文本的第三匹配度，实现对未知站点的多维度识别，提升了钓鱼网站实现的准确性。

而且，在识别未知站点为针对被保护站点的钓鱼网站时，可以对钓鱼网站进行拦截，也可以将生成针对未知站点的通知消息，然后将通知消息发送至被保护站点所属单位，实现了对钓鱼网站的及时处理，避免了钓鱼网站对私人信息的获取，保证了网页访问的安全性。

参考图3，示出了根据本发明一个实施例的一种网站识别的方法实施例三的步骤流程图，具体可以包括如下步骤：

步骤301，在服务器侧获取被保护站点的第一特征信息；

步骤302，接收客户端侧发送的一个或多个未知站点的域名；

针对未知站点，本发明实施例可以接收客户端侧发送的待访问的URL，然后可以对URL进行解析，从URL中提取出未知站点的域名。

步骤303，检测所述域名是否在预置的站点名单中；

其中，站点名单可以包括白名单和/或黑名单，白名单可以记录通过认证的站点的域名，黑名单可以记录已知的钓鱼网站的域名；

当检测到未知站点的域名在在白名单中，则可以判定未知站点不为钓鱼网站，允许对未知站点的访问；当检测到未知站点的域名在黑名单中，则可以判定未知站点为钓鱼网站，直接拦截对未知站点的访问；

当检测到域名不在站点名单中时，则可以执行步骤304。

步骤304，获取一个或多个未知站点的第二特征信息；

作为一种示例，第二特征信息至少可以包括所述第二路径集合，以及主页截图和/或主页文本。

步骤305，将所述第一特征信息与所述第二特征信息进行匹配，并根据匹配的结果判断所述一个或多个未知站点是否为针对所述被保护站点的钓鱼网站；

步骤306，当判定所述一个或多个未知站点为针对所述被保护站点的钓鱼网站时，将所述一个或多个未知站点加入所述黑名单。

在本发明实施例中，当判定一个或多个未知站点为针对被保护站点的钓鱼网站时，可以将一个或多个未知站点加入黑名单。

在本发明实施例中，通过建立站点名单，在检测到未知站点不在站点名单中时，对其进行识别，并当判定未知站点为钓鱼网站时，将其加入黑名单中，避免了对同一个站点的重复识别，节约了系统资源。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参考图4，示出了根据本发明一个实施例的一种网站识别的装置实施例的结构框图，具体可以包括如下模块：

第一特征信息获取模块401，包括在服务器侧获取被保护站点的第一特征信息；其中，所述第一特征信息至少包括第一路径集合，以及站点图标和/或关键文本信息；

第二特征信息获取模块402，包括当检测到客户端侧针对一个或多个未知站点的访问触发操作时，获取一个或多个未知站点的第二特征信息；其中，所述第二特征信息至少包括第二路径集合，以及主页截图和/或主页文本；

钓鱼网站判断模块403，包括将所述第一特征信息与所述第二特征信息进行匹配，并根据匹配的结果判断所述一个或多个未知站点是否为针对所述被保护站点的钓鱼网站。

在本发明一种优选实施例中，所述钓鱼网站判断模块403可以包括如下子模块：

在本发明一种优选实施例中，所述装置还可以包括如下模块：

在本发明一种优选实施例中，当所述第二特征信息包括主页截图时，所述第二特征信息获取模块402可以包括如下子模块：

网页打开子模块，适于打开所述URL对应的网页；

在本发明一种优选实施例中，当所述第一特征信息包括站点图标时，所述装置还可以包括如下模块：

所述第二匹配度计算子模块可以包括如下单元：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网站识别的方法和装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明实施例公开了A1、一种网站识别的方法，所述方法包括：

A2、如A1所述的方法，所述将所述第一特征信息与所述第二特征信息进行匹配，并根据匹配的结果判断所述一个或多个未知站点是否为针对所述被保护站点的钓鱼网站的步骤包括：

A3、如A1所述的方法，所述将所述第一特征信息与所述第二特征信息进行匹配，并根据匹配的结果判断所述一个或多个未知站点是否为针对所述被保护站点的钓鱼网站的步骤包括：

A4、如A1或A2或A3所述的方法，还包括：

A5、如A4所述的方法，当所述第二特征信息包括主页截图时，所述当检测到客户端侧针对一个或多个未知站点的访问触发操作时，获取一个或多个未知站点的第二特征信息的步骤包括：

获取所述一个或多个未知站点中主页的URL；

打开所述URL对应的网页；

对所述URL对应的网页进行截图，得到主页截图。

A6、如A5所述的方法，当所述第一特征信息包括站点图标时，在所述当所述第一匹配度大于第一阈值时，计算所述站点图标与所述主页截图的第二匹配度的步骤之前，还包括：

A7、如A1所述的方法，在所述获取一个或多个未知站点的第二特征信息的步骤之前，还包括：

接收客户端侧发送的一个或多个未知站点的域名；

A8、如A7所述的方法，还包括：

A9、如A1所述的方法，还包括：

A10、如A2或A3所述的方法，还包括：

本发明实施例还公开了B11、一种网站识别的装置，所述装置包括：

B12、如B11所述的装置，所述钓鱼网站判断模块包括：

B13、如B11所述的装置，所述钓鱼网站判断模块包括：

B14、如B11或B12或B13所述的装置，还包括：

B15、如B14所述的装置，当所述第二特征信息包括主页截图时，所述第二特征信息获取模块包括：

网页打开子模块，适于打开所述URL对应的网页；

B16、如B15所述的装置，当所述第一特征信息包括站点图标时，所述装置还包括：

所述第二匹配度计算子模块包括：

B17、如B11所述的装置，还包括：

B18、如B17所述的装置，还包括：

B19、如B11所述的装置，还包括：

B20、如B12或B13所述的装置，还包括：

本发明实施例还公开了C21、一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现A1至A10任一项所述方法的步骤。

本发明实施例还公开了D22、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现A1至A10任一项所述方法的步骤。

Claims

1.一种网站识别的方法，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述将所述第一特征信息与所述第二特征信息进行匹配，并根据匹配的结果判断所述一个或多个未知站点是否为针对所述被保护站点的钓鱼网站的步骤包括：

3.如权利要求1所述的方法，其特征在于，所述将所述第一特征信息与所述第二特征信息进行匹配，并根据匹配的结果判断所述一个或多个未知站点是否为针对所述被保护站点的钓鱼网站的步骤包括：

4.如权利要求1或2或3所述的方法，其特征在于，还包括：

5.如权利要求4所述的方法，其特征在于，当所述第二特征信息包括主页截图时，所述当检测到客户端侧针对一个或多个未知站点的访问触发操作时，获取一个或多个未知站点的第二特征信息的步骤包括：

获取所述一个或多个未知站点中主页的URL；

打开所述URL对应的网页；

对所述URL对应的网页进行截图，得到主页截图。

6.如权利要求5所述的方法，其特征在于，当所述第一特征信息包括站点图标时，在所述当所述第一匹配度大于第一阈值时，计算所述站点图标与所述主页截图的第二匹配度的步骤之前，还包括：

7.如权利要求1所述的方法，其特征在于，在所述获取一个或多个未知站点的第二特征信息的步骤之前，还包括：

接收客户端侧发送的一个或多个未知站点的域名；

8.如权利要求7所述的方法，其特征在于，还包括：

9.如权利要求1所述的方法，其特征在于，还包括：

10.一种网站识别的装置，所述装置包括：