CN104143008B

CN104143008B - 基于图片匹配检测钓鱼网页的方法及装置

Info

Publication number: CN104143008B
Application number: CN201410392300.9A
Authority: CN
Inventors: 李晓波; 尹露; 杨晶; 郭峰
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2014-08-11
Filing date: 2014-08-11
Publication date: 2017-10-27
Anticipated expiration: 2034-08-11
Also published as: CN104143008A

Abstract

本发明公开了一种基于图片匹配检测钓鱼网页的方法及装置。其中方法的执行基于预先建立的包含多个第一图片和第二图片的图片规则库；方法包括：对浏览器打开的网页进行截图，获取第三图片；计算第三图片与图片规则库中所有第一图片的相似度；根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于图片规则库中第一图片的总数量；将第三图片与选取的第一图片对应的第二图片进行匹配，若选取的第一图片对应的第二图片中的至少一个与第三图片匹配，则确定网页为可疑的钓鱼网页。本发明中，通过计算相似度，简化了匹配个数，基于图片匹配能够快速并准确的判断网页为可疑的钓鱼网页。

Description

基于图片匹配检测钓鱼网页的方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及一种基于图片匹配检测钓鱼网页的方法及装置。

背景技术

随着互联网的发展，基于WEB的应用日益普及，人们通过浏览器可以查询银行账户、网上购物、电子商务、查询信息、获取知识、进行娱乐等，WEB为人们提供了方便和快捷的交互方式。然而，人们在上网冲浪浏览网页的同时，经常会遭遇到恶意网站的侵袭，导致计算机被病毒、木马等感染。

恶意网站，例如钓鱼网站、或者是欺诈，仿冒网站等，主要是通过仿冒真实网站的URL地址或是网页内容，伪装成银行及电子商务等类型的网站，或是利用真实网站服务器程序上的漏洞，在该网站的某些网页中插入危险的网页代码，以此来骗取用户银行或信用卡账号、密码等私人资料。恶意网页中包含着许多敏感的特征，例如，金融欺诈类的恶意网页会在文字、图片等方面仿冒官网，或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚假购物等信息，这些特征大多以文本串的形式出现在网页中。

现有的为了防范恶意网站的主要手段是当用户访问某网站时，客户端将网站的URL发送至服务器端的黑白名单数据库进行查询，然而由于钓鱼网站不断更新换代，这种方法对钓鱼网站等恶意网站的检出率不高并具有滞后性。或者是通过基于文本的方法进行识别，例如通过提取页面中关键词，并将关键词上传至服务器，在黑名单数据库中匹配，这种方法效率比较低下，而且容易受文字顺序等因素的影响，误判率较高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于图片匹配检测钓鱼网页的方法和相应的基于图片匹配检测钓鱼网页的装置。

根据本发明的一个方面，提供了一种基于图片匹配检测钓鱼网页的方法，所述方法的执行基于预先建立的包含多个第一图片和第二图片的图片规则库，所述第一图片是已知钓鱼网页的截图，所述第二图片是在所述第一图片中所截取的具有钓鱼网页特征的图片；

所述方法包括：

对浏览器打开的网页进行截图，获取第三图片；

计算所述第三图片与所述图片规则库中所有第一图片的相似度；

根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于所述图片规则库中第一图片的总数量；

将所述第三图片与选取的第一图片对应的第二图片进行匹配，若选取的第一图片对应的第二图片中的至少一个与所述第三图片匹配，则确定所述网页为可疑的钓鱼网页。

根据本发明的另一方面，提供了一种基于图片匹配检测钓鱼网页的装置，包括：

图片规则库，所述图片规则库包含多个第一图片和第二图片，所述第一图片是已知钓鱼网页的截图，所述第二图片是在所述第一图片中所截取的具有钓鱼网页特征的图片；

获取模块，适于对浏览器打开的网页进行截图，获取第三图片；

相似度计算模块，适于计算所述第三图片与所述图片规则库中所有第一图片的相似度；

选取模块，适于根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于所述图片规则库中第一图片的总数量；

匹配模块，适于将所述第三图片与选取的第一图片对应的第二图片进行匹配，若选取的第一图片对应的第二图片中的至少一个与所述第三图片匹配，则确定所述网页为可疑的钓鱼网页。

根据本发明的提供的方案，对浏览器打开的网页进行截图，获取第三图片；计算所述第三图片与所述图片规则库中所有第一图片的相似度；根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于所述图片规则库中第一图片的总数量；将所述第三图片与选取的第一图片对应的第二图片进行匹配，若选取的第一图片对应的第二图片中的至少一个与所述第三图片匹配，则确定所述网页为可疑的钓鱼网页。通过对第一图片进行筛选，减少了后续匹配过程中将第三图片与第二图片匹配的计算量，加快了钓鱼网页的检测速度，降低了资源占用率；此外，由于第二图片具有钓鱼网页特征，因此在图片规则库内存在与第三图片匹配的第二图片的情况下，第三图片也具有钓鱼网页的特征，基于此能够快速并准确的判断网页为可疑的钓鱼网页。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的基于图片匹配检测钓鱼网页的方法的流程图；

图2示出了根据本发明另一个实施例的基于图片匹配检测钓鱼网页的方法的流程图；

图3示出了根据本发明另一个实施例的获取第三图片的一种方法的流程图；

图4示出了根据本发明另一个实施例的获取第三图片的另一种方法的流程图；

图5示出了根据本发明一个实施例的基于图片匹配检测钓鱼网页的装置的结构框图；

图6示出了根据本发明另一个实施例的基于图片匹配检测钓鱼网页的装置的结构框图；

图7示出了根据本发明另一个实施例的基于图片匹配检测钓鱼网页的装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的执行基于预先建立的包含多个第一图片和第二图片的图片规则库，第一图片是已知钓鱼网页的截图，第二图片是在第一图片中所截取的具有钓鱼网页特征的图片。

建立图片规则库的方法是多种多样的，本发明主要介绍两种建立图片规则库的方法，但建立图片规则库的方法并不仅限于此，本领域技术人员可以根据实际需要选用合适的方法建立图片规则库。

具体地，针对两种建立图片规则库的方法进行详细描述：

方法一：

对多个已知钓鱼网页进行截图，获取第一图片，从每个第一图片中截取具有钓鱼网页特征的至少一个第二图片，并将第二图片添加到图片规则库中，其中，第二图片的尺寸小于或等于第一图片的尺寸。

具体地，规则添加人员在截图工具的URL(统一资源定位符)输入框中输入已知钓鱼网页的URL，然后点击获取快照按钮对多个已知钓鱼网页进行截图，获取第一图片，截图完成后，将获取的第一图片展示给规则添加人员，由规则添加人员利用鼠标从获取的第一图片中截取具有钓鱼网页特征的至少一个第二图片，并将第二图片添加到图片规则库中，其中，第二图片的尺寸小于或等于第一图片的尺寸。

方法二：

(1)对初始获取的多个已知钓鱼网页进行截图，获取第一图片，从获取的第一图片中截取具有钓鱼网页特征的至少一个第二图片，并将第二图片添加到图片规则库中作为样本集。

具体地，规则添加人员在截图工具的URL输入框中输入已知钓鱼网页的URL，然后点击获取快照按钮对多个已知钓鱼网页进行截图，获取第一图片，截图完成后，将获取的第一图片展示给规则添加人员，由规则添加人员利用鼠标从获取的第一图片中截取具有钓鱼网页特征的至少一个第二图片，并将第二图片添加到图片规则库中作为样本集，其中，第二图片的尺寸小于或等于第一图片的尺寸。

(2)对样本集包含的第二图片进行分类，对分类后的样本集进行分类学习得到各个类别对应的图片特征库。

具体地，根据网站类型对样本集包含的第二图片进行分类，例如按照仿冒淘宝、仿冒QQ登录、仿冒六合彩的分类方法对样本集包含的第二图片进行分类，然后利用分类学习算法对分类后的样本集进行分类学习例如学习各个类别对应的图片的特征，分类学习结束后得到各个类别对应的图片特征库。

(3)对后续获取的已知钓鱼网页进行截图，获取第一图片，从获取的第一图片中截取具有钓鱼网页特征的至少一个第四图片，提取该第四图片的特征。

其中，截取第四图片的方法与本方法中截取第二图片的方法类似，在此不再赘述。在获得第四图片之后，利用视觉特征抽取算法抽取第四图片的特征。

(4)将第四图片的特征与各个类别对应的图片特征库进行匹配，若第四图片的特征与一类别对应的图片特征库匹配，则将第四图片作为第二图片添加到图片规则库中，并将第四图片归类与所匹配的类别。

上述方法一得到的图片规则库包含来自大量已知钓鱼网页的第二图片，并未对这些第二图片进行分类；而上述方法二通过分类学习的方法，能够对来自大量已知钓鱼网页的第二图片进行分类，基于这种做好分类的图片规则库，能够对识别出的钓鱼网页进行精确分类。

基于上述建立的图片规则库，进一步介绍检测钓鱼网页的具体方法。

可选地，本发明的检测钓鱼网页的方法是在后台服务器执行的，所建立的图片规则库可以存储在后台服务器端。但本发明并不局限于此，所建立的图片规则库也可存储在本地客户端，即后台服务器将建立的图片规则库同步给本地客户端，并定时对本地客户端的图片规则库进行更新，由本地客户端执行本发明的检测钓鱼网页的方法。本发明的检测钓鱼网页的方法优选地在后台服务器执行。

可选地，后台服务器的图片规则库不仅包含第一图片、第二图片(例如以二进制数据的形式存储在数据库中)，还可包含已知钓鱼网页的URL以及对网页的处理规则等其他信息。其中，从已知钓鱼网页的截图获取的第一图片是第二图片的来源，可用于判断第二图片是否有效即第二图片是否包含足够的钓鱼网页的特征，在第二图片不足以用于判断某网页是否为钓鱼网页的情况下，可从保存的第一图片中重新截取第二图片。此外，可通过判断某网页的URL是否为图片规则库中的已知钓鱼网页的URL来判断该网页是否为钓鱼网页。对网页的处理规则能够告知用户访问的网页是否为恶意网页，并在判定某网页为钓鱼网页时向用户展示所访问的网页的URL提醒用户，例如通过弹出窗口以该网页的URL为XXX，其是危险网页的形式来提醒用户，并将URL发送至URL处理服务器。此外还可向用户展示网页的HOST(域名)，本发明对比不做限制，本领域技术人员可以根据实际需要进行设置。

本发明实施例还提供有HOST\URL处理服务器：可以存储通过本发明所提供的方法所发现的钓鱼网页的HOST和URL；也可以接收恶意网址云引擎的反馈；还可以调度全网支持服务器集群的抓取。

图1示出了根据本发明一个实施例的基于图片匹配检测钓鱼网页的方法的流程图。如图1所示，该方法包括以下步骤：

步骤S100，对浏览器打开的网页进行截图，获取第三图片。

浏览器打开的网页指用户通过客户端的浏览器打开的网页，其中客户端可以为计算机、移动终端、平板设备等，本发明对此不做限制。若本实施例的方法在后台服务器侧执行，那么则由服务器获取到浏览器打开的网页的URL或MHT文件之后，根据URL或MHT文件在服务器侧显示对应的网页并进行截图，获取第三图片，其中第三图片的内容与用户在客户端通过浏览器打开的网页的内容相同。若本实施例的方法在本地客户端侧执行，那么由本地客户端对浏览器打开的网页进行截图，获取第三图片。

步骤S110，计算第三图片与图片规则库中所有第一图片的相似度。

相似度用于表示两个图片的相似程度。该步骤通过计算第三图片与图片规则库中所有第一图片的相似度，可以知道第三图片与图片规则库中的每个第一图片的相似程度，从而作为后续选取哪些第一图片以进行匹配的依据。

步骤S120，根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于图片规则库中第一图片的总数量。

可选地，可根据相似度由高至低的顺序对图片规则库中所有第一图片进行排序，选取一部分与第三图片相似度很高的第一图片。

步骤S130，将第三图片与选取的第一图片对应的第二图片进行匹配，若选取的第一图片对应的第二图片中的至少一个与第三图片匹配，则确定网页为可疑的钓鱼网页。

由于图片规则库中所包含的第二图片是在已知的钓鱼网页的截图即第一图片中截取的具有钓鱼网页特征的图片，因此将第三图片与图片规则库所包含的多个第二图片进行匹配即是判定第三图片是否具有钓鱼网页特征，若图片规则库内存在与第三图片匹配的第二图片，则表示第三图片具有钓鱼网页特征，能够确定网页为可疑的钓鱼网页。

根据本发明上述实施例提供的方法，该方法的执行基于预先建立的包含多个第一图片和第二图片的图片规则库，第一图片是已知钓鱼网页的截图，第二图片是在第一图片中所截取的具有钓鱼网页特征的图片。通过计算第三图片与图片规则库中所有第一图片的相似度，根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于图片规则库中第一图片的总数量，通过对第一图片进行筛选，减少了后续匹配过程中将第三图片与第二图片匹配的计算量，加快了钓鱼网页的检测速度，降低了资源占用率；此外，由于第二图片具有钓鱼网页特征，因此在图片规则库内存在与第三图片匹配的第二图片的情况下，第三图片也具有钓鱼网页的特征，基于此能够快速并准确的判断网页为可疑的钓鱼网页。

图2示出了根据本发明另一个实施例的基于图片匹配检测钓鱼网页的方法的流程图。如图2所示，该方法包括以下步骤：

步骤S200，对浏览器打开的网页进行截图，获取第三图片。

浏览器打开的网页指用户通过客户端的浏览器打开的网页。在本实施例中，以服务器侧获取第三图片(即本实施例的方法由服务器侧执行)为例，说明如何获取第三图片。

在本实施例中主要通过两种方法获取第三图片，但并不限于此，本领域技术人员可以根据实际情况选用合适的方法获取第三图片。

具体地，针对获取第三图片的两种方法进行详细描述：

图3示出了根据本发明另一个实施例的获取第三图片的一种方法的流程图。在本方法中，执行主体是安装有chrome浏览器的服务器，该服务器封装有对应的接口，可选为阿帕奇接口，这里将封装有阿帕奇接口的该服务器称为阿帕奇服务器，以阿帕奇服务器为例进行说明。

如图3所示，该方法包括如下步骤：

步骤300，通过服务器接收用户访问的网页的URL。

具体地，可以通过阿帕奇服务器接收用户访问的网页的URL。阿帕奇服务器的主要特征是：可以运行在所有计算机平台；支持最新的HTTP 1.1协议；简单而强有力的基于文件的配置；支持通用网关接口CGI；支持虚拟主机；支持HTTP认证；集成Perl脚本编程语言；集成的代理服务器；具有可定制的服务器日志；支持服务器端包含命令(SSI)；支持安全Socket层(SSL)；用户会话过程的跟踪能力；支持FastCGI；支持Java Servlets。

步骤310，调用chrome浏览器打开URL对应的网页。

在阿帕奇服务器中安装有CGI程序，该CGI程序内具有第三方工具，第三方工具支持若干API，通过这些API可将URL嵌入给chrome浏览器。具体来说，在通过阿帕奇服务器接收到客户端发送的用户访问的网页的URL之后，通过阿帕奇服务器将URL嵌入到CGI程序，然后通过CGI程序内的第三方工具提供的API将URL嵌入到chrome浏览器，调用chrome浏览器并启用chrome浏览器的debug模式，向处于debug模式下的chrome浏览器嵌入获取URL命令以及截图命令，chrome浏览器在接收到获取URL的命令之后，打开该URL对应的网页。

步骤320，执行截图命令，对URL对应的网页进行截图，获取第三图片。

具体地，chrome浏览器在接收到截图命令后，对URL对应的网页进行截图，并将截取的第三图片保存在阿帕奇服务器指定的文件夹内，本发明实施例对应的装置在收到阿帕奇服务器发送的图片保存地址后从阿帕奇服务器获取第三图片。

上述方法由于需要在阿帕奇服务器处利用chrome浏览器再次打开网页，即阿帕奇服务器需要再次访问网页服务器获取网页内容，因此获取速度比较慢，但该方法通过获取用户访问的网页的URL，并利用chrome浏览器打开获取的URL，服务器端的chrome浏览器打开的网页与用户通过客户端的浏览器打开的网页相同，可以精确的截图，具有准确性高的优点。

图4示出了根据本发明另一个实施例的获取第三图片的另一种方法的流程图。在本方法中，执行主体是安装有IE浏览器的服务器，这里将其称为IE机器。

如图4所示，该方法包括如下步骤：

步骤400，远程调用IE机器接收用户访问的网页的MHT文件的地址。

具体地，MHT是网页归档(英语：MIME HTML或MIME Encapsulation of AggregateHTML Documents，又称单一文件网页或网页封存盘案)为一多用途互联网邮件扩展格式，将一个多附件网页(如包含大量图片、Flash动画、Java小程序的网页)存储为单一文件，可用于发送HTML电子邮件，此单一文件即称为一网页封存盘案。MHT文件保存在服务器指定目录下。IE机器向服务器发送获取MHT文件的地址的命令，服务器在收到命令后将MHT文件的地址发送给IE机器。

步骤410，通过将MHT文件的地址嵌入到IE浏览器，打开MHT文件对应的网页。

具体地，IE机器将接收的MHT文件的地址嵌入到IE浏览器，利用IE浏览器打开MHT文件对应的网页。

步骤420，执行截图命令，对MHT文件对应的网页进行截图，获取第三图片。

上述方法的优点是，IE机器无需再次访问网站服务器获取网页内容，而是通过MHT文件即可重新打开网页，因此获取第三图片的速度更快，从而使得钓鱼网页检测速度更快。

步骤S210，对图片规则库中的所有第一图片的特征点进行消重处理。

由于图片规则库中第一图片可能会包含相同部分，例如多个第一图片中都包含淘宝钓鱼特征，因此需要对这些包含相同部分的图片进行消重处理。

消重处理是指在统计图片规则库中的所有第一图片的特征点时，对重复的特征点进行处理，将相同的特征点只计算一次。举例说明，图片A、B、C的特征点个数分别为5000、7000、8000，其中，图片A、B、C相同的特征点个数为2000，在统计图片A、B、C的全部特征点个数时，对图片A、B、C的特征点进行消重处理，即图片A、B、C相同的特征点个数为2000在统计时只计算一次，得到图片A、B、C的特征点个数为16000。这里的特征点是包含坐标信息及其他属性信息的点。

对图片规则库中的所有第一图片的特征点进行消重处理可以提高后续聚类处理时的准确度。

步骤S220，对第三图片和图片规则库中的所有第一图片进行聚类处理。

聚类处理是指从图片的特征点中选出K个特征点作为质心，然后对图片中其他的特征点进行分类，从而将图片的特征点通过处理分成K组，每组都包含一定数量的特征点，且每组中的特征点相似性较高，用处理后K组特征点的质心表示图片的原有特征点。举例说明，图片A有8000个特征点，通过聚类处理后，图片A的特征点个数降为1000个。

具体地，对第三图片和图片规则库中所有第一图片的特征点进行聚类处理。其中，本发明可采用K-means算法对第三图片和图片规则库中的所有第一图片的特征点进行聚类处理，用向量特征表示处理后的特征点。本领域技术人员还可根据实际应用的需要采用其他聚类处理算法对图片的特征点进行聚类处理，在此不做具体限定。对第三图片和图片规则库中所有第一图片的特征点进行聚类处理，降低了在后续计算相似度时的运算量。

步骤S230，获取聚类处理后第三图片和图片规则库中第一图片的特征点。

由于步骤S220中对第三图片和图片规则库中第一图片的特征点进行了聚类处理，将第三图片和图片规则中第一图片的特征点分成K组，因此可用K组特征点的质心来表示聚类处理后第三图片和图片规则中第一图片的特征点，这里获取聚类处理后第三图片和图片规则库中第一图片的特征点即为获取K组特征点的质心。

步骤S240，根据聚类处理后第三图片和图片规则库中第一图片的特征点计算特征点相似度。

由于通过向量来表示第三图片和图片规则库中第一图片的特征点，因此可以通过计算两个向量之间的夹角来计算特征点相似度。本领域技术人员可以根据实际应用选择合适的计算方法来计算第三图片和图片规则库中第一图片的特征点相似度，在此不做具体限定。

步骤S250，根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于图片规则库中第一图片的总数量。

在本实施例中，主要通过两种方法选取多个第一图片，但并不限于此，本领域技术人员可以根据实际情况选用合适的方法获取多个第一图片。

具体地，针对获取第三图片的两种方法进行详细描述：

方法一：根据相似度由高至低的顺序对图片规则库中的第一图片进行排序，选取相似度大于第一预定值的多个第一图片。

在根据聚类处理后第三图片和图片规则库中第一图片的特征点计算特征相似度之后，可以得到一个相似度值，根据相似度值由高至低的顺序对图片规则库中的第一图片进行排序，选取相似度大于第一预定值例如0.95的第一图片。

方法二：根据相似度由高至低的顺序对图片规则库中的第一图片进行排序，选取数量为第二预定值的多个第一图片。

在根据聚类处理后第三图片和图片规则库中第一图片的特征点计算特征相似度之后，可以得到一个相似度值，根据相似度值由高至低的顺序对图片规则库中的第一图片进行排序，选取数量为第二预定值例如3个的第一图片。本领域技术人员根据实际需要可以合理设置第二预定值的数值，在此不做具体限定。

通过选取多个第一图片，第三图片不再与图片规则库内的所有第二图片进行匹配，仅需与所选取的多个第一图片对应的第二图片进行匹配即可，这样减少了后续匹配过程中将第三图片与第二图片匹配的计算量；而且由于多个第一图片是凭借与第三图片的相似度来选取的，所筛选的第一图片与第三图片的相似度很高，能够保证后续匹配的准确性。

步骤S260，分别抽取第三图片与图片规则库所包含的多个第一图片的特征。

利用特征抽取算法抽取第三图片与图片规则库所包含的多个第一图片的特征。例如，利用ORB(ORiented Brief)特征抽取算法对第三图片与图片规则库所包含的多个第一图片进行ORB特征抽取，并提取出特征数据，其中，ORB特征提取指的是使用计算机抽取图像信息，决定每个图像的点是否属于一个特征点，ORB特抽取的结果是将特征点的特征数据提取出来。

步骤S270，判断第三图片的特征是否与选取的第一图片对应的第二图片的特征进行匹配，若是则执行步骤S280；若否则方法结束。

由于图片规则库中所包含的第二图片是在已知的钓鱼网页的截图中截取的具有钓鱼网页特征的图片，因此判断第三图片特征是否与图片规则库所包含的任一第二图片的特征匹配即是判定第三图片是否具有钓鱼网页特征。

具体地，查找第三图片的特征与图片规则库所包含的多个第二图片的特征匹配的邻近特征点，判断邻近特征点个数与第二阈值的关系，若邻近特征点个数大于第二阈值则第三图片的特征与图片规则库所包含的任一第二图片的特征匹配。可选地，将第三图片的特征与图片规则库所包含的任一第二图片的特征用kd-tree数据结构表示，利用kd-tree算法与K最邻近结点算法查找第三图片的特征与图片规则库所包含的多个第二图片的特征匹配的邻近特征点，若邻近特征点个数大于29(第二阈值)则第三图片的特征与图片规则库所包含的任一第二图片的特征匹配。

步骤S280，确定网页为可疑的钓鱼网页。

步骤S290，采用基于URL和/或IP和/或网页内容进行识别的方法对网页进行识别，确定网页是否为钓鱼网页。

通过上述步骤S200-步骤S280得到网页为可疑的钓鱼网页，可将上述方法与基于URL和/或IP和/或网页内容进行识别的方法结合起来确定网页是否为钓鱼网页，从而可以降低误判率。

具体地，可以通过判断用户访问的网页的URL是否属于本地黑/白名单来判定用户访问的网页是否为钓鱼网页，若用户访问的网页的URL属于本地黑名单则确定网页为钓鱼网页。

还可以通过判断用户访问的网页的URL是否属于高危域名或高危IP来判定用户访问的网页是否为钓鱼网页，若用户访问的网页的URL属于高危域名或高危IP则确定网页为钓鱼网页。

还可以通过基于网页内容识别方法进行判断，具体可以采用以下两种方法：

方法一：在访问网页加载完成后，提取网页的多个内容片段，获取每个内容片段对应的特征ID，其中内容片段与特征ID唯一对应；将多个内容片段对应的特征ID与特征库中的特征ID进行匹配，其中，特征库由服务器生成，是大量的钓鱼网页中的恶意内容片段对应的特征ID的集合；若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID，则根据网页的信息，计算网页的评估分；根据网页的评估分与设定阈值的比较结果，确定网页是否为钓鱼网页。

方法二：在浏览器的网页事件加载完成后，提取网页的多个内容片段，获取每个内容片段对应的特征ID，其中内容片段与特征ID唯一对应；将多个内容片段对应的特征ID与特征库中的特征ID进行匹配，其中，特征库由服务器生成，是大量的钓鱼网页中的恶意内容片段对应的特征ID的集合；若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID，则将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID，将至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配，其中，模板ID可以是通过特定的快速哈希算法生成的定长的二进制数据，例如，通过MD5算法生成的64位的二进制串。与特征ID类似地，不同特征ID按照相同的顺序组合，按照相同的算法计算得到的模板ID是唯一的并且是不可逆的；若至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则确定网页为钓鱼网页。

根据本发明上述实施例提供的方法，该方法的执行基于预先建立的包含多个第一图片和第二图片的图片规则库，第一图片是已知钓鱼网页的截图，第二图片是在第一图片中所截取的具有钓鱼网页特征的图片。对图片规则库中的所有第一图片的特征点进行消重处理可以提高后续聚类处理时的准确度。对第三图片和图片规则库中所有第一图片的特征点进行聚类处理，降低了在后续计算相似度时的运算量。通过计算第三图片与图片规则库中所有第一图片的相似度，根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于图片规则库中第一图片的总数量，通过对第一图片进行筛选，减少了后续匹配过程中将第三图片与第二图片匹配的计算量，加快了钓鱼网页的检测速度，降低了资源占用率；此外，由于第二图片具有钓鱼网页特征，因此在图片规则库内存在与第三图片匹配的第二图片的情况下，第三图片也具有钓鱼网页的特征，基于此能够快速并准确的判断网页为可疑的钓鱼网页。在建立图片规则库时对图片进行了分类，因此当某网页为钓鱼网页时可以根据图片规则库中的图片进行自动识别并将网页进行归类。结合图片特征匹配与URL和/或IP和/或网页内容进行识别的方法对网页进行识别，降低了对网页的误判率。

图5示出了根据本发明一个实施例的基于图片匹配检测钓鱼网页的装置的结构框图。如图5所示，该装置包括：图片规则库500、获取模块510、相似度计算模块520、选取模块530、匹配模块540。

图片规则库500，图片规则库包含多个第一图片和第二图片的图片规则库，第一图片是已知钓鱼网页的截图，第二图片是在第一图片中所截取的具有钓鱼网页特征的图片。

获取模块510，适于对浏览器打开的网页进行截图，获取第三图片。

相似度计算模块520，适于计算第三图片与图片规则库中所有第一图片的相似度。

选取模块530，适于根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于图片规则库中第一图片的总数量。

匹配模块540，适于将第三图片与选取的第一图片对应的第二图片进行匹配，若选取的第一图片对应的第二图片中的至少一个与第三图片匹配，则确定网页为可疑的钓鱼网页。

根据本发明上述实施例提供的装置，该装置的执行基于预先建立的包含多个第一图片和第二图片的图片规则库，第一图片是已知钓鱼网页的截图，第二图片是在第一图片中所截取的具有钓鱼网页特征的图片。通过计算第三图片与图片规则库中所有第一图片的相似度，根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于图片规则库中第一图片的总数量，通过对第一图片进行筛选，减少了后续匹配过程中将第三图片与第二图片匹配的计算量，加快了钓鱼网页的检测速度，降低了资源占用率；此外，由于第二图片具有钓鱼网页特征，因此在图片规则库内存在与第三图片匹配的第二图片的情况下，第三图片也具有钓鱼网页的特征，基于此能够快速并准确的判断网页为可疑的钓鱼网页。

图6示出了根据本发明另一个实施例的基于图片匹配检测钓鱼网页的装置的结构框图。如图6所示，该装置包括：图片规则库600、获取模块610、消重处理模块620、相似度计算模块630、选取模块640、匹配模块650。

图片规则库600，图片规则库包含多个第一图片和第二图片的图片规则库，第一图片是已知钓鱼网页的截图，第二图片是在第一图片中所截取的具有钓鱼网页特征的图片。

获取模块610，适于对浏览器打开的网页进行截图，获取第三图片。

获取模块610包括：接收单元660、调用单元670、图片获取单元680。

接收单元660，适于通过服务器接收用户访问的网页的统一资源定位符。

调用单元670，适于调用chrome浏览器打开统一资源定位符对应的网页。

图片获取单元680，适于执行截图命令，对统一资源定位符对应的网页进行截图，获取第三图片。

消重处理模块620，适于对图片规则库中的所有第一图片的特征点进行消重处理。

相似度计算模块630，适于计算第三图片与图片规则库中所有第一图片的相似度。

相似度计算模块630包括：聚类处理单元690、特征点获取单元700、相似度计算单元710。

聚类处理单元690，适于分别对第三图片和图片规则库中的所有第一图片进行聚类处理。

特征点获取单元700，适于获取聚类处理后第三图片和图片规则库中第一图片的特征点。

相似度计算单元710，适于根据聚类处理后第三图片和图片规则库中第一图片的特征点计算特征点相似度。

选取模块640，适于根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于图片规则库中第一图片的总数量。

选取模块640进一步适于：根据相似度由高至低的顺序对图片规则库中的第一图片进行排序，选取相似度大于第一预定值的多个第一图片。

选取模块640进一步适于：根据相似度由高至低的顺序对图片规则库中的第一图片进行排序，选取数量为第二预定值的多个第一图片。

匹配模块650，适于将第三图片与选取的第一图片对应的第二图片进行匹配，若选取的第一图片对应的第二图片中的至少一个与第三图片匹配，则确定网页为可疑的钓鱼网页。

匹配模块650包括：抽取单元720、匹配单元730。

抽取单元720，适于分别抽取第三图片与选取的第一图片对应的第二图片的特征。

匹配单元730，适于将第三图片的特征与选取的第一图片对应的第二图片的特征进行匹配，若第三图片的特征与选取的第一图片对应的第二图片中的任一第二图片的特征匹配，则确定网页为可疑的钓鱼网页。

匹配单元730进一步适于：查找第三图片的特征与选取的第一图片对应的第二图片的特征匹配的邻近特征点，若邻近特征点个数大于第一阈值，则确定网页为可疑的钓鱼网页。

该装置还包括：钓鱼网页预处理模块740，适于对多个已知钓鱼网页进行截图，获取第一图片，从每个第一图片中截取具有钓鱼网页特征的至少一个第二图片，并将第二图片添加到图片规则库中，其中，第二图片的尺寸小于或等于第一图片的尺寸。

钓鱼网页预处理模块740具体适于对初始获取的多个已知钓鱼网页进行截图，获取第一图片，从获取的第一图片中截取具有钓鱼网页特征的至少一个第二图片，并将第二图片添加到图片规则库中作为样本集；

对样本集包含的第二图片进行分类，对分类后的样本集进行分类学习得到各个类别对应的图片特征库；

对后续获取的已知钓鱼网页进行截图，获取第一图片，从获取的第一图片中截取具有钓鱼网页特征的至少一个第四图片，提取该第四图片的特征；

将第四图片的特征与各个类别对应的图片特征库进行匹配，若第四图片的特征与一类别对应的图片特征库匹配，则将第四图片作为第二图片添加到图片规则库中，并将第四图片归类与所匹配的类别。

该装置还包括：识别模块750，适于采用基于URL和/或IP和/或网页内容进行识别的方法对网页进行识别，确定网页是否为钓鱼网页。

根据本发明上述实施例提供的装置，该装置的执行基于预先建立的包含多个第一图片和第二图片的图片规则库，第一图片是已知钓鱼网页的截图，第二图片是在第一图片中所截取的具有钓鱼网页特征的图片。对图片规则库中的所有第一图片的特征点进行消重处理可以提高后续聚类处理时的准确度。对第三图片和图片规则库中所有第一图片的特征点进行聚类处理，降低了在后续计算相似度时的运算量。通过计算第三图片与图片规则库中所有第一图片的相似度，根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于图片规则库中第一图片的总数量，通过对第一图片进行筛选，减少了后续匹配过程中将第三图片与第二图片匹配的计算量，加快了钓鱼网页的检测速度，降低了资源占用率；此外，由于第二图片具有钓鱼网页特征，因此在图片规则库内存在与第三图片匹配的第二图片的情况下，第三图片也具有钓鱼网页的特征，基于此能够快速并准确的判断网页为可疑的钓鱼网页。在建立图片规则库时对图片进行了分类，因此当某网页为钓鱼网页时可以根据图片规则库中的图片进行自动识别并将网页进行归类。结合图片特征匹配与URL和/或IP和/或网页内容进行识别的方法对网页进行识别，降低了对网页的误判率。

图7示出了根据本发明另一个实施例的基于图片匹配检测钓鱼网页的装置的结构框图。如图7所示，该装置包括：图片规则库800、获取模块810、消重处理模块820、相似度计算模块830、选取模块840、匹配模块850。

图片规则库800，图片规则库包含多个第一图片和第二图片的图片规则库，第一图片是已知钓鱼网页的截图，第二图片是在第一图片中所截取的具有钓鱼网页特征的图片。

获取模块810，适于对浏览器打开的网页进行截图，获取第三图片。

获取模块810包括：接收单元860、嵌入单元870、图片获取单元880。

接收单元860，适于远程调用IE机器接收用户访问的网页的MHT文件的地址。

嵌入单元870，适于执行截图命令，对所述MHT文件对应的网页进行截图，获取第三图片。

图片获取单元880，适于执行截图命令，对统一资源定位符对应的网页进行截图，获取第三图片。

消重处理模块820，适于对图片规则库中的所有第一图片的特征点进行消重处理。

相似度计算模块830，适于计算第三图片与图片规则库中所有第一图片的相似度。

相似度计算模块830包括：聚类处理单元890、特征点获取单元900、相似度计算单元910。

聚类处理单元890，适于分别对第三图片和图片规则库中的所有第一图片进行聚类处理。

特征点获取单元900，适于获取聚类处理后第三图片和图片规则库中第一图片的特征点。

相似度计算单元910，适于根据聚类处理后第三图片和图片规则库中第一图片的特征点计算特征点相似度。

选取模块840，适于根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于图片规则库中第一图片的总数量。

选取模块840进一步适于：根据相似度由高至低的顺序对图片规则库中的第一图片进行排序，选取相似度大于第一预定值的多个第一图片。

选取模块840进一步适于：根据相似度由高至低的顺序对图片规则库中的第一图片进行排序，选取数量第二预定值的多个第一图片。

匹配模块850，适于将第三图片与选取的第一图片对应的第二图片进行匹配，若选取的第一图片对应的第二图片中的至少一个与第三图片匹配，则确定网页为可疑的钓鱼网页。

匹配模块850包括：抽取单元920、匹配单元930。

抽取单元920，适于分别抽取第三图片与选取的第一图片对应的第二图片的特征。

匹配单元930，适于将第三图片的特征与选取的第一图片对应的第二图片的特征进行匹配，若第三图片的特征与选取的第一图片对应的第二图片中的任一第二图片的特征匹配，则确定网页为可疑的钓鱼网页。

匹配单元930进一步适于：查找第三图片的特征与选取的第一图片对应的第二图片的特征匹配的邻近特征点，若邻近特征点个数大于第一阈值，则确定网页为可疑的钓鱼网页。

该装置还包括：钓鱼网页预处理模块940，适于对多个已知钓鱼网页进行截图，获取第一图片，从每个第一图片中截取具有钓鱼网页特征的至少一个第二图片，并将第二图片添加到图片规则库中，其中，第二图片的尺寸小于或等于第一图片的尺寸。

钓鱼网页预处理模块940具体适于对初始获取的多个已知钓鱼网页进行截图，获取第一图片，从获取的第一图片中截取具有钓鱼网页特征的至少一个第二图片，并将第二图片添加到图片规则库中作为样本集；

该装置还包括：识别模块950，适于采用基于URL和/或IP和/或网页内容进行识别的方法对网页进行识别，确定网页是否为钓鱼网页。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于图片检测钓鱼网页的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：A1、一种基于图片匹配检测钓鱼网页的方法，所述方法的执行基于预先建立的包含多个第一图片和第二图片的图片规则库，所述第一图片是已知钓鱼网页的截图，所述第二图片是在所述第一图片中所截取的具有钓鱼网页特征的图片；

所述方法包括：

对浏览器打开的网页进行截图，获取第三图片；

A2、根据A1所述的方法，所述计算所述第三图片与所述图片规则库中所有第一图片的相似度进一步包括：

分别对所述第三图片和所述图片规则库中的所有第一图片进行聚类处理，获取聚类处理后第三图片和图片规则库中第一图片的特征点；

根据聚类处理后第三图片和图片规则库中第一图片的特征点计算特征点相似度。

A3、根据A1或A2所述的方法，所述根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于所述图片规则库中第一图片的总数量进一步包括：

根据相似度由高至低的顺序对图片规则库中的第一图片进行排序，选取相似度大于第一预定值的多个第一图片。

A4、根据A1或A2所述的方法，所述根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于所述图片规则库中第一图片的总数量进一步包括：

根据相似度由高至低的顺序对图片规则库中的第一图片进行排序，选取数量为第二预定值的多个第一图片。

A5、根据A2-A4任一项所述的方法，在所述分别对第三图片和所述图片规则库中的所有第一图片进行聚类处理之前还包括：对所述图片规则库中的所有第一图片的特征点进行消重处理。

A6、根据A1-A5任一项所述的方法，其中，所述对浏览器打开的网页进行截图，获取第三图片进一步包括：

通过服务器接收用户访问的网页的统一资源定位符；

调用chrome浏览器打开所述统一资源定位符对应的网页；

执行截图命令，对所述统一资源定位符对应的网页进行截图，获取第三图片。

A7、根据A1-A5任一项所述的方法，其中，所述对浏览器打开的网页进行截图，获取第三图片进一步包括：

远程调用IE机器接收用户访问的网页的MHT文件的地址；

通过将MHT文件的地址嵌入到IE浏览器，打开MHT文件对应的网页；

执行截图命令，对所述MHT文件对应的网页进行截图，获取第三图片。

A8、根据A1-A7任一项所述的方法，将所述第三图片与选取的第一图片对应的第二图片进行匹配进一步包括：

分别抽取所述第三图片与选取的第一图片对应的第二图片的特征；

将所述第三图片的特征与选取的第一图片对应的第二图片的特征进行匹配，若所述第三图片的特征与选取的第一图片对应的第二图片中的任一第二图片的特征匹配，则确定所述网页为可疑的钓鱼网页。

A9、根据A8所述的方法，其中，所述将所述第三图片的特征与选取的第一图片对应的第二图片的特征进行匹配进一步包括：

查找所述第三图片的特征与选取的第一图片对应的第二图片的特征匹配的邻近特征点，若所述邻近特征点个数大于第一阈值，则确定所述网页为可疑的钓鱼网页。

A10、根据A1-A9任一项所述的方法，其中，所述图片规则库的建立包括：

对多个已知钓鱼网页进行截图，获取第一图片，从每个第一图片中截取具有钓鱼网页特征的至少一个第二图片，并将所述第二图片添加到图片规则库中，其中，第二图片的尺寸小于或等于所述第一图片的尺寸。

A11、根据A1-A9任一项所述的方法，其中，所述图片规则库的建立包括：

对初始获取的多个已知钓鱼网页进行截图，获取第一图片，从获取的第一图片中截取具有钓鱼网页特征的至少一个第二图片，并将所述第二图片添加到图片规则库中作为样本集；

对所述样本集包含的第二图片进行分类，对分类后的样本集进行分类学习得到各个类别对应的图片特征库；

将所述第四图片的特征与所述各个类别对应的图片特征库进行匹配，若所述第四图片的特征与一类别对应的图片特征库匹配，则将所述第四图片作为第二图片添加到图片规则库中，并将所述第四图片归类与所匹配的类别。

A12、根据A1-A11任一项所述的方法，在所述确定网页为可疑的钓鱼网页之后还包括：

采用基于URL和/或IP和/或网页内容进行识别的方法对所述网页进行识别，确定所述网页是否为钓鱼网页。

本发明还公开了：B13、一种基于图片匹配检测钓鱼网页的装置，包括：

B14、根据B13所述的装置，所述相似度计算模块进一步包括：

聚类处理单元，适于分别对所述第三图片和所述图片规则库中的所有第一图片进行聚类处理；

特征点获取单元，适于获取聚类处理后第三图片和图片规则库中第一图片的特征点；

相似度计算单元，适于根据聚类处理后第三图片和图片规则库中第一图片的特征点计算特征点相似度。

B15、根据B13或B14所述的装置，所述选取模块进一步适于：

B16、根据B13或B14所述的装置，所述选取模块进一步适于：

B17、根据B14-B16任一项所述的装置，还包括：消重处理模块，适于对所述图片规则库中的所有第一图片的特征点进行消重处理。

B18、根据B13-B17任一项所述的装置，其中，所述获取模块进一步包括：

接收单元，适于通过服务器接收用户访问的网页的统一资源定位符；

调用单元，适于调用chrome浏览器打开所述统一资源定位符对应的网页；

图片获取单元，适于执行截图命令，对所述统一资源定位符对应的网页进行截图，获取第三图片。

B19、根据B13-B17任一项所述的装置，其中，所述获取模块进一步包括：

接收单元，适于远程调用IE机器接收用户访问的网页的MHT文件的地址；

嵌入单元，适于通过将MHT文件的地址嵌入到IE浏览器，打开MHT文件对应的网页；

图片获取单元，适于执行截图命令，对所述MHT文件对应的网页进行截图，获取第三图片。

B20、根据B13-B19任一项所述的装置，所述匹配模块进一步包括：

抽取单元，适于分别抽取所述第三图片与选取的第一图片对应的第二图片的特征；

匹配单元，适于将所述第三图片的特征与选取的第一图片对应的第二图片的特征进行匹配，若所述第三图片的特征与选取的第一图片对应的第二图片中的任一第二图片的特征匹配，则确定所述网页为可疑的钓鱼网页。

B21、根据B20所述的装置，其中，所述匹配单元进一步适于：

B22、根据B13-B21任一项所述的装置，其中，还包括：

钓鱼网页预处理模块，适于对多个已知钓鱼网页进行截图，获取第一图片，从每个第一图片中截取具有钓鱼网页特征的至少一个第二图片，并将所述第二图片添加到图片规则库中，其中，第二图片的尺寸小于或等于所述第一图片的尺寸。

B23、根据B13-B21任一项所述的装置，其中，还包括钓鱼网页预处理模块，具体适于：

B24、根据B13-B23任一项所述的装置，还包括：

识别模块，适于采用基于URL和/或IP和/或网页内容进行识别的方法对所述网页进行识别，确定所述网页是否为钓鱼网页。

Claims

1.一种基于图片匹配检测钓鱼网页的方法，所述方法的执行基于预先建立的包含多个第一图片和第二图片的图片规则库，在建立图片规则库时对第二图片进行分类，得到对应类别的图片规则库，所述第一图片是已知钓鱼网页的截图，所述第二图片是在所述第一图片中所截取的具有钓鱼网页特征的图片，其中，第二图片的尺寸小于或等于第一图片的尺寸；

所述方法包括：

对浏览器打开的网页进行截图，获取第三图片；

2.根据权利要求1所述的方法，所述计算所述第三图片与所述图片规则库中所有第一图片的相似度进一步包括：

3.根据权利要求1或2所述的方法，所述根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于所述图片规则库中第一图片的总数量进一步包括：

4.根据权利要求1或2所述的方法，所述根据相似度对图片规则库中的所有第一图片进行排序，按照排序后的顺序选取多个第一图片，选取的第一图片的数量小于所述图片规则库中第一图片的总数量进一步包括：

5.根据权利要求2所述的方法，在所述分别对第三图片和所述图片规则库中的所有第一图片进行聚类处理之前还包括：对所述图片规则库中的所有第一图片的特征点进行消重处理。

6.根据权利要求1或2或5所述的方法，其中，所述对浏览器打开的网页进行截图，获取第三图片进一步包括：

通过服务器接收用户访问的网页的统一资源定位符；

调用chrome浏览器打开所述统一资源定位符对应的网页；

7.根据权利要求1或2或5所述的方法，其中，所述对浏览器打开的网页进行截图，获取第三图片进一步包括：

远程调用IE机器接收用户访问的网页的MHT文件的地址；

8.根据权利要求1或2或5所述的方法，将所述第三图片与选取的第一图片对应的第二图片进行匹配进一步包括：

9.根据权利要求8所述的方法，其中，所述将所述第三图片的特征与选取的第一图片对应的第二图片的特征进行匹配进一步包括：

10.根据权利要求1或2或5所述的方法，其中，所述图片规则库的建立包括：

11.根据权利要求1或2或5所述的方法，其中，所述图片规则库的建立包括：

将所述第四图片的特征与所述各个类别对应的图片特征库进行匹配，若所述第四图片的特征与一类别对应的图片特征库匹配，则将所述第四图片作为第二图片添加到图片规则库中，并将所述第四图片归类于所匹配的类别。

12.根据权利要求1或2或5所述的方法，在确定网页为可疑的钓鱼网页之后还包括：

13.一种基于图片匹配检测钓鱼网页的装置，包括：

图片规则库，所述图片规则库包含多个第一图片和第二图片，在建立图片规则库时对第二图片进行分类，得到对应类别的图片规则库，所述第一图片是已知钓鱼网页的截图，所述第二图片是在所述第一图片中所截取的具有钓鱼网页特征的图片，其中，第二图片的尺寸小于或等于第一图片的尺寸；

14.根据权利要求13所述的装置，所述相似度计算模块进一步包括：

15.根据权利要求13或14所述的装置，所述选取模块进一步适于：

16.根据权利要求13或14所述的装置，所述选取模块进一步适于：

17.根据权利要求13或14所述的装置，还包括：消重处理模块，适于对所述图片规则库中的所有第一图片的特征点进行消重处理。

18.根据权利要求13或14所述的装置，其中，所述获取模块进一步包括：

19.根据权利要求13或14所述的装置，其中，所述获取模块进一步包括：

20.根据权利要求13或14所述的装置，所述匹配模块进一步包括：

21.根据权利要求20所述的装置，其中，所述匹配单元进一步适于：

22.根据权利要求13或14所述的装置，其中，还包括：

23.根据权利要求13或14所述的装置，其中，还包括钓鱼网页预处理模块，具体适于：

24.根据权利要求13或14所述的装置，还包括：