CN103986731A

CN103986731A - 通过图片匹配来检测钓鱼网页的方法及装置

Info

Publication number: CN103986731A
Application number: CN201410240956.9A
Authority: CN
Inventors: 李晓波; 牛成; 尹露; 杨晶; 郭峰
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-05-30
Filing date: 2014-05-30
Publication date: 2014-08-13

Abstract

本发明公开了一种通过图片匹配来检测钓鱼网页的方法及装置。其中方法的执行基于预先建立的包含多个第一图片的图片规则库，第一图片是在已知钓鱼网页的截图中所截取的具有钓鱼网页特征的图片；该方法包括：对浏览器打开的网页进行截图，获取第二图片；将第二图片与图片规则库所包含的多个第一图片进行匹配，若图片规则库内存在与第二图片匹配的第一图片，则确定网页为可疑的钓鱼网页。本发明中，由于第一图片具有钓鱼网页特征，因此在图片规则库内存在与第二图片匹配的第一图片的情况下，第二图片也具有钓鱼网页的特征，基于此能够快速并准确的判断网页为可疑的钓鱼网页。

Description

通过图片匹配来检测钓鱼网页的方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及一种通过图片匹配来检测钓鱼网页的方法及装置。

背景技术

随着互联网的发展，基于WEB的应用日益普及，人们通过浏览器可以查询银行账户、网上购物、电子商务、查询信息、获取知识、进行娱乐等，WEB为人们提供了方便和快捷的交互方式。然而，人们在上网冲浪浏览网页的同时，经常会遭遇到恶意网站的侵袭，导致计算机被病毒、木马等感染。

恶意网站，例如钓鱼网站、或者是欺诈，仿冒网站等，主要是通过仿冒真实网站的URL地址或是网页内容，伪装成银行及电子商务等类型的网站，或是利用真实网站服务器程序上的漏洞，在该网站的某些网页中插入危险的网页代码，以此来骗取用户银行或信用卡账号、密码等私人资料。恶意网页中包含着许多敏感的特征，例如，金融欺诈类的恶意网页会在文字、图片等方面仿冒官网，或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚假购物等信息，这些特征大多以文本串的形式出现在网页中。

现有的为了防范恶意网站的主要手段是当用户访问某网站时，客户端将网站的URL发送至服务器端的黑白名单数据库进行查询，然而由于钓鱼网站不断更新换代，这种方法对钓鱼网站等恶意网站的检出率不高并具有滞后性。或者是通过基于文本的方法进行识别，例如通过提取页面中关键词，并将关键词上传至服务器，在黑名单数据库中匹配，这种方法效率比较低下，而且容易受文字顺序等因素的影响，误判率较高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的通过图片匹配来检测钓鱼网页的方法和相应的通过图片匹配来检测钓鱼网页的装置。

根据本发明的一个方面，提供了一种通过图片匹配来检测钓鱼网页的方法，所述方法的执行基于预先建立的包含多个第一图片的图片规则库，所述第一图片是在已知钓鱼网页的截图中所截取的具有钓鱼网页特征的图片；

所述方法包括：

对浏览器打开的网页进行截图，获取第二图片；

将第二图片与所述图片规则库所包含的多个第一图片进行匹配，若所述图片规则库内存在与所述第二图片匹配的第一图片，则确定所述网页为可疑的钓鱼网页。

根据本发明的另一方面，提供了一种通过图片匹配来检测钓鱼网页的装置，其包括：

图片规则库，所述图片规则库包含多个第一图片，所述第一图片是在已知钓鱼网页的截图中所截取的具有钓鱼网页特征的图片；

获取模块，适于浏览器打开的网页进行截图，获取第二图片；

匹配模块，适于将第二图片与所述图片规则库所包含的多个第一图片进行匹配，若所述图片规则库内存在与所述第二图片匹配的第一图片，则确定所述网页为可疑的钓鱼网页。

根据本发明的提供的方案，对浏览器打开的网页进行截图，获取第二图片，将第二图片与图片规则库所包含的多个第一图片进行匹配，若图片规则库内存在与第二图片匹配的第一图片，则确定网页为可疑的钓鱼网页。本发明中，由于第一图片具有钓鱼网页特征，因此在图片规则库内存在与第二图片匹配的第一图片的情况下，第二图片也具有钓鱼网页的特征，基于此能够快速并准确的判断网页为可疑的钓鱼网页。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的通过图片匹配来检测钓鱼网页的方法的流程图；

图2示出了根据本发明另一个实施例的通过图片匹配来检测钓鱼网页的方法的流程图；

图3示出了根据本发明另一个实施例的获取第二图片的一种方法的流程图；

图4示出了根据本发明另一个实施例的获取第二图片的另一种方法的流程图；

图5示出了根据本发明一个实施例的通过图片匹配来检测钓鱼网页的装置的结构框图；

图6示出了根据本发明另一个实施例的通过图片匹配来检测钓鱼网页的装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的执行基于预先建立的包含多个第一图片的图片规则库，第一图片是在已知钓鱼网页的截图中所截取的具有钓鱼网页特征的图片。

建立图片规则库的方法是多种多样的，本发明主要介绍两种建立图片规则库的方法，但建立图片规则库的的方法并不仅限于此，本领域技术人员可以根据实际需要选用合适的方法建立图片规则库。

具体地，针对两种建立图片规则库的方法进行详细描述：

方法一：

对多个已知钓鱼网页进行截图，从每个已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第一图片，并将第一图片添加到图片规则库中，其中，第一图片的尺寸小于或等于已知钓鱼网页的截图的尺寸。

具体地，规则添加人员在截图工具的URL(统一资源定位符)输入框中输入已知钓鱼网页的URL，然后点击获取快照按钮对多个已知钓鱼网页进行截图，截图完成后，将钓鱼网页的截图展示给规则添加人员，由规则添加人员利用鼠标从每个已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第一图片，并将第一图片添加到图片规则库中，其中，第一图片的尺寸小于或等于已知钓鱼网页的截图的尺寸。

方法二：

(1)对初始获取的多个已知钓鱼网页进行截图，从每个已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第一图片，并将第一图片添加到图片规则库中作为样本集。

具体地，规则添加人员在截图工具的URL输入框中输入已知钓鱼网页的URL，然后点击获取快照按钮对多个已知钓鱼网页进行截图，截图完成后，将钓鱼网页的截图展示给规则添加人员，由规则添加人员利用鼠标从每个已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第一图片，并将第一图片添加到图片规则库中作为样本集，其中，第一图片的尺寸小于或等于已知钓鱼网页的截图的尺寸。

(2)对样本集包含的第一图片进行分类，对分类后的样本集进行分类学习得到各个类别对应的图片特征库。

具体地，根据网站类型对样本集包含的第一图片进行分类，例如按照仿冒淘宝、仿冒QQ登录、仿冒六合彩的分类方法对样本集包含的第一图片进行分类，然后利用分类学习算法对分类后的样本集进行分类学习例如学习各个类别对应的图片的特征，分类学习结束后得到各个类别对应的图片特征库。

(3)对后续获取的已知钓鱼网页进行截图，从已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第三图片，提取该第三图片的特征。

其中，截取第三图片的方法与本方法中截取第一图片的方法类似，在此不再赘述。在获得第三图片之后，利用视觉特征抽取算法抽取第三图片的特征。

(4)将第三图片的特征与各个类别对应的图片特征库进行匹配，若第三图片的特征与一类别对应的图片特征库匹配，则将第三图片作为第一图片添加到图片规则库中，并将第三图片归类与所匹配的类别。

上述方法一得到的图片规则库包含来自大量已知钓鱼网页的第一图片，并未对这些第一图片进行分类；而上述方法二通过分类学习的方法，能够对来自大量已知钓鱼网页的第一图片进行分类，基于这种做好分类的图片规则库，能够对识别出的钓鱼网页进行精确分类。

基于上述建立的图片规则库，进一步介绍检测钓鱼网页的具体方法。

可选地，本发明的检测钓鱼网页的方法是在后台服务器执行的，所建立的图片规则库可以存储在后台服务器端。但本发明并不局限于此，所建立的图片规则库也可存储在本地客户端，即后台服务器将建立的图片规则库同步给本地客户端，并定时对本地客户端的图片规则库进行更新，由本地客户端执行本发明的检测钓鱼网页的方法。

可选地，后台服务器的图片规则库不仅包含第一图片(例如以二进制数据的形式存储在数据库中)，还可包含已知钓鱼网页的截图、已知钓鱼网页的URL以及对网页的处理规则等其他信息。其中，已知钓鱼网页的截图是第一图片的来源，可用于判断第一图片是否有效即第一图片是否包含足够的钓鱼网页的特征，在第一图片不足以用于判断某网页是否为钓鱼网页的情况下，可从保存的已知钓鱼网页的截图中重新截取第一图片。此外，可通过判断某网页的URL是否为图片规则库中的已知钓鱼网页的URL来判断该网页是否为钓鱼网页。对网页的处理规则能够告知用户访问的网页是否为恶意网页，并在判定某网页为钓鱼网页时向用户展示所访问的网页的URL提醒用户，例如通过弹出窗口以该网页的URL为XXX，其是危险网页的形式来提醒用户，并将URL发送至URL处理服务器。此外还可向用户展示网页的HOST(域名)，本发明对比不做限制，本领域技术人员可以根据实际需要进行设置。

本发明实施例还提供有HOST\URL处理服务器：可以存储通过本发明所提供的方法所发现的钓鱼网页的HOST和URL；也可以接收恶意网址云引擎的反馈；还可以调度全网支持服务器集群的抓取。

图1示出了根据本发明一个实施例的通过图片匹配来检测钓鱼网页的方法的流程图。如图1所示，该方法包括以下步骤：

步骤S100，对浏览器打开的网页进行截图，获取第二图片。

浏览器打开的网页指用户通过客户端的浏览器打开的网页，其中客户端可以为计算机、移动终端、平板设备等，本发明对此不做限制。若本实施例的方法在后台服务器侧执行，那么则由服务器获取到浏览器打开的网页的URL或MHT文件之后，根据URL或MHT文件在服务器侧显示对应的网页并进行截图，获取第二图片，其中第二图片的内容与用户在客户端通过浏览器打开的网页的内容相同。若本实施例的方法在本地客户端侧执行，那么由本地客户端对浏览器打开的网页进行截图，获取第二图片。

步骤S110，将第二图片与图片规则库所包含的多个第一图片进行匹配，若图片规则库内存在与第二图片匹配的第一图片，则确定网页为可疑的钓鱼网页。

由于图片规则库中所包含的第一图片是在已知的钓鱼网页的截图中截取的具有钓鱼网页特征的图片，因此将第二图片与图片规则库所包含的多个第一图片进行匹配即是判定第二图片是否具有钓鱼网页特征，若图片规则库内存在与第二图片匹配的第一图片，则表示第二图片具有钓鱼网页特征，能够确定网页为可疑的钓鱼网页。

根据本发明上述实施例提供的方法，该方法的执行基于预先建立的包含多个第一图片的图片规则库，第一图片是在已知钓鱼网页的截图中所截取的具有钓鱼网页特征的图片。对浏览器打开的网页进行截图，获取第二图片，将第二图片与图片规则库所包含的多个第一图片进行匹配，若图片规则库内存在与第二图片匹配的第一图片，则确定网页为可疑的钓鱼网页。本实施例中，由于第一图片具有钓鱼网页特征，因此在图片规则库内存在与第二图片匹配的第一图片的情况下，第二图片也具有钓鱼网页的特征，基于此能够快速并准确的判断网页为可疑的钓鱼网页。

图2示出了根据本发明另一个实施例的通过图片匹配来检测钓鱼网页的方法的流程图。如图2所示，该方法包括以下步骤：

步骤S200，对浏览器打开的网页进行截图，获取第二图片。

浏览器打开的网页指用户通过客户端的浏览器打开的网页。在本实施例中，以服务器侧获取第二图片(即本实施例的方法由服务器侧执行)为例，说明如何获取第二图片。

在本实施例中主要通过两种方法获取第二图片，但并不限于此，本领域技术人员可以根据实际情况选用合适的方法获取第二图片。

具体地，针对获取第二图片的两种方法进行详细描述：

图3示出了根据本发明另一个实施例的获取第二图片的一种方法的流程图。在本方法中，执行主体是安装有chrome浏览器的服务器，该服务器封装有对应的接口，可选为阿帕奇接口，这里将封装有阿帕奇接口的该服务器称为阿帕奇服务器，以阿帕奇服务器为例进行说明。

如图3所示，该方法包括如下步骤：

步骤300，通过服务器接收用户访问的网页的URL。

具体地，可以通过阿帕奇服务器接收用户访问的网页的URL。阿帕奇服务器的主要特征是：可以运行在所有计算机平台；支持最新的HTTP1.1协议；简单而强有力的基于文件的配置；支持通用网关接口CGI；支持虚拟主机；支持HTTP认证；集成Perl脚本编程语言；集成的代理服务器；具有可定制的服务器日志；支持服务器端包含命令(SSI)；支持安全Socket层(SSL)；用户会话过程的跟踪能力；支持FastCGI；支持Java Servlets。

步骤310，调用chrome浏览器打开URL对应的网页。

在阿帕奇服务器中安装有CGI程序，该CGI程序内具有第三方工具，第三方工具支持若干API，通过这些API可将URL嵌入给chrome浏览器。具体来说，在通过阿帕奇服务器接收到客户端发送的用户访问的网页的URL之后，通过阿帕奇服务器将URL嵌入到CGI程序，然后通过CGI程序内的第三方工具提供的API将URL嵌入到chrome浏览器，调用chrome浏览器并启用chrome浏览器的debug模式，向处于debug模式下的chrome浏览器嵌入获取URL命令以及截图命令，chrome浏览器在接收到获取URL的命令之后，打开该URL对应的网页。

步骤320，执行截图命令，对URL对应的网页进行截图，获取第二图片。

具体地，chrome浏览器在接收到截图命令后，对URL对应的网页进行截图，并将截取的第二图片保存在阿帕奇服务器指定的文件夹内，本发明实施例对应的装置在收到阿帕奇服务器发送的图片保存地址后从阿帕奇服务器获取第二图片。

上述方法由于需要在阿帕奇服务器处利用chrome浏览器再次打开网页，即阿帕奇服务器需要再次访问网页服务器获取网页内容，因此获取速度比较慢，但该方法通过获取用户访问的网页的URL，并利用chrome浏览器打开获取的URL，服务器端的chrome浏览器打开的网页与用户通过客户端的浏览器打开的网页相同，可以精确的截图，具有准确性高的优点。

图4示出了根据本发明另一个实施例的获取第二图片的另一种方法的流程图。在本方法中，执行主体是安装有IE浏览器的服务器，这里将其称为IE机器。

如图4所示，该方法包括如下步骤：

步骤400，远程调用IE机器接收用户访问的网页的MHT文件的地址。

具体地，MHT是网页归档(英语：MIME HTML或MIME Encapsulationof Aggregate HTML Documents，又称单一文件网页或网页封存盘案)为一多用途互联网邮件扩展格式，将一个多附件网页(如包含大量图片、Flash动画、Java小程序的网页)存储为单一文件，可用于发送HTML电子邮件，此单一文件即称为一网页封存盘案。MHT文件保存在服务器指定目录下。IE机器向服务器发送获取MHT文件的地址的命令，服务器在收到命令后将MHT文件的地址发送给IE机器。

步骤410，通过将MHT文件的地址嵌入到IE浏览器，打开MHT文件对应的网页。

具体地，IE机器将接收的MHT文件的地址嵌入到IE浏览器，利用IE浏览器打开MHT文件对应的网页。

步骤420，执行截图命令，对MHT文件对应的网页进行截图，获取第二图片。

上述方法的优点是，IE机器无需再次访问网站服务器获取网页内容，而是通过MHT文件即可重新打开网页，因此获取第二图片的速度更快，从而使得钓鱼网页检测速度更快。

步骤S210，分别抽取第二图片与图片规则库所包含的多个第一图片的特征。

利用特征抽取算法抽取第二图片与图片规则库所包含的多个第一图片的特征。例如，利用ORB(ORiented Brief)特征抽取算法对第二图片与图片规则库所包含的多个第一图片进行ORB特征抽取，并提取出特征数据，其中，ORB特征提取指的是使用计算机抽取图像信息，决定每个图像的点是否属于一个特征点，ORB特抽取的结果是将特征点的特征数据提取出来。

步骤S220，判断第二图片特征是否与图片规则库所包含的任一第一图片的特征匹配，若是则执行步骤S230；若否则方法结束。

由于图片规则库中所包含的第一图片是在已知的钓鱼网页的截图中截取的具有钓鱼网页特征的图片，因此判断第二图片特征是否与图片规则库所包含的任一第一图片的特征匹配即是判定第二图片是否具有钓鱼网页特征。

具体地，查找第二图片的特征与图片规则库所包含的多个第一图片的特征匹配的邻近特征点，判断邻近特征点个数与第一阈值的关系，若邻近特征点个数大于第一阈值则第二图片的特征与图片规则库所包含的任一第一图片的特征匹配。可选地，将第二图片的特征与图片规则库所包含的任一第一图片的特征用kd-tree数据结构表示，利用kd-tree算法与K最邻近结点算法查找第二图片的特征与图片规则库所包含的多个第一图片的特征匹配的邻近特征点，若邻近特征点个数大于29(第一阈值)则第二图片的特征与图片规则库所包含的任一第一图片的特征匹配。

步骤S230，确定网页为可疑的钓鱼网页。

步骤S240，采用基于URL和/或IP和/或网页内容进行识别的方法对网页进行识别，确定网页是否为钓鱼网页。

通过上述步骤S200-步骤S230得到网页为可疑的钓鱼网页，可将上述方法与基于URL和/或IP和/或网页内容进行识别的方法结合起来确定网页是否为钓鱼网页，从而可以降低误判率。

具体地，可以通过判断用户访问的网页的URL是否属于本地黑/白名单来判定用户访问的网页是否为钓鱼网页，若用户访问的网页的URL属于本地黑名单则确定网页为钓鱼网页。

还可以通过判断用户访问的网页的URL是否属于高危域名或高危IP来判定用户访问的网页是否为钓鱼网页，若用户访问的网页的URL属于高危域名或高危IP则确定网页为钓鱼网页。

还可以通过基于网页内容识别方法进行判断，具体可以采用以下两种方法：

方法一：在访问网页加载完成后，提取网页的多个内容片段，获取每个内容片段对应的特征ID，其中内容片段与特征ID唯一对应；将多个内容片段对应的特征ID与特征库中的特征ID进行匹配，其中，特征库由服务器生成，是大量的钓鱼网页中的恶意内容片段对应的特征ID的集合；若多个内容片段对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID，则根据所述网页的信息，计算所述网页的评估分；根据所述网页的评估分与设定阈值的比较结果，确定网页是否为钓鱼网页。

方法二：在浏览器的网页事件加载完成后，提取网页的多个网页元素，获取每个网页元素对应的特征ID，其中内容片段与特征ID唯一对应；将多个网页元素对应的特征ID与特征库中的特征ID进行匹配，其中，特征库由服务器生成，是大量的钓鱼网页中的恶意内容片段对应的特征ID的集合；若多个网页元素对应的特征ID中具有与特征库中的特征ID匹配的至少一个特征ID，则将该匹配的至少一个特征ID进行组合计算得到至少一个模板ID，将所述至少一个模板ID与钓鱼网页识别库中的模板ID进行匹配，其中，模板ID可以是通过特定的快速哈希算法生成的定长的二进制数据，例如，通过MD5算法生成的64位的二进制串。与特征ID类似地，不同特征ID按照相同的顺序组合，按照相同的算法计算得到的模板ID是唯一的并且是不可逆的；若所述至少一个模板ID中具有与钓鱼网页识别库中的模板ID匹配的模板ID，则确定网页为钓鱼网页。

根据本发明上述实施例提供的方法，该方法的执行基于预先建立的包含多个第一图片的图片规则库，第一图片是在已知钓鱼网页的截图中所截取的具有钓鱼网页特征的图片。对浏览器打开的网页进行截图，获取第二图片；分别抽取第二图片与图片规则库所包含的多个第一图片的特征；判断第二图片特征是否与图片规则库所包含的任一第一图片的特征匹配，若是则确定网页为可疑的钓鱼网页；采用基于URL和/或IP和/或网页内容进行识别的方法对网页进行识别，确定网页是否为钓鱼网页。本实施例中，由于第一图片具有钓鱼网页特征，因此在图片规则库内存在与第二图片匹配的第一图片的情况下，第二图片也具有钓鱼网页的特征，基于此能够快速并准确的判断网页为可疑的钓鱼网页。在建立图片规则库时对图片进行了分类，因此当某网页为钓鱼网页时可以根据图片规则库中的图片进行自动识别并将网页进行归类。结合图片特征匹配与URL和/或IP和/或网页内容进行识别的方法对网页进行识别，降低了对网页的误判率。

图5示出了根据本发明一个实施例的通过图片匹配来检测钓鱼网页的装置的结构框图。如图5所示，该装置包括：图片规则库500、获取模块510、匹配模块520。

图片规则库500，图片规则库包含多个第一图片，第一图片是在已知钓鱼网页的截图中所截取的具有钓鱼网页特征的图片。

获取模块510，适于对浏览器打开的网页进行截图，获取第二图片。

获取模块510进一步包括：

接收单元530，适于通过服务器接收用户访问的网页的URL。

调用单元540，适于调用chrome浏览器打开URL对应的网页。

获取单元550，适于执行截图命令，对URL对应的网页进行截图，获取第二图片。

其中获取模块510可以是阿帕奇服务器或阿帕奇服务器中的一个模块。

匹配模块520，适于将第二图片与图片规则库所包含的多个第一图片进行匹配，若图片规则库内存在与第二图片匹配的第一图片，则确定网页为可疑的钓鱼网页。

匹配模块520进一步包括：

抽取单元560，适于分别抽取第二图片与图片规则库所包含的多个第一图片的特征。

匹配单元570，适于将第二图片的特征与图片规则库所包含的多个第一图片的特征进行匹配，若第二图片的特征与图片规则库所包含的任一第一图片的特征匹配，则确定网页为可疑的钓鱼网页。

匹配单元570进一步适于：查找第二图片的特征与图片规则库所包含的多个第一图片的特征匹配的邻近特征点，若邻近特征点个数大于第一阈值，则确定网页为可疑的钓鱼网页。

该装置还包括：钓鱼网页预处理模块580，适于对多个已知钓鱼网页进行截图，从每个已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第一图片，并将第一图片添加到图片规则库中，其中，第一图片的尺寸小于或等于已知钓鱼网页的截图的尺寸。

钓鱼网页预处理模块580还适于对初始获取的多个已知钓鱼网页进行截图，从每个已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第一图片，并将第一图片添加到图片规则库中作为样本集。

对样本集包含的第一图片进行分类，对分类后的样本集进行分类学习得到各个类别对应的图片特征库。

对后续获取的已知钓鱼网页进行截图，从已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第三图片，提取该第三图片的特征。

将第三图片的特征与各个类别对应的图片特征库进行匹配，若第三图片的特征与一类别对应的图片特征库匹配，则将第三图片作为第一图片添加到图片规则库中，并将第三图片归类与所匹配的类别。

该装置还包括：识别模块590，适于采用基于URL或IP或网页内容进行识别的方法对网页进行识别，确定网页是否为钓鱼网页。

根据本发明上述实施例提供的装置，图片规则库包含多个第一图片，第一图片是在已知钓鱼网页的截图中所截取的具有钓鱼网页特征的图片。对浏览器打开的网页进行截图，获取第二图片，将第二图片与图片规则库所包含的多个第一图片进行匹配，若图片规则库内存在与第二图片匹配的第一图片，则确定网页为可疑的钓鱼网页。本实施例中，由于第一图片具有钓鱼网页特征，因此在图片规则库内存在与第二图片匹配的第一图片的情况下，第二图片也具有钓鱼网页的特征，基于此能够快速并准确的判断网页为可疑的钓鱼网页。

图6示出了根据本发明另一个实施例的通过图片匹配来检测钓鱼网页的装置的结构框图。如图6所示，该装置包括：图片规则库600、获取模块610、匹配模块620。

图片规则库600，图片规则库包含多个第一图片，第一图片是在已知钓鱼网页的截图中所截取的具有钓鱼网页特征的图片。

获取模块610，适于对浏览器打开的网页进行截图，获取第二图片。

其中获取模块610可以是IE机器或IE机器中的一个模块。

获取模块610进一步包括：

接收单元630，进一步适于远程调用IE机器接收用户访问的网页的MHT文件的地址。

嵌入单元640，适于通过将MHT文件的地址嵌入到IE浏览器，打开MHT文件对应的网页。

获取单元650，进一步适于执行截图命令，对MHT文件对应的网页进行截图，获取第二图片。

匹配模块620，适于将第二图片与图片规则库所包含的多个第一图片进行匹配，若图片规则库内存在与第二图片匹配的第一图片，则确定网页为可疑的钓鱼网页。

匹配模块620进一步包括：

抽取单元660，适于分别抽取第二图片与图片规则库所包含的多个第一图片的特征。

匹配单元670，适于将第二图片的特征与图片规则库所包含的多个第一图片的特征进行匹配，若第二图片的特征与图片规则库所包含的任一第一图片的特征匹配，则确定网页为可疑的钓鱼网页。

匹配单元670进一步适于：查找第二图片的特征与图片规则库所包含的多个第一图片的特征匹配的邻近特征点，若邻近特征点个数大于第一阈值，则确定网页为可疑的钓鱼网页。

该装置还包括：钓鱼网页预处理模块680，适于对多个已知钓鱼网页进行截图，从每个已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第一图片，并将第一图片添加到图片规则库中，其中，第一图片的尺寸小于或等于已知钓鱼网页的截图的尺寸。

钓鱼网页预处理模块680具体适于对初始获取的多个已知钓鱼网页进行截图，从每个已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第一图片，并将第一图片添加到图片规则库中作为样本集。

该装置还包括：识别模块690，适于采用基于URL或IP或网页内容进行识别的方法对网页进行识别，确定网页是否为钓鱼网页。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的通过图片匹配来检测钓鱼网页的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：A1、一种通过图片匹配来检测钓鱼网页的方法，所述方法的执行基于预先建立的包含多个第一图片的图片规则库，所述第一图片是在已知钓鱼网页的截图中所截取的具有钓鱼网页特征的图片；

所述方法包括：

对浏览器打开的网页进行截图，获取第二图片；

A2、根据A1所述的方法，其中，所述对用户访问的网页进行截图，获取第二图片进一步包括：

通过服务器接收用户访问的网页的统一资源定位符；

调用chrome浏览器打开所述统一资源定位符对应的网页；

执行截图命令，对所述统一资源定位符对应的网页进行截图，获取第二图片。

A3、根据A1所述的方法，其中，所述对用户访问的网页进行截图，获取第二图片进一步包括：

远程调用IE机器接收用户访问的网页的MHT文件的地址；

通过将MHT文件的地址嵌入到IE浏览器，打开MHT文件对应的网页；

执行截图命令，对所述MHT文件对应的网页进行截图，获取第二图片。

A4、根据A1-A3任一项所述的方法，其中，所述将第二图片与所述图片规则库所包含的多个第一图片进行匹配进一步包括：

分别抽取所述第二图片与所述图片规则库所包含的多个第一图片的特征；

将所述第二图片的特征与所述图片规则库所包含的多个第一图片的特征进行匹配，若所述第二图片的特征与所述图片规则库所包含的任一第一图片的特征匹配，则确定所述网页为可疑的钓鱼网页。

A5、根据A4所述的方法，其中，所述将所述第二图片的特征与所述图片规则库所包含的多个第一图片的特征进行匹配进一步包括：

查找所述第二图片的特征与所述图片规则库所包含的多个第一图片的特征匹配的邻近特征点，若所述邻近特征点个数大于第一阈值，则确定所述网页为可疑的钓鱼网页。

A6、根据A1-A5任一项所述的方法，其中，所述图片规则库的建立包括：

对多个已知钓鱼网页进行截图，从每个已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第一图片，并将所述第一图片添加到图片规则库中，其中，第一图片的尺寸小于或等于所述已知钓鱼网页的截图的尺寸。

A7、根据A1-A5任一项所述的方法，其中，所述图片规则库的建立包括：

对初始获取的多个已知钓鱼网页进行截图，从每个已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第一图片，并将所述第一图片添加到图片规则库中作为样本集；

对所述样本集包含的第一图片进行分类，对分类后的样本集进行分类学习得到各个类别对应的图片特征库；

对后续获取的已知钓鱼网页进行截图，从已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第三图片，提取该第三图片的特征；

将所述第三图片的特征与所述各个类别对应的图片特征库进行匹配，若所述第三图片的特征与一类别对应的图片特征库匹配，则将所述第三图片作为第一图片添加到图片规则库中，并将所述第三图片归类与所匹配的类别。

A8、根据A1-A7任一项所述的方法，在所述确定网页为可疑的钓鱼网页之后还包括：

采用基于URL和/或IP和/或网页内容进行识别的方法对所述网页进行识别，确定所述网页是否为钓鱼网页。

本发明还公开了：B9、一种通过图片匹配来检测钓鱼网页的装置，其包括：

获取模块，适于对浏览器打开的网页进行截图，获取第二图片；

B10、根据B9所述的装置，其中，所述获取模块进一步包括：

接收单元，适于通过服务器接收用户访问的网页的统一资源定位符；

调用单元，适于调用chrome浏览器打开所述统一资源定位符对应的网页；

获取单元，适于执行截图命令，对所述统一资源定位符对应的网页进行截图，获取第二图片。

B11、根据B9所述的装置，其中，所述获取模块进一步包括：

接收单元，适于远程调用IE机器接收用户访问的网页的MHT文件的地址；

嵌入单元，适于通过将MHT文件的地址嵌入到IE浏览器，打开MHT文件对应的网页；

获取单元，适于执行截图命令，对所述MHT文件对应的网页进行截图，获取第二图片。

B12、根据B9-B11任一项所述的装置，其中，所述匹配模块进一步包括：

抽取单元，适于分别抽取所述第二图片与所述图片规则库所包含的多个第一图片的特征；

匹配单元，适于将所述第二图片的特征与所述图片规则库所包含的多个第一图片的特征进行匹配，若所述第二图片的特征与所述图片规则库所包含的任一第一图片的特征匹配，则确定所述网页为可疑的钓鱼网页。

B13、根据B12所述的装置，其中，所述匹配单元进一步适于：

B14、根据B9-B13任一项所述的装置，其中，还包括：

钓鱼网页预处理模块，适于对多个已知钓鱼网页进行截图，从每个已知钓鱼网页的截图中截取具有钓鱼网页特征的至少一个第一图片，并将所述第一图片添加到图片规则库中，其中，第一图片的尺寸小于或等于所述已知钓鱼网页的截图的尺寸。

B15、根据B9-B13任一项所述的装置，其中，还包括钓鱼网页预处理模块，具体适于：

B16、根据B9-B15任一项所述的装置，还包括：识别模块，适于采用基于URL和/或IP和/或网页内容进行识别的方法对所述网页进行识别，确定所述网页是否为钓鱼网页。

Claims

1.一种通过图片匹配来检测钓鱼网页的方法，所述方法的执行基于预先建立的包含多个第一图片的图片规则库，所述第一图片是在已知钓鱼网页的截图中所截取的具有钓鱼网页特征的图片；

所述方法包括：

对浏览器打开的网页进行截图，获取第二图片；

2.根据权利要求1所述的方法，其中，所述对用户访问的网页进行截图，获取第二图片进一步包括：

通过服务器接收用户访问的网页的统一资源定位符；

调用chrome浏览器打开所述统一资源定位符对应的网页；

3.根据权利要求1所述的方法，其中，所述对用户访问的网页进行截图，获取第二图片进一步包括：

远程调用IE机器接收用户访问的网页的MHT文件的地址；

4.根据权利要求1-3任一项所述的方法，其中，所述将第二图片与所述图片规则库所包含的多个第一图片进行匹配进一步包括：

5.根据权利要求4所述的方法，其中，所述将所述第二图片的特征与所述图片规则库所包含的多个第一图片的特征进行匹配进一步包括：

6.根据权利要求1-5任一项所述的方法，其中，所述图片规则库的建立包括：

7.根据权利要求1-5任一项所述的方法，其中，所述图片规则库的建立包括：

8.根据权利要求1-7任一项所述的方法，在所述确定网页为可疑的钓鱼网页之后还包括：

9.一种通过图片匹配来检测钓鱼网页的装置，其包括：

10.根据权利要求9所述的装置，其中，所述获取模块进一步包括：