CN103428186A

CN103428186A - 一种检测钓鱼网站的方法及装置

Info

Publication number: CN103428186A
Application number: CN2012101650173A
Authority: CN
Inventors: 付俊; 张峰; 李友国; 杨光华
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2012-05-24
Filing date: 2012-05-24
Publication date: 2013-12-04

Abstract

本发明公开了一种检测钓鱼网站的方法及装置，涉及网络安全技术领域，解决了现有技术中，对钓鱼网站的检测必须依赖第三方，检测方式被动的技术问题。其中，该方法包括：按照预设的目标网站日志路径抓取所述目标网站的日志数据；从所述日志数据中记录的来源页面信息里解析出跳转到所述目标网站的来源站点的域名信息；根据所述域名信息检测所述来源站点是否为钓鱼网站。本发明实施例主要用于保护网站安全。

Description

一种检测钓鱼网站的方法及装置

技术领域

本发明涉及网络安全技术领域，尤其涉及一种检测钓鱼网站的方法及装置。

背景技术

所谓“钓鱼网站”是一种网络欺诈行为，指不法分子利用各种手段，仿冒真实网站的URL地址以及页面内容，或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码，以此来骗取用户银行或信用卡账号、密码等私人资料。

一般来说钓鱼网站结构很简单，只有一个或几个页面，URL和真实网站有细微差别。例如针对某运营商网上营业的钓鱼网站在其假冒页面中包含账号密码输入信息的部分连接至其服务器，而页面中的其他链接项如帮助页面，新闻页面等则无法访问或者跳转至真实网站的相关链接处。

现有技术中，对于新出现的疑似钓鱼网站，目前的监控和检测手段主要有：

1、“钓鱼网站”受害者或发现者向相关监管机构举报钓鱼网站，监管机构经过鉴定判断其是否为钓鱼网站，如果是则收录至钓鱼网站库中。

2、安装在普通用户pc机上的杀毒软件或钓鱼网站检测控件，根据普通用户的访问行为，以及自身的判断方法来对用户访问的网站进行钓鱼网站识别，最后对疑似或确定的钓鱼网站进行上报和收录。

3、部分安全厂商在大量网络节点出部署安全设备，用于收集新出现的疑似钓鱼网站的域名信息或统一资源定位符(Uniform/Universal ResourceLocator，URL)信息。

但是，从以上三种对新出现的疑似钓鱼网站的监控和检测方法，对于企业的网络站点自身来说，监控和发现新的疑似本企业钓鱼网站的方法主要依靠钓鱼受害者举报、安全厂商或反钓鱼联盟等第三方机构，企业的网络站点自身无法自主发现新出现的疑似钓鱼网站。因此，导致了疑似钓鱼网站的获取方式非常被动，企业网络站点无法依据自身资源对新出现的疑似钓鱼网站进行主动检测，故而降低了企业网络站点自身防护钓鱼网站的效率、损害了用户的信息安全性。

发明内容

为了解决现有技术中网站仅能被动防范钓鱼网站的问题，本发明的一个方面提出一种检测钓鱼网站的方法。

一种检测钓鱼网站的方法，包括：

按照预设的目标网站日志路径抓取所述目标网站的日志数据；

从所述日志数据中记录的来源页面信息里解析出跳转到所述目标网站的来源站点的域名信息；

根据所述域名信息检测所述来源站点是否为钓鱼网站。

一种检测钓鱼网站的装置，包括：

抓取模块，用于按照预设的目标网站日志路径抓取所述目标网站的日志数据；

解析模块，用于从所述日志数据中记录的来源页面信息里解析出跳转到所述目标网站的来源站点的域名信息；

检测模块，用于根据所述域名信息检测所述来源站点是否为钓鱼网站。

本发明提出的上述方案中，通过分析目标网站web服务器日志中的来源页面(referer)字段来统计和梳理访问该网站的来源站点，而这些来源站点极大可能包括了一些钓鱼网站，因此通过分析这些来源站点的域名信息可以检测和鉴别新出现的钓鱼网站，解决了现有技术中，网站仅能通过先被告知是钓鱼网站，再进行防范的方式，进而实现了可主动检测钓鱼网站，提高企业的网络站点自身防护钓鱼网站的效率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例1中一种检测钓鱼网站的方法的应用场景示意图；

图2为本发明实施例1中一种检测钓鱼网站的方法的流程图；

图3为本发明实施例2中一种检测钓鱼网站的方法的流程；

图4为本发明实施例3中一种检测钓鱼网站的装置的结构示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

实施例1

本实施例提供一种检测钓鱼网站的方法，该方法可以部署在网络站点的web服务器上，也可以部署在与网络站点的服务器相连接的设备上。当是第二种情况时，可以参考图1所示的构架示意图。该方法如图2所示，包括：

步骤101，按照预设的目标网站日志路径抓取目标网站的日志数据；

步骤102，从日志数据中记录的来源页面信息里解析出跳转到目标网站的来源站点的域名信息；

步骤103，根据域名信息检测来源站点是否为钓鱼网站。

本实施例中，上述步骤103可有多种实现方式，在步骤101-102中主动获取到域名信息后，甚至可利用现有的操作方法判断是否为钓鱼网站，例如人工判断等。但是本发明也提供了优选方案。可具体参照下属实施2中的步骤204。

一般来说，钓鱼攻击者为使钓鱼网站做的更逼真，在整个钓鱼网站设计时，假冒的网站中大部分链接会指向真实站点，只有极少几个页面和URL是虚假的。如针对金融或运营商网上营业厅的钓鱼网站，一般将包含账号密码输入信息的页面做成钓鱼页面，其他页面如帮助页面，新闻页面等全部指向真实金融或运营商网上营业厅的服务器。

网站日志数据中的referer字段记录了访问该网站的上一级跳转链接。例如通过百度搜索到某网站并点击进入，则在该网站的曰志服务器记录中referer字段会记录百度的域名信息(由于一个网站的域名信息与该网站的URL有对应的关系，知道其中之一，一般都可以根据对应的关系找到另一，因此也可以认为referer字段也记录了百度的URL)；若用户是直接在地址栏中输入网站URL，则referer字段为空。根据钓鱼网站和网站日志数据中referer字段的特性，再结合普通用户对钓鱼网站的访问行为，本案的发明人提出基于referer字段收集统计钓鱼网站来源的方法。

例如，具体场景为：某钓鱼攻击者搭建了假冒网上营业厅的钓鱼网站，该假冒网站中输入用户名密码的页面为攻击者构造的页面，其他如充值活动、客服和帮助等新闻页面指向真实的网上营业厅地址。当普通用户访问了该钓鱼网站，如果访问了该钓鱼网站中真实的链接页面，则在真实的网上营业厅服务器访问日志中留下访问来源(即虚假钓鱼网站)的URL，从而给钓鱼网站的检测提供素材。本实施结合上述分析和情况，提出了根据目标网站日志中referer来检测跳转到该目标网站的来源站点的URL，主动检测并识别该来源站点是否为钓鱼网站的方法，因此本实施例中的方法与现有技术主要区别在于对疑似钓鱼网站的来源检测上，企业的网站不再需要依赖第三方机构，完全可以通过自己独立进行钓鱼网站检测，故而可以取得可主动检测出钓鱼网站，提高企业网络站点自身防护钓鱼网站的效率的技术效果。

实施例2

本实施例具体提供一种检测钓鱼网站的方法，如图3所示，该方法包括：

步骤201，检测钓鱼网站的装置按照预设的目标网站日志路径抓取目标网站的日志数据。

具体而言，本实施例的方法在部署时，在配置方面需要配置被监控和保护的目标web站点(目标web站点即目标网站)，其web访问的日志路径。更优选的，还可以配置操作系统的账户口令，用于进行认证，保证安全性。

此外，再利用ssh/telnet或smb协议到目标web站点中远程抓取相应日志。

其中，对于windows站点主要采用smb协议，而对于Linux或Unix站点则采用ssh/telnet协议。因此，支持抓取的操作系统包括windows、Linux、Solaris、Aix等。其抓取方式也可采用周期性增量抓取的方式，抓取周期可以由管理员制定。

步骤202，检测钓鱼网站的装置将抓取的日志数据统一成可识别的格式。

步骤202实际上为一个对日志数据进行预处理的过程。因为，对于远程抓取到的访问日志数据，根据协议或系统的不同，可能有多种格式，故而需要进行识别和分析并进行泛化，形成统一可识别格式。本实施中，该方法支持分析的web容器可包括Apache、IIS、Tomcat、WebSphere、Weblogic、resin和Nginx等。

步骤203，检测钓鱼网站的装置从日志数据中记录的来源页面信息里解析出跳转到目标网站的来源站点的域名信息。

根据不同类型web容器产生的web访问日志数据，对步骤202中预处理的日志数据中中referer字段中的域名信息进行提取。

在这里需要说明的是：现有主要的WEB日志格式主要由两类，一类是Apache的NCSA日志格式，另一类是IIS的W3C日志格式，并且现有的日志数据中均会包含以下字段：

访问主机(remotehost)-显示主机的IP地址或者已解析的域名。

标识符(Ident)-由identd或直接由浏览器返回浏览者的EMAIL或其他唯一标示，因为涉及用户邮箱等隐私信息，目前几乎所有的浏览器就取消了这项功能。

授权用户(authuser)-用于记录浏览者进行身份验证时提供的名字，如果需要身份验证或者访问密码保护的信息则这项不为空，但目前大多数网站的日志这项也者是为空的。

日期时间(date)-一般的格式形如[22/Feb/2010:09:51:46+0800]，即[日期/月份/年份:小时:分钟:秒钟时区]，占用的字符位数也基本固定。

请求(request)-即在网站上通过何种方式获取了哪些信息，也是日志中较为重要的一项，主要包括以下三个部分：

请求类型(METHOD)：常见的请求类型主要包括GET/POST/HEAD这三种；

请求资源(RESOURCE)：显示的是相应资源的URL，可以是某个网页的地址，也可以是网页上调用的图片、动画、CSS等资源；

协议版本号(PROTOCOL)：显示协议及版本信息，通常是HTTP/1.1或HTTP/1.0。

状态码(status)-用于表示服务器的响应状态，通常1xx的状态码表示继续消息；2xx表示请求成功；3xx表示请求的重定向；4xx表示客户端错误；5xx表示服务器错误。

传输字节数(bytes)-即该次请求中一共传输的字节数。

来源页面(referer)-用于表示浏览者在访问当前页面之前所浏览的页面，只有从上一页面链接过来的请求才会有该项输出。

用户代理(agent)-用于显示用户的详细信息，包括IP、OS、Bowser等。

本实施例中应用的就是上面已介绍的日志数据中的referer字段，由于该referer字段在日志中所代表的作用，因此只需从抓取的日志数据中的referer字段里便可以提取出跳转到当前页面之前，用户所浏览的页面，从该页面的网址中可以分析出上一级网站(即来源站点)的域名信息。

步骤204，检测钓鱼网站的装置在预设的钓鱼网站黑名单和非钓鱼网站白名单中查询是否存在域名信息；若域名信息不存在于钓鱼网站黑名单和非钓鱼网站白名单，则执行步骤205，进行疑似钓鱼网站确定处理；若域名信息存在于钓鱼网站黑名单中，则若确定域名信息为钓鱼网站，后继将执行防护流程，即按照步骤208执行；若域名信息存在于非钓鱼网站白名单中，则不作处理。

本实施的方法中，维护着钓鱼网站白名单和黑名单两个数据库，其中非钓鱼网站白名单库中主要记录了大量知名站点的域名信息，如baidu、google以及各大论坛等易于出现在referer字段中的站点；钓鱼网站黑名单库中主要记录了大量已经定义为钓鱼网站的域名信息库。

本实施例中，对于从referer字段中提取到的域名信息，首先使用维护的黑白名单进行匹配，如果已经在黑白名单中，则结束对本次抓取的referer字段的分析过程而进入下一域名的分析流程中，并执行防护处理，在遇到来自黑名单中域名信息的请求时，回复告警信息(具体详见步骤208)；如果该域信息名未出现在黑白名单中，则进入疑似钓鱼网站(疑似钓鱼网站主要指有可能成为钓鱼网站的站点)处理的下述步骤205流程。

步骤205，检测钓鱼网站的装置对域名信息的域名相似度进行检测，若检测后的相似度数值超过预设的域名相似度阈值，则发送域名相似度告警；和/或，对域名信息的内容相似度进行检测，若检测后的相似度数值超过预设的内容相似度阈值，则发送内容相似度告警。

具体而言，为更好的骗取用户信任，一些钓鱼网站的URL与真实网站的URL极其相似，根据这种特性，可对钓鱼网站进行域名相似度检测。如对于中国移动门户的域名信息www.10086.cn，如出现www.l0086.cn的域名(其中l为小写的L)，则其相似度极高，及有可能为钓鱼网站。因此在实际检测时，可事先设置域名相似度阀值，超过这个阀值则域名相似度则发出告警以用于提示用户。和/或，

单一的根据域名相似度进行钓鱼网站检测可能存在一定误报现象，因此优选方案中，可混合内容相似度检测同时进行。内容相似度检测主要检查被检测的站点内容与真实站点内容的相似度，如果相似度极高，则也可能为钓鱼网站。

具体检测方式为：根据域名信息，抓取需要判断的该域名信息的URL页面，并存放于本地缓存；再提取页面主体内容，例如去掉页面标签、元素以及一些语言无关的助词；最后再进行主体内容比对。在实际检测时，可事先设置内容相似度阀值，超过这个阀值则进行告警以提示用户。

本实施例中，该域名相似度检测或内容相似度检测均可以利用现有技术实现。如核心算法可以采用已有的Levenshtein Distance(LD)-计算两字符串相似度算法来实现dLevenshtein Distance(LD)：LD可能衡量两字符串的相似性。它们的距离就是一个字符串转换成那一个字符串过程中的添加、删除、修改数值。

举例：如果str1="test"，str2="test"，那么LD(str1,str2)=0。没有经过转换。如果str1="test"，str2="tent"，那么LD(str1,str2)=1。str1的"s"转换"n"，转换了一个字符，所以是1。如果它们的距离越大，说明它们越是不同。具体实现方式是本领域技术人员公知的，在此不赘述。

至此，一次检测过程结束。

需要说明的是：上述提供的内容相似度检测和域名相似度检测的执行顺序并不受限制，也可以执行内容相似度检测，在执行域名相似度检测，甚至两种检测同时进行。

在该步骤205中，为了保证检测后的准确性。更优选的方案是：在域名相似度检测和内容相似度检测后，由人工进行最后确认。如根据检测后的告警，用户对告警的域名信息进行确认，如即使未出现告警，也可以由用户对检测结果进行确认。当然，若忽略检测结果的准确性问题，也可以省略用户确定过程，直接根据检测结果执行下述步骤如发出告警的则执行步骤2071；未发生告警的，则执行步骤2072或步骤2073。下面以需要用户确定过程为例进行描述。

步骤206，在接收到内容域名相似度告警或域名相似度告警后，用户确定域名信息是否为钓鱼网站；若用户确定为钓鱼网站，则检测钓鱼网站的装置执行步骤2071；若用户确定为非钓鱼网站，则检测钓鱼网站的装置执行步骤2072；若用户无法确定，则检测钓鱼网站的装置执行步骤2073。

步骤2071，将域名信息添加入钓鱼网站黑名单中，并执行步骤208。

具体地，若确认为钓鱼网站则将其加入自身维护的钓鱼网站黑名单中，并进入下一步的防护处理流程(即步骤208)；

步骤2072，将域名信息添加入非钓鱼网站的白名单中。

具体地，如确认为非钓鱼网站，且为白名单中没有的国内外知名网站，则将其加入自身维护的白名单库中，并进入下一域名的检测步骤；

步骤2073，将域名信息放入统计分析库，并统计域名信息出现的次数；若统计的次数在预定的时间内超过预定的出现频率，则将域名信息添加入非钓鱼网站的白名单中。

具体地，除上述2中情况下，提取出的来源站点则可能为小型或临时站点信息，这些域名也存在以后变成钓鱼网站的可能性，所以将其列入统计分析库，如超过一定时间周期内一直出现，且出现频率较高，则可以将其加入非钓鱼网站白名单中。

步骤208，当用户通过来源网站访问时，检测钓鱼网站的装置在回复中添加钓鱼网站告警提示。

具体而言，该步骤208属于防护处理步骤。如图1所示，本方法部署时，为了该步骤208的实施，防护部署时主要通过和网站前端部署的防火墙、IPS或其它安全设备进行联动的方式实现，具体可以为：将防护策略推送给前端安全设备，如防火墙等，并由安全设备进行防护。

其防护手段是：对用户请求中referer字段含义属于钓鱼网站黑名单中域名信息的请求消息，在回复数据包时，对用户进行钓鱼告警提示，从而起到防范的作用。

本实施例中，该步骤208进行防护的依据即是上述提到过的钓鱼网站黑名单。因此，其告警发送过程可以由于用户的访问而触发，也可以说实时进行，当检测到新的钓鱼网站时(如步骤2071)，则将升级该钓鱼网站黑名单。

本实施例提供的方法可通过分析企业自身web服务器日志数据中的referer字段来统计和梳理访问该网站的来源站点，而这些来源站点极大可能包括了一些钓鱼网站，因此通过分析这些来源站点的域名信息，再根据域名相似度和内容相似度来检测和鉴别新出现的钓鱼网站，最后与部署在web站点前端的FW(防护墙)和IPS(入侵预防系统)等安全防护设备进行联动，进而实现对于疑似钓鱼网站的来源检测上，不再需要依赖第三方机构，完全可以通过自己独立、主动地进行钓鱼网站检测，同时，还可对普通用户进行安全告警，避免上当受骗，从而取得提高钓鱼网站检测效率、保证安全性的技术效果。

实施例3

本实施例提供一种检测钓鱼网站的装置，如图4所示，包括：抓取模块41，解析模块42，检测模块43。

抓取模块41，用于按照预设的目标网站日志路径抓取目标网站的日志数据；解析模块42，用于从日志数据中记录的来源页面信息里解析出跳转到目标网站的来源站点的域名信息；检测模块43，用于根据域名信息检测来源站点是否为钓鱼网站。

优选方案中，该装置还可包括：预处理模块44，防护模块45。

其中，预处理模块44，用于在按照预设的目标网站日志路径抓取目标网站的曰志数据之后，将抓取的日志数据统一成可识别的格式。

防护模块45，用于在检测模块检测出域名信息为钓鱼网站后，当用户通过来源网站访问时，在回复中添加钓鱼网站告警提示。

进一步地，本实施例提供的检测模块43包括：

钓鱼网站识别单元，用于在预设的钓鱼网站黑名单和非钓鱼网站白名单中查询是否存在域名信息；若域名信息不存在于钓鱼网站黑名单和非钓鱼网站白名单，则进行疑似钓鱼网站确定处理；若域名信息存在于钓鱼网站黑名单中，则确定为钓鱼网站。

钓鱼网站识别单元包括：

疑似检测子单元，用于对域名信息的域名相似度进行检测，若检测后的相似度数值超过预设的域名相似度阈值，则发送域名相似度告警；和/或，对域名信息的内容相似度进行检测，若检测后的相似度数值超过预设的内容相似度阈值，则发送内容相似度告警。

钓鱼网站识别单元还可包括：

疑似确定子单元，用于在接收到内容域名相似度告警或域名相似度告警后，用户确定域名信息是否为钓鱼网站；若用户确定为钓鱼网站，则将域名信息添加入钓鱼网站黑名单中；若用户确定为非钓鱼网站，则将域名信息添加入非钓鱼网站的白名单中；若用户无法确定，则将域名信息放入统计分析库，并统计域名信息出现的次数，若统计的次数在预定的时间内超过预定的出现频率，则将域名信息添加入非钓鱼网站的白名单中。

本发明提供的装置具有分析目标网站web服务器日志中的来源页面(referer)字段来统计和梳理访问该网站的来源站点的功能，而由于这些来源站点极大可能包括了一些钓鱼网站，因此通过分析这些来源站点的域名信息可以检测和鉴别新出现的钓鱼网站，解决了现有技术中，网站仅能通过先被告知是钓鱼网站，再进行防范的方式，进而实现了可主动检测钓鱼网站，提高企业的网络站点自身防护钓鱼网站的效率。

本发明能有多种不同形式的具体实施方式，上文结合附图对本发明做举例说明，这并不意味着本发明所应用的具体实施方式只能局限在这些特定的具体实施方式中，本领域的技术人员应当了解，上文所提供的具体实施方式只是多种优选实施方式中的一些示例，任何体现本发明权利要求的具体实施方式均应在本发明权利要求所要求保护的范围之内；本领域的技术人员能够对上文各具体实施方式中所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换或者改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种检测钓鱼网站的方法，其特征在于，包括：

从所述曰志数据中记录的来源页面信息里解析出跳转到所述目标网站的来源站点的域名信息；

根据所述域名信息检测所述来源站点是否为钓鱼网站。

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

若确定所述域名信息为钓鱼网站，则当用户通过所述来源网站访问时，在回复中添加钓鱼网站告警提示。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述域名信息检测所述来源站点是否为钓鱼网站具体包括：

在预设的钓鱼网站黑名单和非钓鱼网站白名单中查询是否存在所述域名信息；

若所述域名信息不存在于钓鱼网站黑名单和非钓鱼网站白名单，则进行疑似钓鱼网站确定处理；

若所述域名信息存在于所述钓鱼网站黑名单中，则确定为钓鱼网站。

4.根据权利要求3所述的方法，其特征在于，所述进行疑似钓鱼网站确定处理具体包括：

对所述域名信息的域名相似度进行检测，若检测后的相似度数值超过预设的域名相似度阈值，则发送域名相似度告警；和/或，

对所述域名信息的内容相似度进行检测，若检测后的相似度数值超过预设的内容相似度阈值，则发送内容相似度告警。

5.根据权利要求4所述的方法，其特征在于，所述进行疑似钓鱼网站确定处理具体还包括：

在接收到所述内容域名相似度告警或所述域名相似度告警后，用户确定所述域名信息是否为钓鱼网站；

若用户确定为钓鱼网站，则将所述域名信息添加入所述钓鱼网站黑名单中；

若用户确定为非钓鱼网站，则将所述域名信息添加入所述非钓鱼网站的白名单中；

若用户无法确定，则将所述域名信息放入统计分析库，并统计所述域名信息出现的次数；若统计的次数在预定的时间内超过预定的出现频率，则将所述域名信息添加入所述非钓鱼网站的白名单中。

6.根据权利要求1至5中任意一项所述的方法，其特征在于，在按照预设的目标网站曰志路径抓取所述目标网站的日志数据之后，该方法还包括：

将所述抓取的日志数据统一成可识别的格式。

7.一种检测钓鱼网站的装置，其特征在于，包括：

解析模块，用于从所述曰志数据中记录的来源页面信息里解析出跳转到所述目标网站的来源站点的域名信息；

8.根据权利要求7所述的装置，其特征在于，该装置还包括：

防护模块，用于在所述检测模块检测出所述域名信息为钓鱼网站后，当用户通过所述来源网站访问时，在回复中添加钓鱼网站告警提示。

9.根据权利要求7或8所述的装置，其特征在于，所述检测模块包括：

钓鱼网站识别单元，用于在预设的钓鱼网站黑名单和非钓鱼网站白名单中查询是否存在所述域名信息；若所述域名信息不存在于钓鱼网站黑名单和非钓鱼网站白名单，则进行疑似钓鱼网站确定处理；若所述域名信息存在于所述钓鱼网站黑名单中，则确定为钓鱼网站。

10.根据权利要求9所述的装置，其特征在于，所述钓鱼网站识别单元包括：

疑似检测子单元，用于对所述域名信息的域名相似度进行检测，若检测后的相似度数值超过预设的域名相似度阈值，则发送域名相似度告警；和/或，对所述域名信息的内容相似度进行检测，若检测后的相似度数值超过预设的内容相似度阈值，则发送内容相似度告警。

11.根据权利要求10所述的装置，其特征在于，所述钓鱼网站识别单元还包括：

疑似确定子单元，用于在接收到所述内容域名相似度告警或所述域名相似度告警后，用户确定所述域名信息是否为钓鱼网站；若用户确定为钓鱼网站，则将所述域名信息添加入所述钓鱼网站黑名单中；若用户确定为非钓鱼网站，则将所述域名信息添加入所述非钓鱼网站的白名单中；若用户无法确定，则将所述域名信息放入统计分析库，并统计所述域名信息出现的次数，若统计的次数在预定的时间内超过预定的出现频率，则将所述域名信息添加入所述非钓鱼网站的白名单中。

12.根据权利要求7至10中任意一项所述的装置，其特征在于，该装置还包括：

预处理模块，用于将所述抓取的日志数据统一成可识别的格式。