CN104954372A

CN104954372A - 一种钓鱼网站的取证与验证方法及系统

Info

Publication number: CN104954372A
Application number: CN201510323341.7A
Authority: CN
Inventors: 张永铮; 杜飞; 庹宇鹏; 常鹏
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2015-06-12
Filing date: 2015-06-12
Publication date: 2015-09-30
Anticipated expiration: 2035-06-12
Also published as: CN104954372B

Abstract

本发明公开了一种钓鱼网站的取证与验证方法及系统。本方法为：1)取证与验证服务器调用浏览器打开待验证的URL地址，然后该浏览器发送HTTP请求消息给该服务器；2)该服务器从HTTP请求中提取URL字符串信息并截图；3)检查URL字符串信息是否存在于黑/白名单中；如果存在，则输出判断信息；4)提取URL字符串中的关键信息和域名关键信息；5)访问第三方可信资源服务器，提取该URL字符串对应WEB站点的关键信息；6)根据该URL访问WEB页面，提取页面关键信息；7)根据步骤4)～6)所提取的信息，计算得到该URL地址的可信值，将其与设定阈值的比较结果输出验证结果。本发明提高了取证的完整性和验证的效率。

Description

一种钓鱼网站的取证与验证方法及系统

技术领域

本发明涉及计算机网络安全领域，更确切的讲，本发明涉及一种钓鱼网站的取证与验证方法及系统。

背景技术

随着互联网的发展，网络逐渐成为人们工作、学习、和金融交易活动的平台，在给人们工作和生活带来便利的同时，频繁的网络犯罪也伴随而来。网络钓鱼攻击的主要目标是涉及金钱的网站，例如银行网站和证券网站。现在的电子商务、网络购物、网上银行等业务已经深入我们的日常生活，钓鱼攻击对这些网站的攻击，造成了巨大的损失。使得钓鱼攻击成了最严重的网站攻击方法之一。从2005年到今，金融行业所受的钓鱼站点的攻击所占比重在79％之上，有些月份甚至高于89％，并且钓鱼行为的数量和所占比重每月都在升高。

国内的反钓鱼组织对于所掌握的钓鱼站点大部分都来自支撑单位以及各大企业的举报和组织内部的封堵。现有的主流反网络钓鱼技术主要有黑名单、白名单、启发式检测、相似度检测和DOM文档比较等几类。但是，针对金融类网站的检测都存在一些不足：黑名单技术主要应用在URL拦截中和验证，缺点是不能及时更新钓鱼网站名单，具有滞后性，因此漏报率很高，并且消耗巨大的人力资源；基于EMD视觉相似度技术过分依赖采用的相似度检测算法，效率低下，且该方法以钓鱼网站与目标网站具有视觉相似性为前提；基于DOM文档比较的方法过分依赖于网页内部信息元素的识别，使用受到一定的限制。

发明内容

针对上述已有方法存在的问题，本发明公开了一种钓鱼网站的取证与验证方法及系统。

本发明的取证与验证方法具体步骤包括：

(1)钓鱼网站取证：取证与验证服务器调用浏览器打开待验证的URL地址，检查该URL地址的TAB标签的状态，如果为加载完成，则浏览器发送HTTP请求消息给步骤(2)，等待响应；如果加载没有完成且轮询x次，浏览器也发送HTTP请求给步骤(2)等待响应。

(2)取证与验证服务器等待浏览器发送的HTTP请求，获取其中POST内容的URL字符串信息，对浏览器所在的窗口进行截屏，保存图片为PNG格式，并给浏览器发送响应信息。截屏的图片即“取证”，是钓鱼网站证据信息的主要部分，截屏中包括了URL的地址和显示的页面信息。

(3)如果浏览器收到步骤(2)中的响应信息，则关闭浏览器，转步骤(4)；否则超时后强制关闭浏览器，转到步骤(4)。

(4)检查URL字符串信息是否存在于黑/白名单中。如果是，则输出判断信息，结束算法。否则跳转步骤(5)。

(5)提取URL字符串中的关键信息：主要包括1)URL中是否包含IP地址；2)URL中是否包含非常规端口；即只要常规的服务没有使用其缺省的端口即认为采用了非常规端口；3)URL中是否包括特殊字符；4)URL中域名的级数，即“.”的个数。

(6)提取URL字符串中域名的关键信息：主要包括1)域名的注册商；2)域名的状态；3)域名的注册时间。

(7)访问第三方可信资源服务器，根据URL字符串提取对应WEB站点的关键信息：主要包括1)WEB站点的ICP备案信息；2)WEB站点对应IP地址的地理位置。

(8)根据URL字符串访问WEB页面，提取WEB页面的关键信息：主要包括1)页面的TITLE信息；2)页面的关键词(用于唯一标识页面的关键特征串)；3)页面状态码；4)页面超链接的特征；5)页面引用图片资源的特征。

(9)钓鱼网站的验证：根据步骤(5)～(8)的14个特征，参考相应的WHOIS信息库、ICP备案信息库、IP地理定位库和钓鱼网站的特征。对14个特征给出不同的权重，与设定的阈值做比较，输出验证结果。结束算法。

本发明也公开了一种钓鱼网站的取证与验证系统，主要由数据初始化模块、钓鱼网站取证模块、黑/白名单验证模块、URL信息提取模块、域名信息提取模块、WEB站点信息提取模块、WEB页面信息提取模块、和钓鱼网站验证模块8个模块组成。系统运行的具体步骤如下：

(1)数据初始化模块：从配置管理文件中读取系统的配置信息。系统的配置信息包括黑名单列表、白名单列表、WHOIS信息库、ICP备案信息库、IP地理定位库、钓鱼网站的特征权重信息和取证模块HTTP服务的初始化。

(2)钓鱼网站取证模块：该模块收到URL字符串后，调用浏览器打开URL页面，等待浏览器加载网页完成后向取证端口发送HTTP请求，收到请求后对浏览器所在的窗口进行截屏，给浏览器发送响应信息。

在该模块中，浏览器如果没有加载成功，在超时后自动给取证端口发送请求。浏览器在收到响应信息后会关闭浏览器窗口。

由于URL重定向和JavaScript脚本等原因，浏览器发给取证模块的URL字符串和调用浏览器的URL字符串可能不同，采用simhash进行相似性验证，验证通过进行后续的验证处理；如果未通过，证明为广告页面或者重定向网页，不进行后续操作。

(3)黑/白名单验证模块：该模块检查URL字符串信息是否存在于黑/白名单中。如果是，则输出相应的信息。否则转到步骤(4)。

(4)URL信息提取模块：该模块提取URL字符串中的关键信息，主要包括1)URL中是否包含IP地址；2)URL中是否包含非常规端口；3)URL中是否包括特殊字符；4)URL中域名的级数，即“.”的个数。

(5)域名信息提取模块：该模块主要针对域名信息进行提取，主要包括1)域名的注册商；2)域名的状态；3)域名的注册时间。

(6)WEB站点信息提取模块：该模块提取的主要信息包括1)WEB站点的ICP备案信息；2)WEB站点对应IP地址的地理位置。

在该模块中，ICP备案信息通过WEB站点的域名字符串进行查询，备案库来自第三方可信资源；对应的IP地址由WEB站点的域名解析得到，并通过可信的IP地理定位库来确定国家、省份和运营商等信息。

(7)WEB页面信息提取模块：该模块提取HTML页面的关键信息，主要包括1)页面的TITLE信息；2)页面的关键词(用于唯一标识页面的关键特征串)；3)页面状态码；4)页面超链接的特征；5)页面引用图片资源的特征。

在该模块中，页面关键词指能在网络空间中唯一标识该页面的关键词(字符串)集合。频率最高的词最有可能成为关键词。(页面TITLE的信息排除在外)。

页面超链接特征指：1)空链接对象，钓鱼网站的空链接比正常网站的此类对象要多；2)指向真实站点的链接，钓鱼网站超链接所指向的对象为真实的可达的情况在整个页面的链接中所占的比例较小，而真实的网站则较高。

页面应用图片资源特征：正常的网站，网页应用的图片资源绝大部分来自站点所在的域，而钓鱼页面则存在相当一部分资源的异常，如与页面的文件在不同的域内。

(8)钓鱼网站验证模块：该模块输出步骤(4)～(7)的14个特征，参考相应的WHOIS信息库、ICP备案信息库、IP地理定位库和目标网站(一般为金融类网站)的特征。对14个特征给出不同的权重，与设定的阈值做比较，输出可参考的验证结果。14个特征也可为人工识别钓鱼网站提供验证依据。

在该模块中，对14个特征的进行数值化处理，转换成布尔表达式的值，依据目标类网站的特征设置不同的权重，通过累加和的方式计算结果，与阈值进行比较得出结论。

与现有技术相比，本发明的积极效果为：

(1)对钓鱼类网站的取证，能对钓鱼网站的页面进行包含URL地址栏的自动截图，提高了取证的完整性和效率。

(2)对钓鱼网站的验证，通过对关键特征的提取，结合第三方可信资源，提供完整而权威的验证信息。

(3)通过多特征的权重的分析，设置针对钓鱼网站的阈值。能够对钓鱼网站的存活性和人工识别钓鱼网站提供依据。提高了验证的性能和准确性。

附图说明

图1为钓鱼网站的取证与验证方法流程图；

图2为钓鱼网站的取证与验证系统模块图；

图3为钓鱼网站的取证与验证系统部署图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

下面，结合具体的实施例对本发明进行详细说明。

图1给出了金融类钓鱼网站的取证与验证方法流程图。具体实施步骤如下：以工商银行钓鱼网站phishing-gongshang-001为例来阐述。

URL：http://www.iabvu.com/

(1)钓鱼网站取证：调用浏览器打开URL地址，检查当前TAB标签的状态，如果为加载完成，发送HTTP请求消息给步骤(2)，等待响应；如果加载没有完成且轮询x(x>＝200)次，也发送HTTP请求给步骤(2)等待响应。

在该步骤中，打开浏览器前要分析该URL地址是否为wap端站点，如果是则通过设置User-Agent的信息来仿真手机端浏览器来打开页面。

(2)等待浏览器发送的HTTP请求，获取其中POST内容的URL字符串信息，对浏览器所在的窗口进行截屏，保存图片为PNG格式，取证截图为phishing-gongshang-001；并给浏览器发送响应信息。

该步骤中，POST的内容以JSON格式组织，包括但不限于1)TAB窗口的ID；2)浏览器地址栏中的URL字符串。

phishing-gongshang-001的地址栏中URL字符串为：“www.iabvu.com/WorkSpace.cgi4？uid＝810c1ad9152a66f”

在该步骤中，URL与黑白名单中的URL的匹配问题，主要采用布隆过滤器算法来实现。

phishing-gongshang-001的URL字符串不在黑名单和白名单中。

(5)提取URL字符串中的关键信息：主要包括1)URL中是否包含IP地址；2)URL中是否包含非常规端口；3)URL中是否包括特殊字符；4)URL中域名的级数，即“.”的个数。

提取phishing-gongshang-001的URL字符串关键信息：1)不包含IP地址；2)不包含非常规端口；3)不包括特殊字符；4)URL中域名的级数为3。

(6)提取域名的关键信息：主要包括1)域名的WHOIS注册商；2)域名的WHOIS状态；3)域名的注册时间。

提取phishing-gongshang-001的域名关键信息：1)WHOIS注册商'Bizcn.com,Inc.'；2)WHOIS状态'clientDeleteProhibited'；3)域名注册时间2015-06-08。

(7)提取WEB站点的关键信息：主要包括1)WEB站点的ICP备案信息；2)WEB站点对应IP地址的地理位置。

提取phishing-gongshang-001的WEB站点信息：1)ICP备案信息：'无'；2)WEB站点对应IP地址的地理位置："122.9.220.228,境内,中国,广东,电信"。

(8)提取WEB页面的关键信息：主要包括1)页面的TITLE信息；2)页面的关键词(用于唯一标识页面的关键特征串)；3)页面状态码；4)页面超链接的特征；5)页面引用图片资源的特征。

提取phishing-gongshang-001的WEB页面信息：1)页面TITLE：'Welcome'；2)页面关键词：'[用户名,密码,短信验证码,登陆]'；3)页面状态码为200；4)页面超链接数为5，其中空链接数为4，占链接的80％；5)页面应用图片资源24个，与页面文件在同一个域内。

(9)钓鱼网站的验证：根据步骤(5)～(8)的14个特征，参考相应的WHOIS信息库、ICP备案信息库、IP地理定位库和金融类网站的特征。对14个特征给出不同的权重，与设定的阈值做比较，输出验证结果。结束算法。

phishing-gongshang-001网站的14个特征组成14个特征向量的提取结果验证如下：

上表中14个特征的加权和为0.582，与工商银行0.486的阈值相比已经超过，所以phishing-gongshang-001为钓鱼网站。

本发明公开的钓鱼网站的取证与验证系统主要针对金融类网站的钓鱼攻击的证据截图和存活性验证，具有稳定实时的处理能力，用于第三方服务端对可疑的金融钓鱼网站的处理。主要由数据初始化模块、钓鱼网站取证模块、黑/白名单验证模块、URL信息提取模块、域名信息提取模块、WEB站点信息提取模块、WEB页面信息提取模块、和钓鱼网站验证模块8个模块组成，如图2所示。系统运行的具体步骤如下：

(1)数据初始化模块：从配置管理文件中读取系统的配置信息。系统的配置信息包括黑名单列表、白名单列表、WHOIS信息库、ICP备案信息库、IP地理定位库、金融类钓鱼网站的特征权重信息和取证模块HTTP服务的初始化。

在该模块中，打开浏览器前要分析该URL地址是否为wap端站点，如果是则通过设置User-Agent的信息来仿真手机端浏览器来打开页面。浏览器如果没有加载成功，在超时后自动给取证端口发送请求。浏览器在收到响应信息后会关闭浏览器窗口。

由于URL重定向和JavaScript脚本等原因，浏览器发给取证模块的URL字符串和调用浏览器的URL字符串可能不同，采用simhash进行相似性验证。

(5)域名信息提取模块：该模块主要针对域名信息进行提取，主要包括1)域名的WHOIS注册商；2)域名的WHOIS状态；3)域名的注册时间。

在该模块中，域名WHOIS状态信息反映了域名当前的使用状态，注册时间反映了是否为新增域名。

在该模块中，由于获取页面信息需要采用网络爬虫技术，为了规避有些站点对网络爬虫的屏蔽以及爬虫行为与恶意蠕虫或木马的相似性，构造User-Agent信息，使爬虫行为转变成正常用户的浏览器行为。

页面关键词指能在网络空间中唯一标识该页面的关键词(字符串)集合。频率最高的词最有可能成为关键词。(页面TITLE的信息排除在外)。

页面超链接特征指：1)空链接对象，金融类钓鱼网站的空链接比正常金融网站的此类对象要多；2)指向真实站点的链接，金融类钓鱼网站超链接所指向的对象为真实的可达的情况在整个页面的链接中所占的比例较小，而真实的网站则较高。

页面应用图片资源特征：正常的金融类网站，网页应用的图片资源绝大部分来自站点所在的域，而钓鱼页面则存在相当一部分资源的异常，如与页面的文件在不同的域内。

(8)钓鱼网站验证模块：该模块输出步骤(4)～(7)的14个特征，参考相应的WHOIS信息库、ICP备案信息库、IP地理定位库和金融类网站的特征。对14个特征给出不同的权重，与设定的阈值做比较，输出可参考的验证结果。14个特征也可为人工识别钓鱼网站提供验证依据。

在该模块中，对14个特征的进行数值化处理，转换成布尔表达式的值，依据金融类网站的特征设置不同的权重，通过累加和的方式计算结果，与阈值进行比较得出结论。

图3给出了系统的部署图。

Claims

1.一种钓鱼网站的取证与验证方法，其步骤为：

1)取证与验证服务器调用浏览器打开待验证的URL地址，然后该浏览器发送HTTP请求消息给该取证与验证服务器；

2)取证与验证服务器从该HTTP请求中提取URL字符串信息，并对该浏览器当前所在的窗口进行截屏；

3)取证与验证服务器检查所提取的URL字符串信息是否存在于黑/白名单中；如果存在，则输出判断信息，否则跳转步骤4)；

4)提取URL字符串中的关键信息和URL字符串中域名的关键信息；

5)取证与验证服务器访问第三方可信资源服务器，提取该URL字符串对应WEB站点的关键信息；

6)取证与验证服务器根据该URL字符串访问WEB页面，提取WEB页面的关键信息；

7)取证与验证服务器根据步骤4)～6)所提取的信息，计算得到该URL地址的可信值，将该可信值与设定阈值的比较结果输出验证结果。

2.如权利要求1所述的方法，其特征在于，所述URL字符串中的关键信息包括：IP地址、非常规端口、特殊字符和URL中域名的级数；所述URL字符串中域名的关键信息包括：域名的注册商、域名的状态和域名的注册时间。

3.如权利要求1所述的方法，其特征在于，所述WEB站点的关键信息包括：WEB站点的ICP备案信息和WEB站点对应IP地址的地理位置。

4.如权利要求1或2或3所述的方法，其特征在于，所述WEB页面的关键信息包括：页面的TITLE信息、页面关键词、页面状态码、页面超链接特征和页面引用图片资源的特征。

5.如权利要求4所述的方法，其特征在于，所述页面关键词为用于唯一标识页面的关键特征串。

6.如权利要求4所述的方法，其特征在于，计算所述可信值的方法为：首先根据WHOIS信息库、ICP备案信息库、IP地理定位库和目标网站的特征对步骤4)～6)所提取的信息分别设定权重，然后将步骤4)～6)所提取的信息进行数值化处理，转换成布尔表达式的值，然后加权求和得到所述可信值。

7.如权利要求1所述的方法，其特征在于，步骤2)中，所述取证与验证服务器对该浏览器将该HTTP请求中提取的URL字符串与调用浏览器的URL字符串进行相似性验证，如果验证通过则进行步骤3)的处理；如果验证未通过，则结束验证。

8.如权利要求1所述的方法，其特征在于，步骤1)中，所述取证与验证服务器调用浏览器前检测该URL地址是否为wap端站点，如果是则仿真手机端浏览器来打开页面；然后检查该URL地址的TAB标签状态，如果为加载完成，则发送HTTP请求消息；如果加载没有完成且轮询设定次数后，发送HTTP请求。

9.一种钓鱼网站的取证与验证系统，其特征在于，包括数据初始化模块、钓鱼网站取证模块、黑/白名单验证模块、URL信息提取模块、域名信息提取模块、WEB站点信息提取模块、WEB页面信息提取模块和钓鱼网站验证模块；其中，

所述数据初始化模块，用于读取系统的配置信息，包括黑名单列表、白名单列表；

所述钓鱼网站取证模块，用于调用浏览器打开待验证的URL地址，然后该浏览器发送HTTP请求消息给该钓鱼网站取证模块；该钓鱼网站取证模块从该HTTP请求中提取URL字符串信息，并对该浏览器当前所在的窗口进行截屏；

所述黑/白名单验证模块，用于检查所述URL字符串信息是否存在于黑名单列表或白名单列表中，如果存在，则输出相应的判断信息；

所述URL信息提取模块，用于提取所述URL字符串中的关键信息；

所述域名信息提取模块，用于提取所述URL字符串中的域名信息；

所述WEB站点信息提取模块，用于提取该URL字符串对应WEB站点的关键信息；

所述WEB页面信息提取模块，用于根据该URL字符串访问WEB页面，提取WEB页面的关键信息；

所述钓鱼网站验证模块，用于根据URL信息提取模块、域名信息提取模块、WEB站点信息提取模块和WEB页面信息提取模块所提取的信息，计算得到该URL地址的可信值，将该可信值与设定阈值的比较结果输出验证结果。

10.如权利要求9所述的系统，其特征在于，所述URL字符串中的关键信息包括：IP地址、非常规端口、特殊字符和URL中域名的级数；所述URL字符串中域名的关键信息包括：域名的注册商、域名的状态和域名的注册时间；所述WEB站点的关键信息包括：WEB站点的ICP备案信息和WEB站点对应IP地址的地理位置；所述WEB页面的关键信息包括：页面的TITLE信息、页面关键词、页面状态码、页面超链接特征和页面引用图片资源的特征。