CN103067387B - 一种反钓鱼监测系统和方法 - Google Patents

一种反钓鱼监测系统和方法 Download PDF

Info

Publication number
CN103067387B
CN103067387B CN201210580723.4A CN201210580723A CN103067387B CN 103067387 B CN103067387 B CN 103067387B CN 201210580723 A CN201210580723 A CN 201210580723A CN 103067387 B CN103067387 B CN 103067387B
Authority
CN
China
Prior art keywords
domain
fishing website
name
analyzed
name information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210580723.4A
Other languages
English (en)
Other versions
CN103067387A (zh
Inventor
徐捷
马春峰
刘建忠
张玉
张鹏
杨利民
赵志松
张黎敏
朱敬根
周鹤
李筱文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN201210580723.4A priority Critical patent/CN103067387B/zh
Publication of CN103067387A publication Critical patent/CN103067387A/zh
Application granted granted Critical
Publication of CN103067387B publication Critical patent/CN103067387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种反钓鱼监测系统,包括监测服务器和与所述监测服务器交互的监测客户端,其中监测服务器包括:与反钓鱼搜索引擎、相似域名分析模块和钓鱼网站邮件处理模块连接的采集模块,读取采集模块的所述待分析域名文件形成待分析队列,并将所述待分析队列与钓鱼网站黑白名单进行匹配,若不匹配,则将所述不匹配的待分析域名信息发送至分析模块进行分析的信息处理中心,和对所述不匹配的待分析域名信息进行分析以确定出钓鱼网站的分析模块。本发明还提供了相应的反钓鱼监测方法。实施本发明的系统和方法,可以实现对钓鱼网站较高效地主动监测、收集和相应的处理。

Description

一种反钓鱼监测系统和方法
技术领域
本发明涉及计算机网络领域,具体而言,涉及一种反钓鱼监测系统和方法。
背景技术
所谓“钓鱼网站”通常是指一种网络欺诈行为,不法分子利用各种手段,仿冒真实网站的统一资源定位符(UniversalResourceLocator,URL)地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入有害的超文本标记语言(HypertextMarkupLanguage,HTML)代码,以此来骗取用户银行或信用卡账号、密码等私人资料。
近些年来,全球境内钓鱼网站事件频发,严重影响公共利益。一般而言,钓鱼网站会伪装成为银行网站,窃取访问者提交的账号和密码信息。它一般通过电子邮件传播,此类邮件中一个经过伪装的链接将收件人连到钓鱼网站。钓鱼网站的页面与真实网站界面完全一致,要求访问者提交账号和密码等信息。
现有对于钓鱼网站的监测和处理主要是通过一些网站域名监测软件,对不同的域名组合进行搜索,找出注册的网站,然后对已注册的网站逐一进行分析来确认是否为钓鱼网站。这些现有对钓鱼网站的处理技术缺乏对钓鱼网站主动甄别功能和举报邮件自动处理功能,并且钓鱼网站误报率较高、处理速度较慢。
发明内容
本发明提供了一种反钓鱼监测系统,通过反钓鱼搜索引擎主动搜索钓鱼网站,通过相似域名分析模块对生成的可疑钓鱼网站进行匹配搜索,通过钓鱼网站邮件处理模块对可疑钓鱼网站进行自动提取处理,并通过信息处理中心和分析模块对可疑钓鱼网站和域名进行分析确认,实现了对钓鱼网站较高效地主动监测、收集和相应的处理。
根据本发明实施方式的第一方面,提供了一种反钓鱼监测系统,所述反钓鱼监测系统包括:监测服务器和用于与所述监测服务器以客户端/服务器模式交互的监测客户端,其中,
所述监测服务器包括:
采集模块,与反钓鱼搜索引擎、相似域名分析模块和钓鱼网站邮件处理模块连接,用于通过待分析域名文件接收反钓鱼搜索引擎主动抓取的可疑钓鱼网站的域名信息,接收相似域名分析模块发送的域名信息,接收钓鱼网站邮件处理模块发送的可疑钓鱼网站的域名信息;
信息处理中心,用于读取采集模块的所述待分析域名文件形成待分析队列,并将所述待分析队列与钓鱼网站黑白名单进行匹配,若不匹配,则将所述不匹配的待分析域名信息发送至分析模块进行分析;
分析模块,用于对所述不匹配的待分析域名信息进行分析以确定出钓鱼网站。
根据本发明实施方式的第二方面,提供了一种反钓鱼监测方法,所述监测方法应用于以客户端/服务器模式交互的监测系统,包括:
调用采集模块通过待分析域名文件接收反钓鱼搜索引擎主动抓取的可疑钓鱼网站的域名信息,接收相似域名分析模块发送的域名信息,接收钓鱼网站邮件处理模块发送的可疑钓鱼网站的域名信息;
调用信息处理中心收集采集模块的所述待分析域名文件形成待分析队列,并将所述待分析队列与钓鱼网站黑白名单进行匹配,若不匹配,则将所述不匹配的待分析域名信息发送至分析模块进行分析;
调用分析模块对所述不匹配的待分析域名信息进行分析以确定出钓鱼网站。
实施本发明提供的反钓鱼监测系统和方法,可实现对钓鱼网站较高效的主动监测、收集和相应的处理。
附图说明
图1图示了根据本发明实施方式的反钓鱼监测系统的示意图。
图2图示了根据本发明实施方式的反钓鱼监测方法的示意图。
具体实施方式
为使本发明的实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
参见图1,图示了根据本发明实施方式的反钓鱼监测系统的示意图,所述反钓鱼监测系统100具体可以包括监测服务器101和与该监测服务器以客户端(Client)/服务器(Server)(C/S)模式交互的监测客户端102,其中,监测服务器可以包括:
采集模块1010,与反钓鱼搜索引擎、相似域名分析模块和钓鱼网站邮件处理模块连接,用于通过待分析域名文件接收反钓鱼搜索引擎主动抓取的可疑钓鱼网站的域名信息,接收相似域名分析模块发送的域名信息,接收钓鱼网站邮件处理模块发送的可疑钓鱼网站的域名信息;
信息处理中心1011,用于读取采集模块的所述待分析域名文件形成待分析队列,并将所述待分析队列与钓鱼网站黑白名单进行匹配,若不匹配,则将所述不匹配的待分析域名信息发送至分析模块进行分析;
分析模块1012,用于对所述不匹配的待分析域名信息进行分析以确定出钓鱼网站。
本发明实施方式中,监测服务器的功能主要通过Java语言实现,监测客户端通过JSP(JavaServerPages)语言实现,监测客户端和监测服务器以C/S架构的网络应用程序实现。监测客户端可以是供操作人员查看监测服务器监测信息、输入检索关键词等的前端界面,可以远程访问存放在监测服务器上的信息处理中心,例如,监测客户端可以通过复选框定义不同的种类选项,通过排列组合可提取并显示监测人员需要的相关文档,如钓鱼网站的日报、月报、年报、监测来源分布比例图等信息。
本发明实施方式中的采集模块1010可以与反钓鱼搜索引擎、相似域名分析模块和钓鱼网站处理模块连接,例如,可以通过共享待分析域名文件来连接。然后,本领域技术人员还可以采用能完成域名信息采集目的的任何合适的连接方式,并不限于本实施方式中提到的连接方式。采集模块可以接收反钓鱼搜索引擎主动抓取的可疑钓鱼网站的域名信息,接收相似域名分析模块发送的域名信息(例如,域名字符串),接收钓鱼网站邮件处理模块发送的可疑钓鱼网站的域名信息。需要说明的是,在一些实施方式中,采集模块可以同时接收反钓鱼搜索引擎、相似域名分析模块和钓鱼网站邮件处理模块发送的域名信息;在另一些实施方式中,采集模块可以按照预先设定的顺序接收反钓鱼搜索引擎、相似域名分析模块和钓鱼网站邮件处理模块发送的域名信息;当然,在其他一些实施方式中,采集模块可以在一定的时间段内接收反钓鱼搜索引擎发送的域名信息,在另一时间段内接收相似域名分析模块的域名信息(例如,域名字符串等)。在另外的一些实施方式中,如果反钓鱼搜索引擎、相似域名分析模块或钓鱼网站邮件处理模块中的一者或一者以上发生故障,无法正常运行(例如,可能发送乱码信息等),那么采集模块可以设置为暂停接收故障模块发送的待分析的可疑钓鱼网站的域名信息,仅接收正常工作模块发送的可疑钓鱼网站的域名信息,也就是说,采集模块不同时接收反钓鱼搜索引擎、相似域名分析模块或钓鱼网站邮件处理模块发送的域名信息的实施方式也属于本发明的实施方式。本领域技术人员可根据应用需要对采集模块的信息接收模式进行相应的设置,并不限于本文所列举的模式。
本发明实施方式中,反钓鱼搜索引擎可以通过网页抓取程序(Spider)主动地顺着网页中的超链接,连续地海量抓取全网网页。在抓取到网页后,对抓取的网页进行预处理,具体而言,包括:利用分词工具对抓取的网页文本进行分词,去除噪声词和语气词后,将剩余的词组作为关键词建立B+树倒排索引文件,并将建立的索引文件保存。例如,对于句子“中国建设银行成立于1954年,总部设在北京”,经过分词后形成[中国建设银行,成立,于,1954年,总部,设,在,北京]的词组对,过滤掉“于”,“在”等噪声词,剩余的词组为:[中国建设银行,成立,1954年,总部,设,北京],可以将剩余的词组作为关键词建立B+树倒排索引文件。将所抓取的所有网页进行上述类似的处理后,生成B+树倒排索引文件,并进行保存。其中,分词工具可以使用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),还可以使用本领域已知的其他分词工具,并不限于本文中提到的ICTCLAS。值得指出的是,对抓取网页的预处理并不限于对网页文本的分词,本领域技术人员根据应用需要还可以进行其他的预处理操作,例如去除重复网页、判断网页类型、分词超链接、经计算网页的重要度/丰富度等中的一项或一项以上。反钓鱼搜索引擎还可以接收用户(例如,监测操作人员等)通过监测客户端输入的检索关键词,根据输入的检索关键词从上述保存的索引文件中查找与输入的关键词匹配的网页,并将查找到的匹配网页作为可疑钓鱼网站,并调取该可疑钓鱼网站的信息,包括域名信息(例如,统一资源定位符URL),还可以包括网页标题或来自该可疑钓鱼网站的网页的摘要等其他信息。然后将调取的可疑钓鱼网站的信息(例如,URL)发送至采集模块的待分析域名文件。由于反钓鱼搜索引擎发送至采集模块的待分析域名文件的可疑钓鱼网站可以是很多个(例如,两个以上或更多个),对应的可疑钓鱼网站的域名信息(例如,URL)也是很多个,为方便发送处理,可以将发送至采集模块的可疑钓鱼网站的URL组成URL队列,添加至待分析域名文件,其中待分析域名文件,可以是.xls或.txt格式保存的文件,形式可以是[序号,URL]。当然,在一些实施方式中,也可以在反钓鱼搜索引擎中将匹配的可疑钓鱼网站的URL组成URL队列,然后将可疑钓鱼网站的域名信息以URL队列的形式发送至采集模块的待分析域名文件中。
本发明实施方式中,相似域名分析模块可以选择.com/.cn/.net等作为域名后缀,再选择数字、大写字母、小写字母或其他可组建域名的符号作为字符串,然后将所选择的域名后缀和所选择的字符串连接,组成域名信息链表文件,然后将生成的域名信息链表文件顺序进行域名查询,例如可以通过域名Whois查询,也可以采用本领域已知的其他域名查询系统进行查询。然后,根据查询系统对此查询反馈的返回结果确定所述域名信息所指向的网页是否存在。由于本发明的相似域名分析模块可以根据域名后缀和字符串(例如,与现有的真实网站的域名关联或类似的字符串)自由结合组成域名信息(例如,域名字符串),这样生成的域名字符串可能是已经存在的,那么这些已经存在的域名字符串所指向的网站很有可能是钓鱼网站,那么就需要将这些存在的域名信息(例如,域名字符串)发送至采集模块的待分析域名文件进行相应的处理。但是,相似域名分析模块生成的域名字符串也可能不是实际存在的,这些实际不存在域名字符串就无需发送至采集模块的待分析域名文件进行处理。若将域名后缀和字符串组成的域名信息不论是否实际存在都发送至采集模块的待分析域名文件,会使有些实际不存在的域名字符串也作为可疑钓鱼网站发送至采集模块处理,不仅会导致钓鱼网站的误报率上升,而且也影响相似域名分析模块和采集模块的数据处理效率。通过将生成的域名信息链表文件通过域名查询系统进行查询,根据查询结果向采集模块的待分析域名文件发送,有效地减低了钓鱼网站的误报率,也有利于提高相似域名分析模块和采集模块的数据处理效率。
本发明实施方式中,钓鱼网站邮件处理模块根据举报邮箱的主机地址、邮箱用户名、密码自动登录邮箱,所述举报邮箱是可能存在可疑钓鱼网站的一个邮箱或一个以上邮箱。本发明提供的钓鱼网站邮件处理模块可以实时的自动登录举报邮箱,也可以间歇(例如,每隔几分钟或十几分钟)自动登录举报邮箱。本领域技术人员可根据应用需要对自动登录的时间模式进行设置,并不限于本文所提到的模式。钓鱼网站邮件处理模块在自动登录后,可以提取举报邮箱中收件箱中每封邮件的超文本标记语言HTML源代码,然后,可以根据邮件内容中标签,从所提取的HTML源代码中通过正则表达式抽取可疑钓鱼网站邮件的域名信息(例如,统一资源定位符URL),并将可疑钓鱼网站的域名信息(例如,URL等)发送至采集模块的待分析域名文件,其中待分析域名文件可以是.xls或.txt格式保存的文件,形式可以是[序号,URL]。例如,可以通过“<a.+?>.+?</a>”抽取邮件网页源码中<ahref=”…”>的链接,并将提取的域名信息发送至采集模块的待分析域名文件。应当理解,钓鱼网站邮件处理模块抽取的可疑钓鱼网站可以有很多个(例如,两个或更多个),对应的域名信息(例如,URL等)也会有很多个,这些可疑钓鱼网站的URL可组成队列,然后以队列的形式发送至采集模块的待分析域名文件。然而,在其他的实施方式中,还可以在采集模块中组成可疑钓鱼网站的URL队列,添加至待分析域名文件。
需要说明的是,本发明实施方式中的采集模块除了通过反钓鱼搜索引擎、相似域名分析模块和钓鱼网站邮件处理模块获取可疑钓鱼网站之外,还可以其他方式获取可疑钓鱼网站,例如,客户举报、中国反钓鱼网站联盟(Anti-PhishingAllianceofChina,APAC)、中国域名注册管理机构-中国互联网络信息中心(ChinaInternetNetworkInformationCenter,CNNIC)、互联网安全公司(例如,360)等渠道的举报。采集模块在接收到可疑钓鱼网站的域名信息后,可以立即发送至信息处理中心进行处理,也可以每隔一段时间发送至信息处理中心进行处理。
信息处理中心读取采集模块中的可疑钓鱼网站的待分析域名文件形成可疑钓鱼网站的待分析队列Q1,例如队列Q1可以是[URL1,URL2,......,URLn],其中,下标1、2、……n为URL的序号。此外,信息处理中心还会接收分析模块发送的确定出的钓鱼网站队列,将确定的钓鱼网站队列加入信息处理中心的钓鱼网站黑名单,其中钓鱼网站黑名单可以是.xls或.txt格式的文件,采用[序号,URL]的形式;信息处理中心还可保存一些确定的非钓鱼网站的域名,这些非钓鱼网站的域名可保存到钓鱼网站白名单中,其中钓鱼网站白名单可以是.xls或.txt格式的文件,采用[序号,URL]的形式。信息处理中心的钓鱼网站黑白名单可以实时更新,也可以每隔一定时间定期或不定期的更新。本领域技术人员可根据应用需要进行相应的设置。钓鱼网站的黑白名单可以合并成一个名单,也可以分别以两个名单的形式,本领域技术人员可根据匹配需要进行相应的设置。信息处理中心会将待分析队列Q1中的可疑钓鱼网站和钓鱼网站的黑白名单进行匹配,也就是说,将待分析队列中的每个可疑钓鱼网站与钓鱼网站黑白名单一一比对(例如,通过将待分析队列中的可疑钓鱼网站的URL与钓鱼网站黑白名单中的URL进行比对),若待分析队列中的某个可疑钓鱼网站与钓鱼网站黑名单中的钓鱼网站匹配(例如,URL一样),则将该可疑钓鱼网站确定为钓鱼网站,无需发送至分析模块进行再次确定。若待分析队列中的某个可疑钓鱼网站与钓鱼网站白名单中的网站匹配(例如,URL一样),则将该可疑钓鱼网站确定为非钓鱼网站,确定为非钓鱼网站后也无需发送至分析模块进行确认。本发明实施方式中,通过在信息处理中心设置可疑钓鱼网站和已经确定的钓鱼网站黑白名单的比对处理,可减少发往分析模块的可疑钓鱼网站的数目,减少了分析模块重复分析的可疑钓鱼网站的数目,明显提高分析模块的分析处理效率。若不匹配,也就是说待分析队列中存在不与钓鱼网站黑白名单中的钓鱼网站匹配的可疑钓鱼网站,将不匹配的可疑钓鱼网站的域名信息发送至分析模块进行分析确定。需要指出的是,在一些实施方式中,待分析队列中可能会存在重复的可疑钓鱼网站的域名信息,在将待分析队列与钓鱼网站黑白名单进行比对之前,信息处理中心可通过计数器对待分析队列中域名信息重复出现的次数进行记录,并从待分析队列中将重复出现的域名信息删除,确保发送至分析模块的待分析队列中没有重复的可疑钓鱼网站的域名信息,避免了与钓鱼网站黑白名单的重复比对操作,也避免分析模块重复的分析操作,进一步提高了信息处理中心和分析模块的处理效率。
本发明实施方式中,分析模块可以通过分析常用的钓鱼网站的页面,提出合理的分析规则,通过数学建模的方法开发页面分析工具,对信息处理中心发送的可疑钓鱼网站的域名信息进行分析,从而确定出钓鱼网站。例如,对于Web文档,可以通过比对特定位置的关键字确定是否是钓鱼网站,若特定位置的关键字相同,则可以确定是钓鱼网站,如果特定位置的关键字不同,则可以进一步比较文档正文中的关键词是否符合预设的条件,若是,可以确定是钓鱼网站。本领域技术人员可采用本领域已知的任何可疑钓鱼网站分析工具进行分析,并不限于本文所描述的方法。在本发明的一些实施方式中,分析模块在确定出钓鱼网站后,将确定出的钓鱼网站的域名信息(例如,URL)添加至钓鱼网站队列,并将所述钓鱼网站队列发送至信息处理中心。信息处理中心接收分析模块发送的钓鱼网站队列(例如,该钓鱼网站队列中可包括钓鱼网站的序号和URL),并根据所述钓鱼网站队列中各个钓鱼网站的域名信息进行域名解析和查询,例如,可以通过对钓鱼网站的域名信息(例如,URL)进行域名解析获取IP地址,可以根据域名信息进行域名查询(例如,通过Whois查询)获取域名的注册时间、注册商等信息,还可以将所述可疑钓鱼网站的域名信息的发现日期(即确定为钓鱼网站的日期)、监测来源(例如,可包括主动搜索、企业内举报和客户举报等)连同钓鱼网站的URL、IP地址、注册日期、注册商信息以[URL,IP,发现日期,注册日期,注册商,监测来源]的格式写入数据库的钓鱼网站信息表。需要说明的是,本领域技术人员还可以根据应用需要在数据库中的钓鱼网站信息表中添加或删除内容,例如,可以将监测来源、注册商、注册日期中的一者或一者以上删除,还可以在钓鱼网站信息表中添加发现该钓鱼网站的设备的标识信息等。需要说明的是,数据库中已确定出的钓鱼网站相关信息可以与具有钓鱼网站关闭权限的网站服务商或关闭机构共享,以便及时地将钓鱼网站关闭,维护公共的交易安全权益。
本发明实施方式中,监测客户端可以接收用户(例如,监测操作人员等)输入的可疑钓鱼网站的域名信息,例如可以是单个可疑钓鱼网站的域名,也可以以.xls等格式批量输入的可疑钓鱼网站的域名,并将输入的可疑钓鱼网站的域名(例如,单个或批量形式的可疑钓鱼网站的域名)发送至监测服务器的分析模块进行分析。通过分析模块确定为钓鱼网站的域名,同样地,可组成钓鱼网站队列,发送至信息处理中心进行存储,以便与通过采集模块获取的可疑钓鱼网站的待分析队列进行比对。
以上结合具体实施方式阐述了本发明提供的反钓鱼监测系统,下面将结合具体实施方式对采用上述的反钓鱼监测系统进行反钓鱼监测的方法进行详细的说明。
参见图2,图示了根据本发明实施方式的反钓鱼监测方法的示意图,所述反钓鱼监测方法可包括:
S201,调用采集模块通过待分析域名文件接收反钓鱼搜索引擎主动抓取的可疑钓鱼网站的域名信息,接收相似域名分析模块发送的域名信息,接收钓鱼网站邮件处理模块发送的可疑钓鱼网站的域名信息;
S202,调用信息处理中心收集采集模块的所述待分析域名文件形成待分析队列,并将所述待分析队列与钓鱼网站黑白名单进行匹配,若不匹配,则将所述不匹配的待分析域名信息发送至分析模块进行分析;
S203,调用分析模块对所述不匹配的待分析域名信息进行分析以确定出钓鱼网站。
本发明实施方式的反钓鱼监测方法可以应用于监测客户端和监测服务器以C/S进行信息交互的监测系统,监测服务器的功能主要通过Java语言实现,监测客户端通过JSP语言实现。监测客户端可以是供操作人员查看监测服务器监测信息、输入检索关键词等的前端界面,可以远程访问存放在监测服务器上的信息处理中心,例如,监测客户端可以通过复选框定义不同的种类选项,通过排列组合可提取并显示监测人员需要的相关文档,如钓鱼网站的日报、月报、年报、监测来源分布比例图等信息。
本发明的实施方式中,可以调用采集模块通过待分析域名文件接收反钓鱼搜索引擎主动抓取的可疑钓鱼网站的域名信息,接收相似域名分析模块发送的域名信息(例如,域名字符串),接收钓鱼网站邮件处理模块发送的可疑钓鱼网站的域名信息。需要说明的是,在一些实施方式中,可以调用采集模块同时接收反钓鱼搜索引擎、相似域名分析模块和钓鱼网站邮件处理模块发送的域名信息;在另一些实施方式中,可以调用采集模块按照预先设定的顺序接收反钓鱼搜索引擎、相似域名分析模块和钓鱼网站邮件处理模块发送的域名信息;当然,在其他一些实施方式中,可以调用采集模块在一定的时间段内接收反钓鱼搜索引擎发送的域名信息,在另一时间段内接收相似域名分析模块的域名信息(例如,域名字符串等)。在另外的一些实施方式中,如果反钓鱼搜索引擎、相似域名分析模块或钓鱼网站邮件处理模块中的一者或一者以上发生故障,无法正常运行(例如,可能发送乱码信息等),那么采集模块可以设置为暂停接收故障模块发送的待分析的可疑钓鱼网站的域名信息,仅接收正常工作模块发送的可疑钓鱼网站的域名信息。本领域技术人员可根据应用需要对采集模块的信息接收模式进行相应的设置,并不限于本文所列举的模式。
在本发明的实施方式中,可以调用反钓鱼搜索引擎通过网页抓取程序(Spider)主动地顺着网页中的超链接,连续地海量抓取全网网页。在抓取到网页后,对抓取的网页进行预处理,具体而言,包括:利用分词工具对抓取的网页文本进行分词,去除噪声词和语气词后,将剩余的词组作为关键词建立B+树倒排索引文件,并将建立的索引文件保存。其中,分词工具可以使用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS,还可以使用本领域已知的其他分词工具,并不限于本文中提到的ICTCLAS。值得指出的是,对抓取网页的预处理并不限于对网页文本的分词,本领域技术人员根据应用需要还可以进行其他的预处理操作,例如去除重复网页、判断网页类型、分词超链接、经计算网页的重要度/丰富度等中的一项或一项以上。还可以调用反钓鱼搜索引擎接收用户(例如,监测操作人员等)通过监测客户端输入的检索关键词,根据输入的检索关键词从上述保存的索引文件中查找与输入的关键词匹配的网页,并将查找到的匹配网页作为可疑钓鱼网站,并调取该可疑钓鱼网站的信息,包括域名信息(例如,统一资源定位符URL),还可以包括网页标题或来自该可疑钓鱼网站的网页的摘要等其他信息。然后将调取的可疑钓鱼网站的信息发送至采集模块的待分析域名文件,其中待分析域名文件可以是.xls或.txt格式保存的文件,形式可以是[序号,URL]。由于反钓鱼搜索引擎发送至采集模块的待分析域名文件的可疑钓鱼网站可以是很多个(例如,两个以上或更多个),对应的可疑钓鱼网站的域名信息(例如,URL)也是很多个,为方便发送处理,可以将可疑钓鱼网站的URL组成URL队列,添加至待分析域名文件。当然,在一些实施方式中,也可以在反钓鱼搜索引擎中将匹配的可疑钓鱼网站的URL组成URL队列,然后将可疑钓鱼网站的网站信息以URL队列的形式发送至采集模块的待分析域名文件中。
在本发明实施方式中,可以调用相似域名分析模块选择.com/.cn/.net等作为域名后缀,再选择数字、大写字母、小写字母或其他可组建域名的符号作为字符串,然后将所选择的域名后缀和所选择的字符串连接,组成域名信息链表文件,然后将生成的域名信息链表文件顺序进行域名查询,例如可以通过域名Whois查询,也可以采用本领域已知的域名查询系统进行查询。然后,根据查询系统对此查询反馈的返回结果确定所述域名信息所指向的网页是否存在。由于本发明的相似域名分析模块可以根据域名后缀和字符串自由结合组成域名信息(例如,域名字符串),这样生成的域名字符串可能是已经存在的,那么这些已经存在的域名字符串所指向的网站很有可能是钓鱼网站,那么就需要将这些存在的域名信息(例如,域名字符串)发送至采集模块的待分析域名文件进行相应的处理,其中待分析域名文件,可以是.xls或.txt格式保存的文件,形式可以是[序号,URL]。但是,相似域名分析模块生成的域名字符串也可能不是实际存在的,这些实际不存在域名字符串就无需发送至采集模块的待分析域名文件进行处理。若将域名后缀和字符串组成的域名信息不论是否实际存在都发送至采集模块的待分析域名文件,会使有些实际不存在的域名字符串也作为可疑钓鱼网站发送至采集模块的待分析域名文件处理,不仅会导致钓鱼网站的误报率上升,而且也影响相似域名分析模块和采集模块的数据处理效率。通过将生成的域名信息链表文件通过域名查询系统进行查询,根据查询结果向采集模块的待分析域名文件发送,有效地降低了钓鱼网站的误报率,也有利于提高相似域名分析模块和采集模块的数据处理效率。
本发明实施方式中,可以调用钓鱼网站邮件处理模块自动登录举报邮箱,提取举报邮箱中收件箱中每封邮件的超文本标记语言HTML源代码,然后,可以根据邮件内容中标签,从所提取的HTML源代码中通过正则表达式抽取可疑钓鱼网站邮件的域名信息(例如,统一资源定位符URL),并将可疑钓鱼网站的域名信息(例如,URL等)发送至采集模块的待分析域名文件,其中待分析域名文件,可以是.xls或.txt格式保存的文件,形式可以是[序号,URL]。应当理解,钓鱼网站邮件处理模块抽取的可疑钓鱼网站可以有很多个(例如,两个或更多个),对应的域名信息(例如,URL等)也会有很多个,这些可疑钓鱼网站的URL可组成队列,然后以队列的形式发送至采集模块的待分析域名文件。
本发明实施方式中,可以调用信息处理中心读取采集模块中的可疑钓鱼网站的待分析域名文件形成可疑钓鱼网站的待分析队列Q1,例如队列Q1可以是[URL1,URL2,......,URLn],此外,还可调用信息处理中心接收分析模块发送的确定出的钓鱼网站队列,将确定的钓鱼网站队列加入信息处理中心的钓鱼网站黑名单,其中钓鱼网站黑名单可以是.xls或.txt格式的文件,采用[序号,URL]的形式;信息处理中心还可保存一些确定的非钓鱼网站的域名,这些非钓鱼网站的域名可保存到钓鱼网站白名单中,其中钓鱼网站白名单可以是.xls或.txt格式的文件,采用[序号,URL]的形式。信息处理中心的钓鱼网站黑白名单可以实时更新,也可以每隔一定时间定期或不定期的更新。本领域技术人员可根据应用需要进行相应的设置。信息处理中心会将待分析队列中的可疑钓鱼网站和钓鱼网站黑白名单进行匹配,也就是说,将待分析队列中的每个可疑钓鱼网站与钓鱼网站黑白名单一一比对,若待分析队列中的某个可疑钓鱼网站与钓鱼网站队列中的钓鱼网站匹配(例如,URL一样),则将该可疑钓鱼网站确定为钓鱼网站,无需发送至分析模块进行再次确定。若待分析队列中的某个可疑钓鱼网站与钓鱼网站白名单中的网站匹配(例如,URL一样),则将该可疑钓鱼网站确定为非钓鱼网站,确定为非钓鱼网站后也无需发送至分析模块进行确认。本发明实施方式中,通过在信息处理中心设置可疑钓鱼网站和已经确定的钓鱼网站黑白名单的比对处理,可减少发往分析模块的可疑钓鱼网站的数目,减少分析模块分析的可疑钓鱼网站的数目,明显提高了分析模块的分析处理效率。若不匹配,也就是说待分析队列中存在的不与确定出的钓鱼网站黑白名单匹配的可疑钓鱼网站,将不匹配的可疑钓鱼网站的域名信息发送至分析模块进行分析确定。需要指出的是,在一些实施方式中,待分析队列中可能会存在重复的可疑钓鱼网站的域名信息,在将待分析队列与钓鱼网站黑白名单进行比对之前,信息处理中心可通过计数器对待分析队列中域名信息重复出现的次数进行记录,并从待分析队列中将重复出现的域名信息删除,确保发送至分析模块的待分析队列中没有重复的可疑钓鱼网站的域名信息,避免了与钓鱼网站黑白名单的重复比对操作,也避免分析模块重复的分析操作,进一步提高了信息处理中心和分析模块的处理效率。
本发明实施方式中,可以调用分析模块分析对所述不匹配的待分析域名信息进行分析以确定出钓鱼网站。分析模块可以通过分析常用的钓鱼网站的页面,提出合理的分析规则,通过数学建模的方法开发页面分析工具,对信息处理中心发送的可疑钓鱼网站的域名信息进行分析,从而确定出钓鱼网站。在本发明的一些实施方式中,分析模块在确定出钓鱼网站后,还可以调用分析模块将确定出的钓鱼网站的域名信息(例如,URL)添加至钓鱼网站队列,并将所述钓鱼网站队列发送至信息处理中心。然后,可以调用信息处理中心接收分析模块发送的钓鱼网站队列(例如,该钓鱼网站队列中可包括钓鱼网站的序号和URL),并根据所述钓鱼网站队列中各个钓鱼网站的域名信息进行域名解析和查询,例如,可以通过对钓鱼网站的域名信息进行域名解析获取IP地址,可以根据域名信息进行域名查询(例如,通过Whois查询)获取域名的注册时间、注册商等信息,还可以将所述可疑钓鱼网站的域名信息的发现日期(即确定为钓鱼网站的日期)、监测来源(例如,可包括主动搜索、企业内举报和客户举报等)连同URL、IP地址、注册日期、注册商信息以[URL,IP,发现日期,注册日期,注册商,监测来源]的格式写入数据库的钓鱼网站信息表。需要说明的是,本领域技术人员还可以根据应用需要在数据库中的钓鱼网站信息表中添加或删除内容,例如,可以将监测来源、注册商、注册日期中的一者或一者以上删除,还可以在钓鱼网站信息表中添加发现该钓鱼网站的设备的标识信息等。
本发明实施方式中,可以调用监测客户端接收用户(例如,监测操作人员等)输入的可疑钓鱼网站的域名信息,例如可以是单个可疑钓鱼网站的域名,也可以以.xls等格式批量输入的可疑钓鱼网站的域名,并将输入的可疑钓鱼网站的域名(例如,单个或批量形式的可疑钓鱼网站的域名)发送至监测服务器的分析模块进行分析。通过分析模块确定为钓鱼网站的域名,同样地,可组成钓鱼网站队列,发送至信息处理中心进行存储,以便与通过采集模块获取的可疑钓鱼网站的待分析队列进行比对。
实施本发明提供的反钓鱼监测系统和方法,通过采集模块获取反钓鱼搜索引擎、相似域名分析模块和钓鱼网站邮件处理模块主动获取的可疑钓鱼网站的域名信息,实现了对钓鱼网站的主动监测和分析;而且通过采集模块、信息处理中心和分析模块之间的可疑钓鱼网站的待分析队列、钓鱼网站队列的比对等数据处理,显著提高了各模块之间的数据处理效率,实现了对钓鱼网站监测的较高效处理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所揭露的仅为本发明的一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (12)

1.一种反钓鱼监测系统,其特征在于,所述反钓鱼监测系统包括:监测服务器和与所述监测服务器以客户端/服务器模式交互的监测客户端,其中,
所述监测服务器包括:
采集模块,与反钓鱼搜索引擎、相似域名分析模块和钓鱼网站邮件处理模块连接,用于通过待分析域名文件接收反钓鱼搜索引擎主动抓取的可疑钓鱼网站的域名信息,接收相似域名分析模块发送的域名信息,接收钓鱼网站邮件处理模块发送的可疑钓鱼网站的域名信息;
其中,所述域名信息包括统一资源定位符URL;
其中,所述反钓鱼搜索引擎,用于通过网页抓取程序顺着网页中的超链接海量抓取网页,对抓取的网页进行预处理,包括:对所述抓取的网页的文本进行分词,去除噪声词和语气词后,将剩余词组作为关键词建立B+树倒排索引文件,还用于接收用户通过监测客户端输入的检索关键词,根据输入的检索关键词从所述索引文件中查找匹配网页作为可疑钓鱼网站,并将所述可疑钓鱼网站的域名信息发送至所述采集模块的待分析域名文件;
其中,所述相似域名分析模块,用于将域名后缀和不同长度的字符串组成域名信息链表文件,将所述域名信息链表文件顺序进行域名查询,根据所述查询的返回结果确定所述域名信息所指向的网页是否存在,若存在,将所述存在的域名信息发送至所述采集模块的待分析域名文件;
信息处理中心,用于读取采集模块的所述待分析域名文件形成待分析队列,并将所述待分析队列Q1与钓鱼网站黑白名单进行匹配,若不匹配,则将所述不匹配的待分析域名信息发送至分析模块进行分析;
分析模块,用于对所述不匹配的待分析域名信息进行分析以确定出钓鱼网站。
2.如权利要求1所述的系统,其特征在于,所述钓鱼网站邮件处理模块,用于自动登录举报邮箱,提取举报邮箱中邮件的页面源代码,根据所述邮件的标签,从所述页面源代码中通过正则表达式抽取可疑钓鱼网站的域名信息,并将所述可疑钓鱼网站的域名信息发送至所述采集模块中的待分析域名文件。
3.如权利要求1所述的系统,其特征在于,所述信息处理中心,还用于记录所述待分析队列中域名信息重复出现的次数,并从所述待分析队列中将重复出现的域名信息删除。
4.如权利要求3所述的系统,其特征在于,所述分析模块,还用于在确定出钓鱼网站后,将确定出的钓鱼网站的域名信息添加至钓鱼网站队列,并将所述钓鱼网站队列发送至所述信息处理中心。
5.如权利要求4所述的系统,其特征在于,所述信息处理中心,还用于接收分析模块发送的所述钓鱼网站队列,并根据所述钓鱼网站队列中的各个钓鱼网站的域名信息进行域名解析和查询,获取所述各个钓鱼网站域名信息的URL、IP地址、发现日期、注册日期、注册商、监测来源,并将所获取的信息写入数据库。
6.如权利要求1所述的系统,其特征在于,所述监测客户端,还用于接收用户输入的可疑钓鱼网站域名信息,并将所述可疑钓鱼网站域名信息发送至所述分析模块进行分析。
7.一种反钓鱼监测方法,其特征在于,所述监测方法应用于以客户端/服务器模式交互的监测系统,包括:
调用采集模块通过待分析域名文件接收反钓鱼搜索引擎主动抓取的可疑钓鱼网站的域名信息,接收相似域名分析模块发送的域名信息,接收钓鱼网站邮件处理模块发送的可疑钓鱼网站的域名信息;
其中,所述域名信息包括统一资源定位符URL;
其中,所述反钓鱼搜索引擎,用于通过网页抓取程序顺着网页中的超链接海量抓取网页,对抓取的网页进行预处理,包括:对所述抓取的网页的文本进行分词,去除噪声词和语气词后,将剩余词组作为关键词建立B+树倒排索引文件,还用于接收用户通过监测客户端输入的检索关键词,根据输入的检索关键词从所述索引文件中查找匹配网页作为可疑钓鱼网站,并将所述可疑钓鱼网站的域名信息发送至所述采集模块的待分析域名文件;
其中,所述相似域名分析模块,用于将域名后缀和不同长度的字符串组成域名信息链表文件,将所述域名信息链表文件顺序进行域名查询,根据所述查询的返回结果确定所述域名信息所指向的网页是否存在,若存在,将所述存在的域名信息发送至所述采集模块的待分析域名文件;
调用信息处理中心读取采集模块的所述待分析域名文件形成待分析队列,并将所述待分析队列与钓鱼网站域名黑白名单进行匹配,若不匹配,则将所述不匹配的待分析域名信息发送至分析模块进行分析;
调用分析模块对所述不匹配的待分析域名信息进行分析以确定出钓鱼网站。
8.如权利要求7所述的方法,其特征在于,包括:
调用钓鱼网站邮件处理模块自动登录举报邮箱,提取举报邮箱中邮件的页面源代码,根据所述邮件的标签,从所述页面源代码中通过正则表达式抽取可疑钓鱼网站的域名信息,并将所述可疑钓鱼网站的域名信息发送至所述采集模块的待分析域名文件。
9.如权利要求7所述的方法,其特征在于,还包括:
调用信息处理中心记录所述待分析队列中域名信息重复出现的次数,并从所述待分析队列中将重复出现的域名信息删除。
10.如权利要求9所述的方法,其特征在于,还包括:
在分析模块确定出钓鱼网站后,调用分析模块将确定出的钓鱼网站的域名信息添加至钓鱼网站队列,并将所述钓鱼网站队列发送至所述信息处理中心。
11.如权利要求10所述的方法,其特征在于,还包括:
调用信息处理中心接收分析模块发送的所述钓鱼网站队列,并根据所述钓鱼网站队列中的各个钓鱼网站的域名信息进行域名解析和查询,获取所述各个钓鱼网站域名信息的URL、IP地址、发现日期、注册日期、注册商、监测来源,并将所获取的信息写入数据库。
12.如权利要求7所述的方法,其特征在于,还包括:
调用监测客户端接收用户输入的可疑钓鱼网站域名信息,并将所述可疑钓鱼网站域名信息发送至所述分析模块进行分析。
CN201210580723.4A 2012-12-27 2012-12-27 一种反钓鱼监测系统和方法 Active CN103067387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210580723.4A CN103067387B (zh) 2012-12-27 2012-12-27 一种反钓鱼监测系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210580723.4A CN103067387B (zh) 2012-12-27 2012-12-27 一种反钓鱼监测系统和方法

Publications (2)

Publication Number Publication Date
CN103067387A CN103067387A (zh) 2013-04-24
CN103067387B true CN103067387B (zh) 2016-01-27

Family

ID=48109849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210580723.4A Active CN103067387B (zh) 2012-12-27 2012-12-27 一种反钓鱼监测系统和方法

Country Status (1)

Country Link
CN (1) CN103067387B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104113539A (zh) * 2014-07-11 2014-10-22 哈尔滨工业大学(威海) 一种钓鱼网站引擎探测方法及装置
CN104601557B (zh) * 2014-12-29 2018-12-21 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于软件定义网络的恶意网站防护方法及系统
CN106709353B (zh) * 2016-10-27 2021-06-18 腾讯科技(深圳)有限公司 搜索引擎的安全性检测方法及装置
CN106790105B (zh) * 2016-12-26 2020-08-21 携程旅游网络技术(上海)有限公司 基于业务数据的爬虫识别拦截方法及系统
CN106888220A (zh) * 2017-04-12 2017-06-23 恒安嘉新(北京)科技股份公司 一种钓鱼网站检测方法及设备
CN107659564B (zh) * 2017-09-15 2020-07-31 广州唯品会研究院有限公司 一种主动检测钓鱼网站的方法和电子设备
CN108124025A (zh) * 2017-12-14 2018-06-05 北京锐安科技有限公司 网站变换域名的检测方法、装置和系统
CN109672607A (zh) * 2018-12-20 2019-04-23 东软集团股份有限公司 一种邮件处理方法、装置及存储设备、程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102316099A (zh) * 2011-07-28 2012-01-11 中国科学院计算机网络信息中心 网络钓鱼检测方法及装置
CN102710645A (zh) * 2012-06-06 2012-10-03 珠海市君天电子科技有限公司 一种钓鱼网站检测方法及其检测系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004794B (zh) * 2010-12-09 2013-05-08 百度在线网络技术(北京)有限公司 搜索引擎系统及其实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102316099A (zh) * 2011-07-28 2012-01-11 中国科学院计算机网络信息中心 网络钓鱼检测方法及装置
CN102710645A (zh) * 2012-06-06 2012-10-03 珠海市君天电子科技有限公司 一种钓鱼网站检测方法及其检测系统

Also Published As

Publication number Publication date
CN103067387A (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN103067387B (zh) 一种反钓鱼监测系统和方法
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN104125209B (zh) 恶意网址提示方法和路由器
CN110119469A (zh) 一种面向暗网的数据采集与分析系统及方法
CN107087001B (zh) 一种分布式的互联网重要地址空间检索系统
CN101971591B (zh) 分析网址的系统及方法
US9235728B2 (en) System and methods for identifying compromised personally identifiable information on the internet
Yang et al. How to learn klingon without a dictionary: Detection and measurement of black keywords used by the underground economy
CN103888490A (zh) 一种全自动的web客户端人机识别的方法
RU2722693C1 (ru) Способ и система выявления инфраструктуры вредоносной программы или киберзлоумышленника
CN102394885A (zh) 基于数据流的信息分类防护自动化核查方法
CN111104579A (zh) 一种公网资产的识别方法、装置及存储介质
RU2701040C1 (ru) Способ и вычислительное устройство для информирования о вредоносных веб-ресурсах
CN105589953A (zh) 一种突发公共卫生事件互联网文本抽取方法
CN103716394B (zh) 下载文件的管理方法及装置
WO2017063274A1 (zh) 一种恶意跳转及恶意嵌套类不良网站的自动判定方法
CN113454621A (zh) 用于从多域收集数据的方法、装置和计算机程序
CN102938785A (zh) 用于搜索引擎的不良信息举报和处理办法
CN107800686A (zh) 一种钓鱼网站识别方法和装置
Feng et al. A systematic method on PDF privacy leakage issues
Singh et al. A survey on different phases of web usage mining for anomaly user behavior investigation
CN105530251A (zh) 识别钓鱼网站的方法及装置
CN103440454B (zh) 一种基于搜索引擎关键词的主动式蜜罐检测方法
KR20130032660A (ko) 개인정보 유출 검색 시스템 및 방법
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant