CN102647408A - 一种基于内容分析的判断钓鱼网站的方法 - Google Patents

一种基于内容分析的判断钓鱼网站的方法 Download PDF

Info

Publication number
CN102647408A
CN102647408A CN2012100451384A CN201210045138A CN102647408A CN 102647408 A CN102647408 A CN 102647408A CN 2012100451384 A CN2012100451384 A CN 2012100451384A CN 201210045138 A CN201210045138 A CN 201210045138A CN 102647408 A CN102647408 A CN 102647408A
Authority
CN
China
Prior art keywords
url
website
content
client
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100451384A
Other languages
English (en)
Inventor
温铭
潘建波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Juntian Electronic Technology Co Ltd
Original Assignee
Zhuhai Juntian Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Juntian Electronic Technology Co Ltd filed Critical Zhuhai Juntian Electronic Technology Co Ltd
Priority to CN2012100451384A priority Critical patent/CN102647408A/zh
Publication of CN102647408A publication Critical patent/CN102647408A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提出了一种基于内容分析的判断钓鱼网站的方法,其中其服务器端具有黑、白名单数据库、特征数据库以及分析机;所述服务器端接收客户端发送的未知网站的url数据,并进行黑、白名单判断;在接收的url不在黑、白名单数据库内时下载所述url的相关内容信息,并加载和解析特征数据库里的特征文件,然后利用分析机根据所下载的内容信息逐条和特征数据库里的特征进行匹配;最后将匹配结果反馈给其客户端。本发明所提供的钓鱼网站判断方法,在内容匹配之前采用黑、白名单匹配,并在已知钓鱼网站的内容数据中提取对比特征数据,对未知网站的内容进行匹配,并根据经验值进行判断,具有方便、快捷、高效、适用性广的优点。

Description

一种基于内容分析的判断钓鱼网站的方法
技术领域
本发明涉及一种钓鱼网站的判断方法,尤其是一种基于内容分析的判断钓鱼网站的方法。
背景技术
所谓“钓鱼网站”是一种网络欺诈行为,指不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料,并凭借骗取的用户信息进一步获取经济利益。
“钓鱼网站”近来在全球频繁出现,严重地影响了在线金融服务、电子商务的发展,危害公众利益,影响公众应用互联网的信心。钓鱼网站通常伪装成为银行网站,窃取访问者提交的账号和密码信息。现在的钓鱼网站不仅通过电子邮件传播,更多的是通过聊天工具、论坛、搜索引擎来传播,比如在邮件中加入一个经过伪装的链接将收件人联到钓鱼网站。钓鱼网站的页面与真实网站界面基本一致,要求访问者提交账号和密码。一般来说钓鱼网站结构很简单,只有一个或几个页 面,URL和真实网站有细微差别。
常规的钓鱼网站鉴别方法包括对网站的url和具体内容进行鉴别。对于基于url的判断,安全服务商需建立完整的钓鱼网站数据库,尽量收集已知的钓鱼网站url样本,在基于已知的url样本对待鉴别url做出判断,换句话说,此类方法严重依赖于数据库的样本数量。对于对网站的内容进行鉴别需要将网站信息发送给服务器,并由服务器根据其海量数据和超强运算能力对网站内容进行鉴别,再将判断结果发给客户端,传统的此类判断方法效率较低,花费时间较长,从而降低了拦截效果。
发明内容
针对以上情况,本发明提供一种新型的基于内容分析的钓鱼网站判断方法。
本发明的技术方案是:
一种基于内容分析的判断钓鱼网站的方法,包括设置在用户机器上的客户端以及设置在安全服务提供商侧的服务器端,其中所述服务器端具有存储有现有已知钓鱼网站url信息的黑名单数据库、存储有现有已知非钓鱼网站url信息的白名单数据库、存储有从已知钓鱼网站的内容数据中统计出来的钓鱼网站特征规律的特征数据库以及基于所述特征数据库对提取的url内容信息进行分析匹配的分析机,并包括以下步骤:
1)所述客户端将用户访问的未知网站的url数据发送至所述服务器端;
2)所述服务器端接收客户端发送的未知网站的url数据,并根据所述黑、白名单数据库进行比较分析,如果所述url位于所述黑名单数据库或白名单数据库中,则终止处理并将结果返回到客户端;如果所述url不在所述黑、白名单数据库中,则将所述url判断为灰网址,并进行下一步处理;
3)在服务器端下载所述url的相关内容信息;
4)在服务器端加载和解析特征数据库里的特征文件,然后利用分析机根据所下载的内容信息逐条和特征数据库里的特征进行匹配;
5)将匹配结果反馈给所述客户端;
6)所述客户端根据所述服务器端所反馈的判断结果允许或者拒绝用户继续访问所述网站,并给出相应的拒绝访问说明。
作为以上技术方案的一种改进,步骤3中的内容信息包括网站的url本身、JavaScript脚本、标题、文本以及布局。
作为以上技术方案的一种改进,每一被判断为钓鱼网站的相应网站内容数据均被加入到数据库中作为提取钓鱼网站特征规律的原始数据。
本发明的有益效果是:
本发明所提供的钓鱼网站判断方法,在内容匹配之前采用黑、白名单匹配,能大大加快基于网站内容分析的方法的分析判断速度,在实际应用中可将鉴定时间缩短到1分钟左右。本发明在已知钓鱼网站的内容数据中提取对比特征数据,对未知网站的内容进行匹配,并根据经验值进行判断,具有方便、快捷、高效、适用性广的优点。
附图说明
图1为本发明的流程图。
具体实施方式
在本发明的一个具体实施例中,此方法可通过一个含有互相通信的客户端和服务器端的系统所实现,其中客户端可以是安装在用户机器上的安全防护软件或者是所述安全防护软件的一部分,而对应地,服务器端可以是设置在安全提供商侧的中心服务器,为所有与其连接的客户端提供后台服务。
在本发明中,本发明的功能由服务器端上的黑、白名单数据库、特征数据库以及分析机所实现,其中黑、白名单数据库存储有现有已知的钓鱼网站、非钓鱼网站的url信息,特征数据库存储有从已知钓鱼网站的内容历史数据中统计出来的钓鱼网站特征规律,分析机用于基于所述特征数据库对提取的url内容信息进行分析匹配。
其中黑、白名单数据库可放置在外网,服务器端在客户端查询的url不在外网的黑、白名单数据库内时,将所述url判断为灰网址,即是不确定的网址,并进入内网就行下一步的内容检测分析。进行内容检测前,会有一个爬虫,通过客户端上传的url信息爬取到和这个URL相关的内容信息,这些内容信息包括网站的url本身、JavaScript脚本、标题、文本以及布局等。拿到内容信息后,会把内容传给分析机进行分析是否为钓鱼网站。分析机会首先加载和解析特征数据库里的特征文件(里面是统计得出的现有钓鱼网站的特征),然后根据内容逐条和特征进行匹配。如果匹配成功,就说明是钓鱼网站;如果都不匹配,就不做任何处理。
本发明的钓鱼网站相关的内容分析的重点在于‘分析机’和‘特征文件’。前者是一个词法和语法解释器,后者是一个经验统计总结得出的很多条规则规律,并且在不断的完善中。
具体来说,如图1所示,所述系统可通过以下步骤基于特征数据库对未知网站的内容进行判断处理:
首先,客户端将用户将需访问的安全未知的网站的url数据发送至服务器端,这可以是一个加密的文件交换过程。
服务器端接收客户端发送的未知网站的url数据,并根据所述黑、白名单数据库进行比较分析,如果所述url位于所述黑名单数据库或白名单数据库中,则终止处理并将结果返回到客户端;如果所述url不在所述黑、白名单数据库中,则将所述url判断为灰网址,并进行下一步处理。
服务器端利用爬虫下载所述url的相关内容信息,加载和解析特征数据库里的特征文件,然后利用分析机根据所爬取的内容信息逐条和特征进行匹配。
根据匹配结果判断所述url是否为钓鱼网站,并将匹配结果反馈给所述客户端。
客户端根据所述服务器端所反馈的匹配结果允许或者拒绝用户继续访问所述网站,并给出相应的拒绝访问说明。
其中,每一被判断为钓鱼网站的相应网站内容数据均被加入到数据库中作为提取特征的原始数据,提高用于提取特征的原始数据的数量,进而提高提取的特征文件的代表性。
本发明所提供的钓鱼网站判断方法采用额外的灰网址机制以及内、外网设置,能大大加快钓鱼网站的判断速度,在实际应用中可将鉴定时间缩短到1分钟左右。本方法采用适当的数据挖掘算法在已知钓鱼网站的内容数据中提取对比数据,对未知网站的内容进行相似度计算,并根据经验值进行判断,具有高效、准确率搞、适用性广的优点。

Claims (3)

1.一种基于内容分析的判断钓鱼网站的方法,包括设置在用户机器上的客户端以及设置在安全服务提供商侧的服务器端,其特征在于:所述服务器端具有存储有现有已知钓鱼网站url信息的黑名单数据库、存储有现有已知非钓鱼网站url信息的白名单数据库、存储有从已知钓鱼网站的内容数据中统计出来的钓鱼网站特征规律的特征数据库以及基于所述特征数据库对提取的url内容信息进行分析匹配的分析机,并包括以下步骤:
1)所述客户端将用户访问的未知网站的url数据发送至所述服务器端;
2)所述服务器端接收客户端发送的未知网站的url数据,并根据所述黑、白名单数据库进行比较分析,如果所述url位于所述黑名单数据库或白名单数据库中,则终止处理并将结果返回到客户端;如果所述url不在所述黑、白名单数据库中,则将所述url判断为灰网址,并进行下一步处理;
3)在服务器端下载所述url的相关内容信息;
4)在服务器端加载和解析特征数据库里的特征文件,然后利用分析机根据所爬取的内容信息逐条和特征数据库里的特征进行匹配;
5)将匹配结果反馈给所述客户端;
6)所述客户端根据所述服务器端所反馈的匹配结果允许或者拒绝用户继续访问所述网站,并给出相应的拒绝访问说明。
2.根据权利要求1所述的基于内容分析的判断钓鱼网站的方法,其特征在于:步骤3中的内容信息包括网站的url本身、JavaScript脚本、标题、文本以及布局。
3.根据权利要求1所述的基于内容分析的判断钓鱼网站的方法,其特征在于:每一被判断为钓鱼网站的相应网站内容数据均被加入到数据库中作为提取钓鱼网站特征的原始数据。
CN2012100451384A 2012-02-27 2012-02-27 一种基于内容分析的判断钓鱼网站的方法 Pending CN102647408A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100451384A CN102647408A (zh) 2012-02-27 2012-02-27 一种基于内容分析的判断钓鱼网站的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100451384A CN102647408A (zh) 2012-02-27 2012-02-27 一种基于内容分析的判断钓鱼网站的方法

Publications (1)

Publication Number Publication Date
CN102647408A true CN102647408A (zh) 2012-08-22

Family

ID=46659985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100451384A Pending CN102647408A (zh) 2012-02-27 2012-02-27 一种基于内容分析的判断钓鱼网站的方法

Country Status (1)

Country Link
CN (1) CN102647408A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930214A (zh) * 2012-10-29 2013-02-13 珠海市君天电子科技有限公司 一种对未知购物网站进行风险提示的方法及其装置
CN102957694A (zh) * 2012-10-25 2013-03-06 北京奇虎科技有限公司 一种判断钓鱼网站的方法及装置
CN102957693A (zh) * 2012-10-25 2013-03-06 北京奇虎科技有限公司 钓鱼网站判断方法及装置
CN102984161A (zh) * 2012-12-05 2013-03-20 北京奇虎科技有限公司 一种可信网站的识别方法和装置
CN103116725A (zh) * 2013-02-01 2013-05-22 北京奇虎科技有限公司 对网页进行锁屏的方法、装置及浏览器
CN103442014A (zh) * 2013-09-03 2013-12-11 中国科学院信息工程研究所 一种自动检测疑似仿冒网站的方法及系统
CN103634317A (zh) * 2013-11-28 2014-03-12 北京奇虎科技有限公司 基于云安全对恶意网址信息进行安全鉴定的方法及系统
CN103634283A (zh) * 2012-08-24 2014-03-12 腾讯科技(深圳)有限公司 一种审核结果的反馈方法及云端服务器
CN103634306A (zh) * 2013-11-18 2014-03-12 北京奇虎科技有限公司 网络数据的安全检测方法和安全检测服务器
CN103973635A (zh) * 2013-01-24 2014-08-06 腾讯科技(深圳)有限公司 页面访问控制方法和相关装置及系统
CN103997490A (zh) * 2014-05-12 2014-08-20 北京奇虎科技有限公司 未知文件样本安全性鉴定的方法及装置
WO2014206203A1 (en) * 2013-06-24 2014-12-31 Tencent Technology (Shenzhen) Company Limited System and method for detecting unauthorized login webpage
CN104462152A (zh) * 2013-09-23 2015-03-25 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置
CN105553767A (zh) * 2015-12-15 2016-05-04 北京奇虎科技有限公司 网站后门文件检测方法及装置
CN105635159A (zh) * 2016-01-07 2016-06-01 中国联合网络通信集团有限公司 基于关键字的封堵方法及系统
CN106571971A (zh) * 2015-10-08 2017-04-19 阿里巴巴集团控股有限公司 检测空壳网站的方法、装置及系统
CN106713266A (zh) * 2016-11-14 2017-05-24 腾讯科技(深圳)有限公司 一种防止信息泄露的方法、装置、终端及系统
CN106789980A (zh) * 2016-12-07 2017-05-31 北京亚鸿世纪科技发展有限公司 一种网站合法性的安全监管方法和装置
CN107743128A (zh) * 2017-10-31 2018-02-27 哈尔滨工业大学(威海) 一种基于首页关联域名和同服务ip的非法网站挖掘方法
CN109743309A (zh) * 2018-12-28 2019-05-10 微梦创科网络科技(中国)有限公司 一种非法请求识别方法、装置及电子设备
CN114095278A (zh) * 2022-01-19 2022-02-25 南京明博互联网安全创新研究院有限公司 一种基于混合特征选择框架的钓鱼网站检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035128A (zh) * 2007-04-18 2007-09-12 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
CN101079042A (zh) * 2006-12-28 2007-11-28 腾讯科技(深圳)有限公司 一种快速查询黑白名单的系统及方法
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079042A (zh) * 2006-12-28 2007-11-28 腾讯科技(深圳)有限公司 一种快速查询黑白名单的系统及方法
CN101035128A (zh) * 2007-04-18 2007-09-12 大连理工大学 基于中文标点符号的三重网页文本内容识别及过滤方法
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103634283B (zh) * 2012-08-24 2017-11-28 腾讯科技(深圳)有限公司 一种审核结果的反馈方法及云端服务器
CN103634283A (zh) * 2012-08-24 2014-03-12 腾讯科技(深圳)有限公司 一种审核结果的反馈方法及云端服务器
CN102957694B (zh) * 2012-10-25 2016-08-31 北京奇虎科技有限公司 一种判断钓鱼网站的方法及装置
US9742774B2 (en) 2012-10-25 2017-08-22 Beijing Qihoo Technology Company Limited Method and apparatus for determining phishing website
CN102957693B (zh) * 2012-10-25 2015-09-30 北京奇虎科技有限公司 钓鱼网站判断方法及装置
US10270779B2 (en) 2012-10-25 2019-04-23 Beijing Qihoo Technology Company Limited Method and apparatus for determining phishing website
CN102957693A (zh) * 2012-10-25 2013-03-06 北京奇虎科技有限公司 钓鱼网站判断方法及装置
CN102957694A (zh) * 2012-10-25 2013-03-06 北京奇虎科技有限公司 一种判断钓鱼网站的方法及装置
CN102930214A (zh) * 2012-10-29 2013-02-13 珠海市君天电子科技有限公司 一种对未知购物网站进行风险提示的方法及其装置
CN102930214B (zh) * 2012-10-29 2016-04-06 珠海市君天电子科技有限公司 一种对未知购物网站进行风险提示的方法及其装置
CN102984161A (zh) * 2012-12-05 2013-03-20 北京奇虎科技有限公司 一种可信网站的识别方法和装置
CN102984161B (zh) * 2012-12-05 2016-06-15 北京奇虎科技有限公司 一种可信网站的识别方法和装置
CN103973635A (zh) * 2013-01-24 2014-08-06 腾讯科技(深圳)有限公司 页面访问控制方法和相关装置及系统
CN103973635B (zh) * 2013-01-24 2015-10-28 腾讯科技(深圳)有限公司 页面访问控制方法和相关装置及系统
CN103116725A (zh) * 2013-02-01 2013-05-22 北京奇虎科技有限公司 对网页进行锁屏的方法、装置及浏览器
CN103116725B (zh) * 2013-02-01 2015-12-02 北京奇虎科技有限公司 对网页进行锁屏的方法、装置及浏览器
WO2014206203A1 (en) * 2013-06-24 2014-12-31 Tencent Technology (Shenzhen) Company Limited System and method for detecting unauthorized login webpage
CN103442014A (zh) * 2013-09-03 2013-12-11 中国科学院信息工程研究所 一种自动检测疑似仿冒网站的方法及系统
CN104462152A (zh) * 2013-09-23 2015-03-25 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置
CN104462152B (zh) * 2013-09-23 2019-04-09 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置
CN103634306A (zh) * 2013-11-18 2014-03-12 北京奇虎科技有限公司 网络数据的安全检测方法和安全检测服务器
CN103634317A (zh) * 2013-11-28 2014-03-12 北京奇虎科技有限公司 基于云安全对恶意网址信息进行安全鉴定的方法及系统
CN103997490B (zh) * 2014-05-12 2017-03-29 北京奇虎科技有限公司 未知文件样本安全性鉴定的方法及装置
CN103997490A (zh) * 2014-05-12 2014-08-20 北京奇虎科技有限公司 未知文件样本安全性鉴定的方法及装置
CN106571971A (zh) * 2015-10-08 2017-04-19 阿里巴巴集团控股有限公司 检测空壳网站的方法、装置及系统
CN105553767A (zh) * 2015-12-15 2016-05-04 北京奇虎科技有限公司 网站后门文件检测方法及装置
CN105553767B (zh) * 2015-12-15 2018-12-25 北京奇虎科技有限公司 网站后门文件检测方法及装置
CN105635159A (zh) * 2016-01-07 2016-06-01 中国联合网络通信集团有限公司 基于关键字的封堵方法及系统
CN105635159B (zh) * 2016-01-07 2018-07-03 中国联合网络通信集团有限公司 基于关键字的封堵方法及系统
CN106713266A (zh) * 2016-11-14 2017-05-24 腾讯科技(深圳)有限公司 一种防止信息泄露的方法、装置、终端及系统
CN106789980A (zh) * 2016-12-07 2017-05-31 北京亚鸿世纪科技发展有限公司 一种网站合法性的安全监管方法和装置
CN107743128A (zh) * 2017-10-31 2018-02-27 哈尔滨工业大学(威海) 一种基于首页关联域名和同服务ip的非法网站挖掘方法
CN109743309A (zh) * 2018-12-28 2019-05-10 微梦创科网络科技(中国)有限公司 一种非法请求识别方法、装置及电子设备
CN109743309B (zh) * 2018-12-28 2021-09-10 微梦创科网络科技(中国)有限公司 一种非法请求识别方法、装置及电子设备
CN114095278A (zh) * 2022-01-19 2022-02-25 南京明博互联网安全创新研究院有限公司 一种基于混合特征选择框架的钓鱼网站检测方法
CN114095278B (zh) * 2022-01-19 2022-05-24 南京明博互联网安全创新研究院有限公司 一种基于混合特征选择框架的钓鱼网站检测方法

Similar Documents

Publication Publication Date Title
CN102647408A (zh) 一种基于内容分析的判断钓鱼网站的方法
CN102638448A (zh) 一种基于非内容分析的判断钓鱼网站的方法
CN105930727B (zh) 基于Web的爬虫识别方法
CN104954372B (zh) 一种钓鱼网站的取证与验证方法及系统
CN104766014B (zh) 用于检测恶意网址的方法和系统
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN109274632B (zh) 一种网站的识别方法及装置
CN105119909B (zh) 一种基于页面视觉相似性的仿冒网站检测方法和系统
CN103530367B (zh) 一种钓鱼网站鉴别系统和方法
CN103685308A (zh) 一种钓鱼网页的检测方法及系统、客户端、服务器
CN102957664B (zh) 一种识别钓鱼网站的方法及装置
CN104580230B (zh) 网站攻击验证方法及装置
CN106713579B (zh) 一种电话号码识别方法及装置
CN103685307A (zh) 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器
CN102769632A (zh) 钓鱼网站分级检测和提示的方法及系统
CN103634317A (zh) 基于云安全对恶意网址信息进行安全鉴定的方法及系统
CN108566399A (zh) 钓鱼网站识别方法及系统
CN102984161B (zh) 一种可信网站的识别方法和装置
CN105792152B (zh) 伪基站短信识别方法和装置
CN102710646A (zh) 一种钓鱼网站的收集方法和系统
CN106446113A (zh) 移动大数据解析方法及装置
CN102891861B (zh) 一种基于客户端的钓鱼网站检测方法及其装置
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN110443031A (zh) 一种二维码风险识别方法和系统
CN103488947A (zh) 即时通信客户端盗号木马程序的识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120822