CN102647422B - 钓鱼网站检测方法及设备 - Google Patents

钓鱼网站检测方法及设备 Download PDF

Info

Publication number
CN102647422B
CN102647422B CN201210104080.6A CN201210104080A CN102647422B CN 102647422 B CN102647422 B CN 102647422B CN 201210104080 A CN201210104080 A CN 201210104080A CN 102647422 B CN102647422 B CN 102647422B
Authority
CN
China
Prior art keywords
website
detected
page link
station
fishing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210104080.6A
Other languages
English (en)
Other versions
CN102647422A (zh
Inventor
洪博
王利明
肖雅丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Network Information Center
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201210104080.6A priority Critical patent/CN102647422B/zh
Publication of CN102647422A publication Critical patent/CN102647422A/zh
Priority to PCT/CN2012/087762 priority patent/WO2013152610A1/zh
Application granted granted Critical
Publication of CN102647422B publication Critical patent/CN102647422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/51Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems at application loading time, e.g. accepting, rejecting, starting or inhibiting executable software based on integrity or source reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种钓鱼网站检测方法及设备。该钓鱼网站检测方法包括:获取待检测网站;若根据待检测网站的域名,检测获知存在所述待检测网站的钓鱼倾向目标网站,则获取所述待检测网站的站内页面链接;若检测获知所述站内页面链接包括登陆框链接,则判定所述待检测网站为钓鱼网站。本发明提供的钓鱼网站检测方法及设备能够实现钓鱼网站的主动检测。

Description

钓鱼网站检测方法及设备
技术领域
本发明涉及信息处理技术,尤其涉及一种钓鱼网站检测方法及设备,属于网络安全技术领域。
背景技术
随着科技的普及化,网络通讯技术以不可取代的地位深入各个领域,而网络安全问题也日益严峻,其中以网络钓鱼问题尤为突出。
网络钓鱼,是指通过发送垃圾电子邮件等方式,将收信用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上,并获取收信人在此网站上输入的个人敏感信息的网络犯罪行为。由于电子商务和互联网应用的普及和发展,网络钓鱼造成的损失日益严重。
目前的钓鱼网站检测方法主要为黑名单过滤技术。黑名单过滤技术主要依靠不断对包括所有已知钓鱼网站和/或用户举报网站的黑名单进行更新,在对可疑网站进行检测时,通过查找该可疑网站的域名等信息是否包括在黑名单中,来判断该可疑网站是否为钓鱼网站。
利用上述方法对可疑网站进行的检测为被动检测,即这种检测方法通常在用户已经遭受钓鱼网站侵害后才能发挥作用,具有一定的滞后性。因此,如何能够有效检测出未记录在黑名单中的钓鱼网站,即实现钓鱼网站的主动检测,从而避免或减少用户损失,成为钓鱼网站检测的重点所在。
发明内容
针对现有技术中的缺陷,本发明提供一种钓鱼网站检测方法及设备,用以实现钓鱼网站的主动检测。
根据本发明的一方面,提供一种钓鱼网站检测方法,包括:
获取待检测网站;
若根据待检测网站的域名,检测获知存在所述待检测网站的钓鱼倾向目标网站,则获取所述待检测网站的站内页面链接;
若检测获知所述站内页面链接包括登陆框链接,则判定所述待检测网站为钓鱼网站。
进一步地,在上述钓鱼网站检测方法中,所述若检测获知所述站内页面链接包括登陆框链接,则判定所述待检测网站为钓鱼网站具体包括:
若检测获知所述站内页面链接包括登陆框链接,则获取所述待检测网站的特征向量;
根据所述待检测网站的特征向量,对所述待检测网站进行钓鱼网站检测。
进一步地,在上述钓鱼网站检测方法中,所述获取所述待检测网站的特征向量具体包括获取第一特征值、第二特征值、第三特征值和/或第四特征值;其中:
获取所述待检测网站的所述第一特征值具体包括:
获取所述钓鱼倾向目标网站的身份信息关键词;检测所述待检测网站的标题和/或版权信息中是否包括所述身份信息关键词;若是,则所述第一特征值为1;若否,则所述第一特征值为0;
获取所述待检测网站的所述第二特征值具体包括:
获取所述待检测网站的站外页面链接,并获取所述待检测网站的链接总数,所述链接总数包括所述站外页面链接的数量与所述站内页面链接的数量之和;
获取所述站外页面链接的数量与所述链接总数的第一比值,并将所述第一比值作为所述第二特征值;
获取所述待检测网站的所述第三特征值具体包括:
获取所述待检测网站的可疑页面链接;
获取所述可疑页面链接的数量与所述链接总数的第二比值,并将所述第二比值作为所述第三特征值;
获取所述待检测网站的所述第四特征值具体包括:
获取所述待检测网站的注册时长;若所述注册时长不大于预设时长,则所述第四特征值为1;若否,则所述第四特征值为0。
进一步地,在上述钓鱼网站检测方法中,所述获取所述待检测网站的可疑页面链接具体包括:
若检测获知所述站外页面链接和/或所述站内页面链接包括所述钓鱼倾向目标网站的域名关键词,或检测获知所述站外页面链接和/或所述站内页面链接为互联网协议地址形式的统一资源定位符,则判定所述站外页面链接和/或所述站内页面链接为待检测网站的可疑页面链接。
进一步地,在上述钓鱼网站检测方法中,所述根据所述待检测网站的特征向量,对所述待检测网站进行钓鱼网站检测具体包括:
为所述第一特征值、第二特征值、第三特征值和/或第四特征值分配对应的权重,获取所述第一特征值、第二特征值、第三特征值和/或第四特征值与对应权重乘积的累加值;
若所述累加值大于预设阈值,则判定所述待检测网站为钓鱼网站。
根据本发明的另一方面,还提供一种钓鱼网站检测设备,包括:
第一处理模块,用于获取待检测网站;
第二处理模块,用于若根据待检测网站的域名,检测获知存在所述待检测网站的钓鱼倾向目标网站,则获取所述待检测网站的站内页面链接;
第三处理模块,用于若检测获知所述站内页面链接包括登陆框链接,则判定所述待检测网站为钓鱼网站。
进一步地,在上述钓鱼网站检测设备中,还包括:
第四处理模块,用于若检测获知所述站内页面链接包括登陆框链接,则获取所述待检测网站的特征向量;
第五处理模块,用于根据所述待检测网站的特征向量,对所述待检测网站进行钓鱼网站检测。
进一步地,在上述钓鱼网站检测设备中,所述第四处理模块包括第一处理单元、第二处理单元、第三处理单元和/或第四处理单元,其中:
所述第一处理单元用于获取所述钓鱼倾向目标网站的身份信息关键词;检测所述待检测网站的标题和/或版权信息中是否包括所述身份信息关键词;若是,则第一特征值为1;若否,则第一特征值为0;
所述第二处理单元用于获取所述待检测网站的站外页面链接,并获取所述待检测网站的链接总数,所述链接总数包括所述站外页面链接的数量与所述站内页面链接的数量之和;获取所述站外页面链接的数量与所述链接总数的第一比值,并将所述第一比值作为第二特征值;
所述第三处理单元用于获取所述待检测网站的可疑页面链接;获取所述可疑页面链接的数量与所述链接总数的第二比值,并将所述第二比值作为第三特征值;
所述第四处理单元用于获取所述待检测网站的注册时长;若所述注册时长不大于预设时长,则第四特征值为1;若否,则第四特征值为0。
进一步地,在上述钓鱼网站检测设备中,所述第三处理单元还用于若检测获知所述站外页面链接和/或所述站内页面链接包括所述钓鱼倾向目标网站的域名关键词,或检测获知所述站外页面链接和/或所述站内页面链接为互联网协议地址形式的统一资源定位符,则判定所述站外页面链接和/或所述站内页面链接为待检测网站的可疑页面链接。
进一步地,在上述钓鱼网站检测设备中,所述第五处理模块包括:
第五处理单元,用于为所述第一特征值、第二特征值、第三特征值和/或第四特征值分配对应的权重,获取所述第一特征值、第二特征值、第三特征值和/或第四特征值与对应权重乘积的累加值;
第六处理单元,若所述累加值大于预设阈值,则判定所述待检测网站为钓鱼网站。
根据本发明提供的钓鱼网站检测方法及设备,由于首先根据待检测网站的域名判断待检测网站是否存在钓鱼攻击倾向,并当判断为是时,进一步根据待检测网站的站内页面链接是否包括登陆框来判定待检测网站是否为钓鱼网站,从而可根据待检测网站的自身特征,检测出未记录在黑名单中的钓鱼网站,实现了钓鱼网站的主动检测。
附图说明
图1为本发明实施例钓鱼网站检测方法的流程示意图。
图2为本发明实施例钓鱼网站检测设备的结构示意图。
具体实施方式
本发明实施例的钓鱼网站检测方法例如由设置在网络中的钓鱼网站检测设备来执行。
图1为本发明实施例钓鱼网站检测方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤S101,获取待检测网站;
步骤S102,若根据待检测网站的域名,检测获知存在所述待检测网站的钓鱼倾向目标网站,则获取所述待检测网站的站内页面链接;
步骤S103,若检测获知所述站内页面链接包括登陆框链接,则判定所述待检测网站为钓鱼网站。
具体地,获取待检测网站的域名后,首先通过检测该待检测网站是否具体钓鱼倾向目标网站,来判断待检测网站是否可能对某一已知正常网站进行钓鱼攻击。其中,可通过多种方式检测是否存在钓鱼倾向目标网站,比如:对待检测网站的域名和经常被钓鱼攻击的知名网站的域名进行相似度检测,并根据两者之间的相似度值来判断待检测网站的域名是否为知名网站的仿冒域名,若是,则认为该知名网站为待检测网站的钓鱼倾向目标网站,即认为待检测网站可能对该知名网站进行钓鱼攻击。此外,也可以判断待检测网站的域名中是否包括知名网站的域名关键词,若是,则认为该知名网站为待检测网站的钓鱼倾向目标网站。其中,上述检测过程中的知名网站例如为存储在保护域名特征库中的网站,该保护域名特征库例如包括已知的受到钓鱼攻击的网站和点击量较高的网站等。
若检测到不存在钓鱼倾向目标网站,则可知待检测网站不存在钓鱼攻击的倾向,从而判定待检测网站不为钓鱼网站。若检测到存在钓鱼倾向网站,则对该待检测网站进行全站遍历,无重复的提取出待检测网站的所有站内页面链接,并进行后续检测。
根据提取出的待检测网站的所有站内页面链接,检测待检测网站中是否包括要求用户输入隐私信息的登陆框。具体地,遍历待检测网站的所有站内页面链接,分别检测各站内页面链接是否包括登陆框,具体的检测方式例如包括:检测站内页面链接对应的页面中是否包括<form>......<form>表单元素,若无,则判定该站内页面链接不包括登陆框;若有,则进一步检测该表单元素中的值域是否包括“账号”、“密码”和“登陆”等字样,若有,则判定该站内页面链接包括登陆框。
由于钓鱼网站必然包含要求用户输入隐私信息的登陆框,因此,对待检测网站的所有站内页面链接完成上述登陆框检测后,若获知待检测网站的站内页面链接不包括登陆框链接,则可确定待检测网站不为钓鱼网站;若获知待检测网站的站内页面链接包括登陆框链接,则可确定待检测网站为钓鱼网站或待进一步检测的可疑钓鱼网站。
根据上述实施例的钓鱼网站检测方法,由于首先根据待检测网站的域名判断待检测网站是否存在钓鱼攻击倾向,并当判断为是时,进一步根据待检测网站的站内页面链接是否包括登陆框来判定待检测网站是否为钓鱼网站,从而可根据待检测网站的自身特征,检测出未记录在黑名单中的钓鱼网站,实现了钓鱼网站的主动检测。通过采用这种钓鱼网站检测方法,能够在用户遭受钓鱼网站侵害之前,主动检测到钓鱼网站,从而有效避免或减少用户损失。
进一步地,在上述实施例的钓鱼网站检测方法中,所述若检测获知所述站内页面链接包括登陆框链接,则判定所述待检测网站为钓鱼网站具体包括:
若检测获知所述站内页面链接包括登陆框链接,则获取所述待检测网站的特征向量;
根据所述待检测网站的特征向量,对所述待检测网站进行钓鱼网站检测。
其中,待检测网站的特征向量可包括一个或多个特征值,该一个或多个特征值分别用于表征待检测网站的不同特征或信息,因此,根据待检测网站的特征向量对待检测网站进行钓鱼网站检测,可在检测获知站内页面链接包括登陆框链接后,进一步根据待检测网站的其他特征或信息进行钓鱼网站检测,从而提高钓鱼网站检测的准确性。
进一步地,在上述实施例的钓鱼网站检测方法中,待检测网站的特征向量包括第一特征值、第二特征值、第三特征值和/或第四特征值。相应地,所述获取所述待检测网站的特征向量具体包括获取第一特征值、第二特征值、第三特征值和/或第四特征值。例如表示为特征向量Vector{V1,V2,V3,V4}。
更为具体地,获取所述待检测网站的所述第一特征值V1具体包括:
获取所述钓鱼倾向目标网站的身份信息关键词;检测所述待检测网站的标题(title)和/或版权(copyright)信息中是否包括所述身份信息关键词;若是,则所述第一特征值V1为1;若否,则所述第一特征值V1为0。
其中,例如从钓鱼倾向目标网站的“title”或“copyright”等部分的文本内容中获取表明钓鱼倾向目标网站身份的关键词,例如腾讯网站的身份信息关键词包括“腾讯”、“Tencent”和“qq”等。获取钓鱼倾向目标网站的身份信息关键词后,遍历待检测网站的“title”和“copyright”的文本内容,检测是否包括上述钓鱼倾向目标网站的身份信息关键词,若包括,则令第一特征值V1=1,以表明待检测网站与钓鱼倾向目标网站身份匹配;若不包括,则令第一特征值V1=0,以表明待检测网站与钓鱼倾向目标网站身份不匹配。
获取所述待检测网站的所述第二特征值V2具体包括:
获取所述待检测网站的站外页面链接,并获取所述待检测网站的链接总数,所述链接总数包括所述站外页面链接的数量与所述站内页面链接的数量之和;
获取所述站外页面链接的数量与所述链接总数的第一比值,并将所述第一比值作为所述第二特征值V2;
获取所述待检测网站的所述第三特征值V3具体包括:
获取所述待检测网站的可疑页面链接;
获取所述可疑页面链接的数量与所述链接总数的第二比值,并将所述第二比值作为所述第三特征值V3;
其中,判定待检测网站的某一链接是否为可疑页面链接例如采用如下方式:若检测获知所述站外页面链接和/或所述站内页面链接包括所述钓鱼倾向目标网站的域名关键词,或检测获知所述站外页面链接和/或所述站内页面链接为互联网协议地址(IP)形式的统一资源定位符,则判定所述站外页面链接和/或所述站内页面链接为待检测网站的可疑页面链接。
具体地,对待检测网站的所有站外页面链接和站内页面链接进行检测,判断链接的URL中是否包括钓鱼倾向目标网站的域名关键词,例如淘宝网站“www.taobao.com”的域名关键词为“taobao”,并判断链接的URL是否为IP形式,即该链接的URL是否表示为“210.46.102.141”的格式。若链接的URL中包括钓鱼倾向目标网站的域名关键词和/或链接的URL为IP形式,则判定该链接为待检测网站的可疑页面链接,反之,若链接的URL中不包括钓鱼倾向目标网站的域名关键词、且链接的URL不为IP形式,则判定该链接为待检测网站的正常页面链接。通过这种可疑页面链接判断方法,一方面,能够检测出链向钓鱼倾向目标网站的链接和采用钓鱼倾向目标网站的域名关键词的可疑链接;另一方面,由于信誉度较高的网站通常不会采用IP形式作为URL,所以还能够检测出以IP形式作为链接的URL这种信誉度低的可疑链接。
获取所述待检测网站的所述第四特征值V4具体包括:
获取所述待检测网站的注册时长;若所述注册时长不大于预设时长,则所述第四特征值V4为1;若否,则所述第四特征值V4为0。
例如,通过访问“WHOIS”数据库检测待检测网站的域名的注册时间是否大于一年。根据统计,钓鱼网站的域名中超过95%的域名注册时间小于一年。因此,通过注册时间的检测,可以降低误报。若小于或等于一年,则令第四特征值V4=1,表示该站点不是钓鱼网站;若大于一年,则令第四特征值V4=0。
此外,例如预先根据正常网站和钓鱼网站的样本生成判定模型,上述过程得到的特征向量作为判定模型的输入,由判定模型根据特征向量中的特征值,生成待检测网站是否为钓鱼网站的判定结果。
进一步地,在上述实施例的钓鱼网站检测方法中,所述根据所述待检测网站的特征向量,对所述待检测网站进行钓鱼网站检测具体包括:
为所述第一特征值V1、第二特征值V2、第三特征值V3和/或第四特征值V4分配对应的权重,获取所述第一特征值V1、第二特征值V2、第三特征值V3和/或第四特征值V4与对应权重乘积的累加值;
若所述累加值大于预设阈值,则判定所述待检测网站为钓鱼网站。
具体地,例如为第一特征值V1分配第一权重值a1、为第二特征值V2分配第一权重值a1、为第三特征值V3分配第一权重值a1、为第四特征值V4分配第四权重值a4,则该特征向量的累加值为a1×V1+a2×V2+a3×V3+a4×V4。将该特征向量的累加值与一个预设阈值相比较,若大于预设阈值,则判定所述待检测网站为钓鱼网站,若小于或等于预设阈值,则判定所述待检测网站不为钓鱼网站。
其中,第一权重值a1、第一权重值a1、第一权重值a1、第四权重值a4例如均大于0且小于等于1,且第一权重值a1、第一权重值a1、第一权重值a1、第四权重值a4以及预设阈值例如均由判定模型提供,具体数值可根据对正常网站和钓鱼网站的样本进行统计获得。
根据上述实施例的钓鱼网站检测方法,结合了待检测网站的身份特征、链接特征和注册时间等多项信息,对该网站是否为钓鱼网站进行辅助判定,实现了快速、可靠的主动钓鱼网站检测。
图2为本发明实施例钓鱼网站检测设备的结构示意图。如图2所示,该一种钓鱼网站检测设备包括:
第一处理模块21,用于获取待检测网站;
第二处理模块22,用于若根据待检测网站的域名,检测获知存在所述待检测网站的钓鱼倾向目标网站,则获取所述待检测网站的站内页面链接;
第三处理模块23,用于若检测获知所述站内页面链接包括登陆框链接,则判定所述待检测网站为钓鱼网站。
上述实施例的钓鱼网站检测设备执行钓鱼网站检测的具体流程与上述实施例的钓鱼网站检测方法相同,故此处不再赘述。
根据上述实施例的钓鱼网站检测设备,由于首先根据待检测网站的域名判断待检测网站是否存在钓鱼攻击倾向,并当判断为是时,进一步根据待检测网站的站内页面链接是否包括登陆框来判定待检测网站是否为钓鱼网站,从而可根据待检测网站的自身特征,检测出未记录在黑名单中的钓鱼网站,实现了钓鱼网站的主动检测。通过采用这种钓鱼网站检测设备,能够在用户遭受钓鱼网站侵害之前,主动检测到钓鱼网站,从而有效避免或减少用户损失。
进一步地,在上述实施例的钓鱼网站检测设备中,还包括:
第四处理模块,用于若检测获知所述站内页面链接包括登陆框链接,则获取所述待检测网站的特征向量;
第五处理模块,用于根据所述待检测网站的特征向量,对所述待检测网站进行钓鱼网站检测。
进一步地,在上述实施例的钓鱼网站检测设备中,所述第四处理模块包括第一处理单元、第二处理单元、第三处理单元和/或第四处理单元,其中:
所述第一处理单元用于获取所述钓鱼倾向目标网站的身份信息关键词;检测所述待检测网站的标题和/或版权信息中是否包括所述身份信息关键词;若是,则第一特征值为1;若否,则第一特征值为0;
所述第二处理单元用于获取所述待检测网站的站外页面链接,并获取所述待检测网站的链接总数,所述链接总数包括所述站外页面链接的数量与所述站内页面链接的数量之和;获取所述站外页面链接的数量与所述链接总数的第一比值,并将所述第一比值作为第二特征值;
所述第三处理单元用于获取所述待检测网站的可疑页面链接;获取所述可疑页面链接的数量与所述链接总数的第二比值,并将所述第二比值作为第三特征值;
所述第四处理单元用于获取所述待检测网站的注册时长;若所述注册时长不大于预设时长,则第四特征值为1;若否,则第四特征值为0。
进一步地,在上述实施例的钓鱼网站检测设备中,所述第三处理单元还用于若检测获知所述站外页面链接和/或所述站内页面链接包括所述钓鱼倾向目标网站的域名关键词,或检测获知所述站外页面链接和/或所述站内页面链接为互联网协议地址形式的统一资源定位符,则判定所述站外页面链接和/或所述站内页面链接为待检测网站的可疑页面链接。
进一步地,在上述实施例的钓鱼网站检测设备中,所述第五处理模块包括:
第五处理单元,用于为所述第一特征值、第二特征值、第三特征值和/或第四特征值分配对应的权重,获取所述第一特征值、第二特征值、第三特征值和/或第四特征值与对应权重乘积的累加值;
第六处理单元,若所述累加值大于预设阈值,则判定所述待检测网站为钓鱼网站。
根据上述实施例的钓鱼网站检测设备,结合了待检测网站的身份特征、链接特征和注册时间等多项信息,对该网站是否为钓鱼网站进行辅助判定,实现了快速、可靠的主动钓鱼网站检测。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种钓鱼网站检测方法,其特征在于,包括:
获取待检测网站;
若根据待检测网站的域名,检测获知存在所述待检测网站的钓鱼倾向目标网站,则获取所述待检测网站的站内页面链接;
若检测获知所述站内页面链接包括登陆框链接,则判定所述待检测网站为钓鱼网站;
其中,所述若检测获知所述站内页面链接包括登陆框链接,则判定所述待检测网站为钓鱼网站具体包括:若检测获知所述站内页面链接包括登陆框链接,则获取所述待检测网站的特征向量;根据所述待检测网站的特征向量,对所述待检测网站进行钓鱼网站检测;
所述获取所述待检测网站的特征向量具体包括获取第一特征值、第二特征值、第三特征值和/或第四特征值:
获取所述待检测网站的所述第一特征值具体包括:
获取所述钓鱼倾向目标网站的身份信息关键词;检测所述待检测网站的标题和/或版权信息中是否包括所述身份信息关键词;若是,则所述第一特征值为1;若否,则所述第一特征值为0;
获取所述待检测网站的所述第二特征值具体包括:
获取所述待检测网站的站外页面链接,并获取所述待检测网站的链接总数,所述链接总数包括所述站外页面链接的数量与所述站内页面链接的数量之和;
获取所述站外页面链接的数量与所述链接总数的第一比值,并将所述第一比值作为所述第二特征值;
获取所述待检测网站的所述第三特征值具体包括:
获取所述待检测网站的可疑页面链接;
获取所述可疑页面链接的数量与所述链接总数的第二比值,并将所述第二比值作为所述第三特征值;
获取所述待检测网站的所述第四特征值具体包括:
获取所述待检测网站的注册时长;若所述注册时长不大于预设时长,则所述第四特征值为1;若否,则所述第四特征值为0。
2.根据权利要求1所述的钓鱼网站检测方法,其特征在于,所述获取所述待检测网站的可疑页面链接具体包括:
若检测获知所述站外页面链接和/或所述站内页面链接包括所述钓鱼倾向目标网站的域名关键词,或检测获知所述站外页面链接和/或所述站内页面链接为互联网协议地址形式的统一资源定位符,则判定所述站外页面链接和/或所述站内页面链接为待检测网站的可疑页面链接。
3.根据权利要求1或2所述的钓鱼网站检测方法,其特征在于,所述根据所述待检测网站的特征向量,对所述待检测网站进行钓鱼网站检测具体包括:
为所述第一特征值、第二特征值、第三特征值和/或第四特征值分配对应的权重,获取所述第一特征值、第二特征值、第三特征值和/或第四特征值与对应权重乘积的累加值;
若所述累加值大于预设阈值,则判定所述待检测网站为钓鱼网站。
4.一种钓鱼网站检测设备,其特征在于,包括:
第一处理模块,用于获取待检测网站;
第二处理模块,用于若根据待检测网站的域名,检测获知存在所述待检测网站的钓鱼倾向目标网站,则获取所述待检测网站的站内页面链接;
第三处理模块,用于若检测获知所述站内页面链接包括登陆框链接,则判定所述待检测网站为钓鱼网站;
第四处理模块,用于若检测获知所述站内页面链接包括登陆框链接,则获取所述待检测网站的特征向量;
第五处理模块,用于根据所述待检测网站的特征向量,对所述待检测网站进行钓鱼网站检测;
其中,所述第四处理模块包括第一处理单元、第二处理单元、第三处理单元和/或第四处理单元:
所述第一处理单元用于获取所述钓鱼倾向目标网站的身份信息关键词;检测所述待检测网站的标题和/或版权信息中是否包括所述身份信息关键词;若是,则第一特征值为1;若否,则第一特征值为0;
所述第二处理单元用于获取所述待检测网站的站外页面链接,并获取所述待检测网站的链接总数,所述链接总数包括所述站外页面链接的数量与所述站内页面链接的数量之和;获取所述站外页面链接的数量与所述链接总数的第一比值,并将所述第一比值作为第二特征值;
所述第三处理单元用于获取所述待检测网站的可疑页面链接;获取所述可疑页面链接的数量与所述链接总数的第二比值,并将所述第二比值作为第三特征值;
所述第四处理单元用于获取所述待检测网站的注册时长;若所述注册时长不大于预设时长,则第四特征值为1;若否,则第四特征值为0。
5.根据权利要求4所述的钓鱼网站检测设备,其特征在于,所述第三处理单元还用于若检测获知所述站外页面链接和/或所述站内页面链接包括所述钓鱼倾向目标网站的域名关键词,或检测获知所述站外页面链接和/或所述站内页面链接为互联网协议地址形式的统一资源定位符,则判定所述站外页面链接和/或所述站内页面链接为待检测网站的可疑页面链接。
6.根据权利要求4或5所述的钓鱼网站检测设备,其特征在于,所述第五处理模块包括:
第五处理单元,用于为所述第一特征值、第二特征值、第三特征值和/或第四特征值分配对应的权重,获取所述第一特征值、第二特征值、第三特征值和/或第四特征值与对应权重乘积的累加值;
第六处理单元,若所述累加值大于预设阈值,则判定所述待检测网站为钓鱼网站。
CN201210104080.6A 2012-04-10 2012-04-10 钓鱼网站检测方法及设备 Active CN102647422B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210104080.6A CN102647422B (zh) 2012-04-10 2012-04-10 钓鱼网站检测方法及设备
PCT/CN2012/087762 WO2013152610A1 (zh) 2012-04-10 2012-12-28 钓鱼网站检测方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210104080.6A CN102647422B (zh) 2012-04-10 2012-04-10 钓鱼网站检测方法及设备

Publications (2)

Publication Number Publication Date
CN102647422A CN102647422A (zh) 2012-08-22
CN102647422B true CN102647422B (zh) 2014-09-17

Family

ID=46659997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210104080.6A Active CN102647422B (zh) 2012-04-10 2012-04-10 钓鱼网站检测方法及设备

Country Status (2)

Country Link
CN (1) CN102647422B (zh)
WO (1) WO2013152610A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107204956A (zh) * 2016-03-16 2017-09-26 腾讯科技(深圳)有限公司 网站识别方法及装置

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647422B (zh) * 2012-04-10 2014-09-17 中国科学院计算机网络信息中心 钓鱼网站检测方法及设备
CN102833262B (zh) * 2012-09-04 2015-07-01 珠海市君天电子科技有限公司 基于whois信息的钓鱼网站收集、鉴定方法和系统
CN102882716A (zh) * 2012-09-25 2013-01-16 杭州安恒信息技术有限公司 工信部备案检测方法及系统
CN102882889B (zh) * 2012-10-18 2016-05-11 珠海市君天电子科技有限公司 基于钓鱼网站ip集中性的收集与鉴定的方法和系统
CN103023894B (zh) 2012-11-30 2016-01-06 北京奇虎科技有限公司 一种进行网上银行登录的方法和浏览器
CN104462152B (zh) * 2013-09-23 2019-04-09 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置
CN103475673B (zh) * 2013-09-30 2018-04-13 北京猎豹网络科技有限公司 钓鱼网站识别方法、装置及客户端
CN104580092B (zh) * 2013-10-21 2018-01-02 航天信息股份有限公司 对网络页面进行安全性检测的方法和装置
CN105323210A (zh) * 2014-06-10 2016-02-10 腾讯科技(深圳)有限公司 一种检测网站安全的方法、装置及云服务器
CN105574036B (zh) * 2014-10-16 2020-04-21 腾讯科技(深圳)有限公司 一种网页数据的处理方法及装置
CN104978523A (zh) * 2014-11-06 2015-10-14 哈尔滨安天科技股份有限公司 一种基于网络热词识别的恶意样本捕获方法及系统
CN105138921B (zh) * 2015-08-18 2018-02-09 中南大学 基于页面特征匹配的钓鱼网站目标域名识别方法
CN106302440B (zh) * 2016-08-11 2019-12-10 国家计算机网络与信息安全管理中心 一种多渠道获取可疑钓鱼网站的方法
CN108270754B (zh) * 2017-01-03 2021-08-06 中国移动通信有限公司研究院 一种钓鱼网站的检测方法及装置
CN107896225A (zh) * 2017-12-08 2018-04-10 深信服科技股份有限公司 钓鱼网站判定方法、服务器及存储介质
CN110413866B (zh) * 2018-04-27 2024-02-02 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN110650108A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种基于icon图标的钓鱼页面识别方法及相关设备
CN109067716B (zh) * 2018-07-18 2021-05-28 杭州安恒信息技术股份有限公司 一种识别暗链的方法与系统
CN111756724A (zh) * 2020-06-22 2020-10-09 杭州安恒信息技术股份有限公司 钓鱼网站的检测方法、装置、设备、计算机可读存储介质
CN114095278B (zh) * 2022-01-19 2022-05-24 南京明博互联网安全创新研究院有限公司 一种基于混合特征选择框架的钓鱼网站检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183415A (zh) * 2007-12-19 2008-05-21 腾讯科技(深圳)有限公司 预防敏感信息泄漏的方法和装置以及计算机终端
CN101504673A (zh) * 2009-03-24 2009-08-12 阿里巴巴集团控股有限公司 一种识别疑似仿冒网站的方法与系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647422B (zh) * 2012-04-10 2014-09-17 中国科学院计算机网络信息中心 钓鱼网站检测方法及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183415A (zh) * 2007-12-19 2008-05-21 腾讯科技(深圳)有限公司 预防敏感信息泄漏的方法和装置以及计算机终端
CN101504673A (zh) * 2009-03-24 2009-08-12 阿里巴巴集团控股有限公司 一种识别疑似仿冒网站的方法与系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107204956A (zh) * 2016-03-16 2017-09-26 腾讯科技(深圳)有限公司 网站识别方法及装置
CN107204956B (zh) * 2016-03-16 2020-06-23 腾讯科技(深圳)有限公司 网站识别方法及装置

Also Published As

Publication number Publication date
WO2013152610A1 (zh) 2013-10-17
CN102647422A (zh) 2012-08-22

Similar Documents

Publication Publication Date Title
CN102647422B (zh) 钓鱼网站检测方法及设备
CN109960729B (zh) Http恶意流量的检测方法及系统
US11399288B2 (en) Method for HTTP-based access point fingerprint and classification using machine learning
US8307431B2 (en) Method and apparatus for identifying phishing websites in network traffic using generated regular expressions
CN103179132B (zh) 一种检测和防御cc攻击的方法及装置
Rao et al. Phishshield: a desktop application to detect phishing webpages through heuristic approach
KR101388090B1 (ko) 이벤트 분석에 기반한 사이버 공격 탐지 장치 및 방법
EP2939454B1 (en) System and method for correlating network information with subscriber information in a mobile network environment
TWI648650B (zh) 閘道裝置、其惡意網域與受駭主機的偵測方法及非暫態電腦可讀取媒體
US20160142429A1 (en) Preventing access to malicious content
Nepali et al. You look suspicious!!: Leveraging visible attributes to classify malicious short urls on twitter
Ranganayakulu et al. Detecting malicious urls in e-mail–an implementation
WO2014187120A1 (zh) 基于网页图标匹配的品牌仿冒网站检测方法
US20140047543A1 (en) Apparatus and method for detecting http botnet based on densities of web transactions
CN104462509A (zh) 垃圾评论检测方法及装置
Nathezhtha et al. WC-PAD: web crawling based phishing attack detection
CN102868773B (zh) 检测dns黑洞劫持的方法、装置及系统
CN101505247A (zh) 一种共享接入主机数目的检测方法和装置
Aldwairi et al. Malurls: A lightweight malicious website classification based on url features
CN105635126A (zh) 恶意网址访问防护方法、客户端、安全服务器及系统
CN103929440A (zh) 基于web服务器缓存匹配的网页防篡改装置及其方法
Banerjee et al. SUT: Quantifying and mitigating url typosquatting
CN103218410A (zh) 互联网事件分析方法与装置
Lamprakis et al. Unsupervised detection of APT C&C channels using web request graphs
JP2018074570A (ja) 疑わしい電子メッセージを検出する技術

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210305

Address after: 100190 room 506, building 2, courtyard 4, South 4th Street, Zhongguancun, Haidian District, Beijing

Patentee after: CHINA INTERNET NETWORK INFORMATION CENTER

Address before: 100190 No. four, four South Street, Haidian District, Beijing, Zhongguancun

Patentee before: Computer Network Information Center, Chinese Academy of Sciences