CN104217160B - 一种中文钓鱼网站检测方法及系统 - Google Patents
一种中文钓鱼网站检测方法及系统 Download PDFInfo
- Publication number
- CN104217160B CN104217160B CN201410482121.4A CN201410482121A CN104217160B CN 104217160 B CN104217160 B CN 104217160B CN 201410482121 A CN201410482121 A CN 201410482121A CN 104217160 B CN104217160 B CN 104217160B
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- labels
- website
- network address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种中文钓鱼网站检测方法及系统,该方法包括:S1、客户端获取网址URL;S2、分别提取网址URL特征和网站页面内容特征作为特征向量;S3、通过支持向量机、扩展的朴素贝叶斯算网站页面内容特征法、决策树算法、链接和表单处理对特征向量进行分类训练;S4、对分类训练的结果进行分类集成,判断网址是否为钓鱼网站。本发明提取网址URL特征和网站页面内容特征作为特征向量,使用SVM支持向量机、NBC朴素贝叶斯算法、决策树算法和链接表单的相应处理进行对应的分类训练,并使用分类集成对预测结果进行集成得到最终结果,大大的提高了分类的精度。
Description
技术领域
本发明涉及计算机软件及网络安全技术领域,尤其涉及一种中文钓鱼网站检测方法及系统。
背景技术
2013年手机在线支付增长迅猛,用户数达到1.25亿,交易规模突破1.2万亿元。但与此同时,手机支付面临的风险因素也快速增长了312%,成为威胁网民资产非常重要的原因,网络钓鱼已经成为最严重的一种网络犯罪形式。所谓“钓鱼网站”,是指不法分子利用各种手段,仿冒真实网站的地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料。目前,用户在手机端上网过程中面临的钓鱼攻击危害程度已超过PC端。比PC具有更强的诱惑性,隐蔽性和误导性。钓鱼式攻击严重影响网络银行、电子支付网站的发展。危害用户利益的同时又影响被仿造网站的信誉,阻碍移动互联网的发展。手机上网的用户由于受手机界面的限制,比电脑上网更难区分网站真假。一旦上当,将个人信息提交到钓鱼网站,很难避免经济损失。
目前移动互联网钓鱼式攻击的传播方式,主要通过短信、手机即时通信软件、社交网络等发布,钓鱼者会将信息内容伪装成某个熟人的口吻或者利用人性的弱点,以各种理由如中奖信息、银行网站升级维护更新资料等等,然后骗取用户信任,意图引诱用户登录看起来极其真实的假冒网站,给出敏感信息(如用户名、口令、账号ID、ATM PIN码、信用卡)。钓鱼网站的页面与真实网站界面完全一致,要求访问者提交账号和密码。3.15晚会中关于手机软件涉嫌窃取用户隐私的争议再度引发了移动互联信息安全的关注热点。为了全面应对移动终端安全形势的挑战,各大安全厂商已经开始逐步完善构建各自手机端的钓鱼式攻击检测技术,因此我们有必要对手机的钓鱼式攻击进行研究。
现有技术中,为了应对手机钓鱼式攻击的威胁,减少钓鱼网站的数量,国内外展开了多种反钓鱼的研究工作,目前有以下四类方法与技术:
(1)基于黑名单的检测技术
黑名单是一种用于检测钓鱼网站广泛使用的方法。黑名单技术是指将所有已经发现的钓鱼站点和可信网站的URL记录到一个列表(即黑名单)中,据此判断用户所访问的网站是否为钓鱼/安全网站。黑名单随着存活的钓鱼网站增加,并且增加到反钓鱼网站数据库中。新创建的钓鱼网站的垃圾邮件活动会持续4-6个小时。因此在列出黑名单和禁用钓鱼网站的时候,钓鱼网站可能已经移动到了新的URL上面。因此黑名单技术具有一定的局限性,它无法预测新的钓鱼攻击,并且如果通过DNS劫持,将用户输入的网站重新定向到钓鱼网站,黑名单技术也无法解决这种重定向的问题。
(2)基于URL的检测技术
基于URL检测技术主要使用URL本身的信息确定其是否为恶意链接,钓鱼网站使用多种技术使受害者相信链接是合法的,例如使用比较相似的字符,如www.taokwbao.com。这些主机名之所以能够欺骗受害者,主要是因为他们看到了地址中有他们预期的域名。基于URL的反钓鱼技术主要是通过URL地址相似度、域名概率评估、网站排名、注册信息、网址类型、页面的外链数目,IP及端口号等信息进行钓鱼检测识别,基于URL的技术也无法解决DNS劫持问题。
(3)基于内容的检测技术
基于内容的检测技术需要使用软件工具,主要是指网络网虫,下载网站的内容,从网站内容中提取出能够识别网络钓鱼的特征,这些技术需要有强大的搜索技术,以确保能够全面检索网站内容,然后使用不同的机器学习方法对网站进行鉴别,但目前的基于内容的检测技术具有较高的误报率,不能满足实际应用的需求。
(4)部署到移动平台的OCR技术
利用Tesseract技术提取手机屏幕上的文字特征,通过比较目标URL中的二级域名与使用OCR技术获取登录界面的截图查看文本中是否有敏感词,继而判断在文本中是否有二级域名,若有则为安全页面,否则为钓鱼页面。应用于中文网站时需导入中文语言包,与英文语言包的1.8M相比,中文语言简体包39.5M执行起来之后速度相当慢,目前只能用于简单的网页提取,实际投入使用的效果和手机卡机的效果相同。
中国申请号为201210422629.6的专利申请揭示了一种基于客户端的钓鱼网站检测方法,包括如下步骤:步骤一:将用户登录的网址发送至服务端查询该网址的安全性,若为未知网址,则发回客户端进行检测;步骤二:在客户端提取该用户登录网址的网站特征与用户端的特征库进行比对,判断其是否为钓鱼网址,若为钓鱼网址,则发送至服务端,若否,则允许访问;步骤三:在服务端累计访问该网址的人数,当累计人数超过一阈值时,该服务端会判断该网址为客户端误报,允许访问。
然而该专利申请具有以下缺点:客户端接受到的重复出现的网址也需发送到服务器端检测,不仅影响检测效率而且对于服务器依赖性较强;在客户端提取网址的网站特征有限,且只依赖和用户端的特征库的比较,精确度较小;若出现误报情况时,用户即便知道该网站是误报也有心无力。
因此,针对上述技术问题,有必要提供一种中文钓鱼网站检测方法及系统。
发明内容
有鉴于此,本发明的目的在于提供一种中文钓鱼网站检测方法及系统,以解决当前手机中文钓鱼网站鉴别问题。
为了达到上述目的,本发明实施例提供的技术方案如下:
一种中文钓鱼网站检测方法,所述方法包括:
S1、客户端获取网址URL;
S2、分别提取网址URL特征和网站页面内容特征作为特征向量;
S3、通过支持向量机、扩展的朴素贝叶斯算网站页面内容特征法、决策树算法、链接和表单处理对特征向量进行分类训练;
S4、对分类训练的结果进行分类集成,判断网址是否为钓鱼网站。
作为本发明的进一步改进,所述步骤S1中网址URL的获取方式包括手动输入、二维码扫描、点击邮件/短信中的链接。
作为本发明的进一步改进,所述步骤S2前还包括:
将网址URL与本地数据库中的黑名单和白名单进行比对;
若网址URL在黑名单中,则返回该网址URL为钓鱼网站;
若网址URL在白名单中,则返回该网址URL为正常网址。
作为本发明的进一步改进,所述步骤S2中的网址URL特征包括:
域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后。
作为本发明的进一步改进,所述步骤S2中的网站页面内容特征包括:string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本。
作为本发明的进一步改进,所述步骤S2还包括:
对string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本进行分词,使用TF-IDF算法提取代表性较强的特征词作为对string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单网站页面内容特征的特征向量。
作为本发明的进一步改进,所述步骤S3包括:
对网址URL特征采用决策树算法进行分类训练。
作为本发明的进一步改进,所述步骤S3包括:
对string字符串采用支持向量机进行分类训练;
对title标签、alt标签、keyword标签、copyright标签、description标签采用扩展的朴素贝叶斯算法进行分类训练;
对src名称、frame框架、form表单采用链接和表单处理法进行分类训练。
作为本发明的进一步改进,所述步骤S4具体为:
通过采样计算每个特征向量的精确度和召回率;
根据得到的精确度和召回率判断每个特征向量在总体判断中所占权重;
根据对应特征向量的检测结果和在总体判断中所占权重,对分类训练的结果进行分类集成,判断网址是否为钓鱼网站。
相应地,一种中文钓鱼网站检测系统,所述系统包括:
客户端模块,获取网址URL;
特征提取模块,提取网址URL特征和网站页面内容特征作为特征向量;
分类训练模块,通过支持向量机、扩展的朴素贝叶斯算网站页面内容特征法、决策树算法、链接和表单处理对特征向量进行分类训练;
分类集成模块,对分类训练的结果进行分类集成,判断网址是否为钓鱼网站。
本发明具有以下有益效果:
在客户端模块增加用户标记功能,减少了误报率;
提取网址URL特征和网站页面内容特征作为特征向量,可以提高分类的精度;
使用TF-IDF算法对网站页面内容特征向量进行筛选,可以提高分类的效率;
使用SVM支持向量机、NBC朴素贝叶斯算法、决策树算法和链接表单的相应处理进行对应的分类训练,分类效率显著提高;
使用分类集成对预测结果进行集成得到最终结果,大大的提高了分类的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一具体实施方式中基于Android平台的中文钓鱼网站检测系统的模块示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
针对Android平台钓鱼网站的检测,当前反钓鱼研究多都集中在对英文钓鱼网站的识别,对中文钓鱼网站检测研究较少,目前中文钓鱼网站的研究方法多是基于客户端/服务器端形式,因此对于服务器端的构建尤其重要,多数研究以其URL地址、域名注册信息、网站排名等信息作为网站特征进行钓鱼网站的识别,识别率较低,而以网页内容等信息作为特征进行智能钓鱼网站识别的研究大多复杂度高、误报率高,无法满足数目快速增长的钓鱼网站的检测防御需要。
本发明的目的在于提供一种中文钓鱼网站的检测方法及系统,以解决当前手机中文钓鱼网站鉴别问题,以下实施方式中以Android平台进行说明,在其他实施方式中也可以为其他系统平台。
参图1所示,本实施方式中基于Android平台的中文钓鱼网站检测系统包括:
客户端模块10,用于获取网址URL;
特征提取模块20,用于提取网址URL特征和网站页面内容特征作为特征向量;
分类训练模块30,分别通过支持向量机、扩展的朴素贝叶斯算网站页面内容特征法、决策树算法、链接和表单处理对特征向量进行分类训练;
分类集成模块40,用于对分类训练的结果进行分类集成,判断网址是否为钓鱼网站。
实施步骤如下:客户端模块10获取到网址URL,通过本地数据库11判定是否发送到服务器检测;若需监测,首先将已知网站使用特征提取模块20提取其特征向量,然后根据特征向量的特性输入到不同分类训练模块30中进行训练,训练后的模型保存到分类集成模块40中,最后即可对未知的网站进行特征提取,通过分类集成模块40进行鉴定,判别其是否为钓鱼网站。
以下结合图1对本实施方式中各模块进行具体说明。
客户端模块10:
位于手机端的应用程序重点实现三项功能,分别为数据通信、本地数据库设计以及用户标记。
Android用户可通过输入URL、邮件/短信中链接的URL、二维码直接扫描URL方式获取URL后,与本地数据库的黑名单和白名单进行比对,若在本地黑名单中则直接返回警告信息,在白名单中则返回正常网址。若不在本地数据库中,通过通信模块将其发送到钓鱼检测引擎进行检测并等待检测结果的反馈。检测结果返回至手机端后。
由于服务器端钓鱼网站检测精度并不是百分之百,存在一定的误报率,若用户可确认某些网站存在误报时,手动更改检测结果并将检测结果存入黑白名单中防止下次继续误报。
特征提取模块20:
a.URL特征提取
域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后作为特征向量,送入决策树分类训练模块中处理。
b.网站页面内容特征提取
首先提取网站页面信息,保存string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本,然后经过中科院ICTCLAS分词系统分词,去除停用词后作为文本的一级特征词,利用TF-IDF算法从一级特征词中提取代表性较强的特征词作为网站的特征向量。TF-IDF算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。字词的TF-IDF记为tfidfi,j,计算公式如式(1):
tfidfi,j=tfi,j×idfi (1)
其中:tfi,j是计算某一个给定的词语在该文件中出现的频率,是对词数(termcount)的归一化,以防止它偏向长的文件,见式(2)。idfi是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,见式(3).
其中:ni,j是对于特定文件里的词语ti,该词在文件dj中的出现次数;
分母则是在文件dj中所有字词的出现次数之和。
其中:|D|是语料库中的文件总数;
|{j:ti∈dj}|:包含词语ti的文件数目(即ni,j≠0的文件数目),如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用1+|{j:ti∈dj}|。
分类训练模块30:
分类训练模块30使用支持向量机、扩展的朴素贝叶斯算法,如特征提取模块20所说,网站内容提取出的特征包括:String字符串、Title标签中文字、Keyword标签中文字等,根据特征向量的不同选择较合适的分类方法,从而得到对应的分类模型。
a.支持向量机(Support Vector Machine,SVM)
提取出的String特征,比其他特征包含更多的信息,是一种高维度的特征。支持向量机能够很好的处理高维度数据的分类问题,因此,对于String分类器使用支持向量机分类。
第一,将TF-IDF计算后的String特征向量作为训练数据,本专利中钓鱼网站和正常网站中各取十个特征向量,为了准确度的提高,本专利使用了归一化处理如式(4):
y=(x-MinValue)/(MaxValue-MinValue) (4)
其中:x、y分别为转换前、后的值;
MaxValue、MinValue分别为样本的最大值和最小值。
归一化值之后,求解线性函数g(x)=wx+b,使得钓鱼网站的点带入后g(x)<0,正常网站的点带入后g(x)>0,因此需要选择g(x)参数w,b。
其中:求解w是关键,计算公式如下:
其中:α是一个个的数,被称为拉格朗日因子;
yi就是第i个样本的标签,等于1或者-1;
xi是样本点,因而是向量;
n是总样本点个数。
因此,原来的g(x)表达式变为:
式(6)中x是变量,对式(6)进行进一步处理得到:
第二,引入核函数,并对整个训练集进行训练获取支持向量机模型。本实施方式中考虑使用径向基核函数,公式如下:
K(x,y)=exp(-|x-y|^2/d^2) (8)
b.扩展的朴素贝叶斯算法(Naive Bayesian Model,NBC)
title标签、alt标签、keyword标签、copyright标签、description标签等文本各个特征属性是条件独立,因此采用扩展的朴素贝叶斯算法,即对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。该算法基于贝叶斯定理,如下:
其中:x是待分类项,x={a1,a2,...,am},每个a为x的一个特征属性;
yi是类别,本发明中只有两类:钓鱼网站和正常网站。
式(9)中,分母对于所有类别均为常数,因为只要将分子最大化皆可,重点考虑P(x|yi)计算:
c.决策树算法(Decision Tree,DT)
对于URL提取出的特征有域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后共8项特征,计算每项特征信息增益率,具有最高信息增益率的特征设为根节点。信息增益率的计算公式如(11):
其中:SplitInfo(S,A)表示分裂信息度量,代表了按照属性A分裂样本集S的广度和均匀度,Gain(S,A)表示信息度量,与熵值(Entropy(S))有关
d.链接与表单处理
对于src名称、frame框架、form表单特征属性中内容多为链接地址,对于链接地址来说,使用决策树、SVM、NBC等分类算法效果并不明显。而且,攻击者通常为了达到迷惑用户的目的,在钓鱼网站中添加正常网站的链接、图片等,使钓鱼网站看起来与正常网站无差。
对于链接地址的处理如式(12)
其中:Lnull是网页中空链接的个数;
Lreal是网页中指向真实网站的链接个数;
Lall是网页内的链接总数;
Llocal是网页中指向本域内的链接个数。
对于表单的处理如式(13)
其中:f=1表示Form表单提交对象出现异常,可能是钓鱼网站;否则,表示正常。
分类集成模块40:
在分类训练模块30中,网站内容提取出的不同特征分别采取支持向量机或扩展的朴素贝叶斯算法进行检测,由于特征向量不同得到多种检测结果,对于检测结果不同的情况下,采取分类集成算法。
计算分类训练模块中所有分类模型的精确度和召回率,见式(14)、(15)。
P=TP/(TP+FP) (14)
R=TP/(TP+FN) (15)
其中:TP:类别为钓鱼网站的样本被正确判定为钓鱼网站
FP:类别为正常网站的样本被误判定为钓鱼网站
FN:类别为钓鱼网站的样本被误判定为正常网站
TN:类别为正常网站的样本被正确判为正常网站
第二,根据得到的精确度和召回率利用F-score方法公式(16),判断该分类模块在总体判断中所占权重:
其中,precision即精确度P,recall即召回率R。
对于待鉴别的网站,获得各个模块的鉴定结果后,准确率越高的分类器权重越大,根据对应权重通过线性判别函数计算,公式如下:
S=f(ΣFi*Wi) (17)
其中:Fi:分类器检测结果,1(正常网址)或者-1(钓鱼网址)
Wi:分类器对应权重值
f(x)函数中若x>0,则f(x)=1为钓鱼网站;若x<=0,则f(x)=-1为正常网站。
综上所述,本发明中客户端模块的作用是通信功能,将用户输入的网址首先与本地数据库对比,不在本地数据库时将其发送到钓鱼检测引擎进行检测并等待检测结果的反馈,存在误报情况时进行手动纠正;特征提取模块的作用是首先提取页面内容信息,包括<title>、<alt>、<keyword>、<copyright>、<src>、<frame>、<description>、<form>、<string>标签中的中文文本,然后对中文进行分词,使用TF-IDF算法提取代表性较强的特征词作为网站的特征向量,同时提取URL的特征向量,包括域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后也作为网站的特征向量保存;分类训练模块的作用是分别通过支持向量机、扩展的朴素贝叶斯算网站页面内容特征法、决策树算法、链接和表单处理对特征向量进行分类训练,分别得到对应的分类模型;分类集成模块的作用是计算训练中各自的精确度和召回率计算模块在最后结果中所占权重,鉴定网站时,对于得到的10种模型进行集成,进而根据各自模型所占权重总和计算结果,提高计算精准度。
与现有技术相比,本发明具有以下有益效果:
在客户端模块增加用户标记功能,减少了误报率;
提取网址URL特征和网站页面内容特征作为特征向量,可以提高分类的精度;
使用TF-IDF算法对网站页面内容特征向量进行筛选,可以提高分类的效率;
使用SVM支持向量机、NBC朴素贝叶斯算法、决策树算法和链接表单的相应处理进行对应的分类训练,分类效率显著提高;
使用分类集成对预测结果进行集成得到最终结果,大大的提高了分类的精度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (4)
1.一种中文钓鱼网站检测方法,其特征在于,所述方法包括:
S1、客户端获取网址URL,将网址URL与本地数据库中的黑名单和白名单进行比对;
若网址URL在黑名单中,则直接返回警告信息;
若网址URL在白名单中,则返回该网址URL为正常网址;若不在本地数据库中,则将网址URL发送至服务器;
S2、服务器分别提取网址URL特征和网站页面内容特征作为特征向量;
S3、通过支持向量机、扩展的朴素贝叶斯算法、决策树算法、链接和表单处理对特征向量进行分类训练;
S4、对分类训练的结果进行分类集成,判断网址是否为钓鱼网站;
所述步骤S2中的网址URL特征包括:域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后;
所述步骤S2中的网站页面内容特征包括:string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本;
对string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本进行分词,使用TF-IDF算法提取代表性较强的特征词作为对string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单网站页面内容特征的特征向量;
对网址URL特征采用决策树算法进行分类训练;具体为:
对于URL提取出的特征有域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后共8项特征,计算每项特征信息增益率,具有最高信息增益率的特征设为根节点,信息增益率的计算公式如(11):
<mrow>
<mi>G</mi>
<mi>a</mi>
<mi>i</mi>
<mi>n</mi>
<mi>R</mi>
<mi>a</mi>
<mi>t</mi>
<mi>i</mi>
<mi>o</mi>
<mrow>
<mo>(</mo>
<mi>S</mi>
<mo>,</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>G</mi>
<mi>a</mi>
<mi>i</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>S</mi>
<mo>,</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>S</mi>
<mi>p</mi>
<mi>l</mi>
<mi>i</mi>
<mi>t</mi>
<mi>I</mi>
<mi>n</mi>
<mi>f</mi>
<mi>o</mi>
<mrow>
<mo>(</mo>
<mi>S</mi>
<mo>,</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>11</mn>
<mo>)</mo>
</mrow>
</mrow>
其中:SplitInfo(S,A)表示分裂信息度量,代表了按照属性A分裂样本集S的广度和均匀度,Gain(S,A)表示信息度量,与熵值Entropy(S)有关;
对string字符串采用支持向量机进行分类训练;具体为:
第一,将TF-IDF计算后的String字符串作为训练数据,使用了归一化处理如式(4):
y=(x-MinValue)/(MaxValue-MinValue) (4)
其中:x、y分别为转换前、后的值;
MaxValue、MinValue分别为样本的最大值和最小值;
归一化值之后,求解线性函数g(x)=wx+b,使得钓鱼网站的点带入后g(x)<0,正常网站的点带入后g(x)>0,因此需要选择g(x)参数w,b;
其中:求解w,计算公式如下:
<mrow>
<mi>w</mi>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
1
其中:ai是拉格朗日因子;
yi就是第i个样本的标签,等于1或者-1;
xi是样本点;
n是总样本点个数;
g(x)表达式为:
<mrow>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo><</mo>
<mi>w</mi>
<mo>,</mo>
<mi>x</mi>
<mo>></mo>
<mo>+</mo>
<mi>b</mi>
<mo>=</mo>
<mo><</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>x</mi>
<mo>></mo>
<mo>+</mo>
<mi>b</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
式(6)中x是变量,对式(6)进行进一步处理得到:
<mrow>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mi>K</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>b</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
第二,引入核函数,使用径向基核函数,公式如下:
K(x,y)=exp(-|x-y|^2/d^2) (8);
对title标签、alt标签、keyword标签、copyright标签、description标签采用扩展的朴素贝叶斯算法进行分类训练;具体为:
扩展的朴素贝叶斯算法基于贝叶斯定理,如下:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
其中:x是待分类项,x={a1,a2,...,am},每个a为x的一个特征属性;
yi是类别,分别为:钓鱼网站和正常网站;
式(9)中,分母对于所有类别均为常数:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mn>1</mn>
</msub>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mn>2</mn>
</msub>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>...</mn>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
对src名称、frame框架、form表单采用链接和表单处理法进行分类训练,具体为:对于链接地址的处理如式(12)
<mrow>
<mi>f</mi>
<mo>=</mo>
<mo>{</mo>
<mtable>
<mtr>
<mtd>
<mrow>
<mfrac>
<mrow>
<mo>(</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>n</mi>
<mi>u</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>r</mi>
<mi>e</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>a</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
</mfrac>
<mo>;</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>n</mi>
<mi>u</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>r</mi>
<mi>e</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>&GreaterEqual;</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>c</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>></mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>;</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>a</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>=</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>-</mo>
<mfrac>
<msub>
<mi>L</mi>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>c</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<msub>
<mi>L</mi>
<mrow>
<mi>a</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
</mfrac>
<mo>;</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>c</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>&GreaterEqual;</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>n</mi>
<mi>u</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>r</mi>
<mi>e</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>12</mn>
<mo>)</mo>
</mrow>
</mrow>
其中:Lnull是网页中空链接的个数;
Lreal是网页中指向真实网站的链接个数;
Lall是网页内的链接总数;
Llocal是网页中指向本域内的链接个数;
对于表单的处理如式(13)
其中:f=1表示Form表单提交对象出现异常,可能是钓鱼网站;否则,表示正常。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中网址URL的获取方式包括手动输入、二维码扫描、点击邮件/短信中的链接。
3.根据权利要求1所述的方法,其特征在于,所述步骤S4具体为:
通过采样计算每个特征向量的精确度和召回率;
根据得到的精确度和召回率判断每个特征向量在总体判断中所占权重;
根据对应特征向量的检测结果和在总体判断中所占权重,对分类训练的结果进行分类集成,判断网址是否为钓鱼网站。
4.一种如权利要求1所述方法的中文钓鱼网站检测系统,其特征在于,所述系统包括客户端模块以及服务器,所述客户端模块,获取网址URL与本地数据库的黑名单和白名单进行比对,若在本地黑名单中则直接返回警告信息,在白名单中则返回正常网址;若不在本地数据库中,则发送至服务器;
所述服务器包括:
特征提取模块,提取网址URL特征和网站页面内容特征作为特征向量;
分类训练模块,通过支持向量机、扩展的朴素贝叶斯算法、决策树算法、链接和表单处理对特征向量进行分类训练;
分类集成模块,对分类训练的结果进行分类集成,判断网址是否为钓鱼网站;
所述网址URL特征包括:域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后;
所述网站页面内容特征包括:string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本;
对string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单中的中文文本进行分词,使用TF-IDF算法提取代表性较强的特征词作为对string字符串、title标签、alt标签、keyword标签、copyright标签、description标签、src名称、frame框架、form表单网站页面内容特征的特征向量;
对网址URL特征采用决策树算法进行分类训练;具体为:
对于URL提取出的特征有域名中是否包含IP形式、URL中是否包含16进制字符、长度是否大于50、域名级数是否大于4、路径级数是否大于3、路径中是否含有敏感关键字、Whois注册信息是否在一年之内、网站排名信息是否靠后共8项特征,计算每项特征信息增益率,具有最高信息增益率的特征设为根节点,信息增益率的计算公式如(11):
<mrow>
<mi>G</mi>
<mi>a</mi>
<mi>i</mi>
<mi>n</mi>
<mi>R</mi>
<mi>a</mi>
<mi>t</mi>
<mi>i</mi>
<mi>o</mi>
<mrow>
<mo>(</mo>
<mi>S</mi>
<mo>,</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>G</mi>
<mi>a</mi>
<mi>i</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>S</mi>
<mo>,</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>S</mi>
<mi>p</mi>
<mi>l</mi>
<mi>i</mi>
<mi>t</mi>
<mi>I</mi>
<mi>n</mi>
<mi>f</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>S</mi>
<mo>,</mo>
<mi>A</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>11</mn>
<mo>)</mo>
</mrow>
</mrow>
其中:SplitInfo(S,A)表示分裂信息度量,代表了按照属性A分裂样本集S的广度和均匀度,Gain(S,A)表示信息度量,与熵值Entropy(S)有关;
对string字符串采用支持向量机进行分类训练;具体为:
第一,将TF-IDF计算后的String字符串作为训练数据,使用了归一化处理如式(4):
y=(x-MinValue)/(MaxValue-MinValue) (4)
其中:x、y分别为转换前、后的值;
MaxValue、MinValue分别为样本的最大值和最小值;
归一化值之后,求解线性函数g(x)=wx+b,使得钓鱼网站的点带入后g(x)<0,正常网站的点带入后g(x)>0,因此需要选择g(x)参数w,b;
其中:求解w,计算公式如下:
<mrow>
<mi>w</mi>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
其中:ai是拉格朗日因子;
yi就是第i个样本的标签,等于1或者-1;
xi是样本点;
n是总样本点个数;
g(x)表达式为:
<mrow>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo><</mo>
<mi>w</mi>
<mo>,</mo>
<mi>x</mi>
<mo>></mo>
<mo>+</mo>
<mi>b</mi>
<mo>=</mo>
<mo><</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>x</mi>
<mo>></mo>
<mo>+</mo>
<mi>b</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
式(6)中x是变量,对式(6)进行进一步处理得到:
<mrow>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>a</mi>
<mi>i</mi>
</msub>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mi>K</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>b</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
第二,引入核函数,使用径向基核函数,公式如下:
K(x,y)=exp(-|x-y|^2/d^2) (8);
对title标签、alt标签、keyword标签、copyright标签、description标签采用扩展的朴素贝叶斯算法进行分类训练;具体为:
扩展的朴素贝叶斯算法基于贝叶斯定理,如下:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
其中:x是待分类项,x={a1,a2,...,am},每个a为x的一个特征属性;
yi是类别,分别为:钓鱼网站和正常网站;
式(9)中,分母对于所有类别均为常数:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mn>1</mn>
</msub>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mn>2</mn>
</msub>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>...</mn>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
对src名称、frame框架、form表单采用链接和表单处理法进行分类训练,具体为:对于链接地址的处理如式(12)
<mrow>
<mi>f</mi>
<mo>=</mo>
<mo>{</mo>
<mtable>
<mtr>
<mtd>
<mrow>
<mfrac>
<mrow>
<mo>(</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>n</mi>
<mi>u</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>r</mi>
<mi>e</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>a</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
</mfrac>
<mo>;</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>n</mi>
<mi>u</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>r</mi>
<mi>e</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>&GreaterEqual;</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>c</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>></mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>;</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>a</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>=</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>-</mo>
<mfrac>
<msub>
<mi>L</mi>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>c</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<msub>
<mi>L</mi>
<mrow>
<mi>a</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
</mfrac>
<mo>;</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>L</mi>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>c</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>&GreaterEqual;</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>n</mi>
<mi>u</mi>
<mi>l</mi>
<mi>l</mi>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>L</mi>
<mrow>
<mi>r</mi>
<mi>e</mi>
<mi>a</mi>
<mi>l</mi>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>12</mn>
<mo>)</mo>
</mrow>
</mrow>
其中:Lnull是网页中空链接的个数;
Lreal是网页中指向真实网站的链接个数;
Lall是网页内的链接总数;
Llocal是网页中指向本域内的链接个数;
对于表单的处理如式(13)
其中:f=1表示Form表单提交对象出现异常,可能是钓鱼网站;否则,表示正常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410482121.4A CN104217160B (zh) | 2014-09-19 | 2014-09-19 | 一种中文钓鱼网站检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410482121.4A CN104217160B (zh) | 2014-09-19 | 2014-09-19 | 一种中文钓鱼网站检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104217160A CN104217160A (zh) | 2014-12-17 |
CN104217160B true CN104217160B (zh) | 2017-11-28 |
Family
ID=52098636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410482121.4A Active CN104217160B (zh) | 2014-09-19 | 2014-09-19 | 一种中文钓鱼网站检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104217160B (zh) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104504335B (zh) * | 2014-12-24 | 2017-12-05 | 中国科学院深圳先进技术研究院 | 基于页面特征和url特征的钓鱼app检测方法及系统 |
CN105488407A (zh) * | 2014-12-31 | 2016-04-13 | 哈尔滨安天科技股份有限公司 | 一种灰样本鉴定方法与系统 |
CN104573033B (zh) * | 2015-01-15 | 2017-12-19 | 国家计算机网络与信息安全管理中心 | 一种动态url过滤方法及装置 |
CN104899508B (zh) * | 2015-06-17 | 2018-12-07 | 中国互联网络信息中心 | 一种多阶段钓鱼网站检测方法与系统 |
CN104933178B (zh) * | 2015-07-01 | 2018-09-11 | 北京奇虎科技有限公司 | 官方网站确定方法和系统及官方网站的排序方法 |
CN105072214B (zh) * | 2015-08-28 | 2018-10-09 | 携程计算机技术(上海)有限公司 | 基于域名特征的c&c域名识别方法 |
CN105718795B (zh) * | 2015-08-28 | 2019-05-07 | 哈尔滨安天科技股份有限公司 | Linux下基于特征码的恶意代码取证方法及系统 |
CN105306540A (zh) * | 2015-09-24 | 2016-02-03 | 华东师范大学 | 一种获得社交网络中影响力最大的前k个节点的方法 |
CN105610637A (zh) * | 2015-09-24 | 2016-05-25 | 百度在线网络技术(北京)有限公司 | 敏感信息的获取方法及装置 |
CN105338001A (zh) * | 2015-12-04 | 2016-02-17 | 北京奇虎科技有限公司 | 识别钓鱼网站的方法及装置 |
CN105718577B (zh) * | 2016-01-22 | 2020-01-21 | 中国互联网络信息中心 | 一种针对新增域名自动检测网络钓鱼的方法与系统 |
CN105959330A (zh) * | 2016-07-20 | 2016-09-21 | 广东世纪网通信设备股份有限公司 | 虚假链接拦截方法、装置以及系统 |
CN108023868B (zh) * | 2016-10-31 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 恶意资源地址检测方法和装置 |
CN106789888B (zh) * | 2016-11-18 | 2020-08-04 | 重庆邮电大学 | 一种多特征融合的钓鱼网页检测方法 |
CN106778357B (zh) * | 2016-12-23 | 2020-02-07 | 北京神州绿盟信息安全科技股份有限公司 | 一种网页篡改的检测方法及装置 |
CN108509441A (zh) * | 2017-02-24 | 2018-09-07 | 菜鸟智能物流控股有限公司 | 一种地址有效性分类器的训练及其验证方法和相关装置 |
CN106992967A (zh) * | 2017-02-28 | 2017-07-28 | 北京瑞星信息技术股份有限公司 | 恶意网站识别方法和系统 |
CN108734011A (zh) * | 2017-04-17 | 2018-11-02 | 中国移动通信有限公司研究院 | 软件链接检测方法及装置 |
CN107800679A (zh) * | 2017-05-22 | 2018-03-13 | 湖南大学 | 假冒学术期刊网站的检测方法 |
CN107330010B (zh) * | 2017-06-14 | 2020-10-16 | 北京知道未来信息技术有限公司 | 一种基于机器学习的后台路径爆破方法 |
CN107526967B (zh) * | 2017-07-05 | 2020-06-02 | 阿里巴巴集团控股有限公司 | 一种风险地址识别方法、装置以及电子设备 |
US10601866B2 (en) | 2017-08-23 | 2020-03-24 | International Business Machines Corporation | Discovering website phishing attacks |
CN107438083B (zh) * | 2017-09-06 | 2019-08-20 | 安徽大学 | 一种Android环境下钓鱼网站检测方法及其检测系统 |
CN107872452A (zh) * | 2017-10-25 | 2018-04-03 | 东软集团股份有限公司 | 一种恶意网站的识别方法、装置、存储介质及程序产品 |
CN109840413B (zh) * | 2017-11-28 | 2020-12-22 | 中国移动通信集团浙江有限公司 | 一种钓鱼网站检测方法及装置 |
CN107948168A (zh) * | 2017-11-29 | 2018-04-20 | 四川无声信息技术有限公司 | 网页检测方法及装置 |
CN108563963A (zh) * | 2018-04-16 | 2018-09-21 | 深信服科技股份有限公司 | 网页篡改检测方法、装置、设备及计算机可读存储介质 |
CN108965245B (zh) * | 2018-05-31 | 2021-04-13 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 |
CN109039875B (zh) * | 2018-09-17 | 2021-06-22 | 杭州安恒信息技术股份有限公司 | 一种基于链接特征分析的钓鱼邮件检测方法及系统 |
CN109067778B (zh) * | 2018-09-18 | 2020-07-24 | 东北大学 | 一种基于蜜网数据的工控扫描器指纹识别方法 |
CN109413045A (zh) * | 2018-09-26 | 2019-03-01 | 中国联合网络通信集团有限公司 | 一种访问控制系统及方法 |
CN109510815B (zh) * | 2018-10-19 | 2022-01-25 | 杭州安恒信息技术股份有限公司 | 一种基于有监督学习的多级钓鱼网站检测方法及检测系统 |
CN109450880A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于决策树的钓鱼网站检测方法、装置及计算机设备 |
CN111107048B (zh) * | 2018-10-29 | 2021-11-30 | 中移(苏州)软件技术有限公司 | 一种钓鱼网站检测方法、装置和存储介质 |
CN111488452A (zh) * | 2019-01-25 | 2020-08-04 | 深信服科技股份有限公司 | 一种网页篡改检测方法、检测系统及相关设备 |
CN111669353A (zh) * | 2019-03-08 | 2020-09-15 | 顺丰科技有限公司 | 钓鱼网站检测方法及系统 |
CN112347244B (zh) * | 2019-08-08 | 2023-07-25 | 四川大学 | 基于混合特征分析的涉黄、涉赌网站检测方法 |
CN110472416A (zh) * | 2019-08-19 | 2019-11-19 | 杭州安恒信息技术股份有限公司 | 一种网页恶意代码检测方法及相关装置 |
CN110688178A (zh) * | 2019-08-26 | 2020-01-14 | 奇安信科技集团股份有限公司 | 钓鱼热点的风险演示方法及装置、存储介质、计算机设备 |
CN110929539B (zh) * | 2019-10-15 | 2023-08-18 | 苏州斯普锐智能系统有限公司 | 具有网址类型二维条码过滤功能的解码方法及解码系统 |
CN110808968B (zh) * | 2019-10-25 | 2022-02-11 | 新华三信息安全技术有限公司 | 网络攻击检测方法、装置、电子设备和可读存储介质 |
CN111401416B (zh) * | 2020-03-05 | 2022-10-21 | 支付宝(杭州)信息技术有限公司 | 异常网站的识别方法、装置和异常对抗行为的识别方法 |
CN111597805B (zh) * | 2020-05-21 | 2021-01-05 | 上海创蓝文化传播有限公司 | 一种基于深度学习审核短信文本链接的方法及装置 |
CN111818019B (zh) * | 2020-06-19 | 2023-04-18 | 五八有限公司 | 网络劫持数据或网络劫持的确定方法、装置、设备及介质 |
CN111917723B (zh) * | 2020-06-29 | 2022-09-06 | 中信银行股份有限公司 | 一种钓鱼网站监控方法、系统、设备和存储介质 |
CN112565250B (zh) * | 2020-12-04 | 2022-12-06 | 中国移动通信集团内蒙古有限公司 | 一种网站识别方法、装置、设备及存储介质 |
CN112966194A (zh) * | 2021-02-23 | 2021-06-15 | 杭州安恒信息技术股份有限公司 | 一种检验二维码的方法和系统 |
CN113992390A (zh) * | 2021-10-26 | 2022-01-28 | 上海斗象信息科技有限公司 | 一种钓鱼网站的检测方法及装置、存储介质 |
CN114070653B (zh) * | 2022-01-14 | 2022-06-24 | 浙江大学 | 混合钓鱼网站检测方法及装置、电子设备、存储介质 |
CN115065518B (zh) * | 2022-06-09 | 2023-06-06 | 中山大学 | 一种基于异质图特征提取的钓鱼网站检测方法及系统 |
CN116846668A (zh) * | 2023-07-28 | 2023-10-03 | 北京中睿天下信息技术有限公司 | 一种有害url检测方法、系统、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544436A (zh) * | 2013-10-12 | 2014-01-29 | 深圳先进技术研究院 | 一种钓鱼网站鉴别系统和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013009713A2 (en) * | 2011-07-08 | 2013-01-17 | Uab Research Foundation | Syntactical fingerprinting |
-
2014
- 2014-09-19 CN CN201410482121.4A patent/CN104217160B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544436A (zh) * | 2013-10-12 | 2014-01-29 | 深圳先进技术研究院 | 一种钓鱼网站鉴别系统和方法 |
Non-Patent Citations (2)
Title |
---|
《基于SVM主动学习算法的网络钓鱼检测系统》;何高辉等;《计算机工程》;20111005;第37卷(第19期);第2008-2019页 * |
《基于分类集成的钓鱼网站智能检测系统》;庄蔚蔚等;《系统工程理论与实践》;20111025;第31卷(第10期);第2008-2019页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104217160A (zh) | 2014-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104217160B (zh) | 一种中文钓鱼网站检测方法及系统 | |
Tian et al. | Needle in a haystack: Tracking down elite phishing domains in the wild | |
Sonowal et al. | PhiDMA–A phishing detection model with multi-filter approach | |
US11042630B2 (en) | Dynamic page similarity measurement | |
Chiew et al. | Utilisation of website logo for phishing detection | |
CN104077396B (zh) | 一种钓鱼网站检测方法及装置 | |
Ramanathan et al. | Phishing detection and impersonated entity discovery using Conditional Random Field and Latent Dirichlet Allocation | |
CN104899508B (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN104504335B (zh) | 基于页面特征和url特征的钓鱼app检测方法及系统 | |
Wardman et al. | High-performance content-based phishing attack detection | |
Gandotra et al. | Improving spoofed website detection using machine learning | |
Bannur et al. | Judging a site by its content: learning the textual, structural, and visual features of malicious web pages | |
Alharthi et al. | A real-time deep-learning approach for filtering Arabic low-quality content and accounts on Twitter | |
Opara et al. | Look before you leap: Detecting phishing web pages by exploiting raw URL and HTML characteristics | |
Manek et al. | Detection of fraudulent and malicious websites by analysing user reviews for online shopping websites | |
Wen et al. | Detecting malicious websites in depth through analyzing topics and web-pages | |
de Luna et al. | A Machine Learning Approach for Efficient Spam Detection in Short Messaging System (SMS) | |
Noh et al. | Phishing Website Detection Using Random Forest and Support Vector Machine: A Comparison | |
Chen et al. | Fraud analysis and detection for real-time messaging communications on social networks | |
Chen et al. | Amoc: A multifaceted machine learning-based toolkit for analysing cybercriminal communities on the darknet | |
Parekh et al. | Spam URL detection and image spam filtering using machine learning | |
Shoaib et al. | An investigation in detection and mitigation of smishing using machine learning techniques | |
Shirazi et al. | A machine-learning based unbiased phishing detection approach | |
Saraswat et al. | Phishing Detection in E-mails using Machine Learning | |
Kripakrishna | An awareness about phishing attack and fake news using machine learning technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |