CN107360200A

CN107360200A - 一种基于分类信心和网站特征的钓鱼检测方法

Info

Publication number: CN107360200A
Application number: CN201710851045.3A
Authority: CN
Inventors: 刘文印; 黎宇坤; 陈旭; 袁华平; 杨振国
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2017-11-17

Abstract

本发明公开了一种基于分类信心和网站特征的钓鱼检测方法，该方法包括：获取用户提供的URL地址，提取URL地址的特征；利用URL地址访问网页，获取网页的特征；采用Adaboost算法对URL地址的特征和网页的特征进行训练，训练得到分类器；利用分类器及分类器返回来的分类信心检测钓鱼网站。该方法实现提高检测准确性。

Description

一种基于分类信心和网站特征的钓鱼检测方法

技术领域

本发明涉及网络钓鱼技术领域，特别是涉及一种基于分类信心和网站特征的钓鱼检测方法。

背景技术

网络钓鱼是一种刑事欺诈过程，假冒网站通过冒充一个知名品牌以获取用户的信赖，进而骗取用户的隐私信息，如用户名、密码等，然后用于访问个人账户，盗取财产。近年来，网络钓鱼攻击在数量和复杂程度上都出现了惊人的增长。尽管有许多工具可以用来防御网络钓鱼攻击，但是网络钓鱼诈骗还是不断增长而且破坏性也越来越大。据国际反钓鱼工作组(APWG)2016全球网络钓鱼调查报告显示，仅第4季度攻击总量就达到了1220523起，直接经济损失超千亿美元。而在2011年，全球网络钓鱼攻击只有112472起。5年间，网络钓鱼攻击的数量和破坏性呈急剧增长之势。

在我国，网络钓鱼犯罪日趋严重。据国家计算机网络应急技术处理协调中心发布的网络安全工作报告显示，目前约有70％的连网装置曾遭受网络钓鱼攻击。中国的网络诈骗犯罪中高达60％为恶意网站攻击。2016年钱盾安全报告显示，由网络攻击所产生的资金损失中，有近85％是因钓鱼网址泄露支付信息造成的，打击网络钓鱼已刻不容缓。而据APWG组织调查，钓鱼网站平均寿命只有8小时42分钟，所以基于传统的URL黑名单技术已经被证明是低效且不安全的，准确性较低。

发明内容

本发明的目的是提供一种基于分类信心和网站特征的钓鱼检测方法，以实现提高检测准确性。

为解决上述技术问题，本发明提供一种基于分类信心和网站特征的钓鱼检测方法，该方法包括：

获取用户提供的URL地址，提取URL地址的特征；

利用URL地址访问网页，获取网页的特征；

采用Adaboost算法对URL地址的特征和网页的特征进行训练，训练得到分类器；

利用分类器及分类器返回来的分类信心检测钓鱼网站。

优选的，所述URL地址的特征包括IP地址、可疑符号、主域名中‘.’的个数、敏感词汇、不正常的顶级域名和相似知名网站。

优选的，所述网页的特征包括：内链数目、外链数目、网页内的链接指向外站后再由外站回指的链接数、网页内的链接指向内站后再由内站回指的链接数、登录窗口。

优选的，所述Adaboost算法分为两层，第一层是AdaBoost主算法、第二层是分类算法。

优选的，所述Adaboost算法的步骤包括：

赋予训练集的样本相同的权重，构成一个权重向量D；

调用分类算法训练出一个分类器，计算准确率ε；

迭代再训练所述分类器，并调整权值α；

根据调整后的权值更新权值向量D，在计算出权值向量D之后，Adaboost算法进入下一轮迭代。

优选的，调整权值α的公式如下：

优选的，所述利用分类器及分类器返回来的分类信心检测钓鱼网站，包括：

获取分类器对钓鱼网站检测结果的预测概率值，将预测概率值作为分类器的分类信心；若分类信心大于或等于预设值t，保留钓鱼网站检测结果。

优选的，根据调整后的权值更新权值向量D的过程中，对于正确分类的样本，权值向量D更新为：

其中，D_i+1为更新后的权值向量，为需要进行更新的原权值向量，sum(D)为权值向量总和。

优选的，对于错误分类的样本，权值更新为：

优选的，所述可疑符号包括：‘@’，‘-’和‘～’；敏感词汇包括：'secure','account','webscr','login','ebayisapi','signin','banking','confirm','submit'和'update'。

优选的，所述相似知名网站的计算方法包括：

提取URL地址中的网站品牌名；

通过计算网站品牌名与知名网站品牌名之间的编辑距离来判断是否为相似知名品牌。

本发明所提供的一种基于分类信心和网站特征的钓鱼检测方法，获取用户提供的URL地址，提取URL地址的特征；利用URL地址访问网页，获取网页的特征；采用Adaboost算法对URL地址的特征和网页的特征进行训练，训练得到分类器；利用分类器及分类器返回来的分类信心检测钓鱼网站。可见，构建了网址和网页两方面特征，能够兼顾检测准确率和检测速度，采用Adaboost算法训练全部特征，不断提高检测钓鱼网站的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明所提供的一种基于分类信心和网站特征的钓鱼检测方法的流程图；

图2为网页内外链接实现的逻辑图；

图3为判断Back links和Own links的逻辑图；

图4为Back links和Own links的多线程计算流程图；

图5为钓鱼网站检测系统界面示意图；

图6为分类信心分布图；

图7为阈值t对准确率的影响示意图。

具体实施方式

本发明的核心是提供一种基于分类信心和网站特征的钓鱼检测方法，以实现提高检测准确性。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的一种基于分类信心和网站特征的钓鱼检测方法的流程图，该方法包括：

S11：获取用户提供的URL地址，提取URL地址的特征；

S12：利用URL地址访问网页，获取网页的特征；

S13：采用Adaboost算法对URL地址的特征和网页的特征进行训练，训练得到分类器；

S14：利用分类器及分类器返回来的分类信心检测钓鱼网站。

可见，该方法构建了网址和网页两方面特征，能够兼顾检测准确率和检测速度，采用Adaboost算法训练全部特征，不断提高检测钓鱼网站的准确度。

基于上述方法，具体的，URL地址的特征包括IP地址、可疑符号、主域名中‘.’的个数、敏感词汇、不正常的顶级域名和相似知名网站。相似知名网站就是相似知名品牌其中，可疑符号包括：‘@’，‘-’和‘～’；敏感词汇包括：'secure','account','webscr','login','ebayisapi','signin','banking','confirm','submit'和'update'。不正常的顶级域名包括不在常用顶级域名列表内的顶级域名。

本文构建两方面的特征，首先获取用户提供的URL并提取URL相关特征，进而访问网页以获得该网页的特征。构建的特征可直接训练分类模型用于判断钓鱼网站，分类模型为分类器。

对于IP地址，钓鱼网站的主域名经常只有IP地址，如：http://62.141.45.54/portaleTitolaris8/。由正则匹配，可以判断网站的主域名是否为IP地址。如果是则IP地址这个特征为1，否则为0。

对于可疑符号，可疑符号包括：‘@’，‘-’，‘～’。如果‘@’符号出现在URL中，当浏览器解析网址时，会忽略‘@’符号右边的所有字符串。

对于主域名中‘.’的个数，正常网址的主域名比较短，其中‘.’的个数一般不超过3个，例如：www.baidu.com等。

对于敏感词汇，钓鱼网站的URL中，经常使用一些敏感词汇，创建一个敏感词汇列表：['secure','account','webscr','login','ebayisapi','signin','banking','confirm','submit','update']，并统计URL中出现这些敏感词汇的数目作为特征。

对于不正常的顶级域名，一般接触的顶级域名分为两类:一是国家和地区顶级域名(country code top-level domains，简称nTLDs)，例如中国是‘cn’，日本是‘jp’等；二是国际顶级域名(generic top-level domains，简称gTLDs)，表示工商企业的‘.com’，表示网络提供商的‘.net’，表示非盈利组织的‘.org’等。如果网站主域名中出现多个常见顶级域，比如：http://www.ebay.com.urgd.com/path或者url路径中仍然出现顶级域名，则非常可疑。

对于相似知名品牌，知名品牌会被钓鱼者利用，比如钓鱼者会把paypal品牌变为paypail品牌以此迷惑用户。编辑距离Levenshtein distance可以度量两个字符串之间相似度。它表示由一个字符串转换成另一个所需的最小编辑次数，包括字符的替换、插入、删除。

其中，相似知名网站的计算方法包括：提取URL地址中的网站品牌名；通过计算网站品牌名与知名网站品牌名之间的编辑距离来判断是否为相似知名品牌。

具体的，网页的特征包括：内链数目、外链数目、网页内的链接指向外站后再由外站回指的链接数、网页内的链接指向内站后再由内站回指的链接数、登录窗口。

对于内外链接数目，钓鱼网站要欺骗用户相信该网页合法，通常会利用外部资源。尤其是其所要假冒对象的资源，致使钓鱼网站的内部链接非常少，而外部链接的数目比较多。内外链特征的实现逻辑如图2所示。

对于网页内的链接指向外站后再由外站回指的链接数以及网页内的链接指向内站后再由内站回指的链接数，指代Back links和Own links。Back links是指网页内的链接指向外站后，再由外站回指的链接数。Own links是指网页内的链接指向内站，再由内站回指的链接数。本文考虑到钓鱼网站中的back links一般非常少，而合法网站中的Backlinks和Own links比较多，提出利用该特征检测钓鱼网站。Back links和Own links的搜索过程如图3所示。

其中，首先把页面内的链接按照IP地址分类为两个集合α，β：α是与目标URL的IP地址相同的所有链接集合(same ip set)、β是与目标URL的IP地址不同的所有链接集合(different ip set)。再对集合α中所有链接进行访问，统计每个链接的网页中IP地址和目标URL的IP地址一样的链接数目N_α，N_α即Own links。同样，对集合β中所有链接进行访问，统计每个链接的页面中IP地址和目标URL的IP地址一样的链接数目N_β，N_β即Back links，最后以N_α、N_β的值为特征。在实际应用中，如果找出全部链接关系，会需要较大的时间代价，为此，可采用多线程访问的策略，并在所给网页内随机选取30条链接寻找back links和ownlinks的策略，如图4所示。

对于登录窗口，钓鱼网站往往通过登录窗口诱使用户泄露个人敏感信息，本文采用以下逻辑来判断网页是否包含登录窗口：首先在页面中找到所有的<form>标签，再寻找里面的<input>标签，最后对每个<input>标签，匹配password,pass等关键字。考虑到如果password,pass没有匹配到，采用在所有的form标签中匹配login,signin等关键字的策略。

具体的，Adaboost算法分为两层，第一层是AdaBoost主算法、第二层是分类算法。

Adaboost算法的步骤包括：赋予训练集的样本相同的权重，构成一个权重向量D；调用分类算法训练出一个分类器，计算准确率ε；迭代再训练所述分类器，并调整权值α；根据调整后的权值更新权值向量D，在计算出权值向量D之后，Adaboost算法进入下一轮迭代。所述分类器为弱分类器。

其中，迭代再训练所述分类器，并调整权值α的过程中，第一次分对的样本权值下降，分错的样本权值提高。调整权值α的公式如下：

其中，根据调整后的权值更新权值向量D的过程中，对于正确分类的样本，权值向量D更新为：

对于错误分类的样本，权值更新为：

其中，在计算出权值向量D之后，算法进入下一轮迭代。算法不断地重复训练和调整权值，直到训练错误率为0或弱分类器的数目达到预先设定值为止。Adaboost模型参数如下：弱分类器类型为Decision Tree Classifier、弱分类器最大个数1500、学习率1.0、Boosting算法SAMME.R。

进一步的，步骤S14的过程具体包括：获取分类器对钓鱼网站检测结果的预测概率值，将预测概率值作为分类器的分类信心；若分类信心大于或等于预设值t，保留钓鱼网站检测结果。

现有的利用分类器的钓鱼检测模型，通常在特征上训练后直接对测试数据进行预测分类。考虑到分类器决策时对测试样本的预测概率值的差异，本文引入一个阈值t对分类器的预测结果进一步地划分。就Adaboost算法而言，每次分类时所返回的概率值可视为该分类器的分类信心，比如0.96472表示对该判断结果有96.47％的信心，如果Adaboost对预测样本的分类信心大于t，则保留该预测结果。具体地。给定一个测试样本X_t，P_t是Adaboost对预测结果是钓鱼的信心，Y_t是系统对该测试样本的预测值，如下：

因此，本文选择并构建了网址和网页两方面特征，提出并结合分类信心的方法，设计钓鱼网站检测系统进行钓鱼网站检测。在实际应用中，由于网络因素可能导致无法获得所有特征，本文分别训练基于全部特征和只基于URL特征的Adaboost模型。实验结果表明利用分类信心结合两种Adaboost分类器的检测方案可获得最高性能。本文构建了网址和网页两方面特征，在实际应用中能够兼顾检测准确率和检测速度，提出利用分类信心结合Adaboost分类器的方法，有效地提升了假冒网站检测效果。在系统实现方面，以浏览器插件形式与用户交互，可利用用户行为帮助系统不断提高检测钓鱼网站的准确度。本文还实现了一个钓鱼检测系统。该系统基于URL特征和全部特征训练两种模型，并根据检测网址能否访问智能选择模型。在检测过程中系统自动储存特征，以便下次检测相同网址时快速计算，同时这些存储的特征也有利于模型的及时更新。该系统面向用户和企业分别推出了单一网址检测和批量检测两种模式，如图5所示。

为了训练和评测模型，本文收集了一个数据集。训练集中的正常网站包含了Alex排名61000到62000网站页面中的链接共2000条记录，钓鱼网站包含了Phishtank上验证并于2017年4月20号到4月23号公布的钓鱼网址共2000条记录。测试集中的正常网站的数据选择的是Alex排名100000左右的网站页面中的链接共220条，钓鱼网站选择的是phishtank于2017年6月13号公布的共230条记录。

在评价指标方面，本文使用漏警率和虚警率。在检测钓鱼网站的任务中，漏警率指所有的钓鱼网站中，没有被检测出来的比率；虚警率即所有合法网站中，被错误的检测为钓鱼网站的比率。因此，漏警率和虚警率都越小越好。两种模型的评价如表1所示，由于用户提供的URL地址有可能是不可访问的，训练的这两种模型中：一种是只使用URL特征的，另一种是使用所有特征的。表1表示模型的漏警率和虚警率。

表1

由表1可知，只使用URL特征进行分类时，漏警率和虚警率都很高，尤其是虚警率，说明该模型把较多的合法网站判断为钓鱼网站；而结合了页面链接关系特征之后，模型有较大的提升，特别是虚警率比较低，说明页面的链接特征可以有效的降低模型的虚警率。由于只使用URL特征的模型表现不够好，系统的整体性能比较差，因此本文结合Adaboost分类信心对系统作进一步改进。

Adaboost预测分类信心Pt如果落在0.9～1之间的结果越多，则说明系统的分类稳定性越好。因此，需要研究Pt在数据集上的区间分布情况，如图6所示。图6中横坐标为只基于URL特征分类的109条样本，纵坐标为分类信心，样本1至样本24(虚线部分)为分类错误的样本，样本25至样本109(实线部分)为分类正确的样本。109条样本中超过一半(59条)的Pt大于0.95，而实线的信心普遍比虚线的要高，即分类器分类错误的信心普遍都不高，由此利用分类信心可以进一步提高分类器准确率。

因此，我们对系统如下改进：若网页无法访问，即只使用URL特征时，对于P_t大于等于t的结果认为是可靠的，低于t的则不予判断；若网页可以正常访问，则使用全部特征的Adaboost模型分类。图7为系统在不同阈值t时的性能。由图7可得当t＝0.95时，系统获得最佳性能：准确率＝96.75％、漏警率＝3.59％、虚警率＝2.93％。相比没有结合分类信心的Adaboost模型，只基于URL特征的漏警率由之前的14.77％降低至1.88％，虚警率由52.38％降低至16.67％。系统总体的虚警率由之前的7.27％降低至2.93％。实验表明，系统结合分类信心的方法大幅降低了虚警率，提高了系统的精度。

在相同数据集上使用SVC、DT、KNN、RF等算法与本文基于Adaboost分类信心的检测算法，从准确率、虚警率、漏警率上对比结果如表2所示。结合分类信心的Adaboost算法从准确率、虚警率、漏警率上都要优于传统算法。表2表示算法对比。

表2

本文以解决目前越来越严重的网络钓鱼问题为出发点，在分析国内外相关研究的基础上，构建一系列新的多维特征；以机器学习和统计分析技术为基础，提出并结合分类信心的方法，也设计一个智能钓鱼网站检测系统。随着我国互联网快速发展，防御网络钓鱼攻击已然成为一个任重而道远的任务。不断加强网络空间安全，对于保障公民信息和财产安全具有重要意义。

随着互联网应用的飞速发展，钓鱼网站的数量也在迅速增加，迫使人们需要更有效的技术来防御钓鱼网站攻击。本文构建了URL和网页内容两方面特征，结合机器学习Adaboost算法，训练了两种钓鱼检测模型。系统可根据网址状态智能选择合适的模型，并最终以浏览器插件形式与用户交互。特别地，本文提出利用钓鱼检测模型的分类信心进一步提升系统性能，即认为检测URL的结果在分类信心0.95以上时是可靠的。实验表明，系统的漏警率和虚警率分别为3.59％和2.93％，准确率达到96.75％，可以有效抵御网络钓鱼攻击。

以上对本发明所提供的一种基于分类信心和网站特征的钓鱼检测方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于分类信心和网站特征的钓鱼检测方法，其特征在于，包括：

获取用户提供的URL地址，提取URL地址的特征；

利用URL地址访问网页，获取网页的特征；

利用分类器及分类器返回来的分类信心检测钓鱼网站。

2.如权利要求1所述的方法，其特征在于，所述URL地址的特征包括IP地址、可疑符号、主域名中‘.’的个数、敏感词汇、不正常的顶级域名和相似知名网站。

3.如权利要求1所述的方法，其特征在于，所述网页的特征包括：内链数目、外链数目、网页内的链接指向外站后再由外站回指的链接数、网页内的链接指向内站后再由内站回指的链接数、登录窗口。

4.如权利要求1所述的方法，其特征在于，所述Adaboost算法分为两层，第一层是AdaBoost主算法、第二层是分类算法。

5.如权利要求4所述的方法，其特征在于，所述Adaboost算法的步骤包括：

赋予训练集的样本相同的权重，构成一个权重向量D；

调用分类算法训练出一个分类器，计算准确率ε；

迭代再训练所述分类器，并调整权值α；

6.如权利要求5所述的方法，其特征在于，调整权值α的公式如下：

<mrow> <mi>&alpha;</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msub> <mi>log</mi> <mi>e</mi> </msub> <mrow> <mo>(</mo> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <mi>&epsiv;</mi> </mrow> <mi>&epsiv;</mi> </mfrac> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <mi>&epsiv;</mi> </mrow> <mi>&epsiv;</mi> </mfrac> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

7.如权利要求6所述的方法，其特征在于，所述利用分类器及分类器返回来的分类信心检测钓鱼网站，包括：

8.如权利要求6所述的方法，其特征在于，根据调整后的权值更新权值向量D的过程中，对于正确分类的样本，权值向量D更新为：

<mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msup> <msub> <mi>D</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <msup> <mi>&epsiv;</mi> <mrow> <mo>-</mo> <mi>&alpha;</mi> </mrow> </msup> </mrow> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>

9.如权利要求8所述的方法，其特征在于，对于错误分类的样本，权值更新为：

<mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msup> <msub> <mi>D</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <msup> <mi>&epsiv;</mi> <mi>&alpha;</mi> </msup> </mrow> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>D</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>

10.如权利要求2所述的方法，其特征在于，所述可疑符号包括：‘@’，‘-’和‘～’；敏感词汇包括：'secure','account','webscr','login','ebayisapi','signin','banking','confirm','submit'和'update'。

11.如权利要求2所述的方法，其特征在于，所述相似知名网站的计算方法包括：

提取URL地址中的网站品牌名；