CN108777674A

CN108777674A - 一种基于多特征融合的钓鱼网站检测方法

Info

Publication number: CN108777674A
Application number: CN201810373630.1A
Authority: CN
Inventors: 杨鹏; 曾朋; 李幼平; 张长江; 郑斌
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2018-11-09
Anticipated expiration: 2038-04-24
Also published as: CN108777674B

Abstract

本发明公开了一种基于多特征融合的钓鱼网站检测方法，该方法能够实时检测互联网上的钓鱼网站。本发明首先根据网页的URL提取URL特征、HTML特征和基于TF‑IDF的文本向量；然后利用Logistic回归(Logistic regression)对文本向量进行分类，构建Logistic回归特征，并与网页URL特征和HTML特征进行多特征融合；最后训练XGBoost(eXtreme gradient boosting)模型，对待测钓鱼网站进行分类预测。本发明在网站的URL基础上，从多个维度全方位提取多关键特征，采用Logistic回归特征融合方法，有效解决文本向量特征维度过高问题，比现有特征融合方法能大幅提高运行效率，而且XGBoost分类模型比传统分类模型，更能提高钓鱼网站检测准确率，减少钓鱼网站检测漏报率。

Description

一种基于多特征融合的钓鱼网站检测方法

技术领域

本发明涉及一种基于多特征融合的钓鱼网站检测方法，该方法从多个维度全方位提取钓鱼网站的特征，利用机器学习方法分类提高分类准确率，能实时检测互联网上的钓鱼网站，属于网络空间安全技术领域。

背景技术

近年来，随着互联网的飞速发展，互联网体系结构在安全方面所存在不足日渐显露，网络钓鱼、网络犯罪、隐私泄露等各类安全问题越来越突出。没有网络安全就没有国家安全，网络空间安全已经成为世界各国必须共同面对和解决的难题。在各类网络安全问题中，网络钓鱼是一种通过社会工程学或其它复杂技术手段窃取网站用户个人信息的犯罪行为，目前网络钓鱼呈逐年上升趋势。

当前钓鱼网站的检测方法主要包括黑白名单过滤技术、启发式检测、相似性检测和基于机器学习的检测。其中，钓鱼黑名单过滤是应用最广的检测方法，被众多商业检测系统所使用，但是，采用黑名单方式检测钓鱼网站，存在较高的漏报率。基于启发式的方法虽可以实时检测出未被黑名单收录的钓鱼网站，并且具有一定的准确性，但是模型的自进化和自适应能力较差。相似性检测方法的效率较低，只适用于特定领域，同时很多钓鱼网站并未模仿某一类知名网站，导致特征库的提取存在困难。基于机器学习方法的URL检测技术是利用URL提取特征，并结合机器学习分类算法对网页进行分类，但当前基于机器学习的钓鱼检测方法，普遍存在训练效率低、特征维度过高和准确率不足等问题。

针对当前日益增多的钓鱼网站问题和已有钓鱼检测方法训练效率较低、钓鱼鱼网站检出率较低的问题，本发明提出一种基于多特征融合的钓鱼网站检测方法，利用Logistic回归训练基于TF-IDF的网页文本特征，将训练结果作为最终的网页文本特征，与网页的URL特征和HTML特征进行融合，大大降低特征维度，并通过XGBoost算法对钓鱼网页进行分类，提高检测分类的准确率。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种基于多特征融合的钓鱼网站检测方法，该方法能实时检测互联网的钓鱼网站，相比传统方法，不仅能够大幅度减少特征维度，减少训练时间和提高运行效率，而且能够有效改善传统钓鱼网站检测方法普遍存在的准确率不足问题。

技术方案：一种基于多特征融合的钓鱼网站检测方法，该方法涵盖钓鱼网站检测的全过程。该方法主要包括特征提取、特征融合和分类预测等过程，能够从多个维度全方位提取钓鱼网站的特征，有效解决文本向量特征维度过高的问题，并且将XGBoost分类模型拓展应用于钓鱼网站检测，提高检测准确率和减少检测漏报率。该方法主要包括三个步骤，具体如下：

步骤1，积累样本数据集。首先从PhishTank官网(PhishTank.com)搜集钓鱼网站，并从开放式网站分类目录DMOZ(dmoztools.net)搜集正常网站的样本 URL，去掉其中不可访问URL和重复URL等无效URL。

步骤2，多特征分类模型训练。对数据集中每一个有效的URL，首先提取 URL特征，然后爬取网页源码，接着抽取HTML特征和文本特征，构建Logistic 回归特征融合向量矩阵，最后训练XGBoost分类器。

步骤3，对待测网站进行分类预测。对于待测网站，首先提取该网站主页的 URL特征、HTML特征和文本特征，接着构建Logistic回归融合特征F，最后利用训练好的XGBoost分类器检测待测网站是否为钓鱼网站。

有益效果：

1.该方法采用基于Logistic回归的多特征融合方法，能够有效改善现有特征融合方法因为维度过高而导致的训练时间长、准确率低等问题。

2.该方法将XGBoost分类模型拓展应用于钓鱼网站检测，与传统分类模型相比，分类检测结果具有更高的准确率、精确率和召回率。

附图说明

图1为本发明算法流程图，图中本发明从训练到预测的全过程。

图2为基于Logistic回归的多特征融合方法流程图，包括特征提取、特征融合和分类预测。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本方法具体实施步骤如下：

步骤1，积累样本数据集。本发明首先从PhishTank(PhishTank.com)提供的黑名单中收集20000条有效钓鱼URL，并且从开放式网站分类目录DMOZ (dmoztools.net)中下载获取20000条有效正常URL，它们共同构成URL样本数据集D。由于钓鱼网站一般选择银行、游戏和电子商务类网站作为钓鱼目标，因此本发明需要从DMOZ收集20000条有效的正常网站URL，并保证银行、游戏和电子商务类网站的占比较大。

步骤2，多特征分类模型训练。对搜集的数据集D中的每个样本URL urlx，提取urlx的URL特征、HTML特征和文本特征，构建Logistic回归特征融合矩阵，并训练XGBoost分类器。该步骤实施过程分为6个子步骤：

子步骤2-1,提取每一个urlx的URL特征F_URL。针对URL以及域名信息，抽取URL相关特征F_URL主要包括URL中是否有IP地址、是否有可疑字符、是否有敏感词汇、是否是https链接，以及URL总长度、URL中最长数字串长度等，如表1所示。其中，本发明设置的敏感词汇包括：account、admin、administrator、 auth、bank、client、confirm、email、host、password、pay、private、safe、secure、 security、sign、user、validation、verification。

表1 URL特征

子步骤2-2，爬取每一个urlx对应的网页源码。利用当前的URL爬取网页源码，由于很多网站都属于动态网站(如基于Ajax技术实现的网站)，网页爬取的HTML源码和网页文本与从浏览器看到的内容差异较大，所以本发明基于selenium和PhantomJS爬取网页源码。

子步骤2-3，提取每一个urlx的HTML特征F_HTML。根据爬取到的网页源码提取HTML特征，记为F_HTML，主要包括从HTML和JavaScript中提取的特征，如html总长度和div、embed、iframe、applet等标签数量，以及JavaScript中的 get、post、pop等方法数量和html外链占比等。外链表示网页html中指向其它域名的链接，由于很多钓鱼网站直接仿照正常网站，导致钓鱼网站的文本、图片和视频链接直接指向正常网站，因此钓鱼网站外链比例一般较高，因此html中外链占比是一个重要指标。本发明使用如公式(1)所示的外链接与链接总数的比例来定义html中外链占比：

其中：Count_{externalLinks}是外链数量，Count是链接总数。

本发明提取了24个HTML特征，如表2所示。

表2 HTML特征

子步骤2-4，提取每一个urlx的文本向量F_TFIDF。根据网页源码生成对应的网页文本，先通过去掉HTML源码中多余的标签提取出网页的有效文本，再根据TF-IDF方法提取TF-IDF特征，记为F_TFIDF。主要思想是，对于一个文本，如果一个单词出现频率越高，而在其它文本中出现频率越低，则该单词对该文本就越重要。TF-IDF的计算公式如下：

TF-IDF(i,W_j)＝TF(i,W_j)*IDF(W_j) (4)

其中，TF(i,W_j)表示文档i中单词W_j的词频，文档i中单词W_j出现的次数由 Count(i,W_j)表示，Count(i)表示文档i的单词总数；IDF(W_j)表示单词W_j的逆向频率，|D|表示文档总数，CountFiles(W_j)表示包含单词W_j的文档总数。

子步骤2-5，基于Logistic回归进行多特征融合。利用F_TFIDF训练Logistic 回归模型，如公式(5)所示，用预测概率代表Logistic特征，记为F_logistic，保存 Logistic回归模型参数，然后利用公式(6)将三方面的特征进行融合。

F＝F_URL∪F_HTML∪F_logistic (6)

公式(5)中，x∈Rⁿ表示输入特征向量F_TFIDF，Y∈{0,1}表示判断类型，w 为Logistic回归权重向量，w∈Rⁿ，w·x为向量w和x的内积，Rⁿ为n维连续向量空间。

子步骤2-6，训练XGBoost分类器。首先对步骤2提取的特征F进行标准化处理，如公式(7)所示；然后将标准化后的特征向量F_s用于训练XGBoost分类器。XGBoost对损失函数进行了二阶泰勒展开，充分利用了一阶和二阶导数，并在损失函数之外对正则项求得最优解，此外XGBoost能自动利用CPU的多线程进行计算，节省大量运行时间，同时提高了算法精度。

其中x为原始特征，为原始数据的均值，σ为原始数据的标准差。

步骤3，对待测网站进行分类预测。利用步骤2中训练的Logistic回归和 XGBoost模型参数，对于待测网站URL，提取URL特征、HTML特征和文本特征，构建Logistic回归融合特征F，最后通过XGBoost检测待测网站是否为钓鱼网站。

Claims

1.一种基于多特征融合的钓鱼网站检测方法，其特征在于，包括如下步骤：

步骤1，积累样本数据集；首先从PhishTank官网搜集钓鱼网站，并从开放式网站分类目录DMOZ搜集正常网站的样本URL，去掉无效URL；

步骤2，多特征分类模型训练；对数据集中每一个有效的URL，首先提取URL特征，然后爬取网页源码，接着抽取HTML特征和文本特征，构建Logistic回归特征融合向量矩阵，最后训练XGBoost分类器；

步骤3，对待测网站进行分类预测；对于待测网站，首先提取该网站主页的URL特征、HTML特征和文本特征，接着构建Logistic回归融合特征F，最后利用训练好的XGBoost分类器检测待测网站是否为钓鱼网站。

2.如权利要求1所述的基于多特征融合的钓鱼网站检测方法，其特征在于，步骤2中，对搜集的数据集中的每个样本URL urlx，提取urlx的URL特征、HTML特征和文本特征，构建Logistic回归特征融合矩阵，并训练XGBoost分类器；该步骤实施过程分为6个子步骤：

子步骤2-1,提取每一个urlx的URL特征F_URL；针对URL以及域名信息，抽取URL相关特征F_URL主要包括URL中是否有IP地址、是否有可疑字符、是否有敏感词汇、是否是https链接，以及URL总长度、URL中最长数字串长度；

子步骤2-2，爬取每一个urlx对应的网页源码；利用当前的URL基于selenium和PhantomJS爬取网页源码。

子步骤2-3，提取每一个urlx的HTML特征F_HTML；根据爬取到的网页源码提取HTML特征，记为F_HTML，包括从HTML和JavaScript中提取的：html总长度和div、embed、iframe、applet标签数量，以及JavaScript中的get、post、pop等方法数量和html外链占比特征；

子步骤2-4，提取每一个urlx的文本向量F_TFIDF；根据网页源码生成对应的网页文本，先通过去掉HTML源码中多余的标签提取出网页的有效文本，再根据TF-IDF方法提取TF-IDF特征，记为F_TFIDF；

子步骤2-5，基于Logistic回归进行多特征融合；利用F_TFIDF训练Logistic回归模型；

子步骤2-6，训练XGBoost分类器；利用数据集生成的特征向量F训练XGBoost模型。

3.如权利要求2所述的基于多特征融合的钓鱼网站检测方法，其特征在于，使用如公式(1)所示的外链接与链接总数的比例来定义html中外链占比：

其中：Count_{externalLinks}是外链数量，Count是链接总数。

4.如权利要求2所述的基于多特征融合的钓鱼网站检测方法，其特征在于，TF-IDF的计算公式如下：

TF-IDF(i,W_j)＝TF(i,W_j)*IDF(W_j) (4)

其中，TF(i,W_j)表示文档i中单词W_j的词频，文档i中单词W_j出现的次数由Count(i,W_j)表示，Count(i)表示文档i的单词总数；IDF(W_j)表示单词W_j的逆向频率，|D|表示文档总数，CountFiles(W_j)表示包含单词W_j的文档总数。

5.如权利要求2所述的基于多特征融合的钓鱼网站检测方法，其特征在于，利用F_TFIDF训练Logistic回归模型，如公式(5)所示，用预测概率P(Y＝1|x)代表Logistic特征，记为F_logistic，保存Logistic回归模型参数，然后利用公式(6)将三方面的特征进行融合；

F＝F_URL∪F_HTML∪F_logistic (6)

公式(5)中，x∈Rⁿ表示输入特征向量F_TFIDF，Y∈{0,1}表示判断类型，w为Logistic回归权重向量，w∈Rⁿ，w·x为向量w和x的内积，Rⁿ为n维连续向量空间。