CN110602045B

CN110602045B - 一种基于特征融合和机器学习的恶意网页识别方法

Info

Publication number: CN110602045B
Application number: CN201910744001.XA
Authority: CN
Inventors: 成卫青; 魏旭
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2022-03-08
Anticipated expiration: 2039-08-13
Also published as: CN110602045A

Abstract

本发明公开了一种基于特征融合和机器学习的恶意网页识别方法，包括训练数据集与测试数据集的构建，HTTP请求信息的收集，将HTTP请求特征与URL特征和源代码特征融合，生成融合特征，使用5折交叉验证进行机器学习模型训练，得到最优的分类模型，根据最优的分类模型对恶意网页识别，本发明基于HTTP请求信息的特征构建的分类模型可以快速有效地识别可疑网页，为用户提供实时的网页安全性分析服务。

Description

一种基于特征融合和机器学习的恶意网页识别方法

技术领域

本发明涉及一种基于HTTP请求特征与URL、源代码特征融合和机器学习的恶意网页识别方法，属于网页识别技术领域。

背景技术

回顾恶意网页识别领域的相关工作，恶意网页识别方法根据恶意网页识别特征来分，可以分为静态特征和动态特征，静态特征包括URL词汇特性(URL长度，特殊字符个数，词汇信息等等)，网页主机信息(WHOIS信息，Server信息等)，网页内容信息(网页布局，网页主题，网页HTML特殊标签数量等)，以及网页源码特征(主要包括恶意脚本语言，链接关系，含有被认定恶意函数的数量等)。动态特征来自于网页加载时发生的动态行为，种类虽然少，但提取较为麻烦，主要包括浏览器的行为，注册表和文件的变化情况，以及所产生的HTTP信息。这些特征的获取，需要研究人员在真实的情况下运行网页，深入分析获得系统发生的变化。在获取动态特征的过程中，往往需要蜜网技术和虚拟机技术相结合来提取特征。恶意网页识别最常用的方法是黑名单方法，该方法是指将已经被发现的恶意网页信息存放在一个数据库中，当访问一个网页时去查询该数据库，检查访问的网址是否存在该数据库中，如果存在则认为它是恶意网页。黑名单是含有恶意网页的URL，IP或者关键字信息的列表。因其技术实现简单，查询速度快，所以被广泛应用于谷歌浏览器，Malware及PhishTank等实际项目和系统中，当然这个列表也是持续更新的。然而，不难发现黑名单方法的缺点。第一，该方法只能识别已经被标记过的恶意网页，当访问一个未发现的恶意网页时，黑名单方法往往是没有用的。第二，当一个恶意网页被发现，并被上传到黑名单数据库中，需要一定的时间来完成，根据Sheng等人的研究，大多数的网页钓鱼行为会在2个小时内执行完成，而一个新发现的恶意网页被加入到数据库中往往需要12小时，这就使得该方法的时效性较低。为了解决黑名单的不足，提出了启发式过滤规则，将已发现的恶意URL信息作为先验知识，通过URL特征的相似性来识别未发现的钓鱼网页，这种方法可以识别部分未发现的恶意URL，但该方法在时间复杂度上随数据规模线性增加。为了提高恶意网页识别效率，研究人员用机器学习与URL特征结合来识别恶意URL。该方法是使用一组URL作为训练数据，学习一个可以对URL有效分类的预测函数。这种方法比黑名单有效得多，该方法可以预测未出现过的恶意URL。

基于网页内容特征分析，需要先加载网页，再获得它的内容和源代码信息，与基于URL特征相比，特征提取更加复杂，因为需要提取大量的信息。不过，获取更多的信息可以提高识别的精确率。有研究人员结合动态分析和机器学习的方法，提出了一个基于网页源码分析的恶意网页识别系统。通过监控网页中动态执行函数，包括脚本注入、页面插入、URL跳转等，提取对应的函数作为特征，利用机器学习的方法取得较高的精确率。也有研究人员将网页内容特征和URL特征相结合，以获取更多的特征维度，提高机器学习模型的精确率。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于特征融合和机器学习的恶意网页识别方法，本发明提出一种新的特征类型，即基于HTTP请求的特征，并定义若干特征。再与网页源代码特征和URL特征进行融合，构建基于机器学习的网页分类模型，提高了恶意网页识别准确率。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于特征融合和机器学习的恶意网页识别方法，包括以下步骤：

步骤1)，构建URL训练集，URL训练集包括正常网页和恶意网页，对URL训练集中网页进行标记，得到URL标注集，在URL标注集中提取每个URL对应网页的特征，构建训练数据集与测试数据集，训练数据集与测试数据集包括恶意URL、正常URL、各个网页特征、恶意网页标注和正常网页标注。

步骤2)，根据训练数据集中的URL，逐一访问各个网页，前端程序收集每个网页的所有的HTTP请求信息。

步骤3)，根据HTTP请求的Host信息中的(二级域名.顶级域名)对HTTP请求进行分组，将所有Host信息中的(二级域名.顶级域名)进行分组，计算域内请求数、域外请求数、域内请求占比、统计组的数目、非知名域的数目，并将URL信息和HTTP请求特征发送后台服务程序。

步骤4)，后台接收前端发送的URL信息和HTTP请求特征，根据网页的URL信息，利用Python获取URL词汇特征，以及通过Python requests库获取网页的源代码特征，将HTTP请求特征与URL特征和源代码特征融合，生成融合特征。

步骤5)，将步骤4)通过的训练数据集得到的融合特征用于训练不同的分类模型，得到训练好的不同分类模型。

步骤6)，根据测试数据集的URL，逐一访问各个网页，前端程序收集每个网页的所有的HTTP请求信息，得到的HTTP请求信息经过步骤3)和步骤4)，生成融合特征，将通过测试数据集得到的融合特征导入训练好的不同的分类模型中进行分类，通过比较训练好的不同分类模型得到的F1值的大小，选择F1值最大的训练好的分类模型作为最优的分类模型。

步骤7)，识别时，前端程序收集用户当前正在访问网页的所有的HTTP请求信息，得到的HTTP请求信息经过步骤3)和步骤4)，生成融合特征，将生成的融合特征导入最优的分类模型进行分类，进而判断网页是良性还是恶性。

步骤8)，将步骤7得到分类结果返回结果发送到前端，并显示网页是恶意的还是良性的。

优选的：步骤6)中最优的分类模型得到方法：根据训练与测试数据导入训练好的不同的分类模型中的分类结果，分别计算其混淆矩阵、精确率、召回率和F1值，其中：

混淆矩阵为：

真正例TP，真实为正常网页，预测也为正常网页。

假正例FP，真实为恶意网页，预测却为正常网页。

假反例FN，真实为正常网页，预测却为恶意网页。

真反例TN，真实为恶意网页，预测也为恶意网页。

精确率：

其中，P表示精确率，n_TP表示真正例TP的个数，n_FP表示假整理FP的个数；

召回率：

其中，R表示召回率，n_FN表示假反例的个数；

F1值：

其中，F1表示F1值，P表示精确率，R表示召回率。

优选的：步骤3)中非知名域指在Alexa排名1000之后的域。知名域指域名在Alexa排名前1000的网站。

优选的：步骤1)中正常网页来自Alexa排名前500的网页，恶意网页来自PhishTank和Malwaredomains中的500个网页。

优选的：步骤1)中对URL训练集中网页进行标记时，恶意网页标记为1，正常网页标记为0。

本发明相比现有技术，具有以下有益效果：

本发明提出了基于特征融合和机器学习的恶意网页识别方法，恶意网页识别准确率较高，能够为用户提供网页安全性实时分析功能。

附图说明

图1是本发明基于机器学习模型训练流程图。

图2是基于ChromeAPI和python Flask的扩展程序实现流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

模型的训练与确定：

步骤1)，构建URL训练集，URL训练集包括正常网页和恶意网页，正常网页来自Alexa排名前500的网页，恶意网页来自PhishTank和Malwaredomains中的500个网页(剔除无效的网页和域名重复网页)。对URL训练集中网页进行标记，恶意网页标记为1，正常网页标记为0，得到URL标注集，在URL标注集中提取每个URL对应网页的特征，构建训练数据集与测试数据集，训练数据集与测试数据集均包括500个恶意URL、正常URL、各个网页特征、恶意网页标注和正常网页标注。

步骤3)，根据HTTP请求的Host信息中的(二级域名.顶级域名)对HTTP请求进行分组，将所有Host信息中的(二级域名.顶级域名)进行分组，计算域内请求数、域外请求数、域内请求占比、统计组的数目、非知名域的数目(非知名域定义为在Alexa排名1000之后的域)、知名域的数目，并将URL信息和HTTP请求特征(HTTP请求特征包括：域内请求数，域外请求数，域内请求占比，请求的域总数，统计组的数目，请求的非知名域数)发送后台服务程序，以上基于ChromeAPI实现。

定义请求域名与访问域名相同的为域内请求，不同的则为域外请求，知名域指域名在Alexa排名前1000的网站。

域内请求数，域外请求数，域内请求占比，请求的域总数，请求的非知名域数计算方法为：

域内请求数：inner，域外请求数：outer，域内请求求占比：zhanbi＝inner/(inner+outer)，

请求域总数：指域内请求数组个数+域外请求数组个数，请求的非知名域数：域内外请求数组中非知名域的个数。

步骤4)，后台接收前端发送的URL信息和HTTP请求特征，根据网页的URL信息，利用Python获取URL词汇特征(如：URL的长度，URL中数字个数，URL中专用字符个数，URL中特殊字符个数)，以及通过Python requests库获取网页的源代码特征(如：iframe标签数量，eval函数数量，setTimeout函数数量，setInterval函数数量，window.location数量，window.open方法数量，scriptObject.src数量，scriptObject.setAttribute数量，scriptObject.innerHTML数量)，将HTTP请求特征与URL特征和源代码特征融合，特征融合是指将HTTP特征、URL特征、源代码特征合并，生成融合特征，如表1所示是本发明用于识别恶意网页的网页特征。

表1是本发明用于识别恶意网页的网页特征。

本发明使用5折交叉验证进行机器学习模型训练。最终精确率、召回率、F1值取5次结果的均值。采用多个分类模型去训练数据，使用如下模型：SVM，SVMVC，梯度提升树算法，随机森林算法，朴素贝叶斯算法，KNN算法，决策树算法和逻辑回归算法。比较不同机器学习模型的分类准确率，得到最优的分类模型。

根据训练与测试数据导入训练好的不同的分类模型中的分类结果，分别计算其混淆矩阵、精确率、召回率和F1值，其中：

混淆矩阵为：

TP(真正例)真实为正常网页，预测也为正常网页。

FP(假正例)真实为恶意网页，预测却为正常网页。

FN(假反例)真实为正常网页，预测却为恶意网页。

TN(真反例)真实为恶意网页，预测也为恶意网页。

精确率(precision)：分类正确的样本个数占总样本个数的比重。

召回率(recall)：衡量对恶意样本的检测能力。

其中，R表示召回率，n_FN表示假反例的个数；

F1值：相当于精确率和召回率的综合评价指标。

其中，F1表示F1值，P表示精确率，R表示召回率。

网页的识别：

步骤8)，将步骤7得到分类结果返回结果利用Ajax发送到前端(Chrome扩展程序)，并显示网页是恶意的还是良性的，如果是恶意网页，则通过前端弹窗告知用户。

通过实验表明，随机森林分类模型更适用于恶意网页识别，结合基于ChromeAPI的扩展程序和pythonFlask来实现恶意网页检测系统步骤如下：

步骤1)Chrome扩展程序通过监听chrome.webRequest中的onBeforeSendHeader事件，在页面加载完成前，通过它的details信息获得所有的HTTP请求信息，按HTTP请求的Host信息中的(二级域名.顶级域名)对HTTP请求进行分组。非知名域的判断方法是调用AlexaAPI中的接口实现。计算域内请求数，域外请求数，统计组的数目，以及非知名域的数目(非知名域指在Alexa排名1000之后的域)。并将URL信息和HTTP请求特征发送给后台服务程序。

步骤2)后台服务程序接收到前端发送的URL信息和HTTP请求特征，根据URL获得URL特征，利用Python requests库获取对应URL的源码，再利用正则表达式计算源代码的特征。

步骤3)将上述特征融合，输入到训练好的机器学习分类模型，输出分类结果。并将结果返回给前端显示。若是恶意网页，则通过弹窗的形式告诉用户该网页的类型。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于特征融合和机器学习的恶意网页识别方法，其特征在于，包括以下步骤：

步骤1)，构建URL训练集，URL训练集包括正常网页和恶意网页，对URL训练集中网页进行标记，得到URL标注集，在URL标注集中提取每个URL对应网页的特征，构建训练数据集与测试数据集，训练数据集与测试数据集包括恶意URL、正常URL、各个网页特征、恶意网页标注和正常网页标注；

步骤2)，根据训练数据集中的URL，逐一访问各个网页，前端程序收集每个网页的所有的HTTP请求信息；

步骤3)，根据HTTP请求的Host信息中的(二级域名.顶级域名)对HTTP请求进行分组，将所有Host信息中的(二级域名.顶级域名)进行分组，计算域内请求数、域外请求数、域内请求占比、统计组的数目、非知名域的数目，并将URL信息和HTTP请求特征发送后台服务程序；

步骤4)，后台接收前端发送的URL信息和HTTP请求特征，根据网页的URL信息，利用Python获取URL词汇特征，以及通过Python requests库获取网页的源代码特征，将HTTP请求特征与URL特征和源代码特征融合，生成融合特征；

步骤5)，将步骤4)通过的训练数据集得到的融合特征用于训练不同的分类模型，得到训练好的不同分类模型；

步骤6)，根据测试数据集的URL，逐一访问各个网页，前端程序收集每个网页的所有的HTTP请求信息，得到的HTTP请求信息经过步骤3)和步骤4)，生成融合特征，将通过测试数据集得到的融合特征导入训练好的不同的分类模型中进行分类，分类模型包括SVM分类模型、SVMVC分类模型、梯度提升树算法分类模型、随机森林算法分类模型、朴素贝叶斯算法分类模型、KNN算法分类模型、决策树算法分类模型和逻辑回归算法分类模型，通过比较训练好的不同分类模型得到的F1值的大小，选择F1值最大的训练好的分类模型作为最优的分类模型；

最优的分类模型得到方法：根据训练与测试数据导入训练好的不同的分类模型中的分类结果，分别计算其混淆矩阵、精确率、召回率和F1值，其中：

混淆矩阵为：

真正例TP，真实为正常网页，预测也为正常网页；

假正例FP，真实为恶意网页，预测却为正常网页；

假反例FN，真实为正常网页，预测却为恶意网页；

真反例TN，真实为恶意网页，预测也为恶意网页；

精确率：