CN111447169B

CN111447169B - 一种在网关上的实时恶意网页识别方法及系统

Info

Publication number: CN111447169B
Application number: CN201910043510.XA
Authority: CN
Inventors: 檀国林; 张鹏; 郑超
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2021-06-08
Anticipated expiration: 2039-01-17
Also published as: CN111447169A

Abstract

本发明公开了一种在网关上的实时恶意网页识别方法，包括：采集用户访问网页的流量，从中提取轻量级的恶意网页分类特征；基于这些分类特征，构建实时恶意网页分类模型；将该模型部署到核心网络设备上，以实时预测网页是否为恶意网页。本发明还公开了一种在网关上的实时恶意网页识别系统，包括流量采集模块、分类模型训练模块和预测模块。本发明基于恶意网页在上述特征上存在明显的倾斜分布，采用点分十进制来处理目的IP地址和源IP地址，即以每个IP地址字节作为一项分类特征，实现了在大型网关上快速、实时地识别和过滤恶意网页。

Description

一种在网关上的实时恶意网页识别方法及系统

技术领域

本发明涉及计算机网络技术领域，特别涉及一种恶意网页的识别方法及系统。

背景技术

恶意网页是指那些在网页中嵌入恶意代码或者包含非法内容的网页，例如挂马网站、钓鱼网站、成人网站等。在互联网所有流量中，网页流量占到了70％，而其中1/3的网页有可能是不安全的。不法分子可能会利用这些恶意网页盗取用户信息，强行安装恶意软件，甚至是骗取钱财。恶意网页使互联网用户面临成为受害者的巨大风险，因此，识别并过滤恶意网页对于网络监管、网络质量服务管理QoS具有重大的意义，同时为广大互联网用户提供一个良好的上网环境。

传统的恶意网页识别是基于黑名单的方法。通过用户举报或者人工判断来收集恶意网页的URL(Uniform Resource Locator，统一资源定位符)的一个列表。URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址；互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。当有一个新的网页来了，则判断该网页的URL是否在黑名单中，如果存在则采取相应的防护措施，否则不采取任何措施。这种方法实现简单，而且效率很高。但是，随着时间的推移，会有越来越多的新的不在黑名单中的恶意网页出现，这种方法不能够识别新出现的恶意网页，因为它不能够穷尽所有的恶意网页。而且，恶意网页的黑名单更新比较慢，一些恶意网页通过修改它们的URL的形式来躲避黑名单；与此同时，这些旧的恶意网页URL有可能会指向非恶意网页，这就使得黑名单方法有很高的误报率。

由于黑名单方法存在这些缺点，研究者们提出基于机器学习的方法来识别恶意网页。机器学习方法中恶意网页的识别被看作是一个二分类预测，采集能够代表恶意网页的特征数据作为训练集，根据这些训练集训练出一个机器学习模型——分类器。当有新的代表网页的特征数据到来时，分类器预测为有害的或者无害的。

以往的基于机器学习的恶意网页识别工作，主要是以网页的URL和内容来构造特征，URL特征包括URL长度、域名的长度、以及URL的词集模型等等，这种构造特征的方法比较直接、单一。其中，域名是指由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称，用于在数据传输时标识计算机的电子方位(有时也指地理位置，地理上的域名，指代有行政自主权的一个地方区域)。基于内容的构造的特征需要先访问网页的URL获取网页内容，从而获得网页中恶意代码动态执行特点，这种方法构造特征比较丰富，但是需要去访问每一个网页，存在时间延迟，而且可能存在安全问题。因此这些方法不适合在网关上进行恶意网页过滤。在目前的恶意网页识别中，机器学习算法传统上通常采用基于URL的词袋模型作为特征向量，或者采用基于网页内容的信息作为特征。词袋模型，最早出现在自然语言处理和信息检索领域，该模型忽略掉文本的语法和语序等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的。词袋模型使用一组无序的单词来表达一段文字或一个文档。基于URL词袋模型的特征空间通常非常大，因此训练时间和预测时间都很大，不适合实时的恶意URL检测。基于网页内容的特征在采集的时候存在极大的安全风险，因为需要事先将整个网页内容下载下来，这样恶意代码可能已经执行了。

发明内容

针对上述现有技术问题，本发明提供了一种在网关上识别恶意网页，而不是传统的在客户端上识别恶意网页的方法。

本发明的在网关上的实时恶意网页识别方法，包括以下步骤：

1)采集用户访问网页的流量，从中提取轻量级的恶意网页分类特征，其中所述轻量级的恶意网页分类特征包括基于服务器的分类特征、基于用户的分类特征、基于URL的分类特征以及基于Referer的分类特征；

2)基于上述轻量级的恶意网页分类特征，构建实时恶意网页分类模型；

3)将上述模型部署到核心网络设备上，以实时预测网页是否为恶意网页，过滤掉非恶意网页，拦截恶意网页。

进一步地，步骤1)中所述基于服务器的分类特征包括目的IP第一个字节、目的IP第二个字节、目的IP第三个字节、目的IP第四个字节和服务器端口；所述基于用户的分类特征包括源IP第一个字节、源IP第二个字节、源IP第三个字节、源IP第四个字节和用户访问时间；所述基于URL的分类特征包括URL长度、域名长度、域名是否为IP、URL中路径的长度、URL中路径的深度、URL中参数的长度和URL中参数的个数；所述基于Referer的分类特征包括Referer长度、域名长度、域名是否为IP、Referer中路径的长度、Referer中路径的深度、Referer中参数的长度和Referer中参数的个数。

进一步地，所述步骤1)中采用点分十进制来处理目的IP地址和源IP地址。

进一步地，采集设定时间段内分类模型识别恶意网页的准确率，准确率A＝正确分类数/分类的总数，此处可以通过抽样的方法来预估模型总体的准确率，采用非参数秩和检验来检测准确率是否发生概念漂移，若发生概念漂移则重新训练实时恶意网页分类模型，并更新模型，更新模型时采用上一次检测概念漂移到本次概念漂移之间采集的数据训练模型。

进一步地，所述核心网络设备包括路由器和前端机。

本发明的另一方面还提供了一种在网关上的实时恶意网页识别系统，包括：

1)流量采集模块：采集网络流量，从每一条流量数据的数据包的请求头部字段中筛选出轻量级的恶意网页分类特征，根据现有的恶意网页黑名单数据库，对每一行特征向量进行标记，形成训练集；

2)分类模型训练模块：部署于核心网络设备上，从上述训练集中训练分类器模型；

3)预测模块：根据上述模型实时预测网页是否为恶意网页，过滤掉非恶意网页，拦截恶意网页。

进一步地，所述系统还包括概念漂移检测模块：该模块采集设定时间段的准确率，然后用非参数秩和检验来检测准确率是否发生概念漂移，若发生概念漂移则重新构建模型；所述时间段根据所述系统的性能及实际需求进行设定。

进一步地，所述恶意网页黑名单数据库包括互联网上用户举报的恶意URL数据库、公开的恶意网页黑名单数据库以及自研的恶意网页检测系统发现的恶意URL数据库。

本发明方法具有以下优势：

1)所述作为机器学习识别恶意网页的特征能够很高效的被获取，而不需要太多的处理，时延小，因此能够应用在大型网关上快速、实时的识别和过滤恶意网页；

2)恶意网页在这些特征上存在明显的倾斜分布，这也为用机器学习方法识别恶意网页提供了必要的条件；

3)与在客户端上识别恶意网页相比，极大地降低了安全风险，可以避免用户信息被盗，避免用户数据、财产丢失。

附图说明

图1为恶意网页过滤系统架构图；

图2为不同分类算法过滤后的密度值；

图3为不同过滤率下的召回率；

图4为访问恶意网页次数在不同地域上的倾斜分布。

具体实施方式

本发明所述实时恶意网页过滤系统架构图如图1所示，包含四个模块：

1、流量采集模块，用以采集网络流量，解析后生成训练集。

首先，从骨干网络采集网络流量数据，每一条流量数据包含数据包的请求头部字段，如源IP、目的IP等，然后从中筛选出上述轻量级的恶意网页分类特征，所述轻量级的恶意网页分类特征包括基于服务器的分类特征、基于用户的分类特征、基于URL的分类特征以及基于Referer的分类特征，其中，所述基于服务器的分类特征包括目的IP第一个字节、目的IP第二个字节、目的IP第三个字节、目的IP第四个字节和服务器端口；所述基于用户的分类特征包括源IP第一个字节、源IP第二个字节、源IP第三个字节、源IP第四个字节和用户访问时间；所述基于URL的分类特征包括URL长度、域名长度、域名是否为IP、URL中路径的长度、URL中路径的深度、URL中参数的长度和URL中参数的个数；所述基于Referer的分类特征包括Referer长度、域名长度、域名是否为IP、Referer中路径的长度、Referer中路径的深度、Referer中参数的长度和Referer中参数的个数。然后形成相应流量数据的特征向量。

根据现有的恶意网页库，对每一行特征向量进行标记，将恶意特征向量标记为1，非恶意特征向量标记为-1，形成训练集。

2、分类模型训练模块，用以从上述训练集中训练分类器模型。

3、预测模块，用以将模型分发到路由器等核心网络设备上，以实时预测网页是否为恶意网页，过滤掉非恶意网页，拦截恶意网页。其中，通过对多种分类算法效果的评估，所述2)分类模型训练模块中采用AdaBoost(ADB)算法。

4、概念漂移检测模块，根据后端恶意网页检测系统评估过滤的准确率(准确率A＝正确分类数/分类的总数)，采集每隔一段时间的准确率，然后用非参数的秩和检验来检测准确率是否发生概念漂移，若发生概念漂移则重新训练模型。

下面将依据本发明上述发明原理，详细介绍一个实施例来对本发明所述方法的主要实现原理进行详细的阐述和说明。

本发明采用点分十进制来处理目的IP地址和源IP地址。以每个IP地址字节作为一项分类特征，而不是映射到城市或者AS自治域号。具体地，基于IP地址本身就是按照不同地域进行按块划分的，通常同一个地理位置范围内的IP地址具有相同的IP地址段，因此恶意网页的IP地址在地理位置上的倾斜分布也会反映在IP地址段上。倾斜分布是指访问恶意网页的次数在地域上是不均匀的，详见图4。该创新点既能保留IP地址的地域信息，同时省去了IP映射为地域的过程，提高处理性能，即实现轻量级、实时检测恶意网页。

1、网络流量数据的采集与训练集的生成

分别在科技网、教育网、电信二代网、移动、联通、电信骨干网的6个局点上采集HTTP流量数据，并抽取各协议字段中的值，参照表1，从中提取24个轻量级的恶意网页分类特征，利用公开的Phish tank、VirusTotal数据库及自研的黑名单数据库对其进行标记。

表1 24个轻量级的恶意网页分类特征

对上述采集的数据集，随机选取其中70％数据作为分类器模型的训练集，剩下的30％数据作为测试集，训练测试数据信息如表2所示。

表2本实施例中测试集信息

2、分类器模型中分类算法的确定

在类别不均衡分类应用中，一般的指标不适合用于评价分类器的效果。例如，在二分类问题中，多数类占了总数的99％，如果分类器将所有样例都分为多数类，这个分类器的准确率依然能够达到99％，然而少数类却没有别识别出来。在这种情况下，通常选用密度值来衡量恶意网页的识别效果。密度值是指过滤后恶意网页的比率与过滤前恶意网页比率的比值，密度值越高意味着过滤效果越好。

通过实验来验证所述系统检测并过滤恶意网页的效果。首先，对不同分类算法的过滤效果进行评估，这些分类算法包括：Adaboost分类算法(ADB)、决策树分类算法(DT)、梯度提升树分类算法(GBDT)、K-邻近分类算法(KNN)、逻辑回归分类算法(LR)、朴素贝叶斯分类算法(NB)、感知机分类算法(PC)、随机森林分类算法(RF)、支持向量机分类算法(SVM)。图2为上述分类算法密度值的柱状图。从图2可以看出，不同的分类算法对恶意网页的过滤效果存在差异，提升密度值在1-251倍不等，其中，ADB算法的过滤效果最好，能够使得过滤后的恶意密度值提升到251倍。因此，采用该算法时，所述系统拥有很好的过滤效果。

进一步测试ADB算法在6个数据集上不同过滤率下的召回率。图3和表3是具体的测试结果。结果表明，当过滤率50％时，平均召回率可以达到95％；当召回率90％时，过滤率平均为29％。因此，采用ADB算法可在保证恶意网页识别的高召回率的同时，具有一定的过滤效果。

表3 ADB算法在6个数据集上不同过滤率下的召回率

3、恶意网页过滤速度的评估

进一步对所述系统的过滤速度进行评估。本实施例中所述系统采集全部特征的平均速度为0.057s/URL，分类速度为0.018s/URL，即平均处理一个网页时间为0.075秒。通过与现有技术进行对比，对比结果参见表4，结果表明，本实施例所述系统恶意网页的过滤速度明显快于现有技术。

表4与现有技术过滤速度对比

上述C.Seifert et al.请参见D.Canali,M.Cova,G.Vigna,and C.Kruegel,―Prophiler:a fast filter for the large-scale detection of malicious webpages,”in Proceedings of the 20^th international conference on World wideweb.ACM,2011,pp.197–206；J.Ma et al.请参见C.Seifert,I.Welch,andP.Komisarczuk,―Identification of malicious web pages with staticheuristics,”in Telecommunication Networks and Applications Conference,2008.ATNAC 2008.Australasian.IEEE,2008,pp.91–96；D.Canali et al.请参见J.Ma,L.K.Saul,S.Savage,and G.M.Voelker,―Beyond blacklists:learning to detectmalicious web sites from suspicious urls,”in Proceedings of the 15th ACMSIGKDD international conference on Knowledge discovery and data mining.ACM,2009,pp.1245–1254。

Claims

1.一种在网关上的实时恶意网页识别方法，包括：

1)采集用户访问网页的流量，从中提取轻量级的恶意网页分类特征，其中所述轻量级的恶意网页分类特征包括基于服务器的分类特征、基于用户的分类特征、基于URL的分类特征以及基于Referer的分类特征，所述基于服务器的分类特征包括目的IP第一个字节、目的IP第二个字节、目的IP第三个字节、目的IP第四个字节和服务器端口；所述基于用户的分类特征包括源IP第一个字节、源IP第二个字节、源IP第三个字节、源IP第四个字节和用户访问时间；

2.如权利要求1所述的在网关上的实时恶意网页识别方法，其特征在于，采用点分十进制来处理目的IP地址和源IP地址，以每个IP地址字节作为一项分类特征。

3.如权利要求1所述的在网关上的实时恶意网页识别方法，其特征在于，所述基于URL的分类特征包括URL长度、域名长度、域名是否为IP、URL中路径的长度、URL中路径的深度、URL中参数的长度和URL中参数的个数；所述基于Referer的分类特征包括Referer长度、域名长度、域名是否为IP、Referer中路径的长度、Referer中路径的深度、Referer中参数的长度和Referer中参数的个数。

4.如权利要求1所述的在网关上的实时恶意网页识别方法，其特征在于，所述核心网络设备包括路由器和前端机。

5.如权利要求1所述的在网关上的实时恶意网页识别方法，其特征在于，所述方法还包括采用非参数秩和检验检验是否发生概念漂移。

6.一种在网关上的实时恶意网页识别系统，包括：

1)流量采集模块：采集网络流量，从每一条流量数据的数据包的请求头部字段中筛选出轻量级的恶意网页分类特征，根据现有的恶意网页黑名单数据库，对每一行特征向量进行标记，形成训练集，其中所述轻量级的恶意网页分类特征包括基于服务器的分类特征、基于用户的分类特征、基于URL的分类特征以及基于Referer的分类特征，所述基于服务器的分类特征包括目的IP第一个字节、目的IP第二个字节、目的IP第三个字节、目的IP第四个字节和服务器端口；所述基于用户的分类特征包括源IP第一个字节、源IP第二个字节、源IP第三个字节、源IP第四个字节和用户访问时间；

7.如权利要求6所述的在网关上的实时恶意网页识别系统，其特征在于，所述系统还包括概念漂移检测模块。

8.如权利要求7所述的在网关上的实时恶意网页识别系统，其特征在于，采用非参数秩和检验检验是否发生概念漂移。

9.如权利要求6所述的在网关上的实时恶意网页识别系统，其特征在于，所述恶意网页黑名单数据库包括互联网上用户举报的恶意URL数据库、公开的恶意网页黑名单数据库以及自研的恶意网页检测系统发现的恶意URL数据库。