CN111526141A

CN111526141A - 基于Word2vec和TF-IDF的Web异常检测方法与系统

Info

Publication number: CN111526141A
Application number: CN202010302697.3A
Authority: CN
Inventors: 张�浩; 魏志强; 连鸿飞; 李杰铃
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-11

Abstract

本发明涉及基于Word2vec和TF‑IDF的Web异常检测方法与系统，首先从交换机设备上采集镜像流量PCAP包，解析出HTTP请求流量，其次对HTTP请求流量数据进行预处理，然后将处理后的请求流量用向量表示，采用LightGBM算法训练流量异常检测模型，采用训练好的流量异常检测模型对实时流量进行异常检测。本发明解决了HTTP流量异常检测过程中模型训练数据长短不一问题，解决大HTTP流量文本特征有效向量化问题，并且提高了检测率和检测精度。

Description

基于Word2vec和TF-IDF的Web异常检测方法与系统

技术领域

本发明涉及网络安全技术领域，特别是一种基于Word2vec和TF-IDF的Web异常检测方法与系统。

背景技术

随着网络技术的迅速发展，Web服务在网络服务中得到了广泛的应用，因此也成为了不法分子的主要攻击对象。根据OWASP(Open WebApplications Security Project)显示，注入攻击(例如XSS或SQL)在世界范围的Web攻击中高居榜首。通常提取HTTP流量中有效的网络特征来检测注入攻击，但是往往HTTP流量提取出来的文本特征长短不一，需要有效转化为向量表示。

而当前的处理方法存在以下几点不足：1)词向量提取出现冗余且向量维度过于臃肿导致效率不高；2)忽略完整的HTTP请求上下文(请求方式、主机地址、路径和参数等信息)的关联性降低检测精度；3)提取的文本特征并不能很有效的区分流量样本之间的差异。

发明内容

有鉴于此，本发明的目的是提出基于Word2vec和TF-IDF的Web异常检测方法与系统，解决了HTTP流量异常检测过程中模型训练数据长短不一问题，解决大HTTP流量文本特征有效向量化问题，并且提高了检测率和检测精度。

本发明采用以下方案实现：一种基于Word2vec和TF-IDF的Web异常检测方法，首先从交换机设备上采集镜像流量PCAP包，解析出HTTP请求流量，其次对HTTP请求流量数据进行预处理，然后将处理后的请求流量用向量表示，采用LightGBM算法训练流量异常检测模型，采用训练好的流量异常检测模型对实时流量进行异常检测。

进一步地，所述对HTTP流量数据进行预处理具体为：提取HTTP请求流量中的包括方法、主机、请求路径、请求参数在内的字段，并形成标准的数据格式。

进一步地，所述将处理后的请求流量用向量表示具体为：

步骤S1：使用Word2vec算法训练提取HTTP请求流量中的每个单词，并将单词转化为固定维度大小的向量；

步骤S2：将每一条请求视为一个段落，计算每个单词在该请求中的重要性，把每个单词基于重要性加权后取平均，生成该HTTP请求流量的向量。

进一步地，步骤S1中，所述的固定维度大小为50维。

进一步地，步骤S2具体包括以下步骤：

步骤S21：对每个词条，首先计算该词条在其HTTP请求中的TF值，并计算该词条在整个文档中的IDF值，最终计算该词条的TF-IDF值，并将其作为该词条的权值；

步骤S22：将得到的词条的TF-IDF值，加权到该词条的向量中，通过将HTTP请求中的每个词条的向量加权相加后取平均，生成该HTTP请求对应的向量。

本发明提供了一种Word2vec和TF-IDF的Web异常检测系统，包括处理器、存储器以及存储于存储器中并能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的方法步骤。

本发明还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的方法步骤。

与现有技术相比，本发明有以下有益效果：本发明解决了大HTTP流量文本特征有效向量化问题，并且提高了检测率和检测精度，实现了对几种经典Web攻击手段的检测。算法扩展性能好，效率高，可适应网络流量剧增所带来的检测压力，具有很强的实用性和广阔的应用前景。

附图说明

图1为本发明实施例的方法流程示意图。

图2为本发明实施例的最终数据格式。

图3为本发明实施例的采用Word2vec算法训练词向量示意图。

图4为本发明实施例的HTTP流量加权向量生成算法示意图。

图5为本发明实施例的段落流量生成示意图。

图6为本发明实施例的分类混淆矩阵。

图7为本发明实施例的验证结果性能分析。

图8为本发明实施例的不同处理方法的结果。

图9为本发明实施例的对比试验结果一(10％测试数据)。

图10为本发明实施例的对比试验结果二(30％测试数据)。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于Word2vec和TF-IDF的Web异常检测方法，首先从交换机设备上采集镜像流量PCAP包，解析出HTTP请求流量，其次对HTTP请求流量数据进行预处理，然后将处理后的请求流量用向量表示，采用LightGBM算法训练流量异常检测模型，采用训练好的流量异常检测模型对实时流量进行异常检测。

在本实施例中，所述对HTTP流量数据进行预处理具体为：提取HTTP请求流量中的包括方法(Method：GET，POST，PUT等)、主机(Host)、请求路径(Path)、请求参数(Parameter)在内的字段，并形成标准的数据格式。

较佳的，在本实施例中，所述形成标准的数据格式具体包括以下几个步骤：

1)清洗数据：去除冗余数据，缺失值处理；

2)特殊字符处理：独立<、>、*、％、--、&、@等特殊字符为一个单词表示；

3)数据格式化：把处理后的数据以每个单词用英文空格符隔开，方法、请求路径和请求参数之间用英文字符‘,’隔开，组成完整的请求流量，如图2所示。

在本实施例中，所述将处理后的请求流量用向量表示具体为：

在本实施例中，步骤S1中，所述的固定维度大小为50维，具体采用Word2vec算法，生成向量大小为N＝50的词条向量，如图3所示。

在本实施例中，步骤S2具体包括以下步骤：

步骤S21：对每个词条，首先计算该词条在其HTTP请求中的TF值，并计算该词条在整个文档中的IDF值，最终计算该词条的TF-IDF值，并将其作为该词条的权值，TF-IDF可视为每个单词对请求段落的贡献度；其中，TF-IDF＝TF*IDF；具体的HTTP流量加权向量生成算法如图4所示。

步骤S22：将得到的词条的TF-IDF值，加权到该词条的向量中，通过将HTTP请求中的每个词条的向量加权相加后取平均，生成该HTTP请求对应的向量，如图5所示。

较佳的，本实施例中利用min-max算法，归一化HTTP向量，并采用LightGBM算法，训练流量异常检测模型。在实时监测时，将实时数据依次经过解析出HTTP请求流量、对HTTP请求流量数据进行预处理、将处理后的请求流量用向量表示等上述步骤，然后送入训练好的流量异常检测模型，得到检测结果。本实施例取单位时间戳来定义实时性(如30秒，1分钟，5分钟的时间作为实时性考量)由于计算复杂度低，计算速度比较快，所以可以在规定的时间段内对数据进行分析检测。

特别的，这里的流量异常检测模型包括但不限于二分类模型以及攻击多分类模型。

本实施例提供了一种Word2vec和TF-IDF的Web异常检测系统，包括处理器、存储器以及存储于存储器中并能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的方法步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的方法步骤。

较佳的，本实施例进行仿真实验过程中，训练集由70％，80％，90％等不同比例的样本组成，其余30％，20％，10％用于构建测试集，图6是二分类检测的混淆矩阵，图7是二分类的准确率、召回率和F1-score等，图8是不用处理方法的对比结果，图9是与[参考文献：(1)Ito M,Iyatomi H.Web application firewall using character-levelconvolutional neural network[C]//2018IEEE 14th International Colloquium onSignal Processing&Its Applications(CSPA).Batu Feringghi:IEEE,2018:103-106.(2)

Kozik,

Renk.AProposal ofAlgorithm for WebApplications Cyber Attack Detection[C]//Ifip International Conference onComputer Information Systems&Industrial Management.Berlin,Heidelberg:Springer,2014,8838:680-687.(3)Zhang M,Xu B,Bai S.A Deep Learning Method toDetect Web Attacks Using a Specially Designed CNN[C]//InternationalConference on Neural Information Processing.Guangzhou,China:Springer,2017:828-836.(4)Choras M,Kozik R.Machine learning techniques applied to detectcyber attacks on Web applications[J].Logic Journal ofIGPL,2015,23(1):45-56.]等方法同取10％的测试样例的对比结果，图10是与[参考文献：Smitha,R and Hareesha,KS and Poornima.P K(2018)A Machine Learning Approach for Web IntrusionDetection:MAMLS Perspective[J].International Conference on Soft Computing andSignal Processing,2018,3:89-94.]等方法同取30％的测试样例的对比结果。

通过图8中的对比实验可以看出，相比One-hot和N-gram，本实施例采用的Word2vec算法在各个指标上都具有明显的优势。通过图9可以看出，同样采用10％的测试集，本实施例提出的方法相比于CLCNN方法，Accurary提升了0.60％。相比于J48、SDCNN、Graph-base等方法，在Recall指标上提升了超过3.3％。在FPR方面，比最低的SDCNN方法下降近1.0％。如图10所示，跟LR方法同时采用30％的测试数据，各个指标都能够全线超越，而且提升的效果十分明显。从以上数据可以得出结论，本发明是一种更加有效的基于HTTP流量的Web异常检测系统。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于Word2vec和TF-IDF的Web异常检测方法，其特征在于，首先从交换机设备上采集镜像流量PCAP包，解析出HTTP请求流量，其次对HTTP请求流量数据进行预处理，然后将处理后的请求流量用向量表示，采用LightGBM算法训练流量异常检测模型，采用训练好的流量异常检测模型对实时流量进行异常检测。

2.根据权利要求1所述的基于Word2vec和TF-IDF的Web异常检测方法，其特征在于，所述对HTTP流量数据进行预处理具体为：提取HTTP请求流量中的包括方法、主机、请求路径、请求参数在内的字段，并形成标准的数据格式。

3.根据权利要求1所述的基于Word2vec和TF-IDF的Web异常检测方法，其特征在于，所述将处理后的请求流量用向量表示具体为：

4.根据权利要求3所述的基于Word2vec和TF-IDF的Web异常检测方法，其特征在于，步骤S1中，所述的固定维度大小为50维。

5.根据权利要求3所述的基于Word2vec和TF-IDF的Web异常检测方法，其特征在于，步骤S2具体包括以下步骤：

6.一种Word2vec和TF-IDF的Web异常检测系统，其特征在于，包括处理器、存储器以及存储于存储器中并能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如权利要求1-5任一项所述的方法步骤。

7.一种计算机可读存储介质，其特征在于，其上存储有能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如权利要求1-5任一项所述的方法步骤。