CN111314329B

CN111314329B - 流量入侵检测系统和方法

Info

Publication number: CN111314329B
Application number: CN202010079212.9A
Authority: CN
Inventors: 徐金铭; 谭天
Original assignee: Hangzhou DPTech Technologies Co Ltd
Current assignee: Hangzhou DPTech Technologies Co Ltd
Priority date: 2020-02-03
Filing date: 2020-02-03
Publication date: 2022-01-28
Anticipated expiration: 2040-02-03
Also published as: CN111314329A

Abstract

本公开提供入侵检测系统和方法。该入侵检测系统包括：数据存储器；待检测流量数据预处理部分，对待检测流量数据进行特征提取和转换，并将处理结果作为训练数据集保存在所述数据存储器中；以及异常分类预测部分，用于利用有监督的方法或者无监督的方法，借助于由lightGBM模型和多层感知机/神经网络模型组合而成的异常分类预测模型，对待检测流量数据预处理部分所得到并保存的训练数据集进行异常分类检测并判断是否存在异常流量类型。该异常检测系统和方法采用基于短周期内快速增量更新和长周期内批量更新结合方案，既能够短时间内快速更新迭代模型，同时又能够利用lightGBM的高准确率，从而提升了检测性能。

Description

流量入侵检测系统和方法

技术领域

本公开涉及流量入侵检测系统和方法，尤其是涉及基于长短周期更新结合的入侵检测系统和方法。

背景技术

随着信息化时代的到来，目前网络安全已经成为一个非常重要的领域，其中网络入侵检测是一个非常重要的防范网络安全隐患的手段。识别异常流量是进行入侵检测的第一步，同时异常流量类型进行分类有助于后续对于异常流量的处理。

目前用于异常流量检测的相关技术基本上有两种，一种是基于攻击特征的匹配的技术，其通过已知的网络攻击的特征，对待检测流量进行匹配，来识别异常流量。这种技术由于基于特征匹配的方法只能检测已知的入侵攻击类型，所以不能检测未知的攻击类型。

另一种异常流量检测的相关技术是基于增量更新的机器学习的技术，通过增量更新快速适应复杂的网络环境，得到用于检测的模型。这种技术基于增量更新的机器学习的技术可以检测未知类型的攻击类型，但是往往误报率非常高。支持快速增量更新的模型可以快速对网络环境作出反应，但是预测性能一般不如直接用大量数据训练的模型。同时很多模型如lightGBM虽然预测性能比较好，但是并不能进行增量更新，从而也就没办法快速适应网络环境，随着时间的推移，预测性能会有所下降。

因此，需要快速自动预测性地检测网络入侵的入侵检测系统和方法。

发明内容

本公开就是为了解决上述技术问题而提出的技术方案，它采用短周期内快速增量更新和长周期内批量更新相结合的方式来进行入侵检测，为满足快速更新的模型的需求，可以使用支持增量更新的模型如多层感知机/神经网络进行快速增量更新，实践中如果直接用大量的数据进行训练，多层感知机/神经网络模型的检测效果一般是不如像lightGBM这样的模型的，但是lightGBM只能在拥有大量数据的情况下进行批量更新。这里所提出的系统架构主要是要结合这两者的优势，在短的周期内增量更新神经网络，在长的周期内批量更新lightGBM，并利用动态的权重配比的来进行预测。

根据本公开的一个方面，提供一种入侵检测系统，该入侵检测系统包括：数据存储器；待检测流量数据预处理部分，对待检测流量数据进行特征提取和转换，并将处理结果作为训练数据集保存在所述数据存储器中；以及异常分类预测部分，用于利用有监督的方法或者无监督的方法，借助于由lightGBM模型和多层感知机/神经网络模型组合而成的异常分类预测模型，对待检测流量数据预处理部分所得到并保存的训练数据集进行异常分类检测并判断是否存在异常流量类型。

根据本公开的一个实施例，所述待检测流量数据预处理部分利用wireshark工具来抓取网络流量的pcap格式数据包，利用切包工具将其切分为许多会话来收集待检测流量数据。

根据本公开的一个实施例，所述特征提取包括收集所述会话的头部信息和时间、流量和报文数的统计特征，从而最终针对每个会话生成一个特征向量用于检测。

根据本公开的一个实施例，所述转换包括对已经得到的训练数据进行标准化处理，从而使得特征的取值限制在一定范围内。

根据本公开的一个实施例，所述异常分类预测部分还包括：短周期更新模块，用于每经过一个预定短周期UPS，就用通过反馈机制在这个周期内得到的数据对多层感知机/神经网络模型进行快速更新，并将这部分数据在所述数据存储器中进行存储；以及长周期更新模块，用于每经过一个预定长周期UPL，就用当前存储的全部数据对lightGBM模型进行更新，更新完之后删除一部分在数据存储器中存储时间最久的数据。

根据本公开的一个实施例，所述多层感知机/神经网络模型与所述lightGBM模型的结合方式如下：设置指示器随机变量

这里随机变量λ以概率p取值为1，以概率1-p取值为0，其概率分布随着系统实际的使用而不断更新，其中在一个长周期UPL内，每经过一个短周期UPS，所述概率的变化方式如下：计算在每一轮的长周期内已经训练的样本数(N_trained)除以初始训练的数据集总数(N_init)，再乘上一个可调参数η，其中η参数用于人工设定更新的幅度，而在该长周期结束时，重置概率分布中的参数来进入下一个长周期：

以使得实际的输出按照下面公式进行

y＝λy_mlp+(1-λ)y_lgb，

其中y_mlp是多层感知机/神经网络模型的预测结果，而y_lgb是lightGBM模型的预测结果。

根据本公开的一个实施例，每经过一个长周期UPL之后所述lightGBM模型得到更新，从而重置随机变量λ，将其概率分布中的参数(η，N_init)重新设置，为下一阶段的更新做准备。

根据本公开的一个实施例，所述多层感知机/神经网络模型与所述lightGBM模型的结合方式也可以如下：直接对输出结果进行加权平均，设置动态加权系数β为

则输出的结果为：

y＝βy_mlp+(1-β)y_lgb。

根据本公开的另一方面，提供一种入侵检测方法，其包括以下步骤：对待检测流量数据进行特征提取和转换，并将处理结果保存为训练数据集；以及使用有监督的方法或者无监督的方法，借助于由lightGBM模型和多层感知机/神经网络模型组合而成的异常分类预测模型，对所获得的训练数据集进行异常分类检测并判断是否存在异常流量类型。

根据本公开的一个实施例，通过利用wireshark工具来抓取网络流量的pcap格式数据包，并利用切包工具将其切分为许多会话来收集所述待检测流量数据。

根据本公开的一个实施例，所述对所获得的训练数据集进行异常分类检测并判断是否存在异常流量类型的步骤包括：每经过一个预定短周期UPS，就用通过反馈机制在这个周期内得到的数据对多层感知机/神经网络模型进行快速更新，并保存这部分数据；以及每经过一个预定长周期UPL，就用当前存储的全部数据对lightGBM模型进行更新，更新完之后删除一部分存储时间最久的数据。

以使得实际的输出按照下面公式进行

y＝λy_mlp+(1-λ)y_lgb，

则输出的结果为：

y＝βy_mlp+(1-β)y_lgb。

根据本公开的上述异常检测系统和方法采用基于短周期内快速增量更新和长周期内批量更新结合方案，既能够短时间内快速更新迭代模型，同时又能够利用lightGBM的高准确率，从而提升了检测性能。

附图说明

通过结合附图对于本公开的示例性实施例进行描述，可以更好地理解本公开，在附图中：

图1是图示根据本公开的入侵检测系统的框图；

图2是根据本公开的图1所示的异常分类预测部分的一个示例的框图；以及

图3示出了根据本公开的入侵检测方法的流程图。

具体实施方式

以下将描述本公开的具体实施方式，需要指出的是，在这些实施方式的具体描述过程中，为了进行简明扼要的描述，本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是，在任意一种实施方式的实际实施过程中，正如在任意一个工程项目或者设计项目的过程中，为了实现开发者的具体目标，为了满足系统相关的或者商业相关的限制，常常会做出各种各样的具体决策，而这也会从一种实施方式到另一种实施方式之间发生改变。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本公开公开的内容相关的本领域的普通技术人员而言，在本公开揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本公开的内容不充分。

除非另作定义，权利要求书和说明书中使用的技术术语或者科学术语应当为本公开所属技术领域内具有一般技能的人士所理解的通常意义。本公开专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件，并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，也不限于是直接的还是间接的连接。

本公开采用短周期内快速增量更新和长周期内批量更新相结合的方式来进行入侵检测，为满足快速更新的模型的需求，可以使用支持增量更新的模型如多层感知机/神经网络进行快速增量更新，实践中如果直接用大量的数据进行训练，多层感知机/神经网络模型的检测效果一般是不如像lightGBM这样的模型的，但是lightGBM只能在拥有大量数据的情况下进行批量更新。这里所提出的系统架构主要是要结合这两者的优势，在短的周期内增量更新神经网络，在长的周期内批量更新lightGBM，并利用动态的权重配比的来进行预测。

具体来说，图1是图示根据本公开的入侵检测系统100的框图。该入侵检测系统100包括待检测流量数据预处理部分110、异常分类预测部分120以及数据存储器130。

待检测流量数据预处理部分110对待检测流量数据进行特征提取和转换，并将处理结果作为训练数据集保存在数据存储器130中。具体来说，待检测流量数据预处理部分110可以利用wireshark工具来抓取网络流量的pcap格式数据包，利用切包工具将其切分为许多会话。以此为基础收集待检测流量数据。特征提取主要是收集会话的头部信息和时间、流量和报文数的统计特征。从上一步生成的会话中提取特征，最终针对每个会话生成一个特征向量用于检测。

因为训练模型里面包含神经网络，而神经网络对不同特征数据分布的范围不一致较为敏感，所以对于已经得到的训练数据需要进行标准化处理，从而使得特征的取值限制在一定范围内，不会出现某个特征比其他的特征更重要的情况，这会有助于神经网络的训练。

图2是根据本公开的图1所示的异常分类预测部分120的一个示例的框图。为了实现识别异常和攻击流量分类的目标，对待检测训练数据集分为两个阶段进行处理。首先，该异常分类预测部分120包括异常分类预测模型210，用于对待检测流量数据预处理部分110所得到并保存的训练数据集进行异常分类检测并判断是否存在异常流量类型，这可以使用有监督的方法或者无监督的方法进行。异常分类预测模型210的一个实例是lightGBM模型与多层感知机/神经网络模型(MLP)的组合，其组合方式将在下文中进一步详细说明。然后，该异常分类预测部分120对于分类为异常流量的部分送入下一个阶段进行攻击流量的分类。

对攻击流量的分类难度较大，传统的方法中往往只是用定期对模型进行重新训练，这样也就不能适应网络环境不断变化的需求，而如果只使用增量更新进行训练，性能一般不会比直接训练好。

为此，本公开提出了一种短周期内快速增量更新和长周期内批量更新结合的方式。相应地，该异常分类预测部分120还包括短周期更新模块220和长周期更新模块230。该异常分类预测部分120首先设定两个更新周期UPS，UPL，其中UPS为短更新周期，而UPL为长更新周期。每经过一个短周期UPS，短周期更新模块220就用通过反馈机制在这个周期内得到的数据对多层感知机/神经网络模型进行快速更新，并将这部分数据在数据存储器130中进行存储。每经过一个长周期UPL，长周期更新模块230就用当前存储的全部数据对lightGBM模型进行更新，更新完之后删除一部分在数据存储器130中存储时间最久的数据。

因为lightGBM模型的更新周期比较长，在复杂多变的网络环境中其检测性能会因学到数据比较老而出现下滑，所以随着短周期更新的不断进行，可以逐渐调高多层感知机/神经网络模型的预测权重，相应的下调lightGBM模型的预测权重。而在长周期更新结束之后，重置两种模型的权重的配比，从而实现对长短周期学习的结合。

多层感知机/神经网络模型与lightGBM模型的具体结合方式可以使用如下方案：设置指示器随机变量

这里随机变量λ以概率p取值为1，以概率1-p取值为0，其概率分布随着系统实际的使用而不断更新。在一个长周期UPL内，每经过一个短周期UPS，概率的变化方式如下：计算在每一轮的长周期内已经训练的样本数(N_trained)除以初始训练的数据集总数(N_init)，再乘上一个可调参数η，其中η参数用于人工设定更新的幅度。长周期结束时，重置概率分布中的参数，进入下一个长周期。

实际的输出按照下面公式进行

y＝λy_mlp+(1-λ)y_lgb，

其中y_mlp是多层感知机/神经网络模型的预测结果，而y_lgb是lightGBM模型的预测结果。这样也就组合了两个模型的输出。

在一个长周期内，注意到初始时概率p较小，使用lightGBM模型进行预测的概率较大，而随着训练的不断进行概率p会越来越大，使用多层感知机/神经网络模型进行预测的概率也就越来越大。从而在前期能够利用lightGBM模型的高准确率，随着短周期更新的逐步进行，系统会更多的利用到最近更新的模型进行预测，这能够弥补lightGBM的由于训练数据比较老而预测准确率下降的问题。

每经过一个长周期UPL之后lightGBM模型得到更新，此时可以重置随机变量λ，将其概率分布中的参数(η，N_init)重新设置，为下一阶段的更新做准备。还有一种组合方案是直接对输出结果进行加权平均，设置动态的加权的系数β与上面的概率相类似

于是输出的结果为：

y＝βy_mlp+(1-β)y_lgb

这样的组合方式也能做到结合两个模型，在长周期的初开始训练完两个模型，lightGBM部分的权重要更大一些。随着批量更新训练的不断进行，多层感知机/神经网络模型的权重不断增大，并且在进入下一个周期的时候重置其中的参数。

图3示出了根据本公开的入侵检测方法的流程图。如图3所示，根据本公开的入侵检测方法在步骤S310中，对待检测流量数据进行特征提取和转换，并将处理结果保存为训练数据集。具体来说，在该步骤中，可以利用wireshark工具来抓取网络流量的pcap格式数据包，利用切包工具将其切分为许多会话，以此为基础收集待检测流量数据。特征提取主要是收集会话的头部信息和时间、流量和报文数的统计特征。从上一步生成的会话中提取特征，最终针对每个会话生成一个特征向量用于检测。

接下来，根据本公开的入侵检测方法在步骤S320中使用有监督的方法或者无监督的方法进行对步骤S310中所获得的训练数据集进行异常分类检测并判断是否存在异常流量类型，其中用于进行异常分类检测的异常分类预测模型的一个实例是lightGBM模型与多层感知机/神经网络模型的组合，其组合方式如上所述。

然后，在步骤S320中检测到存在异常流量类型的情况下，在步骤S330中，首先根据预先设定的两个更新周期UPS，UPL，其中UPS为短更新周期，而UPL为长更新周期，每经过一个短周期UPS，就用通过反馈机制在这个周期内得到的数据对多层感知机/神经网络模型进行快速更新，并将这部分数据保存为训练数据集；同时，在步骤S340中，每经过一个长周期UPL，就用当前存储的全部数据对lightGBM模型进行更新，更新完之后删除一部分存储时间最久的训练数据。然后，在步骤S350中，利用更新后的异常分类预测模型进一步分析存在异常的流量类型并最终做出是否存在异常的流量类型的结论。然后结束进程。

综上所述，本公开的异常检测系统和方法采用基于短周期内快速增量更新和长周期内批量更新结合方案，既能够短时间内快速更新迭代模型，同时又能够利用lightGBM的高准确率，从而提升了检测性能。

以上结合具体实施例描述了本公开的基本原理，但是需要指出的是，对本领域的普通技术人员而言，能够理解本公开的方法和系统的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本公开的说明的情况下运用他们的基本编程技能就能实现的。

因此，本公开的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本公开的目的也可以仅仅通过提供包含实现所述方法或者系统的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本公开，并且存储有这样的程序产品的存储介质也构成本公开。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本公开的系统和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种入侵检测系统，该入侵检测系统包括：

数据存储器；

待检测流量数据预处理部分，对待检测流量数据进行特征提取和转换，并将处理结果作为训练数据集保存在所述数据存储器中；以及

异常分类预测部分，用于利用有监督的方法或者无监督的方法，借助于由lightGBM模型和多层感知机/神经网络模型组合而成的异常分类预测模型，对待检测流量数据预处理部分所得到并保存的训练数据集进行异常分类检测并判断是否存在异常流量类型，其中

所述异常分类预测部分还包括：

短周期更新模块，用于每经过一个预定短周期UPS，就用通过反馈机制在这个周期内得到的数据对多层感知机/神经网络模型进行快速更新，并将这部分数据在所述数据存储器中进行存储；以及

长周期更新模块，用于每经过一个预定长周期UPL，就用当前存储的全部数据对lightGBM模型进行更新，更新完之后删除一部分在数据存储器中存储时间最久的数据。

2.根据权利要求1所述的入侵检测系统，其中待检测流量数据预处理部分利用wireshark工具来抓取网络流量的pcap格式数据包，利用切包工具将其切分为许多会话来收集待检测流量数据。

3.根据权利要求2所述的入侵检测系统，其中特征提取包括收集所述会话的头部信息和时间、流量和报文数的统计特征，从而最终针对每个会话生成一个特征向量用于检测。

4.根据权利要求3所述的入侵检测系统，其中所述转换包括对已经得到的训练数据进行标准化处理，从而使得特征的取值限制在一定范围内。

5.根据权利要求1所述的入侵检测系统，其中所述多层感知机/神经网络模型与所述lightGBM模型的结合方式如下：设置指示器随机变量

以使得实际的输出按照下面公式进行

y＝λy_mlp+(1-λ)y_lgb，

6.根据权利要求5所述的入侵检测系统，其中每经过一个长周期UPL之后所述lightGBM模型得到更新，从而重置随机变量λ，将其概率分布中的参数(η，N_init)重新设置，为下一阶段的更新做准备。

7.根据权利要求4所述的入侵检测系统，其中所述多层感知机/神经网络模型与所述lightGBM模型的结合方式如下：直接对输出结果进行加权平均，设置动态加权系数β为

则输出的结果为：

y＝βy_mlp+(1-β)y_lgb。

8.一种入侵检测方法，其包括以下步骤：

对待检测流量数据进行特征提取和转换，并将处理结果保存为训练数据集；以及

使用有监督的方法或者无监督的方法，借助于由lightGBM模型和多层感知机/神经网络模型组合而成的异常分类预测模型，对所获得的训练数据集进行异常分类检测并判断是否存在异常流量类型，

其中所述对所获得的训练数据集进行异常分类检测并判断是否存在异常流量类型的步骤包括：

每经过一个预定短周期UPS，就用通过反馈机制在这个周期内得到的数据对多层感知机/神经网络模型进行快速更新，并保存这部分数据；以及

每经过一个预定长周期UPL，就用当前存储的全部数据对lightGBM模型进行更新，更新完之后删除一部分存储时间最久的数据。

9.根据权利要求8所述的入侵检测方法，其中通过利用wireshark工具来抓取网络流量的pcap格式数据包，并利用切包工具将其切分为许多会话来收集所述待检测流量数据。

10.根据权利要求9所述的入侵检测方法，其中所述特征提取包括收集所述会话的头部信息和时间、流量和报文数的统计特征，从而最终针对每个会话生成一个特征向量用于检测。

11.根据权利要求10所述的入侵检测方法，其中所述转换包括对已经得到的训练数据进行标准化处理，从而使得特征的取值限制在一定范围内。

12.根据权利要求8所述的入侵检测方法，其中所述多层感知机/神经网络模型与所述lightGBM模型的结合方式如下：设置指示器随机变量

以使得实际的输出按照下面公式进行

y=λy_mlp+(1-λ)y_lgb，

13.根据权利要求12所述的入侵检测方法，其中每经过一个长周期UPL 之后所述lightGBM模型得到更新，从而重置随机变量λ，将其概率分布中的参数(η，N_init)重新设置，为下一阶段的更新做准备。

14.根据权利要求8所述的入侵检测方法，其中所述多层感知机/神经网络模型与所述lightGBM模型的结合方式如下：直接对输出结果进行加权平均，设置动态加权系数β为

则输出的结果为：

y＝βy_mlp+(1-β)y_lgb。