CN116155630B

CN116155630B - 恶意流量识别方法及相关设备

Info

Publication number: CN116155630B
Application number: CN202310432132.0A
Authority: CN
Inventors: 高源辰
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-07-04
Anticipated expiration: 2043-04-21
Also published as: CN116155630A

Abstract

本申请提供一种恶意流量识别方法及相关设备。所述方法包括：基于获取的训练用待识别数据集，选择得到基模型；利用引导聚集算法对所述基模型进行训练，得到第一训练模型；利用提升算法对所述基模型进行训练，得到第二训练模型；利用堆栈算法对所述基模型进行训练，得到第三训练模型；基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。本申请实施例基于三种集成算法构建恶意流量识别模型，结合了综合量化评估体系确定最终的识别模型，弥补了单个机器学习模型的学习偏差，有效提升了模型的识别性能。

Description

恶意流量识别方法及相关设备

技术领域

本申请涉及网络流量安全分析技术领域，尤其涉及一种恶意流量识别方法及相关设备。

背景技术

为了应对诸如拒绝服务、恶意代码等不同类型的网络攻击，加解密机制、终端防护、身份认证、防火墙、网络安全态势感知等多种网络安全技术应运而生。

现有恶意流量检测研究可划分为基于签名的方法和基于机器学习的方法。基于签名的方法通过对恶意流量特定行为的规则描述，通过规则匹配实现恶意流量的检测。但该类方法大多需要手动更新规则，难以适应不断变化的攻防场景。基于机器学习的方法通常使用特定的机器学习模型对流量进行训练，然后使用拟合后的模型对流量进行攻击检测，但尽管机器学习方法可有效检测恶意流量，单个模型学习到的行为模式通常存在较大的偏离，导致检测结果产生较多的误报或漏报。

发明内容

有鉴于此，本申请的目的在于提出一种恶意流量识别方法及相关设备。

基于上述目的，本申请提供了一种恶意流量识别方法，包括：

基于获取的训练用待识别数据集，选择得到基模型；

利用引导聚集算法对所述基模型进行训练，得到第一训练模型；

利用提升算法对所述基模型进行训练，得到第二训练模型；

利用堆栈算法对所述基模型进行训练，得到第三训练模型；

基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；

基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。

在一种可能的实现方式中，所述方法，还包括：

确定所述第一训练模型、第二训练模型和所述第三训练模型的权重；

基于所述权重，将所述第一训练模型、第二训练模型和所述第三训练模型合并作为第二恶意流量识别模型；

基于所述第二恶意流量识别模型对待识别的恶意流量进行识别，得到第二最终识别结果。

在一种可能的实现方式中，所述确定所述第一训练模型、第二训练模型和所述第三训练模型的权重，包括：

计算所述第一训练模型的受试者工作特征曲线下面积，得到第一面积；

计算所述第二训练模型的受试者工作特征曲线下面积，得到第二面积；

计算所述第三训练模型的受试者工作特征曲线下面积，得到第三面积；

基于所述第一面积、所述第二面积和所述第三面积确定得到所述第一训练模型、第二训练模型和第三训练模型的权重。

在一种可能的实现方式中，通过下述方法计算所述第一训练模型的受试者工作特征曲线下面积：

基于所述第一训练模型的混淆矩阵计算得到所述第一训练模型的真正例率和假正例率；

基于所述真正例率和所述假正例率计算得到所述第一训练模型的受试者工作特征曲线下面积。

在一种可能的实现方式中，所述基于所述第二恶意流量识别模型对待识别的恶意流量进行识别，包括：

利用所述第一训练模型对所述待识别的恶意流量进行识别，得到第一识别结果；

利用所述第二训练模型对所述待识别的恶意流量进行识别，得到第二识别结果；

利用所述第三训练模型对所述待识别的恶意流量进行识别，得到第三识别结果；

基于所述权重对所述第一识别结果、第二识别结果和所述第三识别结果进行加权求和，计算得到所述最终的识别结果。

在一种可能的实现方式中，通过下述方法获取所述训练用待识别数据集：

获取未处理的待识别数据集；

将所述未处理的待识别数据集中的符号特征数据转换为数字数据，且将所述未处理的待识别数据集中的数值数据进行归一化处理，得到所述训练用待识别数据集。

在一种可能的实现方式中，所述基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型，包括：

基于混淆矩阵，计算所述第一训练模型、第二训练模型和第三训练模型的准确率、精确率和召回率；

计算所述第一训练模型、第二训练模型和第三训练模型的波动方差；

从所述第一训练模型、第二训练模型和第三训练模型中选取所述准确率、精确率和召回率至少一项最高的，和/或，所述波动方差最小的一个模型，作为所述第一恶意流量识别模型。

基于同一发明构思，本申请实施例还提供了一种恶意流量识别装置，包括：

选择模块，被配置为基于获取的训练用待识别数据集，选择得到基模型；

第一训练模块，被配置为利用引导聚集算法对所述基模型进行训练，得到第一训练模型；

第二训练模块，被配置为利用提升算法对所述基模型进行训练，得到第二训练模型；

第三训练模块，被配置为利用堆栈算法对所述基模型进行训练，得到第三训练模型；

选取模块，被配置为基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；

识别模块，被配置为基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。

基于同一发明构思，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任意一项所述的恶意流量识别方法。

基于同一发明构思，本申请实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述任一所述的恶意流量识别方法。

从上面所述可以看出，本申请提供的恶意流量识别方法及相关设备，基于获取的训练用待识别数据集，选择得到基模型；利用引导聚集算法对所述基模型进行训练，得到第一训练模型；利用提升算法对所述基模型进行训练，得到第二训练模型；利用堆栈算法对所述基模型进行训练，得到第三训练模型；基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。通过基于三种集成算法构建恶意流量识别模型，结合了综合量化评估体系确定最终的识别模型，弥补了单个机器学习模型的学习偏差，使其更加适用于不同类型恶意流量识别和性能评估的场景，有效提升了模型的识别性能。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的恶意流量识别方法示意图；

图2为本申请实施例的恶意流量识别装置示意图；

图3为本申请实施例的电子设备结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如背景技术部分所述，现有恶意流量检测研究可划分为基于签名的方法和基于机器学习的方法。基于签名的方法通过对恶意流量特定行为的规则描述，通过规则匹配实现恶意流量的检测。但该类方法大多需要手动更新规则，难以适应不断变化的攻防场景。基于机器学习的方法通常使用特定的机器学习模型对流量进行训练，然后使用拟合后的模型对流量进行攻击检测，但尽管机器学习方法可有效检测恶意流量，单个模型学习到的行为模式通常存在较大的偏离，导致检测结果产生较多的误报或漏报。

综合上述考虑，本申请实施例提出一种恶意流量识别方法，基于获取的训练用待识别数据集，选择得到基模型；利用引导聚集算法对所述基模型进行训练，得到第一训练模型；利用提升算法对所述基模型进行训练，得到第二训练模型；利用堆栈算法对所述基模型进行训练，得到第三训练模型；基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。通过基于三种集成算法构建恶意流量识别模型，结合了综合量化评估体系确定最终的识别模型，弥补了单个机器学习模型的学习偏差，使其更加适用于不同类型恶意流量识别和性能评估的场景，有效提升了模型的识别性能。

以下，通过具体的实施例来详细说明本申请的技术方案。

参考图1，本申请实施例的恶意流量识别方法，包括以下步骤：

步骤S101，基于获取的训练用待识别数据集，选择得到基模型；

步骤S102，利用引导聚集算法对所述基模型进行训练，得到第一训练模型；

步骤S103，利用提升算法对所述基模型进行训练，得到第二训练模型；

步骤S104，利用堆栈算法对所述基模型进行训练，得到第三训练模型；

步骤S105，基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；

步骤S106，基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。

针对步骤S101，在一些实施例中，通过下述方法获取所述训练用待识别数据集：

获取未处理的待识别数据集；

在一些实施例中，待识别数据集可以为流量数据包。流量数据包初始格式以pcap（Packet Capture，数据包捕获）文件为主，对预处理后的流量数据进行检测既能提升检测精度，又能减少运行时间。因此，本申请对数据处理与整形主要包括符号特征数值化和数据归一化两部分内容，既需要对符号数据进行转换，又需要将数值数据进行归一化。

在一些实施例中，在流量检测数据集中均包含符号特征数据，恶意流量识别模型难以直接对符号数据进行处理，因此，在该步骤中可以使用one-hot编码器将符号数据转换为数字数据。例如流量数据集中的protocol_type（协议类型）特征包含三种字符，分别是TCP（Transmission Control Protocol，传输控制协议），UDP（User Datagram Protocol，用户数据报协议）和ICMP（Internet Control Message Protocol，网络控制报文协议）。通过one-hot编码，将这三个字符映射成3个二进制向量，映射结果分别是：[1,0,0]，[0,1,0]，[0,0,1]。按照这样的方式，通过one-hot编码对所有符号特征进行映射。对于类别标签，将数据集中的正常流量数据标记为0，异常流量数据标记为1。

数据归一化可以解决不同特征数据之间维度相差较大的问题，因此被广泛用于数据预处理步骤中。为了保证检测结果的可靠性，需要对两个数据集中的数值数据进行归一化处理，归一化是指将所有特征数据缩小到[0,1]范围内。采用了Min-Max归一化方法来处理数据，其转换公式为：

,其中/>

代表某一种特征的属性值，/>

代表这种特征属性的最大值，/>

代表这种特征属性的最小值，/>

代表对/>

进行归一化处理后的结果。

进一步的，可以基于获取的训练用待识别数据集，选择得到基模型。可以使用决策树算法（CART）作为基模型，针对不同的数据规模和场景，也可以选择不同的统计学习模型作为基模型如朴素贝叶斯、最近邻、神经网络等。

进一步的，针对步骤S102，利用引导聚集算法（Bootstrap ggregating，Bagging）对所述基模型进行训练。

具体的，Bagging方法是对一组模型进行差异化训练进而将其组合成一组拟合能力更强的集成方法。从总体的角度看，Bagging方法通过数据抽样创建不同的训练集，基于差异化的训练集对基模型进行训练，并对最终的结果进行投票平均或均值平均。

Bagging方法的具体过程：首先明确输入为训练数据集D，即训练用待识别数据集，输出为分类器G，即训练好的模型，在t=1的时刻下，从训练数据集中抽取一个训练数据，作为新的训练数据集D’，之后利用D’对模型进行训练，得到中间模型

，在小于预设的时间阈值的情况下始终重复上述操作，直至当前时刻大于预设的时间阈值，得到最终的模型G，模型G是对中间模型/>

进行投票平均或者是直接取平均值所得到的。

Bagging方法具有如下特点。第一，Bagging方法的集成方式较为简单，但是在改进不稳定分类问题时较为有效。第二，Bagging方法可以使用不同的基模型。最开始的Bagging方法使用CART作为基模型，但是针对不同的数据规模和场景，也可以选择不同的统计学习模型作为基模型如朴素贝叶斯、最近邻、神经网络等。第三，Bagging方法可以并行训练。在基模型的训练过程中，各个基模型之间没有依赖关系，因此在完成多轮的数据采样后，可以对多个基模型进行并行训练。

针对步骤S103，利用提升算法（Boosting）对所述基模型进行训练，得到第二训练模型。

在一些实施例中，Boosting算法是对一组拟合能力较弱的统计学习模型进行组合形成一个拟合能力更强的统计学习模型[16]。从总体的角度来看，Boosting算法充分利用多个弱模型的学习能力，使用集成学习算法将多个“弱”基类模型融合为一个强模型。从学习方法的角度看，Boosting算法可以视为一种模型平均方法，而非模型输出的平均方法。在Boosting算法的整体协调下，每个模型都对某几种分散的数据规律具有良好的学习能力，因此，通过集成模型而非集成输出，Boosting算法可以获得更平衡的拟合能力。

Boosting算法的具体过程：首先明确输入为训练数据集D，即训练用待识别数据集，输出为分类器G，即训练好的模型，首先对k进行初始化，令其得1，进一步的，使用训练数据集D中的第一代训练数据集

对模型/>

进行训练，且对该模型的权重进行初始化，进一步的，计算该模型的错误率/>

，之后基于错误率计算每个模型的权重/>

，利用该权重进行数据集的迭代，更新该数据集的权重，对该数据集进行归一化处理，之后重复上述步骤，直至k大于预设的阈值，或者达到其他的结束情形，得到最终的模型G。

Boosting算法具有几个较为明显的特点。第一，Boosting算法不易发生过拟合。Boosting算法基于前一个基模型的结果对下一轮基模型的训练进行调整。通过调整错误分类模型的权重，下一轮基模型的训练会增加对这些错误分类数据的学习程度。因此，每一轮学到的基模型对于不同区域的数据具有不同的拟合能力，增强了基模型学习规律的多样性，避免了过拟合的情况。第二，Boosting算法需要较长的训练时间。由于Boosting算法是多轮迭代的过程，下一轮的迭代需要依赖于上一轮迭代中的训练结果，因此Boosting算法的训练过程是串行的。第三，Boosting算法可以从基模型选择、误差计算、终止条件等多个环节进行优化，针对各类场景设计更为高效的具体算法。

进一步的，针对步骤S104，利用堆栈算法（stacking）对所述基模型进行训练，得到第三训练模型。

具体的，Stacking算法通过对模型和数据的层次堆叠构成一组更强的学习器，同时获得更准确的预测效果。从总体的角度看，Stacking通过对模型和数据按照不同的层次进行组织，将上一层的输出作为下一层的输入，从而达到更准确的预测效果。相比于Bagging算法和Boosting算法对模型的并行组织，Stacking算法是通过对模型的串行组织进行集成，从而更准确地集成基模型。

Stacking模型的具体实现过程中：第一，将训练集划分为两部分，分别是

和

。使用数据/>

训练多个第一层次的模型/>

，训练结束后用/>

对数据/>

和测试数据

进行预测，得到元训练集/>

和/>

。第二，使用元训练集{/>

，/>

}组成训练集/>

，对第二层的模型/>

进行训练，最终将/>

作为输入数据进行预测得到/>

。最终/>

作为最终的预测输出。

Stacking算法具有如下特点。第一，Stacking算法可以用于组合不同类型的基模型。决策树、神经网络、朴素贝叶斯、逻辑回归等模型都可以作为Stacking方法的基模型。由于不同的基模型对于不同类型样本的拟合能力不同，引入多样的基模型可以增加基模型的信息熵，从而实现更优的分类效果。第二，Stacking算法可以通过多层次进行堆叠。上述算法给出了一个二层架构的Stacking算法，但是同时可以基于二层的输出再构建三层乃至更多层次的Stacking算法。第三，Stacking算法对于最终输出结果的解释能力不强。由于以串行多层次的方式对数据进行拟合，原始数据的信息在层次传递的过程中逐渐减弱，Stacking算法的最终输出结果是基于中间信息产生，因此无法基于原始数据对最终结果进行解释。

进一步的，针对步骤S105，基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型。

在一些实施例中，所述基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型，包括：

具体的，恶意流量检测可视为分类过程，常用的评价指标有准确率(ACC)、精确率(PR)、召回率(RC)和F1值等，F1值是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛，常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数，最大为1，最小为0。这些评价指标大多依赖于混淆矩阵。混淆矩阵是使用矩阵的形式将算法性能的效果进行可视化展现。表1展示了混淆矩阵四个参数的具体分布情况。

表1 混淆矩阵

其中，真阳性（1 Positive，TP）：正确分类为攻击类别的攻击样本数量。真阴性（1Negative，TN）：正确分类为正常类别的正常样本数量。假阳性（0 Positive，FP）：错误分类为攻击类别的正常样本数量。假阴性（0 Negative，FN）：错误分类为正常类别的攻击样本数量。

在一些实施例中，通过下式计算准确率：

；

其中，ACC表示准确率，TP表示真阳性，TN表示真阴性，FP表示假阳性，FN表示假阴性。

在一些实施例中，通过下式计算精确率：

；

其中，PR表示精确率，TP表示真阳性，FP表示假阳性。

在一些实施例中，通过下式计算召回率：

；

其中，RC表示召回率，TP表示真阳性，FN表示假阴性。

在一些实施例中，通过下式计算F1值：

；

其中，F1表示F1值，PR表示精确率，RC表示召回率。

此外，本申请还通过定量模型波动方差值的大小判定模型优劣，即模型方差越小，模型稳定性越好。本领域技术人员知晓具体如何计算波动方差值，故在此不做赘述。

基于上述评估体系从第一训练模型、第二训练模型和第三训练模型中选取最优的模型作为第一恶意流量识别模型，这里对于最优的定义为，前述计算的准确率、精确率和召回率至少一项最高的，和/或，所述波动方差最小的。

进一步的，在得到第一恶意流量识别模型后，利用该模型对恶意流量进行识别。

在一些实施例中，所述方法，还包括：

在一些实施例中，所述确定所述第一训练模型、第二训练模型和所述第三训练模型的权重，包括：

在一些实施例中，通过下述方法计算所述第一训练模型的受试者工作特征曲线下面积：

在一些实施例中，所述基于所述第二恶意流量识别模型对待识别的恶意流量进行识别，包括：

具体的，可以采用加权投票的形式将前述的第一训练模型、第二训练模型和第三训练模型融合在一起。

基于加权投票的集成模型具有以下优势：

提高准确性：通过整合多个基学习器的预测结果，集成模型能够汇集多种学习器的优势。相对于单个学习器，集成模型往往能获得更高的准确性，因为它们可以充分利用多个基学习器的不同视角和特征抽取能力。

增强泛化能力：加权投票的集成模型能够降低过拟合的风险，因为它结合了多个基学习器的预测结果，使得模型在预测时对单个学习器的特异性过拟合现象具有较好的容忍度。

降低方差：由于基学习器之间的预测结果存在差异，加权投票的集成模型可以平衡这些差异，从而降低整体模型的预测方差。这有助于提高模型的稳定性和鲁棒性。

可自适应调整权重：加权投票的集成模型可以根据基学习器的性能为其分配权重，使得在预测时性能好的基学习器具有更高的影响力。这样的设计可以让模型自适应地调整各个基学习器在预测中的作用，从而进一步提高预测准确性。

引入多样性：加权投票的集成模型可以容纳不同类型的基学习器，包括线性模型、树模型、神经网络等。这种多样性使得集成模型能够从多个角度捕捉数据的特征，提高模型的泛化能力。

易于实现和调整：加权投票的集成模型的实现相对简单，可以在现有的机器学习框架中方便地实现。同时，根据实际问题和数据特点，可以灵活调整基学习器的类型、数量和权重，以获得最佳性能。

总之，基于加权投票的集成模型可以整合多个基学习器的优点，提高预测准确性、增强泛化能力、降低方差，且具有较好的实现简便性和调整灵活性。这些优势使得加权投票的集成模型在许多实际应用场景中具有广泛的应用价值。

具体的，在计算权重时是基于模型准确性评估这一参数进行计算的。

模型准确性评估：AUC（Area Under the Curve）指的是ROC曲线下的面积，它用于衡量分类模型的性能。ROC曲线（Receiver Operating Characteristic curve）是一种用于评估二分类模型的工具，它通过将真正例率（1 Positive Rate，TPR）作为纵轴，假正例率（0Positive Rate，FPR）作为横轴，绘制出不同阈值下的分类性能。AUC值越大，说明分类器的性能越好。以下是相关概念和公式的详细解释：

真正例率（1 Positive Rate，TPR）：又称为灵敏度（Sensitivity），表示正例被正确分类的比例。计算公式为：

TPR = TP / (TP + FN)

其中，TP（1 Positive）表示真正例，即实际为正例且被预测为正例的样本数量；FN（0 Negative）表示假反例，即实际为正例但被预测为反例的样本数量。

假正例率（0 Positive Rate，FPR）：表示反例被错误分类为正例的比例。计算公式为：

FPR = FP / (FP + TN)

其中，FP（0 Positive）表示假正例，即实际为反例但被预测为正例的样本数量；TN（1 Negative）表示真反例，即实际为反例且被预测为反例的样本数量。

绘制ROC曲线：根据不同阈值下的TPR和FPR值，绘制出ROC曲线。阈值从最低到最高，逐渐增加，对应的TPR和FPR值构成ROC曲线的各个点。理想情况下，ROC曲线越靠近左上角，分类性能越好。

计算AUC值：AUC值是ROC曲线下的面积，可以通过梯形法则计算。首先，将ROC曲线分为若干个梯形，然后计算这些梯形的面积之和。具体计算公式为：

AUC = Σ (FPR(i) - FPR(i-1)) * (TPR(i) + TPR(i-1)) / 2

其中，i表示阈值序号，从1到N，N为阈值个数。

AUC值的范围是0到1，值越接近1，表示分类器性能越好；值越接近0.5，表示分类器性能越接近随机猜测。在实际应用中，AUC值可以作为衡量分类器在不同阈值下整体性能的一个指标。

根据预测准确性确定权重：

对三种模型的评价指标进行归一化处理，使其和为1，得到三种模型的权重。例如，如果Bagging、Boosting和Stacking的AUC分别为0.8、0.85和0.9，那么归一化后的权重分别为0.8/(0.8+0.85+0.9)、0.85/(0.8+0.85+0.9)和0.9/(0.8+0.85+0.9)。

使用加权投票进行预测：

对于一个新的测试样本，分别使用Bagging、Boosting和Stacking三种模型进行预测，得到三个预测结果。然后根据前述步骤中计算得到的权重，对这三个预测结果进行加权求和，得到最终的预测结果。

恶意流量检测具有非入侵式、表现稳定、数据捕获完整等优点，是网络安全防护过程中的一个重要环节。但是随着攻防博弈过程的螺旋升级，攻击者会隐藏明显的行为特征绕过检测，而防守者会从新的角度或新的方法探索恶意流量的行为模式。其中，对流量进行加密和混淆是攻击者常用的一个方法，而模型集成可以弥补单个机器学习模型存在学习偏差的问题，并且模型集成方法可以较好的解决攻击数据不平衡、攻击数据量较少等问题，因此，研究安全数据的模型集成方法可以视为未来研究的一大方向。此外，当前的模型集成方法主要对传统机器学习模型进行集成，而较少考虑到对深度学习模型的集成，因此，探索对深度学习模型的集成方法是未来研究的另一个可行方向。

通过上述实施例可以看出，本申请实施例所述的恶意流量识别方法，基于获取的训练用待识别数据集，选择得到基模型；利用引导聚集算法对所述基模型进行训练，得到第一训练模型；利用提升算法对所述基模型进行训练，得到第二训练模型；利用堆栈算法对所述基模型进行训练，得到第三训练模型；基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。本申请基于三种集成算法构建恶意流量识别模型，结合了综合量化评估体系确定最终的识别模型，弥补了单个机器学习模型的学习偏差，有效提升了模型的识别性能。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种恶意流量识别装置。

参考图2，所述恶意流量识别装置，包括：

选择模块21，被配置为基于获取的训练用待识别数据集，选择得到基模型；

第一训练模块22，被配置为利用引导聚集算法对所述基模型进行训练，得到第一训练模型；

第二训练模块23，被配置为利用提升算法对所述基模型进行训练，得到第二训练模型；

第三训练模块24，被配置为利用堆栈算法对所述基模型进行训练，得到第三训练模型；

选取模块25，被配置为基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取，得到第一恶意流量识别模型；

识别模块26，被配置为基于所述第一恶意流量识别模型对待识别的恶意流量进行识别，得到第一最终识别结果。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的恶意流量识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的恶意流量识别方法。

图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的恶意流量识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的恶意流量识别方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的恶意流量识别方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围（包括权利要求）被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路（IC）芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的（即，这些细节应当完全处于本领域技术人员的理解范围内）。在阐述了具体细节（例如，电路）以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构（例如，动态RAM（DRAM））可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种恶意流量识别方法，其特征在于，包括：

基于获取的训练用待识别数据集，选择得到基模型；

利用提升算法对所述基模型进行训练，得到第二训练模型；

利用堆栈算法对所述基模型进行训练，得到第三训练模型；

所述方法，还包括：

确定所述第一训练模型、所述第二训练模型和所述第三训练模型的权重；

基于所述权重，将所述第一训练模型、所述第二训练模型和所述第三训练模型合并作为第二恶意流量识别模型；

基于所述第二恶意流量识别模型对待识别的恶意流量进行识别，得到第二最终识别结果；

所述确定所述第一训练模型、所述第二训练模型和所述第三训练模型的权重，包括：

基于所述第一面积、所述第二面积和所述第三面积确定得到所述第一训练模型、所述第二训练模型和第三训练模型的权重；

其中，通过下述方法计算所述第一训练模型的受试者工作特征曲线下面积：

基于所述真正例率和所述假正例率计算得到所述第一训练模型的受试者工作特征曲线下面积；

其中，所述基于所述第一面积、所述第二面积和所述第三面积确定得到所述第一训练模型、所述第二训练模型和第三训练模型的权重，包括：

对所述第一面积、所述第二面积、所述第三面积进行归一化处理，得到所述第一训练模型、所述第二训练模型和所述第三训练模型的权重；

所述基于所述第二恶意流量识别模型对待识别的恶意流量进行识别，包括：

基于所述权重对所述第一识别结果、所述第二识别结果和所述第三识别结果进行加权求和，计算得到所述第二最终识别结果。

2.根据权利要求1所述的方法，其特征在于，通过下述方法获取所述训练用待识别数据集：

获取未处理的待识别数据集；

3.一种恶意流量识别装置，其特征在于，包括：

所述装置，还包括：

4.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至2任意一项所述的方法。

5.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至2任一所述方法。