CN115396212A

CN115396212A - 检测模型的训练方法、装置、计算机设备和存储介质

Info

Publication number: CN115396212A
Application number: CN202211035222.8A
Authority: CN
Inventors: 袁俊杰; 韩丽娜; 韩世龙; 张英伟; 王波; 潘彭丹; 吴潇; 裴军; 崔恩泽
Original assignee: Guoke Huadun Beijing Technology Co ltd
Current assignee: Guoke Huadun Beijing Technology Co ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-11-25

Abstract

本申请涉及一种检测模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。涉及机器学习算法技术领域。方法包括：获取第一网络数据集和第二网络数据集，并将所述两种数据集进行融合，得到样本数据集；对各所述样本网络特征数据进行特征提取，得到网络特征数据集；基于权重调整算法对所述各所述样本网络特征数据对应的初始权重进行更新，并基于更新后的权重构建目标网络特征数据集；基于所述目标网络特征数据集和各目标样本网络特征数据对应的数据类型标识，对机器学习模型进行训练，得到检测模型，所述检测模型用于检测网络数据的数据类型标识。采用本方法能够及时有效的完成网络入侵检测。

Description

检测模型的训练方法、装置、计算机设备和存储介质

技术领域

本申请涉及机器学习算法技术领域，特别是涉及一种检测模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着互联网的日益发展和成熟，互联网信息技术的广泛应用范围在逐渐扩大，逐渐渗透到日常生活的各个方面。在大数据时代，计算机网络安全技术包含了丰富的网络数据内容，但由于计算机网络自由、开放，其中数据信息可能会遭到恶意攻击、非法窃取等网络攻击，信息的数据完整性可能会受到破坏并造成严重后果。

传统技术中，基于深度神经网络可以通过大量参数的训练计算，利用多核CPU和GPU来提高入侵检测系统的性能，自主提取特征并进行学习来检测网络入侵。

然而由于深度神经网络对于设备要求高，往往需要使用GPU进行计算推理，如果使用CPU进行推理，需要占用较大的计算资源，这会使得设备性能降低，推理时间长，存在检测网络入侵攻击时及时性差的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高网络入侵检测及时性，且对设备要求较低的检测模型的训练方法、装置、计算机设备和计算机可读存储介质。

第一方面，本申请提供了一种检测模型的训练方法。所述方法包括：

获取第一网络数据集以及第二网络数据集，并将所述第一网络数据集和所述第二网络数据集进行融合处理，得到样本数据集；所述样本数据集包括样本网络数据和所述样本网络数据的数据类型标识，所述数据类型标识包括正常数据类型标识和攻击数据类型标识；

对各所述样本网络数据进行特征提取，得到网络特征数据集；所述网络特征数据集包含提取出的各样本网络特征数据、以及各所述样本网络特征数据对应的初始权重；

基于权重调整算法对所述各所述样本网络特征数据对应的初始权重进行更新，并基于更新后的权重构建目标网络特征数据集；所述目标网络特征数据集包括目标样本网络特征数据、所述目标样本网络特征数据的数据类型标识以及各所述样本网络特征数据对应的权重；

基于所述目标网络特征数据集和各所述目标样本网络特征数据对应的数据类型标识，对机器学习模型进行训练，得到检测模型，所述检测模型用于检测网络数据的数据类型标识。

在其中一个实施例中，所述获取第一网络数据集以及第二网络数据集，并将所述第一网络数据集和所述第二网络数据集进行融合处理，得到样本数据集，包括：

获取网络公开数据集作为所述第一网络数据集，并通过预设数据抓取策略，抓取得到所述第二网络数据集；

将所述第一网络数据集中各网络数据与所述第二网络数据集中各网络数据进行拼接，得到所述样本数据集，所述第一网络数据集中各网络数据与所述第二网络数据集中各网络数据的数据类型标识满足预设相似度条件。

在其中一个实施例中，所述对各所述样本网络数据进行特征提取，得到网络特征数据集，包括：

对所述样本数据集中的所述各所述样本网络数据进行数据预处理，得到数据预处理后的各所述样本网络特征数据；

使用随机森林算法对所述数据预处理后的各所述样本网络数据进行特征提取，得到所述网络特征数据集。

在其中一个实施例中，所述对所述样本数据集中的所述各所述样本网络数据进行数据预处理，得到数据预处理后的各所述样本网络数据，包括：

识别所述样本数据集中的噪声值并进行删除，得到数据清洗后的所述各样本网络数据；

对所述数据清洗后的所述各样本网络数据进行标准化处理，得到所述预处理后的样本网络数据。

在其中一个实施例中，所述基于权重调整算法对所述各所述样本网络特征数据对应的初始权重进行更新，包括：

获取预先定义的权重字典，所述权重字典包括所述攻击数据类型标识和权重值；

通过所述权重调整算法和所述权重字典，对各所述样本网络特征数据对应的初始权重进行更新。

在其中一个实施例中，所述基于所述目标网络特征数据集和各所述目标样本网络特征数据对应的数据类型标识，对机器学习模型进行训练，得到检测模型之后，还包括：

获取测试数据集，所述测试数据集包括各测试网络特征数据和各所述测试网络特征数据的数据类型标识；

将所述测试数据集输入所述检测模型中进行模型测试，得到测试结果；

将所述测试结果与所述测试数据集中的所述攻击数据类型标识对比，判断是否符合预设的相关度条件，如果满足所述预设的相关度条件则保存所述检测模型作为最终的检测模型。

第二方面，本申请提供了一种网络数据的检测方法。所述方法包括：

获取待检测的网络数据；

对所述待检测的网络数据进行特征提取，得到网络特征数据；

将所述网络特征数据输入预先训练的检测模型，得到所述待检测的网络数据对应的数据类型标识；

其中，所述检测模型采用如上述第一方面中检测模型的训练方法训练得到。

第三方面，本申请还提供了一种检测模型的训练装置。所述装置包括：

第一获取模块，用于获取第一网络数据集以及第二网络数据集，并将所述第一网络数据集和所述第二网络数据集进行融合处理，得到样本数据集；所述样本数据集包括样本网络数据和所述样本网络数据的数据类型标识，所述数据类型标识包括正常数据类型标识和攻击数据类型标识；

提取模块，用于对各所述样本网络数据进行特征提取，得到网络特征数据集；所述网络特征数据集包含提取出的各样本网络特征数据、以及各所述样本网络特征数据对应的初始权重；

更新模块，用于基于权重调整算法对所述各所述样本网络特征数据对应的初始权重进行更新，并基于更新后的权重构建目标网络特征数据集；所述目标网络特征数据集包括目标样本网络特征数据、所述目标样本网络特征数据的数据类型标识以及各所述样本网络特征数据对应的权重；

训练模块，用于基于所述目标网络特征数据集和各所述目标样本网络特征数据对应的数据类型标识，对机器学习模型进行训练，得到检测模型，所述检测模型用于检测网络数据的数据类型标识。

在其中一个实施例中，所述第一获取模块具体用于：

将所述第一网络数据集中各网络数据与所述第二网络数据集中各网络数据进行拼接，得到所述样本数据集，所述第一网络数据与所述第二网络数据的数据类型标识满足预设相似度条件。

在其中一个实施例中，所述提取模块具体用于：

对所述样本数据集中的所述各所述样本网络数据进行数据预处理，得到数据预处理后的各所述样本网络数据；

在其中一个实施例中，所述装置还包括：

识别模块，用于识别所述样本数据集中的噪声值并进行删除，得到数据清洗后的所述各样本网络数据；

标准化模块，用于对所述数据清洗后的所述各样本网络数据进行标准化处理，得到所述预处理后的样本网络数据。

在其中一个实施例中，所述更新模块，具体用于：

获取预先定义的权重字典，所述权重字典包括所述攻击数据类型标识的名称和权重值；

在其中一个实施例中，所述装置还包括：

第二获取模块，用于获取测试数据集，所述测试数据集包括各测试网络特征数据和各所述测试网络特征数据的数据类型标识；

测试模块，用于将所述测试数据集输入所述检测模型中进行模型测试，得到测试结果；

对比模块，用于将所述测试结果与所述测试数据集中的所述攻击数据类型标识对比，判断是否符合预设的相关度条件，如果满足所述预设的相关度条件则保存所述检测模型作为最终的检测模型。

第四方面，本申请还提供了一种网络数据的检测装置。所述装置包括：

获取模块，用于获取待检测的网络数据；

提取模块，用于对所述待检测的网络数据进行特征提取，得到网络特征数据；

检测模块，用于将所述网络特征数据输入预先训练的检测模型，得到所述待检测的网络数据对应的数据类型标识；

第五方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第六方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述检测模型的训练方法中，将第一网络数据集和所述第二网络数据集进行融合处理，得到样本数据集，并对各样本网络数据进行特征提取，提取到符合预设重要程度的特征，构成网络特征数据集；基于权重调整算法对各样本网络特征数据对应的初始权重进行更新，并构建目标网络特征数据集，再对机器学习模型进行训练，得到检测模型。检测模型用于检测网络数据的数据类型标识。由于与深度神经网络相比，机器学习本身不需要占用过多设备资源，而且通过权重调整算法能够更新网络数据初始权重，能够在样本不均衡的情况下提高对未知攻击的检测能力，从而达到提高网络入侵检测的及时性的效果。

附图说明

图1为一个实施例中检测模型的训练方法的流程示意图；

图2为一个实施例中检测模型的训练方法的流程示意图；

图3为一个实施例中检测模型的训练方法的流程示意图；

图4为一个实施例中检测模型的训练方法的流程示意图；

图5为一个实施例中检测模型的训练方法的流程示意图；

图6为一个实施例中检测模型的训练方法的流程示意图；

图7为一个实施例中检测模型的训练方法的流程示意图；

图8为一个实施例中检测模型的训练装置的结构框图；

图9为一个实施例中检测模型的训练装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种检测模型的训练方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端通过网络与服务器进行通信。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本实施例中，该方法包括以下步骤：

步骤102，获取第一网络数据集以及第二网络数据集，并将第一网络数据集和第二网络数据集进行融合处理，得到样本数据集。

其中，样本数据集包括样本网络数据和样本网络数据的数据类型标识，数据类型标识包括正常数据类型标识和攻击数据类型标识。各样本网络数据中，每条样本网络数据都包含多个网络数据特征。

本申请实施例中，第一网络数据集可以包括多个网络数据(为了便于区分，可称为第一网络数据)、以及每个第一网络数据的数据类型标识，第一网络数据可以是攻击类型的网络数据和正常网络数据。

第二网络数据集可以包括多个网络数据(为了便于区分，可称为第二网络数据)、以及每个第二网络数据的数据类型标识，第二网络数据可以是攻击类型的网络数据和正常网络数据。终端可以获取第一网络数据集以及第二网络数据集，然后根据预先存储的融合策略，将第一网络数据集和第二网络数据集进行融合处理，得到样本数据集。

例如，针对第一网络数据集中的每个第一网络数据，终端可以根据数据类型标识，在第二网络数据集中确定与第一网络数据匹配的第二网络数据，然后将第一网络数据和第二网络数据进行融合，得到样本网络数据，并将该第一网络数据的数据类型标识，作为样本网络数据的数据类型标识。

步骤104，对各样本网络数据进行特征提取，得到网络特征数据集。

其中，网络特征数据集包含各样本网络特征数据、以及各样本网络特征数据对应的初始权重。

本申请实施例中，终端对各样本网络数据进行特征提取，得到各样本网络数据的特征数据(即样本网络特征数据)。其中，各样本网络特征数据中，每条样本网络特征数据都包括多个网络数据特征。例如，终端可以对获取到的样本网络数据进行解析，并基于预设的数据提取策略，从解析后的样本网络数据中，提取出部分样本网络数据，作为样本网络特征数据。终端将提取到的各样本网络特征数据和各样本网络特征数据对应的初始权重，构成网络特征数据集。

其中，权重表示了各样本网络特征数据的重要程度，各样本网络特征数据对应的初始权重可以为默认值或空值。网络特征数据集中可以包含提取的各样本网络特征数据、各样本网络特征数据对应的初始权重，便于后续进行权重的更新。

步骤106，基于权重调整算法对各样本网络特征数据对应的初始权重进行更新，并基于更新后的权重构建目标网络特征数据集。

本申请实施例中，终端中可以存储有预先定义的权重字典，再通过权重调整算法和权重字典，更新网络特征数据集的权重。具体的，终端通过调用lgb.Dataset()方法，根据网络特征数据集中的各样本网络特征数据，构建出一个模型数据集。再通过调用compute_simple_weigh方法将模型数据集的样本权重参数的参数值(即初始权重)更新为权重字典中的权重。最终，终端将更新权重后的模型数据集作为目标网络特征数据集。

其中，构建出的模型数据集中的样本权重参数的参数值为默认值或空值。目标网络特征数据集中包括目标样本网络特征数据、目标样本网络特征数据的数据类型标识以及各样本网络特征数据对应的权重(即更新后的权重)。

权重字典为：{攻击数据类型标识：权重字典中的权重值}的形式，权重字典中正常数据类型标识的权重值仍为默认值或空值。

步骤108，基于目标网络特征数据集和各目标样本网络特征数据对应的数据类型标识，对机器学习模型进行训练，得到检测模型。

其中，检测模型用于检测网络数据的数据类型。例如，检测模型可以采用LightGBM(Light Gradient Boosting Machine，梯度提升机器)模型。

本申请实施例中，终端将目标网络特征数据集中的所有目标样本网络特征数据输入机器学习模型进行模型训练，机器学习模型的模型训练过程使用了监督学习方法。完成模型训练后，终端能够得到训练好的机器学习模型，作为检测模型。该检测模型用于检测网络数据的数据类型。

例如，终端将各目标样本网络特征数据输入LightGBM模型中进行模型训练，模型训练过程使用了监督学习方法，从而得到一个训练好的LightGBM模型。

上述检测模型的训练方法中，对两种数据集进行融合，得到数据内容更加丰富的数据集，通过对融合后的数据集进行重要特征的提取，并通过权重调整算法构建分配好权重的数据集，通过监督学习将数据集输入模型进行训练并保存模型，使用时对模型进行调用即可得到网络入侵检测的结果。与深度神经网络相比，机器学习不需要占用过多设备资源，通过使用了权重调整算法，改善了样本数量不均衡的影响，在样本不均衡的情况下提高了对未知攻击的检测能力，从而提高网络数据的检测速度，提高了数据检测的及时性。

在一个实施例中，如图2所示，步骤102包括：

步骤202，获取网络公开数据集作为第一网络数据集，并通过预设数据抓取策略，抓取得到第二网络数据集。

本申请实施例中，终端获取公开数据集作为第一网络数据集。其中，公开数据集可以包含从预设数据库或公开平台获取的预设时间段内的数据。并且，终端还可以通过预设抓取策略，抓取预设时间段内的现网流量数据集，作为第二网络数据集。例如，现网流量数据集可以是年度或月度的现网流量数据集。例如，第一网络数据集和第二网络数据集都为逗号分隔值(Comma-Separated Values，CSV)格式的数据集。

其中，第一网络数据集以及第二网络数据集中都包含了具有正常数据类型标识的正常网络数据和具有攻击数据类型标识的攻击网络数据。所提到的两种数据集中，每条网络数据中都包括多个网络数据特征。获取到的第一网络数据集对比现有的数据集做出了改进：终端对现有的网络数据集进行去重，去除了冗余和重复网络数据，使用去重后的数据集使模型不会偏向样本数较多的类，使模型检测率更准确，

步骤204，提取第一网络数据集中各网络数据的特征、以及第二网络数据集中各网络数据的特征。

其中，第一网络数据与第二网络数据满足预设相似度条件。

本申请实施例中，终端将第一网络数据的各网络数据特征与第二网络数据的各网络数据特征进行对比，从而得到第一网络数据和第二网络数据的相似度，进而抽取出所有第二网络数据中符合预设相似度条件的第二网络数据。

在一种实现方式中，终端可以抽取出第二网络数据中与第一网络数据的网络数据特征相同的网络数据：

df＝pandas.DataFrame(data)

resultData＝df[['特征1','特征2','特征x']]；

在另一种实现方式中，终端通过相似度算法，确定出第一网络数据集的网络数据特征与第二网络数据集的网络数据特征的相似度，进而确定出符合预设的相似度条件的第二网络数据。

其中，对于相似度算法，任一具有相似度计算功能的算法均可应用于本申请中，本申请实施例对此不做限定。预设相似度条件为相同或者相似度大于预设相似度阈值。

步骤206，将第二网络数据集中与第一网络数据集的网络数据特征相同的网络特征数据加入第一数据集，得到样本数据集。

本申请实施例中，终端将第二网络数据集中与第一网络数据集的网络数据特征相同的网络特征数据加入第一网络数据集，将融合后的第一网络数据集，作为样本数据集。

本实施例中，由于第二网络数据集为预设时间段内的数据集，而且一般为时间段较为接近当前时间的数据集，终端将第二网络数据集中的数据拼接到第一网络数据集，能够得到数据更丰富的样本数据集，可以达到使模型有更好的检测能力和泛化能力的效果。

在一个实施例中，如图3所示，步骤104包括：

步骤302，对样本数据集中的各样本网络数据进行数据预处理，得到预处理后的各样本网络数据。

本申请实施例中，终端对样本数据集进行数据预处理，包括数据清洗、数据统一编码和数据标准化。数据清洗包括终端先识别出样本数据集中的缺失值和噪声值，再将缺失值和噪声值进行删除；数据统一编码为终端将样本数据集中各样本网络数据和数据类型标识统一编码为数值型。数据标准化为终端将数据统一编码后的各样本网络数据，采用Z-score标准化进行标准化处理。

步骤304，使用随机森林算法对预处理后的各样本网络数据进行特征提取，得到网络特征数据集。

本申请实施例中，终端使用随机森林算法中的feature_importance方法对预处理后的各样本网络数据进行特征提取，提取出重要程度符合预设条件的各样本网络特征数据，将提取后的各样本网络特征数据作为网络特征数据集。

其中，各样本网络特征数据中，每条样本网络特征数据都包含多个网络数据特征。重要程度是指调用随机森林算法中的feature_importance方法进行特征提取后，选取出各样本网络特征数据中的特征重要性分数。终端根据网络特征的重要性分数进行排序，得到特征数据排名序列，然后将特征数据排名序列中的前预设数目个特征数据，作为样本网络特征数据特征。例如，预设排名条件为排名前21位的特征。如表1所示，依次为特征的重要性分数表。

表1

在一个实施例中，如图4所示，步骤302包括：

步骤402，识别样本数据集中的缺失值和噪声值并进行删除，得到数据清洗后的网络数据。

本申请实施例中，终端调用matplotlib方法，绘制小提琴图并查看每列数据的分布。终端通过pandas中isnull().T.any()方法识别样本数据集中的缺失值，通过DataFrame.dropna()方法，将缺失值进行删除。终端再通过预设的阈值分析方法识别样本数据集中的噪声值，通过DataFrame.drop()方法将缺失值进行删除。其中，预设的阈值分析方法为终端通过排序算法，将各样本网络特征数据中的每一个网络数据特征对应的特征值分别进行排序，取网络数据特征值的25％分位点所对应的值为下四分位值，每一个网络数据特征值的75％分位点所对应的值为上四分位值，终端在计算出每一个网络数据特征值的上下须。终端将每一个网络数据特征值与该网络数据特征值的上下须值对比，如果该网络数据特征值大于该网络数据特征值的上须或者小于该网络数据特征值的下须，则终端通过对比算法判断该网络数据特征值是噪声值。其中，对于排序算法和对比算法，任一具有排序功能和对比判断数据值大小的算法均可应用于本申请中，本申请实施例对此不做限定。

例如，计算上下须方法公式如下：

Qa＝Q3+1.5(Q3-Q1)

Qb＝Q1-1.5(Q3-Q1)

其中，Qa为上须的值，Qb为下须的值，Q1为下四分位的值，Q3为上四分位的值。

最终，终端将样本数据集中的各样本网络数据的网络数据特征的值和数据类型标识统一编码为数值型。

例如，各样本网络数据中可能存在字符型特征，终端将字符型特征转换数值型采用python中的字典，原字符型特征为字典的键，转换后的数值型为字典的值。终端通过键查值的方式将该类型的网络数据进行转换；将数据类型标识转换数值类型时，终端通过sklearn.preprocessing.OneHotEncoder()方法，将数据类型标识转换成oneHot形式，转换后每行数据类型标识的维度是[1*23]；

这样，终端通过数据预处理可以提高数据质量，去除缺失值和噪声值能够防止在后续进行模型训练时误导模型。

步骤404，对数据清洗后的网络数据进行标准化处理，得到预处理后的样本网络数据。

本申请实施例中，终端采用了基于数据的均值和方差进行标准化的方法，得到预处理后的各样本网络数据。具体的，每一列的每一个数都减去该列的均值，并除以该列的标准差(得到的结果在0附近并且方差为1)，计算公式如下；

其中，Xi是当前列的每个数值，μ是当前列的均值，σ是当前列的标准差，

是标准化后的值。

这样，可以应对特征向量中数据很分散的情况，同时也可以起到加速训练使模型快速收敛的作用。

本实施例中，终端对样本数据集中的各样本网络数据进行预处理，通过数据清洗，数据统一编码，以及数据标准化的步骤，得到数据预处理后的样本数据集，便于后续进行特征提取。

在一个实施例中，如图5所示，步骤106包括：

步骤502，获取预先定义的权重字典。

其中，权重字典包括攻击数据类型标识和权重值。

本申请实施例中，首先定义一个权重字典。其中，该数据字典中的键为攻击类型标识，该字典中的值为权重的值。

例如：定义一个权重字典w，

class_w＝{A1:0.6,A2:0.5,A3:1.5,A4:1.45,A5:1.6,A6:1.2,A7:0.8,A8:1.2,A8:1.5,A9:1.3,A10:1.2,A11:1.8,A12:1.6,A13:1.6,A14:1.6,A15:1.85,A16:1.4,A17:1.7,A18:1.8,A19:1.75,A20:1.5,A21:1.7,A22:1.9}

例如，A1表示攻击类型标识1，0.5表示攻击类型标识1的权重值；A2表示攻击类型标识2，1.2表示攻击类型标识2的权重值，以此类推。

步骤504，通过权重调整算法和权重字典，对各样本网络特征数据对应的初始权重进行更新。

本申请实施例中，终端调用lgb.Dataset()方法，对各样本网络特征数据进行处理，构建出一个新的模型数据集。再通过调用compute_sample_weight方法将模型数据集中的样本权重参数中的默认权重进行更新，更新后的样本权重参数的参数值为权重字典中的权重值。最终，终端将更新权重后的模型数据集作为目标网络特征数据集。

其中，新的模型数据集中包括了样本权重参数，参数值为默认值或者空值。

本实施例中，通过权重调整算法，终端可以对数据进行不均衡处理，构建出的数据集通过计算样本权重方法compute_sample_weight更新了权重值，降低样本较多的类的权重，提高样本较少的类的权重，从而可以达到从一定程度上改善样本不均衡的问题，提高模型的泛化能力的效果。

在一个实施例中，如图6所示，在步骤108之后，还包括：

步骤602，获取测试数据集。

其中，测试数据集包括各测试网络特征数据和各测试网络特征数据的数据类型标识。

本申请实施例中，终端将目标网络特征数据集中的所有目标网络特征数据按照预设比例划分成训练数据集和测试数据集。终端将训练数据集中的训练网络特征数据、各训练网络特征数据的数据类型标识和各训练网络特征数据对应的权重输入LightGBM模型中进行模型训练，得到训练好的机器学习模型，训练过程采用了监督学习方法。预设比例可以由技术人员根据实际需求设定，例如，训练数据集与测试数据集的预设比例可以为9.5:0.5。

其中，训练数据集包括各训练网络特征数据、各训练网络特征数据的数据类型标识和各训练网络特征数据对应的权重。

步骤604，将测试数据集输入检测模型中进行测试，得到测试结果。

本申请实施例中，终端将测试数据集中的所有测试网络特征数据一次性输入检测模型中进行模型测试，分别得到每个测试网络特征数据对应的测试结果。

步骤606，将测试结果与测试数据集中的数据类型标识对比，判断是否符合预设的相关度条件，如果满足预设的相关度条件则保存检测模型作为最终的检测模型。

本申请实施例中，针对每个测试网络特征数据，终端判断该测试网络特征数据对应的测试结果，与该测试网络特征数据在测试数据集中的数据类型标识是否符合预设的相关度条件，从而得到判断结果，该判断结果可以表示测试结果与数据类型标识是否一致。终端可以通过F1-score(分类任务评估指标，值为大于0且小于1的值)计算方法，计算出测试数据集和训练数据集的F1-score参数值，终端对比测试数据集和训练数据集的F1-score参数值得到检测模型的准确率，如果该准确率大于预设准确率阈值，则保存检测模型作为最终的检测模型。否则，终端需要将机器学习模型LightGBM模型进一步调整超参数进行模型优化。具体的，终端通过调用optuna方法进行自动化参数调优。

其中，F1-score计算方法为from sklearn.metrics import f1_score方法，输入的两个参数为数据类型标识和模型计算结果(在本方案中可以为测试结果或训练结果)。

终端调整机器学习模型LightGBM模型的超参数后，重新将训练数据集中的训练网络特征数据输入机器学习模型进行模型训练，再进行模型测试，直至测试结果满足预设的相关度条件。

其中，预设的相关度条件为：终端通过将训练数据集的数据类型标识和训练结果全部输入FI-score计算方法中，得到一个训练F1-score值，终端再通过将测试数据集的数据类型标识和测试结果全部输入F1-score计算方法中，得到一个测试F1-score值。终端通过设置数值百分比方法将训练F1-score值与测试F1-score值设置为百分比类型的数值，再将训练F1-score值和测试F1-score值相减，得到二者差的绝对值。终端判断该绝对值是否小于预设阈值，如果小于预设阈值，则认为满足预设的相似度条件。例如，预设阈值可以为百分之1。

本实施例中，终端通过将目标网络特征数据集分成训练数据集和测试数据集，能够使用测试数据集进一步验证网络检测模型准确度的作用，从而达到提高模型推理准确度的效果，自动调优方法optuna方法还可以方便快捷的调整模型超参数。

在一个实施例中，如图7所示，还提供了一种网络数据的检测方法，包括以下步骤：

步骤702，获取待检测的网络数据。

本申请实施例中，终端通过API(Application Programming Interface,应用程序接口)接口连接到需要检测的网络数据；

步骤704，对待检测的网络数据进行特征提取，得到网络特征数据。

本申请实施例中，终端对待检测的网络数据进行数据预处理，得到数据预处理后的网络数据。终端通过随机森林算法中的feature_importance方法对预处理后的网络数据进行特征提取，提取出重要程度符合预设条件的网络特征数据。

步骤706，将网络特征数据输入预先训练好的检测模型，得到待检测的网络数据对应的数据类型标识。

本申请实施例中，终端将需要检测的网络数据输入检测模型LightGBM模型中，得到输出结果，输出结果用于表示网络数据的数据类型标识。例如，输出结果为正常或22种攻击数据类型标识中的其中一种。

其中，检测模型采用如上述任一检测模型的训练方法训练得到。

本实施例中，终端通过API接口能方便的连接到网络数据，通过预先训练好的模型能够达到通过模型推理快速检测出网络数据类型的效果。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的检测模型的训练方法的检测模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个检测模型的训练装置实施例中的具体限定可以参见上文中对于检测模型的训练方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种检测模型的训练装置800，包括：第一获取模块802、提取模块804、更新模块806和训练模块808，其中：

第一获取模块802，用于获取第一网络数据集以及第二网络数据集，并将所述第一网络数据集和所述第二网络数据集进行融合处理，得到样本数据集；所述样本数据集包括样本网络数据和所述样本网络数据的数据类型标识，所述数据类型标识包括正常数据类型标识和攻击数据类型标识；

提取模块804，用于对各所述样本网络数据进行特征提取，得到网络特征数据集；所述网络特征数据集包含提取出的各样本网络特征数据、以及各所述样本网络特征数据对应的初始权重；

更新模块806，用于基于权重调整算法对所述各所述样本网络特征数据对应的初始权重进行更新，并基于更新后的权重构建目标网络特征数据集；

训练模块808，用于基于所述目标网络特征数据集和各所述目标样本网络特征数据对应的数据类型标识，对机器学习模型进行训练，得到检测模型，所述检测模型用于检测网络数据的数据类型标识。

本申请实施例提供的检测模型的训练装置，终端可以对两种数据集进行融合，得到数据内容更加丰富的数据集，通过对融合后的数据集进行重要特征的提取，并通过权重调整算法构建分配好权重的数据集，通过监督学习将数据集输入模型进行训练并保存模型，使用时对模型进行调用即可得到网络入侵检测的结果。与深度神经网络相比，机器学习不需要占用过多设备资源，由于使用了权重调整算法，改善了样本数量不均衡的影响，在样本不均衡的情况下提高了对未知攻击的检测能力，从而提高网络数据的检测速度，提高了数据检测的及时性。

在其中一个实施例中，所述第一获取模块802，具体用于：

获取网络公开数据集作为第一网络数据集，并通过预设数据抓取策略，抓取得到第二网络数据集。根据第一网络数据集和第二网络数据集中各网络数据的数据类型标识，将第一网络数据集中的第一网络数据与第二网络数据集合中的第二网络数据进行拼接，得到样本数据集。

在其中一个实施例中，所述提取模块804，具体用于：

对样本数据集中的各样本网络数据进行数据预处理，得到预处理后的各样本网络数据。使用随机森林算法对预处理后的各样本网络数据进行特征提取，得到网络特征数据集。

在其中一个实施例中，所述更新模块806，具体用于：

获取预先定义的权重字典，通过权重调整算法和权重字典，对各样本网络特征数据对应的初始权重进行更新。

在其中一个实施例中，所述装置还包括：

第二获取模块，用于获取测试数据集，所述测试数据集包括所述包括各测试网络特征数据和各所述测试网络特征数据的数据类型标识；

对比模块，用于将所述测试结果与所述检测模型对比，判断是否符合预设的相关度条件，如果满足所述预设的相关度条件则保存所述检测模型作为最终的检测模型。

在一个实施例中，如图9所示，还提供了一种网络数据的检测装置900，包括：获取模块902、提取模块904，和检测模块906，其中：

获取模块902，用于获取待检测的网络数据；

提取模块904，用于对所述待检测的网络数据进行特征提取，得到网络特征数据；

检测模块906，用于将所述网络特征数据输入预先训练的检测模型，得到所述待检测的网络数据对应的数据类型标识；

其中，所述检测模型采用如上述任一所述的检测模型的训练方法训练得到。

上述一种检测模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种检测模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种检测模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一网络数据集以及第二网络数据集，并将所述第一网络数据集和所述第二网络数据集进行融合处理，得到样本数据集，包括：

3.根据权利要求1所述的方法，其特征在于，所述对各所述样本网络数据进行特征提取，得到网络特征数据集，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于权重调整算法对所述各所述样本网络特征数据对应的初始权重进行更新，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标网络特征数据集和各所述目标样本网络特征数据对应的数据类型标识，对机器学习模型进行训练，得到检测模型之后，还包括：

6.一种网络数据的检测方法，其特征在于，所述方法包括：

获取待检测的网络数据；

其中，所述检测模型采用如权利要求1至5任一所述的检测模型的训练方法训练得到。

7.一种检测模型的训练装置，其特征在于，所述装置包括：

8.一种网络数据的检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测的网络数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5或权利要求6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5或权利要求6中任一项所述的方法的步骤。