CN114070635A

CN114070635A - Shdos数据处理、模型训练方法、设备及存储介质

Info

Publication number: CN114070635A
Application number: CN202111388331.3A
Authority: CN
Inventors: 江魁; 卢橹帆
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-18

Abstract

本发明公开了一种SHDOS数据处理、模型训练方法、设备及存储介质。该方法包括：获取SHDOS数据集，SHDOS数据集包括：攻击数据集和正常数据集；将攻击数据集进行分类处理得到安全地带数据集和边界地带数据集；基于第一预设采样率对安全地带数据集进行过采样得到安全地带样本集，并基于第二预设采样率对边界地带数据集进行过采样得到边界地带样本集，第一预设采样率小于第二预设采样率；根据安全地带样本集、边界地带样本集和正常数据集的集合确定训练样本集，训练样本集用于训练机器学习模型得到攻击检测模型，通过本发明的技术方案，能够增加边界地带数据，让模型在边界地带上进行更多的训练来应对SHDOS的攻击场景，提高模型对频率变化的SHDOS攻击的检测精度。

Description

SHDOS数据处理、模型训练方法、设备及存储介质

技术领域

本发明实施例涉及计算机软件技术领域，尤其涉及SHDOS数据处理、模型训练方法、设备及存储介质。

背景技术

分布式拒绝服务攻击(Distributed Denial of Service，DDOS)是互联网中最主要的威胁之一，其中，针对HTTP协议的慢速拒绝服务攻击(Slow HTTP Denial of Service，SHDOS)由于其不断变化的攻击特性，对其进行精确的检测变得愈加困难。

目前，针对SHDOS攻击的检测手段主要有：设定一个超时阈值，当发现某个连接时长大于阈值则进行二次检测或者IP封禁等防护方式；攻击行为与正常行为往往存在差异，通过分析攻击和正常用户行为在流量或者行为特征属性上的差异也可以进行攻击的检测；也有通过深度学习或者机器学习的方法训练得到检测模型来进行攻击的检测。这些方法用于检测单一频率的SHDOS攻击能够达到较高的检测准确率。

随着SHDOS攻击的发展，其攻击方式可能发展为根据网站的特性，在其闪拥时刻发起较大流量的攻击来消耗目标的资源，而在非闪拥时刻以较低速率、较长时间线蛰伏于Web应用中来降低服务器的实际并发连接数上限。在该类攻击方式下，一方面会使得系统被攻击时从流量层面看不出任何异常，进而逃避部分检测机制，另一方面会扰乱管理员对其Web应用业务模型的模拟和把控。从数据层面上来看，该攻击方式会使得大量的攻击数据处于正常数据与攻击数据的边界地带，进而对其进行精确地检测会变得更加困难。

发明内容

本发明实施例提供一种SHDOS数据处理、模型训练方法、设备及存储介质，以实现能够利用过采样的方法增加处于正常数据与攻击数据的边界地带数据，利用更多的边界地带的数据来强化各类模型对于频率多变的SHDOS的检测，从而能够训练得到对于频率变化的SHDOS攻击有较高检测精度的模型，并对于攻击数据中的安全地带数据进行少量过采样，最大程度利用少数攻击数据的所有信息，避免少数样本可能存在的偶然性。

第一方面，本发明实施例提供了一种SHDOS数据处理方法，包括：

获取SHDOS数据集，所述SHDOS数据集包括：攻击数据集和正常数据集；

将所述攻击数据集进行分类处理得到安全地带数据集和边界地带数据集；

基于第一预设采样率对所述安全地带数据集进行过采样得到安全地带样本集，并基于第二预设采样率对所述边界地带数据集进行过采样得到边界地带样本集，所述第一预设采样率小于所述第二预设采样率；

根据所述安全地带样本集、所述边界地带样本集和所述正常数据集确定训练样本集。

第二方面，本发明实施例还提供了一种模型训练方法，包括：

获取训练样本集，所述训练样本集包括：SHDOS数据集中的正常数据集、所述SHDOS数据集中的攻击数据集对应的安全地带样本集和边界地带样本集，所述安全地带样本集和边界地带样本集是以不同的预设采样率分别对所述攻击数据集分类得到的安全地带数据集和边界地带数据集进行过采样得到的样本集；

利用所述训练样本集训练机器学习模型得到攻击检测模型。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例中任一所述的SHDOS数据处理方法或者实现本发明实施例中任一所述的模型训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的SHDOS数据处理方法或者实现本发明实施例中任一所述的模型训练方法。

本发明实施例通过获取SHDOS数据集，SHDOS数据集包括：攻击数据集和正常数据集；将攻击数据集进行分类处理得到安全地带数据集和边界地带数据集；基于第一预设采样率对安全地带数据集进行过采样得到安全地带样本集，并基于第二预设采样率对边界地带数据集进行过采样得到边界地带样本集，第一预设采样率小于第二预设采样率；根据安全地带样本集、边界地带样本集和正常数据集的集合确定训练样本集，训练样本集用于训练机器学习模型得到攻击检测模型，通过利用过采样的方法增加处于正常数据与攻击数据的边界地带的攻击样本，能让模型在边界地带上进行更多的训练来应对SHDOS的攻击场景，提高模型对频率变化的SHDOS攻击的检测精度。并且对于攻击数据中的安全地带数据进行少量过采样，最大程度利用少数攻击数据的所有信息，避免少数样本可能存在的偶然性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例一中的一种SHDOS数据处理方法的流程图；

图2是本发明实施例二中的一种SHDOS数据处理方法的流程图；

图3是本发明实施例三中的一种模型训练方法的流程图；

图4是本发明实施例四中的一种SHDOS数据处理装置的结构示意图；

图5是本发明实施例五中的一种模型训练装置的结构示意图；

图6是本发明实施例六中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例一

图1为本发明实施例一提供的一种SHDOS数据处理方法的流程图，本实施例可适用于对SHDOS数据进行处理得到用于训练机器学习模型的训练样本集的情况，该方法可以由本发明实施例中的SHDOS数据处理装置来执行，该装置可采用软件和/或硬件的方式实现。如图1所示，该方法具体包括如下步骤：

S110，获取SHDOS数据集，SHDOS数据集包括：攻击数据集和正常数据集。

其中，SHDOS数据集是指针对HTTP协议的慢速拒绝服务攻击(Slow HTTP Denialof Service，SHDOS)数据构成的集合，SHDOS数据集包括攻击数据集和正常数据集。攻击数据集在网络遭受到SHDOS攻击时所采集的流量数据，正常数据为网络正常运行过程中所采集的流量数据。

其中，SHDOS攻击主要分为三类，分别是slow post攻击、slow headers攻击、slowread攻击。slow post攻击通过往请求包头部中的Content-Length字段写入一个较大值再发送较小的数据来让服务器处于等待状态，slow headers攻击则是通过伪造一个不完整的请求头部来让服务器进入长时间等待以此来占用连接，slow read则是通过以极低的速率读取来自服务器的数据来消耗目标资源。本发明实施例所提供的SHDOS数据处理方法可适用于上述三种攻击类型。

具体的，获取SHDOS数据集的方式可以是利用开源网站或官方网站公布的开源数据中获取SHDOS数据集。例如CICIDS2018中2018-02-15Thursday当天的SHDOS数据集，其中包含996077条正常数据，10990条攻击数据。从流量层面上看，被攻击时网络中只有极少数的流量为攻击流量，即攻击流量占当前网络流量比例极小。如果将获取到SHDOS数据集直接用于模型的训练，由于攻击样本占比极小，模型只需将所有的样本都识别为正常样本就可以达到超过99％的准确率，但实际上模型无法准确检测到大量处于正常数据和攻击数据的边界地带数据。

S120，将攻击数据集进行分类处理得到安全地带数据集和边界地带数据集。

其中，安全地带数据集是攻击数据集中处于安全地带的攻击数据的集合，处于安全地带的攻击数据可以认为是在一个攻击数据的预设范围内的数据也大多是攻击数据，即攻击数据在其他攻击所包围的相对稳定地带内。

类似的，边界地带数据集是攻击数据集中处于边界地带的攻击数据的集合，处于边界地带的攻击数据可以认为是在一个攻击数据的预设范围内的数据大多是正常数据，即攻击数据在正常数据和攻击数据的边界处。边界地带数据反映了SHDOS攻击的频率多变性，现有的攻击检测模型对于边界地带数据的检测精度往往较低，从而对于频率变化的SHDOS攻击有较低的检测精度。

S130，基于第一预设采样率对安全地带数据集进行过采样得到安全地带样本集，并基于第二预设采样率对边界地带数据集进行过采样得到边界地带样本集，第一预设采样率小于第二预设采样率；

其中，第一预设采样率和第二预设采样率可以根据用户的需求或者攻击数据或正常数据在SHDOS数据集中的数量比设定，但必须要保证第一预设采样率小于第二预设采样率，优选的，第一预设采样率远远小于第二预设采样率。

具体的，基于大于第一预设采样率的第二预设采样率对边界地带数据集进行大量过采样得到边界地带样本集使攻击数据中的边界地带数据相对增多，从而可以利用更多的边界地带样本参与模型训练，增强模型对边界地带数据的识别能力，强化模型对于频率多变的SHDOS的检测。

由于获取到的SHDOS数据集中攻击数据的数量相对于正常数据的数量较小，小样本数据的分布具有更多的偶然性，数据所包含的信息量也较少，如果完全忽略少数类中安全样本的数据，将会损失部分有价值的信息。因此，基于第一预设采样率对安全地带数据集进行少量过采样得到安全地带样本集，可以最大程度利用少数攻击数据的所有有效信息，避免由于样本数据不足可能存在的偶然性。

S140，根据安全地带样本集、边界地带样本集和正常数据集确定训练样本集，训练样本集用于训练机器学习模型得到攻击检测模型。

其中，训练样本集可用于训练机器学习模型得到攻击检测模型。机器学习模型例如可以是二分类机器学习模型或随机森林模型等模型。

具体的，根据过采样得到的安全地带样本集和边界地带样本集，以及正常数据集进行合并，将合并得到的集合作为训练样本集。由于训练样本集中存在大量边界地带样本，因此模型在边界地带会进行更多的训练，最终得到的模型对于边界地带数据自然具有更高的检测精度。

本实施例的技术方案，通过获取SHDOS数据集，SHDOS数据集包括：攻击数据集和正常数据集；将攻击数据集进行分类处理得到安全地带数据集和边界地带数据集；基于第一预设采样率对安全地带数据集进行过采样得到安全地带样本集，并基于第二预设采样率对边界地带数据集进行过采样得到边界地带样本集，第一预设采样率小于第二预设采样率；根据安全地带样本集、边界地带样本集和正常数据集的集合确定训练样本集，训练样本集用于训练机器学习模型得到攻击检测模型，通过利用过采样的方法增加处于正常数据与攻击数据的边界地带的攻击样本，能让模型在边界地带上进行更多的训练来应对SHDOS的攻击场景，提高模型对频率变化的SHDOS攻击的检测精度。并且对于攻击数据中的安全地带数据进行少量过采样，最大程度利用少数攻击数据的所有信息，避免少数样本可能存在的偶然性。

在上述实施例的基础上，直接从开源网站中下载的SHDOS数据集中具有较多的流量特征且各个特征的量纲不一致，并且还可能存在噪声，影响基于最终得到的训练样本集训练机器学习模型得到的攻击检测模型精确度。

可选的，在获取SHDOS数据集之后，将攻击数据集进行分类处理得到安全地带数据集和边界地带数据集之前，还包括：

获取SHDOS数据集中每个数据的特征向量；

基于各特征向量对SHDOS数据集中每个数据归一化处理得到标准数据集；

对标准数据集进行降噪处理，以得到降噪后的攻击数据集和正常数据集。

示例性的，获取SHDOS数据集中每个数据的特征向量的方式可以是：在一些官方网站中下载的SHDOS数据集中已经包含数据的特征向量，直接获取所下载数据的特征向量，或者也可以采用任何一种特征提取方法提取SHDOS数据集中每个数据的特征向量。

由于数据集中具有较多的流量特征且各个特征的量纲不一致，若直接将这些特征进行模型训练和预测，会导致数值较大的特征对结果的影响程度较大，数值较小的特征对结果的影响程度较小。因此这里将利用min-max归一化方法将各个数据的特征值映射到区间0-1之间，保证结果的可靠性。归一化公式如下：

其中，x为SHDOS数据集中每个数据，该数据由特征值表示，x_min为SHDOS数据集中各数据对应的最小特征值，x_max为SHDOS数据集中各数据对应的最大特征值。

基于上述归一化方法对SHDOS数据集中每个数据对应的特征向量的特征值归一化处理得到标准数据集之后，还可以对SHDOS数据集中每个数据进行降噪。

可选的，对标准数据集进行降噪处理包括：

针对标准数据集的每个标准数据，计算标准数据的特征向量与SHDOS数据集中的其他数据的特征向量之间的欧式距离；

确定各标准数据对应的近邻数据集，近邻数据集包括：与标准数据的欧式距离最小的预设数量个近邻数据；

对于标准数据集中的攻击数据集所包含的每个攻击数据，若攻击数据对应的近邻数据集所包含的近邻数据全部为正常数据，则删除攻击数据；

对于标准数据集中的正常数据集所包含的每个正常数据，若正常数据对应的近邻数据集所包含的近邻数据全部为攻击数据，则删除正常数据。

具体的，针对标准数据集X的每个标准数据x_i，计算标准数据的特征向量与SHDOS数据集中的其他数据x_j的特征向量之间的欧式距离d_i，欧式距离的计算公式为：

标准数据的特征向量与SHDOS数据集中的其他数据x_j的特征向量之间的欧式距离d_i从小到大进行排序，从中选择前预设数量的欧式距离d_i对应的数据x_j构成标准数据x_i的近邻数据集。SHDOS数据集包括：攻击数据集和正常数据集，对SHDOS数据集进行归一化处理后的标准数据集也包括：攻击数据集和正常数据集；对于标准数据集中的攻击数据集所包含的每个攻击数据，若攻击数据对应的近邻数据集所包含的近邻数据全部为正常数据，则认为该攻击数据为噪声，从标准数据集删除该攻击数据；对于标准数据集中的正常数据集所包含的每个正常数据，若正常数据对应的近邻数据集所包含的近邻数据全部为攻击数据，则认为该正常数据为噪声，从标准数据集中删除该正常数据。

在将攻击数据集进行分类处理得到安全地带数据集和边界地带数据集之前进行了去噪，除去数量较多的正常数据集和数量较少的攻击数据集中的噪声数据。本方案虽然只对攻击数据集进行过采样，但是也要去除正常数据集的噪声数据，因为正常数据集的噪声数据可能作为攻击数据集中的攻击数据的近邻数据参与过采样，导致新生成了无效的噪声数据。同时此处去除的噪声数据不仅不会在后续的过采样过程中被分类采样，同时也不会作为新生成的平衡数据集参与后续的训练过程，这将最大程度排除无效数据的干扰。

实施例二

图2为本发明实施例二中的一种SHDOS数据处理方法的流程图，本实施例以上述实施例为基础对步骤S120，将攻击数据集进行分类处理得到安全地带数据集和边界地带数据集进行优化。

如图2所示，本实施例的方法具体包括如下步骤：

S210，获取SHDOS数据集，SHDOS数据集包括：攻击数据集和正常数据集。

S220，获取攻击数据集中的每个攻击数据对应的近邻数据集，近邻数据集包括：近邻攻击数据和近邻正常数据。

其中，攻击数据集为多个攻击数据的集合，每个攻击数据对应一个近邻数据集，近邻数据集可以认为是攻击数据周围预设范围内的攻击数据或正常数据，因此，近邻数据集包括：近邻攻击数据和近邻正常数据。

具体的，依次确定每个攻击数据预设范围内的所有数据或部分数据，构成该攻击数据对应的近邻数据集，近邻数据集中近邻数据的数量可以自行设定。

在一个具体的例子中，计算攻击数据集中每个攻击数据和SHDOS数据集中每个数据的欧氏距离，将欧氏距离小于预设距离的数据确定为攻击数据的近邻数据，其中，为攻击数据的近邻数据确定为近邻攻击数据，为正常数据的近邻数据确定为近邻正常数据。

在另一个具体的例子中，计算攻击数据集中每个攻击数据和SHDOS数据集中每个数据的欧氏距离，将欧氏距离最小的预设数量的数据确定为攻击数据的近邻数据，其中，为攻击数据的近邻数据确定为近邻攻击数据，为正常数据的近邻数据确定为近邻正常数据。

S230，若近邻攻击数据与近邻数据集所包含近邻数据的数量比大于第一预设比例，则将攻击数据确定为安全地带数据，并确定攻击数据集中每个安全地带数据所构成的安全地带数据集。

其中，第一预设比例可以根据用户的需求设定，例如可以为50％。

示例性的，对于攻击数据集D中的每个攻击数据d_i的近邻数据集C＝C_a+C_n＝{c_a}+{c_n}，c_a为近邻攻击数据，c_n为近邻正常数据，若近邻攻击数据c_a与近邻数据集C所包含近邻数据的数量比大于第一预设比例，则将d_i确定为安全地带数据s_j，从而确定攻击数据集D中所有的安全地带数据s_j所构成的安全地带数据集S。

S240，若近邻正常数据与近邻数据集所包含近邻数据的数量比大于第二预设比例，则攻击数据确定为边界地带数据，并确定攻击数据集中每个边界地带数据所构成的边界地带数据集。

其中，第二预设比例可以根据用户的需求设定，第二预设比例可以和第一预设比例相同或不同，例如可以为50％。

示例性的，对于攻击数据集D中的每个攻击数据d_i的近邻数据集C＝C_a+C_n＝{c_a}+{c_n}，c_a为近邻攻击数据，c_n为近邻正常数据，若近邻正常数据c_n与近邻数据集C所包含近邻数据的数量比大于第二预设比例，则将d_i确定为边界地带l_k，从而确定攻击数据集D中所有的边界地带数据l_k所构成的边界地带数据集L。

S250，基于第一预设采样率对安全地带数据集进行过采样得到安全地带样本集，并基于第二预设采样率对边界地带数据集进行过采样得到边界地带样本集，第一预设采样率小于第二预设采样率。

S260，根据安全地带样本集、边界地带样本集和正常数据集的集合确定训练样本集，训练样本集用于训练机器学习模型得到攻击检测模型。

本实施例的技术方案，通过获取SHDOS数据集，SHDOS数据集包括：攻击数据集和正常数据集；将攻击数据集进行分类处理得到安全地带数据集和边界地带数据集；基于第一预设采样率对安全地带数据集进行过采样得到安全地带样本集，并基于第二预设采样率对边界地带数据集进行过采样得到边界地带样本集，第一预设采样率小于第二预设采样率；根据安全地带样本集、边界地带样本集和正常数据集的集合确定训练样本集，训练样本集用于训练机器学习模型得到攻击检测模型，通过利用过采样的方法增加处于正常数据与攻击数据的边界地带的攻击样本，利用更多的边界地带的数据来强化各类模型对于频率多变的SHDOS攻击的检测，从而能够训练得到对于频率变化的SHDOS攻击有较高检测精度的模型，并对于攻击数据中的安全地带数据进行少量过采样，最大程度利用少数攻击数据的所有信息，避免少数样本可能存在的偶然性。

在上述实施例的基础上，步骤S250，基于第一预设采样率对安全地带数据集进行过采样得到安全地带样本集，与基于第二预设采样率对边界地带数据集进行过采样得到边界地带样本集的步骤基本相同，可以认为是：基于预设采样率对目标数据集进行过采样得到目标样本集。

可选的，基于预设采样率对目标数据集进行过采样得到目标样本集，包括：

从目标数据集中随机选取一个目标数据，对目标数据进行线性插值操作得到插值数据；

其中，线性插值操作为：从目标数据对应的近邻数据集中随机选择一个近邻数据，基于近邻数据和目标数据确定插值数据；

基于预设采样率所确定的采样次数重复执行从目标数据集中随机选取一个目标数据，对所述目标数据进行线性插值操作得到插值数据的操作，得到采样次数个插值数据构成的目标样本集；

其中，目标数据集包括：安全地带数据集或者边界地带数据集，目标数据包括：安全地带数据集中的安全地带数据或者边界地带数据集中的边界地带数据，预设采样率包括：第一预设采样率或者第二采样率；目标样本集包括：基于第一预设采样率对安全地带数据集进行过采样得到的安全地带样本集，或者基于第二预设采样率对边界地带数据集进行过采样得到的边界地带样本集。

示例性的，步骤S250包括：步骤S251和步骤S252，其中，步骤S251和步骤S252的执行顺序不分先后，可以依次执行也可以同时执行。

步骤S251，基于第一预设采样率对安全地带数据集进行过采样得到安全地带样本集。

具体的，从安全地带数据集中随机选取一个安全地带数据，对安全地带数据进行线性插值操作得到第一插值数据；其中，线性插值操作为：从安全地带数据对应的近邻数据集中随机选择一个近邻数据，基于近邻数据和安全地带数据确定第一插值数据；基于第一预设采样率所确定的第一采样次数重复执行上述从安全地带数据集中随机选取一个安全地带数据，对安全地带数据进行线性插值操作得到第一插值数据的操作，得到第一采样次数个第一插值数据构成的安全地带样本集。基于近邻数据和安全地带数据确定插值数据的公式为：

n_s＝(1-r₁)s_i+r₁*c_k1(0<k₁<m₁)；

其中，s_i为安全地带数据，n_s为安全地带数据集对应的第一插值数据，r₁为0到1的随机数，c_k1是从安全地带数据对应的第一近邻数据集C₁中随机选择的一个近邻数据，m₁是每个安全地带数据对应的第一近邻数据集中近邻数据的个数。

步骤S252，基于第二预设采样率对边界地带数据集进行过采样得到边界地带样本集。

具体的，从边界地带数据集中随机选取一个边界地带数据，对该边界地带数据进行线性插值操作得到第二插值数据；其中，线性插值操作为：从所述边界地带数据对应的近邻数据集中随机选择一个近邻数据，基于近邻数据和边界地带数据确定插值数据；基于第二预设采样率所确定的第二采样次数重复执行上述从边界地带数据集中随机选取一个边界地带数据，对该边界地带数据进行线性插值操作得到第二新插值数据的操作，得到第二采样次数个第二插值数据构成的边界地带样本集。基于近邻数据和边界地带数据确定插值数据的公式为：

n_l＝(1-r₂)l_i+r₂*c_k2(0<k2<m2)；

其中，l_i为边界地带数据，n_l为边界地带数据集对应的第二插值数据，r₂为0到1的随机数，c_k2是从边界地带数据对应的第二近邻数据集C₂中随机选择的一个近邻数据，m₂是每个边界地带数据对应的第二近邻数据集中近邻数据的个数。

在上述实施例的基础上，可选的，步骤S260根据安全地带样本集、边界地带样本集和正常数据集的集合确定训练样本集，包括：

将安全地带样本集、边界地带样本集和正常数据集的集合确定为平衡数据集；

对平衡数据集中的每个数据进行降维处理得到训练样本集。

具体的，将过采样得到的安全地带样本集和边界地带样本集，以及正常数据集进行合并的得到平衡数据集。平衡数据集中的边界地带样本经过大量过采样得到，从而可以利用更多的边界地带数据来强化各类模型对于频率多变的SHDOS的检测；平衡数据集中的安全地带样本经过少量过采样得到，从而可以最大程度利用少数攻击数据的所有信息，避免少数类样本可能存在的偶然性。

然而，经过上述过采样处理后得到的平衡数据集中的每条数据流都存在着较多维的特征，数据维度之间存在冗余，且各个维度之间具有强相关性，为了减少数据维度的冗余，减少模型训练的计算量，提高模型训练效率，可以对平衡数据集中的每个数据进行降维处理得到训练样本集，将训练样本集用于训练机器学习模型得到攻击检测模型。

示例性的，对平衡数据集中的每个数据进行降维处理得到训练样本集的方式可以采用主成分分析法PCA、非负矩阵分解方法(NMF)或线性判别分析(LDA)等降维方法。

可选的，对平衡数据集中的每个数据进行降维处理得到训练样本集，包括：

获取平衡数据集中每个数据的特征向量；

基于各特征向量确定平衡数据集的特征矩阵；

对特征矩阵中每一行的特征值进行零均值化；

确定零均值化后的特征矩阵对应的协方差矩阵，计算得到协方差矩阵的协方差特征值和协方差特征向量；

基于协方差特征值和协方差特征向量确定降维矩阵；

将降维矩阵与平衡数据集的特征矩阵相乘得到的矩阵确定为训练样本集。

具体的，采用主成分分析法对平衡数据集中的每个数据进行降维处理得到训练样本集，主成分分析法是通过正交变换实现数据的降维，同时使得变换后的数据间有最大的方差，以此来减少各个数据维度之间的相关性。具体步骤包括：采用任意一种现有的特征提取方法获取平衡数据集中每个数据的特征向量t_e，该特征向量t_e为维度为q的特征列向量，基于各数据的特征向量确定平衡数据集对应的特征矩阵T＝{t₁,t₂,…,t_e,…,t_n}，对每一维特征，即特征矩阵的每一行进行零均值化得到：

计算零均值化后特征矩阵对应的协方差矩阵C为：

对上述协方差矩阵C进行求解，解出协方差矩阵C的特征值为(λ₁,λ₂,…,λ_p)以及特征向量为(α₁,α₂,…,α_p)，再根据特征值的大小选取前h个特征向量组成矩阵P，最后则是利用该矩阵P与原特征矩阵T相乘得到降维到h维后数据的特征矩阵：

T′＝PT。

将降维到h维后数据的特征矩阵确定为训练样本集，特征矩阵中的矩阵元素为训练样本集中的各训练样本。

实施例三

图3为本发明实施例三提供的一种模型训练方法的流程图，本实施例可适用于基于上述实施例确定的训练样本集训练机器学习模型得到攻击检测模型的情况，该方法可以由本发明实施例中的模型训练装置来执行，该装置可采用软件和/或硬件的方式实现。如图3所示，该方法具体包括如下步骤：

S310，获取训练样本集，训练样本集包括：SHDOS数据集中的正常数据集、SHDOS数据集中的攻击数据集对应的安全地带样本集和边界地带样本集，安全地带样本集和边界地带样本集是以不同的预设采样率分别对攻击数据集分类得到的安全地带数据集和边界地带数据集进行过采样得到的样本集。

其中，训练样本集是采用实施例一或实施例二的SHDOS数据处理方法得到的样本集。

具体的，获取SHDOS数据集，SHDOS数据集包括：攻击数据集和正常数据集；将攻击数据集进行分类处理得到安全地带数据集和边界地带数据集；基于第一预设采样率对安全地带数据集进行过采样得到安全地带样本集，并基于第二预设采样率对边界地带数据集进行过采样得到边界地带样本集，第一预设采样率小于第二预设采样率；根据安全地带样本集、边界地带样本集和正常数据集的集合确定训练样本集。

S320，利用训练样本集训练机器学习模型得到攻击检测模型。

其中，机器学习模型例如可以是二分类机器学习模型或随机森林模型等模型，本发明实施例对此不设限制。

SHDOS攻击由于随网页应用模型变化的攻击趋势，将导致在数据层面上有大量的攻击数据处于攻击数据与正常数据的边缘地带，因此模型对于边缘地带数据的检测精度将决定整个模型的性能。将经过上述处理后的训练样本集利用机器学习模型进行训练，由于训练样本中存在大量边界地带的数据，模型在边界地带会进行更多的训练，因而最终得到的攻击检测模型对于边界地带数据具有更高检测精度。

本实施例的技术方案，通过获取训练样本集，训练样本集包括：SHDOS数据集中的正常数据集、SHDOS数据集中的攻击数据集对应的安全地带样本集和边界地带样本集，安全地带样本集和边界地带样本集是以不同的预设采样率分别对攻击数据集分类得到的安全地带数据集和边界地带数据集进行过采样得到的样本集；利用训练样本集训练机器学习模型得到攻击检测模型，能够提高攻击检测模型对边界地带数据的检测精度，提高攻击检测模型与SHDOS攻击场景的契合度。

实施例四

图4为本发明实施例四提供的一种SHDOS数据处理装置的结构示意图。本实施例可适用于对SHDOS数据进行处理得到用于训练机器学习模型的训练样本集的情况，该装置可采用软件和/或硬件的方式实现，该装置可集成在任何提供SHDOS数据处理的功能的设备中，如图4所示，SHDOS数据处理装置具体包括：获取模块410、分类模块420、过采样模块430和确定模块440。

其中，获取模块410，用于获取SHDOS数据集，SHDOS数据集包括：攻击数据集和正常数据集；

分类模块420，用于将攻击数据集进行分类处理得到安全地带数据集和边界地带数据集；

过采样模块430，用于基于第一预设采样率对安全地带数据集进行过采样得到安全地带样本集，并基于第二预设采样率对边界地带数据集进行过采样得到边界地带样本集，第一预设采样率小于第二预设采样率；

确定模块440，用于根据安全地带样本集、边界地带样本集和正常数据集的集合确定训练样本集，训练样本集用于训练机器学习模型得到攻击检测模型。

可选的，所述分类模块420，具体用于：

获取攻击数据集中的每个攻击数据对应的近邻数据集，近邻数据集包括：近邻攻击数据和近邻正常数据；

若近邻攻击数据与近邻数据集所包含近邻数据的数量比大于第一预设比例，则将攻击数据确定为安全地带数据，并确定攻击数据集中每个安全地带数据所构成的安全地带数据集；

若近邻正常数据与近邻数据集所包含近邻数据的数量比大于第二预设比例，则攻击数据确定为边界地带数据，并确定攻击数据集中每个边界地带数据所构成的边界地带数据集。

可选的，所述过采样模块430，具体用于：

从目标数据集中随机选取一个目标数据，对该目标数据进行线性插值操作得到插值数据；

其中，目标数据集包括：安全地带数据集或者边界地带数据集，目标数据包括：安全地带数据集中的安全地带数据或者边界地带数据集中的边界地带数据；预设采样率包括：第一预设采样率或者第二采样率；目标样本集包括：基于第一预设采样率对安全地带数据集进行过采样得到的安全地带样本集，或者基于第二预设采样率对边界地带数据集进行过采样得到的边界地带样本集。

可选的，所述确定模块440，包括：

确定单元，用于将安全地带样本集、边界地带样本集和正常数据集的集合确定为平衡数据集；

降维单元，用于对平衡数据集中的每个数据进行降维处理得到训练样本集。

可选的，所述降维单元，具体用于：

获取平衡数据集中每个数据的特征向量；

基于各特征向量确定平衡数据集的特征矩阵；

对特征矩阵中每一行的特征值进行零均值化；

基于协方差特征值和协方差特征向量确定降维矩阵；

可选的，所述装置还包括：

特征向量获取模块，用于在获取SHDOS数据集之后，将攻击数据集进行分类处理得到安全地带数据集和边界地带数据集之前，获取SHDOS数据集中每个数据的特征向量；

归一处理模块，用于基于各特征向量对SHDOS数据集中每个数据归一化处理得到标准数据集；

降噪处理模块，用于对标准数据集进行降噪处理，以得到降噪后的攻击数据集和正常数据集。

可选的，所述降噪处理模块具体用于：

上述产品可执行本发明任意实施例所提供的SHDOS数据处理方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种模型训练装置的结构示意图。本实施例可适用于基于上述SHDOS数据处理方法确定的训练样本集训练机器学习模型得到攻击检测模型的情况，该装置可采用软件和/或硬件的方式实现，该装置可集成在任何提供SHDOS数据处理的功能的设备中，如图5所示，SHDOS数据处理装置具体包括：获取模块510和训练模块520。

获取模块510，用于获取训练样本集，训练样本集包括：SHDOS数据集中的正常数据集、SHDOS数据集中的攻击数据集对应的安全地带样本集和边界地带样本集，安全地带样本集和边界地带样本集是以不同的预设采样率分别对攻击数据集分类得到的安全地带数据集和边界地带数据集进行过采样得到的样本集；

训练模块520，用于利用训练样本集训练机器学习模型得到攻击检测模型。

上述产品可执行本发明任意实施例所提供的模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6为本发明实施例六提供的一种计算机设备的结构框图，如图6所示，该计算机设备包括处理器610、存储器620、输入装置630和输出装置640；计算机设备中处理器610的数量可以是一个或多个，图6中以一个处理器610为例；计算机设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器620作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的SHDOS数据处理方法对应的程序指令/模块(例如，SHDOS数据处理装置中的获取模块410、分类模块420、过采样模块430和确定模块440)，或者如本发明实施例中的模型训练方法对应的程序指令/模块(例如，模型训练装置中的获取模块510和训练模块520)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的……方法。

存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器620可进一步包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

实施例七

本发明实施例七提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的SHDOS数据处理方法：获取SHDOS数据集，SHDOS数据集包括：攻击数据集和正常数据集；将攻击数据集进行分类处理得到安全地带数据集和边界地带数据集；基于第一预设采样率对安全地带数据集进行过采样得到安全地带样本集，并基于第二预设采样率对边界地带数据集进行过采样得到边界地带样本集，第一预设采样率小于第二预设采样率；根据安全地带样本集、边界地带样本集和正常数据集的集合确定训练样本集，训练样本集用于训练机器学习模型得到攻击检测模型。

或者模型训练方法：获取训练样本集，训练样本集包括：SHDOS数据集中的正常数据集、SHDOS数据集中的攻击数据集对应的安全地带样本集和边界地带样本集，安全地带样本集和边界地带样本集是以不同的预设采样率分别对攻击数据集分类得到的安全地带数据集和边界地带数据集进行过采样得到的样本集；利用训练样本集训练机器学习模型得到攻击检测模型。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种SHDOS数据处理方法，其特征在于，包括：

根据所述安全地带样本集、所述边界地带样本集和所述正常数据集的集合确定训练样本集，所述训练样本集用于训练机器学习模型得到攻击检测模型。

2.根据权利要求1所述的方法，其特征在于，将所述攻击数据集进行分类处理得到安全地带数据集和边界地带数据集，包括：

获取所述攻击数据集中的每个攻击数据对应的近邻数据集，所述近邻数据集包括：近邻攻击数据和近邻正常数据；

若所述近邻攻击数据与所述近邻数据集所包含近邻数据的数量比大于第一预设比例，则将所述攻击数据确定为安全地带数据，并确定所述攻击数据集中每个安全地带数据所构成的安全地带数据集；

若所述近邻正常数据与所述近邻数据集所包含近邻数据的数量比大于第二预设比例，则所述攻击数据确定为边界地带数据，并确定所述攻击数据集中每个边界地带数据所构成的边界地带数据集。

3.根据权利要求1所述的方法，其特征在于，基于预设采样率对目标数据集进行过采样得到目标样本集，包括：

从目标数据集中随机选取一个目标数据，对所述目标数据进行线性插值操作得到插值数据；

其中，所述线性插值操作为：从所述目标数据对应的近邻数据集中随机选择一个近邻数据，基于所述近邻数据和所述目标数据确定插值数据；

其中，所述目标数据集包括：所述安全地带数据集或者所述边界地带数据集，所述目标数据包括：所述安全地带数据集中的安全地带数据或者所述边界地带数据集中的边界地带数据；所述预设采样率包括：第一预设采样率或者第二采样率；所述目标样本集包括：基于第一预设采样率对所述安全地带数据集进行过采样得到的安全地带样本集，或者基于第二预设采样率对所述边界地带数据集进行过采样得到的边界地带样本集。

4.根据权利要求1所述的方法，其特征在于，根据所述安全地带样本集、所述边界地带样本集和所述正常数据集的集合确定训练样本集，包括：

将所述安全地带样本集、所述边界地带样本集和所述正常数据集的集合确定为平衡数据集；

对所述平衡数据集中的每个数据进行降维处理得到训练样本集。

5.根据权利要求4所述的方法，其特征在于，对所述平衡数据集中的每个数据进行降维处理得到训练样本集，包括：

获取所述平衡数据集中每个数据的特征向量；

基于各所述特征向量确定所述平衡数据集的特征矩阵；

对所述特征矩阵中每一行的特征值进行零均值化；

确定零均值化后的特征矩阵对应的协方差矩阵，计算得到所述协方差矩阵的协方差特征值和协方差特征向量；

基于所述协方差特征值和所述协方差特征向量确定降维矩阵；

将所述降维矩阵与所述平衡数据集的特征矩阵相乘得到的矩阵确定为训练样本集。

6.根据权利要求1所述的方法，其特征在于，在获取SHDOS数据集之后，将所述攻击数据集进行分类处理得到安全地带数据集和边界地带数据集之前，还包括：

获取所述SHDOS数据集中每个数据的特征向量；

基于各所述特征向量对所述SHDOS数据集中每个数据归一化处理得到标准数据集；

对所述标准数据集进行降噪处理，以得到降噪后的攻击数据集和正常数据集。

7.根据权利要求6所述的方法，其特征在于，对所述标准数据集进行降噪处理包括：

针对所述标准数据集的每个标准数据，计算所述标准数据的特征向量与所述SHDOS数据集中的其他数据的特征向量之间的欧式距离；

确定各所述标准数据对应的近邻数据集，所述近邻数据集包括：与所述标准数据的欧式距离最小的预设数量个近邻数据；

对于所述标准数据集中的攻击数据集所包含的每个攻击数据，若所述攻击数据对应的近邻数据集所包含的近邻数据全部为正常数据，则删除所述攻击数据；

对于所述标准数据集中的正常数据集所包含的每个正常数据，若所述正常数据对应的近邻数据集所包含的近邻数据全部为攻击数据，则删除所述正常数据。

8.一种模型训练方法，其特征在于，包括：

利用所述训练样本集训练机器学习模型得到攻击检测模型。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的SHDOS数据处理方法或者实现如权利要求8所述的模型训练方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的SHDOS数据处理方法或者实现如权利要求8所述的模型训练方法。