CN114024726A

CN114024726A - 在线检测网络流量的方法及系统

Info

Publication number: CN114024726A
Application number: CN202111244852.1A
Authority: CN
Inventors: 张晗; 尹霞; 施新刚; 王继龙; 王之梁
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-02-08
Anticipated expiration: 2041-10-26
Also published as: CN114024726B

Abstract

本申请公开了一种在线检测网络流量的方法及系统，获取设定时间窗内的网络流量样本，得到对应不同网络属性特征类别的网络流量样本空间；采用分割熵方式进行计算，得到低、中概率联合空间的样本熵向量集合，及得到高、中概率联合空间的样本熵向量集合；通过生成式抵抗网络(GAN)进行扩充，得到扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合；训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围；当在线检测网络流量时，从网络中获取设定时间窗内的网络流量，计算得到低、中概率联合空间的熵向量集合，及计算得到高、中概率联合空间的样本熵向量集合后，基于训练得到的对应网络属性特征类别的正常低熵范围及正常高熵范围进行判断，得到对应的网络属性特征的异常检测结果；基于所述异常检测结果对应的网络属性特征，确定得到网络异常类型。这样，本申请实施例在线检测网络流量，得到准确的网络异常类型。

Description

在线检测网络流量的方法及系统

技术领域

本申请涉及计算机网络技术，特别涉及一种在线检测网络流量的方法及系统。

背景技术

随着计算机网络的快速发展，对计算机网络的安全运行要求也越来越高，需要对计算机网络的运行安全进行在线检测。通常，在第计算机网络的运行安全进行在线检测时，通过在线检测计算机网络的网络流量，基于检测得到的网络流量信息确定对应的网络异常类型，根据该网络异常类型对网络维护，保证网络的安全运行。

目前，当在线检测网络流量时，基于所获取的网络流量进行熵值计算，计算得到的熵值未落入到预设的正常熵值阈值范围内时，则确认当前网络出现运行异常，异常信息为该正常熵值阈值范围对应的运行异常类型。但是，采用上述方式实现网络的运行异常检测时，由于仅仅是基于获取的网络流量计算的熵值确定网络异常类型，由于正常熵值范围预先设定且不会调整，当存在网络流量波动、以及对网络进行叠加攻击或小规模攻击时造成网络流量突发异常时，会引起网络运行异常的误报。更进一步地，预设的正常熵值阈值范围不能适应网络变化而变化。因此，目前在线检测网络流量的方式无法准确地确定网络异常类型，容易出现网络异常的误报，很难将该方式部署在大规模的动态网络环境中实施。

发明内容

有鉴于此，本申请实施例提供一种在线检测网络流量的方法，该方法能够在线检测网络流量，得到准确的网络异常类型。

本申请实施例还提供一种在线检测网络流量的系统，该系统能够在线检测网络流量，得到准确的网络异常类型。

本申请实施例是这样实现的：

一种在线检测网络流量的方法，所述方法包括：

获取设定时间窗内的网络流量样本，并根据网络属性特征类别进行分类，得到对应不同网络属性特征类别的网络流量样本空间；

对于每一网络流量样本空间中的网络流量样本，采用分割熵方式进行计算，得到低、中概率联合空间的样本熵向量集合，及得到高、中概率联合空间的样本熵向量集合；

将得到的低、中概率联合空间的样本熵向量集合及得到高、中概率联合空间的样本熵向量集合中的样本熵向量通过生成式抵抗网络GAN进行扩充，得到扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合；

基于扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合，训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围；

当在线检测网络流量时，从网络中获取设定时间窗内的网络流量，计算得到低、中概率联合空间的熵向量集合，及计算得到高、中概率联合空间的样本熵向量集合后，基于训练得到的对应网络属性特征类别的正常低熵范围及正常高熵范围进行判断，得到对应的网络属性特征的异常检测结果；基于所述异常检测结果对应的网络属性特征，确定得到网络异常类型。

较佳地，所述网络属性特征类别包括：

源网际协议IP地址、目的IP地址、源端口、目的端口、和设定时间窗内的网络流量Byte的字节数。

较佳地，所述采用分割熵方式对所述网络流量样本进行熵计算，得到低、中概率联合空间的样本熵向量集合，及得到高、中概率联合空间的样本熵向量集合包括：

对所述网络流量样本基于设置的低概率阈值及高概率阈值，进行分割，分割为低概率空间内的网络流量样本、中概率空间内的网络流量样本及高概率空间内的网络流量样本；

将低概率空间内的网络流量样本和中概率空间内的网络流量样本进行熵值计算，得到低、中概率联合空间的样本熵向量集合；

将中概率空间内的网络流量样本及高概率空间内的网络流量样本进行熵值计算，得到高、中概率联合空间的样本熵向量集合。

较佳地，所述通过生成式抵抗网络GAN进行扩充，得到扩充的样本熵向量包括：

分别对低、中概率联合空间的样本熵向量集合，及高、中概率联合空间的样本熵向量集合设置对应的异常标签，所述异常标签表示所述集合中的各个样本熵向量的流量异常类型或流量非异常；

对GAN进行训练，采用训练好的GAN进行扩充，得到扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合。

较佳地，所述对GAN进行训练包括：

GAN由生成器和判别器组成，将所述熵样本向量输入到生成器中，得到生成样本熵向量；

将得到的生成样本熵向量与所述熵样本向量输入到判别器中，计算得到所述熵样本向量占输入到判别器的熵样本向量的概率，基于所述概率值对所述生成器中的参数进行调整，直到基于得到的生成样本熵向量，通过所述判别器计算得到的概率满足设定的概率阈值。

较佳地，所述采用异常检测模型训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围包括：

a、基于扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合，分别设置正常低熵范围及设置正常高熵范围，所述正常低熵范围及正常高熵范围设置为最小值；

b、根据设置正常低熵范围的初始值，将扩充的低、中概率联合空间的样本熵向量集合中的流量异常类型的样本熵向量转化为流量正常类型的样本熵向量，根据设置正常高熵范围的初始值，将扩充的高、中概率联合空间的样本熵向量集合中的流量异常类型的样本熵向量转化为流量正常类型的样本熵向量后，输入到网络检测模型中进行网络异常检测，得到网络异常检测结果；

c、基于网络异常检测结果得出的误报率，如果该误报率大于设定的误报率范围，则对正常低熵范围及设置正常高熵范围进行调整后，返回步骤b继续执行，直到该误报率小于等于设定的误报率范围为止，得到调整后的正常低熵范围及正常高熵范围。

较佳地，所述基于训练得到的对应网络属性特征类别的正常低熵范围及正常高熵范围进行判断，得到对应的网络属性特征的异常检测结果包括：

若所述低、中概率联合空间的熵向量集合中有熵向量大于所述正常低熵范围，则所述熵向量集合异常，如果否，则所述熵向量集合正常；

若所述高、中概率联合空间的熵向量集合中有熵向量小于所述正常高熵范围，则所述熵向量集合异常，如果否，则所述熵向量集合正常。

较佳地，所述基于所述异常检测结果对应的网络属性特征，确定得到网络异常类型包括：

所述异常检测结果为源IP地址、目的IP地址及目的端口的网络属性特征类别分别对应的高、中概率联合空间的熵向量集合异常，得到的网络异常类型为拒绝服务攻击DoS类型；

所述异常检测结果为源IP地址和源端口的网络属性特征类别分别对应的高、中概率联合空间的熵向量集合异常，目的IP地址和目的端口的网络属性特征类别分别对应的高、中概率联合空间的熵向量集合异常，则得到的网络异常类型为反弹式拒绝服务攻击DDoS类型；

所述异常检测结果为Byte的网络属性特征类别对应的高、中概率联合空间的熵向量集合异常，则得到的网络异常类型为垃圾邮件攻击Spam类型；

所述异常检测结果为目的端口和Byte的网络属性特征类别对应的高、中概率联合空间的熵向量集合异常，则得到的网络异常类型为蠕虫病毒攻击Worm类型。

较佳地，所述方法还包括；

当在线检测网络流量时，基于判断得到对应的网络属性特征的异常检测结果计算误报率，如果该误报率大于设定的误报率范围，采用网络检测模型对正常低熵范围及设置正常高熵范围进行调整。

一种在线检测网络流量的系统，所述系统包括：样本生成单元、样本扩充单元、训练单元及应用单元，其中，

样本生成单元，用于获取设定时间窗内的网络流量样本，并根据网络属性特征类别进行分类，得到对应不同网络属性特征类别的网络流量样本空间；对于每一网络流量样本空间中的网络流量样本，采用分割熵方式进行计算，得到低、中概率联合空间的样本熵向量集合，及得到高、中概率联合空间的样本熵向量集合；

样本扩充单元，用于将得到的低、中概率联合空间的样本熵向量集合及得到高、中概率联合空间的样本熵向量集合中的样本熵向量通过生成式抵抗网络GAN进行扩充，得到扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合；

训练单元，用于基于扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合，训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围；

应用单元，用于当在线检测网络流量时，从网络中获取设定时间窗内的网络流量，计算得到低、中概率联合空间的熵向量集合，及计算得到高、中概率联合空间的样本熵向量集合后，基于训练得到的对应网络属性特征类别的正常低熵范围及正常高熵范围进行判断，得到对应的网络属性特征的异常检测结果；基于所述异常检测结果对应的网络属性特征，确定得到网络异常类型。

如上所见，本申请实施例获取设定时间窗内的网络流量样本，并根据网络属性特征类别进行分类，得到对应不同网络属性特征类别的网络流量样本空间；对于每一网络流量样本空间中的网络流量样本，采用分割熵方式进行计算，得到低、中概率联合空间的样本熵向量集合，及得到高、中概率联合空间的样本熵向量集合；将得到的低、中概率联合空间的样本熵向量集合及得到高、中概率联合空间的样本熵向量集合中的样本熵向量通过生成式抵抗网络(GAN)进行扩充，得到扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合；基于扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合，训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围；当在线检测网络流量时，从网络中获取设定时间窗内的网络流量，计算得到低、中概率联合空间的熵向量集合，及计算得到高、中概率联合空间的样本熵向量集合后，基于训练得到的对应网络属性特征类别的正常低熵范围及正常高熵范围进行判断，得到对应的网络属性特征的异常检测结果；基于所述异常检测结果对应的网络属性特征，确定得到网络异常类型。这样，本申请实施例基于大量的样本熵向量训练得到准确的正常低熵范围及正常高熵范围后，并据此对网络流量进行检测，获取得到准确的异常检测结果后根据对应的网络属性特征，就可以得到准确的网络运行异常类型。

附图说明

图1为本申请实施例提供的在线检测网络流量的方法流程图；

图2为本申请实施例提供的在线检测网络流量的系统结构示意图；

图3为本申请实施例提供的GAN实现样本熵向量的扩充过程示意图；

图4为本申请实施例提供的训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围示意图；

图5为本发明实施例在线检测网络流量的过程示意图；

图6为本申请提供的正常熵阈值θ_l及高、中概率联合样本空间的正常熵阈值θ_h进行更新的过程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本申请的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

从背景技术可以看出，当通过在线检测网络流量方式确定网络运行是否异常及网络异常类型时，虽然引入了熵技术实现，但是，其仅仅是基于获取的网络流量计算的熵值是否落入到所设置的对应网络异常类型的正常熵值范围，确定得出网络异常类型，这会引起网络运行异常的误报，无法准确地确定网络异常类型。本申请实施例为了克服上述问题，获取设定时间窗内的网络流量样本，并根据网络属性特征类别进行分类，得到对应不同网络属性特征类别的网络流量样本空间；对于每一网络流量样本空间中的网络流量样本，采用分割熵方式进行计算，得到低、中概率联合空间的样本熵向量集合，及得到高、中概率联合空间的样本熵向量集合；将得到的低、中概率联合空间的样本熵向量集合及得到高、中概率联合空间的样本熵向量集合中的样本熵向量通过GAN进行扩充，得到扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合；基于扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合，训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围；当在线检测网络流量时，从网络中获取设定时间窗内的网络流量，计算得到低、中概率联合空间的熵向量集合，及计算得到高、中概率联合空间的样本熵向量集合后，基于训练得到的对应网络属性特征类别的正常低熵范围及正常高熵范围进行判断，得到对应的网络属性特征的异常检测结果；基于所述异常检测结果对应的网络属性特征，确定得到网络异常类型。

这样，本申请实施例基于大量的样本熵向量训练得到准确的对应不同网络属性特性类别的正常低熵范围及正常高熵范围后，并据此对网络流量进行检测，获取得到准确的异常检测结果后根据对应的网络属性特征，就可以得到准确的网络运行异常类型。

图1为本申请实施例提供的一种在线检测网络流量的方法流程图，其具体步骤包括：

步骤101、获取设定时间窗内的网络流量样本，并根据网络属性特征类别进行分类，得到对应不同网络属性特征类别的网络流量样本空间；

步骤102、对于每一网络流量样本空间中的网络流量样本，采用分割熵方式进行计算，得到低、中概率联合空间的样本熵向量集合，及得到高、中概率联合空间的样本熵向量集合；

步骤103、将得到的低、中概率联合空间的样本熵向量集合及得到高、中概率联合空间的样本熵向量集合中的样本熵向量通过GAN进行扩充，得到扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合；

步骤104、基于扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合，训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围；

步骤105、当在线检测网络流量时，从网络中获取设定时间窗内的网络流量，计算得到低、中概率联合空间的熵向量集合，及计算得到高、中概率联合空间的样本熵向量集合后，基于训练得到的对应网络属性特征类别的正常低熵范围及正常高熵范围进行判断，得到对应的网络属性特征的异常检测结果；基于所述异常检测结果对应的网络属性特征，确定得到网络异常类型。

在该方法中，所述网络属性特征类别包括：

源网际协议(IP)地址、目的IP地址、源端口、目的端口、和设定时间窗内的网络流量的字节数(Byte)。

在该方法中的步骤101及步骤102中，需要得到符合训练要求的样本熵向量。具体地说，所述采用分割熵方式对所述网络流量样本进行熵计算，得到低、中概率联合空间的样本熵向量集合，及得到高、中概率联合空间的样本熵向量集合包括：

对所述网络流量样本基于设置的低概率阈值及高概率阈值，进行分割，分割为低概率空间内的网络流量样本、中概率空间内的网络流量样本及高概率空间内的网络流量样本；将低概率空间内的网络流量样本和中概率空间内的网络流量样本进行熵值计算，得到低、中概率联合空间的样本熵向量集合；将中概率空间内的网络流量样本及高概率空间内的网络流量样本进行熵值计算，得到高、中概率联合空间的样本熵向量集合。

在这里，低概率阈值及高概率阈值是预先设置的，且低概率阈值小于高概率阈值。

该方法由于在后续训练过程中需要大量的样本熵向量，所以需要对样本熵向量进行扩充。所述通过生成式抵抗网络GAN进行扩充，得到扩充的样本熵向量包括：

分别对低、中概率联合空间的样本熵向量集合，及高、中概率联合空间的样本熵向量集合设置对应的异常标签，所述异常标签表示所述集合中的各个样本熵向量是流量异常类型或流量非异常类型；对GAN进行训练，采用训练好的GAN进行扩充，得到扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合。

在这里，所述非流量异常时，异常标签可以设置为0；所述流量异常类型为分布式拒绝服务攻击(DDoS)时，异常标签设置为1；所述流量异常类型为拒绝服务攻击(DoS)时，异常标签设置为2；所述流量异常类型为反弹式拒绝服务攻击(DRDoS)时，异常标签设置为3；所述流量异常类型为垃圾邮件攻击(Spam)时，异常标签设置为4；所述流量异常类型为蠕虫病毒攻击(Worm)时，异常标签设置为5。可以看出，当流量异常时，所设置的异常标签为非0标签。

上述方式在进行样本熵向量扩充时，采用了训练好的GAN，所述GAN进行训练的过程包括：

在上述方法的步骤104中，训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围包括：

a、基于扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合，分别设置正常低熵范围及设置正常高熵范围，所述正常低熵范围及正常高熵范围设置为最小值；最小值表示根据样本熵向量集合中的具有异常标签的样本熵向量，所确定出正常熵范围中的最小值；

这样，就可以将调整后的正常低熵范围与正常高熵范围应用到对网络流量的异常检测过程中。

在该方法的步骤105中，在进行网络流量检测时，所述基于训练得到的对应网络属性特征类别的正常低熵范围及正常高熵范围进行判断，得到对应的网络属性特征的异常检测结果包括：

若所述低、中概率联合空间的熵向量集合中有熵向量大于正常低熵范围，则所述熵向量集合异常，如果否，则所述熵向量集合正常；

在该方法的步骤105中，所述基于所述异常检测结果对应的网络属性特征，确定得到网络异常类型包括：

所述异常检测结果为源IP地址、目的IP地址及目的端口的网络属性特征类别分别对应的高、中概率联合空间的熵向量集合异常，得到的网络异常类型为DoS类型；

所述异常检测结果为源IP地址和源端口的网络属性特征类别分别对应的高、中概率联合空间的熵向量集合异常，目的IP地址和目的端口的网络属性特征类别分别对应的高、中概率联合空间的熵向量集合异常，则得到的网络异常类型为DDoS类型；

所述异常检测结果为Byte的网络属性特征类别对应的高、中概率联合空间的熵向量集合异常，则得到的网络异常类型为Spam类型；

所述异常检测结果为目的端口和Byte的网络属性特征类别对应的高、中概率联合空间的熵向量集合异常，则得到的网络异常类型为Worm类型。

也就是说，根据网络属性特征类别对应的低、中概率联合空间的熵向量集合及高、中概率联合空间的熵向量集合的异常判断(基于对应网络属性特征类别的正常低熵范围及正常高熵范围)，就可以最终得到设定时间窗的网络流量的异常类型。

在将本申请的方法部署在大规模的动态网络环境中实施过程中，还可以对调整后的正常低熵范围与正常高熵范围进行动态更新，包括：

图2为本申请实施例提供的在线检测网络流量的系统结构示意图，该系统包括：所述系统包括：样本生成单元、样本扩充单元、训练单元及应用单元，其中，

以下对本申请实施例进行详细说明。

第一个步骤，获取设定时间窗内的网络流量样本，并根据网络属性特征类别进行分类，得到对应不同网络属性特征类别的网络流量样本空间。

将获取的网络流量样本聚合成数据流。该数据流针对网络属性特征类别进行分类，即源IP地址、目的IP地址、源端口、目的端口以及设定时间窗内的网络流量的字节数，分别得到这5种网络属性类别的网络流量样本空间。

第二个步骤，对于每一网络流量样本空间中的网络流量样本，采用分割熵方式进行计算，得到低、中概率联合空间的样本熵向量集合，及得到高、中概率联合空间的样本熵向量集合。

在这里，分割熵是一通用模式，不同的熵函数均可以按照此模式得到其对应的分割熵的实例化，也可以按照此模式实现不同熵组合的分割熵实例化。分割熵的实现过程包括：首先，按照设定的低概率阈值(p_l)和高概率阈值(p_h)将流量样本空间内的元素划分为低概率样本空间、中概率空间和高概率空间；然后将低概率空间和中概率空间组合形成低、中概率联合空间，将高概率空间和中概率空间组合形成高、中概率联合空间；对低、中概率联合空间和高、中概率联合空间分别用传统的熵函数计算相应的熵值，低、中概率联合样本空间计算得到低、中概率熵值(F_l)，高、中概率联合样本空间得到高、中概率熵值(F_h)。

在本步骤中，给定网络流量样本空间D，令p_l和p_h为低概率阈值和高概率阈值(0<p_l<＝p_h<1)，可以得到低概率空间、中概率空间和高概率空间分别为：

L＝{d_i|n_i≤p_l×|D|,d_i∈D}

M＝{d_i|p_l×|D|<n_i<p_h×|D|,d_i∈D}

H＝{d_i|n_i≥p_h×|D|,d_i∈D}

其中，L，M及H分别表示低概率、中概率、高概率空间。

基于低概率空间、中概率空间和高概率空间，设置低、中概率联合空间{L，M}和高、中概率联合空间{H，M}。采用设置的熵函数，分割熵框架为F＝{F_h,F_l}，

第三个步骤，通过生成式抵抗网络GAN进行扩充，得到扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合。

GAN用于扩充已有样本熵向量的数量，以克服样本熵向量的数量短缺。GAN包括两个神经网络模型：生成器及判别器。其中，生成器用于基于样本熵向量扩充得到多个生成样本熵向量，判别器用于区分是样本熵向量真实的还是生成的。

图3为本申请实施例提供的GAN实现样本熵向量的扩充过程示意图。结合图3对GAN实现样本熵向量的扩充进行详细说明。

本申请对于每个样本熵向量对应设置了异常标签，并根据所设置的异常标签对样本熵向量进行分组，将每组的样本熵向量输入到GAN中。如表一所示，表一为对应异常类别标签的样本熵向量。

表1

在GAN中的生成器，随机选择一个设置了异常标签的样本熵向量，将该样本熵向量送入多层感知器(MLP)中，具体使用两层MLP来实现更好的生成能力。其中，第一层MLP采用Leaky-ReLU激活函数以及第二层MLP采用dropout函数。第一层MLP采用Leaky-ReLU激活函数对样本熵向量进行单侧饱和处理，以防止过度拟合，第二层MLP采用dropout函数对样本熵向量进行归一化处理，最终得到相应的设置了异常标签的生成样本熵向量。

在GAN中的判别器的结构与生成器的结构相同，也是采用两层MLP，输入真实的样本熵向量以及生成器生成的生成样本熵向量，其中，第一层MLP采用Leaky-ReLU激活函数以及第二层MLP采用dropout函数。输出得到了概率值，该概率值是输入样本来自于真实样本熵向量的概率。

在GAN的判别器中，使用交叉熵作为损失函数进行损失计算。其中，y表示标签，p是判别器的输出概率，那么交叉熵损失函数表达为：

loss＝-ylog(p)-(1-y)log(1-p)。

对于GAN的判别器，真实样本熵向量的标签为1，假样本熵向量(生成样本熵向量)的标签为0；

对于GAN的生成器，假样本熵向量的标签为1，这是因为生成器希望判别器将其生成的生成样本熵向量判断为真实样本熵向量，也就是设置标签为1。GAN经过了上述过程的训练后，得到训练好的GAN，就可以用于对样本熵向量的扩充了。

样本熵向量经过了训练好的GAN的扩充，就得到了扩充后的样本熵向量，包括了已有的样本熵向量及生成样本熵向量。

第三个步骤，基于扩充的低、中概率联合空间的样本熵向量集合及扩充的高、中概率联合空间的样本熵向量集合，训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围。

如图4所示，图4为本申请实施例提供的训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围示意图，在本步骤中，得到了扩充的样本熵向量之后，确定得到低、中概率联合空间的正常熵阈值θ_l的初始值，及高、中概率联合空间的正常熵阈值θ_h的初始值。将低、中概率联合空间的正常熵阈值θ_l的初始值，及高、中概率联合空间的正常熵阈值θ_h的初始值分别设置为其确定的最小值，将所述扩充的样本熵向量输入到设置的网络异常检测模型中输出得到网络异常检测结果，基于网络异常检测结果推导出误报率，如果推导出的误报率大于设定的误报率，则调整低、中概率联合空间的正常熵阈值θ_l，及高、中概率样本空间的正常熵阈值θ_h，直到检测得到的误报率小于等于设定的误报率为止。

第四个步骤，在线检测网络流量时，基于训练得到的对应网络属性特征类别的正常低熵范围及正常高熵范围对网络流量进行判断，得到对应的网络属性特征的异常检测结果；基于所述异常检测结果对应的网络属性特征，确定得到网络异常类型。

如图5所示，图5为本发明实施例在线检测网络流量的过程示意图。其中，低、中概率联合空间的熵向量F_l超过了预定的阈值θ_l，则判定F_l值为异常，高、中概率联合空间的熵向量F_h低于预定的阈值θ_h，则判定F_h为异常。当低、中概率联合空间或/和高、中概率联合空间存在熵向量异常时，则该联合空间被判定为异常，此时发生了网络流量异常。

在本申请实施例中，训练得到的低、中概率联合空间的正常熵阈值θ_l及高、中概率联合样本空间的正常熵阈值θ_h，在具体应用到计算机网络中时，需要按需更新。比如当在线检测网络流量发生大概率误报运行异常时，就需要进行更新。也就是说，当在线检测网络流量时，基于判断得到对应的网络属性特征的异常检测结果如图6所示，图6为本申请提供的正常熵阈值θ_l及高、中概率联合样本空间的正常熵阈值θ_h进行更新的过程示意图。在检测网络流量时，若所述的时间窗内出现了异常误判，则由领域专家或者网络运维人员反馈真实的网络状态，网络检测模型实现参数的在线调整。具体过程如下所述。

网络异常检测模型针对一网络属性特征，比如源IP地址，根据该网络属性特征对应的网络流量，推导出网络状态，表示为y_t。

在具体计算时，是设置F_ht和F_lt分别表示该网络属性特征的网络流量的高、中概率联合空间的熵值，及低、中概率联合空间的熵值，θ_ht和θ_lt表示当前对应的阈值，计算得到网络状态y_t，如果网络的真实网络状态与报告网络状态不匹配(即

)，则发生误报，记为成本应遭受损失f_t(θ_t)。将得到的损失f_t(θ_t)返回给网络异常检测模型中以校正θ_ht和θ_lt。

以θ_ht为例，具体的实施方法为：

定义损失函数，

求解损失函数梯度函数，

给定学习率η，θ_ht的更新策略为：

同理，对于θ_lt，

以下举几个具体实施例对本申请进行说明。

具体实施例1

获取设定时间窗内的网络流量样本，并根据网络属性特征类别进行分类，得到对应不同网络属性特征类别的网络流量样本空间，所述网络属性特征类别包括：源IP地址、目的IP地址、源端口、目的端口、和设定时间窗内的网络流量的字节数。

对于上述网络流量样本空间中的网络流量样本，采用分割熵方式进行计算，得到低、中概率联合空间的样本熵向量集合，及得到高、中概率联合空间的样本熵向量集合。

对样本熵向量集合中的熵向量进行扩充；

训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围；

在线检测网络流量，若所述得到低、中概率联合空间的熵向量集合中有熵向量大于正常低熵范围，则得到的低、中概率联合空间的熵向量集合异常，如果否，则得到的低、中概率联合空间的熵向量集合正常；若所述得到高、中概率联合空间的熵向量集合中有熵向量小于所述得到高、中概率联合空间的熵阈值，则得到的高、中概率联合空间的熵向量集合异常，如果否，则得到的高、中概率联合空间的熵向量集合正常；

判断所设定的时间窗是否异常；

在所述时间窗内，源IP地址，目的IP地址和目的端口对应的高、中概率联合空间的熵向量集合异常，其余熵向量集合正常，则所述时间窗为DoS流量异常时间窗。

具体实施例2

对样本熵向量集合中的熵向量进行扩充；

判断所设定的时间窗是否异常；

在所述的时间窗内，源IP地址、源端口对应的高、中概率联合空间的熵向量集合异常，目的IP地址、目的端口对应的高、中概率联合空间的熵向量集合异常，其余熵向量集合正常，则所述的时间窗为DRDoS流量异常时间窗。

具体实施例3

对样本熵向量集合中的熵向量进行扩充；

判断所设定的时间窗是否异常；

所述的时间窗内，Byte对应的高、中概率联合空间的熵向量集合异常，其余熵向量集合正常，则所述的时间窗为Spam流量异常时间窗。

具体实施例4

对样本熵向量集合中的熵向量进行扩充；

判断所设定的时间窗是否异常；

所述的时间窗内，目的端口和Byte对应的高、中概率联合空间的熵向量集合异常，其余熵向量集合正常，则所述的时间窗为Worm流量异常时间窗；

具体实施例5

对样本熵向量集合中的熵向量进行扩充；

判断所设定的时间窗是否异常；

若所述的时间窗内出现了异常误判，则反馈真实的网络状态，网络异常检测模型进行对应网络属性特征类别的正常低熵范围及正常高熵范围的在线调整。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本申请的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种在线检测网络流量的方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述网络属性特征类别包括：

3.如权利要求1所述的方法，其特征在于，所述采用分割熵方式对所述网络流量样本进行熵计算，得到低、中概率联合空间的样本熵向量集合，及得到高、中概率联合空间的样本熵向量集合包括：

4.如权利要求1所述的方法，其特征在于，所述通过生成式抵抗网络GAN进行扩充，得到扩充的样本熵向量包括：

5.如权利要求4所述的方法，其特征在于，所述对GAN进行训练包括：

6.如权利要4所述的方法，其特征在于，所述采用异常检测模型训练得到对应网络属性特征类别的正常低熵范围及正常高熵范围包括：

7.如权利要求1所述的方法，其特征在于，所述基于训练得到的对应网络属性特征类别的正常低熵范围及正常高熵范围进行判断，得到对应的网络属性特征的异常检测结果包括：

8.如权利要求1或7所述的方法，其特征在于，所述基于所述异常检测结果对应的网络属性特征，确定得到网络异常类型包括：

9.如权利要求1所述的方法，其特征在于，所述方法还包括；

10.一种在线检测网络流量的系统，其特征在于，所述系统包括：样本生成单元、样本扩充单元、训练单元及应用单元，其中，