CN114745161B

CN114745161B - 一种异常流量的检测方法、装置、终端设备和存储介质

Info

Publication number: CN114745161B
Application number: CN202210286931.7A
Authority: CN
Inventors: 王承先; 张强; 李彦庆; 龚亮华
Original assignee: Fengtai Technology Beijing Co ltd
Current assignee: Fengtai Technology Beijing Co ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2023-08-22
Anticipated expiration: 2042-03-23
Also published as: CN114745161A

Abstract

本申请适用于网络技术领域，提供了一种异常流量的检测方法、装置、终端设备和存储介质。其中，上述异常流量的检测方法具体包括：获取由目标时间段内的流量数据聚类得到的待分类集群；确定待分类集群的每种预设集群特征的目标特征值，以及每种预设集群特征的权重，每种预设集群特征的权重基于与异常流量之间的相关程度确定；根据每种预设集群特征的权重、待分类集群的每种预设集群特征的目标特征值、每个样本集群的参考分类，以及每个样本集群的每种预设集群特征的样本特征值，确定待分类集群的目标分类；根据目标分类，确定目标时间段内异常流量的检测结果。本申请的实施例可以提高异常流量检测的可靠性。

Description

一种异常流量的检测方法、装置、终端设备和存储介质

技术领域

本申请属于网络技术领域，尤其涉及一种异常流量的检测方法、装置、终端设备和存储介质。

背景技术

全流量检测技术建立在全量数据的保存和处理的基础上，该技术能够结合大数据处理、机器学习、深度学习等技术，对流量数据进行采集、分析与回溯，进而发现并定位网络异常行为。网络流量通常可以分为两类，即正常流量和异常流量，异常流量会影响网络性能，造成网络拥塞，严重的可能造成网络中断，或使网络设备利用率达到100％而无法响应其他命令。因此，异常流量的检测是全流量检测技术中的一项重要命题。

但是，目前异常流量的检测算法存在计算精度低、运行时间长等问题，检测算法的可靠性较低。

发明内容

本申请实施例提供一种异常流量的检测方法、装置、终端设备和存储介质，可以提高异常流量检测的可靠性。

本申请实施例第一方面提供一种异常流量的检测方法，包括：

获取待分类集群，所述待分类集群由目标时间段内的流量数据聚类得到；

确定所述待分类集群的每种预设集群特征的目标特征值，以及每种所述预设集群特征的权重，每种所述预设集群特征的权重基于与异常流量之间的相关程度确定；

获取已完成分类的多个样本集群中每个所述样本集群的参考分类，以及每个所述样本集群的每种预设集群特征的样本特征值；

根据每种所述预设集群特征的权重、所述待分类集群的每种所述预设集群特征的目标特征值、每个所述样本集群的参考分类，以及每个所述样本集群的每种所述预设集群特征的样本特征值，确定所述待分类集群的目标分类；

根据所述目标分类，确定所述目标时间段内异常流量的检测结果。

本申请实施例第二方面提供的一种异常流量的检测装置，包括：

待分类集群获取单元，用于获取待分类集群，所述待分类集群由目标时间段内的流量数据聚类得到；

集群特征获取单元，用于确定所述待分类集群的每种预设集群特征的目标特征值，以及每种所述预设集群特征的权重，每种所述预设集群特征的权重基于与异常流量之间的相关程度确定；

样本获取单元，用于获取已完成分类的多个样本集群中每个所述样本集群的参考分类，以及每个所述样本集群的每种预设集群特征的样本特征值；

分类单元，用于根据每种所述预设集群特征的权重、所述待分类集群的每种所述预设集群特征的目标特征值、每个所述样本集群的参考分类，以及每个所述样本集群的每种所述预设集群特征的样本特征值，确定所述待分类集群的目标分类；

检测单元，用于根据所述目标分类，确定所述目标时间段内异常流量的检测结果。

本申请实施例第三方面提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述检测方法的步骤。

本申请实施例第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述检测方法的步骤。

本申请实施例第五方面提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的检测方法。

在本申请的实施方式中，通过获取待分类集群，确定待分类集群的每种预设集群特征的目标特征值，以及每种预设集群特征的权重，获取已完成分类的多个样本集群中每个样本集群的参考分类，以及每个样本集群的每种预设集群特征的样本特征值，并根据每种预设集群特征的权重、待分类集群的每种预设集群特征的目标特征值、每个样本集群的参考分类，以及每个样本集群的每种预设集群特征的样本特征值，确定待分类集群的目标分类，进而根据目标分类，确定目标时间段内异常流量的检测结果，由于待分类集群由目标时间段内的流量数据聚类得到，因此检测过程中不需要对每个流量数据均进行分类，能够提高检测效率，同时，由于集群特征可以表征同一待分类集群内所有流量数据之间的关联性和逻辑性，且每种预设集群特征的权重基于与异常流量之间的相关程度确定，避免了重要特征被弱化的问题，能够提高检测的准确性，对于变种异常流量有较好的检测效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种异常流量的检测方法的实现流程示意图；

图2是本申请实施例提供的获取待分类集群的具体实现流程示意图；

图3是本申请实施例提供的确定目标特征值的具体实现流程示意图；

图4是本申请实施例提供的确定窗口特征的示意图；

图5是本申请实施例提供的确定参考分类的具体实现流程示意图；

图6是本申请实施例提供的一种异常流量的检测装置的结构示意图；

图7是本申请实施例提供的终端设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护。

目前，异常流量检测通常采用以下几种方法。

第一种方法是基于固定阈值的方法，这种方法需由管理员手动设置阈值，根据流量是否超过阈值判定是否出现异常流量。如果阈值设置得过高会产生误报，如果阈值设置得过低会产生漏报，因此，这种方式对管理员的要求较高，检测可靠性较低。

第二种方法是基于异常特征库进行特征匹配的方法，这种方法通过建立异常特征库，将流量数据的特征与异常特征库中的特征进行比对，进而检测是否出现异常流量，但是，这种方法对未知或变种异常流量不能很好的进行检测。

第三种方法是基于统计分析的方法，该方法是对已有历史数据记录分析得出一个判断的基准，再针对新的网络流量数据进行判断，容易忽略网络流量之间的关联性和逻辑性。

第四种方法则是基于机器学习的方法，这种方法会将已完成分类的数据集按照比例分为训练集和测试集，通过对训练集进行建模，生成分类规则，然后利用测试集进行测试与验证，直至算法的分类准确度符合预期。相较于前述三种方式，这种方式在检测已知和未知的异常流量上均有较好的表现。但是，目前的检测算法也存在计算精度低、运行时间长的问题。

因此，本申请提出了一种可靠性较高的异常流量检测方法，能够网络流量数据之间的关联性和逻辑性，对进行已知或未知的异常流量进行精准检测，同时提高运算效率。

为了说明本申请的技术方案，下面通过具体实施例来进行说明。

图1示出了本申请实施例提供的一种异常流量的检测方法的实现流程示意图，该方法可以应用于终端设备上，可适用于需提高异常流量检测的可靠性的情形。

其中，上述终端设备可以是手机、电脑等智能终端，也可以是基站等大型设备。

具体的，上述异常流量的检测方法可以包括以下步骤S101至步骤S105。

步骤S101，获取待分类集群。

在本申请的实施方式中，待分类集群是需进行良性集群与恶意集群分类的集群，由目标时间段内的流量数据聚类得到。

其中，目标时间段是指需要进行异常流量检测的时间段，可以根据实际情况进行设置。例如，当用户需要检测某一时间段内是否出现异常流量时，可以在终端设备触发输入操作。终端设备根据输入操作将用户输入的时间段作为目标时间段，获取目标时间段内的流量数据，并对目标时间段内的流量数据进行聚类，得到待分类集群。

在本申请的一些实施方式中，如图2所示，上述对目标时间段内的流量数据进行聚类，得到待分类集群，可以具体包括以下步骤S201至步骤S203。

步骤S201，获取目标时间段内的流量数据。

具体的，终端设备可以在用户授权的情况下，利用网络流量监控器Zeek监控并捕获终端设备与其他设备进行数据交互时产生的流量数据，得到由网络流量监控器根据流量数据生成的日志文件。

步骤S202，根据预设的时间步长，将流量数据划分为至少一个窗口实例。

其中，时间步长可以根据实际情况进行设置，例如可以设置为20s、50s、100s等。

在本申请的一些实施方式中，终端设备可以按时间顺序对流量数据进行排序，并根据时间步长将排序后的流量数据划分为至少一个窗口实例，每个窗口实例中所有流量数据之间的时间间隔小于时间步长。

步骤S203，对所有窗口实例进行聚类操作，得到至少一个待分类集群。

具体的，终端设备可以通过K-Means聚类算法、K-Medoids聚类算法或者其他常用的聚类算法，对所有窗口实例进行聚类操作，得到至少一个待分类集群。

应理解，由于终端设备将待分析的流量数据按照时间步长划分为至少一个窗口实例，再将窗口实例进行聚类操作，得到至少一个待分类集群，因此通过对待分类集群进行异常流量的检测，可以保持原本流量数据在时间上的连续性，同时不会忽略不同流量数据之间特征上的关联性和逻辑性，相较于直接对单个流量数据进行分类与异常流量的检测，分类和检测的准确性更高。

步骤S102，确定待分类集群的每种预设集群特征的目标特征值，以及每种预设集群特征的权重。

其中，每种预设集群特征的权重基于与异常流量之间的相关程度确定。

具体的，预设集群特征的种类与异常流量之间的相关程度越高，则对应的权重越大。也就是说，对于异常流量常影响的重要集群特征，终端设备可以赋予更高的权重，以在进行异常流量的分析时，强化重要的集群特征、弱化不重要的集群特征，改善现有算法中特征无差别处理的问题。

在本申请的一些实施方式中，如图3所示，上述目标特征值的确定过程可以包括以下步骤S301至步骤S303。

步骤S301，提取流量数据的每种数据特征的数据特征值。

在本申请的一些实施方式中，终端设备可以通过分析前述日志文件中记录的每个流量数据，提取并得到流量数据的每种数据特征的数据特征值。

进一步地，为了去除日志文件中不必要的信息，终端设备可以通过语义识别、关键字识别等方式，从日志中记录的流量数据提取关键字段，减少特征的维度，便于后续对数据的分析和建模。

具体的，网络流量监控器能够抓取监控终端设备与其他设备进行数据交互时数据包内的信息，进而将与数据包的源(即发出者)、目的(即接收者)、数量、字节数相关的信息作为数据特征。

在本申请的一些实施方式中，所提取的数据特征如表1所示。

表1数据特征说明

步骤S302，依据每种数据特征对应的特征聚类方式以及每种数据特征的数据特征值，分别对同一窗口实例中所有流量数据的数据特征进行聚类，得到各个窗口实例的每种窗口特征的窗口特征值。

在本申请的一些实施方式中，终端设备可以通过Spark的聚合函数对数据特征进行聚合，形成每个窗口实例的窗口特征。

具体的，每种数据特征存在对应的特征聚类方式，对于单个窗口实例包含的所有流量数据对应的一类数据特征，以其对应的聚类方式进行聚类，可以得到该窗口实例与该类数据特征对应的窗口特征。

在本申请的一些实施方式中，所提取的窗口特征如表2所示。

表2聚类特征说明

请参考图4、表1和表2，对于数据特征f₁，其聚类方式可以为：将相同的数据特征f₁聚为一类，也即相同的源IP聚为一类，最终可以得到源IP地址数量作为对应的窗口特征f_a1。窗口特征f_a2至f_a4可以参看窗口特征f_a1的获取方式。对于数据特征f₅，其聚类方式可以为：取所有数据特征f₅的平均值，最终可以得到发出数据包的平均总数量作为对应的窗口特征f_a5。窗口特征f_a6至f_a8可以参看窗口特征f_a5的获取方式。

步骤S303，分别根据同一待分类集群中所有窗口实例的每种窗口特征的窗口特征值，确定对应的待分类集群的每种预设集群特征的目标特征值。

也就是说，得到待分类集群中所有窗口实例的每种窗口特征的窗口特征值之后，终端设备可以利用同一待分类集群中所有窗口实例的每种窗口特征的窗口特征值，确定该待分类集群的每一种预设集群特征的目标特征值，进而得到每一待分类集群的每一种预设集群特征的目标特征值。

在本申请的一些实施方式中，所提取的预设集群特征如表3所示。

表3预设集群特征说明

其中，网络数据流是指出口实力对应的数据包的二进制字节数。

请参考表3中所得到预设集群特征，终端设备可以为每种预设集群特征赋予不同的权重。

具体的，终端设备可以利用权重公式计算每种预设集群特征的权重。

权重公式为：

其中，l为预设集群特征的编号，len(*)为集合属性数量，f_imp为重要征集合，f_unimp为非重要特征集合。f_imp包含f_au3、f_au4、f_au6和f_au8，也即f_au3、f_au4、f_au6和f_au8为重要特征。重要特征即与异常流量之间的相关程度大于程度阈值的特征。f_unimp包含f_au1、f_au2、f_au5、f_au7、f_au9、f_au10、f_au11和f_au12，也即f_au1、f_au2、f_au5、f_au7、f_au9、f_au10、f_au11和f_au12不是重要特征。

步骤S103，获取已完成分类的多个样本集群中每个样本集群的参考分类，以及每个样本集群的每种预设集群特征的样本特征值。

在本申请的一些实施方式中，终端设备可以预先获取样本集群。样本集群的获取步骤可以包括：构建攻击虚拟机与被攻击虚拟机，控制攻击虚拟机向被攻击虚拟机发送网络攻击指令，并获取样本集群。

其中，网络攻击指令用于使被攻击虚拟机进行数据传输时产生异常流量。相应的，样本集群由样本时间段内的样本流量数据聚类得到，样本时间段包含网络攻击指令的部分或全部作用时间段。

也就是说，终端设备可以采集一段完整时间段的样本流量数据，进而聚类得到样本集群，该完整时间段中至少包含一段网络攻击指令生效的时间段。

在本申请一些实施方式中，终端设备可以获取样本时间段内的样本流量数据，根据预设的时间步长，将样本流量数据划分为至少一个样本窗口实例，接着，对所有样本窗口实例进行聚类操作，得到至少一个初始集群，最后，对初始集群进行欠采样操作，得到样本集群。

其中，初始集群的获取方式可以参看前述步骤S101的说明。相较于待分类集群的获取方式，终端设备会进一步对初始集群进行欠采样(over-sample)操作，也即对样本较多的一类进行少量随机选择，以解决正负样本比例严重不均衡问题。

需要说明的是，每个样本集群的每种预设集群特征的样本特征值的获取方式可以参看前述步骤S102的说明，本申请对此不进行赘述。

对于每个样本集群，终端设备还可以对其进行分类，确定其参考分类为良性集群还是恶意集群。

具体的，在本申请的一些实施方式中，如图5所示，对样本集群进行分类的过程包含以下步骤S501至步骤S504。

步骤S501，提取样本流量数据的每种数据特征的样本数据特征值。

其中，数据特征的提取方式可以参看前述步骤S102的说明，本申请对此不进行赘述。

步骤S502，分别依据同一样本窗口实例中所有样本流量数据的每种数据特征的样本数据特征值，确定对应的样本窗口实例的窗口分类。

具体的，每种数据特征都有对应的参考区间或参考关系，当出现某种数据特征的样本数据特征值未处于对应的参考区间内，或未满足对应的参考关系时，可以确定对应的样本窗口实例的窗口分类为恶意窗口，否则，可以确定对应的样本窗口实例的窗口分类为良性窗口。

例如，已知参考关系为源IP与目的IP为一对一的关系，而某一样本窗口实例中所有样本流量数据的f_a1和f_a3并非多对一的关系，说明出现了异常的源IP，也即说明此样本窗口实例对应的流量数据中存在异常流量对应的流量数据。相应的，可以确认该样本窗口实例的窗口分类为恶意窗口。

步骤S503，计算每个样本集群中窗口分类为恶意窗口的窗口实例在对应的样本集群中的数量占比。

也就是说，对于某一样本集群，终端设备可以统计该样本集群中窗口分类为恶意窗口的窗口实例在该样本集群中所有窗口实例的数量占比。分别对各个样本集群进行统计，可以得到每个样本集群中窗口分类为恶意窗口的窗口实例在对应的样本集群中的数量占比。

步骤S504，若窗口分类为恶意窗口的窗口实例在对应的样本集群中的数量占比大于占比阈值，则将对应的样本集群的参考分类确定为恶意集群。

其中，占比阈值可以根据实际情况进行设置。如果窗口分类为恶意窗口的窗口实例在对应的样本集群中的数量占比大于占比阈值，则终端设备将对应的样本集群的参考分类确定为恶意集群。如果窗口分类为恶意窗口的窗口实例在对应的样本集群中的数量占比小于或等于占比阈值，则终端设备将对应的样本集群的参考分类确定为良性集群。

步骤S104，根据每种预设集群特征的权重、待分类集群的每种预设集群特征的目标特征值、每个样本集群的参考分类，以及每个样本集群的每种预设集群特征的样本特征值，确定待分类集群的目标分类。

在本申请的一些实施方式中，终端设备可以计算待分类集群的每种集群特征的目标特征值和每个样本集群对应种类的预设集群特征的样本特征值之间的特征差值，根据每种预设集群特征的权重和每种预设集群特征对应的特征差值，确定待分类集群和每个样本集群之间的相似度。

具体的，上述相似度可以根据公式计算得到。

其中，x_i为待分类集群，x_il为待分类集群的第l种预设集群特征。x_j为样本集群，x_jl为样本集群的第l种预设集群特征。w_l为第l种预设集群特征。

相应的，终端设备根据和待分类集群之间相似度前K大的样本集群的参考分类，可以确定待分类集群的目标分类。

具体的，如果和待分类集群之间相似度前K大的样本集群的参考分类中，参考分类为恶意集群的样本集群多于参考分类为良性集群的样本集群，则可以确认待分类集群的目标分类为恶意集群。反之，如果参考分类为恶意集群的样本集群少于或等于参考分类为良性集群的样本集群，则可以确认待分类集群的目标分类为良性集群。

需要说明的是，K的取值大于或等于1，可以根据实际情况进行调整。

在本申请的一些实施方式中，终端可以预先获取样本集群，并按照一定比例(如7比3)将其划分数据集为训练集和测试集，然后，利用测试集校验训练集分类的准确性，并利用训练集求取最佳的K值。

步骤S105，根据目标分类，确定目标时间段内异常流量的检测结果。

在本申请的一些实施方式中，如果存在目标分类为恶意集群的待分类集群，则可以确定检测结果为目标时间段内出现异常流量；否则，可以确认检测结果为目标时间段内未出现异常流量。

在本申请的另一些实施方式中，终端设备也可以统计目标分类为恶意集群的待分类集群在所有待分类集群中的占比，与阈值进行比较，如果占比大于阈值，则可以确定检测结果为目标时间段内出现异常流量；否则，可以确认检测结果为目标时间段内未出现异常流量。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为根据本申请，某些步骤可以采用其它顺序进行。

如图6所示为本申请实施例提供的一种异常流量的检测装置600的结构示意图，所述异常流量的检测装置600配置于终端设备上。

具体的，所述异常流量的检测装置600可以包括：

待分类集群获取单元601，用于获取待分类集群，所述待分类集群由目标时间段内的流量数据聚类得到；

集群特征获取单元602，用于确定所述待分类集群的每种预设集群特征的目标特征值，以及每种所述预设集群特征的权重，每种所述预设集群特征的权重基于与异常流量之间的相关程度确定；

样本获取单元603，用于获取已完成分类的多个样本集群中每个所述样本集群的参考分类，以及每个所述样本集群的每种预设集群特征的样本特征值；

分类单元604，用于根据每种所述预设集群特征的权重、所述待分类集群的每种所述预设集群特征的目标特征值、每个所述样本集群的参考分类，以及每个所述样本集群的每种所述预设集群特征的样本特征值，确定所述待分类集群的目标分类；

检测单元605，用于根据所述目标分类，确定所述目标时间段内异常流量的检测结果。

在本申请的一些实施方式中，上述待分类集群获取单元601可以具体用于：获取所述目标时间段内的流量数据；根据预设的时间步长，将所述流量数据划分为至少一个窗口实例；对所有所述窗口实例进行聚类操作，得到至少一个所述待分类集群。

在本申请的一些实施方式中，上述集群特征获取单元602可以具体用于：提取所述流量数据的每种数据特征的数据特征值；依据每种所述数据特征对应的特征聚类方式以及每种所述数据特征的数据特征值，分别对同一所述窗口实例中所有所述流量数据的数据特征进行聚类，得到各个所述窗口实例的每种窗口特征的窗口特征值；分别根据同一所述待分类集群中所有所述窗口实例的每种窗口特征的窗口特征值，确定对应的所述待分类集群的每种所述预设集群特征的目标特征值。

在本申请的一些实施方式中，上述分类单元604可以具体用于：计算所述待分类集群的每种集群特征的目标特征值和每个所述样本集群对应种类的预设集群特征的样本特征值之间的特征差值；根据每种所述预设集群特征的权重和每种所述预设集群特征对应的特征差值，确定所述待分类集群和每个所述样本集群之间的相似度；根据和所述待分类集群之间相似度前K大的所述样本集群的参考分类，确定所述待分类集群的目标分类，K大于或等于1。

在本申请的一些实施方式中，上述样本获取单元603可以具体用于：构建攻击虚拟机与被攻击虚拟机；控制所述攻击虚拟机向所述被攻击虚拟机发送网络攻击指令，所述网络攻击指令用于使所述被攻击虚拟机进行数据传输时产生异常流量；获取样本集群，所述样本集群由样本时间段内的样本流量数据聚类得到，所述样本时间段包含所述网络攻击指令的部分或全部作用时间段。

在本申请的一些实施方式中，上述样本获取单元603可以具体用于：获取所述样本时间段内的样本流量数据；根据预设的时间步长，将所述样本流量数据划分为至少一个样本窗口实例；对所有所述样本窗口实例进行聚类操作，得到至少一个初始集群；对所述初始集群进行欠采样操作，得到所述样本集群。

在本申请的一些实施方式中，上述样本获取单元603可以具体用于：提取所述样本流量数据的每种数据特征的样本数据特征值；分别依据同一所述样本窗口实例中所有所述样本流量数据的每种数据特征的样本数据特征值，确定对应的所述样本窗口实例的窗口分类；计算每个所述样本集群中所述窗口分类为恶意窗口的窗口实例在对应的所述样本集群中的数量占比；若所述窗口分类为恶意窗口的窗口实例在对应的所述样本集群中的数量占比大于占比阈值，则将对应的所述样本集群的参考分类确定为恶意集群。

需要说明的是，为描述的方便和简洁，上述异常流量的检测装置600的具体工作过程，可以参考图1至图5所述方法的对应过程，在此不再赘述。

如图7所示，为本申请实施例提供的一种终端设备的示意图。该终端设备7可以包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如异常流量的检测程序。所述处理器70执行所述计算机程序72时实现上述各个异常流量的检测方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能，例如图6所示的待分类集群获取单元601、集群特征获取单元602、样本获取单元603、分类单元604和检测单元605。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

例如，所述计算机程序可以被分割成：待分类集群获取单元、集群特征获取单元、样本获取单元、分类单元和检测单元。

各单元具体功能如下：待分类集群获取单元，用于获取待分类集群，所述待分类集群由目标时间段内的流量数据聚类得到；集群特征获取单元，用于确定所述待分类集群的每种预设集群特征的目标特征值，以及每种所述预设集群特征的权重，每种所述预设集群特征的权重基于与异常流量之间的相关程度确定；样本获取单元，用于获取已完成分类的多个样本集群中每个所述样本集群的参考分类，以及每个所述样本集群的每种预设集群特征的样本特征值；分类单元，用于根据每种所述预设集群特征的权重、所述待分类集群的每种所述预设集群特征的目标特征值、每个所述样本集群的参考分类，以及每个所述样本集群的每种所述预设集群特征的样本特征值，确定所述待分类集群的目标分类；检测单元，用于根据所述目标分类，确定所述目标时间段内异常流量的检测结果。

所述终端设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备的内部存储单元，例如终端设备的硬盘或内存。所述存储器71也可以是所述终端设备的外部存储设备，例如所述终端设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，为描述的方便和简洁，上述终端设备的结构还可以参考方法实施例中对结构的具体描述，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对各个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种异常流量的检测方法，其特征在于，包括：

根据所述目标分类，确定所述目标时间段内异常流量的检测结果；

其中，所述获取待分类集群，包括：获取所述目标时间段内的流量数据；根据预设的时间步长，将所述流量数据划分为至少一个窗口实例；对所有所述窗口实例进行聚类操作，得到至少一个所述待分类集群；

所述确定所述待分类集群的每种预设集群特征对应的目标特征值，包括：提取所述流量数据的每种数据特征的数据特征值；依据每种所述数据特征对应的特征聚类方式以及每种所述数据特征的数据特征值，分别对同一所述窗口实例中所有所述流量数据的数据特征进行聚类，得到各个所述窗口实例的每种窗口特征的窗口特征值；分别根据同一所述待分类集群中所有所述窗口实例的每种窗口特征的窗口特征值，确定对应的所述待分类集群的每种所述预设集群特征的目标特征值。

2.如权利要求1所述的异常流量的检测方法，其特征在于，所述根据每种所述预设集群特征的权重、所述待分类集群的每种所述预设集群特征的目标特征值、每个所述样本集群的参考分类，以及每个所述样本集群的每种所述预设集群特征的样本特征值，确定所述待分类集群的目标分类，包括：

计算所述待分类集群的每种集群特征的目标特征值和每个所述样本集群对应种类的预设集群特征的样本特征值之间的特征差值；

根据每种所述预设集群特征的权重和每种所述预设集群特征对应的特征差值，确定所述待分类集群和每个所述样本集群之间的相似度；

根据和所述待分类集群之间相似度前K大的所述样本集群的参考分类，确定所述待分类集群的目标分类，K大于或等于1。

3.如权利要求1所述的异常流量的检测方法，其特征在于，所述样本集群的获取步骤，包括：

构建攻击虚拟机与被攻击虚拟机；

控制所述攻击虚拟机向所述被攻击虚拟机发送网络攻击指令，所述网络攻击指令用于使所述被攻击虚拟机进行数据传输时产生异常流量；

获取样本集群，所述样本集群由样本时间段内的样本流量数据聚类得到，所述样本时间段包含所述网络攻击指令的部分或全部作用时间段。

4.如权利要求3所述的异常流量的检测方法，其特征在于，所述获取样本集群，包括：

获取所述样本时间段内的样本流量数据；

根据预设的时间步长，将所述样本流量数据划分为至少一个样本窗口实例；

对所有所述样本窗口实例进行聚类操作，得到至少一个初始集群；

对所述初始集群进行欠采样操作，得到所述样本集群。

5.如权利要求4所述的异常流量的检测方法，其特征在于，所述获取已完成分类的多个样本集群中每个所述样本集群的参考分类，包括：

提取所述样本流量数据的每种数据特征的样本数据特征值；

分别依据同一所述样本窗口实例中所有所述样本流量数据的每种数据特征的样本数据特征值，确定对应的所述样本窗口实例的窗口分类；

计算每个所述样本集群中所述窗口分类为恶意窗口的窗口实例在对应的所述样本集群中的数量占比；

若所述窗口分类为恶意窗口的窗口实例在对应的所述样本集群中的数量占比大于占比阈值，则将对应的所述样本集群的参考分类确定为恶意集群。

6.一种异常流量的检测装置，其特征在于，包括：

检测单元，用于根据所述目标分类，确定所述目标时间段内异常流量的检测结果；

其中，所述待分类集群获取单元，用于获取所述目标时间段内的流量数据；根据预设的时间步长，将所述流量数据划分为至少一个窗口实例；对所有所述窗口实例进行聚类操作，得到至少一个所述待分类集群；

所述集群特征获取单元，用于提取所述流量数据的每种数据特征的数据特征值；依据每种所述数据特征对应的特征聚类方式以及每种所述数据特征的数据特征值，分别对同一所述窗口实例中所有所述流量数据的数据特征进行聚类，得到各个所述窗口实例的每种窗口特征的窗口特征值；分别根据同一所述待分类集群中所有所述窗口实例的每种窗口特征的窗口特征值，确定对应的所述待分类集群的每种所述预设集群特征的目标特征值。

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述检测方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述检测方法的步骤。