CN117714215B

CN117714215B - 实时网络威胁检测方法及功能设备

Info

Publication number: CN117714215B
Application number: CN202410166977.4A
Authority: CN
Inventors: 唐军; 梁鹏岳; 薛俊强
Original assignee: Jiangsu Kaibo Technology Co ltd
Current assignee: Jiangsu Kaibo Technology Co ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-04-23
Anticipated expiration: 2044-02-06
Also published as: CN117714215A

Abstract

本发明涉及数据处理技术领域，具体涉及实时网络威胁检测方法及功能设备，包括：获取网络实时浏览记录中每个通路的流量数据点；根据每个流量数据点与其他流量数据点之间的距离分布、以及每个流量数据点周围的数据分布情况确定初始聚类中心点；利用初始聚类中心点对所有流量数据点进行聚类，根据聚类每次迭代下的每个聚类中心点与相同迭代过程中其他聚类中心点之间的距离分布得到威胁特征程度；根据每次迭代及历史迭代下的每个聚类中心点周围的数据点分布情况和威胁特征程度分布差异情况得到迭代变化程度；进而对每次迭代下的聚类中心点的迭代过程进行更新得到聚类结果，确定实时网络威胁检测结果。本发明使得网络威胁检测结果更加准确。

Description

实时网络威胁检测方法及功能设备

技术领域

本发明涉及数据处理技术领域，具体涉及一种实时网络威胁检测方法及功能设备。

背景技术

互联网的飞速发展为人们的生活带来了便利，为企业发展带来了机遇，但同时网络也为现代社会带来了新的威胁。各种层面的网络威胁层出不穷，通过及时检测和防范网络威胁，可以降低经济损失，保障数据的安全性。网络威胁检测是信息安全战略的关键组成部分，有助于保护个人隐私和数据安全。在不断演变的网络威胁环境中，实施有效的威胁检测策略至关重要。现有方法通常使用K-means聚类算法对网络数据进行聚类处理，从中获取具有威胁的异常数据，从而实现网络威胁检测。但是由于网络攻击威胁特征随机性大，在K-means聚类过程中容易陷入局部最优解，无法达到全局最优解，导致聚类结果对异常威胁数据的划分不准确，进而使得网络威胁检测结果较不准确。

发明内容

为了解决现有的K-means聚类过程容易陷入局部最优解，导致聚类结果对异常威胁数据的划分不准确，进而使得网络威胁检测结果较不准确的技术问题，本发明的目的在于提供实时网络威胁检测方法及功能设备，所采用的技术方案具体如下：

第一方面，本发明提供了一种实时网络威胁检测方法，包括：

获取网络实时浏览记录中每个通路下的网络流量数据，提取每个通路下所有网络流量数据的主要特征得到每个通路的流量数据点；

根据每个流量数据点与其他流量数据点之间的距离分布、以及每个流量数据点周围的数据分布情况，确定初始聚类中心点；

利用初始聚类中心点对所有流量数据点进行聚类，根据聚类过程中每次迭代下的每个聚类中心点与相同迭代过程中其他聚类中心点之间的距离分布、以及每个聚类中心点所在的聚类簇中流量数据点周围的数据分布，得到每次迭代下的每个聚类中心点的威胁特征程度；

根据每次迭代及历史迭代下的每个聚类中心点周围的数据点分布情况和威胁特征程度分布差异情况，得到每次迭代下的每个聚类中心点的迭代变化程度；

根据所述威胁特征程度和迭代变化程度，对每次迭代下的聚类中心点的迭代过程进行更新得到聚类结果，基于所述聚类结果确定实时网络威胁检测结果。

优选地，所述根据聚类过程中每次迭代下的每个聚类中心点与相同迭代过程中其他聚类中心点之间的距离分布、以及每个聚类中心点所在的聚类簇中流量数据点周围的数据分布，得到每次迭代下的每个聚类中心点的威胁特征程度，具体包括：

将任意一次迭代记为目标次迭代，将目标次迭代下任意一个聚类中心点记为目标聚类中心点，将目标次迭代下除了目标聚类中心点之外的其他聚类中心点记为参考聚类中心点；

计算目标聚类中心点与每个参考聚类中心点之间的距离的累加和得到第一特征系数；

对目标聚类中心点所在聚类簇中所有流量数据点所在区域的最小外接矩形的面积进行负相关映射得到第二特征系数；

获取每个流量数据点与对应同一个聚类簇中的其他流量数据点之间的最短距离记为每个流量数据的最近邻距离；将目标聚类中心点所在聚类簇中所有流量数据点的最近邻数据的累加和作为第三特征系数；

根据目标聚类中心点所在聚类簇中所有流量数据周围流量数据点的分布波动情况得到第四特征系数；

根据所述第一特征系数、第二特征系数、第三特征系数和第四特征系数得到目标聚类中心点的威胁特征程度；所述第一特征系数、第二特征系数、第三特征系数和第四特征系数均与所述威胁特征程度呈正相关关系。

优选地，所述根据目标聚类中心点所在聚类簇中所有流量数据周围流量数据点的分布波动情况得到第四特征系数，具体包括：

将目标聚类中心所在聚类簇中每个流量数据点记为目标流量数据点，对于任意一个目标流量数据点，获取以目标流量数据点为圆心，预设长度为半径的圆形区域内包含的流量数据点的总数量记为目标流量数据点的数量特征值；计算所有目标流量数据点的数据特征值的方差得到所述第四特征系数。

优选地，所述根据每次迭代及历史迭代下的每个聚类中心点周围的数据点分布情况和威胁特征程度分布差异情况，得到每次迭代下的每个聚类中心点的迭代变化程度，具体包括：

将聚类过程中目标次迭代以及目标次迭代之前所有历史迭代构成目标次迭代的参考次迭代；根据每两个相邻的参考次迭代下目标聚类中心点所在聚类簇中流量数据点的数量差异、分布面积差异以及目标聚类中心点的威胁特征程度，得到目标聚类中中心点的迭代变化程度。

优选地，所述目标聚类中中心点的迭代变化程度的计算公式可以表示为：

其中，表示目标聚类中心点的迭代变化程度，i表示第i次迭代，也表示目标次迭代，t表示第i次迭代下的第t个聚类中心点，/>表示目标次迭代的所有参考次迭代的总数量，/>表示第v个参考次迭代与目标次迭代之间包含的参考次迭代的数量，/>表示第v-1个参考次迭代下目标聚类中心点所在聚类簇的流量数据点的数量，/>表示第v个参考次迭代下目标聚类中心点所在聚类簇的流量数据点的数量，/>表示第v-1个参考次迭代下目标聚类中心点所在聚类簇中所有流量数据点所在区域的最小外接矩形的面积，/>示第v个参考次迭代下目标聚类中心点所在聚类簇中所有流量数据点所在区域的最小外接矩形的面积，/>表示第v-1次迭代下的目标聚类中心点的威胁特征程度，/>表示第v次迭代下的目标聚类中心点的威胁特征程度。

优选地，所述根据所述威胁特征程度和迭代变化程度，对每次迭代下的聚类中心点的迭代过程进行更新得到聚类结果，具体包括：

对于任意一次迭代下的任意一个聚类中心点，计算聚类中心点的威胁特征程度的归一化值和迭代变化程度的归一化值的均值得到调整系数，获取聚类中心点与聚类中心点所在的当前次迭代相邻的下一次迭代下聚类中心点之间的距离记为聚类中心点的初始迭代移动距离；将所述调整系数与所述初始迭代移动距离之间的乘积作为聚类中心点的优选迭代移动距离；基于每次迭代下每个聚类中心点的优选迭代移动距离进行迭代聚类过程，得到聚类结果。

优选地，所述根据每个流量数据点与其他流量数据点之间的距离分布、以及每个流量数据点周围的数据分布情况，确定初始聚类中心点，具体包括：

将任意一个流量数据点作为第一个选定中心点，将除了第一个选定中心点之外的其他流量数据点记为第一候选中心点；根据每个第一候选中心点与第一个选定中心点之间的欧氏距离、以及每个第一候选中心点周围的数据分布情况，得到每个第一候选中心点的聚类特征程度；将所有聚类特征程度的最大值对应的第一候选中心点作为第二个选定中心点；

将除了第一个选定中心点和第二个选定中心点之外的流量数据点记为第二候选中心点，根据每个第二候选中心点与第一个选定中心点之间的欧氏距离、第二候选中心点与第二个选定中心点之间的欧氏距离以及第二候选中心点周围的数据分布情况，得到每个第二候选中心点的聚类特征程度；将第二候选中心点的聚类特征程度的最大值对应的第二候选中心点作为第三个选定中心点，以此类推，直至获取到预设数量个选定中心点停止，所有的选定中心点均为初始聚类中心点。

优选地，所述第一候选中心点的聚类特征程度的获取方法具体为：

对于任意一个第一候选中心点，获取以第一候选中心点为圆心，以第一候选中心点的最近邻距离为半径的圆形区域内流量数据点的数量，对该数量进行归一化处理得到第一候选中心点的邻域密度值；将第一候选中心点和第一个选定中心点之间的欧氏距离的归一化值与所述邻域密度值之间的和值作为第一候选中心点的聚类特征程度；

所述第二候选中心点的聚类特征程度的获取方法具体为：

对于任意一个第二候选中心点，计算第二候选中心点与第一个选定中心点之间的欧氏距离、以及第二候选中心点与第二个选定中心点之间的欧氏距离之间的累加和得到第二候选中心点的距离系数；将所述距离系数的归一化值与第二候选中心点的邻域密度值的和值作为第二候选中心点的聚类特征程度。

优选地，所述基于所述聚类结果确定实时网络威胁检测结果，具体包括：

对于聚类结果中的任意一个聚类簇，获取聚类簇内所有流量数据点所在区域的最小外接矩形的面积，对该最小外接矩形的面积进行负相关处理得到第三系数；计算聚类簇与除了该聚类簇之外的其他每个聚类簇之间的欧氏距离的累加和得到第四系数；

对第三系数和第四系数的乘积进行归一化处理得到聚类簇的异常程度；将聚类结果中异常程度大于预设的异常阈值对应的聚类簇记为网络威胁异常聚类簇。

第二方面本发明提供了一种实时网络威胁检测功能设备，包括存储器、处理器以及存储在存储器上并在处理器上运行的计算机程序，所述计算机程序被处理器执行时实现一种实时网络威胁检测方法的步骤。

本发明实施例至少具有如下有益效果：

本发明首先采集网络通路中的网络流量数据，通过特征提取操作将网络流量数据转化为流量数据点，为后续针对数据点进行聚类提供数据基础。然后，通过分析流量数据点与其他流量数据点之间的距离分布、以及每个流量数据点周围的数据分布情况，确定初始聚类中心点，能够根据数据分布特点，结合异常的威胁数据与正常的数据具有的不同的特征，自适应获取聚类的初始聚类中心点，为后续获取更加准确的聚类结果奠定基础。其次，利用确定好的初始聚类中心点进行聚类，结合聚类多层迭代的数据特征，据聚类过程中每次迭代下的每个聚类中心点与相同迭代过程中其他聚类中心点之间的距离分布、以及每个聚类中心点所在的聚类簇中流量数据点周围的数据分布，确定威胁特征程度，即对每次迭代下每个聚类中心点对应的数据分布具有异常的威胁数据的特征情况进行量化。进一步的，对每次迭代及历史迭代下的每个聚类中心点周围的数据点分布情况和威胁特征程度分布差异情况进行分析，考虑了迭代过程中异常的威胁数据的变化情况较大，正常的数据的变化情况较小，进而获得迭代变化程度。最终结合聚类过程中每次迭代过程的聚类中心点两个方面的特征情况对迭代过程进行更新，获得聚类结果，结合了网络攻击威胁特征的聚簇分布表现，避免了K-means聚类过程陷入局部最优解的问题，使网络攻击威胁异常在聚类结果中的表现更准确，最终使得网络威胁检测结果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本发明实施例提供的一种实时网络威胁检测方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的实时网络威胁检测方法及功能设备，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的实时网络威胁检测方法及功能设备的具体方案。

一种实时网络威胁检测方法实施例：

请参阅图1，其示出了本发明一个实施例提供的一种实时网络威胁检测方法的步骤流程图，该方法包括以下步骤：

步骤一，获取网络实时浏览记录中每个通路下的网络流量数据，提取每个通路下所有网络流量数据的主要特征得到每个通路的流量数据点。

首先，使用全流量检测产品捕获并记录网络流量数据，即对网络中多条网络通路进行多源检测，获取每个通路下的网络流量数据。在其他实施例中，也可以通过设备的运行日志获取网络通路的流量数据。其中，网络通路通常指的是数据在网络中传输的路径或路由。它可以包括从源到目的地的一系列网络设备、链路和节点，通过这些路径，数据能够在网络中传递。

然后，为了后续能够对不同通路下的网络流量数据特征进行分析，可以对网络流量进行特征分析，提取每个通路下所有网络流量数据的主要特征得到每个通路的流量数据点。具体地，在进行特征提取之前，避免不同数据之间的数据表现不同产生误差分析，先对每个网络流量数据进行标准化处理，在本实施例中，采用Min-max标准化方法进行处理。

对于任意一个通路，计算该通路下所有标准化后的网络流量数据的协方差矩阵，获取协方差矩阵的每个特征值和特征向量，获取特征值最大的特征向量作为该通路的流量数据点的横坐标，获取特征值第二大的特征向量作为该通路的流量数据点的纵坐标。即将每个通路下的网络流量数据转换为二维的数据点的形式，也即是将每个通路下的数据特征均投影到二维坐标系下，每个流量数据点能够反映对应通路下网络流量数据之间的特征分布情况。

步骤二，根据每个流量数据点与其他流量数据点之间的距离分布、以及每个流量数据点周围的数据分布情况，确定初始聚类中心点。

利用K-means聚类算法对网络流量数据的特征数据进行聚类分析时，需要首先获取聚类的初始条件，也即是确定聚类算法的初始聚类中心。首先需要确定初始聚类中心的个数，也即是利用K-means聚类的过程中K的取值，也即是聚类过程中聚类簇的数量。在本实施例中，采用肘部法获取K的取值。

为了避免聚类过程陷入局部最优解，对K个初始聚类中心进行筛选时需要满足不同的聚类中心之间的距离尽可能较远，同时，考虑到正常的数据特征与异常的威胁数据特征之间可能存在一定的相似性，具体表现为数据点的聚集性，因此，筛选出的初始聚类中心周围也需要保证存在一定数量的数据点，也即是每个初始聚类中心周围的数据点存在一定的聚集程度。

基于此，对每个流量数据点与其他流量数据点之间的距离分布、以及每个流量数据点周围的数据分布情况进行分析，获取初始聚类中心点。在本实施例中，任意一个流量数据点作为一个初始聚类中心点，在已经确定的初始聚类中心点的基础上，计算其他每个流量数据点与该点之间的距离情况，也即是需要满足不同的聚类中心之间的距离尽可能的较远。

具体地，将任意一个流量数据点作为第一个选定中心点，将除了第一个选定中心点之外的其他流量数据点记为第一候选中心点；根据每个第一候选中心点与第一个选定中心点之间的欧氏距离、以及每个第一候选中心点周围的数据分布情况，得到每个第一候选中心点的聚类特征程度。

其中，所述第一候选中心点的聚类特征程度的获取方法具体为：

对于任意一个第一候选中心点，获取以第一候选中心点为圆心，以第一候选中心点的最近邻距离为半径的圆形区域内流量数据点的数量，对该数量进行归一化处理得到第一候选中心点的邻域密度值；将第一候选中心点和第一个选定中心点之间的欧氏距离的归一化值与所述邻域密度值之间的和值作为第一候选中心点的聚类特征程度，用公式可以表示为：

其中，表示第w个第一候选中心点的聚类特征程度，/>表示第w个第一候选中心点与第一个选定中心点之间的欧氏距离，/>表示第w个第一候选中心点的邻域密度值，Norm( )表示线性归一化函数。

需要说明的是，第一候选中心点的最近邻距离的获取方法具体为，对于任意一个第一候选中心点，获取该第一候选中心点与其他第一候选中心点之间的欧氏距离的最小值得到所述该第一候选中心点的最近邻距离。

反映了第一候选中心点与第一个选定中心点之间的距离远近，该取值越大，说明待选的流量数据点中与已经选定的初始聚类中心之间的距离越远，则同时作为初始聚类中心的效果较好，对应的聚类特征程度的取值越大。/>反映了第一候选中心点周围的流量数据点密集分布情况，该取值越大，说明第一候选中心点周围数据点存在一定的聚集性，对应的聚类特征程度的取值越大。

聚类特征程度表征了候选中心点作为初始聚类中心点的聚类特征的表现程度，其取值越大，说明越符合该聚类特征。故从所有第一候选中心点中筛选出表现程度最大的第一候选中心点作为第二个确定的初始聚类中心点，具体地，将所有聚类特征程度的最大值对应的第一候选中心点作为第二个选定中心点。

进一步的，在已经确定的第一个选定中心点和第二个选定中心点的基础上，也即是已经确定的两个初始聚类中心的基础上，进一步对第三个初始聚类中心进行筛选，也即是比较除已经确定的两个初始聚类中心之外的其他流量数据点，与已经确定的初始聚类中心之间的距离分布情况，以及流量数据点自身周围的数据分布情况。

具体地，将除了第一个选定中心点和第二个选定中心点之外的流量数据点记为第二候选中心点，根据每个第二候选中心点与第一个选定中心点之间的欧氏距离、第二候选中心点与第二个选定中心点之间的欧氏距离以及第二候选中心点周围的数据分布情况，得到每个第二候选中心点的聚类特征程度。

其中，所述第二候选中心点的聚类特征程度的获取方法具体为：

对于任意一个第二候选中心点，计算第二候选中心点与第一个选定中心点之间的欧氏距离、以及第二候选中心点与第二个选定中心点之间的欧氏距离之间的累加和得到第二候选中心点的距离系数；将所述距离系数的归一化值与第二候选中心点的邻域密度值的和值作为第二候选中心点的聚类特征程度，用公式可以表示为：

其中，表示第x个第二候选中心点的聚类特征程度，/>表示第x个第二候选中心点与第一个选定中心点之间的欧氏距离，/>表示第x个第二候选中心点与第二个选定中心点之间的欧氏距离，/>表示第x个第二候选中心点的邻域密度值，Norm( )表示线性归一化函数。

类比第一候选中心点的聚类特征程度的计算方法，反映了第二候选中心点与已经选定的初始聚类中心点之间的距离远近，该取值越大，说明距离越远，/>反映了第二候选中心点周围流量数据点的分布聚集程度，该取值越大，进而第二候选中心点作为下一个初始聚类中心点的效果越好，对应的聚类特征程度的取值越大。

基于此，在所有第二候选中心点中筛选出特征表现程度最大的第二候选中心点作为下一个初始聚类中心点，具体地，将第二候选中心点的聚类特征程度的最大值对应的第二候选中心点作为第三个选定中心点。

至此，已经选定三个初始聚类中心点的位置，在已经选定的三个初始聚类中心点的基础上，从其他剩余的流量数据点中，通过分析剩余的每个流量数据点与三个初始聚类中心点之间的距离分布，以及流量数据点自身周围的数据分布聚集程度，确定下一个初始聚类中心点的位置，以此类推，直至获取到预设数量个选定中心点停止，所有的选定中心点均为初始聚类中心点，即在本实施例中，预设数量的取值为通过肘部法获取的K值。

获得的初始聚类中心点结合威胁数据特征与正常数据特征的聚集性，同时保证初始聚类中心点之间互相远离避免陷入局部最优解，是后续聚类迭代过程的基础，从而在后续聚类迭代中获得较理想的聚类结果，对网络威胁数据特征进行分离。

步骤三，利用初始聚类中心点对所有流量数据点进行聚类，根据聚类过程中每次迭代下的每个聚类中心点与相同迭代过程中其他聚类中心点之间的距离分布、以及每个聚类中心点所在的聚类簇中流量数据点周围的数据分布，得到每次迭代下的每个聚类中心点的威胁特征程度。

使用初始聚类中心点对所有流量数据点进行聚类，并在迭代过程中分析聚簇形态分布，使得后续能够进一步结合聚簇变化以获得迭代聚类过程中的自适应聚类中心移动距离。需要说明的是，现有的K-means聚类算法进行聚类的过程中，聚类中心的迭代过程具体是在初始聚类中心点的基础上，每次迭代下的每个聚类簇的聚类中心更新为聚类簇中所有数据点的均值。

一些网络攻击威胁数据存在固定的模式，以端口扫描攻击为例进行说明，该攻击模式为访问计算机上的每一个端口每一个通道，目的是尝试去发现服务器中哪些应用哪些端口可能存在漏洞，而正常的流量数据中不存在这种形式，所以对于端口扫描攻击，威胁数据相较于正常数据的访问端口数量更多，并且网络攻击数据并非一条，而是会在通道中遍布多条形成多个数据对象，以提升攻击成功率，所以异常的威胁数据也会形成聚类簇，但是正常的数据体量较大，导致异常的威胁数据的聚类簇相对较小。除端口扫描攻击之外其他种类的网络攻击威胁数据也存在相同的数据分布特征，由此在聚类过程中会形成具有离群程度较大的小型聚类簇。

另一方面，考虑到网络威胁攻击通常是提前设定好的，以端口扫描为例进行说明，扫描端口的攻击数据会遍历所有访问服务器的固定窗口，以实现设置好的攻击操作，因此访问端口的数量之间的相似性很高，对应异常的威胁数据的聚集性较强，聚类簇中数据分布局部密度更大，与正常的数据所在的聚类簇中相比，异常的威胁数据所在的聚类簇中数据分布更加均匀，异常的威胁数据在聚类簇中的分布形式是更趋向于多数据点聚集，且在每个数据点周围的聚集性都较高。

基于此，在对流量数据点进行聚类过程中，结合每次迭代过程不同聚类簇中流量数据点的分布情况，对聚类过程中每次迭代下的每个聚类中心点与相同迭代过程中其他聚类中心点之间的距离分布、以及每个聚类中心点所在的聚类簇中流量数据点周围的数据分布进行分析，实现对每次迭代过程中的每个聚类簇中包含异常威胁数据的特征情况进行量化，即获得每次迭代下的每个聚类中心点的威胁特征程度。

具体地，将任意一次迭代记为目标次迭代，将目标次迭代下任意一个聚类中心点记为目标聚类中心点，将目标次迭代下除了目标聚类中心点之外的其他聚类中心点记为参考聚类中心点，即以任意一次迭代过程中的任意一个聚类簇为例进行说明，分析该聚类簇的聚类中心点的数据特征分布。

首先，计算目标聚类中心点与每个参考聚类中心点之间的距离的累加和得到第一特征系数；对目标聚类中心点所在聚类簇中所有流量数据点所在区域的最小外接矩形的面积进行负相关映射得到第二特征系数。需要说明的是，目标聚类簇中心点所在聚类簇中所有流量数据点所在区域可以是完全包含目标聚类簇中心点所在聚类簇中所有流量数据点的不规则区域，可以通过连线聚类簇中的流量数据点，将目标聚类簇中心点所在聚类簇中所有流量数据点完全包括在内，进而就可以获取这个不规则区域的最小外接矩形。

然后，获取每个流量数据点与对应同一个聚类簇中的其他流量数据点之间的最短距离记为每个流量数据的最近邻距离；将目标聚类中心点所在聚类簇中所有流量数据点的最近邻数据的累加和作为第三特征系数。

根据目标聚类中心点所在聚类簇中所有流量数据周围流量数据点的分布波动情况得到第四特征系数；将目标聚类中心所在聚类簇中每个流量数据点记为目标流量数据点，对于任意一个目标流量数据点，获取以目标流量数据点为圆心，预设长度为半径的圆形区域内包含的流量数据点的总数量记为目标流量数据点的数量特征值；计算所有目标流量数据点的数据特征值的方差得到所述第四特征系数。在本实施例中，获取目标次迭代过程中每个聚类簇所在区域的最小外接矩形的最大内切圆，计算目标次迭代过程中所有最大内切圆的半径的均值作为预设长度，在其他实施例中实施者可根据具体实施场景进行设置。

在本实施例中，将聚类过程中的第i次迭代过程作为目标次迭代，将第i次迭代下的第t个聚类中心点作为目标聚类中心点，则目标聚类中心点的威胁特征程度的计算公式可以表示为：

其中，表示第i次迭代下的第t个聚类中心点的威胁特征程度，也表示目标聚类中心点的威胁特征程度，/>表示第i次迭代下第t个聚类中心点与第r个参考聚类中心点之间的欧氏距离，K表示聚类簇的总数量，/>表示参考聚类中心点的数量，/>表示第i次迭代下的第t个聚类中心点所在聚类簇中所有流量数据点所在区域的最小外接矩形的面积；/>表示第i个迭代下第t个聚类中心点所在聚类簇中第u个流量数据点的最近邻距离，/>表示第i个迭代下第t个聚类中心点所在聚类簇中包含的流量数据点的总数量，表示第i个迭代下第t个聚类中心点所在聚类簇中所有目标流量数据点的数据特征值的方差。

为第一系数，反映了目标聚类中心点与同一迭代过程中其他聚类中心点之间的距离远近，该取值越大，说明目标聚类中心点的离群程度越大，具有的威胁特征分布程度越大，对应的威胁特征程度的取值越大。

为第二系数，反映了目标聚类中心点所在聚类簇中所有流量数据点所在的分布面积，该取值越小，说明目标聚类中心点所在聚类簇的面积越小，具有的威胁特征的分布情况越大，对应的威胁特征程度的取值越大。

为第三系数，考虑到具有威胁数据特征的浏览数据点的表现形式为局部聚集，正常的流量数据点均匀分布，而具有威胁特征流量数据点的最近邻数据均较大，对应的第三系数取值越大，说明目标聚类中心点所在聚类簇具有威胁数据特征的可能性越大，对应的威胁特征程度的取值越大。

为第四系数，目标流量数据点的数据特征值反映了每个目标流量数据点周围的数据点分布的密集程度。正常的流量数据点由于数据部分布均匀，对应的聚类簇中流量数据点的数据特征值之间的差异就较小。而具有威胁特征的流量数据点所在的聚类簇中具有多种不同分布情况的聚集分布特征，比如，位于聚类中心的流量数据点周围的数据密度较大，位于局部聚集边缘部分的流量数据点周围的数据密度较小，对应的聚类簇中流量数据点的数据特征值之间的波动较大。

基于此，第四系数的取值越大，说明目标聚类中心点所在的聚类簇中每个目标流量数据点周围的数据密集程度分布的波动程度越大，且每个目标流量数据点的周围均存在聚集性高的分布特征，对应目标聚类中心点所在聚类簇的威胁特征分布程度越大，对应的威胁特征程度的取值越大。威胁特征程度表征了聚类中心点所在聚类中包含异常的威胁数据的分布特征的程度。

步骤四，根据每次迭代及历史迭代下的每个聚类中心点周围的数据点分布情况和威胁特征程度分布差异情况，得到每次迭代下的每个聚类中心点的迭代变化程度。

由于网络攻击威胁数据的多样性，故需要对多次迭代过程中不同的聚类簇中数据分布情况进行分析，在聚类迭代的过程中，随着聚类中心的移动，属于异常的威胁数据所在的聚类簇的变化情况较大，而正常的数据在不同特征部分存在一定的规律性，随着聚类中心的异常，正常的数据所在的聚类簇的变化情况较小。

基于此，可以通过分析每次迭代过程以及该迭代过程之前的迭代过程中包含同一个聚类中心点的聚类簇中数据分布之间的差异情况，获得每次迭代下的每个聚类中心点的迭代变化程度。

具体地，将聚类过程中目标次迭代以及目标次迭代之前所有历史迭代构成目标次迭代的参考次迭代；根据每两个相邻的参考次迭代下目标聚类中心点所在聚类簇中流量数据点的数量差异、分布面积差异以及目标聚类中心点的威胁特征程度，得到目标聚类中中心点的迭代变化程度。

在本实施例中，将聚类过程中的第i次迭代作为目标次迭代，则从聚类过程中第一次迭代直至第i次迭代过程均为目标次迭代的参考次迭代，进而目标聚类中心点的迭代变化程度的计算公式可以表示为：

表示目标聚类中心点在历史的迭代过程中，相邻两次迭代下目标聚类中心点所在的聚类簇中流量数据点之间的数量差异，该差异越大，说明目标聚类中心点在相邻两次迭代下所在的聚类簇之间的数量变化越大，对应的具有威胁特征分布的程度越大，迭代变化程度的取值也就越大。

表示目标聚类中心点在历史的迭代过程中，相邻两次迭代下目标聚类中心点所在的聚类簇中数据分布之间的面积大小差异，该差异越大，说明目标聚类中心点在相邻两次迭代下所在的聚类簇之间的面积变化越大，对应的具有威胁特征分布的程度越大，迭代变化程度的取值也就越大。

表示目标聚类中心点在历史的迭代过程中，相邻两次迭代下目标聚类中心点所在的聚类簇包含的威胁特征分布情况之间的差异，该差异越小，说明目标聚类中心点在相邻两次迭代下所在的聚类簇之间的威胁特征分布的差异越小，说明变化程度越小，对应具有威胁特征分布的程度越大，迭代变化程度的取值也就越大。

反映了历史的迭代过程中每一次迭代过程与目标次迭代过程之间的距离远近，将/>作为权值，两者之间的距离越近，权值越大，对应次迭代过程下的迭代变化情况的影响程度越大，既考虑了目标聚类中心点的整体迭代过程中聚类簇的变化情况，有对距离越近的迭代过程分配合理的影响程度。迭代变化程度表征了目标聚类中心点在经过迭代后在目标次迭代过程下发生变化的程度，进而也反映了目标聚类中心点所在聚类簇中具有威胁特征的表现程度。

步骤五，根据所述威胁特征程度和迭代变化程度，对每次迭代下的聚类中心点的迭代过程进行更新得到聚类结果，基于所述聚类结果确定实时网络威胁检测结果。

威胁特征程度表征了聚类中心点所在聚类中包含异常的威胁数据的分布特征的程度。迭代变化程度基于历史迭代过程发生变化的程度，也反映了对应聚类簇中包含异常的威胁数据的分布特征的程度。对于越具有威胁特征的聚类簇应当分配越多的聚类中心的移动长度，将更多的威胁特征归为异常的聚类簇，以避免具有威胁特征的流量数据点随着正常数据的聚类簇的移动，被正常的聚类簇归并，导致异常的聚类簇陷入局部最优解的问题。

基于此，根据所述威胁特征程度和迭代变化程度，对每次迭代下的聚类中心点的迭代过程进行更新得到聚类结果。具体地，对于任意一次迭代下的任意一个聚类中心点，计算聚类中心点的威胁特征程度的归一化值和迭代变化程度的归一化值的均值得到调整系数，获取聚类中心点与聚类中心点所在的当前次迭代相邻的下一次迭代下聚类中心点之间的距离记为聚类中心点的初始迭代移动距离；将所述调整系数与所述初始迭代移动距离之间的乘积作为聚类中心点的优选迭代移动距离。

在本实施例中，以第i次迭代下第t个聚类中心点为例进行说明，则第i次迭代下第t个聚类中心点的优选迭代移动距离的计算公式可以表示为：

其中，表示第i次迭代下第t个聚类中心点的优选迭代移动距离，/>表示第i次迭代下第t个聚类中心点的初始迭代移动距离，/>表示第i次迭代下的第t个聚类中心点的威胁特征程度，/>表示第i次迭代下的第t个聚类中心点的迭代变化程度，Norm( )表示线性归一化函数。

需要说明的是，初始迭代移动距离也即是，按照K-means聚类算法的处理过程，每次迭代下的每个聚类簇的聚类中心更新为聚类簇中所有数据点的均值，也即是的获取方法为，获取第i次迭代下第t个聚类中心点所在聚类簇中所有流量数据点的均值得到第i+1次迭代下的更新聚类中心点，获取所述第t个聚类中心点与所述更新聚类中心点之间的距离即为初始迭代移动距离，移动的方向也即是所述第t个聚类中心点指向述更新聚类中心点的方向。

的取值越大，/>的取值越大，说明第i次迭代下第t个聚类中心点具有威胁特征的分布程度越大，对应该聚类中心点所需的移动程度越大，从而避免具有威胁特征的数据所在聚类簇陷入局部最优解的问题。

进一步的，基于每次迭代下每个聚类中心点的优选迭代移动距离进行迭代聚类过程，得到聚类结果，需要说明的是，每次迭代的移动方向与原始聚类算法中的移动方向相同。

考虑到正常的网络流量数据表现在聚类结果中属于较大且较为密集的聚类，而对于异常的威胁数据不属于任何聚类也即是孤立数据，或者属于较小且较为独特也存在一定聚集性的聚类，当聚类结果中一些聚类簇中数据分布较大，而一些聚类簇中数据分布较小，可以用于网络流量异常检测。

基于此，通过分析聚类结果中每个聚类簇的数据分布的面积大小以及每个聚类簇与其他聚类簇之间的距离远近情况，对聚类结果中每个聚类簇的异常情况进行量化。

具体地，对于聚类结果中的任意一个聚类簇，获取聚类簇内所有流量数据点所在区域的最小外接矩形的面积，对该最小外接矩形的面积进行负相关处理得到第三系数；计算聚类簇与除了该聚类簇之外的其他每个聚类簇之间的欧氏距离的累加和得到第四系数；对第三系数和第四系数的乘积进行归一化处理得到聚类簇的异常程度。

在本实施例中，以聚类结果中第o个聚类簇为例进行说明，则聚类结果中第o个聚类簇的异常程度的计算公式可以表示为：

其中，表示聚类结果中第o个聚类簇的异常程度，/>表示聚类结果中第o个聚类簇中所有流量数据点所在区域的最小外接矩形的面积，/>表示聚类结果中第o个聚类簇与除了第o个聚类簇之外的第h个聚类簇之间的聚类中心的欧式距离，K表示聚类结果中包含的聚类簇的总数量，Norm表示线性归一化函数。

为第三系数，反映了聚类结果中第o个聚类簇中数据分布的面积大小，/>为第四系数，反映了聚类结果中第o个聚类簇的聚类中心与其他聚类簇的聚类中心之间的距离远近。第三系数的取值越小，且第四系数的取值越大，数目聚类簇中数据分布越小，且距离越远，进而说明聚类簇越可能属于异常的威胁数据所在聚类簇，进而对应的异常程度的取值越大。

基于此，将聚类结果中异常程度大于预设的异常阈值对应的聚类簇记为网络威胁异常聚类簇。在本实施例中，将异常阈值的取值设置为0.5，由于异常程度的取值为归一化的数值，则异常阈值的取值为(0,1)，当异常阈值的取值越接近于1时，说明对异常聚类簇的评判标准越为严格，当异常阈值的取值越接近于0时，说明对异常聚类簇的评判标准越为宽松。

当聚类结果中聚类簇的异常程度大于异常阈值时，说明聚类簇越可能为异常的威胁数据所在聚类簇，进而相关工作人员使用设备对存在威胁的数据集通道进行关闭端口，并进行威胁情报分发，避免出现安全性问题。当聚类结果中聚类簇的异常程度小于或等于异常阈值时，说明聚类簇可能并不存在异常的威胁数据，进而不需要进行进一步的处理操作。

一种实时网络威胁检测功能设备实施例：

本发明实施例提供了一种实时网络威胁检测功能设备，包括存储器、处理器以及存储在存储器上并在处理器上运行的计算机程序，所述计算机程序被处理器执行时实现一种实时网络威胁检测方法的步骤。由于已经对一种实时网络威胁检测方法实施例进行了详细的阐述，在此不再过多介绍。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.一种实时网络威胁检测方法，其特征在于，该方法包括以下步骤：

根据所述威胁特征程度和迭代变化程度，对每次迭代下的聚类中心点的迭代过程进行更新得到聚类结果，基于所述聚类结果确定实时网络威胁检测结果；

所述根据聚类过程中每次迭代下的每个聚类中心点与相同迭代过程中其他聚类中心点之间的距离分布、以及每个聚类中心点所在的聚类簇中流量数据点周围的数据分布，得到每次迭代下的每个聚类中心点的威胁特征程度，具体包括：

根据所述第一特征系数、第二特征系数、第三特征系数和第四特征系数得到目标聚类中心点的威胁特征程度；所述第一特征系数、第二特征系数、第三特征系数和第四特征系数均与所述威胁特征程度呈正相关关系；

所述根据目标聚类中心点所在聚类簇中所有流量数据周围流量数据点的分布波动情况得到第四特征系数，具体包括：

将目标聚类中心所在聚类簇中每个流量数据点记为目标流量数据点，对于任意一个目标流量数据点，获取以目标流量数据点为圆心，预设长度为半径的圆形区域内包含的流量数据点的总数量记为目标流量数据点的数量特征值；计算所有目标流量数据点的数据特征值的方差得到所述第四特征系数；

所述威胁特征程度的计算公式为：

其中，表示第i次迭代下的第t个聚类中心点的威胁特征程度，也表示目标聚类中心点的威胁特征程度，/>表示第i次迭代下第t个聚类中心点与第r个参考聚类中心点之间的欧氏距离，K表示聚类簇的总数量，/>表示参考聚类中心点的数量，/>表示第i次迭代下的第t个聚类中心点所在聚类簇中所有流量数据点所在区域的最小外接矩形的面积；/>表示第i个迭代下第t个聚类中心点所在聚类簇中第u个流量数据点的最近邻距离，/>表示第i个迭代下第t个聚类中心点所在聚类簇中包含的流量数据点的总数量，/>表示第i个迭代下第t个聚类中心点所在聚类簇中所有目标流量数据点的数据特征值的方差；

所述根据每次迭代及历史迭代下的每个聚类中心点周围的数据点分布情况和威胁特征程度分布差异情况，得到每次迭代下的每个聚类中心点的迭代变化程度，具体包括：

将聚类过程中目标次迭代以及目标次迭代之前所有历史迭代构成目标次迭代的参考次迭代；根据每两个相邻的参考次迭代下目标聚类中心点所在聚类簇中流量数据点的数量差异、分布面积差异以及目标聚类中心点的威胁特征程度，得到目标聚类中中心点的迭代变化程度；

所述目标聚类中中心点的迭代变化程度的计算公式可以表示为：

其中，表示目标聚类中心点的迭代变化程度，i表示第i次迭代，也表示目标次迭代，t表示第i次迭代下的第t个聚类中心点，/>表示目标次迭代的所有参考次迭代的总数量，表示第v个参考次迭代与目标次迭代之间包含的参考次迭代的数量，/>表示第v-1个参考次迭代下目标聚类中心点所在聚类簇的流量数据点的数量，/>表示第v个参考次迭代下目标聚类中心点所在聚类簇的流量数据点的数量，/>表示第v-1个参考次迭代下目标聚类中心点所在聚类簇中所有流量数据点所在区域的最小外接矩形的面积，/>示第v个参考次迭代下目标聚类中心点所在聚类簇中所有流量数据点所在区域的最小外接矩形的面积，/>表示第v-1次迭代下的目标聚类中心点的威胁特征程度，/>表示第v次迭代下的目标聚类中心点的威胁特征程度；

所述根据每个流量数据点与其他流量数据点之间的距离分布、以及每个流量数据点周围的数据分布情况，确定初始聚类中心点，具体包括：

2.根据权利要求1所述的一种实时网络威胁检测方法，其特征在于，所述根据所述威胁特征程度和迭代变化程度，对每次迭代下的聚类中心点的迭代过程进行更新得到聚类结果，具体包括：

3.根据权利要求1所述的一种实时网络威胁检测方法，其特征在于，所述第一候选中心点的聚类特征程度的获取方法具体为：

所述第二候选中心点的聚类特征程度的获取方法具体为：

4.根据权利要求1所述的一种实时网络威胁检测方法，其特征在于，所述基于所述聚类结果确定实时网络威胁检测结果，具体包括：

5.一种实时网络威胁检测功能设备，包括存储器、处理器以及存储在存储器上并在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的一种实时网络威胁检测方法的步骤。