CN116226700A

CN116226700A - 一种基于时间序列聚类的流量异常检测方法

Info

Publication number: CN116226700A
Application number: CN202310247352.6A
Authority: CN
Inventors: 祝清意; 刘宇杭; 胡阳雨; 甘臣权
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-06-06

Abstract

本发明涉及一种基于时间序列聚类的流量异常检测方法，属于数据挖掘领域，包括对系统流量数据的采集、流量数据预处理、流量序列特征点采样，在特征点之间的区域进行间隔采样，找出最大信息熵值并记录下序列间隔信息；计算所有序列片段中的区间累积梯度，提取序列片段的局部特征信息，定位方向区间并构建对应特征序列梯度的直方图；对采样序列片段进行低维信息处理；获得对于序列片段的特征向量描述；对特征向量进行高维特征空间的映射得到不同类别下的特征片段类别信息分布；对每个序列进行准确的特征频率向量编码；对于序列的编码向量表示进行聚类，获取每个序列的聚类类别信息；对原有标注的信息和聚类获得的类别信息进行评估并应用异常检测。

Description

一种基于时间序列聚类的流量异常检测方法

技术领域

本发明属于数据挖掘领域，涉及一种基于时间序列聚类的流量异常检测方法。

背景技术

时间序列作为日常生活中广泛存在的数据形式之一，众多领域如金融，气象，医学等领域都与时序有着密不可分的联系。近年来，随着物联网领域中数据信息的不断采集，越来越多的时序数据也被大量的生成和存储起来。而对于这些重要的数据，如何挖掘出其中有效的知识正是数据挖掘领域的重要研究课题。其中如何对这些海量的数据进行类型识别就是一个备受关注的问题。尤其是挖掘出数据之间的隐含特征信息以及根据其中的特征进行序列识别也是其中值得探讨的问题。相似度计算是很多数据挖掘和机器学习算法中不可或缺的一部分，而核函数的最终目的也是计算任意两个数据点的相似度。近年来核函数一直是一个广受关注的研究方向。在机器学习领域中，核函数是一个有效的相似性度量函数，其本质在于通过把数据映射到一个新的空间中，再在新的空间中计算数据之间的点积作为新相似度，能够有效解决低维数据的线性不可分。其通过将低维的数据经过核技巧的非线性变换后使其在高维特征空间中线性可分。与其他非线性算法相比，核函数不仅计算复杂度简单，而且结构简单，泛化能力较好，所以核函数是一个很实用的机器学习方法。

现有的时间序列聚类研究的方法中主要分为三个不同的类别：(1)基于相似性的聚类，就是在聚类过程中进行时间序列数据的相似性计算，直接引用原始数据，因而也被称为基于形状的时间序列聚类方法。这类方法通常是对传统的静态聚类方法的距离度量进行调整使之适用于时间序列数据间的匹配，但是容易产生极高的时间复杂度，仅适用于小数据集聚类；(2)基于特征的时间序列聚类，将原始数据转换为低维的特征向量，随后使用传统的静态聚类方法对特征向量进行聚类处理。该方法在处理时间序列上着眼于时间序列的内部特征，重点在于提高特征的可解释性，在实现数据简约的同时还能处理存在数据缺失或序列不等长的情况；(3)基于模型的时间序列聚类，该方法将数据集认为是由某种模型或者概率分布进行拟合，不同的时间序列是具有不同参数的模型表达。将原始时间序列转换为模型参数，然后根据参数计算距离，并选择适合的传统聚类方法进行聚类。

词袋模型是一个基于特征聚类的研究方法，其主要分为三个步骤，分别是特征提取，特征编码和特征聚类。该方法首先对序列进行特征提取，在特征的基础上使用聚类方法对特征编码，最后就是使用聚类识别不同类别编码。目前的聚类生成方法大多与高斯混合模型相结合，用高斯混合先验引导数据在特征空间的分布情况。但是由于结合了高斯混合模型，这类方法存在收敛速度慢和训练不稳定的问题。而且，由于采集的时序特征是没有标签的，模型无法知道特征中蕴含的概念信息。虽然能够学习到了多个高斯分布，但高斯混合分布是一种概率的描述，无法知道具体哪一个分布对应哪一类特征。而因为采样特征本身就处于一种未知分布中，所以给序列特征打标签是不合实际的。

发明内容

有鉴于此，本发明的目的在于提供一种结合核函数的词袋框架模型来对提取的特征预处理编码的方法，实现能够应对无先验信息的特征集合中聚类和在时间序列聚类识别过程中的生成新的编码特征过程。

为达到上述目的，本发明提供如下技术方案：

一种基于时间序列聚类的流量异常检测方法，包括以下步骤：

S1：从物联网数据采集终端中收集流量运行数据，并进行数据清洗，包括利用标准化方法对所述流量运行数据进行预处理，以及对所述流量运行数据进行特征采样；

S2：利用信息熵的计算方法，对特征数据中所有序列进行区间搜索运算，计算最大信息熵值并记录下序列间隔信息，保证序列的辨识信息充分；

S3：利用特征梯度提取算法，在最优间隔信息下，计算所有序列片段中的区间累积梯度，从中提取序列片段的局部特征信息，定位方向区间，并使用三角函数分解梯度构建对应特征序列梯度的直方图；

S4：利用具有拉伸压缩稳定性的降维算法对采样序列片段进行低维信息处理，保留信息在低维信息中的可区分度，过滤特征分布较低的无关维度，保留序列的局部信息；

S5：利用方差标准过滤方法在将两种特征标准化融合的基础上，修剪其中信息密度较低的维度，去掉其中无意义的计算消耗，获得最终对于序列片段的特征向量描述；

S6：利用核函数对特征向量进行高维特征空间的映射，在指定类别的范围内对所有序列片段的特征高维表示下进行相似度度量的聚类识别，得到不同类别下的特征片段类别信息分布；

S7：利用词袋框架的思想，对于已知特征片段分布信息，根据时间序列的采样顺序对每个序列进行特征频率向量编码，保证每个序列都能转换的特征编码向量；

S8：利用谱聚类算法对序列的编码向量表示进行聚类，通过图论的构图和切图方法保证聚类结果的有效性，使得同类的数据在投影特征空间中靠拢，不同类的数据在投影特征空间中分离，并在特征空间进行计算优化，最后获取每个序列的聚类类别信息；

S9：利用调整互信息方法来对原有标注的信息和聚类获得的类别信息进行评估并对现有的异常流量数据进行应用。

进一步，步骤S1所述特征采样，包括以下步骤：通过设置参数对特征突出的点进行判别，若是则提取该点作为特征点，然后在剩余的区间中进行均匀的间隔采样，最后以点为中心向周围对序列填充序列片段作为局部信息；将序列中的采样结果分为富裕点和贫瘠点，分别进行采样，在特征点采样区间中使用间隔参数依次从中获取剩下的采样点。

所述特征点定义如下：

给定一个时间序列T(t₁,t₂,...,t_n)，首先特征点需要满足(t_i-t_i-1)*(t_i+1-t_i)＜0的拐点规则，然后在过滤集合中继续进行判断，判断过程如下，满足其一即可：

t_i＞min(t_＜i)+Δ且t_i＞t_i+1

或者t_i＞t_i-1且t_i＞min(t_＞i)+Δ

其中t_i表示第i个位置的序列值，t_<i表示第i个序列点之前的所有序列值，Δ表示峰谷值指定的比例，即序列最大最小差值与某个位于0，1区间的给定数值相乘。

进一步，利用信息熵算法使特征信息表示最大化。由于时间序列的样本之间不存在横向跨度数值的量化，为了更好的表现序列之间的梯度等特征信息。以整个数据集的序列为输入，在通常的参数范围内，循环迭代出能够确保每个序列中能够最大特征描述的信息熵即最大熵值，同时保存最大熵值下的序列间隔参数。根据中心求导的计算方式，在特定的参数范围内依次对八个方向范围的梯度进行区间累积，然后计算每个方向区间的分布占比。具体则是将间距按照范围分为不同的间隔值，随后依次计算不同间隔下的信息熵，并保存每个间隔下的熵，然后找出本轮循环中所有熵值中的最大熵，接着在计算出的最大熵的左右上一个区间之间继续切分进行最大熵的参数寻找，直到满足迭代次数为止。该计算方式具有优秀的稳定性，可以保证计算结果的一致性，通过一次计算便能得到序列数据对应的参数信息。

最大信息熵计算公式为：

其中X是信源的随机变量，p_i表示第i个变量的概率信息。

进一步，步骤S3中，利用hog-1d算法进行特征描述，在基于采样点为中心的填充序列片段上计算两两序列点之间的中心导数作为梯度信息，然后在水平方向区间中将每个序列的梯度权重累积起来用以表示当前序列的局部信息。利用hog-1d算法进行特征描述，因为hog算法在图像保留局部特征上有优秀的性能。hog算法是通过在梯度区间内构建直方图来有效的表示图像的局部信息，hog-1d则是仅保留了水平方向上的梯度信息，这样构建的直方图特征相比于原始序列更加有可解释性。

进一步，步骤S4中，利用降维方法mds-dtw来对序列片段进行降维处理；

其中mds是在对象之间的相似性给定下，确定这些对象在低维空间中的表示，并尽可能与原先的相似性大致匹配的全局降维方法；dtw是序列的动态规划度量方式；

mds结合dtw度量来计算序列之间的距离矩阵，然后迭代计算不同特征之间的距离；dtw算法的计算公式如下：

对于两个待计算的序列Q(q₁,q₂,...,q_n)，C(c₁,c₂,...,c_n)，计算它们之间的dtw距离如下：

γ(i,j)＝d(q_i,c_j)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}

其中γ(i,j)表示原点到终点(q_i,c_j)坐标的累积距离，其中当i，j为n时就是整个序列通过dtw算法所求的距离；mds降维方法通过最小化损失函数的值来求解点在Z维空间的分布，即目标维度，损失函数如下：

其中N为实例数量，z_i表示在目标维度下的第i个实例的向量表示，||||表示度量计算，d_ij表示原始距离矩阵中i,j之间的距离。

进一步，步骤S5中，利用标准差方法维护特征差异明显的维度，先对特征进行标准化处理，接着对于所有维度信息进行方差计算，方差计算公式如下：

/>

其中n表示序列的个数，x_i表示第i个样本实例，

表示所有样本的平均值。

进一步，步骤S6中，使用孤立核函数将特征向量的投影到高维空间，然后进行序列在映射空间中的聚类识别去得到未知先验分布信息下的特征向量的类别分布；孤立核函数的计算公式如下：

其中x,y是两个样本点，K_Ψ(x,y|D)表示x,y在t次独立实验中落入同一细胞中的百分比，D表示特征集合，Ψ是非重叠分区的数量，l是一个指标函数，θ[z]是一个孤立分区，H是所有分区集合；

接着使用k-means方法将所有样本划分为k个簇后并迭代计算所有样本与聚簇中心的最小化均方误差：

其中E表示最小均方误差，k表示聚类数量，C_i表示第i个聚类簇，x表示样本实例，μ_i表示第i个簇的簇心样本，其中μ_i的计算公式如下：

其中|C_i|表示第i个簇的实例数量。

进一步，步骤S8中，利用谱聚类来对编码向量进行聚类，首先求出相似度矩阵，然后对矩阵归一化运算，之后求出k个特征向量，最后再使用k-means进行聚类，具体包括：

首先基于图论知识构建相似矩阵S，然后构建邻接矩阵W和度矩阵D，并计算出拉普拉斯矩阵L，计算D^-1/2LD^-1/2最小化的k1个特征值所各自对应的特征向量f，将各自对应的特征向量f组成的矩阵按行标准化，最终组成特征矩阵F，然后对F中每一行作为一个k1维的样本，共n个样本，用输入的聚类方法进行聚类，聚类维数为k2，得到最终的簇划分为C。

进一步，步骤S9中调整互信息的公式计算如下：

其中H(U),H(V)分别表示两个分布的信息熵，MI是原始互信息指标，E[MI]表示互信息的期望：

其中a_i,b_j分别是U与V分布中的对应类别的样本个数。

首先从所有的流量数据中采集出一部分数据作为训练集，然后对其进行清洗，特征构建以及编码，最后在其编码之上聚类并将评估结果良好的聚类模型参数予以保留作为后续聚类的先验信息，然后在整个训练的数据集上进行训练，最后完成对当前数据的结果返回系统，系统根据所有返回结果将需要管理的机器告警，运营维护人员根据告警结果和机器的实际情况进行分析和处理。

本发明的有益效果在于：本发明在物联网系统大量产生流量数据而无有效监督的背景下，通过使用合理的特征采样方法获得了数据的序列点采样信息，接着是对序列点进行扩展填充获取特征片段用于描述局部信息，然后通过使用适应序列计算的hog特征提取算法和mds-dtw降维算法提高特征的局部信息，增强了特征的解释性，紧接着对融合特征使用方差过滤方法将无关的信息维度剔除，避免影响后续的计算效率。已有的工作中很少能在无监督的情况下获得特征数据的分布信息，在结合核函数对于特征数据进行特征空间映射处理后，使用kmeans方法将特征数据进行聚类识别，随后使用词袋模型对于特征进行向量编码，最后就是使用谱聚类方法识别序列和进行相应的标签评估，并将训练好的参数应用于真实的流量数据聚类区分正常和异常工作的机器。相比于传统的序列聚类算法，该方法增加了一次特征聚类和硬编码的过程，所以该方法对于序列的局部信息具有更强的可解释性，使得我们的模型能够更好的适应无先验信息的特征分布，鲁棒性也更强。通过对特征的核函数处理和聚类获取特征的分布信息，可以无监督的在聚类特征进行编码，这样的聚类方式比用混合高斯先验更加准确且收敛更快。在对特征数据的高维空间处理和生成向量编码后，只需要选择一种高效的聚类算法，在生成好的编码向量数据聚类就能获取优秀的聚类结果和良好的聚类指标，这是已有的无监督生成方法无法实现的。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述的基于时间序列聚类的流量异常检测方法的算法流程图。

图2为实验的工程应用实验流程。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明主要用于聚类识别序列等长的时间序列数据集，包括使用有效的序列点采样方法提取序列点特征，然后填充为采样序列并通过信息熵方法计算最大熵的序列间距描述，通过使用一维hog算法和mds降维方法提取局部特征信息并将特征互补融合。将处理后的特征通过方差标准过滤去除表达信息较弱的维度，既保证了维度信息的可解释性，又降低了后续实验过程的计算复杂度。接着在采样特征集合中使用孤立核函数的方法映射采样特征到高维特征空间中并使用kmeans方法在特征空间进行聚类识别特征的分布，然后使用词袋模型的步骤对特征进行分箱编码，得到时序数据的特征嵌入表示。通过对特征嵌入表式进行谱聚类来完成时序类别区分，可以无监督的在加权图特征空间中识别序列类别。在获取的类别信息后，最后使用一种调整互信息方法来对序列标签公平的评估。

具体的，本发明提出一种基于时间序列聚类的流量异常检测方法，如图1，包括：

S1：从物联网数据采集终端中收集系统的每天的流量运行数据，然后是将采集的流量数据进行数据清洗，包含利用标准化方法对序列数据进行预处理，使用适合的采样方法对流量数据进行特征采样；

在本实施例中，从物联网系统上获取的流量数据是杂乱的，有噪声的，需要对其进行相关处理，将其中异常的，缺失的部分进行合规处理，去除其中较高的收集噪声和排除掉无效的数据。在清洗完其中的无效和填充完缺失的数据后，首先利用混合采样方法对时间序列数据集进行特征点采样，首先根据参数的定义找出序列中的满足峰值和谷值的特征点，接着在以它们两两之间的序列坐标为基础，均匀采样间隔区间，然后将所有的点坐标索引记录下来作为填充特征序列的基础。相比其余的采样方法，该方法更加合理，避免了随机采样的特征缺失和均匀采样的特征差异分布问题，保证了特征采样的丰富度，使得采样过程更加注重突出特征的选取，也不至于忽视了重点特征以外的其他区域特征。然后以采样点为中心对整个序列进行填充，同时设置了序列点填充方式，使得采样的两个端点附近的填充序列不会太过突兀。利用混合的时间序列数据采样，相比于随机和均匀采样方法展现出采样的稳定和特征明显。通过将序列中的采样结果分为富裕点和贫瘠点，分别进行采样获得更好的数据特征适应数据特征的不同分布情况，并且能够兼顾到重要特征区域的特征值。在特征点采样区间中使用间隔参数依次从中获取剩下的采样点。特征点的定义如下：

给定一个时间序列T(t₁,t₂,...,t_n),首先特征点需要满足(t_i-t_i-1)*(t_i+1-t_i)＜0的拐点规则，然后在过滤集合中继续进行判断。判断过程如下，满足其一即可：

t_i＞min(t_＜i)+Δ且t_i＞t_i+1或者t_i＞t_i-1且t_i＞min(t_＞i)+Δ

本实施例中，利用信息熵方法以所有序列数据为主，计算最大熵来表示序列之间的区间间隔，该方法可以有效的提高特征的局部表示信息。在通过不断的迭代运算过程之后，寻找出在默认间隔区间中的最优信息熵的间隔距离。最大信息熵具体计算方法为：

其中X是信源的随机变量，p_i表示第i个变量的概率信息。

在本实施例中，利用hog算法在间隔信息下计算，可以进一步计算序列点之间的中心导数，然后用于梯度切分累计。将直方图划分为八个区间，进行九个方向值的累计，其中对于每个点计算其上下间距的梯度，计算其位于具体的区间范围，随后将其按照进行相邻向量上的梯度分解和进行累计，最后获得所有特征序列的直方图信息向量。

本实施例中，接着对原始的时间序列使用mds降维方法对其进行局部特征描述，由于mds是一种全局的维度特征表示，首先需要利用dtw方法对其计算距离矩阵，随后对其进行矩阵内积计算和构建损失求解，最后降维之后的序列之间的矩阵距离应尽可能与dtw的距离矩阵保持一致。在dtw需要构建一个较大的空间，使用最小二乘法的计算方式来加速这一计算过程。dtw算法的计算公式如下：

对于两个待计算的序列Q(q₁,q₂,...,q_n)，C(c₁,c₂,...,c_n)，则计算它们之间的dtw距离如下：γ(i,j)＝d(q_i,c_j)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}

其中γ(i,j)表示原点到终点(q_i,c_j)坐标的累积距离，其中当i，j为n时就是整个序列通过dtw算法所求的距离。mds降维方法通过最小化损失函数的值来求解点在Z维空间的分布，即目标维度，损失函数如下：

在本实施例中，获得两个对应的特征后，首先对特征进行标准化处理，然后进行维度融合拼接，保证两个维度之间的信息能够更加有辨识性，我们通过计算每个维度的方差，来对标准化的维度进行过滤，其中变化较小的维度就被去除掉，可以有效的加快后续实验步骤。方差计算公式如下：

其中n表示序列的个数，x_i表示第i个样本实例，

表示所有样本的平均值。

在本实施例中，进一步的，利用维度修剪后的特征，我们通过采样升维的方式对特征数据映射到相应的特征空间中。首先我们从训练数据中随机选择Ψ个样本点作为子采样，然后以这Ψ个样本点划分整个数据空间形成维诺图，即一个样本点为一个细胞的中心，反复训练t次得到t个维诺图。将测试的俩个数据点放进每个维诺图中，如果这俩个点落在同一个细胞中，则它们的相似度为1，否则相似度为0。然后计算得出它们落在同一个细胞中的概率即最终的相似度。在数据分布越密集的地方会被划分得越多，如果在这些地方则他们更容易掉进不同的细胞空间里而得到更小的相似度。在具体的特征空间中，每个维度的相似度比较都能表现得非常良好，相同类别的互相靠近，不同类别的信息互相远离。保证了在无先验信息的情况下，依赖于现有的数据进行有效识别特征的类别。孤立核函数的计算公式如下：

其中x,y是两个样本点，K_Ψ(x,y|D)表示x,y在t次独立实验中落入同一细胞中的百分比，D表示特征集合，Ψ是非重叠分区的数量，l是一个指标函数，θ[z]是一个孤立分区，H是所有分区集合。接着kmeans方法的目标则是通过将所有样本划分为k个簇后并迭代计算所有样本与聚簇中心的最小化均方误差：

其中|C_i|表示第i个簇的实例数量，其余参数和上述公式一致。

在本实施例中，我们对于包含类别信息的特征对于每个原始序列进行类型编码，每个序列构建一个特征类别大小的直方图，然后对于每条序列上的采样特征进行依次特征计数，得到每个序列中特征的分布状态，通过这些编码向量可以直观的观察到同一类别中的序列分布状况和不同类别中序列分布状况的特征差异。

在本实施例中，利用稳定的谱聚类对原始特征序列进行准确聚类，其中谱聚类通过构建无向加权图的方式，通过切图来是的各个聚类之间的损失函数最小化的方式来保证类别之间的关系，相比于其他聚类算法，展现出不错的性能表现。谱聚类的实现过程首先基于图论知识构建相似矩阵S，然后构建邻接矩阵W和度矩阵D，并计算出拉普拉斯矩阵L，计算D^-1/2LD^-1/2最小化的k1个特征值所各自对应的特征向量f，将各自对应的特征向量f组成的矩阵按行标准化，最终组成特征矩阵F，然后对F中每一行作为一个k1维的样本，共n个样本，用输入的聚类方法进行聚类，聚类维数为k2，得到最终的簇划分为C。两个特征集合之间的权重和的定义如下：

其中A，B为任意两个实例样本集合。切图的定义如下：

其中

是A_i的补集，k表示切分的类别数。

在本实施例中，利用一种广受欢迎的调整互信息评估方法来对聚类标签和原始标签进行评估，该方法可以惩罚由于加大聚类簇的个数而造成的良好的聚类指标，能够公平的评估聚类结果。首先假设U与V是对N个样本标签的分配情况，则两种分布的上分别为：

其中P(i)是从U中随机选取的对象到类的概率，P(j)是从V中随机选取对象到类的概率。则U与V之间的互信息MI定义为

其中

其中P(i,j)是随机选择的对象落入两个类的概率和，N为样本总数。则调整互信息的公式计算如下：

其中MI是互信息指标，E[MI]表示互信息的期望，E[MI]的期望计算如下：

其中a_i,b_j分别是U与V分布中的对应类别的样本个数。

由于缺乏对数据集知识理解，首先需要从数据集中获取到先验知识，即需要首先采集到部分的流量数据信息，然后根据数据收集到的信息进行高效编码并最终聚类。例如根据不同的数据规模完成对聚类的超参数k的识别，k是聚类的重要初始参数。此外还有数据的迭代次数需要提前设置，迭代是聚类过程中对数据分布的重要拟合过程。这些信息的了解通过初始学习并保留其中有用的信息作为后续聚类信息，然后根据挖掘信息进行分组，按照不同流量序列将机器划分到不同类别中，对于其中异常变化的组别进行额外的告警通知，最后由运营维护人员具体问题具体分析处理。

目前已有的时序聚类方法很少能在无监督的情况下提取到特征数据中的概念信息，也不能对数据维度进行准确的映射，且大多聚类生成模型都存在不稳定和收敛速度慢的问题；本发明用混合采样的方式提取序列特征，增强了模型的稳定性；通过信息熵方法保证序列之间的特征信息足够充分；使用hog和mds方法提取序列的局部信息；使用特征融合的方法使得特征更加可解释性，而且也更加稳定；还有使用核函数对于高维特征空间的投影，保证特征之间能够有效区分，成功在无监督的情况下提取到数据中蕴含的类别信息；使用可靠的谱聚类方法解决聚类实验的有效性；相较于普通聚类方法我们的框架多了一次采样和特征提取的过程，所以特征空间变大，使得我们的方法能够识别得更加准确，鲁棒性更强；通过对获得特征数据的分布并完成序列编码，可以无监督的聚类特征空间中的数据，这样的聚类方式比用混合高斯先验更加稳定且收敛更快。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于时间序列聚类的流量异常检测方法，其特征在于：包括以下步骤：

S2：利用信息熵的计算方法，对特征数据中所有序列进行区间搜索运算，计算最大信息熵值并记录下序列间隔信息；

S9：利用调整互信息方法来对原有标注的信息和聚类获得的类别信息进行评估，并对现有的异常流量数据进行应用。

2.根据权利要求1所述的基于时间序列聚类的流量异常检测方法，其特征在于：所述步骤S1中特征点定义如下：

t_i＞min(t_＜i)+Δ且t_i＞t_i+1

或者t_i＞t_i-1且t_i＞min(t_＞i)+Δ

3.根据权利要求1所述的基于时间序列聚类的流量异常检测方法，其特征在于：最大信息熵计算公式为：

其中X是信源的随机变量，p_i表示第i个变量的概率信息。

4.根据权利要求1所述的基于时间序列聚类的流量异常检测方法，其特征在于：步骤S3中，利用hog-1d算法进行特征描述，在基于采样点为中心的填充序列片段上计算两两序列点之间的中心导数作为梯度信息，然后在水平方向区间中将每个序列的梯度权重累积起来用以表示当前序列的局部信息。

5.根据权利要求1所述的基于时间序列聚类的流量异常检测方法，其特征在于：步骤S4中，利用降维方法mds-dtw来对序列片段进行降维处理；

γ(i,j)＝d(q_i,c_j)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}

其中N为实例数量，z_i表示在目标维度下的第i个实例的向量表示，|| ||表示度量计算，d_ij表示原始距离矩阵中i,j之间的距离。

6.根据权利要求1所述的基于时间序列聚类的流量异常检测方法，其特征在于：步骤S5中，利用标准差方法维护特征差异明显的维度，先对特征进行标准化处理，接着对于所有维度信息进行方差计算，方差计算公式如下：

其中n表示序列的个数，x_i表示第i个样本实例，

表示所有样本的平均值。

7.根据权利要求1所述的基于时间序列聚类的流量异常检测方法，其特征在于：步骤S6中，使用孤立核函数将特征向量的投影到高维空间，然后进行序列在映射空间中的聚类识别去得到未知先验分布信息下的特征向量的类别分布；孤立核函数的计算公式如下：

/>

其中|C_i|表示第i个簇的实例数量。

8.根据权利要求1所述的基于时间序列聚类的流量异常检测方法，其特征在于：步骤S8中，利用谱聚类来对编码向量进行聚类，首先求出相似度矩阵，然后对矩阵归一化运算，之后求出k个特征向量，最后再使用k-means进行聚类，具体包括：

9.根据权利要求1所述的基于时间序列聚类的流量异常检测方法，其特征在于：步骤S9中调整互信息的公式计算如下：

其中a_i,b_j分别是U与V分布中的对应类别的样本个数；

在最后的模型评估中使用真实的流量数据对模型进行评估，计算预测误差，然后将聚类数据返回给系统，然后通知工作人员进行异常机器的流量处理。