CN112235152A

CN112235152A - 流量大小估算方法和装置

Info

Publication number: CN112235152A
Application number: CN202010921993.1A
Authority: CN
Inventors: 汪硕; 王速; 周栋; 杨奕冉; 张文杰; 黄韬; 霍如; 刘韵洁
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2021-01-15
Anticipated expiration: 2040-09-04
Also published as: CN112235152B

Abstract

本申请公开了一种流量大小估算方法和装置，其中，方法包括：获取多个历史流序列的特征属性，并对多个历史流序列进行预处理；根据多个历史流序列的特征属性和预处理结果，计算多个历史流序列之间的相似度；根据多个历史流序列之间的相似度对多个历史流序列进行聚类，以获得多个历史流序列聚类簇；根据多个历史流序列聚类簇，创建多个流大小估算模型；结合多个历史流序列聚类簇以及新流序列的相似度，分配流大小估算模型，以对新流序列进行流量大小估算，该方法基于历史流的相似性对其进行聚类，并且针对每个聚类簇结合新流序列的相似度，为新流序列分配流大小估算模型用于流量大小估算，提高了流量大小估算的准确性，并且可大规模部署。

Description

流量大小估算方法和装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种流量大小估算方法和装置。

背景技术

目前，为了满足用户需求，许多大型服务必须快速响应用户的操作，例如，网络搜索，社交网络，零售，推荐系统等，因此，大型服务对应的数据中心网络应最大程度地减少平均流量完成时间以满足用户需求。相关技术中，基于历史流集合学习模型进行流量大小估算以减少平均流量完成时间，即通过监视网络中的统计数据并从历史流序列中学习来估算流量大小，以减少平均流量完成时间。

但是，上述技术中，为了使模型有更强的适应能力，需要输入变化很大的历史流进行学习，但是输入差异超过一定的范围可能会使模型难以有效地估算流量的大小，此外，由于不同应用生成的流模式之间存在差异性，基于学习的机制需要为每种应用训练特定的流量大小估算模型，一旦参数更改或者新应用产生，就需要重新进行训练，难以大规模应用到实际中。

发明内容

本申请提出一种流量大小估算方法和装置，该方法基于历史流的相似性对其进行聚类，并且针对每个聚类簇结合新流序列的相似度，为新流序列分配流大小估算模型用于流量大小估算，提高了流量大小估算的准确性，在应用程序的输入参数发生很大变化时或者启动新应用程序时，可通过相似度匹配选择流大小估算模型，无需重复训练，可实现大规模部署。

本申请第一方面实施例提出了一种流量大小估算方法，包括：获取多个历史流序列的特征属性，并对所述多个历史流数据进行预处理，其中，所述多个历史流序列的特征属性包括：流级别属性和应用级别属性；根据所述多个历史流序列的特征属性和预处理结果，计算所述多个历史流序列之间的相似度；根据所述多个历史流序列之间的相似度对多个所述历史流序列进行聚类，以获得多个历史流序列聚类簇；根据所述多个历史流序列聚类簇，创建多个流大小估算模型；结合所述多个历史流序列聚类簇以及新流序列的相似度，分配所述流大小估算模型，以对所述新流序列进行流量大小估算。

本申请实施例的流量大小估算方法，通过获取多个历史流序列的特征属性，并对所述多个历史流序列进行预处理，其中，所述多个历史流序列的特征属性包括：流级别属性和应用级别属性；根据所述多个历史流序列的特征属性和预处理结果，计算所述多个历史流序列之间的相似度；根据所述多个历史流序列之间的相似度对多个所述历史流序列进行聚类，以获得多个历史流序列聚类簇；根据所述多个历史流序列聚类簇，创建多个流大小估算模型；结合所述多个历史流序列聚类簇以及新流序列的相似度，分配所述流大小估算模型，以对所述新流序列进行流量大小估算。该方法基于历史流的相似性对其进行聚类，并且针对每个聚类簇结合新流序列的相似度，为新流序列分配流大小估算模型用于流量大小估算，提高了流量大小估算的准确性，在应用程序的输入参数发生很大变化时或者启动新应用程序时，可通过相似度匹配选择流大小估算模型，无需重复训练，可节约相关开销实现大规模部署。

本申请第二方面实施例提出了一种流量大小估算装置，包括：预处理模块，用于获取多个历史流序列的特征属性，并对所述多个历史流序列进行预处理，其中，所述多个历史流序列的特征属性包括：流级别属性和应用级别属性；计算模块，用于根据所述多个历史流序列的特征属性和预处理结果，计算所述多个历史流序列之间的相似度；聚类模块，用于根据所述多个历史流序列之间的相似度对多个所述历史流序列进行聚类，以获得多个历史流序列聚类簇；创建模块，用于根据所述多个历史流序列聚类簇，创建多个流大小估算模型；分配模块，用于结合所述多个历史流序列聚类簇以及新流序列的相似度，分配所述流大小估算模型，以对所述新流序列进行流量大小估算。

本申请实施例的流量大小估算装置，通过获取多个历史流序列的特征属性，并对所述多个历史流序列进行预处理，其中，所述多个历史流序列的特征属性包括：流级别属性和应用级别属性；根据所述多个历史流序列的特征属性和预处理结果，计算所述多个历史流序列之间的相似度；根据所述多个历史流序列之间的相似度对多个所述历史流序列进行聚类，以获得多个历史流序列聚类簇；根据所述多个历史流序列聚类簇，创建多个流大小估算模型；结合所述多个历史流序列聚类簇以及新流序列的相似度，分配所述流大小估算模型，以对所述新流序列进行流量大小估算。该装置可实现基于历史流的相似性对其进行聚类，并且针对每个聚类簇结合新流序列的相似度，为新流序列分配流大小估算模型用于流量大小估算，提高了流量大小估算的准确性，在应用程序的输入参数发生很大变化时或者启动新应用程序时，可通过相似度匹配选择流大小估算模型，无需重复训练，可节约相关开销实现大规模部署。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请一个实施例的流量估算方法的流程示意图；

图2为根据本申请另一个实施例的流量估算方法的流程示意图；

图3为根据本申请一个实施例的估算密度半径算法示意图；

图4为根据本申请一个实施例的根据密度半径确定历史流序列聚类簇示意图；

图5为根据本申请又一个实施例的流量估算方法的流程示意图；

图6为根据本申请一个实施例的KMeans和PageRank负载的流大小分布示意图；

图7(a)为根据本申请一个实施例的单应用KMeans负载下的性能示意图；

图7(b)为根据本申请一个实施例的单应用PageRank负载下的性能示意图；

图8(a)为根据本申请一个实施例的混合应用KMeans负载下的性能示意图；

图8(b)为根据本申请一个实施例的混合应用PageRank负载下的性能示意图；

图9为根据本申请一个实施例的流量大小估算装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的流量大小估算方法和装置。需要说明的是，本申请实施例的流量估算方法的执行主体为流量估算装置，该流量估算装置可应用于任一计算机设备中，以使该计算机设备可以执行流量大小估算功能。其中，计算机设备可以为个人电脑(Personal Computer，简称PC)、云端设备、移动设备、服务器等，移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

图1为根据本申请一个实施例的流量估算方法的流程示意图。

如图1所示，该流量估算方法的具体实现过程如下：

步骤101，获取多个历史流序列的特征属性，并对多个历史流序列进行预处理，其中，多个历史流序列的特征属性包括：流级别属性和应用级别属性。

在本申请实施例中，可通过网关设备获取多个历史流序列，流量估算装置与网关设备连接从而可获取多个历史流序列，其中，历史流序列可为当前时间点之前的预设时间段内的流序列。

可选地，获取到多个历史流序列之后，可对多个历史流序列进行特征提取，获取多个历史流序列的特征属性。其中，多个历史流序列的特征属性可包括但不限于流级别属性和应用级别属性。其中，流级别属性可包括：流的开始时间、流间隔(距离上一条流结束的时间)、最近K个流的大小等；应用级别属性可包括：直到流开始时间为止的磁盘I/O(输入和输出)总量、直到流开始时间为止的内存I/O(输入和输出)总量、直到流开始时间为止的数据接收/发送总量、在流的目标主机处接收/源主机处发送的数据量、机器的数量、第一次系统调用的大小等。

需要理解的是，每个历史流序列可看作是一个多特征的时间序列，为了使不同幅度比例的流序列具有可比性，对多个历史流序列进行特征提取的同时对多个历史流序列进行预处理，作为一种示例，由于对历史流序列标准化可以消除历史流序列的幅度差异，并有助于计算多个历史流序列之间的相似性，可对多个历史流序列进行标准化处理，公式为：

其中，x_t为历史流序列，

为标准化处理后的历史流序列，μ_x和σ_x分别为历史流序列的均值和标准差。

此外，为了更好地分析历史流序列，并减少用来存储历史流序列的内存空间，可采用降维算法对标准化处理后的历史流序列进行降维处理，在减少历史流序列维数的同时保留历史流序列的特征属性。其中，降维算法可包括但不限于：奇异值分解(SVD)、主成分分析(PCA)、独立成分分析(ICA)等。在本申请实施例中，考虑到简单性和效率，可利用PCA算法来减小历史流序列的维数，并且用第一个主成分来表示每条历史流序列的特征。

步骤102，根据多个历史流序列的特征属性和预处理结果，计算多个历史流序列之间的相似度。

在本申请实施例中，在获取到多个历史流序列的特征属性，和对多个历史流序列进行预处理之后，可采用相似度算法计算多个历史流序列之间的相似度。

需要理解的是，在相似度算法中，基于L_p范式的快速时间序列索引算法简单高效，但对历史流序列的幅度和相移变化较为敏感，基于形状的度量对幅度变化和相移更为稳健，但对于长度存在差异的时间序列(例如，历史流序列)无效，DTW(Dynamic TimeWarping，动态时间归整)算法基于动态规整思想，可以计算具有特定约束的两个时间序列的最佳匹配，该算法允许两个序列具有不同的长度，并且对相位扰动具有鲁棒性，这使其非常适合计算流序列的相似性。但是，计算DTW需要O(N²)的时间复杂度(N是每个时间序列的长度)，N较大时，时间复杂度也较大，因此，在本申请实施例中，可采用FastDTW(DTW加速算法)计算多个历史流序列之间的相似度，该算法时间复杂度为O(N)，内存复杂性最佳。FastDTW主要通过粗化、投影以及细化的方式计算多个历史流序列之间的相似度。

步骤103，根据多个历史流序列之间的相似度对多个历史流序列进行聚类，以获得多个历史流序列聚类簇。

可选地，根据多个历史流序列之间的相似度，对多个历史流序列进行划分；获取多个历史流序列划分结果的密度半径，接着，根据密度半径内的密度与预设密度阈值对多个历史流序列进行聚类。具体实现过程详见后续实施例的描述。

步骤104，根据多个历史流序列聚类簇，创建多个流大小估算模型。

需要理解的是，由于梯度决策树算法相对于递归神经网络算法、前馈神经网络算法在流量估算场景中精度最高、收敛效率和推理效率最高，因此，在本申请中，可采用梯度决策树算法创建多个流大小估算模型。

作为一种示例，针对每个历史流序列聚类簇，可采用历史流序列聚类簇中的历史流序列的特征属性(流级别属性和应用级别属性)来预测新流序列，并使用确定系数(R²)来测量预测精度，接着，根据预测新流序列以及预测精度，采用梯度决策树算法创建多个流大小估算模型。其中，R²是回归分析的关键因子，范围从0到1，其中1表示历史流序列可以完美预测新流序列而不会产生任何错误。

步骤105，结合多个历史流序列聚类簇以及新流序列的相似度，分配流大小估算模型，以对新流序列进行流量大小估算。

可选地，在新流序列生成时，对新流序列进行预处理；根据新流序列预处理和降维处理结果，计算新流序列与历史流序列聚类簇质心之间的相似度；根据新流序列与历史流序列聚类簇质心之间的相似度，分配多个流大小估算模型，以对新流序列进行流量大小估算。具体详见后续实施例的描述。

此外，在对新流序列进行流量大小估算后，可连续收集新流序列的流量大小估算结果，在新流序列的流量大小估算结果与新流序列的实际流量大小不符时，比如，新流序列的流量大小估算结果与新流序列的实际流量大小相差较大时，表示该新流序列对应的流大小估算模型性能下降，可重复上述步骤重新创建并分配流大小估算模型。

综上，基于历史流的相似性对其进行聚类，并且针对每个聚类簇结合新流序列的相似度，为新流序列分配流大小估算模型用于流量大小估算，提高了流量大小估算的准确性，在应用程序的输入参数发生很大变化时或者启动新应用程序时，可通过相似度匹配选择流大小估算模型，无需重复训练，可节约相关开销实现大规模部署。

为了实现相似的历史流序列的聚类，如图2所示，图2为根据本申请另一个实施例的流量估算方法的流程示意图，在本申请实施例中，根据多个历史流序列之间的相似度，对多个历史流序列进行划分；获取多个历史流序列划分结果的密度半径，接着，根据密度半径内的密度与预设密度阈值对多个历史流序列进行聚类，图1所示实施例的步骤103还可包括如下步骤：

步骤201，根据多个历史流序列之间的相似度，对多个历史流序列进行划分。

在本申请实施例中，可将多个历史流序列之间进行相似度的比较，在多个历史流序列中，可相似度相等或者相差不大(比如，相似度相差不超过0.5)的历史流序列划分在一个范围内。比如，在多个历史流序列中，可将其中任意两个历史流序列之间的相似度进行比对，在相似度相等或者相差不大(比如，相似度相差不超过0.5)时，将所述历史流序列划分在一个范围内。

步骤202，获取多个历史流序列划分结果的密度半径，其中，密度半径为多个历史流序列划分结果中，每个历史流序列与第K个最近邻居的历史流序列的动态规划距离。

需要理解的是，由于不同应用对应的流模式具有随机性，因此，在密度半径较小时，可引起具有较高相似性的历史流序列进行聚类，导致流量大小估算模型难以有效地估算流量的大小，同时，在密度半径较高时，可导致所有的历史流序列划分到一个历史流序列聚类簇中，从而使历史流序列聚类变得毫无意义。

为了设置合理的密度半径，作为一种示例，如图3所示，图3为根据本申请一个实施例的估算密度半径算法示意图，在该算法中，可预先设置最大半径，在最大半径的空间中进行搜索，搜索具有最大斜率变化的动态规划距离作为密度半径。

步骤203，将密度半径内的大于或等于预设密度阈值的历史流序列，确定为一个历史流序列聚类簇。

在本申请实施例中，如图4所示，图4为根据本申请一个实施例的根据密度半径确定历史流序列聚类簇示意图，可通过密度算法计算密度半径内的密度值，在该密度值大于或等于预设密度阈值(比如，4)时，可将该密度半径内的历史流序列确定为一个历史流序列聚类簇。其中，密度算法比如为Cut-off kernal、Gaussian kernel等。

由此，根据多个历史流序列之间的相似度，对多个历史流序列进行划分；获取多个历史流序列划分结果的密度半径，接着，根据密度半径内的密度与预设密度阈值对多个历史流序列进行聚类，实现了相似的历史流序列的聚类。

为了实现新流序列的流量大小估算，如图5所示，图5为根据本申请一个实施例的流量估算方法的流程示意图。在本申请实施例中，在新流序列生成时，对新流序列进行预处理和降维处理；根据新流序列预处理和降维处理结果，计算新流序列与历史流序列聚类簇质心之间的相似度；根据新流序列与历史流序列聚类簇质心之间的相似度，分配多个流大小估算模型，以对新流序列进行流量大小估算，在图1所示实施例的步骤105还可包括如下步骤：

步骤501，在新流序列生成时，对新流序列进行预处理。

为了更好地计算新流序列与历史流序列聚类簇之间的相似度以及减少相关存储空间，在本申请实施例中，在新流序列生成时，可对新流序列进行预处理，比如，可对新流序列进行标准化处理，以及采用降维算法对新流序列进行降维处理，其中，降维算法可包括但不限于：奇异值分解(SVD)、主成分分析(PCA)、独立成分分析(ICA)等。

步骤502，根据新流序列预处理结果，计算新流序列与历史流序列聚类簇质心之间的相似度；其中，历史流序列聚类簇质心为历史流序列聚类簇中一个与其他历史流序列平均距离最短的历史流序列。

作为一种示例，在根据多个历史流序列聚类簇，创建多个流大小估算模型之后，可选择历史流序列聚类簇中最具代表性的历史流序列作为历史流序列聚类簇质心，比如，以一个历史流序列聚类簇为P＝{p₁,p₂,....p_k}为例，在该历史流序列聚类簇P中，可计算其中任意一个历史流序列与其他历史流序列之间的平均距离，将与其他历史流序列的平均距离最短的历史流序列作为该历史流序列聚类簇质心p^*，具体可表现为如下公式：

其中，p^*表示历史流序列聚类簇质心，

表示历史流序列聚类簇P中任意两个历史流序列对应的向量。

步骤503，根据新流序列与历史流序列聚类簇质心之间的相似度，分配流大小估算模型，以对新流序列进行流量大小估算。

需要理解的是，由于一个历史流序列聚类簇对应一个历史流序列聚类簇质心，因此，在本申请实施例中，多个历史流序列聚类簇可对应多个历史流序列聚类簇质心。

进一步地，可采用相似度算法计算新流序列与每个历史流序列聚类簇质心之间的相似度，并将新流序列分配至与该新流序列最相关的历史流序列聚类簇质心对应的历史流序列聚类簇，并采用该历史流序列聚类簇对应的流大小估算模型计算该新流序列的流量大小。

综上，在新流序列生成时，对新流序列进行预处理；根据新流序列预处理结果，计算新流序列与历史流序列聚类簇质心之间的相似度；根据新流序列与历史流序列聚类簇质心之间的相似度，分配流大小估算模型，以对新流序列进行流量大小估算，由此，可实现新流序列的流量大小估算。

为了更加清楚地说明上述实施例，现举例进行说明。

举例而言，在本申请实施例中，可使用KMeans和PageRank工作负载。如图6所示，6为根据本申请一个实施例的KMeans和PageRank负载的流大小分布示意图，PageRank和KMeans负载均在8台机器的Spark集群上运行，每个机器包含2个CPU(每个包含4个内核)和24GB DRAM，为KMeans和PageRank负载施加较大的输入变化：对于PageRank，随机生成一个新的图，该图具有1至1500万个节点；对于KMeans，所生成的数据集具有2-5千万个点，并且还更改参数K的值。每个任务的worker在8-64之间变化。

进一步地，数据集包含具有各种输入参数的历史流序列，每个序列包含100多个流。将这些序列以9：1的比例分为训练集和测试集。对于GBDT训练模型的重要参数，可将树的数量设定为50，每棵树的最大深度设定为7。在设定下，该模型在避免过拟合的前提下达到了最佳的估算精度。

接着，基于KMeans和PageRank工作负载评估了本申请实施例所述的流量大小估算方法和有代表性机制FLUX的性能。如表1所示，对于两个工作负载，本申请实施例所述的流量大小估算方法的性能均优于FLUX。具体来说，由于流序列之间的高度相似性，本申请实施例的流量大小估算方法仅将KMeans聚合为一个簇。但是，与FLUX相比，本申请实施例所述的流量大小估算方法利用基于密度的聚类算法DBSCAN去除了一些离群值，总体上提升了流量估算模型的性能。对于在流序列之间存在较大差异的PageRank工作负载，本申请实施例的流量大小估算方法基于相似性分析将它们分为两类，与FLUX相比，其估算准确性有了显着提高。此外，分别将两个应用程序的训练集和测试集混合在一起，并测试本申请实施例的流量大小估算方法和FLUX估算混合流大小的效果。值得注意的是，本申请实施例所述的流量大小估算方法将大多数混合流归为一类。此外，与PageRank工作负载相比，混合应用的估算准确性有所提高，这表明这两个应用程序可能具有一定的相关性。

表1

需要说明的是，尽管R²(回归分析的关键因子，范围从0-1，R越高，代表预测精度越高)是评估本申请实施例所述的流量大小估算方法的关键因素，但它不能准确反映流量大小估算对调度性能的影响。为了补充验证实验，在流级别仿真器中进一步实现了本申请实施例的流量大小估算方法，并评估了其性能。

在本申请实施例中，可在trace-driven的仿真器YAPS中实现本申请实施例所述的流量大小估算方法。接着，采用pFabric使用中的叶-脊拓扑，具有4脊，9个机架和144台服务器，所有网络链路均为10Gbps。另外，使用pFabric作为调度机制，主要将本申请实施例所述的流量大小估算方法与其他三种机制进行比较：如，Perfect(即pfabric)，FLUX和FIFO基准。同样，使用上述的KMeans和PageRank作为工作负载。

首先分别使用KMeans和PageRank工作负载评估本申请实施例所述的流量大小估算方法的性能。图7(a)显示，对于KMeans工作负载，本申请实施例所述的流量大小估算方法和FLUX在不同负载下的性能均接近Perfect，并且明显优于FIFO基准。因为KMeans工作负载的流模式变化不大，因此机器学习模型可以很好地实现流大小估算。如图7(b)所示，对于流序列之间差异较大的PageRank，与FLUX相比，本申请实施例所述的流量大小估算方法显示出更好的适应性。特别是，随着负载的增加，本申请实施例所述的流量大小估算方法和FLUX之间的性能差距变大。与FLUX相比，在90％的负载下，本申请实施例所述的流量大小估算方法的平均FCT降低了13％。

如上所述，本申请实施例分别混合了KMeans和PageRank的训练集和测试集。在图8(a)中，混合应用程序并没有导致调度性能下降。相比之下，与单个PageRank应用程序相比，调度性能有所提高。在本申请实施例中，可从测试集中选择了两个划分为同一簇的不同应用程序的流序列，并进行了特征维降，如图8(b)所示。显然，尽管存在幅度和相位差异，但是流序列的形状非常相似。因此，不同的应用程序可能具有相似的流量特性，也就是说，可以使用相同的模型来估算流量大小。

综上所述，无论是单个应用程序还是混合应用程序，本申请实施例的流量大小估算方法都可以基于流特性为新的流设计合理的估算模型，从而提高了准确性，并使得大规模部署此类模型成为可能。

本申请实施例的流量大小估算方法，通过获取多个历史流序列的特征属性，并对多个历史流序列进行预处理，其中，多个历史流序列的特征属性包括：流级别属性和应用级别属性；根据多个历史流序列的特征属性和预处理结果，计算多个历史流序列之间的相似度；根据多个历史流序列之间的相似度对多个历史流序列进行聚类，以获得多个历史流序列聚类簇；根据多个历史流序列聚类簇，创建多个流大小估算模型；结合多个历史流序列聚类簇以及新流序列的相似度，分配流大小估算模型，以对新流序列进行流量大小估算。该方法基于历史流的相似性对其进行聚类，并且针对每个聚类簇结合新流序列的相似度，为新流序列分配流大小估算模型用于流量大小估算，提高了流量大小估算的准确性，在应用程序的输入参数发生很大变化时或者启动新应用程序时，可通过相似度匹配选择流大小估算模型，无需重复训练，可节约相关开销实现大规模部署。

为了实现上述实施例，本申请还提出一种流量大小估算装置。

如图9所示，该流量大小估算装置900包括：预处理模块910、计算模块920、聚类模块930、创建模块940、分配模块950。

其中，预处理模块910，用于获取多个历史流序列的特征属性，并对多个历史流序列进行预处理，其中，多个历史流序列的特征属性包括：流级别属性和应用级别属性；计算模块920，用于根据多个历史流序列的特征属性和预处理结果，计算所述多个历史流序列之间的相似度；聚类模块930，用于根据多个历史流序列之间的相似度对多个历史流序列进行聚类，以获得多个历史流序列聚类簇；创建模块940，用于根据多个历史流序列聚类簇，创建多个流大小估算模型；分配模块950，用于结合多个历史流序列聚类簇以及新流序列的相似度，分配流大小估算模型，以对新流序列进行流量大小估算。

作为本申请实施例的一种可能实现方式，流量大小估算装置还包括：处理模块960。

其中，处理模块960用于收集新流序列的流量大小估算结果，在估算结果与所述新流序列的实际流量大小不符时，重新创建并分配多个流大小估算模型。

作为本申请实施例的一种可能实现方式，分配模块950具体用于，在新流序列生成时，对新流序列进行预处理；根据新流序列预处理和降维处理结果，计算新流序列与历史流序列聚类簇质心之间的相似度；其中，历史流序列聚类簇质心为历史流序列聚类簇中一个与其他历史流序列平均距离最短的历史流序列；根据新流序列与历史流序列聚类簇质心之间的相似度，分配流大小估算模型，以对新流序列进行流量大小估算。

作为本申请实施例的一种可能实现方式，聚类模块930具体用于，根据多个历史流序列之间的相似度，对多个历史流序列进行划分；获取多个历史流序列划分结果的密度半径，其中，密度半径为多个历史流序列划分结果中，每个历史流序列与第K个最近邻居的历史流序列的动态规划距离；将密度半径内的大于或等于预设密度阈值的历史流序列，确定为一个历史流序列聚类簇。

作为本申请实施例的一种可能实现方式，流级别属性包括：流的开始时间、流间隔(距离上一条流结束的时间)、最近K个流的大小；应用级别属性包括：直到流开始时间为止的磁盘I/O(输入和输出)总量、直到流开始时间为止的内存I/O(输入和输出)总量、直到流开始时间为止的数据接收/发送总量、在流的目标主机处接收/源主机处发送的数据量、机器的数量、第一次系统调用的大小。

作为本申请实施例的一种可能实现方式，预处理模块910具体用于，对多个历史流序列进行标准化处理，公式为：

其中，x_t为历史流序列，

本申请实施例的流量大小估算装置，通过获取多个历史流序列的特征属性，并对多个历史流序列进行预处理，其中，多个历史流序列的特征属性包括：流级别属性和应用级别属性；根据多个历史流序列的特征属性和预处理结果，计算多个历史流序列之间的相似度；根据多个历史流序列之间的相似度对多个历史流序列进行聚类，以获得多个历史流序列聚类簇；根据多个历史流序列聚类簇，创建多个流大小估算模型；结合多个历史流序列聚类簇以及新流序列的相似度，分配流大小估算模型，以对新流序列进行流量大小估算。该装置可实现基于历史流的相似性对其进行聚类，并且针对每个聚类簇结合新流序列的相似度，为新流序列分配流大小估算模型用于流量大小估算，提高了流量大小估算的准确性，在应用程序的输入参数发生很大变化时或者启动新应用程序时，可通过相似度匹配选择流大小估算模型，无需重复训练，可节约相关开销实现大规模部署。

为了实现上述实施例，本申请还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请前述实施例提出的在流量大小估算方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请前述实施例提出的流量大小估算方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行如本申请上述实施例提出的流量大小估算方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种流量大小估算方法，其特征在于，包括：

获取多个历史流序列的特征属性，并对所述多个历史流序列进行预处理，其中，所述多个历史流序列的特征属性包括：流级别属性和应用级别属性；

根据所述多个历史流序列的特征属性和预处理结果，计算所述多个历史流序列之间的相似度；

根据所述多个历史流序列之间的相似度对所述多个历史流序列进行聚类，以获得多个历史流序列聚类簇；

根据所述多个历史流序列聚类簇，创建多个流大小估算模型；

结合所述多个历史流序列聚类簇以及新流序列的相似度，分配所述流大小估算模型，以对所述新流序列进行流量大小估算。

2.如权利要求1所述的方法，其特征在于，结合所述多个历史流序列聚类簇以及新流序列的相似度，分配所述流大小估算模型，以对所述新流序列进行流量大小估算之后，还包括：

收集所述新流序列的流量大小估算结果，在所述估算结果与所述新流序列的实际流量大小不符时，重新创建并分配所述流大小估算模型。

3.如权利要求1所述的方法，其特征在于，结合所述多个历史流序列聚类簇以及新流序列的相似度，分配所述流大小估算模型，以对所述新流序列进行流量大小估算，包括：

在所述新流序列生成时，对所述新流序列进行预处理；

根据所述新流序列预处理结果，计算新流序列与历史流序列聚类簇质心之间的相似度；其中，所述历史流序列聚类簇质心为所述历史流序列聚类簇中一个与其他历史流序列平均距离最短的历史流序列；

根据所述新流序列与所述历史流序列聚类簇质心之间的相似度，分配所述流大小估算模型，以对所述新流序列进行流量大小估算。

4.如权利要求1所述的方法，其特征在于，根据所述多个历史流序列之间的相似度对多个所述历史流序列进行聚类，以获得多个历史流序列聚类簇，包括：

根据所述多个历史流序列之间的相似度，对所述多个历史流序列进行划分；

获取所述多个历史流序列划分结果的密度半径，其中，所述密度半径为所述多个历史流序列划分结果中，每个历史流序列与第K个最近邻居的历史流序列的动态规划距离；

将所述密度半径内的大于或等于预设密度阈值的历史流序列，确定为一个历史流序列聚类簇。

5.如权利要求1所述的方法，其特征在于，所述流级别属性包括：流的开始时间、流间隔(距离上一条流结束的时间)、最近K个流的大小；应用级别属性包括：直到流开始时间为止的磁盘I/O(输入和输出)总量、直到流开始时间为止的内存I/O(输入和输出)总量、直到流开始时间为止的数据接收/发送总量、在流的目标主机处接收/源主机处发送的数据量、机器的数量、第一次系统调用的大小。

6.如权利要求1所述的方法，其特征在于，对所述多个历史流数据进行预处理，包括：

对所述多个历史流序列进行标准化和降维处理，其中，所述标准化处理公式为：

其中，x_t为历史流序列，

7.一种流量大小估算装置，其特征在于，包括：

预处理模块，用于获取多个历史流序列的特征属性，并对所述多个历史流数据进行预处理，其中，所述多个历史流序列的特征属性包括：流级别属性和应用级别属性；

计算模块，用于根据所述多个历史流序列的特征属性和预处理结果，计算所述多个历史流序列之间的相似度；

聚类模块，用于根据所述多个历史流序列之间的相似度对多个所述历史流序列进行聚类，以获得多个历史流序列聚类簇；

创建模块，用于根据所述多个历史流序列聚类簇，创建多个流大小估算模型；

分配模块，用于结合所述多个历史流序列聚类簇以及新流序列的相似度，分配所述流大小估算模型，以对所述新流序列进行流量大小估算。

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

处理模块，用于收集所述新流序列的流量大小估算结果，在所述估算结果与所述新流序列的实际流量大小不符时，重新创建并分配所述流大小估算模型。

9.如权利要求7所述的装置，其特征在于，所述分配模块具体用于，

在所述新流序列生成时，对所述新流序列进行预处理；

根据所述新流序列预处理结果，计算新流序列与历史流序列聚类簇质心之间的相似度；其中，所述历史流序列聚类簇质心为历史流序列聚类簇中一个与其他历史流序列平均距离最短的历史流序列；

10.如权利要求7所述的装置，其特征在于，所述聚类模块具体用于，