CN105701027B

CN105701027B - 数据存储量的预测方法和预测装置

Info

Publication number: CN105701027B
Application number: CN201610101938.1A
Authority: CN
Inventors: 张肖
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2016-02-24
Filing date: 2016-02-24
Publication date: 2018-11-30
Anticipated expiration: 2036-02-24
Also published as: CN105701027A

Abstract

作为本发明的一个方面，提供一种数据存储量的预测方法，包括：对第一预定时间段内的原始历史数据的数据记录进行归一化处理，以获得第一预定时间段内的目标历史数据；根据按照目标历史数据对应的原始历史数据将第一预定时间段内的所有目标历史数据划分为多个子数据集；计算各个子数据集中的各个目标数据记录在目标历史数据中出现的概率；将多个子数据集中的目标历史数据的数据记录及其出现概率代入SVM模型，计算获得各种类型的数据在将来的第二预定时间段的预测数据记录及出现概率，计算各个子数据集在第二预定时间段内的数据存储量。本发明还提供一种预测装置。利用预测方法可以准确预测信息系统的数据存储量。

Description

数据存储量的预测方法和预测装置

技术领域

本发明涉及数据存储量预测领域，具体地，涉及一种数据存储量的预测方法和一种预测装置。

背景技术

随着大数据时代的到来，数据集中成为必要的趋势，由此带来的数据存储问题也越发明显。

目前，用于预测信息系统数据存储量的方法包括最大值估测法、平均值估测法、数据期望值估测法等。但是，利用最大值估测法可能会造成较大的浪费，利用平均值估测法又可能产生估测不准的现象，利用存储容量计算模型也是存在一定的误差率。

并且，在上述几种预测方法中，并没有针对不同类型的数据进行区分，因此，无法预测不同类型的数据的存储量。

而在有的信息系统中通常存储有各种不同类型的数据，需要为各种不同类型的数据分别分配存储空间。因此，利用上述几种预测方法无法实现上述目的。

因此，如何准确地对不同类型的数据的数据存储量进行估测成为本领域亟待解决的技术问题。

发明内容

本发明的目的在于提供一种数据存储量的预测方法和一种预测装置，利用该预测方法可以准确地预测存储多种类型的数据的信息系统的数据存储量。

为了实现上述目的，作为本发明的一个方面，提供一种数据存储量的预测方法，其中，所述预测方法包括：

对第一预定时间段内的原始历史数据的数据记录进行归一化处理，以获得所述第一预定时间段内的目标历史数据，所述原始历史数据包括多种不同类型的数据，且所述第一预定时间段包括多个子时间段；

根据按照所述目标历史数据对应的原始历史数据将所述第一预定时间段内的所有目标历史数据划分为多个子数据集；

计算各个子数据集中的各个目标数据记录在所述目标历史数据中出现的概率；

将多个所述子数据集中的目标历史数据的数据记录代入SVM模型，计算获得各种类型的数据在将来的第二预定时间段的预测数据记录；

将多个所述子数据集中的目标历史数据出现的概率代入SVM模型，计算获得各种类型的数据在将来的第二预定时间段内出现的预测概率；

利用公式(1)计算各个子数据集在第二预定时间段内的数据存储量：

其中，M_N为第二预定时间段内的数据存储量；

x_iN为第二预定阶段内第i种数据的预测数据记录；

L_i为第i种数据的数据记录的字节长度；

T为第二预定时间段的长度；

A为存储冗余常数；

i为数据类型的编号，i为自然数，1≤i≤m；

m为数据类型的总数，m＞1；

p_iN为第i种数据在第二预定阶段内出现的预测概率。

优选地，m＝4，多个所述子数据集包括清单子数据集、客户资料子数据集、账务子数据集和结算子数据集，所述清单子数据集包括清单类数据，所述客户资料子数据集包括客户资料类数据，所述结算子数据集包括结算数据。

优选地，所述第一预定时间段为12个月，每个子阶段为一个月，所述第二预定时间段为第一预定时间段后的第13个月，在将多个所述子数据集中的目标历史数据的数据记录代入SVM模型的步骤中、以及在将多个所述子数据集中的目标历史数据出现的概率代入SVM模型的步骤中，选择的训练样本包括六个月的数据，预测样本包括六个月的数据。

优选地，在对第一预定时间段内的原始历史数据的数据记录进行归一化处理的步骤中，利用公式(2)对原始历史数据的数据记录极性归一化处理：

其中，x_in为第n个子时间段内，第i种类型的原始历史数据的数据记录；

x_{i_min}为在所述原始历史数据中，第i种类型的原始历史数据的数据机理的最小值；

x_{i_max}为在所述原始历史数据中，第i种类型的原始历史数据的数据记录的最大值；

为第n个子时间段内，第i种类型的目标历史数据的数据记录。

优选地，所述原始历史数据为在线存储数据、近线存储数据和归档存储数据中的任意一种。

作为本发明的另一个方面，提供一种数据存储量的预测装置，其中，所述预测装置包括：

预处理模块，所述预处理模块用于对第一预定时间段内的原始历史数据的数据记录进行归一化处理，以获得所述第一预定时间段内的目标历史数据，所述原始历史数据包括多种不同类型的数据，且所述第一预定时间段包括多个子时间段；

数据分解模块，所述数据分解模块的输入端与所述预处理模块的输出端相连，所述数据分解模块用于根据按照所述目标历史数据对应的原始历史数据将所述第一预定时间段内的所有目标历史数据划分为多个子数据集；

概率计算模块，所述概率计算模块的输入端与所述预处理模块的输出端相连，所述概率计算模块用于计算各个子数据集中的各个目标数据记录在所述目标历史数据中出现的概率；

SVM预测模块，所述SVM的输入端分别与所述数据分解模块的输出端以及所述概率计算模块的输出端相连，所述SVM预测模块能够将多个所述子数据集中的目标历史数据的数据记录代入SVM模型，计算获得各种类型的数据在将来的第二预定时间段的预测数据记录，并且所述SVM预测模块能够将多个所述子数据集中的目标历史数据出现的概率代入SVM模型，计算获得各种类型的数据在将来的第二预定时间段内出现的预测概率；

计算模块，所述计算模块的输入端与所述SVM预测模块的输出端相连，所述计算模块用于利用公式(1)计算各个子数据集在第二预定时间段内的数据存储量：

其中，M_N为第二预定时间段内的数据存储量；

x_iN为第二预定阶段内第i种数据的预测数据记录；

L_i为第i种数据的数据记录的字节长度；

T为第二预定时间段的长度；

A为存储冗余常数；

i为数据类型的编号，i为自然数，1≤i≤m；

m为数据类型的总数，m＞1；

p_iN为第i种数据在第二预定阶段内出现的预测概率。

优选地，所述预处理模块能够利用公式(2)对原始历史数据的数据记录极性归一化处理：

信息系统通常用于存储多种数据，利用本发明所提供预测方法对数据存储量进行预测，不仅可以获得第二预定时间段内数据所占空间的大小，而且还可以获得不同类型的数据所占空间的大小，从而可以指导操作人员对信息系统的存储空间进行合理的划分，提高信息系统的利用率。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明所提供的预测方法的流程图；

图2是利用SVM算法的流程；

图3是本发明所提供的预测装置的模块示意图。

附图标记说明

100：预处理模块 200：数据分解模块

300：概率计算模块 400：SVM预测模块

500：计算模块

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

作为本发明的一个方面，提供一种数据存储量的预测方法，其中，如图1所示，所述预测方法包括：

S1、对第一预定时间段内的原始历史数据的数据记录进行归一化处理，以获得所述第一预定时间段内的目标历史数据，所述原始历史数据包括多种不同类型的数据，且所述第一预定时间段包括多个子时间段；

S2、根据按照所述目标历史数据对应的原始历史数据将所述第一预定时间段内的所有目标历史数据划分为多个子数据集；

S3、计算各个子数据集中的各个目标历史数据记录在所述目标历史数据中出现的概率；

S4、将多个所述子数据集中的目标历史数据的数据记录代入SVM模型，计算获得各种类型的数据在将来的第二预定时间段的预测数据记录；

S5、将多个所述子数据集中的目标历史数据出现的概率代入SVM模型，计算获得各种类型的数据在将来的第二预定时间段内出现的预测概率；

S6、利用公式(1)计算各个子数据集在第二预定时间段内的数据存储量：

其中，M_N为第二预定时间段内的数据存储量；

x_iN为第二预定阶段内第i种数据的预测数据记录；

L_i为第i种数据的数据记录的字节长度；

T为第二预定时间段的长度；

A为存储冗余常数；

i为数据类型的编号，i为自然数，1≤i≤m；

m为数据类型的总数，m＞1；

p_iN为第i种数据在第二预定阶段内出现的预测概率。

信息系统通常用于存储多种数据，利用本发明所提供预测方法对数据存储量进行预测，不仅可以获得第二预定时间段内数据所占空间的大小，而且还可以获得不同类型的数据所占空间的大小(即，数据存储量)，从而可以指导操作人员对信息系统的存储空间进行合理的划分，提高信息系统的利用率。

在原始历史数据中，有可能会存在奇异数据，在步骤S1中，对第一预定时间段内的原始历史数据进行归一化处理后，可以将目标历史数据限定在一定范围内，从而可以加快算法的收敛性。

在步骤S2中，将目标历史数据分解层多个子数据集，从而可以分别对不同类型的数据存储量进行预测。

在所述预测方法中，步骤S4和步骤S5可以同时进行，也可以线执行步骤S4再执行步骤S5，或者先执行步骤S4再执行步骤S5。当步骤S4和步骤S5均执行结束后在执行步骤S6。

在步骤S4和步骤S5中，利用SVM模型获得各种类型的数据在将来的第二预定时间段的预测数据记录以及各种类型的数据在将来的第二预定时间段内出现的预测概率，从而使得所述预测方法具有自适应性，可以缩短预测时间，并且可以提高预测的准确性。

在本发明中，数据类型的编号仅仅是用于将一种数据与另一种数据进行区分，而非对数据进行排序。

下面对SVM模型对通信领域的信息系统的数据存储量进行预测的方法进行详细的描述。在这种具体实施方式中，第一预定时间段为12个月，每个子时间段为1个月，m＝4，多个所述子数据集包括清单子数据集、客户资料子数据集、账务子数据集和结算子数据集，所述清单子数据集包括清单类数据，所述客户资料子数据集包括客户资料类数据，所述结算子数据集包括结算数据。根据项目工程经验，可以得知清单类数据平均长度为320字节、客户资料类数据平均长度为200字节、账务类数据平均长度为30字节、结算类数据平均长度为280字节。在本实施例中，T为30天。

首先提取运营维护系统所监测到的四种数据每天的数据记录，

在步骤S1中，提取运营维护系统所监测到的四种原始历史数据每天的数据记录数x_in。其中，n为原始历史数据所处的子阶段的编号，n为自然数，并且1≤n≤12。选取了原始历史数据之后，可以对原始历史数据进行归一化处理，以获得目标历史数据的数据记录

在步骤S2中，根据按照所述目标历史数据对应的原始数据记录将各个子阶段内同一天的目标数据记录划分为多个子数据集。

在步骤S3中，计算各个目标历史数据记录出现的概率p_in。

利用矩阵X表示12个子时间段同一天的目标历史数据的数据记录的集合。利用矩阵P表示12个子时间段同一天的目标历史数据出现的概率的集合。其中：

在步骤S4和步骤S5中，选取前6个月的数据做为训练样本，后6个月的数据做为预测样本，即依次使用纵列数值x_1n,n≤N，预测x_1n,n＝N+1；使用纵列数值p_1n,n≤N，预测p_1n,n＝N+1。

将选定的训练样本代入到SVM预测模型，依次进行归一化处理，模型训练参数寻优。

随后，使用预测样本来求解预测值。将预测值X_iN＝[x_1N,x_2N,x_3N,x_4N]，P_iN＝[p_1N,p_2N,p_3N,p_4N]代入到公式(1)中，得到存储量预测结果M_N。

在步骤S4和步骤S5中，首先需要建立SVM的数据存储量预测模型，具体地，可以根据以下方法建立SVM的数据存储量预测模型，如图2所示：

首先，根绝支持向量机的回归基本思想，通过一个非线性映射Φ，将样本数据(x_i,y_i),x_i∈Rⁿ,y_i∈R,i＝1,2,...,l映射到高纬特征空间F，并在该空间进行线性回归，f(x)＝(α^TΦ(x))+b,Φ:Rⁿ→F,α∈F (3)

该支持向量机回归可以表示为如下的约束优化问题，即目标函数二次规划形式为：

式中，i＝1,2,...m；α为权重向量，α∈F；Q和P为指定的2个向量组，定义为：

式中，K(x_i,x_j)为核函数；

P＝[εE^T+Y^T,εE^T-Y^T] (7)

式中：ε为不敏感损失系数；E为|x|的单位列向量；Y＝(y₁,y₂,...y_i)^T；R＝[r_i]为[x₂]的列向量。

当i＝1,2,...l时，r_i＝1；当i＝l+1,l+2,...2l时，r_i＝-1。其中，x_i(i＝1,2,...l)为第i个训练样本的输入，y_i(i＝1,2,...l)为第i个训练样本的输出，依据上面过程进行MATLAB求解α_i和(i＝1,2,...l)，得到最优解将其代入式(3)，即得到SVM数据存储量预测模型的回归决策函数，其中，为线性函数的偏置项。

其次，确定优化参数。SVM参数的优化选取目前常用的方法是令能够达到最高准确率中最小惩罚参数c和输入数据中属性数的倒数g在一定的范围内取值。对于取定的一组c和g，利用K-CV方法得到在该组c和g下的训练集验证准备率最高的那组c和g作为最佳的参数。在得到回归决策函数后，将归一化后的预测样本代入回归决策方程，即得到数据存储量预测在(0,1)间的值y，根据下述公式将其转化为实际的预测值：

在本发明中，对如何对原始历史数据进行归一化处理并没有特殊的限制。优选地，在对第一预定时间段内的原始历史数据的数据记录进行归一化处理的步骤中，利用公式(2)对原始历史数据的数据记录极性归一化处理：

利用本发明所提供的预测方法可以对在线存储、近线存储和归档存储进行预测，因此，所述原始历史数据为在线存储数据、近线存储数据和归档存储数据中的任意一种。

作为本发明的另一个方面，提供一种数据存储量的预测装置，该预测装置可以执行本发明所提供的上述步骤。其中，所述预测装置包括：

预处理模块100(用于执行上述步骤S1)，预处理模块100用于对第一预定时间段内的原始历史数据的数据记录进行归一化处理，以获得所述第一预定时间段内的目标历史数据，所述原始历史数据包括多种不同类型的数据，且所述第一预定时间段包括多个子时间段；

数据分解模块200(用于执行上述步骤S2)，该数据分解模块200的输入端与预处理模块100的输出端相连，数据分解模块200用于根据按照所述目标历史数据对应的原始历史数据将所述第一预定时间段内的所有目标历史数据划分为多个子数据集；

概率计算模块300(用于执行上述步骤S3)，该概率计算模块的输入端与预处理模块100的输出端相连，概率计算模块300用于计算各个子数据集中的各个目标数据记录在所述目标历史数据中出现的概率；

SVM预测模块400(用于执行上述步骤S4和步骤S5)，该SVM预测模块的输入端分别与数据分解模块200的输出端以及概率计算模块300的输出端相连，SVM预测模块400能够将多个所述子数据集中的目标历史数据的数据记录代入SVM模型，计算获得各种类型的数据在将来的第二预定时间段的预测数据记录，并且所述SVM预测模块400能够将多个所述子数据集中的目标历史数据出现的概率代入SVM模型，计算获得各种类型的数据在将来的第二预定时间段内出现的预测概率；

计算模块500(用于执行步骤S6)，该计算模块500的输入端与SVM预测模块的输出端相连，计算模块500用于利用公式(1)计算各个子数据集在第二预定时间段内的数据存储量：

其中，M_N为第二预定时间段内的数据存储量；

x_iN为第二预定阶段内第i种数据的预测数据记录；

L_i为第i种数据的数据记录的字节长度；

T为第二预定时间段的长度；

A为存储冗余常数；

i为数据类型的编号，i为自然数，1≤i≤m；

m为数据类型的总数，m＞1；

p_iN为第i种数据在第二预定阶段内出现的预测概率。

当所述预测装置用于通信领域的信息系统的数据存储量预测时，m＝4，多个所述子数据集包括清单子数据集、客户资料子数据集、账务子数据集和结算子数据集，所述清单子数据集包括清单类数据，所述客户资料子数据集包括客户资料类数据，所述结算子数据集包括结算数据。

SVM预测模块400可以执行上文中所描述的算法，这里不再赘述。

利用所述预测装置可以执行本发明所提供的上述预测方法，不仅可以获得第二预定时间段内数据所占空间的大小，而且还可以获得不同类型的数据所占空间(即，数据存储量)的大小，从而可以指导操作人员对信息系统的存储空间进行合理的划分，提高信息系统的利用率。

优选地，所述预处理模块100能够利用公式(2)对原始历史数据的数据记录极性归一化处理：

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种数据存储量的预测方法，其特征在于，所述预测方法包括：

其中，M_N为第二预定时间段内的数据存储量；

x_iN为第二预定阶段内第i种数据的预测数据记录；

L_i为第i种数据的数据记录的字节长度；

T为第二预定时间段的长度；

A为存储冗余常数；

i为数据类型的编号，i为自然数，1≤i≤m；

m为数据类型的总数，m＞1；

p_iN为第i种数据在第二预定阶段内出现的预测概率。

2.根据权利要求1所述的预测方法，其特征在于，m＝4，多个所述子数据集包括清单子数据集、客户资料子数据集、账务子数据集和结算子数据集，所述清单子数据集包括清单类数据，所述客户资料子数据集包括客户资料类数据，所述结算子数据集包括结算数据。

3.根据权利要求2所述的预测方法，其特征在于，所述第一预定时间段为12个月，每个子阶段为一个月，所述第二预定时间段为第一预定时间段后的第13个月，在将多个所述子数据集中的目标历史数据的数据记录代入SVM模型的步骤中、以及在将多个所述子数据集中的目标历史数据出现的概率代入SVM模型的步骤中，选择的训练样本包括六个月的数据，预测样本包括六个月的数据。

4.根据权利要求1至3中任意一项所述的预测方法，其特征在于，在对第一预定时间段内的原始历史数据的数据记录进行归一化处理的步骤中，利用公式(2)对原始历史数据的数据记录极性归一化处理：

5.根据权利要求1至3中任意一项所述的预测方法，其特征在于，所述原始历史数据为在线存储数据、近线存储数据和归档存储数据中的任意一种。

6.一种数据存储量的预测装置，其特征在于，所述预测装置包括：

其中，M_N为第二预定时间段内的数据存储量；

x_iN为第二预定阶段内第i种数据的预测数据记录；

L_i为第i种数据的数据记录的字节长度；

T为第二预定时间段的长度；

A为存储冗余常数；

i为数据类型的编号，i为自然数，1≤i≤m；

m为数据类型的总数，m＞1；

p_iN为第i种数据在第二预定阶段内出现的预测概率。

7.根据权利要求6所述的预测装置，其特征在于，m＝4，多个所述子数据集包括清单子数据集、客户资料子数据集、账务子数据集和结算子数据集，所述清单子数据集包括清单类数据，所述客户资料子数据集包括客户资料类数据，所述结算子数据集包括结算数据。

8.根据权利要求7所述的预测装置，其特征在于，所述第一预定时间段为12个月，每个子阶段为一个月，所述第二预定时间段为第一预定时间段后的第13个月，在将多个所述子数据集中的目标历史数据的数据记录代入SVM模型的步骤中、以及在将多个所述子数据集中的目标历史数据出现的概率代入SVM模型的步骤中，选择的训练样本包括六个月的数据，预测样本包括六个月的数据。

9.根据权利要求6至8中任意一项所述的预测装置，其特征在于，所述预处理模块能够利用公式(2)对原始历史数据的数据记录极性归一化处理：

10.根据权利要求6至8中任意一项所述的预测装置，其特征在于，所述原始历史数据为在线存储数据、近线存储数据和归档存储数据中的任意一种。