CN105701027B - 数据存储量的预测方法和预测装置 - Google Patents

数据存储量的预测方法和预测装置 Download PDF

Info

Publication number
CN105701027B
CN105701027B CN201610101938.1A CN201610101938A CN105701027B CN 105701027 B CN105701027 B CN 105701027B CN 201610101938 A CN201610101938 A CN 201610101938A CN 105701027 B CN105701027 B CN 105701027B
Authority
CN
China
Prior art keywords
data
predetermined amount
sub
time
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610101938.1A
Other languages
English (en)
Other versions
CN105701027A (zh
Inventor
张肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201610101938.1A priority Critical patent/CN105701027B/zh
Publication of CN105701027A publication Critical patent/CN105701027A/zh
Application granted granted Critical
Publication of CN105701027B publication Critical patent/CN105701027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1041Resource optimization
    • G06F2212/1044Space efficiency improvement

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

作为本发明的一个方面,提供一种数据存储量的预测方法,包括:对第一预定时间段内的原始历史数据的数据记录进行归一化处理,以获得第一预定时间段内的目标历史数据;根据按照目标历史数据对应的原始历史数据将第一预定时间段内的所有目标历史数据划分为多个子数据集;计算各个子数据集中的各个目标数据记录在目标历史数据中出现的概率;将多个子数据集中的目标历史数据的数据记录及其出现概率代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段的预测数据记录及出现概率,计算各个子数据集在第二预定时间段内的数据存储量。本发明还提供一种预测装置。利用预测方法可以准确预测信息系统的数据存储量。

Description

数据存储量的预测方法和预测装置
技术领域
本发明涉及数据存储量预测领域,具体地,涉及一种数据存储量的预测方法和一种预测装置。
背景技术
随着大数据时代的到来,数据集中成为必要的趋势,由此带来的数据存储问题也越发明显。
目前,用于预测信息系统数据存储量的方法包括最大值估测法、平均值估测法、数据期望值估测法等。但是,利用最大值估测法可能会造成较大的浪费,利用平均值估测法又可能产生估测不准的现象,利用存储容量计算模型也是存在一定的误差率。
并且,在上述几种预测方法中,并没有针对不同类型的数据进行区分,因此,无法预测不同类型的数据的存储量。
而在有的信息系统中通常存储有各种不同类型的数据,需要为各种不同类型的数据分别分配存储空间。因此,利用上述几种预测方法无法实现上述目的。
因此,如何准确地对不同类型的数据的数据存储量进行估测成为本领域亟待解决的技术问题。
发明内容
本发明的目的在于提供一种数据存储量的预测方法和一种预测装置,利用该预测方法可以准确地预测存储多种类型的数据的信息系统的数据存储量。
为了实现上述目的,作为本发明的一个方面,提供一种数据存储量的预测方法,其中,所述预测方法包括:
对第一预定时间段内的原始历史数据的数据记录进行归一化处理,以获得所述第一预定时间段内的目标历史数据,所述原始历史数据包括多种不同类型的数据,且所述第一预定时间段包括多个子时间段;
根据按照所述目标历史数据对应的原始历史数据将所述第一预定时间段内的所有目标历史数据划分为多个子数据集;
计算各个子数据集中的各个目标数据记录在所述目标历史数据中出现的概率;
将多个所述子数据集中的目标历史数据的数据记录代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段的预测数据记录;
将多个所述子数据集中的目标历史数据出现的概率代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段内出现的预测概率;
利用公式(1)计算各个子数据集在第二预定时间段内的数据存储量:
其中,MN为第二预定时间段内的数据存储量;
xiN为第二预定阶段内第i种数据的预测数据记录;
Li为第i种数据的数据记录的字节长度;
T为第二预定时间段的长度;
A为存储冗余常数;
i为数据类型的编号,i为自然数,1≤i≤m;
m为数据类型的总数,m>1;
piN为第i种数据在第二预定阶段内出现的预测概率。
优选地,m=4,多个所述子数据集包括清单子数据集、客户资料子数据集、账务子数据集和结算子数据集,所述清单子数据集包括清单类数据,所述客户资料子数据集包括客户资料类数据,所述结算子数据集包括结算数据。
优选地,所述第一预定时间段为12个月,每个子阶段为一个月,所述第二预定时间段为第一预定时间段后的第13个月,在将多个所述子数据集中的目标历史数据的数据记录代入SVM模型的步骤中、以及在将多个所述子数据集中的目标历史数据出现的概率代入SVM模型的步骤中,选择的训练样本包括六个月的数据,预测样本包括六个月的数据。
优选地,在对第一预定时间段内的原始历史数据的数据记录进行归一化处理的步骤中,利用公式(2)对原始历史数据的数据记录极性归一化处理:
其中,xin为第n个子时间段内,第i种类型的原始历史数据的数据记录;
xi_min为在所述原始历史数据中,第i种类型的原始历史数据的数据机理的最小值;
xi_max为在所述原始历史数据中,第i种类型的原始历史数据的数据记录的最大值;
为第n个子时间段内,第i种类型的目标历史数据的数据记录。
优选地,所述原始历史数据为在线存储数据、近线存储数据和归档存储数据中的任意一种。
作为本发明的另一个方面,提供一种数据存储量的预测装置,其中,所述预测装置包括:
预处理模块,所述预处理模块用于对第一预定时间段内的原始历史数据的数据记录进行归一化处理,以获得所述第一预定时间段内的目标历史数据,所述原始历史数据包括多种不同类型的数据,且所述第一预定时间段包括多个子时间段;
数据分解模块,所述数据分解模块的输入端与所述预处理模块的输出端相连,所述数据分解模块用于根据按照所述目标历史数据对应的原始历史数据将所述第一预定时间段内的所有目标历史数据划分为多个子数据集;
概率计算模块,所述概率计算模块的输入端与所述预处理模块的输出端相连,所述概率计算模块用于计算各个子数据集中的各个目标数据记录在所述目标历史数据中出现的概率;
SVM预测模块,所述SVM的输入端分别与所述数据分解模块的输出端以及所述概率计算模块的输出端相连,所述SVM预测模块能够将多个所述子数据集中的目标历史数据的数据记录代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段的预测数据记录,并且所述SVM预测模块能够将多个所述子数据集中的目标历史数据出现的概率代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段内出现的预测概率;
计算模块,所述计算模块的输入端与所述SVM预测模块的输出端相连,所述计算模块用于利用公式(1)计算各个子数据集在第二预定时间段内的数据存储量:
其中,MN为第二预定时间段内的数据存储量;
xiN为第二预定阶段内第i种数据的预测数据记录;
Li为第i种数据的数据记录的字节长度;
T为第二预定时间段的长度;
A为存储冗余常数;
i为数据类型的编号,i为自然数,1≤i≤m;
m为数据类型的总数,m>1;
piN为第i种数据在第二预定阶段内出现的预测概率。
优选地,m=4,多个所述子数据集包括清单子数据集、客户资料子数据集、账务子数据集和结算子数据集,所述清单子数据集包括清单类数据,所述客户资料子数据集包括客户资料类数据,所述结算子数据集包括结算数据。
优选地,所述第一预定时间段为12个月,每个子阶段为一个月,所述第二预定时间段为第一预定时间段后的第13个月,在将多个所述子数据集中的目标历史数据的数据记录代入SVM模型的步骤中、以及在将多个所述子数据集中的目标历史数据出现的概率代入SVM模型的步骤中,选择的训练样本包括六个月的数据,预测样本包括六个月的数据。
优选地,所述预处理模块能够利用公式(2)对原始历史数据的数据记录极性归一化处理:
其中,xin为第n个子时间段内,第i种类型的原始历史数据的数据记录;
xi_min为在所述原始历史数据中,第i种类型的原始历史数据的数据机理的最小值;
xi_max为在所述原始历史数据中,第i种类型的原始历史数据的数据记录的最大值;
为第n个子时间段内,第i种类型的目标历史数据的数据记录。
优选地,所述原始历史数据为在线存储数据、近线存储数据和归档存储数据中的任意一种。
信息系统通常用于存储多种数据,利用本发明所提供预测方法对数据存储量进行预测,不仅可以获得第二预定时间段内数据所占空间的大小,而且还可以获得不同类型的数据所占空间的大小,从而可以指导操作人员对信息系统的存储空间进行合理的划分,提高信息系统的利用率。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明所提供的预测方法的流程图;
图2是利用SVM算法的流程;
图3是本发明所提供的预测装置的模块示意图。
附图标记说明
100:预处理模块 200:数据分解模块
300:概率计算模块 400:SVM预测模块
500:计算模块
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
作为本发明的一个方面,提供一种数据存储量的预测方法,其中,如图1所示,所述预测方法包括:
S1、对第一预定时间段内的原始历史数据的数据记录进行归一化处理,以获得所述第一预定时间段内的目标历史数据,所述原始历史数据包括多种不同类型的数据,且所述第一预定时间段包括多个子时间段;
S2、根据按照所述目标历史数据对应的原始历史数据将所述第一预定时间段内的所有目标历史数据划分为多个子数据集;
S3、计算各个子数据集中的各个目标历史数据记录在所述目标历史数据中出现的概率;
S4、将多个所述子数据集中的目标历史数据的数据记录代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段的预测数据记录;
S5、将多个所述子数据集中的目标历史数据出现的概率代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段内出现的预测概率;
S6、利用公式(1)计算各个子数据集在第二预定时间段内的数据存储量:
其中,MN为第二预定时间段内的数据存储量;
xiN为第二预定阶段内第i种数据的预测数据记录;
Li为第i种数据的数据记录的字节长度;
T为第二预定时间段的长度;
A为存储冗余常数;
i为数据类型的编号,i为自然数,1≤i≤m;
m为数据类型的总数,m>1;
piN为第i种数据在第二预定阶段内出现的预测概率。
信息系统通常用于存储多种数据,利用本发明所提供预测方法对数据存储量进行预测,不仅可以获得第二预定时间段内数据所占空间的大小,而且还可以获得不同类型的数据所占空间的大小(即,数据存储量),从而可以指导操作人员对信息系统的存储空间进行合理的划分,提高信息系统的利用率。
在原始历史数据中,有可能会存在奇异数据,在步骤S1中,对第一预定时间段内的原始历史数据进行归一化处理后,可以将目标历史数据限定在一定范围内,从而可以加快算法的收敛性。
在步骤S2中,将目标历史数据分解层多个子数据集,从而可以分别对不同类型的数据存储量进行预测。
在所述预测方法中,步骤S4和步骤S5可以同时进行,也可以线执行步骤S4再执行步骤S5,或者先执行步骤S4再执行步骤S5。当步骤S4和步骤S5均执行结束后在执行步骤S6。
在步骤S4和步骤S5中,利用SVM模型获得各种类型的数据在将来的第二预定时间段的预测数据记录以及各种类型的数据在将来的第二预定时间段内出现的预测概率,从而使得所述预测方法具有自适应性,可以缩短预测时间,并且可以提高预测的准确性。
在本发明中,数据类型的编号仅仅是用于将一种数据与另一种数据进行区分,而非对数据进行排序。
下面对SVM模型对通信领域的信息系统的数据存储量进行预测的方法进行详细的描述。在这种具体实施方式中,第一预定时间段为12个月,每个子时间段为1个月,m=4,多个所述子数据集包括清单子数据集、客户资料子数据集、账务子数据集和结算子数据集,所述清单子数据集包括清单类数据,所述客户资料子数据集包括客户资料类数据,所述结算子数据集包括结算数据。根据项目工程经验,可以得知清单类数据平均长度为320字节、客户资料类数据平均长度为200字节、账务类数据平均长度为30字节、结算类数据平均长度为280字节。在本实施例中,T为30天。
首先提取运营维护系统所监测到的四种数据每天的数据记录,
在步骤S1中,提取运营维护系统所监测到的四种原始历史数据每天的数据记录数xin。其中,n为原始历史数据所处的子阶段的编号,n为自然数,并且1≤n≤12。选取了原始历史数据之后,可以对原始历史数据进行归一化处理,以获得目标历史数据的数据记录
在步骤S2中,根据按照所述目标历史数据对应的原始数据记录将各个子阶段内同一天的目标数据记录划分为多个子数据集。
在步骤S3中,计算各个目标历史数据记录出现的概率pin
利用矩阵X表示12个子时间段同一天的目标历史数据的数据记录的集合。利用矩阵P表示12个子时间段同一天的目标历史数据出现的概率的集合。其中:
在步骤S4和步骤S5中,选取前6个月的数据做为训练样本,后6个月的数据做为预测样本,即依次使用纵列数值x1n,n≤N,预测x1n,n=N+1;使用纵列数值p1n,n≤N,预测p1n,n=N+1。
将选定的训练样本代入到SVM预测模型,依次进行归一化处理,模型训练参数寻优。
随后,使用预测样本来求解预测值。将预测值XiN=[x1N,x2N,x3N,x4N],PiN=[p1N,p2N,p3N,p4N]代入到公式(1)中,得到存储量预测结果MN
在步骤S4和步骤S5中,首先需要建立SVM的数据存储量预测模型,具体地,可以根据以下方法建立SVM的数据存储量预测模型,如图2所示:
首先,根绝支持向量机的回归基本思想,通过一个非线性映射Φ,将样本数据(xi,yi),xi∈Rn,yi∈R,i=1,2,...,l映射到高纬特征空间F,并在该空间进行线性回归,f(x)=(αTΦ(x))+b,Φ:Rn→F,α∈F (3)
该支持向量机回归可以表示为如下的约束优化问题,即目标函数二次规划形式为:
式中,i=1,2,...m;α为权重向量,α∈F;Q和P为指定的2个向量组,定义为:
式中,K(xi,xj)为核函数;
P=[εET+YT,εET-YT] (7)
式中:ε为不敏感损失系数;E为|x|的单位列向量;Y=(y1,y2,...yi)T;R=[ri]为[x2]的列向量。
当i=1,2,...l时,ri=1;当i=l+1,l+2,...2l时,ri=-1。其中,xi(i=1,2,...l)为第i个训练样本的输入,yi(i=1,2,...l)为第i个训练样本的输出,依据上面过程进行MATLAB求解αi(i=1,2,...l),得到最优解将其代入式(3),即得到SVM数据存储量预测模型的回归决策函数,其中,为线性函数的偏置项。
其次,确定优化参数。SVM参数的优化选取目前常用的方法是令能够达到最高准确率中最小惩罚参数c和输入数据中属性数的倒数g在一定的范围内取值。对于取定的一组c和g,利用K-CV方法得到在该组c和g下的训练集验证准备率最高的那组c和g作为最佳的参数。在得到回归决策函数后,将归一化后的预测样本代入回归决策方程,即得到数据存储量预测在(0,1)间的值y,根据下述公式将其转化为实际的预测值:
在本发明中,对如何对原始历史数据进行归一化处理并没有特殊的限制。优选地,在对第一预定时间段内的原始历史数据的数据记录进行归一化处理的步骤中,利用公式(2)对原始历史数据的数据记录极性归一化处理:
其中,xin为第n个子时间段内,第i种类型的原始历史数据的数据记录;
xi_min为在所述原始历史数据中,第i种类型的原始历史数据的数据机理的最小值;
xi_max为在所述原始历史数据中,第i种类型的原始历史数据的数据记录的最大值;
为第n个子时间段内,第i种类型的目标历史数据的数据记录。
利用本发明所提供的预测方法可以对在线存储、近线存储和归档存储进行预测,因此,所述原始历史数据为在线存储数据、近线存储数据和归档存储数据中的任意一种。
作为本发明的另一个方面,提供一种数据存储量的预测装置,该预测装置可以执行本发明所提供的上述步骤。其中,所述预测装置包括:
预处理模块100(用于执行上述步骤S1),预处理模块100用于对第一预定时间段内的原始历史数据的数据记录进行归一化处理,以获得所述第一预定时间段内的目标历史数据,所述原始历史数据包括多种不同类型的数据,且所述第一预定时间段包括多个子时间段;
数据分解模块200(用于执行上述步骤S2),该数据分解模块200的输入端与预处理模块100的输出端相连,数据分解模块200用于根据按照所述目标历史数据对应的原始历史数据将所述第一预定时间段内的所有目标历史数据划分为多个子数据集;
概率计算模块300(用于执行上述步骤S3),该概率计算模块的输入端与预处理模块100的输出端相连,概率计算模块300用于计算各个子数据集中的各个目标数据记录在所述目标历史数据中出现的概率;
SVM预测模块400(用于执行上述步骤S4和步骤S5),该SVM预测模块的输入端分别与数据分解模块200的输出端以及概率计算模块300的输出端相连,SVM预测模块400能够将多个所述子数据集中的目标历史数据的数据记录代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段的预测数据记录,并且所述SVM预测模块400能够将多个所述子数据集中的目标历史数据出现的概率代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段内出现的预测概率;
计算模块500(用于执行步骤S6),该计算模块500的输入端与SVM预测模块的输出端相连,计算模块500用于利用公式(1)计算各个子数据集在第二预定时间段内的数据存储量:
其中,MN为第二预定时间段内的数据存储量;
xiN为第二预定阶段内第i种数据的预测数据记录;
Li为第i种数据的数据记录的字节长度;
T为第二预定时间段的长度;
A为存储冗余常数;
i为数据类型的编号,i为自然数,1≤i≤m;
m为数据类型的总数,m>1;
piN为第i种数据在第二预定阶段内出现的预测概率。
当所述预测装置用于通信领域的信息系统的数据存储量预测时,m=4,多个所述子数据集包括清单子数据集、客户资料子数据集、账务子数据集和结算子数据集,所述清单子数据集包括清单类数据,所述客户资料子数据集包括客户资料类数据,所述结算子数据集包括结算数据。
SVM预测模块400可以执行上文中所描述的算法,这里不再赘述。
利用所述预测装置可以执行本发明所提供的上述预测方法,不仅可以获得第二预定时间段内数据所占空间的大小,而且还可以获得不同类型的数据所占空间(即,数据存储量)的大小,从而可以指导操作人员对信息系统的存储空间进行合理的划分,提高信息系统的利用率。
优选地,所述第一预定时间段为12个月,每个子阶段为一个月,所述第二预定时间段为第一预定时间段后的第13个月,在将多个所述子数据集中的目标历史数据的数据记录代入SVM模型的步骤中、以及在将多个所述子数据集中的目标历史数据出现的概率代入SVM模型的步骤中,选择的训练样本包括六个月的数据,预测样本包括六个月的数据。
优选地,所述预处理模块100能够利用公式(2)对原始历史数据的数据记录极性归一化处理:
其中,xin为第n个子时间段内,第i种类型的原始历史数据的数据记录;
xi_min为在所述原始历史数据中,第i种类型的原始历史数据的数据机理的最小值;
xi_max为在所述原始历史数据中,第i种类型的原始历史数据的数据记录的最大值;
为第n个子时间段内,第i种类型的目标历史数据的数据记录。
优选地,所述原始历史数据为在线存储数据、近线存储数据和归档存储数据中的任意一种。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种数据存储量的预测方法,其特征在于,所述预测方法包括:
对第一预定时间段内的原始历史数据的数据记录进行归一化处理,以获得所述第一预定时间段内的目标历史数据,所述原始历史数据包括多种不同类型的数据,且所述第一预定时间段包括多个子时间段;
根据按照所述目标历史数据对应的原始历史数据将所述第一预定时间段内的所有目标历史数据划分为多个子数据集;
计算各个子数据集中的各个目标数据记录在所述目标历史数据中出现的概率;
将多个所述子数据集中的目标历史数据的数据记录代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段的预测数据记录;
将多个所述子数据集中的目标历史数据出现的概率代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段内出现的预测概率;
利用公式(1)计算各个子数据集在第二预定时间段内的数据存储量:
其中,MN为第二预定时间段内的数据存储量;
xiN为第二预定阶段内第i种数据的预测数据记录;
Li为第i种数据的数据记录的字节长度;
T为第二预定时间段的长度;
A为存储冗余常数;
i为数据类型的编号,i为自然数,1≤i≤m;
m为数据类型的总数,m>1;
piN为第i种数据在第二预定阶段内出现的预测概率。
2.根据权利要求1所述的预测方法,其特征在于,m=4,多个所述子数据集包括清单子数据集、客户资料子数据集、账务子数据集和结算子数据集,所述清单子数据集包括清单类数据,所述客户资料子数据集包括客户资料类数据,所述结算子数据集包括结算数据。
3.根据权利要求2所述的预测方法,其特征在于,所述第一预定时间段为12个月,每个子阶段为一个月,所述第二预定时间段为第一预定时间段后的第13个月,在将多个所述子数据集中的目标历史数据的数据记录代入SVM模型的步骤中、以及在将多个所述子数据集中的目标历史数据出现的概率代入SVM模型的步骤中,选择的训练样本包括六个月的数据,预测样本包括六个月的数据。
4.根据权利要求1至3中任意一项所述的预测方法,其特征在于,在对第一预定时间段内的原始历史数据的数据记录进行归一化处理的步骤中,利用公式(2)对原始历史数据的数据记录极性归一化处理:
其中,xin为第n个子时间段内,第i种类型的原始历史数据的数据记录;
xi_min为在所述原始历史数据中,第i种类型的原始历史数据的数据机理的最小值;
xi_max为在所述原始历史数据中,第i种类型的原始历史数据的数据记录的最大值;
为第n个子时间段内,第i种类型的目标历史数据的数据记录。
5.根据权利要求1至3中任意一项所述的预测方法,其特征在于,所述原始历史数据为在线存储数据、近线存储数据和归档存储数据中的任意一种。
6.一种数据存储量的预测装置,其特征在于,所述预测装置包括:
预处理模块,所述预处理模块用于对第一预定时间段内的原始历史数据的数据记录进行归一化处理,以获得所述第一预定时间段内的目标历史数据,所述原始历史数据包括多种不同类型的数据,且所述第一预定时间段包括多个子时间段;
数据分解模块,所述数据分解模块的输入端与所述预处理模块的输出端相连,所述数据分解模块用于根据按照所述目标历史数据对应的原始历史数据将所述第一预定时间段内的所有目标历史数据划分为多个子数据集;
概率计算模块,所述概率计算模块的输入端与所述预处理模块的输出端相连,所述概率计算模块用于计算各个子数据集中的各个目标数据记录在所述目标历史数据中出现的概率;
SVM预测模块,所述SVM的输入端分别与所述数据分解模块的输出端以及所述概率计算模块的输出端相连,所述SVM预测模块能够将多个所述子数据集中的目标历史数据的数据记录代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段的预测数据记录,并且所述SVM预测模块能够将多个所述子数据集中的目标历史数据出现的概率代入SVM模型,计算获得各种类型的数据在将来的第二预定时间段内出现的预测概率;
计算模块,所述计算模块的输入端与所述SVM预测模块的输出端相连,所述计算模块用于利用公式(1)计算各个子数据集在第二预定时间段内的数据存储量:
其中,MN为第二预定时间段内的数据存储量;
xiN为第二预定阶段内第i种数据的预测数据记录;
Li为第i种数据的数据记录的字节长度;
T为第二预定时间段的长度;
A为存储冗余常数;
i为数据类型的编号,i为自然数,1≤i≤m;
m为数据类型的总数,m>1;
piN为第i种数据在第二预定阶段内出现的预测概率。
7.根据权利要求6所述的预测装置,其特征在于,m=4,多个所述子数据集包括清单子数据集、客户资料子数据集、账务子数据集和结算子数据集,所述清单子数据集包括清单类数据,所述客户资料子数据集包括客户资料类数据,所述结算子数据集包括结算数据。
8.根据权利要求7所述的预测装置,其特征在于,所述第一预定时间段为12个月,每个子阶段为一个月,所述第二预定时间段为第一预定时间段后的第13个月,在将多个所述子数据集中的目标历史数据的数据记录代入SVM模型的步骤中、以及在将多个所述子数据集中的目标历史数据出现的概率代入SVM模型的步骤中,选择的训练样本包括六个月的数据,预测样本包括六个月的数据。
9.根据权利要求6至8中任意一项所述的预测装置,其特征在于,所述预处理模块能够利用公式(2)对原始历史数据的数据记录极性归一化处理:
其中,xin为第n个子时间段内,第i种类型的原始历史数据的数据记录;
xi_min为在所述原始历史数据中,第i种类型的原始历史数据的数据机理的最小值;
xi_max为在所述原始历史数据中,第i种类型的原始历史数据的数据记录的最大值;
为第n个子时间段内,第i种类型的目标历史数据的数据记录。
10.根据权利要求6至8中任意一项所述的预测装置,其特征在于,所述原始历史数据为在线存储数据、近线存储数据和归档存储数据中的任意一种。
CN201610101938.1A 2016-02-24 2016-02-24 数据存储量的预测方法和预测装置 Active CN105701027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610101938.1A CN105701027B (zh) 2016-02-24 2016-02-24 数据存储量的预测方法和预测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610101938.1A CN105701027B (zh) 2016-02-24 2016-02-24 数据存储量的预测方法和预测装置

Publications (2)

Publication Number Publication Date
CN105701027A CN105701027A (zh) 2016-06-22
CN105701027B true CN105701027B (zh) 2018-11-30

Family

ID=56222464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610101938.1A Active CN105701027B (zh) 2016-02-24 2016-02-24 数据存储量的预测方法和预测装置

Country Status (1)

Country Link
CN (1) CN105701027B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329951A1 (en) * 2017-05-11 2018-11-15 Futurewei Technologies, Inc. Estimating the number of samples satisfying the query
CN111104569B (zh) * 2018-10-25 2023-10-20 杭州海康威视数字技术股份有限公司 数据库表的区域切分方法、装置及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253049A (zh) * 2011-06-30 2011-11-23 东北大学 带钢生产过程表面质量在线精准检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8560639B2 (en) * 2009-04-24 2013-10-15 Microsoft Corporation Dynamic placement of replica data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253049A (zh) * 2011-06-30 2011-11-23 东北大学 带钢生产过程表面质量在线精准检测方法

Also Published As

Publication number Publication date
CN105701027A (zh) 2016-06-22

Similar Documents

Publication Publication Date Title
US11494636B2 (en) Machine learning-based semiconductor manufacturing yield prediction system and method
CN107480028B (zh) 磁盘可使用的剩余时长的获取方法及装置
JP2022500769A (ja) 電力システム熱負荷の予測方法及び予測装置
JP2007215354A (ja) 電力負荷予測方法、及び電力負荷予測処理プログラム
CN110163252B (zh) 数据分类方法及装置、电子设备、存储介质
CN109636212B (zh) 作业实际运行时间的预测方法
CN105701027B (zh) 数据存储量的预测方法和预测装置
CN115564152A (zh) 基于stirpat模型的碳排放量预测方法及装置
Tang et al. Forecasting annual foreign tourist arrivals to China by incorporating firefly algorithm into fractional non-homogenous discrete Grey model
CN112612781A (zh) 数据修正方法、装置、设备及介质
CN104698838B (zh) 基于论域动态划分和学习的模糊调度规则挖掘方法
Chiroma et al. An intelligent modeling of oil consumption
CN111737308A (zh) 基于最小熵分值的股票交易点预测方法、系统及存储介质
CN117272781A (zh) 基于slgbm模型的智能采样半导体虚拟量测系统
CN115829693A (zh) 基于因果反事实的上下文老虎机延迟反馈推荐方法和系统
CN113779859B (zh) 可解释的时序预测模型的训练方法、装置和计算设备
CN112365039B (zh) 一种基于纵横相关性进行月度用电量预测的方法及系统
CN115310709A (zh) 一种基于粒子群算法的电力工程项目信息优化方法
IL294712A (en) Learning with momentary assessment using different time constants
CN107622173B (zh) 风力发电机组可靠性水平预测的方法及系统
US8458076B1 (en) System and method for calibrating a surface that requires smoothness
CN116307121B (zh) 一种储备物资轮换期限预测方法及装置
CN118134540B (zh) 基于能源电力供需预测模型的多维数据交互方法及系统
US20230146635A1 (en) Method and Systems for Conditioning Data Sets for Efficient Computational Processing
CN106910141B (zh) 一种复杂有源配电网分解方案优选方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant