CN116414663A

CN116414663A - 一种基于容量使用预测的扩容提示方法、装置及存储介质

Info

Publication number: CN116414663A
Application number: CN202310443568.XA
Authority: CN
Inventors: 和希文; 侯绪森; 杨云鹏; 张金存; 王绍密; 李梦宇; 宋万里
Original assignee: Shandong Traceability Safety Technology Co ltd
Current assignee: Shandong Traceability Safety Technology Co ltd
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-07-11

Abstract

本发明提供了一种基于容量使用预测的扩容提示方法、装置及存储介质，属于数据处理领域，方法包括：基于设定历史时间段内接入目标存储器集群中的第一历史任务和第二历史任务获取用于得到目标存储器集群的扩容预测值的目标扩容预测模型；获取当前目标存储器集群在目标时间窗口内对应的存储量信息集C和对应的历史接入任务信息集R；基于C和F构建当前目标存储器集群的目标特征向量F；将F输入到所述目标扩容预测模型中，以得到当前目标存储器集群对应的扩容预测值Y，如果Y≥Y0，则输出对所述目标存储器集群进行扩容的提示信息。本发明能够在新任务接入目标存储器集群前进行扩容，能够提高新任务接入效率。

Description

一种基于容量使用预测的扩容提示方法、装置及存储介质

技术领域

本发明涉及数据处理领域，特别是涉及一种基于容量使用预测的扩容提示方法、装置及存储介质。

背景技术

当前，广泛使用存储器集群来存储数据，以获得更高的并发访问性能。影响并发访问性能的一个关键因素是集群的容量。容量预测是通过对系统存储空间历史数据进行时间序列进行算法建模，并对未来存储空间使趋势进行预测，方便运维采购工作提前进行准备。正常的存储器集群扩容，仅需要根据剩余容量和容量增长曲线就能提前预测需要扩容的时刻。但是往往当需要新增任务后，增长曲线会出现较大的波动，且若是新任务的存储空间需求量较大，还需要在任务接入前提前进行扩容，才能保证存储器集群正常运行。但由于需要先进行扩容才能进行新任务的接入，这无疑会降低新任务接入的效率。

发明内容

针对上述技术问题，本发明采用的技术方案为：

本发明实施例提供一种基于容量使用预测的扩容提示方法，所述方法包括如下步骤：

S200，基于设定历史时间段内接入目标存储器集群中的第一历史任务和第二历史任务获取用于得到目标存储器集群的扩容预测值的目标扩容预测模型；所述扩容预测值用于判断所述目标存储器集群是否需要扩容；所述第一历史任务为所述目标存储器集群在该第一历史任务接入所述目标存储器集群前的设定时间窗口内进行过扩容的任务，所述第二历史任务为所述目标存储器集群在该第二历史任务接入所述目标存储器集群前的设定时间窗口内没有进行过扩容但任务类型与第一历史任务的任务类型相同的任务；

S210，获取当前目标存储器集群在目标时间窗口内对应的存储量信息集C={C₁，C₂，…，C_i，…，C_n}和按照时间先后顺序获取目标存储器集群距离当前时间最近的m个历史接入任务信息形成的信息集R={R₁，R₂，…，R_j，…，R_m}；其中，目标时间窗口的结束时间为当前时间，目标时间窗口包括n个连续排布的时间段，目标时间窗口的长度为n·ΔT，ΔT为每一时间段的长度；C_i为目标时间窗口内的第i个时间段内目标存储器集群的最大实时存储量与总存储量的比值，i的取值为1到n；R_j为第j个历史接入任务信息，j的取值为1到m；

S220，基于C和F构建当前目标存储器集群的目标特征向量F=（K₁，K₂，…，K_j，…，K_m，C₁，C₂，…，C_i，…，C_n），其中，K_j=α·R_j，α为影响系数；

S230，将F输入到所述目标扩容预测模型中，以得到当前目标存储器集群对应的扩容预测值Y，如果Y≥Y0，则输出对所述目标存储器集群进行扩容的提示信息；Y0为预设阈值。本发明实施例还提供一种基于容量使用预测的扩容提示装置，包括：

模型构建模块，用于基于设定历史时间段内接入目标存储器集群中的第一历史任务和第二历史任务获取用于得到目标存储器集群的扩容预测值的目标扩容预测模型；所述扩容预测值用于判断所述目标存储器集群是否需要扩容；所述第一历史任务为所述目标存储器集群在该第一历史任务接入所述目标存储器集群前的设定时间窗口内进行过扩容的任务，所述第二历史任务为所述目标存储器集群在该第二历史任务接入所述目标存储器集群前的设定时间窗口内没有进行过扩容但任务类型与第一历史任务的任务类型相同的任务。

数据获取模块，用于获取当前目标存储器集群在目标时间窗口内对应的存储量信息集C={C₁，C₂，…，C_i，…，C_n}和按照时间先后顺序获取目标存储器集群距离当前时间最近的m个历史接入任务信息形成的信息集R={R₁，R₂，…，R_j，…，R_m}；其中，目标时间窗口的结束时间为当前时间，目标时间窗口包括n个连续排布的时间段，目标时间窗口的长度为n·ΔT，ΔT为每一时间段的长度；C_i为目标时间窗口内的第i个时间段内目标存储器集群的最大实时存储量与总存储量的比值，i的取值为1到n；R_j为第j个历史接入任务信息，j的取值为1到m。

特征向量获取模块，用于基于C和F构建当前目标存储器集群的目标特征向量F=（K₁，K₂，…，K_j，…，K_m，C₁，C₂，…，C_i，…，C_n），其中，K_j=α·R_j，α为影响系数。

扩容预测模块，用于将F输入到所述目标扩容预测模型中，以得到当前目标存储器集群对应的扩容预测值Y，如果Y≥Y0，则输出对所述目标存储器集群进行扩容的提示信息；Y0为预设阈值。

本发明实施例还提供一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述方法。

本发明至少具有以下有益效果：

本发明实施例提供的基于容量使用预测的扩容提示方法，能够利用基于目标存储器集群的接入任务变化规律和存储量变化规律训练得到的预测模型对当前目标存储器集群是否需要扩容进行预测，从而能够避免在未来出现新任务接入时而容量不够需先进行扩容再接入新任务的问题，能够提高新任务的接入效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于容量使用预测的扩容提示方法的流程图。

实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于容量使用预测的扩容提示方法，如图1所示，所述方法可包括如下步骤：

S200，基于设定历史时间段内接入目标存储器集群中的第一历史任务和第二历史任务获取用于得到目标存储器集群的扩容预测值的目标扩容预测模型；所述扩容预测值用于判断所述目标存储器集群是否需要扩容；所述第一历史任务为所述目标存储器集群在该第一历史任务接入所述目标存储器集群前的设定时间窗口内进行过扩容的任务，所述第二历史任务为所述目标存储器集群在该第二历史任务接入所述目标存储器集群前的设定时间窗口内没有进行过扩容但任务类型与第一历史任务的任务类型相同的任务。

在本发明实施例中，设定历史时间段可基于实际需要进行设置，本发明不做特别限定。

S210，获取当前目标存储器集群在目标时间窗口内对应的存储量信息集C和对应的历史接入任务信息集R。

其中，目标时间窗口的结束时间为当前时间，目标时间窗口包括n个连续排布的时间段，目标时间窗口的长度为n·ΔT，ΔT为每一时间段的长度。

其中，C={C₁,C₂，…，C_i，…，C_n}，C_i为目标时间窗口内的第i个时间段内目标存储器集群的最大实时存储量与总存储量的比值，i的取值为1到n。在本发明实施例中，实时存储量为占用的存储空间。第i个时间段内目标存储器集群的最大实时存储量等于max（SC_i1，SC_i2，…，SC_ig，…，SC_ip），SC_ig为目标存储器集群在第i个时间段内的第g个时刻的实时存储量，g的取值为1到p，p为每个时间段内的时刻数量。

本发明实施例中，通过C₁,C₂，…，C_i，…，C_n，可以知晓目标存储器集群的存储量变化规律。在本发明实施例中，n和ΔT的取值可基于实际情况进行确定，只要能够明显反应出目标存储器集群的存储量变化规律即可。

在本发明实施例中，R为为按照时间先后顺序获取目标存储器集群距离当前时间最近的m个历史接入任务信息形成的信息集，R={R₁，R₂，…，R_j，…，R_m}，R_j为第j个历史接入任务信息，j的取值为1到m。其中，R_j=（type_j，Num_j，Time_j，space_j，Tag_j，Q_j）。其中，type_j为R_j对应的历史任务的任务类型标识，在本发明实施例中，接入到目标存储器集群中的任务为会产生存储数据的任务，例如采样任务、监控任务等。任务类型标识可基于实际需要进行设置，例如，以不同的数值表示不同的任务类型。不同的任务类型所需要的存储量不同。Num_j为需要执行R_j对应的历史任务的电子设备的数量，例如，某个采样任务需要对5个电子设备进行采样，某个监控任务需要对10个电子设备进行监控等。电子设备的数量不同会导致所需存储量不同。Time_j为R_j对应的历史任务开始接入目标存储器集群的接入时间。space_j为R_j对应的历史任务开始接入目标存储器集群时，目标存储器集群的当前存储量与当前总存储量之间的比值。Tag_j为R_j对应的历史任务的扩容标识，Q_j为R_j对应的历史任务的时间属性标识。

并且，在R_m对应的历史任务开始接入目标存储器集群的接入时间和当前时间之间的时间间隔内没有历史任务接入所述目标存储器集群，即Δt₁＞Δt₂＞…＞Δt_j＞…＞Δt_m，并且在Δt_m内没有历史任务接入所述目标存储器集群，Δt_j为第j个历史接入任务信息R_j对应的历史任务开始接入目标存储器集群的接入时间和当前时间之间的时间间隔。本发明实施例中，通过R₁，R₂，…，R_j，…，R_m可以得到目标存储器集群的业务变化规律。

在本发明实施例中，扩容标识可包括第一扩容标识值和第二扩容标识值。其中，第一扩容标识值用于表示在对应的接入任务接入目标存储器集群前的设定时间窗口内，所述目标存储器集群进行过扩容，可使用例如1表示。第二扩容标识值用于表示在对应的任务接入目标存储器集群前的设定时间窗口内，所述目标存储器集群没有进行过扩容，可使用例如0表示。这样，第一历史任务的扩容标识为第一扩容标识值，第二历史任务的扩容标识为第二扩容标识值。

在本发明实施例中，时间属性标识可包括第一时间属性标识值和第二时间属性标识值，第一时间属性标识值用于表示对应的接入任务位于对应的时间窗口内，可使用例如1表示。第二时间属性标识值用于表示对应的接入任务没有位于对应的时间窗口内，可使用例如0表示。

具体地，Tag_j用于表示所述目标存储器集群在R_j对应的历史任务接入目标存储器集群前的设定时间窗口内是否进行过扩容，所述设定时间窗口的长度小于所述目标时间窗口的长度；如果Tag_j为第一扩容标识值例如为1，则表示所述目标存储器集群在R_j对应的历史任务接入目标存储器集群前的设定时间窗口内进行过扩容，如果Tag_j为第二扩容标识值例如为0，则表示所述目标存储器集群在R_j对应的历史任务接入目标存储器集群前的设定时间窗口内没有进行过扩容。Q_j用于表示Time_j是否位于目标时间窗口内，如果Q_j为第一时间属性标识值例如1，则表示Time_j位于所述目标时间窗口内，如果Q_j为第二时间属性标识值例如0，则表示Time_j不位于所述目标时间窗口内。

S220，基于C和F构建当前目标存储器集群的目标特征向量F=（K₁，K₂，…，K_j，…，K_m，C₁，C₂，…，C_i，…，C_n），其中，第j个接入任务影响因素K_j=α·R_j，α为影响系数。

在本发明实施例中，α=u/m，u基于Q₁，Q₂，…，Q_j，…，Q_m确定或者基于Tag₁，Tag₂，…，Tag_j，…，Tag_m确定。

进一步地，在一个示意性实施例中，u基于Q₁，Q₂，…，Q_j，…，Q_m确定，具体可通过如下步骤确定：

S121，设置j=m，Var=0；

S122，如果j≥1，执行S123；否则，执行S125；

S123，对于R_j，如果Q_j为第一时间属性标识值，设置Var=Var+1，执行S124；如果Q_j为第二时间属性标识值，执行S124；

S124，设置j=j-1，执行S122；

S125，设置u=Var，并退出当前控制程序。

S121至S125的技术效果在于，将u设置为m个历史任务中接入时间位于目标时间窗口内的任务数量，这样，如果属于目标时间窗口内的接人任务越多，则说明当前目标存储器集群需要扩容的概率越大，即R对当前目标存储器集群的扩容概率的影响越大。

进一步地，在另一个示意性实施例中，u基于Tag₁，Tag₂，…，Tag_j，…，Tag_m确定，具体可通过如下步骤确定：

S1201，如果R_m对应的扩容标识Tag_m为第一扩容标识值，设置u=0，说明R对当前目标存储器集群的扩容概率的影响为0，并退出当前控制程序，如果R_m对应的扩容标识Tag_m为第二扩容标识值，执行S1202；

S1202，设置r=m-1，Var=1；

S1203，如果r≥1，执行S1204；否则，执行S1206；

S1204，对于R_r，如果R_r对应的扩容标识Tag_r为第二扩容标识值并且R_r+1对应的扩容标识Tag_r+1为第二扩容标识值，设置Var=Var+1，执行S1205；如果R_r对应的扩容标识Tag_r为第一扩容标识值，执行S1206；

S1205，设置r=r-1，执行S1203；

S1206，设置u=Var，并退出当前控制程序。

S1201至S1206的技术效果在于，将u设置为从当前时间往前数，连续的接入前目标存储器集群没有进行扩容的任务的数量，这样，如果这类任务的数量越多，则说明当前目标存储器集群需要扩容的概率越大，即R对当前目标存储器集群的扩容概率的影响越大。

本领域技术人员知晓，输入到目标扩容预测模型中的F中的各向量的维度可以是相同的也可以是不同的，只要能够便于模型识别即可。

S230，将F输入到所述目标扩容预测模型中，以得到当前目标存储器集群对应的扩容预测值Y，如果Y≥Y0，则输出对所述目标存储器集群进行扩容的提示信息；否则，输出表示不需要对所述目标存储器集群进行扩容的提示信息。Y0为预设阈值，在一个示例中，Y0可为固定值，可经验值。

在本发明实施例中，Y=f（b1·K₁，b2·K₂，…，bj·K_j，…，bm·K_m，d1·C₁, d2·C₂，…，di·C_i，…，dn·C_n），f（）为预设的扩充概率确定函数，b1，b2，…，bj，…，bm，d1,d2，…，di，…，dn为所述通过训练初始扩容预测模型得到的参数，即S200得到的参数。

在本发明一示意性实施例中，f（）为线性回归函数表达式。在另一个示意性实施例中，f（）为逻辑回归函数表达式。

进一步地，在本发明实施例中，S200可具体包括：

S201，获取第一数据集D1={D1₁，D1₂，…，D1_u，…，D1_p}，D1_u为第u个第一历史任务对应的数据集，D1_u={R1_u，C1_u}，u的取值为1到p，p为第一历史任务的数量。

其中，R1_u为按照时间先后顺序获取目标存储器集群距离第u个第一历史任务对应的扩容开始时间TSEu最近的m个历史接入任务信息形成的历史接入信息集；R1_u={R1_u1，R1_u2，…，R1_uj，…，R1_um}，R1_uj为第u个第一历史任务对应的第j个历史接入任务信息，并且，在R1_um对应的历史任务开始接入目标存储器集群的接入时间和TSEu之间的时间间隔内没有历史任务接入所述目标存储器集群，即Δt1_u1＞Δt1_u2＞…＞Δt1_uj＞…＞Δt1_um，并且在Δt1_um内没有历史任务接入所述目标存储器集群；Δt1_uj为第u个第一历史任务对应的第j个历史接入任务信息R1_uj对应的历史任务开始接入目标存储器集群的接入时间和第u个第一历史任务对应的扩容开始时间之间的时间间隔，j的取值为1到m。

进一步地，R1_uj=（type1_uj，Num1_uj，Time1_uj，space1_uj，Tag1_uj，Q1_uj），其中，type1_uj为R1_uj对应的历史任务的任务类型标识，Num1_uj为R1_uj对应的历史任务所使用的电子设备的数量，Time1_uj为R1_uj对应的历史任务开始接入目标存储器集群的接入时间，space1_uj为R1_uj对应的历史任务开始接入目标存储器集群时，目标存储器集群的当前存储量与当前总存储量之间的比值，Tag1_uj为R1_uj对应的历史任务的扩容标识，Q1_uj为R1_uj对应的历史任务的时间属性标识。

进一步地，C1_u为第u个第一历史任务对应的时间窗口TW1_u内的存储量信息集C1_u={C1_u1,C1_u2，…，C1_ui，…，C1_un}，其中，TW1_u的结束时间为第u个第一历史任务对应的扩容开始时间TSEu，TW1_u的长度与目标时间窗口的长度相同，C1_ui为在TW1_u内的第i个时间段内目标存储器集群的最大实时存储量与总存储量的比值。

S202，基于D1获取第一训练集F1={F1₁，F1₂，…，F1_u，…，F1_p}，F1_u为F1中的第u个特征向量，F1_u=（K1_u1，K1_u2，…，K1_uj，…，K1_um，C1_u1,C1_u2，…，C1_ui，…，C1_un），K1_uj=α·R1_uj；F1中的每个特征向量对应的扩容预测值为1。

本领域技术人员知晓，F1的获取方法与前述的F获取方法相类似。

S203，获取第二数据集D2={D2₁，D2₂，…，D2_v，…，D2_q}，D2_v为D2中的第v个第二历史任务，v的取值为1到q，q为第二历史任务的数量。

其中，R2_v为按照时间先后顺序获取目标存储器集群距离第v个第二历史任务开始接入目标存储器集群的接入时间TCv最近的m个历史接入任务信息形成的历史接入信息集，R2_v={R2_v1，R2_v2，…，R2_vj，…，R2_vm}，其中，R2_vj为第v个第二历史任务对应的第j个历史接入任务信息，并且，在R2_vm对应的历史任务开始接入目标存储器集群的接入时间和TCv之间的时间间隔内没有历史任务接入所述目标存储器集群，即Δt2_v1＞Δt2_v2＞…＞Δt2_vj＞…＞Δt2_vm，并且在Δt2_vm内没有历史任务接入所述目标存储器集群；Δt2_vj为第v个第二历史任务对应的第j个历史接入任务信息R2_vj对应的历史任务开始接入目标存储器集群的接入时间和TCv之间的时间间隔。

进一步地，R2_vj=（type2_vj，Nvm2_vj，Time2_vj，space2_vj，Tag2_vj，Q2_vj），其中，type2_vj为R2_vj对应的历史任务的任务类型标识，Nvm2_vj为R2_vj对应的历史任务所使用的电子设备的数量，Time2_vj为R2_vj对应的历史任务开始接入目标存储器集群的接入时间，space2_vj为R2_vj对应的历史任务开始接入目标存储器集群时，目标存储器集群的当前存储量与当前总存储量之间的比值，Tag2_vj为R2_vj对应的历史任务的扩容标识，Q2_vj为R2_vj对应的历史任务的时间属性标识。

其中，C2_v为第v个第二历史任务对应的时间窗口TW2_v内的存储量信息集C2_v={C2_v1,C2_v2，…，C2_vi，…，C2_vn}，其中，TW2_v的结束时间为第v个第二历史任务开始接入目标存储器集群的接入时间TCv，TW2_v的长度与目标时间窗口的长度相同，C2_vi为在TW2_v内的第i个时间段内目标存储器集群的最大实时存储量与总存储量的比值。

S204，基于D2获取第二训练集F2={F2₁，F2₂，…，F2_v，…，F2_q}，F2_v为F2中的第v个特征向量，F2_v=（K2_v1，K2_v2，…，K2_vj，…，K2_vm，C2_v1，C2_v2，…，C2_vi，…，C2_vn），K2_vj=α·R2_vj；F2中的每个特征向量对应的扩容预测值为0。

本领域技术人员知晓，F2的获取方法与前述的F获取方法相类似。

S205，根据F1和F2对初始扩容预测模型进行训练，以得到所述目标扩容预测模型。

本领域技术人员知晓，初始扩容预测模型可为现有的神经网络模型。此外，在模型训练过程中，可基于本领域的公知操作设置初始扩容模型的约束条件例如，设置b1+b2+…+bj+…+bm =rat1，设置d1+d2+…+di+…+dn=rat2，b1，b2，…，bj，…，bm，d1,d2，…，di，…，dn≠0，其中，rat1和rat2为预设的系数约束值，rat1+rat2=1。

此外，本领域技术人员知晓，对初始扩容预测模型进行训练的过程可为现有方法。

本发明实施例中，由于使用了在接入前的设定时间窗口内产生了扩容行为的任务以及在接入前的设定时间窗口内没有产生扩容行为的任务的相关信息作为训练集，能够提高模型的预测准确性。

进一步地，在本发明一示意性实施例中，m=max（Y1，Y2，…，Ye1，…，Yz1），Ye1为设定历史时间段内的第e1个未扩容任务组对应的任务数量，e1的取值为1到z1，z1为未扩容任务组的数量，其中，第e1个未扩容任务组包括连续接入目标存储器集群的Ye1个任务，并且Ye1个任务中任一任务对应的扩容标识为第二扩容标识值即Ye1个任务中任一任务在接入目标存储器集群时目标存储器集群均没有进行扩容。

在本发明实施例中，设定历史时间段可基于实际需要进行设置。本实施例中，将m设置为历史时间段内连续接入的任务在接入前均未进行扩容的任务数量的最大值，这样，由于u可被设置为从当前时间往前数，连续的接入前目标存储器集群没有进行扩容的任务的数量，这样，能够使得u=m，能够确保u设置更加准确，当α=1时，R对当前目标存储器集群的扩容概率的影响最大。

进一步地，在本发明另一示意性实施例中，m=max（X1，X2，…，Xe2，…，Xz2），Xe2为设定历史时间段内的第e2个接入任务组对应的任务数量，e2的取值为1到z2，z2为接入任务组的数量，其中，每个接入任务组对应的任务为在目标时间窗口对应的时长内接入到目标存储器集群中的任务。

在本实施例中，将m设置为历史时间段内在目标时间窗口对应的时长内接入到目标存储器集群中的新任务的数量中的最大值，能够设置m的设置合理，使得m个任务的接入时间能够填满目标时间窗口，能够避免目标时间窗口内可能不存在接入任务而导致的采用补零的方法保持数据长度一致的问题，并且不会超出目标时间窗口太多，能够避免由于m设置过小而导致数据太少而影响模型预测精度，以及m设置过大而导致出现无用数据所导致的处理速率慢的问题。

进一步地，在本发明实施例中，所述设定时间窗口的长度等于MD·t_av。其中，MD为存储器增量集IQ的众数，IQ={IQ₁，IQ₂，…，IQ_h，…，IQ_L}，IQ_h为在设定历史时间段内的第h次目标扩容时接入到当前目标存储器集群中的存储器数量，h的取值为1到L，L为目标扩容的次数，所述目标扩容为在当前目标存储器集群中接入新任务而进行的扩容；t_av=（At₁+At₂+…+At_b+…+At_d）/（IQ₁+IQ₂+…+IQ_h+…+IQ_L），At_b为IQ对应的d个存储器中的第b个存储器接入到目标存储器集群所需要到的时间即成功接入到目标存储器集群中所需要的时间，b的取值为1到d。

在本发明实施例中，如果IQ的众数为多个，则MD为IQ的众数中的最大值。

本发明实施例中，将设定时间窗口的长度设置为于MD·t_av，能够使得设定时间窗口的长度相对准确，进而能够准确找到为了接入新任务而进行的扩容，使得数据更加准确。

本发明另一实施例提供一种基于容量使用预测的扩容提示装置，包括：

模型构建模块，用于基于设定历史时间段内接入目标存储器集群中的第一历史任务和第二历史任务获取用于得到目标存储器集群的扩容预测值的目标扩容预测模型；所述扩容预测值用于判断所述目标存储器集群是否需要扩容；所述第一历史任务为所述目标存储器集群在该第一历史任务接入所述目标存储器集群前的设定时间窗口内进行过扩容的任务，所述第二历史任务为所述目标存储器集群在该第二历史任务接入所述目标存储器集群前的设定时间窗口内没有进行过扩容但任务类型与第一历史任务的任务类型相同的任务；

数据获取模块，用于获取当前目标存储器集群在目标时间窗口内对应的存储量信息集C={C₁，C₂，…，C_i，…，C_n}和按照时间先后顺序获取目标存储器集群距离当前时间最近的m个历史接入任务信息形成的信息集R={R₁，R₂，…，R_j，…，R_m}；其中，目标时间窗口的结束时间为当前时间，目标时间窗口包括n个连续排布的时间段，目标时间窗口的长度为n·ΔT，ΔT为每一时间段的长度；C_i为目标时间窗口内的第i个时间段内目标存储器集群的最大实时存储量与总存储量的比值，i的取值为1到n；R_j为第j个历史接入任务信息，j的取值为1到m；

特征向量获取模块，用于基于C和F构建当前目标存储器集群的目标特征向量F=（K₁，K₂，…，K_j，…，K_m，C₁，C₂，…，C_i，…，C_n），其中，K_j=α·R_j，α为影响系数；

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

Claims

1.一种基于容量使用预测的扩容提示方法，其特征在于，所述方法包括如下步骤：

S210，获取当前目标存储器集群在目标时间窗口内对应的存储量信息集C={C₁，C₂，…，C_i，…，C_n}和按照时间先后顺序获取目标存储器集群距离当前时间最近的m个历史接入任务信息形成的信息集R={R₁，R₂，…，R_j，…，R_m}；其中，目标时间窗口的结束时间为当前时间，目标时间窗口包括n个连续排布的时间段，目标时间窗口的长度为n·ΔT，ΔT为每一时间段的长度；C_i为目标时间窗口内的第i个时间段内目标存储器集群的最大实时存储量与总存储量的比值，i的取值为1到n；R_j为第j个历史接入任务信息，j的取值为1到m；S220，基于C和F构建当前目标存储器集群的目标特征向量F=（K₁，K₂，…，K_j，…，K_m，C₁，C₂，…，C_i，…，C_n），其中，K_j=α·R_j，α为影响系数；

S230，将F输入到所述目标扩容预测模型中，以得到当前目标存储器集群对应的扩容预测值Y，如果Y≥Y0，则输出对所述目标存储器集群进行扩容的提示信息；Y0为预设阈值。

2.根据权利要求1所述的方法，其特征在于，S200具体包括：

S201，获取第一数据集D1={D1₁，D1₂，…，D1_u，…，D1_p}，D1_u为第u个第一历史任务对应的数据集，D1_u={R1_u，C1_u}，u的取值为1到p，p为第一历史任务的数量；R1_u为按照时间先后顺序获取目标存储器集群距离第u个第一历史任务对应的扩容开始时间TSEu最近的m个历史接入任务信息形成的历史接入信息集；R1_u={R1_u1，R1_u2，…，R1_uj，…，R1_um}，R1_uj为第u个第一历史任务对应的第j个历史接入任务信息，并且，在R1_um对应的历史任务开始接入目标存储器集群的接入时间和TSEu之间的时间间隔内没有历史任务接入所述目标存储器集群，j的取值为1到m；C1_u为第u个第一历史任务对应的时间窗口TW1_u内的存储量信息集C1_u={C1_u1，C1_u2，…，C1_ui，…，C1_un}，其中，TW1_u的结束时间为TSEu，TW1_u的长度与目标时间窗口的长度相同，C1_ui为在TW1_u内的第i个时间段内目标存储器集群的最大实时存储量与总存储量的比值；i的取值为1到n；

S202，基于D1获取第一训练集F1={F1₁，F1₂，…，F1_u，…，F1_p}，F1_u为F1中的第u个特征向量，F1_u=（K1_u1，K1_u2，…，K1_uj，…，K1_um，C1_u1，C1_u2，…，C1_ui，…，C1_un），K1_uj=α·R1_uj；F1中的每个特征向量对应的扩容预测值为1；

S203，获取第二数据集D2={D2₁，D2₂，…，D2_v，…，D2_q}，D2_v为D2中的第v个第二历史任务，第二历史任务与第一历史任务的任务类型相同，但对应的扩容标识为第二扩容标识值的任务，v的取值为1到q，q为第二历史任务的数量；R2_v为按照时间先后顺序获取目标存储器集群距离第v个第二历史任务开始接入目标存储器集群的接入时间TCv最近的m个历史接入任务信息形成的历史接入信息集；R2_v={R2_v1，R2_v2，…，R2_vj，…，R2_vm}，R2_vj为第v个第二历史任务对应的第j个历史接入任务信息，并且，在R2_vm对应的历史任务开始接入目标存储器集群的接入时间和TCv之间的时间间隔内没有历史任务接入所述目标存储器集群；C2_v为第v个第二历史任务对应的时间窗口TW2_v内的存储量信息集C2_v={C2_v1，C2_v2，…，C2_vi，…，C2_vn}，其中，TW2_v的结束时间为TCv，TW2_v的长度与目标时间窗口的长度相同，C2_vi为在TW2_v内的第i个时间段内目标存储器集群的最大实时存储量与总存储量的比值；

S204，基于D2获取第二训练集F2={F2₁，F2₂，…，F2_v，…，F2_q}， F2_v为F2中的第v个特征向量，F2_v=（K2_v1，K2_v2，…，K2_vj，…，K2_vm，C2_v1，C2_v2，…，C2_vi，…，C2_vn），K2_vj=α·R2_vj；F2中的每个特征向量对应的扩容预测值为0；

3.根据权利要求1所述的方法，其特征在于，R_j=（type_j，Num_j，Time_j，space_j，Tag_j，Q_j），其中，type_j为R_j对应的历史任务的任务类型标识，Num_j为需要执行R_j对应的历史任务的电子设备的数量，Time_j为R_j对应的历史任务开始接入目标存储器集群的接入时间，space_j为R_j对应的历史任务开始接入目标存储器集群时，目标存储器集群的当前存储量与当前总存储量之间的比值，Tag_j为R_j对应的历史任务的扩容标识，Q_j为R_j对应的历史任务的时间属性标识；其中，Tag_j用于表示所述目标存储器集群在R_j对应的历史任务接入目标存储器集群前的设定时间窗口内是否进行过扩容，所述设定时间窗口的长度小于所述目标时间窗口的长度；如果Tag_j为第一设定扩容标识值，则表示所述目标存储器集群在R_j对应的历史任务接入目标存储器集群前的设定时间窗口内进行过扩容，如果Tag_j为第二设定扩容标识值，则表示所述目标存储器集群在R_j对应的历史任务接入目标存储器集群前的设定时间窗口内没有进行过扩容；Q_j用于表示Time_j是否位于目标时间窗口内，如果Q_j为第一时间属性标识值，则表示Time_j位于所述目标时间窗口内，如果Q_j为第二时间属性标识值，则表示Time_j不位于所述目标时间窗口内；并且，在R_m对应的历史任务开始接入目标存储器集群的接入时间和当前时间之间的时间间隔内没有历史任务接入所述目标存储器集群。

4.根据权利要求3所述的方法，其特征在于，α=u/m，u基于Q₁，Q₂，…，Q_j，…，Q_m确定或者基于Tag₁，Tag₂，…，Tag_j，…，Tag_m确定。

5.根据权利要求4所述的方法，其特征在于，u具体通过如下步骤确定：

S121，设置j=m，Var=0；

S122，如果j≥1，执行S123；否则，执行S125；

S124，设置j=j-1，执行S122；

S125，设置u=Var，并退出当前控制程序。

6.根据权利要求4所述的方法，其特征在于，u基于如下步骤确定：

S1201，如果R_m对应的扩容标识Tag_m为第一扩容标识值，设置u=0，并退出当前控制程序，如果R_m对应的扩容标识Tag_m为第二扩容标识值，执行S1202；

S1202，设置r=m-1，Var=1；

S1203，如果r≥1，执行S1204；否则，执行S1206；

S1205，设置r=r-1，执行S1203；

S1206，设置u=Var，并退出当前控制程序。

7.根据权利要求1所述的方法，其特征在于，m=max（Y1，Y2，…，Ye1，…，Yz1），Ye1为设定历史时间段内的第e1个未扩容任务组对应的任务数量，e1的取值为1到z1，z1为未扩容任务组的数量，其中，第e1个未扩容任务组包括连续接入当前目标存储器集群的Ye1个任务，并且Ye1个任务中任一任务对应的扩容标识为第二扩容标识值。

8.根据权利要求1所述的方法，其特征在于，所述设定时间窗口的长度等于MD·t_av，MD为存储器增量集IQ的众数，IQ={IQ₁，IQ₂，…，IQ_h，…，IQ_L}，IQ_h为在设定历史时间段内的第h次目标扩容时接入到当前目标存储器集群中的存储器数量，h的取值为1到L，L为目标扩容的次数，所述目标扩容为在当前目标存储器集群中接入新任务而进行的扩容；t_av=（At₁+At₂+…+At_b+…+At_d）/（IQ₁+IQ₂+…+IQ_h+…+IQ_L），At_b为IQ对应的d个存储器中的第b个存储器接入到当前目标存储器集群所需要到的时间，b的取值为1到d。

9.一种基于容量使用预测的扩容提示装置，其特征在于，包括：

10.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项的所述方法。