CN111752903A - 一种数据存储空间可使用时间的预测方法 - Google Patents
一种数据存储空间可使用时间的预测方法 Download PDFInfo
- Publication number
- CN111752903A CN111752903A CN202010579971.1A CN202010579971A CN111752903A CN 111752903 A CN111752903 A CN 111752903A CN 202010579971 A CN202010579971 A CN 202010579971A CN 111752903 A CN111752903 A CN 111752903A
- Authority
- CN
- China
- Prior art keywords
- storage space
- determining
- model
- training
- sample point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013500 data storage Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000003860 storage Methods 0.000 claims abstract description 119
- 238000012549 training Methods 0.000 claims abstract description 98
- 230000006870 function Effects 0.000 claims description 20
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 238000013501 data transformation Methods 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000035945 sensitivity Effects 0.000 abstract description 8
- 230000002354 daily effect Effects 0.000 description 86
- 238000012545 processing Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据存储空间可使用时间的预测方法及装置,包括:获取数据存储空间的剩余可用存储空间,然后确定剩余可用存储空间是否大于第一阈值,若是,则获取预测天数,再将预测天数输入到预测模型中,得到预测日增长量,其中,预测模型是对训练样本进行训练学习得到的,然后判断预测日增长量是否大于第二阈值,若大于第二阈值,则将剩余可用存储空间和预测日增长量之间的比值确定为剩余可用存储空间的可使用天数,以此实现根据历史数据增长量确定出预测日增长量,进而得到数据存储空间可使用时间,并提高预测的数据增长情况的准确性和灵敏度。
Description
技术领域
本发明涉及金融科技(Fintech)领域,尤其涉及一种数据存储空间可使用时间的预测方法。
背景技术
随着计算机技术的发展,越来越多的技术(例如:分布式、云计算或大数据)应用在金融领域,传统金融业正在逐步向金融科技转变,大数据技术也不例外,但由于金融、支付行业的安全性、实时性要求,也对大数据技术提出的更高的要求。
在大数据领域中,通过需要利用集群存储数据,集群剩余存储空间预计支持时长是指预测集群存储空间自然增长情况下,剩余可用存储空间可以支撑多长时间,对集群是否需要扩容、集群正常可支撑使用时间提供一个量化的指引。
现有技术对集群剩余存储空间预计支持时长的预算,需要依靠集群的运营经验给出来一个置信区间,不能按照集群历史一段时间实际的增长情况给出来一个准确值,并且按照集群的运营经验给出来的置信区间是一个静态的结果,不能灵敏感知到集群的存储使用变化,导致集群存储空间的预测结果不够准确。
发明内容
本发明实施例提供一种数据存储空间可使用时间的预测方法,用于根据历史数据增长情况,得到预测的数据增长情况,进而得到数据存储空间可使用时间,并提高预测的数据增长情况的准确性和灵敏度。
第一方面,本发明实施例提供,包括:获取数据存储空间的剩余可用存储空间;
确定所述剩余可用存储空间是否大于第一阈值,若是,则获取预测天数;将所述预测天数输入到预测模型中,得到预测日增长量;其中,预测模型是对训练样本进行训练学习得到的;
判断所述预测日增长量是否大于第二阈值,若大于所述第二阈值,则将所述剩余可用存储空间和所述预测日增长量之间的比值确定为所述剩余可用存储空间的可使用天数。
上述技术方案中,根据预设天数,得到预设天数对应的预测日增长量,然后再根据剩余可用存储空间得到剩余可用存储空间的可使用天数,以此实现根据历史数据增长量确定出预测日增长量,进而得到数据存储空间可使用时间,并提高预测的数据增长情况的准确性和灵敏度。
可选的,所述获取数据存储空间的剩余可用存储空间,包括:
将所述数据存储空间与所述安全阈值的乘积确定为安全存储空间;
将所述数据存储空间与所述安全存储空间的差值确定为隐患存储空间;
将所述数据存储空间的剩余存储空间与所述隐患存储空间的差值确定为所述剩余可用存储空间。
上述技术方案中,通过设置安全阈值的方式得到安全存储空间,进而得到在安全存储空间中,得到剩余可用存储空间,保证了数据存储空间安全性。
可选的,所述对训练样本进行训练学习得到所述预测模型,包括:
获取所述训练样本的数据集;
将所述训练样本的数据集中的历史日增长量为负数的样本进行删减,得到剩余的数据集;
根据所述剩余的数据集的均值和标准差进行异常值检测,将所述异常值进行删减,确定出所述预设数量的训练样本;
将所述训练样本进行数据变换,得到模型特征,将所述模型特征输入到预设模型中进行训练学习,得到所述预测模型。
上述技术方案中,通过删减为负数的历史日增长量,再根据异常值检测,对训练样本的数据集中的异常样本进行过滤,以此提高预测日增长量的准确性,进而提高预测数据存储空间可使用时间的准确性。
可选的,所述将所述训练样本进行数据变换,得到模型特征,包括:
将所述训练样本的样本点的日期距离当前日期的天数确定为所述样本点的特征输入值;
将所述训练样本中的除最后一个样本点的任意的样本点的历史日增长量和所述样本点后一个样本点的历史日增长量的乘积的均方根确定为所述样本点的特征输出值;
将所述最后一个样本点的历史日增长量和第一个样本点的历史日增长量的乘积的均方根确定为所述最后一个样本点的特征输出值;
将所述训练样本中各样本点的所述特征输入值和所述特征输出值确定为所述模型特征。
上述技术方案中,根据确定样本点的历史日增长量均方根的方法减小训练样本中各样本点的历史日增长量之间的差异,使特征输出值趋于平稳,优化了历史数据,提高了预测日增长量的准确性。
可选的,所述将所述模型特征输入到预设模型中进行训练学习,得到所述预测模型,包括:
将所述模型特征输入到预设模型中进行第一预设时间的训练学习,确定预测误差率;
判断所述预测误差率是否小于误差阈值,若是,则确定所述预设模型达到标准,得到所述预测模型;否则优化所述预设模型,得到所述预测模型。
上述技术方案中,根据优化后的模型特征得到预测模型,并通过设置预测误差率的误差阈值的方式判断是否优化预测模型,以此提高确定数据存储空间可使用时间的灵敏度。
所述确定预测误差率,包括:
将所述模型特征输入到预设模型中进行第一预设时间的训练学习,确定出第二预设时间内任意样本点的预测日增长量和所述样本点的历史日增长量之间的差值;
确定所述差值与所述样本点的历史日增长量之间的比值为所述样本点的误差率;
确定所述第二预设时间内所有样本点的误差率的均值为所述预测模型的预测误差率。
上述技术方案中,根据预设模型预测的预测日增长量和历史日增长量进行对比,得到误差率,根据误差率确定优化预测模型,提高确定数据存储空间可使用时间的准确性和灵敏度。
可选的,所述优化所述预测模型,包括:
设置所述预测模型的初始值;
对所述训练样本进行前向传播训练,确定出损失函数;
当模型迭代至预设次数时,且所述损失函数的值小于损失阈值,进行所述预测模型收敛。
上述技术方案中,通过设置迭代至预设次数,减少模型优化时间,通过设置损失阈值保证预测数据存储空间可使用时间的准确性。
可选的,所述方法还包括:
若所述预测日增长量不大于所述第二阈值时,确定出当前日期与前一次确定的可使用天数之间的天数差;
将前一次确定的可使用天数与所述天数差的差值确定为当前日期的所述剩余可用存储空间的可使用天数。
上述技术方案中,数据存储空间在日常使用中会出现日增长量不大于第二阈值的情况,当出现这种情况时,根据前一次确定的可使用天数,确定当前日期的剩余可用存储空间的可使用天数,以此提高确定预测日增长量的灵敏度。
第二方面,本发明实施例提供一种数据存储空间可使用时间的预测装置,包括:
获取模块,用于获取数据存储空间的剩余可用存储空间;
处理模块,用于确定所述剩余可用存储空间是否大于第一阈值,若是,则获取预测天数;将所述预测天数输入到预测模型中,得到预测日增长量;其中,预测模型是对训练样本进行训练学习得到的;
判断所述预测日增长量是否大于第二阈值,若大于所述第二阈值,则将所述剩余可用存储空间和所述预测日增长量之间的比值确定为所述剩余可用存储空间的可使用天数。
可选的,所述处理模块具体用于:
将所述数据存储空间与所述安全阈值的乘积确定为安全存储空间;
将所述数据存储空间与所述安全存储空间的差值确定为隐患存储空间;
将所述数据存储空间的剩余存储空间与所述隐患存储空间的差值确定为所述剩余可用存储空间。
可选的,所述处理模块具体用于:
控制获取模块获取所述训练样本的数据集;
将所述训练样本的数据集中的历史日增长量为负数的样本进行删减,得到剩余的数据集;
根据所述剩余的数据集的均值和标准差进行异常值检测,将所述异常值进行删减,确定出所述预设数量的训练样本;
将所述训练样本进行数据变换,得到模型特征,将所述模型特征输入到预设模型中进行训练学习,得到所述预测模型。
可选的,所述处理模块具体用于:
将所述训练样本的样本点的日期距离当前日期的天数确定为所述样本点的特征输入值;
将所述训练样本中的除最后一个样本点的任意的样本点的历史日增长量和所述样本点后一个样本点的历史日增长量的乘积的均方根确定为所述样本点的特征输出值;
将所述最后一个样本点的历史日增长量和第一个样本点的历史日增长量的乘积的均方根确定为所述最后一个样本点的特征输出值;
将所述训练样本中各样本点的所述特征输入值和所述特征输出值确定为所述模型特征。
可选的,所述处理模块具体用于:
将所述模型特征输入到预设模型中进行第一预设时间的训练学习,确定预测误差率;
判断所述预测误差率是否小于误差阈值,若是,则确定所述预设模型达到标准,得到所述预测模型;否则优化所述预设模型,得到所述预测模型。
可选的,所述处理模块具体用于:
将所述模型特征输入到预设模型中进行第一预设时间的训练学习,确定出第二预设时间内任意样本点的预测日增长量和所述样本点的历史日增长量之间的差值;
确定所述差值与所述样本点的历史日增长量之间的比值为所述样本点的误差率;
确定所述第二预设时间内所有样本点的误差率的均值为所述预测模型的预测误差率。
可选的,所述处理模块具体用于:
设置所述预测模型的初始值;
对所述训练样本进行前向传播训练,确定出损失函数;
当模型迭代至预设次数时,且所述损失函数的值小于损失阈值,进行所述预测模型收敛。
可选的,所述处理模块还用于:
若所述预测日增长量不大于所述第二阈值时,确定出当前日期与前一次确定的可使用天数之间的天数差;
将前一次确定的可使用天数与所述天数差的差值确定为当前日期的所述剩余可用存储空间的可使用天数。
第三方面,本发明实施例还提供一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述数据存储空间可使用时间的预测方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述数据存储空间可使用时间的预测方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种系统架构示意图;
图2为本发明实施例提供的一种数据存储空间可使用时间的预测方法的流程示意图;
图3为本发明实施例提供的一种数据存储空间可使用时间的预测方法的流程示意图;
图4为本发明实施例提供的一种数据存储空间可使用时间的预测装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示例性的示出了本发明实施例所适用的一种系统架构,该系统架构包括服务器100,该服务器100可以包括处理器110、通信接口120和存储器130。
其中,通信接口120用于获取数据存储空间的历史日增长量。
处理器110是服务器100的控制中心,利用各种接口和路线连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。
存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
基于上述描述,图2示例性的示出了本发明实施例提供的一种数据存储空间可使用时间的预测方法的流程,该流程可由数据存储空间可使用时间的预测装置的执行。
如图2所示,该流程具体包括:
步骤201,获取数据存储空间的剩余可用存储空间。
本发明实施例,数据的存储空间在用户的使用过程中,会自然地增长,累计数据,例如集群的数据存储空间,每天存储的数据可能会在几百TB,而数据存储空间中并不是所有的空间都可以进行使用,如若全部使用会带有一定的安全隐患,因此,需要计算存储空间的剩余可用存储空间。
进一步地,将数据存储空间与安全阈值的乘积确定为安全存储空间;
将数据存储空间与安全存储空间的差值确定为隐患存储空间;
将数据存储空间的剩余存储空间与隐患存储空间的差值确定为剩余可用存储空间。
本发明实施例,根据设置的安全阈值确定出安全存储空间,再得到隐患存储空间,最后得到剩余可用存储空间,例如,设置安全阈值为85%,则安全存储空间=数据存储空间×85%,隐患存储空间=数据存储空间-数据存储空间×85%=数据存储空间×15%,剩余可用存储空间=剩余存储空间-数据存储空间×15%。需要说的是,安全阈值是可以依据经验设置的值,例如可以取值80%、90%等。
步骤202,确定所述剩余可用存储空间是否大于第一阈值,若是,则获取预测天数;将所述预测天数输入到预测模型中,得到预测日增长量;其中,预测模型是对训练样本进行训练学习得到的。
本发明实施例,在判断剩余可用存储空间大于第一阈值时,根据预先训练学习完成的预测模型,输入预测天数,得到预测天数对应的预测日增长量,例如,在当前日期,输入预测天数为-1时,则预测天数对应的为明天的预测日增长量。
然而,在确定剩余可用存储空间不大于第一阈值时,则确认当前的数据存储空间的可使用时间为0,即不可以再进行使用。例如,第一阈值为0时,则在存储空间不大于0时,数据存储空间不可以再进行使用。
进一步地,获取训练样本的数据集;
将训练样本的数据集中的历史日增长量为负数的样本进行删减,得到剩余的数据集;
根据剩余的数据集的均值和标准差进行异常值检测,将异常值进行删减,确定出预设数量的训练样本;
将训练样本进行数据变换,得到模型特征,将模型特征输入到预设模型中进行训练学习,得到预测模型。
本发明实施例,训练样本的数据集包括负值与正值,负值表示数据存储空间当日存在人为数据删减的情况,因次当日数据的日增长量为负值,正值表示当日正常增长的数据,然后将训练样本的数据集中的负值过滤,得到剩余的数据集,然后对剩余的数据集进行高斯分布,得到剩余的数据集中各样本点的均值和标准差,然后设置异常值检测条件,使用拉依达准则对历史样本进行异常值检测,得到预设数量的训练样本。例如,数据集中共存在13个样本点:1.00、1.01、-1.23、1.03、1.02、1.04、-2.07、1.05、1.02、1.02、1.04、-3.02和6.05,将数据集中的负值删减掉,得到剩余的数据集:1.00、1.01、1.03、1.02、1.04、1.05、1.02、1.02、1.04、和6.05,设置异常值检测条件为|x-u|≤3σ,其中,x为剩余的数据集中各数据,u为剩余的数据集的平均值,σ为剩余的数据集的标准差,经计算,u=1.48,σ=1.52,则3σ=4.56,则数据|6.05-1.48|=4.57≥4.56,因此,6.05是异常值,将其删减,得到训练样本。
然后,将得到的训练样本进行数据变换,得到模型特征。
具体的,将训练样本的样本点的日期距离当前日期的天数确定为样本点的特征输入值;
将训练样本中的除最后一个样本点的任意的样本点的历史日增长量和样本点后一个样本点的历史日增长量的乘积的均方根确定为样本点的特征输出值;
将最后一个样本点的历史日增长量和第一个样本点的历史日增长量的乘积的均方根确定为最后一个样本点的特征输出值;
将训练样本中各样本点的特征输入值和特征输出值确定为模型特征。
本发明实施例,先确定当前日期,然后将样本点的日期距离当前日期的天数确定为样本点的特征输入值,例如,当前日期为2020年6月15日,样本点的日期为2020年6月13日,则该样本点的特征输入值为-2。
然后根据各样本点的历史日增长量确定出各样本点的特征输出值,其中特征输出值为样本点计算后的数据增长量,结合上述特征输入值进行举例,例如,a样本点的特征输入值为27,a样本点的历史日增长量为50,b样本点的特征输入值为28,b样本点的历史日增长量为52,则进行数据变换后,a样本点的特征输出值为
最后将确定的各样本点的特征输入值和特征输出值确定为模型特征,用于预测模型训练学习。
进一步地,将模型特征输入到预设模型中进行预设时间的训练学习,确定预测误差率;
判断预测误差率是否小于误差阈值,若是,则确定预设模型达到标准,得到预测模型;否则优化预设模型,得到预测模型。
本发明实施例,预测模型对模型特征进行第一预设时间的训练学习,其中,第一预设时间是依据经验设置的固定值,例如可以取值每天的晚上11点、0点等。然后得到样本点对应的预测增长量,然后根据各样本点的预测增长量和历史增长量确定各样本点的预测误差率,再根据各样本点的预测误差率确定出预测模型的预测误差率,根据预测模型的预测误差率,确定预测模型是否需要进行优化。
具体的,将模型特征输入到预设模型中进行第一预设时间的训练学习,确定出第二预设时间内任意样本点的预测日增长量和样本点的历史日增长量之间的差值;
确定差值与样本点的历史日增长量之间的比值为样本点的误差率;
确定第二预设时间内所有样本点的误差率的均值为预测模型的预测误差率。
本发明实施例,根据第二预设时间,确定出样本点的数量,然后根据确定的各样本点的误差率与样本点的数量确定出预测模型的预测误差率,例如对于昨天和前天两天的训练样本进行计算,昨天的预测日增长量为85TB,历史日增长量为100TB,则昨天的误差率=(100-85)/100=15%,前天的预测日增长量为20TB,历史日增长量为25TB,则前天的误差率=(25-20)/25=20%,则预测模型的预测误差率(15%+20%)/2=17.5%。
需要说明的是,第二预设时间是依据经验设置的值,例如可以取值30天,90天等。
示例性的,在确定预测模型的预测误差率不小于误差阈值时,设置预测模型的初始值;
对训练样本进行前向传播训练,确定出损失函数;
当模型迭代至预设次数时,且损失函数的值小于损失阈值,进行预测模型收敛,完成预设模型优化。
本发明实施例,通过设置模型的初始值对模型进行优化,例如,预测模型为线性回归模型,选用批量梯度下降算法得到下述预测模型的参数。
其中,m为训练样本的个数,w、b分别是直线方程两个参数,其中i表示第i个样本点,j表示样本点i的第j个维度,α梯度下降算法的学习率。
然后根据经验设置预测模型的w值为tan5°,b为训练样本中所有样本点的日增量的均值,α为0.001。
预测模型的初始值设置完成后,通过训练样本对预测模型进行训练学习,得到损失函数,然后在迭代次数达到预设次数时,若损失函数的值小于损失阈值,则认为预测模型达到标准,然后进行模型收敛,否则继续迭代,直至损失函数的值小于损失阈值。例如,对预测模型进行梯度批量迭代20000次(预设次数),每100次计算一次预测模型的损失函数的损失值,如果损失值小于1(损失阈值),认为模型已经达到标准,可以进行收敛,提前终止迭代。
可以理解,通过上述算法实现了全局最优解,从而提高数据存储空间可使用时间的预测准确性。
步骤203,判断所述预测日增长量是否大于第二阈值,若大于所述第二阈值,则将所述剩余可用存储空间和所述预测日增长量之间的比值确定为所述剩余可用存储空间的可使用天数。
本发明实施例,通过确定预测日增长量大于第二阈值,然后将剩余可用存储空间和预测日增长量之间的比值确定为剩余可用存储空间的可使用天数。例如,预测日增长量为25TB,剩余可用存储空间为100TB,则剩余可用存储空间的可使用天数=100/25=4天。其中,第二阈值可以为0。
需要说明的是,数据存储空间在日常使用中会出现日增长量不大于第二阈值的情况,例如,历史日增长量随着时间的流逝,日增长量越来越低,即斜率越大,在当前日期的日增长量的数据为0时,则有可能预测日增长量不大于0。
示例性的,在确定预测日增长量不大于第二阈值时,确定出当前日期与前一次确定的可使用天数之间的天数差;
将前一次确定的可使用天数与天数差的差值确定为当前日期的剩余可用存储空间的可使用天数。
当出现预测日增长量不大于第二阈值这种情况时,根据前一次确定的可使用天数,确定当前日期的剩余可用存储空间的可使用天数,例如,3天前确定的可使用天数为10天,即2天前与1天前的预测日增长量均不大于0,则当前日期的剩余可用存储空间的可使用天数为10-3=7天。
本发明实施例中,根据预设天数对应的预测日增长量与剩余可用存储空间确定出剩余可用存储空间的可使用天数,以此实现根据历史数据增长量确定出预测日增长量,进而得到数据存储空间可使用时间,并提高预测的数据增长情况的准确性和灵敏度。
为了更好的解释上述技术方案,本发明实施例提供了一种数据存储空间可使用时间的预测方法的流程
如图3所示,具体流程包括:
步骤301,确定剩余可用存储空间。
设置安全阈值,如安全阈值为85%,则剩余可用存储空间=剩余数据存储空间-数据存储总空间*(1-安全阈值)。
步骤302,判断剩余可用存储空间是否大于0,若是,则执行步骤303,否则执行步骤304。
剩余可用存储空间大于0(第一阈值)时,根据历史数据得到预测模型,进一步得到预测天数对应的预测日增长量。
步骤303,判断预测日增长量是否大于0,若是,则执行步骤305,否则执行步306。
步骤304,确定剩余可用存储空间的可使用天数为0。
步骤305,确定剩余可用存储空间的可使用天数。
在预测日增长量大于0(第二阈值)时,将剩余可用存储空间与预测日增长量的比值确定为可用存储空间的可使用天数。
步骤306,根据前一次确定的可使用天数确定当前日期的剩余可用存储空间的可使用天数。
在预测日增长量不大于0(第二阈值)时,将前一次确定的可使用天数,如昨天确定的剩余可用存储空间可使用天数为9天,确定当前日期的剩余可用存储空间的可使用天数为9-1=8天。
本发明实施例,上述技术方案中,通过设置安全阈值的方式得到剩余可用存储空间,再根据历史数据,得到预设天数对应的预测日增长量,然后再根据剩余可用存储空间得到剩余可用存储空间的可使用天数,以此实现根据历史数据增长量确定出预测日增长量,进而得到数据存储空间可使用时间,并提高预测的数据增长情况的准确性和灵敏度。
基于相同的技术构思,图4示例性的示出了本发明实施例提供的一种数据存储空间可使用时间的预测装置的结构,该装置可以执行数据存储空间可使用时间的预测方法的流程。
如图4所示,该装置具体包括:
获取模块401,用于获取数据存储空间的剩余可用存储空间;
处理模块402,用于确定所述剩余可用存储空间是否大于第一阈值,若是,则获取预测天数;将所述预测天数输入到预测模型中,得到预测日增长量;其中,预测模型是对训练样本进行训练学习得到的;
判断所述预测日增长量是否大于第二阈值,若大于所述第二阈值,则将所述剩余可用存储空间和所述预测日增长量之间的比值确定为所述剩余可用存储空间的可使用天数。
可选的,所述处理模块402具体用于:
将所述数据存储空间与所述安全阈值的乘积确定为安全存储空间;
将所述数据存储空间与所述安全存储空间的差值确定为隐患存储空间;
将所述数据存储空间的剩余存储空间与所述隐患存储空间的差值确定为所述剩余可用存储空间。
可选的,所述处理模块402具体用于:
控制获取模块获取所述训练样本的数据集;
将所述训练样本的数据集中的历史日增长量为负数的样本进行删减,得到剩余的数据集;
根据所述剩余的数据集的均值和标准差进行异常值检测,将所述异常值进行删减,确定出所述预设数量的训练样本;
将所述训练样本进行数据变换,得到模型特征,将所述模型特征输入到预设模型中进行训练学习,得到所述预测模型。
可选的,所述处理模块402具体用于:
将所述训练样本的样本点的日期距离当前日期的天数确定为所述样本点的特征输入值;
将所述训练样本中的除最后一个样本点的任意的样本点的历史日增长量和所述样本点后一个样本点的历史日增长量的乘积的均方根确定为所述样本点的特征输出值;
将所述最后一个样本点的历史日增长量和第一个样本点的历史日增长量的乘积的均方根确定为所述最后一个样本点的特征输出值;
将所述训练样本中各样本点的所述特征输入值和所述特征输出值确定为所述模型特征。
可选的,所述处理模块402具体用于:
将所述模型特征输入到预设模型中进行预设时间的训练学习,确定预测误差率;
判断所述预测误差率是否小于误差阈值,若是,则确定所述预设模型达到标准,得到所述预测模型;否则优化所述预设模型,得到所述预测模型。
可选的,所述处理模块402具体用于:
将所述模型特征输入到预设模型中进行预设时间的训练学习,确定出预设时间内任意样本点的预测日增长量和所述样本点的历史日增长量之间的差值;
确定所述差值与所述样本点的历史日增长量之间的比值为所述样本点的误差率;
确定所述第二预设时间内所有样本点的误差率的均值为所述预测模型的预测误差率。
可选的,所述处理模块402具体用于:
设置所述预测模型的初始值;
对所述训练样本进行前向传播训练,确定出损失函数;
当模型迭代至预设次数时,且所述损失函数的值小于损失阈值,进行所述预测模型收敛。
可选的,所述处理模块402还用于:
若所述预测日增长量不大于所述第二阈值时,确定出当前日期与前一次确定的可使用天数之间的天数差;
将前一次确定的可使用天数与所述天数差的差值确定为当前日期的所述剩余可用存储空间的可使用天数。
基于相同的技术构思,本发明实施例还提供一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述数据存储空间可使用时间的预测方法。
基于相同的技术构思,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述数据存储空间可使用时间的预测方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种数据存储空间可使用时间的预测方法,其特征在于,包括:
获取数据存储空间的剩余可用存储空间;
确定所述剩余可用存储空间是否大于第一阈值,若是,则获取预测天数;将所述预测天数输入到预测模型中,得到预测日增长量;其中,预测模型是对训练样本进行训练学习得到的;
判断所述预测日增长量是否大于第二阈值,若大于所述第二阈值,则将所述剩余可用存储空间和所述预测日增长量之间的比值确定为所述剩余可用存储空间的可使用天数。
2.如权利要求1所述的方法,其特征在于,所述获取数据存储空间的剩余可用存储空间,包括:
将所述数据存储空间与所述安全阈值的乘积确定为安全存储空间;
将所述数据存储空间与所述安全存储空间的差值确定为隐患存储空间;
将所述数据存储空间的剩余存储空间与所述隐患存储空间的差值确定为所述剩余可用存储空间。
3.如权利要求1所述的方法,其特征在于,所述对训练样本进行训练学习得到所述预测模型,包括:
获取所述训练样本的数据集;
将所述训练样本的数据集中的历史日增长量为负数的样本进行删减,得到剩余的数据集;
根据所述剩余的数据集的均值和标准差进行异常值检测,将所述异常值进行删减,确定出所述预设数量的训练样本;
将所述训练样本进行数据变换,得到模型特征,将所述模型特征输入到预设模型中进行训练学习,得到所述预测模型。
4.如权利要求3所述的方法,其特征在于,所述将所述训练样本进行数据变换,得到模型特征,包括:
将所述训练样本的样本点的日期距离当前日期的天数确定为所述样本点的特征输入值;
将所述训练样本中的除最后一个样本点的任意的样本点的历史日增长量和所述样本点后一个样本点的历史日增长量的乘积的均方根确定为所述样本点的特征输出值;
将所述最后一个样本点的历史日增长量和第一个样本点的历史日增长量的乘积的均方根确定为所述最后一个样本点的特征输出值;
将所述训练样本中各样本点的所述特征输入值和所述特征输出值确定为所述模型特征。
5.如权利要求3所述的方法,其特征在于,所述将所述模型特征输入到预设模型中进行训练学习,得到所述预测模型,包括:
将所述模型特征输入到预设模型中进行第一预设时间的训练学习,确定预测误差率;
判断所述预测误差率是否小于误差阈值,若是,则确定所述预设模型达到标准,得到所述预测模型;否则优化所述预设模型,得到所述预测模型。
6.如权利要求5所述的方法,其特征在于,所述确定预测误差率,包括:
将所述模型特征输入到预设模型中进行第一预设时间的训练学习,确定出第二预设时间内任意样本点的预测日增长量和所述样本点的历史日增长量之间的差值;
确定所述差值与所述样本点的历史日增长量之间的比值为所述样本点的误差率;
确定所述第二预设时间内所有样本点的误差率的均值为所述预测模型的预测误差率。
7.如权利要求5所述的方法,其特征在于,所述优化所述预测模型,包括:
设置所述预测模型的初始值;
对所述训练样本进行前向传播训练,确定出损失函数;
当模型迭代至预设次数时,且所述损失函数的值小于损失阈值,进行所述预测模型收敛。
8.如权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
若所述预测日增长量不大于所述第二阈值时,确定出当前日期与前一次确定的可使用天数之间的天数差;
将前一次确定的可使用天数与所述天数差的差值确定为当前日期的所述剩余可用存储空间的可使用天数。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010579971.1A CN111752903A (zh) | 2020-06-23 | 2020-06-23 | 一种数据存储空间可使用时间的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010579971.1A CN111752903A (zh) | 2020-06-23 | 2020-06-23 | 一种数据存储空间可使用时间的预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111752903A true CN111752903A (zh) | 2020-10-09 |
Family
ID=72676696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010579971.1A Pending CN111752903A (zh) | 2020-06-23 | 2020-06-23 | 一种数据存储空间可使用时间的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111752903A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214376A (zh) * | 2020-10-19 | 2021-01-12 | 维沃移动通信有限公司 | 存储空间提示方法及装置 |
CN113537809A (zh) * | 2021-07-28 | 2021-10-22 | 深圳供电局有限公司 | 一种用于深度学习中资源扩容的主动决策方法及系统 |
WO2024087617A1 (zh) * | 2022-10-27 | 2024-05-02 | 天地伟业技术有限公司 | 一种存储空间预测方法、装置及计算机可读存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651027A (zh) * | 2012-04-05 | 2012-08-29 | 福兴达科技实业(深圳)有限公司 | 一种扩展储存空间的方法及装置 |
US20140281330A1 (en) * | 2013-03-13 | 2014-09-18 | International Business Machines Corporation | Apparatus and Method for Resource Alerts |
CN104572113A (zh) * | 2015-01-21 | 2015-04-29 | 深圳市中兴移动通信有限公司 | 存储空间的自动整理方法和移动终端 |
US20150262060A1 (en) * | 2014-03-11 | 2015-09-17 | SparkCognition, Inc. | System and Method for Calculating Remaining Useful Time of Objects |
US9460389B1 (en) * | 2013-05-31 | 2016-10-04 | Emc Corporation | Method for prediction of the duration of garbage collection for backup storage systems |
CN106249898A (zh) * | 2016-08-12 | 2016-12-21 | 北京金山安全软件有限公司 | 一种存储空间不足的提示方法、装置及移动设备 |
CN106354438A (zh) * | 2016-09-28 | 2017-01-25 | 郑州云海信息技术有限公司 | 一种存储池容量可用时间的预测方法和装置 |
CN106469107A (zh) * | 2016-08-31 | 2017-03-01 | 浪潮(北京)电子信息产业有限公司 | 一种存储资源的容量预测方法及装置 |
CN107480028A (zh) * | 2017-07-21 | 2017-12-15 | 东软集团股份有限公司 | 磁盘可使用的剩余时长的获取方法及装置 |
US20180341876A1 (en) * | 2017-05-25 | 2018-11-29 | Hitachi, Ltd. | Deep learning network architecture optimization for uncertainty estimation in regression |
CN109032914A (zh) * | 2018-09-06 | 2018-12-18 | 掌阅科技股份有限公司 | 资源占用数据预测方法、电子设备、存储介质 |
CN109783323A (zh) * | 2018-11-27 | 2019-05-21 | 宝付网络科技(上海)有限公司 | 剩余存储容量可用时间的预测方法 |
CN109977151A (zh) * | 2019-03-28 | 2019-07-05 | 北京九章云极科技有限公司 | 一种数据分析方法及系统 |
CN109976975A (zh) * | 2019-03-26 | 2019-07-05 | 北京大道云行科技有限公司 | 一种磁盘容量预测方法、装置、电子设备及存储介质 |
CN110334059A (zh) * | 2018-02-11 | 2019-10-15 | 北京京东尚科信息技术有限公司 | 用于处理文件的方法和装置 |
CN110489062A (zh) * | 2019-08-27 | 2019-11-22 | 浪潮云信息技术有限公司 | 一种基于OpenStack环境的磁盘扩容方法及系统 |
-
2020
- 2020-06-23 CN CN202010579971.1A patent/CN111752903A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651027A (zh) * | 2012-04-05 | 2012-08-29 | 福兴达科技实业(深圳)有限公司 | 一种扩展储存空间的方法及装置 |
US20140281330A1 (en) * | 2013-03-13 | 2014-09-18 | International Business Machines Corporation | Apparatus and Method for Resource Alerts |
US9460389B1 (en) * | 2013-05-31 | 2016-10-04 | Emc Corporation | Method for prediction of the duration of garbage collection for backup storage systems |
US20150262060A1 (en) * | 2014-03-11 | 2015-09-17 | SparkCognition, Inc. | System and Method for Calculating Remaining Useful Time of Objects |
CN104572113A (zh) * | 2015-01-21 | 2015-04-29 | 深圳市中兴移动通信有限公司 | 存储空间的自动整理方法和移动终端 |
CN106249898A (zh) * | 2016-08-12 | 2016-12-21 | 北京金山安全软件有限公司 | 一种存储空间不足的提示方法、装置及移动设备 |
CN106469107A (zh) * | 2016-08-31 | 2017-03-01 | 浪潮(北京)电子信息产业有限公司 | 一种存储资源的容量预测方法及装置 |
CN106354438A (zh) * | 2016-09-28 | 2017-01-25 | 郑州云海信息技术有限公司 | 一种存储池容量可用时间的预测方法和装置 |
US20180341876A1 (en) * | 2017-05-25 | 2018-11-29 | Hitachi, Ltd. | Deep learning network architecture optimization for uncertainty estimation in regression |
CN107480028A (zh) * | 2017-07-21 | 2017-12-15 | 东软集团股份有限公司 | 磁盘可使用的剩余时长的获取方法及装置 |
CN110334059A (zh) * | 2018-02-11 | 2019-10-15 | 北京京东尚科信息技术有限公司 | 用于处理文件的方法和装置 |
CN109032914A (zh) * | 2018-09-06 | 2018-12-18 | 掌阅科技股份有限公司 | 资源占用数据预测方法、电子设备、存储介质 |
CN109783323A (zh) * | 2018-11-27 | 2019-05-21 | 宝付网络科技(上海)有限公司 | 剩余存储容量可用时间的预测方法 |
CN109976975A (zh) * | 2019-03-26 | 2019-07-05 | 北京大道云行科技有限公司 | 一种磁盘容量预测方法、装置、电子设备及存储介质 |
CN109977151A (zh) * | 2019-03-28 | 2019-07-05 | 北京九章云极科技有限公司 | 一种数据分析方法及系统 |
CN110489062A (zh) * | 2019-08-27 | 2019-11-22 | 浪潮云信息技术有限公司 | 一种基于OpenStack环境的磁盘扩容方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214376A (zh) * | 2020-10-19 | 2021-01-12 | 维沃移动通信有限公司 | 存储空间提示方法及装置 |
CN113537809A (zh) * | 2021-07-28 | 2021-10-22 | 深圳供电局有限公司 | 一种用于深度学习中资源扩容的主动决策方法及系统 |
WO2024087617A1 (zh) * | 2022-10-27 | 2024-05-02 | 天地伟业技术有限公司 | 一种存储空间预测方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111752903A (zh) | 一种数据存储空间可使用时间的预测方法 | |
US11966204B2 (en) | Determining causal models for controlling environments | |
CN111950810B (zh) | 一种基于自演化预训练的多变量时间序列预测方法和设备 | |
EP3792841A1 (en) | Automated feature generation for machine learning application | |
US10909451B2 (en) | Apparatus and method for learning a model corresponding to time-series input data | |
CN111651264A (zh) | 物理机资源分配模型的获取方法、装置和计算机设备 | |
CN114169416B (zh) | 一种基于迁移学习的小样本集下短期负荷预测方法 | |
CN112667394B (zh) | 一种计算机资源利用率优化方法 | |
CN112738098A (zh) | 一种基于网络行为数据的异常检测方法及装置 | |
CN113642652A (zh) | 生成融合模型的方法、装置和设备 | |
CN113240181A (zh) | 一种水库调度运行滚动模拟方法及装置 | |
Nagashima et al. | Data Imputation Method based on Programming by Example: APREP-S | |
CN115829755B (zh) | 交易风险的预测结果的解释方法和装置 | |
US20240176316A1 (en) | Determining causal models for controlling environments | |
CN112116404B (zh) | 优惠消息的推送方法及装置、电子设备、计算机存储介质 | |
CN117391248A (zh) | 用户流失预测方法及装置 | |
CN113962323A (zh) | 热点账户识别方法及装置 | |
CN115630985A (zh) | 预测消费时间的方法以及装置 | |
CN115860896A (zh) | 银行终端控制风险的方法及装置 | |
CN117556867A (zh) | 一种基于改进Adam优化算法的短时电量预测方法及介质 | |
CN116316890A (zh) | 可再生能源出力场景生成方法、装置、设备及介质 | |
CN114862598A (zh) | 基于活跃用户的交易风险控制方法及装置 | |
CN115427978A (zh) | 针对近零学习率的梯度下降 | |
CN115456757A (zh) | 一种指标阈值动态生成方法和装置 | |
CN116757829A (zh) | 基于lstm的房地产贷款预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |