CN109978172A - 一种基于极限学习机的资源池利用率预测方法及装置 - Google Patents

一种基于极限学习机的资源池利用率预测方法及装置 Download PDF

Info

Publication number
CN109978172A
CN109978172A CN201711450575.3A CN201711450575A CN109978172A CN 109978172 A CN109978172 A CN 109978172A CN 201711450575 A CN201711450575 A CN 201711450575A CN 109978172 A CN109978172 A CN 109978172A
Authority
CN
China
Prior art keywords
learning machine
historical data
business
machine model
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711450575.3A
Other languages
English (en)
Other versions
CN109978172B (zh
Inventor
孟海军
黎炜
陈震宇
牟海望
吴陶
陈保福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Design Institute Co Ltd
Original Assignee
China Mobile Group Design Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Design Institute Co Ltd filed Critical China Mobile Group Design Institute Co Ltd
Priority to CN201711450575.3A priority Critical patent/CN109978172B/zh
Publication of CN109978172A publication Critical patent/CN109978172A/zh
Application granted granted Critical
Publication of CN109978172B publication Critical patent/CN109978172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Abstract

本发明提供一种基于极限学习机的资源池利用率预测方法及装置,所述方法包括根据资源池的有效历史数据对预设的极限学习机模型进行训练,获取多个训练好的极限学习机模型;根据每个训练好的极限学习机模型中的预测时长和预测参考误差,从多个训练好的极限学习机模型选出一个最佳极限学习机模型;将有效历史数据和预估业务数据量输入至最佳极限学习机模型,输出预测结果。本发明提供的基于极限学习机的资源池利用率预测方法及装置,通过历史数据对预设的极限学习机模型进行训练,获得多个训练好的极限学习机模型,选择一个最佳极限学习机模型对资源池的利用率进行预测,从而提高了资源池利用率预测的效率和准确性。

Description

一种基于极限学习机的资源池利用率预测方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于极限学习机的资源池利用率预测方法及装置。
背景技术
目前,大数据资源池的建设、扩容工作中,设备量确认很大程度上依赖于人为猜测,往往造成投入、产出比过高。准确地预测出未来资源池的利用率情况,进而指导实际工程按需建设,对于避免过量投资,获得良好的经济效益具有十分重要的意义。
现有技术中,对资源利用率的预测方法包括:(1)对资源分配的历史数据曲线进行拟合得到最佳拟合曲线以及对应的数学模型,利用该数学模型预测未来一定时间内资源的使用情况。(2)根据多个设定时间周期的网络资源利用率,计算得到每个设定时间周期的平均增长量,根据该平均增长量来估算在网络扩容的有效时长内所需要增加的网络资源量。(3)确定多个历史时间段的资源使用对应状态及其转移概率,由此得到转移矩阵和初始状态概率向量,根据该转移矩阵和初始状态概率向量,确定待预测的时间段的状态概率向量。
现有技术中的方法(1)的缺点在于使用利用率与时间之间的动态关系进行曲线拟合,而实际上资源利用率与很多影响因素相关,导致预测结果不准确。方法(2)的缺点在于其预测依据只是增长量与时间的关系,存在一定误差和局限性,而且文中无预测公式的理论依据。方法(3)的缺点在于统计转移概率时简单做简单数理统计,但转移概率未必与时间无关,因此转移概率的统计存在极大误差,预测结果不够稳定和准确。
发明内容
(一)要解决的技术问题
本发明的目的是提供一种基于极限学习机的资源池利用率预测方法及装置,解决了现有技术中预测结果不稳定、不准确及预测效率低的技术问题。
(二)技术方案
为了解决上述技术问题,一方面,本发明提供一种基于极限学习机的资源池利用率预测方法,其特征在于,包括:
根据资源池的有效历史数据对预设的极限学习机模型进行训练,获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数;
根据每个训练好的极限学习机模型中的预测时长和预测参考误差,从多个训练好的极限学习机模型选出一个最佳极限学习机模型,所述最佳极限学习机模型所包含的预测参考误差等于期望参考误差;
将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果,所述第一预估业务数据量为未来预设时间段内的业务数据量,所述预设时间段的长度为所述最佳极限学习机模型对应的预测时长,所述第一预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第一预测结果包含未来所述预设时间段内每一业务所消耗的各种资源的百分比。
进一步地,还包括:
获取所述资源池的原始历史数据,所述原始历史数据包括消耗所述资源池中资源的每一业务的数据量和每一业务所消耗的各种资源的百分比;
对所述原始历史数据进行滤波处理;
对经过滤波处理后的原始历史数据进行筛选,获取有效历史数据。
进一步地,所述对所述原始历史数据进行滤波处理,包括:
统一所述原始历史数据的格式;
对统一数据格式后的所述原始历史数据进行敏感值放大;
对放大敏感值后的所述原始历史数据进行数字滤波。
进一步地,所述对经过滤波处理后的原始历史数据进行筛选,获取有效历史数据,包括:
获取所述原始历史数据中包含的业务种类;
若判断获知所述业务种类小于等于第一预设阈值,则遍历所有业务组合,将每一业务组合输入至所述预设的极限学习机模型,输出测试误差,根据每个测试误差获取有效历史数据,所述有效历史数据为对应测试误差最小的业务组合;
若判断获知所述业务种类大于所述第一预设阈值,则根据每一业务所消耗的各种资源的百分比,利用遗传算法获取有效历史数据。
进一步地,所述对放大敏感值后的所述原始历史数据进行数字滤波,包括:
对放大敏感值后的所述原始历史数据进行离散时间傅里叶变换处理,取能量占比大于第二预设阈值的谐波组,再进行离散时间傅里叶反变换处理。
进一步地,所述将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果之前还包括:
基于所述有效历史数据,获取第一预估业务数据量。
进一步地,所述将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果之后还包括:
将所述有效历史数据、所述第一预估业务数据量和所述第一预测结果组合成新的历史数据;
将所述新的历史数据和第二预估业务数据量输入至所述最佳极限学习机模型,输出第二预测结果,所述第二预估业务数据量为未来下一个所述预设时间段内的业务数据量,所述第二预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第二预测结果包含未来下一个所述预设时间段内每一业务所消耗的各种资源的百分比。
另一方面,本发明提供一种基于极限学习机的资源池利用率预测装置,包括:
训练模块,用于根据资源池的有效历史数据对预设的极限学习机模型进行训练,获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数;
选择模块,用于根据每个训练好的极限学习机模型中的预测时长和预测参考误差,从多个训练好的极限学习机模型选出一个最佳极限学习机模型,所述最佳极限学习机模型所包含的预测参考误差等于期望参考误差;
预测模块,用于将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果,所述第一预估业务数据量为未来预设时间段内的业务数据量,所述预设时间段的长度为所述最佳极限学习机模型对应的预测时长,所述第一预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述输出预测结果的时间长度等于所述预测时长所述第一预测结果包含未来所述预设时间段内每一业务所消耗的各种资源的百分比。
进一步地,还包括:
获取模块,用于获取所述资源池的原始历史数据,所述原始历史数据包括消耗所述资源池中资源的每一业务的数据量和每一业务所消耗的各种资源的百分比;
预处理模块,用于对所述原始历史数据进行滤波处理;
筛选模块,用于对经过滤波处理后的原始历史数据进行筛选,获取有效历史数据。
再一方面,本发明提供一种用于预测资源池利用率的电子设备,包括:
存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。
又一方面,本发明提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述的方法。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
(三)有益效果
本发明提供的基于极限学习机的资源池利用率预测方法及装置,通过历史数据对预设的极限学习机模型进行训练,获得多个训练好的极限学习机模型,选择一个最佳极限学习机模型对资源池的利用率进行预测,从而提高了资源池利用率预测结果的稳定性和准确性,并提高了预测效率。
附图说明
图1为依照本发明实施例的基于极限学习机的资源池利用率预测方法示意图;
图2为依照本发明实施例的原始历史数据预处理方法示意图;
图3为依照本发明实施例的数字滤波方法示意图;
图4为依照本发明实施例的数据筛选方法示意图;
图5为依照本发明实施例的基于极限学习机的资源池利用率预测装置示意图;
图6为本发明实施例提供的用于预测资源池利用率的电子设备的结构示意图。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
图1为依照本发明实施例的基于极限学习机的资源池利用率预测方法示意图,如图1所示,本发明实施例提供一种基于极限学习机的资源池利用率预测方法,包括:
步骤S10、根据资源池的有效历史数据对预设的极限学习机模型进行训练,获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数;
步骤S20、根据每个训练好的极限学习机模型中的预测时长和预测参考误差,从多个训练好的极限学习机模型选出一个最佳极限学习机模型,所述最佳极限学习机模型所包含的预测参考误差等于期望参考误差;
步骤S30、将所将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果,所述第一预估业务数据量为未来预设时间段内的业务数据量,所述预设时间段的长度为所述最佳极限学习机模型对应的预测时长,所述第一预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第一预测结果包含未来所述预设时间段内每一业务所消耗的各种资源的百分比。
具体的,在预测之前,需要利用资源池的有效历史数据对预设的极限学习机模型进行训练,获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数。其中,有效历史数据为对资源池的利用率的影响较大的历史数据。预设的极限学习机模型中的参数是初始化时的默认的参数。预测时长是指通过训练好的极限学习机模型能够预测未来资源池利用率的时间长度,例如某一训练好的极限学习机模型的预测时长为10天,则该训练好的极限学习机模型能够预测未来10天的资源池的利用率。预测参考误差是指通过训练好的极限学习机模型预测未来资源池利用率的误差,例如某一训练好的极限学习机模型的预测参考误差为2%,则该训练好的极限学习机模型预测未来资源池利用率的误差为2%。
然后,根据每个训练好的极限学习机模型中的预测时长和预测参考误差,从多个训练好的极限学习机模型选出一个最佳极限学习机模型。其中,最佳极限学习机模型所包含的预测参考误差等于期望参考误差。在实际应用中,大数据资源池的建设、扩容工作中需要考虑投入、产出比,投入、产出比过高会造成资源的浪费,过低又会导致资源紧张,用户体验较差。因此,资源池的利用率的预测结果越准确越好,本发明实施例通过训练获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数,建设者可以将期望参考误差与预测参考误差进行对比,选择一个最佳极限学习机模型,最佳极限学习机模型所包含的预测参考误差等于期望参考误差,从而可以根据建设者可接受的投资误差选择相应的建设规模以及有效时长。
最后,将有效历史数据和第一预估业务数据量输入至最佳极限学习机模型,输出第一预测结果,所述第一预估业务数据量为未来预设时间段内的业务数据量,所述预设时间段的长度为所述最佳极限学习机模型对应的预测时长,所述第一预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第一预测结果包含未来所述预设时间段内每一业务所消耗的各种资源的百分比。例如,选出的某一最佳极限学习机模型的预测时长为10天,预测参考误差为2%,并预先获取第一预估业务数据量,则将有效历史数据和第一预估业务数据量输入至该最佳极限学习机模型即可预测未来10天的资源池的利用率,预测结果的误差为2%。
进一步地,所述还包括:
获取所述资源池的原始历史数据,所述原始历史数据包括消耗所述资源池中资源的每一业务的数据量和每一业务所消耗的各种资源的百分比;
对所述原始历史数据进行滤波处理;
对经过滤波处理后的原始历史数据进行筛选,获取有效历史数据。
具体的,首先,需要获取资源池的原始历史数据,原始历史数据包括消耗资源池中资源的所有业务、每一业务的数据量和每一业务所消耗的各种资源的百分比。例如,消耗资源池中资源的业务包括网页业务、搜索业务、视频业务和语音业务,某个时刻,网页业务消耗的资源的百分比分别为:存储资源为25%,计算资源为25%;搜索业务消耗的资源的百分比分别为:存储资源为10%,计算资源为60%;视频业务消耗的资源的百分比分别为:存储资源为60%,计算资源为10%;语音业务消耗的资源的百分比分别为:存储资源为5%,计算资源为5%。并且,获取的原始历史数据应当尽可能详细,例如,现有一个集群,已知其提供一种web服务,那么尽可能详细的统计日均访问量、人均访问时长等业务的数据量。
然后,对所述原始历史数据进行处理,此过程主要解决数据格式错乱、数据缺失、采集误差等问题,以便于后续的数据处理和利用。
最后,对经过滤波处理后的原始历史数据进行筛选,获取有效历史数据。此步骤的目的是筛选出对资源池的利用率的影响较大的历史数据,由于从现网中采集的原始历史数据并非都对资源池的利用率有很大的影响,有些历史数据由于数据质量问题甚至对资源池的利用率的预测结果有负面影响,故此需要在原始历史数据中的所有业务中选择出一组业务组合,作为有效历史数据用来学习与预测。
进一步地,所述对所述原始历史数据进行处理,包括:
统一所述原始历史数据的格式;
对统一数据格式后的所述原始历史数据进行敏感值放大;
对放大敏感值后的所述原始历史数据进行数字滤波。
具体的,图2为依照本发明实施例的原始历史数据预处理方法示意图。如图2所示,首先统一数据的格式,由于各个系统的运行情况不同,所采集到的原始历史数据也各有差异,为便于后面的学习与预测,需要对数据格式进行统一整理。
然后进行敏感值放大,在采集到的原始历史数据中,有些数据的变动很小或者基数很大,从而为后面学习其变动规律带来问题。因此,需要做一个类似于“小信号放大器”的过程,即通过减去数据业务的最低值,消除基数值,再放大若干倍剩余的数据实现敏感值放大,以凸显数据的波动情况。
最后,进行数字滤波,实际的采集系统中,往往出现数据缺失以及数据误报问题,有时服务器的运行也出现极端情况,因而这些数据明显不代表真实的需求。所以,采用数字滤波方式以消除上述问题。
进一步地,所述对放大敏感值后的所述原始历史数据进行数字滤波,包括:
对放大敏感值后的所述原始历史数据进行离散时间傅里叶变换处理,取能量占比大于第二预设阈值的谐波组,再进行离散时间傅里叶反变换处理。
具体的,图3为依照本发明实施例的数字滤波方法示意图,如图3所示,首先,对放大敏感值后的原始历史数据进行离散时间傅里叶变换处理,然后取能量占比大于第二预设阈值的谐波组,实际应用中所述第二预设阈值可根据实际需要进行设置,例如取能量占比大于70%的谐波组,最后再进行离散时间傅里叶反变换处理,完成数字滤波。
进一步地,所述对经过滤波处理后的原始历史数据进行筛选,获取有效历史数据,包括:
获取所述原始历史数据中包含的业务种类;
若判断获知所述业务种类小于等于第一预设阈值,则遍历所有业务组合,将每一业务组合输入至所述预设的极限学习机模型,输出测试误差,根据每个测试误差获取有效历史数据,所述有效历史数据为对应测试误差最小的业务组合;
若判断获知所述业务种类大于所述第一预设阈值,则根据每一业务所消耗的各种资源的百分比,利用遗传算法获取有效历史数据。
具体的,由于从现网中采集的原始历史数据并非都对资源池的利用率有很大的影响,有些历史数据由于数据质量问题甚至对资源池的利用率的预测结果有负面影响,故此需要在原始历史数据中的所有业务中选择出一组业务组合,作为有效历史数据用来学习与预测。
图4为依照本发明实施例的数据筛选方法示意图,如图4所示,首先,获取原始历史数据中包含的业务种类,若判断获知业务种类小于等于第一预设阈值,则遍历所有业务组合,将每一业务组合输入至预设的极限学习机模型,输出测试误差,根据每个测试误差获取有效历史数据,有效历史数据为对应测试误差最小的业务组合,其中,所述第一预设阈值在实际应用中可根据设备的计算能力和实际需要进行设置,此处不做限定。例如,消耗资源池中资源的业务包括网页业务、搜索业务、视频业务和语音业务,其中,网页业务消耗的资源的百分比分别为:存储资源为25%,计算资源为25%;搜索业务消耗的资源的百分比分别为:存储资源为10%,计算资源为60%;视频业务消耗的资源的百分比分别为:存储资源为60%,计算资源为10%;语音业务消耗的资源的百分比分别为:存储资源为5%,计算资源为5%。遍历完所有业务组合,如果搜索业务和视频业务组合对应的测试误差最小,则以搜索业务和视频业务组合作为有效的历史数据,对预设的极限学习机模型进行训练,并预测资源池的利用率。
若判断获知业务种类大于该第一预设阈值,则根据每一业务所消耗的各种资源的百分比,利用遗传算法获取有效历史数据。例如,消耗资源池中资源的业务包括网页业务、搜索业务、视频业务和语音业务,其中,网页业务消耗的资源的百分比分别为:存储资源为25%,计算资源为25%;搜索业务消耗的资源的百分比分别为:存储资源为10%,计算资源为60%;视频业务消耗的资源的百分比分别为:存储资源为60%,计算资源为10%;语音业务消耗的资源的百分比分别为:存储资源为5%,计算资源为5%。
利用遗传算法进行求解,找出对该资源池的利用率影响最大的一组最优业务组合,如果经求解,网页业务、搜索业务和视频业务三种业务的组合对该资源池的利用率影响最大,则以网页业务、搜索业务和视频业务三种业务的组合作为有效的历史数据,对预设的极限学习机模型进行训练,并预测资源池的利用率。
利用遗传算法对最佳业务组合的求解方法如下:首先,初始化种群和参数,然后判断迭代次数是否大于第三预设阈值,若判断获知迭代次数小于等于第三预设阈值,则计算种群适应度,然后选择算子,交叉操作算子,变异操作算子,以此进行迭代,直到迭代次数大于等于第三预设阈值,输出对对该资源池的利用率影响最大的一组最优业务组合。
进一步地,所述将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果之前还包括:
基于所述有效历史数据,获取第一预估业务数据量。
具体的,所述第一预估业务数据量是根据所述有效历史数据认为设定的值,或者是根据所述有效历史数据,取有效历史数据的中值得到。
进一步地,所述将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果之后还包括:
将所述有效历史数据、所述第一预估业务数据量和所述第一预测结果组合成新的历史数据;
将所述新的历史数据和第二预估业务数据量输入至所述最佳极限学习机模型,输出第二预测结果,所述第二预估业务数据量为未来下一个所述预设时间段内的业务数据量,所述第二预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第二预测结果包含未来下一个所述预设时间段内每一业务所消耗的各种资源的百分比。
具体的,通常情况下我们想要预测未来的时间比较长,比如我们想要预测未来100天的资源池的利用率,虽然根据资源池的有效历史数据对预设的极限学习机模型进行训练,获取的多个训练好的极限学习机模型中可能存在预测时长等于100天的模型,但是这种预测时长等于100天的模型的预测参考误差可能会比较大,与期望参考误差相差较大,不能使用该模型进行预测。此时,我们可以选择预测时长等于10天的模型作为最佳极限学习机模型,将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果,所述第一预估业务数据量为未来10天的业务数据量,所述第一预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第一预测结果包含未来10天内每一业务所消耗的各种资源的百分比。
然后,将所述有效历史数据、所述第一预估业务数据量和所述第一预测结果组合成新的历史数据;
将所述新的历史数据和第二预估业务数据量输入至所述最佳极限学习机模型,输出第二预测结果,所述第二预估业务数据量为未来10-20天内的业务数据量,所述第二预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第二预测结果包含未来10-20天内每一业务所消耗的各种资源的百分比。
如此迭代操作,最终得到未来100天的资源池利用率。
本发明提供的基于极限学习机的资源池利用率预测方法,通过历史数据对预设的极限学习机模型进行训练,获得多个训练好的极限学习机模型,选择一个最佳极限学习机模型对资源池的利用率进行预测,从而提高了资源池利用率预测结果的稳定性和准确性,并提高了预测效率。
实施例2:
图5为依照本发明实施例的基于极限学习机的资源池利用率预测装置示意图,如图5所示,本发明实施例提供一种基于极限学习机的资源池利用率预测装置,该装置用于实现上述实例中的方法,具体包括训练模块10、选择模块20和预测模块30,其中,训练模块10用于根据资源池的有效历史数据对预设的极限学习机模型进行训练,获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数;
选择模块20用于根据每个训练好的极限学习机模型中的预测时长和预测参考误差,从多个训练好的极限学习机模型选出一个最佳极限学习机模型,所述最佳极限学习机模型所包含的预测参考误差等于期望参考误差;
预测模块30用于将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果,所述第一预估业务数据量为未来预设时间段内的业务数据量,所述预设时间段的长度为所述最佳极限学习机模型对应的预测时长,所述第一预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述输出预测结果的时间长度等于所述预测时长所述第一预测结果包含未来所述预设时间段内每一业务所消耗的各种资源的百分比。
具体的,在预测之前,训练模块10需要利用资源池的有效历史数据对预设的极限学习机模型进行训练,获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数。其中,有效历史数据为对资源池的利用率的影响较大的历史数据。预设的极限学习机模型中的参数是初始化是的默认的参数。预测时长是指通过训练好的极限学习机模型能够预测未来资源池利用率的时间长度,例如某一训练好的极限学习机模型的预测时长为10天,则该训练好的极限学习机模型能够预测未来10天的资源池的利用率。预测参考误差是指通过训练好的极限学习机模型预测未来资源池利用率的误差,例如某一训练好的极限学习机模型的预测参考误差为2%,则该训练好的极限学习机模型预测未来资源池利用率的误差为2%。
然后,选择模块20根据每个训练好的极限学习机模型中的预测时长和预测参考误差,从多个训练好的极限学习机模型选出一个最佳极限学习机模型。其中,最佳极限学习机模型所包含的预测参考误差等于期望参考误差。在实际应用中,大数据资源池的建设、扩容工作中需要考虑投入、产出比,投入、产出比过高会造成资源的浪费,投入、产出过低又会导致资源利用过饱和,用户体验较差,因此,资源池的利用率的预测结果越准确越好,本发明实施例通过训练获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数,建设者可以期望参考误差与预测参考误差进行对比,选择一个最佳极限学习机模型,最佳极限学习机模型所包含的预测参考误差等于期望参考误差,从而可以根据建设者可接受的投资误差选择相应的建设规模以及有效时长。
最后,预测模块30将有效历史数据和第一预估业务数据量输入至最佳极限学习机模型,输出第一预测结果,所述第一预估业务数据量为未来预设时间段内的业务数据量,所述预设时间段的长度为所述最佳极限学习机模型对应的预测时长,所述第一预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第一预测结果包含未来所述预设时间段内每一业务所消耗的各种资源的百分比。例如,选出的某一最佳极限学习机模型的预测时长为10天,预测参考误差为2%,并预先获取第一预估业务数据量,则将有效历史数据和第一预估业务数据量输入至该最佳极限学习机模型即可预测未来10天的资源池的利用率,预测结果的误差为2%。
进一步地,所述装置还包括:
获取模块,用于获取所述资源池的原始历史数据,所述原始历史数据包括消耗所述资源池中资源的每一业务的数据量和每一业务所消耗的各种资源的百分比;
预处理模块,用于对所述原始历史数据进行滤波处理;
筛选模块,用于对经过滤波处理后的原始历史数据进行筛选,获取有效历史数据。
具体的,首先,需要通过获取模块获取资源池的原始历史数据,原始历史数据包括消耗资源池中资源的所有业务、每一业务的数据量和每一业务所消耗的各种资源的百分比。例如,消耗资源池中资源的业务包括网页业务、搜索业务、视频业务和语音业务,某个时刻,网页业务消耗的资源的百分比分别为:存储资源为25%,计算资源为25%;搜索业务消耗的资源的百分比分别为:存储资源为10%,计算资源为60%;视频业务消耗的资源的百分比分别为:存储资源为60%,计算资源为10%;语音业务消耗的资源的百分比分别为:存储资源为5%,计算资源为5%。并且,获取的原始历史数据应当尽可能详细,例如,现有一个集群,已知其提供一种web服务,那么尽可能详细的统计日均访问量、人均访问时长等业务的数据量。
然后,预处理模块对所述原始历史数据进行滤波处理,此过程主要解决数据格式错乱、数据缺失、采集误差等问题,以便于后续的数据处理和利用。
最后,筛选模块对经过滤波处理后的原始历史数据进行筛选,获取有效历史数据。目的是筛选出对资源池的利用率的影响较大的历史数据,由于从现网中采集的原始历史数据并非都对资源池的利用率有很大的影响,有些历史数据由于数据质量问题甚至对资源池的利用率的预测结果有负面影响,故此需要在原始历史数据中的所有业务中选择出一组业务组合,作为有效历史数据用来学习与预测。
本发明提供的基于极限学习机的资源池利用率预测装置,通过历史数据对预设的极限学习机模型进行训练,获得多个训练好的极限学习机模型,选择一个最佳极限学习机模型对资源池的利用率进行预测,从而提高了资源池利用率预测结果的稳定性和准确性,并提高了预测效率。
实施例3:
图6为本发明实施例提供的用于预测资源池利用率的电子设备的结构示意图,如图6所示,所述设备包括:处理器801、存储器802和总线803;
其中,处理器801和存储器802通过所述总线803完成相互间的通信;
处理器801用于调用存储器802中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:
根据资源池的有效历史数据对预设的极限学习机模型进行训练,获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数;
根据每个训练好的极限学习机模型中的预测时长和预测参考误差,从多个训练好的极限学习机模型选出一个最佳极限学习机模型,所述最佳极限学习机模型所包含的预测参考误差等于期望参考误差;
将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果,所述第一预估业务数据量为未来预设时间段内的业务数据量,所述预设时间段的长度为所述最佳极限学习机模型对应的预测时长,所述第一预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第一预测结果包含未来所述预设时间段内每一业务所消耗的各种资源的百分比。
实施例4:
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
根据资源池的有效历史数据对预设的极限学习机模型进行训练,获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数;
根据每个训练好的极限学习机模型中的预测时长和预测参考误差,从多个训练好的极限学习机模型选出一个最佳极限学习机模型,所述最佳极限学习机模型所包含的预测参考误差等于期望参考误差;
将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果,所述第一预估业务数据量为未来预设时间段内的业务数据量,所述预设时间段的长度为所述最佳极限学习机模型对应的预测时长,所述第一预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第一预测结果包含未来所述预设时间段内每一业务所消耗的各种资源的百分比。
实施例5:
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:
根据资源池的有效历史数据对预设的极限学习机模型进行训练,获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数;
根据每个训练好的极限学习机模型中的预测时长和预测参考误差,从多个训练好的极限学习机模型选出一个最佳极限学习机模型,所述最佳极限学习机模型所包含的预测参考误差等于期望参考误差;
将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果,所述第一预估业务数据量为未来预设时间段内的业务数据量,所述预设时间段的长度为所述最佳极限学习机模型对应的预测时长,所述第一预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第一预测结果包含未来所述预设时间段内每一业务所消耗的各种资源的百分比。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置及设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种基于极限学习机的资源池利用率预测方法,其特征在于,包括:
根据资源池的有效历史数据对预设的极限学习机模型进行训练,获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数;
根据每个训练好的极限学习机模型中的预测时长和预测参考误差,从多个训练好的极限学习机模型选出一个最佳极限学习机模型,所述最佳极限学习机模型所包含的预测参考误差等于期望参考误差;
将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果,所述第一预估业务数据量为未来预设时间段内的业务数据量,所述预设时间段的长度为所述最佳极限学习机模型对应的预测时长,所述第一预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第一预测结果包含未来所述预设时间段内每一业务所消耗的各种资源的百分比。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取所述资源池的原始历史数据,所述原始历史数据包括消耗所述资源池中资源的每一业务的数据量和每一业务所消耗的各种资源的百分比;
对所述原始历史数据进行滤波处理;
对经过滤波处理后的原始历史数据进行筛选,获取有效历史数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始历史数据进行滤波处理,包括:
统一所述原始历史数据的格式;
对统一数据格式后的所述原始历史数据进行敏感值放大;
对放大敏感值后的所述原始历史数据进行数字滤波。
4.根据权利要求2所述的方法,其特征在于,所述对经过滤波处理后的原始历史数据进行筛选,获取有效历史数据,包括:
获取所述原始历史数据中包含的业务种类;
若判断获知所述业务种类小于等于第一预设阈值,则遍历所有业务组合,将每一业务组合输入至所述预设的极限学习机模型,输出测试误差,根据每个测试误差获取有效历史数据,所述有效历史数据为对应测试误差最小的业务组合;
若判断获知所述业务种类大于所述第一预设阈值,则根据每一业务所消耗的各种资源的百分比,利用遗传算法获取有效历史数据。
5.根据权利要求3所述的方法,其特征在于,所述对放大敏感值后的所述原始历史数据进行数字滤波,包括:
对放大敏感值后的所述原始历史数据进行离散时间傅里叶变换处理,取能量占比大于第二预设阈值的谐波组,再进行离散时间傅里叶反变换处理。
6.根据权利要求1所述的方法,其特征在于,所述将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果之前还包括:
基于所述有效历史数据,获取第一预估业务数据量。
7.根据权利要求1所述的方法,其特征在于,所述将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果之后还包括:
将所述有效历史数据、所述第一预估业务数据量和所述第一预测结果组合成新的历史数据;
将所述新的历史数据和第二预估业务数据量输入至所述最佳极限学习机模型,输出第二预测结果,所述第二预估业务数据量为未来下一个所述预设时间段内的业务数据量,所述第二预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述第二预测结果包含未来下一个所述预设时间段内每一业务所消耗的各种资源的百分比。
8.一种基于极限学习机的资源池利用率预测装置,其特征在于,包括:
训练模块,用于根据资源池的有效历史数据对预设的极限学习机模型进行训练,获取多个训练好的极限学习机模型,每个训练好的极限学习机模型至少包含预测时长和预测参考误差两个参数;
选择模块,用于根据每个训练好的极限学习机模型中的预测时长和预测参考误差,从多个训练好的极限学习机模型选出一个最佳极限学习机模型,所述最佳极限学习机模型所包含的预测参考误差等于期望参考误差;
预测模块,用于将所述有效历史数据和第一预估业务数据量输入至所述最佳极限学习机模型,输出第一预测结果,所述第一预估业务数据量为未来预设时间段内的业务数据量,所述预设时间段的长度为所述最佳极限学习机模型对应的预测时长,所述第一预估业务数据量包括消耗所述资源池中资源的每一业务的数据量,所述输出预测结果的时间长度等于所述预测时长所述第一预测结果包含未来所述预设时间段内每一业务所消耗的各种资源的百分比。
9.根据权利要求8所述的装置,其特征在于,还包括:
获取模块,用于获取所述资源池的原始历史数据,所述原始历史数据包括消耗所述资源池中资源的每一业务的数据量和每一业务所消耗的各种资源的百分比;
预处理模块,用于对所述原始历史数据进行滤波处理;
筛选模块,用于对经过滤波处理后的原始历史数据进行筛选,获取有效历史数据。
10.一种用于预测资源池利用率的电子设备,其特征在于,包括:
存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如权利要求1至7任一所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一所述的方法。
CN201711450575.3A 2017-12-27 2017-12-27 一种基于极限学习机的资源池利用率预测方法及装置 Active CN109978172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711450575.3A CN109978172B (zh) 2017-12-27 2017-12-27 一种基于极限学习机的资源池利用率预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711450575.3A CN109978172B (zh) 2017-12-27 2017-12-27 一种基于极限学习机的资源池利用率预测方法及装置

Publications (2)

Publication Number Publication Date
CN109978172A true CN109978172A (zh) 2019-07-05
CN109978172B CN109978172B (zh) 2021-08-06

Family

ID=67071956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711450575.3A Active CN109978172B (zh) 2017-12-27 2017-12-27 一种基于极限学习机的资源池利用率预测方法及装置

Country Status (1)

Country Link
CN (1) CN109978172B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111010735A (zh) * 2019-11-20 2020-04-14 京信通信系统(中国)有限公司 资源配置方法、装置、基站和存储介质
CN113052195A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 测井曲线异常值标注方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160437A (zh) * 2015-09-25 2015-12-16 国网浙江省电力公司 基于极限学习机的负荷模型预测方法
CN105392154A (zh) * 2014-09-05 2016-03-09 中兴通讯股份有限公司 一种资源占用量的预测方法与预测系统
CN105472631A (zh) * 2014-09-02 2016-04-06 中兴通讯股份有限公司 一种业务数据量和/或资源数据量的预测方法及预测系统
CN105897616A (zh) * 2016-05-17 2016-08-24 腾讯科技(深圳)有限公司 一种资源分配的方法及服务器
CN106663224A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 用于机器学习模型评估的交互式界面
US20170185902A1 (en) * 2015-12-29 2017-06-29 Tata Consultancy Services Limited System and method for predicting response time of an enterprise system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663224A (zh) * 2014-06-30 2017-05-10 亚马逊科技公司 用于机器学习模型评估的交互式界面
CN105472631A (zh) * 2014-09-02 2016-04-06 中兴通讯股份有限公司 一种业务数据量和/或资源数据量的预测方法及预测系统
CN105392154A (zh) * 2014-09-05 2016-03-09 中兴通讯股份有限公司 一种资源占用量的预测方法与预测系统
CN105160437A (zh) * 2015-09-25 2015-12-16 国网浙江省电力公司 基于极限学习机的负荷模型预测方法
US20170185902A1 (en) * 2015-12-29 2017-06-29 Tata Consultancy Services Limited System and method for predicting response time of an enterprise system
CN105897616A (zh) * 2016-05-17 2016-08-24 腾讯科技(深圳)有限公司 一种资源分配的方法及服务器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111010735A (zh) * 2019-11-20 2020-04-14 京信通信系统(中国)有限公司 资源配置方法、装置、基站和存储介质
CN113052195A (zh) * 2019-12-27 2021-06-29 北京国双科技有限公司 测井曲线异常值标注方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN109978172B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN108364085B (zh) 一种外卖配送时间预测方法和装置
CN106020715B (zh) 存储池容量管理
US20210133536A1 (en) Load prediction method and apparatus based on neural network
Liu et al. Two-stage approach for reliable dynamic Web service composition
CN106549772A (zh) 资源预测方法、系统和容量管理装置
CN103227999B (zh) 网络流量预测方法和装置
CN107124394A (zh) 一种电力通信网络安全态势预测方法和系统
CN109829818A (zh) 现金需求量预测方法、装置、电子设备及可读存储介质
CN106384197A (zh) 一种基于大数据的业务质量评估方法和装置
CN109741177A (zh) 用户信用的评估方法、装置及智能终端
CN109543726A (zh) 一种训练模型的方法及装置
CN106656662A (zh) 异常带宽确定方法、系统及电子设备
CN109636007A (zh) 一种基于大数据的用水量预测方法及装置
CN107992978A (zh) 一种网贷平台的风险预警方法及相关装置
CN109978172A (zh) 一种基于极限学习机的资源池利用率预测方法及装置
CN112200375A (zh) 预测模型生成方法、预测模型生成装置和计算机可读介质
CN108132840A (zh) 一种分布式系统中的资源调度方法及装置
CN115422788A (zh) 一种配电网线损分析管理方法、装置、存储介质及系统
CN115185804A (zh) 服务器性能预测方法、系统、终端及存储介质
CN103034733A (zh) 一种用于呼叫中心的数据监控统计方法
CN114595970A (zh) 资源调度智能决策方法、装置、电子设备及存储介质
CN110191015A (zh) 基于cpi指标的云服务性能智能预测方法和装置
CN111209105A (zh) 扩容处理方法、装置、设备及可读存储介质
CN108256694A (zh) 基于重复遗传算法的模糊时间序列预测系统、方法及装置
CN112446593A (zh) 一种lstm神经网络的短期负荷预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant