CN117331705B - 一种基于大数据的数据预测分析方法及系统 - Google Patents
一种基于大数据的数据预测分析方法及系统 Download PDFInfo
- Publication number
- CN117331705B CN117331705B CN202311630137.0A CN202311630137A CN117331705B CN 117331705 B CN117331705 B CN 117331705B CN 202311630137 A CN202311630137 A CN 202311630137A CN 117331705 B CN117331705 B CN 117331705B
- Authority
- CN
- China
- Prior art keywords
- time period
- data
- type
- load data
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 53
- 238000009499 grossing Methods 0.000 claims abstract description 106
- 238000000034 method Methods 0.000 claims abstract description 61
- 239000006185 dispersion Substances 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据预测技术领域,具体涉及一种基于大数据的数据预测分析方法及系统。本发明将历史时间段划分为子时间段,根据子时间段内每个时刻的邻域时间段与当前时间段内相同时刻下同一类负载数据的实际数据值之间的差异,获取当前时间段在每类负载数据下的匹配时间段;获取目标时刻对应的匹配时间段在每类负载数据下的优选平滑因子,基于当前时间段在同一类负载数据下的匹配时间段的优选平滑因子,对当前时刻的下一时刻在每类负载数据下的数据值进行预测。本发明利用历史时间段内与当前时间段内数据相似的时间段的平滑因子对后续时刻的数据进行预测,提高对服务器负载情况预测的准确性。
Description
技术领域
本发明涉及数据预测技术领域,具体涉及一种基于大数据的数据预测分析方法及系统。
背景技术
数据中心的各个服务器负载过高,可能导致用户侧无法加载或者加载缓慢,严重情况下甚至导致整个系统产生雪崩。因此,对服务器的负载情况进行预测并进行维护非常重要。
现有技术中常用指数加权移动平均(Exponentially Weighted Moving-Average,EWMA)法对服务器的负载情况进行预测,在对数据进行预测时,通常利用预先设定数值的平滑因子对数据进行预测,当平滑因子的数值设置不合适时,使预测数据出现误差,进而导致对服务器负载情况进行预测的准确性较低。
发明内容
为了解决指数加权移动平均法中平滑因子的数值选取不合适,导致对服务器负载情况预测不准确的技术问题,本发明的目的在于提供一种基于大数据的数据预测分析方法及系统,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种基于大数据的数据预测分析方法,该方法包括:
将当前时刻之前预设第一时长的时间段作为当前时间段;获取数据中心服务器在历史时间段与当前时间段内每个时刻下至少两类负载数据的实际数据值;
根据历史时间段内每个时刻与其邻近时刻下同一类负载数据的实际数据值之间差异,将历史时间段划分为至少两个子时间段;
将每个时刻之前预设第一时长的时间段作为每个时刻的邻域时间段;依据每个子时间段内每个时刻的邻域时间段与当前时间段内相同时刻下同一类负载数据的实际数据值之间的差异,从每个子时间段内获取当前时间段在每类负载数据下的匹配时间段;
预设至少两个平滑因子;将当前时间段在每类负载数据下的每个匹配时间段终点时刻的下一时刻作为每类负载数据下的目标时刻,根据获取的每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测数据值与实际数据值之间的差异,从平滑因子中筛选出每类负载数据下的目标时刻对应的匹配时间段在每类负载数据下的优选平滑因子;
基于当前时间段在同一类负载数据下的匹配时间段的优选平滑因子,利用指数加权移动平均法对当前时刻的下一时刻在每类负载数据下的数据值进行预测。
进一步地,所述将历史时间段划分为至少两个子时间段的方法,包括:
选取历史时间段内任意一个时刻作为分析时刻,将分析时刻与其邻近时刻下同一类负载数据的实际数据值的标准差作为分析时刻下每类负载数据的初始离散度;将分析时刻下所有负载数据的初始离散度的均值作为分析时刻的综合离散度;
当分析时刻的邻近时刻的综合离散度均小于分析时刻的所述综合离散度时,将分析时刻作为分段时刻;
将历史时间段内相邻两个分段时刻之间的时间段作为子时间段。
进一步地,所述从每个子时间段内获取当前时间段在每类负载数据下的匹配时间段的方法,包括:
将每个时刻与其下一时刻下同一类负载数据的实际数据值之间差值作为每个时刻下每类负载数据的数据差;
对于历史时间段的每个子时间段,根据子时间段内每个时刻的邻域时间段分别与当前时间段内相同时刻下同一类负载数据的数据差之间的差异,获取子时间段内每个时刻的邻域时间段与当前时间段在每类负载数据下的相似度;
将子时间段内与当前时间段在每类负载数据下的相似度最大的邻域时间段,作为当前时间段在每类负载数据下的匹配时间段。
进一步地,所述子时间段内每个时刻的邻域时间段与当前时间段在每类负载数据下的相似度的计算公式如下:
;式中,/>为每个子时间段内每个时刻的邻域时间段与当前时间段在第j类负载数据下的所述相似度;/>为每个子时间段内每个时刻的邻域时间段内第k个时刻下第j类负载数据的所述数据差;为当前时间段内第k个时刻下第j类负载数据的所述数据差;K为邻域时间段内时刻的数量;exp为以自然常数e为底数的指数函数;Norm为归一化函数。
进一步地,所述每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测数据值的获取方法,包括:
对于每类负载数据下的每个目标时刻,基于每类负载数据下的目标时刻的所述邻域时间段内所有时刻下每类负载数据的实际数据值,利用指数加权移动平均法对每类负载数据下的目标时刻下每类负载数据的数据值进行预测,得到每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测数据值。
进一步地,所述从平滑因子中筛选出每类负载数据下的目标时刻对应的匹配时间段在每类负载数据下的优选平滑因子的方法,包括:
对于每类负载数据下的每个目标时刻,将每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测数据值与实际数据值之间差值的平方,作为每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测偏差值;
在每类负载数据下的目标时刻下每类负载数据在所有平滑因子下的预测偏差值中,将最小的所述预测偏差值对应的平滑因子,作为每类负载数据下目标时刻对应的匹配时间段在每类负载数据下的优选平滑因子。
进一步地,所述基于当前时间段在同一类负载数据下的匹配时间段的优选平滑因子,利用指数加权移动平均法对当前时刻的下一时刻在每类负载数据下的数据值进行预测的方法,包括:
根据当前时间段分别与其在每类负载数据下的匹配时间段在每类负载数据下的所述相似度,以及该匹配时间段在每类负载数据下的所述优选平滑因子,获取当前时间段在每类负载数据下的最终平滑因子;
结合当前时间段内所有时刻在同一类负载数据下的实际数据值,以及每类负载数据下的最终平滑因子,利用指数加权移动平均法对当前时刻的下一时刻在每类负载数据的数据值进行预测。
进一步地,所述当前时间段在每类负载数据下的最终平滑因子的计算公式如下:
;式中,/>为当前时间段在第j类负载数据下的所述最终平滑因子;r为子时间段的数量;/>为当前时间段在第j类负载数据下的第r个匹配时间段在第j类负载数据下的优选平滑因子;/>为当前时间段;/>为当前时间段在第j类负载数据下的匹配时间段;/>为当前时间段与其在第j类负载数据下的匹配时间段在每类负载数据下的所述相似度。
进一步地,所述子时间段的时长大于预设第一时长。
第二方面,本发明另一个实施例提供了一种基于大数据的数据预测分析系统,该系统包括:存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序,处理器执行所述计算机程序时,实现上述任意一项方法的步骤。
本发明具有如下有益效果:
在本发明实施例中,本发明选用指数加权移动平均法对后续时刻的数据值进行预测,则获取当前时间段与每个时刻的邻域时间段;由于同一时刻下负载数据存在相关性,将较为相似的负载数据放一块分析能提高后续分析的准确性,每个时刻的邻近时刻下同一类负载数据的实际数据值之间的差异反映数据的相关情况,据此将历史时间段划分为子时间段;本发明利用历史时间段内,与当前时间段内数据较为相似的时间段内时刻的数据在平滑因子下的拟合情况,对当前时刻的下一时刻的数据值进行预测;当前时间段与邻域时间段内同一类负载数据的实际数据值之间的差异反映当前时间段与邻域时间段的相似情况,据此从子时间段内获取当前时间段在每类负载数据下的匹配时间段;目标时刻下同一类负载数据在每个平滑因子下的预测数据值与实际数据值之间的差异,呈现匹配时间段内数据在平滑因子下的拟合情况,从而选取匹配时间段在每类负载数据下的优选平滑因子;进而当前时间段在同一类负载数据下的匹配时间段的优选平滑因子,自适应获取对目标时刻的下一时刻在每类负载数据进行预测的平滑因子,更加适合对当前时刻之后的时刻的负载数据进行预测,降低预测数据出现误差的可能,提高对服务器负载情况进行预测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于大数据的数据预测分析方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的数据预测分析方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明所针对的具体场景:利用数据中心服务器自身检测系统以及传感器获取数据,根据数据中心多个服务器设备运行过程中的负载数据,利用EWMA算法在调整平滑系数之后,预测其后续数据变化。
下面结合附图具体的说明本发明所提供的一种基于大数据的数据预测分析方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于大数据的数据预测分析方法的步骤流程图,该方法包括:
步骤S1:将当前时刻之前预设第一时长的时间段作为当前时间段;获取数据中心服务器在历史时间段与当前时间段内每个时刻下至少两类负载数据的实际数据值。
具体的,将当前时刻之前预设第一时长的时间段作为当前时间段;采集数据中心的单个服务器在历史时间段与当前时间段内每个时刻下的至少两类负载数据的实际数据值,负载数据的类型包括:CPU利用率、内存利用率、磁盘I/O、网络流量与电力消耗量。
本发明实施例中历史时间段内最后一个时刻位于当前时刻之前,历史时间段的时长取经验值10分钟,预设第一时长取经验值10秒,对负载数据的数据值进行采样的时间间隔为1秒/次,实施者可根据具体情况自行设置。
步骤S2:根据历史时间段内每个时刻与其邻近时刻下同一类负载数据的实际数据值之间差异,将历史时间段划分为至少两个子时间段。
由于相同时刻下多类负载数据存在一定相关性,则将较为接近的负载数据放在一块分析能提高后续分析的准确性;每个时刻与其邻近时刻下同一类负载数据的实际数据值之间的差异,反映每个时刻邻域下负载数据的离散程度,据此将历史时间段划分子时间段。
优选地,将历史时间段划分为子时间段的具体方法为:选取历史时间段内任意一个时刻作为分析时刻,将分析时刻与其邻近时刻下同一类负载数据的实际数据值的标准差作为分析时刻下每类负载数据的初始离散度;将分析时刻下所有类负载数据的初始离散度的均值作为分析时刻的综合离散度;当分析时刻的邻近时刻的综合离散度均小于分析时刻的综合离散度时,将分析时刻作为分段时刻;将历史时间段内相邻两个分段时刻之间的时间段作为子时间段。
在历史时间段内,将与分析时刻之间时间间隔小于或者等于预设第二时长的时刻作为分析时刻的邻近时刻。以历史时间段内第a个时刻为例进行分析,v为预设第二时长内时刻的数量,历史时间段内第a-v个时刻为/>,历史时间段内第a+v个时刻为/>,/>与/>之间的时间间隔、/>与/>之间的时间间隔均等于预设第二时长,则将/>与/>,以及两个时刻之间除/>外的时刻作为/>的邻近时刻。需要注意的是,历史时间段的时长大于两倍的预设第二时长。
本发明实施例中预设第二时长取经验值5秒,由于数据采样间隔为1秒/次,则预设第二时长内有5个时刻,即v=5,实施者可根据具体情况自行设置。
当每个时刻的邻近时刻下同一类负载数据的实际数据值之间的差异越大时,则每个时刻的综合离散度越大。历史时间段内与/>均没有邻域时刻,即这些时刻没有的综合离散度,其中,/>为历史时间段内第1个时刻,/>为历史时间段内最后一个时刻,以此类推。
当的邻域时刻的综合离散度均小于/>的综合离散度时,说明/>邻域范围内每类负载数据的实际数据值分布较为离散,/>邻域范围内负载数据的实际数据值出现较大的波动,将/>作为分段时刻。根据上述方法,获取历史时间段内所有的分段时刻。
将历史时间段内相邻的两个分段时刻之间的时间段作为子时间段,在一定程度上保证同一子时间段内时刻下每类负载数据的实际数据值的稳定性,以便后续分析。
需要注意的是,子时间段的时长大于预设第一时长。
步骤S3:将每个时刻之前预设第一时长的时间段作为每个时刻的邻域时间段;依据每个子时间段内每个时刻的邻域时间段与当前时间段内相同时刻下同一类负载数据的实际数据值之间的差异,从每个子时间段内获取当前时间段在每类负载数据下的匹配时间段。
由于本发明选用指数加权移动平均法对负载数据的数据值进行预测,指数加权移动平均法利用一段时间段内所有时刻下的数据值对后续的时刻的数据值进行预测,因此,将每个时刻之前预设第一时长的时间段作为每个时刻的邻域时间段。需要说明的是,每个时刻为其邻域时间段内最后一个时刻。
其中,指数加权移动平均法为本领域技术人员公知技术,在此不再赘述。
在利用指数加权移动平均法进行预测时,不同平滑因子对应不同的预测结果,本发明考虑利用历史数据中相似度较高的数据段进行平滑因子拟合,则在历史时间段中获取当前时间段在每类负载数据下的匹配时间段。
优选地,当前时间段在每类负载数据下的匹配时间段的具体获取方法为:将每个时刻与其下一时刻下同一类负载数据的实际数据值之间差值作为每个时刻下每类负载数据的数据差;对于历史时间段的每个子时间段,根据子时间段内每个时刻的邻域时间段分别与当前时间段内相同时刻下同一类负载数据的数据差之间的差异,获取子时间段内每个时刻的邻域时间段与当前时间段在每类负载数据下的相似度;将子时间段内与当前时间段在每类负载数据下的相似度最大的邻域时间段,作为当前时间段在每类负载数据下的匹配时间段。
需要说明的是,历史时间段的每个子时间段内开始时刻之后预设第一时长的时间段内的所有时刻没有对应的邻域时间段;历史时间段的每个子时间段内最后一个时刻下每类负载数据没有数据差。
根据子时间段内每个时刻的邻域时间段分别与当前时间段内相同时刻下同一类负载数据的数据差之间的差异,获取子时间段内每个时刻的邻域时间段分别与当前时间段在每类负载数据下的相似度;相似度的计算公式如下:
式中,为每个子时间段内每个时刻的邻域时间段与当前时间段在第j类负载数据下的相似度;/>为每个子时间段内每个时刻的邻域时间段内第k个时刻下第j类负载数据的数据差;/>为当前时间段内第k个时刻下第j类负载数据的数据差;K为邻域时间段内时刻的数量;exp为以自然常数e为底数的指数函数;Norm为归一化函数。
需要说明的是,当每个时刻的邻域时间段与当前时间段内相同时刻下同一类负载数据的实际数据值之间差异越小,即当越小时,每个时刻的邻域时间段与当前时间段在同一类负载数据的数据值之间的相似程度越大,则相似度/>越大。
作为一个示例,对于每个子时间段,子时间段内每个时刻的邻域时间段与当前时间段在第一类负载数据下均存在相似度,将最大的相似度对应的邻域时间段作为当前时间段在第一类负载数据下的匹配时间段。根据上述方法,获取当前时间段在每类负载数据下的匹配时间段。当前时间段在第一类负载数据下的匹配时间段的数量等于子时间段的数量。
步骤S4:预设至少两个平滑因子;将当前时间段在每类负载数据下的每个匹配时间段终点时刻的下一时刻作为每类负载数据下的目标时刻,根据获取的每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测数据值与实际数据值之间的差异,从平滑因子中筛选出每类负载数据下的目标时刻对应的匹配时间段在每类负载数据下的优选平滑因子。
具体的,由于指数加权移动平均法的平滑因子的取值范围为,则从/>内选取数值作为平滑因子,本发明实施例中选取的平滑因子包括:。
本发明利用历史时间段内与当前时间段较为相似的时间段内时刻的数据值对该时间段之后时刻的数据值进行预测,基于预测值与实际的数据值之间的差异调整平滑因子,以达到最优的拟合结果。
将当前时间段在每类负载数据下的每个匹配时间段对应时刻的下一时刻作为每类负载数据下的目标时刻,每类负载数据下的目标时刻的数量等于当前时间段在每类负载数据下的匹配时间段的数量。需要说明的是,匹配时间段对应时刻为该匹配时间段内最后一个时刻。
对目标时刻下每类负载数据在每个平滑因子下的数据值进行预测的方法为:对于每类负载数据下的每个目标时刻,基于每类负载数据下的目标时刻的邻域时间段内所有时刻下每类负载数据的实际数据值,利用指数加权移动平均法对每类负载数据下的目标时刻下每类负载数据的数据值进行预测,得到每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测数据值。
目标时刻下同一类负载数据下的预测数据值与实际数据值之间的差异反映获取预测数据值过程中利用的平滑因子的拟合结果,据此获取目标时刻对应的匹配时间段在每类负载数据下的优选平滑因子。
优选地,优选平滑因子的获取方法为:对于每类负载数据下的每个目标时刻,将每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测数据值与实际数据值之间差值的平方,作为每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测偏差值;在每类负载数据下的目标时刻下每类负载数据在所有平滑因子下的预测偏差值中,将最小的预测偏差值对应的平滑因子,作为每类负载数据下目标时刻对应的匹配时间段在每类负载数据下的优选平滑因子。
作为一个示例,对于第一类负载数据下的第一个目标时刻,获取/>下第一类负载数据在每个平滑因子下的预测数据值。/>下第一类负载数据的预测数据值的数量等于平滑因子的数量。根据/>下第一类负载数据在每个平滑因子下的预测偏差值与/>下第一类负载数据的实际数据值之间的差异,获取/>下第一类负载数据在每个平滑因子下的预测偏差值。
每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测偏差值的计算公式如下:
式中,为第j类负载数据下的目标时刻下第j类负载数据在第f个平滑因子下的预测偏差值;/>为第j类负载数据下的目标时刻下第j类负载数据在第f个平滑因子下的预测数据值;/>为第j类负载数据下的目标时刻下第j类负载数据的实际数据值。
当目标时刻下同一类负载数据在每个平滑因子下的预测数据值与实际预测值之间的差异越大时,则预测偏差值越大,说明目标时刻下每类负载数据在当前的平滑因子下预测数据值出现的误差越大。
获取下第一类负载数据在每个平滑因子下的预测偏差值,将最小的预测偏差值对应的平滑因子作为/>对应的匹配时间段在第一类负载数据下的优选平滑因子。根据上述方法,获取每类负载数据下的每个目标时刻对应的匹配时间段在每类负载数据下的优选平滑因子。
步骤S5:基于当前时间段在同一类负载数据下的匹配时间段的优选平滑因子,利用指数加权移动平均法对当前时刻的下一时刻在每类负载数据下的数据值进行预测。
根据当前时间段分别与其在每类负载数据下的匹配时间段在每类负载数据下的相似度,以及该匹配时间段在每类负载数据下的优选平滑因子,获取当前时间段在每类负载数据下的最终平滑因子。
作为一个示例,目标时刻对应的匹配时间段为目标时刻/>的前一时刻的邻域时间段/>,/>为当前时间段在第一类负载数据下的第一个匹配时间段,该匹配时间段位于历史时间段的第一个子时间段内。根据当前时间段分别与其第一类负载数据下的匹配时间段在第一类负载数据下的相似度,以及该匹配时间段在第一类负载数据下的优选平滑因子,获取当前时间段在第一类负载数据下的最终平滑因子。根据上述方法,获取当前时间段在每类负载数据下的最终平滑因子。
当前时间段在每类负载数据下的最终平滑因子的计算公式如下:
式中,为当前时间段在第j类负载数据下的最终平滑因子;r为子时间段的数量;/>为当前时间段在第j类负载数据下的第r个匹配时间段在第j类负载数据下的优选平滑因子;/>为当前时间段;/>为当前时间段在第j类负载数据下的匹配时间段;为当前时间段与其在第j类负载数据下的匹配时间段在每类负载数据下的相似度。
当越大时,说明匹配时间段与当前时间段内同一类负载数据的实际数据值越相似,则该匹配时间段在每类负载数据下优选平滑因子拟合的误差越小,赋予该优选平滑因子越大的权重,使最终平滑因子拟合的数据值更加准确。
结合当前时间段内所有时刻在同一类负载数据下的实际数据值,以及每类负载数据下的最终平滑因子,利用指数加权移动平均法对当前时刻的下一时刻在每类负载数据的数据值进行预测。
至此,本发明完成。
综上所述,本发明实施例中,将历史时间段划分为子时间段,根据子时间段内每个时刻的邻域时间段与当前时间段内相同时刻下同一类负载数据的实际数据值之间的差异,获取当前时间段在每类负载数据下的匹配时间段;获取目标时刻对应的匹配时间段在每类负载数据下的优选平滑因子,基于当前时间段在同一类负载数据下的匹配时间段的优选平滑因子,对当前时刻的下一时刻在每类负载数据下的数据值进行预测。本发明利用历史时间段内与当前时间段内数据相似的时间段的平滑因子对后续时刻的数据进行预测,提高对服务器负载情况预测的准确性。
基于与上述方法实施例相同的发明构思,本发明实施例还提供了一种基于大数据的数据预测分析系统,该系统包括:存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序,处理器执行所述计算机程序时,实现上述一种基于大数据的数据预测分析方法实施例中的步骤,例如图1所示的步骤。该一种基于大数据的数据预测分析方法在上述实施例中已经详细说明,不再赘述。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于大数据的数据预测分析方法,其特征在于,该方法包括:
将当前时刻之前预设第一时长的时间段作为当前时间段;获取数据中心服务器在历史时间段与当前时间段内每个时刻下至少两类负载数据的实际数据值;
根据历史时间段内每个时刻与其邻近时刻下同一类负载数据的实际数据值之间差异,将历史时间段划分为至少两个子时间段;
将每个时刻之前预设第一时长的时间段作为每个时刻的邻域时间段;依据每个子时间段内每个时刻的邻域时间段与当前时间段内相同时刻下同一类负载数据的实际数据值之间的差异,从每个子时间段内获取当前时间段在每类负载数据下的匹配时间段;
预设至少两个平滑因子;将当前时间段在每类负载数据下的每个匹配时间段终点时刻的下一时刻作为每类负载数据下的目标时刻,根据获取的每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测数据值与实际数据值之间的差异,从平滑因子中筛选出每类负载数据下的目标时刻对应的匹配时间段在每类负载数据下的优选平滑因子;
基于当前时间段在同一类负载数据下的匹配时间段的优选平滑因子,利用指数加权移动平均法对当前时刻的下一时刻在每类负载数据下的数据值进行预测;
所述将历史时间段划分为至少两个子时间段的方法,包括:
选取历史时间段内任意一个时刻作为分析时刻,将分析时刻与其邻近时刻下同一类负载数据的实际数据值的标准差作为分析时刻下每类负载数据的初始离散度;将分析时刻下所有负载数据的初始离散度的均值作为分析时刻的综合离散度;
当分析时刻的邻近时刻的综合离散度均小于分析时刻的所述综合离散度时,将分析时刻作为分段时刻;
将历史时间段内相邻两个分段时刻之间的时间段作为子时间段;
所述从平滑因子中筛选出每类负载数据下的目标时刻对应的匹配时间段在每类负载数据下的优选平滑因子的方法,包括:
对于每类负载数据下的每个目标时刻,将每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测数据值与实际数据值之间差值的平方,作为每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测偏差值;
在每类负载数据下的目标时刻下每类负载数据在所有平滑因子下的预测偏差值中,将最小的所述预测偏差值对应的平滑因子,作为每类负载数据下目标时刻对应的匹配时间段在每类负载数据下的优选平滑因子。
2.根据权利要求1所述的一种基于大数据的数据预测分析方法,其特征在于,所述从每个子时间段内获取当前时间段在每类负载数据下的匹配时间段的方法,包括:
将每个时刻与其下一时刻下同一类负载数据的实际数据值之间差值作为每个时刻下每类负载数据的数据差;
对于历史时间段的每个子时间段,根据子时间段内每个时刻的邻域时间段分别与当前时间段内相同时刻下同一类负载数据的数据差之间的差异,获取子时间段内每个时刻的邻域时间段与当前时间段在每类负载数据下的相似度;
将子时间段内与当前时间段在每类负载数据下的相似度最大的邻域时间段,作为当前时间段在每类负载数据下的匹配时间段。
3.根据权利要求2所述的一种基于大数据的数据预测分析方法,其特征在于,所述子时间段内每个时刻的邻域时间段与当前时间段在每类负载数据下的相似度的计算公式如下:
;式中,/>为每个子时间段内每个时刻的邻域时间段与当前时间段在第j类负载数据下的所述相似度;/>为每个子时间段内每个时刻的邻域时间段内第k个时刻下第j类负载数据的所述数据差;/>为当前时间段内第k个时刻下第j类负载数据的所述数据差;K为邻域时间段内时刻的数量;exp为以自然常数e为底数的指数函数;Norm为归一化函数。
4.根据权利要求1所述的一种基于大数据的数据预测分析方法,其特征在于,所述每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测数据值的获取方法,包括:
对于每类负载数据下的每个目标时刻,基于每类负载数据下的目标时刻的所述邻域时间段内所有时刻下每类负载数据的实际数据值,利用指数加权移动平均法对每类负载数据下的目标时刻下每类负载数据的数据值进行预测,得到每类负载数据下的目标时刻下每类负载数据在每个平滑因子下的预测数据值。
5.根据权利要求2所述的一种基于大数据的数据预测分析方法,其特征在于,所述基于当前时间段在同一类负载数据下的匹配时间段的优选平滑因子,利用指数加权移动平均法对当前时刻的下一时刻在每类负载数据下的数据值进行预测的方法,包括:
根据当前时间段分别与其在每类负载数据下的匹配时间段在每类负载数据下的所述相似度,以及该匹配时间段在每类负载数据下的所述优选平滑因子,获取当前时间段在每类负载数据下的最终平滑因子;
结合当前时间段内所有时刻在同一类负载数据下的实际数据值,以及每类负载数据下的最终平滑因子,利用指数加权移动平均法对当前时刻的下一时刻在每类负载数据的数据值进行预测。
6.根据权利要求5所述的一种基于大数据的数据预测分析方法,其特征在于,所述当前时间段在每类负载数据下的最终平滑因子的计算公式如下:
;式中,/>为当前时间段在第j类负载数据下的所述最终平滑因子;r为子时间段的数量;/>为当前时间段在第j类负载数据下的第r个匹配时间段在第j类负载数据下的优选平滑因子;/>为当前时间段;/>为当前时间段在第j类负载数据下的匹配时间段;/>为当前时间段与其在第j类负载数据下的匹配时间段在每类负载数据下的所述相似度。
7.根据权利要求1所述的一种基于大数据的数据预测分析方法,其特征在于,所述子时间段的时长大于预设第一时长。
8.一种基于大数据的数据预测分析系统,其特征在于,该系统包括:存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序,处理器执行所述计算机程序时,实现上述权利要求1-7任意一项所述一种基于大数据的数据预测分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311630137.0A CN117331705B (zh) | 2023-12-01 | 2023-12-01 | 一种基于大数据的数据预测分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311630137.0A CN117331705B (zh) | 2023-12-01 | 2023-12-01 | 一种基于大数据的数据预测分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117331705A CN117331705A (zh) | 2024-01-02 |
CN117331705B true CN117331705B (zh) | 2024-03-29 |
Family
ID=89279739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311630137.0A Active CN117331705B (zh) | 2023-12-01 | 2023-12-01 | 一种基于大数据的数据预测分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117331705B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118368301A (zh) * | 2024-04-19 | 2024-07-19 | 西安尚科智能科技有限责任公司 | 一种用于物联网的智慧城市能源管理系统 |
CN118396182A (zh) * | 2024-05-22 | 2024-07-26 | 深圳市辰锋建设工程有限公司 | 基于排水流量监测数据的排水效能智能调控方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912436A (zh) * | 2015-09-17 | 2016-08-31 | 乐视网信息技术(北京)股份有限公司 | 基于指数平滑预测的系统计算资源预测方法及装置 |
CN114282704A (zh) * | 2021-11-15 | 2022-04-05 | 深圳供电局有限公司 | 充电站充电负荷预测方法、装置、计算机设备和存储介质 |
CN116307028A (zh) * | 2022-11-28 | 2023-06-23 | 国网辽宁省电力有限公司沈阳供电公司 | 一种基于改进决策树的短期电力负荷预测方法及系统 |
EP4235481A1 (de) * | 2022-02-25 | 2023-08-30 | Siemens Aktiengesellschaft | Verfahren zum erstellen eines lastprofils |
CN116740946A (zh) * | 2023-08-14 | 2023-09-12 | 山东华夏高科信息股份有限公司 | 一种公路车流量大数据分析处理方法 |
-
2023
- 2023-12-01 CN CN202311630137.0A patent/CN117331705B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912436A (zh) * | 2015-09-17 | 2016-08-31 | 乐视网信息技术(北京)股份有限公司 | 基于指数平滑预测的系统计算资源预测方法及装置 |
CN114282704A (zh) * | 2021-11-15 | 2022-04-05 | 深圳供电局有限公司 | 充电站充电负荷预测方法、装置、计算机设备和存储介质 |
EP4235481A1 (de) * | 2022-02-25 | 2023-08-30 | Siemens Aktiengesellschaft | Verfahren zum erstellen eines lastprofils |
CN116307028A (zh) * | 2022-11-28 | 2023-06-23 | 国网辽宁省电力有限公司沈阳供电公司 | 一种基于改进决策树的短期电力负荷预测方法及系统 |
CN116740946A (zh) * | 2023-08-14 | 2023-09-12 | 山东华夏高科信息股份有限公司 | 一种公路车流量大数据分析处理方法 |
Non-Patent Citations (1)
Title |
---|
基于时序卷积网络的云服务器性能预测模型;廖恩红 等;《华南师范大学学报(自然科学版)》;20200831;第52卷(第4期);第107-113页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117331705A (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117331705B (zh) | 一种基于大数据的数据预测分析方法及系统 | |
CN108416695B (zh) | 基于深度学习的电力负荷概率密度预测方法和系统、介质 | |
WO2021129086A1 (zh) | 流量预测方法、装置以及存储介质 | |
CN106651089A (zh) | 生产调度问题的分布集鲁棒模型的建模及优化求解方法 | |
CN106980910B (zh) | 中长期电力负荷测算系统及方法 | |
CN111382906B (zh) | 一种电力负荷预测方法、系统、设备和计算机可读存储介质 | |
CN117559448B (zh) | 一种用于专变采集终端的用电负荷预测分析方法及系统 | |
CN111861023A (zh) | 基于统计学的混合风电功率预测方法、装置 | |
CN116418882B (zh) | 基于hplc双模载波通信的存储器数据压缩方法 | |
CN110689183A (zh) | 一种集群光伏功率概率预测方法、系统、介质及电子设备 | |
CN113887819A (zh) | 一种河口枯水期的咸潮预报方法及预报设备 | |
CN117590268A (zh) | 电池储能系统状态评估方法 | |
CN110222840B (zh) | 一种基于注意力机制的集群资源预测方法和装置 | |
CN117743965B (zh) | 基于机器学习的数据中心能效优化方法及系统 | |
CN117973899A (zh) | 基于大数据的土地开发与经营信息智能管理系统 | |
CN111323847A (zh) | 用于为模拟集成算法确定权重比的方法和设备 | |
CN111091243A (zh) | 基于pca-gm的电力负荷预测方法、系统、计算机可读存储介质和计算设备 | |
US20230161653A1 (en) | Method of managing system health | |
CN111310121A (zh) | 一种新能源出力概率预测方法和系统 | |
CN116226639A (zh) | 一种涡轮泵轴承故障诊断方法、装置、设备及介质 | |
CN112187894B (zh) | 一种基于负载相关性预测的容器动态调度方法 | |
CN114356906A (zh) | 基于延迟嵌入分析的建筑动态时序数据重构方法及系统 | |
CN113537575A (zh) | 一种含分布式光伏和电动汽车并网的趋势负荷预测方法 | |
CN114898152B (zh) | 嵌入式弹性自扩展通用学习系统 | |
CN117292530B (zh) | 一种载波通信数据采集效率优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |