CN115310650A - 一种低复杂度高精度的时序多步预测方法及系统 - Google Patents

一种低复杂度高精度的时序多步预测方法及系统 Download PDF

Info

Publication number
CN115310650A
CN115310650A CN202210468921.5A CN202210468921A CN115310650A CN 115310650 A CN115310650 A CN 115310650A CN 202210468921 A CN202210468921 A CN 202210468921A CN 115310650 A CN115310650 A CN 115310650A
Authority
CN
China
Prior art keywords
data set
dimensional
sequence
data
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210468921.5A
Other languages
English (en)
Inventor
薛佩姣
何诚
田富龙
徐潇轶
谭峰
宋海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dingmao Information Technology Co ltd
Original Assignee
Shanghai Dingmao Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dingmao Information Technology Co ltd filed Critical Shanghai Dingmao Information Technology Co ltd
Priority to CN202210468921.5A priority Critical patent/CN115310650A/zh
Publication of CN115310650A publication Critical patent/CN115310650A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种低复杂度高精度的时序多步预测方法及系统,包括以下步骤:获取历史预设时间段内的单维或者多维时间序列,构成数据集;对所述数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系;提取监督构造后所述数据集内的不同类别的特征;融合提取所述数据集内的特征,根据融合结果生成所述数据集具有判别的特征;本发明的有益效果为:通过对获取的历史数据集进行监督构造,然后再提取和融合监督构造后数据集内的不同类别的特征,然后根据数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的单维或者多维时间序列,本发明通过改进多步预测策略,降低了模型复杂度和累积误差。

Description

一种低复杂度高精度的时序多步预测方法及系统
技术领域
本发明涉及时序预测技术领域,特别是涉及一种低复杂度高精度的时序多步预测方法及系统。
背景技术
时序预测是指根据历史统计数据的时间序列,对未来的变化趋势进行预测分析,现实生活中有许多应用时序预测的领域,例如:销售预测、呼叫中心的通话量、太阳的活动、海潮、股市行为等等,在智能运维领域,时序数据的数量和种类更加丰富,时序指标的预测也显得尤其重要,例如:预测单个基础监控资源指标、磁盘占用率、预测何时达到警戒线、提前预警防止系统运行缓慢或事故、或预测单个业务指标、银行跑批时长,为动态调动资源决策提供有效依据;目前的多步预测仍然是一个开放的挑战,传统的机器学习算法无法正常处理多输出问题,需采取直接多步或迭代多步的策略进行多步预测,但模型量大计算耗时或存在累积误差,而深度学习可以直接输出多步预测值,但预测精度将随着预测步数的增加而降低;
论文《提高风电功率预测效果的改进多步法和风速出力折算》提出了直接多步预测策略,采用最小二乘支持向量回归、广义回归神经网络和随机森林等模型多步预测风电功率,该策略缺点在于:预测N步即需构建N个模型,当预测步数较多时,计算耗时且计算量大;论文《基于机器学习的供热系统热负荷多步递归预测》提出了递归多步预测策略,采用极限梯度提升方法构建了单步预测模型,再采用递归策略对供热系统短期热负荷进行多步预测,该策略仅需构建1个模型,但使用预测值代替真实值进行迭代,预测误差将累积增加,直接预测法使用的滞后特征信息少,导致方差较大,递归预测法误差累积,导致偏差较大;论文《Recursive and Direct Multi-Step Forecasting:The Best of Both Worlds》提出了直接+递归混合的多步预测策略,以平衡方差和偏差,该策略相比单独的直接策略和多步策略,平衡了方差和偏差,但也同样存在模型多,耗时长的缺点。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种低复杂度高精度的时序多步预测方法及系统,用于解决现有技术中预测精确度较低的问题。
本发明的实施方式提供了一种低复杂度高精度的时序多步预测方法,包括以下步骤:获取历史预设时间段内的单维或者多维时间序列,构成数据集;对所述数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系;提取监督构造后所述数据集内的不同类别的特征;融合提取所述数据集内的特征,根据融合结果生成所述数据集具有判别的特征;根据所述数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列;拼接未来预设时间段内的部分单维或者多维时间序列,根据拼接结果生成未来预设时间段内的单维或者多维时间序列。
本发明的实施方式还提供了一种低复杂度高精度的时序多步预测系统,包括:数据获取模块,用于获取历史预设时间段内的单维或者多维时间序列,构成数据集;数据构造模块,用于对所述数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系;特征提取和融合模块,用于提取监督构造后所述数据集内的不同类别的特征,融合提取所述数据集内的特征,根据融合结果生成所述数据集具有判别的特征;模型训练及预测模块:用于根据所述数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列,拼接未来预设时间段内的部分单维或者多维时间序列,根据拼接结果生成未来预设时间段内的单维或者多维时间序列。
本发明的实施方式还提供了一种处理器,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的低复杂度高精度的时序多步预测方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述的低复杂度高精度的时序多步预测方法。
本发明实施方式相对于现有技术而言,主要区别及其效果在于:通过对获取的历史数据集进行监督构造,从而建立数据集内数据之间的H个映射关系,再提取监督构造后数据集内的不同类别的特征,然后对不同类别的特征进行融合,根据融合结果生成数据集具有判别的特征,然后根据数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列,并对未来预设时间段内的部分单维或者多维时间序列进行拼接,然后生成未来预设时间段内的单维或者多维时间序列,本发明通过改进多步预测策略,降低了模型复杂度和累积误差,预测结果精度较高,并且未将预测值作为特征进行迭代训练,不存在随着预测步数的增加误差累积增加的问题。
作为进一步改进,在所述获取历史预设时间段内的单维或者多维时间序列,构成数据集之后,所述对数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系之前,包括:对所述数据集进行预处理,所述预处理包括极值和缺失值的处理、时间戳修正和归一化。
作为进一步改进,在所述对所述数据集进行预处理之后,所述对数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系之前,包括:按照预设比例将所述数据集划分成训练集、验证集和测试集,其中,所述数据集为一段按时间先后排序的单维或者多维时间序列。
作为进一步改进,所述对数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系,包括:设置所述数据集的输入序列长度为T、输出序列长度为N和二者的初始间隔为L;采用滑窗方式根据初始间隔L逐步截取输入序列和输出序列,根据逐步截取结果形成有监督的数据之间的映射关系;将输入序列和输出序列的间隔逐步增加N个长度,再采用滑窗方式逐步截取输入序列和输出序列,根据多次逐步截取结果建立数据集内的数据之间H个映射关系。
作为进一步改进,所述输入序列长度T和输出序列长度N是由以下步骤进行确定的,包括:确定所述数据集的自相关系数;根据所述自相关系数计算所述数据集内各维度数据的相关性数组;根据所述相关性数组中第一个极大值对应的时滞作为各维度数据的切片时序片段长度;确定所述各维度数据的切片时序片段长度的最小公倍数,并将所述最小公倍数作为输出序列长度N;根据所述输出序列长度N确定输入序列长度T。
上述方案采用滑窗方式根据初始间隔L逐步截取输入序列和输出序列,从而形成有监督的数据之间的映射关系,然后再将输入序列和输出序列的间隔逐步增加N个长度,再采用滑窗方式逐步截取输入序列和输出序列,从而建立有监督的数据之间H个映射关系,并且考虑到各个映射关系中特征是相同的,若能找到合适的输出序列长度N,使得各个映射关系中的标签分布相似,则可以使用迁移学习方法,即在预训练模型的基础上再进行新模型的训练,而不是从零学习,不仅可以大大缩短训练时间,还能融合旧知识和新知识,充分学习时序规律,取得比较好的效果。
作为进一步改进,所述根据所述数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列,包括:使用训练集具有判别的特征训练H个预测模型,根据训练结果生成训练好H个预测模型;使用验证集具有判别的特征验证H个训练模型,根据验证结果生成H个最优训练模型;将测试集具有判别的特征输入H个最优训练模型,通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列。
上述方案通过使用训练集具有判别的特征训练H个预测模型,然后生成训练好H个预测模型,再使用验证集具有判别的特征验证H个训练模型,从而生成H个最优训练模型,最后将测试集具有判别的特征输入H个最优训练模型,通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列,训练速度加快,耗时少、计算量小、占用资源低。
附图说明
图1是本发明第一实施方式中的低复杂度高精度的时序多步预测方法流程图;
图2是本发明第二实施方式中的低复杂度高精度的时序多步预测方法流程图;
图3是本发明第三实施方式中的低复杂度高精度的时序多步预测系统示意图;
图4是本发明第四实施方式中的电子设备示意图;
图5是本发明中有监督的数据集形式构造图;
图6是本发明中数据集构造和模型训练方式示意图;
图7是本发明中数据集的多步预测的示意图;
图8是本发明中训练集第一映射关系的示意图;
图9是本发明中训练集第二映射关系的示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
AIops(Artificial Intelligence for IT Operations,智能运维):指采用机器学习、数据挖掘或深度学习等方法,来解决KPI异常检测、故障根因分析、容量预测等运维领域中的关键问题;seq2seq(Sequence-to-sequence):序列到序列模型;LSTM(Long ShortTerm Memor y):长短期记忆神经网络;GRU(Gate Recurrent Unit):门控循环单元;ASPP(Atrous Spa tial Pyramid Pooling):空洞空间卷积池化金字塔;SENet(Squeeze-and-Excitation Networks):挤压和激励网络;SGD(Stochastic Gradient Descent):随机梯度下降;CNN(Convolutional Neural Networks):卷积神经网络;SR(Spectral Residual):残差谱。
本发明的第一实施方式涉及一种低复杂度高精度的时序多步预测方法。流程如图1所示,具体如下:
步骤101,获取历史预设时间段内的单维或者多维时间序列,构成数据集;
具体的说,历史预设时间段的具体数值是人为设置的。
步骤102,对该数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系。
具体的说,通过设置该数据集的输入序列长度为T、输出序列长度为N和二者的初始间隔为L,然后采用滑窗方式根据初始间隔L逐步截取输入序列和输出序列,根据逐步截取结果形成有监督的数据之间的映射关系,然后再将输入序列和输出序列的间隔逐步增加N个长度,再采用滑窗方式逐步截取输入序列和输出序列,根据多次逐步截取结果建立数据集内的数据之间H个映射关系。
步骤103,提取监督构造后该数据集内的不同类别的特征。
具体的说,对于该数据集内特征的提取,即通过堆叠不同模块,构建深度网络,从而将该数据集通过处理转换为数据特征,比如使用ASPP模块提取不同尺度的特征,使用SENet模块提取通道间的关系,使用Encoder-Decoder结构或GRU/LSTM等模型提取更长时间范围的时序依赖特征等,并且除使用ASPP、SENet、Encoder-Decoder结构外,还可以CNN、SR、Attention模块等提取带有注意力机制的特征。
步骤104,融合提取该数据集内的特征,根据融合结果生成该数据集具有判别的特征。
具体的说,特征融合是将提取的不同类别的特征合并成一个比初始特征更具有判别能力的特征,通常使用concat或add方式进行融合,并且除直接concat或add外,也可先分析不同类别特征间的相关关系,最大化不同类别特征之间的差异后再进行融合。
步骤105,根据该数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列。
具体的说,通过使用训练集具有判别的特征训练H个预测模型,然后根据训练结果生成训练好H个预测模型,再使用验证集具有判别的特征验证H个训练模型,根据验证结果生成H个最优训练模型,然后再将测试集具有判别的特征输入H个最优训练模型,通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列。
步骤106,拼接未来预设时间段内的部分单维或者多维时间序列,根据拼接结果生成未来预设时间段内的单维或者多维时间序列。
具体的说,同样对测试集或待预测的数据进行有监督构造、特征提取和特征融合的处理后,将测试集内的具有判别的特征输入H个最优训练模型,然后得到未来预设时间段内的部分单维或者多维时间序列,然后对未来预设时间段内的部分单维或者多维时间序列进行拼接,可以得到未来预设时间段内的单维或者多维时间序列。
本实施方式可以通过对获取的历史数据集进行监督构造,从而建立数据集内数据之间的H个映射关系,再提取监督构造后数据集内的不同类别的特征,然后对不同类别的特征进行融合,根据融合结果生成数据集具有判别的特征,然后根据数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列,并对未来预设时间段内的部分单维或者多维时间序列进行拼接,然后生成未来预设时间段内的单维或者多维时间序列,本发明通过改进多步预测策略,降低了模型复杂度和累积误差,预测结果精度较高,并且未将预测值作为特征进行迭代训练,不存在随着预测步数的增加误差累积增加的问题。
本发明的第二实施方式涉及一种低复杂度高精度的时序多步预测方法,第二实施方式是对第一实施方式整体的详细论述,主要详细的论述在于:在本发明的第二实施方式中,明确了一种实施方式,此实施方式论述了对数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系和根据数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列的具体过程。
本实施方式请参阅图2,包括以下步骤,进行如下说明:
步骤201与第一实施方式中的步骤101相类似,在此不再赘述。
步骤202,对数据集进行预处理。
具体的说,数据预处理包括对极值和缺失值的处理、时间戳修正,归一化等,对于个别极大极小值,根据经验知识及统计学方法如ksigma方法进行剔除,极值处理除采用ksigma方法外,还可使用箱型图或缩尾处理方式进行剔除;对于缺失值,统计相应指标的缺失率,若缺失率超出指定阈值则删除该指标并提示工作人员,否则采用前后向或均值填充等方法进行填补,缺失值填充除采用前后向或均值填充方法外,还可使用众数、中位数或插值方式进行填补;对于多维时序数据,若时间戳或颗粒度不统一,同一颗粒度后采用聚合方式修正时间戳;对于不同量纲指标,可采用归一化统一量纲,常用标准化或最大最小归一化方式,归一化时除按指标归一化外,还可以全局归一化。
步骤203,按照一定的比例将该数据集划分成训练集、验证集和测试集。
具体的说,由于该数据集为一段按时间先后排序的单维或者多维时间序列,为了采用深度学习方法训练模型,需将数据集造为有监督的数据集,首先根据预设比例,如6:2:2,在未打乱顺序的情况下将该数据集划分为训练集、验证集和测试集共三个子集,对各个子集分别进行有监督构造,数据集分割时,除按6:2:2分割外,也可采用其他训练集占比最大的比例,如7:2:1。
步骤204,设置该数据集的输入序列长度为T、输出序列长度为N和二者的初始间隔为L。
具体的说,监督构造中在滑窗时,初始间隔L默认为1,还可更改为其他数值。
步骤205,采用滑窗方式根据初始间隔L逐步截取输入序列和输出序列,根据逐步截取结果形成有监督的数据之间的映射关系。
步骤206,将输入序列和输出序列的间隔逐步增加N个长度,再采用滑窗方式逐步截取输入序列和输出序列,根据多次逐步截取结果建立数据集内的数据之间H个映射关系。
具体的说,有监督构造的具体操作是:对一段时序数据,假设输入序列长度为T,输出序列长度为N,从起始时刻开始取连续长度为T的数据作为特征dataX,从T+1时刻开始取连续长度为N的数据作为标签dataY,从而构成一个样本,然后依次滑动窗口,从而构成若干个样本,形成有监督的数据集,如图5所示。
更具体的说,输入序列长度T及输出序列长度N的确定是为了使得各映射关系中的标签分布最相似,分析当各标签序列相关性最高时,分布最接近,因此确定输出序列长度N的步骤如下:采用自相关系数计算该数据集的相关性数组,数组中最大的值对应的时滞作为该指标的切片时序片段长度N1,重复以上步骤依次计算出该数据集中各维度数据的切片时序片段长度N2……Nk,计算N1~Nk的最小公倍数作为输出序列长度N,输入序列长度T取值建议取N的整数倍:T=k*N(k≥1),确定输出序列长度N时,除采用自相关系数外,还可采用皮尔森系数,当数据存在明显周期时,可由人工经验确定周期或傅里叶变换方法计算周期,即设输出序列长度为N。
实际应用中,在使用数据集进行预测时,首先需要确定输入序列长度T和输出序列长度N:此时的数据集为10000条的8维时序数据片段,对第一维度的数据,采用自相关系数计算该维度数据的相关性数组,对相关性数组进行二阶差分,找出最大值尖峰对应的位置36,作为第一维度数据的切片长度,重复以上步骤依次计算出剩余七个维度数据的切片时序片段长度36,36,24,12,48,12,36;取所有输入序列长度T的切片长度的最小公倍数48作为输出序列长度N;输入序列长度T取值取N的整数倍,此处取96。
步骤207至步骤208与第一实施方式中的步骤103至步骤104相类似,在此不再赘述。
步骤209,使用训练集具有判别的特征训练H个预测模型,根据训练结果生成训练好H个预测模型。
具体的说,在对训练集和验证集进行有监督构造、特征提取和特征融合后,指定优化器如SGD,选择或自定义损失函数,对处理后的训练集具有判别的特征进行训练,模型训练的优化器除使用SGD外,还可使用Adam、Momentum等;选择损失函数时,除使用L1Loss、MSELoss外,也可自定义。
步骤210,使用验证集具有判别的特征验证H个训练模型,根据验证结果生成H个最优训练模型。
具体的说,验证集具有判别的特征验证H个训练模型,观察每一轮训练的评价指标,辅助判断何时终止训练,防止过拟合,最终训练得到H个最优训练模型。
步骤211,将测试集具有判别的特征输入H个最优训练模型,通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列。
具体的说,根据上述H个映射关系,将训练得到H个最优训练模型,但由于H个最优训练模型是分别独立训练的,耗时接近,同样存在计算量大耗时长的缺点,只略优于直接多步策略,考虑到各个映射关系中特征dataX是相同的,若能找到合适的输出序列长度N,使得各个映射关系中的标签dataY分布相似,则可以使用迁移学习方法,即在预训练模型的基础上再进行新模型的训练,而不是从零学习,不仅可以大大缩短训练时间,还能融合旧知识和新知识,充分学习时序规律,取得比较好的效果,具体请参阅图6,图6中的K为指标个数,n为样本数,简记为一列[X1 X2……Xn];根据上述流程训练得到H个模型后,将长度为T的增量时间序列代入各个模型内,从而可预测H*N步,对相同的预测时长,该集成方法模型数量少,且无累积误差,具体请参阅图7。
步骤212与第一实施方式中的步骤106相类似,在此不再赘述。
实际应用中,选取10000条数据构成数据集,首先对数据集进行预处理:使用ksigma方法剔除极大极小值,使用向前向后方式填充缺失值,对每一维指标进行标准化从而统一量纲,按照6:2:2比例,在不打乱顺序的情况下将10000条数据分为6000,2000,2000条,形成训练集、验证集和测试集三个子集,由第一阶段可得序列长度为96,预测长度为48,对训练集(时刻0~5999范围),从起始时刻开始取连续长度为96的数据作为特征dataX,从97时刻开始取连续长度为48的数据作为标签dataY,从而构成一个样本;然后依次滑动窗口,从而构成若干个样本,形成第一个映射关系的有监督数据集,如图8所示,同理对验证集和测试集也采用同样的构造方式;
经有监督构造后,单条输入特征的尺寸为(96,8),设置批次大小batchsize为100,于是初始特征尺寸为(100,1,96,8),分别表示批次大小、通道数、序列长度和维度,接下来进行特征提取和特征融合,可分为不同支路提取,将初始特征输入ASPP模块提取不同尺度的信息,再经池化、维度变换后得到特征尺寸为(100,256,32);同样将初始特征输入SR模块提取显著局部信息,再经池化、维度变换后也得到尺寸为(100,256,32),将两种特征进行concat融合,得到特征尺寸为(100,512,32),以此特征代入模型进行训练,经有监督构造后,输出结果尺寸为(100,48,8);
设置优化器为SGD,损失函数选择MSE,对融合后的特征进行训练,同时在验证集上观察效果,随着训练轮数增加,验证集上的损失值逐步下降,当下降到一定程度后又开始上升,则终止训练,得到第一最优训练模型,重复以上步骤,构建第二映射关系,区别在于,输入序列和输出序列的间隔相比第一映射关系增加预测长度48,如图9所示,然后通过提取特征和融合特征,并在第一最优训练模型上进行迁移训练,得到第二最优训练模型,重复以上步骤,依次得到第三最优训练模型~第十最优训练模型,然后进行多步预测:将测试集或待预测的数据片段进行有监督构造后,分别代入10个模型,各模型分别输出未来0~47、48~95……432~479步的结果,拼接后即未来480步的预测结果。
上述方案采用滑窗方式根据初始间隔L逐步截取输入序列和输出序列,从而形成有监督的数据之间的映射关系,然后再将输入序列和输出序列的间隔逐步增加N个长度,再采用滑窗方式逐步截取输入序列和输出序列,从而建立有监督的数据之间H个映射关系,考虑到各个映射关系中特征dataX是相同的,若能找到合适的输出序列长度N,使得各个映射关系中的标签dataY分布相似,则可以使用迁移学习方法,即在预训练模型的基础上再进行新模型的训练,而不是从零学习,不仅可以大大缩短训练时间,还能融合旧知识和新知识,充分学习时序规律,取得比较好的效果;还通过使用训练集具有判别的特征训练H个预测模型,然后生成训练好H个预测模型,再使用验证集具有判别的特征验证H个训练模型,从而生成H个最优训练模型,最后将测试集具有判别的特征输入H个最优训练模型,通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列,训练速度加快,耗时少、计算量小、占用资源低。
本发明的第三实施方式涉及一种低复杂度高精度的时序多步预测系统,请参阅图3,包括:
数据获取模块,用于获取历史预设时间段内的单维或者多维时间序列,构成数据集;
数据构造模块,用于对数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系;
特征提取和融合模块,用于提取监督构造后数据集内的不同类别的特征,融合提取数据集内的特征,根据融合结果生成数据集具有判别的特征;
模型训练及预测模块:用于根据数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列,拼接未来预设时间段内的部分单维或者多维时间序列,根据拼接结果生成未来预设时间段内的单维或者多维时间序列。
不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种服务器,请参阅图4,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上的低复杂度高精度的时序多步预测方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本发明通过对获取的历史数据集进行监督构造,从而建立数据集内数据之间的H个映射关系,再提取监督构造后数据集内的不同类别的特征,然后对不同类别的特征进行融合,根据融合结果生成数据集具有判别的特征,然后根据数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列,并对未来预设时间段内的部分单维或者多维时间序列进行拼接,然后生成未来预设时间段内的单维或者多维时间序列,本发明通过改进多步预测策略,降低了模型复杂度和累积误差,预测结果精度较高,并且未将预测值作为特征进行迭代训练,不存在随着预测步数的增加误差累积增加的问题。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (9)

1.一种低复杂度高精度的时序多步预测方法,其特征在于,包括以下步骤:
获取历史预设时间段内的单维或者多维时间序列,构成数据集;
对所述数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系;
提取监督构造后所述数据集内的不同类别的特征;
融合提取所述数据集内的特征,根据融合结果生成所述数据集具有判别的特征;
根据所述数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列;
拼接未来预设时间段内的部分单维或者多维时间序列,根据拼接结果生成未来预设时间段内的单维或者多维时间序列。
2.根据权利要求1所述的一种低复杂度高精度的时序多步预测方法,其特征在于:在所述获取历史预设时间段内的单维或者多维时间序列,构成数据集之后,所述对数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系之前,包括:
对所述数据集进行预处理,所述预处理包括极值和缺失值的处理、时间戳修正和归一化。
3.根据权利要求2所述的一种低复杂度高精度的时序多步预测方法,其特征在于:在所述对所述数据集进行预处理之后,所述对数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系之前,包括:
按照预设比例将所述数据集划分成训练集、验证集和测试集,其中,所述数据集为一段按时间先后排序的单维或者多维时间序列。
4.根据权利要求1所述的一种低复杂度高精度的时序多步预测方法,其特征在于:所述对数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系,包括:
设置所述数据集的输入序列长度为T、输出序列长度为N和二者的初始间隔为L;
采用滑窗方式根据初始间隔L逐步截取输入序列和输出序列,根据逐步截取结果形成有监督的数据之间的映射关系;
将输入序列和输出序列的间隔逐步增加N个长度,再采用滑窗方式逐步截取输入序列和输出序列,根据多次逐步截取结果建立数据集内的数据之间H个映射关系。
5.根据权利要求4所述的一种低复杂度高精度的时序多步预测方法,其特征在于:所述输入序列长度T和输出序列长度N是由以下步骤进行确定的,包括:
确定所述数据集的自相关系数;
根据所述自相关系数计算所述数据集内各维度数据的相关性数组;
根据所述相关性数组中第一个极大值对应的时滞作为各维度数据的切片时序片段长度;
确定所述各维度数据的切片时序片段长度的最小公倍数,并将所述最小公倍数作为输出序列长度N;
根据所述输出序列长度N确定输入序列长度T。
6.根据权利要求3所述的一种低复杂度高精度的时序多步预测方法,其特征在于:所述根据所述数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列,包括:
使用训练集具有判别的特征训练H个预测模型,根据训练结果生成训练好H个预测模型;
使用验证集具有判别的特征验证H个训练模型,根据验证结果生成H个最优训练模型;
将测试集具有判别的特征输入H个最优训练模型,通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列。
7.一种低复杂度高精度的时序多步预测系统,其特征在于:包括:
数据获取模块,用于获取历史预设时间段内的单维或者多维时间序列,构成数据集;
数据构造模块,用于对所述数据集进行监督构造,根据监督构造结果建立数据集内数据之间的H个映射关系;
特征提取和融合模块,用于提取监督构造后所述数据集内的不同类别的特征,融合提取所述数据集内的特征,根据融合结果生成所述数据集具有判别的特征;
模型训练及预测模块:用于根据所述数据集具有判别的特征确定H个最优训练模型,并通过H个最优训练模型生成未来预设时间段内的部分单维或者多维时间序列,拼接未来预设时间段内的部分单维或者多维时间序列,根据拼接结果生成未来预设时间段内的单维或者多维时间序列。
8.一种处理器,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一所述的低复杂度高精度的时序多步预测方法及系统。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一所述的低复杂度高精度的时序多步预测方法及系统。
CN202210468921.5A 2022-04-29 2022-04-29 一种低复杂度高精度的时序多步预测方法及系统 Pending CN115310650A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210468921.5A CN115310650A (zh) 2022-04-29 2022-04-29 一种低复杂度高精度的时序多步预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210468921.5A CN115310650A (zh) 2022-04-29 2022-04-29 一种低复杂度高精度的时序多步预测方法及系统

Publications (1)

Publication Number Publication Date
CN115310650A true CN115310650A (zh) 2022-11-08

Family

ID=83854472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210468921.5A Pending CN115310650A (zh) 2022-04-29 2022-04-29 一种低复杂度高精度的时序多步预测方法及系统

Country Status (1)

Country Link
CN (1) CN115310650A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115526300A (zh) * 2022-11-14 2022-12-27 南京邮电大学 一种基于循环神经网络的序列重排方法
CN115794465A (zh) * 2022-11-10 2023-03-14 上海鼎茂信息技术有限公司 一种日志异常检测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115794465A (zh) * 2022-11-10 2023-03-14 上海鼎茂信息技术有限公司 一种日志异常检测方法及系统
CN115794465B (zh) * 2022-11-10 2023-12-19 上海鼎茂信息技术有限公司 一种日志异常检测方法及系统
CN115526300A (zh) * 2022-11-14 2022-12-27 南京邮电大学 一种基于循环神经网络的序列重排方法

Similar Documents

Publication Publication Date Title
CN109587713B (zh) 一种基于arima模型的网络指标预测方法、装置及存储介质
CN115310650A (zh) 一种低复杂度高精度的时序多步预测方法及系统
CN107992976B (zh) 热点话题早期发展趋势预测系统及预测方法
US11650968B2 (en) Systems and methods for predictive early stopping in neural network training
CN109471698B (zh) 云环境下虚拟机异常行为检测系统和方法
CN110232483A (zh) 深度学习负荷预测方法、装置及终端设备
CN108959187A (zh) 一种变量分箱方法、装置、终端设备及存储介质
CN112257914B (zh) 一种基于随机森林的航空安全因果预测方法
CN112398700B (zh) 一种服务降级方法及装置、存储介质、计算机设备
CN116703464A (zh) 电动汽车充电需求建模方法、装置、电子设备及存储介质
CN108415885A (zh) 基于近邻回归的实时公交客流预测方法
CN111311001B (zh) 基于DBSCAN算法和特征选择的Bi-LSTM网络短期负荷预测方法
CN115146764A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN110059938B (zh) 一种基于关联规则驱动的配电网规划方法
CN115982141A (zh) 一种针对时序数据预测的特征优化方法
CN116050605A (zh) 一种基于神经网络和随机森林法的电力负荷预测方法
CN115859777A (zh) 一种多故障模式下产品系统寿命预测的方法
CN113033898A (zh) 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及系统
CN112651534A (zh) 一种预测资源供应链需求量的方法、装置及存储介质
CN113918433A (zh) 一种自适应的智慧网络设备性能指标异常检测装置及方法
CN117376087A (zh) 网络质量问题定界方法、装置、设备和存储介质
CN109829115B (zh) 搜索引擎关键词优化方法
CN116384240A (zh) 一种服务器能耗预测方法、装置及存储介质
Ji et al. Multi-indicators prediction in microservice using Granger causality test and Attention LSTM
CN117129895A (zh) 电池健康状态计算方法、装置、存储介质以及车辆

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination