CN114897274A - 一种提升时间序列预测效果的方法和系统 - Google Patents
一种提升时间序列预测效果的方法和系统 Download PDFInfo
- Publication number
- CN114897274A CN114897274A CN202210692711.4A CN202210692711A CN114897274A CN 114897274 A CN114897274 A CN 114897274A CN 202210692711 A CN202210692711 A CN 202210692711A CN 114897274 A CN114897274 A CN 114897274A
- Authority
- CN
- China
- Prior art keywords
- sequence
- time
- prediction
- integral
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种提升时间序列预测效果的方法,将一定长度的历史时间序列进行积分累加,或者进行一定代数处理后进行积分累加,称为历史积分序列;以一组固定长度的历史积分序列作为预测模型输入,经过预测模型计算后输出接下来一个或多个时间点的序列,称为未来积分序列预测值;对未来积分序列进行差分计算,得到未来时间序列预测值。本发明用于时间序列预测过程中实现更快速地建模和更准确的预测。结合积分差分算法与深度学习模型,本方法既降低了多个子序列带来的模型复杂度,又具有明确的物理意义,同时提高时间序列预测的准确度。
Description
技术领域
本发明属于人工智能时间序列预测领域,具体涉及一种提升时间序列预测效果的方法和系统。
背景技术
随着人工智能和时间序列预测方法的发展,时间序列信息在各个领域得到了广泛应用,利用历史数据预测未来数据的变化趋势从而指导决策,对工业界具有重要意义。对于随机高波动的时序数据(如风速、太阳辐射、电力负荷、金融数据等),现有基于信号分解的深度学习的预测效果不尽人意,其主要原因是此类方法存在一定的主观经验性,子序列缺乏明确的物理意义,高频子序列预测困难,且对新数据的输入较为敏感。
为提高建模效率和模型预测准确度,本发明创新性地提出了一种“积分-建模-差分”的预测方法,既降低了多个子序列带来的模型复杂度,又具有明确的物理意义,同时提高时间序列预测的准确度。
发明内容
本发明为了解决背景技术中存在的技术问题,目的在于提供了一种提升时间序列预测效果的方法和系统,用于时间序列预测过程中实现更快速地建模和更准确的预测。
为了解决技术问题,本发明的技术方案是:
一种提升时间序列预测效果的方法,包括一个积分预处理子步骤、一个预测模型和一个差分回溯目标变量子步骤。这里所述时间序列数据是按照时间顺序排列的数据点序列,每个数据均为实数值。
该预测方法实现预测的基本流程为:将一定长度的历史时间序列进行积分累加,或者进行一定代数处理后进行积分累加,称为历史积分序列;以一组固定长度的历史积分序列作为预测模型输入,经过预测模型计算后输出接下来一个或多个时间点的序列,称为未来积分序列预测值;对未来积分序列进行差分计算,得到未来时间序列预测值。
预测模型的目标为:使未来时间序列预测值与未来时间序列真实值的差距尽可能地小。为此,时间序列预测模型需要先根据已有的时间序列数据也就是过去数据训练得到时间序列预测模型的参数,该时间序列预测模型可用于预测未来时间序列。
由于本发明的预测模型需要在训练之后才可以使用,所以本发明的具体操作步骤分为:预测模型训练步骤和预测模型测试步骤。其中,训练步骤为学习时间序列预测模型中所有参数;测试步骤为使用时间序列预测模型来输出未来数据。具体步骤如下:
步骤1:收集一定长度的时间序列数据,划分训练集和测试集(注:接下来步骤2至步骤4中用到的任意时间序列都来自训练集);
步骤2:对历史时间序列进行积分处理,得到历史积分序列,对历史积分序列进行归一化;
步骤3:初始化预测模型,将训练集的历史积分序列输入模型进行训练;
步骤4:通过网格搜索算法重复训练预测模型,选择预测模型的最优超参数;
步骤5:将测试集历史积分序列做归一化处理后,输入训练好的模型,得到测试集的未来积分序列预测值;
步骤6:对测试集的未来积分序列预测值进行反归一化和差分运算,得到未来时间序列预测值;
步骤7:评估测试集上的预测准确率。
步骤1中划分训练集和测试集:将整个数据集以时间顺序按照70%/30%的比例划分训练集和测试集,即前70%为训练集,后30%为训练集。设训练集共包含N条时间序列数据,对于任意一条时间序列数据(y1,y2,…,yt),选定参数l(l<t),序列的前l条数据构成的子序列为历史时间序列,第l+1到l+a条数据构成的子序列为未来时间序列,记为(yl+1,yl+2,…,yl+a).
步骤2中所述积分处理定义为,某一时间戳的积分量Yi等于自第一个时间序列数据Y1到该时间戳对应的时间序列Yt数据对应的所有时间序列数据的累加,即由此可得到积分时间序列(Y1,Y2,…,YN).积分处理可将波动序列转化为平滑的单调递增序列。归一化方法采用线性归一化,即由此可将积分序列数值范围控制在[0,1],便于后续计算。
步骤3中所述预测模型可以采用任意的现有时间序列预测模型,如支持向量回归(SVR),BP神经网络(BPNN),长短期记忆神经网络(LSTM)和门控循环单元神经网络(GRU)等。在本发明中,综合预测的准确度和参数计算量,最终选用GRU作为预测模型。该模型包含一层GRU层和一层全连接层。GRU层的计算单元是以ReLU为激活函数的多层全连接神经网络,在每个时间节点t,该循环神经网络的输入层维度为输出为该输出表示基于第t个时间点对第t+1时间点的预测。全连接层以ReLU为激活函数,其输入为GRU层的输出,其输出为长度为a的一维向量,即未来积分序列预测值。
步骤4中网格搜索算法即穷举搜索,在所有候选的超参数组合中,通过循环遍历,表现最好的参数作为最终的结果。
步骤6中反归一化即归一化的逆运算,即Yi=Y′i(Ymax-Ymin)+Ymin。由所述步骤2中对积分序列的定义可知,某时间戳对应的时间序列的值等于当前时间戳和前一时间戳的积分时间序列值的一阶差分,即yt=Yt-Yt-1。由此可得未来时间序列预测值。
本发明还提供一种提升时间序列预测效果的系统,包括:
SCADA系统,用于采集和传输数据;
一个或多个处理器;
存储器,用于存储算法程序以及SCADA系统的传输数据;
所述SCADA系统采集现场数据并传输至存储器中存储,当所述算法程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行上述一种提升时间序列预测效果的方法。
与现有技术相比,本发明的优点在于:
(1)本发明采用变上限积分平滑时间序列的高频波动,使得机器学习模型能够更容易学习到平滑曲线的特征;
(2)本发明避免将时间序列分解后分别建模,大大减少子模型数量,降低模型复杂度,提升了计算效率;
(3)本发明的积分时间序列仍有明确的物理含义,相较于分解模型的子序列,具有更强的可解释性。
附图说明
图1为本发明的算法流程图;
图2为本发明时间预测系统与EMD和Persistence方法的预测结果比较图。
图3为本发明时间预测系统与EMD方法的模型训练时间比较图。
具体实施方式
结合实施例说明本发明的具体技术方案。
本实施采用GEFCom2014风电数据集,通过本发明提出的方法提升时间序列预测系统在未来时间点上的预测准确度。本实施例具体步骤如图1所示,包括:
步骤1:收集一定长度的时间序列数据,划分训练集和测试集;
步骤2:对历史时间序列进行积分处理,得到历史积分序列,对历史积分序列进行归一化;
步骤3:初始化预测模型,将训练集的历史积分序列输入模型进行训练;
步骤4:通过网格搜索算法重复训练预测模型,选择预测模型的最优超参数;
步骤5:将测试集历史积分序列做归一化处理后,输入训练好的模型,得到测试集的未来积分序列预测值;
步骤6:对测试集的未来积分序列预测值进行反归一化和差分运算,得到未来时间序列预测值;
步骤7:评估测试集上的预测准确率。
所述步骤1划分训练集和测试集:由于数据集包含2012-2013两年的风功率数据,将2012年数据作为训练集,2013年数据作为测试集。训练集共包含8770条时间序列数据,对于任意一条时间序列数据(y1,y2,…,yt),选定参数l(l<t),序列的前l条数据构成的子序列为历史时间序列,第l+1到l+a条数据构成的子序列为未来时间序列,记为(yl+1,yl+2,…,yl+a).
所述步骤2所述积分处理定义为,某一时间戳的积分量Yi等于自第一个时间序列数据Y1到该时间戳对应的时间序列Yt数据对应的所有时间序列数据的累加,即由此可得到积分时间序列(Y1,Y2,…,YN).积分处理可将波动序列转化为平滑的单调递增序列。归一化方法采用线性归一化,即由此可将积分序列数值范围控制在[0,1],便于后续计算。
所述步骤3所述预测模型采用门控循环单元神经网络(GRU),该模型包含一层GRU层和一层全连接层。GRU层的计算单元是以ReLU为激活函数的多层全连接神经网络,在每个时间节点t,该循环神经网络的输入层维度为输出为该输出表示基于第t个时间点对第t+1时间点的预测。全连接层以ReLU为激活函数,其输入为GRU层的输出,其输出为长度为a的一维向量,即未来积分序列预测值。
所述步骤4网格搜索算法即穷举搜索,在所有候选的超参数组合中,通过循环遍历,表现最好的参数作为最终的结果。
所述步骤6反归一化即归一化的逆运算,即Yi=Y′i(Ymax-Ymin)+Ymin。由所述步骤2中对积分序列的定义可知,某时间戳对应的时间序列的值等于当前时间戳和前一时间戳的积分时间序列值的一阶差分,即yt=Yt-Yt-1。由此可得未来时间序列预测值。
所述步骤7本发明中使用平均绝对误差(MAE)和均方根误差(RMSE)来评估时间序列预测准确率,MAE和RMSE越小,则表示预测准确率越高。以提前2步预测为例,对于未来时间序列实际值yi及其对应的预测值MAE和RMSE可分别表示为
该算例中,MAE=0.06,RMSE=0.11。
图2为本发明时间预测系统与EMD和Persistence方法的预测结果比较图。
图3为本发明时间预测系统与EMD方法的模型训练时间比较图。
一种提升时间序列预测效果的系统,包括:
SCADA系统,用于采集和传输数据;
一个或多个处理器;
存储器,用于存储算法程序以及SCADA系统的传输数据;
所述SCADA系统采集现场数据并传输至存储器中存储,当所述算法程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上述所述一种提升时间序列预测效果的方法。
上面对本发明优选实施方式作了详细说明,但是本发明不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。不脱离本发明的构思和范围可以做出许多其他改变和改型。应当理解,本发明不限于特定的实施方式,本发明的范围由所附权利要求限定。
Claims (9)
1.一种提升时间序列预测效果的方法,其特征在于,包括以下步骤:将一定长度的历史时间序列进行积分累加,或者进行一定代数处理后进行积分累加,称为历史积分序列;以一组固定长度的历史积分序列作为预测模型输入,经过预测模型计算后输出接下来一个或多个时间点的序列,称为未来积分序列预测值;对未来积分序列进行差分计算,得到未来时间序列预测值;
预测模型的目标为:使未来时间序列预测值与未来时间序列真实值的差距尽可能地小,预测模型需要先根据已有的时间序列数据也就是过去数据训练得到预测模型的参数,该预测模型用于预测未来时间序列。
2.根据权利要求1所述的一种提升时间序列预测效果的方法,其特征在于,具体步骤为:
步骤1:收集一定长度的时间序列数据,划分训练集和测试集,步骤2至步骤4中用到的任意时间序列都来自训练集;
步骤2:对历史时间序列进行积分处理,得到历史积分序列,对历史积分序列进行归一化;
步骤3:初始化预测模型,将训练集的历史积分序列输入模型进行训练;
步骤4:通过网格搜索算法重复训练预测模型,选择预测模型的最优超参数;
步骤5:将测试集历史积分序列做归一化处理后,输入训练好的模型,得到测试集的未来积分序列预测值;
步骤6:对测试集的未来积分序列预测值进行反归一化和差分运算,得到未来时间序列预测值;
步骤7:评估测试集上的预测准确率。
3.根据权利要求2所述的一种提升时间序列预测效果的方法,其特征在于,步骤1中划分训练集和测试集具体方法为:将整个数据集以时间顺序按照70%/30%的比例划分训练集和测试集,即前70%为训练集,后30%为训练集;设训练集共包含N条时间序列数据,对于任意一条时间序列数据(y1,y2,…,yt),选定参数l,l<t,序列的前l条数据构成的子序列为历史时间序列,第l+1到l+a条数据构成的子序列为未来时间序列,记为(yl+1,yl+2,…,yl+a)。
6.根据权利要求5所述的一种提升时间序列预测效果的方法,其特征在于,步骤4中网格搜索算法即穷举搜索,在所有候选的超参数组合中,通过循环遍历,表现最好的参数作为最终的结果。
7.根据权利要求6所述的一种提升时间序列预测效果的方法,其特征在于,步骤6中反归一化即归一化的逆运算,即Yi=Y′i(Ymax-Ymin)+Ymin;由所述步骤2中对积分序列的定义可知,某时间戳对应的时间序列的值等于当前时间戳和前一时间戳的积分时间序列值的一阶差分,即yt=Yt-Yt-1;由此可得未来时间序列预测值。
9.一种提升时间序列预测效果的系统,其特征在于,包括:
SCADA系统,用于采集和传输数据;
一个或多个处理器;
存储器,用于存储算法程序以及SCADA系统的传输数据;
所述SCADA系统采集现场数据并传输至存储器中存储,当所述算法程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1到8任一项所述一种提升时间序列预测效果的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210692711.4A CN114897274A (zh) | 2022-06-17 | 2022-06-17 | 一种提升时间序列预测效果的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210692711.4A CN114897274A (zh) | 2022-06-17 | 2022-06-17 | 一种提升时间序列预测效果的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114897274A true CN114897274A (zh) | 2022-08-12 |
Family
ID=82727238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210692711.4A Pending CN114897274A (zh) | 2022-06-17 | 2022-06-17 | 一种提升时间序列预测效果的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114897274A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494908A (zh) * | 2023-12-29 | 2024-02-02 | 宁波港信息通信有限公司 | 基于大数据的港口货物吞吐量预测方法及系统 |
-
2022
- 2022-06-17 CN CN202210692711.4A patent/CN114897274A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494908A (zh) * | 2023-12-29 | 2024-02-02 | 宁波港信息通信有限公司 | 基于大数据的港口货物吞吐量预测方法及系统 |
CN117494908B (zh) * | 2023-12-29 | 2024-03-22 | 宁波港信息通信有限公司 | 基于大数据的港口货物吞吐量预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Remaining useful life prediction using a novel feature-attention-based end-to-end approach | |
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
Ma et al. | A hybrid attention-based deep learning approach for wind power prediction | |
Ayodeji et al. | Causal augmented ConvNet: A temporal memory dilated convolution model for long-sequence time series prediction | |
CN110766060B (zh) | 基于深度学习的时间序列相似度的计算方法、系统及介质 | |
CN112000084B (zh) | 一种基于1d-cnn和gru-svm的控制器模块智能bit设计方法 | |
Ning et al. | Input perturbation reduces exposure bias in diffusion models | |
CN111768000A (zh) | 在线自适应微调深度学习的工业过程数据建模方法 | |
CN110838364A (zh) | 一种基于深度学习混合模型的克罗恩病预测方法及装置 | |
Chadha et al. | Time series based fault detection in industrial processes using convolutional neural networks | |
CN111275168A (zh) | 基于卷积全连接的双向门控循环单元的空气质量预测方法 | |
CN115840893A (zh) | 一种多变量时间序列预测方法及装置 | |
CN116432697A (zh) | 一种融合长短期记忆网络与注意力机制的时间序列预测方法 | |
CN114897274A (zh) | 一种提升时间序列预测效果的方法和系统 | |
CN117114160A (zh) | 一种短期光伏功率预测方法 | |
CN116703607A (zh) | 一种基于扩散模型的金融时间序列预测方法与系统 | |
Li et al. | Knowledge enhanced ensemble method for remaining useful life prediction under variable working conditions | |
CN116579408A (zh) | 一种基于模型结构冗余度的模型剪枝方法及系统 | |
Wenqiang et al. | Remaining useful life prediction for mechanical equipment based on temporal convolutional network | |
CN115423091A (zh) | 一种条件对抗神经网络训练方法、场景生成方法和系统 | |
CN112183814A (zh) | 一种短期风速预测方法 | |
Yang et al. | Electricity load forecasting based on long and short-term memory neural network | |
Zhang et al. | Sequential information bottleneck network for RUL prediction | |
CN117370870B (zh) | 知识和数据复合驱动的装备多工况识别与性能预测方法 | |
Muthuvinayagam et al. | Comprehensive Analysis on Power Electronic Systems in Relation with Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |