CN116090327A - 时间序列预测模型构建方法、装置、设备及可读存储介质 - Google Patents
时间序列预测模型构建方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN116090327A CN116090327A CN202211167271.7A CN202211167271A CN116090327A CN 116090327 A CN116090327 A CN 116090327A CN 202211167271 A CN202211167271 A CN 202211167271A CN 116090327 A CN116090327 A CN 116090327A
- Authority
- CN
- China
- Prior art keywords
- transducer
- training
- weight parameter
- parameter set
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 29
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 124
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 230000015556 catabolic process Effects 0.000 claims description 32
- 238000006731 degradation reaction Methods 0.000 claims description 32
- 238000013526 transfer learning Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006866 deterioration Effects 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims 1
- 238000007710 freezing Methods 0.000 claims 1
- 230000007774 longterm Effects 0.000 abstract description 8
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000013508 migration Methods 0.000 abstract description 3
- 230000005012 migration Effects 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 241000272778 Cygnus atratus Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/003—Load forecast, e.g. methods or systems for forecasting future load demand
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Power Engineering (AREA)
- Geometry (AREA)
- Public Health (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Computer Hardware Design (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种时间序列预测模型构建方法、装置、设备及可读存储介质,涉及人工智能与电力系统交叉技术领域,本申请基于自注意力机制的Transformer架构对长时间序列的典型特征提取与记忆能力,使时间序列预测模型更加容易地应对电力负荷的未知波动,且通过迁移学习可对数据集更小的下游任务进行训练,以减轻模型训练的工作量并增强模型的泛化性能。因此,对于突发情况下的电力负荷波动,本申请通过迁移长期负荷时间序列以及自注意力机制的记忆性,可使得时间序列预测模型能够对长期序列中的特征进行充分的提取并用于下游的预测,进而提升模型的预测精度和适应性。
Description
技术领域
本申请涉及人工智能与电力系统交叉技术领域,特别涉及一种时间序列预测模型构建方法、装置、设备及可读存储介质。
背景技术
随着全球性突发事件的频繁发生,伴随而来的电力负荷剧烈波动事件,给电力市场造成了巨大的经济损失,因此亟需构建一个准确度更高的长期时间序列预测模型。但是,传统的时间序列预测模型在进行长时间序列的时间序列预测时的适应性较差,不能对长时间序列中的一些特征加以泛化,且由于中短期序列中可提取到的特征相对更少,因此在电力负荷发生剧烈波动时,仅仅基于中短期数据进行预测,以致预测精度较低。
发明内容
本申请提供一种时间序列预测模型构建方法、装置、设备及可读存储介质,以解决相关技术中传统时间序列预测模型存在的预测精度低且适应性差的问题。
第一方面,提供了一种时间序列预测模型构建方法,包括以下步骤:
S10:对多个观测时间对应的经济因素数据和电力负荷数据进行预处理,生成训练数据集和目标数据集;
S20:基于训练数据集对基于迁移学习-自注意力机制神经网络模型Transformer进行初始化训练,得到第一Transformer及其第一权重参数组,所述第一权重参数组包括编码器参数和解码器参数;
S30:基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练,得到第二Transformer及其第二权重参数组,所述第二权重参数组包括未调整的编码器参数和调整后的解码器参数;
S40:基于目标数据集中的电力负荷实际值与第二Transformer输出的电力负荷预测值计算得到预测劣化度指标值;
S50:基于预设的超参数信息对第二Transformer中的超参数组进行更新,得到更新后的第二Transformer;
S60:将更新后的第二Transformer作为Transformer并重复执行预设次数的步骤S20至步骤S50,以得到多个第二权重参数组和多个预测劣化度指标值,所述第二权重参数组、所述预测劣化度指标值以及所述超参数组三者之间一一对应;
S70:基于与最小的预测劣化指标值对应的第二权重参数组和超参数组对第二Transformer的权重参数和超参数进行更新,得到时间序列预测模型。
一些实施例中,步骤S20具体包括:
将训练数据集中的经济因素数据输入至Transformer的编码器进行训练,得到编码器处理后的第一数据;
将训练数据集中的电力负荷数据输入至Transformer的解码器进行训练,得到解码器中带掩码的解码器块处理后的第二数据;
基于第一数据和第二数据对解码器中的其他解码器块进行训练,得到第一Transformer及第一Transformer的第一权重参数组。
一些实施例中,在基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练的过程中,将第一Transformer的编码器冻结,以使第一权重参数组中的编码器参数在迁移学习训练的过程中不发生改变,仅对第一权重参数组中的解码器参数进行调整。
一些实施例中,所述预测劣化度指标值包括平均绝对百分比误差、平均绝对误差和均方误差中的至少一个。
第二方面,提供了一种时间序列预测模型构建装置,包括:
预处理单元,其用于对多个观测时间对应的经济因素数据和电力负荷数据进行预处理,生成训练数据集和目标数据集;
第一训练单元,其用于基于训练数据集对基于迁移学习-自注意力机制神经网络模型Transformer进行初始化训练,得到第一Transformer及其第一权重参数组,所述第一权重参数组包括编码器参数和解码器参数;
第二训练单元,其用于基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练,得到第二Transformer及其第二权重参数组,所述第二权重参数组包括未调整的编码器参数和调整后的解码器参数;
计算单元,其用于基于目标数据集中的电力负荷实际值与第二Transformer输出的电力负荷预测值计算得到预测劣化度指标值;
更新单元,其用于基于预设的超参数信息对第二Transformer中的超参数组进行更新,得到更新后的第二Transformer;
控制单元,其用于将更新后的第二Transformer作为Transformer并控制第一训练单元、第二训练单元、计算单元和更新单元重复执行预设次数,以得到多个第二权重参数组和多个预测劣化度指标值,所述第二权重参数组、所述预测劣化度指标值以及所述超参数组三者之间一一对应;
构建单元,其用于基于与最小的预测劣化指标值对应的第二权重参数组和超参数组对第二Transformer的权重参数和超参数进行更新,得到时间序列预测模型。
一些实施例中,所述第一训练单元具体用于:
将训练数据集中的经济因素数据输入至Transformer的编码器进行训练,得到编码器处理后的第一数据;
将训练数据集中的电力负荷数据输入至Transformer的解码器进行训练,得到解码器中带掩码的解码器块处理后的第二数据;
基于第一数据和第二数据对解码器中的其他解码器块进行训练,得到第一Transformer及第一Transformer的第一权重参数组。
一些实施例中,在基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练的过程中,第二训练单元具体用于将第一Transformer的编码器冻结,以使第一权重参数组中的编码器参数在迁移学习训练的过程中不发生改变,仅对第一权重参数组中的解码器参数进行调整。
一些实施例中,所述预测劣化度指标值包括平均绝对百分比误差、平均绝对误差和均方误差中的至少一个。
第三方面,提供了一种时间序列预测模型构建设备,包括:存储器和处理器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现前述的时间序列预测模型构建方法。
第四方面,提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,当所述计算机程序被处理器执行时,以实现前述的时间序列预测模型构建方法。
本申请提供的技术方案带来的有益效果包括:可提升时间序列预测模型的预测精度和适应性。
本申请提供了一种时间序列预测模型构建方法、装置、设备及可读存储介质,包括对多个观测时间对应的经济因素数据和电力负荷数据进行预处理,生成训练数据集和目标数据集;基于训练数据集对基于迁移学习-自注意力机制神经网络模型Transformer进行初始化训练,得到第一Transformer及其第一权重参数组,第一权重参数组包括编码器参数和解码器参数;基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练,得到第二Transformer及其第二权重参数组,第二权重参数组包括未调整的编码器参数和调整后的解码器参数;基于目标数据集中的电力负荷实际值与第二Transformer输出的电力负荷预测值计算得到预测劣化度指标值;基于预设的超参数信息对第二Transformer中的超参数组进行更新,得到更新后的第二Transformer;将更新后的第二Transformer作为Transformer并重复执行预设次数的上述步骤,以得到多个第二权重参数组和多个预测劣化度指标值,第二权重参数组、预测劣化度指标值以及超参数组三者之间一一对应;基于与最小的预测劣化指标值对应的第二权重参数组和超参数组对第二Transformer的权重参数和超参数进行更新,得到时间序列预测模型。本申请基于自注意力机制的Transformer架构对长时间序列的典型特征提取与记忆能力,使时间序列预测模型更加容易地应对电力负荷的未知波动,且通过迁移学习可对数据集更小的下游任务进行训练,以减轻模型训练的工作量并增强模型的泛化性能。因此,对于突发情况下的电力负荷波动,本申请通过迁移长期负荷时间序列以及自注意力机制的记忆性,可使得时间序列预测模型能够对长期序列中的特征进行充分的提取并用于下游的预测,进而提升模型的预测精度和适应性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种时间序列预测模型构建方法的流程示意图;
图2为本申请实施例提供的时间序列预测模型构建的具体流程示意图;
图3为本申请实施例提供的一种时间序列预测模型构建装置的结构示意图;
图4为本申请实施例提供的一种时间序列预测模型构建设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种时间序列预测模型构建方法、装置、设备及可读存储介质,其能解决相关技术中传统时间序列预测模型存在的预测精度低且适应性差的问题。
参见图1和图2所示,本申请实施例提供一种时间序列预测模型构建方法,包括以下步骤:
步骤S10:对多个观测时间对应的经济因素数据和电力负荷数据进行预处理,生成训练数据集和目标数据集;
示范性的,在本实施例中,对各省份的经济因素数据(比如国内生产总值、消费者指数、大宗商品价格指数、国内进出口指数以及房地产价格指数等)和电力负荷数据进行预处理,划分出用于预训练的训练数据集和用于微调的目标数据集。
具体的,步骤S101:选取不同省份在多个观测时间下的不同经济因素指标(包括但不限于国内生产总值、消费者指数、大宗商品价格指数、国内进出口指数和房地产价格指数)和电力负荷数据作为输入变量,并对所有经济因素指标进行内生性检验和消除。
步骤S102:基于主成分分析(PCA)方法对不同经济因素指标进行降维处理,并可选择国内生产总值、消费者指数、大宗商品价格指数和国内进出口指数用于后续训练。
步骤S103:将以下表达作为基于迁移学习-自注意力机制神经网络模型Transformer的输入,具体表达如下:
步骤S105:构造用于训练的数据集,具体表示如下:
步骤S106:基于不同的省份,将数据集D划分成用于预训练的训练数据集Dp和用于微调的目标数据集Df两部分。比如将A、B和C三省的数据作为用于微调的目标数据集,全国其余各省的数据用作训练数据集。
步骤S20:基于训练数据集对基于迁移学习-自注意力机制神经网络模型Transformer进行初始化训练,得到第一Transformer及其第一权重参数组,所述第一权重参数组包括编码器参数和解码器参数;
进一步的,步骤S20具体包括:
将训练数据集中的经济因素数据输入至Transformer的编码器进行训练,得到编码器处理后的第一数据;
将训练数据集中的电力负荷数据输入至Transformer的解码器进行训练,得到解码器中带掩码的解码器块处理后的第二数据;
基于第一数据和第二数据对解码器中的其他解码器块进行训练,得到第一Transformer及第一Transformer的第一权重参数组。
示范性的,在本实施例中,基于训练数据集对Transformer神经网络进行初始化训练,以获得初始化的权重参数数据,并保存用于后续的微调。
具体的,步骤S201:根据Transformer神经网络架构设置超参数,并保存为超参数组HyperParameteri,其中,i表示第i个超参数组,且i∈[1,j],j为超参数组实验的次数。需要说明的是,超参数包括但不限于seq_len(输入序列长度)、pred_len(预测序列长度)、enc_in(编码器输入长度)、dec_in(解码器输入长度)、c_out(模型输出长度)、d_model(模型维度)、n_heads(多头自注意力数)、e_layers(编码器数量)、d_layers(解码器数量)、dropout(随机丢弃率)、num_workers(数据读入头数)、itr(训练次数)、train_epochs(训练步数)、batch_size(批处理大小)以及learning_rate(学习率)。
步骤S202:将用于预训练的数据集Dp按照7:3的比例划分成训练集Dp,train和测试集Dp,test,并分别带入Transformer神经网络进行训练和验证。
步骤S203:参见图2所示,Transformer神经网络分为解码器和编码器两个部分,每个部分都是由若干个Transformer块堆叠而成。比如编码器包括N个Transformer块,每个Transformer块包括多头自注意力层、残差连接&层标准化和前馈网络层等;再比如解码器包括N个Transformer块,每个Transformer块包括带掩码的多头自注意力层、多头自注意力层、残差连接&层标准化和前馈网络层等。
步骤S204:参见图2所示,在进行数据训练时,还需要将进行位置嵌入编码后输入Transformer神经网络中的解码器;解码器中的第一个带掩码的解码器块(即带掩码的多头自注意力层)对解码器的输入进行处理,得到第二数据;并将第二数据与编码器输出的第一数据同时带入解码器中后续的解码器块进行训练。
步骤S205:在步骤S204完成解码器的训练后,再经过线性层和Softmax层的处理即可完成对Transformer神经网络初始化训练,进而获得并保存预训练完成的神经网络权重参数组Poweri(即第一权重参数组),其中,i表示第i个权重参数组,Poweri包含了经过初始化训练后得到的预训练好的Transformer神经网络(即第一Transformer)的编码器参数和解码器参数。
步骤S30:基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练,得到第二Transformer及其第二权重参数组,所述第二权重参数组包括未调整的编码器参数和调整后的解码器参数;
进一步的,在基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练的过程中,将第一Transformer的编码器冻结,以使第一权重参数组中的编码器参数在迁移学习训练的过程中不发生改变,仅对第一权重参数组中的解码器参数进行调整。
示范性的,在本实施例中,基于目标数据集和步骤S205得到的权重参数组Poweri中的权重数据对预训练好的Transformer神经网络进行微调,获得迁移学习后的Transformer神经网络。其中,迁移学习可基于更大数据集进行模型的预训练,并将其部分冻结后迁移到数据集更小的下游任务进行训练,以减轻模型训练时的工作量,并增强模型的泛化性能。
具体的,步骤S301:将目标数据集Df按照7:3的比例划分成训练集Df,train和测试集Df,test。
步骤S302:参见图2所示,将训练集Df,train和测试集Df,test按照步骤S203至步骤S205中的方式输入至预训练好的Transformer神经网络进行迁移学习训练,得到迁移学习后的Transformer神经网络(即第二Transformer)。不过在训练的过程中,本实施例将冻结Transformer神经网络中的编码器,即冻结Transformer神经网络中的编码器权重,使编码器的权重参数在训练过程中不发生改变;同时,微调时仅对Transformer神经网络中解码器的权重参数进行训练及修改,即对已经预训练完成的Poweri中的解码器参数进行上述微调操作,并将微调后的权重参数组保存,记为Poweri′(即第二权重参数组)。其中,Poweri′包括冻结的编码器参数和经过修改后的解码器参数。
步骤S40:基于目标数据集中的电力负荷实际值与第二Transformer输出的电力负荷预测值计算得到预测劣化度指标值;其中,所述预测劣化度指标值包括平均绝对百分比误差、平均绝对误差和均方误差中的至少一个。
示范性的,在本实施例中,将对微调后的Transformer神经网络(即第二Transformer)进行评估。其中,可选取平均绝对百分比误差(MAPE)、平均绝对误差(MAE)和均方误差(MSE)中的一个或多个作为评价微调后的Transformer神经网络的指标。各个指标的定义如下:
其中,n表示共有n个预测样本,和分别表示在观测时间序列t时,省份p中第i个样本的电力负荷实际值和微调后的Transformer神经网络输出的电力负荷预测值。本实施例选择将MAPE、MAE和MSE共同作为预测劣化度指标值对微调后的Transformer神经网络进行评估,进而可将评估得到的MAPEi、MAEi和MSEi保存到误差集Ei,其可表示为:Ei=(MAPEi,MAEi,MSEi)。
步骤S50:基于预设的超参数信息对第二Transformer中的超参数组进行更新,得到更新后的第二Transformer;
示范性的,在本实施例中,对步骤S30中得到的微调后的Transformer神经网络的超参数进行更新,并记超参数组为HyperParameterk,其中,k∈[2,j]。
步骤S60:将更新后的第二Transformer作为Transformer并重复执行预设次数的步骤S20至步骤S50,以得到多个第二权重参数组和多个预测劣化度指标值,所述第二权重参数组、所述预测劣化度指标值以及所述超参数组三者之间一一对应;
示范性的,本实施例中,在对微调后的Transformer神经网络的超参数更新后,将重新执行步骤S202至步骤S40的过程,依次得到预训练好的Transformer神经网络的权重参数组Powerk、微调后的Transformer神经网络的权重参数组Powerk′以及误差集Ek;然后再执行步骤S50,并重复执行步骤S202至步骤S40,直至超参数组的的调试试验次数达到j次,以便在一定范围内找到预测效果最好的一组超参数。
步骤S70:基于与最小的预测劣化指标值对应的第二权重参数组和超参数组对第二Transformer的权重参数和超参数进行更新,得到时间序列预测模型。
示范性的,在本实施例中,找出j次实验中,误差集中误差最小的一组记为Ebest(即MAPE、MAE和MSE的值均最小),其对应的微调后的权重参数记为Powerb′est、超参数组记为HyperParameterbest,最后根据Powerb′est中的权重参数和HyperParameterbest中的超参数对微调后的Transformer的权重参数和超参数进行更新,即可得到时间序列预测模型。比如,本实施例得到的最优超参数组HyperParameterbest如下表1所示:
表1最优超参数组示例
seq_len(输入序列长度) | 96 |
pred_len(预测序列长度) | 24 |
enc_in(编码器输入长度) | 7 |
dec_in(解码器输入长度) | 7 |
c_out(模型输出长度) | 7 |
d_model(模型维度) | 512 |
n_heads(多头自注意力数) | 8 |
e_layers(编码器数量) | 2 |
d_layers(解码器数量) | 1 |
dropout(随机丢弃率) | 0.01 |
num_workers(数据读入头数) | 0 |
itr(训练次数) | 2 |
train_epochs(训练步数) | 100 |
batch_size(批处理大小) | 32 |
learning_rate(学习率) | 0.0001 |
由此可见,本实施例基于自注意力机制的Transformer架构对长时间序列的典型特征提取与记忆能力,使时间序列预测模型更加容易地应对电力负荷的未知波动,且通过迁移学习可对数据集更小的下游任务进行训练,以减轻模型训练的工作量并增强模型的泛化性能。因此,对于突发情况下的电力负荷波动,本实施例通过迁移长期负荷时间序列以及自注意力机制的记忆性,可使得时间序列预测模型能够对长期序列中的特征进行充分的提取并用于下游的预测,进而提升模型的预测精度和适应性。
此外,本实施例还基于多种机器学习算法与Transformer神经网络的迁移学习效果进行检验:利用预测后的误差统计数据,找到并说明本实施例提供的基于迁移学习的Transformer神经网络是最优预测模型,且可用于黑天鹅事件下的电力需求的预测。具体的,可选取ARIMA、SVR和LSTM三个不进行迁移学习的神经网络分别对电力负荷进行预测,并分别计算预测得到的MAPE、MAE和MSE误差指标;然后将不同机器学习算法得到的预测值及误差指标与本实施例提供的基于迁移学习的Transformer神经网络构建的时间序列预测模型的预测值及误差指标进行比对分析后,可知本实施例提供的时间序列预测模型的预测精确度最高,即三种误差指标均为最小,可用于紧急情况下的时间序列预测。
综上,本实施例利用基于自注意力机制的Transformer架构对长期时间序列预测到突发状况下的短期负荷预测进行了迁移学习,并获得了良好的预测精度,解决了由于训练时间序列长度不足而难以提取特征的难题。
参见图3所示,本申请实施例还提供了一种时间序列预测模型构建装置,包括:
预处理单元,其用于对多个观测时间对应的经济因素数据和电力负荷数据进行预处理,生成训练数据集和目标数据集;
第一训练单元,其用于基于训练数据集对基于迁移学习-自注意力机制神经网络模型Transformer进行初始化训练,得到第一Transformer及其第一权重参数组,所述第一权重参数组包括编码器参数和解码器参数;
第二训练单元,其用于基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练,得到第二Transformer及其第二权重参数组,所述第二权重参数组包括未调整的编码器参数和调整后的解码器参数;
计算单元,其用于基于目标数据集中的电力负荷实际值与第二Transformer输出的电力负荷预测值计算得到预测劣化度指标值;
更新单元,其用于基于预设的超参数信息对第二Transformer中的超参数组进行更新,得到更新后的第二Transformer;
控制单元,其用于将更新后的第二Transformer作为Transformer并控制第一训练单元、第二训练单元、计算单元和更新单元重复执行预设次数,以得到多个第二权重参数组和多个预测劣化度指标值,所述第二权重参数组、所述预测劣化度指标值以及所述超参数组三者之间一一对应;
构建单元,其用于基于与最小的预测劣化指标值对应的第二权重参数组和超参数组对第二Transformer的权重参数和超参数进行更新,得到时间序列预测模型。
进一步的,所述第一训练单元具体用于:
将训练数据集中的经济因素数据输入至Transformer的编码器进行训练,得到编码器处理后的第一数据;
将训练数据集中的电力负荷数据输入至Transformer的解码器进行训练,得到解码器中带掩码的解码器块处理后的第二数据;
基于第一数据和第二数据对解码器中的其他解码器块进行训练,得到第一Transformer及第一Transformer的第一权重参数组。
进一步的,在基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练的过程中,第二训练单元具体用于将第一Transformer的编码器冻结,以使第一权重参数组中的编码器参数在迁移学习训练的过程中不发生改变,仅对第一权重参数组中的解码器参数进行调整。
进一步的,所述预测劣化度指标值包括平均绝对百分比误差、平均绝对误差和均方误差中的至少一个。
需要说明的是,所属本领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各单元的具体工作过程,可以参考前述时间序列预测模型构建方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的时间序列预测模型构建设备上运行。
本申请实施例还提供了一种时间序列预测模型构建设备,包括:通过系统总线连接的存储器、处理器和网络接口,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行,以实现前述的时间序列预测模型构建方法的全部步骤或部分步骤。
其中,网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
处理器可以是CPU,还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程逻辑门阵列(FieldProgrammable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器,或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外,存储器可以包括高速随存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(SmartMedia Card,SMC)、安全数字(Secure digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现前述的时间序列预测模型构建方法的全部步骤或部分步骤。
本申请实施例实现前述的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Onlymemory,ROM)、随机存取存储器(RandomAccessmemory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种时间序列预测模型构建方法,其特征在于,包括以下步骤:
S10:对多个观测时间对应的经济因素数据和电力负荷数据进行预处理,生成训练数据集和目标数据集;
S20:基于训练数据集对基于迁移学习-自注意力机制神经网络模型Transformer进行初始化训练,得到第一Transformer及其第一权重参数组,所述第一权重参数组包括编码器参数和解码器参数;
S30:基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练,得到第二Transformer及其第二权重参数组,所述第二权重参数组包括未调整的编码器参数和调整后的解码器参数;
S40:基于目标数据集中的电力负荷实际值与第二Transformer输出的电力负荷预测值计算得到预测劣化度指标值;
S50:基于预设的超参数信息对第二Transformer中的超参数组进行更新,得到更新后的第二Transformer;
S60:将更新后的第二Transformer作为Transformer并重复执行预设次数的步骤S20至步骤S50,以得到多个第二权重参数组和多个预测劣化度指标值,所述第二权重参数组、所述预测劣化度指标值以及所述超参数组三者之间一一对应;
S70:基于与最小的预测劣化指标值对应的第二权重参数组和超参数组对第二Transformer的权重参数和超参数进行更新,得到时间序列预测模型。
2.如权利要求1所述的时间序列预测模型构建方法,其特征在于,步骤S20具体包括:
将训练数据集中的经济因素数据输入至Transformer的编码器进行训练,得到编码器处理后的第一数据;
将训练数据集中的电力负荷数据输入至Transformer的解码器进行训练,得到解码器中带掩码的解码器块处理后的第二数据;
基于第一数据和第二数据对解码器中的其他解码器块进行训练,得到第一Transformer及第一Transformer的第一权重参数组。
3.如权利要求2所述的时间序列预测模型构建方法,其特征在于:
在基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练的过程中,将第一Transformer的编码器冻结,以使第一权重参数组中的编码器参数在迁移学习训练的过程中不发生改变,仅对第一权重参数组中的解码器参数进行调整。
4.如权利要求1所述的时间序列预测模型构建方法,其特征在于:所述预测劣化度指标值包括平均绝对百分比误差、平均绝对误差和均方误差中的至少一个。
5.一种时间序列预测模型构建装置,其特征在于,包括:
预处理单元,其用于对多个观测时间对应的经济因素数据和电力负荷数据进行预处理,生成训练数据集和目标数据集;
第一训练单元,其用于基于训练数据集对基于迁移学习-自注意力机制神经网络模型Transformer进行初始化训练,得到第一Transformer及其第一权重参数组,所述第一权重参数组包括编码器参数和解码器参数;
第二训练单元,其用于基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练,得到第二Transformer及其第二权重参数组,所述第二权重参数组包括未调整的编码器参数和调整后的解码器参数;
计算单元,其用于基于目标数据集中的电力负荷实际值与第二Transformer输出的电力负荷预测值计算得到预测劣化度指标值;
更新单元,其用于基于预设的超参数信息对第二Transformer中的超参数组进行更新,得到更新后的第二Transformer;
控制单元,其用于将更新后的第二Transformer作为Transformer并控制第一训练单元、第二训练单元、计算单元和更新单元重复执行预设次数,以得到多个第二权重参数组和多个预测劣化度指标值,所述第二权重参数组、所述预测劣化度指标值以及所述超参数组三者之间一一对应;
构建单元,其用于基于与最小的预测劣化指标值对应的第二权重参数组和超参数组对第二Transformer的权重参数和超参数进行更新,得到时间序列预测模型。
6.如权利要求5所述的时间序列预测模型构建装置,其特征在于,所述第一训练单元具体用于:
将训练数据集中的经济因素数据输入至Transformer的编码器进行训练,得到编码器处理后的第一数据;
将训练数据集中的电力负荷数据输入至Transformer的解码器进行训练,得到解码器中带掩码的解码器块处理后的第二数据;
基于第一数据和第二数据对解码器中的其他解码器块进行训练,得到第一Transformer及第一Transformer的第一权重参数组。
7.如权利要求6所述的时间序列预测模型构建装置,其特征在于:
在基于目标数据集和第一权重参数组对第一Transformer进行迁移学习训练的过程中,第二训练单元具体用于将第一Transformer的编码器冻结,以使第一权重参数组中的编码器参数在迁移学习训练的过程中不发生改变,仅对第一权重参数组中的解码器参数进行调整。
8.如权利要求5所述的时间序列预测模型构建装置,其特征在于:所述预测劣化度指标值包括平均绝对百分比误差、平均绝对误差和均方误差中的至少一个。
9.一种时间序列预测模型构建设备,其特征在于,包括:存储器和处理器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现权利要求1至4中任一项所述的时间序列预测模型构建方法。
10.一种计算机可读存储介质,其特征在于:所述计算机存储介质存储有计算机程序,当所述计算机程序被处理器执行时,以实现权利要求1至4中任一项所述的时间序列预测模型构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211167271.7A CN116090327A (zh) | 2022-09-23 | 2022-09-23 | 时间序列预测模型构建方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211167271.7A CN116090327A (zh) | 2022-09-23 | 2022-09-23 | 时间序列预测模型构建方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116090327A true CN116090327A (zh) | 2023-05-09 |
Family
ID=86201295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211167271.7A Pending CN116090327A (zh) | 2022-09-23 | 2022-09-23 | 时间序列预测模型构建方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116090327A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575111A (zh) * | 2024-01-16 | 2024-02-20 | 安徽农业大学 | 一种基于迁移学习的农业遥感图像时空序列预测方法 |
-
2022
- 2022-09-23 CN CN202211167271.7A patent/CN116090327A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575111A (zh) * | 2024-01-16 | 2024-02-20 | 安徽农业大学 | 一种基于迁移学习的农业遥感图像时空序列预测方法 |
CN117575111B (zh) * | 2024-01-16 | 2024-04-12 | 安徽农业大学 | 一种基于迁移学习的农业遥感图像时空序列预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11798131B2 (en) | Method for processing image for improving the quality of the image and apparatus for performing the same | |
Jain et al. | Stock price prediction on daily stock data using deep neural networks | |
CN111275175A (zh) | 神经网络训练方法、装置、图像分类方法、设备和介质 | |
CN116090327A (zh) | 时间序列预测模型构建方法、装置、设备及可读存储介质 | |
CN114529051A (zh) | 基于层次残差自注意力神经网络的长期电力负荷预测方法 | |
Moya Rueda et al. | Neuron pruning for compressing deep networks using maxout architectures | |
CN112149797A (zh) | 神经网络结构优化方法和装置、电子设备 | |
Fan et al. | HFPQ: deep neural network compression by hardware-friendly pruning-quantization | |
CN115640510A (zh) | 一种电力时间序列数据特征提取方法、系统、设备和介质 | |
CN114357858A (zh) | 一种基于多任务学习模型的设备劣化分析方法及系统 | |
Qi et al. | Learning low resource consumption cnn through pruning and quantization | |
KR20210131894A (ko) | 훈련된 심층 신경망의 압축 장치 및 방법 | |
Zhang et al. | CMD: controllable matrix decomposition with global optimization for deep neural network compression | |
Shi et al. | Rate-distortion optimized post-training quantization for learned image compression | |
CN117175574A (zh) | 电力系统调度方法、装置、计算机设备和存储介质 | |
CN115409217B (zh) | 一种基于多专家混合网络的多任务预测性维护方法 | |
Feng et al. | Spatiotemporal prediction based on feature classification for multivariate floating-point time series lossy compression | |
CN116011682A (zh) | 一种气象数据预测方法、装置、存储介质及电子装置 | |
CN116737681A (zh) | 一种实时异常日志检测方法、装置、计算机设备和存储介质 | |
CN114595802A (zh) | 一种基于数据压缩的脉冲神经网络加速方法和装置 | |
WO2016110125A1 (zh) | 高维向量的哈希方法、向量量化方法及装置 | |
KR102184655B1 (ko) | 비대칭 tanh 활성 함수를 이용한 예측 성능의 개선 | |
CN114254726A (zh) | 低比特神经网络模型的获取方法、装置、设备及介质 | |
US20240020887A1 (en) | Conditional variational auto-encoder-based online meta-learned image compression | |
CN114727109B (zh) | 多媒体的量化处理方法、装置及编码、解码设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |