CN114091361B

CN114091361B - 基于气象事件的transformer模型构建方法

Info

Publication number: CN114091361B
Application number: CN202210076331.8A
Authority: CN
Inventors: 张博鑫; 张晶; 王晨; 孟健; 马政宇; 肖夏; 李宁宁; 张中泽; 尹月华; 李茂莹
Original assignee: Automotive Data of China Tianjin Co Ltd
Current assignee: Automotive Data of China Tianjin Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-17
Anticipated expiration: 2042-01-24
Also published as: CN114091361A

Abstract

本发明实施例公开了一种基于气象事件的transformer模型构建方法，涉及数学建模技术领域。其中，方法包括：确定每个气象事件对目标物的需求量的影响权重；得到每个历史时段的气象综合影响权重；根据每个气象事件对所述需求量的影响权重和后续时段每个气象事件出现的次数，得到后续时段的气象综合影响权重；将多个历史时段的气象综合影响权重、多个历史时段的历史需求量以及后续时段的气象综合影响权重输入至transformer模型，使所述transformer模型的输出逼近后续时段的需求量真实值。本实施例引入气象事件对需求量的影响权重，构建transformer模型，提高预测准确性。

Description

基于气象事件的transformer模型构建方法

技术领域

本发明实施例涉及数学建模技术，尤其涉及一种基于气象事件的transformer模型构建方法。

背景技术

很多物资的需求量会受天气事件的影响，例如雨雪天气会使汽车备件、防汛物资等的需求量上升。对于供应商来说，准备充足的物资直接影响到消费者的满意度甚至是社会的正常运转。

目前，供应商一般是收听天气预报后，凭借以往经验储备一定数量的物资，但是人为经验的准确性太低。而对于现有的预测模型，无法区分气象事件对预测值的影响程度，且不会考虑未来的气象事件，从而预测的准确性偏低。

发明内容

本发明实施例提供一种基于气象事件的transformer模型构建方法、设备和介质，引入气象事件对需求量的影响权重，构建预测模型——transformer模型，以便得到可以预测未来需求量的模型，提高预测准确性。

第一方面，本发明实施例提供了一种基于气象事件的transformer模型构建方法，

确定多个气象事件，以及每个气象事件对目标物的需求量的影响权重；

根据每个气象事件对所述需求量的影响权重和每个历史时段每个气象事件出现的次数，得到每个历史时段的气象综合影响权重；

根据每个气象事件对所述需求量的影响权重和后续时段每个气象事件出现的次数，得到后续时段的气象综合影响权重；

将多个历史时段的气象综合影响权重、多个历史时段的历史需求量以及后续时段的气象综合影响权重作为训练样本输入至初始的transformer模型，通过迭代transformer模型的参数，使所述transformer模型的输出逼近后续时段的需求量真实值。

第二方面，本发明实施例还提供了一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如任一实施例所述的基于气象事件的transformer模型构建方法。

第三方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现任一实施例所述的基于气象事件的transformer模型构建方法。

本发明实施例首先确定多个气象事件以及对目标物的需求量的影响权重，进而得到每个历史时段的气象综合影响权重，以及后续时段的气象综合影响权重，即得到了多个气象事件在整个时间段内对需求量的综合影响；本实施例将气象综合影响权重和历史需求量共同作为训练样本，以便学习到气象对需求量的影响；将后续时段的气象综合影响权重也作为训练样本，以便得到在后续时段气象影响下的需求量预测值。此外，本实施例采用transformer模型作为预测模型，利用transformer模型的核心原理：Attention机制，不仅可以提取需求量中的周期性、趋势性特征，还可以通过后续时段的气象综合影响权重，解析对未来需求的实际影响。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于气象事件的transformer模型构建方法的流程图；

图2是本发明实施例提供的模型的输入输出示意图；

图3是本发明实施例提供的transformer模型的内部结构图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行清楚、完整的描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明实施例提供一种基于气象事件的transformer模型构建方法，适用于构建在天气事件的影响下预测目标物的需求量的模型。该方法可以由电子设备执行。参见图1，本实施例提供的方法包括：

S110、确定多个气象事件，以及每个气象事件对目标物的需求量的影响权重。

本实施例中的气象事件是对目标物的需求量有影响的事件。以汽车备件为例，根据业务调研，大雨，大雪，冰雹，沙尘，雾霾，台风以及极端气温等气象事件对于汽车的部分零部件影响较大，因此将其他常规天气，如晴天、小雨、多云等天气统一处理为常规。综上，将全部天气划分为八大类。进一步的，根据极端气象事项的等级，将中-大程度的气象事件归纳整理至相应类别，使用one-hot编码技术对这八类离散的气象时间进行数学表达。

不同气象事件对需求量的影响程度不同，例如大雨、大雪和冰雹等天气会对车辆造成较大程度的损坏，影响程度较大，而雾天对车辆的损坏程度较小，影响程度也就较小。因此可以设置每个气象事件对需求量的影响权重，可以通过人为设置或者模型学习，本实施例在此不作限定。

S120、根据每个气象事件对所述需求量的影响权重和每个历史时段每个气象事件出现的次数，得到每个历史时段的气象综合影响权重。

除了气象事件本身，气象事件出现的次数（或者持续的时长）也对需求量有重要影响。本实施例将多个气象事件的影响权重作为行向量{w1,w2,w3,w4,w5,w6,w7,w8}，各气象事件作为行，时段数（例如4个月）作为列构建矩阵

，该矩阵中的元素表示每个时段每个气象事件出现的次数。将影响权重的行向量与矩阵相乘，得到4个月的气象综合影响权重[WI1,WI2,WI3,WI4]。

S130、根据每个气象事件对所述需求量的影响权重和后续时段每个气象事件出现的次数，得到后续时段的气象综合影响权重。

由于需要预测后续时段天气事件影响下的需求量，因此还需要计算后续时段的气象综合影响权重，计算方法与S120相同，此次不再赘述。

S140、将多个历史时段的气象综合影响权重、多个历史时段的历史需求量以及后续时段的气象综合影响权重作为训练样本输入至初始的transformer模型，通过迭代transformer模型的参数，使所述transformer模型的输出逼近后续时段的需求量真实值。

初始的transformer模型是未经训练的模型。本实施例令该模型学习历史时段气象综合影响权重与历史需求量的关系，并在后续时段气象综合影响权重下，得到需求量预测值。通过令需求量预测值逼近后续时段的需求量真实值，得到transformer模型最终的参数，从而预测模型构建完成。

可选的，通过迭代transformer模型的参数，使所述transformer模型的输出逼近后续时段的需求量真实值，包括：

构建目标函数：

通过最小化所述目标函数的值MSE，迭代transformer模型的参数。其中，m为训练样本的batch数，yi表示第i个训练样本对应的后续时段需求量真实值，

表示第i个训练样本对应的后续时段需求量预测值。在一实际应用场景中，历史4个月的气象综合影响权重、历史需求量和后续4个月的气象综合影响权重作为1组训练样本。可选的，使用Adam优化器，训练模型。

在上述实施例和下述实施例中，对transformer模型的结构和各部分的操作进行细化。本实施例对现有的transformer模型进行改进，参见图2，仅包括Embedding环节，与所述Embedding环节的输出连接的Decode环节，与所述Decode环节的输出连接的线性层Linear，线性层输出需求量预测值。

为了学习到特征之间的关联，首先需要进行升维处理。可选的，将多个历史时段的气象综合影响权重、多个历史时段的历史需求量以及后续时段的气象综合影响权重作为训练样本输入至初始的transformer模型，包括：将多个历史时段的气象综合影响权重进行升维处理，将所述多个历史时段的历史需求量进行升维处理，将后续时段的气象综合影响权重进行升维处理。例如添加交互式特征。示例性的，将历史4个月的气象综合影响权重[WI1,WI2,WI3,WI4]升维到

，其中，n为大于等于2的整数。将4个月的历史需求量[a1,a2,a3,a4]升维到

，将后续时段的气象综合影响权重[WY1,WY2,WY3,WY4]升维到

。这里需要说明的是，由于现实生活中后续1个月内的气象事件比较可信，且仅需要预测后续1个月的需求量，则保留升维处理后的后续时段的气象综合影响矩阵中对应下一时段（即后续1个月）的数据；将后续其它时段的数据设置为极小值，例如0，从而屏蔽掉后续其它时段的数据，同时可以根据后续天气情况，得到不同天气对于需求量的影响。相应的，在计算目标函数时，仅采用下一时段的真实值和预测值。transformer模型还需要输入多个历史时段的气象综合影响矩阵中各元素的位置矩阵

。

然后，将升维处理后的多个历史时段的气象综合影响矩阵和历史需求量矩阵，以及多个历史时段的气象综合影响矩阵中各元素的位置矩阵进行对应元素相加；将相加后的矩阵作为训练样本输入至初始的transformer模型的Embedding环节；将升维处理后的后续时段的气象综合影响矩阵作为训练样本输入至初始的transformer模型的Decode环节。

本实施例通过编码器部分（Embedding环节）输入的历史需求量，以及历史时段的气候综合影响矩阵，学习到历史需求量与气象事件之间存在的相关性，并将其通过编码器映射到更高的维度，得到了多个历史时段的需求量和气象事件的表示向量。通过解码器部分（Decode环节）输入后续时段的气象综合影响矩阵，与编码器输出的历史时段的需求量和气象事件的表示向量相结合，得到后续时段的需求量预测值。

图3是本发明实施例提供的transformer模型的内部结构图，本实施例具体介绍Embedding环节和Decode环节。

Embedding环节包括相互连接的多头注意力层Multi_Head Attention、前馈神经网络层Feed-forward networks和相加归一化层Add&Norm。

所述将相加后的矩阵作为训练样本输入至初始的transformer模型的Embedding环节，包括：将相加后的矩阵进行行分解和列分解，并将每行的多个向量输入至多头注意力层的每个self-attention单元，得到每个历史时段的全部信息在不同空间的映射；所述全部信息包括气象综合影响权重、历史需求量和气象综合影响矩阵中各元素的位置；根据每个历史时段的全部信息在不同空间的映射，计算每个历史时段与其它历史时段的相关性；以及，根据每个历史时段与其它历史时段的相关性，计算每个历史时段与其它历史时段的注意力；采用所述相加归一化层对多头注意力层、前馈神经网络层的输出进行相加和归一化处理；采用所述前馈神经网络层对相加和归一化处理后的注意力进行非线性处理。

相加后的矩阵每行代表一个历史时段，每个元素包括气象综合影响权重、历史需求量和气象综合影响矩阵中各元素的位置。可选的，x₁和x₂是第一行的2个向量，输入至一self-attention单元。而W^q、W^k、W^v分别代表3个权重矩阵，且W∈R^dmodel×V（代表参数向量的长度)。这3个矩阵最开始就是随机初始的，然后通过训练不断优化矩阵，最后得到模型所需的权重矩阵。而Self-attention与其他注意力机制不一样的地方就在于他的q、k、v向量都是同一个输入在不同空间的映射，数学表达就是：

由以上公式得到了同一向量不同空间的映射q、k、v。使用3个不同空间的线性映射，来计算每个历史时段与其它历史时段的相关性e_ij，序号i表示每行进行列分解得到的向量序号，j表示行向量的序号。

上式中表达的含义是每个历史时段的q向量跟其它历史时段的k向量做点乘，结果除以参数向量长度d_model的开方，这样做的原因是随着参数向量长度的增加，历史时段之间的相关性会呈现一种指数性下降，做几何开方减少某一极端数值对模型的影响。特别是归一化时要进行幂指操作，现在较小的差距将会在后面的计算中不断扩大。为减少异常值对模型的影响，对每个历史时段的相关性分数做归一化：

T是历史时段数，这一步选择使用Softmax函数对相关性分数做归一化，使所有数值均为正数。接着就是计算注意力得分：

上式的含义是将每个历史时段的相关性分数与其它任一历史时段的v向量点乘，然后加起来得到最终这个历史时段关于其它历史时段注意力得分。至于为什么要乘v向量，是尽量保证想要关注的时段的值保持不变，而掩盖掉其中可能存在的很小的数值。

在图3中可以看到，每次进行Attention、前馈神经网络之后都会连接相加归一化层用于进行残差连接，做残差连接加速收敛的同时又可以保持信息不会因此而丢失。

加入前馈神经网络FFN可以使得模型有更好的效果，主要是进行对数据进行非线性，选择的激活函数是ReLU。前馈神经网络层的输出将作为Decode环节的输入。

继续参见图3，Decode环节包括相互连接的多头注意力层Multi_Head Attention、编码器-解码器注意力机制层En-De Attention、前馈神经网络层Feed-forward networks和相加归一化层Add&Norm。

将升维处理后的后续时段的气象综合影响矩阵作为训练样本输入至初始的transformer模型的Decode环节，包括：将升维处理后的后续时段的气象综合影响矩阵进行行分解和列分解，并将每行的多个向量输入至多头注意力层的每个self-attention单元，得到后续每个时段的气象综合影响权重在不同空间的映射；根据后续每个时段的气象综合影响权重在不同空间的映射，计算后续每个时段与其它时段的相关性；以及，根据后续每个时段与其它时段的相关性，计算后续每个时段与其它时段的注意力；采用所述相加归一化层对多头注意力层、编码器-解码器注意力机制层、前馈神经网络层的输出进行相加和归一化处理；采用编码器-解码器注意力机制层对Embedding环节的输出以及相加和归一化处理后的多头注意力层的输出进行运算；采用所述前馈神经网络层对相加和归一化处理后的多头注意力层的输出进行非线性处理。

Decode环节与Encode环节相差不大，区别在于Encoder-Decoder attention层。Encoder-Decoder attention层与前文所述的注意力机制其实并无二异，只是与矩阵W^Q相乘的向量来自于编码器的输出，而与W^K,W^V相乘的向量则是来自于解码器的Multi_HeadAttention。

在上述实施例和下述实施例中，参见图2，所述确定多个气象事件，以及每个气象事件对目标物的需求量的影响权重，包括以下两步：

第一步：获取多个历史时段的历史需求量和与各历史需求量时空一致的气象事件。

可选的，获取多个历史时段的历史需求量和各历史时段的气象事件；按照时段一致且空间临近原则，确定时空一致的历史需求量和气象事件。具体的，采用网络爬虫技术，自动从气象网站上采集主要城市各时段的气象事件。从供应商的销售数据中获取目标物在各时段的需求量。整理同时段的气象事件和历史需求量，如果使用城市作为统计单位，会存在气象事件中包含的城市数多于历史需求量包含的城市数这一情况，对于这种情况，根据空间临近原则，将气象事件中包含但历史需求量中不包含的城市数据归类到临近主要城市即可。通过这一步的操作，实现了气象事件与历史需求量的时空一致。

第二步：将多个历史时段的历史需求量和多个气象事件输入至梯度提升树XGBoost模型，得到每个气象事件对需求量的影响权重。

本实施例使用XGBoost梯度提升树模型对天气事件对需求量的影响进行量化分析。XGBoost模型的输入/训练样本包括：步长内（人工设置）各个历史时段的需求量、气象事件以及当月月份，模型的输出/标签为下一时段的需求量预测值。根据XGBoost模型的计算原理，会根据样本输入的所有特征，循环计算出各个特征的收益，也就是对结果的影响。据此，可以得到全部气象事件对目标物的影响权重。通过对气象事件的影响分析，可以得出对某一个或者是某一类目标物而言，哪些气象事件的影响是巨大的，根据其重要程度，进行量化分析。通过XGBoost模型最终得到，各天气事件对于目标物的影响权重序列，该权重序列会加入到后续的预测模型的训练中。通过该步骤的影响权重量化分析，可以有效提升后续预测模型的准确度。需要说明的是，在XGBoost模型的训练过程中得到影响权重，因此，需要获知下一时段需求量真实值。例如当前是6月，则历史时段为1~4月，下一时段是5月，采用1~4月的需求量作为训练样本，5月的真实需求量为标签训练XGBoost模型。影响权重一旦确定，可不必再更新。预测模型（例如transformer模型）训练时采用的训练样本可以与XGBoost模型相同。预测模型（例如transformer模型）训练好后，输入数据中：历史时段可以是2~5月，下一时段是6月，6月没有需求量真实值，只有需求量预测值。

图4为本发明实施例提供的一种电子设备的结构示意图，如图4所示，该设备包括处理器40、存储器41、输入装置42和输出装置43；设备中处理器40的数量可以是一个或多个，图4中以一个处理器40为例；设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于气象事件的transformer模型构建方法对应的程序指令/模块。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的基于气象事件的transformer模型构建方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例的基于气象事件的transformer模型构建方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于气象事件的transformer模型构建方法，其特征在于，包括：

将多个历史时段的气象综合影响权重、多个历史时段的历史需求量以及后续时段的气象综合影响权重作为训练样本输入至初始的transformer模型，通过迭代transformer模型的参数，使所述transformer模型的输出逼近后续时段的需求量真实值；

所述将多个历史时段的气象综合影响权重、多个历史时段的历史需求量以及后续时段的气象综合影响权重作为训练样本输入至初始的transformer模型，包括：

将多个历史时段的气象综合影响权重进行升维处理，将所述多个历史时段的历史需求量进行升维处理，将后续时段的气象综合影响权重进行升维处理；

将升维处理后的多个历史时段的气象综合影响矩阵和历史需求量矩阵，以及多个历史时段的气象综合影响矩阵中各元素的位置矩阵进行对应元素相加；

将相加后的矩阵作为训练样本输入至初始的transformer模型的Embedding环节；

将升维处理后的后续时段的气象综合影响矩阵作为训练样本输入至初始的transformer模型的Decode环节。

2.根据权利要求1所述的方法，其特征在于，在所述将升维处理后的后续时段的气象综合影响矩阵作为训练样本输入至初始的transformer模型的Decode环节之前，还包括：保留升维处理后的后续时段的气象综合影响矩阵中对应下一时段的数据；

将后续其它时段的数据设置为极小值。

3.据权利要求1所述的方法，其特征在于，所述transformer模型包括Embedding环节，与所述Embedding环节的输出连接的Decode环节，与所述Decode环节的输出连接的线性层。

4.根据权利要求3所述的方法，其特征在于，所述Embedding环节包括相互连接的多头注意力层、前馈神经网络层和相加归一化层；

所述将相加后的矩阵作为训练样本输入至初始的transformer模型的Embedding环节，包括：

将相加后的矩阵进行行分解和列分解，并将每行的多个向量输入至多头注意力层的每个self-attention单元，得到每个历史时段的全部信息在不同空间的映射；所述全部信息包括气象综合影响权重、历史需求量和气象综合影响矩阵中各元素的位置；

根据每个历史时段的全部信息在不同空间的映射，计算每个历史时段与其它历史时段的相关性；以及，根据每个历史时段与其它历史时段的相关性，计算每个历史时段与其它历史时段的注意力；

采用所述相加归一化层对多头注意力层、前馈神经网络层的输出进行相加和归一化处理；

采用所述前馈神经网络层对相加和归一化处理后的注意力进行非线性处理。

5.根据权利要求3所述的方法，其特征在于，所述Decode环节包括相互连接的多头注意力层、编码器-解码器注意力机制层、前馈神经网络层和相加归一化层；

所述将升维处理后的后续时段的气象综合影响矩阵作为训练样本输入至初始的transformer模型的Decode环节，包括：

将升维处理后的后续时段的气象综合影响矩阵进行行分解和列分解，并将每行的多个向量输入至多头注意力层的每个self-attention单元，得到后续每个时段的气象综合影响权重在不同空间的映射；

根据后续每个时段的气象综合影响权重在不同空间的映射，计算后续每个时段与其它时段的相关性；以及，根据后续每个时段与其它时段的相关性，计算后续每个时段与其它时段的注意力；

采用所述相加归一化层对多头注意力层、编码器-解码器注意力机制层、前馈神经网络层的输出进行相加和归一化处理；

采用编码器-解码器注意力机制层对Embedding环节的输出以及相加和归一化处理后的多头注意力层的输出进行运算；

采用所述前馈神经网络层对相加和归一化处理后的多头注意力层的输出进行非线性处理。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述通过迭代transformer模型的参数，使所述transformer模型的输出逼近后续时段的需求量真实值，包括：

构建目标函数：

通过最小化所述目标函数的值MSE，迭代transformer模型的参数；

其中，m为训练样本的batch数，yi表示第i个训练样本对应的后续时段需求量真实值，

表示第i个训练样本对应的后续时段需求量预测值。

7.根据权利要求1-5任一项所述的方法，其特征在于，所述确定多个气象事件，以及每个气象事件对目标物的需求量的影响权重，包括：

获取多个历史时段的历史需求量和与各历史需求量时空一致的气象事件；

将所述多个历史时段的历史需求量和多个气象事件输入至梯度提升树XGBoost模型，得到每个气象事件对需求量的影响权重。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于气象事件的transformer模型构建方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的基于气象事件的transformer模型构建方法。