CN110956342A

CN110956342A - 基于注意力机制的CliqueNet航班延误预测方法

Info

Publication number: CN110956342A
Application number: CN202010002111.1A
Authority: CN
Inventors: 屈景怡; 曹磊; 蔡为; 贾云飞; 陈敏; 杨俊�
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-04-03

Abstract

本发明提供了一种基于注意力机制的CliqueNet航班延误预测方法，包括1)对航班数据做预处理，对连续数据和离散数据分别进行Min‑Max和Mean‑Encoder,构建输入矩阵R；2)利用随机连接团簇和双重标定对1)中数据特征提取；3)重复1)、2)得到最终特征矩阵；4)将3)得到的特征矩阵进行全局平均池化，利用分类器进行分类，并计算此次网络训练的损失值；5)利用误差反向传播算法，计算各层误差项和权值梯度；6)根据4)中数据判断网络是否收敛，若不收敛，则重复5)。本发明所述的基于注意力机制的CliqueNet航班延误预测方法，通过随机团簇连接可以更好的进行特征图之间的信息传递并且降低网络的连接参数。

Description

基于注意力机制的CliqueNet航班延误预测方法

技术领域

本发明属于深度学习以及大数据技术领域，尤其是涉及一种基于注意力机制的CliqueNet航班延误预测方法。

背景技术

随着社会的发展，互联网的发展积累了大量的数据，为深度学习提供了大数据学习的基础。与之相关的卷积神经网络，在近年来取得了一些突破性进展。研究学者都从网络的深度、结构等方面来提升性能。循环的环状网络，是神经网络一个重要的网络结构研究方向。

目前，国内外学者在对航班延误预测、预警和维护航班正常运行等方面做出了大量针对性研究，但是多采用贝叶斯网络、马尔科夫链、随机森林等较为传统的统计分析方法。支持向量机、线性回归和神经网络等预测模型只是作为单一数据样本的预测模型。这些较为传统的统计分析方法算法得到的准确率相对较低。此外，上述算法针对的数据样本较小，面对高维度样本不能对背后的数据规律进行很好的拟合。

基于大数据的深度学习方法发展迅速。目前，类脑智能研究和神经网络在计算机视觉、自动驾驶、模式识别等领域均得到了广泛的应用，其性能远高于传统的统计学习算法。其中，卷积神经网络(Convolutional Neural Networks，CNN)取得了较大突破。提出一种更高效的随机连接CliqueNet的仿生人脑注意力机制网络模型，并针对不同的Transition层进行讨论，充分结合注意力机制的优势，在融合气象信息的航班数据上进行验证。

发明内容

有鉴于此，本发明旨在提出一种基于注意力机制的CliqueNet航班延误预测方法，以提供一种计算速度快、精度高的神经网络预测方法。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于注意力机制的CliqueNet航班延误预测方法，包括按顺序进行的下列步骤：

步骤一：对航班数据做数据预处理，对连续数据和离散数据分别进行Min-Max编码和Mean-Encoder编码,构建输入矩阵R；

步骤二：利用随机连接团簇和双重标定对步骤一中预处理的数据进行特征提取；

步骤三：重复步骤一、步骤二，得到最终特征矩阵；

步骤四：将上述步骤三得到的最终特征矩阵进行全局平均池化，并输入全连接层变为一维特征矩阵，利用softmax分类器对一维特征矩阵进行分类，并使用交叉熵损失函数计算此次网络训练的损失值；

步骤五：利用误差反向传播算法进行梯度计算，计算各层误差项和权值梯度；

步骤六：根据步骤四中所得损失值判断网络是否收敛，如判定结果为不收敛，则重复所述步骤五，直到网络收敛为止。

进一步的，步骤一的具体方法为：对航班数据预处理，预处理主要为对航班数据进行清洗和编码，对异常值使用SQL语句直接进行删除；较少比例的缺省值，直接采用均值进行填充，并对连续性特征和高基数离散特征的数据分别采用Min-Max和Mean-Encoder编码，构建输出矩阵R。

进一步的，步骤二的具体的方法为：对航班延误数据进行数据预处理之后，输入到神经网络模型当中，然后经过改进的随机连接团簇，随即连接团簇在第一阶段输入层X₀对所有层进行初始化，每个更新层与下一层相连，准备更新下一层，在第二阶段，各层的网络之间进行随机的传递，按照以下公式进行计算：

其中

分别表示相对于第i层X_i ^(k)的前、后层的特征，k值表示第几阶段，W_li和W_hi依次表示和前后层做卷积操作的参数，本文中卷积操作均用*表示，g(θ,s)表示算计函数，参数θ表示输入特征值，参数s表示随机种子，使用随机团簇连接时，将s从2计数，即保证每层输入至少来自其它2层的输入，最大取值为团簇中设置的层数，即s＝range[2,layer_num]，f(·)表示非线性激活函数，用与参数传递的非线性映射；将第一个团簇提取得到的特征图输入到转换层进行双重标定；

进一步的，所述步骤四的具体方法为：将所述步骤三的特征矩阵输入到全局平均池化层，同时输入到全连接层当中，得到一维输入矩阵，提取的最终特征由全局池化层将维度大小为n×n×c的矩阵转换为一维向量V＝[v₁,v₂,···,v_c]，全连接后经过Softmax分类器，按照以下公式计算，后输出loss交叉熵损失数值函数，

将V映射成s_i一维概率向量并取对数与标签值{y⁽ⁱ⁾＝j}做交叉熵运算，即得到向量空间中两个向量空间的距离，并根据结果中概率最大值做出预测。

进一步的，所述步骤五的具体方法为：定义标签和预测值之间的误差函数，通过随机梯度下降不断调整网络的权重和偏置，使网络不断拟合目标函数。

进一步的，所述步骤六的具体方法为：根据步骤五对网络的初始化参数进行调整，并进行神经网络的训练不断调整参数，将分类结果和实际值比对并计算差值而作为损失值，然后将损失值和实现设定的分类阈值做比较，如果损失值小于分类阈值则判定网络收敛，否则判定为不收敛；当判定结果为收敛时，输出网络结果，当判定结果为不收敛时，则根据公式

调整卷积神经网络初始化参数，其中，W^l表示第l层的输出权重，

表示损失函数对权重的导数，η为学习率。

相对于现有技术，本发明所述的基于注意力机制的CliqueNet航班延误预测方法具有以下优势：

(1)本发明所述的基于注意力机制的CliqueNet航班延误预测方法，通过随机团簇连接可以更好的进行特征图之间的信息传递并且降低网络的连接参数。

(2)本发明所述的基于注意力机制的CliqueNet航班延误预测方法，使用CSARblock的注意力机制嵌入在特征层中完成特征重新标定，增加了网络的最终的准确率。

(3)本发明所述的基于注意力机制的CliqueNet航班延误预测方法，采用多层的网络连接，在反向传播时候会减少梯度消失的概率。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的随机团簇连接预测方法的流程图。

图2为本发明实施例所述的特征提取与全连接比较的随机团簇连接图；

图3为本发明实施例所述的注意力机制双重标定的转换层图；

图4为本发明实施例所述的航班延误整体模型预测图；

图5为本发明实施例所述的在美国航班延误数据集上面的不同连接方式的结果变化结果比较变化曲线一；

图6为本发明实施例所述的在美国航班延误数据集上面的不同连接方式的结果变化结果比较变化曲线二；

图7为本发明实施例所述的在美国航班延误数据集上面的不同转换层的结果变化比较曲线一；

图8为本发明实施例所述的在美国航班延误数据集上面的不同转换层的结果变化比较曲线二。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

名词解释：

CSARblock：channel-wise and spatial attention residual block，通道和空间注意力机制残差模块。

CliqueNet：中文指团簇神经网络。

Min-Max编码：中文指归一化编码。

Mean-Encoder编码：中文指均值编码。

基于注意力机制的CliqueNet航班延误预测方法，如图1至图8所示，包括按顺序进行的下列步骤：1)对航班数据做数据清洗后，分别对连续数据和离散数据分别进行Min-Max编码和Mean-Encoder编码，构建输入矩阵R；将数据集整理为航班数据、机场数据、气象数据三个数据集并给出定义：F、A、W；为了保持三部分数据集时间和空间上的一致性，在空间维度上通过机场ID、航班起飞/到达机场ID和观测站所在机场ID进行关联，并通过各个数据集的时间戳进行关联确保三部分的数据集保持时间上的一致性。并使用SQL语句对数据进行清理。分别设置关联键值，得到＜flight_key,f＞；＜airport_key,a＞；＜weather_key,w＞；将上述数据中具有相同key的数据执行merge操作，即相同主键的数据进行连接，得到融合后的数据集r。

具体的，对航班数据进行预处理，预处理主要为对航班数据进行清洗和编码，其中异常数据主要包括异常值和缺省值两类数据。本文针对异常值使用SQL语句直接进行删除。较少比例的缺省值，直接采用均值进行填充，并对连续性特征和高基数离散特征的数据分别采用Min-Max和Mean-Encoder编码，构建输出矩阵R。

2)将步骤1)分别利用特征图随机连接的团簇和转换层的注意力机制的双重标定对航班延误的数据矩阵R进行特征提取；

对航班延误数据进行数据预处理工作，利用卷积操作做出最初的特征提取，得到输入特征图。分别通过随机连接的团簇和特征双重标定的注意力机制的运算，对输入特征图进行特征提取。

将所述的步骤1)输入数据集经过初始卷积层得到输入特征图，由随机团簇和转换层组合成的CliqueNet模型对输入特征图进行特征提取，团簇中的特征层之间保持随机传递，随机传递的图层取值范围是：s＝range[2,layer_num]。转换层中使用CSARblock进行特征重新标定，得到输出矩阵。将得到的输出矩阵，输入到预测模型中经过卷积神经网络得到初始特征图，经过随机连接的团簇进行特征提取，并且有转换层的双重标定进而提高准确率。

具体的方法为：

对航班延误数据进行数据预处理之后，输入到神经网络模型当中，然后经过改进的随机连接团簇，其结构图如图2所示。在图中对比给出了全连接和随机连接的不同，图5和图6给出不同连接方式的比较结果。随即连接团簇在第一阶段输入层X₀对所有层进行初始化，每个更新层与下一层相连，准备更新下一层。在第二阶段，各层的网络之间进行随机的传递，按照以下公式进行计算：

其中

分别表示相对于第i层X_i ^(k)的前、后层的特征。

k值表示第几阶段。

W_li和W_hi依次表示和前后层做卷积操作的参数，

本文中卷积操作均用*表示。g(θ,s)表示算计函数，参数θ表示输入特征值，参数s表示随机种子，使用随机团簇连接时，该方法为了继承CliqueNet中全连接中最大化信息传递的优势，将s从2计数，即保证每层输入至少来自其它2层的输入，最大取值为团簇中设置的层数。即s＝range[2,layer_num]。f(·)表示非线性激活函数，用与参数传递的非线性映射。

将第一个团簇提取得到的特征图输入到转换层，进行双重标定

CSAR注意力机制模块中，U＝[u₁,u₂,...,u_C]作为输入特征单元，表示尺寸为H×W，通道数为C的特征图层。分两个分支传播：通道注意力维度和空间注意力维度；在通道维度中对每个特征通道进行全局池化，得到信道描述符z_c∈R^C×1×1，u_c(i,j)表示通道u_c第(i,j)位置上的数值，如公式(2)所示；σ(·)和δ(·)分别表示sigmoid和ReLU函数；作为门控机制在传播过程中学习特征通道间的非线性交互得到特征图α，

为第一层卷积运算的权重矩阵和偏置参数矩阵，z为与之卷积的信道描述符。

为第二层卷积运算的权重矩阵和偏置参数矩阵。

最后通过f_C(·)将特征图α和特征通道U相乘得到最终的输出U_C

U_C＝f_c(U,α) (4)

通道维度中使用全局池化将全局的空间信息压缩到信道描述符中，并在此基础之上，我们引入一种互补的空间维度上的特征重标定，如图3所示，以增加网络的性能。网络前向结构设计中，将输入特征U经过两层卷积神经网络得到空间标定因子β∈R^1×H×W；

为第一层卷积运算的权重矩阵和偏置参数矩阵。

为第二层卷积运算的权重矩阵和偏置参数矩阵。做两次卷积运算后使用sigmoid函数σ(·)对第一层网络产生的特征图元素映射到区间[0,1]中，得到空间标定因子β，如公式(5)所示。

U_S＝f_S(U,β) (6)

U_O＝φ(·)＝W_φ*[U_C,U_S]+b_φ (7)

然后与输入特征U做乘积运算，得到输出特征图U_S；其中，f_S(·)表示将特征图空间位置上的元素与对应的空间标定因子相乘，如公式(6)所示。最后，由φ(·)分别对U_C和U_S做卷积操作得到最终输出特征U_O＝[u₁,u₂,...,u_C']，其中W_φ，b_φ分别表示权重和偏置参数，如公式(7)。

3)重复步骤1)、步骤2)，得到最终输出特征矩阵；

4)将上述步骤3)得到的最终特征矩阵进行全局平均池化并输入全连接层变为一维特征矩阵，并利用softmax分类器对一维特征矩阵进行分类，并使用交叉熵损失函数计算此次网络训练的损失函数最小值；

将上述步骤3)的特征矩阵输入到全局平均池化层，同时输入到全连接层当中，得到一维输入矩阵，提取的最终特征由全局池化层将维度大小为n×n×c的矩阵转换为一维向量V＝[v₁,v₂,···,v_c]，全连接后经过Softmax分类器，按照以下公式计算，后输出loss交叉熵损失数值函数。

5)利用误差反向传播算法进行梯度计算，计算各层误差项和权值梯度。

利用误差反向传播算法进行梯度计算，计算各层误差项和权值梯度。即定义标签和预测值之间的误差函数，通过随机梯度下降不断调整网络的权重和偏置，使网络不断拟合目标函数，进而得到学习的目的。反向传播中，主要为梯度值和误差项的计算，梯度由误差项推导得出。以下对CliqueNet中一个4层随机连接团簇的实例进行梯度计算推导。首先，依据BP算法，隐藏层的误差项，由第l层第i幅特征图的误差导出，然后利用误差项公式计算出隐藏层梯度；

其中J表示定义的损失函数，

分别为第l+1层中第i幅特征图；

表示第l+1层与第l层中第i幅特征图到第j幅特征图的映射矩阵

表示第l卷积层中第i幅响应特征图，f'(·)表示为该层激活函数的导数，

表示损失函数对l卷积层中第i幅响应特征图的导数。

表示l-1的输出特征图；

表示损失函数对对隐藏层权值的导数。“*”和

分别表示卷积和反卷积操作，同理可以求出中的隐藏层的误差项迭代关系：

······

上述计算过程中，U^kn表示各底层的输出特征值，

表示损失函数对其的导数，记为ξ^kn；f'(·)表示对对应的底层特征图求导；“*”和

分别表示卷积和反卷积操作。同理类推，可以得出Stage-II的各隐藏层的误差项计算：

根据上述推导，可计算隐藏层梯度：

上式中ξ^kn表示由前面推导得到各顶层的误差项，W^kn表示与之对应的权重矩阵，U表示输入特征图，

表示反向传播中对损失函数对第一层的求导。从反向传播的推导过程中可以看出，由于团簇随机连接方式，在计算激活函数导数时候，其特征值输入不仅仅来自前面级联网络层，也会随机包含其它网络层传入的特征数值。各隐藏层梯度计算完成之后需要调用随机梯度下降函数，

表示t状态下的第一层权重，

表示由公式(19)得出的误差项导数，η表示学习率，

表示t+1状态的权重矩阵。以不断更新权重参数，直到网络收敛。

6)根据步骤4)中所得损失值判断网络是否收敛，如不收敛，依据步骤5)重复反向传播算法，直到网络收敛为止。

具体方法为：根据步骤5)对网络的初始化参数进行调整并进行神经网络的训练不断调整参数。即将分类结果和实际值比对并计算差值而作为损失值；然后将损失值和实现设定的分类阈值做比较，如小于分类阈值则判定网络收敛，否则不收敛；最后，如收敛输出网络结果，否则根据公式，

调整卷积神经网络初始化参数，W^l表示第l层的输出权重，

表示损失函数对权重的导数；η为学习率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于注意力机制的CliqueNet航班延误预测方法，其特征在于：包括按顺序进行的下列步骤：

步骤三：重复步骤一、步骤二，得到最终特征矩阵；

2.根据权利要求1所述的基于注意力机制的CliqueNet航班延误预测方法，其特征在于：所述步骤一的具体方法为：对航班数据预处理，预处理主要为对航班数据进行清洗和编码，对异常值使用SQL语句直接进行删除；较少比例的缺省值，直接采用均值进行填充，并对连续性特征和高基数离散特征的数据分别采用Min-Max和Mean-Encoder编码，构建输出矩阵R。

3.根据权利要求1所述的基于注意力机制的CliqueNet航班延误预测方法，其特征在于：所述步骤二的具体的方法为：对航班延误数据进行数据预处理之后，输入到神经网络模型当中，然后经过改进的随机连接团簇，随即连接团簇在第一阶段输入层X₀对所有层进行初始化，每个更新层与下一层相连，准备更新下一层，在第二阶段，各层的网络之间进行随机的传递，按照以下公式进行计算：

其中

分别表示相对于第i层X_i ^(k)的前、后层的特征，k值表示第几阶段，W_li和W_hi依次表示和前后层做卷积操作的参数，本文中卷积操作均用*表示，g(θ,s)表示算计函数，参数θ表示输入特征值，参数s表示随机种子，使用随机团簇连接时，将s从2计数，即保证每层输入至少来自其它2层的输入，最大取值为团簇中设置的层数，即s＝range[2,layer_num]，f(·)表示非线性激活函数，用与参数传递的非线性映射；将第一个团簇提取得到的特征图输入到转换层，进行双重标定。

4.根据权利要求1所述的基于注意力机制的CliqueNet航班延误预测方法，其特征在于：所述步骤四的具体方法为：将所述步骤三的特征矩阵输入到全局平均池化层，同时输入到全连接层当中，得到一维输入矩阵，提取的最终特征由全局池化层将维度大小为n×n×c的矩阵转换为一维向量V＝[v₁,v₂,…,v_c]，全连接后经过Softmax分类器，按照以下公式计算，后输出loss交叉熵损失数值函数，

5.根据权利要求1所述的基于注意力机制的CliqueNet航班延误预测方法，其特征在于：所述步骤五的具体方法为：定义标签和预测值之间的误差函数，通过随机梯度下降不断调整网络的权重和偏置，使网络不断拟合目标函数。

6.根据权利要求1所述的基于注意力机制的CliqueNet航班延误预测方法，其特征在于：所述步骤六的具体方法为：根据步骤五对网络的初始化参数进行调整，并进行神经网络的训练不断调整参数，将分类结果和实际值比对并计算差值而作为损失值，然后将损失值和实现设定的分类阈值做比较，如果损失值小于分类阈值则判定网络收敛，否则判定为不收敛；当判定结果为收敛时，输出网络结果，当判定结果为不收敛时，则根据公式

表示损失函数对权重的导数，η为学习率。