CN110956342A - 基于注意力机制的CliqueNet航班延误预测方法 - Google Patents
基于注意力机制的CliqueNet航班延误预测方法 Download PDFInfo
- Publication number
- CN110956342A CN110956342A CN202010002111.1A CN202010002111A CN110956342A CN 110956342 A CN110956342 A CN 110956342A CN 202010002111 A CN202010002111 A CN 202010002111A CN 110956342 A CN110956342 A CN 110956342A
- Authority
- CN
- China
- Prior art keywords
- layer
- network
- data
- value
- cliquenet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000007246 mechanism Effects 0.000 title claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 50
- 238000011176 pooling Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 7
- 230000005540 biological transmission Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims 1
- 238000009795 derivation Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Biophysics (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于注意力机制的CliqueNet航班延误预测方法,包括1)对航班数据做预处理,对连续数据和离散数据分别进行Min‑Max和Mean‑Encoder,构建输入矩阵R;2)利用随机连接团簇和双重标定对1)中数据特征提取;3)重复1)、2)得到最终特征矩阵;4)将3)得到的特征矩阵进行全局平均池化,利用分类器进行分类,并计算此次网络训练的损失值;5)利用误差反向传播算法,计算各层误差项和权值梯度;6)根据4)中数据判断网络是否收敛,若不收敛,则重复5)。本发明所述的基于注意力机制的CliqueNet航班延误预测方法,通过随机团簇连接可以更好的进行特征图之间的信息传递并且降低网络的连接参数。
Description
技术领域
本发明属于深度学习以及大数据技术领域,尤其是涉及一种基于注意力机制的CliqueNet航班延误预测方法。
背景技术
随着社会的发展,互联网的发展积累了大量的数据,为深度学习提供了大数据学习的基础。与之相关的卷积神经网络,在近年来取得了一些突破性进展。研究学者都从网络的深度、结构等方面来提升性能。循环的环状网络,是神经网络一个重要的网络结构研究方向。
目前,国内外学者在对航班延误预测、预警和维护航班正常运行等方面做出了大量针对性研究,但是多采用贝叶斯网络、马尔科夫链、随机森林等较为传统的统计分析方法。支持向量机、线性回归和神经网络等预测模型只是作为单一数据样本的预测模型。这些较为传统的统计分析方法算法得到的准确率相对较低。此外,上述算法针对的数据样本较小,面对高维度样本不能对背后的数据规律进行很好的拟合。
基于大数据的深度学习方法发展迅速。目前,类脑智能研究和神经网络在计算机视觉、自动驾驶、模式识别等领域均得到了广泛的应用,其性能远高于传统的统计学习算法。其中,卷积神经网络(Convolutional Neural Networks,CNN)取得了较大突破。提出一种更高效的随机连接CliqueNet的仿生人脑注意力机制网络模型,并针对不同的Transition层进行讨论,充分结合注意力机制的优势,在融合气象信息的航班数据上进行验证。
发明内容
有鉴于此,本发明旨在提出一种基于注意力机制的CliqueNet航班延误预测方法,以提供一种计算速度快、精度高的神经网络预测方法。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于注意力机制的CliqueNet航班延误预测方法,包括按顺序进行的下列步骤:
步骤一:对航班数据做数据预处理,对连续数据和离散数据分别进行Min-Max编码和Mean-Encoder编码,构建输入矩阵R;
步骤二:利用随机连接团簇和双重标定对步骤一中预处理的数据进行特征提取;
步骤三:重复步骤一、步骤二,得到最终特征矩阵;
步骤四:将上述步骤三得到的最终特征矩阵进行全局平均池化,并输入全连接层变为一维特征矩阵,利用softmax分类器对一维特征矩阵进行分类,并使用交叉熵损失函数计算此次网络训练的损失值;
步骤五:利用误差反向传播算法进行梯度计算,计算各层误差项和权值梯度;
步骤六:根据步骤四中所得损失值判断网络是否收敛,如判定结果为不收敛,则重复所述步骤五,直到网络收敛为止。
进一步的,步骤一的具体方法为:对航班数据预处理,预处理主要为对航班数据进行清洗和编码,对异常值使用SQL语句直接进行删除;较少比例的缺省值,直接采用均值进行填充,并对连续性特征和高基数离散特征的数据分别采用Min-Max和Mean-Encoder编码,构建输出矩阵R。
进一步的,步骤二的具体的方法为:对航班延误数据进行数据预处理之后,输入到神经网络模型当中,然后经过改进的随机连接团簇,随即连接团簇在第一阶段输入层X0对所有层进行初始化,每个更新层与下一层相连,准备更新下一层,在第二阶段,各层的网络之间进行随机的传递,按照以下公式进行计算:
其中分别表示相对于第i层Xi (k)的前、后层的特征,k值表示第几阶段,Wli和Whi依次表示和前后层做卷积操作的参数,本文中卷积操作均用*表示,g(θ,s)表示算计函数,参数θ表示输入特征值,参数s表示随机种子,使用随机团簇连接时,将s从2计数,即保证每层输入至少来自其它2层的输入,最大取值为团簇中设置的层数,即s=range[2,layer_num],f(·)表示非线性激活函数,用与参数传递的非线性映射;将第一个团簇提取得到的特征图输入到转换层进行双重标定;
进一步的,所述步骤四的具体方法为:将所述步骤三的特征矩阵输入到全局平均池化层,同时输入到全连接层当中,得到一维输入矩阵,提取的最终特征由全局池化层将维度大小为n×n×c的矩阵转换为一维向量V=[v1,v2,···,vc],全连接后经过Softmax分类器,按照以下公式计算,后输出loss交叉熵损失数值函数,
将V映射成si一维概率向量并取对数与标签值{y(i)=j}做交叉熵运算,即得到向量空间中两个向量空间的距离,并根据结果中概率最大值做出预测。
进一步的,所述步骤五的具体方法为:定义标签和预测值之间的误差函数,通过随机梯度下降不断调整网络的权重和偏置,使网络不断拟合目标函数。
进一步的,所述步骤六的具体方法为:根据步骤五对网络的初始化参数进行调整,并进行神经网络的训练不断调整参数,将分类结果和实际值比对并计算差值而作为损失值,然后将损失值和实现设定的分类阈值做比较,如果损失值小于分类阈值则判定网络收敛,否则判定为不收敛;当判定结果为收敛时,输出网络结果,当判定结果为不收敛时,则根据公式调整卷积神经网络初始化参数,其中,Wl表示第l层的输出权重,表示损失函数对权重的导数,η为学习率。
相对于现有技术,本发明所述的基于注意力机制的CliqueNet航班延误预测方法具有以下优势:
(1)本发明所述的基于注意力机制的CliqueNet航班延误预测方法,通过随机团簇连接可以更好的进行特征图之间的信息传递并且降低网络的连接参数。
(2)本发明所述的基于注意力机制的CliqueNet航班延误预测方法,使用CSARblock的注意力机制嵌入在特征层中完成特征重新标定,增加了网络的最终的准确率。
(3)本发明所述的基于注意力机制的CliqueNet航班延误预测方法,采用多层的网络连接,在反向传播时候会减少梯度消失的概率。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的随机团簇连接预测方法的流程图。
图2为本发明实施例所述的特征提取与全连接比较的随机团簇连接图;
图3为本发明实施例所述的注意力机制双重标定的转换层图;
图4为本发明实施例所述的航班延误整体模型预测图;
图5为本发明实施例所述的在美国航班延误数据集上面的不同连接方式的结果变化结果比较变化曲线一;
图6为本发明实施例所述的在美国航班延误数据集上面的不同连接方式的结果变化结果比较变化曲线二;
图7为本发明实施例所述的在美国航班延误数据集上面的不同转换层的结果变化比较曲线一;
图8为本发明实施例所述的在美国航班延误数据集上面的不同转换层的结果变化比较曲线二。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
名词解释:
CSARblock:channel-wise and spatial attention residual block,通道和空间注意力机制残差模块。
CliqueNet:中文指团簇神经网络。
Min-Max编码:中文指归一化编码。
Mean-Encoder编码:中文指均值编码。
基于注意力机制的CliqueNet航班延误预测方法,如图1至图8所示,包括按顺序进行的下列步骤:1)对航班数据做数据清洗后,分别对连续数据和离散数据分别进行Min-Max编码和Mean-Encoder编码,构建输入矩阵R;将数据集整理为航班数据、机场数据、气象数据三个数据集并给出定义:F、A、W;为了保持三部分数据集时间和空间上的一致性,在空间维度上通过机场ID、航班起飞/到达机场ID和观测站所在机场ID进行关联,并通过各个数据集的时间戳进行关联确保三部分的数据集保持时间上的一致性。并使用SQL语句对数据进行清理。分别设置关联键值,得到<flight_key,f>;<airport_key,a>;<weather_key,w>;将上述数据中具有相同key的数据执行merge操作,即相同主键的数据进行连接,得到融合后的数据集r。
具体的,对航班数据进行预处理,预处理主要为对航班数据进行清洗和编码,其中异常数据主要包括异常值和缺省值两类数据。本文针对异常值使用SQL语句直接进行删除。较少比例的缺省值,直接采用均值进行填充,并对连续性特征和高基数离散特征的数据分别采用Min-Max和Mean-Encoder编码,构建输出矩阵R。
2)将步骤1)分别利用特征图随机连接的团簇和转换层的注意力机制的双重标定对航班延误的数据矩阵R进行特征提取;
对航班延误数据进行数据预处理工作,利用卷积操作做出最初的特征提取,得到输入特征图。分别通过随机连接的团簇和特征双重标定的注意力机制的运算,对输入特征图进行特征提取。
将所述的步骤1)输入数据集经过初始卷积层得到输入特征图,由随机团簇和转换层组合成的CliqueNet模型对输入特征图进行特征提取,团簇中的特征层之间保持随机传递,随机传递的图层取值范围是:s=range[2,layer_num]。转换层中使用CSARblock进行特征重新标定,得到输出矩阵。将得到的输出矩阵,输入到预测模型中经过卷积神经网络得到初始特征图,经过随机连接的团簇进行特征提取,并且有转换层的双重标定进而提高准确率。
具体的方法为:
对航班延误数据进行数据预处理之后,输入到神经网络模型当中,然后经过改进的随机连接团簇,其结构图如图2所示。在图中对比给出了全连接和随机连接的不同,图5和图6给出不同连接方式的比较结果。随即连接团簇在第一阶段输入层X0对所有层进行初始化,每个更新层与下一层相连,准备更新下一层。在第二阶段,各层的网络之间进行随机的传递,按照以下公式进行计算:
k值表示第几阶段。
Wli和Whi依次表示和前后层做卷积操作的参数,
本文中卷积操作均用*表示。g(θ,s)表示算计函数,参数θ表示输入特征值,参数s表示随机种子,使用随机团簇连接时,该方法为了继承CliqueNet中全连接中最大化信息传递的优势,将s从2计数,即保证每层输入至少来自其它2层的输入,最大取值为团簇中设置的层数。即s=range[2,layer_num]。f(·)表示非线性激活函数,用与参数传递的非线性映射。
将第一个团簇提取得到的特征图输入到转换层,进行双重标定
CSAR注意力机制模块中,U=[u1,u2,...,uC]作为输入特征单元,表示尺寸为H×W,通道数为C的特征图层。分两个分支传播:通道注意力维度和空间注意力维度;在通道维度中对每个特征通道进行全局池化,得到信道描述符zc∈RC×1×1,uc(i,j)表示通道uc第(i,j)位置上的数值,如公式(2)所示;σ(·)和δ(·)分别表示sigmoid和ReLU函数;作为门控机制在传播过程中学习特征通道间的非线性交互得到特征图α,为第一层卷积运算的权重矩阵和偏置参数矩阵,z为与之卷积的信道描述符。为第二层卷积运算的权重矩阵和偏置参数矩阵。
最后通过fC(·)将特征图α和特征通道U相乘得到最终的输出UC
UC=fc(U,α) (4)
通道维度中使用全局池化将全局的空间信息压缩到信道描述符中,并在此基础之上,我们引入一种互补的空间维度上的特征重标定,如图3所示,以增加网络的性能。网络前向结构设计中,将输入特征U经过两层卷积神经网络得到空间标定因子β∈R1×H×W; 为第一层卷积运算的权重矩阵和偏置参数矩阵。为第二层卷积运算的权重矩阵和偏置参数矩阵。做两次卷积运算后使用sigmoid函数σ(·)对第一层网络产生的特征图元素映射到区间[0,1]中,得到空间标定因子β,如公式(5)所示。
US=fS(U,β) (6)
UO=φ(·)=Wφ*[UC,US]+bφ (7)
然后与输入特征U做乘积运算,得到输出特征图US;其中,fS(·)表示将特征图空间位置上的元素与对应的空间标定因子相乘,如公式(6)所示。最后,由φ(·)分别对UC和US做卷积操作得到最终输出特征UO=[u1,u2,...,uC'],其中Wφ,bφ分别表示权重和偏置参数,如公式(7)。
3)重复步骤1)、步骤2),得到最终输出特征矩阵;
4)将上述步骤3)得到的最终特征矩阵进行全局平均池化并输入全连接层变为一维特征矩阵,并利用softmax分类器对一维特征矩阵进行分类,并使用交叉熵损失函数计算此次网络训练的损失函数最小值;
将上述步骤3)的特征矩阵输入到全局平均池化层,同时输入到全连接层当中,得到一维输入矩阵,提取的最终特征由全局池化层将维度大小为n×n×c的矩阵转换为一维向量V=[v1,v2,···,vc],全连接后经过Softmax分类器,按照以下公式计算,后输出loss交叉熵损失数值函数。
将V映射成si一维概率向量并取对数与标签值{y(i)=j}做交叉熵运算,即得到向量空间中两个向量空间的距离,并根据结果中概率最大值做出预测。
5)利用误差反向传播算法进行梯度计算,计算各层误差项和权值梯度。
利用误差反向传播算法进行梯度计算,计算各层误差项和权值梯度。即定义标签和预测值之间的误差函数,通过随机梯度下降不断调整网络的权重和偏置,使网络不断拟合目标函数,进而得到学习的目的。反向传播中,主要为梯度值和误差项的计算,梯度由误差项推导得出。以下对CliqueNet中一个4层随机连接团簇的实例进行梯度计算推导。首先,依据BP算法,隐藏层的误差项,由第l层第i幅特征图的误差导出,然后利用误差项公式计算出隐藏层梯度;
其中J表示定义的损失函数,分别为第l+1层中第i幅特征图;表示第l+1层与第l层中第i幅特征图到第j幅特征图的映射矩阵表示第l卷积层中第i幅响应特征图,f'(·)表示为该层激活函数的导数,表示损失函数对l卷积层中第i幅响应特征图的导数。表示l-1的输出特征图;表示损失函数对对隐藏层权值的导数。“*”和分别表示卷积和反卷积操作,同理可以求出中的隐藏层的误差项迭代关系:
······
上述计算过程中,Ukn表示各底层的输出特征值,表示损失函数对其的导数,记为ξkn;f'(·)表示对对应的底层特征图求导;“*”和分别表示卷积和反卷积操作。同理类推,可以得出Stage-II的各隐藏层的误差项计算:
根据上述推导,可计算隐藏层梯度:
上式中ξkn表示由前面推导得到各顶层的误差项,Wkn表示与之对应的权重矩阵,U表示输入特征图,表示反向传播中对损失函数对第一层的求导。从反向传播的推导过程中可以看出,由于团簇随机连接方式,在计算激活函数导数时候,其特征值输入不仅仅来自前面级联网络层,也会随机包含其它网络层传入的特征数值。各隐藏层梯度计算完成之后需要调用随机梯度下降函数,表示t状态下的第一层权重,表示由公式(19)得出的误差项导数,η表示学习率,表示t+1状态的权重矩阵。以不断更新权重参数,直到网络收敛。
6)根据步骤4)中所得损失值判断网络是否收敛,如不收敛,依据步骤5)重复反向传播算法,直到网络收敛为止。
具体方法为:根据步骤5)对网络的初始化参数进行调整并进行神经网络的训练不断调整参数。即将分类结果和实际值比对并计算差值而作为损失值;然后将损失值和实现设定的分类阈值做比较,如小于分类阈值则判定网络收敛,否则不收敛;最后,如收敛输出网络结果,否则根据公式,调整卷积神经网络初始化参数,Wl表示第l层的输出权重,表示损失函数对权重的导数;η为学习率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于注意力机制的CliqueNet航班延误预测方法,其特征在于:包括按顺序进行的下列步骤:
步骤一:对航班数据做数据预处理,对连续数据和离散数据分别进行Min-Max编码和Mean-Encoder编码,构建输入矩阵R;
步骤二:利用随机连接团簇和双重标定对步骤一中预处理的数据进行特征提取;
步骤三:重复步骤一、步骤二,得到最终特征矩阵;
步骤四:将上述步骤三得到的最终特征矩阵进行全局平均池化,并输入全连接层变为一维特征矩阵,利用softmax分类器对一维特征矩阵进行分类,并使用交叉熵损失函数计算此次网络训练的损失值;
步骤五:利用误差反向传播算法进行梯度计算,计算各层误差项和权值梯度;
步骤六:根据步骤四中所得损失值判断网络是否收敛,如判定结果为不收敛,则重复所述步骤五,直到网络收敛为止。
2.根据权利要求1所述的基于注意力机制的CliqueNet航班延误预测方法,其特征在于:所述步骤一的具体方法为:对航班数据预处理,预处理主要为对航班数据进行清洗和编码,对异常值使用SQL语句直接进行删除;较少比例的缺省值,直接采用均值进行填充,并对连续性特征和高基数离散特征的数据分别采用Min-Max和Mean-Encoder编码,构建输出矩阵R。
3.根据权利要求1所述的基于注意力机制的CliqueNet航班延误预测方法,其特征在于:所述步骤二的具体的方法为:对航班延误数据进行数据预处理之后,输入到神经网络模型当中,然后经过改进的随机连接团簇,随即连接团簇在第一阶段输入层X0对所有层进行初始化,每个更新层与下一层相连,准备更新下一层,在第二阶段,各层的网络之间进行随机的传递,按照以下公式进行计算:
5.根据权利要求1所述的基于注意力机制的CliqueNet航班延误预测方法,其特征在于:所述步骤五的具体方法为:定义标签和预测值之间的误差函数,通过随机梯度下降不断调整网络的权重和偏置,使网络不断拟合目标函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002111.1A CN110956342A (zh) | 2020-01-02 | 2020-01-02 | 基于注意力机制的CliqueNet航班延误预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002111.1A CN110956342A (zh) | 2020-01-02 | 2020-01-02 | 基于注意力机制的CliqueNet航班延误预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110956342A true CN110956342A (zh) | 2020-04-03 |
Family
ID=69985368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010002111.1A Pending CN110956342A (zh) | 2020-01-02 | 2020-01-02 | 基于注意力机制的CliqueNet航班延误预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956342A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270445A (zh) * | 2020-11-02 | 2021-01-26 | 中国民航大学 | 基于统计分析和分类预测的航班延误波及综合评估方法 |
CN112365091A (zh) * | 2020-11-30 | 2021-02-12 | 中国人民解放军国防科技大学 | 一种基于分类节点图注意力网络的雷达定量降水估计方法 |
CN113112032A (zh) * | 2021-04-16 | 2021-07-13 | 中国民航大学 | 基于联邦学习的航班延误预测系统及方法 |
CN113592242A (zh) * | 2021-07-01 | 2021-11-02 | 四川大学 | 一种基于卷积神经网络的航班延误差预测方法 |
CN115862338A (zh) * | 2023-03-01 | 2023-03-28 | 天津大学 | 一种机场交通流量预测方法、系统、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092960A (zh) * | 2017-04-17 | 2017-08-25 | 中国民航大学 | 一种改进的并行通道卷积神经网络训练方法 |
CN109448445A (zh) * | 2018-09-05 | 2019-03-08 | 南京航空航天大学 | 基于长短期记忆神经网络的航班延误分级预警方法 |
CN109948716A (zh) * | 2019-03-25 | 2019-06-28 | 中国民航大学 | 一种基于区域残差和lstm网络的机场延误预测方法 |
CN109978041A (zh) * | 2019-03-19 | 2019-07-05 | 上海理工大学 | 一种基于交替更新卷积神经网络的高光谱图像分类方法 |
CN110288121A (zh) * | 2019-05-16 | 2019-09-27 | 北京交通大学 | 基于多粒度时间注意力机制的航班客座率预测方法 |
-
2020
- 2020-01-02 CN CN202010002111.1A patent/CN110956342A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092960A (zh) * | 2017-04-17 | 2017-08-25 | 中国民航大学 | 一种改进的并行通道卷积神经网络训练方法 |
CN109448445A (zh) * | 2018-09-05 | 2019-03-08 | 南京航空航天大学 | 基于长短期记忆神经网络的航班延误分级预警方法 |
CN109978041A (zh) * | 2019-03-19 | 2019-07-05 | 上海理工大学 | 一种基于交替更新卷积神经网络的高光谱图像分类方法 |
CN109948716A (zh) * | 2019-03-25 | 2019-06-28 | 中国民航大学 | 一种基于区域残差和lstm网络的机场延误预测方法 |
CN110288121A (zh) * | 2019-05-16 | 2019-09-27 | 北京交通大学 | 基于多粒度时间注意力机制的航班客座率预测方法 |
Non-Patent Citations (1)
Title |
---|
杨一博等: "具有交替更新团的卷积神经网络", 《IEEE/CVF计算机视觉和模式识别会议》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270445A (zh) * | 2020-11-02 | 2021-01-26 | 中国民航大学 | 基于统计分析和分类预测的航班延误波及综合评估方法 |
CN112270445B (zh) * | 2020-11-02 | 2022-11-25 | 中国民航大学 | 基于统计分析和分类预测的航班延误波及综合评估方法 |
CN112365091A (zh) * | 2020-11-30 | 2021-02-12 | 中国人民解放军国防科技大学 | 一种基于分类节点图注意力网络的雷达定量降水估计方法 |
CN112365091B (zh) * | 2020-11-30 | 2022-06-14 | 中国人民解放军国防科技大学 | 一种基于分类节点图注意力网络的雷达定量降水估计方法 |
CN113112032A (zh) * | 2021-04-16 | 2021-07-13 | 中国民航大学 | 基于联邦学习的航班延误预测系统及方法 |
CN113592242A (zh) * | 2021-07-01 | 2021-11-02 | 四川大学 | 一种基于卷积神经网络的航班延误差预测方法 |
CN113592242B (zh) * | 2021-07-01 | 2023-06-16 | 四川大学 | 一种基于卷积神经网络的航班延误差预测方法 |
CN115862338A (zh) * | 2023-03-01 | 2023-03-28 | 天津大学 | 一种机场交通流量预测方法、系统、电子设备及介质 |
CN115862338B (zh) * | 2023-03-01 | 2023-05-16 | 天津大学 | 一种机场交通流量预测方法、系统、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956342A (zh) | 基于注意力机制的CliqueNet航班延误预测方法 | |
CN111612066B (zh) | 基于深度融合的卷积神经网络的遥感图像分类方法 | |
CN109871995B (zh) | Spark框架下分布式深度学习的量子优化调参方法 | |
US7293001B1 (en) | Hybrid neural network and support vector machine method for optimization | |
CN112801404A (zh) | 一种基于自适应空间自注意力图卷积的交通预测方法 | |
CN108960140A (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN112396587B (zh) | 一种基于协同训练和密度图的公交车厢内拥挤度检测方法 | |
WO2021051987A1 (zh) | 神经网络模型训练的方法和装置 | |
CN112364913A (zh) | 一种基于核心数据集的联邦学习通信量优化方法及系统 | |
CN113157957A (zh) | 一种基于图卷积神经网络的属性图文献聚类方法 | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN113469367A (zh) | 一种联邦学习方法、装置及系统 | |
CN111524140A (zh) | 基于cnn和随机森林法的医学图像语义分割方法 | |
CN113947182A (zh) | 基于双阶段堆叠图卷积网络的交通流预测模型构建方法 | |
CN115952424A (zh) | 一种基于多视图结构的图卷积神经网络聚类方法 | |
CN110260914B (zh) | 一种基于测点时空特征的工程安全监测系统区域划分方法 | |
CN117746260B (zh) | 遥感数据智能解析方法及系统 | |
CN117668743A (zh) | 一种关联时空关系的时序数据预测方法 | |
CN110265146B (zh) | 一种基于Bagging-Fuzzy-GBDT算法的心脏病预测方法 | |
CN116758349A (zh) | 基于多尺度超像素节点聚合图卷积残差网络的高光谱图像分类方法 | |
Rui et al. | Smart network maintenance in an edge cloud computing environment: An adaptive model compression algorithm based on model pruning and model clustering | |
CN115273645B (zh) | 一种室内面要素自动聚类的地图制图方法 | |
CN110993121A (zh) | 一种基于双协同线性流形的药物关联预测方法 | |
CN114220019B (zh) | 一种轻量级沙漏式遥感图像目标检测方法及系统 | |
CN116542080A (zh) | 一种基于对比学习的条件生成对抗网络拓扑优化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200403 |
|
RJ01 | Rejection of invention patent application after publication |