CN109558436A - 基于转移熵的机场航班延误因果关系挖掘方法 - Google Patents
基于转移熵的机场航班延误因果关系挖掘方法 Download PDFInfo
- Publication number
- CN109558436A CN109558436A CN201811305071.7A CN201811305071A CN109558436A CN 109558436 A CN109558436 A CN 109558436A CN 201811305071 A CN201811305071 A CN 201811305071A CN 109558436 A CN109558436 A CN 109558436A
- Authority
- CN
- China
- Prior art keywords
- airport
- delay time
- measured
- flight delay
- stop
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000007704 transition Effects 0.000 title claims abstract description 32
- 230000003111 delayed effect Effects 0.000 claims abstract description 23
- 230000001364 causal effect Effects 0.000 claims abstract description 14
- 238000011002 quantification Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 9
- 230000010006 flight Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 238000006116 polymerization reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000001174 ascending effect Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 13
- 230000000694 effects Effects 0.000 description 7
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 208000003698 Heroin Dependence Diseases 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 210000002451 diencephalon Anatomy 0.000 description 1
- 206010013663 drug dependence Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000001259 mesencephalon Anatomy 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于转移熵的机场航班延误因果关系挖掘方法。该方法包括:获取多个待测机场的航班信息,对各个待测机场航班的延误时间进行聚合,生成各个待测机场的航班延误时间序列;从所述多个待测机场中选取一个目标机场,将剩余的机场作为其它机场,根据所述目标机场、其它机场的航班延误时间序列,利用转移熵计算出所述目标机场的航班延误与各个其它机场之间的航班延误的定量化因果关系。本发明的方法能够准确地提取非线性、多变量机场航班延误时间序列的因果关系,不依赖于既定模型且定量地刻画了机场航班延误的因果相关性。并且利用滑动平均窗口法进行缺失数据的补偿,在一定程度上抑制了数据缺失对因果分析的影响。
Description
技术领域
本发明涉及航空信息处理技术领域,具体而言,涉及一种基于转移熵的机场航班延误因果关系挖掘方法。
背景技术
随着国民经济的快速增长,航空运输需求量的不断提高,机场航班延误现象日益凸显。机场航班延误的危害是巨大的,不仅会影响航空公司的运营效率和服务质量,而且会耽误旅客的时间,破坏机场的正常运行秩序,严重的可能会危害航空运输的安全。由于同一架飞机可能会执行多个连续航班的任务,当前序航班发生到达延误时,就会对后续航班产生延误波及,造成机场航班延误的传播。因此,定量化地挖掘机场航班延误的因果关系,有助于控制航班延误的传播,降低由此带来的经济损失,进而促进航空运输业的稳定发展。
近年来,虽然其他领域已经对提取因果分析的方法有了一定的应用,但在航空运输业的信息处理领域仍缺少完整有效的基于时间序列因果关系定量化评估的方法。随着我国航空运输业的不断发展,呈现出多样化和区域化的趋势,导致航空数据具有高维、动态、非线性等特点,因此如何在复杂的时间序列数据中准确地提取客观存在的因果关系显得尤为重要。目前出现了一些相关的技术方案,如一种基于格兰杰因果性的脑电源定位方法、基于海洛因成瘾模型的大脑回路因果作用关系分析方法、基于滞后阶数自适应选择的多变量因果关系分析方法等,均是基于既定模型的格兰杰因果检验方法,并不适用于处理高度复杂的非线性数据。另一种方案提出了基于变尺度符号传递熵的多通道脑肌电耦合分析方法,而该方法利用的变尺度符号化转移熵会在不同程度上损失时间序列数据的特征,同时没有关注数据缺失对因果分析造成的影响。还有一种方案为基于小波#传递熵的多时频尺度间脑肌电耦合分析方法,该方法主要是解决生理信号处理中脑肌电双变量因果分析问题,并未关注多变量时间序列因果分析中存在的问题,同时没有关注因果关系的显著性。
发明内容
本发明实施例的目的在于提供一种基于转移熵的机场航班延误因果关系挖掘方法,以克服现有技术的问题。
为了实现上述目的,本发明实施例采取的技术方案如下。
一种基于转移熵的机场航班延误因果关系挖掘方法,包括:
获取多个待测机场的航班信息,对各个待测机场航班的延误时间进行聚合,生成各个待测机场的航班延误时间序列;
从所述多个待测机场中选取一个目标机场,将剩余的机场作为其它机场,根据所述目标机场、其它机场的航班延误时间序列,利用转移熵计算出所述目标机场的航班延误与各个其它机场之间的航班延误的定量化因果关系;
从所述多个待测机场选取下一个目标机场,计算出所述下一个目标机场的航班延误与对应的各个其它机场之间的航班延误的定量化因果关系,依次遍历所有待测机场,重复执行上述处理过程,输出所有待测机场之间的航班延误的定量化因果关系。
进一步地,所述的获取多个待测机场的航班信息,对各个待测机场航班的延误时间进行聚合,生成各个待测机场的航班延误时间序列,包括:
获取各个待测机场连续多天各小时的航班应到时间和延误后的实到时间,对待测机场的航班延误时间进行小时粒度的聚合,计算单位小时内第i个待测机场第d天h小时所有航班延误时间的累加为:
Di(d,h)=∑(Tdelay-Tplan)
其中,Tdelay表示第i个机场第d天h小时航班延误后航班的实到时间,Tplan表示第i个机场第d天h小时航班的应到时间;
则第i个待测机场的航班延误时间序列集合表示为:
由此得到待测机场个数为m的航班延误时间序列集合为
其中n为每个机场航班延误时间序列的长度。
进一步地,所述的方法还包括:
利用滑动平均窗口法对待测机场的航班延误时间序列进行缺失数据的补偿,当第i个待测机场的航班延误时间序列集合中第j个数据出现缺失,则将中第j个数据前后各w个数据的平均值填充到缺失位置,w为滑动平均窗口的长度;
对补偿后的第i个待测机场的航班延误时间序列集合进行Z-Score标准化处理,处理方法如下:
式中,Di′(d,h)是第i个待测机场的d天h时标准化后的航班延误时间,Di(d,h)是第i个机场d天h时原始的航班延误时间,<Di(·,h)>是第i个待测机场的所有h时的样本点航班延误时间的平均值,σ(Di(·,H))是第i个待测机场的所有h时的样本点航班延误时间的标准差;
则第i个待测机场的航班延误时间序列预处理后的集合表示为:
由此得到待测机场个数为m的航班延误时间序列预处理后的集合为:
其中n为每个机场航班延误时间序列的长度。
进一步地,所述的从所述多个待测机场中选取一个目标机场,将剩余的机场作为其它机场,根据所述目标机场、其它机场的航班延误时间序列,利用转移熵计算出所述目标机场的航班延误与各个其它机场之间的航班延误的定量化因果关系,包括:
步骤A:在待测机场个数为m的航班延误时间序列集合中,选取一个目标机场的航班延误时间序列设为Xn,将m-1个机场航班延误时间序列作为因果关系备选序列,从该因果关系备选序列中选取一个机场航班延误时间序列设为Yn,则其它机场航班延误时间序列集合表示为
步骤B:构建时间序列Xn和时间序列Yn从1阶到p阶段全部的历史向量集合为:
Ω={Xn-1,Xn-2,Xn-3,...,Xn-p,Yn-1,Yn-2,Yn-3,...,Yn-p}
步骤C:初始化嵌入向量的集合V=φ,计算出一个W1∈Ω满足W1与Xn的互信息为最大,即:
W1=argmax I(Xn;W),W∈Ω
将满足条件的W1嵌入到集合中,即V1={W1}:
式中,Xn与W的互信息I(Xn;W)是基于KNN算法计算得出,具体表示为:
I(Xn,W)=H(Xn)+H(W)-H(Xn,W)
其中H(Xn)和H(W)表示Xn和W的熵值,H(Xn,W)表示联合熵,其计算公式为:
式中,dX和dW是Xn与W的维度数量,∈(i)是在(Xn,W)联合空间中第i个点到它相邻的第k个点的距离的2倍,ψ(x)是digamma函数 cd表示d维单位立方体的体积,其中Xn为联合空间(Xn,W)的投影,故Xn的熵估计表示为:
式中,nx(i)的值随着到Xn的第i个点的距离小于∈(i)/2的点的数目增加而增加,同理可以得凸的表示为:
式中,nx(i)的值随着到W的第i个点的距离小于∈(i)/2的点的数目增加而增加;
进而求待表示为:
式中<…>定义为对所有样本点i求得的平均值;
步骤D:进行第k步嵌入时(1<k≤dim(Ω)),选择一个Wk满足
Wk=argmaxI(Xn;W,Vk-1),W∈Ω\Vk-1
如身(其中A≤1),则嵌入过程停止,嵌入向量集合V=Vk-1,否则,将Wk嵌入到集合V中,使得V={Vk-1,Wk},重复步骤D直至满足停止条件,进行步骤E的操作;
步骤E:计算目标机场航班延误时间序列Xn与因果关系备选机场航班延误时间序列Yn之间的转移熵TY→x;
在嵌入向量集合V中减去来自Y的历史向量Y′的贡献,V′=V\Y′,计算转移熵:
TY→X≡H(Xn|V′)-H(Xn|V)
将所述转移熵TY→X作为所述目标机场与因果关系备选机场航班延误时间序列Yn对应的其它机场之间的航班延误的定量化因果关系;
判断其它机场航班延误时间序列集合中,是否存在待计算序列;若存在,则将待计算时间序列从Z中删除,并且设置为时间序列Yn,返回步骤B与原目标机场航班延误时间序列Xn,依次进行转移熵计算。若不存在待计算序列,则结束步骤E。
进一步地,所述的方法还包括:
通过显著性检验确定备选时间序列Yn和目标时间序列Xn因果相关性的显著关系;
重新构造多个时间序列,构造时间序列的统计特性与时间序列Yn保持相同且时间序列长度与Yn的长度等长,计算每个构造时间序列与目标时间序列Xn的转移熵,在秩排序的基础上进行显著性检验,估计I型错误概率为:P=1-(i-0.326)/(s+1+0.348);
其中i表示原始时间序列Yn与Xn转移熵数值在所有计算出的转移熵数值的递增排序中的位置,s表示生成构造时间序列的个数,当P<α时,则确定Xn和Yn具有因果相关性的显著关系,其中α为显著性水平。
由上述本发明的实施例提供的技术方案可以看出,本发明的方法能够准确地提取非线性、多变量机场航班延误时间序列的因果关系,不依赖于既定模型且定量地刻画了机场航班延误的因果相关性。并且利用滑动平均窗口法进行缺失数据的补偿,在一定程度上抑制了数据缺失对因果分析的影响。
为使本发明的上述目的、特征和优点更能明显易懂,下文特举较佳实施例,并配合所附附图,做详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一个实施例的基于转移熵的机场航班延误因果关系挖掘方法的总流程图;
图2是根据本发明一个实施例的目标机场航班延误时间序列与备选机场航班延误时间序列因果关系计算的流程图;
图3是根据本发明一个实施例的迭代更新目标机场航班延误时间序列进行因果关系计算及显著性检验的示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明的目的是提供一种基于转移熵的机场航班延误因果关系的挖掘方法,该方法能够准确地提取非线性、多变量机场航班延误时间序列的因果关系,不依赖于既定模型且定量地刻画了机场航班延误的因果相关性,并且在一定程度上抑制了数据缺失对因果分析的影响。
图1是本发明实施例提供的一种基于转移熵的航班延误因果关系挖掘方法的处理流程图,包括以下步骤:
步骤1:获取待测机场的航班延误时间序列。
图2是根据本发明一个实施例的目标机场航班延误时间序列与备选机场航班延误时间序列因果关系计算的流程图,图2(a)中所示,标号1至标号6表示6个待测机场,通过采集每个待测机场的航班延误信息,对待测机场的航班延误时间进行小时粒度的聚合,生成6个待测机场的航班延误时间序列。
具体的说,获取6个待测机场连续多天各小时的航班应到时间和延误后的实到时间,计算单位小时内第i个机场第d天h小时所有航班延误时间的累加为:
Di(d,h)=∑(Tdelay-Tplan)
其中,Tdelay表示第i个机场第d天h小时航班延误后航班的实到时间,Tplan表示第i个机场第d天h小时航班的应到时间。
则第i个机场航班延误时间序列集合可以表示为:
由此可得到6个待测机场的航班延误时间序列集合为
其中n为每个机场航班延误时间序列的长度,其长度大小是由采集时间,即采集共持续的小时数所决定的。
步骤2:机场航班延误时间序列的预处理,包括:对聚合后的机场航班延误时间序列数据的缺失进行数据补偿,并对机场航班延误时间序列数据进行标准化:
基于步骤1的所有机场航班延误时间序列,利用滑动平均窗口法进行缺失数据的补偿,例如中第j个数据出现缺失,利用滑动平均窗口法(窗口window=w)进行缺失数据的补偿时,需将中第j个数据前后各w个数据的平均值填充到缺失位置。
对补偿后的机场航班延误时间序列进行Z-Score标准化处理,对于第i个机场连续各时段的航班延误信息时间序列,处理方法如下:
式中,Di′(d,h)是第i个机场d天h时标准化后的航班延误时间,Di(d,h)是第i个机场d天h时原始的航班延误时间,<Di(·,h)>是第i个机场所有h时的样本点航班延误时间的平均值,σ(Di(·,H))是第i个机场所有h时的样本点航班延误时间的标准差。
则第i个机场航班延误时间序列预处理后的集合可以表示为:
由此可得到6个待测机场的航班延误时间序列集合为其中n为每个机场航班延误时间序列的长度。
步骤3:图3是根据本发明一个实施例的迭代更新目标机场航班延误时间序列进行因果关系计算及显著性检验的示意图,如图3所示,在预处理后的机场航班延误时间序列中,选取目标机场的航班延误时间序列,将其它机场航班延误时间序列作为因果关系备选序列。利用转移熵定量地刻画目标机场航班延误与因果关系备选机场航班延误的实际因果关系。
步骤A:在待测机场航班延误时间序列集合中,如图2(b)中所示,选取标号1机场产生的航班延误时间序列为目标机场航班延误时间序列,并设为Xn。将其它5个机场航班延误时间序列作为因果关系备选序列,从备选序列中选取一个机场航班延误时间序列设为Yn,则其它机场航班延误时间序列集合表示为
步骤B:构建时间序列Xn和时间序列Yn从1阶到p阶段全部的历史向量集合为:
Ω={Xn-1,Xn-2,Xn-3,...,Xn-p,Yn-1,Yn-2,Yn-3,...,Yn-p}
步骤C:初始化嵌入向量的集合V=φ。计算出一个W1∈Ω满足W1与Xn的互信息为最大,即:
W1=argmaxI(Xn;W),W∈Ω
将满足条件的W1嵌入到集合中,即V1={W1}。
式中,Xn与W的互信息I(Xn;W)估计是基于KNN算法计算得出,具体表示为:
I(Xn,W)=H(Xn)+H(W)-H(Xn,W)
其中H(Xn)和H(W)表示Xn和W的熵值,H(Xn,W)表示联合熵,其估计可以表示为:
式中,dX和dW是Xn与W的维度数量,∈(i)是在(Xn,W)联合空间中第i个点到它相邻的第k个点的距离的2倍,ψ(x)是digamma函数 cd表示d维单位立方体的体积。其中Xn为联合空间(Xn,W)的投影,故Xn的熵估计可以表示为:
式中,nx(i)的值随着到Xn的第i个点的距离小于∈(i)/2的点的数目增加而增加。同理可以得出的表示为:
式中,nx(i)的值随着到W的第i个点的距离小于∈(i)/2的点的数目增加而增加。
进而求得可以表示为:
式中<…>定义为对所有样本点i求得的平均值。
步骤D:进行第k步嵌入时(1<k≤dim(Ω)),选择一个Wk满足
Wk=argmaxI(Xn;W,Vk-1),W∈Ω\Vk-1
如果(其中A≤1),则嵌入过程停止,嵌入向量集合V=Vk-1。否则,将Wk嵌入到集合V中,使得V={Vk-1,Wk},重复步骤D直至满足停止条件,进行步骤E的操作。
步骤E:计算目标机场航班延误时间序列Xn与因果关系备选机场航班延误时间序列Yn的转移熵,根据转移熵定量化评估机场航班延误的因果关系。
在嵌入向量集合v中减去来自Y的历史向量Y′的贡献,V′=V\Y′,计算转移熵:
TY→X≡H(Xn|V′)-H(Xn|V)
将所述转移熵TY→X作为所述目标机场与因果关系备选机场航班延误时间序列Yn对应的其它机场之间的航班延误的定量化因果关系,转移熵值越大,说明因果关系备选时间序列Yn对目标时间序列Xn的因果相关性越强,即两个机场的航班延误时间序列的因果关系越强。
判断其它机场航班延误时间序列集合中,是否存在待计算序列。若存在,则取出待计算时间序列将其从Z中删除,并且设置为时间序列Yn。返回步骤B与原目标机场航班延误时间序列Xn,依次进行转移熵计算。若不存在待计算序列,则结束步骤E。例如在第一次计算转移熵的过程中,如图2(b)中所示,首先计算目标机场(1号机场)时间序列Xn与因果关系备选机场之一的2号机场时间序列Yn之间的转移熵。之后判断z集合里面是否存在未与1号机场进行转移熵计算的机场。此时z集合中包含3号机场、4号机场、5号机场、6号机场均未与1号机场进行计算,取出3号机场的航班延误时间序列将其从Z中删除,并且设置为时间序列Yn,如图2(c)所示。返回步骤B与1号机场航班延误时间序列Xn,进行转移熵的求解。通过迭代计算目标机场与因果备选机场之间的转移熵,如图2(d)-图2(f)所示,直至Z集合中不存在待计算序列,则结束步骤E,得到了1号机场与其它机场之间的因果关系网络图,如图2(g)所示。
步骤F:对得到的具有因果关系的机场航班延误时间序列Xn和Yn,进行一对一的假设检验,判断Xn和Yn因果相关性的显著关系,具体包括:
重新构造多条时间序列,构造时间序列的统计特性与时间序列Yn保持相同且时间序列长度与Yn的长度等长。计算每个构造时间序列与目标时间序列Xn的转移熵,在秩排序的基础上进行显著性检验,估计I型错误概率为
P=1-(i-0.326)/(s+1+0.348)
其中i表示原始时间序列Yn与Xn转移熵数值在所有计算出的转移熵数值的递增排序中的位置,s表示生成构造时间序列的个数。当P<α时,则确定Xn和Yn具有因果相关性的显著关系,其中α为显著性水平。
例如,重新构造40条统计特性、序列长度与时间序列Yn保持相同的时间序列,即s=40。将显著性水平α设为0.05,若i=40, 则表面Xn和Yn具有因果相关性的显著关系,即具有真实存在的因果关系。若i=38,则表明Xn和Yn没有因果相关性的显著关系,即不具有真实存在的因果关系。通过判断机场间因果相关性的显著关系,可以得到具有真实因果关系的网络图,如图2(h)所示。
步骤4:在所有机场延误时间序列中,选择下一个目标机场的航班延误时间序列,若存在,则返回步骤3,否则,输出所有机场之间的航班延误定量化因果关系。
具体的,目标机场由1号机场更换为2号机场,返回步骤3计算2号机场与其它因果备选机场间的因果关系。直至计算完6号机场与其它因果备选机场的因果关系后,输出全部机场间航班延误量化因果关系,如图2(i)所示。
综上所述,本发明实施例的基于转移熵的机场航班延误因果关系挖掘方法,能够准确地提取非线性、多变量机场航班延误时间序列的因果关系,不依赖于既定模型且定量地刻画了机场航班延误的因果相关性。并且利用滑动平均窗口法进行缺失数据的补偿,在一定程度上抑制了数据缺失对因果分析的影响。
本发明利用机场航班延误时间序列,从因果分析的角度出发揭示了延误在机场间传播的机理,阐释了机场航班延误传播特征,通过定量化地挖掘机场航班延误的因果关系,将有助于控制航班延误的传播,降低由此带来的经济损失,从而促进航空运输业的稳定发展。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (5)
1.一种基于转移熵的机场航班延误因果关系挖掘方法,其特征在于,包括:
获取多个待测机场的航班信息,对各个待测机场航班的延误时间进行聚合,生成各个待测机场的航班延误时间序列;
从所述多个待测机场中选取一个目标机场,将剩余的机场作为其它机场,根据所述目标机场、其它机场的航班延误时间序列,利用转移熵计算出所述目标机场的航班延误与各个其它机场之间的航班延误的定量化因果关系;
从所述多个待测机场选取下一个目标机场,计算出所述下一个目标机场的航班延误与对应的各个其它机场之间的航班延误的定量化因果关系,依次遍历所有待测机场,重复执行上述处理过程,输出所有待测机场之间的航班延误的定量化因果关系。
2.根据权利要求1所述的方法,所述的获取多个待测机场的航班信息,对各个待测机场航班的延误时间进行聚合,生成各个待测机场的航班延误时间序列,包括:
获取各个待测机场连续多天各小时的航班应到时间和延误后的实到时间,对待测机场的航班延误时间进行小时粒度的聚合,计算单位小时内第i个待测机场第d天h小时所有航班延误时间的累加为:
Di(d,h)=∑(Tdelay-Tplan)
其中,Tdelay表示第i个机场第d天h小时航班延误后航班的实到时间,Tplan表示第i个机场第d天h小时航班的应到时间;
则第i个待测机场的航班延误时间序列集合表示为:
由此得到待测机场个数为m的航班延误时间序列集合为
其中n为每个机场航班延误时间序列的长度。
3.根据权利要求2所述的方法,所述的方法还包括:
利用滑动平均窗口法对待测机场的航班延误时间序列进行缺失数据的补偿,当第i个待测机场的航班延误时间序列集合中第j个数据出现缺失,则将中第j个数据前后各w个数据的平均值填充到缺失位置,w为滑动平均窗口的长度;
对补偿后的第i个待测机场的航班延误时间序列集合进行Z-Score标准化处理,处理方法如下:
式中,Di′(d,h)是第i个待测机场的d天h时标准化后的航班延误时间,Di(d,h)是第i个机场d天h时原始的航班延误时间,<Di(·,h)>是第i个待测机场的所有h时的样本点航班延误时间的平均值,σ(Di(·,H))是第i个待测机场的所有h时的样本点航班延误时间的标准差;
则第i个待测机场的航班延误时间序列预处理后的集合表示为:
由此得到待测机场个数为m的航班延误时间序列预处理后的集合为:
其中n为每个机场航班延误时间序列的长度。
4.根据权利要求3所述的方法,所述的从所述多个待测机场中选取一个目标机场,将剩余的机场作为其它机场,根据所述目标机场、其它机场的航班延误时间序列,利用转移熵计算出所述目标机场的航班延误与各个其它机场之间的航班延误的定量化因果关系,包括:
步骤A:在待测机场个数为m的航班延误时间序列集合中,选取一个目标机场的航班延误时间序列设为Xn,将m-1个机场航班延误时间序列作为因果关系备选序列,从该因果关系备选序列中选取一个机场航班延误时间序列设为Yn,则其它机场航班延误时间序列集合表示为
步骤B:构建时间序列Xn和时间序列Yn从1阶到p阶段全部的历史向量集合为:
Ω={Xn-1,Xn-2,Xn-3,...,Xn-p,Yn-1,Yn-2,Yn-3,...,Yn-p}
步骤C:初始化嵌入向量的集合V=φ,计算出一个W1∈Ω满足W1与Xn的互信息为最大,即:
W1=argmaxI(Xn;W),W∈Ω
将满足条件的W1嵌入到集合中,即V1={W1}:
式中,Xn与W的互信息I(Xn;W)是基于KNN算法计算得出,具体表示为:
I(Xn,W)=H(Xn)+H(W)-H(Xn,W)
其中H(Xn)和H(W)表示Xn和W的熵值,H(Xn,W)表示联合熵,其计算公式为:
式中,dX和dW是Xn与W的维度数量,ε(i)是在(Xn,W)联合空间中第i个点到它相邻的第k个点的距离的2倍,ψ(x)是digamma函数 cd表示d维单位立方体的体积,其中Xn为联合空间(Xn,W)的投影,故Xn的熵估计表示为:
式中,nx(i)的值随着到Xn的第i个点的距离小于∈(i)/2的点的数目增加而增加,同理可以得出的表示为:
式中,nx(i)的值随着到W的第i个点的距离小于∈(i)/2的点的数目增加而增加;
进而求得表示为:
式中<…>定义为对所有样本点i求得的平均值;
步骤D:进行第k步嵌入时(1<k≤dim(Ω)),选择一个Wk满足
Wk=argmaxI(Xn;W,Vk-1),W∈Ω\Vk-1
如果(其中A≤1),则嵌入过程停止,嵌入向量集合V=Vk-1,否则,将Wk嵌入到集合V中,使得V={Vk-1,Wk},重复步骤D直至满足停止条件,进行步骤E的操作;
步骤E:计算目标机场航班延误时间序列Xn与因果关系备选机场航班延误时间序列Yn之间的转移熵TY→X;
在嵌入向量集合V中减去来自Y的历史向量Y′的贡献,V′=V\Y′,计算转移熵:
TY→X≡H(Xn|V′)-H(Xn|V)
将所述转移熵TY→X作为所述目标机场与因果关系备选机场航班延误时间序列Yn对应的其它机场之间的航班延误的定量化因果关系;
判断其它机场航班延误时间序列集合中,是否存在待计算序列;若存在,则将待计算时间序列从Z中删除,并且设置为时间序列Yn,返回步骤B与原目标机场航班延误时间序列Xn,依次进行转移熵计算。若不存在待计算序列,则结束步骤E。
5.根据权利要求4所述的方法,所述的方法还包括:
通过显著性检验确定备选时间序列Yn和目标时间序列Xn因果相关性的显著关系;
重新构造多个时间序列,构造时间序列的统计特性与时间序列Yn保持相同且时间序列长度与Yn的长度等长,计算每个构造时间序列与目标时间序列Xn的转移熵,在秩排序的基础上进行显著性检验,估计I型错误概率为:P=1-(i-0.326)/(s+1+0.348);
其中i表示原始时间序列Yn与Xn转移熵数值在所有计算出的转移熵数值的递增排序中的位置,s表示生成构造时间序列的个数,当P<α时,则确定Xn和Yn具有因果相关性的显著关系,其中α为显著性水平。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811305071.7A CN109558436B (zh) | 2018-11-03 | 2018-11-03 | 基于转移熵的机场航班延误因果关系挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811305071.7A CN109558436B (zh) | 2018-11-03 | 2018-11-03 | 基于转移熵的机场航班延误因果关系挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109558436A true CN109558436A (zh) | 2019-04-02 |
CN109558436B CN109558436B (zh) | 2023-03-14 |
Family
ID=65865845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811305071.7A Active CN109558436B (zh) | 2018-11-03 | 2018-11-03 | 基于转移熵的机场航班延误因果关系挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558436B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503350A (zh) * | 2019-09-11 | 2019-11-26 | 中国民航大学 | 一种空中交通系统自组织临界特性的辨识方法 |
CN110766314A (zh) * | 2019-10-21 | 2020-02-07 | 中国民航信息网络股份有限公司 | 一种因果关系分析方法及装置 |
CN112244880A (zh) * | 2020-09-24 | 2021-01-22 | 杭州电子科技大学 | 基于变尺度符号补偿传递熵的情绪诱导脑电信号分析方法 |
CN115049268A (zh) * | 2022-06-20 | 2022-09-13 | 中国民用航空总局第二研究所 | 航班地面保障效率影响因素的因果关系挖掘方法及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035779A (zh) * | 2014-06-25 | 2014-09-10 | 中国科学院软件研究所 | 一种数据流决策树分类中的缺失值处理方法 |
CN104239489A (zh) * | 2014-09-05 | 2014-12-24 | 河海大学 | 利用相似性搜索和改进bp神经网络预测水位的方法 |
CN104715292A (zh) * | 2015-03-27 | 2015-06-17 | 上海交通大学 | 基于最小二乘支持向量机模型的城市短期用水量预测方法 |
US20170220937A1 (en) * | 2014-02-14 | 2017-08-03 | Omron Corporation | Causal network generation system and data structure for causal relationship |
-
2018
- 2018-11-03 CN CN201811305071.7A patent/CN109558436B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170220937A1 (en) * | 2014-02-14 | 2017-08-03 | Omron Corporation | Causal network generation system and data structure for causal relationship |
CN104035779A (zh) * | 2014-06-25 | 2014-09-10 | 中国科学院软件研究所 | 一种数据流决策树分类中的缺失值处理方法 |
CN104239489A (zh) * | 2014-09-05 | 2014-12-24 | 河海大学 | 利用相似性搜索和改进bp神经网络预测水位的方法 |
CN104715292A (zh) * | 2015-03-27 | 2015-06-17 | 上海交通大学 | 基于最小二乘支持向量机模型的城市短期用水量预测方法 |
Non-Patent Citations (1)
Title |
---|
郝志峰等: "基于因果强度的时序因果关系发现算法", 《计算机工程与设计》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503350A (zh) * | 2019-09-11 | 2019-11-26 | 中国民航大学 | 一种空中交通系统自组织临界特性的辨识方法 |
CN110503350B (zh) * | 2019-09-11 | 2023-05-09 | 中国民航大学 | 一种空中交通系统自组织临界特性的辨识方法 |
CN110766314A (zh) * | 2019-10-21 | 2020-02-07 | 中国民航信息网络股份有限公司 | 一种因果关系分析方法及装置 |
CN112244880A (zh) * | 2020-09-24 | 2021-01-22 | 杭州电子科技大学 | 基于变尺度符号补偿传递熵的情绪诱导脑电信号分析方法 |
CN115049268A (zh) * | 2022-06-20 | 2022-09-13 | 中国民用航空总局第二研究所 | 航班地面保障效率影响因素的因果关系挖掘方法及设备 |
CN115049268B (zh) * | 2022-06-20 | 2024-08-23 | 中国民用航空总局第二研究所 | 航班地面保障效率影响因素的因果关系挖掘方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109558436B (zh) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558436A (zh) | 基于转移熵的机场航班延误因果关系挖掘方法 | |
CN107358293B (zh) | 一种神经网络训练方法及装置 | |
CN110955780A (zh) | 一种用于知识图谱的实体对齐方法 | |
CN109784488B (zh) | 一种适用于嵌入式平台的二值化卷积神经网络的构建方法 | |
CN113762595B (zh) | 通行时间预测模型训练方法、通行时间预测方法及设备 | |
CN110443448B (zh) | 一种基于双向lstm的飞机机位分类预测方法和系统 | |
CN111178585A (zh) | 基于多算法模型融合的故障接报量预测方法 | |
CN110807544A (zh) | 一种基于机器学习的油田剩余油饱和度分布的预测方法 | |
CN109787821B (zh) | 一种大规模移动客户流量消费智能预测方法 | |
CN105471647A (zh) | 一种电力通信网故障定位方法 | |
CN114154427A (zh) | 基于深度学习的体积压裂裂缝扩展预测方法和系统 | |
Kim et al. | History matching of a channelized reservoir using a serial denoising autoencoder integrated with ES‐MDA | |
CN106446081B (zh) | 基于变化一致性挖掘时序数据关联关系的方法 | |
Calvette et al. | Forecasting smart well production via deep learning and data driven optimization | |
CN116362325A (zh) | 一种基于模型压缩的电力图像识别模型轻量化应用方法 | |
CN114818579A (zh) | 基于一维卷积长短期记忆网络的模拟电路故障诊断方法 | |
CN112766603A (zh) | 一种交通流量预测方法、系统、计算机设备及存储介质 | |
CN109252855A (zh) | 确定气井最终累积产量的方法及装置 | |
CN115796338A (zh) | 光伏发电功率预测模型构建及光伏发电功率预测方法 | |
CN110222840B (zh) | 一种基于注意力机制的集群资源预测方法和装置 | |
CN113988415A (zh) | 一种中长期电力负荷预测方法 | |
CN109345537B (zh) | 基于高阶多尺度crf半监督的sar图像分割方法 | |
CN115577787B (zh) | 量子振幅估计方法、装置、设备以及存储介质 | |
CN110008568A (zh) | 小样本下装备平均修复时间的非统计估计模型 | |
Silva et al. | Generative network-based reduced-order model for prediction, data assimilation and uncertainty quantification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |