CN109558436B - 基于转移熵的机场航班延误因果关系挖掘方法 - Google Patents

基于转移熵的机场航班延误因果关系挖掘方法 Download PDF

Info

Publication number
CN109558436B
CN109558436B CN201811305071.7A CN201811305071A CN109558436B CN 109558436 B CN109558436 B CN 109558436B CN 201811305071 A CN201811305071 A CN 201811305071A CN 109558436 B CN109558436 B CN 109558436B
Authority
CN
China
Prior art keywords
airport
flight delay
delay time
airports
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811305071.7A
Other languages
English (en)
Other versions
CN109558436A (zh
Inventor
贾子钰
王晶
林友芳
张超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201811305071.7A priority Critical patent/CN109558436B/zh
Publication of CN109558436A publication Critical patent/CN109558436A/zh
Application granted granted Critical
Publication of CN109558436B publication Critical patent/CN109558436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于转移熵的机场航班延误因果关系挖掘方法。该方法包括:获取多个待测机场的航班信息,对各个待测机场航班的延误时间进行聚合,生成各个待测机场的航班延误时间序列;从所述多个待测机场中选取一个目标机场,将剩余的机场作为其它机场,根据所述目标机场、其它机场的航班延误时间序列,利用转移熵计算出所述目标机场的航班延误与各个其它机场之间的航班延误的定量化因果关系。本发明的方法能够准确地提取非线性、多变量机场航班延误时间序列的因果关系,不依赖于既定模型且定量地刻画了机场航班延误的因果相关性。并且利用滑动平均窗口法进行缺失数据的补偿,在一定程度上抑制了数据缺失对因果分析的影响。

Description

基于转移熵的机场航班延误因果关系挖掘方法
技术领域
本发明涉及航空信息处理技术领域,具体而言,涉及一种基于转移熵的机场航班延误因果关系挖掘方法。
背景技术
随着国民经济的快速增长,航空运输需求量的不断提高,机场航班延误现象日益凸显。机场航班延误的危害是巨大的,不仅会影响航空公司的运营效率和服务质量,而且会耽误旅客的时间,破坏机场的正常运行秩序,严重的可能会危害航空运输的安全。由于同一架飞机可能会执行多个连续航班的任务,当前序航班发生到达延误时,就会对后续航班产生延误波及,造成机场航班延误的传播。因此,定量化地挖掘机场航班延误的因果关系,有助于控制航班延误的传播,降低由此带来的经济损失,进而促进航空运输业的稳定发展。
近年来,虽然其他领域已经对提取因果分析的方法有了一定的应用,但在航空运输业的信息处理领域仍缺少完整有效的基于时间序列因果关系定量化评估的方法。随着我国航空运输业的不断发展,呈现出多样化和区域化的趋势,导致航空数据具有高维、动态、非线性等特点,因此如何在复杂的时间序列数据中准确地提取客观存在的因果关系显得尤为重要。目前出现了一些相关的技术方案,如一种基于格兰杰因果性的脑电源定位方法、基于海洛因成瘾模型的大脑回路因果作用关系分析方法、基于滞后阶数自适应选择的多变量因果关系分析方法等,均是基于既定模型的格兰杰因果检验方法,并不适用于处理高度复杂的非线性数据。另一种方案提出了基于变尺度符号传递熵的多通道脑肌电耦合分析方法,而该方法利用的变尺度符号化转移熵会在不同程度上损失时间序列数据的特征,同时没有关注数据缺失对因果分析造成的影响。还有一种方案为基于小波#传递熵的多时频尺度间脑肌电耦合分析方法,该方法主要是解决生理信号处理中脑肌电双变量因果分析问题,并未关注多变量时间序列因果分析中存在的问题,同时没有关注因果关系的显著性。
发明内容
本发明实施例的目的在于提供一种基于转移熵的机场航班延误因果关系挖掘方法,以克服现有技术的问题。
为了实现上述目的,本发明实施例采取的技术方案如下。
一种基于转移熵的机场航班延误因果关系挖掘方法,包括:
获取多个待测机场的航班信息,对各个待测机场航班的延误时间进行聚合,生成各个待测机场的航班延误时间序列;
从所述多个待测机场中选取一个目标机场,将剩余的机场作为其它机场,根据所述目标机场、其它机场的航班延误时间序列,利用转移熵计算出所述目标机场的航班延误与各个其它机场之间的航班延误的定量化因果关系;
从所述多个待测机场选取下一个目标机场,计算出所述下一个目标机场的航班延误与对应的各个其它机场之间的航班延误的定量化因果关系,依次遍历所有待测机场,重复执行上述处理过程,输出所有待测机场之间的航班延误的定量化因果关系。
进一步地,所述的获取多个待测机场的航班信息,对各个待测机场航班的延误时间进行聚合,生成各个待测机场的航班延误时间序列,包括:
获取各个待测机场连续多天各小时的航班应到时间和延误后的实到时间,对待测机场的航班延误时间进行小时粒度的聚合,计算单位小时内第i个待测机场第d天h小时所有航班延误时间的累加为:
Di(d,h)=∑(Tdelay-Tplan)
其中,Tdelay表示第i个机场第d天h小时航班延误后航班的实到时间,Tplan表示第i个机场第d天h小时航班的应到时间;
则第i个待测机场的航班延误时间序列集合表示为:
Figure GDA0003994028750000031
由此得到待测机场个数为m的航班延误时间序列集合为
Figure GDA0003994028750000032
其中n为每个机场航班延误时间序列的长度。
进一步地,所述的方法还包括:
利用滑动平均窗口法对待测机场的航班延误时间序列进行缺失数据的补偿,当第i个待测机场的航班延误时间序列集合
Figure GDA0003994028750000033
中第j个数据出现缺失,则将
Figure GDA0003994028750000034
中第j个数据前后各w个数据的平均值填充到缺失位置,w为滑动平均窗口的长度;
对补偿后的第i个待测机场的航班延误时间序列集合进行Z-Score标准化处理,处理方法如下:
Figure GDA0003994028750000035
式中,Di′(d,h)是第i个待测机场的d天h时标准化后的航班延误时间,Di(d,h)是第i个机场d天h时原始的航班延误时间,<Di(·,h)>是第i个待测机场的所有h时的样本点航班延误时间的平均值,σ(Di(·,H))是第i个待测机场的所有h时的样本点航班延误时间的标准差;
则第i个待测机场的航班延误时间序列预处理后的集合表示为:
Figure GDA0003994028750000036
由此得到待测机场个数为m的航班延误时间序列预处理后的集合为:
Figure GDA0003994028750000041
其中n为每个机场航班延误时间序列的长度。
进一步地,所述的从所述多个待测机场中选取一个目标机场,将剩余的机场作为其它机场,根据所述目标机场、其它机场的航班延误时间序列,利用转移熵计算出所述目标机场的航班延误与各个其它机场之间的航班延误的定量化因果关系,包括:
步骤A:在待测机场个数为m的航班延误时间序列集合
Figure GDA0003994028750000042
中,选取一个目标机场的航班延误时间序列设为Xn,将m-1个机场航班延误时间序列作为因果关系备选序列,从该因果关系备选序列中选取一个机场航班延误时间序列设为Yn,则其它机场航班延误时间序列集合表示为
Figure GDA0003994028750000043
Figure GDA0003994028750000044
步骤B:构建时间序列Xn和时间序列Yn从1阶到p阶段全部的历史向量集合为:
Ω={Xn-1,Xn-2,Xn-3,…,Xn-p,Yn-1,Yn-2,Yn-3,…,Yn-p}
步骤C:初始化嵌入向量的集合V=φ,计算出一个W1∈Ω满足W1与Xn的互信息为最大,即:
W1=argmax I(Xn;W),W∈Ω
将满足条件的W1嵌入到集合中,即V1={W1}:
式中,Xn与W的互信息I(Xn;W)是基于KNN算法计算得出,具体表示为:
I(Xn,W)=H(Xn)+H(W)-H(Xn,W)
其中H(Xn)和H(W)表示Xn和W的熵值,H(Xn,W)表示联合熵,其计算公式为:
Figure GDA0003994028750000045
式中,dX和dW是Xn与W的维度数量,∈(i)是在(Xn,W)联合空间中第i个点到它相邻的第k个点的距离的2倍,ψ(x)是digamma函数
Figure GDA0003994028750000051
Figure GDA0003994028750000052
cd表示d维单位立方体的体积,其中Xn为联合空间(Xn,W)的投影,故Xn的熵估计表示为:
Figure GDA0003994028750000053
式中,nx(i)的值随着到Xn的第i个点的距离小于∈(i)/2的点的数目增加而增加,同理可以得出
Figure GDA0003994028750000054
的表示为:
Figure GDA0003994028750000055
式中,nx(i)的值随着到W的第i个点的距离小于∈(i)/2的点的数目增加而增加;
进而求得
Figure GDA0003994028750000056
表示为:
Figure GDA0003994028750000057
式中<…>定义为对所有样本点i求得的平均值;
步骤D:进行第k步嵌入时(1<k≤dim(Ω)),选择一个Wk满足Wk=argmax I(Xn;W,Vk-1),W∈Ω\Vk-1
如果
Figure GDA0003994028750000058
(其中A≤1),则嵌入过程停止,嵌入向量集合V=Vk-1,否则,将Wk嵌入到集合V中,使得V={Vk-1,Wk},重复步骤D直至满足停止条件,进行步骤E的操作;
步骤E:计算目标机场航班延误时间序列Xn与因果关系备选机场航班延误时间序列Yn之间的转移熵TY→X
在嵌入向量集合V中减去来自Y的历史向量Y′的贡献,V′=V\Y′,计算转移熵:
TY→X≡H(Xn|V′)-H(Xn|V)
将所述转移熵TY→X作为所述目标机场与因果关系备选机场航班延误时间序列Yn对应的其它机场之间的航班延误的定量化因果关系;
判断其它机场航班延误时间序列集合
Figure GDA0003994028750000061
中,是否存在待计算序列;若存在,则将待计算时间序列从Z中删除,并且设置为时间序列Yn,返回步骤B与原目标机场航班延误时间序列Xn,依次进行转移熵计算。若不存在待计算序列,则结束步骤E。
进一步地,所述的方法还包括:
通过显著性检验确定备选时间序列Yn和目标时间序列Xn因果相关性的显著关系;
重新构造多个时间序列,构造时间序列的统计特性与时间序列Yn保持相同且时间序列长度与Yn的长度等长,计算每个构造时间序列与目标时间序列Xn的转移熵,在秩排序的基础上进行显著性检验,估计I型错误概率为:P=1-(i-0.326)/(s+1+0.348);
其中i表示原始时间序列Yn与Xn转移熵数值在所有计算出的转移熵数值的递增排序中的位置,s表示生成构造时间序列的个数,当P<α时,则确定Xn和Yn具有因果相关性的显著关系,其中α为显著性水平。
由上述本发明的实施例提供的技术方案可以看出,本发明的方法能够准确地提取非线性、多变量机场航班延误时间序列的因果关系,不依赖于既定模型且定量地刻画了机场航班延误的因果相关性。并且利用滑动平均窗口法进行缺失数据的补偿,在一定程度上抑制了数据缺失对因果分析的影响。
为使本发明的上述目的、特征和优点更能明显易懂,下文特举较佳实施例,并配合所附附图,做详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一个实施例的基于转移熵的机场航班延误因果关系挖掘方法的总流程图;
图2是根据本发明一个实施例的目标机场航班延误时间序列与备选机场航班延误时间序列因果关系计算的流程图;
图3是根据本发明一个实施例的迭代更新目标机场航班延误时间序列进行因果关系计算及显著性检验的示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明的目的是提供一种基于转移熵的机场航班延误因果关系的挖掘方法,该方法能够准确地提取非线性、多变量机场航班延误时间序列的因果关系,不依赖于既定模型且定量地刻画了机场航班延误的因果相关性,并且在一定程度上抑制了数据缺失对因果分析的影响。
图1是本发明实施例提供的一种基于转移熵的航班延误因果关系挖掘方法的处理流程图,包括以下步骤:
步骤1:获取待测机场的航班延误时间序列。
图2是根据本发明一个实施例的目标机场航班延误时间序列与备选机场航班延误时间序列因果关系计算的流程图,图2(a)中所示,标号1至标号6表示6个待测机场,通过采集每个待测机场的航班延误信息,对待测机场的航班延误时间进行小时粒度的聚合,生成6个待测机场的航班延误时间序列。
具体的说,获取6个待测机场连续多天各小时的航班应到时间和延误后的实到时间,计算单位小时内第i个机场第d天h小时所有航班延误时间的累加为:
Di(d,h)=∑(Tdelay-Tplan)
其中,Tdelay表示第i个机场第d天h小时航班延误后航班的实到时间,Tplan表示第i个机场第d天h小时航班的应到时间。
则第i个机场航班延误时间序列集合可以表示为:
Figure GDA0003994028750000081
由此可得到6个待测机场的航班延误时间序列集合为
Figure GDA0003994028750000091
其中n为每个机场航班延误时间序列的长度,其长度大小是由采集时间,即采集共持续的小时数所决定的。
步骤2:机场航班延误时间序列的预处理,包括:对聚合后的机场航班延误时间序列数据的缺失进行数据补偿,并对机场航班延误时间序列数据进行标准化:
基于步骤1的所有机场航班延误时间序列,利用滑动平均窗口法进行缺失数据的补偿,例如
Figure GDA0003994028750000096
中第j个数据出现缺失,利用滑动平均窗口法(窗口window=w)进行缺失数据的补偿时,需将
Figure GDA0003994028750000092
中第j个数据前后各w个数据的平均值填充到缺失位置。
对补偿后的机场航班延误时间序列进行Z-Score标准化处理,对于第i个机场连续各时段的航班延误信息时间序列,处理方法如下:
Figure GDA0003994028750000093
式中,Di′(d,h)是第i个机场d天h时标准化后的航班延误时间,Di(d,h)是第i个机场d天h时原始的航班延误时间,<Di(·,h)>是第i个机场所有h时的样本点航班延误时间的平均值,σ(Di(·,H))是第i个机场所有h时的样本点航班延误时间的标准差。
则第i个机场航班延误时间序列预处理后的集合可以表示为:
Figure GDA0003994028750000094
由此可得到6个待测机场的航班延误时间序列集合为
Figure GDA0003994028750000095
其中n为每个机场航班延误时间序列的长度。
步骤3:图3是根据本发明一个实施例的迭代更新目标机场航班延误时间序列进行因果关系计算及显著性检验的示意图,如图3所示,在预处理后的机场航班延误时间序列中,选取目标机场的航班延误时间序列,将其它机场航班延误时间序列作为因果关系备选序列。利用转移熵定量地刻画目标机场航班延误与因果关系备选机场航班延误的实际因果关系。
步骤A:在待测机场航班延误时间序列集合
Figure GDA0003994028750000101
中,如图2(b)中所示,选取标号1机场产生的航班延误时间序列为目标机场航班延误时间序列,并设为Xn。将其它5个机场航班延误时间序列作为因果关系备选序列,从备选序列中选取一个机场航班延误时间序列设为Yn,则其它机场航班延误时间序列集合表示为
Figure GDA0003994028750000102
步骤B:构建时间序列Xn和时间序列Yn从1阶到p阶段全部的历史向量集合为:
Ω={Xn-1,Xn-2,Xn-3,…,Xn-p,Yn-1,Yn-2,Yn-3,…,Yn-p}
步骤C:初始化嵌入向量的集合V=φ。计算出一个W1∈Ω满足W1与Xn的互信息为最大,即:
W1=argmax I(Xn;W),W∈Ω
将满足条件的W1嵌入到集合中,即V1={W1}。
式中,Xn与W的互信息I(Xn;W)估计是基于KNN算法计算得出,具体表示为:
I(Xn,W)=H(Xn)+H(W)-H(Xn,W)
其中H(Xn)和H(W)表示Xn和W的熵值,H(Xn,W)表示联合熵,其估计可以表示为:
Figure GDA0003994028750000103
式中,dX和dW是Xn与W的维度数量,∈(i)是在(Xn,W)联合空间中第i个点到它相邻的第k个点的距离的2倍,ψ(x)是digamma函数
Figure GDA0003994028750000104
Figure GDA0003994028750000105
cd表示d维单位立方体的体积。其中Xn为联合空间(Xn,W)的投影,故Xn的熵估计可以表示为:
Figure GDA0003994028750000111
式中,nx(i)的值随着到Xn的第i个点的距离小于∈(i)/2的点的数目增加而增加。同理可以得出
Figure GDA0003994028750000112
的表示为:
Figure GDA0003994028750000113
式中,nx(i)的值随着到W的第i个点的距离小于∈(i)/2的点的数目增加而增加。
进而求得
Figure GDA0003994028750000114
可以表示为:
Figure GDA0003994028750000115
式中<…>定义为对所有样本点i求得的平均值。
步骤D:进行第k步嵌入时(1<k≤dim(Ω)),选择一个Wk满足Wk=argmax I(Xn;W,Vk-1),W∈Ω\Vk-1
如果
Figure GDA0003994028750000116
(其中A≤1),则嵌入过程停止,嵌入向量集合V=Vk-1。否则,将Wk嵌入到集合V中,使得V={Vk-1,Wk},重复步骤D直至满足停止条件,进行步骤E的操作。
步骤E:计算目标机场航班延误时间序列Xn与因果关系备选机场航班延误时间序列Yn的转移熵,根据转移熵定量化评估机场航班延误的因果关系。
在嵌入向量集合V中减去来自Y的历史向量Y′的贡献,V′=V\Y′,计算转移熵:
TY→X≡H(Xn|V′)-H(Xn|V)
将所述转移熵TY→X作为所述目标机场与因果关系备选机场航班延误时间序列Yn对应的其它机场之间的航班延误的定量化因果关系,转移熵值越大,说明因果关系备选时间序列Yn对目标时间序列Xn的因果相关性越强,即两个机场的航班延误时间序列的因果关系越强。
判断其它机场航班延误时间序列集合
Figure GDA0003994028750000121
中,是否存在待计算序列。若存在,则取出待计算时间序列将其从Z中删除,并且设置为时间序列Yn。返回步骤B与原目标机场航班延误时间序列Xn,依次进行转移熵计算。若不存在待计算序列,则结束步骤E。例如在第一次计算转移熵的过程中,如图2(b)中所示,首先计算目标机场(1号机场)时间序列Xn与因果关系备选机场之一的2号机场时间序列Yn之间的转移熵。之后判断z集合里面是否存在未与1号机场进行转移熵计算的机场。此时z集合中包含3号机场、4号机场、5号机场、6号机场均未与1号机场进行计算,取出3号机场的航班延误时间序列将其从Z中删除,并且设置为时间序列Yn,如图2(c)所示。返回步骤B与1号机场航班延误时间序列Xn,进行转移熵的求解。通过迭代计算目标机场与因果备选机场之间的转移熵,如图2(d)-图2(f)所示,直至Z集合中不存在待计算序列,则结束步骤E,得到了1号机场与其它机场之间的因果关系网络图,如图2(g)所示。
步骤F:对得到的具有因果关系的机场航班延误时间序列Xn和Yn,进行一对一的假设检验,判断Xn和Yn因果相关性的显著关系,具体包括:
重新构造多条时间序列,构造时间序列的统计特性与时间序列Yn保持相同且时间序列长度与Yn的长度等长。计算每个构造时间序列与目标时间序列Xn的转移熵,在秩排序的基础上进行显著性检验,估计I型错误概率为P=1-(i-0.326)/(s+1+0.348)
其中i表示原始时间序列Yn与Xn转移熵数值在所有计算出的转移熵数值的递增排序中的位置,s表示生成构造时间序列的个数。当P<α时,则确定Xn和Yn具有因果相关性的显著关系,其中α为显著性水平。
例如,重新构造40条统计特性、序列长度与时间序列Yn保持相同的时间序列,即s=40。将显著性水平α设为0.05,若i=40,
Figure GDA0003994028750000122
Figure GDA0003994028750000123
则表面Xn和Yn具有因果相关性的显著关系,即具有真实存在的因果关系。若i=38,
Figure GDA0003994028750000131
则表明Xn和Yn没有因果相关性的显著关系,即不具有真实存在的因果关系。通过判断机场间因果相关性的显著关系,可以得到具有真实因果关系的网络图,如图2(h)所示。
步骤4:在所有机场延误时间序列中,选择下一个目标机场的航班延误时间序列,若存在,则返回步骤3,否则,输出所有机场之间的航班延误定量化因果关系。
具体的,目标机场由1号机场更换为2号机场,返回步骤3计算2号机场与其它因果备选机场间的因果关系。直至计算完6号机场与其它因果备选机场的因果关系后,输出全部机场间航班延误量化因果关系,如图2(i)所示。
综上所述,本发明实施例的基于转移熵的机场航班延误因果关系挖掘方法,能够准确地提取非线性、多变量机场航班延误时间序列的因果关系,不依赖于既定模型且定量地刻画了机场航班延误的因果相关性。并且利用滑动平均窗口法进行缺失数据的补偿,在一定程度上抑制了数据缺失对因果分析的影响。
本发明利用机场航班延误时间序列,从因果分析的角度出发揭示了延误在机场间传播的机理,阐释了机场航班延误传播特征,通过定量化地挖掘机场航班延误的因果关系,将有助于控制航班延误的传播,降低由此带来的经济损失,从而促进航空运输业的稳定发展。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (2)

1.一种基于转移熵的机场航班延误因果关系挖掘方法,其特征在于,包括:
获取多个待测机场的航班信息,对各个待测机场航班的延误时间进行聚合,生成各个待测机场的航班延误时间序列;
从所述多个待测机场中选取一个目标机场,将剩余的机场作为其它机场,根据所述目标机场、其它机场的航班延误时间序列,利用转移熵计算出所述目标机场的航班延误与各个其它机场之间的航班延误的定量化因果关系;
从所述多个待测机场选取下一个目标机场,计算出所述下一个目标机场的航班延误与对应的各个其它机场之间的航班延误的定量化因果关系,依次遍历所有待测机场,重复执行上述处理过程,输出所有待测机场之间的航班延误的定量化因果关系;
所述的获取多个待测机场的航班信息,对各个待测机场航班的延误时间进行聚合,生成各个待测机场的航班延误时间序列,包括:
获取各个待测机场连续多天各小时的航班应到时间和延误后的实到时间,对待测机场的航班延误时间进行小时粒度的聚合,计算单位小时内第i个待测机场第d天h小时所有航班延误时间的累加为:
Di(d,h)=∑(Tdelay-Tplan)
其中,Tdelay表示第i个机场第d天h小时航班延误后航班的实到时间,Tplan表示第i个机场第d天h小时航班的应到时间;
则第i个待测机场的航班延误时间序列集合表示为:
Figure FDA0004036223410000021
由此得到待测机场个数为m的航班延误时间序列集合为
Figure FDA0004036223410000022
其中n为每个机场航班延误时间序列的长度;
所述的方法还包括:
利用滑动平均窗口法对待测机场的航班延误时间序列进行缺失数据的补偿,当第i个待测机场的航班延误时间序列集合
Figure FDA0004036223410000023
中第j个数据出现缺失,则将
Figure FDA0004036223410000024
中第j个数据前后各w个数据的平均值填充到缺失位置,w为滑动平均窗口的长度;
对补偿后的第i个待测机场的航班延误时间序列集合进行Z-Score标准化处理,处理方法如下:
Figure FDA0004036223410000025
式中,Di′(d,h)是第i个待测机场的d天h时标准化后的航班延误时间,Di(d,h)是第i个机场d天h时原始的航班延误时间,<Di(·,h)>是第i个待测机场的所有h时的样本点航班延误时间的平均值,
σ(Di(·,H))是第i个待测机场的所有h时的样本点航班延误时间的标准差;
则第i个待测机场的航班延误时间序列预处理后的集合表示为:
Figure FDA0004036223410000026
由此得到待测机场个数为m的航班延误时间序列预处理后的集合为:
Figure FDA0004036223410000031
其中n为每个机场航班延误时间序列的长度;
所述的从所述多个待测机场中选取一个目标机场,将剩余的机场作为其它机场,根据所述目标机场、其它机场的航班延误时间序列,利用转移熵计算出所述目标机场的航班延误与各个其它机场之间的航班延误的定量化因果关系,包括:
步骤A:在待测机场个数为m的航班延误时间序列集合
Figure FDA0004036223410000032
中,选取一个目标机场的航班延误时间序列设为Xn,将m-1个机场航班延误时间序列作为因果关系备选序列,从该因果关系备选序列中选取一个机场航班延误时间序列设为Yn,则其它机场航班延误时间序列集合表示为
Figure FDA0004036223410000033
步骤B:构建时间序列Xn和时间序列Yn从1阶到p阶段全部的历史向量集合为:
Ω={Xn-1,Xn-2,Xn-3,…,Xn-p,Yn-1,Yn-2,Yn-3,…,Yn-p}
步骤C:初始化嵌入向量的集合V=φ,计算出一个W1∈Ω满足W1与Xn的互信息为最大,即:
W1=argmaxI(Xn;W),W∈Ω
将满足条件的W1嵌入到集合中,即V1={W1}:
式中,Xn与W的互信息I(Xn;W)是基于KNN算法计算得出,具体表示为:
I(Xn,W)=H(Xn)+H(W)-H(Xn,W)
其中H(Xn)和H(W)表示Xn和W的熵值,H(Xn,W)表示联合熵,其计算公式为:
Figure FDA0004036223410000041
式中,dX和dW是Xn与W的维度数量,∈(i)是在(Xn,W)联合空间中第i个点到它相邻的第k个点的距离的2倍,ψ(x)是digamma函数
Figure FDA0004036223410000042
cd表示d维单位立方体的体积,其中Xn为联合空间(Xn,W)的投影,故Xn的熵估计表示为:
Figure FDA0004036223410000043
式中,nx(i)的值随着到Xn的第i个点的距离小于∈(i)/2的点的数目增加而增加,同理可以得出
Figure FDA0004036223410000044
的表示为:
Figure FDA0004036223410000045
式中,nx(i)的值随着到W的第i个点的距离小于∈(i)/2的点的数目增加而增加;
进而求得
Figure FDA0004036223410000046
表示为:
Figure FDA0004036223410000047
式中<…>定义为对所有样本点i求得的平均值;
步骤D:进行第k步嵌入时(1<k≤dim(Ω)),选择一个Wk满足Wk=argmaxI(Xn;W,Vk-1),W∈Ω\Vk-1
如果
Figure FDA0004036223410000051
(其中A≤1),则嵌入过程停止,嵌入向量集合V=Vk-1,否则,将Wk嵌入到集合V中,使得V={Vk-1,Wk},重复步骤D直至满足停止条件,进行步骤E的操作;
步骤E:计算目标机场航班延误时间序列Xn与因果关系备选机场航班延误时间序列Yn之间的转移熵TY→X
在嵌入向量集合V中减去来自Y的历史向量Y的贡献,V=V\Y,计算转移熵:
TY→X≡H(Xn|V)-H(Xn|V)
将所述转移熵TY→X作为所述目标机场与因果关系备选机场航班延误时间序列Yn对应的其它机场之间的航班延误的定量化因果关系;
判断其它机场航班延误时间序列集合
Figure FDA0004036223410000052
中,是否存在待计算序列;若存在,则将待计算时间序列从Z中删除,并且设置为时间序列Yn,返回步骤B与原目标机场航班延误时间序列Xn,依次进行转移熵计算,若不存在待计算序列,则结束步骤E。
2.根据权利要求1所述的方法,所述的方法还包括:
通过显著性检验确定备选时间序列Yn和目标时间序列Xn因果相关性的显著关系;
重新构造多个时间序列,构造时间序列的统计特性与时间序列Yn保持相同且时间序列长度与Yn的长度等长,计算每个构造时间序列与目标时间序列Xn的转移熵,在秩排序的基础上进行显著性检验,估计I型错误概率为:P=1-(i-0.326)/(s+1+0.348);
其中i表示原始时间序列Yn与Xn转移熵数值在所有计算出的转移熵数值的递增排序中的位置,s表示生成构造时间序列的个数,当P<α时,则确定Xn和Yn具有因果相关性的显著关系,其中α为显著性水平。
CN201811305071.7A 2018-11-03 2018-11-03 基于转移熵的机场航班延误因果关系挖掘方法 Active CN109558436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811305071.7A CN109558436B (zh) 2018-11-03 2018-11-03 基于转移熵的机场航班延误因果关系挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811305071.7A CN109558436B (zh) 2018-11-03 2018-11-03 基于转移熵的机场航班延误因果关系挖掘方法

Publications (2)

Publication Number Publication Date
CN109558436A CN109558436A (zh) 2019-04-02
CN109558436B true CN109558436B (zh) 2023-03-14

Family

ID=65865845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811305071.7A Active CN109558436B (zh) 2018-11-03 2018-11-03 基于转移熵的机场航班延误因果关系挖掘方法

Country Status (1)

Country Link
CN (1) CN109558436B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503350B (zh) * 2019-09-11 2023-05-09 中国民航大学 一种空中交通系统自组织临界特性的辨识方法
CN110766314A (zh) * 2019-10-21 2020-02-07 中国民航信息网络股份有限公司 一种因果关系分析方法及装置
CN112244880B (zh) * 2020-09-24 2022-04-22 杭州电子科技大学 基于变尺度符号补偿传递熵的情绪诱导脑电信号分析方法
CN115049268B (zh) * 2022-06-20 2024-08-23 中国民用航空总局第二研究所 航班地面保障效率影响因素的因果关系挖掘方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035779A (zh) * 2014-06-25 2014-09-10 中国科学院软件研究所 一种数据流决策树分类中的缺失值处理方法
CN104239489A (zh) * 2014-09-05 2014-12-24 河海大学 利用相似性搜索和改进bp神经网络预测水位的方法
CN104715292A (zh) * 2015-03-27 2015-06-17 上海交通大学 基于最小二乘支持向量机模型的城市短期用水量预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6354192B2 (ja) * 2014-02-14 2018-07-11 オムロン株式会社 因果ネットワーク生成システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035779A (zh) * 2014-06-25 2014-09-10 中国科学院软件研究所 一种数据流决策树分类中的缺失值处理方法
CN104239489A (zh) * 2014-09-05 2014-12-24 河海大学 利用相似性搜索和改进bp神经网络预测水位的方法
CN104715292A (zh) * 2015-03-27 2015-06-17 上海交通大学 基于最小二乘支持向量机模型的城市短期用水量预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于因果强度的时序因果关系发现算法;郝志峰等;《计算机工程与设计》;20170116;第38卷(第01期);140-145 *
郝志峰等.基于因果强度的时序因果关系发现算法.《计算机工程与设计》.2017,第38卷(第01期),140-145. *

Also Published As

Publication number Publication date
CN109558436A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN109558436B (zh) 基于转移熵的机场航班延误因果关系挖掘方法
CN113435604B (zh) 一种联邦学习优化方法及装置
CN108491928B (zh) 模型参数发送方法、装置、服务器及存储介质
US20180240011A1 (en) Distributed machine learning
Man et al. Prediction of hard failures with stochastic degradation signals using Wiener process and proportional hazards model
CN101620045A (zh) 基于时间序列的步进应力加速退化试验可靠性评估方法
US11100388B2 (en) Learning apparatus and method for learning a model corresponding to real number time-series input data
US9262721B2 (en) Automatically selecting analogous members for new population members based on incomplete descriptions, including an uncertainty characterzing selection
CN110222371A (zh) 基于贝叶斯和神经网络的发动机剩余寿命在线预测方法
CN110083518B (zh) 一种基于AdaBoost-Elman的虚拟机软件老化预测方法
CN109583100B (zh) 一种基于ago-rvm的陀螺仪故障预测方法
Wang Estimation of constant-stress accelerated life test for Weibull distribution with nonconstant shape parameter
CN111797672A (zh) 物体识别系统和物体识别方法
Si et al. An adaptive and nonlinear drift-based Wiener process for remaining useful life estimation
Sun et al. H∞ fusion estimation for uncertain discrete time-delayed Hamiltonian systems with sensor saturations: An event-triggered approach
Bektas et al. A neural network framework for similarity-based prognostics
Singh et al. Modified mean square error algorithm with reduced cost of training and simulation time for character recognition in backpropagation neural network
US11847187B2 (en) Device identification device, device identification method, and device identification program
WO2019159845A1 (ja) 動的分布推定装置、方法、及びプログラム
US20220036388A1 (en) Method for predicting product data and apparatus for implementing the same
CN116307206A (zh) 基于分段图卷积和时间注意力机制的天然气流量预测方法
CN115860856A (zh) 一种数据处理方法、装置、电子设备及存储介质
EP3690670B1 (en) Data processing system
CN110766314A (zh) 一种因果关系分析方法及装置
Wu et al. Study of software reliability prediction based on GR neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant