CN113449915B - 一种基于知识图谱的航班延误预测方法 - Google Patents
一种基于知识图谱的航班延误预测方法 Download PDFInfo
- Publication number
- CN113449915B CN113449915B CN202110718512.1A CN202110718512A CN113449915B CN 113449915 B CN113449915 B CN 113449915B CN 202110718512 A CN202110718512 A CN 202110718512A CN 113449915 B CN113449915 B CN 113449915B
- Authority
- CN
- China
- Prior art keywords
- flight
- entity
- data
- flow control
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000010801 machine learning Methods 0.000 claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 230000010006 flight Effects 0.000 claims description 12
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 230000009187 flying Effects 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 101000787903 Homo sapiens Transmembrane protein 200C Proteins 0.000 description 1
- 102100025939 Transmembrane protein 200C Human genes 0.000 description 1
- 241000863480 Vinca Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于知识图谱的航班延误预测方法,包括:获取基于知识图谱进行延误预测的数据,将飞行计划数据加入知识图谱,即创建多个实体以及各实体间关系,将流控报文数据由非结构化文本解析为结构化文本,将解析后的结构化的流控报文加入知识图谱,再以知识图谱中航班实体的属性、航班实体与航路点实体的关系,以及航路点实体与流控报文的关系生成训练集,最终根据训练集,采用机器学习算法训练得出预测模型,输出航班延误预测结果。相较于现有技术,本发明的数据来源完整,可有效预测全局航班的延误情况,提升了对航班延误的预测结果准确性。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于知识图谱的航班延误预测方法。
背景技术
随着当前民航的发展,乘飞机已经成为人们常用的出行方式。然而,由于天气、军事活动等原因会造成容量的下降,当前航班的延误也越来越多。
延误不可避免时,提前预测延误情况有助于航空公司、旅客提前做好应对措施,减轻航班延误带来的影响。
影响航班是否延误的因素有多种,包括航班起飞时间、飞行时长、流控等。由于这些数据来自不同的数据源,如起飞时间来自飞行计划数据,流控来自流控报文,造成了各类数据间缺少关联,难以全面融合并综合利用各类数据。因此,需要一种有效的方式将多源异构的数据集有效地组织起来。
发明内容
本发明提供了一种基于知识图谱的航班延误预测方法,以解决现有航班延误预测方法因信息不完整导致预测结果不准确这一问题。
发明目的:本发明公开了一种基于空中交通管理(简称空管)领域知识图谱的航班延误预测方法,首先对当前所有生效的流控报文进行解析,将非结构化的报文转换成结构化数据,并根据限流点将流控报文加入空管知识图谱。在知识图谱中,根据航班号搜索航班的各属性,并以航班的各属性为特征,利用机器学习预测航班延误情况。具体包括如下步骤:
步骤1,获取基于知识图谱进行延误预测的数据,所述数据包括航班出港数据、飞行计划数据和流控报文数据;
步骤2,将所述飞行计划数据加入知识图谱,即创建多个实体以及各实体间关系,所述多个实体包括航班实体、航路点实体、机型实体和机场实体;
步骤3,将所述流控报文数据由非结构化文本解析为结构化文本;
步骤4,将解析后的结构化的流控报文加入所述知识图谱;
步骤5,以所述知识图谱中航班实体的属性、所述航班实体与航路点实体的关系,以及所述航路点实体与流控报文的关系生成训练集;
步骤6,根据所述训练集,采用机器学习算法训练得出预测模型,输出航班延误预测结果。
进一步地,在一种实现方式中,所述步骤1包括:
步骤1-1,获取所述航班出港数据,所述航班出港数据提供延误记录,所述航班出港数据的数据结构包括:航班号、机型、起飞机场、降落机场、预计起飞时间、预计降落时间和实际起飞时间;
步骤1-2,获取所述航班的飞行计划数据,所述飞行计划数据提供经过的航路点,所述飞行计划数据的数据结构包括航班号、机型、起飞机场、降落机场、巡航高度和经过的航路点;
步骤1-3,获取所述流控报文数据,所述流控报文数据提供航路点的流控信息,所述流控报文数据的数据结构包括限流的航路点、每两架飞机的飞行距离间隔、限流的高度层、生效时间和结束时间。
进一步地,在一种实现方式中,所述步骤2包括:
步骤2-1,根据所有所述飞行计划数据,在所述知识图谱中为每个航班创建描述飞行计划数据的实体,即航班实体,所述航班实体的属性包括航班号、预计起飞时间、预计降落时间、实际起飞时间和巡航高度;
步骤2-2,将所有所述航路点、机型和机场加入知识图谱,即在所述知识图谱中创建航路点实体、机型实体和机场实体,所述航路点实体的属性包括航路点的名称、经度和纬度,所述机型实体用于描述飞机的类型,所述机场实体的属性包括地理位置和跑道数量;具体的,本发明中,所述机型实体包括B737、A320等飞机的类型。
步骤2-3,在所述知识图谱中建立所述航班实体分别与机场实体、机型实体和航路点实体之间的关系。
进一步地,在一种实现方式中,所述步骤3包括:
步骤3-1,识别所述流控报文数据中包含的数据类型,所述数据类型包括限流的航路点、每两架飞机的飞行距离间隔和限流的高度层;
步骤3-2,根据所述流控报文数据中的数据类型及特征,采用基于正则表达式的方法将所述流控报文数据解析为结构化报文。具体的,本发明中,所述特征指是否为数字或字母、数据的长度、出现的位置等
进一步地,在一种实现方式中,所述步骤4包括:
步骤4-1,在所述知识图谱中为每个流控报文数据创建描述实体,即流控报文实体,所述流控报文实体的属性包括每两架飞行的距离间隔、限流的高度层、生效时间和结束时间;
步骤4-2,将流控报文解析结果中的航路点与所述知识图谱中的航路点进行名称匹配,建立航路点实体与流控报文实体之间的限流关系,将所述流控报文解析结果加入知识图谱。
进一步地,在一种实现方式中,所述步骤5包括:
步骤5-1,检索所述知识图谱中的航班实体,获得所述航班实体的属性,所述航班实体的属性包括航班号、预计起飞时间、预计降落时间和实际起飞时间;
步骤5-2,检索所述知识图谱中的航班实体,将延误时长、经过的航路点时刻生效的流控报文数量、航路点竞争航班数量、流控间隔大小作为训练集的特征生成训练集;所述延误时长为预计降落时间与预计起飞时间之间的时间差,所述延误时长为训练集的标签。
进一步地,在一种实现方式中,所述步骤6包括:
步骤6-1,根据场景需求,将所述延误时长转化为二分类或多分类问题,并选择机器学习算法进行训练,所述机器学习算法包括支持向量机、决策树以及或k近邻;
步骤6-2,用训练好的模型对某天的航班整体延误情况进行预测,获得航班延误预测结果,所述航班延误预测结果包括延误时长。
由以上技术方案可知,本发明实施例提供一种基于知识图谱的航班延误预测方法,包括:步骤1,获取基于知识图谱进行延误预测的数据,所述数据包括航班出港数据、飞行计划数据和流控报文数据;步骤2,将所述飞行计划数据加入知识图谱,即创建多个实体以及各实体间关系,所述多个实体包括航班实体、航路点实体、机型实体和机场实体;步骤3,将所述流控报文数据由非结构化文本解析为结构化文本;步骤4,将解析后的结构化的流控报文加入所述知识图谱;步骤5,以所述知识图谱中航班实体的属性、所述航班实体与航路点实体的关系,以及所述航路点实体与流控报文的关系生成训练集;步骤6,根据所述训练集,采用机器学习算法训练得出预测模型,输出航班延误预测结果。
现有技术中,航班延误预测方法因信息不完整导致预测结果不准确。而采用前述方法,本发明提出了对流控报文的解析,以及基于知识图谱的数据汇聚方案,达到了增加数据来源的效果。通过搜索相关的延误时长、起飞时间、经过的航路点、航路点相关的流报文等信息,可构建延误预测的训练集。选择合适的机器学习模型,并训练,可有效预测全局航班的延误情况,相对于现有技术,本发明的数据来源完整,提升了对航班延误的预测结果准确性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例部分提供的一种基于知识图谱的航班延误预测方法的工作流程示意图;
图2是本发明实施例部分提供的一种基于知识图谱的航班延误预测方法中知识图谱中航班实体构建结果示意图;
图3是本发明实施例部分提供的一种基于知识图谱的航班延误预测方法中流控报文解析结果示意图;
图4是本发明实施例部分提供的一种基于知识图谱的航班延误预测方法中将流控报文解析结果加入知识图谱的结果示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例公开一种基于知识图谱的航班延误预测方法,本方法应用于预测全局航班延误情况,从而支撑空管、机场、航空公司等机构生成相应预案。
知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成三元组构成的图,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱可以建立航班、机场、航路点等实体间的关联,成为多源数据汇聚与统一表达的基础。
而本实施例提供的一种基于知识图谱的航班延误预测方法,以知识图谱中的航班为核心,通过搜索相关的延误时长、起飞时间、经过的航路点、航路点相关的流报文等信息,可构建延误预测的训练集。选择合适的机器学习模型,并训练,可有效预测全局航班的延误情况。
如图1所示,本实施例提供的一种基于知识图谱的航班延误预测方法,具体包括如下步骤:
步骤1,获取基于知识图谱进行延误预测的数据,所述数据包括航班出港数据、飞行计划数据和流控报文数据;
步骤2,将所述飞行计划数据加入知识图谱,即创建多个实体以及各实体间关系,所述多个实体包括航班实体、航路点实体、机型实体和机场实体;
步骤3,将所述流控报文数据由非结构化文本解析为结构化文本;
步骤4,将解析后的结构化的流控报文加入所述知识图谱;
步骤5,以所述知识图谱中航班实体的属性、所述航班实体与航路点实体的关系,以及所述航路点实体与流控报文的关系生成训练集;
步骤6,根据所述训练集,采用机器学习算法训练得出预测模型,输出航班延误预测结果。
本发明实施例提供的一种基于知识图谱的航班延误预测方法中,所述步骤1包括:
步骤1-1,获取所述航班出港数据,所述航班出港数据提供延误记录,所述航班出港数据的数据结构包括:航班号、机型、起飞机场、降落机场、预计起飞时间、预计降落时间和实际起飞时间;
步骤1-2,获取所述航班的飞行计划数据,所述飞行计划数据提供经过的航路点,所述飞行计划数据的数据结构包括航班号、机型、起飞机场、降落机场、巡航高度和经过的航路点;
步骤1-3,获取所述流控报文数据,所述流控报文数据提供航路点的流控信息,所述流控报文数据的数据结构包括限流的航路点、每两架飞机的飞行距离间隔、限流的高度层、生效时间和结束时间。
具体的,本实施例中,首先分别从机场、航空公司、空管等信息系统中获取航班出港数据、飞行计划数据和流控报文数据。所述飞行计划数据的数据结构包括:航班号、机型、起飞机场、降落机场、巡航高度、预计起飞时间、预计降落时间和经过的航路点。具体的,所述飞行计划数据的数据结构如表1所示:
表1飞行计划数据的数据结构表
所述航班出港数据的数据结构包括:航班号、机型、起飞机场、降落机场、预计起飞时间、预计降落时间和实际起飞时间。具体的,所述出港数据的数据结构如表2所示:
表2航班出港数据的数据结构表
本实施例中,所述飞行计划数据与航班出港数据的数据结构有部分相同,但所述飞行计划数据来自航空公司,关注飞行过程,而所述出港数据来自机场,记录了实际情况。
本发明实施例提供的一种基于知识图谱的航班延误预测方法中,所述步骤2包括:
步骤2-1,根据所有所述飞行计划数据,在所述知识图谱中为每个航班创建描述飞行计划数据的实体,即航班实体,所述航班实体的属性包括航班号、预计起飞时间、预计降落时间、实际起飞时间和巡航高度;
步骤2-2,将所有所述航路点、机型和机场加入知识图谱,即在所述知识图谱中创建航路点实体、机型实体和机场实体,所述航路点实体的属性包括航路点的名称、经度和纬度,所述机型实体用于描述飞机的类型,所述机场实体的属性包括地理位置和跑道数量;具体的,本实施例中,所述机型实体包括B737、A320等飞机的类型。
步骤2-3,在所述知识图谱中建立所述航班实体分别与机场实体、机型实体和航路点实体之间的关系。
本实施例中,根据所述表1的飞行计划数据中的第一条飞行计划,在知识图谱中为航班号为CSN3124的航班创建描述飞行计划数据的实体,所述实体的属性包括航班号、预计起飞时间、预计降落时间、实际起飞时间等。其中,实际起飞时间由出港数据获取。本实施例中,以图形数据库neo4j为例对支撑知识图谱存储进行说明,其它支撑知识图谱存储的数据库也可采用类似的方法创建。
具体的,基于所述图形数据库neo4j创建航班号为CSN3124的飞行计划数据实体的方法为:CREATE(n:FlightPlan{FlightPlanNo:”CSN3124”,CLDT:”12:55”,CTOT:”10:50”})。
上述创建方法的依据为表1-表2中关于航班号为CSN3124的内容,其中实体类型为列名,实体信息为表格中内容,例如,FlightPlan为实体类型,FlightPlanNo:”CSN3124”,CLDT:”12:55”,CTOT:”10:50”为实体信息。一般地,表1和表2中每列数据如果为数值,则将其列名作为属性,如果为对象,则列名为实体类型。
以相同的方法创建机型、机场、航路点等实体。CREATE(n:Aircraft{yype:”A320”}),CREATE(n:Company{name:”南方航空”}),CREATE(n:Airport{name:”首都国际机场”,ICAO:”ZBAA”,IATA:”PEK”})。
将所有航班经过的航路点加入知识图谱,所述航路点包括名称、经度、纬度。CREATE(n:RoutePoint{name:”TTMA”})。具体的,在实际应用场景中,所述航路点包含经纬度信息,但经纬度信息不是本实施例的重点,此处省略。
根据表1-表2中第1列以及其它各列信息构建飞行计划与机型、机场等实体之间的关系。关系的命名方式一般为has+列名称,例如,飞行计划与机型的关系名称为hasAircraft。本实施例中,以所述第一行飞行计划数据与机型的关系为例:
MATCH(n:FlightPlan{FlightPlanNo:”CSN3124”}),(m:Aircraft{yype:”A320”})CREATE(n)-[r:”hasAircraft”]->(m)RETURN r。本实施例中,所述飞行计划与其它实体之间的关系也采用同样的方法建立。
本实施例中,所述表1中巡航高度S0840表示以10米为单位,即8400米。
其它的行飞行计划也采用类似的方法创建。知识图谱中创建的结果如图2所示。
本发明实施例提供的一种基于知识图谱的航班延误预测方法中,所述步骤3包括:
步骤3-1,识别所述流控报文数据中包含的数据类型,所述数据类型包括限流的航路点、每两架飞机的飞行距离间隔和限流的高度层;
步骤3-2,根据所述流控报文数据中的数据类型及特征,采用基于正则表达式的方法将所述流控报文数据解析为结构化报文。具体的,本实施例中,所述特征指是否为数字或字母、数据的长度、出现的位置等。
本实施例中,所述流控报文数据的数据结构如下:
编号 | 报文 | 生效时间 | 结束时间 |
1 | 北京起飞出OBLIK B458航路使用S0840,100公里一架 | 9:00 | 11:30 |
2 | 南京落地出UDINO 30分钟一架 | 9:30 | 11:30 |
3 | 南京落地出PANKI S0810含以上600公里一架 | 10:00 | 11:30 |
4 | 长春落地出KAKAT S0890含以上,100公里一架 | 16:00 | 20:00 |
表3流控报文数据的数据结构表
本实施例中,所述流控报文数据为半结构化数据,其中生效时间和结束时间为结构化数据,报文文本为非结构化数据。生成训练集时,当生效时间至结束时间与航班从起飞到降落的时间段有交叠时,认为航班会受这条报文影响。
所述报文文本中包含的数据类型包括限流的航路点、每两架飞行的距离间隔、限流的高度层等。基于正则表达式的方法将报文文本解析成结构化报文时,报文文本中“出”之后与空格之间为航路点,或称限流点,“S”加数字为高度层,“一架”前数字+公里或时间为每两架飞行的距离间隔。解析的结果如图3所示。图3为完整的报文解析结果,需要注意的是,延误预测时,并不需要所有信息,例如起飞点、航路等信息对本方案并无影响。
本发明实施例提供的一种基于知识图谱的航班延误预测方法中,所述步骤4包括:
步骤4-1,在所述知识图谱中为每个流控报文数据创建描述实体,即流控报文实体,所述流控报文实体的属性包括每两架飞行的距离间隔、限流的高度层、生效时间和结束时间;
步骤4-2,将流控报文解析结果中的航路点与所述知识图谱中的航路点进行名称匹配,建立航路点实体与流控报文实体之间的限流关系,将所述流控报文解析结果加入知识图谱。本实施例中,具体如图4所示。
本发明实施例提供的一种基于知识图谱的航班延误预测方法中,所述步骤5包括:
步骤5-1,检索所述知识图谱中的航班实体,获得所述航班实体的属性,所述航班实体的属性包括航班号、预计起飞时间、预计降落时间和实际起飞时间;
步骤5-2,检索所述知识图谱中的航班实体,将延误时长、经过的航路点时刻生效的流控报文数量、航路点竞争航班数量、流控间隔大小作为训练集的特征生成训练集;所述延误时长为预计降落时间与预计起飞时间之间的时间差,所述延误时长为训练集的标签。具体的,本实施例中,所述预计飞行时长为预计降落时间减去预计起飞时间,若航班关联多个流控时,流控间隔采用最大的计算,飞行时速按700km/h计算。
其中,流控间隔n分钟一架与m公里一架可以互相转换,例如30分钟一架等于350公里一架。
因此,训练集为:
表4训练集示意表
本发明实施例提供的一种基于知识图谱的航班延误预测方法中,所述步骤6包括:
步骤6-1,根据场景需求,将所述延误时长转化为二分类或多分类问题,并选择机器学习算法进行训练,所述机器学习算法包括支持向量机、决策树以及或k近邻;
步骤6-2,用训练好的模型对某天的航班整体延误情况进行预测,获得航班延误预测结果,所述航班延误预测结果包括延误时长。
本实施例中,利用选定的七种基本特征(航路点竞争航班数量、流控时间间隔大小、同时生效报文数量、可用高度层数量、航班预计飞行时长、钟表时刻、工作日或周末),并以原始延误时长(实际起飞时间DEP-估计起飞时间ETOT)作为标签变量,基于2300个飞行记录条目进行了机器学习任务。训练过程中,本发明首先以延误发生/未发生作为波尔变量进行二分类器的训练,此后将延误时长作为拟合变量进行模型拟合,并进而进行了模型类别、特征种类、特征细节、模型参数的优化。延误预测问题在多种传统机器学习方法与深度学习方法中借助数值分析和实验比较后确定支持向量机(SVM)模型,选取高斯核并调制最优参数训练与测试模型,并得到较好预测结果。空管运作中航班在出港时间超出预计起飞时间30分钟时被认为出现延误;在以30min作为分类阈值的二分类问题中,本发明尝试了神经网络、随机森林、CART等学习方法进行试验,其中SVM模型表现出最佳性能,在惩罚系数C=50参数设置下使用one-vs-one决策函数训练后,可以在20%占比的测试集中达到81.8%的准确率。该指标在训练数据集、全部数据集上分别可以达到99.5%、96.0%准确度。
由以上技术方案可知,本发明实施例提供一种基于知识图谱的航班延误预测方法,包括:步骤1,获取基于知识图谱进行延误预测的数据,所述数据包括航班出港数据、飞行计划数据和流控报文数据;步骤2,将所述飞行计划数据加入知识图谱,即创建多个实体以及各实体间关系,所述多个实体包括航班实体、航路点实体、机型实体和机场实体;步骤3,将所述流控报文数据由非结构化文本解析为结构化文本;步骤4,将解析后的结构化的流控报文加入所述知识图谱;步骤5,以所述知识图谱中航班实体的属性、所述航班实体与航路点实体的关系,以及所述航路点实体与流控报文的关系生成训练集;步骤6,根据所述训练集,采用机器学习算法训练得出预测模型,输出航班延误预测结果。
现有技术中,航班延误预测方法因信息不完整导致预测结果不准确。而采用前述方法,本发明提出了对流控报文的解析,以及基于知识图谱的数据汇聚方案,达到了增加数据来源的效果。通过搜索相关的延误时长、起飞时间、经过的航路点、航路点相关的流报文等信息,可构建延误预测的训练集。选择合适的机器学习模型,并训练,可有效预测全局航班的延误情况,相对于现有技术,本发明的数据来源完整,提升了对航班延误的预测结果准确性。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的一种基于知识图谱的航班延误预测方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。
Claims (6)
1.一种基于知识图谱的航班延误预测方法,其特征在于,包括如下步骤:
步骤1,获取基于知识图谱进行延误预测的数据,所述数据包括航班出港数据、飞行计划数据和流控报文数据;
步骤2,将所述飞行计划数据加入知识图谱,即创建多个实体以及各实体间关系,所述多个实体包括航班实体、航路点实体、机型实体和机场实体;
步骤3,将所述流控报文数据由非结构化文本解析为结构化文本;
步骤4,将解析后的结构化的流控报文加入所述知识图谱;
步骤5,以所述知识图谱中航班实体的属性、所述航班实体与航路点实体的关系,以及所述航路点实体与流控报文的关系生成训练集;
步骤6,根据所述训练集,采用机器学习算法训练得出预测模型,输出航班延误预测结果;
所述步骤1包括:
步骤1-1,获取所述航班出港数据,所述航班出港数据提供延误记录,所述航班出港数据的数据结构包括:航班号、机型、起飞机场、降落机场、预计起飞时间、预计降落时间和实际起飞时间;
步骤1-2,获取所述航班的飞行计划数据,所述飞行计划数据提供经过的航路点,所述飞行计划数据的数据结构包括航班号、机型、起飞机场、降落机场、巡航高度和经过的航路点;
步骤1-3,获取所述流控报文数据,所述流控报文数据提供航路点的流控信息,所述流控报文数据的数据结构包括限流的航路点、每两架飞机的飞行距离间隔、限流的高度层、生效时间和结束时间。
2.根据权利要求1所述的一种基于知识图谱的航班延误预测方法,其特征在于,所述步骤2包括:
步骤2-1,根据所有所述飞行计划数据,在所述知识图谱中为每个航班创建描述飞行计划数据的实体,即航班实体,所述航班实体的属性包括航班号、预计起飞时间、预计降落时间、实际起飞时间和巡航高度;
步骤2-2,将所有所述航路点、机型和机场加入知识图谱,即在所述知识图谱中创建航路点实体、机型实体和机场实体,所述航路点实体的属性包括航路点的名称、经度和纬度,所述机型实体用于描述飞机的类型,所述机场实体的属性包括地理位置和跑道数量;
步骤2-3,在所述知识图谱中建立所述航班实体分别与机场实体、机型实体和航路点实体之间的关系。
3.根据权利要求2所述的一种基于知识图谱的航班延误预测方法,其特征在于,所述步骤3包括:
步骤3-1,识别所述流控报文数据中包含的数据类型,所述数据类型包括限流的航路点、每两架飞机的飞行距离间隔和限流的高度层;
步骤3-2,根据所述流控报文数据中的数据类型及特征,采用基于正则表达式的方法将所述流控报文数据解析为结构化报文。
4.根据权利要求3所述的一种基于知识图谱的航班延误预测方法,其特征在于,所述步骤4包括:
步骤4-1,在所述知识图谱中为每个流控报文数据创建描述实体,即流控报文实体,所述流控报文实体的属性包括每两架飞行的距离间隔、限流的高度层、生效时间和结束时间;
步骤4-2,将流控报文解析结果中的航路点与所述知识图谱中的航路点进行名称匹配,建立航路点实体与流控报文实体之间的限流关系,将所述流控报文解析结果加入知识图谱。
5.根据权利要求4所述的一种基于知识图谱的航班延误预测方法,其特征在于,所述步骤5包括:
步骤5-1,检索所述知识图谱中的航班实体,获得所述航班实体的属性,所述航班实体的属性包括航班号、预计起飞时间、预计降落时间和实际起飞时间;
步骤5-2,检索所述知识图谱中的航班实体,将延误时长、经过的航路点时刻生效的流控报文数量、航路点竞争航班数量、流控间隔大小作为训练集的特征生成训练集;所述延误时长为预计降落时间与预计起飞时间之间的时间差,所述延误时长为训练集的标签。
6.根据权利要求5所述的一种基于知识图谱的航班延误预测方法,其特征在于,所述步骤6包括:
步骤6-1,根据场景需求,将所述延误时长转化为二分类或多分类问题,并选择机器学习算法进行训练,所述机器学习算法包括支持向量机、决策树以及或k近邻;
步骤6-2,用训练好的模型对某天的航班整体延误情况进行预测,获得航班延误预测结果,所述航班延误预测结果包括延误时长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110718512.1A CN113449915B (zh) | 2021-06-28 | 2021-06-28 | 一种基于知识图谱的航班延误预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110718512.1A CN113449915B (zh) | 2021-06-28 | 2021-06-28 | 一种基于知识图谱的航班延误预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449915A CN113449915A (zh) | 2021-09-28 |
CN113449915B true CN113449915B (zh) | 2023-10-27 |
Family
ID=77813276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110718512.1A Active CN113449915B (zh) | 2021-06-28 | 2021-06-28 | 一种基于知识图谱的航班延误预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449915B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114781704B (zh) * | 2022-04-08 | 2024-09-20 | 南京航空航天大学 | 一种基于过站航班保障流程的航班延误预测方法 |
CN115640878B (zh) * | 2022-09-30 | 2024-09-24 | 南京航空航天大学 | 用于机场航班时刻优化的树型防火墙容量配置方法 |
CN115759386B (zh) * | 2022-11-11 | 2023-07-07 | 中国民航科学技术研究院 | 一种民航航班执飞结果预测方法、装置及电子设备 |
CN118296560B (zh) * | 2024-06-06 | 2024-08-13 | 民航成都信息技术有限公司 | 一种航班运行控制的多源异构数据融合方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377887A (zh) * | 2008-07-31 | 2009-03-04 | 北京民航天宇科技发展有限公司 | 航班延误统计方法及装置 |
CN107391512A (zh) * | 2016-05-17 | 2017-11-24 | 北京邮电大学 | 知识图谱预测的方法和装置 |
CN108694469A (zh) * | 2018-06-08 | 2018-10-23 | 哈尔滨工程大学 | 一种基于知识图谱的关系预测方法 |
CN109979245A (zh) * | 2017-12-28 | 2019-07-05 | 北京航空航天大学 | 飞行流量调控方法和装置 |
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN110675007A (zh) * | 2019-12-06 | 2020-01-10 | 南京萨利智能科技有限公司 | 航班延误预测方法、装置及计算机存储介质 |
CN111144631A (zh) * | 2019-12-19 | 2020-05-12 | 南京航空航天大学 | 基于贝叶斯网络算法的航班延误实时概率预测方法 |
CN111178628A (zh) * | 2019-12-30 | 2020-05-19 | 沈阳民航东北凯亚有限公司 | 一种行李到达时间预测方法及装置 |
CN111915207A (zh) * | 2020-08-11 | 2020-11-10 | 中国民航科学技术研究院 | 基于知识图谱的民航安全风险分析方法及装置 |
CN112216151A (zh) * | 2020-10-15 | 2021-01-12 | 北京航空航天大学 | 空中交通四维航迹调控决策方法 |
CN112307217A (zh) * | 2020-09-16 | 2021-02-02 | 北京中兵数字科技集团有限公司 | 知识图谱模型的构建方法以及构建装置、存储介质 |
CN112380352A (zh) * | 2020-10-28 | 2021-02-19 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 一种交互式检索方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090118998A1 (en) * | 2007-11-07 | 2009-05-07 | Flightview Inc. | Flight Tracking Display Systems and Methods |
-
2021
- 2021-06-28 CN CN202110718512.1A patent/CN113449915B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377887A (zh) * | 2008-07-31 | 2009-03-04 | 北京民航天宇科技发展有限公司 | 航班延误统计方法及装置 |
CN107391512A (zh) * | 2016-05-17 | 2017-11-24 | 北京邮电大学 | 知识图谱预测的方法和装置 |
CN109979245A (zh) * | 2017-12-28 | 2019-07-05 | 北京航空航天大学 | 飞行流量调控方法和装置 |
CN108694469A (zh) * | 2018-06-08 | 2018-10-23 | 哈尔滨工程大学 | 一种基于知识图谱的关系预测方法 |
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN110675007A (zh) * | 2019-12-06 | 2020-01-10 | 南京萨利智能科技有限公司 | 航班延误预测方法、装置及计算机存储介质 |
CN111144631A (zh) * | 2019-12-19 | 2020-05-12 | 南京航空航天大学 | 基于贝叶斯网络算法的航班延误实时概率预测方法 |
CN111178628A (zh) * | 2019-12-30 | 2020-05-19 | 沈阳民航东北凯亚有限公司 | 一种行李到达时间预测方法及装置 |
CN111915207A (zh) * | 2020-08-11 | 2020-11-10 | 中国民航科学技术研究院 | 基于知识图谱的民航安全风险分析方法及装置 |
CN112307217A (zh) * | 2020-09-16 | 2021-02-02 | 北京中兵数字科技集团有限公司 | 知识图谱模型的构建方法以及构建装置、存储介质 |
CN112216151A (zh) * | 2020-10-15 | 2021-01-12 | 北京航空航天大学 | 空中交通四维航迹调控决策方法 |
CN112380352A (zh) * | 2020-10-28 | 2021-02-19 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 一种交互式检索方法、装置、计算机设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
基于知识图谱的国内空中交通管理研究可视化分析;王剑辉;朱晓波;夏正洪;何乃帅;;交通信息与安全(第06期);全文 * |
熊晶.《甲骨学知识图谱构建方法研究》.科学技术文献出版社,2019,第202-203页. * |
通用航空发展研究的热点与演进――基于知识图谱的可视化研究;杨凤田;李作学;马婧婧;黄涛;;北京航空航天大学学报(社会科学版)(第03期);全文 * |
面向空管知识图谱的知识抽取与知识嵌入方法;莫海健等;《指挥信息系统与技术》;第12卷(第5期);全文 * |
飞行数据在航空工效领域应用研究进展;陈农田;李俊辉;孙有朝;汪关祥;;人类工效学(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113449915A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113449915B (zh) | 一种基于知识图谱的航班延误预测方法 | |
Kuhn | Using structural topic modeling to identify latent topics and trends in aviation incident reports | |
Belcastro et al. | Using scalable data mining for predicting flight delays | |
US12026440B1 (en) | Optimizing aircraft flows at airports using data driven predicted capabilities | |
Carvalho et al. | On the relevance of data science for flight delay research: a systematic review | |
Khan et al. | Prediction of aircraft trajectory and the associated fuel consumption using covariance bidirectional extreme learning machines | |
US9310204B2 (en) | Route modeler for improving desired environmental and economic flight characteristics | |
Dong et al. | Identifying incident causal factors to improve aviation transportation safety: Proposing a deep learning approach | |
Herrema et al. | Taxi-out time prediction model at Charles de Gaulle Airport | |
Fernandes et al. | Factors influencing charter flight departure delay | |
US20210125512A1 (en) | Aircraft parking stand assignment prediction | |
Liu et al. | Causal analysis of flight en route inefficiency | |
CN112926809B (zh) | 一种基于聚类和改进的xgboost的航班流量预测方法及系统 | |
Peng et al. | Benefits derived from arrival management and wake turbulence re-categorization in China | |
Chou et al. | A machine learning application for predicting and alerting missed approaches for airport management | |
Natarajan et al. | A novel approach: Airline delay prediction using machine learning | |
Zhang et al. | Improved Framework for Classification of Flight Phases of General Aviation Aircraft | |
Ren et al. | Exploration of the evolution of airport ground delay programs | |
Alla et al. | Flight arrival delay prediction using supervised machine learning algorithms | |
Toruń et al. | Challenges for air transport providers in Czech Republic and Poland | |
Hejji et al. | AI-based models for resource allocation and resource demand forecasting systems in aviation: A survey and analytical study | |
Xu et al. | Data-Driven Departure Flight Time Prediction Based on Feature Construction and Ensemble Learning | |
US10553121B1 (en) | Detecting violation of aircraft separation requirements | |
Tošić et al. | Investigating untapped capacity at single-runway airports using short final curved approach, dual glide slope, and double threshold | |
Anderson et al. | Analysis of flight delays in aviation system using different classification algorithms and feature selection methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |