CN116862035A - 航延预测方法、装置、设备和计算机可读存储介质 - Google Patents
航延预测方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN116862035A CN116862035A CN202210300854.6A CN202210300854A CN116862035A CN 116862035 A CN116862035 A CN 116862035A CN 202210300854 A CN202210300854 A CN 202210300854A CN 116862035 A CN116862035 A CN 116862035A
- Authority
- CN
- China
- Prior art keywords
- dimension
- data
- delay
- model
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 87
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims description 33
- 230000015654 memory Effects 0.000 claims description 26
- 238000010606 normalization Methods 0.000 claims description 22
- 238000001556 precipitation Methods 0.000 claims description 21
- 238000005266 casting Methods 0.000 claims description 18
- 230000010006 flight Effects 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 14
- 230000003068 static effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000001934 delay Effects 0.000 claims description 7
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 17
- 238000010801 machine learning Methods 0.000 description 13
- 230000010354 integration Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种航延预测方法、装置、设备和计算机可读存储介质。该方法包括获取航延数据,由于航延数据从多个维度反映造成航班延误的因素,提高了航延数据的准确性。对航延数据进行标准化处理,得到多个维度特征的数值,多个维度特征的数值均在预设区间,对航延的影响是均衡的,避免在后续进行航延预测时,由于数值相差较大而出现过拟合的情况。获取采用特征选择算法确定的多个维度特征的属性权重,并根据多个维度特征的属性权重,对多个维度特征进行选择,确定目标维度特征,剔除了对航延影响程度较小的特征,减少干扰因素。根据航延预测模型对目标维度特征进行预测,得到航延预测结果,提高了航延预测结果的准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种航延预测方法、装置、设备和计算机可读存储介质。
背景技术
随着社会的发展,空中交通流量日渐增长,越来越多的用户选择航空出行。在实际飞行过程中,会存在航班延误的情况(航班起飞时间比计划起飞时间延迟或者航班取消)。如果能够提前预测航班的延误情况,在用户预定机票时,可以针对不同航班的延误预测情况,向用户推荐相应的增值服务产品,例如,航延险、休息室等,以降低航班延误对用户出行造成的影响。同时,也有助于用户根据航班的延误预测情况,合理规划时间,及时修改出行计划,选择更为合适的航班。
现有技术中,仅是从航司系统或者航信系统获取造成延误率的历史数据,通过对历史数据进行统计分析,实现对各航班的延误进行预测,降低了航延预测结果的准确性。
发明内容
本发明实施例提供一种航延预测方法、装置、设备和计算机可读存储介质,通过对航延数据进行标准化处理,根据属性权重进行特征选择,然后根据航延预测模型进行预测,得到航延预测结果,提高航延预测结果的准确性。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供一种航延预测方法,所述方法包括:获取航延数据,所述航延数据包括与航班延误关联的多个维度特征;所述多个维度特征包括与航班相关的静态特征,以及与飞行过程相关的动态特征;对所述航延数据进行标准化处理,得到多个维度特征的数值,所述多个维度特征的数值均在预设区间;获取采用特征选择算法确定的多个维度特征的属性权重,并根据所述多个维度特征的属性权重,对所述多个维度特征进行选择,确定目标维度特征;根据航延预测模型对所述目标维度特征的数值进行预测,得到航延预测结果;所述航延预测模型表征基于集成算法的逻辑分类器,用于对所述目标维度特征进行分类回归。
第二方面,本发明实施例提供一种航延预测装置,所述装置包括:获取模块,用于获取航延数据,所述航延数据包括与航班延误关联的多个维度特征;所述多个维度特征包括与航班相关的静态特征,以及与飞行过程相关的动态特征;处理模块,用于对所述航延数据进行标准化处理,得到多个维度特征的数值,所述多个维度特征的数值均在预设区间;所述获取模块,还用于获取采用特征选择算法确定的多个维度特征的属性权重;选择模块,用于根据所述多个维度特征的属性权重,对所述多个维度特征进行选择,确定目标维度特征;预测模块,用于根据航延预测模型对所述目标维度特征的数值进行预测,得到航延预测结果;所述航延预测模型表征基于集成算法的逻辑分类器,用于对所述目标维度特征进行分类回归。
第三方面,本发明实施例提供一种航延预测设备,所述设备包括存储器,用于存储可执行指令,处理器,用于执行所述存储器中存储的可执行指令时,实现上述航延预测方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有可执行指令,用于被处理器执行时,实现上述航延预测方法。
本发明实施例提供了一种航延预测方法、装置、设备和计算机可读存储介质。根据本发明实施例提供的方案,获取航延数据,航延数据包括与航班延误关联的多个维度特征,多个维度特征包括与航班相关的静态特征,以及与飞行过程相关的动态特征,由于航延数据从多个维度反映造成航班延误的因素,提高了航延数据的全面性和准确性。对航延数据进行标准化处理,得到多个维度特征的数值,多个维度特征的数值均在预设区间,使得数值的量纲统一,对航延的影响是均衡的,避免在后续进行航延预测时,由于数值相差较大而出现过拟合的情况。获取采用特征选择算法确定的多个维度特征的属性权重,并根据多个维度特征的属性权重,对多个维度特征进行选择,确定目标维度特征,通过剔除对航延影响程度较小的特征,减少干扰因素。根据航延预测模型对目标维度特征的数值进行预测,该航延预测模型表征基于集成算法的逻辑分类器,可以用于对目标维度特征进行分类回归,得到航延预测结果,提高了航延预测结果的准确性。
附图说明
图1为本发明实施例提供的一种航延预测系统的示例性的架构图;
图2为本发明实施例提供的一种航延预测方法的可选的步骤流程图;
图3为本发明实施例提供的一种航延预测模型的分类回归树的示例性的示意图;
图4为本发明实施例提供的一种航延预测模型的训练方法的可选的步骤流程图;
图5为本发明实施例提供的一种多个维度特征的得分结果的示例性的示意图;
图6为本发明实施例提供的一种航延数据处理的可选的步骤流程图;
图7为本发明实施例提供的一种预测结果与真实结果的四种情况的示意图;
图8为本发明实施例提供的一种模型评价曲线的示例性的示意图;
图9为本发明实施例提供的一种航延预测装置的结构示意图;
图10为本发明实施例提供的一种航延预测设备组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。应当理解的是,此处所描述的一些实施例仅仅用以解释本发明的技术方案,并不用于限定本发明的技术范围。
为了更好地理解本发明实施例中提供的航延预测方法,在对本发明实施例的技术方案进行介绍之前,先对相关技术进行说明。
相关技术中,用户在通过工单系统提供的平台预定机票时,平台向用户推荐出行保障,包括航空意外险、航意航延组合险和航空延误险(航延险)等。通常情况下,用户对航班是否延误的关注程度较高,平台向用户推荐航延险,也就是将航延险信息机械地通过后端接口透传到页面,对于任一订单任一航班均是如此,让用户自由选择,用户根据实际情况选择购买航延险或不购买航延险。然而,现有技术中通过对历史数据进行统计分析的方法,只考虑历史数据,没有考虑到影响此次航班延误的因素,因此不能对各航班的航延发生率进行准确预测,也就不能向用户提供有针对性的增值服务。
基于上述描述,本发明实施例提供一种航延预测系统。如图1所示,图1本发明实施例提供的一种航延预测系统的示例性的架构图,航延预测系统包括工单系统、大气系统、航管系统、航延预测模型和销售系统,其中工单系统包括航变库和订单库,航延预测模型通过工单系统、大气系统和航管系统提供的数据接口,获取到航延数据,对航延数据进行数据处理、算法处理、评价机制等步骤完成对航延预测模型的训练,航延预测模型还向销售系统提供数据接口,使得销售系统通过调用航延预测模型的数据接口,查询当前航延数据的预测结果,从而进行准确的航延险推荐。以下对航延预测系统详细介绍。
在本发明实施例中,工单系统表示客服与运营人员使用的系统,包括订单管理、发票管理和基础数据的维护等。其中,订单管理中的航变库,用于存储历史航变记录(包含航延);订单库存储历史订单记录。航变库和订单库可以结合起来,形成历史的航班信息记录,并包含是否航延的标识。大气系统用于存储历史天气记录,同时,具有实时天气查询功能。航管系统用于存储历史航空管理记录,记录各个航班的时刻表。
在本发明实施例中,航延预测模型是航延预测系统的中心,将历史航延数据、大气数据和航空管理数据录入,经过数据处理、算法处理后得到不同维度特征,并通过航延预测模型进行机器学习。然后,通过评价机制对机器学习结果进行评价。同时,航延预测模型还包括数据接口服务,接收销售系统传入的相关参数,并向销售系统返回航延预测结果。
在本发明实施例中,销售系统具有航班查询和指定航班查询、下单、航延险推荐和支付等功能,同时将订单信息同步到工单系统、实时查询到的大气数据同步到大气系统、实时查询到的航空管理数据同步到航管系统。通过调用航延预测模型的数据接口查询航延预测结果,从而对用户进行航延险的推荐。
基于上述图1中航延预测系统,本发明实施例提供一种航延预测方法。如图2所示,图2为本发明实施例提供的一种航延预测方法的步骤流程图,航延预测方法包括以下步骤:
S201、获取航延数据,航延数据包括与航班延误关联的多个维度特征;多个维度特征包括与航班相关的静态特征,以及与飞行过程相关的动态特征。
在本发明实施例中,航延数据表示待预测的航延数据。多个维度特征表征影响航延预测结果的可能因素,通过对历史航延数据进行综合分析和分类,多个维度特征不仅包括与航班相关的静态特征,可以理解为与航班本身属性相关的特征,还包括与飞行过程相关的动态特征,例如,与航班起飞和到达相关的天气情况。
在本发明实施例中,航延数据从多个维度反映造成航班延误的因素,并通过静态特征和动态特征进行表示,提高了航延数据的全面性和准确性。
在一些实施例中,航延数据包括天气数据、航空管理数据和航班数据;其中,天气数据包括出发机场降水量、出发机场风速、到达机场降水量和到达机场风速中至少一项;航班数据包括年份、季度、月份、周日期、机型、出发机场三字码、出发机场规模、到达机场三字码、计划起飞时刻、计划飞行时间和飞行距离中至少一项;航空管理数据是航班数据的补充信息,表征与航班数据相关的临时变量数据。
在本发明实施例中,航延预测系统可以从工单系统中实时获取航班数据,航班数据包括但不限于年份、季度、月份、周日期、机型、出发机场三字码、出发机场规模、到达机场三字码、计划起飞时刻、计划飞行时间和飞行距离。航班数据中年份、季度、月份和周日期反映了淡旺季、节假日和黄金周等情况,周日期包括周一至周日,可以作为特征维度参与机器学习。由于乘客量、故障率、检修时长等影响航延的隐藏因素,是不能准确且方便获取的,因此可以采用更高的维度去覆盖,例如,机型,采用机型这一维度特征,提高了机器学习结果的准确性。机场三字码是机场的唯一标识,该维度特征涵盖了地理位置、地形、海拔等不变因素,可以方便机器学习。出发机场规模的大小对延误情况有影响,通常情况下,小型机场容易出现航班延误情况,因此,将出发机场规模作为一个特征维度。
在本发明实施例中,航延预测系统可以从大气系统中实时获取天气数据,例如,低能见度、低云底高、大风、雷暴等。天气数据能够在多时空维度上影响航班的计划起飞时刻和计划飞行时间,示例性的,在航班起飞时刻前后若干个小时的天气、航班出发机场及其周边区域的天气、航班到达机场及其周边区域的天气等,都可能影响到航班的实际起飞时刻。本发明实施例中的天气数据包括但不限于出发机场风速、出发机场降水量、到达机场风速和到达机场降水量等。其中,机场的风速和降水量,可以从大气系统中查到的有效数据,是对飞机起飞影响比较大的大气因素。由于飞行路线中存在的高山、河流和山谷等影响航延的隐藏因素,不能准确且方便获取的,因此可以采用更高的维度去覆盖,例如,飞行距离,飞行距离反映了从出发地到目的地中间可能出现的对航延具有影响的因素。通过宏观数据反映天气特征,提高了航延数据的准确性。
在本发明实施例中,航延预测系统可以从航管系统中实时获取航空管理数据,航空管理数据是航班数据的补充信息,可以理解为与航班数据相关的临时或突发情况下的变量数据。
在本发明实施例中,航延数据从天气、航班和航空管理等不同渠道来源,对造成航班延误的特征进行综合考虑,融合了航班当前数据、天气数据、航班历史准点率等不同维度的特征,提高了航延数据的全面性和准确性。
S202、对航延数据进行标准化处理,得到多个维度特征的数值,多个维度特征的数值均在预设区间。
在本发明实施例中,由于航延数据是从多个维度描述造成航班延误的特征,各个维度特征的量纲不同,其对应的数值范围大小也不同,其数值差距是很大的,也就是数量级相差较大,因此,还需要航延数据进行标准化处理。通过对航延数据进行标准化处理,使得多个维度特征的数值均在预设区间。预设区间可以由本领域技术人员根据实际情况进行适当设置,可以根据多个维度特征的具体数值选择合适的区间,示例性的,预设区间可以表示0到预设值之间,例如[0,1]或[0,10],预设区间可以是某两个预设值之间,例如[1,10]或[10,50],本发明实施例对于预设区间的具体数值不作限制。
在本发明实施例中,数据标准化也可以理解为数值归一化。数值归一化的方法包括但不限于:规范化(min-max normalization,min-max)方法,log函数转换,atan函数转换,正则化(zero-mena normalization,z-score)方法,模糊量化法,本发明实施例对于数值归一化的方法不作限制。其中,min-max方法也可以称为离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,其计算公式为(x-min)/(max-min),max为原始数据的最大值,min为原始数据的最小值。log函数转换通过以10为底的log函数转换的方法,实现原始数据的归一化。atan函数转换是采用反正切函数实现原始数据的归一化。z-score方法也称为标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1。
在本发明实施例中,通过对航延数据进行标准化处理,得到多个维度特征的数值,使得多个维度特征的数值均在预设区间,数值量纲统一,对航延的影响是均衡的,避免在后续进行航延预测时,由于数值相差较大而出现过拟合的情况。
S203、获取采用特征选择算法确定的多个维度特征的属性权重,并根据多个维度特征的属性权重,对多个维度特征进行选择,确定目标维度特征。
在本发明实施例中,上述采集到对航延可能产出影响的多个维度特征,但是多个维度特征中每个特征实际上对航延结果(是否延误)的影响程度是未知的,因此,需要采用特征选择算法进行大数据分析,多个维度特征的属性权重,然后根据多个维度特征的属性权重,剔除对航延影响程度小的特征,从而得到目标维度特征,目标维度特征包括至少一项维度特征。
在一些实施例中,特征选择算法为过滤式特征选择(Relief,Relevant Features)算法、ReliefF算法、RReliefF算法和K-means聚类算法中任一种。
在本发明实施例中,Relief算法可以理解为一种特征权重算法(Featureweighting algorithms),针对二分类问题,根据各个维度特征和类别(也可以理解为标签类别,包括延误和非延误)的相关性赋予特征不同的属性权重,属性权重小于预设权重的特征将被剔除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力,从训练集D中随机选择一个样本R,然后从和R同类别的样本中寻找最近邻样本H,称为NearHit,从和R不同类别的样本中寻找最近邻样本M,称为Near Miss,根据以下规则更新每个特征的权重:若R和Near Hit在某个特征上的距离小于R和Near Miss上的距离,则说明该特征对区分同类别和不同类别的最近邻是有益的,增加该特征的权重;若R和Near Hit在某个特征的距离大于R和Near Miss上的距离,则说明该特征对区分同类别和不同类别的最近邻起负面作用,降低该特征的权重。以上过程重复m次,最后得到各特征的平均权重。特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数m和原始特征个数N的增加线性增加,因此运行效率非常高。
在本发明实施例中,上述Relief算法只能处理两类别数据,在Relief算法的基础上进行扩展,可以得到处理多类别问题的ReliefF算法。以及处理目标属性为连续值的回归问题的RReliefF算法。Relief系列算法运行效率高,对数据类型没有限制,是一种特征权重算法,算法赋予所有和类别相关性高的特征较高的权重,因此,通过选择属性权重大于预设权重的维度特征,可以得到目标维度特征。
在本发明实施例中,K-均值(K-means)聚类算法是一种基于划分的聚类算法,以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。首先随机选择k个对象作为初始的k个簇的质心;然后将剩余对象根据其与各个簇的质心的距离分配到最近的簇;最后重新计算各个簇的质心。不断重复此过程,直到目标函数最小为止,可以理解为找出使目标函数最小的k个划分。通过对特征进行聚类,从而剔除冗余特征,得到目标维度特征。
需要说明的是,在航延数据的测试阶段,以及根据航延数据样本集对航延预测模型进行训练阶段,均需要对多个维度特征进行选择,得到目标维度特征。在训练阶段中,需要采集大量的航延数据样本集,航延数据样本集包括多个航延数据样本,每个航延数据样本包括与航班延误关联的多个维度特征,以及其对应的标签类别,标签类别是延误或非延误。采用特征选择算法,根据航延数据样本集进行相关统计量计算,从而确定多个维度特征的属性权重。在测试阶段,可以直接根据在训练阶段确定的多个维度特征的属性权重,对多个维度特征进行选择,确定目标维度特征。
在本发明实施例中,获取采用特征选择算法确定的多个维度特征的属性权重,并根据多个维度特征的属性权重,对多个维度特征进行选择,确定目标维度特征,剔除了对航延影响程度较小的特征,减少干扰因素,从而使得在后续根据选择后的目标维度特征进行预测时,提高了航延预测结果的准确性。
S204、根据航延预测模型对目标维度特征的数值进行预测,得到航延预测结果;航延预测模型表征基于集成算法的逻辑分类器,用于对目标维度特征进行分类回归。
在本发明实施例中,将目标维度特征的数值输入航延预测模型,由航延预测模型根据多个目标维度特征进行分类回归分析,得到航延预测结果。示例性的,航延预测结果可以是延误或非延误,也可以是延误概率或非延误概率,对于航延预测结果的形式不作限制,只要是能够根据航延预测结果向用户进行航延险的推荐即可。
在本发明实施例中,航延预测模型是基于集成算法的逻辑分类器,可以用于对目标维度特征进行分类回归。该分类器包括多个分类树和多个回归树,也可以称为多个分类回归(Classification And Regression Tree,CART)树。分类树分析是指预测结果是航延数据所属的标签类别(例如,延误或非延误),其预测结果是离散的值,回归树分析是指预测结果可以被认为是数值,其预测结果是连续的值,分类树和回归树的本质均是特征(feature)到结果/标签(label)之间的映射。集成学习是指构建多个分类器对数据集进行预测,然后将多个分类器预测的结果集成起来,作为最终预测结果,使得组合后的分类器具有更强的泛化能力。集成学习包括但不限于自适应增强(Adaboost)、梯度提升树(GradientBoosting Decision Tree,GBDT)、极端梯度提升(eXtreme Gradient Boosting,XGBoost)、随机森林(Random Forest)、K最邻近方法(K-Nearest Neighbor algorithm,KNN)和堆叠(stacking)等。
在本发明实施例中,航延预测模型是基于集成算法的逻辑分类器,用于对目标维度特征进行分类回归,航延预测模型根据目标维度特征的数值构建多个分类器,并将多个分类器预测的结果集成起来,作为航延预测结果。通过采用机器学习模型的方法,预测航班的延误状况,提高了航延预测结果的准确性。
根据本发明实施例提供的方案,获取航延数据,航延数据包括与航班延误关联的多个维度特征,多个维度特征包括与航班相关的静态特征,以及与飞行过程相关的动态特征,由于航延数据从多个维度反映造成航班延误的因素,提高了航延数据的全面性和准确性。对航延数据进行标准化处理,得到多个维度特征的数值,多个维度特征的数值均在预设区间,使得数值的量纲统一,对航延的影响是均衡的,避免在后续进行航延预测时,由于数值相差较大而出现过拟合的情况。获取采用特征选择算法确定的多个维度特征的属性权重,并根据多个维度特征的属性权重,对多个维度特征进行选择,确定目标维度特征,通过剔除对航延影响程度较小的特征,减少干扰因素。根据航延预测模型对目标维度特征的数值进行预测,该航延预测模型表征基于集成算法的逻辑分类器,可以用于对目标维度特征进行分类回归,得到航延预测结果,提高了航延预测结果的准确性
在一些实施例中,上述图2中S202还可以包括S2021和S2022。
S2021、对航延数据中预设格式的数据进行分类,得到多个维度特征的初始数值,其中,预设格式的数据包括连续型数据,离散型数据和非数字型数据中至少一项。
在本发明实施例中,若航延数据是非数字型数据,则需要将非数字型数据进行数字化,以便后续在根据数字化数据计算其对航延预测结果的影响程度时,对重要的航延数据进行筛选。非数字型数据包括但不限于机型、机场三字码和出发机场规模等,在本发明实施例中,将机型划分为三个指标,数字1表示小型飞机,数字2表示中型飞机,数字3表示大型飞机。采用编码方式对机场三字码进行字符编码,将机场三字码转换为数字。将出发机场规模划分为三个指标,1表示小型机场,2表示中型机场,3表示大型机场。上述对非数字型数据进行数字化时,也可以采用其他的划分方式,对此本发明实施例不作限制。
在本发明实施例中,由于采用连续型航延数据和离散型航延数据对机器模型训练时,容易出现过拟合的情况,不利于机器学习。因此若航延数据是连续型或离散型,则需要对连续型航延数据和离散型航延数据进行分类处理。示例性的,计划起飞时刻和计划飞行时长与航班相对应,具有离散程度问题,对计划起飞时刻和计划飞行时长进行分类,按照小时进行统计,减少离散程度。机场的风速和降水量的相关数据连续型较大,离散程度高,需要对其进行分类,以降低散列程度。在位于某一区间的风速和降水量设置为同一级别,从而实现对风速和降水量的分类。
示例性的,如表1和表2所示,表1为本发明实施例提供了一种风速等级的划分结果。表2为本发明实施例提供了一种降水量等级的划分结果。
表1
风力等级 | 风速(km/h) |
0 | 小于1 |
1 | 1-5 |
2 | 6-11 |
3 | 12-19 |
4 | 20-28 |
5 | 29-38 |
6 | 39-49 |
7 | 50-61 |
8 | 62-74 |
9 | 75-88 |
10 | 19-102 |
11 | 103-117 |
12 | 大于117 |
表2
降水等级 | 降水量(mm) |
1 | 小于10 |
2 | 10-24.9 |
3 | 25-49.9 |
4 | 50-99.9 |
5 | 100-250 |
6 | 大于250 |
需要说明的是,风速等级和降水量等级的划分方式可以由本领域技术人员根据实际需求进行适当设置,并不局限于表1和表2中的划分结果,对此本发明实施例不作限制。
在本发明实施例中,以历史航延数据为例进行说明,对历史航延数据中预设格式的数据进行分类之后,得到多个维度特征的初始数值样本。如表3所示,表3为本发明实施例提供了一种历史航延数据的分类结果。
表3
上述表3中示出了7条历史航延数据,每条历史航延数据包括多个维度特征的初始数值,多个维度特征包括:年份、季度、月份、年份、季度、月份、周日期、出发机场、机型、出发机场规模、出发机场风速等级、出发机场降水量等级、到达机场、到达机场风速等级、到达机场降水量等级、计划起飞(出发)时刻(仅记录出发时刻中时分秒中的“时”)、计划飞行时间(仅记录飞行时间中时分秒中的“时”)和飞行距离。
在本发明实施例中,通过对连续型数据,离散型数据和非数字型数据进行分类处理,得到多个维度特征的初始数值,实现了航延数据的数字化。
S2022、对多个维度特征的初始数值进行归一化处理,得到多个维度特征的数值。
在本发明实施例中,由于各个维度特征的量纲不同,对应的数值范围大小不同,其数值差距是很大的,也就是数量级相差较大。表3中的特征,例如,年份、出发机场和到达机场的编码,数值很大,这种数值的毛刺会影响到后续特征选择算法的精确处理,因此,还需要对表3中不同维度特征的初始数值进行归一化(Min-Max Scaling,MMS)处理,得到多个维度特征的数值,使得每个维度特征对航延预测结果的影响是均衡的。
在本发明实施例中,对航延数据中预设格式的数据进行分类,得到多个维度特征的初始数值,然后对多个维度特征的初始数值进行归一化处理,得到多个维度特征的数值,多个维度特征的数值均在预设区间,使得数值量纲统一,对航延的影响是均衡的,避免在后续进行航延预测时,由于数值相差较大而出现过拟合的情况。
在一些实施例中,上述S2022还可以通过以下方式实现。获取航延数据样本集中多个维度特征的初始数值样本;针对每个维度特征,在各个维度特征的初始数值样本中确定最大值和最小值;根据各个维度特征的最大值和最小值,采用归一化公式,将多个维度特征的初始数值压缩在预设区间,得到多个维度特征的数值。
在本发明实施例中,在对每个维度特征的初始数值进行归一化时,需要获取多个航延数据样本,每个航延数据样本包括多个维度特征的初始数值样本,如上表3所示。针对某维度特征,找到该维度特征的初始数值样本中的最大值和最小值,从而根据该维度特征的最大值和最小值,采用归一化公式,将该维度特征的初始数值压缩在预设区间,得到该维度特征的数值。重复以上步骤可以得到多个维度特征的数值。
示例性的,可以通过下述公式(1)对多个维度特征进行归一化,实现统一量纲。
在本发明实施例中,公式(1)中x是需要进行统一量纲的航延数据,min和max是对应维度特征的初始数值样本的最大值和最小值,使用归一化方法可以将航延数据的多个维度特征落在[0,k]区间内。在航延数据中,若系数k取10,则年份、出发机场、到达机场、计划出发时刻和飞行距离统一到[0,10]的范围内,即可与其他维度特征保持量纲统一。统一量纲后的数据结果如表4所示,表4为本发明实施例提供了一种多个维度特征的初始数值统一量纲后的结果。
表4
需要说明的是,表3和表4中仅是示出了一小部分的历史航延数据,因此,各个维度特征的最大值和最小值会存在与表中所展示的数据不一致的地方。上述公式(1)仅是给出了归一化方法的一种示例,在本发明实施例中,在对出发机场和到达机场进行归一化时,可以设置最大值为1000000,最小值为0,然后对出发机场和到达机场进行归一化,得到表4中归一化后的数值。
在本发明实施例中,针对每个维度特征,在各个维度特征的初始数值样本中确定最大值和最小值;然后根据各个维度特征的最大值和最小值,采用归一化公式,将多个维度特征的初始数值压缩在预设区间,得到多个维度特征的数值,使得数值量纲统一,减少了对航延影响的不均衡性。
在一些实施例中,上述图2中S204还可以通过以下方式实现。根据航延预测模型,结合目标维度特征,训练多棵回归树;针对每棵回归树,根据每棵回归树的每个节点中,关于目标维度特征中与特征的数值对应的航延预测分值,确定每棵回归树的得分;根据多棵回归树的得分,确定航延预测结果。
示例性的,以分布式梯度XGBoost集成算法对航延预测模型进行说明,机器学习基本思想就是训练多棵分类树和回归树,最后综合每棵回归树的分数,得出最终的预测值。如图3所示,图3为本发明实施例提供的一种航延预测模型的分类回归树的示例性的示意图。图3中示出了两颗回归树(Tree1和Tree2),回归树的每个节点都有预测分值,例如,第一颗回归树(Tree1)中出发机场规模包括的1-小型和3-大型对应的预测分值是+5和+1,以及降水量等级包括的Lv1、Lv3和Lv6对应的预测分值分别是+0.2、+1和+8,可以理解的是降水量等级还可以包括其他等级,其他等级也具有对应的预测分值,对此本申请实施例不做限制。第二颗回归树(Tree2)中飞机机型包括的1-小型、2-中型和3-大型对应的预测分值是+0.5、+1和+6。XGBoost集成算法是将每棵回归树的每个路径的分值计算出来,最后再综合所有回归树的分值,得出最终的结果。由此可以得出多个路径的结果,如表5所示,表5为本发明实施例提供了一种回归树的不同路径的得分结果。
表5
上述表5中路径1对应的得分计算过程为5+0.2+0.5,路径18对应的得分计算过程为1+8+1.6。以此类推,可以得到其他路径的得分计算过程,从而得到各个路径的得分结果,得分越高,说明发生航延的可能性越高。综合考虑多个路径的得分,确定航延预测结果。
在本发明实施例中,通过训练多棵回归树,针对每棵回归树,根据每棵回归树的每个节点中,关于目标维度特征中与特征的数值对应的航延预测分值,计算每棵回归树的得分,将多棵回归树的得分集成起来,作为航延预测结果,提高了航延预测结果的准确性。
在一些实施例中,上述图2中S204中的航延预测模型可以通过以下S401-S404训练获得。如图4所示,图4为本发明实施例提供的一种航延预测模型的训练方法的可选的步骤流程图。
S401、获取航延数据样本集,航延数据样本集包括与航班延误关联的多个维度特征,以及各个航延数据样本对应的延误标识。
S402、对航延数据样本集进行标准化处理,得到多个维度特征的数值样本,以及各个航延数据样本对应的延误标识的标签类别,多个维度特征的数值样本均在预设区间,标签类别包括延误和非延误。
S403、根据多个维度特征的数值样本,采用特征选择算法对多个维度特征进行选择,确定目标维度特征。
S404、根据目标维度特征的数值样本,以及各个航延数据样本的标签类别,对初始航延预测模型进行训练,得到航延预测模型。
在本发明实施例中,图2中S201-S204是预测过程,包括采集航延数据,对航延数据进行标准化处理、特征选择,然后根据训练完成的航延预测模型对航延数据进行预测,图4中S401-S404是训练过程,包括采集航延数据样本集,对航延数据进行标准化处理、特征选择,然后根据各个航延数据样本的目标特征维度,以及各个对应的标签类别,对航延预测模型进行训练。训练过程和预测过程中对于数据的获取、标准化处理以及特征选择的步骤是一致的,在此不再赘述。不同的是,训练阶段中还需要对航延数据样本的延误标识设置标签类别,因此,得到上述表3中的每条航延数据样本还包括是否延误的标识。
示例性的,通过航延数据样本中计划起飞时间和实际起飞时间的比较,设置每条航延数据样本的延误标识,例如,将实际起飞时间与计划起飞时间之间的时间差小于或等于预设时间(例如15分钟)的延误标识设置为“非延误”,将实际起飞时间与计划起飞时间之间的时间差大于预设时间(例如15分钟)的延误标识设置为“延误”。将航延数据样本对应的延误标识划分为两种标签类别:用数字1表示“延误”,用数字0表示“非延误”。当然,也可以用其他的形式对延误标识进行标签分类,对此本发明实施例不做限制。同时,由于后续的航延预测模型(例如XGBoost集成算法)的内核是逻辑分类型的,因此,将航延数据样本的延误标识设置为两种标签类别,与航延预测模型的训练样本相适应。
需要说明的是,在预测阶段,航班是否延误是未知的,是需要通过航延预测模型进行预测的,因此不需要对航延数据设置标签类别的步骤。
示例性的,以XGBoost算法为例对航延预测模型进行说明,XGBoost算法包括多个CART树,XGBoost并不是简单重复的将几个CART树进行组合,它是一种加法模型,将模型上次预测(由t-1棵树组合而成的模型)产生的误差作为参考进行下一棵树(第t棵树)的建立。以此,每加入一棵树,其损失函数不断降低。在采用XGBoost集成算法对航延预测模型进行训练时,需要用到目标函数。XGBoost遵从向前分布加法,每一次的迭代都是基于上一次迭代的结果,第t次迭代对样本i的预测函数如公式(2)所示。
为第t-1棵树的预测结果,ft(xi)为第t棵树的模型,/>表示组合t棵树模型对样本i的预测结果。
若有n个样本,则XGBoost的目标函数如公式(3)所示。
公式(3)中,l(yi,y′i)表示预测值和实际值的残差,为了保证拟合度,需要对残差求和,是对全部t棵树复杂度进行求和,使用的是L2正则化处理,防止模型过度拟合。
将(2)式代入(3)式,就得到了XGBoost的核心函数表达式,如公式(4)所示。
每次往模型中加入一棵树,其损失函数便会发生变化。在加入第t棵树时,前面第t-1棵树已经训练完成,此时前面t-1棵树的正则项和训练误差都成已知常数项。因此,公式(4)中Ω(ft)是第t棵树的复杂度(L2正则化),C是常数。
在实际的使用中,还需要对XGBoost集成算法中的重要超参参数进行调整。示例性的,调整一:将XGBoost集成算法的目标参数设置为二分类逻辑回归(binary:logistic)。调整二:回归树的深度(max_depth),其值越大,航延预测模型的机器学习越具体,但是时间复杂度更高,因此,需要根据实际情况进行衡量,在本发明实施例中,可以将航延预测模型中回归树的深度值设置为6。调整三:每一步迭代的步长(learning_rate),其过大会导致精度不足,其过小会导致时间复杂度提升,在本发明实施例中,可以将航延预测模型中步长设置为0.3。调整四:随机采样比例(subsample),值越小越避免过拟合,但是过小会导致欠拟合,在本发明实施例中,可以将航延预测模型中随机采样比例设置为0.5。
在本发明实施例中,由于使用了二分类逻辑回归,XGBoost集成算法会将预测的分数映射到标签类别(0-没有延误,1-延误),从而实现对航延数据的逻辑分类处理。训练完成的航延预测模型可以用于对航延数据进行预测,得到航延预测结果,航延预测结果包括延误和非延误。
在本发明实施例中,通过采集航延数据样本集,对航延数据进行标准化处理、特征选择,然后根据各个航延数据样本的目标特征维度,以及各个对应的标签类别,对航延预测模型进行训练,提高了航延预测模型的准确性。
在一些实施例中,图4中S403可以包括S4031和S4032。
S4031、采用特征选择算法,对多个维度特征的数值样本,进行相关统计量的计算,得到多个维度特征的属性权重。
在本发明实施例中,上述对航延影响因素(特征)进行分类,是通过对历史航延数据的综合分析和分类,从而得到多个维度特征。但是多个维度特征中每个特征实际上对航延结果(是否延误)的影响程度是未知的,因此,需要采用特征选择算法进行大数据分析,对多个维度特征的数值样本,进行相关统计量的计算,可以得到多个维度特征的属性权重。属性权重可以用于剔除对航延影响程度小的特征。
在一些实施例中,上述S4031可以通过以下方式实现。根据各个航延数据样本的标签类别,确定各个航延数据样本的猜中邻近样本和猜错邻近样本;针对各个维度特征,根据各个航延数据样本中该维度特征的数值样本,以及猜中邻近样本和猜错邻近样本中该维度特征的数值样本,采用特征选择算法进行相关统计量的计算,得到该维度特征的属性权重,从而得到多个维度特征的属性权重。
示例性的,以Relief算法为例进行说明,Relief算法是采用“相关统计量”度量特征的重要性。在此,列举一个简单的示例对Relief算法的计算过程进行说明。如表6所示,表6为本发明实施例提供了一种选择特征维度的数据样本。
表6
在本发明实施例中,表6中示出了4个样本,样本编号为1和2对应的标签类别是“非延误”,样本编号为3和4对应的标签类别是“延误”。对于样本编号为1的样本,其猜中邻近样本是2号,猜错邻近样本是3号,那么样本1对于特征1(出发机场风速等级)的相关统计量(得分)以公式(5)表示,公式(5)表征猜中临近值和猜错邻近值的欧几里得几何距离。
δ(1)=-(3-3)2+(3-2)2=1 (5)
同理,样本1对于特征2(出发机场降水量等级)的相关统计量(得分)以公式(6)表示。
δ(2)=-(1-1)2+(1-3)2=4 (6)
通过得分,可以上述公式(5)和公式(6)看出特征2的分类作用大于特征1的分类作用。也就是特征2的属性权重大于特征3的属性权重。
对于第j个特征,其得分分值的一般算法公式为公式(7)。
上述公式(7)中i表示样本编号,nh和nm分别表示第i个样本的临近猜中样本和临近猜错样本,j表示特征编号,diff函数表示求得数值之间的欧几里得几何距离。
S4032、将多个维度特征的属性权重中大于预设权重的属性权重对应的维度特征,确定为目标维度特征。
在本发明实施例中,属性权重越大,说明该维度特征对于航延预测结果的影响越大,将大于预设权重的属性权重对应的维度特征作为目标维度特征,提高目标维度特征的准确性。
在本发明实施例中,在得到多个维度特征的数值之后,还需要对多个维度特征进行选择。示例性的,采集大量的航延数据样本集,将航延数据样本集输入到Relief算法,汇总得分结果,再除以总分,可以得到分数占比图表,如图5所示,图5为本发明实施例提供的一种多个维度特征的得分结果的示例性的示意图。以4%为预设权重,将年、月份和计划飞行时长三个维度特征剔除。得到目标维度特征,包括:季度、周日期、机型、出发机场、出发机场规模、出发机场风速等级、出发机场降水量等级、到达机场、到达机场风速等级、到达机场降水量等级、计划出发时刻和飞行距离。
需要说明的是,图2的S201中航延数据是待预测的数据,包括多个维度特征,在多个维度特征中选择目标维度特征时,依赖于特征选择算法计算得到的多个维度特征的属性权重。在实际计算各个属性特征的属性权重的过程中,通过特征选择算法对多个航延数据样本进行相关统计量的计算,得到多个维度特征的属性权重,然后选择大于预设权重的属性权重对应的维度特征,得到目标维度特征,提高了目标维度特征的准确性。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
如图6所示,图6为本发明实施例提供的一种航延数据处理的可选的步骤流程图。
S601、获取航延数据样本集。
S602、对航延数据样本集进行特征分析处理,得到多个维度特征的初始数值样本。
S603、对各个航延数据样本的延误标识设置标签类别。
需要说明的是,通过上述S601-S603完成对航延数据样本集的数据收集过程,即,得到上述表3中的内容。上述S602和S603的执行顺序不分先后,也可以同时执行,对此本发明实施例不作限制。
S604、通过归一化公式对多个维度特征的初始数值样本进行统一量纲处理,得到多个维度特征的数值样本。
S605、根据多个维度特征的数值样本,采用Relief过滤式特征选择算法对多个维度特征进行选择,得到目标维度特征。
S606、根据目标维度特征的数值样本,以及各个航延数据样本的标签类别,对初始航延预测模型进行训练,得到航延预测模型。
在本发明实施例中,通过对影响航延特征因素进行了分析,并对航延数据进行了统一量纲化的处理,以及特征过滤算法的处理,得到目标维度特征,通过目标维度特征对基于XGBoost集成算法的机器学习模型进行训练,得到航延预测模型,航延预测模型可以用于预测航延结果。
在一些实施例中,在图4中S404之后,训练方法还包括S405-S407。
S405、根据模型评价曲线,结合各个航延数据样本的标签类别,以及航延预测模型对各个航延数据样本的预测结果,计算模型得分。
S406、若模型得分小于预设分值,则对航延预测模型的参数进行修改,重新获取新的航延数据,和/或,重新选择目标特征维度,以对航延预测模型重新进行训练。
S407、若模型得分大于或等于预设分值,则采用航延预测模型对目标维度特征进行分类回归。
在本发明实施例中,通过对航延预测模型的反复训练,可以提高预测结果的准确性,例如,预测准确率达到85%。由于航延预测模型是基于二分类逻辑回归(XGBoost集成算法)的模型,采用预测准确率的评价机制过于粗糙。在航延数据中,发生延误的情况(标签类别为1)远小于非延误的情况(标签类别为0),航延预测模型就有可能会出现“无视”入参(输入的参数),一律输出“非延误”结果的情况,从而造成准确率很高的“假象”。也就是说,预测准确率高,有可能不是机器学习导致的,而是在大数据中,出现非延误的概率本身就很高。这种现象称为机器欺骗行为,需要采用ROC模型评价曲线解决上述“机器欺骗”的问题。
在本发明实施例中,受试者工作特征曲线(Receiver Operating CharacteristicCurve,ROC)用于评价二分类模型的预测准确率。ROC将预测结果和真实结果分别分成了true(1标识)和false(0标识),从而形成四种情况,True Positive(TP)、False Positive(FP)、True Negative(TN)和False Negative(FN),如图7所示,图7为本发明实施例提供的一种预测结果与真实结果的四种情况的示意图。图7中预测结果为1(正例),记为P(Positive),预测结果为0(反例),记为N(Negative),预测结果与真实结果相同,记为T(True),预测结果(即图7中的预测值)与真实结果(即图7中的实际值)相反,记为F(False)。TP表示预测结果是P(正例),真实结果也是P;FP表示预测结果是P,真实结果是N(反例);TN表示预测结果是N,真实结果也是N;FN表示预测结果是N,真实结果是P。
在本发明实施例中,将航延预测模型输出的各个航延数据样本的预测结果,以及航延数据样本对应的真实结果(各个航延数据样本的标签类别)放入到ROC曲线中,得到如下图所示的结果曲线,如图8所示,图8为本发明实施例提供的一种模型评价曲线的示例性的示意图。图8中ROC Function Image表示模型评价曲线是ROC曲线,ROC曲线描绘的是TPR(True Positive Rate)和FNR(False Negative Rate)之间的关系曲线,以FPR为横坐标,TPR为纵坐标,TPR表示真实结果是1,预测结果也为1的概率,TPR=TP/(TP+FN),其中,TP+FN表示样本中真实正例类别总数。FNR表示真实结果为1,预测结果为0的概率,FPR=FP/(TN+FP),FP+TN表示样本中真实反例类别总数。其中,TPR+FNR=100%。
需要说明的是,航延预测模型输出的预测结果是0(延误)或1(非延误),真实结果是0(延误)或1(非延误),在此对如何根据预测结果和真实结果绘制ROC曲线进行说明。对于一个特定的航延预测模型和航延数据样本,只能得到一个预测结果,即一组FPR和TPR结果,而要得到一个ROC曲线,需要一系列FPR和TPR的值,航延预测模型作为一个分类器,其具有“概率输出”的功能。航延预测模型对航延数据样本集进行预测后,可以输出各个航延数据样本对某个标签类别的相似度概率,例如,航延数据样本s对应于“非延误”的概率为0.3,航延数据样本t对应于“非延误”的概率为0.8,通常情况下,预先设置截断点,将概率小于截断点的样本的预测结果输出为“延误”,将概率大于或等于截断点的样本的预测结果输出为“非延误”,以截断点0.5为例,该航延数据样本s的预测结果为“延误”,也就是N(反例),航延数据样本t的预测结果为“非延误”,也就是P(正例)。截断点取不同的值,TPR和FPR的计算结果也不同,通过调整截断点的取值,可以得到不同组的TPR和FPR,一组FPR和TPR,对应ROC曲线上的一点,当截断点的取值越多,ROC曲线越平滑。将截断点不同取值下对应的TPR和FPR的结果绘制于二维坐标系中得到的曲线,即为ROC曲线。
在本发明实施例中,计算ROC曲线下的面积,得到模型得分(Area Under Curve,AUC),就是ROC曲线与x轴之间的面积,AUC用于衡量“二分类问题”机器学习算法性能,AUC的值一般在0.5至1之间,AUC值越大,说明该航延预测模型的分类效果越好。若模型得分大于或等于预设分值,则采用航延预测模型对目标维度特征进行分类回归,若AUC值小于或等于预设分值,则判定基于逻辑分类的航延预测模型不符合要求,并返回训练步骤,通过迭代算法计算出航延预测模型的最优模型参数,对参数进行修改,或者,重新从其他维度获取航延数据样本,或者,重新采用特征选择算法选择目标维度特征,继续对航延预测模型进行训练,直至AUC值大于预设分值,从而得到训练完成的航延预测模型。
需要说明的是,预设分值可以由本领域技术人员根据实际需求进行适当设置,能够有效区分航延预测模型的预测结果的准确性即可,示例性的,预设分值可以通过大量航延数据样本集对航延预测模型的训练中,对使用的大量的预设分值的分析确定。预设分值可以设置在0.65至0.85之间,例如,预设分值设置为0.65。
在本发明实施例中,当ROC曲线在y=x上(图8中虚线部分),AUC得分是0.5,说明航延预测模型是随机预测的,并没有机器学习的参与,是一个糟糕的模型。最理想的情况就是AUC得分大于0.5,ROC曲线越靠近y轴,说明航延预测模型的预测结果越准确,若AUC得分小于0.5,则说明航延预测模型的预测结果与实际结果总是相反的,此时,只需要对预测结果取反就可以保证准确率。在本发明实施例中,航延预测模型的AUC得分是0.70,说明航延预测模型对每次的航延数据的预测都进行了有效干预,提高了航延预测结果的可信度。
在本发明实施例中,通过ROC曲线对航延预测模型进行了评价和验证,并根据模型得分对航延预测模型的训练进行调整,最终构建了一套完整可行的航延预测模型。根据航延预测模型的预测结果向用户进行航延险的推荐或建议,从而向用户提供有针对性的增值服务。进一步的,本发明实施例的航延预测方法也可以为后期对舱位余位和价格的预测提供数据支撑和建模依据。
基于本发明实施例的航延预测方法,本发明实施例还提供一种航延预测装置,如图9所示,图9为本发明实施例提供的一种航延预测装置的结构示意图,该航延预测装置90包括:获取模块901,用于获取航延数据,航延数据包括与航班延误关联的多个维度特征;多个维度特征包括与航班相关的静态特征,以及与飞行过程相关的动态特征;
处理模块902,用于对航延数据进行标准化处理,得到多个维度特征的数值,多个维度特征的数值均在预设区间;
获取模块901,还用于获取采用特征选择算法确定的多个维度特征的属性权重;
选择模块903,用于根据多个维度特征的属性权重,对多个维度特征进行选择,确定目标维度特征;
预测模块904,用于根据航延预测模型对目标维度特征的数值进行预测,得到航延预测结果;航延预测模型表征基于集成算法的逻辑分类器,用于对目标维度特征进行分类回归。
在一些实施例中,处理模块902还用于对航延数据中预设格式的数据进行分类,得到多个维度特征的初始数值,其中,预设格式的数据包括连续型数据,离散型数据和非数字型数据中至少一项;对多个维度特征的初始数值进行归一化处理,得到多个维度特征的数值。
在一些实施例中,处理模块902还用于获取航延数据样本集中多个维度特征的初始数值样本;针对每个维度特征,在各个维度特征的初始数值样本中确定最大值和最小值;根据各个维度特征的最大值和最小值,采用归一化公式,将多个维度特征的初始数值压缩预设区间,得到多个维度特征的数值。
在一些实施例中,预测模块904还用于根据航延预测模型,结合目标维度特征,训练多棵回归树;针对每棵回归树,根据每棵回归树的每个节点中,关于目标维度特征中与特征的数值对应的航延预测分值,确定每棵回归树的得分;根据多棵回归树的得分,确定航延预测结果。
在一些实施例中,航延数据包括天气数据、航空管理数据和航班数据;其中,天气数据包括出发机场降水量、出发机场风速、到达机场降水量和到达机场风速中至少一项;航班数据包括年份、季度、月份、周日期、机型、出发机场三字码、出发机场规模、到达机场三字码、计划起飞时刻、计划飞行时间和飞行距离中至少一项;航空管理数据是航班数据的补充信息,表征与航班数据相关的临时变量数据。
在一些实施例中,航延预测装置90还包括训练模块;
获取模块901,还用于获取航延数据样本集,航延数据样本集包括与航班延误关联的多个维度特征,以及各个航延数据样本对应的延误标识;
处理模块902,还用于对航延数据样本集进行标准化处理,得到多个维度特征的数值样本,以及各个航延数据样本对应的延误标识的标签类别,多个维度特征的数值样本均在预设区间,标签类别包括延误和非延误;
选择模块903,还用于根据多个维度特征的数值样本,采用特征选择算法对多个维度特征进行选择,确定目标维度特征;
训练模块,用于根据目标维度特征的数值样本,以及各个航延数据样本的标签类别,对初始航延预测模型进行训练,得到航延预测模型。
在一些实施例中,选择模块903,还用于采用特征选择算法,对多个维度特征的数值样本,进行相关统计量的计算,得到多个维度特征的属性权重;将多个维度特征的属性权重中大于预设权重的属性权重对应的维度特征,确定为目标维度特征。
在一些实施例中,选择模块903,还用于根据各个航延数据样本的标签类别,确定各个航延数据样本的猜中邻近样本和猜错邻近样本;针对各个维度特征,根据各个航延数据样本中该维度特征的数值样本,以及猜中邻近样本和猜错邻近样本中该维度特征的数值样本,采用特征选择算法进行相关统计量的计算,得到该维度特征的属性权重,从而得到多个维度特征的属性权重。
在一些实施例中,特征选择算法为过滤式特征选择Relief算法、ReliefF算法和K-means聚类算法中任一种。
在一些实施例中,航延预测装置90还包括评价模块;
评价模块,用于根据模型评价曲线,结合各个航延数据样本的标签类别,以及航延预测模型对各个航延数据样本的预测结果,计算模型得分;若模型得分小于预设分值,则对航延预测模型的参数进行修改,重新获取新的航延数据,和/或,重新选择目标特征维度,以对航延预测模型重新进行训练;若模型得分大于或等于预设分值,则采用航延预测模型对目标维度特征进行分类回归。
需要说明的是,上述实施例提供的航延预测装置在进行航延预测时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的航延预测装置与航延预测方法实施例属于同一构思,其具体实现过程及有益效果详见方法实施例,这里不再赘述。对于本装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
在本发明实施例中,图10为本发明实施例提出的航延预测设备组成结构示意图,如图10示,本发明实施例提出的航延预测设备100可以包括处理器1001和存储器1002,存储器1002存储有可在处理器1001上运行的计算机程序,在一些实施例中,航延预测设备100还可以包括通信接口1003,和用于连接处理器1001、存储器1002以及通信接口1003的总线1004。
在本发明实施例中,上述处理器1001可以为特定用途集成电路(ApplicationSpecific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(ProgRAMmable Logic Device,PLD)、现场可编程门阵列(Field ProgRAMmable GateArray,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本发明实施例不作具体限定。
在本发明实施例中,存储器1002可以与处理器1001连接,其中,存储器1002用于存储可执行程序代码和数据,该程序代码包括计算机操作指令,存储器1002可能包含高速RAM存储器,也可能还包括非易失性存储器,例如,至少两个磁盘存储器。
在本发明实施例中,总线1004用于连接通信接口1003、处理器1001以及存储器1002以及这些器件之间的相互通信。
在本发明实施例中,上述处理器1001,用于获取航延数据,航延数据包括与航班延误关联的多个维度特征;多个维度特征包括与航班相关的静态特征,以及与飞行过程相关的动态特征;对航延数据进行标准化处理,得到多个维度特征的数值,多个维度特征的数值均在预设区间;获取采用特征选择算法确定的多个维度特征的属性权重,并根据多个维度特征的属性权重,对多个维度特征进行选择,确定目标维度特征;根据航延预测模型对目标维度特征的数值进行预测,得到航延预测结果;航延预测模型表征基于集成算法的逻辑分类器,用于对目标维度特征进行分类回归。
在实际应用中,上述存储器1002可以是易失性存储器(volatile memory),例如随机存取存储器(Random-Access Memory,RAM);或者非易失性存储器(non-volatilememory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向处理器1001提供指令和数据。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上任一实施例的航延预测方法。
示例性的,本实施例中的一种航延预测方法对应的程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种航延预测方法对应的程序指令被一电子设备读取或被执行时,可以实现如上述任一实施例的航延预测方法。
本领域内的技术人员应明白,本发明实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (13)
1.一种航延预测方法,其特征在于,所述方法包括:
获取航延数据,所述航延数据包括与航班延误关联的多个维度特征;所述多个维度特征包括与航班相关的静态特征,以及与飞行过程相关的动态特征;
对所述航延数据进行标准化处理,得到多个维度特征的数值,所述多个维度特征的数值均在预设区间;
获取采用特征选择算法确定的多个维度特征的属性权重,并根据所述多个维度特征的属性权重,对所述多个维度特征进行选择,确定目标维度特征;
根据航延预测模型对所述目标维度特征的数值进行预测,得到航延预测结果;所述航延预测模型表征基于集成算法的逻辑分类器,用于对所述目标维度特征进行分类回归。
2.根据权利要求1所述的方法,其特征在于,所述对所述航延数据进行标准化处理,得到多个维度特征的数值,包括:
对所述航延数据中预设格式的数据进行分类,得到所述多个维度特征的初始数值,其中,所述预设格式的数据包括连续型数据,离散型数据和非数字型数据中至少一项;
对所述多个维度特征的初始数值进行归一化处理,得到所述多个维度特征的数值。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个维度特征的初始数值进行归一化处理,得到所述多个维度特征的数值,包括:
获取航延数据样本集中多个维度特征的初始数值样本;
针对每个维度特征,在各个维度特征的初始数值样本中确定最大值和最小值;
根据各个维度特征的最大值和最小值,采用归一化公式,将所述多个维度特征的初始数值压缩预设区间,得到所述多个维度特征的数值。
4.根据权利要求1所述的方法,其特征在于,所述根据航延预测模型对所述目标维度特征的数值进行预测,得到航延预测结果,包括:
根据航延预测模型,结合目标维度特征,训练多棵回归树;
针对每棵回归树,根据每棵回归树的每个节点中,关于目标维度特征中与特征的数值对应的航延预测分值,确定每棵回归树的得分;
根据多棵回归树的得分,确定所述航延预测结果。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述航延数据包括天气数据、航空管理数据和航班数据;
其中,所述天气数据包括出发机场降水量、出发机场风速、到达机场降水量和到达机场风速中至少一项;
所述航班数据包括年份、季度、月份、周日期、机型、出发机场三字码、出发机场规模、到达机场三字码、计划起飞时刻、计划飞行时间和飞行距离中至少一项;
所述航空管理数据是所述航班数据的补充信息,表征与所述航班数据相关的临时变量数据。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取航延数据样本集,所述航延数据样本集包括与航班延误关联的多个维度特征,以及各个航延数据样本对应的延误标识;
对所述航延数据样本集进行标准化处理,得到多个维度特征的数值样本,以及所述各个航延数据样本对应的延误标识的标签类别,所述多个维度特征的数值样本均在预设区间,所述标签类别包括延误和非延误;
根据所述多个维度特征的数值样本,采用所述特征选择算法对所述多个维度特征进行选择,确定所述目标维度特征;
根据所述目标维度特征的数值样本,以及各个航延数据样本的标签类别,对初始航延预测模型进行训练,得到所述航延预测模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述多个维度特征的数值样本,采用所述特征选择算法对所述多个维度特征进行选择,确定所述目标维度特征,包括:
采用所述特征选择算法,对所述多个维度特征的数值样本,进行相关统计量的计算,得到所述多个维度特征的属性权重;
将所述多个维度特征的属性权重中大于预设权重的属性权重对应的维度特征,确定为所述目标维度特征。
8.根据权利要求7所述的方法,其特征在于,所述采用所述特征选择算法,对所述多个维度特征的数值样本,进行相关统计量的计算,得到所述多个维度特征的属性权重,包括:
根据所述各个航延数据样本的标签类别,确定各个航延数据样本的猜中邻近样本和猜错邻近样本;
针对各个维度特征,根据各个航延数据样本中该维度特征的数值样本,以及猜中邻近样本和猜错邻近样本中该维度特征的数值样本,采用所述特征选择算法进行相关统计量的计算,得到该维度特征的属性权重,从而得到所述多个维度特征的属性权重。
9.根据权利要求7所述的方法,其特征在于,所述特征选择算法为过滤式特征选择Relief算法、ReliefF算法和K-means聚类算法中任一种。
10.根据权利要求6所述的方法,其特征在于,在所述得到所述航延预测模型之后,所述方法还包括:
根据模型评价曲线,结合所述各个航延数据样本的标签类别,以及所述航延预测模型对所述各个航延数据样本的预测结果,计算模型得分;
若所述模型得分小于预设分值,则对所述航延预测模型的参数进行修改,重新获取新的航延数据,和/或,重新选择目标特征维度,以对所述航延预测模型重新进行训练;
若所述模型得分大于或等于所述预设分值,则采用所述航延预测模型对所述目标维度特征进行分类回归。
11.一种航延预测装置,其特征在于,所述装置包括:
获取模块,用于获取航延数据,所述航延数据包括与航班延误关联的多个维度特征;所述多个维度特征包括与航班相关的静态特征,以及与飞行过程相关的动态特征;
处理模块,用于对所述航延数据进行标准化处理,得到多个维度特征的数值,所述多个维度特征的数值均在预设区间;
所述获取模块,还用于获取采用特征选择算法确定的多个维度特征的属性权重;
选择模块,用于根据所述多个维度特征的属性权重,对所述多个维度特征进行选择,确定目标维度特征;
预测模块,用于根据航延预测模型对所述目标维度特征的数值进行预测,得到航延预测结果;所述航延预测模型表征基于集成算法的逻辑分类器,用于对所述目标维度特征进行分类回归。
12.一种航延预测设备,其特征在于,所述设备包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-10任一项所述方法中的步骤。
13.一种计算机可读存储介质,其特征在于,其上存储有可执行指令,用于被处理器执行时,实现权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210300854.6A CN116862035A (zh) | 2022-03-24 | 2022-03-24 | 航延预测方法、装置、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210300854.6A CN116862035A (zh) | 2022-03-24 | 2022-03-24 | 航延预测方法、装置、设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116862035A true CN116862035A (zh) | 2023-10-10 |
Family
ID=88227292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210300854.6A Pending CN116862035A (zh) | 2022-03-24 | 2022-03-24 | 航延预测方法、装置、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116862035A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117610746A (zh) * | 2024-01-23 | 2024-02-27 | 中航信移动科技有限公司 | 一种预测模型监测方法、存储介质及电子设备 |
-
2022
- 2022-03-24 CN CN202210300854.6A patent/CN116862035A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117610746A (zh) * | 2024-01-23 | 2024-02-27 | 中航信移动科技有限公司 | 一种预测模型监测方法、存储介质及电子设备 |
CN117610746B (zh) * | 2024-01-23 | 2024-04-19 | 中航信移动科技有限公司 | 一种预测模型监测方法、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200265502A1 (en) | Methods and systems for order processing | |
US10685044B2 (en) | Identification and management system for log entries | |
CN110503245B (zh) | 一种机场航班大面积延误风险的预测方法 | |
US20210188290A1 (en) | Driving model training method, driver identification method, apparatuses, device and medium | |
US20030061213A1 (en) | Method for building space-splitting decision tree | |
CN110674993A (zh) | 一种用户负荷短期预测方法和装置 | |
CN111612499B (zh) | 信息的推送方法及装置、存储介质、终端 | |
CN112396428B (zh) | 一种基于用户画像数据的客群分类管理方法及装置 | |
CN112766578A (zh) | 一种基于车辆网的车辆用途识别方法、系统及存储介质 | |
CN111599219B (zh) | 一种基于排序学习的多数据源航班起飞时间预测方法 | |
CN115641162A (zh) | 一种基于建筑工程造价的预测数据分析系统和方法 | |
CN111861759A (zh) | 产品与客户群体的匹配方法和系统 | |
CN116862035A (zh) | 航延预测方法、装置、设备和计算机可读存储介质 | |
CN113435101B (zh) | 一种基于粒子群优化的支持向量机停电预测方法 | |
CN117391257A (zh) | 一种道路拥堵情况的预测方法及装置 | |
CN112926809B (zh) | 一种基于聚类和改进的xgboost的航班流量预测方法及系统 | |
CN115719453A (zh) | 一种基于深度学习的水稻种植结构遥感提取方法 | |
Rabcan et al. | Classification by fuzzy decision trees inducted based on Cumulative Mutual Information | |
CN112330164B (zh) | 基于消息总线的数据质量治理系统及方法 | |
Zhao et al. | Research and comparison on identification and prediction methods of air traffic network congestion | |
TWI759785B (zh) | 整合定性資料及定量資料進行稽核準則推薦的系統及方法 | |
CN113222229B (zh) | 一种基于机器学习的非合作无人机轨迹预测方法 | |
CN116932487B (zh) | 一种基于数据段落划分的量化式数据分析方法及系统 | |
CN117520994B (zh) | 基于用户画像和聚类技术识别机票异常搜索用户方法及系统 | |
CN116592894B (zh) | 一种航线规划方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |