CN109492334A - 航班延误的模型建立方法、预测方法及装置 - Google Patents
航班延误的模型建立方法、预测方法及装置 Download PDFInfo
- Publication number
- CN109492334A CN109492334A CN201811514333.0A CN201811514333A CN109492334A CN 109492334 A CN109492334 A CN 109492334A CN 201811514333 A CN201811514333 A CN 201811514333A CN 109492334 A CN109492334 A CN 109492334A
- Authority
- CN
- China
- Prior art keywords
- flight
- model
- data
- weather
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000003111 delayed effect Effects 0.000 title claims abstract description 56
- 238000012360 testing method Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000010276 construction Methods 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 238000010801 machine learning Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 10
- 239000002131 composite material Substances 0.000 claims description 4
- 230000010006 flight Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000002354 daily effect Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000000443 aerosol Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Geometry (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Game Theory and Decision Science (AREA)
- Automation & Control Theory (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Development Economics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computer Hardware Design (AREA)
- Mathematical Optimization (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种航班延误的模型建立方法、预测方法及装置,涉及机器学习的技术领域,具体步骤包括:获取历史数据,对历史数据进行数据预处理;对数据预处理后的历史数据构造航班延误模型的输入特征;输入特征包括航班的非天气特征和航班的天气特征;对数据预处理后的历史数据进行随机分层抽样获取训练集、第一测试集和第二测试集;基于预设的算法,从航班的天气特征中确定目标天气特征;根据训练集的航班的非天气特征和至少一个目标天气特征建立对应的基础模型;通过基础模型在第一测试集上的表现防止基础模型在训练集上过拟合;通过第二测试集将多个基础模型组合为航班延误模型。可以防止过拟合,得到理想的预测效果。
Description
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种航班延误的模型建立方法、预测方法及装置。
背景技术
对航班延误的提前准确预测有助于旅客根据各航班发生延误的可能性选择更为合适的航班,对已购买机票的乘客则有助于乘客合理规划时间或及时修改出行计划。
天气是造成航班延误的最主要因素,占国内全部延误航班的60%左右。恶劣天气会造成飞机无法起飞、旅客大量滞留的现象。因此,只通过航班动态历史数据进行航班延误的预测会因预测因子不足而出现预测不准确的问题。造成航班延误的天气原因很多,例如低能见度、低云底高、大风、雷暴等。而且天气会在多时空维度上影响航班的正常起飞计划,在航班起飞时间前后若干个小时的天气、航班起飞机场及其周边区域的天气、航班到达机场及其周边区域的天气,都可能影响到航班的实际起飞时间。由于影响航班延误的天气特征数量多,使用天气预测航班延误的模型极易发生过拟合而不能得到理想的预测效果。
针对上述现有技术中使用天气预测航班延误的模型极易发生过拟合而不能得到理想的预测效果的问题,目前尚未提出有效解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种航班延误的模型建立方法、预测方法及装置,以防止过拟合,得到理想的预测效果。
第一方面,本发明实施例提供了一种航班延误的模型建立方法,包括:获取历史数据,对历史数据进行数据预处理;历史数据包括航班动态历史数据和精细化天气预报历史数据;对数据预处理后的历史数据构造航班延误模型的输入特征;输入特征包括航班的非天气特征和航班的天气特征;对数据预处理后的历史数据进行随机分层抽样获取训练集、第一测试集和第二测试集;基于预设的算法,从航班的天气特征中确定目标天气特征;根据训练集的航班的非天气特征和至少一个目标天气特征建立对应的基础模型;通过基础模型在第一测试集上的表现防止基础模型在训练集上过拟合;通过第二测试集将多个基础模型组合为航班延误模型。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,对历史数据进行数据预处理的步骤,包括:对航班动态历史数据进行数据清洗,以清除航班动态历史数据中的取消航班记录、补班记录、重复记录和缺失值;对于天气预报历史数据,过滤出机场附近的天气并通过插值计算机场的天气。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,对数据预处理后的历史数据构造航班延误模型的输入特征的步骤,包括:对数据预处理后的历史数据构造航班延误模型的输入特征;将输入特征中的类型变量编码为数值变量。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,将输入特征中的类型变量编码为数值变量步骤,包括:将输入特征中的航班的非天气特征通过构造哑变量转换为二元变量。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,基于预设的算法,从航班的天气特征中确定目标天气特征的步骤,包括:对每个天气要素,抽取航班的所有非天气特征和该天气要素的天气特征,使用机器学习算法建立对应的分类模型,根据分类模型的结果从该天气要素的天气特征中确定目标天气特征;机器学习算法为随机森林或随机梯度提升算法。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,还包括:将航班延误建模为二分类问题,其中发生延误的航班为正类样本,未发生延误的样本为负类样本;通过最小化以下代价函数训练基础模型:f(p)=∑i-kyiln(pi)-(1-yi)ln(1-pi);其中,f(p)为代价函数;yi是第i个样本的真实延误标签,正类样本yi=1,负类样本yi=0;是模型预测的第i个样本是正类样本的概率,0≤pi≤1;是模型对第i个样本的输出;求和符号∑表示对所有样本求和;k为预先设置的参数且k>0。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,通过第二测试集将多个基础模型组合为航班延误模型的步骤,包括:将不同的基础模型组合为航班延误模型,航班延误模型的概率输出值是多个基础模型预测概率值输出的加权值。
第二方面,本发明实施例还提供一种航班延误的预测方法,应用于第一方面及其各可能的实施方式之一获得的航班延误模型,方法包括获取未来执飞的航班信息数据和精细化天气预报数据,对航班信息数据和精细化天气预报数据进行数据预处理;将数据预处理后的航班信息数据和精细化天气预报数据输入航班延误模型,得到航班延误预测概率。
第三方面,本发明实施例还提供一种航班延误的模型建立装置,包括:历史数据模块,用于获取历史数据,对历史数据进行数据预处理;历史数据包括航班动态历史数据和精细化天气预报历史数据;输入特征模块,用于对数据预处理后的历史数据构造航班延误模型的输入特征;输入特征包括航班的非天气特征和航班的天气特征;分层抽样模块,用于对数据预处理后的历史数据进行随机分层抽样获取训练集、第一测试集和第二测试集;特征选择模块,用于基于预设的算法,从航班的天气特征中确定目标天气特征;基础模型模块,用于根据训练集的航班的非天气特征和至少一个目标天气特征建立对应的基础模型;通过基础模型在第一测试集上的表现防止基础模型在训练集上过拟合;模型组合模块,用于通过第二测试集将多个基础模型组合为航班延误模型。
第四方面,本发明实施例还提供一种航班延误的预测装置,应用于第一方面及其各可能的实施方式之一获得的航班延误模型,包括:数据获取模块,用于获取未来执飞的航班信息数据和精细化天气预报数据,对航班信息数据和精细化天气预报数据进行数据预处理;模型应用模块,用于将数据预处理后的航班信息数据和精细化天气预报数据输入航班延误模型,得到航班延误预测概率。
本发明实施例带来了以下有益效果:
本发明实施例提供的航班延误的模型建立方法、预测方法及装置,对历史数据构造航班延误模型的输入特征;对航班的天气特征进行特征选择后建立基础模型并使用基础模型构造航班延误模型,可以防止过拟合,得到理想的预测效果。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种航班延误的模型建立方法的流程图;
图2为本发明实施例提供的一种航班延误的预测方法的流程图;
图3为本发明实施例提供的一种航班延误的模型建立装置的结构示意图;
图4为本发明实施例提供的一种航班延误的预测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
天气是造成航班延误的最主要因素,恶劣天气会造成飞机无法起飞、旅客大量滞留的现象。因此,只通过航班动态历史数据进行航班延误的预测会因预测因子不足而出现预测不准确的问题。目前,由于影响航班延误的天气特征数量多,使用天气预测航班延误的模型极易发生过拟合而不能得到理想的预测效果。基于此,本发明实施例提供的航班延误的模型建立方法、预测方法及装置,对历史数据构造航班延误模型的输入特征;对航班的天气特征进行特征选择后建立基础模型并使用基础模型构造航班延误模型,可以防止过拟合,得到理想的预测效果。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种航班延误的模型建立方法进行详细介绍。
实施例1
本发明实施例提供了一种航班延误的模型建立方法,参见图1所示的一种航班延误的模型建立方法的流程图,包括如下步骤:
步骤S102,获取历史数据,对历史数据进行数据预处理。
历史数据包括航班动态历史数据和精细化天气预报历史数据;航班动态历史数据要覆盖两年以上的时间长度,包括但不限于历史航班的以下要素:航班的出发机场、到达机场、计划起飞时间、实际执飞航班的航空公司、航班实际起飞时间相对于计划起飞时间的延误时长。航班延误时长的单位是分钟,航班没有发生起飞延误时,延误时长是0;否则是正数。
数据预处理包括对航班动态历史数据进行预处理,目的是使数据预处理后的航班动态历史数据适合于延误预测的建模,消除对于建模无用的数据。航班动态历史数据中的取消航班记录、补班记录(临时计划飞行的航班)、重复记录和缺失值会影响航班延误模型的预测准确率,因此需要通过数据预处理剔除这些数据。
精细化天气预报历史数据,是指在航班动态历史数据日期范围内的每一天精细化天气预报所预报的未来一段时间(例如十天)内的逐小时天气数据。精细化天气预报是使用大型计算机,通过求解描述天气演变过程的流体力学和热力学方程组,在每天的一个固定时刻发布经纬度格点网络中所有经纬度格点位置处在未来一定时间段内的小时级天气预测。天气包括但不限于以下天气要素:最高温、最低温、对流有效位能、降水量、大气各层高风速及风向、地面气压、能见度、大气各层气溶胶光学厚度、零度层、云量、低空风切变、云底高度等。为了描述方便,以下假设精细化天气预报在每天早上08点(以下称为起报时间),发布经纬度格点网络中所有经纬度格点位置处多个天气要素在未来第0到第240小时(共10天)的逐小时预报。
数据预处理还包括对精细化天气预报历史数据进行预处理,目的是过滤出国内机场附近的天气并通过插值计算机场位置处的天气。具体地,对国内每一个机场,抽取经纬度格点网络中距离机场最近的4个经纬度格点位置处的天气数据,并对4个经纬度格点位置处的天气数据进行运算,计算出机场所在经纬度位置处的天气数据。对国内每一个机场,航班起飞延误预测使用机场所在经纬度以及距离机场最近的4个经纬度格点共计5个经纬度位置处的天气作为机场及其周边的天气。
构建的航班延误模型对精细化天气预报起报时间之后[7,223)小时内预计起飞的航班,预测航班发生起飞延误大于等于M分钟的概率。为此建立9个独立的预测模型,分别预测在精细化天气预报起报时间之后[T,T+24)小时内预计起飞的航班发生起飞延误大于等于M分钟的概率,其中T∈{7,31,55,79,103,127,151,175,199}。将航班起飞延误预测建模为二分类问题,称起飞延误时间大于等于M分钟的航班记录为正类样本,小于M分钟的航班记录为负类样本。
步骤S104,对数据预处理后的历史数据构造航班延误模型的输入特征。
具体地,构造输入特征步骤,可以按照以下步骤执行:
(1)对数据预处理后的历史数据构造航班延误模型的输入特征。
(2)将输入特征中的类型变量编码为数值变量。
模型的输入特征包括两大部分:航班的非天气特征和航班的天气特征。
航班的非天气特征指航班的空间维度特征、时间维度特征以及其它特征。空间维度特征包括起飞机场、到达机场、以及起飞机场和到达机场的属性信息,例如机场的飞行区等级、支/干线属性、军用/民用属性、跑道信息、起飞容量等。时间维度特征,是将航班的计划起飞时间拆解为多个要素,包括月份(1-12)、旬(上/中/下)、星期(1-7)、小时(0-23)、是否是法定节假日等。其它特征指执飞该航班的航空公司及其各类属性变量,举例来说,其它特征包括航空公司、航班的起飞机场是否是航空公司的总部等特征。
航班的天气特征指多个天气要素中每一个天气要素的多时空特征,以及天气要素多时空特征的统计量。具体地,为考虑机场及其周边位置在航班预计起飞时间前后若干个小时的天气对航班起飞延误的影响,航班的天气特征包括航班出发机场及其周边共计5个经纬度位置在航班预计起飞时间的整点时刻之前7个小时到之后2个小时共计10个小时的天气、航班到达机场及其周边共计5个经纬度位置在航班预计起飞时间的整点时刻之前4个小时到之后5个小时共计10个小时的天气,以及这些天气时空特征的统计量。在每天15点00分到次日14点59分之间预计起飞的航班,分别使用天前08点预报的未来第T,T+1,T+2,…,T+23小时的天气作为航班预计起飞时间的整点时刻的天气,其中表示小于等于x的最大整数。例如,在任一日期15点00分到15点59分之间预计起飞的航班,该日期天前08点预报的未来第T小时的天气是起报时间预报的该日期15点00分的天气,因而航班的天气特征是精细化天气预报在该日期天前08点预报的未来第T-7,T-6,…,T+2小时在出发机场及其周边5个经纬度位置处的多个天气要素,第T-4,T-3,…,T+5小时在到达机场5个经纬度位置处的多个天气要素,以及每个天气要素时空特征的统计量。
输入特征编码的过程中,将模型输入特征中的类型变量编码为二元变量,使得模型的最终输入特征是取值为0、1的二元变量或是连续变量。天气特征均为连续变量,而非天气特征均为类型变量。因此需要通过构造哑变量将类型变量转化为二元变量,上述方法还包括:将输入特征中的航班的非天气特征通过构造哑变量转换为二元变量。
哑变量又称为虚拟变量、虚设变量或名义变量,它是人为虚设的变量,通常取值为0或1,来反映某个变量的不同属性。对于有n个分类属性的自变量,通常需要选取1个分类作为参照,因此可以产生n-1个哑变量。因此,可以通过构造哑变量的方法,将非天气特征从类型变量转化为二元变量。
步骤S106,对数据预处理后的历史数据进行随机分层抽样获取训练集、第一测试集和第二测试集。
随机分层抽样指分别对正类样本和负类样本随机抽样,使得训练集、第一测试集、第二测试集为平衡数据集,平衡数据集是指正类样本数和负类样本数相当,训练集、第一测试集、第二测试集的样本总数占比可以为7:1.5:1.5。
步骤S108,基于预设的算法,从航班的天气特征中确定目标天气特征。
因为天气特征过多,如果直接用这么多的天气特征作为输入特征训练模型,极易发生过拟合而限制模型的预测能力。为了解决过拟合的问题,需要首先对天气特征进行特征选择,上述方法还包括:对每个天气要素,抽取航班的所有非天气特征和该天气要素的天气特征,使用机器学习算法建立对应的分类模型,根据分类模型的结果从该天气要素的天气特征中确定目标天气特征;机器学习算法为随机森林或随机梯度提升算法。目的是对每个天气要素都选择出对分类预测准确率影响最大的1-3个天气特征作为目标天气特征。
步骤S110,根据训练集的航班的非天气特征和至少一个目标天气特征建立对应的基础模型;通过基础模型在第一测试集上的表现防止基础模型在训练集上过拟合。
使用训练集中的航班的非天气特征和至少一个目标天气特征建立对应的基础模型,根据每一个特征选择后的目标天气特征和所有非天气特征建立基础模型,基础模型中目标天气特征的数量至少一个。使用2个或者更多个数的目标天气特征构建基础模型,可以按照以下步骤执行,:
(1)选择不同的目标天气特征建立不同的天气特征组合。
首先将目标天气特征构建不同的天气特征组,可以选择2个或者更多个数的天气特征构建天气特征组,对于每个天气特征组中的天气特征要同时进行考虑。
(2)使用航班数据的非天气特征和每个天气特征组合中的目标天气特征建立对应的基础模型。
第一测试集用来决定何时终止模型训练过程。当训练模型到发现模型在第一测试集上的代价函数值不再减小时,就终止训练,当前得到的模型就是最终模型。
将航班延误建模为二分类问题,其中发生延误的航班为正类样本,未发生延误的样本为负类样本。通过最小化以下代价函数训练基础模型:
其中,f(p)为代价函数;yi是第i个样本的真实延误标签(正类样本yi=1,负类样本yi=0);是模型预测的第i个样本是正类样本的概率,0≤pi≤1;是模型对第i个样本的输出;求和符号∑表示对所有样本求和;k为预先设置的参数且k>0。k>1时预测模型的正类命中率更高,0<k<1时预测模型的负类命中率更高。上述代价函数的值越小,则说明航班延误模型输出的概率预测越准确。
步骤S112,通过第二测试集将多个基础模型组合为航班延误模型。
将不同的基础模型组合为航班延误模型,航班延误模型的概率输出值是多个基础模型预测概率值输出的加权值。不同基础模型的权重可以相同,也可以不同,具体权重根据实际使用进行修改和优化。通过航班延误模型在第二测试集上的表现确定各基础模型的权重。
本发明实施例提供的一种航班延误的模型建立方法,对历史数据构造航班延误模型的输入特征;对航班的天气特征进行特征选择后建立基础模型并使用基础模型构造航班延误模型,通过测试集防止基础模型在训练集上过拟合,通过另外一组测试集确定将基础模型组合为最终航延模型的最佳组合方案,从而获得效果理想的航班延误模型,可以防止过拟合,得到理想的预测效果。
实施例2
本发明实施例2提供一种航班延误的预测方法,应用于第一方面及其各可能的实施方式之一获得的航班延误模型,参见图2所示的一种航班延误的预测方法的流程图,包括如下步骤:
步骤S202,获取未来执飞的航班信息数据和精细化天气预报数据,对航班信息数据和精细化天气预报数据进行数据预处理。
首先获取航班信息数据和精细化天气预报数据,航班信息数据包括航班的出发机场、到达机场、计划起飞时间、执飞航空公司等,精细化天气预报数据是当日发布的10天内的逐小时天气预报。然后对天气预报数据进行预处理,预处理后需要得到各机场及其附近最近4个经纬度格点位置共计5个经纬度位置处的天气预报。航班数据的计划起飞时间范围是精细化天气预报起报时间之后[7,223)小时内。
举例来说,在每天上午,获取精细化天气预报在早上08点发布的未来第0到第240小时的逐小时预报数据,并做数据预处理,获取国内各机场5个经纬度位置处的天气。
获取精细化天气预报起报时间之后[7,223]小时内预计起飞的航班信息,包括航班的出发机场、到达机场、计划起飞时间、执飞航空公司等。
步骤S204,将数据预处理后的航班信息数据和精细化天气预报数据输入航班延误模型,得到航班延误预测概率。
对于上述例子:对T=7,31,55,79,103,127,151,175,199,分别使用航班时刻数据和相应的精细化天气预报数据及最终模型,获取在精细化天气预报起报时间之后[T,T+24)小时内预计起飞的航班发生起飞延误大于等于M分钟的预测概率值。本发明实施例提供的上述方法,在获得航班延误模型之后,可以使用该航班延误模型进行航班延误的预测,得到航班延误预测概率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述航班延误的预测方法的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例提供的航班延误的预测方法,与上述实施例提供的航班延误的模型建立方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例3
本发明实施例3提供一种航班延误的模型建立装置,参见图3所示的一种航班延误的模型建立装置的结构示意图,包括历史数据模块31、输入特征模块32、分层抽样模块33、特征选择模块34、基础模型模块35和模型组合模块36,上述各模块的功能如下:
历史数据模块31,用于获取历史数据,对历史数据进行数据预处理;历史数据包括航班动态历史数据和精细化天气预报历史数据;
输入特征模块32,用于对数据预处理后的历史数据构造航班延误模型的输入特征;输入特征包括航班的非天气特征和航班的天气特征;
分层抽样模块33,用于对数据预处理后的历史数据进行随机分层抽样获取训练集、第一测试集和第二测试集;
特征选择模块34,用于基于预设的算法,从航班的天气特征中确定目标天气特征;
基础模型模块35,用于根据训练集的航班的非天气特征和至少一个目标天气特征建立对应的基础模型;用于通过基础模型在第一测试集上的表现防止基础模型在训练集上过拟合;
模型组合模块36,用于通过第二测试集将多个基础模型组合为航班延误模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述航班延误的模型建立装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例提供的航班延误的模型建立装置,与上述实施例提供的航班延误的模型建立方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例4
本发明实施例4提供一种航班延误的预测装置,参见图4所示的一种航班延误的预测装置的结构示意图,应用于第一方面及其各可能的实施方式之一提供的方法获得的航班延误模型,包括数据获取模块41和模型应用模块42,上述各模块的功能如下:
数据获取模块41,用于获取航班信息数据和精细化天气预报数据,对航班信息数据和精细化天气预报数据进行数据预处理;
模型应用模块42,用于将数据预处理后的航班信息数据和精细化天气预报数据输入航班延误模型,得到航班延误预测概率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述航班延误的预测装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例提供的航班延误的预测装置,与上述实施例提供的航班延误的模型建立方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种航班延误的模型建立方法,其特征在于,包括:
获取历史数据,对所述历史数据进行数据预处理;所述历史数据包括航班动态历史数据和精细化天气预报历史数据;
对数据预处理后的所述历史数据构造航班延误模型的输入特征;所述输入特征包括航班的非天气特征和航班的天气特征;
对所述数据预处理后的历史数据进行随机分层抽样获取训练集、第一测试集和第二测试集;
基于预设的算法,从所述航班的天气特征中确定目标天气特征;
根据所述训练集的所述航班的非天气特征和至少一个所述目标天气特征建立对应的基础模型;通过所述基础模型在所述第一测试集上的表现防止所述基础模型在所述训练集上过拟合;
通过所述第二测试集将多个基础模型组合为所述航班延误模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述历史数据进行数据预处理的步骤,包括:
对所述航班动态历史数据进行数据清洗,以清除所述航班动态历史数据中的取消航班记录、补班记录、重复记录和缺失值;
对于所述天气预报历史数据,过滤出机场附近的天气并通过插值计算所述机场的天气。
3.根据权利要求1所述的方法,其特征在于,所述对数据预处理后的所述历史数据构造航班延误模型的输入特征的步骤,包括:
对数据预处理后的所述历史数据构造航班延误模型的输入特征;
将所述输入特征中的类型变量编码为数值变量。
4.根据权利要求3所述的方法,其特征在于,所述将所述输入特征中的类型变量编码为数值变量的步骤,包括:
将所述输入特征中的所述航班的非天气特征通过构造哑变量转换为二元变量。
5.根据权利要求1所述的方法,其特征在于,所述基于预设的算法,从所述航班的天气特征中确定目标天气特征的步骤,包括:
对每个天气要素,抽取航班的所有非天气特征和所述天气要素的天气特征,使用机器学习算法建立对应的分类模型,根据所述分类模型的结果从所述天气要素的天气特征中确定目标天气特征;所述机器学习算法为随机森林或随机梯度提升算法。
6.根据权利要求1所述的方法,其特征在于,还包括:
将航班延误建模为二分类问题,其中发生延误的航班为正类样本,未发生延误的样本为负类样本;通过最小化以下代价函数训练所述基础模型:
其中,f(p)为所述代价函数;yi是第i个样本的真实延误标签,正类样本yi=1,负类样本yi=0;是模型预测的第i个样本是正类样本的概率,0≤pi≤1;是模型对第i个样本的输出;求和符号Σ表示对所有样本求和;k为预先设置的参数且k>0。
7.根据权利要求1所述的方法,其特征在于,所述通过所述第二测试集将多个基础模型组合为所述航班延误模型的步骤,包括:
将不同的所述基础模型组合为所述航班延误模型,航班延误模型的概率输出值是多个基础模型预测概率值输出的加权值。
8.一种航班延误的预测方法,其特征在于,应用于权利要求1-7任一项所述方法获得的航班延误模型,所述方法包括:
获取未来执飞的航班信息数据和精细化天气预报数据,对所述航班信息数据和所述精细化天气预报数据进行数据预处理;
将数据预处理后的所述航班信息数据和所述精细化天气预报数据输入所述航班延误模型,得到航班延误预测概率。
9.一种航班延误的模型建立装置,其特征在于,包括:
历史数据模块,用于获取历史数据,对所述历史数据进行数据预处理;所述历史数据包括航班动态历史数据和精细化天气预报历史数据;
输入特征模块,用于对数据预处理后的所述历史数据构造航班延误模型的输入特征;所述输入特征包括航班的非天气特征和航班的天气特征;
分层抽样模块,用于对所述数据预处理后的历史数据进行随机分层抽样获取训练集、第一测试集和第二测试集;
特征选择模块,用于基于预设的算法,从所述航班的天气特征中确定目标天气特征;
基础模型模块,用于根据所述训练集的所述航班的非天气特征和至少一个所述目标天气特征建立对应的基础模型;通过所述基础模型在所述第一测试集上的表现防止所述基础模型在所述训练集上过拟合;
模型组合模块,用于通过所述第二测试集将多个基础模型组合为所述航班延误模型。
10.一种航班延误的预测装置,其特征在于,应用于权利要求1-7任一项所述方法获得的航班延误模型,包括:
数据获取模块,用于获取未来执飞的航班信息数据和精细化天气预报数据,对所述航班信息数据和所述精细化天气预报数据进行数据预处理;
模型应用模块,用于将数据预处理后的所述航班信息数据和所述精细化天气预报数据输入所述航班延误模型,得到航班延误预测概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811514333.0A CN109492334B (zh) | 2018-12-11 | 2018-12-11 | 航班延误的模型建立方法、预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811514333.0A CN109492334B (zh) | 2018-12-11 | 2018-12-11 | 航班延误的模型建立方法、预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492334A true CN109492334A (zh) | 2019-03-19 |
CN109492334B CN109492334B (zh) | 2023-12-22 |
Family
ID=65709906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811514333.0A Active CN109492334B (zh) | 2018-12-11 | 2018-12-11 | 航班延误的模型建立方法、预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492334B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948716A (zh) * | 2019-03-25 | 2019-06-28 | 中国民航大学 | 一种基于区域残差和lstm网络的机场延误预测方法 |
CN110334839A (zh) * | 2019-04-15 | 2019-10-15 | 北京航空航天大学 | 航班延误预测方法、装置、设备及存储介质 |
CN110659773A (zh) * | 2019-09-16 | 2020-01-07 | 杭州师范大学 | 一种基于深度学习的航班延误预测方法 |
CN110675007A (zh) * | 2019-12-06 | 2020-01-10 | 南京萨利智能科技有限公司 | 航班延误预测方法、装置及计算机存储介质 |
CN110796315A (zh) * | 2019-11-04 | 2020-02-14 | 中国民用航空飞行学院 | 基于时效信息和深度学习的离港航班延误预测方法 |
CN111145596A (zh) * | 2019-12-05 | 2020-05-12 | 阿里巴巴集团控股有限公司 | 一种延误时长的预测方法及装置 |
CN111161566A (zh) * | 2019-12-30 | 2020-05-15 | 携程旅游网络技术(上海)有限公司 | 航班延误预警方法、系统、电子设备和介质 |
CN111401601A (zh) * | 2019-12-23 | 2020-07-10 | 南京航空航天大学 | 一种面向延误传播的航班起降时间预测方法 |
CN112132366A (zh) * | 2020-11-30 | 2020-12-25 | 中航信移动科技有限公司 | 一种航班放行率的预测系统 |
CN112418730A (zh) * | 2020-12-11 | 2021-02-26 | 中国民航科学技术研究院 | 一种运输系统的响应指标预估模型的构建方法 |
CN112416588A (zh) * | 2020-11-20 | 2021-02-26 | 中国电子科技集团公司第二十九研究所 | 一种基于随机森林算法的资源分配方法 |
CN112529416A (zh) * | 2020-12-11 | 2021-03-19 | 中国民航科学技术研究院 | 一种运输系统的运行效率预估模型的构建方法 |
CN113128769A (zh) * | 2021-04-22 | 2021-07-16 | 上海工程技术大学 | 基于深度学习的智能航班延误预测方法 |
CN113282684A (zh) * | 2021-05-31 | 2021-08-20 | 中国民航信息网络股份有限公司 | 航班季节性归类的预测方法、装置及机器可读介质 |
CN113657671A (zh) * | 2021-08-18 | 2021-11-16 | 北京航空航天大学 | 一种基于集成学习的航班延误预测方法 |
IT202100018188A1 (it) | 2021-07-09 | 2023-01-09 | Italia Rimborso Srl Unipersonale | Metodo per l’individuazione di disservizi correlati a voli di linea |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120226647A1 (en) * | 2011-03-03 | 2012-09-06 | Business Travel Alternatives, Llc | Flight itinerary delay estimation |
CN105844346A (zh) * | 2016-03-17 | 2016-08-10 | 福州大学 | 基于arima模型的航班延误预测方法 |
CN106296418A (zh) * | 2016-08-31 | 2017-01-04 | 合肥飞友网络科技有限公司 | 一种航班动态延误概率模型建立方法 |
CN107818382A (zh) * | 2017-10-27 | 2018-03-20 | 中航信移动科技有限公司 | 航班到达时间预测方法 |
CN108038508A (zh) * | 2017-12-12 | 2018-05-15 | 携程旅游网络技术(上海)有限公司 | 中转航班的推送方法、系统、存储介质和电子设备 |
CN108197081A (zh) * | 2017-11-03 | 2018-06-22 | 上海敬之网络科技有限公司 | 一种航班延误险的数据精算模型建立方法 |
CN108446771A (zh) * | 2018-04-02 | 2018-08-24 | 四川长虹电器股份有限公司 | 一种防止销售预测模型过拟合的方法 |
CN108596757A (zh) * | 2018-04-23 | 2018-09-28 | 大连火眼征信管理有限公司 | 一种智能组合的个人信用评估方法及系统 |
-
2018
- 2018-12-11 CN CN201811514333.0A patent/CN109492334B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120226647A1 (en) * | 2011-03-03 | 2012-09-06 | Business Travel Alternatives, Llc | Flight itinerary delay estimation |
CN105844346A (zh) * | 2016-03-17 | 2016-08-10 | 福州大学 | 基于arima模型的航班延误预测方法 |
CN106296418A (zh) * | 2016-08-31 | 2017-01-04 | 合肥飞友网络科技有限公司 | 一种航班动态延误概率模型建立方法 |
CN107818382A (zh) * | 2017-10-27 | 2018-03-20 | 中航信移动科技有限公司 | 航班到达时间预测方法 |
CN108197081A (zh) * | 2017-11-03 | 2018-06-22 | 上海敬之网络科技有限公司 | 一种航班延误险的数据精算模型建立方法 |
CN108038508A (zh) * | 2017-12-12 | 2018-05-15 | 携程旅游网络技术(上海)有限公司 | 中转航班的推送方法、系统、存储介质和电子设备 |
CN108446771A (zh) * | 2018-04-02 | 2018-08-24 | 四川长虹电器股份有限公司 | 一种防止销售预测模型过拟合的方法 |
CN108596757A (zh) * | 2018-04-23 | 2018-09-28 | 大连火眼征信管理有限公司 | 一种智能组合的个人信用评估方法及系统 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948716A (zh) * | 2019-03-25 | 2019-06-28 | 中国民航大学 | 一种基于区域残差和lstm网络的机场延误预测方法 |
CN109948716B (zh) * | 2019-03-25 | 2023-04-07 | 中国民航大学 | 一种基于区域残差和lstm网络的机场延误预测方法 |
CN110334839A (zh) * | 2019-04-15 | 2019-10-15 | 北京航空航天大学 | 航班延误预测方法、装置、设备及存储介质 |
US11501648B2 (en) | 2019-04-15 | 2022-11-15 | Beihang University | Method and apparatus for predicting flight delay, device and storage medium |
CN110659773A (zh) * | 2019-09-16 | 2020-01-07 | 杭州师范大学 | 一种基于深度学习的航班延误预测方法 |
CN110796315A (zh) * | 2019-11-04 | 2020-02-14 | 中国民用航空飞行学院 | 基于时效信息和深度学习的离港航班延误预测方法 |
CN110796315B (zh) * | 2019-11-04 | 2023-11-28 | 中国民用航空飞行学院 | 基于时效信息和深度学习的离港航班延误预测方法 |
CN111145596A (zh) * | 2019-12-05 | 2020-05-12 | 阿里巴巴集团控股有限公司 | 一种延误时长的预测方法及装置 |
CN110675007A (zh) * | 2019-12-06 | 2020-01-10 | 南京萨利智能科技有限公司 | 航班延误预测方法、装置及计算机存储介质 |
CN111401601A (zh) * | 2019-12-23 | 2020-07-10 | 南京航空航天大学 | 一种面向延误传播的航班起降时间预测方法 |
CN111401601B (zh) * | 2019-12-23 | 2023-06-09 | 南京航空航天大学 | 一种面向延误传播的航班起降时间预测方法 |
CN111161566B (zh) * | 2019-12-30 | 2021-06-11 | 携程旅游网络技术(上海)有限公司 | 航班延误预警方法、系统、电子设备和介质 |
CN111161566A (zh) * | 2019-12-30 | 2020-05-15 | 携程旅游网络技术(上海)有限公司 | 航班延误预警方法、系统、电子设备和介质 |
CN112416588B (zh) * | 2020-11-20 | 2022-06-07 | 中国电子科技集团公司第二十九研究所 | 一种基于随机森林算法的资源分配方法 |
CN112416588A (zh) * | 2020-11-20 | 2021-02-26 | 中国电子科技集团公司第二十九研究所 | 一种基于随机森林算法的资源分配方法 |
CN112132366A (zh) * | 2020-11-30 | 2020-12-25 | 中航信移动科技有限公司 | 一种航班放行率的预测系统 |
CN112418730A (zh) * | 2020-12-11 | 2021-02-26 | 中国民航科学技术研究院 | 一种运输系统的响应指标预估模型的构建方法 |
CN112529416A (zh) * | 2020-12-11 | 2021-03-19 | 中国民航科学技术研究院 | 一种运输系统的运行效率预估模型的构建方法 |
CN113128769A (zh) * | 2021-04-22 | 2021-07-16 | 上海工程技术大学 | 基于深度学习的智能航班延误预测方法 |
WO2022252847A1 (zh) * | 2021-05-31 | 2022-12-08 | 中国民航信息网络股份有限公司 | 航班季节性归类的预测方法、装置及机器可读介质 |
CN113282684B (zh) * | 2021-05-31 | 2023-08-29 | 中国民航信息网络股份有限公司 | 航班季节性归类的预测方法、装置及机器可读介质 |
CN113282684A (zh) * | 2021-05-31 | 2021-08-20 | 中国民航信息网络股份有限公司 | 航班季节性归类的预测方法、装置及机器可读介质 |
IT202100018188A1 (it) | 2021-07-09 | 2023-01-09 | Italia Rimborso Srl Unipersonale | Metodo per l’individuazione di disservizi correlati a voli di linea |
CN113657671A (zh) * | 2021-08-18 | 2021-11-16 | 北京航空航天大学 | 一种基于集成学习的航班延误预测方法 |
CN113657671B (zh) * | 2021-08-18 | 2024-02-09 | 北京航空航天大学 | 一种基于集成学习的航班延误预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109492334B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492334A (zh) | 航班延误的模型建立方法、预测方法及装置 | |
CN103530704B (zh) | 一种终端空域空中交通动态容量预测系统及其方法 | |
CN109034449A (zh) | 基于深度学习和乘客行为模式的短期公交客流预测方法 | |
CN104766476B (zh) | 一种路段以及路网区域交通状态指数的计算方法 | |
CN103761585B (zh) | 机场接续运输动态匹配、运力监测预警和智能调配方法 | |
CN110083977A (zh) | 一种基于深度学习的大气湍流监测方法 | |
CN108898838A (zh) | 一种基于lstm模型的机场交通拥堵预测方法及装置 | |
CN103426026A (zh) | 一种混合神经网络预测及识别景区气象要素的方法 | |
US20060293840A1 (en) | Airspace partitioning | |
CN110363333A (zh) | 一种基于渐进梯度回归树的天气影响下空中通行能力的预测方法 | |
CN108537710A (zh) | 一种基于Markov-FLUS模型的城市增长边界划定方法 | |
CN110045441A (zh) | 基于雷达回波图的天气分析方法及装置 | |
CN110009037A (zh) | 一种基于物理信息耦合的工程风速短时预测方法及系统 | |
Liu et al. | Predicting aircraft trajectory choice–a nominal route approach | |
CN112215416B (zh) | 智能规划巡检航线系统及方法 | |
CN109992923A (zh) | 一种基于变分辨率成本表面的分阶段输电线路路径规划方法 | |
CN110503485A (zh) | 地理区域分类方法及装置、电子设备、存储介质 | |
CN110245773A (zh) | 一种多源实况时空预报因子提取及纳入模式解释应用的方法 | |
CN103020733B (zh) | 一种基于权重的机场单航班噪声预测方法及其系统 | |
CN106485429A (zh) | 一种无人机作业调度方法及装置 | |
CN110471131B (zh) | 高空间分辨率的精细化大气水平能见度自动预报方法及系统 | |
CN110288125A (zh) | 一种基于手机信令数据的通勤模型建立方法及应用 | |
CN113762590B (zh) | 一种城市轨道交通节假日客流预测系统 | |
CN105279582B (zh) | 基于动态相关性特征的超短期风电功率预测方法 | |
CN117335411B (zh) | 一种光伏电站群的中长期发电量预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |