CN108304974A - 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法 - Google Patents
一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法 Download PDFInfo
- Publication number
- CN108304974A CN108304974A CN201810161720.4A CN201810161720A CN108304974A CN 108304974 A CN108304974 A CN 108304974A CN 201810161720 A CN201810161720 A CN 201810161720A CN 108304974 A CN108304974 A CN 108304974A
- Authority
- CN
- China
- Prior art keywords
- noshow
- sample set
- data
- factor
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 26
- 238000013459 approach Methods 0.000 title claims abstract description 11
- 238000000556 factor analysis Methods 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000003066 decision tree Methods 0.000 claims abstract description 29
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000012795 verification Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 238000013138 pruning Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 9
- 238000002474 experimental method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法。其包括收集离港数据,选取与NOSHOW相关的N项指标的数据作为属性因子集合,将由N项指标的数据组成的数据样本集合分成训练样本集合和测试样本集合;利用训练样本集合,采用优化C5.0决策树算法构造NOSHOW预测模型,用测试样本集合对NOSHOW预测模型进行验证分析,同时生成与NOSHOW相关的属性因子的量化结果;从量化结果中提取与NOSHOW相关的强因子,采用Apriori算法对提取出来的强因子进行关联规则挖掘等步骤。本发明不仅降低高成本分类错误率,而且在运行速度和内存执行效率上得到了提高,生成的规则集更直观、更准确。对影响NOSHOW的属性因子进行量化,得到了不同影响程度的量化结果。
Description
技术领域
本发明属于民航旅客NOSHOW预测技术领域,特别是涉及一种基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法。
背景技术
在航空市场中,经常有旅客订座后却不能如期登机(NOSHOW),这种行为最终会导致座位虚耗,从而给航空公司造成巨额经济损失。航空公司解决NOHSOW的主要手段是超售,但是,目前国内外超售控制方法在实际应用中存在着较高的拒载风险,而影响拒载风险的最主要因素是对NOSHOW预测的准确性。因此,构建较高准确性的NOSHOW预测模型可以为航空公司提供准确的超售依据,将拒载风险降至最低,从而使收益最大化。
传统的NOHSOW预测方法并未考虑旅客信息因素,仅仅分析特定航班的起飞时间、航班容量、出发地、目的地等因素,如时间序列模型、因果模型、混合模型;基于传统NOSHOW预测基础上,考虑旅客信息因素,目前主要研究有:GARROW&KOPPELMAN基于旅客及定向出站/入境行程数据,使用多项Logistic回归对传统模型改进,但易出现由于有带偏参数估计导致模型解释能力下降;黄文强基于历史各个购票旅客的各种属性及最后是否NOSHOW情况,采用SVM(支持向量机)构建NOSHOW预测模型,该模型具有很好的概化性能,但是会因特征过多的引入而导致性能退化;SEJUNE HONG在基于历史航班旅客平均NOSHOW比率的基础上,采用了非参数的C4.5决策树进行模型预测,该模型虽然解决了上述两类问题,实现了较好的分类,但是在构造决策树的过程中需要对数据集多次扫描、排序,导致运行速度与内存执行效率降低,同时构建的决策树较复杂,分类规则层层嵌套。另外,2017年,翟盼盼等人提出基于粗糙集特征提取方法,并对特征进行挖掘,该方法虽然挖掘出NOSHOW相关的规则,但是并未构建NOSHOW预测模型。由于民航信息系统中的CKI(Check-In,离港信息)是大数据集,因此,需要构建低成本、高效率的NOSHOW预测模型来减少收益漏洞。
发明内容
为了解决上述问题,本发明的目的在于提供一种基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法。
为了达到上述目的,本发明提供的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法包括按按顺序进行的下列步骤:
步骤一、收集民航旅客信息服务系统产生的离港数据,从中选取与NOSHOW相关的N项指标的数据作为属性因子集合,然后将其中的部分数据进行预处理,之后将上述由N项指标的数据组成的数据样本集合分成训练样本集合和测试样本集合;
步骤二、利用上述训练样本集合,采用优化C5.0决策树算法构造NOSHOW预测模型,用测试样本集合对NOSHOW预测模型进行验证分析,同时生成与NOSHOW相关的属性因子的量化结果;
步骤三、从上述量化结果中提取与NOSHOW相关的强因子,采用Apriori算法对提取出来的强因子进行关联规则挖掘。
在步骤一中,所述的收集民航旅客信息服务系统产生的离港数据,从中选取与NOSHOW相关的N项指标的数据作为属性因子集合,然后将其中的部分数据进行预处理,之后将上述由N项指标的数据组成的数据样本集合分成训练样本集合和测试样本集合的方法是:
首先根据专家经验及数据分析结果,从离港数据中选取与NOSHOW相关的N项指标的数据作为属性因子集合,其中指标包括:旅客性别、旅客年龄、旅客证件国籍、是否起始航站、起飞时间、到达时间、旅客值机状态、常旅客等级、舱位等级、旅客是否有优先、客票状态、旅客证件类型、客票类型、是否团队、携带行李信息;
然后根据建模及关联规则挖掘需要,需要对其中的旅客年龄、起飞时间、到达时间、舱位等级数据进行离散化处理,其中对于舱位等级数据离散化处理是依照目前国航最新的舱位等级分布进行的,由此完成这些数据的预处理;
之后将由上述N项指标的数据组成的数据样本集合进行分类,抽取其中的80%作为训练样本集合,剩余的20%作为测试样本集合而对下述的NOSHOW预测模型进行检验。
在步骤二中,所述的利用上述训练样本集合,采用优化C5.0决策树算法构造NOSHOW预测模型,用测试样本集合对NOSHOW预测模型进行验证分析,同时生成与NOSHOW相关的属性因子的量化结果的方法是:
设训练样本=<S,A,C>,其中S是训练样本集合,A是与NOSHOW相关的属性因子,即输入变量,C是IS_NOSHOW的类别,即输出变量;设训练样本集合S中有m个相互不同的类别Ci,i=1,2,...m,ni是训练样本集合S中属于类别Ci的样本数,属性因子A有V个取值:{a1,a2,...av},将训练样本集合S分成多个子集{S1,S2,...Sv}.nij是子集Sj中类别Ci的样本数;
(1)计算训练样本集合S的信息熵,并将其记为Info(S),公式如下:
其中pi为任意抽取样本属于类别Ci的概率,
(2)计算属性因子A的条件熵,并将其记为Info(S/A),公式如下:
其中pij为子集Sj属于类别Ci的概率,
(3)根据上述训练样本集合S的信息熵和属性因子A的条件熵计算属性因子A的信息增益,并将其记为Gain(A),公式如下:
Gain(A)=Info(S)-Info(S/A)
(4)计算属性因子A的分裂信息熵,并将其记为SplitInfo(A),公式如下:
(5)根据属性因子A的信息增益和属性因子A的分裂信息熵计算属性因子A的信息增益率,并将其记为GainRs(A),公式如下:
(6)待按照步骤(2)至步骤(5)计算出所有属性因子A的信息增益率后,以具有最大信息增益率的属性因子A作为最佳分组变量Vbest,按照最佳分组变量Vbest的k个取值而将训练样本集合S重新分成k组,生成决策树的k个分支;
(7)重复步骤(1)至步骤(6),直至各分支继续分组不再有意义为止;由此构造出初始NOSHOW预测模型;
(8)定义将属于类别Cj的样本误判为类别Ci的误判成本值,并将其记为Cost(i,j),若i=j,则Cost(i,j)=0;否则Cost(i,j)>0;
(9)定义将属于类别Ci的样本误判为其他类别样本的误判成本值,并将其记为C(i),计算公式如下:
(10)定义样本属于类别Ci的权重值,并将其记为w(i),计算公式如下:
(11)定义属于类别Ci的带权重值的样本数,并将其记为Wi,计算公式如下:
Wi=w(i)ni
(12)定义子集Sj中属于类别Ci的带权重值的样本数,并将其记为Wij,计算公式如下:
Wij=w(i)nij
为了区别对待不同误判的错误分类,对不同误判设定误判成本值,在计算属性因子的信息增益率时将误判情况考虑进去,即在计算信息熵和条件熵时,用Wi代替ni,用Wij代替nij,即将概率pi、pij更新为:
(13)从叶节点逐层向上,以最小子树为基本单位,计算其叶节点的错误率并计算根节点的错误率,若前者大于后者,则剪去该子树的分支,直至无需剪枝为止;
(14)用测试样本集合对上述NOSHOW预测模型进行验证分析,同时生成与NOSHOW相关的属性因子的量化结果.
在步骤三中,所述的从上述量化结果中提取与NOSHOW相关的强因子,采用Apriori算法对提取出来的强因子进行关联规则挖掘的方法是:
1)提取量化结果中的所有1-项集C1作为候选集;
2)计算候选集C1中所有1-项集的支持度Support1i;
3)若支持度Support1i>最小支持度阈值Min_Sup,则对应的1-项集进入频繁1-项集L1,否则,进入否定项集NL1,包含否定项集NL1中1-项集的其它多项集将不再进入频繁项集;
4)令K=1,K++,Lk-1*Lk-1组合产生候选k-项集Ck;
5)计算候选k-项集Ck中所有k-项集的支持度Supportki;
6)若支持度Supportki>最小支持度阈值Min_Sup,则对应的k-项集进入频繁k-项集Lk,否则,进入否定项集NLk,包含否定项集NLk中k-项集的其它多项集将不再进入频繁项集;
7)若频繁项集Lk不为空,则重复步骤4)~6),直至无法产生候选项集为止;
8)计算每个频繁项集Lk所有非空子集Lkj’的置信度Confidencekj;
9)若置信度Confidencekj>最小置信度阈值Min_Conf,则生成关联规则Lkj’—>(LK-Lkj’)。
本发明提供的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法具有的优点和积极效果是:基于误判成本的C5.0算法构造NOSHOW预测模型,不仅降低高成本分类错误率,而且在运行速度和内存执行效率上得到了提高,生成的规则集更直观、更准确。同时,对影响NOSHOW的属性因子进行量化,得到了不同影响程度的量化结果,另外,通过对量化后的强因子进行进一步的挖掘,将影响NOSHOW程度大的属性因子(强因子)之间的隐含关系挖掘出来,从而为航空公司NOSHOW预测及收益提升管理提供有效的决策依据。
附图说明
图1为本发明提供的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法流程图。
图2为Cost(A)不同取值下训练样本分类错误率分布图。
图3为Cost(A)不同取值下测试样本分类错误率分布图。
图4为不同算法构建模型预测准确率对比图。
图5为不同算法构建模型用时对比图。
图6为不同算法构建模型分类错误率对比图。
图7为不同特征构造模型预测准确率对比图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下:
如图1所示,本发明提供的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法包括按顺序进行的下列步骤:
步骤一、收集民航旅客信息服务系统(PSS)产生的离港数据(CKI),从中选取与NOSHOW相关的N项指标的数据作为属性因子集合,然后将其中的部分数据进行预处理,之后将上述由N项指标的数据组成的数据样本集合分成训练样本集合和测试样本集合;
具体步骤如下:
首先根据专家经验及数据分析结果,从离港数据中选取与NOSHOW相关的N项指标的数据作为属性因子集合,其中指标包括:旅客性别、旅客年龄、旅客证件国籍、是否起始航站、起飞时间、到达时间、旅客值机状态、常旅客等级、舱位等级、旅客是否有优先、客票状态、旅客证件类型、客票类型、是否团队、携带行李信息;
出于建模及关联规则挖掘需要,需要对其中的旅客年龄、起飞时间、到达时间、舱位等级数据进行离散化处理,其中对于舱位等级数据离散化处理是依照目前国航最新的舱位等级分布(豪华头等舱、头等舱、公务舱、超级经济舱、普通舱)进行的,由此完成这些数据的预处理。
之后将由上述N项指标的数据组成的数据样本集合进行分类,抽取其中的80%作为训练样本集合,剩余的20%作为测试样本集合而对下述的NOSHOW预测模型进行检验。
步骤二、利用上述训练样本集合,采用优化C5.0决策树算法构造NOSHOW预测模型,用测试样本集合对NOSHOW预测模型进行验证分析,同时生成与NOSHOW相关的属性因子的量化结果;
具体步骤如下:
设训练样本=<S,A,C>,其中S是训练样本集合,A是与NOSHOW相关的属性因子,即输入变量,C是IS_NOSHOW的类别,即输出变量;设训练样本集合S中有m个相互不同的类别Ci,i=1,2,...m,ni是训练样本集合S中属于类别Ci的样本数,属性因子A有V个取值:{a1,a2,...av},将训练样本集合S分成多个子集{S1,S2,...Sv}.nij是子集Sj中类别Ci的样本数。
(1)计算训练样本集合S的信息熵,并将其记为Info(S),公式如下:
其中pi为任意抽取样本属于类别Ci的概率,
(2)计算属性因子A的条件熵,并将其记为Info(S/A),公式如下:
其中pij为子集Sj属于类别Ci的概率,
(3)根据上述训练样本集合S的信息熵和属性因子A的条件熵计算属性因子A的信息增益,并将其记为Gain(A),公式如下:
Gain(A)=Info(S)-Info(S/A)
(4)计算属性因子A的分裂信息熵,并将其记为SplitInfo(A),公式如下:
(5)根据属性因子A的信息增益和属性因子A的分裂信息熵计算属性因子A的信息增益率,并将其记为GainRs(A),公式如下:
(6)待按照步骤(2)至步骤(5)计算出所有属性因子A的信息增益率后,以具有最大信息增益率的属性因子A作为最佳分组变量Vbest,按照最佳分组变量Vbest的k个取值而将训练样本集合S重新分成k组,生成决策树的k个分支;
(7)重复步骤(1)至步骤(6),直至各分支继续分组不再有意义为止;由此构造出初始NOSHOW预测模型;
在构建NOSHOW预测模型时,将非NOSHOW旅客误判为NOSHOW旅客和将NOSHOW旅客误判为非NOSHOW旅客所造成的负面影响是绝对不等同的。相比之下,前者明显使航空公司承受更大的风险,带来更严重的后果。因此,在进行NOSHOW预测时,应当尽量避免将非NOSHOW旅客误判为NOSHOW旅客。
误判成本值是对某一种分类错误产生的后果严重性的反映。其值越高,说明误判的后果越严重,将不同的误判成本值以矩阵的形式展现出来,则形成了成本矩阵。成本矩阵显示了预测类别与实际类别每种可能组合的成本。因此,需设定不同的误判成本值,将高成本误判情况考虑进去,以此来优化上述初始NOSHOW预测模型;
(8)定义将属于类别Cj的样本误判为类别Ci的误判成本值,并将其记为Cost(i,j),若i=j,则Cost(i,j)=0;否则Cost(i,j)>0;
(9)定义将属于类别Ci的样本误判为其他类别样本的误判成本值,并将其记为C(i),计算公式如下:
(10)定义样本属于类别Ci的权重值,并将其记为w(i),计算公式如下:
(11)定义属于类别Ci的带权重值的样本数,并将其记为Wi,计算公式如下:
Wi=w(i)ni
(12)定义子集Sj中属于类别Ci的带权重值的样本数,并将其记为Wij,计算公式如下:
Wij=w(i)nij
为了区别对待不同误判的错误分类,对不同误判设定误判成本值,在计算属性因子的信息增益率时将误判情况考虑进去,即在计算信息熵和条件熵时,用Wi代替ni,用Wij代替nij,即将概率pi、pij更新为:
(13)从叶节点逐层向上,以最小子树为基本单位,计算其叶节点的错误率并计算根节点的错误率,若前者大于后者,则剪去该子树的分支,直至无需剪枝为止;
(14)用测试样本集合对上述NOSHOW预测模型进行验证分析,同时生成与NOSHOW相关的属性因子的量化结果;
步骤三、从上述量化结果中提取与NOSHOW相关的强因子,采用Apriori算法对提取出来的强因子进行关联规则挖掘。
具体步骤如下:
1)提取量化结果中的所有1-项集C1作为候选集;
2)计算候选集C1中所有1-项集的支持度Support1i;
3)若支持度Support1i>最小支持度阈值Min_Sup,则对应的1-项集进入频繁1-项集L1,否则,进入否定项集NL1,包含否定项集NL1中1-项集的其它多项集将不再进入频繁项集;
4)令K=1,K++,Lk-1*Lk-1组合产生候选k-项集Ck;
5)计算候选k-项集Ck中所有k-项集的支持度Supportki;
6)若支持度Supportki>最小支持度阈值Min_Sup,则对应的k-项集进入频繁k-项集Lk,否则,进入否定项集NLk,包含否定项集NLk中k-项集的其它多项集将不再进入频繁项集;
7)若频繁项集Lk不为空,则重复步骤4)~6),直至无法产生候选项集为止;
8)计算每个频繁项集Lk所有非空子集Lkj’的置信度Confidencekj;
9)若置信度Confidencekj>最小置信度阈值Min_Conf,则生成关联规则Lkj’—>(LK-Lkj’)。
实施例:
步骤一、收集民航旅客信息服务系统(PSS)产生的离港数据(CKI),从中选取与NOSHOW相关的N项指标的数据作为属性因子集合,然后将其中的部分数据进行预处理,之后将上述由N项指标的数据组成的数据样本集合分成训练样本集合和测试样本集合;
具体步骤如下:
根据专家经验及数据分析结果,选取15个与NOSHOW相关的属性因子:PSG_GENDER(旅客性别),PSG_AGE(旅客年龄),PSG_COUNTRY(旅客证件国籍),PSG_STARTINDEX(是否起始航站),SEG_DE_TIME(起飞时间),SEG_AR_TIME(到达时间),PSG_CHECKSTATUS(旅客值机状态),FTG_LEVEL(常旅客等级),SEG_CLASS(舱位等级),PSG_SEG_BRD_PRIORITYACCESS(旅客是否有优先),TKT_TICKETSTATUS(客票状态),PSG_DOCTYPE(旅客证件类型),TKK_TYPE(客票类型),PSG_TEAM(是否团队),PSG_BAGGAGE(携带行李信息)。
根据建模需要,对时间数据进行离散化处理,以SEG_DE_TIME为例,具体如下:
对PSG_AGE数据进行离散化处理,具体如下:
对SEG_CLASS数据进行离散化处理,具体如下:
为了方便决策树与关联规则表示,分别用A,B,...,P共16个英文字母分别表示上述15个属性因子及1个IS_NOSHOW决策属性因子,并分别用0,1,2,3,…15代表不同属性因子的分类,如C0代表国内,I0代表豪华头等舱。离散化后,由此得到用于建模的样本数据集合相关信息。
以IS_NOSHOW作为输出变量,以15个属性因子为输入变量进行决策树建模,采用保留法建立和评估模型,即把数据样本集合分为训练样本集合和测试样本集合两部分。在166224条样本记录中随机抽取约80%作为训练样本集合,其余作为测试样本集合对下述NOSHOW预测模型进行检验。
步骤二、对上述训练样本集合,采用优化C5.0决策树算法构造NOSHOW预测模型,用测试样本集合对NOSHOW预测模型进行验证分析,同时生成与NOSHOW相关的属性因子的量化结果。具体步骤如下:
根据C5.0决策树算法,将训练样本集合作为决策树的根节点,分别计算每一个属性因子的信息增益率GainRs。通过计算得到信息增益率GainRs最大的属性因子为PSG_CHECKINSTATUS,根据PSG_CHECKINSTATUS的两个取值ACC、DEL创建两个分支,依此将训练样本集合分成两个子集,生成的两个节点分支分别由E=E0即PSG_CHECKINSTATUS=ACC的样本构成的集合,以及由E=E1即PSG_CHECKSTATUS=DEL的样本构成的集合,接下来,针对每一个新的节点,重复以上步骤,直至无需剪枝为止,由此建立起初始NOSHOW预测模型,其预测结果如下表1、2所示:
表1初始NOSHOW预测模型对训练样本集合的预测结果
表2初始NOSHOW预测模型对测试样本集合的预测结果
将非NOSHOW旅客误判为NOSHOW旅客为A类错误即高成本错误,则A类错误率=A类错误数/非NOSHOW旅客数;而将NOSHOW旅客误判为非NOSHOW旅客为B类错误即低成本错误,则B类错误率=B类错误数/NOSHOW旅客数。在建模的过程中,应当尽量减少A类错误。
优化算法通过为高成本设定高误判成本值Cost,来降低产生此类错误的发生概率。设A类错误的成本值为Cost(A),B类错误的成本值为Cost(B)。在C5.0决策树模型中,默认成本值Cost(B)为1,为了保证低成本,将成本值Cost(A)取1、2、3、4,进行多次实验,结果如图2、3所示。
从图2、图3中可以看到,随着成本值Cost(A)的不断增大,无论是训练样本集合还是测试样本集合,模型的总错误率是不断上升的,而A类错误率却呈现出下降的趋势。通过对比实验,可以很明显地看到,当成本值Cost(A)=2时,不仅总错误率基本达标,而且A类错误率也降低,因此成本值Cost(A)=2是相对比较合适的选择。
通过上述初始NOSHOW预测模型的优化,得到最终的NOSHOW预测模型,如下表3、4、5所示:
表3优化后NOSHOW预测模型对训练样本集合的预测结果
表4优化后NOSHOW预测模型对测试样本集合的预测结果
表5优化前后NOSHOW预测模型预测错误率对比
由表5可见,引入成本矩阵后,在训练样本集合中,NOSHOW预测模型的总错误率降低0.03%,A类错误率降低0.05%,即将初始NOSHOW预测模型中1191个误判旅客减半,而在测试样本集合中,NOSHOW预测模型的总错误率和A类错误率均有下降,特别是A类错误率从0.14%下降到0.08%。
步骤三、提取与NOSHOW相关的强因子,采用Apriori算法对提取出来的强因子进行关联规则挖掘;
具体步骤如下:
提取由决策树模型得到的对NOSHOW重要性大于0.1的属性项,以PSG_CHECKINSTATUS PSG_AGE SEG_CLASS PSG_GENDER FTG_LEVEL IS_DOMESTIC SEG_DE_TIMESEG_AR_TIME同时作为关联规则的前项跟后项,并将IS_NOSHOW加入后项,设定Apriori算法的最小支持度阈值为10%,最小置信度阈值为80%,经关联分析,共得到139条关联规则,有效事务数为166224,最小支持度为10.215%,最大支持度为93.627%,最小置信度为80.054%,最大置信度为100.0%,最小提升为0.981%,最大提升为2.124%。提取其中具有较高置信度和支持度的关联规则,具体见下表所示。
由上表,可得如下规则:
(1)到达时间为6—11点(G1)、起飞时间为6—11点(F1),无常旅客等级(H8)的旅客中,有99.367%的旅客不会NOSHOW;
(2)到达时间为12—17点(G2)、起飞时间为6—11点(F1)、无常旅客等级(H8)的旅客中,有96.366%的旅客会购买普通舱(I4)。
为了验证本发明提供的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法的效果,本发明人设计以下两部分对比:1)本发明构建NOSHOW预测模型所用算法与现有NOSHOW预测模型所用算法预测准确率、构建模型用时、分类错误率对比2)本发明提取的特征构建模型与粗糙集提取的特征构建模型准确率对比。
具体步骤如下:
1)实验分别采用现有NOSHOW预测模型所用SVM、logistic回归、C4.5决策树、C5.0决策树算法对CKI数据进行模型构建,得到模型的预测准确率、用时、总错误率及A类错误率即高成本错误率对比,如图4、5、6所示。
由图4、图5可见,优化前后模型预测准确率提高了0.01%,模型构建用时均为2s。与传统SVM、logistic回归、C4.5决策树算法相比,模型预测准确率分别提高了4.48%、0.1%、0.03%,另外,模型构建用时分别降低了75s、6s、2.14s。因此,在民航旅客NOSHOW应用场景下,本发明方法,即优化C5.0决策树算法构建模型的预测准确率最高、模型构建用时最短。
由图6可见,优化前后模型的总分类错误率保持不变,但是A类错误率降低了0.06%,这是由于在模型构建时,将误判成本考虑在内。另外,与传统SVM、logistic回归、C4.5决策树算法相比,本发明方法构建的模型总错误率分别降低3.81%、0.05%、0.05%,而A类错误率分别降低了2.92%、0.07%、0.08%。因此,在民航旅客NOSHOW应用场景下,本发明方法构建模型总错误率、A类错误率均为最低。
因此,从效率和成本两方面分析,在民航旅客NOSHOW应用场景下,本发明方法构建模型用时最短、准确率最高、成本最低,即保证了NOSHOW预测模型的低成本、高效率。
2)传统粗糙集方法提取5个与NOSHOW相关的属性因子:PSG_AGE,SEG_AR_TIME,FTL_FFLOYALTYLEVEL,PSG_GENDER,SEG_STARTINED,而本发明方法构建模型时提取8个与NOSHOW相关的属性因子:PSG_CHECKSTATUS,PSG_COUNTRYTKT_INF,SEG_CLASS,PSG_AGE,TKK_TYPE,PSG_TEAM,FTG_LEVEL,SEG_DE_TIME,实验采用C4.5决策树、C5.0决策树、优化C5.0决策树算法分别对两种情况所提特征构建模型,并对模型的预测准确率进行对比,如图7所示。
由图7可得,实验对传统粗糙集方法提取出的特征属性分别采用C4.5、C5.0、优化C5.0决策树算法进行建模,得到其预测准确率分别为99.58%、99.58%、99.58%,而本发明方法中提取出来的特征建模得到的预测准确率分别为99.89%、99.87%、99.88%,明显高于前者,因此,本发明方法提取的特征构建模型效果更好。
综上所述,与现有的民航旅客NOSHOW预测相比,本发明首先采用了适用于大数据集的C5.0决策树算法进行初步建模,而后引入成本矩阵的概念,将高成本误判考虑在内,构建了低成本、高效率的NOSHOW预测模型。该模型最终产生非常直观、准确的规则集,该规则集可以为航空公司收益管理人员提供有效的决策依据,从而减少座位虚耗。
以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。
Claims (4)
1.一种基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法,其特征在于:所述的分析方法包括按顺序进行的下列步骤:
步骤一、收集民航旅客信息服务系统产生的离港数据,从中选取与NOSHOW相关的N项指标的数据作为属性因子集合,然后将其中的部分数据进行预处理,之后将上述由N项指标的数据组成的数据样本集合分成训练样本集合和测试样本集合;
步骤二、利用上述训练样本集合,采用优化C5.0决策树算法构造NOSHOW预测模型,用测试样本集合对NOSHOW预测模型进行验证分析,同时生成与NOSHOW相关的属性因子的量化结果;
步骤三、从上述量化结果中提取与NOSHOW相关的强因子,采用Apriori算法对提取出来的强因子进行关联规则挖掘。
2.根据权利要求1所述的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法,其特征在于:在步骤一中,所述的收集民航旅客信息服务系统产生的离港数据,从中选取与NOSHOW相关的N项指标的数据作为属性因子集合,然后将其中的部分数据进行预处理,之后将上述由N项指标的数据组成的数据样本集合分成训练样本集合和测试样本集合的方法是:
首先根据专家经验及数据分析结果,从离港数据中选取与NOSHOW相关的N项指标的数据作为属性因子集合,其中指标包括:旅客性别、旅客年龄、旅客证件国籍、是否起始航站、起飞时间、到达时间、旅客值机状态、常旅客等级、舱位等级、旅客是否有优先、客票状态、旅客证件类型、客票类型、是否团队、携带行李信息;
然后根据建模及关联规则挖掘需要,需要对其中的旅客年龄、起飞时间、到达时间、舱位等级数据进行离散化处理,其中对于舱位等级数据离散化处理是依照目前国航最新的舱位等级分布进行的,由此完成这些数据的预处理;
之后将由上述N项指标的数据组成的数据样本集合进行分类,抽取其中的80%作为训练样本集合,剩余的20%作为测试样本集合而对下述的NOSHOW预测模型进行检验。
3.根据权利要求1所述的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法,其特征在于:在步骤二中,所述的利用上述训练样本集合,采用优化C5.0决策树算法构造NOSHOW预测模型,用测试样本集合对NOSHOW预测模型进行验证分析,同时生成与NOSHOW相关的属性因子的量化结果的方法是:
设训练样本=<S,A,C>,其中S是训练样本集合,A是与NOSHOW相关的属性因子,即输入变量,C是IS_NOSHOW的类别,即输出变量;设训练样本集合S中有m个相互不同的类别Ci,i=1,2,...m,ni是训练样本集合S中属于类别Ci的样本数,属性因子A有V个取值:{a1,a2,...av},将训练样本集合S分成多个子集{S1,S2,...Sv}.nij是子集Sj中类别Ci的样本数;
(1)计算训练样本集合S的信息熵,并将其记为Info(S),公式如下:
其中pi为任意抽取样本属于类别Ci的概率,
(2)计算属性因子A的条件熵,并将其记为Info(S/A),公式如下:
其中pij为子集Sj属于类别Ci的概率,
(3)根据上述训练样本集合S的信息熵和属性因子A的条件熵计算属性因子A的信息增益,并将其记为Gain(A),公式如下:
Gain(A)=Info(S)-Info(S/A)
(4)计算属性因子A的分裂信息熵,并将其记为SplitInfo(A),公式如下:
(5)根据属性因子A的信息增益和属性因子A的分裂信息熵计算属性因子A的信息增益率,并将其记为GainRs(A),公式如下:
(6)待按照步骤(2)至步骤(5)计算出所有属性因子A的信息增益率后,以具有最大信息增益率的属性因子A作为最佳分组变量Vbest,按照最佳分组变量Vbest的k个取值而将训练样本集合S重新分成k组,生成决策树的k个分支;
(7)重复步骤(1)至步骤(6),直至各分支继续分组不再有意义为止;由此构造出初始NOSHOW预测模型;
(8)定义将属于类别Cj的样本误判为类别Ci的误判成本值,并将其记为Cost(i,j),若i=j,则Cost(i,j)=0;否则Cost(i,j)>0;
(9)定义将属于类别Ci的样本误判为其他类别样本的误判成本值,并将其记为C(i),计算公式如下:
(10)定义样本属于类别Ci的权重值,并将其记为w(i),计算公式如下:
(11)定义属于类别Ci的带权重值的样本数,并将其记为Wi,计算公式如下:
Wi=w(i)ni
(12)定义子集Sj中属于类别Ci的带权重值的样本数,并将其记为Wij,计算公式如下:
Wij=w(i)nij
为了区别对待不同误判的错误分类,对不同误判设定误判成本值,在计算属性因子的信息增益率时将误判情况考虑进去,即在计算信息熵和条件熵时,用Wi代替ni,用Wij代替nij,即将概率pi、pij更新为:
(13)从叶节点逐层向上,以最小子树为基本单位,计算其叶节点的错误率并计算根节点的错误率,若前者大于后者,则剪去该子树的分支,直至无需剪枝为止;
(14)用测试样本集合对上述NOSHOW预测模型进行验证分析,同时生成与NOSHOW相关的属性因子的量化结果。
4.根据权利要求1所述的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法,其特征在于:在步骤三中,所述的从上述量化结果中提取与NOSHOW 相关的强因子,采用Apriori算法对提取出来的强因子进行关联规则挖掘的方法是:
1)提取量化结果中的所有1-项集C1作为候选集;
2)计算候选集C1中所有1-项集的支持度Support1i;
3)若支持度Support1i>最小支持度阈值Min_Sup,则对应的1-项集进入频繁1-项集L1,否则,进入否定项集NL1,包含否定项集NL1中1-项集的其它多项集将不再进入频繁项集;
4)令K=1,K++,Lk-1*Lk-1组合产生候选k-项集Ck;
5)计算候选k-项集Ck中所有k-项集的支持度Supportki;
6)若支持度Supportki>最小支持度阈值Min_Sup,则对应的k-项集进入频繁k-项集Lk,否则,进入否定项集NLk,包含否定项集NLk中k-项集的其它多项集将不再进入频繁项集;
7)若频繁项集Lk不为空,则重复步骤4)~6),直至无法产生候选项集为止;
8)计算每个频繁项集Lk所有非空子集Lkj’的置信度Confidencekj;
9)若置信度Confidencekj>最小置信度阈值Min_Conf,则生成关联规则Lkj’—>(LK-Lkj’)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810161720.4A CN108304974B (zh) | 2018-02-26 | 2018-02-26 | 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810161720.4A CN108304974B (zh) | 2018-02-26 | 2018-02-26 | 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304974A true CN108304974A (zh) | 2018-07-20 |
CN108304974B CN108304974B (zh) | 2022-02-08 |
Family
ID=62849011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810161720.4A Active CN108304974B (zh) | 2018-02-26 | 2018-02-26 | 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304974B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985911A (zh) * | 2018-08-15 | 2018-12-11 | 武汉万般上品信息技术有限公司 | 一种基于反向竞价模式的航空超售竞价方法 |
CN109711424A (zh) * | 2018-11-12 | 2019-05-03 | 平安科技(深圳)有限公司 | 一种基于决策树的行为规则获取方法、装置及设备 |
CN110048962A (zh) * | 2019-04-24 | 2019-07-23 | 广东工业大学 | 一种网络流量分类的方法、系统及设备 |
CN111062477A (zh) * | 2019-12-17 | 2020-04-24 | 腾讯云计算(北京)有限责任公司 | 一种数据处理方法、装置及存储介质 |
CN111814988A (zh) * | 2020-07-07 | 2020-10-23 | 北京航空航天大学 | 一种多智能体协作环境强化学习算法的测试方法 |
CN113569970A (zh) * | 2021-07-27 | 2021-10-29 | 中冶赛迪重庆信息技术有限公司 | 量化特征指标对标签影响的分析方法、系统、介质和终端 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820716A (zh) * | 2015-05-21 | 2015-08-05 | 中国人民解放军海军工程大学 | 基于数据挖掘的装备可靠性评估方法 |
CN105373606A (zh) * | 2015-11-11 | 2016-03-02 | 重庆邮电大学 | 一种改进c4.5决策树算法下的不平衡数据抽样方法 |
CN106096748A (zh) * | 2016-04-28 | 2016-11-09 | 武汉宝钢华中贸易有限公司 | 基于聚类分析和决策树算法的装车工时预测模型 |
CN106557846A (zh) * | 2016-11-30 | 2017-04-05 | 成都寻道科技有限公司 | 基于大学生在校数据的毕业去向预测方法 |
US20170177924A1 (en) * | 2014-07-17 | 2017-06-22 | Nec Solution Innovators, Ltd. | Attribute factor analysis method, device, and program |
-
2018
- 2018-02-26 CN CN201810161720.4A patent/CN108304974B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170177924A1 (en) * | 2014-07-17 | 2017-06-22 | Nec Solution Innovators, Ltd. | Attribute factor analysis method, device, and program |
CN104820716A (zh) * | 2015-05-21 | 2015-08-05 | 中国人民解放军海军工程大学 | 基于数据挖掘的装备可靠性评估方法 |
CN105373606A (zh) * | 2015-11-11 | 2016-03-02 | 重庆邮电大学 | 一种改进c4.5决策树算法下的不平衡数据抽样方法 |
CN106096748A (zh) * | 2016-04-28 | 2016-11-09 | 武汉宝钢华中贸易有限公司 | 基于聚类分析和决策树算法的装车工时预测模型 |
CN106557846A (zh) * | 2016-11-30 | 2017-04-05 | 成都寻道科技有限公司 | 基于大学生在校数据的毕业去向预测方法 |
Non-Patent Citations (2)
Title |
---|
张劲松等: "基于C4.5算法的民航客户价值细分研究", 《西安航空学院学报》 * |
曹卫东等: "民航收益漏洞NOSHOW规则提取", 《计算机工程与设计》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985911A (zh) * | 2018-08-15 | 2018-12-11 | 武汉万般上品信息技术有限公司 | 一种基于反向竞价模式的航空超售竞价方法 |
CN109711424A (zh) * | 2018-11-12 | 2019-05-03 | 平安科技(深圳)有限公司 | 一种基于决策树的行为规则获取方法、装置及设备 |
CN109711424B (zh) * | 2018-11-12 | 2023-10-27 | 平安科技(深圳)有限公司 | 一种基于决策树的行为规则获取方法、装置及设备 |
CN110048962A (zh) * | 2019-04-24 | 2019-07-23 | 广东工业大学 | 一种网络流量分类的方法、系统及设备 |
CN111062477A (zh) * | 2019-12-17 | 2020-04-24 | 腾讯云计算(北京)有限责任公司 | 一种数据处理方法、装置及存储介质 |
CN111062477B (zh) * | 2019-12-17 | 2023-12-08 | 腾讯云计算(北京)有限责任公司 | 一种数据处理方法、装置及存储介质 |
CN111814988A (zh) * | 2020-07-07 | 2020-10-23 | 北京航空航天大学 | 一种多智能体协作环境强化学习算法的测试方法 |
CN113569970A (zh) * | 2021-07-27 | 2021-10-29 | 中冶赛迪重庆信息技术有限公司 | 量化特征指标对标签影响的分析方法、系统、介质和终端 |
CN113569970B (zh) * | 2021-07-27 | 2024-05-03 | 中冶赛迪信息技术(重庆)有限公司 | 量化特征指标对标签影响的分析方法、系统、介质和终端 |
Also Published As
Publication number | Publication date |
---|---|
CN108304974B (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304974A (zh) | 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法 | |
CN110503245B (zh) | 一种机场航班大面积延误风险的预测方法 | |
CN102567464B (zh) | 基于扩展主题图的知识资源组织方法 | |
CN103217960B (zh) | 一种半导体生产线动态调度策略自动选择方法 | |
CN105809349B (zh) | 一种考虑来水相关性梯级水电站群的调度方法 | |
CN104881735A (zh) | 用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法 | |
Zhao et al. | An incremental clustering method for anomaly detection in flight data | |
CN102955894A (zh) | 一种基于用户细分的流失率预测的控制方法 | |
CN109002959A (zh) | 一种基于大数据的危化品运输风险预测系统 | |
CN109410588A (zh) | 一种基于交通大数据的交通事故演化分析方法 | |
CN105046323B (zh) | 一种正则化rbf网络多标签分类方法 | |
CN110516748A (zh) | 业务处理方法、装置、介质及电子设备 | |
CN109448366A (zh) | 一种基于随机森林的空域扇区拥挤程度预测方法 | |
CN115130375A (zh) | 一种岩爆烈度预测方法 | |
Li et al. | Solar flare forecasting using learning vector quantity and unsupervised clustering techniques | |
Hou et al. | Spatial distribution assessment of power outage under typhoon disasters | |
CN115659244A (zh) | 故障预测方法、装置及存储介质 | |
CN111599219A (zh) | 一种基于排序学习的多数据源航班起飞时间预测方法 | |
Gao et al. | Research on multilevel classification of high-speed railway signal equipment fault based on text mining | |
KR102307132B1 (ko) | 플랜트 엔지니어링 업무 단계별 의사결정 지원을 위한 머신러닝 자동화 플랫폼 장치 | |
Gürbüz et al. | Classification rule discovery for the aviation incidents resulted in fatality | |
CN115734274A (zh) | 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法 | |
Christopher et al. | Data mining approaches for aircraft accidents prediction: An empirical study on Turkey airline | |
CN109961085A (zh) | 基于贝叶斯估计的航班延误预测模型的建立方法及装置 | |
Mao et al. | Naive Bayesian algorithm classification model with local attribute weighted based on KNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |