CN108304974A

CN108304974A - 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法

Info

Publication number: CN108304974A
Application number: CN201810161720.4A
Authority: CN
Inventors: 林彤; 曹卫东; 许代代; 曾进进
Original assignee: China Travelsky Technology Co Ltd
Current assignee: China Travelsky Technology Co Ltd
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2018-07-20
Anticipated expiration: 2038-02-26
Also published as: CN108304974B

Abstract

一种基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法。其包括收集离港数据，选取与NOSHOW相关的N项指标的数据作为属性因子集合，将由N项指标的数据组成的数据样本集合分成训练样本集合和测试样本集合；利用训练样本集合，采用优化C5.0决策树算法构造NOSHOW预测模型，用测试样本集合对NOSHOW预测模型进行验证分析，同时生成与NOSHOW相关的属性因子的量化结果；从量化结果中提取与NOSHOW相关的强因子，采用Apriori算法对提取出来的强因子进行关联规则挖掘等步骤。本发明不仅降低高成本分类错误率，而且在运行速度和内存执行效率上得到了提高，生成的规则集更直观、更准确。对影响NOSHOW的属性因子进行量化，得到了不同影响程度的量化结果。

Description

一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法

技术领域

本发明属于民航旅客NOSHOW预测技术领域，特别是涉及一种基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法。

背景技术

在航空市场中，经常有旅客订座后却不能如期登机(NOSHOW)，这种行为最终会导致座位虚耗，从而给航空公司造成巨额经济损失。航空公司解决NOHSOW的主要手段是超售，但是，目前国内外超售控制方法在实际应用中存在着较高的拒载风险,而影响拒载风险的最主要因素是对NOSHOW预测的准确性。因此，构建较高准确性的NOSHOW预测模型可以为航空公司提供准确的超售依据，将拒载风险降至最低，从而使收益最大化。

传统的NOHSOW预测方法并未考虑旅客信息因素，仅仅分析特定航班的起飞时间、航班容量、出发地、目的地等因素，如时间序列模型、因果模型、混合模型；基于传统NOSHOW预测基础上，考虑旅客信息因素，目前主要研究有：GARROW&KOPPELMAN基于旅客及定向出站/入境行程数据，使用多项Logistic回归对传统模型改进，但易出现由于有带偏参数估计导致模型解释能力下降；黄文强基于历史各个购票旅客的各种属性及最后是否NOSHOW情况，采用SVM(支持向量机)构建NOSHOW预测模型，该模型具有很好的概化性能，但是会因特征过多的引入而导致性能退化；SEJUNE HONG在基于历史航班旅客平均NOSHOW比率的基础上，采用了非参数的C4.5决策树进行模型预测，该模型虽然解决了上述两类问题，实现了较好的分类，但是在构造决策树的过程中需要对数据集多次扫描、排序，导致运行速度与内存执行效率降低，同时构建的决策树较复杂，分类规则层层嵌套。另外，2017年，翟盼盼等人提出基于粗糙集特征提取方法，并对特征进行挖掘，该方法虽然挖掘出NOSHOW相关的规则，但是并未构建NOSHOW预测模型。由于民航信息系统中的CKI(Check-In，离港信息)是大数据集，因此，需要构建低成本、高效率的NOSHOW预测模型来减少收益漏洞。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法。

为了达到上述目的，本发明提供的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法包括按按顺序进行的下列步骤：

步骤一、收集民航旅客信息服务系统产生的离港数据，从中选取与NOSHOW相关的N项指标的数据作为属性因子集合，然后将其中的部分数据进行预处理，之后将上述由N项指标的数据组成的数据样本集合分成训练样本集合和测试样本集合；

步骤二、利用上述训练样本集合，采用优化C5.0决策树算法构造NOSHOW预测模型，用测试样本集合对NOSHOW预测模型进行验证分析，同时生成与NOSHOW相关的属性因子的量化结果；

步骤三、从上述量化结果中提取与NOSHOW相关的强因子，采用Apriori算法对提取出来的强因子进行关联规则挖掘。

在步骤一中，所述的收集民航旅客信息服务系统产生的离港数据，从中选取与NOSHOW相关的N项指标的数据作为属性因子集合，然后将其中的部分数据进行预处理，之后将上述由N项指标的数据组成的数据样本集合分成训练样本集合和测试样本集合的方法是：

首先根据专家经验及数据分析结果，从离港数据中选取与NOSHOW相关的N项指标的数据作为属性因子集合，其中指标包括：旅客性别、旅客年龄、旅客证件国籍、是否起始航站、起飞时间、到达时间、旅客值机状态、常旅客等级、舱位等级、旅客是否有优先、客票状态、旅客证件类型、客票类型、是否团队、携带行李信息；

然后根据建模及关联规则挖掘需要，需要对其中的旅客年龄、起飞时间、到达时间、舱位等级数据进行离散化处理，其中对于舱位等级数据离散化处理是依照目前国航最新的舱位等级分布进行的，由此完成这些数据的预处理；

之后将由上述N项指标的数据组成的数据样本集合进行分类，抽取其中的80％作为训练样本集合，剩余的20％作为测试样本集合而对下述的NOSHOW预测模型进行检验。

在步骤二中，所述的利用上述训练样本集合，采用优化C5.0决策树算法构造NOSHOW预测模型，用测试样本集合对NOSHOW预测模型进行验证分析，同时生成与NOSHOW相关的属性因子的量化结果的方法是：

设训练样本＝<S,A,C>,其中S是训练样本集合，A是与NOSHOW相关的属性因子，即输入变量，C是IS_NOSHOW的类别，即输出变量；设训练样本集合S中有m个相互不同的类别C_i,i＝1,2,...m,n_i是训练样本集合S中属于类别C_i的样本数，属性因子A有V个取值：{a₁,a₂,...a_v}，将训练样本集合S分成多个子集{S₁,S₂,...S_v}.n_ij是子集S_j中类别C_i的样本数；

(1)计算训练样本集合S的信息熵，并将其记为Info(S)，公式如下：

其中pi为任意抽取样本属于类别C_i的概率，

(2)计算属性因子A的条件熵，并将其记为Info(S/A)，公式如下：

其中pi_j为子集S_j属于类别C_i的概率，

(3)根据上述训练样本集合S的信息熵和属性因子A的条件熵计算属性因子A的信息增益，并将其记为Gain(A)，公式如下：

Gain(A)＝Info(S)-Info(S/A)

(4)计算属性因子A的分裂信息熵，并将其记为SplitInfo(A)，公式如下：

(5)根据属性因子A的信息增益和属性因子A的分裂信息熵计算属性因子A的信息增益率，并将其记为GainRs(A)，公式如下：

(6)待按照步骤(2)至步骤(5)计算出所有属性因子A的信息增益率后，以具有最大信息增益率的属性因子A作为最佳分组变量V_best，按照最佳分组变量V_best的k个取值而将训练样本集合S重新分成k组，生成决策树的k个分支；

(7)重复步骤(1)至步骤(6)，直至各分支继续分组不再有意义为止；由此构造出初始NOSHOW预测模型；

(8)定义将属于类别C_j的样本误判为类别C_i的误判成本值，并将其记为Cost(i,j)，若i＝j，则Cost(i,j)＝0；否则Cost(i,j)>0；

(9)定义将属于类别C_i的样本误判为其他类别样本的误判成本值，并将其记为C(i)，计算公式如下：

(10)定义样本属于类别C_i的权重值，并将其记为w(i)，计算公式如下：

(11)定义属于类别C_i的带权重值的样本数，并将其记为W_i，计算公式如下：

W_i＝w(i)n_i

(12)定义子集S_j中属于类别Ci的带权重值的样本数，并将其记为W_ij，计算公式如下：

Wij＝w(i)n_ij

为了区别对待不同误判的错误分类，对不同误判设定误判成本值，在计算属性因子的信息增益率时将误判情况考虑进去，即在计算信息熵和条件熵时，用W_i代替n_i，用Wi_j代替n_ij，即将概率p_i、pij更新为：

(13)从叶节点逐层向上，以最小子树为基本单位，计算其叶节点的错误率并计算根节点的错误率，若前者大于后者，则剪去该子树的分支，直至无需剪枝为止；

(14)用测试样本集合对上述NOSHOW预测模型进行验证分析，同时生成与NOSHOW相关的属性因子的量化结果.

在步骤三中，所述的从上述量化结果中提取与NOSHOW相关的强因子，采用Apriori算法对提取出来的强因子进行关联规则挖掘的方法是：

1)提取量化结果中的所有1-项集C₁作为候选集；

2)计算候选集C₁中所有1-项集的支持度Support_1i；

3)若支持度Support_1i>最小支持度阈值Min_Sup，则对应的1-项集进入频繁1-项集L₁，否则，进入否定项集NL₁，包含否定项集NL₁中1-项集的其它多项集将不再进入频繁项集；

4)令K＝1，K++，L_k-1*L_k-1组合产生候选k-项集C_k；

5)计算候选k-项集C_k中所有k-项集的支持度Support_ki；

6)若支持度Support_ki＞最小支持度阈值Min_Sup，则对应的k-项集进入频繁k-项集L_k，否则，进入否定项集NL_k，包含否定项集NL_k中k-项集的其它多项集将不再进入频繁项集；

7)若频繁项集L_k不为空，则重复步骤4)～6)，直至无法产生候选项集为止；

8)计算每个频繁项集L_k所有非空子集L_kj’的置信度Confidence_kj；

9)若置信度Confidence_kj>最小置信度阈值Min_Conf，则生成关联规则L_kj’—>(L_K-L_kj’)。

本发明提供的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法具有的优点和积极效果是：基于误判成本的C5.0算法构造NOSHOW预测模型，不仅降低高成本分类错误率，而且在运行速度和内存执行效率上得到了提高，生成的规则集更直观、更准确。同时，对影响NOSHOW的属性因子进行量化，得到了不同影响程度的量化结果，另外，通过对量化后的强因子进行进一步的挖掘，将影响NOSHOW程度大的属性因子(强因子)之间的隐含关系挖掘出来，从而为航空公司NOSHOW预测及收益提升管理提供有效的决策依据。

附图说明

图1为本发明提供的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法流程图。

图2为Cost(A)不同取值下训练样本分类错误率分布图。

图3为Cost(A)不同取值下测试样本分类错误率分布图。

图4为不同算法构建模型预测准确率对比图。

图5为不同算法构建模型用时对比图。

图6为不同算法构建模型分类错误率对比图。

图7为不同特征构造模型预测准确率对比图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并配合附图详细说明如下：

如图1所示，本发明提供的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法包括按顺序进行的下列步骤：

步骤一、收集民航旅客信息服务系统(PSS)产生的离港数据(CKI)，从中选取与NOSHOW相关的N项指标的数据作为属性因子集合，然后将其中的部分数据进行预处理，之后将上述由N项指标的数据组成的数据样本集合分成训练样本集合和测试样本集合；

具体步骤如下：

出于建模及关联规则挖掘需要，需要对其中的旅客年龄、起飞时间、到达时间、舱位等级数据进行离散化处理，其中对于舱位等级数据离散化处理是依照目前国航最新的舱位等级分布(豪华头等舱、头等舱、公务舱、超级经济舱、普通舱)进行的，由此完成这些数据的预处理。

具体步骤如下：

设训练样本＝<S,A,C>,其中S是训练样本集合，A是与NOSHOW相关的属性因子，即输入变量，C是IS_NOSHOW的类别，即输出变量；设训练样本集合S中有m个相互不同的类别C_i,i＝1,2,...m,n_i是训练样本集合S中属于类别C_i的样本数，属性因子A有V个取值：{a₁,a₂,...a_v}，将训练样本集合S分成多个子集{S₁,S₂,...S_v}.n_ij是子集S_j中类别C_i的样本数。

其中p_i为任意抽取样本属于类别C_i的概率，

(2)计算属性因子A的条件熵，并将其记为Info(S/A)，公式如下：

其中pi_j为子集S_j属于类别C_i的概率，

Gain(A)＝Info(S)-Info(S/A)

在构建NOSHOW预测模型时，将非NOSHOW旅客误判为NOSHOW旅客和将NOSHOW旅客误判为非NOSHOW旅客所造成的负面影响是绝对不等同的。相比之下，前者明显使航空公司承受更大的风险，带来更严重的后果。因此，在进行NOSHOW预测时，应当尽量避免将非NOSHOW旅客误判为NOSHOW旅客。

误判成本值是对某一种分类错误产生的后果严重性的反映。其值越高，说明误判的后果越严重，将不同的误判成本值以矩阵的形式展现出来，则形成了成本矩阵。成本矩阵显示了预测类别与实际类别每种可能组合的成本。因此，需设定不同的误判成本值，将高成本误判情况考虑进去，以此来优化上述初始NOSHOW预测模型；

W_i＝w(i)n_i

(12)定义子集S_j中属于类别Ci的带权重值的样本数，并将其记为Wij，计算公式如下：

Wij＝w(i)n_ij

(14)用测试样本集合对上述NOSHOW预测模型进行验证分析，同时生成与NOSHOW相关的属性因子的量化结果；

具体步骤如下：

1)提取量化结果中的所有1-项集C₁作为候选集；

2)计算候选集C₁中所有1-项集的支持度Support_1i；

4)令K＝1，K++，L_k-1*L_k-1组合产生候选k-项集C_k；

5)计算候选k-项集C_k中所有k-项集的支持度Support_ki；

实施例：

具体步骤如下：

根据专家经验及数据分析结果，选取15个与NOSHOW相关的属性因子：PSG_GENDER(旅客性别),PSG_AGE(旅客年龄),PSG_COUNTRY(旅客证件国籍),PSG_STARTINDEX(是否起始航站),SEG_DE_TIME(起飞时间),SEG_AR_TIME(到达时间),PSG_CHECKSTATUS(旅客值机状态),FTG_LEVEL(常旅客等级),SEG_CLASS(舱位等级),PSG_SEG_BRD_PRIORITYACCESS(旅客是否有优先),TKT_TICKETSTATUS(客票状态),PSG_DOCTYPE(旅客证件类型),TKK_TYPE(客票类型),PSG_TEAM(是否团队),PSG_BAGGAGE(携带行李信息)。

根据建模需要，对时间数据进行离散化处理，以SEG_DE_TIME为例，具体如下：

对PSG_AGE数据进行离散化处理，具体如下：

对SEG_CLASS数据进行离散化处理，具体如下：

为了方便决策树与关联规则表示，分别用A,B,...,P共16个英文字母分别表示上述15个属性因子及1个IS_NOSHOW决策属性因子，并分别用0,1,2,3,…15代表不同属性因子的分类，如C0代表国内,I0代表豪华头等舱。离散化后，由此得到用于建模的样本数据集合相关信息。

以IS_NOSHOW作为输出变量，以15个属性因子为输入变量进行决策树建模，采用保留法建立和评估模型，即把数据样本集合分为训练样本集合和测试样本集合两部分。在166224条样本记录中随机抽取约80％作为训练样本集合，其余作为测试样本集合对下述NOSHOW预测模型进行检验。

步骤二、对上述训练样本集合，采用优化C5.0决策树算法构造NOSHOW预测模型，用测试样本集合对NOSHOW预测模型进行验证分析，同时生成与NOSHOW相关的属性因子的量化结果。具体步骤如下：

根据C5.0决策树算法，将训练样本集合作为决策树的根节点，分别计算每一个属性因子的信息增益率GainRs。通过计算得到信息增益率GainRs最大的属性因子为PSG_CHECKINSTATUS，根据PSG_CHECKINSTATUS的两个取值ACC、DEL创建两个分支，依此将训练样本集合分成两个子集，生成的两个节点分支分别由E＝E0即PSG_CHECKINSTATUS＝ACC的样本构成的集合，以及由E＝E1即PSG_CHECKSTATUS＝DEL的样本构成的集合，接下来，针对每一个新的节点，重复以上步骤，直至无需剪枝为止，由此建立起初始NOSHOW预测模型，其预测结果如下表1、2所示：

表1初始NOSHOW预测模型对训练样本集合的预测结果

表2初始NOSHOW预测模型对测试样本集合的预测结果

将非NOSHOW旅客误判为NOSHOW旅客为A类错误即高成本错误，则A类错误率＝A类错误数/非NOSHOW旅客数；而将NOSHOW旅客误判为非NOSHOW旅客为B类错误即低成本错误，则B类错误率＝B类错误数/NOSHOW旅客数。在建模的过程中，应当尽量减少A类错误。

优化算法通过为高成本设定高误判成本值Cost，来降低产生此类错误的发生概率。设A类错误的成本值为Cost(A)，B类错误的成本值为Cost(B)。在C5.0决策树模型中，默认成本值Cost(B)为1，为了保证低成本，将成本值Cost(A)取1、2、3、4，进行多次实验，结果如图2、3所示。

从图2、图3中可以看到，随着成本值Cost(A)的不断增大，无论是训练样本集合还是测试样本集合，模型的总错误率是不断上升的，而A类错误率却呈现出下降的趋势。通过对比实验，可以很明显地看到，当成本值Cost(A)＝2时，不仅总错误率基本达标，而且A类错误率也降低，因此成本值Cost(A)＝2是相对比较合适的选择。

通过上述初始NOSHOW预测模型的优化，得到最终的NOSHOW预测模型，如下表3、4、5所示：

表3优化后NOSHOW预测模型对训练样本集合的预测结果

表4优化后NOSHOW预测模型对测试样本集合的预测结果

表5优化前后NOSHOW预测模型预测错误率对比

由表5可见，引入成本矩阵后，在训练样本集合中，NOSHOW预测模型的总错误率降低0.03％，A类错误率降低0.05％，即将初始NOSHOW预测模型中1191个误判旅客减半，而在测试样本集合中，NOSHOW预测模型的总错误率和A类错误率均有下降，特别是A类错误率从0.14％下降到0.08％。

步骤三、提取与NOSHOW相关的强因子，采用Apriori算法对提取出来的强因子进行关联规则挖掘；

具体步骤如下：

提取由决策树模型得到的对NOSHOW重要性大于0.1的属性项，以PSG_CHECKINSTATUS PSG_AGE SEG_CLASS PSG_GENDER FTG_LEVEL IS_DOMESTIC SEG_DE_TIMESEG_AR_TIME同时作为关联规则的前项跟后项，并将IS_NOSHOW加入后项，设定Apriori算法的最小支持度阈值为10％，最小置信度阈值为80％，经关联分析，共得到139条关联规则，有效事务数为166224，最小支持度为10.215％，最大支持度为93.627％，最小置信度为80.054％，最大置信度为100.0％，最小提升为0.981％，最大提升为2.124％。提取其中具有较高置信度和支持度的关联规则，具体见下表所示。

由上表，可得如下规则：

(1)到达时间为6—11点(G1)、起飞时间为6—11点(F1)，无常旅客等级(H8)的旅客中，有99.367％的旅客不会NOSHOW；

(2)到达时间为12—17点(G2)、起飞时间为6—11点(F1)、无常旅客等级(H8)的旅客中，有96.366％的旅客会购买普通舱(I4)。

为了验证本发明提供的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法的效果，本发明人设计以下两部分对比：1)本发明构建NOSHOW预测模型所用算法与现有NOSHOW预测模型所用算法预测准确率、构建模型用时、分类错误率对比2)本发明提取的特征构建模型与粗糙集提取的特征构建模型准确率对比。

具体步骤如下：

1)实验分别采用现有NOSHOW预测模型所用SVM、logistic回归、C4.5决策树、C5.0决策树算法对CKI数据进行模型构建，得到模型的预测准确率、用时、总错误率及A类错误率即高成本错误率对比，如图4、5、6所示。

由图4、图5可见，优化前后模型预测准确率提高了0.01％，模型构建用时均为2s。与传统SVM、logistic回归、C4.5决策树算法相比，模型预测准确率分别提高了4.48％、0.1％、0.03％，另外，模型构建用时分别降低了75s、6s、2.14s。因此，在民航旅客NOSHOW应用场景下，本发明方法，即优化C5.0决策树算法构建模型的预测准确率最高、模型构建用时最短。

由图6可见，优化前后模型的总分类错误率保持不变，但是A类错误率降低了0.06％，这是由于在模型构建时，将误判成本考虑在内。另外，与传统SVM、logistic回归、C4.5决策树算法相比，本发明方法构建的模型总错误率分别降低3.81％、0.05％、0.05％，而A类错误率分别降低了2.92％、0.07％、0.08％。因此，在民航旅客NOSHOW应用场景下，本发明方法构建模型总错误率、A类错误率均为最低。

因此，从效率和成本两方面分析，在民航旅客NOSHOW应用场景下，本发明方法构建模型用时最短、准确率最高、成本最低，即保证了NOSHOW预测模型的低成本、高效率。

2)传统粗糙集方法提取5个与NOSHOW相关的属性因子：PSG_AGE，SEG_AR_TIME，FTL_FFLOYALTYLEVEL，PSG_GENDER，SEG_STARTINED，而本发明方法构建模型时提取8个与NOSHOW相关的属性因子：PSG_CHECKSTATUS，PSG_COUNTRYTKT_INF，SEG_CLASS，PSG_AGE，TKK_TYPE，PSG_TEAM，FTG_LEVEL，SEG_DE_TIME，实验采用C4.5决策树、C5.0决策树、优化C5.0决策树算法分别对两种情况所提特征构建模型，并对模型的预测准确率进行对比，如图7所示。

由图7可得，实验对传统粗糙集方法提取出的特征属性分别采用C4.5、C5.0、优化C5.0决策树算法进行建模，得到其预测准确率分别为99.58％、99.58％、99.58％，而本发明方法中提取出来的特征建模得到的预测准确率分别为99.89％、99.87％、99.88％，明显高于前者，因此，本发明方法提取的特征构建模型效果更好。

综上所述，与现有的民航旅客NOSHOW预测相比，本发明首先采用了适用于大数据集的C5.0决策树算法进行初步建模，而后引入成本矩阵的概念，将高成本误判考虑在内，构建了低成本、高效率的NOSHOW预测模型。该模型最终产生非常直观、准确的规则集，该规则集可以为航空公司收益管理人员提供有效的决策依据，从而减少座位虚耗。

以上对本发明的实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法，其特征在于：所述的分析方法包括按顺序进行的下列步骤：

2.根据权利要求1所述的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法，其特征在于：在步骤一中，所述的收集民航旅客信息服务系统产生的离港数据，从中选取与NOSHOW相关的N项指标的数据作为属性因子集合，然后将其中的部分数据进行预处理，之后将上述由N项指标的数据组成的数据样本集合分成训练样本集合和测试样本集合的方法是：

3.根据权利要求1所述的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法，其特征在于：在步骤二中，所述的利用上述训练样本集合，采用优化C5.0决策树算法构造NOSHOW预测模型，用测试样本集合对NOSHOW预测模型进行验证分析，同时生成与NOSHOW相关的属性因子的量化结果的方法是：

其中p_i为任意抽取样本属于类别C_i的概率，

(2)计算属性因子A的条件熵，并将其记为Info(S/A)，公式如下：

其中p_ij为子集S_j属于类别C_i的概率，

Gain(A)＝Info(S)-Info(S/A)

W_i＝w(i)n_i

W_ij＝w(i)n_ij

为了区别对待不同误判的错误分类，对不同误判设定误判成本值，在计算属性因子的信息增益率时将误判情况考虑进去，即在计算信息熵和条件熵时，用W_i代替n_i，用W_ij代替n_ij，即将概率p_i、p_ij更新为：

(14)用测试样本集合对上述NOSHOW预测模型进行验证分析，同时生成与NOSHOW相关的属性因子的量化结果。

4.根据权利要求1所述的基于优化C5.0和Apriori的NOSHOW预测及强因子分析方法，其特征在于：在步骤三中，所述的从上述量化结果中提取与NOSHOW 相关的强因子，采用Apriori算法对提取出来的强因子进行关联规则挖掘的方法是：

1)提取量化结果中的所有1-项集C₁作为候选集；

2)计算候选集C₁中所有1-项集的支持度Support_1i；

4)令K＝1，K++，L_k-1*L_k-1组合产生候选k-项集C_k；

5)计算候选k-项集C_k中所有k-项集的支持度Support_ki；