CN112308319B

CN112308319B - 一种民航会员旅客流失的预测方法及装置

Info

Publication number: CN112308319B
Application number: CN202011203093.XA
Authority: CN
Inventors: 吴新宇
Original assignee: Shenyang Ne Cares Co ltd
Current assignee: Shenyang Ne Cares Co ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2024-03-15
Anticipated expiration: 2040-11-02
Also published as: CN112308319A

Abstract

本申请公开了一种民航会员旅客流失的预测方法及装置，获取待测会员旅客当前预设时间段内所产生的行为数据，从行为数据中提取各个特征变量，构建待测样本。将待测样本输入预先构建的预测模型中，得到预测模型的输出结果，预设标签用于指示，样本会员旅客在预设时间段的下一过去时间段内流失或未流失。输出结果指示待测会员旅客的流失概率。基于预测模型预测待测会员旅客的流失概率，无需对待测会员旅客的行为进行分析，效率明显提高。此外，从待测会员旅客的行为数据中提取特征变量，并对特征变量进行数据降维处理，数据降维处理后的特征变量所指示的数值，相较于原有行为数据所指示的字段，更具有科学性和说服力，预测模型的预测结果更加可靠。

Description

一种民航会员旅客流失的预测方法及装置

技术领域

本申请涉及民航技术领域，尤其涉及一种民航会员旅客流失的预测方法及装置。

背景技术

在激烈的市场竞争中，航空公司面临着会员流失、会员旅客不活跃等问题。就航空公司而言，会员流失是指会员旅客在一定时间内不再乘坐该航空公司航班、或者注销会员卡等行为。

会员旅客流失是一个受技术、市场、季节、文化和监管等诸多因素影响的非线性混沌系统。会员旅客和航空公司之间的关系越长久，给航空公司带来的利益就会越高，反之，会员旅客的流失，就会对航空公司造成巨大损失。为了避免会员旅客流失，需要时刻关注会员旅客的行为，并对其行为进行分析预测。

现有技术中，对会员旅客的行为进行人工分析预测，需要耗费大量人力物力，效率也较为低下。并且，人工预测的结果大多凭借主观经验所得，缺乏合理性和说服力，准确性较差。

发明内容

本申请提供了一种民航会员旅客流失的预测方法及装置，目的在于提高民航会员旅客的流失预测结果的准确性。

为了实现上述目的，本申请提供了以下技术方案：

一种民航会员旅客流失的预测方法，包括：

获取待测会员旅客当前预设时间段内所产生的行为数据，所述行为数据用于指示所述待测会员旅客的个人信息、航班信息、航班变更信息、以及行为变更信息；

从所述行为数据中提取各个特征变量，构建待测样本；所述特征变量包括直接特征变量和间接特征变量，所述直接特征变量基于所述个人信息和所述行为变更信息单独提取得到，所述间接特征变量基于所述航班信息和所述航班变更信息联合提取得到；

将所述待测样本输入预先构建的预测模型中，得到所述预测模型的输出结果；其中，所述预测模型基于样本会员旅客在过去预设时间段内所产生的所述行为数据、所述样本会员旅客的预设标签、以及预设模型训练得到；所述预设标签用于指示，所述样本会员旅客在所述过去预设时间段的下一过去时间段内流失或未流失；所述输出结果用于指示，所述待测会员旅客的流失概率。

可选的，所述从所述行为数据中提取各个特征变量，构建待测样本，包括：

从所述行为数据中提取各个特征变量；

对各个所述特征变量进行数据降维处理；

集合数据降维处理后的各个所述特征变量，构建所述待测样本。

可选的，所述对各个所述特征变量进行数据降维处理，包括：

针对每个所述特征变量，依据所述特征变量所指示的各个特征值，计算得到信息熵，将所述信息熵作为所述特征变量的离散特征；

计算各个所述离散特征所包含的证据权重；

统计各个所述离散特征所包含的所述证据权重的拐点个数；

针对每个所述离散特征，判断所述拐点个数是否大于预设第一阈值；

在所述拐点个数大于所述第一预设阈值的情况下，删除所述离散特征；

在所述拐点个数不大于所述第一预设阈值的情况下，利用所述证据权重充当所述离散特征；

所述集合数据降维处理后的各个所述特征变量，构建所述待测样本，包括：

集合各个目标离散特征，构建所述待测样本；其中，所述目标离散特征为，所述拐点个数不大于所述第一预设阈值的所述离散特征。

可选的，所述集合各个目标离散特征，构建所述待测样本，包括：

计算两两所述目标离散特征之间的相关性；

判断两两所述目标离散特征之间的所述相关性是否大于第二预设阈值；

在两两所述目标离散特征之间的所述相关性大于所述第二预设阈值的情况下，计算两两所述目标离散特征的信息价值；

比较两两所述目标离散特征的信息价值，并依据比较结果，删除第一目标离散特征，保留第二目标离散特征；其中，所述第一目标离散特征的信息价值，小于所述第二目标离散特征的信息价值；所述第一目标离散特征和所述第二目标离散特征共同组成两两所述目标离散特征，所述第一目标离散特征和所述第二目标离散特征均为各个所述目标离散特征中的任意一个；

集合所述第二目标离散特征，构建所述待测样本；

在两两所述目标离散特征之间的所述相关性不大于所述第二预设阈值的情况下，集合两两所述目标离散特征，构建所述待测样本。

可选的，所述将所述待测样本输入预先构建的预测模型中，得到所述预测模型的输出结果，包括：

获取所述待测会员旅客的民航会员等级；

依据所述民航会员等级与所述预测模型之间的预设对应关系，将所述待测样本输入目标预测模型中，得到所述目标预测模型的输出结果；其中，所述目标预测模型为，与所述待测会员旅客的所述民航会员等级对应的所述预测模型；所述预测模型构建过程中所使用的训练样本，来源于对应的所述民航会员等级内的所述样本会员旅客在所述过去预设时间段内所产生的所述行为数据。

可选的，所述预测模型的构建过程包括：

从所述样本会员旅客在所述过去预设时间段内所产生的所述行为数据中，提取各个样本特征变量；

对各个所述样本特征变量进行数据降维处理；

集合数据降维处理后的各个所述样本特征变量，构建训练样本；

将所述训练样本输入至所述预设模型，获得所述训练样本的预测结果，并基于所述预测结果和所述样本会员旅客的所述预设标签，利用所述预设模型的损失函数训练调整所述预设模型的参数，得到所述预测模型；其中，所述预测结果用于指示所述样本会员旅客在所述预设时间段的下一时间段内流失或者未流失。

可选的，所述预设模型包括预设的基于遗传算法的模型参数组优化模块；

其中，所述基于遗传算法的模型参数组优化模块用于，利用遗传算法调整所述预设模型的预设超参数；

利用遗传算法调整所述预设模型的预设超参数包括：

针对所述预设超参数，建立表现型和映射型的映射关系，并从所述预设模型的训练样本中选取多个离散特征构建初始种群；其中，所述离散特征为对所述特征变量进行数据降维处理后所得到；

重复执行预设步骤，直至完成预设的迭代次数，输出所述预设超参数的当前取值；

所述预设步骤包括：

调用预设的适应度函数，对种群中的每个所述离散特征进行适应度评估，得到每个所述离散特征的适应度值；

遍历每个所述离散特征，判断所述适应度值是否大于预设阈值；

若所述适应度值大于所述预设阈值，保留所述离散特征；

若所述适应度值不大于所述预设阈值，删除所述离散特征；

依据所述适应度值从高至低的顺序，对保留的各个所述离散特征进行排序，从序列中选取前预设数量个所述离散特征作为父代，并删除其余所述离散特征；

两两所述父代交叉繁殖，生成各个子代；

从各个所述子代中选取任意一个所述子代进行突变；

集合所述父代与突变后的所述子代，组建新的种群。

一种民航会员旅客流失的预测装置，包括：

获取单元，用于获取待测会员旅客当前预设时间段内所产生的行为数据，所述行为数据用于指示所述待测会员旅客的个人信息、航班信息、航班变更信息、以及行为变更信息；

构建单元，用于从所述行为数据中提取各个特征变量，构建待测样本；所述特征变量包括直接特征变量和间接特征变量，所述直接特征变量基于所述个人信息和所述行为变更信息单独提取得到，所述间接特征变量基于所述航班信息和所述航班变更信息联合提取得到；

预测单元，用于将所述待测样本输入预先构建的预测模型中，得到所述预测模型的输出结果；其中，所述预测模型基于样本会员旅客在过去预设时间段内所产生的所述行为数据、所述样本会员旅客的预设标签、以及预设模型训练得到；所述预设标签用于指示，所述样本会员旅客在所述过去预设时间段的下一过去时间段内流失或未流失；所述输出结果用于指示，所述待测会员旅客的流失概率。

一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行所述的民航会员旅客流失的预测方法。

一种民航会员旅客流失的预测设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的民航会员旅客流失的预测方法。

本申请提供的技术方案，获取待测会员旅客当前预设时间段内所产生的行为数据，从行为数据中提取各个特征变量，构建待测样本。构建待测样本。将待测样本输入预先构建的预测模型中，得到预测模型的输出结果，其中，预测模型基于样本会员旅客在过去预设时间段内所产生的行为数据、样本会员旅客的预设标签、以及预设模型训练得到。预设标签用于指示，样本会员旅客在过去预设时间段的下一过去时间段内流失或未流失。输出结果用于指示，待测会员旅客的流失概率。基于预测模型预测待测会员旅客的流失概率，无需对待测会员旅客的行为进行分析，效率明显提高。此外，从待测会员旅客的行为数据中提取特征变量，并对特征变量进行数据降维处理，数据降维处理后的特征变量所指示的数值，相较于原有行为数据所指示的字段，更具有科学性和说服力，使得预测模型的预测结果更加可靠。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种民航会员旅客流失的预测方法的示意图；

图1b为本申请实施例提供的另一种民航会员旅客流失的预测方法的示意图；

图2为本申请实施例提供的一种利用遗传算法调整xgboost模型参数的方法的示意图；

图3为本申请实施例提供的另一种民航会员旅客流失的预测方法的示意图；

图4为本申请实施例提供的一种民航会员旅客流失的预测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1a和图1b所示，为本申请实施例提供的一种民航会员旅客流失的预测方法的示意图，包括如下步骤：

S101：从民航旅客数据库中提取不同民航会员等级内各个会员旅客，在过去预设时间段内所产生的行为数据，并为各个会员旅客设置标签。

其中，民航旅客在办理民航会员时，会预先按照自身条件申请民航会员等级，例如，银卡、金卡和白金卡(白金卡等级最高，其次为金卡，最后为银卡)。不同等级的会员旅客，在民航飞行消费上的行为会有所偏差，例如，白金卡的会员旅客更多消费的是国际航班，银卡的会员旅客更多消费的是国内航班，国际航班的飞行里程远远大于国内航班的飞行里程。

需要说明的是，会员旅客在过去预设时间段内所产生的行为数据，具体来源为：会员旅客在过去预设时间段内，以民航会员的身份购买机票、前往登录航班进行飞行过程中所记录的各项信息。过去预设时间段具体所指示的时间点，可由技术人员根据实际情况进行设置，例如，时间段的时长设为一年，过去预设时间段设为前5年内。

会员旅客的行为数据包括但不限于：旅客编号、会员卡等级、会员卡办理时间、旅客年龄、旅客性别、航班的起飞日期、起飞日期是否为节假日、航班的起飞时间、航班舱位、航班的值机时间、航班的订票时间、航班的出发地、航班的目的地、航班的机票价格、航班的飞行里程、航班的机票折扣、旅客是否办理退票、旅客是否办理改签、航班是否晚点、旅客是否在贵宾休息室休息、旅客是否经由快速安检进行安检、以及旅客是否由接送机进行接送22个信息项。

此外，为各个会员旅客设置标签的具体实现过程包括但不限于为：判断会员旅客在过去预设时间段的下一个过去时间段内，是否购买民航机票、以及注销民航会员；若会员旅客在过去预设时间段的下一个过去时间段内，没有购买民航机票、或者注销了民航会员，则确定会员旅客流失，为会员旅客设置第一标签，第一标签指示会员旅客流失；若会员旅客在过去预设时间段的下一个过去时间段内，有购买民航机票、且未注销民航会员，则确定会员旅客未流失，为会员旅客设置第二标签，第二标签指示会员旅客未流失。

在本实施例中，第一标签和第二标签可以为具体的数值，例如，第一标签取值为1，第二标签取值为0。

S102：从行为数据所指示的信息项中提取各个特征变量。

其中，从航班的起飞日期信息项、以及起飞日期是否为节假日信息项中提取的特征变量包括但不限于：节假日出行次数、工作日出行次数、周末出行次数、以及工作日出行次数与周末出行次数的比值。

从航班的起飞时间信息项中提取的特征变量包括但不限于：航班在02:00-08:00内的起飞次数、航班在08:00-14:00内的起飞次数、航班在14:00-20:00内的起飞次数、以及航班在20:00-02:00内的起飞次数。

从航班舱位信息项中提取的特征变量包括但不限于：头等舱次数、商务舱次数、高端经济舱次数、以及经济舱次数。

从航班的值机时间信息项、以及航班的起飞时间信息项中提取的特征变量包括但不限于：值机时间与起飞时间的平均间隔、值机时间与起飞时间的最大间隔、值机时间与起飞时间的最小间隔、值机时间与起飞时间的极差(即值机时间与起飞时间最大间隔与最小间隔之间的差距，用于反映值机时间与起飞时间之间的离散程度)、值机时间与起飞时间的相对极差(即值机时间与起飞时间的极差的相对值，换而言之，极差与值机时间与起飞时间的平均间隔的百分比值)、以及值机时间与起飞时间的变异系数(即值机时间与起飞时间的间隔的标准差与平均间隔的比值，用于反映值机时间与起飞时间之间的离散程度)。

从航班的订票时间信息项、以及航班的起飞时间信息项中提取的特征变量包括但不限于：订票时间与起飞时间的平均间隔、订票时间与起飞时间的最大间隔、订票时间与起飞时间的最小间隔、订票时间与起飞时间的极差(即订票时间与起飞时间最大间隔与最小间隔之间的差距，用于反映订票时间与起飞时间之间的离散程度)、订票时间与起飞时间的相对极差(即订票时间与起飞时间的极差的相对值，换而言之，极差与订票时间与起飞时间的平均间隔的百分比值)、以及订票时间与起飞时间的变异系数(即值机时间与起飞时间的间隔的标准差与平均间隔的比值，用于反映订票时间与起飞时间之间的离散程度)。

从航班的订票时间信息项中提取的特征变量包括但不限于：出行时间的平均间隔、最近一次出行时间的间隔、出行时间间隔的极差(即出行时间最大间隔与最小间隔之间的差距，用于反映出行时间的离散程度)、出行时间间隔的相对极差(即出行时间间隔的极差的相对值，换而言之，极差与出行时间的平均间隔的百分比值)、出行时间间隔的变异系数(即出行时间的间隔的标准差与平均间隔的比值，用于反映出行时间的离散程度)。

从航班的出发地信息项、以及航班的目的地信息项中提取的特征变量包括但不限于：总航线数量、不同航线数量、以及高频航线数量。

从航班的机票价格信息项中提取的特征变量包括但不限于：机票总价格、机票平均价格、单程最贵机票价格、单程最低机票价格、机票价格的极差(即单程最贵机票价格与单程最低机票价格之间的差距，用于反映机票价格的离散程度)、机票价格的相对极差(即机票价格的极差的相对值，换而言之，极差与机票平均价格的百分比值)、以及机票价格的变异系数(机票价格的标准差与机票平均价格的比值，用于反映机票价格的离散程度)。

从航班的飞行里程信息项中提取的特征变量包括但不限于：总里程数、平均里程数、单程最大里程数、单程最小里程数、里程数的极差(即单程最大里程数与单程最小里程数之间的差距，用于反映单程里程数的离散程度)、里程数的相对极差(即里程数的极差的相对值，换而言之，极差与平均里程数的百分比值)、以及里程数的变异系数(即单程里程数的标准差与平均里程数的比值，用于反映单程里程数的离散程度)。

从会员卡办理时间信息项中提取的特征变量包括但不限于：会员时长。

从航班的机票折扣信息项中提取的特征变量包括但不限于：折扣总次数。

从旅客是否办理退票信息项中提取的特征变量包括但不限于：退票次数。

从旅客是否办理改签信息项中提取的特征变量包括但不限于：改签次数。

从航班是否晚点信息项中提取的特征变量包括但不限于：晚点次数。

从旅客是否在贵宾休息室休息信息项中提取的特征变量包括但不限于：旅客在贵宾室的休息次数。

从旅客是否经由快速安检进行安检信息项中提取的特征变量包括但不限于：旅客进行快速安检的次数。

从旅客是否由接送机进行接送信息项中提取的特征变量包括但不限于：安排接送机服务旅客的次数。

将旅客编号信息项、会员卡等级信息项、旅客年龄信息项、以及旅客性别信息项各自所指示的字段，直接作为特征变量。

S103：集合各个特征变量、以及标签，构建会员旅客的特征数据。

具体的，会员旅客的特征数据为O＝{x₁,x₂,x₃...x_n,y}，其中，x_n代表特征变量，每个特征变量包括多个特征值(以平均里程数据为例，时间段的时长设为1星期，过去预设时间段设为前5年内，则会员旅客在前5年内所产生的平均里程数包括0,0,11,23,…,45共计55个数值，则这55个数值便作为特征值)，n为特征变量的索引，y代表标签，O代表任意一个会员旅客样本。

S104：集合各个会员旅客的特征数据，构建会员旅客样本集合。

具体的，会员旅客样本集合为P＝{O₁,O₂,O₃...O_m}，其中，m代表会员旅客的索引，m为会员旅客样本的索引。

S105：按照预设比例，从会员旅客样本集合中，选取正向样本和负向样本。

其中，正向样本为，设置有第一标签的会员旅客(即流失会员)的特征数据。负向样本为，设置有第二标签的会员旅客(即未流失会员)的特征数据。

需要说明的是，为了避免因正负向样本选取不均而造成后续模型训练出现偏差，故按照1:1的比例，从会员旅客样本集合中，选取正向样本和负向样本。

S106：对目标样本中所包含的各个特征变量进行离散化，得到各个离散特征。

其中，目标样本包括正向样本和负向样本。

在本实施例中，除旅客性别的特征变量(旅客性别对应的特征变量为字符字段，例如，“男”和“女”)之外，其余信息项的特征变量皆为数值字段(例如，旅客年龄为“33”)。因此，采取one-hot转换(一种现有的离散化方法)，对旅客性别的特征变量进行离散化，并采取信息熵(一种现有的离散化方法)，对其余信息项的特征变量进行离散化(即依据特征变量所指示的各个特征值，计算得到信息熵，并将信息熵作为特征变量的离散特征)。

需要说明的是，信息熵的计算过程如公式(1)所示。

E＝∑-p_i*log₂p_i (1)

在公式(1)中，

E代表信息熵，即离散特征；

p代表特征变量中任意一个特征值的出现次数与特征值总数量的比值；

i为特征变量所指示的各个特征值的索引，以平均里程数为例，会员旅客在过去预设时间段内所产生的平均里程数包括0,0,11,23,…45共计55个特征值，则i为55个特征值的索引。

需要说明的是，在本实施例中，针对目标样本中的每个特征变量，都利用公式(1)计算每个特征变量的信息熵，得到相应的离散特征，离散特征包括离散化后的特征值。

S107：计算各个离散特征所包含的证据权重(Weight Of Evidence，WOE)。

其中，所谓的证据权重WOE，就是离散特征的一种具体编码形式，编码后的离散特征能够被分类模型所识别。在本实施例中，WOE的计算过程如公式(2)所示。

在公式(2)中，

i为离散特征(即信息熵)的取值范围(下述提及的取值范围，都特指离散特征的取值范围)的索引，以平均里程数为例，特征变量所指示的特征值有55个，依据这55个特征值计算得到信息熵，将信息熵作为离散特征，离散特征的取值分别映射至0-100、100-200、200-500、以及500-∞这4个取值范围内；

py代表在任意一个取值范围内，设置有第一标签的会员旅客(即流失会员)的数量与样本总数量的比值；

样本总数量代表在任意一个取值范围内，正向样本和负向样本的数量总和；

pn代表在任意一个取值范围内，设置有第二标签的会员旅客(即未流失会员)的数量与样本总数量的比值。

具体的，以平均里程数为例，正向样本100个，负向样本100个，正向样本和负向样本的各项信息如表1所示。

表1

离散化后的平均里程数	流失会员数量	未流失会员数量	样本总数量
				0-100	45	10	55
100-200	35	20	55
				200-500	15	30	45
500-∞	5	40	45
				合计	100	100	200

经由公式(2)计算得到平均里程数的离散特征所包含的WOE如下所示，在0-100的取值范围内，WOE为ln(45/10)；

在100-200的取值范围内，WOE为ln(35/20)；

在200-500的取值范围内，WOE为ln(15/30)；

在500-∞的取值范围内，WOE为ln(5/40)。

需要说明的是，上述具体实现过程仅仅用于举例说明。

S108：统计各个离散特征所包含的WOE的拐点个数。

其中，计算离散特征所包含的WOE的拐点个数的具体实现原理为：计算相邻两个取值范围内的WOE之间的差值，如果差值的符号不发生变化(即前者大于后者、或者后者大于前者)拐点个数记为0，如果差值的符号发生变化，则拐点个数增加1个计数单位，以此类推，直至所有取值范围内的WOE计算完成。

S109：针对每个离散特征，判断其所包含的WOE的拐点个数是否大于第一预设阈值。

若拐点个数大于第一预设阈值，则执行S110，否则执行S111。

S110：删除离散特征。

其中，离散特征所包含的WOE的拐点个数越多，则代表离散特征与标签之间的关系越复杂，越复杂的关系越容易产生过拟合，因此，需要删除离散特征。

S111：利用WOE充当离散特征。

在实际应用中，对于离散特征而言，利用WOE可以观察各个级别(即离散特征的取值范围)之间的跳转概率是否呈线性变化，可以有效处理特征变量中的缺失值，可以有效处理特征变量中的异常值，从而实现对会员旅客的特征数据的数据降维处理。

S112：集合各个目标离散特征，并计算两两目标离散特征之间的相关性。

其中，目标离散特征为，拐点个数不大于第一预设阈值的离散特征。两两目标离散特征之间的相关性的计算过程如公式(3)所示。

在公式(3)中，

r代表两两目标离散特征之间的相关性，例如，平均里程数与机票平均价格之间的相关性；

X代表一种目标离散特征，例如平均里程数；

Y代表另一种目标离散特征，例如机票平均价格；

Cov代表协方差；

Var代表方差。

S113：判断两两目标离散特征之间的相关性是否大于第二预设阈值。

若两两目标离散特征之间的相关性大于第二预设阈值，则执行S114，否则执行S115。

S114：计算两两目标离散特征的信息价值(Information Value，IV)，比较两两目标离散特征的IV，并依据比较结果，删除第一目标离散特征，保留第二目标离散特征。

其中，在使用逻辑回归、决策树(本实施例所述的xgboost模型属于决策树中的一种类型)等模型方法构建分类模型时，需要对自变量(即离散特征)进行筛选，从众多的自变量中挑选合适的自变量，作为模型的训练输入，因此，在挑选合适的自变量过程中，需要参考量化指标(例如信息增益、基尼系数、以及信息价值等)来衡量每个自变量的预测能力，并根据量化指标的大小，确定合适的自变量，在本实施例中，采用信息价值IV作为量化指标，具体的，IV的计算过程如公式(4)所示。

IV_i＝(py_i-pn_i)*WOE_i (4)

需要说明的是，公式(4)中各个参数的含义与上述公式(2)的解释说明一致，这里不再赘述。

具体的，以上述表1示出的内容为例，经由公式(4)计算目标离散特征的IV如下所示，

在0-100的取值范围内，IV为

在100-200的取值范围内，IV为

在200-500的取值范围内，IV为

在500-∞的取值范围内，IV为

最后，统计上述4个IV的总和，得到目标离散特征的IV，IV的具体数值大小为0.63*ln4.5+0.27*ln1.75-0.3*ln0.5-0.8*ln0.125。

需要说明的是，上述具体实现过程仅仅用于举例说明。

需要强调的是，第一目标离散特征的IV，小于第二目标离散特征的IV。第一目标离散特征和第二目标离散特征共同组成两两目标离散特征，第一目标离散特征和第二目标离散特征均为各个目标离散特征中的任意一个。删除第一目标离散特征，保留第二目标离散特征，能够避免两两目标离散特征之间产生过拟合。

S115：利用保留下来的目标离散特征替换目标样本中的特征变量。

S116：将目标样本输入至预设的xgboost模型，获得目标样本的预测结果(用于指示会员旅客在过去预设时间段的下一过去时间段内流失或未流失)，并基于预测结果和目标样本所指示的标签，利用xgboost模型的损失函数训练调整xgboost模型的参数，得到预测模型。

其中，xgboost模型属于监督学习模型，是一种灵活且可移植的最佳分布式决策梯度提升机器学习方法。xgboost模型的实现原理是：首先使用训练集(本实施例中具体指的是目标样本)和样本真值(本实施中具体指的是标签)训练一棵回归树，然后使用这棵树预测训练集，得到每个样本的预测值(本实施例中具体指的是预测结果)，由于预测值与样本真值存在偏差，所以二者相减可以得到残差；接下来训练第二棵树，此时不再使用样本真值，而是使用残差作为标准答案；两棵树训练完成后，可以再次得到每个样本的残差，然后进一步训练第三棵树，以此类推。回归树的总棵数可以人为指定，也可以通过监控预设的指标(例如验证集上的误差)停止训练。在预测新样本时，每棵树都会有一个输出值，将这些输出值相加，即得到样本最终的预测值。

然而，在训练得到预测模型的时候，xgboost模型中的个别参数需要进行调整和优化，否则无法保证预测模型的预测精度。在实际应用中，现有的调整优化xgboost模型参数组的方法为依据既往经验设置，并通过预测结果来进行人为调整。为了能够极大提升预测模型的预测精度，避免预测模型因目标样本所具有的大样本、多特征、以及个别特征缺失等特点，而无法找到合适的参数致使预测精度降低的问题出现。为此，本实施例预先为xgboost模型设置了一种基于遗传算法的xgboost参数组优化模块，该模块能够自适应调整优化xgboost模型的参数，保证最终训练得到的预测模型具备较高的预测精度。

所谓的遗传算法，其核心原理为：依据“适者生存”的思想，预先随机产生多个个体(本实施例中具体指的是目标离散特征)，根据预定的目标函数对每个个体进行评估，得到一个适应度值，基于适应度值，选择合适的个体进行交叉和变异，将交叉结果和变异结果组合成新的一代，同时淘汰掉不合适的个体，由于新一代个体继承了上一代的优良性状，因此新一代个体的性能也优于上一代个体，xgboost模型的参数也就逐步向最优解靠近。

具体的，利用基于遗传算法的xgboost参数组优化模块，构建预测模型的具体实现过程为：

1、预先选择xgboost模型所使用的参数组。

其中，参数组的引入使得xgboost模型可以改变自己的预测标准，不同的参数组可以很好的解决不同场景和不同数据集(本实施例中具体指的是目标样本)下的预测问题。xgboost参数组通常包括有对模型性能影响比较大的7个超参数，分别是学习率(learningRate)、基分类器个数(nEstimators)、最大深度(maxDepth)、叶结点最小权重(minChildWeight)、结点分裂系数(gammaValue)、随机采样比例(subSample)、以及随机采样列数占比(colSampleByTree)。

2、构建基于遗传算法的xgboost模型参数组优化模块。

其中，基于遗传算法的xgboost模型参数组优化模块，利用遗传算法调整xgboost模型参数的具体实现方式，可以参见下述图2示出的步骤、以及步骤的解释说明。

3、按照预设占比，将目标样本划分为第一目标样本、第二目标样本、以及第三目标样本。

其中，预设占比的具体取值可由技术人员根据实际情况进行设置，例如，预设占比可以为7:1:2，即第一目标样本占目标样本总体的7/10，第二目标样本占目标样本总体的1/10，第三目标样本占目标样本总体的2/10。

4、将第一目标样本作为目标xgboost模型的训练集(用于训练模型，使模型学习分类规则)，对目标xgboost模型进行训练，得到预测模型，将第二目标样本作为预测模型的验证集(用于模型的参数调优)，对预测模型进行验证，将第三目标样本作为预测模型的测试集(用于模型的性能评估)，对预测模型进行测试。

其中，目标xgboost模型具体指的是，设置有基于遗传算法的xgboost模型参数组优化模块的xgboost模型。利用训练集对xgboost模型进行训练、利用验证集对预测模型进行验证、以及利用测试集对预测模型进行测试的具体实现过程，为本领域技术人员所熟悉的公知常识，这里不再赘述。

在实际应用中，预测模型预测精度的评估项包括：

查准率(precision)：

召回率(recall)：

准确率(accuracy)：

F1-分数：

在上述公式(5)、(6)、(7)和(8)中，

k代表目标xgboost模型迭代训练次数的索引；

TP(True Positive)代表将实际为正向样本预测为正样例的个数；

TN(False Positive)代表将实际为负向样本预测为负样例的个数；

FP(False Positive)代表将实际为正向样本预测为负样例的个数；

FN(False Negative)代表将实际为负向样本预测为正样例的个数；

正样例代表设置有第一标签的会员旅客；

负样例代表设置有第二标签的会员旅客。

由于本实施例所述的预测模型，主要用于预测会员旅客未来时间是否流失，属于二分类问题，为此，可以采用F1-分数(F1-score)作为衡量预测模型好坏的指标。由于F1-分数的取值范围为0-1，因此，F1-分数越趋近于1，则代表预测模型越好。

需要说明的是，基于遗传算法的xgboost参数组优化模块，构建得到的预测模型，相较于根据既往经验人为调整xgboost模型参数所构建得到的预测模型，其预测精度明显更好。

S117：依据民航会员等级与预测模型的对应关系，为各个预测模型添加等级标识。

其中，预测模型构建过程中所使用的训练样本，来源于对应的民航会员等级内的样本会员旅客在过去预设时间段内所产生的行为数据。

需要说明的是，针对不同等级的民航会员，构建不同等级的预测模型，能够有针对性地对民航会员进行重点关注，例如，白金卡等级的民航会员相较于其他等级的民航会员，流失倾向较高、且为民航的重要客户，需要重点关注。

S118：获取待测会员旅客当前预设时间段内所产生的行为数据，从行为数据中提取各个特征变量，依据上述S107-S114对各个特征变量进行数据降维处理，得到多个目标离散特征，集合多个目标离散特征组建待测样本。

其中，每个目标离散特征都包含有WOE，基于WOE自身的编码特性，利用WOE替代特征变量中原有的特征值，能够有效减少预测模型的运算时间和空间开销，提高预测模型对待测样本的分类聚类能力和抗噪声能力。

S119：将待测样本输入至与待测会员旅客的民航会员等级对应的预测模型中，得到预测模型的输出结果。

其中，预测模型的输出结果用于指示，待测会员旅客的流失概率。

需要说明的是，流失概率的取值范围为0-1，流失概率的取值越趋近于1，则表示待测会员旅客在未来时间内流失的概率越大。

综上所述，获取待测会员旅客当前预设时间段内所产生的行为数据，从行为数据中提取各个特征变量，构建待测样本。将待测样本输入预先构建的预测模型中，得到预测模型的输出结果，其中，预测模型基于样本会员旅客在过去预设时间段内所产生的行为数据、样本会员旅客的预设标签、以及预设模型训练得到。预设标签用于指示，样本会员旅客在预设时间段的下一过去时间段内流失或未流失。输出结果用于指示，待测会员旅客的流失概率。基于预测模型预测待测会员旅客的流失概率，无需对待测会员旅客的行为进行分析，效率明显提高。此外，从待测会员旅客的行为数据中提取特征变量，并对特征变量进行数据降维处理，数据降维处理后的特征变量所指示的数值，相较于原有行为数据所指示的字段，更具有科学性和说服力，使得预测模型的预测结果更加可靠。

如图2所示，为本申请实施例提供的一种利用遗传算法调整xgboost模型参数的方法的示意图，包括如下步骤：

S201：针对xgboost模型预设参数组中的7个超参数，分别建立表现型和基因型的映射关系，并从xgboost模型的训练样本中随机选择多个离散特征构建初始种群。

其中，表现型和基因型为遗传算法中的专业术语，建立表现型和基因型的映射关系的具体实现过程，为本领域技术人员所熟悉的公知常识，这里不再赘述。离散特征为，对训练样本中的特征变量进行数据降维处理后所得到。

需要说明的是，在初始种群的构建过程中，还需定义遗传算法的参数，具体的，将初始种群的数量设为q(q为正整数)，将遗传算法的迭代次数设为z，将被优化的个体(具体指的是将被优化的离散特征)的数量设为w，将每代所需保留的个体的数量设为q/2。

S202：调用预设的适应度函数，对种群中的每个离散特征进行适应度评估，得到每个离散特征的适应度值。

其中，本实施例中所采用的适应度函数为F1-score的计算公式，即采用公式(8)，计算每个离散特征的F1-score，并将F1-score作为离散特征的适应度值。

S203：遍历每个离散特征，判断适应度值是否大于预设阈值。

若适应度值大于预设阈值，则执行S204，否则执行S205。

S204：保留离散特征。

S205：删除离散特征。

S206：依据适应度值从高至低的顺序，对保留的各个离散特征进行排序，从序列中选取前s个离散特征作为父代，并删除其余离散特征。

其中，s的取值为保留的各个离散特征数目的1/2，例如，保留的各个离散特征的数目为50，则s的取值为25。

S207：两两父代交叉繁殖，生成各个子代。

其中，交叉繁殖的分布需符合预设分布要求，预设分布要求为：第一父代与第三父代交叉繁殖，第二父代与第四父代交叉繁殖，以此类推，第t父代与第t+2父代交叉繁殖，第一父代、第二父代、第三父代、第四父代、第t父代、以及第t+2父代为在序列中依次排序，t为大于4的正整数。

S208：从各个子代中随机选取一个子代进行突变。

其中，对子代进行突变的具体实现过程为本领域技术人员所熟悉的公知常识，即在预设的取值范围内，对离散特征进行随机赋值。

S209：集合父代与突变后的子代，组建新的种群，并返回执行S202，直至完成预设的迭代次数，输出7个超参数的当前取值。

综上所述，基于遗传算法的模型参数组优化模块，构建得到的预测模型，相较于根据既往经验人为调整模型参数所构建得到的预测模型，其参数优化效果更好。

需要说明的是，上述图1a和图1b示出的实施例中，S101-S105所提及的目标样本的获取过程，为本申请所述的民航会员旅客流失的预测方法一种可选的表现方式，也可以采用现有的样本作为模型的训练样本。此外，S106-S115所提及的步骤，可以理解为对目标样本中的特征变量进行数据降维处理，也是本申请所述的民航会员旅客流失的预测方法一种可选的表现方式，无需对各个特征变量进行数据降维处理，也可以实现本申请所述的民航会员旅客流失的预测方法。此外，图2示出的利用遗传算法调整优化预设模型的参数，也是本申请所述的民航会员旅客流失的预测方法一种可选的表现方式。为此，上述实施例所示出的流程，可以概括为图3所示的方法。

如图3所示，为本申请实施例提供的另一种民航会员旅客流失的预测方法的示意图，包括如下步骤：

S301：获取待测会员旅客当前预设时间段内所产生的行为数据。

其中，行为数据用于指示待测会员旅客的个人信息、航班信息、航班变更信息、以及行为变更信息。

S302：从行为数据中提取各个特征变量，构建待测样本。

其中，特征变量包括直接特征变量和间接特征变量，直接特征变量基于个人信息和行为变更信息单独提取得到，间接特征变量基于航班信息和航班变更信息联合提取得到。

S303：将待测样本输入预先构建的预测模型中，得到预测模型的输出结果。

其中，预测模型基于样本会员旅客在过去预设时间段内所产生的行为数据、样本会员旅客的预设标签、以及预设模型训练得到；预设标签用于指示，样本会员旅客在过去预设时间段的下一过去时间段内流失或未流失；输出结果用于指示，待测会员旅客的流失概率。

与上述本申请实施例提供的民航会员旅客流失的预测方法相对应，本申请实施例还提供了一种民航会员旅客流失的预测装置。

如图4所示，为本申请实施例提供的一种民航会员旅客流失的预测装置的结构示意图，包括：

获取单元100，用于获取待测会员旅客当前预设时间段内所产生的行为数据，行为数据用于指示待测会员旅客的个人信息、航班信息、航班变更信息、以及行为变更信息。

构建单元200，用于从行为数据中提取各个特征变量，构建待测样本。特征变量包括直接特征变量和间接特征变量，直接特征变量基于个人信息和行为变更信息单独提取得到，间接特征变量基于航班信息和航班变更信息联合提取得到。

其中，构建单元200从行为数据中提取各个特征变量，构建待测样本的具体实现过程包括：从行为数据中提取各个特征变量，对各个特征变量进行数据降维处理，集合数据降维处理后的各个特征变量，构建待测样本。

构建单元200对各个特征变量进行数据降维处理的具体实现过程包括：针对每个特征变量，依据特征变量所指示的各个特征值，计算得到信息熵，将信息熵作为特征变量的离散特征。计算各个离散特征所包含的证据权重。统计各个离散特征所包含的证据权重的拐点个数。针对每个离散特征，判断拐点个数是否大于预设第一阈值。在拐点个数大于第一预设阈值的情况下，删除离散特征。在拐点个数不大于第一预设阈值的情况下，利用证据权重充当离散特征。集合各个目标离散特征，构建待测样本。其中，目标离散特征为，拐点个数不大于第一预设阈值的离散特征。

构建单元200集合各个目标离散特征，构建待测样本的具体实现过程包括：计算两两目标离散特征之间的相关性。判断两两目标离散特征之间的相关性是否大于第二预设阈值。在两两目标离散特征之间的相关性大于第二预设阈值的情况下，计算两两目标离散特征的信息价值。比较两两目标离散特征的信息价值，并依据比较结果，删除第一目标离散特征，保留第二目标离散特征。其中，第一目标离散特征的信息价值，小于第二目标离散特征的信息价值。第一目标离散特征和第二目标离散特征共同组成两两目标离散特征，第一目标离散特征和第二目标离散特征均为各个目标离散特征中的任意一个。集合第二目标离散特征，构建待测样本。在两两目标离散特征之间的相关性不大于第二预设阈值的情况下，集合两两目标离散特征，构建待测样本。

构建单元200将待测样本输入预先构建的预测模型中，得到预测模型的输出结果的具体实现过程包括：获取待测会员旅客的民航会员等级。依据民航会员等级与预测模型之间的预设对应关系，将待测样本输入目标预测模型中，得到目标预测模型的输出结果。其中，目标预测模型为，与待测会员旅客的民航会员等级对应的预测模型。预测模型构建过程中所使用的训练样本，来源于对应的民航会员等级内的样本会员旅客在过去预设时间段内所产生的行为数据。

另外，预测模型的构建过程包括：从样本会员旅客在过去预设时间段内所产生的行为数据中，提取各个样本特征变量。对各个样本特征变量进行数据降维处理。集合数据降维处理后的各个样本特征变量，构建训练样本。将训练样本输入至预设模型，获得训练样本的预测结果，并基于预测结果和样本会员旅客的预设标签，利用预设模型的损失函数训练调整预设模型的参数，得到预测模型。其中，预测结果用于指示样本会员旅客在预设时间段的下一时间段内流失或者未流失。

需要说明的是，预设模型包括预设的基于遗传算法的模型参数组优化模块。其中，基于遗传算法的模型参数组优化模块用于，利用遗传算法调整预设模型的预设超参数，具体过程包括：针对预设超参数，建立表现型和映射型的映射关系，并从预设模型的训练样本中选取多个离散特征构建初始种群。其中，离散特征为对特征变量进行数据降维处理后所得到。重复执行预设步骤，直至完成预设的迭代次数，输出预设超参数的当前取值。

具体的，预设步骤包括：调用预设的适应度函数，对种群中的每个离散特征进行适应度评估，得到每个离散特征的适应度值。遍历每个离散特征，判断适应度值是否大于预设阈值。若适应度值大于预设阈值，保留离散特征。若适应度值不大于预设阈值，删除离散特征。依据适应度值从高至低的顺序，对保留的各个离散特征进行排序，从序列中选取前预设数量个离散特征作为父代，并删除其余离散特征。两两父代交叉繁殖，生成各个子代。从各个子代中选取任意一个子代进行突变。集合父代与突变后的子代，组建新的种群。

预测单元300，用于将待测样本输入预先构建的预测模型中，得到预测模型的输出结果。其中，预测模型基于样本会员旅客在过去预设时间段内所产生的行为数据、样本会员旅客的预设标签、以及预设模型训练得到。预设标签用于指示，样本会员旅客在过去预设时间段的下一过去时间段内流失或未流失。输出结果用于指示，待测会员旅客的流失概率。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行上述本申请提供的民航会员旅客流失的预测方法。

本申请还提供了一种民航会员旅客流失的预测设备，包括：处理器、存储器和总线。处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述本申请提供的民航会员旅客流失的预测方法。

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种民航会员旅客流失的预测方法，其特征在于，包括：

将所述待测样本输入预先构建的预测模型中，得到所述预测模型的输出结果；其中，所述预测模型基于样本会员旅客在过去预设时间段内所产生的所述行为数据、所述样本会员旅客的预设标签、以及预设模型训练得到；所述预设标签用于指示，所述样本会员旅客在所述过去预设时间段的下一过去时间段内流失或未流失；所述输出结果用于指示，所述待测会员旅客的流失概率；

其中，所述从所述行为数据中提取各个特征变量，构建待测样本，包括：

从所述行为数据中提取各个特征变量；

对各个所述特征变量进行数据降维处理；

集合数据降维处理后的各个所述特征变量，构建所述待测样本；

其中，所述对各个所述特征变量进行数据降维处理，包括：

计算各个所述离散特征所包含的证据权重；

统计各个所述离散特征所包含的所述证据权重的拐点个数；

2.根据权利要求1所述的方法，其特征在于，所述集合各个目标离散特征，构建所述待测样本，包括：

计算两两所述目标离散特征之间的相关性；

集合所述第二目标离散特征，构建所述待测样本；

3.根据权利要求1所述的方法，其特征在于，所述将所述待测样本输入预先构建的预测模型中，得到所述预测模型的输出结果，包括：

获取所述待测会员旅客的民航会员等级；

4.根据权利要求1所述的方法，其特征在于，所述预测模型的构建过程包括：

对各个所述样本特征变量进行数据降维处理；

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述预设模型包括预设的基于遗传算法的模型参数组优化模块；

利用遗传算法调整所述预设模型的预设超参数包括：

所述预设步骤包括：

若所述适应度值大于所述预设阈值，保留所述离散特征；

若所述适应度值不大于所述预设阈值，删除所述离散特征；

两两所述父代交叉繁殖，生成各个子代；

从各个所述子代中选取任意一个所述子代进行突变；

集合所述父代与突变后的所述子代，组建新的种群。

6.一种民航会员旅客流失的预测装置，其特征在于，包括：

预测单元，用于将所述待测样本输入预先构建的预测模型中，得到所述预测模型的输出结果；其中，所述预测模型基于样本会员旅客在过去预设时间段内所产生的所述行为数据、所述样本会员旅客的预设标签、以及预设模型训练得到；所述预设标签用于指示，所述样本会员旅客在所述过去预设时间段的下一过去时间段内流失或未流失；所述输出结果用于指示，所述待测会员旅客的流失概率；

其中，构建单元，用于所述从所述行为数据中提取各个特征变量，构建待测样本，具体包括：从所述行为数据中提取各个特征变量；对各个所述特征变量进行数据降维处理；集合数据降维处理后的各个所述特征变量，构建所述待测样本；

其中，所述对各个所述特征变量进行数据降维处理，包括：针对每个所述特征变量，依据所述特征变量所指示的各个特征值，计算得到信息熵，将所述信息熵作为所述特征变量的离散特征；计算各个所述离散特征所包含的证据权重；统计各个所述离散特征所包含的所述证据权重的拐点个数；针对每个所述离散特征，判断所述拐点个数是否大于预设第一阈值；在所述拐点个数大于所述第一预设阈值的情况下，删除所述离散特征；在所述拐点个数不大于所述第一预设阈值的情况下，利用所述证据权重充当所述离散特征；所述集合数据降维处理后的各个所述特征变量，构建所述待测样本，包括：集合各个目标离散特征，构建所述待测样本；其中，所述目标离散特征为，所述拐点个数不大于所述第一预设阈值的所述离散特征。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1-5任一所述的民航会员旅客流失的预测方法。

8.一种民航会员旅客流失的预测设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-5任一所述的民航会员旅客流失的预测方法。