CN110084630A

CN110084630A - 基于梯度提升决策树的用户旅游出行意向及类型预测方法

Info

Publication number: CN110084630A
Application number: CN201910162410.9A
Authority: CN
Inventors: 潘建; 奚家字; 汤绍雄; 吴攀峰; 赵焕东
Original assignee: Zhijiang College of ZJUT
Current assignee: Zhijiang College of ZJUT
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2019-08-02

Abstract

一种基于梯度提升决策树的用户旅游出行意向及类型预测方法，包括以下步骤：步骤1、采集移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为数据表，并进行脱敏；步骤2、对数据表进行数据预处理；步骤3、根据样本数据中出行类别的数量，构造向量表示对应的类别；步骤4、对样本数据中每个可能的类别都训练一个分类回归树；步骤5、计算得到每个特征在各个特征值上的损失函数值，取损失函数值最小的情况构造预测函数；步骤6、生成待预测的用户在各个特征上的详细数据，使用预测函数进行预测。本发明使用梯度提升决策树算法预测用户的旅游出行意向以及目的地的类型，具有较高的准确性。

Description

基于梯度提升决策树的用户旅游出行意向及类型预测方法

技术领域

本发明涉及到一种基于梯度提升决策树的用户旅游出行意向及类型预测方法。

技术背景

随着经济和科技的发展，交通设施的完善和互联网的普及使得人们的出行变得更加方便，外出旅游的人越来越多，人们出游的目的地也是多种类型的，有些人喜欢省内短途游，有些人喜欢省外游，也有些人则选择去国外或境外的景点旅游。

大多数人在出游前会通过询问亲朋好友或上网查找了解旅游目的地的情况，做好攻略，合理安排旅游行程。因此，可以通过人们日常的通话或上网行为预测其是否有旅游出行意向以及目的地的类型，帮助旅游从业者预测人们的出行需求，从而有针对性的做好营销工作。

目前，旅游从业者一般通过电话或问卷抽样调查来判断用户的旅游出行意向以及目的地的类型，调查结果具有较大的偏差。

发明内容

为了克服现有的人工电话或问卷抽样调查方式的准确性较差的不足，本发明使用移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为等数据，经过数据预处理后使用梯度提升决策树算法预测用户的旅游出行意向以及目的地的类型，具有较高的准确性。

为了解决上述技术问题，本发明所采用的技术方案是：

一种基于梯度提升决策树的用户旅游出行意向及类型预测方法，所述用户旅游出行意向及类型预测方法包括以下步骤：

步骤1、采集移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为数据表，并进行脱敏；

所述的脱敏是对数据表中的某些信息按一定规则进行变形，实现敏感隐私数据的可靠保护，个人隐私信息都需要进行数据脱敏，所述个人隐私信息包括身份证号、手机号、卡号和客户号，脱敏后的真实数据集可以在开发、测试和其它非生产环境以及外包环境中安全地使用。

步骤2、对用户基本信息、业务使用、亲情网亲密度和出行行为数据表进行数据预处理；

所述数据预处理的实现过程为：

(2.1)对于缺失数据的处理：如果某用户的所有特征数据缺失60％以上的信息，则将该用户的相关数据删除；否则，如果缺失数据是数值型的数据，取该特征的平均值填补；如果是非数值型的数据，则用空值填补；

(2.2)以用户业务使用数据表作为基础，在其上进行一定程度的数据合并，例如求平均值等操作，再将其他数据表中关联度较高的特征整合进来；

(2.3)对整合后的数据表进行特征选择：对于值为连续型变量的特征，计算Pearson相关系数，筛选出相关系数大于10％的特征；对于定序变量或不满足正态分布假设的等间隔数据，计算Spearman相关系数，筛选出相关系数大于10％的特征；

(2.4)对筛选出来的所有特征按用户ID分组合并，得到最终用于训练的样本数据；

步骤3、根据样本数据中出行类别的数量，构造向量表示对应的类别；

所述构造向量表示对应类别的实现过程为：假设出行类别有n个，则用n维向量表示对应的类别，如类别1用n维度向量(1,0,0,…,0)表示，类别n用n维度向量(0,0,0,…,1)表示；

步骤4、对样本数据中每个出行类别都训练一个分类回归树，即训练n个CART树，假设我们目前总共有M个特征，每一个CART树由M颗树组成。

进一步，所述用户旅游出行意向及类型预测方法还包括以下步骤：

步骤5、计算得到每个特征在各个特征值上的损失函数值，取损失函数值最小的情况构造预测函数。

步骤6、生成待预测的用户在各个特征上的详细数据，使用预测函数进行预测。

再进一步，所述步骤4中，分类回归树的实现过程为：

①从样本数据的M个特征中选择出一个特征j，作为二叉树的第一个节点。

②然后对特征j的值选择一个切分点m。一个样本的特征j的值如果小于m，则分为一类，如果大于m，则分为另外一类。

③循环执行步骤①、②，直到完成CART树的构建。

优选的，所述步骤4中，在每轮迭代的时候，选择特征j，以及选择特征j的切分点m的过程为：

①遍历样本数据中的每个特征；

②对每个特征遍历它所有可能的切分点，找到最优特征m的最优切分点j。

所述步骤(2.3)中，所述两个变量的Pearson相关系数计算如下：

所述的Spearman相关系数被定义成等级变量之间的Pearson相关系数，原始数据依据其在总体数据中平均的降序位置，被分配了一个相应的等级。

本发明的技术构思为：在移动运营商提供的用户近期通话和上网数据的基础上，进行数据预处理和特征筛选，计算得出与决定用户是否出行以及目的地的类型关联度较高的特征，然后对特征和出行类别进行训练，生成预测模型，用于预测其他用户在未来一个月内是否有意向出行以及具体的目的地类型。

本发明的有益效果主要表现在：在对用户数据进行特征筛选时运用统计学中的相关系数排除一些无关特征；在此基础上，使用梯度提升决策树来生成预测模型，提升预测的准确率。

附图说明

图1为本发明实现基于梯度提升决策树的用户旅游出行意向及类型预测方法的流程图。

图2为用户年龄特征的节点分裂示意图。

图3为用户在网时长特征的节点分裂示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

参照图1～图3，一种基于梯度提升决策树的用户旅游出行意向及类型预测方法：根据用户近期(1-3个月)的通话和上网行为数据，预测该用户在未来一个月内是否有意向出行以及具体的目的地类型。所述用户旅游出行意向及类型预测方法包括以下步骤：

步骤1、采集移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为等数据表，并进行脱敏；

以下为对各个数据表的描述：

表1为对用户基本信息的描述：

表1

表2为对用户业务使用数据的描述：

表2

表3为对用户亲情网亲密度数据的描述：

表3

表4为对用户出行行为数据的描述：

表4

步骤2、对用户基本信息、业务使用、亲情网亲密度和出行行为等数据表进行数据预处理；

所述数据预处理的实现过程为：

(2.1)对于缺失数据的处理：表5为用户亲情网亲密度数据表的一部分数据样本。可以看到，其中第一条样本数据除用户唯一标识以外其余均为空值的情况，对于这样的数据，该用户所有特征数据中缺失60％以上的信息，故将其删除。

表5

(2.2)以用户业务使用数据表作为基础，在其上进行一定程度的数据合并，根据本月通话次数、上月通话次数以及上上月通话次数求平均值得到用户的平均通话次数。同理，求平均值得到用户三个月的平均通话时长、平均发送短信条数以及平均移动上网流量。同时，根据用户本月通话次数、本月省内漫游通话次数、本月省际漫游通话次数、本月国际漫游语音通话次数、国际漫游语音通话次数、用户当月港澳台漫游语音通话次数得到用户本月本地通话次数。相对于通话次数与通话时长，在本月省内漫游、本月省际漫游、本月国内漫游、本月国际漫游、本月港澳台通话方面只考虑次数，忽略时长。再将用户基本信息表中与旅游出行关联度较高的用户年龄、在网时长以及归属地市等特征整合到其中。至此得到的用于预测用户出行及类型的特征包括：用户年龄、在网时长、归属地市、平均通话次数、平均通话时长、平均移动数据上网流量、平均短信次数、近30天短信次数、本月本地通话次数、本月省内漫游通话次数、本月省际漫游通话次数、本月国内漫游通话次数、本月国际漫游语音通话次数和本月港澳台漫游语音通话次数。

(2.3)对整合后的数据表进行特征选择：对于值为连续型变量的特征，计算Pearson相关系数，筛选出相关系数大于10％的特征，排除平均短信次数、本月国际漫游语音通话次数以及本月港澳台漫游语音通话次数。至此得到的用于预测用户出行及类型的11个特征包括用户年龄、在网时长、归属地市、平均通话次数、平均通话时长、平均移动数据上网流量、近30天短信次数、本月本地通话次数、本月省内漫游通话次数、本月省际漫游通话次数和国内漫游通话次数，Pearson相关系数具体如表6所示。

用户年龄	-0.16
		在网时长	0.62
归属地市	0.71
		平均通话次数	0.55
平均通话时长	0.52
		平均移动数据上网流量	0.38
平均短信次数	0.06
		近30天短信次数	0.11
本月本地通话次数	0.50
		本月省内漫游通话次数	0.23
本月省际漫游通话次数	0.14
		本月国内漫游通话次数、	0.15
本月国际漫游语音通话次数	0.09
		本月港澳台漫游语音通话次数	0.05

表6

(2.4)对筛选出来的所有特征按用户ID分组合并，对用户出行行为数据表的数据进行一定程度的合并，将是否有旅游出行需求以及旅游类型两列数据求和合并为一列，0代表用户无旅游出行需求；2代表用户有旅游出行需求且为境外游；3代表用户有旅游出行需求且为省外游；4代表用户有旅游出行需求且为省内游；得到最终用于训练的数据如表7所示。

表7

所述构造向量表示对应类别的实现过程为：对于有n＝4个出行类别的情况，用4维向量表示对应的类别。出行类别1，即用户无出行意向用4维度向量(1,0,0,0)表示；出行类别2，即用户有出行意向且为境外游用4维度向量(0,1,0,0)表示；出行类别3，即用户有出行意向且为省外游用4维度向量(0,0,1,0)表示；出行类别4，即用户有出行意向且为省内游用4维度向量(0,0,0,1)表示。

步骤4、对样本数据中每个出行类别都训练一个分类回归树，即对无意向出游类别训练一个CART Tree 1，境外游训练一个CART Tree 2，省外游训练一个CART Tree 3，省内游训练一个CRAT Tree 4，这四个树相互独立。样本数据中去掉作为预测类别的旅游意向属性，共有11个特征，即M＝11，因此每一个CART树由11颗树组成；

所述的分类回归树的实现过程为：

①第一步从中选择出年龄特征，作为二叉树的第一个节点，即第一次选出的特征j为年龄。

②然后对年龄特征的值选择一个切分点，将年龄特征的第一个特征值作为切分点，即m＝2。一个样本的特征年龄的值如果小于2，则分为一类，如果大于2,则分为另外一类。

③以上两步便构建了CART树的一个节点，其他节点的生成过程类似。

进一步，在每轮迭代的时候，选择特征j，以及选择特征j的切分点m的过程为:

①遍历样本数据中的每个特征，从用户的年龄一直遍历到用户的本月国际漫游语音通话次数；

②对每个特征遍历它所有可能的切分点，即对于用户年龄这个特征，遍历其所有特征值，找到最优特征m的最优切分点j，对于每个特征的特征值都做相同的遍历以找到每个节点的最优切分点。

再进一步，所述用户旅游出行意向及类型预测方法还包括以下步骤：

取各个特征值上的损失函数值最小的情况即为该特征的最优切分点。以样本1为例，对步骤4和5进行说明。针对CART Tree 1的训练样本是[2,0,571,0.666667,1,24402744,49,2,0,0,0]，出行类别是1，最终输入到模型当中的为[2,0,571,0.666667,1,24402744,49,2,0,0,0,1]。针对CART Tree 2的训练样本也是[2,0,571,0.666667,1,24402744,49,2,0,0,0]，但是出行类别为0，最终输入模型的为[2,0,571,0.666667,1,24402744,49,2,0,0,0,0]。针对CART Tree 3的训练样本也是[2,0,571,0.666667,1,24402744,49,2,0,0,0]，出行类别也为0,最终输入模型当中的为[2,0,571,0.666667,1,24402744,49,2,0,0,0,0]。针对CART Tree 4的训练样本也是[2,0,571,0.666667,1,24402744,49,2,0,0,0]，出行类别也为0,最终输入模型当中的为[2,0,571,0.666667,1,24402744,49,2,0,0,0,0]。

CART Tree的生成过程是从这11个特征中找一个特征作为CART Tree 1的节点，比如用户年龄作为节点，1万个样本当中用户年龄大于3的就是A类，小于等于3的是B类。遍历所有的可能性，找到一个特征和它对应的最优特征值让损失函数值最小，损失函数值计算公式如下：

以年龄特征为例，考虑前6条样本数据，计算损失函数值。

首先考虑年龄特征的第一个特征值2，R₁为所有样本中用户年龄小于2的样本集合，R₂为所有样本中用户年龄大于等于2的样本集合，即R₁＝{}，R₂＝{1,2,3,4,5,6}。y₁为R₁所有样本的出行类别的均值0。y₂为R₂所有样本的出行类别均值(1+0+0+1+1+1)/6＝0.67。

由此，无意向出游类型在年龄特征的第一个特征值2的损失函数值可根据上述式子计算：(1-0.67)²+(0-0.67)²+(0-0.67)²+(1-0.67)²+(1-0.67)²+(1-0.67)²＝1.3334。

然后计算第二个特征值3的损失函数值，R₁为所有样本中用户年龄小于3的样本集合，R₂为所有样本当中用户年龄大于等于3的样本集合，即R₁＝{1}，R₂＝{2,3,4,5,6}。y₁为R₁所有样本的出行类别的均值1/1＝1。y₂为R₂所有样本的出行类别的均值(0+0+1+1+1)/5＝0.6，可计算得到无意向出游类型在第二个特征值3的损失函数值：(1-1)²+(0-0.6)²+(0-0.6)²+(1-0.6)²+(1-0.6)²+(1-0.6)²＝1.2。

同理，遍历所有特征的所有特征值，找到使得损失函数值最小的特征以及其对应的特征值，共有66种情况。最后计算得到，损失函数值最小的特征是用户年龄，特征值为3，损失函数值为1.2。

由此，根据年龄特征值2构造预测函数如下：

此处R₁＝{1}，R₂＝{2,3,4,5,6}，y₁＝1，y₂＝0.6，即：

使用预测函数预测得到样本属于类别1的预测值f_1(x)＝1+0.6*5＝4，同理我们可以分别得到属于类别2,3,4的预测值f_2(x)，f_3(x)，f_4(x)。样本属于类别1的概率即为：

步骤6、生成待预测的用户在各个特征上的详细数据，使用预测函数进行预测。如表8所示，为部分待预测的用户在各个特征上的详细数据以及最终得到的预测结果。

表8

本技术领域中的普通技术人员应当认识到，以上内容仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上实例的变化、变型都将落在本发明的权利要求书范围内。

Claims

1.一种基于梯度提升决策树的用户旅游出行意向及类型预测方法，其特征在于，所述用户旅游出行意向及类型预测方法包括以下步骤：

所述数据预处理的实现过程为：

2.根据权利要求1所述基于梯度提升决策树的用户旅游出行意向及类型预测方法，其特征在于：所述用户旅游出行意向及类型预测方法还包括以下步骤：

3.根据权利要求1或2所述基于梯度提升决策树的用户旅游出行意向及类型预测方法，其特征在于：所述步骤4中，分类回归树的实现过程为：

③循环执行步骤①、②，直到完成CART树的构建。

4.根据权利要求3所述基于梯度提升决策树的用户旅游出行意向及类型预测方法，其特征在于：所述步骤4中，在每轮迭代的时候，选择特征j，以及选择特征j的切分点m的过程为：

①遍历样本数据中的每个特征；

5.根据权利要求1或2所述基于梯度提升决策树的用户旅游出行意向及类型预测方法，其特征在于：所述步骤(2.3)中，所述两个变量的Pearson相关系数计算如下：