CN110084630A - 基于梯度提升决策树的用户旅游出行意向及类型预测方法 - Google Patents
基于梯度提升决策树的用户旅游出行意向及类型预测方法 Download PDFInfo
- Publication number
- CN110084630A CN110084630A CN201910162410.9A CN201910162410A CN110084630A CN 110084630 A CN110084630 A CN 110084630A CN 201910162410 A CN201910162410 A CN 201910162410A CN 110084630 A CN110084630 A CN 110084630A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- feature
- classification
- trip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000003066 decision tree Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000002996 emotional effect Effects 0.000 claims abstract description 10
- 230000001737 promoting effect Effects 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims abstract description 7
- 238000000586 desensitisation Methods 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 6
- 238000012946 outsourcing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 19
- 238000012549 training Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000011835 investigation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 101150110330 CRAT gene Proteins 0.000 description 1
- 102100036357 Carnitine O-acetyltransferase Human genes 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于梯度提升决策树的用户旅游出行意向及类型预测方法,包括以下步骤:步骤1、采集移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为数据表,并进行脱敏;步骤2、对数据表进行数据预处理;步骤3、根据样本数据中出行类别的数量,构造向量表示对应的类别;步骤4、对样本数据中每个可能的类别都训练一个分类回归树;步骤5、计算得到每个特征在各个特征值上的损失函数值,取损失函数值最小的情况构造预测函数;步骤6、生成待预测的用户在各个特征上的详细数据,使用预测函数进行预测。本发明使用梯度提升决策树算法预测用户的旅游出行意向以及目的地的类型,具有较高的准确性。
Description
技术领域
本发明涉及到一种基于梯度提升决策树的用户旅游出行意向及类型预测方法。
技术背景
随着经济和科技的发展,交通设施的完善和互联网的普及使得人们的出行变得更加方便,外出旅游的人越来越多,人们出游的目的地也是多种类型的,有些人喜欢省内短途游,有些人喜欢省外游,也有些人则选择去国外或境外的景点旅游。
大多数人在出游前会通过询问亲朋好友或上网查找了解旅游目的地的情况,做好攻略,合理安排旅游行程。因此,可以通过人们日常的通话或上网行为预测其是否有旅游出行意向以及目的地的类型,帮助旅游从业者预测人们的出行需求,从而有针对性的做好营销工作。
目前,旅游从业者一般通过电话或问卷抽样调查来判断用户的旅游出行意向以及目的地的类型,调查结果具有较大的偏差。
发明内容
为了克服现有的人工电话或问卷抽样调查方式的准确性较差的不足,本发明使用移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为等数据,经过数据预处理后使用梯度提升决策树算法预测用户的旅游出行意向以及目的地的类型,具有较高的准确性。
为了解决上述技术问题,本发明所采用的技术方案是:
一种基于梯度提升决策树的用户旅游出行意向及类型预测方法,所述用户旅游出行意向及类型预测方法包括以下步骤:
步骤1、采集移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为数据表,并进行脱敏;
所述的脱敏是对数据表中的某些信息按一定规则进行变形,实现敏感隐私数据的可靠保护,个人隐私信息都需要进行数据脱敏,所述个人隐私信息包括身份证号、手机号、卡号和客户号,脱敏后的真实数据集可以在开发、测试和其它非生产环境以及外包环境中安全地使用。
步骤2、对用户基本信息、业务使用、亲情网亲密度和出行行为数据表进行数据预处理;
所述数据预处理的实现过程为:
(2.1)对于缺失数据的处理:如果某用户的所有特征数据缺失60%以上的信息,则将该用户的相关数据删除;否则,如果缺失数据是数值型的数据,取该特征的平均值填补;如果是非数值型的数据,则用空值填补;
(2.2)以用户业务使用数据表作为基础,在其上进行一定程度的数据合并,例如求平均值等操作,再将其他数据表中关联度较高的特征整合进来;
(2.3)对整合后的数据表进行特征选择:对于值为连续型变量的特征,计算Pearson相关系数,筛选出相关系数大于10%的特征;对于定序变量或不满足正态分布假设的等间隔数据,计算Spearman相关系数,筛选出相关系数大于10%的特征;
(2.4)对筛选出来的所有特征按用户ID分组合并,得到最终用于训练的样本数据;
步骤3、根据样本数据中出行类别的数量,构造向量表示对应的类别;
所述构造向量表示对应类别的实现过程为:假设出行类别有n个,则用n维向量表示对应的类别,如类别1用n维度向量(1,0,0,…,0)表示,类别n用n维度向量(0,0,0,…,1)表示;
步骤4、对样本数据中每个出行类别都训练一个分类回归树,即训练n个CART树,假设我们目前总共有M个特征,每一个CART树由M颗树组成。
进一步,所述用户旅游出行意向及类型预测方法还包括以下步骤:
步骤5、计算得到每个特征在各个特征值上的损失函数值,取损失函数值最小的情况构造预测函数。
步骤6、生成待预测的用户在各个特征上的详细数据,使用预测函数进行预测。
再进一步,所述步骤4中,分类回归树的实现过程为:
①从样本数据的M个特征中选择出一个特征j,作为二叉树的第一个节点。
②然后对特征j的值选择一个切分点m。一个样本的特征j的值如果小于m,则分为一类,如果大于m,则分为另外一类。
③循环执行步骤①、②,直到完成CART树的构建。
优选的,所述步骤4中,在每轮迭代的时候,选择特征j,以及选择特征j的切分点m的过程为:
①遍历样本数据中的每个特征;
②对每个特征遍历它所有可能的切分点,找到最优特征m的最优切分点j。
所述步骤(2.3)中,所述两个变量的Pearson相关系数计算如下:
所述的Spearman相关系数被定义成等级变量之间的Pearson相关系数,原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。
本发明的技术构思为:在移动运营商提供的用户近期通话和上网数据的基础上,进行数据预处理和特征筛选,计算得出与决定用户是否出行以及目的地的类型关联度较高的特征,然后对特征和出行类别进行训练,生成预测模型,用于预测其他用户在未来一个月内是否有意向出行以及具体的目的地类型。
本发明的有益效果主要表现在:在对用户数据进行特征筛选时运用统计学中的相关系数排除一些无关特征;在此基础上,使用梯度提升决策树来生成预测模型,提升预测的准确率。
附图说明
图1为本发明实现基于梯度提升决策树的用户旅游出行意向及类型预测方法的流程图。
图2为用户年龄特征的节点分裂示意图。
图3为用户在网时长特征的节点分裂示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
参照图1~图3,一种基于梯度提升决策树的用户旅游出行意向及类型预测方法:根据用户近期(1-3个月)的通话和上网行为数据,预测该用户在未来一个月内是否有意向出行以及具体的目的地类型。所述用户旅游出行意向及类型预测方法包括以下步骤:
步骤1、采集移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为等数据表,并进行脱敏;
所述的脱敏是对数据表中的某些信息按一定规则进行变形,实现敏感隐私数据的可靠保护,个人隐私信息都需要进行数据脱敏,所述个人隐私信息包括身份证号、手机号、卡号和客户号,脱敏后的真实数据集可以在开发、测试和其它非生产环境以及外包环境中安全地使用。
以下为对各个数据表的描述:
表1为对用户基本信息的描述:
表1
表2为对用户业务使用数据的描述:
表2
表3为对用户亲情网亲密度数据的描述:
表3
表4为对用户出行行为数据的描述:
表4
步骤2、对用户基本信息、业务使用、亲情网亲密度和出行行为等数据表进行数据预处理;
所述数据预处理的实现过程为:
(2.1)对于缺失数据的处理:表5为用户亲情网亲密度数据表的一部分数据样本。可以看到,其中第一条样本数据除用户唯一标识以外其余均为空值的情况,对于这样的数据,该用户所有特征数据中缺失60%以上的信息,故将其删除。
表5
(2.2)以用户业务使用数据表作为基础,在其上进行一定程度的数据合并,根据本月通话次数、上月通话次数以及上上月通话次数求平均值得到用户的平均通话次数。同理,求平均值得到用户三个月的平均通话时长、平均发送短信条数以及平均移动上网流量。同时,根据用户本月通话次数、本月省内漫游通话次数、本月省际漫游通话次数、本月国际漫游语音通话次数、国际漫游语音通话次数、用户当月港澳台漫游语音通话次数得到用户本月本地通话次数。相对于通话次数与通话时长,在本月省内漫游、本月省际漫游、本月国内漫游、本月国际漫游、本月港澳台通话方面只考虑次数,忽略时长。再将用户基本信息表中与旅游出行关联度较高的用户年龄、在网时长以及归属地市等特征整合到其中。至此得到的用于预测用户出行及类型的特征包括:用户年龄、在网时长、归属地市、平均通话次数、平均通话时长、平均移动数据上网流量、平均短信次数、近30天短信次数、本月本地通话次数、本月省内漫游通话次数、本月省际漫游通话次数、本月国内漫游通话次数、本月国际漫游语音通话次数和本月港澳台漫游语音通话次数。
(2.3)对整合后的数据表进行特征选择:对于值为连续型变量的特征,计算Pearson相关系数,筛选出相关系数大于10%的特征,排除平均短信次数、本月国际漫游语音通话次数以及本月港澳台漫游语音通话次数。至此得到的用于预测用户出行及类型的11个特征包括用户年龄、在网时长、归属地市、平均通话次数、平均通话时长、平均移动数据上网流量、近30天短信次数、本月本地通话次数、本月省内漫游通话次数、本月省际漫游通话次数和国内漫游通话次数,Pearson相关系数具体如表6所示。
用户年龄 | -0.16 |
在网时长 | 0.62 |
归属地市 | 0.71 |
平均通话次数 | 0.55 |
平均通话时长 | 0.52 |
平均移动数据上网流量 | 0.38 |
平均短信次数 | 0.06 |
近30天短信次数 | 0.11 |
本月本地通话次数 | 0.50 |
本月省内漫游通话次数 | 0.23 |
本月省际漫游通话次数 | 0.14 |
本月国内漫游通话次数、 | 0.15 |
本月国际漫游语音通话次数 | 0.09 |
本月港澳台漫游语音通话次数 | 0.05 |
表6
(2.4)对筛选出来的所有特征按用户ID分组合并,对用户出行行为数据表的数据进行一定程度的合并,将是否有旅游出行需求以及旅游类型两列数据求和合并为一列,0代表用户无旅游出行需求;2代表用户有旅游出行需求且为境外游;3代表用户有旅游出行需求且为省外游;4代表用户有旅游出行需求且为省内游;得到最终用于训练的数据如表7所示。
表7
步骤3、根据样本数据中出行类别的数量,构造向量表示对应的类别;
所述构造向量表示对应类别的实现过程为:对于有n=4个出行类别的情况,用4维向量表示对应的类别。出行类别1,即用户无出行意向用4维度向量(1,0,0,0)表示;出行类别2,即用户有出行意向且为境外游用4维度向量(0,1,0,0)表示;出行类别3,即用户有出行意向且为省外游用4维度向量(0,0,1,0)表示;出行类别4,即用户有出行意向且为省内游用4维度向量(0,0,0,1)表示。
步骤4、对样本数据中每个出行类别都训练一个分类回归树,即对无意向出游类别训练一个CART Tree 1,境外游训练一个CART Tree 2,省外游训练一个CART Tree 3,省内游训练一个CRAT Tree 4,这四个树相互独立。样本数据中去掉作为预测类别的旅游意向属性,共有11个特征,即M=11,因此每一个CART树由11颗树组成;
所述的分类回归树的实现过程为:
①第一步从中选择出年龄特征,作为二叉树的第一个节点,即第一次选出的特征j为年龄。
②然后对年龄特征的值选择一个切分点,将年龄特征的第一个特征值作为切分点,即m=2。一个样本的特征年龄的值如果小于2,则分为一类,如果大于2,则分为另外一类。
③以上两步便构建了CART树的一个节点,其他节点的生成过程类似。
进一步,在每轮迭代的时候,选择特征j,以及选择特征j的切分点m的过程为:
①遍历样本数据中的每个特征,从用户的年龄一直遍历到用户的本月国际漫游语音通话次数;
②对每个特征遍历它所有可能的切分点,即对于用户年龄这个特征,遍历其所有特征值,找到最优特征m的最优切分点j,对于每个特征的特征值都做相同的遍历以找到每个节点的最优切分点。
再进一步,所述用户旅游出行意向及类型预测方法还包括以下步骤:
步骤5、计算得到每个特征在各个特征值上的损失函数值,取损失函数值最小的情况构造预测函数。
取各个特征值上的损失函数值最小的情况即为该特征的最优切分点。以样本1为例,对步骤4和5进行说明。针对CART Tree 1的训练样本是[2,0,571,0.666667,1,24402744,49,2,0,0,0],出行类别是1,最终输入到模型当中的为[2,0,571,0.666667,1,24402744,49,2,0,0,0,1]。针对CART Tree 2的训练样本也是[2,0,571,0.666667,1,24402744,49,2,0,0,0],但是出行类别为0,最终输入模型的为[2,0,571,0.666667,1,24402744,49,2,0,0,0,0]。针对CART Tree 3的训练样本也是[2,0,571,0.666667,1,24402744,49,2,0,0,0],出行类别也为0,最终输入模型当中的为[2,0,571,0.666667,1,24402744,49,2,0,0,0,0]。针对CART Tree 4的训练样本也是[2,0,571,0.666667,1,24402744,49,2,0,0,0],出行类别也为0,最终输入模型当中的为[2,0,571,0.666667,1,24402744,49,2,0,0,0,0]。
CART Tree的生成过程是从这11个特征中找一个特征作为CART Tree 1的节点,比如用户年龄作为节点,1万个样本当中用户年龄大于3的就是A类,小于等于3的是B类。遍历所有的可能性,找到一个特征和它对应的最优特征值让损失函数值最小,损失函数值计算公式如下:
以年龄特征为例,考虑前6条样本数据,计算损失函数值。
首先考虑年龄特征的第一个特征值2,R1为所有样本中用户年龄小于2的样本集合,R2为所有样本中用户年龄大于等于2的样本集合,即R1={},R2={1,2,3,4,5,6}。y1为R1所有样本的出行类别的均值0。y2为R2所有样本的出行类别均值(1+0+0+1+1+1)/6=0.67。
由此,无意向出游类型在年龄特征的第一个特征值2的损失函数值可根据上述式子计算:(1-0.67)2+(0-0.67)2+(0-0.67)2+(1-0.67)2+(1-0.67)2+(1-0.67)2=1.3334。
然后计算第二个特征值3的损失函数值,R1为所有样本中用户年龄小于3的样本集合,R2为所有样本当中用户年龄大于等于3的样本集合,即R1={1},R2={2,3,4,5,6}。y1为R1所有样本的出行类别的均值1/1=1。y2为R2所有样本的出行类别的均值(0+0+1+1+1)/5=0.6,可计算得到无意向出游类型在第二个特征值3的损失函数值:(1-1)2+(0-0.6)2+(0-0.6)2+(1-0.6)2+(1-0.6)2+(1-0.6)2=1.2。
同理,遍历所有特征的所有特征值,找到使得损失函数值最小的特征以及其对应的特征值,共有66种情况。最后计算得到,损失函数值最小的特征是用户年龄,特征值为3,损失函数值为1.2。
由此,根据年龄特征值2构造预测函数如下:
此处R1={1},R2={2,3,4,5,6},y1=1,y2=0.6,即:
使用预测函数预测得到样本属于类别1的预测值f1(x)=1+0.6*5=4,同理我们可以分别得到属于类别2,3,4的预测值f2(x),f3(x),f4(x)。样本属于类别1的概率即为:
步骤6、生成待预测的用户在各个特征上的详细数据,使用预测函数进行预测。如表8所示,为部分待预测的用户在各个特征上的详细数据以及最终得到的预测结果。
表8
本技术领域中的普通技术人员应当认识到,以上内容仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上实例的变化、变型都将落在本发明的权利要求书范围内。
Claims (5)
1.一种基于梯度提升决策树的用户旅游出行意向及类型预测方法,其特征在于,所述用户旅游出行意向及类型预测方法包括以下步骤:
步骤1、采集移动运营商提供的用户基本信息、业务使用、亲情网亲密度和出行行为数据表,并进行脱敏;
所述的脱敏是对数据表中的某些信息按一定规则进行变形,实现敏感隐私数据的可靠保护,个人隐私信息都需要进行数据脱敏,所述个人隐私信息包括身份证号、手机号、卡号和客户号,脱敏后的真实数据集可以在开发、测试和其它非生产环境以及外包环境中安全地使用。
步骤2、对用户基本信息、业务使用、亲情网亲密度和出行行为数据表进行数据预处理;
所述数据预处理的实现过程为:
(2.1)对于缺失数据的处理:如果某用户的所有特征数据缺失60%以上的信息,则将该用户的相关数据删除;否则,如果缺失数据是数值型的数据,取该特征的平均值填补;如果是非数值型的数据,则用空值填补;
(2.2)以用户业务使用数据表作为基础,在其上进行一定程度的数据合并,例如求平均值等操作,再将其他数据表中关联度较高的特征整合进来;
(2.3)对整合后的数据表进行特征选择:对于值为连续型变量的特征,计算Pearson相关系数,筛选出相关系数大于10%的特征;对于定序变量或不满足正态分布假设的等间隔数据,计算Spearman相关系数,筛选出相关系数大于10%的特征;
(2.4)对筛选出来的所有特征按用户ID分组合并,得到最终用于训练的样本数据;
步骤3、根据样本数据中出行类别的数量,构造向量表示对应的类别;
所述构造向量表示对应类别的实现过程为:假设出行类别有n个,则用n维向量表示对应的类别,如类别1用n维度向量(1,0,0,…,0)表示,类别n用n维度向量(0,0,0,…,1)表示;
步骤4、对样本数据中每个出行类别都训练一个分类回归树,即训练n个CART树,假设我们目前总共有M个特征,每一个CART树由M颗树组成。
2.根据权利要求1所述基于梯度提升决策树的用户旅游出行意向及类型预测方法,其特征在于:所述用户旅游出行意向及类型预测方法还包括以下步骤:
步骤5、计算得到每个特征在各个特征值上的损失函数值,取损失函数值最小的情况构造预测函数。
步骤6、生成待预测的用户在各个特征上的详细数据,使用预测函数进行预测。
3.根据权利要求1或2所述基于梯度提升决策树的用户旅游出行意向及类型预测方法,其特征在于:所述步骤4中,分类回归树的实现过程为:
①从样本数据的M个特征中选择出一个特征j,作为二叉树的第一个节点。
②然后对特征j的值选择一个切分点m。一个样本的特征j的值如果小于m,则分为一类,如果大于m,则分为另外一类。
③循环执行步骤①、②,直到完成CART树的构建。
4.根据权利要求3所述基于梯度提升决策树的用户旅游出行意向及类型预测方法,其特征在于:所述步骤4中,在每轮迭代的时候,选择特征j,以及选择特征j的切分点m的过程为:
①遍历样本数据中的每个特征;
②对每个特征遍历它所有可能的切分点,找到最优特征m的最优切分点j。
5.根据权利要求1或2所述基于梯度提升决策树的用户旅游出行意向及类型预测方法,其特征在于:所述步骤(2.3)中,所述两个变量的Pearson相关系数计算如下:
所述的Spearman相关系数被定义成等级变量之间的Pearson相关系数,原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910162410.9A CN110084630A (zh) | 2019-03-05 | 2019-03-05 | 基于梯度提升决策树的用户旅游出行意向及类型预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910162410.9A CN110084630A (zh) | 2019-03-05 | 2019-03-05 | 基于梯度提升决策树的用户旅游出行意向及类型预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110084630A true CN110084630A (zh) | 2019-08-02 |
Family
ID=67413083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910162410.9A Pending CN110084630A (zh) | 2019-03-05 | 2019-03-05 | 基于梯度提升决策树的用户旅游出行意向及类型预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110084630A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990714A (zh) * | 2019-11-01 | 2020-04-10 | 中国联合网络通信集团有限公司 | 一种用户行为意图预测方法和装置 |
CN111104614A (zh) * | 2019-12-11 | 2020-05-05 | 上海携旅信息技术有限公司 | 用于旅游目的地推荐系统的召回信息的生成方法 |
CN111274338A (zh) * | 2020-01-08 | 2020-06-12 | 重庆邮电大学 | 一种基于移动大数据的预出境用户识别方法 |
CN112990284A (zh) * | 2021-03-04 | 2021-06-18 | 安徽大学 | 一种基于XGBoost算法的个体出行行为预测方法、系统及终端 |
CN113806350A (zh) * | 2021-11-19 | 2021-12-17 | 华南农业大学 | 一种提高大数据交易平台安全性的管理方法及系统 |
-
2019
- 2019-03-05 CN CN201910162410.9A patent/CN110084630A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990714A (zh) * | 2019-11-01 | 2020-04-10 | 中国联合网络通信集团有限公司 | 一种用户行为意图预测方法和装置 |
CN110990714B (zh) * | 2019-11-01 | 2023-05-23 | 中国联合网络通信集团有限公司 | 一种用户行为意图预测方法和装置 |
CN111104614A (zh) * | 2019-12-11 | 2020-05-05 | 上海携旅信息技术有限公司 | 用于旅游目的地推荐系统的召回信息的生成方法 |
CN111274338A (zh) * | 2020-01-08 | 2020-06-12 | 重庆邮电大学 | 一种基于移动大数据的预出境用户识别方法 |
CN112990284A (zh) * | 2021-03-04 | 2021-06-18 | 安徽大学 | 一种基于XGBoost算法的个体出行行为预测方法、系统及终端 |
CN112990284B (zh) * | 2021-03-04 | 2022-11-22 | 安徽大学 | 一种基于XGBoost算法的个体出行行为预测方法、系统及终端 |
CN113806350A (zh) * | 2021-11-19 | 2021-12-17 | 华南农业大学 | 一种提高大数据交易平台安全性的管理方法及系统 |
CN113806350B (zh) * | 2021-11-19 | 2022-02-11 | 华南农业大学 | 一种提高大数据交易平台安全性的管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084630A (zh) | 基于梯度提升决策树的用户旅游出行意向及类型预测方法 | |
Guan et al. | Cumulative prospect theory based dynamic pricing for shared mobility on demand services | |
Lee et al. | Can Twitter data be used to validate travel demand models | |
Huang et al. | A genetic-algorithm-based approach to solve carpool service problems in cloud computing | |
Yu et al. | Genetic algorithm for bus frequency optimization | |
Chou et al. | Stochastic set-based particle swarm optimization based on local exploration for solving the carpool service problem | |
CN111985710A (zh) | 一种公交乘客出行站点预测方法、存储介质及服务器 | |
CN110222893B (zh) | 共享交通资源的投放地点推荐方法、装置与电子设备 | |
Jiang et al. | The impact of the transportation network companies on the taxi industry: Evidence from Beijing’s GPS taxi trajectory data | |
CN107123056B (zh) | 一种基于位置的社交大数据信息最大化方法 | |
CN102044011A (zh) | 一种警力资源调度的方法及系统 | |
CN111144618A (zh) | 一种基于两阶段优化模型的需求响应型定制公交网络规划方法 | |
CN110097218B (zh) | 一种时变环境下无人商品配送方法及系统 | |
CN109919532A (zh) | 一种物流节点确定方法及装置 | |
Wei et al. | Optimal integrated model for feeder transit route design and frequency‐setting problem with stop selection | |
Zhang et al. | A tourism route-planning approach based on comprehensive attractiveness | |
CN109359771A (zh) | 一种基于大数据的干线运输车货匹配算法 | |
CN111090935B (zh) | 一种公共自行车预约调度与路径规划方法 | |
CN110059795A (zh) | 一种融合地理位置与时间特征的移动用户节点组网方法 | |
Sun et al. | A graphical game approach to electrical vehicle charging scheduling: Correlated equilibrium and latency minimization | |
CN113723667B (zh) | 轨道交通线网运营方案的优化方法、设备及可读存储介质 | |
CN106528614A (zh) | 一种移动社交网络中用户的地理位置预测方法 | |
Yin et al. | Evaluation of ridesharing impacts using an integrated transport land-use model: a case study for the Paris region | |
Jiang et al. | Evaluating the effects of double-apping on the smartphone-based E-hailing service: A simulation-based study | |
Boukhater et al. | An intelligent and fair GA carpooling scheduler as a social solution for greener transportation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190802 |
|
RJ01 | Rejection of invention patent application after publication |