CN109711896A - 一种基于旅客细分的官网访客流失分析方法 - Google Patents

一种基于旅客细分的官网访客流失分析方法 Download PDF

Info

Publication number
CN109711896A
CN109711896A CN201811631821.XA CN201811631821A CN109711896A CN 109711896 A CN109711896 A CN 109711896A CN 201811631821 A CN201811631821 A CN 201811631821A CN 109711896 A CN109711896 A CN 109711896A
Authority
CN
China
Prior art keywords
visitor
variable
official website
group
booking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811631821.XA
Other languages
English (en)
Inventor
陈思恩
杨紫胜
廖雅哲
吴炎泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technology Valley (xiamen) Information Technology Co Ltd
Original Assignee
Technology Valley (xiamen) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technology Valley (xiamen) Information Technology Co Ltd filed Critical Technology Valley (xiamen) Information Technology Co Ltd
Priority to CN201811631821.XA priority Critical patent/CN109711896A/zh
Publication of CN109711896A publication Critical patent/CN109711896A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于旅客细分的官网访客流失分析方法,包括以下步骤:获得原始官网访问日志数据;对所述原始官网访问日志数据进行数据清洗;建立访客价值分析模型,利用PCA算法计算出访客价值得分;利用K‑means聚类对访客行为数据库进行聚类分析,实现访客群体的分类;针对不同类别的访客群体分别训练logit模型,获得访客流失分析和购票概率预测模型。本发明基于官网访问日志数据进行数据挖掘,对访客进行价值分析、分群、流失分析及购票概率预测,为营销部门实现精准化营销提供有力依据。

Description

一种基于旅客细分的官网访客流失分析方法
技术领域
本发明涉及大数据处理技术领域,特别涉及一种基于旅客细分的官网访客流失分析方法。
背景技术
目前乘坐民航航班是人们的重要出行方式,随着航空电子商务的不断发展,互联网+的大势所趋,这也需要更完善的营销平台支撑以及日益完善电子营销渠道和功能建设。
目前,各航空公司都已实现了官网购票,但并未对访客行为做深入分析研究,造成对诸如访客价值、流失率、购票率等重要信息的缺失,官网访客行为数据也难以直接产生业务指导作用。
发明内容
为解决上述问题,本发明提供了一种基于旅客细分的官网访客流失分析方法。
本发明采用以下技术方案:
一种基于旅客细分的官网访客流失分析方法,包括以下步骤:
S1、获得原始官网访问日志数据;
S2、对所述原始官网访问日志数据进行数据清洗,获得访客行为数据库,所述访客行为数据库包含一组访客行为变量;
S3、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,建立访客价值分析模型,利用PCA算法计算出访客价值得分,所述变量R为最近一次购票时间到观察结束时间的天数,所述变量F为观察时间段内成功购票的次数,所述变量M为观察时间段内总购票金额,所述关键模块访问变量包括收银支付页面访问次数和预定行程页面访问次数;
S4、利用K-means聚类对访客行为数据库进行聚类分析,实现访客群体的分类;
S5、针对不同类别的访客群体分别训练logit模型,获得访客流失分析和购票概率预测模型。
优选地,在步骤S2中所述数据清洗通过以下方法实现:
利用Hive对原始官网访问日志数据进行第一阶段数据清洗,包括新特征构建、缺失值处理;
利用R语言进行第一阶段数据清洗,包括异常值处理、离群值处理、数据归一化。
优选地,所述步骤S3通过以下分步骤实现:
S31、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,并作为输入变量,将访客价值得分作为输出变量;
S32、利用PCA算法进行降维处理,压缩得到一维得分列,生成各变量对应的得分权重值,进而获得访客价值得分。
优选地,所述步骤S4通过以下分步骤实现:
S41、基于所述访客行为数据库提取与访客群体分类相关的访客行为变量,并作为输入变量;
S42、利用碎石图来寻找拐点确定降维数量,根据降维数量对访客行为数据库中的训练数据进行PCA降维处理;
S43、利用Within-ClusterSumofSquaresn曲线图寻找拐点确定聚类数k,利用K-means聚类算法进行聚类分析,并输出聚类结果;
S44、通过所述聚类结果进行特征分析,进行访客群体分类,并对各个访客群体进行定义。
优选地,所述步骤S5通过以下分步骤实现:
S51、基于所述访客行为数据库划分出训练数据集和测试数据集;
S52、针对不同类别的访客群体分别训练logit模型,得到各个访客群体对应的训练模型参数,进而获得所述访客流失分析和购票概率预测模型;
S53、将每个访客群体对应的测试数据集应用到对应的训练模型中,对训练模型的效果进行评估;
S54、根据所述访客流失分析和购票概率预测模型,计算出访客流失概率和购票概率。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明基于官网访问日志数据进行数据挖掘,对访客进行价值分析、分群、流失分析及购票概率预测,为营销部门实现精准化营销提供有力依据,提升民航企业的竞争力。
附图说明
图1为本发明的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
参考图1所示,本发明公开了一种基于旅客细分的官网访客流失分析方法,包括以下步骤:
S1、获得原始官网访问日志数据。
S2、对所述原始官网访问日志数据进行数据清洗,获得访客行为数据库,所述访客行为数据库包含一组访客行为变量。数据清洗通过以下方法实现:
利用Hive对原始官网访问日志数据进行第一阶段数据清洗,包括新特征构建、缺失值处理。缺失值处理是对变量中存在的缺失数据,根据实际业务意义对数据进行插补。
利用R语言进行第一阶段数据清洗,包括异常值处理、离群值处理、数据归一化。异常值处理是针对访客数据中一些变量存在逻辑上的异常,直接剔除该记录;离群值处理是很对访客数据中一些变量数据存在一些数据分布的离群值点,分离出大于均值加若干倍标准差外的数据;数据归一化是对输入变量单位进行归一化,使得变量间具有可比性。
S3、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,建立访客价值分析模型,利用PCA算法计算出访客价值得分,所述变量R为最近一次购票时间到观察结束时间的天数,所述变量F为观察时间段内成功购票的次数,所述变量M为观察时间段内总购票金额,所述关键模块访问变量包括收银支付页面访问次数和预定行程页面访问次数。步骤S3通过以下分步骤实现:
S31、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,并作为输入变量,将访客价值得分作为输出变量。
S32、利用PCA算法进行降维处理,压缩得到一维得分列,生成各变量对应的得分权重值,进而获得访客价值得分。
S4、利用K-means聚类对访客行为数据库进行聚类分析,实现访客群体的分类。步骤S4通过以下分步骤实现:
S41、基于所述访客行为数据库提取与访客群体分类相关的访客行为变量,并作为输入变量。本实施例中与访客群体分类相关的访客行为变量包括最后一次访问时间距观测窗口结束时间天数、最后一次购票时间距观测窗口结束时间天数、观测窗口内访次数、观测窗口内成功购票次数、观测窗口会话总时长、观测窗口内消费金额、机票查询访问次数、航班选择访问次数、旅客信息访问次数、机票查询总停留时间、航班选择总停留时间、旅客信息总停留时间、付费搜索次数、非付费搜索次数、非会员手机登陆次数、会员登陆次数、会员日访问次数、PC端访问次数、移动端访问次数、访问间隔时间、支付订单访问次数、支付出错次数、公务舱次数、明珠经济舱次数、经济舱次数、节假日飞行次数、官网购票国际出行次数、网上值机次数、乘机和购票总间隔时间、折扣票总价、票面价总和、EDM来源访次、百度SEM来源访次、360SEM来源访次、搜狗SEM来源访次、AD来源访次、LIST来源访次、移动官网页面访次、预定行程页面访次、首页,服务大厅页面访次、明珠会员页面访次、收银支付页面访次、机票预定页面访次、员工专区页面访次、提前选座页面访次、网上值机页面访次、明珠商城页面访次、抽奖等营销活动页面访次、其他页面访次。
S42、利用碎石图来寻找拐点确定降维数量,根据降维数量对访客行为数据库中的训练数据进行PCA降维处理。之所以进行PCA降维,是考虑到变量的数量比较多。
S43、利用Within-ClusterSumofSquaresn曲线图寻找拐点确定聚类数k,利用K-means聚类算法进行聚类分析,并输出聚类结果。
S44、通过所述聚类结果进行特征分析,进行访客群体分类,并对各个访客群体进行定义。
S5、针对不同类别的访客群体分别训练logit模型,获得访客流失分析和购票概率预测模型。步骤S5通过以下分步骤实现:
S51、基于所述访客行为数据库划分出训练数据集和测试数据集。将与访客流失分析和购票概率预测相关的访客行为变量作为输入变量,其在本实施例中包括最后一次访问时间距观测窗口结束时间天数、最后一次购票时间距观测窗口结束时间天数、观测窗口内访次数、观测窗口内成功购票次数、观测窗口会话总时长、观测窗口内消费金额、机票查询访问次数、航班选择访问次数、旅客信息访问次数、机票查询总停留时间、航班选择总停留时间、旅客信息总停留时间、付费搜索次数、非付费搜索次数、非会员手机登陆次数、会员登陆次数、会员日访问次数、PC端访问次数、移动端访问次数、访问间隔时间、支付订单访问次数、支付出错次数、公务舱次数、明珠经济舱次数、经济舱次数、节假日飞行次数、官网购票国际出行次数、网上值机次数、乘机和购票总间隔时间、折扣票总价、票面价总和、EDM来源访次、百度SEM来源访次、360SEM来源访次、搜狗SEM来源访次、AD来源访次、LIST来源访次、移动官网页面访次、预定行程页面访次、首页,服务大厅页面访次、明珠会员页面访次、收银支付页面访次、机票预定页面访次、员工专区页面访次、提前选座页面访次、网上值机页面访次、明珠商城页面访次、抽奖等营销活动页面访次、其他页面访次。
S52、针对不同类别的访客群体分别训练logit模型,得到各个访客群体对应的训练模型参数,进而获得所述访客流失分析和购票概率预测模型。logit模型主要用于因变量为分类变量(如流失概率、购票概率)的回归分析,自变量可以为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。
S53、将每个访客群体对应的测试数据集应用到对应的训练模型中,对训练模型的效果进行评估。
S54、根据所述访客流失分析和购票概率预测模型,计算出访客流失概率和购票概率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种基于旅客细分的官网访客流失分析方法,其特征在于,包括以下步骤:
S1、获得原始官网访问日志数据;
S2、对所述原始官网访问日志数据进行数据清洗,获得访客行为数据库,所述访客行为数据库包含一组访客行为变量;
S3、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,建立访客价值分析模型,利用PCA算法计算出访客价值得分,所述变量R为最近一次购票时间到观察结束时间的天数,所述变量F为观察时间段内成功购票的次数,所述变量M为观察时间段内总购票金额,所述关键模块访问变量包括收银支付页面访问次数和预定行程页面访问次数;
S4、利用K-means聚类对访客行为数据库进行聚类分析,实现访客群体的分类;
S5、针对不同类别的访客群体分别训练logit模型,获得访客流失分析和购票概率预测模型。
2.如权利要求1所述的一种基于旅客细分的官网访客流失分析方法,其特征在于,在步骤S2中所述数据清洗通过以下方法实现:
利用Hive对原始官网访问日志数据进行第一阶段数据清洗,包括新特征构建、缺失值处理;
利用R语言进行第一阶段数据清洗,包括异常值处理、离群值处理、数据归一化。
3.如权利要求2所述的一种基于旅客细分的官网访客流失分析方法,其特征在于,所述步骤S3通过以下分步骤实现:
S31、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,并作为输入变量,将访客价值得分作为输出变量;
S32、利用PCA算法进行降维处理,压缩得到一维得分列,生成各变量对应的得分权重值,进而获得访客价值得分。
4.如权利要求2所述的一种基于旅客细分的官网访客流失分析方法,其特征在于,所述步骤S4通过以下分步骤实现:
S41、基于所述访客行为数据库提取与访客群体分类相关的访客行为变量,并作为输入变量;
S42、利用碎石图来寻找拐点确定降维数量,根据降维数量对访客行为数据库中的训练数据进行PCA降维处理;
S43、利用Within-Cluster Sum of Squaresn曲线图寻找拐点确定聚类数k,利用K-means聚类算法进行聚类分析,并输出聚类结果;
S44、通过所述聚类结果进行特征分析,进行访客群体分类,并对各个访客群体进行定义。
5.如权利要求4所述的一种基于旅客细分的官网访客流失分析方法,其特征在于,所述步骤S5通过以下分步骤实现:
S51、基于所述访客行为数据库划分出训练数据集和测试数据集;
S52、针对不同类别的访客群体分别训练logit模型,得到各个访客群体对应的训练模型参数,进而获得所述访客流失分析和购票概率预测模型;
S53、将每个访客群体对应的测试数据集应用到对应的训练模型中,对训练模型的效果进行评估;
S54、根据所述访客流失分析和购票概率预测模型,计算出访客流失概率和购票概率。
CN201811631821.XA 2018-12-29 2018-12-29 一种基于旅客细分的官网访客流失分析方法 Pending CN109711896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811631821.XA CN109711896A (zh) 2018-12-29 2018-12-29 一种基于旅客细分的官网访客流失分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811631821.XA CN109711896A (zh) 2018-12-29 2018-12-29 一种基于旅客细分的官网访客流失分析方法

Publications (1)

Publication Number Publication Date
CN109711896A true CN109711896A (zh) 2019-05-03

Family

ID=66258203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811631821.XA Pending CN109711896A (zh) 2018-12-29 2018-12-29 一种基于旅客细分的官网访客流失分析方法

Country Status (1)

Country Link
CN (1) CN109711896A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148747A (zh) * 2020-09-08 2020-12-29 银清科技有限公司 一种基于r语言的交易系统日志分析方法及装置
CN114037160A (zh) * 2021-11-10 2022-02-11 西南交通大学 SEM-Logit旅游铁路客流预测模型的构建方法
WO2022105525A1 (zh) * 2020-11-17 2022-05-27 深圳壹账通智能科技有限公司 预测用户概率的方法、装置和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955894A (zh) * 2012-05-24 2013-03-06 华东师范大学 一种基于用户细分的流失率预测的控制方法
CN108734203A (zh) * 2018-04-27 2018-11-02 厦门快商通信息技术有限公司 一种网站访客价值评估方法
CN108804520A (zh) * 2018-04-27 2018-11-13 厦门快商通信息技术有限公司 一种访客行为分类方法及系统
CN108830645A (zh) * 2018-05-31 2018-11-16 厦门快商通信息技术有限公司 一种访客流失预测方法及系统
US20180341988A1 (en) * 2017-05-26 2018-11-29 American Express Travel Related Services Company, Inc. Consumer identity and security at points of sale

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955894A (zh) * 2012-05-24 2013-03-06 华东师范大学 一种基于用户细分的流失率预测的控制方法
US20180341988A1 (en) * 2017-05-26 2018-11-29 American Express Travel Related Services Company, Inc. Consumer identity and security at points of sale
CN108734203A (zh) * 2018-04-27 2018-11-02 厦门快商通信息技术有限公司 一种网站访客价值评估方法
CN108804520A (zh) * 2018-04-27 2018-11-13 厦门快商通信息技术有限公司 一种访客行为分类方法及系统
CN108830645A (zh) * 2018-05-31 2018-11-16 厦门快商通信息技术有限公司 一种访客流失预测方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148747A (zh) * 2020-09-08 2020-12-29 银清科技有限公司 一种基于r语言的交易系统日志分析方法及装置
WO2022105525A1 (zh) * 2020-11-17 2022-05-27 深圳壹账通智能科技有限公司 预测用户概率的方法、装置和计算机设备
CN114037160A (zh) * 2021-11-10 2022-02-11 西南交通大学 SEM-Logit旅游铁路客流预测模型的构建方法
CN114037160B (zh) * 2021-11-10 2023-04-18 西南交通大学 SEM-Logit旅游铁路客流预测模型的构建方法

Similar Documents

Publication Publication Date Title
Higgins et al. Rapid transit, transit-oriented development, and the contextual sensitivity of land value uplift in Toronto
Greenbaum et al. The impact of state enterprise zones on urban manufacturing establishments
Finocchiaro Castro et al. Searching for the source of technical inefficiency in Italian judicial districts: an empirical investigation
US9639807B2 (en) Method and system for forecasting future events
US11107109B2 (en) Method and system for personalizing offers
Bi et al. Forecasting daily tourism demand for tourist attractions with big data: an ensemble deep learning method
CN109711896A (zh) 一种基于旅客细分的官网访客流失分析方法
US20170154268A1 (en) An automatic statistical processing tool
Viallard et al. Assessing the evolution of transit user behavior from smart card data
Ranjitkar et al. Bus arrival time modeling based on auckland data
Hui et al. The roles of developer’s status and competitive intensity in presale pricing in a residential market: A study of the spatio-temporal model in Hangzhou, China
Qiu et al. Data mining–based disturbances prediction for job shop scheduling
Gupta Applied analytics through case studies using Sas and R: implementing predictive models and machine learning techniques
Ye et al. Clustering-Based Travel Pattern for Individual Travel Prediction of Frequent Passengers by Using Transit Smart Card
Michel et al. Targeting uplift: An introduction to net scores
Huang et al. PRACE: A taxi recommender for finding passengers with deep learning approaches
Chashmi et al. Predicting customer turnover using recursive neural networks
de Oliveira Junior et al. A practical approach to support end-of-life commercial aircraft parking, market relocation, retirement and decommissioning strategic decisions
Shi et al. A big data analytics method for assessing creditworthiness of SMEs: fuzzy equifinality relationships analysis
Fan et al. Deep Learning-Based Dynamic Traffic Assignment With Incomplete Origin–Destination Data
CN113988431A (zh) 一种客户潜在经纪人能力预测方法、系统及设备
Liu et al. A Bayesian predictor of airline class seats based on multinomial event model
US20030046204A1 (en) Method and system for assessing and improving individual customer profitability for a profit-making organization
Petković et al. Prediction of design hourly volume on rural roads
Khan et al. Realistic approach for capacity estimation of U-turns under heterogeneous traffic condition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination