CN109711896A - 一种基于旅客细分的官网访客流失分析方法 - Google Patents
一种基于旅客细分的官网访客流失分析方法 Download PDFInfo
- Publication number
- CN109711896A CN109711896A CN201811631821.XA CN201811631821A CN109711896A CN 109711896 A CN109711896 A CN 109711896A CN 201811631821 A CN201811631821 A CN 201811631821A CN 109711896 A CN109711896 A CN 109711896A
- Authority
- CN
- China
- Prior art keywords
- visitor
- variable
- official website
- group
- booking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于旅客细分的官网访客流失分析方法,包括以下步骤:获得原始官网访问日志数据;对所述原始官网访问日志数据进行数据清洗;建立访客价值分析模型,利用PCA算法计算出访客价值得分;利用K‑means聚类对访客行为数据库进行聚类分析,实现访客群体的分类;针对不同类别的访客群体分别训练logit模型,获得访客流失分析和购票概率预测模型。本发明基于官网访问日志数据进行数据挖掘,对访客进行价值分析、分群、流失分析及购票概率预测,为营销部门实现精准化营销提供有力依据。
Description
技术领域
本发明涉及大数据处理技术领域,特别涉及一种基于旅客细分的官网访客流失分析方法。
背景技术
目前乘坐民航航班是人们的重要出行方式,随着航空电子商务的不断发展,互联网+的大势所趋,这也需要更完善的营销平台支撑以及日益完善电子营销渠道和功能建设。
目前,各航空公司都已实现了官网购票,但并未对访客行为做深入分析研究,造成对诸如访客价值、流失率、购票率等重要信息的缺失,官网访客行为数据也难以直接产生业务指导作用。
发明内容
为解决上述问题,本发明提供了一种基于旅客细分的官网访客流失分析方法。
本发明采用以下技术方案:
一种基于旅客细分的官网访客流失分析方法,包括以下步骤:
S1、获得原始官网访问日志数据;
S2、对所述原始官网访问日志数据进行数据清洗,获得访客行为数据库,所述访客行为数据库包含一组访客行为变量;
S3、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,建立访客价值分析模型,利用PCA算法计算出访客价值得分,所述变量R为最近一次购票时间到观察结束时间的天数,所述变量F为观察时间段内成功购票的次数,所述变量M为观察时间段内总购票金额,所述关键模块访问变量包括收银支付页面访问次数和预定行程页面访问次数;
S4、利用K-means聚类对访客行为数据库进行聚类分析,实现访客群体的分类;
S5、针对不同类别的访客群体分别训练logit模型,获得访客流失分析和购票概率预测模型。
优选地,在步骤S2中所述数据清洗通过以下方法实现:
利用Hive对原始官网访问日志数据进行第一阶段数据清洗,包括新特征构建、缺失值处理;
利用R语言进行第一阶段数据清洗,包括异常值处理、离群值处理、数据归一化。
优选地,所述步骤S3通过以下分步骤实现:
S31、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,并作为输入变量,将访客价值得分作为输出变量;
S32、利用PCA算法进行降维处理,压缩得到一维得分列,生成各变量对应的得分权重值,进而获得访客价值得分。
优选地,所述步骤S4通过以下分步骤实现:
S41、基于所述访客行为数据库提取与访客群体分类相关的访客行为变量,并作为输入变量;
S42、利用碎石图来寻找拐点确定降维数量,根据降维数量对访客行为数据库中的训练数据进行PCA降维处理;
S43、利用Within-ClusterSumofSquaresn曲线图寻找拐点确定聚类数k,利用K-means聚类算法进行聚类分析,并输出聚类结果;
S44、通过所述聚类结果进行特征分析,进行访客群体分类,并对各个访客群体进行定义。
优选地,所述步骤S5通过以下分步骤实现:
S51、基于所述访客行为数据库划分出训练数据集和测试数据集;
S52、针对不同类别的访客群体分别训练logit模型,得到各个访客群体对应的训练模型参数,进而获得所述访客流失分析和购票概率预测模型;
S53、将每个访客群体对应的测试数据集应用到对应的训练模型中,对训练模型的效果进行评估;
S54、根据所述访客流失分析和购票概率预测模型,计算出访客流失概率和购票概率。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明基于官网访问日志数据进行数据挖掘,对访客进行价值分析、分群、流失分析及购票概率预测,为营销部门实现精准化营销提供有力依据,提升民航企业的竞争力。
附图说明
图1为本发明的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
参考图1所示,本发明公开了一种基于旅客细分的官网访客流失分析方法,包括以下步骤:
S1、获得原始官网访问日志数据。
S2、对所述原始官网访问日志数据进行数据清洗,获得访客行为数据库,所述访客行为数据库包含一组访客行为变量。数据清洗通过以下方法实现:
利用Hive对原始官网访问日志数据进行第一阶段数据清洗,包括新特征构建、缺失值处理。缺失值处理是对变量中存在的缺失数据,根据实际业务意义对数据进行插补。
利用R语言进行第一阶段数据清洗,包括异常值处理、离群值处理、数据归一化。异常值处理是针对访客数据中一些变量存在逻辑上的异常,直接剔除该记录;离群值处理是很对访客数据中一些变量数据存在一些数据分布的离群值点,分离出大于均值加若干倍标准差外的数据;数据归一化是对输入变量单位进行归一化,使得变量间具有可比性。
S3、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,建立访客价值分析模型,利用PCA算法计算出访客价值得分,所述变量R为最近一次购票时间到观察结束时间的天数,所述变量F为观察时间段内成功购票的次数,所述变量M为观察时间段内总购票金额,所述关键模块访问变量包括收银支付页面访问次数和预定行程页面访问次数。步骤S3通过以下分步骤实现:
S31、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,并作为输入变量,将访客价值得分作为输出变量。
S32、利用PCA算法进行降维处理,压缩得到一维得分列,生成各变量对应的得分权重值,进而获得访客价值得分。
S4、利用K-means聚类对访客行为数据库进行聚类分析,实现访客群体的分类。步骤S4通过以下分步骤实现:
S41、基于所述访客行为数据库提取与访客群体分类相关的访客行为变量,并作为输入变量。本实施例中与访客群体分类相关的访客行为变量包括最后一次访问时间距观测窗口结束时间天数、最后一次购票时间距观测窗口结束时间天数、观测窗口内访次数、观测窗口内成功购票次数、观测窗口会话总时长、观测窗口内消费金额、机票查询访问次数、航班选择访问次数、旅客信息访问次数、机票查询总停留时间、航班选择总停留时间、旅客信息总停留时间、付费搜索次数、非付费搜索次数、非会员手机登陆次数、会员登陆次数、会员日访问次数、PC端访问次数、移动端访问次数、访问间隔时间、支付订单访问次数、支付出错次数、公务舱次数、明珠经济舱次数、经济舱次数、节假日飞行次数、官网购票国际出行次数、网上值机次数、乘机和购票总间隔时间、折扣票总价、票面价总和、EDM来源访次、百度SEM来源访次、360SEM来源访次、搜狗SEM来源访次、AD来源访次、LIST来源访次、移动官网页面访次、预定行程页面访次、首页,服务大厅页面访次、明珠会员页面访次、收银支付页面访次、机票预定页面访次、员工专区页面访次、提前选座页面访次、网上值机页面访次、明珠商城页面访次、抽奖等营销活动页面访次、其他页面访次。
S42、利用碎石图来寻找拐点确定降维数量,根据降维数量对访客行为数据库中的训练数据进行PCA降维处理。之所以进行PCA降维,是考虑到变量的数量比较多。
S43、利用Within-ClusterSumofSquaresn曲线图寻找拐点确定聚类数k,利用K-means聚类算法进行聚类分析,并输出聚类结果。
S44、通过所述聚类结果进行特征分析,进行访客群体分类,并对各个访客群体进行定义。
S5、针对不同类别的访客群体分别训练logit模型,获得访客流失分析和购票概率预测模型。步骤S5通过以下分步骤实现:
S51、基于所述访客行为数据库划分出训练数据集和测试数据集。将与访客流失分析和购票概率预测相关的访客行为变量作为输入变量,其在本实施例中包括最后一次访问时间距观测窗口结束时间天数、最后一次购票时间距观测窗口结束时间天数、观测窗口内访次数、观测窗口内成功购票次数、观测窗口会话总时长、观测窗口内消费金额、机票查询访问次数、航班选择访问次数、旅客信息访问次数、机票查询总停留时间、航班选择总停留时间、旅客信息总停留时间、付费搜索次数、非付费搜索次数、非会员手机登陆次数、会员登陆次数、会员日访问次数、PC端访问次数、移动端访问次数、访问间隔时间、支付订单访问次数、支付出错次数、公务舱次数、明珠经济舱次数、经济舱次数、节假日飞行次数、官网购票国际出行次数、网上值机次数、乘机和购票总间隔时间、折扣票总价、票面价总和、EDM来源访次、百度SEM来源访次、360SEM来源访次、搜狗SEM来源访次、AD来源访次、LIST来源访次、移动官网页面访次、预定行程页面访次、首页,服务大厅页面访次、明珠会员页面访次、收银支付页面访次、机票预定页面访次、员工专区页面访次、提前选座页面访次、网上值机页面访次、明珠商城页面访次、抽奖等营销活动页面访次、其他页面访次。
S52、针对不同类别的访客群体分别训练logit模型,得到各个访客群体对应的训练模型参数,进而获得所述访客流失分析和购票概率预测模型。logit模型主要用于因变量为分类变量(如流失概率、购票概率)的回归分析,自变量可以为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。
S53、将每个访客群体对应的测试数据集应用到对应的训练模型中,对训练模型的效果进行评估。
S54、根据所述访客流失分析和购票概率预测模型,计算出访客流失概率和购票概率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (5)
1.一种基于旅客细分的官网访客流失分析方法,其特征在于,包括以下步骤:
S1、获得原始官网访问日志数据;
S2、对所述原始官网访问日志数据进行数据清洗,获得访客行为数据库,所述访客行为数据库包含一组访客行为变量;
S3、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,建立访客价值分析模型,利用PCA算法计算出访客价值得分,所述变量R为最近一次购票时间到观察结束时间的天数,所述变量F为观察时间段内成功购票的次数,所述变量M为观察时间段内总购票金额,所述关键模块访问变量包括收银支付页面访问次数和预定行程页面访问次数;
S4、利用K-means聚类对访客行为数据库进行聚类分析,实现访客群体的分类;
S5、针对不同类别的访客群体分别训练logit模型,获得访客流失分析和购票概率预测模型。
2.如权利要求1所述的一种基于旅客细分的官网访客流失分析方法,其特征在于,在步骤S2中所述数据清洗通过以下方法实现:
利用Hive对原始官网访问日志数据进行第一阶段数据清洗,包括新特征构建、缺失值处理;
利用R语言进行第一阶段数据清洗,包括异常值处理、离群值处理、数据归一化。
3.如权利要求2所述的一种基于旅客细分的官网访客流失分析方法,其特征在于,所述步骤S3通过以下分步骤实现:
S31、基于所述访客行为数据库提取各访客的变量R、变量F、变量M以及关键模块访问变量,并作为输入变量,将访客价值得分作为输出变量;
S32、利用PCA算法进行降维处理,压缩得到一维得分列,生成各变量对应的得分权重值,进而获得访客价值得分。
4.如权利要求2所述的一种基于旅客细分的官网访客流失分析方法,其特征在于,所述步骤S4通过以下分步骤实现:
S41、基于所述访客行为数据库提取与访客群体分类相关的访客行为变量,并作为输入变量;
S42、利用碎石图来寻找拐点确定降维数量,根据降维数量对访客行为数据库中的训练数据进行PCA降维处理;
S43、利用Within-Cluster Sum of Squaresn曲线图寻找拐点确定聚类数k,利用K-means聚类算法进行聚类分析,并输出聚类结果;
S44、通过所述聚类结果进行特征分析,进行访客群体分类,并对各个访客群体进行定义。
5.如权利要求4所述的一种基于旅客细分的官网访客流失分析方法,其特征在于,所述步骤S5通过以下分步骤实现:
S51、基于所述访客行为数据库划分出训练数据集和测试数据集;
S52、针对不同类别的访客群体分别训练logit模型,得到各个访客群体对应的训练模型参数,进而获得所述访客流失分析和购票概率预测模型;
S53、将每个访客群体对应的测试数据集应用到对应的训练模型中,对训练模型的效果进行评估;
S54、根据所述访客流失分析和购票概率预测模型,计算出访客流失概率和购票概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811631821.XA CN109711896A (zh) | 2018-12-29 | 2018-12-29 | 一种基于旅客细分的官网访客流失分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811631821.XA CN109711896A (zh) | 2018-12-29 | 2018-12-29 | 一种基于旅客细分的官网访客流失分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109711896A true CN109711896A (zh) | 2019-05-03 |
Family
ID=66258203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811631821.XA Pending CN109711896A (zh) | 2018-12-29 | 2018-12-29 | 一种基于旅客细分的官网访客流失分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109711896A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148747A (zh) * | 2020-09-08 | 2020-12-29 | 银清科技有限公司 | 一种基于r语言的交易系统日志分析方法及装置 |
CN114037160A (zh) * | 2021-11-10 | 2022-02-11 | 西南交通大学 | SEM-Logit旅游铁路客流预测模型的构建方法 |
WO2022105525A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 预测用户概率的方法、装置和计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955894A (zh) * | 2012-05-24 | 2013-03-06 | 华东师范大学 | 一种基于用户细分的流失率预测的控制方法 |
CN108734203A (zh) * | 2018-04-27 | 2018-11-02 | 厦门快商通信息技术有限公司 | 一种网站访客价值评估方法 |
CN108804520A (zh) * | 2018-04-27 | 2018-11-13 | 厦门快商通信息技术有限公司 | 一种访客行为分类方法及系统 |
CN108830645A (zh) * | 2018-05-31 | 2018-11-16 | 厦门快商通信息技术有限公司 | 一种访客流失预测方法及系统 |
US20180341988A1 (en) * | 2017-05-26 | 2018-11-29 | American Express Travel Related Services Company, Inc. | Consumer identity and security at points of sale |
-
2018
- 2018-12-29 CN CN201811631821.XA patent/CN109711896A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955894A (zh) * | 2012-05-24 | 2013-03-06 | 华东师范大学 | 一种基于用户细分的流失率预测的控制方法 |
US20180341988A1 (en) * | 2017-05-26 | 2018-11-29 | American Express Travel Related Services Company, Inc. | Consumer identity and security at points of sale |
CN108734203A (zh) * | 2018-04-27 | 2018-11-02 | 厦门快商通信息技术有限公司 | 一种网站访客价值评估方法 |
CN108804520A (zh) * | 2018-04-27 | 2018-11-13 | 厦门快商通信息技术有限公司 | 一种访客行为分类方法及系统 |
CN108830645A (zh) * | 2018-05-31 | 2018-11-16 | 厦门快商通信息技术有限公司 | 一种访客流失预测方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148747A (zh) * | 2020-09-08 | 2020-12-29 | 银清科技有限公司 | 一种基于r语言的交易系统日志分析方法及装置 |
WO2022105525A1 (zh) * | 2020-11-17 | 2022-05-27 | 深圳壹账通智能科技有限公司 | 预测用户概率的方法、装置和计算机设备 |
CN114037160A (zh) * | 2021-11-10 | 2022-02-11 | 西南交通大学 | SEM-Logit旅游铁路客流预测模型的构建方法 |
CN114037160B (zh) * | 2021-11-10 | 2023-04-18 | 西南交通大学 | SEM-Logit旅游铁路客流预测模型的构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Higgins et al. | Rapid transit, transit-oriented development, and the contextual sensitivity of land value uplift in Toronto | |
Greenbaum et al. | The impact of state enterprise zones on urban manufacturing establishments | |
Finocchiaro Castro et al. | Searching for the source of technical inefficiency in Italian judicial districts: an empirical investigation | |
US9639807B2 (en) | Method and system for forecasting future events | |
US11107109B2 (en) | Method and system for personalizing offers | |
Bi et al. | Forecasting daily tourism demand for tourist attractions with big data: an ensemble deep learning method | |
CN109711896A (zh) | 一种基于旅客细分的官网访客流失分析方法 | |
US20170154268A1 (en) | An automatic statistical processing tool | |
Viallard et al. | Assessing the evolution of transit user behavior from smart card data | |
Ranjitkar et al. | Bus arrival time modeling based on auckland data | |
Hui et al. | The roles of developer’s status and competitive intensity in presale pricing in a residential market: A study of the spatio-temporal model in Hangzhou, China | |
Qiu et al. | Data mining–based disturbances prediction for job shop scheduling | |
Gupta | Applied analytics through case studies using Sas and R: implementing predictive models and machine learning techniques | |
Ye et al. | Clustering-Based Travel Pattern for Individual Travel Prediction of Frequent Passengers by Using Transit Smart Card | |
Michel et al. | Targeting uplift: An introduction to net scores | |
Huang et al. | PRACE: A taxi recommender for finding passengers with deep learning approaches | |
Chashmi et al. | Predicting customer turnover using recursive neural networks | |
de Oliveira Junior et al. | A practical approach to support end-of-life commercial aircraft parking, market relocation, retirement and decommissioning strategic decisions | |
Shi et al. | A big data analytics method for assessing creditworthiness of SMEs: fuzzy equifinality relationships analysis | |
Fan et al. | Deep Learning-Based Dynamic Traffic Assignment With Incomplete Origin–Destination Data | |
CN113988431A (zh) | 一种客户潜在经纪人能力预测方法、系统及设备 | |
Liu et al. | A Bayesian predictor of airline class seats based on multinomial event model | |
US20030046204A1 (en) | Method and system for assessing and improving individual customer profitability for a profit-making organization | |
Petković et al. | Prediction of design hourly volume on rural roads | |
Khan et al. | Realistic approach for capacity estimation of U-turns under heterogeneous traffic condition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |