CN109784966A - 一种音乐网站客户流失预测方法 - Google Patents

一种音乐网站客户流失预测方法 Download PDF

Info

Publication number
CN109784966A
CN109784966A CN201811444669.4A CN201811444669A CN109784966A CN 109784966 A CN109784966 A CN 109784966A CN 201811444669 A CN201811444669 A CN 201811444669A CN 109784966 A CN109784966 A CN 109784966A
Authority
CN
China
Prior art keywords
data
training
sample
customer churn
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811444669.4A
Other languages
English (en)
Inventor
吴晟
刘叶
韩林峄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201811444669.4A priority Critical patent/CN109784966A/zh
Publication of CN109784966A publication Critical patent/CN109784966A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种音乐网站客户流失预测方法,属于分类预测领域。本发明首先通过对音乐网站中的客户信息库中的数据进行分析和预处理,确定客户特征和目标变量得到集成表格;然后把历史数据分为训练样本集和测试样本集,根据训练样本集来训练模型,根据测试样本集来对训练模型进行测试、评价和优化;最后,将增量数据利用训练模型来预测客户是否流失。本发明与现有方案相比,主要解决了现有方案在对客户流失预测时存在的灵活性不足、准确度低等现象,提高了利用随机森林算法对客户流失预测的灵活性和准确度。

Description

一种音乐网站客户流失预测方法
技术领域
本发明涉及一种音乐网站客户流失预测方法,属于分类预测技术领域。
背景技术
客户流失预测是分类预测领域的一项基本研究,客户流失对利润增长造成的负面影响非常大,仅次于公司规模、市场占有率、单位成本等因素的影响,并且流失一个老客户比获得一个新客户对公司的损失更大,因此,建立合理的客户流失模型,进行客户流失类别预测,是解决问题的关键。
预测客户流失本质上可以看作一个二分类问题,可以选择的算法主要有逻辑回归、决策树、神经网络、支持向量机等等。决策树这种算法容易过拟合,一般可以利用剪枝,交叉验证或者随机森林的方法来解决这个问题,其中采用随机森林的方法更常见一些。随机森林即为训练多个决策树,然后利用多个决策树的结果共同预测某个样本的类别。
发明内容
本发明要解决的技术问题是针对现有方案的局限和不足,提供一种音乐网站客户流失预测方法,以解决现有方案在对客户流失预测时存在的灵活性不足、准确度低等现象,致力于提高利用随机森林算法对客户流失预测的灵活性和准确度。
本发明的技术方案是:一种音乐网站客户流失预测方法,首先通过对音乐网站中的客户信息库中的数据进行分析和预处理,确定客户特征和目标变量得到集成表格;然后把历史数据分为训练样本集和测试样本集,根据训练样本集来训练模型,根据测试样本集来对训练模型进行测试、评价和优化;最后,将增量数据利用训练模型来预测客户是否流失。
具体包括以下步骤:
Step1:抽取数据;以音乐网站当前月为标准抽取前三个月的用户信息作为历史数据A,抽取本月用户数据及后续新增的用户信息作为增量数据B;
Step2:对历史数据A及增量数据B进行探索性分析,主要是对数据进行缺失值和异常值分析;具体如Step2.1~Step2.2所示;
Step2.1:抽取的数据中可能存在性别、年龄为空值,以及年龄超过100岁的数据,将在此情况下的数据标记为D;
Step2.2:查找出标记数据D特征观测值中空值的个数,以及年龄的最大值、最小值;
Step3:对历史数据A及增量数据B进行数据预处理,得到新的历史数据A′及增量数据B′,具体如Step3.1~Step3.3所示;
Step3.1:数据清洗;丢弃性别为空的记录;年龄大于90岁小于10岁的记录替换为空值,丢弃年龄为空的记录;
Step3.2:特征规约;原始数据中特征太多,删除不相关、弱相关以及冗余特征,选择与模型相关的特征;
Step3.3:数据变换;将抽取的数据转换为“适当”的格式,以适应挖掘任务及算法的需要;
Step4:确定目标变量;在客户流失场景中,用“0”和“1”来标识某个用户是否流失,其中“1”表示用户流失,“0”表示用户未流失;
Step5:根据数据指标特征和目标变量,历史数据A′得到集成表格A′Tab,增量数据B′得到无目标变量的集成表格B′Tab,其中表格中每一行对应一个样本,每一列对应一个特征;
Step6:按照7:3的分割比例将集成表格A′Tab分割成训练样本集M和测试样本集N,模型的构建主要分为根据训练样本集进行模型训练和根据测试样本集对训练模型进行测试并评价模型效果;
Step7:建立客户流失预测模型;详细过程如Step7.1~Step7.5;
Step7.1:对训练样本集M采用Bootstraping方法随机有放回采样选出m个样本,共进行n次采样,生成n个训练集;
Step7.2:对于n个训练集,分别训练n个决策树模型;
Step.7.3:对于单个决策树模型,每个样本有T个特征,随机选取t个特征,采取校验函数信息增益比根据信息增益比越大不确定性越小原则选择最佳分类点;
Step7.4:每棵树都按上述分裂方式进行分裂,直到该节点的所有训练样例都属于同一类;
Step7.5:将生成的多棵决策树组成随机森林,按多棵树分类器投票决定最终分类结果;
Step8:对测试样本集N运用训练模型进行预测,用准确率和召回率对模型进行评价;
Step9:将预处理后的增量数据B′生成的集成表格B′Tab采用训练模型来对用户是否流失进行预测。
进一步地,所述步骤Step3.2中,选取的数据特征有用户等级、用户性别、用户年龄、注册时间、每月充值总额、每月消费总额、每月活跃天数、每月月登陆次数、每月登陆总时长。
进一步地,所述步骤Step3.3中,采取的数据格式转换方式有特征构造和数据标准化,运用正太标准化方法将所有变量数据通过标准化转化为均值为“0”,方差为“1”的无量纲数值,其计算公式如(1)所示,其中,平均值标准偏差
进一步地,所述步骤Step6中,按7:3的比例分割为训练样本和测试样本是为了方便查看在训练集上训练所得模型是否在测试集中可以取得理想效果。
进一步地,所述步骤Step7.3中为了选择最佳分类点,选取的校验函数是特征P对训练样本集M的信息增益比,其计算公式如(2)所示,其中,
进一步地,所述步骤Step7.5中,多棵树分类器是指每次依据不同的特征信息对数据集进行划分,划分的最终结果是一棵树,该树的每个子树存放一个划分集,而每个叶节点则表示最终分类结果。
进一步地,根据权利要求5所述的一种音乐网站客户流失预测方法,其特征在于:所述步骤Step8中,准确率是指预测称流失的样本中真实流失样本占比,召回率是指原本即为流失样本且预测成流失样本的样本在真实流失样本中的占比。
本发明的有益效果是:解决了现有方案在对客户流失预测时存在的灵活性不足、准确度低等现象,提高了利用随机森林算法对客户流失预测的灵活性和准确度。
附图说明
图1是本发明的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种音乐网站客户流失预测方法,首先通过对音乐网站中的客户信息库中的数据进行分析和预处理,确定客户特征和目标变量得到集成表格;然后把历史数据分为训练样本集和测试样本集,根据训练样本集来训练模型,根据测试样本集来对训练模型进行测试、评价和优化;最后,将增量数据利用训练模型来预测客户是否流失。
具体包括以下步骤:
Step1:抽取数据;以音乐网站当前月为标准抽取前三个月的用户信息作为历史数据A,抽取本月用户数据及后续新增的用户信息作为增量数据B;
Step2:对历史数据A及增量数据B进行探索性分析,主要是对数据进行缺失值和异常值分析;具体如Step2.1~Step2.2所示;
Step2.1:抽取的数据中可能存在性别、年龄为空值,以及年龄超过100岁的数据,将在此情况下的数据标记为D;
Step2.2:查找出标记数据D特征观测值中空值的个数,以及年龄的最大值、最小值;
Step3:对历史数据A及增量数据B进行数据预处理,得到新的历史数据A′及增量数据B′,具体如Step3.1~Step3.3所示;
Step3.1:数据清洗;丢弃性别为空的记录;年龄大于90岁小于10岁的记录替换为空值,丢弃年龄为空的记录;
Step3.2:特征规约;原始数据中特征太多,删除不相关、弱相关以及冗余特征,选择与模型相关的特征;
Step3.3:数据变换;将抽取的数据转换为“适当”的格式,以适应挖掘任务及算法的需要;
Step4:确定目标变量;在客户流失场景中,用“0”和“1”来标识某个用户是否流失,其中“1”表示用户流失,“0”表示用户未流失;
Step5:根据数据指标特征和目标变量,历史数据A′得到集成表格A′Tab,增量数据B′得到无目标变量的集成表格B′Tab,其中表格中每一行对应一个样本,每一列对应一个特征;
Step6:按照7:3的分割比例将集成表格A′Tab分割成训练样本集M和测试样本集N,模型的构建主要分为根据训练样本集进行模型训练和根据测试样本集对训练模型进行测试并评价模型效果;
Step7:建立客户流失预测模型;详细过程如Step7.1~Step7.5;
Step7.1:对训练样本集M采用Bootstraping方法随机有放回采样选出m个样本,共进行n次采样,生成n个训练集;
Step7.2:对于n个训练集,分别训练n个决策树模型;
Step.7.3:对于单个决策树模型,每个样本有T个特征,随机选取t个特征,采取校验函数信息增益比根据信息增益比越大不确定性越小原则选择最佳分类点;
Step7.4:每棵树都按上述分裂方式进行分裂,直到该节点的所有训练样例都属于同一类;
Step7.5:将生成的多棵决策树组成随机森林,按多棵树分类器投票决定最终分类结果;
Step8:对测试样本集N运用训练模型进行预测,用准确率和召回率对模型进行评价;
Step9:将预处理后的增量数据B′生成的集成表格B′Tab采用训练模型来对用户是否流失进行预测。
进一步地,所述步骤Step3.2中,选取的数据特征有用户等级、用户性别、用户年龄、注册时间、每月充值总额、每月消费总额、每月活跃天数、每月月登陆次数、每月登陆总时长。
进一步地,所述步骤Step3.3中,采取的数据格式转换方式有特征构造和数据标准化,运用正太标准化方法将所有变量数据通过标准化转化为均值为“0”,方差为“1”的无量纲数值,其计算公式如(1)所示,其中,平均值标准偏差
进一步地,所述步骤Step6中,按7:3的比例分割为训练样本和测试样本是为了方便查看在训练集上训练所得模型是否在测试集中可以取得理想效果。
进一步地,所述步骤Step7.3中为了选择最佳分类点,选取的校验函数是特征P对训练样本集M的信息增益比,其计算公式如(2)所示,其中,
进一步地,所述步骤Step7.5中,多棵树分类器是指每次依据不同的特征信息对数据集进行划分,划分的最终结果是一棵树,该树的每个子树存放一个划分集,而每个叶节点则表示最终分类结果。
进一步地,根据权利要求5所述的一种音乐网站客户流失预测方法,其特征在于:所述步骤Step8中,准确率是指预测称流失的样本中真实流失样本占比,召回率是指原本即为流失样本且预测成流失样本的样本在真实流失样本中的占比。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.一种音乐网站客户流失预测方法,其特征在于:
Step1:抽取数据;以音乐网站当前月为标准抽取前三个月的用户信息作为历史数据A,抽取本月用户数据及后续新增的用户信息作为增量数据B;
Step2:对历史数据A及增量数据B进行探索性分析,对数据进行缺失值和异常值分析;具体步骤如Step2.1~Step2.2所示;
Step2.1:抽取的数据中若存在性别、年龄为空值,以及年龄超过100岁的数据,将在此情况下的数据标记为D;
Step2.2:查找出标记数据D特征观测值中空值的个数,以及年龄的最大值、最小值;
Step3:对历史数据A及增量数据B进行数据预处理,得到新的历史数据A′及增量数据B′,具体步骤如Step3.1~Step3.3所示;
Step3.1:数据清洗;丢弃性别为空的记录;年龄大于90岁小于10岁的记录替换为空值,丢弃年龄为空的记录;
Step3.2:特征规约;原始数据中特征太多,删除不相关、弱相关以及冗余特征,选择与模型相关的特征;
Step3.3:数据变换;将抽取的数据转换为“适当”的格式,以适应挖掘任务及算法的需要;
Step4:确定目标变量;在客户流失场景中,用“0”和“1”来标识某个用户是否流失,其中“1”表示用户流失,“0”表示用户未流失;
Step5:根据数据指标特征和目标变量,历史数据A′得到集成表格A′Tab,增量数据B′得到无目标变量的集成表格B′Tab,其中表格中每一行对应一个样本,每一列对应一个特征;
Step6:按照7:3的分割比例将集成表格A′Tab分割成训练样本集M和测试样本集N,模型的构建主要分为根据训练样本集进行模型训练和根据测试样本集对训练模型进行测试并评价模型效果;
Step7:建立客户流失预测模型;具体步骤如Step7.1~Step7.5;
Step7.1:对训练样本集M采用Bootstraping方法随机有放回采样选出m个样本,共进行n次采样,生成n个训练集;
Step7.2:对于n个训练集,分别训练n个决策树模型;
Step.7.3:对于单个决策树模型,每个样本有T个特征,随机选取t个特征,采取校验函数信息增益比根据信息增益比越大不确定性越小原则选择最佳分类点;
Step7.4:每棵树都按上述分裂方式进行分裂,直到该节点的所有训练样例都属于同一类;
Step7.5:将生成的多棵决策树组成随机森林,按多棵树分类器投票决定最终分类结果;
Step8:对测试样本集N运用训练模型进行预测,用准确率和召回率对模型进行评价;
Step9:将预处理后的增量数据B′生成的集成表格B′Tab采用训练模型来对用户是否流失进行预测。
2.根据权利要求1所述的音乐网站客户流失预测方法,其特征在于:所述步骤Step3.2中,选取的数据特征有用户等级、用户性别、用户年龄、注册时间、每月充值总额、每月消费总额、每月活跃天数、每月月登陆次数、每月登陆总时长。
3.根据权利要求1所述的音乐网站客户流失预测方法,其特征在于:所述步骤Step3.3中,采取的数据格式转换方式有特征构造和数据标准化,运用正太标准化方法将所有变量数据通过标准化转化为均值为“0”,方差为“1”的无量纲数值,其计算公式如(1)所示,其中,平均值标准偏差
4.根据权利要求1所述的音乐网站客户流失预测方法,其特征在于:所述步骤Step7.3中为了选择最佳分类点,选取的校验函数是特征P对训练样本集M的信息增益比,其计算公式如(2)所示,其中,
5.根据权利要求1所述的音乐网站客户流失预测方法,其特征在于:所述步骤Step7.5中,多棵树分类器是指每次依据不同的特征信息对数据集进行划分,划分的最终结果是一棵树,该树的每个子树存放一个划分集,而每个叶节点则表示最终分类结果。
6.根据权利要求1所述的音乐网站客户流失预测方法,其特征在于:所述步骤Step8中,准确率是指预测称流失的样本中真实流失样本占比,召回率是指原本即为流失样本且预测成流失样本的样本在真实流失样本中的占比。
CN201811444669.4A 2018-11-29 2018-11-29 一种音乐网站客户流失预测方法 Pending CN109784966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811444669.4A CN109784966A (zh) 2018-11-29 2018-11-29 一种音乐网站客户流失预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811444669.4A CN109784966A (zh) 2018-11-29 2018-11-29 一种音乐网站客户流失预测方法

Publications (1)

Publication Number Publication Date
CN109784966A true CN109784966A (zh) 2019-05-21

Family

ID=66496044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811444669.4A Pending CN109784966A (zh) 2018-11-29 2018-11-29 一种音乐网站客户流失预测方法

Country Status (1)

Country Link
CN (1) CN109784966A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363244A (zh) * 2019-07-16 2019-10-22 中国工商银行股份有限公司 一种营销数据处理的方法和装置
CN110837931A (zh) * 2019-11-08 2020-02-25 中国农业银行股份有限公司 客户流失预测方法、装置及存储介质
CN110928924A (zh) * 2019-11-28 2020-03-27 江苏电力信息技术有限公司 基于神经网络的电力系统客户满意度分析与预测方法
CN111784385A (zh) * 2020-06-19 2020-10-16 杭州未名信科科技有限公司 面向制造业的客户画像构建方法及装置、计算机存储介质
CN112148919A (zh) * 2020-09-30 2020-12-29 哈尔滨理工大学 一种基于梯度提升树算法的音乐点击率预测方法及装置
CN112749739A (zh) * 2020-12-31 2021-05-04 天博电子信息科技有限公司 一种网络入侵检测方法
CN112884515A (zh) * 2021-02-22 2021-06-01 上海汽车集团股份有限公司 用户流失的预测方法、装置及计算机存储介质
WO2022041403A1 (zh) * 2020-08-26 2022-03-03 中山世达模型制造有限公司 销售订单的预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069534A (zh) * 2015-08-18 2015-11-18 广州华多网络科技有限公司 客户流失预测方法以及装置
CN108830645A (zh) * 2018-05-31 2018-11-16 厦门快商通信息技术有限公司 一种访客流失预测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069534A (zh) * 2015-08-18 2015-11-18 广州华多网络科技有限公司 客户流失预测方法以及装置
CN108830645A (zh) * 2018-05-31 2018-11-16 厦门快商通信息技术有限公司 一种访客流失预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张婧姣: "电信社会网络离网用户预测及分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363244A (zh) * 2019-07-16 2019-10-22 中国工商银行股份有限公司 一种营销数据处理的方法和装置
CN110837931A (zh) * 2019-11-08 2020-02-25 中国农业银行股份有限公司 客户流失预测方法、装置及存储介质
CN110837931B (zh) * 2019-11-08 2023-01-31 中国农业银行股份有限公司 客户流失预测方法、装置及存储介质
CN110928924A (zh) * 2019-11-28 2020-03-27 江苏电力信息技术有限公司 基于神经网络的电力系统客户满意度分析与预测方法
CN111784385A (zh) * 2020-06-19 2020-10-16 杭州未名信科科技有限公司 面向制造业的客户画像构建方法及装置、计算机存储介质
WO2022041403A1 (zh) * 2020-08-26 2022-03-03 中山世达模型制造有限公司 销售订单的预测方法
CN112148919A (zh) * 2020-09-30 2020-12-29 哈尔滨理工大学 一种基于梯度提升树算法的音乐点击率预测方法及装置
CN112749739A (zh) * 2020-12-31 2021-05-04 天博电子信息科技有限公司 一种网络入侵检测方法
CN112884515A (zh) * 2021-02-22 2021-06-01 上海汽车集团股份有限公司 用户流失的预测方法、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
CN109784966A (zh) 一种音乐网站客户流失预测方法
Demir et al. Batch-mode active-learning methods for the interactive classification of remote sensing images
Zhao et al. Comparison of decision tree methods for finding active objects
CN103632168B (zh) 一种机器学习中的分类器集成方法
CN110516910A (zh) 基于大数据的保单核保模型训练方法和核保风险评估方法
CN104007431B (zh) 基于dpLVSVM模型的雷达HRRP的目标识别方法
CN108846259A (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN110414555A (zh) 检测异常样本的方法及装置
CN107230108A (zh) 业务数据的处理方法及装置
Papenbrock et al. Handling risk-on/risk-off dynamics with correlation regimes and correlation networks
Witten et al. Supervised multidimensional scaling for visualization, classification, and bipartite ranking
CN112329816A (zh) 数据分类方法、装置、电子设备和可读存储介质
CN112434662B (zh) 一种基于多尺度卷积神经网络的茶叶病斑自动识别算法
CN107578277A (zh) 用于电力营销的出租房客户定位方法
CN106599856A (zh) 一种联合人脸检测、定位和识别的方法
AU2018101531A4 (en) Stock forecast model based on text news by random forest
CN106294882A (zh) 数据挖掘方法以及装置
CN112232944B (zh) 一种评分卡创建方法、装置和电子设备
CN112712383A (zh) 应用程序的潜在用户预测方法、装置、设备及存储介质
Datla Bench marking of classification algorithms: Decision Trees and Random Forests-a case study using R
CN110827131A (zh) 一种分布式自动特征组合的纳税人信用评估方法
CN116109195A (zh) 一种基于图卷积神经网络的绩效评估方法及系统
CN110109902A (zh) 一种基于集成学习方法的电商平台推荐系统
Hanslo et al. Machine learning models to predict agile methodology adoption
Huynh et al. Comparative performance of three length‐based mortality estimators

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521