CN114004307A

CN114004307A - 基于用户数据的资费套餐贬损用户预测方法

Info

Publication number: CN114004307A
Application number: CN202111340832.4A
Authority: CN
Inventors: 陈大龙; 郭柏龙; 唐大鹏; 张冬冬
Original assignee: Nanjing Howso Technology Co ltd
Current assignee: Nanjing Howso Technology Co ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-02-01

Abstract

本发明涉及一种基于用户数据的资费套餐贬损用户预测方法，具体包括以下步骤：S1数据采集：从用户数据中，提取出与用户个体行为特征相关的指标；S2数据清洗与样本划分；S3贬损用户预测模型的训练与测试：使用测试集样本数据验证该贬损用户预测模型的效果，同时保存特征筛选后的结果；S4贬损用户归因分析模型训练：S5预测全量用户：将全量用户数据输入贬损用户预测模型，得到潜在的贬损用户。从海量数据中分析用户个体消费行为特征，通过用户的多维度特征高效且低成本的挖掘出潜在的贬损用户，从而针对性的改善用户感知，提升运营商的品牌形象。

Description

基于用户数据的资费套餐贬损用户预测方法

技术领域

本发明涉及通信数据处理技术领域，尤其涉及一种基于用户数据的资费套餐贬损用户预测方法。

背景技术

随着我国通信市场个人用户趋于饱和，三大运营商均面临着用户难以增长的问题，竞争便从增量市场转到了存量市场，如4G用户向5G转化，语音用户向宽带用户转化等。

在如此激烈的竞争背景下，保证存量用户使用体验、减少用户流失，成为电信运营商保持用户和收入增长的重要手段。因此就需要电信运营商加强对贬损用户的维护与挽留，改善贬损用户的质差体验，从而提升品牌形象，保证收入增长。

“贬损用户”指对品牌、产品或服务不满意的人，且此类用户不愿意向别人推荐该公司的产品或服务，从而使企业的销售额和利润下降、品牌形象受损、让竞争对手获利。由此可见，及时发现贬损用户对企业至关重要。

在中国专利文献CN111311338A，公开了一种用户价值的预测方法以及用户价值预测模型的训练方法，一种用户价值的预测方法以及用户价值预测模型的训练方法，预测方法包括：获取待预测用户在新增期的行为特征数据；将行为特征数据作为多类预测模型的输入，获得多类预测模型的价值预测结果；将多类预测模型的价值预测结果作为分类模型的输入，获得分类模型输出的待预测用户的未来价值。在用户成为高价值用户之前可以及时挖掘出潜在的高价值用户，提高了用户价值预测的准确性和及时性。

但是上述技术方案的对于运营商在资费服务方面的贬损用户，没有提供具体的方案进行高效寻找出来，有必要在这方面提供一个新的方案。

发明内容

本发明要解决的技术问题是，提供一种基于用户数据的资费套餐贬损用户预测方法，能够通过大数据建模，高效寻找出运营商在资费服务方面的贬损用户。

为了解决上述技术问题，本发明采用的技术方案是：该基于用户数据的资费套餐贬损用户预测方法，具体包括以下步骤：

S1数据采集：从用户数据中，提取出与用户个体行为特征相关的指标；

S2数据清洗与样本划分：对所述步骤S1中采集的用户数据进行清洗，将清洗后的样本数据划分为贬损用户预测模型的训练集与测试集；

S3贬损用户预测模型的训练与测试：采用所述步骤S2中得到的训练集样本数据训练一个贬损用户预测模型，并使用所述步骤S2中得到的测试集样本数据验证该贬损用户预测模型的效果，同时保存特征筛选后的结果；

S4贬损用户归因分析模型训练：将所述步骤S3中保存的特征筛选后的结果作为归因因子，使用逻辑回归算法训练一个分类模型，并从提取出的逻辑回归模型系数中寻找每个潜在贬损用户的贬损原因；

以往对贬损用户的处理手段是以被动解决投诉用户的诉求为主，辅助手段也仅仅是通过人工经验对个别指标进行潜在贬损用户的判断，上述步骤变被动为主动，使用机器学习算法寻找贬损原因，并进行预测全量用户的潜在贬损概率；此处的逻辑回归算法属于现有的，逻辑回归算法logistic起源于对人口数量增长情况的研究，最重要的工作是Pierre

Verhulst在1838年提出了对人口增长的公式描述。在1958年David Cox在The regression analysis of binary sequences中提出了logistic regression，既逻辑回归；

S5预测全量用户：将全量用户数据输入贬损用户预测模型，得到潜在的贬损用户。

采用本发明的基于用户数据的资费套餐贬损用户预测方法，从海量数据中分析用户个体消费行为特征，通过用户的多维度特征高效且低成本的挖掘出潜在的贬损用户，从而针对性的改善用户感知，提升运营商的品牌形象。

从海量用户数据中，快速聚焦潜在资费贬损用户，从预测出的潜在资费贬损用户中随机抽取验证，贬损率是全量随机用户贬损率的2.58倍，效果显著；同时针对性地锁定可能造成该潜在资费贬损用户体验较差的原因，为电信运营商改进服务质量、提升品牌形象等工作提供了参考依据，助推电信运营商工作的降本增效。

优选的，在所述步骤S3中，所述训练集样本数据使用历史用户调研数据作为正负样本，通过电话外呼方式开展客户资费服务调研，评分0-10分，10分表示非常满意，0分表示非常不满，9-10分为推荐者，7-8分为中立者，0-6分为贬损者。

优选的，在所述步骤S1中，用户数据中与用户个体行为特征相关的指标包括有基础信息、终端信息、投诉信息、五网属性、宽带信息、电视信息、套餐信息、消费行为、营销案信息和掌厅使用信息；

其中，基础信息包括年龄、性别、入网时长、用户星级等指标；终端信息包括是否合约机、和是否4/5G终端；投诉信息包括是否历史投诉用户和当月投诉次数；五网属性包括是否集团网/家庭网用户；宽带信息包括是否宽带用户和宽带带宽；电视信息包括是否互联网电视用户和电视观看时长；套餐信息包括流量主体套餐名称和套餐费用；消费行为包括当月通话分钟数、当月流量使用数和当月短信条数；营销案信息包括营销案个数和营销案到期月份；掌厅使用信息包括掌厅登录天数和掌厅套餐业务接触次数。

优选的，在所述步骤S2中，样本数据的进行清洗包括缺失值填充、错误数据修改、字符串型特征转换、多类别型特征嵌入和套餐价格提取；

其中，套餐价格提取为基于流量套餐名称、语音套餐名称、其他套餐名称的文本信息中匹配出价格信息。

优选的，在所述步骤S3中，对训练集中的样本数据进行特征扩维、特征分箱、数据归一化和特征筛选；

特征扩维是对样本数据的特征进行扩维，包括计算流量套餐饱和度、超流量套餐流量数、超流量套餐费用、语音套餐饱和度、超语音套餐分钟数和超语音套餐费用；

特征分箱是将连续型特征进行离散化的处理，将分箱结果的数据特征与样本数据的特征均保留，同时放入贬损用户预测模型进行特征筛选；

数据归一化是对训练集中的样本数据连续型特征进行了标准化处理，将训练集的均值和方差当做是总体的均值和方差，样本x的标准分数计算如下：

z＝(x-u)/s；

其中u是训练样本的均值，s是训练样本的标准偏差；

特征筛选是采用Boosting算法对样本数据的特征重要性排序进行特征筛选，某个特征的重要性就是它在所有树中出现的次数之和，在特征重要性排序后，保留了前100个特征进入贬损用户预测模型。

在对潜在贬损用户进行预测时，将特征分箱的特征筛选结果保留，并作为贬损用户归因分析的输入从而增加贬损归因的准确性与可解释性；此处的Boosting算法属于现有的，Boosting算法有许多种具体算法，包括但不限于AdaBoosting。1996年Yoav Freund在Experiments with a New Boosting Algorithm中提出了AdaBoost.M1和AdaBoost.M2两种算法，所谓Boosting，就是将弱分离器组合起来形成强分类器的一种方法。

优选的，在所述步骤S4中，根据得到的逻辑回归模型系数计算出各个特征对资费贬损的贡献度，在逻辑回归模型中，变量x与概率是非线性关系：

为胜率，是指事件发生的概率与事件不发生概率的比值；胜率和变量x的系数是线性关系；β₀是x的系数；β₁，β₂...β_n是对应变量x₁，x₂...x_n的系数；

预测全量用户的资费贬损概率，输出贬损概率最高的用户，根据逻辑回归模型的系数与用户特征，分别计算出输出的用户的特征贡献度，将每个用户特征贡献度排名前三的特征输出，作为潜在的资费贬损原因。

分析潜在贬损用户的特征权重，便于运营商快速定位贬损用户的贬损原因。

与现有技术相比，本发明具有的有益效果是：以往对贬损用户的处理手段是以被动解决投诉用户的诉求为主，辅助手段也仅仅是通过人工经验对个别指标进行潜在贬损用户的判断，本发明的方法是变被动为主动，使用机器学习算法预测全量用户的潜在贬损概率。

附图说明

下面结合附图进一步描述本发明的技术方案：

图1是本发明的基于用户数据的资费套餐贬损用户预测方法的流程图；

图2是逻辑回归模型系数的分布示意图。

具体实施方式

为了加深对本发明的理解，下面将结合附图和实施例对本发明做进一步详细描述，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

实施例：如图1所示，该基于用户数据的资费套餐贬损用户预测方法，具体包括以下步骤：

S4贬损用户归因分析模型训练：将所述步骤S3中保存的特征筛选后的结果作为归因因子，使用逻辑回归算法(logisti起源于对人口数量增长情况的研究，最重要的工作是Pierre

Verhulst在1838年提出了对人口增长的公式描述。在1958年David Cox在The regression analysis of binary sequences中提出了logistic regression，既逻辑回归)训练一个分类模型，并从提取出的逻辑回归模型系数中寻找每个潜在贬损用户的贬损原因；

具体的在进行步骤S4中的分类模型训练时，由于样本比例失衡，因此在训练分类模型时，选择不同的用户作为贬损代表用户，并尝试不同的正负样本组合方法，通过预留的验证集测试模型效果，采用XGBoost分类算法(XGBoost算法是Tianqi Chen等人在2016年发表的《xgboost:Extreme Gradient Boosting》中提出的机器学习算法)作为建模方法并保持默认参数不变，实验结果如下表1所示：

表1负样本采样表：

由于低分用户样本过少，需要通过负样本的过采样以及正样本的欠采样来保证分类模型的样本均衡，同时尽量使用更低分的用户作为负样本。从上表1可看出，使用5分及以下用户作为负样本效果较好，在此基础上，使用不同正负样本比例调优模型，实验结果如下表2所示：

表2样本比例调优表：

通过实验，确定超参数如下表3所示：

表3：

使用以上最优参数训练模型时，可以得到预留的验证集结果如下表4所示：

表4实验结果表：

Accuracy(准确率)	88.42％
		f1-score(f1评分)	93.78％
0_precision(0类准确率)	22.86％

其中0_precision是预测出贬损用户的准确率，是随机用户贬损率(8.86％)的2.58倍，模型效果显著。

在所述步骤S3中，所述训练集样本数据使用历史用户调研数据作为正负样本，通过电话外呼方式开展客户资费服务调研，评分0-10分，10分表示非常满意，0分表示非常不满，9-10分为推荐者，7-8分为中立者，0-6分为贬损者。

在所述步骤S1中，用户数据中与用户个体行为特征相关的指标包括有基础信息、终端信息、投诉信息、五网属性、宽带信息、电视信息、套餐信息、消费行为、营销案信息和掌厅使用信息；

在所述步骤S2中，样本数据的进行清洗包括缺失值填充、错误数据修改、字符串型特征转换、多类别型特征嵌入和套餐价格提取；

在所述步骤S3中，对训练集中的样本数据进行特征扩维、特征分箱、数据归一化和特征筛选；

z＝(x-u)/s；

其中u是训练样本的均值，s是训练样本的标准偏差；

在所述步骤S4中，根据得到的逻辑回归模型系数计算出各个特征对资费贬损的贡献度，在逻辑回归模型中，变量x与概率是非线性关系：

用户的特征贡献度如下表5-1和5-2所示：

表5-1：

省内流量	语音套餐价格	其他费用	省外流量_L_2	当月充值次数	当月流量使用	是否中高端用户	流量费用
								19.36	0	0	26.74	1	297.53		79.92
108.19	18	1	3785.69	1	456.42		41.04
								69.14	18	1.2	330.75	1	422.66	1	24.7
20.02	0	0	376.67		667.15		13.13
								4.76	18	11	351.01	3	176.2		79.25
3.5	28	1.1	116.55	1	179.07	1	51.24
								27.87	58	0.3	250.64	1	3185.17	1	73.36
3193.12	48	0		1	3193.64		20.3
								2.89	68	1		2	2.78	1	64.12
	0	0	3.42	2	736.67		50.19

表5-2：

省外流量	DOU	MOU_avg	流量套餐价格	当月充值费用	DOU_L_2	入网时长(月)	省外流量占比_l1
								23.99	297.53	272.3333333	18	30	298.63	190.26	0.418127731
207.83	456.42	124.3333333	30	50	10742.69	173.42
								98.64	422.66	746	20	50	850.36	172.26	0.079315442
434.68	667.15		0		2824.11	9.84
									176.2	275.6666667	120	130	33187.37	89.45
172.4	179.07	602	30	100	304.69	193.68	1
								261.57	3185.17	1148.666667	30	120	3683.13	186.97	0.022132096
	3193.64	2	30	50	0.58	9
									2.78	485.6666667	10	100	0.07	181.65
	736.67	619.6666667	18	100	390.66	109.84

最后将每个用户特征贡献度排名前三的特征输出，作为潜在的资费贬损原因，如表6显著指标输出数据表：

表6：

号码	pred_prob	显著指标
			*********	0.8361655	[’语音套餐价格’，’当月充值费用’，’是否集团网用户’]
*********	0.8321559	[’当月赠送流量使用’，’当月充值费用’，’证件性别’]
			*********	0.8309916	[’当月赠送流量使用’，’当月充值费用’，’是否名下多号用户’]
*********	0.8307373	[’入网时长(月)’，’语音套餐价格’，’当月赠送流量使用’]
			*********	0.8305435	[’家庭网下组合人数’，’当月赠送流量使用’，’证件性别’]
*********	0.8288603	[’是否集团网用户’，’当月赠送流量使用’，’是否自选套餐’]
			*********	0.82779497	[’是否集团网用户’，家庭网下组合人数’，’当月赠送流量使用’]
*********	0.8229187	[’入网时长(月)’，’5G流量’，’当月充值费用’]
			*********	0.82116157	[’当月赠送流量使用’，’是否自选套餐’，’省内流量’]
*********	0.8197081	[’套餐外流量’，’语音套餐价格’，’当月赠送流量使用’]
			*********	0.81939983	[’家庭网下组合人数’，’是否集团网用户’，’当月赠送流量使用’]
*********	0.818762	[’当月充值费用’，’是否集团网用户’，’家庭网下组合人数’]
			*********	0.81679404	[’当月赠送流量使用’，’是否自选套餐’，’省内流量’]
*********	0.8164573	[’是否集团网用户’，’当月赠送流量使用’，’证件性别’]
			*********	0.81639314	[’是否集团网用户’，’当月赠送流量使用’，’是否自选套餐’]
*********	0.8140651	[’是否集团网用户’，’当月赠送流量使用’，’是否自选套餐’]
			*********	0.81387603	[’当月赠送流量使用’，’入网时长(月)’，’流量费用’]
*********	0.81286836	[’是否宽带用户’，’省外流量L2’，’是否宽带活跃用户’]
			*********	0.8122314	[’入网时(月)’，’语音套餐价格’，’当月赠送流量使用’]

由于特征已经标准化(或者归一化)处理，系数的绝对值越大，则该特征越重要。若系数为正，该特征与目标值为1的概率正相关；若系数为负，这个特征与目标值为0的概率正相关。

如果x₁增加一个单位，则胜率：

以系数β₁为例，如果x₁是连续变量，当x₁变化一个单位且其他变量保持不变时，胜率变成了原来的

倍，e是常数，β₀是x的系数；β₁，β₂...β_n是对应变量x₁，x₂...x_n的系数。

因此，可以近似认为在特征统一量纲的前提下，逻辑回归的系数可以当作胜率的权重

该系数可表示它的存在使得概率如何变化。

使用逻辑回归算法训练一个分类模型，并提取出逻辑回归模型的系数，如下图2所示。

对于本领域的普通技术人员而言，具体实施例只是对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种基于用户数据的资费套餐贬损用户预测方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于用户数据的资费套餐贬损用户预测方法，其特征在于，在所述步骤S3中，所述训练集样本数据使用历史用户调研数据作为正负样本，通过电话外呼方式开展客户资费服务调研，评分0-10分，10分表示非常满意，0分表示非常不满，9-10分为推荐者，7-8分为中立者，0-6分为贬损者。

3.根据权利要求1所述的基于用户数据的资费套餐贬损用户预测方法，其特征在于，在所述步骤S1中，用户数据中与用户个体行为特征相关的指标包括有基础信息、终端信息、投诉信息、五网属性、宽带信息、电视信息、套餐信息、消费行为、营销案信息和掌厅使用信息；

4.根据权利要求1所述的基于用户数据的资费套餐贬损用户预测方法，其特征在于，在所述步骤S2中，样本数据的进行清洗包括缺失值填充、错误数据修改、字符串型特征转换、多类别型特征嵌入和套餐价格提取；

5.根据权利要求1所述的基于用户数据的资费套餐贬损用户预测方法，其特征在于，在所述步骤S3中，对训练集中的样本数据进行特征扩维、特征分箱、数据归一化和特征筛选；

z＝(x-u)/s；

其中u是训练样本的均值，s是训练样本的标准偏差；

6.根据权利要求1所述的基于用户数据的资费套餐贬损用户预测方法，其特征在于，在所述步骤S4中，根据得到的逻辑回归模型系数计算出各个特征对资费贬损的贡献度，在逻辑回归模型中，变量x与概率是非线性关系：

为胜率，是指事件发生的概率与事件不发生概率的比值；胜率和变量x的系数是线性关系；β₀是x的系数；β₁，β₂…β_n是对应变量x₁，x₂…x_n的系数；