CN114004307A - 基于用户数据的资费套餐贬损用户预测方法 - Google Patents

基于用户数据的资费套餐贬损用户预测方法 Download PDF

Info

Publication number
CN114004307A
CN114004307A CN202111340832.4A CN202111340832A CN114004307A CN 114004307 A CN114004307 A CN 114004307A CN 202111340832 A CN202111340832 A CN 202111340832A CN 114004307 A CN114004307 A CN 114004307A
Authority
CN
China
Prior art keywords
user
package
data
feature
derogation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111340832.4A
Other languages
English (en)
Inventor
陈大龙
郭柏龙
唐大鹏
张冬冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Howso Technology Co ltd
Original Assignee
Nanjing Howso Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Howso Technology Co ltd filed Critical Nanjing Howso Technology Co ltd
Priority to CN202111340832.4A priority Critical patent/CN114004307A/zh
Publication of CN114004307A publication Critical patent/CN114004307A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于用户数据的资费套餐贬损用户预测方法,具体包括以下步骤:S1数据采集:从用户数据中,提取出与用户个体行为特征相关的指标;S2数据清洗与样本划分;S3贬损用户预测模型的训练与测试:使用测试集样本数据验证该贬损用户预测模型的效果,同时保存特征筛选后的结果;S4贬损用户归因分析模型训练:S5预测全量用户:将全量用户数据输入贬损用户预测模型,得到潜在的贬损用户。从海量数据中分析用户个体消费行为特征,通过用户的多维度特征高效且低成本的挖掘出潜在的贬损用户,从而针对性的改善用户感知,提升运营商的品牌形象。

Description

基于用户数据的资费套餐贬损用户预测方法
技术领域
本发明涉及通信数据处理技术领域,尤其涉及一种基于用户数据的资费套餐贬损用户预测方法。
背景技术
随着我国通信市场个人用户趋于饱和,三大运营商均面临着用户难以增长的问题,竞争便从增量市场转到了存量市场,如4G用户向5G转化,语音用户向宽带用户转化等。
在如此激烈的竞争背景下,保证存量用户使用体验、减少用户流失,成为电信运营商保持用户和收入增长的重要手段。因此就需要电信运营商加强对贬损用户的维护与挽留,改善贬损用户的质差体验,从而提升品牌形象,保证收入增长。
“贬损用户”指对品牌、产品或服务不满意的人,且此类用户不愿意向别人推荐该公司的产品或服务,从而使企业的销售额和利润下降、品牌形象受损、让竞争对手获利。由此可见,及时发现贬损用户对企业至关重要。
在中国专利文献CN111311338A,公开了一种用户价值的预测方法以及用户价值预测模型的训练方法,一种用户价值的预测方法以及用户价值预测模型的训练方法,预测方法包括:获取待预测用户在新增期的行为特征数据;将行为特征数据作为多类预测模型的输入,获得多类预测模型的价值预测结果;将多类预测模型的价值预测结果作为分类模型的输入,获得分类模型输出的待预测用户的未来价值。在用户成为高价值用户之前可以及时挖掘出潜在的高价值用户,提高了用户价值预测的准确性和及时性。
但是上述技术方案的对于运营商在资费服务方面的贬损用户,没有提供具体的方案进行高效寻找出来,有必要在这方面提供一个新的方案。
发明内容
本发明要解决的技术问题是,提供一种基于用户数据的资费套餐贬损用户预测方法,能够通过大数据建模,高效寻找出运营商在资费服务方面的贬损用户。
为了解决上述技术问题,本发明采用的技术方案是:该基于用户数据的资费套餐贬损用户预测方法,具体包括以下步骤:
S1数据采集:从用户数据中,提取出与用户个体行为特征相关的指标;
S2数据清洗与样本划分:对所述步骤S1中采集的用户数据进行清洗,将清洗后的样本数据划分为贬损用户预测模型的训练集与测试集;
S3贬损用户预测模型的训练与测试:采用所述步骤S2中得到的训练集样本数据训练一个贬损用户预测模型,并使用所述步骤S2中得到的测试集样本数据验证该贬损用户预测模型的效果,同时保存特征筛选后的结果;
S4贬损用户归因分析模型训练:将所述步骤S3中保存的特征筛选后的结果作为归因因子,使用逻辑回归算法训练一个分类模型,并从提取出的逻辑回归模型系数中寻找每个潜在贬损用户的贬损原因;
以往对贬损用户的处理手段是以被动解决投诉用户的诉求为主,辅助手段也仅仅是通过人工经验对个别指标进行潜在贬损用户的判断,上述步骤变被动为主动,使用机器学习算法寻找贬损原因,并进行预测全量用户的潜在贬损概率;此处的逻辑回归算法属于现有的,逻辑回归算法logistic起源于对人口数量增长情况的研究,最重要的工作是Pierre
Figure BDA0003351884660000021
Verhulst在1838年提出了对人口增长的公式描述。在1958年David Cox在The regression analysis of binary sequences中提出了logistic regression,既逻辑回归;
S5预测全量用户:将全量用户数据输入贬损用户预测模型,得到潜在的贬损用户。
采用本发明的基于用户数据的资费套餐贬损用户预测方法,从海量数据中分析用户个体消费行为特征,通过用户的多维度特征高效且低成本的挖掘出潜在的贬损用户,从而针对性的改善用户感知,提升运营商的品牌形象。
从海量用户数据中,快速聚焦潜在资费贬损用户,从预测出的潜在资费贬损用户中随机抽取验证,贬损率是全量随机用户贬损率的2.58倍,效果显著;同时针对性地锁定可能造成该潜在资费贬损用户体验较差的原因,为电信运营商改进服务质量、提升品牌形象等工作提供了参考依据,助推电信运营商工作的降本增效。
优选的,在所述步骤S3中,所述训练集样本数据使用历史用户调研数据作为正负样本,通过电话外呼方式开展客户资费服务调研,评分0-10分,10分表示非常满意,0分表示非常不满,9-10分为推荐者,7-8分为中立者,0-6分为贬损者。
优选的,在所述步骤S1中,用户数据中与用户个体行为特征相关的指标包括有基础信息、终端信息、投诉信息、五网属性、宽带信息、电视信息、套餐信息、消费行为、营销案信息和掌厅使用信息;
其中,基础信息包括年龄、性别、入网时长、用户星级等指标;终端信息包括是否合约机、和是否4/5G终端;投诉信息包括是否历史投诉用户和当月投诉次数;五网属性包括是否集团网/家庭网用户;宽带信息包括是否宽带用户和宽带带宽;电视信息包括是否互联网电视用户和电视观看时长;套餐信息包括流量主体套餐名称和套餐费用;消费行为包括当月通话分钟数、当月流量使用数和当月短信条数;营销案信息包括营销案个数和营销案到期月份;掌厅使用信息包括掌厅登录天数和掌厅套餐业务接触次数。
优选的,在所述步骤S2中,样本数据的进行清洗包括缺失值填充、错误数据修改、字符串型特征转换、多类别型特征嵌入和套餐价格提取;
其中,套餐价格提取为基于流量套餐名称、语音套餐名称、其他套餐名称的文本信息中匹配出价格信息。
优选的,在所述步骤S3中,对训练集中的样本数据进行特征扩维、特征分箱、数据归一化和特征筛选;
特征扩维是对样本数据的特征进行扩维,包括计算流量套餐饱和度、超流量套餐流量数、超流量套餐费用、语音套餐饱和度、超语音套餐分钟数和超语音套餐费用;
特征分箱是将连续型特征进行离散化的处理,将分箱结果的数据特征与样本数据的特征均保留,同时放入贬损用户预测模型进行特征筛选;
数据归一化是对训练集中的样本数据连续型特征进行了标准化处理,将训练集的均值和方差当做是总体的均值和方差,样本x的标准分数计算如下:
z=(x-u)/s;
其中u是训练样本的均值,s是训练样本的标准偏差;
特征筛选是采用Boosting算法对样本数据的特征重要性排序进行特征筛选,某个特征的重要性就是它在所有树中出现的次数之和,在特征重要性排序后,保留了前100个特征进入贬损用户预测模型。
在对潜在贬损用户进行预测时,将特征分箱的特征筛选结果保留,并作为贬损用户归因分析的输入从而增加贬损归因的准确性与可解释性;此处的Boosting算法属于现有的,Boosting算法有许多种具体算法,包括但不限于AdaBoosting。1996年Yoav Freund在Experiments with a New Boosting Algorithm中提出了AdaBoost.M1和AdaBoost.M2两种算法,所谓Boosting,就是将弱分离器组合起来形成强分类器的一种方法。
优选的,在所述步骤S4中,根据得到的逻辑回归模型系数计算出各个特征对资费贬损的贡献度,在逻辑回归模型中,变量x与概率是非线性关系:
Figure BDA0003351884660000041
Figure BDA0003351884660000042
为胜率,是指事件发生的概率与事件不发生概率的比值;胜率和变量x的系数是线性关系;β0是x的系数;β1,β2...βn是对应变量x1,x2...xn的系数;
预测全量用户的资费贬损概率,输出贬损概率最高的用户,根据逻辑回归模型的系数与用户特征,分别计算出输出的用户的特征贡献度,将每个用户特征贡献度排名前三的特征输出,作为潜在的资费贬损原因。
分析潜在贬损用户的特征权重,便于运营商快速定位贬损用户的贬损原因。
与现有技术相比,本发明具有的有益效果是:以往对贬损用户的处理手段是以被动解决投诉用户的诉求为主,辅助手段也仅仅是通过人工经验对个别指标进行潜在贬损用户的判断,本发明的方法是变被动为主动,使用机器学习算法预测全量用户的潜在贬损概率。
附图说明
下面结合附图进一步描述本发明的技术方案:
图1是本发明的基于用户数据的资费套餐贬损用户预测方法的流程图;
图2是逻辑回归模型系数的分布示意图。
具体实施方式
为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
实施例:如图1所示,该基于用户数据的资费套餐贬损用户预测方法,具体包括以下步骤:
S1数据采集:从用户数据中,提取出与用户个体行为特征相关的指标;
S2数据清洗与样本划分:对所述步骤S1中采集的用户数据进行清洗,将清洗后的样本数据划分为贬损用户预测模型的训练集与测试集;
S3贬损用户预测模型的训练与测试:采用所述步骤S2中得到的训练集样本数据训练一个贬损用户预测模型,并使用所述步骤S2中得到的测试集样本数据验证该贬损用户预测模型的效果,同时保存特征筛选后的结果;
S4贬损用户归因分析模型训练:将所述步骤S3中保存的特征筛选后的结果作为归因因子,使用逻辑回归算法(logisti起源于对人口数量增长情况的研究,最重要的工作是Pierre
Figure BDA0003351884660000052
Verhulst在1838年提出了对人口增长的公式描述。在1958年David Cox在The regression analysis of binary sequences中提出了logistic regression,既逻辑回归)训练一个分类模型,并从提取出的逻辑回归模型系数中寻找每个潜在贬损用户的贬损原因;
具体的在进行步骤S4中的分类模型训练时,由于样本比例失衡,因此在训练分类模型时,选择不同的用户作为贬损代表用户,并尝试不同的正负样本组合方法,通过预留的验证集测试模型效果,采用XGBoost分类算法(XGBoost算法是Tianqi Chen等人在2016年发表的《xgboost:Extreme Gradient Boosting》中提出的机器学习算法)作为建模方法并保持默认参数不变,实验结果如下表1所示:
表1负样本采样表:
Figure BDA0003351884660000051
由于低分用户样本过少,需要通过负样本的过采样以及正样本的欠采样来保证分类模型的样本均衡,同时尽量使用更低分的用户作为负样本。从上表1可看出,使用5分及以下用户作为负样本效果较好,在此基础上,使用不同正负样本比例调优模型,实验结果如下表2所示:
表2样本比例调优表:
Figure BDA0003351884660000061
通过实验,确定超参数如下表3所示:
表3:
Figure BDA0003351884660000062
使用以上最优参数训练模型时,可以得到预留的验证集结果如下表4所示:
表4实验结果表:
Accuracy(准确率) 88.42%
f1-score(f1评分) 93.78%
0_precision(0类准确率) 22.86%
其中0_precision是预测出贬损用户的准确率,是随机用户贬损率(8.86%)的2.58倍,模型效果显著。
S5预测全量用户:将全量用户数据输入贬损用户预测模型,得到潜在的贬损用户。
在所述步骤S3中,所述训练集样本数据使用历史用户调研数据作为正负样本,通过电话外呼方式开展客户资费服务调研,评分0-10分,10分表示非常满意,0分表示非常不满,9-10分为推荐者,7-8分为中立者,0-6分为贬损者。
在所述步骤S1中,用户数据中与用户个体行为特征相关的指标包括有基础信息、终端信息、投诉信息、五网属性、宽带信息、电视信息、套餐信息、消费行为、营销案信息和掌厅使用信息;
其中,基础信息包括年龄、性别、入网时长、用户星级等指标;终端信息包括是否合约机、和是否4/5G终端;投诉信息包括是否历史投诉用户和当月投诉次数;五网属性包括是否集团网/家庭网用户;宽带信息包括是否宽带用户和宽带带宽;电视信息包括是否互联网电视用户和电视观看时长;套餐信息包括流量主体套餐名称和套餐费用;消费行为包括当月通话分钟数、当月流量使用数和当月短信条数;营销案信息包括营销案个数和营销案到期月份;掌厅使用信息包括掌厅登录天数和掌厅套餐业务接触次数。
在所述步骤S2中,样本数据的进行清洗包括缺失值填充、错误数据修改、字符串型特征转换、多类别型特征嵌入和套餐价格提取;
其中,套餐价格提取为基于流量套餐名称、语音套餐名称、其他套餐名称的文本信息中匹配出价格信息。
在所述步骤S3中,对训练集中的样本数据进行特征扩维、特征分箱、数据归一化和特征筛选;
特征扩维是对样本数据的特征进行扩维,包括计算流量套餐饱和度、超流量套餐流量数、超流量套餐费用、语音套餐饱和度、超语音套餐分钟数和超语音套餐费用;
特征分箱是将连续型特征进行离散化的处理,将分箱结果的数据特征与样本数据的特征均保留,同时放入贬损用户预测模型进行特征筛选;
数据归一化是对训练集中的样本数据连续型特征进行了标准化处理,将训练集的均值和方差当做是总体的均值和方差,样本x的标准分数计算如下:
z=(x-u)/s;
其中u是训练样本的均值,s是训练样本的标准偏差;
特征筛选是采用Boosting算法对样本数据的特征重要性排序进行特征筛选,某个特征的重要性就是它在所有树中出现的次数之和,在特征重要性排序后,保留了前100个特征进入贬损用户预测模型。
在所述步骤S4中,根据得到的逻辑回归模型系数计算出各个特征对资费贬损的贡献度,在逻辑回归模型中,变量x与概率是非线性关系:
Figure BDA0003351884660000081
Figure BDA0003351884660000082
为胜率,是指事件发生的概率与事件不发生概率的比值;胜率和变量x的系数是线性关系;β0是x的系数;β1,β2...βn是对应变量x1,x2...xn的系数;
预测全量用户的资费贬损概率,输出贬损概率最高的用户,根据逻辑回归模型的系数与用户特征,分别计算出输出的用户的特征贡献度,将每个用户特征贡献度排名前三的特征输出,作为潜在的资费贬损原因。
用户的特征贡献度如下表5-1和5-2所示:
表5-1:
省内流量 语音套餐价格 其他费用 省外流量_L_2 当月充值次数 当月流量使用 是否中高端用户 流量费用
19.36 0 0 26.74 1 297.53 79.92
108.19 18 1 3785.69 1 456.42 41.04
69.14 18 1.2 330.75 1 422.66 1 24.7
20.02 0 0 376.67 667.15 13.13
4.76 18 11 351.01 3 176.2 79.25
3.5 28 1.1 116.55 1 179.07 1 51.24
27.87 58 0.3 250.64 1 3185.17 1 73.36
3193.12 48 0 1 3193.64 20.3
2.89 68 1 2 2.78 1 64.12
0 0 3.42 2 736.67 50.19
表5-2:
省外流量 DOU MOU_avg 流量套餐价格 当月充值费用 DOU_L_2 入网时长(月) 省外流量占比_l1
23.99 297.53 272.3333333 18 30 298.63 190.26 0.418127731
207.83 456.42 124.3333333 30 50 10742.69 173.42
98.64 422.66 746 20 50 850.36 172.26 0.079315442
434.68 667.15 0 2824.11 9.84
176.2 275.6666667 120 130 33187.37 89.45
172.4 179.07 602 30 100 304.69 193.68 1
261.57 3185.17 1148.666667 30 120 3683.13 186.97 0.022132096
3193.64 2 30 50 0.58 9
2.78 485.6666667 10 100 0.07 181.65
736.67 619.6666667 18 100 390.66 109.84
最后将每个用户特征贡献度排名前三的特征输出,作为潜在的资费贬损原因,如表6显著指标输出数据表:
表6:
号码 pred_prob 显著指标
********* 0.8361655 [’语音套餐价格’,’当月充值费用’,’是否集团网用户’]
********* 0.8321559 [’当月赠送流量使用’,’当月充值费用’,’证件性别’]
********* 0.8309916 [’当月赠送流量使用’,’当月充值费用’,’是否名下多号用户’]
********* 0.8307373 [’入网时长(月)’,’语音套餐价格’,’当月赠送流量使用’]
********* 0.8305435 [’家庭网下组合人数’,’当月赠送流量使用’,’证件性别’]
********* 0.8288603 [’是否集团网用户’,’当月赠送流量使用’,’是否自选套餐’]
********* 0.82779497 [’是否集团网用户’,家庭网下组合人数’,’当月赠送流量使用’]
********* 0.8229187 [’入网时长(月)’,’5G流量’,’当月充值费用’]
********* 0.82116157 [’当月赠送流量使用’,’是否自选套餐’,’省内流量’]
********* 0.8197081 [’套餐外流量’,’语音套餐价格’,’当月赠送流量使用’]
********* 0.81939983 [’家庭网下组合人数’,’是否集团网用户’,’当月赠送流量使用’]
********* 0.818762 [’当月充值费用’,’是否集团网用户’,’家庭网下组合人数’]
********* 0.81679404 [’当月赠送流量使用’,’是否自选套餐’,’省内流量’]
********* 0.8164573 [’是否集团网用户’,’当月赠送流量使用’,’证件性别’]
********* 0.81639314 [’是否集团网用户’,’当月赠送流量使用’,’是否自选套餐’]
********* 0.8140651 [’是否集团网用户’,’当月赠送流量使用’,’是否自选套餐’]
********* 0.81387603 [’当月赠送流量使用’,’入网时长(月)’,’流量费用’]
********* 0.81286836 [’是否宽带用户’,’省外流量L2’,’是否宽带活跃用户’]
********* 0.8122314 [’入网时(月)’,’语音套餐价格’,’当月赠送流量使用’]
由于特征已经标准化(或者归一化)处理,系数的绝对值越大,则该特征越重要。若系数为正,该特征与目标值为1的概率正相关;若系数为负,这个特征与目标值为0的概率正相关。
如果x1增加一个单位,则胜率:
Figure BDA0003351884660000091
以系数β1为例,如果x1是连续变量,当x1变化一个单位且其他变量保持不变时,胜率变成了原来的
Figure BDA0003351884660000093
倍,e是常数,β0是x的系数;β1,β2...βn是对应变量x1,x2...xn的系数。
因此,可以近似认为在特征统一量纲的前提下,逻辑回归的系数可以当作胜率的权重
Figure BDA0003351884660000092
该系数可表示它的存在使得概率如何变化。
使用逻辑回归算法训练一个分类模型,并提取出逻辑回归模型的系数,如下图2所示。
对于本领域的普通技术人员而言,具体实施例只是对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

Claims (6)

1.一种基于用户数据的资费套餐贬损用户预测方法,其特征在于,具体包括以下步骤:
S1数据采集:从用户数据中,提取出与用户个体行为特征相关的指标;
S2数据清洗与样本划分:对所述步骤S1中采集的用户数据进行清洗,将清洗后的样本数据划分为贬损用户预测模型的训练集与测试集;
S3贬损用户预测模型的训练与测试:采用所述步骤S2中得到的训练集样本数据训练一个贬损用户预测模型,并使用所述步骤S2中得到的测试集样本数据验证该贬损用户预测模型的效果,同时保存特征筛选后的结果;
S4贬损用户归因分析模型训练:将所述步骤S3中保存的特征筛选后的结果作为归因因子,使用逻辑回归算法训练一个分类模型,并从提取出的逻辑回归模型系数中寻找每个潜在贬损用户的贬损原因;
S5预测全量用户:将全量用户数据输入贬损用户预测模型,得到潜在的贬损用户。
2.根据权利要求1所述的基于用户数据的资费套餐贬损用户预测方法,其特征在于,在所述步骤S3中,所述训练集样本数据使用历史用户调研数据作为正负样本,通过电话外呼方式开展客户资费服务调研,评分0-10分,10分表示非常满意,0分表示非常不满,9-10分为推荐者,7-8分为中立者,0-6分为贬损者。
3.根据权利要求1所述的基于用户数据的资费套餐贬损用户预测方法,其特征在于,在所述步骤S1中,用户数据中与用户个体行为特征相关的指标包括有基础信息、终端信息、投诉信息、五网属性、宽带信息、电视信息、套餐信息、消费行为、营销案信息和掌厅使用信息;
其中,基础信息包括年龄、性别、入网时长、用户星级等指标;终端信息包括是否合约机、和是否4/5G终端;投诉信息包括是否历史投诉用户和当月投诉次数;五网属性包括是否集团网/家庭网用户;宽带信息包括是否宽带用户和宽带带宽;电视信息包括是否互联网电视用户和电视观看时长;套餐信息包括流量主体套餐名称和套餐费用;消费行为包括当月通话分钟数、当月流量使用数和当月短信条数;营销案信息包括营销案个数和营销案到期月份;掌厅使用信息包括掌厅登录天数和掌厅套餐业务接触次数。
4.根据权利要求1所述的基于用户数据的资费套餐贬损用户预测方法,其特征在于,在所述步骤S2中,样本数据的进行清洗包括缺失值填充、错误数据修改、字符串型特征转换、多类别型特征嵌入和套餐价格提取;
其中,套餐价格提取为基于流量套餐名称、语音套餐名称、其他套餐名称的文本信息中匹配出价格信息。
5.根据权利要求1所述的基于用户数据的资费套餐贬损用户预测方法,其特征在于,在所述步骤S3中,对训练集中的样本数据进行特征扩维、特征分箱、数据归一化和特征筛选;
特征扩维是对样本数据的特征进行扩维,包括计算流量套餐饱和度、超流量套餐流量数、超流量套餐费用、语音套餐饱和度、超语音套餐分钟数和超语音套餐费用;
特征分箱是将连续型特征进行离散化的处理,将分箱结果的数据特征与样本数据的特征均保留,同时放入贬损用户预测模型进行特征筛选;
数据归一化是对训练集中的样本数据连续型特征进行了标准化处理,将训练集的均值和方差当做是总体的均值和方差,样本x的标准分数计算如下:
z=(x-u)/s;
其中u是训练样本的均值,s是训练样本的标准偏差;
特征筛选是采用Boosting算法对样本数据的特征重要性排序进行特征筛选,某个特征的重要性就是它在所有树中出现的次数之和,在特征重要性排序后,保留了前100个特征进入贬损用户预测模型。
6.根据权利要求1所述的基于用户数据的资费套餐贬损用户预测方法,其特征在于,在所述步骤S4中,根据得到的逻辑回归模型系数计算出各个特征对资费贬损的贡献度,在逻辑回归模型中,变量x与概率是非线性关系:
Figure FDA0003351884650000021
Figure FDA0003351884650000022
为胜率,是指事件发生的概率与事件不发生概率的比值;胜率和变量x的系数是线性关系;β0是x的系数;β1,β2…βn是对应变量x1,x2…xn的系数;
预测全量用户的资费贬损概率,输出贬损概率最高的用户,根据逻辑回归模型的系数与用户特征,分别计算出输出的用户的特征贡献度,将每个用户特征贡献度排名前三的特征输出,作为潜在的资费贬损原因。
CN202111340832.4A 2021-11-12 2021-11-12 基于用户数据的资费套餐贬损用户预测方法 Pending CN114004307A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111340832.4A CN114004307A (zh) 2021-11-12 2021-11-12 基于用户数据的资费套餐贬损用户预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111340832.4A CN114004307A (zh) 2021-11-12 2021-11-12 基于用户数据的资费套餐贬损用户预测方法

Publications (1)

Publication Number Publication Date
CN114004307A true CN114004307A (zh) 2022-02-01

Family

ID=79928820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111340832.4A Pending CN114004307A (zh) 2021-11-12 2021-11-12 基于用户数据的资费套餐贬损用户预测方法

Country Status (1)

Country Link
CN (1) CN114004307A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114785627A (zh) * 2022-03-25 2022-07-22 中国联合网络通信集团有限公司 基于通信合约的资费处理方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114785627A (zh) * 2022-03-25 2022-07-22 中国联合网络通信集团有限公司 基于通信合约的资费处理方法、装置、设备及存储介质
CN114785627B (zh) * 2022-03-25 2023-05-30 中国联合网络通信集团有限公司 基于通信合约的资费处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US8972370B2 (en) Repetitive fusion search method for search system
CN108256119A (zh) 一种资源推荐模型的构建方法及基于该模型的资源推荐方法
CN112633962B (zh) 业务推荐方法、装置、计算机设备和存储介质
CN112232892B (zh) 基于移动运营商的满意度的易访用户的挖掘方法
CN111666351A (zh) 基于用户行为数据的模糊聚类系统
CN106980929A (zh) 一种基于随机森林的停电投诉风险预测方法
CN106960354A (zh) 一种基于客户生命周期的精准化推荐方法及装置
CN113435627A (zh) 基于工单轨迹信息的电力客户投诉预测方法及装置
CN110516057B (zh) 一种信访问题答复方法及装置
CN113469730A (zh) 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置
CN107977855B (zh) 一种管理用户信息的方法及装置
CN107358346B (zh) 针对于通信质量的评价信息处理方法和装置
CN114004307A (zh) 基于用户数据的资费套餐贬损用户预测方法
CN112445690A (zh) 信息获取方法、装置及电子设备
CN109858947B (zh) 零售用户价值分析系统及方法
CN104598780A (zh) 账户识别方法和系统
CN111061948A (zh) 一种用户标签推荐方法、装置、计算机设备及存储介质
WO2020008433A2 (en) Availability ranking system and method
CN114119044A (zh) 一种基于信息增益的宽带电视用户推荐方法及装置
CN113704637A (zh) 基于人工智能的对象推荐方法、装置、存储介质
CN116861063B (zh) 一种发掘社媒热搜商业价值度的方法
AU2019101198A4 (en) A statistical analysis method of mobile telecom data driven user loss prediction
CN112132498A (zh) 库存管理方法、装置、设备及存储介质
CN115719183A (zh) 基于权重动态分级的电力客户自反馈服务评价方法及系统
Theerthaana et al. A study to improve the response in email campaigning by comparing data mining segmentation Approaches in Aditi Technologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination