CN112232892B - 基于移动运营商的满意度的易访用户的挖掘方法 - Google Patents

基于移动运营商的满意度的易访用户的挖掘方法 Download PDF

Info

Publication number
CN112232892B
CN112232892B CN202011461349.7A CN202011461349A CN112232892B CN 112232892 B CN112232892 B CN 112232892B CN 202011461349 A CN202011461349 A CN 202011461349A CN 112232892 B CN112232892 B CN 112232892B
Authority
CN
China
Prior art keywords
model
data
training
user
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011461349.7A
Other languages
English (en)
Other versions
CN112232892A (zh
Inventor
唐大鹏
郭柏龙
田晓磊
陈大龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Howso Technology Co ltd
Original Assignee
Nanjing Howso Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Howso Technology Co ltd filed Critical Nanjing Howso Technology Co ltd
Priority to CN202011461349.7A priority Critical patent/CN112232892B/zh
Publication of CN112232892A publication Critical patent/CN112232892A/zh
Application granted granted Critical
Publication of CN112232892B publication Critical patent/CN112232892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/60Business processes related to postal services

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于移动运营商的满意度的易访用户的挖掘方法,包括步骤:S1数据提取:采集用户在平台上的多种数据;S2数据处理:将所述步骤S1中采集到的数据依次经过清洗和关联处理,再进行样本划分;S3模型训练:从样本中提取特征进行两次的特征筛选后获得入模特征,并利用所述入模特征建立模型,获得模型;再测试获得的模型的效果,若模型的效果低于评判标准,则调整参数,循环样本训练,重新建立模型,直至模型的效果大于等于评判标准,输出训练完成的模型;S4预测:将全量用户数据输入模型中,即可得到每个用户的易访概率。该挖掘方法通过大数据建模找出愿意接受调研电话的用户,且用尽可能小的群体包含尽可能多的成功用户。

Description

基于移动运营商的满意度的易访用户的挖掘方法
技术领域
本发明涉及无线通信技术领域,尤其是涉及一种基于移动运营商的满意度的易访用户的挖掘方法。
背景技术
近年来,近年来,移动互联网和智能终端呈现爆发式发展,各种应用层出不穷。伴随着业务的多样性和用户数量的不断增大,电信行业的投诉频度也急剧增长。提高电信服务质量,使用户满意度持续上升,不断减少客户投诉,成为电信运营商保持客户和收入增长的重要手段。
同时,随着信息技术的迅速发展,运营商已经积累与沉淀了大量的数据。激增的数据蕴含着许多重要的信息,但是目前尚缺乏对这些数据信息的有效利用。
因此,有必要开发一种基于移动运营商的满意度的易访用户的挖掘方法,通过大数据建模找出愿意接受调研电话的用户,且用尽可能小的群体包含尽可能多的成功用户。
发明内容
本发明要解决的技术问题是,提供一种基于移动运营商的满意度的易访用户的挖掘方法,通过大数据建模找出愿意接受调研电话的用户,且用尽可能小的群体包含尽可能多的成功用户。
为了解决上述技术问题,本发明采用的技术方案是:该基于移动运营商的满意度的易访用户的挖掘方法,具体包括以下步骤:
S1数据提取:采集用户在平台上的多种数据;
S2数据处理:将所述步骤S1中采集到的数据依次经过清洗和关联处理,再进行样本划分;
S3模型训练:从样本中提取特征进行两次的特征筛选后获得入模特征,并利用所述入模特征建立模型,获得模型;再测试获得的模型的效果,若模型的效果低于评判标准,则调整参数,循环样本训练,重新建立模型,直至模型的效果大于等于评判标准,输出训练完成的模型;
S4预测:将全量用户数据输入步骤S3输出的模型中,即可得到每个用户的易访概率。
采用上述技术方案,根据过往的样本数据(成功受访用户并关联对应的用户信息数据进行建模,通过训练后的模型预测出每个用户成功受访的概率,再根据概率值排序,输出客户所需的范围,从而实现通过大数据建模找出愿意接受调研电话的用户,且用尽可能小的群体包含尽可能多的成功用户(提高查全率);该基于移动运营商的满意度的易访用户的挖掘方法提高用户关怀和网络优化效率和效果,解决常规手段挖掘不满意用户效率低、结果不理想问题,开展易访用户挖掘和满意度提升,聚焦市场和网络优势资源,优先改善关键用户服务体验和网络体验。
作为本发明的优选技术方案,所述步骤S1中的数据包括:经分数据、话单数据和外呼数据;所述经分数据包括用户基础信息、五网属性、终端信息、宽带互联网信息、套餐信息和通信行为;所述话单数据为用户的每日合并通话记录;所述外呼数据为用户与客服电话的通话详单。
作为本发明的优选技术方案,所述步骤S2数据处理具体包括以下步骤:
S21数据清洗:包括补充缺失值、筛选异常值和删除重复值;
S221:删除缺失值占比多的特征;
S222:对剩余缺失值进行针对性填补;
S223:根据话单数据中“对端号码”的属性,进行类别标记,便于后续分类特征提取;
S22数据关联:根据‘手机号码’字段把话单、经分、历史外呼数据关联起来,从而获得数据样本;
S23划分:先从步骤S22处理后的数据样本中抽出作为仿真测试集,再从剩余的数据样本中抽出N个作为测试集二,最后把访问成功的剩余用户按比例划分为训练集和测试集一;所述仿真测试集和测试集二用于验证模型训练效果,所述测试集一用于当模型异常时查看模型训练情况。采用上述技术方案,其中清洗处理包括补充缺失值(填0)、筛选异常值、删除重复值;对端号码的类别进行标记包括:是否为客服、是否为外地固化、是否为营销号段、是否为骚扰电话等;关联处理则是根据‘手机号码’字段把话单、经分、历史外呼数据关联起来;划分则是将样本数据划分成测试集一、测试集二和访真测试集;其中先抽出仿真测试集,再把剩余样本抽出N个作为测试集二,最后把访问成功的剩余用户按8:2比例划分为训练集和测试集一。
作为本发明的优选技术方案,所述步骤S3具体包括:
S31提取特征:根据话单数据中的原始指标,增加统计了每个用户的总体指标特征;再对所述话单数据进行深度下钻,提取话单数据新特征;最后对客服外呼数据进行深度下钻,提取外呼数据新特征;
S32特征筛选:对训练样本采用特征重要性排序和相关系数进行两次特征筛选;
S321第一次筛选:在特征选择与降维时,采用Boosting中的特征重要性排序进行特征筛选,并根据获得的特征重性对特征排序;
S322第二次筛选:在对特征重要性排序后,选取前N个特征作为初选特征,然后计算这N个特征的斯皮尔曼相关系数,计算公式如下:
Figure GDA0002939563130000031
其中ρ为斯皮尔曼相关系数,x,y表示变量,
Figure GDA0002939563130000032
表示x变量的均值,
Figure GDA0002939563130000033
表示y变量的均值;xi代表第i个样本的特征x的取值;i取值范围是1至样本最大值;yi代表第i个样本的特征y的取值;i取值范围是1至样本最大值;再通过相关系数进行特征的第二次筛选,第二次筛选的规则为:若某两个特征的相关系数大于M,则保留特征重要性排在前列的那个,从而获得第二次筛选后的入模特征;
S33建立模型:采用XGBoost分类算法作为建模方法,将步骤S322获得的入模特征进行训练,确定函数的参数,获得模型;
S34测试模型:采用仿真测试集、测试集一和测试集二验证所述步骤S33获得的模型;
S341:在训练样本时,使用集团外呼成功用户作为正样本;使用地市外呼失败用户和随机抽取用户作为负样本,并保证正负样本比例平衡;
S342:使用未放入训练集的集团外呼成功用户加随机抽取用户构建仿真测试集;将仿真测试集中的数据输入模型中,并多次训练模型后,保存查全率最高的模型;
S342:将测试集二中的样本输入模型中,再通过模型输出用户数据,再根据评判标准判断模型效果,若模型的效果低于评判标准,则调整参数,调整参数包括调整样本选择、特征选择、分类算法超参数的设置,再循环样本训练,重新建立模型,直至模型的效果大于等于评判标准,输出训练完成的模型;所述评判标准为:查看测试集二的查全率,若查全率大于或等于40%,则确认模型拟合充分,为有效的模型;具体为:通过判断模型输出的前25%用户中包含多少个测试样本,若包含的测试样本大于或等于40%,即查看测试集二的查全率大于或等于40%,则确认模型有效。采用上述技术方案,采用两个测试集+仿真测试集共同验证模型训练效果,逼近真实环境;例如,全部访问成功的用户(如2019年-2020年),如果经分为8月,则取出2020年7月样本作为仿真测试集(使用8月测试则会虚高)。剩余样本中,随机抽取100个作为测试集2,再将剩余样本2:8切分为测试集1和训练集。使用训练集训练模型,测试集1查看模型训练概况(当模型异常时可查看此项);测试集2共100个样本,混入5w的用户中,一起输出预测概率的前25%,查看测试集2的查全率,低于40%的则认为模型拟合不充分。仿真测试集用来验证模型效果,输出预测概率的前20%,查看仿真测试集的查全率,低于70%的则认为模型拟合不充分。
作为本发明的优选技术方案,所述步骤S33中建立模型运用加法训练,分步骤优化目标函数,首先优化第一棵树,再优化第二棵树,直至优化完K棵树;具体的公式为:
Figure GDA0002939563130000041
Figure GDA0002939563130000042
Figure GDA0002939563130000043
...
Figure GDA0002939563130000044
其中,xi表示样本i;
Figure GDA0002939563130000045
表示第t次迭代后样本i的预测结果;
Figure GDA0002939563130000046
表示前t-1棵树的预测结果;ft(xi)表示第t棵树的函数;
然后在第t步时,添加了一棵最优的CART树f_t,就是在现有的t-1棵树的基础上,使得目标函数最小的那棵CART树,如下式所示:
Figure GDA0002939563130000051
其中,obj(t)表示第t棵树的目标函数;
Figure GDA0002939563130000052
表示损失函数;Ω(ft)表示正则化项;constant为常数;
由于使用的损失函数是MSE,因此上式则变为:
Figure GDA0002939563130000053
对于一般的损失函数,将其作泰勒二阶展开,如下式所示:
Figure GDA0002939563130000054
其中:
Figure GDA0002939563130000055
Figure GDA0002939563130000056
其中,gi为损失函数L关于
Figure GDA0002939563130000057
的一阶导数;hi为损失函数L关于
Figure GDA0002939563130000058
的二阶导数;
对于本项目的分类模型,损失函数为:
Figure GDA0002939563130000059
而模型优化的目的是使目标函数最小化,因此:
Figure GDA0002939563130000061
为了防止过拟合,添加了正则化项,如下式所示:
ft(x)=ωq(x),ω∈RT,q:Rd→{1,2,...T}.
Figure GDA0002939563130000062
其中T代表叶子结点的数量;ω代表叶子结点权重向量的L2范数;
由此,目标函数可转变为如下式所示:
Figure GDA0002939563130000063
可求解为:
Figure GDA0002939563130000064
Figure GDA0002939563130000065
其中,
Figure GDA0002939563130000066
Gj代表叶子结点j所包含样本的一阶偏导数累加之和,是一个常量;Hj代表叶子结点j所包含样本的二阶偏导数累加之和,是一个常量;
从而先求最佳的树结构,而最佳的叶子结点的值则在求解最佳的树结构的过程中同时解出了。该技术方案中的模型建立时为二分类问题,且特征数据为连续型与离散型相结合,基于Boosting方法的树结构模型更适于用来训练样本(XGBoost、LightGBM等),解决非线性问题;通过反复实验,我们最终选择了XGBoost分类算法作为最终建模方法;模型训练就是用已有的数据,通过一些方法(最优化或者其他方法)确定函数的参数,参数确定后的函数就是训练的结果;对于XGBoost模型,拟合过程基于加法训练模型,是一种启发式算法;因此,运用加法训练,目标不再是直接优化整个目标函数,而是分步骤优化目标函数,XGBoost的切分操作和普通的决策树切分过程是不一样的;普通的决策树在切分的时候并不考虑树的复杂度,而依赖后续的剪枝操作来控制;XGBoost在切分的时候就已经考虑了树的复杂度,即γ参数;所以,它不需要进行单独的剪枝操作。通过历史成功访问用户作为训练样本,使用XGBoost算法训练分类模型,聚焦资源至容易访问到的群体,提高运维效率;在模型训练过程、训练效果及模型鲁棒性方面均有创新。
作为本发明的优选技术方案,所述步骤S31中的每个用户的总体指标特征包括平均通话时长、平均通话时长方差、最大被叫时长、最大主叫时长;
所述话单数据新特征包括活跃对端指标、陌生号码指标、陌生固话、客服指标、营销号段指标、外地固话、骚扰黑名单号段指标和周末/工作日通话指标;
所述外呼数据新特征包括外呼总次数、成功率和拒接率。其中活跃对端指标即平均被叫次数大于平均主叫次数的用户定义为活跃对端;陌生号码指标即对端号码只出现在某用户话单中一次的定义为“陌生”;固话指标即对端号码为非手机;陌生固话即只出现一次的固话;客服指标即指10086\\10000\10010等号段相同;营销号段指标即指400、95、1010开头号段;外地固话即指非本市区号的固话;骚扰黑名单号段指标即指骚扰黑名单库的对端号码。
作为本发明的优选技术方案,所述步骤S32中采用Boosting中的特征重要性排序进行特征筛选时,根据结构分数的增益情况计算出来选择哪个特征作为分割点,而某个特征的重要性就是它在所有树中出现的次数之和;在重要性排序时,遵循的评判标准包括:weight-该特征在所有树中被用作分割样本的特征的次数、gain-在所有树中的平均增益和cover-在树中使用该特征时的平均覆盖范围。
作为本发明的优选技术方案,所述步骤S23中把访问成功的剩余用户按8:2比例划分为训练集和测试集一。
作为本发明的优选技术方案,所述步骤S322中第二次筛选的规则中若某两个特征的相关系数大于M,其中的M的值为0.85。
相比现有技术,该技术方案具有的有益效果是:1)该基于移动运营商的满意度的易访用户的挖掘方法采用两个测试集加仿真测试集共同验证模型训练效果,逼近真实环境;2)使用变化的多模型结果集成,增加模型的鲁棒性;由于样本过少,因此在训练集切分时,可能会失去有代表性的样本,为了增加模型鲁棒性,避免单一模型过度拟合,在切分时使用了随机种子,但随机种子的变化会使模型结果产生波动,为了抹平波动并增加样本的丰富性,我们多次变化随机种子,并将每次的训练结果保存,集成多次训练结果,求平均值,作为最终的输出;3)解决无负样本难点;由于目前只有调研成功的用户,没有调研失败的用户,因此在使用分类模型时无负样本可用,因此需要我们创造负样本。我们采用从全量用户中随机抽取样本作为调研失败用户(调研成功概率低,因此随机抽样出的成功用户可忽略不计),同时加入人工经验筛选出的负样本(同时满足:外呼60秒中断率为100%、固化被叫最大时长小于120秒、外呼总次数大于2次、外呼成功率为0的用户)。在模型训练过程中,反复尝试使用负样本的数量,直到模型训练至最优;从而提高用户关怀和网络优化效率和效果,解决常规手段挖掘不满意用户效率低、结果不理想问题,开展易访用户挖掘和满意度提升,聚焦市场和网络优势资源,优先改善关键用户服务体验和网络体验。
附图说明
下面结合附图和本发明的实施方式进一步详细说明:
图1为本发明的基于移动运营商的满意度的易访用户的挖掘方法的流程图;
图2为本发明的基于移动运营商的满意度的易访用户的挖掘方法的步骤S3中根据两次特征筛选后特征排序示意图。
具体实施方式
实施例:如图1所示,基于移动运营商的满意度的易访用户的挖掘方法,具体包括以下步骤:
S1数据提取:采集用户在平台上的多种数据;
所述步骤S1中的数据包括:经分数据(如表1所示)、话单数据和外呼数据以及样本用户;所述经分数据包括用户基础信息(年龄、性别、入网时长、是否历史投诉用户等)、五网属性(是否集团网用户、是否家庭网用户、是否校园网用户等)、终端信息(是否双卡、是否4G终端等)、宽带互联网信息(是否宽带用户、是否电视用户等)、套餐信息(流量\语音主体套餐、套餐外语音\流量、套餐不饱和度等)和通信行为(4G\2G流量使用、语音使用、短信条数、主叫非好友通话次数,如表2所示);所述话单数据(如表3所示)为用户的每日合并通话记录(日期、对端号码、时长、被叫时长、呼叫次数、对端号码是否为手机号);所述外呼数据(如表4所示)为用户与客服电话的通话详单(类型、外呼日期、外呼时长);样本用户包括访问成功用户和访问失败用户(如表6),同时需排除特殊名单数据(如表5所示)。
表1经分数据
Figure GDA0002939563130000091
表2通信行为
Figure GDA0002939563130000101
表3话单数据
Figure GDA0002939563130000111
表4外呼数据
Figure GDA0002939563130000112
表5特殊名单
Figure GDA0002939563130000113
表6样本用户
Figure GDA0002939563130000114
S2数据处理:将所述步骤S1中采集到的数据依次经过清洗和关联处理,再进行样本划分;
所述步骤S2数据处理具体包括以下步骤:
S21数据清洗:包括补充缺失值、筛选异常值和删除重复值;
S221:删除缺失值占比多的特征;
S222:对剩余缺失值进行针对性填补;
S223:根据话单数据中“对端号码”的属性,进行类别标记,便于后续分类特征提取;
S22数据关联:根据‘手机号码’字段把话单、经分、历史外呼数据关联起来,从而获得数据样本;
S23划分:先从步骤S22处理后的数据样本中抽出作为仿真测试集,再从剩余的数据样本中抽出N个作为测试集二,最后把访问成功的剩余用户按8:2比例划分为训练集和测试集一;所述仿真测试集和测试集二用于验证模型训练效果,所述测试集一用于当模型异常时查看模型训练情况。其中清洗处理包括补充缺失值(填0)、筛选异常值、删除重复值;对端号码的类别进行标记包括:是否为客服、是否为外地固化、是否为营销号段、是否为骚扰电话等;关联处理则是根据‘手机号码’字段把话单、经分、历史外呼数据关联起来;划分则是将样本数据划分成测试集一、测试集二和访真测试集;其中先抽出仿真测试集,再把剩余样本抽出N个作为测试集二,最后把访问成功的剩余用户按8:2比例划分为训练集和测试集一;
S3模型训练:从样本中提取特征进行两次的特征筛选后获得入模特征,并利用所述入模特征建立模型,获得模型;再测试获得的模型的效果,若模型的效果低于评判标准,则调整参数,循环样本训练,重新建立模型,直至模型的效果大于等于评判标准,输出训练完成的模型;
所述步骤S3具体包括:
S31提取特征:根据话单数据中的原始指标,增加统计了每个用户的总体指标特征;再对所述话单数据进行深度下钻,提取话单数据新特征;最后对客服外呼数据进行深度下钻,提取外呼数据新特征;
所述步骤S31中的每个用户的总体指标特征包括平均通话时长、平均通话时长方差、最大被叫时长、最大主叫时长;
所述话单数据新特征包括活跃对端指标、陌生号码指标、陌生固话、客服指标、营销号段指标、外地固话、骚扰黑名单号段指标和周末/工作日通话指标;
所述外呼数据新特征包括外呼总次数、成功率和拒接率。其中活跃对端指标即平均被叫次数大于平均主叫次数的用户定义为活跃对端;陌生号码指标即对端号码只出现在某用户话单中一次的定义为“陌生”;固话指标即对端号码为非手机;陌生固话即只出现一次的固话;客服指标即指10086\\10000\10010等号段相同;营销号段指标即指400、95、1010开头号段;外地固话即指非本市区号的固话;骚扰黑名单号段指标即指骚扰黑名单库的对端号码;
S32特征筛选:对训练样本采用特征重要性排序和相关系数进行两次特征筛选;
S321第一次筛选:在特征选择与降维时,采用Boosting中的特征重要性排序进行特征筛选,并根据获得的特征重性对特征排序;
S322第二次筛选:在对特征重要性排序后,选取前N个特征作为初选特征,然后计算这N个特征的斯皮尔曼相关系数,计算公式如下:
Figure GDA0002939563130000131
其中ρ为斯皮尔曼相关系数,x,y表示变量,
Figure GDA0002939563130000132
表示x变量的均值,
Figure GDA0002939563130000133
表示y变量的均值;xi代表第i个样本的特征x的取值;i取值范围是1至样本最大值;yi代表第i个样本的特征y的取值;i取值范围是1至样本最大值;;再通过相关系数进行特征的第二次筛选,第二次筛选的规则为:若某两个特征的相关系数大于0.85,则保留特征重要性排在前列的那个,从而获得第二次筛选后的入模特征;如图2所示;
所述步骤S32中采用Boosting中的特征重要性排序进行特征筛选时,根据结构分数的增益情况计算出来选择哪个特征作为分割点,而某个特征的重要性就是它在所有树中出现的次数之和;在重要性排序时,遵循的评判标准包括:weight-该特征在所有树中被用作分割样本的特征的次数、gain-在所有树中的平均增益和cover-在树中使用该特征时的平均覆盖范围;
S33建立模型:采用XGBoost分类算法作为建模方法,将步骤S322获得的入模特征进行训练,确定函数的参数,获得模型;
所述步骤S33中建立模型运用加法训练,分步骤优化目标函数,首先优化第一棵树,再优化第二棵树,直至优化完K棵树;具体的公式为:
Figure GDA0002939563130000141
Figure GDA0002939563130000142
Figure GDA0002939563130000143
...
Figure GDA0002939563130000144
其中,xi表示样本i;
Figure GDA0002939563130000145
表示第t次迭代后样本i的预测结果;
Figure GDA0002939563130000146
表示前t-1棵树的预测结果;ft(xi)表示第t棵树的函数;
然后在第t步时,添加了一棵最优的CART树f_t,就是在现有的t-1棵树的基础上,使得目标函数最小的那棵CART树,如下式所示:
Figure GDA0002939563130000147
其中,obj(t)表示第t棵树的目标函数;
Figure GDA0002939563130000148
表示损失函数;Ω(ft)表示正则化项;constant为常数;
由于使用的损失函数是MSE,因此上式则变为:
Figure GDA0002939563130000149
对于一般的损失函数,将其作泰勒二阶展开,如下式所示:
Figure GDA0002939563130000151
其中:
Figure GDA0002939563130000152
Figure GDA0002939563130000153
其中,gi为损失函数L关于
Figure GDA0002939563130000154
的一阶导数;hi为损失函数L关于
Figure GDA0002939563130000155
的二阶导数;
对于本项目的分类模型,损失函数为:
Figure GDA0002939563130000156
而模型优化的目的是使目标函数最小化,因此:
Figure GDA0002939563130000157
为了防止过拟合,添加了正则化项,如下式所示:
ft(x)=ωq(x),ω∈RT,q:Rd→{1,2,...T}.
Figure GDA0002939563130000158
其中T代表叶子结点的数量;ω代表叶子结点权重向量的L2范数;由此,目标函数可转变为如下式所示:
Figure GDA0002939563130000159
可求解为:
Figure GDA0002939563130000161
Figure GDA0002939563130000162
其中,
Figure GDA0002939563130000163
Gj代表叶子结点j所包含样本的一阶偏导数累加之和,是一个常量;Hj代表叶子结点j所包含样本的二阶偏导数累加之和,是一个常量;
从而先求最佳的树结构,而最佳的叶子结点的值则在求解最佳的树结构的过程中同时解出了;
S34测试模型:采用仿真测试集、测试集一和测试集二验证所述步骤S33获得的模型;
S341:在训练样本时,使用集团外呼成功用户作为正样本;使用地市外呼失败用户和随机抽取用户作为负样本,并保证正负样本比例平衡;
S342:使用未放入训练集的集团外呼成功用户加随机抽取用户构建仿真测试集;将仿真测试集中的数据输入模型中,并多次训练模型后,保存查全率最高的模型;S342:将测试集二中的样本输入模型中,再通过模型输出用户数据,再根据评判标准判断模型效果,若模型的效果低于评判标准,则调整参数,调整参数包括调整样本选择、特征选择、分类算法超参数的设置,再循环样本训练,重新建立模型,直至模型的效果大于等于评判标准,输出训练完成的模型;所述评判标准为:查看测试集二的查全率,若查全率大于或等于40%,则确认模型拟合充分,为有效的模型;具体为:通过判断模型输出的前25%用户中包含多少个测试样本,若包含的测试样本大于或等于40%,即查看测试集二的查全率大于或等于40%,则确认模型有效;
S4预测:将全量用户数据输入步骤S3输出的模型中,即可得到每个用户的易访概率。
将上述基于移动运营商的满意度的易访用户的挖掘方法进行应用时得到的结果验预测与验证:
(1)在训练样本时,使用集团外呼成功用户(约10000个)作为正样本,使用地市外呼失败用户(约950个)+随机抽取用户作为负样本,保证正负样本比例平衡;
(2)使用未放入训练集的集团外呼成功用户(300个)+随机抽取用户(10000个)构建仿真测试集;
(3)多次训练模型,保存在仿真测试集上查全率较高的模型;
(4)二次验证,使用训练好的模型预测全量用户的易访概率,根据排序输出不同比例的群体,查看各群体成功预测下月集团外呼的用户数量,保存最优结果,如表7所示。
表7验证结果
预测用户 测试集(recall) 验证结果(recall)
前20% 55% 52%
上面结合附图对本发明的实施方式作了详细的说明,但是本发明不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (6)

1.一种基于移动运营商的满意度的易访用户的挖掘方法,其特征在于,具体包括以下步骤:
S1数据提取:采集用户在平台上的多种数据;
S2数据处理:将所述步骤S1中采集到的数据依次经过清洗和关联处理,再进行样本划分;
S3模型训练:从样本中提取特征进行两次的特征筛选后获得入模特征,并利用所述入模特征建立模型,获得模型;再测试获得的模型的效果,若模型的效果低于评判标准,则调整参数,循环样本训练,重新建立模型,直至模型的效果大于等于评判标准,输出训练完成的模型;
S4预测:将全量用户数据输入步骤S3输出的模型中,即可得到每个用户的易访概率;
所述步骤S1中的数据包括:经分数据、话单数据和外呼数据;所述经分数据包括用户基础信息、五网属性、终端信息、宽带互联网信息、套餐信息和通信行为;所述话单数据为用户的每日合并通话记录;所述外呼数据为用户与客服电话的通话详单;
所述步骤S2数据处理具体包括以下步骤:
S21数据清洗:包括补充缺失值、筛选异常值和删除重复值;
S221:删除缺失值占比多的特征;
S222:对剩余缺失值进行针对性填补;
S223:根据话单数据中“对端号码”的属性,进行类别标记,便于后续分类特征提取;
S22数据关联:根据‘手机号码’字段把话单、经分、历史外呼数据关联起来,从而获得数据样本;
S23划分:先从步骤S22处理后的数据样本中抽出作为仿真测试集,再从剩余的数据样本中抽出N个作为测试集二,最后把访问成功的剩余用户按比例划分为训练集和测试集一;所述仿真测试集和测试集二用于验证模型训练效果,所述测试集一用于当模型异常时查看模型训练情况;
所述步骤S3具体包括:
S31提取特征:根据话单数据中的原始指标,增加统计了每个用户的总体指标特征;再对所述话单数据进行深度下钻,提取话单数据新特征;最后对客服外呼数据进行深度下钻,提取外呼数据新特征;
S32特征筛选:对训练样本采用特征重要性排序和相关系数进行两次特征筛选;
S321第一次筛选:在特征选择与降维时,采用Boosting中的特征重要性排序进行特征筛选,并根据获得的特征重性对特征排序;
S322第二次筛选:在对特征重要性排序后,选取前N个特征作为初选特征,然后计算这N个特征的斯皮尔曼相关系数,计算公式如下:
Figure FDA0002939563120000021
其中ρ为斯皮尔曼相关系数,x,y表示变量,
Figure FDA0002939563120000022
表示x变量的均值,
Figure FDA0002939563120000023
表示y变量的均值;xi代表第i个样本的特征x的取值;i取值范围是1至样本最大值;yi代表第i个样本的特征y的取值;
再通过相关系数进行特征的第二次筛选,第二次筛选的规则为:若某两个特征的相关系数大于M,则保留特征重要性排在前列的那个,从而获得第二次筛选后的入模特征;
S33建立模型:采用XGBoost分类算法作为建模方法,将步骤S322获得的入模特征进行训练,确定函数的参数,获得模型;
S34测试模型:采用仿真测试集、测试集一和测试集二验证所述步骤S33获得的模型;
S341:在训练样本时,使用集团外呼成功用户作为正样本;使用地市外呼失败用户和随机抽取用户作为负样本,并保证正负样本比例平衡;
S342:使用未放入训练集的集团外呼成功用户加随机抽取用户构建仿真测试集;将仿真测试集中的数据输入模型中,并多次训练模型后,保存查全率最高的模型;S342:将测试集二中的样本输入模型中,再通过模型输出用户数据,再根据评判标准判断模型效果,若模型的效果低于评判标准,则调整参数,调整参数包括调整样本选择、特征选择、分类算法超参数的设置,再循环样本训练,重新建立模型,直至模型的效果大于等于评判标准,输出训练完成的模型;所述评判标准为:查看测试集二的查全率,若查全率大于或等于40%,则确认模型拟合充分,为有效的模型;具体为:通过判断模型输出的前25%用户中包含多少个测试样本,若包含的测试样本大于或等于40%,即查看测试集二的查全率大于或等于40%,则确认模型有效。
2.根据权利要求1所述的基于移动运营商的满意度的易访用户的挖掘方法,其特征在于,所述步骤S33中建立模型运用加法训练,分步骤优化目标函数,首先优化第一棵树,再优化第二棵树,直至优化完K棵树;具体的公式为:
Figure FDA0002939563120000031
Figure FDA0002939563120000032
Figure FDA0002939563120000033
...
Figure FDA0002939563120000034
其中,xi表示样本i;
Figure FDA0002939563120000035
表示第t次迭代后样本i的预测结果;
Figure FDA0002939563120000036
表示前t-1棵树的预测结果;ft(xi)表示第t棵树的函数;
然后在第t步时,添加了一棵最优的CART树f_t,就是在现有的t-1棵树的基础上,使得目标函数最小的那棵CART树,如下式所示:
Figure FDA0002939563120000037
其中,obj(t)表示第t棵树的目标函数;
Figure FDA0002939563120000038
表示损失函数;Ω(ft)表示正则化项;constant为常数;
由于使用的损失函数是MSE,因此上式则变为:
Figure FDA0002939563120000041
对于一般的损失函数,将其作泰勒二阶展开,如下式所示:
Figure FDA0002939563120000042
其中:
Figure FDA0002939563120000043
Figure FDA0002939563120000044
其中,gi为损失函数L关于
Figure FDA0002939563120000045
的一阶导数;hi为损失函数L关于
Figure FDA0002939563120000046
的二阶导数;
对于本项目的分类模型,损失函数为:
Figure FDA0002939563120000047
而模型优化的目的是使目标函数最小化,因此:
Figure FDA0002939563120000048
为了防止过拟合,添加了正则化项,如下式所示:
ft(x)=ωq(x),ω∈RT,q:Rd→{1,2,...T}.
Figure FDA0002939563120000049
其中T代表叶子结点的数量;ω代表叶子结点权重向量的L2范数;
由此,目标函数可转变为如下式所示:
Figure FDA0002939563120000054
可求解为:
Figure FDA0002939563120000051
Figure FDA0002939563120000052
其中,
Figure FDA0002939563120000053
Gj代表叶子结点j所包含样本的一阶偏导数累加之和,是一个常量;Hj代表叶子结点j所包含样本的二阶偏导数累加之和,是一个常量;
从而先求最佳的树结构,而最佳的叶子结点的值则在求解最佳的树结构的过程中同时解出了。
3.根据权利要求1所述的基于移动运营商的满意度的易访用户的挖掘方法,其特征在于,所述步骤S31中的每个用户的总体指标特征包括平均通话时长、平均通话时长方差、最大被叫时长、最大主叫时长;
所述话单数据新特征包括活跃对端指标、陌生号码指标、陌生固话、客服指标、营销号段指标、外地固话、骚扰黑名单号段指标和周末/工作日通话指标;
所述外呼数据新特征包括外呼总次数、成功率和拒接率。
4.根据权利要求1所述的基于移动运营商的满意度的易访用户的挖掘方法,其特征在于,所述步骤S32中采用Boosting中的特征重要性排序进行特征筛选时,根据结构分数的增益情况计算出来选择哪个特征作为分割点,而某个特征的重要性就是它在所有树中出现的次数之和;在重要性排序时,遵循的评判标准包括:
weight-该特征在所有树中被用作分割样本的特征的次数、gain-在所有树中的平均增益和cover-在树中使用该特征时的平均覆盖范围。
5.根据权利要求1所述的基于移动运营商的满意度的易访用户的挖掘方法,其特征在于,所述步骤S23中把访问成功的剩余用户按8:2比例划分为训练集和测试集一。
6.根据权利要求1所述的基于移动运营商的满意度的易访用户的挖掘方法,其特征在于,所述步骤S322中第二次筛选的规则中若某两个特征的相关系数大于M,其中的M的值为0.85。
CN202011461349.7A 2020-12-14 2020-12-14 基于移动运营商的满意度的易访用户的挖掘方法 Active CN112232892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011461349.7A CN112232892B (zh) 2020-12-14 2020-12-14 基于移动运营商的满意度的易访用户的挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011461349.7A CN112232892B (zh) 2020-12-14 2020-12-14 基于移动运营商的满意度的易访用户的挖掘方法

Publications (2)

Publication Number Publication Date
CN112232892A CN112232892A (zh) 2021-01-15
CN112232892B true CN112232892B (zh) 2021-03-30

Family

ID=74124084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011461349.7A Active CN112232892B (zh) 2020-12-14 2020-12-14 基于移动运营商的满意度的易访用户的挖掘方法

Country Status (1)

Country Link
CN (1) CN112232892B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990284B (zh) * 2021-03-04 2022-11-22 安徽大学 一种基于XGBoost算法的个体出行行为预测方法、系统及终端
CN113673866A (zh) * 2021-08-20 2021-11-19 上海寻梦信息技术有限公司 农作物决策方法、模型训练方法以及相关设备
CN114511047B (zh) * 2022-04-20 2022-07-08 北京寄云鼎城科技有限公司 挖掘机工作模式识别方法、计算机设备及介质
CN116386872B (zh) * 2023-04-11 2024-01-26 复旦大学附属眼耳鼻喉科医院 训练方法、识别睡眠质量的方法、装置、介质及电子设备
CN117829902A (zh) * 2024-03-04 2024-04-05 山东鲁商科技集团有限公司 一种基于模型的连锁超市门店经营风险预测方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022505A (zh) * 2016-04-28 2016-10-12 华为技术有限公司 一种预测用户离网的方法及装置
CN109086931A (zh) * 2018-08-01 2018-12-25 中国联合网络通信集团有限公司 预测用户离网方法及系统
CN110135494A (zh) * 2019-05-10 2019-08-16 南京工业大学 基于最大信息系数和基尼指标的特征选择方法
CN110690701A (zh) * 2019-10-16 2020-01-14 周静龙 一种异常线损影响因素的分析方法
CN111506618B (zh) * 2019-12-11 2023-09-01 国网重庆市电力公司北碚供电分公司 一种结合lightgbm-stacking算法的异常用电行为分析方法
CN111243751B (zh) * 2020-01-17 2022-04-22 河北工业大学 一种基于双重特征选择和XGBoost算法的心脏病预测方法
CN111815209A (zh) * 2020-09-10 2020-10-23 上海冰鉴信息科技有限公司 应用于风控模型的数据降维方法及装置

Also Published As

Publication number Publication date
CN112232892A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112232892B (zh) 基于移动运营商的满意度的易访用户的挖掘方法
CN111291816B (zh) 针对用户分类模型进行特征处理的方法及装置
CN112633962B (zh) 业务推荐方法、装置、计算机设备和存储介质
CN111695084A (zh) 模型生成方法、信用评分生成方法、装置、设备及存储介质
WO2020135642A1 (zh) 一种基于生成对抗网络的模型训练方法及设备
Zhang et al. Behavior-based telecommunication churn prediction with neural network approach
CN112330047A (zh) 一种基于用户行为特征的信用卡还款概率预测方法
CN111061948B (zh) 一种用户标签推荐方法、装置、计算机设备及存储介质
CN107358346B (zh) 针对于通信质量的评价信息处理方法和装置
CN115018562A (zh) 用户预流失预测方法、装置及系统
CN114119044A (zh) 一种基于信息增益的宽带电视用户推荐方法及装置
CN114004691A (zh) 基于融合算法的额度评分方法、装置、设备及存储介质
CN107038165A (zh) 一种业务参数获取方法及装置
CN111353015B (zh) 众包题目推荐方法、装置、设备及存储介质
CN110909753B (zh) 数据分类方法、系统和设备
CN115423600B (zh) 数据筛选方法、装置、介质及电子设备
KR100601885B1 (ko) 아웃바운드 콜센터를 위한 통화 추천 시스템
CN110139288A (zh) 一种网络通话方法、装置、系统和记录介质
CN114004307A (zh) 基于用户数据的资费套餐贬损用户预测方法
CN108564380B (zh) 一种基于迭代决策树的电信用户分类方法
CN110087230B (zh) 数据处理方法、装置、存储介质及电子设备
CN111951099A (zh) 一种信用卡发卡模型及其运用方法
CN113052422A (zh) 风控模型训练方法和用户信用评估方法
CN113516562B (zh) 家庭社交网络构建方法、装置、设备及存储介质
Saha et al. Adaptable model based on ensemble learning for different telecommunication data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant