CN112232892B

CN112232892B - 基于移动运营商的满意度的易访用户的挖掘方法

Info

Publication number: CN112232892B
Application number: CN202011461349.7A
Authority: CN
Inventors: 唐大鹏; 郭柏龙; 田晓磊; 陈大龙
Original assignee: Nanjing Howso Technology Co ltd
Current assignee: Nanjing Howso Technology Co ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-30
Anticipated expiration: 2040-12-14
Also published as: CN112232892A

Abstract

本发明公开了一种基于移动运营商的满意度的易访用户的挖掘方法，包括步骤：S1数据提取：采集用户在平台上的多种数据；S2数据处理：将所述步骤S1中采集到的数据依次经过清洗和关联处理，再进行样本划分；S3模型训练：从样本中提取特征进行两次的特征筛选后获得入模特征，并利用所述入模特征建立模型，获得模型；再测试获得的模型的效果，若模型的效果低于评判标准，则调整参数，循环样本训练，重新建立模型，直至模型的效果大于等于评判标准，输出训练完成的模型；S4预测：将全量用户数据输入模型中，即可得到每个用户的易访概率。该挖掘方法通过大数据建模找出愿意接受调研电话的用户，且用尽可能小的群体包含尽可能多的成功用户。

Description

基于移动运营商的满意度的易访用户的挖掘方法

技术领域

本发明涉及无线通信技术领域，尤其是涉及一种基于移动运营商的满意度的易访用户的挖掘方法。

背景技术

近年来，近年来，移动互联网和智能终端呈现爆发式发展，各种应用层出不穷。伴随着业务的多样性和用户数量的不断增大，电信行业的投诉频度也急剧增长。提高电信服务质量，使用户满意度持续上升，不断减少客户投诉，成为电信运营商保持客户和收入增长的重要手段。

同时，随着信息技术的迅速发展，运营商已经积累与沉淀了大量的数据。激增的数据蕴含着许多重要的信息，但是目前尚缺乏对这些数据信息的有效利用。

因此，有必要开发一种基于移动运营商的满意度的易访用户的挖掘方法，通过大数据建模找出愿意接受调研电话的用户，且用尽可能小的群体包含尽可能多的成功用户。

发明内容

本发明要解决的技术问题是，提供一种基于移动运营商的满意度的易访用户的挖掘方法，通过大数据建模找出愿意接受调研电话的用户，且用尽可能小的群体包含尽可能多的成功用户。

为了解决上述技术问题，本发明采用的技术方案是：该基于移动运营商的满意度的易访用户的挖掘方法，具体包括以下步骤：

S1数据提取：采集用户在平台上的多种数据；

S2数据处理：将所述步骤S1中采集到的数据依次经过清洗和关联处理，再进行样本划分；

S3模型训练：从样本中提取特征进行两次的特征筛选后获得入模特征，并利用所述入模特征建立模型，获得模型；再测试获得的模型的效果，若模型的效果低于评判标准，则调整参数，循环样本训练，重新建立模型，直至模型的效果大于等于评判标准，输出训练完成的模型；

S4预测：将全量用户数据输入步骤S3输出的模型中，即可得到每个用户的易访概率。

采用上述技术方案，根据过往的样本数据(成功受访用户并关联对应的用户信息数据进行建模，通过训练后的模型预测出每个用户成功受访的概率，再根据概率值排序，输出客户所需的范围，从而实现通过大数据建模找出愿意接受调研电话的用户，且用尽可能小的群体包含尽可能多的成功用户(提高查全率)；该基于移动运营商的满意度的易访用户的挖掘方法提高用户关怀和网络优化效率和效果，解决常规手段挖掘不满意用户效率低、结果不理想问题，开展易访用户挖掘和满意度提升，聚焦市场和网络优势资源，优先改善关键用户服务体验和网络体验。

作为本发明的优选技术方案，所述步骤S1中的数据包括：经分数据、话单数据和外呼数据；所述经分数据包括用户基础信息、五网属性、终端信息、宽带互联网信息、套餐信息和通信行为；所述话单数据为用户的每日合并通话记录；所述外呼数据为用户与客服电话的通话详单。

作为本发明的优选技术方案，所述步骤S2数据处理具体包括以下步骤：

S21数据清洗：包括补充缺失值、筛选异常值和删除重复值；

S221：删除缺失值占比多的特征；

S222：对剩余缺失值进行针对性填补；

S223：根据话单数据中“对端号码”的属性，进行类别标记，便于后续分类特征提取；

S22数据关联：根据‘手机号码’字段把话单、经分、历史外呼数据关联起来，从而获得数据样本；

S23划分：先从步骤S22处理后的数据样本中抽出作为仿真测试集，再从剩余的数据样本中抽出N个作为测试集二，最后把访问成功的剩余用户按比例划分为训练集和测试集一；所述仿真测试集和测试集二用于验证模型训练效果，所述测试集一用于当模型异常时查看模型训练情况。采用上述技术方案，其中清洗处理包括补充缺失值(填0)、筛选异常值、删除重复值；对端号码的类别进行标记包括：是否为客服、是否为外地固化、是否为营销号段、是否为骚扰电话等；关联处理则是根据‘手机号码’字段把话单、经分、历史外呼数据关联起来；划分则是将样本数据划分成测试集一、测试集二和访真测试集；其中先抽出仿真测试集，再把剩余样本抽出N个作为测试集二，最后把访问成功的剩余用户按8:2比例划分为训练集和测试集一。

作为本发明的优选技术方案，所述步骤S3具体包括：

S31提取特征：根据话单数据中的原始指标，增加统计了每个用户的总体指标特征；再对所述话单数据进行深度下钻，提取话单数据新特征；最后对客服外呼数据进行深度下钻，提取外呼数据新特征；

S32特征筛选：对训练样本采用特征重要性排序和相关系数进行两次特征筛选；

S321第一次筛选：在特征选择与降维时，采用Boosting中的特征重要性排序进行特征筛选，并根据获得的特征重性对特征排序；

S322第二次筛选：在对特征重要性排序后，选取前N个特征作为初选特征，然后计算这N个特征的斯皮尔曼相关系数，计算公式如下：

其中ρ为斯皮尔曼相关系数，x，y表示变量，

表示x变量的均值，

表示y变量的均值；x_i代表第i个样本的特征x的取值；i取值范围是1至样本最大值；y_i代表第i个样本的特征y的取值；i取值范围是1至样本最大值；再通过相关系数进行特征的第二次筛选，第二次筛选的规则为：若某两个特征的相关系数大于M，则保留特征重要性排在前列的那个，从而获得第二次筛选后的入模特征；

S33建立模型：采用XGBoost分类算法作为建模方法，将步骤S322获得的入模特征进行训练，确定函数的参数，获得模型；

S34测试模型：采用仿真测试集、测试集一和测试集二验证所述步骤S33获得的模型；

S341：在训练样本时，使用集团外呼成功用户作为正样本；使用地市外呼失败用户和随机抽取用户作为负样本，并保证正负样本比例平衡；

S342：使用未放入训练集的集团外呼成功用户加随机抽取用户构建仿真测试集；将仿真测试集中的数据输入模型中，并多次训练模型后，保存查全率最高的模型；

S342：将测试集二中的样本输入模型中，再通过模型输出用户数据，再根据评判标准判断模型效果，若模型的效果低于评判标准，则调整参数，调整参数包括调整样本选择、特征选择、分类算法超参数的设置，再循环样本训练，重新建立模型，直至模型的效果大于等于评判标准，输出训练完成的模型；所述评判标准为：查看测试集二的查全率，若查全率大于或等于40％，则确认模型拟合充分，为有效的模型；具体为：通过判断模型输出的前25％用户中包含多少个测试样本，若包含的测试样本大于或等于40％，即查看测试集二的查全率大于或等于40％，则确认模型有效。采用上述技术方案，采用两个测试集+仿真测试集共同验证模型训练效果，逼近真实环境；例如，全部访问成功的用户(如2019年-2020年)，如果经分为8月，则取出2020年7月样本作为仿真测试集(使用8月测试则会虚高)。剩余样本中，随机抽取100个作为测试集2，再将剩余样本2：8切分为测试集1和训练集。使用训练集训练模型，测试集1查看模型训练概况(当模型异常时可查看此项)；测试集2共100个样本，混入5w的用户中，一起输出预测概率的前25％，查看测试集2的查全率，低于40％的则认为模型拟合不充分。仿真测试集用来验证模型效果，输出预测概率的前20％，查看仿真测试集的查全率，低于70％的则认为模型拟合不充分。

作为本发明的优选技术方案，所述步骤S33中建立模型运用加法训练，分步骤优化目标函数，首先优化第一棵树，再优化第二棵树，直至优化完K棵树；具体的公式为：

...

其中，x_i表示样本i；

表示第t次迭代后样本i的预测结果；

表示前t-1棵树的预测结果；f_t(x_i)表示第t棵树的函数；

然后在第t步时，添加了一棵最优的CART树f_t，就是在现有的t-1棵树的基础上，使得目标函数最小的那棵CART树，如下式所示：

其中，obj^(t)表示第t棵树的目标函数；

表示损失函数；Ω(f_t)表示正则化项；constant为常数；

由于使用的损失函数是MSE，因此上式则变为：

对于一般的损失函数，将其作泰勒二阶展开，如下式所示：

其中：

其中，g_i为损失函数L关于

的一阶导数；h_i为损失函数L关于

的二阶导数；

对于本项目的分类模型，损失函数为：

而模型优化的目的是使目标函数最小化，因此：

为了防止过拟合，添加了正则化项，如下式所示：

f_t(x)＝ω_q(x)，ω∈R^T，q：R^d→{1，2，...T}.

其中T代表叶子结点的数量；ω代表叶子结点权重向量的L2范数；

由此，目标函数可转变为如下式所示：

可求解为：

其中，

G_j代表叶子结点j所包含样本的一阶偏导数累加之和，是一个常量；H_j代表叶子结点j所包含样本的二阶偏导数累加之和，是一个常量；

从而先求最佳的树结构，而最佳的叶子结点的值则在求解最佳的树结构的过程中同时解出了。该技术方案中的模型建立时为二分类问题，且特征数据为连续型与离散型相结合，基于Boosting方法的树结构模型更适于用来训练样本(XGBoost、LightGBM等)，解决非线性问题；通过反复实验，我们最终选择了XGBoost分类算法作为最终建模方法；模型训练就是用已有的数据，通过一些方法(最优化或者其他方法)确定函数的参数，参数确定后的函数就是训练的结果；对于XGBoost模型，拟合过程基于加法训练模型，是一种启发式算法；因此，运用加法训练，目标不再是直接优化整个目标函数，而是分步骤优化目标函数，XGBoost的切分操作和普通的决策树切分过程是不一样的；普通的决策树在切分的时候并不考虑树的复杂度，而依赖后续的剪枝操作来控制；XGBoost在切分的时候就已经考虑了树的复杂度，即γ参数；所以，它不需要进行单独的剪枝操作。通过历史成功访问用户作为训练样本，使用XGBoost算法训练分类模型，聚焦资源至容易访问到的群体，提高运维效率；在模型训练过程、训练效果及模型鲁棒性方面均有创新。

作为本发明的优选技术方案，所述步骤S31中的每个用户的总体指标特征包括平均通话时长、平均通话时长方差、最大被叫时长、最大主叫时长；

所述话单数据新特征包括活跃对端指标、陌生号码指标、陌生固话、客服指标、营销号段指标、外地固话、骚扰黑名单号段指标和周末/工作日通话指标；

所述外呼数据新特征包括外呼总次数、成功率和拒接率。其中活跃对端指标即平均被叫次数大于平均主叫次数的用户定义为活跃对端；陌生号码指标即对端号码只出现在某用户话单中一次的定义为“陌生”；固话指标即对端号码为非手机；陌生固话即只出现一次的固话；客服指标即指10086\\10000\10010等号段相同；营销号段指标即指400、95、1010开头号段；外地固话即指非本市区号的固话；骚扰黑名单号段指标即指骚扰黑名单库的对端号码。

作为本发明的优选技术方案，所述步骤S32中采用Boosting中的特征重要性排序进行特征筛选时，根据结构分数的增益情况计算出来选择哪个特征作为分割点，而某个特征的重要性就是它在所有树中出现的次数之和；在重要性排序时，遵循的评判标准包括：weight-该特征在所有树中被用作分割样本的特征的次数、gain-在所有树中的平均增益和cover-在树中使用该特征时的平均覆盖范围。

作为本发明的优选技术方案，所述步骤S23中把访问成功的剩余用户按8：2比例划分为训练集和测试集一。

作为本发明的优选技术方案，所述步骤S322中第二次筛选的规则中若某两个特征的相关系数大于M，其中的M的值为0.85。

相比现有技术，该技术方案具有的有益效果是：1)该基于移动运营商的满意度的易访用户的挖掘方法采用两个测试集加仿真测试集共同验证模型训练效果，逼近真实环境；2)使用变化的多模型结果集成，增加模型的鲁棒性；由于样本过少，因此在训练集切分时，可能会失去有代表性的样本，为了增加模型鲁棒性，避免单一模型过度拟合，在切分时使用了随机种子，但随机种子的变化会使模型结果产生波动，为了抹平波动并增加样本的丰富性，我们多次变化随机种子，并将每次的训练结果保存，集成多次训练结果，求平均值，作为最终的输出；3)解决无负样本难点；由于目前只有调研成功的用户，没有调研失败的用户，因此在使用分类模型时无负样本可用，因此需要我们创造负样本。我们采用从全量用户中随机抽取样本作为调研失败用户(调研成功概率低，因此随机抽样出的成功用户可忽略不计)，同时加入人工经验筛选出的负样本(同时满足：外呼60秒中断率为100％、固化被叫最大时长小于120秒、外呼总次数大于2次、外呼成功率为0的用户)。在模型训练过程中，反复尝试使用负样本的数量，直到模型训练至最优；从而提高用户关怀和网络优化效率和效果，解决常规手段挖掘不满意用户效率低、结果不理想问题，开展易访用户挖掘和满意度提升，聚焦市场和网络优势资源，优先改善关键用户服务体验和网络体验。

附图说明

下面结合附图和本发明的实施方式进一步详细说明：

图1为本发明的基于移动运营商的满意度的易访用户的挖掘方法的流程图；

图2为本发明的基于移动运营商的满意度的易访用户的挖掘方法的步骤S3中根据两次特征筛选后特征排序示意图。

具体实施方式

实施例：如图1所示，基于移动运营商的满意度的易访用户的挖掘方法，具体包括以下步骤：

S1数据提取：采集用户在平台上的多种数据；

所述步骤S1中的数据包括：经分数据(如表1所示)、话单数据和外呼数据以及样本用户；所述经分数据包括用户基础信息(年龄、性别、入网时长、是否历史投诉用户等)、五网属性(是否集团网用户、是否家庭网用户、是否校园网用户等)、终端信息(是否双卡、是否4G终端等)、宽带互联网信息(是否宽带用户、是否电视用户等)、套餐信息(流量\语音主体套餐、套餐外语音\流量、套餐不饱和度等)和通信行为(4G\2G流量使用、语音使用、短信条数、主叫非好友通话次数，如表2所示)；所述话单数据(如表3所示)为用户的每日合并通话记录(日期、对端号码、时长、被叫时长、呼叫次数、对端号码是否为手机号)；所述外呼数据(如表4所示)为用户与客服电话的通话详单(类型、外呼日期、外呼时长)；样本用户包括访问成功用户和访问失败用户(如表6)，同时需排除特殊名单数据(如表5所示)。

表1经分数据

表2通信行为

表3话单数据

表4外呼数据

表5特殊名单

表6样本用户

所述步骤S2数据处理具体包括以下步骤：

S21数据清洗：包括补充缺失值、筛选异常值和删除重复值；

S221：删除缺失值占比多的特征；

S222：对剩余缺失值进行针对性填补；

S23划分：先从步骤S22处理后的数据样本中抽出作为仿真测试集，再从剩余的数据样本中抽出N个作为测试集二，最后把访问成功的剩余用户按8:2比例划分为训练集和测试集一；所述仿真测试集和测试集二用于验证模型训练效果，所述测试集一用于当模型异常时查看模型训练情况。其中清洗处理包括补充缺失值(填0)、筛选异常值、删除重复值；对端号码的类别进行标记包括：是否为客服、是否为外地固化、是否为营销号段、是否为骚扰电话等；关联处理则是根据‘手机号码’字段把话单、经分、历史外呼数据关联起来；划分则是将样本数据划分成测试集一、测试集二和访真测试集；其中先抽出仿真测试集，再把剩余样本抽出N个作为测试集二，最后把访问成功的剩余用户按8:2比例划分为训练集和测试集一；

所述步骤S3具体包括：

所述步骤S31中的每个用户的总体指标特征包括平均通话时长、平均通话时长方差、最大被叫时长、最大主叫时长；

所述外呼数据新特征包括外呼总次数、成功率和拒接率。其中活跃对端指标即平均被叫次数大于平均主叫次数的用户定义为活跃对端；陌生号码指标即对端号码只出现在某用户话单中一次的定义为“陌生”；固话指标即对端号码为非手机；陌生固话即只出现一次的固话；客服指标即指10086\\10000\10010等号段相同；营销号段指标即指400、95、1010开头号段；外地固话即指非本市区号的固话；骚扰黑名单号段指标即指骚扰黑名单库的对端号码；

其中ρ为斯皮尔曼相关系数，x，y表示变量，

表示x变量的均值，

表示y变量的均值；x_i代表第i个样本的特征x的取值；i取值范围是1至样本最大值；y_i代表第i个样本的特征y的取值；i取值范围是1至样本最大值；；再通过相关系数进行特征的第二次筛选，第二次筛选的规则为：若某两个特征的相关系数大于0.85，则保留特征重要性排在前列的那个，从而获得第二次筛选后的入模特征；如图2所示；

所述步骤S32中采用Boosting中的特征重要性排序进行特征筛选时，根据结构分数的增益情况计算出来选择哪个特征作为分割点，而某个特征的重要性就是它在所有树中出现的次数之和；在重要性排序时，遵循的评判标准包括：weight-该特征在所有树中被用作分割样本的特征的次数、gain-在所有树中的平均增益和cover-在树中使用该特征时的平均覆盖范围；

所述步骤S33中建立模型运用加法训练，分步骤优化目标函数，首先优化第一棵树，再优化第二棵树，直至优化完K棵树；具体的公式为：

...

其中，x_i表示样本i；

表示第t次迭代后样本i的预测结果；

表示前t-1棵树的预测结果；f_t(x_i)表示第t棵树的函数；

其中，obj^(t)表示第t棵树的目标函数；

表示损失函数；Ω(f_t)表示正则化项；constant为常数；

由于使用的损失函数是MSE，因此上式则变为：

对于一般的损失函数，将其作泰勒二阶展开，如下式所示：

其中：

其中，g_i为损失函数L关于

的一阶导数；h_i为损失函数L关于

的二阶导数；

对于本项目的分类模型，损失函数为：

而模型优化的目的是使目标函数最小化，因此：

为了防止过拟合，添加了正则化项，如下式所示：

f_t(x)＝ω_q(x)，ω∈R^T，q：R^d→{1，2，...T}.

其中T代表叶子结点的数量；ω代表叶子结点权重向量的L2范数；由此，目标函数可转变为如下式所示：

可求解为：

其中，

从而先求最佳的树结构，而最佳的叶子结点的值则在求解最佳的树结构的过程中同时解出了；

S342：使用未放入训练集的集团外呼成功用户加随机抽取用户构建仿真测试集；将仿真测试集中的数据输入模型中，并多次训练模型后，保存查全率最高的模型；S342：将测试集二中的样本输入模型中，再通过模型输出用户数据，再根据评判标准判断模型效果，若模型的效果低于评判标准，则调整参数，调整参数包括调整样本选择、特征选择、分类算法超参数的设置，再循环样本训练，重新建立模型，直至模型的效果大于等于评判标准，输出训练完成的模型；所述评判标准为：查看测试集二的查全率，若查全率大于或等于40％，则确认模型拟合充分，为有效的模型；具体为：通过判断模型输出的前25％用户中包含多少个测试样本，若包含的测试样本大于或等于40％，即查看测试集二的查全率大于或等于40％，则确认模型有效；

将上述基于移动运营商的满意度的易访用户的挖掘方法进行应用时得到的结果验预测与验证：

(1)在训练样本时，使用集团外呼成功用户(约10000个)作为正样本，使用地市外呼失败用户(约950个)+随机抽取用户作为负样本，保证正负样本比例平衡；

(2)使用未放入训练集的集团外呼成功用户(300个)+随机抽取用户(10000个)构建仿真测试集；

(3)多次训练模型，保存在仿真测试集上查全率较高的模型；

(4)二次验证，使用训练好的模型预测全量用户的易访概率，根据排序输出不同比例的群体，查看各群体成功预测下月集团外呼的用户数量，保存最优结果，如表7所示。

表7验证结果

预测用户	测试集(recall)	验证结果(recall)
			前20％	55％	52％

上面结合附图对本发明的实施方式作了详细的说明，但是本发明不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于移动运营商的满意度的易访用户的挖掘方法，其特征在于，具体包括以下步骤：

S1数据提取：采集用户在平台上的多种数据；

S4预测：将全量用户数据输入步骤S3输出的模型中，即可得到每个用户的易访概率；

所述步骤S1中的数据包括：经分数据、话单数据和外呼数据；所述经分数据包括用户基础信息、五网属性、终端信息、宽带互联网信息、套餐信息和通信行为；所述话单数据为用户的每日合并通话记录；所述外呼数据为用户与客服电话的通话详单；

所述步骤S2数据处理具体包括以下步骤：

S21数据清洗：包括补充缺失值、筛选异常值和删除重复值；

S221：删除缺失值占比多的特征；

S222：对剩余缺失值进行针对性填补；

S23划分：先从步骤S22处理后的数据样本中抽出作为仿真测试集，再从剩余的数据样本中抽出N个作为测试集二，最后把访问成功的剩余用户按比例划分为训练集和测试集一；所述仿真测试集和测试集二用于验证模型训练效果，所述测试集一用于当模型异常时查看模型训练情况；

所述步骤S3具体包括：

其中ρ为斯皮尔曼相关系数，x，y表示变量，

表示x变量的均值，

表示y变量的均值；x_i代表第i个样本的特征x的取值；i取值范围是1至样本最大值；y_i代表第i个样本的特征y的取值；

再通过相关系数进行特征的第二次筛选，第二次筛选的规则为：若某两个特征的相关系数大于M，则保留特征重要性排在前列的那个，从而获得第二次筛选后的入模特征；

S342：使用未放入训练集的集团外呼成功用户加随机抽取用户构建仿真测试集；将仿真测试集中的数据输入模型中，并多次训练模型后，保存查全率最高的模型；S342：将测试集二中的样本输入模型中，再通过模型输出用户数据，再根据评判标准判断模型效果，若模型的效果低于评判标准，则调整参数，调整参数包括调整样本选择、特征选择、分类算法超参数的设置，再循环样本训练，重新建立模型，直至模型的效果大于等于评判标准，输出训练完成的模型；所述评判标准为：查看测试集二的查全率，若查全率大于或等于40％，则确认模型拟合充分，为有效的模型；具体为：通过判断模型输出的前25％用户中包含多少个测试样本，若包含的测试样本大于或等于40％，即查看测试集二的查全率大于或等于40％，则确认模型有效。

2.根据权利要求1所述的基于移动运营商的满意度的易访用户的挖掘方法，其特征在于，所述步骤S33中建立模型运用加法训练，分步骤优化目标函数，首先优化第一棵树，再优化第二棵树，直至优化完K棵树；具体的公式为：