CN108540320A

CN108540320A - 基于信令挖掘用户满意度的评估方法

Info

Publication number: CN108540320A
Application number: CN201810287576.9A
Authority: CN
Inventors: 石路路; 魏文俊; 石春丹; 唐大鹏; 韩文明
Original assignee: Nanjing Hua Su Science And Technology Ltd
Current assignee: Nanjing Hua Su Science And Technology Ltd
Priority date: 2018-04-03
Filing date: 2018-04-03
Publication date: 2018-09-14
Anticipated expiration: 2038-04-03
Also published as: CN108540320B

Abstract

本发明公开一种基于信令挖掘用户满意度的评估方法，包括：(1)采集信令数据、小区工参数据、投诉工单数据和非投诉工单数据；采用交叉验证法随机划分为训练集和测试集；(2)根据现有投诉及非投诉用户采用GBDT算法对训练集做训练，以测试集做验证，得到最优分类模型，并输出用户满意度模型；(3)对用户每日信令数据进行用户满意度模型预测，找出每个用户体验最差的一条信令数据，确定用户投诉最高的概率并计算满意度值；(4)根据所述步骤(3)得到的用户满意度值，区分出一部分分值最低的用户，并标记为高危用户。将投诉处理从原来的事后处理变为事前控制，及时给高危用户给予关怀，不仅降低了用户投诉量，而且增强运营商自身的竞争力。

Description

基于信令挖掘用户满意度的评估方法

技术领域

本发明属于移动通信技术领域，尤其涉及一种利用跨时段的信令数据、工参数据和投诉工单数据的基于信令挖掘用户满意度的评估方法。

背景技术

随着移动通信与互联网技术的快速发展，数据业务俨然成为运营商第一大业务。各运营商提供的服务和产品相异性越来越小，而用户对于移动业务及服务的要求却越来越高，不仅关注产品的用户体验还特别关注业务的使用感知，因此对运营商的产品服务要求亦越来越高，随之而来的用户投诉量也日益增多。由于投诉量的增加，移动用户的满意度也随之降低，移动用户满意度不仅仅作为运营商的重要考核指标，而且是衡量运营商网络质量和感知的重要手段，也是保障移动用户的重要评估标准，因此，如何运用机器学习算法，构建用户满意度模型，挖掘影响用户满意度的短板指标，减少用户的投诉量的同时，提高运营商网络服务质量，从而全面提升用户的满意度。

提升用户满意度一种是基于现有的投诉手段，事后进行投诉工单的处理；另外一种方法是结合人工智能和机器学习挖掘移动网络问题，由事后发现向事前预先发现问题的转变，从而减少用户的投诉量。将投诉处理从原来的事后处理变为事前控制，及时给高危用户(基于业务质量评估满意度低的用户)给予关怀，从而降低高危用户转变为投诉用户的概率，并且提升用户数据业务感知，使得运营商在处理投诉问题时由被动变为主动，不仅降低了用户投诉量，而且增强运营商自身的竞争力。

发明内容

为了解决现有技术中存在的上述问题，本发明提出一种基于移动通信网络指标运用大数据建模手段构建满意度评估模型，从普通用户中预测出高危用户，将投诉处理从原来的事后处理变为事前控制的基于信令挖掘用户满意度的评估方法。

为解决上述技术问题，本发明采用的技术方案是：该基于信令挖掘用户满意度的评估方法，包括以下步骤：

(1)采集信令数据、小区工参数据、投诉工单数据和非投诉工单数据；采用交叉验证法随机划分为训练集和测试集；

其中，所述信令数据包含用户投诉前运营商给用户提供的网络服务层信息；所述小区工参数据包含小区ECI、小区经纬度以及覆盖小区的基站的名称；所述投诉工单数据包含受理用户请求，并完成用户诉求处理整个过程的数据；所述非投诉数据包含非投诉用户连续三小时，固定频率在15分钟以上的信令数据；

(2)根据现有投诉及非投诉用户采用GBDT算法对训练集做训练，以测试集做验证，得到最优分类模型，并输出用户满意度模型；

(3)对用户每日信令数据进行用户满意度模型预测，找出每个用户体验最差的一条信令数据，确定用户投诉最高的概率并计算满意度值；

(4)根据所述步骤(3)得到的用户满意度值，区分出一部分分值最低的用户，并标记为高危用户。

利用跨时段的信令数据、小区工参数据、投诉工单数据和非投诉工单数据，将最终的投诉数据和非投诉数据合并处理进行GBDT模型训练，然后利用数学模型对用户当天的所有信令数据进行打分，以达到用户分类的目的，而不是固定的用当月数据建立的模型来预测下个月的用户数据；将投诉处理从原来的事后处理变为事前控制，及时给高危用户(基于业务质量评估满意度低的用户)给予关怀，从而降低高危用户转变为投诉用户的概率，并且提升用户数据业务感知，使得运营商在处理投诉问题时由被动变为主动，不仅降低了用户投诉量，而且增强运营商自身的竞争力。

优选的，在所述步骤(1)中，采用欠抽样的方法对数据进行不平衡处理，对非投诉工单数据进行随机采样，并满足r＝投诉工单数据/非投诉工单数据＝0.5，r为少数类比多数类。

从数据的角度出发解决不平衡数据的问题，主要方法为抽样，既然样本是不平衡的，那么可以采用对多数类样本的欠抽样和对少数类样本的过抽样学习两种方法，通过合理的删减或者增加一些样本来实现数据均衡的目的，进而降低数据不均衡给分类器带来的负面影响；由于多数类(非投诉数据)的信令数据都很类似，而少数类(投诉数据)的特殊性，所以我们合理地选择采用欠抽样的方法对数据进行不平衡处理，对非投诉数据进行随机采样，并满足上述比例要求。

优选的，在所述步骤(2)中，在GBDT算法中，损失函数为：

Φ(y，F)＝L(y，f(x))＝log(1+e^(-yf(x)))，

其中，y为用户标记，为布尔值，y_i∈{0，1}，0表示非投诉用户，1表示投诉用户，F为概率分布函数，L()为对数似然比，f()为概率密度，x为各用户采集信令数据；

初始学习器为：

其中

其中f₀()为学习器初始概率密度，w为损失函数极小化的权重，P(1|x)为投诉用户概率，1-P(1|x)为非投诉用户概率，为逻辑回归的概率密度函数，取P(1|x)＝0.5作为初始值，即投诉概率为50％；

多个决策树循环计算：t＝1到M，此时的第t轮的决策树的第i个样本的损失函数的负梯度表示为：

f_t-1( )为第t-1轮决策树的概率分布，x_i为第i个样本的信令数据矩阵，r_ti为第t轮第i个样本(此处样本为用户的信令数据)的损失函数的负梯度，y_i为用户标记(同上)，上式中的x_i，r_ti(i＝1，2，...，n)拟合一棵CART回归树，得到第t棵回归树，其对应的叶节点区域为R_tj，(j＝1，2，...，J_t)，其中J为叶子节点的个数，对于生成的决策树，各个叶子节点的最佳残差拟合值为：

得到更新强学习器：

经过M次迭代之后，得到强学习器：

I为单位矩阵，x为样本中的各信令数据，f_M( )为第M次迭代后计算的概率密度分布函数，f₀( )为初始学习器，即投诉用户：非投诉用户为1:1时的概率密度函数。

优选的，对GBDT算法进行正则化，包括对弱学习器的迭代：

f_t(x)＝f_t-1(x)+h_t(x)，

其中h_tO为本轮迭代目标找到的一个CART会归属模型的弱学习器，加上正则化项v，则有

f_t(x)＝f_t-1(x)+vh_t(x)，

v的取值范围为0＜v≤1。

优选的，对GBDT算法进行正则化，正则化的方式是通过子采样比例，取值为(0，1]，选择小于1的比例。

优选的，对GBDT算法进行正则化，对弱学习器即CART回归树进行正则化剪枝。

优选的，在所述步骤(4)中，每日输出新的高危用户到用户评估表；所述用户评估表包括评估时间、用户号码、用户类型、小区ECI、信令数据名称、信令数据趋势、满意度、评估结果和高危用户确认日期；

每日新录入的投诉用户输出投诉小区判断结果，添加到投诉用户表；根据投诉用户手机号码、受理时间和用户数据，输出投诉用户投诉小区，表格包括请求编号、受理号码、受理时间、服务请求类别和投诉小区ECI。

优选的，筛选出同一时间段内号码既在投诉工单里又在投诉用户数据里的用户；选取3.5KM作为距离阈值，剔除用户投诉地址经纬度和投诉用户数据经纬度之间的距离超过阈值的数据,剩下的所有投诉用户数据用于重构最终的投诉数据。

本发明通过分析跨时段投诉用户的信令数据，并进行区域化处理，使用GBDT算法，建立用户满意度模型(也即GBDT用户投诉预测模型)，输出用户投诉概率，使得预测模型在AUC指标上在以往模型的基础上提升了10％。针对问题用户进行深入分析，提供相应的解决方案，预测用户投诉，同时对于普通用户同样有一个发现高危用户的机制，提前关怀高危用户，提升用户满意度。

附图说明

图1为本发明的用户满意度模型基于各距离阈值的AUC指标的示意图；

图2为本发明的用户满意度模型基于各距离阈值的MSE指标的示意图；

图3为本发明的用户满意度模型的体系结构图；

图4为本发明的用户满意度洞察系统展示图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本实施例的基于信令挖掘用户满意度的评估方法，包括以下步骤：

对用户每日信令数据进行模型预测时，用某个月或者几个月的用户信令数据作为输入，用户投诉概率作为输出，大致流程如图3(从下而上)：

数据处理：对投诉用户以及非投诉用户的信令数据进行一些标准化的处理(缺失值和异常值的处理)；

训练数据分析：对原处理后的数据进行了一些区域化的筛选，并采用欠抽样的方法对非投诉数据进行不平衡数据处理，将不平衡处理后的非投诉数据与投诉数据合并，采用交叉验证法随机划分训练集和测试集；

根据现有的投诉及非投诉用户采用GBDT算法对训练集做训练，以测试集做验证，调整算法参数得到最优分类模型，并输出模型；

对用户每日信令数据进行模型预测(带入到上一步训练好的模型)，找出每个用户体验最差的一条信令数据，确定用户投诉最高的概率(Proba)并计算满意度值；

Score_满意度＝(1-Proba(complaint))*100，

每天根据用户的满意度打分区分出一部分分值最低的用户，并标记为高危用户。

在所述步骤(1)中，采用欠抽样的方法对数据进行不平衡处理，对非投诉工单数据进行随机采样，并满足r＝投诉工单数据/非投诉工单数据＝0.5，r为少数类比多数类。

在所述步骤(2)中，在GBDT算法中，损失函数为：

Φ(y，F)＝L(y，f(x))＝log(1+e^(-yf(x)))，

其中，y为用户标记，为布尔值，y_i∈{0，1}，0表示非投诉用户，1表示投诉用户，后面的标记与此相同，F为概率分布函数，L()为对数似然比，f()为概率密度，x为各用户采集信令数据；

初始学习器为：

其中

f₀()为学习器初始概率密度，w为损失函数极小化的权重，P(1|x)为投诉用户概率，1-P(1|x)为非投诉用户概率，为逻辑回归的概率密度函数，取P(1|x)＝0.5作为初始值，即投诉概率为50％；

f_t-1( )为第t-1轮决策树的概率分布，x_i为第i个样本的信令数据矩阵，r_ti为第t轮决策树第i个样本(此处样本为用户的信令数据)的损失函数的负梯度，y_i为用户标记(同上)，上式中的x_i，r_ti(i＝1，2，...，n)拟合一棵CART回归树，得到第t棵回归树，其对应的叶节点区域为R_tj，(j＝1，2，...，J_t)，其中J为叶子节点的个数，对于生成的决策树，各个叶子节点的最佳残差拟合值为：

除了负梯度计算和叶子节点的最佳残差拟合的线性搜索，二元GBDT分类和GBDT回归算法过程相同；

得到更新强学习器：

经过M次迭代之后，得到强学习器：

和其他集成算法一样，本实施例的模型也需要对GBDT进行正则化，防止过拟合，增加模型的泛化能力，GBDT的正则化主要有三种方式。

第一种，对GBDT算法进行正则化，包括对弱学习器的迭代：

f_t(x)＝f_t-1(x)+h_t(x)，

其中ht()为本轮迭代目标找到的一个CART会归属模型的弱学习器，加上正则化项v，则有

f_t(x)＝f_t-1(x)+vh_t(x)，

v的取值范围为0＜v≤1。

第二种，正则化的方式是通过子采样比例(subsample)，取值为(0，1]。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合，选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。

第三种对GBDT算法进行正则化，对弱学习器即CART回归树进行正则化剪枝。

在所述步骤(4)中，每日输出新的高危用户到用户评估表；所述用户评估表包括评估时间、用户号码、用户类型、小区ECI、信令数据名称、信令数据趋势、满意度、评估结果和高危用户确认日期；

筛选出同一时间段内号码既在投诉工单里又在投诉用户数据里的用户；选取3.5KM作为距离阈值，剔除用户投诉地址经纬度和投诉用户数据经纬度之间的距离超过阈值的数据,剩下的所有投诉用户数据用于重构最终的投诉数据。

在本实施例中，步骤(1)中的数据源构成主要是信令数据、小区工参数据、投诉工单数据和非投诉数据。信令数据主要包含用户投诉前运营商给用户提供的网络服务层信息。小区工参数据主要包含小区ECI、小区经纬度以及覆盖小区的基站的名称等。投诉工单数据主要包含运营商客服系统受理用户请求，并完成用户诉求处理整个过程的数据。非投诉数据主要包含非投诉用户连续三小时，固定频率(15分钟)的信令数据，我们训练集里面是5000的普通用户。原信令数据指标共71个，我们对投诉数据以及非投诉数据进行清洗，数据中包含大量缺失值、异常值和噪声，对其进行处理后，剩下20个重要的用户信令数据。

根据数据特征，在投诉工单中的用户投诉地址有些与其投诉前指标记录的小区ECI对应地址的距离相差较大，很大程度导致这些投诉前的指标记录对于模型分类没有太大意义。此时，为了得到较好的分类效果，需要给定一个合适的距离阈值。

本实施例中区域化筛选过程如下：

a投诉用户的信令数据为投诉前三小时的数据，筛选出同一时间段内号码既在投诉工单里又在投诉用户数据里的用户；

b根据这些用户在投诉工单中的投诉地址找到其投诉地址的经纬度；

c依据小区ECI，对每条投诉用户数据添加小区经纬度(经纬度由小区工参数据提供)；

d以投诉地址的经纬度为原点，向外辐射相应的距离选取信令数据；

e随着距离的增加，AUC、MSE高低不定，但是可以发现在某处的AUC值都是最好的，MSE的值也是最低的，该点则为距离阈值(如图1、2所示，我们可以选取3.5KM作为距离阈值)。剔除这些用户投诉地址经纬度和投诉用户数据经纬度之间的距离超过阈值的数据,剩下的所有投诉用户数据用于重构最终的投诉数据；

如图4所示，本发明的基于信令挖掘用户满意度的评估方法，聚集满意度质差用户挖掘，通过满意度评估监控、问题点聚类和品管智能优化，形成满意度集中优化闭环。

1、满意度监控：监测指标包含标准满意度、NPS、集团客户等整体指标，以及网络质量、语音通话、咨询投诉等感知要素。

2、问题点聚类：问题点按照网元聚类、地理位置聚类，聚集投诉用户、NPS不满意用户和高危用户等用户满意度质差挖掘，实现问题点智能分析和集中优化。

3、品管智能优化：品管从用户满意度改善角度出发，包含高危用户关怀、投诉用户短板指标分析和满意度测评与回访，将用户满意度与网络质量关联，提升服务质量。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明；凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于信令挖掘用户满意度的评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于信令挖掘用户满意度的评估方法，其特征在于，在所述步骤(1)中，采用欠抽样的方法对数据进行不平衡处理，对非投诉工单数据进行随机采样，并满足r＝投诉工单数据/非投诉工单数据＝0.5，r为少数类比多数类。

3.根据权利要求1所述的基于信令挖掘用户满意度的评估方法，其特征在于，在所述步骤(2)中，在GBDT算法中，损失函数为：

Φ(y，F)＝L(y，f(x))＝log(1+e^(-yf(x))，

初始学习器为：

f_t-1()为第t-1轮决策树的概率分布，x_i为第i个样本的信令数据矩阵，r_ti为第t轮第i个样本(此处样本为用户的信令数据)的损失函数的负梯度，y_i为用户标记，上式中的x_i，r_ti(i＝1，2，...，n)合一棵CART回归树，得到第t棵回归树，其对应的叶节点区域为R_tj(j＝1，2，，J_t)，其中J为叶子节点的个数，对于生成的决策树，各个叶子节点的最佳残差拟合值为：

得到更新强学习器：

经过M次迭代之后，得到强学习器：

I为单位矩阵，x为样本中的各信令数据，f_M( )为第M次迭代后计算的概率密度分布函数，f₀( )为初始学习器，即投诉用户：非投诉用户为1∶1时的概率密度函数。

4.根据权利要求3所述的基于信令挖掘用户满意度的评估方法，其特征在于，对GBDT算法进行正则化，包括对弱学习器的迭代：

f_t(x)＝f_t-1(x)+h_t(x)，

其中h_t()为本轮迭代目标找到的一个CART回归树模型的弱学习器，加上正则化项v，则有

f_t(x)＝f_t-1(x)+vh_t(x)，

v的取值范围为0＜v≤1。

5.根据权利要求3所述的基于信令挖掘用户满意度的评估方法，其特征在于，对GBDT算法进行正则化，正则化的方式是通过子采样比例，取值为(0，1]，选择小于1的比例。

6.根据权利要求3所述的基于信令挖掘用户满意度的评估方法，其特征在于，对GBDT算法进行正则化，对弱学习器即CART回归树进行正则化剪枝。

7.根据权利要求1-6任一项所述的基于信令挖掘用户满意度的评估方法，其特征在于，还包括有，在所述步骤(4)中，每日输出新的高危用户到用户评估表；所述用户评估表包括评估时间、用户号码、用户类型、小区ECI、信令数据名称、信令数据趋势、满意度、评估结果和高危用户确认日期；

8.根据权利要求7所述的基于信令挖掘用户满意度的评估方法，其特征在于，筛选出同一时间段内号码既在投诉工单里又在投诉用户数据里的用户；选取3.5KM作为距离阈值，剔除用户投诉地址经纬度和投诉用户数据经纬度之间的距离超过阈值的数据,剩下的所有投诉用户数据用于重构最终的投诉数据。