CN112749841A

CN112749841A - 一种基于自训练学习的用户口碑预测方法及系统

Info

Publication number: CN112749841A
Application number: CN202011612586.9A
Authority: CN
Inventors: 赵龙; 周源; 刘霞
Original assignee: Kedaduochuang Cloud Technology Co ltd
Current assignee: Kedaduochuang Cloud Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-04

Abstract

本发明公开了一种基于自训练学习的用户口碑预测方法及系统，属于网络运营商技术领域，包括以下步骤：S1：确定影响因子及原始数据；S2：进行数据预处理及特征工程操作并得到两类数据；S3：训练模型；S4：无标签用户口碑预测；S5：模型更新优化。本发明仅使用少量的问卷数据，并结合用户历史业务数据，构建少量有标签数据和大量无标签数据；使用基于机器学习回归算法的自训练学习方法，得到用户口碑模型，基于该模型可预知全量用户的口碑评分，将低口碑用户推送给运营部门进行运营；并将运营的真实口碑反馈给模型进行迭代优化，从而实现了对全体用户口碑实时、高效、准确的评估，为提升用户口碑具有重大价值，值得被推广使用。

Description

一种基于自训练学习的用户口碑预测方法及系统

技术领域

本发明涉及网络运营商技术领域，具体涉及一种基于自训练学习的用户口碑预测方法及系统。

背景技术

近年来，三大运营商纷纷陷入业绩困境，加之5G时代的到来，三家纷纷停止价格战，转向客户价值提升战，并且明确提出将提升用户口碑为各项服务考核指标。提升用户口碑的一种方式就是提前预知挖掘潜在的用户口碑不好的用户，针对性的对这些用户进行关怀服务。鉴于运营商用户体量大的现状，现有的问卷调查方式无法全面覆盖用户，并且实时性低，成本大。

上述问题亟待解决，为此，提出一种基于自训练学习的用户口碑预测方法系统。

发明内容

本发明所要解决的技术问题在于：如何解决现有的问卷调查方式无法全面覆盖用户，并且实时性低，成本大等问题，提供了一种基于自训练学习的用户口碑预测方法。

本发明是通过以下技术方案解决上述技术问题的，本发明包括以下步骤：

S1：确定影响因子及原始数据

确定与用户口碑评分相关的影响因子及数据源，通过用户满意度调查获取用户口碑评分数据，将各项数据汇总到数据平台；

S2：进行数据预处理及特征工程操作并得到两类数据集

在数据平台上对原始数据进行数据预处理及特征工程操作，构建有标签的样本数据集Train以及无标签的样本数据集Test，其中能够关联口碑评分数据的用户作为有标签的样本数据集Train的样本，无法关联口碑评分数据的用户作为无标签的样本数据集Test的样本；

S3：训练模型

对数据集Train和Test进行自训练学习，当满足终止条件时结束训练，并得到用户口碑预测模型；

S4：无标签用户口碑预测

使用步骤S3得到用户口碑预测模型，对无标签的数据集Test进行预测，得到该数据集中用户的口碑评分，将得分较低的用户推送给运营部门进行服务维系；

S5：模型更新优化

运营部门将实际服务中用户反馈的真实评价数据反馈给用户口碑预测模型，当反馈数据达到设定数量时，将反馈样本加入数据集Train后执行步骤S3，更新用户口碑预测模型。

更进一步地，在所述步骤S1中，影响因子包括用户基础信息指标B1、网络传输质量指标B2、直观感知指标B3、投诉指标B4、故障指标B5；其中用户基础信息指标B1指标包括用户机顶盒型号C1、网络连接方式C2；网络传输质量指标B2包括RTP包抖动次数C3、RTP丢包率平均值C4、MDI-DF平均值C5、MDI-MLR平均值C6；直观感知指标B3指标包括卡顿次数指标C7、卡顿时长指标C8；投诉指标B4包括投诉次数指标C9，故障指标B5包括故障次数指标C10，用户满意度调查是通过电话调查、网络调查等方式获取用户对过往网络质量的口碑评分数据。

更进一步地，在所述步骤1中，影响因子采集的用户为全体用户P_A，参加用户满意度调查的用户集为P_B，P_B的数量小于P_A。

更进一步地，在所述步骤S2中，原始数据包括步骤S1中的各项指标数据和口碑评分数据。

更进一步地，在所述步骤S2中，所述数据预处理方式包括缺失值处理、异常值处理、关键词提取；所述特征工程操作即构建包含用户使用维度、直观感知维度、意见反馈维度的综合特征宽表，以用户ID作为样本主键进行特征汇聚。

更进一步地，在所述步骤S3中，自训练学习的过程包括以下步骤：

S31：利用机器学习回归算法，在少量具有标签的样本数据集D上训练，学习得到初级的口碑评分预测模型；

S32：设置迭代终止条件；当模型满足迭代终止条件时，则输出本阶段的口碑评分预测模型；否则将模型应用在无标签的样本数据集上，根据置信度筛选出高置信度的样本；

S33：将高置信度的样本加入训练数据集D，利用算法重新训练模型；

S34：重复步骤S32、S33,直到满足迭代终止条件，输出本阶段模型，即为用户口碑预测模型。

更进一步地，在所述步骤S4中，利用步骤S3得到的用户口碑评分预测模型对未参与用户满意度调查的用户进行口碑评分预测，将得分小于预置感知阈值的用户标记为维系对象推送给运营部门进行服务验证。

更进一步地，在所述步骤S5中，运营部门将实际服务中用户反馈的真实口碑评分数据存储到数据平台；当采集到新增口碑评分样本达到预置的规模时，与步骤S2中的无标签的数据集Test关联后更新数据集Train和Test，重新运行步骤S3更新用户口碑评分预测模型。

本发明还提供了一种基于自训练学习的用户口碑预测系统，利用上述的口碑预测方法对用户口碑进行预测，包括：

数据采集模块，用于确定与用户口碑评分相关的影响因子及数据源，通过用户满意度调查获取用户口碑评分数据，将各项数据汇总到数据平台；

数据处理模块，用于在数据平台上对原始数据进行数据预处理及特征工程操作，构建有标签的样本数据集Train以及无标签的样本数据集Test；

模型训练模块，用于对数据集Train和Test进行自训练学习，当满足终止条件时结束训练，并得到用户口碑预测模型；

口碑预测模块，用于使用用户口碑预测模型，对无标签的数据集Test进行预测，得到该数据集中用户的口碑评分，将得分较低的用户推送给运营部门进行服务维系；

模型更新模块，用于运营部门将实际服务中用户反馈的真实评价数据反馈给用户口碑预测模型，当反馈数据达到设定数量时，将反馈样本加入数据集Train后执行步骤S3，更新用户口碑预测模型。

中央处理模块，用于向其他模块发出指令，完成相关动作；

所述数据采集模块、数据处理模块、模型训练模块、口碑预测模块、模型更新模块均与中央处理模块电连接。

本发明相比现有技术具有以下优点：该基于自训练学习的用户口碑预测方法，仅使用少量的问卷数据，并结合用户历史业务数据，构建少量有标签数据和大量无标签数据；使用基于机器学习回归算法的自训练学习方法，得到用户口碑模型，基于该模型可预知全量用户的口碑评分，将低口碑用户推送给运营部门进行运营；并将运营的真实口碑反馈给模型进行迭代优化，从而实现了对全体用户口碑实时、高效、准确的评估，为提升用户口碑具有重大价值，值得被推广使用。

附图说明

图1是本发明实施例二中基于自训练学习的用户口碑预测方法的流程示意图；

图2是本发明实施例二中步骤S2的流程示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例一

本实施例提供一种技术方案：一种基于自训练学习的用户口碑预测方法，包括以下步骤：

S1：确定与用户口碑评分相关的影响因子及数据源，通过用户满意度调查获取用户口碑评分数据，利用数据采集装置将各项数据汇总到数据平台；

S2：在数据平台上对原始数据进行数据预处理及特征工程操作，构建有标签的样本数据集Train以及无标签的样本数据集Test；

S3：利用机器学习回归算法对数据集Train和Test进行自训练学习，当满足终止条件时结束训练，并得到用户口碑预测模型；

S4：使用用户口碑预测模型，对无标签的数据集Test进行预测，得到数据集中用户的口碑评分，将得分较低的用户推送给运营部门进行服务维系；

S5：运营部门将实际服务中用户反馈的真实评价数据反馈给模型，当反馈数据达到一定数量时，将反馈样本加入数据集Train后执行步骤S3，更新用户口碑预测模型。

在本实施例中，在所述步骤S1中，影响因子包括用户基础信息指标B1、网络传输质量指标B2、直观感知指标B3、投诉指标B4、故障指标B5；其中用户基础信息指标B1指标包括用户机顶盒型号C1、网络连接方式C2；网络传输质量指标B2包括RTP包抖动次数C3、RTP丢包率平均值C4、MDI-DF平均值C5、MDI-MLR平均值C6；直观感知指标B3指标包括卡顿次数指标C7、卡顿时长指标C8；投诉指标B4包括投诉次数指标C9，故障指标B5包括故障次数指标C10；用户满意度调查是通过电话调查、网络调查等方式获取用户对过往网络质量的口碑评分数据。影响因子采集的用户为全体用户P_A，参加用户满意度调查的用户集为P_B，P_B远小于P_A。

在本实施例中，在所述步骤S2中，数据预处理包括：缺失值处理、异常值处理、关键词提取等；特征工程是指针对多维度数据、应用领域的业务知识和数据建模的经验方法，构建包含用户使用维度、直观感知维度、意见反馈维度的综合特征宽表，以用户ID作为样本主键进行特征汇聚，其中特征包括但不限于历史投诉次数统计、历史故障次数统计、日均卡顿次数统计、日均卡顿时长、日均RTP包抖动次数、日均RPT包丢失率、每日MDI-DF平均值等；将参加满意度调查的用户，关联调查结果数据(用户口碑评分数据)构建有标签样本数据集Train，未参加用户满意度调查的用户构建无标签样本数据集Test，数据集Train样本数为P_B，数据集Test样本数为P_A-P_B。

在本实施例中，在所述步骤S3中，所述自训练学习过程包括：1)应用机器学习回归算法，在少量具有标签的样本数据集D上训练，学习得到初级的口碑评分预测模型；2)设置迭代终止条件，如迭代次数、迭代的误差阈值等，当模型满足迭代终止条件时，则输出本阶段的口碑评分预测模型；否则将模型应用在无标签的样本数据集上，根据置信度筛选出高置信度的样本；3)将高置信度的样本加入训练数据集D，应用算法重新训练模型；4)重复步骤2)、3),直到满足迭代终止条件，输出本阶段模型，即为用户口碑预测模型；

在本实施例中，在所述步骤S4中，利用上一步得到的用户口碑评分预测模型对未参与用户满意度调查的用户进行口碑评分预测，将得分小于预置感知阈值的用户标记为维系对象推送给运营部门进行服务验证。

在本实施例中，在所述步骤S5中，运营部门将实际服务中用户反馈的真实口碑评分数据存储到数据平台；当采集到新增口碑评分样本达到预置的规模(如500)时，与步骤S2中的无标签数据集Test关联后更新Train和Test数据集，重新运行步骤S3更新模型。

实施例二

如图1所示，本实施例提供了一种基于自训练学习的用户口碑预测方法，其包括如下步骤：

S1：确定与用户口碑评分相关的影响因子及数据源，通过用户满意度调查获取用户口碑评分数据，应用数据采集装置将各项数据汇总到数据平台。

具体为：根据专家知识，确定的影响因子包括用户基础信息指标B1、网络传输质量指标B2、直观感知指标B3、投诉指标B4、故障指标B5，其中用户基础信息指标B1指标包括用户机顶盒型号C1、网络连接方式C2；网络传输质量指标B2包括RTP包抖动次数C3、RTP丢包率平均值C4、MDI-DF平均值C5、MDI-MLR平均值C6；直观感知指标B3指标包括卡顿次数指标C7、卡顿时长指标C8；投诉指标B4包括投诉次数指标C9，故障指标B5包括故障次数指标C10；用户满意度调查是通过电话调查、网络调查等方式获取用户对过往网络质量的口碑评分数据。通过数据采集装置，将以上各指标数据和调查结果数据汇总到数据平台，供步骤S2使用。另外各项指标采集的用户为全体用户P_A，参加用户满意度调查的用户集为P_B，其中P_B∈P_A。

S2：在数据平台上，对原始数据进行数据预处理及特征工程操作，构建有标签的样本数据集Train以及无标签的样本数据集Test。

具体为：读取数据平台上的原始业务数据(即各项指标数据)和口碑评分数据(即用户满意度调查结果数据)，先对原始业务数据分别进行数据预处理和特征工程操作，再与口碑评分数据进行数据关联操作，能够关联口碑评分数据的用户作为有标签的样本，无法关联口碑评分数据的用户作为无标签样本。

具体流程如下图2所示。其中原始业务数据预处理操作主要是将原始业务数据中的缺失值进行填充、异常值使用均值替换等，口碑评分数据的数据预处理主要是根据口碑评价进行关键词分析，剔除评分与口碑内容不一致的数据；

例如用户口碑评价中出现网络信号差、费用高、服务态度恶劣等负面词汇，通过关键词分析(可通过“不稳定”、“延迟”、“不好”、“差”、“恶劣”、“卡顿”等关键词去匹配)找出负面情绪的评论，然后再与用户口碑评分对应，将评价中包含负面情绪但是用户口碑评分却很高(如满分10，用户评分大于7分)的用户数据剔出；因为这个评分与实际口碑评价内容不一致，属于异常数据，会对模型有误导作用，因此进行这一步操作，从而提高模型的准确率。

特征工程操作包括特征提取、特征缩放、特征选择、分箱、独热编码等操作。具体构建历史投诉次数、历史故障次数、日均卡顿次数、日均卡顿时长、日均RTP包抖动次数、日均RPT包丢失率、每日MDI-DF平均值等特征，具体如下表1所示；

表1主要特征名称表

S3：应用机器学习回归算法对数据集Train和Test进行自训练学习，当满足终止条件时结束训练，并得到用户口碑预测模型；

具体为：自训练学习过程包括：

S31：应用机器学习回归算法，在有标签的样本数据集Train上训练，学习得到初级的口碑评分预测模型；

S32：设置迭代终止条件，如迭代次数、迭代的误差阈值等，当模型满足迭代终止条件时，则输出本阶段的口碑评分预测模型；否则将模型应用在无标签的样本数据集Test上，根据置信度筛选出高置信度的样本Trust；

S33：将高置信度的样本Trust加入数据集Train，应用机器学习回归算法重新训练模型；

S34：重复步骤S32、S33,直到满足迭代终止条件(如新增高置信样本数量<100)，输出本阶段模型，即用户口碑预测模型；

S4：使用用户口碑预测模型，对无标签的数据集Test进行预测，得到数据集中用户的口碑评分，将预测值较低的用户推送给运营部门进行服务维系。

具体为：应用步骤S3得到的用户口碑评分预测模型对未参与用户满意度调查的用户进行口碑评分预测，将得分小于预置口碑阈值(如阈值epsilon<3)的用户标记为目标用户推送给运营部门进行客户关怀；

S5：运营部门将实际服务中用户反馈的真实评价数据反馈给模型，当反馈数据达到一定数量时，将反馈样本加入数据集Train后执行步骤S3；

具体为：运营部门将实际服务中用户反馈的真实口碑评分数据存储到数据平台；系统自动监控新增数据的数量，当采集到新增口碑评分样本达到预置的规模(如500)时，与步骤S2中的无标签的数据集Test关联后更新数据集Train和数据集Test，重新运行步骤S3更新模型，并将更新后的模型预测剩余无标签的样本用户，重复步骤S4。

综上所述，上述实施例的基于自训练学习的用户口碑预测方法，实现了对全体用户口碑的评估,针对潜在低口碑用户早发现、早维系，有益于提升企业的用户口碑，提升用户价值；基于自训练学习方法，实现了模型的在仅有少量有标签样本前提下的迭代训练，并能够根据实际运营反馈自动更新模型，保证了模型的准确性和实时性，值得被推广使用。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于自训练学习的用户口碑预测方法，其特征在于，包括以下步骤：

S1：确定影响因子及原始数据

S2：进行数据预处理及特征工程操作并得到两类数据集

S3：训练模型

S4：无标签用户口碑预测

S5：模型更新优化

2.根据权利要求1所述一种基于自训练学习的用户口碑预测方法，其特征在于：在所述步骤S1中，影响因子包括用户基础信息指标B1、网络传输质量指标B2、直观感知指标B3、投诉指标B4、故障指标B5；其中用户基础信息指标B1指标包括用户机顶盒型号C1、网络连接方式C2；网络传输质量指标B2包括RTP包抖动次数C3、RTP丢包率平均值C4、MDI-DF平均值C5、MDI-MLR平均值C6；直观感知指标B3指标包括卡顿次数指标C7、卡顿时长指标C8；投诉指标B4包括投诉次数指标C9，故障指标B5包括故障次数指标C10，用户满意度调查是通过电话调查、网络调查方式获取用户对过往网络质量的口碑评分数据。

3.根据权利要求2所述一种基于自训练学习的用户口碑预测方法，其特征在于：在所述步骤1中，影响因子采集的用户为全体用户P_A，参加用户满意度调查的用户集为P_B，P_B的数量小于P_A。

4.根据权利要求3所述一种基于自训练学习的用户口碑预测方法，其特征在于：在所述步骤S2中，原始数据包括步骤S1中的各项指标数据和口碑评分数据。

5.根据权利要求4所述一种基于自训练学习的用户口碑预测方法，其特征在于：在所述步骤S2中，所述数据预处理方式包括缺失值处理、异常值处理、关键词提取；所述特征工程操作即构建包含用户使用维度、直观感知维度、意见反馈维度的综合特征宽表，以用户ID作为样本主键进行特征汇聚。

6.根据权利要求5所述一种基于自训练学习的用户口碑预测方法，其特征在于：在所述步骤S3中，自训练学习的过程包括以下步骤：

7.根据权利要求6所述一种基于自训练学习的用户口碑预测方法，其特征在于：在所述步骤S4中，利用步骤S3得到的用户口碑评分预测模型对未参与用户满意度调查的用户进行口碑评分预测，将得分小于预置感知阈值的用户标记为维系对象推送给运营部门进行服务验证。

8.根据权利要求7所述一种基于自训练学习的用户口碑预测方法，其特征在于：在所述步骤S5中，运营部门将实际服务中用户反馈的真实口碑评分数据存储到数据平台；当采集到新增口碑评分样本达到预置的规模时，与步骤S2中的无标签的数据集Test关联后更新数据集Train和Test，重新运行步骤S3更新用户口碑评分预测模型。

9.一种基于自训练学习的用户口碑预测系统，其特征在于，利用如权利要求1～8任一所述的口碑预测方法对用户口碑进行预测，包括：

中央处理模块，用于向其他模块发出指令，完成相关动作；