CN114861986A

CN114861986A - 离网用户预测方法、装置、电子设备及存储介质

Info

Publication number: CN114861986A
Application number: CN202210388550.XA
Authority: CN
Inventors: 白书源; 董事; 姜迪; 黄晓文; 何志鸿; 赵晨晨; 董林鹏
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-08-05

Abstract

本申请提供一种离网用户预测方法、装置、电子设备及存储介质。该方法包括：获取待预测离网用户数据，并对待预测离网用户数据进行预处理，以获得待预测数据集；将待预测数据集输入到已训练离网用户预测模型，并采用已训练离网用户预测模型输出待预测离网用户中的潜在离网用户，已训练离网用户预测模型采用训练数据集对随机森林模型进行训练，并在对随机森林模型进行训练时采用粒子群算法对随机森林模型的参数进行优化。本申请的方法，使用已训练离网用户预测模型对待预测离网用户数据进行预测，能够更准确的预测出潜在离网用户。

Description

离网用户预测方法、装置、电子设备及存储介质

技术领域

本申请涉及通信技术，尤其涉及一种离网用户预测方法、装置、电子设备及存储介质。

背景技术

随着电信服务的竞争加剧，用户可选性的增加，运营商用户离网的情况愈发普遍，为减少用户离网，需要提前预测有离网倾向的潜在离网用户，以便对潜在离网用户实施挽留政策。

现有技术中，通过采用用户离网数据样本训练离网用户预测模型，再将待预测离网用户数据输入离网用户预测模型，以采用离网用户预测模型输出潜在离网用户。离网用户预测模型多采用随机森林模型，随机森林模型的参数一般是根据经验设置或随机生成的，这使得最终得到的离网用户预测模型的预测准确率不够高，预测的潜在离网用户不够准确。

因此，现有技术中，离网用户预测模型的参数是根据经验设置或随机生成，离网用户预测模型的不够准确，导致采用该离网用户预测模型预测的潜在离网用户不够准确。

发明内容

本申请提供的离网用户预测方法、装置、电子设备及存储介质，用以解决现有技术中离网用户预测模型不够准确，导致采用该离网用户预测模型预测的潜在离网用户不够准确问题。

根据本申请的第一方面，提供一种离网用户预测方法，包括：

获取待预测离网用户数据，并对待预测离网用户数据进行预处理，以获得待预测数据集；

将待预测数据集输入到已训练离网用户预测模型，并采用所述已训练离网用户预测模型输出待预测离网用户中的潜在离网用户，所述已训练离网用户预测模型采用训练数据集对随机森林模型进行训练，并在对随机森林模型进行训练时采用粒子群算法对随机森林模型的参数进行优化。

进一步地，所述将待预测数据集输入到已训练离网用户预测模型，并采用所述已训练离网用户预测模型确定并输出待预测用户是否为潜在离网用户之前，还包括：

获取用户离网数据样本，所述用户离网数据样本中包括至少一个用户离网指标；

对所述用户离网数据样本进行预处理，以获得训练数据集和测试数据集；

采用训练数据集对随机森林模型进行训练，并采用测试数据集测试训练后的随机森林模型的预测准确率；

在所述预测准确率小于预设预测准确率时，采用粒子群算法对随机森林模型的参数进行优化；

若确定训练后的随机森林模型满足收敛条件，则将满足收敛条件时对应的随机森林模型确定为已训练离网用户预测模型。

进一步地，所述获取用户离网数据样本包括：

采用网络爬虫技术，在互联网上抓取至少一个用户的各用户离网指标的数值；

将至少一个用户的各用户离网指标及各用户离网指标的数值确定为用户离网数据样本。

进一步地，所述对所述用户离网数据样本进行预处理，以获得训练数据集和测试数据集，包括：

对用户离网数据样本中各样本的缺值离网指标的数值进行填补，所述缺值离网指标为在用户离网数据样本中缺失数值的用户离网指标；

采用箱图形分析法识别各样本的用户离网指标数值是否异常，并删除用户离网数据样本中数值异常的用户离网指标对应的样本；

将用户离网数据样本中第一预设比例的数据确定为训练数据集，并将用户离网数据样本中第二预设比例的数据确定为测试数据集。

进一步地，所述对用户离网数据样本中各样本的缺值离网指标的数值进行填补，所述缺值离网指标为在用户离网数据样本中缺失数值的用户离网指标，包括：

获取历史用户离网数据样本；

判断历史用户离网数据样本中是否存在所述缺值离网指标的历史数值；

若确定历史用户离网数据样本中存在所述缺值离网指标的历史数值，则采用历史数值对所述缺值离网指标的数值进行填补。

进一步地，所述对用户离网数据样本中各样本的缺值离网指标的数值进行填补，所述缺值离网指标为在用户离网数据样本中缺失数值的用户离网指标，还包括：

若确定历史用户离网数据样本中不存在所述缺值离网指标的历史数值，则将所述缺值离网指标所属的样本从用户离网数据样本中删除。

进一步地，所述采用箱图形分析法识别各样本的用户离网指标数值是否异常，并删除用户离网数据样本中数值异常的用户离网指标对应的样本，包括：

判断各用户离网指标的数值是否在各用户离网指标预设数值范围内；

若任一用户离网指标的数值不在各指标预设数值范围内，则识别为用户离网指标数值异常，并删除用户离网数据样本中数值异常的用户离网指标对应的样本。

进一步地，所述各用户离网指标预设数值范围为[U+1.5IQR，L-1.5IQR]，其中，U为各用户离网指标的数值中的上四分位数，L为各用户离网指标的数值中的下四分位数，IQR为各用户离网指标的数值中上四分位数与下四分位数的差。

进一步地，所述采用箱图形分析法识别各样本的用户离网指标数值是否异常，并删除用户离网数据样本中数值异常的用户离网指标对应的样本之后，还包括：

根据3G数据流量、4G数据流量和5G数据流量，对用户驻留比进行修正，所述3G数据流量、4G数据流量、5G数据流量和用户驻留比均为用户离网指标。

进一步地，所述在所述预测准确率小于预设预测准确率时，采用粒子群算法对随机森林模型的参数进行优化，包括：

采用训练数据集训练至少两个候选随机森林模型，候选随机森林模型包括待优化的参数，待优化的参数包括决策树棵树和决策树的特征属性个数；

采用测试数据集测试候选随机森林模型的预测准确率；

拟合至少两个候选随机森林模型的预测准确率与待优化参数的函数关系，并作为粒子群算法的适应度函数；

将适应度函数值最大时的待优化参数的值确定为优化后的待优化参数。

根据本申请的第二方面，提供一种离网用户预测装置，包括：

获取模块，用于获取待预测离网用户数据，并对待预测离网用户数据进行预处理，以获得待预测数据集；

预测模块，用于将待预测数据集输入到已训练离网用户预测模型，并采用所述已训练离网用户预测模型确定并输出待预测用户是否为潜在离网用户，所述已训练离网用户预测模型采用训练数据集对随机森林模型进行训练获得，并在对随机森林模型进行训练时采用粒子群算法对随机森林模型的参数进行优化。

根据本申请的第三方面，提供一种电子设备，包括：存储器和处理器；

所述存储器和所述处理器电路互联；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面中所述的方法。

根据本申请的第四方面，提供一种存储有计算机执行指令的计算机可读存储介质，所述计算机执行指令被处理器执行时用于实现如第一方面中所述的方法。

本申请提供的离网用户预测方法、装置、电子设备及存储介质，通过获取待预测离网用户数据，并对待预测离网用户数据进行预处理，以获得待预测数据集；将待预测数据集输入到已训练离网用户预测模型，并采用所述已训练离网用户预测模型输出待预测离网用户中的潜在离网用户，所述已训练离网用户预测模型采用训练数据集对随机森林模型进行训练，并在对随机森林模型进行训练时采用粒子群算法对随机森林模型的参数进行优化。已训练离网用户预测模型是采用训练数据集对随机森林模型进行训练，并在训练时采用粒子群算法对随机森林模型的参数进行优化后得到的，优化后的参数对应的模型具有更高的预测准确率，所以，已训练离网用户预测模型更准确，进而，采用已训练离网用户预测模型预测的潜在离网用户能够更准确。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请实施例提供的一种应用场景对应的网络架构；

图2是根据本申请第一实施例提供的离网用户预测方法流程示意图；

图3是根据本申请第二实施例提供的离网用户预测方法流程示意图；

图4是根据本申请第三实施例提供的离网用户预测方法流程示意图；

图5是根据本申请第四实施例提供的离网用户预测方法流程示意图；

图6是根据本申请第五实施例提供的离网用户预测方法流程示意图；

图7是根据本申请第六实施例提供的离网用户预测方法流程示意图；

图8是根据本申请第七实施例提供的离网用户预测装置结构示意图；

图9是根据本申请第八实施例提供的电子设备框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

首先对本申请所涉及的现有技术进行详细说明及分析。

现有技术中，多采用离网用户预测模型来预测有离网倾向的潜在离网用户，离网用户预测模型一般采用随机森林模型，并通过采用用户离网数据样本对随机森林模型进行训练得到。由于随机森林模型的参数是根据经验设置或随机生成的，而模型的参数是影响模型的预测准确率的因素之一，根据经验设置或随机生成的参数对应的模型在训练后也往往得不到较高的预测准确率。现有技术中，一般根据经验调整模型的参数或者随机调整模型的参数，以期提高模型的预测准确率。然而，在参数调整后，需要重新对模型进行训练和测试，才可以得到调整后的参数对应的模型是否拥有更高的预测准确率，而调整后的参数对应的模型也不一定能够具有更高的预测准确率。综上，现有技术中离网用户预测模型的不够准确，导致采用该离网用户预测模型预测的潜在离网用户不够准确。

所以，在面对现有技术中的问题时，发明人通过创造性研究发现，为了提高离网用户预测模型的预测准确率，在对随机森林模型进行训练时，采用粒子群算法对随机森林模型的参数进行优化，再采用训练数据集对优化后的参数对应的随机森林模型进行训练，由于优化后的参数对应的随机森林模型具有更高的预测准确率，所以再采用训练数据对优化后的参数对应的随机森林模型进行训练，就能够得到拥有更高预测准确率的已训练离网用户预测模型，再使用已训练离网用户预测模型对待预测离网用户数据进行预测，预测出的潜在离网用户能够更准确。

发明人基于上述的创造性发现，提出本申请的方案。下面对本申请实施例提供的离网用户预测方法的网络架构和应用场景进行介绍。下面的描述涉及附图时，除非另有表示，不同附图中的相同数据表示相同或相似的要素。

如图1所示，本申请实施例提供的一种应用场景对应的网络架构中包括：用户终端1，电子设备2和数据库3，用户终端1中搭载离网用户预测应用软件的客户端10或用户终端访问到离网用户预测方法的网址。用户终端1、电子设备2和数据库3通信连接。数据库3中存储有用户离网数据样本。电子设备2中配置有已训练离网用户预测模型。

在一种应用场景中，用户通过客户端10的操作界面或网址对应的网页页面输入待预测离网用户数据。用户终端1将用户输入的待预测离网用户数据发送给电子设备2，电子设备2获取到待预测离网用户数据，并对待预测离网用户数据进行预处理，以获得待预测数据集。电子设备2将待预测数据集输入到已训练离网用户预测模型，并采用已训练离网用户预测模型输出待预测离网用户中的潜在离网用户，并将潜在离网用户发送给用户终端1。用户终端1可以将待预测离网用户中的潜在离网用户进行显示，例如，将潜在离网用户显示在离网用户预测应用软件的客户端操作界面或网页页面中，使用户能够查看到潜在离网用户。

电子设备2能够与数据库3进行通信，获取数据库3中存储的用户离网数据样本。用户离网数据样本可以是电子设备2在互联网上抓取并存储到数据库3中的。电子设备2对离网用户数据样本进行预处理，以获得训练数据集和测试数据集。电子设备2采用训练数据集对随机森林模型进行训练，并采用测试数据集测试训练后的随机森林模型的预测准确率；并在预测准确率小于预设预测准确率时，采用粒子群算法对随机森林模型的参数进行优化；若确定训练后的随机森林模型满足收敛条件，则将满足收敛条件时对应的随机森林模型确定为已训练离网用户预测模型。

下面将结合附图，对本申请的实施例进行描述。以下实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

实施例一

图2是根据本申请第一实施例提供的离网用户预测方法流程示意图，如图2所示，本申请的执行主体为离网用户预测装置，该离网用户预测装置位于电子设备中。本实施例提供的离网用户预测方法包括步骤201至步骤202。

步骤201，获取待预测离网用户数据，并对待预测离网用户数据进行预处理，以获得待预测数据集。

本实施例中，使用本实施例提供的离网用户预测方法的用户可以是网络运营商、网络运营商的工作人员等，以下简称运营商。待预测离网用户可以是正在使用运营商网络的用户(即网络运营商的在网用户)。待预测离网用户数据可以包括客户投诉数据(例如，工信部综合满意度指标TCSI)、客户费力度CES、净推荐值NPS以及网络数据等各用户离网指标中的至少一项。

本实施例中，电子设备上配置有已训练离网用户预测模型。运营商可以通过用户终端上搭载的离网用户预测应用软件的客户端或用户终端访问到离网用户预测方法的网址，在客户端的操作界面或网址对应的网页页面输入待预测离网用户数据。用户终端可以与电子设备通信，并将待预测离网用户数据发送给电子设备，以使电子设备获取到待预测离网用户数据。

本实施例中，客户投诉数据可以是工信部综合满意度指标(Tire CustomerSatisfaction Index，简称TCSI)，TCSI是由工信部下属机构采用电话外呼形式，根据尾号规则，对移网手机、移网5G用户、固定上网(宽带)、固定语音(固话)四类用户群开展调研，了解到的用户对话音质量、上网质量、宣传推广、套餐规则、明白消费、渠道服务、总体感知的满意度评价。

客户费力度(Customer Effort Score，简称CES)，是客户满意度的扩充，衡量用户的欲望和需求得到满足需付出的努力程度，能够更充分的评估用户体验情况。

净推荐值(Net Promoter Scores，简称NPS)，是度量“客户向他人推荐某品牌/产品/服务倾向”的指标，是当前国际通用的衡量客户行为忠诚的核心指标，本质上是一种客户口碑及行为忠诚。根据愿意推荐的程度让客户在[0，10]之间打分并根据得分情况来判断三种客户：推荐者Promoters，得分在[9，10]之间)，是具有狂热忠诚度的人，他们会继续购买并引荐给其他人；被动者Passives得分在[7，8]之间，总体满意但并不狂热，将会考虑其他竞争对手的产品；贬损者Detractors得分在[0，6]之间，使用并不满意或者没有忠诚度。

网络数据是用户使用运营商网络时的网络客观情况，可以包括用户数据流量、MR覆盖率、用户驻留比等。

用户数据流量是指通过通用全球移动通信系统GSM、无线分组业务GPRS、增强型数据速率GSM演进技术EDGE、时分同步码分多址TD-SCDMA、高速下行数据分组接入HSDPA、宽带码分多址WCDMA、长期演进LTE等移动通信技术上网或使用相关数据增值业务所产生的数据流量。

MR覆盖率：是指通过基站定位某区域所有手机，持续收集手机信号的强弱变化状态和位置状态，再后台通过大数据运算，主动发现的MR采样数据中RSRP≥-110dBm的采样点占所有采样点的比例。MR是指基站或终端基于一定周期或事件触发上报生成的报告文件。LTE系统MR数据文件类型有MRO、MRE和MRS。其实，MRO为周期性的测量报告样本数据文件，不含触发类时间样本数据；MRE为时间触发的测量报告样本数据；MRS为基于MRO样本数据的测量报告统计数据文件。MR覆盖率为MR采样数据中RSRP≥-110dBm的采样点占所有采样点的比例。

用户驻留比是指用户产生的任意一种网络制式(3G、4G、5G流量与这个用户产生所有流量之比，用户产生的所有流量包括了该用户产生的5G流量、4G流量和3G流量，用户驻留比用于评估某一种制式网络的覆盖情况。

本实施例中，对待预测离网用户数据进行预处理可以是删除待预测离网用户数据中的重复值，并将待预测离网用户数据转换为矩阵，以获得待测数据集。示例性地，待预测离网用户数据中包括n个用户以下四个用户离网指标：工信部综合满意度指标TCSI、客户费力度CES、净推荐值NPS和用户驻留比。并且，第i个用户的TCSI、CES、NPS和用户驻留比分别为

则待测数据集M表示为：

步骤202，将待预测数据集输入到已训练离网用户预测模型，并采用已训练离网用户预测模型确定并输出待预测用户是否为潜在离网用户，已训练离网用户预测模型采用训练数据集对随机森林模型进行训练获得，并在对随机森林模型进行训练时采用粒子群算法对随机森林模型的参数进行优化。

本实施例中，可以将待预测数据集中的各用户的用户离网指标带入已训练离网用户预测模型的各决策树中，采用各决策树根据各用户的用户离网指标预测该用户是否为潜在离网用户，并将所有决策树的预测结果采用少数服从多数的方式，确定该用户是否为潜在离网用户。具体的实现原理为随机森林算法的实现原理，在此不作赘述。

本实施例提供的离网用户预测方法，通过获取待预测离网用户数据，并对待预测离网用户数据进行预处理，以获得待预测数据集；将待预测数据集输入到已训练离网用户预测模型，并采用已训练离网用户预测模型输出待预测用户中的潜在离网用户，已训练离网用户预测模型采用训练数据集对随机森林模型进行训练获得，并在对随机森林模型进行训练时采用粒子群算法对随机森林模型的参数进行优化。由于对待预测离网用户数据进行预处理，能够使得获得的待预测数据集更加准确，而已训练离网用户预测模型是采用训练数据集对随机森林模型进行训练，并在训练时采用粒子群算法对随机森林模型的参数进行优化后得到的，具有更高的准确率，所以，将待预测数据集输入到已训练离网用户预测模型，并采用已训练离网用户预测模型输出待预测离网用户中的潜在离网用户，预测出的潜在离网用户能够更准确。

实施例二

图3是根据本申请第二实施例提供的离网用户预测方法流程示意图，如图3所示，本实施例提供的离网用户预测方法，在实施例一的基础上，步骤202之前还包括了对随机森林模型进行训练的步骤，具体可以为步骤301至步骤305。

步骤301，获取用户离网数据样本，用户离网数据样本中包括至少一个用户离网指标。

本实施例中，用户离网数据样本中的用户离网指标至少包括待预测离网用户数据中的用户网指标。用户离网数据样本中可以包括已离网用户和在网用户，且用户离网数据样本中用户为已离网用户还是在网用户是已知的。

步骤302，对用户离网数据样本进行预处理，以获得训练数据集和测试数据集。

本实施例中，对用户离网数据样本进行预处理的方法可以与对待预测离网用户数据进行预处理的方法相同。具体的，还可以采用常规的数据清洗方法对用户离网数据样本进行预处理，例如，补足样本的空缺值、删除空缺值过多的样本等。

本实施例中，可以将预处理后75％的用户离网数据样本确定为训练数据集，将预处理后另外25％的用户离网数据样本确定为测试数据集。示例性地，可以运用Python进行分析，导入pandas和numpy工具包，使用train_test_split将数据集拆分成训练集和测试集。用test_size＝0.25，即75％作为训练集，25％作为测试集。

可选地，还可以对预处理后用户离网数据样本进行标准化处理，将不同的用户离网指标的数值控制在一定的范围内，使得不同的用户离网指标具有相同的尺度，以消除用户离网指标间的差异。

步骤303，采用训练数据集对随机森林模型进行训练，并采用测试数据集测试训练后的随机森林模型的预测准确率。

本实施例中，可以从训练数据集中有放回的随机选取n个用户离网数据样本，再从用户离网指标中随机选择k个指标作为决策树的特征属性，利用选择的k个用户离网指标构建n个用户离网数据样本对应的具有k个特征属性的决策树。重复上述步骤m次，建立m颗决策树，并将m颗决策树的集合确定为训练后的随机森林模型。将测试数据集输入训练后的随机森林模型，采用训练后的随机森林模型输出测试数据集中的潜在离网用户，并将输出的测试数据集中的潜在离网用户为已离用户的数量(即，预测准确的数量)占测试数据集中总用户的比例确定为随机森林模型的预测准确率。

步骤304，在预测准确率小于预设预测准确率时，采用粒子群算法对随机森林模型的参数进行优化。

本实施例中，预设预测准确率可以是运营商期望的预测准确率。如果训练出的随机森林模型的预测准确率小于预设预测准确率，则代表模型的预测准确率达不到运营商的期望，需要对模型的参数进行优化，以期获得更高的准确率。具体地，可以拟合随机森林模型的参数与预测准确率之间的函数关系，并采用粒子群算法求取预测准确率最高时对应的随机森林模型参数值，并将预测准确率最高时对应的随机森林模型的参数值确定为优化后的随机森林模型的参数值。并采用训练数据集训练优化后的参数对应的随机森林模型，再次获得已训练的随机森林模型。再次采用测试数据集测试已训练的随机森林模型的预测准确率，如果预测准确率仍旧小于预设预测准确率，则可以再次拟合这两个随机森林模型的参数与预测准确率之间的函数关系，由于自变量与因变量的数据更多，因此可以拟合出更准确的随机森林模型的参数与预测准确率之间的函数关系。再次采用粒子群算法求取预测准确率最高时对应的随机森林模型参数值，并将预测准确率最高时对应的随机森林模型的参数值确定为优化后的随机森林模型的参数值。重复上述步骤，直至优化后的参数对应的随机森林模型在采用训练数据集进行训练后，采用测试数据集测试出的预测准确率大于或等于预设预测准确率。本实施例中对与采用粒子群算法优化随机森林模型参数的方法不作限定。

步骤305，若确定训练后的随机森林模型满足收敛条件，则将满足收敛条件时对应的随机森林模型确定为已训练离网用户预测模型。

本实施例中，收敛条件可以是预先设置的，收敛条件中可以包括预设预测准确率，示例性地，训练后的随机森林模型满足收敛条件可以是训练后的随机森林模型的预测准确率大于或等于预设准确率。可选地，收敛条件中还可以包括预先设置的预测时间，预测时间能够反应随机森林模型预测待预测离网用户中的潜在离网用户的快慢。

本实施例提供的离网用户预测方法，通过获取用户离网数据样本，用户离网数据样本中包括至少一个用户离网指标；对用户离网数据样本进行预处理，以获得训练数据集和测试数据集；采用训练数据集对随机森林模型进行训练，并采用测试数据集测试随机森林模型的预测准确率；在预测准确率小于预设预测准确率时，采用粒子群算法对随机森林模型的参数进行优化；若确定训练后的随机森林模型满足收敛条件，则将满足收敛条件时对应的随机森林模型确定为已训练离网用户预测模型。由于对用户离网数据样本进行预处理，能够获得更准确的用户离网数据样本，在预测准确率小于预设预测准确率时，采用粒子群算法对随机森林模型的参数进行优化，优化有的参数对应的随机森林模型能够具有更高的预测准确率，收敛条件可以是随机森林模型的预测准确率满足预设预测准确率，所以，将满足收敛条件时对应的随机森林模型确定为已训练离网用户预测模型，已训练离网用户预测模型能够拥有更高的准确率。

作为一种可选的实施方式，在实施例二的基础上，对步骤301进行细化，则步骤301细化包括步骤3011至步骤3012。

步骤3011，采用网络爬虫技术，在互联网上抓取至少一个用户的各用户离网指标的数值。

本实施例中，可以搭建基于Java的Heritrix框架，对大数据平台上的客户投诉数据、客户费力度CES、净推荐值NPS以及网络数据等用户离网指标中的至少一项进行爬取。大数据平台可以是运营商自有的数据平台，也可以是第三方提供的数据平台，大数据平台中包括运营商的已离网用户和在网用户的客户投诉数据、客户费力度数据、净推荐值和网络数据等等。Heritrix是一个由java开发的、开源的网络爬虫，用于从互联网上抓取所需的数据。

步骤3012，将至少一个用户的各用户离网指标及各用户离网指标的数值确定为用户离网数据样本。

本实施例中，一般来说，越多的用户离网数据样本越多，训练出的随机森林模型的预测准确率越高，但训练模型需要花费的时间就越长。但过多的用户离网数据样本会造成随机森林模型的过拟合，反而降低模型的预测准确率。本实施例中，可以根据经验预设用户离网数据样本的数量，并将抓取到的数据中预设用户离网数据样本数量个数用户的各用户离网指标及各用户离网指标的数值确定为用户离网数据样本。本实施例中，可以运用数据分析软件，将在互联网上抓取到的数据进行整合，导出各用户离网指标的数据集，例如SAS格式的数据集，并将各用户离网指标的数据集合并为excel文件，得到用户离网数据样本。

本实施例提供的离网用户预测方法，通过采用网络爬虫技术，在互联网上抓取至少一个用户的各用户离网指标的数值；将至少一个用户的各用户离网指标及各用户离网指标的数值确定为用户离网数据样本。由于采用网络爬虫技术抓取用户的各用户离网指标的数值，可以保证获取到各用户离网指标最新的数值，所以，可以提高用户离网数据样本中用户离网指标数值的准确度，而将至少一个用户的各用户离网指标及各用户离网指标的数值确定为用户离网数据样本可以控制样本的数量，进而，可以提高已训练离网用户预测模型的预测准确率。

实施例三

图4是根据本申请第三实施例提供的离网用户预测方法流程示意图，如图4所示，本实施例提供的离网用户预测方法，在实施例一或实施例二的基础上，对步骤302进行细化，则步骤302细化包括步骤401至步骤403。

步骤401，对用户离网数据样本中各样本的缺值离网指标的数值进行填补，缺值离网指标为在用户离网数据样本中缺失数值的用户离网指标。

本实施例中，用户离网数据样本包括至少一个样本，一个样本即为一个用户的各用户离网指标及其数值(即，指标值)。具体地，可以采用多重填补法，根据缺值离网指标在其余未缺失该用户离网值数值的用户样本的数值确定缺值离网指标的值。示例性地，用户离网数据样本中包括30个用户的各用户离网指标，其中一个用户的各用户离网指标中缺失CES值，则可以根据其余未缺失的29个CES值确定缺失的CES值。示例性地，可以运用R语音对用户离网数据样本中的缺值离网指标的数值进行判断，例如，调用mice函数，并选择bootstrap线性回归(norm.boot)方法作为methods插补方法，实现对缺失值的填充。

步骤402，采用箱图形分析法识别各样本的用户离网指标数值是否异常，并删除用户离网数据样本中数值异常的用户离网指标对应的样本。

本实施例中，可以预设各用户离网指标在箱图性分析法中的数值正常范围百分比，数值正常范围百分比的下限为0％，上限为100％。将各样本的用户离网指标数值按照从大至小的顺序进行排序，确定各样本的用户离网指标数值在序列中的位置，例如，前25％。将大于数值正常范围上限的数值确定为异常，并将小于数值正常范围下限的数值确定为异常。删除用户离网数据样本中数值异常的用户离网指标对应的样本。

步骤403，将用户离网数据样本中第一预设比例的数据确定为训练数据集，并将用户离网数据样本中第二预设比例的数据确定为测试数据集。

本实施例中，训练数据集是用于训练随机森林模型的数据，测试数据集是用于测试训练的随机森林模型的预测准确率的数据。训练数据集中的数据与测试数据集中的数据可以互不交叉。第一预设比例与第二预设比例之和可以为1。

作为一种可选的实施方式，在实施例三的基础上，还可以包括步骤：运用多线性回归法消除用户离网数据样本的数据噪声。

具体地，可以运用多线性回归方法建立回归模型，拟合各用户离网指标的光滑曲线，消除各用户离网指标的数据噪声。示例性地，可以通过matlab中的curve fitting程序plot(t,y_fitting,'r-',t,Y(t,:),'b-',t,abs(y_fitting-Y(t,:)),'k-')拟合光滑曲线，实现数据噪声的消除。

本实施例提供的离网用户预测方法，通过对用户离网数据样本中各样本的缺值离网指标的数值进行填补，缺值离网指标为在用户离网数据样本中缺失数值的用户离网指标；采用箱图形分析法识别各用户离网指标的数值是否异常，并删除用户离网数据中数值异常的用户离网指标；将用户离网数据样本中第一预设比例的数据确定为训练数据集，并将用户离网数据样本中第二预设比例的数据确定为测试数据集。由于对用户离网数据样本进行填补，采用箱图性分析法识别数值是否异常并删除数值异常的，所以，可以获得更准确的用户离网数据样本，进而获得更准确的已训练离网用户预测模型。

作为一种可选的实施方式，在上述任意一个实施例的基础上，步骤402之后还包括步骤4021。

步骤4021，根据3G数据流量、4G数据流量和5G数据流量，对用户驻留比进行修正，3G数据流量、4G数据流量、5G数据流量和用户驻留比均为用户离网指标。

本实施例中，由于现目前的用户使用的流量类型大多为4G和5G，因此，只考虑4G或5G网络制式的覆盖情况会不够准确，所以，根据3G数据流量、4G数据流量和5G数据流量对用户驻留比进行修正，修正的用户驻留比＝(4G数据流量+5G数据流量)/(3G数据流量+4G数据流量+5G数据流量)*100％。

本实施例提供的离网用户预测方法，通过根据3G数据流量、4G数据流量和5G数据流量，对用户驻留比进行修正，3G数据流量、4G数据流量、5G数据流量和用户驻留比均为用户离网指标，由于修正后的用户驻留比更符合现目前的用户的实际使用情况，进而，能够获得更准确的用户离网数据样本。

实施例四

图5是根据本申请第四实施例提供的离网用户预测方法流程示意图，如图5所示，本实施例提供的离网用户预测方法，在实施例三的基础上，对步骤401进行细化，则步骤401细化包括步骤501至步骤503。

步骤501，获取历史用户离网数据样本。

本实施例中，电子设备可以将每一次获取的用户离网数据样本存储在数据库中，并在需要时与数据库通信，获取历史用户离网数据样本。历史用户离网数据样本中包括至少一个历史样本，历史样本为用户的各离网指标及其数值。历史离网数据样本中的历史样本与用户离网数据样本中的样本可以是同一用户在不同时间的各用户离网指标及其数值，历史离网数据样本与用户离网数据样本中还可以包括不同的用户。

步骤502，判断历史用户离网数据样本中是否存在缺值离网指标的历史数值。

本实施例中，在用户离网数据样本中某一个样本存在缺值离网指标时，可以查看该样本在历史用户离网数据样本中该缺值离网指标是否存在历史数值。

步骤503，若确定历史用户离网数据样本中存在缺值离网指标的历史数值，则采用历史数值对缺值离网指标的数值进行填补。

本实施例中，若确定该样本在历史用户离网数据样本中该缺值离网指标存在历史数值，则可以采用历史数值对该样本缺值离网指标的数值进行填补。

本实施例提供的离网用户预测方法，通过获取历史用户离网数据样本；判断历史用户离网数据样本中是否存在缺值离网指标的历史数值；若确定历史用户离网数据中存在缺值离网指标的历史数值，则采用历史数值对缺值离网指标的数值进行填补。由于采用缺值离网指标的历史数值对缺值离网指标数值进行填补，所以，可以获得更准确的用户离网数据样本。

本实施例中，若确定历史用户离网数据样本中不存在缺值离网指标的历史数值，则可以执行步骤504，作为一种可选的实施方式，在实施例四的基础上，步骤401细化还包括步骤504。

步骤504，若确定历史用户离网数据样本中不存在缺值离网指标的历史数值，则将缺值离网指标所属的样本从用户离网数据样本中删除。

本实施例中，若确定该样本在历史用户离网数据中的该缺值离网指标不存在历史数值，则可能是历史用户离网数据样本中不存在该缺值离网指标所属的样本，也可能是历史用户离网数据样本中存在该缺值离网指标所属的样本，但是该缺值离网指标所属的样本中不存在该缺值离网指标的历史数值。此时，为确保用户离网数据的完整，可以将该缺值离网指标所属的样本从用户离网数据样本中删除。

本实施例提供的离网用户预测方法，通过若确定历史用户离网数据样本中不存在缺值离网指标的历史数值，则将缺值离网指标所属的样本从用户离网数据样本中删除，由于无法采用历史数值对缺值样本的数值进行填补时，删除缺值离网指标所属的样本，所以可以提高用户离网指标样本的完整性，获得更准确的用户离网数据样本。

实施例五

图6是根据本申请第五实施例提供的离网用户预测方法流程示意图，如图6所示，本实施例提供的离网用户预测方法，在上述任意一个实施例的基础上，对步骤402进行细化，则步骤402细化包括步骤601至步骤602。

步骤601，判断各用户离网指标的数值是否在各用户离网指标预设数值范围内。

本实施例中，各用户离网指标预设数值范围可以是各用户离网指标中最大数值的[25％，75％]。

步骤602，若任一用户离网指标的数值不在各指标预设数值范围内，则识别为用户离网指标数值异常，并删除用户离网数据样本中数值异常的用户离网指标对应的样本。

本实施例中，可以判断用户离网数据样本的中各用户离网指标的数值是否在该指标的预设数值范围内，若确定该指标的数值不在该指标的预设数值范围内，则识别为用户离网指标数值异常，遍历用户离网数据样本中的所有样本和所有样本的各用户离网指标，确定出所有数值异常的用户离网指标对应的样本，并删除用户离网数据样本的数值异常的用户离网指标对应的样本，以获得更准确的用户离网数据样本。

本实施例中，若确定出任一用户离网指标的数值均在指标预设数值范围内，则结束，可以执行步骤403，将用户离网数据样本中第一预设比例的数据确定为训练数据集，并将用户离网数据样本中第二预设比例的数据确定为测试数据集。

本实施例提供的离网用户预测方法，通过判断各用户离网指标的数值是否在各用户离网指标预设数值范围内，若任一用户离网指标的数值不在各指标预设数值范围内，则识别为用户离网指标数值异常，并删除用户离网数据样本中数值异常的用户离网指标对应的样本，由于删除用户离网数据样本中数值异常的用户离网指标对应的样本，所以能够获得更准确的用户离网数据样本。

作为一种可选的实施方式，在实施例五的基础上，各用户离网指标预设数值范围为[U+1.5IQR，L-1.5IQR]，其中，U为各用户离网指标的数值中的上四分位数，L为各用户离网指标的数值中的下四分位数，IQR为各用户离网指标的数值中上四分位数与下四分位数的差。

本实施例中，上四分位数U表示所有样本中只有1/4的样本的用户离网指标数值大于U，即将用户离网指标数值在所有样本中的值从大至小排序时，U为处于25％处的用户离网指标数值。下四分位数L表示所有样本中只有1/4的样本的用户离网指标数值小于L，即将用户离网指标数值在所有样本中的值从大至小排序时从大到小排序时，L为处于75％处的用户离网指标数值。中位数Q表示一组数由大到小排列处于中间位置的数，若序列数为偶数个，该组数的中位数为中间两个数的平均数。四分位距IQR＝U-L。

本实施例中，通过各用户离网指标预设数值范围为[U+1.5IQR，L-1.5IQR]，能够更准确的识别出用户离网指标的数据值异常，所以能够获得更准确的用户离网数据样本。

实施例六

图7是根据本申请第六实施例提供的离网用户预测方法流程示意图，如图7所示，本实施例提供的离网用户预测方法，在上述任意一个实施例的基础上，对步骤304进行细化，则步骤304细化包括步骤701至步骤704。

步骤701，采用训练数据集训练至少两个候选随机森林模型，候选随机森林模型包括待优化的参数，待优化的参数包括决策树棵树和决策树的特征属性个数。

本实施例中，可以随机生成两个随机森林模型，随机森林模型包括待优化的参数，待优化的参数也可以随机生成。采用训练数据集分别训练两个随机森林模型，得到两个候选随机森林模型。

本实施例中，在采用训练数据集训练随机森林模型时，可以量化各用户离网指标的重要程度，各用户离网指标的重要程度可以是各用户离网指标的基尼系数，可以预先设置重要度阈值，舍弃用户离网数据样本中重要程度小于重要度阈值的用户离网指标，并选择用户离网数据样本中剩余的重要程度大于重要度阈值的用户离网指标训练随机森林模型。

步骤702，采用测试数据集测试候选随机森林模型的预测准确率。

本实施例中，可以采用测试数据集分别测试两个候选随机森林模型的预测准确率，即将测试数据集中的样本分别输入两个候选随机森林模型，分别采用两个候选随机森林模型输出测试数据集中的潜在离网用户，并计算出两个候选随机森林模型的预测准确率。

步骤703，拟合至少两个候选随机森林模型的预测准确率与待优化参数的函数关系，并作为粒子群算法的适应度函数。

本实施例中，可以将至少两个候选随机森林模型的待优化参数确定为自变量，将至少两个候选随机森林模型的预测准确率确定为因变量量，拟合预测准确率与待优化参数的函数关系，并将预测准确率与待优化参数的函数关系作为粒子群算法的适应度函数。

步骤704，将适应度函数值最大时的待优化参数的值确定为优化后的待优化参数。

本实施例中，可以采用粒子群算法求取适应度函数值最大时的待优化参数的值，并将适应度函数值最大时的待优化参数的值确定为优化后的待优化参数。

本实施例提供的离网用户预测方法，通过采用训练数据集训练至少两个候选随机森林模型，候选随机森林模型包括待优化的参数，待优化的参数包括决策树棵树和决策树的特征属性个数；采用测试数据集测试候选随机森林模型的预测准确率；拟合至少两个候选随机森林模型的预测准确率与待优化参数的函数关系，并作为粒子群算法的适应度函数；将适应度函数值最大时的待优化参数的值确定为优化后的待优化参数。由于采用粒子群算法快速求取预测准确率最高时对应的待优化参数的值，所以能够提高随机森林模型的预测准确率，进而得到预测准确率更高的已训练离网用户预测模型。

实施例七

图8是根据本申请第七实施例提供的离网用户预测装置结构示意图，本实施例提供的离网用户预测装置位于电子设备中，如图8所示，该离网用户预测装置80包括获取模块81和预测模块82。

获取模块81，用于获取待预测离网用户数据，并对待预测离网用户数据进行预处理，以获得待预测数据集。

预测模块82，用于将待预测数据集输入到已训练离网用户预测模型，并采用已训练离网用户预测模型确定并输出待预测用户是否为潜在离网用户，已训练离网用户预测模型采用训练数据集对随机森林模型进行训练获得，并在对随机森林模型进行训练时采用粒子群算法对随机森林模型的参数进行优化。

作为一种可选的实施方式，离网用户预测装置80还包括确定模块。确定模块用于，获取用户离网数据样本，用户离网数据样本中包括至少一个用户离网指标；对用户离网数据样本进行预处理，以获得训练数据集和测试数据集；采用训练数据集对随机森林模型进行训练，并采用测试数据集测试随机森林模型的预测准确率；在预测准确率小于预设预测准确率时，采用粒子群算法对随机森林模型的参数进行优化；若确定训练后的随机森林模型满足收敛条件，则将满足收敛条件时对应的随机森林模型确定为已训练离网用户预测模型。

作为一种可选的实施方式，确定模块具体用于，采用网络爬虫技术，在互联网上抓取至少一个用户的各用户离网指标的数值；将至少一个用户的各用户离网指标及各用户离网指标的数值确定为用户离网数据样本。

作为一种可选的实施方式，确定模块还用于，采用多重填补法对用户离网数据样本中各样本的缺值离网指标的数值进行填补，缺值离网指标为在用户离网数据样本中缺失数值的用户离网指标；采用箱图形分析法识别各样本的用户离网指标数值是否异常，并删除用户离网数据样本中数值异常的用户离网指标对应的样本；将用户离网数据样本中第一预设比例的数据确定为训练数据集，并将用户离网数据样本中第二预设比例的数据确定为测试数据集。

作为一种可选的实施方式，确定模块还用于，获取历史用户离网数据样本；判断历史用户离网数据样本中是否存在缺值离网指标的历史数值；若确定历史用户离网数据样本中存在缺值离网指标的历史数值，则采用历史数值对缺值离网指标的数值进行填补。

作为一种可选的实施方式，确定模块还用于，若确定历史用户离网数据样本中不存在缺值离网指标的历史数值，则将缺值离网指标所属的样本从用户离网数据样本中删除。

作为一种可选的实施方式，确定模块还用于，判断各用户离网指标的数值是否在各用户离网指标预设数值范围内；若任一用户离网指标的数值不在各指标预设数值范围内，则识别为用户离网指标数值异常，并删除用户离网数据样本中数值异常的用户离网指标对应的样本。

作为一种可选的实施方式，各用户离网指标预设数值范围为[U+1.5IQR，L-1.5IQR]，其中，U为各用户离网指标的数值中的上四分位数，L为各用户离网指标的数值中的下四分位数，IQR为各用户离网指标的数值中上四分位数与下四分位数的差。

作为一种可选的实施方式，确定模块还用于，根据3G数据流量、4G数据流量和5G数据流量，对用户驻留比进行修正，3G数据流量、4G数据流量、5G数据流量和用户驻留比均为用户离网指标。

作为一种可选的实施方式，确定模块还用于，采用训练数据集训练至少两个候选随机森林模型，候选随机森林模型包括待优化的参数，待优化的参数包括决策树棵树和决策树的特征属性个数；采用测试数据集测试候选随机森林模型的预测准确率；拟合至少两个候选随机森林模型的预测准确率与待优化参数的函数关系，并作为粒子群算法的适应度函数；将适应度函数值最大时的待优化参数的值确定为优化后的待优化参数。

本实施例提供的离网用户预测装置可以执行上述实施例一至六中任意一个实施例提供的离网用户预测方法，具体的实现方式与原理类似，此处不再赘述。

实施例八

图9是根据本申请第八实施例提供的电子设备框图，如图9所示，本实施例提供的电子设备90包括存储器91和处理器92。

存储器91和处理器92电路互连。

存储器91存储计算机执行指令。

处理器92执行存储器存储的计算机执行指令，以实现上述任意一个实施例提供的离网用户预测方法。

可选地，电子设备90还包括收发器，收发器用于收发数据，例如，接收用户终端发送的待预测离网用户数据，向数据库发送用户离网数据样本获取请求并接收数据库发送的用户离网数据样本。

本发明的实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如上述任意一个实施例提供的离网用户预测方法。

应该理解，上述的装置实施例仅是示意性的，本申请的装置还可通过其它的方式实现。例如，上述实施例中单元/模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，多个单元、模块或组件可以结合，或者可以集成到另一个系统，或一些特征可以忽略或不执行。

另外，若无特别说明，在本申请各个实施例中的各功能单元/模块可以集成在一个单元/模块中，也可以是各个单元/模块单独物理存在，也可以两个或两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

集成的单元/模块如果以硬件的形式实现时，该硬件可以是数字电路，模拟电路等等。硬件结构的物理实现包括但不局限于晶体管，忆阻器等等。若无特别说明，处理器可以是任何适当的硬件处理器，比如CPU、GPU、FPGA、DSP和ASIC等等。若无特别说明，存储单元可以是任何适当的磁存储介质或者磁光存储介质，比如，阻变式存储器RRAM(ResistiveRandom Access Memory)、动态随机存取存储器DRAM(Dynamic Random Access Memory)、静态随机存取存储器SRAM(Static Random-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方HMC(Hybrid Memory Cube)等等。

集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

进一步需要说明的是，虽然流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种离网用户预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将待预测数据集输入到已训练离网用户预测模型，并采用所述已训练离网用户预测模型确定并输出待预测用户是否为潜在离网用户之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述获取用户离网数据样本包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述用户离网数据样本进行预处理，以获得训练数据集和测试数据集，包括：

5.根据权利要求4所述的方法，其特征在于，所述对用户离网数据样本中各样本的缺值离网指标的数值进行填补，所述缺值离网指标为在用户离网数据样本中缺失数值的用户离网指标，包括：

获取历史用户离网数据样本；

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求4所述的方法，其特征在于，所述采用箱图形分析法识别各样本的用户离网指标数值是否异常，并删除用户离网数据样本中数值异常的用户离网指标对应的样本，包括：

8.根据权利要求7所述的方法，其特征在于，所述各用户离网指标预设数值范围为[U+1.5IQR，L-1.5IQR]，其中，U为各用户离网指标的数值中的上四分位数，L为各用户离网指标的数值中的下四分位数，IQR为各用户离网指标的数值中上四分位数与下四分位数的差。

9.根据权利要求4所述的方法，其特征在于，所述采用箱图形分析法识别各样本的用户离网指标数值是否异常，并删除用户离网数据样本中数值异常的用户离网指标对应的样本之后，还包括：

10.根据权利要求2所述的方法，其特征在于，所述在所述预测准确率小于预设预测准确率时，采用粒子群算法对随机森林模型的参数进行优化，包括：

采用测试数据集测试候选随机森林模型的预测准确率；

11.一种离网用户预测装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器和所述处理器电路互连；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至10任一项所述的方法。