CN110971460A

CN110971460A - 一种离网预测方法、装置、服务器和存储介质

Info

Publication number: CN110971460A
Application number: CN201911221498.3A
Authority: CN
Inventors: 张英乔; 向阳; 林昀
Original assignee: Beijing Hongshan Information Technology Research Institute Co Ltd
Current assignee: Beijing Hongshan Information Technology Research Institute Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-04-07

Abstract

本发明公开了一种离网预测方法，用于获取移动账号的用户数据，所述用户数据包括个人信息特征、消费行为特征、通话行为特征、投诉次数和/或网速；将所述用户数据输入预先训练好的离网预测模型，得到所述移动账号的离网预测结果；根据所述离网预测结果确定所述移动账号在待测时间点是否会离网。本发明还公开了一种离网预测装置、服务器和存储介质。本发明提供一种离网预测方法，通过使用离网预测模型，将用户数据输入模型，得到离网预测结果，实现对移动账号是否会离网的准确预测，提高了离网预测准确率。

Description

一种离网预测方法、装置、服务器和存储介质

技术领域

本发明实施例涉及移动通信领域技术，尤其涉及一种离网预测方法、装置、服务器和存储介质。

背景技术

在通信领域，客户可以说是运营商收入的主要来源，无论是客户的通信资费还是其产生的数据对运行商都有巨大的经济价值，因此如何得到客户的青睐成为运营商面临的问题。

因此如何留住老客户，如何及早的发现客户的离网趋势并且提出挽留客户的各种优惠政策是各大运营商要集中力量解决的问题。此时，离网预测就应运而生，它是指通过用户的各项数据，例如年龄，性别，通话习惯，地理位置，资费情况等提前预测用户是否会离网，如果预测用户将要离网，可提前采取措施挽留用户，将损失最小化。

传统的预测方法准确率较低，容易出现预测错误。

发明内容

本发明提供一种离网预测方法，通过使用离网预测模型，实现对用户离网趋势的准确预测，提高了预测准确率。

第一方面，本发明实施例提供一种离网预测方法，包括：

获取移动账号的用户数据，所述用户数据包括个人信息特征、消费行为特征、通话行为特征、投诉次数和/或网速；

将所述用户数据输入预先训练好的离网预测模型，得到所述移动账号的离网预测结果；

根据所述离网预测结果确定所述移动账号在待测时间点是否会离网。

进一步地，所述预先训练好的离网预测模型，训练方法包括：

获取历史用户数据，所述历史用户数据包括历史用户的个人信息特征、消费行为特征、通话行为特征、投诉次数和/或网速，所述历史用户数据还包括用户标签，所述用户标签为该历史用户处于离网状态或非离网状态；

使用所述历史用户数据训练一级分类器，生成包括用户标签的训练集；

使用所述包括所述用户标签的训练集训练二级分类器，将训练完成的所述一级分类器和二级分类器作为离网预测模型。

进一步地，所述使用所述历史用户数据训练一级分类器，生成包括用户标签的训练集，包括：

所述历史用户数据有N行，将所述N行历史用户数据分为K组；

依次选择每一组历史用户数据作为分组验证集，选择另外K-1组作为分组训练集；

使用所述分组训练集建立分组训练模型；

使用所述分组训练模型预测所述分组验证集，得到分组离网预测结果；

重复上一步骤K次，生成K个所述分组离网预测结果，每个所述分组离网预测结果有N/K行；

将所述K个分组离网预测结果合并，生成包括N个用户标签的训练集P。

进一步地，所述使用所述分组训练集建立分组训练模型，建模方法有四种，分别为朴素贝叶斯分类、决策树、支持向量机和随机森林，则所述使用所述历史用户数据训练一级分类器，生成包括用户标签的训练集，包括：

使用朴素贝叶斯分类建立分组训练模型，生成包括N个用户标签的第一训练子集P1；

使用决策树建立分组训练模型，生成包括N个用户标签的第二训练子集P2；

使用支持向量机建立分组训练模型，生成包括N个用户标签的第三训练子集P3；

使用随机森林建立分组训练模型，生成包括N个用户标签的第四训练子集P4；

将所述P1、P2、P3、P4结合在一起生成包括N*4个用户标签的训练集P。

进一步地，所述使用所述包括所述用户标签的训练集训练二级分类器，训练方法为逻辑回归。

第二方面，本发明实施例还提供了一种离网预测装置，包括：

第一获取模块，用于获取移动账号的用户数据，所述用户数据包括个人信息特征、消费行为特征、通话行为特征、投诉次数和/或网速；

预测模块，将所述用户数据输入预先训练好的离网预测模型，得到所述移动账号的离网预测结果；

判定模块，用于根据所述离网预测结果确定所述移动账号在待测时间点是否会离网。

进一步地，还包括：

第二获取模块，用于获取历史用户数据，所述历史用户数据包括历史用户的个人信息特征、消费行为特征、通话行为特征、投诉次数和/或网速，所述历史用户数据还包括用户标签，所述用户标签为该历史用户处于离网状态或非离网状态；

第一训练模块，用于使用所述历史用户数据训练一级分类器，生成包括用户标签的训练集；

第二训练模块，用于使用所述包括所述用户标签的训练集训练二级分类器，将训练完成的所述一级分类器和二级分类器作为离网预测模型。

第三方面，本发明实施例还提供了一种服务器，包括存储器和处理器，所述存储器上存储有可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述的离网预测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被执行时实现如上述任意一项所述的离网预测方法。

本发明提供一种离网预测方法，通过使用离网预测模型，将用户数据输入模型，得到离网预测结果，实现对移动账号是否会离网的准确预测，提高了离网预测准确率。

附图说明

图1是本发明实施例一中的一种离网预测方法流程图。

图2是本发明实施例一中的用户数据的特征表。

图3是本发明实施例二中的一种离网预测方法流程图。

图4是本发明实施例三中的一种离网预测装置模块图。

图5是本发明实施例三中替代实施例的一种离网预测装置模块图。

图6是本发明实施例三中替代实施例的一种离网预测装置模块图。

图7是本发明实施例四中的一种服务器结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一获取模块称为第二获取模块，且类似地，可将第二获取模块称为第一获取模块。第一获取模块和第二获取模块两者都是获取模块，但其不是同一模块。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

下述实施例中提及的专有名词及英文缩写含义如下：

Stacking算法：又叫做堆栈泛化(stacked generalization)，它可以同时降低模型的方差和偏差，整体上提升模型的性能，属于集成算法的一种。该算法具体的操作为：将原始数据集分为原始训练集和原始测试集，使用原始训练集和算法1训练模型，得到训练集预测结果1。

再使用原始训练集和算法2训练模型，得到训练集预测结果2，以此类推。

最终使用了多少个不同的算法，自然就会得到多少个对原始训练集的预测结果，用这些算法建立的模型被称作初级分类器。

将初级分类器的预测结果和原始训练集的标签合在一起，即成为stacking模型的训练集，如果有n个初级分类器，那么该训练集总列数为n+1，用该训练集训练出的模型叫做次级分类器，

即次级分类器是用初级分类器的预测结果和真实的标签作为训练集来训练的。

针对测试集，在建立每个初级分类器后，使用该初级分类器对原始测试集进行预测，得到一列预测结果，所以如果初级分类器有n个，最终对测试集的预测结果也将有n列，而这n列预测结果也将作为次级分类器的测试集。

在次级分类器训练完成后，使用该模型预测之前的n列测试集，得到stacking算法最终的预测结果。

实施例一

图1为本发明实施例一提供的一种离网预测方法的流程图，适用于离网预测模型已经事先训练好的情况，具体包括如下步骤：

S101、获取移动账号的用户数据，所述用户数据包括个人信息特征、消费行为特征、通话行为特征、投诉次数和/或网速。

该步骤所述的用户数据包括但不限于个人信息特征、消费行为特征、通话行为特征、投诉次数和/或网速，还可包括一些相对静态的特征，比如客户的性别，年龄等，也包括动态的特征，比如用户的通话次数，通话时间等。在离网预测中用到的用户数据可分为用户个人信息特征，用户消费行为特征，用户通话行为特征，其他特征等类别。如图2所示为用户数据可能包含的部分特征。

离网预测的实现主要通过对用户的行为特征进行建模，从而预测用户未来的行为动向。电信行业在数据方面有天然的优势，多年来各大运营商积累了大量的用户数据，为实现离网预测提供了必要的条件。

S102、将所述用户数据输入预先训练好的离网预测模型，得到所述移动账号的离网预测结果。

S103、根据所述离网预测结果确定所述移动账号在待测时间点是否会离网。

在该步骤中，离网预测结果当前用户绝大多数不会亲自去营业厅办理离网手续，更多的是停止续费，由运营商自己判断用户已离网，从而停止服务，而运营商给用户提供的窗口时间一般为2个月。示例性地，如果要对2019年11月份用户离网情况进行预测，那么数据窗口将为2019年6-8月份生成的用户数据，这样9-10月为运营商给用户的欠费停机时间，即待测时间点为用户数据的数据生成时间加上窗口时间得到的时间点。这样如果某用户在6-8月份间停止续费，那么在11月份一定会被销号，该用户的标签为离网，即待测的移动账号在11月份会离网。

本实施例通过通过使用集成算法，实现对用户离网趋势的准确预测，确定当前移动账号是否会离网。

实施例二

如图3所示，本实施例在上述实施例的基础上增加了离网预测模型的训练步骤，其中离网预测模型的建模过程使用stacking分层算法，该算法的层级结构与神经网络类似，理论上可以叠加到任意层数，具体地，对于测试集，我们首先用初级学习器预测一次，得到次级学习器的输入样本，再用次级学习器预测一次，得到最终的预测结果。

在本实施例中，优选地使用两层算法，以实现在算法尽可能简洁的基础上实现更好的集成效果，在一级分类器的基础上进行第二层分类，将训练得到的二级分类器作为最终使用的离网预测模型，步骤如下：

S201、获取历史用户数据，所述历史用户数据包括历史用户的个人信息特征、消费行为特征、通话行为特征、投诉次数和/或网速，所述历史用户数据还包括用户标签，所述用户标签为该历史用户处于离网状态或非离网状态。

S201之后，所诉使用所述历史用户数据训练一级分类器，生成包括用户标签的训练集的步骤包括：

S2021、所述历史用户数据有N行，将所述N行历史用户数据分为K组。

步骤S2021-S2025中使用的训练方法为K折交叉验证方法，即将训练集分为K份，每次选择1份数据作为验证集，另外K-1份数据作为训练集建立模型，再用训练出的模型对之前选择的1份数据进行预测。示例性地，该步骤及以下步骤以N＝10000，K＝5进行描述，该步骤将10000行用户数据分为5组，每组2000行。

S2022、依次选择每一组历史用户数据作为分组验证集，选择另外K-1组作为分组训练集。

根据K折交叉验证方法，选择其中一组2000行数据作为分组验证集，另外4组供8000行数据作为分组训练集。

S2023、使用所述分组训练集建立分组训练模型。

S2024、使用所述分组训练模型预测所述分组验证集，得到分组离网预测结果。

重复上一步骤K次，生成K个所述分组离网预测结果，每个所述分组离网预测结果有N/K行。

S2023-S2024步骤中，选择8000行的分组训练集建立预测模型，去预测剩下的2000行数据。重复5次步骤S2022-S2023，也就是说每一组2000行数据都作为验证集一次，将每次剩下的8000行数据建立预测模型，一共建立分组训练模型5个，使用每一个分组训练模型去预测剩下的2000行用户数据。

每一组数据预测得到2000个标签，标签的内容为用户离网或非离网，所述分组离网预测结果即为每一组预测得到的2000行包括用户标签的训练结果。最终将预测出的训练集标签合在一起，集合得到的数据维度为10000*1，即为包括10000个用户标签的训练集P。

S2025、将所述K个分组离网预测结果合并，生成包括N个用户标签的训练集P。

在替代实施例中,还可以对一级分类器训练过程进行改进，通过选择多种一级分类器，将训练得到的多个训练集P进行结合，不同算法具有不同的优缺点，例如朴素贝叶斯分类具有较高的分类准确性，决策树算法具有较高的准确性，但稳定性不好，选用四种建模算法能够起到互补的作用，减少了单一分类方法造成的误差。

示例性地，在步骤S2023中选用四种建立训练模型的算法，具体选择朴素贝叶斯，决策树，支持向量机和随机森林四种算法进行建模，则执行上述步骤S2021-S2025可得到如下结果：

使用随机森林建立分组训练模型，生成包括N个用户标签的第四训练子集P4。

将四个训练子集结合生成训练集，所述训练集有N*4个维度，每个维度包括一个用户标签。在本实施例的实例中，训练集维度为10000×5。

S203、使用所述包括所述用户标签的训练集训练二级分类器，将训练完成的所述一级分类器和二级分类器作为离网预测模型。

通过混淆矩阵对不同二级分类器的预测准确率和TPR(True Positive Rate)进行评价可以看出，逻辑回归作为stacking的次级分类器，拥有最高的准确率，以及相对高的TPR。因此在本实施例的替代实施例中，步骤S203优选地选用逻辑回归(logistic回归)作为二级分类器。

逻辑回归作为二级分类器能够使输出的阈值比较容易调整。示例性地，在根据离网预测结果确定所述移动账号是否会离网时，可以根据需要调整判定账号处于未使用状态的阈值。

由于一级分类器得到的训练集和历史用户数据的用户标签是二类列向量，即stacking训练集的矩阵只有离网和不离网两个值，若将离网记为1，不离网记为0，则上述训练集P为一个0，1矩阵。在实际应用中，离网用户数量远远小于不离网的用户数量，反映在矩阵中，0的数量远多于1，该步骤生成的矩阵即为稀疏矩阵。在离网预测过程使用稀疏矩阵能够便于存储与运算，提高本实施例及其他实施例所述的离网预测方法的运算效率，减少内存消耗。

S204、获取移动账号的用户数据，所述用户数据包括个人信息特征、消费行为特征、通话行为特征、投诉次数和/或网速。

S205、将所述用户数据输入预先训练好的离网预测模型，得到所述移动账号的离网预测结果。

在该步骤中的离网预测结果的形式基于二级分类器而变化，例如，当二级分类器为逻辑回归，离网预测结果输出为条件概率比值的对数。

S206、根据所述离网预测结果确定所述移动账号在待测时间点是否会离网。

该步骤中，根据运营商预设的时间窗口，例如，当时间窗口为两个月，根据所述移动账号的用户数据，判断得到的是两个月后的所述移动账号是否会离网。

以逻辑回归的二级分类器为例，用户在S206之前还可根据需要设置和调整判定阈值，例如，当上述步骤S205中提到的条件概率比值的对数高于预设的判定阈值时，确定所述移动账号在待测时间点不会离网，例如，预设的阈值为0，当所述条件概率比值的对数大于0，表明移动账号在待测时间点会离网。

本实施例通过选用stacking集成算法，训练两层分类器，提高了离网预测模型建模过程的准确性。在训练一级分类器的过程中使用K折交叉验证法，每一组数据既作为训练集也作为测试集，使用户数据更深入参与到模型的建立过程，提高了模型的准确性。

本实施例通过采用K折交叉验证，使历史用户数据能够更深入地参与到模型训练中，提高了分类器建立的准确性。在替代实施例中，通过选择多种分类器，将结果进行结合，避免了单一分类方法造成的误差，提高了离网预测模型的精确度，使离网预测模型更准确。

实施例三

如图4所示，本实施例提供了一种离网预测装置3，包括：

第一获取模块301，用于获取移动账号的用户数据，所述用户数据包括个人信息特征、消费行为特征、通话行为特征、投诉次数和/或网速；

预测模块302，将所述用户数据输入预先训练好的离网预测模型，得到所述移动账号的离网预测结果；

判定模块303，用于根据所述离网预测结果确定所述移动账号在待测时间点是否会离网。

如图5所示，在替代实施例中，预测模块302中的离网预测模型的训练过程包括如下模块：

第二获取模块304，用于获取历史用户数据，所述历史用户数据包括历史用户的个人信息特征、消费行为特征、通话行为特征、投诉次数和/或网速，所述历史用户数据还包括用户标签，所述用户标签为该历史用户处于离网状态或非离网状态；

第一训练模块，用于使用所述历史用户数据训练一级分类器，生成包括用户标签的训练集，所述第一训练模块包括：

分组单元3051，所述历史用户数据有N行，将所述N行历史用户数据分为K组；

分组建模单元3052，使用所述分组训练集建立分组训练模型；

分组预测单元3053，使用所述分组训练模型预测所述分组验证集，得到分组离网预测结果；

循环单元3054，用于重复上一步骤K次，生成K个所述分组离网预测结果，每个所述分组离网预测结果有N/K行；

训练集生成单元3055，用于将所述K个分组离网预测结果合并，生成包括N个用户标签的训练集P。

第二训练模块306，用于使用所述包括所述用户标签的训练集训练二级分类器，将训练完成的所述一级分类器和二级分类器作为离网预测模型。

在另一替代实施例中，如图6所示，所述分组建模单元3052包括第一分组建模子单元30521，第二分组建模子单元30522，第三分组建模子单元30523，第四分组建模子单元30524；

所述训练集生成单元3055包括第一训练集生成子单元30551，第二训练集生成子单元30552，第三训练集生成子单元30553，第四训练集生成子单元30554，训练集合并单元30555，具体地，

第一分组建模子单元30521用于使用朴素贝叶斯分类建立分组训练模型，第一训练集生成子单元30551生成包括N个用户标签的第一训练子集P1；

第二分组建模子单元30522使用决策树建立分组训练模型，第二训练集生成子单元30552生成包括N个用户标签的第二训练子集P2；

第三分组建模子单元30523使用支持向量机建立分组训练模型，第三训练集生成子单元30553生成包括N个用户标签的第三训练子集P3；

第四分组建模子单元30524使用随机森林建立分组训练模型，第四训练集生成子单元30554生成包括N个用户标签的第四训练子集P4；

训练集合并单元30555用于将所述P1、P2、P3、P4结合在一起生成包括N*4个用户标签的训练集P。

在替代实施例中，如图6所示，还包括：

第二训练模块306还用于使用逻辑回归训练二级分类器。

本发明实施例三所提供的一种离网预测装置可执行本发明任意实施例所提供的离网预测方法，具备功能模块相应的执行方法和有益效果。

实施例四

图7为本发明实施例四提供的一种服务器的结构示意图，如图7所示，该设备包括处理器401、存储器402、输入装置403和输出装置404；设备中处理器401的数量可以是一个或多个，图7以一个处理器401为例；设备中的处理器401、存储器402、输入装置403和输出装置404可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器402作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例一中的一种离网预测方法对应的模块(例如实施例三中的数据获取模块301、第一生成模块302等)。处理器401通过运行存储在存储器402中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的一种离网预测方法。

存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器402可进一步包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例五

实施例五提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种离网预测方法，该方法包括：

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的离网预测方法的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种离网预测方法，其特征在于，包括：

2.基于权利要求1所述的一种离网预测方法，其特征在于，所述预先训练好的离网预测模型，训练方法包括：

3.基于权利要求2所述的一种离网预测方法，其特征在于，所述使用所述历史用户数据训练一级分类器，生成包括用户标签的训练集，包括：

所述历史用户数据有N行，将所述N行历史用户数据分为K组；

使用所述分组训练集建立分组训练模型；

4.根据权利要求3所述的一种离网预测方法，其特征在于，所述使用所述分组训练集建立分组训练模型，建模方法有四种，分别为朴素贝叶斯分类、决策树、支持向量机和随机森林，则所述使用所述历史用户数据训练一级分类器，生成包括用户标签的训练集，包括：

5.根据权利要求2所述的一种离网预测方法，其特征在于，所述使用所述包括所述用户标签的训练集训练二级分类器，训练方法为逻辑回归。

6.一种离网预测装置，其特征在于，包括：

7.根据权利要求6所述的一种离网预测装置，其特征在于，还包括：

8.一种服务器，其特征在于，包括存储器和处理器，所述存储器上存储有可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-5任意一项所述的离网预测方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被执行时实现如权利要求1-5任意一项所述的离网预测方法。