CN112966865B

CN112966865B - 携号转网预测方法、装置及设备

Info

Publication number: CN112966865B
Application number: CN202110240138.9A
Authority: CN
Inventors: 蒋涛; 赵越; 王瑜; 孙宏
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2023-06-02
Anticipated expiration: 2041-03-04
Also published as: CN112966865A

Abstract

本申请提供一种携号转网预测方法、装置及设备，所述方法包括：获取多个用户的原始数据，并对所述原始数据进行处理，得到所述用户的多个特征数据；将所述特征数据构建的训练集输入堆叠模型进行训练，得到训练后的堆叠模型，确定每一特征数据的指标权重评分；所述堆叠模型用于预测待识别用户是否为潜在携号转网用户，以及所述待识别用户的携转方向；根据所述指标权重评分确定影响用户携号转网的原因，进而提高对携号转网事件的分析效率和准确率，且训练后的模型可以对待识别用户进行预测，判断待识别用户是否有携转倾向。

Description

携号转网预测方法、装置及设备

技术领域

本申请涉及通信技术领域，尤其涉及一种携号转网预测方法、装置及设备。

背景技术

携号转网，也称为号码携带或移机不改号，对于一家电信运营商的用户，无需改变自己的手机号码就能转而称为另一家电信运营商的用户，并享受其提供的各种服务。

对于运营商而言，用户的数量是公司营收与发展的重要保证，携号转网用户数量的增多，会造成运营商的卡号资源浪费和存量用户流失等后果，为了提早挽回可能携号转网的用户，需要对存量用户中的潜在携号转网用户进行识别。在一些技术中，通常采用神经网络的方法对潜在的携号转网用户进行预测，但是其无法及时、准确地确定携号转网的原因，对携号转网事件的分析效率较低、准确性较差。

发明内容

本申请提供一种携号转网预测方法、装置及设备，以解决无法及时、准确地确定携号转网的原因，提高携号转网事件的分析效率和准确性。

第一方面，本申请提供一种携号转网预测方法，所述方法包括：

获取多个用户的原始数据，并对所述原始数据进行处理，得到所述用户的多个特征数据；其中，所述多个用户包括携转用户和在网用户；每一用户的特征数据包括所述用户是否为高敏感投诉用户、第一异网运营商对所述用户的吸引指数和第二异网运营商对所述用户的吸引指数；

将所述特征数据构建的训练集输入堆叠模型进行训练，得到训练后的堆叠模型，确定每一特征数据的指标权重评分；所述堆叠模型用于预测待识别用户是否为潜在携号转网用户，以及所述待识别用户的携转方向；

根据所述指标权重评分确定影响用户携号转网的原因。

可选的，所述堆叠模型包括至少两个第一层学习器和一个第二层学习器；所述将所述特征数据构建的训练集输入堆叠模型进行训练，得到训练后的堆叠模型，确定每一特征数据的指标权重评分，包括：

针对每一个第一层学习器，通过K折交叉验证的方法基于所述训练集对所述第一层学习器进行训练，确定每一特征数据对所述第一层学习器的输入权重，得到所述训练集的预测值和训练后的第一层学习器；

将所述训练集的预测值作为第二层学习器的训练集，对所述第二层学习器进行训练，确定每一个第一层学习器的输出权重，得到训练后的第二层学习器；根据所述训练后的第一层学习器和训练后的第二层学习器确定训练后的堆叠模型；

根据所述输入权重和所述输出权重确定每一特征数据的指标权重评分。

可选的，所述第一层学习器包括Xgboost模型和随机森林模型，所述第二层学习器包括逻辑回归模型；根据所述输入权重和所述输出权重确定每一特征数据的指标权重评分，包括：

针对每一特征数据，将Xgboost模型对应的输入权重和Xgboost模型与逻辑回归模型之间的输出权重相乘，得到第一相乘结果；将随机森林模型对应的输入权重和随机森林模型与逻辑回归模型之间的输出权重相乘，得到第二相乘结果；

将所述第一相乘结果和第二相乘结果相加，得到所述特征数据的指标权重评分。

可选的，根据所述指标权重评分确定影响用户携号转网的原因，包括：

筛选出对应的指标权重评分大于预设值的特征数据；

根据筛选出的特征数据确定影响用户携号转网的原因。

可选的，得到训练后的堆叠模型后，还包括：

获取所述待识别用户的原始数据，并对所述原始数据进行处理，得到所述待识别用户的多个特征数据；

将所述待识别用户的多个特征数据输入训练后的堆叠模型，得到所述待识别用户的预测结果，根据所述预测结果确定所述待识别用户是否为潜在携号转网用户，以及所述待识别用户的携转方向。

可选的，所述根据所述预测结果确定所述待识别用户是否为潜在携号转网用户，以及所述待识别用户的携转方向之后，还包括：

向所述潜在携号转网用户推送信息；

或者，根据影响用户携号转网的原因生成对应的改进策略，以使管理人员根据所述改进策略对运营商的服务进行优化。

可选的，所述对所述原始数据进行处理，包括：

对所述原始数据进行用户画像，得到待识别用户的特征数据；

对所述特征数据进行特征工程处理，剔除无效特征数据，得到有效特征数据。

第二方面，本申请实施例提供一种携号转网预测装置，所述装置包括：

处理模块，用于获取多个用户的原始数据，并对所述原始数据进行处理，得到所述用户的多个特征数据；其中，所述多个用户包括携转用户和在网用户；每一用户的特征数据包括所述用户是否为高敏感投诉用户、第一异网运营商对所述用户的吸引指数和第二异网运营商对所述用户的吸引指数；

训练模块，用于将所述特征数据构建的训练集输入堆叠模型进行训练，得到训练后的堆叠模型，确定每一特征数据的指标权重评分；所述堆叠模型用于预测待识别用户是否为潜在携号转网用户，以及所述待识别用户的携转方向；

确定模块，用于根据所述指标权重评分确定影响用户携号转网的原因。

第三方面，本申请实施例提供一种携号转网预测设备，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行第一方面任一项所述的方法。

第四方面，本申请实施例提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面任一项所述的方法。

第五方面，本申请实施例提供一种程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面任一项所述的方法。

本申请提供了一种携号转网预测方法、装置及设备，所述方法包括：获取多个用户的原始数据，并对所述原始数据进行处理，得到所述用户的多个特征数据；其中，所述多个用户包括携转用户和在网用户；每一用户的特征数据包括所述用户是否为高敏感投诉用户、第一异网运营商对所述用户的吸引指数和第二异网运营商对所述用户的吸引指数；将所述特征数据构建的训练集输入堆叠模型进行训练，得到训练后的堆叠模型，确定每一特征数据的指标权重评分；所述堆叠模型用于预测待识别用户是否为潜在携号转网用户，以及所述待识别用户的携转方向；根据所述指标权重评分确定影响用户携号转网的原因，所述方法通过堆叠模型对用户的特征数据进行训练，能够根据训练后的指标权重评分确定影响用户携转的原因，进而提高对携号转网事件的分析效率和准确率，且训练后的模型可以对待识别用户进行预测，判断待识别用户是否有携转倾向。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的应用场景示意图；

图2为本发明实施例提供的一种携号转网预测方法的流程示意图；

图3为本发明实施例提供的另一种携号转网预测方法的流程示意图；

图4为本发明实施例提供的堆叠模型的一种结构示意图；

图5为本发明实施例提供的携号转网预测方法的原理图；

图6为本发明实施例提供的一种携号转网预测装置的结构示意图；

图7为本发明实施例提供的一种携号转网预测设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本发明实施例提供的应用场景示意图，如图1所示，将带标签的特征数据输入至堆叠模型进行训练，得到训练后的堆叠模型，基于训练后的堆叠模型可以确定携号转网的原因，以及，还可以将待识别用户的特征数据输入训练后的堆叠模型，得到待识别用户的携号转网的预测结果。

在一些技术中，在携号转网预测中，通常采用神经网络模型对训练数据进行训练，以得到训练后的模型，再将训练后的模型去预测待识别用户是否有携转倾向。

然而，现有技术中仅能确定待识别用户是否携转，但是无法确定用户携转的原因，那么当获取携转结果后，无法对携转事件进行准确分析。

此外，采用的神经网络还具有可解释性差的问题，由于神经网络为结构分层的网络，且神经元和参数众多，而我们无法得知每个参数的意义以及模型的运作机制，因此无法说明一条输入样本通过神经网络产生对应的预测结果的原因。

基于上述问题，本申请实施例提供的携号转网预测方法，采用堆叠模型对特征数据进行训练，得到训练后的堆叠模型和每一个特征数据的指标权重评分，指标权重评分能够表示每一特征数据对输出结果的影响程度，进而可以确定影响用户携号转网的原因。此外，采用的堆叠模型是一种有层次的融合模型，可以融合多个学习器的预测结果，因此可以提高预测结果的准确性。以及，堆叠模型是由决策树搭建的融合模型，可以通过决策序列来展示模型的决策依据，进而提高携号转网的预测结果的可解释性。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的一种携号转网预测方法的流程示意图，所述方法应用于携号转网预测装置，所述携号转网预测装置设置在终端设备上。如图2所示，本实施例的方法，可以包括：

S201、获取多个用户的原始数据，并对所述原始数据进行处理，得到所述用户的多个特征数据；其中，所述多个用户包括携转用户和在网用户；每一用户的特征数据包括所述用户是否为高敏感投诉用户、第一异网运营商对所述用户的吸引指数和第二异网运营商对所述用户的吸引指数。

其中，多个用户属于目标运营商，也就是在网用户当前所属的运营商为目标运营商，或者携转用户在携转前所属的运营商为目标运营商。

其中，原始数据包括用户基础数据、业务数据和网络数据；基础数据是指用户的基本信息，如年龄、性别、归属、号段、使用的套餐等等。业务数据可以通过运营商B域信息来获取，业务数据包括用户的消费习惯、终端信息、业务内容及业务受众人群等信息。网络数据可以通过运营商O域信息来获取，如信令数据、告警数据、故障数据等等。此外，原始数据还包括投诉数据、感知数据和通话数据等等。投诉数据包括用户的投诉次数及投诉原因，感知数据包括用户在上网时的卡顿情况以及信号的中断情况，通话数据包括其他用户与该用户之间的通话信息，如与该用户通话的用户的号段，与该用户通话的用户的总和等。

其中，获取的原始数据为所述用户在当前时刻之前一段周期内的数据。通过将原始数据的获取时间限制在当前时刻之前的一段周期内，可以提高对堆叠模型的时效性。

在获取原始数据后，需要将原始数据进行处理，得到多个特征数据，通过提取特征数据，能够使得堆叠模型基于特征数据确定预测结果。原始数据则无法直接关联到预测结果，通过特征数据可以更好的体现该用户是否进行携转。

其中，获取的特征数据包括所述用户是否为高敏感投诉用户，其中高敏感投诉用户可以通过获取的用户的投诉次数来确定，当所述用户的投诉次数超过预设值，则表示该用户为高敏感投诉客户。

此外，获取的特征数据还包括第一异网运营商对所述用户的吸引指数和第二异网运营商对所述用户的吸引指数。其中，第一异网运营商对所述用户的吸引指数以及第二异网运营商对所述用户的吸引指数统称为异网运营商的吸引指数，可以通过其他用户与该用户之间的通话信息来确定。获取在预设时间段内与所述用户通话的其他用户的号段，根据所述号段确定所述其他用户所属的运营商，计算属于异网运营商的其他用户的个数和与所述用户通话的其他用户的总个数，根据属于异网运营商的其他用户的个数与总个数的比值来确定异网运营商吸引指数。对于第一异网运营商对所述用户的吸引指数和第二异网运营商对所述用户的吸引指数的计算方式与上述过程相似，此处不再赘述。

通过异网吸引指数可以确定所述用户周围的用户所使用的运营商对该用户产生的影响。也就是说，对于用户A来说，当周围群体都使用第一异网运营商时，则可能该用户也会携号转网至该第一异网运营商。

在一种实施方式中，所述对所述原始数据进行处理，包括：

对所述原始数据进行用户画像，得到待识别用户的特征数据；对所述特征数据进行特征工程处理，剔除无效特征数据，得到有效特征数据。

在本实施例中，在获取原始数据后，需要先对原始数据进行数据清洗和对缺失值进行补齐的处理，能够防止异常数据所带来的预测结果不准确的问题。

在对原始数据进行用户画像是指在获取原始数据后，根据原始数据得到对应的特征数据，例如，获取的原始数据中，用户使用的流量大于1GB，则会将该用户确定为高流量用户；同样的，当用户每月的通话时长大于300分钟时，则会将该用户确定为高通话用户。也就是根据获取的用户的原始数据，会为该用户设置相应的标签。

在通过对原始数据进行用户画像后，可以得到待识别用户的特征数据，需要对得到的特征数据进行特征工程处理，其中，此处的特征处理主要是指，将特征数据转换为定量特征，使得计算机可以识别特征数据。

此外，还需要对得到的特征数据进行特征选择，将有效的特征输入堆叠模型进行训练。其中，在确定有效特征时，可以采用特征是否发散、特征与目标的相关性等方法来确定特征是否为有效特征。当方差接近于0时，表示特征不发散，表示该特征对于样本的区分所起的作用不大，该特征为无效特征。特征与目标的相关性可以计算特征对目标值的相关系数来确定。通过剔除无效特征数据，可以提高预测结果的准确性，减少数据计算量。

上述对原始数据的处理过程可以降低由于原始数据的异常所导致的模型准确率低的问题，可以有效提高训练后模型的准确率。

S202、将所述特征数据构建的训练集输入堆叠模型进行训练，得到训练后的堆叠模型，确定每一特征数据的指标权重评分；所述堆叠模型用于预测待识别用户是否为潜在携号转网用户，以及所述待识别用户的携转方向。

在本实施例中，在确定特征数据后，可以将特征数据构建为训练集，并使用该训练集对堆叠模型进行训练。其中，堆叠模型是指stacking融合模型，可以将通过特征数据训练出来的多个模型进行融合，也就是stacking融合模型包括基学习器和次学习器，通过基学习器可以对特征数据进行训练得到预测结果，通过次学习器可以对基学习器的预测结果进行训练。

其中，通过对堆叠模型进行训练，可以确定每一个特征数据的指标权重评分，指标权重评分表示每一个特征数据对用户是否携转的影响程度。

其中，指标权重评分可以通过输入的特征数据对基学习器的影响以及各个基学习器对次学习器的影响来确定。

例如，训练集包括700个样本数据，验证集包括300个样本数据，其中，训练集用于对堆叠模型进行训练，验证集用于对训练后的堆叠模型进行验证。其中，每一个样本数据包括多个特征数据，如50个特征数据，将训练集的样本数据输入到堆叠模型进行训练，其中，对堆叠模型进行训练的过程就是确定模型的各个参数的过程，当模型参数确定后，可以确定每一特征数据的指标权重评分。

S203、根据所述指标权重评分确定影响用户携号转网的原因。

在本实施例中，当在获取每一个特征数据的指标权重评分后，可以对所有特征数据的指标权重评分进行排序，确定影响用户携号转网的原因。

通过采用堆叠模型可以通过决策序列来展示模型的决策依据，而决策依据则可以体现确定影响用户携号转网的原因。如决策序列为年龄-投诉-异网吸引指数-使用套餐-性别这一序列时，则表示依次通过判断年龄、投诉情况和异网吸引指数来确定用户是否进行了携号转网。

此外，堆叠模型是将多个学习器的分类结果进行融合，能够提高预测结果的准确性。

上述方法通过采用堆叠模型对多个用户的特征数据进行训练，从而获取特征数据对用户携号转网的影响较大的特征数据，进而确定用户携号转网的原因。相比与现有技术来说，能够确定影响用户携号转网的原因，能够准确及有效的对携号转网事件进行分析，再基于用户携号转网的原因采取相应的措施，从根本上降低用户携号转网事件的发生。

图3为本发明实施例提供的另一种携号转网预测方法的流程示意图，对堆叠模型的训练过程进行详细说明，其中，所述堆叠模型包括至少两个第一层学习器和一个第二层学习器；确定每一特征数据的指标权重评分，可以包括：

S301、针对每一个第一层学习器，通过K折交叉验证的方法基于所述训练集对所述第一层学习器进行训练，确定每一特征数据对所述第一层学习器的输入权重，得到所述训练集的预测值和训练后的第一层学习器。

图4为本发明实施例提供的堆叠模型的一种结构示意图，如图4所示，堆叠模型包括多个第一层学习器，如学习器1，学习器2至学习器m，还包括第二层学习器，其中，第一层学习器的输入为特征数据，也就是将特征数据分别输入到每一个第一层的学习器进行训练，得到训练结果，将第一层训练的结果作为第二层学习器的输入。

其中，在对第一层学习器进行训练时，采用K折交叉验证的方法对每一个第一层学习器进行训练来实现。其中，K折交叉验证是指将训练数据平均分为K份，依次将其中的一份作为测试数据，将其余的K-1份作为训练数据。在将数据划分完毕后，开始进行交叉验证，针对每一个第一层学习器，将K-1份的训练数据去训练该学习器，在训练完毕后，将对应的一份的测试数据输入训练后的该第一层学习器进行测试。那么在经过一次的交叉验证后，将会得到一份的测试数据的预测值。因此，在经过K次的交叉验证之后，将会得到K份的测试数据的预测值。由于每次进行交叉验证时的测试数据不同，因此该K份的测试数据的预测值即为整个训练集的预测值。

此外，在每次交叉验证完成后，会将验证集的数据输入到训练后的第一层学习器中，得到验证集的预测值，由于每一学习器都进行了K次交叉验证，因此，可以得到K个验证集的预测值，将K个预测值求平均，可以得到验证集对应的预测值。

其中，通过对第一层学习器的训练，将会得到训练后的第一层学习器，对于每一个训练后的第一层学习器，可以确定每一个特征数据对第一层学习器的输入权重，该输入权重越大表示该特征数据对该学习器的影响越大。其中对于一个学习器来说，所有特征数据对应的输入权重之和为1。

S302、将所述训练集的预测值作为第二层学习器的训练集，对所述第二层学习器进行训练，确定每一个第一层学习器的输出权重，得到训练后的第二层学习器；根据所述训练后的第一层学习器和训练后的第二层学习器确定训练后的堆叠模型。

在得到每一个学习器对应的整个训练集的预测值后，将该预测值进行合并，并将合并后的预测值输入至第二层学习器，对第二层学习器进行训练。将验证集对应的预测值合并，并将合并后的预测值输入至第二层学习对训练后的第二层学习器进行验证，以得到训练后的第二层学习器。

其中，对于所述第二层学习器进行训练的过程就是确定第一层学习器的输出权重的过程。初始时，对于所有的第一层学习器可以设置相同的输出权重，则会得到每一输入数据的标签值，将得到的标签值与该条数据对应的标签值进行比较，得到差值，再根据差值去调整每一个第一层学习器的输出权重，使得得到的标签值不断逼近实际的标签值，当差值满足预设条件时，表示对应的第一层学习器的输出权重为合适的数值。

其中，对于不同的第一层学习器其输出权重不同，当输出权重越大表示该第一层学习器的预测值对第二层学习器的输出结果影响较大，输出权重越小表示该第一层学习器的预测值对第二层学习器的输出结果影响较小。其中，所有第一层学习器的输出权重之和为1。

例如，对于学习器1和学习器2，若学习器1的输出权重为0.6，而学习器2的输出权重为0.4，则表示第二层学习中更信任学习器1的预测结果。

S303、根据所述输入权重和所述输出权重确定每一特征数据的指标权重评分。

其中，输入权重表示每一个特征数据对第一层学习器的预测值的影响程度，而输出权重表示每一个第一层学习器对第二层学习器的输出结果的影响程度。因此，根据输入权重和输出权重就可以确定不同的特征数据对用户是否携号转网的影响。

通过采用K折交叉验证的方式可以避免由于数据集的划分不合理而导致的问题，可以在获取的有限数据上对学习器模型进行评估。

下面对指标权重评分的确定过程进行详细说明。

针对每一特征数据，将Xgboost模型对应的输入权重和Xgboost模型与逻辑回归模型之间的输出权重相乘，得到第一相乘结果；将随机森林模型对应的输入权重和随机森林模型与逻辑回归模型之间的输出权重相乘，得到第二相乘结果；将所述第一相乘结果和第二相乘结果相加，得到所述特征数据的指标权重评分。

在本实施例中，第一层学习器采用Xgboost模型和随机森林模型，其中，随机森林模型是指通过训练集生成随机森林中的多个决策树，并用训练得到多个决策树的预测数值得到随机森林的预测值。其中，在确定随机森林模型对应的输入权重时，可以采用基尼系数、增益率或信息增益等方法来确定每个特征数据的输入权重。其中，当获取的输入权重之和不为1时，可以进行归一化处理，得到归一化后的输入权重。

同样的，Xgboost模型为一种二叉树结构，通过将叶子节点不断的分裂得到多个树模型。其中，在确定特征数据的指标权重评分时，可以通过增益、覆盖度或频率来实现。其中，当获取的输入权重不为1时，同样可以采用归一化处理，得到归一化后的输入权重。

针对一个特征数据，在计算指标权重评分时，需要同时考虑输入权重和输出权重。具体的，针对Xgboost模型，将一个特征数据对应的Xgboost模型的输入权重和Xgboost模型对应的输出权重相乘，得到的相乘结果表示该特征数据通过该Xgboost模型和逻辑回归模型对输出结果的影响。因此，针对同一特征数据，分别将Xgboost模型和随机森林模型的输入权重和对应的输出权重相乘，并将相乘结果再相加，即可得到该特征数据的指标权重评分。

下面通过一个简单的例子进行说明，特征数据包括三个，分别是年龄、异网吸引指数和使用的套餐，则经过训练数据的训练，Xgboost模型对上述三个特征数据的输入权重分别为0.6、0.3和0.1，而Xgboost模型的输出权重为0.6；随机森林模型对上述三个特征数据的输入权重分别为0.5、0.4和0.1，而随机森林模型的输出权重为0.4；则可以确定年龄这一特征数据的指标权重评分为：0.6*0.6+0.5*0.4＝0.56；异网吸引指数这一特征数据的指标权重评分为0.3*0.6+0.4*0.4＝0.34；而使用的套餐这一特征数据的指标权重评分等于0.1*0.6+0.1*0.4＝0.1。

通过将特征数据对各个第一层学习器的输入权重和输出权重相乘并将加的方式确定的指标权重评分，能够准确的反映特征数据对输出结果的影响程度。

筛选出对应的指标权重评分大于预设值的特征数据；根据筛选出的特征数据确定影响用户携号转网的原因。

在本实施例中，在确定特征数据的指标权重评分后，通过指标权重评分能够直观确定影响用户携号转网的原因。具体的，当该某一特征数据的指标权重评分越大时，表示该特征数据对用户携号转网的影响越大；相反的，当某一特征数据的指标权重评分越小时，表示该特征数据对用户携号转网的影响越小。

在确定影响用户携号转网的原因时，可以将特征数据按照指标权重评分的大小进行降序排列，并且可以根据实际情况设置预设值，将指标权重评分大于预设值的特征数据筛选出来作为关键特征数据，将其余的特征数据作为常规特征数据。

其中，经过实验确定的关键特征数据包括：年龄、异网吸引指数、用户是否为高敏感投诉客户、信号质量和网络质量等特征。

在实际中，当对不同地区的待识别用户进行训练时，得到的关键特征数据可能略有差异。

通过上述方法可以准确确定影响用户携号转网的原因。

此外，本发明实施例还可以对待识别用户是否有携转倾向进行预测。

可选的，得到训练后的堆叠模型后，还包括：

其中，在本实施中，在得到训练后的堆叠模型后，还可以采用训练后的堆叠模型对当前目标运营商的在网用户进行预测，判断在网用户是否具有携转倾向。

其中，获取待识别用户的多个特征数据的过程与获取用作训练集的多个用户的特征数据的过程相同。在获取待识别用户的特征数据后，可以将待识别用户的特征数据输入至训练后的堆叠模型，其中，该堆叠模型可以识别用户的携转方向。在一个实施例中，预测结果可以为0、1和2，分别表示用户不携转、用户携转至第一异网运营商、用户携转至第二异网运营商。此外，预测结果还可以为介于0至2之间的任何数值(包括0和2)通过将预测结果的数值与预设数值比较，来确定用户是否携转及携转方向。

通过上述方法，采用训练后的堆叠模型可以实现对待识别用户的携号转网事件进行预测，进一步的，可以实现对待识别用户的携转方向的预测，堆叠模型融合了多个学习器的预测结果，使得最终的预测结果的准确度会更好。

可选的，根据所述预测结果确定所述待识别用户是否为潜在携号转网用户，以及所述待识别用户的携转方向之后，还包括：

向所述潜在携号转网用户推送信息；或者，根据影响用户携号转网的原因生成对应的改进策略，以使管理人员根据所述改进策略对运营商的服务进行优化。

其中，在确定潜在携号转网用户后，可以向其推送信息，信息内容可以为当前运营商的优惠信息，以吸引用户办理；或者，还可以是向用户赠送话费或流量的信息，在一定程度上可以挽留潜在携号转网用户。

在确定影响用户携号转网的原因后，还可以根据具体的原因生成改进策略，从根本上提高运营商的服务质量。例如，由于信号质量和网络质量不佳所导致用户携号转网时，可以对相应地区的网络进行优化。当由于用户是否为高敏感投诉客户所导致用户携号转网时，可以对高敏感投诉客户进行电话回访，收集客户提出的建议等。当由于异网吸引指数较高所导致用户携号转网时，可以通过调研确定异网运营商是否推出新的套餐等等。

通过上述方法，可以在确定用户携号转网的原因，以及确定潜在携号转网用户后，能够从根本上解决用户携号转网的原因，有效降低携号转网用户的数量。

图5为本发明实施例提供的携号转网预测方法的原理图。如图5所示，在进行携号转网预测的一般处理步骤为：先进行数据处理，其中包括数据清洗、用户画像和特征工程的具体的数据处理步骤，得到特征数据。在执行训练堆叠模型的步骤，其中训练堆叠模型时采用的数据是：在网用户和已携转用户的特征数据。在对堆叠模型训练完成后，一方面对待识别用户的携号转网事件进行预测，得到潜在携号转网的用户；另一方面先确定指标权重评分，具体的，根据训练后的堆叠模型中第一层学习器的输入权重和输出权重来确定。在确定指标权重评分后，可以确定用户携号转网原因，具体的，可以对所有特征数据的指标权重评分进行分析来实现。

通过上述的携号转网预测步骤可以实现预测待识别用户是否携转，同时，还可以根据指标权重评分确定用户携号转网的原因。

图6为本发明实施例提供的一种携号转网预测装置的结构示意图；如图6所示，所述装置60包括：

处理模块601，用于获取多个用户的原始数据，并对所述原始数据进行处理，得到所述用户的多个特征数据；其中，所述多个用户包括携转用户和在网用户；每一用户的特征数据包括所述用户是否为高敏感投诉用户、第一异网运营商对所述用户的吸引指数和第二异网运营商对所述用户的吸引指数；

训练模块602，用于将所述特征数据构建的训练集输入堆叠模型进行训练，得到训练后的堆叠模型，确定每一特征数据的指标权重评分；所述堆叠模型用于预测待识别用户是否为潜在携号转网用户，以及所述待识别用户的携转方向；

确定模块603，用于根据所述指标权重评分确定影响用户携号转网的原因。

可选的，所述堆叠模型包括至少两个第一层学习器和一个第二层学习器；所述训练模块602用于：

可选的，所述第一层学习器包括Xgboost模型和随机森林模型，所述第二层学习器包括逻辑回归模型；所述训练模块在根据所述输入权重和所述输出权重确定每一特征数据的指标权重评分时，用于：

可选的，确定模块603，用于：

筛选出对应的指标权重评分大于预设值的特征数据；

根据筛选出的特征数据确定影响用户携号转网的原因。

可选的，所述装置还包括：预测模块，用于：

可选的，所述装置还包括：优化模块，用于：

向所述潜在携号转网用户推送信息；

可选的，所述处理模块601在对所述原始数据进行处理时，具体用于：

本发明实施例提供的携号转网预测装置，可以实现上述如图2、图3、图4和图5所示的实施例的携号转网预测方法，其实现原理和技术效果类似，此处不再赘述。

图7为本发明实施例提供的一种携号转网预测设备的硬件结构示意图。如图7所示，本实施例提供的携号转网预测设备70包括：至少一个处理器701和存储器702。其中，处理器701、存储器702通过总线703连接。

在具体实现过程中，至少一个处理器701执行所述存储器702存储的计算机执行指令，使得至少一个处理器701执行上述方法实施例中的携号转网预测方法。

处理器701的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图7所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述方法实施例的携号转网预测方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本申请一个实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如本申请图2至图5所对应的实施例中任意实施例提供的携号转网预测方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种携号转网预测方法，其特征在于，所述方法包括：

获取多个用户的原始数据，并对所述原始数据进行处理，得到所述用户的多个特征数据；其中，所述多个用户包括携转用户和在网用户；每一用户的特征数据包括所述用户是否为高敏感投诉用户、第一异网运营商对所述用户的吸引指数和第二异网运营商对所述用户的吸引指数；其中，所述第一异网运营商对所述用户的吸引指数和所述第二异网运营商对所述用户的吸引指数为异网运营商的吸引指数；根据属于异网运营商的其他用户的个数与所述用户通话的其他用户的总个数的比值来确定异网运营商吸引指数；将所述特征数据构建的训练集输入堆叠模型进行训练，得到训练后的堆叠模型，确定每一特征数据的指标权重评分；所述堆叠模型用于预测待识别用户是否为潜在携号转网用户，以及所述待识别用户的携转方向；

根据所述指标权重评分确定影响用户携号转网的原因；

所述堆叠模型包括至少两个第一层学习器和一个第二层学习器；所述将所述特征数据构建的训练集输入堆叠模型进行训练，得到训练后的堆叠模型，确定每一特征数据的指标权重评分，包括：

所述第一层学习器包括Xgboost模型和随机森林模型，所述第二层学习器包括逻辑回归模型；

2.根据权利要求1所述的方法，其特征在于，根据所述指标权重评分确定影响用户携号转网的原因，包括：

筛选出对应的指标权重评分大于预设值的特征数据；

根据筛选出的特征数据确定影响用户携号转网的原因。

3.根据权利要求1所述的方法，其特征在于，得到训练后的堆叠模型后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述预测结果确定所述待识别用户是否为潜在携号转网用户，以及所述待识别用户的携转方向之后，还包括：

向所述潜在携号转网用户推送信息；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述对所述原始数据进行处理，包括：

6.一种携号转网预测装置，其特征在于，所述装置包括：

处理模块，用于获取多个用户的原始数据，并对所述原始数据进行处理，得到所述用户的多个特征数据；其中，所述多个用户包括携转用户和在网用户；每一用户的特征数据包括所述用户是否为高敏感投诉用户、第一异网运营商对所述用户的吸引指数和第二异网运营商对所述用户的吸引指数；其中，所述第一异网运营商对所述用户的吸引指数和所述第二异网运营商对所述用户的吸引指数为异网运营商的吸引指数；根据属于异网运营商的其他用户的个数与所述用户通话的其他用户的总个数的比值来确定异网运营商吸引指数；

确定模块，用于根据所述指标权重评分确定影响用户携号转网的原因；

所述堆叠模型包括至少两个第一层学习器和一个第二层学习器；所述训练模块用于：

所述训练模块在根据所述输入权重和所述输出权重确定每一特征数据的指标权重评分时，用于：

7.一种携号转网预测设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用并执行所述存储器中的程序指令，执行如权利要求1-5任一项所述的方法。

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-5任一项所述的方法。