CN114022202A

CN114022202A - 基于深度学习的用户流失预测方法及系统

Info

Publication number: CN114022202A
Application number: CN202111295191.5A
Authority: CN
Inventors: 吕丰; 钱凯; 吴帆; 任炬; 张尧学
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-08
Anticipated expiration: 2041-11-03
Also published as: CN114022202B

Abstract

本发明公开了基于深度学习的用户流失预测方法及系统，通过构建并将时序行为特征矩阵转化成多个块嵌入向量，并添加初始类别嵌入向量以及位置嵌入向量，再提取嵌入特征块的各个块嵌入向量的目标类别，并加上位置嵌入向量所标记的各个块嵌入向量之间的位置关系对提取的各个块嵌入向量进行自相似性计算，得到嵌入特征块的类别嵌入向量；对嵌入特征块的类别嵌入向量进行预分类，输出用户流失概率值，从用户画像特征矩阵提取用户画像的关键特征矩阵，根据用户画像的关键特征矩阵以及用户流失概率值确定用户的流失类别。本发明能准确、全面捕捉用户各种时序行为特征之间的自相似性，并结合用户画像的关键特征矩阵实现高精度的用户流失预测。

Description

基于深度学习的用户流失预测方法及系统

技术领域

本发明涉及用户流失预测领域，尤其涉及基于深度学习的用户流失预测方法及系统。

背景技术

随着现代信息技术和通信技术的快速发展，移动通信领域用户以较低的价格就可以享受到优质的服务。市场竞争日趋激烈，需求逐步饱和，原有用户的流失也日益严重。其中，用户流失是指用户终止与企业的服务合同或转向使用其他公司提供的服务。Garter公司的调查数据显示，开发一个新用户的费用是维持一个老用户成本的4～5倍。另有研究表明，一个公司如果将用户流失率降低5％，就能增加25％～85％的利润。目前，我国移动通信行业已经进入用户饱和阶段，发展一个新用户的成本越来越高，因此控制用户流失是关系各大通信运营商未来生存和发展的一个关键问题。而通过用户流失预测来保留现有用户成为很多移动通信公司发展的首要目标。用户流失预测作为客户关系管理(CRM)方法的一部分，能够有效帮助公司减少客户的流失，对公司增加营收和提高竞争力有重要意义。

由于近些年来深度学习的快速发展，基于深度学习模型的预测算法也开始出现。有的利用多层前馈网络(FFN)预测用户流失，有的利用循环神经网络(RNN)模型处理包含用户年龄、性别特征，及用户各项通信消费数据在内的时序数据进行流失预测。神经网络还被用来提取高维特征表达，以求获取隐藏潜在信息等。然而上述用户流失预测方法均不适合处理复杂动态的时间序列数据，且对用户流失预测精度有限。

发明内容

本发明提供了基于深度学习的用户流失预测方法及系统，用于解决现有的用户流失预测方法预测精度不高的技术问题。

为解决上述技术问题，本发明提出的技术方案为：

一种基于深度学习的用户流失预测方法，包括以下步骤：

获取用户的画像特征集以及时序行为特征集，根据所述用户画像特征集构建用户画像特征矩阵，根据所述时序行为特征集构建时序行为特征矩阵，所述画像特征集中包含用户不同维度的画像特征数据，所述时序行为特征集中包含用户不同维度的时序行为特征序列；

将所述时序行为特征矩阵转化成多个块嵌入向量，并添加初始类别嵌入向量以及位置嵌入向量，所述类别嵌入向量用于学习并标记各个块嵌入向量的目标类别；所述位置嵌入向量用于标记各个块嵌入向量之间的位置关系；

提取所述嵌入特征块的各个块嵌入向量的目标类别，并加上所述位置嵌入向量所标记的各个块嵌入向量之间的位置关系对提取的各个块嵌入向量进行自相似性计算，得到所述嵌入特征块的类别嵌入向重；对所述嵌入特征块的类别嵌入向量进行预分类，输出用户流失概率值；

从所述用户画像特征矩阵提取用户画像的关键特征矩阵，根据用户画像的关键特征矩阵以及所述用户流失概率值确定所述用户的流失类别。

优选的，将所述时序行为特征矩阵转化成多个块嵌入向量，并添加初始类别嵌入向量以及位置嵌入向量由嵌入层实现，具体包括以下步骤：

设所述时序行为特征矩阵为X∈R^N×L，其中，N为所述时序行为特征矩阵的特征维度，L为每个时间序列特征的长度；将所述时序行为特征矩阵X∈R^N×L切分成大小为P×Q的矩阵块，得到分割后的时序行为特征矩阵X∈R^M×(P×Q)；

通过线性变换嵌入E将分切后的时序行为特征矩阵X∈R^M×(P×Q)映射到D大小的维度，得出嵌入表示X′＝XE∈R^M×D；

在嵌入表示X′＝XE∈R^M×D中添加类别嵌入向量x_c∈R^D以及位置嵌入向量E_p∈R^(M ^+1)×D，得到嵌入层的输出为：

y₀＝[x_c；x¹E；x²E；...；x^ME]+E_p，E∈R^(P×Q)×^D，E_p∈R^(M+1)×D

其中，y₀为嵌入层的输出，且y₀∈R^(M+1)×D，X^i′为所述嵌入表示X′＝XE∈R^M×D中第i个块嵌入向量，i＝1，2，3，...，M，块嵌入向量x^i′＝xⁱE对应的位置嵌入为

所述类别嵌入向量x_c∈R^D为可学习，且无明显语义信息的嵌入向量。

优选的，提取所述嵌入特征块的各个块嵌入向量的目标类别，并加上所述位置嵌入向量所标记的各个块嵌入向量之间的位置关系对提取的各个块嵌入向量进行自相似性计算，得到所述嵌入特征块的类别嵌入向量由多头自注意层实现，具体包括以下步骤：

分别计算每一个块嵌入向量与其他块嵌入向量目标类别的相似性并给予相应的权重：

其中，

和

分别为3个不同的参数矩阵，由随机初始化得到，维度均为(M+1)×(M+1)，Q_i、K_i、V_i分别为嵌入层的输出y0的query、key和value矩阵；

为一个查询向量q_i的维度，取值为M+1；Head_i为采用第i个参数矩阵

和

计算得到的特征子矩阵，该特征子矩阵用于模型在不同的表示子空间里去学习相关的信息；i为所述多头自注意层中自注意块的序号，i＝1，2，3...，N，N为自注意头的总数。

计算查询矩阵Q_i与键矩阵的转置

之间的内积得到分数，除以

进行归一化，然后对分数使用softmax激活函数，再点乘价值矩阵V_i，得到特征子矩阵Head_i，拼接Head_i，乘以投影矩阵W^O得到MultiHead(₀)，作为新的序列特征：

MultiHead(y₀)＝Concat(Head₁，...，Head_N)W^O

W^o为投影矩阵，维度是(N×D)×D，MultiHead(₀)的维度为(M+1)×D。

将新的序列特征输出给注意力层中的全连接神经网络，然后堆叠L层，最后输出第L层的类别嵌入向量，其中，L根据数据量大小和实验结果确定，取值范围为3～10。

优选的，对所述嵌入特征块的类别嵌入向量进行预分类，输出用户流失概率值，通过以下公式实现：

p＝LayerNorm(MultiHead0)

其中，MultiHead⁰为多头自注意层输出的第L层的类别嵌入向量。

优选的，根据用户画像的关键特征矩阵以及所述用户流失概率值确定所述用户的流失类别，包括以下步骤：

将所述用户画像特征以及预分类输出的所述用户流失概率值喂给分类器多层感知机MLP后，进行训练输出流失概率值p′；

再根据阈值过滤，输出用户是否会在下个月流失的指示变量I，其中，阈值过滤公式为：

其中，0表示下个月不会流失，1表示此用户下个月将会流失。

优选的，从所述用户画像特征矩阵提取用户画像的关键特征矩阵，包括以下步骤：

对用户画像特征矩阵D_n×m＝{x₁，x₂，...，x_m}进行中心化，其中，x_i为用户画像特征矩阵D_n×m第i个用户的画像特征列向量，i＝1，...，m，n为用户画像特征矩阵的特征维度，m为用户数，并用以下公式计算用户每个维度中心化后的用户画像特征向量，得到第i个用户的中心化特征向量x′_i：

将所有用户的用户中心化特征向量组装成用户中心化特征矩阵D′_n×m，计算所述用户中心化特征矩阵的协方差矩阵XX^T，并对协方差XX^T做特征值分解，取最大的k个特征值对应的特征向量u₁，u₂，...，u_k组成投影矩阵W＝(u₁，u₂，...，u_k)，将投影矩阵与用户特征矩阵相乘，得到经过特征提取层提取后的关键特征矩阵：

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现方法的步骤。

本发明具有以下有益效果：

1、本发明中的基于深度学习的用户流失预测方法及系统，通过构建并将时序行为特征矩阵转化成多个块嵌入向量，并添加初始类别嵌入向量以及位置嵌入向量，再提取所述嵌入特征块的各个块嵌入向量的目标类别，并加上所述位置嵌入向量所标记的各个块嵌入向量之间的位置关系对提取的各个块嵌入向量进行自相似性计算，得到所述嵌入特征块的类别嵌入向量；对所述嵌入特征块的类别嵌入向量进行预分类，输出用户流失概率值，从所述用户画像特征矩阵提取用户画像的关键特征矩阵，根据用户画像的关键特征矩阵以及所述用户流失概率值确定所述用户的流失类别。相比现有技术，能准确、全面捕捉用户各种时序行为特征之间的自相似性，并结合用户画像的关键特征矩阵实现高精度的用户流失预测。

2、在优选方案中，本发明使用一个不带归纳偏置的类别标记向量表征时序行为特征矩阵所对应的用户流失概率序列，接着将低维的嵌入序列、位置序列以及可学习的类别标记向量拼接到一起，通过一个采用多头自注意力机制的变换层来学习拼接序列的自相似性，然后通过一个轻量级的分类器输出根据用户的时序行为特征矩阵得到的流失概率，接着和通过主成分分析得到的降维特征拼接到一起喂给用于分类的多层感知机，最终输出用户是否会流失，不但能提高用户流失预测的准确性，还能提高用户的预测速度。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例中的基于深度学习的用户流失预测方法所使用的深度学习模型架构图。

图2是本发明优选实施例中的基于深度学习的用户流失预测方法与其他用户流失预测方法的AUC性能比对图；

图3是本发明优选实施例中的基于深度学习的用户流失预测方法与其他用户流失预测方法的PR-AUC性能比对图；

图4是本发明优选实施例中的基于深度学习的用户流失预测方法与其他用户流失预测方法的F-Score性能比对图；

图5是本发明优选实施例中的基于深度学习的用户流失预测方法与其他用户流失预测方法提取活跃熵前后的模型预测性能对比图；

图6是本发明优选实施例中的基于深度学习的用户流失预测方法与其他用户流失预测方法提取异常天数前后的模型预测性能对比图；

图7是本发明优选实施例中的基于深度学习的用户流失预测方法的流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例一：

如图7所示，本实施中公开了一种基于深度学习的用户流失预测方法，包括以下步骤：

提取所述嵌入特征块的各个块嵌入向量的目标类别，并加上所述位置嵌入向量所标记的各个块嵌入向量之间的位置关系对提取的各个块嵌入向量进行自相似性计算，得到所述嵌入特征块的类别嵌入向量；对所述嵌入特征块的类别嵌入向量进行预分类，输出用户流失概率值；

此外，在本实施例中，还公开了一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现方法的步骤。

本发明中的基于深度学习的用户流失预测方法及系统，通过构建并将时序行为特征矩阵转化成多个块嵌入向量，并添加初始类别嵌入向量以及位置嵌入向量，再提取所述嵌入特征块的各个块嵌入向量的目标类别，并加上所述位置嵌入向量所标记的各个块嵌入向量之间的位置关系对提取的各个块嵌入向量进行自相似性计算，得到所述嵌入特征块的类别嵌入向量；对所述嵌入特征块的类别嵌入向量进行预分类，输出用户流失概率值，从所述用户画像特征矩阵提取用户画像的关键特征矩阵，根据用户画像的关键特征矩阵以及所述用户流失概率值确定所述用户的流失类别。相比现有技术，能准确、全面捕捉用户各种时序行为特征之间的自相似性，并结合用户画像的关键特征矩阵实现高精度的用户流失预测。

实施例二：

实施例二针对当前通信运营商的现有用户流失和维护等关键问题，提出一种互联网卡用户流失的预测方法，首先对运营商收集的用户属性、CDR(呼叫细节记录)、流量数据等数据进行清洗，对每个月份的数据集都提取通信运营商所需的目标用户群体，根据流失判定规则给每个用户打上是否已流失的标签。然后根据用户各个维度的数据进行特征提取，主要分四个方面进行，分别是用户的个人信息、套餐和开支信息、呼叫细节记录以及流量使用行为，特别是针对后两者，根据公式或者算法提取特征来最大化地表征正常用户和流失用户之间的差异。第二步则使用基于第一步提取的用户特征和标签，然后通过本发明设计的基于多头自注意力机制的深度神经网络对现有用户进行未来一个月是否会流失进行训练和预测。第三步则是模型上线。固定深度神经网络的超参数以及训练出来的各项权重和偏置，每到一个新的月份，就对该月份的数据集重复第一步和第二步的操作，然后通过固化的深度神经网络直接预测。

在本实施例，互联网卡用户流失的预测方法具体包括以下步骤：

一、数据清洗和特征工程

使用Spark SQL或者Hive SQL对运营商通过自身的OSS和BSS收集的用户属性、CDR(呼叫细节记录)、流量数据进行清洗，对每个月份的数据集都提取通信运营商所需的目标用户群体，筛去其中由于数据记录、格式转换和导入导出等导致的异常数据，然后使用Python对目标用户群体各个维度的数据的缺失值进行填充，再根据领域知识筛去其中的异常用户，接着根据流失判定规则给每个用户打上是否已流失的标签。

根据用户各个维度的数据进行特征提取，针对呼叫细节记录以及流量使用行为这种序列数据，本发明提出了活跃熵来表征互联网卡用户行为的不确定性和活跃度，行为异常天数来表征互联网卡用户的异常行为。以下是这两个特征的具体计算步骤。

1.1、活跃熵：

1)静态统计：

统计每个用户每天产生的流量和/上网记录条数/上网时间和/通话时间和/通话记录条数等数据，所以每个用户拥有一些行为序列，数量同统计的特征数相等。每个行为序列都可以表示成为[t₁,t₂,…,t_i,…,t_d]，其中，d表示当月的天数，t_i表示第i天用户关于某特征的统计值。即用当月中每天产生的日上流量和构建当月的月上流量行为序列(简称月上流量)，用当月中每天产生的日下流量和构建当月的月下流量行为序列(简称月下流量)，用当月中每天产生的日上网记录条数和构建当月的上网记录条数行为序列(简称月通话时间)，用当月中每天产生的日上网时间和构建当月的上网时间行为序列(简称月上网时间)，用当月中每天产生的日通话时间和构建当月的通话时间行为序列(简称月通话时间)，用当月中每天产生的日通话记录条数和构建当月的通话记录条数行为序列(简称月通话记录条数)。

2)分桶：

将一个月的用户的某个行为序列数据

分成k个等宽的桶，那么行为序列的取值就会分散在这k个桶中，每个桶的宽度

就等于：

其中，

和

分别表示行为序列

中的最大值和最小值，各个桶的边界依次为

ω为分桶宽度。

3)活跃熵计算：

根据1)等距分桶的情况，就可以计算出这个概率分布的熵(entropy)。i.e.活跃熵

就可以定义为：

其中，p_i表示行为序列的取值落在第i个桶的比例(概率)，k表示桶的个数，

表示行为序列

的长度。

如果一个时间序列的活跃熵较大，说明这一段时间序列的取值是较为均匀的分布在

之间的；如果一个时间序列的活跃熵较小，说明这一段时间序列的取值是集中在某一段上的。

1.2、行为异常天数：

1)静态统计：

统计每个用户每天产生的上行流量和/下行流量和/上网时间和/上网记录条数等数据，所以每个用户拥有一些行为序列，数量同统计的特征数相等。每个行为序列都可以表示成为[t₁，t₂，…，t_i，…，t_n]，其中n表示当月的天数，t_i表示第i天用户某特征的统计值。

2)前向差分计算：

对某个行为序列

计算一阶前向差分，所以每个用户会得到一个长度为n-1的行为序列的一阶前向差分[d₁，d₂，…，d_i，…，d_n-1]。其中d_i的计算方式为：

d_i＝t_i+1-t_i (3)

3)异常检测：

异常值被定义为大于Q_U+1.5IQR或小于Q_L-1.5IQR的值。其中Q_U是上四分位数，表示全部观察值中有1/4的数据比他大，Q_L是下四分位数，表示全部观察值中有1/4的数据比他小。IQR是四分位间距，是Q_U和Q_L的差，其间包含了一半的观察值。

根据如上的识别异常值标准来检测行为序列的一阶前向差分中的异常点，并把异常点个数作为异常天数特征。

二、构建并训练模型

将第一步和第二步提取的用户标签和特征称为数据集D，本发明将数据集D进行n折交叉验证(比如n＝10)以验证模型在不同数据划分中的鲁棒性。具体来说即将数据集D随机划分成n个几乎同等大小的子数据集，总共进行n次模型训练。第i次训练的时候，就将第i个子数据集作为测试集，剩下的子数据集作为训练集喂给本发明设计的基于多头自注意力机制的深度神经网络。

在本实施例中，如图1所示，基于多头自注意力机制的深度神经网络包括特征提取层、嵌入层、注意力层、预分类层以及分类器，其中，嵌入层、注意力层、预分类层以及分类器连接，所述分类器还与特征提取层连接。所述特征提取层用于从用户画像特征矩阵(图中简称用户画像矩阵)提取降维的用户画像关键特征矩阵，并将所述关键特征矩阵输出给分类器，嵌入层用于将时间序列3D张量构成的时序行为特征矩阵及其对应的类别标记转化包含块嵌入向量、类别嵌入向量以及位置嵌入向量的嵌入特征块，并将嵌入特征块输出给注意力层，注意力层用于提取所述嵌入特征块的各个块嵌入向量的目标类别，并加上所述位置嵌入向量所标记的各个块嵌入向量之间的位置关系对提取的各个块嵌入向量进行自相似性计算，得到所述嵌入特征块的类别嵌入向量；并将所述嵌入特征块的类别嵌入向量输出给预分类层，预分类层用于对所述嵌入特征块的类别嵌入向量进行预分类，输出用户流失概率值给分类层；分类层用于根据用户画像的关键特征矩阵以及所述用户流失概率值确定所述用户的流失类别。

其中，在本实施例中，基于多头自注意力机制的深度神经网络的用户特征可细分成两种：一种是用户画像特征矩阵D_n×m(2D张量)，比如：年龄、性别、套餐金额、余额、入网时长，活跃熵等。另一种是用户时间序列特征3D张量X∈R^m×N×L，比如：日上行流量和，日通话时长，日通话所连基站数等，其中，具体用户特征以及类别如表1所示：

表1用户特征类别以及维度

画像特征	时间序列特征
		性别	日下行流量和
年龄	日上行流量和
		移动终端机型	日上网时间和
移动终端价格	日上网记录条数和
		移动终端使用时长	每日是否流量异常
余额	日主叫通话次数
		套餐ID	日主叫通话时长
套餐档次	日主叫号码个数
		第二卡槽归属运营商	日被叫通话次数
在网月份	日被叫通话时长
		近3个月单停次数	日被叫号码个数
近3个月双停次数	日通话所连基站数
		基于月上行流量的活跃熵
基于月下行流量的活跃熵
		基于月上网时间的活跃熵
基于月上网记录条数的活跃熵

2.1特征提取层

为了充分利用用户高达数百个的全量特征，假设特征和特征之间没有顺序关系，本发明构建了一个特征提取层来加快模型训练和收敛速度的同时保留最主要的特征分量，即最大程度保留原有的信息。对用户画像特征矩阵D_n×m＝{x₁，x₂，...，x_m}进行中心化，其中，x_i为用户画像特征矩阵D_n×m第i个用户的画像特征列向量，i＝1，...，m，n为用户画像特征矩阵的特征维度，m为用户数，并用以下公式计算用户每个维度中心化后的用户画像特征向量，得到第i个用户的中心化特征向量x′_i：

为了更好地利用特征中数据量最丰富、粒度最细的时间序列特征，本发明通过加入嵌入层，注意力层和预分类层来捕获序列特征和用户之间是否离网的潜在关系。

2.2嵌入层

嵌入层分为块嵌入，类别嵌入和位置嵌入。块嵌入将每个用户的多个时间序列特征组成的矩阵转化成一系列的1D块嵌入表示。将每个用户输入的时间序列张量记为X∈R^N ^×L，其中N为时间序列的特征数(N＝12)，L为每个时间序列特征的长度(L＝30)，通过reshape操作将每个用户的时间序列张量X分成大小为P×Q(P＝4，Q＝3)的块，一共可切分成M＝NL/PQ个块(M＝30)，得到X∈R^M×(P×Q)，然后通过线性变换嵌入E将X_p映射到D大小的维度(D＝12)，得出嵌入表示X′＝XE∈R^M×D。

假设将时间序列张量分为30个块，即取M＝30，输入到注意力层中就有30个向量，但对于这30个向量而言，该取哪一个向量做分类预测都不合适。所以本发明添加一个类别标记向量，该向量是可学习的嵌入向量，与其他30个块嵌入向量一起输入到注意力层中，最后取第一个向量作为类别预测结果。因为与已有的其它向量相比，这个无明显语义信息的向量会更公平地融合各个向量的语义信息，从而更好的表示所有时间序列的语义。这个追加的向量可以理解为其他30个块寻找的类别信息，能够学习到不同序列表示的流失状态。具体做法是在训练时随机初始化一个类别标记向量x_c∈R^D(每个数从均值为0，标准差为1的正态分布随机挑选)作为第一个序列特征，并且作为预分类层分类时用的特征。

而且为了使得模型不会因为打乱块的顺序而改变预测结果，嵌入层还通过可训练的1D位置嵌入来表征块

和块

之间的位置关系，即把2D的块表征成1D的序列嵌入

块x^i′＝xⁱE对应的位置嵌入即为

最后嵌入层的输出即为

y₀＝[x_c；x¹E；x²E；...；x^ME]+E_p，E∈R^(P×Q)×D，E_p∈R^(M+1)×D (6)

2.3注意力层

为了更好地捕获长距离序列特征之间的潜在关系，本发明使用具有多头自注意力层作为特征提取器，分别计算每一个块嵌入向量与其他块嵌入向量的相似性并给予相应的权重：：

其中，

和

分别为3个不同的参数矩阵，由随机初始化得到，维度均为(M+1)×(M+1)，Q_i、K_i、V_i分别为嵌入层的输出y₀的query、key和value矩阵；

和

计算得到的特征子矩阵，该特征子矩阵用于模型在不同的表示子空间里学习到相关的信息；i为所述多头自注意层中自注意块的序号，i＝1，2，3，自注意块的总数为3。

计算查询矩阵Q_i与键矩阵的转置

之间的内积得到分数，除以

进行归一化，然后对分数使用softmax激活函数，再点乘价值矩阵V_i，得到特征子矩阵Head_i，拼接Head_i，乘以投影矩阵W^o得到MultiHead(y₀)，作为新的序列特征：

MultiHead(y₀)＝Concat(Head₁，...，Head₃)W^O (9)

W^O为投影矩阵，维度是(3×D)×D，MultiHead(₀)的维度为(M+1)×D。

将新的序列特征输出给注意力层中的全连接神经网络，然后堆叠L层，最后输出第L层的类别嵌入向量，L在实例中设置为3～10，具体是为6，是可调整的参数，根据数据量大小和实验结果进行微调。

2.4预分类层

注意力层输出第L层的类别标记向量给预分类层进行预分类，预分类层输出基于时间序列特征推断的离网概率值p：

p＝LayerNorm(MultiHead⁰) (10)

2.5分类层

分类层拼接基于时间序列特征推断的离网概率值p和经过特征提取层提取后的特征矩阵D_k×n喂给分类器多层感知机MLP后，进行训练输出离网概率值p′，再根据阈值过滤，输出用户是否会在下个月流失的指示变量I，

三、验证与评估

在测试集上预测这些互联网卡用户未来一个月是否会流失，并对预测结果采用AUC、PR-AUC、F分数等多个评价指标进行评估，最后将n次的评价指标求平均值作为最后的模型评估结果。

通过某通信运营商提供的某两月的互联网卡用户数约为10w数量级的真实数据集上进行测试，测试结果如图2-5所示，我们可发现本发明提出的基于注意力机制的基于深度学习的用户流失预测方法同其他机器学习、深度学习模型的预测性能进行对比有着较为明显的提升，如在AUC指标上比高了线性判别分析35％，在PR-AUC指标上比决策树高了50％，在F-Score指标上比轻量梯度提升机高了21％等。

为了表明本发明提取的活跃熵和异常天数对于所有模型都有较好的提升效果，本发明进行了去掉相应特征的消融实验，图5表明活跃熵的加入对于所有模型都有1％～1.5％的提升，图6表明异常天数的加入对于所有模型有1％～5％的提升。

3.1、模型上线和性能对比

固定深度神经网络训练出来的各项权重和偏置以及各项超参数，每到一个新的月份，就对该月份的数据重复第一步和第二步的操作，然后通过固化的深度神经网络直接预测最新的互联网卡用户未来一个月是否会流失。

综上可知，本发明中的基于深度学习的用户流失预测方法，能够通过一种固定且自动的工作流程高效地处理较大规模的互联网卡用户的原始数据。并且设计和提取了多个特征以较好的可解释性来简洁地最大化表征流失用户和正常用户之间的差异。最后使用先进的深度学习模型准确地捕捉提取的用户长时间序列特征之间的自相似性，实现了不错的预测性能，并且采取多折交叉验证证明了本发明设计的模型具有一定的鲁棒性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的用户流失预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的用户流失预测方法，其特征在于，将所述时序行为特征矩阵转化成多个块嵌入向量，并添加初始类别嵌入向量以及位置嵌入向量由嵌入层实现，具体包括以下步骤：

在嵌入表示X′＝XE∈R^M×D中添加类别嵌入向量x_c∈R^D以及位置嵌入向量E_p∈R^(M+1)×D，得到嵌入层的输出为：

y₀＝[x_c；x¹E；x²E；...；x^ME]+E_p，E∈R^(P×Q)×D，E_p∈R^(M+1)×D

其中，y₀为嵌入层的输出，且y₀∈R^(M+1)×D，Xi′为所述嵌入表示X′＝XE∈R^M×D中第i个块嵌入向量，i＝1，2，3，...，M，块嵌入向量x^i′＝xⁱE对应的位置嵌入为

所述类别嵌入向量x_c∈R^D为可学习，且初始无明显语义信息的嵌入向量。

3.根据权利要求2所述的基于深度学习的用户流失预测方法，其特征在于，提取所述嵌入特征块的各个块嵌入向量的目标类别，并加上所述位置嵌入向量所标记的各个块嵌入向量之间的位置关系对提取的各个块嵌入向量进行自相似性计算，得到所述嵌入特征块的类别嵌入向量由多头自注意层实现，具体包括以下步骤：

分别计算每一个块嵌入向量与其他块嵌入向量的相似性并给予相应的权重：

其中，

和

和

计算得到的特征子矩阵，该特征子矩阵用于模型在不同的表示子空间里学习到相关的信息；i为所述多头自注意层中自注意块的序号，i＝1，2，3...，N，N为自注意块的总数；

计算查询矩阵Q_i与键矩阵的转置

之间的内积得到分数，除以

MultiHead(y₀)＝Concat(Head₁，...，Head_N)W^O

W^O为投影矩阵，维度是(N×D)×D，MultiHead(y₀)的维度为(M+1)×D；

4.根据权利要求2所述的基于深度学习的用户流失预测方法，其特征在于，对所述嵌入特征块的类别嵌入向量进行预分类，输出用户流失概率值，通过以下公式实现：

p＝LayerNorm(MultiHead⁰)

5.根据权利要求2所述的基于深度学习的用户流失预测方法，其特征在于，根据用户画像的关键特征矩阵以及所述用户流失概率值确定所述用户的流失类别，包括以下步骤：

6.根据权利要求5所述的基于深度学习的用户流失预测方法，其特征在于，从所述用户画像特征矩阵提取用户画像的关键特征矩阵，包括以下步骤：

7.一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至6任一所述方法的步骤。