CN113706187A

CN113706187A - 一种基于时空图卷积的电信用户流失行为预测方法及系统

Info

Publication number: CN113706187A
Application number: CN202110787603.0A
Authority: CN
Inventors: 蒋云良; 沈莅凯; 邬惠峰; 刘勇
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-11-26

Abstract

本发明提出了一种基于时空图卷积的电信用户流失行为预测方法及系统，该预测方法包括以下步骤：L1.获取用户数据，对数据进行标记，根据需求将用户标记为流失或非流失，对数据进行预处理；L2.将数据整理为训练数据集和测试数据集，从空间维度上使用图卷积网络提取用户关系特征，从时间维度上使用LSTM网络提取用户行为特征，生成对应子模型；L3.采用异维度特征相互约束的特性，将提取的特征融合合并，训练融合模型，得到最终的用户流失行为特征；L4.将测试数据转换为符合模型输入的格式并输入模型中，获取用户流失行为结果。本发明通过将人工智能技术应用于用户流失预测问题，通过时空图卷积方法，精准预测用户流失行为，为通讯服务供应商提供策略依据。

Description

一种基于时空图卷积的电信用户流失行为预测方法及系统

【技术领域】

本发明涉及用户行为预测的技术领域，特别是一种基于时空图卷积的电信用户流失行为预测方法及系统。

【背景技术】

得益于互联网行业的发展，网络越来越成为人们生活中必不可少的部分。而人们在网络中的各种活动，也依赖于网络运营商与电商企业的支持。随着互联网行业的不断发展，人口红利的消失，消费市场的用户基础呈断崖式缩减，越来越多的网络运营商与电商企业无法只依赖新用户的增长所带来的收益盈利。供应商们需要不断求变求存，将原本注重用户增量的发展方式转变为注重存量用户的精细化运营方式。因此在这之后的发展中，对于存量用户的挽留，存量用户价值的发掘，更能提升企业的收益。

在网络环境下，用户的所有行为都会产生其所对应的行为数据，这些用户行为数据总量，也在不断地逐年增长。而对这些数据的有效利用，近年来也在开发用户价值领域发挥越来越大的作用。如何从海量的数据中提取有用的特征，分析用户行为特征，以对用户未来的行为进行预估，从而实现用户流失结果的准确预测，这就需要快速定位和预测用户流失行为的技术支持，现提出一种基于时空图卷积的电信用户流失行为预测方法及系统。

【发明内容】

本发明的目的就是解决现有技术中存在的问题，提出一种基于时空图卷积的电信用户流失行为预测方法及系统，能够有效的减少即将流失用户的比例，帮助企业策略者及时使用行之有效的策略，对这些用户进行挽留，减少用户流失。

本发明提出了一种基于时空图卷积的电信用户流失行为预测方法，包括以下步骤：

L1.获取用户数据，并对数据进行标记，根据需求将用户标记为流失或非流失，并对数据进行预处理；

L2.将数据整理为训练数据集和测试数据集，从空间维度上使用图卷积网络提取用户关系特征，从时间维度上使用LSTM网络提取用户行为特征，生成对应子模型；

L3.采用异维度特征相互约束的特性，将提取的特征融合合并，训练融合模型，得到最终的用户流失行为特征；

L4.将测试数据转换为符合模型输入的格式并输入模型中，最终获取用户流失行为结果。

作为优选，步骤L1具体包括以下步骤：

L11.通过Hive将通讯服务供应商的用户数据，根据用户手机号码及其他敏感数据脱敏处理产生的ref_id标签进行存储，包括月数据，日数据，静态数据以及余额数据；

L12.按照定义，某个月语音数据和流量数据同时为0且上个月语音数据或流量数据不为0的用户为已经流失用户，且定义该用户为上个月流失；依据此定义，对存到本地系统的所有用户进行标定，确定流失用户和非流失用户；

L13.对数据进行预处理，依据3σ准则将异常值剔除，将含有缺失值的样本剔除，对于连续性属性，采用如下两种标准化方式进行处理：

或者

其中x_min,x_max,x_mean,σ分别表示数据的最小值，最大值，平均值和标准差；对于离散性变量，采用one-hot进行编码。

作为优选，步骤L2具体包括以下步骤：

L21.对数据集进行划分，从月数据中根据流失标签定义方法抽取流失用户为数据集正样本，非流失用户为数据集负样本，在所有数据中划分为训练集和测试集，保证训练集和测试集的正负样本比例与实际样本分布相同；

L22.预测子模型初始化，设置子模型包括图学习层子模型，图卷积网络子模型以及LSTM子模型，图学习层子模型通过用户自适应的方式，学习用户关系矩阵，图卷积网络子模型结合图学习层输出的自适应矩阵，从月数据中提取用户关系特征，LSTM子模型从日数据以及余额数据中提取用户行为特征；

图学习层子模型：

N₁＝tanh(βT₁η₁)

N₂＝tanh(βT₂η₂)

其中，T₁和T₂代表着各个用户的静态数据转化的特征矩阵，η₁和η₂代表模型参数，β代表控制激活函数的超参数；

M＝ReLU(tanh(β(N₁N₂ ^T-N₂N₁ ^T)))

其中，N₁，N₂表示特征映射在-1到1之间构建的1*n特征向量，使用激活函数ReLU，tanh对图邻接矩阵进行调整；

for i＝1,2,…,K

idx＝argtopk(M[i,:])

M[i,-idx]＝0

其中，K表示第k个节点，argtopk表示随机选取一定数量节点的函数；

图卷积网络子模型：

用以计算Delta算子，f代表一个单射映射，

代表任意邻接矩阵，X代表特征，σ代表激活函数；

其中，α是一个超参数，来控制根节点的保留比例；i代表深度，H_in代表上一层输出的输入隐藏状态，H_out代表当前层的输出隐藏状态，W⁽ⁱ⁾初始化特征；

LSTM子模型：

o_t＝σ(W_o·[h_t-1,x_t]+b_o)，

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中，h_t-1表示上一个单元的输出，x_t表示当前单元的输入，σ代表激活函数；

h_t＝o_t*tanh(C_t)，i_t＝σ(W_i·[h_t-1,x_t]+b_i)，

W_f，W_o，W_i，W_C表示对应各个时刻的权重矩阵，b_f，b_o，b_i，b_C表示相对应的偏置项；

通过最小化预测值与实际值的误差来更新模型参数，得到最终的子预测模型，通过预测子模型，可以得到用户流失行为特征组；

L23.设置损失函数来处理数据集的非平衡分布，在损失函数部分增加调节系数用于控制正负样本下模型的损失，具体表达如下：

其中，

表示第i个训练样本预测结果集，y_i表示第i个训练样本结果集；

L24.训练预测子模型，将训练数据集按照5折交叉验证进行划分，最终训练集数据的评估结果为5次训练的平均值。

作为优选，步骤L3具体包括以下步骤：

L31.将输入的时间维度数据与提取出的用户关系特征融合，利用用户间关系特征对用户行为特征进行约束的能力，获取更优质特征：

T_in ⁱ＝[A_out ⁱ,T_out ^i-1]

T_in ⁱ表示第i层的用户行为特征提取模块输入的特征，A_out ⁱ表示第i层的用户关系特征提取模块输出的特征，T_out ^i-1表示第i-1层的用户行为特征提取模块输出的特征。

作为优选，步骤L4具体包括以下步骤：

L41.将测试集数据进行预处理，按照模型设计的模型接口格式，生成能够用于模型输入的数据集；

L42.设定评价指标，定义正确率和召回率为分类器最终的评价指标，具体表达如下：

其中P表示正确率，R表示召回率；TP表示预测为正样本，且实际也为正样本的样本数，FP表示预测为正样本，但实际为负样本的样本数，FN表示预测为负样本，但实际为正样本的样本数；

L43.基于模型和数据，获得最终的用户流失行为结果。

为实现上述目的，本发明还提出了一种基于时空图卷积的电信用户流失行为预测系统，包括以下模块：

数据收集模块，用于获取用户时间数据、空间维度数据，以及数据的预处理，将用户标记为流失及非流失；

模型训练模块，将数据集划分为训练数据集和测试数据集，使用图学习层学习自适应的用户关系矩阵，之后通过图卷积的方式，从空间维度上提取用户关系特征；再使用LSTM模块从时间维度上提取用户行为特征；建立捕获用户行为特征和用户关系特征的子模型；

特征融合模块，将生成的用户关系特征和用户行为特征进行融合；

输出模块，将融合后的特征输入模块中，输出用户行为结果。

作为优选，所述数据收集模块包括数据采集单元、数据标定单元和数据预处理单元，

数据采集单元：通讯服务供应商的用户数据位于hadoop分布式数据库中，根据用户手机号码及敏感数据脱敏处理产生的ref_id标签，使用hivesql语句将用户数据取出，包括月数据，日数据，静态数据以及余额数据；

数据标定单元：定义某个月语音数据和流量数据同时为0且上个月语音数据或流量数据不为0的用户为已经流失用户，且定义该用户为上个月流失，依据此对用户进行标定；

数据预处理单元，用于处理采集数据的异常值和缺失值，字符串数据的转换，以及数据的标准化。

作为优选，所述模型训练模块包括数据集划分单元、图学习层单元、图卷积单元、LSTM单元、非平衡样本处理单元和子模型训练单元，

数据集划分单元，用于划分训练数据集和测试数据集，从月数据中根据流失标签定义方法抽取当月流失用户为数据集正样本，按1:1抽样负样本，即非流失用户；在所有数据中划分为训练集和测试集，其中训练集和测试集的正负样本比例与实际样本分布相同；

图学习层单元，用于将输入的用户静态数据自适应的学习图邻接矩阵；

图卷积单元，使用基于混合传播的图卷积方法，结合图学习层输出的自适应矩阵，从月数据中提取用户关系特征；

LSTM单元，用于从日数据以及余额数据中提取用户行为特征，通过最小化预测值与实际值的误差来更新模型参数，得到最终的子预测模型；

非平衡样本处理单元，用于修正模型的损失函数，在损失函数部分增加调节系数用于控制正负样本下模型的损失；

子模型训练单元，完成对子预测模型的训练。

作为优选，所述特征融合模块包括用户关系特征与用户行为特征融合模块，基于LSTM模块提取用户行为特征的能力，将输入的时间维度数据与提取出的用户关系特征融合，利用用户间关系特征对用户行为特征进行约束的能力，优化特征。

作为优选，所述输出模块包括测试集数据预处理模块、模型性能评估单元和用户流失行为输出单元，

测试集数据预处理模块，用于将测试集数据进行预处理，按照模型设计的模型接口格式，生成能够用于模型输入的数据集；

模型性能评估单元，用于设定分类器评价指标；

用户流失行为输出单元，用于输出测试集数据的用户流失行为结果。

本发明的有益效果：本发明通过数据收集模块获取用户时间维度数据以及空间维度数据，去除错误数据，并对用户进行流失标签设立。模型训练模块能够将数据集划分为训练数据集和测试数据集，建立捕获用户行为特征和用户关系特征的子模型；特征融合模块能够将子模型的特征进行更多层次的融合；通过输出模块将融合后的特征输入，直接输出用户是否发生了流失行为。本发明将人工智能技术应用于用户流失预测问题，通过时空图卷积方法，精准预测用户流失行为，为通讯服务供应商提供策略依据，有效的减少即将流失用户的比例。

本发明的特征及优点将通过实施例结合附图进行详细说明。

【附图说明】

图1是本发明一种基于时空图卷积的电信用户流失行为预测方法的流程图；

图2是本发明基于端到端模型的用户流失预测模型整体框架示意图；

图3是图1数据收集的具体流程示意图；

图4是图1预测子模型训练的具体流程示意图；

图5是图1特征融合训练的具体流程示意图；

图6是图1用户流失结果预测的具体流程示意图；

图7是数据采集后在本地的存储方式示意图；

图8是用户流失预测模型在测试集上相对于其他模型的效果示意图。

【具体实施方式】

本发明本发明提出了一种基于时空图卷积的电信用户流失行为预测方法，包括以下步骤：

L1.通过数据收集模块合法合规地获取用户数据，并对数据进行标记，根据需求将用户标记为流失或非流失，并对数据进行预处理，具体包括以下步骤：

L11.通过Hive将通讯服务供应商的用户数据，根据用户手机号码及其他敏感数据脱敏处理产生的ref_id标签进行存储，包括月数据，日数据，静态数据以及余额数据；静态数据中包含每个用户自身属性，包括用户的生日，性别，所选用套餐编号，是否进行首次充值及首次充值金额，填写时省份编号；月数据包含用户每个月所产生的用量数据，包括当月话费，月底余额，近30天无语音使用量天数，近30天无流量使用量天数，主动呼叫时长数，被叫时长数，arpu值，语音总使用量，流量总使用量；日数据包括日主叫数据和日被叫数据：日主叫数据包含用户每日用量数据，包括每日主动呼叫次数，主动呼叫号码个数，主动呼叫号码总时长，流量使用量，流量使用时长总和，经过基站数量；日被叫数据包含互拨总次数，互拨总号码次数,互拨总时长；余额数据包含用户每日实时余额记录，包含特征每日实时余额；

或者

L2.将数据整理为训练数据集和测试数据集，采用端到端的模式，从空间维度上使用图卷积网络提取用户关系特征，从时间维度上使用LSTM网络提取用户行为特征，生成对应子模型，包括用户行为特征提取模块、用户关系特征提取模块；具体包括以下步骤：

L22.预测子模型初始化，设置子模型包括图学习层子模型，图卷积网络子模型(GCN)以及LSTM子模型(长短时间记忆网络)，图学习层子模型通过用户自适应的方式，学习用户关系矩阵，图卷积网络子模型结合图学习层输出的自适应矩阵，从月数据中提取用户关系特征，LSTM子模型从日数据以及余额数据中提取用户行为特征；

图学习层子模型：

N₁＝tanh(βT₁η₁)

N₂＝tanh(βT₂η₂)

M＝ReLU(tanh(β(N₁N₂ ^T-N₂N₁ ^T)))

for i＝1,2,…,K

idx＝argtopk(M[i,:])

M[i,-idx]＝0

图卷积网络子模型：

用以计算Delta算子，f代表一个单射映射，

代表任意邻接矩阵，X代表特征，σ代表激活函数；

其中，α是一个超参数，来控制根节点的保留比例；i代表深度，H_in代表上一层输出的输入隐藏状态，H_out代表当前层的输出隐藏状态，W⁽ⁱ⁾代表初始化特征；

LSTM子模型：

o_t＝σ(W_o·[h_t-1,x_t]+b_o)，

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

h_t＝o_t*tanh(C_t)，i_t＝σ(W_i·[h_t-1,x_t]+b_i)，

其中，

表示第i个训练样本预测结果集，y_i表示第i个训练样本结果集；当正负样本预测结果越准确，也就是MAE越接近0，那么损失将会变得很小，而对于不确定的样本，损失会增大，也就是说模型更加关注难以分类的样本；

L3.采用异维度特征相互约束的特性，将各模块提取的特征融合合并，训练融合模型，得到最终的用户流失行为特征，具体包括以下步骤：

L31.用基于LSTM模块提取用户行为特征的能力，将输入的时间维度数据与提取出的用户关系特征融合，利用用户间关系特征对用户行为特征进行约束的能力，获取更优质特征：

T_in ⁱ＝[A_out ⁱ,T_out ^i-1]

L4.将测试数据转换为符合模型输入的格式并输入模型中，最终获取用户流失行为结果，具体包括以下步骤：

L43.基于模型和数据，获得最终的用户流失行为结果。

本发明还提出了一种基于时空图卷积的电信用户流失行为预测系统，包括以下模块，

进一步地，所述数据收集模块包括数据采集单元、数据标定单元和数据预处理单元，

数据采集单元：通讯服务供应商的用户数据位于hadoop分布式数据库中，根据用户手机号码及其他敏感数据脱敏处理产生的ref_id标签，使用hivesql语句将用户数据取出，包括月数据，日数据，静态数据以及余额数据；静态数据中包含每个用户自身属性，包括用户的生日，性别，所选用套餐编号，是否进行首次充值及首次充值金额，填写时省份编号；月数据包含用户每个月所产生的用量数据，包括当月话费，月底余额，近30天无语音使用量天数，近30天无流量使用量天数，主动呼叫时长数，被叫时长数，arpu值，语音总使用量，流量总使用量；日数据包括日主叫数据和日被叫数据：日主叫数据包含用户每日用量数据，包括每日主动呼叫次数，主动呼叫号码个数，主动呼叫号码总时长，流量使用量，流量使用时长总和，经过基站数量；日被叫数据包含互拨总次数，互拨总号码次数,互拨总时长；余额数据包含用户每日实时余额记录，包含特征每日实时余额；

数据预处理单元，用于处理采集数据的异常值和缺失值，字符串数据的转换，以及数据的标准化，标准化的具体表达为；

或者

其中x_min,x_max,x_mean,σ分别表示数据的最小值，最大值，平均值和标准差。

进一步地，所述模型训练模块包括数据集划分单元、图学习层单元、图卷积单元、LSTM单元、非平衡样本处理单元和子模型训练单元，

图学习层单元，用于将输入的用户静态数据自适应的学习图邻接矩阵，具体表达如下：

N₁＝tanh(βT₁η₁)

N₂＝tanh(βT₂η₂)

M＝ReLU(tanh(β(N₁N₂ ^T-N₂N₁ ^T)))

for i＝1,2,…,K

idx＝argtopk(M[i,:])

M[i,-idx]＝0

图卷积单元，使用基于混合传播的图卷积方法，结合图学习层输出的自适应矩阵，从月数据中提取用户关系特征：

用以计算Delta算子，f代表一个单射映射，

代表任意邻接矩阵，X代表特征，σ代表激活函数；

LSTM单元，从日数据以及余额数据中提取用户行为特征：

o_t＝σ(W_o·[h_t-1,x_t]+b_o)，

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

h_t＝o_t*tanh(C_t)，i_t＝σ(W_i·[h_t-1,x_t]+b_i)，

通过最小化预测值与实际值的误差来更新模型参数，得到最终的子预测模型；

非平衡样本处理单元，用于修正模型的损失函数，在损失函数部分增加调节系数用于控制正负样本下模型的损失，具体表达如下：

其中，

子模型训练单元，完成对子预测模型的训练，为了得到整个训练集的评估结果，又确保用来训练的数据不出现在验证集中，使用5-折交叉验证来得到训练集的准确率；将训练集数据均分为5份，每次取其中4份作为训练集数据，另外1份作为验证集数据；依次训练5次模型，最终训练集数据的评估结果为5次训练的平均。

进一步地，所述特征融合模块包括用户关系特征与用户行为特征融合模块，基于LSTM模块提取用户行为特征的能力，将输入的时间维度数据与提取出的用户关系特征融合，利用用户间关系特征对用户行为特征进行约束的能力，获取更优质特征：T_in ⁱ＝[A_out ⁱ,T_out ^i-1]

其中，T_in ⁱ表示第i层的用户行为特征提取模块输入的特征，A_out ⁱ表示第i层的用户关系特征提取模块输出的特征，T_out ^i-1表示第i-1层的用户行为特征提取模块输出的特征。

进一步地，所述输出模块包括测试集数据预处理模块、模型性能评估单元和用户流失行为输出单元，

模型性能评估单元，用于设定分类器评价指标，定义正确率和召回率为分类器最终的评价指标，具体表达如下：

其中，P表示正确率，R表示召回率；TP表示预测为正样本，且实际也为正样本的样本数，FP表示预测为正样本，但实际为负样本的样本数，FN表示预测为负样本，但实际为正样本的样本数，正确率和召回率均期望达到一个较高的值；

实施例1

在本实施例中所提供的图示仅限于通过示意的方式解释本发明的基本结构，并不代表发明中内部组件的具体连接方式以及物理结构特征。其实施的过程中各个组建的数量、形态以及相对比例可以进行任意的变化，每个模块内部结构也可能会更加复杂。

如图1所示，本发明一种基于时空图卷积的电信用户流失行为预测方法的步骤示意图，通过大数据以及人工智能的思想，对电信行业用户流失情况进行预测，该用户流失预测模型具体包括：

数据收集模块：用于获取用户时间数据以及空间维度数据，将用户状态标记为流失及非流失。数据收集过程主要由hiveSql语句编写，具体过程如图3所示。

子模型训练模块：将数据整理为训练数据集和测试数据集，采用端到端的模型，从多个方面提取数据中的特征，生成预测子模型。预测子模型在Python3.6环境下进行编写，将数据采集模块采集的数据进行整理用来训练预测子模型，将数据分批输入到预测子模型中，通过MAE来训练模型参数，训练后存储最终的训练子模型。具体过程如图4所示。

特征融合模块：用于将子模型输出的特征进行融合，生成特征融合模型。该模块继续用Python3.6进行编写，具体过程如图5所示。将子模型和融合模型组合，生成完整的用户流失结果预测模型，框架如图2所示。

用户流失预测结果输出模块：用于提供数据接口，将测试数据转换为符合模型输入的格式，获取最终的用户流失结果预测结果，具体过程如图6所示。

参阅图3，显示为图1中数据收集模块的具体流程图，如图3所示，具体包括数据采集单元，数据标定单元。

数据采集单元用于采集位于企业服务器中的用户数据，将数据采集到本地，方便后面模型的建立。利用HiveSql语句读取服务器中的数据，根据用户手机号码及其他敏感数据脱敏处理产生的ref_id标签进行存储。其中包括月数据，日数据，静态数据以及余额数据。静态数据中包含每个用户自身属性，包括用户的生日，性别，所选用套餐编号，是否进行首次充值及首次充值金额，填写时省份编号；月数据包含用户每个月所产生的用量数据，包括当月话费，月底余额，近30天无语音使用量天数，近30天无流量使用量天数，主动呼叫时长数，被叫时长数，arpu值，语音总使用量，流量总使用量；日数据包括日主叫数据和日被叫数据：日主叫数据包含用户每日用量数据，包括每日主动呼叫次数，主动呼叫号码个数，主动呼叫号码总时长，流量使用量，流量使用时长总和，经过基站数量；日被叫数据包含互拨总次数，互拨总号码次数，互拨总时长；余额数据包含用户每日实时余额记录，包含特征每日实时余额。采集后的数据文件如图7所示。

数据标定单元用于定义已经流失用户，本发明中采用的定义为某个月语音数据和流量数据同时为0且上个月语音数据或流量数据不为0的用户定义为上个月流失，依据此对用户进行标定。标定后的用户数据属性中会增加一个新的Label属性，Label为1时表示该用户流失，Label为0时表示该用户为非流失用户。

参阅图4，显示为图1中子模型训练模块的具体流程图，如图4所示，具体包括数据预处理单元，数据集划分单元，模型初始化单元，非平衡样本处理单元，损失函数设立单元，图学习层子模型，图卷积子模型，LSTM子模型，子模型训练单元。

数据集划分单元将采集的数据用于划分成训练数据集和测试数据集。从月数据中根据流失标签定义方法抽取当月流失用户为数据集正样本，按1:1抽样负样本，也就是非流失用户。其中训练集和测试集的正负样本比例与实际样本分布相同；

模型初始化单元通过设定用户流失结果预测子模型的初试参数和结构，初始化图学习层子模型，图卷积子模型，LSTM子模型。图学习层子模型，通过自适应的方式，学习合适的图邻接矩阵表达用户间的关系，图卷积子模型使用混合传播图卷积网络，捕获用户关系特征。LSTM子模型，使用长短时间记忆网络(LSTM)捕获用户行为特征，从而让建立的模型能够完备的预测用户流失行为。

模型参数：损失函数使用MAE；LSTM采用三个时间步(2个月)，输入大小为31，隐藏层大小为128，层数为3；图学习层，输入大小为4，隐藏层大小为128，输入通道数为4(用户的生日，性别，是否进行首次充值及首次充值金额)；图卷积网络有46个离散特征(近三个月的话费、余额、语音、流量、性别年龄等)，3个连续特征(最近两个平均基站数、入网日期)和一个多值离散特征(每月top10APP)。整个模型的层数：3，学习率：0.0015，权重衰减：0.0001。

非平衡样本处理单元主要是对模型的损失函数进行调整，在损失函数部分增加调节系数用于控制正负样本下模型的损失，增加正样本的损失，同时减少负样本的损失，也就是让正样本发挥更大的作用。

损失函数设立单元进行损失函数的设立，设立为：

其中，

子模型训练单元完成对三个子模型的训练。

参阅图5，显示为特征融合训练的具体流程图，验证集数据经过图学习子模型，图卷积子模型提取用户关系特征，LSTM子模型提取用户行为特征。在特征融合模块中，将用户关系特征与用户行为特征合并，完成最后的用户流失行为预测。并根据结果进行特征融合过程的训练优化。

用户关系特征与用户行为特征融合模块，基于LSTM模块提取用户行为特征的能力，将输入的时间维度数据与提取出的用户关系特征融合，利用用户间关系特征对用户行为特征进行约束的能力，获取更优质特征：

T_in ⁱ＝[A_out ⁱ,T_out ^i-1]

参阅图6，显示为图1中用户流失结果预测模块的具体流程图，如图6所示，具体包括测试集数据预处理单元，模型性能评估单元，用户流失结果输出单元。

测试集数据预处理单元将测试集数据处理成与训练数据相同属性的数据集，模型性能评估单元设置准确率和召回率为最终评价模型的指标，用户流失结果输出单元通过对测试集的预测，完成最终准确率和召回率的输出。

图8显示为融合模型与其他模型的性能对比。将融合模型与随机森林(LR),K近邻(KNN)，逻辑回归(RF)进行用户流失结果预测。将预测的结果与真实值进行计算准确率(precision)，召回率(recall)，Area Under Curve(AUC)进行比较。通过这些指标的比较能够得出：但比较召回率，虽然LR方法较高，但整体结果较不理想。而融合结果在AUC有着较大的结果值，此外准确率与召回率也较为优秀。所以融合模型结果与经典模型相比较，强于经典模型。

上述实施例是对本发明的说明，不是对本发明的限定，任何对本发明简单变换后的方案均属于本发明的保护范围。