CN112801709A

CN112801709A - 一种用户流失预测方法、装置、设备及存储介质

Info

Publication number: CN112801709A
Application number: CN202110161234.4A
Authority: CN
Inventors: 张继龙
Original assignee: Hangzhou Pinjie Network Technology Co Ltd
Current assignee: Hangzhou Pinjie Network Technology Co Ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-14

Abstract

本申请公开了一种用户流失预测方法、装置、设备及存储介质。该方法包括：获取应用平台在目标时间节点的用户数据；对所述用户数据进行数据清洗得到清洗后数据；其中，所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放；利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取，以得到目标特征；利用包含所述目标特征的清洗后数据，对基于逻辑回归算法构建的空白模型进行训练和测试，得到用户流失预测模型，以用于预测用户是否存在流失倾向。可以实现对用户流失倾向的自动预测，提高了用户流失倾向预测的效率和准确性。

Description

一种用户流失预测方法、装置、设备及存储介质

技术领域

本发明涉及计算机领域，特别涉及一种用户流失预测方法、装置、设备及存储介质。

背景技术

当前，随着电商平台增量不断提升，用户的体量逐渐变大，但通常情况下GMV(Gross Merchandise Volume，成交金额)主要是由老客户带来的，并且开发一个新客的成本是维护一个老客成本的3-5倍，同时，市场容量基本是固定的，所以需要重点关注维护老客的客情，应尽量避免老客的流失。现有技术中，运营人员基于历史用户的历史行为数据，通过数据分析或者是个人经验来判断用户是否有流失的倾向，但随着数据量的增多，人工判断客情的难度和成本呈线性提升，并且效率和准确率都较低，实际应用中会导致投入产出不成正比，判断失误造成的损失可能会过高。因此如何准确高效的实现用户流失预测是目前亟需解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种用户流失预测方法、装置、设备及介质，能够准确、高效地预测出用户是否存在流失倾向。其具体方案如下：

第一方面，本申请公开了一种用户流失预测方法，包括：

获取应用平台在目标时间节点的用户数据；

对所述用户数据进行数据清洗得到清洗后数据；其中，所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放；

利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取，以得到目标特征；

利用包含所述目标特征的清洗后数据，对基于逻辑回归算法构建的空白模型进行训练和测试，得到用户流失预测模型，以用于预测用户是否存在流失倾向。

可选的，所述获取应用平台在目标时间节点的用户数据，包括：

获取应用平台在目标时间节点的用户数据；其中，所述用户数据包括所述目标时间节点下用户基础信息、操作行为数据，以及所述目标时间节点之后第n天的用户状态信息；

根据所述第n天的用户状态信息确定出对应的用户是否为流失用户，并将流失用户对应的用户数据确定为用户流失样本数据。

可选的，所述对所述用户数据进行数据清洗得到清洗后数据，包括：

利用数据分析包从所述用户数据中筛选出无用数据，并删除所述无用数据得到删除后用户数据；所述无用数据包括不可进行映射处理和/或独热编码的特征数据，以及无关特征数据。

对所述删除后用户数据中第一类型数据进行映射处理，得到相应的映射向量；

对所述删除后用户数据中第二类型数据进行独热编码得到相应的编码数据，以得到格式转化后数据。

基于所述用户流失样本数据，通过SMOTE算法合成新的用户流失样本数据，得到扩充后用户数据。

可选的，所述利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取，以得到目标特征，包括：

利用递归选择器通过多次筛选从所述清洗后数据中提取得到预设数量的特征，得到特征集；

利用随机森林分类器计算所述特征集中每个特征的重要性，并基于所述重要性构建所述特征集对应的帕累托图；

根据所述帕累托图从所述特征集中筛选出特征占比大于预设阈值的特征，以得到所述目标特征。

可选的，所述得到用户流失预测模型，以用于预测用户是否存在流失倾向，包括：

为所述用户流失预测模型添加API接口，以便通过所述API接口调用所述用户流失预测模型。

第二方面，本申请公开了一种用户流失预测装置，包括：

数据获取模块，用于获取应用平台在目标时间节点的用户数据；

数据清洗模块，用于对所述用户数据进行数据清洗得到清洗后数据；所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放；

特征确定模块，用于利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取，以得到目标特征；

预测模块，用于利用包含所述目标特征的清洗后数据，对基于逻辑回归算法构建的空白模型进行训练和测试，得到用户流失预测模型，以用于预测用户是否存在流失倾向。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的用户流失预测方法。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中计算机程序被处理器执行时实现前述的用户流失预测方法。

本申请中，获取应用平台在目标时间节点的用户数据；对所述用户数据进行数据清洗得到清洗后数据；其中，所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放；利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取，以得到目标特征；利用包含所述目标特征的清洗后数据，对基于逻辑回归算法构建的空白模型进行训练和测试，得到用户流失预测模型，以用于预测用户是否存在流失倾向。可见，通过对获取的用户数据进行多方面的数据清洗，并通过递归选择器和随机森林分类器对清洗后数据进行特征提取，得到用户主要突出的行为特征，然后利用包含特征的清洗后数据进行模型训练，得到用于预测用户是否存在流失倾向的用户流失预测模型，实现对用户流失倾向的自动预测，提高了用户流失倾向预测的效率和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种用户流失预测方法流程图；

图2为本申请提供的一种具体的用户流失预测方法流程图；

图3为本申请提供的一种用户流失预测装置结构示意图；

图4为本申请提供的一种电子设备结构图。

具体实施方式

现有技术中，运营人员基于历史用户的历史行为数据，通过数据分析或者是个人经验来判断用户是否有流失的倾向，但随着数据量的增多，人工判断客情的难度和成本呈线性提升，并且效率和准确率较低。为克服上述技术问题，本申请提出一种用户流失预测方法，可以提高用户流失预测的效率和准确性。

本申请实施例公开了一种用户流失预测方法，参见图1所示，该方法可以包括以下步骤：

步骤S11：获取应用平台在目标时间节点的用户数据。

本实施例中，所述获取应用平台在目标时间节点的用户数据，可以包括：获取应用平台在目标时间节点的用户数据；其中，所述用户数据包括所述目标时间节点下用户基础信息、操作行为数据，以及所述目标时间节点之后第n天的用户状态信息；根据所述第n天的用户状态信息确定出对应的用户是否为流失用户，并将流失用户对应的用户数据确定为用户流失样本数据。可以理解的是，获取应用平台在目标时间点的用户基础信息和用户近期的操作行为数据，包括浏览行为、下单行为等，以及上述目标时间点之后的第n天的用户状态信息，上述用户状态信息可以表征用户近期的行为，例如用户连续未登录天数。其中，上述目标时间节点可以为某一天，例如，目标时间节点为5月1日，n取30，则上述用户数据包括5月1日应用平台含有的用户基础信息、近期活跃行为、操作行为、浏览行为、下单行为、触达行为以及6月1日这天用户的行为状态等数据。

需要说明的是，用户流失可以定义为近m天内无登录行为，m可以取30，例如某个用户在2020.04-2020.05期间正常登录下单，但是由于运营人员维护客情、售后、物流、竟对等方面的原因，导致用户在2020.05之后不再照常登录下单。因此，通过获取目标时间节点后第n天应用平台记录的状态信息，可以根据该状态信息判断相应的用户是否为流失用户，进而可以将上述用户数据分为用户流失样本数据和用户未流失样本数据，并对数据添加对应的标签。

步骤S12：对所述用户数据进行数据清洗得到清洗后数据；其中，所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放。

本实施例中，在得到用户数据后，对上述用户数据进行多维度的数据清洗，包括删除无用数据、数据格式转换、流失样本扩充和数据缩放。其中，上述数据缩放包括数据去均值和方差归一化处理，即针对数据各维度都减去对应维度的均值，使得输入数据各个维度都中心化为0；并对数据进行方差归一化，以便让数据分布在一定范围内，比如把最大值归一化成1，最小值归一化成-1；或把最大值归一化成1，最小值归一化成0。

具体的，本实施例中，所述对所述用户数据进行数据清洗得到清洗后数据，可以包括：利用数据分析包从所述用户数据中筛选出无用数据，并删除所述无用数据得到删除后用户数据；所述无用数据包括不可进行映射处理和/或独热编码的特征数据，以及无关特征数据。其中，上述数据分析包可以为Python的Padans架包，通过Padans架包对数据进行预览，删除样本中对于无法进行映射处理、独热编码的特征以及的无效的特征，这些特征的存在可能会导致模型的过拟合，例如城市、用户ID等，并筛选出无关特征的样本并删除，即与用户无关的特征，这些样本的存在会导致最终模型的精度下降，例如应用平台的审核人信息。

本实施例中，所述对所述用户数据进行数据清洗得到清洗后数据，可以包括：对所述删除后用户数据中第一类型数据进行映射处理，得到相应的映射向量；对所述删除后用户数据中第二类型数据进行独热编码得到相应的编码数据，以得到格式转化后数据。其中，上述第一类型数据包括文本、日期等数据，具体的，将文本、日期等格式转换成向量，如将会员等级[VIP0,VIP1,VIP2,VIP3,VIP4,VIP5]映射为[0,1,2,3,4,5]，将注册日期映射为距当前日期的天数，例如获取的注册日期为“2020-01-01”，当前日期为“2020-02-01”，则上述注册日期映射为31；同时，对第二类型数据进行独热编码(One-Hot编码)，其中，上述第二类型数据可以包括用户性别，具体的，将用户性别拓展为两个特征，使用0、1来标记对应的用户性别分类。

本实施例中，所述对所述用户数据进行数据清洗得到清洗后数据，可以包括：基于所述用户流失样本数据，通过SMOTE算法合成新的用户流失样本数据，得到扩充后用户数据。可以理解的是，获取的用户数据中用户流失样本数据和用户未流失样本数据的数量不均衡，用户流失样本数量会小于户未流失样本数据，这种情况会降低后续模型训练的精确度，因此通过SMOTE算法对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中，来处理样本不均衡的问题，即基于获取的用户流失样本数据通过SMOTE算法合成新的用户流失样本数据。具体的，上述样本扩充的过程包括：对于少数类中每一个样本X，以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻；根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本X，从其k近邻中随机选择若干个样本，假设选择的近邻为Xn；对于每一个随机选出的近邻Xn，分别与原样本按照构建公式构建新的样本，其中构建公式如下：

本实施例中在获取到用户数据后，可以依次对用户数据进行删除无用数据、数据格式转换、流失样本扩充、去均值和方差归一化处理，以得到清洗后数据；通过对数据进行多维度的清洗处理，使得清洗后数据便于后续特征的提取，进而提高了特征提取的质量提高模型的精确度。

步骤S13：利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取，以得到目标特征。

本实施例中，得到上述清洗后数据后，首先通过递归选择器进行第一轮特征筛选，然后再通过随机森林分类器进行第二轮数据筛选，以筛选出用户最为突出的几个行为特征，得到目标特征。

步骤S14：利用包含所述目标特征的清洗后数据，对基于逻辑回归算法构建的空白模型进行训练和测试，得到用户流失预测模型，以用于预测用户是否存在流失倾向。

本实施例中，利用包含目标特征的清洗后数据，对基于逻辑回归算法构建的空白模型进行训练和测试，得到用户流失预测模型，以便用来预测用户是否存在流失倾向。具体的，可以将样本数据按照3:7的比列拆分成测试集和训练集，使用训练集的样本数据来训练逻辑回归算法，使用测试集的数据来验证训练好的模型的准确率。

由上可见，本实施例中通过获取应用平台在目标时间节点的用户数据；对所述用户数据进行数据清洗得到清洗后数据；其中，所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放；然后，利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取，以得到目标特征；利用包含所述目标特征的清洗后数据，对基于逻辑回归算法构建的空白模型进行训练和测试，得到用户流失预测模型，以用于预测用户是否存在流失倾向。可见，通过对获取的用户数据进行多方面的数据清洗，并通过递归选择器和随机森林分类器对清洗后数据进行特征提取，得到用户主要突出的行为特征，然后利用包含特征的清洗后数据进行模型训练，得到用于预测用户是否存在流失倾向的用户流失预测模型，实现对用户流失倾向的自动预测，提高了预测的效率和准确性。

本申请实施例公开了一种具体的用户流失预测方法，参见图2所示，该方法可以包括以下步骤：

步骤S21：获取应用平台在目标时间节点的用户数据。

步骤S22：对所述用户数据进行数据清洗得到清洗后数据；其中，所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放。

步骤S23：利用递归选择器通过多次筛选从所述清洗后数据中提取得到预设数量的特征，得到特征集。

本实施例中，得到上述清洗后数据后，首先通过递归选择器，反复构建模型，然后选出最好的或者最差的特征，然后在剩余的特征上重复筛选过程，直到遍历了所有的特征，筛选出预设数量的特征得到特征集。

步骤S24：利用随机森林分类器计算所述特征集中每个特征的重要性，并基于所述重要性构建所述特征集对应的帕累托图。

本实施例中，在得到上述特征集后，利用随机森林分类器计算特征集中每个特征的重要性值，并通过构建帕累托图展示。

步骤S25：根据所述帕累托图从所述特征集中筛选出特征占比大于预设阈值的特征，以得到所述目标特征。

本实施例中，得到特征集对应的帕累托图后，根据帕累托图从特征集中筛选出特征占比大于预设阈值的特征，以得到上述目标特征。

步骤S26：利用包含所述目标特征的清洗后数据，对基于逻辑回归算法构建的空白模型进行训练和测试，得到用户流失预测模型。

步骤S27：为所述用户流失预测模型添加API接口，以便通过所述API接口调用所述用户流失预测模型。

本实施例中，通过为为上述得到的用户流失预测模型添加API接口，以便通过上述API接口调用用户流失预测模型，以便辅助业务人员进行用户画像、标签系统等日常运营。

其中，关于上述步骤S21-步骤S23、步骤S26的具体过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

由上可见，通过利用递归选择器，通过多次筛选从清洗后数据中提取得到预设数量的特征得到特征集，然后，利用随机森林分类器计算特征集中每个特征的重要性，并基于重要性构建特征集对应的帕累托图，再根据帕累托图从特征集中筛选出特征占比大于预设阈值的特征，以得到目标特征。通过多次特征筛选，得到用户数据主要突出的特征，进而提高了后续用户流失检测模型的精确度，

相应的，本申请实施例还公开了一种用户流失预测装置，参见图3所示，该装置包括：

数据获取模块11，用于获取应用平台在目标时间节点的用户数据；

数据清洗模块12，用于对所述用户数据进行数据清洗得到清洗后数据；所述数据清洗包括删除无用数据、数据格式转换、流失样本扩充和数据缩放；

特征确定模块13，用于利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取，以得到目标特征；

预测模块14，用于利用包含所述目标特征的清洗后数据，对基于逻辑回归算法构建的空白模型进行训练和测试，得到用户流失预测模型，以用于预测用户是否存在流失倾向。

在一些具体实施例中，所述数据获取模块11具体可以包括：

数据获取单元，用于获取应用平台在目标时间节点的用户数据；其中，所述用户数据包括所述目标时间节点下用户基础信息、操作行为数据，以及所述目标时间节点之后第n天的用户状态信息；

样本类型确定单元，用于根据所述第n天的用户状态信息确定出对应的用户是否为流失用户，并将流失用户对应的用户数据确定为用户流失样本数据。

在一些具体实施例中，所述数据清洗模块12具体可以包括：

数据删除单元，用于利用数据分析包从所述用户数据中筛选出无用数据，并删除所述无用数据得到删除后用户数据；所述无用数据包括不可进行映射处理和/或独热编码的特征数据，以及无关特征数据；

映射单元，用于对所述删除后用户数据中第一类型数据进行映射处理，得到相应的映射向量；

编码单元，用于对所述删除后用户数据中第二类型数据进行独热编码得到相应的编码数据，以得到格式转化后数据；

数据扩充单元，用于基于所述用户流失样本数据，通过SMOTE算法合成新的用户流失样本数据，得到扩充后用户数据。

在一些具体实施例中，所述特征确定模块13具体可以包括：

第一特征筛选单元，用于利用递归选择器通过多次筛选从所述清洗后数据中提取得到预设数量的特征，得到特征集；

重要性计算单元，用于利用随机森林分类器计算所述特征集中每个特征的重要性，并基于所述重要性构建所述特征集对应的帕累托图；

第二特征筛选单元，用于根据所述帕累托图从所述特征集中筛选出特征占比大于预设阈值的特征，以得到所述目标特征。

在一些具体实施例中，所述用户流失预测装置具体可以包括：

接口单元，用于为所述用户流失预测模型添加API接口，以便通过所述API接口调用所述用户流失预测模型。

进一步的，本申请实施例还公开了一种电子设备，参见图4所示，图中的内容不能被认为是对本申请的使用范围的任何限制。

图4为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的用户流失预测方法中的相关步骤。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机程序222及包括用户数据在内的数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的用户流失预测方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一实施例公开的用户流失预测方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种用户流失预测方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用户流失预测方法，其特征在于，包括：

获取应用平台在目标时间节点的用户数据；

2.根据权利要求1所述的用户流失预测方法，其特征在于，所述获取应用平台在目标时间节点的用户数据，包括：

3.根据权利要求1所述的用户流失预测方法，其特征在于，所述对所述用户数据进行数据清洗得到清洗后数据，包括：

4.根据权利要求3所述的用户流失预测方法，其特征在于，所述对所述用户数据进行数据清洗得到清洗后数据，包括：

5.根据权利要求2所述的用户流失预测方法，其特征在于，所述对所述用户数据进行数据清洗得到清洗后数据，包括：

6.根据权利要求1至5任一项所述的用户流失预测方法，其特征在于，所述利用递归选择器和随机森林分类器对所述清洗后数据进行特征提取，以得到目标特征，包括：

7.根据权利要求1所述的用户流失预测方法，其特征在于，所述得到用户流失预测模型，以用于预测用户是否存在流失倾向，包括：

8.一种用户流失预测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的用户流失预测方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中计算机程序被处理器执行时实现如权利要求1至7任一项所述的用户流失预测方法。