CN106127566A

CN106127566A - 一种数据管理方法及装置

Info

Publication number: CN106127566A
Application number: CN201610448334.4A
Authority: CN
Inventors: 赵维平; 李岩; 李亚琴; 胡增海; 樊盛博
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2016-06-20
Filing date: 2016-06-20
Publication date: 2016-11-16

Abstract

本申请提供一种数据管理方法及装置，通过接收携带待预测用户集的数据管理请求，利用预先设置的客户流失预测模型分别对待预测用户集中的每个待预测用户进行客户流失预测，得到目标用户集，并对目标用户集中的所有目标用户进行分群得到至少一个目标用户群，进而对目标用户群中的目标用户进行挽留的方式，实现了对客户流失的预测、分群以及挽留，减少了客户流失现象。

Description

一种数据管理方法及装置

技术领域

本申请涉及数据管理技术领域，更具体地说，涉及一种数据管理方法及装置。

背景技术

客户流失，是指由于各种原因所导致的客户与企业终止合作的情况。就银行业而言，客户在一定时间内不再发生主动交易，甚至注销服务，均可视为客户流失。

客户流失对企业会带来损失。以信用卡为例，它是当今发展最快的一项金融业务之一，作为一种可在一定范围内替代传统现金流通的电子货币，有着广阔的发展前景，是各金融机构的营销热点。然而，在信用卡用户不断新增的同时，老信用卡用户也在不断流失。这些客户有些已经超过6个月以上没有发生任何主动交易，有些甚至已没有有效的贷记卡。吸引一个新用户，固然可以扩大用户群体，刺激消费，相应的增加收入。但是，吸引一个新客户的成本远比挽留一名老客户、延长客户的生命周期要高得多。

因此，本申请提供一种数据管理方法及装置，以减少客户流失，是亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供一种数据管理方法及装置，通过对客户流失进行预测、分群以及挽留的方式，减少客户流失现象。

为了实现上述目的，现提出的方案如下：

一种数据管理方法，包括：

接收数据管理请求，所述数据管理请求中携带待预测用户集；

利用预先设置的客户流失预测模型，分别对所述待预测用户集中的每个待预测用户进行客户流失预测，得到目标用户集；所述目标用户集中包括所述待预测用户集中的所有的目标用户，其中，所述目标用户进行客户流失预测的结果指示所述目标用户为预流失客户；

利用预先设置的聚类算法对所述目标用户集中的所有目标用户进行分群，得到至少一个含有特定用户特征的目标用户群；

针对每个所述目标用户群，利用与所述目标用户群对应的挽留策略，对所述目标用户群中的目标用户进行挽留。

优选的，所述利用与所述目标用户群对应的挽留策略，对所述目标用户群中的目标用户进行挽留包括：

获取与所述目标用户群对应的挽留策略；

响应选择操作，从所述目标用户群中确定与所述选择操作对应的待挽留目标用户群；

按照所述挽留策略，对所述待挽留目标用户群中的各个目标用户进行挽留。

优选的，还包括：

判断当前时间与对所述待挽留目标用户群中的各个目标用户进行挽留的时间之间的时间间隔是否满足预设时间阈值；

当是时，统计所述待挽留目标用户群中的流失客户数量；

根据所述流失客户数量以及所述待挽留目标用户群中的目标用户数量，计算所述待挽留目标用户群所属的目标用户群对应的挽留策略的挽留成功率。

优选的，所述客户流失预测模型的生成过程包括：

获取训练样本集，所述训练样本集中包括多个训练样本，每个所述训练样本包括标记信息以及属性信息，其中，所述标记信息指示所述训练样本为流失客户/未流失客户；

针对所述训练样本集中的每个所述训练样本，对所述训练样本的属性信息进行数据预处理，得到目标属性信息；

对所述目标属性信息所属的目标属性进行自动指标筛选，得到至少一个最终目标属性；

针对每个所述训练样本，根据所述训练样本的标记信息以及每个所述最终目标属性对应的所述训练样本的目标属性信息，利用预设模型构建算法，构建客户流失预测模型。

优选的，当所述预设模型构建算法为决策树算法时，所述对所述训练样本的属性信息进行数据预处理，得到目标属性信息包括：

确定所述训练样本中的各个目标连续属性信息；

对各个所述目标连续属性信息依次进行离散化处理、属性变换，得到第一目标属性信息；

将得到的各个所述第一目标属性信息确定为目标属性信息。

优选的，当所述预设模型构建算法为逻辑回归算法时，所述对所述训练样本的属性信息进行数据预处理，得到目标属性信息包括：

确定所述训练样本中的各个目标连续属性信息；

确定所述训练样本中的各个类别类属性信息；

对各个所述类别类属性信息进行二元化处理，得到第二目标属性信息；

将得到的各个所述第一目标属性信息和第二目标属性信息确定为目标属性信息。

一种数据管理装置，包括：

数据管理请求接收单元，用于接收数据管理请求，所述数据管理请求中携带待预测用户集；

客户流失预测单元，用于利用预先设置的客户流失预测模型，分别对所述待预测用户集中的每个待预测用户进行客户流失预测，得到目标用户集；所述目标用户集中包括所述待预测用户集中的所有的目标用户，其中，所述目标用户进行客户流失预测的结果指示所述目标用户为预流失客户；

目标用户分群单元，用于利用预先设置的聚类算法对所述目标用户集中的所有目标用户进行分群，得到至少一个含有特定用户特征的目标用户群；

挽留单元，用于针对每个所述目标用户群，利用与所述目标用户群对应的挽留策略，对所述目标用户群中的目标用户进行挽留。

优选的，所述挽留单元包括：

挽留策略获取单元，用于获取与所述目标用户群对应的挽留策略；

待挽留目标用户群确定单元，用于响应选择操作，从所述目标用户群中确定与所述选择操作对应的待挽留目标用户群；

挽留子单元，用于按照所述挽留策略，对所述待挽留目标用户群中的各个目标用户进行挽留。

优选的，还包括：

挽留成功率计算单元，用于判断当前时间与对所述待挽留目标用户群中的各个目标用户进行挽留的时间之间的时间间隔是否满足预设时间阈值；以及，当是时，统计所述待挽留目标用户群中的流失客户数量；以及，根据所述流失客户数量以及所述待挽留目标用户群中的目标用户数量，计算所述待挽留目标用户群所属的目标用户群对应的挽留策略的挽留成功率。

优选的，还包括客户流失预测模型生成单元，用于获取训练样本集，所述训练样本集中包括多个训练样本，每个所述训练样本包括标记信息以及属性信息，其中，所述标记信息指示所述训练样本为流失客户/未流失客户；以及，针对所述训练样本集中的每个所述训练样本，对所述训练样本的属性信息进行数据预处理，得到目标属性信息；以及，对所述目标属性信息所属的目标属性进行自动指标筛选，得到至少一个最终目标属性；以及，针对每个所述训练样本，根据所述训练样本的标记信息以及每个所述最终目标属性对应的所述训练样本的目标属性信息，利用预设模型构建算法，构建客户流失预测模型。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种数据管理方法流程图；

图2为本申请实施例提供的一种利用与目标用户群对应的挽留策略，对目标用户群中的目标用户进行挽留的方法流程图；

图3为本申请实施例提供的一种客户流失预测模型的生成方法流程图；

图4为本申请实施例提供的一种对训练样本的属性信息进行数据预处理，得到目标属性信息的方法流程图；

图5为本申请实施例提供的一种对训练样本的属性信息进行数据预处理，得到目标属性信息的方法流程图；

图6为本申请实施例提供的一种数据管理装置的结构示意图；

图7为本申请实施例提供的一种挽留单元的详细结构示意图；

图8为本申请实施例提供的另一种数据管理装置的结构示意图；

图9为本申请实施例提供的又一种数据管理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例：

图1为本申请实施例提供的一种数据管理方法流程图。

如图1所示，该方法包括：

S101、接收数据管理请求，数据管理请求中携带待预测用户集；

在本申请实施例中，优选的，待预测用户集中包括至少一个待预测用户。

S102、利用预先设置的客户流失预测模型，分别对待预测用户集中的每个待预测用户进行客户流失预测，得到目标用户集；

在本申请实施例中，优选的，目标用户集中包括待预测用户集中的所有的目标用户。其中，目标用户进行客户流失预测的结果指示目标用户为预流失客户。

在本申请实施例中，优选的，客户流失预测模型对待预测用户进行客户流失预测时，需要用到待预测用户的属性信息。因此，同样需要数据管理请求中携带的待预测用户集中的每个待预测用户均携带客户流失预测模型需要用到的各个最终目标属性信息。

S103、利用预先设置的聚类算法对目标用户集中的所有目标用户进行分群，得到至少一个含有特定用户特征的目标用户群；

S104、针对每个目标用户群，利用与目标用户群对应的挽留策略，对目标用户群中的目标用户进行挽留。

在本申请实施例中，优选的，当得到至少一个目标用户群(每个目标用户群中包括至少一个目标用户)后，可针对每个目标用户群，利用与该目标用户群对应的挽留策略，对该目标用户群中的目标用户进行挽留。

图2为本申请实施例提供的一种利用与目标用户群对应的挽留策略，对目标用户群中的目标用户进行挽留的方法流程图。

如图2所示，该方法包括：

S201、获取与目标用户群对应的挽留策略；

在本申请实施例中，优选的，与目标用户群对应的挽留策略包括：与该目标用户群对应的优惠方案。

S202、响应选择操作，从目标用户群中确定与选择操作对应的待挽留目标用户群；

在本申请实施例中，优选的，目标用户群中包括至少一个目标用户，响应选择操作，从目标用户群中确定与选择操作对应的待挽留目标用户群。其中，该待挽留目标用户群中包括其所属的目标用户群中的所有/部分目标用户。

S203、按照挽留策略，对待挽留目标用户群中的各个目标用户进行挽留。

在本申请实施例中，优选的，按照挽留策略，对待挽留目标用户群中的各个目标用户进行挽留的方式包括：分别向待挽留目标用户群中的每个目标用户发送提醒信息，具体的，该提醒信息为从预先设置的多个提醒信息中，搜索到的与待挽留目标用户群所属的目标用户群对应的挽留策略所对应提醒信息。

进一步的，在本申请实施例提供的一种数据管理方法中，还包括：判断当前时间与对待挽留目标用户群中的各个目标用户进行挽留的时间之间的时间间隔是否满足预设时间阈值；以及，当是时，统计待挽留目标用户群中的流失客户数量；以及，根据流失客户数量以及待挽留目标用户群中的目标用户数量，计算待挽留目标用户群所属的目标用户群对应的挽留策略的挽留成功率。

在本申请实施例中，优选的，还可判断当前时间与对待挽留目标用户群中的各个目标用户进行挽留的时间之间的时间间隔是否大于预设时间阈值；当是时，统计当前时间待挽留目标用户群中的流失客户数量，并将待挽留目标用户群中的目标用户总数减去流失客户数量得到待挽留目标用户群中未流失客户数量，进而将未流失客户数量除以待挽留目标用户群中的用户总数得到的结果作为待挽留目标用户所属目标用户群对应的挽留策略的挽留成功率。

图3为本申请实施例提供的一种客户流失预测模型的生成方法流程图。

如图3所示，该方法包括：

S301、获取训练样本集，训练样本集中包括多个训练样本，每个训练样本包括标记信息以及属性信息。

在本申请实施例中，优选的，标记信息指示训练样本为流失客户/未流失客户。

具体的，每个训练样本包括的标记信息均指示该训练样本的客户类型(如该训练样本为流失客户或者未流失客户)。

在本申请实施例中，优选的，每个训练样本包括一个标记信息和若干个属性信息。

在本申请实施例中，优选的，属性信息包括属性以及属性的属性值。比如，训练样本的每个属性信息包括训练样本的对应该属性信息的属性以及训练样本在该属性的属性值。

S302、针对训练样本集中的每个训练样本，对训练样本的属性信息进行数据预处理，得到目标属性信息；

在本申请实施例中，优选的，每个训练样本包括的属性信息为至少一个，对训练样本中属性信息进行数据处理，可得到若干个目标属性信息，其中，目标属性信息包括对应该目标属性信息的新的属性(也就是目标属性)以及该目标属性的属性值。

S303、对目标属性信息所属的目标属性进行自动指标筛选，得到至少一个最终目标属性；

在本申请实施例中，优选的，当得到若干个目标属性信息后，可对每个目标属性信息所属的目标属性(也就是该目标属性信息对应的目标属性)进行自动指标筛选，以得到至少一个最终目标属性。

在这一步中，系统对初步得到的多个目标属性进行自动指标筛选，在降低维度的同时选取最有区分度的最终目标属性。系统中使用信息增益算法(InfoGainAttributeEval)和相关系数属性选择算法(CFSSubsetAttributeEval)来进行这个步骤，将最终目标属性筛选至20个。

以系统优化得到的默认值为例，所使用的20个最终目标属性参见表1。

表1客户流失预测模型输入最终目标属性

在本申请实施例中，优选的，用户可根据需要自行进行筛选，结果因数据的不同而可能有所不同。

S304、针对每个训练样本，根据训练样本的标记信息以及每个最终目标属性对应的训练样本的目标属性信息，利用预设模型构建算法，构建客户流失预测模型。

如图4所示的对训练样本的属性信息进行数据预处理，得到目标属性信息的方法应用于预设模型构建算法为决策树算法的情况下。

具体的，如图4所示，该方法包括：

S401、确定训练样本中的各个目标连续属性信息；

在本申请实施例中，优选的，针对每个训练样本而言，从该训练样本的所有属性信息中，确定出哪些属性信息是连续的属性信息，进而将确定出的每个连续的属性信息作为一个目标连续属性信息。

S402、对各个目标连续属性信息依次进行离散化处理、属性变换，得到第一目标属性信息；

在本申请实施例中，优选的，对各个目标连续属性信息进行离散化处理的方法包括：等频度离散化处理方法和/或基于最小描述距离的离散化处理方法。

具体的，对于目标连续属性新进行离散化处理(discretization)。具体的，本步骤主要处理那些对目标确定的指导作用逊于离散值的属性信息。用户可选择等频度离散化处理(Equal Frequency Discretization)和基于最小描述长度的离散化处理(MinimumDescription Length)。优选的，默认情况下使用基于最小描述距离的离散化处理。

等频度离散化处理是一种无监督学习，需要预先设定划分区域的个数K，然后算法自动计算根据频度合重新将数据分布。经过反复实验，优选的，固定将属性分成3个区域。

而基于最小描述长度离散化处理(MDL)是一种监督学习，常常被应用到决策树建立的过程中。使用时算法会根据标记类别计算信息熵值(Entropy)，然后选择获得最小信息量(最小描述长度)的划分方法，自动分成若干个区域。

信息熵(Entropy)是表示一套数据集的平均信息量，简单说来数据分布越单一信息量越小，数据平均分布式信息量最大。

可见，离散化处理之后的数据分布明显有利于分类算法，离散化之后的取值对流失客户和非流失客户由于较强的分别。经过反复试验，默认情况下，采用基于最小描述距离的离散化处理。

在本申请实施例中，优选的，针对每个目标连续属性信息而言，当对该目标连续属性信息进行离散化处理后，需对进行离散化处理后的该目标连续属性信息进行属性变换以得到第一目标属性信息。

具体的，对离散化处理后的目标连续属性信息进行属性变换的方法包括：标准化属性变换处理，或者，正常化属性变换处理。

优选的，对于部分连续属性信息，数据分布有特定的区间，对数据的区间进行重分布有利于K-Means等算法的距离计算和线性模型的学习。系统会进行属性变换，使其落入一定的数字范围之内。用户可选择标准化处理(Standardization)或正常化处理(Normalization)。默认情况下，系统使用正常化处理。这里的标准化处理即是上述提到的标准化属性变换处理，同样，这里的正常化处理即是上述提到的正常化属性变换处理。

标准化属性变换处理使数据原数据减去平均值再除以标准差，因此生成的新数据的平均值为0，标准差为1。

X_{n e w} = \frac{X_{o l d} - m e a n}{s t d}

正常化属性变换处理使原数据减去最小值除以最大值和最小值得差，产生的新分布在(0，1)之间。

X_{n e w} = \frac{X_{o l d} - \min}{\max - \min}

标准化属性变换处理和正常化属性变换处理都是对数据范围的重分布，不会对分布本身进行改变。但是为了计算距离时不偏袒某个指标，使每一个指标在统一的取值范围内，我们默认使用正常化属性变换处理。

S403、将得到的各个第一目标属性信息确定为目标属性信息。

如图5所示的对训练样本的属性信息进行数据预处理，得到目标属性信息的方法应用于预设模型构建算法为逻辑回归算法的情况下。

具体的，如图5所示，该方法包括：

S501、确定训练样本中的各个目标连续属性信息；

S502、对各个目标连续属性信息依次进行离散化处理、属性变换，得到第一目标属性信息；

S503、确定训练样本中的各个类别类属性信息；

在本申请实施例中，优选的，针对每个训练样本而言，从该训练样本的所有属性信息中，确定出哪些属性信息是类别类属性信息。

S504、对各个类别类属性信息进行二元化处理，得到第二目标属性信息；

在本申请实施例中，优选的，类别类属性信息通常使用常用的1-of-K编码进而二元化处理，将一个变量转换为K个。优选的，K为8，参见表2。例如，作为类别类属性信息的逾期程度由原理的一个属性类别属性变为了8个二元属性。

表2对类别类属性进行二元化处理

S505、将得到的各个第一目标属性信息和第二目标属性信息确定为目标属性信息。

图6为本申请实施例提供的一种数据管理装置的结构示意图。

如图6所示，该装置包括：

数据管理请求接收单元61，用于接收数据管理请求，数据管理请求中携带待预测用户集；

客户流失预测单元62，用于利用预先设置的客户流失预测模型，分别对待预测用户集中的每个待预测用户进行客户流失预测，得到目标用户集；目标用户集中包括待预测用户集中的所有的目标用户，其中，目标用户进行客户流失预测的结果指示目标用户为预流失客户；

目标用户分群单元63，用于利用预先设置的聚类算法对目标用户集中的所有目标用户进行分群，得到至少一个含有特定用户特征的目标用户群；

挽留单元64，用于针对每个目标用户群，利用与目标用户群对应的挽留策略，对目标用户群中的目标用户进行挽留。

图7为本申请实施例提供的一种挽留单元的详细结构示意图。

如图7所示，挽留单元包括：

挽留策略获取单元71，用于获取与目标用户群对应的挽留策略；

待挽留目标用户群确定单元72，用于响应选择操作，从目标用户群中确定与选择操作对应的待挽留目标用户群；

挽留子单元73，用于按照挽留策略，对待挽留目标用户群中的各个目标用户进行挽留。

图8为本申请实施例提供的另一种数据管理装置的结构示意图。

如图8所示，该装置包括：

挽留单元64，用于针对每个目标用户群，利用与目标用户群对应的挽留策略，对目标用户群中的目标用户进行挽留；

挽留成功率计算单元81，用于判断当前时间与对待挽留目标用户群中的各个目标用户进行挽留的时间之间的时间间隔是否满足预设时间阈值；以及，当是时，统计待挽留目标用户群中的流失客户数量；以及，根据流失客户数量以及待挽留目标用户群中的目标用户数量，计算待挽留目标用户群所属的目标用户群对应的挽留策略的挽留成功率。

如图9所示，该装置包括：

客户流失预测模型生成单元91，用于获取训练样本集，训练样本集中包括多个训练样本，每个训练样本包括标记信息以及属性信息，其中，标记信息指示训练样本为流失客户/未流失客户；以及，针对训练样本集中的每个训练样本，对训练样本的属性信息进行数据预处理，得到目标属性信息；以及，对目标属性信息所属的目标属性进行自动指标筛选，得到至少一个最终目标属性；以及，针对每个训练样本，根据训练样本的标记信息以及每个最终目标属性对应的训练样本的目标属性信息，利用预设模型构建算法，构建客户流失预测模型；

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据管理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用与所述目标用户群对应的挽留策略，对所述目标用户群中的目标用户进行挽留包括：

获取与所述目标用户群对应的挽留策略；

3.根据权利要求1-2任意一项所述的方法，其特征在于，还包括：

当是时，统计所述待挽留目标用户群中的流失客户数量；

4.根据权利要求3所述的方法，其特征在于，所述客户流失预测模型的生成过程包括：

5.根据权利要求4所述的方法，其特征在于，当所述预设模型构建算法为决策树算法时，所述对所述训练样本的属性信息进行数据预处理，得到目标属性信息包括：

确定所述训练样本中的各个目标连续属性信息；

将得到的各个所述第一目标属性信息确定为目标属性信息。

6.根据权利要求4所述的方法，其特征在于，当所述预设模型构建算法为逻辑回归算法时，所述对所述训练样本的属性信息进行数据预处理，得到目标属性信息包括：

确定所述训练样本中的各个目标连续属性信息；

确定所述训练样本中的各个类别类属性信息；

7.一种数据管理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述挽留单元包括：

9.根据权利要求7-8任意一项所述的装置，其特征在于，还包括：

10.根据权利要求9所述的装置，其特征在于，还包括客户流失预测模型生成单元，用于获取训练样本集，所述训练样本集中包括多个训练样本，每个所述训练样本包括标记信息以及属性信息，其中，所述标记信息指示所述训练样本为流失客户/未流失客户；以及，针对所述训练样本集中的每个所述训练样本，对所述训练样本的属性信息进行数据预处理，得到目标属性信息；以及，对所述目标属性信息所属的目标属性进行自动指标筛选，得到至少一个最终目标属性；以及，针对每个所述训练样本，根据所述训练样本的标记信息以及每个所述最终目标属性对应的所述训练样本的目标属性信息，利用预设模型构建算法，构建客户流失预测模型。