CN113064944A

CN113064944A - 数据的处理方法和装置

Info

Publication number: CN113064944A
Application number: CN202010000512.3A
Authority: CN
Inventors: 林昊; 陈同合; 唐大津; 程普; 傅培泉; 张雪峰
Original assignee: Guangzhou Yuexiu Finance Technology Co ltd
Current assignee: Guangzhou Yuexiu Finance Technology Co ltd
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2021-07-02

Abstract

本发明公开了一种数据的处理方法和装置。其中，该方法包括：从业务数据库中抽取目标对象的属性信息和目标对象使用目标产品的行为信息；基于属性信息和行为信息生成目标对象的特征数据；在特征数据中进行特征选择，得到目标特征数据；基于目标特征数据，根据状态预测模型预测目标对象的状态，其中，状态预测模型通过对样本数据训练得到，状态用于表示目标对象与目标产品的粘合程度。本发明解决了通过对多项指标进行加权的方式进行客户流失预警，导致预警结果不准确的技术问题。

Description

数据的处理方法和装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据的处理方法和装置。

背景技术

随着互联网发展带来的流量增长红利的消退下，各领域的同行竞争越来越激烈，获客成本逐年攀升，业务增长越来越慢。当企业发展壮大到一定程度后，获取一位新客户的成本往往比挽留一位存量客户所用的成本要高很多，因此老客户的流失会为企业带来巨大的损失。在这种情况下，企业则需要密切关注老客户的客户粘性，针对激将流失的客户定制挽回营销策略，从而降低企业损失，提升企业效益。

传统的客户流失预警，通常是对选定的指标进行加权评分，得到总预警评分，然后与设定的阈值进行比较，高于该值则判定有流失风险。这种方式在一定程度上能够起到老流失客户的预警作用，但准确度较低，难以满足企业需求。

针对通过对多项指标进行加权的方式进行客户流失预警，导致预警结果不准确的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据的处理方法和装置，以至少解决通过对多项指标进行加权的方式进行客户流失预警，导致预警结果不准确的技术问题。

根据本发明实施例的一个方面，提供了一种数据的处理方法，包括：从业务数据库中抽取目标对象的属性信息和目标对象使用目标产品的行为信息；基于属性信息和行为信息生成目标对象的特征数据；在特征数据中进行特征选择，得到目标特征数据；基于目标特征数据，根据状态预测模型预测目标对象的状态，其中，状态预测模型通过对样本数据训练得到，状态用于表示目标对象与目标产品的粘合程度。

进一步地，目标对象的属性信息包括如下一项或多项：活动区域、性别、年龄；目标对象使用目标产品的行为信息包括如下一项或多项：目标对象使用目标产品的起始日期、时长、频率以及目标对象的虚拟资源信息。

进一步地，对属性信息和行为信息进行数据清洗，得到清洗后的第一数据，其中，数据清洗用于对数据类型错误、缺失值、异常值、重复值进行对应处理；对第一数据转换为离散变量，并将非数值型变量的第一数据转换为数值型数据，得到第二数据；基于第二数据衍生出第三数据；确定第二数据和第三数据为目标对象的特征数据。

进一步地，通过单变量特征选择方法或基于机器学习模型的特征选择方法，从特征数据中选择目标特征数据。

进一步地，获取状态预测模型的步骤还包括：获取样本数据，其中，样本数据包括：样本对象的目标特征数据和样本对象的状态；基于样本数据对初始神经网络模型进行训练，得到状态预测模型。

进一步地，在基于样本数据对初始神经网络模型进行训练，得到状态预测模型之后，对状态预测模型进行验证，其中，对状态预测模型进行验证的步骤包括：确定状态预测模型在多个维度上的参数；将参数与多个维度对应的指标进行比对，在状态预测模型在多个维度上的参数均大于多个维度对应的指标的情况下，确定状态预测模型通过验证。

进一步地，多个维度的参数包括如下至少之一：准确率、精确率、召回率。

根据本发明实施例的一个方面，提供了一种数据的处理装置，包括：抽取模块，用于从业务数据库中抽取目标对象的属性信息和目标对象使用目标产品的行为信息；生成模块，用于基于属性信息和行为信息生成目标对象的特征数据；选择模块，用于在特征数据中进行特征选择，得到目标特征数据；预测模块，用于基于目标特征数据，根据状态预测模型预测目标对象的状态，其中，状态预测模型通过对样本数据训练得到，状态用于表示目标对象与目标产品的粘合程度。

根据本发明实施例的一个方面，提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的数据的处理方法。

根据本发明实施例的一个方面，提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述的数据的处理方法。

在本发明实施例中，从业务数据库中抽取目标对象的属性信息和目标对象使用目标产品的行为信息；基于属性信息和行为信息生成目标对象的特征数据；在特征数据中进行特征选择，得到目标特征数据；基于目标特征数据，根据状态预测模型预测目标对象的状态，其中，状态用于表示目标对象与目标产品的粘合程度。本申请上述方案通过状态预测模型对目标对象的状态进行预测，从而解决了通过对多项指标进行加权的方式进行客户流失预警，导致预警结果不准确的技术问题，且在多层神经网络的基础上，加入了特征学习部分，也就是输入模型特征由网络自己挑选，从而使得不需要复杂的特征工程，就能得到较高的分类准确度；在数据增多的情况下能很好地扩展，适应于多个行业。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种数据的处理方法的流程图；以及

图2是根据本发明实施例的一种数据的处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种数据的处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种数据的处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，从业务数据库中抽取目标对象的属性信息和目标对象使用目标产品的行为信息。

具体的，上述目标对象即为使用目标产品的用户，可以是使用目标产品的所有用户，也可以是部分待分析的用户。目标产品可以是互联网产品，例如应用程序等，也可是金融产品。上述业务数据库可以是用于记录产品的所有信息的数据库。

目标对象的属性信息即为用户的固有信息，即不跟随时间的变化而变更的信息，例如：年龄、性别等信息。目标对象使用目标产品的行为信息可以是用户使用目标产品时留下的数据。

步骤S104，基于属性信息和行为信息生成目标对象的特征数据。

具体的，上述特征数据是具有一定数据格式的数据。该数据可以也可是特征向量，或由多种特征向量构成的特征矩阵。

在一种可选的实施例中，可以将属性信息所包含的属性数据，与行为信息所包含的行为数据进行归一化处理，再进行向量化处理，即可得到目标对象的特征数据。

步骤S106，在特征数据中进行特征选择，得到目标特征数据。

由上述步骤可知，目标对象的特征数据部署在多个维度，因此数据较多，尤其在目标对象的数量也很庞大的情况下，运算的开销会非常大，且也会影响运算的性能。因此上述步骤通过特征选择的方式，从中选择目标特征数据来进行目标对象状态的预测。

在一种可选的实施例中，可以选择指定的特征数据作为目标特征数据。

在另一种可选的实施例中，还可以去掉取值变化较小的特征数据，将其他特征作为目标特征数据。

步骤S108，基于目标特征数据，根据状态预测模型预测目标对象的状态，其中，状态预测模型通过对样本数据训练得到，状态用于表示目标对象与目标产品的粘合程度。

具体的，上述状态预测模型为神经网络模型，该状态预测模型可以通过对样本数据训练得到，样本数据可以从目标产品的历史数据中抽取得到。

该状态实际表示的是用户与产品的粘合程度，粘合程度越高，该用户流失的风险越小，粘合程度越低，该用户流失的风险越大。本申请上方案通过状态预测模型预测出粘合程度低于阈值的用户，并可以确定该部分用户为流失风险较大的用户，并对该部分用户使用预定的用户挽回策略。

由此可知，本申请上述实施例从业务数据库中抽取目标对象的属性信息和目标对象使用目标产品的行为信息；基于属性信息和行为信息生成目标对象的特征数据；在特征数据中进行特征选择，得到目标特征数据；基于目标特征数据，根据状态预测模型预测目标对象的状态，其中，状态用于表示目标对象与目标产品的粘合程度。本申请上述方案通过状态预测模型对目标对象的状态进行预测，从而解决了通过对多项指标进行加权的方式进行客户流失预警，导致预警结果不准确的技术问题，且在多层神经网络的基础上，加入了特征学习部分，也就是输入模型特征由网络自己挑选，从而使得不需要复杂的特征工程，就能得到较高的分类准确度；在数据增多的情况下能很好地扩展，适应于多个行业。

作为一种可选的实施例，目标对象的属性信息包括如下一项或多项：活动区域、性别、年龄；目标对象使用目标产品的行为信息包括如下一项或多项：目标对象使用目标产品的起始日期、时长、频率以及目标对象的虚拟资源信息。

具体的，以金融产品为例，上述虚拟资源可以是用户的存款、贷款等数据，以游戏应用程序为例，上述虚拟资源可以是用户在游戏中的金币值等数据。

在一种可选的实施例中，以金融产品为例，可以从业务系统数据库提取目标对象是属性信息和行为信息，属性信息可以包括用户所在国家和地区、性别和年龄等；用户进入系统日期、使用产品或服务的数量、使用产品或服务的时长、使用产品或服务的频率、存款情况、贷款情况、信用卡使用情况、收入情况，近期操作行为，是否流失标志等。

作为一种可选的实施例，基于属性信息和行为信息生成目标对象的特征数据，包括：对属性信息和行为信息进行数据清洗，得到清洗后的第一数据，其中，数据清洗用于对数据类型错误、缺失值、异常值、重复值进行对应处理；对第一数据转换为离散变量，并将非数值型变量的第一数据转换为数值型数据，得到第二数据；基于第二数据衍生出第三数据；确定第二数据和第三数据为目标对象的特征数据。

作为一种可选的实施例，上述的数据清洗用于在数据检查过程中发现的数据类型错误、缺失值、异常值、重复记录等，并用对应的处理方法进行处理，以及达到提高数据质量的目的。具体可以进行如下处理：

1、缺失值处理。一般缺失率较低的话可直接剔除该记录，缺失率较高时可根据该字段的重要程度考虑是否进行插补，可采用数据分布选择均值或中位值等进行填充。

2、异常值处理。若异常值很少，可考虑直接剔除，或者暂且保留，结合模型再进行综合分析，也可以将其视为缺失值，利用统计模型得到的统计量进行填补。

作为一种可选的实施例，上述数据变换的具体方式可以如下：

数据变换主要有连续变量和离散变量之间的相互转化、其他类型变量向数值型变量的转化等。例如：对数据进行归一化处理，消除指标之间的量纲影响，主要方法有min-max标准化和Z-score标准化等。

对数据进行单变量分析和多维变量分析，探索变量之间的关系，可对场景下指标的重要程度有更直观的认识，便于业务理解，还可以在原来变量的基础上衍生更多有助于提高模型识别率的变量，例如各种比值类、汇总类指标，结合银行业务场景，衍生变量可以是一定时段内的存贷款最高值、最低值、平均值、标准差，收入及贷款的同比/环比增长率等。

作为一种可选的实施例，在特征数据中进行特征选择，得到目标特征数据，包括：通过单变量特征选择方法或基于机器学习模型的特征选择方法，从特征数据中选择目标特征数据。

在一种可选的实施例中，处理后数据包含自变量X和因变量Y，Y是0-1变量，代表是否目标对象的状态是否为流失；可以对X进行特征选择，形成特征矩阵，方法包含单变量特征选择、基于机器学习模型的特征选择等。

在获得业务数据(目标对象的属性信息和行为信息)后，先对业务数据进行清洗和转换，剔除与业务无关的指标，然后将整个数据集分为训练集和测试集，通过对训练数据集搭建深度学习模型，然后用测试数据集对生成的模型进行评估，得到模型准确性，后续再通过调参等方式对其进行优化，得到最终适用于业务需求的分类模型，即上述状态预测模型。具体方式如下：

作为一种可选的实施例，方法还包括：获取状态预测模型，其中，获取状态预测模型的步骤还包括：获取样本数据，其中，样本数据包括：样本对象的目标特征数据和样本对象的状态；基于样本数据对初始神经网络模型进行训练，得到状态预测模型。

需要说明的是，上述样本对象的目标特征数据，与目标对象的目标特征数据的获取方式相同，此处不再吹书。在获得样本对象的目标特征数据和样本对象的状态后，将样本对象的目标特征数据和样本对象的状态构成样本数据，并进行深度模型的训练。

在一种可选的实施例中，可以将上述样本数据分为训练集和测试集，首先根据训练集数据维度搭建神经网络输入层，然后搭建隐藏层(大于3层)，分别设置神经元数量和激活函数，最后再搭建输出层，采用python的深度学习框架生成相应模型。

作为一种可选的实施例，在基于样本数据对初始神经网络模型进行训练，得到状态预测模型之后，方法还包括：对状态预测模型进行验证，其中，对状态预测模型进行验证的步骤包括：确定状态预测模型在多个维度上的参数；将参数与多个维度对应的指标进行比对，在状态预测模型在多个维度上的参数均大于多个维度对应的指标的情况下，确定状态预测模型通过验证。

作为一种可选的实施例，多个维度的参数包括如下至少之一：准确率、精确率、召回率。

具体的，在上述步骤中，可以采用测试数据集对生成的模型性能进行评估，主要有以下几种评估指标：计算模型准确率(accuracy)，即模型的预测结果中正确的比例；计算模型精确率(precision)，即模型预测为真，实际也为真的样本数量占模型预测所有为真的样本数量的比例；计算模型召回率(recall)，即模型预测为真，实际也为真的样本数量占实际所有为真的样本数量的比例；计算模型F1值(F1-score)，即2除以模型精确率和召回率的倒数之和，是综合考虑两个指标的结果；分别计算真阳性率(TPR)、假阳性率(FPR)、真阴性率(TNR)和假阴性率(FNR)四个指标进行评判；通过绘制ROC曲线和PRC曲线，计算ROC曲线下的面积AUC值来对模型进行评估。

实施例2

根据本发明实施例，提供了一种数据处理装置的实施例，图2是根据本发明实施例的数据的处理装置的示意图，如图2所示，该装置包括：

抽取模块20，用于从业务数据库中抽取目标对象的属性信息和目标对象使用目标产品的行为信息。

生成模块22，用于基于属性信息和行为信息生成目标对象的特征数据。

选择模块24，用于在特征数据中进行特征选择，得到目标特征数据。

预测模块26，用于基于目标特征数据，根据状态预测模型预测目标对象的状态，其中，状态预测模型通过对样本数据训练得到，状态用于表示目标对象与目标产品的粘合程度。

作为一种可选的实施例，生成模块包括：清洗子模块，用于对属性信息和行为信息进行数据清洗，得到清洗后的第一数据，其中，数据清洗用于对数据类型错误、缺失值、异常值、重复值进行对应处理；变换子模块，用于对第一数据转换为离散变量，并将非数值型变量的第一数据转换为数值型数据，得到第二数据；衍生子模块，用于基于第二数据衍生出第三数据；第一确定子模块，用于确定第二数据和第三数据为目标对象的特征数据。

作为一种可选的实施例，选择模块包括：选择子模块，用于通过单变量特征选择方法或基于机器学习模型的特征选择方法，从特征数据中选择目标特征数据。

作为一种可选的实施例，装置还包括：获取模块，用于获取状态预测模型，其中，获取模块包括：获取子模块，用于获取样本数据，其中，样本数据包括：样本对象的目标特征数据和样本对象的状态；训练子模块，用于基于样本数据对初始神经网络模型进行训练，得到状态预测模型。

作为一种可选的实施例，上述装置还包括：验证模块，用于在基于样本数据对初始神经网络模型进行训练，得到状态预测模型之后，对状态预测模型进行验证，其中，验证模块包括：第二确定子模块，用于确定状态预测模型在多个维度上的参数；比对子模块，用于将参数与多个维度对应的指标进行比对，在状态预测模型在多个维度上的参数均大于多个维度对应的指标的情况下，确定状态预测模型通过验证。

实施例3

根据本发明实施例，提供了一种存储介质，存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的数据的处理方法。

实施例4

根据本发明实施例，提供了一种处理器，处理器用于运行程序，其中，所述程序运行时执行上述的数据的处理方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据的处理方法，其特征在于，包括：

从业务数据库中抽取目标对象的属性信息和所述目标对象使用目标产品的行为信息；

基于所述属性信息和所述行为信息生成所述目标对象的特征数据；

在所述特征数据中进行特征选择，得到目标特征数据；

基于所述目标特征数据，根据状态预测模型预测所述目标对象的状态，其中，所述状态预测模型通过对样本数据进行训练得到，所述状态用于表示所述目标对象与所述目标产品的粘合程度。

2.根据权利要求1所述的方法，其特征在于，所述目标对象的属性信息包括如下一项或多项：活动区域、性别、年龄；所述目标对象使用所述目标产品的行为信息包括如下一项或多项：所述目标对象使用所述目标产品的起始日期、时长、频率以及所述目标对象的虚拟资源信息。

3.根据权利要求1所述的方法，其特征在于，基于所述属性信息和所述行为信息生成所述目标对象的特征数据，包括：

对所述属性信息和所述行为信息进行数据清洗，得到清洗后的第一数据，其中，所述数据清洗用于对数据类型错误、缺失值、异常值、重复值进行对应处理；

对所述第一数据转换为离散变量，并将非数值型变量的第一数据转换为数值型数据，得到第二数据；

基于所述第二数据衍生出第三数据；

确定所述第二数据和所述第三数据为所述目标对象的特征数据。

4.根据权利要求1所述的方法，其特征在于，在所述特征数据中进行特征选择，得到目标特征数据，包括：

通过单变量特征选择方法或基于机器学习模型的特征选择方法，从所述特征数据中选择目标特征数据。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取状态预测模型，其中，获取状态预测模型的步骤还包括：

获取所述样本数据，其中，所述样本数据包括：样本对象的目标特征数据和所述样本对象的状态；

基于所述样本数据对初始神经网络模型进行训练，得到所述状态预测模型。

6.根据权利要求5所述的方法，其特征在于，在基于所述样本数据对初始神经网络模型进行训练，得到所述状态预测模型之后，所述方法还包括：对所述状态预测模型进行验证，其中，对所述状态预测模型进行验证的步骤包括：

确定所述状态预测模型在多个维度上的参数；

将所述参数与所述多个维度对应的指标进行比对，在所述状态预测模型在所述多个维度上的参数均大于所述多个维度对应的指标的情况下，确定所述状态预测模型通过验证。

7.根据权利要求6所述的方法，其特征在于，所述多个维度的参数包括如下至少之一：准确率、精确率、召回率。

8.一种数据的处理装置，其特征在于，包括：

抽取模块，用于从业务数据库中抽取目标对象的属性信息和所述目标对象使用目标产品的行为信息；

生成模块，用于基于所述属性信息和所述行为信息生成所述目标对象的特征数据；

选择模块，用于在所述特征数据中进行特征选择，得到目标特征数据；

预测模块，用于基于所述目标特征数据，根据状态预测模型预测所述目标对象的状态，其中，所述状态预测模型通过对样本数据训练得到，所述状态用于表示所述目标对象与所述目标产品的粘合程度。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的数据的处理方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的数据的处理方法。