CN107230108A

CN107230108A - 业务数据的处理方法及装置

Info

Publication number: CN107230108A
Application number: CN201710443935.0A
Authority: CN
Inventors: 梁培明; 刘钰; 杜晓梦; 金英; 苏海波
Original assignee: Beijing Baifendian Information Science & Technology Co Ltd
Current assignee: Beijing Baifendian Information Science & Technology Co Ltd
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2017-10-03

Abstract

本发明实施例提供了一种业务数据的处理方法及装置，其中方法包括：利用预先构造的业务数据模型对指定机构中待挖掘用户的业务数据进行分析，得到所述待挖掘用户的转化率；检测所述待挖掘用户的转化率是否达到预设的第一阈值；若检测到所述待挖掘用户的转化率达到预设的第一阈值，确定所述待挖掘用户为所述指定机构的潜在种子用户。本发明实施例的技术方案，能够提高客户转化率，提高客户的信用度使用程度，降低营销成本。

Description

业务数据的处理方法及装置

技术领域

本发明实施例涉及银行业务系统开发技术领域，尤其涉及一种业务数据的处理方法及装置。

背景技术

在当前经济环境下，商业银行的个人小额贷款产品不论是发行量还是发行规模，都以惊人的速度不断增长，个人贷款产品供需两旺，贷款产品业务的品种也日益丰富。

由于不同贷款产品的特点不同，针对的客户群体也有明显区别，现有技术在针对某一款贷款产品，如何把合适的产品最有效率地推送给潜在客户，从而提高信用度的使用程度这一问题时，银行个人贷款产品的主要销售模式，通常是根据银行存量客户在银行内部的数据源筛选出潜在客户，以线下营销的方式大范围地联系和推销。

但是，现有的银行个人贷款产品的主要销售模式，其数据源比较单一，仅仅根据客户的人口统计特征和以往的信誉度和贡献状况选择目标客户，没有考虑到客户的行为特质和偏好对个人贷款产品信用度使用的影响，不能精准定位潜在客户，只能做到粗浅地大致定位，导致客户转化率通常很低，信用度使用程度不理想，造成营销成本的大量浪费。

发明内容

本发明实施例提供一种业务数据的处理方法及装置，实现了精确的定位潜在客户，提高了客户转化率、客户的信用度使用程度，降低了营销成本。

本发明实施例提供一种业务数据的处理方法，包括：

利用预先构造的业务数据模型对指定机构中待挖掘用户的业务数据进行分析，得到所述待挖掘用户的转化率；

其中，所述预先构造的业务数据模型包括多数据源条件下种子用户相对于非种子用户的区别特征数据；

所述业务数据包括：所述待挖掘用户的业务统计数据和所述待挖掘用户的行为偏好数据；所述待挖掘用户的转化率是根据所述区别特征数据分别与所述待挖掘用户的业务统计数据和所述待挖掘用户的行为偏好数据的匹配度得到的；

检测所述待挖掘用户的转化率是否达到预设的第一阈值；

若检测到所述待挖掘用户的转化率达到预设的第一阈值，确定所述待挖掘用户为所述指定机构的潜在种子用户。

本发明实施例还提供一种业务数据的处理装置，其特征在于，包括：

分析模块，用于利用预先构造的业务数据模型对指定机构中待挖掘用户的业务数据进行分析，得到所述待挖掘用户的转化率；

检测模块，用于检测所述待挖掘用户的转化率是否达到预设的第一阈值；

第一确定模块，用于若所述检测模块检测到所述待挖掘用户的转化率达到预设的第一阈值，确定所述待挖掘用户为所述指定机构的潜在种子用户。

本发明实施例的本发明实施例的业务数据的处理方法及装置，通过利用预先构造的业务数据模型对指定机构中待挖掘用户的业务数据进行分析，得到待挖掘用户的转化率后，检测待挖掘用户的转化率是否达到预设的第一阈值，若检测到待挖掘用户的转化率达到预设的第一阈值，确定待挖掘用户为指定机构的潜在种子用户，实现了精确的定位潜在客户。本发明实施例的技术方案，能够提高客户转化率，提高客户的信用度使用程度，降低营销成本。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明实施例的一部分，本发明实施例的示意性实施例及其说明用于解释本发明实施例，并不构成对本发明实施例的不当限定。在附图中：

图1为本发明实施例的业务数据的处理方法实施例的流程图；

图2为本发明实施例的业务数据模型的构造方法实施例的流程图；

图3为本发明实施例的业务数据的处理装置实施例一的结构示意图；

图4为本发明实施例的业务数据的处理装置实施例二的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例具体实施例及相应的附图对本发明实施例技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的部分，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。

以下结合附图，详细说明本发明实施例各实施例提供的技术方案。

图1为本发明实施例的业务数据的处理方法实施例的流程图，如图1所示，本发明实施例的业务数据的处理方法，具体可以包括如下步骤：

100、利用预先构造的业务数据模型对指定机构中待挖掘用户的业务数据进行分析，得到待挖掘用户的转化率。

例如，本发明实施例中的指定机构可以为但不限制于银行，本发明实施例的业务数据的处理方法可以选取一定数量的样本用户在多数据源条件下的业务数据作为统计标准，预先构造一个业务数据模型，其中，该预先构造的业务数据模型包括多数据源条件下种子用户相对于非种子用户的区别特征数据。

在一个具体实现过程中，本发明实施例可以根据预设的业务标准，对样本用户进行分类，确定种子用户和非种子用户，其中，预设的业务标准可以包括但不限制于业务规定时间窗口或信用额度使用率，可以将在指定的业务规定时间窗口发生过信用额度使用的样本用户划分为种子用户，或者，将信用额度使用率大于或等于预设的第二阈值的样本用户划分为种子用户。对应地，可以将在指定的业务规定时间窗口未发生过信用额度使用的样本用户划分为非种子用户，或者，将信用额度使用率小于预设的第二阈值的样本用户划分为非种子用户。

本发明实施例的业务数据的处理方法，为了能够精准定位潜在客户，提高客户转化率，降低营销成本，在构造业务数据模型时，不仅统计了样本用户在银行的内部数据源，如样本用户的业务统计数据，其中，该样本用户的业务统计数据可以包括但不限制于：年龄、性别、职业、信誉度、贡献状况、近三个月贷款期限、关联存余额、额度使用率、授信结束时间、近一个月转入转出笔数、近一个月转入转出金额、信用额度使用首次贷款距开户日天数、近三个月贷款还款金额、贷款加权期限、贷款期限、是否有关联存款、关联账户数、关联存款金额、信用额度使用当前额度使用率、是否全额还款以及近一/三个月是否有还款行为等数据，还统计了样本用户的外部数据源，如样本用户的行为偏好数据，其中，该样本用户的行为偏好数据可以包括但不限制于：样本用户的互联网媒体内容偏好数据以及样本用户的网上购物偏好数据等。

本发明实施例通过对上述样本用户中种子用的特征数据和非种子用户的特征数据进行比较区分，从而使得到的种子用户相对于非种子用户的区别特征数据更加精确，进而掌握种子用户关注的信息类型和消费模式等信息，以便于后续根据得到的区别特征数据，去挖掘指定机构的潜在种子用户。

具体地，在构造了业务数据模型后，可以利用该业务数据模型对指定机构中待挖掘用户的业务数据进行分析，得到待挖掘用户的转化率；例如，本发明实施例中待挖掘用户的业务数据同样可以包括但不限制于：待挖掘用户的业务统计数据和待挖掘用户的行为偏好数据。在将待挖掘用户的业务数据输入预先构造的业务模型后，可以将业务数据模型中的区别特征数据分别与待挖掘用户的业务统计数据和待挖掘用户的行为偏好数据进行匹配，得到业务数据模型中的区别特征数据分别与待挖掘用户的业务统计数据和待挖掘用户的行为偏好数据的匹配度，并根据该匹配度得到待挖掘用户的转化率。

例如，业务数据模型中存在10个区别特征数据，其中有3个区别特征数据与待挖掘用户的业务统计数据相匹配，有3个区别特征数据与待挖掘用户的行为偏好数据相匹配，此时可以得到匹配度为6，并可以根据该匹配度得到待挖掘用户的转化率为60％。

需要说明的是，本发明实施例比不限制与上述得到待挖掘用户的转化率的方式。

101、检测待挖掘用户的转化率是否达到预设的第一阈值。

102、若检测到待挖掘用户的转化率达到预设的第一阈值，确定待挖掘用户为指定机构的潜在种子用户。

在一个具体实现过程中，本发明实施例的业务数据的处理方法可以预先设置一个第一阈值，当得到待挖掘用户的转化率后，会检测待挖掘用户的转化率是否达到预设的第一阈值，若检测到待挖掘用户的转化率达到预设的第一阈值，确定待挖掘用户为指定机构的潜在种子用户，否则，确定待挖掘用户不为指定机构的潜在种子用户。

例如，预设的第一阈值可以为40％，当待挖掘用户的转化率为60％时，可以确定该待挖掘用户为指定机构的潜在种子用户，指定机构的业务人员可以针对该待挖掘用户进行营销，将其转化为种子用户，节约了营销成本。反之，当待挖掘用户的转化率为30％时，可以确定该待挖掘用户不为指定机构的潜在种子用户，指定机构的业务人员无需再针对该待挖掘用户进行营销。

在一个具体实现过程中，通过本发明实施例的业务数据的处理方法确定的潜在种子用户的名单，使得营销效果有20％提升至50％，单个客户的营销成本节省50元。

需要说明的是，本发明实施例中，还可以在得到匹配度之后，直接跟匹配度确定待挖掘用户为指定机构的潜在种子用户。例如，设定匹配度为5，当得到的匹配度为6时，可以确定待挖掘用户为指定机构的潜在种子用户，当当得到的匹配度为4时，可以确定待挖掘用户不为指定机构的潜在种子用户。

本发明实施例的业务数据的处理方法的执行主体可以为业务数据的处理装置，该业务数据的处理装置具体可以通过软件来集成，例如该业务数据的处理装置具体可以为一个应用，本发明对此不进行特别限定。

本发明实施例的业务数据的处理方法，通过利用预先构造的业务数据模型对指定机构中待挖掘用户的业务数据进行分析，得到待挖掘用户的转化率后，检测待挖掘用户的转化率是否达到预设的第一阈值，若检测到待挖掘用户的转化率达到预设的第一阈值，确定待挖掘用户为指定机构的潜在种子用户，实现了精确的定位潜在客户。本发明实施例的技术方案，能够提高客户转化率，提高客户的信用度使用程度，降低营销成本。

图2为本发明实施例的业务数据模型的构造方法实施例的流程图，如图2所示，本发明实施例的业务数据模型的构造方法，具体可以包括如下步骤：

200、根据预设的业务标准，对样本用户进行分类，确定种子用户和非种子用户。

本发明实施例的业务数据模型的构造方法，为了能够在得到业务数据模型后确保其稳定性，可以将种子用户划分为训练种子用户和验证种子用户，同理，可以将非种子用户划分为训练非种子用户和验证非种子用户。其中，训练种子用户和训练非种子用户用来做训练样本，以建立业务数据模型，当得到业务数据模型后，可以利用验证种子用户和验证非种子用户，对该模型进行验证，从而确定该业务模型的稳定性。

在一个具体实现过程中，本发明实施例可以根据预设的业务标准，对样本用户进行分类，确定种子用户(正例)和非种子用户(负例)，其中，预设的业务标准可以包括但不限制于业务规定时间窗口或信用额度使用率，可以将在指定的业务规定时间窗口发生过信用额度使用的样本用户划分为种子用户，或者，将信用额度使用率大于或等于预设的第二阈值的样本用户划分为种子用户。对应地，可以将在指定的业务规定时间窗口未发生过信用额度使用的样本用户划分为非种子用户，或者，将信用额度使用率小于预设的第二阈值的样本用户划分为非种子用户。

例如，指定的业务规定时间窗口可以为最近三个月，当某个样本用户在最近三个月发生过信用额度使用时，可以确定为该样本用户为种子用户，反之，确定该样本用户为非种子用户。预设的第二阈值可以为3次，当某个样本用户的信用额度使用率为5次时，可以确定为该样本用户为种子用户；当某个样本用户的信用额度使用率为2次时，可以确定该样本用户为非种子用户。

需要说明的是，本发明实施例中，业务规定时间窗口的长短可以以具有最大区分度的正负例为准或这加之业务指导确定业务规定时间窗口的长短，本发明实施例不做具体限制。预设的第二阈值可以根据业务经验制定或者以实验水平设计处分进行设定，本发明实施例不做具体限制。

201、在多数据源条件下，根据训练种子用户的特征数据和训练非种子用户的特征数据，确定样本业务数据。

为了确保所有样本用户的特征数据具有可比性，同时能够去除极端值的影响，本发明实施例的业务数据模型的构造方法，在多数据源条件下，可以根据预设的转化标准，分别对训练种子用户的特征数据和训练非种子用户的特征数据进行转化，得到训练种子用户的标准特征数据和训练非种子用户的标准特征数据。

例如，本发明实施例可以采用z-score转化标准和数据归一化处理方法，将样本用户的特征数据进行标准化处理，以统一样本用户的特征数据间的量纲关系，即分别对训练种子用户的特征数据和训练非种子用户的特征数据进行转化，使转化后的数据符合标准正太分布，即均值为0，标准差为1，其转化函数为：

其中，μ为训练种子用户的特征数据或训练非种子用户的特征数据的均值，σ为训练种子用户的特征数据或训练非种子用户的特征数据的标准差，x训练种子用户的特征数据或训练非种子用户的特征数据的，x^*训练种子用户的标准特征数据或训练非种子用户的标准特征数据。z-score标准化方法适用于属性A的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。

需要说明的是，本发明实施例不限制与其它转化标准，例如min-max转化标准，其是对原始特征数据的线性变换，使结果映射到[0-1]之间，转换公式为：

其中，x'为训练种子用户的标准特征数据或训练非种子用户的标准特征数据的取值，x为训练种子用户的特征数据或训练非种子用户的特征数据的，x_min为训练种子用户的特征数据或训练非种子用户的特征数据的的最小值，x_max为训练种子用户的特征数据或训练非种子用户的特征数据的的最大值。

由于本发明实施例的业务模型的构造方法是在多数据源条件下进行构造的，这就导致会存在大量训练种子用户的标准特征数据和训练非种子用户的标准特征数据，这些标准特征数据中通常包含了很多数据字段或特征变量，但其中一部分数据字段或特征变量对构造业务数据模型是没有信息量的，其属于特征数据噪音范围，是无效标准特征数据，若这些特征数据噪音不去除，会极大影响业务数据模型的稳定性。因此，本发明实施例可以根据预设的筛选算法，分别对训练种子用户的标准特征数据和训练非种子用户的标准特征数据进行筛选，得到训练种子用户的有效特征数据和训练非种子用户的有效特征数据。

例如，可以根据训练种子用户的标准特征数据和训练非种子用户的标准特征数据，使用变量自身变化率、变量间相关度、变量信息荷载量(卡方)、基尼(GINI)系数重要性排序、递归特征筛选、防止变量过拟合并提高泛化能力的正规化筛选(LASSO)等算法，别对训练种子用户的标准特征数据和训练非种子用户的标准特征数据进行分析筛选，得到训练种子用户的有效特征数据和训练非种子用户的有效特征数据。

本发明实施例在得到训练种子用户的有效特征数据和训练非种子用户的有效特征数据之后，为了得到种子用户的判定标准，可以根据训练种子用户的有效特征数据和训练非种子用户的有效特征数据，确定训练种子用户相对于训练非种子用户的区别特征数据。

在一个具体实现过程中，可以根据预设的合并准则，分别对训练种子用户的有效特征数据和训练非种子用户的有效特征数据进行合并，得到种子用户的有效特征数据集合和非种子用户的有效特征数据集合。例如，为了减少算法的时间和空间开销、提高系统对样本的聚类能力、增强系统抗噪音的能力以及提高算法的学习精度，本发明实施例可以利用等频分箱法将训练种子用户的有效特征数据进行离散化处理，即把训练种子用户的有效特征数据对应的观测值按照从小到大的顺序排列，根据观测个数将训练种子用户的有效特征数据等分成K部分，每一部分当作一个分箱，例如，数值最小的1/k比例的观测形成第一个分箱。然后通过方差检验每个分箱之间的差异，结合图基(Tukey)检验去两两对比分箱之间的差异，把与目标分箱中的训练种子用户的有效特征数据无显著差异的待合并分箱中的训练种子用户的有效特征数据进行水平合并，最后再进行Tukey检验，直到所有类别对区分目标变量都有显著性的差异为止。例如，对于两个年龄分箱而言，26-30岁的分箱中的训练种子用户的有效特征数据与31-35岁的分箱中的训练种子用户的有效特征数据之间无显著差异，则将二者合并为26-35岁。经过合并处理后，同类训练种子用户的效特征数据被划分到一起形成一个集合，这样可以得到多个种子用户的有效特征数据集合。

同理，可以采用相同的方法，得到非种子用户的有效特征数据集合，在此不再赘述。

需要说明的是，本发明实施例中方差检验用于比较两个或者多个变量数据的样本，来确定它们之间的差别是否具有统计上显著的差别，Tukey检验用于检验3组或以上数据之间是否存在统计意义上的显著性差别。

为了找出能够最大化区分训练种子用户和训练非种子用户的特征数据，本发明实施例，可以检测每个种子用户的有效特征数据集合与对应的非种子用户的有效特征数据集合的区分度，并根据检测到的区分度，按照由高到低的次序，依次选取指定数目的种子用户的有效特征数据集合，将指定数目的种子用户的有效特征数据集合中的相关数据作为训练种子用户相对于训练非种子用户的区别特征数据，并进一步将该区别特征数据作为样本业务数据。其中，本发明实施例中的区别特征数据具体可以为训练种子用户和训练非种子用户之间分布差异较大，并且彼此之间独立性较高的特征数据。

例如，指定数目可以选取10个，本发明实施例可以利用嵌入式(Embedded)特征选择方法与算法本身紧密结合，在算法的每步判断一个维度特征的好坏，在训练过程中自动尝试构造特征和选择特征，从而检测出每个种子用户的有效特征数据集合与对应的非种子用户的有效特征数据集合的区分度，根据检测到的区分度，按照由高到低的次序，依次选取10个种子用户的有效特征数据集合。

需要说明的是，如果训练种子用户的特征数据较为多样，本发明实施例可以选择添加训练种子用户分类特征提取和分析方法，进一步细化训练种子用户辅以提升定位待挖掘用户的准确度。如果训练非种子用户的特征数据较为多样，说明训练非种子用户的特征比较散乱，也就是不具备明显特征，且由于业务数据模型是为了得到待挖掘用户转化为种子用户的转化率，所以这种情况不需要处理。

202、确定训练种子用户的数目或训练种子用户与训练非种子用户之间的比例。

203、根据训练种子用户的数目或训练种子用户与训练非种子用户之间的比例，选取设定的算法分支。

由于在训练种子用户数目过少，或者训练种子用户与训练非种子用户之间的比例极不均衡的情况下，通常的分类算法往往会失去效果。所以本发明实施例，需要先确定训练种子用户的数目或训练种子用户与训练非种子用户之间的比例，并根据训练种子用户的数目或训练种子用户与训练非种子用户之间的比例，选取设定的算法分支。

例如，本发明实施例中设定的算法分支可以包括但不限制于有监督算法的分支和基于voting的算法分支。其中有监督算法的分支根据已知训练区提供的样本，通过选择特征参数，求出特征参数作为决策规则，建立判别函数以对各待分类数据进行分类，其是从主流分类模型中选取准确率高且稳定性好的业务数据模型模型。基于voting的算法分支适用于训练种子用户数目过少或训练种子用户与训练非种子用户之间的比例极不均衡的情况，但该类模型稳健性较差，可以作为次要模型补充使用。

在一个具体实现过程中，即使在典型种子用户数目足够的情况下，也需要考虑采用哪种机器学习的算法进行潜客挖掘，能够最有效地提高预测精度，并保证业务数据模型具备一定的稳定性，所以本发明实施例从业务数据模型的总体准确率及业务数据模型结果的稳定性等方面来进行选择，优先选择随机森林算法，但该业务数据的模型运行一段时间后，随着新特征数据不断补充，可能会降低该业务数据的模型的准确率，效率，因此每隔一段时间需要重新评估各个算法的优劣，选择最合适的模型，其中，有监督算法的分支可以包括但不限制于：随机森林算法、Adaboost、支持向量机(Support Vector Machine，SVM)算法、决策树(Classification And Regression Trees，CART)算法、K最邻近结点(K-NearestNeighbor algorithm KNN)算法、逻辑回归(Logistic Regression，LR)算法、线性判别(Linnear Discriminant analysis，LDA)算法。

204、利用预设的算法分支，对样本业务数据进行分析，得到业务数据模型。

在选取了合适的预设的算法分支后，可以利用该预设的算法分支，对样本业务数据进行训练，得到业务数据模型。

具体地，若选取的预设的算法分支为随机森林算法，其原理是以决策树为基础，进行多次自助法放回抽样。生成每棵树时，每个节点的变量都仅仅在随机选出的少数变量中产生，即在变量的使用和数据的使用上进行随机化生成很多分类树，再汇总分类树的结果。

为了能够使业务数据模型性能更优，本发明实施例在得到业务数据模型后，可以对该业务数据模型进行调优，例如，可以从确定构建决策树分支时随机抽样的变量最优个数(mtry值)和选择合适的决策树的数量(ntree参数值)这两个角度进行调优。其中，mtry参数是随机森林算法中构建决策树分支时随机抽样的变量个数，选择合适的mtry参数可以降低随机森林算法的预测错误率。例如，该输入的变量为18个，可以通过遍历设定mtry参数为1到18进行18次建模，并打印出每次建模的错误率，选择错误率最低的mtry值。Ntree参数指出建模时决策树的数量，设置过低会导致错误率偏高，而ntree值过高会提升模型复杂度，降低效率，因此在对该业务数据模型进行调优时，可以将不同的ntree参数值与模型错误率对应，选取错误率较低的ntree值。经试验后可以得知对该业务数据模型进行调优之后，其整体性能提高了1％左右。

若选取的预设的算法分支为基于voting的算法分支，其原理是先对训练种子用户和训练非种子用户进行分群(例如，划分为108个微群)，然后根据每个微群内训练种子用户的特征数据待挖掘用户的转化率，在该微群的训练非种子用户中寻找出与训练种子用户的特征数据相似的用户，即获取训练种子用户和训练非种子用户之间的相似程度，其取值范围为[0，1]，当完全相同时，相似度为1。

例如，每个训练种子用户相当于现实生活中的选民，训练非种子用户相当于候选人，每个选民对候选人都有投票的权利，票数较高的候选人就是该微群中被圈定出的潜客，具体分群方法可采用距离分群、相似度分群等。

本发明实施例的业务数据模型的构造方法，在得到的样本业务数据经过上述各算法分支训练后，可以形成一个能够根据实际需求和具体的投放场景，挖掘出符合实际需求和投放场景的潜在用户群的业务数据模型。

205、利用业务数据模型对验证种子用户的特征数据和验证非种子用户的特征数据进行验证，得到验证结果。

本发明实施例在构造了业务数据模型之后，可以利用交叉验证法，对得到业务数据模型进行验证，以得到该业务数据模型的稳定性。

例如，在样本用户中选取小部分验证种子用户，在构造了业务数据模型之后，分别获取验证种子用户的特征数据，并求取验证种子用户的特征数据的输出误差，记录它们的平方加和以及其他评估标准，从而综合验证业务数据模型的准确率、稳定性及其它的优良性质。用交叉验证法对业务数据模型进行验证的目的是为了得到可靠稳定的业务数据模型。

在一个具体实现过程中，本发明实施例为了可以采用10折交叉验证的方式，即将样本用户的特征数据分成十份，轮流将其中9份做训练，1份做验证，从10次的混淆矩阵中提取精确度、准确率、召回率和特异度等判定值的均值作为对算法精度的估计，并结合进行多次10折交叉验证求其均值，从而得到验证结果。

例如，设定的第一阈值为50％，经过10折交叉验证求其转化率均值为70％，得到的验证结果为测试种子用户，与事实相符，否则，若经过10折交叉验证求其转化率均值为40％，得到的验证结果为测试非种子用户，与事实不符，。

同理，对于测试非种子用户的验证过程也可以按照上述方式进行验证，最终可以得到的验证结果为测试非种子用户，与事实相符，或者，得到的验证结果为测试种子用户，与事实不符。

206、根据验证结果，得到业务数据模型的稳定性。

若得到的验证结果为与事实相符，可以进一步对业务数据模型的稳定性进行评估，例如，可以使用混淆矩阵及其衍生指标、受试者工作特征(receiver operatingcharacteristic，ROC)曲线来评估模型的分类的精确程度、阈值的科学度及业务数据模型的鲁棒性，进而得到业务数据模型的稳定性，例如业务数据模型稳定性较弱、业务数据模型稳定性较强、业务数据模型稳定性强等。

207、根据业务数据模型的稳定性，确定业务数据模型的时效性和更新周期。

由于指定机构的业务及市场环境可能存在变化，以及随着新特征数据的不断补充，可能会降低该业务数据的模型的准确率，效率，因此可以根据指定机构的业务及市场环境、业务数据模型的稳定性，确定业务数据模型的时效性和更新周期，以便保证业务数据模型能够应对指定机构的当前业务及市场环境，并根据新特征数据对业务数据模型进行更新。

通过本发明实施例的业务数据模型的构造方法构造的业务数据模型，能够在挖掘指定机构的潜在种子用户过程中，声测挖掘出指定机构内部有业务需求的用户，激活了大量沉睡或者不活跃的用户，最大程度的挖距了用户的可提升价值，大幅增加了用户贷款次数及额度使用率，且该业务数据模型的稳定性较高，在该业务数据模型稳定性检验时可实现6步向前(6STEP AHEAD)预测，且预测准确率在83％以上。

图3为本发明实施例的业务数据的处理装置实施例一的结构示意图，如图3所示，本发明实施例的业务数据的处理装置可以包括分析模块10、检测模块11和第一确定模块12，在一个具体实现过程中各模块之间能够实现数据相互交互。

分析模块10，用于利用预先构造的业务数据模型对指定机构中待挖掘用户的业务数据进行分析，得到待挖掘用户的转化率；

其中，预先构造的业务数据模型包括多数据源条件下种子用户相对于非种子用户的区别特征数据；

业务数据包括：待挖掘用户的业务统计数据和待挖掘用户的行为偏好数据；待挖掘用户的转化率是根据区别特征数据分别与待挖掘用户的业务统计数据和待挖掘用户的行为偏好数据的匹配度得到的；

检测模块11，用于检测待挖掘用户的转化率是否达到预设的第一阈值；

第一确定模块12，用于若检测模块11检测到待挖掘用户的转化率达到预设的第一阈值，确定待挖掘用户为指定机构的潜在种子用户。

本发明实施例的业务数据的处理装置，通过采用上述各模块实现对业务数据进行处理的实现机制与上述图1所示实施例的实现机制相同，详细可以参考上述图1所示实施例的记载，在此不再赘述。

本发明实施例的业务数据的处理装置，通过上述各模块能够利用预先构造的业务数据模型对指定机构中待挖掘用户的业务数据进行分析，得到待挖掘用户的转化率后，检测待挖掘用户的转化率是否达到预设的第一阈值，若检测到待挖掘用户的转化率达到预设的第一阈值，确定待挖掘用户为指定机构的潜在种子用户，实现了精确的定位潜在客户。本发明实施例的技术方案，能够提高客户转化率，提高客户的信用度使用程度，降低营销成本。

图4为本发明实施例的业务数据的处理装置实施例二的结构示意图，如图4所示，本发明实施例的业务数据的处理装置在图3的基础上进一步还可以包括第二确定模块13、第三确定模块14、训练模块15和验证模块16。

第二确定模块13，用于根据预设的业务标准，对样本用户进行分类，确定所述种子用户和所述非种子用户；其中，所述种子用户包括训练种子用户和验证种子用户，所述非种子用户包括训练非种子用户和验证非种子用户。

例如，预设的业务标准可以包括但不限制于业务规定时间窗口或信用额度使用率，可以将在指定的业务规定时间窗口发生过信用额度使用的样本用户划分为种子用户，或者，将信用额度使用率大于或等于预设的第二阈值的样本用户划分为种子用户。对应地，可以将在指定的业务规定时间窗口未发生过信用额度使用的样本用户划分为非种子用户，或者，将信用额度使用率小于预设的第二阈值的样本用户划分为非种子用户。

第三确定模块14，用于在多数据源条件下，根据所述训练种子用户的特征数据和所述训练非种子用户的特征数据，确定样本业务数据；

具体地，可以根据预设的转化标准，分别对训练种子用户的特征数据和训练非种子用户的特征数据进行转化，得到训练种子用户的标准特征数据和训练非种子用户的标准特征数据；根据预设的筛选算法，分别对训练种子用户的标准特征数据和训练非种子用户的标准特征数据进行筛选，得到训练种子用户的有效特征数据和训练非种子用户的有效特征数据；根据训练种子用户的有效特征数据和训练非种子用户的有效特征数据，确定训练种子用户相对于训练非种子用户的区别特征数据；例如，根据预设的合并准则，分别对训练种子用户的有效特征数据和训练非种子用户的有效特征数据进行合并，得到种子用户的有效特征数据集合和非种子用户的有效特征数据集合；检测每个训练种子用户的有效特征数据集合与对应的训练非种子用户的有效特征数据集合的区分度；根据区分度，按照由高到低的次序，依次选取指定数目的种子用户的有效特征数据集合；将指定数目的种子用户的有效特征数据集合中的相关数据作为训练种子用户相对于训练非种子用户的区别特征数据，并将区别特征数据作为样本业务数据。

训练模块15，用于利用预设的算法分支，对样本业务数据进行训练，得到业务数据模型。

验证模块16，用于利用业务数据模型对验证种子用户的特征数据和验证非种子用户的特征数据进行验证，得到验证结果；根据验证结果，得到业务数据模型的稳定性；根据业务数据模型的稳定性，确定业务数据模型的时效性和更新周期。

进一步地，第二确定模块13，还用于确定训练种子用户的数目或训练种子用户与训练非种子用户之间的比例；根据训练种子用户的数目或训练种子用户与训练非种子用户之间的比例，选取设定的算法分支。

需要说明的是，本发明实施例中第二确定模块13、第三确定模块14、训练模块15和验证模块16可以单独组成一个业务数据模块构造装置，其目的仅用来构造业务数据模块。

本发明实施例的业务数据的处理装置，通过采用上述各模块实现对业务数据进行处理的实现机制与上述图2所示实施例的实现机制相同，详细可以参考上述图2所示实施例的记载，在此不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明实施例的实施例可提供为方法、系统或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种业务数据的处理方法，其特征在于，包括：

检测所述待挖掘用户的转化率是否达到预设的第一阈值；

2.根据权利要求1所述的方法，其特征在于，利用预先构造的业务数据模型对待处理业务数据进行分析，得到待挖掘用户的转化率之前，还包括：

根据预设的业务标准，对样本用户进行分类，确定所述种子用户和所述非种子用户；其中，所述种子用户包括训练种子用户和验证种子用户，所述非种子用户包括训练非种子用户和验证非种子用户；

在多数据源条件下，根据所述训练种子用户的特征数据和所述训练非种子用户的特征数据，确定样本业务数据；

利用预设的算法分支，对所述样本业务数据进行训练，得到所述业务数据模型。

3.根据权利要求2所述的方法，其特征在于，根据所述训练种子用户的特征数据和所述训练非种子用户的特征数据，确定样本业务数据，包括：

根据预设的转化标准，分别对所述训练种子用户的特征数据和所述训练非种子用户的特征数据进行转化，得到所述训练种子用户的标准特征数据和所述训练非种子用户的标准特征数据；

根据预设的筛选算法，分别对所述训练种子用户的标准特征数据和所述训练非种子用户的标准特征数据进行筛选，得到所述训练种子用户的有效特征数据和所述训练非种子用户的有效特征数据；

根据所述训练种子用户的有效特征数据和所述训练非种子用户的有效特征数据，确定所述训练种子用户相对于所述训练非种子用户的区别特征数据；

将所述区别特征数据作为所述样本业务数据。

4.根据权利要求3所述的方法，其特征在于，根据所述训练种子用户的有效特征数据和所述训练非种子用户的有效特征数据，确定所述训练种子用户相对于所述训练非种子用户的区别特征数据，包括：

根据预设的合并准则，分别对所述训练种子用户的有效特征数据和所述训练非种子用户的有效特征数据进行合并，得到种子用户的有效特征数据集合和非种子用户的有效特征数据集合；

检测每个训练种子用户的有效特征数据集合与对应的训练非种子用户的有效特征数据集合的区分度；

根据所述区分度，按照由高到低的次序，依次选取指定数目的种子用户的有效特征数据集合；

将所述指定数目的种子用户的有效特征数据集合中的相关数据作为所述训练种子用户相对于所述训练非种子用户的区别特征数据。

5.根据权利要求2所述的方法，其特征在于，所述预设的业务标准包括业务规定时间窗口；

根据预设的业务标准，对样本用户进行分类，确定所述种子用户和所述非种子用户，包括：

将在指定的业务规定时间窗口发生过信用额度使用的样本用户划分为所述种子用户；或者，

将在指定的业务规定时间窗口未发生过信用额度使用的样本用户划分为所述非种子用户。

6.根据权利要求2所述的方法，其特征在于，所述预设的业务标准包括信用额度使用率；

将信用额度使用率大于或等于预设的第二阈值的样本用户划分为所述种子用户；或者，

将信用额度使用率小于预设的第二阈值的样本用户划分为所述非种子用户。

7.根据权利要求2-6任一所述的方法，其特征在于，利用预设的算法分支，对所述样本业务数据进行训练，得到所述业务数据模型之前，还包括：

确定所述训练种子用户的数目或所述训练种子用户与所述训练非种子用户之间的比例；

根据所述训练种子用户的数目或所述训练种子用户与所述训练非种子用户之间的比例，选取所述设定的算法分支。

8.根据权利要求2-6任一所述的方法，其特征在于，利用预设的算法分支，对所述样本业务数据进行训练，得到所述业务数据模型之后，还包括：

利用所述业务数据模型对所述验证种子用户的特征数据和所述验证非种子用户的特征数据进行验证，得到验证结果；

根据所述验证结果，得到所述业务数据模型的稳定性；

根据所述业务数据模型的稳定性，确定所述业务数据模型的时效性和更新周期。

9.一种业务数据的处理装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，还包括：

第二确定模块，用于根据预设的业务标准，对样本用户进行分类，确定所述种子用户和所述非种子用户；其中，所述种子用户包括训练种子用户和验证种子用户，所述非种子用户包括训练非种子用户和验证非种子用户；

第三确定模块，用于在多数据源条件下，根据所述训练种子用户的特征数据和所述训练非种子用户的特征数据，确定样本业务数据；

训练模块，用于利用预设的算法分支，对所述样本业务数据进行训练，得到所述业务数据模型。